CN104221012A

CN104221012A - 文档搜索装置和文档搜索方法

Info

Publication number: CN104221012A
Application number: CN201280067066.1A
Authority: CN
Inventors: 藤井洋一; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-03-13
Filing date: 2012-12-27
Publication date: 2014-12-17
Also published as: JP5847290B2; US20150112683A1; JPWO2013136634A1; WO2013136634A1; DE112012006633T5

Abstract

发声内容估计部(14)基于学习了询问文档(1)的内容的设想提问与成为其回答的文档ID的对应关系的发声估计模型(9)，从文档(1)内估计与用户输入分析结果(11)的回答相当的文档ID。结果合并部(16)将发声估计模型(9)的文档估计结果(15)与搜索索引(5)的文档搜索结果(13)进行合并来生成最终搜索结果(17)。

Description

文档搜索装置和文档搜索方法

技术领域

本发明涉及一种搜索被电子化的文档的章、节、项等细小的单位的文档搜索装置和文档搜索方法。

背景技术

对家电产品和车载设备等大量的设备附有记载了操作方法和故障时的应对方法等的纸的使用说明书。其中，尤其在具有画面的信息设备中，使用说明书被电子化，能够直接搜索和阅览。由此，无需特意携带纸的文档就能够阅览。另一方面，被电子化的文档的一览性低，难以查找用户想要确认的内容，必须提供搜索功能。

作为在以往的搜索功能中的典型的功能中最简单的方式，有如下GREP搜索方式：利用关键词进行搜索，将搜索到的部分从文档的开头起按出现顺序进行显示。并且有如下逻辑型搜索方式：预先根据文档和提取出的关键词制作搜索索引，利用该搜索索引来进行基于逻辑式的搜索，并显示候选。另外，在逻辑型搜索方式中无法定义表示输入关键词与搜索索引之间的关联度的分数，因此有简单地输入关键词并对其出现频度进行计数来决定分数的最佳匹配搜索方式。并且，有如下统计型搜索方式：根据关键词制作附加了tf·idf(term frequencyand inverse document frequency，词频和逆文档频率)等统计性权重的搜索索引，利用与输入关键词的向量距离(内积)进行搜索并显示候选。通过这些搜索方式的提供，能够搜索被电子化的文档，在某种程度上能够阅览用户所要求的部分。

在逻辑型搜索方式中，由于仅搜索与搜索条件严格一致的内容，因此，虽然具有如果运用复杂的搜索条件则容易找到与用户的搜索意图一致的内容这样的优点，但另一方面，存在如果搜索条件有一点不合适则容易导致搜索遗漏这样的缺点。另外，还存在构建复杂的搜索式对于一般用户来说是障碍高这样的缺点。因而，最一般的逻辑型搜索是输入多个关键词并通过OR逻辑运算求出搜索结果来呈现的方式。

另一方面，在最佳匹配搜索方式和统计型搜索方式的情况下，具有无需在关键词中加入逻辑性结构而能够搜索这样的优点，而另一方面，由于文档中的关键词的出现次数被简单地分数化，或者利用与出现倾向相应地加权的值计算分数，因此存在用户难以控制这样的缺点。

鉴于这些方式的优点和缺点，作为有效利用双方的好处的方法，提出了将多个搜索引擎合并来进行处理的方法。例如在专利文献1中公开了如下方法：通过将逻辑型搜索方式和统计型搜索方式、或者最佳匹配搜索方式和统计型搜索方式分别独立地执行并将其结果逻辑性地合并，来进行搜索。

具体地说，从逻辑型搜索方式的搜索引擎仅求得搜索结果候选的信息，从最佳匹配搜索方式和统计型搜索方式的搜索引擎求得搜索结果候选及其分数作为信息。

在将逻辑型搜索方式与统计型搜索方式合起来的情况下，例如仅将逻辑式型搜索结果和统计型搜索结果中文档ID重叠的内容作为最终结果候选，或者将逻辑式型搜索结果和统计型搜索结果的文档ID的全部作为最终结果候选，在此基础上将统计型搜索结果的分数使用于最终结果的排序。

并且，在将最佳匹配搜索方式与统计型搜索方式合并的情况下，使用分数的平均来进行最终结果的排序。

另外，在以往的搜索方式中，提出了如下方法：为了减少由于关键词的表层上的差异而无法搜索的情况，制作好同义词和近义词的表，将搜索条件中的关键词展开为同义词和近义词来进行搜索。

专利文献1：日本特开平10-143530号公报

发明内容

发明要解决的问题

以往的文档搜索装置和文档搜索方法如以上那样构成，因此与通过单独的搜索方式进行搜索时相比，容易得到用户所期望的搜索结果。然而，这些搜索方式中，用于制作搜索索引的关键词的提取对象是搜索对象的文档本身，因此在使用单独的搜索方式的情况和组合使用多个搜索方式的情况下，都是以搜索在文档内出现的关键词为基本。

另外，在实际的搜索场合下，进行搜索的一侧不得不在不知道文档中使用的关键词是什么的状态下输入搜索条件，因此发生无法查到期望的文档的情况。为了解决这个问题，进行基于同义词和近义词展开的搜索，由此能够期待一些改善。然而，使用说明书等文档中，为了期待正确性而大多记载使用了专门用语以及对于独特功能的特别用语的说明，导致对于一般用户和想要知道使用方法的初学者用户来说不知道将什么作为关键词来搜索时能够得到期望的说明的状况的情况多。具体地说，作为表示汽车导航的地图朝向的用语的“北基準(以北为基准)”或“自車基準(以本车为基准)”这样的用语对于汽车导航初学者来说是连想像都想像不到的关键词，发生如下情况：想要以“走っていく方向がいつも上側になる地図にしたい(想要设为行驶的方向始终为上侧的地图)”这样的条件来进行搜索，由于不存在适当的关键词而无法得到期望的搜索结果。

本发明是为了解决如上所述的问题而完成的，其目的在于针对用户利用自然语言进行的输入呈现比利用简单的搜索方式得到的搜索结果更适当的搜索结果。

用于解决问题的方案

本发明所涉及的文档搜索装置具备：根据预先准备的文档制作的搜索索引；以及文档搜索部，接收来自用户的输入，使用搜索索引从文档内搜索与该用户输入有关联的项目；发声估计模型，学习了询问文档的内容的设想提问与成为该设想提问的回答的文档内的项目的对应关系；发声内容估计部，根据发声估计模型从文档内估计与用户输入的回答相当的项目；以及结果合并部，将从文档搜索部得到的文档搜索结果与从发声内容估计部得到的文档估计结果进行合并来生成最终搜索结果。

本发明所涉及的文档搜索方法具备：用户输入步骤，接收来自用户的输入；文档搜索步骤，使用根据预先准备的文档制作的搜索索引，从该文档内搜索与用户输入有关联的项目；发声内容估计步骤，基于学习了询问文档的内容的设想提问与成为该设想提问的回答的文档内的项目的对应关系的发声估计模型，从文档内估计与用户输入的回答相当的项目；以及结果合并步骤，将从文档搜索步骤得到的文档搜索结果与从发声内容估计步骤得到的文档估计结果进行合并来生成最终搜索结果。

发明的效果

根据本发明，使用学习了设想用户采用何种问法的提问与成为其回答的文档项目的对应关系的发声估计模型，从文档内估计与用户输入的回答相当的项目，将估计结果与索引搜索的结果进行合并，因此针对用户利用自然语言进行的输入能够呈现比利用简单的搜索方式得到的结果更适当的搜索结果。

附图说明

图1是表示本发明的实施方式1所涉及的文档搜索装置的结构的框图。

图2是表示实施方式1所涉及的文档搜索装置的文档的例子的图。

图3是表示实施方式1所涉及的文档搜索装置的文档分析结果和搜索索引用的关键词列表的例子的图。

图4是表示实施方式1所涉及的文档搜索装置的收集发声数据的例子的图。

图5是表示实施方式1所涉及的文档搜索装置的收集发声分析结果和发声估计模型用的关键词列表的例子的图。

图6是表示实施方式1所涉及的文档搜索装置的根据文档制作搜索索引的动作的流程图。

图7是表示实施方式1所涉及的文档搜索装置的根据收集发声数据制作发声估计模型的动作的流程图。

图8是表示实施方式1所涉及的文档搜索装置的根据用户输入制作最终搜索结果的动作的流程图。

图9是表示实施方式1所涉及的文档搜索装置中的用户输入的转变例的图。

图10是表示图9的用户输入的转变例的后续内容的图。

图11是表示本发明的实施方式2所涉及的文档搜索装置的结构的框图。

图12是表示实施方式2所涉及的文档搜索装置的文档的层级的图。

图13是表示实施方式2所涉及的文档搜索装置的根据用户输入制作最终搜索结果的动作的流程图。

图14是表示实施方式2所涉及的文档搜索装置中的用户输入的转变例的图。

图15是表示本发明的实施方式3所涉及的文档搜索装置的文档的例子的图。

图16是表示实施方式3所涉及的文档搜索装置的文档分析结果和搜索索引用的关键词列表的例子的图。

图17是表示实施方式3所涉及的文档搜索装置的收集发声数据的例子的图。

图18是表示实施方式3所涉及的文档搜索装置的收集发声分析结果和发声估计模型用的关键词列表的例子的图。

图19是表示实施方式3所涉及的文档搜索装置中的用户输入的转变例的图。

图20是表示图19的用户输入的转变例的后续内容的图。

图21是表示本发明的实施方式4所涉及的文档搜索装置的文档的例子的图。

图22是表示实施方式4所涉及的文档搜索装置的文档分析结果和搜索索引用的关键词列表的例子的图。

图23是表示实施方式4所涉及的文档搜索装置的收集发声数据的例子的图。

图24是表示实施方式4所涉及的文档搜索装置的收集发声分析结果和发声估计模型用的关键词列表的例子的图。

图25是表示实施方式4所涉及的文档搜索装置中的用户输入的转变例的图。

图26是表示图25的用户输入的转变例的后续内容的图。

(附图标记说明)

1：文档；2：输入分析部；3：文档分析结果；4：搜索索引制作部；5：搜索索引；6：收集发声数据；7：收集发声分析结果；8：发声估计模型制作部；9：发声估计模型；10：用户输入；11：用户输入分析结果；12：文档搜索部；13：文档搜索结果；14：发声内容估计部；15：文档估计结果；16：结果合并部；17：最终搜索结果；18：搜索对象限定部；19：文档限定列表

具体实施方式

下面，为了更详细地说明本发明，按照附图来说明用于实施本发明的方式。

实施方式1.

下面，参照附图来说明本发明的实施方式。

图1是表示本实施方式1所涉及的文档搜索装置的结构的框图。

文档1是将产品的使用说明书等进行电子化所得的文本数据。设该文档1与产品功能等相应地在某种程度上层级化为章、节、项等项目。输入分析部2利用作为公知技术的语素(morphological)分析等方法将文档1的文本等分割为语素单位。文档分析结果3是通过输入分析部2将文档1分割为语素所得的数据。

搜索索引制作部4根据文档分析结果3制作搜索索引5。该搜索索引5针对来自文档搜索部12的关键词的输入返回文档1中的特定的章、节、项等项目作为搜索结果。

收集发声数据6是在利用文档1的情况下预先通过用户问卷调查(questionnaire)等方法收集了想要问的问题的发声数据。关于收集发声数据6的制作方法，设想预先根据写在文档1中的产品功能生成提问，将其以问卷调查等形式事先汇集。

收集发声分析结果7是通过输入分析部2将收集发声数据6分割为语素所得的数据。

发声估计模型制作部8将收集发声分析结果7的语素单位作为学习单位(生性)来进行统计性学习，制作发声估计模型9。该发声估计模型9是用于以收集发声分析结果7的语素列为输入并将与对于所述提问的回答相当的项目带有分数(score)地作为发声内容估计结果返送的学习结果数据。

用户输入10是表示针对文档搜索装置的来自用户的输入的数据。在此，设用户输入10为文本输入来进行说明。用户输入分析结果11是通过输入分析部2将用户输入10分割为语素所得的数据。

文档搜索部12以用户输入分析结果11为输入，利用搜索索引5进行搜索，制作文档搜索结果13。

发声内容估计部14以用户输入分析结果11为输入，使用发声估计模型9估计与该输入对应的项目，获取该项目的文档ID。文档估计结果15是包含由发声内容估计部14估计的文档ID及其分数(后述)的数据。

结果合并部16将文档搜索结果13与文档估计结果15合并来汇总为一个搜索结果，作为最终搜索结果17输出。

图2是文档1的例子。文档1具有如章、节、项那样的层级结构，按每个层级具有表示搜索结果位置的文档ID。在图2的例子中，文档ID“Id_10_1”的文档1-1还包含下位的数据结构内所包含的文本。例如表示“Id_10_1_1”的文档1-2还包含在“Id_10_1”的文档1-1中。

图3是文档分析结果3和搜索索引5用的关键词列表的例子。“Id_10_1_1”是文档分析结果3-1的一例，表示对图2的“Id_10_1_1”的文档1-2进行基于语素分析的输入分析的结果。在该文档分析结果3-1中，以“/”来划分了语素分析结果的划分。

搜索索引用数据3-2表示以“Id_10_1_1”的文档分析结果3-1为基础的由搜索索引制作部4使用的数据例。在此，提取出文档ID和独立词语素的一般形(关键词)的列表。

图4是收集发声数据6的例子。收集发声数据6-1是与“Id_10”的文档对应的提问的例子，收集发声数据6-2是与“Id_10_1”的文档对应的提问的例子，收集发声数据6-3是与“Id_10_1_1”的文档对应的提问的例子。收集发声数据6-4是意图想要知道地图种类的具体变更方法的提问，但是由于是通过此处设想的产品无法实现的地图种类，因此是无法选择与“Id_10_1_1”相同层级的文档ID的收集发声数据例。

此外，这些收集发声数据6-1～6-4是设想了用户为了确认产品的功能而采用何种问法的提问文例。

图5是收集发声分析结果7和发声估计模型9用的关键词列表的例子。“Id_10_1_1”是收集发声分析结果7-1的一例，表示对图4的“Id_10_1_1”的收集发声数据6-1的文本进行基于语素分析的输入分析的结果。

发声估计模型用数据7-2表示以“Id_10_1_1”的收集发声分析结果7-1为基础的由发声估计模型制作部8使用的数据例。在此，提取出文档ID和独立词语素的一般形(关键词)的列表。

接着，说明文档搜索装置的动作。

动作大体分为两个处理。一个是根据文档1和收集发声数据6分别制作搜索索引5、发声估计模型9的制作处理，另一个是接收用户输入10来制作最终搜索结果17的搜索处理。首先，说明制作处理。

首先，说明制作处理中的搜索索引5的制作方法。在此，设进行以往技术中公开的基于tf·idf的加权。

图6是表示根据文档1制作搜索索引5为止的动作的流程图。设如图2所示那样文档1为文档ID与文本相对应的对。例如在文档1-2中，在文档ID“Id_10_1_1”这样的名称上对应有“自車基準。自車の進行方向を上とした地図が表示されます。”这样的文本。在步骤ST1中，输入分析部2依次读入该结构的文档1，通过作为已知技术的语素分析分割为语素列。对文档1-2进行语素分析的结果为图3的文档分析结果3-1。该文档分析结果3-1虽然只示出语素的划分“/”，但是设实际上包含词类信息、活用词的原型、读音等。

当针对所有文档ID生成了文档分析结果3时，在接下来的步骤ST2中，搜索索引制作部4从所有文档分析结果3提取搜索索引5的制作所需的语素(关键词)，制作(文档ID、关键词列表)的对，制作基于所有对通过tf·idf加权的搜索索引5。从图3的文档分析结果3-1提取的(文档ID、关键词列表)的对以相同的图3的搜索索引用数据3-2来表示。

不具体说明搜索索引制作过程，而简单说明。首先，tf·idf是以所有文档ID中包含的关键词数量为向量的维度，将各关键词分配到向量的元素，以频度表示向量的值(tf的部分)。对该向量值以适于“大量的文档中出现的关键词(一般词)的重要度低，只在特定的文档中出现的关键词的重要度高”这样的启发(heuristic)的方式进行加权(idf的部分)。该加权表成为搜索索引5。

接着，说明发声估计模型9的制作处理。

图7是表示根据收集发声数据6制作发声估计模型9为止的动作的流程图。收集发声数据6是如图4的收集发声数据6-1～6-4所表示的那样将预先从用户收集的发声分配到成为其回答的文档ID的数据。关于收集发声数据6的制作方法，是通过问卷调查等呈现说明了按照每个文档ID的功能的内容并将表示在想要查找该功能时说什么的文章汇集得到的数据。例如，在呈现了图4的“Id_10_1_1”的“自車基準。自車の進行方向を上とした地図が表示されます。”这样的具体内容的情况下，可期待能够收集如收集发声数据6-3那样的发声，另一方面，在呈现了如“Id_10”那样的上位概念的情况下，可期待能够收集如收集发声数据6-1那样的数据以及如收集发声数据6-2～6-4那样的发声。此外，收集发声数据6-4是文档1的产品的功能外的内容的发声数据，在该情况下被分配到中间性的“Id_10_1”的文档ID。设上述的作业是通过人工来预先进行的，准备好图4的结构的数据。

输入分析部2在步骤ST3中，与在步骤ST1中以文档1为输入的情况同样地进行收集发声数据6的语素分析。例如，对图4的收集发声数据6-3进行语素分析的结果为图5的收集发声分析结果7-1。在接下来的步骤ST4中，发声估计模型制作部8与步骤ST2同样地进行用于提取文档ID和关键词的列表作为发声估计模型用数据7-2并制作发声估计模型9的处理。在此，设发声估计模型9通过最大熵法(以下、ME法)进行学习。

不详细说明ME法，而简单说明。ME法是以(文档ID、关键词列表)的对为学习数据、并在将关键词的列表作为输入而输入的情况下估计其文档ID的方法。以在根据关键词的列表估计文档的ID时在学习的数据中最容易发生的(正确答案变多)的方式计算(文档ID、关键词列表)的对的权重并将其保存所得的是发声估计模型9。

从所有收集发声分析结果7提取关键词，通过ME法进行学习来制作发声估计模型9。具体地说，针对图5的收集发声分析结果7-1，提取相同的图5的发声估计模型用数据7-2，基于该发声估计模型用数据7-2进行上述学习。

接着，说明搜索处理。

图8是表示根据用户输入10制作最终搜索结果17为止的动作的流程图。图9和图10表示作为用户输入10的一例的用户输入10-1的搜索处理中的转变例。在此，关于用户输入10设想利用文本的输入，设输入了图9的用户输入10-1来进行说明。输入分析部2在步骤ST11中首先接收用户输入10-1，进行语素分析来生成用户输入分析结果11-1，从用户输入分析结果11-1提取独立词来制作关键词列表11-2。在接下来的步骤ST12中，发声内容估计部14将该关键词列表11-2使用于输入，从发声估计模型9得到图10的文档估计结果15-1。如图10所示，文档估计结果15-1按分数顺序排列。该分数是根据发声估计模型9中保存的(文档ID、关键词列表)的对的权重计算的值，对与用户输入10的关联程度高的文档ID、即适合作为针对用户输入10的提问的回答的文档ID赋予高的分数。

当得到文档估计结果15-1时，在接下来的步骤ST13中，这次是文档搜索部12将关键词列表11-2使用于输入，根据搜索索引5得到图10的文档搜索结果13-1。如图10所示，文档搜索结果13-1也按分数顺序排列。该分数是根据搜索索引5中保存的tf·idf的权重计算的值，对与用户输入10的关联程度高的文档ID赋予高的分数。

此外，文档估计结果15的分数和文档搜索结果13的分数的计算方法中使用公知技术即可，因此省略此处的说明。

当步骤ST13的处理结束时，接着转移到步骤ST14的处理，结果合并部16判断文档估计结果15-1的最大分数是否为此处决定的阈值X(例如、X＝0.9)以上。在文档估计结果15-1中最大分数小于阈值X(步骤ST14“否”)，因此结果合并部16进入步骤ST16的处理。在步骤ST16中，针对每个文档ID进行文档搜索结果13-1的分数与文档估计结果15-1的分数的加权相加，制作最终搜索结果17-1。在图10中，以(文档估计结果15-1的分数):(文档搜索结果13-1的分数)＝1:1来相加得到的结果成为最终搜索结果74。

另一方面，在步骤ST14中文档估计结果15-1的最大分数超过阈值X的情况下(步骤ST14“是”)，在接下来的步骤ST15中结果合并部16废弃文档搜索结果13-1，而将文档估计结果15-1作为最终搜索结果(未图示)。

当搜索结束时，文档搜索装置在画面上显示文档ID的标题等来使得用户进行选择，由此呈现期望的文档位置。

根据以上内容，根据实施方式1，文档搜索装置构成为具备：文档搜索部12，接收根据预先准备的文档1制作的搜索索引5以及对用户输入10进行分析所得的用户输入分析结果11，使用搜索索引5从文档1内搜索与用户输入分析结果11有关联的文档ID；发声估计模型9，是学习收集发声数据6而得到的，该收集发声数据6定义了询问文档1的内容的设想提问(用户发声)与成为其回答的文档ID的对应关系；发声内容估计部14，基于发声估计模型9从文档1内估计与用户输入分析结果11的回答相当的文档ID；以及结果合并部16，将从文档搜索部12得到的文档搜索结果13与从发声内容估计部14得到的文档估计结果15合并来生成最终搜索结果17。因此，通过进行与简单的文档搜索功能不同的、基于收集发声数据6的发声内容估计，能够进行通过以往的文档搜索功能是无法实现的、利用一般用户和初学者用户所输入的在文档1中不会出现的表达方式和一般用语的搜索。因此，针对用户利用自然语言进行的输入，能够呈现比利用简单的搜索方式得到的结果更适当的搜索结果。

另外，根据实施方式1，设为如下结构：发声内容估计部14对所估计的文档ID赋予与和用户输入10的关联程度相应的分数，结果合并部16在从发声内容估计部14得到的文档估计结果15的分数大于预先决定的阈值X的情况下，忽略从文档搜索部12得到的文档搜索结果13来生成最终搜索结果17。因此，在一般用户和初学者用户的输入是在文档1中不会出现的表达方式和一般用语的情况下，能够避免在简单的搜索方式中包含大量的不适当的搜索结果候选的情况，针对用户的输入能够呈现更适当的搜索结果。

此外，在实施方式1中，设为在文档估计结果15的最大分数大于预先决定的阈值X的情况下将文档估计结果15直接作为最终搜索结果17的结构，但是也可以从最初起以规定的比例对文档估计结果15的分数和文档搜索结果13的分数进行加权相加。文档估计结果15的分数是根据从用户的发声直接估计的文档计算出的，与此相对，文档搜索结果13的分数是根据文档中的关键词的有无计算出的。因而，分别既有长处又有短处，通过对它们进行加权相加，能够呈现在两种方式下都具有好分数的结果。

另外，根据实施方式1，文档搜索装置构成为具备：输入分析部2，分析预先准备的文档1和收集发声数据6，该收集发声数据6定义了询问该文档1的内容的用户发声与成为其回答的文档ID的对应关系；搜索索引制作部4，根据从输入分析部2输出的文档分析结果3制作搜索索引5；以及发声估计模型制作部8，使用从输入分析部2输出的收集发声分析结果7学习用户发声与文档ID的对应关系来制作发声估计模型9。因此，能够进行通过以往的文档搜索功能是无法实现的、利用一般用户和初学者用户所输入的在文档1中不会出现的表达方式和一般用语的搜索。

实施方式2.

图11是表示本实施方式2所涉及的文档搜索装置的结构的框图。此外，在图11中对与图1相同或相当的部分附加同一符号并省略说明。

与上述实施方式1之间的大的差异是以下2点。

(1)制作将分配收集发声数据6的文档ID的单位不是设为细小的单位而是设为更大的单位的发声估计模型9。

(2)文档估计结果15是以限定基于搜索索引5的搜索对象范围的目的来使用。

在图11中，搜索对象限定部18将文档搜索部12的搜索对象限定为文档估计结果15的下位文档ID。文档限定列表19保持被限定的文档ID。

图12是表示文档1的文档ID的层级的图。在图12的例子中，表示将收集发声数据6不会分配到比第2层级(以四角包围的文档ID)更下位的层的文档ID，而是分配到第1层级和第2层级的文档ID。

接着，说明文档搜索装置的动作。

制作处理中的动作基本上与上述实施方式1相同。但是，将收集发声数据6向文档ID的分配如图12所示那样设为第2层级以上。因而，在图4中，收集发声数据6-1被分配给文档ID“Id_10”，除此以外的收集发声数据6-2～6-4全部被分配给“Id_10_1”。

接着，说明搜索处理。

图13是表示根据用户输入10制作最终搜索结果17为止的动作的流程图。图14是说明搜索对象限定部18的动作的图。与上述实施方式1同样地，在此用户输入10也设想利用文本的输入，设输入了图9的用户输入10-1来进行说明。在步骤ST11中，输入分析部2与图8同样地分析用户输入10-1。接着，在步骤ST12中，发声内容估计部14进行发声内容估计。估计结果成为图14的文档估计结果15-2(文档ID、分数)。如上所述，收集发声数据6向文档ID的分配被限制为第2层级以上，因此不存在第3层级以下的文档ID。

在接下来的步骤ST21中，搜索对象限定部18确认文档估计结果15-2的分数成为阈值Y(例如、Y＝0.6)以上的文档ID是否为1个以上。在文档估计结果15-2中，“ID_10_1”的分数为0.6以上(步骤ST21“是”)，因此使处理转移到步骤ST22，展开分数为阈值Y以上的文档ID的下位层，对展开的各文档ID赋予相同的分数。另外，在文档估计结果15-2中只有“Id_10_1”为阈值Y以上，因此搜索对象限定部18将“Id_10_1”的下位层的“Id_10_1_1”～“Id_10_1_7”选择为搜索对象，设定为文档限定列表19-1。

在接下来的步骤ST23中，文档搜索部12使用图14的关键词列表11-2对搜索索引5进行搜索，得到文档搜索结果13-1。然后，在步骤ST24中将对该文档搜索结果13-1的分数乘以文档限定列表19-1的分数所得的结果输出为最终搜索结果17-2。

另一方面，在步骤ST21中，在文档估计结果15-2中不存在超过阈值Y的分数的情况下(步骤ST21“否”)，搜索对象限定部18废弃该文档估计结果15-2(步骤ST25)，在接下来的步骤ST26中文档搜索部12得到以所有文档ID为搜索对象的文档搜索结果(未图示)，直接输出为最终搜索结果(未图示)。

根据以上内容，根据实施方式2，文档搜索装置构成为：具备搜索对象限定部18，该搜索对象限定部18提取从发声内容估计部14得到的文档估计结果15中的、预先决定的阈值Y以上的分数的文档ID及其下位层的文档ID，发声内容估计部14基于学习了比成为搜索索引5的搜索的最小单位的层级更上位的层级的文档ID与收集发声数据6的对应关系的发声估计模型9进行估计，结果合并部16将从发声内容估计部14得到的文档估计结果15中的由搜索对象限定部18提取的文档ID与从文档搜索部12得到的文档搜索结果13进行合并。因此，如果将收集发声数据6分配到更上位的层级的文档ID，则能够将收集发声数据6对应于可以不考虑基于产品机型的功能的细小差异的文档ID。因此，文档ID与收集发声数据6的相对应变得容易，并且能够抑制因数据稀疏性引起的搜索的精度降低。另外，由于能够以通用水平定义产品的功能，因此在担负大量的机型的产品开发中也能够用作共用的收集发声数据6，容易应对新的产品。

此外，在上述实施方式1、2中，将统计型搜索方式的搜索索引用作搜索索引5来进行了说明，但是也可以使用逻辑型搜索方式的搜索索引并基于搜索关键词的出现次数的总和来设定概率。在该情况下，考虑如下方法：将搜索关键词出现次数的总和最大的情况设为N，将各文档中的搜索关键词出现次数的总和除以N得到的值设为分数，或者将搜索结果的所有文档的N的总和设为M，将各文档中的搜索关键词出现次数的总和除以N得到的值设为分数。

并且，在上述实施方式1、2中，示出了作为搜索索引5的制作单位和发声估计模型9的制作单位以独立词单位进行的例子，但是也可以以音素n-gram和音节n-gram等为单位来制作搜索索引5和发声估计模型9。另外，也可以将高频出现单词和音素n-gram、或者高频出现单词和音节n-gram进行组合来制作搜索索引5和发声估计模型9。在该情况下，能够削减搜索索引5和发声估计模型9的大小。

另外，在上述实施方式1、2中，关于如图4的收集发声数据6-4那样的由于没有相应的产品功能且没有适当的说明部分而对文档1的哪个部分都不能适用的发声，也可以赋予特别的文档ID来制作发声估计模型9，在对于用户输入10的文档估计结果15的最大分数的文档ID为该特别的文档ID的情况下，在结果合并部16中不利用文档搜索结果13而制作最终搜索结果17。另外，在该情况下，作为文档搜索装置，也可以构成为呈现与特别的文档ID对应的消息。

并且，在上述实施方式1、2中，以用户输入10为文本输入的情况为例进行了说明，但是也可以使用声音识别作为输入手段。在该情况下，考虑将声音识别结果的第1候选的文本作为用户输入10进行处理的方法以及将第N个候选为止作为用户输入10进行处理的方法等。另外，在以语素为单位来生成声音识别结果的情况下，也可以省略输入分析部2中的处理而直接作为用户输入分析结果11来进行处理。

另外，在上述实施方式1、2中，说明了日文的输入例，但是不限定语言，即使是英文、德文、中文等，通过按语言更换输入分析部2，也能够得到同样的效果。

实施方式3.

下面，说明英文的输入例。

本实施方式3的文档搜索装置在附图上是与图1所示的文档搜索装置相同的结构，因此下面引用图1进行说明。

图15是输入到本实施方式3所涉及的文档搜索装置的文档1的英文例。文档1具有如章、节、项那样的层级结构，按每个层级具有表示搜索结果位置的文档ID。在图15的例子中，文档ID“Id_10_1”的文档1-11还包含下位的数据结构内所包含的文本。例如表示“Id_10_1_1”的文档1-12还包含在“Id_10_1”的文档1-11中。

图16是文档分析结果3和搜索索引5用的关键词列表的例子。“Id_10_1_1”是文档分析结果的一例，表示对图15的“Id_10_1_1”的文档1-12进行基于语素分析的输入分析的结果。在该文档分析结果3-11中，只呈现了以“/”来划分了语素分析结果的划分的信息，但是实际上还生成词类信息等信息。

搜索索引用数据3-12表示以“Id_10_1_1”的文档分析结果3-11为基础的由搜索索引制作部4使用的数据例。在此，提取出文档ID以及除了前置词、冠词、be动词、代名词以外的独立词语素。

图17是收集发声数据6的例子。收集发声数据6-11是与“Id_10”的文档对应的提问的例子，收集发声数据6-12是与“Id_10_1”的文档对应的提问的例子，收集发声数据6-13是与“Id_10_1_1”的文档对应的提问的例子。收集发声数据6-14是意图想要知道地图种类的具体变更方法的提问，但是由于是通过此处设想的产品无法实现的地图种类，因此是无法选择与“Id_10_1_1”相同层级的文档ID的收集发声数据例。

图18是收集发声分析结果7和发声估计模型9用的关键词列表的例子。“Id_10_1_1”的收集发声分析结果7-11表示图17的“Id_10_1_1”的收集发声数据6-13的收集发声分析结果例，发声估计模型用数据7-12表示以“Id_10_1_1”的收集发声分析结果7-11为基础的由发声估计模型制作部8使用的数据例。在此，提取出文档ID以及除了前置词、冠词、be动词以外的独立词语素。

接着，说明文档搜索装置的动作。

本实施方式3所涉及的文档搜索装置的动作(制作处理、搜索处理)基本上与上述实施方式1的图6～图8相同。因而，在此只说明不同的部分。首先，说明制作处理。

设如图15所示那样文档1为文档ID与文本相对应的对。例如在文档1-12中，在文档ID“Id_10_1_1”这样的名称上对应有“Headingup.Display the map which rotated to always face the direction you aretravelling”这样的文本。在图6的步骤ST1中，输入分析部2依次读入该结构的文档1，通过作为已知技术的语素分析分割为语素列。对文档1-12进行语素分析的结果为图16的文档分析结果3-11。该文档分析结果3-11虽然只示出语素的划分，但是设实际上包含词类信息、活用词的原型等。

当针对所有文档ID生成了文档分析结果3时，在接下来的步骤ST2中，搜索索引制作部4从所有文档分析结果3提取搜索索引5的制作所需的语素(关键词)，制作(文档ID、关键词列表)的对，制作基于所有对通过tf·idf加权的搜索索引5。从图16的文档分析结果3-11提取的(文档ID、关键词列表)的对以相同的图16的搜索索引用数据3-12来表示。

具体的搜索索引制作过程与上述实施方式1相同，因此省略说明。

接着，说明发声估计模型9的制作处理。

收集发声数据6是如图17的收集发声数据6-11～6-14所表示的那样将预先从用户收集的发声分配到成为其回答的文档ID的数据。收集发声数据6的制作方法与上述实施方式1同样，因此省略说明。

输入分析部2在图7所示的步骤ST3中，与在之前说明的步骤ST1中以文档1为输入的情况同样地进行收集发声数据6的语素分析。例如，对图17的收集发声数据6-13进行语素分析的结果为图18的收集发声分析结果7-11。在接下来的步骤ST4中，发声估计模型制作部8与之前说明的步骤ST2同样地提取文档ID和关键词的列表作为发声估计模型用数据7-12，与上述实施方式1同样地通过ME法学习发声估计模型9。从所有收集发声分析结果7提取关键词，通过ME法进行学习，来制作发声估计模型9。具体地说，针对图18的收集发声分析结果7-11，提取相同的图18的发声估计模型用数据7-12，基于该发声估计模型用数据7-12进行上述学习。

接着，说明搜索处理。

图19和图20表示作为用户输入10的一例的用户输入10-11的搜索处理中的转变例。在此，关于用户输入10，设想利用文本的输入，设输入了图19的用户输入10-11来进行说明。输入分析部2在图8所示的步骤ST11中首先接收用户输入10-11，进行语素分析来生成用户输入分析结果11-11，从用户输入分析结果11-11排除前置词、冠词、be动词、代名词来提取独立词，制作关键词列表11-12。在接下来的步骤ST12中，发声内容估计部14将该关键词列表11-12使用于输入，从发声估计模型9得到图20的文档估计结果15-11。如图20所示，文档估计结果15-11按分数顺序排列。

当得到文档估计结果15-11时，在接下来的步骤ST13中，这次是文档搜索部12将关键词列表11-12使用于输入，根据搜索索引5得到图20的文档搜索结果13-11。如图20所示，文档搜索结果13-11也按分数顺序排列。

在接下来的步骤ST14中，结果合并部16判断文档估计结果15-11的最大分数是否为此处决定的阈值X(例如、X＝0.9)以上。在文档估计结果15-11中最大分数小于阈值X(步骤ST14“否”)，因此结果合并部16进入步骤ST16的处理。在步骤ST16中，针对每个文档ID进行文档搜索结果13-11的分数与文档估计结果15-11的分数的加权相加，制作最终搜索结果17-11。在图20中，以(文档估计结果15-11的分数):(文档搜索结果13-11的分数)＝1:1来相加得到的结果成为最终搜索结果17-11。

另一方面，在步骤ST14中文档估计结果15-11的最大分数超过阈值X的情况下(步骤ST14“是”)，在接下来的步骤ST15中结果合并部16废弃文档搜索结果13-11，而将文档估计结果15-11作为最终搜索结果(未图示)。

根据以上内容，根据实施方式3，文档搜索装置不仅对于日文，而且对于英文的文档1也能够实施与上述实施方式1同样的处理，在英文的输入的情况下也能够得到与上述实施方式1同样的效果。

此外，虽然省略说明，但是也可以将实施方式3的结构适用于上述实施方式2。

实施方式4.

下面，说明中文的输入例。

本实施方式4的文档搜索装置在附图上是与图1所示的文档搜索装置相同的结构，因此下面引用图1进行说明。

图21是输入到本实施方式4所涉及的文档搜索装置的文档1的中文例。文档1具有如章、节、项那样的层级结构，按每个层级具有表示搜索结果位置的文档ID。在图21的例子中，文档ID“Id_10_1”的文档1-21还包含下位的数据结构内所包含的文本。例如表示“Id_10_1_1”的文档1-22还包含在“Id_10_1”的文档1-21中。

图22是文档分析结果3和搜索索引5用的关键词列表的例子。“Id_10_1_1”是文档分析结果的一例，表示对图21的“Id_10_1_1”的文档1-22进行基于语素分析的输入分析的结果。在该文档分析结果3-21中，只呈现了以“/”来划分了语素分析结果的划分的信息，但是实际上还生成词类信息等信息。

搜索索引用数据3-22表示以“Id_10_1_1”的文档分析结果3-22为基础的由搜索索引制作部4使用的数据例。在此，提取出文档ID以及除了代词、助词、介词以外的独立词语素。

图23是收集发声数据6的例子。收集发声数据6-21是与“Id_10”的文档对应的提问的例子，收集发声数据6-22是与“Id_10_1”的文档对应的提问的例子，收集发声数据6-23是与“Id_10_1_1”的文档对应的提问的例子。收集发声数据6-24是意图想要知道地图种类的具体变更方法的提问，但是由于是通过此处设想的产品无法实现的地图种类，因此是无法选择与“Id_10_1_1”相同层级的文档ID的收集发声数据例。

图24是收集发声分析结果7和发声估计模型9用的关键词列表的例子。“Id_10_1_1”的收集发声分析结果7-21表示图23的“Id_10_1_1”的收集发声数据6-23的收集发声分析结果例，发声估计模型用数据7-22表示以“Id_10_1_1”的收集发声分析结果7-21为基础的由发声估计模型制作部8使用的数据例。在此，提取出文档ID以及除了代词、助词、介词以外的独立词语素。

接着，说明文档搜索装置的动作。

本实施方式4所涉及的文档搜索装置的动作(制作处理、搜索处理)基本上与上述实施方式1的图6～图8相同。因而，在此只说明不同的部分。首先，说明制作处理。

设如图21所示那样文档1为文档ID与文本相对应的对。

例如，在文档1-22中，在文档ID“Id_10_1_1”这样的名称上对应有“把自己的车作为标准显示自己车的行驶方向为向上的地图”这样的文本。

在图6的步骤ST1中，输入分析部2依次读入该结构的文档1，通过作为已知技术的语素分析分割为语素列。对文档1-22进行语素分析的结果为图22的文档分析结果3-21。该文档分析结果3-21虽然只示出语素的划分，但是设实际上包含词类信息等。

当针对所有文档ID生成了文档分析结果3时，在接下来的步骤ST2中，搜索索引制作部4从所有文档分析结果3提取搜索索引5的制作所需的语素(关键词)，制作(文档ID、关键词列表)的对，制作基于所有对通过tf·idf加权的搜索索引5。从图22的文档分析结果3-21提取的(文档ID、关键词列表)的对以相同的图22的搜索索引用数据3-22来表示。

接着，说明发声估计模型9的制作处理。

收集发声数据6是如图23的收集发声数据6-21～6-24所表示的那样将预先从用户收集的发声分配到成为其回答的文档ID的数据。收集发声数据6的制作方法与上述实施方式1同样，因此省略说明。

输入分析部2在图7所示的步骤ST3中，与在之前说明的步骤ST1中以文档1为输入的情况同样地进行收集发声数据6的语素分析。例如，对图23的收集发声数据6-23进行语素分析的结果为图24的收集发声分析结果7-21。在接下来的步骤ST4中，发声估计模型制作部8与之前说明的步骤ST2同样地提取文档ID和关键词的列表作为发声估计模型用数据7-22，与上述实施方式1同样地通过ME法学习发声估计模型9。从所有收集发声分析结果7提取关键词，通过ME法进行学习，来制作发声估计模型9。具体地说，针对图24的收集发声分析结果7-21，提取相同的图24的发声估计模型用数据7-22，基于该发声估计模型用数据7-22进行上述学习。

接着，说明搜索处理。

图25和图26表示作为用户输入10的一例的用户输入10-21的搜索处理中的转变例。在此，关于用户输入10，设想利用文本的输入，设输入了图25的用户输入10-21来进行说明。输入分析部2在图8所示的步骤ST11中首先接收用户输入10-21，进行语素分析来生成用户输入分析结果11-21，从用户输入分析结果11-21排除代词、助词、介动词来提取独立词，制作关键词列表11-22。在接下来的步骤ST12中，发声内容估计部14将该关键词列表11-22使用于输入，从发声估计模型9得到图26的文档估计结果15-21。如图26所示，文档估计结果15-21按分数顺序排列。

当得到文档估计结果15-21时，在接下来的步骤ST13中，这次是文档搜索部12将关键词列表11-22使用于输入，根据搜索索引5得到图26的文档搜索结果13-21。如图26所示，文档搜索结果13-21也按分数顺序排列。

在接下来的步骤ST14中，结果合并部16判断文档估计结果15-21的最大分数是否为此处决定的阈值X(例如X＝0.9)以上。在文档估计结果15-21中最大分数小于阈值X(步骤ST14“否”)，因此结果合并部16进入步骤ST16的处理。在步骤ST16中，针对每个文档ID进行文档搜索结果13-21的分数与文档估计结果15-21的分数的加权相加，制作最终搜索结果17-21。在图26中，以(文档估计结果15-21的分数):(文档搜索结果13-21的分数)＝1:1来相加得到的结果成为最终搜索结果17-21。

另一方面，在步骤ST14中文档估计结果15-21的最大分数超过阈值X的情况下(步骤ST14“是”)，在接下来的步骤ST15中结果合并部16废弃文档搜索结果13-21，而将文档估计结果15-21作为最终搜索结果(未图示)。

根据以上内容，根据实施方式4，文档搜索装置不仅对于日文，而且对于中文的文档1也能够实施与上述实施方式1同样的处理，在中文的输入的情况下也能够得到与上述实施方式1同样的效果。

此外，虽然省略说明，但是也可以将实施方式4的结构适用于上述实施方式2。

除了上述内容以外，本申请发明也在其发明的范围内能够进行各实施方式的自由组合、或各实施方式的任意构成要素的变形、或者在各实施方式中任意构成要素的省略。

产业上的可利用性

如上所述，本发明所涉及的文档搜索装置使用学习了设想用户采用何种问法的提问与成为其回答的文档项目的对应关系的发声估计模型，呈现针对用户利用自然语言进行的输入的文档内搜索结果，因此例如适用于对家电产品和车载设备等的被电子化的使用说明书进行搜索和显示的信息设备等。

Claims

1.一种文档搜索装置，具备：根据预先准备的文档制作的搜索索引；以及文档搜索部，接收来自用户的输入，使用所述搜索索引从所述文档内搜索与该用户输入有关联的项目，该文档搜索装置的特征在于，具备：

发声估计模型，学习了询问所述文档的内容的设想提问与成为该设想提问的回答的所述文档内的项目的对应关系；

发声内容估计部，基于所述发声估计模型从所述文档内估计与所述用户输入的回答相当的项目；以及

结果合并部，将从所述文档搜索部得到的文档搜索结果与从所述发声内容估计部得到的文档估计结果进行合并来生成最终搜索结果。

2.根据权利要求1所述的文档搜索装置，其特征在于，

所述发声内容估计部对估计出的所述文档内的项目赋予与和所述用户输入的关联程度相应的分数，

所述结果合并部在从所述发声内容估计部得到的文档估计结果的分数大于预先决定的值的情况下，忽略从所述文档搜索部得到的文档搜索结果来生成最终搜索结果。

3.根据权利要求1所述的文档搜索装置，其特征在于，

所述文档搜索部对搜索出的所述文档内的项目赋予与和所述用户输入的关联程度相应的分数，

所述结果合并部将从所述文档搜索部得到的文档搜索结果的分数与从所述发声内容估计部得到的文档估计结果的分数以一定的比例相加来进行合并。

4.根据权利要求1所述的文档搜索装置，其特征在于，

具备搜索对象限定部，该搜索对象限定部提取从所述发声内容估计部得到的文档估计结果中的满足规定的条件的项目，

所述发声内容估计部基于学习了比所述搜索索引的搜索的最小单位大的单位的项目与所述设想提问的对应关系的发声估计模型进行估计，

所述结果合并部将从所述发声内容估计部得到的文档估计结果中的由所述搜索对象限定部提取的项目与从所述文档搜索部得到的文档搜索结果进行合并。

5.根据权利要求1所述的文档搜索装置，其特征在于，具备：

输入分析部，分析预先准备的文档以及收集发声数据，其中，该收集发声数据定义了询问该文档的内容的设想提问与成为该提问的回答的该文档内的项目的对应关系；

搜索索引制作部，根据从所述输入分析部输出的所述文档的分析结果制作所述搜索索引；以及

发声估计模型制作部，使用从所述输入分析部输出的所述收集发声数据的分析结果，学习所述设想提问与所述文档内的项目的对应关系，制作所述发声估计模型。

6.一种文档搜索方法，其特征在于，具备以下步骤：

用户输入步骤，接收来自用户的输入；

文档搜索步骤，使用根据预先准备的文档制作的搜索索引，从该文档内搜索与所述用户输入有关联的项目；

发声内容估计步骤，基于学习了询问所述文档的内容的设想提问与成为该设想提问的回答的所述文档内的项目的对应关系的发声估计模型，从所述文档内估计与所述用户输入的回答相当的项目；以及

结果合并步骤，将从所述文档搜索步骤得到的文档搜索结果与从所述发声内容估计步骤得到的文档估计结果进行合并来生成最终搜索结果。