CN114730318A

CN114730318A - 信息处理装置、信息处理方法以及信息处理程序

Info

Publication number: CN114730318A
Application number: CN201980102347.8A
Authority: CN
Inventors: 内出隼人
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-07-08
Also published as: JP6840293B1; DE112019007834T5; JPWO2021106141A1; KR20220073850A; KR102452777B1; WO2021106141A1

Abstract

信息处理装置(100)是生成正解数据的装置。信息处理装置(100)具有取得部(140)和处理部(120)。取得部(140)取得多个检索对象文档。处理部(120)从多个检索对象文档中的第一检索对象文档中提取字符串，基于字符串而生成查询，从多个检索对象文档中检索查询的检索对象，生成包含作为检索结果的1个以上的检索对象文档和查询在内的正解数据。

Description

信息处理装置、信息处理方法以及信息处理程序

技术领域

本发明涉及信息处理装置、信息处理方法以及信息处理程序。

背景技术

近年来，计算机能够访问的数据量增加。谋求用于从大量的数据中高效地检索所希望的数据的技术。

作为检索方法之一，已知有概念检索。这里，提出了一种文档概念检索装置(参照专利文献1)。例如，文档概念检索装置受理正解信息。正解信息是检索查询与正解文档的集合的组的集合，其中，正解文档是概念上适合于检索查询的检索对象文档。

现有技术文献

专利文献

专利文献1：日本特开2018-10482号公报

非专利文献

非专利文献1：“Efficient Estimation of Word Representations in VectorSpace”，2013，Tomas Mikolov，Kai Chen，Greg Corrado，Jeffrey Dean

非专利文献2：“Neural Ranking Models with Weak Supervision”，2017，Mostafa Dehghani，Hamed Zamani，Aliaksei Severyn，Jaap Kamps，W.Bruce Croft

非专利文献3：“TextRank：Bringing Order into Texts”，2004，Rada Mihalcea，Paul Tarau

非专利文献4：“Get To The Point：Summarization with Pointer-GeneratorNetworks”2017，Abigail See，Peter J.Liu，Christopher D.Manning

发明内容

发明要解决的问题

上述的正解信息需要预先生成。例如，通过用户的计算机操作而生成正解信息。如上所述，数据量增加。例如，检索对象文档的数量增加。数据量增加会增大生成正解信息的用户的负担。

本发明的目的在于减轻用户的负担。

用于解决问题的手段

本发明的一方案提供一种信息处理装置。信息处理装置具有取得部，其取得多个检索对象文档；以及处理部，其从所述多个检索对象文档中的第一检索对象文档中提取字符串，基于所述字符串而生成查询，从所述多个检索对象文档中检索所述查询的检索对象，生成如下的正解数据，该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。

发明的效果

根据本发明，能够减轻用户的负担。

附图说明

图1是实施方式1的信息处理装置具有的功能框图。

图2是示出实施方式1的信息处理装置具有的硬件结构的图。

图3是示出实施方式1的正解数据的生成处理的例子的流程图。

图4是示出实施方式1的学习处理的例子的流程图。

图5是示出实施方式1的学习模型的例子的图。

图6是示出实施方式1的更新处理的例子的流程图。

图7是实施方式2的信息处理装置具有的功能框图。

图8是示出实施方式2的正解数据的生成处理的例子的流程图。

图9是实施方式3的信息处理装置具有的功能框图。

图10是示出实施方式3的正解数据的生成处理的例子的流程图。

具体实施方式

以下，参照附图对实施方式进行说明。以下的实施方式只不过是例子，能够在本发明的范围内进行各种变更。

实施方式1.

图1是实施方式1的信息处理装置具有的功能框图。信息处理装置100是执行信息处理方法的装置。信息处理装置100具有存储部110、处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170。

这里，对信息处理装置100具有的硬件进行说明。

图2是示出实施方式1的信息处理装置具有的硬件结构的图。信息处理装置100具有处理器101、易失性存储装置102以及非易失性存储装置103。

处理器101对信息处理装置100整体进行控制。例如，处理器101是CPU(CentralProcessing Unit：中央处理单元)、FPGA(Field Programmable Gate Array：现场可编程门阵列)等。处理器101也可以是多处理器。信息处理装置100可以由处理电路实现，或者也可以通过软件、固件或它们的组合来实现。另外，处理电路也可以是单一电路或复合电路。

易失性存储装置102是信息处理装置100的主存储装置。例如，易失性存储装置102是RAM(Random Access Memory：随机存取存储器)。非易失性存储装置103是信息处理装置100的辅助存储装置。例如，非易失性存储装置103是HDD(Hard Disk Drive：硬盘驱动器)或SSD(Solid State Drive：固态驱动器)。

此外，在信息处理装置100连接有输入装置11和显示装置12。例如，输入装置11是鼠标、键盘等。例如，显示装置12是显示器。

返回图1，对信息处理装置100具有的功能块进行说明。

存储部110作为在易失性存储装置102或非易失性存储装置103中确保的存储区域来实现。

处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170中的一部分或全部也可以由处理器101实现。处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170中的一部分或全部也可以作为处理器101所执行的程序的模块来实现。例如，处理器101所执行的程序也称为信息处理程序。例如，信息处理程序记录在记录介质中。

存储部110包含检索对象文档组111、正解数据存储部112以及学习模型存储部113。检索对象文档组111是多个检索对象文档。正解数据存储部112存储由处理部120生成的正解数据。这里，正解数据也可以认为是正解信息。之后对存储在学习模型存储部113中的信息进行说明。

这里，存储在存储部110中的信息也可以存储于外部装置。例如，外部装置是云服务器。

取得部140取得多个检索对象文档(即，检索对象文档组111)。例如，取得部140从存储部110取得多个检索对象文档。此外，例如，取得部140从外部装置取得多个检索对象文档。

处理部120从多个检索对象文档中的1个检索对象文档中提取字符串。另外，1个检索对象文档也称为第一检索对象文档。处理部120基于字符串而生成查询。处理部120使用查询，从多个检索对象文档中对查询的检索对象进行检索。处理部120生成包含作为检索结果的1个以上的检索对象文档和查询在内的正解数据。详细而言，处理部120生成包含作为检索结果的1个以上的检索对象文档、查询以及与1个以上的检索对象文档对应的编号在内的正解数据。以下，该编号有时表现为位次。

之后对学习处理部130、取得部140、检索部150、更新处理部160以及输出部170进行说明。

接着，使用流程图对信息处理装置100所执行的处理进行说明。

图3是示出实施方式1的正解数据的生成处理的例子的流程图。例如，图3的处理通过用户的输入操作而开始。此外，例如，图3的处理在预先设定的时刻开始。

(步骤S11)处理部120从检索对象文档组111中选择1个检索对象文档。例如，选择出的检索对象文档也可以认为是第一检索对象文档。

(步骤S12)处理部120从选择出的检索对象文档中提取字符串。例如，处理部120提取所选择出的检索对象文档中的句子或单词作为字符串。此外，例如，处理部120基于以预先设定的字符串长度进行分词这样的规则，从选择出的检索对象文档中提取字符串。

(步骤S13)处理部120基于字符串，生成查询。

(步骤S14)处理部120使用查询，从检索对象文档组111中对查询的检索对象进行检索。检索方法是关键词检索、基于TF-IDF或Okapi BM25的单词的重要度进行的文本检索、使用查询的字符串与检索对象文档中的字符串的相似度的相似度检索等。

另外，也可以使用字符长度的差异、编辑距离、进行了词素解析的单词串的重复程度、进行了修饰解析的短语单位的重复程度、修饰关系的重复程度、基于非专利文献1所记载的方式的多维向量的欧氏距离、余弦相似度的向量之间的距离等来计算相似度。此外，也可以使用机器学习模型来计算相似度。

此外，检索对象也可以是删除了所提取的字符串的状态下的多个文档即多个检索对象文档。

(步骤S15)处理部120生成包含作为检索结果的1个以上的检索对象文档、查询以及与1个以上的检索对象文档对应的位次在内的正解数据。这里，位次也可以是该重要度或者该相似度。此外，位次也可以是检索到的顺序。此外，所选择出的检索对象文档的位次也可以是第一。

(步骤S16)处理部120将正解数据存储于正解数据存储部112。

(步骤S17)处理部120判定是否选择了检索对象文档组111的全部的检索对象文档。在选择了全部的检索对象文档的情况下，处理结束。在检索对象文档组111中存在未选择的检索对象文档的情况下，处理部120使处理进入步骤S11。

图4是示出实施方式1的学习处理的例子的流程图。例如，图4的处理在正解数据的生成处理结束之后开始。

(步骤S21)学习处理部130使用正解数据，执行计算在学习模型的神经网络中使用的权重的学习处理。这句话也可以如下那样表现。学习处理部130使用正解数据，执行计算在学习模型的神经网络中包含的节点的权重的学习处理。或者，学习处理部130使用正解数据，执行变更在学习模型的神经网络中包含的节点的权重的学习处理。

在学习处理中，也可以使用非专利文献2所记载的学习算法、或者SVM(SupportVector Machine：支持向量机)、决策树等学习算法。

具体地说明学习处理。在学习处理中，使用学习模型。例如，向学习模型输入正解数据的查询和2个检索对象文档。然后，输出表示2个检索对象文档中的哪个检索对象文档为上位的检索结果的信息。

详细地说明学习处理。这里，正解数据的查询为查询Q。在查询Q中，正解数据所包含的检索对象文档A、B、C被对应起来。检索对象文档A的位次为第一位。检索对象文档B的位次为第二位。检索对象文档C的位次为第三位。这里，示出学习模型。

图5是示出实施方式1的学习模型的例子的图。图5示出2个神经网络(NN：NeuralNetwork)。以下，2个神经网络表现为NN1和NN2。

例如，学习数据是查询Q与检索对象文档A的组合、以及查询Q与检索对象文档B的组合。向NN1输入查询Q与检索对象文档A的组合。向NN2输入查询Q与检索对象文档B的组合。该学习数据称为学习数据1。

此外，例如，学习数据是查询Q与检索对象文档C的组合、以及查询Q与检索对象文档B的组合。向NN1输入查询Q与检索对象文档C的组合。向NN2输入查询Q与检索对象文档B的组合。该学习数据称为学习数据2。

在学习模型中，对分数1与分数2进行比较。在比较中，使用式(1)来计算分数1与分数2的差分。另外，算出的结果称为差分分数。此外，例如决定为从分数1减去分数2。

[数式1]

差分分数＝分数1-分数2…(1)

差分分数被输入到sigmoid函数。sigmoid函数由式(2)定义。

[数式2]

通过将差分分数输入到sigmoid函数而输出判定结果。

这里，在学习数据1的情况下，期待检索对象文档A比检索对象文档B靠上位。在学习数据2的情况下，期待检索对象文档B比检索对象文档C靠上位。

学习处理部130使用误差反向传播法(backpropagation)计算NN1所包含的节点的权重和NN2所包含的节点的权重，使得上述的期待与判定结果之间的误差最小。

(步骤S22)学习处理部130将学习后的学习模型存储于学习模型存储部113。此外，学习处理部130也可以将NN1所包含的节点的权重和NN2所包含的节点的权重存储于学习模型存储部113。

图6是示出实施方式1的更新处理的例子的流程图。

(步骤S31)取得部140取得输入到信息处理装置100的新查询。此外，新查询也称为第一查询。

(步骤S32)检索部150使用新查询，从检索对象文档组111中检索新查询的检索对象。例如，检索方法是关键词检索。

这里，在检索部150使用关键词检索的情况下，检索部150使用在新查询和检索对象文档组111的各检索对象文档在包含的关键词，来计算分数。例如，包含有很多新查询所包含的关键词的检索对象文档的分数变高。检索部150基于分数，对检索对象文档赋予位次。

这样，在新查询中，将检索到的1个以上的检索对象文档与位次对应起来。

(步骤S33)更新处理部160选择作为检索部150的检索结果且对应有位次的1个以上的检索对象文档中的上位N个检索对象文档。另外，N是1个以上的整数，是预先决定的数。这样，更新处理部160选择上位的预先决定的件数的检索对象文档。

更新处理部160使用新查询、上位N个检索对象文档以及使用权重的NN1来计算分数1。换言之，更新处理部160使用新查询、上位N个检索对象文档以及附加了权重的NN1来计算分数1。例如，更新处理部160将新查询和上位N个检索对象文档中的1个检索对象文档输入到NN1。由此，计算分数1。更新处理部160将计算出的分数1更新为新的位次。同样，更新处理部160计算N个检索对象文档各自的分数1，更新位次。这样，更新处理部160将N个检索对象文档各自的位次更新为新的位次。

此外，更新处理部160也可以将检索对象文档的原始位次与分数1的平均值更新为新的位次。

另外，在上述中示出了使用NN1的情况。NN1和NN2是等效的模型。因此，也可以使用NN2。

(步骤S34)输出部170输出新的位次的组合。例如，输出部170输出新查询、N个检索对象文档以及更新后的新的位次的组合。此外，例如，输出部170将该组合输出到显示装置12。由此，在显示装置12中，以排序形式显示N个检索对象文档。

例如，用户观察显示装置12。用户能够从N个检索对象文档中选择概念上适合于新查询的检索对象文档。在用户选择概念上适合于新查询的检索对象文档的情况下，用户对信息处理装置100进行选择操作。

(步骤S35)取得部140判定是否通过选择操作而取得了概念上适合于新查询的检索对象文档。换言之，取得部140判定是否进行了选择操作。

在进行了选择操作的情况下，取得部140使处理进入步骤S36。在未进行选择操作的情况下，取得部140结束处理。

(步骤S36)取得部140将新查询和概念上适合于新查询的检索对象文档的组合作为正解数据而存储于正解数据存储部112。

根据实施方式1，信息处理装置100生成正解数据。因此，用户也可以不生成正解数据。因此，信息处理装置100能够减轻用户的负担。

此外，信息处理装置100使用NN1，更新检索对象文档的位次。由此，信息处理装置100能够向用户提供仅通过检索部150的检索结果无法知晓的检索对象文档的位次。此外，信息处理装置100更新由检索部150检索到的检索对象文档中的N个位次。信息处理装置100不更新由检索部150检索到的全部的检索对象文档的位次。这样，信息处理装置100通过缩小检索对象文档的件数，能够减轻信息处理装置100的处理负载。

实施方式2.

接着，对实施方式2进行说明。在实施方式2中，主要说明与实施方式1不同的事项。而且，在实施方式2中，省略与实施方式1共同的事项的说明。在实施方式2的说明中，参照图1～6。

图7是实施方式2的信息处理装置具有的功能框图。与图1所示的结构相同的图7的结构标注与图1所示的标号相同的标号。

信息处理装置100a具有处理部120a。之后对处理部120a进行说明。

图8是示出实施方式2的正解数据的生成处理的例子的流程图。在图8的处理中，不执行步骤S12。此外，在图8的处理中，执行步骤S13a这一点与图3的处理不同。因此，在图8中，对步骤S13a进行说明。对图8中的其他步骤赋予与图3的步骤编号相同的编号，由此省略处理的说明。此外，图8的各步骤由处理部120a执行。

(步骤S13a)处理部120a基于在步骤S11中选择出的检索对象文档的摘要而生成查询。详细而言，处理部120a生成摘要作为查询。此外，处理部120a也可以从摘要中提取字符串，基于该字符串而生成查询。

摘要被存储于存储部110或外部装置。摘要由取得部140取得。另外，也可以通过非专利文献3所记载的方法而生成摘要。

根据实施方式2，信息处理装置100a生成正解数据。因此，用户也可以不生成正解数据。因此，信息处理装置100a能够减轻用户的负担。

实施方式3.

接着，对实施方式3进行说明。在实施方式3中，主要说明与实施方式1不同的事项。而且，在实施方式3中，省略与实施方式1共同的事项的说明。在实施方式3的说明中，参照图1～6。

图9是实施方式3的信息处理装置具有的功能框图。与图1所示的结构相同的图9的结构标注与图1所示的标号相同的标号。

信息处理装置100b具有处理部120b。之后对处理部120b进行说明。

图10是示出实施方式3的正解数据的生成处理的例子的流程图。在图10的处理中，不执行步骤S12。此外，在图10的处理中，执行步骤S13b这一点与图3的处理不同。因此，在图10中，对步骤S13b进行说明。对图10中的其他步骤标注与图3的步骤编号相同的编号，由此省略处理的说明。此外，图10的各步骤由处理部120b执行。

(步骤S13b)处理部120b基于在步骤S11中选择出的检索对象文档的释义而生成查询。详细而言，处理部120b生成释义作为查询。此外，处理部120a也可以从该释义中提取字符串，基于该字符串而生成查询。

此外，处理部120b也可以基于在步骤S11中选择出的检索对象文档的摘要的释义而生成查询。此外，处理部120b也可以从该摘要的释义中提取字符串，基于该字符串而生成查询。

检索对象文档的释义或者检索对象文档的摘要的释义被存储于存储部110或外部装置。检索对象文档的释义或者检索对象文档的摘要的释义由取得部140取得。另外，也可以通过使用了同义词词典的单词置换的方法而生成释义。此外，也可以通过非专利文献4所记载的方法而生成释义。

根据实施方式3，信息处理装置100b生成正解数据。因此，用户也可以不生成正解数据。因此，信息处理装置100b能够减轻用户的负担。

以上说明的各实施方式中的特征能够相互适当组合。

附图标记说明

11输入装置，12显示装置，100、100a、100b信息处理装置，101处理器，102易失性存储装置，103非易失性存储装置，110存储部，111检索对象文档组，112正解数据存储部，113学习模型存储部，120、120a、120b处理部，130学习处理部，140取得部，150检索部，160更新处理部，170输出部。

Claims

1.一种信息处理装置，其中，

所述信息处理装置具有：

取得部，其取得多个检索对象文档；以及

处理部，其从所述多个检索对象文档中的第一检索对象文档中提取字符串，基于所述字符串而生成查询，从所述多个检索对象文档中检索所述查询的检索对象，生成如下的正解数据，该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。

2.根据权利要求1所述的信息处理装置，其中，

所述取得部取得所述第一检索对象文档的摘要，

所述处理部基于所述摘要而生成查询。

3.根据权利要求2所述的信息处理装置，其中，

所述处理部从所述摘要中提取字符串，基于提取出的字符串而生成查询。

4.根据权利要求2所述的信息处理装置，其中，

所述取得部取得所述摘要的释义，

所述处理部基于所述释义而生成查询。

5.根据权利要求4所述的信息处理装置，其中，

所述处理部从所述释义中提取字符串，基于提取出的字符串而生成查询。

6.根据权利要求1所述的信息处理装置，其中，

所述取得部取得所述第一检索对象文档的释义，

所述处理部基于所述释义而生成查询。

7.根据权利要求6所述的信息处理装置，其中，

8.根据权利要求1至7中的任意一项所述的信息处理装置，其中，

所述信息处理装置还具有学习处理部、检索部、更新处理部、以及输出部，

所述处理部生成如下的正解数据，该正解数据包含作为检索结果的1个以上的检索对象文档、所述查询、以及与所述1个以上的检索对象文档对应的编号，

所述学习处理部使用由所述处理部生成的正解数据，执行计算在学习模型的神经网络中使用的权重的学习处理，

所述取得部取得第一查询，

所述检索部从所述多个检索对象文档中检索所述第一查询的检索对象，

所述更新处理部选择作为所述检索部的检索结果且对应有位次的1个以上的检索对象文档中的上位的预先决定的件数的检索对象文档，使用所述第一查询、选择出的1个以上的检索对象文档、以及使用所述权重的所述神经网络，来更新所选择出的1个以上的检索对象文档的位次，

所述输出部输出所选择出的1个以上的检索对象文档和更新后的位次。

9.一种信息处理方法，其中，

信息处理装置进行如下处理：

取得多个检索对象文档，

从所述多个检索对象文档中的第一检索对象文档中提取字符串，

基于所述字符串而生成查询，

从所述多个检索对象文档中检索所述查询的检索对象，

生成如下的正解数据，该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。

10.一种信息处理程序，其中，

所述信息处理程序使信息处理装置执行以下处理：

取得多个检索对象文档，

基于所述字符串而生成查询，

从所述多个检索对象文档中检索所述查询的检索对象，