CN114730318A - 信息处理装置、信息处理方法以及信息处理程序 - Google Patents
信息处理装置、信息处理方法以及信息处理程序 Download PDFInfo
- Publication number
- CN114730318A CN114730318A CN201980102347.8A CN201980102347A CN114730318A CN 114730318 A CN114730318 A CN 114730318A CN 201980102347 A CN201980102347 A CN 201980102347A CN 114730318 A CN114730318 A CN 114730318A
- Authority
- CN
- China
- Prior art keywords
- search target
- query
- information processing
- search
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title claims description 5
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
Abstract
信息处理装置(100)是生成正解数据的装置。信息处理装置(100)具有取得部(140)和处理部(120)。取得部(140)取得多个检索对象文档。处理部(120)从多个检索对象文档中的第一检索对象文档中提取字符串,基于字符串而生成查询,从多个检索对象文档中检索查询的检索对象,生成包含作为检索结果的1个以上的检索对象文档和查询在内的正解数据。
Description
技术领域
本发明涉及信息处理装置、信息处理方法以及信息处理程序。
背景技术
近年来,计算机能够访问的数据量增加。谋求用于从大量的数据中高效地检索所希望的数据的技术。
作为检索方法之一,已知有概念检索。这里,提出了一种文档概念检索装置(参照专利文献1)。例如,文档概念检索装置受理正解信息。正解信息是检索查询与正解文档的集合的组的集合,其中,正解文档是概念上适合于检索查询的检索对象文档。
现有技术文献
专利文献
专利文献1:日本特开2018-10482号公报
非专利文献
非专利文献1:“Efficient Estimation of Word Representations in VectorSpace”,2013,Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean
非专利文献2:“Neural Ranking Models with Weak Supervision”,2017,Mostafa Dehghani,Hamed Zamani,Aliaksei Severyn,Jaap Kamps,W.Bruce Croft
非专利文献3:“TextRank:Bringing Order into Texts”,2004,Rada Mihalcea,Paul Tarau
非专利文献4:“Get To The Point:Summarization with Pointer-GeneratorNetworks”2017,Abigail See,Peter J.Liu,Christopher D.Manning
发明内容
发明要解决的问题
上述的正解信息需要预先生成。例如,通过用户的计算机操作而生成正解信息。如上所述,数据量增加。例如,检索对象文档的数量增加。数据量增加会增大生成正解信息的用户的负担。
本发明的目的在于减轻用户的负担。
用于解决问题的手段
本发明的一方案提供一种信息处理装置。信息处理装置具有取得部,其取得多个检索对象文档;以及处理部,其从所述多个检索对象文档中的第一检索对象文档中提取字符串,基于所述字符串而生成查询,从所述多个检索对象文档中检索所述查询的检索对象,生成如下的正解数据,该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。
发明的效果
根据本发明,能够减轻用户的负担。
附图说明
图1是实施方式1的信息处理装置具有的功能框图。
图2是示出实施方式1的信息处理装置具有的硬件结构的图。
图3是示出实施方式1的正解数据的生成处理的例子的流程图。
图4是示出实施方式1的学习处理的例子的流程图。
图5是示出实施方式1的学习模型的例子的图。
图6是示出实施方式1的更新处理的例子的流程图。
图7是实施方式2的信息处理装置具有的功能框图。
图8是示出实施方式2的正解数据的生成处理的例子的流程图。
图9是实施方式3的信息处理装置具有的功能框图。
图10是示出实施方式3的正解数据的生成处理的例子的流程图。
具体实施方式
以下,参照附图对实施方式进行说明。以下的实施方式只不过是例子,能够在本发明的范围内进行各种变更。
实施方式1.
图1是实施方式1的信息处理装置具有的功能框图。信息处理装置100是执行信息处理方法的装置。信息处理装置100具有存储部110、处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170。
这里,对信息处理装置100具有的硬件进行说明。
图2是示出实施方式1的信息处理装置具有的硬件结构的图。信息处理装置100具有处理器101、易失性存储装置102以及非易失性存储装置103。
处理器101对信息处理装置100整体进行控制。例如,处理器101是CPU(CentralProcessing Unit:中央处理单元)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等。处理器101也可以是多处理器。信息处理装置100可以由处理电路实现,或者也可以通过软件、固件或它们的组合来实现。另外,处理电路也可以是单一电路或复合电路。
易失性存储装置102是信息处理装置100的主存储装置。例如,易失性存储装置102是RAM(Random Access Memory:随机存取存储器)。非易失性存储装置103是信息处理装置100的辅助存储装置。例如,非易失性存储装置103是HDD(Hard Disk Drive:硬盘驱动器)或SSD(Solid State Drive:固态驱动器)。
此外,在信息处理装置100连接有输入装置11和显示装置12。例如,输入装置11是鼠标、键盘等。例如,显示装置12是显示器。
返回图1,对信息处理装置100具有的功能块进行说明。
存储部110作为在易失性存储装置102或非易失性存储装置103中确保的存储区域来实现。
处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170中的一部分或全部也可以由处理器101实现。处理部120、学习处理部130、取得部140、检索部150、更新处理部160以及输出部170中的一部分或全部也可以作为处理器101所执行的程序的模块来实现。例如,处理器101所执行的程序也称为信息处理程序。例如,信息处理程序记录在记录介质中。
存储部110包含检索对象文档组111、正解数据存储部112以及学习模型存储部113。检索对象文档组111是多个检索对象文档。正解数据存储部112存储由处理部120生成的正解数据。这里,正解数据也可以认为是正解信息。之后对存储在学习模型存储部113中的信息进行说明。
这里,存储在存储部110中的信息也可以存储于外部装置。例如,外部装置是云服务器。
取得部140取得多个检索对象文档(即,检索对象文档组111)。例如,取得部140从存储部110取得多个检索对象文档。此外,例如,取得部140从外部装置取得多个检索对象文档。
处理部120从多个检索对象文档中的1个检索对象文档中提取字符串。另外,1个检索对象文档也称为第一检索对象文档。处理部120基于字符串而生成查询。处理部120使用查询,从多个检索对象文档中对查询的检索对象进行检索。处理部120生成包含作为检索结果的1个以上的检索对象文档和查询在内的正解数据。详细而言,处理部120生成包含作为检索结果的1个以上的检索对象文档、查询以及与1个以上的检索对象文档对应的编号在内的正解数据。以下,该编号有时表现为位次。
之后对学习处理部130、取得部140、检索部150、更新处理部160以及输出部170进行说明。
接着,使用流程图对信息处理装置100所执行的处理进行说明。
图3是示出实施方式1的正解数据的生成处理的例子的流程图。例如,图3的处理通过用户的输入操作而开始。此外,例如,图3的处理在预先设定的时刻开始。
(步骤S11)处理部120从检索对象文档组111中选择1个检索对象文档。例如,选择出的检索对象文档也可以认为是第一检索对象文档。
(步骤S12)处理部120从选择出的检索对象文档中提取字符串。例如,处理部120提取所选择出的检索对象文档中的句子或单词作为字符串。此外,例如,处理部120基于以预先设定的字符串长度进行分词这样的规则,从选择出的检索对象文档中提取字符串。
(步骤S13)处理部120基于字符串,生成查询。
(步骤S14)处理部120使用查询,从检索对象文档组111中对查询的检索对象进行检索。检索方法是关键词检索、基于TF-IDF或Okapi BM25的单词的重要度进行的文本检索、使用查询的字符串与检索对象文档中的字符串的相似度的相似度检索等。
另外,也可以使用字符长度的差异、编辑距离、进行了词素解析的单词串的重复程度、进行了修饰解析的短语单位的重复程度、修饰关系的重复程度、基于非专利文献1所记载的方式的多维向量的欧氏距离、余弦相似度的向量之间的距离等来计算相似度。此外,也可以使用机器学习模型来计算相似度。
此外,检索对象也可以是删除了所提取的字符串的状态下的多个文档即多个检索对象文档。
(步骤S15)处理部120生成包含作为检索结果的1个以上的检索对象文档、查询以及与1个以上的检索对象文档对应的位次在内的正解数据。这里,位次也可以是该重要度或者该相似度。此外,位次也可以是检索到的顺序。此外,所选择出的检索对象文档的位次也可以是第一。
(步骤S16)处理部120将正解数据存储于正解数据存储部112。
(步骤S17)处理部120判定是否选择了检索对象文档组111的全部的检索对象文档。在选择了全部的检索对象文档的情况下,处理结束。在检索对象文档组111中存在未选择的检索对象文档的情况下,处理部120使处理进入步骤S11。
图4是示出实施方式1的学习处理的例子的流程图。例如,图4的处理在正解数据的生成处理结束之后开始。
(步骤S21)学习处理部130使用正解数据,执行计算在学习模型的神经网络中使用的权重的学习处理。这句话也可以如下那样表现。学习处理部130使用正解数据,执行计算在学习模型的神经网络中包含的节点的权重的学习处理。或者,学习处理部130使用正解数据,执行变更在学习模型的神经网络中包含的节点的权重的学习处理。
在学习处理中,也可以使用非专利文献2所记载的学习算法、或者SVM(SupportVector Machine:支持向量机)、决策树等学习算法。
具体地说明学习处理。在学习处理中,使用学习模型。例如,向学习模型输入正解数据的查询和2个检索对象文档。然后,输出表示2个检索对象文档中的哪个检索对象文档为上位的检索结果的信息。
详细地说明学习处理。这里,正解数据的查询为查询Q。在查询Q中,正解数据所包含的检索对象文档A、B、C被对应起来。检索对象文档A的位次为第一位。检索对象文档B的位次为第二位。检索对象文档C的位次为第三位。这里,示出学习模型。
图5是示出实施方式1的学习模型的例子的图。图5示出2个神经网络(NN:NeuralNetwork)。以下,2个神经网络表现为NN1和NN2。
例如,学习数据是查询Q与检索对象文档A的组合、以及查询Q与检索对象文档B的组合。向NN1输入查询Q与检索对象文档A的组合。向NN2输入查询Q与检索对象文档B的组合。该学习数据称为学习数据1。
此外,例如,学习数据是查询Q与检索对象文档C的组合、以及查询Q与检索对象文档B的组合。向NN1输入查询Q与检索对象文档C的组合。向NN2输入查询Q与检索对象文档B的组合。该学习数据称为学习数据2。
在学习模型中,对分数1与分数2进行比较。在比较中,使用式(1)来计算分数1与分数2的差分。另外,算出的结果称为差分分数。此外,例如决定为从分数1减去分数2。
[数式1]
差分分数=分数1-分数2…(1)
差分分数被输入到sigmoid函数。sigmoid函数由式(2)定义。
[数式2]
通过将差分分数输入到sigmoid函数而输出判定结果。
这里,在学习数据1的情况下,期待检索对象文档A比检索对象文档B靠上位。在学习数据2的情况下,期待检索对象文档B比检索对象文档C靠上位。
学习处理部130使用误差反向传播法(backpropagation)计算NN1所包含的节点的权重和NN2所包含的节点的权重,使得上述的期待与判定结果之间的误差最小。
(步骤S22)学习处理部130将学习后的学习模型存储于学习模型存储部113。此外,学习处理部130也可以将NN1所包含的节点的权重和NN2所包含的节点的权重存储于学习模型存储部113。
图6是示出实施方式1的更新处理的例子的流程图。
(步骤S31)取得部140取得输入到信息处理装置100的新查询。此外,新查询也称为第一查询。
(步骤S32)检索部150使用新查询,从检索对象文档组111中检索新查询的检索对象。例如,检索方法是关键词检索。
这里,在检索部150使用关键词检索的情况下,检索部150使用在新查询和检索对象文档组111的各检索对象文档在包含的关键词,来计算分数。例如,包含有很多新查询所包含的关键词的检索对象文档的分数变高。检索部150基于分数,对检索对象文档赋予位次。
这样,在新查询中,将检索到的1个以上的检索对象文档与位次对应起来。
(步骤S33)更新处理部160选择作为检索部150的检索结果且对应有位次的1个以上的检索对象文档中的上位N个检索对象文档。另外,N是1个以上的整数,是预先决定的数。这样,更新处理部160选择上位的预先决定的件数的检索对象文档。
更新处理部160使用新查询、上位N个检索对象文档以及使用权重的NN1来计算分数1。换言之,更新处理部160使用新查询、上位N个检索对象文档以及附加了权重的NN1来计算分数1。例如,更新处理部160将新查询和上位N个检索对象文档中的1个检索对象文档输入到NN1。由此,计算分数1。更新处理部160将计算出的分数1更新为新的位次。同样,更新处理部160计算N个检索对象文档各自的分数1,更新位次。这样,更新处理部160将N个检索对象文档各自的位次更新为新的位次。
此外,更新处理部160也可以将检索对象文档的原始位次与分数1的平均值更新为新的位次。
另外,在上述中示出了使用NN1的情况。NN1和NN2是等效的模型。因此,也可以使用NN2。
(步骤S34)输出部170输出新的位次的组合。例如,输出部170输出新查询、N个检索对象文档以及更新后的新的位次的组合。此外,例如,输出部170将该组合输出到显示装置12。由此,在显示装置12中,以排序形式显示N个检索对象文档。
例如,用户观察显示装置12。用户能够从N个检索对象文档中选择概念上适合于新查询的检索对象文档。在用户选择概念上适合于新查询的检索对象文档的情况下,用户对信息处理装置100进行选择操作。
(步骤S35)取得部140判定是否通过选择操作而取得了概念上适合于新查询的检索对象文档。换言之,取得部140判定是否进行了选择操作。
在进行了选择操作的情况下,取得部140使处理进入步骤S36。在未进行选择操作的情况下,取得部140结束处理。
(步骤S36)取得部140将新查询和概念上适合于新查询的检索对象文档的组合作为正解数据而存储于正解数据存储部112。
根据实施方式1,信息处理装置100生成正解数据。因此,用户也可以不生成正解数据。因此,信息处理装置100能够减轻用户的负担。
此外,信息处理装置100使用NN1,更新检索对象文档的位次。由此,信息处理装置100能够向用户提供仅通过检索部150的检索结果无法知晓的检索对象文档的位次。此外,信息处理装置100更新由检索部150检索到的检索对象文档中的N个位次。信息处理装置100不更新由检索部150检索到的全部的检索对象文档的位次。这样,信息处理装置100通过缩小检索对象文档的件数,能够减轻信息处理装置100的处理负载。
实施方式2.
接着,对实施方式2进行说明。在实施方式2中,主要说明与实施方式1不同的事项。而且,在实施方式2中,省略与实施方式1共同的事项的说明。在实施方式2的说明中,参照图1~6。
图7是实施方式2的信息处理装置具有的功能框图。与图1所示的结构相同的图7的结构标注与图1所示的标号相同的标号。
信息处理装置100a具有处理部120a。之后对处理部120a进行说明。
图8是示出实施方式2的正解数据的生成处理的例子的流程图。在图8的处理中,不执行步骤S12。此外,在图8的处理中,执行步骤S13a这一点与图3的处理不同。因此,在图8中,对步骤S13a进行说明。对图8中的其他步骤赋予与图3的步骤编号相同的编号,由此省略处理的说明。此外,图8的各步骤由处理部120a执行。
(步骤S13a)处理部120a基于在步骤S11中选择出的检索对象文档的摘要而生成查询。详细而言,处理部120a生成摘要作为查询。此外,处理部120a也可以从摘要中提取字符串,基于该字符串而生成查询。
摘要被存储于存储部110或外部装置。摘要由取得部140取得。另外,也可以通过非专利文献3所记载的方法而生成摘要。
根据实施方式2,信息处理装置100a生成正解数据。因此,用户也可以不生成正解数据。因此,信息处理装置100a能够减轻用户的负担。
实施方式3.
接着,对实施方式3进行说明。在实施方式3中,主要说明与实施方式1不同的事项。而且,在实施方式3中,省略与实施方式1共同的事项的说明。在实施方式3的说明中,参照图1~6。
图9是实施方式3的信息处理装置具有的功能框图。与图1所示的结构相同的图9的结构标注与图1所示的标号相同的标号。
信息处理装置100b具有处理部120b。之后对处理部120b进行说明。
图10是示出实施方式3的正解数据的生成处理的例子的流程图。在图10的处理中,不执行步骤S12。此外,在图10的处理中,执行步骤S13b这一点与图3的处理不同。因此,在图10中,对步骤S13b进行说明。对图10中的其他步骤标注与图3的步骤编号相同的编号,由此省略处理的说明。此外,图10的各步骤由处理部120b执行。
(步骤S13b)处理部120b基于在步骤S11中选择出的检索对象文档的释义而生成查询。详细而言,处理部120b生成释义作为查询。此外,处理部120a也可以从该释义中提取字符串,基于该字符串而生成查询。
此外,处理部120b也可以基于在步骤S11中选择出的检索对象文档的摘要的释义而生成查询。此外,处理部120b也可以从该摘要的释义中提取字符串,基于该字符串而生成查询。
检索对象文档的释义或者检索对象文档的摘要的释义被存储于存储部110或外部装置。检索对象文档的释义或者检索对象文档的摘要的释义由取得部140取得。另外,也可以通过使用了同义词词典的单词置换的方法而生成释义。此外,也可以通过非专利文献4所记载的方法而生成释义。
根据实施方式3,信息处理装置100b生成正解数据。因此,用户也可以不生成正解数据。因此,信息处理装置100b能够减轻用户的负担。
以上说明的各实施方式中的特征能够相互适当组合。
附图标记说明
11输入装置,12显示装置,100、100a、100b信息处理装置,101处理器,102易失性存储装置,103非易失性存储装置,110存储部,111检索对象文档组,112正解数据存储部,113学习模型存储部,120、120a、120b处理部,130学习处理部,140取得部,150检索部,160更新处理部,170输出部。
Claims (10)
1.一种信息处理装置,其中,
所述信息处理装置具有:
取得部,其取得多个检索对象文档;以及
处理部,其从所述多个检索对象文档中的第一检索对象文档中提取字符串,基于所述字符串而生成查询,从所述多个检索对象文档中检索所述查询的检索对象,生成如下的正解数据,该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。
2.根据权利要求1所述的信息处理装置,其中,
所述取得部取得所述第一检索对象文档的摘要,
所述处理部基于所述摘要而生成查询。
3.根据权利要求2所述的信息处理装置,其中,
所述处理部从所述摘要中提取字符串,基于提取出的字符串而生成查询。
4.根据权利要求2所述的信息处理装置,其中,
所述取得部取得所述摘要的释义,
所述处理部基于所述释义而生成查询。
5.根据权利要求4所述的信息处理装置,其中,
所述处理部从所述释义中提取字符串,基于提取出的字符串而生成查询。
6.根据权利要求1所述的信息处理装置,其中,
所述取得部取得所述第一检索对象文档的释义,
所述处理部基于所述释义而生成查询。
7.根据权利要求6所述的信息处理装置,其中,
所述处理部从所述释义中提取字符串,基于提取出的字符串而生成查询。
8.根据权利要求1至7中的任意一项所述的信息处理装置,其中,
所述信息处理装置还具有学习处理部、检索部、更新处理部、以及输出部,
所述处理部生成如下的正解数据,该正解数据包含作为检索结果的1个以上的检索对象文档、所述查询、以及与所述1个以上的检索对象文档对应的编号,
所述学习处理部使用由所述处理部生成的正解数据,执行计算在学习模型的神经网络中使用的权重的学习处理,
所述取得部取得第一查询,
所述检索部从所述多个检索对象文档中检索所述第一查询的检索对象,
所述更新处理部选择作为所述检索部的检索结果且对应有位次的1个以上的检索对象文档中的上位的预先决定的件数的检索对象文档,使用所述第一查询、选择出的1个以上的检索对象文档、以及使用所述权重的所述神经网络,来更新所选择出的1个以上的检索对象文档的位次,
所述输出部输出所选择出的1个以上的检索对象文档和更新后的位次。
9.一种信息处理方法,其中,
信息处理装置进行如下处理:
取得多个检索对象文档,
从所述多个检索对象文档中的第一检索对象文档中提取字符串,
基于所述字符串而生成查询,
从所述多个检索对象文档中检索所述查询的检索对象,
生成如下的正解数据,该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。
10.一种信息处理程序,其中,
所述信息处理程序使信息处理装置执行以下处理:
取得多个检索对象文档,
从所述多个检索对象文档中的第一检索对象文档中提取字符串,
基于所述字符串而生成查询,
从所述多个检索对象文档中检索所述查询的检索对象,
生成如下的正解数据,该正解数据包含作为检索结果的1个以上的检索对象文档和所述查询。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/046557 WO2021106141A1 (ja) | 2019-11-28 | 2019-11-28 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114730318A true CN114730318A (zh) | 2022-07-08 |
Family
ID=74845349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980102347.8A Pending CN114730318A (zh) | 2019-11-28 | 2019-11-28 | 信息处理装置、信息处理方法以及信息处理程序 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP6840293B1 (zh) |
KR (1) | KR102452777B1 (zh) |
CN (1) | CN114730318A (zh) |
DE (1) | DE112019007834T5 (zh) |
WO (1) | WO2021106141A1 (zh) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011891A (ja) * | 2005-07-01 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP4711761B2 (ja) * | 2005-07-08 | 2011-06-29 | 株式会社ジャストシステム | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8812493B2 (en) * | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
KR101649146B1 (ko) * | 2015-01-15 | 2016-08-19 | 주식회사 카카오 | 검색 방법 및 검색 서버 |
US11675795B2 (en) * | 2015-05-15 | 2023-06-13 | Yahoo Assets Llc | Method and system for ranking search content |
WO2016187705A1 (en) * | 2015-05-22 | 2016-12-01 | Coveo Solutions Inc. | System and method for ranking search results |
JP6495206B2 (ja) | 2016-07-13 | 2019-04-03 | 日本電信電話株式会社 | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム |
US20180232434A1 (en) * | 2017-02-16 | 2018-08-16 | Microsoft Technology Licensing, Llc | Proactive and retrospective joint weight attribution in a streaming environment |
US10832131B2 (en) | 2017-07-25 | 2020-11-10 | Microsoft Technology Licensing, Llc | Semantic similarity for machine learned job posting result ranking model |
KR102088435B1 (ko) * | 2017-09-29 | 2020-03-12 | 인하대학교 산학협력단 | 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 |
JP6976178B2 (ja) * | 2018-01-16 | 2021-12-08 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
JP6985181B2 (ja) * | 2018-02-28 | 2021-12-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019200449A (ja) * | 2018-05-14 | 2019-11-21 | 株式会社日立製作所 | 案件振分支援システム、案件振分支援装置、及び案件振分支援方法 |
-
2019
- 2019-11-28 CN CN201980102347.8A patent/CN114730318A/zh active Pending
- 2019-11-28 WO PCT/JP2019/046557 patent/WO2021106141A1/ja active Application Filing
- 2019-11-28 DE DE112019007834.8T patent/DE112019007834T5/de active Pending
- 2019-11-28 JP JP2020529656A patent/JP6840293B1/ja active Active
- 2019-11-28 KR KR1020227016332A patent/KR102452777B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
JP6840293B1 (ja) | 2021-03-10 |
DE112019007834T5 (de) | 2022-07-14 |
JPWO2021106141A1 (ja) | 2021-12-09 |
KR20220073850A (ko) | 2022-06-03 |
KR102452777B1 (ko) | 2022-10-07 |
WO2021106141A1 (ja) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Dense text retrieval based on pretrained language models: A survey | |
KR101389148B1 (ko) | 오리지널 유저 입력에 기초한 유저 입력의 제안 및 정제 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
Zhao et al. | Incorporating linguistic constraints into keyphrase generation | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
US8892550B2 (en) | Source expansion for information retrieval and information extraction | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
Mallia et al. | Faster learned sparse retrieval with guided traversal | |
US20140040297A1 (en) | Keyword extraction | |
CN115374362A (zh) | 多路召回模型训练方法、多路召回方法、装置及电子设备 | |
CN112434134A (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
US20220019902A1 (en) | Methods and systems for training a decision-tree based machine learning algorithm (mla) | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
Li et al. | Computational linguistics literature and citations oriented citation linkage, classification and summarization | |
US9223833B2 (en) | Method for in-loop human validation of disambiguated features | |
Xie et al. | Joint entity linking for web tables with hybrid semantic matching | |
CN114730318A (zh) | 信息处理装置、信息处理方法以及信息处理程序 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
CN113553398A (zh) | 搜索词纠正方法、装置、电子设备及计算机存储介质 | |
Smatana et al. | Extraction of keyphrases from single document based on hierarchical concepts | |
Cai et al. | Term-level semantic similarity helps time-aware term popularity based query completion | |
Mendonca et al. | Exploring a Topical Representation of Documents for Recommendation Systems | |
Liubonko et al. | Matching Ukrainian Wikipedia red links with English Wikipedia’s articles | |
Ganjisaffar | Tree ensembles for learning to rank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |