CN117056469A - 信息处理装置以及信息处理方法 - Google Patents
信息处理装置以及信息处理方法 Download PDFInfo
- Publication number
- CN117056469A CN117056469A CN202310168895.9A CN202310168895A CN117056469A CN 117056469 A CN117056469 A CN 117056469A CN 202310168895 A CN202310168895 A CN 202310168895A CN 117056469 A CN117056469 A CN 117056469A
- Authority
- CN
- China
- Prior art keywords
- information processing
- vectors
- vector
- document
- data items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 105
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 235
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 24
- 239000000284 extract Substances 0.000 abstract description 20
- 238000000605 extraction Methods 0.000 description 63
- 238000010586 diagram Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 241000143476 Bidens Species 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理装置以及信息处理方法。根据一实施方式,信息处理装置包括:接口电路,接收与多个文档有关的多个第1数据项和与提问有关的第2数据项;及处理器,对所述接口电路接收到的多个第1数据项和第2数据项进行处理。所述处理器构成为,从多个第1数据项中的各个第1数据项提取多个第1命名实体,从第2数据项提取第2命名实体,分别生成与多个第1数据项中的各个第1数据项和对应的多个第1命名实体中的各个第1命名实体有关的多个第1向量,生成与第2数据项和第2命名实体有关的第2向量,计算多个第1向量中的各个第1向量与第2向量之间的相似度,基于相似度的计算结果,取得从多个第1数据项中检索出的与回答有关的第3数据项。
Description
技术领域
本发明涉及信息处理装置以及信息处理方法。
背景技术
研究及提出了关于机器学习的方法、设备及系统。例如,为了提高机器学习的各种任务的精度,研究及提出了各种计算方法、处理方法、系统的构成及设备的构成。在使用机器学习的信息检索中,有从数据库中检索与作为输入数据的提问(问题)有关的信息的任务。在该任务中,存在与对于未知提问的回答有关的信息的检索精度低的情况。为此,期望提高使用机器学习的信息检索的精度。
发明内容
总体上,根据一实施方式,信息处理装置包括:接口电路,其接收与多个文档(文件、文书)有关的多个第1数据项和与提问有关的第2数据项;以及处理器,其对所述接口电路接收到的所述多个第1数据项和所述第2数据项进行处理,所述处理器构成为,从所述多个第1数据项中的各个第1数据项提取多个第1命名实体,从所述第2数据项提取第2命名实体,分别生成与所述多个第1数据项中的各个第1数据项和对应的所述多个第1命名实体中的各个第1命名实体有关的多个第1向量,生成与所述第2数据项和所述第2命名实体有关的第2向量,计算所述多个第1向量中的各个第1向量与所述第2向量之间的相似度,基于所述相似度的计算结果,取得从所述多个第1数据项中检索出的与回答有关的第3数据项。
附图说明
图1是表示实施方式的信息处理装置的构成例的框图。
图2是表示实施方式的信息处理装置的检索系统的构成例的框图。
图3是表示实施方式的信息处理装置的检索系统的一部分的构成例的框图。
图4是表示实施方式的信息处理装置的检索系统的另一部分的构成例的框图。
图5是用于说明实施方式的信息处理装置的检索系统的另一部分的构成例的示意图。
图6是表示实施方式的信息处理方法的流程图。
图7是用于说明实施方式的信息处理方法的一部分的示意图。
图8是用于说明实施方式的信息处理方法的另一部分的示意图。
图9是表示实施方式的信息处理方法的流程图。
图10是用于说明实施方式的信息处理方法的一部分的示意图。
图11是用于说明实施方式的信息处理方法的另一部分的示意图。
图12是用于说明实施方式的信息处理方法的又一部分的示意图。
图13是用于说明实施方式的信息处理方法的又一部分的示意图。
图14是表示实施方式的信息处理装置的特性的图表。
图15是用于说明实施方式的信息处理装置的变形例的示意图。
具体实施方式
以下,参照图1至图15,对实施方式进行详细说明。在以下说明中,对具有相同功能及构成的要素赋予同一标号。另外,在以下的各实施方式中,标注了在末尾带着用于区分的数字/字母的参照标号的构成要素(例如,电路、布线、各种电压和信号等)在不相互区分也可以的情况下,使用省略了末尾的数字/字母的记载(参照标号)。
(1)实施方式
参照图1至图14,对实施方式的信息处理装置以及实施方式的信息处理方法进行说明。此外,实施方式的信息处理方法可以包括实施方式的信息处理装置的控制方法。
(a)构成
参照图1至图5,对实施方式的信息处理装置的构成和功能进行说明。
图1是用于说明本实施方式的信息处理装置1的构成例的框图。
实施方式的信息处理装置1能够执行各种信息处理。信息处理装置1例如具有能够执行自然语言处理的人工智能(AI)的功能。
信息处理装置1能够执行基于机器学习的各种处理及任务。例如,信息处理装置1构成为能够执行使用有监督(教师)或无监督的学习数据的深度学习。
信息处理装置1包括处理器11、存储器(memory)12、储存器(storage)13以及用户接口(user interface)14。
处理器11进行用于信息处理装置1的各种处理及任务的执行的控制处理和计算处理。处理器11能够控制存储器12、储存器13以及用户接口14。例如,处理器11包括执行各种控制处理、各种计算处理和各种任务等的处理部200。
处理器11包括存储区域111,存储区域111包含寄存器、高速缓存和ROM(Read OnlyMemory)等。
另外,处理器11包括接口部119。接口部119能够从存储器12、储存器13以及用户接口14接收各种数据项。接口部119能够将接收到的数据项发送给存储区域111和(或)处理部200。接口部119例如能够将如由处理部200执行的处理的结果这样的处理器11的处理结果的数据项发送给存储器12、储存器13以及用户接口14。接口部119可以包括用于这些处理的多个设备和电路等。
存储器12临时存储各种信息和各种数据项。
存储器12包括RAM(Random Access Memory)121和ROM122。
RAM121包括SRAM(Static RAM)和DRAM(Dynamic RAM)等。RAM121临时存储被用于信息处理装置1的各种数据项和软件等。RAM121作为信息处理装置1中的工作存储器和缓冲存储器发挥功能。RAM121可以访问处理器11以取得数据项。
ROM122实质上非易失性地存储被用于信息处理装置1的操作系统(OS)、固件、各种软件和各种数据项。ROM122可以访问处理器11以取得数据项。
例如,数据项包含作为处理对象的用户数据、被用于各种系统和设备的设定数据、被用于各种处理的参数、以及软件的一部分等。例如,软件可以包括执行程序、固件、应用程序和操作系统(OS)。数据项和(或)软件可以相当于被用于各种系统和设备的信息。
储存器13能够实质上非易失性地存储各种信息和各种数据项。储存器13包含多个数据库131、132。
储存器13例如是SSD(Solid State Drive,固态硬盘)、UFS(Universal FlashStorage,通用闪存存储)设备或者HDD(Hard Disc Drive,硬盘驱动器)。在储存器13是SSD或UFS设备的情况下,储存器13包括控制器和非易失性半导体存储器设备。SSD所使用的非易失性半导体存储器设备是NAND型闪速存储器。在非易失性半导体存储器设备是NAND型闪速存储器的情况下,非易失性半导体存储器设备基于Toggle DDR接口标准或者ONFi(OpenNAND Flash interface)标准,与控制器通信。控制器命令非易失性半导体存储器设备进行读取时序(sequence)、写入时序、擦除时序以及垃圾回收这样的各种动作。非易失性半导体存储器设备基于来自控制器的命令,执行各种动作。
此外,在本实施方式的信息处理装置1中,储存器13只要能够直接地或间接地与处理器11通信,则既可以设置在一个壳体(未图示)内,也可以设置在互不相同的壳体内。处理器11和储存器13只要能够直接地或间接地相互通信,则既可以设置于相同的国家或地区,也可以设置在互不相同的国家或地区。
用户接口14可以包括用于信息处理装置1的用户与处理器11之间的通信的多个设备和电路等。用户接口14包括输入设备和输出设备。输入设备例如包括触摸面板、键盘、操作按钮和(或)麦克风等。输出设备例如包括显示器、打印机和(或)扬声器等。
用户接口14经由输入设备将来自用户的各种处理和(或)任务的执行请求供给到处理器11。用户接口14经由输出设备将各种处理和(或)任务的执行结果提供给用户。用户接口14也能够将各种处理和(或)任务的执行中途经过(过程)提供给用户。
用户接口14能够将各种数据项发送给处理器11、存储器12以及储存器13。用户接口14能够从处理器11、存储器12以及储存器13接收各种数据项。
信息处理装置1也可以经由无线或有线网络与其他设备9通信。例如,处理和(或)任务的执行请求也可以从设备9供给到信息处理装置1。处理和(或)任务的执行结果也可以从信息处理装置1供给到设备9。设备9是计算机设备或者移动设备。计算机设备的一例是个人计算机或服务器计算机。移动设备的一例是智能手机、功能手机或平板设备。
本实施方式的信息处理装置1包括处理部200,处理部200是执行使用深度学习的文档检索的系统。以下,作为执行使用深度学习的文档检索的系统的处理部200被称为检索系统200。
检索系统200可以在处理器11上由软件、硬件、或者软件和硬件的组合来实现。
由此,在本实施方式的信息处理装置1中,处理器11执行用于文档检索的检索任务的各种处理和动作。以下,检索任务也被称为检索处理。
图2是用于说明本实施方式的信息处理装置1中的检索系统200的示意性的框图。
如图2所示,在本实施方式的信息处理装置1中,检索系统200执行基于深度学习的文档检索任务。检索系统200根据检索任务,针对提问Qs,从存储于作为知识源的数据库131的多个文档Dc中选择及提示成为回答的一个以上的文档Dc。
提问Qs是包含自然语言的一个以上的句子的数据项。提问Qs也被称为提问数据项。例如,提问Qs经由用户接口14从信息处理装置1的外部(例如,用户)供给到检索系统200。
存储于数据库131的多个文档Dc分别是包含自然语言的一个以上的句子的数据项。文档Dc也被称为文档数据项。例如,多个文档Dc经由用户接口14从信息处理装置1的外部供给到储存器13的数据库131。
在本实施方式中,信息处理装置1以及检索系统200所使用的自然语言是从日语、英语、汉语、德语、法语、俄罗斯语、西班牙语和意大利语等多个自然语言中选择的任一自然语言。提问Qs所使用的自然语言优选与文档Dc所使用的自然语言相同。但是,提问Qs所使用的自然语言也可以与文档Dc所使用的自然语言不同。
图2的检索系统200包括提取模块210、编码器220、221(221-1~221-n)、相似度计算部230、判定部240和结果输出部250等。例如,检索系统200的各构成要素210、220、221、230、240、250可以由处理器11控制。
检索系统200接收提问Qs和多个文档Dc。
提问Qs经由用户接口14由用户供给到检索系统200。提问Qs存储于处理器11的存储区域111或者存储器12。提问Qs也可以从其他设备9经由网络(未图示)供给到检索系统200。
提问Qs包含询问关于人物、组织、地区、事件、物品和日期时刻等某个事物的情况的句子。提问Qs由自然语言记述。
文档Dc从储存器13的数据库131供给到检索系统200。文档Dc包含表示关于人物、地区、事件和物品等某个事物的信息的句子。文档Dc由自然语言记述。文档Dc包含一个以上的句子。文档Dc包含多个单词而构成。例如,文档Dc由十几个到一百几十个单词构成。文档Dc也被称为文本(text)或者段落(passage)。
数据库131是文档集合。数据库131作为用于检索系统200中的检索任务的知识源和信息源而发挥功能。
提取模块210接收被供给到检索系统200的提问Qs和文档Dc。提取模块210能够从提问Qs和文档Dc提取各种信息。
在本实施方式中,提取模块210能够提取某个提问Qs所包含的一个以上的命名实体qNE。在本实施方式中,提取模块210能够提取某个文档Dc所包含的一个以上的命名实体dNE。
命名实体qNE、dNE是人名、组织名、地名、事件名、物品名和(或)日期时刻等。
提取模块210也被称为提取部或者命名实体提取模块。
例如,提取模块210包含由基于关于自然语言的模型的神经网络构成的构造。
稍后说明提取模块210的结构和功能的详情。
编码器220、221根据被供给的自然语言的数据项Qs、Dc以及命名实体qNE、dNE,生成向量QV、KV。
编码器220基于某个提问Qs的句子和从提问Qs提取出的命名实体qNE,生成关于提问Qs的向量QV。以下,从提问Qs和命名实体qNE得到的向量QV被称为查询向量(queryvector)QV。此外,查询向量QV也可以被称为查询。
查询向量QV是与自然语言的提问Qs和该提问Qs所包含的命名实体qNE有关的特征量向量的数据项。
编码器221基于某个文档Dc的句子和从文档Dc提取出的命名实体dNE,生成关于文档Dc的向量KV。以下,从文档Dc和命名实体dNE得到的向量KV被称为键向量(key vector)KV。此外,键向量KV也可以被称为键。
键向量KV是与自然语言的文档Dc和该文档Dc所包含的命名实体dNE有关的特征量向量的数据项。
例如,键向量KV存储于储存器13的数据库132。
例如,编码器220、221分别包含由基于关于自然语言的模型的神经网络构成的构造。
由此,编码器220能够将自然语言的提问Qs和命名实体qNE转换为向量QV。编码器221能够将自然语言的文档Dc和命名实体dNE转换为向量KV。
稍后说明编码器220、221的结构和功能的详情。
在本实施方式中,例如,键向量KV被用作表示文档Dc的特征的数据项。在本实施方式中,例如,查询向量QV被用作在键向量KV和文档Dc的检索中使用的数据项。
相似度计算部230计算某个数据与其他数据之间的相似度。在本实施方式中,相似度计算部230计算查询向量QV与键向量KV之间的相似度。
例如,基于两个向量QV、KV间的余弦相似度来计算相似度。此外,也可以基于两个向量QV、KV间的内积或者两个向量QV、KV间的距离等,计算相似度。用于计算相似度的距离例如可使用欧几里得距离、曼哈顿距离和闵可夫斯基距离等中的任一距离来获得。
判定部240能够执行对于由处理器11执行的各种处理的判定。在本实施方式中,判定部240基于相似度计算部230的计算结果,判定查询向量QV与键向量KV是否相似。
判定部240在关于查询向量QV和键向量KV所计算出的相似度的计算结果的值在某个阈值以上的情况下,判定为查询向量QV与键向量KV相似。判定部240在关于查询向量QV和键向量KV所计算出的相似度的计算结果的值小于某个阈值的情况下,判定为查询向量QV与键向量KV不相似。以下,相似度的计算结果的值也被称为得分(score)。
此外,在为了评价两个向量QV、KV间的相似度而设定有多个阈值的情况下,两个向量QV、KV间的相似度可以分阶段地评价。作为其结果,可能成为回答的多个文档Dc可以根据相似度的得分而分类为多级。
结果输出部250基于判定部240的处理结果,输出与具有某个得分以上的相似度的一个以上的键向量KV<i>各自对应的一个以上的文档Dc<i>作为对于检索任务中的提问Qs的检索结果RR。i为1以上的整数。
例如,结果输出部250从包含数据库131的储存器13读出与各键向量KV对应的文档Dc。结果输出部250将读出的文档Dc经由用户接口14呈现给用户。
结果输出部250在读出数据库131的文档Dc时,基于表(table)TBL,检测与检索结果的键向量KV对应的文档Dc。
表TBL包含与键向量KV和文档Dc的对应关系有关的信息。例如,表TBL由表管理部290生成。表TBL存储于表管理部290。
表管理部290能够基于从提取模块210提供的关于各文档Dc的信息和从编码器221提供的关于键向量KV的信息,生成表TBL。
例如,表TBL也被称为管理表TBL。
例如,表管理部290可以设置于处理器11、存储器12以及储存器13中的任一方。
如此,检索系统200从数据库131中检索针对提问Qs具有高相似度的文档Dc。
检索系统200将检索任务的检索结果RR呈现给用户。作为其结果,检索结果RR作为对于提问Qs的回答被提供给用户。
此外,提问Qs也可以经由网络从其他设备9供给到信息处理装置1。对于提问Qs的检索结果RR也可以经由网络从信息处理装置1供给到其他设备9。
提取模块210以及编码器220、221作为软件或者固件被提供给处理器11。提取模块210以及编码器220例如作为由Python这样的某种程序语言形成的计算机程序存储于处理器11的存储区域111。
提取模块210以及编码器220、221的软件既可以存储于存储器12,也可以存储于储存器13。在该情况下,这些软件在执行后述的使用提取模块210以及编码器220、221的处理时,从存储器12读取到处理器11的存储区域111,或者从储存器13读取到处理器11的存储区域111。
此外,提取模块210以及编码器220、221的软件也可以在执行使用提取模块210以及编码器220、221的后述的处理时存储于RAM121,由处理器11在RAM121上执行这些软件。
提取模块210以及编码器220、221也可以作为硬件而设置在处理器11的内部或处理器11的外部。
<提取模块210>
图3是用于说明本实施方式的信息处理装置1中的检索系统200的提取模块210的结构和功能的框图。
提取模块210包括提问接收部211、多个文档接收部212(212-1~212-n)、命名实体提取部213、214(214-1~214-n)以及识别号提取部219(219-1~219-n)等。n为1以上的整数。
提问接收部211接收被供给到检索系统200的提问Qs。
多个文档接收部212-1~212-n分别接收从数据库131供给的文档Dc。
例如,文档Dc包含识别号Id。识别号Id是附加于文档Dc的信息。包含识别号Id和文档Dc的数据项也被称为文档文件FL(FL<1>~FL<n>)。
识别号Id是表示用于在数据库131中管理及识别多个文档Dc的编号的数据项。各识别号Id被分配给多个文档Dc中的对应的一个文档Dc。识别号Id按各文档Dc具有固有的值。识别号Id既可以是文档文件FL的文件名,也可以是文档文件FL的元数据所包含的值。识别号Id也可以是纳入文档Dc的值。
命名实体提取部213、214分别包含基于命名实体识别模型M1的神经网络。
命名实体提取部213、214分别基于命名实体识别模型M1,提取命名实体qNE、dNE。命名实体识别模型M1是构筑为能够判别由自然语言记述的句子中的单词和短语是否为命名实体的、关于自然语言的神经网络模型。
命名实体提取部213基于命名实体识别模型M1,从提问接收部211接收提问Qs。
命名实体提取部213基于命名实体识别模型M1,从构成提问Qs的句子中提取一个命名实体qNE。
例如,命名实体提取部213将构成提问Qs的句子标记化(标记解析)。由此,提问Qs分割为多个标记(token)。
命名实体提取部213基于命名实体识别模型M1,基于提问Qs中的标记的位置、标记的词性以及多个标记间的关系等,判别各标记是否为命名实体。
作为其结果,判别为是命名实体的标记被作为提问Qs中的命名实体qNE从提问Qs中提取出来。
命名实体提取部213将从提问Qs提取出的命名实体qNE发送给编码器220。
多个命名实体提取部214-1~214-n分别从多个文档接收部212-1~212-n中的对应的一个文档接收部接收文档Dc。
各命名实体提取部214从构成文档Dc的一个以上的句子中提取一个以上的命名实体dNE(dNE<1>-1、dNE<1>-j、……、dNE<n>-1、dNE<n>-k)。j和k为1以上的整数。
例如,各命名实体提取部214将文档Dc所包含的句子标记化。由此,文档Dc分割为多个标记。
命名实体提取部214基于命名实体识别模型M1,基于文档Dc的句子中的标记的位置、标记的词性以及多个标记间的关系等,判别各标记是否为命名实体。
作为其结果,判别为是命名实体的标记被作为文档Dc中的命名实体dNE从文档Dc中提取出来。
各命名实体提取部214将从文档Dc提取出的一个以上的命名实体dNE发送给多个编码器221中的对应的一个编码器。
多个识别号提取部219-1~219-n分别从多个文档接收部212-1~212-n中的对应的一个文档接收部接收附加有识别号Id的文档Dc(文档文件FL)。
各识别号提取部219-1、219-2、……、219-n分别提取识别号Id。识别号提取部219将提取出的识别号Id发送给表管理部290。提取出的识别号Id与对应的文档Dc和从对应的文档Dc生成的键向量KV相关联。
例如也可以,文档接收部212通过从文档Dc分离识别号Id来提取识别号Id。
此外,文档Dc也存在不包含对应的识别号Id的情况。在该情况下,识别号提取部219也可以生成与文档Dc对应的识别号Id。
提问接收部211不仅将提问Qs发送给命名实体提取部213,还发送给编码器220。编码器220分别接收命名实体qNE和提问Qs。
各文档接收部212不仅将文档Dc发送给对应的命名实体提取部214,还发送给多个编码器221中的对应的一个编码器。编码器221分别接收命名实体dNE和文档Dc。
如此,提取模块210从提问Qs和文档Dc的句子中分别提取命名实体qNE、dNE。
提取模块210将提取出的命名实体qNE与提问Qs一起发送给后段的编码器220。
提取模块210将提取出的命名实体dNE与文档Dc一起发送给后段的编码器221。
<编码器220、221>
图4是用于说明本实施方式的信息处理装置1中的检索系统200的编码器220、221的结构和功能的图。
编码器220、221包含构成为进行与自然语言的深度学习有关的各种计算处理的神经网络。
图4的(a)是用于说明本实施方式中的对于提问Qs的编码器220的图。
编码器220基于已学习语言模型M2的神经网络,进行被供给的自然语言的向量转换处理。此外,已学习语言模型M2是已经使用各种数据集进行了关于自然语言处理的机器学习(深度学习)的神经网络模型。
编码器220根据神经网络的结构而包含多层LY1a、LY2a。例如,层LY1a是嵌入(埋入)层。层LY2a是隐藏层。此外,层LY1a也可以是注意力层(attention layer)。层LY2a也可以是前馈层(feed-forward layer)。
编码器220接收提问Qs和由提取模块210提取出的命名实体qNE。
编码器220将提问Qs的句子分割为多个标记Tk。
编码器220针对命名实体qNE和标记化后的提问Qs,进行与层LY1a、LY2a的功能相应的各种处理。
例如,包含嵌入层的层LY1a针对标记化后的提问Qs和命名实体qNE,进行用于嵌入各标记的各种处理。
例如,包含隐藏层的层LY2a针对来自层LY1a的输出,进行乘法累加运算这样的各种计算处理。
编码器220通过由层LY1a、LY2a进行的各种处理,生成及输出基于提问Qs和命名实体qNE的查询向量QV。查询向量QV包含多个分量Cm。各分量Cm可以由p×q的行列式表示。
p和q为1以上的整数。此外,在本实施方式中,为了简化而用画有影线的矩形图案示意性地图示了各分量Cm,而各分量Cm是按p×q排列的多个数值的数组。
图4的(b)和(c)是用于说明本实施方式中的对于文档Dc的编码器221的图。
如图4的(b)所示,编码器221具有与编码器220实质上相同的结构和功能。
编码器221基于已学习语言模型M2的神经网络,进行被供给的自然语言的向量转换处理。
编码器221包含多层LY1b、LY2b。
编码器221接收文档Dc和由提取模块210从该文档Dc提取出的多个命名实体dNEa、dNEb中的命名实体dNEa。
编码器221将文档Dc的句子分割为多个标记Tk。
编码器221针对命名实体dNEa和标记化后的文档Dc,进行与各层LY1b、LY2b的功能相应的各种处理。
编码器221通过由层LY1b、LY2b进行的各种处理,生成及输出基于文档Dc和命名实体dNEa的键向量KVa。键向量KVa包含p×q的分量Cm。键向量KVa的分量Cm的数量与查询向量QV的分量Cm的数量相同。
如上所述,从一个文档Dc提取出的多个命名实体dNE(dNEa、dNEb)中的一个被供给到一个编码器221。
编码器221按各命名实体dNE,生成文档Dc和命名实体dNE的键向量KV。
如图4的(c)所示,从文档Dc提取出的有别于命名实体dNEa的命名实体dNEb与文档Dc一起被供给到另一编码器221。
该编码器221生成及输出基于文档Dc和命名实体dNEb的键向量KVb。
键向量KVb的分量Cm的数量与键向量KVa的分量Cm的数量相同。键向量KVb的多个分量Cm与键向量KVa的多个分量Cm不同。
如图4的(b)和(c)那样,在一个文档Dc包含有两个命名实体dNEa、dNEb的情况下,按各命名实体dNEa、dNEb,生成两个键向量KVa、KVb。
多个键向量KV存储于储存器13的数据库132。
生成的多个键向量KV形成潜在表现空间LS。潜在表现空间LS是基于如已学习语言模型M2这种共同的模型的神经网络生成的向量的集合。此外,潜在表现空间LS也被称为潜在空间(隐空间)LS。
本实施方式中的根据提问Qs和命名实体qNE生成的查询向量QV也能够换句话说是通过包含某个命名实体qNE的提问Qs的上下文被反映于该命名实体qNE所生成的向量。
本实施方式中的根据文档Dc和命名实体dNE生成的键向量KV也能够换句话说是通过包含某个命名实体dNE的文档Dc的上下文被反映于该命名实体dNE所生成的向量。
如上,在本实施方式中,形成了被用于检索系统200的多个向量QV、KV。
此外,在上述例子中,表示了按各文档Dc设置对应的一个编码器221的结构。
但是,也可以为,多个文档Dc与一个编码器221相关联。在该情况下,一个编码器221针对依次被供给的多个文档Dc中的每一个,依次使用各文档Dc和命名实体dNE,生成多个键向量KV。
<表TBL>
图5是用于说明本实施方式的信息处理装置1中的检索系统200用于对文档Dc和键向量KV进行管理的表TBL的图。
例如,表管理部290接收来自提取模块210的与多个文档Dc的多个识别号Id有关的信息、和来自多个编码器221的与多个键向量KV有关的信息。
表管理部290基于与多个识别号Id有关的信息和与多个键向量KV有关的信息,生成及存储如图5那样的表TBL。
图5表示了本实施方式的信息处理装置1中的表TBL的一例。
如图5所示,基于某个文档Dc(Dc<1>、Dc<2>、Dc<3>、……、Dc<n-1>、Dc<n>)及该文档Dc的识别号Id(Id<1>、Id<2>、Id<3>、……、Id<n-1>、Id<n>),从该文档Dc生成的一个以上的键向量KV(KV<1>、KV<2>、KV<3>、……、KV<n-1>、KV<n>)与该文档Dc的一个识别号Id相关联。
如上所述,各识别号Id<1>、Id<2>、Id<3>、……、Id<n-1>、Id<n>与各文档Dc<1>、Dc<2>、Dc<3>、……、Dc<n-1>、Dc<n>一对一地相关联。
在图5的表TBL中,对一个识别号Id关联有从一个文档Dc生成的一个以上的键向量KV。
例如,对<1>的识别号Id关联有两个键向量KV<1>-1、KV<1>-2。例如,对<2>的识别号Id关联有两个键向量KV<2>-1、KV<2>-2。例如,对<3>的识别号Id关联有m个键向量KV<3>-1、KV<3>-2、……、KV<3>-m。m为1以上的整数。
例如,对<n-1>的识别号Id关联有一个键向量KV<n-1>。例如,对<n>的识别号Id关联有两个键向量KV<n>-1、KV<n>-2。
所以,基于存储于表管理部290的表TBL,能够根据所选择的一个键向量KV检测对应的识别号Id。
因此,即使从一个文档Dc生成了多个键向量KV,也可以基于与某个键向量KV相关联的识别号Id,从数据库131中读出对应的文档Dc。
如此,在本实施方式中,检索系统200能够通过参照表TBL,取得与键向量KV对应的特定的文档Dc。
如本实施方式这样,使用识别号Id执行了基于键向量KV的文档Dc的检索及取得的情况下,能够简化检索系统200的构成。例如,在本实施方式中,检索系统200不包括用于将键向量KV转换为句子的解码器。
如上,本实施方式的信息处理装置1中的检索系统200包含上述构成和功能。
在本实施方式中,所生成的查询向量QV具有提问Qs的句子的上下文的特征量向量反映出提问Qs所包含的命名实体qNE的特征量向量的值。
同样地,所生成的键向量KVa、KVb各自具有文档Dc的句子的上下文的特征量向量反映出文档Dc所包含的各命名实体dNEa、dNEb的特征量向量的值。
分别反映出互不相同的命名实体dNEa、dNEb的特征的两个键向量KVa、KVb即使是基于一个文档Dc的特征量向量,也可以按各命名实体dNEa、dNEb包含不同的分量Cm。
例如,在本实施方式中,即使文档Dc的上下文与提问Qs的上下文关联,如果文档Dc所包含的命名实体dNE与提问Qs所包含的命名实体qNE不相似,则反映出命名实体dNE的特征的键向量KV也相对于查询向量QV具有低相似度。作为其结果,相对于提问Qs的命名实体qNE具有低相似度的命名实体dNE的文档Dc被排除在对于提问Qs的回答之外。
与此相对,如果文档Dc的上下文与提问Qs的上下文关联、并且文档Dc所包含的命名实体dNE与提问Qs所包含的命名实体qNE相似,则反映出命名实体dNE的特征的键向量KV相对于查询向量QV具有高相似度。作为其结果,相对于提问Qs的命名实体qNE具有高相似度的命名实体dNE的文档Dc被选择为回答。
另外,根据本实施方式的信息处理装置1,依据一个文档Dc所包含的命名实体dNE的数量,可以从一个文档Dc生成多个键向量KV。
由此,与从一个文档Dc生成一个键向量KV的情况相比,依据一个文档所包含的命名实体dNE的数量,存在于一个潜在表现空间LS的键向量KV的数量会增加。
作为这些的结果,本实施方式的信息处理装置1能够提高检索系统200中的对于检索查询的检索精度。
所以,本实施方式的信息处理装置1能够提高任务的可靠性。
(b)信息处理方法
参照图6至图14,对本实施方式的信息处理装置1的信息处理方法进行说明。
此外,实施方式的信息处理方法可以包括实施方式的信息处理装置的控制方法。
<键向量KV的生成>
参照图6至图8,对本实施方式的信息处理装置1中的由检索系统200执行的键向量KV的生成处理进行说明。
图6是表示本实施方式的信息处理装置1中的键向量KV的生成处理的流程图。图7和图8分别是用于说明本实施方式中的键向量KV的生成处理的示意图。
<S1>
如图6和图7所示,在检索系统200中,提取模块210经由处理器11的接口部119从储存器13的数据库131接收多个文档Dc。文档Dc包含一个以上的句子。多个文档Dc也可以从信息处理装置1外部的设备提供。
例如,提取模块210接收“Biden was born in Scranton.”这一句子作为文档Dc<1>。提取模块210接收“Obama was born in Hawaii.”这一句子作为文档Dc<2>。提取模块210接收“Obama was awarded the Nobel peace prize.”这一句子作为文档Dc<n>。
<S2>
提取模块210连带文档Dc一起接收与文档Dc相关联的识别号Id。提取模块210提取识别号Id。例如,提取模块210从文档Dc分离识别号Id。提取出的识别号Id发送给表管理部290。
<S3>
提取模块210基于命名实体识别模型M1,提取各文档Dc所包含的一个以上的命名实体dNE。
在图7的例子中,提取模块210从文档Dc<1>提取“Biden”这一命名实体dNEa和“Scranton”这一命名实体dNEb。提取模块210从文档Dc<2>提取“Obama”这一命名实体dNEc和“Hawaii”这一命名实体dNEd。提取模块210从文档Dc<n>提取“Obama”这一命名实体dNEe和“Nobel peace prize”这一命名实体dNEf。
提取模块210将提取出的各个命名实体dNE发送给对应的编码器221。另外,提取模块210将文档Dc本身与从文档Dc提取出的命名实体dNE一起发送给对应的编码器221。
<S4>
编码器221基于已学习语言模型M2,生成键向量KV。
如图8所示,各编码器221接收文档Dc以及提取出的一个以上的命名实体dNE。
各编码器221将接收到的文档Dc标记化。各编码器221进行标记以及命名实体dNE的嵌入处理。由此,构成文档Dc的单词和短语以及命名实体dNE被向量化。
编码器221基于已学习语言模型M2,按从某个文档Dc提取出的各命名实体dNE,计算与该文档Dc和命名实体dNE有关的键向量KV。
由此,针对一个文档Dc,根据从该文档Dc提取出的命名实体dNE的数量,生成一个以上的键向量KV。
例如,关于文档Dc<1>,生成两个键向量KV<1>-a、KV<1>-b。键向量KV<1>-a根据“Biden”这一命名实体dNEa和文档Dc<1>而生成。键向量KV<1>-b根据“Scranton”这一命名实体dNEb和文档Dc<1>而生成。
例如,关于文档Dc<2>,生成两个键向量KV<2>-c、KV<2>-d。键向量KV<2>-c根据“Obama”这一命名实体dNEc和文档Dc<2>而生成。键向量KV<2>-d根据“Hawaii”这一命名实体dNEd和文档Dc<2>而生成。
例如,关于文档Dc<n>,生成两个键向量KV<n>-e、KV<n>-f。键向量KV<n>-e根据“Obama”这一命名实体dNEe和文档Dc<n>而生成。键向量KV<n>-f根据“Nobel peace prize”这一命名实体dNEf和文档Dc<n>而生成。
作为其结果,生成与作为知识源而存储于数据库131的多个文档Dc有关的潜在表现空间LS。包含多个文档Dc的多个键向量KV的潜在表现空间LS基于使用同一自然语言模型的神经网络生成。
潜在表现空间LS的键向量KV的数量比存储于数据库131的文档Dc的数量多。但是,根据各文档Dc所包含的命名实体dNE的数量,也存在键向量KV的数量比文档Dc的数量少的情况。
<S5>
检索系统200由处理器11将所生成的键向量KV和与键向量KV对应的识别号Id存储于储存器13。由此,潜在表现空间LS被存储于储存器13。例如,键向量KV和识别号Id在表TBL中彼此相关联地被保存。
例如,表管理部290接收键向量KV和识别号Id。表管理部290生成表示键向量KV和识别号Id的对应关系的表TBL。只要在执行检索任务前生成表TBL即可。
例如,执行检索任务时,生成的多个键向量KV被读出到存储器12。执行检索任务时,与键向量KV和识别号Id有关的表TBL被读出到表管理部290。此外,键向量KV也可以被读出到表管理部290。
如上,从多个文档Dc生成键向量KV。
由此,生成包含多个键向量KV的潜在表现空间LS。
<检索任务>
参照图9至图13,对本实施方式的信息处理装置1中的由检索系统200执行的检索任务进行说明。
图9是表示本实施方式的信息处理装置1中的检索任务的流程图。图10至图13分别是用于说明本实施方式中的检索任务的示意图。
<S10>
如图9所示,检索系统200接收成为检索任务对象的提问Qs。提问Qs由信息处理装置1的用户或者设备9生成。用户将提问Qs经由用户接口14供给到信息处理装置1。提问Qs经由处理器11的接口部119输入到检索系统200。提问Qs包含一个以上的句子。
如图10所示,在检索系统200中,提取模块210接收提问Qs。
例如,在本实施方式中,提取模块210接收“Where was Obama born?”这一句子作为提问Qs。
<S11>
提取模块210基于命名实体识别模型M1,从提问Qs提取命名实体qNE。
在图10的例子中,提取模块210从提问Qs提取“Obama”这一命名实体qNE。
提取模块210将提取出的命名实体qNE发送给编码器220。提取模块210将提问Qs本身与从提问Qs提取出的命名实体qNE一起发送给编码器220。
<S12>
编码器220接收提问Qs和命名实体qNE。
编码器220基于已学习语言模型M2,使用提问Qs和命名实体qNE,计算查询向量QV。
由此,生成与提问Qs对应的查询向量QV。生成的查询向量QV具有提问Qs的特征量向量反映出从提问Qs提取出的命名实体qNE的特征量向量的值。
<S13>
如图11所示,与提问Qs的接收以及对于提问Qs的各种处理并行地,检索系统200通过处理器11的控制,从储存器13的数据库132读出包含于潜在表现空间LS的多个键向量KV。读出的键向量KV例如存储于存储器12。
检索系统200由处理器11将与识别号Id和键向量KV有关的表TBL读出到表管理部290。
此外,也可以在提问Qs的接收之前,从储存器13读出键向量KV和表TBL。
<S14>
如图12所示,相似度计算部230计算查询向量QV与各键向量KV之间的相似度。例如,查询向量QV与键向量KV之间的相似度根据余弦相似度来计算。
由此,按各键向量KV分别得到表示查询向量QV与各键向量KV之间的相似度的计算结果的得分SCR。
相似度计算部230将得分SCR发送给判定部240。
<S15>
判定部240基于相似度的计算结果,执行可能成为回答候选的键向量KV的判定处理。
如图13所示,判定部240从相似度计算部230接收相似度的得分SCR。判定部240从潜在表现空间LS的多个键向量KV中检索与查询向量QV相似的键向量KV。
判定部240基于与各键向量KV有关的得分SCR,从多个键向量KV中判定可能成为对于提问Qs的回答候选的键向量KV。
例如,判定部240根据相似度的得分SCR是否满足阈值,进行对于查询向量QV的键向量KV的排序。由此,判定部240取得具有某个阈值以上的相似度的键向量KV作为回答候选。
在图13的例子中,判定部240选择并取得连同文档Dc本身的上下文的特征一起反映出“Obama”这一命名实体dNE的特征的多个键向量KV<2>-c、KV<n>-e。
<S16>
如图13所示,结果输出部250基于判定处理的结果,取得及输出一个以上的文档Dc作为对于提问Qs的检索结果RR。
例如,结果输出部250从判定部240接收基于相似度的键向量KV的判定结果。
结果输出部250基于接收到的键向量KV,参照表管理部290的表TBL。结果输出部250基于表TBL的参照结果,检测与回答候选的键向量KV对应的识别号Id。
结果输出部250访问储存器13的数据库131。结果输出部250从数据库131读出与检测到的识别号Id对应的文档Dc。
例如,在选择了键向量KV<2>-c的情况下,结果输出部250基于所选择的键向量KV<2>-c以及表TBL,检测到键向量KV<2>-c与识别号Id<2>相关联这一情况。
由此,结果输出部250从数据库131读出与检测到的识别号Id<2>对应的文档Dc<2>。
在选择了键向量KV<n>-e的情况下,结果输出部250基于所选择的键向量KV<n>-e以及表TBL,检测到键向量KV<n>-e与识别号Id<n>相关联这一情况。
由此,结果输出部250从数据库131读出与检测到的识别号Id<n>对应的文档Dc<n>。
如此,结果输出部250取得与作为回答候选所选择出的键向量KV对应的文档Dc(Dc<2>、Dc<n>)。
结果输出部250将所取得的文档Dc<2>、Dc<n>作为关于回答的数据项而向用户接口14输出。
作为其结果,提供了提问Qs的用户能够基于来自结果输出部250的输出,识别对于提问Qs的检索结果RR的文档Dc。
通过以上处理,本实施方式的信息处理装置1中的检索任务完成。
(c)总结
DPR(Dense passage retrieval,稠密段落检索)这种使用深度学习的文档检索方法与基于字符串的一致的关联文档的检索方法这种经典的检索方法相比,存在针对在为了作为DPR发挥功能所需的附加学习(fine-tuning,微调)中使用的数据集能够实现更高精度的检索的情况。
但是,基于DPR的文档检索方法存在fine-tuning中的对于初次见到的提问或者文档的检索精度低的倾向。例如,在对于与命名实体有关的提问的检索任务中,基于DPR的文档检索方法的检索性能有时会比经典的检索方法的检索性能低。
如上所述,在本实施方式的信息处理装置1中,检索系统200从提问Qs和检索对象的文档Dc各自提取命名实体qNE、dNE。
检索系统200根据提问Qs和所提取出的命名实体qNE生成查询向量QV。检索系统200按从文档Dc提取出的多个命名实体dNE中的每一个,根据文档Dc和各命名实体dNE生成多个键向量KV。
由此,本实施方式的信息处理装置1能够使同一潜在表现空间LS内存在数量比文档Dc的数量多的键向量KV。另外,在本实施方式中,对于一个文档Dc的键向量KV的冗余性变高。
在本实施方式中,与提问Qs对应的查询向量QV除了提问Qs的上下文的特征之外还反映了从提问Qs提取出的命名实体qNE的特征。与此同样地,与文档Dc对应的键向量KV除了文档Dc的上下文的特征之外还反映了从文档Dc提取出的命名实体dNE的特征。
由此,本实施方式的信息处理装置1能够从多个键向量KV中检索反映出与提问Qs所包含的命名实体qNE相似的命名实体dNE的特征的键向量KV。
作为这些的结果,在本实施方式的信息处理装置1中,对于初次见到的句子的检索性能提高。
图14是表示本实施方式的信息处理装置1的与检索任务有关的特性的图表。
图14的图表的横轴对应于与提问有关联的键向量的个数。图14的图表的纵轴对应于检索精度(单位:%)。
由圆点图和实线所示的特性A1表示了实施方式的信息处理装置1的检索系统200中的检索精度的推移。由三角形图和虚线所示的特性A2表示了比较例的检索系统中的检索精度的推移。比较例的检索系统是使用一般的DPR的检索系统。
本实施方式的检索系统200的特性以及比较例的检索系统的特性使用EntityQuestions数据集进行了评价。测试集中的提问的总数为22075个。
如图14所示,如本实施方式这样根据提取出的命名实体dNE和文档Dc所生成的键向量KV用于检索系统200的检索任务的情况下,本实施方式的检索系统200的检索精度与比较例的检索系统的检索精度相比会增高。
如此,本实施方式的信息处理装置1能够提高检索任务的检索精度。
如上,本实施方式的信息处理装置1以及信息处理方法能够提高任务的精度。
(2)变形例
参照图15,对实施方式的信息处理装置1的变形例进行说明。
图15是用于说明实施方式的信息处理装置1的变形例的示意图。
如图15所示,存在提问Qsx包含多个命名实体qNEa、qNEb的情况。例如,在图15的例子中,“Which Nobel prize was awarded to Obama?”这一提问Qsx供给到信息处理装置1的检索系统200。提问Qs包含“Obama”这一命名实体qNEa和“Nobel prize”这一命名实体qNEb。
在该情况下,与文档Dc和键向量KV同样地,按一个提问Qsx所包含的多个命名实体qNE中的每一个,计算及生成多个查询向量QVa、QVb。
提取模块210基于命名实体识别模型M1,从提问Qsx提取多个命名实体qNEa、qNEb。在此,分别提取“Obama”和“Novel prize”这样两个命名实体qNEa、qNEb。
提取模块210将提问Qsx和所提取出的两个命名实体qNEa、qNEb向编码器220发送。
编码器220基于已学习语言模型M2,按命名实体qNEa、qNEb各自,计算使用提问Qsx和各命名实体qNEa、qNEb的查询向量QVa、QVb。由此,从一个提问Qsx生成两个查询向量QVa、QVb。
对于一方的查询向量QVa,针对提问Qsx的上下文的特征,反映了命名实体qNEa的特征。对于另一方的查询向量QVb,针对提问Qsx的上下文的特征,反映了命名实体qNEb的特征。
相似度计算部230分别计算多个查询向量QVa、QVb与多个键向量KV之间的相似度。
相似度计算部230计算查询向量QVa与各键向量KV之间的相似度。由此,作为与查询向量QVa和各键向量KV有关的相似度的计算结果,得到多个得分SCRa。
相似度计算部230计算查询向量QVb与各键向量KV之间的相似度。由此,作为与查询向量QVb和各键向量KV有关的相似度的计算结果,得到多个得分SCRb。
判定部240基于与各查询向量QVa、QVb有关的相似度的计算结果,从潜在表现空间LS的多个键向量KV中判定可能成为对于提问Qsx的回答候选的键向量KV。
结果输出部250基于判定结果和表TBL,从数据库131检索成为回答的文档Dc。由此,结果输出部250从数据库131取得一个以上的文档Dc。
结果输出部250输出检索结果RR的文档Dc。
如本变形例这样,即使在来自用户的提问Qsx包含多个命名实体qNEa、qNEb的情况下,实施方式的检索系统200也能够使用按各命名实体qNEa、qNEb生成的多个查询向量QVa、QVb,取得成为对于提问Qsx的回答的文档Dc。
因此,本变形例的信息处理装置1能够获得与上述实施方式实质相同的效果。
(3)其他
虽然说明了本发明的几种实施方式,但这些实施方式是作为例子提示的,并非旨在限定发明的范围。这些新的实施方式可以通过其他各种方式来实施,可以在不脱离发明的宗旨的范围内进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围和宗旨中,并且包含在专利权利要求书所记载的发明及其均等的范围内。
Claims (16)
1.一种信息处理装置,包括:
接口电路,其接收与多个文档有关的多个第1数据项和与提问有关的第2数据项;以及
处理器,其对所述接口电路接收到的所述多个第1数据项和所述第2数据项进行处理,
所述处理器构成为,
从所述多个第1数据项中的各个第1数据项提取多个第1命名实体,从所述第2数据项提取第2命名实体,
分别生成与所述多个第1数据项中的各个第1数据项和对应的所述多个第1命名实体中的各个第1命名实体有关的多个第1向量,
生成与所述第2数据项和所述第2命名实体有关的第2向量,
计算所述多个第1向量中的各个第1向量与所述第2向量之间的相似度,
基于所述相似度的计算结果,取得从所述多个第1数据项中检索出的与回答有关的第3数据项。
2.根据权利要求1所述的信息处理装置,
所述处理器还构成为,基于与命名实体有关的第1自然语言模型的第1神经网络,提取所述多个第1命名实体和所述第2命名实体。
3.根据权利要求1所述的信息处理装置,
所述处理器还构成为,基于第2自然语言模型的第2神经网络,生成所述多个第1向量和所述第2向量。
4.根据权利要求1所述的信息处理装置,
所述处理器还构成为,从所述多个第1数据项中的一个第1数据项提取k个所述第1命名实体,基于所述一个第1数据项和所述k个所述第1命名实体,生成k个所述第1向量,其中,k为2以上的整数。
5.根据权利要求1所述的信息处理装置,
所述处理器还构成为,存储多个识别号与所述多个第1向量的对应关系,
所述多个识别号中的各个识别号被分配给所述多个第1数据项中的各个第1数据项。
6.根据权利要求1所述的信息处理装置,
对所述多个第1数据项中的各个第1数据项分配多个识别号中的各个识别号,
所述多个识别号中的各个识别号与所述多个第1向量中的对应的一个第1向量相关联,
基于与所述多个第1向量中的选择出的第1向量对应的所述识别号,从所述多个第1数据项中取得与所选择出的所述向量对应的第1数据项。
7.根据权利要求1所述的信息处理装置,
还包括储存器,所述储存器存储所述多个第1数据项和所述多个第1向量。
8.根据权利要求1所述的信息处理装置,
还包括储存器,所述储存器存储所生成的所述多个第1向量,
所述处理器还构成为,在计算所述相似度时,从所述储存器读出所述多个第1向量。
9.一种信息处理方法,包括:
接收与多个文档有关的多个第1数据项;
从所述多个第1数据项中的各个第1数据项提取多个第1命名实体;
基于所述多个第1数据项中的各个第1数据项和所对应的所述多个第1命名实体中的各个第1命名实体,生成多个第1向量;
接收与提问有关的第2数据项;
从所述第2数据项提取第2命名实体;
基于所述第2数据项和所述第2命名实体,生成第2向量;
计算所述多个第1向量中的各个第1向量与所述第2向量之间的相似度;和
基于所述相似度的计算结果,取得从所述多个第1数据项中检索出的与回答有关的第3数据项。
10.根据权利要求9所述的信息处理方法,
还包括:基于与命名实体有关的第1自然语言模型的第1神经网络,提取所述多个第1命名实体和所述第2命名实体。
11.根据权利要求9所述的信息处理方法,
还包括:基于第2自然语言模型的第2神经网络,生成所述多个第1向量和所述第2向量。
12.根据权利要求9所述的信息处理方法,还包括:
从所述多个第1数据项中的一个第1数据项提取k个所述第1命名实体,
基于所述一个第1数据项和所述k个所述第1命名实体,生成k个所述第1向量,
其中,k为2以上的整数。
13.根据权利要求9所述的信息处理方法,
还包括:存储多个识别号与所述多个第1向量的对应关系,
所述多个识别号中的各个识别号被分配给所述多个第1数据项中的各个第1数据项。
14.根据权利要求9所述的信息处理方法,
对所述多个第1数据项中的各个第1数据项分配多个识别号中的各个识别号,
所述多个识别号中的各个识别号与所述多个第1向量中的对应的一个第1向量相关联,
所述方法还包括:基于与所述多个第1向量中的选择出的向量对应的所述识别号,从所述多个第1数据项中取得与所选择出的所述向量对应的第1数据项。
15.根据权利要求9所述的信息处理方法,还包括:
将所述多个第1数据项存储于储存器;和
将所述多个第1向量存储于所述储存器。
16.根据权利要求9所述的信息处理方法,还包括:
将生成的所述多个第1向量存储于储存器;和
在计算所述相似度时,从所述储存器读出所述多个第1向量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022079628A JP2023168024A (ja) | 2022-05-13 | 2022-05-13 | 情報処理装置及び情報処理方法 |
JP2022-079628 | 2022-05-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117056469A true CN117056469A (zh) | 2023-11-14 |
Family
ID=85601554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310168895.9A Pending CN117056469A (zh) | 2022-05-13 | 2023-02-27 | 信息处理装置以及信息处理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230367965A1 (zh) |
EP (1) | EP4276654A1 (zh) |
JP (1) | JP2023168024A (zh) |
CN (1) | CN117056469A (zh) |
DE (1) | DE102023106213A1 (zh) |
-
2022
- 2022-05-13 JP JP2022079628A patent/JP2023168024A/ja active Pending
-
2023
- 2023-02-27 CN CN202310168895.9A patent/CN117056469A/zh active Pending
- 2023-03-10 US US18/181,642 patent/US20230367965A1/en active Pending
- 2023-03-13 EP EP23161476.9A patent/EP4276654A1/en active Pending
- 2023-03-13 DE DE102023106213.1A patent/DE102023106213A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230367965A1 (en) | 2023-11-16 |
TW202349258A (zh) | 2023-12-16 |
DE102023106213A1 (de) | 2023-11-16 |
EP4276654A1 (en) | 2023-11-15 |
JP2023168024A (ja) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
US11562147B2 (en) | Unified vision and dialogue transformer with BERT | |
WO2020192401A1 (en) | System and method for generating answer based on clustering and sentence similarity | |
US10796105B2 (en) | Device and method for converting dialect into standard language | |
US6233544B1 (en) | Method and apparatus for language translation | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
Azmi et al. | Real-word errors in Arabic texts: A better algorithm for detection and correction | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
Çetindağ et al. | Named-entity recognition in Turkish legal texts | |
US11507901B1 (en) | Apparatus and methods for matching video records with postings using audiovisual data processing | |
US20230061731A1 (en) | Significance-based prediction from unstructured text | |
US20230044266A1 (en) | Machine learning method and named entity recognition apparatus | |
KR20220039075A (ko) | 전자 장치, 컨텐츠 검색 시스템 및 검색 방법 | |
Köksal et al. | Improving automated Turkish text classification with learning‐based algorithms | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
Peng et al. | Discovering financial hypernyms by prompting masked language models | |
Chopard et al. | A deep learning approach to self-expansion of abbreviations based on morphology and context distance | |
Garrido et al. | Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories | |
CN117056469A (zh) | 信息处理装置以及信息处理方法 | |
JP2023093345A (ja) | テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読み取り可能な記憶媒体 | |
TWI852325B (zh) | 資訊處理裝置及資訊處理方法 | |
JPH117447A (ja) | 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 | |
Peng et al. | Attention-based neural network for short-text question answering | |
CN113282777A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
Jurczyk et al. | Analysis of Wikipedia-based corpora for question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |