CN102460437B - 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质 - Google Patents

信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质 Download PDF

Info

Publication number
CN102460437B
CN102460437B CN201080028234.7A CN201080028234A CN102460437B CN 102460437 B CN102460437 B CN 102460437B CN 201080028234 A CN201080028234 A CN 201080028234A CN 102460437 B CN102460437 B CN 102460437B
Authority
CN
China
Prior art keywords
sentence
wenjie
text
user
gen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080028234.7A
Other languages
English (en)
Other versions
CN102460437A (zh
Inventor
平野广美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co.,Ltd.
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of CN102460437A publication Critical patent/CN102460437A/zh
Application granted granted Critical
Publication of CN102460437B publication Critical patent/CN102460437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种信息检索装置,针对来自用户的提问能准确地回答检索结果。本发明存储与收集到的文本的句子相关的句子信息,从终端(2)接收来自用户的用户提问句子的信息,将用户提问句子分解成文节(S10),提取用户提问句子的文节中的弧线文节相同的文本,并将该文本与提问句子进行比较来检索提问句子中缺少的叶文节(S12~S16),将检索结果发送至终端(2)(S19)。

Description

信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质
技术领域
本发明涉及从终端接收信息进行信息检索并向终端发送检索结果的信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质的技术领域。
背景技术
随着因特网的普及,由于因特网上的信息急剧增加,因而用户需要利用检索引擎从因特网上存在的信息中检索用户想要获得的信息。这种情况下,用户向检索引擎输入与想要获得的信息相关联的关键字来进行检索。可是,目前正处于根据关键字的选定方式的不同而检索结果大不相同、不能立即摸索找到想要获得的信息这样的现状,为使用户高效率地摸索找到想要获得的信息,选择什么样的关键字成为了负担。
为此,正在研究一种如下的检索方法,即:利用者不用认识关键字只要输入文章就能检索的检索方法。例如,在专利文献1中公开了如下的类似文章检索程序,即:将所输入的文章进行词素分析来判定文节,并且按每文节分析文节间依存性,按照出现的顺序依次排列文节,在出现了动词或没有依存性对象的文节的情况下,生成将包括该动词或文节的之前所有文节作为组的复合词,使复合词与所输入的文章关联起来并记录至文章数据库中,在重新输入了任意原文的情况下生成复合词,将针对原文获得的复合词作为关键,从文章数据库中检索包括成为关键的复合词在内的文章。
现有技术文献
专利文献
专利文献1:JP特开2008-210206号公报
可是,在上述现有技术中,虽然对所输入的文章回答了类似的文章,但是为了明确认识与回答相近的文章,需要进行输入。在想要获得的信息对象不明确、用户存在疑问点的情况下例如针对含有疑问词的提问句子,却无法获得准确的回答。
另外,在上述现有技术中,纵使获得了回答,但是由于收罗性返回检索结果,故无用数据(noise)变多。
发明内容
本发明目的在于提供一种针对来自用户的提问能够准确地回答检索结果的信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质。
本发明的另一目的在于提供一种在基于词素分析及文节间依存性分析而确定文本结构之后,准备将该文本结构变换成适于检索的结构的适当数据库,从而针对来自用户的提问能够准确地回答检索结果的信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质。
本发明的又一目的在于提供一种基于提问的弧线数和检索对象的弧线数,针对来自用户的提问能够准确地回答检索结果的信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质。
为了解决上述课题,技术方案1记载的发明的特征在于,具备:文本收集单元,其收集文本;第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本结构存储单元,其存储所述文本、该文本的文节及文节类别;接收单元,其从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解单元,其将所述用户提问句子分解成文节;第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;检索单元,其参照提取出的文本,检索该文本的叶文节中的缺少所述用户提问句子的文节的文节;和发送单元,其将所述检索单元检索到的文节发送至所述终端。
技术方案2记载的发明的特征在于,所述第1文本文节间依存性分析单元对收集到的所述文本的文节之间的文节间依存性关系赋予弧线,所述第1文本文节间依存性分析单元还比较根文节的弧线数和从该根文节经由弧线相连的叶文节的弧线数,并在该根文节的弧线数比该叶文节的弧线数少的情况下将所述叶文节变换成检索用根文节且将所述根文节变换成检索用叶文节,所述文本结构存储单元存储变换后的文节及弧线。
技术方案3记载的发明的特征在于,所述文本提取单元参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节的、超过所述用户提问句子中的该根文节的弧线数的弧线数的根文节的文本。
技术方案4记载的发明的特征在于,还具备对用户提问句子生成单元,该对用户提问句子生成单元基于检索到的文节对用户生成对用户提问句子,所述发送单元将所述对用户提问句子发送至所述终端。
技术方案5记载的发明的特征在于,还具备对用户提问句子生成单元,该对用户提问句子生成单元基于检索到的文节对用户生成对用户提问句子,所述发送单元取代检索到的文节而将所述对用户提问句子发送至所述终端。
技术方案6记载的发明的特征在于,在检索到的文节的数目在规定数以上的情况下,所述提问句子生成单元生成对用户提问句子。
技术方案7记载的发明的特征在于,具备:文本收集单元,其收集文本;第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本结构存储单元,其存储所述文本、该文本的文节及文节类别;接收单元,其从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解单元,其将所述用户提问句子分解成文节;第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;和发送单元,其将所述文本提取单元提取出的文本发送至所述终端。
技术方案8记载的发明的特征在于,包括:文本收集步骤,收集文本;第1文本文节分解步骤,将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析步骤,分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;存储步骤,将所述文本、该文本的文节及文节类别存储至文本结构存储单元;接收步骤,从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解步骤,将所述用户提问句子分解成文节;第2文本文节间依存性分析步骤,分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取步骤,参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;检索步骤,参照提取出的文本,检索该文本的叶文节中的缺少所述用户提问句子的文节的文节;和发送步骤,将所述检索单元检索到的文节发送至所述终端。
技术方案9记载的发明的特征在于,使计算机作为如下单元发挥功能:文本收集单元,其收集文本;第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本结构存储单元,其存储所述文本、该文本的文节及文节类别;接收单元,其从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解单元,其将所述用户提问句子分解成文节;第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;检索单元,其参照提取出的文本,检索该文本的叶文节中的缺少所述用户提问句子的文节的文节;和发送单元,其将所述检索单元检索到的文节发送至所述终端。
技术方案10记载的发明的特征在于,是记录了用于使计算机作为如下单元发挥功能的程序的计算机可读取的记录介质:文本收集单元,其收集文本;第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本结构存储单元,其存储所述文本、该文本的文节及文节类别;接收单元,其从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解单元,其将所述用户提问句子分解成文节;第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;检索单元,其参照提取出的文本,检索该文本的叶文节中的缺少所述用户提问句子的文节的文节;和发送单元,其将所述检索单元检索到的文节发送至所述终端。
发明效果
根据本发明,因为具备文本收集单元,其收集文本;第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本结构存储单元,其存储所述文本、该文本的文节及文节类别;接收单元,其从所述终端接收在用户终端输入的用户提问句子的信息;第2文本文节分解单元,其将所述用户提问句子分解成文节;第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成叶文节和根文节;文本提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的文本;检索单元,其参照提取出的文本,检索该文本的叶文节中的缺少所述用户提问句子的文节的文节;和发送单元,其将所述检索单元检索到的文节发送至所述终端,因而,针对来自用户的提问的提问部分,能够准确地将检索结果作为回答句子进行回答。
另外,根据本发明,因为在基于词素分析及文节间依存性分析而特定文本结构之后,准备将该文本结构变换成适于检索的结构的适当数据库,所以即便是像体言结句这样的主格为根文节的文本,也可将与主格相连的叶文节变换成检索用根文节而将文本数据库化,故针对来自用户的提问能够更准确地回答检索结果。
此外,根据本发明,因为基于提问的弧线数和检索对象的弧线数,对来自用户的提问准确地回答检索结果,所以从检索结果中除去无用数据,能更准确地回答检索结果。
附图说明
图1是表示本发明的实施方式涉及的信息检索系统的概要构成例的框图。
图2是表示在图1的知识数据库中存储的句子的数据结构的一例的示意图。
图3是表示在图1的知识数据库中存储的句子的数据结构的一例的示意图。
图4是表示实现图2的数据结构的形态的一例的示意图。
图5是表示实现图3的数据结构的形态的一例的示意图。
图6是表示第1询问应答服务器生成的提问句子的数据结构的一例的示意图。
图7是表示实现图6的数据结构的形态的一例的示意图。
图8是表示在图1的知识输入管理服务器中将文本的句子变换成数据结构的动作例的流程图。
图9是表示图1的知识输入管理服务器中的数据结构的标准化的一例的示意图。
图10是表示实现图9的数据结构的标准化的形态的一例的示意图。
图11是表示在图1的信息检索系统中针对来自用户的询问做出回答的动作例的流程图。
图12是表示在图1的知识数据库中存储的数据结构的一例的示意图。
图13是表示图1的询问应答服务器中的提问输入格式的一例的示意图。
具体实施方式
以下,参照附图说明用于实施本发明的形态。
首先,基于附图对本发明的实施方式涉及的信息检索系统的概要构成及功能进行说明。
图1是表示本发明的实施方式涉及的信息检索系统的概要构成例的框图。
如图1所示,信息检索系统1具备:知识输入管理服务器10,其接收在因特网上等的文本的输入,并将收集到的文本的句子变换成作为用于对来自用户的提问做出回答的知识信息而示出的知识表现单位;知识数据库用服务器15,其将该知识表现单位作为与收集到的文本的句子相关的句子信息进行存储;以及询问应答服务器20,其受理来自用户的提问,基于在知识数据库用服务器15中存储的知识表现单位对用户做出回答。收集到的文本自身既可以保存在系统1内,也可以不保存在系统1内。此外,知识表现单位是为了针对来自用户的提问进行检索并做出回答而将从文本中取出的句子进行结构化的数据,作为一例举出基于句子的文节之间的文节间依存性关系的树形结构数据,详细见后述。
如图1所示,信息检索系统1的知识输入管理服务器10经由网络3与Web服务器5或局域网上的文本数据数据库6相连,信息检索系统1的询问应答服务器20经由网络3与用户的个人计算机这样的终端2等相连。该文本数据数据库6预先将因特网上的博客或通过口头传播等收集到的文本作为文本数据进行保存。
并且,知识数据库用服务器15如图1所示,通过局域网等与知识输入管理服务器10和询问应答服务器20进行连接。
其次,如图1所示,知识输入管理服务器10具备:控制部11,其或者对收集到的文本的句子进行分析,或者将文本的句子结构化成知识表现单位;和存储部12,其存储控制部11的执行程序或计算结果等。
控制部11具有CPU(Central Processing Unit)等,作为如下单元发挥功能:文本收集单元,其收集在Web服务器5中登载的文本或在文本数据数据库6中存储的文本;文本文节分解单元,其将收集到的文本的句子分解成文节;文本文节间依存性分析单元,其分析这些文节之间的文节间依存性关系;或者文本结构化单元,其基于该文节间依存性关系,将文本的句子结构化成知识表现单位这样的结构。另外,控制部11将被结构化的句子作为知识表现单位发送至知识数据库用服务器15。
存储部12具有RAM(Random Access Memory)、ROM(Read OnlyMemory)或硬盘驱动器等,用于存储文本文节分解单元、文本文节间依存性分析单元或文本结构化单元等的执行程序。硬盘驱动器、非易失性RAM或ROM例如存储了进行词素分析的程序或进行文节间依存性分析的程序。易失性RAM暂时存储了进行词素分析的程序或进行文节间依存性分析的程序。
其次,如图1所示,知识数据库用服务器15具备:控制部16,其根据来自询问应答服务器20的检索要求进行检索等;和知识数据库17,其存储从知识输入管理服务器10发送来的知识表现单位等。
控制部16具有CPU或RAM等,作为如下单元发挥功能:将被结构化的句子作为知识表现单位存储至知识数据库17中的数据库存储单元、或者根据作为句子信息的一例的知识表现单位从知识数据库17中进行检索的检索单元等。
知识数据库17具有硬盘驱动器等,用于存储与收集到的文本的句子相关的知识表现单位或者用户向知识表现单位访问的访问信息等用户历史记录。进而,也存储用户的人物简介或购入历史记录等的用户历史记录。此外,向知识表现单位访问的访问信息以外的用户历史记录也可以是其他服务器的数据库。这样,知识数据库17作为对与收集到的文本的句子相关的句子信息进行存储的存储单元等发挥功能。
另外,由知识输入管理服务器10和知识数据库用服务器15作为数据库的生成装置发挥功能,由知识数据库用服务器15和询问应答服务器20作为信息检索装置发挥功能。
其次,如图1所示,询问应答服务器20具备:控制部21,其或者从终端2接收来自用户的用户提问句子的信息,或者向用户发送对用户提问做出回答的回答结果;和存储部22,其存储控制部21的执行程序或计算结果等。这里,作为用户提问句子的一例举出“彼はどこで本を買つたのか?”这样的包含疑问词的句子。
控制部21具备CPU等,作为如下单元发挥功能:从终端接收来自用户的用户提问句子的信息的接收单元、将用户提问句子分解成文节的文节分解单元、或将基于作为检索结果检索到的所述句子信息的回答句子发送至所述终端的发送单元等。存储部22具有RAM、ROM或硬盘驱动器等,存储了文节分解单元等的执行程序。硬盘驱动器、非易失性RAM或ROM例如存储了进行词素分析的程序或进行文节间依存性分析的程序。易失性RAM暂时存储了进行词素分析的程序或进行文节间依存性分析的程序。
其次,基于图2及图3对在知识数据库17中存储的句子的数据结构(知识表现单位)进行说明。
图2及图3是表示在知识数据库17中存储的句子的数据结构的一例的示意图。
如图2所示,例如利用词素分析,普通的句子被分解成文节。这里,根据语言形态音位学可知,世界语言被分类成像日语这样的胶着语、像汉语这样的孤立语、像欧洲语言这样的屈折语。在胶着语的情况下,文节例如伴有助词进行分解。在孤立语的情况下,将各自的词类作为文节进行分解。在屈折语的情况下,文节被分解成伴有变格的词类。
然后,知识表现单位30利用文节间依存性分析,各自的文节作为与树形结构的根部相应的根文节30r和与树形结构的叶子或树形结构的内部节点相应的叶文节30l被附定义成各自的文节类别。
在本发明中,文节类别中的根文节是指,在对收集到的文本进行词素分析及文节间依存性分析的结果中,在该句子的树形结构中没有依存性对象的文节。另外,在本发明中,文节类别中的叶文节是指,根文节以外的文节。进而,在本发明中,弧线是指,表示叶文节之间、叶文节与根文节之间的文节间依存性关系的概念。弧线30a从一个文节向另一个文节以具有方向性的方式赋予。
在“彼はネツトシヨツプの店舗Aで本を買う。”这样的普通句子的情况下,根文节30r为动词V(“買う”),叶文节30l为主格S(“彼”)、宾格Ac(“本”)及位置格L(“店舗A”)。这样,在普通句子的情况下,在知识表现单位30中,从叶文节30l向根文节30r赋予弧线,从而动词V为树形结构的根文节。
其次,在句子为体言结句的情况下,如图3所示,在知识表现单位31中,体言的名词N为根文节31r。在“店舗Aで壳られている赤いワイン”这一体言结句的句子的情况下,根文节31r为名词N(“ワイン”),叶文节31l为位置格L(“店舗A”)和形容词Adj(“赤い”)、作为内部节点的动词V(“壳られている”)。弧线31a从叶文节31l向叶文节31l、以及从叶文节31l向根文节31r赋予。
此外,并不限定于这种日语的句子,即便是日语以外的语言也可根据句子的特征来设定叶文节。
例如,在自报姓名的文本的情况下,在各语言中如下表现:(1)日语:“私はXXXです。”;(2)汉语:“我姓XXX”;(3)英语:“I am XXX.”,叶文节为主格S(“私”/“我”/“I”),宾格Ac(“XXX”),根文节为动词V(“です”/“姓”/“am”)。文节间依存性关系为:(1)日语:叶文节(“私”)→叶文节(“XXX”)→根文节(“です”);(2)汉语:叶文节(“我”)→叶文节(“XXX”)→根文节(“姓”);(3)英语:叶文节(“I”)→叶文节(“XXX”)→根文节(“am”)。
这样,知识表现单位是将一个句子基于句子的文节间依存性结构进行结构化的数据,举出将没有依存性对象的文节设为根文节、即基于动词的综合后的结构、或者将体言结句的名词设为根文节、即基于名词的综合后的结构,是将文节间依存性集中了的文节设为根文节的树形结构的数据。另外,知识表现单位也是文节的集合体。
其次,说明作为将这些树形结构的知识表现单位30、31在知识数据库17的存储介质上展开的情况下的一形态而以表格形式示出的知识表现单位的结构。
图4及图5是表示实现数据结构的形态的一例的示意图。
如图4所示,表格形式的知识表现单位40具有:为了确定知识表现单位40而分配的序号栏40a、按每文节表示词类或格等的类型项目40b、表示句子被分解后的文节的语句的语句栏40c、表示文节间依存性或根部的弧线栏40d、表示树形结构的根部中的弧线数的弧线数栏40e、表示知识表现单位40的生成时间的生成时间栏40f、表示向知识表现单位40最终访问的最终访问时间的访问栏40g。这里,作为文节类型的信息的例子,举出主格、宾格等格、动词、名词、形容词等词类、动词及形容词的活用形的信息。
对应于视觉示出树形结构的知识表现单位30,在表格形式的知识表现单位40中,在动词V、主格S、宾格Ac、与格D、位置格L等类型项目40b所对应的语句栏40c,输入“買う”、“彼は”、“本を”、“無し”、“店舗A”。进而,在弧线栏40d中存储表示根部的“r”或表示文节间依存性对象的类型的“V”等。另外,在检索中为了缩减候补,在弧线数栏40e中存储弧线的根数,为使知识表现单位40易于管理,在生成时间栏40f或访问栏40g中存储时间。
如图5所示,在如知识表现单位31那样为体言结句的句子的情况下,成为表格形式的知识表现单位41。结构与知识表现单位40相同,但是在名词N或形容词Adj的类型项目41b所对应的语句栏41c中也存储语句。
其次,基于附图说明在询问应答服务器20中生成的用户询问句子的数据结构。图6是表示询问应答服务器生成的用户提问句子的数据结构的一例的示意图。
“彼はどこで本を買つたのか?”这一来自用户的用户提问句子被分解成文节,将文节间依存性关系用树形结构表现的知识表现单位50具有:与树形结构的根部相应的根文节50r、与树形结构的叶子相应的叶文节50l、以及与树形结构的弧线相应的表示文节间依存性关系的弧线50a。进而,根文节50r或叶文节50l被分类成与疑问词等提问部分相应的提问文节50w和与提问以外相关的非提问文节50u。另外,非提问文节50u中的与其他文节有文节间依存性的根文节50r或一部分叶文节成为被文节间依存性文节。这里,作为提问文节的信息或非提问文节的信息等文节的信息的例子,除了文节的类型信息之外,举出了与其他文节有文节间依存性或呈文节间依存性等文节间依存性信息、弧线数等文节间依存性数的信息、文字串信息、文节的树形结构中的根部或叶子等信息、文节间的结构特征信息等。
“彼はどこで本を買うか?”这一用户提问句子的情况下,根文节50r为动词V(“買う”),叶文节50l为主格S(“彼”)、宾格Ac(“本”)及位置格L( )。另外,作为缺少用户提问文的文节的文节一例的提问文节50w是位置格L( ),可以像位置格L( )那样用空文节进行表现、像位置格L(“どこで”)那样用疑问词进行表现、或像位置格L(“X”)那样用未知变量等进行表现。此外,非提问文节50u为主语S(“彼”)及宾格Ac(“本”)。这样,用户提问句子也成为树形结构,从而成为与知识数据库17的数据结构同样的结构。
其次,说明将用户提问句子的树形结构的知识表现单位50用表格形式示出的知识表现单位的构成。图7是表示实现数据结构的形态的一例的示意图。
如图7所示,表格形式的知识表现单位60具有:表示词类或格等的类型项目60b、表示句子被分解后的文节的语句栏60c、表示文节间依存性或根部的弧线栏60d、表示树形结构的根部中的弧线数的弧线数栏60e、以及表示知识表现单位40的生成时间的生成时间栏60f。
另外,在弧线栏60d为“r”的动词V的语句栏60c中,作为根文节60r的语句,输入“買う”。在位置格L的语句栏60c中输入提问文节60w的语句“どこで”等疑问词。此外,在输入了提问文节60w的语句栏60c所输入的语句,如果是在用户提问句子被分解后的文节中的能确定为提问文节的记号最好,也可像“X”那样用未知变量等进行表现。
其次,作为信息检索系统1的动作,基于附图说明将收集到的文本的句子变换成知识表现单位的动作、和按照来自用户的询问进行检索并对提问做出回答的动作。
先说明将收集到的文本的句子变换成知识表现单位的动作。图8是表示在知识输入管理服务器10中将从Web服务器5等收集到的文本的句子变换成数据结构的动作例的流程图。
首先,知识输入管理服务器10的控制部11如图1所示从Web服务器5或文本数据数据库6等中收集用于生成知识数据库17的文本。这样,控制部11作为收集文本的文本收集单元发挥功能。
其次,如图8所示,知识输入管理服务器10的控制部11从收集到的文本中提取变换成知识表现单位的一个句子(步骤S1)。具体而言,控制部11从文本的开头的句子开始按顺序一个句子、一个句子地提取句子。
接下来,控制部11对提取出的一个句子进行词素分析(步骤S2)。具体而言,控制部11利用词素分析的程序,将提取出的一个句子分解成文节,求出各文节的词类或格等类型。此外,作为词素分析,利用一般的词素分析的程序即可。这样,控制部11作为将收集到的文本的句子分解成文节的第1文本文节分解单元发挥功能。
在分解成文节之后,控制部11进行文节间依存性分析(步骤S3)。具体而言,控制部11利用文节间依存性分析的程序,求出表示文节之间的修饰关系的文节间依存性。作为文节间依存性分析,利用一般的文节间依存性分析的程序即可。这样,控制部11作为对文本的句子的文节之间的文节间依存性关系进行分析的文本文节间依存性分析单元发挥功能。
此外,在各语言中,利用各语言结构的特征或各语言的词典,或者分解成文节,或者划分成词类等类型,或者分析文节间依存性。例如,在日语等胶着语的情况下利用接尾词、接头词,或者在孤立语的情况下利用词序等信息。
如果文节间依存性分析结束,则控制部11将句子的文节间依存性关系生成树形结构的知识表现单位(步骤S4)。具体而言,控制部11基于文节间依存性信息,在普通句子的情况下如图2所示将句子的文节间依存性关系生成以动词的文节为根部的树形结构,在体言结句的句子的情况下如图3所示将句子的文节间依存性关系生成以体言结句所对应的名词为根部的树形结构。在日语的情况下,将句号或处于句子结尾的文节生成根文节。在汉语或英语等的情况下,还基于单词的配置或词类信息等来特定根文节。这样,控制部11作为基于文节间依存性关系将文本的句子进行结构化的文本结构化单元发挥功能。
如图4或图5所示,在表格形式的知识表现单位的情况下,控制部11将由步骤S2分解成文节并确定了词类或格等类型的句子的文节输入至相应的语句栏40c、41c中。在日语的情况下,也可去掉图中带括号的助词或助动词。其次,在步骤S3中,控制部11基于文节间依存性分析在弧线栏40d、41d中输入根文节的信息或文节间依存性对象的信息。进而,控制部11计数对根文节有文节间依存性的文节数,在弧线数栏40e中输入弧线数,输入知识表现单位40、41被生成的日期与时间的信息。以上,控制部11作为对文本的句子的文节之间的文节间依存性关系进行分析并将各自的文节至少分类成叶文节和根文节的第1文本文节间依存性分析单元发挥功能。
其次,控制部11将知识表现单位进行标准化(步骤S5)。该标准化是为了吸收句子的表层表现的差而进行的。例如,“店舗Aで本を買うのは彼です。”、“彼は店舗Aで本を買う。”这样的句子,实质上内容相同。可是,如图9(A)所示,“店舗Aで本を買うのは彼です。”的知识表现单位32是相对于根文节32r连接与该根文节32r相连的叶文节32l且相对于该叶文节32l连接2个叶文节32l的树形结构,与图2示出的知识表现单位30大不相同。因此,作为具体的处理,如图9(B)所示,控制部11首先将知识表现单位32中的根文节32r和叶文节32l的弧线32a的方向反转,作为弧线33a,而将叶文节32l作为检索用根文节33r。另外,将根文节32r作为检索用叶文节33l。此外,控制部11按照将根文节32l的“V’(買うのは)”设为根文节33r的“V(買う)”的方式操作文节类型。并且,如图9(C)所示,控制部11将检索用叶文节33l的类型(Be)操作成类型(S)。这样,控制部11使弧线的方向与呈文节间依存性的弧线多的节点相一致,并通过操作文节类型的处理来实现知识表现单位的标准化。
这里,在本发明中,检索用叶文节是以根文节为起源的文节,即表示在进行了操作文节类型的处理之后被作为叶文节进行保存的文节。另外,在本发明中,检索用根文节是以叶文节为起源的文节,即表示进行了操作文节类型的处理之后被作为根文节进行保存的文节。
在图10中,用表格形式的知识表现单位说明这一连串处理。如图10A所示,将知识表现单位32生成表格形式的是知识表现单位42。控制部11在较之与根文节有文节间依存性的弧线数而对与该根文节相连的叶文节进行文节间依存性的文节涉及的弧线数多的情况下,将该叶文节变换成检索用根文节。例如,如图10(A)及(B)所示,控制部11在语句栏42c中将V’:“買う(のは)”进行类型操作后移动成V:“買う”,在弧线栏42d中将类型V变为“r”,将类型Ac和类型L的“V’”变为“V”。之后,控制部11在语句栏42c中将Be:“彼(です)”进行类型操作后移动成S:“彼(は)”,在弧线栏42d中变为类型S:“V”。根据一连串的处理,知识表现单位42成为用表格形式示出知识表现单位34的知识表现单位44。
这样,控制部11作为标准化的功能而发挥如下功能:将被结构化的文本的句子中的文节间依存性关系的方向反转的文节间依存性关系反转单元、或对文节间依存性关系被反转的文节的文节类型进行操作的文节类型操作单元。另外,控制部11将根文节的弧线数和从该根文节经由弧线相连的叶文节的弧线数进行比较,并在该根文节的弧线数比该叶文节的弧线数少的情况下,作为如下单元发挥功能,即:将所述叶文节变换成检索用根文节并且将所述根文节变换成检索用叶文节的第1文本文节间依存性分析单元。
在将需要标准化的知识表现单位进行标准化之后,控制部11在知识表现单位中记入生成时间等(步骤S6)。具体而言,如图4等所示,控制部11在生成时间栏40f中记入知识表现单位的生成日期与时间。如果将句子生成知识表现单位,则控制部11将知识表现单位发送至知识数据库用服务器15。例如,控制部11将文本的文节及弧线的信息、或者被标准化的变换后的文本的文节及弧线的信息发送至知识数据库用服务器15中。
如果接收到知识表现单位,则知识数据库用服务器15的控制部16将知识表现单位存储至知识数据库17中(步骤S7)。此时,重复的知识表现单位也可不进行存储。关于是否重复的匹配方法,也可以是与后述的检索相类似的方法。
这样,控制部16作为将被结构化的文本的句子的一例即知识表现单位存储至数据库的数据库存储单元、以及作为句子信息预先存储基于文本的句子中的文节之间的文节间依存性关系的句子信息的一例即知识表现单位的存储单元发挥功能。另外,控制部16作为存储文本、该文本的文节及文节类别的文本结构存储单元、或存储变换后的文节及弧线的文本结构存储单元发挥功能。
然后说明按照来自用户的询问进行检索并针对提问做出回答的动作。这是检索文本的叶文节中的缺少来自用户的用户提问文的文节的文节的动作的一例。
图11是表示在信息检索系统1中针对来自用户的询问进行信息检索并做出回答的动作例的流程图。图12是表示在知识数据库17中存储的知识表现单位的一例的示意图。
首先,控制部21从用户的终端2受理来自用户的用户提问句子。例如,“彼は本をどこで買つたか?”这样的用户提问句子。这样,控制部21作为从终端接收来自用户的用户提问句子的信息的接收单元发挥功能。
其次,接收到用户提问句子的询问应答服务器20的控制部21,将用户提问句子变换成知识表现单位的形式(步骤S10)。具体而言,控制部21将用户提问句子进行词素分析并分解成文节,确定这些文节的词类或格等类型。之后,控制部21进行这些文节的文节间依存性分析,将用户提问句子生成知识表现单位。例如,控制部21将用户提问句子生成如图6所示的知识表现单位50、或者如图7所示的表格形式的知识表现单位60。这样,控制部21作为将用户提问句子分解成文节的第2文节分解单元、以及对用户提问句子的文节之间的文节间依存性关系进行分析的文节间依存性分析单元发挥功能。控制部21作为对用户提问句子的文节之间的文节间依存性关系进行分析并将各自的文节至少分类成叶文节和根文节的第2文本文节间依存性分析单元发挥功能。
其次,控制部21将用户提问句子的知识表现单位50、60作为检索要求发送至知识数据库用服务器15中(步骤S11)。
接收到用户提问句子的知识表现单位50、60的知识数据库用服务器15的控制部16,从用户提问句子的知识表现单位50、60中提取根文节50r、60r(步骤S12)。在该步骤中,为使能够有效率地进行检索,将文节间依存性集中了的文节利用到检索过程中,但是因为知识表现单位被标准化成文节间依存性尽量集中于根文节,所以控制部16只是提取根文节50r、60r即可。另外,在图7所示的表格形式的知识表现单位60的情况下,控制部16对照弧线栏60d为“r”的类型和语句栏60c的文字串、与知识数据库17的知识表现单位50、51等弧线栏50d、51d为“r”的类型和语句栏50c、51c的文字串。这样,控制部21作为在用户提问句子的文节50r、50l中被分类成与提问相关的提问文节50w和与提问以外相关的非提问文节50u的文节分类单元发挥功能。此外,作为文字串的对照,也可利用同义词词典等,判断在意思内容相近的语句彼此方面是否相对应。
其次,控制部16收集用户提问句子的根文节所对应的根文节的知识表现单位(步骤S13)。在图11的步骤S13中,虽然收集了“相同的根文节”,但是有时也提取检索用根文节,有时也利用同义词词典等提取意思内容相近的根文节。具体而言,如图12所示,控制部16收集具有与用户提问句子的根文节50r相同类型且相同文字串的根文节30r的知识表现单位30(a)(b)(c)。这样,控制部16作为基于非提问文节50u中的与其他文节有文节间依存性的被文节间依存性文节的一例即根文节50r的信息从知识数据库17中检索句子信息一例即知识表现单位30、31的检索单元发挥功能。另外,控制部16作为通过对照用户提问句子的被文节间依存性文节的一例即50r和句子信息的被文节间依存性文节的一例即30r来进行检索的检索单元发挥功能。
这样,控制部16作为参照文本结构存储单元提取包括用户提问句子的根文节所对应的根文节在内的文本的文本提取单元发挥功能。
其次,控制部16缩减成具有用户提问句子的弧线数以上的弧线数的知识表现单位(步骤S14)。具体而言,如图12所示,控制部16缩减成知识表现单位30(a)(b)(c)中的具有用户提问句子的弧线数为“3”以上的弧线数的知识表现单位30(a)(b)。在表格形式的知识表现单位的情况下,控制部16比较用户提问句子的知识表现单位60的弧线数栏60e的值与知识表现单位50、51的弧线数栏50e、51e的值。这里,在动词为根文节的情况下,主格S、宾格Ac、位置格L提及的格数为弧线数。这样,控制部16作为基于与用户提问句子的被文节间依存性文节有文节间依存性的文节数的一例即用户提问句子的格数进行检索的检索单元发挥功能。
这样,控制部16作为参照文本结构存储单元提取包括用户提问句子的根文节所对应的根文节的、超过用户提问句子中的该根文节的弧线数的弧线数的根文节的文本的文本提取单元发挥功能。
其次,控制部16缩减成与用户提问句子的非提问文节(除了根文节之外)相同的文字串的知识表现单位(步骤S15)。具体而言,如图12所示,缩减成叶文节40l中的具有与非提问文节50y的文字串相同的文字串的知识表现单位30(a)。在表格形式的知识表现单位的情况下,控制部16收缩成具有与类型项目60b为“S”和“Ac”之处的文字串相同的文字串的知识表现单位。此外,文字串的对照或比较也可以利用同义词词典等,在意思内容相近的语句彼此方面设为相同的文字串。
其次,控制部16缩减成提问文节的类型(步骤S16)。具体而言,控制部16检索在由步骤S15缩减后的知识表现单位中是否存在提问文节的类型即位置格L的文节,来进一步缩减候补的知识表现单位。在表格形式的知识表现单位的情况下,控制部16在提问文节60w的类型即位置格L的栏中判定在缩减后的知识表现单位中是否存在语句。这样,控制部16作为基于提问文节的类型的信息和非提问文节的信息从存储单元中检索与用户提问句子相应的回答的句子信息的检索单元发挥功能。
其次,控制部16判定被缩减后的知识表现单位数是否比规定数小(步骤S17)。具体而言,按照将回答候补缩减到用户可容许存储的幻数(magicnumber)即7±2个左右的方式来设定规定数。
在知识表现单位数比规定数小的情况下(步骤S17:是),控制部16取出与提问文节的类型相一致的知识表现单位中的文节作为回答文节(步骤S18)。具体而言,控制部16从与提问文节的类型相一致的知识表现单位中的回答文节中去除文字串,或者与用户提问句子的提问文节的疑问词进行替换或者将提问文节替换成回答文节,从而将用户提问句子变换成回答句子。通过取出与提问文节的类型相一致的知识表现单位中的文节作为回答文节,来检索缺少用户提问句子的文节的文节。这样,控制部16作为从检索到的句子信息中提取具有与提问文节的类型相一致的类型的文节来获得回答文节的回答文节获取单元发挥功能。
此外,控制部16在最终被缩减的知识表现单位中写入访问时间。例如,控制部16在知识表现单位40的访问栏40g中写入日期与时间的信息。之后,控制部16将回答文节、被缩减后的知识表现单位或者从用户提问句子变换后的回答句子作为检索结果,发送至询问应答服务器20中。
其次,控制部21将获得到的检索结果作为回答,发送至终端2(步骤S19)。具体而言,控制部21将从基于检索到的句子信息的句子的一例即用户提问句子变换后的回答句子、或者与被缩减后的知识表现单位对应的文本的句子,发送至终端2。此外,在不是从用户提问句子变换后的回答句子而是与被缩减后的知识表现单位对应的文本的句子的情况下,因为在步骤S14中在弧线数多时进行缩减,所以在用户提问句子中会包含变没的格的文节。这样,控制部21作为将基于检索到的句子信息的回答句子发送至终端的发送单元、发送与回答文节相关的信息的发送单元发挥功能。另外,控制部21作为将检索单元检索到的文节发送至终端2的发送单元发挥功能。此外,控制部21作为将提取单元提取出的文本发送至所述终端的发送单元发挥功能。
另一方面,在知识表现单位数在规定数以上的情况下(步骤S17:否),控制部16生成缩减提问,控制部21从知识数据库用服务器15中接收缩减提问,并发送至提问者(步骤S20)。例如,在用户提问句子为“彼は何を買つたのですか?”的情况下,可能非提问文节中的文节数会变得更少,知识数据库17中存在相应的知识表现单位较多。此时,控制部16能够获取主格S或宾格Ac以外的类型(在用户提问句子中不存在的类型)的文节信息。例如,在位置格L的文节多的情况下,控制部16基于位置格L生成提问文节“どこで”,作为缩减用的提问而生成“どこで買つたのですか?”这样的缩减提问。此外,动词“買う”利用了用户的提问句子。这样,控制部16作为基于检索到的句子信息对用户生成对用户提问句子的对用户提问句子生成单元发挥功能,控制部21作为将对用户提问句子进行发送的发送单元发挥功能。
另外,控制部16在知识表现单位数在规定数以上的情况下,取代检索到的文节,而将对用户提问句子发送至所述终端。
这里,被检索的知识表现单位数(被检索的文节集合体数)为规定数以上,知识表现单位数变多,作为文节集合体的知识表现单位中包含的文节数也变多。被检索的文节数也变多,被检索的文节数为规定数以上。这样,控制部16在被检索的文节数为规定的规定数以上的情况下作为生成对用户提问句子的提问句子生成单元发挥功能。
其次,询问应答服务器20的控制部21从用户接收与对用户提问句子相应的回答句子,将其变换成知识表现单位,并发送至知识数据库用服务器15中。之后,知识数据库用服务器15的控制部16基于接收到的回答句子的知识表现单位的各文节,从被缩减的知识表现单位中选择相应的知识表现单位(步骤S21)。具体而言,在接收到与对用户提问句子“どこで買つたのですか?”相应的回答“店舗Aで”的情况下,基于该回答的位置格L文节的信息来选择知识表现单位。
接下来,控制部16从被选择的知识表现单位中取出与原始的用户提问句子的提问文节的类型相一致的知识表现单位中的文节作为回答文节,或者与用户提问句子的提问文节的疑问词进行替换或者将提问文节替换成回答文节,从而将用户提问句子变换成回答句子。之后,控制部16将该回答句子作为选择结果,发送至询问应答服务器20中。
这样,控制部16为了参照提取出的文本并补偿该文本的叶文节中的缺少知识表现单位50的用户提问句子的文节的文节(50w),而按照取出与原始的用户提问句子的提问文节的类型相一致的知识表现单位中的文节作为回答文节的方式检索文节。
其次,控制部21将从询问应答服务器20接收到的选择结果作为回答,发送至用户的终端2(步骤S22)。
这样,根据本实施方式,通过知识数据库用服务器15将与收集到的文本的句子相关的句子信息的知识表现单位30、31存储至知识数据库17中,询问应答服务器20从终端2接收来自用户的用户提问句子的信息,将用户提问句子分解成文节,在用户提问句子的文节中分类成与提问相关的提问文节50w和与提问以外相关的非提问文节50u,知识数据库用服务器15基于提问文节50w的类型的信息和非提问文节50u的信息从知识数据库17中检索与用户提问句子对应的知识表现单位30、31,询问应答服务器20将检索结果发送至终端2,由此作为信息检索系统1,因为基于用户提问句子或收集到的文本的句子的结构进行了检索,所以针对来自用户的提问的提问部分能够准确地回答检索结果。
另外,根据本实施方式,收集文本,将收集到的文本的句子分解成文节,对文本的句子的文节之间的文节间依存性关系进行分析,将各自的文节至少分类成叶文节30l、31l和根文节30r、30r,对文节之间的文节间依存性关系赋予弧线30a等,存储文本、该文本的文节及文节类别;其次,从终端2接收在用户的终端2中输入的用户提问句子的信息,将用户提问句子分解成文节,对用户提问句子的文节之间的文节间依存性关系进行分析,将各自的文节至少分类成叶文节50l和根文节50r,参照文本结构存储单元提取包括与用户提问句子的根文节对应的根文节在内的文本,参照提取出的文本检索在该文本的叶文节中的缺少用户提问句子的文节的文节,并将检索到的文节发送至终端2,所以针对来自用户的提问的提问部分能够准确地将检索结果作为回答句子进行回答。
此外,根据本实施方式,在基于词素分析及文节间依存性分析而特定文本结构之后,因为准备了将该文本结构变换成适于检索的结构的适当数据库(知识数据库17),所以即便是体言结句这样的主格为根文节的文本,也可将与主格相连的叶文节变换成检索用根文节而将文本进行数据库化,因而针对来自用户的提问能够更准确地回答检索结果。
进而,根据本实施方式,因为基于提问的弧线数和检索对象的弧线数,针对来自用户的提问可靠地回答检索结果,所以能够从检索结果中除去无用数据,针对来自用户的提问能够更准确地回答检索结果。
另外,将根文节的弧线数和从该根文节经由弧线相连的叶文节的弧线数进行比较,在该根文节的弧线数比该叶文节的弧线数少的情况下,将所述叶文节变换成检索用根文节,并且将所述根文节变换成检索用叶文节,所述文本结构存储单元通过将变换后的文节及弧线存储至知识数据库17,由此文章的表现被标准化,由于吸收了句子的表层表现的差,因而能够谋求知识数据库17的紧密性、检索速度的提高。
此外,并不是用提问句子的信息整体进行一次匹配、检索,而首先用非提问文节50u这一句子的部分信息实现匹配,准确且大致地缩减回答句子的候补,其次用提问文节50w的格或词类等类型的信息进行缩减,所以未完成回答的情况少、能高效且准确地向用户给予回答。在以上的实施方式中,记载了在不对收集到的文本进行变更的情况下进行词素分析及文节间依存性分析的例子,但是在一文本为长句的情况下,无法生成用于进行适当回答的数据库的可能性存在着。因此,作为其他实施方式,在接收到文本时超过规定文字数或规定字数的情况下,优选用句号或关系代名词对文本进行分割,基于整体文本及分割文本进行分析。
另外,在信息检索系统1将基于检索到的句子信息的回答句子发送至终端2的情况下,因为针对用户用文章进行了回答,所以不协调程度轻。因为根据知识表现单位这样的句子的结构进行了存储、检索,因而容易制作对提问做出回答的文章。另外,能够准确地将检索结果来作为回答句子进行回答。
此外,信息检索系统1从检索到的句子信息中提取具有与提问文节50w的类型相一致的类型的文节来获得回答文节,并将与该回答文节相关的信息发送至终端2的情况下,能够精确地准确地向用户提供提问的核心部分的回答。另外,能够对提问的提问部分准确地给予回答。
另外,信息检索系统1对用户提问句子的文节之间的文节间依存性关系进行分析,在基于非提问文节50u中的与根文节50r等其他文节有文节间依存性的被文节间依存性文节的信息从知识数据库17中检索知识表现单位30、31的情况下,由于考虑了文节之间的关系,因而能够更可靠地从知识数据库17中找出回答。根文节50r或一部分叶文节(基于标准化被变换成根文节)是受到其他文节的文节间依存性而文节间依存性集中了的文节,由于汇集了句子的结构信息,因而基于被文节间依存性文节使得检索变得有效。
此外,知识数据库17作为句子信息预先存储基于文本的句子中的文节之间的文节间依存性关系的句子信息,信息检索系统1根据用户提问句子的被文节间依存性文节和句子信息的被文节间依存性文节之间的对照进行检索的情况下,例如在通过根文节50r和根文节30r、31r的对照首先进行检索的情况下,易于从知识数据库17的知识表现单位中准确地汇集与回答相应的知识表现单位的一次候补。另外,由于作为文节之间的文节间依存性关系这样的被结构化的知识表现单位进行处理,因而通过将结构的知识纳入检索方法中,从而更易于检索。
另外,在信息检索系统1基于用户提问句子的根文节50r等的与被文节间依存性文节呈文节间依存性的文节数(弧线数)进行检索的情况下,在由非提问文节50u首先缩减候补之后,由于在弧线数中更准确地缩减了候补,因而能够更加准确地检索回答句子。
此外,信息检索系统1作为文本提取单元,参照文本结构存储单元提取包含用户提问句子的根文节所对应的根文节的、超过用户提问句子中的该根文节的弧线数的弧线数的根文节的文本的情况下,在弧线数中进一步准确地缩减了候补,因而能够更准确地检索回答句子。
另外,在基于检索到的句子信息(被检索的文节)生成与用户相应的对用户提问句子,并将对用户提问句子发送至终端2的情况下,在候补的知识表现单位30、31的数目超过了规定数时,生成用于缩减回答句子候补的对用户提问句子,然后发送给用户,由此与用户进行了对话,并从用户得到了该回答,故能够进一步可靠地缩减回答句子的候补。
即便在代替检索到的文节而将对用户提问句子发送至终端2的情况下,也与用户进行了对话,并从用户得到了该回答,故能够进一步可靠地缩减回答句子的候补。
在被检索的文节数为规定数以上的情况下,通过生成对用户提问句子,从而能够区分是将对用户提问句子发送至终端2还是将检索到的文节发送至终端2,另外能够制定生成对用户提问句子的明确基准。
此外,在用户提问句子中没有动词的情况下,例如“彼はどこで?”这样的用户提问句子的情况下,根文节50r变为空文节,跳过步骤S12~S14。根据步骤S15的叶文节50l的非提问文节50u或步骤S16的提问文节50w来缩减回答句子的候补。这样,由于缩减的信息少,因而回答句子的候补数多的情况较多见。这种情况下,通过向用户发送对用户提问句子,以与用户对话的方式获取回答,由此能够可靠地缩减回答句子的候补。
另外,由知识输入管理服务器10和知识数据库用服务器15等构成的数据库的生成装置,或者经由网络3等收集文本或者从文本数据数据库6中收集文本,以将收集到的文本的句子分解成文节,对文本的句子的文节之间的文节间依存性关系进行分析,并基于文节间依存性关系将文本的句子进行结构化,并将被结构化的文本的句子存储至知识数据库17,由此知识表现单位30、31分别独立,通过知识表现单位30、31使得数据的管理变得容易。例如,如图4所示,基于表格形式的知识表现单位40的生成时间栏40f或访问栏40g的信息,知识数据库用服务器15或者将不怎么被利用的知识表现单位直接删除,或者追加新的知识表现单位等,使得知识数据库17易于管理。此外,由于文本的句子被结构化,因而知识数据库用服务器15易于进行与来自用户的用户提问句子相应的检索。
此外,知识数据库用服务器15通过将被结构化的文本的句子中的文节间依存性关系的方向(弧线的方向)反转,并操作文节间依存性关系反转后的文节的文节类型,由此能够吸收知识表现单位的表层表现的差,能将知识表现单位标准化。例如,如图9所示,通过进行使弧线的方向与弧线多的叶文节32l相一致的变换,并操作文节类型,由此能够获得与知识表现单位30等同的知识表现单位34,能够使知识表现单位标准化。通过标准化,从而能够节省数据数,能谋求检索性能(performance)的提高。
此外,来自用户的用户提问句子并非一定需要以文章的形式向用户要求输入,例如也可如图13(A)所示那样为提问输入样式25的形式。提问输入样式25按文节的每个类型具有输入框25a。之后,询问应答服务器20将提问输入样式25发送至用户的终端2,如图13(B)所示那样用户在提问输入样式25中记入语句。受理了来自用户的输入的终端2,使语句和文节的类型相关联后发送至询问应答服务器20。询问应答服务器20基于该信息而变换成知识表现单位50等。
另外,作为检索引擎发挥功能的知识数据库用服务器15也可基于用户历史记录进行检索。例如,为了在步骤S16之后最终缩减回答句子的候补、或者为了在由步骤S13较大程度缩减了回答句子候补之后进一步缩减回答句子的候补,知识数据库用服务器15利用用户历史记录。通过基于用户的个人简历或购入历史记录、或向知识表现单位访问的访问信息等用户历史记录来进一步缩减回答句子的候补,由此能够可靠地向用户提问回答句子。
此外,在步骤S13中,也可作为被文节间依存性文节而利用其他叶文节来缩减回答句子的候补,而不是根文节50r。在一部分的叶文节中集中了文节间依存性从而使得数据结构上的信息集中了的情况较多见,故易于一次性缩减回答句子的候补。
另外,知识数据库用服务器15的文节分类单元、文本文节分解单元、文本文节间依存性分析单元的程序、与询问应答服务器20的文节分类单元、文节分解单元、文节间依存性分析单元的程序既可以是共同的程序,也可以是用共同的服务器进行这些处理。
而且,本发明并不限于上述各实施方式。上述各实施方式只是例示,与本发明的权利要求书记载的技术思想实质上具有同一构成并起到同样作用效果的发明,无论是怎样的发明都包括在本发明的技术范围内。
符号说明:
1:    信息检索系统
2:    终端
10:   知识输入管理服务器
11:   控制部
15:   知识数据库用服务器
16:   控制部
17:   知识数据库(数据库)
20:   询问应答服务器
21:   控制部
30、31:   知识表现单位(句子信息、被结构化的文本的句子)
30r、31r: 根文节(被文节间依存性文节)
30l:    叶文节
50、60:   提问句子的知识表现单位
50w、60w: 提问文节
50r:    根文节(被文节间依存性文节)
50l:    叶文节
60e:    弧线数栏(文节数、弧线数)

Claims (7)

1.一种信息检索装置,其特征在于,具备:
文本收集单元,其收集文本;
第1文本文节分解单元,其将收集到的所述文本的句子分解成文节;
第1文本文节间依存性分析单元,其分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成以下文节类别、即叶文节和根文节,其中所述根文节是与所述句子的树形结构的根部相应的文节,所述叶文节是与所述树形结构的叶子或内部节点相应的文节;
文本结构存储单元,其存储所述文本、该文本的句子、该句子的文节及该文节的文节类别;
接收单元,其从用户终端接收已被输入所述用户终端中的用户提问句子的信息;
第2文本文节分解单元,其将所述用户提问句子分解成文节;
第2文本文节间依存性分析单元,其分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成以下文节类别、即叶文节和根文节,其中所述根文节是与所述句子的树形结构的根部相应的文节,所述叶文节是与所述树形结构的叶子或内部节点相应的文节;
句子提取单元,其参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的句子;
检索单元,其参照提取出的句子,检索该句子的叶文节中的所述用户提问句子的叶文节缺少的叶文节;和
发送单元,其将所述检索单元检索到的文节发送至所述终端,
所述第1文本文节间依存性分析单元对收集到的所述文本的句子的文节之间的文节间依存性关系赋予弧线,
所述第1文本文节间依存性分析单元还比较根文节的弧线数和从该根文节经由弧线相连的叶文节的弧线数,并在该根文节的弧线数比该叶文节的弧线数少的情况下将该叶文节的文节类别从叶文节变换成检索用根文节且将该根文节的文节类别从根文节变换成检索用叶文节,
所述文本结构存储单元存储变换后的文节、文节类别及弧线。
2.根据权利要求1所述的信息检索装置,其特征在于,
所述句子提取单元参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节且弧线数超过所述用户提问句子中的该根文节的弧线数的根文节的句子。
3.根据权利要求1或2所述的信息检索装置,其特征在于,
所述信息检索装置还具备对用户提问句子生成单元,该对用户提问句子生成单元基于检索到的文节,对用户生成对用户提问句子,
所述发送单元将所述对用户提问句子发送至所述终端。
4.根据权利要求1或2所述的信息检索装置,其特征在于,
所述信息检索装置还具备对用户提问句子生成单元,该对用户提问句子生成单元基于检索到的文节,对用户生成对用户提问句子,
所述发送单元取代检索到的文节而将所述对用户提问句子发送至所述终端。
5.根据权利要求3所述的信息检索装置,其特征在于,
在检索到的文节的数目在规定数以上的情况下,所述对用户提问句子生成单元生成对用户提问句子。
6.根据权利要求4所述的信息检索装置,其特征在于,在检索到的文节的数目在规定数以上的情况下,所述对用户提问句子生成单元生成对用户提问句子。
7.一种信息检索方法,其特征在于,包括:
文本收集步骤,收集文本;
第1文本文节分解步骤,将收集到的所述文本的句子分解成文节;
第1文本文节间依存性分析步骤,分析所述文本的句子的文节之间的文节间依存性关系,将各自的文节至少分类成以下文节类别、即叶文节和根文节,其中所述根文节是与所述句子的树形结构的根部相应的文节,所述叶文节是与所述树形结构的叶子或内部节点相应的文节;
文本结构存储步骤,将所述文本、该文本的句子、该句子的文节及该文节的文节类别存储到文本结构存储单元中;
接收步骤,从用户终端接收已被输入所述用户终端中的用户提问句子的信息;
第2文本文节分解步骤,将所述用户提问句子分解成文节;
第2文本文节间依存性分析步骤,分析所述用户提问句子的文节之间的文节间依存性关系,将各自的文节至少分类成以下文节类别、即叶文节和根文节,其中所述根文节是与所述句子的树形结构的根部相应的文节,所述叶文节是与所述树形结构的叶子或内部节点相应的文节;
句子提取步骤,参照所述文本结构存储单元,提取包括与所述用户提问句子的根文节对应的根文节在内的句子;
检索步骤,参照提取出的句子,检索该句子的叶文节中的、所述用户提问句子的叶文节缺少的叶文节;和
发送步骤,将所述检索步骤检索到的文节发送至所述终端,
在所述第1文本文节间依存性分析步骤中,对收集到的所述文本的句子的文节之间的文节间依存性关系赋予弧线,
在所述第1文本文节间依存性分析步骤中,还比较根文节的弧线数和从该根文节经由弧线相连的叶文节的弧线数,并在该根文节的弧线数比该叶文节的弧线数少的情况下将所述叶文节的文节类别从叶文节变换成检索用根文节且将所述根文节的文节类别从根文节变换成检索用叶文节,
在所述文本结构存储步骤中,存储变换后的文节、文节类别及弧线。
CN201080028234.7A 2009-06-26 2010-06-28 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质 Active CN102460437B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009152481 2009-06-26
JP2009-152481 2009-06-26
PCT/JP2010/060987 WO2010150910A1 (ja) 2009-06-26 2010-06-28 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
CN102460437A CN102460437A (zh) 2012-05-16
CN102460437B true CN102460437B (zh) 2014-10-15

Family

ID=43386677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080028234.7A Active CN102460437B (zh) 2009-06-26 2010-06-28 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质

Country Status (5)

Country Link
US (1) US8296319B2 (zh)
EP (1) EP2450805A4 (zh)
JP (1) JP4768882B2 (zh)
CN (1) CN102460437B (zh)
WO (1) WO2010150910A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
AU2011350049A1 (en) * 2010-12-30 2013-07-18 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
US10019437B2 (en) * 2015-02-23 2018-07-10 International Business Machines Corporation Facilitating information extraction via semantic abstraction
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
WO2019051845A1 (en) * 2017-09-18 2019-03-21 Microsoft Technology Licensing, Llc CONVERTIBLE ROBOTS FOR FITNESS SUPPORT
CN113590645B (zh) * 2021-06-30 2022-05-10 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
JP2004127003A (ja) * 2002-10-03 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体
JP4461738B2 (ja) * 2003-08-13 2010-05-12 富士ゼロックス株式会社 質問応答装置および方法
JP2005346160A (ja) * 2004-05-31 2005-12-15 Oki Electric Ind Co Ltd 質問応答装置、質問応答方法、読替係り受け生成装置、読替係り受け生成方法及びプログラム
JP2006139692A (ja) * 2004-11-15 2006-06-01 Advance Design Corp テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
JP2007141090A (ja) 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
JP4838743B2 (ja) 2007-02-27 2011-12-14 静岡県 類似文章検索プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Also Published As

Publication number Publication date
EP2450805A4 (en) 2015-11-04
US8296319B2 (en) 2012-10-23
EP2450805A1 (en) 2012-05-09
CN102460437A (zh) 2012-05-16
US20120096028A1 (en) 2012-04-19
JP4768882B2 (ja) 2011-09-07
WO2010150910A1 (ja) 2010-12-29
JPWO2010150910A1 (ja) 2012-12-10

Similar Documents

Publication Publication Date Title
CN102460437B (zh) 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质
US20210174016A1 (en) Methods and systems for generating declarative statements given documents with questions and answers
CN110955762B (zh) 一种智能问答平台
US20050251384A1 (en) Word extraction method and system for use in word-breaking
CN106599160B (zh) 一种内容规则库管理系统及其编码方法
CN101276372A (zh) 信息搜索装置及方法
JP2009087345A (ja) 自然言語ベースのサービス選択システムおよび方法、サービスクエリシステムおよび方法
CN102144229A (zh) 用于从具有文本段的文档中提取术语的系统
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
CN110321416A (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
CN107102976A (zh) 基于微博的娱乐新闻自动构建技术与系统
CN100454294C (zh) 用于将日文翻译成中文的设备
JP2003076715A (ja) ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体
CN102227723B (zh) 辅助误译的检测的装置及方法
CN113094512B (zh) 一种工业生产制造中故障分析系统及方法
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
JP2008003656A (ja) 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
KR20020084302A (ko) 문자 메시지를 이용한 캐릭터 이미지 추출 및 전송 장치와그 방법
JP5882241B2 (ja) 質問応答用検索キーワード生成方法、装置、及びプログラム
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP4119413B2 (ja) 知識情報収集システム、知識検索システム及び知識情報収集方法
KR101476230B1 (ko) 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP2000207414A (ja) インタ―ネット情報検索方法及びインタ―ネット情報検索プログラムを格納した記憶媒体
JP2021077393A (ja) オープンデータを効率的に構造化し補正する方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Japanese Shinagawa, Tokyo

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address