CN104137097B - 谓语模板收集装置以及特定短语对收集装置 - Google Patents

谓语模板收集装置以及特定短语对收集装置 Download PDF

Info

Publication number
CN104137097B
CN104137097B CN201380011077.2A CN201380011077A CN104137097B CN 104137097 B CN104137097 B CN 104137097B CN 201380011077 A CN201380011077 A CN 201380011077A CN 104137097 B CN104137097 B CN 104137097B
Authority
CN
China
Prior art keywords
template
noun
predicate
pair
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380011077.2A
Other languages
English (en)
Other versions
CN104137097A (zh
Inventor
桥本力
鸟泽健太郎
S·德萨格尔
吴钟勋
风间淳
风间淳一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN104137097A publication Critical patent/CN104137097A/zh
Application granted granted Critical
Publication of CN104137097B publication Critical patent/CN104137097B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

为了提供能效率良好、自动认识谓语模板的谓语模板收集装置,谓语模板收集装置包含:使用连接词以及种模板来收集与谓语模板对共现的名词对,并判定名词的关系的极性的名词对收集部(94)以及名词对极性判定部(98);模板对收集部(100),其收集与名词对共现的模板对,基于与谓语模板对共现的名词对的关系和谓语模板对间的连接词,来判定谓语模板对的活性的极性是否相同;模板网络构建部(106),其通过谓语模板对和其活性的一致/不一致来构件将谓语模板间建立关系的模板网络;和模板活性值算出部(112),其使用网络内的种模板的活性值与节点间的关系来算出赋予各节点的活性值。

Description

谓语模板收集装置以及特定短语对收集装置
技术领域
本发明涉及用于认识自然语言的句子与短语间的关系的技术,特别涉及用于自动认识并收集句子与短语等间的因果关系、矛盾等相关的表现的技术。
背景技术
随着所谓的互联网的搜索引擎等的利用的普及,语言处理技术也在进步,关于找出「写出来的信息」的问题,已经开始提供高级别的服务。与此形成对照,关于将「虽未写出但却是有用的信息」作为假说来推论的技术,则还不充分。这样的技术能称作「由系统所考虑的技术」,被认为是次世代信息服务的重要的核心技术。对这样的技术,作为所谓的「人工智能」,不管民间机构还是公立机构,都进行了长时间的研究。但尚未够得上实用化、商用化的级别。
在这样的语言处理技术中,作为基本的要素有所谓的句子和短语。(在本说明书中,设想以日语为处理对象,所谓「短语」,是指用助词连结某名词和谓语的语法结构。其中,在设想日语以外的语言的情况下,将与日语中「短语」同等的单位作为处理对象)这些以自然语言记述了具有某种内在联系的事件以及行为。在这些句子和短语间,有时会找出某种因果关系。例如有「煙草を吸う(吸烟)」这样的短语的表征成为「肺がんに罹る(罹患肺癌)」这样的短语所表征的事实的原因的关系。在句子和短语间还有找出意义矛盾的关系的情况。例如「製品を使用する(使用产品)」与「製品を破棄する(废弃产品)」间的关系等。
句子与短语间的这样的关系,人们能容易地认识。但是,在要自动进行语言处理的情况下,这样的处理就成了难题。例如,为了使与语言相关的信息服务、信息分析技术、语言处理技术达到更高的级别,与推论等与更高阶的功能结合,认为能高精度地认识句子与短语间的上述的关系是必须的技术。但是,到现在为止,并不存在能从宽范围的语言表现中高精度地找出上述那样的关系的技术。
作为与这样技术的构成要素关联的现有技术,有后面揭示的非专利文献1~7记载的技术。
(A)短语间的因果关系的自动认识手法
作为通过机器学习从人工准备的大量的因果关系事例取得新的因果关系的技术,有非专利文献1记载的技术。作为在日语中的示例,存在有以明确表示因果关系的「ため」、「ので」这样的连接词出现在文本中为线索来自动认识短语间的关系的技术(非专利文献2)。
(B)短语间的矛盾关系的自动认识手法
存在利用WordNet等的人工构建的辞典的技术(非专利文献3)。
(C)动词的分类方法
存在如下研究(例如非专利文献4以及非专利文献5):对由名词和动词的组合构成的单位,基于动词是否例如记述了使名词所指代的对象所具有的功能、效果等发挥、增大的方向的事件来对动词进行分类,或自动获得具有这样的性质的动词。
(D)基于语言的假说生成手法
存在关于单词间的特定的意义的关系、例如因果关系来生成假说的技术(非专利文献6)。例如若将在「コレステロ一ル(胆固醇)」与「動脈硬化(动脉硬化)」间有因果关系,在「動脈硬化」与「脳梗塞(脑梗塞)」间有因果关系保持在数据库中,则组合这些因果关系来推论「コレステロ一ル」成为「脳梗塞」的原因这样新的假说。
(E)短语间的同义、含义の自动认识手法
过去,在动词等词或「AがBを引き起こす(A引起B)」这样的句型间的同义性、含义的认识中,存在如下技术(非专利文献7):在出现在该词的周边的其他词或句型中求取出现在被称作A、B的变量所占的位置的词的概率分布,使用它们之间的统计相似度(将其称作「分布相似度」)。例如,将「AがBを引き起こす」这样的句型和「AがBの原因となる(A成为B的原因)」这样的句型视作大致同义,求取来到A、B的位置的一 连串的名词、例如「ダイオキシン(二恶英)」、「ガン(癌)」这样的词的出现概率,通过它们的出现概率间的相似度来将其认识为同义。
现有技术文献
非专利文献1:Roxana Girju.Automatic Detection of Causal Relations forQuestion Answering.In Proceedings of ACL Workshop on MultilingualSummarization and Question Answering.2003.(根据人工准备的大量的因果关系示例通过机器学习获取新的因果关系的技术)
非专利文献2:乾孝司、乾健太郎、松本裕治.接続助詞「ため」を含む複文から因果関係知識を獲得する.情報処理学会自然言語処理研究会(NL-150-25),pp.171--178,2002.(短语间的因果关系的自动认识。以「ため」等的特定的连接词为线索获取因果关系的技术。)
非专利文献3:Saif Mohammad,Bonnie Dorr and Graeme Hirst.Computing WordPair Antonymy.In Proceedings of the 2008 Conference on Empirical Methods inNatural Language Processing,pp.982-991,Honolulu,October2008.(矛盾关系的自动认识。基于人工构构建的词典的技术)
非专利文献4:James Pustejovsky,The Generative Lexicon,MIT Press,1995.(動詞の分類方法)
非专利文献5:鳥澤健太郎.对象の用途と準備を表す表現の自動獲得.自然言語処理,vol.13(2),pp.125-144,2006.(動詞の分類の自動獲得手法)
非专利文献6:Masaaki Tsuchida,Kentaro Torisawa,Stijn De Saeger,JongHoon Oh,Jun′ichi Kazama,Chikara Hashimoto and Hayato Ohwada.Toward FindingSemantic Relations not Written in a Single Sentence:An Inference Method usingAuto-Discovered Rules.In Proceedings of the 5th International JointConference on Natural Language Processing(IJCNLP2011),pp.902-910,Chiang Mai,Thailand,November,2011.(基于语言的假说生成)
非专利文献7:Dekang Lin and Patrick Pantel.Discovery of inferencerules for question answering.Natural Language Engineering,7(4):343-360.2001.(惯用句间的同意、含义的自动认识方法)
非专利文献8:Hiroya Takamura,Takashi Inui,and ManabuOkumura.Extracting Semantic Orientations of Words using Spin Model.InProceedings of the 43rd Annual Meeting of the ACL,pp.133-140.2005.(极性值的自动计算方法)
发明的概要
发明要解决的课题
[问题的所在]
以下关于(A)短语间的因果关系的自动认识手法、(B)短语间的矛盾关系的自动认识手法、(C)谓语模板(助词和动词的对、例:<を、食べる(吃……)>)的自动分类方法、(D)基于语言的自动假说生成手法、以及(E)短语间的同义、含义的自动认识手法这5点来整理现有技术的课题。
(A)短语间的因果关系的自动认识手法
作为短语间的逻辑关系之一,有因果关系。现有技术将明确表示因果关系的「ため」、「ので」这样的连接词、或人工构建的辞典作为其信息源来认识因果关系。但是,有如下问题:「ため」这样的连接词在通常文本中出现频度并不是那么多;以及人工作成的辞典所覆盖的词较少,能获得的因果关系不多。因此,期望扩展运用范围。
(B)短语间的矛盾关系的自动认识手法
作为短语间的逻辑关系的其它示例,有短语间的矛盾关系。在此所说的矛盾关系是指两者所指的意义相反。与这一点相关的现有技术依赖于人工构建的辞典。存在记载在这样的辞典的词不多,不能应对广泛的表现的问题。
(C)谓语模板的自动分类方法
在现有技术中,仅着眼于动词记述了例如使名词所指代的对象所具有的功能、效果等发挥、增大的方向的事件。但是,若仅着眼于动词的这样的性质,则有不能充分进行矛盾/因果关系的认识这样的问题。
(D)基于语言的自动假说生成手法
在现有技术中公开的技术中,虽然能提取单词间的因果关系,但有不 能以更大的单位提取因果关系,或者不能生成与因果关系相关的假说这样的问题。
(E)短语间的同义、含义的自动认识手法
在现有技术中,求取出现在单词、短语、句型的周边的其它单词的概率分布。进而计算这些概率分布间的相似度。通过如此得到的信息来认识单词、短语、以及句型间的同义或含义关系。但是,在这些技术中,有将「反义」的表现也认识为同义的可能性高的缺点。例如,若比较句型「AがBを引き起こす」和句型「AがBを防ぐ(A防止B)」这样的句型,就会容易理解。在两者中,「引き起こす(引起)」和「防ぐ(防止)」具有完全相反的意义。然而,若求取出现在周边的其它单词的概率分布的相似度,则它们示出高的相似度。例如,像「食事が成人病を引き起こす(饮食引起现代生活习惯病)」、「食事が病気を防ぐ(饮食防止疾病)」那样暧昧的词在两者的句型频出的其较多,由此引起。由于这样的句型频出,因此出现在包含「引き起こす」以及「防ぐ」这样的词的句型中的名词的概率分布类似。因此,关于同义、含义也需要能更高精度地认识。
发明内容
为此,本发明的目的在于,为了能自动认识因果关系、矛盾关系等的短语间的逻辑关系,提供能效率良好、自动且精度高地认识构成这些逻辑关系的谓语模板的谓语模板收集装置。
本发明的其它目的在于,提供能自动、有效率且精度高地认识处于因果关系、矛盾关系等特定的关系的短语对的装置。
用于解决课题的手段
本发明的第1局面所涉及的谓语模板收集装置是用于从给定的句子的集合收集谓语模板的谓语模板收集装置。谓语模板与名词连结而构成短语。并且,能遵循活性、非活性、以及中立这样的分类对谓语模板赋予表征活性的方向以及其大小的活性值。所谓活性,记述了使与该谓语模板连结的名词所指的对象的功能或效果发挥的方向的事件。所谓非活性,记述了不使与该谓语模板连结的名词所指的对象的功能或效果发挥的方向的事件。所谓中立,表示既不是活性也不是非活性的谓语模板。将与谓语模 板相关的活性以及非活性的区别称作谓语模板的极性。谓语模板收集装置包含:连接词存储部,其存储分类为顺接或逆接的连接词;和种模板存储部,其存储用于成为构建谓语模板网络的起点的种模板。对各个种模板赋予极性和活性值。因此,谓语模板的极性还能表示谓语模板的活性值的符号。
该装置还包含:名词对收集单元,其从给定的语料库收集满足某种关系的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负。构成名词对的名词彼此的关系的极性,在该名词对的一方所示的对象促进另一方所示的对象的出现时定义为正,在该名词对的一方所示的对象抑制另一方所示的对象的出现时定义为负。该装置还包含:谓语模板对收集单元,其从给定的语料库收集分别与由名词对收集单元收集的名词对共现的谓语模板对,对收集的各谓语模板对,基于与该谓语模板对共现的名词对的关系的极性、和连结该谓语模板对的连接词来判定该谓语模板对的活性/非活性是相同还是相反;构建单元,其通过使用由谓语模板对收集单元收集的谓语模板对、和对各谓语模板对的活性/非活性是否相同的判定结果来将谓语模板间建立关联,以各谓语模板为节点,来构建将构成谓语模板对的谓语模板间的关系作为链接的模板网络;和活性值算出单元,其以向预先与模板网络内的种模板对应的节点赋予的活性值为基础,使用模板网络内的节点间的关系来算出应赋予各节点的活性值,对与各节点对应的谓语模板赋予算出的活性值后输出。
优选地,名词对收集单元包含如下单元:使用存储于连接词存储部的连接词、和存储于种模板存储部的种模板来从给定的语料库收集与谓语模板对共现的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负。
更优选地,用于进行分类的单元包含以下单元:使用存储于连接词存储部的连接词、和存储于种模板存储部的种模板,来从语料库收集与谓语模板对共现、且在语料库出现给定的频度以上的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负。
也可以用于进行分类的单元包含:使用存储于连接词存储部的连接词、和存储于种模板存储部的种模板来从语料库收集与谓语模板对共现的 名词对的单元;和极性决定单元,其对由用于进行收集的单元收集的名词对的各个组合,基于与各名词对共现的谓语模板对的极性、和将由该名词对以及谓语模板构成的短语对连结的连接词的种类来决定构成该名词对的组合的名词间的关系的极性。
更优选地,用于进行收集的单元包含使用存储于连接词存储部的连接词、和存储于种模板存储部的种模板来从语料库收集与谓语模板对在语料库内以给定的频度以上的频度共现的名词对。
进一步优选地,也可以让极性决定单元还包含如:对由用于进行收集的单元收集的各个名词对,基于与该名词对共现的谓语模板的谓语模板对的极性、和连结由该名词对以及谓语模板构成的短语对的连接词的种类,来决定构成各个该名词对的名词间的关系的极性的单元;和,按每个名词对的种类来合计由用于进行决定的单元对各个名词对决定的名词间的极性,通过基于多数来对每个名词对的种类决定其间的极性。
优选地,谓语模板收集装置还包含:判定单元,其响应于活性值算出单元进行的谓语模板的输出的完成,来判定算出谓语模板的活性值的处理的结束条件是否成立;更新单元,其响应于由判定单元判定为结束条件不成立,选择由活性值算出单元算出的谓语模板中、活性值的绝对值为阈值以上的谓语模板构成的新的种模板,通过该新选择的种模板来更新种模板存储部的存储内容;和响应于更新单元进行的更新来使谓语模板对收集单元、名词对收集单元、谓语模板对收集单元、构建单元、以及活性值算出单元所进行的处理再执行的单元。
进一步优选地,构建单元包含:在与构成由谓语模板对收集单元收集的谓语模板对的谓语模板对应的节点不存在于模板网络内时追加与该谓语模板对应的节点的单元;和链接单元,其在构成由谓语模板对收集单元收集的谓语模板对的谓语模板间生成链接。链接单元按照由各链接连接的谓语模板的活性是否相同来对各链接赋予表示活性的一致或不一致的属性。构建单元还包含:权重赋予单元,其对由链接单元生成的各链接赋予与其它节点的链接的数量的函数即权重。由权重赋予单元赋予的权重,在该链接的属性为表示一致的值时和表示不一致的值时符号不同。
活性值算出单元包含:通过对模板网络内的各链接的权重、与分配给 各节点的活性值的函数、即由以下数式定义的函数的值进行最优化,来估计分配给模板网络内的各节点的活性值的单元,
E(x,W)=-1/2×∑ijwijxixj
其中,xi、xj分别是第i个以及第j个节点的活性值
x是以所述模板网络内的各节点的活性值为要素的矢量
W是以链接的权重wij为要素的矩阵。
其中,对种模板中、极性为活性的种模板赋予正的极性和活性值,对非活性的种模板赋予负的极性和活性值。
本发明的第2局面所涉及的能由计算机执行的计算机程序使该计算机作为上述任一者的谓语模板收集装置发挥功能。
本发明的第3局面所涉及的特定短语对收集装置包含:上述任一者的谓语模板收集装置;谓语模板存储单元,其存储由谓语模板收集装置收集的谓语模板;短语对收集单元,其从给定的语料库收集包含由存储于谓语模板存储单元的谓语模板中的特定的活性/非活性的谓语模板的组合、和特定的种类的连接词构成的谓语模板对的短语对;和短语选择单元,其通过提取在由短语对收集单元收集的短语对内与谓语模板共现的名词对、和该短语对内的谓语模板的极性成为特定的组合的短语对,来选择表现给定的关系的短语对。
优选地,特定短语对收集装置还包含:得分算出单元,其对由短语选择单元选择的各个短语对算出表征给定的关系的强度得分,作为构成各短语对的谓语模板活性值、和包含于该短语对中的名词对在语料库内中的共现关系的函数;和按照由得分算出单元算出的得分的次序来排列由短语选择单元选择的短语对的单元。
作为给定的关系,有一方的短语成为另一方的短语的原因的因果关系、一方的短语和另一方的短语指代相互矛盾的内容的矛盾关系、或者是因果关系而不存在于所述语料库中的作为假说的因果关系假说。
附图说明
图1是本发明的第1实施方式所涉及的矛盾表现收集系统的框图。
图2是图1所示的模板DB构建装置的更详细的框图。
图3是示意地表示模板网络的构成的图。
图4是表示实现模板网络构建部的程序的控制结构的流程图。
图5是表示在模板网络的构建中实现追加链接的处理的程序的控制结构的流程图。
图6是表示实现各模板的活性值的算出处理的程序的控制结构的流程图。
图7是表示实现矛盾表现获得处理的程序的控制结构的流程图。
图8是表示在图7示出控制结构的程序中的实现短语群的生成处理的程序部分的控制结构的流程图。
图9是表示在图7示出控制结构的程序中的实现选择矛盾短语对的处理的程序部分的控制结构的流程图。
图10是表示在图7示出控制结构的程序中的进行矛盾短语对的排序的程序的控制结构的流程图。
图11是表示用于在本发明的第2实施方式中实现获得因果关系的功能的程序的控制结构的流程图。
图12是用于说明根据因果关系数据库的内容而推论系统的结论不同的示例的示意图。
图13是表示在本发明的第3实施方式实现从各种名词对生成因果关系假说的功能的程序的控制结构的流程图。
图14是表示在本发明的第3实施方式中实现基于因果关系对和矛盾对来生成新的因果关系假说的功能的程序的控制结构的流程图。
图15是表示用于实现本发明的实施方式所涉及的问题回答系统的计算机的外观的示意图。
图16是说明图15所示的计算机的硬件构成的框图。
具体实施方式
在以下的说明以及附图中,对相同部件赋予相同参考编号。因此,对它们不反复详细的说明。另外,在以下的记载中,将介由助词将名词和动词(或形容词、形容动词等的谓语)连结的语法结构称作「短语」。进而, 将短语内的助词和谓语的组合(例:<を、食べる>)称作「谓语模板」。
在以下的说明中,首先示出在本实施方式中使用的基本概念。进而叙述能如何使用它们来认识矛盾表现或因果关系表现。最后说明具体的实施方式。
[基本概念]
《模板》
如已经叙述那样,介由助词将1个名词、和1个动词、形容词或形容动词连结的语法结构称作「谓语模板」。在本实施方式中,将谓语模板分类为活性、非活性、中立的任一者。
《分类标签》
以下说明谓语模板的分类标签。接下来,说明具有该分类的语言学的性质。进而叙述分类的自动获得手法。最后叙述分类的谓语模板的应用。
(1)谓语模板的分类/极性
在本实施方式中,将成为整体的系统的输入的文本中所呈现的谓语模板分类为以下的表格1所示的3种。
[表1]
表格1
在本实施方式中,以上的分类从文本自动计算。这时,分布对活性模板分配正的活性值,对非活性模板分配负的活性值。活性值的具体的计算法在后面叙述。所谓中立动词是指从计算的结果得到的活性值的绝对值为某阈值以下的动词。在本说明书中,将与上述的「活性」、「非活性」以及「中立」相关的分类、和添加在各模板的活性值这两者总称为谓语模板的「极性」。在以下的表格2举出示例。
[表2]
表格2
模板 活性值
…で書く(用……写) +0.8
…を吸う(吸……) +0.9
を止める(停止……) -0.6
を考える(考虑……) +0.00003
否定的助动词「ない」等接在谓语的情况下,将谓语和否定的助动词一起视作1个谓语,作为其活性值,使用与原本的谓语的活性值正负相反的值。在以下的表格3举出示例。
[表3]
表格3
模板 活性值
で書けない(不用……写) -0.8
を吸わない(不吸……) -0.9
を止めない(不停下……) +0.6
を考ぇない(不考虑……) -0.0003
(2)对谓语模板的极性的分配
自动计算对谓语模板的极性的分配。首先,作为极性分配的线索,考虑以下那样的语言学的性质、约束。首先考虑名词的对,导入成对的名词间的因果关系这样的概念。
作为具有因果关系的名词的对,有以下的表格4所示的2个种类的关系。
[表4]
表格4
在这些名词的对、和谓语模板的活性值的积的极性(正负号)间有以下那样的关系。即,(1)以顺接的连接词(~ので、~ため、~て、等)连结的2个谓语模板的活性值的积的极性,在有正的因果关系的名词句与2个谓语模板具有连系(係り受け)的情况下为正。(2)反之,在以顺接 的连接词连结的2个谓语模板、和有负的因果关系的名词句具有连系的情况下,谓语模板的活性值的积的极性为负。(3)在以逆接的连接词(~が、~にもかかわらず等)连结2个动词的情况下,2个谓语模板的活性值的积的极性与(1)、(2)相反。
若对这些关系举例,则如以下的表格5那样。另外,名词的对<地震、津波(地震、海啸)>具有正的因果关系,<抗がん剤、ガン(抗癌药、癌)>具有负的因果关系。
[表5]
另外,有同义/含义的关系的谓语模板的组具有相同的极性。例如「(ワクチン)を処方する(开疫苗的(处方))」和「(ワクチン)を注射する(注射(疫苗))」两者的极性都为正,「(地震)が発生する(发生(地震))」和「(地震)が起きる(出现(地震))」的极性也使两方都为正。但是,活性值并不限于相同。
在具体的活性值的计算中,从互联网上大量收集以上例示那样的文本、即由与各个名词建立联系且相互以顺接或逆接的连接词连结的2个谓语模板构成的表现。通过在这些以连接词联系的谓语模板间、以及有同义/含义关系的谓语模板的对间拉起链接(link),来制作谓语模板的网络。对链接赋予上述那样的谓语模板的极性是否相同的信息,作为属性。对该网络上的少数的谓语模板,预先人工赋予+1或-1的活性值。在该网络上,能如后述那样定义与量子力学中的电子自旋的能量类似的能量。通过最优化(在此为最小化)该能量的计算,进行一种约束求解,能引导性且 大局地决定以及计算谓语模板的极性以及名词对的因果关系的极性。关于该活性值的算出手法,希望参考非专利文献8。
另外,后述的活性值的分配算法只是一例,有还存在其它基于考虑了上述语言学的约束的能量函数来求取具体的活性值的手法的可能性。
(3)通过使用这样分类极性能进行以下那样的应用。
(A)短语间的因果关系的自动认识手法
在活性值的积为正、活性值的绝对值大的谓语模板的对与有正的因果关系的名词共现、以顺接的连接词连结的情况下,表征因果关系的可能性变高。在活性值的积为负、活性值的绝对值大的谓语模板的对与有负的因果关系的名词共现、以顺接的连接词连结的情况下,也使表征因果关系的可能性较高。能利用该性质在文本中自动认识、取得表征因果关系的、包含2个谓语模板以及有正负的因果关系的名词对的表现。
[表6]
连接词「~て」并不限于表征因果关系。存在无数的「~て」表征因果关系以外的表现。例如,在「風呂に入つて、食事をする(去洗澡,然后去吃饭)」的情况下,在「風呂(洗澡)」与「食事(饭)」间通常不认为有因果关系。通过本实施方式,能准确地将这样的并非因果关系的短语对除外,高精度地仅取得因果关系。
通过从这样的表现的集合中考虑上述约束,能高精度地获得短语间的因果关系。若得到因果关系,就能从「地震が起きた」这样的信息来进行「津波に襲われる可能性がある(有海啸来袭的可能性)」这样的预测。如此取得的因果关系对自动获得短语间的意义上的关系这样非常重要的技术而言,成为重大的因素。
(B)信息的矛盾的自动认识
极性相反的谓语模板,在假使两者都伴随同种的名词出现的情况下,相互矛盾的可能性高。能利用该性质来自动取得矛盾的短语对。具体地,收集对与共通的名词一起出现的概率高、且极性相反的谓语模板的对嵌入共通的名词的短语对。这些短语对能作为相互矛盾的短语对而自动取得。以下举出矛盾的表现的示例。
[表7]
表格7
若从这些短语对去除共通的名词,则就留下谓语模板的对。果然这些也矛盾的可能性较高。若将这样的谓语模板数据库化,则能作为与反义相关的有用的辞典来活用。在上的示例中,能作为如「…を吸う(吸……)」和「…を止める(停止……)」那样具有相互相反的意义的谓语模板对来收集。
(C)组合短语间的因果关系和矛盾的假说生成
能通过一并使用上述(A)短语间的因果关系的自动认识和(B)信息的矛盾的自动认识的技术,来自动取得在原本的文本中表面上没有记载的因果关系。该手法的概略如以下那样。
首先,能通过从成为基础的文本获得基于句型的名词间的意义的关系(在这里能利用已有技术),自动获得例如材料关系。即,能通过「AでBを作る」(用A制作B)这样的句型自动获得产品B与材料A间的关系。该自动获得的结果,能取得产品「超硬工具(超硬工具)」的材料是「タングステン(钨)」这样的信息。接下来,在分别与由已知有该材料关系所指的意义的关系的名词的对、即「超硬工具」和「タングステン」构成的名词的对频繁共现的谓语模板中,选择相互的活性值的积为正、且其活性值的绝对值大的谓语模板。将选出谓语模板分别与成对的名词并列。于是,例如能获得「タングステンを輸入して(进口钨)(活性值正)、超硬工具を制造する(制造超硬工具)(活性值正)」这样的由谓语(动词)和名词构成的动词句间的(广泛意义上的)因果关系。在此所谓的因果关系是指,「タングステンを輸入する」是为了「超硬工具を制造する」。
这样获得的因果关系自身有时表面上并未写在文本中。在这样的情况下,能用上述的方法生成与因果关系相关的假说。另外,此时,也可以使用「輸入する(进口)」、「制造する(制造)」这样的动词单体经常一起出现在一句内等的约束。
接下来,对包括上述那样取得的在内的由谓语以及名词构成的短语间的因果关系,将谓语模板各自置换为与该谓语模板矛盾的、(B)的在信息的矛盾的自动认识中取得的谓语模板。例如,考虑「タングステンを輸 入して、超硬工具を制造する」这样的因果关系。若构成该因果关系的谓语模板之中、「を輸入する(进口……)」和「が輸入禁止される(……被禁止进口)」矛盾,「を制造する(制造……)」和「を販売中止する(停止贩卖……)」矛盾,则都设为在上述(B)技术中认识的谓语模板。如此,能用与包含在原本的因果关系中的谓语模板分别矛盾的谓语模板来置换包含在原本的因果关系中的谓语模板。能通过该手续生成「タングステンが輸入禁止されたため、超硬工具を販売中止する(由于被禁止进口钨,因此停止贩卖超硬工具)」这样新的因果关系的假说。
通过用以上那样的方法取得大量的因果关系以及其假说,并使其成为数据库,能在实际新的信息来到时,推论之后的可能的状況。例如,使「タングステンが輸入禁止されたため、超硬工具を販売中止される(由于被禁止进口钨,因此停止贩卖超硬工具)」这样的因果关系的假说数据库化。在这当中,设为出现过「タングステンが輸入禁止(禁止进口钨)」这样的新闻报道。于是,通过检索上述的数据库,能进行作为「タングステンが輸入禁止された」(钨的进口被禁止了)的归结,有「超硬工具が販売中止される」可能性这样的推论。即,能自动生成对不具有与该领域相关的详细知识的人而言未知的假说。
以上那样的假说生成,仅从当初的「超硬工具をタングステンで作る(用钨来制作超硬工具)」这样以单纯且频出的句型记载的信息开始。另一方面,从与「超硬工具」和「タングステン」都没关系的文本进行与谓语模板的活性/非活性相关的信息提取。通过将它们组合来生成因果关系的假说。即,即使在输入的文本中与「超硬工具」以及「タングステン」相关的提及仅有「超硬工具をタングステンで作る」这样的表现,也能进行上述那样的假说的生成。其结果,能从非常贫乏的信息量得到「超硬工具が制造禁止になる可能性がある(有禁止制造超硬工具的可能性)」这样非常高度的假说。因此,该技术有广泛的运用范围,并且成为用于信息的高度的活用的核心技术。
(D)有同义、含义关系的表现的自动获得的精度提升
在现有的同义、含义关系的自动获得技术中,通过出现在所关注的表现的周边的词的出现概率的分布的类似来认识同义、含义。但是,如已经 叙述的那样,经常有将相对于某单词A反义的单词B误认识为有与单词A同义或含义这样的关系的情形。这是由反义词所出现的上下文类似的情况较多所引起。对此,根据本实施方式,例如能自动计算「を引き起こす(引起……)」的活性值为正,「を防ぐ(防止……)」的活性值为负。若使用这些信息,则能在通过使用现有技术而提取的同义表现的候补中,根据谓语模板的极性是否不同来区分是否为同义。其结果,使用本实施方式的技术提升了单词的同义以及含义的自动获得的精度。
(E)跨句子的因果关系的自动获得
能通过上述的(A)以及(C)的技术能取得众多的因果关系。若将这些众多因果关系数据库化,则能获得在这些因果关系的表现中频出的谓语模板的对。例如,设「が起きた(出现)」和「に襲われた(来袭)」这样谓语模板的对在数据库中的因果关系中大量出现。这样的谓语模板在文本中跨句(在其它句子中)出现的情况下、在相互间句子数、单词数或字符数等「距离」相近的情况下表征因果关系的可能性较高。例如,如「昨日、地震が起きた。津波に襲われたとの報告が寄せられている(昨天,发生了地震。有海啸来袭的报告)。」那样,考虑分成「地震が起きた(发生地震)」这样的表现和「津波に襲われた(海啸来袭)」这样的表现这2句而出现的情况。在该情况下,在「地震が起きた」和「津波に襲われた」这2个短语所记述的事件间存在因果关系。另外,在这当中出现的名词的对、即「地震(地震)」与「津波(海啸)」间也存在因果关系。利用这样的性质,能对短语间以及单词间两者自动取得跨多句而记载的因果关系。
以下说明基于上述思路的本实施方式的系统的构成以及动作。以下说明的实施方式中,第1实施方式与使用上述的短语对的提取技术来自动收集短语间的逻辑关系的1个的矛盾表现的系统相关。第2实施方式与将上述的短语对的提取技术运用在短语间的逻辑关系的其它示例的因果关系的获得中的系统相关。第3以及第4实施方式与生成因果关系的假说的系统相关。
<第1实施方式>
[构成]
参考图1,本发明的第1实施方式所涉及的矛盾表现收集系统30包含:种模板存储装置32,其用于存储前述的谓语模板中的成为模板网络构建时的核心的模板(将其称作「种模板(seed template)」);连接词存储部34,其存储连结谓语模板间的顺接以及逆接的连接词;矛盾表现收集装置36,其用于从种模板存储装置32、连接词存储部34、以及互联网40上的语料库(corpus)大量收集由通过存储于连接词存储部34的连接词连结的2个短语构成的短语对,从这当中获得相互矛盾的表现(相反的表现);和矛盾表现存储装置38,其用于存储由矛盾表现收集装置36收集的矛盾表现。
矛盾表现收集装置36包含:模板DB构建装置60,其与种模板存储装置32、连接词存储部34以及互联网40连接,从互联网40上的虚拟语料库收集大量的短语对,从这当中取出大量的谓语模板来构建模板数据库(DB)62;和矛盾表现获得部64,其用于使用由模板DB构建装置60构建的模板DB62,从互联网40上的虚拟语料库获得矛盾表现。另外,对存储在种模板存储装置32中的模板,按照这些模板的活性/非活性来预先赋予正或负的活性值。在以下叙述的处理的最初,这些值分别为+1以及-1。
参考图2,模板DB构建装置60包含:模板对生成部90,其与种模板存储装置32和连接词存储部34连接,使用存储于种模板存储装置32的全部模板、和存储于连接词存储部34的全部连接词,来生成以连接词连结2个模板的全部组合;和模板对存储部92,其用于存储由模板对生成部90生成的模板对。由模板对生成部90生成的模板对的形态的示例如以下那样。
[表8]
表格8
情形 第1模板 连接词 第2模板
a. (第1名词)を引き起こす(引起) ので(顺接) (第2名词)を発生させる(发生)
b. (第1名词)を引き起こす(引起) から(顺接) (第2名词)を防ぐ(防止)
c. (第1名词)を発生させる(发生) が(逆接) (第2名词)を抑制する(抑制)
模板DB构建装置60还包含:名词对收集部94,其用于对存储于模板对存储部92的各个模板对从互联网40上收集与该模板对共现的名词 对;名词对存储部96,其用于存储由名词对收集部94收集的名词对;和名词对极性判定部98,其与名词对存储部96连接,用于基于与包含在存储于名词对存储部96的各个名词对内的名词共现的谓语模板的极性、以及存储于连接词存储部34中的连接词的类别来判定这些名词间的关系,进行对各名词对添加表示该关系的标记符的处理。
在此,名词对极性判定部98按照以下的表格9所示的方法来判定构成名词对的名词间的关系。
[表9]
表格9
表格8的情形 示例 关系
与a.匹配 (地震、津波)(地震、海啸)
与b.匹配 (唾液分泌、口渴)(唾液分泌、口渴)
与c.匹配 (アセトアルデヒド、肝障害)(乙醛、肝病)
即,与2个谓语模板共现的名词对的关系能如下那样判定。
(1)若2个谓语模板的极性相同,以顺接的连接词将它们连接,则与它们共现的名词对的关系为正。
(2)若2个谓语模板的极性相同,以逆接的连接词将它们连接,则与它们共现的名词对的关系为负。
(3)若2个谓语模板的极性相反,以顺接的连接词将它们连接,则与它们共现的名词对间为负。
(4)若2个谓语模板的极性相反,以逆接的连接词将它们连接,则与它们共现的名词对间为正。
模板DB构建装置60还包含:模板对收集部100,其与名词对存储部96连接,用于对由名词对极性判定部98添加了关系标记符的各个名词对从互联网40收集与它们共现的模板对;模板对存储部102,其用于将由模板对收集部100收集的模板对和与它们共现的名词对建立关系来存储;和模板活性匹配判定部104,其用于对存储于模板对存储部102的各个模板对,基于与该模板对共现的名词对的关系(正/负)、和连结模板的连接词是顺接还是逆接来判定构成该模板对的模板的活性/非活性是否相同(是否匹配),对各模板对赋予其结果作为标记符。
能通过在以下示例示出的方法来判定模板对的活性/非活性是否相同。另外,如表格9所示那样,名词对<地震、津波(地震、海啸)>的关系为正,名词对<唾液分泌、口渴(唾液分泌,口渴)>的关系为负,名词对<アセトアルデヒド、肝障害(乙醛,肝病)>的关系为正。
[表10]
表格10
即,能用以下的条件来判定模板对的活性/非活性是相同还是相反。
(1)与关系为正的名词对共现,由顺接的连接词连接的模板对的活性相同。
(2)与关系为正的名词对共现,由逆接的连接词连接的模板对的活性相反。
(3)与关系为负的名词对共现,由顺接的连接词连接的模板对的活性相反。
(4)与关系为负的名词对共现,由逆接的连接词连接的模板对的活性相同。
模板DB构建装置60还包含:模板网络构建部106,其用于基于存储于模板对存储部102的模板对和其匹配判定结果来在模板间构建网络;和 同义/含义关系辞典108,其为了在模板网络构建部106构建网络时追加模板间的链接而使用。将该网络在本说明书中称作「模板网络」。
参考图3,例如模板网络140包含各自与1个模板对应的多个节点、和定义在这些节点间的链接。链接拉在与进行由表格9示出的匹配判定的模板对应的节点间。对各链接,对应于针对其两端的节点的模板间的匹配判定的结果(表格9),来分配相同极性或相反极性这样的属性。在图3中,用实线表示分配了相同极性的链接,用点线表示分配了相反极性的链接。如后述那样,使用该链接来算出各模板的活性值。为了活性值的算出,通过人工作业预先对模板网络140的节点中的存储于种模板存储装置32的种模板(例如对图3的「を引き起こす(引起……)」、「を発生させる(使……发生)」、「を抑制する(抑制……)」等的节点)赋予+1或-1的值。使用这些值、和节点间的链接以及该链接的属性来计算各节点(模板)的活性值。对计算方法的具体的内容在后面叙述。
再度参考图2,模板DB构建装置60还包含:模板网络存储部110,其与模板网络构建部106连接,用于存储由模板网络构建部106构建的模板网络140;模板活性值算出部112,其对存储于模板网络存储部110的模板网络140的各节点,以预先赋予种模板的+1或-1的活性值为基础来算出各节点(模板)的活性值,赋予各节点(模板)这些活性值;高活性度模板提取部114,其用于仅提取存储于模板网络存储部110的模板网络140的各节点(模板)中的、由模板活性值算出部112算出的活性值的绝对值大的模板,通过所提取的模板来构建模板DB62;结束判定部116,其用于判定为了模板DB构建而预先决定的结束条件是否成立;和种模板更新部118,其用于响应于由结束判定部116判定为结束条件不成立,将存储于模板DB62的模板作为新的种模板来更新种模板存储装置32,再度使模板DB构建装置60执行模板DB构建的处理。在由结束判定部116判定为结束条件成立时,模板DB构建装置60的动作结束,矛盾表现获得部64起动。
如后述那样,矛盾表现收集装置36的各部通过计算机硬件、和由该计算机硬件执行的计算机程序来实现。
模板对生成部90通过单纯组合存储于种模板存储装置32的种模板的 全部组合、和存储于连接词存储部34的连接词,来生成模板对。模板对的典型例是「(名词1)を引き起こす」、「ので」、「(名词2)を発生させる」(由于引起名词1,发生名词2)这样的模板对。
名词对收集部94进行以下那样的处理。能考虑与上述的模板对+连接词的组合在一句中共现的名词对。这样的名词对如以下例示那样分为相互处于正的关系的名词对和相互处于负的关系的名词对。名词对的正/负由与该名词对共现的模板对的活性/非活性和连接词的组合决定。
[表11]
表格11
例句1:(地震)を引き起こす(活性)~ので(由于引起(地震))(津波)を発生させる(因此(海啸)发生)(活性)
例句2:(唾液分泌)を引き起こす(活性)~ので(由于引起(唾液))(口渴)を防ぐ(因此防止(口渴))(非活性)
例句3:(オゾン)を破壊する(非活性)~が(虽然破坏了(臭氧层))(紫外線)を遮断する(但阻断了(紫外线))(非活性)
例句4:(アセトアルデヒド)を発生させる(活性)~が(虽然使(胆固醇)产生)(肝障害)を抑制する(但抑制了(肝病))(非活性)
模板对收集部100进行以下那样的处理。考虑由上述名词对极性判定部98判定为仅作为正的关系出现在互联网40上的名词对。模板对收集部100仅留下它们当中的出现频度为给定次数以上的名词对,作为正的关系名词对。同样地,对仅作为负的关系出现在互联网40上的名词对,也仅留下出现次数为给定次数以上的名词对,作为负的关系名词对。作为在此的阈值的给定次数,在选择正的关系名词对时和选择负的关系名词对时既可以不同,也可以一致。
模板活性匹配判定部104,按照基于以下的表格12的判定方法,将与留下的正/负的关系的名词对+连接词在一句中共现的模板对分类为与模 板的活性/非活性相同的模板对(一致)和相反的模板对(相反)。此时,对于某模板对,有的在互联网40上模板的活性有时一致地出现,有时以相反的活性出现。对它们比较一致的和相反的出现次数,以多数为准来决定。
[表12]
表格12
正的关系的名词对 负的关系的名词对
顺接(例:~ので) 一致(例句1) 相反(例句2)
逆接(例:~が) 相反(例句3) 一致(例句4)
例句1:(地震)が止む(活性)~ので(由于(地震)停止)(津波)を抑制する(因此抑制了(海啸))(非活性)
例句2:(唾液分泌)を抑える(非活性)~ので(由于抑制了(唾液分泌))(口渴)が起きる(因此出现口渴)(活性)
例句3:(アセトアルデヒド)を発生させる(活性)~が(虽然使(胆固醇)产生)(肝障害)を抑制する(但抑制了(肝病))(非活性)
例句4:(オゾン)を維持する(活性)~が(虽然维持了(臭氧层)(紫外線)が降り注ぐ(但受到(紫外线)照射)(活性)
参考图4,在模板对存储部102中存储模板对,在由模板活性匹配判定部104对各模板对进行的活性匹配判定结束时,起动用于实现图2所示的模板网络构建部106的程序。该程序包含:步骤150,进行初始化,在存储器上确保给定的存储区域,或将初始值代入这些存储区域中的用于给定的变量的区域,或构建初始为空的模板网络140;和步骤152,对存储于模板对存储部102的全部模板对执行处理154。处理154进行对模板网络140追加构成该模板对的模板和其间的链接的处理。另外,在步骤150中,作为模板网络140,预先构建空的网络。
处理154包含:步骤180,对包含在处理对象的模板对中的各个模板判定所对应的节点是否处于模板网络140、即是否要将该节点追加到模板网络140;步骤182,在步骤180的判定为肯定时执行,进行将判定为要追加到模板网络140的节点(1个或2个)追加到模板网络140的处理;步骤184,在步骤180以及182之后执行,判定在与处理对象的模板对所 对应的节点间是否已经有链接;和步骤186,在步骤184的判定为否定时,进行将该链接追加到模板网络140的处理并结束处理154。在步骤184的判定为肯定时,结束对该模板对执行处理154。
实现模板网络构建部106的程序还包含:步骤164,在步骤152的处理完成后,通过参考同义/含义关系辞典108来对所构建的模板网络140追加链接;步骤166,在步骤164的结果得到的模板网络140中,删除与其它节点间的链接数为给定的阈值以下的节点;和步骤168,基于与各节点建立链接的节点的数量来算出各链接的权重(关于计算方法在后面叙述),并赋予各链接,然后结束处理。
参考图5,在图4的链接的追加处理的步骤164中执行的程序部分(例程)包含:步骤200,对模板网络140内的节点中的未相互具有链接的节点的对的全部执行以下的处理202。
处理202包含:步骤210,判定在处理对象的节点对间是否有特定的关系;和步骤212,在步骤210的判定为肯定时,在处理对象的节点对间追加具有「相同」这样的属性的链接,并结束处理202。在步骤210的判定为否定的情况下也结束处理202。在此所说的有无特定的关系的判定中,如以下所示那样,使用动词的语法的信息、以及存放在图2所示的同义/含义关系辞典108中的单词的同义/含义关系。
[表13]
表格13
关系 示例
“原型-被动型”关系 「を使う」-「が使われる」
“原型-使动型”关系 「を使う」-「を使わせる」
同义/含义关系 「を使用する」-「を使う」
在步骤168算出各链接的权重。将赋予模板i与模板j间的链接的权重设为wij。权重wij通过以下的式(1)算出。
[数2]
其中,d(i)表示与模板i建立链接的模板的数量。SAME(i,j)表 示对模板i与模板j间的链接赋予「一致」属性。OPPOSITE(i,j)表示对模板i与模板j间的链接赋予「相反」属性。即,若对模板i和模板j赋予一致属性,则权重成为正的值,若赋予相反属性,则权重的正负号逆转,成为负。
图2所示的模板活性值算出部112,用以下所述的方法对存储于模板网络存储部110的模板网络140的各节点算出各节点的活性值。参考图6,在模板网络存储部110存储模板网络140,响应于对各链接分别附加权重而开始执行实现模板活性值算出部112的计算机程序。该程序包含:步骤240,对模板网络140内的节点中的与种模板对应的节点,设定对这些种模板预先赋予的活性值(对活性种模板赋予+1,对非活性种模板赋予-1),对其它节点设定给定的初始值;和步骤242,在步骤240后,通过最优化(在此为极小化)由以下数式定义的值E(x,W)的值来估计各节点的活性值。
[数3]
E(x,W)=-1/2×∑ijwijxixj (2)
其中,xi以及xj分别表征模板i、j的带符号的活性值,x表征由这些活性值构成的矢量,W表征由链接的权重wij构成的矩阵。该值E刚好与量子力学中的电子的自旋的能量的计算式类似,能与量子力学中的能量的最小化的计算同样地进行。该数式的西格玛中的各项中的xixj的值,有在能量最小化计算后在xi以及xj的极性相同时成为正的值、不同时成为负的值的倾向。权重wij的正负号如已经叙述那样,在xi以及xj的极性相同时成为正的值,不同时成为负的值。因此,西格玛中的各项的值必定有成为正的值的倾向,通过将其最大化来进行一种解除约束。另外,在式(2)中,由于在西格玛前有系数「-1/2」,因此通过将西格玛之中最大化来使E(x,W)的值极小化。
另一方面,通过计算机程序来实现图1的矛盾表现获得部64。参考图7,用于实现矛盾表现获得部64的计算机程序包含:步骤280,生成短语群;步骤282,从在步骤280生成的短语群中选择由认为是相互矛盾的(具有相反的意义)表现的2个短语构成的矛盾短语对;和步骤284,使用给 定的得分对在步骤282选择的矛盾短语对进行排序并输出。
在此所说的矛盾对是指满足以下的条件的短语对。
(1)两短语均由1个名词和1个活性或非活性模板构成。例如如「(風邪)に罹る(罹患(伤风))」和「(風邪)を予防する(预防(伤风))」。
(2)包含在两短语中的2个名词都相互同义(或相同)。例如<風邪、感冒(伤风、感冒)>或<風邪、風邪(伤风、伤风)>这样的组合。
(3)包含在两短语中的2个模板的一方为活性,另一方为非活性。例如「に罹る(罹患……)」(活性)和「を予防する(预防……)」(非活性)这样的对。
(4)2个模板较多地共有在互联网上共现的(结成连系关系)名词。即,这2个模板的分布相似度较高。例如,作为与「に罹る」共现的名词考虑「風邪」、「感冒」、「肺炎(肺炎)」、…等,与此相对,作为与「を予防する」共现的名词考虑「風邪」、「感冒」、「肺炎」、「火事(火灾)」、「災害(灾害)」等,两者间的分布相似度较高。
(5)各短语在互联网上具有给定的阈值以上的出现频度。即,各短语的名词和模板以该阈值以上的频度结成连系关系。例如,需要「(風邪)に罹る」的出现频度≥阈值、以及「(風邪)を予防する」的出现频度≥阈值都成立。
用于执行以上的处理来提取矛盾对的处理,在图7的步骤280执行。参考图8,该程序部分280包含:步骤320,从互联网40取得名词;和步骤322,对取得的名词的全部执行以下的处理324。处理324包含:步骤360,对于成为处理对象的名词,对存储于模板DB62的全部模板执行以下的处理362。
处理362包含:步骤400,通过将处理对象的模板与处理对象的名词连结来生成某短语;步骤402判定该短语在互联网40上的出现频度是否为上述的阈值以上;和步骤404,在步骤402的判定为肯定时,将该短语追加到短语群,并结束处理362。在步骤402的判定为否定的情况下,不将该短语追加到短语群。
通过执行图8所示的程序,来生成众多活性短语以及非活性短语。例如作为活性模板有「を引き起こす」以及「に罹る」,作为非活性模板有 「を防ぐ」以及「を予防する」。作为从互联网40得到的名词的示例,设为有「地震」、「津波」、「風邪」、「感冒」等,作为出现频度的高的活性短语以及非活性短语将会生成以下那样的短语。将它们追加到短语群,成为对图7的步骤282的输入。
[表14]
表格14
活性短语的示例 非活性短语的示例
地震を引き起こす(引起地震) 津波を防ぐ(防止海啸)
津波を引き起こす(引起海啸) 感冒を防ぐ(防止感冒)
風邪に罹る(罹患伤风) 風邪を予防する(预防伤风)
实现图7的步骤282的程序部分具有图9所示那样的控制结构。参考图9,该程序部分包含:步骤440,清空预先作为存放矛盾短语对的区域而确保在存储装置内的区域;和步骤442,对在步骤280得到的短语群中的全部活性短语进行以下的处理444。
处理444包含:步骤470,对全部非活性短语执行以下的处理472。
处理472包含:步骤490,对处理对象的活性短语以及非活性短语判定包含在两者中的名词是否相同;步骤498,在步骤490的判定为否定时,从例如与图2所示的同义/含义关系辞典108同种的辞典检索与包含在活性短语中的名词同义的单词;和步骤500,判定在步骤498检索的单词的任一者是否与非活性短语的名词一致。在步骤500的判定为否定时,结束处理472的执行。
在步骤490的判定为肯定时以及步骤500的判定为肯定时,控制前进到步骤492。步骤492判定成为处理对象的活性短语和非活性短语的分布相似度是否大于阈值。若步骤492的判定为肯定,则控制前进到步骤494。在步骤494,判定各短语在互联网40上的出现频度是否为给定的阈值以上。若判定为肯定的,则将处理对象的活性短语和非活性短语的对追加到矛盾短语对群(步骤496),若为否定则舍弃该对。
实现在图7的步骤284执行的排序的程序部分,在本实施方式中具有图10所示那样的控制结构。参考图10,该程序包含:步骤530,对由图7的步骤282选择的全部矛盾短语对进行步骤532,该步骤532算出表示该 矛盾短语对的矛盾程度的得分;和步骤534,在步骤530的处理对全部矛盾短语对完成后,以得分的降序对全部矛盾短语对进行排位并输出,然后结束处理。
在步骤532计算的得分,在本实施方式中为用以下的数式算出的得分Ct(p1,p2)。
[数4]
Ct(p1,p2)=|s1|×|s2|×sim(t1,t2)
其中,p1以及p2分别表征构成矛盾对的短语,t1以及t2分别表示包含在p1以及p2中的模板,s1以及s2分别表示模板t1以及t2的活性值,记号|s1|表示活性值s1的绝对值,sim(t1,t2)表示模板t1和t2的分布相似度。
[动作]
该第1实施方式所涉及的矛盾表现收集系统30如以下那样进行动作。参考图1,在种模板存储装置32预先存放少量的种模板。预先判断各种模板是否为活性,对各模板附加其标记符。另一方面,在连接词存储部34中存放日语的顺接连接词以及逆接连接词。对这些连接词也预先赋予表示顺接还是逆接的信息。
模板DB构建装置60如以下那样动作来构建模板DB62。参考图2,模板对生成部90生成存储于种模板存储装置32的全部种模板的组合、与存储于连接词存储部34的连接词之间可能的全部组合,将它们作为全部模板对存储到模板对存储部92中。名词对收集部94对存储于模板对存储部92的模板对的各自,从互联网40收集与该模板对共现的名词对,并存储到存储部96中。名词对极性判定部98,根据与该名词对共现的模板对内的模板的活性/非活性、和连结模板对的连接词的种类,对这些名词对的各自判定该名词对是正的关系还是负的关系,对各名词对赋予标记符。
接下来,模板对收集部100对各名词对,从互联网40收集与该名词对共现的模板对,存放在模板对存储部102中。模板活性匹配判定部104根据共现的名词对的正/负、和连接词的种类(顺接、逆接),对这些模板对的各自决定构成模板对的模板的活性/非活性是彼此相同还是相反。此时,对于某模板对,在存在该模板对的模板的活性成为相同的模板对和成 为相反的模板对的情况下,比较成为相同的模板对和成为相反的模板对的出现次数,通过以多数为准来决定是一致还是相反。模板活性匹配判定部104,对存储于模板对存储部102的模板对的各自赋予表示它们的活性/非活性是相同还是相反的标记符。
模板网络构建部106,基于存储于模板对存储部102的模板对来构建模板网络140。若与构成模板对的2个模板对应的节点不在网络中,则网络模板网络构建部106将其追加到网络中,若其链接不在网络中,则模板网络构建部106将其追加到网络中。通过对全部模板对执行该处理,来构建模板网络140的原型。模板网络构建部106还对在网络内相互没有链接的节点的对的全部,参考同义/含义关系辞典108来判定在与这些节点对应的模板间是否有表格13所示那样的特定的关系,若有,则在相互间拉起「相同」这样的链接。进而,模板网络构建部106对如此构建的网络的各链接赋予通过式(1)算出的权重。将如此追加了链接的模板网络140存储到模板网络存储部110。
模板活性值算出部112执行图6所示的处理。即,最初对种模板根据其活性/非活性而赋予+1或-1的活性值(步骤240)。进而,通过执行将定义为与电子自旋的能量类似的量的值E(x,W)最小化的处理(步骤242)来估计各模板的活性值,对各模板赋予其该活性值。在这些活性值的值中既有负的值,也有正的值。高活性度模板提取部114选择如此估计了活性值的模板中的活性值的绝对值大于给定的阈值的模板,使用这些模板来构建模板DB62。另外,在此,也可以不根据阈值进行选择,而按照活性值的值的大小来排顺位。
图2所示的结束判定部116,在构建模板DB62的时间点判定是否满足给定的结束条件。作为结束条件,例如能设想反复数超过给定数,或者模板数超过给定数这样的条件。若结束条件成立,则模板DB62完成。若结束条件不成立,则种模板更新部118以包含于模板DB62的模板为种模板来更新种模板存储装置32。由于对这些种模板赋予通过以上的处理计算的活性值,因此在以后的处理中使用这些活性值来执行与到此为止记载同样的处理。
反复以上的处理,在满足结束条件时完成模板DB62。之后,矛盾表 现获得部64使用该模板DB62来执行从互联网40获得矛盾表现的处理。
具体地,矛盾表现获得部64如图7所示那样进行短语群的生成。即,如图8所示那样,从互联网40取得名词(步骤320),对各名词和模板DB62内的各模板的组合的全部(步骤322,处理324,步骤360),生成由该名词和该模板构成的短语(步骤400)。若该短语在互联网40上的出现频度为预先确定的值以上,则将该短语追加到在以下的处理中使用的短语群,否则舍弃该短语。通过对全部名词和全部模板的组合执行以上的处理,能得到在互联网40上以某频度出现的短语。
接下来,矛盾表现获得部64如以下那样从如此生成的短语群中选择矛盾短语对。即,最初清空矛盾短语对的存放区域(图9的步骤440),对包含在短语群中的全部活性短语和全部非活性短语的全部组合(步骤442,处理444,步骤470),调查包含在两者中的名词是否为相同或同义(步骤490、498、500)。在两者的名词相同或同义的情况下,进一步调查包含在该短语对中的模板的对的分布相似度是否大于阈值。若判定为否定,则舍弃该短语对。若判定为肯定,则接下来在步骤494调查该短语对在互联网40上的出现频度是否都为阈值以上。若判定为否定,则舍弃该短语对。若判定为肯定则将该短语对追加到矛盾短语对群(步骤496)。
矛盾表现获得部64,对由全部活性短语和非活性短语的组合构成的短语对反复进行以上的处理。其结果,能自动得到大量的矛盾短语对群。
进而,对如此得到的全部矛盾短语对,如图10的步骤532所示那样算出矛盾程度的得分。使用该得分,以得分的降序对矛盾短语对进行排位,并输出。
通过以上的处理,能自动得到大量的矛盾短语对。人工只要设定最初的种模板、判定它们的活性来设定活性值的程度即足够。这以外的资源都能是使用已有的资源。进而,通过最终以得分的降序对矛盾短语对进行排位,能从作为矛盾表现可靠性高的矛盾短语起依次选择矛盾表现。
<第2实施方式>
能由上述的第1实施方式的矛盾表现收集系统30中的模板DB构建装置60来得到模板DB62。该模板DB62不仅能在第1实施方式那样的矛盾表现的获得中使用,还能在各种处理中使用。第2实施方式是在因果关 系的取得中使用模板DB62的示例。该第2实施方式取代图1的矛盾表现获得部64,能通过采用用于从互联网40获得因果关系表现的处理部而实现。这样的处理部能以计算机程序来实现。
参考图11,因果关系的获得处理能如以下那样进行。首先,在步骤570,从互联网40收集以在一句中相互用顺接连接词连接的形态在互联网40上的虚拟语料库内中共现的短语对、和由该短语对中的名词构成的名词对。
接下来,对这样得到的全部短语对执行以下的处理574(步骤572)。即,在处理574中,判定处理对象的短语对内的名词对的关系是否为正的关系。在判定为肯定的情况下,进一步判定模板对的活性/非活性是相同还是相反(步骤592)。若骤592的判定为否定,则舍弃该名词的对。若步骤592的判定为肯定的,则将该短语对追加到因果关系对群(步骤594)。
另一方面,若步骤590的判定为否定,则在步骤596判定模板对的活性/非活性是否相互相反。若判定为否定,则舍弃该短语对。若判定为肯定,则将该短语对追加到因果关系对群。
在对全部短语对结束了以上的处理时,对作为结果而得到的因果关系对群内的全部因果关系短语对执行步骤578的处理(步骤576)。在步骤578中对各因果关系短语对进行的处理,是通过下面的数式来算出因果关系强度的得分Cs(p1,p2)的处理。
[数5]
Cs(p1,p2)=|s1|×|s2|×npfreq(n1,n2) (4)
其中p1,p2分别表征构成因果关系对的短语,s1以及s2分别表征构成短语p1,p2的模板的活性值,记号|s1|表征活性值s1的绝对值,n1,n2分别表征包含在短语p1,p2中的名词,npfreq(n1,n2)若n1、n2为正的关系则表征n1、n2和活性/非活性相同的模板对在一句中共现的频度,若n1、n2为负的关系则表征n1、n2和活性/非活性不同的模板对在一句中共现的频度。
在如此对全部因果关系短语对算出因果关系强度的得分后,在步骤580以得分的降序对因果关系短语对进行排位、并输出。
通过执行这样的处理,能大量且自动从互联网40收集表征因果关系的短语的对。
另外,因果关系取得的方法并不限定于此。例如,也可以获得全部满足下面的条件的短语对作为因果关系对。
(1)两短语都由1个名词和1个活性/非活性短语构成。例如「(地震)を起こす」和「(津波)が発生する」这样的短语对。
(2)两短语都以用顺接连接词例如「~て」连结的形态在一句中共现。例如「断層が地震を起こして、津波が発生した(断层引起地震,从而发生海啸)。」这样的对。
具体地,从互联网40取得与顺接连接词一起在一句中共现的模板对、和在该一句中共现的名词对。认为它们是因果关系对的原型。
对如此得到的因果关系短语对通过例如以下的式(5)来算出因果关系强度得分。然后将全部因果关系短语对按因果关系强度得分的降序排位,并输出。
[数6]
Cs(p1,p2)=|s1|×|s2 (5)
在上述的第2实施方式中的得分算出中,也可以不使用式(4),而使用该式(5)。
<第3实施方式>
在第2实施方式中,对存在于互联网40上的记载提取认为记载了因果关系的因果关系。但是,现实中看作因果关系有无数的存在。在第2实施方式的方法中,在这当中仅提取实际在互联网40上作为句子记载的关系、即通过人的表现活动而给出根据的关系。并且,即使是1个因果关系,也能用多种多样的语言来表现。例如,限定于日语,存在于某因果关系「米国産牛肉を入手する→牛丼を作る(获得美国产牛肉→制作牛肉盖饭)」的周边的因果关系能如以下面为例所示出那样,以多样的形态来表现。
[表15]
表格15
如此,虽未在互联网40上直接表现,但若能根据手边的表现来生成被认为实际存在的因果关系的表现,则会便利。例如,能期待使对以多样的表现语言表征的无数的因果关系的覆盖率提升,能提高使用自然语言的各种语言处理以及推论等的精度。
若有第1实施方式中所述的模板DB62,则虽然不能确认实际存在于互联网40上,但能生成作为因果关系被认为妥当的短语对作为因果关系的假说。以下说明实现这样的功能的实施方式。
参考图12(A),记述了因果关系的数据库(因果关系DB632),将推论系统630设定为使用该因果关系DB632输出能从输入推论的假说。在该因果关系DB632中有「米国産牛肉を入手する→牛丼を作る」这样的因果关系634,关于「米国産牛肉(美国产牛肉)」,设仅该因果关系包含在因果关系DB632中。
在这样的状況下,假使从报纸得到有「米国産牛肉、輸入禁止に(美国产牛肉,禁止进口)」这样的报道636的信息,其结果会产生怎样的影响,将这样的问题交给推论系统630。推论系统630能利用的因果关系仅为因果关系634。在推论系统630中并没有记述与「米国産牛肉(美国产牛肉)」和「輸入禁止(禁止进口)」相关的因果关系。其结果,不会得到推论系统630的输出638。
另一方面,参考图12(B),考虑与「米国牛肉(美国牛肉)」相关的另外的因果关系DB672。因果关系DB672不仅包含因果关系634,还包含上面的表格15所示的其它因果关系群674。然后,推论系统670使用该因果关系DB672来推论针对问题的回答。于是,在收到与图12(A)的情况相同的问题时,推论系统670基于因果关系DB672中的因果关系「米国産牛肉の輸入が禁止される→牛丼が食べられない(禁止美国产牛肉的进口→吃不到牛肉盖饭)」,能得到「牛丼が食べられなくなりますよ(会吃不到牛肉盖饭)」这样的输出676。很明显,这样的系统与图12(A) 所示的推论系统630相比要有用的多。
问题在于,在从互联网40仅得到因果关系634时,如何才能得到因果关系群674等。在此,使用第1实施方式中说明的模板DB62是有用的。
系统使用模板DB62,根据在互联网40上找出的因果关系输出在互联网40上并非直接存在的因果关系的假说,这样的系统能通过计算机硬件、由该计算机硬件执行的程序实现。该系统与图1所示的模板DB62一起使用。
参考图13,本实施方式所涉及的用于实现这样的功能的程序包含步骤710,取得处于因果关系的名词的对(因果关系名词对)、一方为另一方的材料的名词的对(材料关系名词对)、一方为抑制另一方的关系的名词对(抑制关系名词对)。这些名词对都能使用已有的技术从与给定的句型匹配的表现取得。例如,在因果关系名词对的情况下,选择与「AがBを引き起こす」这样的句型匹配的表现,取得该名词A以及B作为因果关系名词对。在材料关系名词对的情况下,从与「AでBを作る(用A制作B)」这样的句型匹配的表现取得名词A以及B。在抑制关系句型的情况下,从与「AがBを防ぐ」这样的句型匹配的表现取得名词A以及B。在以下的表格16示出这些示例。另外,为了生成因果关系的假说而在该步骤710取得的名词对并不限定于上述的3种关系的名词对,还考虑其它各种关系。
[表16]
表格16
名词对的种类 示例 备注
因果关系名词对 (地震、津波)(地震、海啸) 该名词对视作正的关系
材料关系名词对 (牛肉、牛丼)(牛肉、牛肉盖饭) 该名词对视作正的关系
抑制关系名词对 (抗癌剤、ガン)(抗癌药、癌症) 该名词对视作负的关系
该程序还包含步骤712,对在步骤710取得的全部名词对执行以下的程序部分714。
程序部分714包含:步骤740,对处理对象的名词对内的各个名词,辨识频繁与该名词结成连系关系的模板;步骤742,判定名词对是否相互处于正的关系来使控制的流程分支;步骤744,在步骤742的判定为肯定 时执行,选择组合由步骤740辨识的模板的对中的与顺接连接词一起频繁在互联网40上共现且相互的活性/非活性为相同的对;和步骤746,在步骤742的判定为否定时执行,选择组合由步骤740辨识的模板的对中的与顺接连接词一起频繁共现且相互的活性/非活性为相反的对。在步骤744以及步骤746中说到「频繁に(频繁地)」时,在本实施方式中是指在互联网40上的出现频度大于预先确定的值的情况。
程序部分714还包含:步骤748,紧接步骤744以及746执行,对在步骤744或步骤746中选择的全部模板对执行以下说明的程序部分750。
程序部分750包含:步骤770,通过对处理对象的名词对添加处理对象的模板对来生成因果关系假说;和步骤772,其将在步骤770生成的因果关系假说追加到因果关系假说群,并结束处理。
通过用与互联网40连接的计算机执行具有该图13所示的控制结构的程序,能大量得到不存在于互联网40上且表征了某种因果关系的表现(名词+模板的对)的因果关系假说。
例如能得到以下那样的状況。例如设为以材料关系名词对<牛肉、牛丼>(视作处于正的关系)以及抑制关系名词对<抗癌剤、癌>(视作处于负的关系)、和下面的表格17所示的活性/非活性模板为前提给出的状况。
[表17]
表格17
活性模板 非活性模板
を輸入する(进口……) を治療する(治疗……)
を使用する(使用……) を抑える(抑制……)
を販売する(贩卖……)
通过步骤740的处理来辨识以下那样的模板。
[表18]
表格18
模板
牛肉を輸入する(进口牛肉)
牛肉を使用する(使用牛肉)
牛肉を販売する(贩卖牛肉)
牛丼を販売する(贩卖牛肉盖饭)
抗癌剤を輸入する(进口抗癌药)
抗癌剤を使用する(使用抗癌药)
抗癌剤を販売する(贩卖抗癌药)
癌を治療する(治疗癌症)
进一步地,对这些模板进行步骤742~746的处理来选择模板对,对各模板对执行程序部分750,由此得到如下那样的因果关系假说。
[表19]
表格19
原因 结果
牛肉を輸入する(进口牛肉) 牛丼を販売する(贩卖牛肉盖饭)
牛肉を使用する(使用牛肉) 牛丼を販売する(贩卖牛肉盖饭)
抗癌剤を輸入する(进口抗癌药) 癌を治療する(治疗癌症)
抗癌剤を使用する(使用抗癌药) 癌を治療する(治疗癌症)
如以上那样,根据本实施方式所涉及的系统,能使用模板DB62,基于从互联网40收集的名词对来生成不存在于互联网40上的众多的因果关系假说。其结果,不仅能获得从互联网40上得到的因果关系,还能获得更多的因果关系假说。因此,作为成为推论系统的基础的因果关系,能覆盖广泛的范围,推论系统能对宽范围的问题找出回答。
<第4实施方式>
作为因果关系假说的生成手法,除了第3实施方式所涉及的手法以外,还考虑其它各种手法。该第4实施方式所涉及的手法根据从互联网40直接获得的因果关系对(处于因果关系的短语的对)、或通过第3实施方式所涉及的手法获得的因果关系假说(因果关系对的一种)、和第1实施方式中求得的矛盾表现(由相互矛盾的短语构成的对),来生成因果关系假说。具体如以下那样。另外,作为以下的处理的前提,对短语「牛肉を輸入する(进口牛肉)」预先得到短语「牛肉が輸入禁止になる(牛肉被禁止进口)」这样的矛盾表现,对短语「牛丼を食べる(吃牛肉盖饭)」预 先得到「牛丼が食べられない(吃不到牛肉盖饭)」这样的矛盾表现。
(1)选择因果关系。例如选择「牛肉を輸入する→牛丼を食べる(进口牛肉→吃牛肉盖饭)」。
(2)对构成因果关系的2个短语各自,将该短语置换为与该短语矛盾する(相反的意义的)短语。例如用「牛肉が輸入禁止になる」来置换「牛肉を輸入する」,用「牛丼が食べられない」来置换「牛丼を食べる」。
(3)得到新的因果关系假说「牛肉が輸入禁止になる→牛丼が食べられない」(牛肉被禁止进口→吃不到牛肉盖饭)。
该处理的结果,通过用分别用矛盾的短语置换获得完毕的因果关系或因果关系假说的各短语,能自动得到新的因果关系假说。参考图14,该用于通过计算机硬件来实现本实施方式的程序包含:步骤810,以已经得到因果关系对这一情况为前提,对各因果关系对执行以下的程序部分812。
程序部分812包含:步骤840,对处理对象的因果关系对中的针对左侧短语(表征原因的短语)的矛盾短语的全部,执行以下的程序部分842。
程序部分842包含:步骤870,将处理中的因果关系对的左侧短语和与该短语矛盾的短语(步骤840中选择为处理对象的矛盾短语)置换;和步骤872,对与处理中的因果关系对的右侧短语矛盾的短语的全部执行以下的程序部分874。
程序部分874包含:步骤910,将处理中的因果关系对的右侧短语置换为与该短语矛盾的短语;和步骤912,将通过步骤910的处理的完成而新得到的短语对作为新的因果关系假说追加到因果关系假说群,并结束程序部分874。
根据具有以上的控制结构的程序,对成为处理对象的全部因果关系对,分别将它们的左侧短语置换为与该左侧短语矛盾的短语,将右侧短语置换为与该右侧短语矛盾的短语,由此能得到新的因果关系假说。在左侧短语、右侧短语分别具有多个矛盾对的情况下,生成的因果关系假说的数量以相乘的方式增加。并且在该处理中不需要人工。因此,能自动生成覆盖非常宽的范围的因果关系假说。
<其它应用>
《同义/含义表现的精度的提升》
上述实施方式最终都得到某种形态的短语对。但是,通过本发明得到的模板对并非仅能利用在这样的实施方式中。还能考虑其它各种利用。
其第1例是为了同义/含义表现的获得时的精度的提升而使用模板对的示例。一般来说,同义/含义表现以两者的出现上下文的类似性(分布相似度)为线索从文本中获得。例如考虑以下那样的示例。
[表20]
表格20
在该示例中的同义关系中,考虑「を輸入する(进口……)」的出现上下文为「名词1」,「をインポ一トする(进口……)」的出现上下文为「名词2」。于是,名词1和名词2为一致或同义的单词的情况较多。这是因为这2个短语的意义类似(同义)。同样地,考虑「が輸入禁止になる(……被禁止进口)」的出现上下文为「名词3」,「が入手困难になる(难以获得……)」的出现上下文为「名词4」。于是,名词3所形成的集合成为名词4所形成的集合的部分集合的倾向较强。因此,不管在同义关系的情况下,还是含义关系的情况下,两者的模板的出现上下文都类似,分布相似度都变高。同义/含义关系使用这样的关系来获得。
然而,分布相似度不仅有2个模板为同义/含义关系的情况,还有较多情况是相互矛盾的(相反的)关系。例如,「(名词1)を輸入する(进口(名词1))」和「(名词2)が輸入禁止になる((名词2)被禁止进口)」就处于矛盾的关系。但是,在名词1和名词2放入相同的名词的情况较多,作为结果,分布相似度变高。因此有如下问题:在同义/含义表现中,将本来矛盾的意义的模板彼此作为同义或含义表现而选择。
通过使用模板DB62,能解决这样的问题。即,对用现有的方法提取的成为同义/含义表现的候补的语言表现对,调查两者的模板的活性/非活性是否一致。若两者的活性/非活性一致,则认为这些模板处于同义或含义 关系,另一方面,若两者的活性/非活性不一致,则能判定为这些模板彼此处于矛盾关系。
但是,该判定不能运用在名词那样不符合活性/非活性这样的属性的语言表现中。
《跨句子边界的因果关系名词对的获得》
现有的获得因果关系名词对的手法的大部分都是提取以某句型在一句内共现的名词的对。但是,在这样的手法中仅能获得记述在一句中的因果关系对。另一方面,现实中,除了在一句中共现的表现以外,还会有因果关系的表现。特别在文本中存在于相互接近的位置的表现的对当中,表征因果关系的情况较多。例如有「東北で地震が起きた。その后、大勢の人が津波に襲われた(在东北发生了地震。之后大量的人被海啸袭击)」这样的表现。
对如此跨句子出现的因果关系名词对,能使用模板DB62如以下那样获得。
首先,以任意的手法准备因果关系或因果关系假说(都是短语的对+顺接连接词的形态)。可以使用实施方式2或3所记载的手法。提取在它们中频出的模板对。例如能得到「が起きる→に襲われる(发生……→被……袭击)」、「を引き起こす→が発症する(引起……→引发……)」等的模板对。
接下来,对通过上面的手续得到的各个模板对检测在互联网40上在接近的不同的2句中共现的模板。对检测出模板对提取与这些模板共现的名词对。如此得到的名词对由于原本就与构成因果关系的模板对共现,因此处于因果关系的名词对可能性较高。并且,这些名词对、和与该名词对共现的模板对并未在一句内共现。因此,与用已有的手法得到的因果关系名词对相比,能获得更宽范围的因果关系名词对。
<实施方式的作用、效果>
如以上那样,根据本发明的实施方式,能得到以下那样的效果。
不管写在文本中还是未写在文本中,都能得到大量具有因果关系的短语的对以及名词的对。特别其中的一部分能逻辑上包含未写在文本中的新的假说。即,能从存在于互联网40上的虚拟的语料库等中的大量的文本 生成与未记载在互联网40上的新的知识相关的假说。
进而,根据以上的实施方式,能正确认识文本中的短语间的意思上的矛盾。其结果,不仅能提升矛盾的认识的精度,还能提升同义/含义关系的认识的精度。
通过这些效果,不仅能检索文本,还能基于文本的内容进行推论,或者将相互矛盾的信息或这样的信息间的因果关系提供给用户。其结果,能提供用于验证信息的可靠性的手段、以及用于事前预测将来会产生的事态的手段。
认为是最接近于实用的是,针对对以任意的语言所写的问题聪明、直截了当地给出准确的回答的问题回答系统等的本发明的运用。本发明通过与声音认识技术组合,则在对计算机提交什么问题来得到其回答的系统或呼叫中心等维持着积蓄过去的事例的数据库的系统中的利用中,适合性特别高。
例如,通过以上叙述那样的实施方式的系统,能整备覆盖非常宽的范围的因果关系的数据库。若是这样的数据库,则能对现有的问题回答技术所不擅长的与因果关系相关的问题、即「WHY型的问题」做出适当的回答。例如,对「为什么超硬工具的价格上升?」这样的问题给出「因为中国禁止钨的出口」这样的回答,这在现有技术中是困难的。但若使用通过以上所述的实施方式得到的因果关系数据库,则能容易地取得这样的回答。
进而,通过以上所述的假说生成技术,还能提示不存在于互联网40上的信息作为假说。例如,在到目前为止的问题回答系统中,回答未知的事件的归结或原因,这是不可能的。但是,上面叙述的实施方式能实现这样的技术。例如,若使用上面叙述的实施方式的技术,在「超硬工具」的价钱实际上升以前提出「若超硬工具的价格上升,原因会是什么)」这样问题时,就能将「若中国禁止钨的出口,则超硬工具的价格有上升的可能性」这样的假说作为回答来进行回应。若能如此,则问题者还能采取对冲风险的方针。对「若国禁止钨的出口,其原因是什么?」、「若超硬工具的价格上升,则股价下跌的企业在哪里」这样的假想且未记载于已有文本的状況相关的问题,能不介由人工地由系统自动生成适当的回答。进而, 还能在接受问题前,先行发现这样的条件和其归结并予以提示。即,系统能列举虚拟的将来脚本。其结果,设想为不仅在商业中,还包在含政治、经济、科学技术等中,成为意思决定时的强力的工具。若实现这样的系统,则认为作为信息服务技术能达到前所未有的高度,在商业上的价值也较高。
作为其它的示例,能考虑关于某商品从顾客向呼叫中心发出和与过去的事例矛盾的故障相关的抱怨的情形。通常,在呼叫中心中,通过关键词从数据库检索信息来得到适当的回答。但是,在与过去的事例矛盾的故障的情况下,就算检索信息也得不到适当的回答。因此,现有的手法在应对这样的故障上无力。但是,若运用基于上述实施方式的矛盾的自动认识这样的技术,能由系统认识至少新的抱怨是与过去的事例矛盾的事例,并将该意思提示给操作人员。根据该结果,例如与没有任何信息的情况比较,操作人员能更加准确地对应。例如,能根据新的抱怨与过去的事例矛盾来向顾客提示顾客误认识故障,或该故障是未知的故障的可能性等。其结果,与过去相比,能进行更顺畅的问题解决。
另外,根据上述实施方式,能不利用「ため」、「ので」这样的成为线索的表现来进行因果关系的自动认识。还能自动取得相当于辞典的信息。因此能急剧扩展其运用范围。
进而,在上述实施方式中,将动词分类为活性/非活性/中立这3种。过去并没有考虑过这样的分类方式。这当中,关于非活性的谓语并未提出对应的分类。在矛盾或因果关系的认识中,谓语(模板)的活性/非活性的组合是重要的因素,凑齐两者就会变得有用。因此,不具有这样的活性/非活性的分类、进而活性/非活性/中立的分类的现有技术,不能在因果关系的自动认识、矛盾的认识中给出上述实施方式那样的效果。
在上述实施方式中,像现有技术所处置的「コレステロ一ル」(胆固醇))、「脳梗塞」(脑梗塞)间的因果关系那样,不仅能取得单词间的因果关系。例如,还能生成「コレステロ一ルを摂取する(摄取胆固醇)」是「脳梗塞に襲われる(遭脑梗塞侵袭)」的原因这样的短语单位的假说。关于单词间的意义的关系,根据上述实施方式,能取得现有方法中不能取得的东西。其结果,上述实施方式与现有技术相比,可以说是使得与单词 间的意义的关系相关的假说生成的技术更加强大。
进而,在同义/含义关系的认识中,在上述实施方式中,事前将「引き起こす」、「防ぐ」等的动词分类为不同的标签(活性/非活性)。然后,施以约束,将分为为不同的标签的动词认识为同义。通过施以这样的约束,能防止虽然是反义词但由于分布相似度高而认识为同义/含义的情况。因此,上述实施方式能提高同义/含义关系的认识的精度。
[基于计算机的实现]
上述实施方式所涉及的系统能通过计算机硬件、和在该计算机硬件上执行的计算机程序实现。图15表示该计算机系统930的外观,图16表示计算机系统930的内部构成。
参考图15,该计算机系统930包含:具有存储器端口952以及DVD(DigitalVersatile Disc,数字多功能盘)驱动器950的计算机940、键盘946、鼠标948、和监视器942。
参考图16,计算机940除了存储器端口952以及DVD驱动器950以外,还包含:CPU(中央处理装置)956;与CPU956、存储器端口952以及DVD驱动器950连接的总线966;存储启动程序等的读出专用存储器(ROM)95;和与总线966连接、存储程序命令、系统程序、以及作业数据等的随机存取存储器(RAM)960。计算机系统930还包含提供向能与其它端末通信的网络的连接的网络接口(I/F)944。
用于使计算机系统930作为上述的各实施方式的系统的各功能部发挥功能的计算机程序存储在装备于DVD驱动器950或存储器端口952的DVD962或可移动存储器964,进而被传输到硬盘954。或者,程序也可以通过未图示的网络发送给计算机940,存储到硬盘954。程序在执行时被载入到RAM960。也可以从DVD962、从可移动存储器964、或介由网络直接将程序载入到RAM960。
该程序包含用于使计算机940作为上述实施方式所涉及的系统的各功能部发挥功能的多个命令。通过在计算机940上动作的操作系统(OS)或第三方的程序、或安装在计算机940的各种编程工具包的模块,来提供用于使该动作进行所需要的基本的功能的其中几个。因此,该程序并不一定非要包含实现该实施方式的系统以及方法所需要的全部功能。该程序仅包 含命令中的通过以为了得到所期望的结果来进行控制的方式调用适当的功能或编程工具包内的适当的程序工具来实现作为上述的系统的功能的命令即可。计算机系统930的动作为公知。因此在此不再反复。
本次公开的实施方式仅为例示,本发明并不仅限制在上述的实施方式。本发明的范围在参酌发明的详细的说明的记载的基础上通过专利权利要求书的范围的各权利要求来表示,包含与记载于其中的文字等同的意义以及范围内的全部变更。
产业上的利用可能性
本发明能在利用了自然语言处理的方法以及装置中使用,特别能在进行能效率良好、自动且精度高地认识构成短语的谓语模板以及处于特定的关系的短语对的谓语模板收集装置等的制造、利用以及租赁等的产业中利用。
标号的说明
30 矛盾表现收集系统
32 种模板存储装置
34 连接词存储部
36 矛盾表现收集装置
38 矛盾表现存储装置
40 互联网
60 模板DB构建装置
62 模板DB
64 矛盾表现获得部
90 模板对生成部
92 模板对存储部
94 名词对收集部
96 名词对存储部
98 名词对极性判定部
100 模板对收集部
102 模板对存储部
104 模板活性匹配判定部
106 模板网络构建部
108 同义/含义关系辞典
110 模板网络存储部
112 模板活性值算出部
114 高活性度模板提取部
116 结束判定部
118 种模板更新部
140 模板网络
630、670 推论系统
632、672 因果关系DB
634 因果关系
674 因果关系群

Claims (11)

1.一种谓语模板收集装置,用于从给定的句子的集合收集谓语模板,其中,
谓语模板与名词连结来构成短语,
并且能按照活性、非活性、以及中立这样的分类来对谓语模板赋予表征活性的方向以及其大小的活性值,
所谓活性,表示的是记述了使与该谓语模板连结的名词所指的对象的功能或效果发挥的方向的事件,
所谓非活性,表示的是记述了不使与该谓语模板连结的名词所指的对象的功能或效果发挥的方向的事件,
所谓中立,表示的是既不是活性也不是非活性的谓语模板,
将与谓语模板相关的活性以及非活性的区别称作极性,
所述谓语模板收集装置包含:
连接词存储部,其存储分类为顺接或逆接的连接词;和
种模板存储部,其存储成为用于构建模板网络的起点的种模板,
对各个所述种模板赋予极性和活性值,
所述谓语模板收集装置还包含:
名词对收集单元,其从给定的语料库收集满足特定关系的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负,
构成名词对的名词彼此的关系的极性,在该名词对的一方所表示的对象促进另一方所表示的对象的出现时定义为正,在该名词对的一方所表示的对象抑制另一方所表示的对象的出现时定义为负,
所述谓语模板收集装置还包含:
谓语模板对收集单元,其从给定的语料库收集分别与由所述名词对收集单元收集的名词对共现的谓语模板对,对所收集到的各谓语模板对,基于与该谓语模板对共现的名词对的关系的极性、和连结该谓语模板对的连接词,来判定该谓语模板对的活性/非活性是相同还是相反;
构建单元,其使用由所述谓语模板对收集单元收集到的谓语模板对、和对各谓语模板对的活性/非活性是否相同的判定结果,来将谓语模板间建立关系,由此以各谓语模板为节点,构建将构成谓语模板对的谓语模板间的关系作为链接的模板网络;和
活性值算出单元,其以向与所述模板网络内的种模板对应的节点预先赋予的所述活性值为基础,使用所述模板网络内的节点间的关系,算出应赋予各节点的活性值,对与各节点对应的谓语模板赋予算出的活性值后输出。
2.根据权利要求1所述的谓语模板收集装置,其中,
所述名词对收集单元包含如下单元:使用存储于所述连接词存储部的连接词、和存储于所述种模板存储部的种模板来从给定的语料库收集与谓语模板对共现的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负。
3.根据权利要求2所述的谓语模板收集装置,其中,
用于进行所述分类的单元包含如下单元:使用存储于所述连接词存储部的连接词、和存储于所述种模板存储部的种模板,来从所述语料库收集与谓语模板对共现、且在所述语料库出现给定的频度以上的名词对,将构成各名词对的名词彼此的关系的极性分类为正或负。
4.根据权利要求2所述的谓语模板收集装置,其中,
用于进行所述分类的单元包含:
使用存储于所述连接词存储部的连接词、和存储于所述种模板存储部的种模板,来从所述语料库收集与谓语模板对共现的名词对的单元;和
极性决定单元,其对由用于进行所述收集的单元收集到的名词对的各个组合,基于与各名词对共现的谓语模板对的极性、和连结由该名词对以及谓语模板构成的短语对的连接词的种类,来决定构成该名词对的组合的名词间的关系的极性。
5.根据权利要求4所述的谓语模板收集装置,其中,
用于进行所述收集的单元包含如下单元:使用存储于所述连接词存储部的连接词、和存储于所述种模板存储部的种模板,来从所述语料库收集与谓语模板对在所述语料库内以给定的频度以上的频度共现的名词对。
6.根据权利要求4所述的谓语模板收集装置,其中,
所述极性决定单元包含:对由用于进行所述收集的单元收集到的各个名词对,基于与该名词对共现的谓语模板的谓语模板对的极性、和连结由该名词对以及谓语模板构成的短语对的连接词的种类,来决定构成各个该名词对的名词间的关系的极性的单元;和
按每个所述名词对的种类,来合计由用于进行所述决定的单元对各个所述名词对决定的极性,通过基于多数来对每个名词对的种类决定极性。
7.根据权利要求1或2所述的谓语模板收集装置,其中,
所述谓语模板收集装置还包含:
判定单元,其响应于所述活性值算出单元进行的谓语模板的输出的完成,来判定算出谓语模板的活性值的处理的结束条件是否成立;
更新单元,其响应于由所述判定单元判定为所述结束条件不成立,选择由所述活性值算出单元算出的谓语模板中、由活性值的绝对值为阈值以上的谓语模板构成的新的种模板,用由该新选择的种模板更新所述种模板存储部的存储内容;和
响应于由所述更新单元进行的更新来使所述谓语模板对收集单元、所述名词对收集单元、所述构建单元、以及所述活性值算出单元所进行的处理再执行的单元。
8.根据权利要求7所述的谓语模板收集装置,其中,
所述构建单元包含:
在与构成由所述谓语模板对收集单元收集到的谓语模板对的谓语模板对应的节点不存在于所述模板网络内时,追加与该谓语模板对应的节点的单元;和
在构成由所述谓语模板对收集单元收集到的谓语模板对的谓语模板间生成链接的链接单元,
所述链接单元按照由各链接连接的谓语模板的活性是否相同,来对各链接赋予表示活性的一致或不一致的属性,
所述构建单元还包含:
权重赋予单元,其对由所述链接单元生成的各链接赋予与其它节点的链接的数量的函数即权重,
由所述权重赋予单元赋予的权重,在该链接的所述属性为表示所述一致的值时和表示所述不一致的值时,符号不同。
9.根据权利要求8所述的谓语模板收集装置,其中,
所述活性值算出单元包含:通过对所述模板网络内的各链接的权重、与分配给各节点的活性值的函数、即由以下数式定义的函数的值进行最优化,来估计分配给所述模板网络内的各节点的活性值的单元,
[数1]
E(x,W)=-1/2×∑ijwijxixj
其中,xi、xj分别是第i个以及第j个节点的活性值,
x是以所述模板网络内的各节点的活性值为要素的矢量
W是以链接的权重wij为要素的矩阵,
其中,对所述种模板中、极性为活性的种模板赋予正的极性以及活性值,对非活性的种模板赋予负的极性以及活性值。
10.一种特定短语对收集装置,包含:
权利要求1~权利要求9中任一项所述的谓语模板收集装置;
谓语模板存储单元,其存储由所述谓语模板收集装置收集到的谓语模板;
短语对收集单元,其从给定的语料库收集包含由存储于所述谓语模板存储单元的谓语模板中的特定的活性/非活性的谓语模板的组合、和特定的种类的连接词构成的谓语模板对的短语对;和
短语选择单元,其通过提取在由所述短语对收集单元收集到的短语对内与谓语模板共现的名词对、和该短语对内的谓语模板的极性成为特定的组合的短语对,来选择表现给定的关系的短语对。
11.根据权利要求10所述的特定短语对收集装置,其中,
所述特定短语对收集装置还包含:
得分算出单元,其对由所述短语选择单元选择的各个短语对算出表征所述给定的关系的强度的得分,作为构成所述各短语对的谓语模板的活性值、和包含于该短语对中的名词对的在所述语料库内的共现关系的函数;和
按照由所述得分算出单元算出的得分的次序来排列由所述短语选择单元选择的短语对的单元。
CN201380011077.2A 2012-02-27 2013-01-23 谓语模板收集装置以及特定短语对收集装置 Expired - Fee Related CN104137097B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-039966 2012-02-27
JP2012039966A JP5924666B2 (ja) 2012-02-27 2012-02-27 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
PCT/JP2013/051326 WO2013128984A1 (ja) 2012-02-27 2013-01-23 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN104137097A CN104137097A (zh) 2014-11-05
CN104137097B true CN104137097B (zh) 2017-02-22

Family

ID=49082189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380011077.2A Expired - Fee Related CN104137097B (zh) 2012-02-27 2013-01-23 谓语模板收集装置以及特定短语对收集装置

Country Status (6)

Country Link
US (1) US9582487B2 (zh)
EP (1) EP2821923B1 (zh)
JP (1) JP5924666B2 (zh)
KR (1) KR101972408B1 (zh)
CN (1) CN104137097B (zh)
WO (1) WO2013128984A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
JP5904559B2 (ja) 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP6347519B2 (ja) * 2015-05-15 2018-06-27 日本電信電話株式会社 推移矛盾収集装置、方法、及びプログラム
JP6618735B2 (ja) 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
WO2017104571A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US10706044B2 (en) 2016-04-06 2020-07-07 International Business Machines Corporation Natural language processing based on textual polarity
US20170293620A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
US20170293621A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
JP6929539B2 (ja) * 2016-10-07 2021-09-01 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US20190065583A1 (en) * 2017-08-28 2019-02-28 International Business Machines Corporation Compound q&a system
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
KR102111609B1 (ko) * 2018-04-26 2020-05-15 대한민국 재난속성정보 추출 시스템 및 방법
JP7091295B2 (ja) * 2019-09-06 2022-06-27 株式会社東芝 解析装置、解析方法及びプログラム
US20230020080A1 (en) * 2021-04-12 2023-01-19 Adishesh Kishore Relationship builder to relate data across multiple entities/nodes

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554058A (zh) * 2001-08-10 2004-12-08 О 借助多语文本输入的第三语言文本生成算法及其设备和程序
CN1813252A (zh) * 2003-07-11 2006-08-02 独立行政法人产业技术总合研究所 信息处理方法、信息处理程序、信息处理装置及摇控器
CN101377770A (zh) * 2007-08-27 2009-03-04 微软公司 中文组块分析的方法及系统
CN101872341A (zh) * 2009-04-23 2010-10-27 国际商业机器公司 用于自动提取系统建模元模型语言模型的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254530B2 (en) 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US8155946B2 (en) * 2002-12-23 2012-04-10 Definiens Ag Computerized method and system for searching for text passages in text documents
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
WO2008075524A1 (ja) * 2006-12-18 2008-06-26 Nec Corporation 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20090048823A1 (en) 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
US8650023B2 (en) * 2011-03-21 2014-02-11 Xerox Corporation Customer review authoring assistant
US8532981B2 (en) * 2011-03-21 2013-09-10 Xerox Corporation Corpus-based system and method for acquiring polar adjectives
US20140025372A1 (en) * 2011-03-28 2014-01-23 Nec Corporation Text analyzing device, problematic behavior extraction method, and problematic behavior extraction program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554058A (zh) * 2001-08-10 2004-12-08 О 借助多语文本输入的第三语言文本生成算法及其设备和程序
CN1813252A (zh) * 2003-07-11 2006-08-02 独立行政法人产业技术总合研究所 信息处理方法、信息处理程序、信息处理装置及摇控器
CN101377770A (zh) * 2007-08-27 2009-03-04 微软公司 中文组块分析的方法及系统
CN101872341A (zh) * 2009-04-23 2010-10-27 国际商业机器公司 用于自动提取系统建模元模型语言模型的方法和装置

Also Published As

Publication number Publication date
EP2821923A4 (en) 2015-12-02
KR20140129053A (ko) 2014-11-06
US9582487B2 (en) 2017-02-28
KR101972408B1 (ko) 2019-04-25
JP5924666B2 (ja) 2016-05-25
US20150039296A1 (en) 2015-02-05
EP2821923B1 (en) 2016-09-07
WO2013128984A1 (ja) 2013-09-06
EP2821923A1 (en) 2015-01-07
CN104137097A (zh) 2014-11-05
JP2013175097A (ja) 2013-09-05

Similar Documents

Publication Publication Date Title
CN104137097B (zh) 谓语模板收集装置以及特定短语对收集装置
CN105830064B (zh) 情态生成装置以及计算机可读取记录介质
Abbasi-ghalehtaki et al. Fuzzy evolutionary cellular learning automata model for text summarization
CN106104519B (zh) 短语对收集装置以及计算机可读取的存储介质
CN104137102B (zh) 非事实型询问应答系统以及方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN105612515B (zh) 矛盾表现收集装置以及记录介质
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN104346379B (zh) 一种基于逻辑和统计技术的数据元识别方法
CN106104524B (zh) 复杂谓语模板收集装置以及记录介质
CN106649742A (zh) 数据库维护方法和装置
CN106649260A (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN105339936A (zh) 文本匹配装置以及方法、和文本分类装置以及方法
JP2003535407A (ja) 文章中の法の支配を見つけるためのコンピュータ・ベース・システム及び方法
CN108829682A (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
Haque et al. Literature review of automatic single document text summarization using NLP
Sarjant et al. " All You Can Eat" Ontology-Building: Feeding Wikipedia to Cyc
CN107301426A (zh) 一种鞋底花纹图像的多标签聚类方法
Ricca et al. An empirical study on keyword-based web site clustering
Maitra et al. A k-competitive autoencoder for aggression detection in social media text
Al Hashimy et al. Ontology enrichment with causation relations
Alnashwan et al. Classification of online medical discourse by modified co-training
Breuing et al. Harvesting wikipedia knowledge to identify topics in ongoing natural language dialogs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170222

Termination date: 20220123