CN109791569B - 因果关系识别装置及存储介质 - Google Patents

因果关系识别装置及存储介质 Download PDF

Info

Publication number
CN109791569B
CN109791569B CN201780061597.2A CN201780061597A CN109791569B CN 109791569 B CN109791569 B CN 109791569B CN 201780061597 A CN201780061597 A CN 201780061597A CN 109791569 B CN109791569 B CN 109791569B
Authority
CN
China
Prior art keywords
phrase
unit
word
vector
causal relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780061597.2A
Other languages
English (en)
Other versions
CN109791569A (zh
Inventor
卡纳萨·库恩卡莱
桥本力
鸟泽健太郎
朱利安·克洛埃特泽
吴钟勋
田仲正弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN109791569A publication Critical patent/CN109791569A/zh
Application granted granted Critical
Publication of CN109791569B publication Critical patent/CN109791569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种无论线索词存在与否,能够以高精度识别因果关系表达的因果关系识别装置。因果关系识别装置(30)包括:候补矢量生成部(50),接受因果关系候补(32),并生成表示构成该候补的单词序列的候补矢量;上下文矢量生成部(52),生成表示上下文的上下文矢量,在所述上下文中,出现因果关系候补的原因部的名词词组和结果部的名词词组;二进制模式矢量生成部(54)、回答矢量生成部(56)以及与背景知识有关的关联段落矢量生成部(58),生成表示背景知识的单词矢量,所述背景知识用于判断原因部中包括的名词词组和结果部中包括的名词词组之间有无因果关系;以及多列卷积神经网络(60),预先学习完毕,使得接受这些单词矢量,并判断因果关系候补是否为因果关系。

Description

因果关系识别装置及存储介质
技术领域
本发明涉及用于从自然语言句子中存在的表达中提取因果关系的装置,尤其涉及用于识别并提取在用自然语言记载的句子中没有明确的线索词表达的因果关系的技术。
背景技术
在位于Web等的某个文本中编写的事件之间的因果关系的自动识别是一种为了自动生成未来场景以进行适当的决策的重要的技术。但是,由于因果关系的描述涉及许多方面,因此难以进行高精度的识别。例如,“发生地震,海啸来了”这句话被认为是清楚地表达了由“发生地震”这一原因和“海啸来了”这一结果构成的因果关系。但是,在这句话中,没有表示因果关系的连接词“由于(ため)”“因为(から)”等明确的线索词。在以往技术中,因为基于与因果关系有关的线索词来识别因果关系,所以难以识别没有线索词的因果关系。从这样的句子中高精度地提取因果关系在收集与更广泛的因果关系有关的知识、文档理解、为什么型问答、未来场景的生成等中也很重要。
作为该领域的以往技术,有不仅使用线索词而且使用一些语言表达的模式来对表示因果关系的原因和结果的短语对进行识别的技术,或者基于将语言表达而不是将模式作为线索的机械学习的原因、结果的短语对的自动识别技术等。
在先技术文献
非专利文献
非专利文献1:Chikara Hashimoto,Kentaro Torisawa,Julien Kloetzer,MotokiSano,Istvan Varga,Jong-Hoon Oh,and Yutaka Kidawara.2014.Toward futurescenario generation:Extracting event causality exploiting semantic relation,context,and association features.In Proceedings of ACL,pages 987-997.
非专利文献2:Jong-Hoon Oh,Kentaro Torisawa,Chikara Hashimoto,MotokiSano,Stijn De Saeger,and Kiyonori Ohtake.2013.Why-question answering usingintra-and inter-sentential causal relations.In Proceedings of ACL,pages1733-1743.
发明内容
发明要解决的课题
但是,与因果关系识别有关的以往的方法仍然具有精度低且应用范围也被限定这样的问题。这是因为,因果关系以各种各样的形式表达,且在许多情况下,有时在没有表示因果关系的线索词的情况下表达,而且可能表达因果关系的模式也非常多。
例如,对以下两个句子进行考虑。
1.由于地球温室化已经加剧,因此台风加强了。
2.地球温室化加剧,台风加强了。
第一句包括“由于(ために)”一词。该词明确了“台风加强了”这一结果与“地球温室化已经加剧”这一原因之间的因果关系。与此相对,第二句话中不存在这样的线索词。尽管如此,很多人会理解这句话表达了与第一句相同的因果关系。这是可能的,因为人们具有与“台风”和“地球温室化”有关的背景知识。在很多情况下,因果关系在没有线索词的情况下表达,因此需要能够高精度地识别上述第二句话那样的因果关系。
因此,本发明的目的在于,提供一种不管是否有表示因果关系的线索词,都能够从自然语言句子中高精度地识别因果关系表达的因果关系识别装置。
用于解决课题的技术方案
本发明的第一方面所涉及的因果关系识别装置自动识别由在文本中找到的第一短语以及第二短语表示的因果关系。第一短语是因果关系的原因部的候补,第二短语是因果关系的结果部的候补。第一短语以及第二短语均包括名词词组和谓语的组合。因果关系识别装置包括:第一矢量生成单元,接受由第一短语以及第二短语构成的因果关系候补,并生成分别表示构成该因果关系候补的单词序列的第一单词矢量的组;第二矢量生成单元,生成分别表示构成上下文的单词序列的第二单词矢量,在所述上下文中,所述第一短语以及所述第二短语出现在所述文本中;背景知识矢量生成单元,用于生成表示背景知识的单词矢量,所述背景知识用于判断第一短语中包括的名词词组和第二短语中包括的名词词组之间有无因果关系;以及分类单元,预先学习完毕,使得接受第一单词矢量以及第二单词矢量和由背景知识矢量生成单元生成的单词矢量,并输出指标,所述指标为成为了这些单词矢量的源的因果关系候补是因果关系。背景知识矢量生成单元至少包括以下一个单元的任意的组合:第三矢量生成单元,从大量的文档中收集模式,并生成表示该模式的单词序列的第三单词矢量,所述模式包括第一短语中包括的名词词组、第二短语中包括的名词词组、以及连接这些名词词组的谓语;第四矢量生成单元,根据因果关系候补生成为什么型提问,从为什么型问答装置接受对于该为什么型提问的回答的集合,并根据该回答的集合中包括的回答当中的、均包括第一短语中包括的名词词组以及第二短语中包括的名词词组的回答,生成第四单词矢量,所述第四单词矢量表示至少包括第一短语中包括的名词词组以及第二短语中包括的名词词组的单词序列;以及第五矢量生成单元,根据大量的文档中存在的、连续的给定个数的句子的组,即,第一短语中包括的名词词组以及第二短语中包括的名词词组和与因果关系关联的线索词具有搭配关系的句子的组,生成第五单词矢量,所述第五单词矢量表示连结第一短语以及第二短语中包括的名词词组、在该句子的组内表示两者的依赖关系的单词、以及该句子的组中包括的线索词所获得的单词序列。
优选为,分类单元包括多列神经网络,所述多列神经网络具有多列,并预先学习完毕,使得分别在各个列的子网络中接受第一单词矢量以及第二单词矢量和由背景知识矢量生成单元输出的单词矢量,并输出指标,所述指标为成为了这些单词矢量的源的因果关系候补是因果关系候补。
更优选为,第三矢量生成单元包括:二进制模式收集单元,从大量的文档中收集二进制模式,所述二进制模式由包括第一短语中包括的名词词组、第二短语中包括的名词词组、以及连接这些名词词组的谓语的模式构成;频率计算单元,计算由二进制模式收集单元收集的二进制模式的出现频率;以及单元,生成表示单词序列的单词矢量,并输出为第三单词矢量,所述单词序列构成由二进制模式收集单元收集的二进制模式当中的、由频率计算单元计算的频率居高的给定个数的二进制模式。
进而优选为,第四矢量生成单元包括:回答获取单元,通过将表示为什么型提问的疑问词添加到第二短语中,生成为什么型提问并提供给为什么型问答装置,从而从该为什么型问答装置获取回答的集合;提取单元,从回答获取单元获取的回答的集合中提取均包括第一短语中包括的名词词组以及第二短语中包括的名词词组的给定个数的回答;依赖关系解析单元,解析由提取单元提取的回答的各个依赖关系并生成依赖构造;以及单元,针对由提取单元提取的各个回答,生成由依赖关系解析单元生成的依赖构造的、表示包括第一短语以及第二短语中包括的名词词组和存在于处于给定的关系的位置的单词在内的单词序列的单词矢量,并输出为第四单词矢量。
第五单词矢量生成单元包括:检索单元,从大量的文档中检索由连续的给定个数的句子构成的段落,即第一短语中包括的名词词组以及第二短语中包括的名词词组和与因果关系关联的线索词具有搭配关系的段落;依赖解析单元,解析由检索单元检索的段落的依赖关系并生成依赖构造;以及单元,在由依赖解析单元生成的依赖构造中,连结第一短语以及第二短语中包括的名词词组之间的路径中存在的单词和该段落中包括的线索词,并从单词序列生成第五单词矢量。
本发明的第二方面所涉及的计算机程序使计算机作为上述任意一个因果关系识别装置发挥功能。
附图说明
图1是本发明的一个实施方式所涉及的因果关系识别装置的框图。
图2是图1所示的上下文矢量生成部的框图。
图3是图1所示的二进制模式矢量生成部的框图。
图4是图1所示的回答矢量生成部的框图。
图5是图1所示的关联段落矢量生成部的框图。
图6是示出图1所示的神经网络的结构的概略图。
图7是示出图6所示的神经网络的1列的结构的概略图。
图8是示出提取构成因果关系的模式的处理的概略的示意图。
图9是示出实验结果的图表。
图10是作为实现本发明的实施方式的因果关系识别装置的硬件的计算机系统的外观图。
图11是示出在图10中示出外观的计算机系统的硬件结构的框图。
具体实施方式
在以下的说明以及附图中,对于相同的部件标注相同的参照编号。因此,不再重复对其详细的说明。
在以下的实施方式中,对因果关系识别装置的结构以及动作进行说明,该因果关系识别装置从自然语言句子中识别并提取表示因果关系的表达,而不管在句子中是否有表示因果关系的线索词。在本实施方式中,通过利用神经网络(卷积神经网络以及LSTM:LongShort Term Memory)处理web存档中的web文档中记载的大量的背景知识,从而进行这种因果关系的识别。即,若提供因果关系候补,则该神经网络从web文档中检索并提取与因果关系候补具有某种关系的句子,并使用由这些句子表达的背景知识来判断因果关系候补是否是正确的因果关系。根据以下说明的某个特定的基准对web文档进行检索。
在以下的实施方式中,将“地球温室化加剧”→“台风变强”这样的、像前者那样表示原因部的表达和像后者那样表示结果部的表达的组合作为对象。原因部以及结果部均由名词词组和谓语(动词)的组合构成。
在说明本发明的实施方式之前,对非专利文献1中记载的技术进行说明。非专利文献1对因果关系的识别使用从web存档中提取的背景知识。在非专利文献1中记载的技术中,使用将名词词组A以及B以“A引起B”,“A防止B”这样的形式描述的模式(称为“二进制模式”。)的集合,通过在分类器的特性中内置在大量的web文档中是否有二进制模式来改善因果关系识别的分类器的性能,在所述二进制模式中,将因果关系候补内的名词词组代入A以及B。
例如,在判断“吸烟”→“死于肺癌”这样的因果关系候补是否正确的情况下,在非专利文献1中,调查“烟”和“肺癌”这样的名词词组的组合是否满足web存档中的任意一个二进制模式,如果有这样的模式,则将这样的模式内置到输入到分类器(非专利文献1中,SVM)中的特性中。此外,在非专利文献1中,不仅使用因果关系模式,而且使用由材料关系(“A由B制成”),使用关系(“A用于B”)等构成的二进制模式。根据非专利文献1,通过使用这种模式,提高了因果关系识别的精度。这可能表示,在改善因果关系判断的精度的基础上,能够将非常广泛的范围的信息用作线索。
在本实施方式中,为了使用广泛的范围的信息来进行因果关系的判断,使用稍后描述的多列卷积神经网络(Multicolumn Convolution Neural Network:MCNN)。通过使用MCNN,如稍后所述,能够将与因果关系关联的广泛的背景知识用于因果关系的识别。
对本实施方式中的因果关系的识别如稍后所述使用来自为什么型问答装置的回答,除此之外,如下所述,因果关系候补内的使用两个名词词组的两种信息也均用作对MCNN的输入。即,
A)比非专利文献1中使用的二进制模式更广泛的二进制模式。在非专利文献1中,对模式施加了语义限制,而在本实施方式中,不施加这样的限制,且使用所有检索到的二进制模式。
B)web存档中的文档中的一个或者连续的两个句子,即与因果关系有关的“理由”、“至于为什么”这样的线索词和因果关系候补中包括的两个名词词组在其范围内具有搭配关系这样的句子的组(称为“关联段落”。)。在以下的实施方式中,对该段落的提取仅使用简单的单词匹配,不进行复杂的检索处理。仅检索包括上述两个名词词组和线索句的、一个或者连续的两个句子。当然,句子的数量不限于2,也可以是3以上,但就计算量而言,上限为两个句子或者三个句子左右是合适的。然而,不言而喻,可以通过计算机的性能来改变该上限。
为什么型问答系统的回答中可能包括许多不包含任何有用的信息。此外,上述B中列举的那样的信息不包括有用的信息的可能性大。因为只通过单词匹配来进行检索。采用该信息是因为能够以简单的处理且以少的计算量获得这些信息。此外,为什么型问答系统以及上述B中列举的信息与二进制模式相比更复杂,且不适合作为提供给分类器的信息。因此,在本实施方式中,采用使这些表达更紧凑且更且有效地表达背景知识这样的表达方法。
此外,虽然以下的实施方式均与日语关联,但是认为也能够在不花费太多劳力的情况下应用于其他的语言。
[实施方式]
以下所述的实施方式所涉及的装置的输入是“吸烟”→“死于肺癌”这样的因果关系候补。以下所述的实施方式的装置是接受这种因果关系候补的输入并判断该表达是否表示正确的因果关系的装置。由原因候补A和结果候补B构成的因果关系候补是否正确的基本的判断基准为,如果处于在事件A发生时,事件B发生的可能性增加这样的关系,并且限于此时,将该因果关系候补设为正确。在实际的判断中,除此之外,还需要能够仅从因果关系候补来进行这种判断,而不考虑因果关系候补出现的上下文。
因果关系候补如上所述由原因候补和结果候补构成。原因候补和结果候补都包括谓语和作为该谓语的参数的名词词组的组合。即,如果是“吸烟”,则是作为具有参数X的谓语的“吸X”和进入X的“烟”这一名词词组的组合,如果是“死于肺癌”,则是“死于X”这一谓语和进入X的“肺癌”这一名词词组的组合。以下,将具有参数X的谓语(“吸X”“死于X”等)称为模板。原因部还需要在原始文档中以某种形式例如经由“然后(そして)”或者“因为…所以(ので)”这样的连接词与结果部处于依赖关系。该模板能够使用与非专利文献1中记载的内容相同的格式的模板。该格式仅包括因果关系的本质(Essence),且易于用于应用程序。
<结构>
〔因果关系识别装置〕
图1中示出本发明的一个实施方式所涉及的因果关系识别装置30的概略框图。参照图1,因果关系识别装置30包括:候补矢量生成部50,接受因果关系候补32,从单词序列生成单词嵌入矢量并输出为候补矢量,所述单词序列表示因果关系候补32中包括的单词;以及上下文矢量生成部52,接受因果关系候补32和因果关系候补32出现的句子内的上下文34,生成单词嵌入矢量并输出为上下文矢量,所述单词嵌入矢量表示因果关系候补32出现的上下文。
因果关系识别装置30还包括:二进制模式矢量生成部54,与存放了大量的web文档的计算机可读的web存档38连接,接受因果关系候补32,收集二进制模式,并生成表示该二进制模式的单词序列的单词嵌入矢量,所述二进制模式包括因果关系候补32的原因部中包括的名词词组、结果部中包括的名词词组、以及连接这些名词词组的谓语;回答矢量生成部56,与外部的问答系统36连接,通过从因果关系候补32自动地生成为什么型提问并提供给问答系统36,从而接受回答的集合,并从回答中的、均包括因果关系候补32的原因部中包括的名词词组和结果部中包括的名词词组的回答中,生成并输出单词嵌入矢量,所述单词嵌入矢量表示至少包括这些名词词组和可能包括关系到因果关系的线索句的单词序列;以及关联段落矢量生成部58,与web存档38连接,接受因果关系候补32,在web存档38中包括的文档中,提取由一个句子或者连续的两个句子,即由因果关系候补32的原因部的名词词组和结果部的名词词组具有搭配关系的句子的组构成的段落,生成表示单词序列的单词嵌入矢量,并输出为表示背景知识的关联段落矢量,所述单词序列包括在这些句子内在依赖构造上连结这些名词词组的路径上的单词,并且在该句子的组内如果有表示因果关系的线索词,则还包括该线索词,所述背景知识被广泛认为与该因果关系候补关联。
因果关系识别装置30还包括:多列卷积神经网络(MCNN)60,所述多列卷积神经网络(MCNN)60具有八列,且通过机械学习预先进行学习,使得在第一列接受来自候补矢量生成部50的候补矢量,在第二~第五列这四列接受来自上下文矢量生成部52的四个上下文矢量,在第六列接受来自二进制模式矢量生成部54的二进制模式矢量,在第七列接受来自回答矢量生成部56的回答矢量,以及在第八列接受来自关联段落矢量生成部58的关联段落矢量,并输出作为概率的指标的分值,所述概率的指标为因果关系候补32是因果关系;判断部64,通过将MCNN60输出的分值与阈值比较,从而判断因果关系候补32是否表示正确的因果关系,并输出其结果40;以及阈值存储部62,预先存储判断部64用于判断的阈值。
此外,除了候补矢量生成部50以及上下文矢量生成部52之外,本实施方式所涉及的因果关系识别装置30还包括二进制模式矢量生成部54、回答矢量生成部56以及关联段落矢量生成部58。但是本发明不限于这样的实施方式。从稍后叙述的实验结果可知,二进制模式矢量生成部54、回答矢量生成部56以及关联段落矢量生成部58即使均独立,也比以往技术更提高因果关系的识别精度。因此,因果关系识别装置30也可包括至少包括二进制模式矢量生成部54、回答矢量生成部56以及关联段落矢量生成部58当中的一个任意的组合即可。
<上下文矢量生成部52>
参照图2,上下文矢量生成部52包括:候补存储部80,接受并存储因果关系候补32;单词分离部82,分离并输出候补存储部80中存储的因果关系候补中包括的单词(构成名词词组和模板的谓语);词素解析部84,在取出了因果关系候补32的原始文档中,接受由因果关系候补32和其周边存在的单词序列构成的上下文34,并进行上下文34中包括的各句子的词素解析;以及依赖关系解析部86,对词素解析部84输出的词素列进行依赖关系解析,并输出依赖构造。
上下文矢量生成部52还包括:第一上下文矢量生成部88,参照依赖关系解析部86输出的依赖构造,生成并输出第一上下文矢量,所述第一上下文矢量由在上下文中单词分离部82输出的、在原因部的名词词组和谓语之间存在的单词序列构成;第二句上下文矢量生成部90,生成并输出第二句上下文矢量,所述第二句上下文矢量由在结果部的名词词组和谓语之间存在的单词序列构成;第三上下文矢量生成部92,生成并输出第三上下文矢量,所述第三上下文矢量由原因部的名词词组和结果部的谓语之间的单词序列构成;以及第四上下文矢量生成部94,生成并输出第四上下文矢量,所述第四上下文矢量由在结果部之后出现的所有的单词构成。第一上下文矢量被输入到MCNN60的第二列,第二句上下文矢量被输入到第三列,第三上下文矢量被输入到第四列,第四上下文矢量被输入到第五列。
<二进制模式矢量生成部54>
参照图3,在本实施方式中,作为一个背景知识,使用从web存档38中提取的二进制模式。在非专利文献1中,为了进行因果关系识别,使用作为被认为以“A引起B”、“A防止B”等某种形式表示因果关系的二进制模式而预先讨论的结果而选择的395、578个二进制模式的集合。在此,所说的模式是指在依赖构造上连接两个名词词组(置换为变量A或者B。)的路径。在非专利文献1中,仅使用6亿个web文档当中的、以相同的模式出现10次以上的名词词组对。通过该条件,除去了长且不频繁出现的二进制模式,仅留下较短的模式。即使在本实施方式中,也使用以与非专利文献1相同的方法检索的二进制模式。然而,在本实施方式中,没有如非专利文献1使用的那种限制,如果是从因果关系候补的原因部以及结果部分别提取的两个名词词组出现在变量A以及B中那样的模式,则全部使用。若提供两个名词词组,则检索到的模式的数量从1变为数百。在本实施方式中,从其中选择与因果关系候补的名词词组对具有搭配关系的频率为最大的15个二进制模式,通过将其隔着分隔符“|”进行连结,从而输出获得的单词序列。在此,作为预先在多达200的数量的范围内进行的实验的结果,15个以上时在性能上未看到变化,因此作为二进制模式的数量选择的“15”是从学习所涉及的计算量的节约的观点出发所选择的数字。
参照图3,二进制模式矢量生成部54包括:因果关系候补存储部110,接受并存储因果关系候补32;二进制模式字典128,存储多个预先创建的二进制模式;候补句子检索部112,在web存档38中,检索包括单词序列的候补句子,在所述单词序列中,从因果关系候补存储部110的原因部以及结果部取出的名词词组对可能与二进制模式字典128中存储的二进制模式具有搭配关系;词素解析部114,进行由候补句子检索部112检索的句子的各个词素解析并输出词素列;依赖关系解析部116,进行对词素解析部114输出的词素列的依赖关系解析并输出依赖构造;以及二进制模式检索部118,在由依赖关系解析部116输出的依赖构造上,如果有从因果关系候补存储部110输出的名词词组对和二进制模式字典128中存储的二进制模式具有搭配关系的单词序列,则对其进行确定,并输出相应的二进制模式。
二进制模式矢量生成部54还包括:二进制模式计数存储部120,针对每个二进制模式对二进制模式检索部118输出的二进制模式进行计数,并存储该值;二进制模式排序部122,在来自web存档38的二进制模式的检测全部结束之后,按照二进制模式计数存储部120中存储的计数的降序对二进制模式进行排序并输出二进制模式的列表;二进制模式选择部124,选择并输出从二进制模式排序部122输出的二进制模式的列表当中的、计数为前15位的二进制模式;以及二进制模式连结部126,通过作为分隔符的“|”将由二进制模式选择部124选择的二进制模式相互连结并输出为单词嵌入矢量。二进制模式连结部126输出的单词嵌入矢量被输入到MCNN60的第六列。
<回答矢量生成部56>
在本实施方式中,作为一个背景知识源,使用为什么型问答系统的输出。更具体地,使用非专利文献2中记载的为什么型问答系统。该问答系统从web存档输出七个连续的句子作为一个回答,来作为对所提供的为什么型提问的回答。
参照图4,回答矢量生成部56包括:候补存储部150,接受并存储因果关系候补32;问句创建部152,将“为什么”那样的疑问词添加到候补存储部150内的候补的结果部的前端等并自动地创建问句;以及回答获取部154,通过将由问句创建部152创建的问句提供给问答系统36,从而从问答系统36获取给定个数的回答和其分值的集合。在本实施方式使用的问答系统36中,一个回答包括从web存档中提取的七个连续的句子,并由通过有监督学习进行了学习的分类器来赋予分值。在排名居高的回答中,包括对提问的正确的回答的可能性大。回答获取部154获取问答系统36的回答当中的、具有居高分值的200个回答,进而仅输出包括从候补存储部150中存储的因果关系候补的原因部以及结果部中分别提取的两个名词词组的回答。
回答矢量生成部56还包括:回答/分值存储部156,将回答获取部154输出的回答的集合和其分值一起存储;词素解析部158,针对回答/分值存储部156中包括的各回答,对其各句子进行词素解析;依赖关系解析部160,对词素解析部158输出的词素列进行依赖关系解析,并输出依赖构造;线索词字典162,存储了与因果关系有关的线索词;以及模式生成部164,参照线索词字典162,在由依赖关系解析部160输出的依赖构造上的路径中,保存出现顺序并连结从因果关系候补的原因部以及结果部中提取的两个名词词组的每一个和依赖构造的根之间的单词序列,如果存在另外的与因果关系有关的线索词,则无论其出现位置如何,均生成并输出连结该线索词的模式。
例如,假设对于“为什么(人)死于肺癌?”这一提问,一个回答包括“许多人不停止烟,其结果,他们受肺癌之苦。”这句话,由此获得“不停止A,其结果,受B之苦”这样的模式。该情况下,A是来自原因部的名词词组,B是与来自结果部的名词词组对应的变量。“其结果”是线索词。
此外,在连续的句子中存在两个名词词组的情况下,追加从第一句话的依赖构造的根到第二句话的依赖构造的根的虚拟链接,就像是一个句子一样,生成上述模式。将该状况在图8中示出。
图8示出了提取构成因果关系的模式的处理的概略,假设从因果关系候补中提取的第一名词词组“烟”存在于第一句话460中,第二名词词组“肺癌”存在于第二句话462中。在该情况下,在第一句话460的根和第二句话462之间追加虚拟链接464,且第一句话460以及第二句话462就像是一个句子一样进行模式提取466,提取“A是有害的,引起B”这样的模式468。
返回到图4,回答矢量生成部56还包括:模式/原始分值存储部166,将由模式生成部164生成的模式和由问答系统36对获得了各模式的回答赋予的原始分值相互关联地存储;模式排序部168,在对来自问答系统36的回答的由模式生成部164进行的模式生成的处理全部结束之后,按照其分值的降序对模式/原始分值存储部166中存储的模式进行排序并输出为列表;模式选择部170,选择由模式排序部168输出的列表中的前15个;以及模式连结部172,经由分隔符连结由模式选择部170选择的模式并输出为单词嵌入矢量。因为回答是以各种各样的观点说明因果关系候补的结果部的理由的回答,所以可能有一些答案不包括因果关系候补的原因部的名词词组的情况。模式连结部172的输出被输入到MCNN60的第七列。
<关联段落矢量生成部58>
作为另一个背景知识源,在本实施方式中,从存储了大量的web文档的web存档中,取出并利用包括从因果关系候补的原因部和结果部取出的名词词组对和与因果关系有关的“至于为什么”这样的线索词的句子。取出的句子是一个或者两个连续的关联段落,是包括上述名词词组对和任意一个线索词的句子。从取出的段落,通过与回答矢量生成部56进行的相同的方法生成模式。计算对web存档38整体进行了处理时的那些模式的出现频率,与回答矢量生成部56一样,将出现频率为前15位的模式用于因果关系候补的判断。在有出现频率相同的模式的情况下,选择较短的模式。这些模式与由回答矢量生成部56进行的一样,经由分隔符相互连结,并作为单词嵌入矢量被提供给MCNN60。
参照图5,进行上述处理的关联段落矢量生成部58包括:候补存储部200,接受并存储因果关系候补32;单词提取部202,从候补存储部200内的候补的原因部以及结果部中分别提取名词词组;线索词字典204,存储了线索词;关联段落获取部206,从web存档38中,获取单词提取部202提取的名词词组对和线索词字典204中存储的线索词的任意一个具有搭配关系的一个或者两个连续的句子的组(关联段落);以及关联段落存储部208,存储由关联段落获取部206获取的关联段落。
关联段落矢量生成部58还包括:词素解析部210,针对关联段落存储部208中存储的各关联段落中包括的句子,进行词素解析;依赖关系解析部212,对词素解析部210输出的词素列进行依赖关系解析,并输出依赖构造;模式生成部214,通过与图4所示的模式生成部164相同的方法生成并输出模式;模式/频率存储部216,将模式生成部214生成的模式和其频率一起存储;模式排序部218,在对web存档38的模式生成部214的处理全部结束之后,以其频率的降序对模式/频率存储部216中存储的模式进行排序并输出为列表;模式选择部220,从模式排序部218输出的模式的列表中,选择出现频率居高的15个模式;以及模式连结部222,将模式选择部220输出的15个模式之间隔着分隔符地进行连结并输出为单词嵌入矢量。模式连结部222输出的单词嵌入矢量被输入到MCNN60的第八列。
<多列卷积神经网络60>
参照图6,在本实施方式中,MCNN60包括:神经网络层340,由第一~第八卷积神经网络360~374构成;连结层342,线性地连结神经网络层340内的各神经网络的输出;以及Softmax层344,对于连结层342输出的矢量应用Softmax函数,以0~1之间的分值评价因果关系候补是否正确并进行输出。
第一列卷积神经网络360接受图1所示的候补矢量生成部50生成的候补矢量。第二~第五列卷积神经网络362、364、366以及368接受图1以及图2所示的上下文矢量生成部52输出的第一至第四上下文矢量。第六列卷积神经网络370接受图1以及图3所示的二进制模式矢量生成部54输出的二进制模式矢量。第七列卷积神经网络372接受图1以及图4所示的回答矢量生成部56输出的回答矢量。第八列卷积神经网络374接受图1以及图5所示的关联段落矢量生成部58输出的关联段落矢量。
神经网络层340的各卷积神经网络的输出简单地在连结层342中被线性连结,成为向Softmax层344的输入矢量。
针对MCNN60,更详细地说明其功能。在图7中,示出一个卷积神经网络390作为代表。在此,为了易于理解地进行说明,假设卷积神经网络390仅由输入层400、卷积层402以及池化层404构成,但也可以具备多个该三层。
单词矢量列X1、X2、…、X|t|被输入到输入层400。该单词矢量列X1、X2、…、X|t|表示为矩阵T=[X1、X2、…、X|t|]T。对于该矩阵T,应用M个特性映射。特性映射是矢量,通过对由连续的单词矢量构成的N-gram应用由fj(1≤j≤M)表示的滤波器并且使N-gram410移动,从而计算作为各特性映射的要素的矢量O。O由以下的表达式表示。此外,该滤波器数量M以及N-gram的N均为MCNN60的超参数之一。
[表达式1]
Figure GDA0004124814590000141
其中·表示针对每个元素进行乘法之后取其和,是f(x)=max(0,x)(归一化线性函数)。此外,若将单词矢量的元素数设为d,则Wfj是d×N维的实数矩阵,偏差bij是实数。
此外,在特性映射的整体中可以设N相等,也可以设为不同。虽然N是任意的自然数,但优选从{2、…、6}的范围中选择。在本实施方式中,对于N-gram,组合并使用连续的多个值。在本实施方式中,加权矩阵在所有的卷积神经网络中相等。这些可以相互不同,实际上,与独立地学习各加权矩阵的情况相比,使其相互相等的精度更高。
对于该特性映射中的每一个,池化层404进行所谓的最大池化(MAX-POOLING)。即,池化层404例如选择特性映射fM的要素当中的最大的要素420并作为要素430取出。通过对每个特性映射进行该处理,取出要素432、…、430,按照从f1到fM的顺序连结这些要素并作为矢量442输出到连结层342。这样从各卷积神经网络获得的矢量440、…、442、…、444被输出到连结层342。连结层342简单地将矢量440、…、442、…、444线性连结并提供给Softmax层344。此外,据说与采用平均值相比,作为池化层404,进行最大池化的精度高。但是,当然也可以设为采用平均值,只要较好地表达下层的性质,也可以设为使用其他的代表值。
<动作>
上述实施方式所涉及的因果关系识别装置30按如下所述进行动作。
参照图1,因果关系识别装置30的候补矢量生成部5接受因果关系候补32,从单词序列生成单词嵌入矢量,并输出候补矢量,所述单词序列表示因果关系候补32中包括的单词。该候补矢量被输入到图6所述的第一列卷积神经网络360。
上下文矢量生成部52接受因果关系候补32和因果关系候补32出现的句子内的上下文34,生成单词嵌入矢量并输出为上下文矢量,所述单词嵌入矢量表示因果关系候补32出现的上下文。
更具体地,参照图2,上下文矢量生成部52的候补存储部80接受并存储因果关系候补32。单词分离部82分离并输出候补存储部80中存储的因果关系候补中包括的单词(构成名词词组和模板的谓语)。在取出了因果关系候补32的原始文档中,词素解析部84接受由因果关系候补32和其周边存在的单词序列构成的上下文34,进行上下文34中包括的各句子的词素解析,并输出词素列。依赖关系解析部86对词素解析部84输出的词素列进行依赖关系解析,并输出依赖构造。
第一上下文矢量生成部88参照依赖关系解析部86输出的依赖构造,生成并输出第一上下文矢量,所述第一上下文矢量由在上下文中单词分离部82输出的、在原因部的名词词组和谓语之间存在的单词序列构成。第二句上下文矢量生成部90生成并输出第二句上下文矢量,所述第二句上下文矢量由在结果部的名词词组和谓语之间存在的单词序列构成。第三上下文矢量生成部92生成并输出第三上下文矢量,所述第三上下文矢量由原因部的名词词组和结果部的谓语之间的单词序列构成。第四上下文矢量生成部94生成并输出第四上下文矢量,所述第四上下文矢量由在结果部之后出现的所有的单词构成。第一上下文矢量被输入到MCNN60的第二列的卷积神经网络362,第二句上下文矢量被输入到第三列卷积神经网络364,第三上下文矢量被输入到第四列卷积神经网络366,第四上下文矢量被输入到第五列卷积神经网络368。
参照图3,二进制模式矢量生成部54收集二进制模式,并生成表示该二进制模式的单词序列的单词嵌入矢量,所述二进制模式包括因果关系候补32的原因部中包括的名词词组、结果部中包括的名词词组、以及连接这些名词词组的谓语。
更具体地,二进制模式矢量生成部54的因果关系候补存储部110接受并存储因果关系候补32。二进制模式字典128存储多个预先创建的二进制模式。在web存档38中,候补句子检索部112检索包括单词序列的候补句子,在所述单词序列中,从因果关系候补存储部110的原因部以及结果部取出的名词词组对可能与二进制模式字典128中存储的二进制模式具有搭配关系。词素解析部114进行由候补句子检索部112检索的句子的各个词素解析并输出词素列。依赖关系解析部116进行对词素解析部114输出的词素列的依赖关系解析并输出依赖构造。在由依赖关系解析部116输出的依赖构造上,如果有从因果关系候补存储部110输出的名词词组对和二进制模式字典128中存储的二进制模式具有搭配关系的单词序列,则二进制模式检索部118对其进行确定,并输出相应的二进制模式。
二进制模式计数存储部120针对每个二进制模式对二进制模式检索部118输出的二进制模式进行计数,并存储该值。在来自web存档38的二进制模式的检测全部结束之后,二进制模式排序部122按照二进制模式计数存储部120中存储的计数的降序对二进制模式进行排序并输出二进制模式的列表。二进制模式选择部124选择并输出从二进制模式排序部122输出的二进制模式的列表当中的、计数为前15位的二进制模式。二进制模式连结部126通过作为分隔符的“|”将由二进制模式选择部124选择的二进制模式相互连结并输出为单词嵌入矢量。二进制模式连结部126输出的单词嵌入矢量被输入到MCNN60的第六列卷积神经网络370。
参照图4,回答矢量生成部56的候补存储部150接受并存储因果关系候补32。问句创建部152将“为什么”那样的疑问词添加到候补存储部150的结果部的前端等并自动地创建问句。回答获取部154通过将由问句创建部152创建的问句提供给问答系统36,从而从问答系统36获取给定个数的回答和其分值的集合。一个回答包括从web存档中提取的七个连续的句子,并对各回答赋予分值。回答获取部154获取问答系统36的回答当中的、具有居高的分值的200个回答,进而输出包括从候补存储部150中存储的因果关系候补的原因部以及结果部中分别提取的两个名词词组的回答。
回答/分值存储部156将回答获取部154输出的回答的集合和其分值一起存储。词素解析部158针对回答/分值存储部156中包括的各回答,对其各句子进行词素解析。依赖关系解析部160对词素解析部158输出的词素列进行依赖关系解析,并输出依赖构造。模式生成部164参照线索词字典162,在由依赖关系解析部160输出的依赖构造上的路径中,保存出现顺序并连结从因果关系候补的原因部以及结果部中提取的两个名词词组的每一个和依赖构造的根之间的单词序列,并生成模式。这时,如果存在另外的与因果关系有关的线索词,则无论其出现位置如何,模式生成部164还将该线索词与该模式连结。
模式/原始分值存储部166将由模式生成部164生成的模式和由问答系统36对获得了各模式的回答赋予的原始分值相互关联地存储。在对来自问答系统36的回答的由模式生成部164进行的模式生成的处理全部结束之后,模式排序部168按照其分值的降序对模式/原始分值存储部166中存储的模式进行排序并输出为列表。模式选择部170选择由模式排序部168输出的列表中的前15个。模式连结部172,经由分隔符连结由模式选择部170选择的模式并输出为单词嵌入矢量。模式连结部172的输出被输入到MCNN60的第七列卷积神经网络372。
参照图5,关联段落矢量生成部58的候补存储部200接受并存储因果关系候补32。单词提取部202从候补存储部200的原因部以及结果部分别提取名词词组。关联段落获取部206从web存档38中,获取单词提取部202提取的名词词组对和线索词字典204中存储的线索词的任意一个具有搭配关系的一个或者两个连续的句子的组(关联段落)。关联段落存储部208存储由关联段落获取部206获取的关联段落。
词素解析部210针对关联段落存储部208中存储的各关联段落中包括的句子,进行词素解析并输出词素列。依赖关系解析部212对词素解析部210输出的词素列进行依赖关系解析,并输出依赖构造。模式生成部214通过与图4所示的模式生成部164相同的方法生成并输出模式。模式/频率存储部216将模式生成部214生成的模式和其频率一起存储。在对web存档38的模式生成部214的处理全部结束之后,模式排序部218以其频率的降序对模式/频率存储部216中存储的模式进行排序并输出为列表。模式选择部220从模式排序部218输出的模式的列表中,选择出现频率居高的15个模式。模式连结部222将模式选择部220输出的15个模式之间隔着分隔符地进行连结并输出为单词嵌入矢量。模式连结部222输出的单词嵌入矢量被输入到MCNN60的第八列卷积神经网络374。
参照图6,MCNN60的第一列卷积神经网络360接受图1所示的候补矢量生成部50生成的候补矢量。第二~第五列卷积神经网络362、364、366以及368接受图1以及图2所示的上下文矢量生成部52输出的第一至第四上下文矢量。第六列卷积神经网络370接受图1以及图3所示的二进制模式矢量生成部54输出的二进制模式矢量。第七列卷积神经网络372接受图1以及图4所示的回答矢量生成部56输出的回答矢量。第八列卷积神经网络374接受图1以及图5所示的关联段落矢量生成部58输出的关联段落矢量。这些卷积神经网络均根据预先学习的参数进行内部计算,并输出结果。各卷积神经网络的输出简单地在连结层342中线性地连结,成为向Softmax层344的输入矢量。
Softmax层344通过对输入矢量应用Softmax函数,计算并输出表示因果关系候补适合作为因果关系的概率的分值。
图1所示的判断部64比较该分值和阈值存储部62中存储的阈值,若分值为阈值以上,则输出表示因果关系候补32适合作为因果关系的值。在除此之外的情况下,判断部64输出表示因果关系候补32不适合作为因果关系的值。
〔实验〕
在本实验中,在非专利文献1中,将从6亿个web文档中提取的2,451,254个因果关系候补的一部分用作数据集。三位注释者对这些数据是否适合作为因果关系进行判断并注释。作为该情况下的因果关系的定义,设为只有若事件A发生时,则事件B的发生概率增加的时候,而且不考虑上下文,且只有仅由因果关系候补能够根据该基准进行判断的时候,才能判断为因果关系是适当的。最终的决定是多数投票,Fleiss′kappa为0.67,判断几乎一致。
在表1中,示出与学习数据、开发数据以及测试数据有关的统计。虽然开发数据以及测试数据是从提取的全部因果关系候补中随机采样并选择的,但是没有对学习数据这样进行过。在三个数据集之间,不存在共用的因果关系候补。
[表1]
Figure GDA0004124814590000191
针对MCNN60,以300维的单词嵌入矢量,使用skip-gram以及负抽样算法,通过在非专利文献1中提取了因果关系候补的日语的原始数据(2.4M句子,0.6M单词)进行了预先学习。跳过间隔设定为5,负示例数设定为10。在这些句子内的出现次数少于5次的单词均删除,作为未知词处理,并分配随机矢量。此外,对于模式中的变量也作为未知语处理,并分配随机矢量。
在所有实验中,在MCNN60的最后一层应用0.5的滤除,以使用100个数据的小批量,作为学习率衰减=0.95通过SGD(Stochastic Gradient Descent:随机梯度下降法)进行了学习。使用所有的学习数据进行了5个时间间隔的学习。
针对超参数,使用开发数据对以下的设定进行了讨论。对于N-gram的组合,从{2、3、4、5、6}中选择三个、四个以及五个并进行组合。例如,在某个设定中,能够写为(2、3、4)×200。这意味着以2gram、3gram以及4gram的组合分别使用200个滤波器。针对N-gram的组合,仅针对连续的N进行了选择。例如,虽然对2、3、4这一组合进行了调查,但没有采用2、4、6这一组合。滤波器数量从50、100以及200中选择。超参数的设定的组合数为18,对所有这些进行了讨论。
作为评价基准,根据非专利文献1,采用了平均适合率(Average Precision:AP)。使用由开发数据获得的、AP为前两个的超参数设定,对各超参数设定进行五个模型的学习,并以对2×5的模型的AP来计算最终的适合率。在表2中,示出最好的超参数设定和通过开发数据进行的超参数的调整时的AP。
[表2]
Figure GDA0004124814590000201
在该表中,Base是以与上述实施方式相同的思维方式仅使用因果关系候补的原因部以及结果部和原始的句子的上下文的情况。表2中使用的缩写及其含义如下。BP使用二进制模式,WH使用为什么型问答系统的回答,CL是具有线索词的句子的组。表示最佳性能的是Base+BP+WH(2、3、4、5、6)× 200。
[表3]
Figure GDA0004124814590000211
表3示出对测试数据的实验结果。为了比较,除了本发明的实验结果之外,还示出了其他的以往技术的实验结果。虽然非专利文献1使用SVM,但是使用其所有的特性通过开发数据对SVM进行微调,并组合在上述实施方式中使用的BP、WH以及CL来进行测试。在对非专利文献1的实验中,并非如上述实施方式那样仅使用15个二进制模式,而是使用所有的二进制模式。
在表3中,示出了“CNN-SENT”具有与上述实施方式相同的结构,且代替MCNN60而使用单列卷积神经网络(CNN)。然而,在该情况下,对包括因果关系的原始的句子进行扫描这一点不同。对于超参数进行优化,并通过与已经叙述的方法相同的方法来计算模型的AP。
从表3可明显得知,通过本发明所涉及的方法,获得了比其他的方式更好的AP。以本发明所涉及的方法并以Base+BP+WH的组合获得了最佳AP(54.85%),这比非专利文献1的方法的最佳的值(47.52%)高7%。此外,与使用单列的CNN的情况相比,通过使用MCNN60,在AP中可以看到5.6%的改善(CNN-SENTvs.Base)。通过内置从二进制模式和为什么型问答系统的回答获得的背景知识,在AP中获得了5%的改善(Basevs.Base+BP+WH)。
在图9中,示出针对该实验的一部分的设定的PR(Precision-Recall)曲线。在图9所示的图表中,横轴表示再现率,纵轴表示适合率。再现率表示分值居高的给定个数中存在的正确的因果关系的数量与对象数据中存在的正确的因果关系整体的数量的比例,适合率表示分值居高的给定个数与其中的正确的候补的比例。PR曲线描绘了使从分值居高的值选择的个数依次变化时的再现率和适合率的关系。能够获得PR曲线的图表越高结果越理想。
参照图9,示出根据本发明的最佳结果(Base+BP+WH)的图表480位于远远比其他所有的PR曲线更靠上的位置。此外,在本发明中不使用背景知识的(Base)的图表482也位于比以往的方法的非专利文献1+BP+WH的图表484、非专利文献1的图表486、以及CNN-SENT的图表488更靠上的位置,因此能够确认本发明的有效性。
从表3还可以看出,根据本发明的任何方法都示出优于以往技术的AP。即,在上述实施方式中说明的任何背景知识源在本发明中对于AP的提高均是有效的。此外,还可以看出,若组合这些背景知识源,则除了CL(基于线索词的关联段落)之外,与单独的情况相比,进一步提高了AP。在CL的情况下,因为以简单的处理取出背景知识,因此认为作为背景知识是有噪声的。但是,即使是CL单独,与以往技术相比,也提高了AP。因此,在本发明中,能够应用上述背景知识源的任意的组合。
此外,在上述实施方式中,使用MCNN60。但是,本发明并不是仅通过MCNN才能够实现。代替MCNN,也可以使用多列的LSTM(Long ShortTerm Memory)。
[通过计算机实现]
本发明的上述实施方式所涉及的对话系统、因果关系识别装置30及其各功能部能够通过计算机硬件和在该计算机硬件上执行的计算机程序实现。图10示出该计算机系统630的外观,图11示出计算机系统630的内部结构。
参照图10,该计算机系统630包括具有存储器端口652以及DVD(DigitalVersatile Disc,数字通用盘)驱动器650的计算机640、键盘646、鼠标648以及监视器642。
参照图11,除了存储器端口652以及DVD驱动器650之外,计算机640还包括CPU(中央处理装置)656、与CPU656、存储器端口652以及DVD驱动器650连接的总线666、存储引导程序等的读出专用存储器(ROM)658、与总线666连接并存储程序命令、系统程序以及作业数据等的随机存取存储器(RAM)660以及硬盘654。计算机系统630还包括提供对能够实现与其他终端的通信的网络668的连接的网络接口644。
用于使计算机系统630作为上述实施方式所涉及的对话系统的各功能部发挥功能的计算机程序存储到DVD驱动器650或者在存储器端口652上装配的DVD662或者可移动存储器664中,进而被传送到硬盘654。或者,程序也可以通过网络668发送到计算机640并存储到硬盘654中。程序在执行时被加载到RAM660中。也可以将程序直接从可移动存储器664或者经由网络668从DVD662加载到RAM660中。
该程序包括由用于使计算机640作为上述实施方式所涉及的因果关系识别装置30及其各功能部而发挥功能的多个命令构成的命令列。使计算机640进行该动作所需的一些基本功能使由在计算机640上动作的操作系统或者第三方的程序或者计算机640中安装的、能够动态链接的各种编程工具包或者程序库提供。因此,该程序本身不一定包括实现该实施方式的系统,装置以及方法所需的所有的功能。该程序只要包括通过以受控方式在执行时动态调用命令当中的、适当的功能或者编程工具包或程序库内的适当的程序,使得获得所希望的结果,从而实现作为上述系统、装置或者方法的功能的命令即可。当然,也可以仅以程序提供所有功能。
工业实用性
本发明能够从因特网上存在的文本所代表的大量信息中发现人类不会立即明确的因果关系,不管是经营计划、生产计划、理科以及文科,能够实现与各种各样的领域的研究计划等有关的有效的指导和预测,因此不仅在提供这样的服务的产业,而且在所有的产业中都能够有效利用。
这次公开的实施方式仅是例示,本发明不限于上述实施方式。在考虑对发明的详细的说明的记载的基础上,本发明的范围由权利要求的各权利要求表示,且包括与在其中记载的语言等同的含义以及范围内的所有的变更。
附图标记说明
30 因果关系识别装置;
32 因果关系候补;
36 问答系统;
38 web存档;
50 候补矢量生成部;
52 上下文矢量生成部;
54 二进制模式矢量生成部;
56 回答矢量生成部;
58 关联段落矢量生成部;
60 多列卷积神经网络(MCNN);
62 阈值存储部;
64 判断部;
80、150、200 候补存储部;
82 单词分离部;
84、114、158、210 词素解析部;
86、116、160、212 依赖关系解析部;
88~94 第一~第四上下文矢量生成部;
110 因果关系候补存储部;
112 候补句子检索部;
118 二进制模式检索部;
120 二进制模式计数存储部;
122 二进制模式排序部;
124 二进制模式选择部;
126 二进制模式连结部;
128 二进制模式字典;
152 问句创建部;
154 回答获取部;
156 回答/分值存储部;
162、204 线索词字典;
164、214 模式生成部;
166 模式/原始分值存储部;
168、218 模式排序部;
170、220 模式选择部;
172、222 模式连结部;
202 单词提取部;
206 关联段落获取部;
208 关联段落存储部;
216 模式/频率存储部;
344 Softmax层;
360~374 第一~第八列卷积神经网络。

Claims (6)

1.一种因果关系识别装置,自动识别由在文本中找到的第一短语以及第二短语表示的因果关系,其中,
所述第一短语是所述因果关系的原因部的候补,所述第二短语是所述因果关系的结果部的候补,
所述第一短语以及所述第二短语均包括名词词组和谓语的组合,
所述因果关系识别装置包括:
第一矢量生成单元,接受由所述第一短语以及第二短语构成的因果关系候补,并生成分别表示构成该因果关系候补的单词序列的第一单词矢量的组;
第二矢量生成单元,生成分别表示构成上下文的单词序列的第二单词矢量,在所述上下文中,所述第一短语以及所述第二短语出现在所述文本中;
背景知识矢量生成单元,用于生成表示背景知识的单词矢量,所述背景知识用于判断所述第一短语中包括的名词词组和第二短语中包括的名词词组之间有无因果关系;以及
分类单元,预先学习完毕,使得接受所述第一单词矢量以及所述第二单词矢量和由所述背景知识矢量生成单元生成的单词矢量,并输出指标,所述指标为:成为了这些单词矢量的源的所述因果关系候补是因果关系,
所述背景知识矢量生成单元至少包括以下任一个单元的任意的组合:
第三矢量生成单元,从大量的文档中收集模式,并生成表示该模式的单词序列的第三单词矢量,所述模式包括所述第一短语中包括的名词词组、所述第二短语中包括的名词词组、以及连接这些名词词组的谓语;
第四矢量生成单元,根据所述因果关系候补生成为什么型提问,从为什么型问答装置接受对于该为什么型提问的回答的集合,并根据该回答的集合中包括的回答当中的、均包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的回答,生成第四单词矢量,所述第四单词矢量表示至少包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的单词序列;以及
第五矢量生成单元,从大量的文档中存在的、连续的给定个数的句子的组,即所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组与关联于因果关系的线索词具有搭配关系的段落,生成第五单词矢量,所述第五单词矢量表示连结所述第一短语以及所述第二短语中包括的名词词组、在该句子的组内表示两者的依赖关系的单词、以及该句子的组中包括的所述线索词所获得的单词序列。
2.根据权利要求1所述的因果关系识别装置,其中,
所述分类单元包括多列神经网络,所述多列神经网络具有多列,并预先学习完毕,使得分别在各个列的子网络中接受所述第一单词矢量以及所述第二单词矢量和由所述背景知识矢量生成单元输出的单词矢量,并输出指标,所述指标为:成为了这些单词矢量的源的所述因果关系候补是因果关系。
3.根据权利要求1或2所述的因果关系识别装置,其中,
所述第三矢量生成单元包括:
二进制模式收集单元,从所述大量的文档中收集二进制模式,所述二进制模式由包括所述第一短语中包括的名词词组、所述第二短语中包括的名词词组、以及连接这些名词词组的谓语的模式构成;
频率计算单元,计算由所述二进制模式收集单元收集的二进制模式的出现频率;以及
生成表示单词序列的单词矢量,并输出为所述第三单词矢量,所述单词序列构成由所述二进制模式收集单元收集的二进制模式当中的、由所述频率计算单元计算的频率居高的给定个数的二进制模式的单元。
4.根据权利要求1或2所述的因果关系识别装置,其中,
所述第四矢量生成单元包括:
回答获取单元,通过将表示为什么型提问的疑问词添加到所述第二短语中,生成为什么型提问并提供给所述为什么型问答装置,从而从该为什么型问答装置获取回答的集合;
提取单元,从所述回答获取单元获取的所述回答的集合中提取均包括所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组的给定个数的回答;
依赖关系解析单元,解析由所述提取单元提取的回答的各个依赖关系并生成依赖构造;以及
针对由所述提取单元提取的各个回答,生成由所述依赖关系解析单元生成的所述依赖构造上的、表示包括所述第一短语以及所述第二短语中包括的名词词组和存在于处于给定的关系的位置的单词在内的单词序列的单词矢量,并输出为所述第四单词矢量的单元。
5.根据权利要求1或2所述的因果关系识别装置,其中,
所述第五矢量生成单元包括:
检索单元,从大量的文档中检索由连续的给定个数的句子构成的段落,即所述第一短语中包括的名词词组以及所述第二短语中包括的名词词组与关联于因果关系的线索词具有搭配关系的段落;
依赖解析单元,解析由所述检索单元检索的段落的依赖关系并生成依赖构造;以及
在由所述依赖解析单元生成的依赖构造中,连结所述第一短语以及所述第二短语中包括的名词词组之间的路径中存在的单词和该段落中包括的所述线索词,并从单词序列生成第五单词矢量的单元。
6.一种存储介质,存储有计算机程序,所述计算机程序使计算机作为权利要求1至5中的任一项所述的因果关系识别装置发挥功能。
CN201780061597.2A 2016-10-05 2017-09-28 因果关系识别装置及存储介质 Active CN109791569B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-197306 2016-10-05
JP2016197306A JP6721179B2 (ja) 2016-10-05 2016-10-05 因果関係認識装置及びそのためのコンピュータプログラム
PCT/JP2017/035148 WO2018066445A1 (ja) 2016-10-05 2017-09-28 因果関係認識装置及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN109791569A CN109791569A (zh) 2019-05-21
CN109791569B true CN109791569B (zh) 2023-07-04

Family

ID=61831465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780061597.2A Active CN109791569B (zh) 2016-10-05 2017-09-28 因果关系识别装置及存储介质

Country Status (5)

Country Link
US (1) US11256658B2 (zh)
JP (1) JP6721179B2 (zh)
KR (1) KR102431549B1 (zh)
CN (1) CN109791569B (zh)
WO (1) WO2018066445A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6622172B2 (ja) * 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
JP6860084B2 (ja) * 2017-11-10 2021-04-14 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
JP7139626B2 (ja) * 2018-03-02 2022-09-21 日本電信電話株式会社 フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
US11651166B2 (en) * 2018-03-02 2023-05-16 Nippon Telegraph And Telephone Corporation Learning device of phrase generation model, phrase generation device, method, and program
JP6775545B2 (ja) * 2018-05-09 2020-10-28 日本電信電話株式会社 対話データ生成装置、対話データ生成方法、およびプログラム
CN110851573A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 语句处理方法、系统和电子设备
CN111104477B (zh) * 2018-10-29 2023-04-14 阿里巴巴集团控股有限公司 事件确认方法、装置及电子设备
KR102259703B1 (ko) * 2018-12-27 2021-06-02 (주)아크릴 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
KR102203895B1 (ko) * 2019-02-20 2021-01-15 성균관대학교산학협력단 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
JP7342942B2 (ja) * 2019-06-06 2023-09-12 日本電気株式会社 方法、デバイス、及びコンピュータプログラム製品
JP6875457B2 (ja) * 2019-06-18 2021-05-26 ヤフー株式会社 取得装置、取得方法、および取得プログラム
KR102259390B1 (ko) * 2019-09-09 2021-06-02 주식회사 솔트룩스 앙상블 질의 응답을 위한 시스템 및 방법
US11797594B2 (en) * 2019-12-09 2023-10-24 Verint Americas Inc. Systems and methods for generating labeled short text sequences
JP7452623B2 (ja) 2020-03-06 2024-03-19 日本電信電話株式会社 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
CN111401033B (zh) * 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN111488740B (zh) * 2020-03-27 2023-12-22 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
KR20220066634A (ko) 2020-11-16 2022-05-24 한국전자통신연구원 다변량 간 직접 인과 네트워크 생성 방법 및 시스템
KR102535613B1 (ko) 2021-02-15 2023-05-23 한국전자통신연구원 다변량 세트에서의 매개 변량 및 매개 영향도 추출 방법 및 시스템
CN113779190B (zh) * 2021-07-20 2023-08-18 中国科学院自动化研究所 事件因果关系识别方法、装置、电子设备与存储介质
KR102426508B1 (ko) 2021-12-21 2022-07-29 주식회사 스탠다임 문서 데이터로부터 질병과 유전자 간의 연관성을 예측하고 논거 문장을 출력하는 모델의 구축 방법 및 이를 이용한 시스템
CN115577678B (zh) * 2022-09-21 2024-04-02 中国人民解放军海军工程大学 文档级事件因果关系识别方法、系统、介质、设备及终端
CN117271755B (zh) * 2023-11-21 2024-03-08 青岛海尔乐信云科技有限公司 基于人工智能的客诉闭环规则引擎管理控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097573A (zh) * 2006-06-28 2008-01-02 腾讯科技(深圳)有限公司 一种自动问答系统及方法
JP2009157791A (ja) * 2007-12-27 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN105830064A (zh) * 2013-12-20 2016-08-03 国立研究开发法人情报通信研究机构 情态生成装置以及用于其的计算机程序

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251781B2 (en) 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム
US8666730B2 (en) * 2009-03-13 2014-03-04 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP5924666B2 (ja) 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
WO2014017023A1 (ja) * 2012-07-26 2014-01-30 日本電気株式会社 原因表現抽出装置、原因表現抽出方法および原因表現抽出プログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
JP6767042B2 (ja) * 2016-09-26 2020-10-14 国立研究開発法人情報通信研究機構 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097573A (zh) * 2006-06-28 2008-01-02 腾讯科技(深圳)有限公司 一种自动问答系统及方法
JP2009157791A (ja) * 2007-12-27 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法
CN105830064A (zh) * 2013-12-20 2016-08-03 国立研究开发法人情报通信研究机构 情态生成装置以及用于其的计算机程序
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Simultaneous detection and segmentation;Hariharan B. 等;《European conference on computer vision》;20140930;297-312 *
You dont have to believe everything you read: Background knowledge permits fast and efficient validation of information;Richter Tobias 等;《Journal of personality and social psychology》;20091231;第96卷(第3期);538-558 *
中文Web文本自动分类的研究与实现;刘磊;《中国优秀硕士学位论文全文数据库信息科技辑》;20080215(第02期);I138-255 *
网络文本情感新词发现及情感关键句抽取判定研究;刘铭;《中国优秀硕士学位论文全文数据库信息科技辑》;20160115(第01期);I138-942 *

Also Published As

Publication number Publication date
WO2018066445A1 (ja) 2018-04-12
JP2018060364A (ja) 2018-04-12
KR20190062413A (ko) 2019-06-05
US20210286948A1 (en) 2021-09-16
CN109791569A (zh) 2019-05-21
KR102431549B1 (ko) 2022-08-11
JP6721179B2 (ja) 2020-07-08
US11256658B2 (en) 2022-02-22

Similar Documents

Publication Publication Date Title
CN109791569B (zh) 因果关系识别装置及存储介质
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
KR20180048624A (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
JP6870421B2 (ja) 判定プログラム、判定装置および判定方法
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
CN105975491A (zh) 企业新闻分析方法及系统
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN114547370A (zh) 一种视频摘要提取方法及系统
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN110147552B (zh) 基于自然语言处理的教育资源质量评价挖掘方法及系统
CN116186562B (zh) 基于编码器的长文本匹配方法
Uy et al. A study on the use of genetic programming for automatic text summarization
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
KR102330190B1 (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법
Zhang et al. Boilerplate detection via semantic classification of TextBlocks
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN113886535B (zh) 基于知识图谱的问答方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant