CN109791632B - 场景片段分类器、场景分类器以及记录介质 - Google Patents

场景片段分类器、场景分类器以及记录介质 Download PDF

Info

Publication number
CN109791632B
CN109791632B CN201780057398.4A CN201780057398A CN109791632B CN 109791632 B CN109791632 B CN 109791632B CN 201780057398 A CN201780057398 A CN 201780057398A CN 109791632 B CN109791632 B CN 109791632B
Authority
CN
China
Prior art keywords
scene
unit
score
classifier
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780057398.4A
Other languages
English (en)
Other versions
CN109791632A (zh
Inventor
稻田和明
桥本力
鸟泽健太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN109791632A publication Critical patent/CN109791632A/zh
Application granted granted Critical
Publication of CN109791632B publication Critical patent/CN109791632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供判定使因果关系连锁而得到的场景候补是否妥当的场景片段分类器和场景分类器。场景片段分类器包含:文档断片检索部(306),其检索场景候补中所含的全名词句在1个文档的由一定数量以内的句构成的文档断片内同时出现的文档断片的集合;特性提取部(314),其从场景候补与检索到的各支持片段的各自的各个组合提取特性;分类器(316),其基于成为特性的源的支持片段,输出表征场景候补的可靠度的评分;评分蓄积部(318)以及最大值选择部(330),它们蓄积由分类器(316)输出的评分,选择最大值作为场景候补的可靠度。场景分类器根据包含该场景片段分类器输出的评分的特性来判定场景候补的作为因果关系的妥当性。

Description

场景片段分类器、场景分类器以及记录介质
技术领域
本发明涉及人工智能领域中的自然语言处理,特别涉及用于判定通过使表征因果关系的表达连锁而得到的因果关系候补(称作“场景候补”)作为连续的因果关系是否妥当的技术。
背景技术
所谓因果关系,与“全球变暖推进→冰川减少”、“冰川减少→海平面上升”那样,是使指表征成为原因的事件的表达(事件表达)和成为其结果的事件表达成为带顺序的配对的数据。进而,将通过使这样的因果关系连锁2个以上而得到的“全球变暖推进→冰川减少→海平面上升。”那样的3个以上的事件表达所构成的表达称作场景。这样的场景的自动生成可视作使基于被称作“预测会发生的未来的展开,制订将来的战略或应对”场景规划的模拟的决策手法自动化的尝试。通过观察通过自动生成得到的场景,能进行考虑了将来的潜在的机会以及风险的更佳的决策。其结果,为了获得场景所示的机会或避免场景所示的风险而起到作用。
关于场景的自动生成,近年来研究盛行。在非专利文献1中报告了仅由2013年发表的论文投稿前的文档生成了该论文记载的“全球变暖推进→海水温度上升→溶血性弧菌污染→食物中毒增加”这样的场景。
非专利文献1记载的技术通过将从大规模的WEB档案获得的因果关系连结而生成了场景。作者们获得的因果关系由“全球变暖推进→海水温度上升”这样的2个事件构成。通过将“全球变暖推进→海水温度上升”和“海水温度上升→溶血性弧菌污染”这样的2个因果关系连结,来生成“全球变暖推进→海水温度上升→溶血性弧菌污染”这样的场景。
在非专利文献1中,在判定为2个因果关系中一方的结果部分和另一方的原因部分实质相同时,判定为能将这2个因果关系连结。
非专利文献
非专利文献1:Hashimoto,C.,Torisawa,K.,Kloetzer,J.,Sano,M.,Varga,I.,Oh,J.-H.,and Kidawara,Y.(2014).“Toward Future Scenario Generation:ExtractingEvent Causality Exploiting Semantic Relation,Context,and AssociationFeatures.”In Proceedings of the 52nd Annual Meeting of the Association forComputational Linguistics(ACL 2014),pp.987-997.
非专利文献2:Hashimoto,C.,Torisawa,K.,Saeger,S.D.,Oh,J.-H.,and Kazama,J.(2012).“Excitatory or inhibitory:A new semantic orientation extractscontradiction and causality from the web.”In Proceedings of EMNLP-CoNLL 2012:Conference on Empirical Methods in Natural Language Processing and NaturalLanguage Learning,pp.619-630.
发明内容
发明要解决的课题
但是,在非专利文献1记载的手法中,有生成“喝下钡餐→接受X射线检查→搭乘飞机”这样没有连贯性的错误场景的可能性。作为生成这样的场景的原因之一,能举出未充分确认连结的因果关系间的上下文的连贯性。“喝下钡餐→接受X射线检查→搭乘飞机”这样的场景被认为由于将“喝下钡餐→接受X射线检查”这样医院的上下文的因果关系和“接受X射线检查→搭乘飞机”这样机场的上下文的因果关系未考虑各自的上下文地连结而产生。为了避免该问题,在非专利文献1记载的手法中,使用因果关系的提取源的句中所含的单词的重复程度来作成估计进行连结的因果关系间的连贯性的有无的过滤器。其结果展现了一定的有效性,但运用的过滤器的效果不能说是充分的。
因此,本发明的目的在于,提供用于判定使因果关系连锁而得到的场景候补是否是在上下文有连贯性的妥当的场景的场景分类器、为此而算出场景候补的可靠度的场景片段分类器。
用于解决课题的手段
本发明的第1方面所涉及的场景片段分类器接受由有表征连锁的因果关系的可能性的至少3个事件表达所构成的场景候补,通过在多个文档中求取支持该场景候补的内容的片段,来输出表征该场景候补的可靠度的评分。该场景片段分类器与包含多个文档的计算机可读的存储装置连接而使用。该场景片段分类器包含:文档断片检索单元,其在上述多个文档内检索场景候补中所含的全部名词句在1个文档的包含一定数量以内的句的文档断片内同时出现那样的文档断片的集合;特性提取单元,其从场景候补分别与由文档断片检索单元检索的各文档断片的各个组合提取预先确定的特性;预先通过机器学习学习完毕的评分输出单元,其对与场景候补相关的各个组合,接受特性,输出基于成为该特性的源的文档断片算出的表征输入的场景候补的可靠度的评分;和评分选择单元,其对与场景候补相关的各个组合选择由评分输出单元输出的评分中的最大值,作为场景候补的可靠度,并输出。
优选地,一定数量是2以上且10以下的整数,更优选地,是3以上且8以下。
进一步优选地,场景片段分类器还包含:存储单元,其存储场景候补中评分成为阈值以上的场景候补。
本发明的第2方面所涉及的场景分类器接受由有表征连锁的因果关系的可能性的至少3个事件表达所构成的场景候补,判定该场景候补作为因果关系是否妥当。该场景分类器包含:评分接收单元,其接受场景候补的输入,将该场景候补赋予上述任意的场景片段分类器,接收该场景片段分类器输出的可靠度的评分;特性提取单元,其从场景候补提取给定的特性;和预先通过机器学习学习完毕的判定单元,其若接受包含由特性提取单元提取的给定的特性和评分接收单元接收到的评分的输入,则输出表示场景候补的作为因果关系的妥当性的评分。
本发明的第3方面所涉及的计算机程序使计算机作为上述的各装置的各单元发挥功能。
附图说明
图1是表示本发明的一个实施方式所涉及的场景生成系统的结构的框图。
图2是图1所示的场景生成系统中使用的场景候补生成部的框图。
图3是图1所示的场景生成系统中使用的场景分类器的框图。
图4是图3所示的场景分类器中所含的基本特性提取部的框图。
图5是图3所示的场景分类器中所含的场景片段分类器特性提取部的框图。
图6是图1所示的场景生成系统中使用的场景片段分类器的框图。
图7是图6所示的场景片段分类器中使用的特性提取部的框图。
图8是表示用于算出按分组区别语义场景评分的程序的控制结构的流程图。
图9是以表形式示出分类器所使用的特性的一览的图。
图10是以表形式示出场景片段分类器所使用的特性的一览的图。
图11是表示根据在实验通过各手法得到的评分将场景-场景片段的组排序而得到的PR曲线的图表。
图12是表示根据在实验中通过各手法得到的评分将场景排序时的PR曲线的图表。
图13是实现本发明的一个实施方式所涉及的场景生成系统的计算机系统的外观图。
图14是图13所示的计算机的框图。
具体实施方式
在以下的说明以及附图中,对相同部件标注相同参考编号。因此不再重复对它们的详细的说明。另外,以下的说明中使用的“SVM”是指机器学习的领域广为人知的分类器即“支持向量机”。另外在本说明书中,所谓“SPPR”,是指场景片段分类器(Scenario PassagePair Recognizer)。
[第1实施方式]
〔结构〕
<整体结构>
在图1示出本发明的一个实施方式所涉及的场景生成系统30的框图。参考图1,场景生成系统30包含:因果关系表达存储部40,其是用于存储大量表征因果关系的事件表达的配对所构成的因果关系表达的计算机可读的存储装置;场景候补生成部42,其与因果关系表达存储部40连接,用于取出因果关系表达存储部40中所含的因果关系中的一方的因果关系的结果部分与另一方的因果关系的原因部分实质一致那样的因果关系配对,通过在实质一致的部分使该配对连锁来生成场景候补;场景候补存储部44,其用于存储由场景候补生成部42生成的许多场景候补;和场景分类器46,其对存储于场景候补存储部44的各个场景候补,考虑它们所出现的上下文来算出表示作为表征因果关系的场景是否妥当的评分,输出按评分的降序将场景候补排列的场景候补排序52。场景候补生成部42所进行的场景候补的生成与非专利文献1同样。
场景生成系统30进一步包含:WEB档案50,其存储从因特网上的WEB收集的大量的文档;场景片段分类器48,其从场景分类器46接受场景候补,从WEB档案50提取有表达场景候补的可能性的文档断片,进行判定提取的文档断片作为整体是否表达(支持)场景候补所示的内容的处理,基于其结果来进行算出表示场景候补的作为因果关系的可靠度的评分并输出到场景分类器46的处理、和将评分高的场景候补作为场景片段另外进行输出的处理;和正例存储部54,其为了将场景片段分类器48输出的评分高的场景候补在场景分类器46的学习时作为正例使用而将其存储。
存储于因果关系表达存储部40的各个因果关系表达是表示表征原因的事件表达和表征其结果的事件表达的表达的组合。这些事件表达全都如“全球变暖推进”、“冰川减少”那样,由名词句与谓语部的组合构成。实际上,这些事件表达在在本实施方式中,如“X推进”+“地球温暖化”以及“X减少”+“冰川”那样,表达为具有表示相当于主语的部分的插入处(变量)的谓语部与插入到该插入处的名词句的组合。将“X推进”那样组合插入处和谓语部的结构在本说明书称作“谓语模板”。即,各因果关系通过谓语模板与名词句的组合表达。
对谓语模板分配被称作活性非活性极性的极性(以下将活性非活性极性仅称作“极性”)。该极性在非专利文献2已经被报告,是为了获得因果关系或对立的事件表达而导入的概念。谓语模板根据其极性被分类成活性、非活性、无极性的任一者。活性的极性如“X推进”那样被赋予使项部分的名词句的功效、活动、意思或职责活跃的谓语模板。非活性的极性如“X停止”那样被赋予抑制或压抑项部分的名词句的效果的谓语模板。未被分类成活性和非活性的任意者的谓语模板被分类成无极性。谓语模板的极性预先对大量的文档进行自然语言处理而决定。
<场景候补生成部42的结构>
参考图2,场景候补生成部42包括:因果关系对选择部70,其选择存储于因果关系表达存储部40的因果关系中一方的结果部和另一方的原因部共享名词句那样的因果关系的对;第1候补选择部72,其选择由因果关系对选择部70选择的因果关系的对中在结果部具有两者所共享的名词句的第1因果关系候补;和第2候补选择部74,其选择在原因部具有两者共享的名词句的第2因果关系候补。
场景候补生成部42还包含:模板极性存储部80,其用于存储谓语模板的极性;第1候补极性判定部76,其通过参考模板极性存储部80来判定由第1候补选择部72选择的第1因果关系候补的谓语模板的极性,将其附加在第1因果关系候补并输出;第2候补极性判定部78,其参考模板极性存储部80来判定由第2候补选择部74选择的第2因果关系候补的谓语模板的极性,附加在第2因果关系候补并输出;和场景候补选择部82,其对第1候补极性判定部76输出的第1因果关系候补和第2候补极性判定部78输出的第2因果关系候补选择它们的谓语模板的极性一致的因果关系候补的组合作为场景候补,输出到场景候补存储部44。
<场景分类器46的结构>
参考图3,场景分类器46包含:场景候补读出部100,其按顺序1个1个地将存储于场景候补存储部44的场景候补读出并输出;基本特性提取部102,其对场景候补读出部100输出的场景候补,提取后述那样的基本特性122,并相应地输出使用场景片段分类器48的输出得到的SPPR特性的提取中所用的SPPR特性生成用信息104;场景发送部106,其将场景候补读出部100输出的场景候补发送到场景片段分类器48,并请求SPPR特性的输出;和评分接收部108,其接收对应于由场景发送部106发送的请求而从场景片段分类器48发送来的表示该场景候补被实际的文档的文档断片支持到何种程度支持的评分,作为可靠度评分120输出。可靠度评分120除了包含该评分,还包含表示是否找到支持场景候补的支持片段的标记。
场景分类器46还包含:SPPR特性提取部110,其接受来自基本特性提取部102的SPPR特性生成用信息104以及来自评分接收部108的可靠度评分120,输出反映了场景片段分类器48的判定的结果的SPPR特性124;和SVM112,其预先通过机器学习而学习完毕,接受由来自基本特性提取部102的基本特性122以及来自SPPR特性提取部110的SPPR特性124所构成的特性向量,对应于特性的值来算出表示场景候补读出部100输出的场景候补作为表征因果关系的场景妥当到何种程度的评分,并输出。
场景分类器46还包含:评分记录部114,其接受SVM112输出的评分和场景候补读出部100输出的场景候补,为了将场景候补和SVM112输出的评分相互建立关联地进行记录而输出;带评分场景候补存储部116,其将评分记录部114输出的场景候补和其评分相互建立关联,能读出地蓄积存储;和场景候补排序部118,其通过将存储于带评分场景候补存储部116的场景候补按其评分的降序进行分类来赋予位次,生成并输出场景候补排序52。
在图9一览示出场景分类器46的SVM112所使用的特性。
参考图9,该特性被分为4个分组。第1分组由B1~B4构成,第2分组由H1~H4构成,第3分组由SP1~SP3构成,第4分组由GSP1~GSP3构成。
第1分组的B1是场景内的谓语模板,B2是场景内的谓语模板的活性非活性极性,B3是从WEB档案6亿文档获得的场景内的名词句的对数频率,B4是以参考文献1的算法为基础从WEB档案6亿文档获得的场景内的场景名词句的语义类别。
第2分组的H1是将被赋予的场景内中所含的因果关系的非专利文献1的SVM评分以S型函数归一化成[0,1]的值,H2是非专利文献1的场景的评分(乘以H1的值),H3是场景中所含的因果关系的提取源的文档间的单词重复的预先相似度,H4表示场景的接合部分(将2个因果关系连接的在两者中共通的事件表达的谓语模板)的意思包含关系评分。该评分是正向以及反向2个种类。
第3分组的SP1是将场景片段辨识的可靠度评分以S型函数归一化成[0,1]的值。未发现文档断片时的场景的场景片段辨识的可靠度评分作为0进行处置。SP2表示在场景片段辨识中是否发现了与输入的场景对应的文档断片。SP3表示归一化的场景评分(H2)与归一化的场景片段辨识的可靠度评分(SP1)之和。
第4分组的GSP1、GSP2以及GSP3分别与第3分组的SP1、SP2以及SP3对应。GSP1、GSP2以及GSP3将场景片段辨识的可靠度评分以概括的场景(语义场景)进行分组化,求其最大值来求取SP1~SP3。例如场景“全球变暖推进→冰川减少→海平面上升”在语义化场景中表达为“#C101:活性→#C73:非活性→#C33:活性(“#C”:表征语义类别)”。在GSP1~GSP3的获得时,首先在对全部场景候补求取场景片段辨识的评分后,将全场景置换成语义化场景,将具有共通的语义化场景的场景和评分分组化。之后将各分组内的评分的最大值作为属于该分组的场景的场景片段辨识的评分来处置,用与SP1~SP3同样的方法获得特性。
《场景分类器46的基本特性提取部102的结构》
参考图4,基本特性提取部102使用各种各样的信息来生成基本特性122。在基本特性提取部102生成基本特性122时使用的信息中有因果关系评分、对数频率、名词句类别、提取源文档、意思包含关系评分以及谓语模板极性。对它们在以下进行说明。
-因果关系评分-
所谓因果关系评分,是指对被赋予的场景中所含的各个因果关系,将非专利文献1的无指导的场景生成中使用的SVM输出的评分以S型函数归一化成[0,1]的范围的值。该评分是各因果关系自身的表征作为因果关系的可信度的指标之一。该值事前计算,按每个因果关系在因果关系评分存储部140中DB化而进行存储,能以因果关系为关键字检索该因果关系评分。在因果关系评分的算出中,在本实施方式中使用非专利文献1的手法。
-对数频率-
事前对大量的文档中所含的每个名词句求取其出现频度并取对数。该信息在对数频率存储部142中被DB化而存储,能以名词句为关键字检索其对数频率。
-名词句类别-
名词句是语义类别。在本实施方式中,以末尾记载的参考文献1公开的手法为基础,从WEB档案中所含的大量的文档预先算出名词句类别,在名词句类别存储部144进行DB化而存储。名词句类别能以名词句为关键字检索名词句类别存储部144而得到。
-提取源文档-
如后述那样,特性的一部分包含被赋予的场景中所含的因果关系的提取源的文档间的单词重复的相似度(预先相似度)。在本实施方式中,为了算出该特性,将成为场景的提取源的文档全都存储在提取源文档存储部146,每当选择实际的场景候补时,就算出该相似度。
-意思包含关系评分-
意思包含关系评分是表征在2个谓语模板之间一方意思包含另一方的程度的评分。通过改变谓语模板的顺序来在2个谓语模板之间算出2个该评分。意思包含关系评分按照参考文献2预先算出,在意思包含关系评分存储部148以2个谓语模板的带顺序配对为关键字进行数据库化,存储。
-谓语模板极性-
对各谓语模板如前述那样使用非专利文献2的技术分配极性。将该值按每个谓语模板存储在极性存储部150,能以谓语模板为关键字获知该极性。
参考图4,基本特性提取部102包含:名词句提取部156,其若被给予场景候补152,就提取构成该场景候补中所含的事件表达的“名词句+谓语“的名词句部分(场景名词句);对数频率检索部154,其对由名词句提取部156提取的各场景名词句,从对数频率存储部142检索它们的对数频率,作为特性的一部分输出;名词句类别决定部158,其对由名词句提取部156提取的各场景名词句,从名词句类别存储部144检索并决定其名词句类别,作为特性的一部分输出;因果关系评分检索部160,其从因果关系评分存储部140检索场景候补152中所含的各因果关系的因果关系评分,并作为特性的一部分输出;和场景评分算出部168,其将由因果关系评分检索部160检索出的场景候补152中所含的各因果关系的评分相互相乘来算出场景评分,作为特性的一部分输出。
基本特性提取部102还包括:模板提取部164,其从场景候补152提取构成各因果关系的事件表达的谓语模板;极性决定部172,其从极性存储部150检索由模板提取部164提取的各谓语模板的极性来决定各谓语模板的极性,作为特性的一部分输出;意思包含关系评分读出部170,其对模板提取部164提取的2个谓语模板的组合从意思包含关系评分存储部148读出双向的意思包含关系评分;和单词相似度算出部174,其在提取了场景候补152中所含的因果关系的原始文档之间算出这些文档内所含的单词的分布的相似度,作为特性的一部分输出。
基本特性提取部102还包含:特性向量变换部178,其接受对各场景名词句由对数频率检索部154检索的对数频率、对各场景名词句由名词句类别决定部158决定的名词句类别、对场景候补152中所含的各因果关系由因果关系评分检索部160检索的因果关系评分、由场景评分算出部168算出的场景评分、由模板提取部164从场景候补提取的谓语模板、由极性决定部172决定的各谓语模板的极性、对意思包含关系评分读出部170输出的谓语模板的各组合的双向的意思包含关系评分、以及由单词相似度算出部174输出的被提取了场景候补152中所含的因果关系的原始文档之间的单词的分布的相似度,变换成基本特性122并输出到SVM112。名词句类别决定部158决定的各名词句类别184、场景评分算出部168算出的场景评分182以及极性决定部172决定的各谓语模板的极性180被作为SPPR特性生成用信息104给到图3所示的SPPR特性提取部110。
《场景分类器46的SPPR特性提取部110的结构》
参考图5,SPPR特性提取部110使用来自图3所示的评分接收部108的可靠度评分120、来自基本特性提取部102的SPPR特性生成用信息104(极性180、场景评分182、名词句类别184)以及预先算出的按分组区别语义场景评分来算出SPPR特性124。
所谓按分组区别语义场景,是指将场景候补中所含的场景名词句全都置换成相应的名词句类别、将谓语模板置换成它们的极性而得到的场景。按分组区别语义场景评分如以下那样算出。预先从大量的文档求取全部场景候补,将它们全都置换成语义场景。对如此求得的语义场景的全部求取后述的SPPR评分,按每个共通的语义场景将评分分组化。将各分组的最大的评分设为该分组的语义场景评分。预先算出该评分,在按分组区别语义场景评分存储部220进行DB化而存储。通过将场景置换成语义场景,从按分组区别语义场景评分存储部220取出对应的分组的评分,来获得该场景的语义场景评分。
SPPR特性提取部110包含:标记提取部240,其从可靠度评分120的值提取表示是否有支持场景候补的支持片段的标记,作为特性的一部分输出;评分归一化部242,在由标记提取部240提取的标记表示存在支持场景候补的支持片段时,将可靠度评分120通过S型函数归一化成[0,1],并作为特性的一部分输出,在没有支持的支持片段时,作为可靠度评分而输出0;场景评分归一化部244,其将来自基本特性提取部102的场景评分182归一化成[0,1];和评分加法运算部246,其算出由场景评分归一化部244归一化的场景评分与由评分归一化部242归一化的可靠度评分之和,并作为特性的一部分输出。
在没找到支持场景候补那样的支持片段的情况下,这里算出的各种特性没有可靠性。但在没找到支持场景候补的支持片段的情况下,在与场景候补语义上相似的场景具有高的可靠度评分时,认为场景候补也合适的可能性高。因此,从输入的场景候补作成语义场景,对这样的语义场景算出与到此为止的叙述同样的特性,在排序中使用。
即,SPPR特性提取部110还包含:语义场景作成部248,其基于谓语模板的极性180和名词句类别184,来从场景候补作成语义场景;和语义场景评分检索部250,其对由语义场景作成部248作成的语义场景,检索按分组区别语义场景评分存储部220,并读出相应的分组的语义场景评分。语义场景评分检索部250这时输出表示是否存在相应的分组的标记。SPPR特性提取部110还包含:评分归一化部252,其将语义场景评分归一化成[0,1];标记提取部254,其从语义场景评分检索部250的输出提取表示作成的语义场景的相应的语义场景分组是否存在于按分组区别语义场景评分存储部220的标记;评分加法运算部256,其将语义场景评分检索部250输出的语义场景评分和由场景评分归一化部244算出的归一化的场景评分相加,作为特性的一部分输出;特性向量变换部258,其将标记提取部240、评分归一化部242、评分加法运算部246、评分归一化部252、标记提取部254以及评分加法运算部256的输出汇总而变换成特性向量的一部分,作为SPPR特性124输出。
<场景片段分类器48的结构>
参考图6,场景片段分类器48包含:WEB档案存储部308,其预先收集并存储WEB上的大量的文档;场景候补接收部300,其从场景分类器46接收场景候补;场景候补存储部302,其存储场景候补接收部300接收的场景候补;名词句提取部304,其从存储于场景候补存储部302的场景候补328提取场景名词句;和文档断片检索部306,其在WEB档案存储部308检索由名词句提取部304提取的场景名词句在1个文档的一定范围(本实施方式中3句以内,包含名词句的最小的句数的句)全都同时出现的文档断片,并取出。在本实施方式中,作为一定范围而设为3句以内,但也可以是2句以内,另外也可以将4以上的任意的句数作为上限。优选地,该范围是2句以上且10句以下,更优选3句以上且8句以下。
场景片段分类器48还包含:与图4所示同样的名词句类别存储部310;极性存储部312,其对各谓语模板存储其极性;特性提取部314,其对由文档断片检索部306取出的文档断片,使用存储于名词句类别存储部310的名词句类别信息、存储于极性存储部312的谓语模板的极性信息和存储于场景候补存储部302的场景候补328,来提取用于判定该文档断片是否作为整体表达(支持)场景候补中记载的事项的特性;和分类器316,其预先通过机器学习进行过学习,若接受到由特性提取部314提取的特性的输入,就输出表示场景候补328通过该文档断片的整体而被表达的程度(可靠度)的评分。另外,在本实施方式中,该分类器316是SVM,但分类器并不限定于SVM。只要能以有指导的模型运用递归而输出评分,就可以使用任何模型。
场景片段分类器48还包含:评分蓄积部318,其蓄积分类器316输出的评分;最大值选择部330,其响应于对处理中的场景候补的文档断片的检索和评分的蓄积全都完成,来选择蓄积于评分蓄积部318的评分的最大值;评分响应部320,其将最大值选择部330选择的评分作为场景候补的可靠度评分,作为响应发送到场景分类器46;判定部324,其将分类器316输出的评分与阈值进行比较,判定处理中的场景候补作为场景能否信赖;阈值存储部322,其存储由判定部324用在判定中的阈值;和正例选择部326,其选择由判定部324判定为作为场景能信赖的场景候补作为场景分类器46的学习中所用的正例,与文档断片所构成的支持片段进行配对并输出到正例存储部54。
对1个场景候补,文档断片检索部306从WEB档案存储部308检索尽可能的文档断片,对它们全部由分类器316算出评分。评分蓄积部318蓄积该评分,若对全部文档断片完成评分的算出,则最大值选择部330选择这当中的最大值,并经由评分响应部320发送到场景分类器46。通过如此选择评分的最大值,如果文档断片中即使有1个充分支持场景候补,该场景候补的可靠度评分也会变高。
《场景片段分类器48的特性提取部314的结构》
参考图7,场景片段分类器48的特性提取部314包含:词素解析部350,其若接受来自文档断片检索部306的文档断片340,就对其中所含的各句进行词素解析,并输出词素串;和修饰被修饰解析部352,其对从词素解析部350输出的词素串进行修饰被修饰解析,输出修饰被修饰树。从如此得到的词素串以及修饰被修饰树提取判定文档断片是否表达场景候补的分类器中所使用的特性。这些特性大致分类为单词部分串(WS)、修饰被修饰树的局部树(D1、D2)、名词句的类别(NC)、谓语模板的极性(EP1、EP2)。这些特性的概略在图10示出。
WS、D1、D2是从字符串以及语法修饰被修饰树捕获文档断片上所含的场景名词句的周边上下文的特性。这些特性例如捕获“によって”、“のため”这样暗示因果关系的表达等。
WS是捕获文档断片上的2个场景名词句间的单词串的特性,是针对各场景名词句的组的出现在2个场景名词句间的单词的表层系列、基本形、品词的n-gram(n=1、2、3)。这时,考虑场景名词句跨多个句,设为在全部句间存在表示分句符的特别的记号(EOS)来获得WS。
D1是将文档断片上的2个场景名词句间的修饰被修饰树的路径上的单词串捕获成表层系列、基本形、品词的n-gram(n=1、2、3)的特性。关于D1,在对修饰被修饰局部树上的2个场景名词句,与WS同样地考虑场景名词句跨多个句,相当于2个场景名词句的句节存在于不同句内的情况下,视作这些句节都修饰文档断片内的共通的语根(称作假想语根),从而获得各场景名词句间的修饰被修饰局部树上的单词串。
D2是针对各场景名词句的组的分别从修饰被修饰树上的2个场景名词句到假想语根间的出现在2个场景名词句的局部树的共通部分的单词的表层系列、基本形以及品词的n-gram(n=1、2、3)。2个场景名词句存在于不同句的情况下,由于它们共通的祖先成为假想语根,因此能获得的n-gram不存在。
另外,为了避免存在于文档断片上的场景名词句过强地影响支持片段判定,在将文档断片上的场景名词句置换成特殊的记号“N0、N1、N2(编号表征场景上的事件表达的顺序)”后,获得WS、D1、D2。
为了实现以上的处理,特性提取部314还包含:单词/记号变换部354,其接受词素解析部350输出的词素串,将各单词变换为对应的记号;单词部分串提取部356,其从由单词/记号变换部354将单词变换成记号的词素串分别提取上述的n-gram的单词串,作为特性的一部分输出;修饰被修饰局部树提取部358,其接受修饰被修饰解析部352输出的修饰被修饰树,提取修饰被修饰树上的修饰被修饰局部树;单词/记号置换部360,其将由修饰被修饰局部树提取部358提取的修饰被修饰局部树上的单词各自置换成上述的记号;和单词部分串提取部362,其从由单词/记号置换部360将单词置换成记号的修饰被修饰局部树提取n-gram作为单词部分串,作为特性的一部分输出。
特性提取部314还包含:名词句提取部364,其从由词素解析部350输出的词素串提取场景名词句;名词句类别决定部366,其对由名词句提取部364提取的各场景名词句,参考名词句类别存储部310来决定名词句类别,作为特性的一部分输出;模板提取部368,其从词素解析部350输出的词素串提取各事件表达的词素串;极性决定部370,其对模板提取部368输出的各个谓语模板,参考极性存储部312来决定极性,并输出;模板提取部374,其提取场景候补328中所含的谓语模板;极性决定部376,其对模板提取部374提取的各谓语模板,参考极性存储部312来决定其极性,并输出;极性比较部372,其基于极性决定部370以及极性决定部376的输出,对场景候补328内的各场景名词句,比较场景候补328内的谓语模板的极性和文档断片340内的相同场景名词句的谓语模板的极性,输出表示两者是否相同的信号作为特性的一部分;极性异同计数部378,其比较极性决定部376输出的针对谓语模板内的各名词句的谓语模板的极性和极性决定部370输出的文档断片340内的对应的场景名词句的谓语模板的极性,输出相同极性的数量和不同极性的数量,作为特性的一部分;和特性向量变换部380,其将从单词部分串提取部356、单词部分串提取部362、名词句类别决定部366、极性比较部372以及极性异同计数部378输出的各特性变换成特性向量。
<按分组区别语义场景评分的生成处理>
参考图8来说明存储于图5所示的按分组区别语义场景评分存储部220的按分组区别语义场景评分的作成方法。图8是实现算出按分组区别语义场景评分的处理的程序的流程图。
参考图8,该程序包含:步骤400,首先从存放于图1所示的因果关系表达存储部40的全部因果关系生成有可能性的全部场景候补,对各场景候补使用场景片段分类器48来计算可靠度评分;步骤402,将步骤400中生成的全部场景候补变换成语义场景;步骤404,将步骤402中得到的语义场景分类为相同语义场景;步骤406,对步骤404中分组化的各分组决定附带于该分组中所含的语义场景的可靠度评分的最大值,将其作为该分组的代表评分进行存储;和步骤408,以附带于各分组的分组编号等识别信息为关键字将步骤406中决定的分组评分数据库化,并存放在按分组区别语义场景评分存储部220。
〔动作〕
<场景片段分类器48的事前学习>
对图6所示的场景片段分类器48事前通过机器学习进行学习。即,最初准备由场景候补和其场景候补的支持片段构成的学习数据。使该学习数据的场景候补存储在场景候补存储部302,由名词句提取部304预先准备充分支持该场景候补的场景片段,由特性提取部314提取特性。对分类器316赋予该特性作为正例。另外,也预先选择明确不支持场景候补的片段,同样地在特性提取部314提取特性,作为分类器316给到负例。通过如此的事前学习,能事前学习分类器316所进行的支持片段评分的算出。
<按分组区别语义场景评分的作成>
对图5所示的按分组区别语义场景评分存储部220所存储的按分组区别语义场景评分也需要预先作成。然而,若场景生成系统30的整体在某种程度下不能动作,按分组区别语义场景评分就不能积累。因此,理想的情况是,对按分组区别语义场景评分,在学习最初,按分组区别设置暂定的值,随着场景生成系统30的学习不断推进,用图8所示的方法重新作成。
<场景分类器46的事前学习>
虽然可以每当进行场景分类器46的学习就人工准备学习数据,但准备学习数据太费劲。因此,使用图6所示的场景片段分类器48预先将认为正例的数据蓄积于正例存储部54。在该处理中,首先在图1所示的WEB档案50中准备大量的文档。预先从这些文档提取一定量的因果关系表达并存储在因果关系表达存储部40。
由场景候补生成部42生成场景候补152,存储在场景候补存储部44。参考图2,因果关系对选择部70从存储于因果关系表达存储部40的因果关系提取一方的结果部和另一方的原因部共享名词句那样的因果关系的对。第1候补选择部72选择该对中结果部与另一方的原因部共通的因果关系,第2候补选择部74选择原因部与另一方的结果部共通的因果关系。第1候补极性判定部76参考模板极性存储部80来决定由第1候补选择部72选择的因果关系的谓语模板的极性。同样地,第2候补极性判定部78参考模板极性存储部80来决定由第2候补选择部74选择的因果关系的谓语模板的极性。关于该第1候补和第2候补,在它们的谓语模板的极性一致的情况下,场景候补选择部82选择该因果关系的对作为场景候补,并输出到场景候补存储部44。场景候补存储部44蓄积场景候补。
参考图3,场景候补读出部100从场景候补存储部44选择场景候补,并给到场景发送部106。场景发送部106将该场景候补给到图6所示的场景片段分类器48的场景候补接收部300。场景生成系统30若接收到该场景候补,就存储到场景候补存储部302。
参考图6,若在场景候补存储部302存储有场景候补,则名词句提取部304就提取该场景候补中所含的场景名词句,给到文档断片检索部306。文档断片检索部306检索WEB档案存储部308,提取这些全部场景名词句同时出现在3句以内的文档断片,作为支持片段。特性提取部314从存储于场景候补存储部302的场景候补与文档断片检索部306提取的各文档断片的组提取特性,并给到分类器316。分类器316由于已经学习完毕,因此输出表示该文档断片是否作为整体表达场景候补的评分。判定部324将该评分与预先存放于阈值存储部322的阈值进行比较,若评分为阈值以上,则对正例选择部326进行指示,将场景候补与文档断片的组合作为正例,作为场景候补与支持片段的配对存储到正例存储部54。若评分不足阈值,则判定部324什么都不做,丢弃该场景候补与文档断片的组合。
若对某场景候补完成针对与从WEB档案存储部308提取的全部文档断片的组合的上述的处理,则场景候补生成部42从因果关系表达存储部40提取下一场景候补,重复与以上相同处理。在如此对全部场景候补结束处理时,在图6所示的正例存储部54中蓄积能在场景分类器46的学习中作为正例使用的场景候补与支持片段的组合。若准备了该组合,就能进行场景分类器46的学习。另外,用于场景分类器46的学习的学习数据虽然伴随庞大的劳力,但是,也能人工准备,当然也可以用任何其他方法准备。
场景分类器46的学习如以下那样进行。预先在图1以及图2所示的场景候补存储部44存储场景候补。使相当于针对该场景候补的正例以及负例的场景片段预先存储在图1所示的WEB档案50。这些预先通过人工准备。其中,关于正例,由于能如已经叙述的那样由场景片段分类器48预先蓄积于正例存储部54,因此使用其。之后对这些场景候补,使场景分类器46以及场景片段分类器48动作,进行SVM112的学习,以使场景分类器46的SVM112的评分推定结果与预先准备的正解数据一致的率成为最大。
以下说明在场景分类器46以及场景片段分类器48的学习结束后实际由场景分类器46进行场景候补的提取以及排序时的场景分类器46以及场景片段分类器48的动作。
<场景候补生成部42的动作>
参考图2,场景候补生成部42的因果关系对选择部70选择存储于因果关系表达存储部40的因果关系中的一方的结果部和另一方的原因部共享场景名词句那样的因果关系的对。第1候补选择部72选择由因果关系对选择部70选择的因果关系的对中的在结果部具有两者所共享的场景名词句的第1因果关系候补。第2候补选择部74选择在原因部具有两者所共享的场景名词句的第2因果关系候补。第1候补极性判定部76通过参考模板极性存储部80来判定由第1候补选择部72选择的第1因果关系候补的谓语模板的极性,附加在第1因果关系候补并输出。同样地,第2候补极性判定部78参考模板极性存储部80来判定由第2候补选择部74选择的第2因果关系候补的谓语模板的极性,附加在第2因果关系候补并输出。场景候补选择部82对第1候补极性判定部76输出的第1因果关系候补和第2候补极性判定部78输出的第2因果关系候补选择它们的谓语模板的极性一致的因果关系候补的组合,作为场景候补,输出到场景候补存储部44。
<场景分类器46以及场景片段分类器48的动作>
参考图3,场景分类器46的场景候补读出部100按顺序1个1个地读出存储于场景候补存储部44的场景候补,并输出。基本特性提取部102从场景候补读出部100输出的场景候补提取基本特性122并输出到SVM112,并将SPPR特性的提取中所用的SPPR特性生成用信息104相应地输出到SPPR特性提取部110。关于基本特性提取部102的动作,由于从参考图4的说明得以明确,因此这里不再重复。
场景发送部106将场景候补读出部100输出的场景候补发送到场景片段分类器48,请求SPPR特性的输出。
参考图6,场景片段分类器48的场景候补接收部300接收该请求,将场景候补存放在场景候补存储部302。名词句提取部304从存储于场景候补存储部302的场景候补提取场景名词句,并给到文档断片检索部306。文档断片检索部306将由名词句提取部304提取的全部场景名词句在3句以内的范围同时出现、由其最小的句数的句构成的部分作为文档断片从WEB档案存储部308取出,给到特性提取部314。特性提取部314对由文档断片检索部306提取的各个文档断片,从存储于名词句类别存储部310的名词句类别信息、存储于极性存储部312的谓语模板的极性信息和场景候补接收部300接收到的场景候补提取给到分类器316的特性。特性提取的过程如参考图7已经说明的那样。
分类器316若接受到由特性提取部314提取的特性的输入,就输出表示处理中的场景候补被该文档断片的整体表征的程度的评分。评分蓄积部318蓄积该评分。最大值选择部330响应于针对场景候补接收部300接收到的场景候补的文档断片的检索和它们的评分计全都完成,来选择蓄积于评分蓄积部318的评分的最大值。评分响应部320将该最大值作为场景候补的可靠度评分,作为响应发送到场景分类器46。另外,在不能由文档断片检索部306从WEB档案存储部308中提取支持片段的情况下,在本实施方式中,最大值选择部330不输出评分的值,设置表示找不到支持片段的标记。评分响应部320响应于此,将包含该标记的响应发送到场景分类器46。
在本实施方式中,这时,判定部324以及正例选择部326不动作。但在分类器316输出的评分比阈值高、且作为针对该场景候补的支持片段而检测到到目前为止未蓄积的支持片段时,由正例选择部326将其进一步蓄积到正例存储部54。
再度参考图3,场景分类器46的评分接收部108接收从场景片段分类器48发送来的评分,作为可靠度评分120对SPPR特性提取部110输出。可靠度评分120除了包含该评分以外,还包含表示是否找到支持场景候补的支持片段的标记。
参考图5,SPPR特性提取部110的标记提取部240若接收到可靠度评分120,就提取可靠度评分120中所含的标记的值,并将其输出到标记提取部240和评分归一化部242。在由标记提取部240提取的标记表示存在支持片段时,评分归一化部242将可靠度评分120内的评分通过S型函数归一化成[0,1],并作为特性的一部分输出。评分归一化部242在没有支持的支持片段时,作为可靠度评分而输出0。评分归一化部242输出的归一化后的评分被给到评分加法运算部246和特性向量变换部258。
场景评分归一化部244将来自基本特性提取部102的场景评分182归一化成[0,1],并给到评分加法运算部246以及评分加法运算部256。评分加法运算部246算出由场景评分归一化部244归一化的场景评分与由评分归一化部242归一化的可靠度评分之和,作为特性的一部分输出到特性向量变换部258。
SPPR特性提取部110的语义场景作成部248基于谓语模板的极性180和名词句类别184,从场景候补作成语义场景,将其给到语义场景评分检索部250。语义场景评分检索部250对该语义场景检索按分组区别语义场景评分存储部220,读出相应的分组的语义场景评分,给到评分归一化部252、标记提取部254以及评分加法运算部256。语义场景评分检索部250这时还输出表示相应的分组是否存在的标记。
SPPR特性提取部110的评分归一化部252将语义场景评分归一化成[0,1],作为特性的一部分输出到特性向量变换部258。标记提取部254从语义场景评分检索部250的输出中提取表示符合作成的语义场景的语义场景分组是否存在于按分组区别语义场景评分存储部220的标记,作为特性的一部分给到特性向量变换部258。评分加法运算部256将语义场景评分检索部250输出的语义场景评分和由场景评分归一化部244算出的归一化的场景评分相加,作为特性的一部分给到特性向量变换部258。特性向量变换部258将标记提取部240、评分归一化部242、评分加法运算部246、评分归一化部252、标记提取部254以及评分加法运算部256的输出汇总而变换成特性向量的一部分,作为SPPR特性124而输出。该SPPR特性124被给到图3所示的SVM112。
回到图3,SVM112接受来自基本特性提取部102的基本特性122以及来自SPPR特性提取部110的SPPR特性124所构成的特性向量,对应于特性的值算出表征场景候补读出部100输出的场景候补作为表征因果关系的场景妥当到何种程度的评分,并输出。评分记录部114将该评分和场景候补读出部100输出的场景候补相互建立关联地存放在带评分场景候补存储部116。场景候补排序部118通过对存储于带评分场景候补存储部116的场景候补以其评分的降序进行分类来赋予位次,生成并输出场景候补排序52。
[实验结果]
对具有上述那样的结构的场景生成系统30使用测试数据进行与现有的手法比较的实验。
<数据集>
作为测试数据,准备将2个因果关系连结而作成的217836个场景候补。以后将该数据称作SRsource。为了场景排序的评价,在从SRsource随机采样6000个场景候补后,由3人的注释者判定采样的场景候补作为场景是否合适。在场景候补判定时,对注释者指示在构成的因果关系分别正确且与场景整体有连贯性、事件表达关联性合适的情况下,判定为场景候补是合适的。评价中所用的最终的标签通过多数表决决定。Kappa值是0.51。以后将该注释的6000的场景称作SRsamples。
SRsamples被分割成学习数据用的SRtraining和测试数据用的SRtest。这些内容在接下来的表1中示出。
[表1]
正例 负例 合计
SRTRAINING 1133 2891 4024
SRTEST 637 1339 1,976
这时,进行分割,使得在SRtraining与SRtest之间,在场景内所含的3个名词句中不会出现重复。
接下来,作成支持片段判定的评价中所用的带标签数据。为了满足上述实施方式所示的条件,使用SRsamples的场景从WEB档案的6亿文档获得文档断片。SRsamples的6000个场景中2180种场景发现了文档断片,能得到合计149850个场景-文档断片的组。从该149850个场景-文档断片的组作为学习数据而提取18410个(SPraining),作为测试数据而提取3141个(SPtest)。对该SPtraining和SPtest,由3人的注释者判定是否在文档断片上表达场景。在判定时,对注释者指示,在文档断片表达(意思包含)场景的情况下,判定为场景-文档断片的组是合适的。评价中所用的最终的标签由多数表决判定。Kappa值是0.65。
进而,作成支持片段判定的评价中所用的追加的学习数据。对场景内所含的2个因果关系的一方,从Web的6亿文档检索其因果关系的提取源的句。之后,在将提取源中所含的因果关系设为c、将提取源的句设为s时,在未含在场景内的c的剩余的名词句存在于s以前(或以后)的7句以内的情况下,将从s到包含该名词句的句为止的文档断片视作支持片段的候补来提取。将用上述的手法提取的场景-文档断片中的19746组作为追加的学习数据(SPadd)利用。对该SPadd,由3人的注释者判定是否在文档断片上表达场景。在判定时,对注释者指示,在文档断片表达(意思包含)场景的情况下,判定为场景-文档断片的组是合适的。实际的评价中所用的最终的标签以多数表决判定。Kappa值成为0.61。
<支持片段判定的评价>
首先使用表2的数据实施支持片段判定的评价。
[表2]
这时,使用从SPtraining部分分割的开发集,将SVM的超参数即核和C值分别决定为2次多项式核、C=0.0001。
作为与上述实施方式所涉及的支持片段判定(Proposed)的模型进行比较的基准手法,使用OkapiBM25和PosiProb这2者。OkapiBM25是在信息检索中使用的一般的算法,在Lucene(https://lucene.apache.org/core/)等进行全文检索的软件中利用。PosiPro是将全部输入视作正例来进行输出的模型。在OkapiBM25中,对SPtest中所含的各场景-文档断片的组,将其场景中所含的内容词设为查询,来计算对应的文档断片的评分。
图11是根据各手法输出的评分将场景-文档断片的组排序而得到的Precision-Recall曲线(PR曲线)。PR曲线使件数变化来在横轴描绘基于检索结果的排前有几件的再现率,在纵轴描绘准确率。该曲线越位于上方越被视作期望的检索结果。根据图11,能确认到上述实施方式所涉及的支持片段判定的模型的性能大幅超过基准手法的性能。在实施方式的手法中,虽然随着再现率变大而能看到精度降低,但关于评分排前的事例,能确认到能获得正确的场景-文档断片的组。
<场景排序判定的评价>
使用表1的数据,实施本发明的提案手法的将支持片段的有无作为特性取入的场景排序的模型的评价。在本实验中,通过SRtraining上的交叉验证,将SVM的超参数即核和C值分别决定为3次多项式核、C=0.001。
为了进行SVM112的测试,从WEB档案6亿页面搜索文档断片,计算场景片段辨识的评分。这时在场景片段辨识内的支持片段判定中使用SPtraining和SPadd。
作为与上述实施方式(Proposed)的比较手法,将非专利文献1的无指导排序手法(Hashi14)用作基准。Hashi14通过以上述实施方式中利用的因果关系的评分为基础计算的场景的评分(图9的H2)来将场景排序。
作为Hashi14的其他比较对象,使用Base和Base+AddData这2者。Base是从Proposed的特性去除SP1~SP3(参考图9)和GSP1~GSP3(参考图9)的模型。Base+AddData是在Base基础上将SPadd的正例的场景-文档断片的组中所含的1493的场景作为正例追加到学习数据的模型。追加的场景是从正例的场景-文档断片提取的场景、即具有支持片段的场景,另外DCadd的数据由于在SRtraining以及SRtest间的场景内的3个场景名词句中没有重复,因此能作为向SRtraining的追加的正例利用。从SPadd得到的追加的场景由于能比原本的训练集即SRtraining的正例更多地获得,因此期待大的性能提升。由于Proposed与Base之差不是场景片段辨识的评分带来的特性的好处,考虑到单纯SPadd中所含的正例的场景间接产生了影响的可能性,因此采用Base+AddData作为比较对象。若Proposed超过Base+AddData,则认为暗示了场景片段辨识的评分的使用真正对场景排序有用。
图12是根据各手法输出的评分将场景排序时的PR曲线。Proposed与基准的Hashi14、Base、Base+AddData比较而达成较高的性能。另外,通过利用场景的排序的Wilcoxon的符号检验,在Proposed与各基准之间确认了p=0.05的有意义性。
[计算机的实现]
本发明的上述实施方式所涉及的场景生成系统30以及其构成要素通过计算机硬件、由该计算机硬件执行的程序和存放于计算机硬件的数据实现。图13表示该计算机系统530的外观,图14表示计算机系统530的内部结构。
参考图13,该计算机系统530包含具有存储器端口552以及DVD(DigitalVersatile Disc)驱动器550的计算机540、键盘546、鼠标548和监视器542。
参考图14,计算机540除了包含存储器端口552以及DVD驱动器550以外,还包含:CPU(中央处理装置)556;与CPU556、存储器端口552以及DVD驱动器550连接的总线566;存储启动程序等的只读存储器(ROM)558;与总线566连接、存储程序命令、系统程序以及作业数据等的随机存取存储器(RAM)560;和作为非易失性存储器的硬盘驱动器(HDD)554。计算机系统530还包含打印机544、提供向能进行与其他终端的通信的局域网(LAN)572的连接的网络接口卡(NIC)574。
在本实施方式中,图1所示的因果关系表达存储部40、场景候补存储部44、WEB档案50以及正例存储部54、图2所示的模板极性存储部80、图4所示的因果关系评分存储部140、对数频率存储部142、名词句类别存储部144、提取源文档存储部146、意思包含关系评分存储部148、以及极性存储部150、图5所示的按分组区别语义场景评分存储部220、图6所示的WEB档案存储部308、名词句类别存储部310、极性存储部312、阈值存储部322和图7所示的名词句类别存储部310以及极性存储部312等均通过HDD554或RAM560实现。
用于使计算机系统530实现场景生成系统30以及其构成要素的功能的计算机程序存储在装备于DVD驱动器550或存储器端口552的DVD562或可移动存储器564,进而转发到HDD554。或者,程序也可以通过网络572发送到计算机540并存储在HDD554。程序在执行时被加载到RAM560。可以从DVD562、从可移动存储器564或经由网络572以及NIC57直接将程序加载到RAM560。
该程序包含使计算机540作为该实施方式的场景生成系统30进行动作的多个命令。使该动作进行所需的基本的几个功能可以由在计算机540上动作的操作系统(OS)、或第三方的程序、或安装在计算机540的各种工具包的模块提供。因此,该程序不一定非要包含实现该实施方式的系统以及方法所需的全部功能。该程序仅在命令中包含通过以控制成得到所期望的结果的做法调用合适的功能或“编程工具包”来执行作为上述的场景生成系统30以及其构成要素的动作的命令即可。计算机系统530的动作由于周知,因此这里不再重复。
[参考文献一览]
<参考文献1>
Kazama J.and Torisawa,K.(2008).“Inducing gazetteers for named entityrecognition by large-scale clustering of dependency relations.”In Proceedingsof the 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies(ACL-08:HLT),pp.407-415.
<参考文献2>
Chikara Hashimoto,Kentaro Torisawa,Kow Kuroda,Masaki Murata,and Jun’ichi Kazama.2009.Large-scale verb entailment acquisition from the web.InProceedings of the 2009Conference on Empirical Methods in Natural LanguageProcessing(EMNLP2009),pages 1172-1181.
产业上的可利用性
本发明在通过利用计算机的自然语言处理从以存在于网络上的文本为代表的大量的信息发现对人并不立即明确的因果关系时,能验证该因果关系的确实性。因此,通过本发明,不管经营计划、生产计划、理科系统以及文化系,能可靠性高地建立与各种领域的研究计划等相关的方针和预测。其结果,采用本发明的系统能在广泛的领域提供基于数据的信息,不仅在提供这样的信息的产业,在利用得到的信息的全部产业也能有效利用。
本次公开的实施方式只是例示,本发明并非仅限制在上述的实施方式。本发明的范围在参考发明的详细的说明的记载的基础上由权利要求书的权项示出,包含与那里记载的措词等同的意义以及范围内的全部变更。
附图标记的说明
30 场景生成系统
40 因果关系表达存储部
42 场景候补生成部
44、302 场景候补存储部
46 场景分类器
48 场景片段分类器
50 WEB档案
52 场景候补排序
54 正例存储部
70 因果关系对选择部
80 模板极性存储部
82 场景候补选择部
100 场景候补读出部
102 基本特性提取部
104 SPPR特性生成用信息
106 场景发送部
110 SPPR特性提取部
112 SVM
118 场景候补排序部
140 因果关系评分存储部
142 对数频率存储部
144、310 名词句类别存储部
146 提取源文档存储部
152、328 场景候补
154 对数频率检测部
156、304、364 名词句提取部
158、366 名词句类别决定部
164、368、374 模板提取部
168 场景评分算出部
172、370、376 极性决定部
174 单词相似度算出部
220 按分组区别语义场景评分存储部
306 文档断片检索部
314 特性提取部
316 分类器
318 评分蓄积部
330 最大值选择部
340 文档断片。

Claims (6)

1.一种场景片段分类器,接受由有表征连锁的因果关系的可能性的至少3个事件表达所构成的场景候补,通过在多个文档中求取支持该场景候补的内容的片段,来输出表征该场景候补的可靠度的评分,
所述场景片段分类器的特征在于,
场景片段分类器与存储所述多个文档的机器可读的存储装置连接而使用,
所述场景片段分类器具备:
文档断片检索单元,其在所述多个文档内检索所述场景候补中所含的全部名词句在1个文档的包含一定数量以内的句的文档断片内同时出现那样的文档断片的集合;
特性提取单元,其从所述场景候补分别与由所述文档断片检索单元检索的各文档断片的各个组合提取预先确定的特性;
预先通过机器学习学习完毕的评分输出单元,其对与所述场景候补相关的各个所述组合,接受所述特性,输出基于成为该特性的源的所述文档断片算出的表征输入的场景候补的可靠度的评分;和
评分选择单元,其对与所述场景候补相关的各个所述组合选择由所述评分输出单元输出的评分中的最大值作为所述场景候补的可靠度,并输出。
2.根据权利要求1所述的场景片段分类器,其特征在于,
所述一定数量是2以上且10以下的整数。
3.根据权利要求2所述的场景片段分类器,其特征在于,
所述一定数量是3以上且8以下。
4.根据权利要求1所述的场景片段分类器,其特征在于,
所述场景片段分类器还包含:
存储单元,其存储所述场景候补当中所述评分成为阈值以上的场景候补。
5.一种场景分类器,接受由有表征连锁的因果关系的可能性的至少3个事件表达所构成的场景候补,判定该场景候补作为因果关系是否妥当,
所述场景分类器的特征在于,具备:
评分接收单元,其接受所述场景候补的输入,将该场景候补赋予权利要求1~3中任一项所述的场景片段分类器,接收该场景片段分类器输出的可靠度的评分;
特性提取单元,其从所述场景候补提取给定的特性;和
预先通过机器学习学习完毕的判定单元,其若接受到包含由所述特性提取单元提取的所述给定的特性和所述评分接收单元接收到的评分的输入,则输出表示所述场景候补的作为因果关系的妥当性的评分。
6.一种记录了计算机程序的计算机可读记录介质,其特征在于,
所述计算机程序使计算机作为权利要求1~5中任一项所述的各单元发挥功能。
CN201780057398.4A 2016-09-26 2017-09-25 场景片段分类器、场景分类器以及记录介质 Active CN109791632B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016186466A JP6767042B2 (ja) 2016-09-26 2016-09-26 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
JP2016-186466 2016-09-26
PCT/JP2017/034405 WO2018056423A1 (ja) 2016-09-26 2017-09-25 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN109791632A CN109791632A (zh) 2019-05-21
CN109791632B true CN109791632B (zh) 2023-07-21

Family

ID=61689998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780057398.4A Active CN109791632B (zh) 2016-09-26 2017-09-25 场景片段分类器、场景分类器以及记录介质

Country Status (5)

Country Link
US (1) US10963646B2 (zh)
JP (1) JP6767042B2 (zh)
KR (1) KR20190057282A (zh)
CN (1) CN109791632B (zh)
WO (1) WO2018056423A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
US10682761B2 (en) * 2017-06-21 2020-06-16 Nice Ltd System and method for detecting and fixing robotic process automation failures
JP6875457B2 (ja) * 2019-06-18 2021-05-26 ヤフー株式会社 取得装置、取得方法、および取得プログラム
KR102270169B1 (ko) * 2019-07-26 2021-06-25 주식회사 수아랩 데이터 관리 방법
US11328019B2 (en) * 2020-04-03 2022-05-10 International Business Machines Corporation Providing causality augmented information responses in a computing environment
JP2022122029A (ja) * 2021-02-09 2022-08-22 株式会社東芝 データ処理装置、データ処理方法及びデータ処理プログラム
CN113590903B (zh) * 2021-09-27 2022-01-25 广东电网有限责任公司 一种情报数据的管理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
JP2012093870A (ja) * 2010-10-26 2012-05-17 Nec Corp システム開発における要求獲得支援システム、要求獲得支援方法およびプログラム
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
JP5034580B2 (ja) * 2007-03-15 2012-09-26 オムロン株式会社 因果推論装置、その制御プログラムおよび制御方法
JP4778474B2 (ja) 2007-05-14 2011-09-21 日本電信電話株式会社 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN101242278A (zh) * 2008-02-18 2008-08-13 华中科技大学 网络多步攻击意图在线识别方法
CN101751626B (zh) * 2010-01-04 2012-08-29 北京航空航天大学 组合服务演化中运行实例的在线迁移方法
US9367609B1 (en) * 2010-03-05 2016-06-14 Ustringer LLC Method and apparatus for submitting, organizing, and searching for content
US9092561B2 (en) * 2010-10-20 2015-07-28 Microsoft Technology Licensing, Llc Model checking for distributed application validation
JP5834883B2 (ja) * 2011-12-20 2015-12-24 日本電気株式会社 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
US10679166B2 (en) * 2012-09-28 2020-06-09 Oracle International Corporation Supply chain financial orchestration system
US9092332B2 (en) * 2013-05-02 2015-07-28 Microsoft Technology Licensing, Llc Activity based sampling of diagnostics data
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
US9336126B1 (en) * 2014-06-24 2016-05-10 Amazon Technologies, Inc. Client-side event logging for heterogeneous client environments
US10614196B2 (en) * 2014-08-14 2020-04-07 Accenture Global Services Limited System for automated analysis of clinical text for pharmacovigilance
JP6618735B2 (ja) * 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
US10303695B2 (en) * 2015-10-21 2019-05-28 Oracle International Corporation Query decomposition for scalability of continuous query processing
CN105808244A (zh) * 2016-03-01 2016-07-27 杭州师范大学 一种基于工作流的动态数据可视化分析工具

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
JP2012093870A (ja) * 2010-10-26 2012-05-17 Nec Corp システム開発における要求獲得支援システム、要求獲得支援方法およびプログラム
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN104137102A (zh) * 2012-02-23 2014-11-05 独立行政法人情报通信研究机构 非事实型询问应答系统以及计算机程序
CN105393248A (zh) * 2013-06-27 2016-03-09 国立研究开发法人情报通信研究机构 非事实类提问应答系统以及方法

Also Published As

Publication number Publication date
CN109791632A (zh) 2019-05-21
US20190251171A1 (en) 2019-08-15
US10963646B2 (en) 2021-03-30
KR20190057282A (ko) 2019-05-28
WO2018056423A1 (ja) 2018-03-29
JP6767042B2 (ja) 2020-10-14
JP2018055142A (ja) 2018-04-05

Similar Documents

Publication Publication Date Title
CN109791632B (zh) 场景片段分类器、场景分类器以及记录介质
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
JP7028858B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US20180300315A1 (en) Systems and methods for document processing using machine learning
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Al-Ash et al. Fake news identification characteristics using named entity recognition and phrase detection
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
US11880396B2 (en) Method and system to perform text-based search among plurality of documents
JP2009015796A (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Ortiz et al. Detection of Aggressive Tweets in Mexican Spanish Using Multiple Features with Parameter Optimization.
Kavila et al. Extractive text summarization using modified weighing and sentence symmetric feature methods
Naik et al. Tweet Summarization: A New Approch
Alharithi Performance analysis of machine learning approaches in automatic classification of Arabic language
Joshi et al. TF-IDF and key phrase identification based Malayalam document summarization
Josi et al. Detecting paraphrases of standard clause titles in insurance contracts
US11615492B2 (en) Systems and methods for identifying a risk of impliedly overruled content based on citationally related content
Kaviya et al. Micro-blogging sentimental analysis on Twitter data using Naïve Bayes machine learning algorithm in Python
Mehryary et al. Filtering large-scale event collections using a combination of supervised and unsupervised learning for event trigger classification
Dai et al. Improving scientific relation classification with task specific supersense
Wang et al. A context-aware automatic Chinese transliterated person names recognition approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant