CN105264518B - 数据处理装置及故事模型构建方法 - Google Patents
数据处理装置及故事模型构建方法 Download PDFInfo
- Publication number
- CN105264518B CN105264518B CN201380073967.6A CN201380073967A CN105264518B CN 105264518 B CN105264518 B CN 105264518B CN 201380073967 A CN201380073967 A CN 201380073967A CN 105264518 B CN105264518 B CN 105264518B
- Authority
- CN
- China
- Prior art keywords
- room
- key element
- item
- resume
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
实施方式的数据处理装置(100)具备:事件空位序列提取器(2)、机器学习用事例生成器(3)、后续事件空位推测训练器(7)。事件空位序列提取器(2)从带有训练用标记的文章与共用项一起提取事件空位序列而生成事件空位序列数据。机器学习用事例生成器(3)从事件空位序列数据生成用包含事件空位履历特征和共用项履历特征的至少某一个特征量的特征矢量表现的训练用事例数据。后续事件空位推测训练器(7)使用训练用事例数据进行基于识别模型的机器学习,从而构建作为用于推测后续于在先文脉的事件空位的故事模型的后续事件空位推测模型(D10)。
Description
技术领域
本发明的实施方式涉及数据处理装置及故事模型构建方法。
背景技术
照应解析(Anaphora Resolution)、共参照解析(Coreference Resolution)、对话处理(Dialog Processing)等文脉解析(Contextual Analysis),在自然语言处理中在正确地理解文章方面是重要的任务。在文脉解析中,已知使用香克脚本或菲尔摩尔帧那样的程序性知识(Procedural Knowledge)是有效。程序性知识指的是,与“一序列程序之后接续的程序是什么”这样的问题有关的知识。将该程序性知识通过计算机再现的模型是故事模型。
以往,提出了以下的技术:从任意的文章群获得相互关联的谓语和格的对(以下称为“事件空位(event slot)”)的序列,从该事件空位序列生成事例数据,通过机器学习的训练来构建故事模型。
事件空位序列将事件空位作为要素,该事件空位是共用项的谓语和共用项的格种类的组合,将该事件空位按照出现顺序排列。作为事件空位序列的要素的事件空位的种类有多种多样,所以为了进行充分的学习而构件高精度的故事模型,需要与其相应的庞大的学习数据。但是,获得可靠性高的学习数据非常花费成本。因此,如果不能收集充分的学习数据,就会产生学习数据不足,其结果,构建的故事模型的精度可能会变低。
发明内容
发明所要解决的课题
本发明所要解决的课题是,提供一种能够构件高精度的故事模型的数据处理装置及故事模型构建方法。
解决课题所采用的技术手段
实施方式的数据处理装置具备:提取部、事例生成部、模型构建部。提取部从被进行谓语项构造解析及共参照解析的文章中,将具有共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,与所述共用项一起提取将多个所述要素按照所述文章中的所述谓语的出现顺序排列的要素序列。事例生成部,在将构成所述要素序列的所述要素中的1个作为关注要素时,对于各个所述关注要素,生成用特征矢量表现的事例数据,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量和与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量。模型构建部使用所述事例数据进行基于识别模型的机器学习,从而构建用于推测后续于在先文脉的所述要素的故事模型。
根据上述构造的数据处理装置,能够构建高精度的故事模型。
附图说明
图1是使用以“犯罪者”为共用项的事件空位序列的概率模型的示意图。
图2是说明非专利文献3所记载的方法的示意图。
图3是表示第1实施方式的数据处理装置的构成例的框图。
图4是表示带有训练用标记的文章的具体例的图。
图5是表示训练用事件空位序列数据的具体例的图。
图6是说明由事件空位序列提取器实施的处理的流程图。
图7是表示训练用事例数据的具体例的图。
图8是说明由机器学习用事例生成器实施的处理的流程图。
图9是说明事件空位履历特征生成器的处理的流程图。
图10是说明共用项履历特征生成器的处理的流程图。
图11是表示由共用项表现生成器生成的共用项表现群的一例的图。
图12是说明共用项表现生成器的处理的流程图。
图13是表示后续事件空位推测模型的一例的图。
图14是说明由后续事件空位推测训练器实施的处理的流程图。
图15是说明预测处理中的机器学习用事例生成器的处理的流程图。
图16是表示后续事件空位推测结果的一例的图。
图17是说明由后续事件空位预测器执行的处理的流程图。
图18是表示第2实施方式的数据处理装置的构成例的框图。
图19是表示训练用事例数据的具体例的图。
图20是说明组合特征生成器的处理的流程图。
图21是说明数据处理装置的硬件构成的图。
具体实施方式
以下,参照附图说明实施方式的数据处理装置及故事模型构建方法。
作为用于在文脉解析中正确地理解文脉的手法,使用通过机器学习而构建的故事模型非常有效。特别是近年来,利用因特网的云智能交流逐渐普及,例如进行从论坛或博客、Twitter(注册商标)、SNS(Social Networking Service)等的用户生成媒体(CGM:Consumer Generated Media)提取因特网上上的评价或意见这样的分析。在这样的分析中,期待通过使用故事模型来正确地理解文脉。
在本实施方式的故事模型构建方法中,从被进行谓语项构造解析及共参照解析的文章群提取事件空位序列群,使用提取的事件空位序列群生成机器学习用的事例数据群,通过使用了该事例数据群的机器学习来构建故事模型。
事件空位序列是具有共用项的谓语和格种类的对的序列。以往,尝试过将该事件空位序列的概率模型作为程序性知识利用而进行文脉解析等。这是基于共用项的谓语彼此具有某种关系这一假说的。在以往的方式中,共用项用于找出事件空位,仅对于除去了共用项的事件空位序列进行频度的计数。
图1是使用以“犯罪者”为共用项的事件空位序列的概率模型的示意图。图1(a)表示日语的例子,图1(b)表示英语的例子。图中的箭头表示概率模型的存在,箭头的根部表示带有条件的概率中的作为条件的概率变量,箭头的头部表示作为评价对象的概率变量。此外,图中的虚线表示不存在概率模型。根据以往的方式,在该图1所示的例子中,频度的计数(以及基于此的概率计算)仅对于除去作为共用项的“犯罪者”之外的事件空位序列(犯す(动2).ガ格,捕まえる(动1).ヲ格,投獄する(动4).ヲ格)进行。另外,在图1所示的例子中,进行谓语的语义暧昧性除去处理,并向构成事件空位序列的各事件空位的谓语附加用于确定该谓语的语义的语义确定信息(动2、动1、动4等),但是向谓语附加语义确定信息并不是必须的。
作为事件空位序列的要素的事件空位是谓语和格种类的组合,所以其种类是谓语的语汇数×格种类的数量而非常庞大。因此,为了进行充分的学习,需要与其相应的庞大的学习数据。为了收集可靠性高的学习数据非常花费成本。因此,如果不能收集充分的学习数据,就会发生学习数据不足,其结果,产生所构建的模型的精度变低的问题。
在学习数据不足中特别致命的情况是,无法获得连接性的线索。例如在图1所示的例子中,为了学习“捕まえる(动1).ヲ格”和“投獄する(动4).ヲ格”的连接性,在以往的方式中,需要对它们连续出现的频度进行计数。但是,在学习数据中,这2个事件空位1次也没有连续出现的状况经常发生。这样,无法进行考虑了连接性的预测,导致精度沿着下降。
作为解决零概率的方法,以往提出了各种平滑化手法(例如参照非专利文献4)。这些平滑化手法是向未知的序列分配一定的低概率的方法。但是,这些平滑化手法是用于消除统计上的坏点的方法,虽然能够避免零概率,但是未必会分配合适的概率。
本质的问题是,为了解决“后续于某事件空位的事件空位是什么”这一问题而需要的线索不足。在此,在实施方式中提出了以下的方法:从一定量的学习用的已解析文本(被进行谓语项构造解析及共参照解析的文章),比以往的方式更多地提取用于预测后续事件空位的线索,构建高精度的故事模型。
将由谓语、从属于谓语的多个格、补充各个格的项这3个节点构成的树构造称为谓语项构造。谓语项构造是能够应用到日语、英语等所有语言的构造。但是,在日语的情况下,格种类由“が”“を”“に”等助词给出。另一方面,在英语的情况下,格种类包括由位置给出的情况(主格/宾格)和必须理解意思才能决定的情况。像这样,格的表现方法因语言而不同。
语句的谓语项构造能够通过谓语项构造解析器来解析。谓语项构造解析器按照每种语言准备,对语言固有的格的表现方法进行处理而输出谓语项构造。输出的谓语项构造自身,即使格的种类不同,构造本身也是相同的。本实施方式以使用现有的谓语项构造解析器为前提。因此,不需要在意格的表现方法的不同。换言之,本实施方式并不是特定为日语,可以应用到任何语言。
另外,作为格语法所处理的体系,有表层格和深层格,日语中主要使用表层格。表层格指的是,将“が”“を”“に”等表层的现象直接作为格种类处理的格的分类方法。深层格指的是,从意思的观点出发来将格分类的方法。该表层格和深层格的区别由谓语项构造解析器吸收。以下仅以日语为例进行说明,但是如上述那样,本实施方式能够应用到所有语言。
(实施方式的概要)
在此,说明本实施方式的故事模型构建方法的概要。本实施方式的故事模型构建方法的基本方针为,作为与成为用于预测后续的事件空位的线索的事件空位的连接性有关的信息,除了以往的手法中使用的事件空位序列的频度之外,还利用共用项的序列的频度。即,在本实施方式中,将事件空位序列的频度和共用项的序列的频度这2种统计量作为评价值处理,使用包含它们的合计的计算处理,求出后续的事件空位的概率。合计有取得线索的OR的效果,所以只要至少某个线索有效,就能够预测事件空位的联系。
在本实施方式中应该实现的功能为下述[A]~[C]。
[A]:计算事件空位序列的频度(基于该频度的统计量)。
[B]:计算共用项的序列的频度(基于该频度的统计量)。
[C]:将统计量[A]和统计量[B]以包含它们的和的处理的方式进行综合的概率计算。
作为一般论,基于识别模型的机器学习手法是能够将以多个由来不同的事物为条件的概率分布通过1个最优化处理导出的手法。在本实施方式中关注这一点,提出了利用基于识别模型的机器学习手法,通过单一的最优化处理来解决计算由来不同的上述[A]的统计量及上述[B]的统计量的处理、以及上述[C]将多个统计量综合的处理。
具体地说,本实施方式的故事模型构建方法包括以下的步骤。
[1]:从被进行谓语项构造解析及共参照解析的文章群提取具有共用项的事件空位序列群。
[2]:对于在[1]中提取的事件空位序列群,按照事件空位序列内的每个事件空位(关注要素),生成将特征矢量x和用于识别事件空位(关注要素)的标签y组合的事例数据(x,y),得到事例数据群,该特征矢量x包含与该事件空位的履历有关的1个以上的特征量和与共用项的履历有关的1个以上的特征量的至少某一个特征量。
[3]:使用逻辑回归等能够计算概率的识别模型手法,解决将[2]中取得的事例数据群作为学习数据的多类别分类问题(进行机器学习),构建故事模型。
在本实施方式中,事件空位的履历指的是将该事件空位作为末尾的要素的事件空位列内的部分序列(Ngram序列)。例如将Ngram次数设为2的情况下(bigram),在图1(a)的例子中,“投獄する(动4).ヲ格”的履历成为“捕まえる(动1).ヲ格”-“投獄する(动4).ヲ格”,“捕まえる(动1).ヲ格”的履历成为“犯す(动2).ガ格”-“捕まえる(动1).ヲ格”。但是,与事件空位的履历有关的特征量不仅包括Ngram序列的特征量,还包括次数为n以下的所有部分序列的特征量。例如将Ngram次数设为2的情况下,与事件空位的履历有关的特征量不仅包括将该事件空位和与其连接的1个之前的事件空位作为要素的部分序列(bigram序列)的特征量,还包括仅以该事件空位作为要素的部分序列(unigram序列(在本实施方式中,unigram也看做序列))的特征量。由此,在bigram为0频度的情况下,能够得到通过unigram插值的平滑化的效果。
此外,在本实施方式中,共用项的履历指的是与上述的事件空位的部分序列对应的共用项的序列。例如在bigram序列的情况下,在图1(a)的例子中,“投獄する(动4).ヲ格”的共用项的履历及“捕まえる(动1).ヲ格”的共用项的履历均成为“犯罪者”-“犯罪者”。像这样,共用项的履历表示与部分序列中包含的要素的个数对应的共用项的个数(共用项连续的个数)。但是,与共用项的履历有关的特征量不仅包括“犯罪者”这样的表层的序列的特征量,例如还包括表示共用项的意义聚类或固有表现类型等的其他表现方法下的序列的特征量。由此,能够以适当的粒度求出共用项的序列的频度。
另外,非专利文献5记载了作为语言模型的构建方法利用识别模型。在非专利文献5中,介绍了使用识别模型的各种不同的统计量的综合例,在5.3节中,作为其中的一例,记载了构建将Ngram和触发这2个线索综合的语言模型。在本实施方式中,例如应用该非专利文献5所记载的方法,利用基于识别模型的机器学习手法,能够构建故事模型。
根据本实施方式,如上述那样,从事件空位序列输出用包含与事件空位的履历有关的特征量和与共用项的履历有关的特征量的事例矢量表现的事例数据,使用该事例数据进行基于识别模型的机器学习,从而构建故事模型,所以能够构建精度高的故事模型。
另外,关于使用了事件空位序列的概率模型的构建,非专利文献3记载了除了事件空位序列的信息,还一并使用共用项的信息。但是,非专利文献3所记载的方法并不使用与共用项的履历有关的信息,共用项的信息用于更严格地区分事件空位序列。即,非专利文献3所记载的方法,例如如图2所示,实质上以类似于求取事件空位的概率和共用项的概率的乘积的方式来构建概率模型。因此,在非专利文献3所记载的方法中,学习数据不足这一问题没有解决,而且问题有变得更加严重的倾向。
与此相对,根据本实施方式的故事模型构建方法,以使与共用项的履历有关的特征量包含在特征矢量的维度中的方式生成事例数据,使用该事例数据进行基于识别模型的机器学习,从而构建故事模型,所以能够消除学习数据不足,构建精度高的故事模型。
(第1实施方式)
接下来说明本实施方式的数据处理装置的具体例。图3是表示第1实施方式的数据处理装置100的构成例的框图。如图3所示,数据处理装置100具备:文本解析器1、事件空位序列提取器2(提取部)、机器学习用事例生成器3(事例生成部)、事件空位履历特征生成器4、共用项履历特征生成器5、共用项表现生成器6、后续事件空位推测训练器7(模型构建部)、后续事件空位推测预测器8(预测部)。另外,图3中的圆角四边形表示构成数据处理装置100的上述各模块1~8的输入输出数据。
由数据处理装置100执行的处理大体分为“训练处理”和“预测处理”。训练处理是使用事件空位序列提取器2、机器学习用事例生成器3、事件空位履历特征生成器4、共用项履历特征生成器5、共用项表现生成器6及后续事件空位推测训练器7从带有训练用标记的文章群D1构建后续事件空位推测模型D10(故事模型)的处理。预测处理是使用文本解析器1、事件空位序列提取器2、机器学习用事例生成器3、事件空位履历特征生成器4、共用项履历特征生成器5、共用项表现生成器6及后续事件空位推测预测器8和由训练处理构建的后续事件空位推测模型D10来推测解析对象文章D5的后续事件空位的处理る。另外,图3中的虚线的箭头表示训练处理中的处理流程,实线的箭头表示预测处理中的处理流程,单点划线的箭头表示在训练处理和预测处理的双方中共同的处理流程。
首先,说明训练处理的概要。数据处理装置100执行训练处理的情况下,事件空位序列提取器2被输入带有训练用标记的文章群D1。事件空位序列提取器2接受带有训练用标记的文章群D1,进行从该带有训练用标记的文章群D1中包含的带有训练用标记的文章提取事件空位序列的处理,输出训练用事件空位序列数据群D2。
接着,机器学习用事例生成器3接受训练用事件空位序列数据群D2,与事件空位履历特征生成器4、共用项履历特征生成器5及共用项表现生成器6相联动地进行从训练用事件空位序列数据群D2所包含的训练用事件空位序列数据生成事例数据的处理,输出训练用事例数据群D3。
接着,后续事件空位推测训练器7接受训练用事例数据群D3,进行使用该训练用事例数据群D3的机器学习的训练,输出后续事件空位推测模型D10。该后续事件空位推测模型D10是故事模型本身,在后面说明的预测处理中,用于推测解析对象文章D5的后续事件空位。
接下来,说明预测处理的概要。数据处理装置100执行预测处理的情况下,首先,解析对象文章D5被输入到文本解析器1。文本解析器1接受解析对象文章D5,对该解析对象文章D5进行谓语项构造解析或共参照解析等,输出带有解析对象标记的文章D6を输出する。
接着,事件空位序列提取器2接受带有解析对象标记的文章D6,进行从该带有解析对象标记的文章D6提取事件空位序列的处理,输出预测用事件空位序列数据群D7。
接着,机器学习用事例生成器3接受预测用事件空位序列数据群D7,与事件空位履历特征生成器4、共用项履历特征生成器5及共用项表现生成器6相联动地进行从预测用事件空位序列数据群D7所包含的预测用事件空位序列数据生成事例数据的处理,输出预测用事例数据群D8。
接着,后续事件空位推测预测器8接受预测用事例数据群D8和由训练处理构建的后续事件空位推测模型D10,使用后续事件空位推测模型D10进行预测后续事件空位的处理,输出后续事件空位推测结果D9。该后续事件空位推测结果D9示出了有可能作为后续于从解析对象文章D5提取的事件空位序列的后续事件空位出现的事件空位各自的概率。利用故事模型的应用在自身的处理中能够将该后续事件空位推测结果D9的信息作为用于理解文脉的某种判断材料使用。
接着,例示出训练处理的具体例,说明训练处理中使用的各模块的详细情况。
首先,说明事件空位序列提取器2。在训练处理中,事件空位序列提取器2如上述那样输入带有训练用标记的文章群D1,输出训练用事件空位序列数据群D2。
图4是表示作为事件空位序列提取器2输入的带有训练用标记的文章群D1的一部的、带有训练用标记的文章的具体例的图,图4(a)表示日语的例子,图4(b)表示英语的例子。如图4所示,带有训练用标记的文章包括:被赋予了词素(单词分割)信息的文本、零照应或代名词照应等的照应关系已经解决的照应已解决的谓语项构造解析信息、共参照信息。在本实施方式中,谓语项构造解析信息和共参照信息是必须的,但是带有训练用标记的文章并不是必须以图4所示的格式处理。即,只要带有训练用标记的文章包含谓语项构造解析信息和共参照信息,就能够利用以任意的格式表现的文章。另外,在图4(a)的日语的例子和图4(b)的英语的例子中,虽然使用的语言存在差异,但是数据自身在本质上没有差异。因此,以下仅说明日语的例子。
在图4所示的带有训练用标记的文章中,在“文本和词素解析(单词分割)信息”的段落中,文本被进行单词分割,各单词被分配词素编号。此外,在“照应已解决的谓语项构造信息”的段落中,与文本上省略的项通过照应解析而解决了照应的状态下的各谓语的谓语项构造有关的信息,与对各谓语分配的ID一起示出。各谓语的谓语项构造包含谓语的词素编号及其语义、从属于谓语的各项的格种类及词素编号。另外,在图4(a)所示的例子中,词素编号12的谓语和词素编号15的谓语的ガ格和ヲ格是通过照应解析解决的项。此外,在“共参照信息”的段落中,按照在文本上被看作处于共参照关系的每个名词句群(以下称为共参照类),与对各共参照类分配的ID一起,将该共参照类的成员以与谓语项构造建立了对应的方式示出。
另外,图4所例示的带有训练用标记的文章例如可以利用在后述的预测处理中使用的文本解析器1(或者具有同等功能的模块)对任意的文本附加解析结果的标记而生成,也可以人工对任意的文本附加标记而生成。
图5是表示作为事件空位序列提取器2输出的训练用事件空位序列数据群D2的一部的、训练用事件空位序列数据的具体例的图,使出了从图4(a)所示的带有训练用标记的文章提取的训练用事件空位序列数据的例子。在图5所示的训练用事件空位序列数据中,左侧的段落示出了在最后尾追加“</s>”这一要素的事件空位序列。序列内的各事件空位共用项,该共用项的信息在右侧的段落示出。另外,序列的最后尾的“</s>”这一要素是表示该序列的结束的模拟事件空位,用于学习容易结束的序列样式。
图5所示的训练用事件空位序列数据,按照共参照类的数量从图4(a)所示的带有训练用标记的文章生成。即,图5的例子是从图4(a)所示的带有训练用标记的文章对由[C01]的ID表示的共参照类生成的训练用事件空位序列数据,但是从图4(a)所示的带有训练用标记的文章,对于由[C02]的ID表示的共参照类,也同样地生成训练用事件空位序列数据。
图6是说明由事件空位序列提取器2实施的处理的流程图。事件空位序列提取器2对于输入的带有训练用标记的文章群D1所包含的各个带有训练用标记的文章(参照图4),进行以下的步骤S101~步骤S104的处理而生成训练用事件空位序列数据(参照图5),输出训练用事件空位序列数据群D2。另外,图6所例示的事件空位序列提取器2的处理是从图4所例示的格式的带有训练用标记的文章输出图5所例示的格式的训练用事件空位序列数据的例子。带有训练用标记的文章及训练用事件空位序列数据的格式与图4或图5的例子不同的情况下,事件空位序列提取器2进行与该格式相应的处理即可。
步骤S101:事件空位序列提取器2从作为输入数据的带有训练用标记的文章的“共参照信息”的段落取出1个共参照类。
步骤S102:事件空位序列提取器2将列举了共参照类内的各成员的词素编号和表层者记录到成为输出数据的训练用事件空位序列数据的右侧的段落。
步骤S103:事件空位序列提取器2将共参照类内的各成员的括弧内记录的信息(事件空位信息)作为序列取出,将谓语的词素编号置换为谓语的表层和语义,进而在该序列的最后尾附加“</s>”这一要素,然后记录到成为输出数据的训练用事件空位序列数据的左侧的段落。
步骤S104:事件空位序列提取器2对于带有训练用标记的文章的“共参照信息”的段落所记述的所有共参照类进行上述的步骤S101~步骤S103的处理。
接下来,说明机器学习用事例生成器3。首先,说明本实施方式的数据处理装置100中的机器学习用事例生成器3的定位。在本实施方式的数据处理装置100中,后续事件空位推测训练器7及后续事件空位推测预测器8所进行的机器学习处理以识别模型为基础,其目的是预测Ngram序列的概率。即,将y设为事件空位、将x设为事件空位序列的履历时,P(y|x)成为应预测的概率。在该最优化中使用最尤推测,但是为此需要将表现为机器学习用的x和y的组作为事例数据预先制作。机器学习用事例生成器3承担制作该事例数据的处理。
如上述那样,机器学习用事例生成器3从事件空位序列提取器2接受训练用事件空位序列数据群D2而作为输入,输出训练用事例数据群D3。
图7是作为表示机器学习用事例生成器3输出的训练用事例数据群D3的一部分的、训练用事例数据的具体例的图,示出了从图5所示的训练用事件空位序列数据生成的训练用事例数据的例子。但是,图7的训练用事例数据是将Ngram次数设为2(bigram)、将图5所示的训练用事件空位序列数据的“投獄する(动4).ヲ格”作为关注要素时的与该关注要素有关的训练用事例数据。
在图7所示的训练用事例数据中,在以“y:”开始的段落中记载着输出标签。输出标签表示在预测后续事件空位的预测处理中成为正确答案的事件空位。
此外,在图7所示的训练用事例数据中,在以“x:”开始的段落中记载着与成为用于预测后续事件空位的线索的信息对应的特征矢量。特征矢量按照每个要素(维度)以逗号划分,各要素以冒号划分。位于冒号之前的是用于识别维度的维度ID,位于冒号之后的是该维度的值(特征量)。在此未被指定的维度的值看作0。该标记是在将大部分要素为0的高维度稀疏的矢量紧凑地表现时经常使用的记法。维度ID用字符串表示,用于在不同的事例的特征矢量所包含的要素间判定是否为同一维度。在后续的机器学习处理中,在必须解释为数学矢量时,进行适当分配以使各维度ID成为不同的矢量要素编号(将各维度ID分配给数学矢量的哪个要素编号,最优化的结果都是相同的)。另外,在本实施方式中,各维度的值仅使用1和0。
如上述那样,特征矢量包含与事件空位的履历有关的1个以上的特征量和与共用项的履历有关的1个以上的特征量。在图7所示的例子中,与以“[EventSlot]”开始的维度ID对应的值是与事件空位的履历有关的特征量(以下称为事件空位履历特征),与以“[ShareArg]”开始的维度ID对应的值是与共用项的履历有关的特征量(以下称为共用项履历特征)。在此,事件空位履历特征及共用项履历特征在将Ngram次数设为i时,对于i以下的所有次数的Ngram序列生成。例如,在图7所示的例子中,Ngram次数为2,所以生成bigram序列的履历特征和unigram序列的履历特征。由此,在bigram序列为0频度的情况下,能够得到用unigram序列插值的平滑化的效果。对于实施方式来说,也可以使用仅包含上述的事件空位履历特征或共用项履历特征的某一方的特征矢量。
图8是说明由机器学习用事例生成器3实施的处理的流程图。机器学习用事例生成器3对于输入的训练用事件空位序列数据群D2所包含的各个训练用事件空位序列数据(参照图5),进行以下的步骤S201~步骤S208的处理而生成训练用事例数据(参照图7),输出训练用事例数据群D3。
步骤S201:机器学习用事例生成器3从在作为输入数据的训练用事件空位序列数据的左侧的段落记载的事件空位序列,依次取出1个成为关注要素的事件空位(以下称为关注空位)。
步骤S202:机器学习用事例生成器3从事件空位序列取出与关注空位的履历对应的部分序列。例如,如果是bigram,则取出包含到关注空位的1个之前的事件空位的部分序列,如果是trigram,则取出包含到关注空位的2个之前的事件空位的部分序列。在此,成为关注要素的事件空位是事件空位序列的开头附近,没有满足Ngran次数的长度的情况下,在开头附加“<s>”等的补充伪要素的事件空位的数量即可。
步骤S203:机器学习用事例生成器3取出在事件空位序列数据的右侧的段落记载的共用项的信息。
步骤S204:机器学习用事例生成器3基于关注空位的记载,在成为输出数据的训练用事例数据的以“y:”开始的段落记载输出标签。在此,关注空位的记载直接成为输出标签。
步骤S205:机器学习用事例生成器3将关注空位和该关注空位的履历的信息传送给事件空位履历特征生成器4,从事件空位履历特征生成器4得到事件空位履历特征群。在图7所示的训练用事例数据的例子中,与以“[EventSlot]”开始的维度ID对应的值是事件空位履历特征,机器学习用事例生成器3从事件空位履历特征生成器4取得作为这些事件空位履历特征的集合的事件空位履历特征群。
步骤S206:机器学习用事例生成器3将共用项的信息传送给共用项履历特征生成器5,从共用项履历特征生成器5得到共用项履历特征群。在图7所示的训练用事例数据的例子中,与以“[ShareArg]”开始的维度ID对应的值是共用项履历特征,机器学习用事例生成器3从共用项履历特征生成器5取得作为这些共用项履历特征的集合的共用项履历特征群。
步骤S207:机器学习用事例生成器3将以上那样取得的事件空位履历特征群和共用项履历特征群进行合并,并将合并的结果作为特征矢量写入到成为输出数据的训练用事例数据的以“x:”开始的段落。
步骤S208:机器学习用事例生成器3杜宇在事件空位序列数据的左侧的段落记载的事件空位序列所包含的所有事件空位进行上述的步骤S201~步骤S207的处理。
接下来,说明事件空位履历特征生成器4。事件空位履历特征生成器4从机器学习用事例生成器3接受关注空位及其关注空位的履历的信息作为输入,将上述的事件空位履历特征群返回给机器学习用事例生成器3。
图9是说明事件空位履历特征生成器4的处理的流程图。事件空位履历特征生成器4从机器学习用事例生成器3接受关注空位及其关注空位的履历的信息后,进行图9的步骤S301~步骤S310的处理,将事件空位履历特征群返回给机器学习用事例生成器3。
步骤S301:事件空位履历特征生成器4准备返回值(特征量表现字符串列表)用的变量result,代入空的列表。
步骤S302:事件空位履历特征生成器4将Ngram次数设为N时,准备从1到N的范围的循环变量len,开始循环1。
步骤S303:事件空位履历特征生成器4准备特征量表现字符串s,代入“[EventSlot]”+关注空位。
步骤S304:事件空位履历特征生成器4准备从1到len的范围的循环变量i,开始循环2。
步骤S305:事件空位履历特征生成器4从关注空位的履历的信息取出关注空位的i个之前的事件空位,在特征量表现字符串s中隔着下划线而追加。
步骤S306:事件空位履历特征生成器4进行循环2的分岐处理(重复还是结束的判定)。
步骤S307:事件空位履历特征生成器4在特征量表现字符串s中追加“:1”。
步骤S308:事件空位履历特征生成器4在特征量表现字符串列表result中追加特征量表现字符串s。
步骤S309:事件空位履历特征生成器4进行循环1的分岐处理(重复还是结束的判定)。
步骤S310:事件空位履历特征生成器4将特征量表现字符串列表result作为返回值返回。
接下来,说明共用项履历特征生成器5。共用项履历特征生成器5从机器学习用事例生成器3接受共用项的信息作为输入,将上述的共用项履历特征群返回给机器学习用事例生成器3。
图10是说明共用项履历特征生成器5的处理的流程图。共用项履历特征生成器5从机器学习用事例生成器3接受共用项的信息后,进行图10的步骤S401~步骤S413的处理,将共用项履历特征群返回给机器学习用事例生成器3。
步骤S401:共用项履历特征生成器5准备返回值(特征量表现字符串列表)用的变量result,代入空的列表。
步骤S402:共用项履历特征生成器5向共用项表现生成器6传送共用项的信息并调用,从共用项表现生成器6得到共用项表现群。
步骤S403:共用项履历特征生成器5从共用项表现群依次取出1个并执行以下的处理(循环1)。
步骤S404:将Ngram次数设为N时,共用项履历特征生成器5准备从1到N的范围的循环变量len,开始循环2。
步骤S405:共用项履历特征生成器5准备特征量表现字符串s,代入“[ShareArg]”+共用项表现。
步骤S406:共用项履历特征生成器5准备从1到len的范围的循环变量i,开始循环3。
步骤S407:共用项履历特征生成器5在特征量表现字符串s中隔着下划线追加共用项表现。
步骤S408:共用项履历特征生成器5进行循环3的分岐处理(重复还是结束的判定)を行う。
步骤S409:共用项履历特征生成器5在特征量表现字符串s中追加“:1”。
步骤S410:共用项履历特征生成器5在特征量表现字符串列表result中追加特征量表现字符串s。
步骤S411:共用项履历特征生成器5进行循环2的分岐处理(重复还是结束的判定)。
步骤S412:共用项履历特征生成器5进行循环1的分岐处理(重复还是结束的判定)を行う。
步骤S413:共用项履历特征生成器5将特征量表现字符串列表result作为返回值返回。
接下来说明共用项表现生成器6。共用项表现生成器6从共用项履历特征生成器5接受共用项的信息作为输入,将共用项表现群返回给共用项履历特征生成器5。
图11是表示由共用项表现生成器6生成的共用项表现群的一例的图,是图5所例示的事件空位序列数据中包含的共用项的信息被输入到共用项表现生成器6时生成的共用项表现群的例子。如图11所示,共用项表现生成器6生成的共用项表现群除了共用项的表层(也可以是标准化的表层)以外,还包括使用了固有表现识别的结果的表现和基于意思聚类的表现。另外,除了这些表现以外,还可以将词类(普通名词·固有名词·数名词等)加入到共用项的表现之一。通过在共用项的表现中加入词类,能够以词类单位处理共用项的倾向。另外,共用项表现使用上述那样的表层或标准化的表层、语法聚类的信息、意思聚类的信息、固有表现类型的信息、的至少某一个区分共用项即可。
图12是说明共用项表现生成器6的处理的流程图。共用项表现生成器6从共用项履历特征生成器5接受共用项的信息后,进行图12的步骤S501~步骤S507的处理,将共用项表现群返回给共用项履历特征生成器5。
步骤S501:共用项表现生成器6准备返回值(共用项表现列表)用的变量result,代入空的列表。
步骤S502:共用项表现生成器6从表层群依次取出各1个表层,并执行以下的处理(循环1)。
步骤S503:共用项表现生成器6在特征量表现字符串列表result中追加该表层。
步骤S504:共用项表现生成器6基于表层进行固有表现识别处理,将得到的固有表现类型追加到特征量表现字符串列表result。另外,固有表现识别指的是,PERSON,ORGANIZATION,LOCATION等用于识别固有表现的类型的处理。
步骤S505:共用项表现生成器6对于表层使用词典等确定意思聚类,将得到的意思聚类按照每个层级追加到特征量表现字符串列表result。
步骤S506:共用项表现生成器6进行循环1的分岐处理(重复还是结束的判定)。
步骤S507:共用项表现生成器6将特征量表现字符串列表result作为返回值返回。
接下来,说明后续事件空位推测训练器7。后续事件空位推测器7如上述那样,从机器学习用事例生成器3接受训练用事例数据群D3作为输入,输出后续事件空位推测模型D10(故事模型)。
图13是表示后续事件空位推测模型D10的一例的图。在图13所示的后续事件空位推测模型D10中,各个行相当于各类别的特征矢量,按照类别编号顺序排列。在此,类别相当于上述的输出标签y,类别编号指的是与输出标签y对应的编号。此外,在图13所示的后续事件空位推测模型D10中,行内的各字段是特征矢量的要素(维度),按照维度编号顺序排列。维度编号是与维度ID对应的编号。后续事件空位推测训练器7输出的后续事件空位推测模型D10实际上成为庞大的数据尺寸,但是为了便于说明,在图13中通过小的维度数和类别数来例示。
图14是说明由后续事件空位推测训练器7实施的处理的流程图。后续事件空位推测训练器7使用输入的训练用事例数据群D3进行以下的步骤S601~步骤S604的处理,生成成为故事模型的后续事件空位推测模型D10并输出。
步骤S601:后续事件空位推测训练器7将输入的训练用事例数据群D3所包含的输出标签y分配给彼此不同的编号(类别编号)。
步骤S602:后续事件空位推测训练器7将输入的训练用事例数据群D3所包含的特征量的维度ID分配给彼此不同的编号(维度编号)。
步骤S603:后续事件空位推测训练器7求解下述式(1)所示的逻辑回归的最优化式。即,求出将目标函数L最小化的权重矢量群w(c)(但是∈Y)。其中,设类别集合为Y={1,2..C}、从x提取的特征矢量为φ(x)、λ为任意的常数、N为事例数、(x(i),y(i))为第i个事例。
【数式1】
其中,设类别集合为Y={1,2..C},x的特征矢量为φ(x),λ为任意的常数,N为事例数,x(i),y(i))为第i个事例,并且将事例(x,y)的似然度如下式(2)那样定义。
步骤S604:后续事件空位推测训练器7将通过求解式(1)的最优化式而得到的权重矢量群w(c)(其中c∈Y)作为后续事件空位推测模型D10输出。
接下来,详细说明使用如以上那样生成的后续事件空位推测模型D10进行推测后续事件空位的预测处理的各模块。
首先,说明文本解析器1。在预测处理中,如上述那样,将解析对象文章D5输入到文本解析器1。文本解析器1对于输入的解析对象文章D5,例如进行词素解析、谓语构造解析及共参照解析,生成与图4所例示的带有训练用标记的文章同样格式的带有解析对象标记的文章D6并输出。另外,由文本解析器1实施的词素解析、谓语构造解析及共参照解析是现有技术,所以在此省略说明。
接下来,说明事件空位序列提取器2。在预测处理中,事件空位序列提取器2接受由文本解析器1输出的带有解析对象标记的文章D6作为输入,输出预测用事件空位序列数据群D7。在预测处理中由事件空位序列提取器2实施的处理与训练处理中的处理同样。预测用事件空位序列数据群D7是与图5所例示的训练用事件空位序列数据同样格式的预测用事件空位序列数据的集合。
在此,说明在预测处理中应预测的问题设定。一般来说,应预测的问题设定根据应用而不同。应用到对话处理的情况下,推测可能后续于所给出的文章的事件空位及其概率这样的问题设定是合适的。此外,应用到日语等零照应解析的情况下,文章中的某个谓语的省略项(英语等的代名词照应解析的情况下,不是省略项而是代名词)选择相对于其前方文脉最容易连接的事件空位序列这样的问题设定是合适的。在本实施方式中进行不取决于应用的说明,所以作为更单纯的设定,解决推测相对于给出的事件空位序列最可能后续的后续事件空位(或者没有任何后续的情况)及其概率的问题。另外,作为上述的给出的事件空位序列,设为由事件空位序列提取器2输出的预测用事件空位序列数据群D7中的某个事件空位序列数据已经被选择,其选择方式在此不讨论。
接下来说明机器学习用事例生成器3。在预测处理中,机器学习用事例生成器3接受由事件空位序列提取器2输出的预测用事件空位序列数据群D7作为输入,从选择的事件空位序列数据生成预测用事例数据,输出预测用事例数据群D8。预测用事例数据是与图7所例示的训练用事例数据同样的格式,但是仅在输出标签y不定这一点上与训练用事例数据不同。
图15是说明预测处理中的机器学习用事例生成器3的处理的流程图。机器学习用事例生成器3对于从输入的预测用事件空位序列数据群D7选择的预测用事件空位序列数据,进行以下的步骤S701及步骤S702的处理,生成预测用事例数据,输出预测用事例数据群D8。
步骤S701:机器学习用事例生成器3从在预测用事件空位序列数据的左侧的段落记载的事件空位序列将作为最后尾的要素的“</s>”除去。
步骤S702:机器学习用事例生成器3将剩余的事件空位序列看做履历,进行与图8的步骤S202、步骤S203、步骤S205~步骤S208同样的处理,输出预测用事例数据群D8。另外,预测处理的情况下,预测用事例数据的输出标签y不定,所以保持空栏,或者填入伪值。
接下来说明后续事件空位推测预测器8。后续事件空位推测预测器8接受由机器学习用事例生成器3输出的预测用事例数据群D8作为输入,使用在训练处理中构建的后续事件空位推测模型D10进行机器学习的预测处理,输出后续事件空位推测结果D9。
图16是表示后续事件空位推测结果D9的一例的图。在图16所示的后续事件空位推测结果D9中,按照类别编号顺序列举了各类别的带有条件的概率P(c|x)(其中c∈Y)。各类别的概率表示各事件空位是否后续于给出的事件空位序列的概率。
图17是说明后续事件空位推测预测器8执行的处理的流程图。后续事件空位推测预测器8对于输入的预测用事例数据群D8,使用后续事件空位推测模型D10进行以下的步骤S801~步骤S803的处理,输出后续事件空位推测结果D9。
步骤S801:后续事件空位推测预测器8将输入的预测用事例数据群D8所包含的特征量的维度ID通过与后续事件空位推测训练器7同样的步骤(与图14的步骤S602同样)分配给彼此不同的编号(维度编号)。
步骤S802:后续事件空位推测预测器8基于由下式式(3)示出的逻辑回归的推测的数式,计算各类别的概率。其中,设类别集合为Y={1,2..C}、从x提取的特征矢量为φ(x)。
【数式2】
其中,设类别集合为Y={1,2..C}、从x提取的特征矢量为φ(x)。
步骤S803:后续事件空位推测预测器8将通过式(3)得到的各类别的概率P(c|x)(其中c∈Y)作为后续事件空位推测结果D9输出。
如以上举出具体例详细的说明,在本实施方式的数据处理装置100中,事件空位序列提取器2(提取部)从带有训练用标记的文章(被进行谓语项构造解析及共参照解析的文章)提取训练用事件空位序列数据(将具有共用项的谓语和表示共用项的格的种类的格种类信息的组合作为要素,将多个要素按照文章中的谓语的出现顺序排列的要素序列及共用项)。然后,机器学习用事例生成器3(事例生成部)从训练用事件空位序列数据输出作为包含事件空位履历特征及共用项履历特征的特征矢量x和输出标签y的组合的训练用事例数据(将构成要素序列的要素中的1个作为关注要素时,对于各个关注要素,用特征矢量表现的事例数据,该特征矢量包含与以关注要素为末尾要素的要素序列内的部分序列有关的1个以上的特征量和与对应于以部分序列中包含的要素数的共用项数有关的1个以上的特征量)。然后,后续事件空位推测训练器7(模型构建部)使用训练用事例数据求解数式(1)所示的逻辑回归的最优化式(进行基于识别模型的机器学习),从而构建后续事件空位推测模型D10(故事模型)。像这样,根据本实施方式的数据处理装置100,不仅事件空位履历特征,生成用还包含共用项履历特征的特征矢量表现的事例数据,通过使用了该事例数据的机器学习来构建故事模型,所以比以往更多地提取用于预测后续事件空位的线索,能够构建精度高的故事模型。
此外,在本实施方式的数据处理装置100中,机器学习用事例生成器3生成训练用事例数据或预测用事例数据时,与共用项履历特征生成器5及共用项表现生成器6相联动地,使用表层或标准化的表层、语法聚类的信息、意思聚类的信息、固有表现类型的信息的至少某一个,按照区分共用项的每个共用项表现生成共用项履历特征。因此,根据本实施方式的数据处理装置100,能够以适当的粒度生成共用项履历特征,构建精度高的故事模型。
此外,在本实施方式的数据处理装置100中,机器学习用事例生成器3生成训练用事例数据或预测用事例数据时,作为事件空位履历特征及共用项履历特征,对于包含unigram序列的各个部分序列生成特征量。因此,根据本实施方式的数据处理装置100,能够有效地解决事件空位序列的概率为零的零概率,构建精度高的故事模型。
此外,在本实施方式的数据处理装置100中,事件空位序列提取器2提取的事件空位序列,在各事件空位所包含的谓语中附加用于确定该谓语的语义的语义确定信息。因此,根据本实施方式的数据处理装置100,能够谓语的语义的暧昧除去,构建精度高的故事模型。
(第2实施方式)
接下来说明第2实施方式。在第2实施方式中,取代第1实施方式所使用的共用项履历特征,使用具有包含共用项履历特征的功能的通配符履历和共用项的组合特征。
首先说明通配符履历。通配符履历是将成为事件空位的履历的事件空位序列内的部分序列的一部分要素置换为通配符(和所有事件空位匹配的要素)而得到的。例如有“A_B_C”(A,B,C是按照该顺序出现的事件空位)这一履历时,如果设通配符为*,则作为通配符履历的例子可以局促“A_B_C”(无通配符的履历)、“A_B_*”(将C用通配符置换的履历)、“A_*_C”(将B用通配符置换的履历)、“A_*_*”(将B和C用通配符置换的履历)、“*_B_C”(将A用通配符置换的履历)、“*_*_C”(将A和B用通配符置换的履历)、“*_*_*”(将A、B、C均用通配符置换的履历)。“A_*_*”的通配符履历的情况下,与在关注要素的3个前之前具有“A”要素的所有履历匹配。另外,通配符履历在非专利文献6中作为“skipping model”介绍,此外,在非专利文献5及非专利文献7中作为“Distance Trigram”介绍。
第1实施方式所使用的共用项的履历被定义为,将共用项排列事件空位的履历长度(与成为事件空位的履历的部分序列的要素数对应的数量)。例如,将共用项设为“X”时,与长度3部分序列对应的共用项的履历表现为“X_X_X”。在此,考虑对通配符履历和共用项取AND(逻辑与)的组合特征。组合特征指的是,仅在双方的特征量为1时成为1的特征量,维度ID将两者的ID用“&”连结而表示。例如,对通配符履历“A_*_*”和共用项“X”取AND的组合特征表示为“A_*_*”,表示这时通配符履历“A_*_*”和共用项“X”的任一特征都成立。
在此,着眼于第1实施方式所使用的共用项履历特征包含于通配符履历和共用项的组合特征的情况。例如,与共用项“X”的长度3的履历“X_X_X”有关的共用项履历特征具有与通配符履历“*_*_*”和共用项”X”的组合特征”“*_*_*&X”相同的意思。这是因为,通配符履历“*_*_*”表示长度3的履历,“*_*_*&X”表示长度3的履历是与共用项“X”有关的履历。
“*_*_*”以外的通配符履历和共用项的组合特征与上述的组合特征相比,是稍微施加了制约的特征。例如,“A_*_*&X”具有长度3的共用项”X”的履历,并且事件空位履历中的关注要素的3个之前的要素必须是“X”。这表示,仅利用共用项履历特征时制约过于宽松的情况下,通过与其他通配符履历特征组合,能够调整为对事件空位序列实施适当的制约。
在第2实施方式的数据处理装置中,机器学习用事例生成器3生成训练用事例数据或预测用事例数据时,通过取代第1实施方式所使用的共用项履历特征而使用通配符履历和共用项的组合特征,在利用共用项履历特征时制约过于宽松的情况下,能够调整为对事件空位序列实施适当的制约。具体地说,在第2实施方式中,使通配符履历的所有变形和共用项的组合特征包含在特征矢量内而进行机器学习。机器学习具有调整机构,对预测来说重要的特征被赋予大的权重,不重要的特征被赋予小的权重,所以在仅通过共用项履历无法进行充分的预测的样式中,能够对具有适当的制约的通配符履历和共用项的组合特征分配大的权重。另外,对于第2实施方式的机器学习处理不追加特別的处置,与第1实施方式完全相同。
如上述那样,通配符履历中的将所有要素用通配符置换的通配符履历和共用项的组合特征,具有与第1实施方式所使用的共用项履历特征相同的意思。因此,在第2实施方式中生成的训练用事例数据或预测用事例数据与第1实施方式中生成的训练用事例数据或预测用事例数据的特征矢量x相比,对于关注要素的每一个,特征矢量x还包含与将一部分要素用通配符置换的部分序列和共用项的AND条件下的组合有关的1以上的特征量。
图18是表示第2实施方式的数据处理装置200的构成例的框图。如图18所示,第2实施方式的数据处理装置200与图3所示的第1实施方式的数据处理装置100相比,取代机器学习用事例生成器3而使用机器学习用事例生成器3’(事例生成部),取代共用项履历特征生成器5而使用组合特征生成器9。第2实施方式的数据处理装置200的其他构成与第1实施方式的数据处理装置100同样。因此,以下对于与第1实施方式的数据处理装置100同样的构成要素赋予同一符号,并省略重复的说明,仅说明不同点。
机器学习用事例生成器3’从事件空位序列提取器2接受训练用事件空位序列数据群D2(或预测用事件空位序列数据群D7)作为输入,与事件空位履历特征生成器4、组合特征生成器9及共用项表现生成器6相联动地进行生成事例数据的处理,输出训练用事例数据群D3’(或预测用事例数据群D8’)。
图19是表示作为机器学习用事例生成器3’输出的训练用事例数据群D3’的一部分的训练用事例数据的具体例的图,表示从图5所示的训练用事件空位序列数据生成的训练用事例数据的例子。其中,图19的训练用事例数据是将Ngram次数设为2(bigram)、将图5所示的训练用事件空位序列数据的“投獄する(动4).ヲ格”作为关注要素时的与该关注要素有关的训练用事例数据。
在图19所示的训练用事例数据中,与图7所示的第1实施方式的训练用事例数据的例子相比,在特征矢量x中不包含与以“[ShareArg]”开始的维度ID对应的共用项履历特征。取代于此,在特征矢量x中包含与以“[Wild&Arg]”开始的维度ID对应的通配符履历和共用项的组合特征。
在图19所例示的训练用事例数据中,通配符履历和共用项的组合特征中使用的通配符履历的变形有以下4种。
捕まえる(动1).ヲ格_投獄する(动4).ヲ格
*_投獄する(动4).ヲ格
捕まえる(动1).ヲ格_*
*_*。,
另一方面,通配符履历和共用项的组合特征所使用的共用项的变形有以下6种。
山田
犯罪者
<PERSON>
<Thing>
<Thing/Agent>
<Thing/Agent/Person>
因此,作为通配符履历和共用项的组合特征,生成合计24(=4×6)种类的特征。
这些24种类的特征中的通配符履历“*_*”和共用项的组合特征(6种类)与图7所例示的第1实施方式的训练用事例数据中包含的共用项履历特征是等价的。因此,图19所例示的训练用事例数据的特征矢量x相对于图7所例示的第1实施方式的训练用事例数据的特征矢量x进一步附加了18种类的特征量。
机器学习用事例生成器3’对于输入的训练用事件空位序列数据群D2中包含的训练用事件空位序列数据(参照图5)的每一个,进行与第1实施方式的机器学习用事例生成器3同样的处理(图8的步骤S201~步骤S208)而生成图19所示的训练用事例数据,输出训练用事例数据群D3’。但是,在第1实施方式的机器学习用事例生成器3中,在图8的步骤S206中,将共用项的信息传送给共用项履历特征生成器5而得到共用项履历特征群,与此相对,第2实施方式的机器学习用事例生成器3’将事件空位的履历的信息和共用项的信息传送给组合特征生成器9而得到通配符履历和共用项的组合特征群。
此外,机器学习用事例生成器3’在预测处理中接受由事件空位序列提取器2输出的预测用事件空位序列数据群D7作为输入,对于选择的事件空位序列数据进行与第1实施方式的机器学习用事例生成器3同样的处理(图15的步骤S701及步骤S702)而生成预测用事例数据,输出预测用事例数据群D8。另外,预测用事例数据是与图19所例示的训练用事例数据同样的格式,但是仅在输出标签y不定这一点上与训练用事例数据不同。
接下来说明组合特征生成器9。组合特征生成器9从机器学习用事例生成器3’接受事件空位的履历的信息和共用项的信息作为输入,将上述的通配符履历和共用项的组合特征群返回给机器学习用事例生成器3’。
图20是说明组合特征生成器9的处理的流程图。组合特征生成器9从机器学习用事例生成器3’接受事件空位的履历的信息和共用项的信息后,进行图20的步骤S901~步骤S910的处理,将通配符履历和共用项的组合特征群返回给机器学习用事例生成器3。
步骤S901:组合特征生成器9准备通配符事件空位履历列表w这一变量,代入空的列表。
步骤S902:组合特征生成器9将事件空位的履历的信息(关注空位及其关注空位的履历的信息)传送给事件空位履历特征生成器4,从事件空位履历特征生成器4得到事件空位履历特征群。
步骤S903:组合特征生成器9从事件空位履历特征群取出1个事件空位履历特征。
步骤S904:组合特征生成器9通过将事件空位履历中包含的任意的要素置换为通配符“*”,取得通配符履历的所有变形(如果事件空位履历的长度为N,则取得2的N次方个变形)。
步骤S905:组合特征生成器9将取得的通配符履历的所有变形追加到通配符事件空位履历列表w。
步骤S906:组合特征生成器9对于事件空位履历特征群的所有事件空位履历特征进行上述的步骤S903~步骤S905的处理。
步骤S907:组合特征生成器9准备共用项表现列表a这一变量,代入空的列表。
步骤S908:组合特征生成器9项共用项表现列表a追加将共用项的信息传送Giel共用项表现生成器6而得到的共用项表现群。
步骤S909:组合特征生成器9对于通配符事件空位履历列表w内的任意要素和共用项表现列表a内的任意要素的对,对于所有的对进行将两者的字符串之间夹入“&”的处理,得到通配符履历和共用项的组合特征的维度ID群c。
步骤S910:组合特征生成器9将对于通配符履历和共用项的组合特征的维度ID群c的各要素在最后尾附加“:1”的要素作为返回值返回。
如以上举出具体例所做的说明,根据本实施方式的数据处理装置200,在利用第1实施方式的事例数据所使用规定共用项履历特征时制约过于宽松的情况下,调整为对事件空位序列施加适当的制约,能够构建精度高的故事模型。
第1实施方式的数据处理装置100和第2实施方式的数据处理装置200的上述各功能例如可以通过在数据处理装置100(200)中执行规定的程序来实现。这种情况下,例如如图21所示,数据处理装置100(200)可以采用利用了具备CPU(Central Processing Unit)101等控制装置、ROM(Read Only Memory)102或RAM(Random Access Memory)103等存储装置、与网络连接而进行通信的通信I/F104、将各部连接的总线110等的通常的计算机的硬件构成。
由数据处理装置100(200)执行的程序以可安装的形式或可执行的形式的文件记录在CD-ROM(Compact Disk Read Only Memory)、软盘(FD)、CD-R(Compact DiskRecordable)、DVD(Digital Versatile Disc)等计算机可读取的记录介质中并作为计算机程序产品提供。
此外,也可以将由数据处理装置100(200)执行的程序保存在与因特网等网络连接的计算机上,通过经由网络下载而提供。此外,也可以经由因特网等网络提供或发布由数据处理装置100(200)执行的程序。
此外,也可以将由数据处理装置100(200)执行的程序预先装入ROM102等而提供。
由数据处理装置100(200)执行的程序是包括数据处理装置100(200)的各处理部(文本解析器1、事件空位序列提取器2、机器学习用事例生成器3(3’)、事件空位履历特征生成器4、共用项履历特征生成器5(组合特征生成器9)、共用项表现生成器6、后续事件空位推测训练7、及后续事件空位推测预测器8)的模块构成,作为实际的硬件,例如通过由CPU101(处理器)从上述记录介质读出程序并执行,将上述各处理部加载到主存储装置上,在主存储装置上生成上述各处理部。另外,数据处理装置100(200)也可以使用ASIC(ApplicationSpecific Integrated Circuit)或FPGA(Field-Programmable Gate Array)等专用的硬件来实现上述各处理部的一部分或全部。
另外,以上说明的数据处理装置100(200)进行构件后续事件空位推测模型D10(故事模型)的训练处理和使用由训练处理构建的后续事件空位推测模型D10来推测解析对象文章D5的后续事件空位的预测处理的双方。但是,数据处理装置100(200)也可以只进行预测处理。这种情况下,例如使用外部装置等事先进行训练处理,构件后续事件空位推测模型D10。然后,数据处理装置100(200)输入解析对象文章D5,并且从外部装置等输入后续事件空位推测模型D10,进行上述的预测处理。
此外,以上说明的数据处理装置100(200)是使用通过训练处理构建的后续事件空位推测模型D10来推测解析对象文章D5的后续事件空位的预测处理的例子,但是数据处理装置100(200)也可以使用通过训练处理构建的后续事件空位推测模型D10(故事模型)来执行其他各种应用。例如,在执行照应解析的应用的情况下,使用通过训练处理构建的后续事件空位推测模型D10(故事模型)生成用于照应解析的事例数据,使用该事例数据进行机器学习,从而能够进行照应解析。
以上说明了本发明的实施方式,但是在此说明的实施方式只是作为例子提示,并不意图限定发明的范围。在此说明的新的实施方式可以通过其他各种方式来实施,在不脱离发明的主旨的范围内,能够进行各种省略、置换、变更。在此说明的实施方式及其变形包含在发明的范围和主旨中,也包含在权利要求所记载的发明及其均等范围内。
Claims (7)
1.一种数据处理装置,具备:
提取部,从被进行谓语项构造解析及共参照解析的文章,与共用项一起提取要素序列,该要素序列将具有所述共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,将多个所述要素按照所述文章中的所述谓语的出现顺序排列;
事例生成部,对于构成所述要素序列的所述要素中的每一个要素,将该要素作为关注要素时,生成用特征矢量表现的事例数据,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量、以及与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量;以及
模型构建部,使用所述事例数据进行基于识别模型的机器学习,从而构建用于推测后续于在先文脉的所述要素的故事模型。
2.如权利要求1所述的数据处理装置,
所述事例生成部对于所述关注要素的每一个,生成用特征矢量表现的所述事例数据,该特征矢量还包含与将一部分所述要素用通配符置换的所述部分序列和所述共用项的逻辑与条件的组合有关的1个以上的特征量。
3.如权利要求1所述的数据处理装置,
与所述共用项的序列有关的特征量是使用表层、语法聚类的信息、意思聚类的信息、固有表现类型的信息的至少某一个来区分所述共用项而得到的1个以上的特征量。
4.如权利要求1所述的数据处理装置,
所述部分序列包含仅以所述关注要素作为要素的单字序列。
5.如权利要求1所述的数据处理装置,
所述要素中包含的所述谓语被附加了用于确定该谓语的语义的语义确定信息。
6.一种数据处理装置,具备:
提取部,从被进行谓语项构造解析及共参照解析的文章,与共用项一起提取要素序列,该要素序列将具有所述共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,将多个所述要素按照所述文章中的所述谓语的出现顺序排列;
事例生成部,对于构成所述要素序列的所述要素中的每一个要素,将该要素作为关注要素时,生成用特征矢量表现的事例数据,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量、以及与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量;
输入部,输入用于推测后续于在先文脉的所述要素的故事模型;以及预测部,使用所述事例数据和所述故事模型预测后续于在先文脉的所述要素,
所述故事模型是事先使用训练用的所述事例数据进行基于识别模型的机器学习而生成的。
7.一种故事模型构建方法,是在数据处理装置中执行的故事模型构建方法,包括:
所述数据处理装置的提取部,从被进行谓语项构造解析及共参照解析的文章,与共用项一起提取要素序列的步骤,该要素序列将具有所述共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,将多个所述要素按照所述文章中的所述谓语的出现顺序排列;
所述数据处理装置的事例生成部,对于构成所述要素序列的所述要素中的每一个要素,将该要素作为关注要素时,生成用特征矢量表现的事例数据的步骤,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量、以及与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量;以及
所述数据处理装置的模型构建部,使用所述事例数据进行基于识别模型的机器学习,从而构建用于推测后续于在先文脉的所述要素的故事模型的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/055477 WO2014132402A1 (ja) | 2013-02-28 | 2013-02-28 | データ処理装置および物語モデル構築方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105264518A CN105264518A (zh) | 2016-01-20 |
CN105264518B true CN105264518B (zh) | 2017-12-01 |
Family
ID=51427703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380073967.6A Expired - Fee Related CN105264518B (zh) | 2013-02-28 | 2013-02-28 | 数据处理装置及故事模型构建方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9904677B2 (zh) |
JP (1) | JP5945062B2 (zh) |
CN (1) | CN105264518B (zh) |
WO (1) | WO2014132402A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6074820B2 (ja) * | 2015-01-23 | 2017-02-08 | 国立研究開発法人情報通信研究機構 | アノテーション補助装置及びそのためのコンピュータプログラム |
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
CN105975458B (zh) * | 2016-05-03 | 2018-10-09 | 安阳师范学院 | 一种基于细粒度依存关系的中文长句相似度计算方法 |
EP3511871A4 (en) * | 2016-09-06 | 2020-06-24 | Nippon Telegraph And Telephone Corporation | DEVICE, METHOD AND PROGRAM FOR EXTRACTING CHARACTERISTIC QUANTITIES OF DATA IN CHRONOLOGICAL SERIES |
WO2018199031A1 (ja) * | 2017-04-27 | 2018-11-01 | 日本電信電話株式会社 | 学習型信号分離方法、及び学習型信号分離装置 |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
EP3759656A4 (en) * | 2018-02-28 | 2022-03-30 | Northrup, Charles | SYSTEM AND METHOD FOR A DING MACHINE FOR RUNNING MODELS |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP7120914B2 (ja) * | 2018-12-25 | 2022-08-17 | 株式会社日立製作所 | 生産実績データ分析装置 |
JP7229144B2 (ja) * | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN113536784A (zh) * | 2021-01-05 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
US20220237838A1 (en) * | 2021-01-27 | 2022-07-28 | Nvidia Corporation | Image synthesis using one or more neural networks |
CN113312464B (zh) * | 2021-05-28 | 2022-05-31 | 北京航空航天大学 | 一种基于对话状态追踪技术的事件抽取方法 |
CN113792053B (zh) * | 2021-09-17 | 2023-08-01 | 浙江大学 | 一种数据故事生成方法 |
CN114840771B (zh) * | 2022-03-04 | 2023-04-28 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872341A (zh) * | 2009-04-23 | 2010-10-27 | 国际商业机器公司 | 用于自动提取系统建模元模型语言模型的方法和装置 |
CN101968785A (zh) * | 2009-07-28 | 2011-02-09 | 万继华 | 理解人类自然语言的逻辑机器模型 |
CN102110304A (zh) * | 2011-03-29 | 2011-06-29 | 华南理工大学 | 一种基于素材引擎的漫画自动生成方法 |
WO2011122730A1 (ko) * | 2010-03-30 | 2011-10-06 | 한국과학기술정보연구원 | Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250085A (ja) * | 1998-03-02 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 事象推移予測方法および事象推移予測プログラムを記録した記録媒体 |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
JP2002109103A (ja) * | 2000-09-29 | 2002-04-12 | Toshiba Corp | コンテンツ流通システムおよびコンテンツ流通方法 |
US6925432B2 (en) * | 2000-10-11 | 2005-08-02 | Lucent Technologies Inc. | Method and apparatus using discriminative training in natural language call routing and document retrieval |
US20040024598A1 (en) * | 2002-07-03 | 2004-02-05 | Amit Srivastava | Thematic segmentation of speech |
WO2005050474A2 (en) * | 2003-11-21 | 2005-06-02 | Philips Intellectual Property & Standards Gmbh | Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics |
US7865352B2 (en) * | 2006-06-02 | 2011-01-04 | Microsoft Corporation | Generating grammatical elements in natural language sentences |
US20080162117A1 (en) * | 2006-12-28 | 2008-07-03 | Srinivas Bangalore | Discriminative training of models for sequence classification |
US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
US8122066B2 (en) * | 2008-10-14 | 2012-02-21 | Hewlett-Packard Development Company, L.P. | Database query profiler |
US8620836B2 (en) * | 2011-01-10 | 2013-12-31 | Accenture Global Services Limited | Preprocessing of text |
JP5197774B2 (ja) * | 2011-01-18 | 2013-05-15 | 株式会社東芝 | 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム |
US8909516B2 (en) * | 2011-10-27 | 2014-12-09 | Microsoft Corporation | Functionality for normalizing linguistic items |
US20130346066A1 (en) * | 2012-06-20 | 2013-12-26 | Microsoft Corporation | Joint Decoding of Words and Tags for Conversational Understanding |
JP5389273B1 (ja) * | 2012-06-25 | 2014-01-15 | 株式会社東芝 | 文脈解析装置および文脈解析方法 |
US8856642B1 (en) * | 2013-07-22 | 2014-10-07 | Recommind, Inc. | Information extraction and annotation systems and methods for documents |
-
2013
- 2013-02-28 CN CN201380073967.6A patent/CN105264518B/zh not_active Expired - Fee Related
- 2013-02-28 WO PCT/JP2013/055477 patent/WO2014132402A1/ja active Application Filing
- 2013-02-28 JP JP2015502663A patent/JP5945062B2/ja not_active Expired - Fee Related
-
2015
- 2015-08-27 US US14/837,197 patent/US9904677B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872341A (zh) * | 2009-04-23 | 2010-10-27 | 国际商业机器公司 | 用于自动提取系统建模元模型语言模型的方法和装置 |
CN101968785A (zh) * | 2009-07-28 | 2011-02-09 | 万继华 | 理解人类自然语言的逻辑机器模型 |
WO2011122730A1 (ko) * | 2010-03-30 | 2011-10-06 | 한국과학기술정보연구원 | Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법 |
CN102110304A (zh) * | 2011-03-29 | 2011-06-29 | 华南理工大学 | 一种基于素材引擎的漫画自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014132402A1 (ja) | 2017-02-02 |
US20160012040A1 (en) | 2016-01-14 |
JP5945062B2 (ja) | 2016-07-05 |
WO2014132402A1 (ja) | 2014-09-04 |
CN105264518A (zh) | 2016-01-20 |
US9904677B2 (en) | 2018-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105264518B (zh) | 数据处理装置及故事模型构建方法 | |
CN104169909B (zh) | 上下文解析装置及上下文解析方法 | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
CN105224581B (zh) | 在播放音乐时呈现图片的方法和装置 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN109145152A (zh) | 一种基于查询词的自适应智能生成图文视频缩略图方法 | |
CN109685056A (zh) | 获取文档信息的方法及装置 | |
CN103778200B (zh) | 一种报文信息源抽取方法及其系统 | |
CN107644085A (zh) | 体育赛事新闻的生成方法和装置 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN108108347B (zh) | 对话模式分析系统及方法 | |
CN110807122A (zh) | 一种基于深度互信息约束的图文跨模态特征解纠缠方法 | |
CN105005616B (zh) | 基于文本图片特征交互扩充的文本图解方法及系统 | |
CN108231066A (zh) | 语音识别系统及其方法与词汇建立方法 | |
CN114827752B (zh) | 视频生成方法、视频生成系统、电子设备及存储介质 | |
CN110427478A (zh) | 一种基于知识图谱的问答搜索方法及系统 | |
Janney et al. | Temporal regularity increases with repertoire complexity in the Australian pied butcherbird's song | |
CN111177559A (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN103246642B (zh) | 信息处理装置以及信息处理方法 | |
CN113573128A (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
KR20200066134A (ko) | 멀티모달 다중 화자 대화 속 인물 식별 방법 및 장치 | |
CN109086389A (zh) | 一种信息查询方法、推送方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171201 Termination date: 20210228 |