CN104169909A - 上下文解析装置及上下文解析方法 - Google Patents

上下文解析装置及上下文解析方法 Download PDF

Info

Publication number
CN104169909A
CN104169909A CN201280071298.4A CN201280071298A CN104169909A CN 104169909 A CN104169909 A CN 104169909A CN 201280071298 A CN201280071298 A CN 201280071298A CN 104169909 A CN104169909 A CN 104169909A
Authority
CN
China
Prior art keywords
sequence
mentioned
probability
key element
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280071298.4A
Other languages
English (en)
Other versions
CN104169909B (zh
Inventor
浜田伸一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN104169909A publication Critical patent/CN104169909A/zh
Application granted granted Critical
Publication of CN104169909B publication Critical patent/CN104169909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

实施方式的上下文解析装置(100)具备机器学习用事例生成器(3)和照应解析预测器(5)。机器学习用事例生成器(3)具备预测序列生成部(32)和概率预测部(33)。预测序列生成部(32)以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象文书(D6)生成预测序列,该预测序列通过预测求出将该要素排列有多个的序列的一部分要素。概率预测部(33)基于从任意的文书群(D1)事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率。照应解析预测器(5)使用预测出的上述预测序列的发生概率,进行对解析对象文书(D6)的上下文解析。

Description

上下文解析装置及上下文解析方法
技术领域
本发明涉及进行上下文解析的上下文解析装置及上下文解析方法。
背景技术
照应解析(Anaphora Resolution)、首尾一贯性的解决(CoreferenceResolution)、对话处理(Dialog Processing)等上下文解析(ContextualAnalysis)在自然语言处理中在正确地理解文书方面是重要的任务。在上下文解析中,已知使用香克(Schank)的脚本(script)或菲尔莫尔(Fillmore)的框架(frame)那样的程序性知识(procedural knowledge)是有效的。但是,在由人工制作的程序性知识方面有覆盖度(coverage)的极限。所以,尝试自动从文书获得这样的程序性知识的途径(approach)。
例如,提出了将相互关联的谓语的序列(以下称作“事件序列(eventsequence)”)看作程序性知识、从任意的文书群获得这样的事件序列而作为程序性知识加以利用的方法。
但是,用以往的方法获得的事件序列缺少作为程序性知识的正确性,所以有如果利用它进行上下文解析则不能得到充分的精度的情况,要求改善。
现有技术文献:
非专利文献:
非专利文献1:V.Pekar.2006.Acquisition of verb entailmentfrom text.In“Proceedings of the main conference on HumanLanguage Technology Conference of the North American Chapterof the Association of Computational Linguistics”,pages49.56.Association for Computational Linguistic.
非专利文献2:I.Szpektor and I.Dagan.2008.Learning entailmentrules for unary templates.In“Proceedings of the 22ndInternational Conference on Computational Linguistics-Volume 1”,pages 849.856.Association for Computational Linguistics.
非专利文献3:N.Chambers and D.Jurafsky.2009.Unsupervisedlearning of narrative schemas and their participants.In“Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International Joint Conferenceon Natural Language Processing of the AFNLP:Volume 2-Volume2”,pages 602.610.Association for Computational Linguistics.
发明内容
本发明要解决的课题是,提供一种能够进行精度较高的上下文解析的上下文解析装置及上下文解析方法。
技术方案的上下文解析装置具备预测序列生成部、概率预测部和解析处理部。预测序列生成部以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个该要素的序列的一部分要素的序列;概率预测部基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;解析处理部使用预测到的上述预测序列的发生概率,进行对解析对象的文书的上下文解析。
附图说明
图1是说明英语的句间照应(inter-sentential anaphora)的一例的图。
图2是说明通过以往的方法获得的事件序列的具体例的图。
图3是说明通过以往的方法获得的事件序列的问题的图。
图4是将京都大学格框架的一部分摘录表示的图。
图5是表示实施方式的上下文解析装置的结构例的框图。
图6是说明带有照应标记的文书群的一例的图。
图7是表示格框架推定器的结构例的框图。
图8是表示格框架推定后文书的一例的图。
图9是表示事件序列模型构建器的结构例的框图。
图10是表示带有共参照标记的文书的一例的图。
图11是表示从图10所例示的带有共参照标记的文书获得的事件序列的例子的图。
图12是表示从图11所例示的事件序列求出的频度列表的一部分的图。
图13是表示使用图12所例示的频度列表构建的概率模型的输出即概率列表的图。
图14是表示机器学习用事例生成器的结构例的框图。
图15是表示被赋予了照应标记的句子的一例的图。
图16是表示作为表示照应词候选和先行词候选的对的特征向量的要素而使用的标准性特点群的图。
图17是训练用事例数据的一例的图。
图18是概念性地说明通过使用2值分类器的机器学习(machinelearning)来判定事例的正确度的处理的示意图。
图19是表示上下文解析装置的硬件结构的一例的图。
具体实施方式
以下,参照附图说明实施方式的上下文解析装置及上下文解析方法。以下所示的实施方式是对进行上下文解析中的特别是照应解析的装置的应用例。
某个语言表现指示与在文书内先行的表现相同的内容或实体(entity)的现象被称作照应。为了表示照应关系,代替将相同的词重复而使用代词或将后续的词省略。将前者称作代词照应,将后者称作零照应。通过代词照应推定代词指示的对象、或补充由零照应省略的名词短语(零代词(zeropronoun))的处理是照应解析。在照应中,有代词或零代词等照应词指示同一句内的对象的句内照应、及照应词指示的对象处于别的句中的句间照应,一般而言,句间照应的照应解析是比句内照应的照应解析困难的任务。照应在文书之中频繁地发生,成为用来理解文意及上下文的重要的线索。因此,照应解析在自然语言处理中成为重要的技术。
图1是英语的句间照应的例子(D.Bean and E.Riloff.2004.Unsupervised learning of contextual role knowledge forcoreference resolution.In“Proc.of HLT/NAACL”,pages 297.304.)。在图1所示的例子中,(b)句中的代词“they”及(c)句中的代词“they”分别指示(a)句中的“Jose Maria Martinez,Roberto Lisandy,and Dino Rossy”,推定该关系的处理是照应解析。
以上这样的照应解析利用程序性知识进行是有效的。因为程序性知识能够作为评价照应解析的正确度的1个指标来利用。并且,作为自动获得这样的程序性知识的方法,已知有从任意的文书群获得具有共有项的谓语的序列即事件序列的方法。这基于将项共有的谓语彼此具有某种关系的假设,将共有项特别称作锚点(anchor)。
这里,参照图2的例文(N.Chambers and D.Jurafsky.2009.Unsupervised learning of narrative schemas and their participants.In“Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International Joint Conferenceon Natural Language Processing of the AFNLP:Volume 2-Volume2”,pages 602.610.Association for Computational Linguistics.),说明通过以往的方法获得的事件序列的具体例。
在图2的例文中,锚点是“suspect”。图2的第1行的句中,谓语是“arrest”,作为锚点的“suspect”的格(case)的种类为宾格(obj)。此外,图2的第2行的句中,谓语是“plead”,作为锚点的“suspect”的格的种类为主格(sbj)。此外,图2的第3行的句中,谓语是“convict”,作为锚点的“suspect”的格的种类为宾格(obj)。
以往的方法中,从包含锚点的多个句中分别提取谓语,将提取出的谓语与表示该句中的锚点的格种类的格种类信息(以下称作“格类型”)的对作为要素,获得以谓语的出现顺序排列了多个要素的序列作为事件序列。从图2的例句中,作为事件序列而获得[arrest#obj,plead#sbj,convict#obj]。在该事件序列中,用逗号分隔的部分分别是事件序列的要素。
但是,用以往的方法获得的事件序列由于不区分在不同的语义下使用的相同的谓语,所以有欠缺作为程序性知识的正确性的问题。即,多义性的谓语有根据该谓语具有的项而意思较大地变化的情况,但在以往的方法中,即使谓语在不同的语义下使用也不将它们区分,所以有将不应视作相同的事件序列的事例视作相同的情况。例如,图3的例句的doc1和doc2是在意思上完全不同的两个文章,但通过以往的方法,如果从这两个文章中分别以“I”为锚点获得事件序列,则获得表现为[take#sbj,get#sbj]的相同的事件序列。这样,在以往的方法中,有从意思完全不同的文章获得相同的事件序列的情况,获得的事件序列欠缺作为程序性知识的正确性。因而,如果利用该事件序列进行照应解析,则有不能得到充分的精度的情况,要求改善。
所以,在本实施方式中,提出了对构成事件序列的各个要素、除了谓语和格种类信息以外还附加有确定谓语语义的语义确定信息的新的事件序列。通过该新的事件序列,能够通过对各要素附加的语义确定信息避免谓语的语义的含糊性,作为程序性知识的正确性提高。因而,通过将该新的事件序列用于照应解析,能够提高照应解析的精度。
在本实施方式中,为了确定谓语的语义,作为一例而使用“格框架”。所谓格框架(case frame)是将以谓语为基准而能取得的格和关于其值的制约按照谓语的每个用法进行分类记述的。例如,存在称作“京都大学格框架(京都大学格フレーム)”(河原大辅,黑桥祯夫,来自使用高性能计算环境的Web的大规模格框架构建,信息处理学会自然语言处理研究会171-12,pp.67-73,2006.(河原大輔,黒橋禎夫.高性能計算環境を用いたWebからの大規模格フレーム構築,情報処理学会自然言語処理研究会171-12,pp.67-73,2006.))的格框架的数据,可以将其加以利用。
图4是将京都大学格框架的一部分摘录表示的图。如图4所示,在京都大学格框架中,将具有多个语义(用法)的谓语按照其语义分类,将与各个语义有关系的名词和其出现频度一起按照每个格种类记述。例如,在图4的例子中,表层相同的谓语“積む”被分类为由标签“動2”识别的语义(用法)和由标签“動3”识别的语义(用法),将在以各个语义使用的情况下有关系的名词群和其出现频度一起按照每个格种类记述。
在使用这样的京都大学格框架的情况下,能够利用表示谓语的语义的“動2”或“動3”那样的标签,作为对新的事件序列的各要素附加的语义确定信息。在对要素附加了语义确定信息的事件序列中,由于对语义不同的谓语的要素赋予不同的语义确定信息,所以能够避免上述那样的因谓语的多义性造成的事件序列的混同,能够提高作为程序性知识的正确性。
从任意的文书群获得的事件序列通过使用周知的统计方法求出其出现概率,能够作为评价照应解析的正确度的1个指标加以利用。在以往的方法中,为了求出事件序列的出现概率,主要使用构成事件序列的要素对的PMI(自相互信息量:Point-wise Mutual Information(点互信息))。但是,在使用要素对的PMI的以往的方法中,难以正确地求出作为程序性知识有效的事件序列的出现概率。
所以,在本实施方式中,当求出事件序列的出现频度、出现概率时,使用例如考虑要素的顺序的n-gram模型、不考虑要素的顺序的触发(trigger)模型、容许不相互邻接的要素的组合的跳跃(skip)模型等在语言模型的领域中想出的一些概率模型。这些概率模型有能够处理针对任意长度的序列的概率的特征。此外,为了应对未知的事件序列,也可以使用在语言模型的领域中开发出的平滑化方法(平滑(smoothing)处理)。
接下来,对本实施方式的上下文解析装置的具体例进行说明。图5是表示本实施方式的上下文解析装置100的结构例的框图。上下文解析装置100如图5所示,具备格框架推定器1、事件序列模型构建器2、机器学习用事例生成器3、照应解析训练器4和照应解析预测器(解析处理部)5。另外,图5中的圆角四边形表示构成上下文解析装置100的上述各模块1~5的输入输出数据。
由上下文解析装置100执行的处理大体上分为“事件序列模型的构建处理”、“照应解析的学习处理”及“照应解析的预测处理”这3个。事件序列模型的构建处理是使用格框架推定器1和事件序列模型构建器2根据任意的文书群D1生成事件序列模型D2的处理。照应解析的学习处理是使用格框架推定器1和机器学习用事例生成器3根据带有照应标记的文书群D3和事件序列模型D2生成训练用事例数据D4、进而使用照应解析训练器4根据训练用事例数据D4生成照应解析学习模型D5的处理。照应解析的预测处理是使用格框架推定器1和机器学习用事例生成器3根据解析对象文书D6和事件序列模型D2生成预测用事例数据D7、进而使用照应解析预测器5根据预测用事例数据D4和照应解析学习模型D5生成照应解析预测结果D8的处理。
另外,在本实施方式中,为了使说明简单,假设作为机器学习的方法而使用2值分类器。但是,作为机器学习的方法,除了使用2值分类器以外,还可以应用例如排序(ranking)学习等任何周知的方法。
首先,说明上述3个处理的概要。在上下文解析装置100执行事件序列模型的构建处理的情况下,向格框架推定器1输入任意的文书群D1。格框架推定器1接受任意的文书群D1,对任意的文书群D1中包含的各谓语,推定该谓语所属的格框架,输出对各谓语赋予了表示top-k候选的格框架概要的格框架信息而得到的带有格框架信息的文书群D1’。另外,关于格框架推定器1的具体例在后面叙述详细情况。
接着,事件序列模型构建器2接受带有格框架信息的文书群D1’,从该带有格框架信息的文书群D1’获得事件序列群。并且,事件序列模型构建器2对所获得的事件序列群进行频度的计数、概率计算等处理,最终输出事件序列模型D2。事件序列模型D2表示事件序列群中包含的部分序列各自的出现概率。使用该事件序列模型D2,则能够决定任意的部分序列的概率值。将其在以后说明的照应解析的学习处理及照应解析的预测处理中,作为推定照应解析中的先行词的几率的线索加以利用。关于事件序列模型构建器2的具体例,在后面叙述详细情况。
在上下文解析装置100执行照应解析的学习处理的情况下,向格框架推定器1输入带有照应标记的文书群D3。图6是说明带有照应标记的文书群D3的一例的图,(a)摘录表示了英语的句子的一部分,(b)摘录表示了日语的句子的一部分。照应标记是表示句中的先行词与照应词之间的对应关系的标记,在图6的例子中,以大写字符A开始的标记表示照应词候选,以小写字符a开始的标记表示先行词候选,在表示照应词候选的标记和表示先行词候选的标记中数字一致者表示处于照应关系。在图6(b)所示的日语的例子中,由于照应词被省略,所以照应词标记以与照应词的格种类信息并记的形式被赋予给句子的谓语部分。
格框架推定器1当接受了上述那样的带有照应标记的文书群D3时,与接受任意的文书群D1的情况同样,对带有照应标记的文书群D3中包含的各谓语,推定该谓语所属的格框架,输出对各谓语赋予了表示top-k候选的格框架概要的格框架信息而得到的带有格框架信息及照应标记的文书群D3’。
接着,机器学习用事例生成器3接受带有格框架信息及照应标记的文书群D3’,使用由事件序列模型构建器2生成的事件序列模型D2,根据带有格框架信息及照应标记的文书群D3’生成训练用事例数据D4。另外,关于机器学习用事例生成器3的具体例在后面叙述详细情况。
接着,照应解析训练器4以训练用事例数据D4为输入而进行机器学习的训练,生成作为学习结果的照应解析学习模型D5。另外,在本实施方式中,假设作为照应解析训练器4而使用2值分类器。使用2值分类器进行的机器学习由于是周知的技术,所以详细的说明省略。
在上下文解析装置100执行照应解析的预测处理的情况下,向格框架推定器1输入解析对象文书D6。解析对象文书D6是作为进行照应解析的对象的应用数据。格框架推定器1当接受到解析对象文书D6时,与接受到任意的文书群D1或带有照应标记的文书群D3的情况同样,对解析对象文书D6中包含的各谓语,推定该谓语所属的格框架,输出对各谓语赋予了表示top-k候选的格框架概要的格框架信息而得到的带有格框架信息的解析对象文书D6’。
接着,机器学习用事例生成器3接受带有格框架信息的解析对象文书D6’,使用由事件序列模型构建器2生成的事件序列模型D2,根据带有格框架信息的解析对象文书D6’生成预测用事例数据D7。
接着,照应解析预测器5以预测用事例数据D7为输入,使用由照应解析训练器4生成的照应解析学习模型D5进行机器学习,将作为其结果的照应解析预测结果D8输出。一般而言,这成为应用的输出。另外,在本实施方式中,假设作为照应解析预测器5而使用2值分类器,详细的说明省略。
接着,对格框架推定器1的具体例进行说明。图7是表示格框架推定器1的结构例的框图。图7所示的格框架推定器1具备事态性名词→谓语变换器11和格框架剖析器12。格框架推定器1的输入是任意的文书群D1、或带有照应标记的文书群D3、或解析对象文书D6,格框架推定器1的输出是带有格框架信息的文书群D1’、或带有格框架信息及照应标记的文书群D3’、或带有格框架信息的解析对象文书D6’。另外,以下为了说明的方便,将向格框架推定器1输入的文书群或文书统称为格框架推定前文书D11,将从格框架推定器1输出的文书统称为格框架推定后文书D12。
事态性名词→谓语变换器11进行将在输入的格框架推定前文书D11中包含的事态性名词替换为谓语表现的处理。作为进行该处理的背景,有想要增加谓语的事例的目的。在本实施方式中,由事件序列模型构建器2生成事件序列模型D2,使用事件序列模型D2由机器学习用事例生成器3生成训练用事例数据D4、预测用事例数据D7。此时,谓语的事例越多,事件序列模型D2的性能越提高,能够生成更适当的训练用事例数据D4、预测用事例数据D7而提高机器学习的精度。因而,通过由事态性名词→谓语变换器11将事态性名词替换为谓语表现而增加谓语的事例,能够提高机器学习的精度。
例如在输入的格框架推定前文书D11是日语的情况下,事态性名词→谓语变换器11进行将文中的サ变名词替换为サ变动词的处理。具体而言,当在格框架推定前文书D11中有“日美交涉(日米交渉)”这样的サ变名词时,替换为“日美进行交涉(日米が交渉する)”这样的短语。为了进行这样的处理,需要进行关于名词是否是事态性名词、以及事态性名词的各项是什么的判定,但一般而言这样的处理较困难。但是,如NAIST文本语料库(http://cl.naist.jp/nldata/corpus/)那样,存在对于事态性名词与项之间的关系进行了注释的语料库。如果利用这样的语料库,则通过使用该注释能够简便地进行上述处理。在“日美交涉(日米交渉)”的情况下,“交涉(日语:交渉)”是事态性名词,带有该“交涉(交渉)”的ガ格的项是“日美(日米)”这样的注释。
另外,事态性名词→谓语变换器11是根据需要而使用的可选功能。在不使用事态性名词→谓语变换器11的情况下,将格框架推定前文书D11原样向格框架剖析器12输入。
格框架剖析器12还包括由事态性名词→谓语变换器11从事态性名词变换后的谓语在内而从格框架推定前文书D11中检测谓语,进而推定所检测出的各谓语所属的格框架。在日语的情况下,公开了如KNP(http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP)等那样的、具有推定文中的谓语所属的格框架的功能的工具。KNP是具有使用上述的京都大学格框架来推定谓语所属的格框架的功能的日语句子结构-格解析系统。在本实施方式中,假设作为格框架剖析器12而使用与KNP同样的算法。另外,由格框架剖析器12推定的格框架只不过是推定结果,所以并不一定对1个谓语唯一地决定1个格框架。因此,格框架剖析器12对1个谓语推定top-k候选的格框架,将表示这些top-k候选的格框架概要的格框架信息作为注释对各谓语进行赋予。其中,k是正数,例如使用k=5。
关于从格框架推定前文书D11中检测出的各个谓语分别作为注释而赋予了表示top-k候选的格框架概要的格框架信息而得到的是格框架推定后文书D12,其成为格框架推定器1的输出。图8是表示格框架推定后文书D12的一例的图,(a)摘录表示英语的文书的一部分,(b)摘录表示日语的文书的一部分。在格框架推定后文书D12中,在作为注释而被赋予的格框架信息中,包含识别谓语的语义的标签。在图8(a)的英语的句子中,v11、v3、v7等是识别谓语的语义的标签。此外,在图8(b)的日语的句子中,“動2”、“動1”、“動3”、“動2”、“動9”等是识别谓语的语义的标签,对应于在上述的京都大学格框架中使用的标签。
接着,对事件序列模型构建器2的具体例进行说明。图9是表示事件序列模型构建器2的结构例的框图。图9所示的事件序列模型构建器2具备事件序列获得部(序列获得部)21、事件部分序列计数器(频度计算部)22和概率模型构建部(概率计算部)23。事件序列模型构建器2的输入是带有格框架信息的文书群D1’(格框架推定后文书D12),事件序列模型构建器2的输出是事件序列模型D2。
事件序列获得部21从输入的带有格框架信息的文书群D1’获得事件序列群。事件序列获得部21获得的事件序列群的各事件序列如上述那样,是对以往的事件序列的要素附加了确定谓语语义的语义确定信息的序列。即,事件序列获得部21从输入的带有格框架信息的文书群D1’检测具有共有项(锚点)的多个谓语,对于检测出的多个谓语中的每个谓语,作为要素而求出该谓语、语义确定信息和格种类信息的组合,将按照多个谓语中的每个谓语而求出的多个要素以带有格框架信息的文书群D1’中的谓语的出现顺序排列而获得事件序列。这里,作为事件序列的各要素的语义确定信息,利用作为注释而对带有格框架信息的文书群D1’赋予的格框架信息中的、识别谓语的语义的标签。例如,在英语的情况下,利用在图8(a)所例示的格框架信息中包含的v11、v3、v7等标签作为语义确定信息,在日语的情况下,使用在图8(b)所例示的格框架信息中包含的“動2”、“動1”、“動3”、“動2”、“動9”等标签作为语义确定信息。
作为事件序列获得部21从带有格框架信息的文书群D1’获得事件序列群的方法,有使用基于共参照标记的锚点的方法和使用基于表层的锚点的方法。
首先,对使用基于共参照标记的锚点获得事件序列群的方法进行说明。该方法以对被输入事件序列获得部21的带有格框架信息的文书群D1’赋予了共参照标记为前提。共参照标记既可以原来就被赋予给向上述格框架推定器1输入的任意的文书群D1,也可以在任意的文书群D1成为带有格框架信息的文书群D1’而向事件序列模型构建器2输入之前的期间中被赋予。
这里,对共参照标记进行说明。图10是表示带有共参照标记的文书的一例的图,(a)表示英语的文书的例子,(b)表示日语的文书的例子。共参照标记是用来识别处于共参照关系的名词彼此的信息,通过对处于共参照关系的名词彼此赋予相同的标签而能够识别。在图10(a)的英语的例子中,[C2]在3处出现,它们处于共参照关系。将处于共参照关系的名词的集合称作共参照群集。在图10(b)的日语的例子中,也与图10(a)的英语的例子同样,示出了带有相同的标签的名词彼此处于共参照关系。但是,在日语的情况下,由于通过零照应而频繁地发生重要词语的省略,所以在解决了零照应的状态下判定共参照关系。在图10(b)的例子中,()中是通过零照应解决而补充的文节(构成日语句子的最基本成分)。
接着,对锚点进行说明。所谓锚点,是如上述那样由多个谓语共有的共有项。在利用共参照标记的情况下,找出大小为2以上的共参照群集,将在该群集中包含的名词群作为锚点。通过利用共参照标记确定锚点,能够消除将表层一致但实体不同的名词群误作为锚点的问题、或相反地无法将实体相同但表层不同的名词群确定为锚点的问题。
事件序列获得部21在使用基于共参照标记的锚点获得事件序列的情况下,首先,从共参照群集将名词群取出而将其作为锚点。接着,事件序列获得部21从带有格框架信息的文书群D1’分别检测配置有锚点的多个句子的谓语,并且确定在该句子中配置有锚点的槽位(slot)的格种类而得到格种类信息。接着,事件序列获得部21在带有格框架的文书群D1’中,从作为注释而对检测出的谓语赋予的格框架信息参照识别该谓语的语义的标签,取得谓语的语义确定信息。并且,事件序列获得部21对从带有格框架信息的文书群D1’检测出的多个谓语,分别求出谓语、语义确定信息和格种类信息的组合作为事件序列的要素,以带有格框架信息的文书群D1’中的谓语的出现顺序排列多个要素,获得事件序列。另外,在本实施方式中,如上述那样对1个谓语赋予top-k候选的格框架信息,所以对1个谓语取得多个语义确定信息。因此,在构成事件序列的各要素中,存在仅语义确定信息不同的多个组合的候选(要素候选)。
事件序列获得部21对全部的共参照群集进行以上的处理,得到每个锚点的事件序列的集合即事件序列群。图11是表示从图10所例示的带有共参照标记的文书获得的事件序列的例子的图,图11(a)表示获得图10(a)的英语的句子的“suspect”作为锚点的事件序列,图11(b)的上段表示获得图10(b)的日语的句子的“次郎”作为锚点的事件序列,图11(b)的下段表示获得图10(b)的日语的句子的“ラジオ”作为锚点的事件序列。在图11所例示的事件序列的表述中,作为序列内的各要素的分隔体而使用空白,作为各个要素中的要素候选的分隔体而使用逗号。即,该事件序列成为具有对各谓语反映出top-k候选的格框架信息的多个要素候选的要素序列。另外,在图11的例子中是k=2。
接着,对使用基于表层的锚点获得事件序列的方法进行说明。该方法不以对被输入事件序列获得部21的带有格框架信息的文书群D1’赋予了共参照标记为前提。取而代之,将在被输入事件序列获得部21的带有格框架信息的文书群D1’内具有相同表层的名词彼此看作处于共参照关系。例如在图10(a)所示的英语的句子的例子中,如果考虑没有被赋予[C1]、[C2]、[C3]那样的共参照标记的情况,则在3处出现的“suspect”的名词彼此由于表层相同,所以将它们看作处于共参照关系。在日语的句子的情况下,在与上述例子同样地解决了零照应的状态下,基于表层判定共参照关系。具体而言,例如将表示零代词与先行词的关系的零照应标记附加给带有格框架信息的文书群D1’,将由该零照应标记表示的零代词用先行词补充后,基于表层判定共参照关系。之后的处理与使用基于共参照标记的锚点获得事件序列的情况是同样的。
事件部分序列计数器22对于事件序列获得部21获得的事件序列,分别按照在各事件序列中包含的每个部分序列进行出现频度的计数处理。所谓部分序列,是在事件序列中包含的要素中的N个要素的部分集合,是事件序列的一部分。即,在1个事件序列中,包括与N个要素的组合对应的多个部分序列。N表示部分序列的长度(构成部分序列的要素的数量),在将部分序列作为程序性知识处理后设定适当的数量。
关于包含事件序列的开头的要素的部分序列,也可以对部分序列的前方的1个以上的要素使用表示空间的<s>,设为由包含<s>的N个要素构成的部分序列。由此,能够表现事件序列的开头的要素出现在序列的最初的情况。此外,关于包含事件序列的末尾的要素的部分序列,可以对部分序列的后方的1个以上的要素使用表示空间的<s>,设为由包含<s>的N个要素构成的部分序列。由此,能够表现事件序列的末尾的要素出现在序列的最后的情况。
另外,在本实施方式中,不限定要素的数量而从带有格框架信息的文书群D1’获得事件序列群,从获得的各事件序列取出N个要素的部分集合作为部分序列。但是,当从带有格框架信息的文书群D1’获得事件序列群时,也可以将获得的事件序列的要素的数量限定为N个。在此情况下,从带有格框架信息的文书群D1’获得的事件序列本身为这里所说的部分序列。换言之,从对要素的数量不设置限制而获得的事件序列取出的部分序列,与对要素的数量设置限制而获得的事件序列是等价的。
作为从事件序列求出部分序列的方法,有求出在事件序列中邻接的N个要素的部分集合作为部分序列的方法、和不具有要素邻接的制约而求出N个要素的部分集合作为部分序列的方法。将对通过后者的方法得到的部分序列的出现频度进行计数的模型特别称作跳跃模型。跳跃模型由于容许不邻接的要素的组合,所以具有能够对应于例如通过插入等而上下文暂时断开那样的句子的优点。
事件部分序列计数器22对于事件序列获得部21获得的各个事件序列,取出长度为N的所有的部分序列。并且,按照取出的部分序列的每个种类对其出现频度进行计数。即,事件部分序列计数器22在从事件序列取出的所有的部分序列的集合即部分序列群中,对要素的排列相同的部分序列出现的频度进行计数。并且,事件部分序列计数器22当针对全部的事件序列对部分序列的出现频度进行计数时,将记述有每个部分序列的出现频度的频度列表输出。
但是,在构成事件序列的各要素中,如上述那样,存在仅语义确定信息不同的多个要素候选,所以需要按照要素候选的每个组合求出部分序列的出现频度。对于1个部分序列按照要素候选的每个组合求出出现频度时,例如只要将用部分序列的出现频度的计数数除以要素候选的组合数而得到的值作为各个要素候选的组合的出现频度就可以。即,关于构成部分序列的各要素,分别求出选择了要素候选之一时的全部组合作为序列,将用部分序列的出现频度的计数数除以求出的序列数而得到的值作为各个序列的出现频度。例如,假设有由要素A和要素B构成的部分序列A-B,要素A具有要素候选a1、a2,要素B具有要素候选b1、b2。在此情况下,将部分序列A-B展开为a1-b1、a2-b1、a1-b2、a2-b2这4个序列。并且,将用部分序列A-B的计数数除以4而得到的值作为a1-b1、a2-b1、a1-b2、a2-b2各个序列的出现频度。如果部分序列A-B的出现频度的计数数是1,则a1-b1、a2-b1、a1-b2、a2-b2各个序列的出现频度为0.25。
图12是表示从图11所例示的事件序列求出的频度列表的一部分的图,图12(a)是表示从图11(a)的事件序列取出的一部分的部分序列的出现概率的频度列表的例子,图12(b)是表示从图11(b)的事件序列取出的一部分的部分序列的出现概率的频度列表的例子。另外,在图12的例子中,部分序列的长度N是2,部分序列的出现频度的计数数分别是1。在图12(a)及图12(b)所示的频度列表中,各行的冒号的前侧是按照要素候选的每个组合展开的部分序列,各行的冒号的后侧表示各个序列的出现频度。
概率模型构建部23使用从事件部分序列计数器22输出的频度列表进行概率模型(事件序列模型D2)的构建。作为概率模型构建部23构建概率模型的方法,有使用n-gram模型的方法、和使用不考虑要素顺序的触发模型的方法。
首先,对使用n-gram模型构建概率模型的方法进行说明。将作为概率的计算对象的序列用{x1,x2,···,xn}表示、将序列的出现频度用c(·)表示时,计算n-gram模型中的概率的式子为下述式(1)那样。
[数学式1]
p(xn|xn-1,...,x1)=c(x1,...,xn)/c(x1,...,Xn-1)       ···(1)
在使用n-gram模型构建概率模型的情况下,概率模型构建部23对在从事件部分序列计数器22输出的频度列表中记述有出现频度的全部序列进行使用数学式1的计算,计算每个序列的出现概率。并且,概率模型构建部23输出汇总了计算结果的概率列表。另外,作为可选的处理,也可以使用已有的平滑处理。
接着,对使用触发模型构建概率模型的方法进行说明。将作为概率的计算对象的序列用{x1,x2,···,xn}表示、将序列的出现频度用c(·)表示时,计算n-gram模型中的概率的式子为下述式(2)那样。它是点互信息量的总和。
[数学式2]
Trigger(x1,x2,...,xn)=Σ1≤i,j≤npmi(xi,xj)=Σ1≤i,j≤nln p(i|j)+ln p(j|i)      ···(2)
在该式2中,ln是自然对数,p(xi|xj)及p(xj|xi)的值根据Bigram模型:p(x2|x1)=c(x1,x2)/c(x1)得到。
在使用触发模型构建概率模型的情况下,概率模型构建部23对在从事件部分序列计数器22输出的频度列表中记述有出现频度的全部序列进行使用数学式2的计算,计算每个序列的出现概率。并且,概率模型构建部23将汇总了计算结果的概率列表输出。此外,作为可选的处理,也可以使用已有的平滑处理。另外,如果设为长度N=2,则不需要总和计算(在上述式2中写为Σ的处理部分),与使用PMI的以往方法相同。
图13是表示作为使用图12中例示的频度列表构建的概率模型的输出的概率列表的图,图13(a)表示从图12(a)的频度列表得到的概率列表的例子,图13(b)表示从图12(b)的频度列表得到的概率列表的例子。在图13(a)及图13(b)所示的概率列表中,各行的冒号的前侧是按照要素候选的每个组合展开的部分序列,各行的冒号的后侧表示各个序列的出现概率。该图13中例示那样的概率列表成为作为事件序列模型构建器2的最终输出的事件序列模型D2。
接着,对机器学习用事例生成器3的具体例进行说明。图14是表示机器学习用事例生成器3的结构例的框图。图14所示的机器学习用事例生成器3具备对生成部31、预测序列生成部32、概率预测部33和特征向量生成部34。机器学习用事例生成器3的输入在进行照应解析的学习处理的情况下是带有格框架信息及照应标记的文书群D3’和事件序列模型D2,在进行照应解析的预测处理的情况下是带有格框架信息的解析对象文书D6’和事件序列模型D2,机器学习用事例生成器3的输出在进行照应解析的学习处理的情况下是训练用事例数据D4,在进行照应解析的预测处理的情况下是预测用事例数据D7。
对生成部31使用带有格框架信息及照应标记的文书群D3’或带有格框架信息的解析对象文书D6’,生成照应词候选和先行词候选的对。在进行照应解析的学习处理的情况下,为了最终得到训练用事例数据D4,对生成部31使用带有格框架信息及照应标记的文书群D3’,生成正例的对和负例的对这双方。所谓正例的对,是实际处于照应关系的对,所谓负例的对,是不处于照应关系的对。正例的对和负例的对能够使用照应标记来区别。
这里,使用图15的例子,说明进行照应解析的学习处理的情况下的对生成部31的处理的具体例。图15表示被赋予了照应标记的句子的一例,(a)表示英语的句子,(b)表示日语的句子。图15的例子中的照应标记与图6所示的例子同样,以大写字符A开始的标记表示照应词候选,以小写字符a开始的标记表示先行词候选,在表示照应词候选的标记和表示先行词候选的标记中数字一致者表示处于照应关系。
对生成部31生成照应词候选和先行词候选的所有组合的对。但是,与照应词候选成对的先行词候选必须为比该照应词候选先行的上下文。从图15(a)的英语的句子中,作为照应词候选和先行词候选的对群而得到{(a1,A1),(a2,A1)}。此外,从图15(b)的日语的句子中,作为照应词候选和先行词候选的对群而得到{(a4,A6),(a5,A6),(a6,A6),(a7,A6),(a4,A7),(a5,A7),(a6,A7),(a7,A7),(a4,A6),(a5,A6),(a6,A6),(a7,A6),(a4,A7),(a5,A7),(a6,A7),(a7,A7)}。另外,为了处理的效率化,与照应词候选的距离大一定以上的先行词候选也可以追加设为对的对象外的条件。对生成部31在如以上那样得到的对群中,对正例的对赋予正例标签,对负例的对赋予负例标签。
在进行照应解析的预测处理的情况下,对生成部31使用带有格框架信息的解析对象文书D6’,生成照应词候选和先行词候选的对。在此情况下,由于没有对带有格框架信息的解析对象文书D6’赋予照应标记,所以对生成部31需要通过某种方法找出文书中的先行词候选和照应词候选。在带有格框架信息的解析对象文书D6’是英语的情况下,例如可以考虑如下方法,即:对带有格框架信息的解析对象文书D6’进行词类解析,将判断为代词的单词作为照应词候选,将其以外的名词作为先行词候选。此外,在带有格框架信息的解析对象文书D6’是日语的情况下,可以考虑如下方法,即:对带有格框架信息的解析对象文书D6’进行谓语项构造解析,检测谓语群并将在各谓语中不充足的必须格的槽位作为照应词候选,将处于比照应词候选先行的上下文中的名词作为先行词候选。对生成部31在通过以上找出先行词候选和照应词候选后,使用与照应解析的学习处理的情况同样的步骤,得到照应词候选和先行词候选的对群。但是,不需要正例标签及负例标签的赋予。
预测序列生成部32对于对生成部31生成的照应词候选和先行词候选的各个对,推定将照应词候选替换为先行词候选时的句子的谓语所属的格框架,并以先行词候选为锚点提取处于先行的上下文中的谓语,生成上述的事件序列。预测序列生成部32生成的事件序列是将照应词候选替换为先行词候选时的句子的谓语、语义确定信息及格种类信息的组合成为序列的末尾的要素、通过预测求出了末尾的要素的事件序列,所以与从任意的文书群D1获得的事件序列相区别而称作预测序列。
这里,对预测序列生成部32的处理的具体例详细地说明。预测序列生成部32对于对生成部31生成的照应词候选和先行词候选的对分别进行以下的处理。
首先,预测序列生成部32对照应词候选所属的句子的谓语,代替照应词候选而赋予先行词候选来作为项,在此状态下进行谓语的格框架推定。在该处理中使用已有的格框架剖析器。但是,这里使用的格框架剖析器需要通过与格框架推定器1的格框架剖析器12共通的算法推定格框架。因而,能够对1个谓语得到top-k候选的格框架,在这里使用top-1的格框架。
接着,预测序列生成部32从带有格框架信息及照应标记的文书群D3’、或带有格框架信息的解析对象文书D6’中,检测处于比先行词候选先行的上下文中、与先行词候选处于共参照关系的名词群。在共参照关系的判定中,使用利用共参照解析器、或者将表层一致的名词彼此看作共参照的某个方法。这样得到的名词群为锚点。
接着,预测序列生成部32从带有格框架信息及照应标记的文书群D3’或带有格框架信息的解析对象文书D6’检测锚点所属的句子的谓语,通过与上述的事件序列获得部21同样的方法生成预测序列。但是,预测序列的长度匹配于上述的事件序列中的部分序列的长度而设为N。即,生成将与上述先行词候选所属的句子的谓语对应的要素、和与在比其先行的上下文中检测到的N-1个谓语分别对应的要素相连接的序列作为预测序列。预测序列生成部32对于对生成部31生成的照应词候选和先行词候选的全部对进行以上的处理,生成与各个对对应的预测序列。
概率预测部33将预测序列生成部32生成的各个预测序列与事件序列模型D2对照,分别预测各预测序列的发生概率。具体而言,概率预测部33从事件序列模型D2中找出与预测序列一致的部分序列,将得到的部分序列的出现概率作为预测序列的发生概率。这里得到的预测序列的发生概率表示在该预测序列的生成中使用的照应词候选和先行词候选的对实际处于照应关系的几率(似然)。另外,在从事件序列模型D2中找不到与预测序列一致的部分序列的情况下,将该预测序列的发生概率设为0。在生成事件序列模型D2时进行平滑处理的情况下,能够减少找不到与预测序列一致的部分序列的情况。
特征向量生成部34将对生成部31生成的照应词候选和先行词候选的对作为事例来处理,对于各事例,生成将预测序列生成部32生成的预测序列的发生概率作为要素(特征量)之一进行了添加的特征向量。即,特征向量生成部34,除了作为表示照应词候选和先行词候选的对的特征向量的要素而一般使用的标准的特点群、例如图16所示那样的特点群以外,还使用由概率预测部33得到的预测序列的发生概率作为要素,生成与照应词候选和先行词候选的对的事例有关的特征向量。
在进行照应解析的预测处理的情况下,特征向量生成部34生成的特征向量成为作为机器学习用事例生成器3的最终输出的预测用事例数据D7。此外,在进行照应解析的学习处理的情况下,对于特征向量生成部34生成的特征向量附加了对照应词候选和先行词候选的对赋予的正例标签或负例标签的数据,成为作为机器学习用事例生成器3的最终输出的训练用事例数据D4。
图17是表示训练用事例数据D4的一例的图。在该图17所示的例子中,最左的项目是正例标签或负例标签,其以外的项目表示特征向量的各要素。特征向量的各要素中,冒号前的数字表示要素号,冒号后的数字表示要素的值(特征量)。在图17所示的例子中,对预测序列的发生概率赋予要素号“88”,作为由该要素号“88”表示的要素的值,表示由概率预测部33得到的预测序列的发生概率。另外,在预测用事例数据D7的情况下,只要在最左的项目中放入在机器学习处理中被无视的伪(dummy)值就可以。
从机器学习用事例生成器3输出的训练用事例数据D4被输入照应解析训练器4。照应解析训练器4使用训练用事例数据D4进行通过2值分类器进行的机器学习,生成作为学习结果的照应解析学习模型D5。此外,从机器学习用事例生成器3输出的预测用事例数据D7被输入照应解析预测器5。照应解析预测器5使用由照应解析训练器4生成的照应解析学习模型D5和预测用事例数据D7进行通过2值分类器进行的机器学习,输出照应解析预测结果D8。
图18是概念性地说明通过由2值分类器进行的机器学习来判定事例的正确度的处理的示意图。在通过2值分类器进行的机器学习中,如图18所示,根据事例的特征向量X的各个要素{x1,x2,x3,···,xn}与权重向量W(w1,w2,w3,···,w4)的内积,通过函数f求出事例的分数(score)值y,将求出的分数值y与规定的阈值比较,判定事例的正确度。事例的分数值y可以表示为y=f(X;W)。
照应解析训练器4进行的机器学习的训练,是使用训练用事例数据D4求出权重向量W的处理。即,作为训练用事例数据D4,照应解析训练器4给出事例的特征向量X和表示将事例的分数值y进行阈值比较的结果的正例标签或负例标签,使用它们求出权重向量W。得到的权重向量W成为照应解析学习模型D5。
另一方面,照应解析预测器5进行的机器学习是如下处理,即:使用作为照应解析学习模型D5而给出的权重向量W、和作为预测用事例数据D7而给出的特征向量X来计算事例的分数值y,将分数值y与阈值比较,输出表示事例是否正确的照应解析预测结果D8。
以上,如一边举出具体的例子一边详细地说明那样,根据本实施方式的上下文解析装置100,使用作为除了谓语和格种类信息以外还包括确定谓语语义的语义确定信息的要素序列的、新的事件序列进行照应解析,所以能够进行精度好的照应解析。
此外,在本实施方式的上下文解析装置100中,获得具有仅语义确定信息不同的多个要素候选的要素序列即事件序列,按照要素候选的每个组合计算事件序列的出现频度,按照要素候选的每个组合计算事件序列的出现概率,所以能够防止在格框架的推定中仅使用最上位的语义确定信息时发生的断开(cut-off),进一步提高照应解析的精度。
此外,在本实施方式的上下文解析装置100中,在使用n-gram模型计算事件序列的出现概率的情况下,能够考虑作为程序性知识有效的要素数而求出事件序列的出现概率,能够进一步提高事件序列的作为程序性知识的正确性。
此外,在本实施方式的上下文解析装置100中,在使用触发模型计算事件序列的出现概率的情况下,由于还能够对应于要素的出现顺序颠倒的情况,所以例如对于发生转位(transposition)的文书也能够得到作为有效的程序性知识的事件序列的出现概率。
此外,在本实施方式的上下文解析装置100中,当根据事件序列求出部分序列时,通过容许在序列中不邻接的要素的组合而求出部分序列,能够得到作为对于通过插入等而上下文暂时断开那样的文书也有效的程序性知识的部分序列。
此外,在本实施方式的上下文解析装置100中,当从任意的文书群D1获得事件序列时,通过利用共参照标记确定锚点,能够消除将表层一致但实体不同的名词群误作为锚点的问题、及相反地无法将实体相同但表层不同的名词群确定为锚点的问题。
本实施方式的上下文解析装置100的上述各功能例如可以通过在上下文解析装置100中执行规定的程序而实现。在此情况下,上下文解析装置100例如如图19所示,是利用了具备CPU(Central Processing Unit)101等控制装置、ROM(Read Only Memory)102及RAM(Random AccessMemory)103等存储装置、连接在网络上而进行通信的通信I/F104、将各部连接的总线110等的、通常的计算机的硬件结构。
由本实施方式的上下文解析装置100执行的程序以可安装的形式或可执行的形式的文件而被记录到CD-ROM(Compact Disk Read OnlyMemory)、软盘(FD)、CD-R(Compact Disk Recordable)、DVD(DigitalVersatile Disc)等可由计算机读取的记录介质中,作为计算机程序提供。
此外,也可以构成为,将由本实施方式的上下文解析装置100执行的程序保存到与因特网等网络连接的计算机上,通过经由网络下载来提供。此外,也可以构成为,将由本实施方式的上下文解析装置100执行的程序经由因特网等网络提供或分发。
此外,也可以构成为,将由本实施方式的上下文解析装置100执行的程序预先装入到ROM102等中来提供。
由本实施方式的上下文解析装置100执行的程序作为包括上下文解析装置100的各处理部(格框架推定器1、事件序列模型构建器2、机器学习用事例生成器3、照应解析训练器4及照应解析预测器5)的模组结构,作为实际的硬件,例如通过由CPU101(处理器)从上述记录介质将程序读出并执行,将上述各处理部装载到主存储装置上,在主存储装置上生成上述各处理部。另外,本实施方式的上下文解析装置100也可以将上述各处理部的一部分或全部使用ASIC(Application Specific Integrated Circuit,专用集成电路)或FPGA(Field-Programmable Gate Array,现场可编程门阵列)等专用硬件实现。
另外,在以上说明的上下文解析装置100中,进行事件序列模型的构建处理、照应解析的学习处理和照应解析的预测处理的全部处理,但上下文解析装置100也可以构成为,仅进行照应解析的预测处理。在此情况下,事件序列模型的构建处理及照应解析的学习处理由外部装置进行,上下文解析装置100输入解析对象文书D6,并从外部装置输入事件序列模型D2和照应解析学习模型D5,进行对解析对象文书D6的照应解析。
此外,上下文解析装置100也可以构成为,仅进行照应解析的学习处理和照应解析的预测处理。在此情况下,事件序列模型的构建处理由外部装置进行,上下文解析装置100将带有照应标记的文书群D3和解析对象文书D6输入,并从外部装置输入事件序列模型D2,进行照应解析学习模型D5的生成和对解析对象文书D6的照应解析。
另外,上述的上下文解析装置100是进行上下文解析中的特别是照应解析的结构,但上下文解析装置100也可以是例如进行首尾一贯性的解决或对话处理等照应解析以外的其他上下文解析的结构。即使是进行照应解析以外的上下文解析的情况,通过使用作为包含确定谓语语义的语义确定信息的要素序列的新的事件序列作为程序性知识,也能够使上下文解析的精度提高。
以上,说明了本发明的实施方式,但这里说明的实施方式是作为例子提示的,并不意味着限定发明的范围。这里说明的新的实施方式能够以其他各种各样的形态实施,在不脱离发明的主旨的范围内能够进行各种省略、替换、变更。这里说明的实施方式及其变形包含在发明的范围及主旨中,并且包含在权利要求书所记载的发明和其等价的范围中。

Claims (12)

1.一种上下文解析装置,具备:
预测序列生成部,以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个上述要素的序列中的一部分要素的序列;
概率预测部,基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;以及
解析处理部,使用预测到的上述预测序列的发生概率,进行对于解析对象的文书的上下文解析。
2.如权利要求1所述的上下文解析装置,
上述解析处理部通过机器学习,进行对于解析对象的文书的照应解析,该机器学习使用预测出的上述预测序列的发生概率作为上述预测序列的特征量。
3.如权利要求1所述的上下文解析装置,还具备:
序列获得部,从任意的文书群获得上述序列;以及
概率计算部,计算所获得的上述序列的出现概率。
4.如权利要求3所述的上下文解析装置,
上述序列获得部从任意的文书群检测具有共有项的多个谓语,对于检测出的多个谓语,分别作为上述要素而求出该谓语、上述语义确定信息和上述格种类信息的组合,将按照多个谓语中的每个谓语求出的多个上述要素以上述文书群中的谓语的出现顺序排列而获得上述序列。
5.如权利要求3所述的上下文解析装置,
还具备计算所获得的上述序列的出现频度的频度计算部;
上述概率计算部基于上述序列的出现频度计算上述序列的出现概率。
6.如权利要求5所述的上下文解析装置,
上述序列获得部对1个谓语推定多个语义,获得将包含仅上述组合中的上述语义确定信息不同的多个要素候选的要素排列有多个的上述序列;
上述频度计算部将上述序列的出现频度除以上述要素候选的组合的数量,分别计算每个上述要素候选的组合的出现频度。
7.如权利要求5所述的上下文解析装置,
上述概率计算部基于N阶马尔可夫过程,计算上述序列的出现概率。
8.如权利要求5所述的上下文解析装置,
上述概率计算部基于与上述序列内的任意的要素的对相关的点互信息量的总和,计算上述序列的出现概率。
9.如权利要求5所述的上下文解析装置,
上述频度计算部按每个部分序列计算出现频度,该部分序列是上述序列内的N个要素的部分集合;
上述概率计算部按每个上述部分序列计算出现概率。
10.如权利要求9所述的上下文解析装置,
上述频度计算部容许在上述序列中不邻接的要素的组合而求出上述部分序列。
11.如权利要求4所述的上下文解析装置,
上述文书群被赋予用来识别处于共参照关系的名词彼此的共参照信息;
上述序列获得部基于上述共参照信息确定上述共有项。
12.一种在上下文解析装置中执行的上下文解析方法,
上述上下文解析装置的预测序列生成部,以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个上述要素的序列中的一部分要素的序列;
上述上下文解析装置的概率预测部,基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;
上述上下文解析装置的解析处理部使用预测到的上述预测序列的发生概率,进行对于解析对象的文书的上下文解析。
CN201280071298.4A 2012-06-25 2012-06-25 上下文解析装置及上下文解析方法 Active CN104169909B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/066182 WO2014002172A1 (ja) 2012-06-25 2012-06-25 文脈解析装置および文脈解析方法

Publications (2)

Publication Number Publication Date
CN104169909A true CN104169909A (zh) 2014-11-26
CN104169909B CN104169909B (zh) 2016-10-05

Family

ID=49782407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280071298.4A Active CN104169909B (zh) 2012-06-25 2012-06-25 上下文解析装置及上下文解析方法

Country Status (4)

Country Link
US (1) US20150032444A1 (zh)
JP (1) JP5389273B1 (zh)
CN (1) CN104169909B (zh)
WO (1) WO2014002172A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988990A (zh) * 2015-02-26 2016-10-05 索尼公司 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN109074402A (zh) * 2016-04-11 2018-12-21 脸谱公司 基于示例会话使用自然语言机器学习来响应用户请求的技术
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序
CN109726269A (zh) * 2017-10-30 2019-05-07 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
JP2022020582A (ja) * 2020-07-20 2022-02-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 自然言語処理モデルの訓練方法、装置、デバイス及び記憶媒体

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5945062B2 (ja) * 2013-02-28 2016-07-05 株式会社東芝 データ処理装置および物語モデル構築方法
US10607152B2 (en) 2015-05-26 2020-03-31 Textio, Inc. Using machine learning to predict outcomes for documents
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US11106872B2 (en) * 2018-01-09 2021-08-31 Jyu-Fang Yu System and method for improving sentence diagram construction and analysis by enabling a user positioning sentence construction components and words on a diagramming interface
US11625533B2 (en) * 2018-02-28 2023-04-11 Charles Northrup System and method for a thing machine to perform models
WO2020219490A1 (en) * 2019-04-23 2020-10-29 Textio, Inc. Passively suggesting text in an electronic document
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
WO2022047252A1 (en) * 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
CN112183060B (zh) * 2020-09-28 2022-05-10 重庆工商大学 多轮对话系统的指代消解方法
US20230222294A1 (en) * 2022-01-12 2023-07-13 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
JP2010250755A (ja) * 2009-04-20 2010-11-04 Nec Corp 語句抽出ルール生成装置、語句抽出システム、語句抽出ルール生成方法、及びプログラム
CN102129446A (zh) * 2010-01-20 2011-07-20 索尼公司 信息处理器、处理信息的方法以及程序

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696916A (en) * 1985-03-27 1997-12-09 Hitachi, Ltd. Information storage and retrieval system and display method therefor
US8180633B2 (en) * 2007-03-08 2012-05-15 Nec Laboratories America, Inc. Fast semantic extraction using a neural network architecture
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
JP2010250755A (ja) * 2009-04-20 2010-11-04 Nec Corp 語句抽出ルール生成装置、語句抽出システム、語句抽出ルール生成方法、及びプログラム
CN102129446A (zh) * 2010-01-20 2011-07-20 索尼公司 信息处理器、处理信息的方法以及程序

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN107209759B (zh) * 2015-01-23 2020-09-18 国立研究开发法人情报通信研究机构 注解辅助装置及记录介质
CN105988990A (zh) * 2015-02-26 2016-10-05 索尼公司 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
CN109074402A (zh) * 2016-04-11 2018-12-21 脸谱公司 基于示例会话使用自然语言机器学习来响应用户请求的技术
CN109074402B (zh) * 2016-04-11 2022-07-26 元平台公司 基于示例会话使用自然语言机器学习来响应用户请求的技术
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序
CN109661663B (zh) * 2016-09-05 2023-09-19 国立研究开发法人情报通信研究机构 上下文解析装置以及计算机可读记录介质
CN109726269A (zh) * 2017-10-30 2019-05-07 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
CN109726269B (zh) * 2017-10-30 2024-04-16 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
JP2022020582A (ja) * 2020-07-20 2022-02-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 自然言語処理モデルの訓練方法、装置、デバイス及び記憶媒体
JP7293543B2 (ja) 2020-07-20 2023-06-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 自然言語処理モデルの訓練方法、装置、電子デバイス、コンピュータ可読記憶媒体及びプログラム

Also Published As

Publication number Publication date
WO2014002172A1 (ja) 2014-01-03
JP5389273B1 (ja) 2014-01-15
US20150032444A1 (en) 2015-01-29
CN104169909B (zh) 2016-10-05
JPWO2014002172A1 (ja) 2016-05-26

Similar Documents

Publication Publication Date Title
CN104169909A (zh) 上下文解析装置及上下文解析方法
Barhom et al. Revisiting joint modeling of cross-document entity and event coreference resolution
Imran et al. Twitter as a lifeline: Human-annotated twitter corpora for NLP of crisis-related messages
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
Maudslay et al. A tale of a probe and a parser
JP5945062B2 (ja) データ処理装置および物語モデル構築方法
CN107291684B (zh) 语言文本的分词方法和系统
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Jahangir et al. N-gram and gazetteer list based named entity recognition for urdu: A scarce resourced language
KR102196508B1 (ko) 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
US20180246856A1 (en) Analysis method and analysis device
Hussein et al. Gender identification of egyptian dialect in twitter
CN109934251A (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
US20150286628A1 (en) Information extraction system, information extraction method, and information extraction program
Alorini et al. LSTM-RNN based sentiment analysis to monitor COVID-19 opinions using social media data
Náplava et al. Diacritics Restoration using BERT with Analysis on Czech language
Patil et al. HMM based Named Entity Recognition for inflectional language
Tran et al. Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter
Onyenwe et al. Toward an effective igbo part-of-speech tagger
US20030120481A1 (en) Method for predicting negative example, system for detecting incorrect wording using negative example prediction
Oudah et al. Person name recognition using the hybrid approach
pal Singh et al. Naive Bayes classifier for word sense disambiguation of Punjabi language
Meselhi et al. Hybrid named entity recognition-application to Arabic language
Hoceini et al. Towards a New Approach for Disambiguation in NLP by Multiple Criterian Decision-Aid.
Putra et al. Sentence boundary disambiguation for Indonesian language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant