CN102609406B - 学习装置、判断装置、学习方法和判断方法 - Google Patents

学习装置、判断装置、学习方法和判断方法 Download PDF

Info

Publication number
CN102609406B
CN102609406B CN201110414927.6A CN201110414927A CN102609406B CN 102609406 B CN102609406 B CN 102609406B CN 201110414927 A CN201110414927 A CN 201110414927A CN 102609406 B CN102609406 B CN 102609406B
Authority
CN
China
Prior art keywords
key element
border
scope
antecedent
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110414927.6A
Other languages
English (en)
Other versions
CN102609406A (zh
Inventor
浜田伸一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN102609406A publication Critical patent/CN102609406A/zh
Application granted granted Critical
Publication of CN102609406B publication Critical patent/CN102609406B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的实施方式提供一种学习装置、判断装置、学习方法和判断方法,能够推定与应用目的一致的先行词的范围并输出。本发明的学习装置受理训练数据的输入,所述训练数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系,基于训练数据,学习用于判断在任意文章中有无照应关系的判断基准。判断装置受理用户数据的输入,所述用户数据示出文章和在所述文章内有可能具有照应关系的各要素的后方边界,基于用户数据,按照学习装置学习到的判断基准判断文章中有无照应关系。

Description

学习装置、判断装置、学习方法和判断方法
本申请基于并要求2011年1月18日在先提出的日本专利申请2011-007663的优先权,在此引用其全部内容。
技术领域
本发明的实施方式涉及学习装置、判断装置、学习方法和判断方法。
背景技术
所述共参照是一种在文章内构成该文章的要素(称为构成要素)组表示相同实体的语言现象。在该组中,特殊地将位于最后方的构成要素叫做照应词,将其他构成要素叫做先行词。将进行找出这种组的处理(称为共参照分析)的程序(模块)叫做共参照分析器。作为共参照现象,按照构成要素的类别分有名词短语共参照、谓语共参照和语句共参照、或横跨构成要素类别的共参照等。以下为了简单地进行说明,作为共参照对象而找出的构成要素,设仅对名词(短语)进行处理。将以名词短语为基础的共参照分析器扩展成还能处理其他类别构成要素的器件是很容易的。
共参照分析器一般进行学习处理和判断处理。在学习处理中,共参照分析器以示出由人工等预先给予了表示是共参照组的标记后的文章的数据(称为训练数据)为参考,进行获得判断基准的处理,所述判断基准用于给予表示共参照组的标记群。另一方面,在判断处理中,共参照分析器对未带表示共参照组的标记的通常文章(文本)和在该文本内用户想知道是否处于共参照的关系(共参照关系)的多个名词短语,适用已在上述学习处理中获得的判断基准,进行判断有无共参照关系的处理。
训练数据本质上具有在文章中示出名词短语群来作为成为共参照组的构成要素的标记、和示出它们是否指同一实体的标记。根据它们就能够确定哪个名词短语与哪个名词短语具有对应关系(链接)。可以说这种训练数据是用标记直接地表现了共参照现象的数据。
以下示出训练数据的表现方法的一例。用<>括起来的范围是作为共参照组来指定的构成要素的名词短语。将<>叫做共参照要素标记。此外,将[]叫做链接标记,将用[]括起来的数字在此叫做链接ID。在用共参照要素标记示出的名词短语群中,具有相同链接ID的组可以解释为处于共参照关系。
“<鲍伯>[1]出现了。<他>[1]是学生。”
--(9900)
“感受到捕捉<海味类>[2]等<事物>[2]的感性。”--(9901)
“与<摩纳哥的外交官>[3]会面了。<他>[3]好像很忙。”--(9902)
共参照分析器使用这样的训练数据进行学习处理,获得能够对训练数据文本尽量给予相同标记的判断基准。此外,在判断处理中,共参照分析器对未被给予标记的任意文本适用学习处理中获得的判断基准来给予标记。作为标记的实例,例如有使用XML(ExtensibleMarkupLanguage:可扩展标记语言)的方法。
可是,在由这样的训练数据示出的共参照要素标记,指定了作为成为共参照组的构成要素的名词短语是什么范围,即、范围的成为前方的位置(称为前方边界)和成为后方的位置(称为后方边界)。例如,以词素为单位或者以字符为单位指定这样的位置。例如,在上述(9900)~(9902)的训练数据的例子中,关于成为先行词的名词短语,分别作为包含1个词素、2个词素、4个词素的范围而指定了前方边界和后方边界。即,利用共参照要素标记示出判断词素串的作用上的块(称为组块(chunk))的结果,也就是应该将从哪个词素到哪个词素的串(称为词素串)作为成为共参照组的名词短语。一般将这样地进行词素串的组块判断的任务叫做组块任务。若将对成为共参照组的名词短语间的对应关系进行判断的任务叫做狭义的共参照任务,则在进行要适合于这种训练数据的学习处理时,本质上同时解决了共参照任务和组块任务(称为同时学习)。
发明内容
但是,现有的共参照分析器有以下两个问题。一个是,为了进行同时学习而狭义的共参照任务的性能低下,而且由于组块任务自身也很难,因此不能发挥出充分的性能,从而有可能两方面都差。此外,另一个是,在应用中要求的多是由狭义共参照任务输出的有关链接的信息,即使没有由组块任务输出的信息也行。以下,关于各个问题详细地说明。
关于第一个问题,对由组块任务产生的学习处理(称为组块学习)的本质上难度和因为同时学习所导致的性能低下进行说明。组块学习的本质上难度在于语义比语法作为线索的比重大。例如,在上述(9902)的训练数据中,先行词被指定为“摩纳哥的外交官”,其实用“外交官”也不是不自然。但是,如果文章中还出现有“英国的外交官”,则“摩纳哥的外交官”作为先行词就很适合。这样地根据语义的观点进行判断,对机械来说成为难题。另外,如后所述,作为组块而有用性高的判断结果,会根据观点或应用而不同。一般这样的问题对人来说都很难判断,因此有时训练数据的制作很困难,并且品质低下。品质低的训练数据可能会成为学习的阻碍因素。
因为同时学习而导致性能低下,原因在于在以上所述的组块学习自身非常困难。倘若组块任务的判断结果十分正确,就可以在狭义的共参照任务的判断材料中使用组块任务的判断结果,因此能够期待性能的提高。现实中却可能因为组块任务的判断结果不正确而成为狭义的共参照任务的阻碍因素。
关于第二个问题,以下面的文章为基础,例举共参照分析的应用例进行说明。
“昨天,在青坂王子饭店中介绍的3D电视机南芝XXXXYYYYY受到了报道机关的关注。在网络公告板上也听到了期待由南芝早日发售这一时刻的积极的声音。”--(9903)
可是,自动摘要应用进行从赋予的文章中仅摘录重要语句的语句提取处理。摘录的语句由于失去了上下文关系,若包含指示代词,则存在语义不明的危险。为了解决该问题,利用共参照分析置换成具体示出指示代词实体的名词短语的处理。在此,考察求得“……在网络公告板上也听到了期待由南芝早日发售“这”一时刻……”中的用“”括起来的照应词的先行词的处理。
例如,在检索片断·便携式电话的画面·TV栏等用途中执行的自动摘要应用中,很多情况下定有字符数的限制。在这种情况下,要在字符数的限制下尽量求得包含必要信息的先行词。例如,如果是10个字符以内的制约,就考虑“XXXXYYYYY”,如果是15个字符以内,就考虑“南芝XXXXYYYYY”等作为求得的先行词。
此外,根据自动摘要应用,有时要求避免信息重复。在上述(9903)的文章的情况下,由于在摘录的语句中已经包含有“南芝”这个单词,因此,作为先行词,可能“3D电视机XXXXYYYYY”比“3D电视机南芝XXXXYYYYY”更加优选。
如上所述,大多时候是根据应用方法或上下文关系等而唯一地决定什么是相应的组块。即使由人制作示出准确的组块的训练数据,也很有可能因意见不同而变成产生注释噪音的结果。
根据以上考察,不能说组块任务在应用上的有用性就一定高,而且可以说还有可能会引起共参照任务的性能低下。需要避免组块任务而仅解决狭义的共参照任务的学习构成。
此外,该讨论是对分析零照应或联想照应等其他照应的照应分析任务也适用的讨论。分析零照应的零照应分析任务,是获取从文章表面省略了的照应词与处于文章中的先行词之间的对应的任务,关于先行词的范围的指定,存在产生与上述同样问题的危险。此外,分析联想照应的联想照应任务,是获取处于文章中的照应词与处于文章中并与照应词间接有关系的先行词之间的对应的任务,关于照应词或先行词的范围的指定,存在产生与上述同样问题的危险。
实施方式的学习装置受理训练数据的输入,基于训练数据,学习用于判断在任意文章中有无照应关系的判断基准,所述训练数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系。判断装置受理用户数据的输入,基于用户数据,按照学习装置学习到的判断基准判断文章中有无照应关系,所述用户数据示出文章和在所述文章内有可能具有照应关系的各要素的后方边界。
附图说明
图1是例示第一实施方式的共参照分析装置的功能结构的图。
图2是示出学习处理的过程的流程图。
图3是示出成对正例生成处理的过程的流程图。
图4是示出成对负例生成处理的过程的流程图。
图5是示出非学习型要素范围推定处理的过程的流程图。
图6是示出预测处理的过程的流程图。
图7是示出成对案例生成处理的过程的流程图。
图8是例示第二实施方式的共参照分析装置的功能结构的图。
图9是示出学习处理的过程的流程图。
图10是示出判断处理的过程的流程图。
图11是例示第三实施方式的应用系统的功能结构的图。
图12是示出先行词判断处理的过程的流程图。
图13是示出由先行词词素串推定器和按应用区分有效性评价判断插件进行的处理的过程的流程图。
具体实施方式
以下,参照附图详细地说明本发明涉及的学习装置、判断装置、学习方法、判断方法、学习程序和判断程序的一个实施方式。
在此,关于本实施方式涉及的共参照分析的背景和概要进行说明。以往的训练数据的共参照要素标记,作为能成为共参照组的构成要素,示出了词素串的开始位置和终了位置、或者换一种说法为示出了构成要素的前方边界和后方边界。并且还示出了用于表示构成要素间对应关系(链接)的链接标记。总之,以往的训练数据示出三种信息:具有共参照关系的各构成要素的前方边界和后方边界、以及成为先行词的构成要素和成为照应词的构成要素之间的对应关系。为了使该训练数据成为避免了组块任务的信息,只要使示出成为具有共参照关系的组的构成要素不在范围内即可。
作为一个方法,可以例举出去掉构成要素的前方边界和后方边界中的某个的例子。在上述背景技术栏中举出的(9902)的训练数据的例子中,根据上下文关系而适合的先行词在“摩纳哥的外交官”与“外交官”间犹豫不定。在(9903)的训练数据的例子中,根据应用观点而在“3D电视机南芝XXXXYYYYY”、“3D电视机XXXXYYYYY”、“XXXXYYYYY”等间犹豫不定。这样,即使根据上下文关系或应用观点,后方边界也不会犹豫不定。这起因于将重要词配置在最后尾的日语性质。反之,如果将“摩纳哥的外交官”变更为“摩纳哥”等改变最后尾的词,则语义大多有很大变化。根据以上原因,在共参照分析中能够正确地判断后方边界很重要。
因此,在本实施方式中,对于成为共参照组的构成要素,不进行前方边界的学习处理和判断处理,而采用仅将后方边界作为学习处理和判断处理对象的方针。这样虽然不能够判断前方边界,但是作为其交换,能够提高后方边界的准确度。
基于以上方针,关于在本实施方式中进行的共参照分析的方法概要进行说明。虽然不赋予前方边界作为学习处理的输入,但是为了生成用于学习处理的特征向量,需要哪个词素的范围(组块)是成为共参照组的构成要素的这种信息。因此,在本实施方式中,使用不依赖于学习处理的方法来临时决定(推定)组块,使用基于该组块生成的特征向量,分别进行学习处理和判断处理。在用于生成特征向量的方法中,具体地有例如按照固定规则推定前方边界,针对根据推定的前方边界和后方边界决定的词素范围(组块)生成特征向量的方法。作为一例,设定所谓的“后方边界与前方边界之间仅包含名词”的规则,按照该规则推定1个前方边界。或者,也考虑这样一种方法:按照多个规则分别推定多个前方边界的候补,对根据后方边界和各前方边界决定的每个词素范围(组块)各生成特征向量,并统合这些特征向量。特别是后者的方法,可以说具有不用唯一地决定前方边界的方式优点。作为一例,作为所谓的前方边界与后方边界之间为单词或片段的n-gram这样的规则,设定n值不同的多个规则,按照各规则推定n个前方边界。其中,在片段的n-gram的情况下,也可以添加开头不要出现接续词或感叹词等附属规则。
利用这种方法进行共参照分析的共参照分析系统,大致分为学习处理部和判断处理部。所述学习处理部和判断处理部也可以分别由不同的信息处理装置来实现,但在此设由一个信息处理装置实现。将该信息处理装置称为共参照分析装置。共参照分析装置的学习处理部进行学习处理:将训练数据作为输入,学习共参照分析的倾向或共参照反复出现的模式并输出加权向量。此外,判断处理部进行判断处理:使用学习处理部输出的加权向量,判断在从用户任意指定的文章(称为用户数据)中是否存在共参照关系,并输出其判断结果。再有,学习处理在用户利用之前已经完成好了,实际上用户利用时所进行的处理大多仅是判断处理。
再有,在本实施方式中,为了使说明简单,设成为共参照组的构成要素是成对的(2个一组),将在文章前方出现的构成要素叫做先行词,将在后方出现的构成要素叫做照应词。在共参照现象中,也有时对于1个照应词存在多个先行词。该情况下,成为共参照组的构成要素就是3个以上,但是由于可以从本实施方式的结构容易地进行扩展,因此省略该情况下的说明。
此外,在本实施方式中,在学习处理部进行学习共参照分析的倾向或共参照反复出现的模式并输出加权向量的学习处理中,使用以往的机械学习方法。此外,作为赋予给机械学习的任务,使用成对(pairwise)二进制学习。本实施方式中的所述成对二进制学习,是将示出先行词与照应词之对的事件作为1个案例进行处理,用二进制判断该案例是否处于共参照关系的方法。将处于共参照关系的案例叫做正例,将不处于共参照关系的案例叫做负例。
在此,关于本实施方式涉及的输入到学习处理部中的训练数据进行说明。本实施方式中处理的训练数据示出了已对成为共参照组的构成要素的后方边界和链接信息赋予了标记的文章,所述链接信息表示成为共参照组的构成要素的对应关系(链接)。文章可以整个连成一段话,也可以是多个文章的汇集。再有,在本实施方式中,设训练数据中已预先进行了词素分析,并以词素为单位指定了后方边界。并且,设训练数据用如下的数据形式表现。
“<鲍伯>[1]出现了。<他>[1]是学生。”
--(9904)
“感受到捕捉海味<类>[2]等<事物>[2]的感性。”--(9905)
“与摩纳哥的外交<官>[3]会面了。<他>[3]好像很忙。”--(9906)
在该数据形式中,使用表示存在成为共参照组的构成要素的标记(共参照要素标记)仅括起来1个词素。共参照要素标记用<>表示。该共参照要素标记不是指示着作为成为共参照组的构成要素的名词短语本身,而是示出了成为共参照组的构成要素的后方边界。即,在此示出了构成要素的名词短语中所含的词素中的最后词素所在的位置,作为后方边界。此外,设还对后方边界给予了链接标记。所述链接标记是用[]把数字括起来的标记。用[]括起来的数字是用于使先行词和照应词相对应的链接ID。通过这样地用链接ID使先行词的后方边界和照应词的后方边界彼此之间建立对应,来表现链接信息。
例如,在(9906)的训练数据中,作为先行词,通常考虑“外交官”或“摩纳哥的外交官”等。在该训练数据中未示出它们中哪个是准确的,而只是示出了先行词中所含的最后词素所在的位置(后方边界)是“官”。在此要注意不是示出了先行词是“官”。这样,本实施方式中对未示出先行词中所含的最初词素所在位置(前方边界)的训练数据进行处理。再有,如上所述,在训练数据中,设先行词和照应词的组是2个一组。即,该训练数据中,与1个照应词对应的先行词只有1个。
这样地在本实施方式中处理的训练数据,与上述背景技术栏中记载的(9900)~(9902)不同,使用示出文章、该文章内具有共参照关系的各构成要素的后方边界、和成为先行词的构成要素与成为照应词的构成要素之间的对应关系的、独自的数据形式来表现。但是,只要示出了后方边界和先行词与照应词之间的对应关系,用什么样的数据形式表现训练数据都行。例如,也可以将示出前方边界等无用信息的训练数据作为输入,学习处理部对无用信息进行取舍即可。
下面,关于本实施方式涉及的共参照分析装置的结构进行详细叙述。以下,首先关于使用1个固定规则作为推定前方边界的规则的实施方式进行说明。在此,对本实施方式涉及的共参照分析装置的硬件结构进行说明。本实施方式的共参照分析装置包括:控制装置整体的CPU(CentralProcessingUnit:中央处理器)等控制部;存储各种数据或各种程序的ROM(ReadOnlyMemory:只读存储器)或RAM(RandomAccessMemory:随机存取存储器)等主存储部;存储各种数据或各种程序的HDD(HardDiskDrive:硬盘驱动器)或CD(CompactDisk:光盘)驱动装置等辅助存储部;以及连接它们的总线,成为利用普通计算机的硬件结构。此外,也可以利用有线或无线,将显示信息的显示部、受理用户的指示输入的键盘或鼠标等操作输入部、控制外部装置的通信的通信I/F(interface:接口)等,分别连接到共参照分析装置上。
下面,在这样的硬件结构中,使用图1,对共参照分析装置的功能结构进行说明。如该图所示,共参照分析装置50具有学习处理部60和判断处理部70。首先关于学习处理部60的功能结构进行说明。学习处理部60具有成对正例生成器61、成对负例生成器62、非学习型要素范围推定器63、特征提取器64和二进制学习器65。这些各器件是共参照分析装置50所具有的主存储部或辅助存储部中各自存储的程序模块,通过共参照分析装置50具有的CPU执行各程序模块来实现以下记载的各功能。
成对正例生成器61受理上述训练数据的输入,使用该训练数据进行成对正例生成处理,求出正例的先行词的后方边界(称为先行词后方边界)和照应词的后方边界(称为照应词后方边界)。成对正例生成器61生成将该先行词后方边界和照应词后方边界与整数“1”相对应表示的数据(称为带标签案例数据)。该整数是被叫做标签的预定值。在该标签的值是“1”的情况下,表示先行词后方边界和照应词后方边界所示出的构成要素是正例。所述正例,如上所述,是指成为本案例源的共参照要素标记示出的构成要素之对处于共参照关系,示出了共参照关系的正解。
成对负例生成器62受理上述训练数据的输入,使用该训练数据进行成对负例生成处理,求出负例的先行词后方边界和照应词后方边界。成对正例生成器61生成将该先行词后方边界和照应词后方边界与标签“-1”相对应表示的带标签案例数据。在该标签的值是“-1”的情况下,表示先行词后方边界和照应词后方边界所示出的构成要素是负例。所述负例,是指成为本案例源的共参照要素标记示出的构成要素之对不处于共参照关系。
非学习型要素范围推定器63受理成对正例生成器61生成的带标签案例数据和成对负例生成器62生成的带标签案例数据的输入。非学习型要素范围推定器63使用这些带标签案例数据进行非学习型要素范围推定处理,推定先行词的前方边界和照应词的前方边界。在此,对于各个先行词和照应词,将从推定的前方边界到后方边界的范围叫做推定要素范围文本。非学习型要素范围推定器63将由输入的带标签案例数据示出的先行词后方边界和照应词后方边界置换成推定要素范围文本,并输出置换后的带标签案例数据(称为带标签扩展案例数据)。
特征提取器64使用非学习型要素范围推定器63输出的带标签扩展案例数据进行生成特征向量的特征提取处理。二进制学习器65使用特征提取器64生成的多个特征向量,学习共参照分析的倾向或共参照反复出现的模式,输出学习结果得到的加权向量。该加权向量成为用于判断处理部70对任意文章判断有无共参照关系的判断基准。
下面,关于判断处理部70的功能结构进行说明。判断处理部70具有成对案例生成器71、非学习型要素范围推定器72、特征提取器73和二进制判断器74。这些各器件是共参照分析装置50所具有的主存储部或辅助存储部中各自存储的程序模块,通过共参照分析装置50具有的CPU执行各程序模块来实现以下记载的各功能。
成对案例生成器71受理从用户任意指定的文章(用户数据)的输入,进行成对案例生成处理后生成案例数据。用户数据示出文章和在该文章内可能具有共参照关系的各构成要素的后方边界。再有,成对案例生成器71的功能与上述的成对正例生成器61的功能或成对负例生成器62的功能大致相同,但以下几点与它们不同。输入到成对正例生成器61或成对负例生成器62中的训练数据是设想成包含多个共参照关系的数据形式,包含有链接信息。而另一方面,输入到成对案例生成器71中的用户数据是设想成包含1个共参照关系候补的数据形式,因此不包含链接信息。此外,案例数据与上述的成对正例生成器61进行成对正例生成处理所生成的带标签案例数据不同,不对应示出“1”或者“-1”的标签。将这种案例数据叫做无标签案例数据。
非学习型要素范围推定器72受理成对案例生成器71生成的无标签案例数据的输入,使用无标签案例数据进行非学习型要素范围推定处理来推定先行词的前方边界和照应词的前方边界。在此,对于各个先行词和照应词,将从推定的前方边界到后方边界的范围与上述同样地叫做推定要素范围文本。非学习型要素范围推定器72将由输入的无标签案例数据示出的先行词后方边界和照应词后方边界置换成推定要素范围文本,并输出置换后的无标签案例数据(称为无标签扩展案例数据)。
特征提取器73使用非学习型要素范围推定器72输出的无标签扩展案例数据进行生成特征向量的特征提取处理。二进制判断器74使用特征提取器73生成的多个特征向量和上述学习处理部60输出的加权向量,对标签进行判断,输出判断后的标签。
下面,使用图2,关于共参照分析装置50具有的学习处理部60所进行的学习处理的过程进行说明。首先,学习处理部60的成对正例生成器61在受理了上述训练数据的输入时,进行成对正例生成处理(步骤S1)。此外,学习处理部60的成对负例生成器62进行成对负例生成处理(步骤S2)。
在此,使用图3,对在步骤S1中成对正例生成器61执行的成对正例生成处理的详细过程进行说明。成对正例生成器61准备从“1”到“∞”的循环变量i,设定变量i的初始值为“1”(步骤S20)。该循环变量i与上述链接ID相对应。接着,成对正例生成器61从输入的训练数据中检索具有变量i的值的链接标记(步骤S21)。检索结果,在得不到符合的链接标记的情况下(步骤S22:否),成对正例生成器61结束成对正例生成处理。另一方面,在得到了符合的链接标记的情况下(步骤S22:是),成对正例生成器61对检索结果得到的链接标记紧前面的全部共参照要素标记进行检索(步骤S23)。再有,在本实施方式中,由于只处理先行词只有1个的共参照关系,因此,检索结果必定得到2个共参照要素标记。
接着,成对正例生成器61对步骤S23的检索结果得到的各共参照要素标记分别求出该共参照要素标记作为后方边界而示出的词素距文章开头的位置(步骤S24)。例如,也可以对训练数据所示的文章中包含的各词素另外给予的能唯一识别它们的词素号,成对正例生成器61求出给予给由共参照要素标记作为后方边界而示出的词素的词素号来作为位置。或者,也可以是,成对正例生成器61求出由共参照要素标记作为后方边界而示出的词素的距文章开头的字符数来作为位置。再有,将根据先行词的共参照要素标记求出的位置作为先行词后方边界,将根据照应词的共参照要素标记求出的位置作为照应词后方边界。
并且,成对正例生成器61生成将步骤S24中求出的先行词后方边界和照应词后方边界与整数“1”相对应表示的带标签案例数据(步骤S25)。之后,成对正例生成器61将循环变量i递增1(步骤S26),返回到步骤S21。
下面,使用图4,对在步骤S2中成对负例生成器62执行的成对负例生成处理的详细过程进行说明。步骤S30~S34与使用图3说明的步骤S20~S24同样,故省略说明。步骤S34之后,在步骤S35中,成对负例生成器62准备从步骤S34中求出的照应词后方边界到“先行词后方边界-1”的循环变量j。接着,成对负例生成器62生成将循环变量j、照应词后方边界及整数“-1”相对应表示的带标签案例数据(步骤S36)。在此,将循环变量j模拟作为先行词后方边界。之后,成对负例生成器62将循环变量j递增1(步骤S37),前进到步骤S35。然后,成对负例生成器62将循环变量i递增1(步骤S38),前进到步骤S31。
再有,简单地说,成对负例生成处理是将正例的成为共参照组的构成要素间存在的任意词素组中的、仅照应词一致的组,当作负例来看的处理。作为由人制成训练数据的一般制作过程,首先是发现照应词,然后从这儿开始向文章前方追溯词素发现先行词。可以认为,在向文章前方追溯的过程中不被看作先行词的词素至少保证不与照应词处于共参照关系。以上是将在该成对负例生成处理中处理的构成要素组看作负例的根据。
返回到图2的说明。学习处理部60的非学习型要素范围推定器63使用步骤S1中生成的带标签案例数据和步骤S2中生成的带标签案例数据进行非学习型要素范围推定处理(步骤S3)。在此,使用图5,关于在步骤S3中非学习型要素范围推定器63执行的非学习型要素范围推定处理进行说明。非学习型要素范围推定器63按顺序取出步骤S2中生成的带标签案例数据和步骤S2中生成的带标签案例数据中的1个未处理的带标签案例数据(步骤S40)。接着,非学习型要素范围推定器63按照规定的规则推定先行词中的前方边界和照应词中的前方边界。具体说,例如,非学习型要素范围推定器63按顺序取出由步骤S40中取出的带标签案例数据示出的先行词后方边界和照应词后方边界中的1个未处理的后方位置(步骤S41)。并且,非学习型要素范围推定器63从案例数据的后方边界到文章开头位置、或者出现词缀等独立词以外的词或名词的位置为止,依次扫描词素,收集在该过程中找到的独立词。由此得到连续排列的独立词串(推定要素范围文本)(步骤S42)。设这样的词素串是推定要素范围文本。作为例子,在“与摩纳哥的外交官会面了”的该文章中,如果后方位置是“官”,则位于它前方的“的”就是非独立词。于是,在该非独立词紧后面的独立词“外交”到该后方位置“官”之间存在的词素串即推定要素范围文本就成为“外交官”。即,在该例子中,推定“外交”这个词素为前方边界。再有,将这样地按照空降赋予的固定规则作为规定的规则来推定先行词的前方边界和照应词的前方边界的方法叫做非学习型。
并且,若有未处理的后方位置(步骤S43:是),就返回到步骤S41,若没有未处理的后方位置(步骤S43:否),就前进到步骤S44。在步骤S44中,非学习型要素范围推定器63将由步骤S41中取出的带标签案例数据示出的先行词后方边界和照应词后方边界,分别置换成步骤S42中输出的推定要素范围文本。非学习型要素范围推定器63输出置换后的带标签案例数据(称为带标签扩展案例数据)。并且,若有未处理的带标签案例数据(步骤S45:是),就返回到步骤S40,若没有未处理的带标签案例数据(步骤S45:否),则非学习型要素范围推定器63结束非学习型要素范围推定处理。
返回到图2的说明。学习处理部60的特征提取器64使用步骤S3中输出的带标签扩展案例数据进行生成特征向量的特征提取处理(步骤S4)。该特征提取处理可以使用现有方法进行,因此,在此对其概要进行说明。此外,生成特征向量的方法有各种各样的方法,在此关于生成二进制特征向量的方法进行说明。二进制特征向量是包含有与维数相应数量的要素并且用“1”或“0”(称为要素值)表示有无与各要素相对应的特征的向量。与各要素相对应的特征,根据共参照分析的方法而有多种,但大体上按范畴分有语义上特征、表面上特征和结构上特征。此外,各特征还可以分类成逐点和成对两种。根据这些特征生成的维数(向量内的要素数量)一般总计达到数千~数万。
作为逐点的表面上特征的一例,有“第1个推定要素范围文本中包含有‘南芝’吗”。如果该判断结果是肯定的,要素值就变为“1”,如果是否定的,要素值就变为“0”。当然,“南芝”部分也可以置换成日语中出现的全部单词。从而,如果将共参照分析装置50构成为能使用日语中出现的全部单词作为特征,则按照该形式的表面上特征就成为日语的全部单词种类数量的维数。这样地逐点捕捉关于各个文本的特征。
作为成对的表面上特征的一例,有“第1个推定要素范围文本和第2个推定要素范围文本有1个字符一致吗”。如果该判断结果是肯定的,要素值就变为“1”,如果是否定的,要素值就变为“0”。当然,“1个字符”的部分可以变更为2个字符、3个字符等任意字符数。这样地成对捕捉关于2个文本间关系的特征。
对语义上特征和结构上特征,也可以利用与以上同样的过程来决定特征向量的要素值。对于步骤S3中输出的带标签扩展案例数据,特征提取器64将这样地生成的特征向量和由该带标签扩展案例数据示出的标签合并一起后的向量,作为带标签特征向量进行输出。再有,在训练数据中存在多个具有共参照关系的构成要素之对的情况下,在步骤S3中输出多个带标签扩展案例数据,在步骤S4中使用这些个数据输出多个带标签特征向量。
接着,学习处理部60的二进制学习器65使用包含有步骤S4中输出的多个带标签特征向量的带标签特征向量群,学习共参照分析的倾向或共参照反复出现的模式。学习处理部60输出学习结果得到的加权向量(步骤S5)。该学习可以使用现有的机械学习的方法来进行,因此,在此对其概要进行说明。二进制学习器65的功能是与一般的机械学习框架中的以教师监督识别任务为目的的学习处理相对应的。作为在教师监督识别任务中常使用的机械学习的方法,举出有神经元网络、SVM(SupportVectorMachine:支持向量机)、逻辑回归和升压(boosting)等方法。何一种方法中都将带标签特征向量群作为输入,将加权向量作为输出。加权向量的各要素与特征向量的各要素相关联,这意味着加权向量的要素值越大,与其对应的特征的要素值对识别结果产生的影响越大。再有,有关各机械学习中的与数学模型或解的导出方法的说明省略。
下面,使用图6,对判断处理部70进行的判断处理的过程进行说明。首先,判断处理部70的成对案例生成器71在受理了例如通过操作输入部从用户任意指定的文章(用户数据)的输入时,进行成对案例生成处理(步骤S10)。成对案例生成处理与图2的步骤S1的成对正例生成处理大致相同,但以下几点与成对正例生成处理不同。由于输入到成对案例生成器71中的用户数据未包含链接信息,因此,成对案例生成器71与成对正例生成器61不同,不需要进行与链接信息有关的处理,即、不需要进行使用循环变量检索链接标记的处理。此外,成对案例生成器71在案例数据的生成中,与成对正例生成器61进行成对正例生成处理后生成的带标签案例数据不同,不与示出“1”或“-1”的标签建立对应。
在此,使用图7,对在步骤S10中成对案例生成器71执行的成对案例生成处理的过程进行说明。成对案例生成器71从输入的用户数据内检索用于指定成为共参照组候补的构成要素的共参照要素标记。成对案例生成器71关于检索结果得到的各个共参照要素标记,与图3的步骤S24同样地求出该共参照要素标记作为后方边界而示出的词素距文章开头的位置(步骤S50)。与上述同样地,将根据先行词的共参照要素标记求出的位置作为先行词后方边界,将根据照应词的共参照要素标记求出的位置作为照应词后方边界。成对案例生成器71生成将步骤S50中求出的先行词后方边界和照应词后方边界与标签未确定的情况建立对应后示出的案例数据(无标签案例数据)(步骤S51)。在图1的例子中,由“?”表示标签未确定。
返回到图6的说明。判断处理部70的非学习型要素范围推定器72使用步骤S10中生成的无标签案例数据进行非学习型要素范围推定处理(步骤S11)。在此,在步骤S11中非学习型要素范围推定器72执行的非学习型要素范围推定处理的过程与使用图5说明的过程大致相同,因此省略其说明。但是,在步骤S40中取出的是无标签案例数据。因此,在步骤S44中,非学习型要素范围推定器72将由步骤S41中取出的无标签案例数据示出的先行词后方边界和照应词后方边界,分别置换成步骤S42中输出的推定要素范围文本。非学习型要素范围推定器72输出置换后的无标签案例数据(称为无标签扩展案例数据)。
返回到图6的说明。判断处理部70的特征提取器73使用步骤S11中输出的无标签扩展案例数据进行生成特征向量的特征提取处理(步骤S12)。该特征提取处理与在上述图2的步骤S4中进行的相同,故省略其说明。但是,在此,对于步骤S11中输出的无标签扩展案例数据,特征提取器73将生成的特征向量和表示标签未确定的情况合并一起后的向量,作为无标签特征向量进行输出。
接着,判断处理部70的二进制判断器74使用包含有步骤S12中输出的无标签特征向量的无标签特征向量群和上述的使用图2说明的学习处理中输出的加权向量,对标签进行判断。二进制判断器74输出判断后的标签(步骤S13)。该判断可以使用现有的机械学习的方法来进行,因此,在此对其概要进行说明。二进制判断器74的功能是与一般的机械学习框架中的以教师监督识别任务为目的的判断处理相对应的。作为在教师监督识别任务中常使用的机械学习的方法,举出有神经元网络、SVM(SupportVectorMachine:支持向量机)、逻辑回归和升压等方法。何一种方法中都将无标签特征向量群作为输入,将作为判断结果的标签作为输出。在本实施方式中,标签的值若是“1”,就意味着是正例,即该案例数据处于共参照关系,若标签的值是“-1”,就意味着是负例,即该案例数据不处于共参照关系。
如上所述,在本实施方式中,学习处理部60对具有共参照关系的先行词和照应词,不是使用前方边界,而是使用后方边界进行学习处理。这样就能够提高判断处理部70对用户数据判断具有共参照关系的先行词和照应词的精度。
例如,在成对二进制学习中使用现有的训练数据进行学习处理时,对于背景技术栏中记载的(9902)的训练数据,以“摩纳哥的外交官”作为先行词的案例和以“外交官”作为先行词的案例被分别区别为正例和负例。但是,在利用机械学习的学习处理中,并不能判断后者的案例成为负例的理由取决于前方边界或者后方边界的哪一个,因此有可能产生对双方都不利的问题。但是,在本实施方式中,由于以“摩纳哥的外交官”作为先行词的案例和以“外交官”作为先行词的案例不被区别而都成为正例,因此就能将后方边界“官”识别成是用于决定先行词的正确选择。即,根据本实施方式,能够提高判断后方边界的精度,其结果,能够提高判断具有共参照关系的先行词和照应词的精度。
下面,关于学习装置、判断装置、学习方法、判断方法、学习程序和判断程序的第二实施方式进行说明。再有,对于与上述第一实施方式通用的部分,使用同一符号进行说明或省略说明。
为了生成用于学习处理或判断处理的特征向量,必须要使用不依赖于学习处理的方法来临时决定(推定)组块。在上述第一实施方式中,学习处理部60和判断处理部70各自在非学习型要素范围推定处理中,以被赋予的后方边界为基础,按照固定规则推定1个前方边界,将从该前方边界到后方边界的范围中存在的词素串(组块)作为推定要素范围文本进行输出,使用它生成特征向量。在本实施方式中,学习处理部60和判断处理部70各自按照多个规则分别推定多个前方边界的候补,按照从各前方边界到后方边界的各范围中存在的每个词素串,生成特征向量,并将它们统合起来。
图8是例示本实施方式涉及的共参照分析装置50的功能结构的图。如该图所示,学习处理部60除了具有成对正例生成器61、成对负例生成器62、非学习型要素范围推定器63、特征提取器64和二进制学习器65,还具有特征统合器66。特征统合器66是共参照分析装置50所具有的主存储部或辅助存储部中存储的程序模块,通过共参照分析装置50具有的CPU执行该程序模块来实现后述功能。此外,学习处理部60分别具有多个非学习型要素范围推定器63和特征提取器64。在该图的例子中各示出了2个,但本实施方式不限于此。
成对正例生成器61和成对负例生成器62的各功能与第一实施方式同样。多个非学习型要素范围推定器63分别受理成对正例生成器61生成的带标签案例数据和成对负例生成器62生成的带标签案例数据的输入。多个非学习型要素范围推定器63分别使用这些带标签案例数据,与第一实施方式同样地进行非学习型要素范围推定处理,并输出带标签扩展案例数据。
多个特征提取器64与多个非学习型要素范围推定器63一一对应。各特征提取器64使用对应的非学习型要素范围推定器63输出的带标签扩展案例数据,与第一实施方式同样地进行生成带标签特征向量的特征提取处理。特征统合器66统合多个特征提取器64各自生成的带标签特征向量。作为统合方法,例如考虑如果各带标签特征向量的各要素值是二进制值,就对每个要素取各要素值的逻辑和(or),如果各要素值是实数,就对每个要素取各要素值的平均等的方法。统合的结果是带标签特征向量,用与第一实施方式同样的数据形式来表现。
二进制学习器65使用特征统合器66统合的带标签特征向量,学习共参照分析的倾向或共参照反复出现的模式,然后输出学习结果得到的加权向量。
判断处理部70除了具有成对案例生成器71、非学习型要素范围推定器72、特征提取器73和二进制判断器74,还具有特征统合器75。特征统合器75是共参照分析装置50所具有的主存储部或辅助存储部中存储的程序模块,通过共参照分析装置50具有的CPU执行该程序模块来实现后述功能。此外,判断处理部70分别具有多个非学习型要素范围推定器72和特征提取器73。在该图的例子中各示出了2个,但在本实施方式中不限于此。
成对案例生成器71的功能与第一实施方式同样。多个非学习型要素范围推定器72分别受理成对案例生成器71生成的无标签案例数据的输入。多个非学习型要素范围推定器72分别与第一实施方式同样地使用无标签案例数据进行非学习型要素范围推定处理,并输出无标签扩展案例数据。
多个特征提取器73与多个非学习型要素范围推定器72一一对应。各特征提取器73使用对应的非学习型要素范围推定器72输出的无标签扩展案例数据,与第一实施方式同样地进行生成无标签特征向量的特征提取处理。特征统合器75统合多个特征提取器73各自生成的无标签特征向量。统合方法与学习处理部60的特征统合器66进行的统合方法同样。再有,统合的结果是无标签特征向量,用与第一实施方式同样的数据形式来表现。
二进制判断器74使用特征统合器75统合的无标签特征向量,并使用上述学习处理部60输出的加权向量,对标签进行判断,输出判断后的标签。
下面,使用图9,关于共参照分析装置50具有的学习处理部60进行的学习处理的过程进行说明。步骤S1~S2与第一实施方式同样。步骤S1~S2后,学习处理部60的多个非学习型要素范围推定器63分别使用步骤S1中生成的带标签案例数据和步骤S2中生成的带标签案例数据,分别进行非学习型要素范围推定处理(步骤S3a~S3b)。非学习型要素范围推定处理的方法与第一实施方式同样。但是,多个非学习型要素范围推定器63在推定先行词和照应词中的前方边界时所使用的规定的规则,在多个非学习型要素范围推定器63中各自不同。之后,学习处理部60的多个特征提取器64各自使用步骤S3a~S3b中分别输出的带标签扩展案例数据,分别进行生成特征向量的特征提取处理(步骤S4a~S4b)。该特征提取处理与第一实施方式同样。接着,学习处理部60的特征统合器66统合步骤S4a~4b中分别输出的多个带标签特征向量(步骤S6)。统合的结果,得到用与步骤S4a~4b中分别输出的带标签特征向量同样的数据形式表现的带标签特征向量。
并且,学习处理部60的二进制学习器65使用包含有步骤S6中统合的结果得到的带标签特征向量在内的带标签特征向量群学习加权向量,并输出学习结果得到的加权向量(步骤S5′)。学习加权向量的方法与第一实施方式同样。
下面,使用图10,关于判断处理部70进行的判断处理的过程进行说明。步骤S10与第一实施方式同样。之后,判断处理部70的多个非学习型要素范围推定器72各自使用步骤S10中生成的案例数据,分别进行非学习型要素范围推定处理(步骤S11a~S11b)。非学习型要素范围推定处理的方法与第一实施方式同样。但是,多个非学习型要素范围推定器72在推定先行词和照应词中的前方边界时所使用的规定的规则,在多个非学习型要素范围推定器72中各自不同。之后,判断处理部70的多个特征提取器73各自使用步骤S11a~S11b中分别输出的无标签扩展案例数据,分别进行生成特征向量的特征提取处理(步骤S12a~S12b)。该特征提取处理与第一实施方式同样。接着,判断处理部70的特征统合器75统合步骤S12a~12b中分别输出的多个无标签特征向量(步骤S14)。统合的结果,得到用与步骤S12a~12b中分别输出的无标签特征向量同样的数据形式表现的无标签特征向量。
并且,判断处理部70的二进制判断器74使用包含有步骤S14中得到的无标签特征向量的无标签特征向量群,使用上述的使用图9说明的学习处理中输出的加权向量,对标签进行判断。判断处理部70输出判断后的标签(步骤S13′)。该判断方法与第一实施方式同样。
如上所述,在本实施方式中,学习处理部60对于具有共参照关系的先行词和照应词,不是使用前方边界,而是使用后方边界来进行学习处理。这样就能够提高判断处理部70对用户数据判断与具有共参照关系的先行词和照应词有关的后方边界的精度。
另外,通过按照多个规则各自推定多个前方边界的候补,并将对根据后方边界和各前方边界决定的每个词素串生成的特征向量统合起来,就能够提供一种更灵活的共参照分析系统。
下面,关于学习装置、判断装置、学习方法、判断方法、学习程序和判断程序的第三实施方式进行说明。再有,对与上述第一实施方式或第二实施方式通用的部分,使用同一符号进行说明或省略说明。
在本实施方式中,关于将第一实施方式或第二实施方式中说明的判断处理部70的功能适用在应用中的例子进行说明。这样的应用能够仅得到与照应词对应的先行词的后方边界。例如,应用对作为处理对象的文章(文本)内的某个名词短语检索与该名词短语对应的先行词。上述现有技术栏中举出了自动摘要应用对处理对象当中的语句中所含的指示词(例如“这”等)所指示的名词进行检索的应用例。在本实施方式中,对用于实现这样的应用例而需要的功能结构进行说明。在此,对其功能结构的概要进行说明。在输入了成为处理对象的文章和照应词的后方边界时,应用从照应词附近开始依次选择作为先行词的后方边界的候补,使用照应词的后方边界和先行词的后方边界的候补判断有无照应性。倘若得到了不处于共参照关系的这个结果的情况下,应用朝着文章前方依次选择后方边界的候补,直到得到处于共参照关系的结果为止。得到了有共参照关系的这个结果的后方边界,示出了先行词的后方边界。或者,倘若进行该处理直到文章开头也没有得到处于共参照关系的这个结果的话,即得到不存在先行词的结果。这时得到的结果仅是先行词的后方边界。倘若想得到先行词的词素串的话,应用就在该文章中从后方边界开始向前方检索先行词的前方边界。应用对由该前方边界和后方边界决定的先行词的范围判断是否与应用的目的(应用目的)一致,按照该判断结果得到期望的词素串(组块)。
下面,使用图11,关于嵌入了应用的应用系统的功能结构的详细情况进行说明。应用系统具有先行词后方边界候补输出器81、照应判断器82和先行词词素串推定器83。在该图中,对应用系统输入的是文本和照应词的后方边界,从应用系统输出的是找到了先行词时的先行词的前方边界和后方边界。在上述自动摘要应用的情况下,输入相当于处理对象文章或语句,输出相当于语句中出现的指示词。
先行词后方边界候补输出器81受理文本和照应词的后方边界的输入,使用该文本和照应词的后方边界,输出用于使照应判断器82判断有无照应性的先行词后方边界的候补。先行词后方边界候补输出器81具有存储输出的先行词后方边界候补的前次位置存储区域85。先行词后方边界候补输出器81按照后述的从照应判断器82和先行词词素串推定器83发送的处理请求,参照前次位置存储区域85,输出先行词后方边界的候补。
照应判断器82是将上述判断处理部70的功能的全部或一部分适用在该应用中的器件。照应判断器82受理文本和先行词后方边界候补输出器81对于该文本作为与输入的照应词后方边界相对应的先行词后方边界的候补而输出的词素位置的输入。照应判断器82使用该文本和先行词后方边界候补,并使用上述加权向量,判断有无照应性,输出用二进制表示该判断结果的判断结果。具体地说,照应判断器82在判断为没有照应性的情况下,输出示出“假”的判断结果,在判断为有照应性的情况下,输出示出“真”的判断结果。此外,照应判断器82在判断为没有照应性的情况下,向先行词后方边界候补输出器81发送处理请求,在判断为有照应性的情况下,进一步输出其词素位置来作为先行词后方边界。
先行词词素串推定器83受理在判断为有照应性的情况下输出的词素位置即先行词后方边界的输入,使用该先行词后方边界,推定用于决定先行词范围的先行词前方边界。先行词词素串推定器83具有按应用区分有效性评价判断插件84。在此,按应用区分有效性评价判断插件84使用输入的先行词后方边界,推定用于决定与应用目的一致的先行词范围的前方边界。按应用区分有效性评价判断插件84是进行由输入的先行词后方边界和推定的先行词前方边界决定的先行词范围对应用来说是否有效的判断的插件模块。按应用区分有效性评价判断插件84可以按照每个应用加以更换。作为例子,举出进行该先行词是否在10个字符以内的判断处理的插件模块、以及进行该先行词是否未包含NG码的判断的插件模块等。按应用区分有效性评价判断插件84在判断为该先行词的范围不是有效的情况下,向先行词后方边界候补输出器81发送处理请求,在判断为该先行词的范围有效的情况下,输出该先行词后方边界和先行词前方边界。即,先行词词素串推定器83将用于决定出按应用区分有效性评价判断插件84判断为有效的先行词的范围的先行词前方边界位置,推定为用于决定与应用目的一致的先行词的范围的前方边界。
下面,使用图12,关于本实施方式涉及的应用系统进行的先行词判断处理的过程进行说明。应用系统在受理了处理对象的文本和照应词后方边界的输入时,首先利用先行词后方边界候补输出器81的功能进行先行词后方边界候补输出处理(步骤S60)。具体地说,先行词后方边界候补输出器81将该文本中成为该照应词后方边界最近的词素的位置(词素位置),作为先行词后方边界的候补进行输出。这时,先行词后方边界候补输出器81将输出的先行词后方边界的候补存储在前次位置存储区域85中。并且,先行词后方边界候补输出器81在下次从照应判断器82和先行词词素串推定器83中的某一方发送了处理请求的情况下(步骤S61:是),进行步骤S60的处理。这时,在步骤S60中,将比前次位置存储区域85中存储的词素位置远1个词素的位置(词素位置),作为先行词后方边界的候补进行输出。再有,来自照应判断器82和先行词词素串推定器83的处理请求可以连续发送。在发送了连续的处理请求时,先行词后方边界候补输出器81依次输出从距离照应词的后方边界最近的词素位置到最远的词素位置,作为先行词后方边界的候补。在此设最远为文章开头的词素。先行词后方边界候补输出器81这样地反复进行步骤S60的处理。这样,先行词后方边界候补输出器81就将该文本中还一次都没有作为先行词后方边界的候补而输出其位置(词素位置)的词素中成为最近的词素的位置(词素位置),作为先行词后方边界的候补进行输出。再有,在将文章开头词素的词素位置作为先行词后方边界的候补来输出之后发送了处理请求的情况下,先行词后方边界候补输出器81在步骤S60中输出意思是没有与所指定的照应词对应的先行词的“空”后结束处理。
再有,应用系统每次在进行了步骤S60而输出先行词后方边界的候补时,前进到步骤S62。在步骤S62中,应用系统的照应判断器82使用输入的文本和步骤S60中作为先行词后方边界的候补而输出的词素位置,判断有无照应性,并输出用二进制表示其判断结果的判断结果。这时,照应判断器82在判断为没有照应性的情况下(步骤S63:否),输出示出“假”的判断结果,向先行词后方边界候补输出器81发送处理请求(步骤S64)。之后返回到步骤S61。另一方面,照应判断器82在判断为有照应性的情况下(步骤S63:是),输出示出“真”的判断结果,并输出其词素位置作为先行词后方边界(步骤S65)。之后前进到步骤S66。
在步骤S66中,应用系统的先行词词素串推定器83使用步骤S65中输出的先行词后方边界进行先行词词素串推定处理。具体地说,先行词词素串推定器83使用步骤S65中输出的先行词后方边界,推定用于决定先行词范围的前方边界。先行词词素串推定器83的按应用区分有效性评价判断插件84,判断由推定的前方边界和步骤S65中输出的先行词后方边界所决定的先行词范围是否有效。在此,使用图13,关于先行词词素串推定器83和按应用区分有效性评价判断插件84执行的处理的详细过程进行说明。先行词词素串推定器83在与步骤S65中输出的先行词后方边界i相同的位置上设置词素位置j(步骤S70)。j示出了先行词的前方边界(先行词前方边界)的候补。接着,先行词词素串推定器83将词素位置j向前方的词素位置移动1个位置(步骤S71)。先行词词素串推定器83判断j是否是文章开头的词素位置(步骤S72),在j是文章开头的词素位置的情况下(步骤S72:是),输出“无匹配”。之后,应用系统进行的处理返回到图12的步骤S60。另一方面,在j不是文章开头的词素位置的情况下(步骤S72:否),先行词词素串推定器83将由i和j决定的先行词范围输出到按应用区分有效性评价判断插件84。按应用区分有效性评价判断插件84对该先行词的范围判断有无有效性(步骤S73)。在此,在按应用区分有效性评价判断插件84判断为该先行词的范围不是有效的情况下(步骤S74:否),返回到步骤S71。另一方面,在按应用区分有效性评价判断插件84判断为该先行词的范围有效的情况下(步骤S74:是),输出该先行词后方边界和先行词前方边界(步骤S75)。
这样地根据本实施方式,就能够推定与应用目的一致的先行词的范围并输出。
已经说明了本发明的几个实施方式,但是这些实施方式是作为例示而提出的,不是想限定发明的范围。这些新的实施方式可以以其他各种各样的方式来实施,可以在不脱离发明主旨的范围内进行各种各样的省略、置换、变更。这些实施方式及其变形包含在发明范围和主旨内,并且包含在权利要求书记载的发明和与其等同的范围内。
上述各实施方式中也可以构成为,将共参照分析装置50中执行的各种程序保存在与因特网等网络连接的计算机上,通过经由网络下载来提供。此外,也可以构成为,将该各种程序以可安装形式或可执行形式的文件记录在CD-ROM、软盘(FD)、CD-R、DVD(DigitalVersatileDisk:数字多用途光盘)等计算机可读取的记录介质上,作为计算机程序产品进行提供。
上述各实施方式中也可以将起到学习处理部60的作用的信息处理装置作为学习处理装置,将起到判断处理部70的作用的信息处理装置作为判断装置,来构成共参照分析系统。该情况下,也可以例如判断装置通过通信I/F,利用通信来从学习装置接收并存储权重向量,也可以通过存储介质或用户经操作输入进行的操作输入来向判断装置存储权重向量。
上述各实施方式中以分析共参照的共参照分析为例进行了说明,但不限于此,对分析零照应或联想照应等其他照应的照应分析,也可以适用上述各实施方式涉及的共参照分析装置50。
上述各实施方式中,共参照分析装置50具有的学习处理部60所具有的各器件不限于上述例子,还可以组合任意1个以上来构成,也可以由多个模块来实现各器件的某个所实现的功能。关于判断处理部70也同样。
上述各实施方式中,后方边界或前方边界是以词素为单位指定的,但不限于此,例如也可以以字符为单位加以指定。

Claims (12)

1.一种学习装置,其特征在于,包括:
输入受理部,受理第一数据的输入,所述第一数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系;
推定部,通过按照所述第一数据和规定的规则,对所述第一要素和所述第二要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、所述第一要素的范围和所述第二要素的范围;和
学习部,基于所述第一要素的范围和所述第二要素的范围,学习用于判断在任意文章中有无照应关系的判断基准。
2.根据权利要求1所述的装置,其特征在于,还包括:
第一生成部,使用所述第一数据,生成示出所述第一要素的后方边界和所述第二要素的后方边界的第二数据、和示出相互不处于照应关系的第三要素的后方边界和第四要素的后方边界的第三数据中的至少一个;和
第二生成部,基于所述第二数据和所述第三数据中的至少一个,生成特征向量,
所述学习部使用所述特征向量,利用机械学习学习所述判断基准。
3.根据权利要求2所述的装置,其特征在于,
所述推定部通过使用所述第二数据,按照所述规定的规则,对所述第一要素和所述第二要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、所述第一要素的范围和所述第二要素的范围,
所述第二生成部使用所述第一要素的范围和所述第二要素的范围,生成所述特征向量。
4.根据权利要求3所述的装置,其特征在于,还包括:
多个所述推定部,通过按照各自不同的所述规定的规则推定所述前方边界,来推定所述范围;
多个所述第二生成部,使用各所述推定部分别推定的所述第一要素的范围和所述第二要素的范围,分别生成所述特征向量;和
统合部,统合多个所述特征向量,
所述学习部使用统合后的所述特征向量,利用机械学习学习所述判断基准。
5.一种判断装置,其特征在于,包括:
输入受理部,受理第一数据的输入,所述第一数据示出文章和在所述文章内有可能具有照应关系的各要素的后方边界;
推定部,通过按照所述第一数据和规定的规则,对各所述要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、各所述要素的范围;和
判断部,按照基于各所述要素的范围学习到的、用于判断在任意文章中有无照应关系的判断基准,判断各所述要素有无照应关系。
6.根据权利要求5所述的装置,其特征在于,还包括:
第一生成部,使用所述第一数据,生成示出第一要素的后方边界和第二要素的后方边界的第二数据,其中,所述第一要素成为先行词候补,所述第二要素成为照应词候补;和
第二生成部,基于所述第二数据生成特征向量,
所述判断部按照所述特征向量和所述判断基准,利用机械学习判断所述第一要素和第二要素有无照应关系。
7.根据权利要求6所述的装置,其特征在于,
所述推定部通过使用所述第二数据,按照所述规定的规则,对所述第一要素和所述第二要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、所述第一要素的范围和所述第二要素的范围,
所述第二生成部使用所述第一要素的范围和所述第二要素的范围,生成所述特征向量。
8.根据权利要求7所述的装置,其特征在于,还包括:
多个所述推定部,按照各自不同的所述规定的规则,分别推定所述第一要素的范围和所述第二要素的范围;
多个所述第二生成部,使用各所述推定部分别推定的所述第一要素的范围和所述第二要素的范围,分别生成所述特征向量;和
统合部,统合多个所述特征向量,
所述判断部按照统合后的所述特征向量和所述判断基准,利用机械学习判断所述第一要素和第二要素有无照应关系。
9.一种判断装置,包括:
输入受理部,受理文章和在所述文章内有可能具有照应关系的成为照应词的要素的第一后方边界的输入;
检索部,在所述文章中检索位于所述第一后方边界之前的成为先行词候补的要素的第二后方边界;
推定部,通过按照所述第二后方边界和规定的规则,对所述成为先行词候补的要素分别推定所述先行词的前方边界,来分别推定由所述前方边界和所述第二后方边界决定的、各个所述成为先行词候补的要素的范围;和
第一判断处理部,按照基于所述成为先行词候补的要素的范围学习到的、用于判断在任意文章中有无照应关系的判断基准,使用所述文章和所述第二后方边界判断有无照应性,在判断为有照应性的情况下,将所述第二后方边界作为所述先行词的后方边界进行输出,针对在所述文章中位于所述第一后方边界之前的任一个要素的所述第二后方边界都判断为没有照应性的情况下,输出示出没有与所述照应词相对应的先行词的判断结果。
10.根据权利要求9所述的装置,其特征在于,还包括:
第二判断处理部,针对所述前方边界与所述第二后方边界之间存在的包含1个以上词素的词素串,按照应用目的判断有用性;和
输出部,按照所述第二判断处理部的判断结果,输出所述词素串作为所述先行词。
11.一种学习方法,是在学习装置中执行的学习方法,其特征在于,包含:
受理第一数据的输入,所述第一数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系,
通过按照所述第一数据和规定的规则,对所述第一要素和所述第二要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、所述第一要素的范围和所述第二要素的范围,
基于所述第一要素的范围和所述第二要素的范围,学习用于判断在任意文章中有无照应关系的判断基准。
12.一种判断方法,是在判断装置中执行的判断方法,其特征在于,包含:
受理第一数据的输入,所述第一数据示出文章和在所述文章内有可能具有照应关系的各要素的后方边界,
通过按照所述第一数据和规定的规则,对各所述要素分别推定前方边界,来分别推定由所述前方边界和所述后方边界决定的、各所述要素的范围,
按照基于各所述要素的范围学习到的、用于判断在任意文章中有无照应关系的判断基准,判断各所述要素有无照应关系。
CN201110414927.6A 2011-01-18 2011-12-13 学习装置、判断装置、学习方法和判断方法 Expired - Fee Related CN102609406B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011007663A JP5197774B2 (ja) 2011-01-18 2011-01-18 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
JP007663/2011 2011-01-18

Publications (2)

Publication Number Publication Date
CN102609406A CN102609406A (zh) 2012-07-25
CN102609406B true CN102609406B (zh) 2015-11-25

Family

ID=46491055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110414927.6A Expired - Fee Related CN102609406B (zh) 2011-01-18 2011-12-13 学习装置、判断装置、学习方法和判断方法

Country Status (3)

Country Link
US (1) US9141601B2 (zh)
JP (1) JP5197774B2 (zh)
CN (1) CN102609406B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
WO2014132402A1 (ja) * 2013-02-28 2014-09-04 株式会社東芝 データ処理装置および物語モデル構築方法
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US10042961B2 (en) * 2015-04-28 2018-08-07 Microsoft Technology Licensing, Llc Relevance group suggestions
US10264081B2 (en) 2015-04-28 2019-04-16 Microsoft Technology Licensing, Llc Contextual people recommendations
JP6737025B2 (ja) 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
CA3055379C (en) * 2017-03-10 2023-02-21 Eduworks Corporation Automated tool for question generation
JP6506360B2 (ja) * 2017-08-24 2019-04-24 三菱電機インフォメーションシステムズ株式会社 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN112001190B (zh) * 2020-07-20 2024-09-20 北京百度网讯科技有限公司 自然语言处理模型的训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288190A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 要約装置、要約方法、ならびに、プログラム
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
CN1936885A (zh) * 2005-09-21 2007-03-28 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101751455A (zh) * 2009-12-31 2010-06-23 浙江大学 采用人工智能技术自动产生标题的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6199037B1 (en) * 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
JP4065936B2 (ja) 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
JP3899414B2 (ja) * 2004-03-31 2007-03-28 独立行政法人情報通信研究機構 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288190A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 要約装置、要約方法、ならびに、プログラム
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
CN1936885A (zh) * 2005-09-21 2007-03-28 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101751455A (zh) * 2009-12-31 2010-06-23 浙江大学 采用人工智能技术自动产生标题的方法

Also Published As

Publication number Publication date
US20120183935A1 (en) 2012-07-19
JP2012150586A (ja) 2012-08-09
CN102609406A (zh) 2012-07-25
US9141601B2 (en) 2015-09-22
JP5197774B2 (ja) 2013-05-15

Similar Documents

Publication Publication Date Title
CN102609406B (zh) 学习装置、判断装置、学习方法和判断方法
Gehrmann et al. Repairing the cracked foundation: A survey of obstacles in evaluation practices for generated text
AU2020200909A1 (en) Evaluation control
US20170116203A1 (en) Method of automated discovery of topic relatedness
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
US7340475B2 (en) Evaluating dynamic expressions in a modeling application
CN108829682B (zh) 计算机可读存储介质、智能问答方法及智能问答装置
US9443193B2 (en) Systems and methods for generating automated evaluation models
US20120150825A1 (en) Cleansing a Database System to Improve Data Quality
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
WO2021174829A1 (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
US20240020458A1 (en) Text formatter
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113849623A (zh) 文本视觉问答方法和装置
CN115803734A (zh) 使用动作解释的自然语言丰富
US20130122482A1 (en) Computer-Implemented Systems and Methods for Predicting Performance of Automated Scoring
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
Tetreault et al. Bucking the trend: improved evaluation and annotation practices for ESL error detection systems
CN114662676A (zh) 模型优化方法、装置、电子设备和计算机可读存储介质
CN112116181B (zh) 课堂质量模型的训练方法、课堂质量评价方法及装置
CN104464731A (zh) 数据收集装置及方法、语音对话装置及方法
CN106599312B (zh) 知识库的检验方法、装置及终端
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
CN112446206A (zh) 一种菜谱标题的生成方法及装置
CN114297380A (zh) 一种数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125