CN101908041B

CN101908041B - 一种基于多代理机制的多词表达抽取系统及方法

Info

Publication number: CN101908041B
Application number: CN2010101643679A
Authority: CN
Inventors: 梁颖红
Original assignee: Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center
Current assignee: Jiangsu Modern Enterprise Informatization Application And Support Software Engineering Technology Research And Development Center
Priority date: 2010-05-06
Filing date: 2010-05-06
Publication date: 2012-07-04
Anticipated expiration: 2030-05-06
Also published as: CN101908041A

Abstract

本发明公开了一种基于多代理机制的多词表达抽取系统及方法，所述系统包括语句输入模块、语句输出模块，以及语句复制模块、语句抽取单元、语句解综合模块。所述方法包括如下步骤：将接收到的语句复制；应用预定的语句抽取机制对该复制后的语句进行语句抽取，以及，根据预定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果；将上述输出的多个语句抽取结果进行汇总并输出。

Description

一种基于多代理机制的多词表达抽取系统及方法

技术领域

本发明涉及一种多词表达抽取系统及方法，尤其涉及一种基于多代理机制的多词表达抽取系统及方法。

背景技术

随着对自然语言处理领域中的机器翻译、信息检索、词义消歧等的深入研究，研究者发现影响性能提升的一个主要因素与一种有很强搭配关系的多个词组成的语言单位的准确抽取和翻译有关。例如“各付各”(go Dutch)，“奶咖啡”(white coffee)，“再来点”(want some more)。在汉语分词时，“各/付/各”，“奶/咖啡”，“再/来/点”被分离开来，导致它们不能被翻译成一个完整的语言单位。这些语言单位在日常语言中频繁使用，通常用来表达完整的概念，而这些概念不能拆成单个词汇来表达。它们有自己的语法或语义特性但是结构上又有大量的松散和变化的表达形式，这些构成部件之间有着较为复杂的关联。该语言单位被称为多词表达(Multiword Expression)简称MWE。

MWE一般被分为以下几种：

(1)习语：指语法语义上可以复合生成，但是已经约定俗成，一般不会出现变体。例如：“strong tea”。

(2)词汇化的短语：包括

句法松散的表达，如“touch a nerve(touch/find a raw nerve)”；

半固定表达，如复合名词；

固定表达，如“ad hoc”，“in addition”。

利用计算机来自动抽取和应用MWE被认为是进一步研究的瓶颈。MWE抽取就是识别出文本中的非嵌套的特定短语结构。

鉴于MWE在研究上的重要地位，国内外研究者对MWE进行了广泛的研究。但是，研究最多的还是MWE的抽取问题，例如名名复合结构，固定短语结构和动词+小品词短语等等都是当前研究的热点。从国内外文献来看，目前主流的MWE抽取主要有以下三种方法：统计抽取方法，知识驱动抽取方法以及混合抽取方法。

统计抽取方法：

统计方法主要是从文本中统计多个词的出现频率和共现信息等数据，从而计算互信息、信息熵等数据，并依据以上数据使用适当的模型对MWE进行抽取。

基于统计的方法虽然也取得了较好的识别效果，但该类方法单纯统计词频、共现信息等，没有考虑MWE的语法、语义知识，因此，无法从深层次探究不同类型MWE的内部组成规律。

知识驱动抽取方法：

知识驱动的方法中，使用了语言专家总结的知识或者研究者总结的规律性知识来进行MWE的识别。

知识驱动方法注重MWE的内部组成规律的总结，适合形式变化多变的MWE类型的抽取。

混合抽取方法：

混合方法通常结合了统计方法与知识驱动方法的优点，把词频数据、专家知识和经验规律结合使用。

总体来看，无论英语还是汉语，MWE抽取的准确率都不是很高，距离实际应用还有很大的距离，因此还有较大的提升空间。知识驱动方法可以涵盖MWE的内部组成规律，对形式多变的个别MWE类型比较适合，但该方法无法把所有的知识全部总结出来；随着大规模语料库的建立和计算机技术的飞速发展，统计方法得到了迅猛的发展，也取得了较好的效果，但对于一些复杂的MWE，统计和知识相结合的方法才能取得较好的效果。

纵观MWE抽取的方法和策略，我们发现多数的研究者只针对某一种类型(比如复合名词、动词+小品词等)的MWE进行抽取，少数的研究者同时抽取了几种类型的MWE，但是使用的是相同的模型和算法。从MWE的分类我们可以看出，不同类型的MWE在定义、形态和组成上有很大差别，因此上述现有技术中所采用的MWE抽取方法和策略无法保证获得较高的正确率。

发明内容

本发明针对现有技术的弊端，提供一种基于多代理机制的多词表达抽取系统及方法。

本发明所述的基于多代理机制的多词表达抽取系统，包括输入待抽取语句的语句输入模块和输出语句抽取结果的语句输出模块，还包括：

语句复制模块，用于根据语句抽取单元中预定的语句抽取机制的数量将语句输入模块输入的待抽取语句复制出对应数量的待抽取语句，并将对应数量的待抽取语句对应于各语句抽取机制，分别发送至语句抽取单元中；

第一语句抽取单元，用于根据其中预定的多个语句抽取机制对相应接收到的各待抽取语句进行词语抽取；同时，根据预定的第一消歧机制对通过多个语句抽取机制进行的语句抽取中的冲突进行第一消歧处理并输出第一消歧后的语句抽取结果；

控制模块，用于将第一语句抽取单元输出的第一消歧后的语句抽取结果进行汇总，汇总后，如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％或以下的词汇进行了第一消歧处理，则将最终语句抽取结果通过语句输出模块进行输出；如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％以上的词汇均进行了第一消歧处理，则控制模块控制第二语句抽取单元进行待抽取语句的词语抽取；

第二语句抽取单元，用于根据其中预定的两个语句抽取机制对相应接收到的各待抽取语句进行词语抽取；同时，根据预定的第二消歧机制对通过两个语句抽取机制进行的语句抽取中的冲突进行第二消歧处理，并通过语句输出模块输出第二消歧后的语句抽取结果。

本发明所述的多词表达抽取系统中，所述第一语句抽取单元针对多个语句抽取中的同一词汇的抽取结果进行比较，若比较结果存在冲突，则根据第一消歧原则进行消岐处理。

本发明所述的多词表达抽取系统中，所述第一语句抽取单元中采用四个语句抽取机制，从而所述第一语句抽取单元进一步包括分别与各语句抽取机制对应的习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块、以及包括用于各识别模块之间通信的通信模块；

所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块之间经由通信模块针对同一词汇的识别结果进行比较处理。

本发明所述的多词表达抽取系统中，所述第二语句抽取单元中采用两个语句抽取机制，从而所述第二语句抽取单元进一步包括分别与各语句抽取机制对应的等级识别模块和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块；

所述等级识别模块和忽略语识别模块之间经由通信模块针对同一词的识别结果进行比较处理。

本发明还提供一种基于多代理机制的多词表达抽取方法，步骤包括：

步骤一，将接收到的语句进行复制，并且接收到的语句进行复制的数量与预定的语句抽取机制的数量对应；

步骤二，应用预定的语句抽取机制对该复制后的语句进行语句抽取，以及，根据预定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果；

步骤三，将上述输出的多个语句抽取结果进行汇总并输出。

本发明所述的多词表达抽取方法的步骤二中，预定的语句抽取机制包括习语识别、复合名词识别、动词与名词识别、动词与小品词识别；所述预定的消岐机制包括根据预设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行消岐处理。

本发明所述的多词表达抽取方法的步骤二中，将同一词按照习语识别、复合名词识别、动词和名词识别、动词和小品词识别的抽取结果进行比较，以确定该词在语句抽取中是否冲突；对语句抽取结果进行比较的过程包括：

当所述习语识别、复合名词识别、动词与名词识别、或动词与小品词识别中任意一种识别机制接收到待抽取语句并进行识别时，同时将该待抽取语句发送至其余识别机制进行识别；并将经过上述各识别机制识别过的抽取结果进行比较。

本发明所述的多词表达抽取方法中，所述各识别机制识别过的抽取结果以知识查询和处理语言进行交互比较。

本发明所述的多词表达抽取方法的步骤二中，若语句抽取结果中字数占待抽取语句总字数70％以上的词汇均进行了消歧处理，则应用预定的第二语句抽取机制对所述复制后的语句进行语句抽取，以及，根据预定的第二消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果。

本发明所述的多词表达抽取方法中，所述第二语句抽取机制包括将待抽取语句中的词汇分成等级的等级识别及将待抽取语句中的可忽略词汇提取出来的忽略语识别；

所述第二消歧机制为：若提取出来的可忽略词汇为通过等级识别出的低等级词汇，则忽略这些词汇；若提取出来的可忽略词汇不是通过等级识别出的低等级词汇，则根据预定的词汇的等级和可忽略程度，将这些词汇进行保留或忽略。

发明所述的基于多代理机制的多词表达抽取系统及方法中，将输入的语句复制后应用不同的语句抽取机制进行语句抽取，同时，在抽取过程中进行必要的通信，以消除语句抽取过程中各种语句抽取机制所抽取的结果之间的冲突，再对所有的语句抽取结果进行汇总输出。本发明所述的基于多代理机制的多词表达抽取系统及方法中，可根据不同类型的多词表达语句而使用不同的语句抽取机制，大大提高了语句抽取的正确率。

附图说明

图1为本发明所述基于多代理机制的多词表达抽取系统的结构示意图；

图2为本发明所述基于多代理机制的多词表达抽取方法的流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明中所述的多代理机制，即将识别不同类型语句的机制加以整合，从而实现一次输出多种多词表达结果的目的。

本发明所述的基于多代理机制的多词表达抽取系统，如图1所示，包括了语句输入模块、语句输出模块、以及增加设置的语句复制模块、第一语句抽取单元、控制模块、第二语句抽取模块。

其中，所述语句输入模块用于接收待抽取的语句，该语句输入模块可为键盘等常用的数据输入工具。

所述语句复制模块用于根据后述语句抽取单元中预定的语句抽取机制的数量将语句输入模块输入的待抽取语句复制出对应的数量的待抽取语句，并将对应数量的待抽取语句对应于各语句抽取机制，分别发送至语句抽取单元中。本发明中，所述语句抽取单元预置了多种语句抽取机制，因此，所述语句复制模块根据该预置的语句抽取机制的数量来将待抽取的语句复制为对应的数量，再将这些复制后的待抽取语句发送至后续的语句抽取单元。

所述第一语句抽取单元用于根据预定的语句抽取机制对前述输入的待抽取语句进行语句抽取。本发明中，所述预定的语句抽取机制包括多个不同的语句抽取机制，分别由不同的模块来实现，例如，所述语句抽取单元可具体包括习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块，上述四种模块对应了四种不同的语句抽取机制。与之对应的，当语句抽取单元中包含具有上述四种不同的语句抽取机制的模块时，所述语句复制模块将输入的待抽取语句复制为四个待抽取语句。

所述语句抽取单元内具备多种语句抽取机制的模块对输入的待抽取语句进行语句抽取，在实际的语句抽取过程中，针对同一词的抽取结果难免会出现差异，即对同一词采用多种不同的语句抽取机制而得到的抽取结果存在冲突，因此，有必要消除该冲突以获得更为准确的输出。于是，本发明中，还在语句抽取单元中预置了第一消歧机制，使得语句抽取单元可根据预定的第一消歧机制对多个语句抽取中的冲突进行第一消歧处理，并最终输出多个语句的抽取结果。一般来说，所述语句抽取单元针对多个语句抽取中的同一词的抽取结果进行比较，若比较结果存在冲突则进行第一消岐处理。所述第一消歧处理的机制可包括根据预设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行第一消岐处理。

本发明中，为确定多个语句抽取中的冲突，还在语句抽取单元中设置了通信模块，所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块之间经由通信模块针对同一词的识别结果进行比较处理。即所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块构成联盟，当其中任意一个模块接收到输入的语句后，对其中的词进行识别并将该词的识别结果发送至联盟内其他模块，以便与该联盟内的其他模块针对该同一词的识别结果进行比较，藉此来判断针对同一词的识别结果是否存在冲突。在上述各模块之间交换词的识别结果过程中，所述通信模块即担当了中间媒介作用。该通信模块可具体使用KQML(Knowledge Query and Manipulation Language，知识查询和处理语言)作为通信语言。

同时需要说明的是，上述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块构成的联盟内，各模块均具备身份标识信息、所属联盟信息、优先级信息、以及功能信息，而各模块之间的沟通寻址是通过身份标识信息实现的，即任意模块保存联盟内其余模块的身份标识信息，以待交换词的识别结果时使用。

所述控制模块，用于将上述第一语句抽取单元输出的第一消歧后的语句抽取结果进行汇总，汇总后，如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％或以下的词汇进行了第一消歧处理，则将最终语句抽取结果通过语句输出模块进行输出；如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％以上的词汇均进行了第一消歧处理，则控制模块控制第二语句抽取单元进行待抽取语句的词语抽取。

所述第二语句抽取单元，用于根据其中预定的两个语句抽取机制对相应接收到的各待抽取语句进行词语抽取；同时，根据预定的第二消歧机制对通过两个语句抽取机制进行的语句抽取中的冲突进行第二消歧处理，并通过语句输出模块输出第二消歧后的语句抽取结果。其中，所述第二语句抽取单元进一步包括分别与各语句抽取机制对应的等级识别模块和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块；所述等级识别模块和忽略语识别模块之间经由通信模块针对同一词的识别结果进行比较处理。

如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％以上的词汇均进行了第一消歧处理，则意味着第一消歧处理失败，转向第二消歧处理。第二消歧机制是根据本抽取系统在不断被用户使用的过程中，将用户的人工选择结果通过概率统计得出的，或者是通过人工有意识的输入得出的。具体而言，第二消歧机制是通过等级识别模块将待抽取语句中的词汇分成等级，通过忽略语识别模块将待抽取语句中的可忽略词汇提取出来，如果提取出来的可忽略词汇正好是通过等级识别模块识别出的低等级词汇，则通过第二消歧机制忽略这些词汇，最终输出忽略了这些词汇的语句抽取结果；如果提取出来的可忽略词汇不是通过等级识别模块识别出的低等级词汇，则通过第二消歧机制根据这些词汇的等级和可忽略程度进行综合评定，最终对这些词汇进行或保留或忽略的处理，最终输出处理后的语句抽取结果。

例如，待抽取语句中包含30个汉字，则通过上述四种语句抽取机制进行抽取，之后首先通过第一消歧原则进行第一消歧处理。对第一消歧结果进行处理后，如果发现其中的8个词汇(假定每个词汇中包含两个汉字)在这四种语句抽取机制下的抽取结果存在冲突，则通过第二消歧原则对通过四种语句机制得到的抽取结果重新进行第二消歧，并把第二消歧结果做为最终处理结果。

第二消歧原则是比第一消歧原则更为宽泛的原则，当通过第一消歧的结果导致字数占待抽取语句中总字数70％以上词汇均被消歧后，放弃第一消歧原则而采用第二消歧原则是为了确保抽取结果不要过于狭窄和局限，而扩大抽取范围，以免漏检。

所述语句输出模块用于输出语句抽取结果。该语句输出模块可为显示器等信息输出设备。

本发明还提供了一种基于多代理机制的多词表达抽取方法，如图2所示，包括如下步骤：

步骤101，将接收到的语句进行复制，并且接收到的语句进行复制的数量与预定的语句抽取机制的数量对应。

本步骤中，所述接收到的语句被复制为多个，具体的复制数量与后述预定的语句抽取机制的数量相对应。即预定的语句抽取机制的数量为几个，就将接收到的语句复制为几个。

步骤102，应用预定的语句抽取机制对该复制后的语句进行语句抽取，以及，根据预定的消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果。

本步骤中，所述预定的语句抽取机制包括习语识别、复合名词识别、动词与名词识别、动词与小品词识别。根据该预定的语句抽取机制的数量为四个，步骤101中接收到的语句也被复制为四个，该四个复制后的语句被分别应用习语识别、复合名词识别、动词与名词识别、动词与小品词识别机制进行语句抽取。

在实际的语句抽取过程中，针对同一词的抽取结果难免会出现差异，即对同一词采用多种不同的语句抽取机制而得到的抽取结果存在冲突，因此，有必要消除该冲突以获得更为准确的输出。于是，本步骤中，还进一步预置了第一消歧机制，使得可根据预定的第一消歧机制对多个语句抽取中的冲突进行第一消歧处理，并最终输出多个语句的抽取结果。

具体而言，将同一词按照习语识别、复合名词识别、动词和名词识别、动词和小品词识别的抽取结果进行比较，以确定该词在语句抽取中是否冲突。该对语句抽取结果进行比较的过程包括：当所述习语识别、复合名词识别、动词与名词识别、或动词与小品词识别中任意一种识别机制接收到待抽取语句并进行识别时，同时将该待抽取语句发送至其余识别机制进行识别；并将经过上述各识别机制识别过的抽取结果进行比较。所述各识别机制识别过的抽取结果可通过知识查询和处理语言进行交互比较。若比较结果存在冲突则进行第一消岐处理，所述预定的第一消歧处理的机制可包括根据预设的规则和上下文信息进行第一消岐处理、以及根据预设的冲突判决规则进行第一消岐处理。

本步骤中，还可进一步包括第二消歧机制。如果第一消歧后的语句抽取结果中，字数占待抽取语句中总字数70％以上的词汇均进行了第一消歧处理，则意味着第一消歧处理失败，转向第二消歧处理。第二消歧机制是根据本抽取系统在不断被用户使用的过程中，将用户的人工选择结果通过概率统计得出的，或者是通过人工有意识的输入得出的。

具体而言，第二消歧机制是通过将待抽取语句中的词汇分成等级，以及，通过将待抽取语句中的可忽略词汇提取出来。如果提取出来的可忽略词汇正好是通过等级识别出的低等级词汇，则通过第二消歧机制忽略这些词汇，最终输出忽略了这些词汇的语句抽取结果；如果提取出来的可忽略词汇不是通过等级识别出的低等级词汇，则通过第二消歧机制根据这些词汇的等级和可忽略程度进行综合评定，最终对这些词汇进行或保留或忽略的处理，最终输出处理后的语句抽取结果。

步骤103，将上述输出的多个语句抽取结果进行汇总并输出。

仍以前述四种不同的语句抽取机制为例，当该四种语句抽取机制对同一个词的抽取结果不一致时，即根据各个抽取机制的分类置信度，指导各个抽取机制彼此交换信息共同进行决策，当各个抽取机制达到一致决策时，即获得了最佳的语句解综合结果。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于多代理机制的多词表达抽取系统，包括输入待抽取语句的语句输入模块和输出语句抽取结果的语句输出模块，其特征在于，还包括：

第二语句抽取单元，用于根据其中预定的两个语句抽取机制对相应接收到的各待抽取语句进行词语抽取；同时，根据预定的第二消歧机制对通过两个语句抽取机制进行的语句抽取中的冲突进行第二消歧处理，并通过语句输出模块输出第二消歧后的语句抽取结果；

所述第一语句抽取单元中采用四个语句抽取机制，从而所述第一语句抽取单元进一步包括分别与各语句抽取机制对应的习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块、以及包括用于各识别模块之间通信的通信模块；

所述习语识别模块、复合名词识别模块、动词和名词识别模块、动词和小品词识别模块之间经由通信模块针对同一词汇的识别结果进行比较处理；

所述第二语句抽取单元中采用两个语句抽取机制，从而所述第二语句抽取单元进一步包括分别与各语句抽取机制对应的等级识别模块和忽略语识别模块、以及包括用于各识别模块之间通信的通信模块；

2.如权利要求1所述的多词表达抽取系统，其特征在于，所述第一语句抽取单元针对多个语句抽取中的同一词汇的抽取结果进行比较，若比较结果存在冲突，则根据第一消歧原则进行消岐处理。

3.一种基于多代理机制的多词表达抽取方法，其特征在于，步骤包括：

步骤三，将上述输出的多个语句抽取结果进行汇总并输出；

所述步骤二中，预定的语句抽取机制包括习语识别、复合名词识别、动词与名词识别、动词与小品词识别；所述预定的消岐机制包括根据预设的规则和上下文信息进行消岐处理、以及根据预设的冲突判决规则进行消岐处理；

所述步骤二中，将同一词按照习语识别、复合名词识别、动词和名词识别、动词和小品词识别的抽取结果进行比较，以确定该词在语句抽取中是否冲突；

所述对语句抽取结果进行比较的过程包括：

4.如权利要求3所述的多词表达抽取方法，其特征在于，所述各识别机制识别过的抽取结果以知识查询和处理语言进行交互比较。

5.如权利要求3所述的多词表达抽取方法，其特征在于，所述步骤二中，若语句抽取结果中字数占待抽取语句总字数70％以上的词汇均进行了消歧处理，则应用预定的第二语句抽取机制对所述复制后的语句进行语句抽取，以及，根据预定的第二消歧机制对多个语句抽取中的冲突进行消歧处理并输出多个语句抽取结果。

6.如权利要求5所述的多词表达抽取方法，其特征在于，所述第二语句抽取机制包括将待抽取语句中的词汇分成等级的等级识别及将待抽取语句中的可忽略词汇提取出来的忽略语识别；