CN101751385A - 一种采用层次管道过滤器体系结构的多语言信息抽取方法 - Google Patents

一种采用层次管道过滤器体系结构的多语言信息抽取方法 Download PDF

Info

Publication number
CN101751385A
CN101751385A CN200810239836A CN200810239836A CN101751385A CN 101751385 A CN101751385 A CN 101751385A CN 200810239836 A CN200810239836 A CN 200810239836A CN 200810239836 A CN200810239836 A CN 200810239836A CN 101751385 A CN101751385 A CN 101751385A
Authority
CN
China
Prior art keywords
name
language
information extraction
model
multilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810239836A
Other languages
English (en)
Other versions
CN101751385B (zh
Inventor
黄河燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUAJIAN MACHINE TRANSLATION CO Ltd
Original Assignee
HUAJIAN MACHINE TRANSLATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUAJIAN MACHINE TRANSLATION CO Ltd filed Critical HUAJIAN MACHINE TRANSLATION CO Ltd
Priority to CN 200810239836 priority Critical patent/CN101751385B/zh
Publication of CN101751385A publication Critical patent/CN101751385A/zh
Application granted granted Critical
Publication of CN101751385B publication Critical patent/CN101751385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法中,对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件提取人名和地名;然后由语种独立的分词构件进行分词,由词性标注构件进行词性标注;再由组织机构名识别构件进行组织机构名的识别,由最长名词短语识别构件进行最长名词短语的识别。本发明提供了信息抽取系统的实用基础框架,成功解决了多个相互交叉重叠的算法的重用和泛化问题,改进了软件的可重用、可维护和可扩展性能,提高了信息抽取应用系统研发效率。

Description

一种采用层次管道过滤器体系结构的多语言信息抽取方法
技术领域
本发明涉及一种实现信息抽取的方法,尤其涉及一种采用层次管道过滤器体系结构的多语言信息抽取方法,属于自然语言处理(NLP)技术领域。
背景技术
信息抽取是研究如何从文本中抽取出特定的事实信息并将其以结构化的形式呈现出来的技术。在自然语言处理(NLP)领域,为了高效率、高质量地完成信息抽取的任务,需要专门设计和开发信息抽取系统。信息抽取系统的主要功能是从文本中抽取出特定的事实信息,然后进行结构化处理,集成在一起,变成统一的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息抽取技术标志着快速、准确的情报分析能力,对一个国家的政治、军事和经济等方面的发展将产生直接影响,能产生巨大的社会效益和经济效益。
信息抽取系统作为一类结构复杂而子任务众多的软件系统,拥有良好的软件体系结构(Software Architecture)是十分重要的。一个良结构的、专门面向信息抽取领域的软件体系结构,有助于提高信息抽取系统的开发效率和提高系统的可靠性。从软件工程的角度讲,可以提高系统的可扩展性和可维护性。
目前,在针对特定领域的软件体系结构(DSSA,Domain SpecificSoftware Architecture)中,管道过滤器风格的体系结构以其支持软件重用的特点,日益受到人们的重视。
管道过滤器风格最早在Unix中出现。它适用于对序列数据进行一系列已经定义的独立处理的应用程序。如图1所示,这种风格的特点包括:
·构件:层次管道过滤器风格中的构件被称为过滤器(filter)。它对输入流进行处理、转换,处理后的结果在输出端流出。这种计算常常是递进的,所以可能在全部的输入接收完之前就开始输出。
·连接件:连接件位于过滤器之间,起信息流导管的作用,被称为管道(pipe)。
·每个构件都有输入和输出集合,数据流在输出处生成,在输入处被构件读取。
·过滤器必须是独立的实体,它们不了解信息流从哪个过滤器流出,也不需要知道将流入哪个过滤器。它们可以指定输入的格式,可以确保输出的结果,但是它们可能不知道在管道之后将会是什么样的构件。过滤器之间不共享状态。
·管道和过滤器构成的网络输出的正确性不依赖于过滤器的递进处理顺序。
但是,目前尚没有在信息抽取系统中采用基于管道过滤器风格的体系结构的成熟技术方案问世。
发明内容
鉴于目前尚无面向多语言信息抽取的专用软件体系结构,本发明所要解决的技术问题在于提供一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法实现了自适应多语言信息抽取技术与面向特定领域的软件体系结构的有机结合。
本发明解决上述技术问题所采用的技术方案是:
一种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连接件传递数据流,其特征在于:
(1)对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件提取人名和地名;
(2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由词性标注构件进行词性标注;
(3)由组织机构名识别构件进行组织机构名的识别,由最长名词短语识别构件进行最长名词短语的识别。
其中,所述任务层构件由多个算法层构件组成,不同的任务层构件可以重用同一个算法层构件。
在所述多语种自动识别构件包含四个算法层构件,其中首先使用n元语言建模构件在多语种训练语料的基础上,使用期望最大化算法构件进行模型训练;获得了多语言的n元语言模型,然后使用训练好的语言模型,用解码构件对评测语料进行解码,用n-gram评测构件对评测语料进行评测。
所述语种独立的分词构件包含六个算法层构件,其中在n元语言建模构件的基础上使用期望最大化算法构件和互信息修剪算法构件,用迭代的方法,得到n-multigram语言模型;在语言模型的参数基础之上,使用具有主动学习功能的Active Viterbi构件,对评测语料进行解码,最后通过分词评测构件对分词结果进行评测。
所述n-multigram语言模型中,将语言看作是无记忆的信源在状态i发射一个长度为l的变长词序列,在确定最大长度后,在这一最大长度内作可变长度处理,所有的转移概率是相等的,从所有可能的情况中找出子列概率乘积最大的,也就是最大似然结果。
所述词性标注构件由两个独立的算法层构件简单组合而成,其中一个算法层构件基于经典的隐马尔科夫模型,在普通的标注语料库上完成训练;另一个算法层构件用于调用第三方的词法分析接口完成词性标注。
所述人名地名识别构件包含七个算法层构件,其中首先基于标注语料采用L-BFGS构件和GIS构件进行模型的训练,获得了基于最大熵的语言模型构件的参数;在语言模型的参数基础上,使用Viterbi算法层构件进行解码,然后基于评测语料使用命名实体评测构件进行结果的评测。
所述组织机构名识别构件包含七个算法层构件,其中首先由L-BFGS构件和GIS构件基于标注语料、基于加权置信度的主动学习构件使用未标注语料共同进行模型的训练,模型训练的结果得到最大熵的组织机构名语言模型构件;然后用树-栅格最优N解码算法构件对评测语料进行解码,使用组织机构名识别构件进行识别效果的评测。
所述最长名词短语识别构件包含四个算法层构件,首先在标注语料的基础上,采用L-BFGS构件进行模型的训练,获得了基于条件域最长短语语言模型构件的参数;在训练获得的模型的参数基础上,使用受限的前向-后向解码算法层构件进行解码,然后使用最长短语评测构件在评测语料的基础上进行结果的评测。
本发明通过设计和实现一个采用层次管道过滤器体系结构的多语言信息抽取方法,提供了信息抽取系统的实用基础框架,成功解决了多个相互交叉重叠的算法的重用和泛化问题,改进了软件的可重用、可维护和可扩展性能,提高了信息抽取应用系统研发效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1是一个用来表示管道过滤器风格体系结构的流程示意图;
图2是一个示例图,用来表示描述体系结构所用的UML模型中的元素。
图3是一个UML图,用来表示MuLIE体系结构的任务层拓扑结构图。
图4是一个UML图,用来表示多语种自动识别构件MuLid的结构图。
图5是一个UML图,用来表示语种独立的分词构件MuSeg的结构图。
图6是一个UML图,用来表示基于最大熵模型的人名地名识别构件CCNERec的结构图。
图7是一个UML图,用来表示基于最大熵模型的组织机构名识别构件CNERec的结构图。
图8是一个UML图,用来表示基于条件随机域的最长名词短语识别构件xMNP的结构图。
图9是一个UML图,用来表示Corpus构件及其派生构件的类图。
具体实施方式
当前,在基于构件和体系结构的软件开发方法下,软件开发转化成了“构件开发+基于体系结构的构件组装”的过程。这是因为在一些特定的领域中,不同系统及同一系统的不同版本间在体系结构上存在着相似性,甚至有许多共同的构件,这非常有利于软件复用。
为了适应软件开发领域的上述变化,本发明所提供的多语言信息抽取方法采用了如图1所示的基于管道过滤器风格的体系结构。在该体系结构中,将要处理的工作封装成过滤器(即构件),多个过滤器之间通过管道建立信息交互关系。但是,虽然管道过滤器风格很适合于自然语言处理(NLP)领域的软件体系结构设计,但是,本发明所面向的多语言信息抽取任务有其自身的特色。最根本的一点在于本多语言信息抽取方法主要基于统计和机器学习算法,因此每个处理环节往往涉及多个算法和多个统计模型;而从全局的角度看,它们又应当被视为处在同一个过滤器(构件)中。如果简单地使用管道过滤器风格进行体系结构设计,会带来很多不便。为此,本发明采用同质复合的方法,提出了一种分层的管道过滤器体系结构风格,在任务层和算法层同时进行体系结构设计。这样,通过引入层次机制,既有利于保证算法和模型的可重用性,又降低了整体结构的复杂度。对于更为复杂的应用任务,这种机制可以进一步扩展,引入第三层管道过滤器。对于这种新型的体系结构,本发明人将之命名为层次管道过滤器风格(hierachical pipe and filter style)的体系结构。下面对此展开具体的说明。
为了便于说明,在本发明中采用面向通用目的的建模符号表示法:UML。UML表示法的图例如图2所示,具体元素包括:
·构件(图2a):构件图(Component Diagram)显示软件构件之间的依赖关系。
·接口(图2b):接口是对构件进行规格说明的操作的集合。
·包(图2c):包(Package)将许多元素集合成一个更高层次的单位,形成一个高内聚、低耦合的元素的分组集合。任何模型元素都运用包的机制。
·关系(图2d):模型元素之间通过依赖(dependencies)、关联(associations)、泛化(generalizations)和实现(realizations)联系起来。其中,图2d-(1)表示依赖符号,图2d-(2)表示关联符号,图2d-(3)表示泛化符号,图2d-(4)表示实现符号。
在上述说明的基础上,下面介绍用于实现本发明所述的基于层次管道过滤器风格的多语言信息抽取方法的体系结构(简称为MuLIE)的具体内容。
MuLIE体系结构采用分层的层次管道过滤器风格,过滤器(即构件)包括任务层和算法层两类。下面分别对其进行详细的说明。
(一)任务层构件
任务层构件的设计重点是可重用构件的提取,以及构件间接口的定义。每个构件又都包括独立的训练、解码和测评等算法层构件。构件间拓扑结构如图3所示,包括如下构件(过滤器):
·多语种自动识别构件MuLid;
·基于有限状态机的简单命名实体识别构件F SANER;
·语种独立的分词构件MuSeg;
·词性标注构件POSer;
·基于最大熵模型的人名地名识别构件CNERec;
·基于最大熵模型的组织机构名识别构件WNERec;
·基于条件随机域的最长名词短语识别构件xMNP。
在基于层次管道过滤器风格的多语言信息抽取的体系结构(MuLIE)的任务层中,首先使用多语种自动识别构件MuLid对待处理语言的语种进行判别,然后使用简单命名实体识别构件FSANER识别简单的时间、日期、百分比、金额等四种简单命名实体,使用人名地名识别构件CNERec提取人名和地名;在此基础上,使用语种独立的分词构件MuSeg进行分词,使用词性标注构件POSer进行词性标注,最后应用组织机构名识别构件WNERec进行组织机构名的识别,以及使用最长名词短语识别构件xMNP进行最长名词短语的识别。在这个框架基础之上,可以开发基于信息抽取的具体应用系统。下面详细介绍各个构件的实施细节。
(1)多语种自动识别构件MuLid。识别不同的语种(以及同一语种的不同编码规范)是多语种信息抽取必备的预处理环节。该构件采用统计学习方法,并改进语言模型的参数估计手段以提高双字节编码语种的识别效果。
多语种自动识别构件MuLid的具体结构如图4所示,它包含四个基本算法层构件。首先使用n元语言建模构件(n-gram建模构件)在多语种训练语料的基础上,使用EM(期望最大化)算法进行模型训练;获得了多语言的n元语言模型(n-gram语言模型构件),然后使用训练好的语言模型,用n-gram解码构件对评测语料进行解码,并用n-gram评测构件对评测语料进行评测。
多语种自动识别构件MuLid中采用EM算法进行语言模型训练。EM算法可以从非完整数据集中对参数进行最大似然估计,是参数估计和无督导机器学习中的重要方法,被广泛应用于处理缺损数据,截尾数据等所谓的不完全数据。EM算法也可被直观地理解为一个逐次逼近算法:在事先并不知道模型参数的情况下,随机的选择一套参数或者事先粗略地给定某个初始参数λ0,确定出对应于这组参数的最可能的状态,计算每个训练样本的可能结果的概率,在当前的状态下再由样本对参数修正,重新估计参数λ,并在新的参数下重新确定模型的状态。通过多次的迭代,直至某个收敛条件满足为止,就可以使得模型的参数逐渐逼近真实参数。
(2)基于有限状态机的简单命名实体识别构件FSANER。FSANER主要采用状态转换的方法处理文本中较为规则的时间、日期、百分比、金额等四种简单命名实体。由于以上四种类型的命名实体的特征明确,结构相对简单,使用有限状态机就能获得很好的识别效果。
(3)语种独立的分词构件MuSeg。分词是识别中文命名实体时必须考虑的重要基础问题,也是中文相关的机器翻译、信息检索、汉字识别、语音识别与合成等各种自然语言应用的基础,长期以来一直受到广泛关注。在日文和泰文的命名实体识别和词法分析中也需要解决分词问题。
分词构件MuSeg以无督导机器学习为主体框架,结合主动学习技术解决人工知识的引入问题,在利用大量未标注数据的同时,有效利用少量人工标注信息,从而有效的引入指导信息,提高机器学习的准确性和可靠性。
如图5所示,语种独立的分词构件MuSeg包含了六个基本的算法层构件。在n-gram建模构件的基础上,使用EM训练算法构件和基于互信息修剪算法构件,用迭代的方法,得到n-multigram语言模型(n-multigram语言模型构件);在语言模型的参数基础之上,使用具有主动学习功能的Active Viterbi构件,对评测语料进行解码,最后通过分词评测构件对分词结果进行评测。
该任务层构件采用了n-multigram语言模型。传统的n-gram语言模型只反映连续n个节点间的相关信息。如果把它用于分词,一旦n的长度确定下来,就只能进行长度为n的分词处理。但中文词汇的长度变化不定,从只包含1个字的词到含有7个字的词都有可能出现。n-multigram语言模型和n-gram语言模型不同,语言被看作是无记忆的信源在状态i发射一个长度为1的变长词序列,而不是定长的bi-gram或tri-gram。在确定最大长度后,它在这一最大长度内作可变长度处理,所有的转移概率是相等的,从所有可能的情况中找出子列概率乘积最大的,也就是最大似然结果。相对于n-gram语言模型,n-multigram语言模型的假设更为独立,在分词中应用更为合理。
分词构件MuSeg在Viterbi算法的基础上设计了具有主动学习能力的Active-Viterbi算法。Active-Viterbi算法结合了基于置信度的主动学习策略,其基本思想是,如果能够对所得分词结果的正确性给出置信度估计,那么结果中置信度最低的部分也就是当前分词能力最弱的部分,只要有针对性地对这部分少量内容用人工介入的方式调整分词语言模型,就可以在人工改善语言模型的同时,尽量把这种干预控制在最低水平。
(4)词性标注构件POSer。该构件作为一个任务层构件,由两个独立的算法层构件简单组合而成,其中一个构件基于经典的隐马尔科夫模型,可以在普通的标注语料库上完成训练;另一个是可以调用第三方的词法分析接口完成词性标注。
(5)基于最大熵模型的人名地名识别构件CNERec。命名实体识别是信息抽取的核心研究内容之一。命名实体识别技术,包括人名、地名和组织机构名的识别。对中文而言,由于专有名称没有任何形态标记,而且与分词问题紧密相关,难度远大于英文等西方语言。本构件采用基于最大熵框架的机器学习方法研究命名实体识别,并在人名识别的问题上从语义偏旁入手进行更为深入的探索。
如图6所示,基于最大熵模型的人名地名识别构件CNERec包含七个算法层构件。基于标注语料,采用L-BFGS构件和GIS构件进行模型的训练,获得了基于最大熵的语言模型构件的参数;在语言模型的参数基础上,使用Viterbi算法层构件进行解码,然后基于评测语料使用命名实体评测构件进行结果的评测。
该人名地名识别构件采用了基于最大熵模型的命名实体识别。最大熵模型的主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个;而熵的定义实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量随机性最大,对其行为做准确预测最困难。从这个意义上讲,最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以做出的唯一不偏不倚的选择,任何其它的选择都意味着增加了额外的约束和假设,这些约束和假设根据我们掌握的信息无法做出。在最大熵框架中,可根据具体任务,以特征函数的形式把各种知识引入到统计模型中。经过训练,能够给出这些知识的相对权重,即决定如何利用这些知识。更为重要的是,无需更改原有系统就可增加新的领域知识。这是最大熵模型的重要优点,也是本构件选用最大熵模型研究语义偏旁的作用的主要原因。
(6)基于最大熵模型的组织机构名识别构件WNERec。组织机构名识别是命名实体识别任务中最困难的一部分,这类实体数目庞大,变化复杂。本构件采用主动学习策略克服这一困难,并在最大熵模型的解码算法方面做出改进。该构件的具体结构如图7所示。
组织机构名识别构件WNERec包含七个算法层构件。首先,L-BFGS构件和GIS构件基于标注语料、基于加权置信度的主动学习构件使用未标注语料共同进行模型的训练,模型训练的结果得到最大熵的组织机构名语言模型构件;然后用树-栅格最优N解码算法构件对评测语料进行解码,使用组织机构名识别构件进行识别效果的评测。
组织机构名识别是命名实体识别过程中的最困难的问题。为了提高识别的效率和准确率,兼顾难度和效率,本发明对命名实体的识别做了特定的安排。中文命名实体识别过程划分为四个阶段:第一步在字层次上进行,用有限状态转换的方法表达语言学规则,识别文本中的时间、日期、金额、百分比等命名实体,识别结果以词的形式带入后继处理;第二步也在字的层次上进行,采用基于字层次的最大熵统计语言模型识别人名、地名,识别结果以词的形式带入后继处理;第三步本身不识别命名实体,由基于n-multigram语言模型的分词和基于HMM的词性标注两部分构成;第四步在词层次上进行,采用基于词层次的最大熵统计语言模型识别组织机构名,并以短语的形式标注出识别结果。
(7)基于条件随机域的最长名词短语识别构件xMNP。名词短语的识别对于信息抽取有着重要意义。其中,最长名词短语具有更为广泛的应用价值,也是难度最大的一个问题。本发明引入基于条件随机域模型的统计学习方法,并通过对解码算法的改进提高其实用性。
如图8所示,基于条件随机域的最长名词短语识别构件xMNP包含四个算法层构件。xMNP首先在标注语料的基础上,采用L-BFGS构件进行模型的训练,获得了基于条件域(CRF)最长短语语言模型构件的参数;在训练获得的模型的参数基础上,使用受限的前向-后向解码算法层构件进行解码,然后使用最长短语评测构件在评测语料的基础上进行结果的评测。
该构件是基于条件随机域(CRF,Conditional Random Fields)语言模型来实现最长短语识别的。条件随机域模型(CRF)是一种无向图模型,对于指定的节点输入值,它能够计算指定的节点输出值上的条件概率,其训练目标是使得条件概率最大化。线性链是CRF中常见的特定图结构之一,它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应,可用于解决序列数据的标注问题。
该构件之所以选择条件随机域作为xMNP识别的统计模型,是因为最大熵Markov模型和条件随机域等条件模型(Conditional Models)能够综合利用字、词、词性等多层次的资源,同时,对于长程关联(long distancedependency)有很好的描述能力。这些特点对于xMNP识别这样侧重较长范围内的处理的任务相当重要,同时也是HMM等生成模型(GenerativeModels)所不具备的。但是,由于最大熵Markov模型中存在着标注偏置,所以选择了能避免该问题的CRF模型。
(二)算法层构件
算法层构件包括前面在任务层构件的描述中所涉及的组成构件。算法层构件是MuLIE体系结构中功能的具体实施与体现者,是整个体系结构的基础组成部分,由算法层构件来组成任务层构件,进而去实现软件系统的预期功能。
算法层构件的重用与泛化是MuLIE体系结构的重要特点。如n-gram建模构件在多语种自动识别构件MuLid和语种独立的分词构件MuSeg间重用,L-BFGS构件和GIS构件在人名地名识别构件CNERec和组织机构名识别构件WNERec间重用。这些构件的重用是二进制代码级的,即不需要使用源程序,直接调用可执行文件或动态链接库文件。泛化是指有些构件不能简单地重用,而是把公共部分提取出来,形成一个基础构件,其他构件由它派生而来。泛化是基于源代码级的,即基于类的派生。例如在各个任务层构件外部提供语料库访问的几个构件,都从最基础的CCorpusAccess构件泛化而来。这些构件的泛化也可以看作是源代码级的构件重用:基础构件的物理形式是一个C++实现的基类,其他泛化的构件从这个基类派生而来。图9以Corpus构件及其派生构件为例明确的描述了这种机制,其中的每一个类对应一个相关构件。
利用上述的重用与泛化机制,面向不同任务的算法构件之间既相互独立,又紧密关联。在前面完成的任务层构件形式的详细的领域分析和设计的基础上,通过重用与泛化机制,把不同任务层构件中的相同或类似的模型、算法、处理过程、语言资源,联系在一起,统一考虑。
利用上述采用层次管道过滤器体系结构的多语言信息抽取方法,软件设计可以独立于任何具体语言。该具体语言可以包括不同种类型的语言或同一种语言的不同编码。所有处理环节均可采用与特定语言无关的自然语言处理技术,而且能够根据语言模型对具体语言做出自动的识别。
上面对本发明所述的多语言信息抽取方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明的权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (10)

1.一种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连接件传递数据流,其特征在于:
(1)对于待处理的语言材料,首先由所述多语种自动识别构件进行判别,然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由所述人名地名识别构件提取人名和地名;
(2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由所述词性标注构件进行词性标注;
(3)由所述组织机构名识别构件进行组织机构名的识别,由所述最长名词短语识别构件进行最长名词短语的识别。
2.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述任务层构件由多个算法层构件组成,不同的任务层构件重用同一个算法层构件。
3.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
不同的算法层构件的公共部分提取出来形成一个基础构件,由所述基础构件派生其它的算法层构件。
4.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
在所述多语种自动识别构件包含四个算法层构件,其中首先使用n元语言建模构件在多语种训练语料的基础上,使用期望最大化算法构件进行模型训练,获得多语言的n元语言模型,然后使用训练好的语言模型,用解码构件对评测语料进行解码,用n-gram评测构件对评测语料进行评测。
5.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述语种独立的分词构件包含六个算法层构件,其中在n元语言建模构件的基础上使用期望最大化算法构件和互信息修剪算法构件,用迭代的方法,得到n-multigram语言模型;在n-multigram语言模型的参数基础之上,使用具有主动学习功能的Active Viterbi构件,对评测语料进行解码,最后通过分词评测构件对分词结果进行评测。
6.如权利要求5所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述n-multigram语言模型中,将语言看作是无记忆的信源在状态i发射一个长度为1的变长词序列,在确定最大长度后,在这一最大长度内作可变长度处理,假定所有的转移概率是相等的,从所有可能的情况中找出子列概率乘积最大的,即最大似然结果。
7.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述词性标注构件由两个独立的算法层构件组合而成,其中一个算法层构件基于经典的隐马尔科夫模型,在普通的标注语料库上完成训练;另一个算法层构件用于调用第三方的词法分析接口完成词性标注。
8.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述人名地名识别构件包含七个算法层构件,首先基于标注语料采用L-BFGS构件和GIS构件进行模型的训练,获得了基于最大熵的语言模型构件的参数;在语言模型的参数基础上,使用Viterbi算法层构件进行解码,然后基于评测语料使用命名实体评测构件进行结果的评测。
9.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述组织机构名识别构件包含七个算法层构件,首先由L-BFGS构件和GIS构件基于标注语料、基于加权置信度的主动学习构件使用未标注语料共同进行模型的训练,模型训练的结果得到最大熵的组织机构名语言模型构件;然后用树-栅格最优N解码算法构件对评测语料进行解码,使用组织机构名识别构件进行识别效果的评测。
10.如权利要求1~3中任意一个所述的采用层次管道过滤器体系结构的多语言信息抽取方法,其特征在于:
所述最长名词短语识别构件包含四个算法层构件,首先在标注语料的基础上,采用L-BFGS构件进行模型的训练,获得了基于条件域最长短语语言模型构件的参数;在训练获得的模型的参数基础上,使用受限的前向-后向解码算法层构件进行解码,然后使用最长短语评测构件在评测语料的基础上进行结果的评测。
CN 200810239836 2008-12-19 2008-12-19 一种采用层次管道过滤器体系结构的多语言信息抽取方法 Active CN101751385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810239836 CN101751385B (zh) 2008-12-19 2008-12-19 一种采用层次管道过滤器体系结构的多语言信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810239836 CN101751385B (zh) 2008-12-19 2008-12-19 一种采用层次管道过滤器体系结构的多语言信息抽取方法

Publications (2)

Publication Number Publication Date
CN101751385A true CN101751385A (zh) 2010-06-23
CN101751385B CN101751385B (zh) 2013-02-06

Family

ID=42478378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810239836 Active CN101751385B (zh) 2008-12-19 2008-12-19 一种采用层次管道过滤器体系结构的多语言信息抽取方法

Country Status (1)

Country Link
CN (1) CN101751385B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885932A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 基于统计模型的电力系统哈萨克语专用名词提取方法
CN104050156A (zh) * 2013-03-15 2014-09-17 富士通株式会社 用于提取最大名词短语的装置、方法以及电子设备
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105095185A (zh) * 2015-07-21 2015-11-25 北京旷视科技有限公司 一种作者分析方法和作者分析系统
CN106021225A (zh) * 2016-05-12 2016-10-12 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN107562421A (zh) * 2017-09-28 2018-01-09 北京神州泰岳软件股份有限公司 一种自然语言处理方法及处理平台
CN107784478A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 行政机构信息的处理方法和装置
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN110209993A (zh) * 2019-06-17 2019-09-06 中国电子科技集团公司信息科学研究院 一种探测目标的信息抽取方法及系统
CN110399065A (zh) * 2019-07-23 2019-11-01 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570921A (zh) * 2003-07-22 2005-01-26 中国科学院自动化研究所 基于统计模型的口语解析方法
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885932A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 基于统计模型的电力系统哈萨克语专用名词提取方法
CN104050156A (zh) * 2013-03-15 2014-09-17 富士通株式会社 用于提取最大名词短语的装置、方法以及电子设备
CN104050156B (zh) * 2013-03-15 2017-03-01 富士通株式会社 用于提取最大名词短语的装置、方法以及电子设备
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105095185A (zh) * 2015-07-21 2015-11-25 北京旷视科技有限公司 一种作者分析方法和作者分析系统
CN106021225A (zh) * 2016-05-12 2016-10-12 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN106021225B (zh) * 2016-05-12 2018-12-21 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN107784478B (zh) * 2016-08-31 2020-09-15 北京国双科技有限公司 行政机构信息的处理方法和装置
CN107784478A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 行政机构信息的处理方法和装置
CN107562421A (zh) * 2017-09-28 2018-01-09 北京神州泰岳软件股份有限公司 一种自然语言处理方法及处理平台
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109388404B (zh) * 2018-10-10 2022-10-18 北京如布科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN110209993A (zh) * 2019-06-17 2019-09-06 中国电子科技集团公司信息科学研究院 一种探测目标的信息抽取方法及系统
CN110209993B (zh) * 2019-06-17 2023-05-05 中国电子科技集团公司信息科学研究院 一种探测目标的信息抽取方法及系统
CN110399065A (zh) * 2019-07-23 2019-11-01 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN101751385B (zh) 2013-02-06

Similar Documents

Publication Publication Date Title
CN101751385B (zh) 一种采用层次管道过滤器体系结构的多语言信息抽取方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112215013B (zh) 一种基于深度学习的克隆代码语义检测方法
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111914091A (zh) 一种基于强化学习的实体和关系联合抽取方法
CN109840322A (zh) 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN113761893B (zh) 一种基于模式预训练的关系抽取方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CA3135717A1 (en) System and method for transferable natural language interface
CN110162297A (zh) 一种源代码段自然语言描述自动生成方法及系统
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN112394973A (zh) 一种基于伪孪生网络的多语言代码剽窃检测方法
CN115329088A (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
Hu et al. Deep-autocoder: Learning to complete code precisely with induced code tokens
Kumar et al. Deep learning driven natural languages text to sql query conversion: A survey
CN117313850A (zh) 一种信息抽取及知识图谱构建系统及方法
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
Kupiec A Trellis-Based Algorithm For Estimating The Parameters Of Hidden Stochastic Context-Free Grammar
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN116483314A (zh) 一种自动化智能活动图生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant