CN105930509A

CN105930509A - 基于统计与模板匹配的领域概念自动抽取精化方法及系统

Info

Publication number: CN105930509A
Application number: CN201610307269.3A
Authority: CN
Inventors: 吕钊; 谢雨飞
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2016-09-07
Anticipated expiration: 2036-05-11
Also published as: CN105930509B

Abstract

本发明公开了一种基于统计与模板匹配的领域概念自动抽取与精化方法，该方法包括：对领域文档中的内容进行分类；针对分类的标题和摘要，通过匹配得到符合“是一个”模式的匹配内容；对匹配内容进行预处理，并提取文档内容中的术语抽取规则和术语词性构成规则；根据术语抽取规则，抽取匹配内容中的知识点，并根据术语词性构成规则对知识点进行初步过滤，加入领域知识点；计算领域知识点中各知识点的词频以及术语领域相关程度，并根据词频和相关程度进行二次过滤，输出结果。本发明在保证一定准确率的前提下最大程度的实现了此过程的自动化，很大程度上提高了知识点抽取的效率，能最大限度的节约人力成本。本发明公开了领域概念自动抽取与精化系统。

Description

基于统计与模板匹配的领域概念自动抽取精化方法及系统

技术领域

本发明涉及信息自动抽取领域，尤其涉及一种基于统计与模板匹配的领域概念自动抽取精化方法及系统。

背景技术

随着互联网技术的发展，网络上数据呈现出数据量大，数据来源丰富和数据形式多样的特点，信息技术的发展面临着巨大挑战，如信息的表示，知识的抽取与共享、软件的复用等。对数字信息的强烈需求使得人们对互联网产品服务质量要求越来越高，如何将网络上的海量数据有效地表示、管理、维护和复用并且互联网企业提供底层方法和技术支持已经成为科研领域广泛关注的问题。知识作为一种共享的概念化模型，它提供了计算机对信息结构的理解，是计算机之间相互交流的语义基础。

领域知识点的抽取是指把蕴含于领域信息源中的知识经过识别、理解、筛选、归纳等过程抽出来，存储形成知识元库。目前研究较多的是自然语言文本，已经出现了一些工具或系统，知识抽取已经成为自然语言处理领域的一个重要的研究分支。目前的知识抽取还是以手工或由机器辅助的手工获取为主。例如，在获取领域专家的经验时，就要求知识工程师与专家进行直接交流，深入讨论，甚至参与到领域专家现场解决问题的过程当中，这种交流讨论可能需要很长时间，直到知识工程师认为他领会了专家的经验，然后再由他对这些经验进行数学分析，建立数学模型，以适当的知识表示形式表示出来，送入计算机。除从领域专家处获取知识外，一个成功的专家系统，还应该具备从实践中学习、总结知识的能力。即，还可通过专家系统本身的运行实践，从已有知识或实例中演绎、归纳出新知识，进而实现对知识库的自我更新和完善。当然，这要求专家系统自身具有一定的“学习”能力，也就是说，必须要对机器学习的相关理论和技术进行更加深入的研究。

发明内容

本发明的目的在于克服知识抽取中以手工或由机器辅助的手工获取的不足，提出了一种基于统计与模板匹配的领域概念自动抽取与精化方法，包括以下具体步骤：

数据分类步骤：对领域文档中的内容进行分类，分类结果包括：关键词、标题和摘要；将关键词加入领域知识点中；

模式匹配步骤：针对标题和摘要，通过匹配得到符合“是一个”模式的匹配内容；

规则提取步骤：对所述匹配内容进行预处理，并提取所述文档内容中的术语抽取规则和术语词性构成规则；

知识点抽取步骤：根据所述术语抽取规则，抽取所述匹配内容中的知识点，并根据所述术语词性构成规则对所述知识点进行初步过滤，加入所述领域知识点；

相关度获取步骤：计算所述领域知识点中各知识点的词频以及术语领域相关程度，并根据词频和相关程度进行二次过滤，输出结果。

本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中，所述“是一个”模式具体形式如下：

Defineconstant

{

(量词)＝{种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔|}

(前缀搭配)！＝{不，近似，貌似，好像，曾经，也许，不再，几乎就，并不，可以算，将不再，看起来，传说中，以前}

}

Define Pattern

{模式构成：<*C1><*！前缀搭配><是>一<！量词><*C2>}

其中，“！”表示定义一个常量，“*”表示定义中可以出现任意次数，“|”表示或关系，“<*C1>”、“<*C2>”为任意字符串。

本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中，对所述匹配内容进行预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析。

本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中，术语抽取规则是通过句法分析得到的，具体规则为通过句法分析抽取出名词短语节点，并且判断名词短语节点的长度，如果长度小于等于4则递归向上抽取上一层的名词短语节点。

本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中，计算所述领域知识点中各知识点的词频时，进一步计算每个知识点的长度，并且利用最大期望算法经过训练学习出对应长度知识点的词频阈值；通过设定阈值，删除词频小于阈值的知识点。

本发明提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中，采用DomainPertinence与DomainConsensus衡量术语领域相关程度；

DomainPertinence以公式(1)表示：

{DP}_{D_{i}} (t) = \frac{f r e q (t / D_{i})}{\max_{j} (f r e q (t / D_{j})}; - - - (1)

其中freq(t/D_i)表示在领域i的文档中出现的频次，freq(t/D_j)表示在其他背景领域j的文档中出现的频次；

DomainConsensus以公式(2)表示：

{DC}_{D_{i}} (t) = - \underset{d_{k} &Element; D_{i}}{Σ} n_f r e q (t, d_{k}) \cdot l o g (n_f r e q (t, d_{k})); - - - (2)

其中n_freq(t,d_k)为知识点t在文档d_k中出现的频次的规范化值。

本发明还提出了一种面向领域的中文概念自动抽取与精化系统，其利用所述自动抽取与精化方法，包括：

数据分类模块，用于对领域文档中的内容进行分类；

模式匹配模块,其与所述数据分类模块连接，用于通过匹配得到符合“是一个”模式的匹配内容；

规则提取模块，其与所述模式匹配模块连接，用于对所述匹配内容进行预处理，并提取所述文档内容中的术语抽取规则和术语词性构成规则；

知识点抽取模块，其与所述规则提取模块连接，用于根据所述术语抽取规则，抽取所述匹配内容中的知识点，并根据所述术语词性构成规则对所述知识点进行初步过滤，加入所述领域知识点；

相关度获取模块，其与所述知识点抽取模块连接，用于计算所述领域知识点中各知识点的词频以及术语领域相关程度，并根据词频和相关程度进行二次过滤，输出结果。

与现有的基于手工或者由机器辅助的手工获取知识点相比，本发明在保证一定准确率的前提下最大程度的实现了此过程的自动化，提高了知识点抽取的效率，能最大限度的节约人力成本。与传统的基于统计特征的知识点抽取方法相比，本发明先对句子采用“是一个”模型匹配，然后利用依存句法树构造术语抽取规则，进行知识点的抽取，接着利用术语构词规则、术语词频规则、术语领域相关度对原始的知识点进行二次过滤，提高了知识点抽取的准确率。

附图说明

图1为本发明所述方法的流程图；

图2为本发明所置系统的示意图；

图3为权重值与概念抽取准确率的相关曲线。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提供一种基于“是一个”模式匹配以及领域术语构词规则的知识点自动抽取方法，实现针对中文领域概念的自动抽取与精化系统，方法包括以下具体步骤：

步骤一：针对领域文档中的原始文本数据判定其是否满足“是一个”模式；具体为：对领域文档中的内容进行分类，将其中的关键词作为已经经过初步过滤的知识点保存，等待步骤四的二次过滤；针对领域文档中的标题和摘要，判断其是否符合“是一个”模式，如果符合则对其进行保留，如果不符合，直接删除；

步骤二：针对符合“是一个”模式的领域文本进行预处理，总结归纳术语抽取规则及术语

词性构成规则；具体包括：

ⅰ)对匹配“是一个”模式成功的句子进行分词，词性标注，依存句法树分析；

ⅱ)基于监督学习的方法，如查阅《现代汉语词典》，结合依存句法树分析结果构建术语抽取规则；

iii)基于统计与非监督学习的方法，如查阅《现代汉语规范词典》和《实用现代汉语语法》，结合词性标注的结果构建术语词性构成规则；

步骤三：根据术语抽取规则对经过预处理的领域文档进行知识点抽取，并进行初步过滤；具体为：

ⅰ)基于步骤二的ⅱ)术语抽取规则对已经经过预处理的领域文档中的标题和摘要部分进行知识点抽取；

ⅱ)基于步骤二的iii)术语词性构成规则对ⅰ)中抽取出的知识点进行初步的过滤。

步骤四：计算步骤一中保存的文档关键词以及步骤三ii)初步过滤后的知识点的词频以及术语领域相关度，进行二次过滤；具体为：

ⅰ)计算每个知识点的长度，以及在领域文档中出现的次数，进一步计算每个知识点的长度，并且利用最大期望(EM)算法经过训练学习出对应长度知识点的词频阈值，过滤掉所有词频小于阈值的知识点；

ⅱ)根据背景文档计算出术语的领域相关度，并且利用最大期望(EM)算法经过训练学习出领域相关度的阈值，过滤掉所有领域相关度大小小于阈值的知识点。

参阅图1，本发明包括“是一个”模式匹配、术语抽取规则及构词规则总结、知识点抽取与初步过滤、知识点二次过滤四步骤；本申请所述方法研究3个方面：知识点可能存在的句子的句式总结，术语抽取规则及构词规则总结，知识点的过滤。

图1中的领域文档为知识点的最初数据来源，该领域文档为万方数据库提供的对应领域的相关论文，包括论文标题，摘要，关键词列表，以及论文作者的相关信息。在知识点抽取过程中需要用到标题，摘要以及关键词列表。

图1中的判断是否符合“是一个”模式，主要是针对单个的句子，判断其是否满足“是一个”模式，所谓“是一个”模式构成为<*C1><*！前缀搭配><是>一<！量词><*C2>，其中，“！”表示定义一个常量，“*”表示定义中可以出现任意次数，“|”表示或关系，“<*C1>”、“<*C2>”为任意字符串，(量词)＝{种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔……|}，(前缀搭配)！＝{不，近似，貌似，好像，曾经，也许，不再，几乎就，并不，可以算，将不再，看起来，传说中，以前}。

符合“是一个”模式的句子例如：集成电路是一种微型电子器件或部件。其中，<*C1>为字符串“集成电路”，<！量词>为种，<*C2>为字符串“微型电子器件或部件”。不符合“是一个”模式的句子例如：集成电路是20世纪50年代后期一60年代发展起来的一种新型半导体器件。

图1中的词的切分，词性标注，依存句法树分析主要利用Standford Parse工具实现，该工具是由StandfordNLPGroup开发的基于Java的开源NLP工具。在实际使用时，仅针对论文的标题和摘要进行分词，对分词过后的词再进行词性标注以及依存句法树分析。依存句法是由法国语言学家L.Tesniere最先提出的。它将句子分析成一棵依存句法树，描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。通过句法分析抽取出NP节点，并且判断名词短语(Noun Phrase)节点即NP节点的长度，如果长度小于等于4则递归向上抽取上一层的NP节点。

例如针对句子“深亚微米集成电路是近年来出现的一种新型可靠的技术”，经过Standford Parse分词之后的结果如下：深亚微米集成电路是近年来出现的一种新型可靠的技术。词性标注的结果如下：深亚微米/NN集成/JJ电路/NN是/VC近年/NT来/LC出现/VV的/DEC一/CD种/M新型/JJ可靠/VA的/DEC技术/NN。其中NN表示常用名词，JJ表示形容词或序数词，VC表示“是”，NT表示时间名词，LC表示方位词，VV表示动词，DEC表示“的”，CD表示基数词，M表示量词，VA表示形容词。依存句法树分析的结果如下：

Root表示要处理的文本的语句，NP表示名词短语，IP表示简单从句，ADJP表示形容词短语，JJ表示形容词或序数词，NN表示常用名词，VC表示“是”，CP表示由“的”构成的表示修饰性关系的短语，LCP表示方位词短语，QP表示量词短语，NT表示时间名词，VV表示动词，VA表示表语形容词。其中“深亚微米”是一个NP节点，若直接将其抽取出来作为知识点，则会出现知识点抽取残缺的情况，此时需要向上递归一个NP节点，则抽取出来的为“深亚微米集成电路”，这才是一个完整的知识点。

图1中的构建术语词性构成规则主要通过对大量的文本数据进行特征提取，利用统计学与非监督学习的方法对其进行训练与学习，最终输出对应的词性构成规则。具体的词性构成规则如下表1所示：

表1词性构成规则

其中，N代表名词，V代表动词，A代表形容词，M代表数词，B代表区别词。

图1中的知识点二次过滤主要利用了术语词频以及领域相关度进行的。

术语词频指的是术语在领域文档中一共出现的次数，对于词频较低的知识点，我们直接将其剔除，由于知识点的长度越长，对应的词频会相对较低，本发明假设词频分布满足泊松分布，并据此利用最大期望(EM)算法经过训练学习出对应长度的词频阈值。

对于已经抽取出来的知识点，采用DomainPertinence(DP)和DomainConsensus(DC)两个指标来衡量其领域相关程度。DomainPertinence(DP)即知识点属于某个领域，而不属于其他所有领域的程度，计算公式如下：

{DP}_{D_{i}} (t) = \frac{f r e q (t / D_{i})}{\max_{j} (f r e q (t / D_{j})}

其中freq(t/D_i)表示在领域i的文档中出现的频次，freq(t/D_j)表示在其他背景领域j的文档中出现的频次。DP值越高表示属于该领域的可能性越大。Domain Consensus(DC)即领域一致度，概念在特定领域的分布程度，对于领域相关度相同的语义串，在领域文本中分布越均匀的概念越有可能是领域的概念，计算公式如下：

{DC}_{D_{i}} (t) = - \underset{d_{k} &Element; D_{i}}{Σ} n_f r e q (t, d_{k}) \cdot l o g (n_f r e q (t, d_{k}))

最终的知识点的领域相关度是DP值与DC值的加权，具体公式如下：

v a l = α \times \frac{d p v a l}{\max D P} + (1 - α) \times \frac{d c v a l}{\max D C}

其中α为权值，dpval表示该知识点的DP值，maxDP表示所有知识点的DP最大值，dcval表示该知识点的DC值，maxDC表示所有知识点的DC最大值。知识点的领域相关度阈值设定方法与知识点词频阈值设置方法相同，即利用最大期望(EM)算法经过训练学习出领域相关度阈值，低于该值的知识点被过滤，高于该值的知识点保留。权重值与概念抽取准确率的相关曲线如图3所示，本实施例中，α取值为0.9。

参阅图2，本发明面向领域的中文概念自动抽取与精化系统，其利用所述自动抽取与精化方法，包括：

数据分类模块，用于对领域文档中的内容进行分类；

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，包括以下具体步骤：

2.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，所述“是一个”模式具体形式如下：

3.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，对所述匹配内容进行预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析。

4.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，术语抽取规则是通过句法分析得到的，具体规则为通过句法分析抽取出名词短语节点，并且判断名词短语节点的长度，如果长度小于等于4则递归向上抽取上一层的名词短语节点。

5.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，计算所述领域知识点中各知识点的词频时，进一步计算每个知识点的长度，并且利用最大期望算法经过训练学习出对应长度知识点的词频阈值；通过设定阈值，删除词频小于阈值的知识点。

6.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法，其特征在于，采用DomainPertinence与DomainConsensus衡量术语领域相关程度；

DomainPertinence以公式(1)表示：

{DP}_{D_{i}} (t) = \frac{f r e q (t / D_{i})}{\max_{j} (f r e q (t / D_{j})}; - - - (1)

DomainConsensus以公式(2)表示：

{DC}_{D_{i}} (t) = - \underset{d_{k} &Element; D_{i}}{Σ} n_f r e q (t, d_{k}) \cdot l o g (n_f r e q (t, d_{k})); - - - (2)

7.一种面向领域的中文概念自动抽取与精化系统，其利用如权利要求1-6之任一项所述的自动抽取与精化方法，其特征在于，包括：

数据分类模块，用于对领域文档中的内容进行分类；