CN111178045A

CN111178045A - 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质

Info

Publication number: CN111178045A
Application number: CN201910972823.3A
Authority: CN
Inventors: 荆继远; 姜春涛
Original assignee: Shenzhen Softcom Power Information Technology Co Ltd
Current assignee: Shenzhen Softcom Power Information Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-05-19

Abstract

基于知识的自然语言处理系统,在实际应用中所面临的主要问题在于:很难移植和纵向扩展到新的领域,其瓶颈在于前述系统依赖于特定领域的语义概念词典,而构建上述词典需要大量的基于人工的知识工程。有鉴于此,本发明，针对特定领域的中文文本，公开了一种基于领域的非监督式中文语义概念词典的自动构建方法，由内、外两层构成，用以同时自动构建中文语义概念词典和提取模式词典。所提出的算法不需要预先标注训练语料，而只需要少量基于语义概念类别的种子词，作为输入。由本算法所构建的中文领域概念词典对于诸如文本分类、文本摘要、信息检索、本体学习等智能文本应用起到重要的支撑作用，是不可或缺的一环。

Description

基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质

技术领域

本发明涉及信息提取、自然语言处理领域，尤其涉及一种基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质。

背景技术

目前，基于知识的自然语言处理系统，在实际应用中所面临的主要问题在于：很难移植和纵向扩展到新的领域，其瓶颈在于前述系统依赖于特定领域的语义概念词典，而构建上述词典需要大量的基于人工的知识工程。

在现有技术中，AutoSlog是一个词典构建系统，该系统通过启发式规则来自动创建提取模式集，这些提取模式，被用于从英文文本中自动获取触发提取模式的特定’概念’词语，这些概念词语即作为词典的条目。

作为输入，AutoSlog所需的文本语料需要预先对特定领域的名词短语进行标注，例如，在AutoSlog所选择的领域-恐怖活动领域，实施者、目标、受害者这类名词短语需要进行预标注。AutoSlog的工作流程如下：根据所标注的名词短语及源文本语料，AutoSlog首先找到包含该名词短语的句子，然后使用句法分析工具，来识别该分句的句法成分，即识别名词、动词、直接宾语、及介词短语等成分，最后应用启发式规则，识别出相应的概念。

AutoSlog的实现原理，需要有经过预先标注的训练语料集来支持，而从时间成本和难易程度考虑，生成经过标注的训练语料集，并不是一项容易的工作，AutoSlog以前的实验结果表明：一个用户大概需要一周时间，用以建立一个含有1000个文本的训练语料集。除了前述人力成本以外，AutoSlog还需要标注相关的名词短语，而什么成分构成相关名词短语？是否包括修饰词及哪些修饰词？这些都是需要仔细考虑的问题。对于标注工作而言，很难定义一个惯例，用以获取所要的信息，从而导致标注数据的不一致性。

为了规避AutoSlog的所具有的上述问题，文献提出了 AutoSlog-TS算法。该算法的实现并不需要任何文本标注工作，而只需要，基于特定的领域，对语料集中的文本预先分为‘相关’和‘不相关’两类。对于许多应用而言，相关文本很容易从网络在线获取。AutoSlog-TS的工作流程如下：首先，为训练语料中的每个名词短语，生成提取模式；然后，为第一阶段所生成的每个提取模式，计算其相关性，相关性值是由触发该提取模式的文本的相关性条件概率而定；最后，通过排序函数，为每个提取模式计算其对于特定领域的重要性。

术语是指在特定领域，用以表示概念的集合，术语提取，其实质即领域概念提取，而所提取的术语即可组成基于领域的语义概念词典。术语在机器翻译、问答系统、自动文摘、本体工程等多个自然语言处理应用领域起着巨大的作用。国内外研究将术语的提取方法划分为以下三类：

·基于语言学规则的方法：通过分析术语上下文特殊的语法结构，利用词法、句法分析工具来识别术语，这类方法具有提取精度高的优势，但需要深入了解语料库的专业知识及构词特点。

·基于统计学的方法：利用词频、词共现、互信息等技术来提取术语，这类方法具有较好的适应性和移植性，但提取精度较低。

·混合方法：即结合前述两种方法的优点，在术语提取过程中同时采用语言学规则和统计学方法。

现有的术语提取方法，通常具有以下不足之处：

·基于机器学习的术语提取方法，大多数情况下需要预先标注的训练语料，而由于不同领域的差异性，导致这类方法很难在不同领域之间移植。

·许多现有的术语提取方法是基于英文的，并不支持中文。因为中、英文之间的根本性差异，导致基于英文的术语提取方法很难扩展到中文应用。

·基于中文分词工具的术语提取方法具有内在的缺陷：

–分词工具所用的分词词典，并不能完全覆盖全部术语。

–分词单元的粒度太小，导致术语被分割为几个较小的语言片段。

由于信息和知识的幂指数增长，知识库本体的研究在很多领域被深入扩展。通常情况下，本体被用于对特定领域的的知识进行正式地概念化，其主要目的是为领域知识提供一个共享和共同的理解基础，从而促进用户和应用程序之间的交互。然而，本体构建是一项十分耗时、耗力的系统工程，为了促进本体构建，本体学习作为一项广泛的研究，用以从文本语料库中半自动或自动地构建本体。在本体学习中，所面临的一个关键的挑战在于：如何自动提取特定领域的关键概念，从而使得所提取的概念可以表达基于特定领域的语料库的关键信息。由此，关键概念提取，对于基于文本语料库的本体学习是一个重要步骤。如果所提取的关键概念是非相关的，那么所构建的知识库本体就无法正确表达领域知识，以至于不相关的概念可以导致生成不相关的语义关系和定理。

拔靴法(Bootstrapping)是一种迭代的方法，用以在从实例集合中获取的学习规则集和从规则集合中获取的实例集之间进行交替学习。使用拔靴法的信息提取系统，始于人工标记的种子实例集，然后，在从种子集中学习规则和进一步从规则集中获取种子之间交替进行学习，不断进行迭代，直到满足预设的条件为止。

综上所述，现有的领域概念词典构建方法，很难适用于中文应用。现有的主流领域概念提取方法，需要预先对文本语料进行标注，进行模型训练。现有的领域概念提取方法，不易于在不同领域之间进行移植和扩展，具有实施困难的问题。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质，其能解决如下技术问题：

现有的领域概念词典构建方法，很难适用于中文应用。

现有的主流领域概念提取方法，需要预先对文本语料进行标注，进行模型训练。

现有的领域概念提取方法，不易于在不同领域之间进行移植和扩展。

本发明的目的之一采用如下技术方案实现：

一种基于两层拔靴法学习的算法，用以同时自动构建语义概念词典和提取模式词典，包括以下两层：

内层拔靴法学习－利用单层拔靴法，如图1所示：包括如下步骤：

提取模式生成步骤：采用与典型信息提取方法(如AutoSlog)相似的思路，为文本语料中的每个名词短语，生成候选提取模式，从而形成候选提取模式集合。其中，每个候选提取模式，是一个具有足够概括能力，并且能提取其它相关名词短语的语法表达式。

应用提取模式步骤：应用上述候选提取模式于文本语料，获得相应的提取信息，并将所有的提取模式及提取信息存入EPA中。

提取模式评分步骤：因为语义概念词典中的概念条目是不断增长的，每一轮迭代中，所有的提取模式都要进行重新评分。对EPA中的所有的提取模式进行评分计算。

语义概念提取步骤：由评分高低，选取最佳提取模式，并应用最佳提取模式于文本语料，生成新的语义概念条目，存入Lexicon中。

循环步骤：转向提取模式评分步骤，进行迭代，直至满足约束条件。

外层拔靴法学习阶段－利用双层拔靴法，只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念，然后利用已扩展的语义概念词典，再重新开始内层拔靴法学习的迭代过程。如图2所示，包含以下步骤：

语义概念评分步骤：在内层拔靴法学习阶段中，每一轮所提取的新的语义概念，存入临时语义概念词典，对临时语义概念词典中的每个语义概念，根据语义概念的可靠性计算策略，进行评分计算。可靠性计算策略是基于一定的启发式计算而得到的：即由多个语义类别的提取模式所提取的同一个名词短语，要比只由单一语义类别的提取模式所提取的单个名词短语，更加可能从属于特定语义类别的概念。

语义概念提取步骤：由评分值的高低，选取临时语义概念词典中的分值排序最高的前K个语义概念，加入语义概念词典。

循环步骤：利用经过扩展的语义概念词典，作为种子初始化临时语义概念词典，重新进入内层拔靴法学习阶段，进行迭代。

进一步地，在所述内层拔靴法学习阶段，基于特定语义概念类别的提取模式可以生成新的实例，而新的实例则可反过来用于生成新的提取模式，这种交互工程不断进行迭代，直到满足约束条件退出为止。

进一步地，在所述内层拔靴法学习阶段，根据语义概念词典中最初的种子概念和刚添加的新概念，识别出下一轮最佳的提取模式，并应用前述提取模式去获取新的语义概念。

进一步地，在所述内层拔靴法学习阶段的提取模式评分步骤中，提取模式的评分计算采用启发式策略：即一个提取模式可以提取多少不同类别的语义概念。该策略对提取模式的通用性能力进行奖励，即一个模式如果能提取多种语义概念，其评分要高于只能提取1 或2种语义概念的模式。

进一步地，在所述内层拔靴法学习阶段的提取模式评分步骤中，提取模式的评分策略与提取模式的提取频率和相关性都有关，即

在提取模式的相关性和频率之间取得一定程度的平衡:当提取模式的相关性值很高,意味着该模式所提取的信息与选定的语义类别高度相关；而当该提取模式的频率值很高,则意味着该模式提取了大量的属于选定语义类别的概念。因而，当提取模式的相关性越高，提取频率越高时，评分就越高。

进一步地，在所述内层拔靴法学习阶段的提取模式评分步骤中，提取模式的评分计算利用‘头短语’匹配策略来替换精确匹配策略。头短语匹配即指：如果字符串A是字符串B的最右端的子字符串,则 A和B即认为是相匹配的。例如:“主持人”将匹配任何以“主持人 ”而结尾的短语，如“财经主持人”、“央视财经主持人”,但是并不匹配诸如“主持人名单”或“主持人大赛”之类的短语。头短语匹配策略有利于提高提取模式的通用能力,因为名词短语,通常会由任意数量的限定词前缀来修饰。

进一步地，在所述外层拔靴法学习阶段，对内层拔靴法学习阶段的结果进行过滤后，再进行迭代，即根据语义概念的评分计算策略，进行评分、排序。

进一步地，在所述外层拔靴法学习阶段的语义概念评分步骤中，每个语义概念的可靠性评分计算是由提取该语义概念的不同类别的提取模式的数目及前述提取模式的强度来共同决定的。

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于实现基于领域的非监督式中文语义概念词典构建方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器实现基于领域的非监督式中文语义概念词典构建方法。

本技术方案所提出的基于双层拔靴法学习的算法，其优势来自于经过每轮交互拔靴法的学习过程之后，重新对提取模式进行评价：即，经过第一轮的交互拔靴法的学习，新的语义概念被添加入语义概念词典中，然后，利用最初的种子概念词语和新加入的概念词语，交互拔靴法学习从头开始学习，这种反复迭代的过程产生一种类似滚雪球的迅速增大的效应。从实际应用角度来看，这种基于双层拔靴法学习的算法，使得更多具有通用性能力的提取模式，展示在最终结果的前列。与仅仅采用单层拔靴法学习的算法相比，本技术方案所提出的算法产生质量更高的中文语义概念词典。

相比现有技术，本发明的有益效果在于：

1、本申请提供了一种从大量非结构化的中文文本语料中，自动获取领域知识的方法。

2、本申请的实现是基于非监督方式的，也就意味着其不需要人工标注大量训练语料，用以构建机器学习模型。

3、本申请所提出的算法是一个适用通用领域的方法，并不受限于任何特定领域或应用，且为许多典型文本挖掘应用，如新词发现、事件提取、热点发现，提供了一种自我学习的信息提取能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明算法－双层拔靴法的工作流程图；

图2为单层拔靴法的算法pseudocode；

图3为基于依存关系的提取模式生成示例图；

图4为实施例中初始化种子词语图表；

图5为实施例中提取模式排序结果图表；

图6为基于3个语义类别的排名Top5的语义概念图表。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1-2，一种基于领域的非监督式中文语义概念词典的自动构建方法，采用基于两层拔靴法学习的算法，包括如下步骤：

内层拔靴法提取模式生成步骤：通过信息提取法从训练文本语料中生成候选提取模式，形成候选提取模式集；

内层拔靴法应用提取模式步骤：应用上述候选提取模式于文本语料，获得相应的提取信息，并将所有的提取模式及提取信息存入EPA 中；

内层拔靴法提取模式评分步骤：对EPA中的所有的提取模式进行评分计算；

内层拔靴法语义概念提取步骤：选取评分最高的提取模式，作为最佳，并应用最佳提取模式于文本语料，生成新的概念条目，存入临时语义概念词典中；

内层拔靴法循环步骤：转向内层拔靴法提取模式评分步骤，进行迭代，直至满足约束条件；

外层拔靴法语义概念评分步骤：对临时语义概念词典中的每个语义概念，进行可靠性评分计算；

外层拔靴法语义概念提取步骤：从临时语义概念词典中，选取评分值排序最高的前K个语义概念，加入语义概念词典。

外层拔靴法循环步骤：利用经过扩展的语义概念词典，作为种子词初始化临时语义概念词典，重新进入内层拔靴法学习，进行迭代，直至满足约束条件退出。

具体的，在所述内层拔靴法学习阶段，基于特定语义概念类别的提取模式可以生成新的实例，而新的实例则反过来可用于生成新的提取模式，这种交互过程不断进行迭代，直到满足约束条件退出为止。在所述内层拔靴法学习阶段，根据语义概念词典中最初的种子概念和刚添加的新概念，识别出下一轮最佳的提取模式，并应用前述提取模式去获取新的语义概念。在所述内层拔靴法学习阶段，提取模式的评分计算采用启发式策略：一个提取模式可以提取多少不同类别的语义概念，该策略对提取模式的通用性能力进行奖励。在所述内层拔靴法学习阶段，提取模式的评分策略与提取模式的提取频率和相关性有关，当提取模式的相关性高，提取频率高时，评分越高。在所述内层拔靴法学习阶段，提取模式的评分计算利用‘头短语’匹配策略来替换精确匹配策略，有利于提高提取模式的通用能力。在所述外层拔靴法学习阶段，对单层拔靴法的运行结果进行过滤后，再进行迭代，即根据语义概念的评分计算策略，进行评分、排序。其中，每个语义概念的可靠性评分计算是由提取该语义概念的不同类别的提取模式的数目及前述提取模式的强度来共同决定的。

在所述外层拔靴法学习阶段，从排序结果中，只选取分值排序最高的前K个语义概念，加入语义概念词典，然后整个单层拔靴法重新进行迭代学习。

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行基于领域的非监督式中文语义概念词典的自动构建方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行基于领域的非监督式中文语义概念词典的自动构建方法。

实施案例:

为了阐述本申请所提技术方案的有效性，本实施案例采用中文维基百科(即Wikipedia中文)所含的中文文本数据作为文本语料，进行本发明所提算法的实现。其它领域的实施例，其原理及方法，与本实施例基本一致，不再赘述。

因为中文维基百科数据的规模很大，如果完全采用人工的方式对文本数据进行提取模式的生成，是不太现实的，故基于本实施例的应用场景，提出如下解决方案：

·采用Solr(https://lucene.apache.org/solr/)搜索引擎工具，将中文维基百科中的文本，切分为句子，以每个句子作为一篇文档，形成检索语料集。

·当利用种子词语生成提取模式时，只处理含有种子词语的语句。

·当利用前述提取模式提取候选名词短语时，只处理含有触发该提取模式激活词的语句。

·当评价候选名词短语是否匹配提取模式时，只处理同时含有候选名词短语和触发提取模式激活词的语句。

本算法需要使用句法分析从训练语料中，自动生成提取模式，而对于句法分析工具的选择，本算法并无特定要求，可使用任何能对中文语句进行句法分析的工具，如StanfordNLP (https://stanfordnlp.github.io/CoreNLP/)、

哈工大语言云(https://www.ltp-cloud.com)等。一个典型的通用提取模式的定义，可由“relation head<object>”来表达，其中：relation表示关系，head表示头词语，<object>表示宾语。那么对于一个例句“姚明被任命为中国篮协主席”，使用哈工大语言云，进行句法分析，所得到的依存关系如图3所示：其中，名词“姚明 ”和头词语“任命”由关系‘FOB’相连，由此，可生成相应的提取模式-“FOB任命<object>”。前述所生成的提取模式中：预定义的种子词语(本例为：“姚明”)直接依赖的词语为激活词(本例为：“任命”)，而约束条件则为<object>(本例为：“主席”)。

本算法的实施步骤如下：

(1)初始化种子词语-手动选择了15个词语，作为初始化种子词语，如图4所示。

(2)根据种子词语生成提取模式-通过基于中文维基百科的文本检索引擎，检索含有种子词语的句子，选取检索结果中的前1000条信息，并应用句法分析，生成提取模式集，第一轮共生成2608个提取模式。

(3)对所有提取模式进行排序计算-根据对每个提取模式和特定语义类别的相关性计算，对所有的提取模式进行排序，由排序结果，根据每个语义类别，选取得分前5位的提取模式，可由图5显示。

(4)利用提取模式进行词语提取-借助文本检索引擎，应用提取模式，自动提取相应的候选概念词语。

(5)根据概念词语的评分计算策略，对所提取的词语进行评分计算、排序，选取每个语义类别中评分值排名前5位的词语，加入语义概念词典，其结果可由图6所展示。

由图6可知，对于某特定语义类别(如‘公司’)，所提取的语义概念还是存在错误的。由此可知，经由本算法所生成的语义概念词典，最终还是需要人工审核，过滤掉一些不正确的条目，然而这个操作，并不需要花费很多的人力成本。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于这是一种基于两层拔靴法学习的算法，由内、外两层组成：

内层拔靴法学习阶段-利用单层拔靴法,从文本语料中交互选取相应类别的最佳提取模式及其提取物于各自的词典中,提取物代表语义概念，而语义概念词典中的概念则是选取下一轮提取模式的基础；

外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。

2.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述内层拔靴法学习阶段，基于特定语义概念类别的提取模式可以生成新的实例，而新的实例则反过来可用于生成新的提取模式，这种交互过程不断进行迭代，直到满足约束条件退出为止。

3.如权利要求2所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述内层拔靴法学习阶段，根据语义概念词典中最初的种子概念和刚添加的新概念，识别出下一轮最佳的提取模式，并应用前述提取模式去获取新的语义概念。

4.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述内层拔靴法学习阶段，提取模式的评分计算采用启发式策略：一个提取模式可以提取多少不同类别的语义概念，该策略对提取模式的通用性能力进行奖励。

5.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述内层拔靴法学习阶段，提取模式的评分策略与提取模式的提取频率和相关性有关，当提取模式的相关性越高，提取频率越高，评分越高。

6.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述内层拔靴法学习阶段，提取模式的评分计算利用头短语匹配策略来替换精确匹配策略，有利于提高提取模式的通用能力。

7.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述外层拔靴法学习阶段，对单层拔靴法的运行结果进行过滤后，再进行迭代，即根据语义概念的评分计算策略，进行评分、排序；其中，每个语义概念的可靠性评分计算是由提取该语义概念的不同类别的提取模式的数目及前述提取模式的强度来共同决定的。

8.如权利要求7所述的基于领域的非监督式中文语义概念词典的自动构建方法，其特征在于：在所述外层拔靴法学习阶段，从排序结果中，只选取分值排序最高的前K个语义概念，加入语义概念词典，然后整个单层拔靴法重新进行迭代学习。

9.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-8任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-8任意一项所述的方法。