CN113761919A

CN113761919A - 一种口语化短文本的实体属性提取方法及电子装置

Info

Publication number: CN113761919A
Application number: CN202010500426.9A
Authority: CN
Inventors: 万辛; 戚梦苑; 孙晓晨; 黄远; 沈亮; 刘发强; 孙旭东; 张磊; 郝冰川
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-12-07

Abstract

本发明提供一种口语化短文本的实体属性提取方法及电子装置，包括对口语化短文本切词及词性标注，并对各标注词性的词语进行命名主体识别，得到实体词语；将口语化短文本映射为主谓宾三元组，获取主谓宾三元组中各词语的依存关系，并使用实体词语对主谓宾三元组中各词语进行实体识别；当主谓宾三元组中的主谓宾满足一触发规则时，提取宾语词组作为实体属性。本发明采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法，更加有针对性的提取了口语化短数据的实体属性信息，丰富了口语化短文本领域的结构化信息抽取方法。

Description

一种口语化短文本的实体属性提取方法及电子装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种口语化短文本的实体属性提取方法及电子装置。

背景技术

随着互联网应用的迅猛发展，通过网络能够获取的文本数据量也呈指数级增长，如何从这些海量文本数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫，而这正是信息抽取这一研究领域力图解决的问题。信息抽取的任务是从大量数据中准确、快速地获取目标信息，提高信息的利用率。信息抽取的主要功能是从文本中抽取出特定的事实信息，这些文本可以是结构化、半结构化或非结构化的数据。通常，信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后，保存到结构化的数据库当中，以便用户查询和使用。信息抽取的具体实现方法可分为两类：基于规则的方法和基于统计的方法。信息抽取的具体实现过程在一定程度上要依赖机器学习算法，近年来机器学习算法在一些方面的突破，为信息抽取关键技术的进步提供了直接支持。

基于人工制定规则的信息抽取方法，促进了信息抽取的明显进步。针对结构化文本和半结构化文本的信息抽取研究结果基本可以达到较高准确率，抽取方法和过程相对容易。早期研究人员通常创建基于语法的语言模型，利用人工编写触发词规则或语法进行定性化的信息抽取，这种方法在诸多特定的语料语境下取得了较好的准确率。

依存句法分析，即采用统计机器学习的方法分析句子的成分，由于是基于依存句法分析的文本挖掘方法，因而有必要阐述依存句法分析的基本概念。例如，对句子“我刚才吃了一个苹果。”进行依存句法分析的结果如图1所示。依存分析的结构中，词与词之间直接发生依存关系，构成一个依存对。一个依存对的两个词中，其中一个是核心词，也称为支配词；另一个是修饰词，也称为从属词，依存关系采用一个有向箭头进行表示，指向单词的父亲节点。在本发明中，规定箭头的方向为由从属词指向支配词。在图1中，每个箭头上有一个标记，叫做关系类型，表示该依存对中的两个词之间存在的依存关系。

命名实体识别(Named Entity Recognition,NRE)是信息抽取的基础性工作，其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容，并为之添加相应的标注信息，为信息抽取后续工作提供便利。鉴于基于规则的方法效率不高，而且规则的编写通常需要领域的专业人士耗时几个月甚至更长时间才能完成，召回率不理想，人们考虑将统计模型引入到命名实体识别的实现上，利用机器学习的方法得到领域知识库，然后再对测试文本进行分析，这种方法取得较好的效果，一定程度上弥补了原始方法的不足。命名实体识别研究日趋成熟，当前的研究热点集中在应用阶段。

因为基于规则的信息抽取方法有其自身的局限性，如：人工编制规则的过程较复杂、通过机器学习得到的规则效率较低、系统通用性差等，所以后来的研究逐渐又转向基于统计的方法。基于统计的信息抽取，虽然可以从一定程度上弥补基于规则方法的缺陷，但是随着研究的深入，人们发现基于统计的方法并不是完美的。同时一般化、单一结构的算法并不能适用于所有领域文本的结构化信息提取，尤其特定主题语料的数据结构特殊，单一的方法无法很好的在生产环境中提取更加准确丰富的实体属性信息。口语化短文本中往往包含很多非结构化信息，但其数据结构的样式与标准的书面样式数据有很大的不同，具体表现如下：

1.口语化：双方在交流时时往往不如书面表达那样规范严谨，句式为应答模式，即一个语句为单方的信息陈述，另一方为倾听者，交流句式也较为单一随意。

2.噪声多：口语化语料的噪声较多，且具有明显性规律，如其中包含许多仅表示规律性的无意义词汇，如‘嗯’、‘喂’。

3.数据长度较短：口语化文本数据一般情况下整体数据长度较短，通常只有简短的几句话，在信息提取过程中需要对每个单词精细化分析。

4.信息集中性高：在口语化的文本中，多数情况下以传达信息为目的，在较短的文本长度中，对某一对象比如任何事进行描述，修辞和冗余成分相对较少，故存在单句话的信息集中性高的情况，需要充分挖掘单句话信息。

虽然中国专利申请CN101604520的基于统计模型和语法规则的口语语音识别方法，使用多种模型对口语语音进行识别，但其忽视语句各词语的内在联系，提取精度有限。

综上所述，目前急需一种针对面对的不同生产环境，将基于规则和基于统计的方法相结合的策略来从这些海量文本数据中寻找效果更佳的信息抽取方案。。

发明内容

针对上述问题，本发明提出一种口语化短文本的实体属性提取方法及电子装置，采用实体识别、依存句法分析及触发词规则等多种方法联合进行信息抽取，结合机器学习算法和制定触发词规则库，提高目标数据结构化信息提取的丰富性和准确率，并针对特定环境的语料，研究中文触发词和规则，同时后期根据数据特点进行修改并应用到具体的生产环境中，从而解决口语化短文本数据中噪声词多、数据长度短、信息集中性高导致实体属性信息难以提取问题，达到从口语化短文本中抽取出结构化实体属性信息的目的。

本发明的内容如下：

一种口语化短文本的实体属性提取方法，其步骤包括：

1)对口语化短文本切词及词性标注，并对各标注词性的词语进行命名主体识别，得到实体词语；

2)将口语化短文本映射为主谓宾三元组，获取主谓宾三元组中各词语的依存关系，并使用实体词语对主谓宾三元组中各词语进行实体识别；

3)当主谓宾三元组中的主谓宾满足一触发规则时，提取宾语词组作为实体属性。

进一步地，通过删除口语化短句中口语化词语与无实际意义的噪声词，得到口语化短文本；通过对口语化长句进行以标点符号为单位的断句，得到口语化短句。

进一步地，通过以下步骤进行词性标注：

1)对口语化短文本切词，得到若干词语；

2)将各词语输入通过若干样本词语训练的隐马尔科夫标注模型，对各词语进行标注。

进一步地，词性包含形容词、名词、副词、动词、连词和代词。

进一步地，通过将各标注词性的词语输入由若干样本词语及CRF++工具包训练的实体识别模型，进行命名主体识别。

进一步地，实体词语包括人名、地名和机构名。

进一步地，通过HanLP语言处理工具获取主谓宾三元组中各词语的依存关系。

进一步地，触发规则包括：同时满足主语为人称代词、谓语为动词词性的支配词及支配词的动宾关系为名词性词组、或同时满足主语为人称代词、谓语为询问性质的动词及宾语词组中包含地点名词。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有方法相比，本发明具有以下优点：

1)针对口语化短文本进行有差别、有目的的去除噪声以及句子分割，减少噪声对模型的干扰，同时减少重要信息的遗漏；

2)提出一种结合算法和规则的联合实体属性抽取方法。采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法，更加有针对性的提取了口语化短数据的实体属性信息，丰富了口语化短文本领域的结构化信息抽取方法。

附图说明

图1是现有技术的依存句法分析结果示例图。

图2是基于神经网络的依存句法分析网络结构图

图3是CRF模型示意图

图4是基于CRF++工具训练实体识别模型流程图

图5是口语化短文本实体属性信息提取流程图

图6是本发明实施例中一语句进行词性标注及依存句法分析示意图。

图7是本发明实施例中另一语句进行词性标注及依存句法分析的示意图。

具体实施方式

为使本发明的目的、原理、技术方案和优点更加清晰明白，以下将结合具体实施例，并参照附图对本发明做详细的说明。

本发明的一种口语化短文本的实体属性提取方法，包括四个方面：

第一个方面，先对口语化短文本进行了特定噪声词的去除，同时进行切词和词性标注。针对这钟特殊的文本类型，其噪声词往往表现出了其独有的规律，故指定对应的规则，对频繁出现的大概率噪声词进行去除，在一定程度上减少了对信息提取过程中的不良干扰，同时采用隐马尔科夫标注模型对单词的词性进行了标注，词性包含形容词、名词、副词、动词、连词、代词等词性。隐马尔可夫模型(Hidden Markov Model，HMM)作为一种统计分析模型，创立于20世纪70年代。隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列，同时序列的每一个位置又可以看作是一个时刻，因此隐马尔可夫模型可用于词性标注任务。

第二个方面，针对性的分析句子成分结构。将口语化短文本单句话的核心信息映射成三元组[主语中心词，谓语，宾语中心词]的结构化信息形式。依存句法分析部分：要对语句进行依存句法分析，提取训练语料的句式信息，句子分析层面采用了面向生产环境的开源语言处理工具—HanLP，并采用了工具中的基于神经网络的高性能依存句法分析器，不同于传统句法分析器的人工编写特征模板的作坊式风格，神经网络的高性能依存句法分析器将句子的全部信息直接作为输入传入神经网络模型中。如图2所示，模型包括输入层，隐含层和softmax 层。隐含层的激活函数比较特殊，使用cube激活函数也就是取3次方。一个configuration包括Stack，Buffer，依存弧集合。如图2最下方所示，这就是一个具体的configuration，包含了stack，buffer，依存弧集合的信息。模型根据configuration信息来提取出一个特征向量，这个特征向量由(words，POS tags，arc labels)三个向量拼接而成。这个向量因此包含了对应 configuration的信息。模型的目标就是输入特征向量，然后预测出对应的转换类型。预测出转换类型就进行相应的转换操作，这样就更新了配置信息，然后得到新的向量，再输入模型中预测，如此循环，最后就能得到依存弧集合从而找出句子中依存关系。

它们组合的方式，不再由人工编写的特征模板决定，而是由神经网络模型的隐藏层自动提取。三元组结构化信息提取部分：结合口语化短文本数据，提取句子分析后的主语、谓语、宾语等句子主干，并输出为三元组结构形式，为进一步提取对应的句子信息做准备。

第三个方面，对三元组的各个成分进行实体识别。基于条件随机场进行命名实体识别，如图3所示，CRF(条件随机场)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫(Markov)随机场。较为简单的条件随机场是定义在线性链上的条件随机场，称为线性链条件随机场(linear chainconditional random field)。线性链条件随机场可以用于序列标注等问题，而本发明需要解决的命名实体识别(NER)任务正好可通过序列标注方法解决。在条件概率模型P(Y|X)中，Y是输出变量，表示标记序列(或状态序列)，X是输入变量，表示需要标注的观测序列。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型p(Y|X)；预测时，对于给定的输入序列x，求出条件概率p(y|x)最大的输出序列y0。如图4所示，本发明采用CRF++ 工具包，利用开源的人民日报1998中文标注语料库，训练条件随机场模型，以获得可以直接迁移应用口语化短文本的实体识别模型。最后将模型运用到文本数据中识别出句子中包含的人名、地名和机构名等实体。

第四个方面，触发词规则制定。基于实体识别、依存句法分析结合触发词词性规则完成非结构化数据相关实体属性信息的提取。对这些口语化短文本进行分词、词性标注和依存句法分析后，接下来需要结合触发词规则和依存句法分析结果判断主语的行为，在这使用了触发词规则匹配的方法。比如主语+谓语+宾语是最常见的句式之一，基于依存句法分析可以提出主谓宾三元组，当给定一条短文本语句，如要判断是否包含了特定行为信息时，句法分析结果同时满足三元组的主语为人称代词、谓语为动词词性的支配词和支配词的动宾关系为名词性词组这条规则时，判断宾语词组为文本话题信息；再如同时满足三元组主语为人称代词、谓语为询问性质的动词(如“问”)和宾语词组中包含地点名词时，判断宾语词组为话题信息，也可称之为事件信息。

如图5所示，展示了口语化短文本实体属性信息提取总体流程。首先对语料进行数据预处理，包括以标点符号为单位的断句，去除口语化、无任何实际意义的噪声词和句子切词。其次使用训练完成的词性标注模型对语料进行词性标注，识别句子中各个成分的单词词性，为最后的触发词规则做准备。然后利用训练好的依存句法分析模型句子进行依存句法分析，找到句子中核心关系词，主谓关系词，动宾关系词以及动宾关系词的定中关系修饰词，这些句子成分共同构成一个句子的主干，即可提取出句子的三元组信息[“主语代词”，“谓语动词”，“宾语词组”]，同时利用训练好的命名实体识别模型识别句子成分中包含的命名实体。最后针对不同实体属性指定相应的触发词规则以提取相对应的属性信息。

如例句“喂，你好，我是英国广播公司记者李威廉，我想问你一下A地街头爆炸事故”(样例数据根据短文本语句结构进行编写，本实施例默认A地为一实体名)，提取其包含的相关实体属性信息，具体步骤如下。

数据预处理：针对性的去除噪音数据，如“喂“，以逗号为单位进行断句：“你好”，”我是英国广播公司记者李威廉”，“我想问你一下A地街头爆炸事故”，然后对断句后的句子进行分析。

依存句法分析：“你好”不具备语句短，且无法进行句子结构分析，故包含信息过少，舍弃。我是英国广播公司记者李威廉”经过词性标注和依存句法分析后的示意图如图6所示。“我想问你一下A地街头爆炸事故”经过词性标注和依存句法分析后的示意图如图7所示。由分析结果可以看出，每一个句子只存在一个核心词，即<root>作为父节点、与<root>为核心关系的单词“是”，“想”，施动者为人称代词“我”，与核心动词为主谓关系，“李威廉”和“事故”为整个句子的核心宾语词。

结构化三元组信息提取：对于”我是英国广播公司记者李威廉”这句话，依次抽取出主语“我”，谓语动词为“是”，因宾语词“李威廉”包含多个定中关系修饰词，故同时提取，形成完整性信息描述的宾语名词性词组“英国广播公司记者李威廉”；对于“我想问你一下A地街头爆炸事故”这句话，依次抽取出主语“我”，谓语由两个动词合成，即“想问”，因宾语词“事故”包含多个定中关系修饰词，故同时提取，形成完整性信息描述的宾语名词性词组“A地街头爆炸事故”；

命名实体识别：因提取的三元组信息中包含很多实体信息，同时对单词成分进行姓名、地点、机构的识别，以上数据中识别出了人名“李威廉”，地点“A地”，机构名称“英国广播公司”。

触发词规则制定：对于”我是英国广播公司记者李威廉”这句话，提出了三元组[“我”“是”’，“英国广播公司记者李威廉”]，判断规则为主语为第一人称代词“我”，谓语为单个动词，宾语词组中包含姓名实体，则可判断为主叫姓名为[“李威廉”]，符合数据特点，因此判断较为准确；同时分析宾语名词词组[“英国广播公司记者李威廉”]，机构实体和姓名具有定中关系，是姓名的修饰成分，则该姓名的从属机构，所以判断主叫机构为[“英国广播公司”]；同时名词词性的“记者”为姓名的直接修饰词，结合词性和距离，则判断“记者”为该姓名的身份词。提取结果，主叫：李威廉，主叫身份；记者，主叫机构：英国广播公司。

对于“我想问你一下A地街头爆炸事故”这句话，提出了三元组[“我”“想问”，“A地街头爆炸事故”]，判断规则为主语为第一人称代词“我”，谓语为动词，宾语为长度较长的短语词组，则宾语大概率为人称代词描述的话题事件，同时因为人称代词为第一人称，故话题事件为主叫描述的事件，即被讨论的话题事件，符合口语化短数据特点，因此判断较为准确；同时进行二次判断，分析宾语名词词组[“A地街头爆炸事故”]，词组中包含地点实体“A地”，词组中包含动词“爆炸”和名词“事故”，构成描述性短语，进一步增大为话题事件的概率。提取结果，事件为“A地街头爆炸事故”，事件地点为“A地”。

本句话作为典型语句实例，详细的阐述了对口语化短文本结构化信息提取的过程，整个模型框架包括却不限于这种综合性判断规则，但此实例已说明模型的技术路径和思路，故其他实例不再一一展示。

以上所述实施例仅为更好的说明本发明的目的、原理、技术方案和有益效果。所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种口语化短文本的实体属性提取方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，通过删除口语化短句中口语化词语与无实际意义的噪声词，得到口语化短文本；通过对口语化长句进行以标点符号为单位的断句，得到口语化短句。

3.如权利要求1所述的方法，其特征在于，通过以下步骤进行词性标注：

1)对口语化短文本切词，得到若干词语；

4.如权利要求1所述的方法，其特征在于，词性包括形容词、名词、副词、动词、连词和代词。

5.如权利要求1所述的方法，其特征在于，通过将各标注词性的词语输入由若干样本词语及CRF++工具包训练的实体识别模型，进行命名主体识别。

6.如权利要求1所述的方法，其特征在于，实体词语包括人名、地名和机构名。

7.如权利要求1所述的方法，其特征在于，通过HanLP语言处理工具获取主谓宾三元组中各词语的依存关系。

8.如权利要求1所述的方法，其特征在于，触发规则包括：同时满足主语为人称代词、谓语为动词词性的支配词及支配词的动宾关系为名词性词组、或同时满足主语为人称代词、谓语为询问性质的动词及宾语词组中包含地点名词。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。