CN106570179B

CN106570179B - 一种面向评价性文本的核心实体识别方法及装置

Info

Publication number: CN106570179B
Application number: CN201610991857.3A
Authority: CN
Inventors: 李全刚; 柳厅文; 王玉斌; 李柢颖; 时金桥; 亚静; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2019-11-19
Anticipated expiration: 2036-11-10
Also published as: CN106570179A

Abstract

本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤：1)输入评价性文本，基于专家规则和行业专有词典识别该评价性文本中的核心实体；2)对步骤1)未识别出核心实体的评价性文本，使用训练好的基于词的双向LSTM模型进行核心实体识别；3)对步骤2)未识别出核心实体的评价性文本，通过对已有实体集的统计并结合文本分词和词性标注，生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本，能够准确有效地提取文本中的核心实体，为用户决策判断提供有力依据。

Description

一种面向评价性文本的核心实体识别方法及装置

技术领域

本发明属于信息技术领域，具体涉及一种面向评价性文本的核心实体识别方法及装置。

背景技术

评价性文本是指用户消费行为中对各类商品、服务的评论语句，常见的有各购物、餐饮、旅游网站的用户评论，如美食点评、电影观后感，旅游行记等。核心实体识别，即从评价性文本中，结合上下文识别出该文本所讨论的最重要的实体。此类评价性文本是影响潜在用户消费的重要因素，提取文本中的核心实体，可为用户决策判断提供有力依据。

随着网络技术发展及移动终端的普及，用户网上消费越来越普遍，随之产生了海量的消费评论。而这些海量的评价性文本类型丰富多样、语言碎片化严重，核心实体名称繁杂多变，规则匹配很难从评价性文本中准确识别出核心实体。

人工标注虽然准确率高但过于费时费力；基于规则匹配虽然高效但受限于有显著规律的文本格式及实体名称；基于句法分析的方法，会因为评价性文本口语化、语句碎片化导致的信息缺失而影响识别效果。

发明内容

本发明的目的在于提供一种面向评价性文本的核心实体识别方法及装置，使得针对多类型混杂的评价性文本，能够准确有效地提取文本中的核心实体。

为实现上述目的，本发明采用的技术方案如下：

一种面向评价性文本的核心实体识别方法，其步骤包括：

1)输入评价性文本，基于专家规则和行业专有词典识别该文本中的核心实体；

2)对上述步骤未识别出核心实体的文本，使用训练好的基于词的双向LSTM(Long-Short Term Memory，长短期记忆)模型进行核心实体识别；

3)对上述模型未识别出核心实体的文本，通过对已有实体集的统计并结合文本分词和词性标注，生成一个候选实体作为核心实体。

该方法中步骤1)提及的专家规则，主要是为了应对实体命名比较规范的类型，输入是评价性文本和行业专有词典，输出是匹配到词典的文本片段，即为该评价性文本的核心实体。

该方法中步骤2)训练基于词的双向LSTM模型时要对训练文本进行分词，同时截取定长的上下文一起构成词序列，同时采用采样窗口机制，保证训练集中正负采样数量的均衡。

一种面向评价性文本的核心实体识别装置，其包括：

规则匹配模块，负责基于专家规则和行业专有词典识别评价性文本中的核心实体；

模型识别模块，负责训练双向LSTM模型，并对规则匹配模块未识别出核心实体的评价性文本进行核心实体识别；

候选实体生成模块，负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本，通过对已有实体集的统计并结合文本分词和词性标注，生成候选实体作为核心实体。

利用本发明提供的方法识别评价性文本的核心实体，具有以下优点：

1、该方法通过行业词典匹配、基于词的双向LSTM模型识别、基于已有实体集生成候选实体共同作用，解决了对多种语句描述风格的海量评价性文本的核心实体识别，为用户决策判断提供有力依据；

2、在训练双向LSTM模型时使用采样窗口机制，保证了训练集中正负采样数量的均衡，从而减小了训练样本体量，提高模型训练效率和有效性；

3、实际中关于某个实体会存在多条评论，通过统计规则匹配和模型输出所生成的已有实体集，生成候选实体能够对模型未识别出实体的情况进行有效补充。

附图说明

图1是本发明的面向评价性文本的核心实体识别方法的步骤流程图。

图2是本发明的面向评价性文本的核心实体识别装置的模块组成图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明能够处理多类型混合的评价性文本，自主学习文本语言特征，有效地识别出核心实体。该方法的流程如图1所示，其主要步骤包括：

(1)制定专家规则，首先对核心实体命名相对规范的类型构建行业专有词典，如汽车品牌、医院名、景点名等，然后使用规则匹配方法识别核心实体；

(2)训练模型，使用标注好的训练数据训练基于词的双向LSTM模型；

(3)模型识别实体，使用训练好的双向LSTM模型进行核心实体识别；

(4)生成候选实体，对于规则和模型均未识别出核心实体的文本，通过文本分词、词性标注和已有实体集生成一个候选实体作为核心实体。

步骤(1)首先采集特定行业命名词典，制定匹配规则识别核心实体，该方法主要是对核心实体命名相对规范的类型进行核心实体识别。

步骤(2)训练模型时主要有以下几步：

i)对于标注好的训练文本(标注是指人工标注出评价性文本中的核心实体)，首先对文本进行分词处理(连续的英文及数字整体作为一个词，标点符号作为一个词)，以每个词为中心截取定长的上下文作为训练样本，上下文长度不足的补0处理；

ii)如果一个词序列的中心词属于目标核心实体，则该样本为正样本，否则为负样本；

iii)按上述操作后，一条包含N个词的评价性文本被处理成N个定长词序列，然后以核心实体首词和尾词为起点按定长采样窗口分别向前、向后选取词序列(长度不足的忽略)，连同核心实体对应的词序列一起作为该评价性文本的训练样本；

iv)训练集分词处理后，统计词典，并依据词频对词进行编号，根据词编号将训练样本转为数字序列；

v)处理完所有带标注的文本，生成训练样本集，利用该训练样本集训练基于词的双向LSTM模型。将训练样本集分为训练和验证两部分，通过设置激活函数、损失函数等参数对LSTM模型进行训练。可以采用现有的模型训练方法实现。

步骤(3)对测试文本同样进行分词处理，以每个词为中心截取定长的上下文作为训练样本，上下文长度不足的补0处理，一条包含N个词的评价性文本被处理成N个定长词序列，并依据训练集词典和编号转化为数字序列(未登录词编为0)，将此N个序列输入到训练好的双向LSTM模型中进行序列标注。

步骤(4)对评价性文本进行分词和词性标注，统计已有实体集中各实体词的频次，把分词后的文本中满足如下条件的词作为核心实体：

i)包含已有实体集中实体，选择出现频次最高者作为该句核心实体；

ii)不含已有实体集中实体，选择首个词性为名词的词为该句核心实体。

本发明还提供一种采用上述方法的面向评价性文本的核心实体识别装置，包括规则匹配模块、模型识别模块和候选实体生成模块，如图2所示。其中，规则匹配模块负责基于专家规则和行业专有词典识别评价性文本中的核心实体；模型识别模块负责训练双向LSTM模型，并对规则匹配模块未识别出核心实体的评价性文本进行核心实体识别；候选实体生成模块负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本，通过对已有实体集的统计并结合文本分词和词性标注，生成候选实体作为核心实体。

实例：一种面向评价性文本的核心实体识别方法

对于不同类型的评价性文本找出其中的核心实体，以旅游评论为例，“春天，颐和园的风景很美。”该句主要围绕颐和园展开评论，因此核心实体为“颐和园”。

1)首先分析某类评论的实体类别是否有相对规范的命名，如景点名称、汽车品牌等整体上存在有限且统一的名称。可以通过网络采集构建特定行业命名词典。由于评价性文本讨论的实体集中出现在句子前半部分，因此将文本前半部分出现的首个行业命名词典中的词作为该句子的核心实体。

对于未匹配成功的文本输出到后续模型识别部分。

2)训练模型，使用标注好的训练数据训练基于词的双向LSTM模型。例如文本“北京今天高峰期很堵。”中的核心实体为“北京”。

i)对于标注好的训练文本，首先进行分词(连续的英文及数字整体作为一个词，标点符号作为一个词)，以每个词为中心截取定长的上下文作为训练样本，上下文长度不足的补0处理。

假设此处截取的上下文定长为2，则分词后为包含5个词的文本“北京|今天|高峰期|很堵|。”可以转为如表1所示的5个序列(“|”为分隔符，标粗为中心词)：

表1.截取定长上下文后的词序列

ii)如果一个词序列的中心词为标注的核心实体，则该样本为正样本，否则为负样本。

此处“北京”为核心实体，因此编号为1的样本“0|0|北京|今天|高峰期”为正样本，其余为负样本。

iii)按上述操作后，一条包含N个词的评价性文本被处理成N个定长词序列，然后以核心实体为起点按定长采样窗口分别向前、向后选取词序列(长度不足的忽略)，连同核心实体对应的词序列一起作为训练样本。

假设采样窗口为2，则由“北京今天高峰期很堵。”产生的训练样本如表2所示。

表2.截取定长上下文后的词序列

iv)对训练集中的所有评价性文本进行分词后，生成词典，并依据词频对词进行编号，根据词编号将训练样本转为数字序列，如表3、表4所示。

词典统计应基于全体训练文本，编号从1开始，词的编号顺序可随意，此处按字频由大到小依次编号。

v)处理完所有带标注的文本，生成训练样本集，训练双向LSTM模型。

3)模型识别实体，使用训练好的双向LSTM模型进行核心实体识别。对测试文本同样进行分词，以每个词为中心截取定长的上下文作为训练样本，上下文长度不足的补0处理，一条包含N个词的评价性文本被处理成N个定长词序列，并依据训练集词典和编号转化为数字序列(未登录词编为0)，将此N个序列输入到训练好的双向LSTM模型中进行序列标注。

例如文本“广州今天中午很热。”经过上述操作可变为如下序列

使用训练好的双向LSTM模型可以预测每个序列的类别，如上表输入测试文本“广州今天中午很热。”，模型最终输出为序列“10000”，类别为1表示测试文本中对应位置的词为核心实体，0则表示不是核心实体。选择输出序列中首个为1的标注，通过对应位置可以得出该句的核心实体为“广州”。

如果模型输出预测序列均为0，即模型未识别出实体，则将文本输出到下一步骤。

4)生成候选实体，对于规则和模型均未识别出核心实体的文本，统计已有实体集中各实体词的频次，把分词后的文本中满足如下条件的词作为核心实体：

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向评价性文本的核心实体识别方法，其特征在于，包括以下步骤：

1)输入评价性文本，基于专家规则和行业专有词典识别该评价性文本中的核心实体；

2)对步骤1)未识别出核心实体的评价性文本，使用训练好的基于词的双向LSTM模型进行核心实体识别；在训练双向LSTM模型时使用采样窗口机制来保证训练集中正负采样数量的均衡；训练双向LSTM模型的方法是：

i)对于标注好的训练文本进行分词处理，以每个词为中心截取定长的上下文作为训练样本，上下文长度不足的补0处理；

iii)按上述操作后，一条包含N个词的评价性文本被处理成N个定长词序列，然后以核心实体首词和尾词为起点按定长采样窗口分别向前、向后选取词序列，连同核心实体对应的词序列一起作为该评价性文本的训练样本；

iv)训练集分词处理后统计词典并依据词频对词进行编号，根据词编号将训练样本转为数字序列；

v)处理完所有带标注的文本，生成训练样本集，利用该训练样本集训练基于词的双向LSTM模型；

3)对步骤2)未识别出核心实体的评价性文本，通过对已有实体集的统计并结合文本分词和词性标注，生成候选实体作为核心实体。

2.如权利要求1所述的方法，其特征在于：步骤1)所述专家规则用于识别命名规范的核心实体类型，其输入是评价性文本和行业专有词典，输出是与行业专有词典匹配的文本片段，即为该评价性文本的核心实体。

3.如权利要求1所述的方法，其特征在于：步骤1)将评价性文本中一个句子的前半部分出现的首个行业专有词典中的词作为该句子的核心实体。

4.如权利要求1所述的方法，其特征在于：步骤3)对评价性文本进行分词和词性标注，统计已有实体集中各实体词的频次，把分词后的文本中满足如下条件的词作为核心实体：

i)包含已有实体集中实体，选择出现频次最高者作为核心实体；

ii)不含已有实体集中实体，选择首个词性为名词的词为核心实体。

5.一种面向评价性文本的核心实体识别装置，其特征在于，包括：

候选实体生成模块，负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本，通过对已有实体集的统计并结合文本分词和词性标注，生成候选实体作为核心实体；

所述模型识别模块在训练双向LSTM模型时使用采样窗口机制来保证训练集中正负采样数量的均衡；训练双向LSTM模型的方法是：

v)处理完所有带标注的文本，生成训练样本集，利用该训练样本集训练基于词的双向LSTM模型。

6.如权利要求5所述的装置，其特征在于：所述规则匹配模块将评价性文本中一个句子的前半部分出现的首个行业专有词典中的词作为该句子的核心实体。

7.如权利要求5所述的装置，其特征在于：所述候选实体生成模块对评价性文本进行分词和词性标注，统计已有实体集中各实体词的频次，把分词后的文本中满足如下条件的词作为核心实体：