CN108959242A

CN108959242A - 一种基于中文字符词性特征的目标实体识别方法及装置

Info

Publication number: CN108959242A
Application number: CN201810431801.1A
Authority: CN
Inventors: 李全刚; 柳厅文; 李彦增; 王学宾; 亚静; 李柢颖; 时金桥
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-12-07
Anticipated expiration: 2038-05-08
Also published as: CN108959242B

Abstract

本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括：1)在训练文本中标记目标实体并进行分词及词性标注；2)将训练文本拆分为字符，得到字符序列，每个字符保留拆分之前的词性；3)将字符的词性与字符在分词中的位置进行拼接作为字符词性，得到字符词性序列；4)将对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；5)将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

Description

一种基于中文字符词性特征的目标实体识别方法及装置

技术领域

本发明属于自然语言处理领域，具体涉及一种基于中文字符词性特征的目标实体识别方法及装置，可使用中文文本中字符的词性特征经由神经网络模型自动提取文本中的目标实体。

背景技术

文本中经常含有多个类型的多个实体，本发明中提及的目标实体专指文本中用户所关注的某特定实体，例如：“北京动物园位于西城区，园中有大熊猫等500余种动物。”在这句话中，包含“北京动物园”、“西城区”、“大熊猫”三个不同类型实体，而“北京动物园”为整个点评的主要实体，因此将“北京动物园”认定为此文本中的目标实体。

在信息爆炸的今天，互联网中每分钟都会产生海量的文本数据；随着移动终端在中国的普及，网络社交呈现出碎片化的趋势。用户在使用互联网的过程中，会不断产生大量的碎片信息，如：微博、影评、食评、购物评价、游记等。通过对这些文本进行分析，服务商就能更加了解用户，从而提供更好的用户体验。

要对海量的文本进行分析，首要任务就是根据需求对每个文本的特定目标实体进行识别。传统的目标实体识别方法有以下两种，一种是基于特定规则匹配的方法，另一种是基于统计机器学习的方法。

基于特定规则匹配的方法以规则模板和字符串匹配为主要手段，虽然准确率高，但往往依赖于具体语言和文本风格，仅适用于规律显著的文本内容，规则制定过程耗时大，规则模板的可移植性差。而互联网信息所含的文本种类丰富、语言碎片化，并且目标实体的类型不固定，这些特点也使得特定规则很难在互联网中文文本中准确识别出需要的目标实体。

基于统计机器学习的方法主要包括：隐马尔可夫模型(Hidden Markov Mode,HMM)、最大熵模型(Maxmium Entropy,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Fields,CRF)等。基于统计的方法对特征选取的要求较高，需要从文本中选择能有效反映目标实体特性的特征，而这些特征的选取非常依赖人工经验。

发明内容

本发明的目的在于提供一种基于中文字符词性特征的目标实体识别方法及装置，能根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

本发明采用的技术方案如下：

一种基于中文字符词性特征的目标实体识别方法，包括以下步骤：

1)在训练文本中标记目标实体，并对训练文本进行分词及词性标注；

2)将训练文本拆分为字符，各个字符构成字符序列，每个字符保留拆分之前的词性；

3)标注每个字符在分词中的位置，将字符的词性与字符在分词中的位置进行拼接作为字符词性，各个字符的字符词性构成字符词性序列；

4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；

5)将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；

6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到待识别文本的字符标注序列，通过将字符标注序列拼接并还原得到目标实体识别结果。

进一步地，所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。

进一步地，步骤3)所述标注每个字符在分词中的位置，是将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S。

进一步地，步骤4)将不在目标实体内的字符用O或其它记号标记为空值。

进一步地，步骤5)所述机器学习模型为BiLSTM+CRF模型，其中BiLSTM层接收字符序列、字符词性序列两个输入序列。

进一步地，步骤5)包括：

5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号，得到用于训练模型的特征向量与目标向量；

5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中，通过参数调优得到所需的机器学习模型，该机器学习模型以字符向量、字符词性向量作为输入值，输出字符标注向量。

一种采用上面所述方法的基于中文字符词性特征的目标实体识别装置，其包括：

模型训练模块，负责根据训练文本得到字符序列、字符词性序列和字符标注序列，将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；

目标实体识别模块，负责将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到待识别文本的字符标注序列，通过将字符标注序列拼接并还原得到目标实体识别结果。

进一步地，所述模型训练模块包括：

目标实体标记子模块，负责在训练文本中标记目标实体；

分词及词性标注子模块，负责对训练文本进行分词及词性标注；

字符拆分子模块，负责将训练文本拆分为字符，各个字符构成字符序列，每个字符保留拆分之前的词性；

字符词性序列构建子模块，负责标注每个字符在分词中的位置，将字符的词性与字符在分词中的位置进行拼接作为字符词性，各个字符的字符词性构成字符词性序列；

字符标注序列构建子模块，负责将对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；

模型训练子模块，负责将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练。

进一步地，所述字符词性序列构建子模块标注每个字符在分词中的位置时，将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S；所述字符标注序列构建子模块将不在目标实体内的字符用O或其它记号标记为空值。

进一步地，所述机器学习模型为BiLSTM+CRF模型，其中BiLSTM层接收字符序列、字符词性序列两个输入序列。

利用本发明提供的方法与设施识别并提取中文文本的目标实体，具有以下优点：

1、本发明利用字符及字符词性，通过变体BiLSTM+CRF模型，能准确识别并提取目标实体，避免了特定规则匹配与人工选择特征的缺点；

2、本发明应用的是字符级别的特征，减少了分词工具不准确分词导致词级别特征不准确的问题；

3、本发明对BiLSTM+CRF模型进行了改进，使其对特征向量的组合更加灵活，在不增加神经网络层的情况下能充分利用字符级别相互对齐的序列特征。

附图说明

图1是本发明使用语料构建并并训练模型的主要流程图。

图2是本发明采用的变体BiLSTM+CRF模型示意图，其中I/O/B/E/S表示目标实体映射至字符得到的字符标注序列。

图3是本发明使用已有模型(预训练模型)的主要流程图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的基于中文文本字符词性特征的目标实体识别方法，能根据不同需求在中文文本中有效地将所需的目标实体提取出来。该方法包括两个步骤：第一步是使用已经标注的文本数据集来训练模型；第二步是使用第一步训练得到的模型来识别新文本中的目标实体。第一步与第二步不需要连续进行，可单独进行第一步得到预训练模型之后，再在别的场景直接进行第二步识别。

第一步训练模型的主要步骤流程如图1所示，包括：

1)准备训练文本，标记好目标实体。

2)使用分词工具对文本进行分词及词性标注。

3)将文本按照顺序拆分成为单个字符，各个字符构成“字符序列”。每个字符都保留拆分之前的词性；将每个字符在分词中处于的位置进行标注。例如词组的第一个字符标记为B(begin)，中间字符标记为M(middle)，最后一个字符标记为E(end)，单独作为一个词的字符标记为S(single)。将字符保留的词性与上述的位置标记进行拼接，得到的特征称为“字符词性”，各个字符的字符词性构成“字符词性序列”。

4)对字符进行结果标注：将目标实体的标注映射至实体中的各个字符上，作为结果标注，各个字符的结果标注构成“字符标注序列”；不在目标实体内的字符则用O或其它记号标记为空值。

5)构建BiLSTM+CRF模型，接受两个序列输入，一个序列输出；在BiLSTM(双向长短期记忆网络)模型中，将两个输入序列向量拼接(concat)成为然后再传入传统的双向LSTM模型。BiLSTM+CRF变体模型的结构可参考图2。

6)将顺序的字符序列与顺序的字符词性序列作为特征，将字符标注序列作为训练目标值，分别进行词嵌入(Embedding)后输入5)中的机器学习模型中进行训练。所述词嵌入是一种自然语言处理中常用的方法，作用是将原数据(此处为单词)映射至向量空间进行向量化处理，向量化后方便机器学习模型进行处理。

7)根据准确率、召回率等指标调整学习率、训练批次、批次大小等参数，得到所需模型。

得到预训练模型后，可进行第二步进行目标实体的识别。使用模型的主要步骤流程如图3所示，包括：

1)使用分词工具对文本进行分词及词性标注；

2)将文本顺序拆分成为单个字符，并按照前文的定义构建“字符词性”；

3)将顺序的字符序列与对应的字符词性序列传入模型中进行预测，得到目标文本的字符标注序列；

4)通过将字符标注序列拼接并还原，得到所需的目标实体。

本发明的技术关键点在于：

1)定义了一种目标实体识别方法及装置，能根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取；

2)使用了字符作为模型特征，而没有直接使用词组作为特征；

3)定义了字符词性，即每个词组的词性都映射到词组中各个字符上、每个字符都根据其在词组中的位置进行标注(第一位：B、中间位：M、末位：E、单独字符：S)，将词组词性与字符位置标注合并即可得到“字符词性”。

4)在训练时对目标实体进行了特别标注，并将实体的特别标注映射到了实体中的各个字符上作为结果标注。不在目标实体内的字符则使用O等记号标记为空值；

5)字符序列、字符词性序列、字符标注序列为相互对齐的序列数据；

6)使用了BiLSTM+CRF模型，并对BiLSTM层进行了改进，使其接收多个输入序列；

7)在使用模型时，对待分析文本同样进行词性标注，得到字符序列与字符词性序列，输入模型后得到目标实体。

本发明可以应用于任意类型的目标实体。下面提供一应用实例，该实例以旅游点评为例，希望在大量旅游点评中找到点评的主体实体，了解用户点评的主体景点并方便归类与分析。

在旅游点评中，用户的描述经常不止涉及一个实体，例如：“广州博物馆下属有三元里人民抗英斗争纪念馆和黄花岗起义指挥部旧址纪念馆两个分馆。”在这句话中，包含“广州博物馆”、“三元里人民抗英斗争纪念馆”、“黄花岗起义指挥部旧址纪念馆”三个旅游景点类型实体，而“广州博物馆”为整个点评的主要景点，因此将“广州博物馆”认定为此文本中的目标实体。

同时，观察分词结果，可以发现本句中的三个实体均被分成了多个部分，这也意味着本方法采用的字符级特征在目标实体识别上比词特征会更具优越性。

为了简洁，下面使用短句“春天的青山沟”为例说明本方法及装置的运行过程。

1)构建模型训练所需要的数据：

i)对中文文本进行分词与词性标注，结果如表1所示：

表1.分词与词性标注结果

其中，词性的t为时间词，u为助词，n为名词。

ii)将文本分割为字符，并将原有的词性标注映射至所含字符上；最后将目标实体——“青山沟”标记出来，结果如表2所示：

表2.步骤ii)得到的结果

其中，目标实体“青山沟”的“青”字为目标实体起点，故标记为B(begin)；“山”字为目标实体中间字，故标记为M(middle)；“沟”为目标实体结尾，故标记为E(end)；其余字符与目标实体无关，故标记为O。

至此，得到了字符序列、字符词性序列、字符标注序列三个相互对齐的特征序列。

2)将以上得到的特征序列通过词典的方式进行编号，得到用于训练模型的特征向量与目标向量，如表3所示：

表3.特征向量与目标向量

3)将其余文本同样进行如上处理，得到大量的特征向量与目标向量，将这些向量传入如例图2所示的变体BiLSTM+CRF模型中。

4)通过上述操作，进行参数调优后，得到了所需的机器学习模型。此模型以字符向量、字符词性向量作为输入值，输出字符标注向量(如00123)。

有了预训练模型之后，即可对模型进行评估与应用。在应用模型时，也需要对文本进行上述1)2)3)步骤操作，但无需对目标实体进行标注。得到字符向量与字符词性向量之后，将两者输入预训练模型中，模型将输出字符标注向量(如00123)，由词典可将标注向量还原为字符标注序列(如00123被还原为OOBME)，由此可知第三四五个字符序列构成了目标实体，进行拼接即可得到所需的文本目标实体。

在对41253条旅游点评进行标注作为训练，对另外17681条旅游点评进行测试实验，并与普遍使用的基于字符的BiLSTM+CRF模型进行对比，得到了如表4所示的结果。

表4.本发明与传统方法的实验结果对比

方法	准确率	召回率	F1
				传统方法	78.934％	82.901％	80.869％
本发明方法	83.416％	82.337％	82.873％

上述实验结果表明了本发明的方法是高效、优秀的，与现在普遍使用的模型相比，能够更好地识别与提取目标实体。

本发明另一实施例提供一种采用上面所述方法的基于中文字符词性特征的目标实体识别装置，其包括：

所述模型训练模块包括：

目标实体标记子模块，负责在训练文本中标记目标实体；

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于中文字符词性特征的目标实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。

3.根据权利要求1所述的方法，其特征在于，步骤3)所述标注每个字符在分词中的位置，是将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S。

4.根据权利要求1所述的方法，其特征在于，步骤4)将不在目标实体内的字符用O或其它记号标记为空值。

5.根据权利要求1所述的方法，其特征在于，步骤5)所述机器学习模型为BiLSTM+CRF模型，其中BiLSTM层接收字符序列、字符词性序列两个输入序列。

6.根据权利要求5所述的方法，其特征在于，步骤5)包括：

7.一种采用权利要求1所述方法的基于中文字符词性特征的目标实体识别装置，其特征在于，包括以下步骤：

8.根据权利要求7所述的装置，其特征在于，所述模型训练模块包括：

目标实体标记子模块，负责在训练文本中标记目标实体；

9.根据权利要求8所述的装置，其特征在于，所述字符词性序列构建子模块标注每个字符在分词中的位置时，将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S；所述字符标注序列构建子模块将不在目标实体内的字符用O或其它记号标记为空值。

10.根据权利要求8所述的装置，其特征在于，所述机器学习模型为BiLSTM+CRF模型，其中BiLSTM层接收字符序列、字符词性序列两个输入序列。