CN107832296A

CN107832296A - 一种基于条件随机场的电信领域命名实体识别方法

Info

Publication number: CN107832296A
Application number: CN201711096147.5A
Authority: CN
Inventors: 章韵; 张歌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2018-03-23

Abstract

本发明公开了一种基于条件随机场的电信领域命名实体识别方法，包括步骤：将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注；选择上下文窗口大小及从候选特征集中选取特征以构建特征模版；定义条件随机场CRF模型的特征模版，将得到的语料及特征模版输入条件随机场CRF模型，得到电信领域命名实体识别CRF模型，并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出结果；从所得输出结果中还原识别出的电信领域命名实体。本发明通过自动化的方法进行电信领域命名实体抽取，在一定程度上提高了电信领域命名实体识别的效率，并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。

Description

一种基于条件随机场的电信领域命名实体识别方法

技术领域

本发明涉及一种基于条件随机场的电信领域命名实体识别方法，属于计算机的技术领域。

背景技术

随着电信行业的飞速发展，传统的人工服务模式已经难以满足实际需求，于是人们开始关注电信领域知识库构建、电信领域问答系统构建等相关技术，希望能够使用自动化系统代替人工，以满足日益增长的业务需求。电信领域知识大多来自于电信相关文档。面对海量数据，完全依靠人工的手段从中抽取有价值的信息显然是不现实的，于是，人们开始希望通过自动化的方法来抽取信息。

但是，当前电信领域命名实体的自动化识别并不理想，大多数情况下仍依靠人工手段进行信息抽取，尤其是当文本完全是非结构化文本时，基于规则的抽取方法不再适用，无法在非结构化电信文本中有效进行命名实体识别，导致了无法有效的进行电信领域命名实体识别工作。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于条件随机场的电信领域命名实体识别方法，解决现有方法对规则模版的过度依赖，尤其是无法在非结构化电信文本中有效进行命名实体识别的问题。

本发明具体采用以下技术方案解决上述技术问题：

一种基于条件随机场的电信领域命名实体识别方法，包括以下步骤：

步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注；

步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版；

步骤3、定义条件随机场CRF模型的特征模版，将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型，得到电信领域命名实体识别CRF模型，并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果；

步骤4、从步骤3所得输出标注结果中还原识别出的电信领域命名实体。

进一步地，作为本发明的一种优选技术方案：所述步骤1中采用BIEO标注模型进行标注。

进一步地，作为本发明的一种优选技术方案：所述步骤1中进行标注包括特征值标注以及词角色标注。

进一步地，作为本发明的一种优选技术方案：所述步骤2中从候选特征集中选取特征，具体包括：

定义电信领域命名实体所具有特征的集合作为候选特征集；

从候选特征集中选择确定最优特征集，及将最优特征集中的特征作为所选取的特征。

进一步地，作为本发明的一种优选技术方案：所述步骤2中利用递增式学习方法从候选特征集中选择确定最优特征集。

本发明采用上述技术方案，能产生如下技术效果：

本发明的基于条件随机场的电信领域命名实体识别方法，通过自动化的方法进行电信领域命名实体抽取，提高了信息抽取的效率。在进行模型标注时使用BIEO标注模型对词角色进行定义，在一定程度上提高了模型对命名实体边界的识别能力；在选择特征时使用递增式学习策略选择最优特征集，在一定程度上避免了使用穷举法选择最优特征对时间以及人力的耗费，从而在一定程度上提高了电信领域命名实体识别的效率，并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。

附图说明

图1为本发明基于条件随机场的电信领域命名实体识别方法的流程示意图。

图2为本发明中构建关键词集的流程示意图。

图3为本发明中采用递增式学习方法构建最优特征集的流程示意图。

图4为本发明中还原电信领域命名实体的流程示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明设计了一种基于条件随机场的电信领域命名实体识别方法，该方法包括以下步骤：

步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注。

首先，对语料进行预处理，预处理包括分词、词性标注，该过程使用IKAnalyzer中文分词器进行分词，使用stanford-postagger-3.5.2进行词性标注。

然后，将完成分词及词性标注的语料文本转化为条件随机场CRF模型规定的输入格式，标准格式如下：

定义1：模版训练文件每行数据内容为C_in，

C_in＝<词，特征1值，特征2值，……，特征n值，词角色>

定义2：待识别电信文件的每行数据内容为C_out，

C_out＝<词，O>。

每个句子之间以空行分隔，每列数据之间以制表符分隔，模版训练文件包含全部模型训练数据，待识别文件包含全部待识别电信文本数据。

之后，对已完成格式整理的数据进行标注，标注包括特征值标注以及词角色标注。针对电信领域命名实体，进行分类如下：

套餐类(C)：指绑定了新的资费的产品组合；

产品类(P)：指以电信手段为客户所提供的服务或者业务；

活动类(A)：指商家进行的促销行为。

进一步的，为提高模型对词边界的识别能力，采用BIEO标注模型，定义如下：

B表示实体首部词；

I表示实体内部词：

E表示实体尾部词；

O表示非实体构成词。

综合以上，最终使用10种标记对词角色进行标注，具体标记及含义如下表：

表1标记及其含义

步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版。

首先，该过程定义上下文窗口W以及候选特征集F。

所述定义上下文窗口为：设上下文窗口W是由当前位置词语与其前后数个位置的词语构成的集合。设当前位置的词为S₀，上下文窗口大小为N，则上下文窗口W＝{S_-(N-1)/2，S_1-(N-1)/2，……，S₀，……，S_((N-1)/2)-1，S_(N-1)/2}，共N个元素，其中N为奇数。

所述定义候选特征集为：设候选特征集F是电信领域命名实体所具有特征的集合，设候选特征为F_i，则F＝{F₁，F₂，……，F_n}，共n个元素。

本实施例中候选特征共包括6个，分别为：词特征(W)、词性特征(P)、关键词特征(K)、数字特征(N)、字母特征(L)、地名特征(G)，即候选特征集F＝{W，P，K，N，L，G}。

其中，当候选特征为关键词特征(K)时，构建关键词集方法如图2所示，具体为：统计训练语料中被标记为电信领域命名实体的词语，将词语在命名实体中出现的次数记为CF，将词语在训练语料中出现的次数记为TF。根据统计结果，计算关键词特征的权重W＝CF/TF×100％。提取TF>20且W>0.5的词语加入关键词集合，最终得到电信领域命名实体关键词列表。

根据步骤1中的定义，模版训练文件第i行数据内容C_in＝<词，特征1值，特征2值，……，特征n值，词角色>。当特征列为关键词特征(K)时，判断电信领域命名实体关键词列表中是否包含当前词，若包含则关键词特征值为1，若不包含，则为0。

然后，采用递增式学习方法从候选特征集中确定最优特征集。该过程如图3所示，设候选特征集为F，最优特征集为F*。初始阶段，最优特征集F*包含词以及上下文特征两项，候选特征集F则包含除了词和上下文特征以外的其它所有特征。之后，每次将候选特征集F中的一个候选特征加入到最优特征集F*中，将每组实验结果的F-值进行对比，选择当前各组实验中得到最优结果的特征加入到最优特征集F*中，并将其从候选特征集F中删除。一直循环至添加完所有候选特征或当前组实验结果较前组最优结果未有提高。最终，选择得到最优结果的最优特征集F*作为最终的最优特征集，将最优特征集中的特征作为所选取的特征。

本实施例中，通过上述方法最终确定的最优特征集F*＝{词特征(W)，关键词特征(K)，数字特征(N)}，其上下文窗口大小分别为：3、3和5。

针对最优特征集F*中的特征，结合已确定的上下文窗口大小，分别构建其一元、二元以及三元特征模版，以上下文窗口大小为3的词特征模版的构建为例，如表2所示。

表2上下文窗口为3的词特征模版

步骤3、定义条件随机场CRF模型的特征模版，将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型，得到电信领域命名实体识别CRF模型，并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果。

首先，定义条件随机场CRF模型的特征模版文件，将文件中的每一行代表一个模版，统一采用％x[Row,Col]描述一个输入数据的片段，其中，％x表示当前位置，Row表示相对当前位置的行偏移，取值为0时表示当前位置，取值为正数表示当前位置之后的位置，取值为负数则表示当前位置之前的位置，Col表示列偏移，即对应的特征项，取值为0表示第一列特征，取值为1表示第二列特征，依次类推。

按照以上要求定义特征模版文件，再将步骤2中构建的特征模版转化为标准格式。

本实施例中，第一列特征为词特征(W)，第二列特征为关键词特征(K)，第三列特征为数字特征(N)。将步骤2中构建的特征模版转化为标准格式，以第一列特征词特征(W)为例：

U000:％x[-1,0]

U001:％x[0,0]

U002:％x[1,0]

U003:％x[-1,0]/％x[0,0]

U004:％x[0,0]/％x[1,0]

U005:％x[-1,0]/％x[0,0]/％x[1,0]

将步骤1处理好的语料及经格式化的特征模版文件输入条件随机场CRF模型，得到相应的电信领域命名实体识别CRF模型。最终将待识别电信文本输入电信领域命名实体识别CRF模型模型，得到最终输出标注结果。

根据步骤1中定义，待识别电信文件的每行数据内容为C_out＝<词，O>，输出文件包含电信领域命名实体识别词角色标注结果，每行数据内容为C’_out＝<词，词角色>。

步骤4、从步骤3模型的输出标注结果中还原识别出的电信领域命名实体。

由步骤3得到的输出结果文件仅对词角色进行了标注，本发明仍需从标注文件中还原识别出的电信领域命名实体。如图4所示，该过程具体如下：

若当前词S₀被标注为B，则表示该词为一个命名实体的开头。下一个词S1若被标注为O，则S₀为由单个词构成的命名实体；若S₁被标注为E，则表示该词为一个命名实体的结束，S₀S₁共同构成命名实体；若S₁被标注为I，则继续判断下一个词S₂，直到词S_n被标注为E，S₀S₁……S_n共同构成命名实体。如果在S₀至S_n中存在S_m被标注为O，则舍弃该命名实体。按照以上方法，直到处理完输出结果文件中的全部内容，即得到从电信领域文本中识别出的所有命名实体。

综上，本发明基于条件随机场的电信领域命名实体识别方法，在进行模型标注时使用BIEO标注模型对词角色进行定义，在一定程度上提高了模型对命名实体边界的识别能力；在选择特征时使用递增式学习策略选择最优特征集，在一定程度上避免了使用穷举法选择最优特征对时间以及人力的耗费，从而在一定程度上提高了电信领域命名实体识别的效率，并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于条件随机场的电信领域命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法，其特征在于：所述步骤1中采用BIEO标注模型进行标注。

3.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法，其特征在于：所述步骤1中进行标注包括特征值标注以及词角色标注。

4.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法，其特征在于：所述步骤2中从候选特征集中选取特征，具体包括：

定义电信领域命名实体所具有特征的集合作为候选特征集；

5.根据权利要求4所述基于条件随机场的电信领域命名实体识别方法，其特征在于：所述步骤2中利用递增式学习方法从候选特征集中选择确定最优特征集。