CN108763218A

CN108763218A - 一种基于crf的影视检索实体识别方法

Info

Publication number: CN108763218A
Application number: CN201810564158.XA
Authority: CN
Inventors: 杨兰; 孙锐; 展华益; 王欣; 赵亮; 谭斌; 许洛
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-06

Abstract

本发明公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标，结合人工纠正，完成训练语料标注；然后通过设计特征模板提取特征，利用CRF进行实体识别，所涉及的技术包括：自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明的方法可实现实体识别不依赖于知识库，对未登录实体也可以识别；在影视检索领域中，对不同实体类型都能取得很好的实体识别效果，实时性强。

Description

一种基于CRF的影视检索实体识别方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于CRF的影视检索实体识别方法。

背景技术

命名实体识别是指从文本中识别出命名性指称项，包括人名、地名、机构名，以及一些特殊领域的特定实体等，它是自然语言处理领域的重要研究方向，在工程实践中有着广泛的应用，如：事件检测、信息检索、机器翻译、问答系统等领域。

目前，英文实体识别技术已经达到了较高的水平；但是，中文实体识别相对比较困难。主要是由于中文自身的几个特点：(1)中文没有明确的界限标注，词的概念比较模糊；(2)中文用词灵活多变，相同的实体在不同上下文语境中有不同的意义；(3)实体存在嵌套现象，尤其在机构名中尤其严重；(4)中文有很多简化表达现象，并且英文名的中文翻译识别困难。

现有的实体识别算法大多用于处理长文本，而影视检索文本非常短，没有完整的句法结构，通常包括模棱两可的短语，无法提供足够的背景信息，因此，要准确的判断出实体类型非常困难。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于CRF的影视检索实体识别方法，采用了基于CRF的实体识别技术，可实现实体识别不依赖于知识库，对未登录实体也可以识别。

为了达到上述的技术效果，本发明采取以下技术方案：

一种基于CRF的影视检索实体识别方法，包含以下步骤：

步骤A.数据采集，所述数据至少包含影视数据库数据和用户影视检索文本数据；

步骤B.训练语料标注，包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注；

步骤C.根据影视检索数据特征，设计CRF特征模板；

步骤D.根据训练语料以及CRF特征模板，进行CRF模型训练；

步骤E.利用训练好的CRF模型，对影视检索数据进行实体识别；

本发明的基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标，结合人工纠正，完成训练语料标注；然后通过设计特征模板提取特征，利用CRF进行实体识别，所涉及的技术包括：自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。

进一步地，所述步骤A中采集影视数据库数据时具体包含以下步骤：

步骤A1.1从指定的站点开始，采用宽度优先策略爬取网页；

步骤A1.2针对每一个获取到的网页，对其页面源代码进行解析，获取网页内相关的信息；

步骤A1.3将获取到的数据写入数据库。

进一步地，所述影视数据库数据至少包含影视名、导演名、演员名。

进一步地，所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤：

步骤B1.1利用分词工具对影视检索文本进行中文分词；

步骤B1.2将分词后的短语，分别在影视数据库中进行匹配，将匹配到的短语标记为对应的实体类型。

进一步地，还包含步骤B1.3：对自动标注后的语料进行人工纠错，得到精确标记的影视训练语料，写入Train.txt，提供给下一步CRF实体识别算法使用。

进一步地，所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。

进一步地，所述步骤B1.1中使用的分词工具为ANSJ分词工具。

进一步地，所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。

进一步地，所述步骤E中对影视检索数据进行实体识别时具体包含：

步骤E1.1将影视检索数据转化为CRF数据格式；

步骤E1.2利用训练好的实体识别模型model文件进行实体识别。

本发明与现有技术相比，具有以下的有益效果：

本发明的基于CRF的影视检索实体识别方法，可应用于影视检索领域，但不仅限于该领域，可实现实体识别不依赖于知识库，对未登录实体也可以识别；且在影视检索领域中，对不同实体类型，如：影视名、人名、语言、类型等，都能取得很好的实体识别效果，实时性强。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

一种基于CRF的影视检索实体识别方法，本实施例中将其应用于影视检索，具体施步骤如下：

步骤S1.数据采集，该步骤中数据共分为两个部分：

(1)影视数据库数据，训练语料自动标注时本实施例中采用影视数据库匹配的方式进行标注，因此，建立有影视数据库，其数据包括影视名、导演名、演员名等，本实施例中影视数据库数据主要利用网络爬虫技术从多个影视网站爬取。

(2)用户影视检索文本数据，本实施例中这部分数据从电视用户的在线影视检索数据中获取。

具体的，本实施例中，步骤S1中采集影视数据库数据时主要利用网络爬虫技术从多个影视网站爬取影视数据，因此，该步骤主要包含以下步骤：

S1.1从指定的站点如起始网站开始，采用宽度优先策略爬取网页；

S1.2针对每一个获取到的网页，对其页面源代码进行解析，获取网页内相关的信息，如：影视名、导演名、演员名等；

S1.3将获取的数据写入影视数据库。

步骤S2.训练语料标注，具体实体识别类型及BIO标注格式如下表1所示，

表1：实体识别类型及BIO标注格式示意表

人名	B-person	I-person
			电影区域	B-movie_area	I-movie_area
电影语言	B-movie_language	I-movie_language
			电影名	B-movie_name	I-movie_name
电影大类型	B-category	I-category
			电影小类型	B-movie_style	I-movie_style
非实体	O

本实施例中语料标注主要采用两种方式：

(1)基于影视数据库匹配的语料自动粗标；

(2)基于人工纠正的语料精确标注。

进行训练语料标注时主要包含以下步骤：

S2.1利用Ansj分词工具对影视检索文本进行中文分词；

S2.2将分词后的短语，分别在影视数据库中进行匹配，将匹配到的短语标记为对应的类型。如影视名、人名、电影类型等，以此完成训练语料自动粗标。

S2.3对自动粗标后的语料进行人工纠错，得到精确标记的影视训练语料，写入Train.txt，提供给下一步CRF实体识别算法使用。

本实施例中采用BIO标注格式进行语料标注，若采集到的影视检索文本为“想看电视剧我的前半生”时，其具体标注格式如下所示：

想 O

看 O

电 B-category

视 I-category

剧 I-category

我 B-movie_name

的 I-movie_name

前 I-movie_name

半 I-movie_name

生 I-movie_name

步骤S3.设计CRF特征模板，根据数据特征设计CRF特征模板，具体CRF特征模板如表2所示。

表2：CRF特征模板示意表

本实施例中步骤S3主要是针对影视检索领域数据特点，设计CRF特征模板template，该模板的具体说明如下：

模板文件中的每一行是一个模板，每个模板都是由％x[row,col]来指定输入数据中的一个token，row指定到当前token的行偏移(行是相对位置)，col指定列位置(列是绝对位置)。

CRF有两种类型的模板，一元模板Unigram和二元模板Bigram，模板类型通过第一个字符指定。

每一个Unigram模板，产生L*N个特征函数，其中L是标注集中类别数量，N是从模板中扩展处理的字符串种类。

每一个Bigram模板，产生L*L*N个特征函数，其中L是标注集中类别数量，N是从模板中扩展处理的字符串种类。

步骤S4.CRF建模，根据训练样本以及特征模板，进行CRF模型训练。

该步骤中主要利用标注好的训练语料和特征模板，采用CRF进行实体识别模型训练。训练命令如下：

crf_learn template train.txt model

命令执行完成后会生成model文件，该文件即为CRF实体识别模型。

步骤S5.利用CRF模型，进行实体识别，具体包含以下步骤：

步骤S5.1将影视检索文本转化为CRF数据格式，并写入test.txt，如若获取到的影视检索文本为“我想看古装剧琅琊榜”时，将具体转为如下格式：

步骤s5.2：利用训练好的model进行实体识别，具体识别指令如下：

crf_test-m model test.txt？output.txt

实体识别指令执行完后生成output.txt文件，该文件记录了识别出的实体类型，本实施例中的实体识别结果的统计表如表3所示。

表3：实体识别结果统计表

实体类型	precision	recall	F-core
				name	0.9490	0.9616	0.9553
person	0.9481	0.8556	0.8995
				language	0.9963	0.9345	0.9644
category	0.9965	0.9908	0.9936
				type	0.9469	0.8338	0.8868
area	0.9836	0.8498	0.9118

本发明的基于CRF的影视检索实体识别方法，首先进行影视语料标注，由于影视领域的特殊性，目前尚没有公开的语料库可以使用，为此，本发明使用了自动标注结合人工纠正的方式进行语料标注，为后期训练做好准备，其次再根据数据特征设置特征模板。由于特征模板的设置直接影响实体识别的效果，为此，本发明中结合影视语料的特点设置模板；最后再基于CRF模型开展训练，得到训练结果。

本发明可实现实体识别不依赖于知识库，对未登录实体也可以识别；在影视检索领域中，对不同实体类型，如：影视名、人名、语言、类型等，都能取得很好的实体识别效果，实时性强。本发明应用于影视检索领域，但不仅限于该领域。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于CRF的影视检索实体识别方法，其特征在于，包含以下步骤：

步骤C.根据影视检索数据特征，设计CRF特征模板；

步骤D.根据训练语料以及CRF特征模板，进行CRF模型训练；

步骤E.利用训练好的CRF模型，对影视检索数据进行实体识别。

2.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤A中采集影视数据库数据时具体包含以下步骤：

步骤A1.1从指定的站点开始，采用宽度优先策略爬取网页；

步骤A1.3将获取到的数据写入数据库。

3.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述影视数据库数据至少包含影视名、导演名、演员名。

4.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤：

步骤B1.1利用分词工具对影视检索文本进行中文分词；

5.根据权利要求4所述的一种基于CRF的影视检索实体识别方法，其特征在于，还包含步骤B1.3：对自动标注后的语料进行人工纠错，得到精确标记的影视训练语料，写入Train.txt，提供给下一步CRF实体识别算法使用。

6.根据权利要求4所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。

7.根据权利要求4或5或6所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤B1.1中使用的分词工具为ANSJ分词工具。

8.根据权利要求1所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。

9.根据权利要求8所述的一种基于CRF的影视检索实体识别方法，其特征在于，所述步骤E中对影视检索数据进行实体识别时具体包含：

步骤E1.1将影视检索数据转化为CRF数据格式；

步骤E1.2利用训练好的实体识别模型model文件进行实体识别。