CN108763218A - 一种基于crf的影视检索实体识别方法 - Google Patents
一种基于crf的影视检索实体识别方法 Download PDFInfo
- Publication number
- CN108763218A CN108763218A CN201810564158.XA CN201810564158A CN108763218A CN 108763218 A CN108763218 A CN 108763218A CN 201810564158 A CN201810564158 A CN 201810564158A CN 108763218 A CN108763218 A CN 108763218A
- Authority
- CN
- China
- Prior art keywords
- video display
- crf
- entity recognition
- data
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明的方法可实现实体识别不依赖于知识库,对未登录实体也可以识别;在影视检索领域中,对不同实体类型都能取得很好的实体识别效果,实时性强。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于CRF的影视检索实体识别方法。
背景技术
命名实体识别是指从文本中识别出命名性指称项,包括人名、地名、机构名,以及一些特殊领域的特定实体等,它是自然语言处理领域的重要研究方向,在工程实践中有着广泛的应用,如:事件检测、信息检索、机器翻译、问答系统等领域。
目前,英文实体识别技术已经达到了较高的水平;但是,中文实体识别相对比较困难。主要是由于中文自身的几个特点:(1)中文没有明确的界限标注,词的概念比较模糊;(2)中文用词灵活多变,相同的实体在不同上下文语境中有不同的意义;(3)实体存在嵌套现象,尤其在机构名中尤其严重;(4)中文有很多简化表达现象,并且英文名的中文翻译识别困难。
现有的实体识别算法大多用于处理长文本,而影视检索文本非常短,没有完整的句法结构,通常包括模棱两可的短语,无法提供足够的背景信息,因此,要准确的判断出实体类型非常困难。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于CRF的影视检索实体识别方法,采用了基于CRF的实体识别技术,可实现实体识别不依赖于知识库,对未登录实体也可以识别。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于CRF的影视检索实体识别方法,包含以下步骤:
步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;
步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;
步骤C.根据影视检索数据特征,设计CRF特征模板;
步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;
步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别;
本发明的基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。
进一步地,所述步骤A中采集影视数据库数据时具体包含以下步骤:
步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;
步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;
步骤A1.3将获取到的数据写入数据库。
进一步地,所述影视数据库数据至少包含影视名、导演名、演员名。
进一步地,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:
步骤B1.1利用分词工具对影视检索文本进行中文分词;
步骤B1.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的实体类型。
进一步地,还包含步骤B1.3:对自动标注后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。
进一步地,所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。
进一步地,所述步骤B1.1中使用的分词工具为ANSJ分词工具。
进一步地,所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。
进一步地,所述步骤E中对影视检索数据进行实体识别时具体包含:
步骤E1.1将影视检索数据转化为CRF数据格式;
步骤E1.2利用训练好的实体识别模型model文件进行实体识别。
本发明与现有技术相比,具有以下的有益效果:
本发明的基于CRF的影视检索实体识别方法,可应用于影视检索领域,但不仅限于该领域,可实现实体识别不依赖于知识库,对未登录实体也可以识别;且在影视检索领域中,对不同实体类型,如:影视名、人名、语言、类型等,都能取得很好的实体识别效果,实时性强。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
一种基于CRF的影视检索实体识别方法,本实施例中将其应用于影视检索,具体施步骤如下:
步骤S1.数据采集,该步骤中数据共分为两个部分:
(1)影视数据库数据,训练语料自动标注时本实施例中采用影视数据库匹配的方式进行标注,因此,建立有影视数据库,其数据包括影视名、导演名、演员名等,本实施例中影视数据库数据主要利用网络爬虫技术从多个影视网站爬取。
(2)用户影视检索文本数据,本实施例中这部分数据从电视用户的在线影视检索数据中获取。
具体的,本实施例中,步骤S1中采集影视数据库数据时主要利用网络爬虫技术从多个影视网站爬取影视数据,因此,该步骤主要包含以下步骤:
S1.1从指定的站点如起始网站开始,采用宽度优先策略爬取网页;
S1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息,如:影视名、导演名、演员名等;
S1.3将获取的数据写入影视数据库。
步骤S2.训练语料标注,具体实体识别类型及BIO标注格式如下表1所示,
表1:实体识别类型及BIO标注格式示意表
人名 | B-person | I-person |
电影区域 | B-movie_area | I-movie_area |
电影语言 | B-movie_language | I-movie_language |
电影名 | B-movie_name | I-movie_name |
电影大类型 | B-category | I-category |
电影小类型 | B-movie_style | I-movie_style |
非实体 | O |
本实施例中语料标注主要采用两种方式:
(1)基于影视数据库匹配的语料自动粗标;
(2)基于人工纠正的语料精确标注。
进行训练语料标注时主要包含以下步骤:
S2.1利用Ansj分词工具对影视检索文本进行中文分词;
S2.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的类型。如影视名、人名、电影类型等,以此完成训练语料自动粗标。
S2.3对自动粗标后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。
本实施例中采用BIO标注格式进行语料标注,若采集到的影视检索文本为“想看电视剧我的前半生”时,其具体标注格式如下所示:
想 O
看 O
电 B-category
视 I-category
剧 I-category
我 B-movie_name
的 I-movie_name
前 I-movie_name
半 I-movie_name
生 I-movie_name
步骤S3.设计CRF特征模板,根据数据特征设计CRF特征模板,具体CRF特征模板如表2所示。
表2:CRF特征模板示意表
本实施例中步骤S3主要是针对影视检索领域数据特点,设计CRF特征模板template,该模板的具体说明如下:
模板文件中的每一行是一个模板,每个模板都是由%x[row,col]来指定输入数据中的一个token,row指定到当前token的行偏移(行是相对位置),col指定列位置(列是绝对位置)。
CRF有两种类型的模板,一元模板Unigram和二元模板Bigram,模板类型通过第一个字符指定。
每一个Unigram模板,产生L*N个特征函数,其中L是标注集中类别数量,N是从模板中扩展处理的字符串种类。
每一个Bigram模板,产生L*L*N个特征函数,其中L是标注集中类别数量,N是从模板中扩展处理的字符串种类。
步骤S4.CRF建模,根据训练样本以及特征模板,进行CRF模型训练。
该步骤中主要利用标注好的训练语料和特征模板,采用CRF进行实体识别模型训练。训练命令如下:
crf_learn template train.txt model
命令执行完成后会生成model文件,该文件即为CRF实体识别模型。
步骤S5.利用CRF模型,进行实体识别,具体包含以下步骤:
步骤S5.1将影视检索文本转化为CRF数据格式,并写入test.txt,如若获取到的影视检索文本为“我想看古装剧琅琊榜”时,将具体转为如下格式:
步骤s5.2:利用训练好的model进行实体识别,具体识别指令如下:
crf_test-m model test.txt?output.txt
实体识别指令执行完后生成output.txt文件,该文件记录了识别出的实体类型,本实施例中的实体识别结果的统计表如表3所示。
表3:实体识别结果统计表
实体类型 | precision | recall | F-core |
name | 0.9490 | 0.9616 | 0.9553 |
person | 0.9481 | 0.8556 | 0.8995 |
language | 0.9963 | 0.9345 | 0.9644 |
category | 0.9965 | 0.9908 | 0.9936 |
type | 0.9469 | 0.8338 | 0.8868 |
area | 0.9836 | 0.8498 | 0.9118 |
本发明的基于CRF的影视检索实体识别方法,首先进行影视语料标注,由于影视领域的特殊性,目前尚没有公开的语料库可以使用,为此,本发明使用了自动标注结合人工纠正的方式进行语料标注,为后期训练做好准备,其次再根据数据特征设置特征模板。由于特征模板的设置直接影响实体识别的效果,为此,本发明中结合影视语料的特点设置模板;最后再基于CRF模型开展训练,得到训练结果。
本发明可实现实体识别不依赖于知识库,对未登录实体也可以识别;在影视检索领域中,对不同实体类型,如:影视名、人名、语言、类型等,都能取得很好的实体识别效果,实时性强。本发明应用于影视检索领域,但不仅限于该领域。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (9)
1.一种基于CRF的影视检索实体识别方法,其特征在于,包含以下步骤:
步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;
步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;
步骤C.根据影视检索数据特征,设计CRF特征模板;
步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;
步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别。
2.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤A中采集影视数据库数据时具体包含以下步骤:
步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;
步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;
步骤A1.3将获取到的数据写入数据库。
3.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述影视数据库数据至少包含影视名、导演名、演员名。
4.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:
步骤B1.1利用分词工具对影视检索文本进行中文分词;
步骤B1.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的实体类型。
5.根据权利要求4所述的一种基于CRF的影视检索实体识别方法,其特征在于,还包含步骤B1.3:对自动标注后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。
6.根据权利要求4所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。
7.根据权利要求4或5或6所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B1.1中使用的分词工具为ANSJ分词工具。
8.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。
9.根据权利要求8所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤E中对影视检索数据进行实体识别时具体包含:
步骤E1.1将影视检索数据转化为CRF数据格式;
步骤E1.2利用训练好的实体识别模型model文件进行实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564158.XA CN108763218A (zh) | 2018-06-04 | 2018-06-04 | 一种基于crf的影视检索实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810564158.XA CN108763218A (zh) | 2018-06-04 | 2018-06-04 | 一种基于crf的影视检索实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763218A true CN108763218A (zh) | 2018-11-06 |
Family
ID=64002755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810564158.XA Pending CN108763218A (zh) | 2018-06-04 | 2018-06-04 | 一种基于crf的影视检索实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763218A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
US20140172774A1 (en) * | 2011-12-13 | 2014-06-19 | Peking University Founder Group Co., Ltd | Method and device for named-entity recognition |
CN104679885A (zh) * | 2015-03-17 | 2015-06-03 | 北京理工大学 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
CN105095186A (zh) * | 2015-07-28 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
CN107251011A (zh) * | 2015-02-17 | 2017-10-13 | 微软技术许可有限责任公司 | 用于序列标签器的训练系统和方法 |
-
2018
- 2018-06-04 CN CN201810564158.XA patent/CN108763218A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140172774A1 (en) * | 2011-12-13 | 2014-06-19 | Peking University Founder Group Co., Ltd | Method and device for named-entity recognition |
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
CN107251011A (zh) * | 2015-02-17 | 2017-10-13 | 微软技术许可有限责任公司 | 用于序列标签器的训练系统和方法 |
CN104679885A (zh) * | 2015-03-17 | 2015-06-03 | 北京理工大学 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
CN105095186A (zh) * | 2015-07-28 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10521464B2 (en) | Method and system for extracting, verifying and cataloging technical information from unstructured documents | |
CN104991889B (zh) | 一种基于模糊分词的非多字词错误自动校对方法 | |
CN100437582C (zh) | 图像内容语义标注方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
WO2021212801A1 (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
Velldal et al. | NoReC: The norwegian review corpus | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN106407236A (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN108763218A (zh) | 一种基于crf的影视检索实体识别方法 | |
Abel et al. | KoKo: an L1 Learner Corpus for German. | |
CN106528526A (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
CN105955955A (zh) | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 | |
CN106202035B (zh) | 基于组合方法的越南语兼类词消歧方法 | |
CN109086255A (zh) | 一种基于深度学习的参考文献自动标注方法及系统 | |
CN110825998A (zh) | 一种网站识别方法及可读存储介质 | |
CN111026815A (zh) | 基于用户辅助修正下的实体对特定关系抽取方法 | |
CN105243053B (zh) | 提取文档关键句的方法及装置 | |
Mann et al. | Multi-field information extraction and cross-document fusion | |
Dandapat et al. | Improved named entity recognition using machine translation-based cross-lingual information | |
CN111831833A (zh) | 知识图谱的构建方法及装置 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |