CN107832296A - 一种基于条件随机场的电信领域命名实体识别方法 - Google Patents

一种基于条件随机场的电信领域命名实体识别方法 Download PDF

Info

Publication number
CN107832296A
CN107832296A CN201711096147.5A CN201711096147A CN107832296A CN 107832296 A CN107832296 A CN 107832296A CN 201711096147 A CN201711096147 A CN 201711096147A CN 107832296 A CN107832296 A CN 107832296A
Authority
CN
China
Prior art keywords
field
telecommunications
name entity
feature
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711096147.5A
Other languages
English (en)
Inventor
章韵
张歌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201711096147.5A priority Critical patent/CN107832296A/zh
Publication of CN107832296A publication Critical patent/CN107832296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于条件随机场的电信领域命名实体识别方法,包括步骤:将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注;选择上下文窗口大小及从候选特征集中选取特征以构建特征模版;定义条件随机场CRF模型的特征模版,将得到的语料及特征模版输入条件随机场CRF模型,得到电信领域命名实体识别CRF模型,并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出结果;从所得输出结果中还原识别出的电信领域命名实体。本发明通过自动化的方法进行电信领域命名实体抽取,在一定程度上提高了电信领域命名实体识别的效率,并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。

Description

一种基于条件随机场的电信领域命名实体识别方法
技术领域
本发明涉及一种基于条件随机场的电信领域命名实体识别方法,属于计算机的技术领域。
背景技术
随着电信行业的飞速发展,传统的人工服务模式已经难以满足实际需求,于是人们开始关注电信领域知识库构建、电信领域问答系统构建等相关技术,希望能够使用自动化系统代替人工,以满足日益增长的业务需求。电信领域知识大多来自于电信相关文档。面对海量数据,完全依靠人工的手段从中抽取有价值的信息显然是不现实的,于是,人们开始希望通过自动化的方法来抽取信息。
但是,当前电信领域命名实体的自动化识别并不理想,大多数情况下仍依靠人工手段进行信息抽取,尤其是当文本完全是非结构化文本时,基于规则的抽取方法不再适用,无法在非结构化电信文本中有效进行命名实体识别,导致了无法有效的进行电信领域命名实体识别工作。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于条件随机场的电信领域命名实体识别方法,解决现有方法对规则模版的过度依赖,尤其是无法在非结构化电信文本中有效进行命名实体识别的问题。
本发明具体采用以下技术方案解决上述技术问题:
一种基于条件随机场的电信领域命名实体识别方法,包括以下步骤:
步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注;
步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版;
步骤3、定义条件随机场CRF模型的特征模版,将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型,得到电信领域命名实体识别CRF模型,并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果;
步骤4、从步骤3所得输出标注结果中还原识别出的电信领域命名实体。
进一步地,作为本发明的一种优选技术方案:所述步骤1中采用BIEO标注模型进行标注。
进一步地,作为本发明的一种优选技术方案:所述步骤1中进行标注包括特征值标注以及词角色标注。
进一步地,作为本发明的一种优选技术方案:所述步骤2中从候选特征集中选取特征,具体包括:
定义电信领域命名实体所具有特征的集合作为候选特征集;
从候选特征集中选择确定最优特征集,及将最优特征集中的特征作为所选取的特征。
进一步地,作为本发明的一种优选技术方案:所述步骤2中利用递增式学习方法从候选特征集中选择确定最优特征集。
本发明采用上述技术方案,能产生如下技术效果:
本发明的基于条件随机场的电信领域命名实体识别方法,通过自动化的方法进行电信领域命名实体抽取,提高了信息抽取的效率。在进行模型标注时使用BIEO标注模型对词角色进行定义,在一定程度上提高了模型对命名实体边界的识别能力;在选择特征时使用递增式学习策略选择最优特征集,在一定程度上避免了使用穷举法选择最优特征对时间以及人力的耗费,从而在一定程度上提高了电信领域命名实体识别的效率,并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。
附图说明
图1为本发明基于条件随机场的电信领域命名实体识别方法的流程示意图。
图2为本发明中构建关键词集的流程示意图。
图3为本发明中采用递增式学习方法构建最优特征集的流程示意图。
图4为本发明中还原电信领域命名实体的流程示意图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明设计了一种基于条件随机场的电信领域命名实体识别方法,该方法包括以下步骤:
步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注。
首先,对语料进行预处理,预处理包括分词、词性标注,该过程使用IKAnalyzer中文分词器进行分词,使用stanford-postagger-3.5.2进行词性标注。
然后,将完成分词及词性标注的语料文本转化为条件随机场CRF模型规定的输入格式,标准格式如下:
定义1:模版训练文件每行数据内容为Cin
Cin=<词,特征1值,特征2值,……,特征n值,词角色>
定义2:待识别电信文件的每行数据内容为Cout
Cout=<词,O>。
每个句子之间以空行分隔,每列数据之间以制表符分隔,模版训练文件包含全部模型训练数据,待识别文件包含全部待识别电信文本数据。
之后,对已完成格式整理的数据进行标注,标注包括特征值标注以及词角色标注。针对电信领域命名实体,进行分类如下:
套餐类(C):指绑定了新的资费的产品组合;
产品类(P):指以电信手段为客户所提供的服务或者业务;
活动类(A):指商家进行的促销行为。
进一步的,为提高模型对词边界的识别能力,采用BIEO标注模型,定义如下:
B表示实体首部词;
I表示实体内部词:
E表示实体尾部词;
O表示非实体构成词。
综合以上,最终使用10种标记对词角色进行标注,具体标记及含义如下表:
表1标记及其含义
步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版。
首先,该过程定义上下文窗口W以及候选特征集F。
所述定义上下文窗口为:设上下文窗口W是由当前位置词语与其前后数个位置的词语构成的集合。设当前位置的词为S0,上下文窗口大小为N,则上下文窗口W={S-(N-1)/2,S1-(N-1)/2,……,S0,……,S((N-1)/2)-1,S(N-1)/2},共N个元素,其中N为奇数。
所述定义候选特征集为:设候选特征集F是电信领域命名实体所具有特征的集合,设候选特征为Fi,则F={F1,F2,……,Fn},共n个元素。
本实施例中候选特征共包括6个,分别为:词特征(W)、词性特征(P)、关键词特征(K)、数字特征(N)、字母特征(L)、地名特征(G),即候选特征集F={W,P,K,N,L,G}。
其中,当候选特征为关键词特征(K)时,构建关键词集方法如图2所示,具体为:统计训练语料中被标记为电信领域命名实体的词语,将词语在命名实体中出现的次数记为CF,将词语在训练语料中出现的次数记为TF。根据统计结果,计算关键词特征的权重W=CF/TF×100%。提取TF>20且W>0.5的词语加入关键词集合,最终得到电信领域命名实体关键词列表。
根据步骤1中的定义,模版训练文件第i行数据内容Cin=<词,特征1值,特征2值,……,特征n值,词角色>。当特征列为关键词特征(K)时,判断电信领域命名实体关键词列表中是否包含当前词,若包含则关键词特征值为1,若不包含,则为0。
然后,采用递增式学习方法从候选特征集中确定最优特征集。该过程如图3所示,设候选特征集为F,最优特征集为F*。初始阶段,最优特征集F*包含词以及上下文特征两项,候选特征集F则包含除了词和上下文特征以外的其它所有特征。之后,每次将候选特征集F中的一个候选特征加入到最优特征集F*中,将每组实验结果的F-值进行对比,选择当前各组实验中得到最优结果的特征加入到最优特征集F*中,并将其从候选特征集F中删除。一直循环至添加完所有候选特征或当前组实验结果较前组最优结果未有提高。最终,选择得到最优结果的最优特征集F*作为最终的最优特征集,将最优特征集中的特征作为所选取的特征。
本实施例中,通过上述方法最终确定的最优特征集F*={词特征(W),关键词特征(K),数字特征(N)},其上下文窗口大小分别为:3、3和5。
针对最优特征集F*中的特征,结合已确定的上下文窗口大小,分别构建其一元、二元以及三元特征模版,以上下文窗口大小为3的词特征模版的构建为例,如表2所示。
表2上下文窗口为3的词特征模版
步骤3、定义条件随机场CRF模型的特征模版,将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型,得到电信领域命名实体识别CRF模型,并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果。
首先,定义条件随机场CRF模型的特征模版文件,将文件中的每一行代表一个模版,统一采用%x[Row,Col]描述一个输入数据的片段,其中,%x表示当前位置,Row表示相对当前位置的行偏移,取值为0时表示当前位置,取值为正数表示当前位置之后的位置,取值为负数则表示当前位置之前的位置,Col表示列偏移,即对应的特征项,取值为0表示第一列特征,取值为1表示第二列特征,依次类推。
按照以上要求定义特征模版文件,再将步骤2中构建的特征模版转化为标准格式。
本实施例中,第一列特征为词特征(W),第二列特征为关键词特征(K),第三列特征为数字特征(N)。将步骤2中构建的特征模版转化为标准格式,以第一列特征词特征(W)为例:
U000:%x[-1,0]
U001:%x[0,0]
U002:%x[1,0]
U003:%x[-1,0]/%x[0,0]
U004:%x[0,0]/%x[1,0]
U005:%x[-1,0]/%x[0,0]/%x[1,0]
将步骤1处理好的语料及经格式化的特征模版文件输入条件随机场CRF模型,得到相应的电信领域命名实体识别CRF模型。最终将待识别电信文本输入电信领域命名实体识别CRF模型模型,得到最终输出标注结果。
根据步骤1中定义,待识别电信文件的每行数据内容为Cout=<词,O>,输出文件包含电信领域命名实体识别词角色标注结果,每行数据内容为C’out=<词,词角色>。
步骤4、从步骤3模型的输出标注结果中还原识别出的电信领域命名实体。
由步骤3得到的输出结果文件仅对词角色进行了标注,本发明仍需从标注文件中还原识别出的电信领域命名实体。如图4所示,该过程具体如下:
若当前词S0被标注为B,则表示该词为一个命名实体的开头。下一个词S1若被标注为O,则S0为由单个词构成的命名实体;若S1被标注为E,则表示该词为一个命名实体的结束,S0S1共同构成命名实体;若S1被标注为I,则继续判断下一个词S2,直到词Sn被标注为E,S0S1……Sn共同构成命名实体。如果在S0至Sn中存在Sm被标注为O,则舍弃该命名实体。按照以上方法,直到处理完输出结果文件中的全部内容,即得到从电信领域文本中识别出的所有命名实体。
综上,本发明基于条件随机场的电信领域命名实体识别方法,在进行模型标注时使用BIEO标注模型对词角色进行定义,在一定程度上提高了模型对命名实体边界的识别能力;在选择特征时使用递增式学习策略选择最优特征集,在一定程度上避免了使用穷举法选择最优特征对时间以及人力的耗费,从而在一定程度上提高了电信领域命名实体识别的效率,并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于条件随机场的电信领域命名实体识别方法,其特征在于,包括以下步骤:
步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注;
步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版;
步骤3、定义条件随机场CRF模型的特征模版,将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型,得到电信领域命名实体识别CRF模型,并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果;
步骤4、从步骤3所得输出标注结果中还原识别出的电信领域命名实体。
2.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法,其特征在于:所述步骤1中采用BIEO标注模型进行标注。
3.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法,其特征在于:所述步骤1中进行标注包括特征值标注以及词角色标注。
4.根据权利要求1所述基于条件随机场的电信领域命名实体识别方法,其特征在于:所述步骤2中从候选特征集中选取特征,具体包括:
定义电信领域命名实体所具有特征的集合作为候选特征集;
从候选特征集中选择确定最优特征集,及将最优特征集中的特征作为所选取的特征。
5.根据权利要求4所述基于条件随机场的电信领域命名实体识别方法,其特征在于:所述步骤2中利用递增式学习方法从候选特征集中选择确定最优特征集。
CN201711096147.5A 2017-11-09 2017-11-09 一种基于条件随机场的电信领域命名实体识别方法 Pending CN107832296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711096147.5A CN107832296A (zh) 2017-11-09 2017-11-09 一种基于条件随机场的电信领域命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711096147.5A CN107832296A (zh) 2017-11-09 2017-11-09 一种基于条件随机场的电信领域命名实体识别方法

Publications (1)

Publication Number Publication Date
CN107832296A true CN107832296A (zh) 2018-03-23

Family

ID=61654894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711096147.5A Pending CN107832296A (zh) 2017-11-09 2017-11-09 一种基于条件随机场的电信领域命名实体识别方法

Country Status (1)

Country Link
CN (1) CN107832296A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN111553158A (zh) * 2020-04-21 2020-08-18 中国电力科学研究院有限公司 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统
US10853576B2 (en) 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
US20170092264A1 (en) * 2015-09-24 2017-03-30 Microsoft Technology Licensing, Llc Detecting Actionable Items in a Conversation among Participants
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
US20170092264A1 (en) * 2015-09-24 2017-03-30 Microsoft Technology Licensing, Llc Detecting Actionable Items in a Conversation among Participants
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王春雨 等: "基于条件随机场的农业命名实体识别研究", 《河北农业大学学报》 *
郝乐川: "基于条件随机场的音乐领域命名实体识别", 《中国优秀硕士学位论文全文数据库》 *
郭剑毅 等: "基于层叠条件随机场的旅游领域命名实体识别", 《中文信息学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
US10853576B2 (en) 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
CN111553158A (zh) * 2020-04-21 2020-08-18 中国电力科学研究院有限公司 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN101950284B (zh) 中文分词方法及系统
CN104809176A (zh) 藏语实体关系抽取方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN106528526B (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN109829159A (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN102662923A (zh) 一种基于机器学习的本体实例学习方法
CN102542067A (zh) 基于尺度学习和关联标号传播的自动图像语义标注方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN107832296A (zh) 一种基于条件随机场的电信领域命名实体识别方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN110348017B (zh) 一种文本实体检测方法、系统及相关组件
CN106407235A (zh) 一种基于点评数据的语义词典构建方法
CN112347761B (zh) 基于bert的药物关系抽取方法
CN103500216A (zh) 一种文件信息的提取方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN114969294A (zh) 一种音近敏感词的扩展方法
CN106776866A (zh) 一种对高校网站上的会议稿进行知识抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180323