CN111310470A - 一种融合字词特征的中文命名实体识别方法 - Google Patents
一种融合字词特征的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN111310470A CN111310470A CN202010053878.7A CN202010053878A CN111310470A CN 111310470 A CN111310470 A CN 111310470A CN 202010053878 A CN202010053878 A CN 202010053878A CN 111310470 A CN111310470 A CN 111310470A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- sequence
- named entity
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种融合字词特征的中文命名实体识别方法。
背景技术
随着互联网的飞速发展,各种社交软件,新闻媒介应运而生,导致网络上的信息越发丰富,这意味着在海量数据中快速精准地找到有效信息越来越困难。我们把网络中的文本称为自然语言,由于中文文本的组成结构,致使理解文本的前提是提取文本中的词的特征,即从非结构化文本中提取到有用的结构化数据的特征,而命名实体识别是从海量的自然语言文本中抽取如人名、地名、机构名等专有名词的任务,因此,对它的研究具有重要的研究意义和价值。
相较于英文命名实体识别,中文实体识别的研究难度更大。由于在中文文本里词语之间没有分隔符,造成了在分析文本前必须先进行分词。为了避免因为分词错误而导致识别出的实体边界错误,中文命名实体识别领域提出了通过单字进行识别,但单字识别同样存在弊端,即其未能利用文本中的词语和词语之间的特征信息。
综上所述,如何从中文文本的结构特征出发,有效的解决命名实体识别的识别准确率低的问题,是目前领域的研究人员需要解决的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种结合字特征、位置特征和词的映射特征的中文命名实体识别方法,提高了实体识别的准确率。
本发明采用以下技术方案:
一种融合字词特征的中文命名实体识别方法,包括以下步骤:
S1、通过拼接字向量xc、位置向量xs和词的映射向量xw构建特征表示层,作为模型的输入向量xemb;
S3、将得分信息P输入CRF层,同时引入转移得分矩阵A,CRF根据序列的全局标签概率p(y|x)选择全局最优的标签序列,输出序列标注结果y1,y2,...,yn。
其中,ec为字向量的查找表,ci为字xi对应的id。
其中,es为位置向量的查找表,si为字xi在所属词内位置对应的id。
具体的,步骤S3中,利用softmax得到归一化的序列全局标签概率p(y|x)如下:
进一步的,步骤S3中,若标签序列y=(y1,y2,...,yn),模型对于序列x的标签等于y的打分score(x,y)计算如下:
与现有技术相比,本发明至少具有以下有益效果:
本发明提出了一种融合字词特征的中文命名实体识别方法,综合字符特征,位置特征及词的映射特征表征字的特征,从而加深模型对中文文本的理解,大大提高了命名实体识别的准确率。由于中文文本是由词语所组成的,完全基于字符特征会导致学习的语义和语法信息不完整,不能很好的传达文本的特征,而结合了位置特征和词的映射特征则充分利用了词语及词语之间的信息,避免了因为特征表示不完整而导致理解的文本内容有偏差,最终影响模型识别的性能。本文采用的模型结构是基于字的BiLSTM-CRF,其相比于基于词的BiLSTM-CRF效果更佳,它不会因为分词错误而完全导致实体边界识错误。
进一步的,通过在字特征的基础上引入位置特征和词的映射特征来表征字的特征。在特征表示中,仅使用字的特征将导致无法获取词以及词与词之间的语义信息,通过引入位置特征,获取得到字在词中的位置信息,但是位置特征其所包含的信息是单一的,只能统一的表示词首,词中,词尾的信息。为了更全面的表达序列信息,综合考虑文本中的每个词都有可能对当前位置的标注产生影响,在以上的基础上引入词的部分映射特征,提取词及词间的具体信息,从而利于模型对序列的理解,提高模型的准确率。
进一步的,通过softmax计算序列的全局标签概率。一般来说,对于一个序列x,如果序列x的长度为n,有m个可能的标签,那么共有mn个可能的标记结果。我们利用BiLSTM和CRF模型计算出每个可能的标注结果的得分,然后利用softmax归一化求出某个标注结果的概率p,并选择概率最大的作为全局最优的标注结果。
综上所述,本发明通过综合分析后得到的结果数据加强了模型对文本的理解,提高了模型识别任务中的F1值。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明模型的结构图;
图2为本发明模型中词的映射特征提取的结构图。
具体实施方式
本发明提供了一种融合字词特征的中文命名实体识别方法,特征提取层包括字的特征c,位置特征s和词的映射特征w。位置特征是提取字在所属词的位置信息,但由于该特征是抽象的,只能提取每一个字位于词首、词中和词尾的信息。而在命名实体识别的预测阶段,每个词都有可能对当前位置的标注产生影响,从而引入词的映射特征,该特征是以词中字的位置权重比例,将学习到的词的上下文的特征映射到词中的每一个字,规避了位置特征提取到的单一的词信息,进一步帮助模型理解文本信息。将拼接的字特征、位置特征和词的映射特征输入BiLSTM,得到上下文的深层次特征,对该特征执行非线性变换,获取得分矩阵。将得分矩阵输入CRF层,CRF层综合考虑得分矩阵和标签的转移得分矩阵,输出序列标注结果。
本发明一种融合字词特征的中文命名实体识别方法,包括以下步骤:
S1、通过拼接字向量xc、位置向量xs和词的映射向量xw构建特征表示层,作为模型的输入向量xemb;
其中,ec为字向量的查找表,ci为字xi对应的id。
其中,es为位置向量的查找表,si为字xi在所属词内位置(词首、词中、词尾)对应的id。
其中,位置权重向量是通过将每一个字的位置映射为连续稠密的向量,esw为位置权重向量的查找表,xi∈xj,词向量的获取是将每一个词映射为连续稠密的向量,ewd为词向量的查找表,wdj为词对应的id,词的映射向量是以每一个字的位置权重比例,对其所属词的上下文特征向量映射,为以词向量作为双向LSTM的输入而获得的上下文信息。
S3、将得分信息P输入CRF层,同时引入转移得分矩阵A,CRF根据序列的全局标签概率p(y|x)选择全局最优的标签序列,输出序列标注结果y1,y2,...,yn。
引入转移得分矩阵A,其中,Ai,j矩阵元素表示从标签i转移到标签j的得分,同时需要在句子的起始和结尾位置需要分别添加一个初始状态和终止状态。序列的全局标签概率p(y|x)的计算如下:
其中,为所有的可能的标签的得分的指数值,p(y|x)为利用softmax得到归一化的全局标签概率。若标签序列y=(y1,y2,...,yn),模型对于序列x的标签等于y的打分为score(x,y),为上述BiLSTM的输出得分矩阵中的值,为转移得分矩阵A中的值。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,为本发明所提出模型的整体架构,主要由特征表示层、BiLSTM和CRF层三部分组成。其中,特征表示层主要由字特征c、位置特征s和词的映射特征w组成。其中字特征层、位置特征层和位置权重特征层均接收字作为输入,词特征层接收词作为输入,通过字或词的离散id获得对应的连续稠密的特征向量。词的映射特征w的提取是将词向量wd输入到BiLSTM中,得到每一个词对应的上下文特征,同时将该上下文特征与词中所属字的位置权重特征sw按位乘。然后,将字向量c、词的映射向量w和位置向量s拼接以表示单字在特定语义空间下的特征。随后将拼接后的特征作为BiLSTM的输入,得到BiLSTM输出的得分矩阵,并以此作为CRF层的输入,CRF层综合考虑BiLSTM输出的得分矩阵和上下文标签的转移矩阵,输出序列标注结果y1,y2,...,yn。
本发明实验数据来自于98年的人民日报中文新闻语料库,验证模型在中文命名实体识别研究领域内的有效性。实验中以中文语料库中的80%作为训练数据集,10%作为验证集,剩下的约10%作为测试集。训练集语料包括15000条中文文本句子,由于中文语料包含的信息量较多,处理它的复杂度较大,所以在中文命名实体识别之前需要预处理数据。
在前期为了规避数字对文本的影响,将文本的所有的数字以*代替。人民日报中的实体包括人名(PER)、地名(LOC)、机构名(ORG)3类实体。其模型训练的步骤如下:
S1、获取字特征、位置特征和词的映射特征,并将其拼接构建特征表示层;
S2、将特征表示层的特征输入BiLSTM,经过BiLSTM得到上下文特征,对该特征执行非线性变换,得到得分矩阵;
S3、将得分矩阵输入CRF层,CRF层综合考虑得分矩阵和标签的转移得分矩阵,输出序列标注结果y1,y2,...,yn。
按照上述步骤,将本发明分别与常用的模型即基于字特征的BiLSTM-CRF、基于字和位置特征的S-BiLSTM-CRF和基于字、位置和词的映射特征的W-S-BiLSTM-CRF进行对比。对比结果表明本发明所提出的模型在性能上优于常用的命名实体识别模型。
表1本发明模型和其他对比模型在人民日报数据集上的实验结果
c-dim | s-dim | w-dim | ORG | PER | LOC | F1 | |
BiLSTM-CRF | 300 | 20 | 无 | 87.92 | 92.17 | 90.35 | 90.50 |
S-BiLSTM-CRF | 300 | 20 | 无 | 89.47 | 93.58 | 91.72 | 91.91 |
W-S-BiLSTM-CRF | 300 | 20 | 300 | 90.66 | 94.08 | 92.24 | 92.57 |
实验结果表明:
通过将本发明的模型与当前已有的流行模型对比,其整体的F1值提高。如表1所示。可以看出,本发明模型在针对处理中文文本任务时可以提高命名实体识别的准确率。
综上所述,本发明在文本语义理解和识别准确率方面都有着很大的提升。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053878.7A CN111310470B (zh) | 2020-01-17 | 2020-01-17 | 一种融合字词特征的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053878.7A CN111310470B (zh) | 2020-01-17 | 2020-01-17 | 一种融合字词特征的中文命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310470A true CN111310470A (zh) | 2020-06-19 |
CN111310470B CN111310470B (zh) | 2021-11-19 |
Family
ID=71148806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010053878.7A Active CN111310470B (zh) | 2020-01-17 | 2020-01-17 | 一种融合字词特征的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310470B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115721A (zh) * | 2020-09-28 | 2020-12-22 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
CN112464663A (zh) * | 2020-12-01 | 2021-03-09 | 小牛思拓(北京)科技有限公司 | 一种多特征融合的中文分词方法 |
CN112989832A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种应用在网络安全领域的实体链接方法 |
CN112989831A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种应用在网络安全领域的实体抽取方法 |
CN113065346A (zh) * | 2021-04-02 | 2021-07-02 | 国网浙江省电力有限公司信息通信分公司 | 文本实体的识别方法及相关装置 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113656560A (zh) * | 2021-10-19 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 情感类别的预测方法和装置、存储介质及电子设备 |
CN114912455A (zh) * | 2022-07-12 | 2022-08-16 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
CN112115721B (zh) * | 2020-09-28 | 2024-05-17 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180203843A1 (en) * | 2017-01-13 | 2018-07-19 | Yahoo! Inc. | Scalable Multilingual Named-Entity Recognition |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
-
2020
- 2020-01-17 CN CN202010053878.7A patent/CN111310470B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180203843A1 (en) * | 2017-01-13 | 2018-07-19 | Yahoo! Inc. | Scalable Multilingual Named-Entity Recognition |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Non-Patent Citations (2)
Title |
---|
柏兵 等: "基于CRF 和BI-LSTM 的命名实体识别方法", 《北京信息科技大学学报》 * |
车金立 等: "融合词位字向量的军事领域命名实体识别", 《火炮发射与控制学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115721A (zh) * | 2020-09-28 | 2020-12-22 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
CN112115721B (zh) * | 2020-09-28 | 2024-05-17 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
CN112464663A (zh) * | 2020-12-01 | 2021-03-09 | 小牛思拓(北京)科技有限公司 | 一种多特征融合的中文分词方法 |
CN112989832A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种应用在网络安全领域的实体链接方法 |
CN112989831A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种应用在网络安全领域的实体抽取方法 |
CN113065346A (zh) * | 2021-04-02 | 2021-07-02 | 国网浙江省电力有限公司信息通信分公司 | 文本实体的识别方法及相关装置 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113609857B (zh) * | 2021-07-22 | 2023-11-28 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113656560A (zh) * | 2021-10-19 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 情感类别的预测方法和装置、存储介质及电子设备 |
CN114912455A (zh) * | 2022-07-12 | 2022-08-16 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
CN114912455B (zh) * | 2022-07-12 | 2022-09-30 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111310470B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
CN110175246B (zh) | 一种从视频字幕中提取概念词的方法 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
US20240143644A1 (en) | Event detection | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN111815426B (zh) | 一种涉及金融投研的数据处理方法及终端 | |
CN111831792A (zh) | 一种电力知识库构建方法及系统 | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
US20100145677A1 (en) | System and Method for Making a User Dependent Language Model | |
CN115062603A (zh) | 对齐增强语义解析方法、装置和计算机程序产品 | |
CN114492469A (zh) | 一种翻译方法、翻译装置和计算机可读存储介质 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |