CN111310468A - 一种利用不确定分词信息实现中文命名实体识别方法 - Google Patents
一种利用不确定分词信息实现中文命名实体识别方法 Download PDFInfo
- Publication number
- CN111310468A CN111310468A CN202010044368.3A CN202010044368A CN111310468A CN 111310468 A CN111310468 A CN 111310468A CN 202010044368 A CN202010044368 A CN 202010044368A CN 111310468 A CN111310468 A CN 111310468A
- Authority
- CN
- China
- Prior art keywords
- character
- word segmentation
- named entity
- vector
- entity recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种利用不确定分词信息实现中文命名实体识别方法,本发明为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来,提出一种利用不确定分词信息实现中文命名实体识别模型,不确定分词信息包含所有分词情况而不是单独的一种,对字符候选分词位置信息编码,采用动态注意力机制整合分词的不确定信息。识别过程中,模型动态地选择有益的分词信息而自动忽视错误信息,最后得到最优的分词结果。与现有技术相比,本发明具有有效缓解错误级联、增强字符向量语义表达、分词错误率低等优点。
Description
技术领域
本发明涉及自然语言处理学(NLP)技术领域,涉及一种中文命名实体识别(NER)的方法,尤其是涉及一种利用不确定分词信息实现中文命名实体识别(UIcwsNN)方法。
背景技术
命名实体识别是NLP领域的基本任务并且有丰富的下层应用。然而相对于英文,中文句子没有分隔符,即中文文本是以字为单位的序列,词与词无法直接区分开来,而词语级别的信息对于命名实体识别是非常重要的。现有的分词工具会输出大量错误的分词结果,从而导致命名实体识别难以实现,识别效果不理想。
已有的中文命名实体识别方法,通常将其看作一个字符序列标注问题,通过对字分配标记完成命名实体识别。在字符级上进行字符序列的标注,把分词信息以特征向量方式加入标注系统,然而分词错误信息同样会引入,即便是同时进行命名实体和分词模型的训练,分词的错误信息依然会流入命名实体系统,产生噪声或错误,这种多任务联合学习无疑会增加模型训练的开销。综上,这些方法在利用分词信息时有一个共同的疏忽点,就是都是将自认为正确的分词信息引入到实体识别系统或模块中,不管这些信息是否完全正确,错误的分词信息必然会给实体识别带来负面的扰乱。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种利用不确定分词信息实现中文命名实体识别方法,探究如何才能有效利用分词信息来进行中文NER,为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来,提出一种利用不确定分词信息实现中文命名实体识别模型,不确定分词信息包含所有分词情况而不是单独的一种,对字符候选分词位置信息编码,采用动态注意力机制整合分词的不确定信息。识别过程中,模型动态地选择有益的分词信息而自动忽视错误信息,最后得到最优的分词结果。
本发明的目的可以通过以下技术方案来实现:
一种利用不确定分词信息实现中文命名实体识别方法,该方法包括以下步骤:
步骤9:根据pi得到字符位置标注序列Sp并将其作为S的分词边界标注,在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。
进一步地,所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。
进一步地,所述的步骤2中的分词模型包括jieba、THULAC或HanLP。
进一步地,所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。
进一步地,所述的步骤8中的卷积神经网络为BiCNNs+CRF,网络模型的CNNs能捕捉局部信息,CRF能保证连续标注之间的依赖性。
进一步地,所述的步骤9中的数据集为命名实体集NE或名词提及集NM。
进一步地,所述的步骤5中的语义位置特征向量Ai,其计算公式为:
与现有技术相比,本发明具有以下优点:
(1)本发明提出一种方法,根据分词工具得到字符候选分词位置,进行不确定信息编码考虑了所有分词情况而不是一种,整合不确定性分词信息,让分词信息在识别系统中发挥效用的同时,提高对分词错误信息的容错能力,从而有效缓解错误级联的难题;
(2)本发明包含多种embedding信息,通过卷积滑动窗口设定,实现相邻字符信息拼接,弥补了上下文语义不足,增强了字符向量的语义表达;
(3)本发明提出一种动态选择机制,自动识别输入信息的有效性,针对不同字符的拼接设定注意力程度,可以给有效的分词信息更多的注意力而自动忽视错误信息,最终减少分词错误,有利于提及边界的识别。
附图说明
图1为本发明的识别模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明方法的技术方案为:
其中,ec为训练字符序列产生的字符向量查找表,ci表示SC中第i个字符。
其中,ep表示字符在分词位置信息的编码,分词位置设定为开头、中间、结尾、单独4种,分词位置出现记为1,否则为0。
其中,d4=d1+d3,d1≤d3,将位置特征平行甚至超过字符特征,即为主要学习特征。
其中d6=d1+d5,d1>d5,将字符特征超过位置特征,即为主要学习特征。
其中,rp为位置标注向量查找表,根据每个字符在分词中的位置,将第一个字符标记为B,中间字符标记为I,最后一个字符标记为E,单独作为一个词的字符标记为S。
1.10将1.9的Pi得到的字符位置标注序列Sp={p1,p2,…,pn}作为1.1所述S的分词边界标注。将方法在数据集运行,计算综合评价指标,逐步实现中文命名实体识别。
下面集合附图和具体实施例对本发明技术方案做进一步的分析说明:
实施例
1.1输入中文文本“南京市长江大桥调研”,得到字符序列[‘南’,‘京’,‘市’,‘长’,‘江’,‘大’,‘桥’,‘调’,‘研’],字符数为9个,使用Word2vec的方法进行预训练,每个字符得到100维字符向量;
1.2将1.1所述的字符序列输入jieba分词模型中得到所有候选分词信息[‘南京’,‘南京市’,‘京市’,‘市长’,‘长江’,‘长江大桥’,‘江’,‘大桥’,‘调研’],根据每个字符是否出现在分词中的位置信息得到维度大小为4的字符候选分词位置向量,得到向量组:
1.3将1.2所述的每个4维字符候选分词位置向量被乘4×100维的矩阵扩充至100维拼接1.1所述的字符向量得到维度大小为200的字符位置融合向量。
1.4将1.3所述的字符位置融合向量输入BiCNNs,选取有限个不同大小的卷积窗口,以每个字符位置融合向量为开头双向截取l个相邻字符特征向量。
1.6将1.5所述的250维向量被乘250×4维矩阵,再由激活函数和时间分布层得到4维语义位置特征向量,得到向量组:
1.7将1.6所述的向量组softmax处理,输出字符在分词位置的概率向量组:
1.8将1.7所述的概率向量组替换1.3公式所述的字符候选分词位置向量,被乘4×25维的矩阵扩充至25维拼接1.1所述的字符向量得到维度大小为125的得到字符概率位置融合向量。
1.9将1.8所述的字符概率位置融合向量输入BiCNNs+CRF,重复1.4~1.5步骤,在CRF层解码得到字符位置向量组,使用标注集P={B,I,E,S}进行标注,得到字符位置标注序列[‘B’,‘I’,‘E’,‘B’,‘I’,‘I’,‘E’,‘B’,‘E’]。
1.10将1.9的得到的字符位置标注序列作为1.1所述中文文本的分词边界标注,得到分词[‘南京市’,‘长江大桥’,‘调研’]。该方法在NE、NM、ALL的F值分别为57.94、65.77、61.54,得到最优的评价结果,逐步实现中文命名实体识别。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,该方法包括以下步骤:
步骤9:根据pi得到字符位置标注序列Sp并将其作为S的分词边界标注,在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。
2.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。
3.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤2中的分词模型包括jieba、THULAC或HanLP。
4.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。
5.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤8中的卷积神经网络为BiCNNs+CRF。
6.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤9中的数据集为命名实体集NE或名词提及集NM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044368.3A CN111310468B (zh) | 2020-01-15 | 2020-01-15 | 一种利用不确定分词信息实现中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044368.3A CN111310468B (zh) | 2020-01-15 | 2020-01-15 | 一种利用不确定分词信息实现中文命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310468A true CN111310468A (zh) | 2020-06-19 |
CN111310468B CN111310468B (zh) | 2023-05-05 |
Family
ID=71161364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010044368.3A Active CN111310468B (zh) | 2020-01-15 | 2020-01-15 | 一种利用不确定分词信息实现中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310468B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257965A (zh) * | 2020-11-26 | 2021-01-22 | 深源恒际科技有限公司 | 图像文本识别置信度的预测方法和预测系统 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN113627172A (zh) * | 2021-07-26 | 2021-11-09 | 重庆邮电大学 | 基于多粒度特征融合和不确定去噪的实体识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
-
2020
- 2020-01-15 CN CN202010044368.3A patent/CN111310468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
Non-Patent Citations (3)
Title |
---|
CHENG GONG,JIUYANG TANG: "Chinese named entity recognition with bert", 《DESTECH TRANSACTIONS ON COMPUTER SCIENCE AND ENGINEERING》 * |
姚霖等: "词边界字向量的中文命名实体识别", 《智能系统学报》 * |
潘璀然等: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", 《第二军医大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112257965A (zh) * | 2020-11-26 | 2021-01-22 | 深源恒际科技有限公司 | 图像文本识别置信度的预测方法和预测系统 |
CN113627172A (zh) * | 2021-07-26 | 2021-11-09 | 重庆邮电大学 | 基于多粒度特征融合和不确定去噪的实体识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111310468B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN104679850B (zh) | 地址结构化方法及装置 | |
CN109359304B (zh) | 限定性神经网络机器翻译方法及存储介质 | |
CN110110327A (zh) | 一种基于对抗学习的文本标注方法和设备 | |
CN111611810A (zh) | 一种多音字读音消歧装置及方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
WO2023093525A1 (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN111310468A (zh) | 一种利用不确定分词信息实现中文命名实体识别方法 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN110929518B (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN116757184B (zh) | 融合发音特征的越南语语音识别文本纠错方法及系统 | |
CN113657122A (zh) | 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 | |
CN116069924A (zh) | 一种融合全局和局部语义特征的文本摘要生成方法及系统 | |
CN113554021B (zh) | 一种智能化印章识别方法 | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
Meknavin et al. | Combining trigram and winnow in Thai OCR error correction | |
CN114528459A (zh) | 一种基于语义的网页信息抽取方法及系统 | |
CN102955842A (zh) | 一种多特征融合识别中文机构名的控制方法 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN112101019A (zh) | 一种基于词性标注和组块分析的需求模板符合性检查优化方法 | |
Lakshmi et al. | An ensemble of grapheme and phoneme-based models for automatic English to Kannada back-transliteration | |
CN116994282B (zh) | 一种用于桥梁设计图的钢筋数量识别归集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |