CN111310468A - 一种利用不确定分词信息实现中文命名实体识别方法 - Google Patents

一种利用不确定分词信息实现中文命名实体识别方法 Download PDF

Info

Publication number
CN111310468A
CN111310468A CN202010044368.3A CN202010044368A CN111310468A CN 111310468 A CN111310468 A CN 111310468A CN 202010044368 A CN202010044368 A CN 202010044368A CN 111310468 A CN111310468 A CN 111310468A
Authority
CN
China
Prior art keywords
character
word segmentation
named entity
vector
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010044368.3A
Other languages
English (en)
Other versions
CN111310468B (zh
Inventor
向阳
贾圣宾
徐忠国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010044368.3A priority Critical patent/CN111310468B/zh
Publication of CN111310468A publication Critical patent/CN111310468A/zh
Application granted granted Critical
Publication of CN111310468B publication Critical patent/CN111310468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种利用不确定分词信息实现中文命名实体识别方法,本发明为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来,提出一种利用不确定分词信息实现中文命名实体识别模型,不确定分词信息包含所有分词情况而不是单独的一种,对字符候选分词位置信息编码,采用动态注意力机制整合分词的不确定信息。识别过程中,模型动态地选择有益的分词信息而自动忽视错误信息,最后得到最优的分词结果。与现有技术相比,本发明具有有效缓解错误级联、增强字符向量语义表达、分词错误率低等优点。

Description

一种利用不确定分词信息实现中文命名实体识别方法
技术领域
本发明涉及自然语言处理学(NLP)技术领域,涉及一种中文命名实体识别(NER)的方法,尤其是涉及一种利用不确定分词信息实现中文命名实体识别(UIcwsNN)方法。
背景技术
命名实体识别是NLP领域的基本任务并且有丰富的下层应用。然而相对于英文,中文句子没有分隔符,即中文文本是以字为单位的序列,词与词无法直接区分开来,而词语级别的信息对于命名实体识别是非常重要的。现有的分词工具会输出大量错误的分词结果,从而导致命名实体识别难以实现,识别效果不理想。
已有的中文命名实体识别方法,通常将其看作一个字符序列标注问题,通过对字分配标记完成命名实体识别。在字符级上进行字符序列的标注,把分词信息以特征向量方式加入标注系统,然而分词错误信息同样会引入,即便是同时进行命名实体和分词模型的训练,分词的错误信息依然会流入命名实体系统,产生噪声或错误,这种多任务联合学习无疑会增加模型训练的开销。综上,这些方法在利用分词信息时有一个共同的疏忽点,就是都是将自认为正确的分词信息引入到实体识别系统或模块中,不管这些信息是否完全正确,错误的分词信息必然会给实体识别带来负面的扰乱。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种利用不确定分词信息实现中文命名实体识别方法,探究如何才能有效利用分词信息来进行中文NER,为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来,提出一种利用不确定分词信息实现中文命名实体识别模型,不确定分词信息包含所有分词情况而不是单独的一种,对字符候选分词位置信息编码,采用动态注意力机制整合分词的不确定信息。识别过程中,模型动态地选择有益的分词信息而自动忽视错误信息,最后得到最优的分词结果。
本发明的目的可以通过以下技术方案来实现:
一种利用不确定分词信息实现中文命名实体识别方法,该方法包括以下步骤:
步骤1:输入中文文本S,得到字符序列SC,进一步训练SC得到字符向量
Figure BDA0002368851040000021
步骤2:将得到的字符序列SC输入分词模型中得到所有候选分词信息,并进一步根据字符可能位置得到字符候选分词位置向量
Figure BDA0002368851040000022
步骤3:结合得到的
Figure BDA0002368851040000023
Figure BDA0002368851040000024
通过相应映射矩阵并拼接得到字符位置融合向量
Figure BDA0002368851040000025
步骤4:将得到的
Figure BDA0002368851040000026
输入卷积神经网络,选取卷积窗口并双向截取得到相邻字符特征向量
Figure BDA0002368851040000027
步骤5:将所有的
Figure BDA0002368851040000028
取j次并全部拼接得到
Figure BDA0002368851040000029
结合
Figure BDA00023688510400000210
及其相应映射矩阵再利用激活函数和时间分布层进一步得到语义位置特征向量Ai
步骤6:对Ai进行softmax处理,输出得到字符在分词位置的概率向量
Figure BDA00023688510400000211
步骤7:结合得到的
Figure BDA00023688510400000212
Figure BDA00023688510400000213
通过相应映射矩阵并拼接得到字符概率位置融合向量
Figure BDA00023688510400000214
步骤8:将得到的
Figure BDA00023688510400000215
输入卷积神经网络,重复步骤4至步骤5解码得到字符位置向量
Figure BDA00023688510400000216
利用标注集进行标注得到字符位置标准序列pi
步骤9:根据pi得到字符位置标注序列Sp并将其作为S的分词边界标注,在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。
进一步地,所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。
进一步地,所述的步骤2中的分词模型包括jieba、THULAC或HanLP。
进一步地,所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。
进一步地,所述的步骤8中的卷积神经网络为BiCNNs+CRF,网络模型的CNNs能捕捉局部信息,CRF能保证连续标注之间的依赖性。
进一步地,所述的步骤9中的数据集为命名实体集NE或名词提及集NM。
进一步地,所述的步骤3中的字符位置融合向量
Figure BDA00023688510400000217
其计算公式为:
Figure BDA00023688510400000218
式中,Wp为用于将字符候选分词位置向量
Figure BDA00023688510400000219
扩充维度的映射矩阵。
进一步地,所述的步骤4中的相邻字符特征向量
Figure BDA0002368851040000031
其计算公式为:
Figure BDA0002368851040000032
式中,
Figure BDA0002368851040000033
为卷积核,
Figure BDA0002368851040000034
为偏置值,l为相邻字符特征向量
Figure BDA0002368851040000035
的截取个数。
进一步地,所述的步骤5中的语义位置特征向量Ai,其计算公式为:
Figure BDA0002368851040000036
式中,
Figure BDA0002368851040000037
为用于将
Figure BDA0002368851040000038
扩充维度的映射矩阵。
进一步地,所述的步骤7中的字符概率位置融合向量
Figure BDA0002368851040000039
其计算公式为:
Figure BDA00023688510400000310
式中,Wvp为用于将字符候选分词位置向量
Figure BDA00023688510400000311
扩充维度的映射矩阵。
与现有技术相比,本发明具有以下优点:
(1)本发明提出一种方法,根据分词工具得到字符候选分词位置,进行不确定信息编码考虑了所有分词情况而不是一种,整合不确定性分词信息,让分词信息在识别系统中发挥效用的同时,提高对分词错误信息的容错能力,从而有效缓解错误级联的难题;
(2)本发明包含多种embedding信息,通过卷积滑动窗口设定,实现相邻字符信息拼接,弥补了上下文语义不足,增强了字符向量的语义表达;
(3)本发明提出一种动态选择机制,自动识别输入信息的有效性,针对不同字符的拼接设定注意力程度,可以给有效的分词信息更多的注意力而自动忽视错误信息,最终减少分词错误,有利于提及边界的识别。
附图说明
图1为本发明的识别模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明方法的技术方案为:
1.1输入中文文本S,得到字符序列SC={c1,c2,…,cn},其中n表示总字符数;训练SC得到维度大小为d1的字符向量
Figure BDA0002368851040000041
Figure BDA0002368851040000042
其中,ec为训练字符序列产生的字符向量查找表,ci表示SC中第i个字符。
1.2将1.1所述的SC输入分词模型中得到所有候选分词信息,根据每个字符可能出现在分词中的位置,得到维度大小为d2的字符候选分词位置向量
Figure BDA0002368851040000043
Figure BDA0002368851040000044
其中,ep表示字符在分词位置信息的编码,分词位置设定为开头、中间、结尾、单独4种,分词位置出现记为1,否则为0。
1.3将1.2所述的
Figure BDA0002368851040000045
被乘Wp矩阵扩充至d3维拼接1.1所述的
Figure BDA0002368851040000046
得到维度大小为d4的字符位置融合向量
Figure BDA0002368851040000047
Figure BDA0002368851040000048
其中,d4=d1+d3,d1≤d3,将位置特征平行甚至超过字符特征,即为主要学习特征。
1.4将1.3所述的
Figure BDA0002368851040000049
输入卷积神经网络,选取有限个不同大小的卷积窗口,以
Figure BDA00023688510400000410
为开头双向截取l个相邻字符特征向量
Figure BDA00023688510400000411
Figure BDA00023688510400000412
1.5将1.4所述的
Figure BDA00023688510400000430
的l取j次值,不同l的取值对应不同维度的
Figure BDA00023688510400000413
Figure BDA00023688510400000414
体现不同注意力程度,得到
Figure BDA00023688510400000415
Figure BDA00023688510400000416
拼接得到
Figure BDA00023688510400000417
维向量
Figure BDA00023688510400000418
Figure BDA00023688510400000419
1.6将1.5所述的
Figure BDA00023688510400000420
被乘矩阵
Figure BDA00023688510400000421
再由激活函数和时间分布层得到语义位置特征向量Ai
Figure BDA00023688510400000422
其中Ai的维度为d2,与
Figure BDA00023688510400000423
一致。
1.7将1.6所述的Ai进行softmax处理,输出字符在分词位置的概率向量
Figure BDA00023688510400000424
Figure BDA00023688510400000425
其中,
Figure BDA00023688510400000426
的维度为d2,与
Figure BDA00023688510400000427
一致。
1.8将1.7所述的
Figure BDA00023688510400000428
替换1.3公式所述的
Figure BDA00023688510400000429
被乘Wvp矩阵扩至d5拼接1.1所述的
Figure BDA0002368851040000051
得到维度大小为d6的字符概率位置融合向量
Figure BDA0002368851040000052
Figure BDA0002368851040000053
其中d6=d1+d5,d1>d5,将字符特征超过位置特征,即为主要学习特征。
1.9将1.8所述的
Figure BDA0002368851040000054
输入卷积神经网络,重复1.4~1.5步骤,在解码层解码得到字符位置向量
Figure BDA0002368851040000055
使用标注集P进行标注,得到字符位置标注序列Pi
Figure BDA0002368851040000056
其中,rp为位置标注向量查找表,根据每个字符在分词中的位置,将第一个字符标记为B,中间字符标记为I,最后一个字符标记为E,单独作为一个词的字符标记为S。
1.10将1.9的Pi得到的字符位置标注序列Sp={p1,p2,…,pn}作为1.1所述S的分词边界标注。将方法在数据集运行,计算综合评价指标,逐步实现中文命名实体识别。
下面集合附图和具体实施例对本发明技术方案做进一步的分析说明:
实施例
1.1输入中文文本“南京市长江大桥调研”,得到字符序列[‘南’,‘京’,‘市’,‘长’,‘江’,‘大’,‘桥’,‘调’,‘研’],字符数为9个,使用Word2vec的方法进行预训练,每个字符得到100维字符向量;
1.2将1.1所述的字符序列输入jieba分词模型中得到所有候选分词信息[‘南京’,‘南京市’,‘京市’,‘市长’,‘长江’,‘长江大桥’,‘江’,‘大桥’,‘调研’],根据每个字符是否出现在分词中的位置信息得到维度大小为4的字符候选分词位置向量,得到向量组:
Figure BDA0002368851040000057
1.3将1.2所述的每个4维字符候选分词位置向量被乘4×100维的矩阵扩充至100维拼接1.1所述的字符向量得到维度大小为200的字符位置融合向量。
1.4将1.3所述的字符位置融合向量输入BiCNNs,选取有限个不同大小的卷积窗口,以每个字符位置融合向量为开头双向截取l个相邻字符特征向量。
1.5将1.4所述的l取2,3,4,5,不同l的取值对应不同维度的
Figure BDA0002368851040000058
Figure BDA0002368851040000059
,体现不同注意力程度,分别得到50、100、50、50维拼接得到250维向量。
1.6将1.5所述的250维向量被乘250×4维矩阵,再由激活函数和时间分布层得到4维语义位置特征向量,得到向量组:
Figure BDA0002368851040000061
1.7将1.6所述的向量组softmax处理,输出字符在分词位置的概率向量组:
Figure BDA0002368851040000062
1.8将1.7所述的概率向量组替换1.3公式所述的字符候选分词位置向量,被乘4×25维的矩阵扩充至25维拼接1.1所述的字符向量得到维度大小为125的得到字符概率位置融合向量。
1.9将1.8所述的字符概率位置融合向量输入BiCNNs+CRF,重复1.4~1.5步骤,在CRF层解码得到字符位置向量组,使用标注集P={B,I,E,S}进行标注,得到字符位置标注序列[‘B’,‘I’,‘E’,‘B’,‘I’,‘I’,‘E’,‘B’,‘E’]。
1.10将1.9的得到的字符位置标注序列作为1.1所述中文文本的分词边界标注,得到分词[‘南京市’,‘长江大桥’,‘调研’]。该方法在NE、NM、ALL的F值分别为57.94、65.77、61.54,得到最优的评价结果,逐步实现中文命名实体识别。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,该方法包括以下步骤:
步骤1:输入中文文本S,得到字符序列SC,进一步训练SC得到字符向量
Figure FDA0002368851030000011
步骤2:将得到的字符序列SC输入分词模型中得到所有候选分词信息,并进一步根据字符可能位置得到字符候选分词位置向量
Figure FDA0002368851030000012
步骤3:结合得到的
Figure FDA0002368851030000013
Figure FDA0002368851030000014
通过相应映射矩阵并拼接得到字符位置融合向量
Figure FDA0002368851030000015
步骤4:将得到的
Figure FDA0002368851030000016
输入卷积神经网络,选取卷积窗口并双向截取得到相邻字符特征向量
Figure FDA0002368851030000017
步骤5:将所有的
Figure FDA0002368851030000018
取j次并全部拼接得到
Figure FDA0002368851030000019
结合
Figure FDA00023688510300000110
及其相应映射矩阵再利用激活函数和时间分布层进一步得到语义位置特征向量Ai
步骤6:对Ai进行softmax处理,输出得到字符在分词位置的概率向量
Figure FDA00023688510300000111
步骤7:结合得到的
Figure FDA00023688510300000112
Figure FDA00023688510300000113
通过相应映射矩阵并拼接得到字符概率位置融合向量
Figure FDA00023688510300000114
步骤8:将得到的
Figure FDA00023688510300000115
输入卷积神经网络,重复步骤4至步骤5解码得到字符位置向量
Figure FDA00023688510300000116
利用标注集进行标注得到字符位置标准序列pi
步骤9:根据pi得到字符位置标注序列Sp并将其作为S的分词边界标注,在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。
2.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。
3.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤2中的分词模型包括jieba、THULAC或HanLP。
4.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。
5.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤8中的卷积神经网络为BiCNNs+CRF。
6.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤9中的数据集为命名实体集NE或名词提及集NM。
7.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤3中的字符位置融合向量
Figure FDA0002368851030000021
其计算公式为:
Figure FDA0002368851030000022
式中,Wp为用于将字符候选分词位置向量
Figure FDA0002368851030000023
扩充维度的映射矩阵。
8.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤4中的相邻字符特征向量
Figure FDA0002368851030000024
其计算公式为:
Figure FDA0002368851030000025
式中,Wi l为卷积核,
Figure FDA0002368851030000026
为偏置值,l为相邻字符特征向量
Figure FDA0002368851030000027
的截取个数。
9.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤5中的语义位置特征向量Ai,其计算公式为:
Figure FDA0002368851030000028
式中,Wi a为用于将
Figure FDA0002368851030000029
扩充维度的映射矩阵。
10.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法,其特征在于,所述的步骤7中的字符概率位置融合向量
Figure FDA00023688510300000210
其计算公式为:
Figure FDA00023688510300000211
式中,Wvp为用于将字符候选分词位置向量
Figure FDA00023688510300000212
扩充维度的映射矩阵。
CN202010044368.3A 2020-01-15 2020-01-15 一种利用不确定分词信息实现中文命名实体识别方法 Active CN111310468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010044368.3A CN111310468B (zh) 2020-01-15 2020-01-15 一种利用不确定分词信息实现中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010044368.3A CN111310468B (zh) 2020-01-15 2020-01-15 一种利用不确定分词信息实现中文命名实体识别方法

Publications (2)

Publication Number Publication Date
CN111310468A true CN111310468A (zh) 2020-06-19
CN111310468B CN111310468B (zh) 2023-05-05

Family

ID=71161364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010044368.3A Active CN111310468B (zh) 2020-01-15 2020-01-15 一种利用不确定分词信息实现中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111310468B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN112417876A (zh) * 2020-11-23 2021-02-26 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN113627172A (zh) * 2021-07-26 2021-11-09 重庆邮电大学 基于多粒度特征融合和不确定去噪的实体识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENG GONG,JIUYANG TANG: "Chinese named entity recognition with bert", 《DESTECH TRANSACTIONS ON COMPUTER SCIENCE AND ENGINEERING》 *
姚霖等: "词边界字向量的中文命名实体识别", 《智能系统学报》 *
潘璀然等: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", 《第二军医大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417876A (zh) * 2020-11-23 2021-02-26 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN113627172A (zh) * 2021-07-26 2021-11-09 重庆邮电大学 基于多粒度特征融合和不确定去噪的实体识别方法及系统

Also Published As

Publication number Publication date
CN111310468B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN104679850B (zh) 地址结构化方法及装置
CN109359304B (zh) 限定性神经网络机器翻译方法及存储介质
CN110110327A (zh) 一种基于对抗学习的文本标注方法和设备
CN111611810A (zh) 一种多音字读音消歧装置及方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
WO2023093525A1 (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN111310468A (zh) 一种利用不确定分词信息实现中文命名实体识别方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN110929518B (zh) 一种使用重叠拆分规则的文本序列标注算法
CN112257462A (zh) 一种基于神经机器翻译技术的超文本标记语言翻译方法
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN112257442B (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN116757184B (zh) 融合发音特征的越南语语音识别文本纠错方法及系统
CN113657122A (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
CN113554021B (zh) 一种智能化印章识别方法
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
Meknavin et al. Combining trigram and winnow in Thai OCR error correction
CN114528459A (zh) 一种基于语义的网页信息抽取方法及系统
CN102955842A (zh) 一种多特征融合识别中文机构名的控制方法
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
Lakshmi et al. An ensemble of grapheme and phoneme-based models for automatic English to Kannada back-transliteration
CN116994282B (zh) 一种用于桥梁设计图的钢筋数量识别归集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant