CN114662476A - 一种融合词典与字符特征的字符序列识别方法 - Google Patents

一种融合词典与字符特征的字符序列识别方法 Download PDF

Info

Publication number
CN114662476A
CN114662476A CN202210177253.0A CN202210177253A CN114662476A CN 114662476 A CN114662476 A CN 114662476A CN 202210177253 A CN202210177253 A CN 202210177253A CN 114662476 A CN114662476 A CN 114662476A
Authority
CN
China
Prior art keywords
character
dictionary
word
sequence
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210177253.0A
Other languages
English (en)
Inventor
张春
张宁
贺璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202210177253.0A priority Critical patent/CN114662476A/zh
Publication of CN114662476A publication Critical patent/CN114662476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种融合词典与字符特征的字符序列识别方法。该方法包括:获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量;将词典增强的字符嵌入向量与三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息;将待解码信息输入至条件随机场CRF解码层进行解码,得到输入序列的标注结果。本发明的方法通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示,从而有效地增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解。

Description

一种融合词典与字符特征的字符序列识别方法
技术领域
本发明涉及字符识别技术领域,尤其涉及一种融合词典与字符特征的字符序列识别方法。
背景技术
随着互联网的发展,各类数据呈指数式增长,只靠传统的人工手动标注早已无法及时有效地识别出实体,进而无法及时挖掘出有价值的信息。特别是近年来人工智能技术的飞速发展与广泛应用,知识图谱在各行各业逐渐成为推荐系统、智能问答、精准匹配等应用的核心技术,而命名实体识别作为构建知识图谱的一项关键技术,又是自然语言处理的基础任务,一直受到广泛研究与关注。
由于英文句子是以词为单位,词与词之间以空格进行分割,而中文句子由单独的字符组成,单独的每个字符并没有实际的语义,这使得中文实体识别的难度增大。
现有技术中的一种中文实体识别方法包括:按照句子输入的类型,将中文实体分为三类:字符嵌入、词嵌入以及字词联合嵌入。由于字词联合嵌入可同时解决前两类方法的不足,因此目前主流方法聚焦于联合嵌入,即同时使用字符与词作为模型的输入。按照联合嵌入的词来源,可分为工具分词、n-gram特征词以及外部词典词,近年来的研究都集中于外部词典,通过将输入句子所对应的匹配词与输入句子的每个字符进行融合,进而增强句子的表示。
上述现有技术中的中文实体识别方法的缺点为:
单独使用字符嵌入的方法,忽略了词的语义特征,无法充分获取字符的语义信息;单独使用词嵌入的方法,对分词工具依赖性高,易造成误差传播以及实体边界划分错误的问题。
字词联合嵌入方法中,基于工具分词的联合嵌入方法对分词工具要求高、依赖性强,基于n-gram特征词的联合嵌入方法存在较多无价值的特征信息干扰。
目前基于词典的联合嵌入方法对词典信息利用不够充分,只在单一过程使用词特征信息,导致划分实体边界与识别实体类型误差增大。
发明内容
本发明的实施例提供了一种融合词典与字符特征的字符序列识别方法,以实现有效的字符的中文命名实体识别。
为了实现上述目的,本发明采取了如下技术方案。
一种融合词典与字符特征的字符序列识别方法,包括:
获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量;
将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息;
将所述待解码信息输入至条件随机场CRF解码层进行解码,得到所述输入序列的标注结果。
优选地,所述的获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量,包括:
给定输入序列为C=[c1,c2,c3,...,cn],输入序列C中的第i个字符为ci,通过预定义的字符表对字符ci进行标记并输入至BERT编码器,得到字符ci的字符嵌入向量
Figure BDA0003519420500000021
Figure BDA0003519420500000022
分别表示与字符ci对应的该字符在词首、词中、词尾的三类词典匹配词集嵌入向量,B、M、E分别表示该字符在词首、词中、词尾的三类匹配词集,令词集Z=B|M|E,词集R=B∪M∪E,则
Figure BDA0003519420500000023
具体计算如下:
Figure BDA0003519420500000024
Figure BDA0003519420500000025
其中,weight(w)表示匹配词w在某一类词集中的权重,hum(w)表示匹配词w在语料中出现的频数,e(w)表示匹配词w的嵌入表示,e表示词典的查找表;
将字符嵌入向量
Figure BDA0003519420500000026
与对应的三类匹配词嵌入向量
Figure BDA0003519420500000027
进行拼接,将拼接结果作为第i个词典增强的字符嵌入向量
Figure BDA0003519420500000028
Figure BDA0003519420500000029
词典增强的字符序列
Figure BDA00035194205000000210
Figure BDA00035194205000000211
优选地,所述的将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息,包括:
将词典增强的字符序列xrep经过线性降维后,与字符ci对应的词首、词中、词尾的三类匹配词集B、M、E进行拼接后,分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend,得到词典增强模型的输入xdec,字符序列的开始位置与结束位置相同,每个匹配词的开始位置即为该词第一个字符所在的位置,结束位置即为该词最后一个字符所在的位置,计算如下:
xdec=[xrepW1;e(w1),e(w2),e(w3),...,e(wk)]+pstart+pend
其中,W1表示模型参数,p表示位置信息的查找表;
将xdec输入至Transformer的编码结构,Transformer的编码结构输出待解码信息A。
优选地,所述的将所述待解码信息输入至条件随机场CRF解码层进行解码,得到所述输入序列的标注结果,包括:
将待解码信息A输入至CRF解码层进行解码预测,将CRF获取的概率最大的序列作为所述输入序列C的标签序列y;
标签序列y=[y1,y2,y3,...,yn],Y表示所有可能的标签序列集合,标注序列y概率计算如下:
Figure BDA0003519420500000031
Figure BDA0003519420500000032
其中,Wy,y′,by,y′是依据标签对(y,y′)的训练参数,θ表示模型所有的可训练参数。
由上述本发明的实施例提供的技术方案可以看出,本发明的方法可以更加充分准确的表示输入句子的语义信息,最终实现更加准确的字符的自动识别命名实体。可以解决输入句子每个字符的语义信息捕获不充分进而可能导致实体边界划分不准确的问题,以及忽略词特征与字符交互进而可能造成实体类型识别不准的问题。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的实现原理图
图2为本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例利用词典匹配词信息,即在句子的字符嵌入过程和模型推理预测过程同时使用词典的词特征,增强模型对文本句子在字符嵌入过程以及模型推理决策过程中对语义信息的理解,进而提高实体识别的F1值。
本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的实现原理图如图1所示,包括词典增强的字符嵌入层、词典增强的推理层以及CRF(conditionalrandom field,条件随机场)解码层三个部分。上述方法的具体处理流程如图2所示,包括如下的处理步骤:
步骤S10、获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量。
获取输入序列中的每个字符匹配的词典中的三类词典匹配词,即该字符在词首、词中、词尾的匹配词集。该处理过程具体实现包括:判断句子的任意子字符串是否在词典中存在,若存在,则可将该匹配词按照每个字符在匹配词中出现的位置划分到句子对应的字符中。
由于上述三类词典匹配词都会对识别结果产生影响,因此,根据每个词典匹配词在语料中出现的频率,计算三类词典匹配词集嵌入向量,之后将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量。
增强每个字符的向量表示,为每个字符赋予更加丰富的词语义信息,进而更加充分表示句子的语义,以此提高识别边界划分的准确性。
步骤S20、将词典增强的字符嵌入向量与上述三类词典匹配词进行拼接后,送入Transformer(变换器)的编码层,Transformer的编码层输出待解码信息A。
在词典增强的推理层,再次引入上述三类词典匹配词,将词典增强的字符嵌入层输出的词典增强的字符嵌入向量经过线性降维后,与上述三类词典匹配词进行拼接,将词典增强的字符嵌入向量分别加上对应的词典匹配词的字符以及词典匹配词的开始位置信息和结束位置信息,并送入Transformer的编码层,即通过注意力机制捕获输入每个字符与匹配词之间的交互,Transformer的编码层输出待解码信息A,以此捕获词典匹配词对每个字符的交互特征,进而提高实体类型识别的准确性。
步骤S30、将待解码信息A输入至CRF解码层进行解码,得到上述输入序列的标注结果。
具体的,在词典增强的字符嵌入层,将字符嵌入向量
Figure BDA0003519420500000051
与对应的三类匹配词嵌入向量
Figure BDA0003519420500000052
进行拼接,将拼接结果作为第i个词典增强的字符嵌入向量
Figure BDA0003519420500000053
Figure BDA0003519420500000054
即为词典增强的字符嵌入层的输出;
给定输入的句子序列,记为C=[c1,c2,c3,...,cn],词典增强的第i个字符嵌入向量
Figure BDA0003519420500000061
计算如下:
Figure BDA0003519420500000062
其中,
Figure BDA0003519420500000063
表示字符嵌入向量,通过预定义的字符表对字符ci进行标记并输入至BERT编码器,输出即为
Figure BDA0003519420500000064
Figure BDA0003519420500000065
分别表示与字符ci对应的该字符在词首、词中、词尾的匹配词集的嵌入向量,B、M、E分别表示该字符在词首、词中、词尾的匹配词集,令词集Z=B|M|E,词集R=B∪M∪E,则
Figure BDA0003519420500000066
具体计算如下:
Figure BDA0003519420500000067
Figure BDA0003519420500000068
其中,weight(w)表示匹配词w在某一类词集中的权重,num(w)表示匹配词w在语料中出现的频数,e(w)表示匹配词w的嵌入表示,e表示词典的查找表。
词典增强的模型推理层
将词典增强的字符序列xrep经过线性降维后,与对应的匹配词拼接,分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend作为词典增强模型的输入xdec。字符序列的开始位置与结束位置相同,每个匹配词的开始位置即为该词第一个字符所在的位置,结束位置即为该词最后一个字符所在的位置,计算如下:
xdec=[xrepW1;e(w1),e(w2),e(w3),...,e(wk)]+pstart+pend (4)
其中,W1表示模型参数,p表示位置信息的查找表。
随后,将xdec输入至Transformer的编码结构,由Self-Attention及FFN两部分组成,每部分后接残差连接与归一化部分,以此获取输入每个字符与匹配词之间的交互特征,输出待解码信息A。
解码层
将待解码信息A输入至序列标注任务中常用的解码器CRF进行解码预测,将CRF获取概率最大的序列作为上述输入序列的序列标注结果。
标签序列y=[y1,y2,y3,...,yn],标注序列y概率计算如下:
Figure BDA0003519420500000069
Figure BDA00035194205000000610
其中,A为待解码信息,Y表示所有可能的标签序列集合,Wy,y′,by,y′是依据标签对(y,y′)的训练参数,θ表示模型所有的可训练参数。
在模型训练过程中,通过预测值与真实值的最大化对数似然进行优化,损失函数计算如下:
Loss=-∑log(p|C;θ)
本发明的实验数据来自于新闻领域公开的中文命名实体识别数据集PeopleDaily,通过在该数据集上对比该方法与其他方法在中文实体识别任务的性能。实验数据的训练集、验证集、测试集分别包含20864、2318以及4636条中文文本句子,涉及的实体类型包含人名、地名、机构名3类实体类型。步骤如下:
数据预处理阶段可提前获取每个输入句子的匹配词以及匹配词在语料中出现的频率。其中,输入句子匹配词的获取可将输入句子序列视为一个字符串,该字符串的子串若存在于词典,则该词为匹配词,否则继续判断下一个子串,以此类推,每出现一个匹配词,该匹配词的个数加1,以此获得匹配词的频率。
模型的训练步骤如下:
(1)词典增强的字符表示层:通过拼接字符表示向量
Figure BDA0003519420500000071
与匹配词表示向量
Figure BDA0003519420500000072
作为词典增强的字符表示向量
Figure BDA0003519420500000073
(2)词典增强的模型推理层:将词典增强的字符表示xrep经过线性降维与对应的匹配词拼接后,加上开始位置Pstart信息以及结束位置信息Pend作为词典增强模型的输入xdec,将其输入至Transformer的编码结构,输出待解码信息A;
(3)解码:将待解码信息A输入至条件随机场进行解码,输出序列标注结果。
按照上述步骤,将本发明与常用的命名实体识别模型进行对比,包括未使用词典信息的BiLSTM-CRF以及BERT-BiLSTM-CRF,以及在某一部分使用词典信息的LR-CNN、LGN、Lattice LSTM、Flat以及Soft Lexicon,采用准确率、召回率和F1值作为评价指标,对比结果见表1。
表1本发明模型与其他模型在Boson数据集上的实验结果
Figure BDA0003519420500000074
Figure BDA0003519420500000081
实验结果表明:
通过将本模型与现有的实体识别模型进行对比,可以看到,模型在People Daily数据集上F1值表现最高,相比于未使用词典信息的模型,本发明性能提升明显,相比于其他使用词典的模型,均有不同程度的提升。
综上所述,本发明实施例的深度融合词典与字符特征的字符序列的中文命名实体识别方法,通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示,进一步增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解,提高了字符的命名实体识别的F1值。
本发明实施例提出的深度融合词典与字符特征的字符序列的中文命名实体识别方法可以更加充分准确的表示输入句子的语义信息,最终实现更加准确的自动识别命名实体,提高实体识别的F1值。可以解决输入句子每个字符的语义信息捕获不充分进而可能导致实体边界划分不准确的问题,以及忽略词特征与字符交互进而可能造成实体类型识别不准的问题。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种融合词典与字符特征的字符序列识别方法,其特征在于,包括:
获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量;
将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息;
将所述待解码信息输入至条件随机场CRF解码层进行解码,得到所述输入序列的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述的获取输入序列中的每个字符匹配的词典中的三类词典匹配词,将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接,得到词典增强的字符嵌入向量,包括:
给定输入序列为C=[c1,c2,c3,...,cn],输入序列C中的第i个字符为ci,通过预定义的字符表对字符ci进行标记并输入至BERT编码器,得到字符ci的字符嵌入向量
Figure FDA0003519420490000011
Figure FDA0003519420490000012
分别表示与字符ci对应的该字符在词首、词中、词尾的三类词典匹配词集嵌入向量,B、M、E分别表示该字符在词首、词中、词尾的三类匹配词集,令词集Z=B|M|E,词集R=B∪M∪E,则
Figure FDA0003519420490000013
具体计算如下:
Figure FDA0003519420490000014
Figure FDA0003519420490000015
其中,weight(w)表示匹配词w在某一类词集中的权重,num(w)表示匹配词w在语料中出现的频数,e(w)表示匹配词w的嵌入表示,e表示词典的查找表;
将字符嵌入向量
Figure FDA0003519420490000016
与对应的三类匹配词嵌入向量
Figure FDA0003519420490000017
进行拼接,将拼接结果作为第i个词典增强的字符嵌入向量
Figure FDA0003519420490000018
Figure FDA0003519420490000019
词典增强的字符序列
Figure FDA00035194204900000110
Figure FDA00035194204900000111
3.根据权利要求2所述的方法,其特征在于,所述的将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后,送入Transformer的编码层,Transformer的编码层输出待解码信息,包括:
将词典增强的字符序列xrep经过线性降维后,与字符ci对应的词首、词中、词尾的三类匹配词集B、M、E进行拼接后,分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend,得到词典增强模型的输入xdec,字符序列的开始位置与结束位置相同,每个匹配词的开始位置即为该词第一个字符所在的位置,结束位置即为该词最后一个字符所在的位置,计算如下:
xdec=[xrepW1;e(w1),e(w2),e(w3),...,e(wk)]+pstart+pend
其中,W1表示模型参数,p表示位置信息的查找表;
将xdec输入至Transformer的编码结构,Transformer的编码结构输出待解码信息A。
4.根据权利要求3所述的方法,其特征在于,所述的将所述待解码信息输入至条件随机场CRF解码层进行解码,得到所述输入序列的标注结果,包括:
将待解码信息A输入至CRF解码层进行解码预测,将CRF获取的概率最大的序列作为所述输入序列C的标签序列y;
标签序列y=[y1,y2,y3,...,yn],Y表示所有可能的标签序列集合,标注序列y概率计算如下:
Figure FDA0003519420490000021
Figure FDA0003519420490000022
其中,Wy,y′,by,y′是依据标签对(y,y′)的训练参数,θ表示模型所有的可训练参数。
CN202210177253.0A 2022-02-24 2022-02-24 一种融合词典与字符特征的字符序列识别方法 Pending CN114662476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210177253.0A CN114662476A (zh) 2022-02-24 2022-02-24 一种融合词典与字符特征的字符序列识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210177253.0A CN114662476A (zh) 2022-02-24 2022-02-24 一种融合词典与字符特征的字符序列识别方法

Publications (1)

Publication Number Publication Date
CN114662476A true CN114662476A (zh) 2022-06-24

Family

ID=82028244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210177253.0A Pending CN114662476A (zh) 2022-02-24 2022-02-24 一种融合词典与字符特征的字符序列识别方法

Country Status (1)

Country Link
CN (1) CN114662476A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115392192A (zh) * 2022-10-27 2022-11-25 北京中科汇联科技股份有限公司 一种混合神经网络和字符信息的文本编码方法及系统
CN115879474A (zh) * 2023-02-14 2023-03-31 华东交通大学 基于机器阅读理解的故障嵌套命名实体识别方法
WO2024139293A1 (zh) * 2022-12-29 2024-07-04 深圳云天励飞技术股份有限公司 地址提取方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
WO2022005188A1 (en) * 2020-07-01 2022-01-06 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN113947081A (zh) * 2021-01-11 2022-01-18 复旦大学 一种结合词典的中文命名实体识别系统
CN113988074A (zh) * 2021-10-28 2022-01-28 南京航空航天大学 一种动态融合词典信息的中文命名实体识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022005188A1 (en) * 2020-07-01 2022-01-06 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN113947081A (zh) * 2021-01-11 2022-01-18 复旦大学 一种结合词典的中文命名实体识别系统
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113988074A (zh) * 2021-10-28 2022-01-28 南京航空航天大学 一种动态融合词典信息的中文命名实体识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHAO S等: "Enhancing Chinese character representation with lattice-aligned attention", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, vol. 34, no. 7, 31 December 2021 (2021-12-31), pages 3727 - 3736, XP011944258, DOI: 10.1109/TNNLS.2021.3114378 *
曾祥极: "数据干预增强的命名实体识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2022 (2022-02-15), pages 138 - 1266 *
贺璐等: "词典增强的中文实体关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 07, 15 July 2023 (2023-07-15), pages 138 - 300 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115392192A (zh) * 2022-10-27 2022-11-25 北京中科汇联科技股份有限公司 一种混合神经网络和字符信息的文本编码方法及系统
CN115392192B (zh) * 2022-10-27 2023-01-17 北京中科汇联科技股份有限公司 一种混合神经网络和字符信息的文本编码方法及系统
WO2024139293A1 (zh) * 2022-12-29 2024-07-04 深圳云天励飞技术股份有限公司 地址提取方法、装置、计算机设备及存储介质
CN115879474A (zh) * 2023-02-14 2023-03-31 华东交通大学 基于机器阅读理解的故障嵌套命名实体识别方法

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN107729326B (zh) 基于Multi-BiRNN编码的神经机器翻译方法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN114580382A (zh) 文本纠错方法以及装置
US11797761B2 (en) Device, method and program for natural language processing
US11450310B2 (en) Spoken language understanding
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN112685538B (zh) 一种结合外部知识的文本向量检索方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN114218921A (zh) 一种优化bert的问题语义匹配方法
CN114169346A (zh) 一种运用词性信息的机器翻译方法
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN117332788A (zh) 一种基于英语口语文本的语义分析方法
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination