CN111310472B - 别名生成方法、装置和设备 - Google Patents

别名生成方法、装置和设备 Download PDF

Info

Publication number
CN111310472B
CN111310472B CN202010059841.5A CN202010059841A CN111310472B CN 111310472 B CN111310472 B CN 111310472B CN 202010059841 A CN202010059841 A CN 202010059841A CN 111310472 B CN111310472 B CN 111310472B
Authority
CN
China
Prior art keywords
alias
model
word
name
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010059841.5A
Other languages
English (en)
Other versions
CN111310472A (zh
Inventor
张浩宇
吴飞
方四安
徐承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202010059841.5A priority Critical patent/CN111310472B/zh
Publication of CN111310472A publication Critical patent/CN111310472A/zh
Application granted granted Critical
Publication of CN111310472B publication Critical patent/CN111310472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种别名生成方法、装置和设备。本发明的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。

Description

别名生成方法、装置和设备
技术领域
本发明涉及自然语言处理技术,尤其涉及一种别名生成方法、装置和设备。
背景技术
简称,顾名思义,是指一个实体名称的简写,例如中国科学技术大学可以简写为中国科大、中科大等,而别名则是比简称范围更大的概念,即别名包含了从命名实体的名称中抽取的简称,同时也包含了根据说法习惯、命名实体特点或外文名称等自定义的称谓,比如科大讯飞股份有限公司可能的别名包括科大讯飞、讯飞、iflytek、讯飞集团等。
当前在生成简称或别名的现有方案中,均需要结合大量的相关文本信息,即对于数据规模提出了较为苛刻的要求,尤其需要从命名实体本身之外挖掘相关信息,这样更会影响最终得到的别名的准确性。
发明内容
鉴于此,本发明提供了一种别名生成方法、装置和设备,本发明还相应提供了一种计算机程序产品,通过以上形式,能够提供更为准确的多样化的别名生成结果。
关于上述本发明采用的技术方案具体如下:
第一方面,本发明提供了一种别名生成方法,包括:
利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。
在其中一种可能的实现方式中,所述别名生成模型的解码结果包括:
基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。
在其中一种可能的实现方式中,所述先验字符集用于在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。
在其中一种可能的实现方式中,所述对所述别名生成模型的解码结果进行扩展包括:在所述别名生成模型的测试阶段,利用集束搜索扩展解码结果的数量。
在其中一种可能的实现方式中,所述方法还包括:
利用所述序列标注策略对生成的多个别名进行合理性校验;
校验后筛选出最终的别名结果。
在其中一种可能的实现方式中,所述序列标注策略包括:
基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。
第二方面,本发明提供了一种别名生成装置,包括:
构词成分解析模块,用于利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
模型输入处理模块,用于将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
模型输出处理模块,用于对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。
在其中一种可能的实现方式中,所述别名生成模型的解码结果包括:
基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。
在其中一种可能的实现方式中,所述先验字符集用于在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。
在其中一种可能的实现方式中,所述模型输出处理模块具体包括:
解码扩展单元,用于在所述别名生成模型的测试阶段,利用集束搜索扩展解码结果的数量。
在其中一种可能的实现方式中,所述装置还包括:
别名校验模块,用于利用所述序列标注策略对生成的多个别名进行合理性校验;
别名筛选模块,用于校验后筛选出最终的别名结果。
在其中一种可能的实现方式中,所述构词成分解析模块具体包括基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。
第三方面,本发明提供了一种别名生成设备,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第四方面,本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。
在第四方面的一种可能的设计中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。
本发明的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。
进一步地,本发明还基于预设的先验字符集得到别名结果,在生成别名时,使得模型在解码输出时更倾向选用先验字符集中的字符,从而有助于加快模型收敛,生成更加符合任务场景的别名,因此可以提高别名生成的效率和准确性。
进一步地,本发明还两次利用序列标注策略,一来是挖掘原始名称的信息,再者则是对生成的别名进行合理性校验,以此进一步提高别名生成模型的可靠性。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的别名生成方法的实施例的流程图;
图2为本发明提供的序列标注模型的结构示意图;
图3为本发明提供的别名生成模型的实施例的流程图;
图4为本发明提供的别名生成装置的实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如前文提及的,现有获取别名的方法均需要获取大量文本信息以及外部数据作为抽取简称、生成自定义类别名的前提,这些都是向外挖掘的思路,而没有充分结合命名实体的原始名称本身所蕴含的信息,因此现有方式对数据资源的要求较高且较为影响最终得到的别名的准确性,而且通常所得到的别名结果中较为单一,不符合用户对别名多样性的期待,这里所述多样性可以理解为对生成别名数量的期待,也可以理解为对生成的别名种类的多样需求。
在对本发明方案进行具体展开前,本发明对相关现有技术及其问题进行了深入分析。其中,获取别名的一种方法是采用基于深度学习的抽取式方法,例如可以在企业全称中抽取企业简称,具体是对企业名称全称进行逐字标注,得到大量的标注数据并训练简称抽取模型。然而,目前的简称抽取主要集中单一简称场景,这对于可具有多个别名的命名实体或相关特定领域,如:科大讯飞股份有限公司的简称可以有科大讯飞、讯飞、讯飞公司等;再如:东风-21弹道导弹的别名可以有东风-21、东风21、东风-21导弹、东风21导弹、东风21弹道导弹等。而目前的上述简称抽取式方法所得到的结果覆盖面较窄,且不会出现原始名称中不存在的字符,但在实际应用中,经常会使用外文名称或汉字拼音的首字母等获得该命名实体的别名,例如iflytek、KDXF、DF-21、DF21等。
对此,现有技术中也出现了利用词典搜索的方法以及利用知识图谱的方法。其中,利用词典搜索是对实体名称进行分词,再将个分词进行穷举式排列组合,之后在大规模的命名实体库(词典)中进行匹配检索,该过程显然需要借助大量命名实体文本信息,因而这种方法在特定领域(利用对于相关信息具有较高保密要求的领域)的可用性会受到影响,因为构建大规模词典的成本以及数据来源接受到限制,因而上述词典搜索别名获取方式适用性和友好度较差。而基于知识图谱的别名挖掘方法,也需要通过构建文档中包含命名实体相关信息的频繁项集,同样需要大量信息来源,尤其是外部数据,因而也会导致最终得到的别名的准确性不佳。
正是基于对上述效果不佳方案的分析和探究,本发明才提出了一种基于编解码模型结构、并采取向内挖掘以及拓展输出的别名生成构思。具体如下,本发明提供了所述别名生成方法的至少一种实施例,如图1所示,可包括:
步骤S1、利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分。
具体地,命名实体的原始名称可以是在用户设备中获取的,用户设备可为移动终端或个人计算机(PC)端等,例如智能手机、个人数码助理(PDA)、平板电脑、笔记本电脑、车载电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。并且命名实体可以来自组织结构、特定专业领域、特殊行业等,而原始名称中可以包括诸如汉字、字母、数字、标点符号、特殊符号或任何其他类型字符。
本发明认为原始名称中可以蕴含着丰富的与命名实体以及所需生成的别名相关的信息,因此在本实施例中本发明提出对原始名称进行解析,得到其中的构词成分信息。经分析,不同应用场景以及不同的领域,其命名实体则会具有特定的构词方式,例如装备领域的实体名称的构词方式一般包含中英文组成的型号、绰号、装备类别、公司、国家、与其应用和技术特点有关的词以及一些特殊用词和数量词等。参见下表:
装备名称 构词成分
东风三号 型号
东风-3号中程地地战略导弹 型号+应用/计数特点词+装备类别
美国洛克希德马丁F-22“猛禽” 国家名+公司名+型号+绰号
猛禽战斗机 绰号+装备类别
85式130毫米火箭炮 特殊词+数量词+装备类别
表1命名实体构词结构示例一
再如,组织机构的实体名称的构词方式则一般包含地名、机构类型、字号、机构行业、组成形式等。参见下表:
组织机构名称 构词成分
科大讯飞 字号
北京迪智成企业管理咨询有限公司 地名+字号+机构行业+组成形式+机构类型
市场监督管理局 机构类型
北京理工大学 地名+字号+机构类型
表2命名实体构词结构示例二
结合上述两表示例,可知针对不同领域的命名实体所包含的构词成分是不同的,其中构词成分即是命名实体中的关键要素,当然,同一个命名实体中关键要素可能不止一个。示例性地,装备领域的原始名称中的关键要素包括但不限于型号、绰号、特殊词。而型号这一构词要素的特点是一般为数字与字母组成的字符串,或者汉字+字母数字串的形式,如:“东风-3号”,“F-22”,可以单独用来指代某装备;绰号这一构词要素的特点是汉字名称,可以单独用来指代某装备,如:“猛禽”;特殊词这一构词要素的特点是包括“型”、“级”、“式”、“号”等特殊汉字作为后缀,如:“布什号”,“85式”。组织结构的实体名称的构词要素包括但不限于字号、机构类型。作为另一示例,组织机构领域的实体名称的构词要素包括但不限于字号、组织类型,如:“科大讯飞”,“北京理工”,可以单独用来指代某组织机构,关于构词成分的具体提取方式依据的是所述序列标注策略,在本发明的一些实施方式中,序列标注策略具体可以是基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。借助于序列标注模型,将原始名称的目标序列分解成构词成分序列的一系列基本单元。其中序列标注模型的结构如图2所示,可以包括Bi-LSTM(Bidirectional LongShort-Term Memory,双向长短期记忆)网络模型和条件随机场(conditional randomfield,CRF)模型,该序列标注模型是先对原始名称使用LSTM算法进行编码,原始名称中每个字符的字向量作为LSTM的输入,然后输出每个字符是某个构词成分标签的概率,并作为CRF模型的输入,随机化转移概率矩阵,根据推断算法求出概率最高的标记序列。
这里需要说明的是,本发明在一些实施方式中,在解析原始名称的步骤阶段,还包括将实体名称进行向量化表示,具体包括对原始名称中所包含的每个字符进行向量化,以构建与每个字符对应的字向量的步骤。得到的原始名称向量比较适合作为机器学习的输入,本发明在一些实施例中,使用词嵌入方法,将命名实体中所包含的单个字符进行向量化表示。具体地,可利用word2vec工具进行字向量训练,例如,在“东风21导弹”中,用一个维度为50的向量[0.61635,-0.150043,……,0.243982]表征字“弹”,实体名中的每个字符也都用一个50维向量表示,将命名实体的原始名称变换为一个二维矩阵,矩阵的行维数是50,矩阵的列维数是命名实体中所包含的字符数,参考如下:
东=x1=[0.992734,-0.476647,…,0.217249]
风=x2=[-0.135216,0.156160,…,0.001139]
2=x3=[0.088582,0.240145,…,-0.006931]
1=x4=[0.213415,-0.352543,…,0.234367]
导=x5=[0.685183,0.442365,…,-0.271031]
弹=x6=[0.616357,-0.150043,…,0.243982]
作为另一示例,在“科大讯飞股份有限公司”中,组织结构名称中的每个字符用一个50维向量表示,将命名实体的原始名称变换为一个二维矩阵,矩阵的行维数是50,矩阵的列维数是命名实体中所包含的字符数,参考如下:
科=x7=[-0.127854,0.594389,…,0.285462]
大=x8=[-0.257861,0.356187,…,-0.249624]
讯=x9=[-0.135478,0.893124,…,-0.004628]
飞=x10=[-0.175964,-0.325962,…,0.697534]
股=x11=[-0.321542,0.256644,…,-0.354219]
份=x12=[0.234513,-0.015982,…,0.335921]
有=x13=[-0.216589,-0.375269,…,0.012048]
限=x14=[0.628749,-0.204168,…,0.315962]
公=x15=[-0.015231,0.354765,…,-0.245427]
司=x16=[0.756120,-0.246898,…,0.316875]
本领域技术人员可以理解的是,上述Word2vec主要使用的技术方法有ContinuousBag-of-Word Model(CBOW)和Continuous Skip-gram Model。CBOW的原理是根据上下文来预测当前词语的概率,而Skipgram则是通过当前词语来预测上下文的概率,它们的核心都是神经网络算法。当然,本领域技术人员还可知晓,向量化的方式可以采用多种常规的方式,例如Doc2Vec工具、向量空间模型等。以上过程仅是对文本向量化技术的一种示意性介绍,本实施例并不限定具体的向量化手段,但仍需要强调的是:向量化技术本身虽然是常规手段,但本实施例提出文本向量化这个步骤的目的是与构词成分向量进行融合(后文将做具体说明),并据此展开后续输入别名生成模型的操作,以此获得命名实体对应的别名。
接续前文,将各所述字向量分别输入至所述序列标注模型的正向长短时记忆网络和反向长短时记忆网络,分别得到正向隐藏层状态向量和反向隐藏层状态向量,而各字向量是可训练的并伴随着整个序列标注模型的其他参数同步迭代更新。本实施例选择Bi-LSTM网络作为特征学习器,使用Bi-LSTM隐藏层的上下文向量作为输出层标注的特征,是因为LSTM是一种典型的递归神经网络,相比于传统的朴素RNN架构,LSTM由于有针对性的增加了门控开关,在一定程度上缓解了反向传播过程中的梯度消失和梯度爆炸问题,从而可以更好地处理序列的长距离依赖关系。如图2提供的示例,“东风21导弹”中的各字向量(x1-x6)分别对应的正向隐藏层状态向量分别为F1-F6;各字向量(x1-x6)分别对应的反向隐藏层状态向量分别为B1-B6。与单向的LSTM相比,双向LSTM网络模型可以学习到更多的信息。图2中示出的是先右后左,依次得到正向隐藏状态和反向隐藏状态对应的构词成分特征,输出并堆叠,但在实际操作中顺序不限于此。接着,将所述正向隐藏层状态向量和所述反向隐藏层状态向量进行拼接,得到拼接隐藏层状态向量,参考图2,将F1和B1拼接得到h1,将F2和B2拼接得到h2,以此类推,将F6和B6拼接得到h6,具体的向量拼接可以采用多种常规的方式,例如直接(尾部)拼接、行拼接、列拼接等,本实施例并不限定具体的向量拼接手段。
Bi-LSTM网络的输出结果如下:
ha=g(ha-1,xa) (1)
其中,ha表示通过Bi-LSTM网络的隐藏层输出结果;xa表示第a个字符wa映射的字向量,作为Bi-LSTM网络的输入,a=1、2、3……A,A表示命名实体的原始名称中所含的字符数,g表示Bi-LSTM网络的运算函数。
本发明在一些实施方式中,将经过Bi-LSTM网络的输出(例如,拼接隐藏层状态向量)作为CRF模型的输入值。将拼接隐藏层状态向量输入CRF模型进行解码,建立各构词组分对应的构词成分标签之间的约束关系,例如每个构词成分应该有其对应的开始位置和结束位置,某个构词成分结束后才允许下一个构词成分开始,此外还可以定义某个构词成分的中间位置。最终得到每个字符所属的构词成分。
本发明一些实施例中使用的是单线性链条件随机场,这是一种无向概率图模型。当从双向LSTM输出矩阵H=(h1,h2,…,hA)后,接入到一个全连接层,将输出矩阵变换为维度p×A的矩阵P,其中,p是不同种类构词成分对应的构词成分标签的数量,A是命名实体的原始名称所包含的字符数;所述矩阵P的第i行、第j列元素Pij表示构词成分标签j为对字符xi的真实构词成分标签的可能性的估计。
对于原始名称对应的原始名称序列X=(x1,x2,…,xT)和预测的构词成分标签序列Y=(y1,y2,…,yA),采用以下公式计算正确性分数;
其中,s(X,y)表示构词成分标签y是原始名称序列X的真实构词成分标签的正确性分数,A表示状态转移矩阵,Ayi,yi+1代表构词成分标签为yi的字符后面紧接着构词成分标签为yi+1的字符的转移值;yi表示第i个字符的构词成分标签,yi+1是第i+1个字符的构词成分标签。
然后对所有可能的预测序列的正确性分数做softmax变换,给出构词成分标签y的概率分布:
其中,YX表示对于给定的原始名称序列,所有可能的构词成分标签的序列的集合。利用softmax函数根据各构词成分标签的最终得分确定各构词成分标签的概率;根据各构词成分标签的概率确定原始名称的各原始字符对应的构词成分标签。
进一步地,在本发明的一些实施方式中,可以用维特比算法完成CRF模型的训练和解码过程。训练CRF模型为最大化正确序列的概率的对数。解码时,将得到最大正确性分值序列y*作为猜测输出;
其中,y*∈YX
经过CRF模型解码后,对输出的构词成分标签数据集进行标注,将归属于同一构词成分标签的所述原始字符组合为同一构词成分。其中,可采用IOBS标注格式对构词成分标签数据集进行标注。B表示“begin”,I表示“in”,S表示“single”,O表示“others”。每个构词成分开始的词都被标注为B,每个构词成分的中间和结尾均被标注为“I”,若构词成分为单个字符则标记为“S”,非构词成分的字符标记为“O”。
例如,“柯特尔5.56毫米AR-15M16系列步枪”的标注结果为“柯特尔/COMPANY,5.56毫米/NUMBER,AR-15M16/SERIAL,系列/other,步枪/CLASS”,其中COMPANY表示“公司名”这一构词成分,NUMBER表示“数量词”这一构词成分,SERIAL表示“型号”这一构词成分,CLASS表示“类别”这一构词成分。“柯”的标注结果为“B-COMPANY”,“枪”的标注结果为“I-类别”。将归属于同一构词成分标签的原始字符组合为同一构词成分。例如,“柯”、“特”、“尔”归属于同一构词成分标签“COMPANY”,则将组合为同一构词成分。
又例如,“北京迪智成企业管理咨询有限公司”的标注结果为“北京/PLACE,迪智成/NAME,企业管理咨询/INDUSTRY,有限/FORMATION,公司/TYPE”,其中PLACE表示“地名”这一构词成分,NAME表示“字号”这一构词成分,INDUSTRY表示“机构行业”这一构词成分,FORMATION表示“组成形式”这一构词成分,TYPE表示“机构类型”这一构词成分。“迪”的标注结果为“B-字号”,“京”的标注结果为“I-地名”。将归属于同一构词成分标签的原始字符组合为同一构词成分。例如,“迪”、“智”、“成”归属于同一构词成分标签“NAME”,则将组合为同一构词成分。
除此之外,在本发明的其他实施方式中,还可以采用其他标注格式(例如,IOB1、IOB2、IOE1、IOE2、IOBES、IO等)对原始名称的各字符进行标注。对于同一原始名称,采用不同的标注规范,可以得到不同的序列标注结果,即不同的标签序列。本实施例的目的在于利用序列标注模型得到每个原始字符所属的构词成分,以挖掘出命名实体的原始名称所携带的丰富信息,而具体选取哪种标注格式可以依据实际需求来确定,本实施例对此不做具体限定。
关于该序列标注模式,还可以作补充说明的是,将每个待提取构词成分的原始名称X=(x1,x2,…,xA)输入到预先训练的序列标注模型,得到其构词成分标签序列Y=(y1,y2,…,yA),所述序列标注模型是基于对实体名称构成要素分析进行训练得到的,用于对原始名称中的各构词成分进行解析并标注。在本发明的一些实施方式中,所述序列标注模型可以通过如下步骤训练得到:(1)获取训练样本,其中,所述样本包括样本原始名称的字符序列和所述样本原始名称的字符序列对应的构词成分标注结果;(2)生成所述样本原始名称的字符序列的各字符的特征向量;(3)将所述样本原始名称的字符序列的各字符的特征向量作为输入,将所述样本原始名称的字符序列的构词成分标注结果作为输出,训练得到所述序列标注模型。
综上所述,本发明可以使用诸如BILSTM-CRF的模型结构建模构词成分,得到了命名实体的原始名称中所包含的重要信息,从而更准确地解析出原始名称中的各组成部分。
以上过程涉及的序列标注技术仅是一种示意性举例,本实施例并不限定具体的标注过程及手段,但仍需要强调的是:序列标注策略本身虽然是常规手段,但本实施例设计序列标注这个步骤的目的是解析前述原始名称的内部蕴含信息,以此作为别名生成模型输入的一部分,从而可以提高别名生成模型的特征学习能力。
步骤S2、将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入。
在此,本发明强调出在实施过程中需将构词成分与原始名称结合,正是由于融合了构词成分特征,因此可以丰富别名生成模型的输入信息,进而可以提高生成别名的准确性。
其中,融合的方式包括但不限于文本堆叠、向量拼接等。本发明在一些实施方式中,采用向量拼接的方法对构词成分和对应的原始名称进行融合,并将得到的拼接向量输入别名生成模型,得到原始名称对应的别名。接续前文,步骤S1中对原始名称进行向量化,得到了原始名称向量,在融合构词成分和对应的原始名称的步骤之前,还包括构建构词成分对应的向量,以得到构词成分向量的步骤。然后将各字向量和对应的构词成分向量进行拼接,得到拼接向量。以实体名称“东风21导弹”为例,将该实体称中“型号”对应的构词成分向量与实体名每个字符(东、风、2、1)的字向量进行拼接;再以组织机构实体名称“科大讯飞股份有限公司”为例,将组织机构实体中“字号”对应的构词成分向量与实体名称中每个字符(科、大、讯、飞)的字向量进行拼接。具体的向量拼接可以采用多种常规的方式,例如直接(尾部)拼接、行拼接、列拼接等,本实施例并不限定具体的向量拼接手段。
与原始名称向量化相类似,本发明在一些实施例中,使用词嵌入方法,将每个构词成分作为整体进行向量化表示。具体地,可以利用诸如word2vec等工具进行构词成分向量训练。例如,用一个维度为50的向量[0.61635,-0.150043,……,0.243982]表征“类别”这一构词成分,原始名称中的每个构词成分也都用一个50维向量表示,将构词成分序列变换为一个二维矩阵,矩阵的行维数是50,矩阵的列维数是原始名称中所包含的构词成分数量。具体以实体名称“东风21导弹”为例,其中“东风21”的构词成分标签是型号,“导弹”的构词成分标签是类型,将型号与类型这两个标签分别向量化成50维的向量:
再以实体名称“科大讯飞股份有限公司”为例,其中“科大讯飞”的构词成分标签是字号,“股份有限”的构词成分标签是组成形式,“公司”的构词成分标签是机构类型,将字号、组成形式与机构类型这三个标签分别向量化成50维的向量。
接着,本发明在一些实施方式中,采用直接拼接的方式将构词成分和对应的原始名称进行融合,将原始名称中每个字符所属的构词成分向量拼接在每个字符对应的字向量尾端,得到别名生成模型的输入向量。如前文所述,“东风21导弹”中的每个字符都用一个50维向量表示,在表示“东”、“风”“2”、“1”的字向量尾端拼接表示“型号”的构词成分向量,在表示“导”、“弹”的字向量尾端拼接表示“类型”的构词成分向量,最终得到100维的输入向量,得到的输入向量如下:
东=x1’=[0.992734,-0.476647,…,0.217249,-0.149929,0.193714,…,-0.020208]
风=x2’=[-0.135216,0.156160,…,0.001139,-0.149929,0.193714,…,-0.020208]
2=x3’=[0.088582,0.240145,…,-0.006931,-0.149929,0.193714,…,-0.020208]
1=x4’=[0.213415,-0.352543,…,0.234367,-0.149929,0.193714,…,-0.020208]
导=x5’=[0.685183,0.442365,…,-0.271031,0.200129,-0.110704,…,-0.003415]
弹=x6’=[0.616357,-0.150043,…,0.243982,0.200129,-0.110704,…,-0.003415]
类似地,“科大讯飞股份有限公司”中的每个字符都用一个50维向量表示,在表示“科”、“大”“讯”、“飞”的字向量尾端拼接表示“字号”的构词成分向量,在表示“股”、“份”、“有”、“限”的字向量尾端拼接表示“组成形式”的构词成分向量,在表示“公”、“司”的字向量尾端拼接表示“机构类型”的构词成分向量,最终得到100维的输入向量,得到的输入向量如下:
科=x7’=[-0.127854,0.594389,…,0.285462,0.236871,-0.156843,…,0.357889]
大=x8’=[-0.257861,0.356187,…,-0.2496240.236871,-0.156843,…,0.357889]
讯=x9’=[-0.135478,0.893124,…,-0.0046280.236871,-0.156843,…,0.357889]
飞=x10’=[-0.175964,-0.325962,…,0.6975340.236871,-0.156843,…,0.357889]
股=x11’=[-0.321542,0.256644,…,-0.354219,-0.183542,0.225899,…,0.059715]
份=x12’=[0.234513,-0.015982,…,0.335921-0.183542,0.225899,…,0.059715]
有=x13’=[-0.216589,-0.375269,…,0.012048-0.183542,0.225899,…,0.059715]
限=x14’=[0.628749,-0.204168,…,0.315962-0.183542,0.225899,…,0.059715]
公=x15’=[-0.015231,0.354765,…,-0.245427,0.082476,0.256631,…,-0.173849]
司=x16’=[0.756120,-0.246898,…,0.316875,0.082476,0.256631,…,-0.173849]
可见,本发明借助于向量拼接方法,得到融入了构词成分的命名实体表示形式,便于别名生成模型进行识别及别名生成,提高了生成别名的效率。
关于所述别名生成模型,在本发明的一些实施方式中,所述预先构建的具有编解码结构的别名生成模型可以采用Seq2Seq模型,将构词成分与原始名称融合后,输入Seq2Seq模型得到原始名称对应的别名。所述Seq2Seq模型包括编码端和解码端,Seq2Seq是一个Encoder(编码端)-Decoder(解码端)结构的神经网络,它的输入是一个序列,输出也是一个序列。Seq2Seq模型包含三个基础部分,即编码端、解码端以及连接两者的语义向量,编码端通过学习输入,将其编码成一个固定大小的语义向量C(也称为语义编码、中间状态向量),继而将语义向量C传给解码端,解码端再通过对语义向量C的学习来进行输出对应的序列。Seq2Seq模型中的编码端对输入信息进行运算和编码,以得到语义向量。其中,输入Seq2Seq模型的输入信息例如可以是拼接向量,编码端对拼接向量进行运算和编码,以得到语义向量,其中语义向量中携带输入信息所包含的别名特征。Seq2Seq模型中的解码端对语义向量进行解码,利用softmax函数在每次解码时,从候选字符集所包含的字符中选择概率最高的字符作为别名字符,直到解码结束,生成与所述原始名称对应的别名。
本发明在一些实施方式中,Seq2Seq模型的编码端和解码端可与LSTM相结合,即当前时间的隐藏状态是由上一时间的状态和当前时间的输入共同决定的。得到各个隐藏层的输出然后汇总,生成语义向量;
C=q(l1,l2,...,lm,...lTx) (5)
其中,表示lm表示第m个通过编码端的隐藏层输出结果,Tx表示编码端输出的隐藏层的数目,q表示Seq2Seq模型中编码端的运算函数,示例性地,q可以表示求和、平均、最小值等算法中的一种或多种。
在解码阶段,需要根据给定的语义向量C和输出序列u1,u2,…,ut-1来预测下一个输出的字符ut,即ut=r(ut-1,lt,C),其中r表示Seq2Seq模型中解码端的运算函数。解码结束后,按照原始名称中各原始字符的位置,从候选字符集中选择与各原始字符对应的别名字符,以生成由别名字符序列构成的别名。本发明在一些实施方式中,针对各所述别名字符,在对所述融合信息进行学习时,可以为各原始字符分配不同的权重。
这里需要说明的是,由于基本的Seq2Seq模型架构在编码和解码阶段始终由一个不变的语义向量C来联系,编码端要将整个序列的信息压缩进一个固定长度的向量中。这就造成基础的Seq2Seq模型存在语义向量无法完全表示整个序列的信息、后续输入的信息会覆盖最开始输入的信息造成丢失细节信息等缺陷。本发明通过引入注意力机制可以弥补Seq2Seq模型的缺陷。注意力机制在编码阶段将输入编码成一个向量的序列,而在解码阶段时,模型的每一步输出都会选择性的从输入的向量序列中挑选一个子集赋予不同的权重,这样能够充分利用输入序列携带的信息。在Seq2seq模型中加入注意力机制,对输入的向量序列选择性的重点学习,从而提高别名生成的准确性,进而提高别名生成模型的可靠性。
具体地,将所述拼接向量输入所述Seq2seq模型的编码端中进行运算和编码以得到语义向量,并且对所述语义向量采用注意力机制;然后通过所述Seq2seq模型的解码端对经过注意力机制处理的语义向量进行解码,生成与所述命名实体对应的别名。加入注意力机制的Seq2Seq模型在编码端与普通的Seq2Seq模型基本一致,主要区别在于解码端。采用以下公式确定第t个输出的别名字符为ut的条件概率;
p(ut|u1,u2,...,ut-1,X)=r(ut-1,kt,Ct) (6)
其中r表示全连接层函数,kt表示第t个字符在解码端的隐藏状态,计算公式为:kt=f(ut-1,kt-1,ct),f表示解码端的隐藏状态函数;Ct表示由编码时的隐藏向量序列l1,l2,...,lm,...lTx按权重相加得到的,计算公式为:
其中αta的值越高,表示第t个别名字符在第a个原始字符上分配的注意力越多,在生成第t个别名字符的时候受第a个原始字符的影响也就越大。
如前文提及的,加入注意力机制的Seq2Seq模型在生成别名时,将原始名称中构词成分的信息也作为模型输入的一部分,例如,当把实体名称中的每个字向量化输入Seq2Seq模型时,将每个字符所属的构词成分也进行向量化,一起输入到模型中进行学习,这样做不但可以丰富模型的输入信息,而且可以加快模型的学习效率。具体实现流程如图3所示,将“东风21导弹”这个实体名称输入,经过命名实体向量化、构词成分向量化、向量拼接、别名生成模型的编码端、注意力机制及别名生成模型的解码端后,可生成别名“DF-21”。而将“科大讯飞股份有限公司”这个组织机构实体名输入,经过上述步骤则可生成别名“科大讯飞”。
以上过程仅是对别名生成模型的一种示意性举例,本实施例并不限定具体的别名生成过程及手段,但仍需要强调的是:Seq2Seq模型本身虽然是常规手段,但本实施例设计Seq2Seq模型这个步骤的目的是借助于Seq2Seq模型来生成别名,并在此基础上,可对Seq2Seq模型的输入处理、输出处理(后文将做具体说明)进行改进,以此提高生成别名的准确性、效率以及可靠性,并实现多输出扩展。
步骤S3、对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。
本发明建立了加入注意力机制的Seq2Seq模型来完成别名的自动生成任务,但在实际使用模型的过程中,Seq2Seq模型默认只给出最优的别名生成结果,但在实际应用中,一个原始名称可以对应多个不同的别名。例如,在装备领域,一个实体名称会具有多个不同的别名。因此,为了确保前文提及的别名多样性需求,本发明在一些实施方式中,所述对所述别名生成模型的解码结果进行扩展可以包括但不限于在所述别名生成模型的测试阶段,利用诸如集束搜索等算法对解码结果的数量进行扩增。即所述解码端利用所述softmax分类器在每次解码时,采用集束搜索方法,从所述候选字符集中选择概率排序在前的预设数目个别名字符,直到解码结束,以生成预设数目个与所述命名实体对应的别名。
具体地,利用集束搜索扩展解码结果的数量,其主要策略是:在每步计算时,只保留当前最优的z个候选结果。例如取z=3,那么第一步时,只保留使得最大的前3个,然后分别代入,然后各取前三个,依次递归,直至达到预设终止条件(例如出现了第一个结束字符),会输出多个别名生成结果。当z=3时,会输出3个别名结果。当z=1时,就是Seq2Seq模型默认的输出方式。因此,采用集束搜索方法可以使别名生成模型输出多个可能的结果,并且用户可以根据原始名称的信息(例如长度)自定义输出别名结果的数量。
此外,在本发明的其他优选方案中,所述别名生成模型的解码结果可以包括基于预设的先验字符集解码得到的别名,当然,本领域技术人员可以理解,由本发明提供的具备编解码结构的别名声称模型输出的别名可以包括简称类别名和/或自定义类别名。其中所述自定义类别名含有所述原始名称之外的字符。如上所述,将“科大讯飞股份有限公司”这个组织机构实体名称输入,得到的解码结果“科大讯飞”为简称类别名;将“东风21导弹”这个实体名称输入,得到的解码结果“DF-21”则为自定义类别名。
关于所述先验字符集,其功能是在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。具体来说,每一领域的原始名称对应的别名都具有其独特的特征,一般而言,别名与原始名称都具有一定的关联性,别名中的大部分字词可能都在获取的原始名称中出现过,或者是原始名称中拼音首字母、英文首字母或一些连接符号。因此,本发明在一些实施方式中,通过构建先验字符集,在生成各原始字符对应的别名字符序列时,使得模型在解码输出时更倾向选用先验字符集中的字符,从而有助于加快模型收敛,生成更加符合任务场景的别名,因此可以提高别名生成的效率和准确性。并由于在别名生成模型的训练过程中也引入了先验字符集,因此也能够提升别名生成模型的训练速度。其中,先验字符集可以是原始名称中出现的字符、拼音首字母、英文首字母和连接符号,当然,基于不同领域的命名实体,设定的先验字符集也会有所差异。
而基于先验字符集的解码过程则可以是,所述解码端对所述语义向量进行解码时,在所述候选字符集(解码字库)中构建与所述命名实体所包含的字符相关的先验字符集,利用softmax分类器在每次解码时,对先验字符集中所包含的先验字符的输出概率进行额外加强,直到解码结束。具体来说,在未引入先验字符集时,每一步预测通过得到解码端的LSTM在当前时刻的隐藏层输出,然后接入到全连接层,最终得到一个大小为T的向量u=(u1,u2,...uT),其中T表示候选字符集中所含的候选字符数。u经过softmax分类器后,得到未引入先验字符集的原本概率。而在本发明的一些实施例引入先验字符集后,对于每个输入的原始名称,构建出一个大小为T的0/1向量λ=(λ12,...λi,...λT),其中λi=1表示该字符在先验字符集中存在,λi=0表示该字符在先验字符集中不存在。向量还可以是0/2向量、1/2向量等,只要保证先验字符集中先验字符对应位置的向量值大于其他字符对应位置的向量值即可。将得到的0/1向量经过一个缩放平移层得到:
其中s,w为训练参数。经过缩放平移处理后,可以使每个候选字符的输出概率不至于太大或太小。向量与得到的向量u取平均后再经过softmax分类器,则会输出每个与先验字符集关联的候选字符的最终输出概率。这里需要说明的是,本发明通过构建先验字符集,使得模型在解码输出时更倾向选用先验字符集中的字符,但并不代表仅能输出先验字符集中的字符,具体输出哪个字符需要根据输出序列的概率分布确定。
最后还需补充的是,对于本发明强调的多别名输出情况,在一些较佳实施方式中还考虑到对各输出结果的合理性作进一步判断,即在所述生成多个与所述原始名称对应的别名的步骤后,所述方法还可以包括:利用所述序列标注策略对生成的多个别名进行合理性校验,经校验后筛选出最终的别名结果。前述别名生成模型属于生成式网络,且通过多输出扩展使模型输出较多的生成结果时,可能会存在生成的某些别名存在不合理的情况,对此,本发明提出了合理性校验步骤,例如可将预设数目个与所述原始名称对应的别名结合前述序列标注策略,根据序列标注策略确定出的构成名称的关键要素,剔除那些未包含关键要素的别名。也即是在该较佳实施例中,本发明提出了序列标注策略的另一作用,即除了用于前期的构词成分解析,同时也用于后期的别名结果筛选。具体地,可以根据前述序列标注模型中所包含的构词要素,剔除不包含构词要素的别名,以装备领域为例,一个正确的装备实体名至少要包含型号、别名、特殊词中的一个,本发明在一些实施方式中,将Seq2Seq模型生成的装备别名再次输入到序列标注模型中,以判断生成的别名是否包含上述三个构词要素中的至少一个,剔除那些不包含构词要素的装备别名,从而得到更为合理的别名结果。
综上所述,本发明的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。
进一步地,本发明还基于预设的先验字符集得到别名结果,在生成别名时,使得模型在解码输出时更倾向选用先验字符集中的字符,从而有助于加快模型收敛,生成更加符合任务场景的别名,因此可以提高别名生成的效率和准确性。
进一步地,本发明还两次利用序列标注策略,一来是挖掘原始名称的信息,再者则是对生成的别名进行合理性校验,以此进一步提高别名生成模型的可靠性。
相应于上述各实施例及优选方案,本发明还提供了一种别名生成装置的实施例,如图4所示,具体可以包括如下部件:
构词成分解析模块101,用于利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
模型输入处理模块102,用于将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
模型输出处理模块103,用于对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。
在其中一种可能的实现方式中,所述别名生成模型的解码结果包括:
基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。
在其中一种可能的实现方式中,所述先验字符集用于在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。
在其中一种可能的实现方式中,所述模型输出处理模块具体包括:
解码扩展单元,用于在所述别名生成模型的测试阶段,利用集束搜索扩展解码结果的数量。
在其中一种可能的实现方式中,所述装置还包括:
别名校验模块,用于利用所述序列标注策略对生成的多个别名进行合理性校验;
别名筛选模块,用于校验后筛选出最终的别名结果。
在其中一种可能的实现方式中,所述构词成分解析模块具体包括基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。
应理解以上图4所示的别名生成装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种别名生成设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或等效实施方式的步骤/功能。
应理解,别名生成设备能够实现前述实施例提供的方法的各个过程。该设备中的各个部件的操作和/或功能,可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,别名生成设备中的处理器可以是片上系统SOC,该处理器中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其它类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置并可以存储于某存储介质中),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的别名生成方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文再做补充说明,上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatilememory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (9)

1.一种别名生成方法,其特征在于,包括:
利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名,其中,所述别名生成模型的解码结果包括:基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。
2.根据权利要求1所述的别名生成方法,其特征在于,所述先验字符集用于在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。
3.根据权利要求1所述的别名生成方法,其特征在于,所述对所述别名生成模型的解码结果进行扩展包括:在所述别名生成模型的测试阶段,利用集束搜索扩展解码结果的数量。
4.根据权利要求1所述的别名生成方法,其特征在于,所述方法还包括:
利用所述序列标注策略对生成的多个别名进行合理性校验;
校验后筛选出最终的别名结果。
5.根据权利要求1~4任一项所述的别名生成方法,其特征在于,所述序列标注策略包括:
基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。
6.一种别名生成装置,其特征在于,包括:
构词成分解析模块,用于利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
模型输入处理模块,用于将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
模型输出处理模块,用于对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名,其中,所述别名生成模型的解码结果包括:基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。
7.根据权利要求6所述的别名生成装置,其特征在于,所述构词成分解析模块具体包括基于对实体名称构成要素分析所训练出的用于解析所述构词成分的序列标注模型。
8.一种别名生成设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~5任一项所述的别名生成方法。
9.一种可读存储介质,其特征在于,在所述可读存储介质上存储有计算机程序,当计算机程序被执行时,使得计算机执行权利要求1~5任一项所述的别名生成方法。
CN202010059841.5A 2020-01-19 2020-01-19 别名生成方法、装置和设备 Active CN111310472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010059841.5A CN111310472B (zh) 2020-01-19 2020-01-19 别名生成方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010059841.5A CN111310472B (zh) 2020-01-19 2020-01-19 别名生成方法、装置和设备

Publications (2)

Publication Number Publication Date
CN111310472A CN111310472A (zh) 2020-06-19
CN111310472B true CN111310472B (zh) 2024-02-09

Family

ID=71160221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010059841.5A Active CN111310472B (zh) 2020-01-19 2020-01-19 别名生成方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111310472B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108428137A (zh) * 2017-02-14 2018-08-21 阿里巴巴集团控股有限公司 生成简称、校验电子金融业务合法性的方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428137A (zh) * 2017-02-14 2018-08-21 阿里巴巴集团控股有限公司 生成简称、校验电子金融业务合法性的方法及装置
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
单赫源 ; 吴照林 ; 张海粟 ; 周红 ; .基于规则和CRFs的部队组合名称识别方法.火力与指挥控制.2017,(10),全文. *

Also Published As

Publication number Publication date
CN111310472A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
Kiperwasser et al. Simple and accurate dependency parsing using bidirectional LSTM feature representations
CN108874174A (zh) 一种文本纠错方法、装置以及相关设备
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109783655A (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN112380435A (zh) 基于异构图神经网络的文献推荐方法及推荐系统
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN110443864A (zh) 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN111062214B (zh) 基于深度学习的集成实体链接方法及系统
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN112417878A (zh) 实体关系抽取方法、系统、电子设备及存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN115438225A (zh) 视频文本互检方法及其模型训练方法、装置、设备、介质
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN111310472B (zh) 别名生成方法、装置和设备
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
Grönroos et al. Transfer learning and subword sampling for asymmetric-resource one-to-many neural translation
CN114722797A (zh) 一种基于语法导向网络的多模态评价对象情感分类方法
CN115481246A (zh) 文本检测模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant