CN115858733A - 跨语言实体词检索方法、装置、设备及存储介质 - Google Patents

跨语言实体词检索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115858733A
CN115858733A CN202211682629.XA CN202211682629A CN115858733A CN 115858733 A CN115858733 A CN 115858733A CN 202211682629 A CN202211682629 A CN 202211682629A CN 115858733 A CN115858733 A CN 115858733A
Authority
CN
China
Prior art keywords
language
retrieved
entity
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211682629.XA
Other languages
English (en)
Inventor
程庆
孙庆华
刘权
刘聪
支洪平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Kexun Information Technology Co ltd
iFlytek Co Ltd
Iflytek Suzhou Technology Co Ltd
Original Assignee
Jilin Kexun Information Technology Co ltd
iFlytek Co Ltd
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Kexun Information Technology Co ltd, iFlytek Co Ltd, Iflytek Suzhou Technology Co Ltd filed Critical Jilin Kexun Information Technology Co ltd
Priority to CN202211682629.XA priority Critical patent/CN115858733A/zh
Publication of CN115858733A publication Critical patent/CN115858733A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种跨语言实体词检索方法、装置、设备及存储介质,本申请预先配置了跨语言实体词检索模型,对于获取的源语种的待检索实体词,以及目标语种的待检索文本,将二者组合输入至跨语言实体词检索模型,模型处理后预测输出待检索文本中与待检索实体词平行的实体词标注结果,也即得到实体词检索结果。本申请配置的端到端的跨语言实体词检索模型,其处理流程更加简单,且无需像现有技术那样进行两阶段处理,不需要将源语种的待检索实体词翻译为目标语种,以及进行实体词的匹配操作,可以避免由翻译引擎导致的翻译误差,提升实体词检索结果的准确性。

Description

跨语言实体词检索方法、装置、设备及存储介质
技术领域
本申请涉及实体词检索技术领域,更具体的说,是涉及一种跨语言实体词检索方法、装置、设备及存储介质。
背景技术
跨语言实体词检索指的是根据源语种实体词信息检索到对应目标语种文本中的实体词。比如源语种实体词信息为“土耳其”,目标语种的文本为“I want to take you tothe romantic Turkey,and then go to Tokyo and Paris together”,跨语言实体词检索算法需要利用中文实体信息“土耳其”,检索到英文目标句中的“Turkey”。
跨语言实体词检索方法可以有效地用于跨语言信息检索(Cross LanguageInformation Retrieval,CLIR)、跨语种实体词的标注、基于翻译引擎的自然语言理解等领域。目前的跨语言实体词检索方法大多分为两个阶段,第一阶段,首先利用专家标注的目标语种数据训练命名实体识别模型,利用命名实体识别模型识别目标语种的待检索文本中的各实体词。第二阶段,将源语种待检索实体词翻译为目标语种,并将目标语种的待检索实体词与命名实体识别模型所识别出的各实体词进行比对,确定成功匹配的实体词,作为检索结果。由于上述第二阶段需要将源语种的待检索实体词翻译为目标语种,若翻译引擎未正确对待检索实体词进行翻译,则会导致后续的实体词匹配过程出现偏差,最终得到的检索结果的准确性也大大降低。
发明内容
鉴于上述问题,提出了本申请以便提供一种跨语言实体词检索方法、装置、设备及存储介质,以提升跨语言实体词检索的准确性。具体方案如下:
第一方面,提供了一种跨语言实体词检索方法,包括:
获取源语种的待检索实体词,及目标语种的待检索文本;
将所述待检索实体词及所述待检索文本输入预配置的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
第二方面,提供了一种跨语言实体词检索装置,包括:
数据获取单元,用于获取源语种的待检索实体词,及目标语种的待检索文本;
模型预测单元,用于将所述待检索实体词及所述待检索文本输入预训练的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
第三方面,提供了一种跨语言实体词检索设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的跨语言实体词检索方法的各个步骤。
第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的跨语言实体词检索方法的各个步骤。
借由上述技术方案,本申请预先配置了跨语言实体词检索模型,该模型通过训练被配置为以待检索实体词及待检索文本的组合为输入,基于输入进行端到端的预测待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。在此基础上,对于获取的源语种的待检索实体词,以及目标语种的待检索文本,将二者组合输入至跨语言实体词检索模型,即可得到模型输出的待检索文本中与待检索实体词平行的实体词标注结果,也即得到实体词检索结果。由此可见,本申请配置了端到端的跨语言实体词检索模型,其处理流程更加简单,且无需像现有技术那样进行两阶段处理,不需要将源语种的待检索实体词翻译为目标语种,以及进行实体词的匹配操作,可以避免由翻译引擎导致的翻译误差,进而提升实体词检索结果的准确性。
进一步,本申请实施例设计的跨语言实体词检索模型的输入同时包含了待检索实体词和待检索文本,能够方便模型有效利用源语种的待检索实体词信息,来准确地检索目标语种的待检索文本中平行的实体词,进一步提升了实体词检索结果的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的跨语言实体词检索方法的一流程示意图;
图2示例了一种端到端结构的跨语言实体词检索模型的结构示意图;
图3示例了一种跨语言实体词检索模型的输出概率分布示意图;
图4为本申请实施例提供的一种跨语言实体词检索装置结构示意图;
图5为本申请实施例提供的跨语言实体词检索设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种跨语言实体词检索方案,可以实现跨语言的实体词检索任务,跨语言实体词检索方法可以有效地用于跨语言信息检索(Cross Language InformationRetrieval,CLIR)、跨语种实体词的标注、基于翻译引擎的自然语言理解等领域。其中,跨语言信息检索可以用一种提问语言检索出用另一种语言对应的文本信息,其实现应用了信息检索、文字处理、和机器翻译等技术。而跨语种实体词的标注方法常用于命名实体识别任务中,通常用于将带有大量实体标注信息的中文或英文语料,转化为语料较少的语种,可以在数据较少的情况下优化命名实体识别网络的性能。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的跨语言实体词检索方法可以包括如下步骤:
步骤S100、获取源语种的待检索实体词,及目标语种的待检索文本。
具体地,源语种和目标语种的组合可以有多种,示例如源语种为中文,目标语种为非中文的其它语种,如英语、日语、德语、法语等。当然,源语种还可以是非中文的其它语种,此处不再一一赘述。
待检索实体词为需要进行跨语言检索的实体词。本步骤中获取源语种的待检索实体词的过程,可以是直接获取用户输入或指定的实体词,也可以是获取包含待检索实体词的文本,并将文本中指定的或自动识别出的实体词,作为待检索实体词。
待检索文本为需要检索其中包含的与待检索实体词相同或相似词意的实体词的文本。其可以是用户输入或指定的文本。
步骤S110、将所述待检索实体词及所述待检索文本输入预配置的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果。
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
上述跨语言实体词检索模型为端到端的神经网络结构,可以将待检索实体词及待检索文本组合后作为跨语言实体词检索模型的输入,由模型采用端到端的方式实现跨语言实体词检索,也即,得到待检索文本中与输入的待检索实体词平行的实体词的标注结果。
具体地,本实施例中跨语言实体词检索模型可以采用序列标注的方式对待检索文本进行平行实体词的标注,如采用B、I、O的形式或其他标注形式。其中B代表与待检索实体词平行实体词的开头token,I代表与待检索实体词平行实体词的中间token,O代表非待检索实体词的平行实体词token。
上述表达“与待检索实体词平行的实体词”,其中“平行”的含义是指,不同语种下表征同一实体对象,则“与待检索实体词平行的实体词”的含义是指目标语种的待检索文本中,与源语种的待检索实体词相同或相似词意的实体词。
本申请实施例提供的跨语言实体词检索方法中,预先配置了跨语言实体词检索模型,该模型通过训练被配置为以待检索实体词及待检索文本的组合为输入,基于输入进行端到端的预测待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。在此基础上,对于获取的源语种的待检索实体词,以及目标语种的待检索文本,将二者组合输入至跨语言实体词检索模型,即可得到模型输出的待检索文本中与待检索实体词平行的实体词标注结果,也即得到实体词检索结果。由此可见,本申请配置了端到端的跨语言实体词检索模型,其处理流程更加简单,且无需像现有技术那样进行两阶段处理,不需要将源语种的待检索实体词翻译为目标语种,以及进行实体词的匹配操作,可以避免由翻译引擎导致的翻译误差,进而提升实体词检索结果的准确性。
进一步,本申请实施例设计的跨语言实体词检索模型的输入同时包含了待检索实体词和待检索文本,能够方便模型有效利用源语种的待检索实体词信息,来准确地检索目标语种的待检索文本中平行的实体词,进一步提升了实体词检索结果的准确性。
基于本实施例提供的跨语言实体词检索方法,可以应用于跨语言信息检索、跨语种实体词的标注、基于翻译引擎的自然语言理解等领域。以跨语种实体标注为例进行说明:
对于部分小语种,其含有实体标注的训练语料较少,导致无法基于足够的训练语料训练得到自然语言处理模型,如语义理解模型等。为此,可以采用本申请的跨语言实体词检索方法,来自动生成大量携带有实体标注的小语种训练语料。具体方式可以包括:
首先获取大量带有实体标注的源语种语料(源语种可以是中文、英文等容易获取到大量带有实体标注的语料的语种)。利用翻译引擎对源语种语料进行翻译,得到小语种的翻译语料。进一步的为了在翻译语料中对齐源语种语料的实体词,可以采用本申请的方案,将源语种语料中的实体词作为待检索实体词,将翻译语料作为待检索文本,输入跨语言实体词检索模型,得到模型输出的待检索文本中与待检索实体词平行的实体词的标注结果,也即,得到翻译语料中与源语种语料中的实体词平行的实体词,至此可以得到携带有实体词标注的小语种训练语料。之后,可以利用大量的小语种训练语料去训练自然语言任务模型。
除此之外,本申请的跨语言实体词检索方法还可以应用于其它涉及跨语言检索的场景,示例如:在跨语言论文查重、跨语言文献检索等场景下,可以接收用户输入的源语种的待检索实体词,以及用户指定的待检索文本,进而采用本申请的跨语言实体词检索方法,得到待检索文本中与待检索实体词平行的实体词标注结果。
进一步地,为了更加方便用户看到实体词检索结果,本申请还可以基于待检索文本中与待检索实体词平行的实体词的标注结果,通过设定标记方式将所述平行的实体词标记显示。
具体地,可以在待检索文本中对平行的实体词进行标记显示,也可以单独只对平行的实体词进行标记显示。其中,设定标记方式包括但不限于:加粗、下划线、颜色标记等,能够引起用户的视觉注意即可。
在本申请的一些实施例中,对前述跨语言实体词检索模型进行介绍。
本申请实施例中提供了一种端到端结构的跨语言实体词检索模型,如图2所示,其可以包括:嵌入层、特征提取层及输出层。
其中,嵌入层的输入包括待检索实体词和待检索文本。
具体地,可以将待检索实体词和待检索文本按照设定方式进行拼接后,输入嵌入层。在拼接时,可以采用设定模型标识符对待检索实体词进行标记,如图2中,采用“CLS”和“SEP”两种标识符分别拼接在待检索实体词的两端,之后再拼接待检索实体词。
以待检索实体词为“巴黎”,待检索文本为“I want to go to Paris”为例,拼接后作为嵌入层的输入为“CLS巴黎SEP I want to go to Paris”。
利用嵌入层对输入句子进行编码,得到编码特征。
本实施例中,通过嵌入层对输入句子进行编码时,可以分别进行句子的位置编码、token编码和分割编码,由三种编码组合得到编码特征,可以丰富编码特征的含义。
特征提取层用于对嵌入层输出的编码特征进行深层编码,得到深层编码特征。特征提取层可以有多种不同的网络结构,图2示例了特征提取层包括若干个堆叠的Transformer编码器和全连接层组成。
可选的,嵌入层和特征提取层可以采用多语种的大规模训练语料训练得到的预训练语言模型的网络参数进行参数初始化,该预训练语言模型包括但不限于mBERT等语言模型。mBERT在预训练的过程中使用了多个语种的文本语料,且具有跨语言知识迁移能力和零样本学习能力。嵌入层和特征提取层通过迁移学习mBERT的网络参数,能够保留mBERT的知识迁移能力和零样本学习能力,能够使用同一个网络有效地实现多个语言的跨语种实体词检索。
输出层用于基于深层编码特征,预测待检索文本中与待检索实体词平行的实体词的标注结果。
本实施例中,可以采用softmax函数作为输出层,其输出为输入句子中各token对应“B”、“I”、“O”标注的概率分布。
如图2所示,对于输入的待检索实体词“巴黎”,以及待检索文本“I want to go toParis”,模型最终输出的标注结果为“O O O O O O O O O B”,也即表示待检索文本中最后一个token为检索结果:Paris。
本实施例提供的跨语言实体词检索模型在训练时,可以首先利用迁移学习技术加载mBERT的网络参数,然后使用交叉熵函数作为损失函数进行网络训练。
接下来,进一步介绍上述跨语言实体词检索模型的训练过程。
跨语言实体词检索模型以源语种的训练实体词及目标语种的训练文本作为训练样本,以所述训练文本中与训练实体词平行的实体词标注结果作为样本标签训练得到。
进一步可选的,为了使得模型在处理过程更加关注源语种的待检索实体词,本实施例中按照一定的比例构建正例训练样本和负例训练样本,组成整体的训练样本。
其中,正例训练样本中的目标语种的训练文本中包含与训练实体词平行的实体词,负例训练样本中的目标语种的训练文本中不包含与训练实体词平行的实体词。也即,源语种的待检索实体词所代表的含义,在负例训练样本中的训练文本中并未出现。
正例训练样本和负例训练样本的比例可调,示例如1:3。
如下表1示例了几种训练样本的实体词标注结果。其中,训练样本包括部分正例训练样本及负例训练样本。
表1
Figure BDA0004019628040000081
上表1中可以看出,其中第三个训练样本为正例训练样本,其余几个训练样本均为负例训练样本。
本申请实施例中,提供了上述正例训练样本的几种不同的获取方式。
第一种获取方式可以包括如下步骤:
S10、获取源语种的文本语料。
具体地,可以收集源语种的开源文本语料数据,示例如对话流数据等。其中对话流数据中的大多数句子是相对独立,且具有完整的语义信息。
可选的,本步骤中可以获取源语种的原始文本语料,进而对原始文本语料进行数据清洗。数据清洗过程可以包括:将原始文本语料中句子长度小于长度阈值的句子删除,以及将包含非源语种信息的句子删除,得到数据清洗后的源语种的文本语料。
其中,长度阈值L可以按照实际需求而设定。非源语种信息可以是除源语种外的其它语种内容,以及表情符号等。
S11、确定所述文本语料中的专有名词及非专有名词,由专有名词及非专有名词作为训练实体词。
本实施例中需要说明的是:实体词是人为根据应用场景规定的,譬如“我想听张三的歌”这句话里,张三就应该是一个实体词,也就是说站在大样本的角度,实体词与一句话的核心语义是强相关的。因此,实体词也可以看作是一种狭义的关键词。此外,本实施例中,将关键词划分为两种类型,一种是专有名词,另一种是非专有名词。专有名词指的是那些特定的关键词,如“歌手、歌名、导演、影视作品”等,而非专有名词指除专有名词之外的其它关键词。
本实施例中,从文本语料中确定出专有名词和非专有名词,由专有名词和非专有名词组成训练实体词。
对于从文本语料中确定专有名词和非专有名词的方式,其可以采用命名实体识别技术,或基于专有名词词典和非专有名词词典等不同的方式来确定,本实施例中不做过多限定。
S12、采用与专有名词匹配的第一标记符对所述文本语料中的专有名词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中的非专有名词进行标记,得到标记后文本语料。
本实施例中,考虑到专有名词和非专有名词的区别,同时,为了强调两种名词在翻译过程的重要性及区别性,提升跨语言实体词翻译、对齐的效果,分别设计了两种不同的标记符,即:与专有名词匹配的第一标记符,以及,与非专有名词匹配的第二标记符。
采用第一标记符对文本语料中的专有名词进行标记,以及,采用第二标记符对文本语料中的非专有名词进行标记,得到标记后文本语料。
通过采用标记符对文本语料中的名词进行标记,既能够向翻译引擎强度名词的重要性,又可以通过标记符实现跨语言词组的对齐,也即通过标记符将翻译前后同一含义的实体词进行对齐。
此外,通过采用不同的标记符对文本语料中的专有名词和非专有名词进行区别标记,能够适应专有名词和非专有名词的语言特性,实现更精准的翻译效果。
本实施例中,创造性的提出了第一、第二标记符的具体化表达形式,即:第一标记符采用:"*",第二标记符采用:#[*]#。其中,*代表需要标记的关键词(即专有名词和非专有名词)。
其中,第一标记符"*"能够在翻译引擎翻译过程,强调所标记的专有名词的重要性的同时,考虑上下文环境,实现跨语言词组对齐。
第二标记符#[*]#能够在翻译引擎翻译过程,在保证考虑所标记的非专有名词的前提下,实现跨语言词组对齐。
举例说明如下:
源语种的文本语料为“世界上最远的距离,不是爱,不是恨,而是熟悉的人,渐渐变得陌生”。
该文本语料中包含的实体词为非专有名词“陌生”,则采用第二标记符#[*]#对其进行标记,得到标记后文本语料“世界上最远的距离,不是爱,不是恨,而是熟悉的人,渐渐变得#[陌生]#”。
再比如,源语种的文本语料为“坐着火车去拉萨是一首好歌”。
该文本语料中包含的实体词为专有名词“坐着火车去拉萨”,则采用第一标记符"*"对其进行标记,得到标记后文本语料“"坐着火车去拉萨"是一首好歌”。
S13、采用翻译引擎将所述标记后文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本。
具体地,将上述标记后文本语料输入翻译引擎中翻译为目标语种,即可得到目标语种的文本语料,作为目标语种的训练文本。
其中,翻译引擎可以采用各种类型的翻译引擎,本申请实施例对此不做严格限定。
并且,经过大量的实验验证,采用本实施例介绍的第一、第二标记符对文本语料中的专有名词和非专有名词进行标记后,经过翻译引擎翻译得到的目标语种的文本语料的翻译准确性得到了很好的提升,并且,通过第一、第二标记符可以很好的实现跨语言词组的对齐,有效地避免了现有技术存在的由于词序变化、实体跨度不确定等原因导致的跨语言词组无法对齐的问题。
以上述标记后文本语料:世界上最远的距离,不是爱,不是恨,而是熟悉的人,渐渐变得#[陌生]#为例,经过翻译引擎翻译为英语后,如下:
The furthest distance in the world is not love,not hate,but thefamiliar person,gradually becoming#[strange]#.
可以看到,非专有名词“陌生”,翻译为“strange”。并且,由于翻译后的目标语种的文本语料中也携带有标记符,因此,可以通过标记符实现跨语言词组的对齐。
本实施例提供的方法,通过在源语种的文本语料中确定专有名词和非专有名词,组成训练实体词,进一步采用不同的标记符分别对专有名词和非专有名词进行标记,将标记后文本语料通过翻译引擎翻译为目标语种,得到目标语种的文本语料作为目标语种的训练文本,由源语种的训练实体词和目标语种的训练文本组成正例训练样本。
本实施例中,考虑到专有名词和非专有名词的区别,通过第一、第二标记符分别对专有名词和非专有名词进行区别标记,既强调了两种名词在翻译过程的重要性及区别性,提升跨语言实体词翻译准确性,又可以通过第一、第二标记符很好的实现跨语言词组的对齐,有效地避免了现有技术存在的由于词序变化、实体跨度不确定等原因导致的跨语言词组无法对齐的问题。
本申请实施例中还提供了另一种正例训练样本的获取方式,如下:
第二种获取方式可以包括如下步骤:
S20、获取源语种的文本语料。
步骤S20和前文中的步骤S10一致,详细参照前文介绍,此处不再赘述。
S21、确定所述文本语料中的实体词,作为训练实体词。
本步骤中确定文本语料中的实体词的方式可以有多种,示例如采用实体词词典匹配,或者采用预训练的实体词提取模型,从文本语料中提取实体词,或采用命名实体识别模型对文本语料进行命名实体识别,得到实体词,等等。
S22、采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本。
具体地,翻译引擎可以采用各种不同类型的翻译引擎,通过将源语种的文本语料输入翻译引擎,可以得到翻译后的目标语种的文本语料。由于翻译过程是以句子级别的文本语料进行翻译的,可以避免出现对单个分词进行翻译所导致的由于缺乏上下文信息而翻译不准的问题。
S23、由所述源语种的训练实体词及所述目标语种的训练文本组成正例训练样本。
本实施例提供的正例训练样本的获取方式,通过在源语种的文本语料中识别实体词,作为训练实体词,并利用翻译引擎对源语种的文本语料进行翻译,得到目标语种的文本语料,作为目标语种的训练文本,由训练实体词和训练文本组成正例训练样本。整个过程可以自动实现,无需人工标注及翻译。
进一步地,为了提升训练样本的多样性,本申请实施例中还可以对上述实施例获取的训练实体词进行同义词扩展,也即,获取训练实体词的同义词,由该同义词及目标语种的训练文本组成正例训练样本。
其中,同义词扩展的过程可以采用同义词工具,得到训练实体词的各同义词,以及每个同义词的匹配度。进一步可以筛选匹配度满足要求的同义词保留,如筛选匹配度超过阈值的同义词进行保留。
以源语种的文本语料“世界上最远的距离,不是爱,不是恨,而是熟悉的人,渐渐变得陌生”中的训练实体词“陌生”为例,通过同义词工具得到的同义词可以包括“生疏”。
则可以将“生疏”作为扩展的训练实体词,与目标语种的训练文本“The furthestdistance in the world is not love,not hate,but the familiar person,graduallybecoming strange”组成正例训练样本。
本实施例中,通过扩展训练实体词的同义词,由同义词与目标语种的训练文本组成正例训练样本,可以提升训练样本的多样性。
在本申请的一些实施例中,介绍了上述步骤S21,确定所述文本语料中的实体词,作为训练实体词的一种可选实现方式。
本实施例中,可以采用分词词典对文本语料进行分词,得到分词结果。
其中,分词词典中包含预收集的若干个专有名词。
本实施例中可以获取开源的专有名词,组成专有名词词典D1。进一步利用专有名词词典D1补充现有的分词词典,然后利用补充后的分词词典对文本语料进行分词,得到分词结果。
以文本语料为“世界上最远的距离,不是爱,不是恨,而是熟悉的人,渐渐变得陌生”为例,经过分词后得到分词结果为“世界/上/最远/的/距离/,/不是/爱/,/不是/恨/,/而是/熟悉/的/人/,/渐渐/变得/陌生/”。
在上述得到文本语料的分词结果之后,可以进一步在所述分词结果中提取关键词,得到关键词集合,由所述关键词集合作为训练实体词。
具体地,可以采用预训练模型的关键词提取算法,从分词结果中提取关键词信息。具体提取时,可以得到每个关键词及其置信度分,进而可以筛选置信度分超过阈值的关键词,组成关键词集合。
以上述分词结果为例,提取的关键词信息可以包括“[距离,0.6037],[最远,0.5953],[陌生,0.465],[爱,0.4386],[恨,0.3985]”。[]中的数值为对应关键词的置信度分,可以筛选置信度分超过阈值的关键词,组成关键词集合。示例如,阈值设置为0.45时,关键词集合中包含的关键词有:“距离、最远、陌生”。
在上述介绍的确定文本语料中实体词的实现方式的基础上,本实施例进一步介绍了前述步骤S22,采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本的一种可选实现方式。具体地,可以包括如下步骤:
S30、确定所述关键词集合中每一关键词的类型,所述类型包括专有名词和非专有名词。
一种可选的方式下,可以基于前述方案中创建的专有名词词典D1进行关键词类型的确定。具体地,可以判断关键词集合中每一个关键词是否在专有名词词典D1中,若是,则表示该关键词属于专有名词类型,否则,表示该关键词属于非专有名词类型。
S31、采用与专有名词匹配的第一标记符对所述文本语料中属于专有名词类型的关键词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中属于非专有名词类型的关键词进行标记,得到标记后文本语料。
S32、采用翻译引擎将所述标记后文本语料翻译为目标语种,得到所述目标语种的文本语料,作为目标语种的训练文本。
本实施例中步骤S31-S32与前述实施例中的步骤S12-S13一一对应,详细参照前文介绍,此处不再赘述。
本实施例中,考虑到专有名词和非专有名词的区别,通过第一、第二标记符分别对专有名词和非专有名词进行区别标记,既强调了两种名词在翻译过程的重要性及区别性,提升跨语言实体词翻译准确性,又可以通过第一、第二标记符很好的实现跨语言词组的对齐,有效地避免了现有技术存在的由于词序变化、实体跨度不确定等原因导致的跨语言词组无法对齐的问题。
本申请上述实施例得到的训练样本,对专有名词和非专有名词进行了区别标记,提升跨语言实体词翻译准确性以及跨语言词组的对齐,保证了训练样本的准确性。在此基础上,利用该训练样本及样本标签对跨语言实体词检索模型进行训练,能够提升模型的泛化能力及鲁棒性。
为了验证本申请实施例训练的跨语言实体词检索模型的性能,本申请在验证集上对模型进行了测试,最终得到的测试结果如下表2:
表2
数据 句准确率 负样本准确率
验证集 0.930 0.965
其中,句准确率是指对验证集中所有样本句子的实体词标注标签预测正确的概率,负样本准确率是指对验证集中负例样本句子的实体词标注标签预测正确的概率。由上表2可以看出,无论是句准确率还是负样本准确率都达到了较高的数值,表明本申请训练的跨语言实体词检索模型的性能的优异。
进一步地,为了进一步分析模型的工作原理,本申请实施例中还对跨语言实体词检索模型的输出概率分布进行了可视化,示例如图3。
图3中,横坐标表示输入待检索文本中各分词,纵坐标为对数坐标系,表示预测的概率分布值。
每个分词对应的三个柱状图,从左到右依次表示模型在该分词位置预测为“B”、“I”、“O”三种标注结果的概率,其中“B”、“I”、“O”为序列标注方式,其含义已经在前文介绍,即“B”、“I”表示预测为实体词,“O”表示预测为非实体词。
图3对应的待检索词为“治疗”,待检索文本为“Ah,then hur##ry up and go totreatment”。
由图3可见,对于待检索文本中与待检索词“治疗”平行的实体词“treatment”,本申请的跨语言实体词检索模型将其预测为“B”的概率得分很高,也即能够准确预测出待检索文本中与待检索词平行的实体词。
对于待检索文本中非平行实体词的其它分词,将其预测为“O”的概率得分也很高,表明能够准确识别出待检索文本中的非平行实体词。
并且,对于每个分词预测的“B”和“O”的概率得分差值很大,也即预测结果的置信度很高。
上述图3也进一步证明了本申请训练的跨语言实体词检索模型对跨语言实体词检索结果的准确性。
本申请提出的跨语言实体检索模型的训练样本的获取方式,可以基于源语种开源数据来构建大量的训练样本,有效解决数据不足和人工标注成本大的缺点。并且,在构建训练样本过程,对实体词进行专有名词和非专有名词的区分标记,既强调了两种名词在翻译过程的重要性及区别性,提升跨语言实体词翻译准确性,又可以通过第一、第二标记符很好的实现跨语言词组的对齐,有效地避免了现有技术存在的由于词序变化、实体跨度不确定等原因导致的跨语言词组无法对齐的问题。
进一步,本申请提供的跨语言实体词检索模型采用端到端结构,其检索速度更快,检索精度也更高。采用上述训练样本进行训练,可以得到提升模型的鲁棒性以及泛化能力。并且,在模型训练过程,进一步采用了负例样本策略,可以使得模型更加关注源语种的待检索实体词,取得较好的检索效果。再进一步地,在模型训练过程,通过迁移学习加载mBERT的网络参数,保留了预训练语言模型mBERT的知识迁移能力和零样本学习能力,能够使用同一个跨语言实体词检索模型有效地实现多个语言的跨语种实体词检索。
下面对本申请实施例提供的跨语言实体词检索装置进行描述,下文描述的跨语言实体词检索装置与上文描述的跨语言实体词检索方法可相互对应参照。
参见图4,图4为本申请实施例公开的一种跨语言实体词检索装置结构示意图。
如图4所示,该装置可以包括:
数据获取单元11,用于获取源语种的待检索实体词,及目标语种的待检索文本;
模型预测单元12,用于将所述待检索实体词及所述待检索文本输入预训练的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
本申请实施例提供的跨语言实体词检索模型可以包括嵌入层、特征提取层及输出层。基于此,上述模型预测单元将所述待检索实体词及所述待检索文本输入预训练的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果的过程,包括:
将所述待检索实体词与所述待检索文本输入所述嵌入层,得到输入句子的编码特征;
利用所述特征提取层对所述编码特征进行深层编码,得到深层编码特征;
利用所述输出层基于所述深层编码特征,预测所述待检索文本中与所述待检索实体词平行的实体词的标注结果。
可选的,上述跨语言实体词检索模型的嵌入层和特征提取层可以采用多语种预训练语言模型的网络参数进行参数初始化。其中,多语种预训练语言模型可以采用mBERT或其他模型。
可选的,上述跨语言实体词检索模型以源语种的训练实体词及目标语种的训练文本作为训练样本,以所述训练文本中与训练实体词平行的实体词标注结果作为样本标签训练得到;
其中,所述训练样本包括正例训练样本及负例训练样本,正例训练样本中的目标语种的训练文本中包含与所述训练实体词平行的实体词,负例训练样本中的目标语种的训练文本中不包含与所述训练实体词平行的实体词。
可选的,本申请的装置还可以包括:第一正例训练样本获取单元,其获取正例训练样本的过程,可以包括:
获取源语种的文本语料;
确定所述文本语料中的专有名词及非专有名词,由专有名词及非专有名词作为训练实体词;
采用与专有名词匹配的第一标记符对所述文本语料中的专有名词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中的非专有名词进行标记,得到标记后文本语料;
采用翻译引擎将所述标记后文本语料翻译为目标语种,得到所述目标语种的文本语料,作为目标语种的训练文本。
可选的,本申请的装置还可以包括:第二正例训练样本获取单元,其获取正例训练样本的过程,可以包括:
获取源语种的文本语料;
确定所述文本语料中的实体词,作为训练实体词;
采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本;
由所述源语种的训练实体词及所述目标语种的训练文本组成正例训练样本。
可选的,上述第二正例训练样本获取单元还可以用于:
获取所述训练实体词的同义词,由所述训练实体词的同义词及所述目标语种的训练文本组成正例训练样本。
可选的,上述第二正例训练样本获取单元确定所述文本语料中的实体词,作为训练实体词的过程,可以包括:
采用分词词典对所述文本语料进行分词,得到分词结果,其中,所述分词词典中包含预收集的专有名词;
在所述分词结果中提取关键词,得到关键词集合,由所述关键词集合作为训练实体词。
进一步可选的,上述第二正例训练样本获取单元采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本的过程,可以包括:
确定所述关键词集合中每一关键词的类型,所述类型包括专有名词和非专有名词;
采用与专有名词匹配的第一标记符对所述文本语料中属于专有名词类型的关键词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中属于非专有名词类型的关键词进行标记,得到标记后文本语料;
采用翻译引擎将所述标记后文本语料翻译为目标语种,得到所述目标语种的文本语料,作为目标语种的训练文本。
其中,所述第一标记符可以包括:″*″,其中*代表需要标记的关键词;
所述第二标记符可以包括:#[*]#。
可选的,上述第一、第二正例训练样本获取单元获取源语种的文本语料的过程,可以包括:
获取源语种的原始文本语料;
将原始文本语料中句子长度小于长度阈值的句子删除,以及将包含非源语种信息的句子删除,得到数据清洗后的源语种的文本语料。
本申请实施例提供的跨语言实体词检索装置可应用于跨语言实体词检索设备,如终端:手机、电脑等。可选的,图5示出了跨语言实体词检索设备的硬件结构框图,参照图5,跨语言实体词检索设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取源语种的待检索实体词,及目标语种的待检索文本;
将所述待检索实体词及所述待检索文本输入预配置的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取源语种的待检索实体词,及目标语种的待检索文本;
将所述待检索实体词及所述待检索文本输入预配置的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种跨语言实体词检索方法,其特征在于,包括:
获取源语种的待检索实体词,及目标语种的待检索文本;
将所述待检索实体词及所述待检索文本输入预配置的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
2.根据权利要求1所述的方法,其特征在于,所述跨语言实体词检索模型包括嵌入层、特征提取层及输出层;
将所述待检索实体词及所述待检索文本输入预训练的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果的过程,包括:
将所述待检索实体词与所述待检索文本输入所述嵌入层,得到输入句子的编码特征;
利用所述特征提取层对所述编码特征进行深层编码,得到深层编码特征;
利用所述输出层基于所述深层编码特征,预测所述待检索文本中与所述待检索实体词平行的实体词的标注结果。
3.根据权利要求2所述的方法,其特征在于,所述嵌入层及所述特征提取层采用多语种预训练语言模型的网络参数进行参数初始化。
4.根据权利要求1所述的方法,其特征在于,所述跨语言实体词检索模型以源语种的训练实体词及目标语种的训练文本作为训练样本,以所述训练文本中与训练实体词平行的实体词标注结果作为样本标签训练得到;
其中,所述训练样本包括正例训练样本及负例训练样本,正例训练样本中的目标语种的训练文本中包含与所述训练实体词平行的实体词,负例训练样本中的目标语种的训练文本中不包含与所述训练实体词平行的实体词。
5.根据权利要求4所述的方法,其特征在于,所述正例训练样本的获取过程,包括:
获取源语种的文本语料;
确定所述文本语料中的专有名词及非专有名词,由专有名词及非专有名词作为训练实体词;
采用与专有名词匹配的第一标记符对所述文本语料中的专有名词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中的非专有名词进行标记,得到标记后文本语料;
采用翻译引擎将所述标记后文本语料翻译为目标语种,得到所述目标语种的文本语料,作为目标语种的训练文本。
6.根据权利要求4所述的方法,其特征在于,所述正例训练样本的获取过程,包括:
获取源语种的文本语料;
确定所述文本语料中的实体词,作为训练实体词;
采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本;
由所述源语种的训练实体词及所述目标语种的训练文本组成正例训练样本。
7.根据权利要求6所述的方法,其特征在于,还包括:
获取所述训练实体词的同义词,由所述训练实体词的同义词及所述目标语种的训练文本组成正例训练样本。
8.根据权利要求6所述的方法,其特征在于,所述确定所述文本语料中的实体词,作为训练实体词,包括:
采用分词词典对所述文本语料进行分词,得到分词结果,其中,所述分词词典中包含预收集的专有名词;
在所述分词结果中提取关键词,得到关键词集合,由所述关键词集合作为训练实体词。
9.根据权利要求8所述的方法,其特征在于,所述采用翻译引擎将所述文本语料翻译为目标语种,得到目标语种的文本语料,作为目标语种的训练文本,包括:
确定所述关键词集合中每一关键词的类型,所述类型包括专有名词和非专有名词;
采用与专有名词匹配的第一标记符对所述文本语料中属于专有名词类型的关键词进行标记,以及,采用与非专有名词匹配的第二标记符对所述文本语料中属于非专有名词类型的关键词进行标记,得到标记后文本语料;
采用翻译引擎将所述标记后文本语料翻译为目标语种,得到所述目标语种的文本语料,作为目标语种的训练文本。
10.根据权利要求5或9所述的方法,其特征在于,所述第一标记符包括:”*”,其中*代表需要标记的关键词;
所述第二标记符包括:#[*]#。
11.根据权利要求5-9任一项所述的方法,其特征在于,所述获取源语种的文本语料,包括:
获取源语种的原始文本语料;
将原始文本语料中句子长度小于长度阈值的句子删除,以及将包含非源语种信息的句子删除,得到数据清洗后的源语种的文本语料。
12.根据权利要求1-9任一项所述的方法,其特征在于,还包括:
基于所述待检索文本中与所述待检索实体词平行的实体词的标注结果,通过设定标记方式将所述平行的实体词标记显示。
13.一种跨语言实体词检索装置,其特征在于,包括:
数据获取单元,用于获取源语种的待检索实体词,及目标语种的待检索文本;
模型预测单元,用于将所述待检索实体词及所述待检索文本输入预训练的跨语言实体词检索模型,得到模型输出的所述待检索文本中与所述待检索实体词平行的实体词的标注结果;
其中,所述跨语言实体词检索模型被配置为基于输入的待检索实体词及待检索文本,预测所述待检索文本中与待检索实体词平行的实体词的标注结果的内部状态表示。
14.一种跨语言实体词检索设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的跨语言实体词检索方法的各个步骤。
15.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的跨语言实体词检索方法的各个步骤。
CN202211682629.XA 2022-12-27 2022-12-27 跨语言实体词检索方法、装置、设备及存储介质 Pending CN115858733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211682629.XA CN115858733A (zh) 2022-12-27 2022-12-27 跨语言实体词检索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211682629.XA CN115858733A (zh) 2022-12-27 2022-12-27 跨语言实体词检索方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115858733A true CN115858733A (zh) 2023-03-28

Family

ID=85653425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211682629.XA Pending CN115858733A (zh) 2022-12-27 2022-12-27 跨语言实体词检索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115858733A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151395A (zh) * 2023-04-21 2023-05-23 北京澜舟科技有限公司 基于实体词关系的检索模型训练方法、系统及检索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151395A (zh) * 2023-04-21 2023-05-23 北京澜舟科技有限公司 基于实体词关系的检索模型训练方法、系统及检索方法

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN105869642B (zh) 一种语音文本的纠错方法及装置
CN110019843B (zh) 知识图谱的处理方法及装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN109726274B (zh) 问题生成方法、装置及存储介质
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN112035730B (zh) 一种语义检索方法、装置及电子设备
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
WO2021159812A1 (zh) 癌症分期信息处理方法、装置及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN107958068B (zh) 一种基于实体知识库的语言模型平滑方法
CN111626042A (zh) 指代消解方法及装置
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination