CN115099246A - 基于机器翻译的知识融合方法、装置、设备、介质及产品 - Google Patents

基于机器翻译的知识融合方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN115099246A
CN115099246A CN202210645372.4A CN202210645372A CN115099246A CN 115099246 A CN115099246 A CN 115099246A CN 202210645372 A CN202210645372 A CN 202210645372A CN 115099246 A CN115099246 A CN 115099246A
Authority
CN
China
Prior art keywords
word
sub
text
phrase
language text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210645372.4A
Other languages
English (en)
Inventor
关玉洋
邢启洲
李健
陈明
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202210645372.4A priority Critical patent/CN115099246A/zh
Publication of CN115099246A publication Critical patent/CN115099246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于机器翻译的知识融合方法、装置、设备、介质及产品,所述方法包括:获取待翻译的源语言文本;获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列;对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列;对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文。本发明中,对源语言文本和目标语言对应词或短语分别进行子词分词后再融合,不但降低了终端词汇量的融入,解决了翻译时超出词汇的问题,还提高了用户指定词或短语翻译的准确率以及整句话的翻译效果。

Description

基于机器翻译的知识融合方法、装置、设备、介质及产品
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于机器翻译的知识融合方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着全球化进程的不断深入,跨语言交流的需求越来越多,而随着人工智能的飞速发展,利用人工智能技术,提升文档,语音等形态的内容,以及从一种语言翻译成另外一种语言逐渐成为可能。机器翻译,又称为自动翻译,是利用计算机将一种语言转换成另一种语言的过程,是人工智能的终极目标。
相关技术中,在机器翻译中,通常采用用户指定单词一对一的知识融合方法。该融合方法就是在编码时,先对源语言文本以单词为单位进行切分,并在源语言用户指定词后面,加入目标语言的对应指定词,之后,将切分后的单词分别标注为:源语言不指定成分,源语言指定成分和目标语言指定成分等。即在源语言文本上加入对应的目标语言的对应指定词,并根据成分做出标注,然后,将文本和成分标注通过向量表示,并对两种向量进行合并,之后,通过序列到序列模型(如Transformer,LSTM等)进行编码和解码,得到对应的目标语言文本。
但是,该相关融合方法中,是以单词为单位进行一对一标注的,而进入模型编码时也是以单词为编码的最小单位,当要融合进入模型的知识是指定短语时,这种一对一的标注方式完全不适用,而以单词为单位的编码方式无法很好地利用单词之间共同的编码信息,从而会导致单词编码对语义(或者语意)的建模效果。同时,以单词作为编码的最小单位,在编码时会导致超出词汇(OOM,Out of Vocabulary)的问题,由于受硬件内存限制,在机器翻译模型中,输入端的词汇量只涵盖了源语言中单词,模型无法涵盖翻译时所有可能出现的单词,所以模型需要尽量多的融合词汇,由于词汇量占用更多的内存,只能通过牺牲模型结构和大小,从而降低了模型翻译的准确性。
发明内容
本发明提供一种基于机器翻译的知识融合方法、装置、电子设备、计算机可读存储介质及计算机程序产品,以至少解决相关技术中由于以单词为最小单位进行一对一的标注方式,在模型翻译时无法涵盖所有可能出现的单词,为了能在模型中融入更多的词汇量,需要牺牲模型的结构和大小,从而导致模型翻译准确率较低的技术问题。本发明的技术方案如下:
根据本发明实施例的第一方面,提供一种基于机器翻译的知识融合方法,包括:
获取待翻译的源语言文本;
获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;
对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列;
对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列;
对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
可选的,所述获取与所述源语言文本中的指定词或短语的目标语言对应词或短语,包括:
提取所述源语言文本中的指定词或短语;以及所述指定词或短语在所述源目标语言文本中的位置;以及
获取与所述指定词或短语对应的目标语言对应词或短语;或者检测到用户输入的与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
可选的,所述对所述源语言文本和所述目标语言对应词或短语的子词进行子词融合,得到子词融合后的子词文本序列,包括:
对所述源语言文本和所述目标语言对应词或短语分别进行子词分词,得到对应的第一子词分词结果和第二子词分词结果;
对所述第一子词分词结果和第二子词分词结果进行拼接,得到拼接后的子词文本序列。
可选的,所述第一子词分词结果包括:所述源语言文本中的指定词或短语的子词分词结果,以及所述源语言文本中除所述指定词或短语的子词分词结果外其余部分的子词分词结果,所述第二子词分词结果包括:目标语言指定词或短语的子词分词结果;
所述对所述第一子词分词结果和第二子词分词结果进行拼接包括:
按照所述指定词或短语在所述源目标语言文本中的位置,将所述目标语言指定词或短语的子词分词结果插入到所述源语言文本中的指定词或短语的子词分词结果的后进行拼接,得到拼接后的子词文本序列。
可选的,对所述子词文本序列和对应成分标注序列进行翻译,得到目标语言文本,包括:
对所述子词文本序列和对应成分标注序列分别进行向量编码,得到语意编码向量和对应的成分编码向量;
对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;
对所述向量融合结果进行解码,得到所述源语言文本的目标语言文本。
可选的,所述向量融合的方式包括但不限于此:拼接,相加或者通过神经网络加权等。
根据本发明实施例的第二方面,提供一种基于机器翻译的知识融合装置,包括:
第一获取模块,用于获取待翻译的源语言文本;
第二获取模块,用于获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;
子词融合模块,用于对所述源语言文本和所述目标语言对应词或短语的子词进行子词融合,得到子词融合后的子词文本序列;
标注模块,用于对所述子词文本序列中的每个子词进行成分标注,得到对应的成分标注序列;
翻译模块,用于对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
可选的,所述第二获取模块包括:提取模块和文本获取模块,和/或提取模块和检测模块,其中,
所述提取模块,用于提取所述源语言文本中的指定词或短语,以及所述指定词或短语在所述源目标语言文本中的位置;
所述文本获取模块,用于获取与所述指定词或短语对应的目标语言对应词或短语;
所述检测模块,用于检测到用户输入的与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
可选的,所述子词融合模块包括:
分词模块,用于对所述源语言文本和所述目标语言目标语言对应词或短语分别进行子词分词,得到对应的第一子词分词结果和第二子词分词结果;
拼接模块,用于对所述第一子词分词结果和第二子词分词结果依次进行拼接,得到拼接后的子词文本序列。
可选的,所述第一子词分词结果包括:与所述源语言文本中的指定词或短语的子词分词结果,以及所述源语言文本中除所述指定词或短语的子词分词结果外其余部分的子词分词结果;所述第二子词分词结果包括:目标语言指定词或短语的子词分词结果;
所述拼接模块,具体用于按照所述指定词或短语在所述源目标语言文本中的位置,将所述目标语言指定词或短语的子词分词结果插入到所述源语言文本中的指定词或短语的子词分词结果的后面进行拼接,得到拼接后的子词文本序列。
可选的,所述翻译模块包括:
编码模块,用于对所述子词文本序列和对应成分标注序列分别进行向量编码,得到语意编码向量和对应的成分编码向量;
向量融合模块,用于对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;
解码模块,用于对所述向量融合结果进行解码,得到所述源语言文本的目标语言文本。
可选的,所述向量融合模块的向量融合的方式包括:拼接,相加或者通过神经网络加权。
根据本发明实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上所述的基于机器翻译的知识融合方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的基于机器翻译的知识融合方法。
根据本发明实施例的第五方面,提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如上所述的基于机器翻译的知识融合方法。
本发明的实施例提供的技术方案至少带来以下有益效果:
本发明实施例中,获取待翻译的源语言文本;获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列;对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列;对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文。也就是说,本发明实施例中,在获取所述源语言文本中的指定词或短语对应的目标语言对应词或短语,分别对源语言文本和所述目标语言对应词或短语的子词进行融合,即在子词分词后,即使不是一一对应也可以按照指定词或短语进行翻译。本发明实施例使用子词分词后,不但降低了终端词汇量的融入,解决了翻译时超出词汇的问题,还提高了用户指定词或短语翻译的准确率以及整句话的翻译效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1是本发明实施例提供的一种基于机器翻译的知识融合方法的流程图。
图2为本发明实施例提供的一种子词划分与融合的流程图。
图3是本发明实施例提供的一种向量融合的示意图。
图4是本发明实施例提供的一种基于机器翻译的知识融合装置的框图。
图5是本发明实施例提供的第二获取模块的框图。
图6是本发明实施例提供的子词融合模块的框图。
图7是本发明实施例提供的翻译模块的框图。
图8是本发明实施例提供的一种电子设备的框图。
图9是本发明实施例提供的一种用于机器翻译的知识融合的装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本发明的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、机器翻译,图像处理、图像识别等技术研究取得了重要进展。人工智能(AI,Artificial Intelligence)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、机器翻译、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
在说明本发明实施例之前,先介绍下述技术术语:
子词:相比于单词,粒度更细的语意单位,一个单词可能有多个或者没有子词,单词间也可以分享子词单位。子词是在单语言语料上统计得到的。
用户指定词或短语:在翻译中人为指定的标准翻译,主要体现为专有名词、术语或固定短语搭配等。
端到端神经网络:与传统机器学习通过各种方法首先得到数据的向量表示,然后在这种向量表示上进行模型训练相对,端到端神经网络不需要构建向量表示,而是直接在数据上搭建模型进行训练,能够更加全面地学习到数据间存在的关系,既避免了使用复杂的方法得到向量表示,又能够提高模型的效果。
知识融合:在使用端到端神经网络模型或其他机器学习模型时,将已知的或指定的知识融合进模型中,使模型能够参考给出的知识完成推理,从而提高模型效果。
自动机器翻译系统:依赖于数据和模型,在模型训练完成后,不需要任何人工参与即可将输入系统的源语言语句翻译成目标语言语句,并保证自动翻译结果的准确度和流畅度。
图1是本发明实施例提供的一种基于机器翻译的知识融合方法的流程图,如图1所示,该基于机器翻译的知识融合方法包括以下步骤:
步骤101:获取待翻译的源语言文本。
步骤102:获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
步骤103:对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列。
步骤104:对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列。
步骤105:对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
本发明所述的基于机器翻译的知识融合方法可以应用于终端、服务器等,在此不作限制,其终端实施设备可以是智能手机,笔记本电脑、平板电脑等电子设备,在此不作限制。
下面结合图1,对本发明实施例提供的一种基于机器翻译的知识融合方法的具体实施步骤进行详细说明。
在步骤101中,获取待翻译的源语言文本。
该步骤中,待翻译的源语言是任一种自然语言,比如,英语,中文等。源语言文本,可以是源语言的语句、词组或固定搭配等文本。
其中,该步骤中终端获取待翻译的源语言文本的获取的方式,本实施例不做限制,比如,可以是读取到的待翻译的源语言文本,也可以是获取到用户输入待翻译的源语言文本等。
在步骤102中,获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
该步骤中,在终端获取到待翻译的源语言文本后,首先,终端提取所述源语言文本中的指定词或短语,以及所述指定词或短语在所述源目标语言文本中的位置;其中,该实施例中的指定词是指在翻译中,人为指定的标准翻译,通常体现为专有名词、技术术语或固定短语搭配等。即终端通过指定源语言与目标语言的对应关系提取源语言文本中的指定词或短语及其位置,其位置便于后的插入。
之后,终端获取与所述指定词或短语对应的目标语言对应词或短语;或者检测到用户输入的与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
该步骤中,终端可以通过设置的指定源语言与目标语言的对应关系,获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语,当然,也可以是检测到用户输入的与源语言文本中的指定词或短语对应的目标语言对应词或短语。其中,该指定源语言与目标语言的对应关系,就是指定源语言翻译成目标语言的标准翻译,是预先配置好的,比如,指定英文与中文之间标准翻译的对应关系等。
在步骤103中,对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列。
该步骤中,终端对所述源语言文本和所述目标语言对应词或短语分别进行子词分词,得到对应的第一子词分词结果和第二子词分词结果;之后,对所述第一子词分词结果和第二子词分词结果进行拼接,得到拼接后的子词文本序列。
该步骤中,终端可以通过源语言子词分词模型对源语言文本进行子词划分,得到第一子词分词结果(包括源语言文本中的指定词或短语的子词分词结果以及所述源语言文本中除所述指定词或短语的子词分词结果外其余部分的子词分词结果),以及通过目标语言子词分词模型对目标语言对应词或短语进行子词划分,得到第二子词分词结果,即目标语言指定词或短语的子词分词结果。其中,对于本领域技术人员来说,不管是通过源语言子词分词模型对源语言文本进行子词划分,还是通过目标语言子词分词模型对目标语言对应词或短语进行子词划分,都是熟知技术,在此不再赘述。其中,本实施例中的子词分词方法可以为以文本符号为单位或以字节为单位的BPE、Word Piece、ULM、Sentence Piece等子词切分方法。
当然,在该实施例中,终端还可以通过源语言子词分词模型分别对源语言文本和源语言文本中的指定词或短语进行子词划分,其中,对源语言文本的进行子词划分,可以得到两部分,一部分是源语言指定词或短语子词分词结果,一部分是除了源语言指定词或短语子词分词结果外的其它部分子词分词结果,即源语言文本中其它部分的子词分词结果。而对源语言文本中的指定词或短语进行子词划分,得到源语言指定词或短语子词分词结果。具体如图2所示,图2为本发明实施例提供的一种子词划分与融合的流程图。图2中,以对源语言文本进行子词划分为例来说明的。
如图2所示,先获取源语言文本,然后提取源语言文本中的指定词或短语及其位置,再后,根据指定源语言与目标语言的对应关系,获取到与所述源语言文本中的指定词或短语目标对应词和短语,并通过源语言子词分词模型对源语言文本进行子词分词,得到对应的源语言文中的其他部分子词分词结果,和源语言文本中的指定词或短语的子词分词结果,以及通过目标语言子词分词模型对目标语言对应词或短语进行子词分词,得到目标语言的指定词或短语的子词分词结果。再后,就是采用STF方法进行融合标注,即按照所述指定词或短语在源语言文中的位置,对源语言文中的其他部分子词分词结果、源语言文本中的指定词或短语的子词分词结果和目标语言的指定词或短语的子词分词结果进行拼接,得到拼接后的子词文本序列,以及对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列,其具体的成分标注过程详见下述步骤104。
在步骤104中,对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列。
该步骤中,对所述子词文本序列中的每个子词进行成分标注,可以采用子词术语融合(STF,Subword Terminology Fusion,也可以称为子词指定词或短语)标注方法,该方法是在对源语言文本和目标语言文本分别进行子词分词的基础上,提出一种将子词分词结果进行融合标注。该方法规定了融合两种语言文本的子词时的顺序和对成分进行标注。具体如表1所示,表1是本发明实施例提供的一种应用实例。如表1所示:
表1
Figure BDA0003685688330000091
如表1所示,该实施例使用的子词分词方法以Sentence Piece为例,在实际应用中并不限于此,也可以使用其他子词分词方法来替代。如表1中,源语言为英文,目标语言为中文。其源语言英文句子为Is suing point acceptance credit,该英语句子中的指定短语为acceptance credit,其对应的目标语言中文短语指定为承兑信用证,该英文短语在子词分词后为▁accept ance▁credit,其对应的中文短语在子词分词后为承兑信用证。而该英文句子中其他部分也用同样方法进行了子词分词,子词分词结果具体如表1所示。之后,按照英文句子中的每个子词分词结果依次进行拼接,并将中文短语的子词分词结果插入到英文短语在子词分词结果的后面,再后,分别给每个子词部分加上对应成分标注,即标注每个子词的成分,具体如表1中的SFT对应部分所示。其中,表1中,w为源语言无指定成分,s为源语言指定成分,t为目标语言指定成分等。
需要说明的是,本发明实施例中,通常使用两种方式进行训练数据标注,一种是半监督的自动标注方法,另一种是人工标注方法。半监督自动标注方法,就是收集源语言,目标语言单词或短语的对应数据,根据这些对应数据在平行语料中使用文本规则匹配相应部分并标注。而人工标注方法,是针对半监督自动标注中覆盖不到的对应关系,通过人工的方式进行标注。
在步骤105中,对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
该步骤中,对所述子词文本序列和对应成分标注序列进行翻译,得到目标语言文本,具体包括:首先,对所述子词文本序列和对应成分标注序列分别进行向量编码,得到语意编码向量(也可以称为语义编码向量,下同)和对应的成分编码向量;其次,对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;最后,对所述向量融合结果进行解码,得到目标语言文本。具体如图3所示,图3是本发明实施例提供的一种向量融合的示意图。
如图3所示,对所述子词文本序列(比如表1中:-Is su ing)和对应成分标注序列分(比如:w w w)别进行向量编码,即对子词文本序列进行子词向量编码,得到语意编码向量,以及对成分标注序列进行成分向量编码,得到对应的成分编码向量;之后,对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;在后,通过序列到序列模型对所述向量融合结果进行解码(即推理中的一种方式),得到该源语言文本的目标语言文本。
其中,序列到序列模型可以选择任何序列到序列端到端模型,如Transformer,LSTM等。再根据本发明实施例提供的上述方法对输入文本进行编码后,编码向量进入序列到序列模型并解码出对应的目标语言预测结果。在训练时拟合目标语言子词分词后文本。需要注意的是目标语言子词分词与在对输入端插入的目标语言子词分词一致。使用模型进行推理时,在给定源语言目标语言对应词或短语的情况下,按照STF方法(或算法)对源语言文本进行加工,输入模型编码解码即可,预测结果为完整目标语言文本。
其中,该实施例中的所述向量融合的方式可以包括:拼接,相加或者通过神经网络加权等,但在具体的应用中,并不限于此。
其中,解码器是一种长短期记忆网络(LSTM,Long Short-Term Memory),其初始状态被初始化为编码器LSTM的最终状态,即编码器的最终单元的上下文向量被输入到解码器网络的第一个单元。使用这些初始状态,解码器开始生成输出序列,并且将来的输出也将这些输出考虑在内。
也即是说,该步骤中,终端分别对文本序列和对应成分标注序列进行向量编码,即语意编码向量或语意编码向量,之后将两种向量进行拼接,以便于在模型训练时能够学习到正确的向量编码方式。
其中,该实施例中的语意编码,也可以称为语义编码,是通过词语对信息进行加工,按意义、系统分类或把言语材料用自己的语言形式加以组织和概括,找出材料的基本论点、论据、逻辑结构,按语义特征编码。语义编码是意义编码的形式之一,也是长时记忆最主要的编码方式。它是按语言发生的顺序以系统方式来表征信息的,包括言语听觉和言语运动两个方面的信息。语义编码的特征是串行加工,是按节点和线有意义的联系。
本发明实施例中,获取待翻译的源语言文本;获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列;对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列;对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文。也就是说,本发明实施例中,在获取所述源语言文本中的指定词或短语对应的目标语言对应词或短语,分别对源语言文本和所述目标语言对应词或短语的子词进行融合,即在子词分词后,即使不是一一对应也可以按照指定词或短语进行翻译。本发明实施例使用子词分词后降低了终端词汇量的融入,并解决了OOM问题,提高了用户指定词或短语翻译的准确率以及整句话的翻译效果。
本发明实施例在端到端神经网络自动机器翻译系统(STFMT,SubwordTerminology Fusion Machine Translation)上使用子词分词并融合标注的方法,该方法在输入源语言文本中提取出指定词或短语,以及获取目标语言对应词或短语,并对源语言文本和目标语言对应词或短语分别进行子词分词后再融合,降低了终端词汇量的融入,并解决了OOM问题,还提高了用户指定词或短语翻译的准确率以及整句话的翻译效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本实施公开并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
图4是本发明实施例提供的一种基于机器翻译的知识融合装置框图。该装置包括:第一获取模块401,第二获取模块402,子词融合模块403,标注模块404和翻译模块405其中,
第一获取模块401,用于获取待翻译的源语言文本;
第二获取模块402,用于获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;
子词融合模块403,用于对所述源语言文本和所述目标语言对应词或短语的子词进行子词融合,得到子词融合后的子词文本序列;
标注模块404,用于对所述子词文本序列中的每个子词进行成分标注,得到对应的成分标注序列;
翻译模块405,用于对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述第二获取模块402包括:提取模块501和文本获取模块502,和/或提取模块501和检测模块503,其结构框图如图5所示,其中,
所述提取模块501,用于提取所述源语言文本中的指定词或短语,以及所述指定词或短语在所述源目标语言文本中的位置;
所述文本获取模块502,用于获取与所述指定词或短语对应的目标语言对应词或短语;
所述检测模块503,用于检测到用户输入的与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述子词融合模块403包括:分词模块601和拼接模块602,其结构框图如图6所示,其中,
分词模块601,用于对所述源语言文本和所述目标语言目标语言对应词或短语分别进行子词分词,得到对应的第一子词分词结果和第二子词分词结果;
拼接模块602,用于对所述第一子词分词结果和第二子词分词结果依次进行拼接,得到拼接后的子词文本序列。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述第一子词分词结果包括:与所述源语言文本中的指定词或短语的子词分词结果,以及所述源语言文本中除所述指定词或短语的子词分词结果外其余部分的子词分词结果;所述第二子词分词结果包括:目标语言指定词或短语的子词分词结果;
所述拼接模块,具体用于按照所述指定词或短语在所述源目标语言文本中的位置,将所述目标语言指定词或短语的子词分词结果插入到所述源语言文本中的指定词或短语的子词分词结果的后面进行拼接,得到拼接后的子词文本序列。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述翻译模块405包括:编码模块701,向量融合模块702和解码模块703,其结构框图如图7所示,其中,
编码模块701,用于对所述子词文本序列和对应成分标注序列分别进行向量编码,得到语意编码向量和对应的成分编码向量;
向量融合模块702,用于对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;
解码模块703,用于对所述向量融合结果进行解码,得到所述源语言文本的目标语言文本。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述向量融合模块的向量融合的方式包括:拼接,相加或者通过神经网络加权。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
可选的,本发明实施例的还提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上所述的基于机器翻译的知识融合方法。
可选的,本发明实施例的还提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的基于机器翻译的知识融合方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可选的,本发明实施例的还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如上所述的基于机器翻译的知识融合方法。
图8是本发明实施例提供的一种电子设备800的框图。例如,电子设备800可以为移动终端也可以为服务器,本发明实施例中以电子设备为移动终端为例进行说明。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述所示的基于机器翻译的知识融合方法。
在实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述所示的基于机器翻译的知识融合方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在实施例中,还提供了一种计算机程序产品,当计算机程序产品中的指令由电子设备800的处理器820执行时,使得电子设备800执行上述所示的基于机器翻译的知识融合方法。
图9是本发明实施例提供的一种用于机器翻译的知识融合的装置900的框图。例如,装置900可以被提供为一服务器。参照图9,装置900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行上述方法。
装置900还可以包括一个电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于机器翻译的知识融合方法,其特征在于,包括:
获取待翻译的源语言文本;
获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;
对所述源语言文本和所述目标语言对应词或短语的子词进行融合,得到融合后的子词文本序列;
对所述子词文本序列中的每个子词进行成分标注,得到所述每个子词对应的成分标注序列;
对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
2.根据权利要求1所述的基于机器翻译的知识融合方法,其特征在于,所述获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语,包括:
提取所述源语言文本中的指定词或短语,以及所述指定词或短语在所述源目标语言文本中的位置;以及
获取与所述指定词或短语对应的目标语言对应词或短语;或者检测到用户输入的与所述源语言文本中的指定词或短语对应的目标语言对应词或短语。
3.根据权利要求1或2所述的基于机器翻译的知识融合方法,其特征在于,所述对所述源语言文本和所述目标语言对应词或短语的子词进行子词融合,得到子词融合后的子词文本序列,包括:
对所述源语言文本和所述目标语言对应词或短语分别进行子词分词,得到对应的第一子词分词结果和第二子词分词结果;
对所述第一子词分词结果和第二子词分词结果进行拼接,得到拼接后的子词文本序列。
4.根据权利要求3所述的基于机器翻译的知识融合方法,其特征在于,所述第一子词分词结果包括:与所述源语言文本中的指定词或短语的子词分词结果,以及所述源语言文本中除所述指定词或短语的子词分词结果外其余部分的子词分词结果;所述第二子词分词结果包括:目标语言指定词或短语的子词分词结果;
所述对所述第一子词分词结果和第二子词分词结果进行拼接包括:
按照所述指定词或短语在所述源目标语言文本中的位置,将所述目标语言指定词或短语的子词分词结果插入到所述源语言文本中的指定词或短语的子词分词结果的后面进行拼接,得到拼接后的子词文本序列。
5.根据权利要求1或2所述的基于机器翻译的知识融合方法,其特征在于,对所述子词文本序列和对应成分标注序列进行翻译,得到目标语言文本,包括:
对所述子词文本序列和对应成分标注序列分别进行向量编码,得到语意编码向量和对应的成分编码向量;
对所述语意编码向量和对应的成分编码向量进行向量融合,得到向量融合结果;
对所述向量融合结果进行解码,得到所述源语言文本的目标语言文本。
6.根据权利要求5所述的基于机器翻译的知识融合方法,其特征在于,所述向量融合的方式包括:拼接,相加或者通过神经网络加权。
7.一种基于机器翻译的知识融合装置,其特征在于,包括:
第一获取模块,用于获取待翻译的源语言文本;
第二获取模块,用于获取与所述源语言文本中的指定词或短语对应的目标语言对应词或短语;
子词融合模块,用于对所述源语言文本和所述目标语言对应词或短语的子词进行子词融合,得到子词融合后的子词文本序列;
标注模块,用于对所述子词文本序列中的每个子词进行成分标注,得到对应的成分标注序列;
翻译模块,用于对所述子词文本序列和对应成分标注序列进行翻译,得到所述源语言文本的目标语言文本。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的基于机器翻译的知识融合方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的基于机器翻译的知识融合方法。
10.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至5任一项所述的基于机器翻译的知识融合方法。
CN202210645372.4A 2022-06-09 2022-06-09 基于机器翻译的知识融合方法、装置、设备、介质及产品 Pending CN115099246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210645372.4A CN115099246A (zh) 2022-06-09 2022-06-09 基于机器翻译的知识融合方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210645372.4A CN115099246A (zh) 2022-06-09 2022-06-09 基于机器翻译的知识融合方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN115099246A true CN115099246A (zh) 2022-09-23

Family

ID=83289833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210645372.4A Pending CN115099246A (zh) 2022-06-09 2022-06-09 基于机器翻译的知识融合方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN115099246A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236347A (zh) * 2023-11-10 2023-12-15 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236347A (zh) * 2023-11-10 2023-12-15 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置
CN117236347B (zh) * 2023-11-10 2024-03-05 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置

Similar Documents

Publication Publication Date Title
CN108038103B (zh) 一种对文本序列进行分词的方法、装置和电子设备
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
CN112069309A (zh) 信息获取方法、装置、计算机设备及存储介质
CN110750998B (zh) 一种文本输出方法、装置、计算机设备和存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN114065778A (zh) 篇章级翻译方法、翻译模型训练方法及装置
CN111368541A (zh) 命名实体识别方法及装置
CN112348111A (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
CN108304412A (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN113761888A (zh) 文本翻译方法、装置、计算机设备及存储介质
CN112328793A (zh) 评论文本数据的处理方法、装置及存储介质
CN115099246A (zh) 基于机器翻译的知识融合方法、装置、设备、介质及产品
CN116166827A (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN112738555B (zh) 视频处理方法及装置
CN112269881A (zh) 多标签文本分类方法、装置及存储介质
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN113239707A (zh) 文本翻译方法、文本翻译装置及存储介质
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN111400443A (zh) 信息处理方法、装置及存储介质
CN114036937A (zh) 场景布局预测网络的训练方法及场景布局的估计方法
CN115422932A (zh) 一种词向量训练方法及装置、电子设备和存储介质
CN114758330A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN115017324A (zh) 实体关系抽取方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination