CN114757211A - 文本翻译方法及其装置、设备、介质、产品 - Google Patents
文本翻译方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114757211A CN114757211A CN202210259679.0A CN202210259679A CN114757211A CN 114757211 A CN114757211 A CN 114757211A CN 202210259679 A CN202210259679 A CN 202210259679A CN 114757211 A CN114757211 A CN 114757211A
- Authority
- CN
- China
- Prior art keywords
- text
- language
- corpus
- translation
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 274
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 136
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims description 34
- 239000000463 material Substances 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 22
- 238000013145 classification model Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 description 26
- 235000008446 instant noodles Nutrition 0.000 description 12
- 238000010276 construction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种文本翻译方法及其装置、设备、介质、产品,所述方法包括:获取待翻译文本;采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述文本翻译模型的训练过程包括如下步骤:调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料;调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。本申请利用文本翻译模型实现不同语言的精准互译。
Description
技术领域
本申请涉及电商翻译技术领域,尤其涉及一种文本翻译方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
对于各大跨境电商平台而言,翻译是维系跨境电商平台中的买家和卖家之间沟通的关键桥梁,更是跨境电商平台最基本的刚性需求,准确的电商领域翻译可以在商品展示描述、搜索、推荐等场景起到至关重要的承接作用,一方面大大增加商品被用户熟知的程度,另一方面能够辅助跨境电商平台用户建立其本土化表述文本的商品标签,促进该商品标签与精准翻译用户需求的表述文本之间的匹配,使得搜索和推荐的商品贴合用户需求。
目前现有技术将使用繁体中文的具体地区的方言相应的文本翻译成为英语时,繁体中文此类低资源语料的翻译技术主要面临以下问题:
1.由于使用繁体中文的具体地区的人数较少、电商业务规模较小,因此现阶段在工业和学术界积累的使用繁体中文的具体地区的平行语料都比较少,语料资源较为贫乏,另外以该平行语料训练出来的模型,效果上仅勉强达到理解原意的地步,翻译的忠实度和流利度较低,未达到能够投入使用的阶段。
2.现有一种技术方案,首先,使用语料资源较为丰富的简体中文的平行语料训练出简体中文与英语互译的模型,其次,采用简体中文与繁体中文之间的简繁映射进行互译,最终,取得繁体中文与英语互译的翻译效果。但是,该技术方案仍有较大的误差,对于一些品牌词和属性词例如英语表述为“instant noodles”,翻译成简体中文为“方便面”,其经过简繁映射转换成繁体中文仍为“方便面”,而使用繁体中文的具体地区对此表述用词为“方便面”或“公仔面”。
类似的情况,当然也出现在同一语种不同方言,不同方言拥有整体近似但部分同义用词不同的翻译语料资源的翻译场景中。为了实现其中的低资源语料的方言与另一语种之间的精准互译,本申请人做出相应的探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种文本翻译方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种文本翻译方法,包括如下步骤:
获取待翻译文本;
采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括如下步骤:
调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;
调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
进一步的实施例中,所述文本翻译模型的训练过程之前,包括如下步骤:
获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;
比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;
调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;
根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。
进一步的实施例中,所述文本翻译模型的训练过程之前,还包括如下步骤:
将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。
深化的实施例中,比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典,包括如下步骤:
比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;
采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;
将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构造的特殊词典中。
进一步的实施例中,根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,包括如下步骤:
根据特殊词典中所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量平行语料中的相应目标文本;
获取特殊词典中与该同义词汇相对应的第二语种的第二方言的翻译版本,随机选中部分所述的目标文本替换为所述第二方言的翻译版本。
扩展的实施例中,采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本之后,包括如下步骤:
响应作用于所述待翻译文本的文本替换指令,在用于获取所述待翻译文本的当前界面将该待翻译文本替换为所述结果文本进行显示;
响应作用于所述结果文本的显示区域的指向事件,在所述当前界面显示文本提示框,所述文本提示框中显示所述待翻译文本。
适应本申请的目的之一而提供的一种文本翻译装置,包括:文本获取模块、模型翻译模块、模型预训练模块,以及模型微调模块,其中,所述文本获取模块,用于获取待翻译文本;所述模型翻译模块,用于采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括:所述模型预训练模块,用于调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;所述模型微调模块,用于调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
进一步的实施例中,所述文本翻译模型的训练过程之前,包括:双向翻译模块,用于获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;词典构造模块,用于比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;资源库调用模块,用于调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;同义替换模块,用于根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。
进一步的实施例中,所述文本翻译模型的训练过程之前,还包括:语料构造模块,用于将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。
深化的实施例中,所述词典构造模块,包括:差异比对子模块,用于比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;类型判断子模块,用于采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;关系构建子模块,用于将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构造的特殊词典中。
进一步的实施例中,所述同义替换模块,包括:目标检索子模块,用于根据特殊词典中所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量平行语料中的相应目标文本;随机替换子模块,用于获取特殊词典中与该同义词汇相对应的第二语种的第二方言的翻译版本,随机选中部分所述的目标文本替换为所述第二方言的翻译版本。
扩展的实施例中,所述模型翻译模块之后,包括:文本替换子模块,用于响应作用于所述待翻译文本的文本替换指令,在用于获取所述待翻译文本的当前界面将该待翻译文本替换为所述结果文本进行显示;文本提示子模块,用于响应作用于所述结果文本的显示区域的指向事件,在所述当前界面显示文本提示框,所述文本提示框中显示所述待翻译文本。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的文本翻译方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的文本翻译方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/ 指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
根据本申请的典型实施例及其变通实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请借助大量第一训练数据集中的第一平行语料供文本翻译模型训练,使得模型学习语料资源相对丰富的第二语种第一方言的语序、语法等基本语言表达能力;在此基础上,由于第一训练数据集中的第一平行语料中第二语种第一方言的翻译文本中的个别词汇被替换为第二语种的第二方言的同义词汇,以该第一训练数据集对文本翻译模型执行预训练,使得该文本翻译模型能够精准提取同义词汇特征,将待翻译文本翻译成语料资源相对偏低的第二语种第二方言的表述用词,使得翻译效果更落地,方便所述第二方言所在地用户理解,高效辅助用户使用,提升用户体验,增加电商平台的用户粘性。
其次,调用第二训练数据集中的第二平行语料是由第一语种语料与第二语种的第二方言语料构成的,虽然其语料资源可能偏少,但由于预训练阶段已经使文本翻译模型具备了一定的翻译能力,因此,在使用第二训练数据集对文本翻译模型进行微调训练后,进一步调整模型的基本中文语言表达为第二方言的语言表达,使得提升模型的翻译的忠实度和流利度,在第一语种和第二语种第二方言之间实现精准互译。
此外,本申请的技术方案一方面,使用到的文本翻译模型架构简单易实现,运算成本低,负载较低而适用于部署在客户端,并且适用多种电商环境的应用场景,另一方面,执行效率更高,而实现成本则更为低廉,也适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的文本翻译方法的典型实施例的流程示意图;
图2为本申请实施例中构建第一训练数据集的流程示意图;
图3为本申请实施例中构建特殊词典的流程示意图;
图4为本申请实施例中同义词汇替换的流程示意图;
图5(a)、图5(b)为本申请实施例中终端设备图形用户界面的示意图,分别示意翻译前的商品界面、翻译后的商品界面;
图6为本申请的文本翻译方法的扩展实施例的流程示意图;
图7为本申请的文本翻译装置的原理框图;
图8为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或 GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/ 或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID (Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种文本翻译方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的文本翻译方法在其典型实施例中,包括如下步骤:
步骤S1100、获取待翻译文本;
对于电商平台而言,需要对待翻译文本进行翻译的情况可能出现在各种不同的具体业务场景中,例如,当电商平台用户在商品展示界面上需要翻译该界面上的文本如商品标题文本、商品详情文本等时;又如电商平台用户在商品搜索输入框中输入文本提交至服务器时,诸如此类,均可触发对待翻译文本的翻译,不难理解,根据不同的具体业务场景,所述待翻译文本的来源也相应不同,本领域技术人员对此均应知晓。
本领域技术人员可以理解,电商平台用户触发对待翻译文本的翻译,该电商平台相应的服务器和客户端均可获取该待翻译文本执行翻译处理。
步骤S1200、采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括如下步骤:
所述待翻译文本为使用繁体中文的具体地区语种表述的文本或英语表述的文本,可以理解,该表述类型取决于电商平台用户本土使用语种对应的表述类型。
当服务器为所述执行翻译端时,其获取由客户端提交的所述待翻译文本,以调用文本翻译模型对该待翻译文本执行翻译处理;当客户端为所述执行翻译端时,其预先从服务器下载文本翻译模型部署至本地,以在获取所述待翻译文本时,调用该文本翻译模型执行翻译处理,所述文本翻译模型为预训练至收敛状态的模型,其具体训练过程,在本典型实施例中的后续步骤相应揭示,本步骤暂且按下不表。
步骤S1210、调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;
所述第一语种语料为英语语种语料,所述第一语种语料对应的第二语种的第一方言的翻译文本为使用简体中文的具体地区语种表达的翻译文本,所述第二语种的第二方言为使用繁体中文的具体地区语种,所述第二语种语料为英语语种语料对应使用简体中文的具体地区语种的翻译文本中的个别词汇被替换为使用简体中文的具体地区语种的同义词汇的结果,所述个别词汇包含但不限于商品属性词、商品品牌词对应的词汇,示范性举例,所述个别词汇为商品属性词,相应的,英语语种语料为“spicy instant noodles”,其对应的使用繁体中文的具体地区语种的翻译文本为“辛辣的方便面”,将该翻译文本中个别词汇“方便面”替换为使用简体中文的具体地区语种的同义词汇“速食麵”,进而该替换后的结果为“辛辣的速食麵”作为所述第二语种语料。不难理解,第一语种语料与第二语种语料语义相同,并且,其两者构成所述第一平行语料。所述第一训练样本为该第一平行语料,所述第一训练集包含多个第一训练样本。
本领域技术人员应知晓,所述第一语种语料和其对应第二语种的第一方言的翻译文本为平行语料,该平行语料资源为高资源语料,即现有的该平行语料资源较为丰富,且该平行语料资源被联合国的公开新闻、语言研究实验室等相关机关公开,方便采集将其应用。由此,可以理解所述第一平行语料亦为高资源语料。
所述迭代预训练为所述文本翻译模型根据设置的迭代次数对所述第一训练样本的数据进行迭代训练,具体而言,首先,该文本翻译模型执行前向传播,即沿着该翻译模型的输入层到输出层的顺序,依次计算获得该文本翻译模型的权重和偏差项并进行存储,其次,该文本翻译模型执行反向传播,即沿着该翻译模型的输出层到输入层的顺序,依次计算获得该文本翻译模型的权重的和偏差项相对应的梯度并进行存储,由此,在每次迭代训练中,根据所述前向传播和正向传播相互依赖和该文本翻译模型各个层相对应的损失值,不断调整该文本翻译模型的权重和偏差项使其相对应的呈梯度下降趋势。
所述文本翻译模型调用第一训练数据集中的第一训练样本实施所述迭代训练后,该文本翻译模型总体损失值不再变化或变化极其缓慢,其表征该文本翻译模型收敛,进而获得预训练至收敛的文本翻译模型。
所述第一平行语料结构形式包含但不限于词对结构、平行短语对结构、平行句法结构。
具体所述第一数据集中的第一训练样本构建、所述个别词汇识别和替换可参考本申请后续即将揭示的其他实施例,本步骤暂且按下不表。
综上所述,所述预训练至收敛的文本翻译模型借助语料资源相对丰富的高资源平行语料,具备提取所述待翻译文本和其对应翻译后的翻译文本的语序、语法等语言表达特性相对应的语义特征的能力,同时也具备提取所述待翻译文本的个别词汇的语义特征的能力,使得能够以第二语种第一方言的语言表达特性对所述待翻译文本翻译,并且特别针对该待翻译文本中的个别词汇进行第二语种第二方言表述的翻译。
步骤S1220、调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
所述第二训练集包含多个第二训练样本。所述第二平行语料结构形式包含但不限于词对结构、平行短语对结构、平行句法结构。所述第二训练样本为英语语种语料与使用繁体中文的具体地区语种语料构成的第二平行语料,该英语语种语料和该使用繁体中文的具体地区语种语料语语义相同。
本领域技术人员应知晓,可采集来源于联合国的公开新闻、语言研究实验室等相关机关公开的该类平行语料资源而作为所述第二平行语料投入使用;亦可采集来源于各大跨境电商平台中的商品标题、商品详情对应的文本,再将该文本交由使用繁体中文的具体地区语种翻译的专业人士进行人工翻译,从而相应的构建出英语语种语料和其对应的使用繁体中文的具体地区语种语料,将其两者构成第二平行语料投入使用。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请借助大量第一训练数据集中的第一平行语料供文本翻译模型训练,使得模型学习语料资源相对丰富的第二语种第一方言的语序、语法等基本语言表达能力;在此基础上,由于第一训练数据集中的第一平行语料中第二语种第一方言的翻译文本中的个别词汇被替换为第二语种的第二方言的同义词汇,以该第一训练数据集对文本翻译模型执行预训练,使得该文本翻译模型能够精准提取同义词汇特征,将待翻译文本翻译成语料资源相对偏低的第二语种第二方言的表述用词,使得翻译效果更落地,方便所述第二方言所在地用户理解,高效辅助用户使用,提升用户体验,增加电商平台的用户粘性。
其次,调用第二训练数据集中的第二平行语料是由第一语种语料与第二语种的第二方言语料构成的,虽然其语料资源可能偏少,但由于预训练阶段已经使文本翻译模型具备了一定的翻译能力,因此,在使用第二训练数据集对文本翻译模型进行微调训练后,进一步调整模型的基本中文语言表达为第二方言的语言表达,使得提升模型的翻译的忠实度和流利度,在第一语种和第二语种第二方言之间实现精准互译。
此外,本申请的技术方案一方面,使用到的文本翻译模型架构简单易实现,运算成本低,负载较低而适用于部署在客户端,并且适用多种电商环境的应用场景,另一方面,执行效率更高,而实现成本则更为低廉,也适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
进一步的实施例中,步骤S1200、所述文本翻译模型的训练过程之前,包括如下步骤:
步骤S1000、获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;
所述预设数据集包含多个第一语种表述的原始文本,该原始文本可由本领域技术人员采集各大跨境电商平台中以第一语种即英语表述的商品的标题、详情、评论文本,示范性举例,可采集25万个商品,其中每个商品的一个标题、一个详情、五条评论,共计175万条第一语种表述的原始文本数据。
分别以第二语种的第一方言和第二语种的第二方言对所述预设数据集中的各个以第一语种表述的原始文本翻译,获得相对应的第一翻译文本和第二翻译文本,并以此分别构建出第一语料库和第二语料库。
步骤S1010、比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;
为了准确比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异排除简繁字体的影响,首先,对第二语料库中的翻译文本进行简繁转换,获得与第一语料库的翻译文本相同字体的翻译文本,即将繁体转换为简体,其次,将该第二语料库的翻译文本与相应的第一语料库中的翻译文本进行比对,比对两者的差异,以获取两者翻译文本中差异的同义词汇,不难理解,该同义词汇语义上一致但表达上存在不同语种表述对应的本土化表述的差异,再者,建立该第一语料库和第二语料库相对应的同义词之间的一对一的映射关联关系,进而将此构造为特殊词典。
步骤S1020、调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;
所述语料资源库包括第一平行语料,该第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成,其两者文本语义上一致且相互为对方的翻译文本。
所述语料资源库中的第一平行语料,可采集来源于联合国的公开新闻、语言研究实验室等相关机关公开的该类平行语料资源直接在此应用,或者采集第一语料或第二语种第一方言的语料,相应的人工翻译而构建该平行语料,本领域技术人员可灵活变通选取,使得在此步骤可调用即可。
步骤S1030、根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。
根据所述特殊词典中的第二语种第一方言与第二语种的第二方言的同义词汇的翻译版本之间的一对一映射关联关系,将所述语料资源库的所述第一平行语料中的包含第二语种第一方言的同义词汇全量替换成第二语种第二方言的同义词汇,以完成同义词汇的翻译版本替换,至此,以该语料资源库构成第一训练数据集。
本实施例中,通过构建特殊词典以完成语料资源库的第一平行语料中的同义词汇的翻译版本替换,以构成第一训练数集供文本翻译模型执行预训练,使得该文本翻译模型提精准提取同义词汇特征,将其翻译成第二语种第二方言表述用词,实现本土化精准翻译。
进一步的实施例中,步骤S1200、所述文本翻译模型的训练过程之前,还包括如下步骤:
步骤S1001、将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。
所述预设数据集中以第一语种表述的每个原始文本,可由本领域技术人员采集各大跨境电商平台第一语种表述的商品的标题、详情、评论文本,示范性举例,可采集25万个商品,其中每个商品的一个标题、一个详情、五条评论,共计175万条第一语种表述的原始文本数据。进而,一种实施例中,可调用预封装的现有技术公开的翻译接口将第一语种表述的所述原始文本数据翻译成第二语种的第二方言表述的翻译文本,再将该翻译文本交由专业人士人工审核和修正保证其翻译的准确性,之后,将该翻译文本与该原始文本构建一对一的映射关联关系,并据此将其两者构造成所述平行语料,以该各个平行语料构造为所述第二训练数据集。
本实施例中,通过人工标注构造训练数据集,使得文本翻译模型在微调训练过程中能够提取更为精准的第二语种第二方言语言表达层面的语义特征,提升模型翻译的忠实度和流利度。
深化的实施例中,步骤S1010、比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典,包括如下步骤:
步骤S1011、比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;
所述第一语料库和第二语料库中分别存储关于相同原始文本即英语表述文本的不同翻译文本,相应的,其中所述第一语料库的该翻译文本为第二语种的第一方言即使用简体中文的具体地区地区表述的翻译文本,其中所述第一语料库的该翻译文本为第二语种的第一方言即使用繁体中文的具体地区表述的翻译文本,由于,所述比较第一语料库和第二语料库之间的差异获得相应的差异文本比较的是语言表达上的差异而非字体上的差异,因此,将该第一语料库或第二语料库的翻译文本两者选其一翻译成对方表述的文本使得保持两者字形类型的一致性,进一步的在此基础上,比对该第一语料库或第二语料库的翻译文本之间的一致性,以获取其中的差异文本,对前所述示范性举例,所述原始为“I likeinstant noodles”、相应的第一语料库的翻译文本为“我爱方便面”、第二语料库的翻译文本为“我爱速食面”,由此,比较获得的差异文本为对应第一语料库的“方便面”和第二语料库中的“速食面”。
步骤S1012、采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;
将第一语料库中的所述差异文本输入至预先训练至收敛状态的实体名词分类模型中提取相应的所述类型语义特征,继而计算该所属类型语义特征与预先由所述模型提取并存储的特定类型对应的语义特征之间的相似度,获得归一化的该两者相似度结果,根据该相似度结果判断该名词对应的类型是否为特定类型如商品属性词、商品品牌词等,所述相似度结果判断标准可设定为是否达到 0.7以上,具体数值设定,可由本领域技术人员灵活变通设置。
步骤S1013、将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构造的特殊词典中。
进一步,将属于特定类型的名词对应的所述第一语料库中的所述差异文本,与其相对应的第二语料库中的所述差异样本,确定为同义词汇的不同翻译版本,然后,将上述两者相对应的构造为一对一映射关系数据,并将该映射关系数据存储于预构造的特殊词典中。
本实施例中,筛选出第一特征库和第二特征库中为特定类型的名词相对应的差异文本并相应构造为映射关系型数据存储于特殊词典中,使得后续步骤根据特殊词典构建的第一训练集训练的模型,能够提取待翻译文本中的商品属性词、商品品牌词等特殊类型名词,将其翻译成第二语种第二方言表述的名词,借此,可为跨境电商平台中的以第一语种表述和第二语种第二方言表述的商品,标上对方语种或方言表述的商品属性、品牌等标签,便于辅助后续商品精准推荐、商品精准搜索等多种电商应用场景的实现,并且进一步深化翻译的本土化程度,提升翻译的准确度。
进一步的实施例中,步骤S1030、根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,包括如下步骤:
步骤S1031、根据特殊词典中所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量平行语料中的相应目标文本;
根据特殊词典中的所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量平行语料中出现该同义词汇的平行语料,由此,从该平行语料中获取该同义词汇相对应的目标文本,所述平行语料结构形式包含但不限于词对结构、平行短语对结构、平行句法结构。
步骤S1032、获取特殊词典中与该同义词汇相对应的第二语种的第二方言的翻译版本,随机选中部分所述的目标文本替换为所述第二方言的翻译版本。
继而以步骤S1031中所述同义词汇相对应的目标文本为索引,及其与第二语种的第二方言表述的同义词汇之间一对一的映射关联关系,获取特殊词典中的该第二语种的第二方言的翻译版本的同义词汇的文本,进一步,执行同义替换操作替换同义词汇的翻译版本,随机选中所述语料资源库中的全量平行语料中出现该第二语种的第一方言的翻译版本的同义词汇的平行语料,将其中的该同义词汇替换为前述第二语中的第二方言的翻译版本的同义词汇。
本实施例中,通过随机选中语料资源库中的平行语料对其中的同义词汇进行翻译版本更换,使得将其应用于模型训练时,提升模型对同义词汇的辨识,辅助提升模型的泛化能力。
扩展的实施例中,步骤S1200、采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本之后,包括如下步骤:
步骤S1300、响应作用于所述待翻译文本的文本替换指令,在用于获取所述待翻译文本的当前界面将该待翻译文本替换为所述结果文本进行显示;
本申请中,可以通过增设本步骤来实现将待翻译文本翻译后相对应的结果文本显示于相应的界面。具体而言,可在本申请的计算机程序产品的图形用户界面中提供一个翻译控件,用户触控该翻译控件后,便可触发相应的文本替换指令。所述的图形用户界面可以是用户终端设备上显示的商品展示图形用户界面,具体例如可以设置在该商品展示图形用户界面的功能选择区中,也可以是其他未提及的界面中,只要客户端用户可访问即可。
电商平台用户在浏览商品展示图形用户界面时,可按需触控该商品展示界面中提供的一个“翻译”控件如图5(a)100或图5(b)200,从而触发所述作用于所述待翻译文本的文本替换指令,响应该文本替换指令,本实施例中将所述待翻译文本存储至缓存中,与此同时,获取该待翻译文本输入所述文本翻译模型后,由该文本翻译模型翻译的结果文本,进而将该结果文本替换该翻译文本在该商品展示界面中相应处位置显示如图5(a)101所示。
步骤S1400、响应作用于所述结果文本的显示区域的指向事件,在所述当前界面显示文本提示框,所述文本提示框中显示所述待翻译文本。
本申请中,可以通过增设本步骤来实现将结果文本在其被翻译获得前相对应的待翻译文本显示于相应的界面。具体而言,可在本申请的计算机程序产品的图形用户界面中提供一个文本提示框,用户在该图形用户界面指向该结果文本显示区域后,便可触发相应的指向事件。所述的图形用户界面可以是用户终端设备上显示的商品展示图形用户界面,具体例如可以设置在该商品展示图形用户界面的商品标题文本区中,也可以是其他未提及的界面中,只要客户端用户可访问即可。
电商平台用户在浏览显示所述结果文本的商品展示图形用户界面时,可按需指向该商品展示界面中所述结果文本的显示区域如图5(a)101所示,从而触发所述作用于所述结果文本的显示区域的指向事件,响应该事件,从缓存中获取所述结果文本在其被翻译获得之前相对应的翻译文本即所述待翻译文本,显示于预设于该结果文本的显示区域中的文本提示框中如图5(a)102所示。所述文本提示框,可在该提示框内设置相应的关闭控件,供用户手动关闭该提示框,或者设置该显示区域失去所述指向时,即刻关闭该提示框,本领域技术人员可灵活变通选取实现。
本实施例中,通过将待翻译本文翻译后相对应的结果文本在商品展示界面上相应处替换该待翻译文本显示,以达到界面上的文本翻译效果,并且与此同时,将该待翻译文本执行缓存,从而能够在该商品展示界面上的该结果文本的显示区域被用户指向时,无需用户等待二次翻译的加载时间,快速直接的在该显示区域附近将相应的该待翻译文本置于文本提示框中显示,使得方便用户获悉翻译前后的文本,也便于用户对照翻译前后的文本。
请参阅图7,适应本申请的目的之一而提供的一种文本翻译装置,是对本申请的文本翻译方法的功能化体现,该装置包括:文本获取模块1100、模型翻译模块1200、模型预训练模块1300,以及模型微调模块1400,其中,所述文本获取模块1100,用于获取待翻译文本;所述模型翻译模块1200,用于采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括:所述模型预训练模块1300,用于调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;所述模型微调模块1400,用于调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
进一步的实施例中,所述文本翻译模型的训练过程之前,包括:双向翻译模块,用于获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;词典构造模块,用于比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;资源库调用模块,用于调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;同义替换模块,用于根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。
进一步的实施例中,所述文本翻译模型的训练过程之前,还包括:语料构造模块,用于将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。
深化的实施例中,所述词典构造模块,包括:差异比对子模块,用于比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;类型判断子模块,用于采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;关系构建子模块,用于将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构造的特殊词典中。
进一步的实施例中,所述同义替换模块,包括:目标检索子模块,用于根据特殊词典中所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量中的相应目标文本;随机替换子模块,用于获取特殊词典中与该同义词汇相对应的第二语种的第二方言的翻译版本,随机选中部分所述的目标文本替换为所述第二方言的翻译版本。
扩展的实施例中,所述模型翻译模块1200之后,包括:文本替换子模块,用于响应作用于所述待翻译文本的文本替换指令,在用于获取所述待翻译文本的当前界面将该待翻译文本替换为所述结果文本进行显示;文本提示子模块,用于响应作用于所述结果文本的显示区域的指向事件,在所述当前界面显示文本提示框,所述文本提示框中显示所述待翻译文本。
为解决上述技术问题,本申请实施例还提供计算机设备。如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的文本翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的文本翻译装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的文本翻译方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read- Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,首先,本申请借助大量第一训练数据集中的第一平行语料供文本翻译模型训练,使得模型学习语料资源相对丰富的第二语种第一方言的语序、语法等基本语言表达能力;在此基础上,由于第一训练数据集中的第一平行语料中第二语种第一方言的翻译文本中的个别词汇被替换为第二语种的第二方言的同义词汇,以该第一训练数据集对文本翻译模型执行预训练,使得该文本翻译模型能够精准提取同义词汇特征,将待翻译文本翻译成语料资源相对偏低的第二语种第二方言的表述用词,使得翻译效果更落地,方便所述第二方言所在地用户理解,高效辅助用户使用,提升用户体验,增加电商平台的用户粘性。
其次,调用第二训练数据集中的第二平行语料是由第一语种语料与第二语种的第二方言语料构成的,虽然其语料资源可能偏少,但由于预训练阶段已经使文本翻译模型具备了一定的翻译能力,因此,在使用第二训练数据集对文本翻译模型进行微调训练后,进一步调整模型的基本中文语言表达为第二方言的语言表达,使得提升模型的翻译的忠实度和流利度,在第一语种和第二语种第二方言之间实现精准互译。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种文本翻译方法,其特征在于,包括如下步骤:
获取待翻译文本;
采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括如下步骤:
调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;
调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
2.根据权利要求1所述的文本翻译方法,其特征在于,所述文本翻译模型的训练过程之前,包括如下步骤:
获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;
比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;
调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;
根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。
3.根据权利要求2所述的文本翻译方法,其特征在于,所述文本翻译模型的训练过程之前,还包括如下步骤:
将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。
4.根据权利要求2所述的文本翻译方法,其特征在于,比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典,包括如下步骤:
比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;
采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;
将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构造的特殊词典中。
5.根据权利要求2所述的文本翻译方法,其特征在于,根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,包括如下步骤:
根据特殊词典中所述第二语种的第一方言对应的同义词汇的翻译版本,检索所述语料资源库中的全量平行语料中的相应目标文本;
获取特殊词典中与该同义词汇相对应的第二语种的第二方言的翻译版本,随机选中部分所述的目标文本替换为所述第二方言的翻译版本。
6.根据权利要求1中所述的文本翻译方法,其特征在于,采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本之后,包括如下步骤:
响应作用于所述待翻译文本的文本替换指令,在用于获取所述待翻译文本的当前界面将该待翻译文本替换为所述结果文本进行显示;
响应作用于所述结果文本的显示区域的指向事件,在所述当前界面显示文本提示框,所述文本提示框中显示所述待翻译文本。
7.一种文本翻译装置,其特征在于,包括:
文本获取模块,用于获取待翻译文本;
模型翻译模块,用于采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,
其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括如下步骤:
模型预训练模块,用于调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;
模型微调模块,用于调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210259679.0A CN114757211A (zh) | 2022-03-16 | 2022-03-16 | 文本翻译方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210259679.0A CN114757211A (zh) | 2022-03-16 | 2022-03-16 | 文本翻译方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114757211A true CN114757211A (zh) | 2022-07-15 |
Family
ID=82327164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210259679.0A Pending CN114757211A (zh) | 2022-03-16 | 2022-03-16 | 文本翻译方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757211A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116090442A (zh) * | 2022-10-24 | 2023-05-09 | 武汉大学 | 一种语言差异分析方法、系统、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532573A (zh) * | 2018-12-29 | 2019-12-03 | 苏州七星天专利运营管理有限责任公司 | 一种翻译方法和系统 |
US20200192986A1 (en) * | 2018-12-17 | 2020-06-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for translating speech |
CN113435214A (zh) * | 2021-07-19 | 2021-09-24 | 广州华多网络科技有限公司 | 电商标题翻译方法及其相应的装置、设备、介质 |
CN114021589A (zh) * | 2021-11-05 | 2022-02-08 | 浙江太美医疗科技股份有限公司 | 样本的生成方法、装置、计算机设备和存储介质 |
-
2022
- 2022-03-16 CN CN202210259679.0A patent/CN114757211A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200192986A1 (en) * | 2018-12-17 | 2020-06-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for translating speech |
CN110532573A (zh) * | 2018-12-29 | 2019-12-03 | 苏州七星天专利运营管理有限责任公司 | 一种翻译方法和系统 |
CN113435214A (zh) * | 2021-07-19 | 2021-09-24 | 广州华多网络科技有限公司 | 电商标题翻译方法及其相应的装置、设备、介质 |
CN114021589A (zh) * | 2021-11-05 | 2022-02-08 | 浙江太美医疗科技股份有限公司 | 样本的生成方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
苏依拉;孙晓骞;巴图其其格;仁庆道尔吉;: "基于对偶学习的西里尔蒙古语-汉语机器翻译研究", 计算机应用与软件, no. 01, 12 January 2020 (2020-01-12) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116090442A (zh) * | 2022-10-24 | 2023-05-09 | 武汉大学 | 一种语言差异分析方法、系统、终端及存储介质 |
CN116090442B (zh) * | 2022-10-24 | 2023-09-22 | 武汉大学 | 一种语言差异分析方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Abstractive summarization: An overview of the state of the art | |
CN107210035B (zh) | 语言理解系统和方法的生成 | |
CN109408622B (zh) | 语句处理方法及其装置、设备和存储介质 | |
Liu et al. | Asgard: A portable architecture for multilingual dialogue systems | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US11481417B2 (en) | Generation and utilization of vector indexes for data processing systems and methods | |
US11587541B2 (en) | Providing personalized songs in automated chatting | |
EP4109295A1 (en) | Knowledge graph-based question answering method and apparatus, computer device, and medium | |
US20150286943A1 (en) | Decision Making and Planning/Prediction System for Human Intention Resolution | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
WO2018205084A1 (en) | Providing local service information in automated chatting | |
US20220147719A1 (en) | Dialogue management | |
CN114492470A (zh) | 商品标题文本翻译方法及其装置、设备、介质、产品 | |
Baykara et al. | Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian | |
Voloshyn et al. | Sentiment analysis technology of English newspapers quotes based on neural network as public opinion influences identification tool | |
CN117010398A (zh) | 一种基于多层知识感知的地址实体识别方法 | |
Qudar et al. | A survey on language models | |
KR20240023535A (ko) | 텍스트 데이터의 자동 라벨링 | |
CN114757211A (zh) | 文本翻译方法及其装置、设备、介质、产品 | |
WO2020079752A1 (ja) | 文献検索方法および文献検索システム | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
US20230297603A1 (en) | Cross-lingual meta-transfer learning adaptation to natural language understanding | |
CN114970733A (zh) | 语料生成方法及装置、系统、存储介质和电子设备 | |
JPH0981184A (ja) | 対話支援装置 | |
CN114692610A (zh) | 关键词确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |