CN113408306A - 翻译方法及分类模型的训练方法、装置、设备和存储介质 - Google Patents

翻译方法及分类模型的训练方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113408306A
CN113408306A CN202110739519.1A CN202110739519A CN113408306A CN 113408306 A CN113408306 A CN 113408306A CN 202110739519 A CN202110739519 A CN 202110739519A CN 113408306 A CN113408306 A CN 113408306A
Authority
CN
China
Prior art keywords
unit
sample
translation
processing unit
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110739519.1A
Other languages
English (en)
Inventor
张传强
张睿卿
何中军
李芝
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110739519.1A priority Critical patent/CN113408306A/zh
Publication of CN113408306A publication Critical patent/CN113408306A/zh
Priority to JP2022032916A priority patent/JP2023007369A/ja
Priority to US17/656,160 priority patent/US20230015313A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种翻译方法及分类模型的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能领域。翻译方法包括:基于源语言文本中的分词,获得所述源语言文本的当前处理单元;采用分类模型,确定所述当前处理单元的分类结果;若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。本公开可以有效地平衡翻译质量和翻译时延。

Description

翻译方法及分类模型的训练方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能领域,尤其涉及一种翻译方法及分类模型的训练方法、装置、设备和存储介质。
背景技术
同声传译系统通常包括语音识别(Auto Speech Recognition,ASR)系统和机器翻译(Machine Translation,MT)系统,ASR系统用于对源语言语音进行语音识别,以获得源语言语音对应的源语言文本,MT系统用于对源语言文本进行翻译,以获得源语言文本对应的目标语言文本。
同声传译或者其他类似场景下,需要解决翻译质量和翻译时延的平衡问题。
发明内容
本公开提供了一种翻译方法及分类模型的训练方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种翻译方法,包括:基于源语言文本中的分词,获得所述源语言文本的当前处理单元;采用分类模型,确定所述当前处理单元的分类结果;若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
根据本公开的另一方面,提供了一种分类模型的训练方法,包括:对原始样本中的分词进行处理,以获得所述原始样本对应的至少一个单元样本;获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译;采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据;采用所述训练数据,训练分类模型。
根据本公开的另一方面,提供了一种翻译装置,包括:获取模块,用于基于源语言文本中的分词,获得所述源语言文本的当前处理单元;分类模块,用于采用分类模型,确定所述当前处理单元的分类结果;翻译模块,用于若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
根据本公开的另一方面,提供了一种分类模型的训练装置,包括:处理模块,用于对原始样本中的分词进行处理,以获得所述原始样本对应的至少一个单元样本;获取模块,用于获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译;构造模块,用于采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据;训练模块,用于采用所述训练数据,训练分类模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以有效地平衡翻译质量和翻译时延。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9是根据本公开第九实施例的示意图;
图10是用来实现本公开实施例的翻译方法或分类模型的训练方法中任一方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
对于同声传译来讲,翻译质量高和翻译时延低是重要要求。一般来讲,若翻译模型的输入信息越多,翻译质量越高,但翻译时延也越高,因此,需要考虑翻译质量和翻译时延的平衡问题。
图1是根据本公开第一实施例的示意图,本实施例提供一种翻译方法,包括:
101、基于源语言文本中的分词,获得源语言的当前处理单元。
102、采用分类模型,确定所述当前处理单元的分类结果。
103、若所述分类结果为所述当前处理单元是可翻译单元,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
以同声传译为例,如图2所示,同声传译系统可以包括ASR系统和MT系统,ASR系统可以对源语言语音进行语音识别,以获得源语言语音对应的源语言文本。MT系统用于对源语言文本进行翻译,以获得源语言文本对应的目标语言文本。本公开实施例中,以源语言为中文、目标语言为英文为例。
源语言文本中可以包括至少一个分词,比如,可以表示为:X={x1,x2,...,xT},其中,X表示源语言文本,xi(i=1,2,...T)表示源语言文本中的第i个分词,T为源语言文本中分词的总数。
源语言文本可以采用各种相关技术的切词方式获得上述的至少一个分词。比如,源语言文本为“上午10点我去了趟公园”,经过切词后,对应的分词包括“上午,10,点,我,去了,趟,公园”,其中,不同的分词用逗号隔开。
为了保证翻译质量,一般是以句子为单位进行翻译,比如,假设上述示例中的“上午10点我去了趟公园”为一个句子,翻译模型需要等到“上午10点我去了趟公园”这个整句后,获得对应的翻译结果,如“At 10a.mI went to the park”。这种以句子为单位进行翻译方式的时延较高。
为了降低时延,可以以分词为单位进行翻译,比如,可以延时固定个数的分词后开始翻译。基于上述示例,比如,可以等到接收到“10”这个分词后,翻译“上午,10”。但是,这种只是考虑个数信息的划分方式,可能造成翻译质量不高。
为了平衡翻译质量和翻译时延,获得当前处理单元后,可以判断其是否可被单独翻译,在可被单独翻译时,再对当前处理单元进行翻译。
某个单元“可被单独翻译”还可以称为该单元是“可翻译单元(Meaningful Unit,MU)”,是指翻译结果不会受到后续输入影响的最小单元。
比如,上述示例中,“上午”的初始翻译结果为“morning”,随着后续的不断输入,比如输入更新为“上午,10,点”,对应的翻译结果更新为“At 10a.m”,由于“上午”的翻译结果会受到后续输入的影响,则“上午”不能作为可翻译单元。又比如,“上午,10,点”的初始翻译结果为“At 10a.m”,随着后续的不断输入,比如输入更新为“上午,10,点,我”,其对应的翻译结果为“At 10a.m,me”,其中,对于“上午,10,点”这个单元,即使后续输入了“我”,也并没有影响到其翻译结果,因此,“上午,10,点”可以作为一个可翻译单元。
由于当前处理单元是可翻译单元,或者说可被单独翻译时,其翻译结果不会受到后续输入的影响,因此,可以保证翻译质量。
本实施例中,通过对当前处理单元进行翻译,当前处理单元是基于分词获得的,可以实现以当前处理单元为单位进行翻译,而不是以句子为单位进行翻译,可以降低翻译时延;通过确定当前处理单元的分类结果,在当前处理单元可被单独翻译时再对当前处理单元进行翻译,可以保证翻译质量,从而可以翻译质量和翻译时延的均衡。
一些实施例中,所述分词为至少一个,所述基于源语言文本中的分词,获得源语言的当前处理单元,包括:在所述至少一个的分词中,按序选择一个分词作为当前分词;将所述当前分词之前的所有分词,组成分词序列;将所述分词序列中的非可被单独翻译的部分,作为所述源语言的当前处理单元。
按序是指按时间先后顺序,比如,基于上述示例,第一时刻选择“上午”作为当前分词,第二时刻选择“10”作为当前分词。
当前分词之前中的“之前”包括当前分词,以第二时刻为例,第二时刻对应的第一分词序列为“上午,10”。
分词序列中的分词的初始状态均为非可被单独的部分,随着对当前处理单元的分类,分词序列中可能存在可被单独翻译的部分,之后,可以去除该部分作为当前处理单元。
比如,第一时刻,分词序列为“上午”,该“上午”为非可被单独翻译的部分,因此,“上午”作为第一时刻的当前处理单元,假设经过分类模型的分类处理,确定“上午”不能被单独翻译,即,“上午”为非可被单独翻译的部分。第二时刻,分词序列为“上午,10”,由于“上午”为非可被单独翻译的部分,且“10”的初始状态也是非可被单独翻译的部分,因此,第二时刻的“上午,10”为当前处理单元,假设经过分类模型的处理,确定“上午,10”为非可被单独翻译的部分。类似地,第三时刻,分词序列为“上午,10,点”,由于“上午,10”为非可被单独翻译的部分,且“点”的初始状态也是非可被单独翻译的部分,因此,第三时刻的“上午,10,点”为当前处理单元,假设经过分类模型的处理,“上午,10,点”为可被单独翻译,则下一个时刻,即,第四时刻的分词序列为“上午,10,点,我”,由于其中的“上午,10,点”为可被单独翻译的部分,需要去除,因此,第四时刻对应的当前处理单元为“我”。
通过按序选择当前分词,并基于当前分词获得当前处理单元,可以按序对当前处理单元进行分类和翻译,符合实际翻译情况下按序执行的场景。
如图2所示,获得当前处理单元后,可以采用分类模型对当前处理单元进行分类,以获得当前处理单元对应的分类结果。
分类模型为二分类模型。具体地,分类结果包括:当前处理单元可被单独翻译,或者,当前处理单元不可被单独翻译。
一些实施例中,所述采用分类模型,确定所述当前处理单元的分类结果,包括:基于所述当前分词之后的预设个数的分词,组成参考序列;将所述分词序列和所述参考序列,作为所述分类模型的输入,采用所述分类模型对所述输入进行处理,以确定所述当前处理单元的分类结果。
其中,当前分词之后中的“之后”不包括当前分词,预设个数可以用m表示,m为参考词的个数,以m=2为例,则假设当前分词为xt时,参考序列可以表示为:参考序列={x(t+1),...,x(t+m)},对于t+m大于T的部分,选为空。
如图3所示,对于源语言文本,可以基于当前分词,获得分词序列和参考序列,分类模型的输入包括分词序列和参考序列,分类模型的输出为当前处理单元的分类结果。其中,由于分类模型的输入包括分词序列,输出也可以认为是分词序列的分类结果。
通过将分词序列和参考序列作为分类模型的输入,可以提高分类结果的准确度。
若当前处理单元是可翻译单元,则不需要等待后续输入,可以对当前处理单元进行即时的(simultaneous)翻译和翻译结果的输出,输出形式可以为文本形式或语音形式等,比如,将当前处理单元对应的目标语言的翻译文本输出到显示屏上,或者对翻译文本进行语音合成,得到目标语言的语音,然后通过扬声器等输出装置播放对应的目标语言的语音。
基于上述示例,假设获得三个可被单独翻译的单元,即三个可翻译单元,分别为:“上午,10,点”、“我,去了,趟”,“公园”。如图4所示,基于可翻译单元,可以即时获取各个可翻译单元的翻译结果(用“同声传译翻译结果”表示),而不需要等待整句输入后才能获得翻译结果(用“通常文本翻译结果”表示)。
上述实施例以应用过程为例,其中涉及了分类模型,即,需要采用分类模型判断一个处理单元是否为可翻译单元,或者说,是否可被单独翻译。分类模型可以是在应用过程之前经过训练后得到的。下面对分类模型的训练过程进行说明。
图5是根据本公开第四实施例的示意图,本实施例提供一种分类模型的训练方法,该方法包括:
501、对原始样本进行处理,以获得所述原始样本对应的至少一个单元样本。
502、获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译。
503、采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据。
504、采用所述训练数据,训练分类模型。
依然以“上午10点我去了趟公园”这个句子为例进行说明,在训练时,该句子可以作为原始样本。
一些实施例中,所述原始样本包括至少一个分词,所述对原始样本进行处理,以获得所述原始样本对应的至少一个单元样本,包括:在所述至少一个分词中,按序选择一个分词作为当前分词;将所述当前分词之前的所有分词,组成一个单元样本。
其中,假设原始样本包括T个分词,则可以获得T个单元样本。基于上述示例,不同时刻t对应的单元样本ct可以如表1所示:
表1
Figure BDA0003142564020000071
Figure BDA0003142564020000081
进一步地,对原始样本进行处理后,还可以获得参考样本,参考样本ft是指当前分词之后的预设个数(如m=2)的分词组成的序列。
之后,可以基于三元组<单元样本,参考样本,标签信息>构造训练数据。
假设标签信息用lt表示,lt=1表示单元样本可被单独翻译,lt=0表示单元样本不可被单独翻译,则训练数据可以如表2所示:
表2
t ct ft lt
1 上午 10,点 0
2 上午,10 点,我 0
3 上午,10,点 我,去了 1
4 上午,10,点,我 去了,趟 0
5 上午,10,点,我,去了 趟,公园 0
6 上午,10,点,我,去了,趟 公园 1
7 上午,10,点,我,去了,趟,公园 NULL(空) 1
通过基于当前分词组成单元样本,可以基于一条原始样本生成多条单元样本,扩展单元样本的数量。
一些实施例中,所述原始样本为源语言文本,所述获取所述至少一个单元样本中各个单元样本对应的标签信息,包括:获取所述源语言文本对应的目标语言的整句翻译结果;对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果;若所述单元翻译结果与所述整句翻译结果中的至少部分内容相同,且位置对应一致,确定所述标签信息为标识所述单元样本为可翻译单元的信息。
其中,单元翻译结果与所述整句翻译结果中的至少部分内容相同,且位置对应一致,可以称为单元翻译结果为整句翻译结果的前缀(prefix)。
假设不同时刻t的单元样本对应的单元翻译结果用yt表示,源语言文本、整句翻译结果、单元翻译结果,可以如图6所示。参考图6,由于“上午,10,点”的单元翻译结果为“At10a.m”,该单元翻译结果为整句翻译结果的前缀,因此,“上午,10,点”对应的标签信息lt=1;类似地,由于“上午,10,点,我,去了,趟”的单元翻译结果为“At 10a.m I went to”,该单元翻译结果为整句翻译结果的前缀,因此,“上午,10,点,我,去了,趟”对应的标签信息lt=1。
通过基于单元翻译结果是否为整句翻译结果的前缀,来确定对应的单元样本是否可被单独翻译,可以保证可被单独翻译的单元的语义完整性,提高翻译质量。
获得各个单元样本的单元翻译结果时,若采用通常的翻译方式,即将各个单元样本作为翻译模型的输入,采用翻译模型进行翻译,可能存在各个单元样本均不可被单独翻译,只有原始样本这一整句可被单独翻译,这样采用上述训练数据训练的分类模型,只能识别出较长的可翻译单元,导致翻译时延过长。
比如,原始样本为“A,在,北京,与,B,会晤”,采用通常的翻译方式,一般是将“A,在,北京,与,B,会晤”这个整句对应的标签信息设置为1,其余单元样本的标签信息均为0。
这个标签信息为1的单元样本的长度过长,导致采用该单元样本训练的分类模型在应用时翻译时延过长。
为了降低翻译时延,可以尽量减少作为可翻译单元的单元样本的长度。
一些实施例中,所述原始样本包括分词,所述对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果,包括:将所述各个单元样本以及所述各个单元样本之后预设个数的分词,作为翻译模型的输入,采用所述翻译模型对所述输入进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果。
其中,此处翻译时对应的“预设个数”与上述参考样本或参考序列中的预设个数不相关,即,在翻译时对应的预设个数可以用k表示,与参考样本或参考序列中的m不同,k表示延时k个分词后再进行翻译,该翻译方式可以称为wait-k翻译。
wait-k翻译方式具有预测能力,不需要等待整句输入完全后就可能生成正确的翻译结果。比如,以“A,在,北京,与,B,会晤”为例,k=2时,对应的翻译结果如图7所示,即,接收到“北京”这个分词后,可以预测出翻译结果为“met”,而不需要等到接收到“会晤”这个分词后才能翻译出“met”。
基于wait-k翻译方式后,在同声传译时,可以获知“A”,“在”、“北京”、“与”、“B”、“会晤”这6个单元均为可被单独翻译的,而不是“A,在,北京,与,B,会晤”这一个整句的单元是可被单独翻译的,之后,可以对每个可被单独翻译的单元进行即时翻译,降低翻译时延。
通过在获得单元样本的单元翻译结果时,采用wait-k方式进行翻译,可以获得长度更小的可被单独翻译的单元样本,进而基于该单元样本构造的训练数据训练的分类模型,可以在翻译时识别出长度更短的可被单独翻译的单元,降低翻译时延。
本实施例中,通过原始样本构造分类模型的训练数据,可以扩展训练数据的数量;通过标签信息用于标识单元样本是否可被单独翻译,可以训练能识别单元是否可被单独翻译的分类模型,进而,可以对被单独翻译的单元进行翻译,均衡翻译质量和翻译时延。
图8是根据本公开第八实施例的示意图,本实施例提供一种翻译装置。如图8所示,翻译装置800包括:获取模块801、分类模块802和翻译模块803。
获取模块801用于基于源语言文本中的分词,获得所述源语言文本的当前处理单元;分类模块802用于采用分类模型,确定所述当前处理单元的分类结果;翻译模块803用于若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
一些实施例中,所述分词为至少一个,所述获取模块801具体用于:在所述至少一个的分词中,按序选择一个分词作为当前分词;将所述当前分词之前的所有分词,组成分词序列;将所述分词序列中的非可被单独翻译的部分,作为所述源语言的当前处理单元。
一些实施例中,所述分类模块802具体用于:基于所述当前分词之后的预设个数的分词,组成参考序列;将所述分词序列和所述参考序列,作为所述分类模型的输入,采用所述分类模型对所述输入进行处理,以确定所述当前处理单元的分类结果。
本实施例中,通过对当前处理单元进行翻译,当前处理单元是基于分词获得的,可以实现以当前处理单元为单位进行翻译,而不是以句子为单位进行翻译,可以降低翻译时延;通过确定当前处理单元的分类结果,在当前处理单元可被单独翻译时再对当前处理单元进行翻译,可以保证翻译质量,从而可以翻译质量和翻译时延的均衡。
图9是根据本公开第九实施例的示意图,本实施例提供一种分类模型的训练装置。如图9所示,分类模型的训练装置900包括:处理模块901、获取模块902、构造模块903和训练模块904。
处理模块901用于对原始样本中的分词进行处理,以获得所述原始样本对应的至少一个单元样本;获取模块902用于获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译;构造模块903用于采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据;训练模块904用于采用所述训练数据,训练分类模型。
一些实施例中,所述原始样本包括至少一个分词,所述处理模块901具体用于:在所述至少一个分词中,按序选择一个分词作为当前分词;将所述当前分词之前的所有分词,组成一个单元样本。
一些实施例中,所述原始样本为源语言文本,所述获取模块902具体用于:获取所述源语言文本对应的目标语言的整句翻译结果;对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果;若所述单元翻译结果与所述整句翻译结果中的至少部分内容相同,且位置对应一致,确定所述标签信息为标识所述单元样本为可翻译单元的信息。
一些实施例中,所述获取模块902具体用于:将所述各个单元样本以及所述各个单元样本之后预设个数的分词,作为翻译模型的输入,采用所述翻译模型对所述输入进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果。
本实施例中,通过原始样本构造分类模型的训练数据,可以扩展训练数据的数量;通过标签信息用于标识单元样本是否可被单独翻译,可以训练能识别单元是否可被单独翻译的分类模型,进而,可以对被单独翻译的单元进行翻译,均衡翻译质量和翻译时延。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元10010加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如翻译方法或分类模型的训练方法。例如,在一些实施例中,翻译方法或分类模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的翻译方法或分类模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行翻译方法或分类模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种翻译方法,包括:
基于源语言文本中的分词,获得所述源语言文本的当前处理单元;
采用分类模型,确定所述当前处理单元的分类结果;
若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
2.根据权利要求1所述的方法,其中,所述分词为至少一个,所述基于源语言文本中的分词,获得源语言的当前处理单元,包括:
在所述至少一个的分词中,按序选择一个分词作为当前分词;
将所述当前分词之前的所有分词,组成分词序列;
将所述分词序列中的非可被单独翻译的部分,作为所述源语言的当前处理单元。
3.根据权利要求2所述的方法,其中,所述采用分类模型,确定所述当前处理单元的分类结果,包括:
基于所述当前分词之后的预设个数的分词,组成参考序列;
将所述分词序列和所述参考序列,作为所述分类模型的输入,采用所述分类模型对所述输入进行处理,以确定所述当前处理单元的分类结果。
4.一种分类模型的训练方法,包括:
对原始样本中的分词进行处理,以获得所述原始样本对应的至少一个单元样本;
获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译;
采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据;
采用所述训练数据,训练分类模型。
5.根据权利要求4所述的方法,其中,所述原始样本包括至少一个分词,所述对原始样本进行处理,以获得所述原始样本对应的至少一个单元样本,包括:
在所述至少一个分词中,按序选择一个分词作为当前分词;
将所述当前分词之前的所有分词,组成一个单元样本。
6.根据权利要求4或5所述的方法,其中,所述原始样本为源语言文本,所述获取所述至少一个单元样本中各个单元样本对应的标签信息,包括:
获取所述源语言文本对应的目标语言的整句翻译结果;
对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果;
若所述单元翻译结果与所述整句翻译结果中的至少部分内容相同,且位置对应一致,确定所述标签信息为标识所述单元样本为可翻译单元的信息。
7.根据权利要求6所述的方法,其中,所述对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果,包括:
将所述各个单元样本以及所述各个单元样本之后预设个数的分词,作为翻译模型的输入,采用所述翻译模型对所述输入进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果。
8.一种翻译装置,包括:
获取模块,用于基于源语言文本中的分词,获得所述源语言文本的当前处理单元;
分类模块,用于采用分类模型,确定所述当前处理单元的分类结果;
翻译模块,用于若所述分类结果为所述当前处理单元可被单独翻译,对所述当前处理单元进行翻译,以获得所述当前处理单元对应的目标语言的翻译结果。
9.根据权利要求8所述的装置,其中,所述分词为至少一个,所述获取模块具体用于:
在所述至少一个的分词中,按序选择一个分词作为当前分词;
将所述当前分词之前的所有分词,组成分词序列;
将所述分词序列中的非可被单独翻译的部分,作为所述源语言的当前处理单元。
10.根据权利要求9所述的装置,其中,所述分类模块具体用于:
基于所述当前分词之后的预设个数的分词,组成参考序列;
将所述分词序列和所述参考序列,作为所述分类模型的输入,采用所述分类模型对所述输入进行处理,以确定所述当前处理单元的分类结果。
11.一种分类模型的训练装置,包括:
处理模块,用于对原始样本中的分词进行处理,以获得所述原始样本对应的至少一个单元样本;
获取模块,用于获取所述至少一个单元样本中各个单元样本对应的标签信息,所述标签信息用于标识所述单元样本是否可被单独翻译;
构造模块,用于采用所述各个单元样本和所述各个单元样本对应的标签信息,构造训练数据;
训练模块,用于采用所述训练数据,训练分类模型。
12.根据权利要求11所述的装置,其中,所述原始样本包括至少一个分词,所述处理模块具体用于:
在所述至少一个分词中,按序选择一个分词作为当前分词;
将所述当前分词之前的所有分词,组成一个单元样本。
13.根据权利要求11或12所述的装置,其中,所述原始样本为源语言文本,所述获取模块具体用于:
获取所述源语言文本对应的目标语言的整句翻译结果;
对所述各个单元样本进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果;
若所述单元翻译结果与所述整句翻译结果中的至少部分内容相同,且位置对应一致,确定所述标签信息为标识所述单元样本为可翻译单元的信息。
14.根据权利要求13所述的装置,其中,所述获取模块具体用于:
将所述各个单元样本以及所述各个单元样本之后预设个数的分词,作为翻译模型的输入,采用所述翻译模型对所述输入进行翻译,以获得所述各个单元样本对应的目标语言的单元翻译结果。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
CN202110739519.1A 2021-06-30 2021-06-30 翻译方法及分类模型的训练方法、装置、设备和存储介质 Pending CN113408306A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110739519.1A CN113408306A (zh) 2021-06-30 2021-06-30 翻译方法及分类模型的训练方法、装置、设备和存储介质
JP2022032916A JP2023007369A (ja) 2021-06-30 2022-03-03 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体
US17/656,160 US20230015313A1 (en) 2021-06-30 2022-03-23 Translation method, classification model training method, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110739519.1A CN113408306A (zh) 2021-06-30 2021-06-30 翻译方法及分类模型的训练方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113408306A true CN113408306A (zh) 2021-09-17

Family

ID=77680628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110739519.1A Pending CN113408306A (zh) 2021-06-30 2021-06-30 翻译方法及分类模型的训练方法、装置、设备和存储介质

Country Status (3)

Country Link
US (1) US20230015313A1 (zh)
JP (1) JP2023007369A (zh)
CN (1) CN113408306A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781408A (zh) * 2022-04-24 2022-07-22 北京百度网讯科技有限公司 同传翻译模型的训练方法、装置及电子设备
CN114818748A (zh) * 2022-05-10 2022-07-29 北京百度网讯科技有限公司 用于生成翻译模型的方法、翻译方法及装置
CN114936566A (zh) * 2022-04-26 2022-08-23 北京百度网讯科技有限公司 机器翻译方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582982A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 用于翻译语音的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6090785B2 (ja) * 2013-05-07 2017-03-08 国立大学法人 奈良先端科学技術大学院大学 テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582982A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 用于翻译语音的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUIQING ZHANG ET AL: "Learning Adaptive Segmentation Policy for Simultaneous Translation", 《PROCEEDINGS OF THE 2020 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781408A (zh) * 2022-04-24 2022-07-22 北京百度网讯科技有限公司 同传翻译模型的训练方法、装置及电子设备
CN114781408B (zh) * 2022-04-24 2023-03-14 北京百度网讯科技有限公司 同传翻译模型的训练方法、装置及电子设备
CN114936566A (zh) * 2022-04-26 2022-08-23 北京百度网讯科技有限公司 机器翻译方法、装置、设备和存储介质
CN114818748A (zh) * 2022-05-10 2022-07-29 北京百度网讯科技有限公司 用于生成翻译模型的方法、翻译方法及装置

Also Published As

Publication number Publication date
US20230015313A1 (en) 2023-01-19
JP2023007369A (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN113408306A (zh) 翻译方法及分类模型的训练方法、装置、设备和存储介质
CN113590796B (zh) 排序模型的训练方法、装置和电子设备
CN112926306A (zh) 文本纠错方法、装置、设备以及存储介质
CN114998881B (zh) 深度学习模型的训练方法、文本识别方法、装置和设备
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112506359A (zh) 输入法中候选长句的提供方法、装置及电子设备
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN113887615A (zh) 图像处理方法、装置、设备和介质
CN114492426A (zh) 子词切分方法、模型训练方法、装置和电子设备
CN112528995A (zh) 用于训练目标检测模型的方法、目标检测方法及装置
CN115186738B (zh) 模型训练方法、装置和存储介质
CN114757214B (zh) 用于优化翻译模型的样本语料的选取方法、相关装置
CN114065784B (zh) 训练方法、译文方法、装置、电子设备以及存储介质
CN114282551B (zh) 翻译方法、装置、电子设备及存储介质
CN114549695A (zh) 图像生成方法、装置、电子设备及可读存储介质
CN114020918A (zh) 分类模型训练方法、翻译方法、装置及电子设备
CN113553833A (zh) 文本纠错的方法、装置及电子设备
CN115312042A (zh) 用于处理音频的方法、装置、设备以及存储介质
CN113361621A (zh) 用于训练模型的方法和装置
CN113239273A (zh) 用于生成文本的方法、装置、设备以及存储介质
CN114818748B (zh) 用于生成翻译模型的方法、翻译方法及装置
CN112861513B (zh) 文本切分方法、装置、电子设备和存储介质
CN116090436A (zh) 文本的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination