CN111611811A - 翻译方法、装置、电子设备及计算机可读存储介质 - Google Patents

翻译方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111611811A
CN111611811A CN202010450957.1A CN202010450957A CN111611811A CN 111611811 A CN111611811 A CN 111611811A CN 202010450957 A CN202010450957 A CN 202010450957A CN 111611811 A CN111611811 A CN 111611811A
Authority
CN
China
Prior art keywords
translation
sentence
clause
translated
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010450957.1A
Other languages
English (en)
Other versions
CN111611811B (zh
Inventor
冉邱
林衍凯
李鹏
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010450957.1A priority Critical patent/CN111611811B/zh
Publication of CN111611811A publication Critical patent/CN111611811A/zh
Priority to PCT/CN2021/091997 priority patent/WO2021238604A1/zh
Priority to JP2022539180A priority patent/JP7457125B2/ja
Priority to US17/710,933 priority patent/US20220222447A1/en
Application granted granted Critical
Publication of CN111611811B publication Critical patent/CN111611811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种翻译方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待翻译句子;基于预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句;对各所述子句分别进行翻译,得到各所述子句对应的翻译结果;对各所述子句对应的翻译结果进行融合,得到所述待翻译句子对应的目标翻译句子。在该方案中,由于,各子句包括待翻译句子中的至少两个词,在对各子句分别进行翻译时,即可以并行对待翻译句子中的至少两个词进行翻译,而不是对待翻译句子一个词一个词的进行翻译,从而在得到翻译句子对应的目标翻译句子的过程中,可以加快翻译速度。

Description

翻译方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及语言翻译处理技术领域,具体而言,本发明涉及一种翻译方法、装置、电子设备及计算机可读存储介质。
背景技术
现有技术中,通常采用自回归NMT(neural machine translation,神经机器翻译)技术对待翻译句子进行翻译,即一个词一个词翻译待翻译句子的各个词,这样的翻译方式使得翻译速度慢。
发明内容
本发明实施例的主要目的在于提供一种翻译方法、装置、电子设备及计算机存储介质,通过本发明实施例的方案,能够提高视频封面的质量,提高用户体验。
第一方面,本发明实施例提供了一种翻译方法,该方法包括:
获取待翻译句子;
根据预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句;
对各所述子句分别进行翻译,得到各所述子句对应的翻译结果;
对各所述子句对应的翻译结果进行融合,得到所述待翻译句子对应的目标翻译句子。
第二方面,本发明提供了一种翻译装置,该装置包括:
待翻译句子获取模块,用于获取待翻译句子;
子句确定模块,用于根据预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句;
翻译模块,用于对各所述子句分别进行翻译,得到各所述子句对应的翻译结果;
目标翻译句子确定模块,用于对各所述子句对应的翻译结果进行融合,得到所述待翻译句子对应的目标翻译句子。
第三方面,本发明实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面的任一可选实施例中所示的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储介质中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面的任一可选实施例中所示的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例所提供的翻译方法、装置、电子设备及计算机可读存储介质,在对待翻译句子进行翻译时,可基于预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句,然后各所述子句分别进行翻译,得到各所述子句对应的翻译结果;基于本发明的方案,由于各子句包括待翻译句子中的至少两个词,在对各子句分别进行翻译时,即可以并对待翻译句子中的至少两个词进行翻译,而不是对待翻译句子一个词一个词的进行翻译,从而在得到翻译句子对应的目标翻译句子的过程中,可以加快翻译速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1示出了本发明实施例中提供的一种翻译方法的流程示意图;
图2示出了本发明实施例中提供的一示例中一种翻译模型的训练流程示意图;
图3示出了本发明实施例中提供的一种包含重复翻译词的样本翻译句子示意图;
图4示出了本发明实施例中提供的一种翻译装置的结构示意图;
图5示出了本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面详细描述本发明的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
为了更好的理解及说明本发明实施例的方案,下面对本发明实施例中所涉及到的一些技术用语进行简单说明。
神经网络(Neural Network,NN):是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
NAT:Non-autoregressive neural machine translation,非自回归神经机器翻译。
现有技术中,通常采用自回归NMT(neural machine translation,神经机器翻译)技术对待翻译句子进行翻译,即一个词一个词翻译待翻译句子的各个词,这样的翻译方式使得翻译速度慢。
为了解决上述翻译速度慢的问题,在现有技术中,通常采用NAT技术加速NMT的翻译速度,通过NAT技术加速NMT的翻译速度可通过以下几种方式:
第一种:使用词均匀拷贝方式,或通过一个模块预测待翻译句子中每个待翻译词的拷贝次数,按照该拷贝次数,通过解码器预测各待翻译词对应的翻译结果。
第二种:使用自回归模型引导NAT的训练过程,即基于自回归模型训练NAT,通过训练得到的模型进行翻译,在翻译的过程中,同样可以通过以下方式进行翻译:使用词均匀拷贝方式,或通过一个模块预测待翻译句子中每个待翻译词的拷贝次数,按该拷贝次数,通过解码器并行预测各待翻译词对应的初步翻译结果。
第三种:在解码器最后一层使用自回归方式进行预测来增强NAT的序列信息,其它层的隐层状态使用并行计算方式等。
但是,采用NAT技术,在翻译过程中通常是独立预测每个待翻译词对应的目标词(翻译结果)的,当一个待翻译词对应有多种翻译方式时,对于不同位置的相同待翻译词,可能会采用不同的翻译方式进行翻译,使得最终的翻译结果中常常出现翻译错误,比如,重复翻译词,遗漏词(没有翻译的词),使得翻译质量降低。
下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明的执行主体可以是任意电子设备,可以是服务器,可以是用户终端等等,本发明的方案适用于机器翻译的应用场景,比如,在线翻译,尤其对翻译速度有要求的应用场景,采用本发明的方案,可满足用户对翻译速度的需求。
图1示出了本发明实施例提供的一种翻译方法的流程示意图,如图中所示,本发明以服务器为执行主体为例进行说明,该方法可以包括步骤S110至步骤S140,其中:
步骤S110:获取待翻译句子。
其中,待翻译句子可以是用户上传至翻译平台的句子,也可以是从指定数据库中选择的句子,本发明实施例中不限定待翻译句子的具体来源。待翻译句子可以是任何语种的语言,比如,汉语,英语等,本发明实施例中不限定待翻译句子的语种。待翻译句子可以是文字,可以是语音,或者是将语音按照指定语种的语言翻译的文本,待翻译句子可以是已经被翻译过的句子,本发明实施例中不限定待翻译句子的具体表现形式。
在实际应用中,如果获取到的待翻译信息的是文本或者段落,则可将待翻译文本或待翻译段落进行分句,将各分句作为待翻译句子。
步骤S120:基于预设数量,对待翻译句子进行划分,得到预设数量的子句。
步骤S130:对各子句分别进行翻译,得到各子句对应的翻译结果。
其中,预设数量可以基于实际需求配置,比如,基于翻译速度要求,如果要求的翻译速度较快,可以将预设数量设置的大一些,如果所要求的翻译速度相对较慢,则可以将预设数量设置的小一些。
其中,各子句所对应的内容为待翻译句子中的至少两个词,作为一个示例,如果待翻译句子包括12个词,预设数量为3,如果每个子句对应的句子长度相同,即包含的词的数量相同,则每子句对应所包含的词的数量为4,即待翻译句子中每4个词划分为一个子句,得到3个子句,在对待翻译句子进行翻译时,可并行从这3个子句所对应第一词开始翻译,得到这3个子句中各自包含的4个词所对应的翻译结果。
在本发明的一可选方案中,各子句中至少两个子句所包含的词的数量可以相同,也可以不同。这样对于待翻译句子所包含的词的数量和子句数量不成整数比例的时候时,也可以对待翻译句子进行合理的子句。
步骤S140:对各子句对应的翻译结果进行融合,得到待翻译句子对应的目标翻译句子。
其中,在确定了各子句对应的翻译结果之后,将各子句对应的翻译结果融合在一起,使得翻译结果中的每个翻译完成的词的语义与待翻译句子中的每个词的语义相对应,得到该待翻译句子对应的目标翻译句子。
在实际应用中,在对各子句对应的翻译结果进行融合时,可以按照各翻译结果中各词的语义进行融合,以确保融合后的句子所表达的语义与待翻译句子所表达的语义一致。
本发明的方案中,在对待翻译句子进行翻译时,可基于预设数量,对待翻译句子进行划分,得到预设数量的子句,然后各子句分别进行翻译,得到各子句对应的翻译结果;基于本发明的方案,由于各子句包括待翻译句子中的至少两个词,在对各子句进行翻译时,即可以并行对待翻译句子中的至少两个词进行翻译,而不是对待翻译句子一个词一个词的进行翻译,从而在得到翻译句子对应的目标翻译句子的过程中,可以加快翻译速度。
在本发明的方案中,对于待翻译句子,可先将待翻译句子通过编码器进行编码,得到该待翻译句子对应的编码信息,然后基于预先配置的子句的子句数量,对各子句对应的编码信息进行翻译,以得到待翻译句子的目标翻译句子。
本发明的可选方案中,如果各子句中至少两个子句对应的待翻译句子的句子长度不同,即各子句中至少两个子句对应的待翻译句子中包含的词的数量不同时,其中,可基于以下方式确定各子句对应的句子长度:
基于预设数量和待翻译句子的句子长度,将各子句中第一设定比例的各子句的句子长度设置为第一长度;将各子句中第二设定比例的各子句的句子长度设置为第二长度;
其中,第一设定比例和第二设定比例之和为1。
其中,第一设定比例和第二设定比例可以基于实际需求配,第一设定比例和第二设定比例可以相同,也可以不同。第一设定比例和第二设定比例之和为1,表示第一设定比例的各子句的数量和第二设定比例的各子句的数量之和等于预先设置的子句数量。
第一设定比例和第二设定比例的配置可以与待翻译句子中所包含的词的数量无关,即无论待翻译句子是包含多少个词,均按照预先设置的子句数量,第一设定比例和第二设定比例对待翻译句子进行子句。
第一长度与第二长度不同,第一长度表征了第一设定比例的各子句中,每个子句所对应的待翻译句子的句子长度为第一长度,即第一设定比例的各子句中,每个子句所对应的待翻译句子包含的词的数量相同。同理,第二长度表征了第二设定比例的各子句中,每个子句所对应的待翻译句子的句子长度为第二长度,即第二设定比例的子句中,每个子句所对应的待翻译句子包含的词的数量相同。
可以理解的是,基于预先设置的子句数量,第一设定比例和第二设定比例对待翻译句子进行子句,如果待翻译句子中所包含的词的数量不等于第一设定比例的各子句所对应的待翻译句子所对应的词的数量和第二设定比例的各子句所对应的待翻译句子所对应的词的数量,则在对待翻译句子进行子句时,可在不满足句子长度的子句中用特定标识填充,该特定标识在翻译时不用翻译。
在实际应用中,各子句所对应的待翻译句子是连续的,即前一子句对应的待翻译句子的最后一个词与下一子句对应的待翻译句子的第一个词之间是连续的。
在本申请的可选方案中,对于任一子句对应的待翻译句子,可以基于自回归NMT技术对该子句对应的待翻译句子进行翻译,即一个词一个词的进行翻译。采用自回归NMT方式进行翻译,其中每个词对应的翻译结果都会依据之前翻译过的词的翻译结果进行翻译,以保证各个词之间的连续性。
作为一个示例,比如,预先配置的子句数量为4,第一设定比例为0.25,第二设定比例为0.75,待翻译句子中所包含的词的数量为13,则将0.25*4=1个子句对应的待翻译句子的句子长度设置为第一长度,将0.75*4=3个子句对应的待翻译句子的句子长度设置为第二长度。则在这13个词中,可将其中的4个词划分为一段,第一长度为4个词,将每剩余词中每3个词划分为1段,共划分3个子句,第二长度为3个词。
在上述示例中,如果待翻译句子中所包含的词的数量为12或者15,则可在不满足第一长度或第二长度的子句填充特定标识,以使得填充后的子句所对应的待翻译句子的长度满足第一长度或第二长度,比如,对于包含12个词的待翻译句子,在最后一个子句对应的待翻译句子中填充一个特定标识,以使得填充后的子句对应的待翻译句子为3个词。
本发明的可选方案中,对各子句分别进行翻译,得到各子句对应的翻译结果,包括:
从候选翻译词集合中得到各子句对应的翻译结果。
其中,候选翻译词集合中包括各种词对应的候选翻译词,一个词可以对应至少一个候选翻译词,该候选翻译词可以为不同语种的词。在对待翻译句子进行翻译时,可以对各子句对应的待翻译句子中的每个词进行翻译,以得到各子句所对应的翻译结果。
在实际应用中,如果一个待翻译词对应至少两个候选翻译词,可以通过确定这至少两个候选翻译词的概率,将其中概率最大的候选翻译词作为该翻译词的目标翻译词。
在实际应用中,每个待翻译词对应的候选翻译词可以对应一个子集合,即候选翻译词集合中包括各待翻译词对应的子集合。
本发明的可选方案中,候选翻译词集合中包括翻译结束标识,对于任一子句,该子句对应的待翻译句子的句子长度是通过以下方式确定的:
从候选词翻译集合中确定出对应于该子句对应的每个词对应的候选翻译词;
基于该子句对应的各候选翻译词和翻译结束标识,确定该子句对应的待翻译句子的句子长度。
其中,在本发明的方案中,各子句所对应的句子长度可以是预先配置好的,但是,考虑到在翻译过程中,由于同时对多段对应的待翻译句子进行翻译,容易出现翻译错误(重复翻译词和遗漏词),由此,在翻译过程中,可基于各子句对应的各候选翻译词和翻译结束标识,确定各子句对应的句子长度,避免翻译错误的产生。
另外,每个子句对应的句子长度与该段对应的翻译速度成正比,则各子句对应的句子长度直接影响到待翻译句子的翻译速度,在对各子句进行翻译时,不同长度的词对应的信息量不同,翻译速度也可能不同,由此,考虑到翻译速度问题和翻译准确性的问题,在确定各子句对应的句子长度时,可以采用动态确定句子长度的方式,具体确定方式如下:
在候选翻译词集合中填加翻译结束标识符,在对各子句进行翻译时,对于该待翻译句子中的任一个待翻译词,从候选翻译词集合中确定该翻译词对应的候选翻译词,如果该候选翻译词为翻译结束标识,则停止对该子句的翻译,同时得到该子句对应的句子长度,该句子长度即为翻译结束时对应待翻译词之前的待翻译词所对应的句子长度。如果该候选翻译词不是翻译结束标识,则继续对该子句进行翻译,直到候选翻译词为翻译结束标识时,确定该子句对应的句子长度。该句子长度即为翻译结束时对应的待翻译词以及该待翻译词之前的待翻译词对应的句子长度。通过上述动态确定句子长度的方式,可以在对各子句进行翻译时,动态确定每个子句对应的句子长度,以进一步提升翻译速度。
其中,翻译结束标识可以通过设定字符串表示,本发明的方案中,不限定翻译结束标识的具体表现形式。作为一个示例,该翻译结束标识可以为EOS。
本发明的可选方案中,候选翻译词集合中包括翻译开始标识和翻译结束标识;
从候选翻译词集合中得到各子句对应的翻译结果,包括:
对于任一子句,从候选翻译词集合中确定该子句对应的每个待翻译词对应的候选翻译词;
若候选翻译词为翻译开始标识,开始对该子句进行翻译;
若候选翻译词不是翻译开始标识,且不是翻译结束标识,继续对该子句进行翻译,直至候选翻译词为翻译结束标识,结束对该子句的翻译,得到该子句对应的翻译结果。
其中,在对各子句进行翻译时,对于任一子句,可以基于该子句所对应的翻译开始标识判断何时对该子句开始进行翻译,基于该子句所对应的翻译结束标识判断何时对该子句结束翻译。具体的,在对一个子句进行翻译时,对该子句中的各个词逐个进行翻译,对于其中的一个词,可确定该词的候选翻译词,在该候选翻译词为翻译开始标识时,开始对该子句进行翻译。在该候选翻译词不是翻译开始标识,也不是翻译结束标识,继续对该词之后的词进行翻译,直至候选翻译词为翻译结束标识,结束对该子句的翻译,得到该子句对应的翻译结果。
其中,翻译结束标识可以通过设定字符串表示,本发明的方案中,不限定翻译结束标识的具体表现形式。作为一个示例,该翻译结束标识可以为EOS。
本发明的可选方案中,对各子句分别进行翻译,得到各子句对应的翻译结果,包括:
对各子句分别进行翻译,得到各子句对应的初步翻译结果;
若各初步翻译结果中任一初步翻译结果存在翻译错误,对存在翻译错误的初步翻译结果进行错误修正;基于修正后的初步翻译结果和未修正的初步翻译结果,得到各子句对应的翻译结果;
若各初步翻译结果中均不存在翻译错误,将各初步翻译结果作为各子句对应的翻译结果。
其中,在翻译过程中,可能存在翻译错误,比如,有重复翻译的词,或者待翻译句子中有没有翻译的词,即遗漏翻译的词。则在确定各子句对应的翻译结果之前,需要对初步翻译结果中的翻译错误进行修正,以确保翻译结果的准确性。
具体的,对于任一子句对应的待翻译句子进行翻译时,可先确定该子句的初步翻译结果,如果该初步翻译结果中存在翻译错误,就对该初步翻译结果进行修正,将修正后的初步翻译结果作为该子句对应的翻译结果。如果该初步翻译结果中不存在翻译错误,则将该初步翻译结果作为该子句对应的翻译结果。
本发明的可选方案中,翻译错误包括遗漏词或重复翻译词中的至少一项,该方法还包括:
对于任一子句,基于该子句对应的初步翻译结果中的各个词,确定该子句中是否存在翻译错误;
和/或,
对于各子句中的任一相邻的两个子句,基于两个子句中第一个子句对应的初步翻译结果中的最后一个词和两个子句中的第二个子句对应的初步翻译结果中的第一个词,确定两个子句中是否存在翻译错误;
若翻译错误包括遗漏词,对存在翻译错误的初步翻译结果进行错误修正,包括:
对遗漏词进行翻译;
若翻译错误包括重复翻译词,对存在翻译错误的初步翻译结果进行错误修正,包括:
从存在翻译错误的初步翻译结果中,删除重复翻译词。
其中,如何确定上述初步翻译结果中是否存在翻译错误,可以基于一个子句对应的初步翻译结果中的各个词确定该初步翻译结果中是否有翻译错误,即该子句中是否有重复翻译的词和/或遗漏词。
考虑到两个相邻的子句之间的对应的词语的连续性,还可以基于该两个子句各自对应的初步翻译结果确定在这两个初步翻译结果中,是否存在翻译错误,比如,两个子句中前一个子句对应的初步翻译结果中的最后一个词与后一子句对应的初步翻译结果中的第一个词没有连接上,即这两个初步翻译结果中存在遗漏词,既没有翻译的词。或者,两个子句中前一个子句对应的初步翻译结果中的最后一个词与后一子句对应的初步翻译结果中的第一个词之间是相同的词,即存在重复翻译词。
如果存在遗漏词,则对遗漏词进行翻译,得到包含该遗漏词对应的翻译词,从而实现对该翻译错误的修正。如果存在重复翻译词,则将该重复翻译词删除,以实现对该翻译错误的修正。
本发明的可选方案中,各子句对应的待翻译句子对应的翻译结果是从候选翻译词集合中确定得到的,候选翻译词集合中还包括删除标识,删除标识用于标识对应子句的翻译结果为重复翻译词;
从存在翻译错误的初步翻译结果中,删除重复翻译词,包括:
从存在翻译错误的初步翻译结果中,删除删除标识对应的重复翻译词。
其中,在翻译错误是重复翻译词时,修正该翻译错误还可以基于删除标识,删除标识用于标识对应子句的翻译结果为重复翻译词,即如果某个子句对应的初步翻译结果中存在删除标识,则说明该子句对应的初步翻译结果是重复的,进而可基于该删除标识,删除该标识对应的该子句的初步翻译结果(一个子句所对应的初步翻译结果),以实现对该子句对应的翻译错误的修正。
其中,删除标识可以通过设定字符串表示,本发明的方案中,不限定删除标识的具体表现形式。作为一个示例,该删除标识可以为DEL。
可以理解的是,在对各子句对应的待翻译句子进行翻译的过程中,如果候选翻译词为该删除标识,同样可以停止对该子句对应待翻译句子的翻译,从而可节省翻译时间。
本发明的可选方案中,基于预设数量,对待翻译句子进行划分,得到预设数量的子句,以及对各子句分别进行翻译,得到各子句对应的翻译结果是通过翻译模型得到的;
其中,翻译模型是通过以下方式训练得到的:
获取各训练样本,训练样本中包括样本待翻译句子和样本待翻译句子对应的样本翻译句子,样本翻译句子中包括按照样本子句数量划分样本翻译句子得到的各子样本句子,每个子样本句子携带有标签,标签表征了子样本句子对应的样本待翻译句子的翻译标注结果;
基于各训练样本,对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为翻译模型;
其中,初始神经网络模型的输出为训练样本的样本待翻译句子对应的各子句的翻译预测结果,损失函数的值表征了样本待翻译句子所对应的翻译标注结果和翻译预测结果之间的差异。
其中,一个训练样本中包括一个样本待翻译句子和该样本待翻译句子对应的样本翻译句子(该样本待翻译句子对应的目标翻译句子),基于样本子句数量对该样本翻译句子进行划分,得到该样本翻译句子对应的各子样本句子。
每个子样本句子携带有标签,该标签表征了子样本句子对应的样本待翻译句子的翻译标注结果,翻译标注结果表征了该子样本句子对应的正确翻译句子。该标签可以通过人工的方式进行标注,该标签可以是字符串、文字、数字等,本发明中不限定标签的具体表现形式。
在本发明的方案中,翻译模型的输入为各训练样本,输出为训练样本的样本待翻译句子对应的各子句的翻译预测结果,即该样本待翻译句子中各子样本句子的翻译预测结果。
为了使得训练的翻译模型不但可以快速翻译待翻译句子,还可以准确翻译待翻译句子,即使得翻译得到的目标翻译句子中没有翻译错误,则在训练该翻译模型时,可以使得训练样本为包含翻译错误的训练样本,基于该包含翻译错误的训练样本训练得到的翻译模型,可以修真翻译结果中的翻译错误,得到正确的翻译结果。
作为一个示例,如图2所示的翻译模型训练示意图,在该图中,当解码器(decoder)生成的segment 2中第一个词是“of“时,解码器只需要在预测segment 1时在EOS前再生成一个”lots“来从缺词(遗漏词)错误中恢复(修正)。相反,当生成的segment 2的第一词是”are“时,模型只需要在预测segment 1时少生成一个词(即不生成”are“),从而修正重复翻译词的错误。
本发明的可选方案中,对于任一训练样本,训练样本中还包括包含重复翻译词的样本翻译句子,包含重复翻译词的样本翻译句子是通过以下方式确定得到的:
将样本翻译句子切分成第一数量的子句,其中,第一数量小于样本子句数量;
将第一数量的子句中的至少一个子句对应的样本翻译句子确定为重复翻译词;
将重复翻译词插入到样本翻译句子之中,得到包含重复翻译词的样本翻译句子。
其中,为了得到包含重复翻译词的训练样本,可以将样本翻译句子切分成第一数量的子句,在这第一数量的子句中,选择其中至少一个子句对应的样本翻译句子作为重复翻译词,将该重复翻译词插入到样本翻译句子中,使得样本翻译句子仍包括样本子句数量的子句,进而得到包含重复翻译词的样本翻译句子。
作为一个示例,样本子句数量为K,将样本翻译句子切分为K-1个(第一数量)子句,分别为:S1,S2···,SK-1,从这K-1(第一数量)个子句对应的样本翻译句子中随机选择一个子句,复制该子句对应的样本翻译句子,或者,该子句对应的样本翻译句子中的m个词,m不小于该子句对应的样本翻译句子中所包含的词的数量。然后将该复制后的词添加一个删除标识DEL,得到重复翻译词,表示为:
Figure BDA0002507494070000142
将该重复翻译词插入到Si的右侧,Si为S1,S2···,SK-1中的任一个,最终得到的K个segment,分别为:S1,S2···,Si,
Figure BDA0002507494070000141
Si+1,···,SK-1
具体例子如下:如图3所示的包含重复翻译词的样本翻译句子,不同灰度对应的词对应不同的segment。在该示例中,K=4,m=2(被复制的词的个数为2个),其中,样本翻译句子(Target Sentence)为“there are lots of farmers doing this today”,重复翻译词为“lots of”,包含重复翻译词的样本翻译句子(+Pseudo Redundant Segment)为“thereare lots of farmers lots of DEL doing this today”。
在本发明的可选方案中,一种使模型学会删除重复翻译词的方法是向训练样本中添加重复翻译词。但是,向训练样本添加重复翻译词会让模型误以为需要先生成一个重复翻译词,再进行删除是一个必须的行为,这不是本发明的方法所期望的。所以,在本发明的方案中,按一定概率q随机确定是否向一个训练样本的样本翻译句子中添加重复翻译词。
本发明的可选方案中,对于任一训练样本,训练样本中各子样本句子的样本长度是通过以下方式确定的:
基于离散型机率分布,样本翻译句子的句子长度,样本子句数量和两种切分方式,确定每种切分方式对应的选用概率,其中,两种切分方式包括随机切分方式和均匀等分切分方式;
基于每种切分方式对应的选用概率和样本翻译句子的句子长度,确定各子样本句子的样本长度。
其中,在训练模型的过程中,每个子句对应的样本翻译句子的最大句子长度与翻译速度成正比,训练时应该将每个训练样本的样本翻译句子切分成等长(相同样本长度)的segment来鼓励模型在预测过程中生成等长的segment;另一方面,模型应该在训练阶段接触到与多模有关的错误(重复翻译词和遗漏词),来增强模型从此类错误恢复的能力,即修正翻译结果中的翻译错误,由此,可采用随机的方式确定各子句对应的样本翻译句子的句子长度,即每个子句对应的样本翻译句子的句子长度可以不同。
由此,为了平衡翻译速度和从错误恢复的能力,需要考虑如何切分样本翻译句子,确定各子句对应的样本翻译句子的句子长度,即哪几段对应的样本翻译句子的句子长度为第一长度,哪几段对应的样本翻译句子的句子长度为第二长度。
在本发明的方案中,离散型机率分布可以为伯努利分布,通过伯努利分布来确定两个不同切分方式对应的选用概率。
在本发明的方案中,作为一个示例,在模型训练过程中,通过以下方式确定将训练样本中的样本翻译句子进行均匀等分切分还是随机切分。公式如下:
s~Bernoulli(p)
Figure BDA0002507494070000151
其中,T为样本翻译句子的长度,Bernoulli(p)表示参数为p的伯努利分布,r表示切分的索引集合,即随机切分方式和均匀等分切分方式两种切分方式。其中,
Figure BDA0002507494070000152
RAND(m,n)表示在区间[1,n]内随机采样m个不重复的整数。其中,n为T,m为K-1;s=0时,表示对应的切分方式为均匀等分方式,s=1时,表示对应的切分方式为随机切分,p为选用概率。
当p取较大值时,所训练的模型具有更好的错误恢复能力;而p取较小值时,能鼓励模型生成长度相近的segment,即翻译速度更快。为了平衡两方面,本发明在训练过程中逐渐地将p由1降至0,通过选用概率p确定随机切分方式和均匀等分切分方式各自对应的比重,使得翻译速度和错误恢复能力得到较好的平衡。
通过上述方式动态确定各子句对应的样本长度,而不是基于预先指定的样本长度,可以使得模型的翻译能力更强。
在实际应用中,可以训练得到的选用概率选择以哪种切分方式确定句子长度,作为一个示例,可以以选用概率(1-p)选择均匀等分切分方式,以p的选用概率选择随机切分方式对待翻译句子,按照预配置的子句的子句数量进行切分。
作为一个示例,在确定了上述的选用概率后,即确定了以概率1-p选择均匀等分切分方式,以概率p选择随机切分方式对样本翻译句子进行切分,在该示例中,一个训练样本中的样本翻译句子为y,基于子句数量K将该样本翻译句子y分成多个子句segment,分别为S1,S2···,SK,可基于预先配置的子句的子句数量K和翻译结束标识动态确定各个segment对应的样本长度L,具体如下:
比如,一个子样本句子为Si,该Si中第t个词对应的翻译结果最可能为候选翻译词集合V中的哪个词,可以通过以下公式确定:
Figure BDA0002507494070000161
其中,
Figure BDA0002507494070000162
为Si中第t个词对应的翻译结果最可能的词,候选翻译词集合中包括删除标识和翻译结束标识。
Figure BDA0002507494070000163
有下三种可能:
(1)
Figure BDA0002507494070000164
Si不完整,表示Si中对应的待翻译词还有没被翻译完,该segment生成过程继续,即继续对该Si对应的样本待翻译句子进行翻译;
(2)
Figure BDA0002507494070000165
Si完整,表示Si中对应的待翻译词已经都被翻译完,该segment生成过程停止,即结束对Si对应的样本待翻译句子的翻译;
(3)
Figure BDA0002507494070000166
Si冗余,表示该segment应该被删除,该segment的生成过程应该停止,既然该segment要被删除,则就不需要对该segment对应的样本待翻译句子进行翻译。
当所有segment都停止生成时,整个翻译过程停止。确定各segment对应的样本待翻译句子的句子长度L。
结合图2,以及以下具体示例对本申请的翻译模型的训练过程进行详细描述,具体方案如下:
参见图2所示的翻译模型训练示意图,在该示例中,一个训练样本中的样本翻译句子为y,子句数量为K,基于子句数量K将该样本翻译句子y分成多个子句segment,分别为S1,S2···,SK,为了描述简单,在该示例中,每个子句对应的句子长度相同,均记为L;
基于各训练样本,对初始神经网络模型进行训练,初始神经网络模型可通过以下概率公式表示:
Figure BDA0002507494070000171
在该公式中,x为样本待翻译句子,
Figure BDA0002507494070000172
表示第i个segment的第t个词,
Figure BDA0002507494070000173
表示第i个segment的第t个词之前的翻译结果。
在该示例中,样本待翻译句子为图2中所示的德语“es gibt……Ansatz”,该初始神经网络模型中包括编码器(Encoder)和解码器(Decoder),先将该样本待翻译句子输出编码器,然后将编码器的输出作为解码器的输入,在本示例中,K为4,各子句分别为segment1,segment2,segment3,segment4。在该示例中,segment1对应的句子长度L为2,segment2对应的句子长度L为3,segment3对应的句子长度L为2,segment4对应的句子长度L为3。翻译开始标识为BOS,翻译结束标识为EOS,删除标识为DEL。
在对各子样本句子同时进行翻译时,对于每个子句对应的句子,逐个词进行翻译,翻译时,在候选翻译词集合V中确定每个子句中第一个词的候选翻译词,如果该候选翻译词如果是翻译开始标识,则开始对各子样本句子的第一个词同时进行翻译,segment1中第一个词对应的翻译结果为“there”,segment2中第一个词对应的翻译结果为“lots”,segment3中第一个词对应的翻译结果为“a”,segment4中第一个词对应的翻译结果为“doing”。
在对各子样本句子中的第一个词翻译过后,如图2中所示的各子句中的粗线框所示的内容,各粗线框中所对应的内容即已被翻译。由此,基于各粗线框中所对应的内容,可以在后续翻译过程中,保证各相邻两个子句之间翻译的正确性,不会出现翻译错误。在对各子样本句子中的第一个词翻译过后,继续基于候选翻译词集合对各子句各自对应的第二个词进行翻译,如果该第二个词对应的候选翻译词为翻译结束标识EOS,结束对该段样本句子的翻译。
由图2中所示,各子样本句子中均包括翻译开始标识和翻译结束标识,基于翻译开始标识判断何时开始翻译,基于翻译结束标识判断何时结束翻译。
在翻译过程中,可基于翻译结束标识分别对各子句对应的样本待翻译句子进行翻译,具体如下:
对于一个segment,比如,子样本句子Si,该Si中第t个词对应的翻译结果最可能为候选翻译词集合V中的哪个词,可以通过以下公式确定:
Figure BDA0002507494070000181
其中,
Figure BDA0002507494070000182
为Si中第t个词对应的翻译结果最可能的词,候选翻译词集合中包括删除标识和翻译结束标识。
Figure BDA0002507494070000183
有下三种可能:
(1)
Figure BDA0002507494070000184
Si不完整,表示Si中对应的待翻译词还有没被翻译完,该segment生成过程继续,即继续对该Si对应的样本待翻译句子进行翻译;
(2)
Figure BDA0002507494070000185
Si完整,表示Si中对应的待翻译词已经都被翻译完,该segment生成过程停止,即结束对Si对应的样本待翻译句子的翻译;
(3)
Figure BDA0002507494070000186
Si冗余,表示该segment应该被删除,该segment的生成过程应该停止,既然该segment要被删除,则就不需要对该segment对应的样本待翻译句子进行翻译。
当所有segment都停止生成时,整个翻译过程停止。
整个翻译过程停止后,得到各子句对应的初始翻译结果中如果包括删除标识DEL,则表示该子句对应的初始翻译结果为重复翻译结果,可将该重复翻译结果删除。
删除后,可得到样本待翻译句子对应的翻译预测结果,图2中所示的“Finaltranslation:there are lots of farmers doing this today”。然后基于翻译预测结果和该样本待翻译句子对应的翻译标注结果,确定初始神经网络模型的损失函数是否收敛,当该损失函数收敛时,结束训练,将训练结束时的初始神经网络模型作为翻译模型。
基于与图1中所示的方法相同的原理,本发明实施例还提供了一种翻译装置20,如图4中所示,该翻译装置20可以包括待翻译句子获取模块210,子句确定模块220,翻译模块230和目标翻译句子确定模块240,其中:
待翻译句子获取模块210,用于获取待翻译句子;
子句确定模块220,用于根据预设数量,对待翻译句子进行划分,得到预设数量的子句;
翻译模块230,用于对各子句分别进行翻译,得到各子句对应的翻译结果;
目标翻译句子确定模块240,用于对各子句对应的翻译结果进行融合,得到待翻译句子对应的目标翻译句子。
本发明的方案中,在对待翻译句子进行翻译时,可基于预设数量,对待翻译句子进行划分,得到预设数量的子句,然后各子句分别进行翻译,得到各子句对应的翻译结果;基于本发明的方案,由于各子句包括待翻译句子中的至少两个词,在对各子句进行翻译时,即可以并行对待翻译句子中的至少两个词进行翻译,而不是对待翻译句子一个词一个词的进行翻译,从而在得到翻译句子对应的目标翻译句子的过程中,可以加快翻译速度。
可选的,各子句中至少两个子句对应的句子长度不同,句子长度表征了子句所包含词的数量。
可选的,该装置还包括:
基于预设数量和待翻译句子的句子长度,将各子句中第一设定比例的各子句的句子长度设置为第一长度;将各子句中第二设定比例的各子句的句子长度设置为第二长度;
其中,第一设定比例和第二设定比例之和为1。
可选的,翻译模块230在对各子句分别进行翻译,得到各子句对应的翻译结果时,具体用于:
从候选翻译词集合中得到各子句对应的翻译结果。
可选的,候选翻译词集合中包括翻译结束标识,对于任一子句,该子句对应的待翻译句子的句子长度是通过以下方式确定的:
从候选词翻译集合中确定出对应于该子句对应的每个词对应的候选翻译词;
基于该子句对应的各候选翻译词和翻译结束标识,确定该子句对应的句子长度。
可选的,候选翻译词集合中包括翻译开始标识和翻译结束标识;
翻译模块230在从候选翻译词集合中得到各子句对应的翻译结果时,具体用于:
对于任一子句,从候选翻译词集合中确定该子句对应的每个待翻译词对应的候选翻译词;
若候选翻译词为翻译开始标识,开始对该子句进行翻译;
若候选翻译词不是翻译开始标识,且不是翻译结束标识,继续对该子句进行翻译,直至候选翻译词为翻译结束标识,结束对该子句的翻译,得到该子句对应的翻译结果。
可选的,翻译模块230在对各子句分别进行翻译,得到各子句对应的翻译结果时,具体用于:
对各子句分别进行翻译,得到各子句对应的初步翻译结果;
若各初步翻译结果中任一初步翻译结果存在翻译错误,对存在翻译错误的初步翻译结果进行错误修正;基于修正后的初步翻译结果和未修正的初步翻译结果,得到各子句对应的翻译结果;
若各初步翻译结果中均不存在翻译错误,将各初步翻译结果作为各子句对应的翻译结果。
可选的,翻译错误包括遗漏词或重复翻译词中的至少一项,该装置还包括翻译错误确定模块;
翻译错误确定模块,用于对于任一子句,基于该子句对应的初步翻译结果中的各个词,确定该子句中是否存在翻译错误;
和/或,
翻译错误确定模块,用于对于各子句中的任一相邻的两个子句,基于两个子句中第一个子句对应的初步翻译结果中的最后一个词和两个子句中的第二个子句对应的初步翻译结果中的第一个词,确定两个子句中是否存在翻译错误;
若翻译错误包括遗漏词,子句翻译模块220在对存在翻译错误的初步翻译结果进行错误修正时,具体用于:对遗漏词进行翻译;
若翻译错误包括重复翻译词,子句翻译模块220在对存在翻译错误的初步翻译结果进行错误修正时,具体用于:
从存在翻译错误的初步翻译结果中,删除重复翻译词。
可选的,各子句对应的待翻译句子对应的翻译结果是从候选翻译词集合中确定得到的,候选翻译词集合中还包括删除标识,删除标识用于标识对应子句的翻译结果为重复翻译词;
翻译模块230在从存在翻译错误的初步翻译结果中,删除重复翻译词时,具体用于:
从存在翻译错误的初步翻译结果中,删除删除标识对应的重复翻译词。
可选的,基于预设数量,对待翻译句子进行划分,得到预设数量的子句,以及对各子句分别进行翻译,得到各子句对应的翻译结果是通过翻译模型得到的;
该装置还包括模型训练模块,模型训练模块用于训练翻译模型,其中,翻译模型是通过以下方式训练得到的:
获取各训练样本,训练样本中包括样本待翻译句子和样本待翻译句子对应的样本翻译句子,样本翻译句子中包括按照样本子句数量划分样本翻译句子得到的各子样本句子,每个子样本句子携带有标签,标签表征了子样本句子对应的样本待翻译句子的翻译标注结果;
基于各训练样本,对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为翻译模型;
其中,初始神经网络模型的输出为训练样本的样本待翻译句子对应的各子句的翻译预测结果,损失函数的值表征了样本待翻译句子所对应的翻译标注结果和翻译预测结果之间的差异。
可选的,对于任一训练样本,训练样本中各子样本句子的样本长度是通过以下方式确定的:
基于离散型机率分布,样本翻译句子的句子长度,样本子句数量和两种切分方式,确定每种切分方式对应的选用概率,其中,两种切分方式包括随机切分方式和均匀等分切分方式;
基于每种切分方式对应的选用概率和样本翻译句子的句子长度,确定各子样本句子的样本长度。
可选的,对于任一训练样本,训练样本中还包括包含重复翻译词的样本翻译句子,包含重复翻译词的样本翻译句子是通过以下方式确定得到的:
将样本翻译句子切分成第一数量的子句,其中,第一数量小于样本子句数量;
将第一数量的子句中的至少一个子句对应的样本翻译句子确定为重复翻译词;
将重复翻译词插入到样本翻译句子之中,得到包含重复翻译词的样本翻译句子。
由于本发明实施例所提供的翻译装置为可以执行本发明实施例中的翻译方法的装置,故而基于本发明实施例中所提供的翻译方法,本领域所属技术人员能够了解本发明实施例的翻译装置的具体实施方式以及其各种变化形式,所以在此对于该翻译装置如何实现本发明实施例中的翻译方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的翻译方法所采用的翻译装置,都属于本发明所欲保护的范围。
基于与本发明实施例所提供的翻译方法和翻译装置相同的原理,本发明实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器。其中,存储器中存储有可读指令,可读指令由处理器加载并执行时,可以实现本发明任一实施例中所示的方法。
作为一个示例,图5中示出了本发明实施例的方案所适用的一种电子设备4000的结构示意图,如图5中所示,该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本发明实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本发明方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种翻译方法,其特征在于,包括:
获取待翻译句子;
根据预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句;
对各所述子句分别进行翻译,得到各所述子句对应的翻译结果;
对各所述子句对应的翻译结果进行融合,得到所述待翻译句子对应的目标翻译句子。
2.根据权利要求1所述的方法,其特征在于,各所述子句中至少两个子句对应的句子长度不同,所述句子长度表征了所述子句所包含词的数量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述预设数量和所述待翻译句子的句子长度,将各所述子句中第一设定比例的各子句的句子长度设置为第一长度;将各所述子句中第二设定比例的各子句的句子长度设置为第二长度;
其中,所述第一设定比例和所述第二设定比例之和为1。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对各所述子句分别进行翻译,得到各所述子句对应的翻译结果,包括:
从候选翻译词集合中得到各所述子句对应的翻译结果。
5.根据权利要求4所述的方法,其特征在于,所述候选翻译词集合中包括翻译结束标识,对于任一子句,该子句对应的所述待翻译句子的句子长度是通过以下方式确定的:
从所述候选词翻译集合中确定出对应于该子句对应的每个词对应的候选翻译词;
基于该子句对应的各所述候选翻译词和所述翻译结束标识,确定该子句对应的句子长度。
6.根据权利要求4所述的方法,其特征在于,所述候选翻译词集合中包括翻译开始标识和翻译结束标识;
所述从候选翻译词集合中得到各所述子句对应的翻译结果,包括:
对于任一子句,从所述候选翻译词集合中确定该子句对应的每个待翻译词对应的候选翻译词;
若所述候选翻译词为所述翻译开始标识,开始对该子句进行翻译;
若所述候选翻译词不是所述翻译开始标识,且不是所述翻译结束标识,继续对该子句进行翻译,直至所述候选翻译词为所述翻译结束标识,结束对该子句的翻译,得到该子句对应的翻译结果。
7.根据权利要求1至3中任一项所述的方法,其特征在于,所述对各所述子句分别进行翻译,得到各所述子句对应的翻译结果,包括:
对各所述子句分别进行翻译,得到各所述子句对应的初步翻译结果;
若各所述初步翻译结果中任一初步翻译结果存在翻译错误,对存在所述翻译错误的所述初步翻译结果进行错误修正;基于修正后的所述初步翻译结果和未修正的初步翻译结果,得到各所述子句对应的翻译结果;
若各所述初步翻译结果中均不存在所述翻译错误,将各所述初步翻译结果作为各所述子句对应的翻译结果。
8.根据权利要求7所述的方法,其特征在于,所述翻译错误包括遗漏词或重复翻译词中的至少一项,所述方法还包括:
对于任一子句,基于该子句对应的初步翻译结果中的各个词,确定该子句中是否存在翻译错误;
和/或,
对于各所述子句中的任一相邻的两个子句,基于所述两个子句中第一个子句对应的初步翻译结果中的最后一个词和所述两个子句中的第二个子句对应的初步翻译结果中的第一个词,确定所述两个子句中是否存在翻译错误;
若所述翻译错误包括遗漏词,所述对存在所述翻译错误的所述初步翻译结果进行错误修正,包括:
对所述遗漏词进行翻译;
若所述翻译错误包括所述重复翻译词,所述对存在所述翻译错误的所述初步翻译结果进行错误修正,包括:
从所述存在所述翻译错误的所述初步翻译结果中,删除所述重复翻译词。
9.根据权利要求8所述的方法,其特征在于,所述各子句对应的翻译结果是从候选翻译词集合中确定得到的,所述候选翻译词集合中还包括删除标识,所述删除标识用于标识对应子句的翻译结果为重复翻译词;
所述从所述存在所述翻译错误的所述初步翻译结果中,删除所述重复翻译词,包括:
从所述存在所述翻译错误的所述初步翻译结果中,删除所述删除标识对应的重复翻译词。
10.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句,以及对各所述子句分别进行翻译,得到各所述子句对应的翻译结果是通过翻译模型得到的;
其中,所述翻译模型是通过以下方式训练得到的:
获取各训练样本,所述训练样本中包括样本待翻译句子和所述样本待翻译句子对应的样本翻译句子,所述样本翻译句子中包括按照样本子句数量划分所述样本翻译句子得到的各子样本句子,每个所述子样本句子携带有标签,所述标签表征了所述子样本句子对应的样本待翻译句子的翻译标注结果;
基于各所述训练样本,对初始神经网络模型进行训练,直至所述初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为所述翻译模型;
其中,所述初始神经网络模型的输出为所述训练样本的样本待翻译句子对应的各子句的翻译预测结果,所述损失函数的值表征了所述样本待翻译句子所对应的翻译标注结果和翻译预测结果之间的差异。
11.根据权利要求10所述的方法,其特征在于,对于任一训练样本,所述训练样本中各子样本句子的样本长度是通过以下方式确定的:
基于离散型机率分布,所述样本翻译句子的句子长度,所述样本子句数量和两种切分方式,确定每种切分方式对应的选用概率,其中,所述两种切分方式包括随机切分方式和均匀等分切分方式;
基于每种切分方式对应的选用概率和所述样本翻译句子的句子长度,确定各所述子样本句子的样本长度。
12.根据权利要求10所述的方法,其特征在于,对于任一训练样本,所述训练样本中还包括包含重复翻译词的样本翻译句子,所述包含重复翻译词的样本翻译句子是通过以下方式确定得到的:
将所述样本翻译句子切分成第一数量的子句,其中,所述第一数量小于所述样本子句数量;
将所述第一数量的子句中的至少一个子句对应的所述样本翻译句子确定为所述重复翻译词;
将所述重复翻译词插入到所述样本翻译句子之中,得到所述包含重复翻译词的样本翻译句子。
13.一种翻译装置,其特征在于,包括:
待翻译句子获取模块,用于获取待翻译句子;
子句确定模块,用于根据预设数量,对所述待翻译句子进行划分,得到所述预设数量的子句;
翻译模块,用于对各所述子句分别进行翻译,得到各所述子句对应的翻译结果;
目标翻译句子确定模块,用于对各所述子句对应的翻译结果进行融合,得到所述待翻译句子对应的目标翻译句子。
14.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器中存储有计算机程序;
所述处理器,用于执行所述计算机程序以实现权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。
CN202010450957.1A 2020-05-25 2020-05-25 翻译方法、装置、电子设备及计算机可读存储介质 Active CN111611811B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010450957.1A CN111611811B (zh) 2020-05-25 2020-05-25 翻译方法、装置、电子设备及计算机可读存储介质
PCT/CN2021/091997 WO2021238604A1 (zh) 2020-05-25 2021-05-07 翻译方法、装置、电子设备及计算机可读存储介质
JP2022539180A JP7457125B2 (ja) 2020-05-25 2021-05-07 翻訳方法、装置、電子機器及びコンピュータプログラム
US17/710,933 US20220222447A1 (en) 2020-05-25 2022-03-31 Translation method and apparatus, electronic device, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010450957.1A CN111611811B (zh) 2020-05-25 2020-05-25 翻译方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111611811A true CN111611811A (zh) 2020-09-01
CN111611811B CN111611811B (zh) 2023-01-13

Family

ID=72203018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010450957.1A Active CN111611811B (zh) 2020-05-25 2020-05-25 翻译方法、装置、电子设备及计算机可读存储介质

Country Status (4)

Country Link
US (1) US20220222447A1 (zh)
JP (1) JP7457125B2 (zh)
CN (1) CN111611811B (zh)
WO (1) WO2021238604A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052693A (zh) * 2020-09-15 2020-12-08 科大讯飞股份有限公司 机器翻译效果评测方法、装置、设备及存储介质
CN112735417A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 语音翻译方法、电子设备、计算机可读存储介质
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
WO2021238604A1 (zh) * 2020-05-25 2021-12-02 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN114330311A (zh) * 2021-12-30 2022-04-12 安徽听见科技有限公司 一种翻译方法、装置、电子设备和计算机可读存储介质
CN116882423A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704507B1 (en) * 2022-10-31 2023-07-18 Kudo, Inc. Systems and methods for automatic speech translation

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203688A1 (en) * 2006-02-27 2007-08-30 Fujitsu Limited Apparatus and method for word translation information output processing
CN101458681A (zh) * 2007-12-10 2009-06-17 株式会社东芝 语音翻译方法和语音翻译装置
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
CN105912533A (zh) * 2016-04-12 2016-08-31 苏州大学 面向神经机器翻译的长句切分方法及装置
CN108153743A (zh) * 2018-01-23 2018-06-12 成都海之译翻译有限公司 基于相似度的智能离线翻译机
CN110298045A (zh) * 2019-05-31 2019-10-01 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN110334360A (zh) * 2019-07-08 2019-10-15 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
JP4050950B2 (ja) * 2002-07-26 2008-02-20 富士通株式会社 対訳候補表示装置および対訳候補表示プログラム
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
JP6325789B2 (ja) 2013-09-27 2018-05-16 日本放送協会 翻訳装置及び翻訳プログラム
CN105320650B (zh) * 2014-07-31 2019-03-26 崔晓光 一种基于语料匹配和语法分析的机器翻译方法及其系统
CN106383818A (zh) 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN108874791B (zh) * 2018-07-06 2022-05-24 北京联合大学 一种基于最小语义块的语义分析与汉英调序方法及系统
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
US10872208B2 (en) * 2018-12-20 2020-12-22 Rakuten, Inc. Sentence conversion system, sentence conversion method, and information storage medium
CN111611811B (zh) * 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203688A1 (en) * 2006-02-27 2007-08-30 Fujitsu Limited Apparatus and method for word translation information output processing
CN101458681A (zh) * 2007-12-10 2009-06-17 株式会社东芝 语音翻译方法和语音翻译装置
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
CN105912533A (zh) * 2016-04-12 2016-08-31 苏州大学 面向神经机器翻译的长句切分方法及装置
CN108153743A (zh) * 2018-01-23 2018-06-12 成都海之译翻译有限公司 基于相似度的智能离线翻译机
CN110298045A (zh) * 2019-05-31 2019-10-01 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN110334360A (zh) * 2019-07-08 2019-10-15 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021238604A1 (zh) * 2020-05-25 2021-12-02 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN112052693A (zh) * 2020-09-15 2020-12-08 科大讯飞股份有限公司 机器翻译效果评测方法、装置、设备及存储介质
CN112735417A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 语音翻译方法、电子设备、计算机可读存储介质
CN112735417B (zh) * 2020-12-29 2024-04-26 中国科学技术大学 语音翻译方法、电子设备、计算机可读存储介质
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
CN114330311A (zh) * 2021-12-30 2022-04-12 安徽听见科技有限公司 一种翻译方法、装置、电子设备和计算机可读存储介质
CN116882423A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质
CN116882423B (zh) * 2023-09-06 2023-11-17 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20220222447A1 (en) 2022-07-14
CN111611811B (zh) 2023-01-13
WO2021238604A1 (zh) 2021-12-02
JP7457125B2 (ja) 2024-03-27
JP2023509405A (ja) 2023-03-08

Similar Documents

Publication Publication Date Title
CN111611811B (zh) 翻译方法、装置、电子设备及计算机可读存储介质
CN112242187A (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN108920461B (zh) 一种多类型且含复杂关系的实体抽取方法及装置
CN109753661B (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN110795938A (zh) 文本序列分词方法、装置及存储介质
US20180190314A1 (en) Method and device for processing speech based on artificial intelligence
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN110807335A (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN113487028A (zh) 知识蒸馏方法、装置、终端设备及介质
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN116303881A (zh) 一种基于自监督表示学习的企业单位地址匹配方法及装置
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN116311322A (zh) 一种文档版面要素检测方法、装置、存储介质及设备
CN115828109A (zh) 基于多模态融合与表示对齐的跨社交网络虚拟身份关联方法及装置
CN114626376A (zh) 文本分类模型的训练方法、装置及文本分类方法
CN117648950A (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
CN111797621B (zh) 一种术语替换方法及系统
CN111859963B (zh) 命名实体识别方法、设备、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028113

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant