CN112766005A - 文本翻译方法、装置、设备及介质 - Google Patents

文本翻译方法、装置、设备及介质 Download PDF

Info

Publication number
CN112766005A
CN112766005A CN202110112331.4A CN202110112331A CN112766005A CN 112766005 A CN112766005 A CN 112766005A CN 202110112331 A CN202110112331 A CN 202110112331A CN 112766005 A CN112766005 A CN 112766005A
Authority
CN
China
Prior art keywords
text information
translated
target
text
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110112331.4A
Other languages
English (en)
Other versions
CN112766005B (zh
Inventor
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110112331.4A priority Critical patent/CN112766005B/zh
Publication of CN112766005A publication Critical patent/CN112766005A/zh
Priority to PCT/CN2022/073454 priority patent/WO2022161307A1/zh
Application granted granted Critical
Publication of CN112766005B publication Critical patent/CN112766005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本翻译方法、装置、设备及介质,属于电子设备技术领域。文本翻译方法包括:获取待翻译文本信息;根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。本申请的文本翻译方法、装置、设备及介质,能够提高文本信息翻译的准确性。

Description

文本翻译方法、装置、设备及介质
技术领域
本申请属于电子设备技术领域,具体涉及一种文本翻译方法、装置、设备及介质。
背景技术
随着神经机器翻译(Neural Machine Translation,NMT)技术的不断完善和日益成熟,跨语言交流的门槛也随之降低,越来越多的人群在工作群聊、线上会议、直播等场景,使用母语并结合机器翻译与跨国友人进行实时的沟通交流。
相关技术中是将一句话中的每个词都进行翻译,然后显示该句话对应的翻译结果。
但是,在实现本申请过程中,发明人发现相关技术中至少存在如下问题:在某些情况下,对整句话进行整体翻译,则会造成该句话对应的翻译结果不准确,进而在显示该句话对应的翻译结果时,会造成用户误解,影响用户体验。
发明内容
本申请实施例的目的是提供一种文本翻译方法、装置、设备及介质,能够解决句子翻译不准确的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种文本翻译方法,包括:
获取待翻译文本信息;
根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;
对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,
对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。
第二方面,本申请实施例提供了一种文本翻译装置,包括:
第一获取模块,用于获取待翻译文本信息;
第一确定模块,用于根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;
翻译模块,用于对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的文本翻译方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的文本翻译方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的文本翻译方法的步骤。
在本申请实施例中,在获取到待翻译文本信息后,根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息,进而对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。也就是说,目标翻译文本信息包括待翻译文本信息中的第一文本信息以及待翻译文本信息中除第一文本信息之外的第二文本信息对应的翻译文本信息。在待翻译文本信息中的第一文本信息不需要翻译的情况下,目标翻译文本信息呈现了没有对待翻译文本信息中的第一文本信息进行翻译的效果,因此,能够提高文本信息翻译的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本翻译方法的流程示意图;
图2是本申请实施例提供的会话界面的示意图;
图3是本申请实施例提供的显示目标翻译文本信息的示意图;
图4是本申请实施例提供的文本翻译装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图;
图6是实现本申请实施例的电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的文本翻译方法、装置、设备及介质进行详细地说明。
图1是本申请实施例提供的文本翻译方法的流程示意图。文本翻译方法可以包括:
S101:获取待翻译文本信息;
S102:根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;
S103:对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;
S104:对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。
上述各步骤的具体实现方式将在下文中进行详细描述。
在本申请实施例中,在获取到待翻译文本信息后,根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息,进而对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。也就是说,目标翻译文本信息包括待翻译文本信息中的第一文本信息以及待翻译文本信息中除第一文本信息之外的第二文本信息对应的翻译文本信息。在待翻译文本信息中的第一文本信息不需要翻译的情况下,目标翻译文本信息呈现了没有对待翻译文本信息中的第一文本信息进行翻译的效果,因此,能够提高文本信息翻译的准确性。
在本申请实施例的一些可能实现中,S102中的会话可以为多人聊天的群聊会话。如图2所示,图2是本申请实施例提供的会话界面的示意图。其中,图2所示的会话的名称为“关于mask的讨论群”,图2所示的会话中包括:用户H输入的文本信息“whole word mask isnot support in chinese”、用户A输入的文本信息“那未来能够支持中文全字mask吗”以及用户G输入的文本信息“是的,中文的mask支持还是很有必要的”。
示例性地,假设待翻译文本信息为图2中的“whole word mask is not supportin chinese”。根据图2所示的会话“关于mask的讨论群”对应的预设数据库,确定出待翻译文本信息“whole word mask is not support in chinese”中的第一文本信息为“mask”。
在本申请实施例的一些可能实现中,S102中的会话对应的预设数据库可以为包括多个语种的文本信息的一个数据库。可以理解的是,此时,多个语种的文本信息存储于一个数据库中。
在本申请实施例的一些可能实现中,S102中的会话对应的预设数据库可以包括多个数据库,其中,多个数据库中的每一个数据库对应一种语种,多个数据库中的每一个数据库中存储该数据库对应的语种的文本信息。
在S103中,翻译“whole word mask is not support in chinese”,得到“wholeword mask is not support in chinese”对应的第一翻译文本信息“不支持中文全字掩码”。其中,“不支持中文全字掩码”中与“mask”对应的第二翻译文本信息为“掩码”。将“不支持中文全字掩码”中的“掩码”替换为“mask”,得到目标翻译文本信息“不支持中文全字mask”。
在S104中,“whole word mask is not support in chinese”中除“mask”之外的第二文本信息包括“whole”、“word”、“is”、“not”、“support”、“in”和“chinese”。对第二文本信息进行翻译,得到第二文本信息包括的“whole”、“word”、“is”、“not”、“support”、“in”和“chinese”分别对应的翻译文本信息:“全部的;完整的”、“字”、“是”、“不”、“支持”、“在”和“汉语;中文”。将“全部的;完整的”、“字”、“是”、“不”、“支持”、“在”和“汉语;中文”与“mask”进行组合,得到目标翻译文本信息“不支持中文全字mask”。
显示目标翻译文本信息如图3所示,图3是本申请实施例提供的显示翻译文本信息的示意图。
在本申请实施例的一些可能实现中,S102中的预设数据库中可以包括至少一个文本信息。S102可以包括:将待翻译文本信息中与预设数据库中的文本信息相匹配的文本信息,确定为第一文本信息。
示例性地,假设预设数据库中包括的文本信息有“mask”、“bert”和“trans”。
对于上述待翻译文本信息“whole word mask is not support in chinese”,“whole word mask is not support in chinese”中的“mask”与预设数据库中的文本信息相匹配,则将“mask”确定为上述第一文本信息。
本申请实施例的一些可能实现中,S102中的预设数据库中可以包括至少一个文本信息和每个文本信息对应的权重。S102可以包括:将待翻译文本信息中与预设数据库中的文本信息相匹配,且权重大于预设阈值的文本信息,确定为第一文本信息。
示例性地,假设预设数据库包括的文本信息有“mask”、“bert”和“trans”,其中,“mask”、“bert”和“trans”对应的权重分别为95、10和2,预设阈值为30。对于上述待翻译文本信息“whole word mask is not support in chinese”,则将“whole word mask is notsupport in chinese”中的“mask”确定为上述第一文本信息。
在本申请实施例的一些可能实现中,预设数据库包括的每个文本信息对应的权重可以为该文本信息在该预设数据库对应的会话中出现的次数。
在本申请实施例的一些可能实现中,在S102之前,本申请实施例提供的文本翻译方法还可以包括:获取待翻译文本信息所属的会话中除待翻译文本信息以外的目标文本信息;确定目标文本信息所属的第二语种;识别目标文本信息中与第二语种不对应的第三文本信息;根据第三文本信息,构建预设数据库。
示例性地,以图2所示的会话中的文本信息“那未来能够支持中文全字mask吗”为例。“那未来能够支持中文全字mask吗”包括汉字和英语单词,且汉字的数量多于英语单词的数量,则确定“那未来能够支持中文全字mask吗”所属的语种为中文,识别出“那未来能够支持中文全字mask吗”与中文不对应的第三文本信息是“mask”。则根据“mask”,构建图2所示的会话对应的预设数据库。
具体地,当图2所示的会话不存在预设数据库时,先创建图2所示的会话对应的预设数据库,然后,将“mask”添加在图2所示的会话对应的预设数据库中,并将“mask”对应的权重赋值为1。
当图2所示的会话存在其对应的预设数据库时,将该预设数据库中“mask”对应的权重加1。
示例性地,图2所示的会话对应的预设数据库如表1所示。
表1
文本信息 权重
mask 34
bert 50
在本申请实施例的一些可能实现中,在根据第三文本信息,构建预设数据库之后,本申请实施例提供的文本翻译方法还可以包括:获取目标数据库,其中,目标数据库为与待翻译文本信息所属的会话所属领域的相似度大于预设阈值的目标会话对应的数据库;根据目标数据库,更新预设数据库。
示例性地,获取到的与图2所示的会话所属领域的相似度大于预设阈值的目标会话对应的目标数据库如表2所示。
表2
文本信息 权重
mask 60
trans 40
根据上述表2对上述表1进行更新,得到更新后的图2所示的会话对应的预设数据库,如表3所示。
表3
文本信息 权重
mask 94
bert 50
trans 40
在本申请实施例的一些可能实现中,在获取目标数据库之前,本申请实施例提供的文本翻译方法还可以包括:根据待翻译文本信息所属的会话包括的第一词汇以及第一词汇在待翻译文本信息所属的会话中的出现次数,生成待翻译文本信息所属的会话对应的第一词汇分布表;根据目标会话包括的第二词汇以及第二词汇在目标会话中的出现次数,生成目标会话对应的第二词汇分布表;根据第一词汇分布表与第二词汇分布表,确定待翻译文本信息所属的会话与目标会话的领域的相似度。
在本申请实施例的一些可能实现中,对于每个会话,可以统计其历史所有对话包括的每个词汇以及每个词汇在该会话中的出现次数,生成词汇分布表。
在本申请实施例中,词汇分布可以是会话的向量特征化,向量中的各个维度为会话中各个不同词汇的出现次数。一个会话的对话出现的词汇能够反映该会话的领域。例如,某会话包括的医疗领域相关词汇较多,该会话是医疗领域的可能性越大。因此,词汇分布可以用于表征群聊的领域特征。
示例性地,第一词汇分布表如表4所示,第二词汇表如表5所示。
表4
第一词汇 出现次数
whole 2
支持 30
翻译 5
我们 3
word 2
mask 100
…… ……
表5
第二词汇 出现次数
5
支持 56
support 50
trans 33
word 25
mask 3
…… ……
在本申请实施例的一些可能实现中,在根据第一词汇分布表与第二词汇分布表,确定待翻译文本信息所属的会话与目标会话的领域的相似度时,可以计算第一词汇分布表与第二词汇分布表的余弦相似度或皮尔森相关系数等。
在本申请实施例的一些可能实现中,在生成每个会话对应的词汇分布表时,可以先剔除该会话的历史所有对话中的数字、介词、副词、连词和代词等。基于剔除上述数字、介词、副词、连词和代词后的该会话包括的每个词汇的出现次数,生成该会话对应的词汇分布表。
在本申请实施例的一些可能实现中,对于每个会话,可以统计该会话历史所有对话中每个词汇的出现次数,形成该会话对应的词汇分布表。然后,将该词汇分布表中的数字、介词、副词、连词和代词等删除。
在本申请实施例的一些可能实现中,在获取目标数据库之前,本申请实施例提供的文本翻译方法还可以包括:将与待翻译文本信息所属的会话具有相同领域标识信息的会话,确定为与待翻译文本信息所属的会话所属领域的相似度大于预设阈值的目标会话。其中,领域标识信息用于标识会话所属的领域。
在本申请实施例的一些可能实现中,用户可以为会话设置领域标识信息。
具体地,对于某个会话,用户在创建该会话时,可以从多个领域标识信息中选择一个领域标识信息,作为该会话的领域标识信息。
在本申请实施例的一些可能实现中,在S102之前,本申请实施例提供的文本翻译方法还可以包括:接收对于待翻译文本信息的第一输入。相应地,S102可以包括:响应于第一输入,根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息。
示例性,用户点击待翻译文本信息对应的翻译按钮,则表示用户执行第一输入。
在本申请实施例的一些可能实现中,在对文本信息进行翻译之前,本申请实施例提供的文本翻译方法还可以包括:确定待翻译文本信息对应的第三语种;根据待翻译文本信息所属的会话包括的文本信息,确定待翻译文本信息所属的会话对应的第四语种。进而利用由第三语种到第四语种的翻译模型,翻译待翻译文本信息或第二文本信息。
示例性地,确定出待翻译文本信息“whole word mask is not support inchinese”对应的语种为英语。图2所示的会话对应的语种为汉语。则利用英语到汉语的“英译汉”翻译模型,翻译“whole word mask is not support in chinese”或翻译“wholeword mask is not support in chinese”中除“mask”之外的文本信息。
下面结合具体的实例对本申请实施例提供的文本翻译方法进行说明。
对于某一会话(比如会话A),当该会话A中有新对话语句时,对该语句的语种进行识别。假设该新对话语句为“那未来能够支持中文全字mask吗”,确定该语句的语种为汉语,并识别出该语句中与汉语不对应的词为“mask”,根据“mask”,更新该会话A对应的预设数据库。假设更新后的该会话A对应的预设数据库如表6所示。
表6
文本信息 权重
mask 34
bert 50
对于该会话A,统计该会话A包括的第一词汇以及第一词汇在该会话A中的出现次数,生成该会话A的对应的第一词汇分布表。
对于其他会话中的任一会话(比如会话B),统计该会话B包括的第二词汇以及第二词汇在该会话B中的出现次数,生成该会话B的对应的第二词汇分布表。
根据第一词汇分布表和第二词汇分布表,计算会话A与其他会话的所属领域的相似度,将与会话A的所属领域的相似度大于预设阈值的会话,作为目标会话。
示例性地,与会话A的所属领域的相似度大于预设阈值的会话为会话C。会话C对应的预设数据库如表7所示。
表7
文本信息 权重
mask 60
trans 40
基于上述表7对上述表6进行更新,得到更新后的会话A的预设数据库如表8所示。
表8
文本信息 权重
mask 94
bert 50
trans 40
当用户选择对会话A中的“whole word mask is not support in chinese”进行翻译时,首先,根据表8确定出“whole word mask is not support in chinese”中的第一文本信息为“mask”,然后,确定出“whole word mask is not support in chinese”对应的语种为英语。该会话A对应的语种为汉语。
利用英语到汉语的“英译汉”翻译模型,翻译“whole word mask is not supportin chinese”,得到“whole word mask is not support in chinese”对应的翻译文本信息“不支持中文全字掩码”。
将翻译文本信息“不支持中文全字掩码”中与“mask”对应的文本信息“掩码”替换为“mask”,得到目标翻译文本信息“不支持中文全字mask”。
需要说明的是,本申请实施例提供的文本翻译方法,执行主体可以为文本翻译装置,或者该文本翻译装置中的用于执行文本翻译方法的控制模块。本申请实施例中以文本翻译装置执行文本翻译方法为例,说明本申请实施例提供的文本翻译装置。
图4是本申请实施例提供的文本翻译装置的结构示意图。文本翻译装置400可以包括:
第一获取模块401,用于获取待翻译文本信息;
第一确定模块402,用于根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;
翻译模块403,用于对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。
在本申请实施例中,在获取到待翻译文本信息后,根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息,进而对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。也就是说,目标翻译文本信息包括待翻译文本信息中的第一文本信息以及待翻译文本信息中除第一文本信息之外的第二文本信息对应的翻译文本信息。在待翻译文本信息中的第一文本信息不需要翻译的情况下,目标翻译文本信息呈现了没有对待翻译文本信息中的第一文本信息进行翻译的效果,因此,能够提高文本信息翻译的准确性。
在本申请实施例的一些可能实现中,预设数据库包括至少一个文本信息和每个文本信息对应的权重;第一确定模块402具体可以用于:
将待翻译文本信息中与预设数据库中的文本信息相匹配,且权重大于预设阈值的文本信息,确定为第一文本信息。
在本申请实施例的一些可能实现中,本申请实施例提供的文本翻译装置400还可以包括:
第二获取模块,用于获取待翻译文本信息所属的会话中除待翻译文本信息以外的目标文本信息;
第二确定模块,用于确定目标文本信息所属的第二语种;
识别模块,用于识别目标文本信息中与第二语种不对应的第三文本信息;
构建模块,用于根据第三文本信息,构建预设数据库。
在本申请实施例的一些可能实现中,本申请实施例提供的文本翻译装置400还可以包括:
第三获取模块,用于获取目标数据库,其中,目标数据库为与待翻译文本信息所属的会话所属领域的相似度大于预设阈值的目标会话对应的数据库;
更新模块,用于根据目标数据库,更新预设数据库。
在本申请实施例的一些可能实现中,本申请实施例提供的文本翻译装置400还可以包括:
第一生成模块,用于根据待翻译文本信息所属的会话包括的第一词汇以及第一词汇在待翻译文本信息所属的会话中的出现次数,生成待翻译文本信息所属的会话对应的第一词汇分布表;
第二生成模块,用于根据目标会话包括的第二词汇以及第二词汇在目标会话中的出现次数,生成目标会话对应的第二词汇分布表;
第三确定模块,用于根据第一词汇分布表与第二词汇分布表,确定待翻译文本信息所属的会话与目标会话的领域的相似度。
本申请实施例中的文本翻译装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性地,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的文本翻译装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的文本翻译装置能够实现图1至图3的文本翻译方法实施例中的各个过程,为避免重复,这里不再赘述。
可选的,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501,存储器502,存储在存储器502上并可在处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述文本翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图6是实现本申请实施例的电子设备的硬件结构示意图。该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。
本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器610,用于获取待翻译文本信息;根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息;对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。
在本申请实施例中,在获取到待翻译文本信息后,根据待翻译文本信息所属的会话对应的预设数据库,确定待翻译文本信息中的第一文本信息,进而对待翻译文本信息进行翻译,得到待翻译文本信息对应的第一翻译文本信息,将第一翻译文本信息中与第一文本信息对应的第二翻译文本信息替换为第一文本信息,得到目标翻译文本信息;或,对待翻译文本信息中除第一文本信息之外的第二文本信息进行翻译,得到第二文本信息对应的第三翻译文本信息,组合第三翻译文本信息和第一文本信息,得到目标翻译文本信息。也就是说,目标翻译文本信息包括待翻译文本信息中的第一文本信息以及待翻译文本信息中除第一文本信息之外的第二文本信息对应的翻译文本信息。在待翻译文本信息中的第一文本信息不需要翻译的情况下,目标翻译文本信息呈现了没有对待翻译文本信息中的第一文本信息进行翻译的效果,因此,能够提高文本信息翻译的准确性。
在本申请实施例的一些可能实现中,预设数据库包括至少一个文本信息和每个文本信息对应的权重;处理器610具体可以用于:
将待翻译文本信息中与预设数据库中的文本信息相匹配,且权重大于预设阈值的文本信息,确定为第一文本信息。
在本申请实施例的一些可能实现中,处理器610还可以用于:
获取待翻译文本信息所属的会话中除待翻译文本信息以外的目标文本信息;
确定目标文本信息所属的第二语种;
识别目标文本信息中与第二语种不对应的第三文本信息;
根据第三文本信息,构建预设数据库。
在本申请实施例的一些可能实现中,处理器610还可以用于:
获取目标数据库,其中,目标数据库为与待翻译文本信息所属的会话所属领域的相似度大于预设阈值的目标会话对应的数据库;
根据目标数据库,更新预设数据库。
在本申请实施例的一些可能实现中,在本申请实施例的一些可能实现中,处理器610还可以用于:
根据待翻译文本信息所属的会话包括的第一词汇以及第一词汇在待翻译文本信息所属的会话中的出现次数,生成待翻译文本信息所属的会话对应的第一词汇分布表;
根据目标会话包括的第二词汇以及第二词汇在目标会话中的出现次数,生成目标会话对应的第二词汇分布表;
根据第一词汇分布表与第二词汇分布表,确定待翻译文本信息所属的会话与目标会话的领域的相似度。
应理解的是,本申请实施例中,输入单元604可以包括图形处理器(GraphicsProcessing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器609可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。计算机可读存储介质的示例包括非暂态机器可读介质,如电子电路、半导体存储器设备、只读存储器(Read-OnlyMemory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述文本翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种文本翻译方法,其特征在于,所述方法包括:
获取待翻译文本信息;
根据所述待翻译文本信息所属的会话对应的预设数据库,确定所述待翻译文本信息中的第一文本信息;
对所述待翻译文本信息进行翻译,得到所述待翻译文本信息对应的第一翻译文本信息,将所述第一翻译文本信息中与所述第一文本信息对应的第二翻译文本信息替换为所述第一文本信息,得到目标翻译文本信息;或,
对所述待翻译文本信息中除所述第一文本信息之外的第二文本信息进行翻译,得到所述第二文本信息对应的第三翻译文本信息,组合所述第三翻译文本信息和所述第一文本信息,得到所述目标翻译文本信息。
2.根据权利要求1所述的方法,其特征在于,所述预设数据库包括至少一个文本信息和每个文本信息对应的权重;
所述根据所述待翻译文本信息所属的会话对应的预设数据库,确定所述待翻译文本信息中的第一文本信息,包括:
将所述待翻译文本信息中与所述预设数据库中的文本信息相匹配,且所述权重大于预设阈值的文本信息,确定为所述第一文本信息。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述待翻译文本信息所属的会话对应的预设数据库,确定所述待翻译文本信息中的第一文本信息之前,所述方法还包括:
获取所述会话中除所述待翻译文本信息以外的目标文本信息;
确定所述目标文本信息所属的第二语种;
识别所述目标文本信息中与所述第二语种不对应的第三文本信息;
根据所述第三文本信息,构建所述预设数据库。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述第三文本信息,构建所述预设数据库之后,所述方法还包括:
获取目标数据库,其中,所述目标数据库为与所述会话所属领域的相似度大于预设阈值的目标会话对应的数据库;
根据所述目标数据库,更新所述预设数据库。
5.根据权利要求4所述的方法,其特征在于,在所述获取目标数据库之前,所述方法还包括:
根据所述会话包括的第一词汇以及所述第一词汇在所述会话中的出现次数,生成所述会话对应的第一词汇分布表;
根据所述目标会话包括的第二词汇以及所述第二词汇在所述目标会话中的出现次数,生成所述目标会话对应的第二词汇分布表;
根据所述第一词汇分布表与所述第二词汇分布表,确定所述会话与所述目标会话的领域的相似度。
6.一种文本翻译装置,其特征在于,所述装置包括:
第一获取模块,用于获取待翻译文本信息;
第一确定模块,用于根据所述待翻译文本信息所属的会话对应的预设数据库,确定所述待翻译文本信息中的第一文本信息;
翻译模块,用于对所述待翻译文本信息进行翻译,得到所述待翻译文本信息对应的第一翻译文本信息,将所述第一翻译文本信息中与所述第一文本信息对应的第二翻译文本信息替换为所述第一文本信息,得到目标翻译文本信息;或,对所述待翻译文本信息中除所述第一文本信息之外的第二文本信息进行翻译,得到所述第二文本信息对应的第三翻译文本信息,组合所述第三翻译文本信息和所述第一文本信息,得到所述目标翻译文本信息。
7.根据权利要求6所述的装置,其特征在于,所述预设数据库包括至少一个文本信息和每个文本信息对应的权重;
所述第一确定模块,具体用于:
将所述待翻译文本信息中与所述预设数据库中的文本信息相匹配,且所述权重大于预设阈值的文本信息,确定为所述第一文本信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述会话中除所述待翻译文本信息以外的目标文本信息;
第二确定模块,用于确定所述目标文本信息所属的第二语种;
识别模块,用于识别所述目标文本信息中与所述第二语种不对应的第三文本信息;
构建模块,用于根据所述第三文本信息,构建所述预设数据库。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取目标数据库,其中,所述目标数据库为与所述会话所属领域的相似度大于预设阈值的目标会话对应的数据库;
更新模块,用于根据所述目标数据库,更新所述预设数据库。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一生成模块,用于根据所述会话包括的第一词汇以及所述第一词汇在所述会话中的出现次数,生成所述会话对应的第一词汇分布表;
第二生成模块,用于根据所述目标会话包括的第二词汇以及所述第二词汇在所述目标会话中的出现次数,生成所述目标会话对应的第二词汇分布表;
第三确定模块,用于根据所述第一词汇分布表与所述第二词汇分布表,确定所述会话与所述目标会话的领域的相似度。
11.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的文本翻译方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5任一项所述的文本翻译方法的步骤。
CN202110112331.4A 2021-01-27 2021-01-27 文本翻译方法、装置、设备及介质 Active CN112766005B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110112331.4A CN112766005B (zh) 2021-01-27 2021-01-27 文本翻译方法、装置、设备及介质
PCT/CN2022/073454 WO2022161307A1 (zh) 2021-01-27 2022-01-24 文本翻译方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110112331.4A CN112766005B (zh) 2021-01-27 2021-01-27 文本翻译方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112766005A true CN112766005A (zh) 2021-05-07
CN112766005B CN112766005B (zh) 2024-04-26

Family

ID=75706180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110112331.4A Active CN112766005B (zh) 2021-01-27 2021-01-27 文本翻译方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN112766005B (zh)
WO (1) WO2022161307A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022161307A1 (zh) * 2021-01-27 2022-08-04 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841364A (zh) * 2005-03-28 2006-10-04 富士施乐株式会社 文件翻译方法和文件翻译装置
US20070129932A1 (en) * 2005-12-01 2007-06-07 Yen-Fu Chen Chinese to english translation tool
CN104102629A (zh) * 2013-04-02 2014-10-15 三星电子株式会社 文本数据处理方法及其电子装置
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN111783482A (zh) * 2020-07-06 2020-10-16 南京百家云科技有限公司 一种文本翻译方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766005B (zh) * 2021-01-27 2024-04-26 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841364A (zh) * 2005-03-28 2006-10-04 富士施乐株式会社 文件翻译方法和文件翻译装置
US20070129932A1 (en) * 2005-12-01 2007-06-07 Yen-Fu Chen Chinese to english translation tool
CN104102629A (zh) * 2013-04-02 2014-10-15 三星电子株式会社 文本数据处理方法及其电子装置
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN111783482A (zh) * 2020-07-06 2020-10-16 南京百家云科技有限公司 一种文本翻译方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022161307A1 (zh) * 2021-01-27 2022-08-04 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2022161307A1 (zh) 2022-08-04
CN112766005B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
US11409813B2 (en) Method and apparatus for mining general tag, server, and medium
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
US10915697B1 (en) Computer-implemented presentation of synonyms based on syntactic dependency
US20150302852A1 (en) Method and device for implementing voice input
EP3734472A1 (en) Method and device for text processing
WO2021254251A1 (zh) 输入显示方法、装置及电子设备
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN112766005B (zh) 文本翻译方法、装置、设备及介质
CN117422067A (zh) 信息处理方法、装置、电子设备及存储介质
CN117312140A (zh) 测试用例的生成方法、装置、电子设备及存储介质
CN112148135A (zh) 输入法处理方法、装置和电子设备
WO2022253138A1 (zh) 文本处理方法、装置和电子设备
CN114490967B (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
CN116257690A (zh) 一种资源推荐方法、装置、电子设备和存储介质
CN116127062A (zh) 预训练语言模型的训练方法、文本情感分类方法及装置
CN115292462A (zh) 文字生成方法和装置、移动终端、可读存储介质和芯片
CN107291259B (zh) 一种信息显示方法、装置和用于信息显示的装置
CN111966267A (zh) 应用评论方法、装置和电子设备
CN114020245A (zh) 页面构建方法及装置、设备和介质
CN114118937A (zh) 基于任务的信息推荐方法、装置、电子设备及存储介质
CN112417095A (zh) 语音消息处理方法和装置
CN114356275B (zh) 交互控制方法、装置、智能语音设备及存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN114091483B (zh) 翻译处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant