CN114997185A - 翻译方法、介质、程序产品及电子设备 - Google Patents
翻译方法、介质、程序产品及电子设备 Download PDFInfo
- Publication number
- CN114997185A CN114997185A CN202111256963.4A CN202111256963A CN114997185A CN 114997185 A CN114997185 A CN 114997185A CN 202111256963 A CN202111256963 A CN 202111256963A CN 114997185 A CN114997185 A CN 114997185A
- Authority
- CN
- China
- Prior art keywords
- translation
- characters
- translated
- format
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种翻译方法、介质、程序产品及电子设备。该方法包括:获取多个待翻译字符和多个待翻译字符的格式信息;对多个待翻译字符进行翻译,得到多个翻译字符;基于多个待翻译字符的格式信息、多个待翻译字符和多个翻译字符之间的对应关系,将多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同。本申请的技术方案在翻译得到多个翻译字符后,根据翻译字符和待翻译字符之间的对应关系,将翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同,不仅使翻译的字符语义准确,还能使翻译字符保留和待翻译字符相同的格式,有助于提升用户的翻译体验。
Description
技术领域
本申请涉及机器翻译领域,特别涉及一种翻译方法、介质、程序产品及电子设备。
背景技术
随着科技与经济的高速发展,不同语种之间的信息交流已经成为信息交往中的重要组成部分,随之而来的对各种语言服务,尤其是翻译服务的需求也越来越广泛。然而目前翻译人员尤其是高端翻译人员严重紧缺;并且,翻译人员在进行翻译时,需要花费大量的时间,导致翻译的效率低并且成本高。因此,机器翻译作为一种自动翻译方法,例如通过预先训练好的翻译模型进行自动翻译的方法,已经成为辅助人工翻译的重要工具。
然而,现有的基于机器翻译的文档翻译功能可能会存在因为一些句子中特殊标记(例如:特定文字加粗,斜体,高亮等)的存在,使得机器翻译时将包含特殊标记的单个词或词组单独翻译,导致翻译出来的译文中出现语义的截断。例如,如图1A所示的待翻译的源文档中带有特殊格式的语句“今天早上我们去打招呼,获得了一箱橘子”,翻译成“Thismorning we go play call,won got a box orange child”,不难看出,翻译的结果与正确结果“We went to say hello this morning and got a box of oranges”不一致,也即翻译内容不准确,用户体验不佳。
发明内容
有鉴于此,本申请实施例提供了一种翻译方法、介质、程序产品及电子设备。
本申请的技术方案在翻译得到多个翻译字符后,根据翻译字符和待翻译字符之间的对应关系,将翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同,不仅使翻译的字符语义准确,还能使翻译字符保留和待翻译字符相同的格式,有助于提升用户的翻译体验。
第一方面,本申请实施例提供了一种翻译方法,包括:
获取多个待翻译字符和多个待翻译字符的格式信息;
对多个待翻译字符进行翻译,得到多个翻译字符;
基于多个待翻译字符的格式信息、多个待翻译字符和多个翻译字符之间的对应关系,将多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同。
其中,待翻译字符为第一自然语言字符,翻译字符为第二自然语言字符。例如,待翻译字符为中文字符,翻译字符为英文字符。
此外,待翻译字符的格式信息是指待翻译字符被加粗、高亮、设置为特殊字体等特殊格式的信息。
在上述第一方面的一种可能的实现中,上述多个待翻译字符为待翻译的源文档中的字符。例如,多个待翻译字符为待翻译的中文文档中的各个字符,包括文字和标点符号。
在上述第一方面的一种可能的实现中,上述对多个待翻译字符进行翻译,得到多个翻译字符包括:
将源文档中的多个待翻译字符进行分词,得到多个源分词;
将多个源分词通过预设的机器翻译模型进行翻译,得到第一译文中的多个翻译字符。
在上述第一方面的一种可能的实现中,上述基于多个待翻译字符的格式信息、多个待翻译字符和多个翻译字符之间的对应关系,将多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同,包括:
基于多个待翻译字符的格式信息,确定待翻译文档中的多个截断,截断包括至少一个待翻译字符,并且同一截断中的各待翻译字符的格式相同;
基于多个待翻译字符和多个翻译字符之间的对应关系,确定出多个截断和多个翻译字符之间的对应关系;
根据确定出的多个截断和多个翻译字符之间的对应关系,将第一译文中至少部分翻译字符的格式调整为与至少部分翻译字符对应的待翻译字符的格式相同,得到第二译文。
例如,源文档的特殊格式信息为图1C所示的待翻译的中文文档中包含的:“去”被加粗和高亮,“打”被加粗,“得了”被加粗,“橘”被加粗且为斜体。可以预先将源文档中有可能出现的多种特殊格式进行标记,以根据源文档中包含的特殊格式的标识确定出源文档中的特殊格式信息。
此外,可以根据确定出的源文档中的特殊格式信息,将待翻译的源文档划分成多个截断。其中,截断可以为例如图1C所示的待翻译的中文文档包括如图1A所示的截断1至截断9。其中,截断1至截断9依次分别为:今天早上我们、去、打、招呼、获、得了、一箱、橘、子。截断1、截断4、截断5、截断7以及截断9不包含特殊格式;截断2的特殊格式为:加粗并且高亮;截断3的特殊格式为:加粗;截断6的特殊格式为:加粗;截断8的特殊格式为:加粗并且为斜体。
在上述第一方面的一种可能的实现中,上述根据确定出的多个截断和多个翻译字符之间的对应关系,将第一译文中至少部分翻译字符的格式调整为与至少部分翻译字符对应的待翻译字符的格式相同,得到第二译文,包括:
在截断在第一译文中有匹配的多个翻译字符的情况下,将第一译文中匹配的多个翻译字符的格式调整为与匹配的多个翻译字符对应的截断中多个翻译字符的格式相同;或者
在截断在第一译文中无匹配的多个翻译字符,并且截断隶属于在第一译文中有匹配的多个翻译字符的一源分词的其中一部分的情况下,将源分词中的至少部分翻译字符的格式调整为与至少部分翻译字符对应的截断中多个翻译字符的格式相同。
在上述第一方面的一种可能的实现中,上述多个待翻译字符和多个翻译字符之间的对应关系是通过以下方式确定的:
确定源文档中每个源分词的词向量以及第一译文中的多个翻译字符的词向量;
计算每个源分词的词向量和多个翻译字符的词向量的余弦距离;
基于计算出的余弦距离,采用匈牙利算法确定出源分词和多个翻译字符之间的对应关系;
基于确定出的源分词和多个翻译字符之间的对应关系,确定源文档中的多个待翻译字符和第一译文中的多个翻译字符之间的对应关系。
在上述第一方面的一种可能的实现中,上述方法还包括:
显示格式被调整为与各翻译字符对应的待翻译字符的格式相同的多个翻译字符。
在上述第一方面的一种可能的实现中,上述预设的机器翻译模型为Transformer模型。
在上述第一方面的一种可能的实现中,上述将源文档中的多个待翻译字符进行分词,得到多个源分词,包括:
采用Jieba分词算法,将源文档中的多个待翻译字符进行分词,得到多个源分词。
在上述第一方面的一种可能的实现中,上述待翻译字符的格式包括加粗,斜体,高亮,下划线、删除线中的其中一种或多种。
第二方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在电子设备上执行时使电子设备执行上述第一方面以及第一方面的各种可能的实现中的任意一种翻译方法。
第三方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括指令,指令用于实现如上述第一方面以及第一方面的各种可能的实现中的任意一种翻译方法。
第四方面,本申请实施例提供了一种电子设备,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,当指令被一个或多个处理器执行时,处理器用于执行上述第一方面以及第一方面的各种可能的实现中的任意一种翻译方法。
附图说明
图1A根据本申请的一些实施例,示出了一种由于待翻译的源文档存在特殊格式,而使得翻译结果不准确的翻译示例;
图1B根据本申请的一些实施例,示出了一种文档翻译的场景示意图;
图1C根据本申请的一些实施例,示出了一种将存在特殊格式的中文文档翻译成英文文档的翻译示例;
图2根据本申请的一些实施例,示出了图1所示的客户端和服务器的结构框图;
图3根据本申请的一些实施例,示出了一种图2所示的服务器执行的翻译流程示意图;
图4根据本申请的一些实施例,示出了一种图2所示的服务器中的特殊格式调整模块调整英文译文的个数的流程示意图;
图5根据本申请的一些实施例,示出了一种图2所示的客户端和服务器在翻译过程中的交互流程图;
图6根据本申请的一些实施例,示出了图2所示的客户端将翻译结果进行显示的界面示意图;
图7根据本申请的一些实施例,示出了一种翻译方法的流程示意图;
图8根据本申请的一些实施例,示出了图1所示的客户端的硬件结构框图;
图9根据本申请的一些实施例,示出了图1所示的服务器的硬件结构框图。
具体实施方式
本申请的说明性实施例包括但不限于一种翻译方法、介质、程序产品及电子设备。
为了使本申请的目的、技术方案及优点更加清楚明白,以下将结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1B根据本申请的一些实施例,示意出了一种文档翻译场景的示意图。如图1B所示,用户想要通过客户端10进行在线文档翻译,则用户在选择了要翻译的源文档之后,确定出要将源文档翻译成某种自然语言。例如用户想要将中文的源文档翻译成英语文档,则用户可以在客户端10的操作界面上选择源文档对应的自然语言为:中文,并且选择翻译文档对应的自然语言为:英语。然后点击翻译控件102,客户端10向服务器20发起文档翻译请求,服务器20响应于该请求,执行本申请提供的翻译方法,进行文档翻译,即可得到英语版本的翻译文档。
为了解决上述背景技术中涉及的由于源文档(例如中文文档)中存在特殊格式,例如加粗、高亮、斜体等,而导致在翻译过程中对存在特殊格式的单个词或词组单独翻译(即不结合存在特殊格式的词或词组在整个语句中和该语句中其他词或词组的关系,直接对存在特殊格式的词或词组单独翻译,出现语义的截断),使得翻译结果不准确的问题,本申请实施例提供了一种翻译方法。具体地,首先提取出待翻译的源文档中的特殊格式信息以及源文档中的文本(不包含特殊格式的各个待翻译字符),将源文档中的文本进行分词,得到多个源分词。然后采用预设的机器翻译模型对源文档中的文本(不包含特殊格式的各个待翻译字符)进行翻译,得到不包含特殊格式的译文,并且通过该模型计算得到前述多个源分词所对应的向量,以及翻译得到的文档中多个翻译字符所对应的向量。然后计算上述得到的源分词的向量和翻译字符的向量的匹配关系,从而得到不包含特殊格式的译文中各个翻译字符/字符串和前述源分词的匹配关系;再基于预设的特殊格式调整规则,结合上述各个翻译字符/字符串和前述源分词的匹配关系,以及上述特殊格式信息,在不包含特殊格式的译文中添加和源文档相同的特殊格式。
例如,如图1C所示,服务器20响应于客户端10发送的文档翻译请求,将存在特殊格式的源文档中的语句“今天早上我们去打招呼,获得了一箱橘子”翻译成英文文档。其中,服务器20部署有预设的机器翻译模型,采用该模型对如图1C所示的源文档进行翻译。例如,在一些实施例中,预设的机器翻译模型可以是Transformer模型(Google公司的一种机器翻译模型)。服务器20通过执行本申请提供的翻译方法,首先提取出该语句中的特殊格式信息和中文文本,其中源文档中的“去”被高亮且被加粗、“得了”被加粗、“橘”被加粗且为斜体,其余内容无特殊格式。
然后按照预设分词规则,例如按照语句中各个词以及各个词和前后相邻的词之间构成的词组在以往翻译时被作为单个中文词/词组的频率,对该语句进行中文分词。例如“今”和“天”组成的“今天”经常作为一个词语出现,则在分词时把“今天”作为一个中文词组,并且将标点符号例如逗号作为一个单独的词,基于这种分词规则,得到如图1C所示的:“今天”、“早上”、“我们”、“去”、“打”、“招呼”、“,”、“获得了”、“一箱”、“橘子”这些中文词/词组。
然后服务器20将这些中文词/词组通过机器翻译模型,例如Transformer模型进行翻译,该模型结合这些中文词/词组结合在句子中的相互关系对这些中文词/词组进行翻译,得到不带特殊格式的英文译文“We went to say hello this morning and got a boxof oranges”。并且通过Transformer模型中的解码器(Decoder)计算得到上述英文译文中各个英文单词的英文词向量,以及通过Transformer模型中的编码器(Encoder),例如Bert编码器计算得到上述分词得到的各个中文词/词组的中文词向量。
然后通过计算出前述各个英文单词的英文词向量和前述各个中文词/词组的中文词向量的余弦距离;或者计算出每相邻的多个英文单词的英文词向量和前述各个中文词/词组的中文词向量的余弦距离;又或者计算出每相邻的多个英文单词的英文词向量和前述每相邻的多个中文词/词组的中文词向量的余弦距离。然后结合匈牙利匹配算法,确定出上述英文词向量和中文词向量的匹配关系,从而确定出上述英文译文中的各个英文词/词组和上述分词得到的各个中文词/词组的匹配关系。例如,“今天早上”和“this morning”匹配,“我们”和“We”匹配,“去”和“went to”匹配,“打招呼”和“say hello”匹配,“,”和“and”匹配,“获得了”和“got”匹配,“一箱”和“a box of”匹配,“橘子”和“oranges”匹配。
在确定了各个英文词/词组和上述分词得到的各个中文词/词组的匹配关系之后,再结合该匹配关系和上述特殊格式信息,基于预设的特殊格式调整规则,在无特殊格式的英文译文中添加和如图1C所示的带有特殊格式的源文档相同的特殊格式。其中预设的调整规则将在下文中结合具体的流程图进行介绍,此处不再展开描述。
从而最终得到如图1C所示的英文译文“We went to say hello this morningand got a box of oranges”,其中,“went to”被加粗且高亮,“say”被加粗,“got”被加粗,“oranges”被加粗且字体倾斜。不难看出,如图1C所示的英文译文不仅句义准确,容易理解,还保留了翻译前的源文档中的特殊格式,翻译质量高,有助于提升用户的翻译体验。
此外,需要说明的是,上述图1B所示的翻译场景中,仅仅示意了一种用户通过客户端10进行在线文档翻译的应用场景,通常服务器20的计算能力以及存储能力等较强,因此翻译过程是由服务器20执行。
不难理解的是,在一些实施例中,例如客户端10无法连接互联网的情况下,而用户又急需获取到翻译文档,则在这种情况下,还可以由客户端10来执行翻译过程。具体地,例如,客户端10部署有预设的机器翻译模型,客户端10响应于用户的操作,通过执行本申请提供的翻译方法对源文档进行翻译,即可得到英语版本的翻译文档。
需要说明的是,本申请提供的翻译方法不仅能够应用于文档翻译,还可以应用于其他翻译场景,例如,将本方案应用于一些翻译软件,该翻译软件可以保留用户粘贴过来的字符携带的特殊格式,并且通过将本方案应用于该翻译软件之后,该翻译软件得到的译文不仅词义准确,还能够保留翻译前的字符所携带的特殊格式,有助于提升用户的翻译体验。
此外,可以理解,适用于本申请实施例的客户端10可以为具有显示功能的各种电子设备,包括但不限于手机、电脑、膝上型计算机、平板电脑、电视、显示设备、户外显示屏、车载终端等等。
此外,以上关于图1B所示的翻译场景,以及图1C所示的翻译过程的描述,仅仅是为了方便理解本申请的技术方案的示例性描述,以上描述仅涉及了将中文文档翻译至英文文档,应当理解,本申请提供的翻译方法包括但不限于将中文文档翻译至英文文档,还可以将其他类型的自然语言文档翻译成任意一种自然语言文档,例如将英文文档翻译成日语文档,将中文文档翻译成德语文档等等。
为了方便理解本申请的技术方案,下面继续以将中文文档翻译成英文文档为例,详细介绍本申请的技术方案。
可以理解的是,本申请提供的文档翻译方案可以通过一些软件程序代码实现,这些软件程序代码存储在服务器20或客户端10的存储器中,服务器20或客户端10通过运行这些程序代码,实现本申请提供的翻译方法。
下面首先结合图2,对如图1B所示的在线文档翻译场景中的客户端10以及服务器20从逻辑上划分得到的各个功能模块进行详细介绍。
如图2所示,客户端10包括用户输入组件111、前端展示组件112。服务器20包括格式信息获取模块201、分词模块202、翻译模块203、中文词-英文词匹配模块204、特殊格式调整模块205。
其中,客户端10的用户输入组件111用于实现用户和客户端10的交互。在一些实施例中,用户输入组件111用于接收用户选择的待翻译的源文档,以及源文档对应的自然语言和译文对应的自然语言等。例如,用户输入组件111用于接收如图1B所示的用户选择的中文版本的源文档、源文档对应的自然语言:中文、译文对应的自然语言:英语。其中,用户输入组件111可以为客户端10安装的浏览器中包含的翻译网页的输入窗口,或者为客户端10安装的翻译软件的输入窗口。
客户端10的前端展示组件112用于在服务器20返回翻译结果后,显示翻译结果等。其中,前端显示组件112可以为客户端10安装的浏览器中包含的翻译网页的显示窗口,或者为客户端10安装的翻译软件的显示窗口。
服务器20的格式信息获取模块201用于获取待翻译的源文档中的特殊格式以及源文档中的中文文本。例如,当服务器20需要翻译如图1C所示的源文档时,格式信息获取模块201用户获取该文档中语句“今天早上我们去打招呼,获得了一箱橘子”中的特殊格式:“去”被加粗和高亮,“打”被加粗,“得了”被加粗,“橘”被加粗且为斜体。
服务器20的分词模块202用于对待翻译的源文档中的纯文本(即不包含特殊格式的文本)进行分词,例如采用Jieba分词(一种开源的自然语言分词算法)对源文档中的纯文本进行分词,得到如图1C所示的分词:“今天”、“早上”、“我们”、“去”、“打”、“招呼”、“获得了”、“一箱”、“橘子”。
服务器20的翻译模块203用于对分词模块202得到的各个中文词/词组进行翻译,例如翻译模块203通过Transformer模型对如图1C所示的各个中文分词进行翻译,得到如图1C所示的不带格式的英文译文“We went to say hello this morning and got a box oforanges”。并且通过Transformer模型中的解码器(Decoder)计算得到上述英文译文中各个英文单词的英文词向量,以及通过Transformer模型中的编码器(Encoder),例如Bert编码器计算得到上述分词得到的各个中文词/词组的中文词向量。
服务器20的中文词-英文词匹配模块204用于计算出前述各个英文单词的英文词向量和前述各个中文词/词组的中文词向量的余弦距离;或者计算出每相邻的多个英文单词的英文词向量和前述各个中文词/词组的中文词向量的余弦距离;又或者计算出每相邻的多个英文单词的英文词向量和前述每相邻的多个中文词/词组的中文词向量的余弦距离。然后结合匈牙利匹配算法,确定出上述英文词向量和中文词向量的匹配关系,从而确定出上述英文译文中的各个英文词/词组和上述分词得到的各个中文词/词组的匹配关系。例如中文词-英文词匹配模块204最终确定出:“今天早上”和“this morning”匹配,“我们”和“We”匹配,“去”和“went to”匹配,“打招呼”和“say hello”匹配,“,”和“and”匹配,“获得了”和“got”匹配,“一箱”和“a box of”匹配,“橘子”和“oranges”匹配。
服务器20的特殊格式调整模块205用于根据中文词-英文词匹配模块204确定出的各个英文词/词组和上述分词得到的各个中文词/词组的匹配关系之后,再结合该匹配关系和格式信息获取模块201获取的上述特殊格式信息,基于预设的特殊格式调整规则,在无特殊格式的英文译文中添加和如图1C所示的带有特殊格式的源文档相同的特殊格式。具体的调整规则例如可以为:
从左到右(例如从一个语句的第一个字符至最后一个字符)依次遍历各个翻译前的截断(按照特殊格式信息划分的区域,一个截断区域的所有字符格式相同)是否存在特殊格式,在确定某个翻译前的截断存在特殊格式的情况下,判断该截断是否为一个完整的语句(例如判断该截断中是否包含标点符号,并且该标点符号是否在该截断的末尾),如果是,则将该语句对应的英文译文添加上和该截断相同的格式。否则,表明该截断不是一个完整的语句,则判断该截断是否在英文译文中有匹配的英文词/词组(利用上述余弦距离计算和匈牙利匹配算法进行匹配),如果能匹配到,则将该截断对应的英文译文添加上和该截断相同的格式。例如翻译前的中文分词中“去”有对应的英文译文“went to”,由于“去”的特殊格式是即被高亮又被加粗了,则同样将“went to”高亮并且加粗。
否则,需要进一步判断该截断是否属于在英文译文中能够匹配到一些英文词/词组的某个中文分词的子集,如果该截断属于某个中文分词的子集,则将该截断隶属的中文词/词组对应的英文译文中的至少部分单词上加上特殊格式。例如翻译前的中文分词中“打”是通过余弦距离计算和匈牙利匹配算法匹配出的和“say hello”匹配的中文词组“打招呼”的子集,并且“招呼”和“hello”匹配,因此,可以确定“打”和“say”匹配。
并且由于“打”被加粗了,则对“打”对应的英文译文“say”进行加粗。否则,表明该截断的特殊格式有可能是用户错误添加的,无需处理该截断的格式,可以跳过当前的截断,继续处理下一个截断。
从而最终得到如图1C所示的英文译文“We went to say hello this morningand got a box of oranges”,其中,“went to”被加粗且高亮,“say”被加粗,“got”被加粗,“oranges”被加粗且字体倾斜。不难看出,如图1C所示的英文译文不仅句义准确,容易理解,还保留了翻译前的源文档中特殊格式,有助于提升用户体验。
为了便于理解本申请的技术方案,下面将结合图1B所示的场景图,以及图2所示的一种包括客户端10和服务器20的各个功能模块,以服务器20将如图1C所示的待翻译的中文文档翻译成英文文档为例,详细介绍服务器20对于该源文档执行格式信息的提取、分词、翻译、中文词-英文词的匹配以及在无特殊格式的英文译文中添加特殊格式的各个过程进行详细介绍。
具体地,如图3所示,服务器20对于该源文档执行格式信息的提取、分词、翻译、中文词-英文词的匹配以及在无特殊格式的英文译文中添加特殊格式的各个过程包括以下步骤:
步骤301:服务器20的格式信息获取模块201获取待翻译的源文档的特殊格式信息以及中文文本。以供服务器20的特殊格式调整模块205基于该特殊格式信息,调整与该源文档对应的无特殊格式的英文译文的格式。
其中,源文档的特殊格式信息可以为例如图1C所示的待翻译的中文文档中包含的:“去”被加粗和高亮,“打”被加粗,“得了”被加粗,“橘”被加粗且为斜体。
在一些实施例中,将源文档中有可能出现的多种特殊格式进行标记,服务器20的格式信息获取模块201可以根据源文档中包含的特殊格式的标识确定出源文档中的特殊格式信息。
在一些实施例中,服务器20的格式信息获取模块201可以按照识别出的特殊格式信息,将待翻译的源文档划分成多个截断。以供服务器20的特殊格式调整模块205基于该截断信息调整英文译文的格式。
例如,将如图1C所示的待翻译的中文文本划分成如图1A所示的截断1至截断9。其中,截断1至截断9依次分别为:今天早上我们、去、打、招呼、获、得了、一箱、橘、子。截断1、截断4、截断5、截断7以及截断9不包含特殊格式;截断2的特殊格式为:加粗并且高亮;截断3的特殊格式为:加粗;截断6的特殊格式为:加粗;截断8的特殊格式为:加粗并且为斜体。
步骤302:服务器20的分词模块202对无特殊格式的中文文本进行分词。以供服务器20的翻译模块203基于分词结果进行中译英的翻译,并且基于分词结果进行中英文词/词组的向量的计算。
例如,在一些实施例中,服务器20的分词模块202采用jieba分词算法(一种开源的自然语言分词算法)对如图1C所示的中文句子进行分词,得到如图1C所示的:“今天”、“早上”、“我们”、“去”、“打”、“招呼”、“,”、“获得了”、“一箱”、“橘子”这些中文词/词组。
可以理解的是,具体实现时,可以根据实际情况选取分词算法,例如,还可以利用其他一些开源的分词算法,例如利用SnowNLP、THULAC、NLPIR等分词算法进行中文分词。本申请对此不作限定。
步骤303:服务器20的翻译模块203对各个中文词/词组进行翻译,得到无特殊格式的英文译文,并计算得到英文译文中各个英文单词的英文词向量,以及分词得到的各个中文词/词组的中文词向量。
在一些实施例中,服务器20的翻译模块203对分词模块202得到的中文分词通过transformer模型进行翻译,transformer模型通过对输入的各个中文分词的含义,以及在一个句子中各个中文分词的相互关系,得到无特殊格式的英文译文。并且通过transformer模型中的编码器(Encoder)获得前述各个中文分词的中文词向量,通过transformer模型中的解码器(Decoder)获得英文译文中各个英文单词的英文词向量。
例如,对于如图1C所示的中文分词“今天”、“早上”、“我们”、“去”、“打”、“招呼”、“,”、“获得了”、“一箱”、“橘子”,通过transformer模型中的编码器得到10个中文词向量α1、α2、α3、α4、α5、α6、α7、α8、α9、α10。对于不包括格式的英文译文“We went to say hellothis morning and got a box of oranges”,通过transformer模型中的解码器得到13个英文词向量β1、β2、β3、β4、β5、β6、β7、β8、β9、β10、β11、β12、β13。
步骤304:服务器20的中文词-英文词匹配模块204基于英文词向量和中文词向量的匹配关系,确定英文译文中各个英文词/词组和分词得到的各个中文词/词组的匹配关系。
为了使英文译文中各个英文词/词组和分词得到的各个中文词/词组匹配的较为准确,可以通过计算服务器20的翻译模块203确定出的英文译文中所有单个英文单词的英文词向量,与前述各个中文分词的中文词向量的余弦距离,然后再采用匈牙利算法根据前述确定出的余弦距离,确定出英文译文中所有单个英文单词和前述各个中文分词的中文词的匹配关系。例如,分别计算出上述英文译文中13个英文单词的英文词向量β1、β2、β3、β4、β5、β6、β7、β8、β9、β10、β11、β12、β13中的每一个,分别和上述10个中文词向量α1、α2、α3、α4、α5、α6、α7、α8、α9、α10之间的余弦距离(也即两个向量之间的夹角)。然后再通过匈牙利算法,根据计算得到的13个英文词向量分别和上述10个中文词向量之间的余弦距离,将余弦距离最小的英文此向量所对应的英文词和中文词向量所对应的中文分词,确定为匹配的英文词-中文词。例如,上述英文译文中,英文单词“We”的英文词向量β1与中文分词“我们”的余弦距离最短,则确定出“We”和“我们”匹配。
此外,可以理解的是,由于有可能英文译文中的多个英文单词的词义才能与一个中文词的词义匹配,例如,“went to”的词义与“去”匹配,并且,一般一个中文词最多可以翻译为三个单词。因此,在一些实施例中,还可以先计算出前述英文译文中每相邻的两个或三个英文单词的英文词向量的平均值,以及每相邻的两个或三个中文词分词的中文词向量的平均值,然后分别计算出每相邻的两个或三个英文单词的英文词向量的平均值,与每相邻的两个或三个中文词分词的中文词向量的平均值之间的余弦距离,然后再采用匈牙利算法根据前述确定出的余弦距离,确定出英文译文中每相邻的两个或三个英文单词和与中文分词的匹配关系。例如,计算出“this”对应的英文词向量β6和“morning”对应的英文词向量β7的平均值γ1,以及中文分词“今天”对应的中文词向量α1和“早上”对应的中文词向量α2的平均值μ1,然后计算γ1和μ1之间的余弦距离,并且通过匈牙利算法确定出γ1和μ1之间的余弦距离最短,则确定“this morning”和“今天早上”匹配。
从而通过以上所述的方式,最终确定出如图1C所示的英文词/词组和分词得到的各个中文词/词组的匹配关系:“今天早上”和“this morning”匹配,“我们”和“We”匹配,“去”和“went to”匹配,“打招呼”和“say hello”匹配,“,”和“and”匹配,“获得了”和“got”匹配,“一箱”和“a box of”匹配,“橘子”和“oranges”匹配。以便于服务器20的特殊格式调整模块205根据确定出的该匹配关系,以及源文档中的特殊格式信息,然后结合预设的特殊格式调整规则来调整英文译文中的格式。
可以理解的是,在其他一些实施例中,还可以通过计算上述英文词向量和中文词向量之间的欧式距离、马氏距离等方式来确定英文词向量和中文词向量之间的匹配关系,本申请对此不作限定。
此外,可以理解的是,为了使匹配结果更加准确,还可以分别计算出英文译文中相邻的多个英文单词的英文词向量和前述中文分词中单个中文词向量的余弦距离,或者计算出各个单独的英文词向量和多个中文词向量的余弦距离,本申请对此不作限定。
步骤305:服务器20的特殊格式调整模块205基于英文词/词组和分词得到的各个中文词/词组的匹配关系,和源文档中的特殊格式信息,基于预设的特殊格式调整规则,调整无特殊格式的英文译文的格式。
其中,源文档中的特殊格式信息可以包括上述步骤301中涉及的各个截断,同一个截断区域的字符的格式相同。例如,如图1C所示的待翻译的中文文档包括如图1A所示的截断1至截断9。其中,截断1至截断9依次分别为:今天早上我们、去、打、招呼、获、得了、一箱、橘、子。截断1、截断4、截断5、截断7以及截断9不包含特殊格式;截断2的特殊格式为:加粗并且高亮;截断3的特殊格式为:加粗;截断6的特殊格式为:加粗;截断8的特殊格式为:加粗并且为斜体。从而可以通过遍历源文档中每一个截断来调整英文译文的格式。
下面将继续以如图1C所示的文档翻译示例为例,结合图4中所示的流程图对步骤305涉及的英文译文的格式调整过程进行详细介绍。其中各个步骤的执行主体均为服务器20的特殊格式调整模块205,以下各个步骤中将不再逐一写明执行主体。具体地,如图4所示,本申请提供的英文译文的格式调整过程包括以下步骤:
步骤3051:获取当前截断。
在一些实施例中,服务器20的特殊格式调整模块205可以从格式信息获取模块201获取到例如图1C所示的待翻译的中文文档中的特殊格式信息,并且从特殊格式信息中获取到各个截断信息。从而根据中文词-英文词匹配模块204确定出的例如图1C所示的英文词/词组和分词得到的各个中文词/词组的匹配关系,以及截断信息,来调整英文译文格式。
步骤3052:在当前截断有特殊格式的情况下,判断该截断是否为一个语句。如果是,则表明当前截断为一个语句,可以将该语句对应的英文译文的格式调整为该截断所包含的特殊格式,进入步骤3053;否则表明该截断不是一个语句,需要进行进一步地判断,进入步骤3054。
步骤3053:将该截断对应的整个句子的译文加上特殊格式。
可以理解的是,由于一个截断区域内的所有字符的格式一致,因此,在一个截断为整个句子的情况下,可以将该截断对应的整个句子的译文加上和该截断区域相同的格式。例如,该截断所对应的整个中文句子的格式为加粗,则将该截断对应的英文句子中所有的英文字符加粗。
步骤3054:判断当前的截断是否有对应的英文译文。如果是,则表明当前的截断有对应的英文译文,可以将该截断对应的英文译文加上和该截断相同的特殊格式,进入步骤3055;否则表明当前的截断没有匹配到对应的英文译文,需要执行进一步的判断逻辑,进入步骤3056。
例如,在一些实施例中,可以根据前述确定出的英文词/词组和分词得到的各个中文词/词组的匹配关系,来确定出当前截断在英文译文中是否有匹配的英文单词/词组。
例如,在一些实施例中,判断当前截断是否恰好为某一个分词或多个分词,则该截断对应的分词在英文译文中有匹配的英文单词/词组的情况下,将该截断所对应的分词所匹配的英文单词/词组加上和该截断相同的特殊格式,若该截断对应的分词在英文译文中没有匹配的英文单词/词组,则表明有可能该截断对应的特殊格式是误加的,则跳过该截断。
步骤3055:将该截断对应的英文译文加上特殊格式。
例如,假设当前截断为上述截断2:去。根据前述确定出的英文词/词组和分词得到的各个中文词/词组的匹配关系,确定出截断“去”匹配到了英文译文“went to”,并且截断“去”被加粗且高亮,因此,可以将截断“去”对应的英文译文“went to”加粗并高亮。
又如,假设当前截断为上述截断6:得了。根据前述确定出的英文词/词组和分词得到的各个中文词/词组的匹配关系,确定出截断“得了”匹配到了英文译文“got”,并且截断“得了”被加粗,因此,可以将截断“得了”对应的英文译文“got”加粗。
又如,假设当前截断为上述截断8:橘。根据前述确定出的英文词/词组和分词得到的各个中文词/词组的匹配关系,确定出截断“橘”匹配到了英文译文“orange”,并且截断“橘”被加粗且为斜体,因此,可以将截断“橘”对应的英文译文“orange”加粗且设为斜体。
步骤3056:判断当前的截断是否属于具有英文译文的某个中文词/词组的子集。
即在当前截断没有在英文译文中直接匹配到对应的英文译文的情况下,还可以进一步判断当前截断是否属于具有英文译文的某个中文词/词组的其中一部分。如果是,则表明当前的截断属于具有英文译文的某个中文词/词组的子集,将该截断隶属的中文词/词组对应的英文译文中的至少部分英文单词上加上和该截断相同的特殊格式,进入步骤3057;否则表明当前的截断既没有直接在英文译文中匹配到对应的英文单词/词组,又不属于具有英文译文的某个中文词/词组的子集,则该截断对应的特殊格式有可能是用户错误标记的,则可以跳过该截断,继续处理下一个截断。
步骤3057:将该截断隶属的中文词/词组对应的英文译文中的至少部分单词上加上特殊格式。
例如,假设当前截断为上述截断3:打。虽然截断“打”在英文译文中没有直接匹配到相应的英文译文,但是截断“打”属于有对应英文译文的中文词“打招呼”的子集,也即“打”属于“打招呼”的一部分。根据前述确定出的英文词/词组和分词得到的各个中文词/词组的匹配关系,确定出“打招呼”匹配到了英文译文“say hello”,而“招呼”和“hello”是互相匹配的。并且由于“打”是一个单独的截断,被加粗,因此,可以确定“打”和“say”匹配,则将“打招呼”对应的英文译文“say hello”中的“say”加粗。
步骤3058:跳过该截断,判断下一个截断。
即在当前截断在翻译模块203翻译得到的英文译文中既无法直接匹配到相应的英文译文,又不属于能够匹配到英文译文的某个中文词/词组的一部分的情况下,有可能该截断的特殊格式是用户在编辑文档时错加的,该特殊格式无需保留,因此可以跳过该截断,而继续对当前截断的相邻的下一个截断执行上述步骤3051至步骤3058的处理过程,直至待翻译的源文档中的所有截断被遍历完毕。
从而最终得到例如图1C所示的已添加特殊格式的英文译文,从图1C中不难看出,添加特殊格式的英文译文不仅译文正确,并且保留了源文档中的特殊格式,有助于提升用户的文档翻译体验。
不难理解的是,在一些实施例中,客户端10可以单独执行本申请提供的翻译方法,客户端10的对源文档的翻译过程和上述服务器20的翻译过程相同,在此不再赘述。
以上对服务器20通过执行本申请提供的翻译方法的详细过程进行了介绍。下面将继续以图1所示的场景中用户通过客户端10来翻译文档为例,结合图1B所示的场景图,图2所示的结构框图,对客户端10和服务器20在文档翻译时涉及的交互过程进行详细介绍。具体地,如图5所示,客户端10和服务器20在文档翻译时涉及的交互过程包括以下步骤:
步骤501:客户端10和服务器20建立连接。
例如,客户端10和服务器20建立无线通信连接,客户端10和服务器20通过Wi-Fi、蓝牙等无线通信方式通信。
步骤502:客户端10向服务器20发送文档翻译请求。
在一些实施例中,用户通过如图2所示的客户端10的用户输入组件111选择了要翻译的源文档之后,确定出要将中文的源文档翻译成英语文档,则通过用户输入组件111选择源文档对应的自然语言为:中文,并且选择翻译文档对应的自然语言为:英语。然后点击翻译控件102,客户端10响应于用户的点击操作,向服务器20发起文档翻译请求。可以理解的是,客户端10还需要向服务器20发送待翻译的源文档,以供服务器20执行例如图3和图4所示的翻译流程,对该源文档进行翻译。
步骤503:服务器20执行文档翻译过程,得到文档翻译结果。
在一些实施例中,服务器20的格式信息获取模块201响应于客户端10发送的文档翻译请求,获取待翻译的源文档的特殊格式信息,然后通过分词模块202对无特殊格式的中文文本进行分词,再利用翻译模块203对各个中文词/词组进行翻译,得到无特殊格式的英文译文,并计算得到英文译文中各个英文单词的英文词向量,以及分词得到的各个中文词/词组的中文词向量。然后利用中文词-英文词匹配模块204基于英文词向量和中文词向量的匹配关系,确定英文译文中各个英文词/词组和分词得到的各个中文词/词组的匹配关系,最后通过特殊格式调整模块205基于英文词/词组和分词得到的各个中文词/词组的匹配关系,和源文档中的特殊格式信息,基于预设的特殊格式调整规则,调整无特殊格式的英文译文的格式。服务器20具体的翻译过程可以参阅上述图3和图4的相关描述,在此不再赘述。
步骤504:服务器20向客户端10返回文档翻译结果。
例如,服务器20最终获得如图1C所示的英文译文“We went to say hello thismorning and got a box of oranges”,其中,“went to”被加粗且高亮,“say”被加粗,“got”被加粗,“oranges”被加粗且字体倾斜。不难看出,如图1C所示的英文译文不仅句义准确,容易理解,还保留了翻译前的源文档中特殊格式,有助于提升用户体验。
步骤505:客户端10显示文档翻译结果。
例如,客户端10在接收到服务器20返回的翻译结果之后,显示出如图6所示的词义准确,且包含有基本上和源文档一致的特殊格式的英文译文。
图7根据本申请的实施例,示出了本申请提供的一种翻译方法的流程图。以下各个步骤中的执行主体可以均为图1所示的服务器20,也可以均为图1所示的客户端10,具体地,如图7所示,
步骤701:获取多个待翻译字符和多个待翻译字符的格式信息。
例如服务器20获取如图1C所示的待翻译的中文源文档中的多个中文字符、标点符号以及相应的格式信息。具体可参阅以上关于图3中步骤301的相关描述,在此不再赘述。
步骤702:对多个待翻译字符进行翻译,得到多个翻译字符。
例如,服务器20对如图1C所示的待翻译的中文源文档中的各个待翻译字符进行分词,并通过Transformer翻译,得到不带特殊格式的如图1C所示的英文译文“We went tosay hello this morning and got a box of oranges”。具体可参阅以上关于图3中的步骤302、步骤303的相关描述,在此不再赘述。
步骤703:基于多个待翻译字符的格式信息、多个待翻译字符和多个翻译字符之间的对应关系,将多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同。
例如,服务器20基于获取的多个待翻译字符的格式信息,将多个待翻译字符划分成各个截断,每个截断至少包括一个字符,并且每个截断中各个字符的格式相同。服务器20利用如上述图3中步骤304涉及的余弦距离计算以及匈牙利匹配算法,确定出各个待翻译字符和翻译字符之间的对应关系,从而基于该对应关系,采用和上述图3中步骤305相同的方法,将多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同。最终得到的译文不仅词义准确且包含了和待翻译的字符中相同的特殊格式。有助于提升用户的翻译体验。
图8根据本申请的实施例,示出了一种客户端10的硬件结构示意图。
客户端10能够执行本申请实施例提供的翻译方法。在图8中,相似的部件具有同样的附图标记。如图8所示,客户端10可以包括处理器110、电源模块140、存储器180、摄像头170、移动通信模块130、无线通信模块120、传感器模块190、音频模块150、接口模块160以及显示屏109等。
可以理解的是,本发明实施例示意的结构并不构成对客户端10的具体限定。在本申请另一些实施例中,客户端10可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如,可以包括中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、微处理器(Micro-programmed Control Unit,MCU)、人工智能(Artificial Intelligence,AI)处理器或可编程逻辑器件(Field ProgrammableGate Array,FPGA)等的处理模块或处理电路。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,在本申请的一些实例中,处理器110可以用来判断当前的截断是哪一个截断。处理器110还可以用来判断当前截断是否有特殊格式、判断当前截断是否有对应的英文译文以及当前截断是否属于具有英文译文的某个中文词/词组的子集等等。
存储器180可用于存储数据、软件程序以及模块,可以是易失性存储器(VolatileMemory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(Non-Volatile Memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(FlashMemory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,或者也可以是可移动存储介质,例如安全数字(Secure Digital,SD)存储卡。具体的,存储器180可以包括程序存储区和数据存储区。程序存储区内可存储程序代码,该程序代码用于使处理器110通过执行该程序代码,执行本申请实施例提供的翻译方法。在申请实施例中,数据存储区可以用于存储无特殊格式的英文文档、特殊格式信息、中文分词、中文词向量以及英文词向量等。
电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。充电管理模块用于从充电器接收充电输入;电源管理模块用于连接电源,充电管理模块与处理器110。
移动通信模块130可以包括但不限于天线、功率放大器、滤波器、低噪声放大器(Low Noise Amplify,LNA)等。移动通信模块130可以提供应用在客户端10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以由天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大,经天线转为电磁波辐射出去。在一些实施例中,移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块130至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块120可以包括天线,并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在客户端10上的包括无线局域网(Wireless Local Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。客户端10可以通过无线通信技术与网络以及其他设备进行通信。
在一些实施例中,客户端10的移动通信模块130和无线通信模块120也可以位于同一模块中。
摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号,之后将电信号传递给ISP(Image Signal Processor,图像信号处理器)转换成数字图像信号。客户端10可以通过ISP,摄像头170,视频编解码器,GPU(Graphic Processing Unit,图形处理器),显示屏109以及应用处理器等实现拍摄功能。
显示屏109包括显示面板。显示面板可以采用液晶显示屏(Liquid CrystalDisplay,LCD),有机发光二极管(Organic Light-emitting Diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-matrix Organic Lght-emitting Diode的,AMOLED),柔性发光二极管(Flex Light-emitting Diode,FLED),Mini LED,Micro LED,Micro OLED,量子点发光二极管(Quantum Dot Light-emitting Diodes,QLED)等。例如,显示屏109用于显示用户选择的源文档、翻译成哪种自然语言以及翻译结果等。
传感器模块190可以包括接近光传感器、压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
音频模块150可以将数字音频信息转换成模拟音频信号输出,或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中,音频模块150可以设置于处理器110中,或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中,音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。
接口模块160包括外部存储器接口、通用串行总线(Universal Serial Bus,USB)接口及用户标识模块(Subscriber Identification Module,SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡,例如Micro SD卡,实现扩展客户端10的存储能力。外部存储卡通过外部存储器接口与处理器110通信,实现数据存储功能。通用串行总线接口用于客户端10和其他手机进行通信。用户标识模块卡接口用于与安装至客户端10的SIM卡进行通信,例如读取SIM卡中存储的电话号码,或将电话号码写入SIM卡中。
在一些实施例中,客户端10还包括按键、马达以及指示器等。其中,按键可以包括音量键、开/关机键等。马达用于使客户端10产生振动效果,指示器可以包括激光指示器、射频指示器、LED指示器等。
图9根据本申请的一些实施例,提供了一种服务器20的硬件结构框图。具体地,如图所示,服务器20包括一个或多个处理器214,与处理器214中的至少一个连接的系统控制逻辑218,与系统控制逻辑218连接的系统内存212,与系统控制逻辑218连接的非易失性存储器(NVM)216,以及与系统控制逻辑218连接的网络接口220。
在一些实施例中,处理器214可以包括一个或多个单核或多核处理器。在一些实施例中,处理器214可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任意组合。在服务器20采用增强型基站(Evolved Node B,eNB)或无线接入网(Radio Access Network,RAN)控制器的实施例中,处理器214可以被配置为执行各种符合的实施例。
在一些实施例中,系统控制逻辑218可以包括任意合适的接口控制器,以向处理器214中的至少一个和/或与系统控制逻辑218通信的任意合适的设备或组件提供任意合适的接口。在一些实施例中,系统控制逻辑218可以包括一个或多个存储器控制器,以提供连接到系统内存212的接口。系统内存212可以用于加载以及存储数据和/或指令。在一些实施例中服务器20的内存112可以包括任意合适的易失性存储器,例如合适的动态随机存取存储器(DRAM)
NVM/存储器216可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。
网络接口220可以包括收发器,用于为服务器20提供无线电接口,进而通过一个或多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口220可以集成于服务器20的其他组件。例如,网络接口220可以集成于处理器214的,系统内存212,NVM/存储器216,和具有指令的固件设备(未示出)中的至少一种,当处理器214中的至少一个执行所述指令时,服务器20实现如上述图3、图4、图5以及图7所示的方法。
网络接口220可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线电接口。例如,网络接口220可以是网络适配器,无线网络适配器,电话调制解调器和/或无线调制解调器。
服务器20可以进一步包括:输入/输出(I/O)设备232。I/O设备232可以包括用户界面,使得用户能够与服务器20进行交互;外围组件接口的设计使得外围组件也能够与服务器20交互。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在电子设备上执行时使电子设备执行如上述图3、图4、图5以及图7所示的任意一种方法。
此外,本申请还提供一种计算机程序产品,计算机程序产品包括指令,指令用于实现如上述图3、图4、图5以及图7所示的任意一种方法。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor,DSP)、微控制器、专用集成电路(Application Specific Integrated Circuit,ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (13)
1.一种翻译方法,应用于电子设备,其特征在于,包括:
获取多个待翻译字符和所述多个待翻译字符的格式信息;
对所述多个待翻译字符进行翻译,得到多个翻译字符;
基于所述多个待翻译字符的格式信息、所述多个待翻译字符和所述多个翻译字符之间的对应关系,将所述多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同。
2.根据权利要求1所述的方法,其特征在于,所述多个待翻译字符为待翻译的源文档中的字符。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个待翻译字符进行翻译,得到多个翻译字符包括:
将所述源文档中的多个待翻译字符进行分词,得到多个源分词;
将所述多个源分词通过预设的机器翻译模型进行翻译,得到第一译文中的多个翻译字符。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个待翻译字符的格式信息、所述多个待翻译字符和所述多个翻译字符之间的对应关系,将所述多个翻译字符的格式调整为与各翻译字符对应的待翻译字符的格式相同,包括:
基于所述多个待翻译字符的格式信息,确定所述待翻译文档中的多个截断,所述截断包括至少一个待翻译字符,并且同一截断中的各待翻译字符的格式相同;
基于所述多个待翻译字符和所述多个翻译字符之间的对应关系,确定出所述多个截断和所述多个翻译字符之间的对应关系;
根据确定出的所述多个截断和所述多个翻译字符之间的对应关系,将所述第一译文中至少部分翻译字符的格式调整为与所述至少部分翻译字符对应的待翻译字符的格式相同,得到第二译文。
5.根据权利要求4所述的方法,其特征在于,所述根据确定出的所述多个截断和所述多个翻译字符之间的对应关系,将所述第一译文中至少部分翻译字符的格式调整为与所述至少部分翻译字符对应的待翻译字符的格式相同,得到第二译文,包括:
在所述截断在所述第一译文中有匹配的多个翻译字符的情况下,将所述第一译文中所述匹配的多个翻译字符的格式调整为与所述匹配的多个翻译字符对应的所述截断中多个翻译字符的格式相同;或者
在所述截断在所述第一译文中无匹配的多个翻译字符,并且所述截断隶属于在所述第一译文中有匹配的多个翻译字符的一源分词的其中一部分的情况下,将所述源分词中的至少部分翻译字符的格式调整为与所述至少部分翻译字符对应的所述截断中多个翻译字符的格式相同。
6.根据权利要求4或5所述的方法,其特征在于,所述多个待翻译字符和所述多个翻译字符之间的对应关系是通过以下方式确定的:
确定所述源文档中每个源分词的词向量以及所述第一译文中的多个翻译字符的词向量;
计算每个所述源分词的词向量和所述多个翻译字符的词向量的余弦距离;
基于计算出的所述余弦距离,采用匈牙利算法确定出所述源分词和所述多个翻译字符之间的对应关系;
基于确定出的所述源分词和所述多个翻译字符之间的对应关系,确定所述源文档中的所述多个待翻译字符和所述第一译文中的所述多个翻译字符之间的对应关系。
7.根据权利要求3至6中任一项所述的方法,其特征在于,所述方法还包括:
显示格式被调整为与各翻译字符对应的待翻译字符的格式相同的多个翻译字符。
8.根据权利要求7所述的方法,其特征在于,所述预设的机器翻译模型为Transformer模型。
9.根据权利要求7或8所述的方法,其特征在于,所述将所述源文档中的多个待翻译字符进行分词,得到多个源分词,包括:
采用Jieba分词算法,将所述源文档中的多个待翻译字符进行分词,得到多个源分词。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述待翻译字符的格式包括加粗,斜体,高亮,下划线、删除线中的其中一种或多种。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在电子设备上执行时使电子设备执行权利要求1-10中任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,所述指令用于实现如权利要求1-10中任一项所述的方法。
13.一种电子设备,其特征在于,所述电子设备包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述电子设备的设备执行如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256963.4A CN114997185B (zh) | 2021-10-27 | 2021-10-27 | 翻译方法、介质、程序产品及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256963.4A CN114997185B (zh) | 2021-10-27 | 2021-10-27 | 翻译方法、介质、程序产品及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114997185A true CN114997185A (zh) | 2022-09-02 |
CN114997185B CN114997185B (zh) | 2023-07-04 |
Family
ID=83018742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111256963.4A Active CN114997185B (zh) | 2021-10-27 | 2021-10-27 | 翻译方法、介质、程序产品及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997185B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539910A (zh) * | 2009-01-15 | 2009-09-23 | 传神联合(北京)信息技术有限公司 | 一种用于计算机辅助翻译的取句方法及其系统 |
US20110093254A1 (en) * | 2008-06-09 | 2011-04-21 | Roland Kuhn | Method and System for Using Alignment Means in Matching Translation |
JP2012230460A (ja) * | 2011-04-25 | 2012-11-22 | Toshiba Corp | 機械翻訳システム、方法及びプログラム |
US8825469B1 (en) * | 2011-08-04 | 2014-09-02 | Google Inc. | Techniques for translating documents including tags |
CN107943794A (zh) * | 2016-10-12 | 2018-04-20 | 阿里巴巴集团控股有限公司 | 一种翻译方法及系统 |
EP3392782A1 (en) * | 2017-04-18 | 2018-10-24 | Salesforce.com, Inc. | Natural language translation and localization |
CN109190131A (zh) * | 2018-09-18 | 2019-01-11 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN110019810A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种本体匹配方法、装置和计算机存储介质 |
CN110334360A (zh) * | 2019-07-08 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 机器翻译方法及装置、电子设备及存储介质 |
CN111401079A (zh) * | 2018-12-14 | 2020-07-10 | 波音公司 | 神经网络机器翻译模型的训练方法、装置及存储介质 |
CN112163434A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本翻译方法、装置、介质及电子设备 |
CN112257462A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于神经机器翻译技术的超文本标记语言翻译方法 |
CN112257436A (zh) * | 2020-09-29 | 2021-01-22 | 华为技术有限公司 | 文本检测方法及装置 |
-
2021
- 2021-10-27 CN CN202111256963.4A patent/CN114997185B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093254A1 (en) * | 2008-06-09 | 2011-04-21 | Roland Kuhn | Method and System for Using Alignment Means in Matching Translation |
CN101539910A (zh) * | 2009-01-15 | 2009-09-23 | 传神联合(北京)信息技术有限公司 | 一种用于计算机辅助翻译的取句方法及其系统 |
JP2012230460A (ja) * | 2011-04-25 | 2012-11-22 | Toshiba Corp | 機械翻訳システム、方法及びプログラム |
US8825469B1 (en) * | 2011-08-04 | 2014-09-02 | Google Inc. | Techniques for translating documents including tags |
CN107943794A (zh) * | 2016-10-12 | 2018-04-20 | 阿里巴巴集团控股有限公司 | 一种翻译方法及系统 |
EP3392782A1 (en) * | 2017-04-18 | 2018-10-24 | Salesforce.com, Inc. | Natural language translation and localization |
CN110019810A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种本体匹配方法、装置和计算机存储介质 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109190131A (zh) * | 2018-09-18 | 2019-01-11 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
CN111401079A (zh) * | 2018-12-14 | 2020-07-10 | 波音公司 | 神经网络机器翻译模型的训练方法、装置及存储介质 |
CN110334360A (zh) * | 2019-07-08 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 机器翻译方法及装置、电子设备及存储介质 |
CN112257436A (zh) * | 2020-09-29 | 2021-01-22 | 华为技术有限公司 | 文本检测方法及装置 |
CN112163434A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本翻译方法、装置、介质及电子设备 |
CN112257462A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于神经机器翻译技术的超文本标记语言翻译方法 |
Non-Patent Citations (1)
Title |
---|
李忠豪: "结合句法和词法信息的神经网络机器翻译模型研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114997185B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062096B2 (en) | Displaying information in multiple languages based on optical code reading | |
CN108959274B (zh) | 一种应用程序的翻译方法及服务器 | |
CN111666776B (zh) | 文档翻译方法和装置、存储介质和电子设备 | |
CN107945796B (zh) | 语音识别方法、装置、设备及计算机可读介质 | |
CN109101498B (zh) | 翻译方法、装置及移动终端 | |
US20170249934A1 (en) | Electronic device and method for operating the same | |
US11295064B2 (en) | Method for transmitting information at user device side and network device side | |
US10402474B2 (en) | Keyboard input corresponding to multiple languages | |
US20230334880A1 (en) | Hot word extraction method and apparatus, electronic device, and medium | |
CN111382748B (zh) | 图像翻译方法、装置及存储介质 | |
CN111860000A (zh) | 文本翻译编辑方法、装置、电子设备及存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN107248947B (zh) | 表情处理方法及装置、计算机设备及存储介质 | |
CN114997185B (zh) | 翻译方法、介质、程序产品及电子设备 | |
WO2020124454A1 (zh) | 字体切换方法及相关产品 | |
US11256880B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
RU2602330C2 (ru) | Способ и система облачного перевода для мобильного клиента | |
CN108875748B (zh) | 无线访问接入点信息的生成方法、设备和计算机可读介质 | |
CN113591437A (zh) | 游戏文本翻译方法、电子设备及存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN108924905A (zh) | 无线访问接入点信息的生成方法、设备和计算机可读介质 | |
CN111368558B (zh) | 基于神经网络的实时翻译方法、智能终端及存储介质 | |
WO2022179329A1 (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN115761744A (zh) | 一种文本识别方法、拍照翻译方法及相关设备 | |
CN116414787A (zh) | 图片分享方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |