CN110728156A - 翻译方法、装置、电子设备及可读存储介质 - Google Patents
翻译方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110728156A CN110728156A CN201911313715.1A CN201911313715A CN110728156A CN 110728156 A CN110728156 A CN 110728156A CN 201911313715 A CN201911313715 A CN 201911313715A CN 110728156 A CN110728156 A CN 110728156A
- Authority
- CN
- China
- Prior art keywords
- content
- translated
- translation
- knowledge
- language type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 278
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000002360 preparation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种翻译方法、装置、电子设备及可读存储介质,涉及翻译技术。本申请实施例通过根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
Description
技术领域
涉及计算机技术,具体涉及翻译技术,尤其涉及一种翻译方法、装置、电子设备及可读存储介质。
背景技术
传统的机器翻译是以句子为翻译单位,进行翻译处理。
然后,由于是以句子为翻译单元所进行的翻译处理,会使得句子与句子之间相互独立,可能会出现同一待翻译内容,其翻译结果前后不一致的情况,从而降低了翻译结果的可理解度。
发明内容
本申请的多个方面提供一种翻译方法、装置、电子设备及可读存储介质,用以提高翻译结果的质量。
本申请的一方面,提供一种翻译方法,包括:
根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容;其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容;
利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述待翻译内容的关联信息,包括下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据待翻译内容的关联信息,获得至少一个知识内容,包括:
获取所述待翻译内容的关联信息;
根据所述待翻译内容的关联信息,获得搜索结果;
对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述各知识内容还包括标志位,用于指示该知识内容所包括的语言类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,包括:
利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容;
获得所述转换内容的翻译结果;
将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述至少一个知识内容,加入到翻译模型中,进行所述翻译模型的模型训练;
利用所述翻译模型,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述至少一个知识内容,作为翻译模型的新增训练数据,进行所述翻译模型的模型训练;
利用所述翻译模型,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述待翻译内容包括文本输入内容和语音识别结果中的至少一项。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,获得所述待翻译内容的翻译结果之前,还包括:
利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个知识内容,对所述待翻译内容进行内容修正,包括:
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为所述第一语言类型的内容,以获得正确的待翻译内容。
本申请的另一方面,提供一种翻译装置,包括:
准备单元,用于根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容;其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容;
翻译单元,用于利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述待翻译内容的关联信息,包括下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述准备单元,具体用于
获取所述待翻译内容的关联信息;
根据所述待翻译内容的关联信息,获得搜索结果;以及
对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述各知识内容还包括标志位,用于指示该知识内容所包括的语言类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述翻译单元,具体用于
利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述翻译单元,具体用于
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容;
获得所述转换内容的翻译结果;以及
将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述翻译单元,具体用于
将所述至少一个知识内容,加入到翻译模型中,进行所述翻译模型的模型训练;以及
利用所述翻译模型,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述翻译单元,具体用于
将所述至少一个知识内容,作为翻译模型的新增训练数据,进行所述翻译模型的模型训练;以及
利用所述翻译模型,获得所述待翻译内容的翻译结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述待翻译内容包括文本输入内容和语音识别结果中的至少一项。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述翻译单元,还用于
利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
本发明的另一方面,提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
本发明的另一方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
由上述技术方案可知,本申请实施例通过根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
另外,采用本申请所提供的技术方案,通过将待翻译内容所对应的语言类型和所述待翻译内容的翻译结果所对应的语言类型、待翻译内容的题目信息、作者信息和领域信息中的至少一项这些待翻译内容的关联信息,作为构建本次翻译任务的全局信息的依据,使得所构建的全局信息能够更加全面地辅助本次翻译任务,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过在各知识内容中进一步包括用于指示该知识内容所包括的语言类型的标志位,使得能够指示该知识内容是否包含双语内容,能够有效提高知识内容的使用效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,使得能够获得所述待翻译内容的翻译结果,操作简单,能够有效提高翻译效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果,由于将本次翻译任务的全局信息引入了翻译模型,使得所构建的翻译模型能够精准完成本次翻译任务的特定内容的输出,从而进一步提高了翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行内容修正,尤其在语音识别结果作为待翻译内容的语音翻译场景,能够将错误的语音识别结果在翻译之前就及时进行修正,进而,获得正确的翻译结果,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。
上述方面或可能的实现方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图仅仅用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请一实施例提供的翻译方法的流程示意图;
图2为本申请另一实施例提供的翻译装置的结构示意图;
图3是用来实现本申请实施例提供的翻译方法的电子设备的示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请一实施例提供的翻译方法的流程示意图,如图1所示。
101、根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容。
其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容。
所谓的第一语言类型与第二语言类型,是指两个不同的语言类型,可以分别表示待翻译内容的语言类型和翻译结果的语言类型。例如,第一语言类型为汉语,第二语言类型为英语;或者,再例如,第一语言类型为法语,第二语言类型为汉语等。
102、利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
所谓的待翻译内容,是指本次翻译任务中需要翻译的内容,该内容所对应的语音类型为第一语言类型或者第二语言类型。
需要说明的是,101~102的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的测试平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
本申请所提供的翻译方法,适用于任何翻译场景,例如,科技文献翻译场景、论文翻译场景、演讲中的同声翻译场景等。
可选地,在本实施例的一个可能的实现方式中,所述待翻译内容的关联信息,可以包括但不限于下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
以演讲中的同声翻译场景为例,在对待翻译内容即演讲内容进行翻译之前,可以先确定演讲的语言类型、翻译之后的语言类型、演讲题目、演讲人的姓名、演讲人的单位、演讲领域等演讲的关联信息。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述待翻译内容的关联信息,进而,则可以根据所述待翻译内容的关联信息,获得搜索结果。然后,可以对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
具体地,具体可以利用所述待翻译内容的关联信息,进行全网信息搜索,产生文档库。这样,文档库就包含了待翻译内容相关的素材。进一步地,还可以进一步对文档库进行信息提取处理,以获得所述至少一个知识内容,从而组成翻译知识库,以作为本次翻译任务的全局信息。
其中,信息提取处理的过程,可以包括但不限于分词过程、噪声过滤过程、关键词识别过程(术语、命名实体等)等自然语言处理技术过程,本实施例对此不进行特别限定。对于能够提取出包含待翻译内容的语言类型和翻译结果的语言类型的双语信息即第一语言类型的内容和第二语言类型的内容,可以保留双语信息。
可选地,在本实施例的一个可能的实现方式中,在101中所获得的各知识内容还可以进一步包括标志位,用于指示该知识内容所包括的语言类型。这样,各知识内容都是一个三元组<标志位,第一语言类型的内容,第二语言类型的内容>。例如,1表示两个语言类型即双语信息;0表示一个语言类型即待翻译内容的语言类型。
在该实现方式中,通过各知识内容中的标志位,使得能够指示该知识内容是否包含双语内容,利用该标志位可以迅速确定该知识内容中是否包含翻译结果,能够有效提高知识内容的使用效率。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
在一个具体的实现过程中,具体可以判断所述待翻译内容中是否存在匹配所述至少一个知识内容中第一语言类型的内容的部分。如果所述待翻译内容中存在匹配所述至少一个知识内容中第一语言类型的内容的部分,再进一步判断该知识内容中是否存在所述匹配的所述至少一个知识内容中第一语言类型的内容所对应有第二语言类型的内容。
如果所述匹配的所述至少一个知识内容中存在第一语言类型的内容所对应的第二语言类型的内容,则可以将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容。
进一步地,还可以进一步将特殊字符与所述匹配的所述至少一个知识内容中存在第一语言类型的内容所对应的第二语言类型的内容之间的对应关系进行记录。
如果所述匹配的所述至少一个知识内容中不存在第一语言类型的内容所对应的第二语言类型的内容,则不再进行特殊字符的替换处理,可以采用现有的翻译方法,直接获得待翻译内容的翻译结果;或者还可以仍然将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容,并进一步将该特殊符号的对应关系记录为无或者其他预设标记,以便后续在进行该特殊符号的还原处理时,可以采用相应的措施。
在获得替换了特殊字符的转换内容之后,则可以采用现有的翻译方法,获得所述转换内容的翻译结果。其中,所采用的翻译方法可以为任何方法,本实施例对此不进行限定。
在获得所述转换内容的翻译结果之后,则可以根据所记录的对应关系,进一步将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
例如,待翻译内容为【我们公司的新产品“智秘书”】,如果采用现有的翻译方法,待翻译内容为【我们公司的新产品“智秘书”】中【“智秘书”】则会被翻译为【intelligentsecretary】。这就会导致该翻译结果不容易被理解,从而降低了翻译质量。
那么,采用本申请所提供的技术方案,在对待翻译内容【我们公司的新产品“智秘书”】的识别过程中,通过查找预先获得的翻译知识库,如果待翻译内容【我们公司的新产品“智秘书”】中【“智秘书”】匹配到所述至少一个知识内容中“智秘书”,且所述匹配的所述至少一个知识内容中存在“智秘书”所对应的“xiaozhi”,则可以将待翻译内容【我们公司的新产品“智秘书”】中【“智秘书”】,替换为特殊字符<KW>,以获得转换内容【我们公司的新产品<KW>】。在获得转换内容【我们公司的新产品<KW>】的翻译结果之后,则可以再将其中的<KW>还原为所对应的“xiaozhi”。
在获得所述转换内容的翻译结果之后,如果所记录的该特殊符号的对应关系为无或者其他预设标记,则需要采用相应的措施,进行特殊符号的还原处理,例如,直接采用特殊符号所对应的第一语言类型的内容的音译结果进行还原处理等、利用特殊符号所对应的第一语言类型的内容查找本次翻译任务的应急词汇表格进行还原处理等。
在另一个具体的实现过程中,具体可以利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果。
所谓的翻译模型,用于将一种语言类型的内容转换为另一种语言类型的内容。具体地,具体可以采用预先指定的训练样本集,进行训练,以构建翻译模型,用以将一种语言类型的内容转换为另一种语言类型的内容。其中,训练样本集中所包含的训练样本,可以为经过标注的已知样本,这样,可以直接利用这些已知样本进行训练,以构建翻译模型;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始翻译模型,然后,再利用初始翻译模型对未知样本进行评测,以获得识别结果,进而则可以根据未知样本的识别结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的翻译模型,直到所构建的翻译模型或已知样本满足翻译模型的截止条件为止,如识别准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
例如,具体可以将所述至少一个知识内容,加入到所述翻译模型中,进行所述翻译模型的模型训练。
或者,再例如,具体可以将所述至少一个知识内容,作为所述翻译模型的新增训练数据,进行所述翻译模型的模型训练。
在新增训练数据中,一部分可以为经过标注的已知样本即所述至少一个知识内容中包括第一语言类型的内容和第二语言类型的内容的各知识内容这二种语言类型的内容,另一部分可以为没有经过标注的未知样本即即所述至少一个知识内容中只包括第一语言类型的内容或第二语言类型的内容的各知识内容这一种语言类型的内容,采用前述的模型训练方法,进行翻译模型的模型训练。
在实现方式中,通过利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果,由于将本次翻译任务的全局信息引入了翻译模型,使得所构建的翻译模型能够精准完成本次翻译任务的特定内容的输出,从而进一步提高了翻译结果的可靠性。
可选地,在本实施例的一个可能的实现方式中,所述待翻译内容可以为文本输入内容,或者还可以为语音识别结果,或者还可以为文本输入内容和语音识别结果,本实施例对此不进行特别限定。
在所述待翻译内容为语音识别结果的情况之下,在102之前,还可以进一步利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
具体地,具体可以将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为所述第一语言类型的内容,以获得正确的待翻译内容。
例如,在演讲场景中,在对演讲者的演讲内容进行语音识别处理时,其语音识别结果为【今天我演讲的题目是“人工智能,制造未来”】。如果不对其修正,将其直接作为待翻译内容,则会获得错误的待翻译内容【今天我演讲的题目是“人工智能,制造未来”】。
那么,采用本申请所提供的技术方案,在语音识别结果【今天我演讲的题目是“人工智能,制造未来”】的识别过程中,通过查找预先获得的翻译知识库,可以将语音识别结果【今天我演讲的题目是“人工智能,制造未来”】中【制造】,修正为【智造】,从而获得正确的待翻译内容【今天我演讲的题目是“人工智能,智造未来”】。
在实现方式中,通过利用所述至少一个知识内容,对所述待翻译内容进行内容修正,尤其在语音识别结果作为待翻译内容的语音翻译场景,能够将错误的语音识别结果在翻译之前就及时进行修正,进而,获得正确的翻译结果,能够有效提高翻译结果的可靠性。
本申请所提供的代码检测方法,保证了测试代码的稳定性,具有以下几个优势:
1、可以利用预先获得的翻译知识库(即本次翻译任务的全局信息),修正语音识别结果;
2、可以利用预先获得的翻译知识库(即本次翻译任务的全局信息),修正翻译结果;
3、可以保证翻译结果的前后一致性,提高翻译结果的可懂度。
本实施例中,通过根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
另外,采用本申请所提供的技术方案,通过将待翻译内容所对应的语言类型和所述待翻译内容的翻译结果所对应的语言类型、待翻译内容的题目信息、作者信息和领域信息中的至少一项这些待翻译内容的关联信息,作为构建本次翻译任务的全局信息的依据,使得所构建的全局信息能够更加全面地辅助本次翻译任务,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过在各知识内容中进一步包括用于指示该知识内容所包括的语言类型的标志位,使得能够指示该知识内容是否包含双语内容,能够有效提高知识内容的使用效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,使得能够获得所述待翻译内容的翻译结果,操作简单,能够有效提高翻译效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果,由于将本次翻译任务的全局信息引入了翻译模型,使得所构建的翻译模型能够精准完成本次翻译任务的特定内容的输出,从而进一步提高了翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行内容修正,尤其在语音识别结果作为待翻译内容的语音翻译场景,能够将错误的语音识别结果在翻译之前就及时进行修正,进而,获得正确的翻译结果,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的翻译装置的结构示意图,如图2所示。本实施例的翻译装置200可以包括类型准备单元201和翻译单元202。其中,准备单元201,用于根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容;其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容;翻译单元202,用于利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
需要说明的是,本实施例所提供的翻译装置的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的测试平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述待翻译内容的关联信息,可以包括但不限于下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
可选地,在本实施例的一个可能的实现方式中,所述准备单元201,具体可以用于获取所述待翻译内容的关联信息;根据所述待翻译内容的关联信息,获得搜索结果;以及对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
可选地,在本实施例的一个可能的实现方式中,所述准备单元201所获得的所述各知识内容还可以进一步包括标志位,用于指示该知识内容所包括的语言类型。
可选地,在本实施例的一个可能的实现方式中,所述翻译单元202,具体可以用于利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
在一个具体的实现过程中,所述翻译单元202,具体可以用于将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容;获得所述转换内容的翻译结果;以及将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
在另一个具体的实现过程中,所述翻译单元202,具体可以用于利用所述至少一个知识内容,进行翻译模型的模型训练;以及利用所述翻译模型,获得所述待翻译内容的翻译结果。
例如,所述翻译单元202,具体可以用于将所述至少一个知识内容,加入到所述翻译模型中,进行所述翻译模型的模型训练。
或者,再例如,所述翻译单元202,具体可以用于将所述至少一个知识内容,作为翻译模型的新增训练数据,进行所述翻译模型的模型训练。
可选地,在本实施例的一个可能的实现方式中,所述翻译单元202,还可以进一步用于利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
例如,所述翻译单元202,具体可以用于将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为所述第一语言类型的内容,以获得正确的待翻译内容。
需要说明的是,图1对应的实施例中的方法可以由本实施例提供的翻译装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过准备单元根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得翻译单元能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
另外,采用本申请所提供的技术方案,通过将待翻译内容所对应的语言类型和所述待翻译内容的翻译结果所对应的语言类型、待翻译内容的题目信息、作者信息和领域信息中的至少一项这些待翻译内容的关联信息,作为构建本次翻译任务的全局信息的依据,使得所构建的全局信息能够更加全面地辅助本次翻译任务,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过在各知识内容中进一步包括用于指示该知识内容所包括的语言类型的标志位,使得能够指示该知识内容是否包含双语内容,能够有效提高知识内容的使用效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,使得能够获得所述待翻译内容的翻译结果,操作简单,能够有效提高翻译效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果,由于将本次翻译任务的全局信息引入了翻译模型,使得所构建的翻译模型能够精准完成本次翻译任务的特定内容的输出,从而进一步提高了翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行内容修正,尤其在语音识别结果作为待翻译内容的语音翻译场景,能够将错误的语音识别结果在翻译之前就及时进行修正,进而,获得正确的翻译结果,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。
根据本申请的实施例,本申请还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。
如图3所示,是用来实现本申请实施例提供的翻译方法的电子设备的示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图3所示,该电子设备包括:一个或多个处理器301、存储器302,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图3中以一个处理器301为例。
存储器302即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的翻译方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的翻译方法。
存储器302作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及单元,如本申请实施例中的翻译方法对应的程序指令/单元(例如,附图2所示的准备单元201和翻译单元202)。处理器301通过运行存储在存储器302中的非瞬时软件程序、指令以及单元,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的翻译方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现本申请实施例提供的翻译方法的电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至实现本申请实施例提供的翻译方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
翻译方法的电子设备还可以包括:输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
输入装置303可接收输入的数字或字符信息,以及产生与实现本申请实施例提供的翻译方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置304可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用专用集成电路(ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(CRT)或者液晶显示器(LCD)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容,使得能够利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,由于将预先获得的至少一个知识内容作为本次翻译任务的全局信息,使得能够保证同一待翻译内容,其翻译结果前后一致,从而提高了翻译结果的质量。
另外,采用本申请所提供的技术方案,通过将待翻译内容所对应的语言类型和所述待翻译内容的翻译结果所对应的语言类型、待翻译内容的题目信息、作者信息和领域信息中的至少一项这些待翻译内容的关联信息,作为构建本次翻译任务的全局信息的依据,使得所构建的全局信息能够更加全面地辅助本次翻译任务,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过在各知识内容中进一步包括用于指示该知识内容所包括的语言类型的标志位,使得能够指示该知识内容是否包含双语内容,能够有效提高知识内容的使用效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,使得能够获得所述待翻译内容的翻译结果,操作简单,能够有效提高翻译效率。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,进行翻译模型的模型训练,进而,则可以利用所述翻译模型,获得所述待翻译内容的翻译结果,由于将本次翻译任务的全局信息引入了翻译模型,使得所构建的翻译模型能够精准完成本次翻译任务的特定内容的输出,从而进一步提高了翻译结果的可靠性。
另外,采用本申请所提供的技术方案,通过利用所述至少一个知识内容,对所述待翻译内容进行内容修正,尤其在语音识别结果作为待翻译内容的语音翻译场景,能够将错误的语音识别结果在翻译之前就及时进行修正,进而,获得正确的翻译结果,能够有效提高翻译结果的可靠性。
另外,采用本申请所提供的技术方案,能够有效地提高用户的体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (22)
1.一种翻译方法,其特征在于,包括:
根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容;其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容;
利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述待翻译内容的关联信息,包括下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
3.根据权利要求1所述的方法,其特征在于,所述根据待翻译内容的关联信息,获得至少一个知识内容,包括:
获取所述待翻译内容的关联信息;
根据所述待翻译内容的关联信息,获得搜索结果;
对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
4.根据权利要求1所述的方法,其特征在于,所述各知识内容还包括标志位,用于指示该知识内容所包括的语言类型。
5.根据权利要求1所述的方法,其特征在于,所述利用所述至少一个知识内容,获得所述待翻译内容的翻译结果,包括:
利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
6.根据权利要求5所述的方法,其特征在于,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容;
获得所述转换内容的翻译结果;
将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
7.根据权利要求5所述的方法,其特征在于,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述至少一个知识内容,加入到翻译模型中,进行所述翻译模型的模型训练;
利用所述翻译模型,获得所述待翻译内容的翻译结果。
8.根据权利要求5所述的方法,其特征在于,所述利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果,包括:
将所述至少一个知识内容,作为翻译模型的新增训练数据,进行所述翻译模型的模型训练;
利用所述翻译模型,获得所述待翻译内容的翻译结果。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述利用所述至少一个知识内容,获得所述待翻译内容的翻译结果之前,还包括:
利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
10.根据权利要求9所述的方法,其特征在于,所述利用所述至少一个知识内容,对所述待翻译内容进行内容修正,包括:
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为所述第一语言类型的内容,以获得正确的待翻译内容。
11.一种翻译装置,其特征在于,包括:
准备单元,用于根据待翻译内容的关联信息,获得至少一个知识内容,所述至少一个知识内容中各知识内容包括第一语言类型的内容和第二语言类型的内容;其中,所述第二语言类型的内容为所述第一语言类型的内容在所述第二语言类型中所对应的多个内容中的一个内容;
翻译单元,用于利用所述至少一个知识内容,获得所述待翻译内容的翻译结果。
12.根据权利要求11所述的装置,其特征在于,所述待翻译内容的关联信息,包括下列信息中的至少一项:
所述待翻译内容所对应的语言类型,所述待翻译内容的翻译结果所对应的语言类型;
所述待翻译内容的题目信息;
所述待翻译内容的作者信息;以及
所述待翻译内容的领域信息。
13.根据权利要求11所述的装置,其特征在于,所述准备单元,具体用于
获取所述待翻译内容的关联信息;
根据所述待翻译内容的关联信息,获得搜索结果;以及
对所述搜索结果进行信息提取处理,获得所述至少一个知识内容。
14.根据权利要求11所述的装置,其特征在于,所述各知识内容还包括标志位,用于指示该知识内容所包括的语言类型。
15.根据权利要求11所述的装置,其特征在于,所述翻译单元,具体用于
利用所述至少一个知识内容,对所述待翻译内容进行受限制解码处理,以获得所述待翻译内容的翻译结果。
16.根据权利要求15所述的装置,其特征在于,所述翻译单元,具体用于
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为特殊字符,以获得转换内容;
获得所述转换内容的翻译结果;以及
将所述转换内容的翻译结果中的特殊符号,还原为所述特殊符号所对应的第二语言类型的内容,以获得所述待翻译内容的翻译结果。
17.根据权利要求15所述的装置,其特征在于,所述翻译单元,具体用于
将所述至少一个知识内容,加入到翻译模型中,进行所述翻译模型的模型训练;以及
利用所述翻译模型,获得所述待翻译内容的翻译结果。
18.根据权利要求15所述的装置,其特征在于,所述翻译单元,具体用于
将所述至少一个知识内容,作为翻译模型的新增训练数据,进行所述翻译模型的模型训练;以及
利用所述翻译模型,获得所述待翻译内容的翻译结果。
19.根据权利要求11-18中任一项所述的装置,其特征在于,所述翻译单元,还用于
利用所述至少一个知识内容,对所述待翻译内容进行内容修正。
20.根据权利要求19所述的装置,其特征在于,所述翻译单元,具体用于
将所述待翻译内容中匹配所述至少一个知识内容中第一语言类型的内容的部分,替换为所述第一语言类型的内容,以获得正确的待翻译内容。
21.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911313715.1A CN110728156B (zh) | 2019-12-19 | 2019-12-19 | 翻译方法、装置、电子设备及可读存储介质 |
US16/861,750 US11574135B2 (en) | 2019-12-19 | 2020-04-29 | Method, apparatus, electronic device and readable storage medium for translation |
EP20173559.4A EP3839799A1 (en) | 2019-12-19 | 2020-05-07 | Method, apparatus, electronic device and readable storage medium for translation |
JP2020092008A JP2021099771A (ja) | 2019-12-19 | 2020-05-27 | 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム |
KR1020200068049A KR20210080150A (ko) | 2019-12-19 | 2020-06-05 | 번역 방법, 장치, 전자 기기 및 판독 가능 저장 매체 |
JP2022195689A JP2023027194A (ja) | 2019-12-19 | 2022-12-07 | 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911313715.1A CN110728156B (zh) | 2019-12-19 | 2019-12-19 | 翻译方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728156A true CN110728156A (zh) | 2020-01-24 |
CN110728156B CN110728156B (zh) | 2020-07-10 |
Family
ID=69226452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911313715.1A Active CN110728156B (zh) | 2019-12-19 | 2019-12-19 | 翻译方法、装置、电子设备及可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11574135B2 (zh) |
EP (1) | EP3839799A1 (zh) |
JP (2) | JP2021099771A (zh) |
KR (1) | KR20210080150A (zh) |
CN (1) | CN110728156B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401323A (zh) * | 2020-04-20 | 2020-07-10 | Oppo广东移动通信有限公司 | 文字翻译方法、装置、存储介质及电子设备 |
CN111563389A (zh) * | 2020-04-20 | 2020-08-21 | 富途网络科技(深圳)有限公司 | 一种用户原创内容的翻译方法和装置 |
CN112560511A (zh) * | 2020-12-14 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 台词翻译方法、装置及翻译模型训练方法、装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200705223A (en) * | 2005-07-19 | 2007-02-01 | Inventec Besta Co Ltd | Full sentence translation advanced searching system and method |
TW201220088A (en) * | 2010-11-03 | 2012-05-16 | Inst Information Industry | Text conversion method and system |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
US20170242847A1 (en) * | 2016-02-19 | 2017-08-24 | Kabushiki Kaisha Toshiba | Apparatus and method for translating a meeting speech |
CN109871546A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译系统 |
CN109871548A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08185407A (ja) | 1994-12-28 | 1996-07-16 | Sharp Corp | 通訳装置 |
JP3429612B2 (ja) | 1995-09-28 | 2003-07-22 | 沖電気工業株式会社 | 辞書登録装置及び機械翻訳装置 |
AU2003287664A1 (en) * | 2002-11-22 | 2004-06-18 | Transclick, Inc. | System and method for language translation via remote devices |
US8612203B2 (en) | 2005-06-17 | 2013-12-17 | National Research Council Of Canada | Statistical machine translation adapted to context |
US11222185B2 (en) * | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8275604B2 (en) * | 2009-03-18 | 2012-09-25 | Microsoft Corporation | Adaptive pattern learning for bilingual data mining |
US8306807B2 (en) * | 2009-08-17 | 2012-11-06 | N T repid Corporation | Structured data translation apparatus, system and method |
JP5752150B2 (ja) | 2010-02-01 | 2015-07-22 | ジンジャー ソフトウェア、インコーポレイティッド | 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 |
WO2012027672A1 (en) * | 2010-08-26 | 2012-03-01 | Google Inc. | Conversion of input text strings |
KR101762866B1 (ko) | 2010-11-05 | 2017-08-16 | 에스케이플래닛 주식회사 | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 |
JP5090547B2 (ja) * | 2011-03-04 | 2012-12-05 | 楽天株式会社 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
US9710463B2 (en) | 2012-12-06 | 2017-07-18 | Raytheon Bbn Technologies Corp. | Active error detection and resolution for linguistic translation |
NZ725675A (en) | 2013-06-03 | 2018-04-27 | Machine Zone Inc | Systems and methods for multi-user multi-lingual communications |
JP6186198B2 (ja) | 2013-07-17 | 2017-08-23 | 株式会社エヌ・ティ・ティ・データ | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
US20150039286A1 (en) | 2013-07-31 | 2015-02-05 | Xerox Corporation | Terminology verification systems and methods for machine translation services for domain-specific texts |
JP2016177341A (ja) | 2015-03-18 | 2016-10-06 | 株式会社エヌ・ティ・ティ・データ | 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム |
US10318640B2 (en) * | 2016-06-24 | 2019-06-11 | Facebook, Inc. | Identifying risky translations |
US10686750B2 (en) * | 2017-03-07 | 2020-06-16 | Verisign, Inc. | Alternate character set domain name suggestion and registration using translation and transliteration |
CN110532573B (zh) * | 2018-12-29 | 2022-10-11 | 苏州七星天专利运营管理有限责任公司 | 一种翻译方法和系统 |
CN111539229A (zh) * | 2019-01-21 | 2020-08-14 | 波音公司 | 神经机器翻译模型训练方法、神经机器翻译方法及装置 |
-
2019
- 2019-12-19 CN CN201911313715.1A patent/CN110728156B/zh active Active
-
2020
- 2020-04-29 US US16/861,750 patent/US11574135B2/en active Active
- 2020-05-07 EP EP20173559.4A patent/EP3839799A1/en not_active Ceased
- 2020-05-27 JP JP2020092008A patent/JP2021099771A/ja active Pending
- 2020-06-05 KR KR1020200068049A patent/KR20210080150A/ko not_active Application Discontinuation
-
2022
- 2022-12-07 JP JP2022195689A patent/JP2023027194A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200705223A (en) * | 2005-07-19 | 2007-02-01 | Inventec Besta Co Ltd | Full sentence translation advanced searching system and method |
TW201220088A (en) * | 2010-11-03 | 2012-05-16 | Inst Information Industry | Text conversion method and system |
US20170242847A1 (en) * | 2016-02-19 | 2017-08-24 | Kabushiki Kaisha Toshiba | Apparatus and method for translating a meeting speech |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
CN109871546A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译系统 |
CN109871548A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401323A (zh) * | 2020-04-20 | 2020-07-10 | Oppo广东移动通信有限公司 | 文字翻译方法、装置、存储介质及电子设备 |
CN111563389A (zh) * | 2020-04-20 | 2020-08-21 | 富途网络科技(深圳)有限公司 | 一种用户原创内容的翻译方法和装置 |
CN111563389B (zh) * | 2020-04-20 | 2023-11-03 | 富途网络科技(深圳)有限公司 | 一种用户原创内容的翻译方法和装置 |
CN112560511A (zh) * | 2020-12-14 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 台词翻译方法、装置及翻译模型训练方法、装置 |
CN112560511B (zh) * | 2020-12-14 | 2024-04-23 | 北京奇艺世纪科技有限公司 | 台词翻译方法、装置及翻译模型训练方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
US11574135B2 (en) | 2023-02-07 |
EP3839799A1 (en) | 2021-06-23 |
US20210192151A1 (en) | 2021-06-24 |
KR20210080150A (ko) | 2021-06-30 |
CN110728156B (zh) | 2020-07-10 |
JP2021099771A (ja) | 2021-07-01 |
JP2023027194A (ja) | 2023-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022028887A (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN110728156B (zh) | 翻译方法、装置、电子设备及可读存储介质 | |
CN112633017B (zh) | 翻译模型训练、翻译处理方法、装置、设备和存储介质 | |
CN110797005B (zh) | 韵律预测方法、装置、设备和介质 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN112001169A (zh) | 文本纠错的方法、装置、电子设备和可读存储介质 | |
CN111078825A (zh) | 结构化处理方法、装置、计算机设备及介质 | |
CN110532567A (zh) | 短语的提取方法、装置、电子设备及存储介质 | |
CN111708800A (zh) | 查询方法、装置及电子设备 | |
CN111753532A (zh) | 西文文本的纠错方法和装置、电子设备及存储介质 | |
CN111090991A (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
CN116012481A (zh) | 图像生成处理方法、装置、电子设备及存储介质 | |
CN112269862A (zh) | 文本角色标注方法、装置、电子设备和存储介质 | |
CN111522863A (zh) | 一种主题概念挖掘方法、装置、设备以及存储介质 | |
CN111079449B (zh) | 平行语料数据的获取方法、装置、电子设备和存储介质 | |
CN111858880A (zh) | 获取查询结果的方法、装置、电子设备和可读存储介质 | |
EP3825897A2 (en) | Method, apparatus, device, storage medium and program for outputting information | |
CN111310481B (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
CN112397050B (zh) | 韵律预测方法、训练方法、装置、电子设备和介质 | |
CN111339314B (zh) | 一种三元组数据的生成方法、装置和电子设备 | |
CN111026916B (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
US20230306196A1 (en) | System and method for spelling correction | |
CN112687271B (zh) | 语音翻译方法、装置、电子设备和存储介质 | |
CN112652311B (zh) | 中英文混合语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |