CN111652007A - 一种多种语言混合文件的翻译方法及装置 - Google Patents

一种多种语言混合文件的翻译方法及装置 Download PDF

Info

Publication number
CN111652007A
CN111652007A CN202010519194.1A CN202010519194A CN111652007A CN 111652007 A CN111652007 A CN 111652007A CN 202010519194 A CN202010519194 A CN 202010519194A CN 111652007 A CN111652007 A CN 111652007A
Authority
CN
China
Prior art keywords
file
type
sentence
translated
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010519194.1A
Other languages
English (en)
Inventor
刘鹏
周玉
邓彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202010519194.1A priority Critical patent/CN111652007A/zh
Publication of CN111652007A publication Critical patent/CN111652007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种多种语言混合文件的翻译方法及装置,包括:对待翻译文件的文件类型进行解析,得到文件类型;调用对应的文件解析模块,对待翻译文件进行文件解析,将待翻译文件解析成待翻译的文本;待翻译的文本包括文本内容信息以及文本属性信息;识别每个句子的类型,并采用对应翻译处理方式。输出翻译后文件。优点为:在对待翻译文件进行翻译时,仅对待翻译文件中文本信息进行翻译,对于图和表格中的非文本内容不进行解析,最后,根据位置和格式信息,将译文直接回填到待翻译文件的对应位置,既加快了翻译速度,也保证了译文和原文格式的统一性。本发明提供的一种多种语言混合文件的翻译方法及装置,实现了对多种语言混合文件的快速高效翻译。

Description

一种多种语言混合文件的翻译方法及装置
技术领域
本发明属于翻译技术领域,具体涉及一种多种语言混合文件的翻译方法及装置。
背景技术
机器翻译是自然语言处理的翻译范围,主要研究如何将一种语言自动翻译为另外一种语言,解决人们之间的语言障碍问题。经过几十年的发展,机器翻译性能逐步提升,翻译效果显著提高。
文件翻译是机器翻译的重要应用场景,用于将一种语言的输入文件,自动翻译为另一种语言。
然而,现有的文件翻译方法,只能处理单一语种的翻译任务,即输入文件中只包含一种语言,无法处理输入文件中包括多种语种的翻译任务。
发明内容
针对现有技术存在的缺陷,本发明提供一种多种语言混合文件的翻译方法及装置,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种多种语言混合文件的翻译方法,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
优选的,步骤2中,所述文件类型包括word文件类型和Excel文件类型。
优选的,步骤3中,文本中每个句子在文本中的位置信息包括:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置是指在正文中的段号和句子号;表格位置是指:表格表号以及在对应表格中的行号列号;图位置是指:图的图号以及在对应图中的具体位置。
优选的,步骤3中,文本中每个句子的格式信息包括:字体、字号以及字特殊格式信息。
优选的,所述字特殊格式信息包括:字是否倾斜、字是否加粗以及字是否带下划线。
优选的,步骤4中,所述普通翻译模块包括神经网络翻译模块和统计翻译模块。
本发明还提供一种多种语言混合文件的翻译方法的翻译装置,包括:
输入模块,用于输入包含多种语言的待翻译文件;
接收模块,用于接收所述输入模块输入的包含多种语言的待翻译文件;
文件类型解析模块,用于对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;
查找模块,用于根据所述文件类型解析模块解析得到的待翻译文件的文件类型,查找对应关系表,得到对应的文件解析模块;
文件解析模块,用于对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
切分模块,用于将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
调用模块,用于对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
输出模块,用于输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
本发明提供的一种多种语言混合文件的翻译方法及装置具有以下优点:
本发明提供的一种多种语言混合文件的翻译方法及装置,在对待翻译文件进行翻译时,仅对待翻译文件中的文本信息进行翻译,对于图和表格中的非文本内容不进行解析,最后,根据位置和格式信息,将译文直接回填到待翻译文件的对应位置,既加快了翻译速度,也保证了译文和原文格式的统一性。本发明提供的一种多种语言混合文件的翻译方法及装置,实现了对多种语言混合文件的快速高效翻译。
附图说明
图1为本发明提供的一种多种语言混合文件的翻译方法的流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种多种语言混合文件的翻译方法及装置,能够快速高效的对多种语言混合文件进行翻译,从而满足人们的翻译需求。
参考图1,本发明提供一种多种语言混合文件的翻译方法,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;例如,文件类型包括word文件类型和Excel文件类型。
然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;也就是说,对于word文件类型,存在对应的word文件解析模块。对于Excel文件类型,存在对应的Excel文件解析模块。
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
本发明中,文件解析模块的功能是:从待翻译文件中提取文本信息,如果待翻译文件中存在表格,只提取表格中的文本内容以及文本在表格中的属性信息,并不提取表格本身。如果待翻译文件中存在图,也只提取图中的文本内容以及文本在图中的属性信息,并不提取图中的图案等信息。不同文件类型的待翻译文件需要调用对应的文件解析模块。
其中,文件解析模块解析到的所述待翻译的文本包括文本内容信息以及文本属性信息;
所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;
其中,文本中每个句子在文本中的位置信息包括但不限于:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置但不限于正文中的段号和句子号;表格位置但不限于:表格表号以及在对应表格中的行号列号;图位置但不限于:图的图号以及在对应图中的具体位置。
文本中每个句子的格式信息包括但不限于:字体、字号以及字特殊格式信息。字特殊格式信息包括但不限于:字是否倾斜、字是否加粗以及字是否带下划线。
其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型(如kg,mol)和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
本发明中,不同的句子类型,对应不同的处理方法。
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,例如,普通翻译模块包括神经网络翻译模块和统计翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
下面列举一个具体实施例:
待翻译文件为包含多种语言的word文件,其中,包括英文、日文、俄文语言,需要翻译成汉语。
步骤1,接收包含三种语言的待翻译文件;
步骤2,对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型为word文件类型;
步骤3,采用word文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;待翻译的文本包括:文本内容信息以及文本属性信息;
步骤4,将待翻译的文本按照段落、句子进行切分,得到句子级的内容信息。
段落的切分按照换行符进行,句子级的切分根据标点符号以及各个语种的特点进行。
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
文本翻译类型分类器通过以下方式训练形成:
根据文本内容、文本语种、文本在文档中的位置信息以及文本的格式信息的特征,训练一个文本翻译类型分类器,如SVM、贝叶斯、神经网络分类器。
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;例如英语、汉语、日语等。语种检测通过文本的前m个字符的n-gram,通过贝叶斯分类器判定。M的取值范围从1000到10000均可。
然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,例如,普通翻译模块包括神经网络翻译模块和统计翻译模块,实现英汉翻译、日汉翻译、俄汉翻译等,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;即:使用word文件解析器将翻译完成的句子回填到输入文件中。
步骤5,输出翻译后的word文件。即:最终输出结果为翻译为汉语的word文件。
本发明还提供一种多种语言混合文件的翻译装置,包括:
输入模块,用于输入包含多种语言的待翻译文件;
接收模块,用于接收所述输入模块输入的包含多种语言的待翻译文件;
文件类型解析模块,用于对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;
查找模块,用于根据所述文件类型解析模块解析得到的待翻译文件的文件类型,查找对应关系表,得到对应的文件解析模块;
文件解析模块,用于对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
切分模块,用于将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
调用模块,用于对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;即:根据文本中每个句子在文本中的位置信息、文本中每个句子的格式信息,将句子以相同的格式信息,按句子在文本中的位置信息,回填到待翻译文件的对应位置。也就是说,本发明中,翻译后得到的译文格式,与原文格式相同。
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
输出模块,用于输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
本发明提供的一种多种语言混合文件的翻译方法及装置,在对待翻译文件进行翻译时,仅对待翻译文件中的文本信息进行翻译,对于图和表格中的非文本内容不进行解析,最后,根据位置和格式信息,将译文直接回填到待翻译文件的对应位置,既加快了翻译速度,也保证了译文和原文格式的统一性。本发明提供的一种多种语言混合文件的翻译方法及装置,实现了对多种语言混合文件的快速高效翻译。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (7)

1.一种多种语言混合文件的翻译方法,其特征在于,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
2.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤2中,所述文件类型包括word文件类型和Excel文件类型。
3.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子在文本中的位置信息包括:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置是指在正文中的段号和句子号;表格位置是指:表格表号以及在对应表格中的行号列号;图位置是指:图的图号以及在对应图中的具体位置。
4.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子的格式信息包括:字体、字号以及字特殊格式信息。
5.根据权利要求4所述的一种多种语言混合文件的翻译方法,其特征在于,所述字特殊格式信息包括:字是否倾斜、字是否加粗以及字是否带下划线。
6.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤4中,所述普通翻译模块包括神经网络翻译模块和统计翻译模块。
7.一种权利要求1-6任一项所述的多种语言混合文件的翻译方法的翻译装置,其特征在于,包括:
输入模块,用于输入包含多种语言的待翻译文件;
接收模块,用于接收所述输入模块输入的包含多种语言的待翻译文件;
文件类型解析模块,用于对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;
查找模块,用于根据所述文件类型解析模块解析得到的待翻译文件的文件类型,查找对应关系表,得到对应的文件解析模块;
文件解析模块,用于对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
切分模块,用于将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
调用模块,用于对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
输出模块,用于输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
CN202010519194.1A 2020-06-09 2020-06-09 一种多种语言混合文件的翻译方法及装置 Pending CN111652007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519194.1A CN111652007A (zh) 2020-06-09 2020-06-09 一种多种语言混合文件的翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519194.1A CN111652007A (zh) 2020-06-09 2020-06-09 一种多种语言混合文件的翻译方法及装置

Publications (1)

Publication Number Publication Date
CN111652007A true CN111652007A (zh) 2020-09-11

Family

ID=72349978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519194.1A Pending CN111652007A (zh) 2020-06-09 2020-06-09 一种多种语言混合文件的翻译方法及装置

Country Status (1)

Country Link
CN (1) CN111652007A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580446A (zh) * 2020-12-04 2021-03-30 北京中科凡语科技有限公司 视频字幕翻译方法、系统、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912534A (zh) * 2016-05-09 2016-08-31 珠海市魅族科技有限公司 一种翻译方法和装置
CN106844355A (zh) * 2017-01-16 2017-06-13 中译语通科技(北京)有限公司 一种日期时间自动翻译控制方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912534A (zh) * 2016-05-09 2016-08-31 珠海市魅族科技有限公司 一种翻译方法和装置
CN106844355A (zh) * 2017-01-16 2017-06-13 中译语通科技(北京)有限公司 一种日期时间自动翻译控制方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580446A (zh) * 2020-12-04 2021-03-30 北京中科凡语科技有限公司 视频字幕翻译方法、系统、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
US20090106018A1 (en) Word translation device, translation method, and computer readable medium
US20130197896A1 (en) Resolving out-of-vocabulary words during machine translation
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
US20120136647A1 (en) Machine translation apparatus and non-transitory computer readable medium
CN111259652A (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
Na et al. Phrase-based statistical model for korean morpheme segmentation and POS tagging
Nguyen et al. Named entity recognition for Vietnamese
CN111652007A (zh) 一种多种语言混合文件的翻译方法及装置
Homburg et al. Word segmentation for Akkadian cuneiform
CA3110046A1 (en) Machine learning lexical discovery
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
CN102135957A (zh) 一种翻译短句的方法及装置
EP3719676A1 (en) Language processing method and device
CN104699662A (zh) 识别整体符号串的方法和装置
CN106775914B (zh) 一种自动生成键值的代码国际化方法及装置
Kaji et al. Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakana words
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
WO2008131509A1 (en) Systems and methods for improving translation systems
JPS59165179A (ja) 辞書引方式
Homburg et al. Akkadian word segmentation
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
CN111443979B (zh) 文档处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication