CN114564970A - 一种全自动语料对齐系统和方法 - Google Patents

一种全自动语料对齐系统和方法 Download PDF

Info

Publication number
CN114564970A
CN114564970A CN202210032776.6A CN202210032776A CN114564970A CN 114564970 A CN114564970 A CN 114564970A CN 202210032776 A CN202210032776 A CN 202210032776A CN 114564970 A CN114564970 A CN 114564970A
Authority
CN
China
Prior art keywords
english
sentence
language
document
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210032776.6A
Other languages
English (en)
Inventor
李光华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaguyi Beijing Language Technology Co ltd
Original Assignee
Jiaguyi Beijing Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaguyi Beijing Language Technology Co ltd filed Critical Jiaguyi Beijing Language Technology Co ltd
Priority to CN202210032776.6A priority Critical patent/CN114564970A/zh
Publication of CN114564970A publication Critical patent/CN114564970A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明具体涉及一种全自动语料对齐系统和方法,该全自动语料对齐系统包括预训练英文语言表示模型用于将英文段落或句子文本转化为数学向量,机器翻译模型用于将其他语种文本自动翻译为英文文本,相似度搜索算法模型用于执行批量向量搜索,字符级模糊匹配算法模型用于计算两个字符串之间的模糊匹配相似度,语言识别算法模型用于识别特定文档、句段的语种。该全自动语料对齐方法包括全自动语料双文档对齐方法和全自动语料单文档对齐方法。本发明能够将文本内容自动对齐,生成互为翻译关系的双语平行句对,并生成tmx记忆库文件,可供Trados、Memoq或Wordfast等计算机辅助翻译软件使用,也可直接用于训练机器翻译模型。

Description

一种全自动语料对齐系统和方法
技术领域
本发明属于计算机领域,具体涉及一种全自动语料对齐系统和方法。
背景技术
语料对齐,指把原文,译文两个语种的文档实现句子的一一对应,也可以实现段落的一一对应,以形成规范的语对。
目前,LF Aligner、Abbyy Aligner等传统语料对齐工具仅依靠规则进行对齐。需要人工处理文档,将其预先划分为合适的段落,手动移动左侧和右侧的原文和译文段落,对齐段落后再将段落拆分为句子再次手动对齐,直到所有句段完全对齐。
传统手动对齐的过程非常繁琐,需要上下移动句段,并且需要手动拆分或合并句段,几乎需要人工全程干预。一名水平较高的熟练专业译员1小时能够对齐的语料数量约为10000个汉字左右,效率较低。
目前有大量的语言文字数据未得到有效挖掘和利用,例如语言服务企业数十年积累的翻译语料(以原文译文上下排列或左右排列或者双文档形式存储)、从各类网站上爬取的多语种文本内容、海量文学作品的各个语言版本电子书等等,这些数据都无法直接转化为TMX等格式的翻译记忆库在Trados、Memoq或Wordfast等计算机辅助翻译软件中使用,也无法直接用来训练机器翻译模型。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种全自动语料对齐系统和方法,能够将单个文档(原文译文上下或左右排列)、双文档(原文文档、译文文档)、多语种网页、电子书等文本内容自动对齐,生成互为翻译关系的双语平行句对,可供Trados、Memoq或Wordfast等计算机辅助翻译软件使用,也可直接用于训练机器翻译模型。本发明要解决的技术问题通过以下技术方案实现:
一种全自动语料对齐系统,包括预训练英文语言表示模型、机器翻译模型、相似度搜索算法模型、字符级模糊匹配算法模型和语言识别算法模型;
所述预训练英文语言表示模型用于将英文段落或句子文本转化为数学向量;
所述机器翻译模型用于将其他语种文本自动翻译为英文文本;
所述相似度搜索算法模型用于执行批量向量搜索,给定一批向量,在另外一批向量中找到与每个给定向量最相似的前N个向量;
所述字符级模糊匹配算法模型用于计算两个字符串之间的模糊匹配相似度;
所述语言识别算法模型用于识别特定文档、句段的语种。
进一步,上述机器翻译模型为多语种到英文方向的机器翻译模型,包括中文到英语、日语到英语、德语到英语以及其他语种到英语。
一种全自动语料双文档对齐方法,主要包括如下步骤:
步骤一:分别读取两个未对齐文档中的文本内容,保留原始段落形式;
步骤二:判断待对齐的文档的语种,使用机器翻译模型将所有文本分别翻译为英文,得到原文文档和译文文档的英文表示;
步骤三:加载英文语言表示模型,将步骤二中原文文档和译文文档的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的原文文档和译文文档向量表示;
步骤四:使用相似度搜索算法在所有译文句段向量中为每个原文句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算原文句段的英文表示文本与步骤四中N个与原文句段向量最相似的向量代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的匹配度最高的文本以及上述流程列出对应的原文句段和译文句段,将此平行句段标记为已对齐句段;
步骤六:批量执行所述步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将所述句子级对齐结果插入到所述句段级别对齐结果中。
进一步,上述步骤二中判断待对齐的文档的语种,具体为:如果原文文档或译文文档为英文,对应的译文文档或原文文档为其他语种,使用机器翻译模型将其他语种文本翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文;原文文档为非英文语种,译文文档也为非英文语种,使用上述机器翻译模型将所有非英文文本分别翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文。
进一步,上述步骤七中的预设标准是指句段内的句子数量。
一种全自动语料单文档对齐方法,主要包括如下步骤:
步骤一:读取单文档中的所有文本内容,保留原始段落形式,按句段识别语种,分别存储为语种1集合和语种2集合;
步骤二:判断待对齐的文档的语种,使用机器翻译模型将所有文本翻译为英文,得到语种1集合和语种2集合的英文表示;
步骤三:加载英文语言表示模型,将语种1集合和语种2集合的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的语种1集合和语种2集合向量表示;
步骤四:使用相似度搜索算法在所有语种2句段向量中为每个语种1句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算语种2句段的英文表示文本与所述N个与语种1句段向量最相似的向量所代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的最佳文本以及列出对应的语种1句段和语种2句段,将此平行句段标记为已对齐句段;
步骤六:批量执行所述步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将所述句子级对齐结果插入到所述句段级别对齐结果中。
进一步,上述步骤二中判断待对齐的文档的语种具体为:
a.如果其中任一语种为英文,另一语种为其他非英语语种,使用机器翻译模型将其他语种文本翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文;
b.语种1集合和语种2集合均为非英文语种,使用机器翻译模型将所有非英文文本分别翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文。
进一步,上述步骤七中的预设标准是指句段内的句子数量。
与现有技术相比,本发明的有益效果:
1.本发明的全自动语料对齐系统能够将单个文档(原文译文上下或左右排列)、双文档(原文文档、译文文档)、多语种网页、电子书等文本内容自动对齐,生成互为翻译关系的双语平行句对,并生成tmx记忆库文件,可供Trados、Memoq或Wordfast等计算机辅助翻译软件使用,也可直接用于训练机器翻译模型;
2.本发明全自动语料对齐方法全程自动化无需人工干预,首先根据语义相似度执行段落对齐,然后在已对齐的较长段落内部执行再次对齐,自动将已对齐的过长句段拆分为句子再次对齐,得到更精细的句子级别的对齐结果;
3.本发明的全自动语料对齐方法,在单块GPU上运行每秒钟的处理量约为5000个汉字,仅需要2秒左右即可完成专业译员1小时的语料对齐工作量(10000个汉字左右)。
附图说明
图1是本实施例全自动语料对齐方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
本实施例提供了一种全自动语料对齐系统,该全自动语料对齐系统包括预训练英文语言表示模型、机器翻译模型、相似度搜索算法模型、字符级模糊匹配算法模型和语言识别算法模型。
预训练英文语言表示模型,用于将英文段落或句子文本转化为数学向量;机器翻译模型,用于将其他语种文本自动翻译为英文文本;相似度搜索算法模型,用于执行批量向量搜索,给定一批向量,在另外一批向量中找到与每个给定向量最相似的前N个向量;字符级模糊匹配算法模型,用于计算两个字符串之间的模糊匹配相似度;语言识别算法模型,用于识别特定文档、句段的语种。其中,机器翻译模型为多语种到英文方向的机器翻译模型,包括中文到英语、日语到英语、德语到英语以及其他语言到英语。
本实施例的全自动语料对齐系统能够将单个文档(原文译文上下或左右排列)、双文档(原文文档、译文文档)、多语种网页、电子书等文本内容自动对齐,生成互为翻译关系的双语平行句对,并生成tmx记忆库文件,可供Trados、Memoq或Wordfast等计算机辅助翻译软件使用,也可直接用于训练机器翻译模型。
实施例2:
本实施例提供了一种全自动语料双文档对齐方法,该全自动语料双文档对齐方法主要包括如下步骤:
步骤一:分别读取两个未对齐文档中的文本内容,保留原始段落形式;
步骤二:判断待对齐的文档的语种,如果原文文档或译文文档为英文,对应的译文文档或原文文档为其他语种,使用机器翻译模型将其他语种文本翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文;原文文档为非英文语种,译文文档也为非英文语种,使用上述机器翻译模型将所有非英文文本分别翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文;
步骤三:加载英文语言表示模型,将步骤二中原文文档和译文文档的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的原文文档和译文文档向量表示;
步骤四:使用相似度搜索算法在所有译文句段向量中为每个原文句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算原文句段的英文表示文本与步骤四中N个与原文句段向量最相似的向量代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的匹配度最高的文本以及上述流程列出对应的原文句段和译文句段,将此平行句段标记为已对齐句段;
步骤六:批量执行步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将句子级对齐结果插入到句段级别对齐结果中,其中,预设标准是指句段内的句子数量。
实施例3:
本实施例提供了一种全自动语料单文档对齐方法,该全自动语料单文档对齐方法主要包括如下步骤:
步骤一:读取单文档中的所有文本内容,保留原始段落形式,按句段识别语种,分别存储为语种1集合和语种2集合;
步骤二:判断待对齐的文档的语种,a.如果其中任一语种为英文,另一语种为其他非英语语种,使用机器翻译模型将其他语种文本翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文;b.语种1集合和语种2集合均为非英文语种,使用机器翻译模型将所有非英文文本分别翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文;
步骤三:加载英文语言表示模型,将语种1集合和语种2集合的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的语种1集合和语种2集合向量表示;
步骤四:使用相似度搜索算法在所有语种2句段向量中为每个语种1句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算语种2句段的英文表示文本与N个与语种1句段向量最相似的向量所代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的最佳文本以及列出对应的语种1句段和语种2句段,将此平行句段标记为已对齐句段;
步骤六:批量执行步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将句子级对齐结果插入到句段级别对齐结果中,其中,预设标准是指句段内的句子数量。
实施例2的全自动语料双文档对齐方法和实施例3的全自动语料单文档对齐方法,全程自动化无需人工干预,首先根据语义相似度执行段落对齐,然后在已对齐的较长段落内部执行再次对齐,自动将已对齐的过长句段拆分为句子再次对齐,得到更精细的句子级别的对齐结果;而且,实施例2的全自动语料双文档对齐方法和实施例3的全自动语料单文档对齐方法,在单块GPU上运行每秒钟的处理量约为5000个汉字,仅需要2秒左右即可完成专业译员1小时的语料对齐工作量(10000个汉字左右)。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种全自动语料对齐系统,其特征在于,包括预训练英文语言表示模型、机器翻译模型、相似度搜索算法模型、字符级模糊匹配算法模型和语言识别算法模型;
所述预训练英文语言表示模型用于将英文段落或句子文本转化为数学向量;
所述机器翻译模型用于将其他语种文本自动翻译为英文文本;
所述相似度搜索算法模型用于执行批量向量搜索,给定一批向量,在另外一批向量中找到与每个给定向量最相似的前N个向量;
所述字符级模糊匹配算法模型用于计算两个字符串之间的模糊匹配相似度;
所述语言识别算法模型用于识别特定文档、句段的语种。
2.根据权利要求1所述的全自动语料对齐系统,其特征在于,所述机器翻译模型为多语种到英文方向的机器翻译模型,包括中文到英语、日语到英语、德语到英语以及其他语种到英语。
3.一种全自动语料双文档对齐方法,其特征在于,主要包括如下步骤:
步骤一:分别读取两个未对齐文档中的文本内容,保留原始段落形式;
步骤二:判断待对齐的文档的语种,使用机器翻译模型将所有文本分别翻译为英文,得到原文文档和译文文档的英文表示;
步骤三:加载英文语言表示模型,将步骤二中原文文档和译文文档的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的原文文档和译文文档向量表示;
步骤四:使用相似度搜索算法在所有译文句段向量中为每个原文句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算原文句段的英文表示文本与步骤四中N个与原文句段向量最相似的向量代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的匹配度最高的文本以及上述流程列出对应的原文句段和译文句段,将此平行句段标记为已对齐句段;
步骤六:批量执行所述步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将所述句子级对齐结果插入到所述句段级别对齐结果中。
4.根据权利要求3所述的全自动语料双文档对齐方法,其特征在于,所述步骤二中判断待对齐的文档的语种,具体为:如果原文文档或译文文档为英文,对应的译文文档或原文文档为其他语种,使用机器翻译模型将其他语种文本翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文;原文文档为非英文语种,译文文档也为非英文语种,使用上述机器翻译模型将所有非英文文本分别翻译为英文,得到原文文档和译文文档的英文表示,其中,每个句段都为英文。
5.根据权利要求3所述的全自动语料双文档对齐方法,其特征在于,所述步骤七中的预设标准是指句段内的句子数量。
6.一种全自动语料单文档对齐方法,其特征在于,主要包括如下步骤:
步骤一:读取单文档中的所有文本内容,保留原始段落形式,按句段识别语种,分别存储为语种1集合和语种2集合;
步骤二:判断待对齐的文档的语种,使用机器翻译模型将所有文本翻译为英文,得到语种1集合和语种2集合的英文表示;
步骤三:加载英文语言表示模型,将语种1集合和语种2集合的句段级别英文译文进行编码,转化为高维数学向量,得到句段级别的语种1集合和语种2集合向量表示;
步骤四:使用相似度搜索算法在所有语种2句段向量中为每个语种1句段向量找出前N个最相似的向量;
步骤五:采用字符级模糊匹配方法计算语种2句段的英文表示文本与所述N个与语种1句段向量最相似的向量所代表的英文文本之间的字符模糊匹配相似度,找出匹配度最高的文本,根据选出的最佳文本以及列出对应的语种1句段和语种2句段,将此平行句段标记为已对齐句段;
步骤六:批量执行所述步骤五的操作,对齐所有句段;
步骤七:根据预设标准将已对齐的较长句段分别拆分为句子,再次执行对齐流程,得到句子级别的对齐结果,根据长句段的位置信息将所述句子级对齐结果插入到所述句段级别对齐结果中。
7.根据权利要求6所述的全自动语料单文档对齐方法,其特征在于,所述步骤二中判断待对齐的文档的语种具体为:
a.如果其中任一语种为英文,另一语种为其他非英语语种,使用机器翻译模型将其他语种文本翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文;
b.语种1集合和语种2集合均为非英文语种,使用机器翻译模型将所有非英文文本分别翻译为英文,得到语种1集合和语种2集合的英文表示,其中,每个句段都为英文。
8.根据权利要求6所述的全自动语料单文档对齐方法,其特征在于,所述步骤七中的预设标准是指句段内的句子数量。
CN202210032776.6A 2022-01-12 2022-01-12 一种全自动语料对齐系统和方法 Pending CN114564970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210032776.6A CN114564970A (zh) 2022-01-12 2022-01-12 一种全自动语料对齐系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210032776.6A CN114564970A (zh) 2022-01-12 2022-01-12 一种全自动语料对齐系统和方法

Publications (1)

Publication Number Publication Date
CN114564970A true CN114564970A (zh) 2022-05-31

Family

ID=81712427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210032776.6A Pending CN114564970A (zh) 2022-01-12 2022-01-12 一种全自动语料对齐系统和方法

Country Status (1)

Country Link
CN (1) CN114564970A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345127A (zh) * 2022-06-08 2022-11-15 甲骨易(北京)语言科技股份有限公司 一种平行语料句子级对齐系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345127A (zh) * 2022-06-08 2022-11-15 甲骨易(北京)语言科技股份有限公司 一种平行语料句子级对齐系统和方法

Similar Documents

Publication Publication Date Title
CN110532573B (zh) 一种翻译方法和系统
JP5356197B2 (ja) 単語意味関係抽出装置
Gutierrez-Vasques et al. Axolotl: a web accessible parallel corpus for Spanish-Nahuatl
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
Schulz et al. Multi-modular domain-tailored OCR post-correction
US20110093254A1 (en) Method and System for Using Alignment Means in Matching Translation
JPH11120185A (ja) 情報処理装置及びその方法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN111259652A (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN106372053B (zh) 句法分析的方法和装置
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
Toselli et al. Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription
CN114564970A (zh) 一种全自动语料对齐系统和方法
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN111680523A (zh) 基于上下文语义比对的人机协同翻译系统与方法
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
Hocking et al. Optical character recognition for South African languages
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN107870905B (zh) 一种特定词汇的识别方法
España-Bonet et al. Discriminative phrase-based models for Arabic machine translation
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
CN116522966B (zh) 基于多语言词条的文本翻译方法及系统
Miłkowski Automating rule generation for grammar checkers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zeng Hui

Inventor after: Li Guanghua

Inventor before: Li Guanghua

CB03 Change of inventor or designer information