CN114065777A - 双语语料检测方法、设备以及计算机可读介质 - Google Patents

双语语料检测方法、设备以及计算机可读介质 Download PDF

Info

Publication number
CN114065777A
CN114065777A CN202010762257.6A CN202010762257A CN114065777A CN 114065777 A CN114065777 A CN 114065777A CN 202010762257 A CN202010762257 A CN 202010762257A CN 114065777 A CN114065777 A CN 114065777A
Authority
CN
China
Prior art keywords
word
corpus
words
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010762257.6A
Other languages
English (en)
Inventor
陆军
骆卫华
赵宇
施杨斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010762257.6A priority Critical patent/CN114065777A/zh
Publication of CN114065777A publication Critical patent/CN114065777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种双语语料检测方案,该方案可以将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。

Description

双语语料检测方法、设备以及计算机可读介质
技术领域
本申请涉及信息技术领域,尤其涉及一种双语语料检测方法、设备以及计算机可读介质。
背景技术
双语语料,也称作“双语平行句对”,是一种互为翻译的文本语料。以汉语和英语为例,“今天天气很好”和“It's a nice day today”即为一对双语语料。双语语料是机器翻译模型的关键训练数据,无论是统计机器翻译(SMT,Statistical Machine Translation),还是神经网络机器翻译(NMT,Neural Machine Translation)都要依赖于这类语料。在机器翻译中,多语种的支持、每个语言方向翻译质量的优劣,都与双语语料的规模和质量息息相关。
目前对双语语料中单词是否翻译准确的检测方式主要有两种。一种方式是构建词对齐模型,将双语语料的原文单词和译文单词做映射,然后统计映射的结果,如果原文端某个单词无法和译文端任何单词匹配上,则这个原文单词可以看做是漏译或错译了;若译文端某个单词无法和原文端任何单词映射上,则该单词是多译或错译。但是,这种词对齐的方式,并不考虑语句中单词的语义和语序,容易将一些单词误判。比如对于“it's finetoday”和“今天天气好”这对双语语料,由于在英文语料中并不包含“天气”对应的单词,可能会将中文语料中的“天气”识别判定为多译的错误。而且,会与一对多的问题,无法很多的解决,例如“target text is very good”和“译文很好”这对双语语料中,实际上“target”和“text”这两个英文单词对应一个中文单词“译文”,但是词对齐的方式是将每个单词做映射,不容易将“target text”和“译文”对应起来,由此会导致检测错误。
另一种方式是人工标注双语语料中错误的单词,错误类型可以是错译、漏译、多译等,然后基于这些人工标注的数据训练识别模型,并使用该识别模型对待检测的双语语料进行单词错误的识别。但是,该方式的主要问题在于需要人工的标注数据,人力成本比较高,无法大规模的应用。
发明内容
本申请的一个目的是提供一种双语语料检测方法、设备以及计算机可读介质,用以解决现有的检测方式中准确性差、成本高的问题。
本申请实施例中提供了一种双语语料检测方法,该方法包括:
获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;
使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
根据预测结果,确定所述目标单词是否有误。
本申请实施例中还提供了一种双语语料检测设备,该设备包括:
预测处理模块,用于获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
检测处理模块,用于根据预测结果,确定所述目标单词是否有误。
本申请的一些实施例还提供了一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述双语语料检测方法。
本申请的另一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现所述双语语料检测方法。
本申请实施例提供的一种双语语料检测方案,该方案首先获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息,然后使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测,根据预测结果,确定所述目标单词是否有误。。由于将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种双语语料检测方法的处理流程图;
图2为本申请实施例中一种双语语料及其对应的特征向量示意图;
图3为本申请实施例中对目标单词的获取目标单词的预测结果的基本原理示意图;
图4为本申请实施例提供的一种双语语料检测设备的结构示意图;
图5为本申请实施例提供的一种用于实现双语语料检测的计算设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例提供的一种双语语料检测方法,该方法将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
在实际场景中,该方法的执行主体可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备,此外也可以是运行于上述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种双语语料检测方法的处理流程,至少可以包括以下几个处理步骤:
步骤S101,获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息。
其中,本申请实施例中处理的双语语料可以包括第一语料和第二语料,第一语料和第二语料分别对应一种语言,两者互为翻译。例如“今天天气好”和“It's a nice daytoday”即为汉语和英语的双语语料,“I agree with that”和“Ich stimme dem zu”即为英语和德语的双语语料。在实际场景中,双语语料可能会由于各种因素导致其中的部分内容翻译错误,例如对于双语语料“我特别喜欢吃红苹果”和“I like eating green apple andbanana”,汉语语料中的“特别”为漏译的单词、英语语料中的“and”和“banana”为多译的单词,“红”和“green”为错译的单词,本申请实施中的检测方法的目的即在于检测出双语语料中这些翻译错误的单词。
第一语料的单词信息、第二语料的目标单词及其前文信息和后文信息都是用于表示语料中所包含的文本内容的信息,将这些信息作为输入,可以为被预测的目标单词提供语义和语序上的支持,使得预测结果能够更加准确。
在本申请的一些实施例中,所述第一语料的单词信息、第二语料的目标单词及其前文信息和后文信息都可以采用词向量序列的形式表示。其中,前文信息可以是所述目标单词在第二语料中的前N个单词的词向量序列,其中N可以根据实际场景的需求设定,例如可以设定为具体的数值如3、4、6等,也可以根据目标单词在第二语料中的位置动态调整,例如可以目标单词的位置序号减1,此时当目标单词是第二语料中的第4个单词时,可以获取前3个单词(即目标单词之前的所有单词)的词向量作为前文信息。对于语料“I likeeating green apple and banana”而言,若将N设定为3,当目标单词为apple时,其对应的前文信息即为“like”、“eating”、“green”的词向量。
后文信息为所述目标单词在第二语料中的后M个单词的词向量序列,与前文信息中的N类似,M也可以根据实际场景的需求设定,例如可以设定为具体的数值如2、3、6等,也可以根据目标单词在第二语料中的位置动态调整,例如可以是第二语料的总单词数减去目标单词的位置序号,此时当目标单词是第二语料中的第4个单词,且第二语料的总单词数减是8时,可以获取后4个单词(即目标单词之后的所有单词)的词向量作为后文信息。对于语料“I like eating green apple and banana”而言,若将M设定为3,当目标单词为green时,其对应的后文信息即为“apple”、“apple”、“banana”的词向量。
由此,在获得第二语料的目标单词及其前文信息和后文信息时,可以获取所述第二语料的目标单词,以及所述目标单词在第二语料中的前N个单词和后M个单词,然后获得所述前N个单词的词向量序列和所述后M个单词的词向量序列。
第一语料的单词信息可以是第一语料中所包含的单词的词向量序列,由此在获取第一语料的单词信息时,可以获取所述第一语料的多个单词,然后获得所述多个单词的词向量序列。
在对双语语料的一次处理过程中,可以将一种语料设定为第一语料,而将另一种语料设定为第二语料。以双语语料“我特别喜欢吃红苹果”和“I like eating green appleand banana”为例,在一次处理过程中,可以将汉语语料“我特别喜欢吃红苹果”设定为第一语料,将英语语料“I like eating green apple and banana”作为第二语料,由此,第一语料信息即为“我”、“特别”、“喜欢”、“吃”、“红”、“苹果”的特征向量序列。在完成一次处理之后,可以将语料对换,即将汉语语料“我特别喜欢吃红苹果”设定为第二语料,将英语语料“Ilike eating green apple and banana”作为第一语料,再次进行处理。
本申请的一些实施中,在获得所述多个单词的词向量序列时,可以先对所述多个单词进行分词处理,获取所述单词序列,然后对单词序列进行词嵌入处理,生成所述多个单词的词向量序列。
其中,词向量序列表示任意一种语料中单词序列的词向量,单词序列表示按照一定顺序排列的单词,本实施例中可以通过所述多个单词进行分词处理,获取对应的单词序列。例如,对于前述的双语语料中包含的多个单词在未进行分词之前可以认为是语句,两种语料包含的单词所组成的语句为“今天天气好”和“It's a nice day today”,对汉语语料进行分词处理后,可以获得如下的单词序列“今天/天气/好”,对英语语料进行分词处理后,可以获得如下的单词序列“It's/a/nice/day/today”。
本申请实施例中所采用的分词算法可以是基于词典的分词算法,如正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法等;也可以是基于统计的分词算法,如N-gram算法;此外,还可以是基于词标注的分词算法,如基于BPE(byte pair encoding,字节对编码)的分词算法等。在实际场景中,由于各种语言具有不同的语法习惯,因此对于不同的语言可以采用相应的分词算法,以使分词的结果更加准确。
在本申请的一些实施例中,可以在对多个单词进行分词处理之前,对所述第一语料进行清洗。对语料进行清洗之后,可以调整一些不规范或者是影响后续处理的内容,使得后续处理更加高效、准确。例如本实施例中,对于语料的清洗可以是统一大小写、清除标点符号、添加起始符、终止符等。
所述词向量用于唯一标识特定的单词,不同的单词均具有各自不同的词向量。例如,所述词向量的具体形式可以采用独热编码(one-hot),将文本形式的单词转换为编码形式的单词。假设词典中一共具有n个单词,则可以创建n维的独热编码,以前述的汉语语料“今天/天气/好”为例,其中单词“今天”可以表示为:[1,0,0,...,0]、“天气”可以表示为:[0,1,0,...,0]、“好”可以表示为:[0,0,1,...,0]。由此,汉语语料“今天天气好”的词向量序列可以表示为3×n的矩阵,如表1所示:
维度1 维度2 维度3 维度n
今天 1 0 0 …… 0
天气 0 1 0 …… 0
0 0 1 …… 0
表1
由于在实际场景中,独热编码在进行数据处理时存在一些问题,如数据较为稀疏,每个单词在n维空间中都表示为正交的向量,彼此之间没有任何关联,无法使用该方法进行单词之间的相似度计算,导致无法进行高效的数据处理。因此,可以在获取到所述双语语料的单词序列后,对单词序列进行词嵌入(Word embedding)处理,生成待检测的双语语料的词向量序列。在一般情况下,所述词嵌入时可以将词典中的n维向量降维至m维,并且可以通过向量之间的空间关系表示单词之间的关联关系。例如,本申请实施例中,汉语语料“今天天气好”进行词嵌入之后,可以生成如
表2所示的词向量序列:
Figure BDA0002613403570000071
Figure BDA0002613403570000081
表2
其中m小于n,由此降低了数据处理的维度,提高了处理效率。
步骤S102,使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测。
其中,预测的过程可以采用基于编码器-解码器(Encoder-Decoder)框架的神经网络模型,可以包括两部分处理。首先,基于采用了注意力机制的神经网络模型的编码器(Encoder)进行编码,获得特征向量序列,然后由相应的解码器(Decoder)对特征向量序列进行解码,获得目标单词的预测概率。
本申请实施例中采用的注意力机制可以是自注意力(Self-Attention)机制,使用第一语料的单词信息结合注意力机制后,可以编码获得相应的特征向量序列。例如,双语语料及其对应的特征向量如图2所示,其中,第一语料的内容包括起始符<s>、单词A、单词B、……、单词C以及终止符</s>,其中起始符<s>和终止符</s>用于表示语句的起始和终止,在处理过程中可以视为单词。结合Self-Attention对其进行编码之后,即可获得相应的特征向量序列(H0,H1,H2,……,Hn),其中Hi表示第i个单词对应的特征向量。
若第二语料的内容包括起始符<s>、单词a、单词b、……、单词c以及终止符</s>,若目标单词为单词k。结合Self-Attention对其进行编码之后,前文信息可以对应获得特征向量序列(h0,h1,……,hk-1),后文信息可以对应获得特征向量序列(hk+1,hk+2,……,hn),其中,其中hi表示第i个单词对应的特征向量。
由于采用了自注意力机制,因此在预测目标单词k时,相关的特征向量会被赋予一定的权重,该权重与特征向量对应的单词与目标单词的语义相关,以前述的双语语料“我特别喜欢吃红苹果”和“I like eating green apple and banana”为例。当汉语语料为第一语料,而英语语料为第二语料时,若需要预测第二语料中的目标单词“apple”,则第一语料中“苹果”所对应的特征向量会有较高的权重,而在预测第二语料中的其它目标单词时,“苹果”的所对应的特征向量的权重会降低。由此,可以使得目标单词的预测概率更加准确。
将结合注意力机制编码获得的特征向量序列输入神经网络模型的解码器中,即可解码获得所述目标单词的预测概率。图3示出了本申请实施例中对目标单词的获取目标单词的预测概率的基本原理,在确定了前文信息对应的特征向量序列(h0,h1,……,hk-1),后文信息对应的特征向量序列(hk+1,hk+2,……,hn)以及第一语料的单词信息对应的特征向量序列(H0,H1,H2,……,Hn)之后,可以将这些信息作为输入预先完成训练的神经网络模型,由解码器进行解码即可输出所述目标单词的预测概率P。
用于预测的神经网络模型可以在需要使用前预先基于训练集中的双语语料完成训练。所述训练集中的双语语料均为高质量的双语语料,其中,高质量是指第一语料和对应的第二语料所表达的含义相同(即翻译正确),且不存在本申请实施例方案需要检测的错误,如多译、漏译、错译等问题。由此,训练获得的神经网络模型,对于正确的目标单词,会输出较高的预测概率,而对于错误的目标单词,则会输出较低的预测概率。
步骤S103,根据预测结果,确定所述目标单词是否有误。
在实际场景中,若第二语料中的目标单词是错误的(如错译或者多译),在向神经网络模型中输入前文信息、后文信息以及第一语料信息之后,将会输出一个较低的预测概率,若目标单词是正确对,则会输出一个较高的预测概率。由此,在确定错误的目标单词时,可以根据实际场景预先设定设定概率阈值,在获取到目标单词的与该概率之后,将所述目标单词的预测概率与预设的概率阈值比较,若所述预测概率低于预设的概率阈值,将所述目标单词确定为错误的目标单词。
由此,通过遍历第二语料中的所有单词,即可完成第二语料中所有单词的检测,识别出第二语料中所有存在翻译错误的单词。例如,若汉语语料“我特别喜欢吃红苹果”设定为第一语料,将英语语料“I like eating green apple and banana”作为第二语料,依次将“I”、“like”、“eating”、“green”、“apple”、“and”、“banana”作为目标单词分别进行处理,完成遍历。若检测获得的预测概率分别如表3所示:
目标单词 预测概率
I 0.87
like 0.91
eating 0.77
green 0.11
apple 0.92
and 0.07
banana 0.05
表3
将上述目标单词的预测概率与预设的概率阈值比较后,可以确定其中“green”、“and”、“banana”低于概率阈值,由此可以识别出其中“green”、“and”、“banana”为错误的单词。若需要同时识别汉语语料“我特别喜欢吃红苹果”中的错误单词,可以将第一语料和第二语料对换(将原来的第一语料设定为第二语料,将原来的第二语料设定为第一语料)后,再次遍历,从而识别出其中“特别”、“红”为错误的单词。
由此,本申请实施例提供的双语语料检测方案可以应用于双语互译的场景中,对已有的双语语料的翻译准确性进行检测,从而提升翻译质量。并且随着机器翻译技术的成熟,越来越多的厂商尝试提供商品、搜索、评论、聊天等场景下的多语言翻译服务。而双语语料是机器翻译模型的关键训练数据,无论是统计机器翻译,还是神经网络机器翻译依赖于这类语料数据。由于本方案提供了一种可以检测双语语料的准确性的方案,能够有效提升双语语料的翻译质量,可以广泛应用于各类基于机器翻译的语言翻译服务中,具有较高的市场价值。
基于同一发明构思,本申请实施例中还提供了一种双语语料检测设备,所述设备对应的方法是前述实施例中的双语语料检测方法,并且其解决问题的原理与该方法相似。
本申请实施例提供的一种双语语料检测设备可以将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
在实际场景中,该设备可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备,此外也可以是运行于上述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图4示出了本申请实施例提供的一种双语语料检测设备的结构,至少可以包括预测处理模块410和检测处理模块420。其中,预测处理模块410用于获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测。检测处理模块420用于根据预测结果,确定所述目标单词是否有误。
本申请实施例中处理的双语语料可以包括第一语料和第二语料,第一语料和第二语料分别对应一种语言,两者互为翻译。例如“今天天气好”和“It's a nice day today”即为汉语和英语的双语语料,“I agree with that”和“Ich stimme dem zu”即为英语和德语的双语语料。在实际场景中,双语语料可能会由于各种因素导致其中的部分内容翻译错误,例如对于双语语料“我特别喜欢吃红苹果”和“I like eating green apple and banana”,汉语语料中的“特别”为漏译的单词、英语语料中的“and”和“banana”为多译的单词,“红”和“green”为错译的单词,本申请实施中的检测方法的目的即在于检测出双语语料中这些翻译错误的单词。
第一语料的单词信息、第二语料的目标单词及其前文信息和后文信息都是用于表示语料中所包含的文本内容的信息,将这些信息作为输入,可以为被预测的目标单词提供语义和语序上的支持,使得预测结果能够更加准确。
在本申请的一些实施例中,所述第一语料的单词信息、第二语料的目标单词及其前文信息和后文信息都可以采用词向量序列的形式表示。其中,前文信息可以是所述目标单词在第二语料中的前N个单词的词向量序列,其中N可以根据实际场景的需求设定,例如可以设定为具体的数值如3、4、6等,也可以根据目标单词在第二语料中的位置动态调整,例如可以目标单词的位置序号减1,此时当目标单词是第二语料中的第4个单词时,可以获取前3个单词(即目标单词之前的所有单词)的词向量作为前文信息。对于语料“I likeeating green apple and banana”而言,若将N设定为3,当目标单词为apple时,其对应的前文信息即为“like”、“eating”、“green”的词向量。
后文信息为所述目标单词在第二语料中的后M个单词的词向量序列,与前文信息中的N类似,M也可以根据实际场景的需求设定,例如可以设定为具体的数值如2、3、6等,也可以根据目标单词在第二语料中的位置动态调整,例如可以是第二语料的总单词数减去目标单词的位置序号,此时当目标单词是第二语料中的第4个单词,且第二语料的总单词数减是8时,可以获取后4个单词(即目标单词之后的所有单词)的词向量作为后文信息。对于语料“I like eating green apple and banana”而言,若将M设定为3,当目标单词为green时,其对应的后文信息即为“apple”、“apple”、“banana”的词向量。
由此,在获得第二语料的目标单词及其前文信息和后文信息时,可以获取所述第二语料的目标单词,以及所述目标单词在第二语料中的前N个单词和后M个单词,然后获得所述前N个单词的词向量序列和所述后M个单词的词向量序列。
第一语料的单词信息可以是第一语料中所包含的单词的词向量序列,由此在获取第一语料的单词信息时,可以获取所述第一语料的多个单词,然后获得所述多个单词的词向量序列。
在对双语语料的一次处理过程中,可以将一种语料设定为第一语料,而将另一种语料设定为第二语料。以双语语料“我特别喜欢吃红苹果”和“I like eating green appleand banana”为例,在一次处理过程中,可以将汉语语料“我特别喜欢吃红苹果”设定为第一语料,将英语语料“I like eating green apple and banana”作为第二语料,由此,第一语料信息即为“我”、“特别”、“喜欢”、“吃”、“红”、“苹果”的特征向量序列。在完成一次处理之后,可以将语料对换,即将汉语语料“我特别喜欢吃红苹果”设定为第二语料,将英语语料“Ilike eating green apple and banana”作为第一语料,再次进行处理。
本申请的一些实施中,在获得所述多个单词的词向量序列时,可以先对所述多个单词进行分词处理,获取所述单词序列,然后对单词序列进行词嵌入处理,生成所述多个单词的词向量序列。
其中,词向量序列表示任意一种语料中单词序列的词向量,单词序列表示按照一定顺序排列的单词,本实施例中可以通过所述多个单词进行分词处理,获取对应的单词序列。例如,对于前述的双语语料中包含的多个单词在未进行分词之前可以认为是语句,两种语料包含的单词所组成的语句为“今天天气好”和“It's a nice day today”,对汉语语料进行分词处理后,可以获得如下的单词序列“今天/天气/好”,对英语语料进行分词处理后,可以获得如下的单词序列“It's/a/nice/day/today”。
其中,本申请实施例中所采用的分词算法可以是基于词典的分词算法,如正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法等;也可以是基于统计的分词算法,如N-gram算法;此外,还可以是基于词标注的分词算法,如基于BPE(byte pair encoding,字节对编码)的分词算法等。在实际场景中,由于各种语言具有不同的语法习惯,因此对于不同的语言可以采用相应的分词算法,以使分词的结果更加准确。
在本申请的一些实施例中,可以在对多个单词进行分词处理之前,对所述第一语料进行清洗。对语料进行清洗之后,可以调整一些不规范或者是影响后续处理的内容,使得后续处理更加高效、准确。例如本实施例中,对于语料的清洗可以是统一大小写、清除标点符号、添加起始符、终止符等。
所述词向量用于唯一标识特定的单词,不同的单词均具有各自不同的词向量。例如,所述词向量的具体形式可以采用独热编码(one-hot),将文本形式的单词转换为编码形式的单词。假设词典中一共具有n个单词,则可以创建n维的独热编码,以前述的汉语语料“今天/天气/好”为例,其中单词“今天”可以表示为:[1,0,0,...,0]、“天气”可以表示为:[0,1,0,...,0]、“好”可以表示为:[0,0,1,...,0]。由此,汉语语料“今天天气好”的词向量序列可以表示为3×n的矩阵,如表1所示。
由于在实际场景中,独热编码在进行数据处理时存在一些问题,如数据较为稀疏,每个单词在n维空间中都表示为正交的向量,彼此之间没有任何关联,无法使用该方法进行单词之间的相似度计算,导致无法进行高效的数据处理。因此,可以在获取到所述双语语料的单词序列后,对单词序列进行词嵌入(Word embedding)处理,生成待检测的双语语料的词向量序列。在一般情况下,所述词嵌入时可以将词典中的n维向量降维至m维,并且可以通过向量之间的空间关系表示单词之间的关联关系。例如,本申请实施例中,汉语语料“今天天气好”进行词嵌入之后,可以生成如表2所示的词向量序列。其中m小于n,由此降低了数据处理的维度,提高了处理效率。
预测处理模块在使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测时,预测的过程可以采用基于编码器-解码器(Encoder-Decoder)框架的神经网络模型,可以包括两部分处理。首先,基于采用了注意力机制的神经网络模型的编码器(Encoder)进行编码,获得特征向量序列,然后由相应的解码器(Decoder)对特征向量序列进行解码,获得目标单词的预测概率。
本申请实施例中采用的注意力机制可以是自注意力(Self-Attention)机制,使用第一语料的单词信息结合注意力机制后,可以编码获得相应的特征向量序列。例如,双语语料及其对应的特征向量如图2所示,其中,第一语料的内容包括起始符<s>、单词A、单词B、……、单词C以及终止符</s>,其中起始符<s>和终止符</s>用于表示语句的起始和终止,在处理过程中可以视为单词。结合Self-Attention对其进行编码之后,即可获得相应的特征向量序列(H0,H1,H2,……,Hn),其中Hi表示第i个单词对应的特征向量。
若第二语料的内容包括起始符<s>、单词a、单词b、……、单词c以及终止符</s>,若目标单词为单词k。结合Self-Attention对其进行编码之后,前文信息可以对应获得特征向量序列(h0,h1,……,hk-1),后文信息可以对应获得特征向量序列(hk+1,hk+2,……,hn),其中,其中hi表示第i个单词对应的特征向量。
由于采用了自注意力机制,因此在预测目标单词k时,相关的特征向量会被赋予一定的权重,该权重与特征向量对应的单词与目标单词的语义相关,以前述的双语语料“我特别喜欢吃红苹果”和“I like eating green apple and banana”为例。当汉语语料为第一语料,而英语语料为第二语料时,若需要预测第二语料中的目标单词“apple”,则第一语料中“苹果”所对应的特征向量会有较高的权重,而在预测第二语料中的其它目标单词时,“苹果”的所对应的特征向量的权重会降低。由此,可以使得目标单词的预测概率更加准确。
将结合注意力机制编码获得的特征向量序列输入神经网络模型的解码器中,即可解码获得所述目标单词的预测概率。图3示出了本申请实施例中对目标单词的获取目标单词的预测概率的基本原理,在确定了前文信息对应的特征向量序列(h0,h1,……,hk-1),后文信息对应的特征向量序列(hk+1,hk+2,……,hn)以及第一语料的单词信息对应的特征向量序列(H0,H1,H2,……,Hn)之后,可以将这些信息作为输入预先完成训练的神经网络模型,由解码器进行解码即可输出所述目标单词的预测概率P。
所述预测处理模块中用于预测的神经网络模型可以在需要使用前,由训练模块预先基于训练集中的双语语料完成训练。所述训练集中的双语语料均为高质量的双语语料,其中,高质量是指第一语料和对应的第二语料所表达的含义相同(即翻译正确),且不存在本申请实施例方案需要检测的错误,如多译、漏译、错译等问题。由此,训练获得的神经网络模型,对于正确的目标单词,会输出较高的预测概率,而对于错误的目标单词,则会输出较低的预测概率。
在实际场景中,若第二语料中的目标单词是错误的(如错译或者多译),在向神经网络模型中输入前文信息、后文信息以及第一语料信息之后,将会输出一个较低的预测概率,若目标单词是正确对,则会输出一个较高的预测概率。由此,在确定错误的目标单词时,可以根据实际场景预先设定设定概率阈值,在获取到目标单词的与该概率之后,将所述目标单词的预测概率与预设的概率阈值比较,若所述预测概率低于预设的概率阈值,将所述目标单词确定为错误的目标单词。
由此,通过遍历第二语料中的所有单词,即可完成第二语料中所有单词的检测,识别出第二语料中所有存在翻译错误的单词。例如,若汉语语料“我特别喜欢吃红苹果”设定为第一语料,将英语语料“I like eating green apple and banana”作为第二语料,依次将“I”、“like”、“eating”、“green”、“apple”、“and”、“banana”作为目标单词分别进行处理,完成遍历。若检测获得的预测概率分别如表3所示。
将上述目标单词的预测概率与预设的概率阈值比较后,可以确定其中“green”、“and”、“banana”低于概率阈值,由此可以识别出其中“green”、“and”、“banana”为错误的单词。若需要同时识别汉语语料“我特别喜欢吃红苹果”中的错误单词,可以将第一语料和第二语料对换(将原来的第一语料设定为第二语料,将原来的第二语料设定为第一语料)后,再次遍历,从而识别出其中“特别”、“红”为错误的单词。
综上所述,本申请实施例提供的双语语料检测方案可以将第二语料语句中目标单词的前文信息、后文信息以及第一语料信息作为了神经网络模型的输入,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
由此,本申请实施例提供的双语语料检测方案可以应用于双语互译的场景中,对已有的双语语料的翻译准确性进行检测,从而提升翻译质量。并且随着机器翻译技术的成熟,越来越多的厂商尝试提供商品、搜索、评论、聊天等场景下的多语言翻译服务。而双语语料是机器翻译模型的关键训练数据,无论是统计机器翻译,还是神经网络机器翻译依赖于这类语料数据。由于本方案提供了一种可以检测双语语料的准确性的方案,能够有效提升双语语料的翻译质量,可以广泛应用于各类基于机器翻译的语言翻译服务中,具有较高的市场价值。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一些实施例包括一个如图5所示的计算设备,该设备包括存储有计算机可读指令的一个或多个存储器510和用于执行计算机可读指令的处理器520,其中,当该计算机可读指令被该处理器执行时,使得所述设备执行基于前述本申请的多个实施例的方法和/或技术方案。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种双语语料检测方法,其中,该方法包括:
获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;
使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
根据预测结果,确定所述目标单词是否有误。
2.根据权利要求1所述的方法,其中,所述获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息,包括:
获取所述第一语料的多个单词,获得所述多个单词的词向量序列;
获取所述第二语料的目标单词,以及所述目标单词在第二语料中的前N个单词和后M个单词,获得所述前N个单词的词向量序列和所述后M个单词的词向量序列。
3.根据权利要求2所述的方法,其中,获得所述多个单词的词向量序列,包括:
对所述多个单词进行分词处理,获取所述单词序列;
对单词序列进行词嵌入处理,生成所述多个单词的词向量序列。
4.根据权利要求3所述的方法,其中,对所述多个单词进行分词处理之前,还包括:
对所述第一语料进行清洗。
5.根据权利要求1所述的方法,其中,所述根据所述预测结果,确定所述目标单词是否有误,包括:
将所述目标单词的预测概率与预设的概率阈值比较,若所述预测概率低于预设的概率阈值,确定所述目标单词有误。
6.一种双语语料检测设备,其中,该设备包括:
预测处理模块,用于获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
检测处理模块,用于根据预测结果,确定所述目标单词是否有误。
7.根据权利要求6所述的设备,其中,所述预测处理模块,用于获取所述第一语料的多个单词,获得所述多个单词的词向量序列;获取所述第二语料的目标单词,以及所述目标单词在第二语料中的前N个单词和后M个单词,获得所述前N个单词的词向量序列和所述后M个单词的词向量序列。
8.根据权利要求7所述的设备,其中,所述预测处理模块,用于对所述多个单词进行分词处理,获取所述单词序列;对单词序列进行词嵌入处理,生成所述多个单词的词向量序列。
9.根据权利要求8所述的设备,其中,该设备还包括:
清洗模块,用于在对所述多个单词进行分词处理之前,对所述第一语料进行清洗。
10.根据权利要求6所述的设备,其中,所述检测处理模块,用于将所述目标单词的预测概率与预设的概率阈值比较,若所述预测概率低于预设的概率阈值,确定所述目标单词有误。
11.一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至5中任一项所述的方法。
12.一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现如权利要求1至5中任一项所述的方法。
CN202010762257.6A 2020-07-31 2020-07-31 双语语料检测方法、设备以及计算机可读介质 Pending CN114065777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010762257.6A CN114065777A (zh) 2020-07-31 2020-07-31 双语语料检测方法、设备以及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010762257.6A CN114065777A (zh) 2020-07-31 2020-07-31 双语语料检测方法、设备以及计算机可读介质

Publications (1)

Publication Number Publication Date
CN114065777A true CN114065777A (zh) 2022-02-18

Family

ID=80228020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010762257.6A Pending CN114065777A (zh) 2020-07-31 2020-07-31 双语语料检测方法、设备以及计算机可读介质

Country Status (1)

Country Link
CN (1) CN114065777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587599A (zh) * 2022-09-16 2023-01-10 粤港澳大湾区数字经济研究院(福田) 一种机器翻译语料的质量检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587599A (zh) * 2022-09-16 2023-01-10 粤港澳大湾区数字经济研究院(福田) 一种机器翻译语料的质量检测方法及装置

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110196894B (zh) 语言模型的训练方法和预测方法
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
CN114595333B (zh) 一种用于舆情文本分析的半监督方法和装置
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN110210043B (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN105068997B (zh) 平行语料的构建方法及装置
CN109522558B (zh) 一种基于深度学习的中文错字校正方法
CN110033760A (zh) 语音识别的建模方法、装置及设备
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111368918B (zh) 文本纠错方法、装置、电子设备及存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
US9811517B2 (en) Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN111738791B (zh) 一种文本处理方法、装置、设备和存储介质
CN111814493A (zh) 机器翻译方法、装置、电子设备和存储介质
CN113536771B (zh) 基于文本识别的要素信息提取方法、装置、设备及介质
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN111563380A (zh) 一种命名实体识别方法及其装置
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN114065777A (zh) 双语语料检测方法、设备以及计算机可读介质
EP3617908A1 (en) Machine translation method and apparatus, and storage medium
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination