CN106598959A - 一种确定双语语句对互译关系方法及系统 - Google Patents
一种确定双语语句对互译关系方法及系统 Download PDFInfo
- Publication number
- CN106598959A CN106598959A CN201611207663.6A CN201611207663A CN106598959A CN 106598959 A CN106598959 A CN 106598959A CN 201611207663 A CN201611207663 A CN 201611207663A CN 106598959 A CN106598959 A CN 106598959A
- Authority
- CN
- China
- Prior art keywords
- sentence
- language
- double
- characteristic value
- intertranslation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种确定双语语句对互译关系方法及系统,包括确定双语语句对的匹配特征值的步骤,再根据预先建立的训练分类模型,利用匹配特征值在互译关系中的权重对双语语句进行过滤分类,确定出该双语语句对是否为符合互译关系要求的双语语句对。这样本发明实施例所述确定双语语句对互译关系方法能够快速方便的处理数据量庞大的双语语料库。本发明利用训练分类模型的分类的思想将确定双语语句对互译关系问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
Description
技术领域
本发明涉及一种确定双语语句对互译关系方法,尤指一种确定双语语句对互译关系方法及系统。
背景技术
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语料库。平行双语语料库能够提供两种语言之间丰富的匹配信息,在翻译知识的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有着重要的应用价值,尤其是高质量的语料库作用更为凸显。
语料库的建立主要有两种方法,一种是传统的手工收集的方法;另一种是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种方法都不能保证获得高质量的语料库,总是存在着一些例如句对不匹配、包含乱码等错误。
消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。这种方法准确率虽然很高,但费时费力,尤其是当语料库非常巨大的时候,这种方法就不太实用。
借助计算机用自动的方法对语料库进行处理消除错误句对,其基本思路是设定一些判定句对匹配质量的特征,然后对每个特征进行打分,再依照经验,人工设定一个特征阈值进行判定。当双语语句对大于这个特征阈值时确定为好句对,当双语语句对小于或等于这个特征阈值时确定为坏句对。这种方法虽然从一定程度上实现了自动化,但缺乏一般性且准确率并不高。特征阈值是凭经验设定的,特征阈值往往可能是设定者根据仅有的几份语料库资源来确定的,不能涵盖大多数语料库的分布情况。而且当经验设定的特征阈值过低会导致准确率下降,过高时又导致召回率下降。
发明内容
本发明的目的是提供一种确定双语语句对互译关系方法及系统,用于提高语料库通用性、准确率和召回率。
为解决上述问题,本发明提供一种确定双语语句对互译关系方法,包括以下步骤:
获取所述双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系;
对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值;
利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
可选的,所述匹配特征值为句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
可选的,所述匹配特征值为句长比例特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值为互翻译性特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值为机器翻译引擎的翻译特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述确定句子的相似度包括:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在的词和所述所有词的比例关系,获得所述句子的相似度。
可选的,所述确定句子的相似度包括:
对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在且位置关系相同的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在且位置关系相同的词和所述所有词的比例关系,获得所述句子的相似度。
可选的,所述分类模型的训练包括:
构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符;
采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
可选的,该方法进一步包括:确定数词匹配特征值;
所述确定数词匹配特征值具体为:将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
可选的,该方法进一步包括:统一所述双语语句对中的编码类型的预处理。
可选的,所述双语语句对具体为英汉双语语句对;统一所述双语语句对中的编码类型的预处理具体包括:
11)将所述英汉双语语句对进行全角转半角处理;
12)将繁体编码转换为简体国标编码;
13)排除乱码的处理。
可选的,所述第一语言为汉语且所述第二语言为英语;或者,所述第一语言为英语且所述第二语言为汉语。
本发明实施例一种确定双语语句对互译关系的系统,包括:目标双语语句对获取单元、匹配特征值获取单元、过滤分类单元;其中:
所述目标双语语句对获取单元用于:获取所述双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系;
所述匹配特征值获取单元用于:对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值;
所述过滤分类单元用于:利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
可选的,所述匹配特征值为:句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
可选的,所述匹配特征值为句长比例特征值;
所述匹配特征值获取单元具体用于:分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值为互翻译性特征值;
所述匹配特征值获取单元具体用于:利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值为机器翻译引擎的翻译特征值;
所述匹配特征值获取单元具体用于:利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值获取单元具体包括第一分词处理子单元和第一句子相似度获得子单元;其中:
所述第一分词处理子单元用于:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
所述第一句子相似度获得子单元用于:获得在所述第一分词集合以及第二分词集合中同时存在的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在的词和所述所有词的比例关系,获得所述句子的相似度。
可选的,所述匹配特征值获取单元具体包括第二分词处理子单元和第二句子相似度获得子单元;其中:
所述第二分词处理子单元具体用于:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
所述第二句子相似度获得子单元用于:获得在所述第一分词集合以及第二分词集合中同时存在且位置关系相同的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在且位置关系相同的词和所述所有词的比例关系,获得所述句子的相似度。
可选的,该系统进一步包括:分类模型训练单元,该单元用于:构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符;
采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
可选的,所述系统进一步包括数词匹配单元,用于将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
可选的,所述系统进一步包括预处理单元,用于统一所述双语语句对中的编码类型的预处理。
可选的,所述双语语句对具体为英汉双语语句对;所述预处理单元具体包括全角转半角处理子单元、Big5码转GB码处理子单元和乱码处理子单元:
所述全角转半角处理子单元,用于将所述英汉双语语句对进行全角转半角处理;
所述Big5码转GB码处理子单元,用于将繁体编码转换为简体国标编码;
所述乱码处理子单元,用于排除乱码的处理。
可选的,所述第一语言为汉语且所述第二语言为英语;或者,所述第一语言为英语且所述第二语言为汉语。
与上述现有技术相比,本发明实施例所述确定双语语句对互译关系方法,包括确定双语语句对的匹配特征值的步骤,再根据预先建立的训练分类模型,利用匹配特征值在互译关系中的权重对双语语句进行过滤分类,确定出该双语语句对是否为符合互译关系要求的双语语句对。这样本发明实施例所述确定双语语句对互译关系方法能够快速方便的处理数据量庞大的双语语料库。本发明利用训练分类模型的分类的思想将确定双语语句对互译关系问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
附图说明
图1是本发明所述确定双语语句对互译关系方法第一种实施例流程图;
图2是图1中建立分类模型的流程图;
图3是本发明所述确定双语语句对互译关系方法第二种实施例流程图;
图4是图3中建立分类模型的流程图;
图5是本发明所述确定双语语句对互译关系方法第三种实施例流程图;
图6是图5统一所述双语语句对中的编码类型的预处理流程图;
图7是本发明所述确定双语语句对互译关系系统第一种实施例结构图;
图8是本发明所述确定双语语句对互译关系系统第一种实施例中包括分类模型训练单元的结构图;
图9是本发明所述确定双语语句对互译关系系统第二种实施例结构图;
图10是本发明所述确定双语语句对互译关系系统第三种实施例结构图。
具体实施方式
本发明提供一种确定双语语句对互译关系方法,用于提高语料库通用性、准确率和召回率。
参见参考图1和图2,图1为本发明确定双语语句对互译关系方法第一种实施例流程图,图2是图1中建立分类模型的流程图。
本发明第一种实施例所述确定双语语句对互译关系方法,如图1所示,包括以下步骤:
S100、获取双语语料库中的目标双语语句对。
其中,所述目标双语语句对可以为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系。
所述第一语言可以为汉语、第二语言为英语;或者,所述第一语言可以为英语、第二语言为汉语。
S200、对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值。
匹配特征值可以一定程度上反映出目标双语语句对中第一语句和第二语句的匹配程度,匹配程度可以理解为是第二语句作为第一语句在第二语言下的表述,其表述的意思是否与第一语句表述的意思相同或相近,或者是第一语句作为第二语句在第一语言下的表述,其表述的意思是否与第二语句表述的意思相同或相近。匹配特征值越高,则说明该第一语句和该第二语句的匹配程度越好,即第一语句和第二语句表述的意思越相近。
根据影响第一语句和第二语句的匹配程度的因素,所述匹配特征值可以包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
句长比例特征值主要是以第一语句和第二语句的单词或字符的个数为依据反映第一语句和第二语句的匹配程度。互翻译性特征值主要是以具有匹配关系的词为依据反映第一语句和第二语句的匹配程度。机器翻译引擎的翻译特征值主要是句子的相似度为依据反映第一语句和第二语句的匹配程度。
所述匹配特征值可以为句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
当匹配特征值为句长比例特征值时,该句长比例特征值的计算方式具体包括:
分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值。
举例说明,确定双语语句对中采用单词数或字符个数。用所述双语句中一种语句中的单词数或字符数比上所述双语句中另一种语句的单词数或字符数,所得的值为句长比例特征值。
当所述双语语句对为英汉双语语句对时,用所述汉语句中的单词数或字符个数比上所述英语句中采用单词数或字符个数,得出句长比例特征值。句长分别采用单词数或者是字符的个数来计算时,二者相差不大,一般选用单词数计算更能体现英汉双语语句对的句长比例特征。
当匹配特征值为互翻译性特征值时,该互翻译性特征值的计算方式具体包括:
利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值。
举例说明,互译词典可以是具有两种语言的词典,例如,英汉词典。
一种确定互翻译性特征值的具体例子可以是,统计双语语句对中不同词性的数量,具体是统计双语语句对中名词、动词、形容词及介词的数量。
首先,分别对双语语句对进行词性标注。然后,再统计双语语句对中分别含有名词、动词、形容词和介词四种词性的词的个数。名词、动词、形容词、介词的词性选择是基于词典翻译考虑的,因为具有这四种词性的词语的翻译一般比较具有辨别力。
对于英汉双语语句对的中文句子中含有上述名词、动词、形容词、介词词性的词,利用汉英词典翻译,并在英汉双语语句对的英文句子中含有上述词性的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语语句对的英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语语句对的中文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配的个数。
我们以英汉双语语句对为例,利用下面的公式计算英汉双语语句对互翻译性特征值。
V(c,e)=(T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英汉双语语句对互翻译性特征值;
T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句子中的匹配个数;
I(c):英汉双语语句对的中文句子中含有的上述四种词性的词的个数;
I(e):英汉双语语句对的英文句子中含有的上述四种词性的词的个数。
同样,当所述双语句为其它两种语言的双语语句对时,也可以应用上面的公式进行计算。
当匹配特征值为机器翻译引擎的翻译特征值时,该机器翻译引擎的翻译特征值的计算方式具体包括:
利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值。
机器翻译引擎的翻译特征值可以用于标识机器翻译引擎翻译句子的准确性,句子的相似度可以一定程度上反映出翻译句子的准确性,故此,机器翻译引擎的翻译特征值可以根据句子的相似度计算得出。句子的相似度越高,说明机器翻译引擎翻译句子的准确性越高,由此计算出的机器翻译引擎的翻译特征值可以更加准确的反映第一语句和第二语句的匹配程度。以英汉双语语句对为例,第一句子为英文句子A:She is a beautiful girl.第二句子为中文句子B:她是一个漂亮的女孩。利用机器翻译引擎将中文句子B翻译为英文句子A1,将英文句子A1与英文句子A进行相似性比较可以得到第一句子相似度;利用机器翻译引擎将英文句子A翻译为中文句子B1,将中文句子B1与中文句子B进行相似性比较可以得到第二句子相似度。
本发明实施例对于确定句子的相似度的方式不做限定,下面将以两种确定句子的相似度的方式为例进行介绍。
一种方式可以是通过无序相似的方式确定句子的相似度。以两个句子为例,无序相似主要是对这两个句子进行分词处理,根据两个句子分词后分词集合中词语的交集以及词语的并集,可以确定出两个句子的相似度。词语的交集包含的词语可以是两个句子中同时存在的词语,词语的并集包含的词语可以是两个句子中同时存在的词语以及两个句子中独立存在的词语。无序相似确定句子相似度的具体计算方式如下:
对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在的词和所述所有词的比例关系,获得所述句子的相似度。
举例说明,可以通过统计第一分词集合以及第二分词集合中同时存在的词的个数,以及第一分词集合和第二分词集合的所有词的个数,其中所有词的个数指的是两个分词集合中同时存在的词的个数以及两个分词集合中独立存在的词的个数之和。可以将同时存在的词的个数与所有词的个数相除得出句子的相似度。例如,翻译语句的第一分词集合中包含有10个词,与翻译语句进行相似性比较的语句的第二分词集合中包含有11个词,在这两个分词集合中同时存在的词有9个,则第一分词集合中独立存在的词的个数为1个,第二分词集合中独立存在的词的个数为2个,由此可知,第一分词集合和第二分词集合的所有词的个数为9+1+2=12个,翻译语句和与翻译语句进行相似性比较的语句的相似度为9/12=3/4。
另一种方式可以是通过有序相似的方式确定句子的相似度,以两个句子为例,有序相似与无序相似的区别在于,有序相似在确定两个句子分词后分词集合中词语的交集时,不仅考虑两个句子的分词集合中同时存在的词语,同时也会考虑到词语在句子中所处的位置,位置可以是该词语属于句子的第几个分词,属于同一位置上同时存在的词语才可以作为两个句子中词语的交集,例如,句子A的分词集合1中具有词语a,词语a属于分词集合1中的第3个分词,如果在句子A1的分词集合2中也具有词语a,并且词语a属于分词集合2中的第3个分词,则可以将词语a作为词语的交集中的一个词语。词语的并集可以是两个句子中词语的交集包含的词语以及两个句子中独立存在的词语。有序相似确定句子相似度的具体计算方式如下:
对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在且位置关系相同的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在且位置关系相同的词和所述所有词的比例关系,获得所述句子的相似度。
举例说明,可以通过统计第一分词集合以及第二分词集合中同时存在且位置关系相同的词的个数,以及第一分词集合和第二分词集合的所有词的个数,其中所有词的个数指的是两个分词集合中同时存在且位置关系相同的词的个数以及两个分词集合中独立存在的词的个数之和。可以将同时存在且位置关系相同的词的个数与所有词的个数相除得出句子的相似度。例如,翻译语句的第一分词集合中包含有10个词,与翻译语句进行相似性比较的语句的第二分词集合中包含有11个词,在这两个分词集合中同时存在且位置关系相同的词有8个,则第一分词集合中独立存在的词的个数为2个,第二分词集合中独立存在的词的个数为3个,由此可知,第一分词集合和第二分词集合的所有词的个数为8+2+3=13个,翻译语句和与翻译语句进行相似性比较的语句的相似度为8/13。
S300、利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对。
其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
当匹配特征值为句长比例特征值时,所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
当匹配特征值为互翻译性特征值时,所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
当匹配特征值为机器翻译引擎的翻译特征值时,所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
本发明实施例中,分类模型可以是预先建立,接下来将对分类模型的建立方式展开介绍。
如图2所示,利用训练集建立的分类模型具体包括:
S201、构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符。
所述训练集是按照双语语料库中一定比例的好坏句对组成的,同时标注每个双语语句对的类别值,设定好句对的类别值为1,坏句对的类别值为-1。
所述训练集可以从双语语料库中按照好坏句对1:1的比例挑选双语语句对组成训练集。
训练集的大小应该保持在5万句对以上,越大的训练集对训练分类模型越有好处。语料的来源尽量广泛,越广泛的语料分布使训练后的分类模型越具有一般性。
S202、采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
训练集特征的标注格式:“类别值+空格+特征代码:特征值+空格+特征代码:特征值……”,在类别值和特征代码之间保留一个空格,在特征值与特征代码之间保留一个空格。以匹配特征值包括句长比例特征值和互翻译性特征值中的至少一个为例,例如可以设定所述句长比例特征值为2,设定所述互翻译性特征值为3。
利用分类器进行分类训练可以选择svm(支持向量机)或最大熵等通用的分类器进行训练。
具体而言,所述训练可以按照如下方式进行:
采用SVM,计算匹配特征值,例如句长比例特征值和/或互翻译性特征值的权重,具体而言,在公式(1)中
w1*x+w2*y=z;公式(1)
计算匹配特征值,例如句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的权重,具体而言,在公式(2)中
w1*x+w2*y+w3*m=z;公式(2)
针对上述公式,x表示句长比例特征值,y表示互翻译性特征值,m表示机器翻译引擎的翻译特征值,w1表示句长比例特征值作为匹配特征值在确定互译关系中的权重,w2表示互翻译性特征值作为匹配特征值在确定互译关系中的权重,w3表示机器翻译引擎的翻译特征值作为匹配特征值在确定互译关系中的权重;z表示互译关系的数值结果。根据预先设定的阈值,当z大于所述阈值时,表示互译关系符合要求,否则,表示不符合要求。
对于训练集中的双语语句对,由于已经标识了其类别值,因此,可以基于该类别值确定其互译关系是否符合要求,再依据所述训练集中的双语语句对,按照本发明实施例之前所述方式可以计算得到句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。将这些值作为训练依据,利用所述公式(1)加以训练,即可得到w1和/或w2;将这些值作为训练依据,利用所述公式(2)加以训练,即可得到w1、w2和w3中的至少一个。所述训练可以依据训练集中的多个双语语句对进行,训练的双语语句对数量越多,则确定得到的权重值越准确。在确定了分类模型中的所述权重值之后,即可确定所述分类模型。
相应的,对于步骤S300,可以依据分类模型中的权重值,将针对目标双语语句对的匹配特征值,例如句长比例特征值和/或互翻译性特征值带入分类模型,例如公式(1)所述的模型中,计算得到表示互译关系的数值,例如公式(1)所述z,再结合计算得到的表示互译关系的数值和预先设定的阈值的关系,即可确定所述目标双语语句对是否符合预先设定的互译关系。又例如句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个带入分类模型,例如公式(2)所述的模型中,计算得到表示互译关系的数值,例如公式(2)所述z,再结合计算得到的表示互译关系的数值和预先设定的阈值的关系,即可确定所述目标双语语句对是否符合预先设定的互译关系。
分类模型建立后,将类别值标记为“-1”的双语语句对放入过滤库,留待以后处理。类别值标记为“1”的双语语句对保留在双语语料库中。
本发明实施例所述确定双语语句对互译关系方法,包括确定双语语句对的匹配特征值的步骤,再根据预先建立的训练分类模型,利用匹配特征值在互译关系中的权重对双语语句进行过滤分类,确定出该双语语句对是否为符合互译关系要求的双语语句对。这样本发明实施例所述确定双语语句对互译关系方法能够快速方便的处理数据量庞大的双语语料库。本发明利用所述分类模型的分类将确定双语语句对互译关系问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
参考图3和图4,图3为本发明所述确定双语语句对互译关系方法第二种实施例流程图;图4是图3中建立分类模型的流程图。
本发明所述确定双语语句对互译关系方法第二种实施例相对第一种实施例,增加确定数词匹配特征值的步骤。
本发明第二种实施例所述确定双语语句对互译关系方法,如图3所示,包括以下步骤:
S301、确定数词匹配特征值。
将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1。当所述数词不匹配,确定数词匹配特征值为0。
下面以英汉双语语句对为例,举例说明确定数词匹配特征值的过程。
首先,分别对英汉双语语句对的中文句子和英文句子进行词性标注,标注方法为公知技术,在此不再详述。
然后,将英汉双语语句对的中文句子中含有标记为m(数词),英文中含有标记为od(系数词)和cd(数词)的数词进行归一化。
例如英汉双语语句对的英文句中含有“$5million”,中文句子中含有“五百万”,都将统一转化为5000000。
所述归一化采用基于规则的方法,即制定一些转化规则。
所述转化规则包括汉语的数词与数字转化规则,例如:“一”对应“1”、“百”对应“100”等。
所述转化规则包括英语的数词与数字转化规则,例如“one”对应“1”、“hundred”对应“100”等。
将英汉双语语句对的中文句子和英汉双语语句对的英文句子中归一化后的数词比较,如果匹配,则数词匹配特征值为1。如果不匹配,则数词匹配特征值为0。
S302、获取双语语料库中的目标双语语句对。
其中,所述目标双语语句对可以为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系。
S303、对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值。
所述匹配特征值可以为句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
当匹配特征值为句长比例特征值时,以英汉双语语句对为例,确定句长比例特征值的具体过程如下:
确定英汉双语语句对中采用单词数或字符个数,用所述汉语句中的单词数或字符个数比上所述英语句中采用单词数或字符个数,得出句长比例特征值。
句长分别采用单词数或者是字符的个数来计算时,二者相差不大,一般选用单词数计算更能体现英汉双语语句对的句长比例特征。
当匹配特征值为互翻译性特征值时,以英汉双语语句对为例,确定互翻译性特征值的具体过程如下:
统计英汉双语语句对中不同词性的数量,具体是统计英汉双语语句对中名词、动词、形容词及介词的数量。
首先,分别对英汉双语语句对进行词性标注。然后,再统计英汉双语语句对中分别含有名词、动词、形容词和介词四种词性的词的个数。
对于英汉双语语句对的中文句子中含有上述名词、动词、形容词、介词词性的词,利用汉英词典翻译,并在英汉双语语句对的英文句子中含有上述词性的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语语句对的英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语语句对的中文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配的个数。
利用下面的公式计算英汉双语语句对互翻译性特征值。
V(c,e)=(T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英汉双语语句对互翻译性特征值;
T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句子中的匹配个数;
I(c):英汉双语语句对的中文句子中含有的上述四种词性的词的个数;
I(e):英汉双语语句对的英文句子中含有的上述四种词性的词的个数。
当匹配特征值为机器翻译引擎的翻译特征值时,以英汉双语语句对为例,举例说明确定互翻译性特征值的过程。第一句子为英文句子A:She is a beautiful girl.第二句子为中文句子B:她是一个漂亮的女孩。利用机器翻译引擎将中文句子B翻译为英文句子A1,将英文句子A1与英文句子A进行相似性比较可以得到第一句子相似度;利用机器翻译引擎将英文句子A翻译为中文句子B1,将中文句子B1与中文句子B进行相似性比较可以得到第二句子相似度。将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值。
S304、利用分类模型,根据所述目标双语语句对的匹配特征值,以及数词匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对。
同样,以英汉双语语句对为例,具体说明本发明所述确定双语语句对互译关系方法第二实施例对应分类模型的建立过程。
如图4所示,建立分类模型具体步骤包括:
S401、构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符。
所述训练集是按照英汉双语语料库中一定比例的好坏句对组成的,同时标注每个英汉双语语句对的类别值,设定好句对的类别值为1,坏句对的类别值为-1。
S402、采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,以及数词匹配特征值,根据所述匹配特征值和数词匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值和数词匹配特征值在互译关系中的权重。
训练集特征的标注格式:类别值+空格+特征代码:特征值+空格+特征代码:特征值+空格+特征代码:特征值。
在类别值和特征代码之间保留一个空格,在特征值与特征代码之间保留一个空格。例如可以设定所述数词匹配特征值为1,设定所述句长比例特征值为2,设定所述互翻译性特征值为3,设定所述机器翻译引擎的翻译特征值为4。
分类模型建立后,将类别值标记为“-1”的英汉双语语句对放入过滤库,留待以后处理。类别值标记为“1”的英汉双语语句对保留在英汉双语语料库中。
本发明所述方法的第二实施例增加了确定数词匹配特征值的步骤,使得包含有数字信息的双语语句对的过滤准确性大大提高。
参见参考图5和图6,图5为本发明所述确定双语语句对互译关系方法第三种实施例流程图;图6是图5统一所述双语语句对中的编码类型的预处理流程图。
本发明所述确定双语语句对互译关系方法第三种实施例相对第一种实施例,增加统一所述双语语句对中的编码类型的预处理的步骤。
同样,以英汉双语语句对为例,具体说明本发明第三种实施例所述确定双语语句对互译关系方法的过程。
本发明第三种实施例所述确定双语语句对互译关系方法,如图5所示,包括以下步骤:
S501、统一所述英汉双语语句对中的编码类型的预处理。
如图6所示,统一所述英汉双语语句对中的编码类型的预处理具体步骤包括:
S1a、将所述英汉双语语句对进行全角转半角处理。
S1b、将Big5码(繁体编码)转换为GB码(简体国标编码)。
S1c、排除乱码的处理。
对于英汉双语语句对中的中文部分排除乱码的处理,按照GB码范围排查,超越该范围的剔除。
对于英汉双语语句对中的英文部分排除乱码的处理,按照ASCII码范围排查,超越该范围的剔除。
对于特殊符号处理,对于一些英汉双语语句对的句首含有标号,如“1、(1)、(I)、(i)、1)、一、”等标号时,将句首的该标号删除,其余保留。
对于一些英汉双语语句对的句中含有特殊的标点符号,如 或等特殊标点符号,将该符号删除,其余部分保留。
统一所述英汉双语语句对中的编码类型的预处理可以包括上述S1a、S1b、S1c三个步骤,也可以只包括S1a、S1b、S1c中的一个或两个步骤。
S502、获取双语语料库中的目标双语语句对。
其中,所述目标双语语句对可以为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系。
S503、对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值。
匹配特征值可以一定程度上反映出目标双语语句对中第一语句和第二语句的匹配程度,匹配特征值越高,则说明该第一语句和该第二语句的匹配程度越好。匹配特征值可以是判断目标双语语句是否符合要求的主要参考因素。
所述匹配特征值可以为句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
当匹配特征值为句长比例特征值时,以英汉双语语句对为例,举例说明确定句长比例特征值的过程。确定英汉双语语句对中采用单词数或字符个数,用所述汉语句中的单词数或字符个数比上所述英语句中采用单词数或字符个数,得出句长比例特征值。
当匹配特征值为互翻译性特征值时,同样,以英汉双语语句对为例,举例说明确定互翻译性特征值的过程。统计英汉双语语句对中不同词性的数量,具体是统计英汉双语语句对中名词、动词、形容词及介词的数量。
首先,分别对英汉双语语句对进行词性标注。然后,再统计英汉双语语句对中分别含有名词、动词、形容词和介词四种词性的词的个数。
对于英汉双语语句对的中文句子中含有上述名词、动词、形容词、介词词性的词,利用汉英词典翻译,并在英汉双语语句对的英文句子中含有上述词性的词中查找。若找到,则匹配,统计匹配的个数。反之,对英汉双语语句对的英文句子中含有上述词性的词,利用英汉词典翻译,并在英汉双语语句对的中文句子中含有上述词性的词中查找是否匹配。若找到,则匹配,并统计匹配的个数。
利用下面的公式计算英汉双语语句对互翻译性特征值。
V(c,e)=(T(c,e)/I(c))*(T(e,c)/I(e))
其中,V(c,e):英汉双语语句对互翻译性特征值;
T(c,e):利用汉英词典查找到的中文句子中的上述四种词性的词在英文句子中的匹配个数;
T(e,c):利用英汉词典查找到的英文句子中的上述四种词性的词在中文句子中的匹配个数;
I(c):英汉双语语句对的中文句子中含有的上述四种词性的词的个数;
I(e):英汉双语语句对的英文句子中含有的上述四种词性的词的个数。
当匹配特征值为机器翻译引擎的翻译特征值时,以英汉双语语句对为例,举例说明确定互翻译性特征值的过程。第一句子为英文句子A:She is a beautiful girl.第二句子为中文句子B:她是一个漂亮的女孩。利用机器翻译引擎将中文句子B翻译为英文句子A1,将英文句子A1与英文句子A进行相似性比较可以得到第一句子相似度;利用机器翻译引擎将英文句子A翻译为中文句子B1,将中文句子B1与中文句子B进行相似性比较可以得到第二句子相似度。将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值。
S504、利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对。
利用训练集建立的分类模型具体包括:
构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符。
所述训练集是按照英汉双语语料库中一定比例的好坏句对组成的,同时标注每个英汉双语语句对的类别值,设定好句对的类别值为1,坏句对的类别值为-1。
采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
利用分类器进行分类训练为公知技术,可以选择svm或最大熵等通用的分类器进行训练。
分类模型建立后,将类别值标记为“-1”的英汉双语语句对放入过滤库,留待以后处理。类别值标记为“1”的英汉双语语句对保留在英汉双语语料库中。
本发明所述确定双语语句对互译关系方法第三种实施例增加了统一所述双语语句对中的编码类型的预处理的步骤,可以进一步提高分类过滤的准确率。
本发明所述确定双语语句对互译关系方法,还可以在第二实施例的S301确定数词匹配特征值之前,增加统一所述双语语句对中的编码类型的预处理的步骤。同样,可以提高分类过滤的准确率。
本发明还提供一种确定双语语句对互译关系系统,用于提高语料库通用性、准确率和召回率。
参见图7,该图为本发明所述确定双语语句对互译关系系统第一种实施例结构图。
本发明第一种实施例所述确定双语语句对互译关系系统,包括:目标双语语句对获取单元11、匹配特征值获取单元12、过滤分类单元13。
所述目标双语语句对获取单元11用于获取双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系。其中,所述第一语言可以为汉语、第二语言为英语;或者,所述第一语言可以为英语、第二语言为汉语。
所述匹配特征值获取单元12用于对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值。
所述过滤分类单元13用于利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
可选的,在本发明所述确定双语语句对互译关系系统中,可以进一步包括:分类模型训练单元14。如图8所示,分类模型训练单元14可以与过滤分类单元13相连。分类模型训练单元14用于构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符;采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
在上述第一种实施例所述确定双语语句对互译关系系统中,所述匹配特征值可以是句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
当所述匹配特征值为句长比例特征值时,所述匹配特征值获取单元12具体用于:分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
所述过滤分类单元13具体用于:根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
当所述匹配特征值为互翻译性特征值时,所述匹配特征值获取单元12具体用于:利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值;
所述过滤分类单元13具体用于:根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
当所述匹配特征值为机器翻译引擎的翻译特征值时,
所述匹配特征值获取单元12具体用于:利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值;
所述过滤分类单元13具体用于:根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
可选的,所述匹配特征值获取单元12具体包括第一分词处理子单元和第一句子相似度获得子单元;其中:
所述第一分词处理子单元用于:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
所述第一句子相似度获得子单元用于:获得在所述第一分词集合以及第二分词集合中同时存在的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在的词和所述所有词的比例关系,获得所述句子的相似度。
可选的,所述匹配特征值获取单元12具体包括第二分词处理子单元和第二句子相似度获得子单元;其中:
所述第二分词处理子单元具体用于:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
所述第二句子相似度获得子单元用于:获得在所述第一分词集合以及第二分词集合中同时存在且位置关系相同的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在且位置关系相同的词和所述所有词的比例关系,获得所述句子的相似度。
本发明实施例所述确定双语语句对互译关系系统,包括用于获取双语语料库中的目标双语语句对的目标双语语句对获取单元11、用于计算目标双语语句对的匹配特征值的匹配特征值获取单元12和用于对目标双语语句对进行过滤分类,确定目标双语语句对是否为符合互译关系要求的双语语句对的过滤分类单元13。这样本发明实施例所述确定双语语句对互译关系系统能够快速方便的处理数据量庞大的双语语料库。在本发明实施例中还可以包括分类模型训练单元14,本发明利用分类模型训练单元14进行分类将确定双语语句对互译关系问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相应的提高。
参见图9,该图为本发明所述确定双语语句对互译关系系统第二种实施例结构图。
本发明所述确定双语语句对互译关系系统第二种实施例相对第一种实施例增加了与所述过滤分类单元13相连的数词匹配单元15。
所述数词匹配单元15,用于将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
所述过滤分类单元13,根据分类模型训练单元14预先建立的分类模型,利用所述数词匹配特征值和所述匹配特征值进行过滤分类。
需要说明的是,在确定双语语句对互译关系系统第一种实施例中,可选的可以包括分类模型训练单元,图9是以第一实施例中包括分类模型训练单元,在此基础上增加了数词匹配单元,在确定双语语句对互译关系系统第二种实施例中也可以不包括该分类模型训练单元。
本发明所述系统的第二实施例增加了确定数词匹配单元15,所述系统处理包含有数字信息的双语语句对时的过滤准确性大大提高。
参见图10,该图为本发明所述确定双语语句对互译关系系统第三种实施例结构图。
本发明所述确定双语语句对互译关系系统第三种实施例相对第一种实施例增加了与所述过滤分类单元13相连的预处理单元16。
预处理单元16,用于统一所述双语语句对中的编码类型的预处理。
所述预处理单元16包括与所述过滤分类单元13均相连的全角转半角处理子单元16a和乱码处理子单元16c。
全角转半角处理子单元16a,用于将所述双语语句对进行全角转半角处理。
乱码处理子单元16c,用于排除乱码的处理。
乱码处理子单元16c对于特殊符号处理:
乱码处理子单元16c对于一些双语语句对的句首含有标号,如“1、(1)、(I)、(i)、1)、一”等标号时,将句首的该标号删除,其余保留。
乱码处理子单元对于一些双语语句对的句中含有特殊的标点符号,如或等特殊标点符号,将该符号删除,其余部分保留。
当本发明所述确定双语语句对互译关系系统为确定英汉双语语句对互译关系系统时,乱码处理子单元对于英汉双语语句对中的中文部分排除乱码的处理,按照GB码范围排查,超越该范围的剔除。
当本发明所述确定双语语句对互译关系系统为确定双语语句对互译关系系统时,乱码处理子单元16c对于双语语句对中的英文部分按照ASCII码范围排查,超越该范围的剔除。
当本发明所述确定双语语句对互译关系系统为确定双语语句对互译关系系统时,所述预处理单元16包括繁体编码(Big5码)转简体国标编码(GB码)处理子单元16b,Big5码转GB码处理子单元16b,用于将Big5码转换为GB码。
所述预处理单元16可以全部包括全角转半角处理子单元16a、Big5码转GB码处理子单元16b和乱码处理子单元16c,也可以包括全角转半角处理子单元16a、Big5码转GB码处理子单元16b和乱码处理子单元16c中的一个或两个子单元。
本发明所述确定双语语句对互译关系系统第三种实施例增加了预处理单元16,统一所述双语语句对中的编码类型,进一步提高分类过滤的准确率。
本发明实施例所述确定双语语句对互译关系系统可以在第二实施例的基础上进一步增加与所述过滤分类单元13相连的预处理单元16。
所述预处理单元16包括与所述过滤分类单元13均相连的全角转半角处理子单元16a、Big5码转GB码处理子单元16b和乱码处理子单元16c。
所述预处理单元16可以全部包括全角转半角处理子单元16a、Big5码转GB码处理子单元16b和乱码处理子单元16c,也可以包括全角转半角处理子单元16a、Big5码转GB码处理子单元16b和乱码处理子单元16c中的一个或两个子单元。
以上所述仅为本发明的优选实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (20)
1.一种确定双语语句对互译关系的方法,其特征在于,包括以下步骤:
获取双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系;
对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值;
利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
2.根据权利要求1所述的方法,其特征在于,所述匹配特征值为:句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
3.根据权利要求1或2所述的方法,其特征在于,所述匹配特征值为句长比例特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
4.根据权利要求1或2所述的方法,其特征在于,所述匹配特征值为互翻译性特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
5.根据权利要求1或2所述的方法,其特征在于,所述匹配特征值为机器翻译引擎的翻译特征值;
所述对目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值,具体包括:
利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值;
所述对目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对,具体包括:
根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
6.根据权利要求5所述的方法,其特征在于,所述确定句子的相似度包括:对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在的词和所述所有词的比例关系,获得所述句子的相似度。
7.根据权利要求5所述的方法,其特征在于,所述确定句子的相似度包括:
对所述翻译语句以及与之进行相似性比较的所述语句进行分词,分别得到翻译语句的第一分词集合以及相似性比较的所述语句的第二分词集合;
获得在所述第一分词集合以及第二分词集合中同时存在且位置关系相同的词,以及,获得第一分词集合和第二分词集合的所有词,依据所述同时存在且位置关系相同的词和所述所有词的比例关系,获得所述句子的相似度。
8.根据权利要求1所述的方法,其特征在于,所述分类模型的训练包括:
构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符;
采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
9.根据权利要求1所述的方法,其特征在于,该方法进一步包括:确定数词匹配特征值;
所述确定数词匹配特征值具体为:将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
10.根据权利要求1所述的方法,其特征在于,该方法进一步包括:统一所述双语语句对中的编码类型的预处理。
11.根据权利要求10所述的方法,其特征在于,所述双语语句对具体为英汉双语语句对;统一所述双语语句对中的编码类型的预处理具体包括:
11)将所述英汉双语语句对进行全角转半角处理;
12)将繁体编码转换为简体国标编码;
13)排除乱码的处理。
12.根据权利要求1至11任意一项所述的方法,其特征在于,所述第一语言为汉语且所述第二语言为英语;或者,所述第一语言为英语且所述第二语言为汉语。
13.一种确定双语语句对互译关系的系统,其特征在于,包括:目标双语语句对获取单元、匹配特征值获取单元、过滤分类单元;其中:
所述目标双语语句对获取单元用于:获取双语语料库中的目标双语语句对,其中,所述目标双语语句对为第一语言的第一句子与第二语言的第二句子所组成的语句对,所述第一句子和第二句子之间具有待确定的互译关系;
所述匹配特征值获取单元用于:对所述目标双语语句对中的第一语句和第二语句进行分析,并利用分析结果对所述第一语句和第二语句的匹配关系进行计算,得到所述目标双语语句对的匹配特征值;
所述过滤分类单元用于:利用分类模型,根据所述目标双语语句对的匹配特征值,对所述目标双语语句对进行过滤分类,确定所述目标双语语句对是否为符合互译关系要求的双语语句对;其中,所述分类模型是以训练双语语句对为训练对象训练得到的,所述训练以所述训练双语语句对的所述匹配特征值、所述训练双语语句对之间是否具有符合要求的互译关系为依据来进行,所述训练的训练结果包括所述匹配特征值在互译关系中的权重。
14.根据权利要求13所述的系统,其特征在于,所述匹配特征值为:句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个。
15.根据权利要求13或14所述的系统,其特征在于,所述匹配特征值为句长比例特征值;
所述匹配特征值获取单元具体用于:分别分析得到所述第一语句和所述第二语句的单词或字符个数,计算所述第一语句的单词或字符个数与第二语句的单词或字符个数的比例关系,得到所述目标双语语句对的句长比例特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的句长比例特征值在互译关系中的权重,以及所述目标双语语句对的句长比例特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
16.根据权利要求13或14所述的系统,其特征在于,所述匹配特征值为互翻译性特征值;
所述匹配特征值获取单元具体用于:利用互译词典,在第一语句中,确定具有与第二语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第一语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第一比例关系;
和/或,
利用互译词典,在第二语句中,确定具有与第一语句中的词具有匹配关系的词的个数;所述匹配关系为翻译内容匹配且词性匹配;
统计第二语句中不同所述词性的词的总个数,根据该总个数以及所述具有匹配关系的词的个数,得到第二比例关系;
以及,将所述第一比例关系或第二比例关系,或者第一比例关系与第二比例关系的乘积作为所述互翻译性特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的互翻译性特征值在互译关系中的权重,以及所述目标双语语句对的互翻译性特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
17.根据权利要求13或14所述的系统,其特征在于,所述匹配特征值为机器翻译引擎的翻译特征值;
所述匹配特征值获取单元具体用于:利用机器翻译引擎,将所述第一语句翻译为所述第二语言的第一翻译语句,确定第一句子相似度,所述第一句子相似度为所述第一翻译语句与所述第二语句的句子进行相似性比较所得到的相似度;以及,利用机器翻译引擎,将所述第二语句翻译为所述第一语言的第二翻译语句,确定第二句子相似度,所述第二句子相似度为所述第二翻译语句与所述第一语句进行相似性比较所得到的句子相似度;
将所述第一句子相似度或第二句子相似度,或者,第一句子相似度和第二句子相似度的乘积作为所述机器翻译引擎的翻译特征值;
所述过滤分类单元具体用于:根据所述分类模型中所确定的机器翻译引擎的翻译特征值在互译关系中的权重,以及所述目标双语语句对的机器翻译引擎的翻译特征值,计算所述目标双语语句对是否满足预先设定的互译关系要求,如果是,则将所述目标双语语句对确定为具有互译关系的双语语句对,保留在所述双语语料库中。
18.根据权利要求13所述的系统,其特征在于,该系统进一步包括:分类模型训练单元,该单元用于:构建由所述训练双语语句对构成的训练集;所述训练双语语句对具有是否符合互译关系的标识符;
采用分类器对所述训练双语语句对进行训练,所述训练包括确定训练双语语句对的包括句长比例特征值、互翻译性特征值以及机器翻译引擎的翻译特征值中的至少一个的匹配特征值,根据所述匹配特征值,并根据所述双语语句对是否符合互译关系,计算得到所述匹配特征值的在互译关系中的权重。
19.根据权利要求13所述的系统,其特征在于,所述系统进一步包括数词匹配单元,用于将双语语句对中的数词分别统一进行数字的转化,当双语语句对中的数词转化后的数字匹配,确定数词匹配特征值为1,当所述数词不匹配,确定数词匹配特征值为0。
20.根据权利要求13至19任意一项所述的系统,其特征在于,所述第一语言为汉语且所述第二语言为英语;或者,所述第一语言为英语且所述第二语言为汉语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611207663.6A CN106598959B (zh) | 2016-12-23 | 2016-12-23 | 一种确定双语语句对互译关系方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611207663.6A CN106598959B (zh) | 2016-12-23 | 2016-12-23 | 一种确定双语语句对互译关系方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106598959A true CN106598959A (zh) | 2017-04-26 |
CN106598959B CN106598959B (zh) | 2021-03-19 |
Family
ID=58601270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611207663.6A Active CN106598959B (zh) | 2016-12-23 | 2016-12-23 | 一种确定双语语句对互译关系方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106598959B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
CN108920469A (zh) * | 2018-06-12 | 2018-11-30 | 深圳市合言信息科技有限公司 | 一种提高多语言互译准确度的方法 |
CN109522563A (zh) * | 2018-10-15 | 2019-03-26 | 语联网(武汉)信息技术有限公司 | 自动判断语句翻译完毕的方法及装置 |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109933809A (zh) * | 2019-03-15 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
CN110866407A (zh) * | 2018-08-17 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 确定互译文本及文本间相似度分析方法、装置及设备 |
CN110874536A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN111221965A (zh) * | 2019-12-30 | 2020-06-02 | 成都信息工程大学 | 基于公共标识语双语语料的分类抽样检测方法 |
RU2737112C1 (ru) * | 2019-10-25 | 2020-11-24 | Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. | Способ и устройство обработки информации, а также носитель данных |
WO2021017951A1 (en) * | 2019-07-26 | 2021-02-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof |
WO2021017953A1 (en) * | 2019-07-26 | 2021-02-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
US20080097742A1 (en) * | 2006-10-19 | 2008-04-24 | Fujitsu Limited | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method |
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
CN102043774A (zh) * | 2011-01-13 | 2011-05-04 | 北京交通大学 | 机器翻译测评装置和方法 |
JP2011243087A (ja) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 自動単語対応付け装置とその方法とプログラム |
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN103235775A (zh) * | 2013-04-25 | 2013-08-07 | 中国科学院自动化研究所 | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 |
CN104750687A (zh) * | 2013-12-25 | 2015-07-01 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN104933038A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 机器翻译方法和机器翻译装置 |
-
2016
- 2016-12-23 CN CN201611207663.6A patent/CN106598959B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
US20080097742A1 (en) * | 2006-10-19 | 2008-04-24 | Fujitsu Limited | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method |
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
JP2011243087A (ja) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 自動単語対応付け装置とその方法とプログラム |
CN102043774A (zh) * | 2011-01-13 | 2011-05-04 | 北京交通大学 | 机器翻译测评装置和方法 |
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN103235775A (zh) * | 2013-04-25 | 2013-08-07 | 中国科学院自动化研究所 | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 |
CN104750687A (zh) * | 2013-12-25 | 2015-07-01 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN104933038A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 机器翻译方法和机器翻译装置 |
Non-Patent Citations (3)
Title |
---|
BARTHOLOMAUS WLOKA 等: "TREE-TRanslation Enhancement Framework for Japanese-English", 《PROCEEDINGS OF THE INTERNATIONAL MULTICONFERENCE ON COMPUTER SCIENCE AND INFORMATION TECHNOLOGY》 * |
刘飞: "双语平行句对的获取与语料库的建立", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张博威: "基于互联网的统计机器翻译平行句对获取", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
CN108920469A (zh) * | 2018-06-12 | 2018-11-30 | 深圳市合言信息科技有限公司 | 一种提高多语言互译准确度的方法 |
CN110866407B (zh) * | 2018-08-17 | 2024-03-01 | 阿里巴巴集团控股有限公司 | 确定互译文本及文本间相似度分析方法、装置及设备 |
CN110866407A (zh) * | 2018-08-17 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 确定互译文本及文本间相似度分析方法、装置及设备 |
CN110874536B (zh) * | 2018-08-29 | 2023-06-27 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN110874536A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN109522563A (zh) * | 2018-10-15 | 2019-03-26 | 语联网(武汉)信息技术有限公司 | 自动判断语句翻译完毕的方法及装置 |
CN109522563B (zh) * | 2018-10-15 | 2023-05-23 | 语联网(武汉)信息技术有限公司 | 自动判断语句翻译完毕的方法及装置 |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109857746B (zh) * | 2018-11-09 | 2021-05-04 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109933809B (zh) * | 2019-03-15 | 2023-09-15 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109933809A (zh) * | 2019-03-15 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
WO2021017951A1 (en) * | 2019-07-26 | 2021-02-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof |
US11288452B2 (en) | 2019-07-26 | 2022-03-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof |
US11238222B2 (en) | 2019-07-26 | 2022-02-01 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data |
WO2021017953A1 (en) * | 2019-07-26 | 2021-02-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Dual monolingual cross-entropy-delta filtering of noisy parallel data |
US11461561B2 (en) | 2019-10-25 | 2022-10-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for information processing, and storage medium |
RU2737112C1 (ru) * | 2019-10-25 | 2020-11-24 | Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. | Способ и устройство обработки информации, а также носитель данных |
CN111221965A (zh) * | 2019-12-30 | 2020-06-02 | 成都信息工程大学 | 基于公共标识语双语语料的分类抽样检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106598959B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106598959A (zh) | 一种确定双语语句对互译关系方法及系统 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN101201820B (zh) | 一种双语语料库过滤方法及系统 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN106649597A (zh) | 一种基于图书内容的图书书后索引自动构建方法 | |
CN110362820B (zh) | 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 | |
CN109460552A (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN107807910A (zh) | 一种基于hmm的词性标注方法 | |
CN107133212A (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN103729421B (zh) | 一种译员文档精确匹配的方法 | |
CN107391495A (zh) | 一种双语平行语料的句对齐方法 | |
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN105930319A (zh) | 建立获取题目知识点模型、获取题目知识点的方法和装置 | |
CN103092966A (zh) | 一种挖掘词汇的方法及装置 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN106779455A (zh) | 一种翻译项目的风险评估方法及系统 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
CN104750676B (zh) | 机器翻译处理方法及装置 | |
CN107977454A (zh) | 双语语料清洗的方法、装置及计算机可读存储介质 | |
Glaser et al. | Sentence Boundary Detection in German Legal Documents. | |
CN110309513A (zh) | 一种文本依存分析的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |