CN111178091B - 一种多维度的中英双语数据清洗方法 - Google Patents

一种多维度的中英双语数据清洗方法 Download PDF

Info

Publication number
CN111178091B
CN111178091B CN201911323592.XA CN201911323592A CN111178091B CN 111178091 B CN111178091 B CN 111178091B CN 201911323592 A CN201911323592 A CN 201911323592A CN 111178091 B CN111178091 B CN 111178091B
Authority
CN
China
Prior art keywords
chinese
english
word
bilingual
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911323592.XA
Other languages
English (en)
Other versions
CN111178091A (zh
Inventor
杜权
毕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yayi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yayi Network Technology Co ltd filed Critical Shenyang Yayi Network Technology Co ltd
Priority to CN201911323592.XA priority Critical patent/CN111178091B/zh
Publication of CN111178091A publication Critical patent/CN111178091A/zh
Application granted granted Critical
Publication of CN111178091B publication Critical patent/CN111178091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种多维度的中英双语数据的清洗方法,步骤为:数据预处理,将多个领域的中英双语高质量的数据和输入文件中的中英双语句对进行包括分词、实体识别以及英文单词词干化预处理;生成词典,使用预处理后的中英双语高质量数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典;语言模型训练;使用中英词典、英中词典以及3‑Gram语言模型进行多维度评估,得到多个维度的评估分值;将各个维度评估分值线性组合后得到每个双语句对的最终得分,最后滤除掉低于阈值的双语句对;将剩余的双语句对存储在输出文件中,得到高质量语料库。本发明能够过滤掉互译程度差的低质量中英句对,且处理速度和准确率远超一般方法。

Description

一种多维度的中英双语数据清洗方法
技术领域
本发明涉及一种机器翻译技术,具体为一种多维度的中英双语数据清洗方法。
背景技术
中英双语数据由中文句子和英文句组成且具有良好的互译性。中英双语句对来源广泛,比如平行网页、中英双语网页,科技文献标题和摘要,或其他文档资源。由于数据的获取大多都通过自动的方法,难免会引入错误和噪声(例如句子切分中的句对齐错误),并且双语内容翻译质量也很难保证。常见的问题如下所示:
(1)增译/漏译
中:【幽默笑话】青年与老和尚喝茶。
英:Tea with the old monk.
(2)完全不对应
中:4.睡觉姿势不正确严重影响婴幼儿的睡眠质量。
英:5Dietary irregularities seriously affect the healthy growth ofinfants and young children.
(3)错译
中:你这辈子从没有这样惊慌过。
英:I have never been so happy in my life.
无论是神经机器翻译还是统计机器翻译模型的训练都依赖于大量的双语平行句对,双语句对质量的好坏直接影响到机器翻译系统的性能。为提高机器翻译性能,最直接的办法就是不断扩充双语语料库。随着双语句对规模的不断增大,语言现象的不断丰富,语料来源的不断异构化,使得人工处理和评估语料早已不再可能。而使用计算机技术处理各种复杂的语料,如何尽可能设计完善的算法以去除语料中不同类型的噪声,成为一种挑战。目前自动语料质量评估方法大多基于长度比和基于词典的方法,虽然该方法简单有效,但是不能保证清洗后的数据具有良好的互译性。其中,基于长度比的方法单纯的应用了词长信息,没有考虑句对内容的互译;基于词典的方法严重依赖于词典,并且没有考虑词语搭配的合理性。
因此从内容、结构等多个维度对双语平行语料库进行优化处理是最优方法,用自动的方法合理的评估双语句对的质量好坏,对质量比较差的句对进行过滤,以期在一定程度上改善系统的翻译质量。
发明内容
针对中英机器翻译系统的训练需要大规模的高质量双语数据,为避免由于双语句对的质量问题而影响机器翻译系统性能,本发明要解决的问题是提供一种多维度的中英双语数据的清洗方法,能够准确高效的过滤低质量的双语数据,并保证处理后的数据具有良好的互译性。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种多维度的中英双语数据的清洗方法,包括以下步骤:
1)数据预处理,将涵盖政治、军事、经济、新闻多个领域的中英双语高质量的数据和输入文件中的中英双语句对进行包括分词、实体识别以及英文单词词干化预处理;
2)生成词典,使用预处理后的中英双语高质量数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典;
3)语言模型训练,训练中文和英语以词为单位的3-Gram语言模型;
4)使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语句对进行多维度评估,得到多个维度的评估分值;
5)将各个维度评估分值线性组合后得到每个双语句对的最终得分,最后滤除掉低于阈值的双语句对;
6)将剩余的双语句对作为高质量的中英双语句对存储在输出文件中,得到高质量语料库。
步骤2)中,使用预处理后的数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典,采用机器翻译中词对齐算法对分词后的中英双语数据进行词对齐处理,得到两个词对齐文件,经过词对齐对称化后合并这两个文件,具体为:
201)将词对齐对称化后的文件进行词还原处理,生成初始化中英词典及英中词典并过滤两个词典中的低频词;
202)将初始化的中英词典中的词和译文互换后作为英中字典的补充,同理,对英中词典进行同样的补充。
步骤4)中,使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语数据进行多维度评估,得到多个维度的评估分值,分别计算待清洗数据的翻译覆盖度、流畅度、特征匹配率和长度比,并对流畅度和长度比分值进行正规化,最后得到各个维度的评估分值,具体为:
401)翻译覆盖度,通过以下公式计算得到:
Figure GDA0004167216520000021
其中,L(zh)和L(en)分别代表中文句子词长和英文句子词长,C(zh)和C(en)分别代表中文词语翻译正确个数和英文词语翻译正确的个数,Sdict代表平均翻译覆盖度分值;
402)流畅度,通过以下公式计算得到:
Figure GDA0004167216520000022
Figure GDA0004167216520000031
Figure GDA0004167216520000032
其中,Szh-gram和Sen-gram分别代表中文流畅度分值和英文流畅度分值,Sgram代表平均流畅度,P(wi|wi-N+1,...,wi-1)代表下一词的转移概率。
403)特征匹配率,通过以下公式计算得到:
Figure GDA0004167216520000033
其中,Ctemp(en)和Ctemp(zh)分别代表英文、中文的特征个数,Stemp代表特征匹配率分值;
404)长度比,通过以下公式计算得到:
Figure GDA0004167216520000034
其中,len(en|zh)代表英文词长和中文词长比值,Avglen(en|zh)代表平均长度比,平均长度比是在千万级高质量句对统计后结果,Slen-rate代表长度比分值。
405)分值正规化
在各个维度的评估中,翻译覆盖度和特征匹配率的得分属于区间[0,1],流畅度和长度比的得分属于区间[-∞,0],在计算句对最终得分前,对流畅度和长度比的得分进行正规化,统一分布在[0,1]之间,分值正规化通过以下公式计算得到:
Figure GDA0004167216520000035
其中,S为正规化前的分值,S'为正规化后的分值。
步骤5)中,将各个维度评估分值线性组合后得到每个双语句对的最终得分,通过以下公式计算得到:
Figure GDA0004167216520000036
Sdict、Sgram和Stemp衡量了中英句对互译的质量,Slen_rate衡量中英句对增译漏译程度。
本发明具有以下有益效果及优点:
1.本发明提出的一种多维度的中英双语数据的清洗方法,能够过滤掉互译程度差的低质量中英句对,且处理速度和准确率远超一般方法。
2.本发明方法使用自动句对质量评估方式过滤低质量双语数据,能够处理大规模的数据且无需任何复杂的计算,在具备高质量双语数据集前提下,该方法可以应用于其他语种的低质量双语句对的清洗。
3.本发明从多个维度来对双语句对进行评估,在中英句对的互译程度、用词搭配、句子流畅度层面上对数据质量进行全面的评估,使经过清洗后的数据质量得到了有效的保障。
附图说明
图1为本发明低质量双语句对清洗流程图;
图2为词典生成示例图;
图3为分值正规化的分布图。
具体实施方式
下面结合说明图对本发明进一步阐述。
本发明提出一种多维的中英双语数据的清洗方法,从多个维度评估双语句对质量。能够准确高效的过滤低质量的双语数据,并保证高质量数据具有良好的互译性。
本发明一种多维度的中英双语数据的清洗方法,包括以下步骤:
1)数据预处理,将涵盖政治、军事、经济、新闻多个领域的中英双语高质量的数据和输入文件中的中英双语句对进行包括分词、实体识别以及英文单词词干化预处理;
2)生成词典,使用预处理后的中英双语高质量数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典;
3)语言模型训练,训练中文和英语以词为单位的3-Gram语言模型;
4)使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语句对进行多维度评估,得到多个维度的评估分值;
5)将各个维度评估分值线性组合后得到每个双语句对的最终得分,最后滤除掉低于阈值的双语句对;
6)将剩余的双语句对作为高质量的中英双语句对存储在输出文件中,得到高质量语料库。
步骤1)中,数据的预处理包括:
101)为生成高质量的特征词表,需对中英双语数据进行分词预处理,根据其语言特点选取不同的分词方法进行分词预处理。中文由于没有明显的词语标记,采用基于语言模型的词语切分方法进行词语切分;英语本身包含空格,则按照空格标点切分,同时注意关键词等问题。
102)为降低中英词典和英中词典的复杂度,增大两个词典的覆盖度,对中文和英文句子中的英文单词进行小写化和词干还原。单词小写化是将大写字母替换为对应的小写字母,词干化是将名词的复数变为单数、动词的其他形态变为基本形态。例如:
Parker/was/also/the/first/European/to/win/Finals/MVP/in/2007/.
帕克/是/第一/个/在/2007/年/赢得/总/冠军/MVP/的/欧洲/人/。
小写化预处理:
parker/was/also/the/first/european/to/win/finals/mvp/in/2007/.
帕克/是/第一/个/在/2007/年/赢得/总/冠军/mvp/的/欧洲/人/。
词干化预处理:
park/was/also/the/first/europ/to/win/final/mvp/in/2007/.
帕克/是/第一/个/在/2007/年/赢得/总/冠军/mvp/的/欧洲/人/。
103)为降低N-Gram语言模型的复杂度,训练N-Gram语言模型的数据需经过泛化预处理,包括实体翻译和标点替换等;
步骤2)中,使用预处理后的数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典,采用机器翻译中词对齐算法对分词后的中英双语数据进行词对齐处理,得到两个词对齐文件,经过词对齐对称化后合并这两个文件,具体为:
201)将词对齐对称化后的文件进行词还原处理,生成初始化中英词典及英中词典并过滤两个词典中的低频词;
202)将初始化的中英词典中的词和译文互换后作为英中字典的补充,同理,对英中词典进行同样的补充。
词还原处理是指将原文词语按照词对齐结果对应还原。在图2示例中,由于存在一对多关系(“联合/主席”-“cochairman”、“人工智能”-“artificial intelligence”),在处理的过程中需要针对中英和英中分别进行处理。中英预处理即以中文为核心进行合并;英中预处理即以英文为标准进行合并。根据处理后文件在按照词的位置进行还原成词,加入到词典中生成生成初始化词典。
步骤3)中,训练3-Gram语言模型过程中,计算P(W3|W1W2)采用极大似然估计法进行求解,公式如下,其中C(W1W2)表示词序列W1W2出现的次数。
Figure GDA0004167216520000051
步骤4)中,对中英双语数据进行多维度的评估,分别计算待清洗数据的翻译覆盖度、流畅度、特征匹配率和长度比,并对流畅度和长度比分值进行正规化,最后得到各个维度的评估分值,具体流程如图1所示。
401)翻译覆盖度,也称平均翻译覆盖度,通过以下公式计算得到:
Figure GDA0004167216520000052
其中,L(zh)和L(en)分别代表中文句子词长和英文句子词长,C(zh)和C(en)分别代表中文词语翻译正确个数即正向覆盖度和英文词语翻译正确的个数即逆向覆盖度,Sdict代表平均翻译覆盖度分值。
402)流畅度,通过以下公式计算得到:
Figure GDA0004167216520000061
Figure GDA0004167216520000062
Figure GDA0004167216520000063
其中,Szh-gram和Sen-gram分别代表中文流畅度分值和英文流畅度分值,Sgram代表平均流畅度,P(wi|wi-N+1wi-1)代表当前词为wi-N+1wi-1下一词为wi的概率值。
403)特征匹配率,通过以下公式计算得到:
Figure GDA0004167216520000064
其中,Ctemp(en)和Ctemp(zh)分别代表英文、中文的特征个数,Stemp代表特征匹配率分值。特征指的是命名实体(数字、时间、人名、地名等)和标点符号。
404)长度比,通过以下公式计算得到:
Figure GDA0004167216520000065
其中,len(en|zh)代表英文词长和中文词长比值,Avglen(en|zh)代表平均长度比,平均长度比是在千万级高质量句对统计后结果,Slen-rate代表长度比分值。
405)分值正规化
在各个维度的评估中,翻译覆盖度和特征匹配率的得分属于区间[0,1],流畅度和长度比的得分属于区间[-∞,0]。在计算句对最终得分前,需对流畅度和长度比的得分进行正规化,统一分布在[0,1]之间,分值正规化通过以下公式计算得到,该函数的分布图如图3所示:
Figure GDA0004167216520000066
其中,S为正规化前的分值,S’为正规化后的分值。
步骤5)中,将各个维度评估分值线性组合后得到每个双语句对的最终得分,通过以下公式计算得到:
Figure GDA0004167216520000067
Sdict、Sgram和Stemp一定程度上衡量了中英句对互译的质量,Slen_rate衡量中英句对增译漏译程度。
下面以中英双语句对多维度评估结果为例进行说明,通过对中英双语句对进行多个维度的质量评估后得到最终分值,通过设定的阈值过滤掉低质量的中英双语句对,经过对中英双语句对多维度评估结果分析发现,多维度评估分值低于阈值的句对均为低质量的句对。
中英双语句对多维度评估结果示例
Figure GDA0004167216520000071
通过上述实验案例证明,本发明提出的一种多维度的中英双语数据的清洗方法,能够准确的过滤掉互译程度低、增译漏译以及错译类型的低质量中英句对,且处理速度和准确率远超一般方法;在中英句对的互译程度、用词搭配、句子流畅度层面上,通过翻译覆盖率、流畅度、特征匹配率以及长度比对数据质量进行全面的评估,使经过清洗后的数据质量得到了有效的保障。

Claims (3)

1.一种多维度的中英双语数据的清洗方法,其特征在于包括以下步骤:
1)数据预处理,将涵盖政治、军事、经济、新闻多个领域的中英双语高质量的数据和输入文件中的中英双语句对进行包括分词、实体识别以及英文单词词干化预处理;
2)生成词典,使用预处理后的中英双语高质量数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典;
3)语言模型训练,训练中文和英语以词为单位的3-Gram语言模型;
4)使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语句对进行多维度评估,得到多个维度的评估分值;
5)将各个维度评估分值线性组合后得到每个双语句对的最终得分,最后滤除掉低于阈值的双语句对;
6)将剩余的双语句对作为高质量的中英双语句对存储在输出文件中,得到高质量语料库;
步骤4)中,使用中英词典、英中词典以及3-Gram语言模型对输入文件中的中英双语数据进行多维度评估,得到多个维度的评估分值,分别计算待清洗数据的翻译覆盖度、流畅度、特征匹配率和长度比,并对流畅度和长度比分值进行正规化,最后得到各个维度的评估分值,具体为:
401)翻译覆盖度,通过以下公式计算得到:
其中,L(zh)和L(en)分别代表中文句子词长和英文句子词长,C(zh)和C(en)分别代表中文词语翻译正确个数和英文词语翻译正确的个数,Sdict代表平均翻译覆盖度分值;
402)流畅度,通过以下公式计算得到:
其中,Szh-gram和Sen-gram分别代表中文流畅度分值和英文流畅度分值,Sgram代表平均流畅度,P(wi|wi-N+1,...,wi-1)代表下一词的转移概率;
403)特征匹配率,通过以下公式计算得到:
其中,Ctemp(en)和Ctemp(zh)分别代表英文、中文的特征个数,Stemp代表特征匹配率分值;
404)长度比,通过以下公式计算得到:
其中,len(en|zh)代表英文词长和中文词长比值,Avglen(en|zh)代表平均长度比,平均长度比是在千万级高质量句对统计后结果,Slen-rate代表长度比分值;
405)分值正规化
在各个维度的评估中,翻译覆盖度和特征匹配率的得分属于区间[0,1],流畅度和长度比的得分属于区间[-∞,0],在计算句对最终得分前,对流畅度和长度比的得分进行正规化,统一分布在[0,1]之间,分值正规化通过以下公式计算得到:
其中,S为正规化前的分值,S'为正规化后的分值。
2.按权利要求1所述的多维度的中英双语数据的清洗方法,其特征在于步骤2)中,使用预处理后的数据采用词对齐算法得到词对齐结果,经过统计处理生成中英词典和英中词典,采用机器翻译中词对齐算法对分词后的中英双语数据进行词对齐处理,得到两个词对齐文件,经过词对齐对称化后合并这两个文件,具体为:
201)将词对齐对称化后的文件进行词还原处理,生成初始化中英词典及英中词典并过滤两个词典中的低频词;
202)将初始化的中英词典中的词和译文互换后作为英中字典的补充,同理,对英中词典进行同样的补充。
3.按权利要求1所述的多维度的中英双语数据的清洗方法,其特征在于步骤5)中,将各个维度评估分值线性组合后得到每个双语句对的最终得分,通过以下公式计算得到:
Sdict、Sgram和Stemp衡量了中英句对互译的质量,Slen_rate衡量中英句对增译漏译程度。
CN201911323592.XA 2019-12-20 2019-12-20 一种多维度的中英双语数据清洗方法 Active CN111178091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911323592.XA CN111178091B (zh) 2019-12-20 2019-12-20 一种多维度的中英双语数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911323592.XA CN111178091B (zh) 2019-12-20 2019-12-20 一种多维度的中英双语数据清洗方法

Publications (2)

Publication Number Publication Date
CN111178091A CN111178091A (zh) 2020-05-19
CN111178091B true CN111178091B (zh) 2023-05-09

Family

ID=70652073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911323592.XA Active CN111178091B (zh) 2019-12-20 2019-12-20 一种多维度的中英双语数据清洗方法

Country Status (1)

Country Link
CN (1) CN111178091B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084796B (zh) * 2020-09-15 2021-04-09 南京文图景信息科技有限公司 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN112818110B (zh) * 2020-12-31 2024-05-24 鹏城实验室 文本过滤方法、设备及计算机存储介质
CN113177420A (zh) * 2021-04-29 2021-07-27 同方知网(北京)技术有限公司 一种基于学术文献的中英双语词典构建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN104750820A (zh) * 2015-04-24 2015-07-01 中译语通科技(北京)有限公司 一种语料库的过滤方法及装置
CN106649564A (zh) * 2016-11-10 2017-05-10 中科院合肥技术创新工程院 一种互译多词表达抽取方法及其装置
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN104750820A (zh) * 2015-04-24 2015-07-01 中译语通科技(北京)有限公司 一种语料库的过滤方法及装置
CN106649564A (zh) * 2016-11-10 2017-05-10 中科院合肥技术创新工程院 一种互译多词表达抽取方法及其装置
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ErayYldlz等."The Effect of Parallel Corpus Quality vs Size in English-Toturkish SMT".《ResearchGate》.2014,全文. *
姚建民,周明,赵铁军,李生."基于句子相似度的机器翻译评价方法及其有效性分析".《计算机研究与发展》.2004,(07),全文. *

Also Published As

Publication number Publication date
CN111178091A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN111178091B (zh) 一种多维度的中英双语数据清洗方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
US20070174040A1 (en) Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN106598941A (zh) 一种全局优化文本关键词质量的算法
Lakmal et al. Word embedding evaluation for sinhala
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN111339753B (zh) 一种自适应中文新词识别方法与系统
CN103020045A (zh) 一种基于谓词论元结构的统计机器翻译方法
Dou et al. Unisar: A unified structure-aware autoregressive language model for text-to-sql
Zhao et al. Knowledge-enhanced self-supervised prototypical network for few-shot event detection
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN107092595A (zh) 新的关键词提取技术
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
Miao et al. Improving accuracy of key information acquisition for social media text summarization
Chen et al. Word embedding evaluation datasets and wikipedia title embedding for Chinese
CN107102986A (zh) 文档中多主题的关键词提取技术
Bungum et al. A survey of domain adaptation in machine translation: Towards a refinement of domain space
CN114880521A (zh) 基于视觉和语言语义自主优化对齐的视频描述方法及介质
Galinsky et al. Improving neural models for natural language processing in Russian with synonyms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor after: Bi Dong

Inventor before: Du Quan

Inventor before: Bi Dong

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A multidimensional bilingual data cleaning method in Chinese and English

Granted publication date: 20230509

Pledgee: China Construction Bank Shenyang Hunnan sub branch

Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2024210000102