CN115994544A - 平行语料筛选方法、平行语料筛选设备和可读存储介质 - Google Patents
平行语料筛选方法、平行语料筛选设备和可读存储介质 Download PDFInfo
- Publication number
- CN115994544A CN115994544A CN202211501375.7A CN202211501375A CN115994544A CN 115994544 A CN115994544 A CN 115994544A CN 202211501375 A CN202211501375 A CN 202211501375A CN 115994544 A CN115994544 A CN 115994544A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- determining
- corpus
- bilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种平行语料筛选方法、平行语料筛选设备和计算机可读存储介质,该方法包括:对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。所以,有效解决了相关技术中不同来源的语料以及不同语种之间存在噪音,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
Description
技术领域
本申请涉及翻译技术领域,尤其涉及一种平行语料筛选方法、平行语料筛选设备和计算机可读存储介质。
背景技术
随着互联网技术的高速发展,人与人之间的时空距离骤然缩短,国际交往日益频繁便利。为了方便使用不同语言的人们之间畅通无阻的交流,以及实现不同语种的文字材料间快速翻译,机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。
在相关技术中,大部分的机器翻译模型都是以数据驱动,在语料集上对模型进行训练,得到表现良好的参数结果,应用在系统中。对于机器翻译模型的质量优劣的评价,一个高质量的语料起到非常重要的作用。厂商一般通过计算抽取到的双语语料的互译匹配率,进而通过互译匹配率来筛选高质量的语料。
而在相关技术中,仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求。
发明内容
本申请实施例通过提供一种平行语料筛选方法、平行语料筛选设备和计算机可读存储介质,解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
本申请实施例提供了一种平行语料筛选方法,所述平行语料筛选方法包括:
对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;
根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;
当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;
筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。
可选地,所述对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句的步骤包括:
根据语种提取算法,按照语种类型将所述双语语料分割成所述第一语种以及所述第二语种;
根据语料切割算法,确定所述第一语种对应的所述第一语句,以及所述第二语种对应的所述第二语句,其中,所述第一语句与所述第二语句为相关联的句子。
可选地,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤包括:
获取所述第一语句或所述第二语句中的字符;
根据预设的编码格式确定所述字符对应的编码值;
根据所述编码值确定所述第一语句以及所述第二语句中有效字符所占比重,根据所述比重确定所述第一语句的第一有效度,以及所述第二语句的第二有效度;
获取模型训练库,根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度;
若所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。
可选地,所述根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度的步骤包括:
将所述第一语句或所述第二语句分割成基本单词;
从第一个所述基本单词开始,确定所述基本单词的前序单词以及后序单词,当所述前序单词、所述基本单词以及所述后序单词组成的词组与所述模型训练库匹配时,记所述词组为流畅词组,直至遍历全部的所述基本单词;
获取所述流畅词组对应的单词,根据所述单词的数量占所述基本单词的比重,确定所述第一流畅度以及所述第二流畅度。
可选地,所述确定关联的所述第一语句和所述第二语句之间的词共现率的步骤包括:
确定所述双语语料对应的数据量;
当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;
根据所述第一基本单词以及所述第二基本单词,确定所述第一语句和所述第二语句之间的所述词共现率。
可选地,所述根据所述第一基本单词以及所述第二基本单词,确定所述第一语句以及所述第二语句的词共现率的步骤包括:
根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;
确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。
可选地,所述确定所述待筛选语料对应的数据量的步骤之后,还包括:
当所述数据量小于或者等于数据阈值时,确定所述待筛选语料对应的翻译模型;
根据所述翻译模型对所述第一语句以及所述第二语句的匹配程度进行评分;
基于评分结果确定所述第一语句与所述第二语句间的所述词共现率。
可选地,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤之后,还包括:
当所述第一语句以及所述第二语句满足所述双语清洗要求时,确定所述第一语句对应的第一词向量,以及所述第二语句对应的第二词向量;
确定所述第一词向量对应的第一句向量,以及所述第二词向量对应的第二句向量;
确定所述第一句向量以及所述第二句向量的欧式距离;
当所述欧式距离小于距离阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
此外,本申请还提出一种平行语料筛选设备,所述平行语料筛选设备包括存储器、处理器及存储在存储器上并可在处理器上运行的平行语料筛选程序,所述处理器执行所述平行语料筛选程序时实现如上所述的平行语料筛选方法的步骤。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有平行语料筛选程序,所述平行语料筛选程序被处理器执行时实现如上所述的平行语料筛选方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、由于采用了对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;筛选所述词共现率大于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料,所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
2、由于采用了确定所述双语语料对应的数据量;当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
附图说明
图1为本申请平行语料筛选方法实施例一的流程示意图;
图2为本申请平行语料筛选方法实施例二的流程示意图;
图3为本申请平行语料筛选方法实施例三的流程示意图;
图4为本申请平行语料筛选设备实施例涉及的硬件结构示意图。
具体实施方式
在相关技术中,厂商一般通过计算抽取到的双语语料的互译匹配率,进而通过互译匹配率来筛选高质量的语料。但是仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求。本申请实施例采用的主要技术方案是:对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;筛选所述词共现率大于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。从而实现了高效提取高质量语料。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的地传达给本领域的技术人员。
实施例一
本申请实施例一公开了一种平行语料筛选方法,参照图1,所述平行语料筛选方法包括:
步骤S110,对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;
在本实施例中,所述双语语料为具有两种不同的语种,且不同语种对应的语句间具有关联性。所述第一语种与所述第二语种为不同的语种。所述第一语句为第一语种的语料里的一个句子。所述第二语句为第二语种里的一个句子。所述第一语句与所述第二语句具有关联性。
可选地,步骤S110包括:
步骤S111,根据语种提取算法,按照语种类型将所述双语语料分割成所述第一语种以及所述第二语种;
步骤S112,根据语料切割算法,确定所述第一语种对应的所述第一语句,以及所述第二语种对应的所述第二语句,其中,所述第一语句与所述第二语句为相关联的句子。
作为一种可选实施方式,接收到待筛选的双语语料后,将所述双语语料分割成第一语种以及第二语种;对第一语种进行分句处理,确定第一语种中的一个句子作为第一语句;对第二语种进行分句处理,确定第二语种中的,与所述第一语句关联的句子作为第二语句。
示例性的,所述第一语句与所述第二语句为双语语料中,处于平行对齐位置的语句;或者是互为译文的语句。
作为另一种可选实施方式,使用语种识别模型来识别所述第一语种以及所述第二语种。基于多项式的朴素贝叶斯分类器,构建全监督分类器。采集多个不同语种的高质量数据,训练语种识别模型,使得能够识别不同语种。
步骤S120,根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;
在本实施例中,需要具有关联关系的第一语句与第二语句都满足双语清洗要求,才能够对第一语句与第二语句进行双语清洗。即利用有效度和流畅度对第一语句与第二语句进行第一次筛选。
作为一种可选实施方式,确定第一语句的有效度,在第一语句的有效度大于第一阈值时,确定第一语句的流畅度;确定第二语句的有效度,在第二语句的有效度大于第一阈值时,确定第二语句的流畅度;在第一语句的流畅度与第二语句的流畅度都大于第二阈值时,判定第一语句与第二语句满足双语清洗要求。
步骤S130,当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;
步骤S140,筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。
在本实施例中,词共现率指的是第一语句与第二语句中,翻译准确的,对应的单词或者词组,占全部单词或词组的比例。
作为一种可选实施方式,当第一语句与第二语句满足所述清洗要求时,确定所述第一语句与第二语句的词共现率;筛选双语语料中,词共现率大于预设阈值的第一语句与第二语句,作为训练目标语料。
可选的,步骤S120之后,还包括:
使用训练好的神经机器翻译模型和框架,对所述双语语料中的第一语句和第二语句进行评分;评分后通过采样分析,来判断分数的阈值情况;满足阈值的视为质量较好的数据,即判定词共现率大于预设阈值。将所述第一语句以及所述第二语句关联保存为训练目标语料。
可选的,步骤S120之后,还包括:
步骤S150,当所述第一语句以及所述第二语句满足所述双语清洗要求时,确定所述第一语句对应的第一词向量,以及所述第二语句对应的第二词向量;
步骤S160,确定所述第一词向量对应的第一句向量,以及所述第二词向量对应的第二句向量;
步骤S170,确定所述第一句向量以及所述第二句向量的欧式距离;
步骤S180,当所述欧式距离小于距离阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
在本实施例中,确定语句各个单词对应的词向量,所述词向量为列向量;将所述词向量按照语句中单词的顺序排列,确定句向量,所述句向量为矩阵。所述距离阈值根据设定的翻译精度要求确定,当所述翻译精度要求越高,所述距离阈值越小。翻译精度高代表着语句翻译的准确度高。
作为一种可选实施方式,当所述第一语句和第二语句满足双语清洗要求时,基于翻译模型库确定所述第一语句中每个单词对应的词向量,所述词向量为列向量;将所有的词向量按照第一语句中单词的排列顺序,组成矩阵,所述矩阵即为所述第一语句的第一句向量。同理,确定所述第二语句对应的第二句向量。由于句向量为矩阵,故可计算第一句向量与第二句向量之间的欧式距离;当所述欧式距离小于预设的阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
作为另一种可选实施方式,基于预设的SentenceTransformers库生成第一语句对应的第一句向量以及第二语句对应的第二句向量;确定所述第一句向量与所述第二句向量之间的余弦距离,根据所述余弦距离计算所述第一语句与第二语句之间的相似度;当所述相似度大于或者等于预设相似阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
可选的,步骤S120之后,还包括:
若所述第一语种和/或所述第二语种判定为小语种,获取所述第一语种和/或所述第二语种对应的翻译模型;
将所述第一语句和/或所述第二语句通过所述翻译模型翻译成第一目标语句和/或第二目标语句;
确定所述第一目标语句以及所述第二目标语句之间的词共现率。
作为一种可选实施方式,若第一语种和/或第二语种在本地服务器不存在合适的模型进行评价时,判定为小语种。
示例性的,当第二语种为小语种时,采用科研机构的翻译模型,将第二语句翻译成第二目标语句,再计算第一语句与第二目标语句之间的相似度。
将离散的语言符号转换成实数的向量化表示,符号之间的关系会更容易计算,同时语义也会被学习和表达出来。
示例性的,使用孪生网络模型的框架,将第一语句和第二目标语句输入到两个参数共享的bert模型中,获取到每个句子的句子表征向量;然后使用余弦距离计算两个向量之间的距离。距离越小,我们认为这两句越相似。当第一语句和第二目标语句之间的距离小于预设阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
由于采用了对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;筛选所述词共现率大于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料,所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
实施例二
基于实施例一,本申请实施例二提出一种平行语料筛选方法,参照图2,步骤S120包括:
步骤S210,获取所述第一语句或所述第二语句中的字符;
步骤S220,根据预设的编码格式确定所述字符对应的编码值;
在本实施例中,所述字符为句子中的字母、符号以及公式等。根据编码值确定语句中字母的占比。
作为一种可选实施方式,确定第一语句对应的第一字符以及第二语句对应的第二字符;基于预设的编码格式确定第一字符对应的编码值以及第二字符对应的编码值。
示例性的,所述编码格式可以是UTF-8或者UNICODE等编码格式。基于预设的编码格式,可以确定第一语句以及第二语句中所有字符对应的编码值,进而根据编码值判定第一语句或第二语句中字母占全部字符的比例。
步骤S230,根据所述编码值确定所述第一语句以及所述第二语句中有效字符所占比重,根据所述比重确定所述第一语句的第一有效度,以及所述第二语句的第二有效度;
在本实施例中,语句中有效字符数量占所有字符数量的比值,即为该语句对应的有效度。
作为一种可选实施方式,确定所述第一语句中所有字符的UNICODE编码值;确定所述编码值的数量,基于其中属于拉丁字母的编码值确定第一语句中拉丁字母的字符数,所述字符数与编码值的数量的比值即为所述第一有效度。所述第二有效度的确定步骤同上。
示例性的,如中文句子:“你好003_01020@!”。其中中文字符长度为2,句子总长度为16,比例为0.125;设置阈值为0.2,这句视作不合格的句子,应当过滤掉。
作为另一种可选实施方式,确定完句子有效度后,还包括:确定所述第一语句以及所述第二语句之间的长度比例是否处于预设比例区间。
示例性的,确定第一语句与第二语句之间的长度比例,当所述长度比例处于预设比例区间时,判定所述第一语句与第二语句符合要求;否则判定所述第一语句与第二语句存在错译的问题。可以统计所述双语语料的所有句子长度,确定所有互相关联的句子之间的比例,根据所述比例的高斯分布确定所述预设比例区间。
步骤S240,获取模型训练库,根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度;
步骤S250,若所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。
可选的,步骤S240包括:
步骤S241,将所述第一语句或所述第二语句分割成基本单词;
步骤S242,从第一个所述基本单词开始,确定所述基本单词的前序单词以及后序单词,当所述前序单词、所述基本单词以及所述后序单词组成的词组与所述模型训练库匹配时,记所述词组为流畅词组,直至遍历全部的所述基本单词;
步骤S243,获取所述流畅词组对应的单词,根据所述单词的数量占所述基本单词的比重,确定所述第一流畅度以及所述第二流畅度。
在本实施例中,所述基本单词为语句中的单词或者词组,前序单词为所述基本单词前一个单词,所述后序单词为基本单词的后一个单词。所述模型库中存储有基本单词的匹配规则,可以基于所述匹配规则确定前序单词、基本单词以及后序单词组成的词组搭配是否通顺。
作为一种可选实施方式,将第一语句分割成基本单词,从第一个单词开始遍历所有的基本单词;当选取第一个基本单词时,确定基本单词与后序单词组成的词组,在模型库中查询是否有这种单词组合,若有,判定所述词组流畅;确定第二个基本单词,确定所述基本单词的前序单词与后序单词,确定该三个单词组成的词组,在模型库中查询是否有这种单词组合,若有,判定所述词组流畅,否则判定所述词组不流畅。直至遍历完全部基本单词,将遍历过程中判定流畅的词组,确定这些词组包含的全部基本单词的个数;所述个数与第一语句包含的全部单词个数的比值即为第一流畅度。第二流畅度确定方法同上。
作为另一种可选实施方式,确定第一语句的第一语种,根据第一语种使用对应的N-gram模型对所属第一语句进行评分,根据评分结果确定第一语句的第一流畅度。第二流畅度方法同上所述。
示例性的,使用N-gram模型计算句子的序列概率,分解为计算句子每个位置上该单词的概率的乘积。有:
其中,有:
根据马尔科夫假设:下一个词的出现,仅依赖于它前面的一个或几个词。即当前单词的出现,仅依赖于前n-1个单词。基于该假设,当前单词出现的概率计算公式如下:
P(xi|(1,2,...i-1)≈P(xi|(i-n+1,...i-1)
其中,xi-+1,...i-1即为当前单词xi的条件上下文,即n-gram。
当所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。即所述第一语句与所述第二语句满足双语清洗要求。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
由于采用了基于语句字符的编码值确定语句的有效度;基于模型库中的单词组合,遍历语句中全部的单词组合确定语句的流畅度;当所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。即所述第一语句与所述第二语句满足双语清洗要求,所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
实施例三
基于实施例一,本申请实施例三提出一种平行语料筛选方法,参照图3,步骤S130包括:
步骤S310,确定所述双语语料对应的数据量;
步骤S320,当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;
步骤S330,根据所述第一基本单词以及所述第二基本单词,确定所述第一语句和所述第二语句之间的所述词共现率。
可选的,步骤S330包括:
步骤S331,根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;
步骤S332,确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。
在本实施例中,所述数据量为双语语料中,第一语种与第二语种中,互相关联的语句的个数。即第一语句的个数与第二语句的个数相等。所述第一语句的个数为所述数据量。
作为一种可选实施方式,确定所述双语语料中第一语句的个数,当所述个数大于数据阈值时,判定所述双语语料为大批量数据。确定相关联的第一语句与第二语句的基本单词,即第一语句的每个基本单词,在第二语句中都有一个对应的基本单词。根据语义识别算法,确定第一基本单词与第二基本单词是否能够互译,确定能够互译的第一基本单词为目标单词;所述目标单词的数量与第一语句单词数量的比值即为词共现率。
可选的,步骤S310之后,还包括:
步骤S340,当所述数据量小于或者等于数据阈值时,确定所述待筛选语料对应的翻译模型;
步骤S350,根据所述翻译模型对所述第一语句以及所述第二语句的匹配程度进行评分;
步骤S360,基于评分结果确定所述第一语句与所述第二语句间的所述词共现率。
在本实施例中,所述翻译模型可对第一语句与第二语句的互译程度进行评价。
作为一种可选实施方式,当所述数据量小于或者等于数据阈值时,基于双语语料的语种确定对应的翻译模型,所述翻译模型为服务器中存储的,已经完成训练测试的高质量语料集合。根据所述翻译模型对所述第一语句与所述第二语句之前翻译的准确程度进行评分;基于预设的评价算法,确定与评分结果对应的词共现率。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
由于采用了确定所述双语语料对应的数据量;当所述数据量大于数据阈值时,根据第一语句与第二语句间对应单词的翻译准确程度确定词共现率;当数据量小于数据阈值时,根据完成训练测试的历史高质量语料,对第一语句与第二语句间对应单词的翻译准确程度进行评分,根据评分结果确定词共现率。所以,有效解决了相关技术中对双语语料互译程度评价不准确的技术问题,进而实现了多场景下准确评价双语语料间的互译程度。
实施例四
基于实施例一,本申请实施例四提出一种平行语料筛选方法,步骤S110之前,还包括:
在接收到语料数据时,对所述语料数据进行数据清洗;
对清洗后的所述语料数据进行去重,根据去重后的所述预料数据确定所述双语语料。
作为一种可选实施方式,在接收到语料数据时,对所述语料数据进行去除特殊字符、html字符反转义、全半角转换以及校正大小写这几个步骤。
示例性的,确定所述语料数据中无意义的字符,例如 对所述语料数据进行评估,当所述语料数据不存在解码错误问题时,去除上述特殊字符;确定所述语料数据中的转义字符,例如“&、&以及 ”,将所述转义字符转换为对应的符号;确定所述语料数据是否存在英文,当所述语料数据存在英文时,将所述预料数据中的全角符号转换为半角符号;基于具有正确大小写拉丁字母的句子,训练大小写模型,根据所述大小写模型校正所述语料数据;对所述语料数据进行去重处理,将句子进行排序,然后判断下一行内容和上一行的相同/相似程度,如果全部内容相同,或者有效字符的内容相同,将下一行的句子去掉。
示例性的,还可以对所述语料数据进行人工筛选,筛选出颜文字或者原生html字符。
示例性的,还可以获取语句的长度,若存在单词的字符数过长,则判定单词异常,记录至数据库进行人工筛选。
本申请还提出一种平行语料筛选设备,参照图4,图4为本申请实施例方案涉及的硬件运行环境的平行语料筛选设备结构示意图。
如图4所示,该平行语料筛选设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的结构并不构成对平行语料筛选设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,存储器1005与处理器1001电性连接,处理器1001可用于控制存储器1005的运行,还可以读取存储器1005中的数据以实现语料筛选。
可选地,如图4所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及平行语料筛选程序。
可选地,在图4所示的平行语料筛选设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请平行语料筛选设备中的处理器1001、存储器1005可以设置在平行语料筛选设备中。
如图4所示,所述平行语料筛选设备通过处理器1001调用存储器1005中存储的平行语料筛选程序,并执行本申请实施例提供的平行语料筛选方法的相关步骤操作:
对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;
根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;
当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;
筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
根据语种提取算法,按照语种类型将所述双语语料分割成所述第一语种以及所述第二语种;
根据语料切割算法,确定所述第一语种对应的所述第一语句,以及所述第二语种对应的所述第二语句,其中,所述第一语句与所述第二语句为相关联的句子。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
获取所述第一语句或所述第二语句中的字符;
根据预设的编码格式确定所述字符对应的编码值;
根据所述编码值确定所述第一语句以及所述第二语句中有效字符所占比重,根据所述比重确定所述第一语句的第一有效度,以及所述第二语句的第二有效度;
获取模型训练库,根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度;
若所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
将所述第一语句或所述第二语句分割成基本单词;
从第一个所述基本单词开始,确定所述基本单词的前序单词以及后序单词,当所述前序单词、所述基本单词以及所述后序单词组成的词组与所述模型训练库匹配时,记所述词组为流畅词组,直至遍历全部的所述基本单词;
获取所述流畅词组对应的单词,根据所述单词的数量占所述基本单词的比重,确定所述第一流畅度以及所述第二流畅度。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
确定所述双语语料对应的数据量;
当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;
根据所述第一基本单词以及所述第二基本单词,确定所述第一语句和所述第二语句之间的所述词共现率。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;
确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
当所述数据量小于或者等于数据阈值时,确定所述待筛选语料对应的翻译模型;
根据所述翻译模型对所述第一语句以及所述第二语句的匹配程度进行评分;
基于评分结果确定所述第一语句与所述第二语句间的所述词共现率。
可选地,处理器1001可以调用存储器1005中存储的平行语料筛选程序,还执行以下操作:
当所述第一语句以及所述第二语句满足所述双语清洗要求时,确定所述第一语句对应的第一词向量,以及所述第二语句对应的第二词向量;
确定所述第一词向量对应的第一句向量,以及所述第二词向量对应的第二句向量;
确定所述第一句向量以及所述第二句向量的欧式距离;
当所述欧式距离小于距离阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有平行语料筛选程序,所述平行语料筛选程序被处理器执行时实现如上所述平行语料筛选方法任一实施例的相关步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种平行语料筛选方法,其特征在于,所述平行语料筛选方法包括:
对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;
根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;
当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;
筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。
2.如权利要求1所述的平行语料筛选方法,其特征在于,所述对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句的步骤包括:
根据语种提取算法,按照语种类型将所述双语语料分割成所述第一语种以及所述第二语种;
根据语料切割算法,确定所述第一语种对应的所述第一语句,以及所述第二语种对应的所述第二语句,其中,所述第一语句与所述第二语句为相关联的句子。
3.如权利要求1所述的平行语料筛选方法,其特征在于,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤包括:
获取所述第一语句或所述第二语句中的字符;
根据预设的编码格式确定所述字符对应的编码值;
根据所述编码值确定所述第一语句以及所述第二语句中有效字符所占比重,根据所述比重确定所述第一语句的第一有效度,以及所述第二语句的第二有效度;
获取模型训练库,根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度;
若所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。
4.如权利要求3所述的平行语料筛选方法,其特征在于,所述根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度的步骤包括:
将所述第一语句或所述第二语句分割成基本单词;
从第一个所述基本单词开始,确定所述基本单词的前序单词以及后序单词,当所述前序单词、所述基本单词以及所述后序单词组成的词组与所述模型训练库匹配时,记所述词组为流畅词组,直至遍历全部的所述基本单词;
获取所述流畅词组对应的单词,根据所述单词的数量占所述基本单词的比重,确定所述第一流畅度以及所述第二流畅度。
5.如权利要求1所述的平行语料筛选方法,其特征在于,所述确定关联的所述第一语句和所述第二语句之间的词共现率的步骤包括:
确定所述双语语料对应的数据量;
当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;
根据所述第一基本单词以及所述第二基本单词,确定所述第一语句和所述第二语句之间的所述词共现率。
6.如权利要求5所述的平行语料筛选方法,其特征在于,所述根据所述第一基本单词以及所述第二基本单词,确定所述第一语句以及所述第二语句的词共现率的步骤包括:
根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;
确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。
7.如权利要求5所述的平行语料筛选方法,其特征在于,所述确定所述待筛选语料对应的数据量的步骤之后,还包括:
当所述数据量小于或者等于数据阈值时,确定所述待筛选语料对应的翻译模型;
根据所述翻译模型对所述第一语句以及所述第二语句的匹配程度进行评分;
基于评分结果确定所述第一语句与所述第二语句间的所述词共现率。
8.如权利要求1所述的平行语料筛选方法,其特征在于,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤之后,还包括:
当所述第一语句以及所述第二语句满足所述双语清洗要求时,确定所述第一语句对应的第一词向量,以及所述第二语句对应的第二词向量;
确定所述第一词向量对应的第一句向量,以及所述第二词向量对应的第二句向量;
确定所述第一句向量以及所述第二句向量的欧式距离;
当所述欧式距离小于距离阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
9.一种平行语料筛选设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的平行语料筛选程序,所述处理器执行所述平行语料筛选程序时实现如权利要求1至8任一项所述的平行语料筛选方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有平行语料筛选程序,所述平行语料筛选程序被处理器执行时实现如权利要求1至8任一项所述的平行语料筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211501375.7A CN115994544A (zh) | 2022-11-28 | 2022-11-28 | 平行语料筛选方法、平行语料筛选设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211501375.7A CN115994544A (zh) | 2022-11-28 | 2022-11-28 | 平行语料筛选方法、平行语料筛选设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115994544A true CN115994544A (zh) | 2023-04-21 |
Family
ID=85993199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211501375.7A Pending CN115994544A (zh) | 2022-11-28 | 2022-11-28 | 平行语料筛选方法、平行语料筛选设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994544A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306607A (zh) * | 2023-05-06 | 2023-06-23 | 北京海天瑞声科技股份有限公司 | 一种多语种混合语料生成方法、装置、设备和存储介质 |
-
2022
- 2022-11-28 CN CN202211501375.7A patent/CN115994544A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306607A (zh) * | 2023-05-06 | 2023-06-23 | 北京海天瑞声科技股份有限公司 | 一种多语种混合语料生成方法、装置、设备和存储介质 |
CN116306607B (zh) * | 2023-05-06 | 2023-08-15 | 北京海天瑞声科技股份有限公司 | 一种多语种混合语料生成方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107391486B (zh) | 一种基于统计信息和序列标注的领域新词识别方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN110032639B (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
US20130018650A1 (en) | Selection of Language Model Training Data | |
CN111079412A (zh) | 文本纠错方法及装置 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111539229A (zh) | 神经机器翻译模型训练方法、神经机器翻译方法及装置 | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN114818891A (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
EP4046054A1 (en) | Automatic summarization of transcripts | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115994544A (zh) | 平行语料筛选方法、平行语料筛选设备和可读存储介质 | |
CN115249019A (zh) | 一种目标多语言神经机器翻译模型的构建方法和装置 | |
CN115906878A (zh) | 一种基于提示的机器翻译方法 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |