CN104951469B - 优化语料库的方法和装置 - Google Patents

优化语料库的方法和装置 Download PDF

Info

Publication number
CN104951469B
CN104951469B CN201410124005.5A CN201410124005A CN104951469B CN 104951469 B CN104951469 B CN 104951469B CN 201410124005 A CN201410124005 A CN 201410124005A CN 104951469 B CN104951469 B CN 104951469B
Authority
CN
China
Prior art keywords
mentioned
sentence
pair
corpus
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410124005.5A
Other languages
English (en)
Other versions
CN104951469A (zh
Inventor
狄慧
张大鲲
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201410124005.5A priority Critical patent/CN104951469B/zh
Publication of CN104951469A publication Critical patent/CN104951469A/zh
Application granted granted Critical
Publication of CN104951469B publication Critical patent/CN104951469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供优化语料库的方法以及优化语料库的装置。本发明的一个实施方式的优化语料库的装置,包括:过滤单元,其基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;替换单元,其对上述待优化的句子对的至少一部分进行替换;以及困惑度计算单元,其计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。

Description

优化语料库的方法和装置
技术领域
本发明涉及自然语言处理的技术,具体而言,涉及优化语料库的方法和的装置。
背景技术
统计机器翻译的性能在很大程度上取决于平行语料的数量和质量。一方面,收集到的大规模训练数据需要有效地管理起来用于不同的用途。另一方面,语料越多,则含有的噪音越多,这些噪音会影响翻译模型和语言模型的估计的准确性。因此,过滤训练语料中的噪音是一个非常基本而且重要的任务。对此,在现有技术中存在以下方法。
(1)英汉双语语料库过滤方法,包括以下步骤:A.确定英汉双语句对的句长比例特征值;B.分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译特征值;C.根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译特性特征值进行过滤分类。
(2)改善用于统计机器翻译的语料质量的方法,包括以下步骤:A.利用句长比例和翻译比例对语料进行过滤;B.将句长比例和翻译比例不达标的句对删除。方法(2)中的句长比例与方法(1)中的句长比例特征值一样,方法(2)中的翻译比例与方法(1)基本一样,区别是没有考虑不同词性的数量。
(3)同义句子替换方法:例如,在双语语料库中有 这四个句子对(“S”表示源语言句子,“T”表示目标语言句子,表示对应关系),则S1、S2、S3、T1、T2属于一个同义句子组,在进行优化时,首先从每组选出一个出现频率最高的句子对(S1出现了3次,T1出现了2次,因此为出现频率最高的句子对),然后用选出的句子对中的句子替换同组中其他句子对的句子(即,用S1替换S2和S3,用T1替换T2)。
发明内容
本发明的发明人发现上述方法(1)仅对语料库中具有噪音的句子对进行过滤,并没有记载如何对过滤出的噪音进行优化。上述方法(2)在过滤之后通过删除语料库中的具有噪音的句对进行优化,然而,若直接删除这些具有噪音的句对,则会删除有用信息,从而会导致语料库的性能下降。在对上述方法(3)进行研究后发现,尽管上述替换方法能够保留具有噪音的句对,但是用于替换的句子是语料库中本来就存在的句子,因而优化会局限于语料库自身,无法有效地消除噪音。
为了解决现有技术中存在的上述问题,本发明的实施方式提供一种能够在不损失有用信息的基础上有效地消除噪音且有效地降低语料库的困惑度的优化语料库的方法和装置。具体而言,提供以下技术方案。
[1]一种优化语料库的方法,包括以下步骤:基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;对上述待优化的句子对的至少一部分进行替换;以及计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
上述方案[1]的优化语料库的方法,通过对过滤出的句子对的至少一部分进行替换,而不是删除,从而不会损失有用信息,并且以替换后的句子对的困惑度降低为条件进行优化,因此能够确保降低优化后的语料库的困惑度,有效地消除噪音,提高语料质量。
[2]根据上述[1]所述的优化语料库的方法,其中,
上述优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。
[3]根据上述[2]所述的优化语料库的方法,其中,
在上述优化参数包括上述相似度的情况下,上述过滤和替换步骤包括以下步骤:利用翻译系统翻译上述语料库中的句子对的源语言句子;计算上述句子对的上述源语言句子的翻译结果与上述句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;以及将上述待优化的句子对的目标语言句子替换为上述待优化的句子对的源语言句子的翻译结果。
[4]根据上述[2]或[3]所述的优化语料库的方法,其中,
在上述优化参数包括上述相似度的情况下,上述过滤和替换步骤包括以下步骤:利用翻译系统翻译上述语料库中的句子对的目标语言句子;计算上述句子对的上述目标语言句子的翻译结果与上述句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;以及将上述待优化的句子对的源语言句子替换为上述待优化的句子对的目标语言句子的翻译结果。
上述方案[3]和[4]的优化语料库的方法,通过使用由翻译系统获得的翻译结果替换具有噪音的句子,能够利用外部信息对过滤出的句子进行优化,从而能够更加有效地消除噪音,提高语料质量。
[5]根据上述[2]所述的优化语料库的方法,其中,
在上述优化参数包括上述困惑度的情况下,上述过滤和替换步骤包括以下步骤:计算上述语料库中的句子对的困惑度,将困惑度大于预定阈值的句子对作为上述待优化的句子对;提取上述待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;以及在存在上述n元组的同义词的情况下,用同义词替换上述n元组,在不存在上述n元组的同义词的情况下,利用翻译系统对与上述n元组对齐的n元组进行翻译,并用翻译结果替换上述n元组。
上述方案[5]的优化语料库的方法,通过使用由同义词词典获得的同义词或由翻译系统获得的翻译结果替换具有噪音的n元组,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
[6]根据上述[5]所述的优化语料库的方法,其中,
上述计算上述语料库中的句子对的困惑度的步骤包括以下步骤:计算上述语料库中的句子对的平均困惑度。
[7]根据上述[2]所述的优化语料库的方法,其中,
在上述优化参数包括上述拼写错误且上述语料库中的句子对包括英语句子的情况下,上述过滤和替换步骤包括以下步骤:利用第三方公开库查找上述英语句子中的拼写错误,将存在拼写错误的句子对作为上述待优化的句子对;以及利用上述第三方公开库提供的拼写建议替换上述拼写错误。
上述方案[7]的优化语料库的方法,通过使用由第三方公开库获得的拼写建议替换拼写错误,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
[8]根据上述[2]所述的优化语料库的方法,其中,
在上述优化参数包括上述非常用符号的情况下,上述过滤和替换步骤包括以下步骤:利用预先编写的脚本查找上述句子对中的非常用符号,将存在非常用符号的句子对作为上述待优化的句子对;以及利用常用符号替换上述非常用符号或者将上述非常用符号删除。
[9]根据上述[8]所述的优化语料库的方法,其中,
上述非常用符号包括逗号、顿号、句号、感叹号、冒号和引号之外的标点符号。
[10]根据上述[9]所述的优化语料库的方法,其中,
在上述非常用符号为括号的情况下,上述替换步骤包括以下步骤:在上述待优化的句子对的源语言句子和目标语言句子都包括括号的情况下,提取括号内的句子作为新的句子对并将括号删除,在上述待优化的句子对的源语言句子和目标语言句子中只有一个句子包括括号的情况下,删除括号及其中的内容。
[11]根据上述[9]所述的优化语料库的方法,其中,
在上述非常用符号为书名号的情况下,上述替换步骤包括以下步骤:将书名号替换为引号。
[12]根据上述[9]所述的优化语料库的方法,其中,
在上述非常用符号为括号和书名号之外的非常用符号的情况下,上述替换步骤包括以下步骤:在上述非常用符号位于句子头部时,将其删除,在上述非常用符号位于句子中间时,将其替换为逗号,在上述非常用符号位于句子尾部时,将其替换为句号。
上述方案[8]至方案[12]的优化语料库的方法,通过使用由预先编写的脚本对语料库进行过滤,能够有效消除语料库中的非常用符号,从而能够有效降低语料库的困惑度。
[13]一种优化语料库的装置,包括:过滤单元,其基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;替换单元,其对上述待优化的句子对的至少一部分进行替换;困惑度计算单元,其计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
上述方案[13]的优化语料库的装置,通过对过滤出的句子对的至少一部分进行替换,而不是删除,从而不会损失有用信息,并且以替换后的句子对的困惑度降低为条件进行优化,因此能够确保降低优化后的语料库的困惑度,有效地消除噪音,提高语料质量。
[14]根据上述[13]所述的优化语料库的装置,其中,
上述优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。
[15]根据上述[14]所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:翻译单元,其利用翻译系统翻译上述语料库中的句子对的源语言句子;和相似度计算单元,其计算上述句子对的上述源语言句子的翻译结果与上述句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;上述替换单元将上述待优化的句子对的目标语言句子替换为上述待优化的句子对的源语言句子的翻译结果。
[16]根据上述[14]或[15]所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:翻译单元,其利用翻译系统翻译上述语料库中的句子对的目标语言句子;和相似度计算单元,其计算上述句子对的上述目标语言句子的翻译结果与上述句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;上述替换单元将上述待优化的句子对的源语言句子替换为上述待优化的句子对的目标语言句子的翻译结果。
上述方案[15]和[16]的优化语料库的装置,通过使用由翻译系统获得的翻译结果替换具有噪音的句子,能够利用外部信息对过滤出的句子进行优化,从而能够更加有效地消除噪音,提高语料质量。
[17]根据上述[14]所述的优化语料库的装置,其中,
在上述优化参数包括上述困惑度的情况下,上述过滤单元包括:困惑度计算单元,其计算上述语料库中的句子对的困惑度,将困惑度大于预定阈值的句子对作为上述待优化的句子对;和n元组提取单元,其提取上述待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;上述替换单元包括翻译单元,在存在上述n元组的同义词的情况下,上述替换单元用同义词替换上述n元组,在不存在上述n元组的同义词的情况下,上述翻译单元利用翻译系统对与上述n元组对齐的n元组进行翻译,并且上述替换单元用翻译结果替换上述n元组。
上述方案[17]的优化语料库的装置,通过使用由同义词词典获得的同义词或由翻译系统获得的翻译结果替换具有噪音的n元组,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
[18]根据上述[17]所述的优化语料库的装置,其中,
上述困惑度计算单元计算上述语料库中的句子对的平均困惑度。
[19]根据上述[14]所述的优化语料库的装置,其中,
在上述优化参数包括上述拼写错误且上述语料库中的句子对包括英语句子的情况下,上述过滤单元包括利用第三方公开库查找上述英语句子中的拼写错误的拼写错误查找单元,上述过滤单元将存在拼写错误的句子对作为上述待优化的句子对,上述替换单元利用上述第三方公开库提供的拼写建议替换上述拼写错误。
上述方案[19]的优化语料库的装置,通过使用由第三方公开库获得的拼写建议替换拼写错误,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
[20]根据上述[14]所述的优化语料库的装置,其中,
在上述优化参数包括上述非常用符号的情况下,上述过滤单元包括利用预先编写的脚本查找上述句子对中的非常用符号的非常用符号查找单元,上述过滤单元将存在非常用符号的句子对作为上述待优化的句子对,上述替换单元包括删除单元,上述替换单元利用常用符号替换上述非常用符号,或者上述删除单元将上述非常用符号删除。
[21]根据上述[20]所述的优化语料库的装置,其中,
上述非常用符号包括逗号、顿号、句号、感叹号、冒号和引号之外的标点符号。
[22]根据上述[21]所述的优化语料库的装置,其中,
上述替换单元包括句子提取单元,在上述非常用符号为括号的情况下,在上述待优化的句子对的源语言句子和目标语言句子都包括括号的情况下,上述句子提取单元提取括号内的句子作为新的句子对,并且上述删除单元将括号删除,在上述待优化的句子对的源语言句子和目标语言句子中只有一个句子包括括号的情况下,上述删除单元删除括号及其中的内容。
[23]根据上述[21]所述的优化语料库的装置,其中,
在上述非常用符号为书名号的情况下,上述替换单元将书名号替换为引号。
[24]根据上述[21]所述的优化语料库的装置,其中,
在上述非常用符号为括号和书名号之外的非常用符号的情况下,在上述非常用符号位于句子头部时,上述删除单元将其删除,在上述非常用符号位于句子中间时,上述替换单元将其替换为逗号,在上述非常用符号位于句子尾部时,上述替换单元将其替换为句号。
上述方案[20]至方案[24]的优化语料库的装置,通过使用由预先编写的脚本对语料库进行过滤,能够有效消除语料库中的非常用符号,从而能够有效降低语料库的困惑度。
附图说明
图1是根据本发明的一个实施方式的优化语料库的方法的示意流程图。
图2是优化参数为相似度时的优化处理的流程图。
图3是优化参数为困惑度时的优化处理的流程图。
图4是优化参数为拼写错误时的优化处理的流程图。
图5是优化参数为非常用符号时的优化处理的流程图。
图6是根据本发明的另一个实施方式的优化语料库的装置的框图。
图7是优化参数为相似度时的优化语料库的装置的框图。
图8是优化参数为困惑度时的优化语料库的装置的框图。
图9是优化参数为拼写错误时的优化语料库的装置的框图。
图10是优化参数为非常用符号时的优化语料库的装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施方式进行详细的说明。
优化语料库的方法
下面参照图1~5进行详细说明。
图1是根据本发明的一个实施方式的优化语料库的方法的流程图。
如图1所示,本实施方式提供一种优化语料库的方法,包括:步骤S101,基于优化参数对上述语料库10中的句子对进行过滤,得到待优化的句子对;步骤S105,对待优化的句子对的至少一部分进行替换;以及步骤S110,计算替换后的句子对的困惑度,在替换后的句子对的困惑度小于待优化的句子对的困惑度的情况下,将替换后的句子对作为待优化的句子对的优化结果。
在本实施方式中,语料库10包括多个源语言和目标语言的句子对,其可以是本领域的技术人员公知的任何双语语料库,例如英语-汉语语料库,英语-德语语料库,日语-汉语语料库等。本实施方式对于语料库10没有任何限制。
在本实施方式中,优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。下面针对具体的优化参数对本实施方式的方法进行详细描述。
<优化参数为相似度>
相似度是表示源语言句子的翻译结果与目标语言句子之间或者目标语言句子的翻译结果与源语言句子之间的相似程度的参数,例如可以采用基于字符串的相似度,也可以采用结构化的相似度,本实施方式对此没有任何限制。
在优化参数为相似度的情况下,本实施方式的优化语料库的方法中的过滤步骤S101和替换步骤S105包括以下步骤:利用翻译系统翻译语料库10中的句子对的源语言句子;计算该句子对的源语言句子的翻译结果与该句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为待优化的句子对;以及将待优化的句子对的目标语言句子替换为待优化的句子对的源语言句子的翻译结果。
另外,在优化参数为相似度的情况下,过滤步骤S101和替换步骤S105代替上述步骤包括以下步骤或者在上述步骤的基础上还包括以下步骤:利用翻译系统翻译语料库10中的句子对的目标语言句子;计算该句子对的目标语言句子的翻译结果与该句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为待优化的句子对;以及将待优化的句子对的源语言句子替换为待优化的句子对的目标语言句子的翻译结果。
在此,翻译系统可以是本领域的技术人员公知的任何翻译系统,例如包括翻译模型和语言模型,本实施方式对此没有任何限制,只要能够对语料库10中的句子对进行翻译即可。
下面,参照图2,对优化参数为相似度时的优化过程进行详细说明。
如图2所示,首先,在步骤S201中,利用翻译系统20翻译语料库10中的句子对。在本实施方式中,可以对句子对的源语言句子进行翻译,也可以对目标语言句子进行翻译,还可以对源语言句子和目标语言句子都进行翻译。下面仅以对句子对的源语言句子进行翻译的情况为例进行说明。
接着,在步骤S205中,计算源语言句子的翻译结果与目标语言句子的相似度。在本实施方式中,可以采用本领域的技术人员公知的任何方法计算相似度,例如在采用基于字符串的相似度的情况下,可以采用编辑距离计算相似度,在采用结构化的相似度的情况下,可以采用句法结构计算相似度,本实施方式对此没有任何限制。
接着,在步骤S210中,过滤出相似度低的句子对。在本实施方式中,所谓相似度低的句子对,是指相似度低于预先设定的相似度阈值的句子对,该相似度阈值可以根据需要适当设定,本实施方式对此没有任何限制。
接着,在步骤S215中,从过滤出的句子对中选择一个句子对来进行优化。
接着,在步骤S220中,利用翻译结果替换在步骤S215中选择的句子对的目标语言句子。
接着,在步骤S225中,计算替换后的句子对的困惑度(perplexity)。在本实施方式中,可以采用本领域的技术人员公知的任何方法计算困惑度,本实施方式对此没有任何限制。
接着,在S230中,判定替换后的句子对的困惑度是否降低,即,判定替换后的句子对的困惑度是否比替换前的句子对的困惑度低。
在步骤S230的判定为是、即困惑度降低的情况下,处理进入步骤S240,将替换后的句子对作为优化结果来替换语料库10中对应的句子对。
接着,在步骤S245中,判定是否对在步骤S210中过滤出的所有句子对进行了优化。在步骤S245的判定为是、即已经处理完过滤出的所有句子对的情况下,处理结束。另一方面,在步骤S245的判定为否、即还未处理完过滤出的所有句子对的情况下,处理返回步骤S215,选择一个还未进行优化的句子对进行优化。
返回步骤S230,在步骤S230的判定为否、即困惑度未降低的情况下,处理进入步骤S235。
在步骤S235,判定是否进行了M次替换。在本实施方式中,M是1以上的自然数,可以根据需要适当设定,例如可以设定为5,本实施方式对此没有任何限制。
在步骤S235的判定为否、即只进行了小于M次的替换时,处理返回步骤S220,利用其它翻译结果再次进行替换。
另一方面,在步骤S235的判定为是、即困惑度在对该句子对进行了M次优化之后仍不降低的情况下,处理进入步骤S245,直到过滤出的所有句子对都被处理。
以上以对句子对的源语言句子进行翻译的情况为例进行了说明,在对目标语言句子进行翻译以及对源语言句子和目标语言句子都进行翻译的情况下,可以进行相同的处理。
在对源语言句子和目标语言句子都进行翻译的情况下,例如可以将翻译结果与源语言句子的相似度和翻译结果与目标语言句子的相似度中较小的相似度或者二者的平均值,作为句子对的相似度进行后续的处理,本实施方式对此没有任何限制,只要能够利用相似度将具有噪音的句子对选出即可。
另外,在对源语言句子和目标语言句子都进行翻译的情况下,在替换时,可以对源语言句子和目标语言句子之一进行替换,也可以对二者同时进行替换,本实施方式对此没有任何限制。
本实施方式的利用相似度优化语料库的方法,通过使用由翻译系统获得的翻译结果替换具有噪音的句子,能够利用外部信息对过滤出的句子进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为困惑度>
在优化参数为困惑度的情况下,本实施方式的优化语料库的方法中的过滤步骤S101和替换步骤S105包括以下步骤:计算语料库10中的句子对的困惑度,将困惑度大于预定阈值的句子对作为待优化的句子对;提取待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;以及在存在该n元组的同义词的情况下,用同义词替换该n元组,在不存在该n元组的同义词的情况下,利用翻译系统对与该n元组对齐的n元组进行翻译,并用翻译结果替换该n元组。
下面,参照图3,对优化参数为困惑度时的优化过程进行详细说明。
如图3所示,首先,在步骤S301中,计算语料库10中每个句子对的困惑度。在本实施方式中,可以采用本领域技术人员公知的任何方法计算困惑度,本实施方式对此没有任何限制。
接着,在步骤S305中,过滤出困惑度高的句子对。在本实施方式中,所谓困惑高的句子对,是指困惑度大于预先设定的困惑度阈值的句子对,该困惑度阈值可以根据需要适当设定,本实施方式对此没有任何限制。另外,可以计算源语言句子的困惑度,也可以计算目标语言句子的困惑度,还可以计算源语言句子的困惑度和目标语言的困惑度的平均值。
接着,在步骤S310中,对过滤出的句子对,选出概率低的n元组,n是大于等于1的整数。在本实施方式中,所谓概率低的n元组,是指概率低于概率阈值的n元组,该概率阈值可以根据需要适当设定,本实施方式对此没有任何限制。
接着,在步骤S315中,判定是否存在该n元组的同义词。在本实施方式中,可以采用本领域技术人员公知的任何方法来提供同义词,例如可以在预先准备的词典中进行查找,本实施方式对此没有任何限制。
在S315的判定为是、即存在该n元组的同义词的情况下,处理进入步骤S325,用同义词替换该n元组。
另一方面,在步骤S315的判定为否、即不存在同义词的情况下,处理进入步骤S320,利用翻译系统20对与该n元组对齐的n元组进行翻译。在本实施方式中,翻译系统20可以是本领域的技术人员公知的任何翻译系统,例如包括翻译模型和语言模型,本实施方式对此没有任何限制,只要能够对n元组进行翻译即可。
接着,在步骤S330中,用翻译结果替换该n元组。
此外,在图3中未进行图示,在步骤S325和步骤S330之后,也进行图2所示的步骤S225以及后续的处理。即,计算替换后的句子对的困惑度,判定替换后的句子对的困惑度是否降低,在困惑度降低的情况下,将替换后的句子对作为优化结果来替换语料库10中对应的句子对,在困惑度不降低的情况下,返回步骤S325或步骤S330,利用其他同义词或其他翻译结果再次进行替换,并且,在进行了预定次数的替换之后困惑度仍不降低的情况下,判定为无法对该句子对进行优化,结束处理。
本实施方式的利用困惑度优化语料库的方法,通过使用由同义词词典获得的同义词或由翻译系统获得的翻译结果替换具有噪音的n元组,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为拼写错误>
在优化参数为拼写错误且语料库10中的句子对包括英语句子的情况下,本实施方式的优化语料库的方法中的过滤步骤S101和替换步骤S105包括以下步骤:利用第三方公开库查找英语句子中的拼写错误,将存在拼写错误的句子对作为待优化的句子对;以及利用第三方公开库提供的拼写建议替换拼写错误。
在本实施方式中,对语料库10中的句子对包括英语句子的情况进行说明,但不限于英语,可以是任何其他语种,例如德语等,本实施方式对此没有任何限制。
下面,参照图4,对优化参数为拼写错误时的优化过程进行详细说明。
如图4所示,首先,在步骤S401中,调用第三方公开库30,得到拼写错误及拼写建议。在本实施方式中,第三方公开库可以是本领域技术人员公知的任何公开库,只要能够利用该第三方公开库得到拼写错误及拼写建议即可,本实施方式对此没有任何限制。
接着,在步骤S405中,用第三方公开库30给出的拼写建议替换拼写错误。
此外,在图4中未进行图示,在步骤S405之后,也进行图2所示的步骤S225以及后续的处理。即,计算替换后的句子对的困惑度,判定替换后的句子对的困惑度是否降低,在困惑度降低的情况下,将替换后的句子对作为优化结果来替换语料库10中对应的句子对,在困惑度不降低的情况下,返回步骤S405,利用第三方公开库30给出的其他建议来替换拼写错误,并且,在进行了预定次数的替换之后困惑度仍不降低的情况下,判定为无法对该句子对进行优化,结束处理。
本实施方式的利用拼写错误优化语料库的方法,通过使用由第三方公开库30获得的拼写建议替换拼写错误,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为非常用符号>
在优化参数为非常用符号的情况下,本实施方式的优化语料库的方法中的过滤步骤S101和替换步骤S105包括以下步骤:利用预先编写的脚本40查找句子对中的非常用符号,将存在非常用符号的句子对作为待优化的句子对;以及利用常用符号替换非常用符号或者将非常用符号删除。
在本实施方式中,非常用符号可以根据需要适当进行规定,例如将常用符号规定为逗号、顿号、句号、感叹号、冒号和引号,则非常用符号为常用符号之外的标点符号,例如括号、书名号等,本实施方式对此没有任何限制。
在非常用符号为括号的情况下,本实施方式的优化语料库的方法中的替换步骤S105包括以下步骤:在待优化的句子对的源语言句子和目标语言句子都包括括号的情况下,提取括号内的句子作为新的句子对并将括号删除,在待优化的句子对的源语言句子和目标语言句子中只有一个句子包括括号的情况下,删除括号及其中的内容。
在非常用符号为书名号的情况下,本实施方式的优化语料库的方法中的替换步骤S105包括以下步骤:将书名号替换为引号。
在非常用符号为括号和书名号之外的非常用符号的情况下,本实施方式的优化语料库的方法中的替换步骤S105包括以下步骤:在非常用符号位于句子头部时,将其删除,在非常用符号位于句子中间时,将其替换为逗号,在非常用符号位于句子尾部时,将其替换为句号。
下面,参照图5,对优化参数为非常用符号时的优化过程进行详细说明。
如图5所示,首先,在步骤S501中,利用预先编写的脚本40在语料库10中查找含有非常用符号的句子对,作为待优化的句子对。脚本40可以是本领域技术人员公知的任何脚本,只要能够查找含有非常用符号的句子的对即可,本实施方式对此没有任何限制。
接着,在步骤S505中,判定非常用符号是否是括号。
在步骤S505的判定为是、即非常用符号是括号的情况下,处理进入步骤S510。另一方面,在步骤S505的判定为否、即非常用符号不是括号的情况下,步骤进入S515。
在步骤S510中,判定是否源语言句子和目标语言句子都含有括号。
在步骤S510的判定为是、即源语言句子和目标语言句子都含有括号的情况下,处理进入步骤S520。另一方面,在步骤S510的判定为否,即源语言和目标语言中只有一方含有括号的情况下,处理进入步骤S525。
在步骤S510中,提取括号中的内容作为新的句子对。
在步骤S525中,删除括号及其中的内容。
返回步骤S505,在步骤S505的判定为否、即非常用符号不是括号的情况下,处理进入步骤S515,判定非常用符号是否是书名号。
在步骤S515的判定为是、即非常用符号是书名号的情况下,处理进入步骤S530。另一方面,在步骤S515的判定为否、即非常用符号不是书名号的情况下,处理进入步骤S535。
在步骤S530中,将句子对中的书名号替换为引号。
在步骤S535中,在非常用符号位于句子开头时删除该非常用符号,在非常用符号位于句子中间时将该非常用符号替换为逗号,在非常用符号位于句子尾部时将该非常用符号替换为句号。在本实施方式中,可以采用本领域技术人员公知的任何方法来判断非常用符号位于句子的何处,本实施方式对此没有任何限制。
此外,在图5中未进行图示,在步骤S520、S525、S530和S535之后也如上述那样对困惑度是否降低进行判定,在困惑度降低的情况下,将处理后的句子对作为优化结果来替换语料库10中对应的句子对,否则结束处理。
本实施方式的利用非常用符号优化语料库的方法,通过使用由预先编写的脚本40对语料库进行过滤,能够有效消除语料库中的非常用符号,从而能够有效降低语料库的困惑度。
以上虽然参照图2-5对优化参数为相似度、困惑度、拼写错误和非常用符号的情况分别进行了详细说明,但是应该理解,本实施方式的上述优化参数可以结合使用,即可以同时利用上述优化参数中的两种以上的参数进行上述过滤及其之后的步骤,本实施方式对此没有任何限制。
优化语料库的装置
在同一发明构思下,图6~10是根据本发明的另一个实施方式的优化语料库的装置的方框图。下面就结合这些图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
图6是根据本发明的另一个实施方式的优化语料库的装置600的框图。
如图6所示,本实施方式提供一种优化语料库的装置600,包括:过滤单元601,其基于优化参数对上述语料库10中的句子对进行过滤,得到待优化的句子对;替换单元605,其对待优化的句子对的至少一部分进行替换;困惑度计算单元,其计算替换后的句子对的困惑度;所述替换单元605,其在替换后的句子对的困惑度小于待优化的句子对的困惑度的情况下,将替换后的句子对作为待优化的句子对的优化结果,用其替换语料库10中对应的句子对。
在本实施方式中,语料库10包括多个源语言和目标语言的句子对,其可以是本领域的技术人员公知的任何双语语料库,例如英语-汉语语料库,英语-德语语料库,日语-汉语语料库等。本实施方式对于语料库10没有任何限制。
在本实施方式中,优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。下面针对具体的优化参数对本实施方式的优化语料库的装置600进行详细描述。
<优化参数为相似度>
相似度是表示源语言句子的翻译结果与目标语言句子之间或者目标语言句子的翻译结果与源语言句子之间的相似程度的参数,例如可以采用基于字符串的相似度,也可以采用结构化的相似度,本实施方式对此没有任何限制。
在优化参数为相似度的情况下,本实施方式的优化语料库的装置600中的过滤单元601包括:翻译单元6011,其利用翻译系统翻译语料库10中的句子对的源语言句子;和相似度计算单元6012,其计算该句子对的源语言句子的翻译结果与该句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为待优化的句子对;优化语料库的装置600中的替换单元605将待优化的句子对的目标语言句子替换为待优化的句子对的源语言句子的翻译结果。
另外,在优化参数为相似度的情况下,过滤单元601和替换单元605代替上述处理或者在上述处理的基础上还进行以下处理:翻译单元6011利用翻译系统翻译语料库10中的句子对的目标语言句子,相似度计算单元6012计算该句子对的目标语言句子的翻译结果与该句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为待优化的句子对,替换单元605将待优化的句子对的源语言句子替换为待优化的句子对的目标语言句子的翻译结果。
在此,翻译系统可以是本领域的技术人员公知的任何翻译系统,例如包括翻译模型和语言模型,本实施方式对此没有任何限制,只要能够对语料库10中的句子对进行翻译即可。
下面,参照图7,对优化参数为相似度时的优化语料库的装置600进行详细说明。
如图7所示,翻译单元6011利用翻译系统20翻译语料库10中的句子对。在本实施方式中,可以对句子对的源语言句子进行翻译,也可以对目标语言句子进行翻译,还可以对源语言句子和目标语言句子都进行翻译。下面仅以对句子对的源语言句子进行翻译的情况为例进行说明。
相似度计算单元6012计算源语言句子的翻译结果与目标语言句子的相似度。在本实施方式中,可以采用本领域的技术人员公知的任何方法计算相似度,例如在采用基于字符串的相似度的情况下,可以采用编辑距离计算相似度,在采用结构化的相似度的情况下,可以采用句法结构计算相似度,本实施方式对此没有任何限制。
过滤单元601过滤出相似度低的句子对。在本实施方式中,所谓相似度低的句子对,是指相似度低于预先设定的相似度阈值的句子对,该相似度阈值可以根据需要适当设定,本实施方式对此没有任何限制。
替换单元605的选择单元6051从过滤出的句子对中选择一个句子对来进行优化。
替换单元605利用翻译结果替换选择单元6051选择的句子对的目标语言句子。
困惑度计算单元610计算替换后的句子对的困惑度。在本实施方式中,可以采用本领域的技术人员公知的任何方法计算困惑度,本实施方式对此没有任何限制。
在困惑度降低的情况下,替换单元605将替换后的句子对作为优化结果来替换语料库10中对应的句子对。在困惑度未降低的情况下,替换单元605利用其他翻译结果再次替换句子对的目标语言句子,困惑度计算单元610再次计算替换后的句子对的困惑度。在本实施方式中,可以将进行替换和计算的次数设为M次,M是1以上的自然数,可以根据需要适当设定,例如可以设定为5,本实施方式对此没有任何限制。
在对该句子对进行了M次优化之后困惑度仍不降低的情况下,选择单元6051选择另一个还未进行优化的句子进行优化,直到过滤出的所有句子对都被处理。
以上以对句子对的源语言句子进行翻译的情况为例进行了说明,在对目标语言句子进行翻译以及对源语言句子和目标语言句子都进行翻译的情况下,可以进行相同的处理。
在对源语言句子和目标语言句子都进行翻译的情况下,例如可以将翻译结果与源语言句子的相似度和翻译结果与目标语言句子的相似度中较小的相似度或者二者的平均值,作为句子对的相似度进行后续的处理,本实施方式对此没有任何限制,只要能够利用相似度将具有噪音的句子对选出即可。
另外,在对源语言句子和目标语言句子都进行翻译的情况下,在替换时,可以对源语言句子和目标语言句子之一进行替换,也可以对二者同时进行替换,本实施方式对此没有任何限制。
本实施方式的利用相似度优化语料库的装置,通过使用由翻译系统获得的翻译结果替换具有噪音的句子,能够利用外部信息对过滤出的句子进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为困惑度>
在优化参数为困惑度的情况下,本实施方式的优化语料库的装置600中的过滤单元601包括:困惑度计算单元6013,其计算语料库10中的句子对的困惑度,将困惑度大于预定阈值的句子对作为待优化的句子对;和n元组提取单元6014,其提取待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;优化语料库的装置600中的替换单元605包括翻译单元6052,在存在该n元组的同义词的情况下,替换单元605用同义词替换该n元组,在不存在该n元组的同义词的情况下,翻译单元6052利用翻译系统对与该n元组对齐的n元组进行翻译,并且替换单元605用翻译结果替换该n元组。
下面,参照图8,对优化参数为困惑度时的优化语料库的装置600进行详细说明。
如图8所示,首先,困惑度计算单元6013计算语料库10中每个句子对的困惑度。在本实施方式中,可以采用本领域技术人员公知的任何方法计算困惑度,本实施方式对此没有任何限制。
过滤单元601过滤出困惑度高的句子对。在本实施方式中,所谓困惑高的句子对,是指困惑度大于预先设定的困惑度阈值的句子对,该困惑度阈值可以根据需要适当设定,本实施方式对此没有任何限制。另外,可以计算源语言句子的困惑度,也可以计算目标语言句子的困惑度,还可以计算源语言句子的困惑度和目标语言的困惑度的平均值。
n元组提取单元6014对过滤出的句子对,选出概率低的n元组,n是大于等于1的整数。在本实施方式中,所谓概率低的n元组,是指概率低于概率阈值的n元组,该概率阈值可以根据需要适当设定,本实施方式对此没有任何限制。
在本实施方式中,可以采用本领域技术人员公知的任何方法来提供同义词,例如可以在预先准备的词典中进行查找,本实施方式对此没有任何限制。
在存在该n元组的同义词的情况下,替换单元605用同义词替换该n元组。
另一方面,在不存在同义词的情况下,翻译单元6052利用翻译系统20对与该n元组对齐的n元组进行翻译。在本实施方式中,翻译系统20可以是本领域的技术人员公知的任何翻译系统,例如包括翻译模型和语言模型,本实施方式对此没有任何限制,只要能够对n元组进行翻译即可。
替换单元605用翻译结果替换该n元组。
困惑度计算单元610计算替换后的句子对的困惑度。在困惑度降低的情况下,替换单元605将替换后的句子对作为优化结果来替换语料库10中对应的句子度,在困惑度不降低的情况下,替换单元605利用其他同义词再次进行替换,或者翻译单元6052利用其他翻译结果再次进行替换。
本实施方式的利用困惑度优化语料库的装置,通过使用由同义词词典获得的同义词或由翻译系统获得的翻译结果替换具有噪音的n元组,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为拼写错误>
在优化参数为拼写错误且语料库10中的句子对包括英语句子的情况下,本实施方式的优化语料库的装置600中的过滤单元601包括利用第三方公开库查找英语句子中的拼写错误的拼写错误查找单元6015,过滤单元601将存在拼写错误的句子对作为待优化的句子对,替换单元605利用第三方公开库30提供的拼写建议替换拼写错误。
在本实施方式中,对语料库10中的句子对包括英语句子的情况进行说明,但不限于英语,可以是任何其他语种,例如德语等,本实施方式对此没有任何限制。
下面,参照图9,对优化参数为拼写错误时的优化语料库的装置600进行详细说明。
如图9所示,首先,拼写错误查找单元6015调用第三方公开库30,得到拼写错误及拼写建议。在本实施方式中,第三方公开库30可以是本领域技术人员公知的任何公开库,只要能够利用该第三方公开库30得到拼写错误及拼写建议即可,本实施方式对此没有任何限制。
替换单元605用第三方公开库30给出的拼写建议替换拼写错误。
困惑度计算单元610计算替换后的句子对的困惑度。在困惑度降低的情况下,替换单元605将替换后的句子对作为优化结果来替换语料库10中对应的句子对,在困惑度不降低的情况下,替换单元605利用第三方公开库30给出的其他建议来替换拼写错误。
本实施方式的利用拼写错误优化语料库的装置600,通过使用由第三方公开库获得的拼写建议替换拼写错误,能够利用外部信息对过滤出的句子对中的噪音进行优化,从而能够更加有效地消除噪音,提高语料质量。
<优化参数为非常用符号>
在优化参数为非常用符号的情况下,本实施方式的优化语料库的装置600中的过滤单元601包括利用预先编写的脚本40查找句子对中的非常用符号的非常用符号查找单元6016,过滤单元601将存在非常用符号的句子对作为待优化的句子对,替换单元605包括删除单元6053,替换单元605利用常用符号替换上述非常用符号,或者删除单元6053将上述非常用符号删除。
在本实施方式中,非常用符号可以根据需要适当进行规定,例如将常用符号规定为逗号、顿号、句号、感叹号、冒号和引号,则非常用符号为常用符号之外的标点符号,例如括号、书名号等,本实施方式对此没有任何限制。
在非常用符号为括号的情况下,本实施方式的优化语料库的装置600中的替换单元605包括句子提取单元6054,在待优化的句子对的源语言句子和目标语言句子都包括括号的情况下,句子提取单元6054提取括号内的句子作为新的句子对,并且删除单元6053将括号删除,在待优化的句子对的源语言句子和目标语言句子中只有一个句子包括括号的情况下,删除单元6053删除括号及其中的内容。
在非常用符号为书名号的情况下,本实施方式的优化语料库的装置600中的替换单元605将书名号替换为引号。
在非常用符号为括号和书名号之外的非常用符号的情况下,本实施方式的优化语料库的装置600,在非常用符号位于句子头部时,删除单元6053将其删除,在非常用符号位于句子中间时,替换单元605将其替换为逗号,在非常用符号位于句子尾部时,替换单元605将其替换为句号。
下面,参照图10,对优化参数为非常用符号时的优化语料库的装置600进行详细说明。
如图10所示,非常用符号查找单元6016利用预先编写的脚本40在语料库10中查找含有非常用符号的句子对,作为待优化的句子对。脚本40可以是本领域技术人员公知的任何脚本,只要能够查找含有非常用符号的句子的对即可,本实施方式对此没有任何限制。
在源语言句子和目标语言句子都含有括号的情况下,句子提取单元6054提取括号中的内容作为新的句子对,并且删除单元6053将括号删除。另一方面,在源语言和目标语言中只有一方含有括号的情况下,删除单元6053删除括号及其中的内容。
在非常用符号是书名号的情况下,替换单元605将句子对中的书名号替换为引号。另一方面,在非常用符号不是书名号的情况下,在非常用符号位于句子开头时,删除单元6053删除该非常用符号,在非常用符号位于句子中间时,替换单元605将该非常用符号替换为逗号,在非常用符号位于句子尾部时,替换单元605将该非常用符号替换为句号。在本实施方式中,可以采用本领域技术人员公知的任何方法来判断非常用符号位于句子的何处,本实施方式对此没有任何限制。
困惑度计算单元610计算处理后的句子对的困惑度,在困惑度降低的情况下,替换单元605将处理后的句子对作为优化结果来替换语料库10中对应的句子对。
本实施方式的利用非常用符号优化语料库的装置600,通过使用由预先编写的脚本对语料库进行过滤,能够有效消除语料库中的非常用符号,从而能够有效降低语料库的困惑度。
以上虽然参照图7-10对优化参数为相似度、困惑度、拼写错误和非常用符号的情况分别进行了详细说明,但是应该理解,本实施方式的上述优化参数可以结合使用,即可以同时利用上述优化参数中的两种以上的参数进行上述过滤及其之后的处理,本实施方式对此没有任何限制。
另外,以上虽然通过一些示例性的实施方式详细地描述了本发明的优化语料库的方法以及优化语料库的装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。

Claims (10)

1.一种优化语料库的装置,包括:
过滤单元,其基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;
替换单元,其对上述待优化的句子对的至少一部分进行替换;以及
困惑度计算单元,其计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
2.根据权利要求1所述的优化语料库的装置,其中,
上述优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。
3.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:
翻译单元,其利用翻译系统翻译上述语料库中的句子对的源语言句子;以及
相似度计算单元,其计算上述句子对的上述源语言句子的翻译结果与上述句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;
上述替换单元将上述待优化的句子对的目标语言句子替换为上述待优化的句子对的源语言句子的翻译结果。
4.根据权利要求2或3所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:
翻译单元,其利用翻译系统翻译上述语料库中的句子对的目标语言句子;以及
相似度计算单元,其计算上述句子对的上述目标语言句子的翻译结果与上述句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;
上述替换单元将上述待优化的句子对的源语言句子替换为上述待优化的句子对的目标语言句子的翻译结果。
5.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述困惑度的情况下,上述过滤单元包括:
困惑度计算单元,其计算上述语料库中的句子对的困惑度,将困惑度大于预定阈值的句子对作为上述待优化的句子对;以及
n元组提取单元,其提取上述待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;
上述替换单元包括翻译单元,在存在上述n元组的同义词的情况下,上述替换单元用同义词替换上述n元组,在不存在上述n元组的同义词的情况下,上述翻译单元利用翻译系统对与上述n元组对齐的n元组进行翻译,并且上述替换单元用翻译结果替换上述n元组。
6.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述拼写错误且上述语料库中的句子对包括英语句子的情况下,上述过滤单元包括:
拼写错误查找单元,其利用第三方公开库查找上述英语句子中的拼写错误,将存在拼写错误的句子对作为上述待优化的句子对;
上述替换单元利用上述第三方公开库提供的拼写建议替换上述拼写错误。
7.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述非常用符号的情况下,上述过滤单元包括:
非常用符号查找单元,其利用预先编写的脚本查找上述句子对中的非常用符号,将存在非常用符号的句子对作为上述待优化的句子对;
上述替换单元利用常用符号替换上述非常用符号或者将上述非常用符号删除。
8.根据权利要求7所述的优化语料库的装置,其中,
上述非常用符号包括逗号、顿号、句号、感叹号、冒号和引号之外的标点符号。
9.根据权利要求8所述的优化语料库的装置,其中,
上述替换单元包括删除单元和句子提取单元,
在上述非常用符号为括号的情况下,
在上述待优化的句子对的源语言句子和目标语言句子都包括括号的情况下,上述句子提取单元提取括号内的句子作为新的句子对,并且上述删除单元将括号删除,
在上述待优化的句子对的源语言句子和目标语言句子中只有一个句子包括括号的情况下,上述删除单元删除括号及其中的内容,
在上述非常用符号为书名号的情况下,
上述替换单元将书名号替换为引号,
在上述非常用符号为括号和书名号之外的非常用符号的情况下,
在上述非常用符号位于句子头部时,上述删除单元将其删除,
在上述非常用符号位于句子中间时,上述替换单元将其替换为逗号,
在上述非常用符号位于句子尾部时,上述替换单元将其替换为句号。
10.一种优化语料库的方法,包括以下步骤:
基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;
对上述待优化的句子对的至少一部分进行替换;以及
计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
CN201410124005.5A 2014-03-28 2014-03-28 优化语料库的方法和装置 Active CN104951469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410124005.5A CN104951469B (zh) 2014-03-28 2014-03-28 优化语料库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410124005.5A CN104951469B (zh) 2014-03-28 2014-03-28 优化语料库的方法和装置

Publications (2)

Publication Number Publication Date
CN104951469A CN104951469A (zh) 2015-09-30
CN104951469B true CN104951469B (zh) 2018-04-06

Family

ID=54166132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410124005.5A Active CN104951469B (zh) 2014-03-28 2014-03-28 优化语料库的方法和装置

Country Status (1)

Country Link
CN (1) CN104951469B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502979A (zh) * 2016-09-20 2017-03-15 海信集团有限公司 一种自然语言信息的数据处理方法和装置
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法
CN108509406B (zh) * 2017-02-24 2023-04-18 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN107133463A (zh) * 2017-04-27 2017-09-05 湖北民族学院附属民大医院 一种综合多功能病理诊断系统
CN108319692B (zh) * 2018-02-01 2021-03-19 云知声智能科技股份有限公司 异常标点清洗方法、存储介质及服务器
CN110852087B (zh) * 2019-09-23 2022-02-22 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN111339262B (zh) * 2020-05-21 2020-08-18 北京金山数字娱乐科技有限公司 一种语句选词方法及装置
CN111914936B (zh) * 2020-08-05 2023-05-09 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置及计算机设备
CN115587589B (zh) * 2022-09-16 2023-07-18 粤港澳大湾区数字经济研究院(福田) 针对多语种的语句困惑度获取方法、系统及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357065A (ja) * 2000-06-14 2001-12-26 Nippon Telegr & Teleph Corp <Ntt> 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN103631771A (zh) * 2012-08-28 2014-03-12 株式会社东芝 改进语言模型的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357065A (ja) * 2000-06-14 2001-12-26 Nippon Telegr & Teleph Corp <Ntt> 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103631771A (zh) * 2012-08-28 2014-03-12 株式会社东芝 改进语言模型的方法及装置
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置

Also Published As

Publication number Publication date
CN104951469A (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN104951469B (zh) 优化语料库的方法和装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103123618B (zh) 文本相似度获取方法和装置
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN101464898B (zh) 一种提取文本主题词的方法
CN104572622B (zh) 一种术语的筛选方法
CN103778243B (zh) 一种领域术语抽取方法
CN105893410A (zh) 一种关键词提取方法和装置
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN103186633B (zh) 一种结构化信息抽取方法、搜索方法和装置
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN106776555B (zh) 一种基于字模型的评论文本实体识别方法及装置
CN106611041A (zh) 一种新的文本相似度求解方法
CN104598530B (zh) 一种领域术语抽取的方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111984845B (zh) 网站错别字识别方法和系统
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN110119510A (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN104572619A (zh) 智能机器人交互系统在投融资领域的应用
CN101673263B (zh) 视频内容的搜索方法
CN106372038A (zh) 关键词的抽取方法及装置
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
CN111339753A (zh) 一种自适应中文新词识别方法与系统
JP7040227B2 (ja) 情報処理プログラム、情報処理方法、および情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant