CN103268314B - 一种获取泰文断句规则的方法及装置 - Google Patents

一种获取泰文断句规则的方法及装置 Download PDF

Info

Publication number
CN103268314B
CN103268314B CN201310158470.6A CN201310158470A CN103268314B CN 103268314 B CN103268314 B CN 103268314B CN 201310158470 A CN201310158470 A CN 201310158470A CN 103268314 B CN103268314 B CN 103268314B
Authority
CN
China
Prior art keywords
punctuate
language
thai
thai language
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310158470.6A
Other languages
English (en)
Other versions
CN103268314A (zh
Inventor
何伯磊
马艳军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310158470.6A priority Critical patent/CN103268314B/zh
Publication of CN103268314A publication Critical patent/CN103268314A/zh
Application granted granted Critical
Publication of CN103268314B publication Critical patent/CN103268314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种获取泰文断句规则的方法及装置,其中所述方法包括:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;确定所述泰文训练样本的断句特征;根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。通过上述方式,本发明能够有效提高泰文断句的准确性。

Description

一种获取泰文断句规则的方法及装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种获取泰文断句规则的方法及装置。
【背景技术】
随着全球化的加快,国内用户在使用机器翻译的过程中,已经不仅限于英文和中文的翻译了,其他的语言的翻译需求也越来越多,泰文与其他语种的互译就是其中之一。
为了提高机器翻译的翻译质量,需要有高质量的双语句对对机器翻译系统进行训练,例如想要提高泰英机器翻译质量,就必须有大量高质量的泰文与英文句对作为训练语料对机器翻译系统进行训练。互联网上存在着大量这样的双语文本可供挖掘,但是在挖掘过程中发现,由于泰文本身缺乏断句符号,因此在确定对齐的双语句对时存在困难。例如在挖掘泰文与英文的双语句对时,常常出现几句泰文匹配上一句英文的情况,或者是多句英文匹配上一句泰文。为了提高泰文和英文句对的匹配成功率,必须考虑泰文句子的切分问题。
现有的泰文句子切分,主要是利用人工总结的规则,这种方法的问题是规则总结都是来自于小规模数据上的,如果把这些规则运用到海量的网页数据中,效果不理想。
【发明内容】
本发明所要解决的技术问题是提供一种获取泰文断句规则的方法及装置,以提高泰文断句的准确性。
本发明为解决技术问题而采用的技术方案是提供一种获取泰文断句规则的方法,包括:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;确定所述泰文训练样本的断句特征;根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
根据本发明之一优选实施例,所述方法中根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。
根据本发明之一优选实施例,所述方法中根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
根据本发明之一优选实施例,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。
本发明还提供了一种获取泰文断句规则的装置,包括:标注单元,用于将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;特征确定单元,用于确定所述泰文训练样本的断句特征;训练单元,用于根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
根据本发明之一优选实施例,所述标注单元根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。
根据本发明之一优选实施例,所述标注单元根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
根据本发明之一优选实施例,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。
由以上技术方案可以看出,本发明通过采用机器翻译与机器学习相结合的办法,可以利用泰文训练样本得到适合用于对任意泰文文本进行断句的机器断句规则,与人工总结的规则相比,本发明可以有效提高泰文断句的准确性。
【附图说明】
图1为本发明中对泰文进行断句的方法的实施例的流程示意图;
图2为本发明中获取泰文断句规则的装置的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中对泰文进行断句的方法的实施例的流程示意图。如图1所示,该方法包括:
步骤S1:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
步骤S2:确定所述泰文训练样本的断句特征。
步骤S3:根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
下面对上述步骤进行详细介绍。
本发明通过采用机器学习的方法得到泰文的断句规则,该断句规则后续可用于对任意未有断句符号的泰文文本进行断句。为了便于理解,下面先对机器学习的过程进行介绍。
机器学习的过程可以表示为Y=f(X1,X2,......Xn)的形式。其中X1,X2,......Xn表示一个训练样本的n维特征,Y表示该训练样本的断句标注,f表示断句规则。当大量训练样本的X1,X2,......Xn已知且Y已知时,通过对这些训练样本进行学习,就可以总结出断句规则f。本发明对机器学习的具体算法不做限制,任何已知的机器学习算法均可在本发明中使用。
从上述说明中可以看出,训练样本的特征集X1,X2,......Xn和训练样本的断句标注Y,决定了最终总结出的断句规则的准确性。
图1所示的实施例的步骤S1,是获取训练样本的断句标注Y的过程,而步骤S2,则是获取训练样本的特征集X1,X2,......Xn的过程。
下面先对步骤S1中获取训练样本的断句标注的过程进行具体介绍。
在步骤S1中,首先通过机器翻译将泰文训练样本翻译为至少两种目标语言文本,然后再根据目标语言文本中的断句符号对泰文训练样本进行断句标注。下面以翻译为英文和中文这两种目标语言为例进行介绍。
调用已有的泰译英的机器翻译系统接口,就可以将泰文训练样本翻译为英文,同理,调用已有的泰译中的机器翻译系统接口,就可以将泰文训练样本翻译为中文。
例如将泰文“A: 翻译为英文和中文分别是“B:I love this city,and I want to stay hereforever.What is your opinion?”和“C:我热爱这个城市,并且我想在这里永远生活下去。你觉得怎么样?”。在B中,符号“.”表示断句,因此B可以分为两句,分别是“I love thiscity,and I want to stay here forever.”(对应泰文)和“What is your opinion?”(对应泰文)。在C中,符号“。”表示断句,因此C可以分为两句,分别是“我热爱这个城市,并且我想在这里永远生活下去。”(对应泰文)和“你觉得怎么样?”(对应泰文
作为一种实施方式,步骤S1中根据目标语言文本中的断句符号对训练样本进行断句标注时,可以根据目标语言文本中对齐的断句符号对训练样本进行断句标注。在上述例子中,由于英文和中文对应泰文 的翻译中,都存在断句符号,也就是说,这两种目标语言文本中的断句符号是对齐的,因此,就可以在此处为对应泰文进行断句,上述泰文A也就被断为两句,分别是 了。
作为另一种实施方式,步骤S1中根据目标语言文本中的断句符号对训练样本进行断句标注时,还可以根据翻译后的目标语言文本中,翻译置信度最高的目标语言文本中的断句符号来对训练样本进行断句标注。
例如在前面的例子中,泰译英的机器翻译系统对泰文A进行翻译后,会给出英文目标语言文本B的翻译置信度,泰译中的机器翻译系统对泰文A进行翻译后,会给出中文目标语言文本C的翻译置信度,如果英文目标语言文本B的翻译置信度高于中文目标语言文本C的翻译置信度,则可以根据英文目标语言文本B中的断句符号来对泰文A进行断句标注。翻译置信度指的是机器翻译系统在将源语言文本翻译到目标语言文本时,对目标语言文本翻译准确性的度量,翻译置信度越高,说明通过该机器翻译系统得到的目标语言文本的翻译准确性的可能性越大,反之则说明翻译准确性的可能性越小。
作为另一种实施方式,步骤S1中还可以将前面两种方式结合起来以决定训练样本的断句标注。例如将训练样本翻译为两种以上的目标语言文本后,首先判断这几种目标语言文本中是否存在对齐的断句符号,如果存在,则利用对齐的断句符号对训练样本进行标注,如果不存在,则利用翻译置信度最高的目标语言文本中的断句符号对训练样本进行标注。
以上对步骤S1中训练样本断句标注的过程进行了完整的介绍,下面将对步骤S2中确定训练样本的断句特征的过程进行介绍。
在本发明中,断句特征至少包括以下类型特征中的一种:
1、泰文句子完整性的描述特征。如一句泰文中的泰文字母的总数、一句泰文分词之后的单词总数、一句泰文中的泰文音节的总数、一句泰文中短语韵律停顿的个数等等构成的特征。
2、泰文的语法特征。例如一句泰文句子起始和结尾处单词的词性、或者泰文句子中的短语搭配结构等等构成的特征。
3、泰文的单词特征。例如单词的含义、词频信息等等构成的特征。
4、泰文句尾的组合型特征。例如一个泰文句子中最后一个单词的词性和含义组合在一起构成的特征。
作为一种实施方式,可以提取训练样本任意若干个上述类型的特征构成特征向量,作为训练样本的断句特征。较优的,可以采用特征选择算法从提取的任意若干个上述类型的特征中选取对断句的判断影响显著的特征构成特征向量,以作为训练样本的断句特征。
在本实施例中,是对离散特征(即只有0和1两种取值的特征)使用卡方检验的特征选择算法,对连续特征(即其取值范围是连续的)使用基于信息增益的特征选择算法。
例如确定是否选取离散特征“一句泰文句子结尾处单词的词性”时,假设100个样本中,有95%的样本在泰文句子结尾处单词的词性都是动词,则说明“一句泰文句子结尾处单词的词性”这个特征对断句的判断影响显著,但是如果在这100个样本中,泰文句子结尾处单词在各种词性上的分布是比较均匀的,则说明这个特征对断句的判断影响不够显著。
在执行步骤S2之后,大量训练样本的X1,X2,......Xn和Y都得到了,这时通过步骤S3,对这些训练样本进行机器学习,就可以总结出泰文断句规则f。
本发明进一步地,还可以利用总结的泰文断句规则对大量未知断句信息的泰文进行断句。例如对互联网上的泰文和英文的双语互译文本中的泰文进行断句,这样就能够从互联网上挖掘大量的双语句对,从而为进一步提高已有的机器翻译系统的准确性提供材料。
请参考图2,图2为本发明中获取泰文断句规则的装置的实施例的结构示意框图。如图2所示,该装置包括:标注单元101、特征确定单元102、训练单元103。
其中标注单元101,用于将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
特征确定单元102,用于确定所述泰文训练样本的断句特征。
训练单元103,用于根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
下面对上述装置进行具体说明。本发明通过采用机器学习的方法得到泰文的断句规则,该断句规则后续可用于对未有断句符号的泰文文本进行断句。为了便于理解,下面先对机器学习的过程进行介绍。
机器学习的过程可以表示为Y=f(X1,X2,......Xn)的形式。其中X1,X2,......Xn表示一个训练样本的n维特征,Y表示该训练样本的断句标注,f表示断句规则。当大量训练样本的X1,X2,......Xn已知且Y已知时,通过对这些训练样本进行学习,就可以总结出断句规则f。本发明对机器学习的具体算法不做限制,任何已知的机器学习算法均可在本发明中使用。
从上述说明中可以看出,训练样本的特征集X1,X2,......Xn和训练样本的断句标注Y,决定了最终总结出的断句规则的准确性。
标注单元101,就是用于获取训练样本的断句标注标注Y的单元,特征确定单元102,就是用于获取训练样本的特征集X1,X2,......Xn的单元。
标注单元101首先通过机器翻译将泰文训练样本翻译为至少两种目标语言文本,然后再根据目标语言文本中的断句符号对泰文训练样本进行断句标注。下面以翻译为英文和中文为例介绍。
标注单元101调用已有的泰译英的机器翻译系统接口,就可以将泰文训练样本翻译为英文,同理,调用已有的泰译中的机器翻译系统接口,就可以将泰文训练样本翻译为中文。
例如标注单元101将泰文“A: 翻译为英文和中文分别是“B:I love this city,and Iwant to stay here forever.What is your opinion?”和“C:我热爱这个城市,并且我想在这里永远生活下去。你觉得怎么样?”。在B中,符号“.”表示断句,因此B可以分为两句,分别是“I love this city,and I want to stay here forever.”(对应泰文)和“What is your opinion?”(对应泰文)。在C中,符号“。”表示断句,因此C可以分为两句,分别是“我热爱这个城市,并且我想在这里永远生活下去。”(对应泰文和“你觉得怎么样?”(对应泰文
作为一种实施方式,标注单元101根据目标语言文本中的断句符号对训练样本进行断句标注时,可以根据目标语言文本中对齐的断句符号对训练样本进行断句标注。在上述例子中,由于英文和中文对应泰文 的翻译中,都存在断句符号,也就是说,这两种目标语言文本中的断句符号是对齐的,因此,就可以在此处为对应泰文进行断句,上述泰文A也就被断为两句,分别是 了。
作为另一种实施方式,标注单元101根据目标语言文本中的断句符号对训练样本进行断句标注时,还可以根据翻译后的目标语言文本中,翻译置信度最高的目标语言文本中的断句符号来对训练样本进行断句标注。
例如在前面的例子中,泰译英的机器翻译系统对泰文A进行翻译后,会给出英文目标语言文本B的翻译置信度,泰译中的机器翻译系统对泰文A进行翻译后,会给出中文目标语言文本C的翻译置信度,如果英文目标语言文本B的翻译置信度高于中文目标语言文本C的翻译置信度,则可以根据英文目标语言文本B中的断句符号来对泰文A进行断句标注。翻译置信度指的是机器翻译系统在将源语言文本翻译到目标语言文本时,对目标语言文本翻译准确性的度量,翻译置信度越高,说明通过该机器翻译系统得到的目标语言文本的翻译准确性的可能性越大,反之则说明翻译准确性的可能性越小。
作为另一种实施方式,标注单元101还可以将前面两种方式结合起来以决定训练样本的断句标注。例如将训练样本翻译为两种以上的目标语言文本后,首先判断这几种目标语言文本中是否存在对齐的断句符号,如果存在,则利用对齐的断句符号对训练样本进行标注,如果不存在,则利用翻译置信度最高的目标语言文本中的断句符号对训练样本进行标注。
以上对标注单元101对训练样本进行断句标注的过程进行了完整的介绍,下面将对特征确定单元102确定训练样本的断句特征的过程进行介绍。
在本发明中,断句特征至少包括以下类型特征中的一种:
1、泰文句子完整性的描述特征。如一句泰文中的泰文字母的总数、一句泰文分词之后的单词总数、一句泰文中的泰文音节的总数、一句泰文中短语韵律停顿的个数等等构成的特征。
2、泰文的语法特征。例如一句泰文句子起始和结尾处单词的词性、或者泰文句子中的短语搭配结构等等构成的特征。
3、泰文的单词特征。例如单词的含义、词频信息等等构成的特征。
4、泰文句尾的组合型特征。例如一个泰文句子中最后一个单词的词性和含义组合在一起构成的特征。
作为一种实施方式,特征确定单元102可以提取训练样本任意若干个上述类型的特征构成特征向量,作为训练样本的断句特征。较优的,特征确定单元102可以采用特征选择算法从提取的任意若干个上述类型的特征中选取对断句的判断影响显著的特征构成特征向量,以作为训练样本的断句特征。
在本实施例中,是对离散特征(即只有0和1两种取值的特征)使用卡方检验的特征选择算法,对连续特征(即其取值范围是连续的)使用基于信息增益的特征选择算法。
例如确定是否选取离散特征“一句泰文句子结尾处单词的词性”时,假设100个样本中,有95%的样本在泰文句子结尾处单词的词性都是动词,则说明“一句泰文句子结尾处单词的词性”这个特征对断句的判断影响显著,但是如果在这100个样本中,泰文句子结尾处单词在各种词性上的分布是比较均匀的,则说明这个特征对断句的判断影响不够显著。
在标注单元101和特征确定单元102执行后,大量训练样本的X1,X2,......Xn和Y都得到了,这时通过训练单元103,对这些训练样本进行机器学习,就可以总结出泰文断句规则f。
本发明进一步还可包括一断句单元(图中未示出),用于利用总结的泰文断句规则对大量未知断句信息的泰文进行断句。例如对互联网上的泰文和英文的双语互译文本中的泰文进行断句,这样就能够从互联网上挖掘大量的双语句对,从而为进一步提高已有的机器翻译系统的准确性提供材料。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种获取泰文断句规则的方法,包括:
将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;
确定所述泰文训练样本的断句特征;
根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
2.根据权利要求1所述的方法,其特征在于,所述方法中根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。
3.根据权利要求1所述的方法,其特征在于,所述方法中根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
4.根据权利要求1所述的方法,其特征在于,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。
5.一种获取泰文断句规则的装置,包括:
标注单元,用于将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;
特征确定单元,用于确定所述泰文训练样本的断句特征;
训练单元,用于根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。
6.根据权利要求5所述的装置,其特征在于,所述标注单元根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。
7.根据权利要求5所述的装置,其特征在于,所述标注单元根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。
8.根据权利要求5所述的装置,其特征在于,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。
CN201310158470.6A 2013-05-02 2013-05-02 一种获取泰文断句规则的方法及装置 Active CN103268314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310158470.6A CN103268314B (zh) 2013-05-02 2013-05-02 一种获取泰文断句规则的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310158470.6A CN103268314B (zh) 2013-05-02 2013-05-02 一种获取泰文断句规则的方法及装置

Publications (2)

Publication Number Publication Date
CN103268314A CN103268314A (zh) 2013-08-28
CN103268314B true CN103268314B (zh) 2018-08-10

Family

ID=49011945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310158470.6A Active CN103268314B (zh) 2013-05-02 2013-05-02 一种获取泰文断句规则的方法及装置

Country Status (1)

Country Link
CN (1) CN103268314B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038152A (zh) * 2017-03-27 2017-08-11 成都优译信息技术股份有限公司 用于图纸排版的文本断句方法及系统
CN111401004B (zh) * 2020-03-28 2023-12-22 苏州机数芯微科技有限公司 一种基于机器学习的文章断句方法
CN112464644B (zh) * 2020-12-04 2024-03-29 北京中科凡语科技有限公司 自动断句模型建立方法及自动断句方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及系统
CN101256556A (zh) * 2008-03-17 2008-09-03 无敌科技(西安)有限公司 一种泰文数据检测方法
CN101788978A (zh) * 2009-12-30 2010-07-28 中国科学院自动化研究所 一种拼音和汉字相结合的汉外口语自动翻译方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271452B (zh) * 2007-03-21 2010-07-28 株式会社东芝 生成译文和机器翻译的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及系统
CN101256556A (zh) * 2008-03-17 2008-09-03 无敌科技(西安)有限公司 一种泰文数据检测方法
CN101788978A (zh) * 2009-12-30 2010-07-28 中国科学院自动化研究所 一种拼音和汉字相结合的汉外口语自动翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Feature-based Thai Word Segmentation;PRADIT MITTRAPIYANURUK 等;《The Fourth Symposium on Natural Language Processing 2000》;20000131;1-6 *
以序列标记方法解决古汉语断句问题;黄瀚萱;《国立交通大学机构典藏 国立交通大学 资讯科学与工程研究所 硕士论文》;20080630;第41-42页第3.3.2节 *
统计与规则相结合的藏文句子自动断句方法;徐涛 等;《云南大学学报(自然科学版)》;20121110;第34卷(第6期);653-657 *

Also Published As

Publication number Publication date
CN103268314A (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN108090400A (zh) 一种图像文本识别的方法和装置
US9323744B2 (en) Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration
Pennell et al. Normalization of text messages for text-to-speech
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及系统
WO2012068074A1 (en) Providing alternative translations
CN109213851B (zh) 对话系统中口语理解的跨语言迁移方法
CN112560510B (zh) 翻译模型训练方法、装置、设备及存储介质
CN108108349A (zh) 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN106297764A (zh) 一种多语种混语文本处理方法及系统
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN103268314B (zh) 一种获取泰文断句规则的方法及装置
CN111144140A (zh) 基于零次学习的中泰双语语料生成方法及装置
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
Wu et al. Adapting attention-based neural network to low-resource Mongolian-Chinese machine translation
WO2020036011A1 (ja) 情報処理装置、情報処理方法、および、プログラム
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法
CN104134081A (zh) 一种手写输入内容的拼读方法及装置
JP6249760B2 (ja) テキスト読み上げ装置
Nocon et al. NormAPI: An API for normalizing Filipino shortcut texts
Jansche et al. Named entity transcription with pair n-gram models
CN106815189B (zh) 一种汉语新动词识别方法
Keerthana et al. Tamil to Hindi Machine Transliteration Using Support Vector Machines
CN112270917B (zh) 一种语音合成方法、装置、电子设备及可读存储介质
CN104978311B (zh) 一种基于条件随机场的越南语分词方法
Хуснутдинов et al. Translation methods: prospects of skype translator

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant