CN107608955B - 一种汉藏命名实体互译方法及装置 - Google Patents

一种汉藏命名实体互译方法及装置 Download PDF

Info

Publication number
CN107608955B
CN107608955B CN201710772174.3A CN201710772174A CN107608955B CN 107608955 B CN107608955 B CN 107608955B CN 201710772174 A CN201710772174 A CN 201710772174A CN 107608955 B CN107608955 B CN 107608955B
Authority
CN
China
Prior art keywords
named entity
word
words
translation
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710772174.3A
Other languages
English (en)
Other versions
CN107608955A (zh
Inventor
张国喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710772174.3A priority Critical patent/CN107608955B/zh
Publication of CN107608955A publication Critical patent/CN107608955A/zh
Application granted granted Critical
Publication of CN107608955B publication Critical patent/CN107608955B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种汉藏命名实体互译方法及装置,通过建立汉藏对照命名实体数据库,为每一个不同的命名实体分配唯一一个对应的翻译用词,实现汉藏互译过程中中文命名实体与藏文命名实体之间的一一对应,以提高机器翻译的准确度,以及在还原时的准确性。

Description

一种汉藏命名实体互译方法及装置
技术领域
本发明涉及语言翻译技术领域,具体涉及一种汉藏命名实体互译方法及装置。
背景技术
随着计算机网络平台的发展,信息传递成为人们生活工作中的非常重要的内容,机器翻译也随之发展起来,但是翻译的准确率成为人们广泛使用机器翻译系统的一个主要的瓶颈,特别是汉藏机器翻译中命名实体没有统一的翻译标准,加之命名实体当用普通汉字时一字不同音、同音不同字以及一字具有多重词性的现象普遍存在,以前采取的翻译方法是将具有一字不同音,同音不同字以及一字具有多重词性的命名实体按照意译或者音译译成同一个汉字或同一个藏文字,这对机器翻译的准确性是十分不利的,而且当需要将译文还原成源语料时,现有的翻译方法几乎不可能实现准确还原。
发明内容
本发明针对现有技术中的技术问题,提供一种汉藏命名实体互译方法及装置,通过建立汉藏对照命名实体数据库,以提高机器翻译的准确度。
本发明解决上述技术问题的技术方案如下:
一方面,本发明提供一种汉藏命名实体互译方法,包括以下步骤:
S1,获取待翻译的命名实体;
S2,根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词,否则执行步骤S3;
S3,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词。
本发明的有益效果是:命名实体对包括命名实体及其唯一对应的翻译用词,通过命名实体对可以实现汉藏命名实体的一一对应,当出现同音不同字的情况时,同样选取同音不同字的翻译用词对命名实体进行翻译,有效解决了译词混乱的现象。上述发明方法,填补和完成藏汉命名实体库的空白和建设,规范命名实体的翻译标准,制定人名用词一一对应标准,以提高机器翻译的准确度,并为汉藏互译时还原原译打下基础,再通过语料库统计分析完成命名实体的词性标注和规则制定,使机器翻译准确率达到98%以上。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述获取待翻译的命名实体包括:获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。
采用上述进一步方案的有益效果是实现了对语料的进行快速、有效地切分,切分准确性高,提高了藏汉翻译处理的速度和正确性。
进一步,所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序。
采用上述进一步方案的有益效果是,根据读音对中文命名用词和藏文命名用词进行分组排序,可以有效缩短翻译用词查找的时间,提高翻译效率;对每一组中包含的多个同音命名用词,根据各命名用词在对应语种中的使用频率,进行二次排序,可以降低生僻字词的使用,提高使用者的体验效果,降低用户的阅读难度。
进一步,所述步骤S3,包括:
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中。
采用上述进一步方案的有益效果是查询配对情况并选择未配对且使用频率最高的命名用词作为所述语料中的命名实体的翻译用词,实现命名实体与翻译用词的一一对应,避免了一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况。
进一步,若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
采用上述进一步方案的有益效果是避免可能存在的由于可用作翻译用词的命名用词较少,而导致的一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况,进一步保证汉藏互译时,命名实体的一一对应。
另一方面,本发明提供一种汉藏命名实体互译装置,包括
命名实体获取模块,用于获取待翻译的命名实体;
翻译用词获取模块,用于根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词;
命名实体对写入模块,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词。
本发明的有益效果是:命名实体对包括命名实体及其唯一对应的翻译用词,通过命名实体对可以实现汉藏命名实体的一一对应,当出现同音不同字的情况时,同样选取同音不同字的翻译用词对命名实体进行翻译,有效解决了译词混乱的现象。上述发明方法,填补和完成藏汉命名实体库的空白和建设,规范命名实体的翻译标准,制定人名用词一一对应标准,以提高机器翻译的准确度,并为汉藏互译时还原原译打下基础,再通过语料库统计分析完成命名实体的词性标注和规则制定,使机器翻译准确率达到98%以上。
进一步,所述命名实体获取模块,用于获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。实现了对语料的进行快速、有效地切分,切分准确性高,提高了藏汉翻译处理的速度和正确性。
进一步,所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序。
首先根据读音对中文命名用词和藏文命名用词进行分组排序,可以有效缩短翻译用词查找的时间,提高翻译效率;对每一组中包含的多个同音命名用词,根据各命名用词在对应语种中的使用频率,进行二次排序,可以降低生僻字词的使用,提高使用者的体验效果,降低用户的阅读难度。
进一步,所述命名实体对写入模块,具体用于:
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中。
查询配对情况并选择未配对且使用频率最高的命名用词作为所述语料中的命名实体的翻译用词,实现命名实体与翻译用词的一一对应,避免了一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况。
进一步,所述命名实体对写入模块,还用于:若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
避免可能存在的由于可用作翻译用词的命名用词较少,而导致的具有相同读音的不同字的中文在翻译成藏文时翻译成同一个字,造成译文无法还原成原文的情况,进一步保证汉藏互译时,命名实体的一一对应。
附图说明
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的装置结构图;
具体实施方式
以下结合实例对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的方法流程图。如图1所示,一种汉藏命名实体互译方法,包括以下步骤:
S1,获取待翻译的命名实体;
S2,根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词,否则执行步骤S3;
S3,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词。
上述实施例中,命名实体对包括命名实体及其唯一对应的翻译用词,通过命名实体对可以实现汉藏命名实体的一一对应,当出现同音不同字的情况时,同样选取同音不同字的翻译用词对命名实体进行翻译,有效解决了译词混乱的现象。上述发明方法,填补和完成藏汉命名实体库的空白和建设,规范命名实体的翻译标准,制定人名用词一一对应标准,以提高机器翻译的准确度,并为汉藏互译时还原原译打下基础,再通过语料库统计分析完成命名实体的词性标注和规则制定,使机器翻译准确率达到98%以上。
优选地,在上述实施例的基础上,所述获取待翻译的命名实体包括:获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。
通过该优选实施例,实现了对语料的进行快速、有效地切分,切分准确性高,提高了藏汉翻译处理的速度和正确性。
优选地,在上述实施例的基础上,所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序。
上述实施例中,根据读音对备选翻译用词进行分组排序,可以有效缩短翻译用词查找的时间,提高翻译效率;对每一组中包含的多个同音备选翻译用词,根据各备选翻译用词在对应语种中的使用频率,进行二次排序,可以降低生僻字词的使用,提高使用者的体验效果,降低用户的阅读难度。
在上述实施例的基础上,所述步骤S3,包括:
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中。
在上述实施例中,查询配对情况并选择未配对且使用频率最高的命名用词作为所述语料中的命名实体的翻译用词,实现命名实体与翻译用词的一一对应,避免了一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况。
进一步的,在上述实施例的基础上,若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
避免可能存在的由于可用作翻译用词的命名用词较少,而导致的一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况,进一步保证汉藏互译时,命名实体的一一对应。
另一方面,本发明提供一种汉藏命名实体互译装置,如图2所示,包括:
命名实体获取模块,用于获取待翻译的命名实体;
翻译用词获取模块,用于根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词;
命名实体对写入模块,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词。
上述实施例中,命名实体对包括命名实体及其唯一对应的翻译用词,通过命名实体对可以实现汉藏命名实体的一一对应,当出现同音不同字的情况时,同样选取同音不同字的翻译用词对命名实体进行翻译,有效解决了译词混乱的现象。上述发明方法,填补和完成藏汉命名实体库的空白和建设,规范命名实体的翻译标准,制定人名用词一一对应标准,以提高机器翻译的准确度,并为汉藏互译时还原原译打下基础,再通过语料库统计分析完成命名实体的词性标注和规则制定,使机器翻译准确率达到98%以上。
具体的,所述命名实体获取模块,用于获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。实现了对语料的进行快速、有效地切分,切分准确性高,提高了藏汉翻译处理的速度和正确性。
在上述实施例的基础上,所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序。
根据读音对备选翻译用词进行分组排序,可以有效缩短翻译用词查找的时间,提高翻译效率;对每一组中包含的多个同音备选翻译用词,根据各备选翻译用词在对应语种中的使用频率,进行二次排序,可以降低生僻字词的使用,提高使用者的体验效果,降低用户的阅读难度。
在上述实施例的基础上,所述命名实体对写入模块,具体用于:
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中。
上述实施例中,查询配对情况并选择未配对且使用频率最高的命名用词作为所述语料中的命名实体的翻译用词,实现命名实体与翻译用词的一一对应,避免了一音多字的中文在翻译成藏文时均翻译成一个词,造成译文无法还原成原文的情况。
在上述实施例的基础上,若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
避免可能存在的由于可用作翻译用词的命名用词较少,而导致的具有相同读音的不同字的中文在翻译成藏文时翻译成同一个字,造成译文无法还原成原文的情况,进一步保证汉藏互译时,命名实体的一一对应。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种汉藏命名实体互译方法,其特征在于,包括以下步骤:
S1,获取待翻译的命名实体;
S2,根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词,否则执行步骤S3;
S3,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词;
所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序;
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
2.根据权利要求1所述的一种汉藏命名实体互译方法,其特征在于,所述获取待翻译的命名实体包括:获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。
3.一种汉藏命名实体互译装置,其特征在于,包括:
命名实体获取模块,用于获取待翻译的命名实体;
翻译用词获取模块,用于根据所述命名实体查找预先建立的命名实体库,判断所述命名实体库中是否存在与所述命名实体匹配的命名实体对,若存在,则根据所述命名实体对获取与所述命名实体对应的翻译用词;
命名实体对写入模块,根据所述命名实体的读音在预先建立的标准用词数据库中查找与所述命名实体的读音相同的所有备选翻译用词,选取其中一个未配对的备选翻译用词作为所述命名实体的翻译用词,并将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
其中,所述命名实体库用于存储命名实体对,所述命名实体对包括命名实体及其唯一对应的翻译用词;
所述标准用词数据库用于存储中文命名标准用词和藏文命名标准用词;若待翻译的命名实体为汉语,则在所述标准用词数据库中存储的藏文命名标准用词中查找所述命名实体的备选翻译用词,若待翻译的命名实体为藏语则在所述标准用词数据库中存储的汉语命名标准用词中查找所述命名实体的备选翻译用词;
所述标准用词数据库中根据读音分别将所述命名标准用词进行分组,并按照汉语发音进行排序,若分组中包含多个同音的命名标准用词,则根据各个命名标准用词在对应语种中的使用频率进行二次排序;
所述命名实体对写入模块,具体用于:
根据所述命名实体的读音在标准用词数据库中查找该读音对应的备选翻译用词;
按照所述备选翻译用词在分组中的排序,依次查询各备选翻译用词的配对情况;
若分组中存在未配对的备选翻译用词,则选择未配对且使用频率最高的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对,存入命名实体库中;
所述命名实体对写入模块,还用于:若分组中的备选翻译用词均已配对,则对分组中使用频率最高的备选翻译用词进行标注,并将标注后的备选翻译用词作为所述命名实体的翻译用词,将所述命名实体与所述翻译用词组成命名实体对存入命名实体库。
4.根据权利要求3所述的一种汉藏命名实体互译装置,其特征在于,所述命名实体获取模块,用于获取待翻译语料,根据所述待翻译语料所在语种的语法规则及词性规则对所述待翻译语料进行切分,得到所述待翻译的命名实体。
CN201710772174.3A 2017-08-31 2017-08-31 一种汉藏命名实体互译方法及装置 Expired - Fee Related CN107608955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710772174.3A CN107608955B (zh) 2017-08-31 2017-08-31 一种汉藏命名实体互译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710772174.3A CN107608955B (zh) 2017-08-31 2017-08-31 一种汉藏命名实体互译方法及装置

Publications (2)

Publication Number Publication Date
CN107608955A CN107608955A (zh) 2018-01-19
CN107608955B true CN107608955B (zh) 2021-02-09

Family

ID=61057064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710772174.3A Expired - Fee Related CN107608955B (zh) 2017-08-31 2017-08-31 一种汉藏命名实体互译方法及装置

Country Status (1)

Country Link
CN (1) CN107608955B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268447B (zh) * 2018-01-22 2020-12-01 河海大学 一种藏文命名实体的标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置

Also Published As

Publication number Publication date
CN107608955A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
Creutz et al. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0
CN105718586B (zh) 分词的方法及装置
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
RU2004129675A (ru) Система для идентификации перефразирования с использованием технологии машинного перевода
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN110377882B (zh) 用于确定文本的拼音的方法、装置、系统和存储介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
JP5502814B2 (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
CN107748744A (zh) 一种勾勒框知识库的建立方法及装置
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
Li et al. Improving text normalization using character-blocks based models and system combination
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN116629266A (zh) 面向小样本的文本命名实体识别方法
CN114254658A (zh) 翻译评测训练数据的生成方法及装置、设备和存储介质
CN107608955B (zh) 一种汉藏命名实体互译方法及装置
CN105653516B (zh) 平行语料对齐的方法和装置
CN104050156A (zh) 用于提取最大名词短语的装置、方法以及电子设备
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
KR102440193B1 (ko) 자연어 분류 신경망의 훈련 데이터를 증강하는 방법
CN107679037B (zh) 一种基于词频的数字出版物词汇抽取方法
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
CN111651976B (zh) 姓名播报方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210209

CF01 Termination of patent right due to non-payment of annual fee