CN106844353A - 一种可预测交互翻译方法 - Google Patents
一种可预测交互翻译方法 Download PDFInfo
- Publication number
- CN106844353A CN106844353A CN201611264585.3A CN201611264585A CN106844353A CN 106844353 A CN106844353 A CN 106844353A CN 201611264585 A CN201611264585 A CN 201611264585A CN 106844353 A CN106844353 A CN 106844353A
- Authority
- CN
- China
- Prior art keywords
- word
- translation
- interdependent
- matching result
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种可预测交互翻译方法,其特征是包括如下步骤:获取已有译文,对已有译文和用户译文进行分词、词性分析、依存句法分析,得到已有译文词序列,用户译文词序列,倒序遍历用户词序列中的词,与已有译文词序列进行匹配,若匹配结果大于1,则从已有译文中推荐词性相同的词的依存关联关系词;若匹配结果等于1,则从已有译文中推荐匹配结果的向后的依存关联关系词,直到倒序遍历结束;若匹配结果等于0,则分别分析用户译文词序列的词性序列,及已有译文词序列的词性序列,进行匹配,获取匹配结果,推荐匹配结果的后续词;优点是:能够根据用户输入预测后续词,便于提高翻译人员的工作效率,使全文翻译质量得到提高。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种可预测交互翻译方法。
背景技术
人工智能、机器学习领域的迅速发展,使机器翻译技术迅速成长,以google,bing,baidu,有道等互联网公司提供机器翻译,降低了我们翻译的成本。以机器翻译为草稿,人工在此基本上进行修改,从而得出完全正确的译文,已经在翻译工作中大幅应用。PE(Post-editing)即是一种辅助翻译策略,得出机器翻译译文,在此基础上修改;另外还有一种方式叫IMT(interactive-predictive machine translation ),这是根据译员输入词预测提示的方示与机器翻译进行互动,从而使全文翻译质量更好良好。目前的机器翻译方法,存在着推荐效率低,重复词、陌生词翻译难的问题。
发明内容
本发明所要解决的技术问题是根据用户输入词推荐更好质量的后续词语,并使用词性匹配,解决陌生词,重复词的问题;从而使全文翻译质量得到提高。
为解决上述技术问题,本发明提供了一种可预测交互翻译方法,其特征是包括如下步骤:
获取已有译文,对已有译文进行预处理,得到已有译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述已有译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
输入用户译文,对用户译文进行预处理,得到用户译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述用户译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
倒序遍历用户词序列中的词,与已有译文词序列进行匹配,
获取匹配结果,根据匹配结果推荐依存关联关系词或后续词,其中,
若匹配结果大于1,则从已有译文中推荐词性相同的词的依存关联关系词,
若匹配结果等于1,则从已有译文中推荐匹配结果的向后的依存关联关系词,
直到倒序遍历结束,若匹配结果等于0,则分别分析用户译文词序列的词性序列,及已有译文词序列的词性序列,进行匹配,获取匹配结果,推荐匹配结果的后续词。
进一步,所述已有译文是通过机器翻译获取到的译文。
进一步,所述依存句法分析是通过开源的依存句法分析工具进行。
采用上述技术方案,可达到以下效果:根据用户输入词推荐更好质量的后续词语,并使用词性匹配,解决陌生词,重复词的问题;能够提高翻译人员的工作效率,使全文翻译质量得到提高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种可预测交互翻译方法,如图1所示,
其特征是包括以下步骤:
获取已有译文,对已有译文进行预处理,得到已有译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述已有译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
输入用户译文,对用户译文进行预处理,得到用户译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述用户译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
倒序遍历用户词序列中的词,与已有译文词序列进行匹配,
获取匹配结果,根据匹配结果推荐依存关联关系词或后续词,其中,
若匹配结果大于1,则从已有译文中推荐词性相同的词的依存关联关系词,
若匹配结果等于1,则从已有译文中推荐匹配结果的向后的依存关联关系词,
直到倒序遍历结束,若匹配结果等于0,则分别分析用户译文词序列的词性序列,及已有译文词序列的词性序列,进行匹配,获取匹配结果,推荐匹配结果的后续词。
进一步,所述已有译文是通过机器翻译获取到的译文。
进一步,所述依存句法分析是通过开源的依存句法分析工具进行。
依存句法分析即句子成分间相互支配与被支配、依存与被依存的关系,存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,依存句法分析用于反映句子各成分之间的语义修饰关系,可以获得长距离的搭配信息,并与句子成分的物理位置无关。
依存句法分析工具:可以根据词汇和词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,生成依存句法分析器。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种可预测交互翻译方法,其特征是包括如下步骤:
获取已有译文,对已有译文进行预处理,得到已有译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述已有译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
输入用户译文,对用户译文进行预处理,得到用户译文词序列,
所述预处理包括分词、词性分析、依存句法分析,
所述用户译文词序列的元素结构包括顺序、id、词汇、词性、依存关联关系词的id、依存关系;
倒序遍历用户词序列中的词,与已有译文词序列进行匹配,
获取匹配结果,根据匹配结果推荐依存关联关系词或后续词,其中,
若匹配结果大于1,则从已有译文中推荐词性相同的词的依存关联关系词,
若匹配结果等于1,则从已有译文中推荐匹配结果的向后的依存关联关系词,
直到倒序遍历结束,若匹配结果等于0,则分别分析用户译文词序列的词性序列,及已有译文词序列的词性序列,进行匹配,获取匹配结果,推荐匹配结果的后续词。
2.根据权利要求1所述的可预测交互翻译方法,其特征是所述已有译文是通过机器翻译获取到的译文。
3.根据权利要求1所述的可预测交互翻译方法,其特征是所述依存句法分析是通过开源的依存句法分析工具进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264585.3A CN106844353B (zh) | 2016-12-30 | 2016-12-30 | 一种可预测交互翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264585.3A CN106844353B (zh) | 2016-12-30 | 2016-12-30 | 一种可预测交互翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844353A true CN106844353A (zh) | 2017-06-13 |
CN106844353B CN106844353B (zh) | 2020-05-08 |
Family
ID=59117047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611264585.3A Active CN106844353B (zh) | 2016-12-30 | 2016-12-30 | 一种可预测交互翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844353B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885737A (zh) * | 2017-12-27 | 2018-04-06 | 传神语联网网络科技股份有限公司 | 一种人机互动翻译方法及系统 |
CN110134971A (zh) * | 2018-02-08 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070041370A1 (en) * | 2005-07-15 | 2007-02-22 | Aaron Cleveland | System for Translating Electronic Communications |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102662935A (zh) * | 2012-04-08 | 2012-09-12 | 北京语智云帆科技有限公司 | 一种交互式的机器翻译方法和机器翻译系统 |
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
-
2016
- 2016-12-30 CN CN201611264585.3A patent/CN106844353B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070041370A1 (en) * | 2005-07-15 | 2007-02-22 | Aaron Cleveland | System for Translating Electronic Communications |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN102662935A (zh) * | 2012-04-08 | 2012-09-12 | 北京语智云帆科技有限公司 | 一种交互式的机器翻译方法和机器翻译系统 |
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
Non-Patent Citations (2)
Title |
---|
HIROSHI MARUYAMA: "An Interactive Japanese Parser for Machine Translation", 《COLING 1990 VOLUME 2:PAPERS PRESENTED TO THE 13TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 * |
刘群: "基于句法的统计机器翻译模型与方法", 《中文信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885737A (zh) * | 2017-12-27 | 2018-04-06 | 传神语联网网络科技股份有限公司 | 一种人机互动翻译方法及系统 |
CN107885737B (zh) * | 2017-12-27 | 2021-04-27 | 传神语联网网络科技股份有限公司 | 一种人机互动翻译方法及系统 |
CN110134971A (zh) * | 2018-02-08 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110134971B (zh) * | 2018-02-08 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
CN110717340B (zh) * | 2019-09-29 | 2023-11-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106844353B (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiampojamarn et al. | Joint processing and discriminative training for letter-to-phoneme conversion | |
Altintas et al. | A machine translation system between a pair of closely related languages | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
Tang et al. | Neural machine translation with external phrase memory | |
EP1482416A3 (en) | Trainable translator | |
CN109359304A (zh) | 限定性神经网络机器翻译方法及存储介质 | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 | |
CN106844353A (zh) | 一种可预测交互翻译方法 | |
Keet et al. | Toward verbalizing ontologies in isiZulu | |
Alqudsi et al. | A hybrid rules and statistical method for Arabic to English machine translation | |
Abiola et al. | A web-based English to Yoruba noun-phrases machine translation system | |
Bahrani et al. | Language input and second language acquisition | |
Keet et al. | Basics for a grammar engine to verbalize logical theories in isiZulu | |
Prasad et al. | Mining Training Data for Language Modeling Across the World's Languages. | |
Weissbrod | Philosophy of translation meets translation studies: Three Hebrew translations of Kipling’s “If” in light of Paul Ric ur’s “Third Text” and Gideon Toury’s “Adequate Translation” | |
Devi et al. | Steps of pre-processing for english to mizo smt system | |
Ahmed et al. | Rapid construction of a web-enabled medical speech to sign language translator using recorded video | |
Dickinson et al. | On grammaticality in the syntactic annotation of learner language | |
Neupane | Cultural translation of proverbs from Nepali into English | |
Farooq et al. | Phrase-based correction model for improving handwriting recognition accuracies | |
Haque et al. | Supertags as source language context in hierarchical phrase-based SMT | |
CN107526727B (zh) | 基于统计机器翻译的语言生成方法 | |
Rayner et al. | Handling ellipsis in a spoken medical phraselator | |
Ishaq et al. | A TEXTUAL ANALYSIS OF LINGUISTIC ADAPTATIONS IN THE URDU TRANSLATION OF SHAKESPEARE'S HAMLET: AN INQUIRY OF FAITHFULNESS | |
Mukesh et al. | Statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |