CN107967263A - 一种机器翻译数字泛化方法及系统、计算机、计算机程序 - Google Patents

一种机器翻译数字泛化方法及系统、计算机、计算机程序 Download PDF

Info

Publication number
CN107967263A
CN107967263A CN201711309873.0A CN201711309873A CN107967263A CN 107967263 A CN107967263 A CN 107967263A CN 201711309873 A CN201711309873 A CN 201711309873A CN 107967263 A CN107967263 A CN 107967263A
Authority
CN
China
Prior art keywords
extensive
translation
numeral
word
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711309873.0A
Other languages
English (en)
Inventor
贝超
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201711309873.0A priority Critical patent/CN107967263A/zh
Priority to US16/315,655 priority patent/US10929619B2/en
Priority to PCT/CN2017/115691 priority patent/WO2019113783A1/zh
Publication of CN107967263A publication Critical patent/CN107967263A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本发明属于计算机软件技术领域,公开了一种机器翻译数字泛化方法及系统、计算机、计算机程序,对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段;本发明只是改变了预处理以及后处理即可应用泛化技术,拓展了泛化技术在神经网络机器翻译中的应用,更好地适应了新的机器翻译模型结构。既可以更为准确地翻译含有数字的词或者短语,又可以把词表中的数字替换为泛化标签,降低了词表大小,提高了神经网络模型训练效率。

Description

一种机器翻译数字泛化方法及系统、计算机、计算机程序
技术领域
本发明属于计算机软件技术领域,尤其涉及一种机器翻译数字泛化方法及系统、计算机、计算机程序。
背景技术
机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,涉及认知科学、语言学等学科,是人工智能的终极目标之一。不同于基于短语的统计机器翻译,现有机器翻译主要是基于注意力机制的编码到解码结构的神经网络机器翻译。神经网络机器翻译的缺点为对内容难以控制,很难再对模型的输出进行人为的调控。其中最为明显的问题就在于,数字翻译错误,即原文与译文的数字不一致或者漏译多译。然而,很难在模型中控制对于数字翻译问题,对于译文,也很难进行后处理来弥补错误。因此,要避免这简单的数字翻译问题,进一步提高翻译质量,是个急需解决但不好解决的问题。数字泛化技术在神经网络机器翻译中,既无法指定标签不翻译,也不能指定替换为原文,这是由神经网络模型的可控程度差导致的。
综上所述,现有技术存在的问题是:目前的神经网络模型存在内容难以控制,很难再对模型的输出进行人为的调控,原文与译文的数字不一致或者漏译多译的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种机器翻译数字泛化方法及系统、计算机、计算机程序。
本发明是这样实现的,一种机器翻译数字泛化方法,所述机器翻译数字泛化方法包括:对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段;
进一步,所述训练阶段包括:
(1)对语料使用基于隐马尔科夫模型的分词算法,正常的分词,根据不同的语言使用正则表达式找到含有数字的词或者短语;
(2)词对齐,统计双语语料中共现词对频率,找到含有数字的词或者短语所对应的翻译,并替换为数字标签;
(3)已经替换为数字泛化标签的语料正常训练。
进一步,所述翻译阶段具体包括:
(1)对原文分词找到含有数字的词或者短语,替换为数字泛化标签;
(2)泛化后的语料训练的神经网络模型,对已泛化处理的原文进行翻译;
(3)得到译文后,通过神经网络模型中的注意力信息,找到译文中数字泛化标签所对应的原文,根据训练阶段使用词对齐工具得到的词对信息,把数字泛化标签替换为译文,得到最后的译文。
本发明的另一目的在于提供一种所述机器翻译数字泛化方法的机器翻译数字泛化系统,所述机器翻译数字泛化系统包括:
训练模块,用于对训练语料进行特殊的处理;
翻译模块,用于把翻译得到的译文中的泛化标签替换为正常的译文。
所述训练模块进一步包括:
第一找词单元,用于找到含有数字的词或者短语;
第一替换单元,用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文;
训练单元,用于替换数字泛化标签的语料正常训练。
所述翻译模块进一步包括:
第二找词单元,用于对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,与训练语料的格式一致;
第二替换单元,用于对已泛化处理的原文进行翻译;
替换译文单元,用于替换译文中的数字泛化标签,得到正常的译文。
本发明的另一目的在于提供一种实现所述机器翻译数字泛化方法的计算机程序。
本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的机器翻译数字泛化方法。
本发明拓展了泛化技术在神经网络机器翻译中的应用,基于短语的统计机器翻译中,可直接干预模型,而神经网络模型却无法使用相同的策略。针对神经网络模型较难人为干预的情况,在不改变神经网络机器翻译模型的前提下,只是改变了预处理以及后处理即可应用泛化技术,拓展了泛化技术在神经网络机器翻译中的应用,更好地适应了新的机器翻译模型结构。既可以更为准确地翻译含有数字的词或者短语,又可以把词表中的数字替换为泛化标签,降低了词表大小,提高了神经网络模型训练效率。
附图说明
图1是本发明实施例提供的机器翻译数字泛化方法流程图。
图2是本发明实施例提供的机器翻译数字泛化系统结构示意图;
图中:1、训练模块;1-1、第一找词单元;1-2、第一替换单元;1-3、训练单元;2、翻译模块;2-1、第二找词单元;2-2、第二替换单元;2-3、替换译文单元。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的数字泛化可以简单却有效地缓解这样的问题,既可更为准确地翻译数字的词或者短语,也可以减少词表大小,使得词表中的数字均替换为泛化标签,提高了训练的效率。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的机器翻译数字泛化方法包括以下步骤:
S101:训练阶段,分词后找词;对齐并替换为标签;正常训练;
S102:翻译阶段,找词;替换标签为标签并翻译;把标签替换回译文。
如图2所示,本发明实施例提供的机器翻译数字泛化系统包括:
训练模块1,用于对训练语料进行特殊的处理;
翻译模块2,用于把翻译得到的译文中的泛化标签替换为正常的译文。
训练模块1进一步包括:
第一找词单元1-1,用于找到含有数字的词或者短语。
第一替换单元1-2,用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文。
训练单元1-3,用于替换数字泛化标签的语料正常训练。
翻译模块2进一步包括:
第二找词单元2-1,用于对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,与训练语料的格式一致。
第二替换单元2-2,用于对已泛化处理的原文进行翻译。
替换译文单元2-3,用于替换译文中的数字泛化标签,得到正常的译文。
下面结合具体实施例对本发明的应用原理作进一步的描述。
本发明实施例提供的机器翻译数字泛化方法包括以下步骤:
对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;
把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段;
所述训练阶段包括:首先进行分词后找词;其次对齐并替换为标签;最后,正常训练;
所述翻译阶段包括:首先进行分词后找词;然后替换标签为标签并翻译;最后把标签替换回译文。
进一步,所述训练阶段具体包括:
首先,对语料使用基于隐马尔科夫模型的分词算法,进行正常的分词,并且根据不同的语言特点,使用正则表达式找到含有数字的词或者短语;这一步主要是找到含有数字的词或者短语,为后一步的词对齐做准备。
然后使用对齐工具进行词对齐,统计双语语料中共现词对频率,找到含有数字的词或者短语所对应的翻译,并替换为数字标签;其中,含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文。
最后使用已经替换为数字泛化标签的语料进行正常训练。
进一步,所述翻译阶段具体包括:
首先对原文进行分词并使用正则表达式找到含有数字的词或者短语,替换为数字泛化标签;这一步与训练阶段的第一步是类似的,同样对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,做到与训练语料的格式一致。
使用由泛化后的语料训练的神经网络模型,对已泛化处理的原文进行翻译;
得到译文后,通过神经网络模型中的注意力信息,找到译文中数字泛化标签所对应的原文,再根据训练阶段使用词对齐工具得到的词对信息,把数字泛化标签替换为译文,即可得到最后的译文。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种机器翻译数字泛化方法,其特征在于,所述机器翻译数字泛化方法包括:对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段。
2.如权利要求1所述的机器翻译数字泛化方法,其特征在于,所述训练阶段包括:
(1)对语料使用基于隐马尔科夫模型的分词算法,正常的分词,根据不同的语言使用正则表达式找到含有数字的词或者短语;
(2)词对齐,统计双语语料中共现词对频率,找到含有数字的词或者短语所对应的翻译,并替换为数字标签;
(3)已经替换为数字泛化标签的语料正常训练。
3.如权利要求1所述的机器翻译数字泛化方法,其特征在于,所述翻译阶段具体包括:
(1)对原文分词找到含有数字的词或者短语,替换为数字泛化标签;
(2)泛化后的语料训练的神经网络模型,对已泛化处理的原文进行翻译;
(3)得到译文后,通过神经网络模型中的注意力信息,找到译文中数字泛化标签所对应的原文,根据训练阶段使用词对齐工具得到的词对信息,把数字泛化标签替换为译文,得到最后的译文。
4.一种如权利要求1所述机器翻译数字泛化方法的机器翻译数字泛化系统,其特征在于,所述机器翻译数字泛化系统包括:
训练模块,用于对训练语料进行特殊的处理;
翻译模块,用于把翻译得到的译文中的泛化标签替换为正常的译文。
5.如权利要求4所述的机器翻译数字泛化系统,其特征在于,所述训练模块进一步包括:
第一找词单元,用于找到含有数字的词或者短语;
第一替换单元,用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文;
训练单元,用于替换数字泛化标签的语料正常训练。
6.如权利要求4所述的机器翻译数字泛化系统,其特征在于,所述翻译模块进一步包括:
第二找词单元,用于对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,与训练语料的格式一致;
第二替换单元,用于对已泛化处理的原文进行翻译;
替换译文单元,用于替换译文中的数字泛化标签,得到正常的译文。
7.一种实现权利要求1~3任意一项所述机器翻译数字泛化方法的计算机程序。
8.一种搭载有权利要求7所述计算机程序的计算机。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~3任意一项所述的机器翻译数字泛化方法。
CN201711309873.0A 2017-12-11 2017-12-11 一种机器翻译数字泛化方法及系统、计算机、计算机程序 Pending CN107967263A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711309873.0A CN107967263A (zh) 2017-12-11 2017-12-11 一种机器翻译数字泛化方法及系统、计算机、计算机程序
US16/315,655 US10929619B2 (en) 2017-12-11 2017-12-12 Numerical generalization method for machine translation and system, computer and computer program thereof
PCT/CN2017/115691 WO2019113783A1 (zh) 2017-12-11 2017-12-12 一种机器翻译数字泛化方法及系统、计算机、计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711309873.0A CN107967263A (zh) 2017-12-11 2017-12-11 一种机器翻译数字泛化方法及系统、计算机、计算机程序

Publications (1)

Publication Number Publication Date
CN107967263A true CN107967263A (zh) 2018-04-27

Family

ID=61999626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711309873.0A Pending CN107967263A (zh) 2017-12-11 2017-12-11 一种机器翻译数字泛化方法及系统、计算机、计算机程序

Country Status (3)

Country Link
US (1) US10929619B2 (zh)
CN (1) CN107967263A (zh)
WO (1) WO2019113783A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109871550A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN109902314A (zh) * 2019-04-18 2019-06-18 中译语通科技股份有限公司 一种术语的翻译方法和装置
CN110765792A (zh) * 2019-11-01 2020-02-07 北京中献电子技术开发有限公司 基于词类别的神经网络机器翻译方法及系统、训练方法
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN113255337A (zh) * 2021-05-21 2021-08-13 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11466554B2 (en) * 2018-03-20 2022-10-11 QRI Group, LLC Data-driven methods and systems for improving oil and gas drilling and completion processes
US11506052B1 (en) 2018-06-26 2022-11-22 QRI Group, LLC Framework and interface for assessing reservoir management competency
CN115130481A (zh) * 2022-06-16 2022-09-30 京东科技信息技术有限公司 一种模型训练、机器翻译方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412513B2 (en) * 2006-10-10 2013-04-02 Abbyy Software Ltd. Deep model statistics method for machine translation
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4419871B2 (ja) * 2005-03-02 2010-02-24 富士ゼロックス株式会社 翻訳依頼装置およびプログラム
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
US10133739B2 (en) * 2014-10-24 2018-11-20 Google Llc Neural machine translation systems with rare word processing
CN105068998B (zh) * 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN106815215B (zh) * 2015-11-30 2019-11-26 华为技术有限公司 生成标注库的方法和装置
CN109074242A (zh) * 2016-05-06 2018-12-21 电子湾有限公司 在神经机器翻译中使用元信息
US10769387B2 (en) * 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412513B2 (en) * 2006-10-10 2013-04-02 Abbyy Software Ltd. Deep model statistics method for machine translation
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宋楷: "基于判别式模型的树到树统计机器翻译", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李亚超等: "藏汉神经网络机器翻译研究", 《中文信息学报》 *
李婧萱: "基于深度神经网络的统计机器翻译模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109558599B (zh) * 2018-11-07 2023-04-18 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109871550A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN109871550B (zh) * 2019-01-31 2022-11-22 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN111563387B (zh) * 2019-02-12 2023-05-02 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN109902314A (zh) * 2019-04-18 2019-06-18 中译语通科技股份有限公司 一种术语的翻译方法和装置
CN109902314B (zh) * 2019-04-18 2023-11-24 中译语通科技股份有限公司 一种术语的翻译方法和装置
CN110765792A (zh) * 2019-11-01 2020-02-07 北京中献电子技术开发有限公司 基于词类别的神经网络机器翻译方法及系统、训练方法
CN111178088A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN111178088B (zh) * 2019-12-20 2023-06-02 沈阳雅译网络技术有限公司 一种面向xml文档的可配置神经机器翻译方法
CN112417897A (zh) * 2020-11-30 2021-02-26 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN113255337A (zh) * 2021-05-21 2021-08-13 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质
CN113255337B (zh) * 2021-05-21 2024-02-02 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质

Also Published As

Publication number Publication date
US10929619B2 (en) 2021-02-23
WO2019113783A1 (zh) 2019-06-20
US20200302125A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
CN107967263A (zh) 一种机器翻译数字泛化方法及系统、计算机、计算机程序
CN108563640A (zh) 一种多语言对的神经网络机器翻译方法及系统
AU2019207309C1 (en) Identifying entities in electronic medical records
US20200410396A1 (en) Implicit bridging of machine learning tasks
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
US11544472B2 (en) Structured adversarial, training for natural language machine learning tasks
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN108549646A (zh) 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端
CN108132932B (zh) 带有复制机制的神经机器翻译方法
US10664659B2 (en) Method for modifying segmentation model based on artificial intelligence, device and storage medium
Wu et al. Finding better subword segmentation for neural machine translation
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
CN109213851B (zh) 对话系统中口语理解的跨语言迁移方法
CN111832307A (zh) 一种基于知识增强的实体关系抽取方法及系统
Li et al. Neural name translation improves neural machine translation
CN116187282B (zh) 文本复述模型的训练方法、文本复述方法及装置
CN114118022A (zh) 文本表示方法、装置、电子设备与存储介质
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN114398943B (zh) 样本增强方法及其装置
CN103914447B (zh) 信息处理设备和信息处理方法
CN110008807A (zh) 一种合同内容识别模型的训练方法、装置及设备
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN116150613A (zh) 信息抽取模型训练方法、信息抽取方法及装置
CN115204142A (zh) 开放关系抽取方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180427

RJ01 Rejection of invention patent application after publication