CN107193807A - 基于人工智能的语言转换处理方法、装置及终端 - Google Patents

基于人工智能的语言转换处理方法、装置及终端 Download PDF

Info

Publication number
CN107193807A
CN107193807A CN201710336033.7A CN201710336033A CN107193807A CN 107193807 A CN107193807 A CN 107193807A CN 201710336033 A CN201710336033 A CN 201710336033A CN 107193807 A CN107193807 A CN 107193807A
Authority
CN
China
Prior art keywords
word
language
sentence
candidate
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710336033.7A
Other languages
English (en)
Other versions
CN107193807B (zh
Inventor
赵世奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710336033.7A priority Critical patent/CN107193807B/zh
Publication of CN107193807A publication Critical patent/CN107193807A/zh
Priority to US15/854,058 priority patent/US10664666B2/en
Application granted granted Critical
Publication of CN107193807B publication Critical patent/CN107193807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提出一种基于人工智能的语言转换处理方法、装置及终端,其中,该方法包括:接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;根据预设的规则,确定与所述源语言词语对应的各候选词语;确定所述各候选词语,分别在所述待转换的语句中对应的各分值;根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。

Description

基于人工智能的语言转换处理方法、装置及终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于人工智能的语言转换处理方法、装置及终端。
背景技术
人工智能(Artificial Intelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
通常,用户在进行外语写作时,会遇到整句中的大部分知道如何翻译,但个别词语不知如何翻译的困扰。例如,用户想要用英文表达“本文提出了一种将统计机器翻译和神经网络机器翻译相结合的新方法”时,知道该句子基本写法为“This paper proposes anovel method that结合statistical machine translation and neural machinetranslation”,但是,不知道“结合”用哪个英文词最恰当。
现有技术,需要用户利用词典,查询整个待翻译语句中的个别词语;或者,使用机器翻译工具,对整个待翻译语句进行翻译。然而,通过个别词语翻译的方式,得到的翻译结果可能为多个不同的结果,需要用户从多个翻译结果中,分析辨识出最符合上下文语境的目标词语;通过整句翻译的方式,得到的翻译结果可能存在语序或句式不正确等问题,需要用户通过分析确定最终结果。因此,现有的语言转换处理方法,用户操作复杂,效率低,无法直接为用户提供准确的转换结果,并不能满足用户的需求,用户体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的语言转换处理方法,该方法实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
本发明的第二个目的在于提出一种基于人工智能的语言转换处理装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的语言转换处理方法,包括:接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;根据预设的规则,确定与所述源语言词语对应的各候选词语;确定所述各候选词语,分别在所述待转换的语句中对应的各分值;根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。
本发明实施例的基于人工智能的语言转换处理方法,首先根据接收到的语言转换请求,然后根据预设的规则,确定与源语言词语对应的各候选词语,再确定各候选词语分别在待转换的语句中对应的各分值,最后根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。由此,通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的语言转换处理装置,包括:接收模块,用于接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;第一确定模块,用于根据预设的规则,确定与所述源语言词语对应的各候选词语;第二确定模块,用于确定所述各候选词语,分别在所述待转换的语句中对应的各分值;第三确定模块,用于根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。
本发明实施例的基于人工智能的语言转换处理装置,首先根据接收到的语言转换请求,然后根据预设的规则,确定与源语言词语对应的各候选词语,再确定各候选词语分别在待转换的语句中对应的各分值,最后根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。由此,通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时实现如第一方面所述的基于人工智能的语言转换处理方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执如第一方面所述的基于人工智能的语言转换处理方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如第一方面所述的基于人工智能的语言转换处理方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于人工智能的语言转换处理方法的流程图;
图2是本发明一个实施例的确定各候选词语,分别在待转换的语句中对应的各分值的方法的流程图;
图3是本发明CBOW模型的结构示意图;
图4是本发明一个实施例的基于人工智能的语言转换处理装置的结构示意图;
图5是本发明另一个实施例的基于人工智能的语言转换处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
可以理解的是,用户在进行外语写作时,可能会遇到的整句中的大部分知道如何翻译,但个别词语不知如何翻译的困扰。现有技术,需要用户利用词典查询整个待翻译语句中的个别词语,或者使用机器翻译工具,对整个待翻译语句进行翻译,用户操作复杂,效率低,无法直接为用户提供准确的转换结果,得到的翻译结果不能满足用户需求,用户体验差。
具体的,本发明各实施例针对上述问题,提出一种基于人工智能的语言转换处理方法。本发明实施例提供的基于人工智能的语言转换处理方法,首先根据接收到的语言转换请求,确定与源语言词语对应的各候选词语,然后确定各候选词语分别在待转换的语句中对应的各分值,再根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
下面参考附图描述本发明实施例的基于人工智能的语言转换处理方法、装置及终端。
图1是本发明一个实施例的基于人工智能的语言转换处理方法的流程图。
如图1所示,该基于人工智能的语言转换处理方法包括:
步骤101,接收语言转换请求,请求中包括待转换的语句,且待转换的语句中包括源语言词语及目标语言词语。
其中,本发明实施例提供的基于人工智能的语言转换处理方法的执行主体为本发明实施例提供的基于人工智能的语言转换处理装置,该装置可以被配置在任何终端中,以提高语言转换的质量,改善语言转换效果。
具体实现时,可以在基于人工智能的语言转换处理装置中,设置用户输入界面,从而用户在进行外语写作时,若遇到整句中的大部分知道如何翻译,但个别词语不知如何翻译的困扰,可以在基于人工智能的语言转换处理装置的用户输入界面中,输入待转换的语句。其中,用户输入的待转换的语句中包括源语言词语及目标语言词语。即,用户可以将自己翻译的大部分结果与个别不知如何翻译的词语同时输入到用户输入界面。
其中,源语言词语指待转换的源语言类型的词语。
目标语言词语指用户翻译成的目标语言类型的词语。
例如,用户想要将中文形式的“本文提出了一种将统计机器翻译和神经网络机器翻译相结合的新方法”用英文进行表达时,知道该句子基本写法为“This paper proposesa novel method that结合statistical machine translation and neural machinetranslation”,但是,不知道“结合”用哪个英文词语最恰当。则用户可以将待转换的语句“This paper proposes a novel method that结合statistical machine translationand neural machine translation”输入到基于人工智能的语言转换处理装置的用户输入界面。其中,“结合”即为待转换的语句中的源语言词语,其它英文词即为待转换的语句中的目标语言词语。
具体实现时,为了保证语言转换的速度及质量,待转换的语句中包括的源语言词语不能过多。因此,在本发明实施例中,待转换的语句中,源语言词语与目标语言词语应具有一定的比例,且该比例小于第一阈值。
其中,第一阈值,可以根据需要进行确定。比如,为了保证语言转换的速度及质量,第一阈值可以设置为较小的数,如40%。即,待转换的语句中包括14个词语时,源语言词语的数量应小于4个。
另外,用户在基于人工智能的语言转换处理装置的用于界面中,输入待转换的语句时,可以设置源语言类型与目标语言类型,从而使基于人工智能的语言转换处理装置接收到语言转换请求后,可以将待转换的语句中,与源语言类型和目标语言类型分别对应的词语,确定为源语言词语和目标语言词语。
或者,基于人工智能的语言转换处理装置接收到语言转换请求后,也可以根据语言转换请求中,待转换的语句包括的各类型语言的词语数量,确定源语言词语及目标语言词语。
由于通常情况下,为了保证语言转换的速度及质量,待转换的语句中,源语言词语的数量小于目标语言词语的数量。因此,在本发明实施例中,可以将待转换的语句中,词语数量较少的语言类型对应的词语确定为源语言词语,将词语数量较多的语言类型对应的词语确定为目标语言词语。
举例来说,假设语言转换请求中,待转换的语句为“This paper proposes anovel method that结合statistical machine translation and neural machinetranslation”。由于中文类型的词语数量为1,英文类型的词语数量为14,中文类型的词语数量小于英文类型的词语数量,则根据中文类型及英文类型的词语数量,可以确定源语言词语为中文类型的词语,目标语言词语为英文类型的词语。
步骤102,根据预设的规则,确定与源语言词语对应的各候选词语。
具体的,可以根据以下多种方法,确定与源语言词语对应的各候选词语。
方法一
根据预设的语言对齐模型,确定与源语言词语对应的各候选词语。
其中,语言对齐模型,可以是统计词对齐模型或其它对齐模型。
具体实现时,可以先训练生成语言对齐模型,再根据训练生成的语言对齐模型,确定与源语言词语对应的各候选词语。即,根据预设的语言对齐模型,确定与源语言词语对应的各候选词语之前,还可以包括:
获取源语言类型词语与目标语言类型词语,在通用领域中的平行语料;
对平行语料进行训练,确定与源语言词语对应的对齐模型。
其中,通用领域,指包括学术论文、办公文件、邮件及各种学科在内的所有领域。
平行语料,包括两种互译语言类型的文本,且可以在多个层面上体现两种互译语言类型的对照信息,如词、短语、句子等等。
另外,平行语料中,源语言类型词语与目标语言类型词语可以是一对一、多对一、一对多、多对多的关系。
例如,假设源语言类型为中文类型,目标语言类型为英文类型,则平行语料中,可以包括“结合”及对应的“combine”、“combines”、“bind to”、“integrates”、“integrate”;“学习”及对应的“learning”、“learn”、“study”、“be taught”、“be trained”、“cram”、“prep”、“revise”、“gain knowledge”;“学习”、“学”、“学会”、“得知”、“记住”、“知悉”、“读”、“读书”、“树立”、“探析”及对应的“learn”,等等。
具体实现时,可以根据源语言词语与目标语言词语的语言类型,获取大量的源语言类型词语与目标语言类型词语,在通用领域中的平行语料,并对平行语料进行训练,生成语言对齐模型。从而在接收到语言转换请求后,可以根据语言转换请求中,待转换的语句中包括的源语言词语,利用短语抽取方法,确定与源语言词语对应的对齐模型。
确定了与源语言词语对应的对齐模型后,基于人工智能的语言转换处理装置即可根据该对齐模型,确定与源语言词语的对齐概率大于第二阈值的词语为候选词语。
其中,对齐概率,指源语言词语翻译成对应的目标语言类型词语的概率值。
可以理解的是,根据与源语言词语对应的对齐模型,可以获取与源语言词语对应的多个目标语言类型词语,及各个目标语言类型词语分别与源语言词语的对齐概率,根据各对齐概率,即可将与源语言词语的对齐概率大于第二阈值的词语为候选词语。
例如,假设源语言类型为中文类型,目标语言类型为英文类型,源语言词语为“结合”,第二阈值为0.1。若根据与源语言词语对应的对齐模型,确定与源语言词语“结合”对应的多个目标语言类型词语为“combine”、“combines”、“bind to”、“integrates”、“integrate”,各个目标语言类型词语与源语言词语的对齐概率分别为P1=0.2、P2=0.3、P3=0.05、P4=0.4、P5=0.05。由于P1、P2、P4大于0.1,即可将对齐概率P1、P2、P4分别对应的目标语言类型词语“combine”、“combines”及“integrates”作为候选词语。
需要说明的是,第二阈值,可以根据需要确定。比如,根据与源语言词语对应的对齐模型,确定的源语言词语在通用领域的平行语料中的对齐结果,可能在特定领域的覆盖不那么好,即,特定领域上所需的候选词语出现的概率不高。则第二阈值,可以设置为较小的值,以避免与源语言词语对应的出现概率不高的候选词语被直接过滤掉。
举例来说,假设根据与源语言词语对应的对齐模型,确定的各个目标语言类型词语与源语言词语的对齐概率分别为P1=0.05、P2=0.41、P3=0.39、P4=0.05、P5=0.07、P6=0.03,且P1、P4、P5及P6对应的目标语言类型词语都为A领域的词语,P2和P3对应的目标语言类型词语为B领域的词语。由于A领域中的各候选词语出现的概率都较低,因此可以将第二阈值设置为较小的值,如0.01,从而避免A领域上的目标语言类型词语被直接过滤掉。
方法二
根据语言模型,确定与源语言词语对应的各候选词语。
其中,语言模型,可以是n-gram模型、最大熵模型、最大熵马尔科夫模型、神经网络模型,等等。
可以理解的是,利用语言模型,可以确定哪个词语在句子中出现的可能性更大。因此,在本申请实施例中,可以先确定源语言词语在目标领域中对应的各目标语言类型词语,再根据各目标语言类型词语,在目标领域中的语言模型,确定上述各目标语言类型词语,在待转换的语句中出现的可能性高低,从而将出现的可能性较高的各目标语言类型词语,确定为与源语言词语对应的候选词语。
相应的,在本发明实施例中,根据语言模型,确定与源语言词语对应的各候选词语之前,还可以包括:
对待转换的语句中的目标语言词语进行解析,确定待转换的语句所属的目标领域。
从而可以确定源语言词语在目标领域中对应的各目标语言类型词语,并根据目标领域,从预先基于各个领域的大规模单语语料,训练得到的各个领域的语言模型中,选取目标领域上的语言模型,进而根据选取的语言模型,确定与源语言词语对应的各候选词语。
或者,由于给定若干个词语,利用语言模型,可以预测下一个最可能出现的词语。因此,在本申请实施例中,也可以根据目标领域中的语言模型,预测待转换的语句中,源语言词语之前的目标语言词语出现后,可能会出现的目标语言类型词语。从而在确定了源语言词语在目标领域中对应的各目标语言类型词语后,可以将确定的各目标语言类型词语与预测可能会出现的各目标语言类型词语进行匹配,将匹配程度较高的各目标语言类型词语,确定为候选词语。
或者,也可以综合根据已确定的源语言词语在目标领域中对应的各目标语言类型词语,在待转换的语句中出现的可能性高低,及确定的源语言词语在目标领域中对应的各目标语言类型词语,与预测可能会出现的目标语言类型词语的匹配程度,将出现的可能性较高,且匹配程度较高的目标语言类型词语确定为候选词语。
需要说明的是,在本发明实施例中,确定与源语言词语对应的各候选词语时,可以单独使用方法一和方法二中的任一种方法,也可以结合两种方法,共同确定与源语言词语对应的各候选词语。
可以理解的是,若采用方法一确定与源语言词语对应的各候选词语,若某个目标语言类型词语与源语言词语的对齐概率比较小,但该目标语言类型词语为源语言词语在整个待转换的语句中,最正确的表达方式,则这种正确的表达方式有可能会被过滤掉。而使用方法二或结合两种方法确定与源语言词语对应的各候选词语,可以避免上述情况的发生,保证语言转换的准确性和可靠性。
步骤103,确定各候选词语,分别在待转换的语句中对应的各分值。
步骤104,根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。
可以理解的是,根据预设的规则,确定了各候选词语后,即可确定待转换的语句中,源语言词语在上下语境下,被翻译成各候选词语的分值,并将分值最高的候选词语,确定为与源语言词语对应的目标词语。进而利用目标词语,替换源语言词语,从而将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句。
本发明实施例的基于人工智能的语言转换处理方法,首先根据接收到的语言转换请求,然后根据预设的规则,确定与源语言词语对应的各候选词语,再确定各候选词语分别在待转换的语句中对应的各分值,最后根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。由此,通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
通过上述分析可知,可以先确定待转换的语句中,与源语言词语对应的各候选词语,然后根据各候选词语,在待转换的语句中对应的各分值,确定目标词语,从而将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句。下面结合图2,对本申请实施例提供的基于人工智能的语言转换处理方法中,确定各候选词语,分别在待转换的语句中对应的各分值的方法进行详细说明。
图2是本发明一个实施例的确定各候选词语,分别在待转换的语句中对应的各分值的方法的流程图。
如图2所示,该方法包括:
步骤201,确定源语言词语与第一候选词语的第一对齐概率。
具体实现时,根据上述实施例中所述的,与源语言词语对应的对齐模型,即可确定源语言词语与第一候选词语的第一对齐概率。
步骤202,根据第一候选词语在目标领域中的第一语言模型,确定第一候选词语在待转换的语句中的第一分值。
其中,第一语言模型,可以是基于深度学习的词向量表示和语言模型,也可以是基于词的语言模型,此处不作限制。
本发明实施例中,可以采用连续词袋(Continuous Bag-of-Words Model,简称CBOW)模型,来确定第一候选词语在待转换的语句中的第一分值。
需要说明的是,在本发明实施例中,需要先基于各个领域的大规模单语语料,训练得到各个领域的语言模型。从而在对待转换的语句中的目标语言词语进行解析,确定待转换的语句所属的目标领域后,即可从训练生成的各个领域的语言模型中,选取第一候选词语在目标领域中的第一语言模型,进而根据第一语言模型,确定第一候选词语在待转换的语句中的第一分值。
下面结合图3,对利用第一候选词语在目标领域中的CBOW模型,确定第一候选词语在待转换的语句中的第一分值的过程进行详细说明。
如图3所示,图3为CBOW模型的结构示意图,CBOW主要包括输入层(input),映射层(projection)和输出层(output)三个阶段。输入层为词语w(t)周围的n-1个词语的词向量,假设n=5,w(t-2),w(t-1)为w(t)的前两个词语,w(t+1),w(t+2)为w(t)的后两个词语。
首先需要利用各个领域的大规模单语语料,训练得到各个领域的CBOW模型,从而在接收到语言转换请求,并对待转换的语句中的目标语言词语进行解析,确定待转换的语句所属的目标领域后,可以从训练生成的各个领域的CBOW模型中,选取第一候选词语在目标领域中的CBOW模型,进而根据选取的CBOW模型,及待转换的语句中,源语言词语前后的目标语言词语,确定第一候选词语在待转换的语句中的第一分值。
步骤203,根据第一对齐概率和第一分值,确定候选词语在待转换的语句中对应的分值。
具体的,可以根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值,确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值;
其中,所述第j个候选词在所述待转换的语句中所属的目标领域中的分值,是根据所述第j个候选词在所述待转换的语句所属的目标领域中的语言模型确定的。
具体实现时,确定了第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值后,可以利用二维表的对数线性(log-linear)模型,确定第i个源语言词语对应的第j个候选词语,在待转换的语句中对应的分值。
比如,根据f(si,tij,stn)=λlog ft(si,tij)+(1-λ)log fl(tij,stn),确定第一候选词语在待转换的语句中对应的分值。
其中,f(si,tij,stn)为第i个源语言词语si对应的第j个候选词tij,在待转换的语句stn中的分值,ft(si,tij)为第i个源语言词语si与第j个候选词tij的对齐概率,fl(tij,stn)为根据第j个候选词tij在所述待转换的语句stn所属的目标领域中的语言模型,确定的分值,λ为预设参数。
需要说明的是,本申请实施例中,还可以采用其他的计算方式,确定第一候选词语在待转换的语句中对应的分值,本实施例对此不作限定。
具体的,λ可以根据需要进行设置。
具体实现时,预先确定了λ的值后,则可以将第一对齐概率和第一分值,分别代入ft(si,tij)和fl(tij,stn),从而确定第一候选词在待转换的语句中的分值f(si,tij,stn)。
重复上述过程,即可确定上述实施例中确定的各候选词语,分别在待转换的语句中对应的各分值,从而根据各分值,将分值最高的候选词语,确定为与源语言词语对应的目标词语。
值得注意的是,在本发明实施例中,对待转换的语句中的目标语言词语进行解析,确定待转换的语句所属的目标领域后,也可以直接根据各候选词语在目标领域中的语言模型,确定各候选词语分别在待转换的语句中的各分值。即,可以将f(si,tij,stn)=λlog ft(si,tij)+(1-λ)log fl(tij,stn)中的λ设置为零,从而根据f(si,tij,stn)=log fl(tij,stn),确定各候选词语分别在待转换的语句中的各分值。
本发明实施例的基于人工智能的语言转换处理方法,首先确定源语言词语与第一候选词语的第一对齐概率,然后根据第一候选词语在目标领域中的第一语言模型,确定第一候选词语在待转换的语句中的第一分值,最后根据第一对齐概率和第一分值,确定候选词语在待转换的语句中对应的分值。由此,通过利用对齐模型及语言模型,确定各候选词语在待转换的语句中对应的各分值,进而确定与源语言词语对应的目标词语,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
图4是本发明一个实施例的基于人工智能的语言转换处理装置的结构示意图。
如图4所示,该基于人工智能的语言转换处理装置包括:
接收模块41,用于接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;
第一确定模块42,用于根据预设的规则,确定与所述源语言词语对应的各候选词语;
第二确定模块43,用于确定所述各候选词语,分别在所述待转换的语句中对应的各分值;
第三确定模块44,用于根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。
具体的,本实施例提供的基于人工智能的语言转换处理装置,可以被配置在任何终端中,用于执行如上述实施例所示的基于人工智能的语言转换处理方法,以提高语言转换的质量,改善语言转换效果。
其中,上述待转换的语句中包括的源语言词语与目标语言词语的比例,小于第一阈值。
在本申请实施例一种可能的实现形式中,上述第一确定模块42,具体用于:
根据预设的语言对齐模型,确定与所述源语言词语对应的各候选词语;
或者,
根据语言模型,确定与所述源语言词语对应的各候选词语。
在本申请实施例另一种可能的实现形式中,上述第一确定模块42,还用于:
根据预设的语言对齐模型,确定与所述源语言词语的对齐概率大于第二阈值的词语为候选词语。
在本申请实施例另一种可能的实现形式中,上述第一确定模块42,还用于:
确定所述源语言词语在目标领域中对应的各目标语言类型词语;
根据所述各目标语言类型词语,在目标领域中的语言模型,确定与所述源语言词语对应的各候选词语。
在本申请实施例另一种可能的实现形式中,上述第二确定模块43,还用于:
确定所述源语言词语与第一候选词语的第一对齐概率;
根据所述第一候选词语在目标领域中的第一语言模型,确定所述第一候选词语在所述待转换的语句中的第一分值;
根据所述第一对齐概率和所述第一分值,确定所述候选词语在所述待转换的语句中对应的分值。
在本申请实施例另一种可能的实现形式中,上述第二确定模块43,还用于:
根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值,确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值;
其中,所述第j个候选词在所述待转换的语句中所属的目标领域中的分值,是根据所述第j个候选词在所述待转换的语句所属的目标领域中的语言模型确定的。
需要说明的是,前述对基于人工智能的语言转换处理方法实施例的解释说明也适用于该实施例的基于人工智能的语言转换处理装置,此处不再赘述。
本发明实施例的基于人工智能的语言转换处理装置,首先根据接收到的语言转换请求,然后根据预设的规则,确定与源语言词语对应的各候选词语,再确定各候选词语分别在待转换的语句中对应的各分值,最后根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。由此,通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
图5是本发明另一个实施例的基于人工智能的语言转换处理装置的结构示意图。
如图5所示,在图4的基础上,该基于人工智能的语言转换处理装置,还包括:
第四确定模块51,用于根据所述待转换的语句包括的各类型语言的词语数量,确定源语言词语及目标语言词语。
获取模块52,用于获取所述源语言类型词语与所述目标语言类型词语,在通用领域中的平行语料。
第五确定模块53,用于对所述平行语料进行训练,确定与所述源语言词语对应的对齐模型。
需要说明的是,前述对基于人工智能的语言转换处理方法实施例的解释说明也适用于该实施例的基于人工智能的语言转换处理装置,此处不再赘述。
本发明实施例的基于人工智能的语言转换处理装置,首先根据接收到的语言转换请求,然后根据预设的规则,确定与源语言词语对应的各候选词语,再确定各候选词语分别在待转换的语句中对应的各分值,最后根据各候选词语分别对应的各分值,确定与源语言词语对应的目标词语。由此,通过利用对齐模型及语言模型,实现了将包括源语言词语及目标语言词语的待转换的语句,转换为目标语言类型的语句,减少了用户操作,提高了转换效率及转换结果的准确性,可以更好的满足用户需求,改善用户体验。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当上述处理器执行所述程序时实现如前述实施例中的基于人工智能的语言转换处理方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时实现如前述实施例中的基于人工智能的语言转换处理方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如前述实施例中的基于人工智能的语言转换处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种基于人工智能的语言转换处理方法,其特征在于,包括以下步骤:
接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;
根据预设的规则,确定与所述源语言词语对应的各候选词语;
确定所述各候选词语,分别在所述待转换的语句中对应的各分值;
根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。
2.如权利要求1所述的方法,其特征在于,所述待转换的语句中包括的源语言词语与目标语言词语的比例,小于第一阈值。
3.如权利要求1所述的方法,其特征在于,还包括:
根据所述待转换的语句包括的各类型语言的词语数量,确定源语言词语及目标语言词语。
4.如权利要求1所述的方法,其特征在于,所述根据预设的规则,确定与所述源语言词语对应的各候选词语,包括:
根据预设的语言对齐模型,确定与所述源语言词语对应的各候选词语;
或者,
根据语言模型,确定与所述源语言词语对应的各候选词语。
5.如权利要求4所述的方法,其特征在于,所述根据预设的语言对齐模型,确定与所述源语言词语对应的各候选词语之前,还包括:
获取所述源语言类型词语与所述目标语言类型词语,在通用领域中的平行语料;
对所述平行语料进行训练,确定与所述源语言词语对应的对齐模型。
6.如权利要求4所述的方法,其特征在于,所述根据预设的语言对齐模型,确定与所述源语言词语对应的各候选词语,包括:
根据预设的语言对齐模型,确定与所述源语言词语的对齐概率大于第二阈值的词语为候选词语。
7.如权利要求4所述的方法,其特征在于,所述根据语言模型,确定与所述源语言词语对应的各候选词语,包括:
确定所述源语言词语在目标领域中对应的各目标语言类型词语;
根据所述各目标语言类型词语,在目标领域中的语言模型,确定与所述源语言词语对应的各候选词语。
8.如权利要求1-6任一所述的方法,其特征在于,所述确定所述各候选词语,分别在所述待转换的语句中对应的各分值,包括:
确定所述源语言词语与第一候选词语的第一对齐概率;
根据所述第一候选词语在目标领域中的第一语言模型,确定所述第一候选词语在所述待转换的语句中的第一分值;
根据所述第一对齐概率和所述第一分值,确定所述候选词语在所述待转换的语句中对应的分值。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一对齐概率和所述第一分值,确定所述候选词语在所述待转换的语句中对应的分值,包括:
根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值,确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值;
其中,所述第j个候选词在所述待转换的语句中所属的目标领域中的分值,是根据所述第j个候选词在所述待转换的语句所属的目标领域中的语言模型确定的。
10.一种基于人工智能的语言转换处理装置,其特征在于,包括:
接收模块,用于接收语言转换请求,所述请求中包括待转换的语句,且所述待转换的语句中包括源语言词语及目标语言词语;
第一确定模块,用于根据预设的规则,确定与所述源语言词语对应的各候选词语;
第二确定模块,用于确定所述各候选词语,分别在所述待转换的语句中对应的各分值;
第三确定模块,用于根据所述各候选词语分别对应的各分值,确定与所述源语言词语对应的目标词语。
11.如权利要求10所述的装置,其特征在于,所述待转换的语句中包括的源语言词语与目标语言词语的比例,小于第一阈值。
12.如权利要求10所述的装置,其特征在于,还包括:
第四确定模块,用于根据所述待转换的语句包括的各类型语言的词语数量,确定源语言词语及目标语言词语。
13.如权利要求10所述的装置,其特征在于,所述第一确定模块,具体用于:
根据预设的语言对齐模型,确定与所述源语言词语对应的各候选词语;
或者,
根据语言模型,确定与所述源语言词语对应的各候选词语。
14.如权利要求13所述的装置,其特征在于,还包括:
获取模块,用于获取所述源语言类型词语与所述目标语言类型词语,在通用领域中的平行语料;
第五确定模块,用于对所述平行语料进行训练,确定与所述源语言词语对应的对齐模型。
15.如权利要求13所述的装置,其特征在于,所述第一确定模块,还用于:
根据预设的语言对齐模型,确定与所述源语言词语的对齐概率大于第二阈值的词语为候选词语。
16.如权利要求13所述的装置,其特征在于,所述第一确定模块,还用于:
确定所述源语言词语在目标领域中对应的各目标语言类型词语;
根据所述各目标语言类型词语,在目标领域中的语言模型,确定与所述源语言词语对应的各候选词语。
17.如权利要求10-15任一所述的装置,其特征在于,所述第二确定模块,还用于:
确定所述源语言词语与第一候选词语的第一对齐概率;
根据所述第一候选词语在目标领域中的第一语言模型,确定所述第一候选词语在所述待转换的语句中的第一分值;
根据所述第一对齐概率和所述第一分值,确定所述候选词语在所述待转换的语句中对应的分值。
18.如权利要求17所述的装置,其特征在于,所述第二确定模块,还用于:
根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值,确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值;
其中,所述第j个候选词在所述待转换的语句中所属的目标领域中的分值,是根据所述第j个候选词在所述待转换的语句所属的目标领域中的语言模型确定的。
19.一种终端,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的基于人工智能的语言转换处理方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的基于人工智能的语言转换处理方法。
CN201710336033.7A 2017-05-12 2017-05-12 基于人工智能的语言转换处理方法、装置及终端 Active CN107193807B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710336033.7A CN107193807B (zh) 2017-05-12 2017-05-12 基于人工智能的语言转换处理方法、装置及终端
US15/854,058 US10664666B2 (en) 2017-05-12 2017-12-26 Language conversion method and device based on artificial intelligence and terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710336033.7A CN107193807B (zh) 2017-05-12 2017-05-12 基于人工智能的语言转换处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN107193807A true CN107193807A (zh) 2017-09-22
CN107193807B CN107193807B (zh) 2021-05-28

Family

ID=59873254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710336033.7A Active CN107193807B (zh) 2017-05-12 2017-05-12 基于人工智能的语言转换处理方法、装置及终端

Country Status (2)

Country Link
US (1) US10664666B2 (zh)
CN (1) CN107193807B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932069A (zh) * 2018-07-11 2018-12-04 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN109376166A (zh) * 2018-08-20 2019-02-22 中国平安财产保险股份有限公司 脚本转换方法、装置、计算机设备及存储介质
CN110096707A (zh) * 2019-04-29 2019-08-06 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN111460836A (zh) * 2019-01-18 2020-07-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111476003A (zh) * 2020-03-12 2020-07-31 支付宝(杭州)信息技术有限公司 歌词改写方法及装置
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN113486676A (zh) * 2021-04-08 2021-10-08 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016114265A1 (de) * 2016-08-02 2018-02-08 Claas Selbstfahrende Erntemaschinen Gmbh Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
US11049501B2 (en) 2018-09-25 2021-06-29 International Business Machines Corporation Speech-to-text transcription with multiple languages
JP7376593B2 (ja) * 2018-12-31 2023-11-08 インテル・コーポレーション 人工知能を利用した安全保障システム
US11093720B2 (en) * 2019-03-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for converting multiple language variations
CN111460799B (zh) * 2020-02-24 2023-10-20 云知声智能科技股份有限公司 一种英文语法批改方法及装置
CN112131891A (zh) * 2020-09-24 2020-12-25 安徽听见科技有限公司 翻译方向自动切换方法、装置以及设备
US11847416B2 (en) * 2020-12-01 2023-12-19 Rovi Guides, Inc. Systems and methods for converting an input content item based on contexts
CN113129925B (zh) * 2021-04-20 2023-08-04 深圳追一科技有限公司 一种基于vc模型的嘴部动作驱动模型训练方法及组件

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN104102630A (zh) * 2014-07-16 2014-10-15 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0724055B2 (ja) * 1984-07-31 1995-03-15 株式会社日立製作所 単語分割処理方法
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP2003529845A (ja) * 2000-03-31 2003-10-07 アミカイ・インコーポレイテッド ネットワーク経由の多言語翻訳を提供する方法と装置
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP3813911B2 (ja) * 2002-08-22 2006-08-23 株式会社東芝 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
US8046211B2 (en) * 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8275604B2 (en) * 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US9098488B2 (en) * 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8332206B1 (en) * 2011-08-31 2012-12-11 Google Inc. Dictionary and translation lookup
US9330083B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US9275035B2 (en) * 2013-05-14 2016-03-01 English Helper Inc. Method and system to determine part-of-speech
KR102171262B1 (ko) * 2013-12-26 2020-10-28 삼성전자 주식회사 입력 버퍼와 입력 버퍼를 포함하는 플래쉬 메모리 장치
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
US20160019816A1 (en) * 2014-07-16 2016-01-21 Nimble Knowledge, LLC Language Learning Tool
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
US10437933B1 (en) * 2016-08-16 2019-10-08 Amazon Technologies, Inc. Multi-domain machine translation system with training data clustering and dynamic domain adaptation
US20180089172A1 (en) * 2016-09-27 2018-03-29 Intel Corporation Communication system supporting blended-language messages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN104102630A (zh) * 2014-07-16 2014-10-15 复旦大学 一种针对中文社交网络中中英文混合文本的规范方法
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
任志敏: "对齐技术的研究及其在译文自动评测中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
姚亮,等: "基于语义分布相似度的翻译模型领域自适应研究", 《山东大学学报(理学版)》 *
蒋俊梅: "基于平行语料库的双语术语抽取系统研究", 《现代电子技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932069A (zh) * 2018-07-11 2018-12-04 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN108932069B (zh) * 2018-07-11 2023-04-07 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN109376166A (zh) * 2018-08-20 2019-02-22 中国平安财产保险股份有限公司 脚本转换方法、装置、计算机设备及存储介质
CN109376166B (zh) * 2018-08-20 2023-07-04 中国平安财产保险股份有限公司 脚本转换方法、装置、计算机设备及存储介质
CN111460836A (zh) * 2019-01-18 2020-07-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110096707A (zh) * 2019-04-29 2019-08-06 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN111476003A (zh) * 2020-03-12 2020-07-31 支付宝(杭州)信息技术有限公司 歌词改写方法及装置
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN111738025B (zh) * 2020-08-20 2020-11-17 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN113486676A (zh) * 2021-04-08 2021-10-08 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置
CN113486676B (zh) * 2021-04-08 2023-08-11 中国地质大学(武汉) 一种面向地质文本的地质实体语义关系提取方法及装置

Also Published As

Publication number Publication date
CN107193807B (zh) 2021-05-28
US10664666B2 (en) 2020-05-26
US20180329894A1 (en) 2018-11-15

Similar Documents

Publication Publication Date Title
CN107193807A (zh) 基于人工智能的语言转换处理方法、装置及终端
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Jurgens et al. Incorporating dialectal variability for socially equitable language identification
KR101715118B1 (ko) 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN108062388A (zh) 人机对话的回复生成方法和装置
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
RU2721190C1 (ru) Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
Shi et al. A multichannel convolutional neural network for cross-language dialog state tracking
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
KR20200040652A (ko) 자연어 처리 시스템 및 자연어 처리에서의 단어 표현 방법
CN109032375A (zh) 候选文本排序方法、装置、设备及存储介质
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
KR102339149B1 (ko) 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN109635197A (zh) 搜索方法、装置、电子设备及存储介质
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant