CN107193807A

CN107193807A - 基于人工智能的语言转换处理方法、装置及终端

Info

Publication number: CN107193807A
Application number: CN201710336033.7A
Authority: CN
Inventors: 赵世奇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-22
Anticipated expiration: 2037-05-12
Also published as: CN107193807B; US10664666B2; US20180329894A1

Abstract

本发明提出一种基于人工智能的语言转换处理方法、装置及终端，其中，该方法包括：接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；根据预设的规则，确定与所述源语言词语对应的各候选词语；确定所述各候选词语，分别在所述待转换的语句中对应的各分值；根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。通过利用对齐模型及语言模型，实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

Description

基于人工智能的语言转换处理方法、装置及终端

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于人工智能的语言转换处理方法、装置及终端。

背景技术

人工智能(Artificial Intelligence，简称AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

通常，用户在进行外语写作时，会遇到整句中的大部分知道如何翻译，但个别词语不知如何翻译的困扰。例如，用户想要用英文表达“本文提出了一种将统计机器翻译和神经网络机器翻译相结合的新方法”时，知道该句子基本写法为“This paper proposes anovel method that结合statistical machine translation and neural machinetranslation”，但是，不知道“结合”用哪个英文词最恰当。

现有技术，需要用户利用词典，查询整个待翻译语句中的个别词语；或者，使用机器翻译工具，对整个待翻译语句进行翻译。然而，通过个别词语翻译的方式，得到的翻译结果可能为多个不同的结果，需要用户从多个翻译结果中，分析辨识出最符合上下文语境的目标词语；通过整句翻译的方式，得到的翻译结果可能存在语序或句式不正确等问题，需要用户通过分析确定最终结果。因此，现有的语言转换处理方法，用户操作复杂，效率低，无法直接为用户提供准确的转换结果，并不能满足用户的需求，用户体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语言转换处理方法，该方法实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

本发明的第二个目的在于提出一种基于人工智能的语言转换处理装置。

本发明的第三个目的在于提出一种终端。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语言转换处理方法，包括：接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；根据预设的规则，确定与所述源语言词语对应的各候选词语；确定所述各候选词语，分别在所述待转换的语句中对应的各分值；根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。

本发明实施例的基于人工智能的语言转换处理方法，首先根据接收到的语言转换请求，然后根据预设的规则，确定与源语言词语对应的各候选词语，再确定各候选词语分别在待转换的语句中对应的各分值，最后根据各候选词语分别对应的各分值，确定与源语言词语对应的目标词语。由此，通过利用对齐模型及语言模型，实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语言转换处理装置，包括：接收模块，用于接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；第一确定模块，用于根据预设的规则，确定与所述源语言词语对应的各候选词语；第二确定模块，用于确定所述各候选词语，分别在所述待转换的语句中对应的各分值；第三确定模块，用于根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。

本发明实施例的基于人工智能的语言转换处理装置，首先根据接收到的语言转换请求，然后根据预设的规则，确定与源语言词语对应的各候选词语，再确定各候选词语分别在待转换的语句中对应的各分值，最后根据各候选词语分别对应的各分值，确定与源语言词语对应的目标词语。由此，通过利用对齐模型及语言模型，实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

为达上述目的，本发明第三方面实施例提出了一种终端，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当所述处理器执行所述程序时实现如第一方面所述的基于人工智能的语言转换处理方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够执如第一方面所述的基于人工智能的语言转换处理方法。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如第一方面所述的基于人工智能的语言转换处理方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于人工智能的语言转换处理方法的流程图；

图2是本发明一个实施例的确定各候选词语，分别在待转换的语句中对应的各分值的方法的流程图；

图3是本发明CBOW模型的结构示意图；

图4是本发明一个实施例的基于人工智能的语言转换处理装置的结构示意图；

图5是本发明另一个实施例的基于人工智能的语言转换处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

可以理解的是，用户在进行外语写作时，可能会遇到的整句中的大部分知道如何翻译，但个别词语不知如何翻译的困扰。现有技术，需要用户利用词典查询整个待翻译语句中的个别词语，或者使用机器翻译工具，对整个待翻译语句进行翻译，用户操作复杂，效率低，无法直接为用户提供准确的转换结果，得到的翻译结果不能满足用户需求，用户体验差。

具体的，本发明各实施例针对上述问题，提出一种基于人工智能的语言转换处理方法。本发明实施例提供的基于人工智能的语言转换处理方法，首先根据接收到的语言转换请求，确定与源语言词语对应的各候选词语，然后确定各候选词语分别在待转换的语句中对应的各分值，再根据各候选词语分别对应的各分值，确定与源语言词语对应的目标词语。实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

下面参考附图描述本发明实施例的基于人工智能的语言转换处理方法、装置及终端。

图1是本发明一个实施例的基于人工智能的语言转换处理方法的流程图。

如图1所示，该基于人工智能的语言转换处理方法包括：

步骤101，接收语言转换请求，请求中包括待转换的语句，且待转换的语句中包括源语言词语及目标语言词语。

其中，本发明实施例提供的基于人工智能的语言转换处理方法的执行主体为本发明实施例提供的基于人工智能的语言转换处理装置，该装置可以被配置在任何终端中，以提高语言转换的质量，改善语言转换效果。

具体实现时，可以在基于人工智能的语言转换处理装置中，设置用户输入界面，从而用户在进行外语写作时，若遇到整句中的大部分知道如何翻译，但个别词语不知如何翻译的困扰，可以在基于人工智能的语言转换处理装置的用户输入界面中，输入待转换的语句。其中，用户输入的待转换的语句中包括源语言词语及目标语言词语。即，用户可以将自己翻译的大部分结果与个别不知如何翻译的词语同时输入到用户输入界面。

其中，源语言词语指待转换的源语言类型的词语。

目标语言词语指用户翻译成的目标语言类型的词语。

例如，用户想要将中文形式的“本文提出了一种将统计机器翻译和神经网络机器翻译相结合的新方法”用英文进行表达时，知道该句子基本写法为“This paper proposesa novel method that结合statistical machine translation and neural machinetranslation”，但是，不知道“结合”用哪个英文词语最恰当。则用户可以将待转换的语句“This paper proposes a novel method that结合statistical machine translationand neural machine translation”输入到基于人工智能的语言转换处理装置的用户输入界面。其中，“结合”即为待转换的语句中的源语言词语，其它英文词即为待转换的语句中的目标语言词语。

具体实现时，为了保证语言转换的速度及质量，待转换的语句中包括的源语言词语不能过多。因此，在本发明实施例中，待转换的语句中，源语言词语与目标语言词语应具有一定的比例，且该比例小于第一阈值。

其中，第一阈值，可以根据需要进行确定。比如，为了保证语言转换的速度及质量，第一阈值可以设置为较小的数，如40％。即，待转换的语句中包括14个词语时，源语言词语的数量应小于4个。

另外，用户在基于人工智能的语言转换处理装置的用于界面中，输入待转换的语句时，可以设置源语言类型与目标语言类型，从而使基于人工智能的语言转换处理装置接收到语言转换请求后，可以将待转换的语句中，与源语言类型和目标语言类型分别对应的词语，确定为源语言词语和目标语言词语。

或者，基于人工智能的语言转换处理装置接收到语言转换请求后，也可以根据语言转换请求中，待转换的语句包括的各类型语言的词语数量，确定源语言词语及目标语言词语。

由于通常情况下，为了保证语言转换的速度及质量，待转换的语句中，源语言词语的数量小于目标语言词语的数量。因此，在本发明实施例中，可以将待转换的语句中，词语数量较少的语言类型对应的词语确定为源语言词语，将词语数量较多的语言类型对应的词语确定为目标语言词语。

举例来说，假设语言转换请求中，待转换的语句为“This paper proposes anovel method that结合statistical machine translation and neural machinetranslation”。由于中文类型的词语数量为1，英文类型的词语数量为14，中文类型的词语数量小于英文类型的词语数量，则根据中文类型及英文类型的词语数量，可以确定源语言词语为中文类型的词语，目标语言词语为英文类型的词语。

步骤102，根据预设的规则，确定与源语言词语对应的各候选词语。

具体的，可以根据以下多种方法，确定与源语言词语对应的各候选词语。

方法一

根据预设的语言对齐模型，确定与源语言词语对应的各候选词语。

其中，语言对齐模型，可以是统计词对齐模型或其它对齐模型。

具体实现时，可以先训练生成语言对齐模型，再根据训练生成的语言对齐模型，确定与源语言词语对应的各候选词语。即，根据预设的语言对齐模型，确定与源语言词语对应的各候选词语之前，还可以包括：

获取源语言类型词语与目标语言类型词语，在通用领域中的平行语料；

对平行语料进行训练，确定与源语言词语对应的对齐模型。

其中，通用领域，指包括学术论文、办公文件、邮件及各种学科在内的所有领域。

平行语料，包括两种互译语言类型的文本，且可以在多个层面上体现两种互译语言类型的对照信息，如词、短语、句子等等。

另外，平行语料中，源语言类型词语与目标语言类型词语可以是一对一、多对一、一对多、多对多的关系。

例如，假设源语言类型为中文类型，目标语言类型为英文类型，则平行语料中，可以包括“结合”及对应的“combine”、“combines”、“bind to”、“integrates”、“integrate”；“学习”及对应的“learning”、“learn”、“study”、“be taught”、“be trained”、“cram”、“prep”、“revise”、“gain knowledge”；“学习”、“学”、“学会”、“得知”、“记住”、“知悉”、“读”、“读书”、“树立”、“探析”及对应的“learn”，等等。

具体实现时，可以根据源语言词语与目标语言词语的语言类型，获取大量的源语言类型词语与目标语言类型词语，在通用领域中的平行语料，并对平行语料进行训练，生成语言对齐模型。从而在接收到语言转换请求后，可以根据语言转换请求中，待转换的语句中包括的源语言词语，利用短语抽取方法，确定与源语言词语对应的对齐模型。

确定了与源语言词语对应的对齐模型后，基于人工智能的语言转换处理装置即可根据该对齐模型，确定与源语言词语的对齐概率大于第二阈值的词语为候选词语。

其中，对齐概率，指源语言词语翻译成对应的目标语言类型词语的概率值。

可以理解的是，根据与源语言词语对应的对齐模型，可以获取与源语言词语对应的多个目标语言类型词语，及各个目标语言类型词语分别与源语言词语的对齐概率，根据各对齐概率，即可将与源语言词语的对齐概率大于第二阈值的词语为候选词语。

例如，假设源语言类型为中文类型，目标语言类型为英文类型，源语言词语为“结合”，第二阈值为0.1。若根据与源语言词语对应的对齐模型，确定与源语言词语“结合”对应的多个目标语言类型词语为“combine”、“combines”、“bind to”、“integrates”、“integrate”，各个目标语言类型词语与源语言词语的对齐概率分别为P₁＝0.2、P₂＝0.3、P₃＝0.05、P₄＝0.4、P₅＝0.05。由于P₁、P₂、P₄大于0.1，即可将对齐概率P₁、P₂、P₄分别对应的目标语言类型词语“combine”、“combines”及“integrates”作为候选词语。

需要说明的是，第二阈值，可以根据需要确定。比如，根据与源语言词语对应的对齐模型，确定的源语言词语在通用领域的平行语料中的对齐结果，可能在特定领域的覆盖不那么好，即，特定领域上所需的候选词语出现的概率不高。则第二阈值，可以设置为较小的值，以避免与源语言词语对应的出现概率不高的候选词语被直接过滤掉。

举例来说，假设根据与源语言词语对应的对齐模型，确定的各个目标语言类型词语与源语言词语的对齐概率分别为P₁＝0.05、P₂＝0.41、P₃＝0.39、P₄＝0.05、P₅＝0.07、P₆＝0.03，且P₁、P₄、P₅及P₆对应的目标语言类型词语都为A领域的词语，P₂和P₃对应的目标语言类型词语为B领域的词语。由于A领域中的各候选词语出现的概率都较低，因此可以将第二阈值设置为较小的值，如0.01，从而避免A领域上的目标语言类型词语被直接过滤掉。

方法二

根据语言模型，确定与源语言词语对应的各候选词语。

其中，语言模型，可以是n-gram模型、最大熵模型、最大熵马尔科夫模型、神经网络模型，等等。

可以理解的是，利用语言模型，可以确定哪个词语在句子中出现的可能性更大。因此，在本申请实施例中，可以先确定源语言词语在目标领域中对应的各目标语言类型词语，再根据各目标语言类型词语，在目标领域中的语言模型，确定上述各目标语言类型词语，在待转换的语句中出现的可能性高低，从而将出现的可能性较高的各目标语言类型词语，确定为与源语言词语对应的候选词语。

相应的，在本发明实施例中，根据语言模型，确定与源语言词语对应的各候选词语之前，还可以包括：

对待转换的语句中的目标语言词语进行解析，确定待转换的语句所属的目标领域。

从而可以确定源语言词语在目标领域中对应的各目标语言类型词语，并根据目标领域，从预先基于各个领域的大规模单语语料，训练得到的各个领域的语言模型中，选取目标领域上的语言模型，进而根据选取的语言模型，确定与源语言词语对应的各候选词语。

或者，由于给定若干个词语，利用语言模型，可以预测下一个最可能出现的词语。因此，在本申请实施例中，也可以根据目标领域中的语言模型，预测待转换的语句中，源语言词语之前的目标语言词语出现后，可能会出现的目标语言类型词语。从而在确定了源语言词语在目标领域中对应的各目标语言类型词语后，可以将确定的各目标语言类型词语与预测可能会出现的各目标语言类型词语进行匹配，将匹配程度较高的各目标语言类型词语，确定为候选词语。

或者，也可以综合根据已确定的源语言词语在目标领域中对应的各目标语言类型词语，在待转换的语句中出现的可能性高低，及确定的源语言词语在目标领域中对应的各目标语言类型词语，与预测可能会出现的目标语言类型词语的匹配程度，将出现的可能性较高，且匹配程度较高的目标语言类型词语确定为候选词语。

需要说明的是，在本发明实施例中，确定与源语言词语对应的各候选词语时，可以单独使用方法一和方法二中的任一种方法，也可以结合两种方法，共同确定与源语言词语对应的各候选词语。

可以理解的是，若采用方法一确定与源语言词语对应的各候选词语，若某个目标语言类型词语与源语言词语的对齐概率比较小，但该目标语言类型词语为源语言词语在整个待转换的语句中，最正确的表达方式，则这种正确的表达方式有可能会被过滤掉。而使用方法二或结合两种方法确定与源语言词语对应的各候选词语，可以避免上述情况的发生，保证语言转换的准确性和可靠性。

步骤103，确定各候选词语，分别在待转换的语句中对应的各分值。

步骤104，根据各候选词语分别对应的各分值，确定与源语言词语对应的目标词语。

可以理解的是，根据预设的规则，确定了各候选词语后，即可确定待转换的语句中，源语言词语在上下语境下，被翻译成各候选词语的分值，并将分值最高的候选词语，确定为与源语言词语对应的目标词语。进而利用目标词语，替换源语言词语，从而将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句。

通过上述分析可知，可以先确定待转换的语句中，与源语言词语对应的各候选词语，然后根据各候选词语，在待转换的语句中对应的各分值，确定目标词语，从而将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句。下面结合图2，对本申请实施例提供的基于人工智能的语言转换处理方法中，确定各候选词语，分别在待转换的语句中对应的各分值的方法进行详细说明。

图2是本发明一个实施例的确定各候选词语，分别在待转换的语句中对应的各分值的方法的流程图。

如图2所示，该方法包括：

步骤201，确定源语言词语与第一候选词语的第一对齐概率。

具体实现时，根据上述实施例中所述的，与源语言词语对应的对齐模型，即可确定源语言词语与第一候选词语的第一对齐概率。

步骤202，根据第一候选词语在目标领域中的第一语言模型，确定第一候选词语在待转换的语句中的第一分值。

其中，第一语言模型，可以是基于深度学习的词向量表示和语言模型，也可以是基于词的语言模型，此处不作限制。

本发明实施例中，可以采用连续词袋(Continuous Bag-of-Words Model，简称CBOW)模型，来确定第一候选词语在待转换的语句中的第一分值。

需要说明的是，在本发明实施例中，需要先基于各个领域的大规模单语语料，训练得到各个领域的语言模型。从而在对待转换的语句中的目标语言词语进行解析，确定待转换的语句所属的目标领域后，即可从训练生成的各个领域的语言模型中，选取第一候选词语在目标领域中的第一语言模型，进而根据第一语言模型，确定第一候选词语在待转换的语句中的第一分值。

下面结合图3，对利用第一候选词语在目标领域中的CBOW模型，确定第一候选词语在待转换的语句中的第一分值的过程进行详细说明。

如图3所示，图3为CBOW模型的结构示意图，CBOW主要包括输入层(input)，映射层(projection)和输出层(output)三个阶段。输入层为词语w(t)周围的n-1个词语的词向量，假设n＝5，w(t-2),w(t-1)为w(t)的前两个词语，w(t+1),w(t+2)为w(t)的后两个词语。

首先需要利用各个领域的大规模单语语料，训练得到各个领域的CBOW模型，从而在接收到语言转换请求，并对待转换的语句中的目标语言词语进行解析，确定待转换的语句所属的目标领域后，可以从训练生成的各个领域的CBOW模型中，选取第一候选词语在目标领域中的CBOW模型，进而根据选取的CBOW模型，及待转换的语句中，源语言词语前后的目标语言词语，确定第一候选词语在待转换的语句中的第一分值。

步骤203，根据第一对齐概率和第一分值，确定候选词语在待转换的语句中对应的分值。

具体的，可以根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值，确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值；

其中，所述第j个候选词在所述待转换的语句中所属的目标领域中的分值，是根据所述第j个候选词在所述待转换的语句所属的目标领域中的语言模型确定的。

具体实现时，确定了第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值后，可以利用二维表的对数线性(log-linear)模型，确定第i个源语言词语对应的第j个候选词语，在待转换的语句中对应的分值。

比如，根据f(s_i,t_ij,stn)＝λlog f_t(s_i,t_ij)+(1-λ)log f_l(t_ij,stn)，确定第一候选词语在待转换的语句中对应的分值。

其中，f(s_i,t_ij,stn)为第i个源语言词语s_i对应的第j个候选词t_ij，在待转换的语句stn中的分值，f_t(s_i,t_ij)为第i个源语言词语s_i与第j个候选词t_ij的对齐概率，f_l(t_ij,stn)为根据第j个候选词t_ij在所述待转换的语句stn所属的目标领域中的语言模型，确定的分值，λ为预设参数。

需要说明的是，本申请实施例中，还可以采用其他的计算方式，确定第一候选词语在待转换的语句中对应的分值，本实施例对此不作限定。

具体的，λ可以根据需要进行设置。

具体实现时，预先确定了λ的值后，则可以将第一对齐概率和第一分值，分别代入f_t(s_i,t_ij)和f_l(t_ij,stn)，从而确定第一候选词在待转换的语句中的分值f(s_i,t_ij,stn)。

重复上述过程，即可确定上述实施例中确定的各候选词语，分别在待转换的语句中对应的各分值，从而根据各分值，将分值最高的候选词语，确定为与源语言词语对应的目标词语。

值得注意的是，在本发明实施例中，对待转换的语句中的目标语言词语进行解析，确定待转换的语句所属的目标领域后，也可以直接根据各候选词语在目标领域中的语言模型，确定各候选词语分别在待转换的语句中的各分值。即，可以将f(s_i,t_ij,stn)＝λlog f_t(s_i,t_ij)+(1-λ)log f_l(t_ij,stn)中的λ设置为零，从而根据f(s_i,t_ij,stn)＝log f_l(t_ij,stn)，确定各候选词语分别在待转换的语句中的各分值。

本发明实施例的基于人工智能的语言转换处理方法，首先确定源语言词语与第一候选词语的第一对齐概率，然后根据第一候选词语在目标领域中的第一语言模型，确定第一候选词语在待转换的语句中的第一分值，最后根据第一对齐概率和第一分值，确定候选词语在待转换的语句中对应的分值。由此，通过利用对齐模型及语言模型，确定各候选词语在待转换的语句中对应的各分值，进而确定与源语言词语对应的目标词语，实现了将包括源语言词语及目标语言词语的待转换的语句，转换为目标语言类型的语句，减少了用户操作，提高了转换效率及转换结果的准确性，可以更好的满足用户需求，改善用户体验。

图4是本发明一个实施例的基于人工智能的语言转换处理装置的结构示意图。

如图4所示，该基于人工智能的语言转换处理装置包括：

接收模块41，用于接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；

第一确定模块42，用于根据预设的规则，确定与所述源语言词语对应的各候选词语；

第二确定模块43，用于确定所述各候选词语，分别在所述待转换的语句中对应的各分值；

第三确定模块44，用于根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。

具体的，本实施例提供的基于人工智能的语言转换处理装置，可以被配置在任何终端中，用于执行如上述实施例所示的基于人工智能的语言转换处理方法，以提高语言转换的质量，改善语言转换效果。

其中，上述待转换的语句中包括的源语言词语与目标语言词语的比例，小于第一阈值。

在本申请实施例一种可能的实现形式中，上述第一确定模块42，具体用于：

根据预设的语言对齐模型，确定与所述源语言词语对应的各候选词语；

或者，

根据语言模型，确定与所述源语言词语对应的各候选词语。

在本申请实施例另一种可能的实现形式中，上述第一确定模块42，还用于：

根据预设的语言对齐模型，确定与所述源语言词语的对齐概率大于第二阈值的词语为候选词语。

确定所述源语言词语在目标领域中对应的各目标语言类型词语；

根据所述各目标语言类型词语，在目标领域中的语言模型，确定与所述源语言词语对应的各候选词语。

在本申请实施例另一种可能的实现形式中，上述第二确定模块43，还用于：

确定所述源语言词语与第一候选词语的第一对齐概率；

根据所述第一候选词语在目标领域中的第一语言模型，确定所述第一候选词语在所述待转换的语句中的第一分值；

根据所述第一对齐概率和所述第一分值，确定所述候选词语在所述待转换的语句中对应的分值。

根据第i个源语言词语与第j个候选词的对齐概率、预设参数及第j个候选词在所述待转换的语句中所属的目标领域中的分值，确定第i个源语言词语对应的第j个候选词在待转换的语句中的分值；

需要说明的是，前述对基于人工智能的语言转换处理方法实施例的解释说明也适用于该实施例的基于人工智能的语言转换处理装置，此处不再赘述。

如图5所示，在图4的基础上，该基于人工智能的语言转换处理装置，还包括：

第四确定模块51，用于根据所述待转换的语句包括的各类型语言的词语数量，确定源语言词语及目标语言词语。

获取模块52，用于获取所述源语言类型词语与所述目标语言类型词语，在通用领域中的平行语料。

第五确定模块53，用于对所述平行语料进行训练，确定与所述源语言词语对应的对齐模型。

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当上述处理器执行所述程序时实现如前述实施例中的基于人工智能的语言转换处理方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如前述实施例中的基于人工智能的语言转换处理方法。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如前述实施例中的基于人工智能的语言转换处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语言转换处理方法，其特征在于，包括以下步骤：

接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；

根据预设的规则，确定与所述源语言词语对应的各候选词语；

确定所述各候选词语，分别在所述待转换的语句中对应的各分值；

根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。

2.如权利要求1所述的方法，其特征在于，所述待转换的语句中包括的源语言词语与目标语言词语的比例，小于第一阈值。

3.如权利要求1所述的方法，其特征在于，还包括：

根据所述待转换的语句包括的各类型语言的词语数量，确定源语言词语及目标语言词语。

4.如权利要求1所述的方法，其特征在于，所述根据预设的规则，确定与所述源语言词语对应的各候选词语，包括：

或者，

根据语言模型，确定与所述源语言词语对应的各候选词语。

5.如权利要求4所述的方法，其特征在于，所述根据预设的语言对齐模型，确定与所述源语言词语对应的各候选词语之前，还包括：

获取所述源语言类型词语与所述目标语言类型词语，在通用领域中的平行语料；

对所述平行语料进行训练，确定与所述源语言词语对应的对齐模型。

6.如权利要求4所述的方法，其特征在于，所述根据预设的语言对齐模型，确定与所述源语言词语对应的各候选词语，包括：

7.如权利要求4所述的方法，其特征在于，所述根据语言模型，确定与所述源语言词语对应的各候选词语，包括：

8.如权利要求1-6任一所述的方法，其特征在于，所述确定所述各候选词语，分别在所述待转换的语句中对应的各分值，包括：

确定所述源语言词语与第一候选词语的第一对齐概率；

9.如权利要求8所述的方法，其特征在于，所述根据所述第一对齐概率和所述第一分值，确定所述候选词语在所述待转换的语句中对应的分值，包括：

10.一种基于人工智能的语言转换处理装置，其特征在于，包括：

接收模块，用于接收语言转换请求，所述请求中包括待转换的语句，且所述待转换的语句中包括源语言词语及目标语言词语；

第一确定模块，用于根据预设的规则，确定与所述源语言词语对应的各候选词语；

第二确定模块，用于确定所述各候选词语，分别在所述待转换的语句中对应的各分值；

第三确定模块，用于根据所述各候选词语分别对应的各分值，确定与所述源语言词语对应的目标词语。

11.如权利要求10所述的装置，其特征在于，所述待转换的语句中包括的源语言词语与目标语言词语的比例，小于第一阈值。

12.如权利要求10所述的装置，其特征在于，还包括：

第四确定模块，用于根据所述待转换的语句包括的各类型语言的词语数量，确定源语言词语及目标语言词语。

13.如权利要求10所述的装置，其特征在于，所述第一确定模块，具体用于：

或者，

根据语言模型，确定与所述源语言词语对应的各候选词语。

14.如权利要求13所述的装置，其特征在于，还包括：

获取模块，用于获取所述源语言类型词语与所述目标语言类型词语，在通用领域中的平行语料；

第五确定模块，用于对所述平行语料进行训练，确定与所述源语言词语对应的对齐模型。

15.如权利要求13所述的装置，其特征在于，所述第一确定模块，还用于：

16.如权利要求13所述的装置，其特征在于，所述第一确定模块，还用于：

17.如权利要求10-15任一所述的装置，其特征在于，所述第二确定模块，还用于：

确定所述源语言词语与第一候选词语的第一对齐概率；

18.如权利要求17所述的装置，其特征在于，所述第二确定模块，还用于：

19.一种终端，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9中任一所述的基于人工智能的语言转换处理方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的基于人工智能的语言转换处理方法。