CN108920560B

CN108920560B - 生成方法、训练方法、装置、计算机可读介质及电子设备

Info

Publication number: CN108920560B
Application number: CN201810637486.8A
Authority: CN
Inventors: 王兴光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2022-10-04
Anticipated expiration: 2038-06-20
Also published as: CN108920560A

Abstract

本发明的实施例提供了一种应答语句的生成方法、对话生成模型的训练方法、装置、计算机可读介质及电子设备。该应答语句的生成方法包括：根据用户输入的中文语句，将中文语句中的中文字符转换为具有相同字符长度的字符串；根据所述中文语句中的中文字符转换得到的字符串，生成中文语句对应的字符串组合；将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；根据应答语句对应的字符串组合，生成所述应答语句。本发明实施例的技术方案可以将中文语句中的中文字符转换为相同字符长度的字符串，进而能够降低中文语句的特征维度，有效降低了模型的学习成本及中文应答语句的生成难度。

Description

生成方法、训练方法、装置、计算机可读介质及电子设备

技术领域

本发明涉及计算机及通信技术领域，具体而言，涉及一种应答语句的生成方法、对话生成模型的训练方法、装置、计算机可读介质及电子设备。

背景技术

在对话生成领域，中文是一个难以克服的难题，这是由于将中文语句的分词结果作为对话生成模型的输入进行训练时，特征维度一般为几万甚至数十万，而将中文语句分字或者按照GBK(国标扩展码)编码作为对话生成模型的输入进行训练时，特征维度一般为几千或一两万。

发明内容

本发明实施例的目的在于提供一种应答语句的生成方法、装置、计算机可读介质及电子设备，进而至少在一定程度上降低中文应答语句的生成难度。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种应答语句的生成方法，包括：根据用户输入的中文语句，将所述中文语句中的中文字符转换为具有相同字符长度的字符串；根据所述中文语句中的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；根据所述应答语句对应的字符串组合，生成所述应答语句。

根据本发明实施例的一个方面，提供了一种对话生成模型的训练方法，包括：获取用于训练对话生成模型的对话数据；将所述对话数据中的中文语句所包含的中文字符转换为具有相同字符长度的字符串；根据所述中文语句所包含的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

根据本发明实施例的一个方面，提供了一种应答语句的生成装置，包括：转换单元，用于根据用户输入的中文语句，将所述中文语句中的中文字符转换为具有相同字符长度的字符串；第一生成单元，用于根据所述中文语句中的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；获取单元，用于将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；第二生成单元，用于根据所述应答语句对应的字符串组合，生成所述应答语句。

在本发明的一些实施例中，基于前述方案，所述转换单元用于：根据字符标识与汉语拼音包含的拼音元素之间的对应关系，以及所述中文语句中包含的中文字符的拼音，将所述中文字符转换为包含相同数量个字符标识的字符串。

在本发明的一些实施例中，基于前述方案，所述转换单元包括：划分单元，用于根据所述中文字符的拼音，将所述中文字符的拼音划分为第一拼音元素和第二拼音元素；确定单元，用于根据所述字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识；第三生成单元，用于根据所述第一字符标识和所述第二字符标识，生成所述中文字符转换得到的字符串。

在本发明的一些实施例中，基于前述方案，所述第三生成单元用于：将所述第一字符标识、所述第二字符标识和预定的终止符进行组合，以生成所述中文字符转换得到的字符串。

在本发明的一些实施例中，基于前述方案，所述第三生成单元用于：根据所述中文字符的声调，生成所述中文字符的声调字符；根据所述第一字符标识、所述第二字符标识和所述声调字符，生成所述中文字符转换得到的字符串。

在本发明的一些实施例中，基于前述方案，所述第三生成单元用于：将所述第一字符标识、所述第二字符标识、所述声调字符和预定的终止符进行组合，以生成所述中文字符转换得到的字符串。

在本发明的一些实施例中，基于前述方案，所述第一生成单元用于：确定所述中文语句中包含的标点符号对应的字符串；将所述中文语句中的中文字符转换得到的字符串与所述标点符号对应的字符串进行组合，以生成所述中文语句对应的字符串组合。

在本发明的一些实施例中，基于前述方案，所述标点符号对应的字符串的字符长度与所述中文字符转换得到的字符串的字符长度相同。

在本发明的一些实施例中，基于前述方案，所述第二生成单元用于：将所述应答语句对应的字符串组合输入至预定的语言模型知识库，以根据所述语言模型知识库确定所述应答语句的中文表达。

在本发明的一些实施例中，基于前述方案，所述的自然语言的生成装置还包括：检测单元，用于在将所述应答语句对应的字符串组合输入至预定的语言模型知识库中之前，检测所述应答语句对应的字符串组合中包含的不合法的字符串；处理单元，用于删除或校正所述应答语句对应的字符串组合中所包含的不合法的字符串。

根据本发明实施例的一个方面，提供了一种对话生成模型的训练装置，包括：获取单元，用于获取用于训练对话生成模型的对话数据；转换单元，用于将所述对话数据中的中文语句所包含的中文字符转换为具有相同字符长度的字符串；生成单元，用于根据所述中文语句所包含的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；训练单元，用于通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的应答语句的生成方法，或实现如上述实施例中所述的对话生成模型的训练方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的应答语句的生成方法，或实现如上述实施例中所述的对话生成模型的训练方法。

在本发明的一些实施例所提供的技术方案中，通过将用户输入的中文语句中的中文字符转换为具有相同字符长度的字符串，并生成该中文语句对应的字符串组合，以将该字符串组合输入至对话生成模型中获取应答语句对应的字符串组合，并根据该应答语句对应的字符串组合生成应答语句，使得在使用中文进行对话应答的场景中，可以将中文字符转换为相同字符长度的字符串，进而在进行对话模型训练以及匹配应答语句对应的字符串组合时均能够降低中文语句的特征维度，从而能够提高模型的训练效率及生成应答语句的效率，有效降低了模型的学习成本及中文应答语句的生成难度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的应答语句的生成方法或应答语句的生成装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一个实施例的应答语句的生成方法的流程图；

图4示意性示出了根据本发明的实施例的将中文语句中包含的中文字符转换为包含相同数量个字符标识的字符串的流程图；

图5示意性示出了根据本发明的一个实施例的对话生成模型的训练过程的流程图；

图6示出了根据本发明的一个实施例的拼音元素与字符之间的对应关系示意图；

图7示出了根据本发明的一个实施例的对话生成模型的框架示意图；

图8示意性示出了根据本发明的一个实施例的应答语句的生成方法的整体流程图；

图9示意性示出了根据本发明的一个实施例的应答语句的生成装置的框图；

图10示意性示出了根据本发明的一个实施例的转换单元的框图；

图11示意性示出了根据本发明的一个实施例的对话生成模型的训练装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的应答语句的生成方法或应答语句的生成装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)输入了中文语句，比如通过终端设备上的输入法软件手动输入或者通过语音输入了中文语句，进而终端设备103将该中文语句发送给服务器105，服务器105可以根据该中文语句，将该中文语句中的中文字符转换为具有相同字符长度的字符串，然后根据该中文语句中的中文字符转换得到的字符串，生成该中文语句对应的字符串组合，并将该中文语句对应的字符串组合输入至对话生成模型中，以获取该中文语句的应答语句对应的字符串组合，进而根据该应答语句对应的字符串组合，生成应答语句。在服务器105生成应答语句之后，可以将该应答语句发送给终端设备103，以实现与用户之间的对话。

需要说明的是，本发明实施例所提供的应答语句的生成方法一般由服务器105执行，相应地，应答语句的生成装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本发明实施例所提供的应答语句的生成方案。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图，该电子设备可以是图1中所示的服务器105，或者可以是图1中所示的终端设备103(也可以是终端设备101或102)。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(Central Processing Unit，CPU)201，其可以根据存储在只读存储器(Read-Only Memory，ROM)202中的程序或者从存储部分208加载到随机访问存储器(Random Access Memory，RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU 201、ROM202以及RAM 203通过总线204彼此相连。输入/输出(Input/Output，I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图5所示的各个步骤。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本发明的一个实施例的应答语句的生成方法的流程图，该应答语句的生成方法适用于前述实施例中所述的电子设备。参照图3所示，该应答语句的生成方法至少包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，根据用户输入的中文语句，将所述中文语句中的中文字符转换为具有相同字符长度的字符串。

在本发明的一个实施例中，用户输入的中文语句可以是通过输入设备(如键盘、触摸屏等)手动输入的中文语句，比如通过拼音输入法软件、五笔输入法软件等输入的中文语句，也可以是通过语音输入的方式输入的中文语句；还可以是用户使用具备OCR(OpticalCharacter Recognition，光学字符识别)功能的设备扫描得到的中文语句。

在本发明的一个实施例中，可以将用户输入的中文语句中的所有中文字符都转换为具有相同字符长度的字符串，以降低中文语句的特征维度，进而能够提高对话生成模型生成应答语句的效率。

在本发明的一个实施例中，步骤S310具体可以包括：根据字符标识与汉语拼音包含的拼音元素之间的对应关系，以及所述中文语句中包含的中文字符的拼音，将所述中文字符转换为包含相同数量个字符标识的字符串。

需要说明的是，拼音元素可以是汉语拼音中包含的声母和韵母。由于中文字符的拼音是由声母和韵母构成的，因此每个中文字符的拼音都可以通过拼音元素来表示。字符标识可以是键盘(实体键盘或虚拟键盘)上的各个按键对应的标识，比如键盘上的字母“Q”、“W”等。在本发明的实施例中，字符标识可以与拼音元素进行对应，比如可以将字符“L”与“uang”进行对应，那么在键盘上点击“L”键，会输入“uang”。

在本发明的一个实施例中，如图4所示，根据字符标识与汉语拼音包含的拼音元素之间的对应关系，以及所述中文语句中包含的中文字符的拼音，将所述中文字符转换为包含相同数量个字符标识的字符串，具体包括如下步骤S410、步骤S420和步骤S430：

步骤S410，根据所述中文字符的拼音，将所述中文字符的拼音划分为第一拼音元素和第二拼音元素。

在本发明的一个实施例中，第一拼音元素可以是中文字符的拼音中包含的声母，第二拼音元素可以是中文字符的拼音中包含的韵母。比如中文字符“北”，其拼音为“bei”，那么第一拼音元素即为“b”，第二拼音元素即为“ei”。

特别地，对于拼音中无声母的中文字符，可以将韵母的首字母当作声母。具体地，对于拼音为零声母+单字母韵母的中文字符，其第一拼音元素和第二拼音元素可以相同，如对于中文字符“啊”，其第一拼音元素和第二拼音元素可以都为“a”。对于拼音为零声母+双字母韵母的中文字符，比如“爱”，其第一拼音元素可以为“a”，第二拼音元素可以为“ai”。对于拼音为零声母+三字母韵母的中文字符，如“昂”，其第一拼音元素可以为“a”，第二拼音元素可以为“ang”。

步骤S420，根据所述字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识。

在本发明的一个实施例中，如上所述，各个拼音元素可以与字符标识进行对应，因此可以根据该对应关系，确定第一拼音元素对应的第一字符标识和第二拼音元素对应的第二字符标识。

步骤S430，根据所述第一字符标识和所述第二字符标识，生成所述中文字符转换得到的字符串。

在本发明的一个实施例中，可以将第一字符标识和第二字符标识进行组合，以生成中文字符转换得到的字符串。比如拼音元素“L”对应于字符标识“L”，拼音元素“iang”对应于字符标识“L”，那么对于中文字符“凉”，由于其包含的第一拼音元素为“L”，第二拼音元素为“iang”，因此中文字符“凉”转换得到的字符串即为“LL”。

在本发明的一个实施例中，由于中文语句中包含了多个中文字符，因此为了对各个中文字符转换得到的字符串进行区分，可以在其中添加终止符。具体地，可以将上述第一字符标识、第二字符标识和预定的终止符进行组合来生成中文字符转换得到的字符串。继续以上述示例为例，假设终止符为“*”，那么中文字符“凉”转换得到的字符串即为“LL*”。需要说明的是，终止符还可以是空格或者其它字符，比如“&”等。

在本发明的一个实施例中，还可以根据中文字符的声调，生成中文字符的声调字符，进而根据上述的第一字符标识、第二字符标识和声调字符生成中文字符转换得到的字符串，或者根据第一字符标识、第二字符标识、声调字符和终止符生成中文字符转换得到的字符串。

继续以上述示例为例，中文字符“凉”的声调为2声，因此根据第一字符标识、第二字符标识和声调字符生成的字符串为“LL2”，根据第一字符标识、第二字符标识、声调字符和终止符生成的字符串为“LL2*”。

继续参照图3所示，在步骤S320中，根据所述中文语句中的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合。

在本发明的一个实施例中，可以直接将中文语句中包含的中文字符转换得到的字符串进行组合来生成中文语句对应的字符串组合。比如中文字符“我”转换得到的字符串为“wo”、中文字符“爱”转换得到的字符串为“ai”、中文字符“北”转换得到的字符串为“bw”、中文字符“京”转换得到的字符串为“jk”，那么中文语句“我爱北京”转换得到的字符串组合为“wo ai bw jk”，该实施例中以终止符为空格为例进行了说明。

在本发明的另一个实施例中，对于包含有标点符号的中文语句，可以将标点符号也转换为字符串，然后将中文语句中包含的中文字符转换得到的字符串和标点符号对应的字符串进行组合，以生成中文语句对应的字符串组合。比如，若标点符号“。”转换得到的字符串为“ab”，那么中文语句“我爱北京”转换得到的字符串组合为“wo ai bw jk ab”。

需要说明的是，为了将字符串的长度进行统一，标点符号对应的字符串的字符长度应当与中文字符转换得到的字符串的字符长度相同，这样可以降低中文语句的特征维度，进而能够提高模型的训练效率及生成应答语句的效率。

继续参照图3所示，在步骤S330中，将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合。

在本发明的一个实施例中，对话生成模型事先通过对话数据进行了训练，因此当输入一个字符串组合时，能够输出与之对应的另一个字符串组合，进而能够实现机器的自动应答。

在本发明的一个实施例中，对话生成模型的训练过程具体可以如图5所示，具体包括如下步骤：

步骤S510，获取用于训练对话生成模型的对话数据。

在本发明的一个实施例中，对对话生成模型进行训练的对话数据可以是全领域的对话数据，比如从互联网上收集到的大规模对话数据，当然对对话生成模型进行训练的对话数据也可以是某一个领域或者某些领域的对话数据。其中，对话生成模型可以是Seq2Seq模型。

步骤S520，将所述对话数据中的中文语句所包含的中文字符转换为具有相同字符长度的字符串。

在本发明的一个实施例中，在将对话数据中的中文语句包含的中文字符转换为字符串时，均可以按照本发明上述实施例中所述的方案进行转换，以确保将对话数据中的中文语句所包含的中文字符都转换为相同长度的字符串。

步骤S530，根据所述对话数据中的中文语句所包含的中文字符转换得到的字符串，生成中文语句对应的字符串组合。

在本发明的一个实施例中，在根据对话数据中的中文语句所包含的中文字符转换得到的字符串生成中文语句对应的字符串组合时，也可以按照本发明上述实施例中所述的方案来生成。

步骤S540，通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

图5所示实施例的技术方案使得能够将对话数据中的中文语句所包含的中文字符转换为相同长度的字符串，进而能够降低中文语句的特征维度，从而能够提高模型的训练效率。

继续参照图3所示，在步骤S340中，根据所述应答语句对应的字符串组合，生成所述应答语句。

在本发明的一个实施例中，可以将应答语句对应的字符串组合输入至预定的语言模型知识库，以根据该语言模型知识库确定应答语句的中文表达。

在该实施例中，预定的语言模型知识库可以是输入法应用程序，由于目前的输入法应用程序本身就是一个庞大的语言模型知识库，因此通过借助于现有的输入法应用程序来生成应答语句，可以降低对话生成模型的学习成本，提高了应答语句的生成效率和生成的应答语句的准确性。

在本发明的一个实施例中，在将应答语句对应的字符串组合输入至预定的语言模型知识库之前，还可以检测应答语句对应的字符串组合中包含的不合法的字符串，然后删除或校正应答语句对应的字符串组合中所包含的不合法的字符串，以提高根据字符串组合生成的应答语句的准确性。

以上对本发明实施例的基本原理及具体方案进行了阐述，以下结合图6至图7对本发明实施例的技术方案的实现细节进行说明。

在本发明的一个实施例中，基本的对话生成模型主要包含以下三个模块：

1、Encoder(编码器)，用于将用户的问题(即用户输入的语句)编码为模型可以理解的形式，比如将用户的问题编码为向量。

2、Decoder(解码器)，用于对编码器的编码结果进行解码，得到多个字符。

3、BinSearch(二分查找)，用于通过检索的方式，根据Decoder的输出检索得到一个最佳的结果。

在基于对话生成模型来生成应答语句之前，需要对对话生成模型进行训练，而特征字典是训练对话生成模型的一个基本要素，如果字典规模太大，则不仅需要较多的训练数据，而且会导致模型训练速度变慢，模型训练难以收敛；如果字典规模太小，则会过分增加模型的训练难度。对于中文而言，当将中文语句的分词结果作为对话生成模型的输入进行训练时，特征维度一般为几万甚至数十万，而将中文语句分字或者按照GBK编码作为对话生成模型的输入进行训练时，特征维度一般为几千或一两万。如果将中文映射为拼音，虽然可以减小字典的规模，但是由于不同中文字符的拼音长度不一致，会导致额外的学习过程，增加了对话生成算法的难度，并且效果不佳。基于此，在本发明的实施例中，提出来基于汉字双拼的方式来生成应答语句的方案，这样使得每个汉字都可以表示为固定长度的字符串，比如通过两个字母来表示、或者通过两个字母和一个声调字符来表示，还可以在上述两者的基础上再添加终止符来表示。

由于将每个汉字都表示为相同长度的字符串，因此可以解决汉字拼音长度不一致的问题。同时这种表示方式相比于拼音的方式能够缩短字符的长度，比如中文语句“我爱北京”转换为拼音表示为“wo ai bei jing”，而用双拼的方式则表示为“wo ai bw jk”。可见，本发明实施例的技术方案不仅能够将每个汉字表示为相同长度的字符串，而且能够缩短中文语句转换得到的字符串长度，进而能够提升模型训练的效率。比如对于RNN(RecurrentNeural Network，循环神经网络)网络模型而言，由于RNN网络模型由于梯度消散或梯度爆炸等原因难以训练较长的句子，因为在采用本发明实施例的技术方案之后可以显著提升RNN网络模型的训练效率。

在本发明的一个实施例中，可以按照图6所示的拼音元素与字母之间的对应关系来对中文字符和中文语句进行编码，比如“L＝uang或iang”，那么中文字符“凉”可以表示为“LL”(在不考虑声调和终止符的情况下)。除此之外，在本发明的实施例中，还可以使用字符组合来表示标点符号，比如“ab”在图6所示的对应关系并不能用于表示中文字符，那么可以用其表示标点符号“。”，其他标点符号的表示方式与之类似。

需要说明的是，图6中所示的拼音元素与字符之间的对应关系仅为示例，在本发明的其它实施例中，可以根据实际需要调整拼音元素与字符之间的对应关系，比如拼音元素也可以对应字母字符之外的其它字符，比如字符“#”、“^”等。

在本发明的实施例中，对话生成模型可以采用如图7所示的RNN Encoder Decoder的框架。Encoder 701主要将输入的中文语句编码到一个隐向量中，Decoder 702负责对这个隐向量进行解码，得到最后输出的应答语句。RNN Encoder Decoder可以看作是最大化给定输入中文语句的条件下输出应答语句的条件概率。假设有一个语料集

其中x_i表示输入的中文语句，y_i表示输出的应答语句，N表示语料中问题与答案对的个数，那么对话生成模型的目标函数可以表示为：

以下对本发明实施例的对话生成模型中包含的Encoder和Decoder的具体过程进行说明：

在本发明的一个实施例中，在编码阶段，可以将中文表示为“两个字母+一个声调字符+一个终止符”的形式，也可以选择不使用声调，仅表示为“两个字母+一个终止符”的形式。比如对于中文汉字“凉”，则可以将其表示为“LL2*”，其中“*”表示终止符，“2”表示声调字符；当不使用声调字符时，可以将其表示为“LL*”。

需要说明的是，在本发明的实施例中，在模型训练阶段，可以将所有的会话数据均通过上述编码方式将中文字符进行编码，然后对对话生成模型进行训练，对话生成模型可以使用Seq2Seq算法模型。当对模型训练完成之后，可以将用户输入的中文语句输入至训练后的模型中，然后通过模型得到应答语句对应的字符串组合(该过程详细说明如下)。

在本发明的一个实施例中，在解码阶段，需要生成应答语句对应的字符串组合，由于在不考虑声调字符的情况下，所有的中文字符均由两个字母及终止符组成，因此在生成应答语句对应的字符串时，所有的中文字符都只生成两个字母和终止符，字母组合有限且几乎不存在字符重复风险，生成过程中可以按照规则输出，即先输出两个字母，随即输出空格(该实施例中，空格即为终止符)，然后再继续选择是否接着生成两个字母，如果不再生成(比如任意两个字符的组合概率都过低)，则应答语句对应的字符串组合生成结束，该过程极大的降低了生成中文字符的字符串的不确定性，从而降低了生成难度。需要说明的是，如果在生成字符串组合时需要考虑声调，则可以先输出两个字母，随即输出1～4之间的数字(表示声调)，紧接着输出空格。当获取到应答语句对应的字符串组合之后，可以将该字符串组合中包含的不合法的组合删掉，比如删掉没有实际意义的“ae”、“ar”等。

在本发明的一个实施例中，考虑到已有的输入法软件本身可以作为一个庞大的语言模型知识库，因此在得到应答语句对应的字符串组合之后，可以将该字符串组合输入至输入法软件，以借助于输入法软件来生成最终的应答语句，这种方式极大降低了对话生成模型的学习成本，并且由于输入法软件已经比较成熟，因此也可以有效避免生成的应答语句中存在的语法错误。同时，在本发明的一个实施例中，由于在向输入法软件中输入一个字符串组合时，输入法软件可能会给出多种结果，因此为了保证得到较优的结果，可以将用户选择概率较大的语句作为最终的结果。比如可以根据用户的使用习惯来确定用户选择概率比较大的语句，进而优先输出用户选择概率比较大的语句。

可见，在本发明实施例的对话生成模型中，无需采用前述的BinSearch方法，而是借助于已经成熟的输入法软件来确保快速、准确地生成应答语句。

在本发明的一个具体应用场景中，以中文语句“我现在使用的是双拼输入法”为例进行说明。

假设对话生成模型根据用户输入的语句生成了一串符合语法的字符串组合“woxm zd ui ys de ui ul pb uu ru fa”，那么可以首先尝试将其完整的送入输入法软件后得到一个较为完整的句子。或者也可以以四个字为单位进行输入，比如输入“wo xm zd ui”得到“我现在是”，输入“ys de ui ul”得到“用的是双”，输入“pb uu ru fa”得到“品输入法”，组合起来即“我现在是用的是双品输入法”，虽说字面上看句子错误率较高，但实际并不妨碍阅读。

假设对话生成模型根据用户输入的语句生成了一串包含错误语法的字符串组合“wo xm zd ui ys de uu pb uu ru”，那么将其完整输入到输入法软件中可以得到“我现在使用的书拼输入”，可见生成的句子大部分都为正确结果，虽说存在错字“书”但对于了解双拼输入的人来讲，并不会导致句子语义发生明显变化。若以四个字为单位进行输入，比如输入“wo xm zd ui”得到“我现在是”，输入“ys de uu pb”得到“用得书品”，输入“uu ru”得到“输入”，最终得到的结果与完整输入至输入法软件中得到的结果几乎没有差别。

可见，在本发明的实施例中，借助于输入法软件可以很好解决应答语句的生成问题，保证生成的应答语句具有较高的准确性。

图8示意性示出了根据本发明的一个实施例的应答语句的生成方法的整体流程图，具体包括如下步骤：

步骤S801，获得用户的输入“今天天气真好”。

需要说明的是，该实施例中以用户输入了“今天天气真好”为例进行说明，在本发明的其它实施例中，用户可以输入任意的中文语句。

步骤S802，将用户输入的中文语句转换为字符串组合“jb tm tm qi vf hc”。在该实施例中，以将每个中文字符转换为两个字母和终止符为例进行了说明，在本发明的其它实施例中，也可以将每个中文字符转换为两个字母、一个声调字符和一个终止符。

步骤S803，对字符串组合进行编码，得到编码结果。

在该实施例中，编码过程主要是将步骤S802中得到的字符串组合编码至一个隐向量中。

步骤S804，对编码结果进行解码，生成应答语句对应的字符串组合“ui aa ng jmdu hf gc”。在实施例即为对步骤S803中得到的隐向量进行解码，以得到应答语句对应的字符串组合。

步骤S805，基于应答语句对应的字符串组合生成应答语句“是啊能见度很高”

在本发明的一个实施例中，可以将应答语句对应的字符串组合输入至输入法软件中，以得到最终的应答语句。

本发明上述实施例的技术方案可以应用在用户与智能交互设备进行对话的场景中，比如智能交互设备可以是智能音响、智能穿戴设备或智能机器人等，用户可以通过语音说出“今天天气真好”，进而该智能交互设备能够通过语音识别技术识别到用户输入的中文语句，然后生成相应的应答语句“是啊能见度很高”，并通过语音播放的形式将该应答语句播放出来，以实现与用户之间的语音交互。

在本发明上述实施例技术方案的另一个应用场景中，用户可以通过智能设备(如智能手机、平板电脑等)提供的实体键盘或者触摸屏手动输入中文语句“今天天气真好”，进而该智能设备可以根据该中文语句生成相应的应答语句“是啊能见度很高”，并通过显示屏和/或语音播放的形式将该应答语句呈现给用户。

在本发明上述实施例技术方案的又一个应用场景中，用户可以通过具备OCR功能的智能设备(如智能手机、平板电脑等)扫描中文语句，比如扫描中文语句“今天天气真好”，进而该智能设备可以识别到该中文语句，并根据该中文语句生成相应的应答语句“是啊能见度很高”，然后通过显示屏和/或语音播放的形式将该应答语句呈现给用户。

综上，本发明实施例的技术方案可以将所有的中文字符转换为固定长度的字符串，大大缩减了对话生成模型的特征规模，提升了对话生成模型的效率。并且由于每个中文字符都表示为相同的长度，因此能够减少对话生成模型生成应答语句对应的字符串组合的不确定性，提高了对话生成模型的输出准确性。此外，本发明实施例中借助于已有的输入法软件来生成应答语句，可以降低对话生成模型的学习成本，并且能够提高生成的应答语句的准确性，有效避免了生成的应答语句中存在的文法错误。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的应答语句的生成方法和对话生成模型的训练方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的应答语句的生成方法及对话生成模型的训练方法的实施例。

图9示意性示出了根据本发明的一个实施例的应答语句的生成装置的框图。

参照图9所示，根据本发明的一个实施例的应答语句的生成装置900，包括：转换单元901、第一生成单元902、获取单元903和第二生成单元904。

其中，转换单元901用于根据用户输入的中文语句，将所述中文语句中的中文字符转换为具有相同字符长度的字符串；第一生成单元902用于根据所述中文语句中的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；获取单元903用于将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；第二生成单元904用于根据所述应答语句对应的字符串组合，生成所述应答语句。

在本发明的一个实施例中，所述转换单元901用于：根据字符标识与汉语拼音包含的拼音元素之间的对应关系，以及所述中文语句中包含的中文字符的拼音，将所述中文字符转换为包含相同数量个字符标识的字符串。

在本发明的一个实施例中，如图10所示，所述转换单元901包括：划分单元9011、确定单元9012和第三生成单元9013。

其中，划分单元9011用于根据所述中文字符的拼音，将所述中文字符的拼音划分为第一拼音元素和第二拼音元素；确定单元9012用于根据所述字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识；第三生成单元9013用于根据所述第一字符标识和所述第二字符标识，生成所述中文字符转换得到的字符串。

在本发明的一个实施例中，所述第三生成单元9013用于：将所述第一字符标识、所述第二字符标识和预定的终止符进行组合，以生成所述中文字符转换得到的字符串。

在本发明的一个实施例中，所述第三生成单元9013用于：根据所述中文字符的声调，生成所述中文字符的声调字符；根据所述第一字符标识、所述第二字符标识和所述声调字符，生成所述中文字符转换得到的字符串。

在本发明的一个实施例中，所述第三生成单元9013用于：将所述第一字符标识、所述第二字符标识、所述声调字符和预定的终止符进行组合，以生成所述中文字符转换得到的字符串。

在本发明的一个实施例中，所述第一生成单元902用于：确定所述中文语句中包含的标点符号对应的字符串；将所述中文语句中的中文字符转换得到的字符串与所述标点符号对应的字符串进行组合，以生成所述中文语句对应的字符串组合。

在本发明的一个实施例中，所述标点符号对应的字符串的字符长度与所述中文字符转换得到的字符串的字符长度相同。

在本发明的一个实施例中，所述第二生成单元904用于：将所述应答语句对应的字符串组合输入至预定的语言模型知识库，以根据所述语言模型知识库确定所述应答语句的中文表达。

在本发明的一个实施例中，图9中所示的应答语句的生成装置900还可以包括：检测单元，用于在将所述应答语句对应的字符串组合输入至预定的语言模型知识库中之前，检测所述应答语句对应的字符串组合中包含的不合法的字符串；处理单元，用于删除或校正所述应答语句对应的字符串组合中所包含的不合法的字符串。

参照图11所示，根据本发明的一个实施例的对话生成模型的训练装置1100，包括：获取单元1101、转换单元1102、生成单元1103和训练单元1104。

其中，获取单元1101用于获取用于训练对话生成模型的对话数据；转换单元1102用于将所述对话数据中的中文语句所包含的中文字符转换为具有相同字符长度的字符串；生成单元1103用于根据所述中文语句所包含的中文字符转换得到的字符串，生成所述中文语句对应的字符串组合；训练单元1104用于通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种应答语句的生成方法，其特征在于，包括：

根据输入的中文语句中所包含的中文字符，将所述中文字符的拼音划分为第一拼音元素和第二拼音元素；

根据字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识；

根据所述第一字符标识和所述第二字符标识，生成所述中文语句中的中文字符转换得到的具有相同字符长度的字符串；

根据所述中文语句中的中文字符转换得到的具有相同字符长度的字符串，生成所述中文语句对应的字符串组合；

将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；

根据所述应答语句对应的字符串组合，生成所述应答语句。

2.根据权利要求1所述的应答语句的生成方法，其特征在于，根据所述第一字符标识和所述第二字符标识，生成所述中文语句中的中文字符转换得到的具有相同字符长度的字符串，包括：

将所述第一字符标识、所述第二字符标识和预定的终止符进行组合，以生成所述中文字符转换得到的具有相同字符长度的字符串。

3.根据权利要求1所述的应答语句的生成方法，其特征在于，还包括：根据所述中文字符的声调，生成所述中文字符的声调字符；

根据所述第一字符标识和所述第二字符标识，生成所述中文语句中的中文字符转换得到的具有相同字符长度的字符串，包括：

根据所述第一字符标识、所述第二字符标识和所述声调字符，生成所述中文字符转换得到的具有相同字符长度的字符串。

4.根据权利要求3所述的应答语句的生成方法，其特征在于，根据所述第一字符标识、所述第二字符标识和所述声调字符，生成所述中文字符转换得到的具有相同字符长度的字符串，包括：

将所述第一字符标识、所述第二字符标识、所述声调字符和预定的终止符进行组合，以生成所述中文字符转换得到的具有相同字符长度的字符串。

5.根据权利要求1所述的应答语句的生成方法，其特征在于，根据所述中文语句中的中文字符转换得到的具有相同字符长度的字符串，生成所述中文语句对应的字符串组合，包括：

确定所述中文语句中包含的标点符号对应的字符串；

将所述中文语句中的中文字符转换得到的字符串与所述标点符号对应的字符串进行组合，以生成所述中文语句对应的字符串组合。

6.根据权利要求5所述的应答语句的生成方法，其特征在于，所述标点符号对应的字符串的字符长度与所述中文字符转换得到的字符串的字符长度相同。

7.根据权利要求1至6中任一项所述的应答语句的生成方法，其特征在于，根据所述应答语句对应的字符串组合，生成所述应答语句，包括：

将所述应答语句对应的字符串组合输入至预定的语言模型知识库中，以根据所述语言模型知识库确定所述应答语句的中文表达。

8.根据权利要求7所述的应答语句的生成方法，其特征在于，在将所述应答语句对应的字符串组合输入至预定的语言模型知识库中之前，还包括：

检测所述应答语句对应的字符串组合中包含的不合法的字符串；

删除或校正所述应答语句对应的字符串组合中所包含的不合法的字符串。

9.一种对话生成模型的训练方法，其特征在于，包括：

获取用于训练对话生成模型的对话数据；

将所述对话数据中的中文语句所包含的中文字符的拼音划分为第一拼音元素和第二拼音元素；

根据所述第一字符标识和所述第二字符标识，生成所述中文语句所包含的中文字符转换得到的具有相同字符长度的字符串；

根据所述中文语句所包含的中文字符转换得到的具有相同字符长度的字符串，生成所述中文语句对应的字符串组合；

通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

10.一种应答语句的生成装置，其特征在于，包括：

转换单元，用于根据输入的中文语句中所包含的中文字符，将所述中文字符的拼音划分为第一拼音元素和第二拼音元素；根据字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识；根据所述第一字符标识和所述第二字符标识，生成所述中文语句中的中文字符转换得到的具有相同字符长度的字符串；

第一生成单元，用于根据所述中文语句中的中文字符转换得到的具有相同字符长度的字符串，生成所述中文语句对应的字符串组合；

获取单元，用于将所述中文语句对应的字符串组合输入至对话生成模型中，以获取所述中文语句的应答语句对应的字符串组合；

第二生成单元，用于根据所述应答语句对应的字符串组合，生成所述应答语句。

11.一种对话生成模型的训练装置，其特征在于，包括：

获取单元，用于获取用于训练对话生成模型的对话数据；

转换单元，用于将所述对话数据中的中文语句所包含的中文字符的拼音划分为第一拼音元素和第二拼音元素；根据字符标识与汉语拼音包含的拼音元素之间的对应关系，确定所述第一拼音元素对应的第一字符标识和所述第二拼音元素对应的第二字符标识；根据所述第一字符标识和所述第二字符标识，生成所述中文语句所包含的中文字符转换得到的具有相同字符长度的字符串；

生成单元，用于根据所述中文语句所包含的中文字符转换得到的具有相同字符长度的字符串，生成所述中文语句对应的字符串组合；

训练单元，用于通过所述对话数据中的中文语句对应的字符串组合对所述对话生成模型进行训练。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的应答语句的生成方法，或实现如权利要求9中所述的对话生成模型的训练方法。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的应答语句的生成方法，或实现如权利要求9中所述的对话生成模型的训练方法。