CN108763462A

CN108763462A - 平行语句库的更新方法、设备及计算机可读存储介质

Info

Publication number: CN108763462A
Application number: CN201810526133.0A
Authority: CN
Inventors: 卢道和; 赵伟伟; 杨海军; 张超
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-06
Anticipated expiration: 2038-05-28
Also published as: CN108763462B

Abstract

本发明公开了一种平行语句库的更新方法、设备及计算机可读存储介质，该方法包括步骤：当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句；对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库；合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作。本发明实现了自动更新平行语句库的更新操作，提高了更新平行语句库更新效率。

Description

平行语句库的更新方法、设备及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种平行语句库的更新方法、设备及计算机可读存储介质。

背景技术

平行语句可应用在机器翻译领域，平行语句可用在不同语种之间，用多个不同语种句子表达相同的语义；平行语句也可用在同一语种下，用多个不同表述的句子表达相同的语义。例如，“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义，但是表述不同。由于自然语言本身的复杂性，某一个相同的语义可能会有多种不同的句子表述，这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域，知识库的标准QA(Question and Answer，问题和答案)有限，因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大，例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题，需要尽可能多的为标准问题添加平行语句，尽可能多样化的描述标准问题，因此需要定期更新平行语句库中的平行语句。

目前更新平行语句库的方法为人工更新，即由对应的工作人员手动确认平行语句库中与标准问题关联的语句是否是平行语句。当确认与标准问题关联的语句不是标准问题的平行语句时，解除标准问题与该语句的关联关系。由此可知，人工更新平行语句库的效率低下。

发明内容

本发明的主要目的在于提供一种平行语句库的更新方法、设备及计算机可读存储介质，旨在解决现有的人工更新平行语句库效率低下的技术问题。

为实现上述目的，本发明提供一种平行语句库的更新方法，所述平行语句库的更新方法包括步骤：

当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句；

对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库；

合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作。

优选地，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括：

当侦测到更新平行语句库的更新指令后，检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息；

若所述平行语句存在所述标注信息，且所述标注信息为第一标注信息，则确定存在所述第一标注信息的平行语句为待调整平行语句；

若所述平行语句未存在所述标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句；

计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度，其中，计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类；

若所述第一相似度小于所述第一预设阈值，则确定未存在所述标注信息的平行语句为待调整平行语句。

优选地，所述若所述平行语句未存在所述标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句的步骤包括：

若所述平行语句未存在所述标注信息，则获取各个预设主题类中各个平行语句在预设时长内的显示频数；

获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句。

优选地，所述获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括：

获取各个预设主题类中显示频数最高的平行语句，将显示频数最高的平行语句记为目标语句；

判断是否只存在一个所述目标语句；

若只存在一个所述目标语句，则将所述目标语句作为对应预设主题类调整后的主句；

若存在至少两个所述目标语句，则获取所述目标语句的字数，将所述字数最多的目标语句作为对应预设主题类调整后的主句。

优选地，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括：

当侦测到更新平行语句库的更新指令后，检测所述更新指令的类别；

若所述更新指令是自动更新指令，则根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。

优选地，所述当侦测到更新平行语句库的更新指令后，检测所述更新指令的类别的步骤之后，还包括：

若所述更新指令是手动更新指令，则根据用户触发的获取指令获取所述平行语句库中预设主题类的主句和平行语句，并在显示界面中显示所述预设主题类的主句和平行语句；

当侦测到确认所述预设主题类的主句和平行语句语义不同的确认指令后，为与所述预设主题类主句语义不同的平行语句添加第一标注信息；

当侦测到确认所述预设主题类的主句和平行语句语义相同的确认指令后，为与所述预设主题类主句语义相同的平行语句添加第二标注信息。

优选地，所述对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库的步骤包括：

计算所述待调整平行语句中每个词的词向量，根据所述词向量确定所述待调整平行语句的句向量；

根据所述句向量对所述待调整平行语句进行聚类，以确定各个所述待调整平行语句对应的目标主题类；

确定所述目标主题类中的主句，记为第一主句，并获取所述平行语句库中各个预设主题类的主句，记为第二主句；

计算所述第一主句和所述第二主句之间的相似度，并获取所述相似度中的最大值；

若所述最大值大于或者等于第二预设阈值，则将所述第一主句所在目标主题类添加至所述最大值对应的第二主句所在的预设主题类中，以得到更新后的所述平行语句库；

若所述最大值小于所述第二预设阈值，则将所述第一主句所在的目标主题类作为新的主题类添加至所述平行语句库中，以得到更新后的所述平行语句库。

优选地，所述合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作的步骤包括：

获取更新后的所述平行语句库中各个主题类的主句，将更新后的所述平行语句库中其中一个主题类的主句作为第三主句，将更新后的所述平行语句库中剩余主题类的主句作为第四主句；

计算所述第三主句和第四主句之间的第二相似度；

若所述第二相似度大于或者等于第三预设阈值，则将所述第三主句所在的主题类中的平行语句添加至所述第四主句所在的主题类中，删除所述第三主句所在的主题类，以完成更新所述平行语句库的更新操作。

此外，为实现上述目的，本发明还提供一种平行语句库的更新设备，所述平行语句库的更新设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的平行语句库的更新程序，所述平行语句库的更新程序被所述处理器执行时实现如上所述的平行语句库的更新方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有平行语句库的更新程序，所述平行语句库的更新程序被处理器执行时实现如上所述的平行语句库的更新方法的步骤。

本发明通过在侦测到更新平行语句库的更新指令后，根据更新指令确定平行语句库中需要调整的待调整平行语句，并将待调整平行语句重新添加至平行语句库中，得到更新后的平行语句库，并合并更新后的平行语句库中的各个主题类，实现了自动更新平行语句库的更新操作，提高了更新平行语句库更新效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明平行语句库的更新方法较佳实施例的流程示意图；

图3为本发明实施例中当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的一种流程示意图；

图4为本发明实施例中获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的一种流程示意图；

图5为本发明实施例中当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的另一种流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为平行语句库的更新设备的硬件运行环境的结构示意图。本发明实施例平行语句库的更新设备可以是PC，便携计算机等终端设备。

如图1所示，该平行语句库的更新设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的平行语句库的更新设备结构并不构成对平行语句库的更新设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及平行语句库的更新程序。其中，操作系统是管理和控制平行语句库的更新设备硬件和软件资源的程序，支持平行语句库的更新程序以及其它软件或程序的运行。

在图1所示的平行语句库的更新设备中，用户接口1003主要用于获取用户触发的更新指令和获取指令等；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信，如查找待回答问题对应的答案；而处理器1001可以用于调用存储器1005中存储的平行语句库的更新程序，并执行以下操作：

进一步地，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括：

进一步地，所述若所述平行语句未存在所述标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句的步骤包括：

进一步地，所述获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括：

判断是否只存在一个所述目标语句；

进一步地，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括：

进一步地，所述当侦测到更新平行语句库的更新指令后，检测所述更新指令的类别的步骤之后，处理器1001还可以用于调用存储器1005中存储的平行语句库的更新程序，并执行以下步骤：

进一步地，所述对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库的步骤包括：

进一步地，所述合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作的步骤包括：

计算所述第三主句和第四主句之间的第二相似度；

基于上述的结构，提出平行语句库的更新方法的各个实施例。平行语句库的更新方法应用于平行语句库的更新设备，平行语句库的更新设备可为PC，便携计算机等终端设备。为了描述的简便，在以下平行语句库的更新方法的各个实施例中，省略平行语句库的更新设备这个执行主体。

参照图2，图2为本发明平行语句库的更新方法较佳实施例的流程示意图。

本发明实施例提供了平行语句库的更新方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

平行语句库的更新方法包括：

步骤S10，当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。

当侦测到更新平行语句库的更新指令后，根据该更新指令确定平行语句库中各个预设主题类所需调整的待调整平行语句。其中，更新指令由平行语句库的更新设备根据定时任务定时触发，该定时任务对应的时长可根据具体需要而设置，如可设置为10天、15天或者30天等。平行语句库中的预设主题类是平行语句库中已有的主题类，每个主题类中的语句表示同一个语义，每个主题类中含有至少两个平行语句。

进一步地，参照图3，步骤S10包括：

步骤S11，当侦测到更新平行语句库的更新指令后，检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息。

进一步地，当侦测到更新平行语句库的更新指令后，根据该更新指令检测平行语句库中各个预设主题类中的平行语句是否存在标注信息。其中，该标注信息是由标注人员根据需要进行标注。

步骤S12，若所述平行语句存在所述标注信息，且所述标注信息为第一标注信息，则确定存在所述第一标注信息的平行语句为待调整平行语句。

若检测到平行语句存在标注信息，则判断标注信息的类型。若确定标注信息为第一标注信息，则确定存在第一标注信息的平行语句为待调整平行语句。若确定标注信息为第二标注信息，则确定存在第二标注信息的平行语句为不需要调整的平行语句。其中，第一标注信息为表示平行语句与该平行语句所在的主题类的主句语义不同；第二标注信息为表示平行语句与该平行语句所在的主题类的主句语义相同。第一标注信息和第二标注信息的具体表现形式可根据具体需要而设置，本实施例对第一标注信息和第二标注信息的具体表现形式不做限制。

步骤S13，若所述平行语句未存在所述标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句。

若检测到平行语句未存在标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句。其中，在平行语句库中，已预先为各个预设主题类设置好了主句。

进一步地，步骤S13包括：

步骤a，若所述平行语句未存在所述标注信息，则获取各个预设主题类中各个平行语句在预设时长内的显示频数。

进一步地，调整各个预设主题类的主句的过程为：若检测到平行语句未存在标注信息，则获取各个预设主题类中各个平行语句在预设时长内的显示频数。其中，显示频数为平行语句在预设时长内被用户询问的次数，即当一个用户问一次该平行语句时，在对应平行语句的计数器上加1，以确定该平行语句的显示频数。预设时长可根据具体需要而设置，如可将预设时长设置为与触发更新指令定时任务对应的时长一致，或者将预设时长设置为与该定时任务对应的时长不一致。

步骤b，获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句。

当获取到预设主题类中各个平行语句的显示频数后，获取各个预设主题类中显示频数最高的平行语句，并将显示频数最高的平行语句作为对应预设主题类调整后的主句，即将显示频数最高的平行语句替换对应预设主题类已有的主句。

步骤S14，计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度，其中，计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类。

当得到预设主题类调整后的主句后，计算未存在标注信息的平行语句与调整后的主句之间的相似度，并将未存在标注信息的平行语句与调整后的主句之间的相似度记为第一相似度。其中，计算第一相似度的平行语句和调整后的主句属于同一预设主题类。

计算未存在标注信息的平行语句与调整后的主句之间的相似度的过程为：将未存在标注信息的平行语句进行分词，将分词后的未存在标注信息的平行语句转成第一向量序列，以及将调整后的主句进行分词，将分词后所得的调整后的主句转成第二向量序列。具体地，可通过word2vec工具将未存在标注信息的平行语句和调整后的主句转换成对应的第一向量序列和第二向量序列。在通过word2vec工具将未存在标注信息的平行语句和调整后的主句转换成对应的第一向量序列和第二向量序列过程中，可按照未存在标注信息的平行语句和调整后的主句中各个词的排列顺序，将各个词的词向量进行排列，得到对应的第一向量序列和第二向量序列。

word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练，word2vec工具得到的训练结果——词向量(word embedding)，可以很好地度量词与词之间的相似性。在word2vec中，word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模型。CBOW是从原始语句推测目标字词，CBOW模型等价于一个词袋模型的向量乘以一个embedding矩阵，从而得到一个连续的embedding向量；而Skip-Gram正好相反，是从目标字词推测出原始语句。可以理解的是，在本实施例中，语言处理工具也可为其它可以实现与word2vec同样功能的工具。

当得到第一向量序列和第二向量序列后，将第一向量序列和第二向量序列输入至预设的双向长短期记忆网络(LSTM，Long Short-Term Memory)中，得到双向长短期记忆网络输出的值。可以理解的是，双向长短期记忆网络输出的值即为未存在标注信息的平行语句和调整后的主句之间的相似度。其中，双向长短期记忆网络是预先创建好的。在创建双向长短期记忆网络过程中，获取相似语料库。在相似语料库中，已经由相应的用户为每两个句子之间设置对应的相似度值。如“今天天气很好”和“今天天气晴朗”相似度值为1；“今天天气很好”和”今天天气很差”相似度值为0。在本实施例中，双向长短期记忆网络输出的值的范围为0至1，双向长短期记忆网络输出的值越高，表示两个句子之间的越相似。

在获取到相似语料库后，将语料库中的任意两个句子转换成对应的向量序列，输入至双向长短期记忆网络中，使双向长期短期记忆网络输出与这两个句子对应的相似度值，以构建双向长短期记忆网络。

步骤S15，若所述第一相似度小于所述第一预设阈值，则确定未存在所述标注信息的平行语句为待调整平行语句。

当计算得到第一相似度后，判断第一相似度是否小于第一预设阈值。若第一相似度小于第一预设阈值，则确定未存在标注信息的平行语句为待调整平行语句；若第一相似度大于或者等于第一预设阈值，则确定未存在标注信息的平行语句为不需要调整的平行语句。其中，第一预设阈值可根据具体需要而设置，在本实施例中对第一预设阈值不做具体限制。

步骤S20，对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库。

当确定各个预设主题类中的待调整平行语句后，对所有待调整平行语句进行聚类，得到聚类结果，并根据聚类结果将待调整平行语句重新添加至平行语句库中，以得到更新后的平行语句库。需要说明的是，在对待调整平行语句聚类后的，会得到各个待调整平行语句对应的簇，以确定各个待调整平行语句对应的主题类。可以理解的是，一个簇为一个主题类，每个簇中的待调整平行语句表达同一个语义。对待调整平行语句进行聚类就是对待调整平行语句进行分类，即将所获取的待调整平行语句按照语义进行分类，将表达同一语义的待调整平行语句划分为同一类。需要说明的是，任意两个簇之间，即任意两个主题类之间的聚类中心相似度应小于预设值，聚类中心为对应主题类中作为聚类基准的待调整平行语句，聚类中心对应的待调整平行语句可根据具体需要预先设置好。预设值可根据具体需要而设置，如该预设值可设置为等于第二预设阈值，或者等于第三预设阈值。在本实施例中不做具体限制。

其中，对所有待调整平行语句进行聚类的聚类算法包括但不限于K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)和用高斯混合模型(GMM，Adaptivebackground mixture models for real-time tracking)的最大期望(EM，ExpectationMaximization Algorithm)聚类。

进一步地，步骤S20包括：

步骤d，计算所述待调整平行语句中每个词的词向量，根据所述词向量确定所述待调整平行语句的句向量。

当确定各个预设主题类中的待调整平行语句后，对待调整平行语句进行分词，得到待调整平行语句中的各个词，并计算待调整平行语句中每个词的词向量，根据该词向量确定待调整平行语句的句向量。其中，对待调整平行语句进行分词的分词算法包括但不限于基于词典的分词算法、基于统计的分词算法和基于规则的分词算法。在本申请的实施例中，通过word2vec计算待调整平行语句中每个词的词向量。

进一步地，根据所述词向量确定待调整平行语句的句向量的过程为：当计算出待调整平行语句中每个词的词向量后，根据词向量对应确定每一待调整平行语句中所有词的词向量均值或词向量中值。在确定待调整平行语句中所有词的词向量均值过程中，将待调整平行语句中所有词的词向量对应的模相加，然后除以该待调整平行语句中词的数量，对应得到词向量均值。在确定待调整平行语句中所有词的词向量中值过程中，将待调整平行语句中所有词向量的模按照从小到大的顺序排序，取排列在中间的模对应词向量作为词向量中值。

当确定待调整平行语句中所有词的词向量均值或词向量中值后，将词向量均值或者词向量中值对应作为待调整平行语句的句向量。进一步地，也可获取待调整平行语句中所有词向量模的最大值或者最小值，将词向量模的最大值或最小值对应的词向量对应作为待调整平行语句的句向量。

如当某个有效问句有7个词时，对应的词向量分别为和若时(在计算过程中，都是以各个向量的模来进行计算)，则可将作为该有效问句的句向量。若根据这7个词的词向量模按照从小到大的顺序排序后，所得排序结果为：和则确定为该有效问句的句向量。

步骤e，根据所述句向量对所述待调整平行语句进行聚类，以确定各个所述待调整平行语句对应的目标主题类。

当确定有待调整平行语句的句向量后，根据各个待调整平行语句的句向量对待调整平行语句进行聚类，得到各个待调整平行语句对应的簇，以确定各个待调整平行语句对应的目标主题类。

步骤f，确定所述目标主题类中的主句，记为第一主句，并获取所述平行语句库中各个预设主题类的主句，记为第二主句。

当确定所获取的待调整平行语句对应的目标主题类后，确定待调整平行语句对应目标主题类中的主句，并将待调整平行语句对应目标主题类的主句记为第一主句，以及获取平行语句库中各个预设主题类的主句，并将各个预设主题类的主句记为第二主句。其中，确定目标主题类的主句的过程与调整各个预设主题类的主句，得到各个预设主题类调整后的主句的过程类似，在本实施例中不再赘述。

步骤g，计算所述第一主句和所述第二主句之间的相似度，并获取所述相似度中的最大值。

当确定第一主句和第二主句后，计算第一主句和第二主句之间的相似度，并获取第一主句和第二主句之间相似度的最大值。需要说明的是平行语句中含有至少两个预设主题类，一个主题类对应一个主句，由于平行语句库中存在至少两个预设主题类，因此，本实施例中至少存在两个第二主句。第一主句的个数与目标主题类的个数相等。如当确定的目标主题类有3个时，第一主句的个数也为3个；当确定的目标主题类有5个时，第一主句的个数也为5个。其中，计算第一主句和第二主句之间相似度的过程与计算未存在标注信息的平行语句与调整后的主句之间的相似度的过程相似，在本实施例中不再赘述。

步骤h，若所述最大值大于或者等于第二预设阈值，则将所述第一主句所在目标主题类添加至所述最大值对应的第二主句所在的预设主题类中，以得到更新后的所述平行语句库。

步骤i，若所述最大值小于所述第二预设阈值，则将所述第一主句所在的目标主题类作为新的主题类添加至所述平行语句库中，以得到更新后的所述平行语句库。

当确定第一主句和第二主句之间相似度的最大值后，判断第一主句和第二主句之间的相似度最大值是否大于或者等于第二预设阈值。若第一主句和第二主句之间相似度的最大值大于或者等于第二预设阈值，则将第一主句所在目标主题类中的待推荐平行语句添加至最大值对应的第二主句所在的预设主题类中，以得到更新后的平行语句库；若第一主句和第二主句之间相似度的最大值小于第二预设阈值，则将第一主句所在的目标主题类作为新的主题类添加至平行语句库中。可以理解的是，在将第一主句所在的目标主题类作为新的主题类添加至平行语句库中，是将第一主句所在的目标主题类中所有的待推荐平行语句作为一个新的主题类添加至平行语句库中。其中，第二预设阈值大于第一预设阈值。

如当存在3个第一主句a1、a2和a3，存在3个第二主句b1、b2和b3时，在计算第一主句和第二主句之间的相似度后，会得到9个相似度，分别为a1与b1、b2、b3之间的相似度，a2与b1、b2、b3之间的相似度和a3与b1、b2、b3之间的相似度。若在a1与b1、b2、b3之间的相似度中，a1和b1之间相似度的值为最大值，记为第一最大值；在a2与b1、b2、b3之间的相似度中，a2和b3之间相似度的值为最大值，记为第二最大值；在a3与b1、b2、b3之间的相似度中，a3和b2之间相似度的值为最大值，记为第三最大值，且第一最大值和第二最大值大于或者等于第二预设阈值，第三最大值小于第二预设阈值，则将a1所在的主题类a01中的有效问句添加至b1所在的主题类中，将a2所在的主题类a02中的有效问句添加至b3所在的主题类中，将a3所在的主题类a03作为平行语句库中新的主题类。

进一步地，当确定各个待推荐平行语句对应的目标主题类后，也可以不考虑平行语句库中的预设主题类，直接将所确定的目标主题类添加至平行语句库中。

步骤S30，合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作。

当得到更新后的平行语句库后，获取更新后平行语句库中的各个主题类，并合并更新后的平行语句库中的各个主题类，以完成更新平行语句库的更新操作。可以理解的是，更新后的平行语句库中，含有预设主题类和目标主题类。

进一步地，步骤S30包括：

步骤j，获取更新后的所述平行语句库中各个主题类的主句，将更新后的所述平行语句库中其中一个主题类的主句作为第三主句，将更新后的所述平行语句库中剩余主题类的主句作为第四主句。

进一步地，当得到更新后的平行语句库后，获取更新后平行语句库中的各个主题类的主句，将更新后的平行语句库中其中一个主题类的主句作为第三主句，将更新后的平行语句库中剩余主题类的主句作为第四主句。

步骤k，计算所述第三主句和第四主句之间的第二相似度。

步骤l，若所述第二相似度大于或者等于第三预设阈值，则将所述第三主句所在的主题类中的平行语句添加至所述第四主句所在的主题类中，删除所述第三主句所在的主题类，以完成更新所述平行语句库的更新操作。

当确定第三主句和第四主句后，计算第三主句和所有第四主句之间的相似度，将第三主句和第四主句之间的相似度记为第二相似度。其中，计算第三主句和第四主句之间相似度的过程与计算未存在标注信息的平行语句与调整后的主句之间的相似度的过程相似，在本实施例中不再赘述。

当计算出第二相似度后，判断第二相似度是否大于或者等于第三预设阈值。其中，第三预设阈值可根据具体需要而设置，第三预设阈值可与第二预设阈值相等，或者与第二预设阈值不相等，第三预设阈值小于第一预设阈值。

若第二相似度大于或者等于第三预设阈值，则将第三主句所在的主题类中的平行语句添加至第四主句所在的主题类中，并删除第三主句所在的主题类，以完成更新平语句库的更新操作。需要说明的是，在将第三主句所在主题类中的平行语句添加至第四主句所在的主题类过程中，第四主句为与第三主句之间相似度大于或者等于第三预设阈值的主句。如当存在A1、A2、A3、A4和A5这5个第四主句时，若A3主句与第三主句之间的相似度大于或者等于第三预设阈值，则将第三主句所在主题类中的平行语句添加至A3主句所在的主题类中。

进一步地，若第二相似度小于第三预设阈值，则继续执行合并更新后的平行语句库中的各个主题类的操作，直到更新后的平行语句库中的所有主题类合并完毕。

进一步地，当完成更新平行语句库的更新操作后，重新调整平行语句库中各个主题类的主句。

本实施例通过在侦测到更新平行语句库的更新指令后，根据更新指令确定平行语句库中需要调整的待调整平行语句，并将待调整平行语句重新添加至平行语句库中，得到更新后的平行语句库，并合并更新后的平行语句库中的各个主题类，实现了自动更新平行语句库的更新操作，提高了更新平行语句库更新效率。

进一步地，提出本发明平行语句库的更新方法第二实施例。

所述平行语句库的更新方法第二实施例与所述平行语句库的更新方法第一实施例的区别在于，参照图4，所述获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括：

步骤S131，获取各个预设主题类中显示频数最高的平行语句，将显示频数最高的平行语句记为目标语句。

步骤S132，判断是否只存在一个所述目标语句。

步骤S133，若只存在一个所述目标语句，则将所述目标语句作为对应预设主题类调整后的主句。

在获取到各个预设主题类中显示频数最高的平行语句后，将显示频数最高的平行语句记为目标语句，并判断是否只存在一个目标语句。若确定只存在一个目标语句，则将目标语句作为对应预设主题类调整后的主句。

步骤S134，若存在至少两个所述目标语句，则获取所述目标语句的字数，将所述字数最多的目标语句作为对应预设主题类调整后的主句。

若确定存在至少两个目标语句，则获取目标语句的字数，将字数最多的目标语句作为对应预设主题类调整后的主句。

进一步地，在确定预设主题类调整后的主句过程中，还可直接获取各个预设主题类中的平行语句的显示频数和字数，然后根据显示频数和字数之间的权重对应计算各个平行语句的分值，将得分最高的平行语句作为对应预设主题类调整后的主句。其中，显示频数和字数之间的权重可根据具体需要而设置，如可将显示频数和字数之间的权重设置为6:4，或者设置为7:3等。不同的显示频数和字数对应着不同的分数。

本实施例通过在确定预设主题类调整后的主句过程中，判断是否只存在一个目标语句(目标语句为预设主题类中显示频数最高的平行语句)，若只存在一个目标语句，则将目标语句作为对应预设主题类调整后的主句；若存在至少两个目标语句，则将字数最多的目标语句作为对应预设主题类调整后的主句，相比直接根据显示频数确定预设主题类调整后的主句，提高了确定预设主题类调整后主句的准确率。

进一步地，在侦测到查询平行语句库中平行语句的查询指令后，确定查询指令对应的查询问句，通过计算查询问句与平行语句库中各个主题类主句的相似度确定查询问句所在的主题类(当计算的相似度最大值大于设定的某个值时，确定该相似度所对应的主题类为查询问句所在的主题类)，将查询问句所在主题类中的平行问句显示在显示界面中，以供用户查看，以便于用户快速查找到对应查询问句的平行语句。

进一步地，提出本发明平行语句库的更新方法第三实施例。

所述平行语句库的更新方法第三实施例与所述平行语句库的更新方法第一、第二实施例的区别在于，参照图5，步骤S10还包括：

步骤S16，当侦测到更新平行语句库的更新指令后，检测所述更新指令的类别。

当侦测到更新平行语句库的更新指令后，检测更新指令的类别。具体地，检测更新指令的类别的过程为：获取更新指令所携带的类别标识。若更新指令所携带的类别标识为第一类别标识，则确定更新指令为自动更新指令；若更新指令所携带的类别标识为第二类别标识，则确定更新指令为手动更新指令。第一类别标识和第二类别标识的表现形式可根据具体需要而设置，如可将第一类别标识设置为“00”，第二类别标识设置为“11”等。

步骤S17，若所述更新指令是自动更新指令，则根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。

步骤S18，若所述更新指令是手动更新指令，则根据用户触发的获取指令获取所述平行语句库中预设主题类的主句和平行语句，并在显示界面中显示所述预设主题类的主句和平行语句。

若确定更新指令为自动更新指令，则根据更新指令确定平行语句库中各个预设主题类所需调整的待调整平行语句；若确定更新指令为手动更新指令，则检测是否侦测到用户触发的获取指令。若侦测到用户触发的获取指令，则根据该获取指令获取平行语句库中预设主题类的主句和平行语句，并在其显示界面中显示各个预设主题类的主句和平行语句。需要说明的是，在平行语句库中，已经预先为各个预设主题类设置好的主句。

步骤S19，当侦测到确认所述预设主题类的主句和平行语句语义不同的确认指令后，为与所述预设主题类主句语义不同的平行语句添加第一标注信息。

步骤S110，当侦测到确认所述预设主题类的主句和平行语句语义相同的确认指令后，为与所述预设主题类主句语义相同的平行语句添加第二标注信息。

当在显示界面中显示各个预设主题类的主句和平行语句后，检测是否侦测到确认预设主题类的主句和平行语句语义相同的确认指令。若侦测到确认预设主题类的主句和平行语句语义相同的确认指令后，则为与预设主题类主句语义相同的平行语句添加第二标注信息，以表明该平行语句与主句的语义相同，如为与预设主题类主句语义相同的平行语句添加“相同”的标注信息。若侦测到确认预设主题类的主句与平行语句语义不同的确认指令后，则为与预设主题类主句语义不同的平行语句添加第一标注信息，以表示该平行语句与主句语义不相同，如为与预设主题类主句语义不相同的平行语句添加“不同”的标注信息。

本实施例通过在侦测到更新平行语句库的更新指令后，判断更新指令是自动更新指令还是手动更新指令，以实现根据具体情况执行更新平行语句库的更新操作，提高了更新平行语句库的智能性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有平行语句库的更新程序，所述平行语句库的更新程序被处理器执行时实现如上所述的奖励发送方法的步骤。

本发明计算机可读存储介质具体实施方式与上述平行语句库的更新方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种平行语句库的更新方法，其特征在于，所述平行语句库的更新方法包括以下步骤：

2.如权利要求1所述的平行语句库的更新方法，其特征在于，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括：

3.如权利要求2所述的平行语句库的更新方法，其特征在于，所述若所述平行语句未存在所述标注信息，则调整各个预设主题类的主句，得到各个预设主题类调整后的主句的步骤包括：

4.如权利要求3所述的平行语句库的更新方法，其特征在于，所述获取各个预设主题类中显示频数最高的平行语句，将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括：

判断是否只存在一个所述目标语句；

5.如权利要求1所述的平行语句库的更新方法，其特征在于，所述当侦测到更新平行语句库的更新指令后，根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括：

6.如权利要求5所述的平行语句库的更新方法，其特征在于，所述当侦测到更新平行语句库的更新指令后，检测所述更新指令的类别的步骤之后，还包括：

7.如权利要求1所述的平行语句库的更新方法，其特征在于，所述对所述待调整平行语句进行聚类，根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中，得到更新后的所述平行语句库的步骤包括：

8.如权利要求1至7任一项所述的平行语句库的更新方法，其特征在于，所述合并更新后的所述平行语句库中的各个主题类，以完成更新所述平行语句库的更新操作的步骤包括：

计算所述第三主句和第四主句之间的第二相似度；

9.一种平行语句库的更新设备，其特征在于，所述平行语句库的更新设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的平行语句库的更新程序，所述平行语句库的更新程序被所述处理器执行时实现如权利要求1至8中任一项所述的平行语句库的更新方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有平行语句库的更新程序，所述平行语句库的更新程序被处理器执行时实现如权利要求1至8中任一项所述的平行语句库的更新方法的步骤。