CN109710939A

CN109710939A - 用于确定主题的方法和装置

Info

Publication number: CN109710939A
Application number: CN201811624901.2A
Authority: CN
Inventors: 王经委; 张傲; 刘佳祥; 孙宇; 李芝
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03
Anticipated expiration: 2038-12-28
Also published as: CN109710939B; US11366973B2; US20200210522A1

Abstract

本申请实施例公开了用于确定主题的方法和装置。该方法的一具体实施方式包括：确定待识别语句序列；计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，主题模板集合中的每个主题模板对应目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。该实施方式降低了主题分割过程中的人工成本。

Description

用于确定主题的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于确定主题的方法和装置。

背景技术

随着智能设备的普及和用户数量的增长，人机交互方式也在改变，对话系统(例如，苹果公司的siri智能语音助手、亚马逊公司的Alex智能助理、中国联通智能客服等)逐步被普遍应用。对话系统的主题分割是将对话内容划分为多个段落，每个段落内的对话语句属于同一主题，不同段落对应不同主题。

现有技术主要采用有监督学习方法，人工标注训练语料，再基于训练语料来训练模型来检测段落之间的分割位置。

发明内容

本申请实施例提出了用于确定主题的方法和装置。

第一方面，本申请实施例提供了一种用于确定主题的方法，该方法包括：确定待识别语句序列；计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，主题模板集合中的每个主题模板对应目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。

第二方面，本申请实施例提供了一种用于确定主题的装置，该装置包括：第一确定单元，被配置成确定待识别语句序列；计算单元，被配置成计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，主题模板集合中的每个主题模板对应目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；第二确定单元，被配置成根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。

第三方面，本申请实施例提供了一种服务器，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于确定主题的方法和装置，通过预先为目标领域设定主题和主题对应的主题模板，主题模板包括主题阶段序列，主题阶段包括主题语句序列。然后，再计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。最后，根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。从而，不用人工标注大量的训练语料，只需要为目标领域内不同的主题设定主题模板即可，大大减少了人工标注成本，同时还能解决因为人工标注的标准不同所导致的主题识别准确低的问题，即提高了主题识别的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2A是根据本申请的用于确定主题的方法的一个实施例的流程图；

图2B是根据本申请的第一相似度计算步骤的一个实施例的分解流程图；

图2C是根据本申请的第二相似度计算步骤的一个实施例的分解流程图；

图2D是根据本申请的第三相似度计算步骤的一个实施例的分解流程图；

图3是根据本申请的用于确定主题的方法的一个应用场景的示意图；

图4是根据本申请的用于确定主题的方法的又一个实施例的流程图；

图5是根据本申请的用于确定主题的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于确定主题的方法或用于确定主题的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如自助对话应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持信息输入的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供自助对话服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的自助对话应用提供支持的后台服务器。后台服务器可以对接收到的用户输入的对话语句等数据进行分析等处理，并将处理结果(例如自助回复对话内容)反馈给终端设备。

需要说明的是，本申请实施例所提供的用于确定主题的方法一般由服务器105执行，相应地，用于确定主题的装置一般设置于服务器105中。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供自助对话服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的用于确定主题的方法的一个实施例的流程200。该用于确定主题的方法，包括以下步骤：

步骤201，确定待识别语句序列。

在本实施例中，用于确定主题的方法的执行主体(例如图1所示的服务器)可以采用各种实现方式确定待识别语句序列。

这里，待识别语句序列可以是由按照顺序排列的至少一条语句组成的。

在本实施例的一些可选的实现方式中，上述执行主体可

以将上述执行主体本地存储的语句序列确定为待识别语句序列。

在本实施例的一些可选的实现方式中，上述执行主体可以通过有线或者无线连接方式，从与上述执行主体网络连接的其他电子设备接收待识别语句序列。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。

在本实施例中，上述执行主体可以采用各种实现方式计算步骤201中所确定的待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。

这里，目标领域是指任何一个特定领域。例如，目标领域可以是以下领域：电信运营商的自助服务对话领域、银行的自助服务对话领域，电商平台的自助服务对话领域，保险公司的自助服务对话领域等等。

而这里，针对每个目标领域，可以由领域技术专家预先制定相应的主题，针对每个主题制定对应的至少一个模板(例如，通过真实的历史对话记录进行统计)，模板中的语句内容体现了相应的主题。再将模板的语句内容按照相应主题的业务流程划分成至少一个阶段，每个阶段中包括至少一条语句，每个阶段所包括的至少一条语句对应一个业务流程阶段。最终，可以得到每个目标领域对应的主题模板集合，每个主题模板可以包括主题阶段序列(即，由至少一个主题阶段按照先后顺序组成的序列)，而每个主题阶段可以包括主题语句序列(即，由至少一个语句按照先后顺序组成的序列)。

在本实施例的一些可选的实现方式中，步骤202可以如下进行：

对于主题模板集合中的每个主题模板，执行第一相似度计算步骤，请参考图2B，其示出了根据本申请的第一相似度计算步骤的一个实施例的分解流程。该第一相似度计算步骤可以包括以下子步骤2021到子步骤2023：

子步骤2021，对于待识别语句序列中每个待识别语句，计算该待识别语句与该主题模板所包括的每个主题语句的相似度。

即，这里，假设该主题模板所包括的主题阶段序列包括S个主题阶段，其中，第i个个主题阶段所包括的主题语句序列包括N_i个语句，则该主题模板包括个语句。假设待识别语句序列包括M个语句，则这里需要计算M个待识别语句序列中的每个待识别语句与N个主题语句中每个主题语句的相似度，即最终会得到M×N个相似度。

需要说明的是，计算两个语句之间的相似度的各种方法是目前广泛研究和应用的公知技术，在此不再赘述。例如，可以先确定两个语句对应的语义向量，然后采用各种计算向量间相似度的方法，计算所得到的两个语义向量之间的相似度，作为两个语句之间的相似度。

子步骤2022，利用动态规划算法，在至少一种映射方式中，以按照该种映射方式计算得到的待识别语句序列与该主题模板的相似度最大化为目标，确定最优映射方式。

这里，可以预先假设至少一种映射方式，其中，映射方式用于将待识别语句序列中每个待识别语句对应到该主题模板中的主题阶段。

然后，可以利用动态规划算法，在至少一种映射方式中，以按照该种映射方式计算得到的待识别语句序列与该主题模板的相似度最大化为目标，确定最优映射方式。

这里，可以采用各种实现方式，按照该种映射方式，计算待识别语句序列与该主题模板的相似度。

可选地，按照该种映射方式计算得到的待识别语句序列与该主题模板的相似度可以是通过第二相似度计算步骤计算得到的。请参考图2C，图2C示出了根据本申请的第二相似度计算步骤的一个实施例的分解流程，该第二相似度计算步骤可以包括以下子步骤20221到子步骤20222：

子步骤20221，对于待识别语句序列中的每个待识别语句，根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度。

这里，与该待识别语句对应的映射主题阶段为按照该种映射方式，将该待识别语句映射至的该主题模板所包括的主题阶段。

这里，可以采用各种实现方式，根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度。

可选地，子步骤20221可以如下进行：

将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度中的最大值，确定为该待识别语句与对应的映射主题阶段的相似度。

可选地，子步骤20221也可以如下进行：

将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度的加权平均值，确定为该待识别语句与对应的映射主题阶段的相似度。

子步骤20222，将待识别语句序列中各个待识别语句与对应的映射主题阶段的相似度的平均值确定为按照该种映射方式该待识别语句与该主题模板的相似度。

可选地，按照该种映射方式计算得到的待识别语句序列与该主题模板的相似度可以是通过第三相似度计算步骤计算得到的。请参考图2D，图2D示出了根据本申请的第三相似度计算步骤的一个实施例的分解流程，该第三相似度计算步骤可以包括以下子步骤20221’到子步骤20223’：

子步骤20221’，对于待识别语句序列中的每个待识别语句，确定与该待识别语句对应的映射主题阶段。

这里，与该待识别语句对应的映射主题阶段为按照该种映射方式将该待识别语句映射至的该主题模板所包括的主题阶段。

子步骤20222’，对于该主题模板所包括的每个主题阶段，根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度，确定待识别语句序列与该主题阶段对应的相似度。

这里，可以采用各种实现方式，根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度，确定待识别语句序列与该主题阶段对应的相似度。

可选地，子步骤20222’可以如下进行：

将该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度中的最大值，确定为待识别语句序列与该主题阶段对应的相似度。

可选地，子步骤20222’也可以如下进行：

将该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度的平均值，确定为待识别语句序列与该主题阶段对应的相似度。

子步骤20223’，将待识别语句序列与该主题模板所包括的各主题阶段对应的相似度的平均值确定为待识别语句序列与该主题模板的相似度。

子步骤2023，将按照所确定的最优映射方式计算得到的待识别语句序列与该主题模板的相似度确定为待识别语句序列与该主题模板的相似度。

经过子步骤2021到子步骤2023可以得到待识别语句序列与该主题模板的相似度。

可选地，步骤202也可以如下进行：

首先，可以对于待识别语句序列中每个待识别语句，计算该待识别语句与该主题模板所包括的每个主题语句的相似度。

然后，将计算所得到的各个相似度的加权平均值或者最大值确定为待识别语句序列与该主题模板的相似度。

步骤203，根据关联参数确定待识别语句序列的主题。

在本实施例中，上述执行主体可以采用各种实现方式根据关联参数确定待识别语句序列的主题。

其中，上述关联参数可以包括待识别语句序列与主题模板集合中每个主题模板的相似度。

在本实施例的一些可选的实现方式中，上述执行主体可以将主题模板集合中与待识别语句序列的相似度最大的主题模板对应的主题确定为待识别语句序列的主题。

在本实施例的一些可选的实现方式中，上述执行主体也可以首先获取将主题模板集合中与待识别语句序列的相似度大于预设相似度阈值的主题模板组成的主题模板子集合。然后，将目标领域内至少一个主题中在上述主题模板子集合中存在对应的主题模板最多的主题确定为待识别语句序列的主题。

在本实施例的一些可选的实现方式中，上述执行主体还可以首先对于目标领域内至少一个主题中每个主题，将待识别语句序列与主题模板集合中与该主题对应的各主题模板的相似度的平均值确定为待识别语句序列与该主题的相似度。然后，将目标领域内至少一个主题中与待识别语句序列的相似度最高的主题确定为待识别语句序列的主题。

继续参见图3，图3是根据本实施例的用于确定主题的方法的应用场景的一个示意图。在图3的应用场景中，用户使用终端设备301输入了对话语句序列302。终端设备301将上述对话语句序列302发送给服务器303。服务器303将接收到的对话语句序列302确定为待识别语句序列304。服务器303计算待识别语句序列304与目标领域内主题模板集合305中每个主题模板的相似度306。服务器303根据关联参数确定待识别语句序列的主题307。

本申请的上述实施例提供的方法通过预先为目标领域设定主题和主题对应的主题模板，主题模板包括主题阶段序列，主题阶段包括主题语句序列。然后，再计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。最后，根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。从而，不用人工标注大量的训练语料，只需要为目标领域内不同的主题设定主题模板即可，大大减少了人工标注成本，同时还能解决因为人工标注的标准不同所导致的主题识别准确低的问题，即提高了主题识别的准确率。

进一步参考图4，其示出了用于确定主题的方法的又一个实施例的流程400。该用于确定主题的方法的流程400，包括以下步骤：

步骤401，实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列。

在本实施例中，用于确定主题的方法的执行主体(例如图1所示的服务器)可以实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列。

这里，当前对话语句是用户当前是用终端设备输入的对话语句。而历史上一主题对话语句序列是上述执行主体中存储的、上述用户在当前时刻之前输入的对话语句序列中，离当前时刻最近的属于同一主题的语句序列。

步骤402，将在历史上一主题对话语句序列的末尾添加当前对话语句后所得到的新的语句序列确定为待识别语句序列。

在本实施例中，上述执行主体可以将在历史上一主题对话语句序列的末尾添加当前对话语句后所得到的新的语句序列确定为待识别语句序列，即这时，待识别语句序列中包括了上述执行主体中存储的、上述用户在当前时刻之前输入的对话语句序列中，离当前时刻最近的属于同一主题的语句序列，以及用户当前时刻输入的对话语句。

可以理解的是，历史上一主题对话语句序列中的对话语句序列体现了同一主题，而这时，待识别语句序列中除了包括上述体现了同一主题的历史上一主题对话语句序列，还包括了用户当前时刻输入的对话语句，但是将用户当前时刻输入的对话语句添加到历史上一主题对话语句序列的末尾所生成的待识别语句序列的主题，是否和历史上一主题对话语句序列的主题相同，是否已经换了主题，这就需要接下来的步骤来实现。

步骤403，计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。

这里，上述执行主体可以计算步骤402中将在历史上一主题对话语句序列的末尾添加当前对话语句后所得到的新的语句序列，即待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度。

这里，步骤403的具体操作与图2所示的实施例中步骤202的操作基本相同，在此不再赘述。

步骤404，将主题模板集合中各主体模板与待识别语句序列的相似度中的最大值确定为当前相似度。

步骤403中已经计算得到了待识别语句序列与主题模板集合中每个主题模板的相似度，这里，上述执行主体可以将主题模板集合中各主体模板与待识别语句序列的相似度中的最大值确定为当前相似度。

步骤405，确定上一相似度减去当前相似度的差值是否大于预设相似度差值阈值。

这里，上一相似度为历史上一主题对话语句序列的相似度，历史上一主题对话语句序列的相似度为历史上一主题对话语句序列与历史上一主题对话语句序列的主题对应的主题模板之间的相似度。也可以理解为，上述执行主体在上一时刻，按照步骤403的方法，计算待识别语句序列(也就是当前时刻的历史上一主题对话语句序列)与目标领域内主题模板集合中每个主题模板的相似度，并将主题模板集合中各主体模板与待识别语句序列(也就是当前时刻的历史上一主题对话语句序列)的相似度中的最大值确定为待识别语句序列(也就是当前时刻的历史上一主题对话语句序列)的相似度。

这里，如果确定上一相似度减去当前相似度的差值大于预设相似度差值阈值，表明当前时刻用户输入的对话语句所体现的主题有很大可能性与历史上一主题对话语句序列所体现的主题不同，即，用户转换了主题，因此转到步骤406执行。反之，如果确定上一相似度减去当前相似度的差值不大于预设相似度差值阈值，表明当前时刻用户输入的对话语句所体现的主题有很大可能性与历史上一主题对话语句序列所体现的主题相同，即用户还在继续同一主题，因此转到步骤407执行。

步骤406，执行主题更换步骤。

这里，上述执行主体可以在步骤405中确定上一相似度减去当前相似度的差值大于预设相似度差值阈值的情况下，表明用户当前时刻转换了主题，因此，上述执行主体可以执行主题更换步骤。具体而言，主题更换步骤可以包括以下操作：

第一步，将历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中。

这里，历史主题段落序列由至少一个按照时间顺序排序的历史主题段落组成。历史主题段落包括上述用户曾经输入的对话语句序列中体现同一主题的对话语句序列和对话语句序列对应的主题，历史主体段落序列中的各历史主题段落按照用户输入该历史主题段落中的对话语句序列的时间进行排序。

这里，由于用户当前时刻输入的对话语句和历史上一主题对话语句序列所体现的是不同的主题，即，用户从当前时刻开始了另外的主题，那么，历史上一主题对话语句序列已经是一个主题的完整的对话语句序列，不能再加入用户当前输入的对话语句，为此可以将将历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中。

第二步，清空历史上一主题对话语句序列，以及将当前对话语句添加到历史上一主题对话语句序列。

经过第二步，历史上一主题对话语句序列中只包括了当前对话语句，即，用户开始了新的主题，新的主题对应的语句序列中只有一句对话，就是当前对话语句。

第三步，计算历史上一主题对话语句序列与主题模板集合中每个主题模板的相似度。

为了确定只有当前对话语句的历史上一主题对话语句序列的主题，这里可以先计算只有当前对话语句的历史上一主题对话语句序列与主题模板集合中每个主题模板的相似度。具体地，可以按照步骤403中的方法计算只有当前对话语句的历史上一主题对话语句序列与主题模板集合中每个主题模板的相似度。

第四步，将主题模板集合中与历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为历史上一主题对话语句序列的主题和相似度。

为了确定只有当前对话语句的历史上一主题对话语句序列的主题和相似度，可以将主题模板集合中与历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为历史上一主题对话语句序列的主题和相似度。

执行完步骤406，上述执行主体可以转到步骤401继续执行，直到用户结束对话。

步骤407，将当前对话语句添加到历史上一主题对话语句序列的末尾。

这里，上述执行主体可以在步骤405中确定上一相似度减去当前相似度的差值不大于预设相似度差值阈值的情况下，表明用户当前时刻所输入的对话语句和历史上一主题对话语句序列所体现的是同一主题，即用户没有更换主题，这样，上述执行主体可以将当前对话语句添加到历史上一主题对话语句序列的末尾，从而历史上一主题对话语句序列中又多了体现同一主题的当前对话语句。执行完步骤407，上述执行主体可以转到步骤401继续执行，直到用户结束对话。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于确定主题的方法的流程400实现了自助对话系统中实时地对用户输入的对话语句进行主题分割。由此，本实施例描述的方案可以有助于自助对话系统中的对话深层理解，例如用户意图、槽位等。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于确定主题的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于确定主题的装置500包括：第一确定单元501、计算单元502和第二确定单元503。其中，第一确定单元501，被配置成确定待识别语句序列；计算单元502，被配置成计算上述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，上述主题模板集合中的每个主题模板对应上述目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；第二确定单元503，被配置成根据关联参数确定上述待识别语句序列的主题，其中，上述关联参数包括上述待识别语句序列与上述主题模板集合中每个主题模板的相似度。

在本实施例中，用于确定主题的装置500的第一确定单元501、计算单元502和第二确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述计算单元502可以进一步被配置成：对于上述主题模板集合中的每个主题模板，执行以下第一相似度计算步骤：对于上述待识别语句序列中每个待识别语句，计算该待识别语句与该主题模板所包括的每个主题语句的相似度；利用动态规划算法，在至少一种映射方式中，以按照该种映射方式计算得到的上述待识别语句序列与该主题模板的相似度最大化为目标，确定最优映射方式，其中，映射方式用于将上述待识别语句序列中每个待识别语句对应到该主题模板中的主题阶段；将按照所确定的最优映射方式计算得到的上述待识别语句序列与该主题模板的相似度确定为上述待识别语句序列与该主题模板的相似度。

在本实施例的一些可选的实现方式中，上述按照该种映射方式计算得到的上述待识别语句序列与该主题模板的相似度可以是通过第二相似度计算步骤计算得到的，上述第二相似度计算步骤可以包括：对于上述待识别语句序列中的每个待识别语句，根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，上述与该待识别语句对应的映射主题阶段为按照该种映射方式，将该待识别语句映射至的该主题模板所包括的主题阶段；将上述待识别语句序列中各个待识别语句与对应的映射主题阶段的相似度的平均值确定为按照该种映射方式该待识别语句与该主题模板的相似度。

在本实施例的一些可选的实现方式中，上述按照该种映射方式计算得到的上述待识别语句序列与该主题模板的相似度可以是通过第三相似度计算步骤计算得到的，上述第三相似度计算步骤可以包括：对于上述待识别语句序列中的每个待识别语句，确定与该待识别语句对应的映射主题阶段，上述与该待识别语句对应的映射主题阶段为按照该种映射方式将该待识别语句映射至的该主题模板所包括的主题阶段；对于该主题模板所包括的每个主题阶段，根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度，确定上述待识别语句序列与该主题阶段对应的相似度；将上述待识别语句序列与该主题模板所包括的各主题阶段对应的相似度的平均值确定为上述待识别语句序列与该主题模板的相似度。

在本实施例的一些可选的实现方式中，上述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，可以包括：将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度中的最大值，确定为该待识别语句与对应的映射主题阶段的相似度。

在本实施例的一些可选的实现方式中，上述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，可以包括：将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度的加权平均值，确定为该待识别语句与对应的映射主题阶段的相似度。

在本实施例的一些可选的实现方式中，上述第二确定单元502可以进一步被配置成：将上述主题模板集合中与上述待识别语句序列的相似度最大的主题模板对应的主题确定为上述待识别语句序列的主题。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以包括：获取模块5011，被配置成实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列；第一确定模块5012，被配置成将在上述历史上一主题对话语句序列的末尾添加上述当前对话语句后所得到的新的语句序列确定为上述待识别语句序列。

在本实施例的一些可选的实现方式中，上述关联参数还可以包括：上述历史上一主题对话语句序列的主题和相似度，上述历史上一主题对话语句序列的相似度为上述历史上一主题对话语句序列与上述历史上一主题对话语句序列的主题对应的主题模板之间的相似度；以及上述第二确定单元503可以包括：第二确定模块5031，被配置成将上述主题模板集合中各主体模板与上述待识别语句序列的相似度中的最大值确定为当前相似度；第三确定模块5032，被配置成确定上一相似度减去上述当前相似度的差值是否大于预设相似度差值阈值，其中，上述上一相似度为上述历史上一主题对话语句序列的相似度；主题更换模块5033，被配置成响应于确定大于，执行以下主题更换步骤：将上述历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中，其中，历史主题段落包括语句序列和对应的主题，清空上述历史上一主题对话语句序列，将上述当前对话语句添加到上述历史上一主题对话语句序列，计算上述历史上一主题对话语句序列与上述主题模板集合中每个主题模板的相似度，将上述主题模板集合中与上述历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为上述历史上一主题对话语句序列的主题和相似度；主题继续模块5034，被配置成响应于确定不大于，将上述当前对话语句添加到上述历史上一主题对话语句序列的末尾。

需要说明的是，本申请实施例提供的用于确定主题的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明，在此不再赘述。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU，Central Processing Unit)601，其可以根据存储在只读存储器(ROM，Read Only Memory)602中的程序或者从存储部分608加载到随机访问存储器(RAM，Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O，Input/Output)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元、计算单元和第二确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一确定单元还可以被描述为“确定待识别语句序列的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：确定待识别语句序列；计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，主题模板集合中的每个主题模板对应目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；根据关联参数确定待识别语句序列的主题，其中，关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于确定主题的方法，包括：

确定待识别语句序列；

计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，所述主题模板集合中的每个主题模板对应所述目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；

根据关联参数确定所述待识别语句序列的主题，其中，所述关联参数包括所述待识别语句序列与所述主题模板集合中每个主题模板的相似度。

2.根据权利要求1所述的方法，其中，所述计算所述待识别语句序列与所述主题模板集合中每个主题模板的相似度，包括：

对于所述主题模板集合中的每个主题模板，执行以下第一相似度计算步骤：对于所述待识别语句序列中每个待识别语句，计算该待识别语句与该主题模板所包括的每个主题语句的相似度；利用动态规划算法，在至少一种映射方式中，以按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度最大化为目标，确定最优映射方式，其中，映射方式用于将所述待识别语句序列中每个待识别语句对应到该主题模板中的主题阶段；将按照所确定的最优映射方式计算得到的所述待识别语句序列与该主题模板的相似度确定为所述待识别语句序列与该主题模板的相似度。

3.根据权利要求2所述的方法，其中，所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第二相似度计算步骤计算得到的，所述第二相似度计算步骤包括：

对于所述待识别语句序列中的每个待识别语句，根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，所述与该待识别语句对应的映射主题阶段为按照该种映射方式，将该待识别语句映射至的该主题模板所包括的主题阶段；

将所述待识别语句序列中各个待识别语句与对应的映射主题阶段的相似度的平均值确定为按照该种映射方式该待识别语句与该主题模板的相似度。

4.根据权利要求2所述的方法，其中，所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第三相似度计算步骤计算得到的，所述第三相似度计算步骤包括：

对于所述待识别语句序列中的每个待识别语句，确定与该待识别语句对应的映射主题阶段，所述与该待识别语句对应的映射主题阶段为按照该种映射方式将该待识别语句映射至的该主题模板所包括的主题阶段；

对于该主题模板所包括的每个主题阶段，根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度，确定所述待识别语句序列与该主题阶段对应的相似度；

将所述待识别语句序列与该主题模板所包括的各主题阶段对应的相似度的平均值确定为所述待识别语句序列与该主题模板的相似度。

5.根据权利要求3所述的方法，其中，所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，包括：

6.根据权利要求3所述的方法，其中，所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，包括：

7.根据权利要求1所述的方法，其中，所述根据关联参数确定所述待识别语句序列的主题，包括：

将所述主题模板集合中与所述待识别语句序列的相似度最大的主题模板对应的主题确定为所述待识别语句序列的主题。

8.根据权利要求1-7中任一所述的方法，其中，所述确定待识别语句序列，包括：

实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列；

将在所述历史上一主题对话语句序列的末尾添加所述当前对话语句后所得到的新的语句序列确定为所述待识别语句序列。

9.根据权利要求8所述的方法，其中，所述关联参数还包括：所述历史上一主题对话语句序列的主题和相似度，所述历史上一主题对话语句序列的相似度为所述历史上一主题对话语句序列与所述历史上一主题对话语句序列的主题对应的主题模板之间的相似度；以及

所述根据关联参数确定所述待识别语句序列的主题，包括：

将所述主题模板集合中各主体模板与所述待识别语句序列的相似度中的最大值确定为当前相似度；

确定上一相似度减去所述当前相似度的差值是否大于预设相似度差值阈值，其中，所述上一相似度为所述历史上一主题对话语句序列的相似度；

响应于确定大于，执行以下主题更换步骤：将所述历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中，其中，历史主题段落包括语句序列和对应的主题，清空所述历史上一主题对话语句序列，将所述当前对话语句添加到所述历史上一主题对话语句序列，计算所述历史上一主题对话语句序列与所述主题模板集合中每个主题模板的相似度，将所述主题模板集合中与所述历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为所述历史上一主题对话语句序列的主题和相似度；

响应于确定不大于，将所述当前对话语句添加到所述历史上一主题对话语句序列的末尾。

10.一种用于确定主题的装置，包括：

第一确定单元，被配置成确定待识别语句序列；

计算单元，被配置成计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度，其中，所述主题模板集合中的每个主题模板对应所述目标领域内至少一个主题中的主题，主题模板包括主题阶段序列，主题阶段包括主题语句序列；

第二确定单元，被配置成根据关联参数确定所述待识别语句序列的主题，其中，所述关联参数包括所述待识别语句序列与所述主题模板集合中每个主题模板的相似度。

11.根据权利要求10所述的装置，其中，所述计算单元进一步被配置成：

12.根据权利要求11所述的装置，其中，所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第二相似度计算步骤计算得到的，所述第二相似度计算步骤包括：

13.根据权利要求12所述的装置，其中，所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第三相似度计算步骤计算得到的，所述第三相似度计算步骤包括：

14.根据权利要求12所述的装置，其中，所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，包括：

15.根据权利要求12所述的装置，其中，所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度，确定该待识别语句与对应的映射主题阶段的相似度，包括：

16.根据权利要求10所述的装置，其中，所述第二确定单元进一步被配置成：

17.根据权利要求10-16中任一所述的装置，其中，所述第一确定单元包括：

获取模块，被配置成实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列；

第一确定模块，被配置成将在所述历史上一主题对话语句序列的末尾添加所述当前对话语句后所得到的新的语句序列确定为所述待识别语句序列。

18.根据权利要求17所述的装置，其中，所述关联参数还包括：所述历史上一主题对话语句序列的主题和相似度，所述历史上一主题对话语句序列的相似度为所述历史上一主题对话语句序列与所述历史上一主题对话语句序列的主题对应的主题模板之间的相似度；以及

所述第二确定单元包括：

第二确定模块，被配置成将所述主题模板集合中各主体模板与所述待识别语句序列的相似度中的最大值确定为当前相似度；

第三确定模块，被配置成确定上一相似度减去所述当前相似度的差值是否大于预设相似度差值阈值，其中，所述上一相似度为所述历史上一主题对话语句序列的相似度；

主题更换模块，被配置成响应于确定大于，执行以下主题更换步骤：将所述历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中，其中，历史主题段落包括语句序列和对应的主题，清空所述历史上一主题对话语句序列，将所述当前对话语句添加到所述历史上一主题对话语句序列，计算所述历史上一主题对话语句序列与所述主题模板集合中每个主题模板的相似度，将所述主题模板集合中与所述历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为所述历史上一主题对话语句序列的主题和相似度；

主题继续模块，被配置成响应于确定不大于，将所述当前对话语句添加到所述历史上一主题对话语句序列的末尾。

19.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-9中任一所述的方法。