CN113505596B

CN113505596B - 话题切换标记方法、装置及计算机设备

Info

Publication number: CN113505596B
Application number: CN202110846455.5A
Authority: CN
Inventors: 熊为星
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-08-18
Anticipated expiration: 2041-07-26
Also published as: CN113505596A

Abstract

本申请实施例提供了一种话题切换标记方法、装置及计算机设备，其中方法包括：将每个对话内的多个连续交互的聊天语句进行词语分割；根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次，其中，话题切换方向涉及源话题和切换后的目标话题；筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。通过统计的方式，将主题切换的概率信息统计出来，应用于对话机器人在对话的过程中，为对话机器人提供更符合人类聊天需求的话题切换数据。

Description

话题切换标记方法、装置及计算机设备

技术领域

本申请涉及数据处理领域，尤其涉及一种话题切换标记方法、装置及计算机设备。

背景技术

根据人类对话聊天的特点来看，人类在聊一个话题时，随着聊天内容的深入，通常会切换到与上一个话题关系较为密切的另一个话题上，例如由地域的话题切换到饮食习惯的话题。可见，人类聊天时话题切换的场景较多，且更符合人类的聊天需求。

而在当前的对话或闲聊机器人的闲聊主要分为两大类，一类是检索式的闲聊，即获取大量的闲聊语料对，对当前用户会话内容进行语义相似度检索，返回最相似的闲聊语料作为答案返回给用户；另一类是生成式的闲聊，通过深度学习模型对训练语料进行学习，该模型架构通常是encoder-decoder模式，并针对用户会话内容灵活生成答案返回给用户。

检索式闲聊机器人给出的闲聊内容语句通顺、更接近人类语言的表述，但灵活性低，且受限于闲聊语料库的大小及语义匹配算法的精度及效率；而生成式闲聊机器人生成的内容灵活的同时，内容确定性较低，体现在语句的通顺性、友好性、前后话题的统一性、趣味性等方面。

但限于当前的中文开源的闲聊数据较少，且多数是单轮或多轮的对话数据，数据几乎没有其它的额外信息。导致生成式模型无法利用更多的信息来生成具有话题统一的对话内容。可见，现有的闲聊机器人所使用的话题闲聊内容较为单一，无法满足人类的真实聊天的灵活性和趣味性。

发明内容

为了解决上述技术问题，本申请实施例提供了一种话题切换标记方法、装置及计算机设备。

第一方面，本申请实施例提供了一种话题切换标记方法，包括：

将每个对话内的多个连续交互的聊天语句进行词语分割；

根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次，其中，话题切换方向涉及源话题和切换后的目标话题；

筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。

第二方面，本申请实施例提供了一种话题切换标记装置，包括：

分割模块，用于将每个对话内的多个连续交互的聊天语句进行词语分割；

统计模块，用于根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次，其中，话题切换方向涉及源话题和切换后的目标话题；

标记模块，用于筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。

第三方面，本申请实施例提供了一种计算机设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行第一方面中任一项所述的话题切换标记方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面中任一项所述的话题切换标记方法。

上述本申请提供的话题切换标记方法、装置及计算机设备，通过将每个对话内的多个连续交互的聊天语句进行词语分割，再根据每个对话分割出的词语所属的话题类别，这样就可以统计出单个对话所涉及的话题切换方向及切换频次。针对全部的对话均执行前述的词语分割及话题切换方向统计操作，再从中筛选出切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。这样就可以通过统计的方式，将主题切换的概率信息统计出来，应用于对话机器人在对话的过程中，为对话机器人提供更符合人类聊天需求的话题切换数据。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的一种话题切换标记方法的流程示意图；

图2示出了本申请实施例提供的另一种话题切换标记方法的流程示意图；

图3示出了本申请实施例提供的另一种话题切换标记方法的流程示意图；

图4示出了本申请实施例提供的另一种话题切换标记方法的流程示意图；

图5示出了本申请实施例提供的一种话题切换标记装置的模块示意图；

图6示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

参见图1，为本申请实施例提供的一种话题切换标记方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

S101，将每个对话内的多个连续交互的聊天语句进行词语分割；

本实施例提供的话题切换标记方法，用于针对人类聊天过程中的对话所涉及的话题切换方向进行标记和统计，所处理的数据对象为人类聊天的对话。在进行对话切换标记流程之前，可以通过实时采集或者从已有对话数据库或者小说等其他文本资料中获取多个对话。

需要说明的是，考虑到涉及话题切换的对话至少包括两个会话人员间反复一来一回的多个聊天语句，即A-B-A-B，这样才可能涉及到由一个会话到另一个会话的话题切换。为保证话题切换的可靠性，此处可以限定对话均为多轮对话而非单轮对话，多轮对话即每个对话均包括多个连续交互的聊天语句。其中，单轮对话和多轮对话的区别可以如下表1所示：

表1

在对话中，话题通常是通过词语所属的话题类型来体现的，通过分析对话中词语所属的话题类型来统计是否出现不同话题。在获取以上包含多个聊天会话的对话后，按照会话顺序，将对话中的聊天语句进行词语分割，分割出一个个的词语，再进行后续的话题统计操作。

在进行词语分割时，可以按照话题覆盖词语的字节数进行分割，也可以按照常规的词语分割方法来，即按照1到4个关联性较大的词语进行词语分割，这样分割的词语颗粒度较小，准确性也越高。例如，上述多轮对话可以分割为：云南、向往、地方、西双版纳、我、第三次、云南、西双版纳、去、兄弟、结婚、旅游等。

S102，根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次，其中，话题切换方向涉及源话题和切换后的目标话题；

不同的词语所属的话题类别不同，例如上述的多轮对话示例中分割出的词语，西双版纳属于地名，云南属于地名，兄弟属于关系名称，结婚、旅游属于事件话题等。

词语分类表是一个用于指示每个词语所属的话题类别的数据表，计算机设备可以存储预设的词语话题分类表，或者调用其他设备内的词语话题分类表，用于从该词语话题分类表中查找出分割的每个词语所属的话题类别。

每个对话的全部聊天语句可以分割出多个词语，确定各词语所属的话题类别后，对话中可能存在重复出现的词语，也可能存在不同词语所属的话题类别相同。此时，需要先统计每个对话所涉及的话题切换方向及切换频次，例如上述多轮对话示例中，出现地方名话题到事件话题切换。此处，将话题切换过程中，先出现的话题定义为源话题，后出现的话题定义为目标话题。需要说明的是，在不同的话题切换方向中，同一个话题可能是源话题也可能是目标话题，此处仅统计话题单向切换内容，不作其他限定。

考虑到每个对话中可能涉及到多个话题切换方向，可以统计出全部的话题切换方向，也可以仅统计切换频次超过预设频次或者切换频次最高的话题切换方向，作为该对话所涉及的话题切换方向。

S103，筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。

针对所获取的多个对话均执行前述的话题切换方向统计的操作，这样就可以得到每个对话所涉及的话题切换方向。为更符合人类聊天习惯，此处设置第一预设条件，将切换频次满足该第一预设条件的话题切换方向才作为筛选出能用于后续机器人训练等场景的话题切换方向，定义为目标话题切换方向，并标记每个目标切换方向所涉及的源话题和目标话题。

所设置的第一预设条件可以为切换频次大于或者等于次数阈值，也可以为切换频次较多的前N个，或者切换频次所占比例较大的前M个，当然，此处的次数阈值、N和M都可以根据场景自定义设置，不作限定。

根据本申请的一种具体实施方式，所述筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题的步骤之后，所述方法还包括：

将所述目标话题切换方向所涉及的源话题和目标话题输入基础卷积神经网络进行训练，得到话题切换模型；

将所述话题切换模型加载到语音对话机器人。

将统计得到的高频词的话题切换方向所涉及的源话题和目标话题训练话题切换模型，可以用于语音对话机器人，提高语音对话机器人的输出对话对人类对话的高贴合度和趣味性。

上述本申请提供的话题切换标记方法，通过统计的方式，将主题切换的概率信息统计出来，应用于对话机器人在对话的过程中，为对话机器人提供更符合人类聊天需求的话题切换数据。

在上述实施例的基础上，根据本申请的一种具体实施方式，对词语分割及话题切换方向统计的步骤还作了进一步限定。上述步骤S101及步骤S102所述的，将每个对话内的多个连续交互的聊天语句进行词语分割，根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次的步骤，如图2所示，可以具体包括：

S201，将对话内的全部聊天语句顺次拼接成长句，其中，相邻聊天语句之间设置有间隔符；

针对对话进行词语分割时，先将对话的全部聊天语句顺次拼接成长句，拼接过程中将对话人屏蔽掉以避免参与到词语分割中造成话题错误分析，此外，聊天语句之间用间隔符间隔开，避免可能出现的词语组合。间隔符的形式可以有多种，例如空格、#、*或者各聊天语句结尾原本存在的标点符号，当然也可以为上述几种间隔符的组合。

针对前述示例的多轮对话，拼接处的长句可以为：“云南是我向往的地方，尤其西双版纳。#我这是第三次来云南，不过西双版纳还没去呢。#我家兄弟结婚旅游去了那里，真的好地方。#那里的确很不错。”，即用间隔符#将聊天语句的收尾间隔开。

S202，将拼接后的长句进行词语分割，得到基础词语；

接着，将上述步骤拼接得到的长句进行常规的词语分割，将分割得到的词语定义为基础词语。此处的分割需要按照在长句中出现的先后顺序先后分割，还要统计分割得到的各基础词语出现的位置。

例如，前述示例的多轮对话的长句可以分割得到的基础词语包括：我、这是、第三次、来、云南、不过、西双版纳、还没、去、呢、我家、兄弟、结婚、旅游、去了、那里、真的、好地方等。

S203，从全部基础词语中筛选出预设词性的备用词语，其中，所述预设词性包括名词、人名、地名、动词、名动词、名形词和时间词中的至少一种；

由全部基础词语可以看出，基础词语的词性可能覆盖全部词性，名词、动词、人名、地名、连词、介词等，而实际关联话题的词性通常包括名词n、人名nr、地名ns、动词v、名动词vn、名形词an和时间词t，将此类词性定义为预设词性。

为减少不必要的统计操作，将上述词语分割得到的全部词语中，再筛选出可能跟话题关联的预设词性的词语，定义为备用词语。例如上述全部基础词语中可筛选出的备用词语可以包括：云南、西双版纳、地方、兄弟、结婚、云南等。相应的，针对这些预备词语的统计表可以如下表2所示：

表2

位置	词
		0	云南
7	地方
		12	西双版纳
25	云南
		30	西双版纳
42	兄弟
		44	结婚
46	旅游
		56	地方

其中，表2中的位置为拼接的长句中，每个对应的词语出现的位置，位置从0开始计数。此处的位置技术可以按照单个中文字符进行计数，也可以按照字节数进行计数，遵循统一的计数规则即可，不作限定。

S204，根据每个对话筛选出的备用词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次。

接着，依据预设的词语话题分类表，确定每个备用词语所属的话题类别。需要说明的是，不同的词语话题分类表，所得到的话题类别可能不同，为避免可能对准确性造成的影响，在每一次进行话题切换方向统计的操作中，采用相同的词语话题分类表作为参考即可。

进一步的，步骤S204所述的，根据每个对话分割出的备用词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次的步骤，可以具体包括：

S301，根据预设的词语话题分类表，确定每个备选词语所属的话题类别；

本实施方式中所采用的预设的词语话题分类表可以有多种，例如，可以为哈工大词林所提供的词语话题分类表《同义词词林》，也可以为根据维基百科或者其它数据分类表所获取的词语话题分类表。依据所选择的词语话题分类表，确定每个备选词语所属的话题类别。

在本实施方式中，依据哈工大词林所提供的词语话题分类表确定备选词语所属的话题类别的过程可以包括：

哈工大《同义词词林》按照树状的层次结构把所有收录的词条组织到一起，把词汇分成大、中、小三类，大类有12个，中类有97个，小类有1400个。每个小类里都有很多的词，这些词又根据词义的远近和相关性分成了若干个词群。每个词群中的词语又进一步分成了若干个行，同一行的词语要么词义相同，要么词义有很强的相关性。

将表2中保留的词对《同义词词林》进行映射，查表得到表3：

表3

位置	词	大类	中类	小类	标志
						0	云南	抽象事物	社会-政法	国家-行政区划	Di02
7	地方	时间空间	空间	地方-地点	Cb08
						12	西双版纳	抽象事物	社会-政法	国家-行政区划	Di02
24	来	抽象事物	数量-单位	半-概述-若干	Dn05
						25	云南	抽象事物	社会-政法	国家-行政区划	Di02
30	西双版纳	抽象事物	社会-政法	国家-行政区划	Di02
						35	没去	/	/	/	/
42	兄弟	人	泛称	我-我们	Aa02
						44	结婚	活动	生活	恋爱-订婚-结婚-离婚	Hj51
46	旅游	活动	生活	游戏-游览-消遣	Hj48
						48	去	活动	交通运输	离开-返回	Hf07
56	地方	时间空间	空间	地方-地点	Cb08

这里对词的标志信息做一个介绍，用4个占位符标记，首个占位符为大写字母、第二占位符为小写字母、第三占位符及第四占位符为数字，其中的标记的性质如下表4所示:

表4

S302，统计在所述对话内，每个话题类别的出现频次；

在针对全部备用词语依次确定所属的话题类别后，再统计该对话中各话题类别的出现频次，话题类别出现频次较多，可能是相同的备用词语多次出现，也可能是不同的备用词语属于同一话题类别。

根据本申请的一种具体实施方式，预设的词语话题分类表至少包括第一等级词语和第二等级词语，其中，第一等级词语包括多个第二等级词语，第二等级词语包括多个第三等级词语；

所述根据预设的词语话题分类表，确定每个备选词语所属的话题类别的步骤，包括：

确定每个备选词语对应的第二等级词语；

根据预设的词语话题分类表，查找备选词语对应的第二等级词语所属的第一等级词语；

若所述第一等级词语的数量为至少两个，根据所述备选词语在所述对话中的语义选择关联性较大的一个第一等级词语。

为方便描述，按照等级对应的范围，将第一等级词语和第二等级词语对应到将表3的结果依据“大类-中类”的组合情况的频度进行筛选。先将表3转换成表5的频率统计表：

表5

统计的过程中对于同一个词频度进行叠加，位置只取较先出现的进行统计，如词:云南，位置信息出现在第0位及第25位，本表只保留第0位，对于同一“大类-中类”的词进行归并，可以用中划线“-”联合起来，同样位置也用中划线“-”联合起来。

此外，考虑到某些词语是具有多义性的，即其所属的话题类别也可能是不止一个，如地方也可能属于社会-政法这个中，这个时候可以根据该词语在对话中的语义进行挑选，标记合适的“大类-种类-小类”信息。此类词语的标注可以由用户手动选择确认或者根据预配置的语义理解来选择确认。另外针对部分词可能因分词等原因无法在词语分类表中查找到相应的话题类别，则可以放弃针对该类词语的标记和统计。

S303，筛选出现频次满足第二预设条件的两个话题类别；

依据上表可以看出，每个对话中出现的话题类别有多个，此处可以预设第二条件，来筛选出部分话题类别作为该对话的代表性话题。

可选的，所述筛选出现频次满足第二预设条件的两个话题类别的步骤，包括：

筛选出现频次最高的第一话题类别；

筛选出现频次仅次于所述第一话题类别的第二话题类别；

若所述第二话题类别的数量为至少两个，保留在所述对话中最后一个第二话题。

根据统计的话题切换的粒度进行出现频次的筛选。此处设置只保留出现频次最高的2类词语话题的情况。如表5显示，该映射的结果中最高的第一话题为Di，出现频次为4次。而次高的类别有两种，分别为Cb及Hj。考虑到一个好的对话体验，对话主题切换的速度不应过快，可以对主题进行较为深入的对话，故而根据位置差信息判断舍去在先出现的第二Cb的“大类-中类”组合，保留灾后出现的第二话题Hj的组合。或者可以理解为，准确地话题切换的位置相差不大的词应当聊的大类-中类的主题应该要相对较近，故而依据位置信息7-0的差小于44-0的差，所以保留Hj这个组合，最终得到表6所示的结果。

表6

哈工大词林针对小类的统计较为细致，而人类在区分话题时不会对话题切分的那么细，如去名山大川可以归为旅游，去摩登城市也可以归为旅游；二方面由于当前网络上可以获取的闲聊语料相对较少，所以如果按照小类进行组合，那么每个话题的切换的闲聊语料个数将会非常少，而少量的语料支持的话题切换统计具有较大的随机性。而在表6保留了小类，该信息能够为除语料的主题切换之外保留更多的额外信息，可根据对话切换场景的精细度需求选择性使用。

S304，根据出现频次满足第二预设条件的两个话题类别确定话题切换方向，其中，在所述对话内出现顺序靠前的话题类别为源话题，在所述对话内出现顺序靠后的话题类别为目标话题；

依据上述示例，选出的两个话题类别为Di和Hj，出现顺序靠前的Di即为源话题，出现顺序靠后的Hj即为目标话题，该对话的话题切换方向为由Di到Hj。

S305，统计在所述对话内，由所述源话题切换到所述目标话题的切换频次。

将得到的主题切换记录在该多轮闲聊对话的语料中，记录的形式如下表7所示：

表7

由表7可得，Di->Hj的话题切换的切换频次为1。

另外，根据本申请的一种具体实施方式，S103所述的，筛选全部对话的话题切换方向中，切换频次满足第一预设条件的话题切换方向的步骤，包括：

筛选切换频次最多或者切换频次大于或者等于预设频次的目标话题切换方向。

依据前述步骤对获取的多轮闲聊语料库中其它语料进行相似的处理，得到每个多轮对话的主题切换的统计结果。将所有语料的主题切换进行加总统计，得到一个统计表如表8所示：

表8

源主题	目标主题	切换频次
			Di	Hj	1489
Di	Dj	5307
			Di	Br	6387
...	...	...

对应的，由此还能得到一个话题切换概率分布表如下表9所示:

表9

源主题	目标主题	概率
			Di	Hj	3.62％
Di	Dj	12.90％
			Di	Br	15.53％
...	...	...

由表8和表9可知，由统计的频度可知，可猜测出聊城市的时候可能会聊旅游、聊生活、聊习俗(Di->Hj)、聊国家的时候会聊产业、聊GDP或聊职业的时候可能会聊工资(Di->Dj)、聊城市的时候会聊饮食、聊特产(Di->Br)。

得到的主题切换统计数据，可以应用于训练对话生成模型或者对话机器人，实现更精准、有趣味性的人机对话或者机器之间的对话。

在另一种实施方式中，依据维基百科自统计得到词语话题分类表并使用的过程可以具体包括：

根据本申请的一种具体实施方式，预设的词语话题分类表的获取步骤，包括：

获取多个词语分级链条，每个词语分级链条均包括多个等级数量的词语；

将全部词语分级链条处理成包含相同等级数量的词语分级链条；

将处理后的词语分级链条进行去重和合并，得到预设的词语话题分类表。

本实施方式中，利用维基百科或者其他已有词语分级链条自动生成词语话题分类表，下面将结合图4，主要针对本实施方式与哈工大词林在词语所映射的话题类别等步骤中的主要区别进行重点论述。如图4所示，主要包括以下步骤：

S401，闲聊数据。

轮次大于2轮的闲聊数据。

S402，拼接后搜索；

多轮预料使用#进行拼接；

使用Tire树进行搜索。

本部分主要关注维基百科的两类数据：各级子分类的标签及页面的词条信息。如维基百科地理这个一级类别下面，有7个二级分类，其中一个二级分类的标签为亚洲，而亚洲这个二级分类下面有22个子分类，且有7个页面信息。

具体我们以其中一个分级链条为例进行举例说明，见表10：

表10

级次	标签名	子分类数目	页面数目
				一	地理	7	0
二	亚洲	22	7
				三	亚洲文化	38	7
四	亚洲娱乐	4	0
				五	亚洲各国娱乐	6	0
六	中国娱乐	14	0
				七	中国电影	21	9
八	中国电影人	14	2
				九	中国电影导演	32	97
十	北京电影导演	0	27
				十一	陈XX导演	0	0

该链条共含十一分类，每级标签名下有标明其子分类数目及页面数目。

通过爬取维基相关数据，可得到各级次标签名的总页面数量，如下表11所示:

表1

本体主题词表相对容易获取，即为各个页面对应的词条内容，如上文中的陈XX导演。将各个页面的内容爬取下来，形成本体主题词。

对于主题级次表，由于维基百科上的各内容级次不等，有些级次长达15级，有些则只有2级标签，需要做统一的级次调整，本文将所有页面词条的分级级次设定为5级，并使用10个占位符标记，首个占位符为大写字母、第二占位符到第10占位符为数字，其中的标记的性质及级次如下表12所示:

表12

对于不足5级的页面内容可重复最末级的标签名，如：地理(一级)-亚洲(二级)-亚洲文化(三级)-亚洲文化(四级)-亚洲文化(五级)，进行级次的补足。

对于级次超过5级的页面内容需要进行级次折叠，为了使折叠的各级次间页面内容数量相应的均衡，我们采用如下方式进行级次折叠：

假设一级标签名的去重后的页面总数为N个，则计算N1/5可得到一个基数，假设该数值为M，则从最末级开始计算去重后的页面的数量最靠近M的级次作为第一折叠点，继续找第4折叠点时，此时需要以M2作为折叠点的判断。以陈XX导演这一页面内容为例进行说明，因为一级标签“世界各地”去重后的页面总数为N＝200000，则(200000)^0.2计算得到M的值为11.5，又因为北京电影导演比中国电影导演更靠近M值所以第一折叠点“北京电影导演”。继续找第二折叠点，此时的判断数值为M2＝132.25，则中国电影导演比中国电影人更适合作为第二折叠点/>如此继续可以找到所有的折叠点，最终形成级次的折叠。本例最后的级次为：地理---亚洲各国娱乐---中国电影人---中国电影导演---北京电影导演。因为本例中的数据为随意列举，不作为最终的结果进行使用。

如此，可使用表12格式的编码方式组织形成最终的主题级次表。

S403，保留本体词进行映射；

保留出现在拼接长句中的本体词；

保留下来的词使用维基主题级次表进行映射，得到一级-二级-三级-司机-五级的话题表示。

S404，一级-二级切换频次统计；

组合一级-二级-三级进行切换频次统计；

保留切换top2的切换频次。

S405，标记话题切换并重点标记；

依据位置差标记话题切换；

充值训练数据。

把本体词分成五级，形成主题级次表。主题级次表共有一级8个，本体词1,194,901个。将表13中保留的词对主题级次表进行映射，查表得到前述表2的部分。表其中某些词是具有多义性的，如地方也可能属于“人文-社会学-政法-政法-政法”这个类别(中央地方的概念)，这个时候需要根据该词在句子中的语义进行挑选，标记合适的映射类别信息。

针对这种多义性的词在标注时有两种常用的方法，一种是在标注时依赖人工根据句中语义信息进行类别挑选，确定该词的五级的主题级次；另外一种可以通过分类的模型对这些多义词进行分类判断，分类模型训练所需的分类语料来自于自动构建的语料。构建分类的语料逻辑定义如下：正样本来自于表5阐述的系统构建的五级主题级次表，而负样本来自于表2中随机组合词与其它的五级级次的关系，如“云南”的五级主题级次的正样本对应的是“D051217023”，“云南”的的五级主题级次的某一负样本对应的是“F081115032”,如此可构建语义分类训练所需的正负样本。通常来说，人工标注的精度更高一些，但为了减少对人工的依赖，我们采用的标注方式是语义分类模型。模型可使用基于Transformer或卷积神经网络的二分类模型。

将表2的结果依据“一级---二级---三级”的组合情况的频度进行筛选。可根据需求控制级次的粒度信息，举例以三级级次为例，将表2转换成表13的频率统计表：

表13

统计的过程中对于同一个词频度进行叠加但位置信息只取较先出现的进行统计，如词:云南，位置信息出现在第0位及第25位，本表只保留第0位，对于同一“一级-二级-三级”的词进行归并，用中划线“-”联合起来，同样位置信息也联合起来。

根据统计的主题切换的粒度进行频度的筛选。本文案设置只保留频度最高的2类的情况，表2显示，该映射的结果中次高的类别有两种，分别为D1201及F0811，考虑到一个好的对话体验，对话主题切换的速度不应过快，可以对主题进行较为深入的对话，故而根据位置差信息判断舍去D1201的“一级-二级-三级”组合，保留F0811的组合。

这里再进一步解释一下，所谓的对主题进行深入的对话即意味着位置相差不大的词应当聊的“一级-二级-三级”的主题应该要相对较近，故而依据位置信息7-0的差小于44-0的差，所以保留F0811这个组合。最终得到表14所示的结果。

另外，该例只统计“一级-二级-三级”的组合信息，而不组合“一级-二级-三级-四级-五级”的信息，主要考虑的两个方面:一方面来自于维基百科对五级主题级次的统计较为细致，而人类在区分话题时不会对话题切分的那么细，如去名山大川可以归为旅游，去摩登城市也可以归为旅游；二方面由于当前网络上可以获取的闲聊语料相对较少，所以如果按照五级类别进行组合，那么统计得到的每个话题的切换的闲聊语料个数将会非常少，而少量的语料支持的话题切换统计具有较大的随机性。具体的使用场景应该合理安排级次的组合进行筛选，通常采用“一级-二级-三级”信息进行组合筛选，主题标注不宜过粗也不应太细。

表14

位置

词

一级

二级

三级

标志

频度

0-12

云南-西双版纳

地理

亚洲

中国

D0512

4

44-46

结婚-旅游

人文

人类

人类行为

F0811

2

可根据表14保留的信息回到表2中去查询其对应的4级、5级类别，该信息能够为除语料的“一级-二级-三级”主题切换之外保留更多的额外信息，可够更深层次的研究使用。

根据表4可结合位置信息，得到该多轮会话内容的主题由D0512切换到F0811。并将得到的主题切换记录在该多轮闲聊对话的语料中，记录的形式如下：

重置多轮会话内容，重置后的内容对闲聊生成的探索具有重大意义。同时，D0512->F0811的主题切换的频度记为1。

依据前述处理过程对多轮闲聊语料库中其它语料进行相似的处理，得到每个多轮对话的主题切换的统计结果。将所有语料的主题切换进行加总统计，得到一个统计表15：

表15

源主题	目标主题	频度
			D0512	F1114	1489
D0512	F0811	5307
			D0512	D1201	6387
...	...	...

表16

源主题	目标主题	概率
			D0512	F1114	3.62％
D0512	F0811	12.90％
			D0512	D1201	15.53％
...	...	...

由统计的频度可知，可猜测出聊城市的时候可能会聊旅游、聊生活、聊习俗、聊国家的时候会聊产业、聊GDP或聊职业的时候可能会聊工资、聊城市的时候会聊饮食、聊特产。

综上所述，本实施里话题切换标记方法，对于闲聊数据进行话题切换的自动标注，将有助于encoder-decoder架构的生成式闲聊模型生成内容的上下文话题统一性的提升。利用标记的主题切换的内容用于生成是闲聊将提升机器人的体验，拉近与用户的距离建立起信任关系提高用户对机器人的黏性，本产品可运用到多种多样的机器人产品中，如智能音响、儿童陪伴机器人、服务机器人、智能客服机器人等。

参见图5，为本申请实施例提供的一种话题切换标记装置的模块框图。如图5所示，所述话题切换标记装置500可以包括：

分割模块501，用于将每个对话内的多个连续交互的聊天语句进行词语分割；

统计模块502，用于根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次，其中，话题切换方向涉及源话题和切换后的目标话题；

标记模块503，用于筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标切换方向所涉及的源话题和目标话题。

根据本申请的一种具体实施方式，所述分割模块501用于：

将对话内的全部聊天语句顺次拼接成长句，其中，相邻聊天语句之间设置有间隔符；

将拼接后的长句进行词语分割，得到基础词语；

从全部基础词语中筛选出预设词性的备用词语，其中，所述预设词性包括名词、人名、地名、动词、名动词、名形词和时间词中的至少一种；

所述统计模块用于：

根据每个对话筛选出的备用词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次。

根据本申请的一种具体实施方式，所述统计模块502用于：

根据预设的词语话题分类表，确定每个备选词语所属的话题类别；

统计在所述对话内，每个话题类别的出现频次；

筛选出现频次满足第二预设条件的两个话题类别；

根据出现频次满足第二预设条件的两个话题类别确定话题切换方向，其中，在所述对话内出现顺序靠前的话题类别为源话题，在所述对话内出现顺序靠后的话题类别为目标话题；

统计在所述对话内，由所述源话题切换到所述目标话题的切换频次。

根据本申请的一种具体实施方式，所述统计模块502用于：筛选出现频次最高的第一话题类别；

筛选出现频次仅次于所述第一话题类别的第二话题类别；

所述所述统计模块502用于：

确定每个备选词语对应的第二等级词语；

根据本申请的一种具体实施方式，所述筛选全部对话的话题切换方向中，切换频次满足第一预设条件的话题切换方向的步骤，包括：

根据本申请的一种具体实施方式，装置还包括训练模块，用于：

将所述话题切换模型加载到语音对话机器人。

此外，本申请实施例提供了一种计算机设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行上述方法实施例所提供的话题切换标记方法。

具体的，如图6所示，为实现本申请各个实施例的一种计算机设备，该计算机设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，计算机设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本申请实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

计算机设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与计算机设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，简称GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获计算机设备(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以视频播放在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

计算机设备600还包括至少一种传感器605，至少包含上述实施例提到的气压计。此外，传感器605还可以为其他传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在计算机设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别计算机设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于视频播放由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶视频播放器(Liquid Crystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测计算机设备和触摸控制器两个部分。其中，触摸检测计算机设备检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测计算机设备上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图5中，触控面板6071与显示面板6061是作为两个独立的部件来实现计算机设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现计算机设备的输入和输出功能，具体此处不做限定。

接口单元608为外部计算机设备与计算机设备600连接的接口。例如，外部计算机设备可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的计算机设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部计算机设备的输入(例如，数据信息、电力等等)并且将接收到的输入传输到计算机设备600内的一个或多个元件或者可以用于在计算机设备600和外部计算机设备之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

计算机设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，计算机设备600包括一些未示出的功能模块，在此不再赘述。

所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行上述的话题切换标记方法。

另外，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行上述的话题切换标记方法。

另外，在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种话题切换标记方法，其特征在于，包括：

将每个对话内的多个连续交互的聊天语句进行词语分割；

筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标话题切换方向所涉及的源话题和目标话题；

所述将每个对话内的多个连续交互的聊天语句进行词语分割，根据每个对话分割出的词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次的步骤，包括：

将拼接后的长句进行词语分割，得到基础词语；

2.根据权利要求1所述的方法，其特征在于，所述根据每个对话分割出的备用词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次的步骤，包括：

统计在所述对话内，每个话题类别的出现频次；

筛选出现频次满足第二预设条件的两个话题类别；

3.根据权利要求2所述的方法，其特征在于，所述筛选出现频次满足第二预设条件的两个话题类别的步骤，包括：

筛选出现频次最高的第一话题类别；

筛选出现频次仅次于所述第一话题类别的第二话题类别；

4.根据权利要求3所述的方法，其特征在于，预设的词语话题分类表至少包括第一等级词语和第二等级词语，其中，第一等级词语包括多个第二等级词语，第二等级词语包括多个第三等级词语；

确定每个备选词语对应的第二等级词语；

5.根据权利要求1所述的方法，其特征在于，所述筛选全部对话的话题切换方向中，切换频次满足第一预设条件的话题切换方向的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，预设的词语话题分类表的获取步骤，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标话题切换方向所涉及的源话题和目标话题的步骤之后，所述方法还包括：

将所述话题切换模型加载到语音对话机器人。

8.一种话题切换标记装置，其特征在于，包括：

标记模块，用于筛选全部对话的话题切换方向中，切换频次满足第一预设条件的目标话题切换方向，并标记所述目标话题切换方向所涉及的源话题和目标话题；

所述分割模块，还用于将对话内的全部聊天语句顺次拼接成长句，其中，相邻聊天语句之间设置有间隔符；将拼接后的长句进行词语分割，得到基础词语；从全部基础词语中筛选出预设词性的备用词语，其中，所述预设词性包括名词、人名、地名、动词、名动词、名形词和时间词中的至少一种；

所述统计模块，还用于根据每个对话筛选出的备用词语所属的话题类别，统计每个对话所涉及的话题切换方向及切换频次。

9.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的话题切换标记方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的话题切换标记方法。