CN116561259B

CN116561259B - 会话分割模型的测试方法、装置、设备及介质

Info

Publication number: CN116561259B
Application number: CN202310828084.7A
Authority: CN
Inventors: 贾敬伍; 张�杰; 于皓
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-09-05
Anticipated expiration: 2043-07-07
Also published as: CN116561259A

Abstract

本发明提供一种会话分割模型的测试方法、装置、设备及介质，涉及自然语言处理技术领域。该方法包括：针对第一数据集中参与对话的每个角色，利用角色的第一文本数据的目标词语，对角色的第二文本数据进行加噪处理，得到第一测试集；其中，第一文本数据为第二文本数据的前一条文本数据，目标词语为第一文本数据中与第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；基于第一测试集和第二测试集，对会话分割模型进行测试，获得测试结果。本发明的方法可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。

Description

会话分割模型的测试方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种会话分割模型的测试方法、装置、设备及介质。

背景技术

客服会话质检是对客服人员与用户的会话（语音或文字）进行质量检查。在此任务中，其重要一环是利用算法模型对客服录音经自动语音识别（Automatic SpeechRecognition，ASR）后的文本进行会话分割。会话分割的效果直接影响到质检效果，因此需要对会话分割模型的质量进行测试。

现有会话分割模型的测试方法，测试过程中的数据抽样、测试语料的生等的由测试者基于自身经验进行处理，人工主观性较强，不能客观反映模型效果。

发明内容

本发明的目的在于提供一种会话分割模型的测试方法、装置、设备及介质，用以解决现有会话分割模型的测试方法存在的无法客观反映模型效果的问题。

为了达到上述目的，第一方面，本发明提供一种会话分割模型的测试方法，包括：

针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；

根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；

基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果。

其中，所述针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集，包括：

针对第一数据集中参与对话的每个角色，计算所述第一文本数据与所述第二文本数据的相似度；

根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语；

将所述目标词语加入至所述第二文本数据，得到第一测试集。

其中，所述根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语，包括：

在所述第一文本数据与所述第二文本数据的相似度大于或者等于预设阈值的情况下，根据所述第一文本数据的文本长度和所述第二文本数据的文本长度，确定所述第一文本数据与所述第二文本数据存在差异的位置，并抽取所述差异的位置处的词语作为目标词语；

在所述第一文本数据与所述第二文本数据的相似度小于所述预设阈值的情况下，抽取所述第一文本数据的句尾词语作为目标词语。

其中，所述根据第二数据集和预设文本生成模型，获得第二测试集，包括：

利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集；

将所述具有系统语义的文本数据集确定为所述第二测试集。

其中，所述利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集，包括：

针对所述第二数据集中的每条文本数据，将所述文本数据合成携带文本生成指示信息的文本数据；

将所述携带文本生成指示信息的文本数据输入至所述预设文本生成模型，生成具有系统语义的文本数据，获得的具有系统语义的文本数据集。

其中，所述基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果，包括：

将所述第一测试集和所述第二测试集确定为目标测试集；

调用会话分割模型，利用所述目标测试集对所述会话分割模型进行测试，获得测试结果。

其中，所述方法还包括：

对所述第一对话语料的文本数据进行数据抽样，获取所述第一数据集和所述第二数据集。

第二方面，本发明还提供一种会话分割模型的测试装置，包括：

第一处理模块，用于针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；

第二处理模块，用于根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；

测试模块，用于基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果。

第三方面，本发明还提供一种会话分割模型的测试设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，所述处理器用于执行以下操作：

第四方面，本发明还提供一种会话分割模型的测试设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现如上述第一方面所述的会话分割模型的测试方法。

第五方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的会话分割模型的测试方法中的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例中，针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果，这样，通过上述的自动化测试，可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。

附图说明

图1表示本发明实施例提供的会话分割模型的测试方法的流程示意图之一；

图2表示本发明实施例提供的会话分割模型的测试方法的流程示意图之二；

图3表示本发明实施例提供的会话分割模型的测试装置的模块示意图；

图4表示本发明实施例提供的会话分割模型的测试设备的硬件结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

现有会话分割模型的测试方法是基于主观经验的人工测试方法。主要步骤包括：

1）引入噪声：将真实对话中的用户语句进行语句颠倒、重复、隐去，或加入前后语句的关键词，生成测试语料；

2）模型测试：调用会话分割模型，输入测试语料，得到测试结果；

3）模型评价：基于测试结果，统计准确率，对模型效果进行评价。

而现有会话分割模型的测试方法，需要大量人工操作，包括数据抽样、加入噪声和逐步测试，人工成本较高；且抽样数据、噪声数据由测试者基于自身经验进行处理，人工主观性较强，不能客观反映模型效果。

为了解决上述技术问题，本发明实施例提供了一种会话分割模型的测试方法、装置、设备及介质。其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

如图1所示，为本发明实施例提供的会话分割模型的测试方法的流程示意图，所述方法可包括：

步骤101，针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；

需要说明的是，利用第一文本数据中与第二文本数据存在差异的词语，对第二文本数据进行加噪处理，克服了现有噪声加入的主观性，避免测试偏离实际。

可选地，在步骤101之前，本发明实施例的方法还可包括：

1、对第一对话语料的文本数据进行数据抽样，获取第一数据集和第二数据集。

具体的，按照预设的抽样比例，对所述第一对话语料的文本数据进行随机抽样，得到第一数据集和第二数据集。

需要说明的是，第一对话语料可以是聊天机器人与用户之间的对话语料、人工客服与用户之间的对话语料、智能客服与用户之间的对话语料等特定场景下的对话语料，是需要进行质量检查的对话语料。比如，客服会话质检：客服会话质检，即负责对客服人员与用户的会话（语音或文字）进行质量检查。质检员会检查会话过程中客服是否按照客服规范，标准话术及标准应答流程来回答用户，以此来发现客服存在的问题，进而提高客服服务质量，最终实现提高客户满意度。

步骤102，根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；

这里，利用预设文本生成模型，即生成式模型生成新的数据作为测试集，可以快速进行数据增强、样本生成。

步骤103，基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果。

需要说明的是，会话分割指的是一系列会话数据中的各条数据具有不同的时间记录，需要识别出有多少组会话，以及单个会话的起始时间和结束时间。而会话分割可以通过会话分割模型实现，其中，通过会话分割模型获得的会话分割效果直接影响到对第一对话语料的质检结果。因此，测试会话分割模型的质量尤为重要，通过上述的自动化测试，可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。

在一可选地实施例中，上述步骤101可以具体包括：

步骤1011，针对第一数据集中参与对话的每个角色，计算所述第一文本数据与所述第二文本数据的相似度；

需要说明的是，第一文本数据泛指对应参与对话的角色产生的某条文本数据。第二文本数据是与该角色对应的第一文本数据的后一条文本数据。比如第二文本数据为第一对话语料中的第j条文本数据，则第一文本数据为第一对话语料中的第j-2条文本数据。

步骤1012，根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语；

可选地，该步骤1012可具体包括：

需要说明的是，在第一文本数据与第二文本数据的相似度大于或者等于预设阈值的情况下，第一文本数据和第二文本数据两者的文本长度相近，依据文本长度进行差异判断，确定出第一文本数据与第二文本数据存在差异的位置，并抽取所述差异的位置处的词语作为目标词语。

在第一文本数据与第二文本数据的相似度小于预设阈值的情况下，根据经验判定，确定文本数据的句尾通常具有关键信息，也就是第一文本数据的句尾是与第二文本数据存在差异之处，因此抽取第一文本数据的句尾词语作为目标词语，用于后续的加噪处理。

步骤1013，将所述目标词语加入至所述第二文本数据，得到第一测试集。

具体的，将目标词语加入至第二文本数据中的随机位置，将经过加噪处理的所有角色的文本数据替换掉原来的第一数据集中对应的文本数据，得到第一测试集。

上述处理是针对词语粒度的变换处理，得到的测试集中可以保证测试语料的稳定性。

在一可选地实施例中，上述步骤102可具体包括：

步骤1021，利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集；

其中，该步骤1021可以具体包括：

（1）针对所述第二数据集中的每条文本数据，将所述文本数据合成携带文本生成指示信息的文本数据；

具体的，针对第二数据集中的每条文本数据text_i，可通过prompt函数将该文本数据text_i合成携带文本生成指示信息的文本数据prompt。

比如，prompt= "text:{}，依据text进行改写，保持语义不变".format(text_i) 。这里的文本生成指示信息为：依据text进行改写，保持语义不变。

（2）将所述携带文本生成指示信息的文本数据输入至所述预设文本生成模型，生成具有系统语义的文本数据，获得的具有系统语义的文本数据集。

具体的，将prompt输入预设文本生成模型，生成具有系统语义的文本数据，可记为new_text_i。

上述处理是针对句子粒度的变换处理，得到的测试集可以保证测试语料的可控性。

步骤1022，将所述具有系统语义的文本数据集确定为所述第二测试集。

具体的，将生成的具有系统语义的文本数据替换掉原来的第二数据集中对应的文本数据，得到第二测试集。

在一可选地实施例中，上述步骤103可包括：

步骤1031，将所述第一测试集和所述第二测试集确定为目标测试集；

步骤1032，调用会话分割模型，利用所述目标测试集对所述会话分割模型进行测试，获得测试结果。

需要说明的是，之后可以基于测试结果，统计准确率，对会话分割模型效果进行评价。

参见图2，通过一示例，说明本发明方法的具体实施例过程。

1）数据抽样

具体的，针对给定的对话语料的文本数据，即整体数据集，设置自动抽样比例，通过抽样得到数据集1和数据集2；

2）文本相似度计算

循环抽样数据集1，针对抽样数据集中的第i条文本，同时作为整体数据集中的第j条文本，计算其与第j-2条文本的相似度，即每个角色前后两句的相似程度；

3）阈值判断

若第j条文本与第j-2条文本的文本相似度大于阈值，则依据文本长度进行差异判断，抽取第j-2条文本对应位置的词语；若文本相似度小于阈值，则抽取第j-2条文本的句尾词语；

4）文本加噪

将第j-2条文本抽取出的词语，加入到第j条文本中的随机位置，循环抽样数据集，将加噪数据替换原数据集1中的抽样样本，得到测试集；

5）合成prompt

结合数据集2中的每条样本text_i，合成prompt，如：prompt = "text:{}，依据text进行改写，保持语义不变".format(text_i)。

6）调用生成模型

将promot输入生成式模型API，得到返回结果，记为new_text_i，替换掉原数据集2中的抽样样本text_i，更新测试集；

7）模型评价

利用测试集数据，调用会话分割模型，并对依据模型返回的测试结果进行统计分析。

例如，某双录质检项目，需要利用会话分割模型分割对话节点，进行视觉检测。通过ASR将录音转化为文本后，初步且分出的会话文本存在角色交叉，例如：“同意。请您对下面几个问题进行是与否的回答”，客服语句前带有用户回答。会话分割模型的效果直接关系到后续工作，故需对已有会话分割模型的质量进行测试，满足需求方可上线模型；本发明提供的会话分割模型的测试方法，可自动进行样本抽样、增加噪声、模型测试和模型评价，从而提高测试效率，降低测试成本。

如图3所示，本发明实施例还提供一种会话分割模型的测试装置，该装置可以包括：

第一处理模块301，用于针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；

第二处理模块302，用于根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；

测试模块303，用于基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果。

可选地，第一处理模块301可包括：

计算单元，用于针对第一数据集中参与对话的每个角色，计算所述第一文本数据与所述第二文本数据的相似度；

第一处理单元，用于根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语；

第二处理单元，用于将所述目标词语加入至所述第二文本数据，得到第一测试集。

可选地，第一处理单元具体用于：

可选地，第二处理模块302可包括：

第三处理单元，用于利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集；

第四处理单元，用于将所述具有系统语义的文本数据集确定为所述第二测试集。

可选地，第三处理单元具体用于：

可选地，测试模块303可包括：

第五处理单元，用于将所述第一测试集和所述第二测试集确定为目标测试集；

测试单元，用于调用会话分割模型，利用所述目标测试集对所述会话分割模型进行测试，获得测试结果。

可选地，本发明实施例的装置还包括：

数据抽样模块，用于对所述第一对话语料的文本数据进行数据抽样，获取所述第一数据集和所述第二数据集。

本发明实施例的会话分割模型的测试装置，针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果，这样，通过上述的自动化测试，可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。

为了更好的实现上述目的，如图4所示，本发明实施例还提供一种会话分割模型的测试设备，包括处理器400和收发器410，所述收发器410在处理器400的控制下接收和发送数据，所述处理器400用于执行如下过程：

可选地，处理器400还用于：

将所述具有系统语义的文本数据集确定为所述第二测试集。

可选地，处理器400还用于：

将所述第一测试集和所述第二测试集确定为目标测试集；

可选地，处理器400还用于：

本发明实施例的会话分割模型的测试设备，针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集；其中，所述第一文本数据为所述第二文本数据的前一条文本数据，所述目标词语为所述第一文本数据中与所述第二文本数据存在差异的词语；根据第二数据集和预设文本生成模型，获得第二测试集；其中，所述第一数据集包括的文本数据和所述第二数据集包括的文本数据均为第一对话语料中的文本数据；基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果，这样，通过上述的自动化测试，可以保证测试数据的相关性和客观性，同时避免人工测试造成的主观评价，提高测试效率，降低测试成本。

本发明实施例还提供一种会话分割模型的测试设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的会话分割模型的测试方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的会话分割模型的测试方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种会话分割模型的测试方法，其特征在于，包括：

基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果；

所述根据第二数据集和预设文本生成模型，获得第二测试集，包括：

将所述具有系统语义的文本数据集确定为所述第二测试集；

所述利用所述预设文本生成模型，将所述第二数据集生成具有系统语义的文本数据集，包括：

2.根据权利要求1所述的方法，其特征在于，所述针对第一数据集中参与对话的每个角色，利用所述角色的第一文本数据的目标词语，对所述角色的第二文本数据进行加噪处理，得到第一测试集，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本数据与所述第二文本数据的相似度，抽取所述第一文本数据的目标词语，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果，包括：

将所述第一测试集和所述第二测试集确定为目标测试集；

5.根据权利要求1所述方法，其特征在于，所述方法还包括：

6.一种会话分割模型的测试装置，其特征在于，包括：

测试模块，用于基于所述第一测试集和所述第二测试集，对会话分割模型进行测试，获得测试结果；

所述第二处理模块包括：

第四处理单元，用于将所述具有系统语义的文本数据集确定为所述第二测试集；

所述第三处理单元具体用于：

7.一种会话分割模型的测试设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，其特征在于，所述处理器用于执行以下操作：

处理器还用于：

将所述具有系统语义的文本数据集确定为所述第二测试集；

处理器还用于：

8.一种会话分割模型的测试设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的会话分割模型的测试方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一项所述的会话分割模型的测试方法中的步骤。