CN114372476B

CN114372476B - 语义截断检测方法、装置、设备和计算机可读存储介质

Info

Publication number: CN114372476B
Application number: CN202210057008.6A
Authority: CN
Inventors: 赵仕豪; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-09-12
Anticipated expiration: 2042-01-18
Also published as: WO2023137920A1; CN114372476A

Abstract

本发明提供了一种语义截断检测方法、装置、设备和计算机可读存储介质，语义截断检测方法包括获取待检测文本数据；获取第一语料数据并得到多个语义截断类型；判断待检测文本数据的语义截断类型；根据语义截断类型，通过预设规则和/或BERT分类模型对待检测文本数据进行检测，得到检测结果；BERT分类模型通过以下步骤得到：获取业务语料数据；对每条业务文本数据选取一个随机位置进行切分，构造得到正例句子对；选取任意两条业务文本数据，构造得到负例句子对；根据正例句子对和负例句子对构建训练集，将训练集输入至初始BERT模型中进行训练，得到BERT分类模型；能够更加准确地识别出用户的意图，减少因识别失败而增加的交互次数，提高用户的良好体验感。

Description

语义截断检测方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语义截断检测方法、装置、设备和计算机可读存储介质。

背景技术

随着互联网时代的到来，人工智能逐渐应用于各行各业中，人们使用的终端设备从传统的个人计算机(Personal Computer，PC)、电视、电话转到了智能手机、智能穿戴等设备上来，网络信息也呈现出共享化、个性化、实时化、大数据化等特点。人们追求更高质量的生活，对服务也提出了更高的要求，能不能及时、准确地解决生活中遇到的问题是人们评价提供的服务好坏的重要指标。由于智能客服能够24小时在线为不同用户同时解决问题，能够高效地满足用户的需求，同时可以大大节省大量的人工客服成本。

而在目前的智能客服系统中，一般的交互流程是用户说完需求，然后智能客服机器人接收到用户语音信息后进行识别并提供对应的服务，但是由于用户说话特点的多样性以及实际应用场景的复杂性等多种因素，在实际交互过程中，经常会出现用户说了几个字后停顿了一下，正准备继续说时，客服机器人却已经开始进行回复，此时用户的意图无法被正确识别，导致用户与客服机器人的交互次数增多，这容易给用户带来较差的体验感。但如果将客服机器人等待时间设置延长，用户说完需要等待客服机器人反馈的时间也相应增多，这同样会给用户带来较差的体验，降低用户的满意度。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种语义截断检测方法、装置、设备和计算机可读存储介质，能够更加准确地识别出用户的意图，减少因识别失败而增加的交互次数，提高用户的良好体验感。

第一方面，本发明实施例提供了一种语义截断检测方法，包括：

获取待检测文本数据；

获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；

判断所述待检测文本数据所属的语义截断类型；

根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；

其中，所述BERT分类模型通过以下训练步骤得到：

获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；

对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；

选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；

根据所述正例句子对和所述负例句子对构建训练集，将所述训练集输入至初始BERT模型中进行训练，得到所述BERT分类模型。

在一些实施例中，所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，所述预设规则包括第一匹配字典、第二匹配字典和第三匹配字典，所述根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，包括以下至少之一：

若所述待检测文本数据属于第一截断类型，根据所述第一匹配字典对所述待检测文本数据进行匹配，其中，所述第一截断类型表示出现语气词；

若所述待检测文本数据属于第二截断类型，根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第二截断类型表示出现停顿或中断词汇；

若所述待检测文本数据属于第三截断类型，根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第三截断类型表示出现口语习惯词汇。

在一些实施例中，所述第一匹配字典预存有多个语气词；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：

若所述待检测文本数据匹配到所述第一匹配字典中的语气词，则得到所述待检测文本数据出现语义截断的检测结果。

在一些实施例中，所述第二匹配字典预存有多个停顿词汇和中断词汇；所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：

根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配；

若所述待检测文本数据不能匹配到所述第二匹配字典中的词汇，通过所述BERT分类模型进行检测并输出概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；

所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：

若所述截断预测得分高于或等于预设截断阈值，则得到所述待检测文本数据出现语义截断的检测结果。

在一些实施例中，所述第三匹配字典预存有多个口语习惯词汇；所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：

根据所述第三匹配字典对所述待检测文本数据的结尾进行匹配；

若所述待检测文本数据不能匹配到所述第三匹配字典中的词汇，通过所述BERT分类模型进行检测并输出概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；

若所述截断预测得分高于或等于预设截断阈值，则得到所述待检测文本数据出现语气截断的检测结果。

在一些实施例中，所述获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，包括：

获取预标注的第一语料数据；

对所述第一语料数据进行预处理和分词处理，得到第二语料数据；

根据预设语义维度和所述第二语料数据，得到多个语义截断类型，其中，所述预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。

在一些实施例中，所述BERT分类模型包括全连接层和两个Transformer层，所述将所述训练集输入至初始BERT模型中进行训练，包括：

将所述训练集中的数据输入至初始BERT模型中的Transformer层；

将最后一个所述Transformer层的输出向量输入至所述全连接层，输出两个类别的概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；

若所述截断预测得分高于或等于预设截断阈值，则输出表示出现语义截断的预测结果；

根据所述训练集和所述预测结果训练所述初始BERT模型。

在一些实施例中，所述语义截断检测方法还包括：

若所述检测结果表示所述待检测文本数据出现语义截断，则等待第一预设时间执行响应操作；

若所述检测结果表示所述待检测文本数据没有出现语义截断，则直接执行响应操作。

第二方面，本发明实施例还提供了一种语义截断检测装置，包括：

第一获取模块，用于获取待检测文本数据；

第二获取模块，用于获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；

判断模块，用于判断所述待检测文本数据所属的语义截断类型；

检测模块，用于根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；

第三获取模块，用于获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；

正例构造模块，用于对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；

负例构造模块，用于选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；

训练模块，用于根据所述正例句子对和所述负例句子构建训练集，将所述训练集输入至初始BERT模型中进行训练，得到所述BERT分类模型。

第三方面，本发明实施例还提供了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的语义截断检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的语义截断检测方法。

本发明实施例包括：获取待检测文本数据；获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；判断所述待检测文本数据所属的语义截断类型；根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；其中，所述BERT分类模型通过以下训练步骤得到：获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；根据所述正例句子对和所述负例句子对构建训练集，将所述训练集输入至初始BERT模型中进行训练，得到所述BERT分类模型。根据本发明实施例的技术方案，通过获取待检测文本数据，判断待检测文本数据所属的语义截断类型，根据预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，基于不同的语义截断类型选择不同的方式对待检测文本数据进行检测，更有针对性地为用户提供交互服务，有利于提高交互过程中的响应能力，另外，设计针对文本截断特点的预训练任务对初始BERT模型进行训练，通过在业务文本数据中构造存在截断关系的上下句作为正例句子对，以及构造存在非截断关系的上下句作为负例句子对，根据正例句子对和负例句子对构造得到的训练集对模型进行训练，能够令模型更好地学习截断特征的任务，有利于提升模型的识别性能，使得客服机器人在面对各种复杂的实际交互情况时，能够更加准确地识别出用户的意图，减少因识别失败而增加用户和客服机器人的交互次数，有效地改善服务质量，提高用户满意度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的语义截断检测方法的流程图；

图2是本发明一个实施例提供的BERT分类模型训练方法的流程图；

图3是本发明另一个实施例提供的语义截断检测方法的流程图；

图4是本发明另一个实施例提供的语义截断检测方法的流程图；

图5是本发明另一个实施例提供的语义截断检测方法的流程图；

图6是本发明另一个实施例提供的语义截断检测方法的流程图；

图7是本发明另一个实施例提供的BERT分类模型训练方法的流程图；

图8是本发明另一个实施例提供的语义截断检测装置的结构示意图；

图9是本发明一个实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，对本发明实施例作进一步阐述。

如图1和图2所示，图1是本发明一个实施例提供的语义截断检测方法的流程图，该方法包括但不限于有步骤S110至步骤S140：

步骤S110：获取待检测文本数据；

需要说明的是，待检测文本数据由基于人工智能的语音设备采集的用户语音数据转化得到，语音设备采集在交互过程中用户输出的语音数据，进而对语音数据进行识别转换，并生成对应的文本数据，即得到待检测文本数据。语音设备可以为智能手机、智能电器、智能手表等支持语音交互功能的电子设备，语音设备还具备音频输出的功能，从而能够实现人机语音交互，满足用户的交互使用需求。

步骤S120：获取第一语料数据，根据第一语料数据得到多个语义截断类型，其中，第一语料数据为出现语义截断的历史文本数据；

需要说明的是，通过统计在业务应用中出现语义截断的历史文本数据，得到第一语料数据，并基于第一语料数据分析出常见的几种语义截断类型，即分析在交互过程中语句容易出现截断的类型，从而得到多个语义截断类型。

步骤S130：判断待检测文本数据所属的语义截断类型；

步骤S140：根据语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，得到待检测文本数据是否出现语义截断的检测结果；

当获取到来自用户的待检测文本数据后，将待检测文本数据与多个语义截断类型进行比较，从而判断待检测文本数据更符合的截断类型，即得到待检测文本数据所属的语义截断类型，基于不同的语义截断类型，选择不同的检测方式，能够更有针对性地为用户提供交互服务，例如，仅通过预设规则或BERT分类模型对待检测文本数据进行检测，或者结合预设规则和BERT分类模型对待检测文本数据进行检测，从而得到检测结果，检测结果能够表示待检测文本数据是否出现语义截断，便于客服机器人识别出用户的意图，有效地提升用户的交互体验感，进而减少人工坐席服务需求，在一定程度上可以提高呼叫服务中心的工作效率，降低运营成本。

需要说明的是，预设规则用于识别用户在交互过程中是否结束当前对话，即是否出现语义截断，预设规则中通常基于已制定的语言数据库对查询词进行匹配，其中所采用的数据库可以包含常见的语义截断语句，便于判断用户的输出文本数据是否出现语义截断。预设规则包括有多种匹配方法，例如，方法一：头部查询词匹配，针对截断语句中数量较少但相对集中的查询词采用文本精确匹配方式；方法二：特殊查询词匹配，针对一些特殊格式的查询词采用正则匹配方式；方式三：短句查询词匹配，对一些用分类模型难以处理的短句查询词标注词性序列，采用词性序列匹配方式。

如图2所示，BERT分类模型通过以下训练步骤得到：

步骤S210：获取业务语料数据，其中，业务语料数据包括多条业务文本数据；

步骤S220：对每条业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，正例句子对为存在截断关系的上下句；

步骤S230：选取任意两条业务文本数据，构造得到负例句子对，其中，负例句子对为非截断关系的上下句；

步骤S240：根据正例句子对和负例句子对构建训练集，将训练集输入至初始BERT模型中进行训练，得到BERT分类模型。

需要说明的是，基于变换器的双向编码器表示技术(Bidirectional EncoderRepresentations from Transformers，BERT)模型是一种深度双向的、无监督的语言表示，

仅使用纯文本语料库进行预训练的模型，本发明实施例选择BERT模型作为分类模型，模型结构采用标准的base版BERT，即12-layer，768-hidden，12-heads，110Mparameters。通过构建正例句子对和负例句子对能够令初始BERT模型学习句子间截断关系，针对初始BERT模型，通过加入在业务应用中积累的大量业务语料数据，业务语料数据包括有多条业务文本数据，针对文本截断特点设计预训练任务，在预训练阶段的预测下句任务(Next Sentence Prediction，NSP)环节中，对每条业务文本数据选取一个随机位置进行切分，构造得到存在截断关系的上下句，即正例句子对，同时随机选取两条业务文本数据，构造得到非截断关系的上下句，即负例句子对，根据正例句子对和负例句子对构建训练集，将训练集输入至初始BERT模型中进行训练，使得模型在预训练的同时预测文本数据上下句的截断关系，最终得到文本表征效果更好的BERT分类模型，有利于检测文本数据中出现语义截断的精度，使得客服机器人拥有更强的判断用户是否结束当前对话的能力。

根据本发明实施例的技术方案，通过获取待检测文本数据，判断待检测文本数据所属的语义截断类型，根据预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，基于不同的语义截断类型选择不同的方式对待检测文本数据进行检测，更有针对性地为用户提供交互服务，有利于提高交互过程中的响应能力，另外，设计针对文本截断特点的预训练任务对初始BERT模型进行训练，通过在业务文本数据中构造存在截断关系的上下句作为正例句子对，以及构造存在非截断关系的上下句作为负例句子对，根据正例句子对和负例句子对构造得到的训练集对模型进行训练，能够令模型更好地学习截断特征的任务，有利于提升模型的识别性能，使得客服机器人在面对各种复杂的实际交互情况时，能够更加准确地识别出用户的意图，减少因识别失败而增加用户和客服机器人的交互次数，有效地改善服务质量，提高用户满意度。

基于图1的语义截断检测方法，多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，预设规则包括第一匹配字典、第二匹配字典和第三匹配字典，步骤S140中根据语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，包括以下至少之一：

步骤S1411：若待检测文本数据属于第一截断类型，根据第一匹配字典对待检测文本数据进行匹配，其中，第一截断类型表示出现语气词；

步骤S1421：若待检测文本数据属于第二截断类型，根据第二匹配字典和BERT分类模型对待检测文本数据进行检测，其中，第二截断类型表示出现停顿或中断词汇；

步骤S1431：若待检测文本数据属于第三截断类型，根据第三匹配字典和BERT分类模型对待检测文本数据进行检测，其中，第三截断类型表示出现口语习惯词汇。

由于用户说话的多样性和业务应用场景的复杂性等多种因素，识别语义截断受到不少挑战，本发明实施例通过统计多种不同应用场景中的业务文本数据，归纳出三种容易造成语义截断的类型，第一截断类型表示出现语气词，例如出现如“啊”、“呃”、“嗯”等词汇，对于语气词截断类型，多出现在短句中，可以直接采用预设规则进行检测，通过第一匹配字典对待检文本数据进行匹配得出检测结果。第二截断类型表示出现停顿或中断词汇，此种类型通常为用户表达时因停顿思考或中断导致语义截断，例如出现如“咨询一下”、“要查”、“请问一下”等词汇，对于第二截断类型，可以采用预设规则与BERT分类模型结合的方式，根据第二匹配字典和BERT分类模型对待检测文本数据进行检测得出检测结果。第三截断类型表示出现口语习惯词汇，此种类型通常为用户表达时因出现口语习惯词汇导致语义截断，例如出现如“这个”、“那个”、“就是”等词汇，对于第三截断类型，同样采用预设规则与BERT分类模型结合的方式，根据第三匹配字典和BERT分类模型对待检测文本数据进行检测得出检测结果。通过根据不同的截断类型选择后续所采用的检测策略，充分考虑到采集文本数据多样性的特点，便于做针对性的判断，大大提高语义截断的识别效率。

如图3所示，在一实施例中，本发明实施例的语义截断检测方法执行以下步骤：

步骤S110：获取待检测文本数据；

步骤S120：获取第一语料数据，根据第一语料数据得到多个语义截断类型；

步骤S130：判断待检测文本数据所属的语义截断类型；

步骤S141：若待检测文本数据属于第一截断类型，根据第一匹配字典对待检测文本数据进行匹配，得到待检测文本数据是否出现语义截断的检测结果；

步骤S142：若待检测文本数据属于第二截断类型，根据第二匹配字典和BERT分类模型对待检测文本数据进行检测，得到待检测文本数据是否出现语义截断的检测结果；

步骤S143：若待检测文本数据属于第三截断类型，根据第三匹配字典和BERT分类模型对待检测文本数据进行检测，得到待检测文本数据是否出现语义截断的检测结果。

在上述的语义截断检测方法中，第一匹配字典预存有多个语气词；步骤S140得到待检测文本数据是否出现语义截断的检测结果，包括：

步骤S1412：若待检测文本数据匹配到第一匹配字典中的语气词，则得到待检测文本数据出现语义截断的检测结果。

由于第一截断类型多出现在短句中，可以采用预设规则进行匹配，预设规则设置有第一匹配字典，第一匹配字典包括多个典型的语气词，在实际应用中，通过第一匹配字典对待检测文本数据进行匹配，如果待检测文本数据中能够精确匹配到相关语气词，则会检测出语义截断，即得到的检测结果为待检测文本数据出现语义截断。需要说明的是，通过第一匹配字典对待检测文本数据进行匹配，可以采用文本精确匹配方式或词性序列匹配方式。

如图4所示，在上述的语义截断检测方法中，第二匹配字典预存有多个停顿词汇和中断词汇；步骤S1421中根据第二匹配字典和BERT分类模型对待检测文本数据进行检测，包括但不限于步骤S310和步骤S320：

步骤S310：根据第二匹配字典对待检测文本数据的开头及结尾进行匹配；

步骤S320：若待检测文本数据不能匹配到第二匹配字典中的词汇，通过BERT分类模型进行检测并输出概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分；

步骤S140中得到待检测文本数据是否出现语义截断的检测结果，包括：

步骤S1422：若截断预测得分高于或等于预设截断阈值，则得到待检测文本数据出现语义截断的检测结果。

对于第二截断类型，可以采用预设规则和BERT分类模型的组合方法，统计一些截断语句中高频出现的停顿词汇和中断词汇，预存于第二匹配字典，由于停顿词汇和中断词汇常见于语句的开头及结尾，在实际应用中，首先通过第二匹配字典对待检测文本数据的开头及结尾进行匹配，如果不能匹配到第二匹配字典中的词汇，则进一步使用BERT分类模型进行检测，待检测文本数据通过BERT分类模型后会输出截断预测得分和非截断预测得分两个类别的概率预测得分，通过设计一个阈值判断机制，引入预设截断阈值，通过比较截断预测得分和预设截断阈值，输出检测结果，若截断预测得分高于或等于预设截断阈值，则检测结果表示出现语义截断，可以理解的是，若截断预测得分低于预设截断阈值，则检测结果表示待检测文本数据为非截断。

通过加入阈值判断机制，能够有效地提升BERT分类模型的识别性能，从而能够更加精准地判断用户是否结束当前对话，从而能够快速准确地识别出用户的意图。需要说明的是，预设截断阈值可根据实际情况设定，本发明实施例通过对不同阈值进行测试，将预设截断阈值设定为0.6，BERT分类模型的检测效果最好。

需要说明的是，若待检测文本数据能够匹配到第二匹配字典中的词汇，则能够直接确定待检测文本数据出现语义截断。通过第二匹配字典对待检测文本数据进行匹配，可以选择特殊查询词匹配或短句查询词匹配。

如图5所示，在上述的语义截断检测方法中，第三匹配字典预存有多个口语习惯词汇；步骤S1431中根据第三匹配字典和BERT分类模型对待检测文本数据进行检测，包括但不限于步骤S410和步骤S420：

步骤S410；根据第三匹配字典对待检测文本数据的结尾进行匹配；

步骤S420：若待检测文本数据不能匹配到第三匹配字典中的词汇，通过BERT分类模型进行检测并输出概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分；

步骤S1422：若截断预测得分高于或等于预设截断阈值，则得到待检测文本数据出现语气截断的检测结果。

对于第三截断类型，采用预设规则和BERT分类模型的组合方法，与第二截断类型的实施例类似，通过统计出截断语句中高频出现的口语习惯词汇，建立第三匹配字典，由于口语习惯词汇常见于语句的结尾，在实际应用中，首先通过第三匹配字典对待检测文本数据的结尾进行匹配，如果不能匹配到第三匹配字典中的词汇，则进一步使用BERT分类模型进行检测，待检测文本数据通过BERT分类模型后输出截断预测得分和非截断预测得分两个类别的概率预测得分，通过比较截断预测得分和预设截断阈值，输出检测结果，若截断预测得分高于或等于预设截断阈值，则检测结果表示出现语义截断。

需要说明的是，若待检测文本数据能够匹配到第三匹配字典中的词汇，则能够直接确定待检测文本数据出现语义截断。通过第三匹配字典对待检测文本数据进行匹配，采用文本精确匹配方式和正则匹配方式，其中，第三匹配字典包括有词汇的精确匹配字典及特殊格式匹配字典。

如图6所示，在上述的语义截断检测方法中，步骤S120中获取第一语料数据，根据第一语料数据得到多个语义截断类型，包括但不限于步骤S510至步骤S530：

步骤S510：获取预标注的第一语料数据；

步骤S520：对第一语料数据进行预处理和分词处理，得到第二语料数据；

步骤S530：根据预设语义维度和第二语料数据，得到多个语义截断类型，其中，预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。

数据是分析的重要前提，原始语料数据的积累是首先需要进行的工作。通过获取大量的历史文本数据，将出现语义截断的数据进行标注，在实际应用中，选取一个月的业务数据，根据音转字识别结果和人工转译结果对比，对数据进行标注，得到第一语料数据，然后对第一语料数据进行预处理和分词，得到第二语料数据。为了保证分词的准确性，采用基于业务数据不断优化的分词字典，更加适合业务应用场景。再根据预设语义维度对第二语料数据进行统计分析，得到多个语义截断类型，预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。

在实际应用中，根据文本的长度、首尾字、句式结构、句子词性顺序、分词后的片段频率分布等多个维度进行全方位分析，从而总结归纳出语句容易出现截断的类型。比如“咨询一下”、“我要问一下”这样的文本数据比较多，当重听了这一句的录音，发现用户在说完这句后思考停顿了一下，准备说下一句时，客服机器人却开始回复了。同样地，用户听完一段播报后，无意识地说了“呃”，拖延了一两秒，刚说下一个字时，客服机器人便已经开始回复。虽然这两种都是语义截断，但类型不同。前一种多为用户主观停顿，句式表达多为主语加动词，后一种多以一些语气词的形式出现，无其他内容。在一实施例中，根据预设语义维度和第二语料数据，得到三种语义截断类型，分别为第一截断类型、第二截断类型和第三截断类型，其中，第一截断类型表示出现语气词，第二截断类型表示出现停顿或中断词汇，第三截断类型表示出现口语习惯词汇。

如图7所示，在上述的语义截断检测方法中，BERT分类模型包括全连接层和两个Transformer层，步骤S240中将训练集输入至初始BERT模型中进行训练，包括但不限于步骤S610至步骤S640：

步骤S610：将训练集中的数据输入至初始BERT模型中的Transformer层；

步骤S620：将最后一个Transformer层的输出向量输入至全连接层，输出两个类别的概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分；

步骤S630：若截断预测得分高于或等于预设截断阈值，则输出表示出现语义截断的预测结果；

步骤S640：根据训练集和预测结果训练初始BERT模型。

本发明实施例修改了BERT分类模型中间层的部分Transformer单元，将初始BERT模型的十二层层Transformer结构缩减至两层Transformer结构，在不较大地影响模型性能的情况下大大简化了模型结构，相应地模型参数量也大大减少了，经过对模型进行测试，整个模型的训练速度提高了三倍，通过精简模型结构能够极大地提升模型的训练速度以及模型的预测速度，有利于满足企业对业务模型的快速迭代和响应能力的更高需求。

将训练集输入至初始BERT模型中进行训练的详细过程是，将预处理好的训练集中的数据输入至初始BERT模型，数据经过Embedding层(嵌入层)得到文本的表征，然后送入Transformer层中，将最后一个Transformer层隐藏状态的输出向量输入至全连接层，全连接层的输出结果就是两个类别的概率预测得分，即得到截断预测得分和非截断预测得分，通过设计一个阈值判断机制，引入预设截断阈值，通过比较截断预测得分和预设截断阈值，输出预测结果，若截断预测得分高于或等于预设截断阈值，则预测结果表示出现语义截断，根据训练集和预测结果训练初始BERT模型，得到具有良好识别性能的BERT分类模型。

需要说明的是，本实施例中BERT分类模型在训练过程中的预设截断阈值与上述在检测过程中的预设截断阈值为相同的数值，根据多次测试结果，可将预设截断阈值设定为0.6。

在上述的语义截断检测方法中，还包括：

若检测结果表示待检测文本数据出现语义截断，则等待第一预设时间执行响应操作；

若检测结果表示待检测文本数据没有出现语义截断，则直接执行响应操作。

在实际应用中，当用户的语音数据转成文本数据后，通过判断待检测文本数据是否出现语义截断，如果检测结果表示待检测文本数据出现语义截断，则等待第一预设时间执行响应操作，例如延长客服机器人300毫秒的等待时间，能够更加准确地识别出用户的意图，减少因识别失败而增加的交互次数，可以为用户提供更为人性化的交互服务，如果检测结果表示待检测文本数据没有出现语义截断，则直接执行响应操作，客服机器人按正常流程进行回答，可以加快服务的响应速度，有利于提高用户的满意度。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。本发明实施例的语义截断检测方法可以应用于智能客服系统中，在人机对话过程中，通常是通过将用户的语音应答转换为应答文字，将应答文字输入到人机对话系统中进行识别，通过客服机器人为用户提供语音交互服务，如售后问题咨询、操作指导服务等，也可以应用于其他可以使用客服机器人代替人工语音服务等领域，比如教育、医疗等领域的语音服务等。

基于上述语义截断检测方法，下面分别提出本发明的语义截断检测装置、计算机设备和计算机可读存储介质的各个实施例。

如图8所示，图8是本发明一个实施例提供的语义截断检测装置的结构示意图。本发明实施例的语义截断检测装置800包括但不限于第一获取模块810、第二获取模块820、判断模块830、检测模块840、第三获取模块850、正例构造模块860、负例构造模块870、训练模块880。

具体地，第一获取模块810用于获取待检测文本数据；第二获取模块820用于获取第一语料数据，根据第一语料数据得到多个语义截断类型，其中，第一语料数据为出现语义截断的历史文本数据；判断模块830用于判断待检测文本数据所属的语义截断类型；检测模块840用于根据语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，得到待检测文本数据是否出现语义截断的检测结果；第三获取模块850用于获取业务语料数据，其中，业务语料数据包括多条业务文本数据；正例构造模块860用于对每条业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，正例句子对为存在截断关系的上下句；负例构造模块870用于选取任意两条业务文本数据，构造得到负例句子对，其中，负例句子对为非截断关系的上下句；训练模块880用于根据正例句子对和负例句子构建训练集，将训练集输入至初始BERT模型中进行训练，得到BERT分类模型。

在上述的语义截断检测装置中，多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，预设规则包括第一匹配字典、第二匹配字典和第三匹配字典，检测模块中根据语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对待检测文本数据进行检测，包括以下至少之一：

若待检测文本数据属于第一截断类型，根据第一匹配字典对待检测文本数据进行匹配，其中，第一截断类型表示出现语气词；

若待检测文本数据属于第二截断类型，根据第二匹配字典和BERT分类模型对待检测文本数据进行检测，其中，第二截断类型表示出现停顿或中断词汇；

若待检测文本数据属于第三截断类型，根据第三匹配字典和BERT分类模型对待检测文本数据进行检测，其中，第三截断类型表示出现口语习惯词汇。

在上述的语义截断检测装置中，第一匹配字典预存有多个语气词；检测模块中得到待检测文本数据是否出现语义截断的检测结果，具体包括：

若待检测文本数据匹配到第一匹配字典中的语气词，则得到待检测文本数据出现语义截断的检测结果。

在上述的语义截断检测装置中，第二匹配字典预存有多个停顿词汇和中断词汇，检测模块中根据第二匹配字典和BERT分类模型对待检测文本数据进行检测，具体包括：

根据第二匹配字典对待检测文本数据的开头及结尾进行匹配；

若待检测文本数据不能匹配到第二匹配字典中的词汇，通过BERT分类模型进行检测并输出概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分。

检测模块中得到待检测文本数据是否出现语义截断的检测结果，具体包括：

若截断预测得分高于或等于预设截断阈值，则得到待检测文本数据出现语义截断的检测结果。

在上述的语义截断检测装置中，第三匹配字典预存有多个口语习惯词汇；检测模块中根据第三匹配字典和BERT分类模型对待检测文本数据进行检测，具体包括：

根据第三匹配字典对待检测文本数据的结尾进行匹配；

若待检测文本数据不能匹配到第三匹配字典中的词汇，通过BERT分类模型进行检测并输出概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分。

若截断预测得分高于或等于预设截断阈值，则得到待检测文本数据出现语气截断的检测结果。

在上述的语义截断检测装置中，第二获取模块，具体用于：

获取预标注的第一语料数据；

对第一语料数据进行预处理和分词处理，得到第二语料数据；

根据预设语义维度和第二语料数据，得到多个语义截断类型，其中，预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。

在上述的语义截断检测装置中，BERT分类模型包括全连接层和两个Transformer层，训练模块中将训练集输入至初始BERT模型中进行训练，具体包括：

将训练集中的数据输入至初始BERT模型中的Transformer层；

将最后一个Transformer层的输出向量输入至全连接层，输出两个类别的概率预测得分，其中，概率预测得分包括截断预测得分和非截断预测得分；

若截断预测得分高于或等于预设截断阈值，则输出表示出现语义截断的预测结果；

根据训练集和预测结果训练初始BERT模型。

在上述的语义截断检测装置中，还包括第一执行模块和第二执行模块，第一执行模块用于在检测结果表示待检测文本数据出现语义截断的情况下，等待第一预设时间执行响应操作，第二执行模块用于在检测结果表示待检测文本数据没有出现语义截断的情况下，直接执行响应操作。

需要说明的是，本发明实施例的语义截断检测装置的具体实施方式及对应的技术效果，可对应参照上述语义截断检测方法的具体实施方式及对应的技术效果。

如图9所示，本发明的一个实施例还提供了一种计算机设备900，该计算机设备900包括：存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。

处理器920和存储器910可以通过总线或者其他方式连接。存储器910作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器910可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器910可选包括相对于处理器920远程设置的存储器，这些远程存储器可以通过网络连接至该发号器组件。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本领域技术人员可以理解的是，图9中示出的计算机设备900并不构成对本发明实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。实现上述实施例的语义截断检测方法所需的非暂态软件程序以及指令存储在存储器910中，当被处理器920执行时，执行上述实施例的语义截断检测方法，例如，执行以上描述的图1以及图3至图6中的方法步骤。

另外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行上述的语义截断检测方法。例如，被上述语义截断检测装置的一个处理器执行，可使得上述处理器执行上述实施例中的语义截断检测方法，例如，执行以上描述的图1以及图3至图6中的方法步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种语义截断检测方法，其特征在于，包括：

获取待检测文本数据；

获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据，所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，其中，所述第一截断类型表示出现语气词，所述第二截断类型表示出现停顿或中断词汇，所述第三截断类型表示出现口语习惯词汇；

判断所述待检测文本数据所属的语义截断类型；

若所述待检测文本数据属于第一截断类型，根据第一匹配字典对所述待检测文本数据进行匹配；

若所述待检测文本数据属于第二截断类型，根据第二匹配字典和BERT分类模型对所述待检测文本数据进行检测；

若所述待检测文本数据属于第三截断类型，根据第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测；

其中，所述BERT分类模型通过以下训练步骤得到：

2.根据权利要求1所述的语义截断检测方法，其特征在于，所述第一匹配字典预存有多个语气词；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：

3.根据权利要求1所述的语义截断检测方法，其特征在于，所述第二匹配字典预存有多个停顿词汇和中断词汇；所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：

4.根据权利要求1所述的语义截断检测方法，其特征在于，所述第三匹配字典预存有多个口语习惯词汇；所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：

5.根据权利要求1所述的语义截断检测方法，其特征在于，所述获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，包括：

获取预标注的第一语料数据；

6.根据权利要求1所述的语义截断检测方法，其特征在于，所述BERT分类模型包括全连接层和两个Transformer层，所述将所述训练集输入至初始BERT模型中进行训练，包括：

将所述训练集中的数据输入至初始BERT模型中的Transformer层；

根据所述训练集和所述预测结果训练所述初始BERT模型。

7.一种语义截断检测装置，其特征在于，包括：

第一获取模块，用于获取待检测文本数据；

第二获取模块，用于获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据，所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，其中，所述第一截断类型表示出现语气词，所述第二截断类型表示出现停顿或中断词汇，所述第三截断类型表示出现口语习惯词汇；

检测模块，用于执行以下之一：若所述待检测文本数据属于第一截断类型，根据第一匹配字典对所述待检测文本数据进行匹配；若所述待检测文本数据属于第二截断类型，根据第二匹配字典和BERT分类模型对所述待检测文本数据进行检测；若所述待检测文本数据属于第三截断类型，根据第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测；

8.一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的语义截断检测方法。

9.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的语义截断检测方法。