CN112560449A

CN112560449A - 一种文本质量的检测方法、装置、电子设备及存储介质

Info

Publication number: CN112560449A
Application number: CN202110199595.8A
Authority: CN
Inventors: 胡广宇; 邓菁; 吴富章
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-03-26
Anticipated expiration: 2041-02-23
Also published as: CN112560449B

Abstract

本申请提供了一种文本质量的检测方法、装置、电子设备及存储介质，方法包括：针对每个提问模板子语句，根据该提问模板子语句中字符的目标数量，从待检测文本中选取多个由目标数量个相邻的字符组成的待检测提问字符串；根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，确定该提问模板子语句对应的待检测提问子语句；根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在待检测文本中的位置，确定每个子提问模板文本对应的待检测答复子语句；若各个待检测答复子语句中均包括预设的肯定答复字符串，则确定待检测文本的质量合格。本申请通过增强文本质量检测的针对性，进而提高文本质量检测的准确度。

Description

一种文本质量的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种文本质量的检测方法、装置、电子设备及存储介质。

背景技术

现阶段，在金融、保险、证券等行业中，监管部门要求业务员在向客户推销高风险金融产品时，将金融产品详尽的风险信息告知客户，并录制告知过程的双录音视频，以便监管部门基于双录音视频，对金融产品交易过程的合规性进行监管。

实际中，金融产品均对应有风险告知模板文本，在金融产品交易过程中采集双录音视频，将双录音视频的音频转换为风险告知待检测文本，并根据风险告知待检测文本和风险告知模板文本，确定该次金融产品交易是否合规。

但是，风险告知待检测文本与风险告知模板文本包括的字符数差距较大，通过比对两个文本的方式，容易造成文本质量检测的准确度低下。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本质量的检测方法、装置、电子设备及存储介质，能够通过从待检测文本中选取每个提问模板子语句对应的待检测提问子语句，以及每个子提问模板文本对应的待检测答复子语句，增强文本质量检测的针对性，进而提高文本质量检测的准确度。

第一方面，本申请实施例提供了一种文本质量的检测方法，所述检测方法包括：

获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句；

针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串；

根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句；

根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成；

若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。

在一种可能的实施方式中，所述根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句，包括：

针对每个提问模板子语句，确定该提问模板子语句与该提问模板子语句的每个待检测提问字符串之间的相似度；

将所述相似度大于预设阈值的待检测提问字符串，确定为该提问模板子语句的候选待检测提问子语句；

根据各个提问模板子语句与其分别对应的每个候选待检测提问子语句之间的相似度，确定每个提问模板子语句对应的待检测提问子语句。

在一种可能的实施方式中，通过如下方式检测每个待检测答复子语句中是否包括预设的肯定答复字符串：

针对每个待检测答复子语句，依次检测该待检测答复子语句中是否包括预设的干扰字符串、预设的否定回答字符串、预设的肯定回答字符串；其中，所述干扰字符串的长度大于所述否定回答字符串的长度，所述否定回答字符串的长度大于所述肯定回答字符串的长度；

若该待检测答复子语句中包括的所述干扰字符串和所述否定回答字符串的数量，小于包括的所述肯定回答字符串的数量，则确定该待检测答复子语句中包括所述肯定答复字符串。

在一种可能的实施方式中，通过如下方式获取所述待检测文本：

将待检测双录音视频中的待检测音频输入至预先训练好的语音转写模型中，确定所述待检测音频对应的待检测文本。

在一种可能的实施方式中，在获取待检测双录音视频中的待检测音频对应的待检测文本之前，所述检测方法还包括：

将待检测音频输入至预先训练好的关键词检索模型中，确定所述待检测音频中是否包括非法关键词；

若所述待检测音频中不包括非法关键词，则获取所述待检测音频对应的待检测文本。

在一种可能的实施方式中，所述语音转写模型中包括声学子模型和语言子模型，通过如下方式对所述声学子模型和/或所述语言子模型进行训练：

获取初始样本音频，对所述初始样本音频进行压缩处理，得到与双录音视频中的音频相似的目标样本音频；

基于所述目标样本音频，对所述声学子模型进行训练；和/或，

针对提问模板文本中的每个提问模板子语句，对该提问模板子语句包括的字符进行重组处理，得到多个提问样本子语句；

基于所述多个提问样本子语句，对第一语言子模型进行训练，得到训练完成的第二语言子模型；

基于所述第一语言子模型、所述第二语言子模型以及所述第一语言子模型和所述第二语言子模型分别对应的权重，生成所述语言子模型。

对待检测双录音视频中包括的音频和视频进行分离处理，得到待检测音频；

若所述待检测音频的振幅在预设的振幅范围内，则将所述待检测音频输入至预先训练好的语种识别模型中，确定所述待检测音频的语种类别；

若所述待检测音频的语种类别为目标语种类别，则获取所述待检测音频对应的待检测文本。

第二方面，本申请实施例提供了一种文本质量的检测装置，所述检测装置包括：

第一获取模块，用于获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句；

第一选取模块，用于针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串；

第二选取模块，用于根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句；

第三选取模块，用于根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成；

第一确定模块，用于若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的文本质量的检测方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的文本质量的检测方法的步骤。

本申请实施例提供了一种文本质量的检测方法、装置、电子设备及存储介质，其中，检测方法包括：获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句；针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串；根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句；根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成；若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。本申请实施例能够通过从待检测文本中选取每个提问模板子语句对应的待检测提问子语句，以及每个子提问模板文本对应的待检测答复子语句，增强文本质量检测的针对性，进而提高文本质量检测的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种文本质量的检测方法的流程图；

图2示出了本申请实施例提供的另一种文本质量的检测方法的流程图；

图3示出了本申请实施例提供的另一种文本质量的检测方法的流程图；

图4示出了本申请实施例提供的另一种文本质量的检测方法的流程图；

图5示出了本申请实施例提供的另一种文本质量的检测方法的流程图；

图6示出了本申请实施例提供的一种文本质量的检测装置的结构示意图；

图7示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，金融产品均对应有风险告知模板文本，在金融产品交易过程中采集双录音视频，将双录音视频的音频转换为风险告知待检测文本，计算风险告知待检测文本与风险告知模板文本的相似度，基于相似度，确定该次金融产品交易是否合规。但是，使用计算待检测文本与模板文本整体相似度的方式，在业务员对模板文本中的某些模板语句进行具体解释时，待检测文本包括的字符数将远大于模板文本包括的字符数，这将降低两个文本之间的相似度，造成待检测文本质量检测的准确度低下。

基于上述问题，本申请实施例提供了一种文本质量的检测方法、装置、电子设备及存储介质，其中，检测方法包括：获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句；针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串；根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句；根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成；若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。本申请实施例能够通过从待检测文本中选取每个提问模板子语句对应的待检测提问子语句，以及每个子提问模板文本对应的待检测答复子语句，增强文本质量检测的针对性，进而提高文本质量检测的准确度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本质量的检测方法进行详细介绍。

参见图1所示，图1为本申请实施例提供的一种文本质量的检测方法的流程图，所述检测方法包括：

S101、获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句。

该步骤中，首先获取待检测双录音视频，双录音视频中记录了第一用户和第二用户对话过程的声音和画面，第一用户为发起提问的用户，第二用户为回复第一用户的提问的用户，可选的，第一用户为出售金融产品的业务员，第二用户为购买金融产品的客户。然后对获取的待检测双录音视频进行分离，得到待检测音频和待检测视频，分别对待检测音频和待检测视频的质量进行检测。

具体的，将待检测音频转写为待检测文本，待检测文本中包括多个字符，具体由待检测提问子语句和待检测答复子语句组成，待检测文本中可以包括一组或多组待检测提问子语句和待检测答复子语句，并且，不同的双录音视频对应不同的音视频类型，相应的，不同的待检测文本对应不同的文本类型，音视频类型和文本类型是相关联的，其中，音视频类型和文本类型可以按照对话时谈论的产品的类型进行区分，比如，001号产品、002号产品、003号产品，也可以按照对话的时间进行区分，比如，2020年之前、2020年上半年、2020年下半年、2021年上半年，同一文本类型的待检测文本，第一用户需要按照相同的提问模板文本与第二用户展开对话，因此，可以根据待检测文本的文本类型，查找与待检测文本相匹配的提问模板文本，提问模板文本中包括多个提问模板子语句。

将待检测视频输入至视频质检模块，视频质检模块具体包含画面质量检测单元、人脸识别单元、第一用户（比如业务员）和第二用户（比如客户）同框检测单元、身份核验单元、人证核验检测单元、身份证检测单元、工作证检测单元、产品资料展示检测单元、签字动作检测单元，待检测视频依次接受每个单元的检测，并在通过每个单元的检测后，确定待检测视频质量合格，并在确定待检测音频质量合格后，确定待检测双录音视频质量合格，即第一用户和第二用户对话过程的声音和画面是合规的。

S102、针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串。

该步骤中，提问模板文本由多个提问模板子语句组成，针对每个提问模板子语句，确定该提问模板子语句包括的字符的目标数量，从待检测文本中选取该提问模板子语句对应的多个待检测提问字符串，待检测提问字符串中包括目标数量个相邻的字符，可选的，可以预设每两个相邻的待检测提问字符串的首个字符的距离，比如相距一个字符，根据该提问模板子语句包括的字符的目标数量，以及每两个相邻的待检测提问字符串的首个字符的距离，从待检测文本中选取该提问模板子语句对应的多个待检测提问字符串。

举例来讲，提问模板子语句中包括的字符的目标数量为8，待检测文本中包括16个字符，预设每两个相邻的待检测提问字符串的首个字符的距离为8个字符时，即任意两个相邻的待检测提问字符串包括的字符不重合时，待检测文本中第1个至第8个字符构成第一个待检测提问字符串，待检测文本中第9个至第16个字符构成第二个待检测提问字符串；预设每两个相邻的待检测提问字符串的首个字符的距离为4个字符时，即任意两个相邻的待检测提问字符串重合4（8减4）个字符时，待检测文本中第1个至第8个字符构成第一个待检测提问字符串，待检测文本中第5个至第12个字符构成第二个待检测提问字符串，待检测文本中第9个至第16个字符构成第三个待检测提问字符串。

通过如下方式从提问模板文本中提取提问模板子语句：按照标点符号对提问模板文本进行分句处理，得到多个分句，其中，标点符号包括逗号、句号、分号、顿号、问号、感叹号、冒号、双引号、单引号等多种符号，确定每个分句中包括的字符的个数，如果分句包括字符的个数大于等于预设阈值（比如10），则将该分句确定为提问模板子语句，如果分句包括字符的个数小于预设阈值（比如10），则将该分句与该分句的后一个分句进行合并，得到一个新的分句，如果新的分句包括的字符的个数大于等于预设阈值（比如10），则将新的分句确定为提问模板子语句，如果新的分句包括的字符的个数依然小于预设阈值（比如10），则更新该新的分句，直至新的分句包括的字符的个数大于等于预设阈值（比如10），这样就得到提问模板文本中包括的多个提问模板子语句。可选的，在提取提问模板子语句之前，还可以对提问模板文本中包括的通配符进行删除处理，这里，通配符为星号“*”等符号，用于代替一个或多个真正的字符，比如，姓名、身份证号码、产品名称、产品代码等真正的字符。

S103、根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句。

该步骤中，针对每个提问模板子语句，计算该提问模板子语句与该提问模板子语句对应的每个待检测提问字符串之间的相似度，根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从该提问模板子语句对应的多个待检测提问字符串中，选取出唯一的相似度符合预设要求的待检测提问字符串，作为待检测提问子语句，待检测提问子语句为第一用户复述该提问模板子语句时生成的子语句。

具体的，参见图2所示，图2为本申请实施例提供的另一种文本质量的检测方法的流程图，所述根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句，包括：

S1031、针对每个提问模板子语句，确定该提问模板子语句与该提问模板子语句的每个待检测提问字符串之间的相似度。

该步骤中，由于提问模板子语句由多个字符组成，基于编辑距离算法计算提问模板子语句与待检测提问字符串之间的相似度，即提问模板子语句与待检测提问字符串之间的编辑距离。

举例来讲，莱文斯坦距离（Levenshtein distance）是编辑距离的一种，“Saturday”和“Sundays”之间的莱文斯坦距离的计算方式为：step1：删除第一个a，使Saturday→Sturday；step2：删除第一个t，使Sturday→Surday；step3：替换r为n，使Surday→Sunday；step4：结尾添加s，使Sunday→Sundays。一共经历了4步处理，因此，“Saturday”和 “Sundays”之间的莱文斯坦距离是4。

S1032、将所述相似度大于预设阈值的待检测提问字符串，确定为该提问模板子语句的候选待检测提问子语句。

该步骤中，针对每个提问模板子语句，将该提问模板子语句与每个待检测提问字符串之间的相似度与预设阈值进行比较，若相似度大于预设阈值，则将该待检测提问字符串确定为候选待检测提问子语句，每个提问模板子语句可以对应一个或多个候选待检测提问子语句。其中，预设阈值可以根据用户的实际需求进行设置。

S1033、根据各个提问模板子语句与其分别对应的每个候选待检测提问子语句之间的相似度，确定每个提问模板子语句对应的待检测提问子语句。

该步骤中，在确定每个提问模板子语句对应的待检测提问子语句时，不仅与该提问模板子语句与每个候选待检测提问子语句之间的相似度有关，还与其他提问模板子语句与各自的每个候选待检测提问子语句之间的相似度有关，因此，根据各个提问模板子语句与各自的每个候选待检测提问子语句之间的相似度，使用动态规划方法，为每个提问模板子语句选取唯一的待检测提问子语句，其中，动态规划方法是一种开源的方法，具体的处理过程这里不再赘述。

S104、根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成。

该步骤中，提问模板文本中包括多个子提问模板文本，即第一用户与第二用户之间需要对话多个问题，第一用户与第二用户按照提问模板子语句在提问模板文本中的顺序进行对话，因此，针对每个提问模板子语句，该提问模板子语句在提问模板文本中的顺序，与该提问模板子语句对应的待检测提问子语句在待检测文本中的顺序是一致的，第一用户按照子提问模板文本包括的多个提问模板子语句提问结束后，第二用户针对第一用户的提问进行回复，即每个子提问模板文本对应多个待检测提问子语句和一个待检测答复子语句，并且，针对每个子提问模板文本，该子提问模板文本中的各个待检测提问子语句在待检测文本中的位置，一定位于该子提问模板文本的待检测答复子语句在待检测文本中的位置之前。

针对每个子提问模板文本，根据该子提问模板文本中尾句对应的待检测提问子语句在待检测文本中的位置，以及该子提问模板文本的后一个子提问模板文本的首句对应的待检测提问子语句在待检测文本中的位置，确定该子提问模板文本的待检测答复子语句在待检测文本中的位置，并提取该子提问模板文本的待检测答复子语句，特别的，针对提问模板文本中最后一个子提问模板文本，该子提问模板文本没有后一个子提问模板文本，因此，根据该子提问模板文本中尾句对应的待检测提问子语句在待检测文本中的位置，以及待检测文本中最后一个字符所在的位置，确定最后一个子提问模板文本的待检测答复子语句在待检测文本中的位置，并提取该子提问模板文本的待检测答复子语句。

具体的，针对每个子提问模板文本，根据该子提问模板文本中尾句对应的待检测提问子语句的最后一个字符在待检测文本中的位置，以及该子提问模板文本的后一个子提问模板文本的首句对应的待检测提问子语句的首个字符在待检测文本中的位置，以及预设的字符裕量，确定该子提问模板文本的待检测答复子语句在待检测文本中的位置。

举例来讲，假设每个待检测提问子语句中均包括8个字符，某一子提问模板文本中尾句对应的待检测提问子语句中的各个字符在待检测文本中是第100至108个字符，该子提问模板文本的后一个子提问模板文本对应的待检测提问子语句中的各个字符在待检测文本中是第130至138个字符，因此，该子提问模板文本中尾句对应的待检测提问子语句的最后一个字符在待检测文本中的位置为第108个字符，该子提问模板文本的后一个子提问模板文本的首句对应的待检测提问子语句的首个字符在待检测文本中的位置为第130个字符，预设的字符裕量为5，确定第103个字符至第125个字符为该子提问模板文本的待检测答复子语句。这里，预设有字符裕量，由于待检测答复子语句一般都很简短，基于字符裕量可以扩大待检测答复子语句的范围，提高选取待检测答复子语句的准确度，避免肯定回答字符串的遗漏。

S105、若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。

该步骤中，预设的肯定答复字符串包括但不限于：清楚、明白、知道，检测每个子提问模板文本对应的待检测答复子语句中是否包括肯定答复字符串，如果各个子提问模板文本分别对应的待检测答复子语句中均包括肯定答复字符串，并且，每个子提问模板文本与该子提问模板文本对应的多个待检测提问子语句的相似度满足要求，则确定待检测文本的质量合格，即待检测音频质量合格，如果待检测音频和待检测视频均质量合格，则待检测双录音视频质量合格。

另外，由于通配符可以代替姓名、身份证号码、产品名称、产品代码等真正的字符，提问模板文本中包括含有通配符的提问模板子语句，因此，从含有通配符的提问模板子语句对应的待检测提问子语句中，提取姓名、身份证号码、产品名称、产品代码等信息。

本申请实施例提供的文本质量的检测方法，能够通过从待检测文本中选取每个提问模板子语句对应的待检测提问子语句，以及每个子提问模板文本对应的待检测答复子语句，增强文本质量检测的针对性，进而提高文本质量检测的准确度。

进一步的，参见图3所示，图3为本申请实施例提供的另一种文本质量的检测方法的流程图，通过如下方式检测每个待检测答复子语句中是否包括预设的肯定答复字符串：

S301、针对每个待检测答复子语句，依次检测该待检测答复子语句中是否包括预设的干扰字符串、预设的否定回答字符串、预设的肯定回答字符串；其中，所述干扰字符串的长度大于所述否定回答字符串的长度，所述否定回答字符串的长度大于所述肯定回答字符串的长度。

该步骤中，预设的干扰字符串的长度大于预设的肯定回答字符串的长度，且包括肯定回答字符串，比如，是否清楚、是否明白、是否知道；预设的否定字符串的长度大于预设的肯定回答字符串的长度，且包括肯定回答字符串，比如，不清楚、不明白、不知道。由于干扰字符串的长度大于否定回答字符串的长度，因此，为了避免误识别，将干扰字符串中包含的肯定回答字符串误认为是肯定回答字符串，或者，将否定字符串中包含的肯定回答字符串误认为是肯定回答字符串，针对每个待检测答复子语句，依次检测该待检测答复子语句中是否包括干扰字符串、否定回答字符串、肯定回答字符串。

S302、若该待检测答复子语句中包括的所述干扰字符串和所述否定回答字符串的数量，小于包括的所述肯定回答字符串的数量，则确定该待检测答复子语句中包括所述肯定答复字符串。

该步骤中，由于干扰字符串和否定回答字符串中均包括肯定回答字符串，因此，就算待检测答复子语句中没有包括真正的肯定回答字符串，每检测到一个干扰字符串（或者否定回答字符串），都会检测到一个肯定回答字符串，所以如果待检测答复子语句中包括真正的肯定回答字符串，肯定回答字符串的数量一定大于干扰字符串和否定回答字符串的总数量，特殊的，干扰字符串的数量为0，否定回答字符串的数量为0，肯定回答字符串的数量大于等于1。

进一步的，本申请实施例提供的一种文本质量的检测方法中，通过如下方式获取所述待检测文本：

本申请实施例中，预先训练好的语音转写模型用于将音频转写为文本，将待检测音频输入语音转写模型中，将语音转写模型输出的文本，确定为该待检测音频对应的待检测文本。

进一步的，参见图4所示，图4为本申请实施例提供的另一种文本质量的检测方法的流程图，在获取待检测双录音视频中的待检测音频对应的待检测文本之前，所述检测方法还包括：

S401、将待检测音频输入至预先训练好的关键词检索模型中，确定所述待检测音频中是否包括非法关键词。

S402、若所述待检测音频中不包括非法关键词，则获取所述待检测音频对应的待检测文本。

综合步骤401和402，预先训练好的关键词检索模型用于检测音频中是否包括预设的非法关键词，关键词检索模型可以将检测到的非法关键词输出，当文本中不包括非法关键词时，输出结果为空，关键词检索模型还可以是一个二分类模型，输出结果为包括非法关键词（比如1）或者不包括非法关键词（比如0）。其中，非法关键词可以根据用户的实际需求进行设置，如果经过关键词检索模型加测后，待检测音频中不包括非法关键词，则获取待检测音频对应的待检测文本，进行后续的相关处理过程。

进一步的，语音转写模型中包括声学子模型和语言子模型，其中，声学子模型即为acoustic model，语言子模型即为n-gram模型，声学子模型和语言子模型都是通用的声音处理模型，本申请中，基于双录音视频中音频质量检测的应用场景，对声学子模型和语言子模型进行适应应用场景的模型训练，具体的，通过如下方式对声学子模型进行训练：

获取初始样本音频，对所述初始样本音频进行压缩处理，得到与双录音视频中的音频相似的目标样本音频；基于所述目标样本音频，对所述声学子模型进行训练。

本申请实施例中，由于在采集双录音视频之后，需要对双录音视频进行压缩处理，将压缩后的双录音视频发送至监管部门，由监管部门对双录音视频的质量进行检测，为了贴合双录音视频的应用场景，对初始样本音频进行压缩处理，得到和真实的双录音视频的音频相似的目标样本音频，再基于目标样本音频对初始的acoustic model进行训练，得到贴合双录音视频应用场景的声学子模型。

通过如下方式对语言子模型进行训练：针对提问模板文本中的每个提问模板子语句，对该提问模板子语句包括的字符进行重组处理，得到多个提问样本子语句；基于所述多个提问样本子语句，对第一语言子模型进行训练，得到训练完成的第二语言子模型；基于所述第一语言子模型、所述第二语言子模型以及所述第一语言子模型和所述第二语言子模型分别对应的权重，生成所述语言子模型。

本申请实施例中，基于提问模板文本中的各个提问模板子语句对初始的n-gram模型进行训练，得到第一语言子模型，实际中，第一用户在按照提问模板文本进行提问时，可能会对提问模板子语句进行符合自己语言习惯的加工，使提问模板子语句中的部分字符的顺序发生颠倒，为了更加贴合双录制音视频的应用场景，对各个提问模板子语句包括的字符进行重组处理，得到多个提问样本子语句，基于多个提问样本子语句，对第一语言子模型进行训练，得到第二语言子模型，由于第一用户按照提问模板子语句进行提问的概率大于对提问模板子语句按照符合自己语言习惯进行加工的概率，因此，第一语言子模型的权重大于第二语言子模型的权重，比如，第一语言子模型的权重为0.9，第二语言子模型的权重为0.1，基于第一语言子模型和第二语言子模型分别对应的权重，得到第一语言子模型和第二语言子模型的综合模型，即语言子模型。

需要说明的是，关键词检索模型中也包括声学子模型和语言子模型，其中，声学子模型和语言子模型的训练过程，与语音转写模型中包括的声学子模型和语言子模型的训练过程相同，这里不再赘述。

进一步的，参见图5所示，图5为本申请实施例提供的另一种文本质量的检测方法的流程图，在获取待检测双录音视频中的待检测音频对应的待检测文本之前，所述检测方法还包括：

S501、对待检测双录音视频中包括的音频和视频进行分离处理，得到待检测音频。

该步骤中，对获取的待检测双录音视频进行分离，得到待检测音频和待检测视频，分别对待检测音频和待检测视频的质量进行检测。

S502、若所述待检测音频的振幅在预设的振幅范围内，则将所述待检测音频输入至预先训练好的语种识别模型中，确定所述待检测音频的语种类别。

该步骤中，判断待检测音频的振幅是否在预设的振幅范围内，若待检测音频的振幅位于预设的振幅范围外，则确定待检测音频是静音音频或者待检测音频的噪声过大，待检测音频质量不合格，不再对待检测音频进行后续的处理，若待检测音频的振幅位于预设的振幅范围内，则确定待检测音频的振幅质量合格，不是静音音频，噪声符合要求，其中，预设的振幅范围可以根据用户的实际需求进行设置。

预先训练好的语种识别模型用于确定音频的语种类别，将振幅质量合格的待检测音频输入至语种识别模型中，将语种识别模型输出的语种类别，作为待检测音频的语种类别。

S503、若所述待检测音频的语种类别为目标语种类别，则获取所述待检测音频对应的待检测文本。

该步骤中，预先设置有目标语种类别，比如，普通话，若待检测音频的语种类别不是普通话，则确定待检测音频质量不合格，不再对待检测音频进行后续的处理，若语种类别为普通话，则获取待检测音频对应的待检测文本，对待检测文本进行后续的处理。

基于同一发明构思，本申请实施例中还提供了与文本质量的检测方法对应的文本质量的检测装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本质量的检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图6所示，图6为本申请一实施例提供的一种文本质量的检测装置的结构示意图，所述文本质量的检测装置包括：

第一获取模块601，用于获取待检测双录音视频中的待检测音频对应的待检测文本，以及与所述待检测文本的文本类型相匹配的提问模板文本；其中，所述待检测文本中包括待检测提问子语句和待检测答复子语句；

第一选取模块602，用于针对所述提问模板文本中的每个提问模板子语句，根据该提问模板子语句中包括的字符的目标数量，从所述待检测文本中选取多个由所述目标数量个相邻的字符组成的待检测提问字符串；

第二选取模块603，用于根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句；

第三选取模块604，用于根据各个子提问模板文本中的首尾句分别对应的待检测提问子语句在所述待检测文本中的位置，从所述待检测文本中选取每个子提问模板文本对应的待检测答复子语句；其中，所述提问模板文本由多个所述子提问模板文本组成；

第一确定模块605，用于若各个子提问模板文本对应的待检测答复子语句中均包括预设的肯定答复字符串，则确定所述待检测文本的质量合格。

在一种可能的实施方式中，所述第二选取模块603，在根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句，包括：

在一种可能的实施方式中，所述文本质量的检测装置还包括：

检测模块，用于针对每个待检测答复子语句，依次检测该待检测答复子语句中是否包括预设的干扰字符串、预设的否定回答字符串、预设的肯定回答字符串；其中，所述干扰字符串的长度大于所述否定回答字符串的长度，所述否定回答字符串的长度大于所述肯定回答字符串的长度；

第二确定模块，用于若该待检测答复子语句中包括的所述干扰字符串和所述否定回答字符串的数量，小于包括的所述肯定回答字符串的数量，则确定该待检测答复子语句中包括所述肯定答复字符串。

第三确定模块，用于将待检测双录音视频中的待检测音频输入至预先训练好的语音转写模型中，确定所述待检测音频对应的待检测文本。

第四确定模块，用于将待检测音频输入至预先训练好的关键词检索模型中，确定所述待检测音频中是否包括非法关键词；

第二获取模块，用于若所述待检测音频中不包括非法关键词，则获取所述待检测音频对应的待检测文本。

在一种可能的实施方式中，所述语音转写模型中包括声学子模型和语言子模型，所述文本质量的检测装置还包括：

第三获取模块，用于获取初始样本音频，对所述初始样本音频进行压缩处理，得到与双录音视频中的音频相似的目标样本音频；

第一训练模块，用于基于所述目标样本音频，对所述声学子模型进行训练；和/或，

重组处理模块，用于针对提问模板文本中的每个提问模板子语句，对该提问模板子语句包括的字符进行重组处理，得到多个提问样本子语句；

第二训练模块，用于基于所述多个提问样本子语句，对第一语言子模型进行训练，得到训练完成的第二语言子模型；

生成模块，用于基于所述第一语言子模型、所述第二语言子模型以及所述第一语言子模型和所述第二语言子模型分别对应的权重，生成所述语言子模型。

分离处理模块，用于对待检测双录音视频中包括的音频和视频进行分离处理，得到待检测音频；

第五确定模块，用于若所述待检测音频的振幅在预设的振幅范围内，则将所述待检测音频输入至预先训练好的语种识别模型中，确定所述待检测音频的语种类别；

第四获取模块，用于若所述待检测音频的语种类别为目标语种类别，则获取所述待检测音频对应的待检测文本。

本申请实施例提供的文本质量的检测装置，能够通过从待检测文本中选取每个提问模板子语句对应的待检测提问子语句，以及每个子提问模板文本对应的待检测答复子语句，增强文本质量检测的针对性，进而提高文本质量检测的准确度。

参见图7所示，图7为本申请实施例提供的一种电子设备的结构示意图，该电子设备700包括：处理器701、存储器702和总线703，所述存储器702存储有所述处理器701可执行的机器可读指令，当电子设备运行时，所述处理器701与所述存储器702之间通过总线703通信，所述处理器701执行所述机器可读指令，以执行如上述文本质量的检测方法的步骤。

具体地，上述存储器702和处理器701能够为通用的存储器和处理器，这里不做具体限定，当处理器701运行存储器702存储的计算机程序时，能够执行上述文本质量的检测方法。

对应于上述文本质量的检测方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述文本质量的检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本质量的检测方法，其特征在于，所述检测方法包括：

2.根据权利要求1所述的文本质量的检测方法，其特征在于，所述根据各个提问模板子语句与其分别对应的每个待检测提问字符串之间的相似度，从每个提问模板子语句对应的多个待检测提问字符串中，选取相似度符合预设要求的待检测提问字符串，作为该提问模板子语句对应的待检测提问子语句，包括：

3.根据权利要求1所述的文本质量的检测方法，其特征在于，通过如下方式检测每个待检测答复子语句中是否包括预设的肯定答复字符串：

4.根据权利要求1所述的文本质量的检测方法，其特征在于，通过如下方式获取所述待检测文本：

5.根据权利要求1所述的文本质量的检测方法，其特征在于，在获取待检测双录音视频中的待检测音频对应的待检测文本之前，所述检测方法还包括：

6.根据权利要求4所述的文本质量的检测方法，其特征在于，所述语音转写模型中包括声学子模型和语言子模型，通过如下方式对所述声学子模型和/或所述语言子模型进行训练：

7.根据权利要求1所述的文本质量的检测方法，其特征在于，在获取待检测双录音视频中的待检测音频对应的待检测文本之前，所述检测方法还包括：

8.一种文本质量的检测装置，其特征在于，所述检测装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一项所述的文本质量的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一项所述的文本质量的检测方法的步骤。