CN112364661B

CN112364661B - 一种数据检测的方法、装置、可读存储介质和电子设备

Info

Publication number: CN112364661B
Application number: CN202011257227.6A
Authority: CN
Inventors: 王鹏; 马文康; 李理; 包英泽
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2024-03-19
Anticipated expiration: 2040-11-11
Also published as: CN112364661A

Abstract

本发明实施例公开了一种数据检测的方法、装置、可读存储介质和电子设备。本发明实施例通过获取待质检的文本信息；对所述文本信息进行预设质检项识别，确定识别结果；根据所述识别结果对所述文本信息进行合规评价。通过上述方法，通过第一模型和第二模型的两次判断，可以提高通话内容的检测效率，以及准确率。

Description

一种数据检测的方法、装置、可读存储介质和电子设备

技术领域

本发明涉及数据检测领域，具体涉及一种数据检测的方法、装置、可读存储介质和电子设备。

背景技术

随着科技的进步，远程服务在人们的生活中起到了越来越重要的作用，电话客服服务属于远程服务的一种，客户在产品的使用过程中或产品的售后过程中，可以采用电话的方式与客服进行沟通，为了提升服务质量，在电话客服管理过程中，一般都会将客户与客服之间的电话沟通进行录音，以便于后续对电话客服的服务质量进行检测，以及对客户提出的问题进行记录等。

例如，客户在网络课堂的使用过程中，可能会遇到各种问题和需求，需要与客服进行沟通，客服需要按照规定解答客户的问题，但是可能有些客服在为客户解答问题或对问题进行处理的过程中存在违反规定的行为，因此需要对客户与客服之间的通话内容进行检测，从而便于对客服工作进行评价，以及更好的对客服的服务进行监管，提高客户的体验。

现有技术中，通过人工检测的方式对通话内容进行检测，但是由于通话内容较多，采用人工检测的方式会存在耗时费力，且准确度不高的问题，因而，如何提高通话内容的检测效率，以及准确率，是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据检测的方法、装置、可读存储介质和电子设备，提高了判断通话内容是否违规的检测效率和准确率。

第一方面，本发明实施例提供了一种数据检测的方法，该方法包括：获取待质检的文本信息；对所述文本信息进行预设质检项识别，确定识别结果；根据所述识别结果对所述文本信息进行合规评价。

优选地，所述获取待质检的文本信息，具体包括：

将文本初始信息进行处理，确定待质检的所述文本信息，其中，所述文本信息为离散的文本。

优选地，所述对所述文本信息进行预设质检项识别，确定识别结果，具体包括：

将所述文本信息输入到预先训练的第一模型，进行预设质检项识别，其中，所述第一模型用于判断所述文本信息中是否包括质检项语义信息；

确定所述识别结果为所述文本信息中包含所述质检项语义信息。

优选地，所述根据所述识别结果对所述文本信息进行合规评价，具体包括：

将包含所述质检项语义信息的所述文本信息所对应的的对话内容输入到第二模型，其中，所述第二模型用于判断所述文本信息中是否包括合规项语义信息；

响应于所述文本信息中包含至少一项合规项语义信息，将所述文本信息所对应的的对话内容确定为合规对话内容，其中，所述对话内容包括至少一个文本初始信息。

优选地，所述将包含所述质检项语义信息的所述文本信息所对应的对话内容输入到第二模型，具体包括：

确定所述对话内容中标注了客服信息的文本信息；

将所述标注了客服信息的所述文本信息输入到所述第二模型。

优选地，该方法还包括：

响应于所述文本信息中未包含合规项语义信息，将所述文本信息所对应的的对话内容确定为违规对话内容。

优选地，所述将文本初始信息进行处理，确定待质检的所述文本信息，具体包括：

将所述文本初始信息进行自然语言处理，确定离散的文本信息。

优选地，所述第一模型和所述第二模型为二分类模型。

优选地，所述分类模型包括Fasttext模型、或者Xgboost模型。

优选地，所述第一模型的构建过程包括：

获取多个历史文本初始信息；

将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本；

将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息；

响应于所述样本文本信息中包含预先标注的质检语义信息，将所述样本文本确定为第一正样本；或者，

响应于所述样本文本信息中不包含预先标注的质检语义信息，将所述样本文本确定为第一负样本；

根据所述第一正样本和所述第一负样本训练所述第一模型。

优选地，所述第二模型的构建过程包括：

获取多个历史文本初始信息；

响应于所述样本文本信息中包含预先标注的合规项语义信息，将所述样本文本确定为第二正样本；或者，

响应于所述样本文本信息中不包含预先标注的合规项语义信息，将所述样本文本确定为第二负样本；

根据所述第二正样本和所述第二负样本训练所述第二模型。

优选地，所述相似度计算的方法包括欧氏距离或者余弦距离。

优选地，该方法还包括：

获取音频数据；

将语音数据转换为文本形式的对话内容，其中，所述对话内容包括至少一条所述文本初始信息；

对所述对话内容进行角色分析，确定每条所述文本初始信息对应的用户信息，其中，所述用户信息包括客户信息和客服信息；

在所述文本初始信息中标注对应的所述用户信息。

第二方面，本发明实施例提供了一种数据检测的装置，该装置包括：

获取单元，用于获取待质检的文本信息；

确定单元，用于对所述文本信息进行预设质检项识别，确定识别结果；

处理单元，用于根据所述识别结果对所述文本信息进行合规评价。

优选地，所述获取单元具体用于：

优选地，所述确定单元具体用于：

优选地，所述处理单元具体用于：

优选地，所述处理单元具体用于：确定所述对话内容中标注了客服信息的文本信息；

优选地，所述处理单元具体还用于：

优选地，所述获取单元具体用于：

所述将文本初始信息进行处理，确定待质检的所述文本信息，具体包括：

优选地，所述第一模型和所述第二模型为二分类模型。

优选地，所述分类模型包括Fasttext模型、或者Xgboost模型。

优选地，所述第一模型的构建过程包括：

第一获取单元，用于获取多个历史文本初始信息；

第一自然语言处理单元，用于将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本；

第一计算单元，用于将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息；

第一样本确定单元，响应于所述样本文本信息中包含预先标注的质检语义信息，用于将所述样本文本确定为第一正样本；或者，

所述第一样本确定单元还用于，响应于所述样本文本信息中不包含预先标注的质检语义信息，将所述样本文本确定为第一负样本；

第一训练单元，用于根据所述第一正样本和所述第一负样本训练所述第一模型。

优选地，所述第二模型的构建过程包括：

第二获取单元，用于所述获取单元获取多个历史文本初始信息；

第二自然语言处理单元，用于将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本；

第二计算单元，用于将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息；

第二样本确定单元，响应于所述样本文本信息中包含预先标注的合规项语义信息，用于将所述样本文本确定为第二正样本；或者，

所述第二样本确定单元还用于，响应于所述样本文本信息中不包含预先标注的合规项语义信息，将所述样本文本确定为第二负样本；

第二训练单元，用于根据所述第二正样本和所述第二负样本训练所述第二模型。

优选地，所述获取单元还用于获取音频数据；

该装置还包括：转换单元，用于将语音数据转换为文本形式的对话内容，其中，所述对话内容包括至少一条所述文本初始信息；

分析单元，用于对所述对话内容进行角色分析，确定每条所述文本初始信息对应的用户信息，其中，所述用户信息包括客户信息和客服信息；

标注单元，用于在所述文本初始信息中标注对应的所述用户信息。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过首先通过第一模型对文本信息进行第一次判断，先对不包含质检项的文本信息进行过滤，减少需要输入到第二模型的文本信息的数量，然后通过第二模型对通过第一次判断的文本信息进行第二次判断，确定所述经过第一次判断后的所述文本信息是否合规，由于经过第一次判断可以过滤掉一部分文本信息，然后在进行第二次判断不仅可以提高通话内容的检测效率，还可以提高检测的准确率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种数据检测的方法流程图；

图2是本发明实施例的一种数据检测的方法流程图；

图3是本发明实施例的一种数据检测的方法流程图；

图4是本发明实施例的一种数据标注的方法流程图；

图5是本发明实施例的一种构建第一模型的方法流程图；

图6是本发明实施例的一种构建第二模型的方法流程图；

图7是本发明实施例的一种标注方法流程图；

图8是本发明实施例的数据检测的装置示意图；

图9是本发明实施例的数据检测的装置示意图；

图10是本发明实施例的数据检测的装置示意图；

图11是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着生活方式的改变，客户在多种产品的使用过程中或售后过程中，不需要与服务人员面对面沟通交流，客户只需要通过电话的方式与客服进行沟通就可以解决问题，极大的方便了客户，但是客服在与客户沟通的过程中，很有可能说出一些错误的解决方式误导客户，或者客户自身无法正确理解客服的意思，造成误解，都会影响服务质量，因此，为了提升服务质量，在管理客服的过程中，一般都会将客户与客服之间的电话沟通进行录音，以便于后续对电话客服的服务质量进行检测，以及对客户提出的问题进行记录等。假设，在网络课堂业务中，客户(学生或家长)在使用的过程中，可能会遇到各种问题和需求，为了规范化对产品或服务的描述口径，针对沟通的方法和内容，各业务线都制定了详细的实施规则。例如，客户临时有事无法在约定的时间上课，需要与客服沟通取消课程，当客户在24小时内取消课程时，客服与客户沟通的过程中需要清晰的表达“本次课程属于24H内系统会自动扣除您一节课时”，以保证客户明确的获知上述信息；但是可能有些客服在为客户解答问题或对问题进行处理的过程中存在违反规定的行为，没有明确的表达“本次课程属于24H内系统会自动扣除您一节课时”，或者与该回答语义相同的句子，造成客户的误解，因此需要对客户与客服之间的通话内容进行检测，当后续客户提出疑问时，可以将通话内容作为依据，也可以据此对客服工作进行评价，更好的对客服的服务进行监管，提高客户的体验。

通常的现有技术中，通过人工检测的方式对通话内容进行检测，即对通话内容进行抽取，然后检测人员逐一对通话内容进行听取，由于通话内容较多，采用人工检测的方式会存在耗时费力，且由于是人工检测，大量听取通话内容时可能会漏听或者误听，导致准确度不高，综上，如何提高通话内容的检测效率，以及准确率，是目前需要解决的问题。

本发明实施例中，通过第一模型对文本信息进行第一次判断，然后通过第二模型对第一次判断后的文本信息进行第二次判断，经过第一次判断可以过滤掉一部分不包含质检项的文本信息，然后在进行第二次判断，只对包含质检项的文本信息进行判断，可以提高通话内容的检测效率以及准确率。

本发明实施例中，图1是本发明实施例的一种数据检测的方法流程图。如图1所示，具体包括如下步骤：

步骤S100、获取待质检的文本信息。

步骤S101、对所述文本信息进行预设质检项识别，确定识别结果。

具体的，通过第一模型对预设的质检项进行识别，确定所述待质检的文本信息中是否包括预设的质检项或质检项语义信息，其中，所述第一模型还可以称为质检模型。

步骤S102、根据所述识别结果对所述文本信息进行合规评价。

具体的，通过第二模型对包含质检项的文本信息进行是否合规的判断，其中，所述第二模型还可以称为违规模型。

下面对一种数据检测的方法进行详细说明，图2是本明实施例的一种数据检测的方法流程图。如图2所示，具体包括如下步骤：

步骤S200、将文本初始信息进行处理，确定待质检的所述文本信息，其中，所述文本信息为离散的文本。

具体的，将所述文本初始信息进行自然语言处理(Natural LanguageProcessing，NLP)，确定离散的文本信息。

根据一个或多个实施例，所述自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，所述自然语言处理中包括句法语义分析，即对于给定的句子(例如，文本初始信息)进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧等。因此，将文本初始信息通过进行自然语言处理进行分词，得到分词离散后的文本信息。

举例说明，假设文本初始信息为“我想取消今天预约的英语课”、“孩子生病约的课不想上了”，对所述文本初始进行自然语言处理，确定分词后的离散的文本信息，例如，“我/想取消/今天/预约的/英语课”、“孩子/生病/约的课/不想上了”，上述仅仅为示例性说明，本发明实施对具体的分词方式不做限定。

本发明实施例中，所述文本初始信息可以通过客户和客服之间的语音数据转换获取，也可以通过客户和客服之间的文本数据对话获取，其中，所述文本数据对话可以是客户和客服之间通过智能服务终端(例如，电脑、手机等)产生的对话，本发明实施例对其不做限定，以所述文本初始信息可以通过客户和客服之间的语音数据转换获取文本初始信息为例，具体的处理流程，如图3所示：

步骤S300、获取音频数据。

在一个或多个实施例中，所述音频数据可以为一次电话沟通的过程中客户与客服的完整通话记录，也可以是一次电话沟通中的一部分，本发明实施例对其不做限定。

步骤S301、将语音数据转换为文本形式的对话内容，其中，所述对话内容包括至少一条所述文本初始信息。

举例说明，假设语音数据转换后的对话内容如下：“您好！王小明预约的今天的英语课不想上了”；“王小明妈妈，请问您确定取消2020年10月14日10点的英语课”；“确定，不上了”；“本次课程属于24小时内系统会自动扣除您一节课时”。上述对话内容中包括4条文本初始信息。

步骤S302、对所述对话内容进行角色分析，确定每条所述文本初始信息对应的用户信息，其中，所述用户信息包括客户信息和客服信息。

在一个或多个实施例中，可以通过自然语言处理的方式对所述对话内容进行角色分析，所述角色分析即确定对话内容中每句话分别是谁说的，例如，上述步骤S301中的例子，进行角色分析后具体如下：客户：“您好！王小明预约的今天的英语课不想上了”；客服：“王小明妈妈，请问您确定取消2020年10月14日10点的英语课”；客户：“确定，不上了”；客服：“本次课程属于24小时内系统会自动扣除您一节课时”。确定出了对话内容中每句话(即每条文本初始信息)对应的用户信息，即确定了每句话是客服说的还是客户说的。

本发明实施例中，还可以采用其他方式对所述对话内容进行角色分析，例如，可以通过声音的信道来源不同对所述对话内容进行角色分析，本发明实施例对其不做限定。

步骤S303、在所述文本初始信息中标注对应的所述用户信息。

在一个或多个实施例中，确定了每条文本初始信息的用户信息后，将所述用户信息标注到所述文本初始信息中，例如，将“客服”和“客户”标注到每句话中，标注后的文本初始信息具体如下：“客户：您好！王小明预约的今天的英语课不想上了”；“客服：王小明妈妈，请问您确定取消2020年10月14日10点的英语课”；“客户：确定，不上了”；“客服：本次课程属于24小时内系统会自动扣除您一节课时”。

上述步骤S300至步骤S303为文本初始信息的获取流程，下面继续回到步骤S200之后的步骤继续阐述。

步骤S201、将所述文本信息输入到预先训练的第一模型，进行预设质检项识别，其中，所述第一模型用于判断所述文本信息中是否包括质检项语义信息。

在一个或多个实施例中，确定的文本信息为带标注的文本信息，例如：“客户/我/想取消/今天/预约的/英语课”、“客户/孩子/生病/约的课/不想上了”，或者“客服/本次/课程/属于/24小时内/系统/会自动扣除/您/一节/课时”，将上述带标注的离散文本新输入到第一模型中，判断所述文本信息中是否包括质检项或者包括质检项语义信息。

本发明实施例中，所述质检项可以为“取消课程”、“预约课程”、或者“调整课标”等，也可以为与质检项表述的语义相同的质检项语义信息，即文字所表达的语义与质检项表达的语义是相同的，例如“取消英语课”、“课不想上了”等所表达的语义与“取消课程相同”，因此，在文本信息中检测出质检项“取消课程”或者检测出于“取消课程”的语义相同的“取消英语课”、“课不想上了”等，都可以判定所述文本信息中包括质检项语义信息。

在一个或多个实施例中，所述质检项可以根据不同的业务进行随时调整，例如，订票系统、约车系统等等，都可以甚至与其业务相关的质检项，使所述第一模型可以应用到不同的业务领域，具体根据实际情况却的，本发明实施对其不做限定。

步骤S202、确定所述识别结果为所述文本信息中包含所述质检项语义信息，将所述文本信息所对应的的对话内容中输入到第二模型，其中，所述第二模型用于判断所述文本信息中是否包括合规项语义信息。

在一个或多个实施例中，所述将所述文本信息所对应的的对话内容中输入到第二模型具体包括：确定所述对话内容中标注了客服信息的文本信息；将所述标注了客服信息的所述文本信息输入到所述第二模型。

举例说明，假设确定出文本信息“客户：您好！王小明预约的今天的英语课不想上了”中包括质检项语义信息“课不上了”，将所述“客户：您好！王小明预约的今天的英语课不想上了”所对应的的对话内容：“客户：您好！王小明预约的今天的英语课不想上了”；“客服：王小明妈妈，请问您确定取消2020年10月14日10点的英语课”；“客户：确定，不上了”；“客服：本次课程属于24小时内系统会自动扣除您一节课时”中标注了客服信息的文本信息“客服：王小明妈妈，请问您确定取消2020年10月14日10点的英语课”和“客服：本次课程属于24小时内系统会自动扣除您一节课时”输入到第二模型中，判断所述标注了客服信息中是否包括合规项语义信息，所述合规项语义信息为预先定义的合规项，或者与合规项所表达的语义相同的合规性语义信息，假设，所述合规项为“本次课程属于24小时内系统会自动扣除您一节课时”，或者，与“本次课程属于24小时内系统会自动扣除您一节课时”所表达语义相同的文本。

在一个或多个实施例中，所述合规项可以根据不同的业务进行随时调整，例如，订票系统、约车系统等等，都可以甚至与其业务相关的合规项，使所述第二模型可以应用到不同的业务领域，具体根据实际情况却的，本发明实施对其不做限定。

步骤S203、响应于所述文本信息中包含至少一项合规项语义信息，将所述文本信息所对应的的对话内容确定为合规对话内容，其中，所述对话内容包括至少一个文本初始信息。

在一个或多个实施例中，判断所述文本信息“客服：本次课程属于24小时内系统会自动扣除您一节课时”包括合规项语义信息，将所述“客服：本次课程属于24小时内系统会自动扣除您一节课时”所对应的的完整对话内容确定为合规对话内容。

下面通过一个完整的实施例对一种数据检测的方法流程图进行详细的说明，具体如图4所示，包括如下步骤：

步骤S400、获取音频数据。

步骤S401、将语音数据转换为文本形式的对话内容，其中，所述对话内容包括至少一条所述文本初始信息。

步骤S402、对所述对话内容进行角色分析，确定每条所述文本初始信息对应的用户信息，其中，所述客户信息包括客户信息和客服信息。

步骤S403、在所述文本初始信息中标注对应的所述用户信息。

步骤S404、将文本初始信息进行处理，确定文本信息，其中，所述文本信息为离散的文本。

步骤S405、将所述文本信息输入到预先训练的第一模型，判断所述文本信息中是否包含质检项语义信息，若包含则进入步骤S4061，若不包含则进入步骤S4062。

步骤S4061、将所述文本信息所对应的的对话内容输入到第二模型，判断所述文本信息中是否包含合规项语义信息，若包含则进入步骤S4071，若不包含则进入步骤S4072。

步骤S4062、结束本次质检项检测，进入下一次质检项检测。

步骤S4071、将所述文本信息所对应的的对话内容确定为合规对话内容。

步骤S4072、将所述文本信息所对应的的对话内容确定为违规对话内容。

在一个或多个实施例中，由于所述质检项和所述合规项与业务相关，根据不同的业务设置不同质检项和合规项，可以通过一个文本信息按顺序多次检测不同的质检项和合规项，也可以同时检测，不发明实施例对其不做限定。

本发明实施例中，所述第一模型和所述第二模型为二分类模型，具体可以为Fasttext模型、或者Xgboost模型。

根据一个或多个实施例，所述第一模型和所述第二模型为预先构建的，具体的构建过程如下：

图5为本发明实施例对一种构建第一模型的方法流程图进行详细的说明，具体如图5所示，包括如下步骤：

步骤S500、获取多个历史文本初始信息。

步骤S501、将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本。

步骤S502、将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息。

在一个或多个实施例中，对多个文本信息进行相似度计算目的在于在多个相似文本信息中保留一个文本信息，把相似度高的文本信息过滤掉，对冗余的文本信息进行清洗，所述相似度计算的方法包括欧氏距离、余弦距离、以及最小编辑距离等。

具体的，所述欧氏距离越小，两个文本信息的语义越相关，相似度越高，例如，确定文本信息对应的向量表示，假设文本信息为二维向量表示(x，y)，则第一文本信息的二维向量为(x1，y1)与第二文本信息的二维向量(x2，y2)之间的欧式距离为：

其中，ρ1表示两个文本信息之间的欧氏距离，即两个文本信息之间的相似度。

可选的，若假设文本信息为二维向量表示(x，y，z)，则第一文本信息的二维向量为(x1，y1，z1)与第二文本信息的二维向量(x2，y2，z2)之间的欧式距离为：

其中，ρ2表示两个文本信息之间的欧氏距离，即两个文本信息之间的相似度。

在一个或多个实施例中，对文本信息的向量维度不做限定，具体根据实际情况确定；欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析。

在一个或多个实施例中，所述余弦距离的公式如下：

其中，所述d为两个文本信息之间的余弦距离，即两个文本信息之间的相似度。所述余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的对内容评分来区分兴趣的相似度和差异。

步骤S5031、响应于所述样本文本信息中包含预先标注的质检语义信息，将所述样本文本确定为第一正样本。

在一个或多个实施例中，所述第一正样本的数量为多个。

步骤S5032、响应于所述样本文本信息中不包含预先标注的质检语义信息，将所述样本文本确定为第一负样本。

在一个或多个实施例中，所述第一负样本的数量为多个。

步骤S504、根据所述第一正样本和所述第一负样本训练所述第一模型。

在一个或多个实施例中，根据多个所述第一正样本和多个所述第一负样本构建质检训练数据集，根据所述质检训练数据集训练所述第一模型，所述第一模型的分类模型可以为神经网络模型。

图6为本发明实施例对一种构建第二模型的方法流程图进行详细的说明，具体如图6所示，包括如下步骤：

步骤S600、获取多个历史文本初始信息。

步骤S601、将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本。

步骤S602、将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息。

步骤S6031、响应于所述样本文本信息中包含预先标注的合规项语义信息，将所述样本文本确定为第二正样本。

在一个或多个实施例中，所述第二正样本的数量为多个。

步骤S6032、响应于所述样本文本信息中不包含预先标注的合规项语义信息，将所述样本文本确定为第二负样本。

在一个或多个实施例中，所述第二负样本的数量为多个。

步骤S604、根据所述第二正样本和所述第二负样本训练所述第二模型。

在一个或多个实施例中，根据多个所述第二正样本和多个所述第二负样本构建违规训练数据集，根据所述违规训练数据集训练所述第二模型，所述第二模型的分类模型可以为神经网络模型。

在一个或多个实施例中，获取到多个历史文本初始信息后需要人工对每个历史文本初始信息进行标注，具体的按照每个完整的通话内容按照标志策略树依次判断是都出现质检项语音信息和合规项语义信息，具体的，策略示意图如图7所示，步骤如下：

步骤S700、获取对话内容。

步骤S701、判断是否出现质检项语义信息，若是并进入步骤S702,若不是结束处理。

步骤S702、对所述质检项语义信息的凭证进行记录。

步骤S703、将所述包括质检项语义信息的对话内容继续进行违规判断，判断是否出现合规项语义信息，若出现则所述对话内容合规，若不出现则所述对话内容违规。

具体的，若所述对话内容合规，则记录所述合规项语义信息的凭证。

本发明实施例中，上述步骤可以为人工判断，也可以为智能自动判断，本发明实施例对其不做限定。

在一个或多个实施例中，由于对话内容数量众多，为了清晰的对质检项和合规项间记录，也可以采用下面表1的方式对判断的内容进行记录，具体如下：

表1

上述表1中，可以用0和1表示质检项或合规项是否出现，也可以通过0和1进行标注，本发明实施例对其不做限定。

图8是本发明实施例的一种数据检测的装置示意图。如图7所示，本实施例的装置包括获取单元801、确定单元802和处理单元803。

其中，所述获取单元801，用于获取待质检的文本信息；所述确定单元802，用于对所述文本信息进行预设质检项识别，确定识别结果；所述处理单元803，用于根据所述识别结果对所述文本信息进行合规评价。

进一步地，所述获取单元具体用于：

进一步地，所述确定单元具体用于：

进一步地，所述处理单元具体用于：

进一步地，所述处理单元具体用于：确定所述对话内容中标注了客服信息的文本信息；

进一步地，所述处理单元具体还用于：

进一步地，所述获取单元具体用于：

将所述文本初始信息进行自然语言处理，确定离散的文本信息。进一步地，所述第一模型和所述第二模型为二分类模型。

进一步地，所述分类模型包括Fasttext模型、或者Xgboost模型。

进一步地，所述第一模型的构建装置如图9所示，包括第一获取单元901、第一自然语言处理单元902、第一计算单元903、第一样本确定单元904和第一训练单元905；其中，所述第一获取单元901，用于获取多个历史文本初始信息；所述第一自然语言处理单元902，用于将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本；所述第一计算单元903，用于将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息；所述第一样本确定单元904，响应于所述样本文本信息中包含预先标注的质检语义信息，用于将所述样本文本确定为第一正样本；或者，所述第一样本确定单元904还用于，响应于所述样本文本信息中不包含预先标注的质检语义信息，将所述样本文本确定为第一负样本；第一训练单元905，用于根据所述第一正样本和所述第一负样本训练所述第一模型。

进一步地，所述第二模型的构建装置如图10所示，包括第二获取单元1001、第二自然语言处理单元1002、第二计算单元1003、第二样本确定单元1004和第二训练单元1005；其中，所述第二获取单元1001，用于所述获取单元获取多个历史文本初始信息；第二自然语言处理单元1002，用于将所述多个历史文本初始信息分别进行自然语言处理，确定多个历史文本信息，其中，所述历史文本信息为离散的文本；第二计算单元1003，用于将所述多个历史文本信息进行相似度计算，确定至少一个样本文本信息；第二样本确定单元1004，响应于所述样本文本信息中包含预先标注的合规项语义信息，用于将所述样本文本确定为第二正样本；或者，所述第二样本确定单元还用于，响应于所述样本文本信息中不包含预先标注的合规项语义信息，将所述样本文本确定为第二负样本；第二训练单元1005，用于根据所述第二正样本和所述第二负样本训练所述第二模型。

进一步地，所述相似度计算的方法包括欧氏距离或者余弦距离。

进一步地，该装置还包括：

获取单元，用于获取音频数据；

转换单元，用于将语音数据转换为文本形式的对话内容，其中，所述对话内容包括至少一条所述文本初始信息；

图11是本发明实施例的电子设备的示意图。图11所示的电子设备为通用数据检测装置，其包括通用的计算机硬件结构，其至少包括处理器1101和存储器1102。处理器1101和存储器1102通过总线1103连接。存储器1102适于存储处理器1101可执行的指令或程序。处理器1101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器1101通过执行存储器1102所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1103将上述多个组件连接在一起，同时将上述组件连接到显示控制器1104和显示装置以及输入/输出(I/O)装置1105。输入/输出(I/O)装置1105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置1105通过输入/输出(I/O)控制器1006与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在客户计算机上、部分地在客户计算机上执行；部分地在客户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至客户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据检测设备的处理器，以产生机器，使得(经由计算机或其它可编程数据检测设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据检测设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据检测设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据检测的方法，其特征在于，该方法包括：

获取待质检的文本信息；

对所述文本信息进行预设质检项识别，确定识别结果；

根据所述识别结果对所述文本信息进行合规评价；

其中，所述对所述文本信息进行预设质检项识别，确定识别结果，具体包括：

将所述文本信息输入到预先训练的第一模型，进行预设质检项识别，其中，所述第一模型用于判断所述文本信息中是否包括质检项或者质检项语义信息，质检项语义信息为文字所表达的语义与质检项表达的语义相同的文本；

确定所述识别结果为所述文本信息中包含所述质检项语义信息；

所述根据所述识别结果对所述文本信息进行合规评价，具体包括：

将包含所述质检项语义信息的所述文本信息所对应的对话内容输入到第二模型，其中，所述第二模型用于判断所述文本信息中是否包括合规项语义信息，所述合规项语义信息为预先定义的合规项或者与所述预先定义的合规项所表达的语义相同的文本；

响应于所述文本信息中包含至少一项合规项语义信息，将所述文本信息所对应的对话内容确定为合规对话内容，其中，所述对话内容包括至少一个文本初始信息；

其中，所述第二模型的构建过程包括：

获取多个历史文本初始信息；

根据所述第二正样本和所述第二负样本训练所述第二模型。

2.如权利要求1所述的方法，其特征在于，所述获取待质检的文本信息，具体包括：

3.如权利要求1所述的方法，其特征在于，所述将包含所述质检项语义信息的所述文本信息所对应的对话内容输入到第二模型，具体包括：

确定所述对话内容中标注了客服信息的文本信息；

4.如权利要求1所述的方法，其特征在于，该方法还包括：

响应于所述文本信息中未包含合规项语义信息，将所述文本信息所对应的对话内容确定为违规对话内容。

5.如权利要求2所述的方法，其特征在于，所述将文本初始信息进行处理，确定待质检的所述文本信息，具体包括：

6.如权利要求1所述的方法，其特征在于，所述第一模型和所述第二模型为二分类模型。

7.如权利要求6所述的方法，其特征在于，所述分类模型包括Fasttext模型、或者Xgboost模型。

8.如权利要求1所述的方法，其特征在于，所述第一模型的构建过程包括：

获取多个历史文本初始信息；

根据所述第一正样本和所述第一负样本训练所述第一模型。

9.如权利要求1或8所述的方法，其特征在于，所述相似度计算的方法包括欧氏距离或者余弦距离。

10.如权利要求1所述的方法，其特征在于，该方法还包括：

获取音频数据；

在所述文本初始信息中标注对应的所述用户信息。

11.一种数据检测的装置，其特征在于，该装置包括：

获取单元，用于获取待质检的文本信息；

处理单元，用于根据所述识别结果对所述文本信息进行合规评价；

其中，所述确定单元具体用于：将所述文本信息输入到预先训练的第一模型，进行预设质检项识别，其中，所述第一模型用于判断所述文本信息中是否包括质检项或者质检项语义信息，质检项语义信息为文字所表达的语义与质检项表达的语义相同的文本；

所述处理单元具体用于：

其中，所述第二模型的构建过程包括：

获取多个历史文本初始信息；

根据所述第二正样本和所述第二负样本训练所述第二模型。

12.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10任一项所述的方法。