CN112686022A

CN112686022A - 违规语料的检测方法、装置、计算机设备及存储介质

Info

Publication number: CN112686022A
Application number: CN202011609031.9A
Authority: CN
Inventors: 南海顺
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-20

Abstract

本申请实施例属于人工智能领域，应用于智慧政务领域中，涉及一种违规语料的检测方法、装置、计算机设备及存储介质，包括基于历史语音文本生成携带一级标签的标注语料，一级标签包括有违规标签和无违规标签，携带有违规标签的标注语料携带二级标签；调整标注语料获得目标训练语料；基于目标训练语料和一级标签训练初始文本分类模型，获得目标文本分类模型，基于目标训练语料和二级标签训练初始语句分类模型，获得目标语句分类模型；将待识别语料输入目标文本分类模型，获得目标一级标签；在目标一级标签为有违规标签时，将待识别语料输入目标语句分类模型，获得目标二级标签。目标语句分类模型存储在区块链中。本申请有效提高对违规语料的识别。

Description

违规语料的检测方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及违规语料的检测方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的不断革新和发展，计算机已经应用到各行各业中。在坐席与客户沟通的过程中，坐席常常容易出现违规的沟通语料，造成客户的体验度低。因此，对于沟通过程中产生的语料的质检是非常重要的一个环节。目前，对于语料的质检常常使用训练后的语料分类模型进行质检分类，从而确定出违规的语料。

但是，由于语料的数据量庞大，而其中真正违规的语料往往只占有很小的一部分，导致训练样本极度的不均衡，语料分类模型对于小概率的违规语料的检测效果不佳，经常发生对小概率的违规语料的难召回和对非违规语料的误召回的情况。

发明内容

本申请实施例的目的在于提出一种违规语料的检测方法、装置、计算机设备及存储介质，有效提高对违规语料的识别。

为了解决上述技术问题，本申请实施例提供一种违规语料的检测方法，采用了如下所述的技术方案：

一种违规语料的检测方法，包括下述步骤：

接收预标注的历史语音文本，基于语音识别技术将所述历史语音文本转化为标注语料，其中，所述标注语料携带一级标签，一级标签包括有违规标签和无违规标签，且携带有违规标签的标注语料同时携带二级标签；

基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料；

基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型；

接收待识别语料，将所述待识别语料输入至所述目标文本分类模型中，获得目标一级标签；

识别所述目标一级标签是否为有违规标签，在所述目标一级标签为有违规标签时，将所述待识别语料输入至所述目标语句分类模型中，获得目标二级标签。

进一步的，所述基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型的步骤包括：

分批次获取预设个数的目标训练语料，分别作为批次训练样本；

对每次获取的批次训练样本进行样本调整，获得调整后的批次训练样本；

分批次基于所述调整后的批次训练样本和所述二级标签训练预设的初始语句分类模型，获得所述目标语句分类模型。

进一步的，所述对每次获取的批次训练样本进行样本调整，获得调整后的批次训练样本的步骤包括：

分别识别二级标签所对应的批次训练样本的比例；

在所述比例小于比例阈值时，对所述二级标签所对应的剩余的目标训练语料进行随机抽样，获得抽样样本；

将所述抽样样本添加入所述批次训练样本中，直至所述比例大于所述比例阈值，获得所述调整后的批次训练样本。

进一步的，所述基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型的步骤包括：

计算所有的目标训练语料的平均长度，根据所述语句长度调整预设的文本分类模型中的卷积核的大小，获得中间文本分类模型；

基于所述目标训练语料和所述一级标签训练所述中间文本分类模型，获得目标文本分类模型。

进一步的，所述基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型的步骤包括：

基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得待调整文本分类模型；

基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得待调整语句分类模型；

基于预设的目标验证集验证所述待调整文本分类模型和所述待调整语句分类模型，获得验证结果；

确定所述验证结果是否达标；

在所述验证结果达标时，完成模型训练，将所述待调整文本分类模型和所述待调整语句分类模型，分别作为所述目标文本分类模型和目标语句分类模型；

在所述验证结果不达标时，调整所述目标训练语料，获得调整后的目标训练语料；

基于所述调整后的目标训练语料训练所述目待调整文本分类模型和所述待调整语句分类模型，直至所述验证结果达标，获得所述目标文本分类模型和目标语句分类模型。

进一步的，所述调整所述目标训练语料，获得调整后的目标训练语料的步骤包括：

基于预设的关键词查找表确定所述目标训练语料中的关键词；

基于所述关键词生成多个不同的关键词语料；

将所述关键词语料添加入所述目标训练语料中，获得所述调整后的目标训练语料。

进一步的，所述基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料的步骤包括：

将所述标注语料随机分为预设的份数，获得多个数据集，依次将其中一个数据集作为验证集，剩余的数据集作为训练集；

基于所述训练集依次对预设的初始语料分类模型进行多轮训练，并将对应的验证集输入每轮训练后的初始语料分类模型中，获得每个标注语料的分类结果和对应的概率值；

修正所述概率值小于预设的概率阈值的标注语料，获得目标训练语料。

为了解决上述技术问题，本申请实施例还提供一种违规语料的检测装置，采用了如下所述的技术方案：

一种违规语料的检测装置，包括：

接收模块，用于接收预标注的历史语音文本，基于语音识别技术将所述历史语音文本转化为标注语料，其中，所述标注语料携带一级标签，一级标签包括有违规标签和无违规标签，且携带有违规标签的标注语料同时携带二级标签；

调整模块，用于基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料；

训练模块，用于基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型；

输入模块，用于接收待识别语料，将所述待识别语料输入至所述目标文本分类模型中，获得目标一级标签；以及

获得模块，用于识别所述目标一级标签是否为有违规标签，在所述目标一级标签为有违规标签时，将所述待识别语料输入至所述目标语句分类模型中，获得目标二级标签。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的违规语料的检测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的违规语料的检测方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过基于预设的初始语料分类模型和概率阈值调整所述标注语料，解决了极不均衡样本的问题。分别基于一级标签和二级标签训练初始文本分类模型和初始语句分类模型，获得目标文本分类模型和目标语句分类模型。通过目标文本分类模型和目标语句分类模型的模型组合的方案，对待识别语料进行逐级分类。提高了对于待识别语料的识别准确率。基于目标文本分类模型对待识别语料进行粗分类，基于目标语句分类模型对待识别语料进行细分类，有效的提高对小概率的违规语料的识别，降低了小概率的违规语料的难召回和对非违规语料的误召回的情况。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的违规语料的检测方法的一个实施例的流程图；

图3是根据本申请的违规语料的检测装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、违规语料的检测装置；301、接收模块；302、调整模块；303、训练模块；304、输入模块；305、获得模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的违规语料的检测方法一般由服务器/终端设备执行，相应地，违规语料的检测装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的违规语料的检测方法的一个实施例的流程图。所述的违规语料的检测方法，包括以下步骤：

S1：接收预标注的历史语音文本，基于语音识别技术将所述历史语音文本转化为标注语料，其中，所述标注语料携带一级标签，一级标签包括有违规标签和无违规标签，且携带有违规标签的标注语料同时携带二级标签。

在本实施例中，接收历史一个月内的所有经过人工质检(即预标注)过的录音的历史语音文本。由于历史语音文本的格式多为电话录音，本申请将该历史语音文本以句子为单位通过ASR(自动语音识别技术)转化为标注语料(即文字文本)。其中，预标注包括一级标签和二级标签，其中，二级标签为一级标签的下属标签。一级标签为有违规和无违规，其中，有违规的下属二级标签可以包括：辱骂、嘲讽和不屑等16种类别。标注语料会带有2种一级标签和16种违规的二级标签。在此基础上，建立的分级别标签具体示例如下：

在本实施例中，违规语料的检测方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收预标注的历史语音文本。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述基于语音识别技术将所述历史语音文本转化为标注语料的步骤包括：

基于语音识别技术将所述标准历史语音文本转化为初始标注语料；

对所述初始标注语料进行结构化处理，获得标注语料。

在本实施例中，本申请将该历史语音文本以句子为单位通过ASR(自动语音识别技术)转化为标注语料(即文字文本)，由于语音中完整的一句话之间停顿时间较长，而模型进行转换后获得的初始标注语料往往不是完整的一句话，即转换后的初始标注语料的格式往往为非结构化数据。其中，非结构化数据是指那些无法用固定结构来逻辑表达实现的数据。因此需要对初始标注语料进行结构化处理，得到携带有分级标签(即一级标签和二级标签)的结构化的标注语料，用于后续的建模。

由于后续的语料分类模型使用的形态需要是预测催员完整的一句话，因此按照模型的使用形态，需要将收集到的数据处理成结构化标准格式。例如，记A,B,C代表每一句录音的音转字文本，则需要将数据处理成的结构化格式举例如下，每一通音转字文本为：

通过结构化处理获得标准化的标注语料，时间复杂度为O(n),即该方式为线性方式。由于每月文本数据量行数一般在千万级别，在处理标准化文本格式过程中，本申请将采用多进程处理方式。具体为：将所需处理数据分成10组数据，选择10个进程同时处理，处理效率将最多提升10倍。

其中，所述对所述初始标注语料进行结构化处理，获得标注语料的步骤包括：

识别每条初始标注语料所携带的人员名称以及生成时间；

确定携带相同的人员名称的初始标注语料，作为待拼接语料；

根据生成时间的前后顺序拼接所述带拼接语料，获得拼接后的语料；

识别所述拼接后的语料中是否存在相邻的完全相同的词句；

在所述拼接后的语料中存在相邻的完全相同的词句时，删除重复的词句，获得所述标注语料。

在本实施例中，本申请中人员名称包括1号客户、2号客户、1号催员、2号催员等。词句指词语和/或句子。通过人员名词识别出属于同一人员的初始标注语料，将该初始标注语料根据生成时间的先后顺序拼接到一起，获得完整的语料，由于通过语音转换后的初始标注语料相互之间可能存在重叠的词语或者句子，则拼接完成的语料中也会出现重复的词语或者句子，故删除拼接后的语料中重复的词句，获得标注语料，便于后续处理过程的顺利进行。

S2：基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料。

在本实施例中，本步骤用于检验标注质量。基于初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料。由于训练集的样本不均衡问题，所有样本标注的质量往往对最后的分类效果起到不可忽视的作用。而本数据集来源于历史人工质检的标签，由于人工对语义理解偏差导致的标注错误，也会影响最终效果。因此再确定好模型的结构和标签后，需要再对人工标注进行验证和调整。

具体的，所述基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料的步骤包括：

在本实施例中，本申请中初始语料分类模型选择Albert模型(语言表征模型)。Albert模型作为bert(Bidirectional Encoder Representation from Transformers，深度双向表征)模型的变体，其训练速度明显加快，语言表征效果更佳。由于本申请后续最终输出结果为二级标签，因此在检验标签准确性时，对于有违规的情况，设定该模型输出的结果为二级标签。对于无违规的标注语料，该模型输出的结果为一级标签无违规。每一次将验证集中的标注语料输入至初始语料分类模型中，均获得一个分类结果(即类别)和对应的概率值。具体检验的步骤如下：本申请中预设的份数可以为10份，具体的：将数据随机分成10份，记为X₁,X₂,…,X₁₀。第一次选取X₂,…,X₁₀为训练集，X₁为验证集；第二次选取X₁,X₃,…,X₁₀为训练集，X₂为验证集；以此类推。当完成十轮训练和验证的流程后，确定获得的每个标注语料的分类结果和对应的概率值，其中概率值小于概率阈值的数据往往会包含错误标注的数据，将此数据返回人工验证，修正概率值小于概率阈值的标注语料，获得目标训练语料，则此时数据标注质量达标。其中，概率阈值设置为0.01。

S3：基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型。

在本实施例中，在实际业务场景中，催员的违规语料占比往往在0.004％，甚至更低。因此为了能更多召回此类小概率发生的文本，本申请通过训练组合模型，实现更好的文本分类。即分别训练初始文本分类模型和初始语句分类模型。根据一级标签分类结果建模，使得初始文本分类模型输出语料是否为违规语料，即输出有违规或者无违规的一级标签。其中，初始文本分类模型为textcnn模型(文本分类模型)，textcnn模型是利用卷积神经网络对文本进行分类的算法。并基于二级标签训练预设的初始语句分类模型，其中，初始语句分类模型为Albert模型，用于输出有违规语料的二级标签。

具体的，所述基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型的步骤包括：

在本实施例中，统计所有目标训练语料的平均长度，根据语句长度选择textcnn分类模型，调整卷积核的大小，能更好的捕捉语句的主要特征。一级模型，输出结果只有违规和不违规。

此外，所述基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型的步骤包括：

在本实施例中，预设的个数可以为1000条目标训练语料或者2000条目标训练语料。每次从目标训练语料中获取预设的个数，作为批次训练样本。

其中，所述对每次获取的批次训练样本进行样本调整，获得调整后的批次训练样本的步骤包括：

分别识别二级标签所对应的批次训练样本的比例；

在本实施例中，按批次动态调整样本比例的方法训练组合模型。模型训练过程，在每个个批次(batch)训练时，为了对样本比例小的数据增强，因此在保证数据比例的情况下，动态调整每个批次(batch)进入模型训练的数据。例如：设置每个批次(batch)的某个类别语料的数据量的比例为0.1，则在每个批次(batch)进入神经元(初始语句分类模型)之前，要通过一个判别神经元，如果比例小于0.1，则在剩余数据中随机抽样该类别样本，使得其比例为0.1。此方案可以通过判别比例神经元方式，动态调整每次进入神经元的数据比例，保证模型能学习到低比例数据的特征，相当于动态的数据增强。相比业内静态的数据增强方法，更有针对性，效率高。对于NLP样本不均衡分布的问题，业内普遍采用的是数据增强，也就是在训练之前对样本进行上采样或下采样等静态调整样本比例的方法，或则采用调整权重等方法。但由于少样本情况在不同业务场景的复杂性，单纯采用现有的方案并不能解决错误召回和低召回的问题。

确定所述验证结果是否达标；

在本实施例中，将预先设定的验证集输入所述待调整文本分类模型，当待调整文本分类模型输出结果为有违规标签时，调用待调整语句分类模型。同时计算验证集的召回率和查准率，作为验证结果。当召回率和查准率均高于预设的召回阈值和查准阈值时，确定验证结果达标。其中，召回率的计算方式为：验证集中的有违规标签的语料为30个，待调整文本分类模型输出的有违规标签的语料为20个，则召回率为2/3。在30个有违规标签的语料中，二级标签A的语料为5个，在待调整文本分类模型输出的20个有违规标签的语料中，二级标签A的语料为4个，则查准率为4/5。直至模型达标或达到预设的语料调整次数，获得目标文本分类模型和目标语句分类模型。

其中，所述调整所述目标训练语料，获得调整后的目标训练语料的步骤包括：

基于所述关键词生成多个不同的关键词语料；

在本实施例中，如果不达标，则对于易混淆语义的语句可以采用关键词特征增强方案，以实现优化模型。具体的：对于一些易混淆语料可以采用关键词增强方案。例如：如果语句中加入关键词A(如诈骗犯)和不加关键词A会有两种意义(如，你是诈骗犯和你可能不是诈骗犯)，模型在学习时往往很难学到区分两句不同的特征。因此，在训练时，基于关键词A生成多个不同的关键词语料(如，你是诈骗犯、你可能不是诈骗犯、你不是诈骗犯、你假如是诈骗犯等)，将关键词语料添加入所述目标训练语料中，获得所述调整后的目标训练语料，基于调整后的目标训练语料训练模型，增强模型学习关键词特征。其中，对于关键词语料需要人工对语料进行标签标注。

需要说明的是：对于目标训练语料中的关键词可以通过人工选择，也可以计算机通过预设的关键词查找表进行查找匹配。

S4：接收待识别语料，将所述待识别语料输入至所述目标文本分类模型中，获得目标一级标签。

在本实施例中，本申请通过目标文本分类模型对待识别语料进行粗分类，确定是否违规。

S5：识别所述目标一级标签是否为有违规标签，在所述目标一级标签为有违规标签时，将所述待识别语料输入至所述目标语句分类模型中，获得目标二级标签。

在本实施例中，待识别语料违规时，基于目标语句分类模型对待识别语料进行细分类。输出最终的分类结果，提升模型的识别效果。

需要强调的是，为进一步保证上述目标语句分类模型的私密和安全性，上述目标语句分类模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧政务领域中，具体应用于智慧政务中对违规语料的检测，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种违规语料的检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的违规语料的检测装置300包括：接收模块301、调整模块302、训练模块303、输入模块304以及获得模块305。其中：接收模块301，用于接收预标注的历史语音文本，基于语音识别技术将所述历史语音文本转化为标注语料，其中，所述标注语料携带一级标签，一级标签包括有违规标签和无违规标签，且携带有违规标签的标注语料同时携带二级标签；调整模块302，用于基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料；

训练模块303，用于基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型；

输入模块304，用于接收待识别语料，将所述待识别语料输入至所述目标文本分类模型中，获得目标一级标签；以及

获得模块305，用于识别所述目标一级标签是否为有违规标签，在所述目标一级标签为有违规标签时，将所述待识别语料输入至所述目标语句分类模型中，获得目标二级标签。

在本实施例中，本申请通过基于预设的初始语料分类模型和概率阈值调整所述标注语料，解决了极不均衡样本的问题。分别基于一级标签和二级标签训练初始文本分类模型和初始语句分类模型，获得目标文本分类模型和目标语句分类模型。通过目标文本分类模型和目标语句分类模型的模型组合的方案，对待识别语料进行逐级分类。提高了对于待识别语料的识别准确率。基于目标文本分类模型对待识别语料进行粗分类，基于目标语句分类模型对待识别语料进行细分类，有效的提高对小概率的违规语料的识别，降低了小概率的违规语料的难召回和对非违规语料的误召回的情况。

接收模块301包括转化子模块和结构化子模块。其中，转化子模块用于基于语音识别技术将所述标准历史语音文本转化为初始标注语料；结构化子模块用于对所述初始标注语料进行结构化处理，获得标注语料。

结构化子模块包括识别单元、确定单元、拼接单元、判断单元和删除单元。识别单元用于识别每条初始标注语料所携带的人员名称以及生成时间；确定单元用于确定携带相同的人员名称的初始标注语料，作为待拼接语料；拼接单元用于根据生成时间的前后顺序拼接所述带拼接语料，获得拼接后的语料；判断单元用于识别所述拼接后的语料中是否存在相邻的完全相同的词句；删除单元用于在所述拼接后的语料中存在相邻的完全相同的词句时，删除重复的词句，获得所述标注语料。

调整模块302包括划分子模块、训练子模块和修正子模块。其中，划分子模块用于将所述标注语料随机分为预设的份数，获得多个数据集，依次将其中一个数据集作为验证集，剩余的数据集作为训练集；训练子模块用于基于所述训练集依次对预设的初始语料分类模型进行多轮训练，并将对应的验证集输入每轮训练后的初始语料分类模型中，获得每个标注语料的分类结果和对应的概率值；修正子模块用于修正所述概率值小于预设的概率阈值的标注语料，获得目标训练语料。

训练模块303包括计算子模块和获得子模块。计算子模块用于计算所有的目标训练语料的平均长度，根据所述语句长度调整预设的文本分类模型中的卷积核的大小，获得中间文本分类模型；获得子模块用于基于所述目标训练语料和所述一级标签训练所述中间文本分类模型，获得目标文本分类模型。

训练模块303还包括批次获取子模块、调整子模块和批次训练子模块；其中，批次获取子模块用于分批次获取预设个数的目标训练语料，分别作为批次训练样本；调整子模块用于对每次获取的批次训练样本进行样本调整，获得调整后的批次训练样本；批次训练子模块用于分批次基于所述调整后的批次训练样本和所述二级标签训练预设的初始语句分类模型，获得所述目标语句分类模型。

调整子模块包括比例识别单元、抽样单元和添加单元。其中，比例识别单元用于分别识别二级标签所对应的批次训练样本的比例；抽样单元用于在所述比例小于比例阈值时，对所述二级标签所对应的剩余的目标训练语料进行随机抽样，获得抽样样本；添加单元用于将所述抽样样本添加入所述批次训练样本中，直至所述比例大于所述比例阈值，获得所述调整后的批次训练样本。

训练模块303包括第一中间训练子模块、第二中间训练子模块、验证子模块、结果确定子模块、达标子模块、语料调整子模块和第三中间训练子模块。第一中间训练子模块，用于基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得待调整文本分类模型；第二中间训练子模块，用于基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得待调整语句分类模型；验证子模块，用于基于预设的目标验证集验证所述待调整文本分类模型和所述待调整语句分类模型，获得验证结果；结果确定子模块，用于确定所述验证结果是否达标；达标子模块，用于在所述验证结果达标时，完成模型训练，将所述待调整文本分类模型和所述待调整语句分类模型，分别作为所述目标文本分类模型和目标语句分类模型；语料调整子模块，用于在所述验证结果不达标时，调整所述目标训练语料，获得调整后的目标训练语料；第三中间训练子模块，用于基于所述调整后的目标训练语料训练所述目待调整文本分类模型和所述待调整语句分类模型，直至所述验证结果达标，获得所述目标文本分类模型和目标语句分类模型。

语料调整子模块包括查找单元、生成单元和获得单元。其中，查找单元用于基于预设的关键词查找表确定所述目标训练语料中的关键词；生成单元用于基于所述关键词生成多个不同的关键词语料；获得单元用于将所述关键词语料添加入所述目标训练语料中，获得所述调整后的目标训练语料。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如违规语料的检测方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述违规语料的检测方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，基于目标文本分类模型对待识别语料进行粗分类，基于目标语句分类模型对待识别语料进行细分类，有效的提高对小概率的违规语料的识别，降低了小概率的违规语料的难召回和对非违规语料的误召回的情况。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的违规语料的检测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种违规语料的检测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的违规语料的检测方法，其特征在于，所述基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型的步骤包括：

3.根据权利要求2所述的违规语料的检测方法，其特征在于，所述对每次获取的批次训练样本进行样本调整，获得调整后的批次训练样本的步骤包括：

分别识别二级标签所对应的批次训练样本的比例；

4.根据权利要求1所述的违规语料的检测方法，其特征在于，所述基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型的步骤包括：

5.根据权利要求1所述的违规语料的检测方法，其特征在于，所述基于所述目标训练语料和所述一级标签训练预设的初始文本分类模型，获得目标文本分类模型，并基于所述目标训练语料和所述二级标签训练预设的初始语句分类模型，获得目标语句分类模型的步骤包括：

确定所述验证结果是否达标；

6.根据权利要求5所述的违规语料的检测方法，其特征在于，所述调整所述目标训练语料，获得调整后的目标训练语料的步骤包括：

基于所述关键词生成多个不同的关键词语料；

7.根据权利要求1所述的违规语料的检测方法，其特征在于，所述基于预设的初始语料分类模型和概率阈值调整所述标注语料，获得目标训练语料的步骤包括：

8.一种违规语料的检测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的违规语料的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的违规语料的检测方法的步骤。