CN109815487B

CN109815487B - 文本质检方法、电子装置、计算机设备及存储介质

Info

Publication number: CN109815487B
Application number: CN201811589528.1A
Authority: CN
Inventors: 任鹏飞; 谢宇峰; 张雨嘉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2023-04-18
Anticipated expiration: 2038-12-25
Also published as: CN109815487A; WO2020133960A1

Abstract

本发明公开了一种文本质检方法、电子装置、计算机设备及存储介质，在训练模型时，利用F1在准确率(precision)与召回率(recall)之间取平衡，尽量使二者都比较高。使用不同算法(Bi‑LSTM与Bi‑LSTM‑attention等)保存并选取多个符合要求的模型。在预测过程中，分别使用多个模型对文本消息进行预测，选取多数模型都认为违规的消息作为质检结果。本发明提供的文本质检方法、电子装置、计算机及存储介质，具有一定的语义理解能力，提高了质检准确率，减轻了质检人员的压力，大大提高了文本质检的效率。

Description

文本质检方法、电子装置、计算机设备及存储介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种文本质检方法、电子装置、计算机设备及存储介质。

背景技术

在文本质检系统中，目前使用的关键词检索系统通常需要业务人员花费大量精力总结关键词，并调配大量的正则表达式进行搜索，搜索出的结果再交由质检人员复核。这种基于检索的系统无法理解文本的语义，在某些较为复杂的质检点上的准确率极低，大大增加了质检人员的工作负荷。

发明内容

有鉴于此，本发明提出一种文本质检方法、电子装置、计算机设备及存储介质，具有一定的语义理解能力，提高了质检准确率，减轻了质检人员的压力，大大提高了文本质检的效率。

为实现上述目的，本发明提出一种文本质检方法，应用于电子装置中，该方法包括步骤：

采集微信文本的多个关键词，并对所述多个关键词进行标注，以得到带质检标签的质检文本数据集；

构建神经网络，通过所述神经网络将所述质检文本数据集按固定比例分为训练集和验证集；

采用中文分词工具对所述训练集和所述验证集中的文本进行分词以取得多个单词，将每一个单词映射为单词向量；

将所述映射后的训练集拆分成多个子训练集，使用多个所述子训练集交替训练多个质检模型，在训练过程中保存所述多个质检模型中符合要求的质检模型；及

利用所述符合要求的质检模型进行预测，并对预测结果进行复核。预测就是指用保存的质检模型对微信文本进行检查。

进一步地，利用Word2vec模型将所述每一个单词映射为所述单词向量。

进一步地，通过所述神经网络将所述质检文本数据集按99:1的比例分为所述训练集和所述验证集。

进一步地，将所述训练集打乱顺序，然后将打乱顺序后的训练集从头开始按一定长度进行分段，以分成不同的子训练集。

进一步地，隔固定的训练迭代步数保存一次，其中，每一个迭代步数的训练包括正向传播和反向传播，通过所述正向传播得到预测结果，通过所述反向传播计算所述预测结果和真实结果的差别，并调整网络中的参数。

进一步地，保存在所述验证集上准确率和召回率高于默认值的质检模型，其中，所述准确率=（正确预测违规的消息数/（正确预测违规的消息数+错误预测违规的消息数）），所述召回率=（正确预测违规的消息数/所述验证集中实际违规的消息数）。

为实现上述目的，本发明还提供一种电子装置，其包括数据采集及标注模块、分词与映射模块、数据处理模块、训练模块与预测模块。

所述数据采集及标注模块，用于采集微信文本的多个关键词，并对所述多个关键词进行标注以得到带质检标签的质检文本数据集。

所述数据处理模块，用于构建神经网络，通过所述神经网络将所述质检文本数据集按固定比例分为训练集和验证集。

所述分词与映射模块，用于采用中文分词工具对所述训练集和所述验证集中的文本进行分词以取得多个单词，将每一个单词映射为单词向量。

所述训练模块用于将所述映射后的训练集拆分成多个子训练集，使用多个所述子训练集交替训练多个质检模型，在训练过程中保存所述多个质检模型中符合要求的质检模型。

所述预测模块用于利用所述符合要求的质检模型进行预测，并对预测结果进行复核。预测就是指用保存的质检模型对微信文本进行检查。

进一步地，所述数据处理模块通过所述神经网络将所述质检文本数据集按99:1的比例分为所述训练集和所述验证集。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本质检方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本质检方法的步骤。

相较于现有技术，本发明所提出的文本质检方法、电子装置、计算机设备及存储介质，具有一定的语义理解能力，提高了质检准确率，减轻了质检人员的压力，大大提高了文本质检的效率。

附图说明

图1是本发明第一实施例之电子装置的硬件架构示意图；

图2是本发明第一实施例之电子装置的程序模块示意图；及

图3是本发明第四实施例之文本质检方法的流程示意图。

附图标记：

电子装置	10
		存储器	110
处理器	120
		文本质检系统	130
数据采集及标注	210
		数据处理模块	220
分词与映射模块	230
		训练模块	240
预测模块	250

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1是本发明电子装置10的硬件架构示意图。电子装置10包括，但不仅限于，可通过系统总线相互通信连接存储器110、处理器120以及文本质检系统130，图2仅示出了具有组件110-130的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器110至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器110可以是所述电子装置10的内部存储单元，例如该电子装置10的硬盘或内存。在另一些实施例中，所述存储器也可以是所述电子装置10的外部存储设备，例如该电子装置10上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器110还可以既包括所述电子装置10的内部存储单元也包括其外部存储设备。本实施例中，所述存储器110通常用于存储安装于所述电子装置10的操作系统和各类应用软件，例如文本质检系统130的程序代码等。此外，所述存储器110还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器120在一些实施例中可以是中央处理器（CentralProcessing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器120通常用于控制所述电子装置10的总体操作。本实施例中，所述处理器120用于运行所述存储器110中存储的程序代码或者处理数据，例如运行所述文本质检系统130等。

至此，己经详细介绍了本发明相关设备的硬件结构和功能。下面，将基于上述介绍提出本发明的各个实施例。

图2是本发明实施例之电子装置的程序模块示意图。

本实施例中，所述电子装置10包括一系列的存储于存储器110上的计算机程序指令，当该计算机程序指令被处理器120执行时，可以实现本发明各实施例的文本质检操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，电子装置10可以被划分为一个或多个模块。例如，在图3中，所述电子装置10可以被分割成数据采集及标注模块210、数据处理模块220、分词与映射模块230、训练模块240与预测模块250。

数据采集与标注模块210采集微信文本的多个关键词，并对所述多个关键词进行标注，以得到带质检标签的关键词数据集，又称为质检文本数据集。关键词是指违规的词，比如，骂人的话、不好听的话以及一些业务规定不能出现的关键词等等。

比如，[你真是个傻子]，这句话含有侮辱性的词语“傻子”，因此违反“侮辱客户”这个质检点，因此会被关键词检索出来并被质检人员标注为“侮辱客户”。

[我真是个傻子，如果记得带钥匙，就不至于一直在门外等着了]，这句话同样会被关键词检索出来，但经过质检人员质检后，并不会标注为“侮辱客户”，而会标注为“正常”。

[我的联系方式是18911111111，请惠存]，整句话含有“联系方式”这个违规词语，违反了公司关于严禁给客户私留联系方式的规定，因此被检索出来，交由质检人员，并被质检人员标注为“私留联系方式”。

数据处理模块220构建双向长短时记忆的循环神经网络（Bi-directionalLongShort-Term Memory Recurrent Neural Network，Bi-LSTMRNN），将所述质检文本数据集按99:1的比例分为训练集和验证集。从所述质检文本数据集中随机抽取99%的数据作为训练集，剩下1%的为验证集。

利用TensorFlow构建Bi-LSTMRNN，同时在Bi-LSTM RNN中引入Attention机制，使质检模型更加关注对质检点有影响的单词。对质检点有影响的单词是通过神经网络中的注意力机制获取的，具体来说就是为每一句需要质检的文本的每个词赋予一个权重，这些权重具体表现为网络中的参数，是在训练过程中的反向传播阶段网络进行调整得到的。

TensorFlow是利用数据流图（Data Flow Graphs）来表达数值运算的开源软件库。数据流图中的节点（Nodes）被用来表示数学运算，而边（Edges）则用来表示在节点之间互相联系的多维数据数组，即张量（Tensors）。Attention机制是模拟人类在在看文章时，会先用眼睛扫过一遍，然后挑出几个关键字来确认语义的过程。

前述质检点就是违规点，比如说「骂人」就是一个质检点，「骗人」又是一个质检点。当对所述质检模型输入一句话或一段话，所述质检模型可以给出一个相应的结果，即，违反哪个质检点，或者不违反质检点。

分词与映射模块230采用结巴（Jieba）工具对所述微信文本的消息进行分词以取得多个单词，利用Word2vec模型将每一个单词映射为单词向量，以获得每一个单词的语义。词向量是用来表示语义的，词向量根据大量的文本数据通过word2vec算法生成，具体来说就是每个词用一个向量表示，所以叫做词向量。

在项目启动时，因为没有标注数据，所以需要利用业务总结的，可能会违规的关键词在历史微信聊天文本中搜索一些数据以供业务进行标注（历史数据太多，不可能没条都人工验证过，所以只能用用关键字搜索）。人工标注的数据会被分成训练集和验证集，训练集用来训练模型，验证集用来验证模型的准确性。

结巴（Jieba）工具是由Python开发的中文分词工具，并且支持自定义词典，提供了三种分词模式：(1) 精确模式：试图将句子最精确地切开，适合文本分析；(2) 全模式：把句子中所有可以成词的词语都扫描出来,速度非常快，但是不能解决歧义；及(3) 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

比例，「李小春真的很笨，笨得跟猪一样」经过结巴（Jieba）处理后可得到：「李小春/真的/很笨/笨得/跟猪一样」，因此可得到「李小春」、「真的」、「很笨」、「笨得」与「跟猪一样」这些分词，根据设定的不同规则可得到不同种类的分词。

Word2vec模型是一个把单词映射为数字向量的工具，它是用通过Word2vec算法在本发明实施例之语料库上训练生成的。训练完成之后，Ｗord2vec模型可用来映像每个词到一个向量，可用来表示词对词之间的关系。Word2vec把每个词本身用一个多维向量来表示，把词投影到一个向量空间里。相同属性的词可能会靠得很近，甚至部份的向量有逻辑上的线性关系。

Ｗord2vec模型的算法包括以下3个主要步骤：(1) 将常见的单词组合（wordpairs）或者词组作为单个「words」来处理；(2)对高频次单词进行抽样来减少训练样本的个数；及(3) 对优化目标采用「negativesampling」方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。

单词向量就是单词的分布式表达，基本思想是每个词表达成 n 维稠密、连续的实数向量，为每个词向量赋予一些特征表达能力。例如把“北京”这个单词映像为一个实数向量：北京=[0.85, -0.15, 0.64, 0.54, ……, 0.98]，它是通过分散表示（DistributedRepresentation）来产生的。Distributed Representation是一种固定长度的稠密词向量，信息分布式地存储在向量的各个维度中，让相关或者相似的词在距离上更接近。

同样把“中国”、“东京”、“日本”等词映射为各自的向量，使得“中国”-“北京”=“日本”-“东京”。映像的方式主要有两种：一种是CBOW，一种是skip-gram，CBOW是利用单词w(t)上下文的单词w(t-2)、w(t-1)、w(t+1)、w(t+2)的向量，通过三层网络预测中间位置是否为w(t)的向量，以此确定代表这些单词的实数向量；skip-gram则相反，通过w(t)预测它的上下文是否为w(t-2)、w(t-1)、w(t+1)、w(t+2)。

训练模块240将所述训练集拆分成多个子训练集，使用多个所述子训练集交替训练多个质检模型，在训练过程中保存所述多个质检模型中符合要求的质检模型。

如何将所述训练集拆分成多个子训练集的细节说明：将训练集打乱顺序，然后将打乱顺序后的训练集从头开始按一定长度进行分段，以分成不同的子训练集，其中，长度是指文本的数量，比如512个句子。

保存质检模型的方式１：隔固定的训练迭代步数保存一次。迭代步数是指在符合特定的数值条件之前，重复执行运算的次数。

在深度学习中，每一个迭代步数的训练由两个部分组成：正向传播和反向传播。正向传播负责将输入通过与网络中的参数进行计算得到预测结果，反向传播负责计算预测结果和真实结果的差别，并调整网络中的参数。这两个步骤合在一起是训练过程中的一步迭代（或称，一个迭代步数），一般经过多步训练就将模型中的参数以文件的形式保存在硬盘中。

保存质检模型的方式２：保存在验证集上准确率（正确预测违规的消息数/(正确预测违规的消息数+错误预测违规的消息数)）和召回率(正确预测违规的消息数/验证集中实际违规的消息数)）都比较高的质检模型，比如准确率需要大于0.7，召回率需要大于0.4。

保存的模型就是训练后的质检模型。对于保存等我模型，物理上，是一个模型文件，模型内部是学习到的参数，输入一段文字就可以输出是否违规，违反哪个质检点。训练是一个迭代过程，每一步都可以保存一个模型，只是这个模型的结果不一定好。

预测模块250利用所述符合要求的质检模型进行预测，并将预测结果交由质检人员复核。预测就是指用保存的质检模型对微信文本进行检查。

图3是本发明之文本质检方法的流程示意图。所述文本质检方法应用于电子装置10中。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤301，采集微信文本的多个关键词，并对所述多个关键词进行标注，以得到带质检标签的质检文本数据集。关键词是指违规的词，比如，骂人的话、不好听的话以及一些业务规定不能出现的关键词等等。

步骤302，构建双向长短时记忆的循环神经网络（Bi-directionalLong Short-Term Memory Recurrent Neural Network，Bi-LSTMRNN），将所述质检文本数据集按99:1的比例分为训练集和验证集。从所述质检文本数据集中随机抽取99%的数据作为训练集，剩下1%的为验证集。

步骤303，采用结巴（Jieba）工具对所述训练集和所述验证集中的文本进行分词以取得多个单词，利用Word2vec模型将每一个单词映射为单词向量，以获得每一个单词的语义。词向量是用来表示语义的，词向量根据大量的文本数据通过word2vec算法生成，具体来说就是每个词用一个向量表示，所以叫做词向量。

Word2vec模型是一个把单词映射为数字向量的工具，它是用通过Word2vec算法在本发明实施例之语料库上训练生成的。训练完成之后，Ｗord2vec模型可用来映像每个词到一个向量，可用来表示词对词之间的关系。Word2vec模型把每个词本身用一个多维向量来表示，把词投影到一个向量空间里。相同属性的词可能会靠得很近，甚至部份的向量有逻辑上的线性关系。

步骤304，将所述映射后的训练集拆分成多个子训练集，使用多个所述子训练集交替训练多个质检模型，在训练过程中保存所述多个质检模型中符合要求的质检模型。

步骤305，利用所述符合要求的质检模型进行预测，并将预测结果交由质检人员复核。预测就是指用保存的质检模型对微信文本进行检查。

本发明引入深度学习方法对文本进行质检，采用结巴分词对文本内容进行分词,利用Word2vec将单词映射为单词向量，利用TensorFlow构建Bi-LSTMRNN），同时在网络中引入Attention机制，可具有一定的语义理解能力，提高了质检准确率，减轻了质检人员的压力，大大提高了文本质检的效率。

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个服务器所组成的服务器集群）等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器等。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置10，被处理器执行时实现本发明的文本质检方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁盘、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

通过以上的实施方式的描述，可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本质检方法，应用于电子装置中，其特征在于，所述方法包括步骤：

利用所述符合要求的质检模型进行预测，并对预测结果进行复核；

所述保存质检模型的操作还包括：

保存在所述验证集上准确率和召回率高于默认值的质检模型，其中，所述准确率＝（正确预测违规的消息数/（正确预测违规的消息数+错误预测违规的消息数）），所述召回率＝（正确预测违规的消息数/所述验证集中实际违规的消息数）。

2.如权利要求1所述的文本质检方法，其特征在于，所述方法还包括：利用Word2vec模型将所述每一个单词映射为所述单词向量。

3.如权利要求1所述的文本质检方法，其特征在于，所述方法还包括：通过所述神经网络将所述质检文本数据集按99:1的比例分为所述训练集和所述验证集。

4.如权利要求1所述的文本质检方法，其特征在于，所述方法还包括：

将所述训练集打乱顺序，然后将打乱顺序后的训练集从头开始按一定长度进行分段，以分成不同的子训练集。

5.如权利要求1所述的文本质检方法，其特征在于，所述保存质检模型的操作还包括：

隔固定的训练迭代步数保存一次，其中，每一个迭代步数的训练包括正向传播和反向传播，通过所述正向传播得到预测结果，通过所述反向传播计算所述预测结果和真实结果的差别，并调整网络中的参数。

6.一种电子装置，其特征在于，包括：

数据采集及标注模块，用于采集微信文本的多个关键词，并对所述多个关键词进行标注，以得到带质检标签的质检文本数据集；

数据处理模块，用于构建神经网络，通过所述神经网络将所述质检文本数据集按固定比例分为训练集和验证集；

分词与映射模块，用于采用中文分词工具对所述训练集和所述验证集中的文本进行分词以取得多个单词，将每一个单词映射为单词向量；

训练模块，用于将所述映射后的训练集拆分成多个子训练集，使用多个所述子训练集交替训练多个质检模型，在训练过程中保存所述多个质检模型中符合要求的质检模型；及

预测模块，用于利用所述符合要求的质检模型进行预测，并对预测结果进行复核；

所述训练模块，还用于：保存在所述验证集上准确率和召回率高于默认值的质检模型，其中，所述准确率=（正确预测违规的消息数/（正确预测违规的消息数+错误预测违规的消息数）），所述召回率=（正确预测违规的消息数/所述验证集中实际违规的消息数）。

7.如权利要求6所述的电子装置，其特征在于，还包括：所述数据处理模块通过所述神经网络将所述质检文本数据集按99:1的比例分为所述训练集和所述验证集。

8.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述文本质检方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述文本质检方法的步骤。