CN111143553B

CN111143553B - 一种实时文本数据流的特定信息识别方法及系统

Info

Publication number: CN111143553B
Application number: CN201911244895.2A
Authority: CN
Inventors: 李扬曦; 任博雅; 井雅琪; 时磊; 段东圣; 余翠玲; 胡燕林; 佟玲玲; 宋永浩; 梁冬
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-04-07
Anticipated expiration: 2039-12-06
Also published as: CN111143553A

Abstract

本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统，侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别，并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流，识别出文本中隐含的特定信息。

Description

一种实时文本数据流的特定信息识别方法及系统

技术领域

本发明涉及大数据技术、自然语言处理和深度学习领域，尤其涉及一种针对海量实时文本数据流的特定信息识别方法及系统。

背景技术

随着web2.0技术以及移动互联网的快速发展和深入普及，人们的沟通方式突破了传统的线下语言交流和纸质的文本模式，带来了多方面信息传播模式的变革，一方面从信息传播载体上可以通过短信、微博、QQ以及微信等软件化的沟通介质，另一方面相比于传统信息传播模式，新技术极大地提升了信息传播速度、传播范围、影响程度等方面。例如，单条微博可以在短时间内使得数十万甚至数百万用户参与其中。同时，信息的快速海量传播蕴含着巨大的能量和信息价值。例如，事件监管、新闻热点发现、商业价值挖掘等。特别的，针对社交网络中某些特殊事件的信息识别，具有重要的网络安全意义和经济价值。

目前，针对海量文本数据的特定信息准确、快速识别成为各行业实际应用的核心难点。主要包括以下几方面：(1)由于特定信息数据的稀疏性和语义表达的多样性，导致特定信息识别困难；(2)生产环境中通常面对海量文本数据，而文本分析的算法模型具有较高计算复杂度，海量文本数据的处理能力成为制约实际应用的瓶颈。

现有信息识别方面的研究工作侧重在公开数据集中提升识别模型的准确率和召回率指标，主流的方法有以下三类：基于卷积神经网络的信息识别方法、基于递归神经网络的信息识别方法和基于Transformer结构的信息识别方法。卷积神经网络的方法将文本表示的向量作为嵌入层，通过卷积和池化操作提取句子的关键信息，从而捕捉文本的语义信息。递归神经网络的方法采用LSTM(长短时记忆单元)或GRU(门控循环单元)记忆文本字符间的连接关系，从而捕获一定长度文本的局部信息，达到特定信息的识别效果。基于Transformer结构的方法摈弃了传统的递归和卷积网络结构，能够捕获更深层次的文本语义，提升模型训练效率。现有方法侧重在封闭数据集中提升模型的性能指标，主要存在两方面的问题：一是在生产环境中数据稀疏性和多样性的特征下，无法达到预期的识别效果；二是针对海量数据复杂模型无法满足实际应用的效率目标。总体上，现有方法缺乏对信息识别的系统化、多维度的研究探索，并且绝大部分研究内容侧重于算法的改进与学术产出，无法适用于实际海量文本的在线实时数据分析，导致研究成果的应用性不强。

发明内容

本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统，侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别，并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流，识别出文本中隐含的特定信息，并构建实际的应用系统使得线上识别准确率达到85％，召回率达到90％，每小时处理文本条数达到3亿条以上。

针对现有技术的不足，本发明提出一种基于模型级联模式的针对海量实时文本数据流的特定信息识别框架，并给出具体的工程实施方案：

一种实时文本数据流的特定信息识别方法，包括：

步骤1、获取领域语料数据和类别标注数据，该领域语料数据包括多条具有领域标签的文本信息，该类别标注数据包括多条具有类别标签的文本信息；

步骤2、以该领域语料数据作为训练数据，通过执行无监督语言模型的训练，得到初步领域语言模型，加载该类别标注数据至该初步领域语言模型，执行有监督语言模型的训练，得到最终领域语言模型；

步骤3、遍历收集的领域词汇集合，输入到该最终领域语言模型，得到词汇的表示向量，集合所有表示向量，得到领域词汇向量字典；

步骤4、将待识别文本输入至浅层网络识别模型，浅层网络识别模型针对待识别文本中每个词汇，查找该领域词汇向量字典，得到该待识别文本中词汇的高维特征向量，采用全连接隐层对该高维特征向量进行降维，得到信息更加聚集的低维特征向量，将该低维特征向量输入至文本分类层，得到识别类别结果的概率向量，基于该概率向量通过梯度下降损失函数更新浅层网络识别模型；

步骤5、将待识别文本输入至深层网络识别模型，深层网络识别模型通过该领域词汇向量字典，将待识别文本编码为词汇特征向量和位置编码向量，深层网络识别模型中复合神经网络结构层处理该词汇特征向量和该位置编码向量，得到该待识别文本的表示特征向量，将该表示特征向量输入至文本分类层，得到识别类别结果的概率向量；

步骤6、接入实时文本数据流，将该实时文本数据流进行基于规则匹配的过滤处理后逐条输入至浅层网络识别模型，识别得到文本所属类别的概率向量，判断该概率向量中概率最大的类别是否为预设的特定信息，若是则将文本传递给该深度网络识别模型识别文本的所属类别，否则该概率向量中概率最大的类别作为文本的所属类别。

所述的实时文本数据流的特定信息识别方法，其中该领域语料是短信数据中包含特定业务信息的文本数据。

所述的实时文本数据流的特定信息识别方法，其中该步骤3包括：

基于该领域词汇集合，利用预训练领域语言模型生成领域词汇向量字典，表示为二元组结构：<key,value>，其中key代表领域词汇，value代表该词汇表示成的数值向量。

所述的实时文本数据流的特定信息识别方法，其中该步骤4包括：

对待识别文本中每个词汇查找该领域词汇向量字典，得到词汇的特征向量，采用加权平均的方式得到一个n-gram序列的特征表示，将各个n-gram序列的特征向量进行串联，得到最终的短文本特征向量；

以该短文本特征向量作为输入，采用全连接隐层对表示的文本特征向量进行降维度，提取信息更加聚集的特征向量，输入的原始文本特征向量表示为X，向量维度为词汇特征向量维度与文本表示成gram数量的乘积；全连接隐层的节点数量表示为n，全连接权重矩阵表示为W₁，全连接正则化项表示为b₁，则该步骤操作表示为：

FFN(X)＝X·W₁+b₁

特征向量FFN(X)为一条短文本样本的高级特征表示，将最终表示后的文本特征向量输入给文本分类层，进行短文本样本的类别识别，输出分类结果的概率向量；

浅层网络识别模型的最后一层是softmax回归，将特征向量FFN(X)作为回归层的输入，回归层权重矩阵表示为W₂，回归层正则化项表示为b_2，得到最终样本识别类别结果的概率向量：

P＝soft max(FFN(X)·W₂+b₂)

浅层网络识别模型使用梯度下降法对损失函数进行优化，来更新浅层网络识别模型的参数，其中损失函数的方式定义如下：

其中，j是样本d的类别识别结果。

所述的实时文本数据流的特定信息识别方法，其中该步骤5包括：

词汇表示向量包含词汇的语义信息特征，位置编码向量包含短文本样本中词汇之间的顺序关，通过将词汇表示向量和位置编码向量串联作为深层网络识别模型的输入层特征；

深层网络识别模型的复合神经网络结构层包含多头注意力层，正反馈全连接网络层和正则化层，并且复合神经网络结构层采用点乘注意力机制作为一头，通过水平复制得到多头注意力层，每层的注意力机制将专注于不同维度的文本表达特征，计算方法如下。

上述公式表示点乘注意力机制，其中Q表示查询矩阵，K和V表示<key,value>对，代表网络每层中输入序列与输出序列之间的关系，上述公式的含义是通过计算查询和各个Key的相似性和相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的注意力数值；

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

其中，

多头注意力机制是将n个注意力层串联到一起，将短文本样本表示为一个中间特征向量，该向量能够表达文本不同维度的特征；

将多头注意力层的输出向量传递给全连接层，对于全连接层的节点首先执行RELU激活函数，然后执行全连接操作，将各层计算的向量执行正则化操作：

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂

特征向量FFN(X)为一条短文本样本的高级特征表示，将最终表示后的文本特征向量输入给文本分类层，进行短文本样本的类别识别，输出分类结果的概率向量。

本发明还提出了一种实时文本数据流的特定信息识别系统，其中包括：

模块1、获取领域语料数据和类别标注数据，该领域语料数据包括多条具有领域标签的文本信息，该类别标注数据包括多条具有类别标签的文本信息；

模块2、以该领域语料数据作为训练数据，通过执行无监督语言模型的训练，得到初步领域语言模型，加载该类别标注数据至该初步领域语言模型，执行有监督语言模型的训练，得到最终领域语言模型；

模块3、遍历收集的领域词汇集合，输入到该最终领域语言模型，得到词汇的表示向量，集合所有表示向量，得到领域词汇向量字典；

模块4、将待识别文本输入至浅层网络识别模型，浅层网络识别模型针对待识别文本中每个词汇，查找该领域词汇向量字典，得到该待识别文本中词汇的高维特征向量，采用全连接隐层对该高维特征向量进行降维，得到信息更加聚集的低维特征向量，将该低维特征向量输入至文本分类层，得到识别类别结果的概率向量，基于该概率向量通过梯度下降损失函数更新浅层网络识别模型；

模块5、将待识别文本输入至深层网络识别模型，深层网络识别模型通过该领域词汇向量字典，将待识别文本编码为词汇特征向量和位置编码向量，深层网络识别模型中复合神经网络结构层处理该词汇特征向量和该位置编码向量，得到该待识别文本的表示特征向量，将该表示特征向量输入至文本分类层，得到识别类别结果的概率向量；

模块6、接入实时文本数据流，将该实时文本数据流进行基于规则匹配的过滤处理后逐条输入至浅层网络识别模型，识别得到文本所属类别的概率向量，判断该概率向量中概率最大的类别是否为预设的特定信息，若是则将文本传递给该深度网络识别模型识别文本的所属类别，否则该概率向量中概率最大的类别作为文本的所属类别。

所述的实时文本数据流的特定信息识别系统，其中该领域语料是短信数据中包含特定业务信息的文本数据。

所述的实时文本数据流的特定信息识别系统，其中该模块3包括：

所述的实时文本数据流的特定信息识别系统，其中该模块4包括：

以该短文本特征向量作为输入，采用全连接隐层对表示的文本特征向量进行降维度，提取信息更加聚集的特征向量，输入的原始文本特征向量表示为X，向量维度为词汇特征向量维度与文本表示成gram数量的乘积；全连接隐层的节点数量表示为n，全连接权重矩阵表示为W₁，全连接正则化项表示为b₁，则该模块操作表示为：

FFN(X)＝X·W₁+b₁

P＝soft max(FFN(X)·W₂+b₂)

其中，j是样本d的类别识别结果。

10.如权利要求6所述的实时文本数据流的特定信息识别系统，其中该模块5包括：

深层网络识别模型的复合神经网络结构层包含多头注意力层，正反馈全连接网络层和正则化层，并且复合神经网络结构层采用点乘注意力机制作为一头，通过水平复制得到多头注意力层，每层的注意力机制将专注于不同维度的文本表达特征，计算系统如下。

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

其中，

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂

本发明目的是实现海量文本数据流的实时处理与特定信息的准确识别，主要难点是解决算法模型识别准确率与处理高效性的矛盾需求。

由以上方案可知，本发明的优点在于：充分利用各领域数据中特定信息的高稀疏性，采用领域规则、简单模型与复杂融合模型级联的特定信息识别框架，保证较高识别准确率与召回率的前提下，达到更高的处理能力。经过实际测试，本发明提出的识别框架每小时处理4.3亿条文本，识别召回率达96％，识别召回率达93％。

附图说明

图1为特定信息识别框架离线训练的步骤流程图；

图2为特定信息识别框架在线识别的步骤流程图；

图3为大规模语言模型训练实施例步骤流程图；

图4为特定信息识别模型训练实施例步骤流程图；

图5为针对海量实时文本数据流的特定信息识别框架实施例步骤流程图。

具体实施方式

一种针对海量实时文本数据流的信息识别框架及系统涉及到的技术关键点主要包括领域语言模型的预训练、深度网络识别模块、级联模型处理框架等。主要的技术关键点和技术效果说明如下。

关键点1，训练领域语言模型。自然语言处理相关的任务，通常需要首先将文本表示为可计算的数值化向量，语言模型即为将文本向量化表示的一种方式。首先需要积累大量的领域语料数据和一定量的类别标注数据，并对文本数据进行去除特殊符号等预处理，然后利用领域语料数据执行无监督语言模型预训练过程，在训练得到的初步语言模型的基础上，利用类别标注数据，执行有监督语言模型微调过程，最终得到完备的领域语言模型。

技术效果，通过领域语言模型可以获得字符级、词汇级和句子级别的向量表示。这样对于输入的文本样本，能够实现三种级别的特征表示，尽量保留文本数据中有价值的信息，极大缓解由于分词错误导致原始文本数据中价值信息的丢失问题，从而提高信息识别的性能指标。

关键点2，深度网络识别模块。识别模型采用基于Transformer结构的双向编解码深度网络，对输入的文本，模型以字符向量和字符对应的位置向量作为输入，再对联合向量采用两层多头attention机制，输出接入正反馈的全连接网络。

技术效果，传统的基于循环神经网络存在两方面问题，一是构建的深度网络无法并行化训练，因此对于相同参数量的模型训练阶段耗时较大；二是对于不同长度的输入序列都将编码成固定长度的特征向量，后续解码过程将受到该固定长度特征向量的限制，进而限制了模型的识别效果，尤其是当输入的序列过长时，模型学习到的特征将受到限制。而基于Transformer结构的深度网络摈弃了传统的循环结构，利于模型训练的并行化，在相同参数量的情况下，将极大缩短模型的训练时间。并且，Transformer结构采用多头Attention机制，attention机制对输入序列的中间结果进行学习，能够捕获更有价值的信息并赋予更高权重，进而得到信息更加充分的特征向量；此外，多头attention机制能够将原始训练数据映射到不同的高维语义空间中，不同语义空间特征的获取将极大提升模型的最终识别效果，例如，语言基本语法空间、情感语义空间和特殊词语义空间等。

关键点3，级联模型处理框架。采用规则过滤模块、浅层网络识别模块、深度网络识别模块和后处理模块的级联框架，处理海量实时文本数据流。规则过滤模块主要针对领域文本数据中一定是负例样本的文本抽取特定规则，基于抽取的规则实施过滤，通常该步骤会过滤掉80％以上的样本；浅层网络识别模块具备算法执行效率高，并且尽量保证100％的信息识别召回率，而相对较低的识别准确率；深度网络识别模块基于浅层网络识别模块的输出数据作为输入，该步骤利用复杂度高的深度模型保证信息识别结果的准确性；后处理模块利用规则的方法过滤掉干扰性强的误识别结果，进一步提升特定信息识别的准确率。

技术效果，在生产环境中，面对受约束的硬件计算资源和海量的实时数据流，需要在保证识别准确率和召回率的前提下，提高信息识别对海量实时数据流的处理能力。由于特定信息的稀疏性，直接将所有文本数据交给深度网络识别模块处理将浪费宝贵的计算资源，因此首先利用规则过滤模块过滤掉大部分样本，然后通过浅层网络识别模块保证召回率，再次过滤掉大部分样本，将未过滤掉的样本输入给深度网络识别模块以提升特定信息识别的准确率，最后通过后处理模块再次提升识别的准确率。该级联模型的处理框架既能够保证特定信息识别的准确率和召回率，又能够实现海量文本数据流的实时处理。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

一种针对海量实时文本数据流的信息识别框架及系统，包括离线训练系统和在线识别系统，其中，离线训练系统主要功能是基于标注的特定信息数据集，完成对特性信息识别模型的训练过程；而在线识别系统通过加载离线训练的识别模型，对在线实时文本数据流进行特定信息的准确、高效和完整的识别。涉及到的技术方案如图1和图2所示。

在本实施例中以海量短信文本数据流的实时特定信息识别为例。提供短信数据流的分布式消息中间件为Kafka，短信文本数据分析采用Spark分布式内存计算框架完成，存储结构化特定信息识别结果的关系型数据库采用MySQL，算法开发语言采用Python。

离线训练系统包含两方面的内容：一是基于海量领域语料数据，训练领域语言模型，供后续识别模型使用；二是基于领域标注的数据集，训练识别模型，用于在线系统的特定信息识别。具体实施步骤如附图3所示。

1.大规模领域语言模型训练实施例

领域语言模型的主要作用是获得领域词汇的特征向量，该特征向量能够表示词汇在领域文本数据场景下的语义信息，为后续特定信息识别模型的训练奠定基础。该实施例详细描述大规模语言模型的训练过程，包括步骤S110-步骤S150，如例如3所示。

步骤S110，积累领域语料数据。

该步骤积累的领域语料数据主要用于训练大规模领域语言模型，本实施例中一条语料对应一条短信样本，积累的语料数量需要千万级别以上才能使得模型学习到短信领域的语义特征。其中，领域语料是指特定领域积累的文本语料信息，区别于通用领域积累文本数据，本实施例中领域语料指短信数据中包含特定业务信息的文本数据。积累领域语料包含以下步骤：

对接短信文本数据流。通过spark集群分布式消费kafka中传递的短信数据，并将接入的短信文本传递给预处理步骤；

文本预处理。由于不同语言符号系统的差异性，本实施例只训练中文语言模型，因此首先过滤掉非汉语文本的短信样本。样本中存在人为添加的将词汇分隔开的特殊符号，影响对词汇语义的捕获，因此需要去除文本中包含的特殊符号；

语料数据持久化。将spark集群中存在于内存中的短信数据持久化到文件中，文件中的一行对应一条短信样本。

步骤S111，积累类别标注数据。

积累的类别数据将用于后续的信息识别模型的训练，类别数据的标注质量直接影响训练出模型的识别效果，需要保证样本标注类别的准确性。

标注类别数据。首先确认需要识别的特定信息的类别及标注标准，通过关键字过滤的方式得到初步的待标注短信数据集，采用人工标注的方式对初步收集到的短信数据进行逐条人工标注。

文本预处理。类别与原始文本采用特定分隔符分割，对标注后的文本去除特殊符号，将预处理之后的文本按行存储。

步骤S120，收集词汇表及初始化模型。

本实施例中采用BERT作为语言模型的训练模型，在训练之前需要准备词汇表及初始化模型。

收集词汇表。针对步骤S110中积累的领域语料数据，进行按字符切分，对切分后的字符进行去重，形成领域词汇表，为后续基于领域词汇抽取特征向量提供基础数据。

选择初始化模型。初始化模型作为训练模型的初始化参数，本实施例中采用公开的基于中文维基百科数据训练的语言模型作为领域语言模型的初始化参数。

步骤S130，执行无监督语言模型预训练。

基于积累的领域语料数据，预训练领域语言模型能够获得领域字符及词汇的向量化表示，并且该表示向量能够表达字符或词汇在领域文本上下文中的语义信息。利用公开的BERT中文预训练语言模型作为领域语言模型训练模型的初始化参数，加载积累的领域语料数据，执行无监督领域语言模型的预训练过程，产出预训练完成的领域语言模型。

由于本案例中使用的BERT模型具有1.1亿个参数，训练过程的计算量巨大，需要采用多块GPU进行训练，迭代过程执行10个epoch。模型参数每更新1000次则保存一次模型，供模型微调阶段挑选为初始化参数。

步骤S140，执行有监督语言模型微调。

步骤S130中预训练得到的语言模型主要学习到短信语料中的基本语法结构和词汇的普适语义，尚未学习到特定词汇与识别任务之间的关系，通过有监督识别任务的微调过程，可以使得语言模型中的词汇特征向量与特定类别间的语义关系。

利用上一步中产生的预训练领域语言模型作为本步骤中的模型初始化参数，加载积累的类别标注数据，执行有监督语言模型微调过程，训练完成后产生最终预训练的领域语言模型。

步骤S150，生成领域词汇向量字典。

基于步骤S120中收集的领域词汇表，利用预训练领域语言模型生成词汇向量字典，表示为二元组结构：<key,value>，其中key代表领域词汇，value代表该词汇表示成的数值向量，该向量包含768维。领域词汇向量字典的生成主要包括以下两个步骤：

收集领域词汇集合。对积累的领域语料数据，执行分词操作，将分词结果获得的词汇进行去重，形成初步词汇集合。由于领域文本中可能存在无法分出的新词和变异词，通过新词发现和变异词挖掘算法得到特殊词增加到词汇集合中。

基于预训练领域语言模型抽取词汇表示向量。遍历收集的领域词汇集合，输入到预训练的领域语言模型中，抽取模型的指定层参数作为该词汇的表示向量，将词汇和表示向量组合为<key，value>的二元组结构，持久化到磁盘中。

2.训练特定信息识别模型实施例

识别模型作为针对海量实时文本数据流的特定信息识别框架的核心部分，用来对过滤后的短信数据进行特定信息识别，需要保证信息识别的准确率和召回率。本实施例中训练的识别模型包括浅层网络模型和深层网络模型，浅层模型能够快速识别大量短信样本，并保证足够高的特定信息召回率，深层网络模型侧重信息识别的准确率。特定信息识别模型实施例训练步骤包括S210-S243，如附图4所示，识别模型训练过程主要包含文本数据预处理和特定信息识别模型训练两大模块。

步骤S210，文本数据清洗。

真实生产环境中的短信文本数据存在丰富的多样性，对识别模型的训练和在线识别阶段带来不必要的干扰，因此需要对短信文本数据进行清洗，主要包括以下方面。

去除短信文本中的特殊符号，只保留中文字符、数字和正常标点符号；

去除短信文本中的停用词，例如，“的”、“呢”、“了”等；

对文本中包含的对特定信息识别没有作用的人名、地名等进行符号替换；

将处理后的全部短文本信息的人工标签，转化为数值型标签。

步骤S220，文本数据分词。

后续识别模型训练阶段需要利用文本的分词数据查找词汇特征词典，以此将文本样本转化为数值型特征向量输入给网络模型。该步骤以上一步骤清洗后的文本数据作为输入，采用结巴分词工具进行文本数据分词。

步骤S230-S232，训练浅层网络识别模型。

浅层网络识别模型训练过程包括提取n-gram特征向量、构建全连接隐层和文本分类层。

步骤S230，n-gram特征向量。

将文本转化为数值型特征通常采用词袋模型或tf-idf模型，但是此两种模型都无法表达词之间顺序关系，本实施例采用n-gram特征向量来实现文本的表示。每条短文本样本被看作是n-gram词汇串包，为了区分前后缀情况，“<”和“>”符号被加入到样本的前后端。例如，对于“我爱中国”这条样本，经过分词得到“我爱中国”，当n＝2的情况下，得到n-gram的词汇序列是<我爱爱中国>，将词汇“我”和“爱”的特征向量各维度取平均值得到“我爱”的特征向量，最终得到短文本样本的特征向量。

基于短文本样本预处理之后的词汇序列，生成n-gram词汇串包：

针对每个词汇查找实施例1中产出的领域词汇向量字典，得到词汇的特征向量，采用加权平均的方式得到一个n-gram序列的特征表示；

将各个n-gram序列的特征向量进行串联，得到最终的短文本特征向量。

步骤S231，全连接隐层。

步骤S230完成了对短文本样本的数值化表示，本步骤以文本表示的数值化向量作为输入，采用全连接隐层对表示的文本特征向量进行降维度，提取信息更加聚集的特征向量。输入的原始文本特征向量表示为X，向量维度为词汇特征向量维度与文本表示成gram数量的乘积；全连接隐层的节点数量表示为n，全连接权重矩阵表示为W，正则化项表示为b。则，该步骤操作表示为：

FFN(X)＝X·W₁+b₁

步骤S232，文本分类层。

步骤S231会产生一个新的特征向量FFN(X)，该向量即为一条短文本样本的高级特征表示，将最终表示后的文本特征向量输入给文本分类层，进行短文本样本的类别识别，输出分类结果的概率向量。

本实施例识别模型的最后一层是softmax回归，将文本特征向量FFN(X)作为回归层的输入，得到最终样本识别类别结果的概率向量：

P＝soft max(FFN(X)·W₂+b₂)

识别模型使用Adam梯度下降优化器对损失函数进行优化，来更新浅层神经网络模型的参数，其中损失函数的方式定义如下：

其中，j是样本d的类别识别结果，P_dj代表样本d识别为类别j的概率。

步骤S240-S243，训练深度网络识别模型。

浅层网络识别模型具备高效的处理性能，能够快速过滤海量短文本样本，通常无法获得较高的识别准确率和召回率，因此需要训练一个深度网络识别模型，不侧重模型的处理能力，专注于模型的识别效果。深度网络识别模型的训练过程包括：文本向量表示输入层、Transformer结构层、特征叠加与正则化层和文本分类层。

步骤S240，文本向量表示输入层。

文本向量表示包括词汇特征向量和位置编码向量，其中词汇表示向量将包含词汇的语义信息特征，而位置编码向量则获取短文本样本中词汇之间的顺序关系。

本实施例中的预处理步骤将产生样本的分词序列，再利用实施例1中产出的领域词汇向量字典，将每个词汇的特征向量串联得到样本的词汇特征向量。针对短信的文本长度特点，设置最长100个词汇，每个词汇表示为768维向量，文本特征向量为76800维，对于超短信息不足则后位补0；

位置编码向量采用100维向量表达词汇在短文本样本中词汇之间的顺序，位置编码与词汇特征向量通过查表获得不同，而是进行随机初始化，通过模型的训练过程进行学习。

通过将词汇表示向量和位置编码向量串联作为模型最终的输入层特征。

步骤S241，Transformer结构层。

Transformer结构是一种复合神经网络模块，每个Transformer模块中包含多头attention层，正反馈全连接网络层和正则化层，并且Transformer结构通过复制多份得到文本不同维度的特征表示。

多头attention层采用点乘attention机制作为一头，通过水平复制得到多头attention层，每层的attention机制将专注于不同维度的文本表达特征，计算方法如下。

上述公式表示点乘attention机制，其中Q表示查询矩阵，K和V表示抽象的<key,value>对，代表网络每层中输入序列与输出序列之间的关系，上述公式的含义是通过计算查询和各个Key的相似性和相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

其中，

多头attention机制是将n个attention层串联到一起，将短文本样本表示为一个中间特征向量，该向量能够表达文本不同维度的特征，例如，语法、句法、语义、情感等维度。

将多头attention层的输出向量传递给全连接层，对于全连接层的节点首先执行RELU激活函数，然后执行全连接操作。由于计算得到的向量中各个维度的值可能存在较大差异，影响后续网络中数值的传导，并且导致过拟合情况，因此需要将各层计算的向量执行正则化操作。

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂

步骤S242，特征叠加与正则化层。

步骤S241中的Transformer结构可以水平重复n次，需要将每层的Transformer模块输出的特征向量进行综合利用，以提高模型捕获短文本训练数据集中高价值信息的能力。通过多个水平Transformer模块的输出向量联合到一起得到一个整体的文本表示特征向量，构建多个水平Transformer模块能够实现对文本数据不同维度语义特征的提取，例如，一个Transformer模块捕获文本基本语法特征，一个Transformer模块捕获文本的领域特殊用法，一个Transformer模块捕获文本的情感倾向特征等。最后引入一个正则化因子，防止局部信息的过拟合。

步骤S243，文本分类层。

本步骤的文本分类层与浅层神经模型的步骤S232文本分类层类似。首先将上一步中输出的特征向量执行一个线性全连接网络，然后再执行softmax运算，得到每个样本属于某个类别的概率，即概率矩阵，完成特性信息类别识别的任务。

3.在线特定信息识别系统实施例

在线识别系统利用离线训练阶段得到的浅层网络识别模型和深度网络识别模型，并引入前规则处理模块和后规则过滤模块，实现对海量实时文本数据流的特定信息快速、准确识别。因此，在线识别系统主要包括四个模块：前规则过滤模块、浅层模型识别模块、深度模型识别模块和后处理模块，除了上述四个主要模块，在线识别系统还包括数据流接入模块、数据预处理模块和识别结果存储模块。

步骤S310，接入海量实时文本数据流。

短文本数据流通过分布式消息中间件kafka提供，利用spark集群来接入海量实时文本数据流，spark集群包含50个节点，平均个节点处理3亿条文本样本。

步骤S320，基于规则匹配方法初步过滤无关样本。

由于实时数据流中每秒产生的短文本样本数量巨大，直接通过识别模型进行处理，将耗费巨大的计算资源，因此首先通过规则的方法初步过滤无关样本，需要保证规则的高效性及过滤掉的样本中不包含待识别的特定信息。主要包括以下方面的规则：

服务号码。将企业与机构产生并发送的文本样本进行过滤；

非中文文本。目前本实施例只关注中文样本的信息识别，将数据流中不包含任何中文字符的样本进行过滤；

正则表达式。将包含特定字符串模式的文本样本进行过滤。

执行步骤S320，将过滤掉90％以上的无关样本。

步骤S340，基于浅层模型快速识别特定信息。

接入上一步骤中过滤后的样本数据流，加载实施例2中训练出的浅层网络识别模型，实现对文本数据流的快速识别，该步骤主要保证较高的识别召回率。

加载训练模型。利用spark集群加载实施例2中训练完成的TensorFlow模型；

执行特定信息识别。将初步过滤后的短文本样本逐条接入到加载的模型中，模型将输出样本所属类别的概率向量；

保留识别的特定信息。根据输出的类别概率向量，保留概率最大的类别作为样本的所属类别，如果样本所属类别不属于特定信息中的某一类，则将其过滤掉，如果属于某类特定信息，则将样本传递给深度网络识别模型处理。值得注意的是为保证本步骤的识别召回率，当某类特定信息类别概率超过0.3则保留该条样本。

步骤S350，基于深度模型准确识别各类特定信息。

本步骤的执行流程与步骤S340相同，逐步执行加载训练模型、执行特定信息识别和保留识别的特定信息。与步骤S340不同的是，所接入的样本数据流为经过浅层模型识别之后保留下的疑似特定信息样本，此外加载的模型为实施例1中训练的深度网络识别模型。本步骤既要保证高召回率，同时保证较高的识别准确率。

步骤S360，对识别结果进行后过滤。

通常深度模型识别之后的样本仍存在一定量的不准确性，对最终的识别结果进行分析，抽取出误识别样本的特定规则模式，将得到的规则模型固化为处理程序，对识别结果进行后处理，进一步提升整体框架对特定信息的识别准确率。

本发明实施例通过上述步骤实现了针对海量实时文本数据流的特定信息识别框架和系统。通过生产环境中的实际测试，本发明提出的该特定信息识别框架能够单台虚拟机节点每小时能够处理3000万条短文本样本，在保证较高识别召回率的前提下，最终识别准确率可达到90％以上。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

FFN(X)＝X·W₁+b₁

浅层网络识别模型的最后一层是softmax回归，将特征向量FFN(X)作为回归层的输入，回归层权重矩阵表示为W₂，回归层正则化项表示为b₂，得到最终样本识别类别结果的概率向量：

P＝soft max(FFN(X)·W₂+b₂)

其中，j是样本d的类别识别结果。

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

其中，

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂

其中，X代表多头注意力机制的输出结果MultiHead(Q,K,V)，W和b表示训练过程中待学习的参数，特征向量FFN(X)为一条短文本样本的高级特征表示，将最终表示后的文本特征向量输入给文本分类层，进行短文本样本的类别识别，输出分类结果的概率向量。

Claims

1.一种实时文本数据流的特定信息识别方法，其特征在于，包括：

步骤6、接入实时文本数据流，将该实时文本数据流进行基于规则匹配的过滤处理后逐条输入至浅层网络识别模型，识别得到文本所属类别的概率向量，判断该概率向量中概率最大的类别是否为预设的特定信息，若是则将文本传递给该深层网络识别模型识别文本的所属类别，并根据误识别样本的特定规则模式，将该规则模式固化为处理程序，对该深层网络识别模型的识别结果中的误识别类别进行过滤，得到文本最终的所属类别，否则该概率向量中概率最大的类别作为文本的所属类别。

2.如权利要求1所述的实时文本数据流的特定信息识别方法，其特征在于，该领域语料是短信数据中包含特定业务信息的文本数据。

3.如权利要求1所述的实时文本数据流的特定信息识别方法，其特征在于，该步骤3包括：

4.如权利要求1所述的实时文本数据流的特定信息识别方法，其特征在于，该步骤4包括：

FFN(X)＝X·W₁+b₁

P＝softmax(FFN(X)·W₂+b₂)

其中，j是样本d的类别识别结果。

5.如权利要求1所述的实时文本数据流的特定信息识别方法，其特征在于，该步骤5包括：

深层网络识别模型的复合神经网络结构层包含多头注意力层，正反馈全连接网络层和正则化层，并且复合神经网络结构层采用点乘注意力机制作为一头，通过水平复制得到多头注意力层，每层的注意力机制将专注于不同维度的文本表达特征，计算方法如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂

6.一种实时文本数据流的特定信息识别系统，其特征在于，包括：

模块6、接入实时文本数据流，将该实时文本数据流进行基于规则匹配的过滤处理后逐条输入至浅层网络识别模型，识别得到文本所属类别的概率向量，判断该概率向量中概率最大的类别是否为预设的特定信息，若是则将文本传递给该深层网络识别模型识别文本的所属类别，并根据误识别样本的特定规则模式，将该规则模式固化为处理程序，对该深层网络识别模型的识别结果中的误识别类别进行过滤，得到文本最终的所属类别，否则该概率向量中概率最大的类别作为文本的所属类别。

7.如权利要求6所述的实时文本数据流的特定信息识别系统，其特征在于，该领域语料是短信数据中包含特定业务信息的文本数据。

8.如权利要求6所述的实时文本数据流的特定信息识别系统，其特征在于，该模块3包括：

9.如权利要求6所述的实时文本数据流的特定信息识别系统，其特征在于，该模块4包括：

FFN(X)＝X·W₁+b₁

P＝softmax(FFN(X)·W₂+b₂)

其中，j是样本d的类别识别结果。

10.如权利要求6所述的实时文本数据流的特定信息识别系统，其特征在于，该模块5包括：

深层网络识别模型的复合神经网络结构层包含多头注意力层，正反馈全连接网络层和正则化层，并且复合神经网络结构层采用点乘注意力机制作为一头，通过水平复制得到多头注意力层，每层的注意力机制将专注于不同维度的文本表达特征，计算系统如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^o

其中，

FFN(X)＝max(0,X·W₁+b₁)W₂+b₂