CN117150025B

CN117150025B - 一种数据服务智能识别系统

Info

Publication number: CN117150025B
Application number: CN202311422192.0A
Authority: CN
Inventors: 张诗璇
Original assignee: Hunan Jinlin Intelligent Technology Co ltd
Current assignee: Hunan Jinlin Intelligent Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-26
Anticipated expiration: 2043-10-31
Also published as: CN117150025A

Abstract

本发明涉及数据智能识别领域，具体涉及一种数据服务智能识别系统，所述系统包括：数据采集模块，数据分析模块，模型训练及识别模块；构建常用词汇字典、风险词汇字典及模板词汇组；根据模板词汇组获取各语句的语句向量；根据语句及上下语句之间的风险词汇得到语句的语句风险上下文特征；根据语句中的风险词汇以及文本信息中风险词汇的分布得到语句的语句风险频率特征；根据语句的语句向量、语句风险上下文特征以及语句风险频率特征得到语句的语句修正向量；将文本信息中所有的语句修正向量及词汇向量组成文本信息向量；基于文本信息向量使用神经网络构建数据风险识别模型，完成数据服务智能识别。本发明可以对数据进行更准确的智能识别。

Description

一种数据服务智能识别系统

技术领域

本申请涉及数据智能识别领域，具体涉及一种数据服务智能识别系统。

背景技术

随着互联网技术的不断发展，互联网内容的审核显得尤为重要，其在维护网络环境以及社会稳定方面发挥着重要作用。对互联网内容进行智能识别，防止出现违法内容，保护用户免受潜在威胁的损害；同时，数据的智能识别有助于维护互联网生态系统健康，减少广告等垃圾信息的传播，从而提供更有价值的互联网信息，助力企业利用技术手段处理平台上的内容风险。

在互联网上信息以多种形式存在，包括文本，视频，音频，图像等信息。虽然多媒体内容在不断增长，但文本信息仍然是互联网信息的主要组成部分。因此，对于文本内容的审核备受关注。一般对文本信息的审核分为三步，文本预处理、文本特征提取和文本的分类。在网络中存在着海量文本内容，对文本内容自动审核是一件极为复杂的问题。互联网中有些信息存在对网络环境、社会稳定造成影响等内容，此类信息称之为风险信息，而描述此类内容的词汇为风险词汇。机器通过自动判断文本内容是否符合规定，从而有效地应对互联网上大量的文本信息。这种自动化审核有助于提高效率、降低人工审核的工作量，并更好地保护用户和维护互联网的健康生态。

在传统的机器学习或深度学习算法中，都倾向于赋予词汇一个数值或向量，让计算机得以理解文本信息的含义。但在词汇的向量化表示过程中，通常只考虑了各个词汇的独立向量，而忽略了它们在文本信息和句子中的上下文关系。这可能导致模型对于具体词汇的含义和用法无法进行全面理解，从而导致了分类的困难。

综上所述，本发明提出一种数据服务智能识别系统，通过对文本信息中的各语句内、各语句间的关系以及文本信息整体的特征进行分析，从而通过神经网络构建数据风险识别模型，完成数据服务智能识别。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种数据服务智能识别系统，所采用的技术方案具体如下：

本发明提出了基于一种数据服务智能识别系统，所述系统包括：

数据采集模块：根据历史文本数据构建常用词汇字典，根据人为标定风险词汇构建风险词汇字典；根据常用词汇字典构建模板词汇组；

数据分析模块：对本文信息采用断句操作、双向最大匹配算法以及去停用词操作得到各语句各词汇；根据模板词汇组获取各语句的语句向量；根据语句及上下语句之间的风险词汇得到语句的语句风险上下文特征；根据语句中的风险词汇得到语句的风险语句词频集中系数；根据文本信息中风险词汇的分布得到文本风险语句分散系数；根据文本风险语句分散系数以及语句的风险语句词频集中系数得到语句的语句风险频率特征；

根据语句的语句向量、语句风险上下文特征以及语句风险频率特征得到语句的语句修正向量；采用词嵌入技术获取文本信息中各词汇的词汇向量；将文本信息中所有语句的语句修正向量以及所有词汇的词汇向量组成文本信息向量；

模型训练及识别模块：基于文本信息向量使用神经网络构建数据风险识别模型，完成数据服务智能识别。

优选的，所述根据常用词汇字典构建模板词汇组，包括：

将常用词汇字典中出现频率最高的前n个词汇记为模板词汇，将n个模板词汇组成模板词汇组，其中，n为预设数量。

优选的，所述根据模板词汇组获取各语句的语句向量，包括：

将语句中的词汇按照模板词汇组映射得到长度为n的语句向量。

优选的，所述根据语句及上下语句之间的风险词汇得到语句的语句风险上下文特征，包括：

获取语句中风险词汇的数量；

获取语句的上一句、下一句中风险词汇的数量之和，将所述数量之和作为以自然常数为底数的对数函数的对数；将所述数量与所述对数函数的乘积作为语句的语句风险上下文特征。

优选的，所述根据语句中的风险词汇得到语句的风险语句词频集中系数，包括：

获取语句中风险词汇的数量；获取文本信息中所有语句的风险词汇总数；将所述数量与所述风险词汇总数的比值作为语句的风险语句词频集中系数。

优选的，所述根据文本信息中风险词汇的分布得到文本风险语句分散系数，包括：

获取文本信息中出现风险词汇的语句数量；将所述语句数量与文本信息中的语句总数的比值作为以自然常数为底数的对数函数的对数；将对数函数的绝对值的倒数作为文本风险语句分散系数。

优选的，所述根据文本风险语句分散系数以及语句的风险语句词频集中系数得到语句的语句风险频率特征，包括：

将文本风险语句分散系数与语句的风险语句词频集中系数的乘积作为语句的语句风险频率特征。

优选的，所述根据语句的语句向量、语句风险上下文特征以及语句风险频率特征得到语句的语句修正向量，包括：

将语句的语句向量与语句风险上下文特征以及语句风险频率特征共同组成语句的语句修正向量。

优选的，所述将文本信息中所有语句的语句修正向量以及所有词汇的词汇向量组成文本信息向量，包括：

设置最大长度阈值，其中最大长度阈值大于文本信息中的语句数量；

当语句数量与词汇数量之和等于最大长度阈值时，将所有语句的语句修正向量以及所有词汇的词汇向量作为文本信息向量各元素；

当语句数量与词汇数量之和小于最大长度阈值时，将所有语句的语句修正向量以及所有词汇的词汇向量作为文本信息向量各元素，文本信息向量剩余元素填充为0；

当语句数量与词汇数量之和大于最大长度阈值时，将所有语句的语句修正向量作为文本信息向量各元素，将文本信息向量剩余元素填充为词汇中随机的词汇向量。

优选的，所述基于文本信息向量使用神经网络构建数据风险识别模型，包括：

将训练集数据的文本信息向量作为LSTM神经网络的输入，将LSTM神经网络的输出结果接入全连接神经网络，使用交叉熵损失函数和Adam优化算法对神经网络进行训练，得到数据风险识别模型，模型输出为数据风险类型，所述数据风险类型为有风险内容和无风险内容。

本发明至少具有如下有益效果：

本发明通过统计前n个出现频率较高的词汇作为模板词汇组，用于评价文本信息中各语句出现模板词汇组中的词汇的情况，从而奠定数据识别的基础信息；通过分析各语句在文本信息中上下文的关系，有效排除不能代表该语句为风险语句的情况，从而使得识别结果更加精确；

根据各语句中出现风险词汇的数量对于整体文本信息中风险词汇的占比得到各语句的风险语句词频集中系数，同时结合文本信息整体的风险语句的分散程度影响各语句的风险情况，更全面分析了文本信息整体为风险信息的偏向性，从整体和局部的角度共同评价各语句的风险频率特征；

本发明根据各语句的语句向量、语句风险上下文特征以及语句风险频率特征得到各语句的语句修正向量，同时结合文本信息中各词汇的词汇向量构建文本信息向量，将大量训练集数据的文本信息向量输入到神经网络，能够加速网络模型的学习过程，更快拟合文本信息中的内容特征，从而对数据进行更准确的智能识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种数据服务智能识别系统的流程图；

图2为文本信息向量中的组成细节示意图；

图3为文本信息向量的提取示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种数据服务智能识别系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种数据服务智能识别系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种数据服务智能识别系统的流程图，该系统包括：数据采集模块101、数据分析模块102、模型训练及识别模块103。

数据采集模块101，根据历史文本数据构建常用词汇字典、风险词汇字典以及模板词汇组。

根据历史文本数据构建常用词汇字典C，常用词汇字典C中包含所有的词汇。根据人为标定历史文本数据中出现的风险词汇信息构建风险词汇字典F，风险词汇字典F中包含所有的风险词汇。其中，常用词汇字典C包含风险词汇字典F，，即字典F是字典C的子集。

同时，在历史文本数据中统计其出现频率最高的前n个常用词汇记作模板词汇，这n个模板词汇为常用词汇字典中频率最高的前n个词汇，将n个模板词汇组成模板词汇组。其中，本实施例将n设定为98，实施者可自行设定。

至此，可通过上述方法获取常用词汇字典、风险词汇字典以及模板词汇组，便于接下来对文本信息进一步分析。

数据分析模块102，根据常用词汇字典、风险词汇字典以及模板词汇组对文本信息进行分析，构建文本信息向量。

为了便于识别文本信息中的敏感词汇，首先需要将文本信息中的大写英文字母转为小写，同时去除文本信息中的数字，将文本信息中的逗号、句号、引号、问号和叹号都作为一句话的结尾，同时去除文本信息中的停用词。

将文本信息中的第i个语句记为，语句总数为/>。设常用词汇字典C中的最大单词长度为/>，前向最大匹配算法首先在文本信息开始的第/>个位置进行分词，匹配/>之前的词语颗粒是否在常用词汇字典内，若不在则减小搜索长度，查找/>之前的词语颗粒是否在字典中。逆向最大匹配算法与前向最大匹配算法原理相同，综合前向、逆向最大匹配算法，使用双向最大匹配算法进行分词得到文本信息中的词汇，其中，前向最大匹配算法和逆向最大匹配算法均为公知技术，本实施例不再赘述。若分词后某个词汇在风险词汇字典F中，则认定该词汇为风险词汇。

经上述处理后，将文本信息分成各语句各词汇。将每个语句作为一个单元，假设文本信息中存在Q个语句，m个风险词汇。

传统的词袋模型会将一个语句抽象为一个多维的特征，维度具体数字的意义为在该句子中某词汇出现的次数。但是用这种词袋模型表征词汇的特征较为单一，不能完整表述句子中风险词汇的特点。

在本实施例中，将文本信息中的每个语句根据模板词汇组映射到n维。例如：当n=3时，出现频率最高的三个词语为“我”、“你”和“中国”。则语句“我拿我的快递”的向量表示为（2,0,0），其中，词汇“你”和词汇“中国”并未在语句中出现。对于第j个语句进行上述的向量化过程得到的结果记为第j个语句的语句向量，语句向量的长度为模板词汇组的长度n。

由于传统的词袋模型忽略了文本的语法和语序，只是简单无序地将词汇的向量化表示出来。考虑到风险词汇的存在，根据该语句上下文语句内的风险词汇，定义该语句的语句风险上下文特征：

式中，表示第j个语句的语句风险上下文特征，/>表示以自然常数e为底数的对数函数，/>表示第j个语句中风险词汇在前后语句之间的上下文关系，/>、/>、/>分别为第j-1个、第j个、第j+1个语句中风险词汇的数量。

特别说明，当j=1时，第一个语句无前语句，此时设置，同理，最后一个语句设置/>。若语句j中风险词汇的数量/>为0，则该语句的语句风险上下文特征/>只受到该语句的上下语句中风险词汇的数量，上下语句中风险词汇的数量越多，则/>越大，表示该语句的语句风险上下文特征越明显。若语句j中存在风险词汇，而语句j的上下语句中均不存在风险词汇，即/>为0，进而语句风险上下文特征/>只受到该语句中风险词汇数量的影响，该语句中的风险词汇数量越多，则说明该语句的语句风险上下文特征越明显。只有连续两个及以上的句子均出现风险词汇时，语句风险上下文特征/>才会有较为明显的差别，即单个风险词汇的出现并不能准确代表文本信息存在风险信息。

除了各语句在本文信息中的上下文关系，还需要考虑到各语句中的风险词汇在整个文本信息中的比重因素，在词频方面，对文本信息中的每个语句定义风险语句词频集中系数：

式中，表示第j个语句的风险语句词频集中系数，/>表示风险词汇在第j个语句中数量，/>表示文本信息中的风险词汇总数。

风险语句词频集中系数体现了风险词汇在该语句的集中情况，极端情况下，若风险词汇全部集中于一个语句中，则该语句的风险语句词频集中系数为1，则该语句的风险越大，出现敏感词汇的可能性越大。

针对文本信息中每个语句中的风险词汇分布情况进行分析后，还需要在整体层面分析风险词汇所在的风险语句在文本信息中的分散情况，如果风险语句越分散，则对该语句中的风险词汇的集中情况影响越大，基于此，构建文本信息的文本风险语句分散系数：

式中，为文本风险语句分散系数，/>表示文本信息中含有风险词汇的语句数量，/>为文本信息中的语句总数，/>表示以自然常数e为底数的对数函数，/>为修正系数，防止出现分母为零的情况，本实施例设定经验值为0.2，实施者可自行设定。

风险词汇越集中分布，越小，式中/>越大，风险语句频率FC越小，风险语句频率体现了在整个文本信息中风险语句的概率情况，即说明一个语句上下文接触到的风险语句的频率越低，文本信息中只有少部分集中的风险词汇，而并非在文本信息中广泛分布，从而侧面说明了文本信息整体上并不偏向于风险信息。

结合第j个语句的风险语句词频集中系数和文本风险语句分散系数，构建该语句的语句风险频率特征：

式中，为第j个语句的语句风险频率特征，/>为第j个语句的风险语句词频集中系数，/>为文本风险语句分散系数。

语句风险频率特征反应了风险词汇的分布关系，当多个风险词分散出现在多个语句中时，且该语句的风险语句词频集中系数越大的情况下，该语句接触到较为分散的文本信息中的其他风险语句的可能性越大，则该语句的语句风险频率特征越大，即在文本信息整体偏向于风险信息的基础上该语句越可能为风险语句。

至此，可以通过上述方法得到文本信息中各语句的语句向量、语句风险上下文特征以及语句风险频率特征。由于语句向量只能评价文本信息中出现常用词汇的特征，因此，将各语句的语句风险上下文特征以及语句风险频率特征加入到各语句的语句向量中，得到修正后的语句修正向量，其中，由于语句向量为n维向量，则加入两个指标后的语句修正向量为n+2维。

使用词嵌入技术，对文本信息中的每个词汇映射到一个固定维度的实数向量中。其中，将固定维度设置为n+2，得到输出的文本信息中各词汇的词汇向量。其中，词嵌入技术为公知技术，本实施例不再赘述。

由于文本信息的长度不确定，因此使用序列填充或截断，用来消除信息长度不一致的问题。设定文本信息中的词汇数量为X，每个词汇向量的维度K（K=n+2），文本信息中的语句数量为Q，每个语句向量的维度为K。设置最大长度阈值T，且T>Q，为了将文本信息中的语句及词汇的有效数据组成文本信息向量，同时保证对文本信息处理后得到固定维度的文本信息向量，对文本信息向量的组成作以下处理。

其中，文本信息向量中的向量组成分为三种情况：

当时，将所有语句的语句修正向量与所有词汇的词汇向量作为文本信息向量各元素；

当时，将所有语句的语句修正向量与所有词汇的词汇向量作为文本信息向量各元素，将文本信息向量中剩余的/>个元素补充为0，同时将；

当时，将所有语句的语句修正向量作为文本信息向量各元素，获取词汇向量中随机的/>个词汇向量，利用随机获取的词汇向量将文本信息向量剩余的元素填充完整，本实施例中将前/>个词汇向量作为随机获取的词汇向量，实施者可自行设定。

其中，文本信息向量中的组成细节如图2所示，文本信息向量的提取示意图如图3所示。

模型训练及识别模块103，基于文本信息向量通过神经网络构建数据风险识别模型，完成对文本信息的内容风险分类。

准备大量的训练集数据，其中需要包含正常文本信息与风险文本信息。其中，将风险内容的标签设置为1，将正常内容的标签设置为0。文本信息均按上述步骤进行向量化得到各文本信息的文本信息向量。

本实施例定义混合神经网络为LSTM神经网络与全连接神经网络共同组成。其中，将大量的训练集数据的文本信息向量输入到LSTM层，输出128个神经元，然后将128个神经元接入全连接神经网络，同时使用交叉熵损失函数和Adam优化算法对神经网络进行训练，得到数据风险识别模型。模型输出为数据风险类型，用于判断文本信息是否为正常内容或风险内容，数据风险类型包括有风险内容和无风险内容。其中，其中，LSTM神经网络、全连接神经网络以及模型训练构建过程均为公知技术，本实施例不再赘述。

对训练集训练后得到数据风险识别模型，将待预测的文本信息的文本信息向量输入数据风险识别模型，根据输出的两个神经元判断文本内容是否存在风险。

至此，完成数据服务智能识别。

综上所述，本发明实施例提出一种数据服务智能识别系统，通过对文本信息中的各语句内、各语句间的关系以及文本信息整体的特征进行分析，从而通过神经网络构建数据风险识别模型，完成数据服务智能识别。

本发明实施例通过统计前n个出现频率较高的词汇作为模板词汇组，用于评价文本信息中各语句出现模板词汇组中的词汇的情况，从而奠定数据识别的基础信息；通过分析各语句在文本信息中上下文的关系，有效排除不能代表该语句为风险语句的情况，从而使得识别结果更加精确；

本发明实施例根据各语句的语句向量、语句风险上下文特征以及语句风险频率特征得到各语句的语句修正向量，同时结合文本信息中各词汇的词汇向量构建文本信息向量，将大量训练集数据的文本信息向量输入到神经网络，能够加速网络模型的学习过程，更快拟合文本信息中的内容特征，从而对数据进行更准确的智能识别。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据服务智能识别系统，其特征在于，所述系统包括：

模型训练及识别模块：基于文本信息向量使用神经网络构建数据风险识别模型，完成数据服务智能识别；

所述根据语句及上下语句之间的风险词汇得到语句的语句风险上下文特征，包括：获取语句中风险词汇的数量；获取语句的上一句、下一句中风险词汇的数量之和，将所述数量之和作为以自然常数为底数的对数函数的对数；将所述数量与所述对数函数的乘积作为语句的语句风险上下文特征；

根据语句中的风险词汇得到语句的风险语句词频集中系数，包括：获取语句中风险词汇的数量；获取文本信息中所有语句的风险词汇总数；将所述数量与所述风险词汇总数的比值作为语句的风险语句词频集中系数；

所述根据文本信息中风险词汇的分布得到文本风险语句分散系数，包括：获取文本信息中出现风险词汇的语句数量；将所述语句数量与文本信息中的语句总数的比值作为以自然常数为底数的对数函数的对数；将对数函数的绝对值的倒数作为文本风险语句分散系数；

所述根据文本风险语句分散系数以及语句的风险语句词频集中系数得到语句的语句风险频率特征，包括：将文本风险语句分散系数与语句的风险语句词频集中系数的乘积作为语句的语句风险频率特征。

2.如权利要求1所述的一种数据服务智能识别系统，其特征在于，所述根据常用词汇字典构建模板词汇组，包括：

3.如权利要求1所述的一种数据服务智能识别系统，其特征在于，所述根据模板词汇组获取各语句的语句向量，包括：

4.如权利要求1所述的一种数据服务智能识别系统，其特征在于，所述根据语句的语句向量、语句风险上下文特征以及语句风险频率特征得到语句的语句修正向量，包括：

5.如权利要求1所述的一种数据服务智能识别系统，其特征在于，所述将文本信息中所有语句的语句修正向量以及所有词汇的词汇向量组成文本信息向量，包括：

6.如权利要求5所述的一种数据服务智能识别系统，其特征在于，所述基于文本信息向量使用神经网络构建数据风险识别模型，包括：