CN116070620A

CN116070620A - 一种基于大数据的信息处理方法及系统

Info

Publication number: CN116070620A
Application number: CN202211728829.4A
Authority: CN
Inventors: 吴锋; 邱宜宁; 沈子雷; 吴金凤; 马俊; 张彪
Original assignee: Xinyang Agriculture and Forestry University
Current assignee: Xinyang Agriculture and Forestry University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-05

Abstract

本发明属于大数据信息技术领域，公开了一种基于大数据的信息处理方法及系统：对待检测文本的语句进行分词获得第二语句集合，使用敏感词库对第二语句集合进行敏感词过滤，获取第一候选敏感语句集合和第三语句集合；计算第一候选敏感语句集合中的语句与敏感语句库中的语句的语句相似度，最大相似度大于等于第一阈值的语句为敏感语句；对第三语句集合中的语句的词素进行重组，使用敏感词库对重组后的语句进行敏感词过滤获得候选敏感语句，计算候选敏感语句与敏感语句库中的语句的语句相似度，最大相似度大于等于TH₁时将语句确定为敏感语句；最大相似度小于TH₁但大于等于TH₂时，交由人工复查。本发明提高了敏感信息的检出率和准确率。

Description

一种基于大数据的信息处理方法及系统

技术领域

本发明属于大数据信息技术领域，具体涉及一种基于大数据的信息处理方法及系统。

背景技术

随着互联网技术的发展，全球数据开始呈现爆炸式的增长，数据量的飞速增长预示着现在已经进入了大数据时代，随着大数据时代的到来，给信息质量的监测和过滤带来严峻的考验。

近年来，社交媒体平台越来越多，用户可以通过各种平台随时随地地发布或看到各种各样的弹幕、评论、文章等，这些文本信息可能包含敏感言论。为了营造健康的网络环境、保障社会安定，及时识别和处理敏感信息以控制文本质量，极其重要。现有的网络监测，通常采用单一的敏感词库识别敏感词，将文本信息与敏感词库进行匹配，从而过滤掉含有敏感信息的文本，包含敏感词的语句不一定就是敏感语句，而未被过滤掉的这部分文本仍然存在敏感风险，由此导致敏感信息检测准确度较低。

因此，提供一种基于大数据的信息处理方法及系统，以提高敏感信息的检出率和准确率，是亟待解决的问题。

发明内容

针对上述提出的技术问题，本发明提供一种基于大数据的信息处理方法及系统。

第一方面，本发明提供了一种基于大数据的信息处理方法，该方法包括：

步骤1、获取目标文本，对目标文本进行预处理获取待检测文本；

步骤2、提取待检测文本数据中的语句，获得语句集合，对语句集合中的语句进行分词获得第二语句集合，使用敏感词库对第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，敏感语句是包含敏感词的语句；

步骤3、提取第一候选敏感语句集合中的第i个候选敏感语句，计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将第i个候选敏感语句确定为待检测文本的敏感语句；

步骤4、基于语句集合过滤掉第一候选敏感语句集合中的敏感语句，获得第三语句集合；

步骤5、以词素为单位对第三语句集合中的语句进行分词获得第四语句集合，获取第四语句集合中的第j个语句，将第j个语句中的词素重组成N个新语句，使用敏感词库对N个新语句进行敏感词过滤，获取第j个候选敏感语句，计算第j个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₂满足SIM₂≥TH₁时，将第j个语句确定为待检测文本的敏感语句；当最大相似度SIM₂满足TH₂≤SIM₂＜TH₁时，将第j个语句交由人工复查，确定第j个语句是否为敏感语句。

具体地，步骤1中，预处理包括：目标文本包含字母、文字和表情符号；

将英文字符翻译为第一中文字符，将汉语拼音缩写扩展为第二中文字符，将表情符号转化为表情文本；

将第一中文字符、第二中文字符、文字和表情文本作为待检测文本。

具体地，将汉语拼音缩写扩展为第二中文字符包括：

步骤11、获取包含汉语拼音缩写的第一文字信息，通过网络词库识别汉语拼音缩写的候选中文字符，生成候选中文字符集；

步骤12、从目标文本中提取包含第一文字信息的第一文字序列；

步骤13、将候选中文字符集和第一文字序列输入第一训练模型中进行学习，获得学习结果，学习结果为符合语义的第二中文字符。

具体地，计算语句相似度的步骤包括：

步骤21、从敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句；

步骤22、提取候选敏感语句的第一关键词，生成第一关键词的第一词向量，基于第一词向量生成候选敏感语句的句子向量；

步骤23、提取第k个敏感语句的第二关键词，生成第二关键词的第二词向量，基于第二词向量生成第k个敏感语句的句子向量；

步骤24、基于候选敏感语句的句子向量和第k个敏感语句的句子向量计算候选敏感语句与第k个敏感语句的相似度；

其中，句子向量的计算公式为：Sem为句子向量，p为关键词的数量，Wem_x为第x个关键词的词向量。

具体地，步骤5中，将第j个语句中的词素重组成N个新语句具体包括如下步骤：

步骤51、提取第j个语句中的词素，判断词素中是否包含别词，若包含，则进入步骤52，若不包含，则进入步骤53，别词为未包含在组句词典中的词；

步骤52、将别词之前的词素输入到第二训练模型，获取第二训练模型输出的单词中出现概率高于预设值A的A1个单词，将A1个单词作为别词的候选单词，使用候选单词替换词素中的别词，生成A1组新词素，其中，第二训练模型为对输入的词素输出要组句的下一个组句单词和组句单词的出现概率；

步骤53、将要组句的词素输入到组句训练模型生成B1个第一新语句，分别计算B1个第一新语句的句子似然值，当句子似然值高于预设值B时将第一新语句作为候选新语句，其中，组句训练模型为对输入的词素输出句子和句子中每个词素的出现概率，句子似然值为句子中每个词素的出现概率的乘积；

步骤54、若候选新语句中包含候选单词，则使用别词替换候选单词生成新语句。

具体地，对待处理文本中的敏感语句进行标记，可视化显示敏感语句和标记。

第二方面，本发明还提供了一种基于大数据的信息处理系统，该系统包括：

文本处理模块，用于获取目标文本，对目标文本进行预处理获取待检测文本，提取待检测文本数据中的语句，获得语句集合，对语句集合中的语句进行分词获得第二语句集合；

第一敏感词过滤模块，使用敏感词库对第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，基于语句集合过滤掉第一候选敏感语句集合中的敏感语句，获得第三语句集合，敏感语句是包含敏感词的语句；

第一敏感语句确定模块，用于提取第一候选敏感语句集合中的第i个候选敏感语句，计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将第i个候选敏感语句确定为待检测文本的敏感语句；

第二敏感语句确定模块，以词素为单位对第三语句集合中的语句进行分词获得第四语句集合，获取第四语句集合中的第j个语句，将第j个语句中的词素重组成N个新语句，使用敏感词库对N个新语句进行敏感词过滤，获取第j个候选敏感语句，计算第j个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₂满足SIM₂≥TH₁时，将第j个语句确定为待检测文本的敏感语句；当最大相似度SIM₂满足TH₂≤SIM₂＜TH₁时，将第j个语句交由人工复查，确定第j个语句是否为敏感语句。

具体地，预处理包括：目标文本包含字母、文字和表情符号；

具体地，将汉语拼音缩写扩展为第二中文字符包括：

具体地，计算语句相似度的步骤包括：

步骤24、基于候选敏感语句的句子向量和第k个敏感语句的句子向量计算候选敏感语句与第k个敏感语句的相似度。

与现有技术相比，本发明的有益效果至少如下所述：

1)、本发明对待检测文本中的句子分词后进行敏感词过滤获取候选敏感语句集合，随后再计算候选敏感语句集合中的语句与敏感语句库中的语句的相似度，相似度大于阈值的为敏感语句，提高了敏感语句的检出正确率；

2)、对不包含敏感词的第j个语句进行重新组句，对重组后的语句进行敏感词过滤获取候选敏感语句，随后再计算候选敏感语句集合中的语句与敏感语句库中的语句的相似度，相似度大于等于第二阈值的时第j个语句为敏感语句，相似度小于第二阈值但大于等于第三阈值时将第j个语句交由人工判断。由此可以检出通过在一个句子中添加符号或使用别词规避敏感词的敏感语句，提高敏感语句的检出率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的一种基于大数据的信息处理方法的流程图；

图2为本发明的一种基于大数据的信息处理系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明经行进一步的详细说明。显然，此处所描述的具体实施例仅仅用于解释本发明，是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术普通人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1所示是本发明提供的一种基于大数据的信息处理方法的一个实施例的流程图，该流程图具体包括：

步骤1、获取目标文本，对目标文本进行预处理获取待检测文本。

示例性地，目标文本可以是一句话、一段文字、一篇文章。

具体地，步骤1中，预处理包括：目标文本包含字母、文字和表情符号。

具体地，将汉语拼音缩写扩展为第二中文字符包括：

步骤11、获取包含汉语拼音缩写的第一文字信息，通过网络词库识别汉语拼音缩写的候选中文字符，生成候选中文字符集。

步骤12、从目标文本中提取包含第一文字信息的第一文字序列。

将文字信息出现的时间由长到短的顺序形成文字信息序列，文字序列是两条以上顺序排列的交互文字信息，示例性地，我喜欢吃辣的，我要回家ZF(第一文字信息)。在本实施例的优选方案中，文字序列可为一个对话，文字序列中相邻的两条文字信息具有一定的关联度，可为因果关系，也可为其他例如问答关系，此处对此不作限制。

优选地，第一训练模型为神经网络模型，将候选中文字符集和第一文字序列输入第一训练模型，可以从候选中文字符集中选择出最适合第一文字信息的第二中文字符。以文字序列：我喜欢吃辣的，我要回家ZF(第一文字信息)为例，ZF的候选中文字符集包括：字符、做饭、转发，将候选中文字符集和文字序列输入第一训练模型可以选择出“做饭”做为第二中文字符。

步骤2、提取待检测文本数据中的语句，获得语句集合，对语句集合中的语句进行分词获得第二语句集合，使用敏感词库对第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，敏感语句是包含敏感词的语句。

示例性地，敏感词包括不文明用语、暴力等，也可以是用户自定义的敏感词。

步骤3、提取第一候选敏感语句集合中的第i个候选敏感语句，计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将第i个候选敏感语句确定为待检测文本的敏感语句。

具体地，计算语句相似度的步骤包括：

步骤21、从敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句。

步骤22、提取候选敏感语句的第一关键词，生成第一关键词的第一词向量，基于第一词向量生成候选敏感语句的句子向量。

步骤23、提取第k个敏感语句的第二关键词，生成第二关键词的第二词向量，基于第二词向量生成第k个敏感语句的句子向量。

具体地，第一关键词和第二关键词包含敏感词。

优选地，第一关键词和第二关键词包括1个以上的关键词。

优选地，通过句子向量之间的余弦相似度计算两个句子之间的相似度。

提取敏感语句中的表示句子语义的若干个关键词，基于关键词的词向量计算句子向量，可以从敏感语句库中获取与候选敏感语句语义相似的敏感语句，提高了敏感语句的检出正确率。

步骤4、基于语句集合过滤掉第一候选敏感语句集合中的敏感语句，获得第三语句集合。

其中，词素是组成句子的单位，可以是一个字，也可以是一个词。

步骤51、提取第j个语句中的词素，判断词素中是否包含别词，若包含，则进入步骤52，若不包含，则进入步骤53，别词为未包含在组句词典中的词。

步骤52、将别词之前的词素输入到第二训练模型，获取第二训练模型输出的单词中出现概率高于预设值A的A1个单词，将A1个单词作为别词的候选单词，使用候选单词替换词素中的别词，生成A1组新词素，其中，第二训练模型为对输入的词素输出要组句的下一个组句单词和组句单词的出现概率。

步骤53、将要组句的词素输入到组句训练模型生成B1个第一新语句，分别计算B1个第一新语句的句子似然值，当句子似然值高于预设值B时将第一新语句作为候选新语句，其中，组句训练模型为对输入的词素输出句子和句子中每个词素的出现概率，句子似然值为句子中每个词素的出现概率的乘积。

优选地，第二训练模型和组句训练模型为循环神经网络模型。

以句子中包含别词为例说明本申请的一个实施例的技术方案。包含别词的句子为：我想去※，其中“※”为别词，“我想去※”的词素为我、想、去、※，将“我、想、去”输入第二训练模型，输出多个单词，其中“公司”、“超市”两个单词的出现概率高于预设值，则将“公司”、“超市”做为“※”的候选单词，替换“※”生成两组新词素，即为“我、想、去、公司”、“我、想、去、超市”。通过句子训练模型生成候选新语句后，使用“※”替换候选新语句中的“公司”、“超市”生成新语句。

以句子中不包含别词为例说明本申请的一个实施例的技术方案。不包含别词的句子为：他对我说话总是语(费)重(话)心(连)长(篇)。提取出句子中的词素：他、对、我、说话、总是、语、费、重、话、心、连、长、篇，将上述词素输入到组句训练模型，输出候选新语句SE1为他对我说话总是语重心长，SE2为他对我说话总是废话连篇，SE1的句子似然值为L(SE1)＝p(他)×p(对)×p(我)×p(说话)×p(总是)×p(语)×p(重)×p(心)×p(长)，SE2的句子似然值为L(SE2)＝p(他)×p(对)×p(我)×p(说话)×p(总是)×p(费)×p(话)×p(连)×p(篇)。

在一个句子中添加符号或使用别词规避包含敏感词的敏感语句时，通过句子重组生成新的语句，再根据新生成的语句过滤敏感词、计算包含敏感词的语句与敏感语句库中的敏感语句的相似度，可以提高敏感语句的检出率。

图2所示是本发明提供的一种基于大数据的信息处理方法系统的一个实施例的结构示意图。如图2所示，该系统包括：

文本处理模块，用于获取目标文本，对目标文本进行预处理获取待检测文本，提取待检测文本数据中的语句，获得语句集合，对语句集合中的语句进行分词获得第二语句集合。

第一敏感词过滤模块，使用敏感词库对第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，基于语句集合过滤掉第一候选敏感语句集合中的敏感语句，获得第三语句集合，敏感语句是包含敏感词的语句。

第一敏感语句确定模块，用于提取第一候选敏感语句集合中的第i个候选敏感语句，计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将第i个候选敏感语句确定为待检测文本的敏感语句。

具体地，预处理包括：目标文本包含字母、文字和表情符号。

具体地，将汉语拼音缩写扩展为第二中文字符包括：

具体地，计算语句相似度的步骤包括：

以上上述的实施例仅表达了本发明的实施优选方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据的信息处理方法，其特征在于，包括如下步骤：

步骤1、获取目标文本，对所述目标文本进行预处理获取待检测文本；

步骤2、提取所述待检测文本数据中的语句，获得语句集合，对所述语句集合中的语句进行分词获得第二语句集合，使用敏感词库对所述第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，敏感语句是包含敏感词的语句；

步骤3、提取所述第一候选敏感语句集合中的第i个候选敏感语句，计算所述第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将所述第i个候选敏感语句确定为所述待检测文本的敏感语句；

步骤4、基于所述语句集合过滤掉所述第一候选敏感语句集合中的敏感语句，获得第三语句集合；

步骤5、以词素为单位对所述第三语句集合中的语句进行分词获得第四语句集合，获取所述第四语句集合中的第j个语句，将所述第j个语句中的词素重组成N个新语句，使用所述敏感词库对所述N个新语句进行敏感词过滤，获取第j个候选敏感语句，计算所述第j个候选敏感语句与所述敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₂满足SIM₂≥TH₁时，将所述第j个语句确定为所述待检测文本的敏感语句；当最大相似度SIM₂满足TH₂≤SIM₂＜TH₁时，将所述第j个语句交由人工复查，确定所述第j个语句是否为敏感语句。

2.根据权利要求1所述的一种基于大数据的信息处理方法，其特征在于，所述步骤1中，所述预处理包括：所述目标文本包含字母、文字和表情符号；

将英文字符翻译为第一中文字符，将汉语拼音缩写扩展为第二中文字符，将所述表情符号转化为表情文本；

将所述第一中文字符、所述第二中文字符、所述文字和所述表情文本作为待检测文本。

3.根据权利要求2所述的一种基于大数据的信息处理方法，其特征在于，所述将汉语拼音缩写扩展为第二中文字符包括：

步骤11、获取包含汉语拼音缩写的第一文字信息，通过网络词库识别所述汉语拼音缩写的候选中文字符，生成候选中文字符集；

步骤12、从所述目标文本中提取包含所述第一文字信息的第一文字序列；

步骤13、将所述候选中文字符集和所述第一文字序列输入第一训练模型中进行学习，获得学习结果，所述学习结果为符合语义的第二中文字符。

4.根据权利要求1所述的一种基于大数据的信息处理方法，其特征在于，计算语句相似度的步骤包括：

步骤21、从所述敏感语句库中获取与候选敏感语句具有相同敏感词的M个敏感语句；

步骤22、提取所述候选敏感语句的第一关键词，生成所述第一关键词的第一词向量，基于所述第一词向量生成所述候选敏感语句的句子向量；

步骤23、提取第k个敏感语句的第二关键词，生成所述第二关键词的第二词向量，基于所述第二词向量生成所述第k个敏感语句的句子向量；

步骤24、基于所述候选敏感语句的句子向量和所述第k个敏感语句的句子向量计算所述候选敏感语句与所述第k个敏感语句的相似度；

其中，句子向量的计算公式为：

Sem为句子向量，p为关键词的数量，Wem_x为第x个关键词的词向量。

5.根据权利要求1所述的一种基于大数据的信息处理方法，其特征在于，所述步骤5中，所述将第j个语句中的词素重组成N个新语句具体包括如下步骤：

步骤51、提取所述第j个语句中的词素，判断所述词素中是否包含别词，若包含，则进入步骤52，若不包含，则进入步骤53，所述别词为未包含在组句词典中的词；

步骤52、将所述别词之前的词素输入到第二训练模型，获取所述第二训练模型输出的单词中出现概率高于预设值A的A1个单词，将所述A1个单词作为所述别词的候选单词，使用所述候选单词替换所述词素中的所述别词，生成A1组新词素，其中，所述第二训练模型为对输入的词素输出要组句的下一个组句单词和所述组句单词的出现概率；

步骤53、将要组句的词素输入到组句训练模型生成B1个第一新语句，分别计算所述B1个第一新语句的句子似然值，当所述句子似然值高于预设值B时将所述第一新语句作为候选新语句，其中，所述组句训练模型为对输入的词素输出句子和所述句子中每个词素的出现概率，所述句子似然值为所述句子中每个词素的出现概率的乘积；

步骤54、若所述候选新语句中包含所述候选单词，则使用所述别词替换所述候选单词生成新语句。

6.根据权利要求1所述的一种基于大数据的信息处理方法，其特征在于，对待处理文本中的敏感语句进行标记，可视化显示敏感语句和标记。

7.一种基于大数据的信息处理系统，用于实现如权利要求1-6任一项所述的方法，其特征在于，包括：

文本处理模块，用于获取目标文本，对所述目标文本进行预处理获取待检测文本，提取所述待检测文本数据中的语句，获得语句集合，对所述语句集合中的语句进行分词获得第二语句集合；

第一敏感词过滤模块，使用敏感词库对所述第二语句集合进行敏感词过滤，获取第一候选敏感语句集合，基于所述语句集合过滤掉所述第一候选敏感语句集合中的敏感语句，获得第三语句集合，敏感语句是包含敏感词的语句；

第一敏感语句确定模块，用于提取所述第一候选敏感语句集合中的第i个候选敏感语句，计算所述第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₁大于等于第一阈值TH₁时，将所述第i个候选敏感语句确定为所述待检测文本的敏感语句；

第二敏感语句确定模块，以词素为单位对所述第三语句集合中的语句进行分词获得第四语句集合，获取所述第四语句集合中的第j个语句，将所述第j个语句中的词素重组成N个新语句，使用所述敏感词库对所述N个新语句进行敏感词过滤，获取第j个候选敏感语句，计算所述第j个候选敏感语句与所述敏感语句库中包含相同敏感词的语句的语句相似度，当最大相似度SIM₂满足SIM₂≥TH₁时，将所述第j个语句确定为所述待检测文本的敏感语句；当最大相似度SIM₂满足TH₂≤SIM₂＜TH₁时，将所述第j个语句交由人工复查，确定所述第j个语句是否为敏感语句。

8.根据权利要求7所述的一种基于大数据的信息处理系统，其特征在于，所述预处理包括：所述目标文本包含字母、文字和表情符号；

9.根据权利要求8所述的一种基于大数据的信息处理系统，其特征在于，所述将汉语拼音缩写扩展为第二中文字符包括：

10.根据权利要求7所述的一种基于大数据的信息处理系统，其特征在于，计算语句相似度的步骤包括：

步骤24、基于所述候选敏感语句的句子向量和所述第k个敏感语句的句子向量计算所述候选敏感语句与所述第k个敏感语句的相似度。