CN116662585A

CN116662585A - 一种基于校园题库的数字信息检测方法及检测系统

Info

Publication number: CN116662585A
Application number: CN202310919077.8A
Authority: CN
Inventors: 庞华; 魏书桓; 魏文淼
Original assignee: Shaanxi Miaohuazhinao Technology Co ltd
Current assignee: Shaanxi Miaohuazhinao Technology Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-29
Anticipated expiration: 2043-07-26
Also published as: CN116662585B

Abstract

本发明涉及数字信息检测技术领域，具体地说，涉及一种基于校园题库的数字信息检测方法及检测系统。包括采集校园题库的数字信息，通过形式识别算法判断数字信息的形式类型，输出判断结果，将多个单一类型组成融合类型，并分割融合类型成多个单一类型，并采用多源数字信息检测算法依次分析单一类型，筛选出多种形式的敏感信息，将多种单一类型的数字信息均转换为文本，根据分析结果对应的敏感信息关键字定位至文本位置查看，比对文本、音频和图片对应的敏感信息的文本特征，输出相似度高的敏感信息作为分析结果。本发明实现多种形式的数字信息融合检测，提高准确性，且有利于用户快速、直观的查询敏感信息对应的数字信息，提高便捷性。

Description

一种基于校园题库的数字信息检测方法及检测系统

技术领域

本发明涉及数字信息检测技术领域，具体地说，涉及一种基于校园题库的数字信息检测方法及检测系统。

背景技术

目前学生的教育与成绩逐渐成为家庭和社会的关注重点，挑选教学条件优质的学校成为了家长与孩子择校的关键考察因素，随着数字技术的发展，越来越多的院校开始建设自己的数字化系统，数字化教学系统的优劣，成为了新一轮各大院校比拼教学资源的前沿阵地，其中，针对与校园题库的数字信息检测为广泛关注，现有技术中校园题库数字信息检测系统的原理是通过计算机技术对文本、音频、图片等不同形式的数字信息进行自动识别、分析和处理，但是，针对不同形式的数字信息进行检测需要切换不同的系统进行处理，操作不便，同时在进行数字信息检测时，有些数字信息是多种形式融合的，若仅进行单一功能的系统进行检测，影响检测的准确性，并且，不同形式的数字信息不方便进行转换，使用户在查看数字信息时，若形式为音频则不方便直观的定位内容，若形式为图片则不方便用户快速复制，鉴于此，我们提出一种基于校园题库的数字信息检测方法及检测系统。

发明内容

本发明的目的在于提供基于校园题库的数字信息检测方法及检测系统，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供一种基于校园题库的数字信息检测方法，包括如下步骤：

S1、采集校园题库的数字信息；

S2、通过形式识别算法判断数字信息的形式类型，输出判断结果，形式类型包括单一类型和融合类型，单一类型包括文本、音频和图片的形式类型；

S3、若形式类型为单一类型，采集数字信息其他的单一类型，将多个单一类型组成融合类型，并分割融合类型成多个单一类型，并采用多源数字信息检测算法依次分析分割后的多个单一类型，筛选出多种形式的敏感信息；

S4、将多种单一类型的数字信息均转换为文本，根据分析结果对应的敏感信息关键字定位至文本位置查看；

S5、在接收到多种形式的敏感信息后，比对文本、音频和图片对应的敏感信息的文本特征，输出相似度高的敏感信息作为分析结果。

优选的，所述S1中采集校园题库的数字信息采用网络爬虫技术，包括以下步骤：

构建爬虫程序，确定要爬取的目标网页，设置爬虫的起始点和相关参数，使用HTTP请求库发起请求，获取网页的HTML内容，使用HTML解析库解析网页内容，提取校园题库的数字信息作为目标数字信息，据目标数字信息在页面的特定位置或特定的HTML标签，使用CSS选择器来定位目标元素，从解析后的网页内容中提取目标数字信息，可以使用字符串处理和正则表达式等方法进行提取和筛选，将提取到的数字信息存储到合适的数据结构中。

优选的，所述形式识别算法包括以下步骤：

构建形式识别训练集，训练集包括字符形式、声波形式和像素形式，其中，字符形式表示文本形式类型，声波形式表示音频形式类型，像素形式表示图片形式类型；

将数字信息输入到训练集中，输出情况如下：

情况一、识别出数字信息与字符形式特征匹配，则输出文本形式类型的单一类型；

情况二、识别出数字信息与声波形式特征匹配，则输出音频形式类型的单一类型；

情况三、识别出数字信息与像素形式特征匹配，则输出图片形式类型的单一类型；

情况四、识别出数字信息与字符形式、声波形式和像素形式中两个及以上的特征匹配，则输出融合类型。

优选的，所述多源数字信息检测算法包括文本信息检测技术、音频信息检测技术和图片信息检测技术，其中：

所述文本信息检测技术包括以下步骤：

建立敏感词库：构建包含敏感词汇和短语的词典，以便快速识别出敏感信息；

采用中文分词技术对文本进行分词，并通过实体识别技术实体识别，利用统计和机器学习算法生成相关的语言模型；

根据已标注数据训练模型，利用监督学习算法，对每个文本进行分类，自动判断当前文本中是否存在敏感信息，并输出文本形式类型对应数字信息的敏感信息。

优选的，所述音频信息检测技术包括以下步骤：

利用音频转文本技术将音频转换为文本数据，再利用文本信息检测技术对文本数据进行处理和分析，输出音频形式类型对应数字信息的敏感信息。

优选的，所述图片信息检测技术包括以下步骤：

对图片进行噪声去除、二值化和形态学处理的预处理；

采用轮廓特征、形状特征和纹理特征提取数字信息的特征；

根据特征基于深度学习的卷积神经网络模型进行数字信息的识别，输出敏感信息。

优选的，所述多源数字信息检测算法还包括信息加密覆盖技术，所述信息加密覆盖技术用于在识别出的敏感信息位置上，采用数字信息覆盖的方法，以保护用户隐私。

优选的，所述S4中将多种单一类型的数字信息均转换为文本包括将音频转换为文本和将图片转换为文本，其中：

将音频转换为文本采用音频转文本技术；

将图片转换为文本采用光学字符识别算法，包括以下步骤：输入图片形式类型的数字信息，对图片进行预处理，将图像中的字符区域分割出来，获得单个字符的图像片段，对每个字符图像片段进行特征提取，根据特征，使用分类器对每个字符进行分类，将其识别为对应的字符或符号，输出识别结果，即从图像中提取的文本信息。

优选的，所述S5中比对文本、音频和图片对应的敏感信息的文本特征采用神经网络训练算法，包括以下步骤：

构建神经网络模型，将文本、音频和图片对应的敏感信息的文本特征数据输入神经网络模型，计算文本特征之间的相似度，若相似度大于等于预设的阈值点，则输出对应的敏感信息作为分析结果，若相似度小于预设的阈值点，则输出提醒信号，实现在相似度高时，表示无论是通过图片、文本还是音频的形式类型表达的敏感信息内容相似，则敏感信息更准确，若相似度达不到阈值点，则可能是识别错误，或者不对应校园题库的用户，可以发出提醒信号提醒老师进行检查，提高准确性。

本发明的目的之二在于，提供了基于校园题库的数字信息检测系统，包括上述中任意一项所述的基于校园题库的数字信息检测方法，包括包括校园题库采集单元、形式类型判断单元、融合切换单元、文本统一转换单元和对比分析单元；

所述校园题库采集单元用于采集校园题库的数字信息；

所述形式类型判断单元用于通过形式识别算法判断数字信息的形式类型，输出判断结果；

所述融合切换单元用于在形式类型为单一类型时，采集数字信息其他的单一类型，将多个单一类型组成融合类型，并分割融合类型成多个单一类型，并采用多源数字信息检测算法依次分析分割后的多个单一类型，筛选出多种形式的敏感信息；

所述文本统一转换单元用于将多种单一类型的数字信息均转换为文本，根据分析结果对应的敏感信息关键字定位至文本位置查看；

所述对比分析单元用于在接收到多种形式的敏感信息后，比对文本、音频和图片对应的敏感信息的文本特征，输出相似度高的敏感信息作为分析结果。

与现有技术相比，本发明的有益效果：

1、通过对采集的校园题库中的数字信息进行形式类型判断，根据判断结果确定当前数字信息是文本、音频和图片的单一类型，还是有两个及以上的单一类型形成的融合类型，若为单一类型，可以采用多源数字信息检测算法匹配形式类型对应的检测系统进行分析，提高自动化分析效果，若为融合类型，可以先分割数字信息为单一类型，再分别对单一类型进行分析，最后结合多个单一类型对应的敏感信息，比对文本、音频和图片对应的敏感信息特征，输出占比高的敏感信息作为分析结果，实现多种形式的融合对校园题库的数字信息进行检测，提高准确性。

2、通过在用户查看单一类型对应的敏感信息内容时，可以将音频和图片形式的数字信息均转换为文本类型，使用户可以根据敏感信息的关键字定位至文本的位置，有利于用户快速、直观的查询敏感信息对应的数字信息，提高便捷性。

附图说明

图1为实施例1的整体流程框图；

图2为实施例1的形式识别算法流程图；

图3为实施例1的多源数字信息检测算法原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前学生的教育与成绩逐渐成为家庭和社会的关注重点，挑选教学条件优质的学校成为了家长与孩子择校的关键考察因素，随着数字技术的发展，越来越多的院校开始建设自己的数字化系统，数字化教学系统的优劣，成为了新一轮各大院校比拼教学资源的前沿阵地，其中，针对与校园题库的数字信息检测为广泛关注，现有技术中校园题库数字信息检测系统的原理是通过计算机技术对文本、音频、图片等不同形式的数字信息进行自动识别、分析和处理；

如图1-图3示出本发明的第一实施例，本发明的目的之一在于，提供了一种基于校园题库的数字信息检测方法，包括如下步骤：

S1、采集校园题库的数字信息；

所述S1中采集校园题库的数字信息采用网络爬虫技术，包括以下步骤：

构建爬虫程序，确定要爬取的目标网页，设置爬虫的起始点和相关参数，使用HTTP请求库（如Python的requests库）发起请求，获取网页的HTML内容，使用HTML解析库（如Python的BeautifulSoup库）解析网页内容，提取校园题库的数字信息作为目标数字信息，据目标数字信息在页面的特定位置或特定的HTML标签，使用CSS选择器来定位目标元素，从解析后的网页内容中提取目标数字信息，可以使用字符串处理和正则表达式等方法进行提取和筛选，将提取到的数字信息存储到合适的数据结构中，如数据库、文本文件或Excel表格等，如果校园题库的信息分布在多个页面上，可以通过提取链接（如<a>标签）来获取其他页面的链接，并按照相同的流程继续爬取，控制访问频率：为避免对目标网站造成过大的访问压力，应注意设置合适的爬取间隔，遵守网站的访问规则（如robots.txt）。

值得说明的，所述形式识别算法包括以下步骤：

将数字信息输入到训练集中，输出情况如下：

情况四、识别出数字信息与字符形式、声波形式和像素形式中两个及以上的特征匹配，则输出融合类型；

原理：文本形式类型一般会以字符或字符串的形式呈现，可以通过查看文件的扩展名来初步确定，例如，txt、doc、pdf等文件扩展名通常表示文本数据，此外，文本数据具有一定的结构性，包括段落、句子和词语等组成要素；

音频形式类型看起来通常是声波的形式，可以通过查看文件的扩展名来初步确定，例如，mp3、wav、flac等文件扩展名通常表示音频数据，另外，音频数据通常包含声音的波形、频谱和时域特征，不同的音频格式表示不同的编码方式；

图片形式类型一般是由像素点组成的二维矩阵或三维张量，可以通过查看文件的扩展名来初步确定，例如，jpg、png、bmp等文件扩展名通常表示图片数据，此外，图片数据具有色彩和空间的信息，通常包括各种图像特征，如颜色、纹理和形状等。

具体的，所述音频信息检测技术包括以下步骤：

利用音频转文本技术将音频转换为文本数据，再利用文本信息检测技术对文本数据进行处理和分析，输出音频形式类型对应数字信息的敏感信息；其中：音频转文本技术是利用在线听力考试中的录音数据，可以通过网络语音识别技术将语音数据转换为文本数据，以方便后续对数字信息进行识别和检测，常用的语音识别技术包括：基于HMM和GMM的语音识别技术，以及基于深度学习算法的端到端语音识别技术。

此外，所述图片信息检测技术包括以下步骤：

对图片进行噪声去除、二值化和形态学处理的预处理，其中，去除噪声是使用滤波器等技术去除图像中的噪声；将图片进行二值化处理，将像素值转换为0或1，以便区分数字信息和背景，形态学处理是使用腐蚀和膨胀等形态学处理方法，消除数字信息之间的干扰；

采用轮廓特征、形状特征和纹理特征提取数字信息的特征，在提取特征时，轮廓特征是利用边缘检测算法，提取图像轮廓信息作为数字信息的特征，形状特征是利用形态学处理和边缘检测算法，提取数字信息的形状信息作为特征，纹理特征是利用纹理分析算法，对数字信息的纹理信息进行提取，作为特征；

根据特征基于深度学习的卷积神经网络模型进行数字信息的识别，输出敏感信息，对于提取后的特征信息，可以采用多种算法进行数字信息识别，包括：基于规则的方法是根据已经定义好的规则，来判断图像中是否包含数字信息，机器学习方法是通过训练样本，训练分类器来判断图像中是否包含数字信息，常用的机器学习算法包括：朴素贝叶斯、支持向量机、决策树等，深度学习方法是使用深度神经网络模型对图像进行处理和建模，以识别数字信息，常用的深度神经网络模型包括：卷积神经网络、循环神经网络等。

S3、若形式类型为单一类型，采集数字信息其他的单一类型，将多个单一类型组成融合类型，并分割融合类型成多个单一类型，并采用多源数字信息检测算法依次分析分割后的多个单一类型，筛选出多种形式的敏感信息，敏感信息包括涉及个人信息、考试答案、违反校规校纪等内容；

进一步的，所述多源数字信息检测算法包括文本信息检测技术、音频信息检测技术和图片信息检测技术，其中：

所述文本信息检测技术包括以下步骤：

采用中文分词技术对文本进行分词，并通过实体识别技术实体识别，利用统计和机器学习算法生成相关的语言模型，中文分词技术可以将中文文本拆分成一个一个的词汇，便于对文本进行分析和处理，具体实现可以采用基于字典的分词算法，通过将一句话分成各个语义片段，并对语义片段进行分类，以辅助计算机区分不同的使用语言途径，目前常用的中文分词算法有：基于规则的算法、基于统计的算法、基于混合的算法等；实体识别技术是将文本中的实体进行自动识别的一种技术，可以识别出人名、地名、机构名等实体信息，具体实现可以采用基于规则的方法或者机器学习的方法，当前，常用的实体识别算法有：基于规则的方法、最大匹配方法、CRF算法、LSTM-CRF模型等；

根据已标注数据训练模型，利用监督学习算法，对每个文本进行分类，自动判断当前文本中是否存在敏感信息，并输出文本形式类型对应数字信息的敏感信息，监督学习算法常用的有：朴素贝叶斯、支持向量机、随机森林、神经网络等。

所述S4中将多种单一类型的数字信息均转换为文本包括将音频转换为文本和将图片转换为文本，其中：

将音频转换为文本采用音频转文本技术；

将图片转换为文本采用光学字符识别算法，包括以下步骤：输入图片形式类型的数字信息，对图片进行预处理，包括调整图像的亮度、对比度和清晰度，去除噪声以及其他图像增强操作，将图像中的字符区域分割出来，获得单个字符的图像片段，对每个字符图像片段进行特征提取，常用的方法包括基于形状、纹理和灰度等特征的提取，根据特征，使用分类器对每个字符进行分类，将其识别为对应的字符或符号，输出识别结果，即从图像中提取的文本信息。

S5、在接收到多种形式的敏感信息后，比对文本、音频和图片对应的敏感信息的文本特征，输出相似度高的敏感信息作为分析结果，以提高数字信息的检测准确率和效率。

所述S5中比对文本、音频和图片对应的敏感信息的文本特征采用神经网络训练算法，包括以下步骤：

构建神经网络模型，将文本、音频和图片对应的敏感信息的文本特征数据输入神经网络模型，计算文本特征之间的相似度，若相似度大于等于预设的阈值点，则输出对应的敏感信息作为分析结果，若相似度小于预设的阈值点，则输出提醒信号，实现在相似度高时，表示无论是通过图片、文本还是音频的形式类型表达的敏感信息内容相似，则敏感信息更准确，若相似度达不到阈值点，则可能是识别错误，或者不对应校园题库的用户，可以发出提醒信号提醒老师进行检查，提高准确性；

详细阐述原理如下：

数据准备：准备一组带有标签的句子对数据集，标签指示每对句子是否相似，对数据集进行分割，划分为训练集、验证集和测试集；

模型定义：定义神经网络模型结构，通常包括嵌入层、共享神经网络层、相似度计算层等，嵌入层将输入的句子转换成低维向量表示，可以使用词嵌入模型（如Word2Vec、GloVe等）或者自己训练的嵌入层，共享神经网络层是模型的核心，将两个句子分别输入，并提取句子的特征表示，相似度计算层根据两个句子的特征表示计算相似度，可以使用余弦相似度、欧氏距离等度量方法；

训练模型：使用训练集数据输入模型，计算相似度，并与标签进行比较，得到损失函数，使用反向传播算法更新模型的权重，以减小损失函数，重复上述步骤，直到模型收敛或达到预定的训练轮数；

模型评估：使用验证集数据输入模型，计算相似度，并与标签进行比较，得到评估指标（如准确率、精确率、召回率等），根据评估结果，进行模型调整和优化；

模型应用：使用测试集数据输入模型，计算相似度，并根据需要进行特定任务的后续处理，通过训练来学习句子之间的语义相似度关系，从而可以输出文本、音频和图片对应的敏感信息的文本特征对应的文本是否相同。

综上，本发明针对不同形式的数字信息进行检测需要切换不同的系统进行处理，操作不便，同时在进行数字信息检测时，有些数字信息是多种形式融合的，若仅进行单一功能的系统进行检测，影响检测的准确性，因此，通过对采集的校园题库中的数字信息进行形式类型判断，根据判断结果确定当前数字信息是文本、音频和图片的单一类型，还是有两个及以上的单一类型形成的融合类型，若为单一类型，可以采用多源数字信息检测算法匹配形式类型对应的检测系统进行分析，提高自动化分析效果，若为融合类型，可以先分割数字信息为单一类型，再分别对单一类型进行分析，最后结合多个单一类型对应的敏感信息，比对文本、音频和图片对应的敏感信息特征，输出占比高的敏感信息作为分析结果，实现多种形式的融合对校园题库的数字信息进行检测，提高准确性；

并且，不同形式的数字信息不方便进行转换，使用户在查看数字信息时，若形式为音频则不方便直观的定位内容，若形式为图片则不方便用户快速复制，通过在用户查看单一类型对应的敏感信息内容时，可以将音频和图片形式的数字信息均转换为文本类型，使用户可以根据敏感信息的关键字定位至文本的位置，有利于用户快速、直观的查询敏感信息对应的数字信息，提高便捷性。

由于多源数字信息检测算法在输出敏感信息后，易导致他人看到敏感信息，容易出现隐私泄露的情况，因此示出本发明的第二实施例，使所述多源数字信息检测算法还包括信息加密覆盖技术，所述信息加密覆盖技术用于在识别出的敏感信息位置上，采用数字信息覆盖的方法，以保护用户隐私，以提高识别的准确率，具体原理为：为保护用户隐私，可以采用数字信息覆盖的方法来处理敏感信息位置，输入：原始文本数据（包含敏感信息）、敏感信息所在的位置索引、覆盖数字；处理过程：创建一个与原始文本数据相同长度的空字符串或列表，用于存储处理后的文本数据，遍历原始文本数据，对于每个字符或位置，如果该位置是敏感信息的位置，则将覆盖数字替代原始字符，添加到处理后的文本数据中，否则，将原始字符直接添加到处理后的文本数据中；输出：处理后的文本数据，敏感信息位置被覆盖为指定的数字；

例如，假设原始文本数据是："我是银行卡号：1234567890"，敏感信息位置是索引12到21（即银行卡号的位置），指定的覆盖数字是"*"，则处理后的文本数据可以是："我是银行卡号：**********"，这种方法可以在保护用户隐私的同时，确保敏感信息不被直接暴露，提高安全性。

本发明的目的之二在于，提供了基于校园题库的数字信息检测系统，包括上述中任意一项的基于校园题库的数字信息检测方法，包括校园题库采集单元、形式类型判断单元、融合切换单元、文本统一转换单元和对比分析单元；

所述校园题库采集单元用于采集校园题库的数字信息；

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于校园题库的数字信息检测方法，其特征在于：包括如下步骤：

S1、采集校园题库的数字信息；

2.根据权利要求1所述的基于校园题库的数字信息检测方法，其特征在于：所述S1中采集校园题库的数字信息采用网络爬虫技术，包括以下步骤：

构建爬虫程序，确定要爬取的目标网页，设置爬虫的起始点和相关参数，使用HTTP请求库发起请求，获取网页的HTML内容，使用HTML解析库解析网页内容，提取校园题库的数字信息作为目标数字信息，据目标数字信息在页面的特定位置，使用CSS选择器来定位目标元素，从解析后的网页内容中提取目标数字信息。

3.根据权利要求2所述的基于校园题库的数字信息检测方法，其特征在于：所述形式识别算法包括以下步骤：

将数字信息输入到训练集中，输出情况如下：

4.根据权利要求1所述的基于校园题库的数字信息检测方法，其特征在于：所述多源数字信息检测算法包括文本信息检测技术、音频信息检测技术和图片信息检测技术，其中：

所述文本信息检测技术包括以下步骤：

5.根据权利要求4所述的基于校园题库的数字信息检测方法，其特征在于：所述音频信息检测技术包括以下步骤：

6.根据权利要求5所述的基于校园题库的数字信息检测方法，其特征在于：所述图片信息检测技术包括以下步骤：

对图片进行噪声去除、二值化和形态学处理的预处理；

采用轮廓特征、形状特征和纹理特征提取数字信息的特征；

7.根据权利要求6所述的基于校园题库的数字信息检测方法，其特征在于：所述多源数字信息检测算法还包括信息加密覆盖技术，所述信息加密覆盖技术用于在识别出的敏感信息位置上，采用数字信息覆盖的方法，以保护用户隐私。

8.根据权利要求5所述的基于校园题库的数字信息检测方法，其特征在于：所述S4中将多种单一类型的数字信息均转换为文本包括将音频转换为文本和将图片转换为文本，其中：

将音频转换为文本采用音频转文本技术；

9.根据权利要求7所述的基于校园题库的数字信息检测方法，其特征在于：所述S5中比对文本、音频和图片对应的敏感信息的文本特征采用神经网络训练算法，包括以下步骤：

构建神经网络模型，将文本、音频和图片对应的敏感信息的文本特征数据输入神经网络模型，计算文本特征之间的相似度，若相似度大于等于预设的阈值点，则输出对应的敏感信息作为分析结果，若相似度小于预设的阈值点，则输出提醒信号。

10.用于实现基于校园题库的数字信息检测系统，包括权利要求1-9中任意一项所述的基于校园题库的数字信息检测方法，其特征在于：包括校园题库采集单元、形式类型判断单元、融合切换单元、文本统一转换单元和对比分析单元；

所述校园题库采集单元用于采集校园题库的数字信息；