CN117370623B

CN117370623B - 一种基于大数据的智慧监督管理方法及系统

Info

Publication number: CN117370623B
Application number: CN202311398701.0A
Authority: CN
Inventors: 刘洪健; 戴建新; 杨佳铭
Original assignee: Zhejiang Jandar Technology Co ltd
Current assignee: Zhejiang Jandar Technology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-04-26
Anticipated expiration: 2043-10-26
Also published as: CN117370623A

Abstract

本发明涉及分布式文件系统技术领域，具体涉及一种基于大数据的智慧监督管理方法及系统，包括：通过针对文本信息的自适应降维的方法，对采集的文本信息进行分段处理，通过得到的目标字符串获取文本信息之间的文本相似性，将文本相似性高的文本信息构建为文本矩阵，分解文本矩阵后通过对稀疏矩阵中每一列对应的稀疏向量进行特征值提取，根据特征值的大小进而对文本信息进行降维处理获得新文本矩阵。本发明避免了案情信息和法规信息中的冗余信息对案情信息和法规信息的匹配过程造成的干扰，导致匹配结果不准确的缺点，提高了案情信息和法规信息匹配结果的准确性，进而实现对案情信息数据更加准确的智慧监督管理。

Description

一种基于大数据的智慧监督管理方法及系统

技术领域

本发明涉及分布式文件系统技术领域，具体涉及一种基于大数据的智慧监督管理方法及系统。

背景技术

通过基于大数据的智慧监督管理方法及系统，可以有效地提高工作效率，降低错误率，更好地实现精细化、个性化的服务。在众多的监督管理领域中，如何准确快速地将案情信息与对应的法律法规进行匹配，一直是一个重要而复杂的问题。

传统的人工检索方式，由于涉及的信息量大、需要人力资源多、效率低等问题，无法满足当前的需求。

在大数据法律监督管理系统中，需要对获取的案情信息数据进行智能研判，通常通过对比案情信息与各个法规信息进行匹配，获取案情信息对应法规条例的智能研判结果，传统的匹配过程是对案情信息与法规信息分别构建文本矩阵，获取两个文本矩阵的相似性，然而由于案情信息以及法规信息存在重复冗余信息，多个名词会在很多法规中频繁出现，但是对应名词后续对应着不同的法规条例，导致出现匹配错误的问题，因此需要减少案情信息和法规信息中的冗余信息，避免对匹配过程造成的影响。

发明内容

本发明提供一种基于大数据的智慧监督管理方法及系统，以解决现有的问题。

本发明的一种基于大数据的智慧监督管理方法及系统采用如下技术方案：

本发明一个实施例提供了一种基于大数据的智慧监督管理方法，该方法包括以下步骤：

获取案情信息数据以及法律法规数据，将案情信息数据中的任意一件案情记为一个案情文本信息，将法律法规数据中的任意一个法条记为一个法律文本信息，将案情文本信息和法律文本信息统称为文本信息，任意文本信息中包含若干个字符；

获取字符以及字符组合的频率值，根据字符组合以及对应字符的频率值获得字符组合的局部范围程度，根据局部范围程度的大小获得目标字符串；对任意目标字符串进行转换获得字符向量，根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串，结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数，获得文本信息之间的文本相似度，根据文本相似度的大小获得文本矩阵，所述字符组合为文本信息中任意相邻的两个字符形成的字符串；

对文本矩阵进行分解获得字典矩阵和稀疏矩阵，将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵，结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵，根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值，利用特征值对稀疏向量进行调整获得最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵，所述稀疏向量为稀疏矩阵的列向量；

获取案情信息数据以及法律法规数据中的新文本矩阵并进行存储。

进一步的，所述获取字符以及字符组合的频率值，根据字符组合以及对应字符的频率值获得字符组合的局部范围程度，根据局部范围程度的大小获得目标字符串，包括的具体方法为：

首先，获取任意文本信息中任意一个字符在文本信息中出现的次数，获取文本信息中所包含字符的数量/>，将/>记为对应字符的频率值；将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合，获取字符组合在文本信息中出现次数A2，将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到B2，将/>记为字符组合的频率值；

然后，获取任意文本信息中任意字符组合的局部范围程度，具体计算方法为：

其中，表示字符组合的局部范围程度；/>表示字符组合的第1个字符的频率值，表示字符组合的第2个字符的频率值，/>表示字符组合的频率值；/>表示以自然常数为底数的指数函数；

最后，对于文本信息内任意数量的连续字符，当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时，将所述连续字符形成的字符串记为目标字符串，任意文本信息中包含若干个目标字符串。

进一步的，所述对任意目标字符串进行转换获得字符向量，根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串，包括的具体方法为：

利用Word2Vec模型对任意目标字符串进行处理，获得目标字符串对应的向量记为字符向量；对于任意两个文本信息，将任意一个文本信息记为第一文本信息，将第一文本信息中的任意一个目标字符串记为第一字符串，将另一个文本信息记为第二文本信息，将第二文本信息中的任意目标字符串记为第二字符串，获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值，记为第一字符串的余弦匹配度；获得所有目标字符串的余弦匹配度；当余弦相似度最大时，将对应的第二字符串记为第一字符串的匹配字符串。

进一步的，所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数，获得文本信息之间的文本相似度，包括的具体方法为：

首先，获取匹配字符串在第二文本信息中出现的次数，记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次；

然后，对于第个文本信息与第/>个文本信息，获取两个文本信息之间的文本相似性，具体计算方法为：

其中，表示第/>个文本信息与第/>个文本信息之间的文本相似性；/>表示第/>个文本信息与第/>个文本信息的匹配曲线距离；/>表示第/>个文本信息与第/>个文本信息的匹配相似性；/>表示以自然常数为底数的指数函数；/>表示第/>个文本信息的目标字符串的数量；/>表示第/>个文本信息的目标字符串的数量；/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度，/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度；/>表示第/>个文本信息中所有目标字符串，在第/>个文本信息中对应匹配字符串的最大特殊匹配频次；/>表示第/>个文本信息的第/>个目标字符串，在第/>个文本信息中对应匹配字符串的特殊匹配频次；/>表示第/>个文本信息中所有目标字符串，在第/>个文本信息中对应匹配字符串的最大特殊匹配频次；/>表示第/>个文本信息中的第/>个目标字符串，在第/>个文本信息中对应匹配字符串的特殊匹配频次。

进一步的，所述根据文本相似度的大小获得文本矩阵，包括的具体方法为：

当任意数量的文本信息中，任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值，将所有文本信息形成的集合记为相似文本集合，获取相似文本集合中任意文本信息的所有目标字符串对应字符向量，将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量，构建二维矩阵，二维矩阵的行数为相似文本集合中文本信息的数量，二维矩阵的列数为所有文本向量中元素的最大数量，将任意文本信息的文本向量作为二维矩阵的行向量，当文本向量的列数与二维矩阵的列数不相同时，对文本向量进行补0操作，获得相似文本集合对应的二维矩阵记为文本矩阵。

进一步的，所述匹配曲线距离的具体获取方法为：

对于第个文本信息与第/>个文本信息，构建二维直角坐标系，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标，获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数/>，将目标字符串的匹配字符串的序数记为/>，将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点，获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线，利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。

进一步的，所述对文本矩阵进行分解获得字典矩阵和稀疏矩阵，将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵，结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵，包括的具体方法为：

利用K-SVD分解算法对任意文本矩阵进行分解，得到文本矩阵对应的字典矩阵以及稀疏矩阵，将稀疏矩阵中任意一列稀疏向量置0获得稀疏向量对应的新稀疏矩阵，利用K-SVD分解算法结合字典矩阵以及新稀疏矩阵进行重构，获得新稀疏矩阵对应的重构矩阵。

进一步的，所述根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值，包括的具体方法为：

首先，将文本矩阵或重构矩阵中任意两个行向量形成的组合记为文本组合，获取文本组合中对应两个文本信息之间的文本相似性，一个文本组合对应一个文本相似性；

然后，获取第列稀疏向量的特征值/>，具体计算方法为：

其中，表示第/>列稀疏向量的特征值；/>表示文本矩阵中文本组合的数量；/>表示文本矩阵中第/>个文本组合的文本相似性，/>表示第/>列稀疏向量对应新稀疏矩阵的重构矩阵中第/>个文本组合的文本相似性；/>表示第/>列稀疏向量的文本矩阵变化程度；表示文本矩阵中行向量的数量，/>表示文本矩阵中第/>个行向量对应文本信息所包括目标字符串的数量；/>表示文本矩阵中第/>个行向量对应文本信息中的第/>个目标字符串，与所有行向量对应文本信息中匹配字符串之间余弦匹配度的均值；/>表示第/>个行向量的第/>个目标字符串在文本矩阵以及第/>列稀疏向量对应的重构矩阵中，对应字符向量之间的余弦相似度。

进一步的，所述利用特征值对稀疏向量进行调整获得最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵，包括的具体方法为：

对所有特征值进行线性归一化处理，得到各稀疏向量对应的归一特征值，将各个稀疏向量与对应的归一特征值相乘，获得新稀疏向量，将新稀疏向量形成的矩阵记为最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵，并利用K-SVD分解算法进行重构，获得新文本矩阵。

进一步的，一种基于大数据的智慧监督管理系统，所述系统为Hadoop分布式文件系统，系统包括存储服务器、处理器以及可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种基于大数据的智慧监督管理方法的步骤，获得新文本矩阵并存储在存储服务器中。

本发明的技术方案的有益效果是：通过针对文本信息的自适应降维的方法，对采集的文本信息进行分段处理，通过获取目标字符串获取文本信息之间的文本相似性，将文本相似性高的同一类文本信息构建为文本矩阵，分解文本矩阵后通过对稀疏矩阵中每一列对应的稀疏向量进行特征值提取，并根据特征值的大小进而实现对文本信息的自适应降维处理，避免了案情信息和法规信息中的冗余信息对案情信息和法规信息的匹配过程造成的干扰，导致匹配结果不准确的缺点，提高了案情信息和法规信息匹配结果的准确性，进而实现对案情信息数据更加准确的智慧监督管理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于大数据的智慧监督管理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的智慧监督管理方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于大数据的智慧监督管理方法及系统的具体方案。

本发明一个实施例提供的一种基于大数据的智慧监督管理系统，该系统为Hadoop分布式文件系统，系统包括存储服务器、处理器以及可在处理器上运行的计算机程序，处理器用来执行计算机程序时实现一种基于大数据的智慧监督管理方法所对应的各个步骤，这些步骤通过将案情信息数据和法律法规数据进行降维处理，得到对应的新文本矩阵，所述存储服务器用来存储案情信息数据和法律法规数据对应的新文本矩阵，所述新文本矩阵保证了在尽可能少的损失文本信息的前提下，更大程度地减少了在存储服务器中所占用的存储空间，通过降维处理避免了案情信息数据和法律法规数据中的冗余信息对案情信息和法规信息进行匹配过程造成的干扰，进一步的提高了利用新文本矩阵之间的相似性对案情信息和法律法规进行匹配时的准确性，提高了对数据进行分布式存储管理时的监督管理效率。

请参阅图1，其示出了本发明一个实施例提供的一种基于大数据的智慧监督管理方法的步骤流程图。

进一步的，一种基于大数据的智慧监督管理方法包括以下步骤：

步骤S001：获取案情信息数据以及法律法规数据。

具体的，为了实现本实施例提出的一种基于大数据的智慧监督管理方法，首先需要采集案情信息数据以及法律法规数据，具体过程为：

通过大数据法律监督平台来采集案情信息数据以及法律法规数据，将案情信息数据中的任意一件案情记为一个案情文本信息，将法律法规数据中的任意一个法条记为一个法律文本信息，将案情文本信息和法律文本信息统称为文本信息，任意文本信息中包含若干个字符。

需要说明的是，所述大数据法律监督平台是基于大数据技术，对司法领域的数据进行整合分析的数字平台，大数据法律监督平台通过在司法数据库或公开法律文件中获取各类法律数据，并进行数据处理和分析。

需要说明的是，案情信息数据通过司法数据库的案情分析报告中获取，法律法规数据通过公开法律文件中获取。

至此，通过上述方法得到案情信息数据以及法律法规数据。

步骤S002：根据字符的频率值获得目标字符串，对目标字符串进行转换获得字符向量，结合字符向量的余弦相似度获得文本信息之间的文本相似度，进一步获得文本矩阵。

需要说明的是，在大数据法律监督平台中，需要将案情信息数据与各个法律法规数据进行匹配，获取对应的智能研判结果，在常规的匹配过程中，通过对案情信息数据以及法律法规数据构建文本矩阵，并计算两个文本矩阵的相似性进行匹配，然而由于案情信息数据以及法律法规数据存在重复冗余信息，例如法规含有很多相同的名词在多个法规中出现，但是该名词具体对应着不同的法规信息，因此在获取文本矩阵之间的相似性时，需要对文本矩阵进行降维处理，提取文本矩阵的关键信息，然后进行对比分析以避免冗余信息的干扰。

需要说明的是，对于案情信息和法规信息来说，在同一类的文本信息之间可以获取其公共特征来进行降维，以达到提取关键的文本信息的目的，在分类的过程中，由于部分文本信息之间存在关联，例如部分文本信息往往是一同出现的，因此在计算文本之间的相似性的情况时，需要对所述文本信息一同进行分析，并进行局部范围分段处理，获取文本信息在局部范围内的相似性，进而来构建文本矩阵。

具体的，步骤（1），首先，获取任意文本信息中任意一个字符在文本信息中出现的次数，获取文本信息中所包含字符的数量/>，将/>记为对应字符的频率值；将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合，获取字符组合在文本信息中出现次数A2，将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到B2，将/>记为字符组合的频率值。

其中，表示字符组合的局部范围程度；/>表示字符组合的第1个字符的频率值，表示字符组合的第2个字符的频率值，/>表示字符组合的频率值；/>表示以自然常数为底数的指数函数。

需要说明的是，字符组合的局部范围程度反映了字符组合的第1个字符和第2个字符属于同一个局部范围内的可能性，局部范围程度的可能性越大，表示第1个字符和第2个字符属于同一个局部范围内的可能性就越大；字符组合的频率值表示字符组合的两个字符联合分布情况，字符组合的频率值越大，表明字符组合中的两个字符形成的组合在与分别包含两个字符相关的组合中出现的频率较大，则所述两个字符形成的组合属于同一个局部范围的可能性越大；其中表示两个字符在文本信息整体上的频率分布特征，频率分布特征的值越大，表明两个字符在文本信息的整体上的频率分布特征上基本相同，则将对应字符组合的频率值相应程度的放大。

需要说明的是，根据经验预设局部范围程度阈值，可根据实际情况进行调整，本实施例不进行具体限定。

步骤（2），首先，利用Word2Vec模型对任意目标字符串进行处理，获得目标字符串对应的向量记为字符向量；对于任意两个文本信息，将任意一个文本信息记为第一文本信息，将第一文本信息中的任意一个目标字符串记为第一字符串，将另一个文本信息记为第二文本信息，将第二文本信息中的任意目标字符串记为第二字符串，获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值，记为第一字符串的余弦匹配度；获得所有目标字符串的余弦匹配度；当余弦相似度最大时，将对应的第二字符串记为第一字符串的匹配字符串，获取匹配字符串在第二文本信息中出现的次数，记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次。

所述匹配曲线距离的具体获取方法为：对于第个文本信息与第/>个文本信息，构建二维直角坐标系，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标，获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数/>，将目标字符串的匹配字符串的序数记为/>，将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点，获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线，利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。

需要说明的是，DTW距离越大，表明两个匹配曲线的差异越大，也即匹配相似性的差异权重值越小，对应两个文本信息越不相似。

需要说明的是，DTW（Dynamic Time Warping）算法的中文名称为动态时间规整算法，由于DTW算法为现有的测量两个序列之间相似度的算法，因此本实施例不进行赘述。

最后，当任意数量的文本信息中，任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值，将所有文本信息形成的集合记为相似文本集合，获取相似文本集合中任意文本信息的所有目标字符串对应字符向量，将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量，构建二维矩阵，二维矩阵的行数为相似文本集合中文本信息的数量，二维矩阵的列数为所有文本向量中元素的最大数量，将任意文本信息的文本向量作为二维矩阵的行向量，当文本向量的列数与二维矩阵的列数不相同时，对文本向量进行补0操作，获得相似文本集合对应的二维矩阵记为文本矩阵。

需要说明的是，例如文本信息有字符向量分别为、/>、/>，则文本信息的文本向量为/>。

需要说明的是，根据经验预设文本相似性阈值为，可根据实际情况进行调整，本实施例不进行具体限定。

需要说明的是，构建的文本矩阵中每一行表征为一个文本信息，此整个文本矩阵表征得到为同一类的文本信息。

需要说明的是，本实施例提出一种自适应降维的方法，在基于K-SVD分解重构方法的基础上，对采集的文本信息进行局部范围分段处理，通过获取的局部范围来计算文本信息之间的相似性，进而对文本信息进行分类处理，根据同一类中文本信息来构建文本矩阵。在K-SVD分解文本矩阵后，通过对稀疏矩阵种每一列稀疏向量进行特征值的提取，并根据特征值的大小可以实现文本矩阵的K-SVD重构。

至此，通过上述方法得到若干文本矩阵。

步骤S003：对文本矩阵进行分解获得字典矩阵和稀疏矩阵，将稀疏矩阵重置并结合字典矩阵进行重构获得重构矩阵，根据稀疏矩阵和重构矩阵获得最终稀疏矩阵，对字典矩阵和最终稀疏矩阵重构获得新文本矩阵。

需要说明的是，根据上述步骤，得到同一类的文本信息构建的文本矩阵，对该类的文本矩阵进行降维处理，可以获取到该类文本矩阵的关键信息。通过对文本矩阵进行K-SVD分解处理，得到对应的字典矩阵以及稀疏矩阵，其中字典矩阵中包含有文本矩阵中的共同信息，而稀疏矩阵中包含着字典矩阵中的各种组合方式，因此在K-SVD分解文本矩阵后，通过对稀疏矩阵种每一列稀疏向量进行特征值的提取，并根据特征值的大小可以实现文本矩阵的K-SVD重构。在获取稀疏向量的特征值的过程中，由于不同稀疏向量包含的信息含量不同，若包含有较多的重复信息，则表明该稀疏向量的包含的信息含量较少，则对应的其重构时的特征值就越小。

具体的，步骤（1），首先，利用K-SVD分解算法对任意文本矩阵进行分解，得到文本矩阵对应的字典矩阵以及稀疏矩阵，将稀疏矩阵中任意一列稀疏向量置0获得稀疏向量对应的新稀疏矩阵，利用K-SVD分解算法结合字典矩阵以及新稀疏矩阵进行重构，获得新稀疏矩阵对应的重构矩阵。

需要说明的是，K-SVD（K-means Singular Value Decomposition）的中文名称为奇异值分解算法，由于K-SVD分解算法为现有算法，因此本实施例不进行赘述。

然后，将文本矩阵或重构矩阵中任意两个行向量形成的组合记为文本组合，获取文本组合中对应两个文本信息之间的文本相似性，一个文本组合对应一个文本相似性。

需要说明的是，文本矩阵与重构矩阵中文本组合的数量相同。

最后，将稀疏矩阵中任意一个列向量记为稀疏向量，获取第列稀疏向量的特征值，具体计算方法为：

需要说明的是，本实施例通过对第列稀疏向量进行置0操作，并结合新稀疏矩阵和字典矩阵进行K-SVD重构，得到重构后的文本矩阵，即重构矩阵，通过获取文本矩阵与重构矩阵之间在相同位置下目标字符串对应字符向量的变化程度，进一步获取稀疏向量的文本矩阵变化程度。将目标字符串与匹配字符串对应的余弦匹配度作为对文本矩阵变化程度的影响权重/>，若/>越大，则表明文本矩阵中该目标字符串对应的信息为重复信息，则该目标字符串的影响权重值越小。

需要说明的是，表示通过第/>列稀疏向量置0后，将文本矩阵与重构矩阵中文本组合的文本相似性差异作为文本矩阵变化程度的修正值，通过获取相同文本组合下文本相似性的差异来反映重构结果的变化情况，进而来表征该稀疏向量的信息含量，即对应稀疏向量发生变化后对文本矩阵构成影响的程度，文本相似性的差异越大，则对应稀疏向量的信息含量越高，则对应的需要放大文本矩阵变化程度。

步骤（2），获取所有稀疏向量的特征值，并对所有特征值进行线性归一化处理，得到各稀疏向量对应的归一特征值，将各个稀疏向量与对应的归一特征值相乘，获得新稀疏向量，将新稀疏向量形成的矩阵记为最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵，并利用K-SVD分解算法进行重构，获得新文本矩阵。

需要说明的是，重构后的文本矩阵中包含着关键的文本信息，实现了降维处理，所述重构后的文本矩阵即新文本矩阵，类似此操作，可以对案情信息数据以及法律法规数据中所有文本信息进行重构。

至此，通过上述方法得到新文本矩阵。

步骤S004：获取案情信息数据以及法律法规数据中的新文本矩阵，利用新文本矩阵以及法律法规数据对案情信息数据进行监督管理。

具体的，首先，分别获取案情信息数据以及法律法规数据中所有文本信息对应的若干个新文本矩阵，将案情信息数据中的新文本矩阵记为案情矩阵，将法律法规数据中的新文本矩阵记为法规矩阵，将案情矩阵和法规矩阵存储与存储服务器中。

然后，读取存储服务器中的案情矩阵和法规矩阵，将任意案情矩阵与法规矩阵之间的欧氏距离记为案情矩阵与法规矩阵之间的匹配度，获取与案情矩阵之间的匹配度最大时对应的法规矩阵，则该法规矩阵即为案情矩阵对应案情信息所涉及法律法规的文本矩阵，将对应的法律法规对案情信息进行备注，以对案情信息数据进行管理。

需要说明的是，首先通过将案情信息数据和法律法规数据降维后的案情矩阵和法规矩阵存储于存储服务器中，降低了案情信息数据和法律法规数据在存储服务器中所占用的存储空间；然后，法律领域工作人员在对案情进行研判时，通过获取案情信息数据在存储服务器中对应的案情矩阵以及匹配度最大的法规矩阵，实现对案情的快速研判，提高了法律领域工作人员对案情信息数据的监督管理效率。

通过以上步骤，完成对案情信息数据的监督管理。

需要说明的是，本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内，具体实施时，可替换成具有同样目的的其他模型，本实施例只是以/>模型为例进行叙述，不对其做具体限定，其中/>是指该模型的输入。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的智慧监督管理方法，其特征在于，该方法包括以下步骤：

获取字符以及字符组合的频率值，根据字符组合的频率值以及字符组合中每个字符的频率值获得字符组合的局部范围程度，根据局部范围程度的大小获得目标字符串；对任意目标字符串进行转换获得字符向量，根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串，结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数，获得文本信息之间的文本相似度，根据文本相似度的大小获得文本矩阵，所述字符组合为文本信息中任意相邻的两个字符形成的字符串；

所述获取字符以及字符组合的频率值，根据字符组合的频率值以及字符组合中每个字符的频率值获得字符组合的局部范围程度，根据局部范围程度的大小获得目标字符串，包括的具体方法为：

其中，表示字符组合的局部范围程度；/>表示字符组合的第1个字符的频率值，/>表示字符组合的第2个字符的频率值，/>表示字符组合的频率值；/>表示以自然常数为底数的指数函数；/>表示获取绝对值；

最后，对于文本信息内任意数量的连续字符，当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时，将所述连续字符形成的字符串记为目标字符串，任意文本信息中包含若干个目标字符串；

所述对任意目标字符串进行转换获得字符向量，根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串，包括的具体方法为：

利用Word2Vec模型对任意目标字符串进行处理，获得目标字符串对应的向量记为字符向量；对于任意两个文本信息，将任意一个文本信息记为第一文本信息，将第一文本信息中的任意一个目标字符串记为第一字符串，将另一个文本信息记为第二文本信息，将第二文本信息中的任意目标字符串记为第二字符串，获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值，记为第一字符串的余弦匹配度；获得所有目标字符串的余弦匹配度；当余弦相似度最大时，将对应的第二字符串记为第一字符串的匹配字符串；

所述根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值，包括的具体方法为：

然后，获取第列稀疏向量的特征值/>，具体计算方法为：

其中，表示第/>列稀疏向量的特征值；/>表示文本矩阵中文本组合的数量；/>表示文本矩阵中第/>个文本组合的文本相似性，/>表示第/>列稀疏向量对应新稀疏矩阵的重构矩阵中第/>个文本组合的文本相似性；/>表示第/>列稀疏向量的文本矩阵变化程度；/>表示获取绝对值；/>表示文本矩阵中行向量的数量，/>表示文本矩阵中第/>个行向量对应文本信息所包括目标字符串的数量；/>表示文本矩阵中第/>个行向量对应文本信息中的第/>个目标字符串，与所有行向量对应文本信息中匹配字符串之间余弦匹配度的均值；/>表示第/>个行向量的第/>个目标字符串在文本矩阵以及第/>列稀疏向量对应的重构矩阵中，对应字符向量之间的余弦相似度；

所述利用特征值对稀疏向量进行调整获得最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵，包括的具体方法为：

对所有特征值进行线性归一化处理，得到各稀疏向量对应的归一特征值，将各个稀疏向量与对应的归一特征值相乘，获得新稀疏向量，将新稀疏向量形成的矩阵记为最终稀疏矩阵，结合字典矩阵和最终稀疏矩阵，并利用K-SVD分解算法进行重构，获得新文本矩阵；

2.根据权利要求1所述一种基于大数据的智慧监督管理方法，其特征在于，所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数，获得文本信息之间的文本相似度，包括的具体方法为：

3.根据权利要求1所述一种基于大数据的智慧监督管理方法，其特征在于，所述根据文本相似度的大小获得文本矩阵，包括的具体方法为：

在任意数量的文本信息中，当任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值时，将所有文本信息形成的集合记为相似文本集合，获取相似文本集合中任意文本信息的所有目标字符串对应字符向量，将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量，构建二维矩阵，二维矩阵的行数为相似文本集合中文本信息的数量，二维矩阵的列数为所有文本向量中元素的最大数量，将任意文本信息的文本向量作为二维矩阵的行向量，当文本向量的列数与二维矩阵的列数不相同时，对文本向量进行补0操作，获得相似文本集合对应的二维矩阵记为文本矩阵。

4.根据权利要求2所述一种基于大数据的智慧监督管理方法，其特征在于，所述匹配曲线距离的具体获取方法为：

对于第个文本信息与第/>个文本信息，构建二维直角坐标系，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标，将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标，获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数，将目标字符串的匹配字符串的序数记为/>，将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点，获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线，利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。

5.根据权利要求1所述一种基于大数据的智慧监督管理方法，其特征在于，所述对文本矩阵进行分解获得字典矩阵和稀疏矩阵，将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵，结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵，包括的具体方法为：

6.一种基于大数据的智慧监督管理系统，所述系统为Hadoop分布式文件系统，系统包括存储服务器、处理器以及可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~5任意一项所述一种基于大数据的智慧监督管理方法的步骤，获得新文本矩阵并存储在存储服务器中。