CN117370623B - 一种基于大数据的智慧监督管理方法及系统 - Google Patents

一种基于大数据的智慧监督管理方法及系统 Download PDF

Info

Publication number
CN117370623B
CN117370623B CN202311398701.0A CN202311398701A CN117370623B CN 117370623 B CN117370623 B CN 117370623B CN 202311398701 A CN202311398701 A CN 202311398701A CN 117370623 B CN117370623 B CN 117370623B
Authority
CN
China
Prior art keywords
text
matrix
text information
character
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311398701.0A
Other languages
English (en)
Other versions
CN117370623A (zh
Inventor
刘洪健
戴建新
杨佳铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Jandar Technology Co ltd
Original Assignee
Zhejiang Jandar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Jandar Technology Co ltd filed Critical Zhejiang Jandar Technology Co ltd
Priority to CN202311398701.0A priority Critical patent/CN117370623B/zh
Publication of CN117370623A publication Critical patent/CN117370623A/zh
Application granted granted Critical
Publication of CN117370623B publication Critical patent/CN117370623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及分布式文件系统技术领域,具体涉及一种基于大数据的智慧监督管理方法及系统,包括:通过针对文本信息的自适应降维的方法,对采集的文本信息进行分段处理,通过得到的目标字符串获取文本信息之间的文本相似性,将文本相似性高的文本信息构建为文本矩阵,分解文本矩阵后通过对稀疏矩阵中每一列对应的稀疏向量进行特征值提取,根据特征值的大小进而对文本信息进行降维处理获得新文本矩阵。本发明避免了案情信息和法规信息中的冗余信息对案情信息和法规信息的匹配过程造成的干扰,导致匹配结果不准确的缺点,提高了案情信息和法规信息匹配结果的准确性,进而实现对案情信息数据更加准确的智慧监督管理。

Description

一种基于大数据的智慧监督管理方法及系统
技术领域
本发明涉及分布式文件系统技术领域,具体涉及一种基于大数据的智慧监督管理方法及系统。
背景技术
通过基于大数据的智慧监督管理方法及系统,可以有效地提高工作效率,降低错误率,更好地实现精细化、个性化的服务。在众多的监督管理领域中,如何准确快速地将案情信息与对应的法律法规进行匹配,一直是一个重要而复杂的问题。
传统的人工检索方式,由于涉及的信息量大、需要人力资源多、效率低等问题,无法满足当前的需求。
在大数据法律监督管理系统中,需要对获取的案情信息数据进行智能研判,通常通过对比案情信息与各个法规信息进行匹配,获取案情信息对应法规条例的智能研判结果,传统的匹配过程是对案情信息与法规信息分别构建文本矩阵,获取两个文本矩阵的相似性,然而由于案情信息以及法规信息存在重复冗余信息,多个名词会在很多法规中频繁出现,但是对应名词后续对应着不同的法规条例,导致出现匹配错误的问题,因此需要减少案情信息和法规信息中的冗余信息,避免对匹配过程造成的影响。
发明内容
本发明提供一种基于大数据的智慧监督管理方法及系统,以解决现有的问题。
本发明的一种基于大数据的智慧监督管理方法及系统采用如下技术方案:
本发明一个实施例提供了一种基于大数据的智慧监督管理方法,该方法包括以下步骤:
获取案情信息数据以及法律法规数据,将案情信息数据中的任意一件案情记为一个案情文本信息,将法律法规数据中的任意一个法条记为一个法律文本信息,将案情文本信息和法律文本信息统称为文本信息,任意文本信息中包含若干个字符;
获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串;对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,根据文本相似度的大小获得文本矩阵,所述字符组合为文本信息中任意相邻的两个字符形成的字符串;
对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,所述稀疏向量为稀疏矩阵的列向量;
获取案情信息数据以及法律法规数据中的新文本矩阵并进行存储。
进一步的,所述获取字符以及字符组合的频率值,根据字符组合以及对应字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串,包括的具体方法为:
首先,获取任意文本信息中任意一个字符在文本信息中出现的次数,获取文本信息中所包含字符的数量/>,将/>记为对应字符的频率值;将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合,获取字符组合在文本信息中出现次数A2,将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到B2,将/>记为字符组合的频率值;
然后,获取任意文本信息中任意字符组合的局部范围程度,具体计算方法为:
其中,表示字符组合的局部范围程度;/>表示字符组合的第1个字符的频率值,表示字符组合的第2个字符的频率值,/>表示字符组合的频率值;/>表示以自然常数为底数的指数函数;
最后,对于文本信息内任意数量的连续字符,当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时,将所述连续字符形成的字符串记为目标字符串,任意文本信息中包含若干个目标字符串。
进一步的,所述对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,包括的具体方法为:
利用Word2Vec模型对任意目标字符串进行处理,获得目标字符串对应的向量记为字符向量;对于任意两个文本信息,将任意一个文本信息记为第一文本信息,将第一文本信息中的任意一个目标字符串记为第一字符串,将另一个文本信息记为第二文本信息,将第二文本信息中的任意目标字符串记为第二字符串,获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值,记为第一字符串的余弦匹配度;获得所有目标字符串的余弦匹配度;当余弦相似度最大时,将对应的第二字符串记为第一字符串的匹配字符串。
进一步的,所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,包括的具体方法为:
首先,获取匹配字符串在第二文本信息中出现的次数,记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次;
然后,对于第个文本信息与第/>个文本信息,获取两个文本信息之间的文本相似性,具体计算方法为:
其中,表示第/>个文本信息与第/>个文本信息之间的文本相似性;/>表示第/>个文本信息与第/>个文本信息的匹配曲线距离;/>表示第/>个文本信息与第/>个文本信息的匹配相似性;/>表示以自然常数为底数的指数函数;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度,/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息中的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次。
进一步的,所述根据文本相似度的大小获得文本矩阵,包括的具体方法为:
当任意数量的文本信息中,任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值,将所有文本信息形成的集合记为相似文本集合,获取相似文本集合中任意文本信息的所有目标字符串对应字符向量,将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量,构建二维矩阵,二维矩阵的行数为相似文本集合中文本信息的数量,二维矩阵的列数为所有文本向量中元素的最大数量,将任意文本信息的文本向量作为二维矩阵的行向量,当文本向量的列数与二维矩阵的列数不相同时,对文本向量进行补0操作,获得相似文本集合对应的二维矩阵记为文本矩阵。
进一步的,所述匹配曲线距离的具体获取方法为:
对于第个文本信息与第/>个文本信息,构建二维直角坐标系,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标,获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数/>,将目标字符串的匹配字符串的序数记为/>,将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点,获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线,利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。
进一步的,所述对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,包括的具体方法为:
利用K-SVD分解算法对任意文本矩阵进行分解,得到文本矩阵对应的字典矩阵以及稀疏矩阵,将稀疏矩阵中任意一列稀疏向量置0获得稀疏向量对应的新稀疏矩阵,利用K-SVD分解算法结合字典矩阵以及新稀疏矩阵进行重构,获得新稀疏矩阵对应的重构矩阵。
进一步的,所述根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,包括的具体方法为:
首先,将文本矩阵或重构矩阵中任意两个行向量形成的组合记为文本组合,获取文本组合中对应两个文本信息之间的文本相似性,一个文本组合对应一个文本相似性;
然后,获取第列稀疏向量的特征值/>,具体计算方法为:
其中,表示第/>列稀疏向量的特征值;/>表示文本矩阵中文本组合的数量;/>表示文本矩阵中第/>个文本组合的文本相似性,/>表示第/>列稀疏向量对应新稀疏矩阵的重构矩阵中第/>个文本组合的文本相似性;/>表示第/>列稀疏向量的文本矩阵变化程度;表示文本矩阵中行向量的数量,/>表示文本矩阵中第/>个行向量对应文本信息所包括目标字符串的数量;/>表示文本矩阵中第/>个行向量对应文本信息中的第/>个目标字符串,与所有行向量对应文本信息中匹配字符串之间余弦匹配度的均值;/>表示第/>个行向量的第/>个目标字符串在文本矩阵以及第/>列稀疏向量对应的重构矩阵中,对应字符向量之间的余弦相似度。
进一步的,所述利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,包括的具体方法为:
对所有特征值进行线性归一化处理,得到各稀疏向量对应的归一特征值,将各个稀疏向量与对应的归一特征值相乘,获得新稀疏向量,将新稀疏向量形成的矩阵记为最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵,并利用K-SVD分解算法进行重构,获得新文本矩阵。
进一步的,一种基于大数据的智慧监督管理系统,所述系统为Hadoop分布式文件系统,系统包括存储服务器、处理器以及可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现一种基于大数据的智慧监督管理方法的步骤,获得新文本矩阵并存储在存储服务器中。
本发明的技术方案的有益效果是:通过针对文本信息的自适应降维的方法,对采集的文本信息进行分段处理,通过获取目标字符串获取文本信息之间的文本相似性,将文本相似性高的同一类文本信息构建为文本矩阵,分解文本矩阵后通过对稀疏矩阵中每一列对应的稀疏向量进行特征值提取,并根据特征值的大小进而实现对文本信息的自适应降维处理,避免了案情信息和法规信息中的冗余信息对案情信息和法规信息的匹配过程造成的干扰,导致匹配结果不准确的缺点,提高了案情信息和法规信息匹配结果的准确性,进而实现对案情信息数据更加准确的智慧监督管理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于大数据的智慧监督管理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的智慧监督管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的智慧监督管理方法及系统的具体方案。
本发明一个实施例提供的一种基于大数据的智慧监督管理系统,该系统为Hadoop分布式文件系统,系统包括存储服务器、处理器以及可在处理器上运行的计算机程序,处理器用来执行计算机程序时实现一种基于大数据的智慧监督管理方法所对应的各个步骤,这些步骤通过将案情信息数据和法律法规数据进行降维处理,得到对应的新文本矩阵,所述存储服务器用来存储案情信息数据和法律法规数据对应的新文本矩阵,所述新文本矩阵保证了在尽可能少的损失文本信息的前提下,更大程度地减少了在存储服务器中所占用的存储空间,通过降维处理避免了案情信息数据和法律法规数据中的冗余信息对案情信息和法规信息进行匹配过程造成的干扰,进一步的提高了利用新文本矩阵之间的相似性对案情信息和法律法规进行匹配时的准确性,提高了对数据进行分布式存储管理时的监督管理效率。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的智慧监督管理方法的步骤流程图。
进一步的,一种基于大数据的智慧监督管理方法包括以下步骤:
步骤S001:获取案情信息数据以及法律法规数据。
具体的,为了实现本实施例提出的一种基于大数据的智慧监督管理方法,首先需要采集案情信息数据以及法律法规数据,具体过程为:
通过大数据法律监督平台来采集案情信息数据以及法律法规数据,将案情信息数据中的任意一件案情记为一个案情文本信息,将法律法规数据中的任意一个法条记为一个法律文本信息,将案情文本信息和法律文本信息统称为文本信息,任意文本信息中包含若干个字符。
需要说明的是,所述大数据法律监督平台是基于大数据技术,对司法领域的数据进行整合分析的数字平台,大数据法律监督平台通过在司法数据库或公开法律文件中获取各类法律数据,并进行数据处理和分析。
需要说明的是,案情信息数据通过司法数据库的案情分析报告中获取,法律法规数据通过公开法律文件中获取。
至此,通过上述方法得到案情信息数据以及法律法规数据。
步骤S002:根据字符的频率值获得目标字符串,对目标字符串进行转换获得字符向量,结合字符向量的余弦相似度获得文本信息之间的文本相似度,进一步获得文本矩阵。
需要说明的是,在大数据法律监督平台中,需要将案情信息数据与各个法律法规数据进行匹配,获取对应的智能研判结果,在常规的匹配过程中,通过对案情信息数据以及法律法规数据构建文本矩阵,并计算两个文本矩阵的相似性进行匹配,然而由于案情信息数据以及法律法规数据存在重复冗余信息,例如法规含有很多相同的名词在多个法规中出现,但是该名词具体对应着不同的法规信息,因此在获取文本矩阵之间的相似性时,需要对文本矩阵进行降维处理,提取文本矩阵的关键信息,然后进行对比分析以避免冗余信息的干扰。
需要说明的是,对于案情信息和法规信息来说,在同一类的文本信息之间可以获取其公共特征来进行降维,以达到提取关键的文本信息的目的,在分类的过程中,由于部分文本信息之间存在关联,例如部分文本信息往往是一同出现的,因此在计算文本之间的相似性的情况时,需要对所述文本信息一同进行分析,并进行局部范围分段处理,获取文本信息在局部范围内的相似性,进而来构建文本矩阵。
具体的,步骤(1),首先,获取任意文本信息中任意一个字符在文本信息中出现的次数,获取文本信息中所包含字符的数量/>,将/>记为对应字符的频率值;将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合,获取字符组合在文本信息中出现次数A2,将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到B2,将/>记为字符组合的频率值。
然后,获取任意文本信息中任意字符组合的局部范围程度,具体计算方法为:
其中,表示字符组合的局部范围程度;/>表示字符组合的第1个字符的频率值,表示字符组合的第2个字符的频率值,/>表示字符组合的频率值;/>表示以自然常数为底数的指数函数。
需要说明的是,字符组合的局部范围程度反映了字符组合的第1个字符和第2个字符属于同一个局部范围内的可能性,局部范围程度的可能性越大,表示第1个字符和第2个字符属于同一个局部范围内的可能性就越大;字符组合的频率值表示字符组合的两个字符联合分布情况,字符组合的频率值越大,表明字符组合中的两个字符形成的组合在与分别包含两个字符相关的组合中出现的频率较大,则所述两个字符形成的组合属于同一个局部范围的可能性越大;其中表示两个字符在文本信息整体上的频率分布特征,频率分布特征的值越大,表明两个字符在文本信息的整体上的频率分布特征上基本相同,则将对应字符组合的频率值相应程度的放大。
最后,对于文本信息内任意数量的连续字符,当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时,将所述连续字符形成的字符串记为目标字符串,任意文本信息中包含若干个目标字符串。
需要说明的是,根据经验预设局部范围程度阈值,可根据实际情况进行调整,本实施例不进行具体限定。
步骤(2),首先,利用Word2Vec模型对任意目标字符串进行处理,获得目标字符串对应的向量记为字符向量;对于任意两个文本信息,将任意一个文本信息记为第一文本信息,将第一文本信息中的任意一个目标字符串记为第一字符串,将另一个文本信息记为第二文本信息,将第二文本信息中的任意目标字符串记为第二字符串,获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值,记为第一字符串的余弦匹配度;获得所有目标字符串的余弦匹配度;当余弦相似度最大时,将对应的第二字符串记为第一字符串的匹配字符串,获取匹配字符串在第二文本信息中出现的次数,记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次。
然后,对于第个文本信息与第/>个文本信息,获取两个文本信息之间的文本相似性,具体计算方法为:
其中,表示第/>个文本信息与第/>个文本信息之间的文本相似性;/>表示第/>个文本信息与第/>个文本信息的匹配曲线距离;/>表示第/>个文本信息与第/>个文本信息的匹配相似性;/>表示以自然常数为底数的指数函数;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度,/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息中的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次。
所述匹配曲线距离的具体获取方法为:对于第个文本信息与第/>个文本信息,构建二维直角坐标系,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标,获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数/>,将目标字符串的匹配字符串的序数记为/>,将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点,获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线,利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。
需要说明的是,DTW距离越大,表明两个匹配曲线的差异越大,也即匹配相似性的差异权重值越小,对应两个文本信息越不相似。
需要说明的是,DTW(Dynamic Time Warping)算法的中文名称为动态时间规整算法,由于DTW算法为现有的测量两个序列之间相似度的算法,因此本实施例不进行赘述。
最后,当任意数量的文本信息中,任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值,将所有文本信息形成的集合记为相似文本集合,获取相似文本集合中任意文本信息的所有目标字符串对应字符向量,将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量,构建二维矩阵,二维矩阵的行数为相似文本集合中文本信息的数量,二维矩阵的列数为所有文本向量中元素的最大数量,将任意文本信息的文本向量作为二维矩阵的行向量,当文本向量的列数与二维矩阵的列数不相同时,对文本向量进行补0操作,获得相似文本集合对应的二维矩阵记为文本矩阵。
需要说明的是,例如文本信息有字符向量分别为、/>、/>,则文本信息的文本向量为/>
需要说明的是,根据经验预设文本相似性阈值为,可根据实际情况进行调整,本实施例不进行具体限定。
需要说明的是,构建的文本矩阵中每一行表征为一个文本信息,此整个文本矩阵表征得到为同一类的文本信息。
需要说明的是,本实施例提出一种自适应降维的方法,在基于K-SVD分解重构方法的基础上,对采集的文本信息进行局部范围分段处理,通过获取的局部范围来计算文本信息之间的相似性,进而对文本信息进行分类处理,根据同一类中文本信息来构建文本矩阵。在K-SVD分解文本矩阵后,通过对稀疏矩阵种每一列稀疏向量进行特征值的提取,并根据特征值的大小可以实现文本矩阵的K-SVD重构。
至此,通过上述方法得到若干文本矩阵。
步骤S003:对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵重置并结合字典矩阵进行重构获得重构矩阵,根据稀疏矩阵和重构矩阵获得最终稀疏矩阵,对字典矩阵和最终稀疏矩阵重构获得新文本矩阵。
需要说明的是,根据上述步骤,得到同一类的文本信息构建的文本矩阵,对该类的文本矩阵进行降维处理,可以获取到该类文本矩阵的关键信息。通过对文本矩阵进行K-SVD分解处理,得到对应的字典矩阵以及稀疏矩阵,其中字典矩阵中包含有文本矩阵中的共同信息,而稀疏矩阵中包含着字典矩阵中的各种组合方式,因此在K-SVD分解文本矩阵后,通过对稀疏矩阵种每一列稀疏向量进行特征值的提取,并根据特征值的大小可以实现文本矩阵的K-SVD重构。在获取稀疏向量的特征值的过程中,由于不同稀疏向量包含的信息含量不同,若包含有较多的重复信息,则表明该稀疏向量的包含的信息含量较少,则对应的其重构时的特征值就越小。
具体的,步骤(1),首先,利用K-SVD分解算法对任意文本矩阵进行分解,得到文本矩阵对应的字典矩阵以及稀疏矩阵,将稀疏矩阵中任意一列稀疏向量置0获得稀疏向量对应的新稀疏矩阵,利用K-SVD分解算法结合字典矩阵以及新稀疏矩阵进行重构,获得新稀疏矩阵对应的重构矩阵。
需要说明的是,K-SVD(K-means Singular Value Decomposition)的中文名称为奇异值分解算法,由于K-SVD分解算法为现有算法,因此本实施例不进行赘述。
然后,将文本矩阵或重构矩阵中任意两个行向量形成的组合记为文本组合,获取文本组合中对应两个文本信息之间的文本相似性,一个文本组合对应一个文本相似性。
需要说明的是,文本矩阵与重构矩阵中文本组合的数量相同。
最后,将稀疏矩阵中任意一个列向量记为稀疏向量,获取第列稀疏向量的特征值,具体计算方法为:
其中,表示第/>列稀疏向量的特征值;/>表示文本矩阵中文本组合的数量;/>表示文本矩阵中第/>个文本组合的文本相似性,/>表示第/>列稀疏向量对应新稀疏矩阵的重构矩阵中第/>个文本组合的文本相似性;/>表示第/>列稀疏向量的文本矩阵变化程度;表示文本矩阵中行向量的数量,/>表示文本矩阵中第/>个行向量对应文本信息所包括目标字符串的数量;/>表示文本矩阵中第/>个行向量对应文本信息中的第/>个目标字符串,与所有行向量对应文本信息中匹配字符串之间余弦匹配度的均值;/>表示第/>个行向量的第/>个目标字符串在文本矩阵以及第/>列稀疏向量对应的重构矩阵中,对应字符向量之间的余弦相似度。
需要说明的是,本实施例通过对第列稀疏向量进行置0操作,并结合新稀疏矩阵和字典矩阵进行K-SVD重构,得到重构后的文本矩阵,即重构矩阵,通过获取文本矩阵与重构矩阵之间在相同位置下目标字符串对应字符向量的变化程度,进一步获取稀疏向量的文本矩阵变化程度。将目标字符串与匹配字符串对应的余弦匹配度作为对文本矩阵变化程度的影响权重/>,若/>越大,则表明文本矩阵中该目标字符串对应的信息为重复信息,则该目标字符串的影响权重值越小。
需要说明的是,表示通过第/>列稀疏向量置0后,将文本矩阵与重构矩阵中文本组合的文本相似性差异作为文本矩阵变化程度的修正值,通过获取相同文本组合下文本相似性的差异来反映重构结果的变化情况,进而来表征该稀疏向量的信息含量,即对应稀疏向量发生变化后对文本矩阵构成影响的程度,文本相似性的差异越大,则对应稀疏向量的信息含量越高,则对应的需要放大文本矩阵变化程度。
步骤(2),获取所有稀疏向量的特征值,并对所有特征值进行线性归一化处理,得到各稀疏向量对应的归一特征值,将各个稀疏向量与对应的归一特征值相乘,获得新稀疏向量,将新稀疏向量形成的矩阵记为最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵,并利用K-SVD分解算法进行重构,获得新文本矩阵。
需要说明的是,重构后的文本矩阵中包含着关键的文本信息,实现了降维处理,所述重构后的文本矩阵即新文本矩阵,类似此操作,可以对案情信息数据以及法律法规数据中所有文本信息进行重构。
至此,通过上述方法得到新文本矩阵。
步骤S004:获取案情信息数据以及法律法规数据中的新文本矩阵,利用新文本矩阵以及法律法规数据对案情信息数据进行监督管理。
具体的,首先,分别获取案情信息数据以及法律法规数据中所有文本信息对应的若干个新文本矩阵,将案情信息数据中的新文本矩阵记为案情矩阵,将法律法规数据中的新文本矩阵记为法规矩阵,将案情矩阵和法规矩阵存储与存储服务器中。
然后,读取存储服务器中的案情矩阵和法规矩阵,将任意案情矩阵与法规矩阵之间的欧氏距离记为案情矩阵与法规矩阵之间的匹配度,获取与案情矩阵之间的匹配度最大时对应的法规矩阵,则该法规矩阵即为案情矩阵对应案情信息所涉及法律法规的文本矩阵,将对应的法律法规对案情信息进行备注,以对案情信息数据进行管理。
需要说明的是,首先通过将案情信息数据和法律法规数据降维后的案情矩阵和法规矩阵存储于存储服务器中,降低了案情信息数据和法律法规数据在存储服务器中所占用的存储空间;然后,法律领域工作人员在对案情进行研判时,通过获取案情信息数据在存储服务器中对应的案情矩阵以及匹配度最大的法规矩阵,实现对案情的快速研判,提高了法律领域工作人员对案情信息数据的监督管理效率。
通过以上步骤,完成对案情信息数据的监督管理。
需要说明的是,本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内,具体实施时,可替换成具有同样目的的其他模型,本实施例只是以/>模型为例进行叙述,不对其做具体限定,其中/>是指该模型的输入。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于大数据的智慧监督管理方法,其特征在于,该方法包括以下步骤:
获取案情信息数据以及法律法规数据,将案情信息数据中的任意一件案情记为一个案情文本信息,将法律法规数据中的任意一个法条记为一个法律文本信息,将案情文本信息和法律文本信息统称为文本信息,任意文本信息中包含若干个字符;
获取字符以及字符组合的频率值,根据字符组合的频率值以及字符组合中每个字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串;对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,根据文本相似度的大小获得文本矩阵,所述字符组合为文本信息中任意相邻的两个字符形成的字符串;
所述获取字符以及字符组合的频率值,根据字符组合的频率值以及字符组合中每个字符的频率值获得字符组合的局部范围程度,根据局部范围程度的大小获得目标字符串,包括的具体方法为:
首先,获取任意文本信息中任意一个字符在文本信息中出现的次数,获取文本信息中所包含字符的数量/>,将/>记为对应字符的频率值;将文本信息中任意相邻的两个字符形成的字符串记为一个字符组合,获取字符组合在文本信息中出现次数A2,将字符组合中第1个字符和第2个字符在文本信息中分别出现的次数相加得到B2,将/>记为字符组合的频率值;
然后,获取任意文本信息中任意字符组合的局部范围程度,具体计算方法为:
其中,表示字符组合的局部范围程度;/>表示字符组合的第1个字符的频率值,/>表示字符组合的第2个字符的频率值,/>表示字符组合的频率值;/>表示以自然常数为底数的指数函数;/>表示获取绝对值;
最后,对于文本信息内任意数量的连续字符,当所有字符组合的局部范围程度均大于预设的局部范围程度阈值时,将所述连续字符形成的字符串记为目标字符串,任意文本信息中包含若干个目标字符串;
所述对任意目标字符串进行转换获得字符向量,根据字符向量之间余弦相似度的大小获得目标字符串的匹配字符串,包括的具体方法为:
利用Word2Vec模型对任意目标字符串进行处理,获得目标字符串对应的向量记为字符向量;对于任意两个文本信息,将任意一个文本信息记为第一文本信息,将第一文本信息中的任意一个目标字符串记为第一字符串,将另一个文本信息记为第二文本信息,将第二文本信息中的任意目标字符串记为第二字符串,获取第一字符串的字符向量与所有第二字符串的字符向量的余弦相似度的最大值,记为第一字符串的余弦匹配度;获得所有目标字符串的余弦匹配度;当余弦相似度最大时,将对应的第二字符串记为第一字符串的匹配字符串;
对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,所述稀疏向量为稀疏矩阵的列向量;
所述根据稀疏矩阵和重构矩阵中文本相似性的差异以及目标字符串的余弦匹配度获得稀疏向量的特征值,包括的具体方法为:
首先,将文本矩阵或重构矩阵中任意两个行向量形成的组合记为文本组合,获取文本组合中对应两个文本信息之间的文本相似性,一个文本组合对应一个文本相似性;
然后,获取第列稀疏向量的特征值/>,具体计算方法为:
其中,表示第/>列稀疏向量的特征值;/>表示文本矩阵中文本组合的数量;/>表示文本矩阵中第/>个文本组合的文本相似性,/>表示第/>列稀疏向量对应新稀疏矩阵的重构矩阵中第/>个文本组合的文本相似性;/>表示第/>列稀疏向量的文本矩阵变化程度;/>表示获取绝对值;/>表示文本矩阵中行向量的数量,/>表示文本矩阵中第/>个行向量对应文本信息所包括目标字符串的数量;/>表示文本矩阵中第/>个行向量对应文本信息中的第/>个目标字符串,与所有行向量对应文本信息中匹配字符串之间余弦匹配度的均值;/>表示第/>个行向量的第/>个目标字符串在文本矩阵以及第/>列稀疏向量对应的重构矩阵中,对应字符向量之间的余弦相似度;
所述利用特征值对稀疏向量进行调整获得最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵进行重构获得新文本矩阵,包括的具体方法为:
对所有特征值进行线性归一化处理,得到各稀疏向量对应的归一特征值,将各个稀疏向量与对应的归一特征值相乘,获得新稀疏向量,将新稀疏向量形成的矩阵记为最终稀疏矩阵,结合字典矩阵和最终稀疏矩阵,并利用K-SVD分解算法进行重构,获得新文本矩阵;
获取案情信息数据以及法律法规数据中的新文本矩阵并进行存储。
2.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述结合字符向量的余弦相似度以及匹配字符串在文本信息中出现的次数,获得文本信息之间的文本相似度,包括的具体方法为:
首先,获取匹配字符串在第二文本信息中出现的次数,记为第一字符串在第二文本信息中对应匹配字符串的特殊匹配频次;
然后,对于第个文本信息与第/>个文本信息,获取两个文本信息之间的文本相似性,具体计算方法为:
其中,表示第/>个文本信息与第/>个文本信息之间的文本相似性;/>表示第/>个文本信息与第/>个文本信息的匹配曲线距离;/>表示第/>个文本信息与第/>个文本信息的匹配相似性;/>表示以自然常数为底数的指数函数;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息的目标字符串的数量;/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度,/>表示第/>个文本信息中第/>个目标字符串的余弦匹配度;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次;/>表示第/>个文本信息中所有目标字符串,在第/>个文本信息中对应匹配字符串的最大特殊匹配频次;/>表示第/>个文本信息中的第/>个目标字符串,在第/>个文本信息中对应匹配字符串的特殊匹配频次。
3.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述根据文本相似度的大小获得文本矩阵,包括的具体方法为:
在任意数量的文本信息中,当任意两个文本信息之间的文本相似性均大于预设的文本相似性阈值时,将所有文本信息形成的集合记为相似文本集合,获取相似文本集合中任意文本信息的所有目标字符串对应字符向量,将所有字符向量中的元素构成集合对应的向量记为文本信息的文本向量,构建二维矩阵,二维矩阵的行数为相似文本集合中文本信息的数量,二维矩阵的列数为所有文本向量中元素的最大数量,将任意文本信息的文本向量作为二维矩阵的行向量,当文本向量的列数与二维矩阵的列数不相同时,对文本向量进行补0操作,获得相似文本集合对应的二维矩阵记为文本矩阵。
4.根据权利要求2所述一种基于大数据的智慧监督管理方法,其特征在于,所述匹配曲线距离的具体获取方法为:
对于第个文本信息与第/>个文本信息,构建二维直角坐标系,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的横坐标,将第/>个文本信息中目标字符串的序数作为二维直角坐标系的纵坐标,获取第/>个文本信息或第/>个文本信息中任意目标字符串的序数,将目标字符串的匹配字符串的序数记为/>,将坐标/>对应的点记为目标字符串在二维直角坐标系中的匹配点,获得任意文本信息中所有目标字符串在二维直角坐标系中的匹配点形成的曲线记为文本信息的匹配曲线,利用DTW算法获取任意两个文本信息对应匹配曲线之间的DTW距离记为第/>个文本信息与第/>个文本信息之间的匹配曲线距离。
5.根据权利要求1所述一种基于大数据的智慧监督管理方法,其特征在于,所述对文本矩阵进行分解获得字典矩阵和稀疏矩阵,将稀疏矩阵的稀疏向量进行重置获得新稀疏矩阵,结合字典矩阵和新稀疏矩阵进行重构获得重构矩阵,包括的具体方法为:
利用K-SVD分解算法对任意文本矩阵进行分解,得到文本矩阵对应的字典矩阵以及稀疏矩阵,将稀疏矩阵中任意一列稀疏向量置0获得稀疏向量对应的新稀疏矩阵,利用K-SVD分解算法结合字典矩阵以及新稀疏矩阵进行重构,获得新稀疏矩阵对应的重构矩阵。
6.一种基于大数据的智慧监督管理系统,所述系统为Hadoop分布式文件系统,系统包括存储服务器、处理器以及可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~5任意一项所述一种基于大数据的智慧监督管理方法的步骤,获得新文本矩阵并存储在存储服务器中。
CN202311398701.0A 2023-10-26 2023-10-26 一种基于大数据的智慧监督管理方法及系统 Active CN117370623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311398701.0A CN117370623B (zh) 2023-10-26 2023-10-26 一种基于大数据的智慧监督管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311398701.0A CN117370623B (zh) 2023-10-26 2023-10-26 一种基于大数据的智慧监督管理方法及系统

Publications (2)

Publication Number Publication Date
CN117370623A CN117370623A (zh) 2024-01-09
CN117370623B true CN117370623B (zh) 2024-04-26

Family

ID=89403745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311398701.0A Active CN117370623B (zh) 2023-10-26 2023-10-26 一种基于大数据的智慧监督管理方法及系统

Country Status (1)

Country Link
CN (1) CN117370623B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
CN112069307A (zh) * 2020-08-25 2020-12-11 中国人民大学 一种法律法条引用信息抽取系统
CN116384949A (zh) * 2023-06-05 2023-07-04 北京东联世纪科技股份有限公司 一种基于数字化管理的智慧政务信息数据管理系统
CN116910181A (zh) * 2023-07-19 2023-10-20 西安石油大学 一种融合稀疏与低秩的信息检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
CN112069307A (zh) * 2020-08-25 2020-12-11 中国人民大学 一种法律法条引用信息抽取系统
CN116384949A (zh) * 2023-06-05 2023-07-04 北京东联世纪科技股份有限公司 一种基于数字化管理的智慧政务信息数据管理系统
CN116910181A (zh) * 2023-07-19 2023-10-20 西安石油大学 一种融合稀疏与低秩的信息检索方法

Also Published As

Publication number Publication date
CN117370623A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
CN108920720A (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN108304357B (zh) 一种基于字体流形的中文字库自动生成方法
CN110210618A (zh) 动态修剪深度神经网络权重和权重共享的压缩方法
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN108268872B (zh) 一种基于增量学习的鲁棒非负矩阵分解方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
EP4390725A1 (en) Video retrieval method and apparatus, device, and storage medium
CN113128413A (zh) 一种人脸检测模型训练方法、人脸检测方法及其相关装置
CN110874591A (zh) 一种图像定位方法、装置、设备及存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN114328988A (zh) 多媒体数据的特征提取方法、多媒体数据检索方法及装置
CN118227798B (zh) 基于金融文本数据分类存储方法及系统
CN116450941A (zh) 基于洛伦兹图卷积网络的书籍推荐方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
CN109344276B (zh) 一种图像指纹生成方法、图像相似度比较方法及存储介质
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN117370623B (zh) 一种基于大数据的智慧监督管理方法及系统
CN116152575B (zh) 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN115457638A (zh) 模型训练方法、数据检索方法、装置、设备及存储介质
CN109766467B (zh) 基于图像分割和改进vlad的遥感图像检索方法及系统
CN112487231A (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
CN118211131B (zh) 一种适用于金融大模型的文本数据预处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant