CN114168733A - 一种基于复杂网络的法规检索方法及系统 - Google Patents
一种基于复杂网络的法规检索方法及系统 Download PDFInfo
- Publication number
- CN114168733A CN114168733A CN202111476913.7A CN202111476913A CN114168733A CN 114168733 A CN114168733 A CN 114168733A CN 202111476913 A CN202111476913 A CN 202111476913A CN 114168733 A CN114168733 A CN 114168733A
- Authority
- CN
- China
- Prior art keywords
- classified
- rule
- regulations
- regulation
- laws
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 2
- 238000007635 classification algorithm Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于复杂网络的法规检索方法及系统,属于文本分类技术领域,法规检索方法包括:对每部待分类法规进行分词,计算每个特征词在各待分类法规中的TF‑IDF值;针对每一待分类法规,根据每个特征词在待分类法规中的TF‑IDF值,确定待分类法规的特征向量;根据各待分类法规的特征向量,构建法规复杂网络;基于社团检测算法,根据法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;计算检索关键字在各待分类法规中的TF‑IDF值,将TF‑IDF值大于频率阈值的待分类法规作为检索结果集,确定检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团,提高了法规检索结果的精度和检索效率。
Description
技术领域
本发明涉及文本分类技术领域,特别是涉及一种基于复杂网络的法规检索方法及系统。
背景技术
为了解决各种各样的环境问题,根据地方上的实际情况,各地政府颁布了适应自身情况的相关政策法规。这些法规不仅数量庞大,且法规间的关系错综复杂,如何提前对环境法规数据进行类别划分处理、挖掘法规之间的关联关系,从而提高法规的检索效率和精度就成为了急需解决的问题。
从法规的检索来看,大众在生活和工作中遇到相关问题时,往往需要检索相关的法律法规,然而目前市场上的法规检索系统中,用户检索得到的结果中包含大量不相关的法规,并不能达到精确检索的效果,且降低了用户的检索效率,而且检索结果中的各法规之间的相关性不高,降低了用户的检索体验。而目前在法规文本类别划分方面,现有技术一般通过分类或聚类方式实现。分类算法需要事先给定带标签数据构成的训练集,将新法规划分到训练集中已有的某个标签类别中,分类算法虽然可以解决法规类别划分问题,但分类算法属于有监督学习,训练集中的每条数据都必须有标签,而现实中很难以人工方式对环境法规赋予合适的标签,训练集的获取存在困难。kNN算法对噪声数据敏感,鲁棒性较差,参数k也不好确定。神经网络模型调参困难,且模型训练时间长,分类结果的可解释性较差。支持向量机解决多分类问题时存在困难,不适用于环境法规类别划分这种多分类问题。决策树要求数据集中各类别中的样本数目要均衡,否则信息增益会偏向具有更多数值的特征,同时该方法易于过拟合,忽略了属性之间的相关性。
聚类算法属于无监督学习,其本质是根据样本间的某种距离在无监督条件下的聚簇过程,它可以解决分类算法训练集难易获取的问题,不需要训练集就可以实现法规类别划分。例如,通过k-Means算法对环境法规数据进行聚类。但是k-Menas的聚簇数需要人工预先确定,这种人为干涉对聚簇结果的合理性会产生影响,初始质心的选择也会对结果产生影响,算法性能不稳定;虽然聚类算法可以解决诸如法规这类无标签数据的类别划分问题,但聚簇标识名的选取是一个困难的问题。
在相似法规推荐方面,现有技术一般采用局部相似度排序法,计算法规库中任意一对法规的相似度,找出按相似度降序排序后的top-k部法规进行推荐。该方法基于法规与其近邻的相似度实现法规推荐,在近邻范围内根据法规间的相似度完成了相似法规排序,但是此方法没有考虑法规在整个网络中的影响力对相似法规排序的影响。
基于上述问题,亟需一种新的法规分类方法以提高法规检索结果的精度和检索效率。
发明内容
本发明的目的是提供一种基于复杂网络的法规检索方法及系统,可提高法规检索结果的精度和检索效率。
为实现上述目的,本发明提供了如下方案:
一种基于复杂网络的法规检索方法,所述基于复杂网络的法规检索方法包括:
对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词;
计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值;
针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量;
根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规;
基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规;
获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值;
将TF-IDF值大于频率阈值的待分类法规作为检索结果集;
确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
可选地,所述对每部待分类法规进行分词处理,得到法规语料库,具体包括:
针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合;
去除所述词集合中的停用词,得到特征词集合;
将每部待分类法规的特征词集合合并,得到法规语料库。
可选地,根据以下公式,计算特征词i在待分类法规j中的TF-IDF值:
其中,TF-IDFi,j为特征词i在待分类法规j中的TF-IDF值,ni,j为待分类法规j中特征词i出现的频次,nk,j为待分类法规j中特征词k出现的频次,K为法规j中的特征词集合,N为待分类法规的总数,Ni为法规语料库中包含特征词i的待分类法规的数量。
可选地,所述根据每部待分类法规的特征向量,构建法规复杂网络,具体包括:
根据各待分类法规确定节点集;所述节点集中各待分类法规为节点;
针对任意两部待分类法规,计算两部待分类法规的特征向量之间的余弦相似度;
判断余弦相似度是否大于相似度阈值,若余弦相似度大于相似度阈值,则在两部待分类法规之间添加连边,并将余弦相似度作为边的权重;
将所有连边作为边集,各连边对应的权重作为权重集;
基于所述节点集、边集和权重集,构建法规复杂网络。
可选地,所述基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团,具体包括:
为所述法规复杂网络中的每个节点初始化一个标签集;每个节点的标签集中包括一个唯一的初始标签;
针对第r次标签传播迭代,从所述法规复杂网络中随机选择一个节点作为监听者,所述监听者的邻居节点作为广播者;所述邻居节点为与所述监听者之间存在连边的节点;
各广播者采用多项分布实验方法从各自的标签集中选择一个标签,并将所述标签及所述标签的权重发送给监听者;所述标签的权重为所述广播者与监听者之间连边的权重;
计算所述监听者接收到的相同标签的权重之和;
将所述权重之和最高的标签添加至所述监听者的标签集中,重新从所述法规复杂网络中随机选择一个节点作为监听者,直至迭代次数大于或等于迭代阈值;
根据各节点标签集中的标签,确定多个法规社团。
可选地,所述基于复杂网络的法规检索方法还包括:
计算所述法规复杂网络中各待分类法规的k-core值;待分类法规与所述法规社团中的法规相对应;
针对所述检索结果集中各法规社团中的任一法规,根据所述法规的k-core值,计算所述法规与其邻居法规之间的综合相似度;所述邻居法规为在法规复杂网络中与所述法规之间存在连边的法规;
根据各综合相似度,对所述法规社团中的各法规进行降序排序;
将排序后的前p部法规作为相似法规集进行推荐。
可选地,根据以下公式,计算待分类法规v的k-core值:
其中,kv为待分类法规v的k-core值,dv为待分类法规v的邻居法规的数量,wvu为待分类法规v与其邻居法规u之间连边的权重,m和n为比重调节参数。
可选地,根据以下公式,计算法规v1与其邻居法规u1的综合相似度:
Simv1,u1=λ·wv1,u1+(1-λ)·kv1;
其中,Simv1,u1为法规v1与其邻居法规u1的综合相似度,λ为比重调节参数,wv1,u1为法规v1与其邻居法规u1之间连边的权重,kv1为法规v1的k-core值。
为实现上述目的,本发明还提供了如下方案:
一种基于复杂网络的法规检索系统,所述基于复杂网络的法规检索系统包括:
分词单元,用于对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词;
词频计算单元,与所述分词单元连接,用于计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值;
特征向量确定单元,与所述词频计算单元连接,用于针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量;
网络构建单元,与所述特征向量确定单元连接,用于根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规;
分类单元,与所述网络构建单元连接,用于基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规;
检索单元,用于获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值;
检索结果集确定单元,与所述检索单元连接,用于将TF-IDF值大于频率阈值的待分类法规作为检索结果集;
展示单元,与所述分类单元及所述检索结果集确定单元连接,用于确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
可选地,所述分词单元包括:
分词模块,用于针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合;
停用词去除模块,与所述分词模块连接,用于去除所述词集合中的停用词,得到特征词集合;
合并模块,与所述停用词去除模块连接,用于将每部待分类法规的特征词集合合并,得到法规语料库。
根据本发明提供的具体实施例,本发明公开了以下技术效果:通过对每部待分类法规进行分词处理,并计算每个特征词在各待分类法规中的TF-IDF值,并根据TF-IDF值确定每部确定待分类法规的特征向量,根据各待分类法规的特征向量,构建法规复杂网络,结合社团检测算法对各待分类法规进行类别划分,通过将复杂网络与社团检测算法结合对法规进行分类,再计算用户输入的检索关键字在各待分类法规中的TF-IDF值,将TF-IDF值大于频率阈值的待分类法规作为检索结果集,确定检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团,提高了分类的精度以及法规检索结果的准确性和检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于复杂网络的法规检索方法的流程图;
图2为本发明基于复杂网络的法规检索系统的模块结构示意图。
符号说明:
分词单元-1,词频计算单元-2,特征向量确定单元-3,网络构建单元-4,分类单元-5,检索单元-6,检索结果集确定单元-7,展示单元-8。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于复杂网络的法规检索方法及系统,用于解决现有分类技术中存在的由于训练集难以获取导致的环境法规类别划分困难问题、检索结果的粗粒度导致的检索效率低的问题,以及对于检索结果,未考虑法规间的联系从而影响检索准确度的问题。通过对每部待分类法规进行分词处理,并计算每个特征词在各待分类法规中的TF-IDF值,并根据TF-IDF值确定每部确定待分类法规的特征向量,根据各待分类法规的特征向量,构建法规复杂网络,结合社团检测算法对各待分类法规进行类别划分,通过将复杂网络与社团检测算法结合对法规进行分类,再计算用户输入的检索关键字在各待分类法规中的TF-IDF值,将TF-IDF值大于频率阈值的待分类法规作为检索结果集,确定检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团,提高了分类的精度以及法规检索结果的准确性和检索效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于复杂网络的法规检索方法包括:
S1:对每部待分类法规进行分词处理,得到法规语料库。所述法规语料库中包括多个特征词。
S2:计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值。
具体地,根据以下公式,计算特征词i在待分类法规j中的TF-IDF值:
其中,TF-IDFi,j为特征词i在待分类法规j中的TF-IDF值,ni,j为待分类法规j中特征词i出现的频次,nk,j为待分类法规j中特征词k出现的频次,K为法规j中的特征词集合,N为待分类法规的总数,Ni为法规语料库中包含特征词i的待分类法规的数量。
S3:针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量。在本实施例中,将每部待分类法规中出现频次最高的特征词作为其主题词。
S4:根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集。所述节点集中的节点为各待分类法规。在本实施例中,将待分类法规的主题词作为对应节点的一个属性。
S5:基于社团检测算法SLPA,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团。各法规社团中均包括多部分类后的法规。
S6:获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值。具体地,待分类法规为现有的所有法规。
S7:将TF-IDF值大于频率阈值的待分类法规作为检索结果集。
S8:确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
本发明通过对初步的检索结果集中的法规进行二次细分,缩小了检索结果的范围,用户可以对检索结果集中的法规按类别进行选择查看,进而提高了检索精度和效率。
进一步地,S1具体包括:
S11:针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合。
S12:去除所述词集合中的停用词,得到特征词集合。
S13:将每部待分类法规的特征词集合合并,得到法规语料库。
更进一步地,S4具体包括:
S41:根据各待分类法规确定节点集;所述节点集中各待分类法规为节点。
S42:针对任意两部待分类法规,计算两部待分类法规的特征向量之间的余弦相似度。
S43:判断余弦相似度是否大于相似度阈值,若余弦相似度大于相似度阈值,则在两部待分类法规之间添加连边,并将余弦相似度作为边的权重。
S44:将所有连边作为边集,各连边对应的权重作为权重集。
S45:基于所述节点集、边集和权重集,构建法规复杂网络。
将法规抽象为节点,法规特征向量间的余弦相似度作为两节点间边的权重,构建无向加权网络。实现了从文本分类问题到复杂网络社团检测问题的转化,复杂网络中节点间的连接能够准确地反映法规间的相似关系,在法规分类过程中充分考虑了法规之间的相关性,将法规间的相似性转化为网络中节点间的近邻关系,进一步提高了法规分类的可解释性。
SLPA算法是LPA算法针对加权网络的一种优化算法。S5具体包括:
S51:为所述法规复杂网络中的每个节点初始化一个标签集;每个节点的标签集中包括一个唯一的初始标签。标签代表社团的标识,在初始状态下,将每个节点看作一个社团,因此一开始为每个节点赋予唯一的初始标签。
S52:针对第r次标签传播迭代,从所述法规复杂网络中随机选择一个节点作为监听者Listener,所述监听者的邻居节点作为广播者Speaker;所述邻居节点为与所述监听者之间存在连边的节点。具体地,每轮标签传播迭代过程中,将法规复杂网络的节点分为Listener和Speaker两种,每个节点轮流作为Listener,其邻居节点作为Speaker。
S53:各广播者采用多项分布实验方法从各自的标签集中选择一个标签,并将所述标签及所述标签的权重发送给监听者;所述标签的权重为所述广播者与监听者之间连边的权重。标签传播时是通过边集E中的边传播的,标签的权重是在一轮迭代中更新节点标签的依据。
具体地,Speaker根据自己标签集中标签的权重,为每个标签设置发送概率,进行多项分布实验,发送实验选中的标签及标签的权重给Listener。
S54:计算所述监听者接收到的相同标签的权重之和。
S55:将所述权重之和最高的标签添加至所述监听者的标签集中,重新从所述法规复杂网络中随机选择一个节点作为监听者,直至迭代次数大于或等于迭代阈值。Listener选择权重之和最高的标签作为自己本轮迭代的标签。
S56:根据各节点标签集中的标签,确定多个法规社团。
标签传播要经过若干轮的迭代,在每轮迭代中每个节点都会更新标签,此处的标签集就是节点标签的更新序列。例如,某节点第一轮迭代中更新的标签为‘a’,第二轮为‘b’,第三轮为‘a’,则此时该节点的标签集为{‘a’‘b’‘a’}。
迭代结束后,每个节点都有一个自己的标签集,针对每一节点,从节点的标签集中选出频次大于或等于频次阈值的标签,作为该节点最后的标签组。将多个法规社团中的小社团合并处理,得到最后的社团检测结果。
此外,在社团检测结果的基础上,对检测出的每一个法规社团赋予一个社团名,用该名称表示该社团内所有法规的共有属性。具体包括:统计各个法规社团中所有法规的主题词及其TF-IDF值,得到对应法规社团的主题词库;选择社团主题词库中词频最高的主题词作为对应法规社团的名称。用户在得到检索结果集后,还可以通过主题词筛选出感兴趣类别的法规,进一步提高了用户的检索体验。
本发明基于法规网络,使用SLPA社团检测算法实现法规基于内容的类别划分;自动提取法规主题实现社团命名:以每部法规中TF-IDF值最高的特征词作为该法规的主题词,以每个社团中出现频次最高的法规主题词作为该社团的类名。
使用SLPA对法规网络进行社团检测,SLPA算法继承了LPA的优点,具有近线性的时间复杂度,在任意规模的法规数据集上均有较好的表现。对法规复杂网络进行社团检测,其本质上是通过聚类的方式对法规进行类别划分,相比于文本分类算法,社团检测之前不需要人工生成带标签的训练集,以无监督模式执行类别划分,规避了分类算法中的一些难点,如神经网络中的调参过程。
为了进一步提高分类的效果,基于复杂网络的法规检索方法还包括:获取各法规的社团属性。根据法规的社团属性,将法规社团中的法规进一步细分。具体地,假设每一法规社团有若干部法规,这些法规的社团属性(也就是类别)可能是不同的,例如包括“标准”、“执法解释”、“法律”等等,用户可以按照类别在法规社团中筛选出感兴趣类别的法规进行查看,如从法规社团中选择类别为“标准”的政策法规进行查看。使得同一社团内的法规可以集中展示。
为了使用户检索相关法规时更简便,所述基于复杂网络的法规检索方法还包括:
计算所述法规复杂网络中各待分类法规的k-core值。待分类法规与所述法规社团中的法规相对应。k-core值是在加权网络中衡量节点重要性的一个指标,它基于节点的近邻数以及节点与近邻之间的边权重衡量节点在网络中的重要程度,节点的近邻数越多,其与近邻间的边权重越大,该节点在网络中就越重要。具体地,根据以下公式,计算待分类法规v的k-core值:
其中,kv为待分类法规v的k-core值,dv为待分类法规v的邻居法规的数量,wvu为待分类法规v与其邻居法规u之间连边的权重,m和n为比重调节参数,可以根据对度和权重侧重的不同动态的调整,例如:若将节点的度(即近邻数)和近邻间边的权重同等对待,可以取m=n=1。
在本实施例中,将各待分类法规的k-core值作为对应节点的一个属性进行存储。
针对所述检索结果集中各法规社团中的任一法规,根据所述法规的k-core值,计算所述法规与其邻居法规之间的综合相似度。所述邻居法规为在法规复杂网络中与所述法规之间存在连边的法规。具体地,根据以下公式,计算法规v1与其邻居法规u1的综合相似度:
Simv1,u1=λ·wv1,u1+(1-λ)·kv1;
其中,Simv1,u1为法规v1与其邻居法规u1的综合相似度,λ为比重调节参数,λ的大小可以根据对局部和全局的侧重不同而调整,wv1,u1为法规v1与其邻居法规u1之间连边的权重,kv1为法规v1的k-core值。
根据各综合相似度,对所述法规社团中的各法规进行降序排序。
将排序后的前p部法规作为相似法规集进行推荐。
本发明基于法规复杂网络,对于多个法规社团中的任意一部法规,计算其与每个近邻间的边权重和每个近邻节点的k-core值,对二者进行加权平均后作为该节点与近邻的综合相似度。对一部法规的所有近邻基于综合相似度进行降序排序,选取排序后的top-p部法规进行推荐,实现法规推荐功能。基于综合相似度的相似法规排序,不同于基于局部相似度的排序,它同时考虑了法规节点的局部相似性和全局重要性对相似法规排序的影响,提高了相似性排名的精度,优化了用户的检索体验。
本发明基于复杂网络的法规检索方法可以应用于对环境法规的分类中。同时,也可以替换为其他法规,因为法规分词处理是指将一部法规划分为若干词语,需要用到分词词典,这个过程是将法规划分为词典中存在的词语。不同类型的法规中可能会包含不同的特有词汇,这要求分词所使用的字典中要包含这些特有词汇才能保证分词有效性,从而保证分类效果。因此可以通过更换特定法规领域的词典保证分类效果。
用户在检索法规时,得到初步检索结果后,基于法规的类别,对法规进行分组,提高了用户的查找效率。同时对于检索结果中的任意一部法规,计算该法规所有近邻的k-core值和该法规与所有近邻的余弦相似度,基于余弦相似度和k-core值计算近邻节点的综合相似度指标,得到按指标降序排名top-p的相似法规,向用户进行推荐,提高了检索的精度。
为了更好的理解本发明的方案,下面结合具体实施例进一步进行说明。
将目前颁布的有关环境的法规收集到一起,作为待分类法规。
对每部待分类法规进行分词处理,得到法规语料库;法规语料库中包括多个特征词。
计算法规语料库中每个特征词在各待分类法规中的TF-IDF值。
针对每一待分类法规,根据每个特征词在待分类法规中的TF-IDF值,确定待分类法规的特征向量。
根据各待分类法规的特征向量,构建法规复杂网络。法规复杂网络包括节点集、边集和权重集;节点集中的节点为各待分类法规,即所有的环境法规。
基于社团检测算法,根据法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中包括多部环境法规。
用户检索时输入“大气污染”作为检索关键字。
分别计算“大气污染”在各待分类法规中的TF-IDF值。
将TF-IDF值大于频率阈值的待分类法规作为检索结果集。
确定检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团具体地,向用户展示的法规社团包括检索结果集中的法规及各法规的主题词,使得用户可以进一步根据法规的主题词筛选出感兴趣的法规。
如图2所示,本发明基于复杂网络的法规检索系统包括:分词单元1、词频计算单元2、特征向量确定单元3、网络构建单元4、分类单元5、检索单元6、检索结果集确定单元7及展示单元8。
其中,所述分词单元1用于对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词。
所述词频计算单元2与所述分词单元1连接,所述词频计算单元2用于计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值。
所述特征向量确定单元3与所述词频计算单元2连接,所述特征向量确定单元3用于针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量。
所述网络构建单元4与所述特征向量确定单元3连接,所述网络构建单元4用于根据各待分类法规的特征向量,构建法规复杂网络。所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规。
所述分类单元5与所述网络构建单元4连接,所述分类单元5用于基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规。
所述检索单元6用于获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的词频-逆文本频率指数TF-IDF值。
所述检索结果集确定单元7与所述检索单元6连接,所述检索结果集确定单元7用于将TF-IDF值大于频率阈值的待分类法规作为检索结果集。
所述展示单元8与所述分类单元5及所述检索结果集确定单元7连接,所述展示单元8用于确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
具体地,所述分词单元1包括:分词模块、停用词去除模块及合并模块。
其中,所述分词模块用于针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合。
所述停用词去除模块与所述分词模块连接,所述停用词去除模块用于去除所述词集合中的停用词,得到特征词集合。
所述合并模块与所述停用词去除模块连接,所述合并模块用于将每部待分类法规的特征词集合合并,得到法规语料库。
进一步地,所述网络构建单元4包括:节点确定模块、相似度计算模块、连边确定模块、集合确定模块以及网络构建模块。
其中,所述节点确定模块用于根据各待分类法规确定节点集。所述节点集中各待分类法规为节点。
所述相似度计算模块与所述特征向量确定单元3连接,用于针对任意两部待分类法规,计算两部待分类法规的特征向量之间的余弦相似度。
所述连边确定模块与所述相似度计算模块连接,所述连边确定模块用于判断余弦相似度是否大于相似度阈值,若余弦相似度大于相似度阈值,则在两部待分类法规之间添加连边,并将余弦相似度作为边的权重。
所述集合确定模块与所述连边确定模块连接,所述集合确定模块用于将所有连边作为边集,各连边对应的权重作为权重集。
所述网络构建模块分别与所述节点确定模块及所述集合确定模块连接,所述网络构建模块用于基于所述节点集、边集和权重集,构建法规复杂网络。
更进一步地,所述分类单元5包括:标签初始化模块、节点选择模块、标签选择模块及社团确定模块。
其中,所述标签初始化模块用于为所述法规复杂网络中的每个节点初始化一个标签集。每个节点的标签集中包括一个唯一的初始标签。
所述节点选择模块用于针对第r次标签传播迭代,从所述法规复杂网络中随机选择一个节点作为监听者Listener,所述监听者的邻居节点作为广播者Speaker;所述邻居节点为与所述监听者之间存在连边的节点。
各广播者用于采用多项分布实验方法从各自的标签集中选择一个标签,并将所述标签及所述标签的权重发送给监听者。所述标签的权重为所述广播者与监听者之间连边的权重。
所述监听者用于计算接收到的相同标签的权重之和,并将所述权重之和最高的标签添加至标签集中,并通过所述节点选择模块重新从所述法规复杂网络中随机选择一个节点作为监听者,直至迭代次数大于或等于迭代阈值。Listener选择权重之和最高的标签作为自己本轮迭代的标签。
所述社团确定模块用于根据各节点标签集中的标签,确定多个法规社团。
为了使用户检索相关法规时更简便,所述基于复杂网络的法规检索系统还包括:重要度计算单元、综合相似度计算单元、排序单元及推荐单元。
其中,所述重要度计算单元与所述网络构建单元4连接,所述重要度计算单元用于计算所述法规复杂网络中各待分类法规的k-core值。待分类法规与所述法规社团中的法规相对应。
具体地,根据以下公式,计算待分类法规v的k-core值:
其中,kv为待分类法规v的k-core值,dv为待分类法规v的邻居法规的数量,wvu为待分类法规v与其邻居法规u之间连边的权重,m和n为比重调节参数,可以根据对度和权重侧重的不同动态的调整,例如:若将节点的度(即近邻数)和近邻间边的权重同等对待,可以取m=n=1。
所述综合相似度计算单元与所述重要度计算单元连接,所述综合相似度计算单元用于针对所述检索结果集中各法规社团中的任一法规,根据所述法规的k-core值,计算所述法规与其邻居法规之间的综合相似度。所述邻居法规为在法规复杂网络中与所述法规之间存在连边的法规。
具体地,根据以下公式,计算法规v1与其邻居法规u1的综合相似度:
Simv1,u1=λ·wv1,u1+(1-λ)·kv1;
其中,Simv1,u1为法规v1与其邻居法规u1的综合相似度,λ为比重调节参数,λ的大小可以根据对局部和全局的侧重不同而调整,wv1,u1为法规v1与其邻居法规u1之间连边的权重,kv1为法规v1的k-core值。
所述排序单元分别与所述综合相似度计算单元及所述分类单元5连接,所述排序单元用于根据各综合相似度,对所述法规社团中的各法规进行降序排序。
所述推荐单元与所述所述排序单元连接,所述推荐单元用于将排序后的前p部法规作为相似法规集进行推荐。
相对于现有技术,本发明基于复杂网络的法规检索系统与上述基于复杂网络的法规检索方法的有益效果相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于复杂网络的法规检索方法,其特征在于,所述基于复杂网络的法规检索方法包括:
对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词;
计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值;
针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量;
根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规;
基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规;
获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值;
将TF-IDF值大于频率阈值的待分类法规作为检索结果集;
确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
2.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述对每部待分类法规进行分词处理,得到法规语料库,具体包括:
针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合;
去除所述词集合中的停用词,得到特征词集合;
将每部待分类法规的特征词集合合并,得到法规语料库。
4.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述根据每部待分类法规的特征向量,构建法规复杂网络,具体包括:
根据各待分类法规确定节点集;所述节点集中各待分类法规为节点;
针对任意两部待分类法规,计算两部待分类法规的特征向量之间的余弦相似度;
判断余弦相似度是否大于相似度阈值,若余弦相似度大于相似度阈值,则在两部待分类法规之间添加连边,并将余弦相似度作为边的权重;
将所有连边作为边集,各连边对应的权重作为权重集;
基于所述节点集、边集和权重集,构建法规复杂网络。
5.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团,具体包括:
为所述法规复杂网络中的每个节点初始化一个标签集;每个节点的标签集中包括一个唯一的初始标签;
针对第r次标签传播迭代,从所述法规复杂网络中随机选择一个节点作为监听者,所述监听者的邻居节点作为广播者;所述邻居节点为与所述监听者之间存在连边的节点;
各广播者采用多项分布实验方法从各自的标签集中选择一个标签,并将所述标签及所述标签的权重发送给监听者;所述标签的权重为所述广播者与监听者之间连边的权重;
计算所述监听者接收到的相同标签的权重之和;
将所述权重之和最高的标签添加至所述监听者的标签集中,重新从所述法规复杂网络中随机选择一个节点作为监听者,直至迭代次数大于或等于迭代阈值;
根据各节点标签集中的标签,确定多个法规社团。
6.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述基于复杂网络的法规检索方法还包括:
计算所述法规复杂网络中各待分类法规的k-core值;待分类法规与所述法规社团中的法规相对应;
针对所述检索结果集中各法规社团中的任一法规,根据所述法规的k-core值,计算所述法规与其邻居法规之间的综合相似度;所述邻居法规为在法规复杂网络中与所述法规之间存在连边的法规;
根据各综合相似度,对所述法规社团中的各法规进行降序排序;
将排序后的前p部法规作为相似法规集进行推荐。
8.根据权利要求6所述的基于复杂网络的法规检索方法,其特征在于,根据以下公式,计算法规v1与其邻居法规u1的综合相似度:
Simv1,u1=λ·wv1,u1+(1-λ)·kv1;
其中,Simv1,u1为法规v1与其邻居法规u1的综合相似度,λ为比重调节参数,wv1,u1为法规v1与其邻居法规u1之间连边的权重,kv1为法规v1的k-core值。
9.一种基于复杂网络的法规检索系统,其特征在于,所述基于复杂网络的法规检索系统包括:
分词单元,用于对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词;
词频计算单元,与所述分词单元连接,用于计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值;
特征向量确定单元,与所述词频计算单元连接,用于针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量;
网络构建单元,与所述特征向量确定单元连接,用于根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规;
分类单元,与所述网络构建单元连接,用于基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规;
检索单元,用于获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值;
检索结果集确定单元,与所述检索单元连接,用于将TF-IDF值大于频率阈值的待分类法规作为检索结果集;
展示单元,与所述分类单元及所述检索结果集确定单元连接,用于确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
10.根据权利要求9所述的基于复杂网络的法规检索系统,其特征在于,所述分词单元包括:
分词模块,用于针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合;
停用词去除模块,与所述分词模块连接,用于去除所述词集合中的停用词,得到特征词集合;
合并模块,与所述停用词去除模块连接,用于将每部待分类法规的特征词集合合并,得到法规语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476913.7A CN114168733B (zh) | 2021-12-06 | 2021-12-06 | 一种基于复杂网络的法规检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476913.7A CN114168733B (zh) | 2021-12-06 | 2021-12-06 | 一种基于复杂网络的法规检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114168733A true CN114168733A (zh) | 2022-03-11 |
CN114168733B CN114168733B (zh) | 2024-05-24 |
Family
ID=80483355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111476913.7A Active CN114168733B (zh) | 2021-12-06 | 2021-12-06 | 一种基于复杂网络的法规检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168733B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905577A (zh) * | 2023-02-08 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法及装置、法规检索方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070150515A1 (en) * | 2005-12-27 | 2007-06-28 | Scott Brave | Method and apparatus for determining usefulness of a digital asset |
CN107145516A (zh) * | 2017-04-07 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种文本聚类方法及系统 |
CN108614932A (zh) * | 2018-04-23 | 2018-10-02 | 中南大学 | 基于边图的线性流重叠社区发现方法、系统及存储介质 |
US20200356858A1 (en) * | 2019-05-10 | 2020-11-12 | Royal Bank Of Canada | System and method for machine learning architecture with privacy-preserving node embeddings |
CN112069416A (zh) * | 2020-08-21 | 2020-12-11 | 河南科技大学 | 基于社区发现的跨社交网络用户身份识别方法 |
CN112559593A (zh) * | 2020-12-14 | 2021-03-26 | 长安大学 | 一种基于标签聚类的本地化差分隐私保护方法 |
CN113094519A (zh) * | 2021-05-07 | 2021-07-09 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN113434716A (zh) * | 2021-07-02 | 2021-09-24 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
-
2021
- 2021-12-06 CN CN202111476913.7A patent/CN114168733B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070150515A1 (en) * | 2005-12-27 | 2007-06-28 | Scott Brave | Method and apparatus for determining usefulness of a digital asset |
CN107145516A (zh) * | 2017-04-07 | 2017-09-08 | 北京捷通华声科技股份有限公司 | 一种文本聚类方法及系统 |
CN108614932A (zh) * | 2018-04-23 | 2018-10-02 | 中南大学 | 基于边图的线性流重叠社区发现方法、系统及存储介质 |
US20200356858A1 (en) * | 2019-05-10 | 2020-11-12 | Royal Bank Of Canada | System and method for machine learning architecture with privacy-preserving node embeddings |
CN112069416A (zh) * | 2020-08-21 | 2020-12-11 | 河南科技大学 | 基于社区发现的跨社交网络用户身份识别方法 |
CN112559593A (zh) * | 2020-12-14 | 2021-03-26 | 长安大学 | 一种基于标签聚类的本地化差分隐私保护方法 |
CN113094519A (zh) * | 2021-05-07 | 2021-07-09 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN113434716A (zh) * | 2021-07-02 | 2021-09-24 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
Non-Patent Citations (2)
Title |
---|
HAO WANG: "A Unified Framework for Community Detection and Network Representation Learning", 《 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 》, vol. 31, no. 6, 4 July 2018 (2018-07-04), pages 1 - 16 * |
李昊阳: "基于标签聚类与项目主题的协同过滤推荐研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 June 2018 (2018-06-15), pages 138 - 2209 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905577A (zh) * | 2023-02-08 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法及装置、法规检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114168733B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia | Survey of nearest neighbor techniques | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
Patra et al. | A survey report on text classification with different term weighing methods and comparison between classification algorithms | |
CN111400432B (zh) | 事件类型信息处理方法、事件类型识别方法及装置 | |
CN109190023A (zh) | 协同推荐的方法、装置及终端设备 | |
CN110209808A (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN107506480A (zh) | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 | |
Nezhadi et al. | Ontology alignment using machine learning techniques | |
US11574240B2 (en) | Categorization for a global taxonomy | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN109508385B (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
US20180018566A1 (en) | Finding k extreme values in constant processing time | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Safae et al. | A review of machine learning algorithms for web page classification | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
Tu et al. | A theoretical investigation of several model selection criteria for dimensionality reduction | |
CN114168733B (zh) | 一种基于复杂网络的法规检索方法及系统 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
Llerena et al. | On using sum-product networks for multi-label classification | |
Wang et al. | Finding uninformative features in binary data | |
Holts et al. | Automated text binary classification using machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |