CN117009518A - 融合基本属性和文本内容的相似事件判断方法及其应用 - Google Patents
融合基本属性和文本内容的相似事件判断方法及其应用 Download PDFInfo
- Publication number
- CN117009518A CN117009518A CN202310833594.3A CN202310833594A CN117009518A CN 117009518 A CN117009518 A CN 117009518A CN 202310833594 A CN202310833594 A CN 202310833594A CN 117009518 A CN117009518 A CN 117009518A
- Authority
- CN
- China
- Prior art keywords
- event
- similarity
- events
- similar
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000007621 cluster analysis Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了融合基本属性和文本内容的相似事件判断方法及其应用,包括以下步骤:S00、对上报事件数据进行预处理;S10、基于上报事件数据的内容,计算两两事件之间的内容相似度;S20、以事件作为实体,构建事件图;S30、基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;S40、融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;S50、将事件图进行聚类分析得到多个聚类后的事件簇结果;S60、排序得到类似事件结果。本发明具有准确性高,不需要人工标注的优点。
Description
技术领域
本发明涉及文本挖掘和自然语言处理技术领域,特别是涉及融合基本属性和文本内容的相似事件判断方法及其应用。
背景技术
作为事件上报平台,12345(政务服务便民热线)每天汇集海量事件数据,这些事件难免有重复性和类似性,针对重复、类似事件的反馈方法与处理手段可以大致相同,参考历史相似事件的处理方法,将新汇集的相似事件聚合分析后再批量处理,能有效提高工作效率。通过研究相似事件,可以借鉴过去的经验,了解相似情境下的处理方法和效果。对于相关工作人员来说,能够在一定程度上弥补可能出现的知识局限性,从而提高类似问题解决的效率和准确性;对于社会治理来说,相似事件的研究可以帮助识别潜在的风险和挑战。通过比较和分析相似事件的发展和结果,可以提前预警可能出现的问题,并采取相应的措施进行风险管理和防范,帮助决策者和从业人员做出迅速、准确的应急响应,最大限度地减少损失和风险。
从技术方面看,12345相似事件的判断技术本质上是自然语言处理领域的文本相似性判断任务,即基于文本计算技术或机器学习技术来判断两个事件文本的相似程度,最终设定阈值返回相似事件。
在类似的相似事件判断研究中,已有的方法主要为:1)使用文本计算方法:获取事件数据,将事件文本进行向量化表示后,采用相似度计算公式直接进行向量计算后进行是否相似的判断;2)使用机器学习方法:获取事件数据,经过清洗和预处理后,进行人工标注和特征构造,选择一个适用的基础算法进行模型训练后再对新输入的事件进行相似度预测。
目前,研究者们在类似的相似事件判断方面有一定的进展,但是,这些方法在实际应用中仍面临许多问题,主要体现在:使用文本计算方法的研究大多局限于单一的文本特征,如事件关键词或事件主题等;或仅针对语义特征,聚焦于内容文本计算层面,计算两两事件之间的相似度,而忽略了事件数据在实际应用中的其他基本业务属性,造成了在应用层面的准确性和适配性难以提高;使用机器学习方法的研究非常依赖训练数据和特征构建,而目前缺少针对政务相似事件研究的专有数据集,需要人工标注,十分耗费人力和时间。
因此,亟待一种融合基本属性和文本内容的相似事件判断方法及其应用,以解决现有技术存在的问题。
发明内容
本发明实施例提供了融合基本属性和文本内容的相似事件判断方法及其应用,针对目前技术在应用层面的准确性和适配性难以提高,机器学习方法需要人工标注,工作强度高的问题。
本发明核心技术主要是将社会治理中的相似事件判断场景与自然语言处理技术相结合。
第一方面,本发明提供了融合基本属性和文本内容的相似事件判断方法,所述方法包括以下步骤:
S00、对上报事件数据进行预处理;
S10、基于上报事件数据的内容,计算两两事件之间的内容相似度;
S20、以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;
S30、基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;
S40、融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;
S50、将更新后的事件图进行聚类分析得到多个聚类后的事件簇结果;
S60、根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果。
进一步地,S00步骤中,将上报事件数据中的事件唯一标识和事件详情内容作为内容相似度计算数据集,将上报事件数据中的事件类别、事件关键词、事件发生区域、事件来源部门、事件上报方式作为事件业务基本属性相似度计算数据集。通过将内容相似度和事件业务基本属性相似度结合起来,可以综合考虑事件的文本特征和业务属性,从而更准确地判断事件之间的相似程度。这种综合考虑可以提高事件相似度判断的准确性和可靠性,使得最终的聚类和排序结果更加准确和有用。用户可以根据综合相似度高低来查找和理解具有相似属性和内容的事件,以便更好地分析和处理相关事件。
进一步地,S10的具体步骤为:
S11、对上报事件数据的内容进行分词处理以及停用词去除处理;
S12、将分词和停用词去除处理后的上报事件数据的内容进行向量化表示;
S13、通过向量计算,计算两两事件之间的内容相似度。
分词处理将文本内容切分成有意义的词语或短语,而停用词去除处理则会去除一些常见且无实际意义的词语(如“的”“是”“在”等),以减少噪音和提高计算效率。向量化是将文本内容转化为数值向量的过程,使得计算机可以对其进行计算和比较。常见的向量表示方法包括词袋模型(Bag-of-Words)和词嵌入(Word Embedding)等。基于向量表示的事件内容,可以使用各种相似度计算方法(如余弦相似度、欧氏距离等)来衡量事件之间的相似程度。通过计算两两事件之间的相似度,可以得到一个内容相似度矩阵或相似度图,用于后续的相似事件判断和聚类分析。
进一步地,S30步骤中,通过计算两两事件交集元素分别所占并集的比例,得到两两事件的属性相似度,该并集为两个事件的事件业务基本属性相似度计算数据集的并集。可以衡量事件之间基本属性的相似程度,并在最终的事件属性相似度计算中起到重要作用。这可以帮助综合考虑事件的基本属性和关键词特征,提高事件相似度判断的准确性,进一步完善相似事件的聚类和排序结果。
进一步地,S30步骤中,通过同义词词林的语句相似度计算方法计算两两事件之间的关键词属性相似度。可以计算两两事件之间的关键词属性相似度,从而提供更全面和准确的事件相似度判断。这可以帮助综合考虑事件的基本属性和关键词特征,进一步完善相似事件的聚类和排序结果,使得结果更符合实际情况。
进一步地,S50的具体步骤为:
S51、将事件作为顶点,将顶点当作一个社区,使社区数量与顶点数量一致;
S52、依次将每个顶点与相邻的顶点合并成一个结点,计算该结点的模块增益度是否大于0;
S53、若是,则将结点放入相邻结点所在的社区中;
S54、循环S52-S53步骤,直至所有顶点所属社区不再变化;
S55、将每个社区内所有结点压缩为一个结点,并将社区内的所有结点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重;
S56、重复S51-S54步骤,直至权重不再变化;
S57、以每个社区作为聚类后的事件簇结果并输出。
可进一步提高相似事件判断的准确性,同时挖掘出网络中结点间可能隐藏的连接关系。
进一步地,S60步骤中,在每一个事件簇内根据综合相似度进行倒序排序,得到相似程度从高到低的类似事件结果。
第二方面,本发明提供了一种融合基本属性和文本内容的相似事件判断装置,包括:
预处理模块,用于对上报事件数据进行预处理;
相似度计算模块,用于基于上报事件数据的内容,计算两两事件之间的内容相似度;用于基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;
事件图构建模块,用于以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;用于融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;
聚类分析模块,用于将更新后的事件图进行聚类分析得到多个聚类后的事件簇结果;
输出模块,用于根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果并输出。
第三方面,本发明提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的融合基本属性和文本内容的相似事件判断方法。
第四方面,本发明提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的融合基本属性和文本内容的相似事件判断方法。
本发明的主要贡献和创新点如下:1、与现有技术相比,本发明将社会治理中的相似事件判断场景与自然语言处理技术相结合,从数据内容本身和数据内容所属业务特性两个方面实现相似事件的判断;融合事件数据的文本内容特征与业务属性特征,结合文本计算和文本聚类的技术,构造了相似事件判断的模型,无需人工标注数据,同时引入图计算方法,完成业务属性特征的量化,同时基于图实现内容属性特征和业务属性特征的融合计算,内容层面的特征量化能够提高相似事件判断的准确性,业务属性层面的特征量化能够提升相似事件判断的针对性,能够更加贴合实际应用、更好地适配于不同的业务领域中。
2、与现有技术相比,本发明可以将智慧社区治理中政务数据分析与数据挖掘、自然语言处理技术相结合,能够充分利用已有上报事件数据资源,充分利用事件数据中蕴含的文本特性以及事件本身的业务属性,建立相似事件判断模型,对新上报的事件数据与历史事件进行对比分析,如果判断为是有较为相似的事件,则可以从历史事件中抽取出相似事件及其对应的反馈意见、下一级流转方向或解决方案等,为新上报的事件处理提供参考,辅助相关工作人员进行决策。
3、与现有技术相比,本发明可以应用于基层社区治理工作中,能够在一定程度上弥补相关工作人员可能出现的知识局限性,从而提高类似事件解决的效率;同时,能够协助人工构建有效的相似事件标准化处理方案、预警机制,让政务数据挖掘和智慧社区治理更加科学化、智能化。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的融合基本属性和文本内容的相似事件判断方法的流程;
图2是根据本发明实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
目前,研究者们在类似的相似事件判断方面有一定的进展,但是,这些方法在实际应用中仍面临许多问题,主要体现在:使用文本计算方法的研究大多局限于单一的文本特征,如事件关键词或事件主题等;或仅针对语义特征,聚焦于内容文本计算层面,计算两两事件之间的相似度,而忽略了事件数据在实际应用中的其他基本业务属性,造成了在应用层面的准确性和适配性难以提高;使用机器学习方法的研究非常依赖训练数据和特征构建,而目前缺少针对政务相似事件研究的专有数据集,需要人工标注,十分耗费人力和时间。
基于此,本发明基于融合基本属性和文本内容的相似事件判断来解决现有技术存在的问题。
实施例一
本发明旨在提出一种融合基本属性和文本内容的相似事件判断方法,具体地,参考图1,所述方法包括以下步骤:
S00、对上报事件数据进行预处理;
在本实施例中,采集结构化12345事件数据,获取事件唯一标识与事件详情内容作为内容相似度计算数据集,获取事件类别、事件关键词、事件发生区域、事件来源部门、事件上报方式作为事件业务基本属性相似度计算数据集。
S10、基于上报事件数据的内容(内容相似度计算数据集),计算两两事件之间的内容相似度;
在本实施例中,在获取事件详情内容数据后,可以通过文本计算技术来计算事件内容之间的相似度。考虑到12345事件所采集的详情内容数据长度较短,同时关注文本内容层面的相似,为了获取更全面的语义信息、提高相似度计算的准确性,本发明采用GloVe模型(Global Vectors模型,以下简称GloVe)进行文本向量化表示,其基本原理是通过语料库构建单词的共现矩阵,然后通过该共现矩阵用概率的思想得到最终的词向量,综合了全局语料,与其他向量化模型相比考虑了全局信息,适用于本发明所关注的上报事件数据内容相似度的计算。其中,Global Vectors(GloVe)是一种用于学习词向量表示的模型。它是一种基于全局词汇统计信息的无监督学习算法,旨在捕捉词语之间的语义关系。
GloVe模型的核心思想是通过分析大规模文本语料库中的词语共现统计信息来学习词向量。它利用全局上下文信息来建立词语之间的关联,并使用矩阵分解技术来学习词向量表示。
具体步骤如下:
S11、文本内容预处理。由于所处理的文本是中文,因此在数据标注之前需要对事件文本数据进行预处理,主要包括分词和去停用词。本发明采用jieba(一种中文开源分词包,具有高性能、准确率、可扩展性等特点)分词方法进行分词,使用业内学者常用的权威停用词表《哈工大停用词表》来去除停用词。
S12、文本内容向量化。采用GloVe模型预训练好的词向量,对步骤S11中完成分词和去停用词处理的事件内容详情文本进行向量化表示。
S13、文本内容相似度计算。在完成事件内容文本的向量化表示之后,通过向量计算,来计算两两事件内容文本之间的相似度值,具体计算公式如下所示:
其中,A和B分别对应预处理后两两事件内容文本中的词向量。至此完成事件详情内容的相似度计算,记为C(A,B)。
S20、以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;
在本实施例中,为了便于后续图计算与社区发现聚类算法的实践,同时为了提高算法运行的效率,本发明将处理后的事件数据转化为图结构存储。
图结构是一种与树结构相似的数据结构,主要研究事物之间的关系,在图中,主要用顶点代表事物,边代表两个事物之间的关系,常用来存储逻辑关系为“多对多”的数据。对于本发明所研究的应用场景而言,事件与事件之间也为“多对多”的关系,同时后续还要进行图计算,因此图存储结构较为适用。
在本发明中,将事件作为实体(即图中的点),两两事件之间的内容相似度作为关系(即图中的边),内容相似度的具体值作为边的权重,则构建的事件图为加权无向图,具体结构可以表示为:
其中,A、B、C(,)和E、F、C(,)分别表示不同的事件以及事件之间的关系,a、b表示每个事件的各业务属性对应值。
S30、基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;
在本实施例中,在事件图构建完成之后,基于图采用Jaccard算法进行属性相似度的计算。Jaccard算法(中文名“杰卡德算法”,以下统称为Jaccard)是一种基于统计的相似度度量的方法,又称为Jaccard相似系数(Jaccard similarity coefficient),常用于比较有限样本集之间的相似性与差异性。Jaccard图算法的计算不涉及具体元素值的大小,只关注元素的存在与否。因此,无论集合的大小如何,它都能够提供相似性的度量;同时,Jaccard图算法受数据的噪声和不完整性的影响较小,即使数据存在一些缺失或错误,Jaccard图仍然可以提供有意义的相似性度量。Jaccard系数值越大、所对比的样本相似度越高;其具体计算原理为:两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard相似系数,用符号J(A,B)表示,计算公式如下所示:
在本发明中,集合A、B分别看作事件A和事件B的属性集,集合A、B的交集可以看作两个事件相同的属性个数,集合A、B的并集,代入计算公式中得到两两事件之间的Jaccard系数值作为属性相似度,记为J(A,B)。
即通过计算两两事件交集元素分别所占并集的比例,得到两两事件的属性相似度,该并集为两个事件的事件业务基本属性相似度计算数据集的并集。可以衡量事件之间基本属性的相似程度,并在最终的事件属性相似度计算中起到重要作用。这可以帮助综合考虑事件的基本属性和关键词特征,提高事件相似度判断的准确性,进一步完善相似事件的聚类和排序结果。
同时,观察本发明所使用的属性特征可知,事件类别、事件发生区域、事件来源部门、事件上报方式这三种特征取值范围差异较大,即不同的事件类别、不同的发生区域、不同的来源部门、不同的上报方式的取值之间不具有关联性、各不影响,与之相对的,事件关键词的取值可能会存在一定程度上的相似性,如事件1涉及的关键词为“损坏”,事件2涉及的关键词为“破损”,虽然取值不同,但是从语义层面看,事件1和2都涉及损坏,属于相似事件的可能性很高。因此,为了提高属性相似度的准确程度,针对事件关键词这一业务属性,除了上述步骤中得到的属性相似度J(A,B)之外,进一步从语义层面再计算一次相似度。
在本发明中,事件关键词的相似度计算的重点在于从语义层面识别出中文词语含义的相似度。通常情况下,在自然语言处理领域默认词语是最小的语义单位,可将词语转化为词向量后以词向量的相似度表示词语相似度,例如常用的One-Hot(独热编码)方法。但在实际应用中,One-Hot存在维数灾难、无法有效理解同义词和近义词等问题。考虑到这种情况,本发明采用基于同义词词林的词语相似度计算方法。
《同义词词林》是最早由梅家驹等人编写的一部大词典,后由学者优化得到如今常用的版本《哈工大信息检索研究室同义词词林扩展版》(以下简称《词林》),所有词语被组织成一种有5个层次的树状结构,这些词语被分为大类、中类和小类3种,属于树状结构的前3层;小类之下又可以细分为词群和原子词群。其中词群是第4层,是将小类中的词语根据词语之间的词义相关性和词义相似性进行划分。而原子词群又在词群的基础上进行划分,为第5层也是词义刻画最细的一层,每个原子词群中的词语相关性很大且词语语义也基本相同。在本发明中,基于《词林》计算事件关键词相似度的公式如下所示:
其中,A、B为待计算的词语,θ为根据作为叶子结点的两个词语在哪一层分支所相应的系数值(为公认常数,第一层到第五层系数分别为0.1、0.65、0.8、0.9、0.96),n为分支处的结点数,k为两个分支之间的距离。
将两两事件之间的关键词经过上述步骤进行计算,得到事件关键词属性相似度,记为S(A,B)。由于S(A,B)和J(A,B)均与事件属性相似度成正比,即S(A,B)和J(A,B)越大,事件属性相似程度越高,因此将S(A,B)和J(A,B)相乘作为最终的事件属性相似度,记为F(A,B)。
S40、融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;
在本实施例中,经过前述步骤,获得事件与事件之间的内容相似度与属性相似度两个相似度值,将两个相似度进行融合作为综合相似度,并将S30步骤中构建的事件图中边的权重更新为S40步骤中融合计算所得到的综合相似度F(A,B),所得到的新的事件图用于后续聚类。
S50、将更新后的事件图进行聚类分析得到多个聚类后的事件簇结果;
在本实施例中,在获得带有综合相似度F(A,B)的事件图数据之后,为了进一步提高相似事件判断的准确性,同时为了挖掘出网络中结点间可能隐藏的连接关系,利用Louvain算法对事件进行进一步聚类分析。
Louvain算法(鲁汶算法,以下均称为Louvain算法)是一种基于模块度的社区发现算法,其基本思想是网络中结点尝试遍历所有邻居的社区标签,并选择最大化模块度增量的社区标签,在最大化模块度之后,每个社区看成一个新的结点,重复直到模块度不再增大。其中,模块度是评估一个社区网络划分好坏的度量方法,用以描述社区内紧密程度的值Q;它的物理含义是社区内结点的连边数与随机情况下的边数之差,取值范围是[-1/2,1);一般以Q=0.3作为网络有明显社区结构的度量,Q值越接近1,说明发现的社区质量越高。模块度的计算公式如下所示:
其中,∑in表示社区内部的权重,即处于该社区内部边的权重(F(A,B))之和,∑tot表示社区内部所有的点连接的权重(与∑in的不同在于还包括社区与其他社区连接的那些边的权重),m表示图中所有链路权重的总和。
模块度增量(delta Q)是指把一个孤立的点放入一个社区C后模块度的变化,计算过程的要,点是首先计算1个点的模块度和社区C的模块度,再计算合并后新社区的模块度,新社区的模块度减去前两个模块度就是模块度增量。具体计算公式如下所示:
其中,ki是关联到结点i的链路的权重的总和,ki,是从结点i连接到社区C中的结点的链路的总和,∑in表示社区内部的权重,即处于该社区内部边的权重F(A,B)之和,∑tot表示社区内部所有的点连接的权重(与∑in的不同在于还包括社区与其他社区连接的那些边的权重),m是网络中的所有链路的权重的总和。
基于这两个概念,Louvain算法具体步骤如下:
S51、初始时将每个顶点当作一个社区,社区个数与顶点个数相同。
S52、依次将每个顶点与之相邻顶点合并在一起,计算它们的模块度增益是否大于0,如果大于0,就将该结点放入该相邻结点所在社区。
S53、迭代S52,直至算法稳定,即所有顶点所属社区不再变化。
S54、将各个社区所有结点压缩成为一个结点,社区内点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重。
S55、重复步骤S51-S53,直至算法稳定,即参数不再变化,已经完成聚类过程。
S56、将带有综合相似度的事件图输入并运行Louvain算法,最终输出多个聚类后的事件簇结果。
S60、根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果。
在本实施例中,对于S50中获得的事件簇,在每一个事件簇内根据综合相似度进行倒序排序,得到相似程度从高到低的类似事件结果。
如此,与其他的方法相比,本发明所采用的基于图计算去融合文本内容和业务属性两个特征计算事件相似度的方法,不仅从内容层面挖掘事件属性,在一定程度上解决了特征类别单一对相似度计算的消极影响;同时充分利用了数据中的业务属性,对于取值较为单一的业务属性(在本发明中为事件类别、事件发生区域、事件来源部门、事件上报方式四种属性),直接使用Jaccard算法计算属性相似度J1;对于取值需要考虑语义相似程度的特殊业务属性(在本发明中为“事件关键词”属性),则进一步考虑基于语义层面的词语文本相似度计算方法,借助同义词词林计算得到特殊业务属性的相似度J2,最后将两种相似度J1、J2进行融合得到综合相似度。基于图计算的技术,不仅能实现业务属性相似度的量化计算,还能通过给图的边加权的方式,将内容相似度作为边的权重,对两种量化后的相似度值进行融合计算。这一方法是对事件所属业务场景和事件内容本身的双重计算,完成了业务属性和数据本身内容属性的融合,与所要解决的任务贴合度高,能够有效提高模型对政务数据专有特征,以及对实际业务特征的利用,能够适用于不同部门、不同领域的政务事件数据中,从而提高特定场景下相似事件判断结果的准确性。
本发明所采用的Louvain算法是一种基于层次聚类和局部优化的聚类算法,在图结构的数据上运行具有快速、高效且时间复杂度低的优点。本发明基于这一优点,将事件聚类转化为复杂网络进行处理后采用Louvain算法进行聚类分析,能够提高聚类性能,同时可以发现层次性的社区结构,既能挖掘到事件之间的隐藏联系,从而提高聚类结果正确性、从而提高相似事件判断的准确程度。
可以将智慧社区治理中政务数据分析与数据挖掘、自然语言处理技术相结合,能够充分利用已有上报事件数据资源,充分利用事件数据中蕴含的文本特性以及事件本身的业务属性,建立相似事件判断模型,对新上报的事件数据与历史事件进行对比分析,如果判断为是有较为相似的事件,则可以从历史事件中抽取出相似事件及其对应的反馈意见、下一级流转方向或解决方案等,为新上报的事件处理提供参考,辅助相关工作人员进行决策。
实施例二
基于相同的构思,本发明还提出了一种融合基本属性和文本内容的相似事件判断装置,包括:
预处理模块,用于对上报事件数据进行预处理;
相似度计算模块,用于基于上报事件数据的内容,计算两两事件之间的内容相似度;用于基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;
事件图构建模块,用于以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;用于融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;
聚类分析模块,用于将更新后的事件图进行聚类分析得到多个聚类后的事件簇结果;
输出模块,用于根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果并输出。
实施例三
本实施例还提供了一种电子装置,参考图2,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意融合基本属性和文本内容的相似事件判断方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是上报事件数据等,输出的信息可以是相似程度从高到低的类似事件结果等。
实施例四
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的融合基本属性和文本内容的相似事件判断方法。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质,以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (10)
1.融合基本属性和文本内容的相似事件判断方法,其特征在于,包括以下步骤:
S00、对上报事件数据进行预处理;
S10、基于上报事件数据的内容,计算两两事件之间的内容相似度;
S20、以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;
S30、基于所述事件图,计算两两事件之间的属性相似度和关键词属性相似度,将所述属性相似度和所述关键词属性相似度相乘作为最终的事件属性相似度;
S40、融合所述内容相似度和事件属性相似度得到综合相似度,以所述综合相似度作为所述事件图的边的权重,更新所述事件图;
S50、将更新后的所述事件图进行聚类分析得到多个聚类后的事件簇结果;
S60、根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果。
2.如权利要求1所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S00步骤中,将上报事件数据中的事件唯一标识和事件详情内容作为内容相似度计算数据集,将上报事件数据中的事件类别、事件关键词、事件发生区域、事件来源部门、事件上报方式作为事件业务基本属性相似度计算数据集。
3.如权利要求1所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S10的具体步骤为:
S11、对上报事件数据的内容进行分词处理以及停用词去除处理;
S12、将分词和停用词去除处理后的上报事件数据的内容进行向量化表示;
S13、通过向量计算,计算两两事件之间的内容相似度。
4.如权利要求2所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S30步骤中,通过计算两两事件交集元素分别所占并集的比例,得到两两事件的属性相似度,该并集为两个事件的事件业务基本属性相似度计算数据集的并集。
5.如权利要求4所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S30步骤中,通过同义词词林的语句相似度计算方法计算两两事件之间的关键词属性相似度。
6.如权利要求1所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S50的具体步骤为:
S51、将事件作为顶点,将顶点当作一个社区,使社区数量与顶点数量一致;
S52、依次将每个顶点与相邻的顶点合并成一个结点,计算该结点的模块增益度是否大于0;
S53、若是,则将结点放入相邻结点所在的社区中;
S54、循环S52-S53步骤,直至所有顶点所属社区不再变化;
S55、将每个社区内所有结点压缩为一个结点,并将社区内的所有结点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重;
S56、重复S51-S54步骤,直至权重不再变化;
S57、以每个社区作为聚类后的事件簇结果并输出。
7.如权利要求1-6任意一项所述的融合基本属性和文本内容的相似事件判断方法,其特征在于,S60步骤中,在每一个事件簇内根据综合相似度进行倒序排序,得到相似程度从高到低的类似事件结果。
8.一种融合基本属性和文本内容的相似事件判断装置,其特征在于,包括:
预处理模块,用于对上报事件数据进行预处理;
相似度计算模块,用于基于上报事件数据的内容,计算两两事件之间的内容相似度;用于基于事件图,计算两两事件之间的属性相似度和关键词属性相似度,将属性相似度和关键词属性相似度相乘作为最终的事件属性相似度;
事件图构建模块,用于以事件作为实体,两两事件之间的内容相似度作为关系,内容相似度的值作为边的权重,构建事件图;用于融合内容相似度和事件属性相似度得到综合相似度,以综合相似度作为事件图的边的权重,更新事件图;
聚类分析模块,用于将更新后的事件图进行聚类分析得到多个聚类后的事件簇结果;
输出模块,用于根据事件簇结果,按综合相似度高低进行排序,得到类似事件结果并输出。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的融合基本属性和文本内容的相似事件判断方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至7任一项所述的融合基本属性和文本内容的相似事件判断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833594.3A CN117009518A (zh) | 2023-07-06 | 2023-07-06 | 融合基本属性和文本内容的相似事件判断方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833594.3A CN117009518A (zh) | 2023-07-06 | 2023-07-06 | 融合基本属性和文本内容的相似事件判断方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009518A true CN117009518A (zh) | 2023-11-07 |
Family
ID=88570125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310833594.3A Pending CN117009518A (zh) | 2023-07-06 | 2023-07-06 | 融合基本属性和文本内容的相似事件判断方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009518A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520484A (zh) * | 2024-01-04 | 2024-02-06 | 中国电子科技集团公司第十五研究所 | 基于大数据语义的相似事件检索方法、系统、设备和介质 |
-
2023
- 2023-07-06 CN CN202310833594.3A patent/CN117009518A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520484A (zh) * | 2024-01-04 | 2024-02-06 | 中国电子科技集团公司第十五研究所 | 基于大数据语义的相似事件检索方法、系统、设备和介质 |
CN117520484B (zh) * | 2024-01-04 | 2024-04-16 | 中国电子科技集团公司第十五研究所 | 基于大数据语义的相似事件检索方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN109492230B (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
US8832126B2 (en) | Custodian suggestion for efficient legal e-discovery | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN110008306A (zh) | 一种数据关系分析方法、装置及数据服务系统 | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
US20230306035A1 (en) | Automatic recommendation of analysis for dataset | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN111339258A (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
US20230162518A1 (en) | Systems for Generating Indications of Relationships between Electronic Documents | |
Ataman et al. | Transforming large-scale participation data through topic modelling in urban design processes | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
CN114254620A (zh) | 政策解析方法、装置和存储介质 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
CN111291182A (zh) | 热点事件发现方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |