CN113536779B - 基于公文标题的热门话题数据处理方法、装置及电子设备 - Google Patents
基于公文标题的热门话题数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113536779B CN113536779B CN202110827216.5A CN202110827216A CN113536779B CN 113536779 B CN113536779 B CN 113536779B CN 202110827216 A CN202110827216 A CN 202110827216A CN 113536779 B CN113536779 B CN 113536779B
- Authority
- CN
- China
- Prior art keywords
- topic
- titles
- text
- cluster
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000001914 filtration Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于公文标题的热门话题数据处理方法、装置及电子设备,涉及数据处理技术领域,缓解了感知公文热点话题较难的技术问题。该方法包括:获取多个待分析公文标题;对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种基于公文标题的热门话题数据处理方法、装置及电子设备。
背景技术
目前,随着大数据时代来临,互联网走进千家万户,成为人们获取信息的最重要的途径。然而,在互联网信息资源极大丰富的同时,“信息冗余”、内容难以治理等问题也日益凸显。
国内外关于热门话题的研究比较少,多集中于研究热门话题的传播机制、从计算机技术层面分析热门话题的检测和跟踪技术,热门话题意义生成的符号学分析等,从传播学角度展开的论述还不够深入,没有达到系统化的程度。例如,浙江大学杨冠超的《微博热点话题发现策略研究》、哈尔滨工业大学丁伟莉的《中文Blog热门话题检测与跟踪技术研究》都是从计算机技术层面分析微博热门话题的热度预测模型与跟踪技术;余达明提出了双结构网络中的热门话题演化机制以及应用研究,该方法在LDA模型的基础上,通过命名实体表征聚类的话题,衡量话题的演化过程,达到了对海量新闻网页进行自动、高效的话题挖掘效果。所以,现有技术感知热门话题的难度较大。
发明内容
本申请的目的在于提供一种基于公文标题的热门话题数据处理方法、装置及电子设备,以缓解感知公文热点话题较难的技术问题。
第一方面,本申请实施例提供了一种基于公文标题的热门话题数据处理方法,所述方法包括:
获取多个待分析公文标题;
对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;
利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一个可能的实现中,所述方法还包括:
获取多个历史公文标题,所述历史公文标题中包括多个名称实体及日期实体;
对所述名称实体及所述日期实体进行标注,并利用标注的所述名称实体、所述日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,所述目标实体识别模块包括多个预设名称实体及预设日期实体。
在一个可能的实现中,对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题的步骤,包括:
利用所述目标实体识别模块对多个所述待分析公文标题进行识别;
当识别到所述日期实体时,对包含所述日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
在一个可能的实现中,利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
利用均值算法对所述第一文本标题进行聚类,得到两个第一子集;
对所述第一子集执行所述利用均值算法对所述第一文本标题进行聚类的步骤,直至得到若干第二子集,所述第二子集为话题簇;
对每个所述话题簇的关键词进行词频统计及标准差过滤;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一个可能的实现中,对每个所述话题簇的关键词进行词频统计及标准差过滤的步骤,包括:
对每个所述话题簇的关键词进行词频统计,并确定词频最大的预设数量的关键词;
计算每个所述话题簇中所有词频的标准差,并删除词频小于标准差的关键词。
在一个可能的实现中,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
将每个所述话题簇内的第一文本标题以逗号连接成文本,每个所述第一文本标题为话题候选摘要句;
利用TextRank算法对所述文本做抽取式摘要任务,确定权重分数最高的语句,并将所述语句作为话题候选描述句;
若所述话题簇内的关键词数等于输入词频数n,确定所述话题候选描述句为目标话题簇标题;
若所述话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。
在一个可能的实现中,所述方法还包括:
对多个所述目标话题簇标题的话题热度值进行计算,并根据所述话题热度值对所述目标话题簇标题进行排序。
第二方面,提供了一种基于公文标题的热门话题数据处理装置,包括:
获取模块,用于获取多个待分析公文标题;
过滤模块,用于对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;
聚类模块,用于利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种文本标题的处理方法、装置以及电子设备,能够获取多个待分析公文标题;对不符合预设实体名称的待分析公文标题进行过滤,得到过滤后的第一文本标题;利用重复二分聚类方法对多个第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。本方案中,由于待分析公文标题中存在多种实体名称,所以需要过滤待分析公文标题中包含预设实体名称的待分析公文标题,得到过滤后的第一文本标题,然后利用重复二分聚类方法对多个第一文本标题进行聚类,并对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。所以,通过重复二分聚类方法对第一文本标题进行处理,并得到目标话题簇标题,可以提高目标话题簇标题的准确度,便于用户快速实时的感知公文热点话题,为其做决策提供舆情情报,缓解了感知公文热点话题较难的技术问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于公文标题的热门话题数据处理方法的流程示意图;
图2为本申请实施例提供的基于公文标题的热门话题数据处理方法的另一流程示意图;
图3为本申请实施例提供的基于公文标题的热门话题数据处理方法的场景示意图;
图4为本申请实施例提供的基于公文标题的热门话题数据处理装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,随着大数据时代来临,互联网走进千家万户,成为人们获取信息的最重要的途径。然而,在互联网信息资源极大丰富的同时,“信息冗余”、内容难以治理等问题也日益凸显。国内外关于热门话题的研究比较少,多集中于研究热门话题的传播机制、从计算机技术层面分析热门话题的检测和跟踪技术,热门话题意义生成的符号学分析等,从传播学角度展开的论述还不够深入,没有达到系统化的程度。例如,浙江大学杨冠超的《微博热点话题发现策略研究》、哈尔滨工业大学丁伟莉的《中文Blog热门话题检测与跟踪技术研究》都是从计算机技术层面分析微博热门话题的热度预测模型与跟踪技术;余达明提出了双结构网络中的热门话题演化机制以及应用研究,该方法在LDA模型的基础上,通过命名实体表征聚类的话题,衡量话题的演化过程,达到了对海量新闻网页进行自动、高效的话题挖掘效果。所以,现有技术感知热门话题的难度较大。
基于此,本申请实施例提供了一种基于公文标题的热门话题数据处理方法、装置及电子设备,通过该方法可以缓解感知公文热点话题较难的技术问题。
下面结合附图对本申请实施例进行进一步地介绍。
图1为本申请实施例提供的一种基于公文标题的热门话题数据处理方法的流程示意图。其中,该方法应用于电子设备。如图1所示,该方法包括:
步骤S110,获取多个待分析公文标题;
步骤S120,对不符合预设实体名称的待分析公文标题进行过滤,得到过滤后的第一文本标题;
具体的,对待分析公文标题进行实体识别,如果识别到待分析公文标题中包括影响文本聚类的日期时间实体、停用词等时,过滤对应的待分析公文标题,得到过滤后的第一文本标题。
步骤S130,利用重复二分聚类方法对多个第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
具体的,通过重复二分聚类方法实现对第一文本标题聚类,通过设定准则函数的阈值a来自动判断聚类个数k,此时算法的停止条件为,当一个话题簇的二分增幅小于a时,不再对该簇进行划分,即认为这个话题簇已经达到最终状态,不可再分,最终得到多个目标话题簇标题。
本申请实施例中,可以获取多个待分析公文标题;对不符合预设实体名称的待分析公文标题进行过滤,得到过滤后的第一文本标题;利用重复二分聚类方法对多个第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。本方案中,由于待分析公文标题中存在多种实体名称,所以需要过滤待分析公文标题中包含预设实体名称的待分析公文标题,得到过滤后的第一文本标题,然后利用重复二分聚类方法对多个第一文本标题进行聚类,并对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。所以,通过重复二分聚类方法对第一文本标题进行处理,并得到目标话题簇标题,可以提高目标话题簇标题的准确度,便于用户快速实时的感知公文热点话题,为其做决策提供舆情情报,缓解了感知公文热点话题较难的技术问题。
下面对上述步骤进行详细介绍。
示例性的,图2为本申请实施例提供的基于公文标题的热门话题数据处理方法的另一流程示意图;图3为本申请实施例提供的基于公文标题的热门话题数据处理方法的场景示意图。
在一些实施例中,基于上述步骤S120,可以提前训练得到预设实体识别模块,以使电子设备利用目标实体识别模块对待分析文本标题进行过滤。作为一个示例,方法还包括:
步骤a),获取多个历史公文标题,历史公文标题中包括多个名称实体及日期实体;
步骤b),对名称实体及日期实体进行标注,并利用标注的名称实体、日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,目标实体识别模块包括多个预设名称实体及预设日期实体。
对于上述步骤a),获取多个历史公文标题,历史公文标题中包括多个名称实体、日期实体及停用词等。
对于上述步骤b),示例性的,通过历史公文标题中的公司、指定机构、学校、地名、人名等实体,使用标注好的语料对基于条件随机场(Conditional Random Field,CRF)的实体识别模型进行训练,得到目标实体识别模块,目标实体识别模块包括多个标注好的预设名称实体、预设日期实体及停用词等。
本申请实施例中,获取多个历史公文标题,历史公文标题中包括多个名称实体及日期实体;对名称实体及日期实体进行标注,并利用标注的名称实体、日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,目标实体识别模块包括多个预设名称实体及预设日期实体。所以,可以提前训练并得到目标实体识别模块,以使电子设备利用目标实体识别模块对待分析文本标题进行过滤。
在一些实施例中,基于上述步骤S120,可以利用目标实体识别模块对待分析文本标题进行过滤,以便得到更准确的第一文本标题。作为一个示例,步骤S120可以包括以下步骤:
步骤c),利用目标实体识别模块对多个待分析公文标题进行识别;
步骤d),当识别到日期实体时,对包含日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
对于上述步骤c),示例性的,利用使用训练好的目标实体识别模块对多个待分析公文标题进行识别。
对于上述步骤d),当识别到日期实体或/和停用词等时,对日期实体或/和停用词所在的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
本申请实施例中,利用目标实体识别模块对多个待分析公文标题进行识别;当识别到日期实体时,对包含日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。所以,可以利用目标实体识别模块对待分析公文标题进行过滤,得到更准确的第一文本标题,便于电子设备继续对第一文本标题进行处理,并得到目标话题簇标题。
在一些实施例中,基于上述步骤S130,可以利用重复二分聚类方法对多个第一文本标题进行聚类。作为一个示例,步骤S130可以包括以下步骤:
步骤e),利用均值算法对第一文本标题进行聚类,得到两个第一子集;
步骤f),对第一子集执行利用均值算法对第一文本标题进行聚类的步骤,直至得到若干第二子集,第二子集为话题簇;
步骤g),对每个话题簇的关键词进行词频统计及标准差过滤;
步骤h),对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
对于上述步骤e),示例性的,可以将多个第一文本标题看做是一个簇,利用均值算法对簇进行划分,得到两个第一子集。
对于上述步骤f),对第一子集重复执行步骤e),直至得到若干第二子集,即若干话题簇。
对于上述步骤g),对每个话题簇内的关键词进行词频统计及标准差过滤。
对于上述步骤h),对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
本申请实施例中,利用均值算法对第一文本标题进行聚类,得到两个第一子集;对第一子集执行利用均值算法对第一文本标题进行聚类的步骤,直至得到若干第二子集,第二子集为话题簇;对每个话题簇的关键词进行词频统计及标准差过滤;对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。所以,电子设备可以利用重复二分聚类方法对多个第一文本标题进行聚类,进而得到目标话题簇标题。
在一些实施例中,作为一个示例,上述步骤g)可以包括如下步骤:
步骤g1),对每个话题簇的关键词进行词频统计,并确定词频最大的预设数量的关键词;
步骤g2),计算每个话题簇中所有词频的标准差,并删除词频小于标准差的关键词。
对于上述步骤g1),示例性的,计算每个话题簇的关键词词频,取词频最大的前n个关键词,n为自定义取值。
对于上述步骤g2),计算每个话题簇中所有词频的标准差,去掉词频小于标准差的关键词,在该步骤之后,还可以去除关键词个数小于等于2的话题簇。
本申请实施例中,对每个话题簇的关键词进行词频统计,并确定词频最大的预设数量的关键词,计算每个话题簇中所有词频的标准差,并删除词频小于标准差的关键词。所以,电子设备可以对每个话题簇的关键词进行词频统计及标准差过滤,通过词频统计和标准差过滤对聚簇的纯度进行提升,过滤掉不属于当前簇的文本。
在一些实施例中,可以对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题,以使电子设备得到目标话题簇标题。作为一个示例,上述步骤h)可以包括如下步骤:
步骤h1),将每个话题簇内的第一文本标题以逗号连接成文本,每个第一文本标题为话题候选摘要句;
步骤h2),利用TextRank算法对文本做抽取式摘要任务,确定权重分数最高的语句,并将语句作为话题候选描述句;
步骤h3),若话题簇内的关键词数等于输入词频数n,确定话题候选描述句为目标话题簇标题;
步骤h4),若话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。
对于上述步骤h1),具体的,将每一个话题簇内的所有第一文本标题以逗号连接成一段文本,每个第一文本标题作为一个话题候选摘要句。
对于上述步骤h2),利用TextRank算法做抽取式摘要任务,确定权重分数最高的句子,并将该句子作为话题候选描述句。
对于上述步骤h3),若话题簇内的关键词数等于输入词频数n,表示话题簇内多个第一文本标题间内容相似度很高,直接确定话题候选描述句为目标话题簇标题。
对于上述步骤h4),若话题簇内关键词数小于输入词频数n,表示第二子集内多个第一文本标题间内容相似度较低,利用依存句法分析生成目标话题簇标题。
本申请实施例中,将每个话题簇内的第一文本标题以逗号连接成文本,每个第一文本标题为话题候选摘要句;利用TextRank算法对文本做抽取式摘要任务,确定权重分数最高的语句,并将语句作为话题候选描述句;若话题簇内的关键词数等于输入词频数n,确定话题候选描述句为目标话题簇标题;若话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。所以,电子设备可以利用textrank和依存句法分析对每个话题簇进行数据处理,确保生成的目标话题簇标题语义连贯、生动;可以利用TextRank抽取摘要帮助生成描述文本,减少计算量,降低计算成本。
在一些实施例中,可以对多个目标话题簇标题的话题热度值进行计算,以使用户根据排序确定热度值较高的目标话题簇标题。作为一个示例,上述方法还包括:
步骤l),对多个目标话题簇标题的话题热度值进行计算,并根据话题热度值对目标话题簇标题进行排序。
具体的,通过转载次数计算每个目标话题簇标题的话题热度值,并对话题热度值排序,示例性的,将话题热度值按照从大到小的顺序排序。
本申请实施例中,对多个目标话题簇标题的话题热度值进行计算,并根据话题热度值对目标话题簇标题进行排序,所以,便于用户根据排序确定热度值较高的目标话题簇标题。
在一些实施例中,作为一个示例,上述方法还包括:
1).通过对话题簇内关键词在句子中的语义关系进行分析,分析关键词是否存在主谓关系、动宾关系、动补结构、介宾关系、状中结构、并列关系和前附加关系。如果存在,添加入话题生成关键词库。
2).将话题生成关键词库中的关键词按照在句子中所在位置顺序拼接成话题;
3).采用CBOW模型,对每个话题簇中的话题生成词向量表示;
4).采用余弦相似度算法计算话题间相似度;
5).当相似度值大于阈值a时,融合两个话题,得到融合后的目标话题簇标题,反之,不融合。
图4提供了一种基于公文标题的热门话题数据处理装置的结构示意图。如图4所示,基于公文标题的热门话题数据处理装置400包括:
获取模块401,用于获取多个待分析公文标题;
过滤模块402,用于对不符合预设实体名称的待分析公文标题进行过滤,得到过滤后的第一文本标题;
聚类模块403,用于利用重复二分聚类方法对多个第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一些实施例中,基于公文标题的热门话题数据处理装置还用于:
获取多个历史公文标题,历史公文标题中包括多个名称实体及日期实体;
对名称实体及所述日期实体进行标注,并利用标注的名称实体、日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,目标实体识别模块包括多个预设名称实体及预设日期实体。
在一些实施例中,过滤模块用于:
利用目标实体识别模块对多个待分析公文标题进行识别;
当识别到日期实体时,对包含日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
在一些实施例中,聚类模块用于:
第一划分模块,用于利用均值算法对第一文本标题进行聚类,得到两个第一子集;
第二划分模块,用于对第一子集执行利用均值算法对第一文本标题进行聚类的步骤,直至得到若干第二子集,第二子集为话题簇;
统计模块,用于对每个话题簇的关键词进行词频统计及标准差过滤;
分析模块,用于对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题。
在一些实施例中,统计模块用于:
对每个话题簇的关键词进行词频统计,并确定词频最大的预设数量的关键词;
计算每个话题簇中所有词频的标准差,并删除词频小于标准差的关键词。
在一些实施例中,分析模块用于:
将每个话题簇内的第一文本标题以逗号连接成文本,每个第一文本标题为话题候选摘要句;
利用TextRank算法对文本做抽取式摘要任务,确定权重分数最高的语句,并将语句作为话题候选描述句;
若话题簇内的关键词数等于输入词频数n,确定话题候选描述句为目标话题簇标题;
若话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。
在一些实施例中,基于公文标题的热门话题数据处理装置还包括:
对多个目标话题簇标题的话题热度值进行计算,并根据话题热度值对目标话题簇标题进行排序。
本申请实施例提供的基于公文标题的热门话题数据处理装置,与上述实施例提供的基于公文标题的热门话题数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例提供的一种电子设备,如图5所示,电子设备500包括存储器501、处理器502,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图5,电子设备还包括:总线503和通信接口504,处理器502、通信接口504和存储器501通过总线503连接。
其中,存储器501可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口504(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线503可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器501用于存储程序,所述处理器502在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器502中,或者由处理器502实现。
处理器502可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器502读取存储器501中的信息,结合其硬件完成上述方法的步骤。
对应于上述基于公文标题的热门话题数据处理方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述基于公文标题的热门话题数据处理方法的步骤。
本申请实施例所提供的文本标题的处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述基于公文标题的热门话题数据处理方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于公文标题的热门话题数据处理方法,其特征在于,所述方法包括:
获取多个待分析公文标题;
对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;
利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题;
利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
利用均值算法对所述第一文本标题进行聚类,得到两个第一子集;
对所述第一子集执行所述利用均值算法对所述第一文本标题进行聚类的步骤,直至得到若干第二子集,所述第二子集为话题簇;
对每个所述话题簇的关键词进行词频统计及标准差过滤;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
将每个所述话题簇内的第一文本标题以逗号连接成文本,每个所述第一文本标题为话题候选摘要句;
利用TextRank算法对所述文本做抽取式摘要任务,确定权重分数最高的语句,并将所述语句作为话题候选描述句;
若所述话题簇内的关键词数等于输入词频数n,确定所述话题候选描述句为目标话题簇标题;
若所述话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。
2.根据权利要求1所述的基于公文标题的热门话题数据处理方法,其特征在于,所述方法还包括:
获取多个历史公文标题,所述历史公文标题中包括多个名称实体及日期实体;
对所述名称实体及所述日期实体进行标注,并利用标注的所述名称实体、所述日期实体及基于条件随机场对实体识别模型进行训练,得到目标实体识别模块,所述目标实体识别模块包括多个预设名称实体及预设日期实体。
3.根据权利要求2所述的基于公文标题的热门话题数据处理方法,其特征在于,对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题的步骤,包括:
利用所述目标实体识别模块对多个所述待分析公文标题进行识别;
当识别到所述日期实体时,对包含所述日期实体的待分析公文标题进行过滤,得到过滤后的多个第一文本标题。
4.根据权利要求1所述的基于公文标题的热门话题数据处理方法,其特征在于,对每个所述话题簇的关键词进行词频统计及标准差过滤的步骤,包括:
对每个所述话题簇的关键词进行词频统计,并确定词频最大的预设数量的关键词;
计算每个所述话题簇中所有词频的标准差,并删除词频小于标准差的关键词。
5.根据权利要求1所述的基于公文标题的热门话题数据处理方法,其特征在于,所述方法还包括:
对多个所述目标话题簇标题的话题热度值进行计算,并根据所述话题热度值对所述目标话题簇标题进行排序。
6.一种基于公文标题的热门话题数据处理装置,其特征在于,包括:
获取模块,用于获取多个待分析公文标题;
过滤模块,用于对不符合预设实体名称的所述待分析公文标题进行过滤,得到过滤后的第一文本标题;
聚类模块,用于利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题;
利用重复二分聚类方法对多个所述第一文本标题进行聚类,对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
利用均值算法对所述第一文本标题进行聚类,得到两个第一子集;
对所述第一子集执行所述利用均值算法对所述第一文本标题进行聚类的步骤,直至得到若干第二子集,所述第二子集为话题簇;
对每个所述话题簇的关键词进行词频统计及标准差过滤;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题;
对聚类后的话题簇根据textrank和依存句法进行分析,得到目标话题簇标题的步骤,包括:
将每个所述话题簇内的第一文本标题以逗号连接成文本,每个所述第一文本标题为话题候选摘要句;
利用TextRank算法对所述文本做抽取式摘要任务,确定权重分数最高的语句,并将所述语句作为话题候选描述句;
若所述话题簇内的关键词数等于输入词频数n,确定所述话题候选描述句为目标话题簇标题;
若所述话题簇内的关键词数小于输入词频数n,利用依存句法分析生成目标话题簇标题。
7.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110827216.5A CN113536779B (zh) | 2021-07-21 | 2021-07-21 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110827216.5A CN113536779B (zh) | 2021-07-21 | 2021-07-21 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536779A CN113536779A (zh) | 2021-10-22 |
CN113536779B true CN113536779B (zh) | 2024-02-02 |
Family
ID=78088584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110827216.5A Active CN113536779B (zh) | 2021-07-21 | 2021-07-21 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536779B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN112131863A (zh) * | 2020-08-04 | 2020-12-25 | 中科天玑数据科技股份有限公司 | 一种评论观点主题抽取方法、电子设备及存储介质 |
-
2021
- 2021-07-21 CN CN202110827216.5A patent/CN113536779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN112131863A (zh) * | 2020-08-04 | 2020-12-25 | 中科天玑数据科技股份有限公司 | 一种评论观点主题抽取方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113536779A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
Hua et al. | Short text understanding through lexical-semantic analysis | |
US9424524B2 (en) | Extracting facts from unstructured text | |
CN112347778B (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN110162750B (zh) | 文本相似度检测方法、电子设备及计算机可读存储介质 | |
US20140214835A1 (en) | System and method for automatically classifying documents | |
CN111581355B (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
US20150186503A1 (en) | Method, system, and computer readable medium for interest tag recommendation | |
US10831993B2 (en) | Method and apparatus for constructing binary feature dictionary | |
CN109388801B (zh) | 相似词集合的确定方法、装置和电子设备 | |
CN107688616B (zh) | 使实体的独特事实显现 | |
CN108090178B (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN109656385B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
CN110609952A (zh) | 数据采集方法、系统和计算机设备 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN113536779B (zh) | 基于公文标题的热门话题数据处理方法、装置及电子设备 | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
CN112487181A (zh) | 关键词确定方法和相关设备 | |
US10387472B2 (en) | Expert stance classification using computerized text analytics | |
US11341188B2 (en) | Expert stance classification using computerized text analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |