CN116304065B - 舆情文本分类方法、装置、电子设备及存储介质 - Google Patents

舆情文本分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116304065B
CN116304065B CN202310581546.XA CN202310581546A CN116304065B CN 116304065 B CN116304065 B CN 116304065B CN 202310581546 A CN202310581546 A CN 202310581546A CN 116304065 B CN116304065 B CN 116304065B
Authority
CN
China
Prior art keywords
simhash
public opinion
code
text
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310581546.XA
Other languages
English (en)
Other versions
CN116304065A (zh
Inventor
何宇凡
赵小兰
何作祥
周锦琦
陈紫丹
郑家森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meiyun Zhishu Technology Co ltd
Original Assignee
Meiyun Zhishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meiyun Zhishu Technology Co ltd filed Critical Meiyun Zhishu Technology Co ltd
Priority to CN202310581546.XA priority Critical patent/CN116304065B/zh
Publication of CN116304065A publication Critical patent/CN116304065A/zh
Application granted granted Critical
Publication of CN116304065B publication Critical patent/CN116304065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种舆情文本分类方法、装置、电子设备及存储介质,包括:根据优先展示内容、正文内容、舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码;对舆情文本的SimHash编码进行子段划分,基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本分类结果。本发明提供的舆情文本分类方法及装置,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,提高了SimHash编码的可靠性以及准确性,且根据该SimHash编码的子段确定舆情文本的相似性,减少了舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。

Description

舆情文本分类方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种舆情文本分类方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,越来越多的网民开始使用各种应用平台来发表自己的观点和问题。这也使得舆情信息传播范围变得更广,传播速度变得更快,舆情的影响也越来越大。舆情信息的易复制、易转载属性以及互联网水军的存在导致互联网上存在海量的重复相似的信息。这些相似的舆情信息不但增加了舆情信息的获取成本、存储成本、分析成本,同时影响了舆情信息的分析效果、索引效率,严重影响了舆情信息的价值发挥。
因此,如何对舆情信息进行准确、高效地分类,对舆情信息的获取与应用具有十分重要的意义。
发明内容
本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提出一种舆情文本分类方法,能够提高舆情文本分类的准确性和效率。
本发明还提出一种舆情文本分类装置。
本发明还提出一种电子设备以及非暂态计算机可读存储介质。
根据本发明第一方面实施例的舆情文本分类方法,包括:
确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;
根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;
基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段。
本发明实施例提供的舆情文本分类方法,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
根据本发明的一个实施例,所述基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果,包括:
确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;
确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。
根据本发明的一个实施例,所述的舆情文本分类方法,还包括:
确定所述第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:
确定t≥1,对所述第一SimHash编码中与所述目标SimHash编码具有t个相同SimHash编码子段的SimHash编码进行随机抽样得到抽样集合;t=J-1,J为所述SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次所述第一步骤,t的大小减1;
根据所述抽样集合中各元素与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第三SimHash编码;
根据所述Mode函数对各所述第三SimHash编码进行处理,得到第二结果;
确定所述第二结果作为所述舆情文本分类结果之一的概率大于等于第一概率阈值,根据所述第二结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第二结果作为所述舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的所述第一步骤;所述第二概率阈值小于所述第一概率阈值。
本发明实施例提供的舆情文本分类方法,通过在第一SimHash编码集合中进行抽样得到第三SimHash编码,再通过Mode函数在第三SimHash编码中确定第二结果,以及逐渐减小t值,以相似度由高到低的逐步确定的方式获得与舆情文本相似的文本的分类标签,可以有效的确保第二结果确定的准确性,通过第二结果的作为舆情文本分类结果之一的概率与第一、第二概率阈值进行比较,可以进一步的确保以第二结果作为舆情文本分类的准确性。
根据本发明的一个实施例,所述第一步骤还包括:
确定所述第二结果作为所述舆情文本分类结果之一的概率小于所述第一概率阈值,并且大于所述第二概率阈值,确定各所述第一SimHash编码与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第四SimHash编码;
根据所述Mode函数对各所述第四SimHash编码进行处理,得到第三结果;
确定所述第三结果作为所述舆情文本分类结果之一的概率大于等于所述第二概率阈值,根据所述第三结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,则执行下一次的所述第一步骤。
本发明实施例提供的舆情文本分类方法,通过在概率处于第一、第二概率阈值中间时,将对全部SimHash编码求取相似度,增加确定相似性的数量,有利于确保文本标签获取的准确性,同时再根据与第二概率阈值进行比较,进一步确保了舆情文本分类的准确性。
根据本发明的一个实施例,所述的舆情文本分类方法,还包括:
确定t=1,并且确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
根据本发明的一个实施例,所述根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码,包括:
分别对所述优先展示内容、所述正文内容进行关键词提取,得到各优先展示内容关键词以及各正文内容关键词;
根据各所述优先展示内容关键词及其对应的优先展示内容关键词权重、所述各正文内容关键词及其对应的正文内容关键词权重、所述各舆情文本所属领域的权重,确定所述各舆情文本的SimHash编码。
本发明实施例提供的舆情文本分类方法,通过对优先展示内容以及正文内容进行关键词提取,并根据提取的关键词对舆情文本进行SimHash编码,有效降低了SimHash编码的计算量,提高了SimHash编码效率进而提高了文本分类的效率,另一方面通过为优先展示内容以及正文内容以及领域关键词赋予权重,有效降低了低关联度文本数据对文本分类结果的影响,提高了舆情文本分类的准确性。
根据本发明第二方面实施例的舆情文本分类装置,包括:
内容确定模块,用于确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;
编码计算模块,用于根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
子段划分模块,用于对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;
分类处理模块,用于基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段。
本发明实施例提供的舆情文本分类装置,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
根据本发明第三方面实施例的电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面实施例的舆情文本分类方法。
根据本发明第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面实施例的舆情文本分类方法。
本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
根据t值由高到低减少,将第一SimHash编码中的SimHash编码已经进行了相似度由高到低程度的划分,在此基础上再进行计算相似度,可以极大程度上提高相似度确定的准确性,且无需对全部第一SimHash编码进行抽样并计算,减少计算量,有益于提高舆情文本的分类效率。
通过是否具有相似子段确定是否为相似文本,若没有相似子段则为单独的类,可以有效快速的划分出单独的类,减少运算次数,提高舆情文本分类的效率。
通过逐步减少相同的子段的数量,直至确定目标SimHash编码的分类标签,可以在确保分类标签确定准确性的情况下,有效提高分类标签确定的效率。
通过对领域关键词、非领域关键词权重进行调整,可以降低低关联度文本数据对文本聚类的影响。
通过舆情文本分类系统自动对舆情文本进行分类,无需人工对大量文本进行标注分类,有利于提高舆情文本分类的效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的舆情文本分类方法的流程示意图;
图2是本发明实施例提供的舆情文本分类装置的结构示意图;
图3是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
图1是本发明实施例提供的舆情文本分类方法的流程示意图。参照图1,本发明实施例提供的舆情文本分类方法,包括:
S101、确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;优先展示内容包括标题内容、摘要内容中的至少一项;
S102、根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合,确定各舆情文本的SimHash编码;权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
S103、对各舆情文本的SimHash编码进行子段划分,得到各舆情文本的SimHash编码子段;
S104、基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本集合对应的舆情文本分类结果;SimHash编码集合包括各舆情文本的SimHash编码,SimHash编码子段集合包括各舆情文本的SimHash编码子段。
需要说明的是,本发明实施例提供的舆情文本分类方法,执行主体可以是计算机设备,例如手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等。
下面以舆情文本分类系统作为执行主体为例,说明本发明实施例提供的技术方案。
步骤S101中,确定舆情文本集合中各舆情文本的优先展示内容以及正文内容可以通过对舆情文本中的优先展示内容和正文内容进行识别、标识,再将其以组合的形式增加至舆情文本集合中。例如对N条舆情文本进行分类时,可以先识别区分出N条文本的优先展示内容以及正文内容,以表示优先展示内容,/>以表示正文内容,再将同一条舆情文本的优先展示内容与正文内容成对增加至舆情文本集合中,例如可以表示为:
此时表示第i条舆情文本,/>表示第i条舆情文本的优先展示内容,/>表示第i条舆情文本的正文内容。
可以理解的是,优先展示内容可以为空,即该条舆情文本没有标题和摘要。
步骤S102中,可以通过对舆情文本进行分词处理(例如可以基于字典分词、基于字分词等),得到领域关键词。可以通过对舆情文本的优先展示内容、正文内容进行关键词提取(例如可以使用TF-IDF算法、TextRank算法、主题模型算法等),得到舆情文本的优先展示内容关键词、正文内容关键词。再根据领域关键词、优先展示内容关键词、正文内容关键词确定权重集合。
需要说明的是,根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合确定各舆情文本的SimHash编码,可以是根据优先展示内容、正文内容以及各舆情文本所属领域获得优先展示内容关键词、正文内容关键词以及各舆情文本所述领域关键词后,结合权重集合确定各舆情文本的SimHash编码。通过获取关键词结合权重集合确定舆情文本的SimHash编码可以有效减少计算量,提高舆情文本分类的效率。
需要说明的是,获取领域关键词时,可以基于领域的主题获取该主题下的领域关键词,该主题下的领域关键词可以用于确定该舆情文本中具体涉及该领域中的主题,有利于进一步确定文本的相似性,提高文本聚类的准确度。例如汽车领域的主题可以是汽车外形设计、汽车检修等主题。
需要说明的是,领域关键词可以是包括多个领域关键词,在根据领域关键词、优先展示内容关键词、正文内容关键词确定权重集合时,权重集合中舆情文本所属领域的权重可以包括有领域关键词权重以及非领域关键词权重,通过对领域关键词、非领域关键词权重进行调整,可以降低低关联度文本数据对文本聚类的影响,例如增加领域关键词的权重,降低非领域关键词的权重,进而以增加文本聚类的准确度。
需要说明的是,根据优先展示内容关键词、正文内容关键词、领域关键词确定权重集合时,可以通过例如因子分析和主成分法、AHP层次法、优序图法、熵权法等权重计算方法实现,具体地可以根据舆情文本聚类需求确定不同的权重计算方法,例如对数字相对大小计算时,可以使用AHP层次法和优序图法,对数据熵值信息计算权重时可以使用熵权法等,本发明在此不做限定。
具体地,可以对优先展示内容关键词、正文内容关键词、领域关键词分别赋予权重,得到权重集合,例如可以表示为:
其中,表示领域关键词权重,/>表示第j个主题下的领域关键词权重,/>表示非领域关键词权重,/>表示优先展示内容关键词权重,/>表示正文内容权重。
步骤103中,对各舆情文本的SimHash编码进行子段划分可以是通过倒插排序法、交替排序法、选择排序法等方法实现,得到各舆情文本的SimHash编码子段集合,例如可以表示为:
其中,表示第i条舆情文本的SimHash编码,/>表示/>的第j个子段。
以通过倒插排序法进行子段划分为例,对舆情文本的SimHash编码进行子段划分后可以得到倒插排序表,例如可以表示为:
其中,表示第m个SimHash编码子段/>与包含该子段的所有的SimHash编码。基于上述倒插排序表可以明确各子段与包含该子段的舆情文本的SimHash编码,有利于对各舆情文本的SimHash编码及其包含的子段的相似性进行计算,确定舆情文本的类别。
步骤104中,基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本集合对应的舆情文本分类结果,可以根据各舆情文本的SimHash编码中所具有的相同的子段的个数对其相似性进行计算,得到各舆情文本的SimHash编码的相似性,有利于根据相似性确定该舆情文本是否属于同一类来对舆情文本进行分类。
需要说明的是,舆情文本分类结果可以通过分类标签结果集合表示,例如:
其中,表示每个舆情文本的SimHash编码与其分类标签/>,/>为舆情文本分类方法确定的舆情文本的分类标签。
本发明实施例提供的舆情文本分类方法,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
在一个实施例中,根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合,确定各舆情文本的SimHash编码,包括:
分别对优先展示内容、正文内容进行关键词提取,得到各优先展示内容关键词以及各正文内容关键词;
根据各优先展示内容关键词及其对应的优先展示内容关键词权重、各正文内容关键词及其对应的正文内容关键词权重、各舆情文本所属领域的权重,确定各舆情文本的SimHash编码。
具体地,例如对第i条舆情文本进行分词处理获取其领域关键词,可以通过分词算法获得不同领域的关键词集合并以一个领域集合的形式表示,例如:
其中,表示第j个主题关键词集合中的的第n个关键词,例如汽车领域的领域集合可以是:
其中表示汽车领域中第一个主题关键词集合车型集合中的第3个关键词。
具体地,得到各优先展示内容关键词以及各正文内容关键词后可以将其以集合形式表示,例如对第i条舆情文本进行关键词算法提取,其中,对优先展示内容提取L个关键词,集合表示为:/>
对正文内容提取P个关键词,用集合表示为:
此时表示第i条舆情文本优先展示内容中提取的第l个关键词,/>表示第i条舆情文本正文内容中提取的第p个关键词。
需要时说明是,根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合确定各舆情文本的SimHash编码可以是,通过对舆情文本中提取的关键词进行加权编码后,得到舆情文本的SimHash加权编码集合,其中,舆情文本的加权编码计算函数可以是:
所得到的舆情文本的加权编码集合例如可以表示为集合:
得到舆情文本的SimHash加权编码集合后,可以对其进行降维处理最终得到各舆情文本的SimHash编码,例如可以用集合表示为:
其中,表示第i条舆情文本的SimHash编码。
本发明实施例提供的舆情文本分类方法通过对优先展示内容以及正文内容进行关键词提取,并根据提取的关键词对舆情文本进行SimHash编码,有效降低了SimHash编码的计算量,提高了SimHash编码效率进而提高了文本分类的效率,另一方面通过为优先展示内容以及正文内容以及领域关键词赋予权重,有效降低了低关联度文本数据对文本分类结果的影响,提高了舆情文本分类的准确性。
以下实施例中以如下参数为例:
通过倒插排序法进行子段划分,舆情文本的SimHash编码集合为:
舆情文本SimHash编码子段集合为:
倒插排序表为:
待分类的舆情文本的SimHash编码为。可以理解的是,初始情况下,分类标签结果集合为空,即/>,此时分类标签中的类别数量为0。
在一个实施例中,基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本集合对应的舆情文本分类结果,包括:
确定SimHash编码集合中任一目标SimHash编码的可行解集合;可行解集合包括至少一个第一SimHash编码,第一SimHash编码与目标SimHash编码存在相同的SimHash编码子段;
确定第一SimHash编码中存在第二SimHash编码,根据Mode函数对各第二SimHash编码进行处理,得到第一结果,根据第一结果确定舆情文本分类结果之一;第二SimHash编码与目标SimHash编码的SimHash编码子段均相同。
可以理解的是,目标SimHash编码即为待分类的舆情文本的SimHash编码。
需要说明的是,确定可行解集合可以通过倒插排序表Y实现,将具有与目标SimHash编码中具有相同子段的舆情文本的SimHash编码作为第一SimHash编码,并加入至可行解集合中,例如可行解集合可以表示为:
此时,在可行解集合中,确定与目标SimHash编码所有子段均相同的第二SimHash编码,并加入至第二SimHash编码集合中,例如此时第二SimHash编码集合可以表示为:
根据Mode函数求出各第二SimHash编码内分类标签的众数,由于此时具有第二SimHash编码内数量最多的分类标签与目标SimHash编码具有高度相似性,此时可以将该数量最多的分类标签作为目标SimHash编码的分类标签,目标SimHash编码的分类标签可以表示为:
根据目标SimHash编码的分类标签得到第一结果,即将目标SimHash编码的分类标签结果,并将其并入已有的舆情文本分类结果中,例可以表示为:
此时当前目标SimHash编码分类完成,根据所有待分类的舆情文本的数量N,舆情文本分类系统会对下一条舆情文本的SimHash编码进行分类,直至全部分类完成后,输出舆情文本分类结果集合R:
其中,表示舆情文本分类结果的一种。
本发明实施例提供的舆情文本分类方法,通过先筛选出与目标SimHash编码具有相同SimHash编码子段的具有相似性的可行解集合,再在可行解集合中确定与目标SimHash编码子段完全相同的第二SimHash编码进一步得到第一结果与舆情文本分类结果,通过多层次的确定相似范围,筛选出与目标SimHash编码相似概率最高的分类,进而确保了舆情文本分类的准确性。
在一个实施例中,确定可行解集合为空,基于目标SimHash编码确定舆情文本分类结果之一。
可以理解的是,可行解集合为空,说明现有的具有文本标签的SimHash编码中没有与目标SimHash编码具有任何相同子段的SimHash编码,即没有与目标SimHash编码表示的舆情文本相似的文本,此时可以为目标SimHash编码所表示的舆情文本设置新的文本标签,例如可以表示为:
此时当前目标SimHash编码分类完成,根据所有待分类的舆情文本的数量N,舆情文本分类系统会对下一条舆情文本的SimHash编码进行分类,直至全部分类完成后,输出舆情文本分类结果集合R:
本发明实施例提供的舆情文本分类方法,通过是否具有相似子段确定是否为相似文本,若没有相似子段则为单独的类,可以有效快速的划分出单独的类,减少运算次数,提高舆情文本分类的效率。
在一个实施例中,舆情文本分类方法,还包括:
确定第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:
确定t≥1,对第一SimHash编码中与所述目标SimHash编码具有t个相同子段的SimHash编码进行随机抽样得到抽样集合;t=J-1,J为SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次第一步骤,t的大小减1;
根据抽样集合中各元素与目标SimHash编码的相似度,确定与目标SimHash编码相似的第三SimHash编码;
根据Mode函数对各第三SimHash编码进行处理,得到第二结果;
确定第二结果作为舆情文本分类结果之一的概率大于等于第一概率阈值,根据第二结果确定舆情文本分类结果之一,并结束第一步骤;
确定第二结果作为舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的第一步骤;第二概率阈值小于第一概率阈值。
可以理解的是,确定第一SimHash编码中不存在第二SimHash编码,即可行解集合中不存在与目标SimHash编码的所有子段完全相同的SimHash编码,此时逐步减少相同的子段的数量,直至确定目标SimHash编码的分类标签,可以在确保分类标签确定准确性的情况下,有效提高分类标签确定的效率。
需要说明的是,设置t为第一SimHash编码与目标SimHash编码具有的相同SimHash编码子段的数量,J为SimHash编码集合中各SimHash编码的SimHash编码子段的数量,通过每次循环无法确定目标SimHash编码的分类标签时将t的大小减一,可以实现逐步降低与目标SimHash编码的相似条件,避免因为相同子段数量相差过大导致第一SimHash编码与目标SimHash编码的相似度确定存在较大误差,进一步提高本发明舆情文本分类方法的准确性。
需要说明的是,对第一SimHash编码中与所述目标SimHash编码具有t个相同子段的SimHash编码进行随机抽样得到抽样集合,可以是例如当t值为3时,只对第一SimHash编码中与目标SimHash编码具有3个相同子段的第一SimHash编码进行随机抽样。根据t值由高到低减少,将第一SimHash编码中的SimHash编码已经进行了相似度由高到低程度的划分,在此基础上再进行计算相似度,可以极大程度上提高相似度确定的准确性,且无需对全部第一SimHash编码进行抽样并计算,减少计算量,有益于提高舆情文本的分类效率。
因此可以理解的是,根据t值的不同确定的抽样集合不同,进而确定的第三SimHash编码也不同,t值越高,抽样集合的相似性可以更高。例如当t值为2时候,确定出的第三SimHash编码集合为与目标SimHash编码子段具有2个相同子段的第三SimHash编码。
当t≥1时,对第一SimHash编码中与所述目标SimHash编码具有t个相同子段的SimHash编码进行随机抽样得到抽样集合,例如第一SimHash编码为集合为,其中,与目标SimHash编码具有t个相同子段的SimHash编码的集合为/>,则抽样集合可以表示为/>,通过/>中各元素与目标SimHash编码的相似度,确定与目标SimHash编码相似的第三SimHash编码。其中,需要说明的是,通过/>中各元素与目标SimHash编码的相似度可以通过计算其预选相似度、简单共有词、编辑距离、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离等方式确定。通过确定其相似度与一预先设定的相似度阈值进行比较即可确定/>中元素与目标SimHash编码的相似度是否达到足以作为第三SimHash编码的要求。例如以汉明距离计算相似度为例,通过预先设置距离阈值,判断所求的/>中元素与目标SimHash编码的汉明距离是否小于距离阈值进而判断/>中元素与目标SimHash编码的相似度是否足够高,例如预设距离阈值为Dist,/>中元素/>与目标SimHash编码/>的汉明距离可以表示为:/>
判断当时,则认为/>与/>相似,得到第三SimHash编码,例如可以用集合表示为:/>
需要说明的是,确定第三SimHash编码后,通过Mode函数对各第三SimHash编码进行处理,得到第三SimHash编码的分类标签中数量最多的SimHash编码的分类标签,作为第二结果,计算该第二结果在全部第三SimHash编码的分类标签中出现的概率,并通过该概率与第一概率阈值和第二概率阈值大小比较确定目标SimHash编码的分类标签。以上述第三SimHash编码集合为例,通过Mode函数计算出/>集合中的分类标签数量最多的标签作为第二结果/>,通过计算/>在集合/>中出现的概率,例如可以表示为:/>
此时,设置第一概率阈值为α,第二概率阈值为β,则
则表示第二结果作为舆情文本分类结果之一的概率大于等于第一概率阈值,此时可以确定以第二结果作为分类标签的文本与舆情文本具有较高的相似性,因此可以以第二结果作为舆情文本的分类标签,并加入舆情文本结果集合中,例如可以表示为:
此时当前目标SimHash编码分类完成,根据所有待分类的舆情文本的数量N,舆情文本分类系统会对下一条舆情文本的SimHash编码进行分类,直至全部分类完成后,输出舆情文本分类结果集合R:
则表示第二结果作为舆情文本分类标签结果之一的概率小于等于第二概率阈值,此时可以确定以第二结果作为分类标签的文本与舆情文本的相似性较低,因此此时第二结果无法作为舆情文本的分类标签,需要减少t的个数重新筛选第三SimHash编码,此时可以再次执行第一步骤确定第二结果。
本发明实施例提供的舆情文本分类方法,通过在第一SimHash编码集合中进行抽样得到第三SimHash编码,再通过Mode函数在第三SimHash编码中确定第二结果,以及逐渐减小t值,以相似度由高到低的逐步确定的方式获得与舆情文本相似的文本的分类标签,可以有效的确保第二结果确定的准确性,通过第二结果的作为舆情文本分类结果之一的概率与第一、第二概率阈值进行比较,可以进一步的确保以第二结果作为舆情文本分类的准确性。
根据上一个实施例,第一步骤还包括:
确定第二结果作为舆情文本分类结果之一的概率小于第一概率阈值,并且大于第二概率阈值,确定各第一SimHash编码与目标SimHash编码的相似度,确定与目标SimHash编码相似的第四SimHash编码;
根据Mode函数对各第四SimHash编码进行处理,得到第三结果;
确定第三结果作为舆情文本分类结果之一的概率大于等于第二概率阈值,根据第三结果确定舆情文本分类结果之一,并结束第一步骤;
确定第三结果作为舆情文本分类结果之一的概率小于第二概率阈值,则执行下一次的第一步骤。
需要说明的是,确定第二结果作为舆情文本分类结果之一的概率小于第一概率阈值,并且大于第二概率阈值,确定各第一SimHash编码与目标SimHash编码的相似度是指,确定通过t值在第一SimHash编码中筛选出的与目标SimHash编码具有t个相同子段的SimHash编码,与目标SimHash编码的相似度,并非全部第一SimHash编码,例如第一SimHash编码的集合为,根据t值筛选出的第一SimHash编码中与目标SimHash编码具有t个相同子段的SimHash编码集合为/>,则此处需要计算全部/>中的SimHash编码与目标SimHash编码的相似度。
需要说明的是,当第二结果作为舆情文本分类结果之一的概率小于第一概率阈值大于第二概率阈值时,说明第二结果既无法明确的确定与舆情文本具有高度相似性,又无法明确确定与其相似性过低进而需要重新减小t值重新筛选。此时可以通过不对第一SimHash编码进行抽样,而计算目标SimHash编码与全部第一SimHash编码的相似度,进而确定出与目标SimHash编码相似的第四SimHash编码。
下面以通过汉明距离计算相似度为例进行说明如何确定第四SimHash编码:
通过计算中元素与第一SimHash编码汉明距离:
得到与目标SimHash编码相似的第四SimHash编码,例如可以用集合表示为:
此时,通过Mode函数计算出集合中数量最多的分类标签作为第三结果,计算以第三结果作为舆情文本分了结果之一的概率,若该概率大于等于第二概率阈值β,即:
则以第三结果作为舆情文本的分类标签,并加入至分类标签结果集合R中:/>
此时当前目标SimHash编码分类完成,根据所有待分类的舆情文本的数量N,舆情文本分类系统会对下一条舆情文本的SimHash编码进行分类,直至全部分类完成后,输出舆情文本分类结果集合R:
需要说明的是,若对目标SimHash编码与全部第一SimHash编码进行相似度计算后,仍无法确定舆情文本分类结果,即所计算的概率概率小于第二概率阈值,则重新执行下一次第一步骤,直至t值不再满足第一步骤的要求。
本发明实施例提供的舆情文本分类方法,通过在概率处于第一、第二概率阈值中间时,将对全部SimHash编码求取相似度,增加确定相似性的数量,有利于确保文本标签获取的准确性,同时再根据与第二概率阈值进行比较,进一步确保了舆情文本分类的准确性。
根据上一实施例中舆情文本分类方法,还包括:
确定t=1,并且确定第三结果作为舆情文本分类结果之一的概率小于第二概率阈值,基于目标SimHash编码确定舆情文本分类结果之一。可以理解的是,当t=1时,执行第一步骤,执行第一步骤后,t值减少为0,由于t值已经减少为0,不再符合上述第一步骤的执行要求,若此时,计算出第三结果作为所述舆情文本分类结果之一的概率仍然小于第二概率阈值,可以确定,此时第四SimHash编码虽然与目标SimHash编码具有相同的编码子段,但其相似性过低,无法作为目标SimHash编码表示的舆情文本的分类标签,此时,舆情文本分类系统将为目标SimHash编码赋予新的的分类标签,并将其作为新的舆情文本分类结果加入至舆情文本分类结果集合中,例如可以表示为:
此时当前目标SimHash编码分类完成,根据所有待分类的舆情文本的数量N,舆情文本分类系统会对下一条舆情文本的SimHash编码进行分类,直至全部分类完成后,输出舆情文本分类结果集合R:
本发明实施例提供的舆情文本分类方法,将第四SimHash编码中具有与目标SimHash编码子段但其相似度过低时,将此时的目标SimHash编码单独作为新的一类,对相似性极低的目标SimHash编码另分一类,进而提高舆情文分类的准确性。
下面以一个实施例进一步说明上述舆情文本分类方法。
在一个实施例中,初始化i=1,舆情文本分类结果集合、已有分类数量c=0、输入:N条舆情文本的SimHash编码集合/>、N条舆情文本的SimHash编码子段集合/>、以及倒插排序表:
第一步,若取/>,计算与/>包含相同舆情文本的SimHash编码子段的舆情文本的第一SimHash编码作为可行解,得到可行解集合:/>
第二步,若,则表示表Y中不存在与/>具有相同SimHash编码子段的舆情文本,即表Y中没有与/>相似的文本,此时,为当前/>新建分类标签/>,/>,将已有分类数量加一,并将其加入至舆情文本分类结果集合/>,然后,输出聚类标签结果/>,/>随后重新执行第一步,对下一条舆情文本进行分类。否则,/>,即表Y中存在与/>相似的文本,进行第三步。
第三步,在可行解集合中筛选第二SimHash编码,并加入至第二SimHash编码集合/>中,其中,筛选条件为/>,且/>,即中与/>的SimHash编码子段完全相同的SimHash编码。若筛选得到/>则,说明/>中存在与/>具有高度相似性的第二SimHash编码,此时,将/>中数量最多的第二SimHash编码的标签作为当前的/>的分类标签,并将分类结果加入至舆情文本分类结果集合中,输出文本分类结果集合R,,随后重新执行第一步,对下一条舆情文本进行分类。否则,/>,进行第四步。
第四步,根据前述步骤筛选,此时可以确定可行解集合中存在与/>具有相同SimHash编码子段的第一SimHash编码,但不具有与/>子段完全相同的第二SimHash编码,根据其相同的SimHash编码子段数量可能不相同,设/>,t为可行解集合/>中与/>具有相同SimHash编码子段的数量,J为/>的SimHash编码子段划分数量。然后根据t的值进行第五步。
第五步,若t≥1,对中第一SimHash编码进行筛选得到第三SimHash编码集合,其筛选条件为,当且仅当存在t个SimHash编码子段属于/>。获得后,对/>进行随机抽样,得到抽样集合/>,计算/>中所有的第三SimHash编码与/>的相似度,例如通过汉明距离计算相似度,得到,通过设置距离阈值Dist,判断,视为/>与/>相似,得到与/>相似的集合,通过Mode函数计算出/>集合中的分类标签数量最多的标签作为第二结果/>。随后进行第六步。
第六步,设置第一概率阈值α,第二概率阈值β,设,若,第二结果作为舆情文本分类结果之一的概率大于等于第一概率阈值,此时可以确定以第二结果作为分类标签的文本与舆情文本具有较高的相似性,因此可以以第二结果作为舆情文本的分类标签/>,并加入舆情文本结果集合中/>,输出文本分类结果集合R,/>,随后重新执行第一步,对下一条舆情文本进行分类。若,则表示第二结果作为舆情文本分类标签结果之一的概率小于等于第二概率阈值,此时可以确定以第二结果作为分类标签的文本与舆情文本的相似性较低,因此此时第二结果无法作为舆情文本的分类标签,t-=1,重新执行第五步。否则执行第七步。
第七步,此时第六步中计算出的,计算与/>中所有元素的相似度,例如通过汉明距离计算相似度,,得到第四SimHash编码集合,通过Mode函数计算出/>集合中数量最多的分类标签作为第三结果/>,计算确定第三结果作为舆情文本分类结果之一的概率,即,若该概率大于等于第二概率阈值β,即,将第三结果作为当前的/>的分类标签,并将分类结果加入至舆情文本分类结果集合中,输出文本分类结果集合R,,随后重新执行第一步,对下一条舆情文本进行分类。否则判断t值,若此时/>,则/>,重新执行第五步。若t=0,则执行第八步。
第八步,此时t=0,且小于/>,为当前/>新建分类标签/>,/>,将已有分类数量加一,并将其加入至舆情文本分类结果集合,然后,输出聚类标签结果,/>随后重新执行第一步,对下一条舆情文本进行分类。
本发明实施例提供的舆情文本分类方法,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
本发明实施例还提供一种舆情文本分类装置,该装置与上文描述的舆情文本分类方法可相互对应参照。
图2是本发明实施例提供的舆情文本分类装置的结构示意图。参照图2,本发明实施例提供的舆情文本分类装置,可以包括:
内容确定模块201,用于确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;
编码计算模块202,用于根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
子段划分模块203,用于对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;
分类处理模块204,用于基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段。在一个实施例中,所述编码计算模块202具体用于:
确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;
确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。
在一个实施例中,所述编码计算模块202还用于:
确定所述第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:
确定t≥1,对所述第一SimHash编码中与所述目标SimHash编码具有t个相同SimHash编码子段的SimHash编码进行随机抽样得到抽样集合;t=J-1,J为所述SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次所述第一步骤,t的大小减1;
根据所述抽样集合中各元素与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第三SimHash编码;
根据所述Mode函数对各所述第三SimHash编码进行处理,得到第二结果;
确定所述第二结果作为所述舆情文本分类结果之一的概率大于等于第一概率阈值,根据所述第二结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第二结果作为所述舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的所述第一步骤;所述第二概率阈值小于所述第一概率阈值。
在一个实施例中,所述编码计算模块202还用于:
确定所述第二结果作为所述舆情文本分类结果之一的概率小于所述第一概率阈值,并且大于所述第二概率阈值,确定各所述第一SimHash编码与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第四SimHash编码;
根据所述Mode函数对各所述第四SimHash编码进行处理,得到第三结果;
确定所述第三结果作为所述舆情文本分类结果之一的概率大于等于所述第二概率阈值,根据所述第三结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,则执行下一次的所述第一步骤。
在一个实施例中,所述编码计算模块202还用于:
确定t=1,并且确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
在一个实施例中,所述编码计算模块202还用于:
确定所述可行解集合为空,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
在一个实施例中,所述编码计算模块202还用于:
分别对所述优先展示内容、所述正文内容进行关键词提取,得到各优先展示内容关键词以及各正文内容关键词;
根据各所述优先展示内容关键词及其对应的优先展示内容关键词权重、所述各正文内容关键词及其对应的正文内容关键词权重、所述各舆情文本所属领域的权重,确定所述各舆情文本的SimHash编码。
本发明实施例提供的舆情文本分类装置,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communication Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:
确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;优先展示内容包括标题内容、摘要内容中的至少一项;
根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合,确定各舆情文本的SimHash编码;权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
对各舆情文本的SimHash编码进行子段划分,得到各舆情文本的SimHash编码子段;
基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本集合对应的舆情文本分类结果;SimHash编码集合包括各舆情文本的SimHash编码,SimHash编码子段集合包括各舆情文本的SimHash编码子段。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;优先展示内容包括标题内容、摘要内容中的至少一项;
根据优先展示内容、正文内容、各舆情文本所属领域以及权重集合,确定各舆情文本的SimHash编码;权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
对各舆情文本的SimHash编码进行子段划分,得到各舆情文本的SimHash编码子段;
基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本集合对应的舆情文本分类结果;SimHash编码集合包括各舆情文本的SimHash编码,SimHash编码子段集合包括各舆情文本的SimHash编码子段。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是,以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围中。

Claims (9)

1.一种舆情文本分类方法,其特征在于,包括:
确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;
根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;
基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段;
所述基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果,包括:
确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;
确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。
2.根据权利要求1所述的舆情文本分类方法,其特征在于,还包括:
确定所述第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:
确定t≥1,对所述第一SimHash编码中与所述目标SimHash编码具有t个相同SimHash编码子段的SimHash编码进行随机抽样得到抽样集合;t=J-1,J为所述SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次所述第一步骤,t的大小减1;
根据所述抽样集合中各元素与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第三SimHash编码;
根据所述Mode函数对各所述第三SimHash编码进行处理,得到第二结果;
确定所述第二结果作为所述舆情文本分类结果之一的概率大于等于第一概率阈值,根据所述第二结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第二结果作为所述舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的所述第一步骤;所述第二概率阈值小于所述第一概率阈值。
3.根据权利要求2所述的舆情文本分类方法,其特征在于,所述第一步骤还包括:
确定所述第二结果作为所述舆情文本分类结果之一的概率小于所述第一概率阈值,并且大于所述第二概率阈值,确定各所述第一SimHash编码与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第四SimHash编码;
根据所述Mode函数对各所述第四SimHash编码进行处理,得到第三结果;
确定所述第三结果作为所述舆情文本分类结果之一的概率大于等于所述第二概率阈值,根据所述第三结果确定所述舆情文本分类结果之一,并结束所述第一步骤;
确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,则执行下一次的所述第一步骤。
4.根据权利要求3所述的舆情文本分类方法,其特征在于,还包括:
确定t=1,并且确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
5.根据权利要求1所述的舆情文本分类方法,其特征在于,还包括:
确定所述可行解集合为空,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
6.根据权利要求1所述的舆情文本分类方法,其特征在于,所述根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码,包括:
分别对所述优先展示内容、所述正文内容进行关键词提取,得到各优先展示内容关键词以及各正文内容关键词;
根据各所述优先展示内容关键词及其对应的优先展示内容关键词权重、所述各正文内容关键词及其对应的正文内容关键词权重、所述各舆情文本所属领域的权重,确定所述各舆情文本的SimHash编码。
7.一种舆情文本分类装置,其特征在于,包括:
内容确定模块,用于确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;
编码计算模块,用于根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;
子段划分模块,用于对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;
分类处理模块,用于基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段;
所述分类处理模块具体用于:
确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;
确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的舆情文本分类方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的舆情文本分类方法。
CN202310581546.XA 2023-05-23 2023-05-23 舆情文本分类方法、装置、电子设备及存储介质 Active CN116304065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310581546.XA CN116304065B (zh) 2023-05-23 2023-05-23 舆情文本分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310581546.XA CN116304065B (zh) 2023-05-23 2023-05-23 舆情文本分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116304065A CN116304065A (zh) 2023-06-23
CN116304065B true CN116304065B (zh) 2023-09-29

Family

ID=86815334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310581546.XA Active CN116304065B (zh) 2023-05-23 2023-05-23 舆情文本分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116304065B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269146A (ja) * 2001-03-08 2002-09-20 Fujitsu Ltd ワードスポッティング情報検索装置とワードスポッティング情報検索装置を実現するための方法及びプログラム
US8843494B1 (en) * 2012-03-28 2014-09-23 Emc Corporation Method and system for using keywords to merge document clusters
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN111782907A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438162B2 (en) * 2009-04-16 2013-05-07 President And Fellows Of Harvard College Method and apparatus for selecting clusterings to classify a predetermined data set
US10127442B2 (en) * 2016-06-09 2018-11-13 International Business Machines Corporation Non-sequential comparison of documents
CN112949312A (zh) * 2021-03-26 2021-06-11 中国美术学院 一种产品知识融合方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269146A (ja) * 2001-03-08 2002-09-20 Fujitsu Ltd ワードスポッティング情報検索装置とワードスポッティング情報検索装置を実現するための方法及びプログラム
US8843494B1 (en) * 2012-03-28 2014-09-23 Emc Corporation Method and system for using keywords to merge document clusters
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN111782907A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和系统
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114386421A (zh) * 2022-01-13 2022-04-22 平安科技(深圳)有限公司 相似新闻检测方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Liang Gu等.SHDC:A Fast Documents Classification Method Based on Simhash.ICA3PP 2015.2015,198-212. *
李春梅.基于TF-IDF的网页新闻分类的研究与应用.贵州师范大学学报(自然科学版).2015,第33卷(第06期),106-109. *

Also Published As

Publication number Publication date
CN116304065A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
US20220138423A1 (en) Deep learning based text classification
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN111291188B (zh) 一种智能信息抽取方法及系统
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110674312A (zh) 构建知识图谱方法、装置、介质及电子设备
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN110275953B (zh) 人格分类方法及装置
CN112765403A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN114241264B (zh) 用户判别模型训练方法、用户判别方法及相关装置
CN113535906B (zh) 一种电力领域隐患事件文本分类方法及其相关装置
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN114707041A (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN113010705B (zh) 标签预测方法、装置、设备及存储介质
CN113435499A (zh) 标签分类方法、装置、电子设备和存储介质
CN116304065B (zh) 舆情文本分类方法、装置、电子设备及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
CN111428034A (zh) 分类模型的训练方法、评论信息的分类方法及装置
CN111611388A (zh) 账号分类方法、装置和设备
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant