CN114528375A - 一种相似舆情文本识别方法和装置 - Google Patents

一种相似舆情文本识别方法和装置 Download PDF

Info

Publication number
CN114528375A
CN114528375A CN202210095093.5A CN202210095093A CN114528375A CN 114528375 A CN114528375 A CN 114528375A CN 202210095093 A CN202210095093 A CN 202210095093A CN 114528375 A CN114528375 A CN 114528375A
Authority
CN
China
Prior art keywords
public opinion
target
opinion text
text
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210095093.5A
Other languages
English (en)
Inventor
刘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202210095093.5A priority Critical patent/CN114528375A/zh
Publication of CN114528375A publication Critical patent/CN114528375A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种相似舆情文本识别方法和装置。该方法包括:确定目标舆情数据;其中,所述目标舆情数据中包括:目标舆情文本;从所述目标舆情文本中提取若干目标实体;对所述目标舆情文本进行分词,得到若干分词结果;根据所述若干分词结果,生成目标特征编码;查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。本发明能够避免直接将目标舆情文本与舆情文本库中的全部舆情文本进行比对,能够提高相似舆情文本的识别效率,降低识别过程的资源消耗。

Description

一种相似舆情文本识别方法和装置
技术领域
本发明涉及网络技术领域,具体地,涉及一种相似舆情文本识别方法和装置。
背景技术
不同媒体发布的舆情文本可能存在相同或相似度比较高的情况,为了避免舆情文本的重复展示,需要识别当前舆情文本是否与预先存储的舆情文本构成相似。
现有技术通常对当前舆情文本进行特征提取,并将提取的特征分别与存储的每个舆情文本的特征进行匹配,以确定存储的舆情文本中是否与当前舆情文本构成相似。
但是,该方法需要将当前舆情文本与存储的每个舆情文本进行匹配,计算量较大,识别过程需要花费较长的时间。
发明内容
本发明的目的是提供一种相似舆情文本识别方法和装置,以解决相关技术中存在的问题。
第一方面,本发明实施例提供了一种相似舆情文本识别方法,包括:
确定目标舆情数据;其中,所述目标舆情数据中包括:目标舆情文本;
从所述目标舆情文本中提取若干目标实体;
对所述目标舆情文本进行分词,得到若干分词结果;
根据所述若干分词结果,生成目标特征编码;
查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。
可选地,
所述根据所述若干分词结果,生成目标特征编码,包括:
从所述若干分词结果中确定若干关键词;
针对各个所述关键词:确定所述关键词的权重;根据所述关键词及其权重,生成所述关键词的指纹编码;
根据各个所述关键词的指纹编码,生成所述目标特征编码。
可选地,
所述从所述若干分词结果中确定若干关键词,包括:
统计各个所述分词结果的词频;
按照所述词频由高到低的顺序,在所述若干分词结果中确定若干关键词;
所述确定所述关键词的权重,包括:
计算所述关键词的逆文档频率;
根据所述关键词的逆文档频率及词频,计算所述关键词的权重。
可选地,
所述根据所述关键词及其权重,生成所述关键词的指纹编码,包括:
计算所述关键词的哈希值;
根据所述关键词的哈希值及权重,生成所述关键词的特征编码。
可选地,
所述关键词的指纹编码中包括多列码值;
所述根据各个所述关键词的指纹编码,生成所述目标特征编码,包括:
将各个所述关键词的指纹编码的码值按列累加,得到初始特征编码;
对所述初始特征编码进行变换,得到所述目标特征编码;其中,所述目标特征编码中各列码值为0或1。
可选地,
所述根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似,包括:
响应于所述舆情文本库中包含多个所述候选舆情文本,获取各个所述候选舆情文本的特征编码;
针对每个所述候选舆情文本:根据所述目标特征编码和所述候选舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似。
可选地,
所述目标特征编码中包括多列第一码值,所述第一码值为0或1;
所述候选舆情文本的特征编码中包括多列第二码值,所述第二码值为0或1;
所述根据所述目标特征编码和所述候选舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似,包括:
将所述目标特征编码和所述候选舆情文本的特征编码做按位或操作,得到融合编码;
确定所述融合编码中码值为1的列数;
确定所述码值为1的列数是否小于预设的列数阈值,如果是,确定所述目标舆情文本与所述候选舆情文本相似。
可选地,
所述目标舆情数据中还包括:所述目标舆情文本的发布时间;
所述根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似,包括:
响应于所述舆情文本库中不包含所述候选舆情文本,根据所述目标舆情文本的发布时间,从所述舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个所述待识别舆情文本的特征编码;
针对每个所述待识别舆情文本:根据所述目标特征编码和所述待识别舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似。
可选地,
所述确定目标舆情数据,包括:
获取初始舆情数据;其中,所述初始舆情数据中包括:初始舆情文本;
确定所述初始舆情文本中是否包含HTML标签或图片,如果是,删除所述初始舆情文本中的所述HTML标签或所述图片,得到所述目标舆情文本。
可选地,
所述确定目标舆情数据,包括:
获取初始舆情数据;其中,所述初始舆情数据中包括:初始舆情文本;
确定所述初始舆情文本中是否包含设定干扰词,如果是,删除所述初始舆情文本中的所述干扰词,得到所述目标舆情文本。
第二方面,本发明实施例提供了一种相似舆情文本识别装置,包括:
确定模块,配置为确定目标舆情数据;其中,所述目标舆情数据中包括:目标舆情文本;
实体提取模块,配置为从所述目标舆情文本中提取若干目标实体;
特征提取模块,配置为对所述目标舆情文本进行分词,得到若干分词结果;根据所述若干分词结果,生成目标特征编码;
查询模块,配置为查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
识别模块,配置为根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。
第三方面,本发明实施例提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
第四方面,本发明提供了一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一实施例所述方法的步骤。
采用上述技术方案,至少能够达到如下技术效果:本发明实施例基于提取的实体对舆情文本库中的舆情文本进行筛选,缩小参与后续识别过程的舆情文本的数量,避免直接将目标舆情文本与舆情文本库中的全部舆情文本进行比对,能够提高相似舆情文本的识别效率,降低识别过程的资源消耗。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明一示例性实施例示出的一种相似舆情文本识别方法的流程图。
图2是本发明一示例性实施例示出的一种相似舆情文本识别装置的框图。
图3是本发明一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
如图1所示,本发明实施例提供了一种相似舆情文本识别方法,包括:
步骤101:确定目标舆情数据;其中,目标舆情数据中包括:目标舆情文本。
除了目标舆情文本,目标舆情数据中还可以包括:目标舆情文本的发布时间、目标舆情文本的发布来源等信息。
舆情文本可以为新闻、博客和微博等,可以包括题目、正文等部分。舆情文本中可以与一个或多个对象相关联,该对象可以是企业、个体工商户和公益机构等。例如,媒体发布了一条新闻,该新闻的标题为“北京BB网络科技有限公司于今日在港交所上市”,由于该新闻中包括企业名称“北京BB网络科技有限公司”,因此,该新闻与“北京BB网络科技有限公司”相关联。
在实际应用场景中,可以通过爬虫工具采集舆情文本,目标舆情文本指的是待识别的舆情文本。
步骤102:从目标舆情文本中提取若干目标实体。
目标实体可以为企业全称、企业简称、企业字号和企业法人名称等信息。本发明实施例可以采用现有的实体识别方法从目标舆情文本中提取目标实体,现有的实体识别方法可以是NER(Named Entity Recognition,命名实体识别),或者基于设定的规则提取实体。提取的目标实体将与目标舆情文本关联存储在舆情文本库中。需要说明的是,步骤102和步骤103的执行顺序并不固定,步骤103可以先于步骤102执行,也可以与步骤102同时执行。
步骤103:对目标舆情文本进行分词,得到若干分词结果。
在本发明实施例中,可以使用现有的分词工具对目标舆情文本进行分词,如jieba、SnowNLP等。例如,目标舆情文本为“AA表示,收购该游戏公司后,AA将成为世界第三的游戏公司”,经过分词后,得到“AA、表示、收购、该、游戏、公司、后、AA、将、成为、世界、第三、的、游戏、公司”共15个分词结果。
步骤104:根据若干分词结果,生成目标特征编码。
步骤105:查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本;其中,舆情文本库中存储舆情文本及其关联的实体。
除了舆情文本及其关联的实体,舆情文本库中还可以存储舆情文本的特征编码。本发明实施例基于目标实体进行查询,以确定舆情文本库中是否包含与目标舆情文本具有相同实体的候选舆情文本。如果存在多个目标实体,则分别基于各个目标实体进行查询,一个目标实体可以关联多个候选舆情文本,不同的目标实体也可以关联同一个候选舆情文本。“查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本”可以替换为“查询预设的舆情文本库中是否包含与若干目标实体相同的实体”。
步骤106:根据查询结果和目标特征编码,识别目标舆情文本是否与舆情文本库中的舆情文本相似。
本发明实施例基于提取的实体对舆情文本库中的舆情文本进行筛选,缩小参与后续识别过程的舆情文本的数量,避免直接将目标舆情文本与舆情文本库中的全部舆情文本进行比对,能够提高相似舆情文本的识别效率,降低识别过程的资源消耗。
在本发明的一个实施例中,根据若干分词结果,生成目标特征编码,包括:
从若干分词结果中确定若干关键词;
针对各个关键词:确定关键词的权重;根据关键词及其权重,生成关键词的指纹编码;
根据各个关键词的指纹编码,生成目标特征编码。
关键词的指纹编码指的是以编码形式表示的关键词的特征。在本发明实施例中,可以根据分词结果的词频在多个分词结果中确定关键词。例如,在前述实施例中,分词结果的词频分别为:AA-2,表示-1,收购-1,该-1,游戏-2,公司-2,后-1,将-1,成为-1,世界-1,第三-1,的-1。按照词频由大到小的顺序,确定词频排在前3位的AA、公司和游戏为关键词。关键词的权重可以为关键词的词频,还可以为关键词的逆文档频率。
本发明实施例基于关键词的权重,将关键词转换成编码形式,使后续识别过程变为编码之间的运算,能够提高识别效率。同时,本发明实施例通过关键词的权重区分不同关键词在舆情文本中的重要程度,使得到的额目标特征编码更贴合实际应用场景,进而提高识别结果的准确度。
在实际应用场景中,还可以根据分词结果,生成分词结果的指纹编码,根据各个分词结果的指纹编码,生成目标特征编码。根据分词结果,生成分词结果的指纹编码,还可以替换为根据分词结果及其权重,生成分词结果的指纹编码。
在本发明的一个实施例中,从若干分词结果中确定若干关键词,包括:
统计各个分词结果的词频;
按照词频由高到低的顺序,在若干分词结果中确定若干关键词;
确定关键词的权重,包括:
计算关键词的逆文档频率;
根据关键词的逆文档频率及词频,计算关键词的权重。
其中,关键词的逆文档频率=log[舆情文本库中舆情文档总数/(包含该关键词的舆情文本数量)+1]。
本发明实施例基于TF-IDF算法计算关键词的权重,不仅考虑了关键词在目标舆情文本中的出现次数,还考虑了该关键词在整个舆情文本库中的出现次数,能够使获得的关键词的权重更真实反映实际情况,得到更加准确的识别结果。
在本发明实施例中,为了将词语转化成编码,以提高识别速度,根据关键词及其权重,生成关键词的指纹编码,包括:
计算关键词的哈希值;
根据关键词的哈希值及权重,生成关键词的特征编码。
本发明实施例基于Hash算法计算关键词的哈希值,将词语转换成编码。例如,上述关键词AA、游戏和公司的哈希值分别为100、010和001,如果AA、游戏和公司的权重分别为2、2、1,则AA的指纹编码为2×(1,-1,-1)=(2,-2,-2),游戏的指纹编码为2×(-1,1,-1)=(-2,2,-2),公司的指纹编码为1×(-1,-1,1)=(-1,-1,1)。由此可知,根据关键词的哈希值,确定关键词的初始编码,其中,哈希值为1,则初始编码为1,哈希值为0,则初始编码为-1,计算关键词的初始编码与其权重的乘积,得到关键词的特征编码。
在实际应用场景中,还可以使用MinHash算法等计算关键词的哈希值。
在本发明的一个实施例中,关键词的指纹编码中包括多列码值;
根据各个关键词的指纹编码,生成目标特征编码,包括:
将各个关键词的指纹编码的码值按列累加,得到初始特征编码;
对初始特征编码进行变换,得到目标特征编码;其中,目标特征编码中各列码值为0或1。
沿用上例,将(2,-2,-2)、(-2,2,-2)和(-1,-1,1)按列累加,得到初始特征编码(-1,-1,1)。对初始特征编码进行变换,得到由0和1构成的目标特征编码(0,0,1)。具体地,如果初始特征编码的码值为正数,则对应的目标特征编码的码值为1,如果初始特征编码的码值为负数,则对应的目标特征编码的码值为0。本发明实施例将目标特征编码变换为由0和/或1构成,以便于后续计算,提高识别效率。在实际应用场景中,也可以不对初始特征编码进行变换,即直接将初始特征编码作为目标特征编码。上述按列累加可以替换为“按列累乘”,即各列连续相乘。
在本发明的一个实施例中,根据查询结果和目标特征编码,识别目标舆情文本是否与舆情文本库中的舆情文本相似,包括:
响应于舆情文本库中包含多个候选舆情文本,获取各个候选舆情文本的特征编码;
针对每个候选舆情文本:根据目标特征编码和候选舆情文本的特征编码,确定目标舆情文本是否与候选舆情文本相似。
具体地,可以从舆情文本库中获取各个候选舆情文本的特征编码。在本发明实施例中,根据目标特征编码和候选舆情文本的特征编码,计算目标特征编码和候选舆情文本的特征编码的差异度,如果差异度小于预设的差异度阈值,则确定目标舆情文本与候选舆情文本相似。其中,差异度可以为不同码值的数量。例如,目标特征编码为10001,候选舆情文本的特征编码为10011,由于第4位码值不同,所以差异度为1。
本发明实施例基于实体从舆情文本库中筛选出候选舆情文本,缩小后续参与特征编码比对的舆情文本的数量,能够缩短识别时间。
在本发明的一个实施例中,目标特征编码中包括多列第一码值,第一码值为0或1;
候选舆情文本的特征编码中包括多列第二码值,第二码值为0或1;
根据目标特征编码和候选舆情文本的特征编码,确定目标舆情文本是否与候选舆情文本相似,包括:
将目标特征编码和候选舆情文本的特征编码做按位或操作,得到融合编码;
确定融合编码中码值为1的列数;
确定码值为1的列数是否小于预设的列数阈值,如果是,确定目标舆情文本与候选舆情文本相似。
当目标特征编码和候选舆情文本的特征编码均由0和/或1构成时,可以通过按位或计算,更加快速地计算出差异度,在本发明实施例中,差异度即为融合编码中码值为1的列数,列数阈值即为前述差异度阈值。
在本发明的一个实施例中,目标舆情数据中还包括:目标舆情文本的发布时间;
根据查询结果和目标特征编码,识别目标舆情文本是否与舆情文本库中的舆情文本相似,包括:
响应于舆情文本库中不包含候选舆情文本,根据目标舆情文本的发布时间,从舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个待识别舆情文本的特征编码;
针对每个待识别舆情文本:根据目标特征编码和待识别舆情文本的特征编码,确定目标舆情文本是否与候选舆情文本相似。
考虑到相同或相似度高的舆情文本的发布时间通常间隔时间较短,在舆情文本中不存在候选舆情文本时,本发明实施例根据舆情文本的发布时间,筛选与目标舆情文本发布时间更接近的待识别舆情文本,在减少后续计算量的基础上,保证识别结果的准确度。
在本发明的一个实施例中,确定目标舆情数据,包括:
获取初始舆情数据;其中,初始舆情数据中包括:初始舆情文本;
确定初始舆情文本中是否包含HTML标签或图片,如果是,删除初始舆情文本中的HTML标签或图片,得到目标舆情文本
在本发明实施例中,考虑到图片在后续文本识别的过程中并不能提供有效的特征信息,本发明实施例将初始舆情文本中的图片删除。
在本发明的一个实施例中,确定目标舆情数据,包括:
获取初始舆情数据;其中,初始舆情数据中包括:初始舆情文本;
确定初始舆情文本中是否包含设定干扰词,如果是,删除初始舆情文本中的干扰词,得到目标舆情文本。
媒体在转载其他媒体发布的舆情文本时,通常在舆情文本中标记“转载”等相关信息,为了避免这些词对后续识别过程造成干扰,本发明实施例从初始舆情文本中删除这些干扰词,干扰词可以为“转载”、“转自”、“转载自”等。考虑到转载信息一般出现在初始舆情文本的开头或结尾部分,因此,本发明实施例可以仅对初始舆情文本的开头和/或结尾部分进行分词,并将得到的分词结果与预设的干扰词进行匹配,以确定初始舆情文本中是否包括干扰词。例如,仅对初始舆情文本的第一段和最后一段进行分词。
如图2所示,本发明实施例提供了一种相似舆情文本识别装置,包括:
确定模块201,配置为确定目标舆情数据;其中,目标舆情数据中包括:目标舆情文本;
实体提取模块202,配置为从目标舆情文本中提取若干目标实体;
特征提取模块203,配置为对目标舆情文本进行分词,得到若干分词结果;根据若干分词结果,生成目标特征编码;
查询模块204,配置为查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本;其中,舆情文本库中存储舆情文本及其关联的实体;
识别模块205,配置为根据查询结果和目标特征编码,识别目标舆情文本是否与舆情文本库中的舆情文本相似。
在本发明的一个实施例中,特征提取模块203,配置为从若干分词结果中确定若干关键词;针对各个关键词:确定关键词的权重;根据关键词及其权重,生成关键词的指纹编码;根据各个关键词的指纹编码,生成目标特征编码。
在本发明的一个实施例中,特征提取模块203,配置为统计各个分词结果的词频;按照词频由高到低的顺序,在若干分词结果中确定若干关键词;计算关键词的逆文档频率;根据关键词的逆文档频率及词频,计算关键词的权重。
在本发明的一个实施例中,特征提取模块203,配置为计算关键词的哈希值;根据关键词的哈希值及权重,生成关键词的特征编码。
在本发明的一个实施例中,关键词的指纹编码中包括多列码值;特征提取模块203,配置为将各个关键词的指纹编码的码值按列累加,得到初始特征编码;对初始特征编码进行变换,得到目标特征编码;其中,目标特征编码中各列码值为0或1。
在本发明的一个实施例中,识别模块205,配置为响应于舆情文本库中包含多个候选舆情文本,获取各个候选舆情文本的特征编码;针对每个候选舆情文本:根据目标特征编码和候选舆情文本的特征编码,确定目标舆情文本是否与候选舆情文本相似。
在本发明的一个实施例中,目标特征编码中包括多列第一码值,第一码值为0或1;候选舆情文本的特征编码中包括多列第二码值,第二码值为0或1;识别模块205,配置为将目标特征编码和候选舆情文本的特征编码做按位或操作,得到融合编码;确定融合编码中码值为1的列数;确定码值为1的列数是否小于预设的列数阈值,如果是,确定目标舆情文本与候选舆情文本相似。
在本发明的一个实施例中,目标舆情数据中还包括:目标舆情文本的发布时间;识别模块205,配置为响应于舆情文本库中不包含候选舆情文本,根据目标舆情文本的发布时间,从舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个待识别舆情文本的特征编码;针对每个待识别舆情文本:根据目标特征编码和待识别舆情文本的特征编码,确定目标舆情文本是否与候选舆情文本相似。
在本发明的一个实施例中,确定模块201,配置为获取初始舆情数据;其中,初始舆情数据中包括:初始舆情文本;确定初始舆情文本中是否包含HTML标签或图片,如果是,删除初始舆情文本中的HTML标签或图片,得到目标舆情文本。
在本发明的一个实施例中,确定模块201,配置为获取初始舆情数据;其中,初始舆情数据中包括:初始舆情文本;确定初始舆情文本中是否包含设定干扰词,如果是,删除初始舆情文本中的干扰词,得到目标舆情文本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本发明实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述相似舆情文本识别方法的步骤。
具体地,该计算机可读存储介质可以是闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、公有云服务器等等。
关于上述实施例中的计算机可读存储介质,其上存储的计算机程序被执行时实现相似舆情文本识别方法步骤已将在有关该方法的实施例中进行了详细描述,此处不做详细阐述。
基于同一发明构思,本发明实施例还提供一种电子设备,该电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行存储器中的计算机程序,以实现上述的相似舆情文本识别方法的步骤。
图3是根据一示例性实施例示出的一种电子设备300的框图。如图3所示,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出(I/O)接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的相似舆情文本识别方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G或5G,NB-IOT(Narrow Band Internet of Things,窄带物联网),或者它们中一种或者多种的组合,因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的相似舆情文本识别方法。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (12)

1.一种相似舆情文本识别方法,其特征在于,包括:
确定目标舆情数据;其中,所述目标舆情数据中包括:目标舆情文本;
从所述目标舆情文本中提取若干目标实体;
对所述目标舆情文本进行分词,得到若干分词结果;
根据所述若干分词结果,生成目标特征编码;
查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述若干分词结果,生成目标特征编码,包括:
从所述若干分词结果中确定若干关键词;
针对各个所述关键词:确定所述关键词的权重;根据所述关键词及其权重,生成所述关键词的指纹编码;
根据各个所述关键词的指纹编码,生成所述目标特征编码。
3.根据权利要求2所述的方法,其特征在于,
所述从所述若干分词结果中确定若干关键词,包括:
统计各个所述分词结果的词频;
按照所述词频由高到低的顺序,在所述若干分词结果中确定若干关键词;
所述确定所述关键词的权重,包括:
计算所述关键词的逆文档频率;
根据所述关键词的逆文档频率及词频,计算所述关键词的权重。
4.根据权利要求2所述的方法,其特征在于,
所述根据所述关键词及其权重,生成所述关键词的指纹编码,包括:
计算所述关键词的哈希值;
根据所述关键词的哈希值及权重,生成所述关键词的特征编码。
5.根据权利要求2-4中任一项所述的方法,其特征在于,
所述关键词的指纹编码中包括多列码值;
所述根据各个所述关键词的指纹编码,生成所述目标特征编码,包括:
将各个所述关键词的指纹编码的码值按列累加,得到初始特征编码;
对所述初始特征编码进行变换,得到所述目标特征编码;其中,所述目标特征编码中各列码值为0或1。
6.根据权利要求1所述的方法,其特征在于,
所述根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似,包括:
响应于所述舆情文本库中包含多个所述候选舆情文本,获取各个所述候选舆情文本的特征编码;
针对每个所述候选舆情文本:根据所述目标特征编码和所述候选舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似。
7.根据权利要求6所述的方法,其特征在于,
所述目标特征编码中包括多列第一码值,所述第一码值为0或1;
所述候选舆情文本的特征编码中包括多列第二码值,所述第二码值为0或1;
所述根据所述目标特征编码和所述候选舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似,包括:
将所述目标特征编码和所述候选舆情文本的特征编码做按位或操作,得到融合编码;
确定所述融合编码中码值为1的列数;
确定所述码值为1的列数是否小于预设的列数阈值,如果是,确定所述目标舆情文本与所述候选舆情文本相似。
8.根据权利要求1所述的方法,其特征在于,
所述目标舆情数据中还包括:所述目标舆情文本的发布时间;
所述根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似,包括:
响应于所述舆情文本库中不包含所述候选舆情文本,根据所述目标舆情文本的发布时间,从所述舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个所述待识别舆情文本的特征编码;
针对每个所述待识别舆情文本:根据所述目标特征编码和所述待识别舆情文本的特征编码,确定所述目标舆情文本是否与所述候选舆情文本相似。
9.根据权利要求1所述的方法,其特征在于,
所述确定目标舆情数据,包括:
获取初始舆情数据;其中,所述初始舆情数据中包括:初始舆情文本;
确定所述初始舆情文本中是否包含HTML标签或图片,如果是,删除所述初始舆情文本中的所述HTML标签或所述图片,得到所述目标舆情文本;
和/或,
所述确定目标舆情数据,包括:
获取初始舆情数据;其中,所述初始舆情数据中包括:初始舆情文本;
确定所述初始舆情文本中是否包含设定干扰词,如果是,删除所述初始舆情文本中的所述干扰词,得到所述目标舆情文本。
10.一种相似舆情文本识别装置,其特征在于,包括:
确定模块,配置为确定目标舆情数据;其中,所述目标舆情数据中包括:目标舆情文本;
实体提取模块,配置为从所述目标舆情文本中提取若干目标实体;
特征提取模块,配置为对所述目标舆情文本进行分词,得到若干分词结果;根据所述若干分词结果,生成目标特征编码;
查询模块,配置为查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
识别模块,配置为根据查询结果和所述目标特征编码,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
CN202210095093.5A 2022-01-26 2022-01-26 一种相似舆情文本识别方法和装置 Withdrawn CN114528375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210095093.5A CN114528375A (zh) 2022-01-26 2022-01-26 一种相似舆情文本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210095093.5A CN114528375A (zh) 2022-01-26 2022-01-26 一种相似舆情文本识别方法和装置

Publications (1)

Publication Number Publication Date
CN114528375A true CN114528375A (zh) 2022-05-24

Family

ID=81622821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210095093.5A Withdrawn CN114528375A (zh) 2022-01-26 2022-01-26 一种相似舆情文本识别方法和装置

Country Status (1)

Country Link
CN (1) CN114528375A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施系统
CN108304502A (zh) * 2018-01-17 2018-07-20 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN111859070A (zh) * 2020-07-20 2020-10-30 北京北斗天巡科技有限公司 一种海量互联网新闻清洗系统
CN112084448A (zh) * 2020-08-31 2020-12-15 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918644A (zh) * 2017-10-31 2018-04-17 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施系统
CN108304502A (zh) * 2018-01-17 2018-07-20 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN111859070A (zh) * 2020-07-20 2020-10-30 北京北斗天巡科技有限公司 一种海量互联网新闻清洗系统
CN112084448A (zh) * 2020-08-31 2020-12-15 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质

Similar Documents

Publication Publication Date Title
CN110162750B (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
US11055373B2 (en) Method and apparatus for generating information
CN103678702A (zh) 视频去重方法及装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN111368697A (zh) 一种信息识别方法和装置
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN110245357B (zh) 主实体识别方法和装置
CN114610418A (zh) 数字内容处理方法、装置、电子设备、存储介质及产品
CN111368693A (zh) 一种身份证信息的识别方法和装置
CN104240107A (zh) 社群数据筛选系统及其方法
CN114417102A (zh) 文本去重方法、装置和电子设备
CN114528375A (zh) 一种相似舆情文本识别方法和装置
CN110929512A (zh) 一种数据增强方法和装置
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN111159996B (zh) 基于文本指纹算法的短文本集合相似度比较方法及系统
US9426173B2 (en) System and method for elimination of spam in a data stream according to information density
CN110147531B (zh) 一种相似文本内容的识别方法、装置及存储介质
CN111597368A (zh) 一种数据处理方法及装置
CN112784596A (zh) 一种识别敏感词的方法和装置
CN110891010B (zh) 用于发送信息的方法和装置
CN106649427B (zh) 一种信息识别的方法及装置
CN114519110A (zh) 一种舆情文本展示方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220524