CN110737750B - 分析文本受众的数据处理方法、装置与电子设备 - Google Patents

分析文本受众的数据处理方法、装置与电子设备 Download PDF

Info

Publication number
CN110737750B
CN110737750B CN201810718397.6A CN201810718397A CN110737750B CN 110737750 B CN110737750 B CN 110737750B CN 201810718397 A CN201810718397 A CN 201810718397A CN 110737750 B CN110737750 B CN 110737750B
Authority
CN
China
Prior art keywords
search
word
searching
audience
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810718397.6A
Other languages
English (en)
Other versions
CN110737750A (zh
Inventor
雍倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810718397.6A priority Critical patent/CN110737750B/zh
Publication of CN110737750A publication Critical patent/CN110737750A/zh
Application granted granted Critical
Publication of CN110737750B publication Critical patent/CN110737750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分析文本受众的数据处理方法、装置与电子设备,所述方法,包括:生成文本中每个段落的主题词;在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;将搜索所述第一搜索词的用户确定为所述文本的受众用户。本发明不会造成数据格式多样难以获取与整合的情况,同时,本发明可有利于避免受众用户的遗漏,尽可能覆盖较多的用户范围,也可有利于准确确定受众用户。

Description

分析文本受众的数据处理方法、装置与电子设备
技术领域
本发明涉及信息处理领域,尤其涉及分析文本受众的数据处理方法、装置与电子设备。
背景技术
在网络中,可发布任意文本,例如新闻文章、微博文章、论坛文章等等。对该文本感兴趣的用户,可理解为该文本的受众。
现有的相关技术中,为了能够确定受众,需根据贴吧、微博、微信、论坛等平台中用户对文本的评论、浏览、转发的情况,确定受众用户。其中,同一文本可能发布于多个平台,为了能准确获悉该文本的受众,需对多平台的数据进行整合。
然而,各平台中评论、浏览、转发的数据源不同,难以快速、有效地获取与整合。
发明内容
本发明提供一种分析文本受众的数据处理方法、装置与电子设备,以解决不同平台的数据难以快速、有效地获取与整合的问题。
根据本发明的第一方面,提供了一种分析文本受众的数据处理方法,包括:
生成所述文本中每个段落的主题词;
在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
将搜索所述第一搜索词的用户确定为所述文本的受众用户。
可选的,所述生成所述文本中每个段落的主题词之后,还包括:
提取每个段落中的扩展词,所述扩展词与所述段落的主题词的相似度大于第二阈值;
在所述多个搜索词中查找第二搜索词;所述第二搜索词与所述扩展词的相似度大于所述第一阈值;
将搜索所述第二搜索词的用户确定为所述文本的受众用户。
可选的,所述的方法,还包括:
提取所述文本中的目标短句,所述目标短句为包含预设的目标字和/或目标词的短句;
在所述多个搜索词中查找第三搜索词,所述第三搜索词与所述目标短句的相似度大于所述第一阈值;
将搜索所述第三搜索词的用户确定为所述文本的受众用户。
可选的,所述在多个搜索词中查找第一搜索词,包括:
利用词向量模型向量化所述多个搜索词,得到每个搜索词的第一向量;
利用所述词向量模型向量化所述主题词,得到第二向量;
根据所述第一向量与所述第二向量,确定所述第一搜索词;
可选的,所述生成所述文本中每个段落的主题词,包括:
利用文档主题生成模型LDA生成所述主题词。
可选的,所述确定所述文本的受众用户包括搜索所述第一搜索词的用户之后,还包括:
获取每个受众用户的特征信息,所述特征信息包括特征类别与每个特征类别下预设的特征值;所述特征类别包括以下至少之一:性别、年龄、职业、地域、兴趣,以及所属行业;
统计所述特征类别下不同特征值的受众用户的数量和/或占比。
可选的,所述生成所述文本中每个段落的主题词之前,还包括:确定舆情事件对应的所述文本。
根据本发明的第二方面,提供了一种分析文本受众的数据处理装置,包括:
生成模块,用于生成所述文本中每个段落的主题词;
第一查找模块,用于在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
第一受众确定模块,用于将搜索所述第一搜索词的用户确定为所述文本的受众用户。
可选的,所述的装置,还包括:
第一提取模块,用于提取每个段落中的扩展词,所述扩展词与所述段落的主题词的相似度大于第二阈值;
第二查找模块,用于在所述多个搜索词中查找第二搜索词;所述第二搜索词与所述扩展词的相似度大于所述第一阈值;
第二受众确定模块,用于将搜索所述第二搜索词的用户确定为所述文本的受众用户。
可选的,所述的装置,还包括:
第二提取模块,用于提取所述文本中的目标短句,所述目标短句为包含预设的目标字和/或目标词的短句;
第三查找模块,用于在所述多个搜索词中查找第三搜索词,所述第三搜索词与所述目标短句的相似度大于所述第一阈值;
第三受众确定模块,用于将搜索所述第三搜索词的用户确定为所述文本的受众用户。
可选的,所述第一查找模块,具体用于:
利用词向量模型向量化所述多个搜索词,得到每个搜索词的第一向量;
利用所述词向量模型向量化所述主题词,得到第二向量;
根据所述第一向量与所述第二向量,确定所述第一搜索词。
可选的,所述生成模块,具体用于:
利用文档主题生成模型LDA生成所述主题词。
可选的,所述的装置,还包括:
获取模块,用于获取每个受众用户的特征信息,所述特征信息包括特征类别与每个特征类别下预设的特征值;所述特征类别包括以下至少之一:性别、年龄、职业、地域、兴趣,以及所属行业;
统计模块,用于统计所述特征类别下不同特征值的受众用户的数量和/或占比。
可选的,所述的装置,还包括:
文本确定模块,用于确定舆情事件对应的所述文本。
根据本发明的第三方面,提供了一种电子设备,包括存储器与处理器;
所述存储器,用于存储所述处理器的可执行指令;
所述处理器配置为经由执行所述可执行指令来执行第一方面及其可选方案涉及的分析文本受众的数据处理方法。
根据本发明的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面及其可选方案涉及的分析文本受众的数据处理方法。
本发明提供的分析文本受众的数据处理方法、装置与电子设备,通过在多个搜索词中查找第一搜索词、所述多个搜索词是自搜索数据库获取的;以及将搜索所述第一搜索词的用户确定为所述文本的受众用户,实现了以第一搜索词为依据确定受众用户,相较于提取多方数据的方案,本发明的数据来源为搜索词数据库,较为单一,不会造成数据格式多样难以获取与整合的情况。
同时,本发明还通过生成所述文本中每个段落的主题词,以及所述第一搜索词与所述主题词的相似度大于第一阈值;实现了第一搜索词的确定,由于第一搜索词是与文本的主题词相似的,且主题词是针对于每个段落生成的,故而,本发明既有效扩展了第一搜索词的多样性,也保障了第一搜索词与文本具有较高的关联性,兼顾了查全与查准,进而,既可有利于避免受众用户的遗漏,尽可能覆盖较多的用户范围,也可有利于准确确定受众用户。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一个实施例中分析文本受众的数据处理方法的流程示意图;
图2是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图一;
图3是图2中步骤S203的流程示意图;
图4是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图二;
图5是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图三;
图6是本发明第三个实施例中分析文本受众的数据处理装置的结构示意图;
图7是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图一;
图8是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图二;
图9是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图三;
图10是本发明一实施例中电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1是本发明第一个实施例中分析文本受众的数据处理方法的流程示意图。
请参考图1,分析文本受众的数据处理方法,包括:
S101:生成文本中每个段落的主题词。
其中的文本,可理解为任意由文字组合形成的内容,其可以为任意的文章,例如新闻文章、微博文章、论坛文章等。其中的文字可具体区分为多个段落,针对每个段落可生成一个或多个主题词。
步骤S101中的文本可以为单个文本,也可以是多个文本,具体的,为了确定特定的舆情事件的受众,可针对于舆情事件的单个或多个文本实施本实施例所涉及的分析文本受众的数据处理方法,各文本的受众用户,即为该舆情事件的受众用户,进而,还可将各文本确定的受众用户整合,例如可将所确定的相同受众用户整合等,最终确定舆情事件的受众用户。可见,本实施例确定文本的受众用户,在应用于舆情事件的场景时,可理解为确定舆情事件的受众用户。
其中一种实施方式中,可利用文档主题生成模型LDA生成所述主题词。LDA具体为Latent Dirichlet Allocation,可理解为文档主题生成模型,也可理解为三层贝叶斯概率模型,具体可包含词、主题和文档三层结构。
进一步的,利用基于主题的文本切割可将表达同一个主题或子主题的段落聚合为一个整体。
S102:在多个搜索词中查找第一搜索词。
所述多个搜索词是自搜索数据库获取的;具体的,可利用搜索数据库的实时接口,调取一定时间段内的所有搜索词,所调取到的搜索词,即为所述多个搜索词。
该搜索数据库,可以为任意公共的或非公共的搜索平台的数据库。
由于本实施例只需从搜索数据库中获取搜索词,无需向多个平台分别调取数据,进而无需对该类数据进行整合,数据来源较为单一,不会造成数据格式多样难以获取与整合的情况。
针对于舆情事件,现有相关技术中的一种方案为:提取来源于例如贴吧、微博、微信、论坛等不同平台的文本的评论、浏览、转发的情况,对其中的用户进行特征提取、对受众用户进行描述等处理,进而可实现对受众用户的分析。但是,除了数据难以获取与整合以外,由于数据是多平台获取的,用于描述用户的指标难以整合统一,故而,无法对受众用户进行准确、有效地描述。
相较而言,本是是实施例以搜索词为依据,则不会发生以上情况,进而,可使得所确定的受众用户更准确,也有利于更准确、有效地描述受众用户。
所述第一搜索词与所述主题词的相似度大于第一阈值。任意可用作对相似度进行表征与比较的方案,均不脱离本发明的范围。
S103:将搜索所述第一搜索词的用户确定为所述文本的受众用户。
确定为文本的受众用户,也可理解为区分了文本的受众用户与其他用户的任意手段,不论是区分的处理、还是区分的标识等,均可满足步骤S103的描述。例如:对搜索第一搜索词的用户进行标识,使之区别于其他用户被识别,再例如:提取搜索第一搜索词的用户的相关信息,而不提取其他用户的相关信息,使其相关信息区别于其他用户的相关信息被处理,又例如:将搜索第一搜索词的用户的用户标识、用户信息等列入一个数据结构中,而不将其他用户的用户标识、用户信息列入到该数据结构中。
文本的受众用户,如前文提到的,也可为舆情事件的受众用户,受众用户,可理解为对文本或舆情事件感兴趣的用户。而不同的用户,则是根据注册于搜索数据库所对应搜索平台的用户信息区分的。故而,将用户确定为受众用户,实际是将对应的用户信息确定为受众用户的用户信息。
本实施例提供的分析文本受众的数据处理方法,通过在多个搜索词中查找第一搜索词、所述多个搜索词是自搜索数据库获取的;以及将搜索所述第一搜索词的用户确定为所述文本的受众用户,实现了以第一搜索词为依据确定受众用户,相较于提取多方数据的方案,本实施例的数据来源为搜索词数据库,较为单一,不会造成数据格式多样难以获取与整合的情况。
同时,本实施例还通过生成所述文本中每个段落的主题词,以及所述第一搜索词与所述主题词的相似度大于第一阈值;实现了第一搜索词的确定,由于第一搜索词是与文本的主题词相似的,且主题词是针对于每个段落生成的,故而,本实施例既有效扩展了第一搜索词的多样性,也保障了第一搜索词与文本具有较高的关联性,兼顾了查全与查准,进而,既可有利于避免受众用户的遗漏,尽可能覆盖较多的用户范围,也可有利于准确确定受众用户。
图2是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图一。
图2所示实施例可理解为图1所示实施例的进一步改进。
请参考图2,分析文本受众的数据处理方法,包括:
S201:确定舆情事件对应的文本。
舆情事件,可理解为抽象的网络中受用户关注的事件,其对应的文本可理解为该些事件的载体之一,其可对应有一个文本,也可对应有多个文本。步骤S201中可确定舆情事件对应的所有文本,也可只确定对应的一个或多个文本。
S202:生成文本中每个段落的主题词。
步骤S202的可选方案以及技术效果,可参照图1所示实施例中步骤S101理解,在此不再累述。
S203:在多个搜索词中查找第一搜索词。
步骤S203的可选方案以及技术效果,可参照图1所示实施例中步骤S102理解,在此不再累述。
图3是图2中步骤S203的流程示意图。
请参考图3,步骤S203可以包括:
S2031:利用词向量模型向量化所述多个搜索词,得到每个搜索词的第一向量;
S2032:利用所述词向量模型向量化所述主题词,得到第二向量;
S2033:根据所述第一向量与所述第二向量,确定所述第一搜索词。
其中,步骤S2021与步骤S2022可同时实施,可步骤S2021先于步骤S2022,也可步骤S2022先于步骤S2021。
步骤S2023中,具体可计算第一向量与第二向量的夹角,夹角越小,相似度越大,进而,可通过计算两个向量的夹角余弦值来评估相似度,例如夹角余弦值越接近1,相似度越高。
故而,所述第一搜索词与所述主题词的相似度大于第一阈值,具体可理解为以上夹角小于第一阈值关联的夹角阈值,或者夹角余弦值与1之间的差距小于第一阈值关联的余弦值阈值。
其中一种实施方式中,向量化搜索词与主题词的方式,可以为采用word2vec模型来实现向量化,Word2vec模型可理解为一群用来产生词向量的相关模型。在其他可选实施方式中,也可采用TF-IDF来实现向量化,所述TF-IDF具体为term frequency–inversedocument frequency是一种用于信息检索与数据挖掘的常用加权技术。
S204:将搜索所述第一搜索词的用户确定为所述文本的受众用户。
步骤S204的可选方案以及技术效果,可参照图1所示实施例中步骤S103理解,在此不再累述。
除了以上确定受众用户的手段,为了能够尽可能多样的确定受众用户,可对所查找的搜索词进行进一步的扩展,故而本实施例还可在步骤S202之后实施步骤S205至步骤S207,还可在步骤S201之后实施步骤S208至步骤S207。
图4是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图二。
请参考图4,步骤S202之后,还可包括:
S205:提取每个段落中的扩展词。
所述扩展词与所述段落的主题词的相似度大于第二阈值;具体可包括:先对段落中的词进行提取,将提取到的词与主题词进行比对,选择其中相似度大于第二阈值的词作为扩展词。
其中,相似度的比较方式,可参照搜索词与主题词之间的比较,例如:可分别对提取到的词与主题词进行向量化,进而计算两个向量之间的夹角和/或夹角余弦值,进而根据夹角和/或夹角余弦值,判断相似度是否大于第二阈值。
S206:在所述多个搜索词中查找第二搜索词。
所述第二搜索词与所述扩展词的相似度大于所述第一阈值。
具体的,步骤S206可包括:利用所述词向量模型向量化所述扩展词,得到第三向量;根据所述第一向量与所述第三向量,确定所述第二搜索词。其过程及其可选方案具体可参照步骤S203理解。
S207:将搜索所述第二搜索词的用户确定为所述文本的受众用户。
步骤S207的过程可参照步骤S204的可选方案及其技术效果理解,再此不再累述。
图5是本发明第二个实施例中分析文本受众的数据处理方法的流程示意图三。
请参考图5,步骤S201之后,还可包括:
S208:提取所述文本中的目标短句。
所述目标短句可理解为为包含预设的目标字和/或目标词的短句;具体的,例如对舆情事件,该目标词可以为该舆情事件涉及的人的名字、企业的名字等。目标短句,可以为包含目标字和/或目标词的任意长度的词组、词语、句子等。该目标短句也可为目标字和/或目标词本身。
S209:在所述多个搜索词中查找第三搜索词。
所述第三搜索词与所述目标短句的相似度大于所述第一阈值。
具体的,步骤S209可包括:利用所述词向量模型向量化所述目标短句,得到第四向量;根据所述第一向量与所述第四向量,确定所述第三搜索词。其过程及其可选方案具体可参照步骤S203理解。
S210:将搜索所述第三搜索词的用户确定为所述文本的受众用户。
步骤S210的过程可参照步骤S204的可选方案及其技术效果理解,再此不再累述。
通过以上步骤可确定受众用户。可见,本实施例确定受众用户的方式与现有相关技术不同,进而,应用该方式对受众用户进行分析的任意方案,均不脱离本发明的范围。
对于此,由于用户搜索事件并不一定是通过文章标题,可能是文章中的某一句话或某个主题,所以,本是实施例对文章中可表征核心内容的主题词、扩展词,以及目标短句均进行了抽取,来覆盖文章标题不能覆盖的受众用户。
在以上步骤S210后,可对各搜索词确定的受众用户进行去重,生成用户模型。
其中一种实施方式中,请参考图2、图4和图5,所述的方法,还可包括:
S211:获取每个受众用户的特征信息。
所述特征信息包括特征类别与每个特征类别下预设的特征值;所述特征类别包括以下至少之一:性别、年龄、职业、地域、兴趣,以及所属行业;
S212:统计所述特征类别下不同特征值的受众用户的数量和/或占比。
在步骤S212之后,还可对统计的数据进行格式上的归一化和入库。
本实施例提供的分析文本受众的数据处理方法,通过在多个搜索词中查找第一搜索词、所述多个搜索词是自搜索数据库获取的;以及将搜索所述第一搜索词的用户确定为所述文本的受众用户,实现了以第一搜索词为依据确定受众用户,相较于提取多方数据的方案,本实施例的数据来源为搜索词数据库,较为单一,不会造成数据格式多样难以获取与整合的情况。
同时,本实施例还通过生成所述文本中每个段落的主题词,以及所述第一搜索词与所述主题词的相似度大于第一阈值;实现了第一搜索词的确定,由于第一搜索词是与文本的主题词相似的,且主题词是针对于每个段落生成的,故而,本实施例既有效扩展了第一搜索词的多样性,也保障了第一搜索词与文本具有较高的关联性,兼顾了查全与查准,进而,既可有利于避免受众用户的遗漏,尽可能覆盖较多的用户范围,也可有利于准确确定受众用户。
图,6是本发明第三个实施例中分析文本受众的数据处理装置的结构示意图。
请参考图6,分析文本受众的数据处理装置300,包括:
生成模块301,用于生成所述文本中每个段落的主题词;
第一查找模块302,用于在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
第一受众确定模块303,用于将搜索所述第一搜索词的用户确定为所述文本的受众用户。
本实施例提供的分析文本受众的数据处理装置,通过在多个搜索词中查找第一搜索词、所述多个搜索词是自搜索数据库获取的;以及将搜索所述第一搜索词的用户确定为所述文本的受众用户,实现了以第一搜索词为依据确定受众用户,相较于提取多方数据的方案,本实施例的数据来源为搜索词数据库,较为单一,不会造成数据格式多样难以获取与整合的情况。
同时,本实施例还通过生成所述文本中每个段落的主题词,以及所述第一搜索词与所述主题词的相似度大于第一阈值;实现了第一搜索词的确定,由于第一搜索词是与文本的主题词相似的,且主题词是针对于每个段落生成的,故而,本实施例既有效扩展了第一搜索词的多样性,也保障了第一搜索词与文本具有较高的关联性,兼顾了查全与查准,进而,既可有利于避免受众用户的遗漏,也可有利于准确确定受众用户。
图7是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图一。
请参考图7,分析文本受众的数据处理装置400,包括:
生成模块402,用于生成所述文本中每个段落的主题词;
第一查找模块403,用于在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
第一受众确定模块404,用于将搜索所述第一搜索词的用户确定为所述文本的受众用户。
图8是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图二。
请参考图8,所述的装置,还包括:
第一提取模块405,用于提取每个段落中的扩展词,所述扩展词与所述段落的主题词的相似度大于第二阈值;
第二查找模块406,用于在所述多个搜索词中查找第二搜索词;所述第二搜索词与所述扩展词的相似度大于所述第一阈值;
第二受众确定模块407,用于将搜索所述第二搜索词的用户确定为所述文本的受众用户。
图9是本发明第四个实施例中分析文本受众的数据处理装置的结构示意图三。
请参考图9,所述的装置,还包括:
第二提取模块408,用于提取所述文本中的目标短句,所述目标短句为包含预设的目标字和/或目标词的短句;
第三查找模块409,用于在所述多个搜索词中查找第三搜索词,所述第三搜索词与所述目标短句的相似度大于所述第一阈值;
第三受众确定模块410,用于将搜索所述第三搜索词的用户确定为所述文本的受众用户。
可选的,所述第一查找模块403,具体用于:
利用词向量模型向量化所述多个搜索词,得到每个搜索词的第一向量;
利用所述词向量模型向量化所述主题词,得到第二向量;
根据所述第一向量与所述第二向量,确定所述第一搜索词。
可选的,所述生成模块402,具体用于:
利用文档主题生成模型LDA生成所述主题词。
请参考图7、图8和图9,所述的装置,还包括:
获取模块411,用于获取每个受众用户的特征信息,所述特征信息包括特征类别与每个特征类别下预设的特征值;所述特征类别包括以下至少之一:性别、年龄、职业、地域、兴趣,以及所属行业;
统计模块412,用于统计所述特征类别下不同特征值的受众用户的数量和/或占比。
请参考图7、图8和图9,所述的装置,还包括:
文本确定模块401,用于确定舆情事件对应的所述文本。
本实施例提供的分析文本受众的数据处理装置,通过在多个搜索词中查找第一搜索词、所述多个搜索词是自搜索数据库获取的;以及将搜索所述第一搜索词的用户确定为所述文本的受众用户,实现了以第一搜索词为依据确定受众用户,相较于提取多方数据的方案,本实施例的数据来源为搜索词数据库,较为单一,不会造成数据格式多样难以获取与整合的情况。
同时,本实施例还通过生成所述文本中每个段落的主题词,以及所述第一搜索词与所述主题词的相似度大于第一阈值;实现了第一搜索词的确定,由于第一搜索词是与文本的主题词相似的,且主题词是针对于每个段落生成的,故而,本实施例既有效扩展了第一搜索词的多样性,也保障了第一搜索词与文本具有较高的关联性,兼顾了查全与查准,进而,既可有利于避免受众用户的遗漏,也可有利于准确确定受众用户。
图10是本发明一实施例中电子设备的结构示意图。
请参考图10,本实施例还提供了一种电子设备50包括:处理器51以及存储器52;其中:
存储器52,用于存储计算机程序,该存储器还可以是flash(闪存)。
处理器51,用于执行存储器存储的执行指令,以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器52既可以是独立的,也可以跟处理器51集成在一起。
当所述存储器52是独立于处理器51之外的器件时,所述电子设备50还可以包括:
总线53,用于连接所述存储器52和处理器51。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子执行执行上述的各种实施方式提供的方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种分析文本受众的数据处理方法,其特征在于,包括:
生成文本中每个段落的主题词;
在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
提取每个段落中的扩展词,所述扩展词与所述段落的主题词的相似度大于第二阈值;
在所述多个搜索词中查找第二搜索词;所述第二搜索词与所述扩展词的相似度大于所述第一阈值;
提取所述文本中的目标短句,所述目标短句为包含预设的目标字和/或目标词的短句;
在所述多个搜索词中查找第三搜索词,所述第三搜索词与所述目标短句的相似度大于所述第一阈值;
将搜索所述第一搜索词的用户、搜索所述第二搜索词的用户和搜索第三搜索词的用户确定为所述文本的受众用户;
将搜索第一搜索词的用户、搜索所述第二搜索词的用户和搜索第三搜索词的用户的用户标识、用户信息列入一个数据结构中。
2.根据权利要求1所述的方法,其特征在于,所述在多个搜索词中查找第一搜索词,包括:
利用词向量模型向量化所述多个搜索词,得到每个搜索词的第一向量;
利用所述词向量模型向量化所述主题词,得到第二向量;
根据所述第一向量与所述第二向量,确定所述第一搜索词。
3.根据权利要求1所述的方法,其特征在于,所述生成所述文本中每个段落的主题词,包括:
利用文档主题生成模型LDA生成所述主题词。
4.根据权利要求1所述的方法,其特征在于,所述确定所述文本的受众用户包括搜索所述第一搜索词的用户之后,还包括:
获取每个受众用户的特征信息,所述特征信息包括特征类别与每个特征类别下预设的特征值;所述特征类别包括以下至少之一:性别、年龄、职业、地域、兴趣,以及所属行业;
统计所述特征类别下不同特征值的受众用户的数量和/或占比。
5.一种分析文本受众的数据处理装置,其特征在于,包括:
生成模块,用于生成所述文本中每个段落的主题词;
第一查找模块,用于在多个搜索词中查找第一搜索词;所述第一搜索词与所述主题词的相似度大于第一阈值;所述多个搜索词是自搜索数据库获取的;
第一受众确定模块,用于将搜索所述第一搜索词的用户确定为所述文本的受众用户;
第一提取模块,用于提取每个段落中的扩展词,所述扩展词与所述段落的主题词的相似度大于第二阈值;
第二查找模块,用于在所述多个搜索词中查找第二搜索词;所述第二搜索词与所述扩展词的相似度大于所述第一阈值;
第二受众确定模块,用于将搜索所述第二搜索词的用户确定为所述文本的受众用户;
第二提取模块,用于提取所述文本中的目标短句,所述目标短句为包含预设的目标字和/或目标词的短句;
第三查找模块,用于在所述多个搜索词中查找第三搜索词,所述第三搜索词与所述目标短句的相似度大于所述第一阈值;
第三受众确定模块,用于将搜索所述第三搜索词的用户确定为所述文本的受众用户;
列入模块,用于将搜索第一搜索词的用户、搜索所述第二搜索词的用户和搜索第三搜索词的用户的用户标识、用户信息列入一个数据结构中。
6.一种电子设备,其特征在于,包括存储器与处理器;
所述存储器,用于存储所述处理器的可执行指令;
所述处理器配置为经由执行所述可执行指令来执行权利要求1至4任一项所述的分析文本受众的数据处理方法。
7.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4任一项所述的分析文本受众的数据处理方法。
CN201810718397.6A 2018-07-03 2018-07-03 分析文本受众的数据处理方法、装置与电子设备 Active CN110737750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810718397.6A CN110737750B (zh) 2018-07-03 2018-07-03 分析文本受众的数据处理方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810718397.6A CN110737750B (zh) 2018-07-03 2018-07-03 分析文本受众的数据处理方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN110737750A CN110737750A (zh) 2020-01-31
CN110737750B true CN110737750B (zh) 2023-01-31

Family

ID=69234151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810718397.6A Active CN110737750B (zh) 2018-07-03 2018-07-03 分析文本受众的数据处理方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN110737750B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725729B2 (en) * 2006-04-03 2014-05-13 Steven G. Lisa System, methods and applications for embedded internet searching and result display
US20080115068A1 (en) * 2006-11-13 2008-05-15 International Business Machines Corporation System and method to enhance instant messaging
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN103425710A (zh) * 2012-05-25 2013-12-04 北京百度网讯科技有限公司 一种基于主题的搜索方法和装置
CN103455487B (zh) * 2012-05-29 2018-07-06 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107220386B (zh) * 2017-06-29 2020-10-02 北京百度网讯科技有限公司 信息推送方法和装置
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器

Also Published As

Publication number Publication date
CN110737750A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107657048B (zh) 用户识别方法及装置
CN104598644B (zh) 喜好标签挖掘方法和装置
Akaichi Social networks' Facebook'statutes updates mining for sentiment classification
US20150032753A1 (en) System and method for pushing and distributing promotion content
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN108305180B (zh) 一种好友推荐方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN107885717B (zh) 一种关键词提取方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
KR101695014B1 (ko) 감성 어휘 정보 구축 방법 및 장치
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN111414471A (zh) 用于输出信息的方法和装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN107665222B (zh) 关键词的拓展方法和装置
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN110737750B (zh) 分析文本受众的数据处理方法、装置与电子设备
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant