CN109739988B - 一种行业热度获取方法 - Google Patents
一种行业热度获取方法 Download PDFInfo
- Publication number
- CN109739988B CN109739988B CN201811644148.3A CN201811644148A CN109739988B CN 109739988 B CN109739988 B CN 109739988B CN 201811644148 A CN201811644148 A CN 201811644148A CN 109739988 B CN109739988 B CN 109739988B
- Authority
- CN
- China
- Prior art keywords
- data
- hot
- class
- industry
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种行业热度获取方法,包括:获取数据集合,所述数据集合包括一类数据和二类数据;按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;对于每个分组数据集,计算其对应的主题向量集;基于所述主题向量集得到所述分组数据集中的热点数据网络集合;根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果。本发明通过对于互评类数据进行分析,从而得到了当前的热点数据、热点主题和热点行业的相关信息,从而填补了自动进行热点分析的相关技术的空白。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种行业热度获取方法。
背景技术
在数据分析领域,经常需要对数据进行分析。在常见互动性网站中,比如知乎,百度贴吧存在大量的用户互评类数据,这类数据能够反应用户的个人偏好,也能够用于研究时事热点和社会现象,存在较多的社会信息,能够被广泛的应用于广告目标用户研究,热点问题研究,舆情监督等各个领域。但是现有技术中缺乏对于这类数据的有效分析的方法,也无法基于这些数据获取行业热度信息。
发明内容
为了解决上述技术问题,本发明提出了一种行业热度获取方法。本发明具体是以如下技术方案实现的:
一种行业热度获取方法,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;
对于每个分组数据集,计算其对应的主题向量集;
基于所述主题向量集得到所述分组数据集中的热点数据网络集合;
根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果。
进一步地,还包括:
所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
进一步地,所述数据网络集合以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
进一步地,具体地,数据网络集合中可以包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也可以同时作为发布二类数据的用户。
进一步地,所述主题向量集可以被标识为{topici},其中topici={(ti1,pi1)......(tin,pin)},其中为tij主题topici中可能出现的关键词,Pij为所述关键词在该主题中出现的概率。
进一步地,对于每个分组数据集均可以对其热点数据网络集合按照行业类别进行聚类,从而得到聚类结果。
本发明提供了一种行业热度获取方法。本发明通过对于互评类数据进行分析,从而得到了当前的热点数据、热点主题和热点行业的相关信息,从而填补了自动进行热点分析的相关技术的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种行业热度获取方法流程图;
图2是本发明实施例提供的基于所述主题向量集得到所述分组数据集中的热点数据网络集合的方法流程图;
图3是本发明实施例提供的根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果方法流程图;
图4是本发明实施例提供的热点数据网络集合对应的热点主题的获取方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种行业热度获取方法。所述方法如图1所示,包括:
S101.获取数据集合,所述数据集合包括一类数据和二类数据。
所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
S102.按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据。
具体地,数据分组的时间维度可以根据具体需求进行设置,比如同一天、同一个星期、同一个月等等。
S103.对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合。
所述数据网络集合以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
举例而言,若用户spark发布了一个一类数据,用户tony,samby和dazzi对其进行了评论,则得到了包括四个顶点,三条有向边的数据网络集合,有向边为从tony指向spark,samby指向spark和dazzi指向spark的三条边。有向边的方向由发布二类数据的用户指向所述二类数据对应的一类数据的用户。
具体地,数据网络集合中可以包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也可以同时作为发布二类数据的用户,本发明实施例并不限定数据网络集合的具体生成方法。
S104.对于每个分组数据集,计算其对应的主题向量集。
具体地,所述主题向量集可以被标识为{topi}i,其中topici={(ti1,pi1)......(tin,pin)},其中为tij主题topici中可能出现的关键词,Pij为所述关键词在该主题中出现的概率。事实上数据网络集合中的各个顶点的标题和内容都可以看做是一系列关键词的概率分布,因此,通过对于各个顶点的标题进行分析结合先验知识即可得到与顶点相关的主题,由此得到数据网络集合对应的主题向量集,对于每个分组数据集中的各个数据网络集合对应的主题向量集取并集,得到每个分组数据集对应的主题向量集。而对于得到主题向量集的具体方法本发明实施例并不做出具体限定,可以参考现有技术。
S105.基于所述主题向量集得到所述分组数据集中的热点数据网络集合。
S106.根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果。
具体地,对于每个分组数据集均可以对其热点数据网络集合按照行业类别进行聚类,从而得到聚类结果,而聚类结果即可标识行业的热度。
进一步地,如图2所示,所述基于所述主题向量集得到所述分组数据集中的热点数据网络集合包括:
S1051.获取每个数据网络集合的热度属性。
具体地,所述热度属性可以根据实际情况进行获取,比如,本发明实施例中使用的热度属性为数据网络集合顶点数重要度、数据网络集合参与重要度和数据网络集合的阅读重要度。
具体地,所述数据网络顶点重要度为所述数据网络顶点的个数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值。所述活跃用户可以根据用户上线浏览数据的次数定义。
所述数据网络集合参与重要度为所述数据网络集合顶点个数与所述数据网络集合中各个数据被浏览的总数的比值。
所述数据网络集合的阅读重要度为所述数据网络集合中各个数据被浏览的总数与所述数据网络所在分组数据集对应的时间段内的活跃用户总数的比值。
S1052.根据所述热度属性提取疑似热点数据网络集合。
具体地,只有当数据网络集合顶点数重要度大于预设第一阈值,并且数据网络集合参与重要度大于预设第二阈值和数据网络集合的阅读重要度大于预设第三阈值的数据网络集合,才是疑似热点数据网络集合。
具体地,本发明实施例中第一阈值为0.1,第二阈值为0.15,第三阈值为0.3。
S1053.获取疑似热点数据网络集合的相关度矩阵。
具体地,某个顶点与某个主题向量的相关度的获取方法包括:
进一步地,在得到某个顶点与某个主题向量的相关度的基础上,可以得到该顶点所述主题向量集中各个主题的相关度,从而得到顶点相关度向量,所述相关度向量表示所述顶点与各个主题的相关度。
以某个顶点的顶点相关度向量为列,得到疑似热点数据网络集合对应的相关度矩阵。
S1054.获取所述相关度矩阵中数值大于预设相关度阈值的元素。
S1055.若所述元素总数大于预设的热度阈值,则所述疑似热点数据网络被判定为热点数据网络。
具体地,如图3所示,所述根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果包括:
S1061.获取每个分组数据集中的热点数据网络集合。
S1062.获取每个所述热点数据网络集合对应的N个热点主题。
具体地,如图4所示,热点数据网络集合对应的热点主题的获取方法包括:
S10621.计算所述热点数据网络集合的相关度矩阵中每一行的元素的总和值;
S10622.选取所述总和值最大的N行,得到其对应的主题,即为热点主题。
S1063.根据各个热点数据网络集合对应的热点主题得到所述分组数据集的M个热点主题。
具体地,各个热点数据网络集合对应的热点主题重复出现次数最高的M个主题即为所述分组数据集的M个热点主题。
S1064.根据所述M个热点主题进行聚类得到热门行业聚类结果。
具体地,所述聚类包括:
S10.计算两个热点主题之间的不相似性,并得到不相似性矩阵R={rij}n*n。
具体地,可以通过不相似性矩阵的获取的现有技术得到两个热点主题之间的不相似性,本发明实施例不做赘述。
S20.初始化行业类别ω。
S30.获取各个热点主题对于行业类别的隶属度。
S40.获取各个热点主题对于行业类别的贡献度。
S50.输出基于所述隶属度和贡献度表示的聚类结果。
具体地,所述隶属度以u表示,uik表示热点主题xi对行业类别ωk的隶属度,所述贡献度以v表示,vkj表示热点主题xj对行业类别ωk的贡献权重。
隶属度根据公式(一):计算,贡献度根据公式(二):可见,以M个热点主题为输入,根据公式(一)和公式(二)进行迭代计算,从而得到各个热点主题对于行业类别的隶属度和贡献度。公式(一)和公式(二)中的φ和β为与聚类精度有关的常数。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种行业热度获取方法,其特征在于,包括:
获取数据集合,所述数据集合包括一类数据和二类数据;
按照一类数据的发布时间进行数据分组,得到分组数据集,所述分组数据集中包括一类数据和与所述一类数据相关的二类数据;
对每个分组数据集进行预处理,得到所述分组数据集对应的多个数据网络集合;
对于每个分组数据集,计算其对应的主题向量集;
基于所述主题向量集得到所述分组数据集中的热点数据网络集合;
根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果;
所述根据各个分组数据集中的热点数据网络集合得到热门行业聚类结果包括:
获取每个分组数据集中的热点数据网络集合;获取每个所述热点数据网络集合对应的N个热点主题,热点数据网络集合对应的热点主题的获取方法包括计算所述热点数据网络集合的相关度矩阵中每一行的元素的总和值;选取所述总和值最大的N行,得到其对应的主题,即为热点主题;根据各个热点数据网络集合对应的热点主题得到所述分组数据集的M个热点主题;各个热点数据网络集合对应的热点主题重复出现次数最高的M个主题即为所述分组数据集的M个热点主题;根据所述M个热点主题进行聚类得到热门行业聚类结果;
所述聚类包括计算两个热点主题之间的不相似性,并得到不相似性矩阵R={rij}n*n;始化行业类别ω;获取各个热点主题对于行业类别的隶属度;获取各个热点主题对于行业类别的贡献度;输出基于所述隶属度和贡献度表示的聚类结果;所述隶属度以u表示,uik表示热点主题xi对行业类别ωk的隶属度,所述贡献度以v表示,vkj表示热点主题xj对行业类别ωk的贡献权重;
2.根据权利要求1所述的方法,其特征在于,还包括:
所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据。
3.根据权利要求1所述的方法,其特征在于:
所述数据网络集合以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据。
4.根据权利要求3所述的方法,其特征在于:
数据网络集合中包括多个发布一类数据的用户和多个发布二类数据的用户,而发布一类数据的用户也同时作为发布二类数据的用户。
5.根据权利要求1所述的方法,其特征在于:
所述主题向量集被标识为{topici},其中topici={(ti1,pi1)......(tin,pin)},其中为tij主题topici中出现的关键词,Pij为所述关键词在该主题中出现的概率。
6.根据权利要求1所述的方法,其特征在于:
对于每个分组数据集均对其热点数据网络集合按照行业类别进行聚类,从而得到聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644148.3A CN109739988B (zh) | 2018-12-30 | 2018-12-30 | 一种行业热度获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644148.3A CN109739988B (zh) | 2018-12-30 | 2018-12-30 | 一种行业热度获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109739988A CN109739988A (zh) | 2019-05-10 |
CN109739988B true CN109739988B (zh) | 2021-05-14 |
Family
ID=66362664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811644148.3A Active CN109739988B (zh) | 2018-12-30 | 2018-12-30 | 一种行业热度获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109739988B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047727A1 (en) * | 2012-09-28 | 2014-04-03 | Alkis Papadopoullos | A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model |
CN103793489A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中社群话题的发现方法 |
CN109086835A (zh) * | 2018-08-29 | 2018-12-25 | 陈鑫宁 | 一种浊度数据处理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8682883B2 (en) * | 2011-04-14 | 2014-03-25 | Predictix Llc | Systems and methods for identifying sets of similar products |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN107644089B (zh) * | 2017-09-26 | 2020-08-04 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
-
2018
- 2018-12-30 CN CN201811644148.3A patent/CN109739988B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047727A1 (en) * | 2012-09-28 | 2014-04-03 | Alkis Papadopoullos | A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model |
CN103793489A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中社群话题的发现方法 |
CN109086835A (zh) * | 2018-08-29 | 2018-12-25 | 陈鑫宁 | 一种浊度数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109739988A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Celma et al. | A new approach to evaluating novel recommendations | |
US10572565B2 (en) | User behavior models based on source domain | |
CN103377250B (zh) | 基于邻域的top‑k推荐方法 | |
Sieg et al. | Improving the effectiveness of collaborative recommendation with ontology-based user profiles | |
CN111382283B (zh) | 资源类别标签标注方法、装置、计算机设备和存储介质 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
Gao et al. | Multimedia social event detection in microblog | |
CN103678635A (zh) | 基于标签有向图的网络音乐聚合推荐方法 | |
JP2010507843A (ja) | 個人的な音楽推薦のマッピング | |
CN109740059B (zh) | 一种热门话题舆情分析方法 | |
US20160012454A1 (en) | Database systems for measuring impact on the internet | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
CN110321492A (zh) | 一种基于社区信息的项目推荐方法及系统 | |
Hu et al. | Predicting key events in the popularity evolution of online information | |
Vaz et al. | Understanding temporal dynamics of ratings in the book recommendation scenario | |
CN104077288B (zh) | 网页内容推荐方法和网页内容推荐设备 | |
Xiang et al. | Demographic attribute inference from social multimedia behaviors: a cross-OSN approach | |
Fani et al. | Finding Diachronic Like‐Minded Users | |
CN109739988B (zh) | 一种行业热度获取方法 | |
CN103020095B (zh) | 信息处理设备和信息处理方法 | |
CN109684480B (zh) | 一种基于行业的聚类方法 | |
CN110297939A (zh) | 一种融合用户行为和文化元数据的音乐个性化系统 | |
Manzato et al. | A multimedia recommender system based on enriched user profiles | |
JP2014182421A (ja) | クラスタ形成装置、クラスタ形成方法及びクラスタ形成プログラム | |
Liu | Personalized Recommendation Algorithm for Movie Data Combining Rating Matrix and User Subjective Preference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210426 Address after: Area a, 22 / F, block a, 8 Haidian Street, Haidian District, Beijing 100080 Applicant after: BEIJING SMART STARLIGHT INFORMATION TECHNOLOGY Co.,Ltd. Address before: 476, 4 floor, building A, 3 building, No. 301 foreshore Road, Changhe Road, Binjiang District, Zhejiang, Hangzhou, China 310052 Applicant before: HANGZHOU YITU NETWORK TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |