CN108363748A - 基于知乎的话题画像系统及话题画像方法 - Google Patents

基于知乎的话题画像系统及话题画像方法 Download PDF

Info

Publication number
CN108363748A
CN108363748A CN201810078169.7A CN201810078169A CN108363748A CN 108363748 A CN108363748 A CN 108363748A CN 201810078169 A CN201810078169 A CN 201810078169A CN 108363748 A CN108363748 A CN 108363748A
Authority
CN
China
Prior art keywords
topic
user
data
portrait
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810078169.7A
Other languages
English (en)
Other versions
CN108363748B (zh
Inventor
王飞翔
王友国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810078169.7A priority Critical patent/CN108363748B/zh
Publication of CN108363748A publication Critical patent/CN108363748A/zh
Application granted granted Critical
Publication of CN108363748B publication Critical patent/CN108363748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本发明公开了一种基于知乎数据的话题画像系统及话题画像方法,系统包括用以从网站提取、清洗和预处理数据的数据预处理模块、用以对话题进行精准画像的话题画像模块以及用以对话题画像模块结果进行可视化呈现和报告下载的用户图形界面模块;话题画像方法包括如下步骤:(1)从网站提取、清洗、和预处理数据,具体包括话题数据爬取、数据清洗与预处理;(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载;本发明通过可交互可视化的用户图像界面呈现画像结果,拓宽了对知乎数据的挖掘及应用。

Description

基于知乎的话题画像系统及话题画像方法
技术领域
本发明涉及一种人工智能系统与数据挖掘方法,尤其涉及一种基于知乎的话题画像系统,同时还涉及一种基于知乎的话题画像方法。
背景技术
知乎是近年来新兴的以分享彼此的专业知识和经验见解为理念,以保持严谨、理性的社区氛围为特征的网络问答社区。截至2017年9月,知乎个人注册用户总数超过1亿,月浏览量180亿。知乎在问答社区基础上融入社交元素,重新定义了人与信息之间的关系,建立了全新的内容创造与传播机制,其高质量的社区内容己逐渐成为互联网用户获取知识的重要途径。
知乎话题是一种社会化标签(Social Tagging),用户创建标签并为标签建立联系,形成话题树。话题树由用户协作完成,知乎为用户提供平台、编辑工具,同时还会制定编辑准则,以保证话题树的质量。在知乎的知识网络中,话题既将一个个问题编织在话题体系的树状结构中,同时也连接了用户帮助他们在社区信息库中高效地参与和探索,此外独特的擅长话题,最佳话题贡献者等机制也促进了专家用户的内容创造、公众的知识交流和积累。以上特点,使得围绕知乎话题进行数据挖掘具有重大的商业和学术研究价值。
从现有研究成果看,虽然网络问答社区信息已被用于用户使用行为研究、信息质量研究、知识传播作用研究和决策支持研究,但研究对象尚多停留在对第一代关键词搜索式问答,其中信息科学技术方面的研究着重算法优化,社会科学的研究以定性和经验总结为主,尚未有针对知乎的内容结构与传播机制,围绕话题的,具有系统性和普适性的数据挖掘方法。同时,在第二代社会化问答社区的研究中,话题研究主要集中在话题识别,侧重自然语言处理,包括网络信息抓取、自然语言切分及关键词提取等技术,也存在着以下局限性:1.主要围绕话题和关键词提取、情感分析等方法进行研究,提供信息维度单一,没有与具体应用场景相关联。2.自然语言处理技术应用尚不成熟,汉语语义复杂、缺乏训练语料等很多短板使得自然语言处理技术实际表现不佳。3.网络问答社区文本数据大多是短文本集合,具有碎片化、表述口语化、数据集稀疏的特点,给自然语言处理技术带来新的挑战。
发明内容
发明目的:针对知乎信息结构和传播机制的特殊性以及目前研究工作方法上的局限性,本发明的目的是提供一种围绕话题、融合多种数据挖掘方法的话题画像系统,本发明的另一目的是基于上述系统,提供一种能够有效进行知乎数据挖掘的话题画像方法。
技术方案:一种基于知乎数据的话题画像系统,包括:
数据预处理模块,用以从网站提取、清洗和预处理数据;
话题画像模块,用以对话题进行精准画像;
用户图形界面模块,用以对话题画像模块结果进行可视化呈现和报告下载;
所述数据预处理模块包括数据爬取单元、数据清洗与预处理单元;
所述话题画像模块包括数据统计分析单元、用户画像分析单元、网络数据分析单元、文本数据分析单元、用户话题标签定义单元及对比分析单元;
所述用户图像界面模块包括数据可视化单元和报告下载单元。
利用所述话题画像系统进行话题画像是方法,包括如下步骤:
(1)从网站提取、清洗、和预处理数据,具体包括话题数据爬取、数据清洗与预处理;
(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;
(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载。
具体的,所述数据爬取包括以下步骤:
(1.1a)从网站url获取目标话题的id信息;
(1.2a)根据话题id,获取话题下所有问题id,关注用户id,并根据所属和关注关系建立 id关系表;
(1.3a)根据关系表中问题id,获取问题下所有回答id、所属父话题id和关注用户id,并根据回答关系、所属关系和关注关系建立id关系表;
(1.4a)根据关系表中的用户id,获取用户关注的话题id和用户的粉丝用户id,并根据关注关系建立id关系表;
(1.5a)根据关系表中的话题、问题、回答和用户id信息,爬取并保存话题、问题和用户的内容及完整属性信息,建立话题、问题、回答和用户信息表。
所述数据清洗与预处理包括以下步骤:
(1.1b)根据话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息;
(1.2b)根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息;
(1.3b)将创建时间戳、更新时间戳数据转换为string类型的时间数据;
(1.4b)根据问题的关注数和回答数分布特征,对问题进行热度类型划分;
(1.5b)根据提问内容结构和文本特征,对问题进行提问类型划分。
所述步骤(2)中,数据统计分析包括以下步骤:
(2.1a)筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间等特征作为数据集;
(2.2a)计算不同类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.3a)计算不同提问类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.4a)对问题的父话题通过关联规则挖掘算法挖掘父话题的间的潜在关联和联系;
所述用户画像分析包括以下步骤:
(2.1b)筛选出话题关注用户的用户信息作为数据集;
(2.2b)根据用户关注问题数和回答数计算用户话题内活跃度属性;
(2.3b)根据用户粉丝数和回答赞数计算用户话题内能力属性;
(2.4b)根据用户关注话题列表与目标话题相似度计算用户兴趣度属性;
所述网络数据分析包括以下步骤:
(2.1c)筛选出话题所属问题的所有父话题列表作为数据集;
(2.2c)基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;
(2.3c)通过社群挖掘算法对网络数据进行子群挖掘;
(2.4c)将子群挖掘可视化结果发送到数据可视化单元,文档结果发送数据下载单元;
所述文本数据分析包括:
(2.1d)针对事实型和列举型问题的回答进行汇总统计;观点原因型问题进行文本摘要和情感分析;
(2.2d)对话题所属问题的文本进行分析;首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为DTM(文档-词频)矩阵,基于结构主题模型StructuralTopic Models, STM文本分析方法,并四种问题类型作为协变量,分析不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型等问题的主题关键词分布的差异;
(2.3d)对问题所属回答的文本进行分析;处理步骤同上,采用用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异;
所述给话题指定特征打标签包括:
分析者通过第三方或自定义话题属性字典,话题自定义标签以字典结构存储;
所述与同类话题对比分析包括:
引入至少两个所研究话题的对比话题,提供话题的对照分析。
所述热度类型分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型;所述舆论焦点型即高关注与高回答,其中,关注焦点型即高关注与低回答,所述潜在点型即低关注与高回答,所述沉默型即低关注与低回答;所述提问类型将问题分为事实型、列举型、观点原因型、解决方法型、定义与描述型和经验分享型六种提问类型。
所述用户图像界面呈现具体包括:
(3.1)通过数据可视化单元将话题画像模块生成的分析结果进行web可视化呈现;
(3.2)通过报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。
所述步骤(2.2b)中,计算用户话题内活跃度步骤为:
(2.2.1b)对用户关注的话题内问题数、话题内的回答数进行归一化:
其中,ai′表示用户i关注的话题内问题数;amax表示话题关注用户中关注的话题内问题数最大值;ai,bi分别表示归一化后的用户话题内关注问题数、话题内用户的回答数。
(2.2.2b)计算用户话题内活跃度系数:
ωi=α1a+α2b
其中,ωi表示用户i的在话题内活跃度权重;αi(i=1,2)为权重系数,设定在[0,1]范围,且∑αi=1。
所述步骤(2.3b)中,计算用户话题内能力值步骤为:
(2.3.1b)设r是赞同次数降序排列的答案的次序,ZTr是回答r获得的赞同数,有以下序列:
r=(1,2,…,r,…,z)
ZT=(ZT1,ZT2,…,ZTr,…ZTz)
ZT1≥ZT2≥…≥ZTr≥…≥ZTz
(2.3.2b)定义话题内用户能力值:
hZ=max{r:r≤ZT}
所述步骤(2.4b)中,计算用户兴趣度步骤为:
(2.4.1b)定义目标话题在知乎中所有的父话题和子话题构成的话题集合为集合A,用户关注的话题为集合B
(2.4.2b)定义用户兴趣度为:
其中,I(A,B)范围为[0,1],值越大表示用户兴趣与话题相关度越高。
有益效果
和现有技术相比,本发明具有如下显著进步:本发明通过对知乎内容的创造、传播机制及当前主流数据挖掘算法的研究,提出了一种基于知乎话题数据,融合结构化数据挖掘,网络数据挖掘,文本数据挖掘等多种数据挖掘方法的话题画像方法和系统,并通过可交互的可视化的用户图像界面呈现画像结果,扩展了知乎数据挖掘在商业情报,社会研究,舆情研究等领域的应用。
附图说明
图1为本发明一个实施例的基于知乎的话题画像系统及方法的结构示意图;
图2为本发明一个实施例的数据爬取单元的处理流程示意图;
图3为知乎网站内容创造与传播机制示意图;
图4为本发明一个实施例的基于话题共线关系话题网络构建示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的优选实施例做进一步说明。
本发明基于知乎社区的内容创造与传播机制如图3所示,可以帮助本领域技术人员理解本发明背景。
图1是本发明一个实施例的基于知乎话题画像系统及方法结构示意图,包括:“数据预处理模块11”,“话题画像模块12”,“用户图形界面模块13”,以下对本发明实施例的各个模块进行详细的说明。
数据预处理模块如图1所示,适用于从网站提取、清洗和预处理适合话题画像模块的数据。数据预处理模块11包括用户数据爬取单元111,数据清洗和预处理单元112。数据爬取单元111如图2所示步骤,从知乎网站获取全面的话题、问题、回答和用户数据并存入数据库中。所提取的话题数据包括:名称、问题数、问题id、关注人数、关注用户id、爬取时间、最佳回答数;问题数据包括:问题内容、问题id、关注人数、关注用户id、回答数、回答id、父话题id、问题创建时间、问题更新时间、爬取时间;回答数据包括:回答id、回答内容、作者id、赞同数、评论数、感谢数、问题id、创建时间、更新时间、爬取时间;用户数据包括:用户id、用户名称、headline、性别、城市、行业、职业、职位、学校、关注问题数、关注话题数、感谢数、回答数、赞同数、粉丝数、关注用户数、提问数、收藏夹数、爬取时间。
数据清洗与预处理单元112主要用于对爬取数据进行清洗、整理和变形为话题画像模块所需的数据结构,包括以下内容。首先根据数据库中话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息,所得数据主要用户话题画像模块的统计分析单元分析;根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息,所得数据主要用户话题画像模块的用户画像分析单元;共线关系数据如图 4进行处理为关系型数据,如A,B,C为问题1的父话题,则共现话题[A,B,C]可以转换为关系数据[(A,B),(A,C),(B,C)];创建时间戳、更新时间戳数据转换为string类型的时间数据;
特别的,在数据预处理中,通过如表5所示分类准则对问题进行四象限分类。根据关注数,回答数和阈值,将问题分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型,具体地,首先在同一话题中对问题的关注数和回答数进行标准化处理,然后依据阈值如中位数,将关注数和回答数分为高低两类,最后基于高低两类的组合进行类型判定;
表5问题四象限分类详情与分类参数
问题特征 问题类型 阈值参数
高关注数且高回答数 舆论焦点型 标准化后的中位数
高关注数且低回答数 关注焦点 标准化后的中位数
低关注数且高回答数 潜在焦点 标准化后的中位数
低关注数且低回答数 沉默点 标准化后的中位数
特别的,在数据预处理中,通过如表6所示分类准则对问题进行提问动机分类。具体的,首先基于构建一个关键词和提问类型的字典,在同一话题中,对问题进行分词,并基于字典匹配将问题分为事实型(Fact),列举型(List),观点原因型(Reason),解决方法型(Solution),定义与描述型(Definition)和经验分享型(Share)六种提问类型。如果出现字典中未记载的类型关键词,则手动将关键字加入字典,重新匹配。
表6提问动机分类详情与示例
话题画像模块12是话题画像系统的核心,完成数据清洗与预处理后数据的算法处理。主要包括:“统计分析单元121”,“用户画像分析单元122”,“网络数据分析单元123”,“文本数据分析单元124”,“用户话题标签定义单元125”和“对比分析单元126”。
统计分析单元121,适用于对爬取和预处理的数据进数据分布特征、时间序列可视化等描述性分析,具体包括:筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间等特征作为数据集;然后计算四种热度类型问题随时间的分布特征、不同类型问题的父话题频率统计特征;计算六种提问类型问题随时间的分布特征、不同类型问题的父话题频率统计特征;对不同话题的问题的父话题通过关联规则挖掘算法如Apriori算法挖掘父话题关联关系,并输出支持度和提升度均较高的关联规则。
用户画像分析单元122,适用于对话题的关注用户进行用户画像分析。具体包括:筛选出话题关注用户的用户信息作为数据集;然后根据用户关注问题数、回答数计算用户话题内活跃度属性;根据用户粉丝数、回答赞数计算用户话题内能力属性;根据用户关注话题列表与目标话题相似度计算用户兴趣度属性。计算所得用户的活跃度、能力属性和兴趣度属性后将数据写入数据库,更新用户信息表。同时,针对用户的自然及社会属性信息如性别,学校,专业,行业,城市等信息进行可视化。
网络数据分析单元123,对话题数据中的问题父话题的共现关系进行分析。具体包括:筛选出话题所属问题的所有父话题列表作为数据集;基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;通过社区挖掘算法如Fastunfolding of communities in large networks对网络数据进行子群挖掘。子群挖掘算法可以通过网络数据分析软件Gephi的模块化计算功能实现子群挖掘可视化。
文本分析单元124,适用针对预处理数据对文本数据进行分析。具体包括两个部分,首先根据数据清洗与预处理单元112得到的六种提问类型,针对事实型(Fack)和列举型(List) 问题的回答进行汇总统计。观点原因型(Reason)问题进行文本摘要和情感分析;
其次,针对提问内容进行基于基于结构主题模型(Structural Topic Models,STM)的文本分析,具体包括:首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为 DTM(文档-词频)矩阵,基于STM算法,将数据清洗与预处理单元112得到的四种问题类型作为协变量,得到不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型等问题的主题关键词分布的差异;针对问题的回答的文本进行分析。处理步骤同上,将数据清洗与预处理单元112得到的用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异。
对问题所属回答的文本进行分析。处理步骤同上,协变量为权利6所述得到的用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异。
用户话题标签定义单元125,适用于用户给话题打上自定义标签。具体的,用户可以通过第三方或自定义话题属性字典,如研究手机话题的商业分析客户可以将不同的手机品牌增加“产品”标签,全面屏、续航等话题增加“用户需求”标签。话题自定义标签以字典结构存储,如:{话题名称:全面屏,自定义标签:[{用户需求},{技术},{…}]}
对比分析单元126,适用于通过与同类话题对比增进话题了解。具体包括在话题画像模块12各分析单元中,引入多个话题对照分析。
用户图形界面模块13负责分析结果的整合和呈现。用户图形界面模块13包括数据可视化单元和报告下载单元。数据可视化单元将话题画像模块各分析单元独立生成的生成的分析结果通过web可视化进行整合呈现;报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。。
综上所述,本发明涉及的知乎话题画像,是一种基于知乎TQAU (Topic-Question-Answer-User)信息结构和知乎内容传播机制,用于展现话题发展,洞察舆论动态,挖掘话题内涵,勾画用户画像,了解用户需求的工具,具体实现时,针对不同类型话题有不同的应用。例如,对企业或商业品牌类话题,话题画像可以用于了解品牌舆情,品牌关联知识挖掘,用户画像,用户需求研究等。对社会问题类话题,如“老年人”,“老龄”话题,话题画像可以用于扩展社会问题的分析数据源,了解与相关热点话题,舆论观点。对新闻事件类话题,话题画像可以用于新闻情感识别与监控,舆情监测,用户观点挖掘等。目前知乎有上万话题,丰富的话题的类型给了话题画像提供了巨大的应用空间。借助本发明实施例的技术方案,当用户希望挖掘知乎话题的更多信息时,可以通过可视化的方式了解话题的发展动态,话题的提问动机类型分布,话题关注用户画像,相关话题子群、话题关联规则、不同用户类型的关注偏好,不同热度类型的话题特征等信息,从而从多个维度更深度地挖掘话题背后更多的客观事实。

Claims (10)

1.一种基于知乎数据的话题画像系统,其特征在于,包括:
数据预处理模块,用以从网站提取、清洗和预处理数据;
话题画像模块,用以对话题进行精准画像;
用户图形界面模块,用以对话题画像模块结果进行可视化呈现和报告下载;
所述数据预处理模块包括数据爬取单元、数据清洗与预处理单元;
所述话题画像模块包括数据统计分析单元、用户画像分析单元、网络数据分析单元、文本数据分析单元、用户话题标签定义单元及对比分析单元;
所述用户图像界面模块包括数据可视化单元和报告下载单元。
2.一种利用如权利要求1所述的话题画像系统进行基于知乎数据的话题画像方法,其特征在于,包括如下步骤:
(1)从网站提取、清洗、和预处理数据,具体包括话题数据爬取、数据清洗与预处理;
(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;
(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载。
3.根据权利要求2所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(1)中,数据爬取包括以下步骤:
(1.1a)从网站url获取目标话题的id信息;
(1.2a)根据话题id,获取话题下所有问题id,关注用户id,并根据所属和关注关系建立id关系表;
(1.3a)根据关系表中问题id,获取问题下所有回答id、所属父话题id和关注用户id,并根据回答关系、所属关系和关注关系建立id关系表;
(1.4a)根据关系表中的用户id,获取用户关注的话题id和用户的粉丝用户id,并根据关注关系建立id关系表;
(1.5a)根据关系表中的话题、问题、回答和用户id信息,爬取并保存话题、问题和用户的内容及完整属性信息,建立话题、问题、回答和用户信息表。
4.根据权利要求2所述的基于知乎数据的话题画像方法,其特征在于,所述所述步骤(1)中,数据清洗与预处理包括以下步骤:
(1.1b)根据话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息;
(1.2b)根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息;
(1.3b)将创建时间戳、更新时间戳数据转换为string类型的时间数据;
(1.4b)根据问题的关注数和回答数分布特征,对问题进行热度类型划分;
(1.5b)根据提问内容结构和文本特征,对问题进行提问类型划分。
5.根据权利要求2所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(2)中,数据统计分析包括以下步骤:
(2.1a)筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间等特征作为数据集;
(2.2a)计算不同类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.3a)计算不同提问类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.4a)对问题的父话题通过关联规则挖掘算法挖掘父话题的间的潜在关联和联系;
所述用户画像分析包括以下步骤:
(2.1b)筛选出话题关注用户的用户信息作为数据集;
(2.2b)根据用户关注问题数和回答数计算用户话题内活跃度属性;
(2.3b)根据用户粉丝数和回答赞数计算用户话题内能力属性;
(2.4b)根据用户关注话题列表与目标话题相似度计算用户兴趣度属性;
所述网络数据分析包括以下步骤:
(2.1c)筛选出话题所属问题的所有父话题列表作为数据集;
(2.2c)基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;
(2.3c)通过社群挖掘算法对网络数据进行子群挖掘;
(2.4c)将子群挖掘可视化结果发送到数据可视化单元,文档结果发送数据下载单元;
所述文本数据分析包括:
(2.1d)针对事实型和列举型问题的回答进行汇总统计;观点原因型问题进行文本摘要和情感分析;
(2.2d)对话题所属问题的文本进行分析;首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为DTM(文档-词频)矩阵,基于结构主题模型Structural TopicModels,STM文本分析方法,并四种问题类型作为协变量,分析不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型等问题的主题关键词分布的差异;
(2.3d)对问题所属回答的文本进行分析;处理步骤同上,采用用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异;
所述给话题指定特征打标签包括:
分析者通过第三方或自定义话题属性字典,话题自定义标签以字典结构存储;
所述与同类话题对比分析包括:
引入至少两个所研究话题的对比话题,提供话题的对照分析。
6.根据权利要求4或5所述的基于知乎数据的话题画像方法,其特征在于:所述热度类型分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型;所述舆论焦点型即高关注与高回答,其中,关注焦点型即高关注与低回答,所述潜在点型即低关注与高回答,所述沉默型即低关注与低回答;所述提问类型将问题分为事实型、列举型、观点原因型、解决方法型、定义与描述型和经验分享型六种提问类型。
7.根据权利要求2所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(3)中,用户图像界面呈现具体包括:
(3.1)通过数据可视化单元将话题画像模块生成的分析结果进行web可视化呈现;
(3.2)通过报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。
8.根据权利要求4所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(2.2b)中,计算用户话题内活跃度步骤为:
(2.2.1b)对用户关注的话题内问题数、话题内的回答数进行归一化:
其中,a′i表示用户i关注的话题内问题数;amax表示话题关注用户中关注的话题内问题数最大值;ai,bi分别表示归一化后的用户话题内关注问题数、话题内用户的回答数。
(2.2.2b)计算用户话题内活跃度系数:
ωi=α1a+α2b
其中,ωi表示用户i的在话题内活跃度权重;αi(i=1,2)为权重系数,设定在[0,1]范围,且∑αi=1。
9.根据权利要求4所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(2.3b)中,计算用户话题内能力值步骤为:
(2.3.1b)设r是赞同次数降序排列的答案的次序,ZTr是回答r获得的赞同数,有以下序列:
r=(1,2,…,r,…,z)
ZT=(ZT1,ZT2,…,ZTr,…ZTz)
ZT1≥ZT2≥…≥ZTr≥…≥ZTz
(2.3.2b)定义话题内用户能力值:
hz=max{r:r≤ZT}
10.根据权利要求4所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(2.4b)中,计算用户兴趣度步骤为:
(2.4.1b)定义目标话题在知乎中所有的父话题和子话题构成的话题集合为集合A,用户关注的话题为集合B;
(2.4.2b)定义用户兴趣度为:
其中,I(A,B)范围为[0,1],值越大表示用户兴趣与话题相关度越高。
CN201810078169.7A 2018-01-26 2018-01-26 基于知乎的话题画像系统及话题画像方法 Active CN108363748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810078169.7A CN108363748B (zh) 2018-01-26 2018-01-26 基于知乎的话题画像系统及话题画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810078169.7A CN108363748B (zh) 2018-01-26 2018-01-26 基于知乎的话题画像系统及话题画像方法

Publications (2)

Publication Number Publication Date
CN108363748A true CN108363748A (zh) 2018-08-03
CN108363748B CN108363748B (zh) 2021-07-09

Family

ID=63006965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810078169.7A Active CN108363748B (zh) 2018-01-26 2018-01-26 基于知乎的话题画像系统及话题画像方法

Country Status (1)

Country Link
CN (1) CN108363748B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684635A (zh) * 2018-12-20 2019-04-26 上海四宸软件技术有限公司 一种基于智能营销的用户评价观点挖掘系统
CN110781368A (zh) * 2019-10-22 2020-02-11 北京赛时科技有限公司 一种针对指定专家的信息爬取系统及方法
CN111061960A (zh) * 2019-12-31 2020-04-24 苏州易卖东西信息技术有限公司 一种基于社交大数据生成用户画像的方法
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN116628317A (zh) * 2023-04-19 2023-08-22 上海顺多网络科技有限公司 一种使用少量信息定向用户群体偏好分析的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282732A1 (en) * 2010-05-12 2011-11-17 Yahoo! Inc. Understanding audience interests
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN107291815A (zh) * 2017-05-22 2017-10-24 四川大学 基于跨平台标签融合的问答社区推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282732A1 (en) * 2010-05-12 2011-11-17 Yahoo! Inc. Understanding audience interests
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发系统和方法
CN107291815A (zh) * 2017-05-22 2017-10-24 四川大学 基于跨平台标签融合的问答社区推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
蔡立志: "《大数据测评》", 31 January 2015, 上海科学技术出版社 *
谢宜瑾: "网络舆情分析与管理技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈志明: "UGC网站用户画像研究", 《计算机系统应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684635A (zh) * 2018-12-20 2019-04-26 上海四宸软件技术有限公司 一种基于智能营销的用户评价观点挖掘系统
CN110781368A (zh) * 2019-10-22 2020-02-11 北京赛时科技有限公司 一种针对指定专家的信息爬取系统及方法
CN111061960A (zh) * 2019-12-31 2020-04-24 苏州易卖东西信息技术有限公司 一种基于社交大数据生成用户画像的方法
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN113592225B (zh) * 2021-06-24 2023-12-01 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN116628317A (zh) * 2023-04-19 2023-08-22 上海顺多网络科技有限公司 一种使用少量信息定向用户群体偏好分析的方法

Also Published As

Publication number Publication date
CN108363748B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN108363748A (zh) 基于知乎的话题画像系统及话题画像方法
US20060053156A1 (en) Systems and methods for developing intelligence from information existing on a network
CN103823844B (zh) 社区问答服务中基于主客观上下文的问题转发系统和方法
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
US20100161604A1 (en) Apparatus and method for multimedia content based manipulation
Ziegler et al. Towards automated reputation and brand monitoring on the web
JP2001134575A (ja) 頻出パターン検出方法およびシステム
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN105912684B (zh) 基于视觉特征和语义特征的跨媒体检索方法
CN108154425A (zh) 一种结合社会网络和位置的线下商户推荐方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN103077207A (zh) 一种微博开心指数分析方法及系统
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN106682142A (zh) 特定事件情境下网络用户情感挖掘与传播特征分析方法
Zaib et al. Development of aggression detection technique in social media
CN116663664A (zh) 一种基于nlp算法的客户营销场景数据分析系统及方法
Mudgal et al. Analysis of tweets to find the basis of popularity based on events semantic similarity
Arif et al. Social network extraction: a review of automatic techniques
KR20190023722A (ko) 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법
CN106777124B (zh) 语义认知方法、装置及系统
CN110222198A (zh) 有色金属行业知识图谱构建方法、电子装置及存储介质
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Lewis How transdisciplinary is design? An analysis using citation networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant