CN108363748B - 基于知乎的话题画像系统及话题画像方法 - Google Patents
基于知乎的话题画像系统及话题画像方法 Download PDFInfo
- Publication number
- CN108363748B CN108363748B CN201810078169.7A CN201810078169A CN108363748B CN 108363748 B CN108363748 B CN 108363748B CN 201810078169 A CN201810078169 A CN 201810078169A CN 108363748 B CN108363748 B CN 108363748B
- Authority
- CN
- China
- Prior art keywords
- topic
- data
- user
- analysis
- questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于知乎数据的话题画像系统及话题画像方法,系统包括用以从网站提取、清洗和预处理数据的数据预处理模块、用以对话题进行精准画像的话题画像模块以及用以对话题画像模块结果进行可视化呈现和报告下载的用户图形界面模块;话题画像方法包括如下步骤:(1)从网站提取、清洗、和预处理数据,具体包括话题数据爬取、数据清洗与预处理;(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载;本发明通过可交互可视化的用户图像界面呈现画像结果,拓宽了对知乎数据的挖掘及应用。
Description
技术领域
本发明涉及一种人工智能系统与数据挖掘方法,尤其涉及一种基于知乎的话题画像系统,同时还涉及一种基于知乎的话题画像方法。
背景技术
知乎是近年来新兴的以分享彼此的专业知识和经验见解为理念,以保持严谨、理性的社区氛围为特征的网络问答社区。截至2017年9月,知乎个人注册用户总数超过1亿,月浏览量180亿。知乎在问答社区基础上融入社交元素,重新定义了人与信息之间的关系,建立了全新的内容创造与传播机制,其高质量的社区内容己逐渐成为互联网用户获取知识的重要途径。
知乎话题是一种社会化标签(Social Tagging),用户创建标签并为标签建立联系,形成话题树。话题树由用户协作完成,知乎为用户提供平台、编辑工具,同时还会制定编辑准则,以保证话题树的质量。在知乎的知识网络中,话题既将一个个问题编织在话题体系的树状结构中,同时也连接了用户帮助他们在社区信息库中高效地参与和探索,此外独特的擅长话题,最佳话题贡献者等机制也促进了专家用户的内容创造、公众的知识交流和积累。以上特点,使得围绕知乎话题进行数据挖掘具有重大的商业和学术研究价值。
从现有研究成果看,虽然网络问答社区信息已被用于用户使用行为研究、信息质量研究、知识传播作用研究和决策支持研究,但研究对象尚多停留在对第一代关键词搜索式问答,其中信息科学技术方面的研究着重算法优化,社会科学的研究以定性和经验总结为主,尚未有针对知乎的内容结构与传播机制,围绕话题的,具有系统性和普适性的数据挖掘方法。同时,在第二代社会化问答社区的研究中,话题研究主要集中在话题识别,侧重自然语言处理,包括网络信息抓取、自然语言切分及关键词提取等技术,也存在着以下局限性:1.主要围绕话题和关键词提取、情感分析等方法进行研究,提供信息维度单一,没有与具体应用场景相关联。2.自然语言处理技术应用尚不成熟,汉语语义复杂、缺乏训练语料等很多短板使得自然语言处理技术实际表现不佳。3.网络问答社区文本数据大多是短文本集合,具有碎片化、表述口语化、数据集稀疏的特点,给自然语言处理技术带来新的挑战。
发明内容
发明目的:针对知乎信息结构和传播机制的特殊性以及目前研究工作方法上的局限性,本发明的目的是提供一种围绕话题、融合多种数据挖掘方法的话题画像系统,本发明的另一目的是基于上述系统,提供一种能够有效进行知乎数据挖掘的话题画像方法。
技术方案:一种基于知乎数据的话题画像系统,包括:
数据预处理模块,用以从网站提取、清洗和预处理数据;
话题画像模块,用以对话题进行精准画像;
用户图形界面模块,用以对话题画像模块结果进行可视化呈现和报告下载;
所述数据预处理模块包括数据爬取单元、数据清洗与预处理单元;
所述话题画像模块包括数据统计分析单元、用户画像分析单元、网络数据分析单元、文本数据分析单元、用户话题标签定义单元及对比分析单元;
所述用户图像界面模块包括数据可视化单元和报告下载单元。
利用所述话题画像系统进行话题画像是方法,包括如下步骤:
(1)从网站提取、清洗、和预处理数据,具体包括话题数据爬取、数据清洗与预处理;
(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;
(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载。
具体的,所述数据爬取包括以下步骤:
(1.1a)从网站url获取目标话题的id信息;
(1.2a)根据话题id,获取话题下所有问题id,关注用户id,并根据所属和关注关系建立id关系表;
(1.3a)根据关系表中问题id,获取问题下所有回答id、所属父话题id和关注用户id,并根据回答关系、所属关系和关注关系建立id关系表;
(1.4a)根据关系表中的用户id,获取用户关注的话题id和用户的粉丝用户id,并根据关注关系建立id关系表;
(1.5a)根据关系表中的话题、问题、回答和用户id信息,爬取并保存话题、问题和用户的内容及完整属性信息,建立话题、问题、回答和用户信息表。
所述数据清洗与预处理包括以下步骤:
(1.1b)根据话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息;
(1.2b)根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息;
(1.3b)将创建时间戳、更新时间戳数据转换为string类型的时间数据;
(1.4b)根据问题的关注数和回答数分布特征,对问题进行热度类型划分;
(1.5b)根据提问内容结构和文本特征,对问题进行提问类型划分。
所述步骤(2)中,数据统计分析包括以下步骤:
(2.1a)筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间等特征作为数据集;
(2.2a)计算不同类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.3a)计算不同提问类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.4a)对问题的父话题通过关联规则挖掘算法挖掘父话题的间的潜在关联和联系;
所述用户画像分析包括以下步骤:
(2.1b)筛选出话题关注用户的用户信息作为数据集;
(2.2b)根据用户关注问题数和回答数计算用户话题内活跃度属性;
(2.3b)根据用户粉丝数和回答赞数计算用户话题内能力属性;
(2.4b)根据用户关注话题列表与目标话题相似度计算用户兴趣度属性;
所述网络数据分析包括以下步骤:
(2.1c)筛选出话题所属问题的所有父话题列表作为数据集;
(2.2c)基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;
(2.3c)通过社群挖掘算法对网络数据进行子群挖掘;
(2.4c)将子群挖掘可视化结果发送到数据可视化单元,文档结果发送数据下载单元;
所述文本数据分析包括:
(2.1d)针对事实型和列举型问题的回答进行汇总统计;观点原因型问题进行文本摘要和情感分析;
(2.2d)对话题所属问题的文本进行分析;首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为DTM(文档-词频)矩阵,基于结构主题模型StructuralTopic Models,STM文本分析方法,并四种问题类型作为协变量,分析不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型等问题的主题关键词分布的差异;
(2.3d)对问题所属回答的文本进行分析;处理步骤同上,采用用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异;
所述给话题指定特征打标签包括:
分析者通过第三方或自定义话题属性字典,话题自定义标签以字典结构存储;
所述与同类话题对比分析包括:
引入至少两个所研究话题的对比话题,提供话题的对照分析。
所述热度类型分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型;所述舆论焦点型即高关注与高回答,其中,关注焦点型即高关注与低回答,所述潜在点型即低关注与高回答,所述沉默型即低关注与低回答;所述提问类型将问题分为事实型、列举型、观点原因型、解决方法型、定义与描述型和经验分享型六种提问类型。
所述用户图像界面呈现具体包括:
(3.1)通过数据可视化单元将话题画像模块生成的分析结果进行web可视化呈现;
(3.2)通过报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。
所述步骤(2.2b)中,计算用户话题内活跃度步骤为:
(2.2.1b)对用户关注的话题内问题数、话题内的回答数进行归一化:
其中,ai′表示用户i关注的话题内问题数;amax表示话题关注用户中关注的话题内问题数最大值;ai,bi分别表示归一化后的用户话题内关注问题数、话题内用户的回答数。
(2.2.2b)计算用户话题内活跃度系数:
ωi=α1a+α2b
其中,ωi表示用户i的在话题内活跃度权重;αi(i=1,2)为权重系数,设定在[0,1]范围,且∑αi=1。
所述步骤(2.3b)中,计算用户话题内能力值步骤为:
(2.3.1b)设r是赞同次数降序排列的答案的次序,ZTr是回答r获得的赞同数,有以下序列:
r=(1,2,…,r,…,z)
ZT=(ZT1,ZT2,…,ZTr,…ZTz)
ZT1≥ZT2≥…≥ZTr≥…≥ZTz
(2.3.2b)定义话题内用户能力值:
hZ=max{r:r≤ZT}
所述步骤(2.4b)中,计算用户兴趣度步骤为:
(2.4.1b)定义目标话题在知乎中所有的父话题和子话题构成的话题集合为集合A,用户关注的话题为集合B
(2.4.2b)定义用户兴趣度为:
其中,I(A,B)范围为[0,1],值越大表示用户兴趣与话题相关度越高。
有益效果
和现有技术相比,本发明具有如下显著进步:本发明通过对知乎内容的创造、传播机制及当前主流数据挖掘算法的研究,提出了一种基于知乎话题数据,融合结构化数据挖掘,网络数据挖掘,文本数据挖掘等多种数据挖掘方法的话题画像方法和系统,并通过可交互的可视化的用户图像界面呈现画像结果,扩展了知乎数据挖掘在商业情报,社会研究,舆情研究等领域的应用。
附图说明
图1为本发明一个实施例的基于知乎的话题画像系统及方法的结构示意图;
图2为本发明一个实施例的数据爬取单元的处理流程示意图;
图3为知乎网站内容创造与传播机制示意图;
图4为本发明一个实施例的基于话题共线关系话题网络构建示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的优选实施例做进一步说明。
本发明基于知乎社区的内容创造与传播机制如图3所示,可以帮助本领域技术人员理解本发明背景。
图1是本发明一个实施例的基于知乎话题画像系统及方法结构示意图,包括:“数据预处理模块11”,“话题画像模块12”,“用户图形界面模块13”,以下对本发明实施例的各个模块进行详细的说明。
数据预处理模块如图1所示,适用于从网站提取、清洗和预处理适合话题画像模块的数据。数据预处理模块11包括用户数据爬取单元111,数据清洗和预处理单元112。数据爬取单元111如图2所示步骤,从知乎网站获取全面的话题、问题、回答和用户数据并存入数据库中。所提取的话题数据包括:名称、问题数、问题id、关注人数、关注用户id、爬取时间、最佳回答数;问题数据包括:问题内容、问题id、关注人数、关注用户id、回答数、回答id、父话题id、问题创建时间、问题更新时间、爬取时间;回答数据包括:回答id、回答内容、作者id、赞同数、评论数、感谢数、问题id、创建时间、更新时间、爬取时间;用户数据包括:用户id、用户名称、headline、性别、城市、行业、职业、职位、学校、关注问题数、关注话题数、感谢数、回答数、赞同数、粉丝数、关注用户数、提问数、收藏夹数、爬取时间。
数据清洗与预处理单元112主要用于对爬取数据进行清洗、整理和变形为话题画像模块所需的数据结构,包括以下内容。首先根据数据库中话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息,所得数据主要用户话题画像模块的统计分析单元分析;根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息,所得数据主要用户话题画像模块的用户画像分析单元;共线关系数据如图4进行处理为关系型数据,如A,B,C为问题1的父话题,则共现话题[A,B,C]可以转换为关系数据[(A,B),(A,C),(B,C)];创建时间戳、更新时间戳数据转换为string类型的时间数据;
特别的,在数据预处理中,通过如表5所示分类准则对问题进行四象限分类。根据关注数,回答数和阈值,将问题分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型,具体地,首先在同一话题中对问题的关注数和回答数进行标准化处理,然后依据阈值如中位数,将关注数和回答数分为高低两类,最后基于高低两类的组合进行类型判定;
表5问题四象限分类详情与分类参数
问题特征 | 问题类型 | 阈值参数 |
高关注数且高回答数 | 舆论焦点型 | 标准化后的中位数 |
高关注数且低回答数 | 关注焦点 | 标准化后的中位数 |
低关注数且高回答数 | 潜在焦点 | 标准化后的中位数 |
低关注数且低回答数 | 沉默点 | 标准化后的中位数 |
特别的,在数据预处理中,通过如表6所示分类准则对问题进行提问动机分类。具体的,首先基于构建一个关键词和提问类型的字典,在同一话题中,对问题进行分词,并基于字典匹配将问题分为事实型(Fact),列举型(List),观点原因型(Reason),解决方法型(Solution),定义与描述型(Definition)和经验分享型(Share)六种提问类型。如果出现字典中未记载的类型关键词,则手动将关键字加入字典,重新匹配。
表6提问动机分类详情与示例
话题画像模块12是话题画像系统的核心,完成数据清洗与预处理后数据的算法处理。主要包括:“统计分析单元121”,“用户画像分析单元122”,“网络数据分析单元123”,“文本数据分析单元124”,“用户话题标签定义单元125”和“对比分析单元126”。
统计分析单元121,适用于对爬取和预处理的数据进数据分布特征、时间序列可视化等描述性分析,具体包括:筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间等特征作为数据集;然后计算四种热度类型问题随时间的分布特征、不同类型问题的父话题频率统计特征;计算六种提问类型问题随时间的分布特征、不同类型问题的父话题频率统计特征;对不同话题的问题的父话题通过关联规则挖掘算法如Apriori算法挖掘父话题关联关系,并输出支持度和提升度均较高的关联规则。
用户画像分析单元122,适用于对话题的关注用户进行用户画像分析。具体包括:筛选出话题关注用户的用户信息作为数据集;然后根据用户关注问题数、回答数计算用户话题内活跃度属性;根据用户粉丝数、回答赞数计算用户话题内能力属性;根据用户关注话题列表与目标话题相似度计算用户兴趣度属性。计算所得用户的活跃度、能力属性和兴趣度属性后将数据写入数据库,更新用户信息表。同时,针对用户的自然及社会属性信息如性别,学校,专业,行业,城市等信息进行可视化。
网络数据分析单元123,对话题数据中的问题父话题的共现关系进行分析。具体包括:筛选出话题所属问题的所有父话题列表作为数据集;基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;通过社区挖掘算法如Fastunfolding of communities in large networks对网络数据进行子群挖掘。子群挖掘算法可以通过网络数据分析软件Gephi的模块化计算功能实现子群挖掘可视化。
文本分析单元124,适用针对预处理数据对文本数据进行分析。具体包括两个部分,首先根据数据清洗与预处理单元112得到的六种提问类型,针对事实型(Fack)和列举型(List)问题的回答进行汇总统计。观点原因型(Reason)问题进行文本摘要和情感分析;
其次,针对提问内容进行基于基于结构主题模型(Structural Topic Models,STM)的文本分析,具体包括:首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为DTM(文档-词频)矩阵,基于STM算法,将数据清洗与预处理单元112得到的四种问题类型作为协变量,得到不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型等问题的主题关键词分布的差异;针对问题的回答的文本进行分析。处理步骤同上,将数据清洗与预处理单元112得到的用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异。
对问题所属回答的文本进行分析。处理步骤同上,协变量为权利6所述得到的用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户等回答内容的主题关键词分布的差异。
用户话题标签定义单元125,适用于用户给话题打上自定义标签。具体的,用户可以通过第三方或自定义话题属性字典,如研究手机话题的商业分析客户可以将不同的手机品牌增加“产品”标签,全面屏、续航等话题增加“用户需求”标签。话题自定义标签以字典结构存储,如:{话题名称:全面屏,自定义标签:[{用户需求},{技术},{…}]}
对比分析单元126,适用于通过与同类话题对比增进话题了解。具体包括在话题画像模块12各分析单元中,引入多个话题对照分析。
用户图形界面模块13负责分析结果的整合和呈现。用户图形界面模块13包括数据可视化单元和报告下载单元。数据可视化单元将话题画像模块各分析单元独立生成的生成的分析结果通过web可视化进行整合呈现;报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。。
综上所述,本发明涉及的知乎话题画像,是一种基于知乎TQAU(Topic-Question-Answer-User)信息结构和知乎内容传播机制,用于展现话题发展,洞察舆论动态,挖掘话题内涵,勾画用户画像,了解用户需求的工具,具体实现时,针对不同类型话题有不同的应用。例如,对企业或商业品牌类话题,话题画像可以用于了解品牌舆情,品牌关联知识挖掘,用户画像,用户需求研究等。对社会问题类话题,如“老年人”,“老龄”话题,话题画像可以用于扩展社会问题的分析数据源,了解与相关热点话题,舆论观点。对新闻事件类话题,话题画像可以用于新闻情感识别与监控,舆情监测,用户观点挖掘等。目前知乎有上万话题,丰富的话题的类型给了话题画像提供了巨大的应用空间。借助本发明实施例的技术方案,当用户希望挖掘知乎话题的更多信息时,可以通过可视化的方式了解话题的发展动态,话题的提问动机类型分布,话题关注用户画像,相关话题子群、话题关联规则、不同用户类型的关注偏好,不同热度类型的话题特征等信息,从而从多个维度更深度地挖掘话题背后更多的客观事实。
Claims (8)
1.一种基于知乎数据的话题画像方法,其特征在于,所采用的话题画像系统包括:
数据预处理模块,用以从网站提取、清洗和预处理数据;包括数据爬取单元、数据清洗与预处理单元;
话题画像模块,用以对话题进行精准画像;包括数据统计分析单元、用户画像分析单元、网络数据分析单元、文本数据分析单元、用户话题标签定义单元及对比分析单元;
用户图形界面模块,用以对话题画像模块结果进行可视化呈现和报告下载;包括数据可视化单元和报告下载单元;
所述话题画像方法包括如下步骤:
(1)从网站提取、清洗和预处理数据,具体包括话题数据爬取、数据清洗与预处理;
(2)话题精准画像,具体包括数据统计分析、用户画像分析、网络数据分析、文本数据分析、给话题指定特征打上标签及与同类话题对比分析;所述数据统计分析包括以下步骤:
(2.1a)筛选出话题所属问题的名称、回答数、关注数、父话题、创建时间特征作为数据集;
(2.2a)计算不同类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.3a)计算不同提问类型问题随时间的分布特征、问题的父话题频率统计特征;
(2.4a)对问题的父话题通过关联规则挖掘算法挖掘父话题的间的潜在关联和联系;
所述用户画像分析包括以下步骤:
(2.1b)筛选出话题关注用户的用户信息作为数据集;
(2.2b)根据用户关注问题数和回答数计算用户话题内活跃度属性;
(2.3b)根据用户粉丝数和回答赞数计算用户话题内能力属性;
(2.4b)根据用户关注话题列表与目标话题相似度计算用户兴趣度属性;
所述网络数据分析包括以下步骤:
(2.1c)筛选出话题所属问题的所有父话题列表作为数据集;
(2.2c)基于每个问题父话题的共现关系,将话题共现关系的文本数据转换成无向连接话题网络数据;
(2.3c)通过社群挖掘算法对网络数据进行子群挖掘;
(2.4c)将子群挖掘可视化结果发送到数据可视化单元,文档结果发送数据下载单元;
所述文本数据分析包括:
(2.1d)针对事实型和列举型问题的回答进行汇总统计;观点原因型问题进行文本摘要和情感分析;
(2.2d)对话题所属问题的文本进行分析;首先对问题进行分词处理,并去除停用词,然后将分词后的数据集处理为DTM(文档-词频)矩阵,基于结构主题模型Structural TopicModels,STM文本分析方法,并四种问题类型作为协变量,分析不同类型问题的主题偏好差异,即舆论焦点型问题、关注焦点型问题的主题关键词分布的差异;
(2.3d)对问题所属回答的文本进行分析;处理步骤同上,采用用户画像类型作为协变量,分析不同类型用户回答内容的主题偏好差异,即高活跃度用户、高能力用户回答内容的主题关键词分布的差异;
所述给话题指定特征打标签包括:
分析者通过第三方或自定义话题属性字典,话题自定义标签以字典结构存储;
所述与同类话题对比分析包括:
引入至少两个所研究话题的对比话题,提供话题的对照分析;
(3)用户图像界面呈现,具体包括分析结果可视化呈现和分析报告下载。
2.根据权利要求1所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(1)中,数据爬取包括以下步骤:
(1.1a)从网站url获取目标话题的id信息;
(1.2a)根据话题id,获取话题下所有问题id,关注用户id,并根据所属和关注关系建立id关系表;
(1.3a)根据关系表中问题id,获取问题下所有回答id、所属父话题id和关注用户id,并根据回答关系、所属关系和关注关系建立id关系表;
(1.4a)根据关系表中的用户id,获取用户关注的话题id和用户的粉丝用户id,并根据关注关系建立id关系表;
(1.5a)根据关系表中的话题、问题、回答和用户id信息,爬取并保存话题、问题和用户的内容及完整属性信息,建立话题、问题、回答和用户信息表。
3.根据权利要求1所述的基于知乎数据的话题画像方法,其特征在于,所述所述步骤(1)中,数据清洗与预处理包括以下步骤:
(1.1b)根据话题id、话题与所属问题关系表及问题id,合并话题信息、问题信息与所属父话题关系信息;
(1.2b)根据话题id、话题与关注用户关系表及用户id,合并话题信息、用户信息与所关注话题关系信息;
(1.3b)将创建时间戳、更新时间戳数据转换为string类型的时间数据;
(1.4b)根据问题的关注数和回答数分布特征,对问题进行热度类型划分;
(1.5b)根据提问内容结构和文本特征,对问题进行提问类型划分。
4.根据权利要求3所述的基于知乎数据的话题画像方法,其特征在于:所述热度类型分为舆论焦点型、关注焦点型、潜在点型和沉默型四种热度类型;所述舆论焦点型即高关注与高回答,其中,关注焦点型即高关注与低回答,所述潜在点型即低关注与高回答,所述沉默型即低关注与低回答;所述提问类型将问题分为事实型、列举型、观点原因型、解决方法型、定义与描述型和经验分享型六种提问类型。
5.根据权利要求1所述的基于知乎数据的话题画像方法,其特征在于,所述步骤(3)中,用户图像界面呈现具体包括:
(3.1)通过数据可视化单元将话题画像模块生成的分析结果进行web可视化呈现;
(3.2)通过报告下载单元提供数据清洗及预处理和话题画像模块中间数据集和分析报告的下载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810078169.7A CN108363748B (zh) | 2018-01-26 | 2018-01-26 | 基于知乎的话题画像系统及话题画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810078169.7A CN108363748B (zh) | 2018-01-26 | 2018-01-26 | 基于知乎的话题画像系统及话题画像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363748A CN108363748A (zh) | 2018-08-03 |
CN108363748B true CN108363748B (zh) | 2021-07-09 |
Family
ID=63006965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810078169.7A Active CN108363748B (zh) | 2018-01-26 | 2018-01-26 | 基于知乎的话题画像系统及话题画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363748B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684635A (zh) * | 2018-12-20 | 2019-04-26 | 上海四宸软件技术有限公司 | 一种基于智能营销的用户评价观点挖掘系统 |
CN110781368A (zh) * | 2019-10-22 | 2020-02-11 | 北京赛时科技有限公司 | 一种针对指定专家的信息爬取系统及方法 |
CN111061960A (zh) * | 2019-12-31 | 2020-04-24 | 苏州易卖东西信息技术有限公司 | 一种基于社交大数据生成用户画像的方法 |
CN113592225B (zh) * | 2021-06-24 | 2023-12-01 | 浙江清朗科技有限公司 | 一种基层员工思维动态采集方法 |
CN116628317B (zh) * | 2023-04-19 | 2024-08-02 | 上海顺多网络科技有限公司 | 一种使用少量信息定向用户群体偏好分析的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023714A (zh) * | 2012-11-21 | 2013-04-03 | 上海交通大学 | 基于网络话题的活跃度与集群结构分析系统及方法 |
CN103823844A (zh) * | 2014-01-26 | 2014-05-28 | 北京邮电大学 | 社区问答服务中基于主客观上下文的问题转发系统和方法 |
CN107291815A (zh) * | 2017-05-22 | 2017-10-24 | 四川大学 | 基于跨平台标签融合的问答社区推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110282732A1 (en) * | 2010-05-12 | 2011-11-17 | Yahoo! Inc. | Understanding audience interests |
-
2018
- 2018-01-26 CN CN201810078169.7A patent/CN108363748B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023714A (zh) * | 2012-11-21 | 2013-04-03 | 上海交通大学 | 基于网络话题的活跃度与集群结构分析系统及方法 |
CN103823844A (zh) * | 2014-01-26 | 2014-05-28 | 北京邮电大学 | 社区问答服务中基于主客观上下文的问题转发系统和方法 |
CN107291815A (zh) * | 2017-05-22 | 2017-10-24 | 四川大学 | 基于跨平台标签融合的问答社区推荐方法 |
Non-Patent Citations (2)
Title |
---|
UGC网站用户画像研究;陈志明;《计算机系统应用》;20170115;第26卷(第1期);第24-30页 * |
网络舆情分析与管理技术的研究与实现;谢宜瑾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120915;第一章-第五章 * |
Also Published As
Publication number | Publication date |
---|---|
CN108363748A (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363748B (zh) | 基于知乎的话题画像系统及话题画像方法 | |
CN105608477B (zh) | 一种人物画像与职位匹配的方法及系统 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN107330627B (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
CN108090048B (zh) | 一种基于多元数据分析的高校评价系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN107368521B (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN112257452B (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN114077705A (zh) | 一种对社交平台上的媒体账号进行画像的方法和系统 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN113468868A (zh) | 一种基于nlp的实时网络热点内容分析方法 | |
CN108595411B (zh) | 一种同主题文本集合中多文本摘要获取方法 | |
CN115544348A (zh) | 一种基于互联网大数据的海量信息智能搜索系统 | |
CN112115712A (zh) | 基于话题的群体情感分析方法 | |
CN115017320A (zh) | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 | |
CN111191413A (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN114547342A (zh) | 一种基于知识图谱的高校专业智能问答系统及方法 | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN115271504A (zh) | 一种在线教学考评方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |