CN103106267B - 基于微博的众包问答系统信息采集方法 - Google Patents
基于微博的众包问答系统信息采集方法 Download PDFInfo
- Publication number
- CN103106267B CN103106267B CN201310040557.3A CN201310040557A CN103106267B CN 103106267 B CN103106267 B CN 103106267B CN 201310040557 A CN201310040557 A CN 201310040557A CN 103106267 B CN103106267 B CN 103106267B
- Authority
- CN
- China
- Prior art keywords
- answer
- microblogging
- user
- data
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于微博的众包问答系统信息采集方法,该发明首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息;对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示;另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散;应用本发明的方法,可以通过微博平台实现问答系统更高效快速地获取答案。
Description
技术领域
本发明涉及互联网应用中的数据处理技术、信息处理领域中的文本相似度分析技术、社交网络领域中的用户兴趣信息提取技术,特别涉及一种基于微博的众包问答系统信息采集方法。
背景技术
在互联网应用方面,大多数社交网络平台都采用了开放授权OAuth2的用户登陆和授权模式。应用通过平台用户的授权之后,就可以通过API接口获取相应的用户数据。此外,在微博系统中,当用户具体账号时,该条消息就会发送给被的用户。所述到该官方账号具体为:在微博内容中加上以“”+账号昵称为格式的文本。这些成熟的互联网数据处理技术和服务是本发明实现的基础。
在众包系统中,通常都是通过一套激励措施吸引用户来完成一系列的工作和任务。问答网站是众包系统的一种实例。在问答网站中,一般都实现了积分方式作为对回答者的一种激励。众包系统的存在,正是因为在信息处理领域中,许多的问题和工作仍然只有通过人力才能够更高效地开展。最近几年来,在众包系统领域,专家学者又提出了一系列新的思路和技术。例如,伯克利大学的科研工作者提出了通过众包来回答数据库查询的技术。
在信息处理领域中,文本相似度分析已经存在很多成熟的算法,例如最长公共子串LCS算法和字符串相似度Levenshtein距离算法。LCS算法的原理是将两个字符串分别以行和列组成矩阵,每个节点行列字符如果相同则计为1,通过找出值为1的最长对角线即可得到最长公共子串。Levenshtein距离又称为编辑距离,Levenshtein距离算法的基本原理是返回将第一个字符串转换成第二个字符串的编辑次数。次数越少,意味着字符串相似度越高。
在社交网络领域中,专家学者们针对用户兴趣爱好的分析提取提出了许多工作。最基本的处理方法通常都是对社交网络中具体用户发布的所有信息数据,进行分词处理,对具体词汇通过tf-idf(词频-反文档频率)算法进行进一步计算,排序得到tf-idf值最高的一系列关键词作为该用户可能感兴趣的标签。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于微博的众包问答系统信息采集方法。
本发明解决其技术问题采用的技术方案如下:一种基于微博的众包问答系统信息采集方法,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的AppKey(应用码)和AppSecret(应用密钥);
步骤2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息;
步骤3:用户发起的任何问题只需要到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录;
步骤4:对采集到的问答数据进行分析处理:该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析;
步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示;
步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息;
步骤7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。
本发明的有益效果是,该发明首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息。对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示。另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散。应用本发明的方法,可以通过微博平台实现问答系统更高效快速地获取答案。
附图说明
图1是本发明实施步骤总体模块流程图;
图2是数据采集和发布模块具体工作流程图;
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
如图1,本发明基于微博的众包问答系统信息采集方法,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的AppKey(应用码)和AppSecret(应用密钥)。
官方账号可以通过微博平台网站注册申请,得到的微博账号通过用户名、密码正常登陆后,可以修改个人信息、发布微博。
在微博开放平台网站申请成为第三方网站开发账号,完成身份认证和开发者审核流程,获得测试应用开发权限。在开放平台网站的管理中心页面,添加待开发的网站,完成该网站基本信息的注册审核之后,得到相应的AppKey和AppSecret信息。
步骤2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息。
如图2,数据采集和发布模块的工作过程如下:
首先,根据步骤1)获取的第三方网站应用AppKey和AppSecrect信息,通过开放平台的开放授权OAuth2协议用官方账号登陆并完成授权,由此可以获取该官方账号访问微博数据的访问令牌AccessToken。另外,其他微博用户在系统网站中通过微博登陆和完成授权,同样也可获得该账号绑定的访问令牌AccessToken。
其次,根据相关微博账号所绑定的访问令牌AccessToken,通过微博开放平台所提供的获取数据和发布数据API,实现数据采集和发布模块的代码。
最后,完成具体的开发之后,微博的用户只需要通过开放授权OAuth2登陆授权,系统就可以对该用户的数据进行采集和发布,所采集的数据包括用户所发表的问答微博数据和用户资料信息。
步骤3:用户发起的任何问题只需要到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录。
所述到该官方账号具体为:在微博内容中加上以“”+被的用户的账号昵称为格式的文本。在微博系统中,被的用户将收到通知提醒。
数据采集和发布模块维护了官方账号的访问令牌AccessToken,通过微博开放平台的获取提及微博getMentions接口,就可以采集所有到官方账号的微博。
步骤4:对采集到的问答数据进行分析处理。该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析。
数据分析处理的工作过程如下:
首先,根据微博的转发格式,对转发微博的文本内容进行分析,提取该话题的整体树状转发结构。微博的转发一般都以“//”的形式进行分隔,通过对转发内容的解析可以获得该条转发微博本身的文本内容,以及它所转发的父微博。对一个问题的所有转发微博进行分析之后,就可以得出该话题的整体树状转发结构。
其次,根据上一过程获取每条转发微博本身的文本内容,如果该文本内容为空,则这是一条纯转发答案,可以进行过滤;
在提取相似答案步骤,根据每条回答的文本内容,通过最长公共子串LCS算法和字符串相似度Levenshtein距离算法计算文本之间的相似距离,对整个问题的所有答案进行相似答案聚类。
最后,根据一个话题的所有回答微博,统计回答时间、回答用户所在城市等分布信息。
步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示。
步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息。
对于单个用户,系统形成了该用户所发表微博和所有回答的资料库。对这些微博资料进行分词之后,通过tf-idf(词频-反文档频率)算法计算排序最高的关键词作为标签。
具体的关键词tf-idf算法计算如下:
每一个用户所发表的微博作为该用户的文档集,所有用户所发表的微博合成全局的文档集。通过IKAnalyzer(中文分词库)分词器对每条微博进行分词,每条微博生成若干关键词集合,对于某个用户,每个关键词的tf(词频)值是该用户文档集中所包含该关键词的频率;与此类似,可计算得出每个关键词在全局文档集中出现的频率。最后,根据tf-idf公式为每个用户计算得出所有关键词的tf-idf值,排序后截取该值最大的一些关键词表示该用户的感兴趣领域和擅长领域信息。通过该方法,每个用户维护了一个带权重的关键词向量{(t1,w1),(t2,w2),…,(tn,wn)}。
其次,用户的活跃程度可以根据以下方法进行计算:
对于用户-维护单独的活跃程度active,每个用户的活跃程度active值根据该用户当天所发表的问答微博数量进行更新。更新后的活跃程度active值是前一天的活跃程度active值乘以固定的衰减系数(该衰减系数在0-1之间,通常可设置为0.6左右)再加上当天该用户所发表的问答微博数量。
步骤7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。
推送算法可以通过以下过程实现:
首先,为了保证提升效果以及防止推送过程对用户进行骚扰等原因,对用户活跃程度设一定临界值threshold,只向活跃程度值在该临界值threshold之上的用户进行推送。
其次,计算每个新问题与每个用户之间的相似度值,该值表示了该问题与用户之间的相关性程度,通过对相似度值进行排序,截取相关性最高的一定量用户进行推送。
具体的相似度值计算方法如下:
新问题内容通过分词可以得到所包含的关键词列表,根据步骤6中计算得到的每个用户关键词向量,对所有匹配的关键词权重加合,作为该问题与该用户之间的相似度值。
最后,对计算得到的推送用户列表,通过步骤2开发的数据采集和发布模块,向该问题原微博发布一条评论微博,在评论中到所有待推送的用户。
Claims (2)
1.一种基于微博的众包问答系统信息采集方法,其特征在于,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的应用码AppKey和应用密钥AppSecret;
步骤2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息;由以下子步骤来实现:
(2.1)根据步骤1获取的第三方网站应用AppKey和AppSecrect信息,通过开放平台的开放授权OAuth2协议用官方账号登陆并完成授权,由此获取该官方账号访问微博数据的访问令牌AccessToken;另外,其他微博用户在系统网站中通过微博登陆和完成授权,同样获得该账号绑定的访问令牌AccessToken;
(2.2)根据相关微博账号所绑定的访问令牌AccessToken,通过微博开放平台所提供的获取数据和发布数据API,实现数据采集和发布模块的代码;
(2.3)完成具体的开发之后,微博的用户只需要通过开放授权OAuth2登陆授权,系统对该用户的数据进行采集和发布,所采集的数据包括用户所发表的问答微博数据和用户资料信息;
步骤3:用户发起的任何问题只需要到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录;
步骤4:对采集到的问答数据进行分析处理:该步骤提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析;
步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示;
步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域信息;
步骤7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域信息,系统自动将该问题推送给可能感兴趣的潜在回答用户。
2.根据权利要求1所述基于微博的众包问答系统信息采集方法,其特征在于,所述步骤4中,所述对整个话题回答进行各类统计分析由以下子步骤来实现:
(1)根据微博的转发格式,对转发微博的文本内容进行分析,提取该话题的整体树状转发结构;微博的转发以“//”的形式进行分隔,通过对转发内容的解析获得该条转发微博本身的文本内容,以及它所转发的父微博;对一个问题的所有转发微博进行分析之后,得出该话题的整体树状转发结构;
(2)根据上一过程获取每条转发微博本身的文本内容,如果该文本内容为空,则这是一条纯转发答案,进行过滤;
(3)在提取相似答案步骤,根据每条回答的文本内容,通过最长公共子串LCS算法和字符串相似度Levenshtein距离算法计算文本之间的相似距离,对整个问题的所有答案进行相似答案聚类;
(4)根据一个话题的所有回答微博,统计回答时间、回答用户所在城市分布信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310040557.3A CN103106267B (zh) | 2013-02-02 | 2013-02-02 | 基于微博的众包问答系统信息采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310040557.3A CN103106267B (zh) | 2013-02-02 | 2013-02-02 | 基于微博的众包问答系统信息采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106267A CN103106267A (zh) | 2013-05-15 |
CN103106267B true CN103106267B (zh) | 2016-03-30 |
Family
ID=48314122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310040557.3A Expired - Fee Related CN103106267B (zh) | 2013-02-02 | 2013-02-02 | 基于微博的众包问答系统信息采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106267B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104518951B (zh) * | 2013-09-29 | 2017-04-05 | 腾讯科技(深圳)有限公司 | 一种回复社交应用信息的方法及装置 |
WO2015063627A1 (en) * | 2013-11-02 | 2015-05-07 | Zhou Tiger | Method and system for selling products and services via crowdsourcing |
CN105488039A (zh) * | 2014-09-15 | 2016-04-13 | 华为技术有限公司 | 一种问询方法及装置 |
CN105991399A (zh) * | 2015-02-05 | 2016-10-05 | 天脉聚源(北京)科技有限公司 | 一种实现网络提问的方法和系统 |
CN105991401A (zh) * | 2015-02-05 | 2016-10-05 | 天脉聚源(北京)科技有限公司 | 一种网络问答方法和系统 |
CN106033586B (zh) * | 2015-03-17 | 2020-05-05 | 北京国双科技有限公司 | 基于社交平台的分组方法和装置 |
US10592959B2 (en) | 2016-04-15 | 2020-03-17 | Walmart Apollo, Llc | Systems and methods for facilitating shopping in a physical retail facility |
WO2017181052A1 (en) | 2016-04-15 | 2017-10-19 | Wal-Mart Stores, Inc. | Systems and methods for providing content-based product recommendations |
MX2018012574A (es) | 2016-04-15 | 2019-03-06 | Walmart Apollo Llc | Sistemas y metodos para ajustar vectores parcialmente a traves de pruebas de muestreo. |
CN106155522B (zh) * | 2016-06-29 | 2019-03-29 | 上海智臻智能网络科技股份有限公司 | 会话数据处理、知识库建立、优化、交互方法及装置 |
US10373464B2 (en) | 2016-07-07 | 2019-08-06 | Walmart Apollo, Llc | Apparatus and method for updating partiality vectors based on monitoring of person and his or her home |
CN106776941A (zh) * | 2016-12-02 | 2017-05-31 | 济南浪潮高新科技投资发展有限公司 | 一种基于众包模式的推荐有效解答者的方法 |
CN109522458A (zh) * | 2018-09-26 | 2019-03-26 | 王萌 | 基于区块链网络的知识平台系统及网络问答方法 |
CN109471943B (zh) * | 2018-11-12 | 2024-06-07 | 平安科技(深圳)有限公司 | 一种基于数据处理的众包任务答案确定方法及相关设备 |
CN109918525B (zh) * | 2019-03-12 | 2023-07-04 | 同济大学 | 基于微信小程序的食物图片美学分析标签数据收集系统 |
CN110287385A (zh) * | 2019-06-18 | 2019-09-27 | 素朴网联(珠海)科技有限公司 | 一种语料数据采集方法、系统及存储介质 |
CN110865802A (zh) * | 2019-11-28 | 2020-03-06 | 山东浪潮商用系统有限公司 | 一种基于微服务架构的税务接口快速开发方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354714A (zh) * | 2008-09-09 | 2009-01-28 | 浙江大学 | 一种基于概率潜在语义分析的问题推荐方法 |
CN102281207A (zh) * | 2010-06-11 | 2011-12-14 | 百度在线网络技术(北京)有限公司 | 社区网络中确定用户匹配度并撮合用户聊天的方法和设备 |
CN102760128A (zh) * | 2011-04-26 | 2012-10-31 | 华东师范大学 | 一种基于智能客服机器人交互的电信领域套餐推荐方法 |
-
2013
- 2013-02-02 CN CN201310040557.3A patent/CN103106267B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354714A (zh) * | 2008-09-09 | 2009-01-28 | 浙江大学 | 一种基于概率潜在语义分析的问题推荐方法 |
CN102281207A (zh) * | 2010-06-11 | 2011-12-14 | 百度在线网络技术(北京)有限公司 | 社区网络中确定用户匹配度并撮合用户聊天的方法和设备 |
CN102760128A (zh) * | 2011-04-26 | 2012-10-31 | 华东师范大学 | 一种基于智能客服机器人交互的电信领域套餐推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103106267A (zh) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106267B (zh) | 基于微博的众包问答系统信息采集方法 | |
Steinert-Threlkeld | Twitter as data | |
Gao et al. | A comparative study of users’ microblogging behavior on Sina Weibo and Twitter | |
US20160210321A1 (en) | Real-time content recommendation system | |
CN103778200B (zh) | 一种报文信息源抽取方法及其系统 | |
Bonifazi et al. | Investigating the COVID-19 vaccine discussions on Twitter through a multilayer network-based approach | |
CN102929892A (zh) | 基于社交网络的信息精准推广系统及方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN103023714A (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
US20140156673A1 (en) | Measuring and altering topic influence on edited and unedited media | |
CN106503907B (zh) | 一种业务评估信息确定方法以及服务器 | |
US20130346386A1 (en) | Temporal topic extraction | |
WO2013002771A1 (en) | Capturing intentions within online text | |
Hoang et al. | Crowdsensing and analyzing micro-event tweets for public transportation insights | |
Bhardwaj et al. | Web scraping using summarization and named entity recognition (ner) | |
CN108596797A (zh) | 一种法律咨询服务平台公众号 | |
Hernandez et al. | Constructing consumer profiles from social media data | |
Jiang et al. | HyOASAM: A hybrid open API selection approach for mashup development | |
León-Sandoval et al. | Monitoring the Emotional Response to the COVID‐19 Pandemic Using Sentiment Analysis: A Case Study in Mexico | |
Pierri et al. | ITA-ELECTION-2022: A multi-platform dataset of social media conversations around the 2022 Italian general election | |
de Sá et al. | Digital Lighthouse: A Platform for Monitoring Public Groups in WhatsApp. | |
Chow et al. | The Development of a Web‐Based Demographic Data Extraction Tool for Population Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160330 Termination date: 20220202 |
|
CF01 | Termination of patent right due to non-payment of annual fee |