CN112486917A

CN112486917A - 从多个微博自动生成信息丰富的内容的方法以及系统

Info

Publication number: CN112486917A
Application number: CN202011435264.1A
Authority: CN
Inventors: 玛格迪·瓦利德; 卡里姆·达尔维什; 阿梅德·阿里
Original assignee: Qatar Foundation
Current assignee: Qatar Foundation
Priority date: 2012-07-04
Filing date: 2012-08-06
Publication date: 2021-03-12
Also published as: US20150261773A1; JP2015524962A; WO2014005657A1; CN104685495A; US9990368B2; EP2859472A1; GB201211853D0; WO2014005657A4

Abstract

本申请公开了从多个微博自动生成信息丰富的内容的方法以及系统，每个微博仅包含稀疏信息，该方法包括收集包含微博数据的微博的群体，每个微博包含有限数量的字符；提供允许进入搜索查询的用户界面；将在用户界面上输入的搜索查询与微博数据中的数据进行匹配；提供匹配处理的结果作为微博数据的子集；将处理技术应用到微博数据的子集，处理技术包括使用自然语言处理技术以生成微博数据的子集的种类，种类基于稀疏信息与情感之间的相关性；以及生成微博数据的子集的汇总报告，报告包括多组微博，每组基于与事件的投稿人情绪数据相关联的微博数据的子集，每个微博基于匹配的搜索查询与关联于投稿人情绪数据的情感之间的相关性；以及输出汇总报告。

Description

从多个微博自动生成信息丰富的内容的方法以及系统

本申请是国际申请日2012年8月6日、国际申请号PCT/EP2012/065367的国际申请于2015年1月4日进入国家阶段的申请号为201280074506.6、发明名称为“一种从多个微博中自动生成信息丰富的内容的系统和方法，每个微博仅包含稀疏信息”的专利申请的分案申请，其全部内容结合于此作为参考。

技术领域

本发明涉及对从微博获取的信息进行基于主题的分析的系统和方法。更具体地，本发明涉及从多个微博中自动生成信息丰富的内容的信息和方法，每个微博仅包含稀疏信息。

背景技术

主题可以是或涉及诸如政治竞选的事件；诸如游览胜地的地理位置；或者诸如个人或法人团体的实体。更广泛地：可以从表示特定用户对信息的需求的用户查询中识别主题-主题可以是具体事件：诸如，竞选、体育事件或自然灾害；或者实体：诸如个人、位置、组织、构思(诸如宗教、哲学或语言)；或者产品。

微博是用户张贴新闻、信息或者公众(或私人团体)宣传的在线咨询、评论和回复的流行工具。推特是流行的微博网站，每天在上面交流300,000,000条微博。推特微博或推文包括140个字符的消息。

本发明和本发明的实施方式解决的问题是基于用户输入提供对微博进行有意义的分析和探索。

一般通过具体微博的社交网站中的搜索功能都是基本的且有限。当搜索像大多数主题一样具有多个小面或方面的具体事件或实体时，这种限制尤为明显。目前通过微博网站和工具实施的搜索功能是检索给定查询的最新帖子的简单词语匹配搜索。此外，响应于给定查询，用户可以获得包括单独微博/帖子的成百或者也许上千的点击。这导致即时信息超载和不可用的搜索结果。

许多微博和社交网站响应于用户查询使用单词匹配搜索为用户提供搜索能力，从而允许他们找到相关联的帖子。微博搜索技术的当前状态为返回包含搜索词的任何最近的帖子作为搜索结果。用这种方法，用户可通过提及搜索项-给定事件或某些实体-最近的最新帖子来得到更新。在以下中讨论微博搜索：

-N.Naveed,T.Gottron,J.Kunegis A.Alhadi.(2011).Searchingmicroblogs:coping with sparsity and document quality.CIKM-2011；以及-M.R.Teevan,J.,&Panovich,K.(2010).What do people ask theirsocial networks,and why？:A surveystudy of status message Q&A behavior.WSDM2011。

微博环境中的搜索场景是受限的,并且在任何一个微博(也许140个字符)中提供的信息是稀疏的。同样稀疏信息是社交网站上的评论或帖子。然而，已经试图尝试提供从微博获得的有用信息-丰富的社交数据。这些尝试包括：

-Johan Bollen,Huina Mao,Xiao-Jun Zeng.Twitter mood predicts the stockmarket.arXiv 2010；

-M.D.Conover,J.Ratkiewicz,M.Franscisco,B.Goncalves,A.Flammini,F.Menczer.Political polarization on twitter.AAAI-2011；

-O.Phelan,K.McCarthy,M.Bennett,and B.Smyth.(2011).Terms of a feather:content-based news recommendation and discovery using twitter.ECIR 2011；

-Daniel Gayo-Avello,Panagiotis T.Metaxas and Eni Mustafaraj,pmetaxas,(2011).Limits of electoral predictions using twitter.AAAI-2011；

-Bermingham,Adam and Smeaton,Alan F(2011).On using twitter to monitorpolitical sentiment and predict election results；

-Andranik Tumasjan,Timm O.Sprenger,Philipp G.Sandner,IsabellM.Welpe.Predicting Elections with Twitter:What 140 Characters Reveal aboutPolitical Sentiment.AAAI-2010；以及

-Andranik Tumasjan,Timm O.Sprenger,Philipp G.Sandner,IsabellM.Welpe.Predicting Elections with Twitter:What 140 Characters Reveal aboutPolitical Sentiment.AAAI-2010。

近几年对所检索微博的兴趣已明显增加。与其它搜索任务相比这几个研究调查研究了微博搜索的性质[N.Naveed,T.Gottron,J.Kunegis,A.Alhadi.(2011)。Searchingmicroblogs:coping with sparsity and document quality.CIKM-2011.]and[J.Teevan,D.Ramage,M.Morris.(2011).#Twittersearch:A comparison of microblog search andweb search.WSDM 2011]。[N.Naveed,T.Gottron,J.Kunegis,A.Alhadi.(2011)。Searchingmicroblogs:coping with sparsity and document quality.CIKM-2011]示出微博检索的挑战，其中，文档非常短并且通常集中于单个主题。[J.Teevan,D.Ramage,M.Morris.(2011).#Twittersearch:A comparison of microblog search and websearch.WSDM2011]强调网络查询与微博询问之间的区别，其中，与在网络搜索中查找给定主题的相关页相反，微博查询通常表示用户有兴趣查找关于给定事件或者个人的更新。

由于对微博搜索的兴趣越来越大，TREC在2011[I.Ounis,C.Macdonald,J.Lin,I.Soboroff.(2011)中介绍了关注微博检索的新追踪方式。Overview of the TREC-2011Microblog Track.TREC-2011]。目的是发现实现高精度检索微博搜索的最好的方法。为了调查研究提供来自推特的1400万个推文和50个主题的测验组的收集[I.Ounis,C.Macdonald,J.Lin,I.Soboroff.(2011).Overview of the TREC-2011MicroblogTrack.TREC-2011]。虽然追踪方式带来各种有效的检索方法，模式化搜索场景的问题仍然重要，因为TREC追踪体系模式搜索像是标准的临时(ad-hoc)检索任务，其可能是次最优的[J.Teevan,D.Ramage,M.Morris.(2011)。#Twittersearch:A comparison of microblogsearch and web search.WSDM 2011]。

不同于直接搜索，微博搜索场景缺乏敏感的精确度会导致一些研究人员创造不同的有用的任务。例如，[I.Subasic,B.Berendt.(2011).Peddling or Creating？Investigating the Role of Twitter in News Reporting.ECIR-2011]将推特用作新闻来源并将它们与其它在线新闻媒体进行比较从而检测推特中自动新闻检测的特征。在[7]中，将推文用来向用户根据他们的偏好推荐新闻。在[J.Bollen,H.Mao,X-J.Zeng.(2010).Twitter mood predicts the stock market.Journal of Computational Science.2(1)]中，利用用户在推特上的情绪来预测证券市场变化。已根据来自推特的社交数据为用户推荐很多其它任务来实现信息增益。

引用的其它参考文献有F.W.Lancaster,E.G.Fayen.(1973)。InformationRetrieval On-Line.Melville Publishing Co.,Los Angeles,California；O.Phelan,K.McCarthy,M.Bennett,and B.Smyth.(2011).Terms of a feather:content-based newsrecommendation and discovery using twitter.ECIR 2011；I.Subasic,B.Berendt.(2011).Peddling or Creating？Investigating the Role of Twitter in NewsReporting.ECIR-2011；B.Han,T.Baldwin.(2011).Lexical Normalisation of ShortText Messages:Makn Sens a#twitter.ACL-HLT 2011；and W.X.Zhao,J.Jiang,Ji.Weng,J.He,E-P.Lim,Ho.Yan,X.Li.(2011).Comparing twitter and traditional media usingtopic models.ECIR 2011。

推特微博使用“井号标签”-“#符号，称作井号标签，用以对推文中的关键字或主题做标记。由推特用户有机地创建作为对消息分类的方式”-来源www.twitter.com。换言之，用户通过用#符号对术语加前缀创建井号标签来识别加前缀的术语为该微博的预期主题。可将井号标签看做“主题：”线或主题标识符以便其它用户能够搜索特定井号标签来进一步识别提及相同井号标签的微博。单个微博中可存在一个以上的井号标签。

很多微博和社交网站，诸如推特，提供搜索功能以允许用户查找匹配他们的信息需求的相关帖子。推特上目前实现的微博搜索提供匹配检索字的最近的推文。用户可以通过使用井号标签“#标签”或名字提及“@用户”选择搜索(或跟着)具体实体、个人、或事件以获得连续的更新[J.Teevan,D.Ramage,M.Morris.(2011).#Twittersearch:Acomparisonof microblog search and web search.WSDM 2011]。这种搜索的一个缺点是查询可能得到大量推文，使用户不知所措。在该场景中，向用户呈现匹配推文的平级列表(在该页面中互换使用推文和微博)，但仍有很多期望的，诸如时间间隔、推文情感和主题模化。

一些网站允许通过井号标签搜索，而在这样情况下，主题搜索被用作关键字：http://truthy.indiana.edu/。该网站提供提供用于分析井号标签的微博的群体的工具并且在形成用户查询的井号标签与在每个微博中同时出现的其它井号标签之间绘制链接图。网站也允许用户搜索井号标签并且然后显示包含给定井号标签的最近的推文，以及随着时间的过去有多少次提及搜索井号标签的分布标识。

现代技术的主要缺点是基于给定用户搜索查询搜寻仅提供最近点击(相关贴子)的微博。尤其对于时间敏感的话题，一般而言搜索社交内容和社交网站以及微博(又名推文)尤其基本并受限。目前在网站上实施的微博搜索，诸如推特，基于简单单词匹配并且检索匹配给定查询的最近的微博。

此外，用户可以响应于给定查询获得成百或可能上千的微博，从而导致信息超载。该场景的问题是任何一个搜索词通常有大量的相关帖子并且用户可能被大量的回复-所谓的“信息超载”淹没。在不提供非常大量的相关搜索结果的情况下，呈现相关搜索结果是个技术问题。

面对大量点击的用户的典型的反应是通过使用更具体的搜索词汇，即，更长的或多个井号标签来缩小搜索。这意味着用户接收作为井号标签呈现的非常具体定义的主题的更新。本系统提供太多相关有用的点击并以及相对少的信息内容。这种情况类似于不能够看见树的木材一样，其中，树是相关的点击，木材是要找的信息。

因此，期望克服与现有技术相关联的一个或多个问题并且基于从微博获取的信息创建例如主题分析的系统和方法。

技术方案是呈现搜索体现本发明的微博的系统和方法。与返回大量相关点击但用户有用信息很少的现有系统相比，解决方案提供使用户获得更多有用信息的搜索。

本发明的实施方式设法改善与现有技术先关的一个或多个问题。

发明内容

本发明的一个方面提供从多个微博中自动生成信息丰富的内容的方法，每个微博仅包含稀疏信息，该方法包括：收集包含微博数据的微博的群体，每个微博包含有限数量的字符；提供允许进入搜索查询的用户界面；将在用户界面上输入的搜索查询与微博数据中的数据进行匹配；提供匹配处理的结果作为微博数据的子集；将处理技术应用到微博数据的子集；以及生成经处理的微博数据的子集的汇总报告。

在本发明的实施方式中，该方法进一步包括：将微博数据的子集分成不同类型的微博；并针对汇总报告中不同类型的每个类型合并结果。

优选地，使用自然语言处理，如：文本标准化；命名实体识别；关键字/关键词组提取；或者情感分析。

本发明的另一方面提供从多个微博中自动生成信息丰富的内容的系统，每个微博仅包含稀疏信息，系统包括：计算设备，具有处理器和存储器：以及存储设备，计算设备被配置为执行从多个微博中自动生成信息丰富的内容的方法，每个微博仅包含稀疏信息，该方法包括：收集包含微博数据的微博的群体，每个微博包含有限数量的字符；提供允许进入搜索查询的用户界面；将在用户界面上输入的搜索查询与微博数据中的数据进行匹配；提供匹配处理的结果作为微博数据的子集；将处理技术应用到微博数据的子集；以及生成所处理的微博数据的子集的汇总报告。

在实施方式中，系统还包括用于向用户显示界面的可视显示器，并且从用户接收搜索查询，使得用户的搜索查询的输入使计算设备将与搜索查询对应的所处理的微博数据的子集的汇总报告输出到界面。

本发明的另一方面提供存储指令的计算机可读介质，当执行该指令以在处理器上运行时使处理器根据从多个微博自动生成信息丰富的内容的方法执行步骤，每个微博仅包含稀疏信息，该方法包括：收集包含微博数据的微博的群体，每个微博包含有限数量的字符；提供允许进入搜索查询的用户界面；将在用户界面上输入的搜索查询与微博数据中的数据进行匹配；提供匹配处理的结果作为微博数据的子集；将处理技术应用到微博数据的子集；以及生成所处理的微博数据的子集的汇总报告。

本发明的另一方面提供可操作以从多个微博中自动生成信息丰富的内容的搜索工具，每个微博仅包含稀疏信息，该工具包括：包含微博数据的一批微博，每个微博包含有限数量的字符；允许进入搜索查询的用户界面；匹配处理器，将在用户界面上输入的搜索查询与微博数据中的数据进行匹配；包括微博数据的匹配子集的结果集合；以及报告生成器，将处理技术应用到结果集合以生成所处理的微博数据的子集的汇总报告。

本发明的另一方面可以提供基于主题的微博分析工具。

附图说明

现仅通过示例并参照附图描述本发明的实施方式，其中：

图1是供本发明实施方式使用的用户界面的示意性概述；

图2是体现本发明的系统的示意性概述；

图3是表示根据本发明实施方式的方法的概述的流程图；

图4是根据本发明实施方式的优选采样输出报告的实例；

图5是根据本发明另一实施方式的优选采样输出报告的实例；以及

图6是根据本发明另一实施方式的优选采样输出报告的实例。

具体实施方式

本发明的实施方式提供针对给定查询从微博生成综合报告代替近来/相关的微博的平级列表的新多维微博搜索工具。报告可以包括标签云、主题时间序列、以及最流行和有趣的微博以及那些显示情感的分析。工具可被配置为使用一组预定义查询监测时间敏感的主题。本发明的实施方式提供不同于从推特获得的推文搜索的用户体验。

与当前场景相比，实现本发明的搜索场景带来有意义的信息获取，例如通过最近的微博的单词搜索。本公开处理涉及更普遍查询和信息需求(不仅需要简单的标签或用户提到搜索)的场景；并且结果是针对微博域中的搜索查询的点击的更加综合的汇总或一般而言与只是结果的简单表格相比信息更丰富的社交媒体。

参考图1，本发明的实施方式基于给定信息需求、用户搜索查询提供微博需求的汇总。表示用户信息需求的用户查询可以是具体的事件，诸如竞选、体育赛事、公共灾难等或者诸如个人、位置、组织、或产品...的实体等。给定查询指定时间间隔(有开始和结束时间)。也可包括附加信息，如，地理位置、术语、社会共同体/群体、大类(政治、体育等)、按龄分群等。匹配信息需求的社交内容的汇总可包括(而不限于)：

·最佳帖子(帖子最多的微博/消息)

·每个类别的最最佳帖子。类别可以是诸如积极的、消极的、有趣的、悲哀的...等的情感、子主题、地理等。

·帖子中流传最多的视频和图像

·通常流传最多的链接

·在搜索的查询下提及最多的术语和短语

·随着时间的过去关于实体/事件的统计

本发明更详细的实施方式提供：

·对微博(例如，推特)的社交文化事件需要的调查

·随着时间过去导航结果并且看情绪上的变化并与正进行的大型事件相关

·从推特中提取关于事件的最流行的信息：

i.最佳推文

ii.有趣的推文

iii.最佳视频

iv.最佳链接

本发明的实施方式可实施为：

·公共网址；用户可对任何事件进行具体查询并获取在报告中呈现的有关信息，参见图4。

·企业解决方案；其中，将为消费者设立应用程序并且该应用程序可用在商业有关的主题，诸如市场调查和消费者评论和关于产品某些方面的感情，对某些主题感兴趣的新闻网址等等

然而，也可通过其它方式实现本发明的实施方式，诸如，小应用程序、应用程序和定制桌面解决方案。

本发明的实施方式可提供：

·对系统使用固定和预定义的搜索查询的公共事件监测。

·信息需求可表达为可以是具体事件或实体的用户查询，或者也可以是新闻文章；基于用户的历史、设置、或者暗示或明确的输入的用户的喜好；微博；图片；或视频。

·容量较大博客的增加部分

参考图1，与仅仅是相关结果的简单表格相比，使用本发明实施方式的结果是用于搜索微博域(或社交媒体域)的搜索查询的更综合的汇总和更丰富的信息内容。本公开提供从微博生成报告的新系统和方法，其表达或汇总搜索结果代替匹配查询的最近帖子的列表。参考在“推特”上出现的“推文”描述微博，但微博不限于这种环境并也可包括其它形式的用户生成的内容(UGC)，如：社交网站上的帖子；对新闻文章的评论；论坛上的评论或帖子；和/或社交网站上的评论。

本发明的实施方式提供基于编入索引的微博数据响应于给定搜索查询生成综合报告的索引的微博搜索工具、系统和方法。

图2呈现响应于用户搜索查询自动生成综合报告的体现本发明的系统100的基本系统架构。系统100包括一个或多个计算设备101，每个系统包括具有相关联存储器103的处理装置102，至少一个计算设备101可以包括一个或多个输入装置。

在图2所示的实施方式中，输入装置包括两个输入端：微博订阅新闻馈送110和用户界面111。

在一些实施方式中微博订阅新闻馈送110可以是微博现场馈送，或在其它实施方式中可以是微博现场订阅新闻馈送所镜像或编辑的微博的保存数据库。

微博订阅新闻馈送110使微博的群体与它们关联的元数据一起对系统100可用。例如，微博订阅新闻馈送110是针对指定语言收集并保存在订阅新闻馈送110中的数据库110a中的推特网站(“推文”)的微博。通过对推特发布通用查询，诸如“lang：xx”(例如，用于阿拉伯文的“lang：ar”)来收集推文，其检索给定语言的推文。收集的推文包含作者ID、推文ID、时间戳等。

标准化处理器102a位于微博订阅新闻馈送110的下游。标准化处理器102a使用对通常在推文中和社交媒体中使用的非正式语言或俚语操作的先进的文本规范化技术操作将数据库110a中的微博文本(“推文文本”)标准化。例如，如在[B.Han,T.Baldwin.(2011).Lexical Normalisation of Short Text Messages:Makn Sens a#twitter.ACL-HLT2011]中所描述的，可以使用英国语言标准化，并且对于阿拉伯语，如在[K.Darwish,W.Magdy,A.Mourad.(2012).-Language Processing for Arbic MicroblogRetrieval.CIKM 2012]中所描述的。

标准化处理也可基于表情符号操作。在反映博客情感的微博中一般使用表情符号。可标准化微博并且根据表情符号和语言的使用检测微博中显示的情感。

表1 标准化快乐的/悲哀的情感字：

快乐:)

:)、:-)、:-))、:D、:d、^_^、lol、loool、hahaha、…

悲伤:(

:(、:-(、:--((、；(、:

(、…

索引器102b将标准化推文与它们的元数据(诸如，作者ID、时间戳、和推文ID)一起编入索引中。在实施方式中，将标准化推文与它们的元数据一起编入索引。检索系统被配置为使用简单布尔型检索模型[F.W.Lancaster,E.G.Fayen.(1973).Information RetrievalOn-Line.Melville Publishing Co.,Los Angeles,California]代替排序模型，因为系统应当对匹配给定时间窗中的查询的“所有的”推文进行操作并分析。

数据存储装置103被馈送并且保持被标准化且编入索引的微博。

如应当理解的，用户界面111提供搜索查询入口112，允许用户输入搜索查询，或者从预选或预生成搜索查询的下拉列表中选择搜索查询。用户提供搜索查询，其将优选地为实体或事件，或者可为井号标签(#标签)、提及名字(@某个用户)，或者自由形式的查询。

系统所用的查询可以是丰富的布尔型。虽然布尔查询需要时间手动构造，并不需要训练并且可帮助在多个话题中提及的含糊意义的实体或事件。例如，搜索法国总统“Hollande”可检索到许多提及含有相同的名称的不同人的推文。布尔查询可公式化为：“Hollande AND(

OR France OR president)”以使实体清楚。

除了搜索查询入口112，用户界面111合并由用户操作以将搜索结果限制为具体时间窗的任选时间窗滤波器113。应注意，微博元数据合并允许微博按创造或发布的日期分类的时间戳。如果没有对时间窗滤波器113进行用户输入，那么优选由滤波器113设置默认时间窗。在实施方式中，将默认时间窗设置为从当天的现在时间返回到前一天的午夜。其它默认时间窗可被预先设定或定义为简单的“前2、4、6、12个小时”。

通过合并，搜索查询入口112和时间窗滤波器113生成从用户界面111发送的复合搜索查询114来询问索引数据库103。

满足复合搜索查询114的所有得到的微博是从索引数据库103中在任何给定时间窗检索的，并呈现编入索引的微博的新群体115。提取模块116可用作分析检索的群体115并且从检索群体中提取至少一些以下信息：

1. 201-最新发布的消息(推文/微博)，其中允许推文短语表达有限数量的文本变化。

2. 202-包含诸如有趣的表情符号的情感材料的最新发布的消息。

对于1和2，组合给定搜索查询的所有检索的推文以将所有相似的推文聚集到相同的组中。对于推文之间快速实用的匹配，应用额外的标准化步骤，包括大写转换和去掉所有的井号标签，提及名字、URL、标点、符号、表情符号、以及重新推文符号。将标准化之后精确匹配的推文组合在一起。通过它们具有最常见推文形式的大小按排列顺序(递减排列)呈现组与群集中推文的数量一起作为组的代表。以同样方式提取最最佳的有趣的推文(情感推文)并且将集群应用于仅具有笑脸符的那些推文。

3. 203-推文中流传最多的链接(诸如视频)。

提取前100个群集的推文中的URL。因为推文中的URL通常为简短的并且一些URL可能具有多个简称，放大所有的URL以显示原始URL。例如，表明视频托管网站(诸如YouTube)的URL被用以获得最流行的视频的排序表，然后该排序表可嵌入于合成的报告中。提取其它的URL并且将它们的标题按出现次数来排序并与它们的链接和出现次数一起呈现在推文中。也可以表明非视频材料的不同种类的链接所以也可对新闻报道、音频剪辑、地理位置的链接排列并并入报告中。例如，可在报告的地图上示出最频繁出现的地名或地理坐标。

4. 204-在推文出现的最常用词/短语。

对于阿拉伯语，使用与AMIRA[M.Diab.(2009).Second generation tools(AMIRA2.0):Fast and robust tokenization,POS tagging,and base phrase chunking.MEDAR2009.]来提取名词短语。对于英语，使用Open Calais提取关键字/关键短语。按它们的频率对所提取的名词短语和/或关键字/关键短语进行排序并且在标签云中显示，对于不同的格式标签云，参见图4和5。包括井号标签和提及名字但是该报告种类不包括URL。

5. 205-随着时间的过去搜索主题的人气。

参见图4、图5，在交互图中标会全天推文的数量并向用户呈现。在我们的系统中所用的时间单位是天，但系统可被配置为其它时间单位。并且，用户可以选自改变浏览的间隔尺寸并且每天探测所得到的报告并通过具体时间段导航以逐一了解每一天的汇总。

提供报告生成器117，其采用检索的推文中提取的信息201-205并且创建优选地以用户友好的标准化或定制格式呈现的汇总报告120：在此最佳推文、最有趣推文、以及流传最多的视频和链接按出现频率排序。以标签云的形式呈现最常用的术语和短语。时间序列图示出了如在图4、图5和图6中的随着时间过去推特上主题的人气。

与单词匹配搜索结果的标准列表相比，从微博信息中获得的所生成报告提供高级别的信息内容。提供由稀疏微博数据过载还可能是什么样的而得出的总结报告为用户提供调整适合用户选择的搜索查询术语的有用的信息。

在实施方式中，可为特殊事件预先配置报表生成和微博检索。该系统和方法可用于对于在推特上搜索给定主题之外的任务。实施方式可配置为监测随着时间过去具体实体或者事件的人气及同样的报告。在这种实施方式中，系统供应由一组固定查询，并且在固定时间持续更新汇总报告以向用户提供更新的报告。在给定事件内可监测多个实体，并且可提取这些实体之间的关系并在图表中绘制出来以表示不同的实体之中的连接。

图3呈现系统中主要的工作流程步骤：

·给出信息需求，诸如查询，搜索相关帖子的社交内容数据

·从微博中提取所有相关的帖子

·向帖子应用全分析以：

i.收集和合计匹配信息需求的微博数据和帖子。

ii.在帖子上应用先进自然语言处理(NLP)技术以提取相关事件。一些相关NLP技术包括(但不限于)：

1.文本标准化

2.指定的实体识别

3.关键字/关键短语提取

4.情感分析

iii.信息需求与提取的项目之间的绘制关系。

iv.针对给定时段导航结果。

v.针对某个主题监测公众情绪并且观察随时间的变化。

vi.提取与这种事件/实体相关的最佳视频和链接。

vii.针对所需事件提取最佳讽刺帖子和像玩笑的推文。

viii.提取最积极/消极和其它类型的分类的情感帖子。

总体上，参考图3，用户搜索特定时间敏感主题[300]，诸如竞选、体育事件、自然现象、或者诸如个人、位置、组织、或产品的实体。用户选择时间跨度[301]。汇编复合搜索查询[302]并且询问[303]标准化和编入索引的微博数据库[103]以检索满足搜索查询的所有相关的帖子。报告生成器分析检索的帖子并将微博总结[304]到公众微博[103]的定制和综合报告中。向用户呈现报告[305]。

对于具体时间跨度中所得到的推文，本发明的实施方式生成示出最佳推文(“最佳”意指发布最多(重新)的推文)、最有趣推文、流传最多的视频和链接、最流行的术语和短语的报告，以及随着时间过去关于实体/事件的统计的报告。用户也可以通过随着时间过去所得到的报告导航从而了解给定实体/事件变得多么流行。此外，可将系统配置为自动收集涉及给定主题的推文以在一段时间以后监测特殊事件。

定制及更新的报告的实例：

体现本发明的系统的配置使用体现本发明的系统和方法监测2012埃及总统大选并制备日报表。一般为竞选以及具体地各个候选人制作报告。

在本发明的这个实施方式中，系统被配置为自动监测关于埃及竞选的阿拉伯的推文可以制备阿拉伯的推文中关于竞选的信息的汇总报告。例如，仅基于推文制作关于所有选举的候选人的日报表，包括之前提及的所有的特征。也将报告配置为提供随着时间过去在候选人与它们的人气的绘图之间的相对表现的标识。

数据收集

从2012年2月26起收集阿拉伯推文，在埃及竞选之前的3个月——大约每天260万阿拉伯语的推文。在日报表中所用的推文数目在过去三个月时段明显变化。在报告中所用的推文的数目在2月末6000个推文之间到分别在第一和第二竞选回合高达377,000和158,000个推文之间的范围内。图6示出了在推特上出现的所有候选人的时间序列。曲线图在5月25日具有两个峰值，13个候选人之间的第一轮竞选日；以及6月17日，回合1中两个领先者之间的第二轮竞选日。使用每十分钟最新发现的推文持续更新日报表并且每条完成合计，其中从半夜12点开始算一天。

配置系统-创造丰富的查询

准备一组丰富的布尔查询来收集推文，包括13候选人竞选主席的查询以及涉及竞选的一些其它实体，诸如期望进行竞选但不是高级政党的人，以及涉及竞选的政府组织。

准备的查询中的一些查询仅仅是候选人或实体的姓名，而其它人的就需要丰富的布尔查询来消除他们的含糊意义。例如，候选人“

-（Sabahi)”需要复杂的查询，因为它的名字在阿拉伯语中也指“我的早晨”，从而产生很多不相关的推文。

计算候选人声望和关系

通过包括他的姓名的推文的计数测量每个候选人的声望。我们注意到最受欢迎的候选人总是消极和讽刺推文的对象，而第二最受欢迎的通常是具有积极/支持的评论的强有力的候选人之一。通过推文中候选人的共同出现测量候选人之间提到的相对频率。像轶事一样，我们注意到竞选日的许多星期以前，推文中共同出现的候选人在思想上相似的候选人中会更频繁地提到；然后当竞选日接近时，同时出现基于诸如政治辩论、大量媒体露面等的子事件。

该调整合适的实例说明体现本发明的系统和方法如何适合于从很多微博中提供丰富的信息内容，每个微博仅包含稀疏信息。

在实施方式中，提供翻译模块，其被配置为使得多个语言的微博可用于生成一批一种语言的微博数据。可将翻译看做是标准化步骤。

当在该说明书和权利要求中使用时，术语“包括”和“包含”及其变形意指包括具体特征、步骤或整数。不将术语解释为排除其它特征、步骤或元件的存在。

在前述说明书、或以上权利要求书，或所附图中公开的以它们具体形式或执行所公开功能的含义方面表达的特征，或实现所公开结果的方法或处理可视情况分别或者与这种特征结合使用来以其各种形式实现本发明。

Claims

1.一种从多个微博自动生成信息丰富的内容的方法，每个微博仅包含稀疏信息，所述方法包括：

收集包含微博数据的微博的群体，每个微博包含有限数量的字符；

标准化所述微博数据并将标准化的所述微博数据与其元数据一起编入索引中，

提供允许输入搜索查询的用户界面；

将在所述用户界面上输入的搜索查询与在所述微博数据中的数据进行匹配，所述微博数据部分基于投稿人情绪；

提供匹配处理的结果作为微博数据的子集；

将处理技术应用到微博数据的所述子集以提取与微博数据的所述子集中的事件有关的信息；其中，所述处理技术包括：

使用自然语言处理技术以生成微博数据的所述子集的至少一个种类，所述种类基于微博数据的所述子集的所述稀疏信息与情感之间的相关性；以及

针对所述搜索查询监测微博投稿人情绪并观察随时间的变化；

基于微博和所述种类随时间生成微博数据的所述子集中的所述事件的投稿人情绪数据，其中，所述投稿人情绪与基于所述微博的所述稀疏信息中的情感的种类相关联；

从所述微博数据的所述子集提取报告数据，所述报告数据包括最相似微博、最佳情感微博、最佳视频或链接、最佳短语以及计算的随时间的人气中的至少一项；

基于与微博数据的所述子集中的事件有关的所述信息产生多组微博；

基于所述报告数据生成报告，所述报告包括多组微博，其中，每组基于与所述事件的所述投稿人情绪数据相关联的微博数据的所述子集，其中，每个微博基于匹配的搜索查询与关联于所述投稿人情绪数据的情感之间的相关性；以及

输出所述报告。

2.根据权利要求1所述的方法，其中，微博的种类选自以下中至少一个：

包含所匹配的搜索查询的微博；

包含积极/消极情感的微博；

包含其它形式的情感的微博；

包含与所述搜索查询相关的讽刺的帖子和/或像玩笑的帖子的微博；

包含与所述搜索查询相关的链接的微博；

包含与所述搜索查询相关的视频链接的微博。

3.根据权利要求2所述的方法，其中，所述自然语言处理选自以下中至少一个：

文本标准化，

命名实体识别，

关键字/关键短语提取。

4.根据权利要求3所述的方法，其中，所述处理包括识别URL并且如必要的话扩展URL。

5.根据权利要求3所述的方法，其中，汇总报告提供以下中至少一个：

信息需求与所提取的项目之间的关系图；

在用户选择的时间窗中的所述结果的导航；

与这种事件/实体相关的提取的最佳视频和链接；

针对所需事件提取的最佳讽刺帖子和像玩笑的推文；以及

提取的最积极/消极以及其它类型的分类的情感帖子。

6.根据权利要求3所述的方法，其中，所述微博选自包括以下的组：关于社交网站的帖子；关于新闻文章的评论；关于论坛的评论或帖子；关于社交网站的评论；以及其它用户生成的内容(UGC)。

7.根据权利要求6所述的方法，其中，将所述微博标准化为具有预定格式的微博数据。

8.根据权利要求7所述的方法，其中，按微博的索引存储标准化的微博数据以包括所述微博的群体。

9.根据权利要求7所述的方法，其中，所述预定格式包括至少以下中的选择：

微博文本；

微博标识符；以及

微博时间戳。

10.一种从多个微博自动生成信息丰富的内容的系统，每个微博仅包含稀疏信息，所述方法包括：

计算设备，具有处理器和存储器：以及

存储设备；

所述计算设备被配置为执行根据任意前述权利要求所述的方法。

11.根据权利要求10所述的系统，进一步包括用于向用户显示界面的可视显示器，并且从用户接收搜索查询，使得所述用户的搜索查询的输入使所述计算设备将与所述搜索查询对应的所处理的微博数据的子集的汇总报告输出到所述界面。

12.一种存储指令的计算机可读介质，当执行所述指令时，允许处理器使所述处理器执行根据权利要求1所述的方法的步骤。

13.一种从多个微博自动生成信息丰富的内容的系统，每个微博仅包含稀疏信息，所述系统包括：

一批包含微博数据的微博，每个微博包含有限数量的字符，所述微博数据部分基于投稿人情绪；所述微博数据被标准化并且标准化的所述微博数据与其元数据一起编入索引中，

用户界面，允许输入搜索查询；以及

匹配处理器，被配置为：

将在所述用户界面上输入的搜索查询与在所述微博数据中的数据进行匹配；

提供匹配处理的结果作为微博数据的子集；

生成匹配的微博数据的至少一个种类，所述种类基于匹配的微博数据的所述稀疏信息与情感之间的相关性；

针对匹配的搜索查询监测微博投稿人情绪并观察随时间的变化；

基于微博和所述种类随时间生成微博数据的子集中的事件的投稿人情绪数据，其中，所述投稿人情绪与基于所述微博的所述稀疏信息中的情感的种类相关联；

输出所述报告。