CN102982124A - 微博概括 - Google Patents

微博概括 Download PDF

Info

Publication number
CN102982124A
CN102982124A CN2012104535726A CN201210453572A CN102982124A CN 102982124 A CN102982124 A CN 102982124A CN 2012104535726 A CN2012104535726 A CN 2012104535726A CN 201210453572 A CN201210453572 A CN 201210453572A CN 102982124 A CN102982124 A CN 102982124A
Authority
CN
China
Prior art keywords
bunch
word
microblogging
relevant
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104535726A
Other languages
English (en)
Inventor
安妮·路易斯
托德·纽曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102982124A publication Critical patent/CN102982124A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了微博概括。各实施例提供了概括技术,该概括技术可应用于博客或微博以便以缩短的形式呈现被判定为有用的信息。在一个或更多个实施例中,一种方法用来从诸如免费文本等各种资源中自动获取概念组。这些所获取的概念然后用来指导聚类处理。对簇进行排名,并随后通过合并词的频率和情感来概括簇。

Description

微博概括
技术领域
本公开涉及可应用于博客或微博以便以缩短的形式呈现被判定为有用的信息的概括技术。
背景技术
许多公众意见通过万维网(World Wide Web)来表达。常常,这些意见在所谓的博客或微博中表达。博客(网络日志(web log)的缩写)通常用来提供评论、事件描述或诸如图片或视频等其他材料。微博是博客形式的广播媒体,并且与传统博客的区别在于:其内容在实际和总计的文件大小二者上通常更小。
博客或者微博通常能够包含许多信息。这些信息能够让许多不同的个人感兴趣。然而,因为博客和微博的庞大数量,这些信息可能经常被混淆或者完全地丢失。
发明内容
提供本发明内容是为了以简化形式来介绍选择的概念,下面在具体实施方式中会进一步描述选择的概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征。
各实施例提供了可应用于博客或微博的以缩短的形式来呈现确定为有用的信息的概括技术。在一个或更多个实施例中,一种方法被用来从诸如免费文本等各种资源中来自动获取一组概念。这些所获取的概念然后用来指导聚类处理。通过合并情感和词的频率,簇被排名并且随后被概括。
附图说明
参考附图对具体实施方式进行描述。图中,附图标记最左边的数字标识该附图标记首次出现的图。在说明书和附图中的不同实例中使用相同附图标记可表示相似或相同项。
图1示出根据一个或更多个实施例的示例性实施方式的环境。
图2更详细地示出图1所示的示例性实施方式的系统。
图3示出了根据一个或更多个实施例的示例性学习组件。
图4示出了根据一个或更多个实施例的示例性上位词树(hypernymtree)。
图5示出了根据一个或更多个实施例的示例性概括组件。
图6为描述根据一个或更多个实施例的方法中的步骤的流程图。
图7示出了可用来实施这里描述的各实施例的示例性计算装置。
具体实施方式
概述
各实施例提供了可用于博客或微博的以缩短形式呈现被确定为有用的信息的概括技术。该技术可用于博客或任意大小的博客类型的入口。在至少一些实施例中,该技术可用于通常具有1000个或更少的字符的入口。在至少一些实施例中,该技术可用于具有140个或更少的字符的微博。这包括可以只有几个句子长的微博。这样的微博的一个示例叫做“推特(tweets)”。该概括技术可用于广泛的入口类型。
在一个或更多个实施例中,一种方法用来从诸如免费文本等各种资源中来自动获取一组概念。然后,这些所获取的概念用来指导聚类处理。通过合并情感和词的频率,簇被排名并且随后被概括。
为了说明该概括技术,利用了与公司相关的微博形式的入口类型。这些微博通常提及公司名称,并且可以包含与所提及的公司相关的意见的表达。经常,这些微博并不是有意的评论并且可包括从关于新闻文章的讨论到与特定公司相关的职位招聘和广告等各种观点。这使得自动判断微博中表达的情感更加困难。在该情况下,各种方法被用来获取一组商业概念,该商业概念然后被用于指导聚类处理(clustering process),其中,簇(cluster)被排名并被概括。
在下述讨论中,首先描述可操作地使用这里描述的技术的示例性环境。然后描述可在该示例性环境以及其他环境中使用的各实施例的示例说明。相应地,该示例性环境并不限于执行所描述的实施例并且所描述的实施例也不限于在该示例性环境中实施。
示例性运行环境
图1所示为可操作地使用本文档描述的技术的示例性实施方式中的环境100。所图示的环境100包括可以以多种方法配置的计算装置102的示例。比如,计算装置102可配置为例如关于图2而进一步描述的传统计算机(比如台式个人计算机和笔记本计算机等)、移动站、娱乐装置、通信地耦合到电视机的机顶盒、无线电话、上网本(netbook)、游戏控制台和手持装置等。因此,计算装置102可以涉及从具有实质的存储器和处理器资源的完整资源装置(比如个人电脑、游戏操作台)到具有有限的存储器和/或处理资源的低资源装置(比如传统置顶盒、手持游戏控制台)。计算装置102也包括使计算装置102执行下面描述的一个或更多个操作的软件。
计算装置102包括学习组件103和概括组件104。
学习组件103代表在一个或更多个实施例中,使得能够自动学习如商业概念等概念的功能。需要理解和明白的是,这里描述的技术可在包括(以举例方式且不作限制)运动团队、娱乐、科学研究、政治、公共事务问题和/或学生生活(这里仅提到了一些)的其他领域实施。在商业背景中,学习组件103能够预先学习通用的且与许多公司(如果不是绝大多数或全部的公司)相关的商业概念。这些概念然后用作可能的簇。微博随后映射到这些概念。比如,与公司相关的概念可包括“人”、“产品”、“资产”和“事件”。这些概念的每一个能够用来对微博聚类。在下述方法中,所有的公司将具有同一组的可能的簇,但就特定日子的微博中哪些概念有更多的量来说是变化的。自动学习过程可在离线过程中进行,该离线过程利用如新闻文章(这里只是举例,而并非限制)等各种资源。使用该方法,与公司相关的概念可应用到所有类型的公司,而不考虑该公司是技术相关的公司还是零售业,这在下面的描述中将变得明显。
概括组件104代表使簇能够通过情感和熵(entropy)来排名的功能性。这使得讨论相同话题的簇比包括多样内容的簇能排名更高。比如,在公司CEO辞职的特定日子,许多用户可讨论该事件,且因此该公司的“人”簇会在该特定日子有同质的内容。这种同质性(homogeneity)会与该公司产品簇形成对比,比如,人们可能正在谈论不同产品。此外,该簇的情感值(sentiment value)也被考虑在内。熵量度提供了判断同质性的途径。在所示出并描述的实施例中,情感与词语频度被合并,以计算熵量度,随后该熵量度被用来对簇排名,这在下面会变得明显。一旦簇已被排名,概括组件104可对簇进行概括。
计算装置102还包括姿势模块105,姿势模块105可通过一个或更多个手指来执行姿势识别,且使得执行对应于该姿势的操作。姿势可由模块105以多种不同的方式来识别。比如,姿势模块105可配置为:识别触摸输入,比如用户手106a的手指接近采用了触摸屏功能的计算装置102的显示装置108。模块105可用来识别单指姿势和底座姿势(bezel gesture)、多指/同一手的姿势和底座姿势和/或多指/不同手的姿势和底座姿势。
计算装置102还可配置为:检测并区分触摸输入(比如由用户手106a的一个或更多个手指提供的)和触笔输入(比如由触笔116提供的)。可用多种方法执行该区分,比如相对于显示屏108被触笔116接触的量,检测显示装置108被用户的手106a的手指接触的量。
因此,通过识别和平衡(leverage)触笔和触摸输入之间的划分和不同类型的触摸输入,姿势模块105可支持多种不同的姿势技术。
图2示出了示例性系统200,该系统示出了学习组件103、概括组件104和姿势模块105,示例性系统200在多个装置通过中央计算装置互联的环境中实施。虽然图2示出了学习组件103和概括组件104位于计算装置102上,但是,要认识和理解的是,这些组件也可分布在其他计算装置之间(比如,如虚线所示,分布在平台210上,作为网络服务212的部分)。中央计算装置可在多个装置本地,或可位于远离多个装置的位置。在一个实施例中,中央计算装置是“云”服务器农场(“cloud”server farm),其包括通过网络、互联网或其他方式连接到多个装置的一个或更多个服务器计算机。
在一个实施例中,该互联体系结构使得功能性能够在多个装置上传递,以向多个装置的使用者提供相同且无缝的体验。多个装置中的每一个可具有不同的物理要求和能力,且中央计算装置利用平台将是适应于该装置而又对所有装置共同的体验传递给该装置。在一个实施例中,目标装置的“类”被创建,且体验适应于装置的一般类。装置的类可由装置的物理性质、用法或其他普通特性来定义。比如,如前所述,计算装置102可以用针对诸如移动装置202、计算机204以及电视206使用的多种不同的方式而配置。这些配置的每一个通常具有相应的屏幕尺寸,并且因此,在该示例性系统200中,计算装置102可被配置为这些装置类中的一个。比如,计算装置102可采用包括移动电话、音乐播放器、游戏装置等装置的移动202类。计算装置102还可采用包括个人计算机、笔记本计算机、上网本等装置的计算机204类。电视206配置包括涉及在休闲的环境中的显示器(比如电视、机顶盒、游戏控制台等)的装置配置。因此,这里描述的技术可由这些不同的计算机装置102配置所支持,并且不限于下述的特定实施例。
云208被示出为包括用于网络服务212的平台210。平台210对云208的硬件(比如服务器)和软件资源的基本的功能性进行抽象,并因此可作为“云操作系统”。比如,平台210可以对资源进行抽象以将计算装置102与其他计算装置连接。平台210还可用于对资源的缩放抽象,以便为所遇到的对经由平台210实施的网络服务212的需求提供相应的尺度级。还提出了多个其他示例,诸如对服务器农场中服务器的负载平衡和防止恶意方(比如垃圾信息、病毒以及其他恶意软件)的保护等。
这样,云208作为属于可为计算装置102通过因特网或其他网络而得到的软件和硬件资源的策略的一部分而被包括。比如,学习组件103和概括组件104可在计算装置102上并且通过支持网络服务212的平台210来部分地实施。
由姿势模块支持的姿势技术可利用移动配置202中的触摸屏功能性、计算机204配置的跟踪板功能性来检测,由作为支持不涉及与特定输入装置的接触的自然用户界面(natural user interface,NUI)的一部分的照相机所检测,等等。进一步地,检测和识别标识特定姿势的输入操作的执行可分布于整个系统200,如由计算装置102和/或云208的平台210所支持的网络服务212执行。
通常这里所描述的任何功能可用软件、固件、硬件(比如固定逻辑电路)、手动处理或这些实施的组合而实施。这里所用的术语“模块”、“功能性”和“逻辑”通常代表软件、固件、硬件或其组合。在软件实施的情况下,当在处理器(比如CPU或多个CPU)上或由处理器执行时,模块、功能性或逻辑代表执行所指定的任务的程序代码。该程序代码可存储在一个或更多个计算机可读存储器装置中。下述姿势技术的特性与平台无关,意思是该技术可在具有多个处理器的多个商业计算平台上实施。
在下面的讨论中,各个部分描述了各示例性实施例。标题为“示例性学习组件”的部分描述根据一个或多个实施例的示例性学习组件。接着,标题为“示例性概括组件”的部分描述根据一个或多个实施例的示例性概括组件。接下来,标题为“示例性方法”的部分描述了根据一个或多个实施例的示例性方法。最后,标题为“示例性装置”的部分描述了可被用来实施一个或多个实施例的示例性装置的各方面。
已经描述了能够在其中对微博进行概括的示例性运行环境,现在考虑讨论根据一个或多个实施例的示例性实施方式。
示例性学习组件
图3描述了根据一个或更多个实施例的示例性学习组件103。在该示例中,学习组件103包括词查找组件300、词典302、词映射组件304和概念存储装置306。
词查找组件300代表处理多个资源并计算个体词与公司名称一起出现的频率的量度的功能性。这可以用任何适合的方式来执行,下面提供了适合方式的示例。这些词然后用来构建词典302。在一个或更多个实施例中,词典302包含被发现一般与公司相关的名词。
词典302代表包含由词查找组件300标识的词(如名词)的功能性。出现在词典302中的词随后由词映射组件304处理。
词映射组件304代表处理或映射在词典302中出现的词以根据这些词来创建更广义的概念的功能性。任何适合的技术可用于将词典300中出现的词映射到更广义的概念,下面提供其示例。
概念存储装置306被配置为:存储所定义的用于如下所述的对微博进行概括的各概念。
在操作中,且与一个特定的实施示例相关地,学习组件103能够如下所述地运行。
如上面所指出的,由词查找组件300处理多个资源,以创建由词典302所表示的词列表。在该特定的实施示例中,词典包含一般与公司相关的名词。比如,公司通常有CEO、执行者、办公室、职员、顾客和产品。由于公司经常在新闻中被讨论,因此,从新闻语料(news corpus)中自动学习这些名词和其他名词。
在一个示例中,全年的纽约时报新闻文章被用作分析。每一篇新闻文章可对应一个文件。文件被自动分配部分语言标签,并用例如人、组织和/或位置提及等命名实体来标记。出现在文章中的组织或公司提及被标签标记为“公司”,并用一般的记号“COMPANY”来替代。接下来,预定义的词窗被用来在所有公司提及之前和之后选择词,作为候选者wi,并为每个候选者计算关联量度。可采用任何适合大小的预定义的窗。在本实施方式示例中,使用20个词的预定义窗。关联量度反映词与公司名称一起出现的频率。任何适合类型的技术可用来计算该关联量度。在所示出和描述的实施例中,称为互信息的技术被用来测量共现(co-occurrence)。在本示例中,特定词的互信息或关联量度可计算如下:
MI ( w i , COMPANY ) = log p ( w i , COMPANY ) p ( w i ) p ( COMPANY )
这里wi和COMPANY是两个离散随机变量,p(wi,COMPANY)是wi和COMPANY的联合概率分布函数;p(wi)和p(COMPANY)分别是wi和COMPANY的边缘概率分布函数。
在该特定示例中,取该排名中前几千个名词,并且编辑公司词典(如词典302)。
接下来,如上面所指出的,根据在词典302中出现的词创建更广义的概念。这是通过使用词映射组件304完成的。在该具体的特别示例中,通过利用所谓的上位词路径来推导出更广义的概念。任何利用上位词路径的适合的方法可被使用。在一个特定示例中使用了WordNet,一种在其中按层级来组织词的英语语言的词汇数据库。从WordNet中可获取词的更一般的概念。例如“执行者”是“人”以及“狗”是“动物”。在该示出和描述的实施例中,检查在词典302中的每个公司词的上位词路径,并记录在多个不同级出现的词。在至少某些实施例中,来自上位词路径的更高级的更一般的词被记录。作为示例,考虑图4。
在图4中,出现了两个名词“商业广告”和“传单”。这些名词被映射到出现在多个不同层级内的语义标签。在示出的示例中,这些名词映射到所示出的上位词树中的相同的选择级,并相应地,被分组在“通信-消息-促销”语义标签下。在不脱离所要求保护的主题的精神和范围下,可以利用任何合适数量的级。在该特定示例中,利用出现在如虚线矩形所示的级3、4和5处的语义标签。出现在该级的集合的语义标签构成比原始词更一般的概念。然而,更一般的概念并不过于一般。由于标签更一般,因此,多个词被映射到同一簇,从而形成随后存储在概念存储装置306中的“概念”。因此,概念由语义标签和映射到其的词来定义。
如上所述,对词典302中的名词的处理产生多个不同的概念。这些概念可相当地不同,且可被直观地理解为与业务相关。这些概念然后可被重命名,以给予其信息更丰富的名字。比如,(以举例的方式且不作限制)概念的示例包括“人”、“事件”、“资产”、“组织”和“通信”等。在概念存储装置306中的每个概念还包括映射到该概念的词。比如,概念“人”包含如“执行者”、“CEO”、“顾客”以及“分析者”等词。在示出的和描述的实施例中,上述处理可离线完成。
已经根据一个或更多个实施例考虑了示例性学习组件以及概念存储装置如何构建,现在考虑讨论根据一个或更多个实施例可利用该概念存储装置执行概括处理的示例性概括组件。
示例性概括组件
图5示出了根据一个或更多个实施例的示例性概括组件104。在该示例中,概括组件包括聚类组件500、情感预测组件502、簇排名组件504和簇概括组件506。
聚类组件500代表根据来自特定公司的微博和来自概念存储装置的概念二者的输入来形成各个簇的功能性。
情感预测组件502代表为各微博计算情感值的功能性。可以用任何适合的方式计算情感值,在下面提供其示例。
簇排名组件504代表使用由情感预测组件502计算的情感值对来自聚类组件500的各个簇排名的功能性。下面仅提供了如何完成该功能的一个示例。
簇概括组件506代表提供对每个簇的精确的簇概括的功能性。下面仅提供了如何完成该功能的一个示例。
在操作中,概括组件104可如下操作。来自概念存储装置的每个概念代表微博的可能的簇。为了对来自一个特定公司的微博聚类,每条微博由聚类组件500分配给来自概念存储装置306的可能概念中的一个。作为第一步,针对每个概念为微博计算成员分数。这样,如果有10条微博和10个概念,则计算出总共100个成员分数。成员分数可以用任何适合的方式来计算。在示出和描述的实施例中,检查出现在微博中的词,并且记录作为簇中的任何先前词(prior word)的直接匹配(direct matches)的那些词。这些词被称为该簇的“精确匹配(exact matches)”。在该特定示例WordNet中,然后,尝试将剩余的非精确匹配的词映射到该簇使用的语义标签。即剩余的非精确匹配的词通过使用上位词路径来抽象,以确认所述非精确匹配的词中任一个在其上位词路径中是否具有簇的语义标签作为子字符串。这些词被称为“模糊匹配(fuzzy matches)”。针对微博-簇对的成员分数(score)由下式来计算:
分数(ti,cj)=λ·|精确匹配|+(1-λ)·|模糊匹配|
这里λ是0和1之间的值,并给予精确匹配更高的权重。接着,微博分配给具有最高分数的簇,从而将每条微博只分配给一个簇。来自微博的具有精确或模糊匹配的词被存储作为对应的所分配簇的“映射词”。对于多于一个簇,一个微博可能相同的成员分数。在这些情况下,可使用任何适合的启发式方法来处理该关系,并将每条微博分配给特定簇,如(举例且不做限制)将微博随机分配给簇中的一个,分配给当前形成的簇中较大的一个或分配给较小的一个。
利用如上所述的聚类组件500,已经用其相关的微博和映射词形成了簇,现在可由簇排名组件504对簇进行排名。可回忆,簇排名组件504利用有关由情感预测组件502所计算的所分配的微博的情感值和映射词的统计对各个簇进行排名。特别地,在本示例中,利用对每个簇的映射词的熵量度对簇进行排名。如果某些映射词在簇中有很高的概率,则其指示被广泛讨论的子话题。另一方面,如果映射词宽泛地变化而没有明显占多数的词,则其是包括多样的子话题的簇,且因此不太重要。进一步地,在运算中,具有情感的映射词与没有情感的映射词相比被给予更高的权重。这可以用适当的方式来执行。在示出和说明的实施例中,这可按以下来执行。
考虑具有某些映射词的簇Gj。映射词wi的概率由下式给出:
p ( w i ) = # ( w i ) Σ j # ( w j )
其中#(wi)(映射词的计数)由下式计算:
Figure BDA00002395421100092
其中,Sk是通过wi映射到Cj的微博。
任何适合类型的情感分析可被用来计算情感值。总的来说,情感分析旨在确认发言者或写作者对某话题或诸如微博或推特等文档的整个上下文倾向的态度。特定的态度可以是他或她的判断、评价或意见。
在示出和描述的实施例中,微博的情感值范围在0和1之间,并根据情感分类器对给定微博的预测来计算。该分类器将微博进行三路分类,分成肯定、否定和中性类别。
分类器还针对微博属于每个类别的似然性而输出在这三类上的概率分布。情感值被计算作为来自分类器的肯定和否定置信度值的绝对差。如果微博为肯定或否定,则该值等于“1”,而当微博为完全中性时,该值等于“0”。在其他情况下,所述分数表示句子中的主观性程度。
利用这些概率,Cj的熵值由下式计算:
E ( C j ) = - Σ i p ( w i ) log p ( w i )
其中,wi是Ci的映射词。
熵值较低表示更不对称的映射词分布且因此表示更好的簇。但由于较大尺寸的簇更偏向于更高的熵,因此施加权重因子以降低较大簇的熵。权重因子由下式计算:
Eadjusted ( C j ) = ( 1 - | C j | Σ k | C k | ) E ( C j )
分数Eadjusted是特定簇的最终分数。该量度越低,则表示簇排名越高。由于使用情感分数来计算词的概率,因此,该分数组合了情感和同质性信息二者。但当熵为零时,关于情感值的信息丢失。相应地,在这些情况下,检查在映射词上的平均情感值,且如果在阈值以下,则簇被降级且在所有簇中被分配有最大的熵值。
已经如上所述对簇进行了排名,现在可以由概括组件506对簇作如下概括。
在示出和说明的实施例中,首先为簇生成标题。该标题是按照如上所计算的概率的映射词的排序列表。然后,为每个簇显示最上面的标题词。
然后,为簇选择某些示例性的微博。选择偏向包含标题词的微博,因此,看到标题词和相关微博的组合对于用户更有用。正如在排名中那样,为了概括而将频率和情感信息二者组合。比如,获取与标题词匹配的句子后,利用词包含在微博中的概率和句子所附的情感值对句子进行排名。以此方式,频率和情感值二者都用于概括。在一个或更多个实施例中,头两个标题词用于概要创建。
对于所述两个标题词中的每一个,选择与标题词关联的所有微博。然后,通过对微博组中的微博排名来为微博组创建概要。排名分数是词在微博中的平均概率,其中以与上述类似的方式来计算该概率。对于第一个标题词,两个句子被选择,且对于第二个标题词,一个句子被选择。以此方式,每个簇总共获取三个句子。对于最终的接口,簇被依次示出,直到达到显示微博数量的某一极限。
已经考虑了根据一个或更多个实施例的示例性学习组件和概括组件,现在考虑讨论根据一个或更多个实施例的示例性方法。
示例性方法
图6是描述了根据一个或更多个实施例的方法中的步骤的流程图。该方法可关于任何适合的硬件、软件、固件或其组合来执行。在至少某些实施例中,该方法可由包含在某类型的计算机可读存储介质上的软件来执行。但是,如上所述,可执行将描述的功能性的软件的一个示例将上述学习组件103和概括组件105组合在一起。
步骤600处理多个资源以构建用来概括多个微博的词典。可利用任何适合的资源。比如,在上述实施例中,新闻文章可被用来构建词典。该处理可为采用共现技术构建词典的自动处理。上面描述了共现技术的一个示例。
步骤602使用词典中的词来创建概念。任何适合技术可被用来创建概念。概念代表特定词的更广义的含义。在示出和描述的实施例中,这些更一般的概念沿着具有多个不同层级的上位词路径而存在。出现在多个不同层级的子集处的词用来形成“语义标签”。
步骤604将多条微博分配给多个相应概念,以有效形成多个簇。如上所述,在该特定示例中,每条微博被分配给每个概念,以有效形成潜在簇。然后步骤606为每个微博/簇对计算成员分数,并将微博分配给成员分数最高的簇。这样,每条微博最终确切地在一个簇中。上面提供了如何完成这个的示例。
然后步骤608利用簇的映射词上的熵量度来对簇进行排名。在示出和描述的实施例中,该映射处理通过为具有情感的映射词分配比不具情感的映射词更高的权重而合并情感值。
接下来,步骤610概括每个簇的内容。在至少某些实施例中,可根据与情感度组合的、词在句子中的概率量度来选择一个或更多个句子而进行概括。可以如上所述地计算概率。一旦簇的内容已被概括,可显示微博的一个概要句子或多个概要句子,以通知用户特定微博或推特的内容。
已经描述了示例性实施例,现在考虑讨论可被用来实施上述实施例的示例性装置。
示例性装置
图7示出了示例性装置700的各个组件,示例性装置700可被实施为如参考图1和图2所描述的任何类型的便携和/或计算机装置,以便实施在此描述的实施例。装置700包括使得能够以有线和/或无线的方式传送装置数据704(比如已接收的数据、正在接收数据、准备广播的数据和数据的数据包等)的通信装置702。装置数据704或其他装置内容可包括装置的配置设置、存储在装置上的媒体内容、和/或与装置的使用者相关的信息。存储在装置700上的媒体内容可包括任何类型的音频、视频和/或图像数据。装置700包括一个或更多个数据输入706,通过数据输入706可以接收任何类型的数据、媒体内容和/或输入,诸如用户可选的输入、消息、音乐、电视媒体内容、记录视频内容以及任何其他类型的从任何内容和/或数据源接收的音频、视频和/或图像数据等。
装置700还包括通信接口708,通信接口708可实施为任意一个或更多个的串行和/或并行接口、无线接口,任何类型的网络接口、调制解调器以及任意其他类型的通信接口。通信接口708提供在装置700和通信网络之间的连接和/或通信链路,通过该网络,其他电子、计算和通信装置与装置700传送数据。
装置700包括一个或更多个处理器710(比如,任何的微处理器和控制器等),所述处理器处理各种计算机可执行或可读指令,以控制装置700的操作并实施上述实施例。替代地或另外地,装置700可用硬件、固件或固定逻辑电路(关于在总体标识为712的处理与控制电路而实施)中的任何一个或其组合来实施。虽然未示出,装置700可包括将系统内的各组件耦合的系统总线或数据传送系统。系统总线可包括不同的总线结构的任意一个或其组合,所述不同的总线结构例如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用多种总线架构中的任一个的处理器或本地总线。
装置700还包括诸如一个或更多个存储器组件等计算机可读介质714,该存储器组件的示例包括随机访问存储器(random access memory,RAM)、非易失性存储器(比如一个或更多个只读存储器(read onlymemory,ROM)、闪存存储器、EPROM、EEPROM等)以及磁盘存储装置。磁盘存储装置可被实施为诸如硬盘驱动、可记录和/或可重写压缩盘(compact disc,CD)、任何类型的数字多功能盘(digital versatile disc,DVD)等任何类型的磁或光存储装置。装置700可还包括大容量存储介质装置716。
计算机可读介质714提供数据存储机制,以存储装置数据704、以及各种装置应用718和与装置700操作方面相关的任何其他类型的信息和/或数据。比如,操作系统720可利用计算机可读介质714而保持为计算机应用,并在处理器710上执行。装置应用718可包括装置管理器(比如控制应用、软件应用、信号处理和控制模块、特定装置固有的代码和特定装置的硬件抽象层等)以及其他应用,所述其他应用可包括网页浏览器、图像处理应用、诸如即时消息应用的通信应用、词处理应用和多种其他不同的应用。装置应用718还包括实施这里所述的技术的实施例的任何系统组件或模块。在该示例中,装置应用718包括示为软件模块和/或计算机应用的接口应用722和姿势捕捉驱动器724。姿势捕捉驱动器724代表用来提供与诸如触摸屏、跟踪板、相机等配置为捕捉姿势的装置的接口的软件。替代地或另外地,接口应用722和姿势捕捉驱动器724可被实施为硬件、软件、固件或其任何组合。此外,计算机可读介质714可包括如上所述地运行的学习组件725a和概括组件725b。
装置700还包括将音频数据提供给音频系统728和/或将视频数据提供给显示系统730的音频和/或视频输入输出系统726。音频系统728和/或显示系统730可包括处理、显示和/或以其他方式表现音频、视频和图像数据的任何装置。视频信号和音频信号可通过射频(radio frequency,RF)链路、S-视频(S-video)链路、复合视频链路、分量视频链路、数字视频接口(digital video interface,DVI)、模拟音频连接或其他类似的通信链路从装置700传送到音频装置和/或显示装置。在一个实施例中,音频系统728和/或显示系统730被实施为装置700的外部组件。替代地,音频系统728和/或显示系统730被实施为示例性装置700的集成组件。
根据上文描述,本公开的一些实施例至少提供了以下技术方案,包括但不限于:
1.一种方法,该方法包括:处理多个资源以构建词典,所述词典配置为使得能够概括多条微博;使用所述词典创建概念,至少一些个体概念包括含有多个词的语义标签;将多条微博分配给多个所述概念以有效地形成潜在簇;计算每个微博/簇对的成员分数;以及使用所述成员分数将微博分配给簇。
2.如方案1所述的方法,其中所述处理多个资源包括:使用共现技术来构建所述词典。
3.如方案1所述的方法,其中所述微博包括与公司相关的微博。
4.如方案1所述的方法,其中处理多个资源以构建词典包括:构建含有与特定领域相关的名词的词典。
5.如方案1所述的方法,其中处理多个资源以构建词典包括:构建含有与公司相关的名词的词典;使用预定义的词窗口以在与公司相关的提及之前和之后选词;以及为至少一些个体词计算关联量度,所述关联量度反映所述词与公司提及一起出现的频率。
6.如方案1所述的方法,其中使用所述词典创建概念包括:利用上位词路径。
7.如方案1所述的方法,其中使用所述词典创建概念包括:利用上位词路径,所述语义标签含有来自所述上位词路径的多个词。
8.如方案1所述的方法,其中使用所述词典创建概念包括:利用上位词路径,所述语义标签含有来自所述上位词路径的多个词,该多个词出现在所述上位词路径的不同层级。
9.一种或更多种计算机可读存储介质,所述计算机可读介质包含计算机可读指令,当被执行时,所述计算机指令实施包括以下的方法:利用与各簇相关的映射词上的熵量度来对各个簇排名,其中所述熵量度合并与所述映射词相关的情感值,所述簇与要被概括的微博相关;以及概括每个簇的内容。
10.如方案9所述的一种或更多种计算机可读存储介质,其中所述概括包括:根据概率量度选择一个或更多个句子,其中所述概率量度合并与所述一个或更多个句子中出现的词相关的情感度。
11.如方案9所述的一种或更多种计算机可读存储介质,其中所述微博与一个或更多个公司相关。
12.如方案9所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值。
13.如方案9所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值,情感值与微博被分成肯定、否定或中性类别的分类相关。
14.如方案9所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值;以及计算将与簇的映射词相关的概率考虑在内的熵量度。
15.如方案9所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值;以及计算将与簇的映射词相关的概率考虑在内的熵量度;并且所述排名还包括:对所计算的熵量度加权,以降低至少一些簇的熵。
16.如方案9所述的一种或更多种计算机可读存储介质,其中所述概括包括:为簇生成标题,其中该标题包括定义标题词的映射词的排序列表。
17.如方案9所述的一种或更多种计算机可读存储介质,其中所述概括包括:为簇生成标题,其中该标题包括定义标题词的映射词的排序列表;并且还包括:为偏向包含所述标题词的微博的簇选择微博。
18.如方案9所述的一种或更多种计算机可读存储介质,其中各微博有1000个或更少的字符。
19.如方案9所述的一种或更多种计算机可读存储介质,其中各微博有140个或更少的字符。
20.一种系统,包括:学习组件,所述学习组件包括:词查找组件,所述词查找组件配置为:处理多个资源,并计算个体词与公司名称一起出现的频率的量度;词典,所述词典配置为:包含由所述词查找组件标识的名词;词映射组件,所述词映射组件配置为:利用分层的上位词路径,对在所述词典中出现的词进行映射,以创建概念;概念存储装置,所述概念存储装置配置为:存储由所述词映射组件创建的概念,所述概念配置为使得能够概括具有1000个或更少的字符的微博;以及概括组件,该概括组件包括:聚类组件,所述聚类组件配置为:根据来自特定公司的多条微博的输入以及来自所述概念存储装置的概念来形成各个簇;情感预测组件,该情感预测组件配置为:为各微博计算情感值;簇排名组件,所述簇排名组件配置为:利用由所述情感预测组件计算的情感值和针对特定簇中的微博而计算的词的概率为来自所述聚类组件的各个簇排名;以及簇概括组件,所述簇概括组件配置为:提供对各个簇的概括。
结论
各实施例提供了可应用于博客或微博以便以缩短的形式呈现被判定为有用的信息的概括技术。在一个或更多个实施例中,一种方法被用来从诸如免费文本等各种资源中自动获取概念组。这些被获取的概念随后用来指导聚类处理。对簇进行排名,然后通过合并词的频率和情感来概括簇。
虽然以特定于结构特征和/或方法动作的语言来描述了实施例,但是,需要理解的是,定义在所附的权利要求中的实施例不必限于描述的特定的特征或动作。相反,特定的特征和动作被披露为实施所要求保护的实施例的示例性形式。

Claims (10)

1.一种方法,该方法包括:
处理(600)多个资源以构建词典,所述词典配置为使得能够概括多条微博;
使用(602)所述词典创建概念,至少一些个体概念包括含有多个词的语义标签;
将多条微博分配(604)给多个所述概念以有效地形成潜在簇;
计算(606)每个微博/簇对的成员分数;以及
使用(606)所述成员分数将微博分配给簇。
2.如权利要求1所述的方法,其中所述处理多个资源包括:使用共现技术来构建所述词典。
3.如权利要求1所述的方法,其中所述微博包括与公司相关的微博。
4.如权利要求1所述的方法,其中处理多个资源以构建词典包括:
构建含有与公司相关的名词的词典;
使用预定义的词窗口在与公司相关的提及之前和之后选词;以及
为至少一些个体词计算关联量度,所述关联量度反映所述词与公司提及一起出现的频率。
5.如权利要求1所述的方法,其中使用所述词典创建概念包括:利用上位词路径,所述语义标签含有来自所述上位词路径的多个词,该多个词出现在所述上位词路径的不同层级。
6.一种或更多种计算机可读存储介质,所述计算机可读介质包含计算机可读指令,当被执行时,所述计算机指令实施包括以下的方法:
利用与各簇相关的映射词上的熵量度来对各个簇排名(608),所述熵量度合并与所述映射词相关的情感值,所述簇与要被概括的微博相关;以及
概括(610)每个簇的内容。
7.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述概括包括:根据概率量度选择一个或更多个句子,所述概率量度合并与所述一个或更多个句子中出现的词相关的情感度。
8.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述微博与一个或更多个公司相关。
9.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值,情感值与微博被分成肯定、否定或中性类别的分类相关。
10.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括:
计算映射词的概率,其中映射词的概率合并相关情感值;以及
计算将与簇的映射词相关的概率考虑在内的熵量度。
CN2012104535726A 2011-11-14 2012-11-13 微博概括 Pending CN102982124A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/295,661 US9152625B2 (en) 2011-11-14 2011-11-14 Microblog summarization
US13/295,661 2011-11-14

Publications (1)

Publication Number Publication Date
CN102982124A true CN102982124A (zh) 2013-03-20

Family

ID=47856142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104535726A Pending CN102982124A (zh) 2011-11-14 2012-11-13 微博概括

Country Status (3)

Country Link
US (1) US9152625B2 (zh)
CN (1) CN102982124A (zh)
WO (1) WO2013074553A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618216A (zh) * 2013-11-05 2015-05-13 腾讯科技(北京)有限公司 消息管理方法、设备和系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176969A (zh) * 2011-12-20 2013-06-26 腾讯科技(深圳)有限公司 一种分享微博消息的方法及装置
US8849843B1 (en) 2012-06-18 2014-09-30 Ez-XBRL Solutions, Inc. System and method for facilitating associating semantic labels with content
US9135327B1 (en) 2012-08-30 2015-09-15 Ez-XBRL Solutions, Inc. System and method to facilitate the association of structured content in a structured document with unstructured content in an unstructured document
JP5895777B2 (ja) * 2012-09-06 2016-03-30 富士ゼロックス株式会社 情報分類プログラム及び情報処理装置
WO2014093778A1 (en) * 2012-12-14 2014-06-19 Robert Bosch Gmbh System and method for event summarization using observer social media messages
US9432325B2 (en) 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
US10614074B1 (en) * 2013-07-02 2020-04-07 Tomorrowish Llc Scoring social media content
US10706367B2 (en) 2013-09-10 2020-07-07 Facebook, Inc. Sentiment polarity for users of a social networking system
US9715492B2 (en) 2013-09-11 2017-07-25 Avaya Inc. Unspoken sentiment
US20150073774A1 (en) * 2013-09-11 2015-03-12 Avaya Inc. Automatic Domain Sentiment Expansion
US20160314397A1 (en) * 2015-04-22 2016-10-27 International Business Machines Corporation Attitude Detection
CN104778283B (zh) * 2015-05-11 2018-05-01 苏州大学 一种基于微博的用户职业分类方法及系统
CN106649730B (zh) * 2016-12-23 2021-08-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
US11699039B2 (en) * 2017-06-28 2023-07-11 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
US10585991B2 (en) 2017-06-29 2020-03-10 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session
US11232363B2 (en) * 2017-08-29 2022-01-25 Jacov Jackie Baloul System and method of providing news analysis using artificial intelligence

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185065B1 (en) * 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
JP4293145B2 (ja) 2005-03-04 2009-07-08 日本電信電話株式会社 クチコミ情報判定方法及び装置及びプログラム
US20070016580A1 (en) * 2005-07-15 2007-01-18 International Business Machines Corporation Extracting information about references to entities rom a plurality of electronic documents
KR100726828B1 (ko) 2005-09-28 2007-06-12 조정열 브랜드 관리 서비스 방법
US7792841B2 (en) * 2006-05-30 2010-09-07 Microsoft Corporation Extraction and summarization of sentiment information
WO2007142998A2 (en) 2006-05-31 2007-12-13 Kaava Corp. Dynamic content analysis of collected online discussions
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US7996210B2 (en) * 2007-04-24 2011-08-09 The Research Foundation Of The State University Of New York Large-scale sentiment analysis
KR100901782B1 (ko) 2007-08-10 2009-06-11 넷다이버(주) 마케팅 정보 생성 방법 및 시스템
US7987188B2 (en) * 2007-08-23 2011-07-26 Google Inc. Domain-specific sentiment classification
US8280885B2 (en) * 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US8010539B2 (en) * 2008-01-25 2011-08-30 Google Inc. Phrase based snippet generation
US8239189B2 (en) * 2008-02-26 2012-08-07 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
US8117207B2 (en) * 2008-04-18 2012-02-14 Biz360 Inc. System and methods for evaluating feature opinions for products, services, and entities
US20090265307A1 (en) 2008-04-18 2009-10-22 Reisman Kenneth System and method for automatically producing fluent textual summaries from multiple opinions
CN101685453B (zh) 2008-09-27 2014-08-27 日电(中国)有限公司 交互式评注设备,交互式评注系统及其方法
US8606815B2 (en) * 2008-12-09 2013-12-10 International Business Machines Corporation Systems and methods for analyzing electronic text
US20100169317A1 (en) 2008-12-31 2010-07-01 Microsoft Corporation Product or Service Review Summarization Using Attributes
TW201118589A (en) * 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
US8356025B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Systems and methods for detecting sentiment-based topics
US8566360B2 (en) * 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
US20120102037A1 (en) * 2010-10-26 2012-04-26 Mehmet Kivanc Ozonat Message thread searching
US8423551B1 (en) * 2010-11-05 2013-04-16 Google Inc. Clustering internet resources
CN102184232A (zh) 2011-05-11 2011-09-14 北京航空航天大学 一种基于pad的汉语词汇情感建模方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618216A (zh) * 2013-11-05 2015-05-13 腾讯科技(北京)有限公司 消息管理方法、设备和系统
CN104618216B (zh) * 2013-11-05 2019-05-17 腾讯科技(北京)有限公司 消息管理方法、设备和系统

Also Published As

Publication number Publication date
US9152625B2 (en) 2015-10-06
US20130124191A1 (en) 2013-05-16
WO2013074553A1 (en) 2013-05-23

Similar Documents

Publication Publication Date Title
CN102982124A (zh) 微博概括
US10878479B2 (en) Recommendation through conversational AI
Deng et al. Adapting sentiment lexicons to domain-specific social media texts
US10572524B2 (en) Content categorization
JP7187545B2 (ja) 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断
US8676730B2 (en) Sentiment classifiers based on feature extraction
Binali et al. A state of the art opinion mining and its application domains
Mostafa More than words: Social networks’ text mining for consumer brand sentiments
US10318564B2 (en) Domain-specific unstructured text retrieval
US10290125B2 (en) Constructing a graph that facilitates provision of exploratory suggestions
US9852215B1 (en) Identifying text predicted to be of interest
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
US9483462B2 (en) Generating training data for disambiguation
Karanikolas et al. Large language models versus natural language understanding and generation
US20190163745A1 (en) Document preparation with argumentation support from a deep question answering system
US8856109B2 (en) Topical affinity badges in information retrieval
US20220100807A1 (en) Systems and methods for categorizing, evaluating, and displaying user input with publishing content
US20190146965A1 (en) Crowdsourced validation of electronic content
US20160299891A1 (en) Matching of an input document to documents in a document collection
US11275777B2 (en) Methods and systems for generating timelines for entities
Sawicki et al. The State of the Art of Natural Language Processing—A Systematic Automated Review of NLP Literature Using NLP Techniques
Feldman The answer machine
CN112148979B (zh) 事件关联用户的识别方法、装置、电子设备和存储介质
Susmitha et al. RETRACTED ARTICLE: Information extraction with two-layered ODNN and semantic analysis for opinion mining
Svee et al. A model-based approach for capturing consumer preferences from crowdsources: the case of Twitter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150610

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150610

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130320