CN101639832A - 用于管理基于文本的流式数据的方法和系统 - Google Patents

用于管理基于文本的流式数据的方法和系统 Download PDF

Info

Publication number
CN101639832A
CN101639832A CN200810128079A CN200810128079A CN101639832A CN 101639832 A CN101639832 A CN 101639832A CN 200810128079 A CN200810128079 A CN 200810128079A CN 200810128079 A CN200810128079 A CN 200810128079A CN 101639832 A CN101639832 A CN 101639832A
Authority
CN
China
Prior art keywords
named entity
classification
named
stream data
text based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810128079A
Other languages
English (en)
Inventor
吴贤
张小洵
费奔
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200810128079A priority Critical patent/CN101639832A/zh
Publication of CN101639832A publication Critical patent/CN101639832A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种用于管理基于文本的流式数据的方法和系统。所述方法包括:从所述基于文本的流式数据中提取多个命名实体;基于外部知识对提取的命名实体进行分析;利用分析的结果对命名实体进行选择;以及将选择的命名实体所在的基于文本的流式数据的项目放置在所述选择的命名实体对应的分类之下。其中基于外部知识对提取的命名实体进行分析的所述步骤可以进一步包括以下任一或所有:利用命名实体与搜索引擎进行交互的结果测量所述命名实体的流行度;利用命名实体与搜索引擎、社会标注服务进行交互的结果测量所述命名实体的动态趋势;以及利用用于表示用户的个人偏好的用户简档确定所述命名实体的重要性。

Description

用于管理基于文本的流式数据的方法和系统
技术领域
本发明一般地涉及数据的存储和检索,并且具体而言涉及一种用于管理基于文本的流式数据的方法和系统。
背景技术
当前,在日常的数据传输中,常常需要对于基于文本的流式数据进行存储和检索。基于文本的流式数据具备以下特性:1)动态的:新的数据项持续到来以及被不断增加到数据集中;2)累计的:数据集可以由于持续增加的数据项目的原因而扩展到很大的数量;以及3)不可预测的:新到来的数据项目所传达的内容可能与已经在数据集中存在的数据项目完全不同。基于文本的流式数据的示例可以包括:维基百科的条目、用于移动电话的文本消息、可订阅的新闻组等等。
随着万维网(World Wide Web,WWW)的蓬勃发展,Web的内容变得越来越丰富。对于用户来说,手动地逐个访问感兴趣的网页以及在其中定位感兴趣的内容正在变成一项繁重的劳动。由此,许多网站开始提供RSS(Really Simple Syndication,简单聚合)服务。RSS是在线共享内容的一种简易方式,其用于向用户同步网站内容。通常,在网站所提供的时效性比较强的内容上使用RSS订阅能更快速地获取信息。即,由网站提供RSS输出,从而有利于让用户获取网站内容的最新更新。用户可以在客户端借助于支持RSS的聚合工具(例如RSS阅读器)而在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。网站可以使用XML来描述新更新的内容,其指定了所述内容的标题、分类、URL(统一资源定位符)、日期等,接着经由RSS Feed来发布所述内容。Feed是一种数据格式,其用于向用户提供频繁更新的内容。作为内容分发者的网站将Feed数据聚合,从而允许用户订阅它。用户通过使用RSS阅读器监视RSS Feed而获得更新通知。RSS Feed可以包括若干RSS项目,其中进一步包括该RSS项目的整体文本或者摘要。如果用户对某个RSS项目感兴趣,则他可以通过点击而直接浏览该项目的整体文本,或者打开相应的URL以便浏览网页中的完整文本。因此,典型的基于文本的流式数据还可以包括RSS项目。
例如,对于一家大型的新闻网站来说,其可以具有针对不同新闻分类的30多个RSS Feed。该网站可以每隔5分钟更新一次该网站的RSS Feed,从而每天被送达用户的RSS项目可以有数百个。通常,一个用户还会从多个不同的网站预定多个不同的RSS Feed,因而这些RSS项目将会快速地积累。这导致了在浏览时的两个问题:首先,在大多数当前的支持RSS的聚合工具(例如RSS浏览器、RSS阅读器)中,通常以时间上的倒序列出所有RSS项目,对于用户来说从如此大量的项目中挑选出其感兴趣的某一个项目或者某些项目是不容易的;其次,由于RSS项目在迅速增加,在动态数据集中很难找到某个与语义相关的项目。例如,如果一个用户读到一条关于姚明的受伤恢复状态的RSS项目,他很可能想要找到关于姚明何时受伤的RSS项目,但是与姚明何时受伤有关的项目往往由于其分发到用户的时间较早而被淹没在海量的RSS项目的洪流中。因此,用户在RSS阅读器中试图找到在不同时间接收的相关RSS项目的努力是很费时的。
在现有的RSS阅读器中,所存储的RSS项目通常是根据时间或字母顺序来进行直接浏览的,因此用户很难在海量的、且不断增加的RSS项目中找到自己感兴趣的目标。
为了解决这一问题,各个网站为这些大量的RSS项目指定了属性,这些属性指定了它们的分类,诸如“运动”、“娱乐”、“财经”等。尽管RSS项目具备了相应的属性分类,但这些分类术语过于通用,从而不适用于对海量的项目进行分类,因为在每种分类下仍然存在很多项目,而它们所提供的内容并不一定相关。另外,由于分类术语只能由多个异类的源(网站)所提供,它们之间不存在公用协定,所以引入细粒度的公共分类法同样是很难的。
进一步地,用户有时过于专注于自己所感兴趣的分类中的RSS项目,从而有可能忽略对于其它分类的流行话题或者热点话题的关注,例如,大量人所关注的新闻事件、突发的新闻事件、以及近期公众热点话题等等。因此,向用户及时提供上述的RSS项目也是必要的和有用的。
基于相同的原因,对于包括RSS项目在内的所有基于文本的流式数据来说,存在类似的需求。为了更好地管理和存储所收集的海量的基于文本的流式数据,提高对用户感兴趣的项目的查找和浏览的效率,同时为用户提供流行话题和热点话题,在本领域中存在对于一种用于管理基于文本的流式数据的方法和系统的需要。
发明内容
由此提出了本发明,本发明提供了一种灵活的机制来组织基于文本的流式数据项目,所述机制既可以以细粒度的方式来组织现有的基于文本的流式数据的项目,还可以自动适用于新到达的项目。通过本发明的机制,用户可以容易地找到其感兴趣的项目以及获得语义相关的项目。
在本发明的第一方面中,提出了一种用于管理基于文本的流式数据的方法。所述方法包括:
从所述基于文本的流式数据中提取多个命名实体;
基于外部知识对提取的命名实体进行分析;
利用分析的结果对命名实体进行选择;以及
将选择的命名实体所在的基于文本的流式数据的项目放置在所述选择的命名实体对应的分类之下。
其中基于外部知识对所提取的命名实体进行分析的所述步骤可以进一步包括以下任一或所有:
利用提取的命名实体与搜索引擎进行交互的结果测量所述提取的命名实体的流行度;
利用提取的命名实体与搜索引擎、社会标注服务进行交互的结果测量所述提取的命名实体的动态趋势;以及
利用用于表示用户的个人偏好的用户简档确定所述提取的命名实体的重要性。
在本发明的第二方面中,提出了一种用于管理基于文本的流式数据的系统,所述系统包括:
命名实体识别处理器,用于从所述基于文本的流式数据中提取多个命名实体;
命名实体分析组件,用于基于外部知识对提取的命名实体进行分析;
命名实体选择器,用于利用分析的结果对所述命名实体进行选择;以及
数据安排组件,用于将选择的命名实体所在的基于文本的流式数据的项目放置在所述选择的命名实体对应的分类之下。
其中所述命名实体分析组件可以进一步包括以下任一或所有:
流行度分析组件,用于利用提取的命名实体与搜索引擎进行交互的结果测量所述提取的命名实体的流行度;
动态趋势分析组件,用于利用提取的命名实体与搜索引擎、社会标注服务进行交互的结果测量所述提取的命名实体的动态趋势;以及
个性化偏好分析组件,用于利用用于表示用户的个人偏好的用户简档确定所述提取的命名实体的重要性。
附图说明
在附带的权利要求中阐明了被认为是本发明新颖特性的特征。然而,通过参考以下结合附图的说明性实施例的详细描述,将最好地理解本发明本身以及其优选使用模式、另外的目的和优点,在附图中:
图1示出了根据本发明一个实施例的用于管理基于文本的流式数据的系统的示意图;
图2示出了在经过上述系统的处理之后呈现给用户的示例性用户界面;以及
图3是示出了根据本发明一个实施例的用于管理基于文本的流式数据的方法的流程图。
需要注意,在全体附图中,相同或相似的标号指代的是相同或相似的单元或组件。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实现方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多实现方式所特定的决定,以便实现开发人员的具体目标,例如符合与系统及业务相关的那些限制条件,其中,这些限制条件会随着实施方式的不同而改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于这个公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
此外,还需要说明的一点是,为了避免因不必要的细节而混淆了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
本发明开发了一种方式来组织基于文本的流式数据,其通过将相关的项目以细粒度的方式进行划分而有利于浏览和检索。注意,在下文中,本发明将针对RSS Feed数据项目进行描述,但是本领域技术人员可以理解,本发明的方案可以容易地应用于任意基于文本的流式数据。
根据本发明的一个实施例,首先,每个RSS项目的完整文本或摘要将通过相应的URL进行检索或通过RSS文件进行提取。其次,将对于完整文本或摘要执行命名实体识别(Named Entity Recognition),从而提取出若干命名实体。第三,将通过外部知识(诸如搜索引擎、社会标注(SocialAnnotation)服务、以及用户简档)的协助来从所提取的命名实体中选择某些命名实体作为分类。最后,RSS项目将通过所选择的命名实体进行分类并进行排序。用户可以通过所述分类来寻找对其兴趣的项目的更新以及容易地找到某个或某些与语义相关的项目。
为了更好地理解本发明及其特征和优点,以下是对本发明及其实施例的详细介绍。首先参见图1,图1示出了根据本发明一个实施例的用于管理基于文本的流式数据的系统100的示意图。如图所示,所述系统100包括三个主要组件:数据收集组件110、命名实体选择组件120、以及数据安排组件130。
数据收集组件110包括RSS Feed监视器115,其用于监视用户从一个或多个网站所预定的一个或多个RSS Feed项目,并从这些RSS Feed项目中收集更新。所述更新内容可以是RSS项目的完整文本或者摘要。在某些实施例中,如果所述更新内容中未包括RSS项目的完整文本,则数据收集组件110可以访问相应的URL并从提供该项目的网站获取完整文本。
命名实体选择组件120用于基于外部知识并通过考虑多种效应而从所有RSS项目中选择最重要的若干命名实体。命名实体选择组件120包括如下组件:命名实体识别处理器121、流行度分析组件122、动态趋势分析组件123、个性化偏好分析组件124、命名实体选择器125、搜索引擎交互组件126、社会标注交互组件127、以及用户简档存储装置128。
命名实体识别处理器121用于从所收集的RSS项目的完整文本或摘要中提取一系列命名实体。在一实施例中,命名实体识别处理器121用于通过使用命名实体识别(Named Entity Recognition,NER)技术提取一系列命名实体。命名实体识别是一种信息提取的技术,其目的在于定位文本中的原子元素,并根据原子元素将其划分为预定义的分类,所述原子元素诸如人、组织、地点、时间表达式、数量、金钱数值、百分数等等。NER技术使用基于语言学的语法的技术以及统计模型来提取所需的原子元素,并且典型地需要大量经手工注释的训练数据。通过NER技术,命名实体识别处理器121可以从所接收的RSS项目中提取多个命名实体。注意,本领域技术人员还可以容易地想到其它的提取命名实体的方式,例如通过预先定义的分类列表等。
流行度分析组件122用于从命名实体识别处理器121接收所提取的命名实体,将其发送到搜索引擎交互组件126用于基于命名实体与现有的搜索引擎(诸如Google)进行交互,并将交互结果用于测量所提取的命名实体的流行度。利用每个命名实体与搜索引擎的所述交互结果例如可以被表示为该命名实体在搜索引擎中进行搜索的匹配结果的数量。数量越大,说明该命名实体的流行度就越高。在本发明的一实施例中,每个命名实体可以通过多个搜索引擎进行搜索,并将所得的结果结合起来作为交互结果。
动态趋势分析组件123用于从命名实体识别处理器121接收所提取的命名实体,将其发送到搜索引擎交互组件126用于基于命名实体与现有的搜索引擎(诸如Google)进行交互、以及将其发送到社会标注交互组件127用于基于命名实体与现有的社会标注服务(诸如维基百科)进行交互,并将两种交互结果用于测量所提取的命名实体的动态趋势。利用每个命名实体与搜索引擎的所述交互结果例如可以被表示为该命名实体在搜索引擎中的趋势(例如通过Google Trend),而利用每个命名实体与社会标注服务的所述交互结果例如可以被表示为该命名实体在社会标注服务中的关注度。如果该命名实体在搜索引擎中的趋势或者在社会标注服务中的关注度获得迅速增长,则说明该命名实体很可能是近期关注的热点或话题,从而其很可能将作为被选择的命名实体来表示其所属的RSS项目。利用每个命名实体分别与搜索引擎和社会标注服务的交互结果被结合起来作为最终的交互结果,也就是该命名实体的动态趋势。
个性化偏好分析组件124用于从命名实体识别处理器121接收所提取的命名实体,并基于用户简档存储装置128中存储的用户简档来确定所提取的命名实体的重要性(个人偏好)。所述确定的结果例如可以是关于每个命名实体是否符合用户简档的指示。用户简档存储装置128中存储的用户简档表示为当前用户收集的某种个人偏好信息,其可以由用户自己手动输入或修改,也可以通过对用户之前的阅读习惯进行收集(诸如监视并记录用户所浏览过的RSS文档)而生成,或者是上述二者的结合。例如,如果用户将用户简档手动设置到体育类别,或者用户曾经阅读过很多体育新闻,则他所感兴趣的RSS项目可能与体育新闻有关,因此与体育有关的命名实体将符合用户简档,并得到更高的优先级。用户简档存储装置128可以是常用的存储装置,诸如非易失性存储装置。在一实施例中,用户简档存储装置128可以位于命名实体选择组件120的外部。
当所有的命名实体分别被流行度分析组件122、动态趋势分析组件123和个性化偏好分析组件124进行分析之后,所得到的针对每个命名实体的三种分析结果被汇总到命名实体选择器125。需要注意,在所述系统100中,根据设计者和执行环境的需要,流行度分析组件122、动态趋势分析组件123和个性化偏好分析组件124可以同时进行工作,也可以顺序地进行工作,还可以仅执行其中的某一个或某几个装置,只要将最终得出的结果汇总到命名实体选择器125即可。
命名实体选择器125用于接收针对每个命名实体的分析结果,将这些结果结合到一起,并根据所结合的结果对命名实体识别处理器121所提取的所有命名实体进行过滤,从而选择出最有代表性的若干命名实体作为对应的分类。例如,最终结果的加权数值最高的几个命名实体可以被选择。
为了避免引起混乱,所选择的命名实体的数量不能太多,因为每个命名实体可以对应于一种分类。如果所选择的命名实体的数量太多则会导致分类过多,从而妨碍用户浏览,并且,命名实体所属的RSS项目将被放置到多个不同分类之下,这会产生大量的冗余,从而不利于基于文本的流式数据的存储和检索。在本发明的一个实施例中,可以选择两个或三个命名实体作为用于分类的命名实体。
再次参见图1,所述用于管理基于文本的流式数据的系统100还包括数据安排组件130。数据安排组件130用于从命名实体选择组件120接收RSS项目以及所选择的几个命名实体,并根据所选择的命名实体将这些RSS项目进行分类以及呈现给用户。数据安排组件130包括命名实体查找器131、RSS项目安排组件132、以及命名实体重新排序组件133。命名实体查找器131用于查找从命名实体选择组件120接收的被选择的命名实体是否已经在使用作为分类。如果一个命名实体尚未被使用作为分类,则其被称为新的命名实体。RSS项目安排组件132用于根据命名实体查找器131的判断结果来放置RSS项目,如果一个命名实体已经被使用作为分类,则将该现有的命名实体所属的RSS项目放置在该命名实体对应的分类之下。否则,如果一个命名实体是新的命名实体,则基于该命名实体创建相对应的新的命名实体分类,并将该命名实体所属的RSS项目放置在该新的分类之下。命名实体重新排序组件133用于将向用户呈现的命名实体分类进行重新排序,以便用户进行浏览。在本发明的一实施例中,命名实体重新排序组件133可以将命名实体分类按照其包含的RSS项目的时间进行重新排序,也就是说,时间上最新的RSS项目所在的分类将被放置在用户界面中的最上面。在本发明的另一实施例中,命名实体重新排序组件133可以将命名实体分类按照字母顺序进行重新排序。另外,本领域技术人员还可以容易地想到其它的排序方式或者将上述排序方式相结合的某种方式。
为了更好地理解本发明的方案及其应用方式,下面将结合一个关于RSS项目的示例来说明系统100的具体工作原理。
首先,数据收集组件110中的RSS Feed监视器115监视多个网站的RSS Feed,根据这些网站的更新规则来爬取(crawl)这些Feed。对于所爬取的文件中的每个RSS项目,将其摘要或者完整文本发送到命名实体选择组件120用于进一步处理。
在命名实体选择组件120中,命名实体识别处理器121接收每个RSS项目的文本内容,并对该文本内容执行命名实体识别提取算法,从而多个命名实体(诸如人名、组织名等)将被提取出来。
流行度分析组件122调用搜索引擎交互组件126以便估计出所选择的命名实体的流行度。例如,假定流行度分析组件122从命名实体识别处理器121接收了M个命名实体{E1,E2,...EM},则流行度分析组件122将它们发送到搜索引擎交互组件126,以便基于这些命名实体从搜索引擎获得相应的交互结果,诸如针对每个命名实体所返回的搜索结果的数量{N1,N2,...NM}。这样,所估计的流行度值可以按照以下的公式(1)来计算:
V t ( Popularity ) = N i Σ j = 1 M N j - - - ( 1 )
动态趋势分析组件123调用搜索引擎交互组件126以及社会标注交互组件127以便估计出所选择的命名实体的动态趋势,也可以被称为流行度改变趋势。仍然采用上述的M个命名实体作为示例,基于这些命名实体通过搜索引擎交互组件126可以获得每个命名实体的在搜索引擎中的动态趋势。诸如,可以用{H1 (t),H2 (t),...HM (t)和{H1 (t+1),H2 (t+1),...HM (t+1)}分别表示该M个命名实体在时间(t)和(t+1)时的趋势。由此,用于表示在时间(t+1)时某个命名实体Ei的动态趋势的值可以按照以下的公式(2)来计算:
V i ( search ) = | H i ( t + 1 ) - H i ( t ) | H i ( t ) Σ j = 1 M | H j ( t + 1 ) - H j ( t ) | H j ( t ) - - - ( 2 )
还可以基于该M个命名实体通过社会标注交互组件127来获得针对每个命名实体的社会标注服务的关注度。诸如,可以用{S1 (t),S2 (t),...SM (t)}和{S1 (t+1),S2 (t+1),...SM (t+1)}分别表示该M个命名实体在时间(t)和(t+1)时的社会标注服务的关注度。由此,用于表示在时间(t+1)时某个命名实体Ei关于社会标注服务的动态值可以按照以下的公式(3)来计算:
V i ( social ) = | S i ( t + 1 ) - S i ( t ) | S i ( t ) Σ j = 1 M | S j ( t + 1 ) - S j ( t ) | S j ( t ) - - - ( 3 )
通过上述公式(2)和(3)所得到的结果值,动态趋势分析组件123可以按照以下的公式(4)通过二者的线性结合来计算总体的动态趋势值:
V i = λ * V i ( search ) + ( 1 - λ ) * V i ( social ) , 0<λ<1    (4)
个性化偏好分析组件124调用用户简档存储装置128中的用户简档来分析所接收的命名实体以便确定每个命名实体的重要性。例如,可以在用户简档存储装置128的用户简档中获得上述M个命名实体的出现次数(符合次数){C1,C2,...CM},并且该个人偏好的值可以按照以下的公式(5)来计算:
V i ( Personal ) = C i Σ j = 1 M C j - - - ( 5 )
在针对命名实体的三种信息(流行度、动态趋势和个性化偏好)都被计算出来之后,命名实体选择组件120中的命名实体选择器125可以按照以下的公式(6)来计算针对每个命名实体的总体估计值:
V i = &alpha; * V i ( popularity ) + &beta; * V i ( trend ) + ( 1 - &alpha; - &beta; ) V i ( Personal ) , 0 < &alpha; < 1,0 < &beta; < 1,0 < &alpha; + &beta; < 1 - - - ( 6 )
所有的命名实体将根据所计算出来的最终的Vi值来进行排序,并且该Vi值较大的几个(例如前两个或前三个)命名实体可以被选择作为用于分类的命名实体,并被发送到数据安排组件130用于进一步的处理。
图2示出了在经过上述系统100的处理之后呈现给用户的示例性用户界面200。参见图2,用户界面200左边是现有的命名实体分类的列表210。用户界面200的右边是各个命名实体分类下所包含的具体的RSS项目,其中,位置比较靠上的分类更有可能包括最重要的或者用户最感兴趣的RSS项目。例如,框220表示以命名实体“姚明”进行分类的所有RSS项目,框230表示以命名实体“尤文”进行分类的所有RSS项目,而框240表示以命名实体“冠军杯”进行分类的所有RSS项目。这是因为在之前对于命名实体的分析处理过程中,这三个命名实体获得了较高的总体估计值,从而以它们作为分类的RSS项目将被显示在用户界面的上部。并且,可以将向用户呈现的命名实体分类进行重新排序,以便用户进行浏览和查找。例如将命名实体分类按照其包含的RSS项目的时间进行重新排序,也就是说,时间上最新的RSS项目所在的分类(例如“姚明”)将被放置在用户界面中的最上面。同时,用户界面200左边的命名实体分类的列表210也遵循用户界面200右边的对于命名实体分类的排序。
以上是对于根据本发明一个实施例的用于管理基于文本的流式数据的系统的详细介绍。在同一发明构思下,下面结合图3来描述根据本发明一个实施例的用于管理基于文本的流式数据的方法。图3是示出了根据本发明一个实施例的用于管理基于文本的流式数据的方法的流程图。
如图3所示,所述方法的过程开始于步骤305,在步骤305,监视由用户从一个或多个网站所预定的一个或多个RSS Feed项目,并从这些RSSFeed项目中收集更新。所述更新内容可以是RSS项目的完整文本或者摘要。在步骤310,从所收集的RSS项目的完整文本或摘要中提取一系列命名实体。在一实施例中,通过使用命名实体识别技术来提取一系列命名实体。
在步骤310之后,所述方法具有三个分支步骤315、320和325。在步骤315,基于所提取的命名实体与现有的搜索引擎(诸如Google)进行交互,并将交互结果用于测量所提取的命名实体的流行度。在步骤320,基于所提取的命名实体与现有的搜索引擎(诸如Google)进行交互、以及与现有的社会标注服务(诸如维基百科)进行交互,并将两种交互结果(搜索引擎中的趋势以及社会标注服务中的关注度)用于测量所提取的命名实体的动态趋势。在步骤325,基于用于表示用户的个人偏好的用户简档,确定所提取的命名实体的重要性(个人偏好)。根据设计者和执行环境的需要,这三个步骤既可以同时执行,也可以顺序地执行,还可以仅执行其中的某一个或某几个步骤,只要将最终得出的结果汇总到步骤330即可。
在步骤330,接收针对每个命名实体的分析结果,将这些结果结合到一起,并根据所结合的结果对所有命名实体进行过滤,从而选择出最有代表性的若干命名实体。例如,最终结果的加权数值最高的几个命名实体可以被选择。在本发明的一个实施例中,可以选择两个或三个命名实体作为用于分类的命名实体。
在步骤335,查找被选择的命名实体是否已经被使用作为对应的命名实体分类。如果是,则所述方法进行到步骤340,其中将该命名实体所属的RSS项目放置在该命名实体的分类之下。否则,如果被选择的命名实体尚未被使用作为分类,即,其是新的命名实体分类,则所述方法进行到步骤345,其中基于该命名实体创建相对应的新的命名实体分类。在建立新的命名实体分类之后,所述方法进行到步骤340,将该命名实体所属的RSS项目放置在针对该命名实体的新的分类之下。
在步骤340执行完成之后,所述方法进行到步骤350,其中将向用户呈现的命名实体分类进行重新排序,以便用户进行浏览。例如,可以将命名实体分类按照其包含的RSS项目的时间进行重新排序,也就是说,时间上最新的RSS项目所在的分类将被放置在用户界面中的最上面。还可以将命名实体分类按照字母顺序进行重新排序。另外,本领域技术人员还可以容易地想到其它的排序方式或者将上述排序方式相结合。最后,所述方法在步骤355结束。
以上详细描述了根据本发明一实施例的一种用于管理基于文本的流式数据的方法和系统。如本领域普通技术人员可以了解的,本发明可以体现为方法、系统和/或计算机程序产品。因此,本发明可以呈现为完全硬件实施形式、完全软件实施形式或者软件和硬件组合实施形式。此外,本发明可以被呈现为在机器可读媒体上包括的计算机程序产品,机器可读媒体上存储了用于对计算机系统进行编程以执行根据本发明的过程的机器可执行程序指令。这里所使用的术语“机器可读媒体”包括向计算机系统提供用于执行的指令的任意媒体。这种媒体可以采用多种形式,包括但是不局限于:非易失性媒体、易失性媒体和传输媒体。非易失性媒体的常见形式例如包括软盘、软磁盘、硬盘、磁带或者任何其它磁媒体、光盘ROM(CD-ROM)或者任何其它光媒体、打孔卡或者任何其它带有孔图案的物理媒体、可编程ROM(PROM)、可擦写PROM(EPROM)、电EPROM(EEPROM)、闪速存储器、任何其它存储芯片或者盒式磁带(cartridge)、或者计算机系统可以读取并适合存储指令的任何其它媒体。
适于存储和/或执行程序代码的数据处理系统将包括:直接地或通过系统总线间接地耦合于存储器单元的至少一个处理器。存储器单元可以包括在程序代码的实际执行期间使用的局部存储器、海量存储装置、以及高速缓冲存储器,该高速缓冲存储器提供了至少某种程序代码的临时存储以便减少在执行期间必须从海量存储装置检索代码的次数。
此外,可以理解,方框图和/或流程图中的每个方框以及方框图和流程图中的一些方框的组合可以用一些计算机程序指令实现。这些计算机程序指令可以提供给一通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生一机器,使得这些指令通过计算机或其它可编程数据处理设备的处理器的执行创建用于实现在方框图和/或流程图内或者方框内所指定的功能的装置。
尽管已经参考优选实施例具体地示出并描述了本发明,但其不是为了以公开的形式穷举或限制本发明。对于本领域的普通技术人员,可以在形式上和细节上进行各种改变而不会背离本发明的精神和范围。选择并描述了实施例是为了最好地解释本发明的原理和实际的应用,以及为了使本领域的其它普通技术人员能够理解对于各种实施例的本发明,所述实施例具有适合于预期的具体使用的各种修改。

Claims (20)

1.一种用于管理基于文本的流式数据的方法,所述方法包括:
从所述基于文本的流式数据中提取多个命名实体;
基于外部知识对提取的命名实体进行分析;
利用分析的结果对命名实体进行选择;以及
将选择的命名实体所在的基于文本的流式数据的项目放置在所述选择的命名实体对应的分类之下。
2.根据权利要求1所述的方法,其中使用命名实体识别技术从所述基于文本的流式数据中提取多个命名实体。
3.根据权利要求1所述的方法,其中基于外部知识对提取的命名实体进行分析的所述步骤进一步包括:
利用提取的命名实体与搜索引擎进行交互的结果测量所述提取的命名实体的流行度。
4.根据权利要求1所述的方法,其中基于外部知识对提取的命名实体进行分析的所述步骤进一步包括:
利用提取的命名实体与搜索引擎、社会标注服务进行交互的结果测量所述提取的命名实体的动态趋势。
5.根据权利要求1所述的方法,其中基于外部知识对提取的命名实体进行分析的所述步骤进一步包括:
利用用于表示用户的个人偏好的用户简档确定所述提取的命名实体的重要性。
6.根据权利要求1所述的方法,进一步包括:
查找选择的命名实体是否已经被使用作为命名实体对应的分类;以及
如果选择的命名实体尚未被使用作为命名实体对应的分类,则创建所述选择的命名实体对应的分类。
7.根据权利要求1所述的方法,进一步包括:
重新排序命名实体对应的分类。
8.根据权利要求7所述的方法,其中通过以下方式重新排序命名实体对应的分类:
将命名实体对应的分类按照其包含的基于文本的流式数据的项目的时间进行重新排序;和/或
将命名实体对应的分类按照字母顺序进行重新排序。
9.根据权利要求1所述的方法,其中所述基于文本的流式数据从包括以下的组中选出:简单聚合数据、维基百科条目、用于移动电话的文本消息、可订阅的新闻组。
10.根据权利要求1所述的方法,其中所述基于文本的流式数据是完整文本或者摘要。
11.一种用于管理基于文本的流式数据的系统,所述系统包括:
命名实体识别处理器,用于从所述基于文本的流式数据中提取多个命名实体;
命名实体分析组件,用于基于外部知识对提取的命名实体进行分析;
命名实体选择器,用于利用分析的结果对所述命名实体进行选择;以及
数据安排组件,用于将选择的命名实体所在的基于文本的流式数据的项目放置在所述选择的命名实体对应的分类之下。
12.根据权利要求11所述的系统,其中所述命名实体识别处理器使用命名实体识别技术从所述基于文本的流式数据中提取多个命名实体。
13.根据权利要求11所述的系统,其中所述命名实体分析组件进一步包括:
流行度分析组件,用于利用提取的命名实体与搜索引擎进行交互的结果测量所述提取的命名实体的流行度。
14.根据权利要求11所述的系统,其中所述命名实体分析组件进一步包括:
动态趋势分析组件,用于利用提取的命名实体与搜索引擎、社会标注服务进行交互的结果测量所述提取的命名实体的动态趋势。
15.根据权利要求11所述的系统,其中所述命名实体分析组件进一步包括:
个性化偏好分析组件,用于利用用于表示用户的个人偏好的用户简档确定所述提取的命名实体的重要性。
16.根据权利要求11所述的系统,进一步包括:
命名实体查找器,用于查找选择的命名实体是否已经被使用作为命名实体对应的分类;
其中,如果选择的命名实体尚未被使用作为命名实体对应的分类,则所述数据安排组件创建所述选择的命名实体对应的分类。
17.根据权利要求11所述的系统,进一步包括:
命名实体重新排序组件,用于重新排序命名实体对应的分类。
18.根据权利要求17所述的系统,其中所述命名实体重新排序组件包括:
用于将命名实体对应的分类按照其包含的基于文本的流式数据的项目的时间进行重新排序的装置;和/或
用于将命名实体对应的分类按照字母顺序进行重新排序的装置。
19.根据权利要求11所述的系统,其中所述基于文本的流式数据从包括以下的组中选出:简单聚合数据、维基百科条目、用于移动电话的文本消息、可订阅的新闻组。
20.根据权利要求11所述的系统,其中所述基于文本的流式数据是完整文本或者摘要。
CN200810128079A 2008-07-29 2008-07-29 用于管理基于文本的流式数据的方法和系统 Pending CN101639832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810128079A CN101639832A (zh) 2008-07-29 2008-07-29 用于管理基于文本的流式数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810128079A CN101639832A (zh) 2008-07-29 2008-07-29 用于管理基于文本的流式数据的方法和系统

Publications (1)

Publication Number Publication Date
CN101639832A true CN101639832A (zh) 2010-02-03

Family

ID=41614817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810128079A Pending CN101639832A (zh) 2008-07-29 2008-07-29 用于管理基于文本的流式数据的方法和系统

Country Status (1)

Country Link
CN (1) CN101639832A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314453A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及系统
CN102947856A (zh) * 2010-06-23 2013-02-27 微软公司 使用内容项直方图来标识形成趋势的内容项

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102947856A (zh) * 2010-06-23 2013-02-27 微软公司 使用内容项直方图来标识形成趋势的内容项
CN102314453A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及系统
CN102314453B (zh) * 2010-06-30 2015-11-25 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及系统

Similar Documents

Publication Publication Date Title
US20220164401A1 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
Campos et al. Survey of temporal information retrieval and related applications
Alonso et al. Clustering and exploring search results using timeline constructions
JP4721740B2 (ja) 記事又は話題を管理するためのプログラム
CN102831199B (zh) 建立兴趣模型的方法及装置
CN1804838B (zh) 采用基于时间线的数据表示的文件管理系统
US9158854B2 (en) Methods for organizing information accessed through a web browser
CN1804839B (zh) 用于数据的基于时间线的可视化的体系结构和引擎
TWI482037B (zh) 搜尋建議叢集與呈現
US8005832B2 (en) Search document generation and use to provide recommendations
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
US20170154116A1 (en) Method and system for recommending contents based on social network
US20090024946A1 (en) Techniques for Organizing Information Accessed Through a Web Browser
JP2010176667A (ja) 帯域化されたトピック関連度と記事の優先順位付けのための時間を用いるためのシステム及び方法
US20110040767A1 (en) Method for building taxonomy of topics and categorizing videos
WO2007035859A2 (en) System and method for selecting advertising
CN110188165A (zh) 合同模板获取方法、装置、存储介质和计算机设备
US7693898B2 (en) Information registry
Kuusik et al. Smartmuseum: Cultural content recommendation system for mobile users
JP2009500764A (ja) 情報価値を反映した情報検索方法及びその装置
KR100902674B1 (ko) 문서 탐색 서비스 제공 방법 및 시스템
Vergoulis et al. Bip! finder: Facilitating scientific literature search by exploiting impact-based ranking
Zeleník et al. News recommending based on text similarity and user behaviour
TW201126359A (en) Keyword evaluation systems and methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100203