CN102119383A - 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 - Google Patents
便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 Download PDFInfo
- Publication number
- CN102119383A CN102119383A CN2009801182184A CN200980118218A CN102119383A CN 102119383 A CN102119383 A CN 102119383A CN 2009801182184 A CN2009801182184 A CN 2009801182184A CN 200980118218 A CN200980118218 A CN 200980118218A CN 102119383 A CN102119383 A CN 102119383A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- text document
- standardized
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的各个实施例包括内容检索服务系统的信息汇聚和分类组件,该信息汇聚和分类组件从信息源得到信息,汇聚并标准化所得到的信息,并且分类所得到的信息,之后将经标准化和分类的信息进行储存以供内容检索服务系统的语言模型构建器组件和本体构建器组件使用。本发明另外的实施例包括本体构建器组件,该本体构建器组件针对特定日期、日期/时间、日期范围或日期/时间范围并且针对特定种类从经标准化和分类的信息来建立本体。
Description
相关申请的交叉引用
本申请是2007年9月21日递交的申请No.11/903,279的部分继续申请。
技术领域
本发明涉及检索内容(包括具有音轨的视频文件)来识别与检索查询词和短语相关的内容部分,并且具体地涉及内容检索服务系统的信息汇聚和分类组件,其采用本体和副本以对内容检索服务的检索服务组件用于向内容检索服务系统客户端呈递检索结果的副本进行评分。
背景技术
在早期的计算中,信息一般被编码为格式化的字母数字字符串,或者编码为信息储存单元(通常是字节)的未格式化有序序列。随着计算硬件、操作系统和计算机应用一齐演进,开发了很多不同类型的信息编码,并且现在大量不同类型的信息惯常以电子方式编码、储存、交换和呈递以供用户访问,包括文本文件、特殊格式的专用文件、音频记录、视频记录以及多媒体呈现。尽管在早期的计算中数据曾主要是被呈递为显示于单色24行终端上的字符串,但是当前电子编码并通过计算机系统发布的很多不同类型信息通过各种不同的应用程序被呈递以向人类用户呈现,所述应用程序包括文本和图像编辑器、视频播放器、音频播放器和网络浏览器。
一种重要类别的信息包括被编码为依序被呈递以向人类用户显示或呈现的有序信息单元序列。MPEG编码的视频文件是顺序信息编码的一种例子。MPEG编码采用多种着实复杂的多层不同类型编码方法来压缩编码一个或多个视频流和/或音频流。一般来说,视频帧是按次序从MPEG编码视频文件逐帧重构的。对MPEG编码视频文件的呈递提供视频帧流和音频流。呈递应用和设备一般允许用户开始或继续视频文件的呈递,停止视频文件的呈递,以及快进或快退到视频流中的选定位置。
在很多情况下,用户可能仅对视频呈现中的某部分感兴趣。例如,特定用户可能仅对本地电视新闻广播中包括的天气预报感兴趣,而所述本地电视新闻广播除了天气预报以外还包括对当前本地和全国事件的评论、对体育事件的评论以及对人们趣味故事的呈现。在很多情况下,视频呈现可能并未按段索引以便利对用户感兴趣的视频呈现部分进行直接访问,或者可能以非常粗略的话题粒度进行索引,需要用户采用通过相对粗糙的技术开始、停止、前进和后退视频流的不定(hit-or-miss)策略来定位感兴趣的部分。除了编码的视频外,存在很多其他类型的顺序信息编码,它们被依序呈递给人们的感官,包括纯音频记录、各种类型的多媒体呈现、书籍和文本文档中页的图像以及其他这样的信息编码。在很多情况下,当前检索人类用户感兴趣的编码信息部分被限于视频呈递应用和很多视频信号呈递设备的用户所熟悉的上述停止/开始/前进/和后退操作。
呈递顺序信息编码来向人类用户、设计师、实施者、供应商以及信息呈递应用(包括媒体播放器、网络浏览器和控制程序)用户,以及很多其他涉足记录、传播和呈递信息的人进行呈现的计算机和其他电子设备的设计师及制造商已经认识到对于更有效的检索工具的需求,以允许用户识别和高效地访问这些信息的受众所感兴趣的信息编码部分。响应于这些需求,已经开发了内容检索服务系统。本发明的各个实施例包括该内容检索服务系统的组件和子系统。内容检索服务系统接收和/或定位并获取内容检索服务系统客户端电子可获得的各内容项,并且准备这些内容项或这些内容项的部分的内部表示,以使得内容检索服务能够以图形方式呈递内容检索服务系统响应于内容检索服务系统客户端所作检索请求而生成的检索结果。内容检索服务系统的设计师、开发者和制造商,以及内容检索服务提供商和内容检索服务系统与内容检索服务所提供服务的用户,均已经认识到对高效和准确的内容检索服务组件的需求,以便利快速而准确地响应从采用内容检索服务系统的内容检索服务客户端接收的指向内容项的检索请求。
发明内容
本发明的各个实施例包括内容检索服务系统的信息汇聚和分类组件,该信息汇聚和分类组件从信息源得到信息,汇聚并标准化所得到的信息,并且分类所得到的信息,之后将经标准化和分类的信息进行储存以供内容检索服务系统的语言模型构建器组件和本体构建器组件使用。本发明另外的实施例包括本体构建器组件,该本体构建器组件针对特定日期、日期/时间、日期范围或日期/时间范围并且针对特定种类从经标准化和分类的信息来建立本体。
附图说明
图1说明内容检索服务系统向客户端提供检索服务。
图2说明内容呈递应用界面。
图3根据本发明的实施例说明添加到图2所示内容呈递应用界面的热图(heat-map)检索结果显示。
图4提供代表本发明一个实施例的内容检索服务系统的框图表示。
图5根据本发明一个实施例说明本体。
图6根据本发明一个实施例示出“动物”种类的示例性词汇表的一部分。
图7根据本发明一个实施例说明本体的m×m表示。
图8根据本发明一个实施例示出本体的列表表示。
图9示出本发明一个实施例中使用的本体表示的一部分。
图10根据本发明一个实施例说明副本的一种实现。
图11根据本发明一个实施例说明副本的替换性表示。
图12说明代表本发明一个实施例的CSS的概念服务组件(图4中的408)的操作。
图13根据本发明一个实施例说明被评分的副本的一个实施例。
图14提供代表本发明一个实施例的CSS系统的信息汇聚器和分类组件的高层框图。
图15说明网络抓取器(web crawler)的操作。
图16A-B说明本发明一个实施例中采用的文档过滤和标准化方法。
图17示出从图16B示出的标准化文本文档生成的词语向量(term vector)。
图18示出一种倒排关键词索引的逻辑结构。
图19根据本发明一个实施例说明累积词语分布。
图20说明IAC组件的文档分类器子组件的功能。
图21说明IAC组件的信息汇聚器子组件的操作。
图22说明IAC组件的分档分类器构造器子组件的操作。
图23提供CSS系统的本体构建器组件的控制流程图。
具体实施方式
在用于向客户端提供内容检索服务的内容检索服务系统内采用本发明的实施例。图1说明内容检索服务系统向客户端提供检索服务。客户端102一般是用户用来通过内容呈递应用(例如网络浏览器所调用的视频呈递程序)查看内容提供商系统106所提供的内容104的个人计算机或工作站。为了便于高效地查看内容,用户向显示于客户端计算机上的文本键入特征108键入包括检索词或检索短语的检索查询,并且调用针对内容相关部分所呈递的内容检索。在本发明的某些实施例中,检索查询可以可替换地由用户预定义或者针对用户预定义以便利用户检索。检索词或者短语被传输110到内容检索服务系统112并且被内容检索服务系统处理,以便返回114内容116特定部分与检索词或检索短语相关性的图形呈递。客户端计算机的用户可以通过额外的检索事务118-119针对额外的检索词或者短语进行额外的检索。
一般来说,呈递给用户的内容是这样一种内容,其不像文本文件,不能使用普遍可用的检索工具(例如文本编辑器中提供的检索设施)被容易地检索以便于找到用户尤其感兴趣的内容部分。在下面的讨论中,假设内容是具有伴音轨道的视频文件,例如新闻服务或体育服务通过因特网提供给访问用户的新闻广播或体育广播。然而,其中可以实现和采用本发明实施例的内容检索服务系统可以为各种不同类型的内容(包括各种类型的音频内容)提供检索服务,服务范围从多媒体呈现到各种类型的图像、图形和音乐选择。
一般来说,内容提供商106向内容检索服务系统112提供内容项进行预处理,以便于对指向该内容项的后续客户端检索请求进行快速响应。然而,在可替换的实现中,内容检索服务系统可以并发地接收内容项和从客户端接收检索短语或检索词,处理内容项以准备检索内容,进行检索请求,以及实时地向用户呈递结果。一般来说,客户端系统不同于内容提供商系统和内容检索服务系统二者,但是内容提供商、客户端和内容检索服务有可能可以全部并发或同时在单个计算机系统或分布式计算机系统内进行执行。
图2说明内容呈递应用界面。视频显示在基于网页的视频剪辑查看界面或便携式设备图形用户界面(“GUI”)212所提供的视频屏幕210内。该设备界面或网页提供文本键入窗214,该文本键入窗214允许用户输入充当检索准则的文本,以找到期望的视频来观看、将每个检索的结果显示在结果窗216中,所述结果窗216可以通过向上滚动按钮218和向下滚动按钮220滚动,并且可以从该结果窗216选择视频进行显示。此外,进度显示222在呈递视频剪辑期间向用户显示对正被显示的视频剪辑中当前位置的指示,其中视频剪辑的整个长度由水平条224表示而视频剪辑内的当前位置由位置指示器226相对于水平条的位置来指示。在图2中,位置指示器226指示当前显示的视频帧在整个该视频剪辑的25%位置处。用户界面提供用于开始和停止视频剪辑显示的开始/停止按钮228,以及允许用户查找视频剪辑内不同位置而无需观看中间帧的快退按钮230和快进按钮232。
图3根据本发明的实施例说明添加到图2中所示内容呈递应用界面的热图检索结果显示。该热图检索结果显示可以由从内容检索服务系统下载的客户端侧检索结果呈递应用提供。图3示出图2所示视频剪辑查看界面的导航按钮和进度显示,以及额外的检索结果显示特征。快退按钮130、快进按钮132和开始/停止按钮128在该可视界面中具有与针对图2所示视频剪辑查看界面的这些界面特征所描述功能等同的功能。进度显示124和126也具有与图2所示视频剪辑查看界面的进度显示等同的功能,只是其不是如图2中那样示出简单的纯色水平条来表示视频剪辑的长度,而是在进度显示的水平条124内叠加相关性功能的热图类表示。在该热图类表示中,较深的阴影表示较大量的相关性度量或者评分。该可视界面还包括两个参数指明特征302和304,它们允许用户通过分别沿柱310和312滑动指示器按钮306和308来指明在相对于用户在检索准则键入窗316中指明的检索准则314为信息编码内的位置计算相关性度量或评分时要采用的阈值和平滑程度。在图3所示的实例中,进度显示组件的水平条124表示视频剪辑的长度,并且人们可以通过对叠加于水平条124的热图的可视检视容易地确定与当前指明检索准则相关的内容最可能在位置320、322和324找到。更简单的可视界面可以仅包括相关性功能的热图类表示,并且可以依赖于现有GUI的选择特征来输入检索准则。更复杂的可视界面可以包括额外的选择特征来允许用户指明额外的参数,所述参数控制可视界面的显示以及相关性功能的计算,包括例如主题域。当然,对于所有可视界面,存在可以用来提供对参数、检索准则和其他输入数据的用户输入的很多不同方式和类型的选择与输入特征。另外,可视界面可以支持多种方法来输入任何特定输入数据。例如,在图3所示的可视界面中,用户能够通过使用快退和快进按钮、通过移动位置指示器或者通过在将指针移动到进度显示组件水平条内一位置所表示的位置后输入鼠标点击,来选择开始或继续信息编码呈递的位置。
图4提供代表本发明一个实施例的内容检索服务系统的框图表示。内容检索服务系统(“CSS系统”)402包括检索服务组件404,其从客户端接收检索请求,并且以运行于客户端计算机上的检索结果呈递应用所呈递的检索结果进行响应。在本发明的一个实施例中,检索请求和对检索请求的响应是根据网络服务协议通过因特网在可扩展标记语言(“XML”)消息中被接收406和发送407的。检索请求包括内容标识符(“内容ID”)以及包括检索词或检索短语的检索查询。这些项均被检索服务组件404传给概念服务组件(“CS组件”)408进行处理。CS组件408向检索服务组件404返回评分的副本412或副本的评分部分,该检索服务组件404使用所述评分的副本以及可选地使用概念服务组件返回的词汇表产生在客户端计算机上呈递给用户的检索结果信息。在所描述的本发明的实施例中,评分的副本或部分评分的副本是元组的时间排序列表,每个元组包含词语或短语的指示、呈递媒体内容项期间出现该词语或短语所经过的时间,以及指示该词语或短语与CS组件所接收的检索查询相关度的评分。CS组件访问本体储存器414、提取内容数据组件416和媒体数据服务418,以便于获得本体、副本,以及CS组件对返回给检索服务组件404的副本进行评分所需的其他信息。在所描述的本发明的实施例中,本体是词语和短语的全连通图。该图的每个节点代表词语或短语,并且该图的每条边代表在收集的信息中观察到的由该边连接的节点所代表词语或短语的同现(co-occurrence)关系,所述收集的信息被分析来产生所述本体。为每条边指派一权重,该权重反映该边所代表的同现关系的强度,并且权重是从被分析来产生本体的所述收集信息得出的。本体储存器414包括例如本体422的多个本体,其描述各个主题种类的词之间的同现关系。本体还是加有日期戳或者日期/时间戳的,因为本体随着时间针对任何特定主题而改变,并且对于准备检索结果来说,日期/时间戳指示自内容项数据被检索起合理时间偏离量内日期的本体是最有用的。提取内容数据组件416为CSS系统已经预处理过的每个内容项储存一个或多个副本426。媒体数据服务418储存与每个预处理的内容项相关的信息,包括该内容项所属主题的种类,以及该内容创建或接收的日期或者日期和时间。
CSS服务还包括内容服务组件430,该内容服务组件430从远程内容提供商接收内容项,或者检索、找到并且获取内容提供商提供的内容项,并且将所述内容项供应给内容处理器组件432,该内容处理器组件432准备每个已处理内容项的一个或多个副本426并在提取内容数据组件416中储存每个已处理内容项的一个或多个副本426。内容处理器432访问储存于语言模型储存器436中的语言模型(例如语言模型434),以便于处理给定内容项。内容处理器组件432还将关于内容项的另外的信息存放在媒体内容服务组件418中。在所描述的本发明的实施例中,副本是音轨或者音频文件的基于文本的副本,这是由内容处理器组件的自动语音识别子组件进行的。在本发明的可替换实施例中,文本副本可以从其他类型的媒体内容来准备,包括内容处理器组件的计算机视觉子组件准备的静止或运动图像的描述性副本。
信息汇聚器和分类器组件440连续或者间隔地抓取因特网和文档、文本文件的其他信息源上可获得的信息,以及与内容项可以被指派的各种不同种类相关的其他信息项。信息汇聚器和分类器组件440将认为对CSS系统有用的那些信息项按种类分类,并且将每个种类和特定日期与时间范围的信息项储存到归类信息储存组件442中。这些信息项被信息汇聚器和分类器组件处理,以移除不必要信息,在语言上对词语和短语进行标准化,并且计算与信息项相关联的各个参数和值,所述各个参数和值既被信息汇聚器和分类器组件用来分类所述项又被语言模型构建器组件444和本体构建器组件446使用,所述语言模型构建器组件444和本体构建器组件446使用储存于归类信息储存组件442中的信息项来分别建立语言模型和本体。
图5根据本发明一个实施例说明本体。图5是仅包含很少项的简化本体。实际针对有用信息种类准备的本体可以包含数百、数千或者数百万个词语和短语。在图5中,六个项中的每一个由椭圆节点表示,例如椭圆节点502表示词语“蛇”。每个可能的词语对,例如词语对“蛇”502和“皮肤”504,通过两道弧线互连,例如弧线506和508将词语502和504互连。这两道弧线形成双向对,该对的一道弧线从第一词语或短语(该道弧线的源词语或源短语)指向第二词语或短语(该道弧线的目标词语或目标短语),而该对的第二道弧线从第二词语或短语指向第一词语或短语。每道弧线被标以范围[0.0,1.0]内的数值。该数值是归一化的同现度量,指示该弧线的目标词语或短语与该弧线的源词语或短语同现的频率。因此,在图5中,弧线506指示词语“蛇”以相对低的频率与词语“皮肤”同现,而词语“皮肤”以稍高的频率与词语“蛇”同现。互连两个词语或短语的双向弧线对中两道弧线的同现度量并不相等的事实,反映出所述词语或短语的不同分布以及所述词语或短语在从其准备本体的很多信息项中不同的出现次数,以及这两个词语或短语的不同标准化。回头参照图4,本体(例如图5中所示的简单本体)是由CSS系统的本体构建器组件446通过分析大量与特定种类相关并且在特定时间间隔上收集的信息项来准备的。因此,每个本体,例如图5说明的本体,是与特定信息种类相关联的,并且带有与被本体构建器组件用来建立本体的信息项被CSS系统402的信息汇聚器和分类器组件440收集时的日期或日期时间分别对应的日期戳和/或日期/时间戳。
每个本体在物理或者概念上与一词汇表相关联。该词汇表也是从CSS系统的信息汇聚器和分类器组件(图4中的440)收集的信息项准备的。在某些实施例中,一个信息种类的词汇表是由CSS系统的语言模型构建器组件(图4中的444)准备的,并且被储存在语言模型储存器(图4中的436)中。在本发明的其他实施例中,词汇表可以由本体构建器组件(图4中的446)构造并且储存在本体储存器(图4中的414)中,而在可替换的实施例中,词汇表可以由CSS另外的组件构造。
在本发明的一个实施例中,词汇表包括在与特定信息种类相关的信息项中常出现的名词或名词性短语的列表。例如,可以预期体育种类的内容项包括诸如“球棒”、“垒”、“投手”、“四分卫”“门柱”、“橄榄球”、“标枪”、“轮滑”的名词以及其他这样的名词和名词性短语。由于程序方式处理诸如字符串的符号串是效率低下的,因此在实现CSS系统的组件时,词汇表中的每个词语或短语以整数值来表示。图6根据本发明一个实施例示出种类“动物”的示例性词汇表的部分。如从图6中可以看到的,每种动物名称的字符串表示(例如字符串“食蚁兽”602)与构成信息种类“动物”的词汇表的表606中一小整数值(例如值“96”604)相关联。使用该表,字符串“短吻鳄”608通过表查找操作被容易地翻译为整数“462”610。对于任何计算处理并电子储存的数据,可以以字母表顺序和/或数字顺序对词汇表排序,并且可以额外地与索引或其他额外信息相关联,以允许在表中快速地定位和访问词语和短语。
尽管将本体表示为如图5所示包括由弧线互连的词语和短语节点的图是方便的,但是当将本体表示为m×m的阵列时,可以更容易地计算处理本体,其中m是特定词汇表中词语和短语的数量。图7根据本发明一个实施例说明本体的m×m表示。m×m阵列702包括m2个单元,每个单元(例如单元704)包含标示弧线的一个或多个同现度量,所述弧线例如图5中从第一本体节点(例如图5中的节点502)始发并指向第二本体节点(例如图5中的节点504)的弧线508。单元的行索引指示与弧线始发的第一节点对应的整数值,而单元的列索引指示该弧线指向的第二节点。单元704具有阵列索引(5,m-1),指示该单元中包括的同现度量(例如图7中的度量“0,20”706),标示从整数“5”指明的词汇表词或短语指向整数m-1指明的词汇表词或短语的弧线。
图7中所示本体的m×m表示是一种有用的抽象,但是一般来说还是计算上效率低下的。该表示效率低下的一个原因是,对于实际本体来说,低于阈值的同现度量被视为是无意义的,并且均被指派以诸如值“0.0”的最小值。因此,图7中所示m×m阵列一般是非常稀疏的。为此,并且为了便于快速访问词汇表特定词和短语的特定同现度量,通常将本体表示为列表。图8根据本发明一个实施例示出本体的列表表示。在图8中,列表802的每个元素(例如元素804)被表示为包含三个单元的行。行804的第一单元806是本体图形表示中弧线的目标的数字表示,而第二单元808是本体图形表示中弧线的源,而第三单元810包含对该弧线所标示的同现度量。列表802中仅包括具有非零度量的条目,解决了与本体m×m阵列表示相关联的稀疏问题。列表中的每个条目表示本体的单个弧线。如通过图8中条目第一单元中的值容易看出的,在图8中,条目以相对于储存于每个条目第一单元中值的升序而储存。这种组织便利了对与本体图形表示中弧线指向的特定词语或短语相关联条目的访问。在某些实施例中,可以另外相对于储存于每个条目第二单元中的值而储存,并且在再另外的实施例中,本体的列表表示可以伴随有一个或多个参考表或索引表,以便利对本体特定条目的快速访问。
在实践中,即使是图8中所示的本体列表表示也可能是稍抽象的。在本发明的一个实施例中,本体包括针对每个条目的用于计算同现度量的原始数据,而非计算出的同现度量。图9示出在本发明一个实施例中使用的本体表示的部分。该本体被表示为列表902,类似于图8中说明的列表表示。然而,取代于如图8中包括单个计算出的同现度量,在本发明一个实施例中,图9中列表的每个条目包括三个数值904-906,所述数值对储存于条目第一元素908中值所表示的词或短语在与该条目第二单元910中所储存值表示的词或短语所在大量收集并处理的信息项的相同信息项内或这些信息项的子单元或子段内出现的次数进行编码,所述大量收集并处理的信息项对应于准备该本体所针对的信息种类。
在当前的讨论中,内容项是包括音轨的视频文件。在本发明的一个实施例中,检索是由CSS系统在视频文件音轨上使用用户输入的词语和短语排他地进行的,以找到在音轨的时间点上出现的这些词语或短语或者相关的词语或短语。因此,音轨的部分可以被识别为与检索词相关并且是用户特别感兴趣的。音轨的这些部分又可以与这样的视频图像相关,在通过视频文件呈递应用向用户呈现视频文件时,所述视频图像在音轨的所述部分被呈递的时间间隔内显示。在这些实施例中,副本(图4中的426)实质上是与词语或词语短语在向用户呈递音轨期间在所述音轨中出现的时间或时间间隔相关联的词语或短语出现的列表。图10根据本发明一个实施例说明副本的一种实现。在图10中,一维阵列1002中的每个单元(例如单元1004)要么是空白的,指示在该时间间隔期间未识别出词或短语,要么包含从与内容项种类相关联的词汇表选择的词或短语的数字表示,所述副本是根据所述内容项而准备的。在副本的该实施例中,每个单元代表固定的短时间间隔,从而一维阵列1002代表呈递视频文件音轨的时间线(time line)。图11根据本发明一个实施例说明副本的替换性表示。在图11中,副本被表示为列表或二维阵列,其每个条目或者行包含指示来自词汇表的词或短语的数值(例如数值1102),以及所述词或短语在音轨中出现的相关联时间(例如时间1104),这两者均在条目1106中。很多替换性的副本表示是可能的。
图12说明代表本发明一个实施例的CSS的CS组件(图4中的408)的操作。CS组件从代表本发明一个实施例的CSS的检索服务组件(图4中的404)接收内容ID 1202和检索查询1203。该内容ID一般是数字标识符,或者字母数字串,其唯一地标识特定的内容项。在本发明的一个实施例中,特定的内容项是这样的逻辑内容项,其可以封装多个不同的分立内容编码,包括例如特定视频的多种不同MPEG编码,每种编码具有根据编码信号的带宽或每秒千比特数所指明的不同分辨率。所有不同的编码均是视频的替换性表示,并且因此通过单个公共内容ID标识。CS组件使用内容ID 1202来访问媒体数据服务组件(图4中的418),以获得该内容项的种类ID 1204以及该内容项的日期/时间1206。CS组件另外访问本体储存器(图4中的414),并且在某些实施例中,访问语言模型储存器(图4中的436),以便于获得该内容项适当的本体1208和词汇表1210。使用该本体和词汇表1208和1210,并且使用各种语言处理规则和例程,CS组件随后处理所接收的检索查询1203,以生成一个或多个词语或短语列表1212和1214。首先,使用语言例程,针对拼写错误纠正检索查询,并且标准化该检索查询来产生修改的检索词语或短语1216,所述语言例程也被本体构建器用来从收集的信息构造本体。随后处理修改的检索查询1216,以提取在内容ID 1202所标识内容项所属种类的词汇表中出现的那些词。该种类由从媒体数据服务组件获得的种类ID 1204标识。每个列表1212和1214包括检索词语或短语,以及另外如从本体1208获得的相关检索词语或短语。该列表中的每个词语或短语与从本体提取的同现度量值相关联。在图12所示的实例中,在本体中找到词语“汽油”、“汽车”、“蛇”和“皮肤”与检索词语“石油”相关,并且因此把它们包括在针对检索词语“石油”的列表1212中。类似地,列表1214包含检索词语“汽车”,并且另外包含相关词语“汽油”和“石油”。所述相关词语或短语是从本体从其中检索查询词语或短语作为本体条目中第一值出现的那些条目(参见图8和9)获得的。一旦已经准备了列表,CS组件随后访问提取内容数据组件(图4中的416)以获得内容项的副本1218。CS组件随后使用列表1212和1214向副本1218的在该内容项所属种类的词汇表中出现的那些词语和短语指派同现度量,以产生评分的副本1220。在本发明一个实施例中,CS服务随后将评分的副本和内容ID,以及可选地将修改的检索短语1216和对词汇表的参考返回给CSS系统的检索服务组件(图4中的404)。检索服务组件随后进一步处理该评分的副本,以将检索结果呈递给用户。
图13根据本发明一个实施例说明评分的副本的一个实施例。该评分的副本为元组的列表,在图13中其每个元组以行表示,例如行1304。每个元组,例如元组1304,包括词或短语的数字表示、所述词或短语在音频副本中出现时所经过时间指示,以及针对所述词或短语计算的评分。一般来说,所述评分是从用于对该副本进行评分的本体获得的一个或多个同现度量的函数。在本发明一个实施例中,所述评分例如简单地是从本体获得的同现度量,除非针对其计算评分的词语或短语在多个列表(例如在图12的实例中的列表1212和1214两者)中出现,在这种情况下,评分可以被计算为与该词语或短语出现在的任何列表中的该词语相关联的同现度量的均值或加权均值。
图14提供代表本发明一个实施例的CSS系统的信息汇聚器和分类组件的高层框图。该信息汇聚器和分类器(图4中的440)负责从各种信息源(包括因特网)收集信息,所述信息随后被语言模型构建器(图4中的444)用来构造种类专用的语言模型(图4中的434),所述种类专用的语言模型被内容处理器(图4中的432)用来准备副本(图4中的426),并且所述信息被本体构建器(图4中的446)用来构造种类专用的本体(图4中的422),该种类专用的本体被CS组件(图4中的408)用来如上面讨论那样准备评分的副本。IAC组件1402包括两个主要的子组件:(1)文档分类器构造器子组件1404和信息汇聚器子组件1406。该文档分类器构造器子组件构造或训练文档分类器1408,所述信息汇聚器子组件使用所述文档分类器1408通过将每个文档指派到一个种类来分类从信息源获得的文档,并且随后逐种类地汇聚从文档收集的信息。如图4所示,IAC组件使用归类信息储存组件(图4中的442)1410来临时储存文档并最终储存本体构建器和语言模型构建器所使用的经处理文档包。IAC组件从因特网并且潜在地从其他信息源(包括在线数据库、简易信息聚合(“RSS”)种子和另外类型的电子编码信息源)请求信息1412并且接收请求的信息1414。在描述IAC组件的信息汇聚器子组件和文档分类器构造器子组件之前,首先描述这些子组件所采用的各种模块和功能。
图15说明网络抓取器的操作。如熟知因特网和因特网浏览的人们所公知的,被编码为超文本标记(“HTML”)文件的网页(例如网页1502)通过包括于网页中引用其他网页的超链接组织为复杂的图。当前,通过普遍可获得的网络浏览器访问因特网的用户可以潜在地访问数亿或数十亿不同的网页。正常地,用户使用搜索引擎检索感兴趣的话题,所述搜索引擎返回该搜索引擎确定与用户感兴趣话题相关的网页通用资源定位符(“URL”)列表,并且随后开始访问初始URL列表所标识的网页,通常是通过被包括在所显示网页中的超链接从初始查看的网页导航到另外的网页。图15示出因特网非常小的部分,其中链接网页的超链接被示为箭头(例如箭头1504),而网页示为该图的方形节点。第一网站1506可以包括网页1502和1508-1510,其中网页1508-1510链接自该网站的首页1502。网站1506的网页1509可以包含去往第二网站1514首页1512的超链接1504。该第二网站内的网页1516-1517又可以分别包含去往另外的网站1520和1522的超链接1518和1519。因特网的图太过复杂而不能表示任何一种可视显示,其中很多网站包含数百个网页以及成百上千个内部超链接和去往外部网站的超链接。
网络抓取器是一种自动软件程序,其被设计来访问因特网,以多个种子URL指明的多个网页开始,并且随后从所述URL全面向外导航,以收集通过从初始的种子URL开始遍历超链接直到某链接深度所能访问的所有网页。例如,在图15中,网络抓取器可以以地址分别为两个种子URL1530和1532的两个网页1502和1534开始。在图15中,各个超链接(例如超链接1504)被标记有该超链接相对于从以两个种子URL 1530和1532为地址的两个网页1502和1534开始的检索的深度。因此,例如,在深度1找到网页1508,其从抓取的初始网页1502直接链接,而网页1517出现在从初始种子URL 1530和1532起深度为5之处。由于该图的复杂性,很多网页(例如网页1502)在抓取期间可能被多次访问。由于因特网网页结构的复杂性、密度和数量,包括在每个连续抓取深度中的网页数量可能超指数地增加。可以将网络抓取器设计为按照附加参数指明的那样进行各种类型的定向检索。一般来说,网络抓取器将与所访问网页对应的HTML文件存放在大数据文件或数据库中。可替换地,网络抓取器可以在未提供种子URL时在网络空间中以随机选择点开始检索。
本发明的实施例采用过滤和标准化方法来将从因特网获得的HTML文件和其他文档处理成可以用来建立语言模型和本体的压缩的、语言标准化的文档。图16A-B说明在本发明一个实施例中采用的文档过滤和标准化方法。在图16A中,示出对HTML编码的网页1602的呈递。该网页包括文本1604、.jpg图像1606,以及各种非文本的图形和符号,例如项目符号1608和水平线1610。图16A中示出的网页1602是非常简单的网页。现今,很多网页包含各种不同类型的特征、控制、图像和非本文项,并且可以另外包括可执行的脚本和例程。
在初始的一系列步骤中,代表本发明一个实施例的过滤器将网页的HTML编码转变1612为简单得多的段句分界的文本文件1614。如图16A中可以看到的,已经从初始HTML文件移除了所有非文本项,以产生段句分界的文本文件1614,并且保留文本已经被分块为段落1616-1618,其中每个段落又分块为句子,例如段落1616的句子1620-1621。在图16A中,段落被标记为“P1”、“P2”和“P3”,而每个段落中的句子被标记为“S1”、“S2”......。接下来,如图16B所示,段句分界的文本文件随后通过一系列语言例程被转变1620,以识别所有词的词性(part of speech),并且移除不是名词的词,以产生仅有名词的文本文档1630。在该仅有名词的文本文档中维持所述段句分界的文本文件(图16A中的1614)的段落和句子结构。接下来,该仅有名词的文本文档1630通过一系列过滤和语言标准化步骤被转变1632为标准化文档1634。使用被认为对语言模型构建器和本体构建器无用的词的大列表来从该仅有名词的文本文档1630移除这些词的出现。该应当移除的词的列表可以根据各种统计和其他考虑来准备。例如,已知在多种内容中相对高频出现的词一般不能提供与用户相关的媒体内容的这些部分的显著区分。另外,可以针对用户查询收集统计数据,并且可以从被收集来建立一种类的本体的仅有名词的文本文档中移除在指向特定查询媒体内容的检索查询中一般不会遇到的词和短语。另外,采用语言例程通过例如将所有大写字符变为小写字符、将任何复数名词变为其单数形式以及在某些情况下以衍生名词的词根替代衍生名词来标准化每个名词。如在图16B中可以看到的,标准化文本文档远比图16A中呈递为网页1602的初始HTML文件更结构化、更简单。标准化文本文件1634包含的恰是对于在所描述的本发明实施例中的语言模型构建器和本体构建器有用的信息。
可以向标准化文本文档应用索引器来生成额外的有用信息。图17示出从图16B所示标准化文本文档生成的词语向量。在图17中,标准化文本文档1702被示出在词语向量的二维阵列1704表示之上。该词语向量针对在标准化文本文档中出现的每个唯一词语包括一个条目,例如针对词语“chart(图表)”的条目1706。如上面讨论的,词语向量中的每个条目包括词语的符号表示(例如符号串“chart”),或者从词汇表选择的词语的整数值。每个条目还包括该词语在文档中出现的次数。
通过某些索引器从标准化文本文档编制并且提供的另一信息编制物是倒排关键词索引。图18示出一种倒排关键词索引的逻辑结构。倒排关键词索引可以包含一个标准化文本文档或者标准化文本文档集中词语的出现频率相关的信息。图18示出文本文档集的倒排关键词索引。该倒排关键词索引包括哈希表1802,该哈希表可以被用来快速识别针对在该文档集中遇到的每个词语编制的出现频率信息。可以从词“armadillo(犰狳)”计算哈希值1804,或者可以使用从词汇表选择的词“armadillo”的数值来计算哈希表1806中的数值或对条目的引用。该条目包含指向哈希为特定哈希表条目或者容器(bin)的一个或多个词语的一个出现频率信息或出现频率信息列表的指针。在图18所示的实例中,哈希表条目1806对应于词“armadillo”1808和词“piano(钢琴)”1810。从哈希表引用的对应于词语“armadillo”的第一词语节点1808又引用包括词语“armadillo”的文档节点1812-1815的列表。每个文档节点又引用段落列表,例如与文档1815相关联的段落节点1818-1819,该段落列表代表给定文档中出现该词语的所有段落。所述段落节点然后又可以引用句子节点或链接的句子节点列表,所述句子节点指示段落中出现该词语的那些句子。从词语节点1808起始并包括该词语节点的分层节点树中的每个节点可以包括表示该词语在该分层结构的每一级中出现的总次数的整数值。例如,词语节点1808可以包括词语“armadillo”在整个文档集中出现次数的整数值。文档节点1812可以包含指示词语“armadillo”在该文档节点所代表文档中出现次数的整数值。
存在很多不同类型的倒排关键词索引。图18中的倒排关键词索引意图示出可以被包含在倒排关键词索引中的信息类型。一般来说,尽管哈希表提供快速查找,但是图19的分层节点树中储存的数据通常被储存为比特串或存储器块中的字段,而不是储存为节点树,以便于比可以通过遍历复杂的树获得信息更快速地获取信息。应当注意,当索引器准备每个标准化文本文档的倒排关键词索引时,可以通过在概念上将文档节点为头部的树附加到从词语节点始发的文档列表来相对直接地合并文本文档集中所有文本文档的倒排关键词索引。在本发明某些实施例中可以使用倒排关键词索引,但是在本发明的很多实施例中不使用倒排关键词索引。
如上面参照图17讨论的,索引器可以为每个标准化文本文档准备词语向量。可以通过将每个词语在该集合所有标准化文本文档中的出现次数进行合计来汇聚相关标准化文本文档集的大量词语向量,以产生每个词语在词语向量中的累积出现次数。所有词语的累积出现次数构成该相关标准化文本文档集的累积词语分布。图19根据本发明一个实施例说明累积词语分布。该累积词语分布实质上是直方图,其中相对于纵轴1802绘制沿横轴1804绘制的词语的出现次数。特定柱(例如柱1806)的高度表示该柱之下词语1808的出现次数。累积词语分布可以在计算上被表示为二维阵列,其具有与上面参照图17讨论的词语向量中条目等同的条目。
接下来描述IAC组件的文档分类器子组件(图14中的1408)。图20说明IAC组件的文档分类器子组件的功能。词语向量2002输入到文档分类器子组件2004,并且该文档分类器子组件应用各种规则、习得的概率或其他内部储存的信息,以便于产生有可能代表与该词语向量相关联文档种类的种类ID 2006。换言之,在如上面参照图17讨论的那样构造标准化文本文档的词语向量之后,与标准化文本文档相关联的词语向量可以被输入到文档分类器子组件,以确定该文档所属种类的种类ID。存在很多不同类型的文档分类器。
在本发明的一个实施例中,采用朴素贝叶斯文档分类器。在贝叶斯方案中,根据种类Ci的文档将生成各种可测量的量F1,F2,...,Fn的概率来计算文档是特定种类Ci的成员的似然性,所述可测量的量是从之前观测的数据估计的。使用来自词语向量T1,T2,...,Tn的元素的出现值作为可测量的量,朴素贝叶斯分类器通过尝试找到种类Ci来分类文档,即,在一组种类C的所有种类中,考虑词语向量分量T1,T2,...,Tn的值,所述文档属于种类Ci的概率最高。因此,朴素贝叶斯分类器寻找:
为了计算所述概率,使用贝叶斯定理将p(Cj|T1,T2,...,Tn)计算为:
换言之,可以根据任何文档属于种类Cj的概率、观测到从文档获得的词语向量的给定一组词语向量值属于种类Cj的概率以及观测到该给定一组词语向量值的概率,来计算该文档属于种类Cj的概率。当假设词语向量中词语出现值之间独立时,用于计算p(Cj|T1,T2,...,Tn)的上式可以被下式替换:
其中S为比例因子(scale factor)。该式中的所有项均可以从已知的一组种类的累积词语分布集获得。
已经描述了网络抓取器、文档过滤器、索引器和词语向量,接下来可以描述IAC组件的信息汇聚器子组件(图14中的1406)。图21说明IAC组件的信息汇聚器子组件的操作。信息汇聚器子组件包括网络抓取器2102,该网络抓取器2102被引导来从一组种子URL抓取因特网。所述种子URL又可以通过基于种类的随机选择方法从各种商业网络目录获得。网络抓取器2102返回大量网页2104(一般被编码为HTML文件),所述网页2104随后如上面参照图16A-B讨论的那样被过滤器组件2106过滤。过滤器子组件2106产生标准化文本文档集2108,所述标准化文本文档集2108被输入到索引器和词语向量生成器2110,以产生每个标准化文本文档的词语向量2112,并且在本发明的某些实施例中产生倒排关键词索引。词语向量被输入到文档分类器2114以确定每个标准化文本文档的种类,所述种类随后与文本文档相关联,并且在本发明某些实施例中与相应的倒排关键词索引2116相关联。标准化文本文档随后被输入到打包器2118,所述打包器2118将标准化文本文档和相关联的倒排关键词索引分成针对多个种类2120-2121中每个种类的带日期戳或日期/时间戳的标准化文本文档集。该带日期戳或日期/时间戳的标准化文本文档集随后被储存在归类信息储存组件(图4中的442)中,以供语言模型构建器和本体构建器使用。可以针对IAC组件产生的相关联的每个标准化文本文档包来计算词汇表。可替换地,可以针对每个种类单独地准备和储存词汇表。
图22说明IAC组件的文档分类器构造器子组件的操作。如通过比较图22和图21可以看到的,文档分类器构造器子组件(图14中的1404)与上面描述的IAC组件的信息汇聚器子组件(图14的1406)共享很多模块和公共流程。然而,文档分类器构造器子组件不是收集供语言模型构建器和本体构建器使用的信息,而是收集相对少量的特定文档以便于训练文档分类器组件从所述文档中包含的信息识别文档的各种种类。和信息汇聚器子组件的情况不同,网络抓取器2202被引导为从因特网和其他信息源获得属于特定种类的特定类型文档。这可以通过使用网页归类器(例如基于人工编制的dmoz网页归类的网页归类器)过滤抓取器所收集的文档以及通过种子URL和定向导航将抓取器引导到该特定种类的文档来实现。此外,每个网页或文档的种类在文档准备初始步骤期间与文档相关联。随后以与信息汇聚器子组件进行的处理(包括应用过滤2204以及应用索引器和词语向量生成器2206)同等的方式处理所述文档。然而,因为所述文档已经被归类,所以可以使用累积分布生成器2208来为每个种类的文档计算累积词语分布,例如图19中所示累积词语分布。随后将累积词语分布、标准化文档以及与标准化文档相关联的词语向量供应到文档分类器构建器2210,该文档分类器构建器2210使用这些信息来训练文档分类器子组件2212识别每个种类的文档。在本发明一个实施例中,该文档分类器组件是朴素贝叶斯分类器,其如上讨论的那样计算各种概率,以便于从给定词语向量计算生成所述词语向量的文档所属的最可能的种类。
图23提供CSS系统的本体构建器组件的控制流程图。在步骤2303,本体构建器组件接收日期或日期/时间或者日期或日期/时间的范围,以及种类ID,它们指明待建立本体的日期或日期/时间范围以及种类。接下来,在步骤2304,本体构建器组件从归类信息储存组件(图4中的442)针对所指明的日期、日期范围、日期/时间或日期/时间范围以及针对所指明的种类来请求在本发明某些实施例中与倒排关键词索引相关联的标准化文档集。随后,在步骤2306,在本发明采用倒排关键词索引的实施例中,本体构建器组件合并文档的倒排关键词索引,并且在还未生成词汇表的情况下在步骤2308可选地针对文档生成词汇表。接下来,在步骤2310-2316的外层“条件循环(for-loop)”中,本体构建器组件考虑词汇表中的每个词i。对于每个词i,本体构建器组件在步骤2311-2313的内层条件循环中从该词汇表计算当前考虑的词i与词汇表中每个其他词j的同现频率,其中i不等于j。这对应于上面讨论的本体m×m矩阵表示中的行。在本发明一个实施例中,对每个有序词语对(i,j)计算三个同现频率:(1)句子中的同现频率;(2)段落中的同现频率;以及(3)句子中的同现频率。随后,对当前考虑的词语i归一化同现频率,并且如果在本发明某些实施例中词语i的总出现次数还未被包括在合并的倒排关键词索引中,则计算并储存词语i的总出现次数。在步骤2318,取决于词语i相对于词汇表中所有词语总出现次数的相对总出现次数,为词汇表中的每个词指派权重。词语i的权重与词语i的相对出现频率成反比,从而常出现的词语具有比较不常出现的词语低的权重。在本发明一个实施例中,词语i的权重被计算为与成比例。随后,在步骤2320,通过将步骤2318中计算的权重因子应用到每个词的每个同现度量来为本体所有行计算同现度量。最后,在步骤2322,本体构建器组件将本体储存在CSS系统的本体储存组件(图4中的422)中。
尽管已经关于特定实施例描述了本发明,但是本发明并不打算被限于这些实施例。在本发明精神内的修改对于本领域技术人员将是显而易见的。例如,可以以任何多种不同的编程语言实现CSS系统的IAC组件以在运行于很多不同类型CSS系统内不同硬件平台上的任何多种不同操作系统上执行。IAC组件的实现可以根据熟悉的编程参数和特性的改变而不同,所述参数和特性包括控制结构、数据结构、模块组织和其他熟悉的参数和特性。在替换性实施例中,同现度量和其他数值可以具有不同的范围和表示。IAC组件可以周期性或持续地运行来准备标准化文本文档包,以周期性或持续产生语言模型和本体。在本发明替换性实施例中,可以通过非监督式文档分类来发现种类。
出于解释的目的,前面的描述使用了特定术语来提供对本发明的全面理解。然而,将对本领域技术人员显而易见的是,实践本发明并不需要这些特定的细节。出于说明和描述的目的,给出了对本发明特定实施例的以上描述。它们不打算是穷尽的,也不打算将本发明限制到所公开的精确形式。根据以上教导,很多修改和变型是可能的。示出和描述所述实施例是为了最佳地解释本发明的原理及其实践应用,由此使得本领域技术人员能够以适于所设想的具体使用的各种修改来最佳地利用本发明和各种实施例。本发明的范围打算通过所附权利要求及其等同物来限定。
Claims (18)
1.一种内容检索服务系统的信息汇聚和分类组件,所述信息汇聚和分类组件包括:
文档分类器;
文档分类器构造器子组件,所述文档分类器构造器子组件使用经归类和处理的文档集来构造所述文档分类器;以及
信息汇聚器子组件,所述信息汇聚器子组件
从电子信息源获得未归类文档,
过滤所述未归类文档以产生一组标准化文本文档,
向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量;
输入针对所述一组标准化文本文档中每个标准化文本文档计算的所述词语向量,以向所述标准化文本文档指派种类;以及
将每个不同种类的标准化文本文档汇聚在一起以产生每个种类的标准化文本文档包。
2.如权利要求1所述的信息汇聚和分类组件,其中所述文档分类器是朴素贝叶斯文档分类器。
3.如权利要求1所述的信息汇聚和分类组件,其中所述文档分类器构造器子组件:
从电子信息源获得文档,每个所述文档被指派了种类,
过滤所述文档以产生一组标准化文本文档,
向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量;
为每个种类的文档计算累积词语分布;以及
将每个标准化文本文档,与针对所述标准化文本文档计算的词语向量和被指派给所述文本文档的种类,以及每个种类的文档的所述累积词语分布一起输入到所述文档分类器,以训练所述文档分类器识别要指派给输入的标准化文本文档/词语向量对的种类。
4.如权利要求1所述的信息汇聚和分类组件,其中所述信息汇聚器子组件使用网络抓取器来从电子信息源获得未归类文档。
5.如权利要求1所述的信息汇聚和分类组件,其中,对于每个文档,所述信息汇聚器子组件通过以下操作来过滤所述未归类文档以产生一组标准化文本文档:
从所述文档移除非文本项和符号以产生文本文档;
解析所述文本以将所述文本文档的所述文本组织为段落和段落中的句子,从而产生段句分界的文本文档;
向所述段句分界的文本文档应用语言解析例程,以从所述文本移除非名词词语,从而产生仅有名词和名词性短语的文本文档;以及
应用语言例程来标准化所述仅有名词和名词性短语的文本文档中的词语,并从经标准化的词语中过滤无用词语以产生标准化文本文档。
6.如权利要求1所述的信息汇聚和分类组件,其中每个词语向量包含每个词语在标准化文本文档中的出现计数。
7.如权利要求1所述的信息汇聚和分类组件,其中每个标准化文本文档包是带日期戳或日期/时间戳的,以指示所述标准化文本文档包被准备的日期或日期和时间。
8.一种内容检索服务系统的本体构建器组件,所述本体构建器组件:
接收日期或日期/时间以及对种类的指示;
从归类文本文档储存组件请求标准化文本文档的包,所述标准化文本文档的包具有的日期或日期/时间戳的值接近所接收的日期或日期时间,并且与所接收的种类相关联;
为所述种类的文本文档的词汇表内每个有向词语对计算多个同现值;
归一化所述有向词语对中每个第一词语的同现值;
计算每个词语的权重;
将所计算的每个词语的权重应用到有向词语对的经归一化的同现值,在所述有向词语对中,所述词语作为所述有向词语对中的第一词语出现;以及
将一组应用有权重、标准化的同现值作为本体储存在本体储存组件中。
9.如权利要求8所述的本体构建器组件,其中同现值是为每个有向词语对、针对所述词语一起出现在所述标准化文本文档的句子中、在所述标准化文本文档的段落中以及在整个标准化文本文档中的频率而计算的。
10.如权利要求8所述的本体构建器组件,其中词语的所述权重与所述词语在所述标准化文本文档中的总出现成反比。
11.如权利要求8所述的本体构建器组件,其中归一化所述有向词语对中每个第一词语的同现值还包括:计算每个有向词语对相对于所述有向词语对的总同现次数的比例性同现。
12.一种准备标准化文本文档包的方法,所述方法包括:
使用经归类和处理的文档集来构造文档分类器;
从电子信息源获得未归类文档,
过滤所述未归类文档以产生一组标准化文本文档,
向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量;
输入针对所述一组标准化文本文档中每个标准化文本文档计算的所述词语向量,以向所述标准化文本文档指派种类;以及
将每个不同种类的标准化文本文档汇聚在一起以产生每个种类的标准化文本文档包。
13.如权利要求12所述的方法,其中所述文档分类器是朴素贝叶斯文档分类器。
14.如权利要求12所述的方法,其中构造所述文档分类器还包括:
从电子信息源获得文档,每个所述文档被指派了种类,
过滤所述文档以产生一组标准化文本文档,
向所述标准化文本文档应用索引器以生成每个标准化文本文档的词语向量;
为每个种类的文档计算累积词语分布;以及
将每个标准化文本文档,与针对所述标准化文本文档计算的词语向量和指派给所述文本文档的种类,以及每个种类的文档的所述累积词语分布一起输入到所述文档分类器,以训练所述文档分类器识别要指派给输入的标准化文本文档/词语向量对的种类。
15.如权利要求12所述的方法,其中从电子信息源获得未归类文档还包括:使用网络抓取器。
16.如权利要求12所述的方法,其中过滤所述未归类文档以产生一组标准化文本文档还包括对于每个文档:
从所述文档移除非文本项和符号以产生文本文档;
解析所述文本以将所述文本文档的所述文本组织为段落和段落中的句子,从而产生段句分界的文本文档;
向所述段句分界的文本文档应用语言解析例程,以从所述文本移除非名词词语,从而产生仅有名词和名词性短语的文本文档;以及
应用语言例程来标准化所述仅有名词和名词性短语的文本文档中的词语,并从经标准化的词语中过滤无用词语以产生标准化文本文档。
17.如权利要求12所述的方法,其中每个词语向量包含每个词语在标准化文本文档中的出现计数。
18.如权利要求21所述的方法,其中每个标准化文本文档包是带日期戳或日期/时间戳的,以指示所述标准化文本文档包被准备的日期或日期和时间。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/077,591 | 2008-03-19 | ||
US12/077,591 US7917492B2 (en) | 2007-09-21 | 2008-03-19 | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
PCT/US2009/001772 WO2009117149A2 (en) | 2008-03-19 | 2009-03-19 | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102119383A true CN102119383A (zh) | 2011-07-06 |
Family
ID=41091455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801182184A Pending CN102119383A (zh) | 2008-03-19 | 2009-03-19 | 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7917492B2 (zh) |
EP (1) | EP2255299A4 (zh) |
CN (1) | CN102119383A (zh) |
BR (1) | BRPI0908955A2 (zh) |
WO (1) | WO2009117149A2 (zh) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490092B2 (en) | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
WO2003026275A2 (en) | 2001-09-19 | 2003-03-27 | Meta Tv, Inc. | Interactive user interface for television applications |
US8042132B2 (en) | 2002-03-15 | 2011-10-18 | Tvworks, Llc | System and method for construction, delivery and display of iTV content |
US7703116B1 (en) | 2003-07-11 | 2010-04-20 | Tvworks, Llc | System and method for construction, delivery and display of iTV applications that blend programming information of on-demand and broadcast service offerings |
US8220018B2 (en) | 2002-09-19 | 2012-07-10 | Tvworks, Llc | System and method for preferred placement programming of iTV content |
US8578411B1 (en) | 2003-03-14 | 2013-11-05 | Tvworks, Llc | System and method for controlling iTV application behaviors through the use of application profile filters |
US11381875B2 (en) | 2003-03-14 | 2022-07-05 | Comcast Cable Communications Management, Llc | Causing display of user-selectable content types |
US8819734B2 (en) | 2003-09-16 | 2014-08-26 | Tvworks, Llc | Contextual navigational control for digital television |
US7818667B2 (en) | 2005-05-03 | 2010-10-19 | Tv Works Llc | Verification of semantic constraints in multimedia data and in its announcement, signaling and interchange |
TW200812819A (en) * | 2006-09-15 | 2008-03-16 | Inventec Appliances Corp | Method of converting word codes |
US9015172B2 (en) | 2006-09-22 | 2015-04-21 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search service system |
US8396878B2 (en) | 2006-09-22 | 2013-03-12 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files |
US8966389B2 (en) * | 2006-09-22 | 2015-02-24 | Limelight Networks, Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
US8204891B2 (en) * | 2007-09-21 | 2012-06-19 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search-service system |
US20130060784A1 (en) * | 2007-09-21 | 2013-03-07 | Limelight Networks, Inc. | Methods and systems for providing word searching inside of video files |
US8214374B1 (en) * | 2011-09-26 | 2012-07-03 | Limelight Networks, Inc. | Methods and systems for abridging video files |
US8612445B2 (en) * | 2009-05-13 | 2013-12-17 | Hamid Hatami-Hanza | System and method for a unified semantic ranking of compositions of ontological subjects and the applications thereof |
US20090259995A1 (en) * | 2008-04-15 | 2009-10-15 | Inmon William H | Apparatus and Method for Standardizing Textual Elements of an Unstructured Text |
US8768923B2 (en) * | 2008-07-29 | 2014-07-01 | Sap Ag | Ontology-based generation and integration of information sources in development platforms |
CN101739400B (zh) * | 2008-11-11 | 2014-08-13 | 日电(中国)有限公司 | 生成索引的方法和装置以及检索方法和装置 |
US11832024B2 (en) | 2008-11-20 | 2023-11-28 | Comcast Cable Communications, Llc | Method and apparatus for delivering video and video-related content at sub-asset level |
US9442933B2 (en) * | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
US8713016B2 (en) * | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
US11531668B2 (en) | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
US8880498B2 (en) * | 2008-12-31 | 2014-11-04 | Fornova Ltd. | System and method for aggregating and ranking data from a plurality of web sites |
US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
US8688711B1 (en) * | 2009-03-31 | 2014-04-01 | Emc Corporation | Customizable relevancy criteria |
WO2010129714A2 (en) * | 2009-05-05 | 2010-11-11 | NoteVault, Inc. | System and method for multilingual transcription service with automated notification services |
US8234259B2 (en) * | 2009-05-08 | 2012-07-31 | Raytheon Company | Method and system for adjudicating text against a defined policy |
US8533223B2 (en) | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US9892730B2 (en) | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
WO2012030838A1 (en) * | 2010-08-30 | 2012-03-08 | Honda Motor Co., Ltd. | Belief tracking and action selection in spoken dialog systems |
US9081760B2 (en) * | 2011-03-08 | 2015-07-14 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
US9129010B2 (en) * | 2011-05-16 | 2015-09-08 | Argo Data Resource Corporation | System and method of partitioned lexicographic search |
EP2836920A4 (en) | 2012-04-09 | 2015-12-02 | Vivek Ventures Llc | PROCESSING CLASSIFIED INFORMATION AND SEARCH USING A BRIDGE BETWEEN STRUCTURED AND UNSTRUCTURED DATABASES |
US9127950B2 (en) | 2012-05-03 | 2015-09-08 | Honda Motor Co., Ltd. | Landmark-based location belief tracking for voice-controlled navigation system |
US9208509B1 (en) | 2012-07-13 | 2015-12-08 | Amdocs Software Systems Limited | System, method, and computer program for personalizing content for a user based on a size of a working vocabulary of the user |
US9330193B1 (en) * | 2012-08-27 | 2016-05-03 | Emc Corporation | Method and system for displaying components identified by GUID |
CN104718546B (zh) * | 2012-09-26 | 2017-12-05 | 株式会社东芝 | 文档分析装置以及记录介质 |
US8521719B1 (en) | 2012-10-10 | 2013-08-27 | Limelight Networks, Inc. | Searchable and size-constrained local log repositories for tracking visitors' access to web content |
US9264505B2 (en) * | 2013-01-31 | 2016-02-16 | Hewlett Packard Enterprise Development Lp | Building a semantics graph for an enterprise communication network |
US10880609B2 (en) | 2013-03-14 | 2020-12-29 | Comcast Cable Communications, Llc | Content event messaging |
US9817911B2 (en) * | 2013-05-10 | 2017-11-14 | Excalibur Ip, Llc | Method and system for displaying content relating to a subject matter of a displayed media program |
CN104699692B (zh) * | 2013-12-04 | 2018-06-15 | 华为技术有限公司 | 一种处理数据的方法和装置 |
US10372874B2 (en) | 2014-08-18 | 2019-08-06 | General Electric Company | Macro-enabled display elements |
US9632991B2 (en) | 2014-09-15 | 2017-04-25 | Oracle International Corporation | High performant and high fidelity previews for CSS preprocessing frameworks |
US11783382B2 (en) | 2014-10-22 | 2023-10-10 | Comcast Cable Communications, Llc | Systems and methods for curating content metadata |
CN105159936A (zh) * | 2015-08-06 | 2015-12-16 | 广州供电局有限公司 | 文件分类装置及方法 |
CN105279392B (zh) * | 2015-09-28 | 2018-07-24 | 深圳华大基因科技服务有限公司 | 一种基于云平台的大数据分析装置 |
CN105389482B (zh) * | 2015-09-28 | 2018-09-14 | 深圳华大基因科技服务有限公司 | 一种基于云平台的大数据分析方法 |
US10318581B2 (en) * | 2016-04-13 | 2019-06-11 | Google Llc | Video metadata association recommendation |
CN107748754B (zh) * | 2017-09-15 | 2021-10-26 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
US11017221B2 (en) | 2018-07-01 | 2021-05-25 | International Business Machines Corporation | Classifying digital documents in multi-document transactions based on embedded dates |
US11003889B2 (en) | 2018-10-22 | 2021-05-11 | International Business Machines Corporation | Classifying digital documents in multi-document transactions based on signatory role analysis |
CN109933648B (zh) * | 2019-02-28 | 2022-07-05 | 北京学之途网络科技有限公司 | 一种真实用户评论的区分方法和区分装置 |
CN114270435A (zh) * | 2019-06-17 | 2022-04-01 | 得麦股份有限公司 | 基于知识追踪的智能对话的系统和方法 |
US11989628B2 (en) | 2021-03-05 | 2024-05-21 | International Business Machines Corporation | Machine teaching complex concepts assisted by computer vision and knowledge reasoning |
US11636119B2 (en) * | 2021-05-20 | 2023-04-25 | Innoplexus Ag | System and method for efficient management of a search database for retrieving context-based information |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452098A (zh) * | 2002-04-19 | 2003-10-29 | 株式会社日立制作所 | 文档分类系统及其实现程序 |
US20060149720A1 (en) * | 2004-12-30 | 2006-07-06 | Dehlinger Peter J | System and method for retrieving information from citation-rich documents |
US20060259475A1 (en) * | 2005-05-10 | 2006-11-16 | Dehlinger Peter J | Database system and method for retrieving records from a record library |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1025517A1 (en) * | 1997-10-27 | 2000-08-09 | Massachusetts Institute Of Technology | Image search and retrieval system |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6286006B1 (en) * | 1999-05-07 | 2001-09-04 | Alta Vista Company | Method and apparatus for finding mirrored hosts by analyzing urls |
US6665640B1 (en) * | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
US20020103920A1 (en) * | 2000-11-21 | 2002-08-01 | Berkun Ken Alan | Interpretive stream metadata extraction |
US6901398B1 (en) * | 2001-02-12 | 2005-05-31 | Microsoft Corporation | System and method for constructing and personalizing a universal information classifier |
US7024400B2 (en) * | 2001-05-08 | 2006-04-04 | Sunflare Co., Ltd. | Differential LSI space-based probabilistic document classifier |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
KR100451004B1 (ko) | 2001-08-13 | 2004-10-06 | 한국전자통신연구원 | 폐쇄자막 기반의 뉴스 비디오 데이터베이스 생성 장치 및방법과 그에 따른 내용기반 검색/탐색 방법 |
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
US7673234B2 (en) * | 2002-03-11 | 2010-03-02 | The Boeing Company | Knowledge management using text classification |
US7096208B2 (en) * | 2002-06-10 | 2006-08-22 | Microsoft Corporation | Large margin perceptrons for document categorization |
US7519607B2 (en) * | 2002-08-14 | 2009-04-14 | Anderson Iv Robert | Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates |
AU2003282943A1 (en) * | 2002-10-11 | 2004-05-04 | Digimarc Corporation | Systems and methods for recognition of individuals using multiple biometric searches |
US7743061B2 (en) * | 2002-11-12 | 2010-06-22 | Proximate Technologies, Llc | Document search method with interactively employed distance graphics display |
US7421418B2 (en) * | 2003-02-19 | 2008-09-02 | Nahava Inc. | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
GB0320205D0 (en) * | 2003-08-28 | 2003-10-01 | British Telecomm | Method and apparatus for storing and retrieving data |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US7519565B2 (en) * | 2003-11-03 | 2009-04-14 | Cloudmark, Inc. | Methods and apparatuses for classifying electronic documents |
US7376642B2 (en) * | 2004-03-30 | 2008-05-20 | Microsoft Corporation | Integrated full text search system and method |
US7257577B2 (en) * | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7383260B2 (en) * | 2004-08-03 | 2008-06-03 | International Business Machines Corporation | Method and apparatus for ontology-based classification of media content |
US7685118B2 (en) * | 2004-08-12 | 2010-03-23 | Iwint International Holdings Inc. | Method using ontology and user query processing to solve inventor problems and user problems |
US7272597B2 (en) * | 2004-12-29 | 2007-09-18 | Aol Llc | Domain expert search |
US20060288015A1 (en) * | 2005-06-15 | 2006-12-21 | Schirripa Steven R | Electronic content classification |
WO2007050646A2 (en) * | 2005-10-24 | 2007-05-03 | Capsilon Fsg, Inc. | A business method using the automated processing of paper and unstructured electronic documents |
US7813919B2 (en) * | 2005-12-20 | 2010-10-12 | Xerox Corporation | Class description generation for clustering and categorization |
KR100756921B1 (ko) * | 2006-02-28 | 2007-09-07 | 한국과학기술원 | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. |
US20080126319A1 (en) * | 2006-08-25 | 2008-05-29 | Ohad Lisral Bukai | Automated short free-text scoring method and system |
US8966389B2 (en) * | 2006-09-22 | 2015-02-24 | Limelight Networks, Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
US8204891B2 (en) * | 2007-09-21 | 2012-06-19 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search-service system |
US8538184B2 (en) * | 2007-11-06 | 2013-09-17 | Gruntworx, Llc | Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category |
-
2008
- 2008-03-19 US US12/077,591 patent/US7917492B2/en active Active
-
2009
- 2009-03-19 CN CN2009801182184A patent/CN102119383A/zh active Pending
- 2009-03-19 WO PCT/US2009/001772 patent/WO2009117149A2/en active Application Filing
- 2009-03-19 EP EP09721408.4A patent/EP2255299A4/en not_active Withdrawn
- 2009-03-19 BR BRPI0908955-1A patent/BRPI0908955A2/pt not_active IP Right Cessation
-
2011
- 2011-03-15 US US13/048,268 patent/US20110282879A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452098A (zh) * | 2002-04-19 | 2003-10-29 | 株式会社日立制作所 | 文档分类系统及其实现程序 |
US20060149720A1 (en) * | 2004-12-30 | 2006-07-06 | Dehlinger Peter J | System and method for retrieving information from citation-rich documents |
US20060259475A1 (en) * | 2005-05-10 | 2006-11-16 | Dehlinger Peter J | Database system and method for retrieving records from a record library |
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2255299A2 (en) | 2010-12-01 |
WO2009117149A3 (en) | 2010-01-07 |
EP2255299A4 (en) | 2013-06-05 |
US7917492B2 (en) | 2011-03-29 |
US20110282879A1 (en) | 2011-11-17 |
WO2009117149A2 (en) | 2009-09-24 |
US20090083257A1 (en) | 2009-03-26 |
BRPI0908955A2 (pt) | 2015-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102119383A (zh) | 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 | |
CN102119385B (zh) | 用于在内容检索服务系统内检索媒体内容的方法和子系统 | |
US9165085B2 (en) | System and method for publishing aggregated content on mobile devices | |
US8843490B2 (en) | Method and system for automatically extracting data from web sites | |
US8799772B2 (en) | System and method for gathering, indexing, and supplying publicly available data charts | |
US20030115188A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application | |
US20030115189A1 (en) | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents | |
US7516397B2 (en) | Methods, apparatus and computer programs for characterizing web resources | |
CN112632397B (zh) | 基于多类型学术成果画像及混合推荐策略的个性化推荐方法 | |
US20090319449A1 (en) | Providing context for web articles | |
US20150134636A1 (en) | System and method for aggregating and ranking data from a plurality of web sites | |
CN114595344B (zh) | 面向农作物品种管理的知识图谱构建方法及装置 | |
US20100185934A1 (en) | Adding new attributes to a structured presentation | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
US20160188590A1 (en) | Systems and methods for news event organization | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN101408885A (zh) | 利用统计分布对主题进行建模 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
Abbasi et al. | Organizing resources on tagging systems using t-org | |
KR101120040B1 (ko) | 연관 질의어 추천 장치 및 방법 | |
WO2007011714A2 (en) | Method and system for automatically extracting data from web sites | |
CN115658993A (zh) | 一种网页的核心内容的智能化抽取方法及系统 | |
EP2411930A2 (en) | A system for automatic semantic-based mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110706 |