CN1916893B - 模糊匹配的节目选择装置及方法 - Google Patents

模糊匹配的节目选择装置及方法 Download PDF

Info

Publication number
CN1916893B
CN1916893B CN200510093224A CN200510093224A CN1916893B CN 1916893 B CN1916893 B CN 1916893B CN 200510093224 A CN200510093224 A CN 200510093224A CN 200510093224 A CN200510093224 A CN 200510093224A CN 1916893 B CN1916893 B CN 1916893B
Authority
CN
China
Prior art keywords
speech
program
corpus
individual
media library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200510093224A
Other languages
English (en)
Other versions
CN1916893A (zh
Inventor
伊藤荣朗
桑原祯司
黑田昌芳
虞立群
陈奕秋
陈林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Hitachi Ltd
Original Assignee
Shanghai Jiaotong University
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Hitachi Ltd filed Critical Shanghai Jiaotong University
Priority to CN200510093224A priority Critical patent/CN1916893B/zh
Publication of CN1916893A publication Critical patent/CN1916893A/zh
Application granted granted Critical
Publication of CN1916893B publication Critical patent/CN1916893B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种节目选择装置,包括个人语料单元,它有个人语料库制作单元和个人语料库保存单元;媒体单元,包括保存媒体库保存单元;公共语料单元,包括保存公共语料库的公共语料库保存单元;人机交互单元,用于用户输入和取得信息;和节目选择单元,与个人语料单元、媒体单元、公共语料单元和人机交互单元相连,根据从个人语料单元和/或人机交互单元输入的信息,并根据媒体单元和公共语料单元输入的信息,从媒体库抽取与个人语料库中的信息和/或人机交互单元输入的信息相关的信息,据此从媒体库中选出相关的节目,推荐给用户。本发明还提供一种节目选择方法。本发明能快速、有效地为用户提供其喜好的节目选择,向用户推荐喜欢的节目。

Description

模糊匹配的节目选择装置及方法
技术领域
本发明涉及一种节目选择装置及方法,和更具体地说,本发明涉及一种模糊匹配的节目选择装置及方法。
背景技术
现今,网络技术、无线技术和有线技术的发展使得能为人们提供数量繁多、各种各样的节目。例如,随着卫星电视和有线电视的普及,电视节目可以通过卫星或有线电视渠道获得,相关技术发展使电视频道日益增加,电视节目的数量在不断攀升,这为人们提供了多彩生活,但同时也带来了一些问题,例如,如何从众多的节目,如电视节目中选出与个人喜欢相关的节目,如何为用户推荐适合其个人喜好的节目。因为,对于个人而言,其时间是有限的,爱好又各有不同,用户多是在自己有限时间内选择那些个人喜好的节目,现在选择电视节目时一般是通过遥控器手工选择频道,具有一定的盲目性,也不能推荐节目,现有技术中虽然有一些向用户推荐节目的技术,但存在处理的信息量较大、速度较慢,不能有效地提供用户喜好节目的缺点,等。
因此,需要一种节目选择装置,它能克服现有技术中存在的缺点,能够快速、有效地为用户提供其喜好的节目选择,能够向用户推荐与其喜好相关的节目。
发明内容
本发明的一个目的是提供一种节目选择装置,它能克服现有技术中存在的上述缺点,能够快速、有效地为用户提供其喜好的节目选择,能向用户推荐与其喜好相关的节目。
本发明的一个目的是提供一种节目选择方法,它能克服现有技术中存在的缺点,能够快速、有效地为用户提供其喜好的节目选择,能向用户推荐与其喜好相关的节目。
本发明提供一种节目选择装置,所述装置包括:个人语料单元,包括个人语料库制作单元,用于根据用户所选节目内容制作用户的个人语料库,和个人语料库保存单元,用于保存所述个人语料库;媒体单元,包括媒体库保存单元,用于保存媒体库,所述媒体库包括媒体信息和内容;公共语料单元,包括公共语料库保存单元,用于保存公共语料库;人机交互单元,用于用户输入和取得信息;节目选择单元,所述节目选择单元与所述个人语料单元、媒体单元、公共语料单元和人机交互单元相连,根据从所述个人语料单元和/或人机交互单元输入的信息,根据媒体单元和公共语料单元输入的信息,从所述媒体库抽取与所述个人语料库中的信息和/或人机交互单元输入的信息相关的信息,根据从所述媒体库抽取的所述信息,从所述媒体库中选出与所述个人语料库和/或人机交互单元输入信息相关的节目。
在本发明的节目选择装置,所述人机交互单元包括用户关键字输入单元,用户在用户关键字输入单元输入关键字,所述节目选择单元根据输入的关键字,从所述媒体库中抽取与所述关键字相关的信息,并据此从所述媒体库中选出相关的节目,推荐给用户。
在本发明的节目选择装置,所述用户关键字输入单元与个人语料库保存单元相连,用户能输入关键字对所述个人语料库中的信息进行更新,添加,和/或删减.
在本发明的节目选择装置,所述人机交互单元包括匹配参数设定单元,与所述节目选择单元相连,向所述节目选择单元提供匹配参数,所述节目选择单元根据所述匹配参数从所述媒体库抽取相关信息,进而选出相关节目推荐给用户。所述匹配参数包括匹配用词的数目、和/或模糊匹配率,所述节目选择单元根据匹配用词的数目、和/或模糊匹配率调节所推荐节目的精度。
在本发明的节目选择装置,所述媒体单元还包括媒体库制作单元,用于根据节目信息和内容制作媒体库。所述公共语料单元还包括公共语料库制作单元,用于制作公共语料库,其中,所述公共语料库包含定量计算的词与词的相似度。
在本发明的节目选择装置,所述个人语料库制作单元对用户所选节目的节目内容进行切分,得到词序列,计算词的词频和词的倒文档频率,并且根据所述词频和倒文档频率计算词的特征权重,取特征权重较大的词放入所述个人语料库。
在本发明的节目选择装置,节目选择单元,基于tf-idf方法计算在所述媒体库中根据节目内容提取的词相对于所述媒体库中的节目的权重,计算在个人语料库条件下在所述媒体库中根据节目内容提取的所述词出现的概率,并以二者为基础计算在个人语料库条件下所述媒体库中的节目出现的概率,从而据此从所述媒体库的节目中选出用户喜好的节目。
本发明提供一种节目选择的方法,所述方法包括步骤:制作个人语料库,根据用户所选节目的节目内容制作用户的个人语料库;保存个人语料库,用来保存所述个人语料库;制作或访问媒体,所述媒体库包含媒体信息和内容;保存媒体库;制作或访问公共语料库;保存公共语料库;节目选择,根据来自所述个人语料库、媒体库和公共语料库的输入信息,从所述媒体库中抽取与所述个人语料库中的信息相关的信息,根据从所述媒体库抽取的所述信息从所述媒体库中选出用户喜好的节目。
本发明的节目选择方法,进一步包括由用户输入信息的步骤,在所述节目选择步骤,根据来自所述个人语料库的信息和/或用户输入的信息,根据媒体库和公共语料库的输入信息,从所述媒体库中抽取与所述个人语料库中的信息和/或用户输入信息相关的信息,据此从所述媒体库中选出用户喜好的节目,推荐给用户。
本发明的节目选择方法,所述用户输入信息的步骤包括用户输入关键字的步骤,在所述节目选择步骤,根据输入的关键字,从所述媒体库中抽取与所述关键字相关的信息,并据此从所述媒体库中选出相关的节目,推荐给用户。
本发明的节目选择方法,所述用户输入关键字的步骤包括根据用户输入的关键字对所述个人语料库中的信息进行更新,添加,和/或删减的步骤。
本发明的节目选择方法,所述用户输入信息的步骤包括输入匹配参数的步骤,在所述节目选择的步骤,根据所述匹配参数从所述媒体库抽取相关信息,进而选出相关节目推荐给用户。在输入匹配参数的步骤,输入的所述匹配参数包括匹配用词的数目、和/或模糊匹配率,和在所述节目选择步骤根据匹配用词的数目、和/或模糊匹配率调节所推荐节目的精度。
在本发明的节目选择方法,所述方法还包括制作媒体库的步骤,在保存所述媒体库的步骤之前,根据节目信息和内容制作所述媒体库.在所述保存公共语料库步骤之前还包括制作公共语料库的步骤,其中该步骤包括定量计算词与词相似度的步骤,所述公共语料库包含词与词的相似度.
在本发明的节目选择方法,所述制作个人语料库的步骤进一步包括对用户所选节目内容进行切分,得到词序列,计算所述词的词频和所述词的倒文档频率,根据所述词频和倒文档频率计算所述词的特征权重,取特征权重较大的词放入所述个人语料库的步骤。
在本发明的节目选择方法,所述节目选择步骤进一步包括,基于tf-idf方法计算在所述媒体库中根据节目内容提取的词相对于所述媒体库中节目的权重,计算在个人语料库条件下在所述媒体库中根据节目内容提取的所述词出现的概率,进而在此基础上计算在个人语料库条件下所述媒体库中的节目出现的概率,从而据此从所述媒体库的节目中选出用户喜好的节目的步骤。
与现有技术相比,本发明的节目选择装置及方法,能克服现有技术中存在的缺点,快速、有效地为用户提供其喜好的节目选择,能向用户推荐与其喜好相关的节目。尤其是本发明的节目选择装置和方法,包含了匹配用参数的设定,其效果表现为:当用户设定数目比较少的关键字,同时设定的模糊匹配率低的情况下,节目选择单元推荐的电视节目更接近于用户的个人爱好,也即只有和用户个人爱好关系密切的节目才会被推荐出来。当用户设定比较多的关键字,同时设定的模糊匹配率比较高的情况下,节目推荐的效果不如前者好,但节目涵盖的范围将会更大。因此,通过匹配参数的设定,我们可以通过节目选择单元推荐不同匹配精度的电视节目。
附图说明
图1示出本发明的节目选择装置的示意图;
图2示出制作根据本发明一个实施方案的个人语料库构建流程的示意图;
图3示出根据本发明的一个实施方案节目选择单元基于贝叶斯网的拓朴结构选择节目的示意图;
图4示意性地示出本发明节目选择装置的几个实施例;
图5示出根据本发明一个实施例的节目选择装置的示意图;和
图6示出本发明的节目选择方法流程的示意图。
具体实施方式
图1示出根据本发明一个实施方案的节目选择装置的示意图。如图1所示,本发明的节目选择装置100可包括:个人语料单元1,媒体单元2,公共语料单元3和节目选择单元4。其中,个人语料单元1可包括个人语料库制作单元11,用于根据用户所选节目内容制作用户的个人语料库,和个人语料库保存单元12,用于保存个人语料库;媒体单元2可包括保存媒体库的媒体库保存单元22;公共语料单元3可包括保存公共语料库的公共语料库保存单元32。个人语料单元1、媒体单元2和公共语料单元3与节目选择单元4相连,节目选择单元4根据从个人语料单元1、媒体单元2和公共语料单元3的输入,从媒体库抽取与个人语料库中的信息相关的信息,包括与个人语料库的词相关的媒体库的词,并根据从媒体库抽取的信息从媒体库中选出与个人语料库相关的节目。
继续参照图1,本发明的节目选择装置100,还可包括人机交互单元5,用户可通过人机交互单元5输入和取得信息.节目选择单元4与人机交互单元5相连,根据从个人语料单元1和/或人机交互单元5输入的信息,并根据媒体单元2和公共语料单元3输入的信息,从媒体库抽取与个人语料库中的信息和/或人机交互单元5输入的信息相关的信息,进而根据从媒体库抽取的信息,从所述媒体库中选出与所述个人语料库和/或人机交互单元输入信息相关的节目.
继续参照图1,在本发明的一个实施方案,节目选择装置可包括人机交互单元5媒体单元2,公共语料单元3以及节目选择单元4。其中,人机交互单元5可以包括用户关键字输入单元51,与节目选择单元4相连,如图1中“①”所示。用户可在关键字输入单元51中输入用户感兴趣的关键字,这些关键字作为输入信息直接进入节目选择单元,节目选择单元4根据用户输入的关键字从媒体库抽取与输入的关键字相关的信息,包括与输入关键字相关的媒体库中的词,并根据从媒体库抽取的信息从媒体库中选出与输入关键字相关的节目,推荐给用户。
继续参照图1,在本发明另一个实施方案中,节目选择装置包括用户关键字输入单元51,个人语料单元1,媒体单元2,公共语料单元3,以及节目选择单元4。其中,人机交互单元5的用户关键字输入单元51可与个人语料单元1的个人语料库保存单元12相连,如图1中“⑦”所示。用户可从个人语料单元1获取一些信息,如个人语料库中的词,然后通过用户关键字输入单元51可对个人语料库中这些信息或词进行修改、修正,可将用户输入的关键字作为新词添加进个人语料保存单元12保存的个人语料库中,也可删除原来在个人语料保存单元12中的信息或词。在本实施方案中,个人语料单元1、媒体单元2和公共语料单元3与节目选择单元4相连,如图1中“⑤”,“②”,和“③”所示,节目选择单元4根据从个人语料单元1、媒体单元2和公共语料单元3的输入,从媒体库抽取与个人语料库中的信息相关的信息,包括与更新后的个人语料库的词相关的媒体库的词,并根据从媒体库抽取的信息从媒体库中选出与个人语料库相关的节目。
在本实施方案中,用户可以将自己感兴趣的电视节目的特征以关键字的形式输入,取代个人语料单元1,为节目选择单元4直接提供个人爱好信息。节目选择单元4根据用户输入的关键字与媒体单元的输入的节目进行模糊匹配,推荐节目给用户。
还参照图1,在本发明的另一个实施方案中,节目选择装置100的人机交互单元5还可包括匹配参数设定单元52,可与节目选择单元4相连,如图1的“④”所示。匹配参数设定单元52可用来设定节目选择参数,用户通过该单元可以根据需要设定一些匹配参数,如可由用户输入匹配参数,提供给节目选择单元4,节目选择单元4根据输入的匹配参数,选择节目向用户推荐。
在本发明中,匹配参数设定单元52设定的匹配参数可以是匹配用单词数目.在一个实施例中,节目选择单元5根据用户设定的匹配用单词的数目可调节由个人语料单元1进入节目选择单元4的进行节目选择的单词(查询词)的数目,也就是说节目选择单元4从个人语料库选取匹配用单词数目这个参数所定数目的词,来与媒体库中的节目进行匹配,从中选取用户喜爱的节目.而在另一个实施例,在用户直接输入关键字,节目选择单元4根据关键字进行节目匹配的情况下,所设定的匹配用单词的数目可用来调节用户关键字输入单元51输入到节目选择单元4的关键字中有多少个参与节目选择.在本发明中,用户可通过匹配用单词数目设定了最后用于匹配的和个人爱好有关的单词的数目,显然,不同的匹配用单词数目将会影响节目选择的精度.
在本发明的另一实施例,匹配参数设定单元52设定的匹配参数可以是模糊匹配率,用户可通过模糊匹配率设定模糊匹配和精确匹配的权重比例。如节目选择单元可根据用户输入的模糊匹配率,从公共语料库找出一些与个人语料库中的词或输入的关键字相比符合要求的,作为查询词,来从媒体库中选择匹配的节目进行推荐。因此,可见模糊匹配率也可用来调整节目选择单元选择节目或进行节目匹配的精度。在本发明中,模糊匹配率类似于词的相关度。
显然,在本发明中,匹配参数包括一些能调节所推荐节目的精度的参数,如匹配用词的数目、和/或模糊匹配率,等等。节目选择单元可以根据匹配参数从个人语料库、用户输入关键字,甚至从公共语料库中选出作为查询词的词来进行节目匹配,进而推荐给用户。
下面继续结合图1给出两个例子。
例一,用户可直接输入关键字。由用户关键字输入单元51输入用户关键字;用户关键字经由①进入节目选择单元4;由媒体单元2提供媒体节目信息,经由②作为节目单元4的候选节目;由公共语料单元3提供公共Corpus信息,经由③进入节目选择单元4;节目选择单元4根据用户输入单元输入的关键字,从候选节目单(来自于媒体单元2)中选出推荐的节目;节目选择单元4推荐的节目经由⑥,进入个人语料库制作单元11,更新个人语料库保存单元12。
例二,用户输入关键字和个人语料库混和工作。个人语料库制作单元11根据用户看过的电视节目生成个人语料库,并保存在保存单元12;用户在用户输入关键字单元中对个人语料库保存单元12中的信息进行修正(图中⑦);添加新的关键字进入个人语料保存单元12中和删除个人语料保存单元12中的无用的关键字;个人语料保存单元12中关键字、词或信息经由⑤进入节目选择单元4;由媒体单元2提供媒体节目信息,经由②作为节目单元4的候选节目;由公共语料单元3提供公共Corpus信息,经由③进入节目选择单元4;节目选择单元4根据用户输入单元输入的关键字,从候选节目单(源于媒体单元2)中选出推荐的节目;节目选择单元4推荐的节目经由⑥,进入个人语料库制作单元11,更新个人语料库保存单元12。
显然,在这两个例子中都可以通过匹配参数设定单元52设定节目选择单元4中节目选择或节目匹配的参数,以改变节目选择的精度。
在本发明的节目选择装置,媒体单元2还可包括制作媒体库的媒体库制作单元21,在媒体库保存单元22之前,根据媒体信息和内容制作,即构建和更新媒体库;公共语料单元3还可包括构建和更新公共语料库的公共语料库制作单元31,位于公共语料库保存单元32之前。
在本发明的节目选择装置中,个人语料库制作单元11可从个人经常选择的节目,如常看的电视节目中,抽取节目信息和内容来构建个人爱好的个人语料库,换言之,个人语料保存单元12中保存的个人语料库可包含个人经常选择的节目内容.媒体单元2中的媒体库可主要包含节目信息,如节目名称、时间和内容,等等.媒体库可由用户从网上下载,也可由媒体库制作单元21制作.媒体库制作单元21首先对媒体信息的格式进行定义,并对媒体内容文本进行切分,并以和公共Corpus相同的结构组织进媒体库保存单元22.公共语料单元3中的公共语料库可通过训练大量的文本、词汇,包括节目,如电视节目文本来构建的.在公共语料库中,词与词之间可有两种关系:纵向关系和横向关系,并且还可引入词与词之间的定量关系.在本发明的节目选择装置中,个人语料单元1,媒体单元2和公共语料单元3可并列处理,节目选择单元4可包括贝叶斯网络的匹配引擎,主要用于计算个人爱好库,如个人语料库与媒体库中每个电视节目的相关性,并根据计算所得的相关性选出用户喜好的节目并为用户推荐节目.
在本发明的节目选择装置,可包括自然语言处理引擎(未示出),主要用来对反映节目内容的文本进行切分。例如:节目内容为霍根班德(1978.3.14-)荷兰男子游泳运动员,霍根班德在1999年土耳其伊斯坦布尔进行的欧洲游泳锦标赛上取得历史性突破,堪称霍根班德的成名战,在这次比赛中他一人独得50米蝶泳、50米自由泳、10……。切分结果:荷兰男子游泳运动员土耳其伊斯坦布尔欧洲游泳锦标赛历史性突破成名比赛人蝶泳自由泳。在本发明的节目选择装置中,自然语言处理引擎既可实现对中文的切分又可支持对日文的切分,而且,自然语言处理引擎即可设置成一个独立的单元,放置在三个并列的个人语料单元1、媒体单元2和公共语料单元3之前,也可分别设置成被包含在个人语料库制作单元11、媒体库制作单元21和公共语料库制作单元31之中,以便可通过切分的词来分别构建个人语料库、媒体库和公共语料库。另外,在本发明中,由于节目内容中经常出现新词,自然语言处理引擎还可设计包含基于概率模型的自学式“Self-Study”新词切分系统,以有效地支持新词的识别,使个人语料库制作单元11、媒体库制作单元21和公共语料库制作单元31可对构建的个人语料库、媒体库和公共语料库进行更新。
在本发明的节目选择装置,个人语料库制作单元1制作的个人语料(Corpus)库可通过个人经常选择的节目,如常看的电视节目来构建和更新。例如,可通过节目文本,如在网上给出的电视节目名称和一段有关电视节目的描述内容来构建和更新。
图2示出制作个人语料库的示意图。如图2所示,在本发明的节目选择装置,个人语料库制作单元2可先对输入的文本形式节目信息和内容进行自然语言处理(框101),再对节目文本进行特征提取(框102),从用户看过的节目中抽取出最能反映节目内容的关键单词,然后用提取的特征来构建个人语料库。
在本发明的一个实施方案,个人语料库制作单元1提取文本特征可通过tf-idf方法进行,如通过tf-idf方法从用户看过的节目中抽取出最能反映节目内容的关键词,并用其构建用户的个人语料库。
在本发明的一个的实施方案,个人语料库制作单元1通过tf-idf方法进行特征提取可包括:(1)计算切分得到词的词频tfij,在本说明书中,词频指词在文档(文本)中的频率,tfij表示第i个词在第j篇文档中出现的次数;(2)计算词的倒文档频率idfi,对在词集合中的第i个词,idfi被定义为idfi=lg(N/ni)+1,其中N是集合中的文档数,ni是包含第i个词的文档数;(3)计算词的特征权重,特征权重=tfij×idfi。然后,在个人语料库制作单元1,可提取特征权重--tfij×idfi值较大的词作为文本特征,将其放在一起来构建个人语料库,也可以说是将用户看过的描述电视节目内容的文档中那些tfij×idfi值较大的词放在一起,来构建个人语料库。在本实施方案中,个人语料库制作单元1可通过对用户所选节目内容进行切分得到词序列,或称词集合,计算词序列中词的词频和倒文档频率,并根据词的词频和倒文档频率计算词的特征权重,将特征权重较大的词放入个人语料库,从而构建或更新个人语料库。
继续参照图2,在本发明的节目选择装置中,个人语料库制作单元1还可进一步包括:对于所提取的特征判断是否已包含在个人语料库中,框104;如果为“是”,进到框105,词的权数加1,在框106在个人语料库中修改,然后到框111后返回框103;如果结果是“否”,进到框107,判断该词是否包含在公共语料库;“是”包含,进到框109,将词的权数设为1,在框110将其加入个人语料库;如果为“否”,即该词没有包含在公共语料库,进到框108,加入公共语料库,然后进行框109和110的处理,再到框111并返回框103。显然,个人语料库制作单元1也可仅包括框103、104、105、106,和在框103的结果为“否”的情况包括框109和110,再到框111,并返回框103的处理。
在本发明中,节目选择单元可以根据匹配用单词数目从个人语料库中依权数大小序顺选取词,作为节目匹配或节目选择用的查询词。
在本发明的节目选择装置中,媒体库制作单元2可对节目单进行处理,对每一个电视节目的文本进行切分,并由此构建成媒体库。在本发明的一个实施方案中,简单的情况是媒体库制作单元2制作的媒体库可包含许多词的集合,每个词带有词频率和倒文档频率两种信息,并可用上述的tf-idf方法计算出词的特征权重,以此为基础为每个电视节目抽取出一些关键词或提取一些特征来代表电视节目,并用这些关键词或特征来对媒体单元2的媒体库进行构建和更新。另外,媒体库制作单元21构建的媒体库还可包括其它一些节目信息,如节目名称、时间,等等。
在本发明的节目选择装置中,公共语料库制作单元3制作的公共语料库可主要包含构建语料库的纵向关系和横向关系。纵向关系可通过学习现有字典中的义原实体上下位网络和概念的第一特征来构建,并可进行适当的优化以更好的反映现实世界的分类和继承关系。横向关系可通过学习大量的电视节目文本语料来获得,可存储有词语对之间的共现次数和共现平均距离等信息,并可给出词相似度的定量计算。
在本发明的节目选择装置中,节目选择单元4可基于贝叶斯网络的节目匹配算法,根据从个人语料单元、媒体单元和公共语料单元输入的信息,从媒体单元2的媒体库抽取与个人语料单元1的个人语料库中的信息相关的信息,并据此从媒体库中选出与所述个人语料库相关的节目。
在本发明的节目选择装置,节目选择单元4计算在媒体单元2的媒体库中根据节目内容提取的词相对于媒体库中的节目的权重,该计算可基于tf-idf方法进行,节目选择单元4计算在个人语料库条件下在媒体库中根据节目内容提取的词出现的概率,也就是计算媒体库中的词相对于个人语料库中的词出现的概率,然后计算在个人语料库条件下媒体库中的节目出现的概率,即,计算媒体库中的节目相对于给定的个人语料库中的词出现的概率,从而从媒体单元2中的媒体库的节目中选出用户喜好的节目,推荐给用户。
图3示出根据本发明的一个实施方案节目选择单元基于贝叶斯网的拓朴结构选择节目的示意图。如图3所示,节目选择单元4基于贝叶斯网络模型,通过个人语料库中的q1,q2,q3和媒体库中的节目P1,P2,P3对媒体库的T1,T2,…,TM的映射,对个人语料库的查询词与媒体库中节目的进行模糊匹配,选出与查询词q1,q2,q3相关的节目P。其中,q1,q2,q3表示个人语料库中的词,或查询词,T1,T2,…,TM表示媒体库中根据节目内容切分出的词,或媒体库中出现的关键词,P1,P2,P3表示媒体库中的电视节目。媒体单元的媒体库可包含对所有电视节目内容的文档切分得到的词,这些词的集合可表示为其中,M表示媒体库包含的所有文档切分词的个数.Ti可表示根据节目内容提取的媒体库中的第i个词,每一个词Ti可以是一个二元变量{ti,ti},其中ti可表示“词Ti与查询词是不相关的”,ti代表“词Ti与查询词是相关的”,或ti也可用来表示与个人语料库中的词是相关的媒体库词Ti。另外,媒体库中还可包含所有的节目,如电视节目,其集合可表示为P={P1,P2,…,PN},Pj可表示媒体库中的第j个电视节目。每一个节目Pj也可是一个二元变量{pj,pj},其中pj和pj分别表示“节目Pj与给定的查询词是不相关的”和“节目Pj与给定的查询词是相关的”,pj也可用来表示与给定的个人语料库是相关的节目Pj
在本发明的节目选择装置中,节目选择单元4可计算媒体库中切分的词T的词频tfij,tfij为第i个词在第j篇电视节目文档中出现的次数,计算词的倒文档频率idfi,显然,如前所述,这两个计算也可在媒体单元2的媒体库制作单元21完成。根据媒体库中词T1,T2,…,TM的词频和倒文档频率,节目选择单元4可计算媒体库中的词Ti相对于媒体库中的某个电视节目,如第j个电视节目的权重wij
在本发明的节目选择装置中,节目选择单元4可基于贝叶斯网络模型对个人语料库的查询词与媒体库中节目进行模糊匹配,从而选出用户喜好的节目,向推荐用户。节目选择单元4可计算在个人语料库条件下,也就是在给定查询词的条件下,媒体单元2的媒体库中的电视节目出现的概率,并根据计算出的概率选出与用户个人喜好相关的电视节目,向用户推荐。节目Pj相对于个人语料库中的词出现的概率p(pj|Q),可使用贝叶斯网络条件概率计算公式求得,如可选用下式计算:
p ( p j | Q ) = Σ T i ∈ P j w ij p ( t i | Q ) - - - ( 1 )
(1)式中的wij表示媒体库中词T1,T2,…,TM中的第i个词相对于媒体单元2的媒体库中的第j个电视节目的权重,即词Ti相对于媒体库中的节目的权重,wij可通过tf-idf方法实现,如可由公式
Figure G2005100932242D00131
计算,α参数可由实验来确定。
(1)式中的p(ti|Q)表示在个人语料库条件下,也就是在给定查询词的条件下,媒体库中的词Ti出现的概率,即,p(ti|Q)表示词Ti相对于个人语料库中的词出现的概率。假设个人语料库中结点是相互独立的,如在个人语料库中的词q1,q2,q3是相互独立的情况下,如果Ti∈Q,则p(ti|Q)=1。如果Ti/∈Q,即媒体库中的词Ti不属于Q,不属于个人语料库的词集合,则p(ti|Q)可按下列公式计算:
p ( t i | Q ) = p ( t i | q 1 , q 2 , . . . , q m ) = p ( t i | q 1 ) + p ( t i | q 2 ) + . . . + p ( t i | q m ) m - - - ( 2 )
(2)式中的q1,q2,...,qm表示个人语料库中的词,或查询词,Q为个人语料库中的词的集合和m为其中的词的个数。p(ti|q1),p(ti|q2),...,p(ti|qm)表示媒体库的词Ti与个人语料库中的词或查询词q1,q2,q3的相关性。
在本发明的节目选择装置,节目选择单元4可用词ti与词q1的相似度来代替p(ti|q1),用词ti与词q2的相似度来代替p(ti|q2),......,用词ti与词qm的相似度来代替p(ti|qm),以此类推,等等。显然,可采用任何适当的现有技术来计算词的相似度。
在本发明的一个实施方案中,词的相似度,如词ti与词q1的相似度,词ti与词q2的相似度,......,和词ti与词qm的相似度等可直接选用公共语料库中的词的相似度,也就是说节目选择单元4省去了p(ti|qm)的计算,可直接选用公共语料库中已定量计算的词的相似度来代替。这样,由于利用了公共语料库中已有的词与词之间的相似度,因而节约了处理时间,并且还可使节目选择单元4计算出的p(pj|Q)能更好地反应出查询词与电视节目之间的相关性,更好地反映出个人语料库中的词与媒体库中的节目之间的相关性,从而使节目选择单元4能更有效地从媒体库中选出与个人喜好相关的节目。
本发明的节目选择装置,使用用户个人语料库,媒体库和公共语料库,根据给定查询词的条件下电视节目Pj出现的概率p(pj|Q)的大小,按顺序选出用户喜欢的节目,推荐给用户,其中查询词可以是个人语料库中的词或者是用户输入的关键字等。本发明的节目选择装置能快速、有效地选出用户喜好的节目,为从词的概念语义上准确地向用户推荐电视节目提供了保证。本发明的节目选择装置能随时随地、快速有效地向用户推荐其个人喜欢的节目,并可给出节目预告,节省用户查找节目的时间。显然,本发明的节目选择装置可采用任何适当的现有技术,通过任何形式将其推荐的节目告知用户,如采用或通过视频、音频、短信、有线、无线、遥控器、手机等向用户推荐节目,如可通过前述的用户关键字输入单元51,如图1中“⑥”所示。本发明的节目选择装置除了用于选择推荐节目,还可以用于Internet网上搜寻用户感兴趣的新闻、文章、网页,等等。
本发明的节目选择装置也可利用在本装置的外部存在的公共语料库和/或媒体库。公共语料库和/或媒体库可保存在本发明的节目选择装置之外,如保存在网络上,或保存在服务商,电台或电视台处等等,在此情况下,本发明的节目选择装置可通过有线或无线网络访问存储在本装置之外的公共语料库和媒体库,根据个人语料库、媒体库和公共语料库的信息,选出用户喜欢的节目。公共语料库,和/媒体库的内容可由其管理者、电台、电视台等来更新和维护,由此使本发明的节目选择装置能够利用最新状态的公共语料库和媒体库的信息。例如,由于媒体库可由电视广播台等维护更新,因此具有能够利用最新的电视节目信息的效果。
参照图4,在家庭A,节目选择装置100可与家中的其它一些装置,如数字电视、电视电脑一体机、home server等组成一个系统,节目选择装置100有包括在个人语料单元中的个人语料库,并通过网络访问位于装置100之外的公共语料库和媒体库。在家庭B,有两个节目选择装置100A和100B,在个人语料单元中包括个人语料库,通过网络访问位于节目选择装置100A和100B之外的公共语料库和媒体库。但是,如果每次都访问外部的公共语料库或媒体库,则会使网络的通信量增加,增加为了接受、发送信息需要的处理时间。因此,本发明的节目选择装置可在媒体单元2和公共语料单元3配备有媒体库保存单元22和公共语料库保存单元32,如图1所示,定期或者通过用户的操作从本装置之外下载或者拷贝部分或全部信息到本装置中媒体库保存单元22和公共语料库保存单元32保存的媒体库和公共语料库中,以此获得最新的公共语料库和节目信息。这样,既不会增在给网络施加的负荷,也能利用得到良好维护的公共语料库和有最新状态的电视节目信息。
另外,本发明的节目选择装置还可进一步包括查询输入单元(未示出),与个人语料单元相并列,并与节目选择单元相连.查询输入单元可包括能与用户互动的接口,如遥控器、手机等,用户通过其能输入一些查询词,节目选择单元根据用户输入的查询词,和媒体单元和公共语料单元输入的信息,可从媒体单元媒体库的节目中选出与查询词相关的节目,并可通过查询输入单元向用户推荐.显然,用户输入的查询信息也可被放入个人语料单元中的个人语料库,供节目选择单元选择用户喜欢的节目之用.
本发明还提供一种进行节目选择的方法,包括步骤:制作个人语料库,根据用户所选节目内容制作用户的个人语料库,保存个人语料库;制作或访问媒体库,所述媒体库包含媒体信息和内容;保存媒体库;制作或访问公共语料库;保存公共语料库;节目选择,根据来自个人语料库、媒体库和公共语料库的输入信息,从媒体库中抽取与个人语料库内的信息相关的信息,根据从媒体库抽取的信息从媒体库中选出用户喜好的节目。
图6示意性地示出本发明的节目选择方法的流程图。如图6所示,在本发明的一个实施方案,本发明的方法包括:在步骤101,根据用户所选节目内容制作个人语料库,和在步骤102,保存所制作的个人语料库;在步骤201,制作或访问媒体库,在步骤202,保存媒体库,媒体库包含媒体信息和内容;在步骤301,制作或访问公共语料库,在步骤302,保存或访问公共语料库;在步骤401,进行节目选择,节目选择步骤包括根据来自个人语料库、媒体库和公共语料库的输入信息,从媒体库中抽取与个人语料库中的信息相关的信息,根据从媒体库抽取的信息从媒体库中选出用户喜好的节目。
继续参照图6,在本发明的另一个实施方案,本发明的方法还包括,在步骤500,由用户输入信息的步骤。节目选择在步骤401,根据来自所述个人语料库的信息和/或用户输入的信息,根据媒体库和公共语料库的输入信息,从所述媒体库中抽取与所述个人语料库中的信息和/或用户输入信息相关的信息,据此从所述媒体库中选出用户喜好的节目,推荐给用户。
继续参照图6,在本发明的另一个实施方案,用户输入信息的步骤可包括用户输入关键字步骤501。在节目选择步骤401根据输入的关键字,从媒体库中抽取与关键字相关的信息,并据此从所述媒体库中选出相关的节目,推荐给用户。
继续参照图6,在本发明的另一个实施方案,用户输入关键字的步骤501与保存个人语料库的步骤102相接,如图6中“⑦”所示,根据用户输入的关键字对所述个人语料库中的信息进行更新,添加,和/或删减的步骤。
继续参照图6,在本发明的另一个实施方案,用户输入信息的步骤包括输入匹配参数的步骤502,在节目选择步骤401,根据所述匹配参数从所述媒体库抽取相关信息,进而选出相关节目推荐给用户。
继续参照图6,由节目选择401推荐出的电视节目,进入制作个人语料库101,更新保存个人语料库102中的内容。
在本发明的节目选择或匹配方法中输入匹配参数步骤502输入的所述匹配参数包括匹配用词的数目、和/或模糊匹配率,和在所述节目选择步骤根据匹配用词的数目、和/或模糊匹配率调节所推荐节目的精度。
有关本发明节目选择方法的其它具体细节,可参照前面的相关说明。
继续参照图6,本发明的节目选择方法可进一步包括媒体库制作步骤,201,在保存媒体库的步骤202之前,根据节目信息和内容制作媒体库。本发明的节目选择方法还可包括公共语料制作步骤,301,在保存公共语料库步骤302之前,构建和更新公共语料库。在制作公共语料库的步骤301,其中包括定量计算词与词相似度的步骤,使公共语料库包含词的相似度。
在本发明的节目选择方法,制作个人语料库的步骤进一步包括对用户所选节目内容进行自然语言处理,进行切分,得到词序列,然后通过tf-idf方法对其进行文本特征提取,将提取的特征放在一起构建个人语料库的步骤。在本发明的一个实施方案,通过tf-idf方法对其进行文本特征提取的步骤包括计算每个词的词频,计算词的倒文档频率,根据词频和倒文档频率计算词的特征权重,取特征权重较大的词放入所述个人语料库的步骤,详情请参见前面有关用tf-idf方法进行文本特征的提取的说明。
在本发明的节目选择方法,节目选择步骤所包括的根据来自个人语料库、媒体库和公共语料库的输入信息,从媒体库中抽取与个人语料库中的信息相关的信息,包括与个人语料库中的词相关的媒体库的词,根据从媒体库抽取的信息从媒体库中选出用户喜好的节目。个人语料库与媒体库中的词是否相关,可依据词的相似度来判断,词的相似度可直接取自公共语料库中的词的相似度。在本发明的一个实施方案,上述过程可通过以下步骤实现:基于tf-idf方法计算在媒体单元的媒体库中根据节目内容提取的词相对于媒体库中节目的权重,计算在个人语料库条件下在媒体库中根据节目内容提取的词出现的概率,即计算媒体库中的词相对于个人语料库中的词出现的概率,以及在此基础上计算在个人语料库条件下媒体库中的节目出现的概率,即计算出媒体库中的节目相对个人语料库中的查询词出现的概率,从而据此从媒体单元的媒体库节目中选出用户喜好的节目。具体的计算公式和说明请参见前面的详细描述,如选用下式计算在个人语料库条件下所述媒体单元的媒体库中的节目出现的概率:选用公式
Figure G2005100932242D00172
计算媒体库中的词相对于媒体库中节目的权重,和在Ti/∈Q,时选用下式计算媒体库中的词相对于个人语料库中的词出现的概率:以及p(ti|q1)可用词ti与词q1的相似度来代替,p(ti|q2)可用词ti与词q2的相似度来代替,...,p(ti|qm)可用词ti与词qm的相似度来代替,等等。
在本发明的节目选择方法,可进一步包括输入查询词的步骤,并且在节目选择步骤,可根据输入的查询信息,以及媒体库和公共语料库的输入信息,从媒体库中选出与所述查询信息相关的节目,推荐给用户。
下面给出一个推荐节目的例子I。
A.在个人语料单元,用户看过的或输入的三个电视节目如下:
  No   节目   内容   词,或关键词
  1   赛事直播CCTV-52005/06/1614:45-16:00   直播2005年世界女子排球联赛中国vs意大利   直播,世界,女子排球,联赛,中国,意大利
  No   节目   内容   词,或关键词
  2   体坛聚焦SHTV-12005/06/1719:30-20:00   新闻头条,关注国足,   新闻头条,关注,国足
  3   体坛信息CCTV-12005/06/1722:30-23:00   中国超级联赛赛事报道,赛车世界,达喀尔越野车赛事报道   中国,超级联赛,赛事,报道,赛车世界,达喀尔,越野车
经过个人语料库制作单元制作个人语料库,包含的内容如下:
直播,世界,女子排球,联赛,中国,意大利新闻头条,关注,国足中国,超级联赛,赛事,报道,赛车世界,达喀尔,越野车
B.在媒体单元,包括或输入如下十个电视节目:
  No   节目   内容   关键词
  1   赛事转播[重]CCTV-52005/06/1814:00-15:30   重播2005年世界女子排球联赛中国vs巴西   重播,世界,女子排球,联赛,中国,巴西(如图)
  2   早安上海SHTV-12005/06/197:00-7:15   今日天气,出行道路状况,百姓身边事   今日天气,出行,道路状况,百姓,身边事
  3   今日体育[重]OTV-12005/06/1912:00-12:30   NBA篮球季后赛赛事报道,温布尔登网球公开赛决赛结果等   篮球,季后赛,赛事,报道,温布尔登,网球,公开赛,决赛
  4   新闻联播CCTV-12005/06/1919:00-19:30   印度发生重大交通事故,关注中东局势,伦敦爆炸案相关报道   印度,发生,重大,交通事故,关注,中东局势,伦敦,爆炸案,相关报道
  5   英超赛事SHTV-22005/06/2023:45-1:30   现场直播,英国足球超级联赛利物浦vs切尔西   现场直播,英国,足球,超级联赛,利物浦,切尔西
  No   节目   内容   关键词
  6   赛事直播CCTV-12005/06/2419:45-20:45   现场直播世界一级方程式赛车马来西亚大奖赛排位赛   现场直播,世界,一级方程式,赛车,马来西亚,大奖赛,排位赛
  7.   探索频道SHTV-42005/06/2520:15-21:00   Discovery探索频道终极探险,科学妙探,世界7大神秘事件   探索频道,终极探险,科学妙探,世界,神秘事件
  8   军事天地CCTV-10   航空母舰的由来和发展,二战回忆录:中途岛战役,斯大林格勒保卫战   航空母舰,二战,回忆录,中途岛,战役,斯大林格勒,保卫战
  9   体坛聚焦2005/06/2519:30-20:00   新闻头条,中国围棋联赛,重温经典赛事   新闻头条,中国,围棋,联赛,经典赛事
  10   体坛信息2005/06/2522:30-23:00   全美职业棒球大联盟赛事报道,赛车世界,环法自行车大赛报道   全美,职业棒球,大联盟,赛事,赛车世界,环法,自行车,大赛,报道
经媒体库制作单元,媒体库包含与上述节目内容有关词和节目信息:
P1:重播,世界,女子排球,联赛,中国,巴西
P2:今日天气,出行,道路状况,百姓,身边事
P3:篮球,季后赛,赛事,报道,温布尔登,网球,公开赛,决赛
P4:印度,发生,重大,交通事故,关注,中东局势,伦敦,爆炸案,相关报道
P5:现场直播,英国,足球,超级联赛,利物浦,切尔西
P6:现场直播,世界,一级方程式,赛车,马来西亚,大奖赛,排位赛
P7:探索频道,终极探险,科学妙探,世界,神秘事件
P8:航空母舰,二战,回忆录,中途岛,战役,斯大林格勒,保卫战
P9:新闻头条,中国,围棋,联赛,经典赛事
P10:全美,职业棒球,大联盟,赛事,赛车世界,环法,自行车,大赛,报道
C.在节目选择单元,输入:个人语料库、媒体库和公共语料库,经节目选择单元处理,输出:推荐的电视节目如下:
1.赛事转播[重]CCTV-5
2005/06/18
14:00-15:30
2.今日体育[重]OTV-1
2005/06/19
12:00-12:30
3.英超赛事SHTV-2
2005/06/20
23:45-1:30
下面给出推荐节目的例子II
用户输入关键字:
直播,世界,女子排球,联赛,中国,意大利新闻头条,关注,国足中国,超级联赛,赛事,报道,赛车世界,达喀尔,越野车与上述例的B和C相同。
下面给出通过设定匹配参数推荐节目的例子III
与前面第I或第II例的A和B相同
C.输入匹配用单词数目,如5,则参与匹配的跟个人爱好相关的关键字为:
直播,世界,女子排球,联赛,中国
D.节目选择单元,根据匹配参数,根据个人语料库或用户输入的关键字,并根据媒体库和公共语料库的输入,经节目选择单元处理,输出推荐节目如下:
1.赛事转播[重]CCTV-5
2005/06/18
14:00-15:30
2.英超赛事SHTV-2
2005/06/20
23:45-1:30
3.赛事直播CCTV-1
2005/06/24
19:45-20:45
虽然,以上通过实施方案对本发明的冷冻循环系统及其控制方法进行了说明。但是,应能理解,本领域技术人员可在不偏离本发明的实质精神和范围的情况下对本发明进行变化或改进。这些变化和改进都应落入本发明的范围内。

Claims (15)

1.一种节目选择装置,所述装置包括:
个人语料单元,包括个人语料库制作单元,基于词的出现频率从用户观看过的节目中抽取节目关键词,和个人语料库保存单元,用于保存所述节目关键词;
媒体语料单元,包括媒体库保存单元,用于保存媒体库,所述媒体库包括媒体信息和内容;
公共语料库单元,包括公共语料库保存单元,用于保存公共语料库信息,所述公共语料库信息包括词与词的相似度;所述公共语料库通过训练节目文本构建;
人机交互单元,用于接收用户设定的词的匹配参数;
节目选择单元,所述节目选择单元与所述个人语料单元、媒体语料单元、公共语料库单元和人机交互单元相连,所述节目选择单元,计算在所述媒体库中根据节目内容提取的词相对于所述媒体库中的节目的权重,计算在个人语料库条件下在所述媒体库中的根据节目内容提取的所述词出现的概率,并以二者为基础计算在个人语料库条件下所述媒体库中的节目出现的概率,从而从所述媒体库中选出节目推荐给用户。
2.如权利要求1所述的节目选择装置,其特征在于:所述匹配参数包括匹配用词的数目、和/或模糊匹配率,所述节目选择单元根据匹配用词的数目、和/或模糊匹配率调节所推荐节目的精度。
3.如权利要求1所述的节目选择装置,其特征在于:所述媒体语料单元还包括媒体库制作单元,用于根据节目信息和内容制作媒体库。
4.如权利要求1所述的节目选择装置,其特征在于:所述个人语料库制作单元对用户所选节目的节目内容进行切分,得到词序列,计算词的词频和词的倒文档频率,并且根据所述词频和倒文档频率计算词的特征权重,取特征权重较大的词放入所述个人语料库。
5.如权利要求1所述的节目选择装置,其特征在于:所述公共语料库单元还包括公共语料库制作单元,用于制作公共语料库,其中,所述公共语料库包含定量计算的词与词的相似度。
6.如权利要求1所述的节目选择装置,其特征在于:
在节目选择单元,计算在个人语料库条件下所述媒体库中的节目Pj出现的概率的公式为:
其中,和,在个人语料库中的词q1,q2,...,qm相互独立的情况下,如果Ti∈Q,取p(ti|Q)=1,如果Ti/∈Q,则
p ( t i | Q ) = p ( t i | q 1 , q 2 , . . . , q m ) = p ( t i | q 1 ) + p ( t i | q 2 ) + . . . + p ( t i | q m ) m ,
其中,Pj代表所述媒体库中第j个节目,
pj表示节目Pj与给定的个人语料库是相关的,
Ti表示根据节目内容从媒体库提取的第i个词,
ti代表词Ti与个人语料库中的词是相关的,或表示与个人语料库中的词是相关的所述词Ti
Q为个人语料库中词的集合和m为其中的词的个数,
wij为词Ti相对于所述媒体库中的第j个节目的权重,
tfij表示第i个词在第j篇文档中出现的次数,
idfi表示第i个词的倒文档频率,该idfi被定义为idfi=lg(N/ni)+1,其中N是集合中的文档数,ni是包含第i个词的文档数,
tfkj为第k个词在第j篇电视节目文档中出现的次数,
idfk表示第k个词的倒文档频率,该idfk被定义为idfk=lg(N/nk)+1,其中N是集合中的文档数,nk是包含第k个词的文档数,
α表示常数,
p(ti|q1)、p(ti|q2)…p(ti|qm)表示媒体库中的单词Ti与个人语料库中的单词q1、q2....qm的相关性,
p(ti|Q)表示在个人语料库条件下词Ti出现的概率。
7.如权利要求6所述的节目选择装置,其特征在于,ti表示与个人语料库中的词是相关的所述词Ti,p(ti|q1)用词ti与词q1的相似度来代替,p(ti|q2)用词ti与词q2的相似度来代替,...,p(ti|qm)用词ti与词qm的相似度来代替。
8.如权利要求7所述的节目选择装置,其特征在于,词ti与词q1,词ti与词q2的相似度,...,词ti与词qm的相似度取自所述公共语料库所包含的词相似度。
9.一种节目选择的方法,所述方法包括步骤:
制作个人语料库,基于词的出现频率从用户观看过的节目中抽取节目关键词制作用户的个人语料库;
保存个人语料库,用来保存所述个人语料库;
制作或访问媒体库,所述媒体库包含媒体信息和内容;
保存媒体库;
制作或访问包括公共语料信息的公共语料库,所述公共语料信息包括词的相似度;所述公共语料库通过训练节目文本构建;
保存公共语料库;
输入用户设定的词的匹配参数;
节目选择,计算在所述媒体库中根据节目内容提取的词相对于所述媒体库中节目的权重,计算在个人语料库条件下在所述媒体库中的根据节目内容提取的所述词出现的概率,并以二者为基础计算在个人语料库条件下所述媒体库中的节目出现的概率,从而从所述媒体库中选出节目推荐给用户。
10.如权利要求9所述的节目选择方法,其特征在于,在输入匹配参数的步骤,输入的所述匹配参数包括匹配用词的数目、和/或模糊匹配率,和在所述节目选择步骤根据匹配用词的数目、和/或模糊匹配率调节所推荐节目的精度。
11.如权利要求9所述的节目选择方法,其特征在于:所述制作个人语料库的步骤进一步包括对用户所选节目内容进行切分,得到词序列,计算所述词的词频和所述词的倒文档频率,根据所述词频和倒文档频率计算所述词的特征权重,取特征权重较大的词放入所述个人语料库的步骤。
12.如权利要求9所述的节目选择方法,其特征在于:所述制作公共语料库的步骤,其中包括定量计算词与词相似度的步骤.
13.如权利要求9所述的节目选择方法,其特征在于:在所述节目选择步骤中,计算在个人语料库条件下所述媒体库中的节目Pj出现的概率的公式为:
Figure F2005100932242C00041
其中,
Figure F2005100932242C00042
和在个人语料库中的词q1,q2,...,qm相互独立的情况下,如果Ti∈Q,取p(ti|Q)=1,如果Ti/∈Q,则
p ( t i | Q ) = p ( t i | q 1 , q 2 , . . . , q m ) = p ( t i | q 1 ) + p ( t i | q 2 ) + . . . + p ( t i | q m ) m ,
其中,Pj代表所述媒体库中第j个节目,
pj表示节目Pj与给定的个人语料库是相关的,
Ti表示根据节目内容从媒体库提取的第i个词,
ti代表词Ti与个人语料库中的词是相关的,或表示与个人语料库中的词是相关的所述词Ti
Q为个人语料库中词的集合和m为其中的词的个数,
wij为词Ti相对于所述媒体库中的第j个节目的权重,
tfij表示第i个词在第j篇文档中出现的次数,
idfi表示第i个词的倒文档频率,该idfi被定义为idfi=lg(N/ni)+1,其中N是集合中的文档数,ni是包含第i个词的文档数,
tfkj为第k个词在第j篇电视节目文档中出现的次数,
idfk表示第k个词的倒文档频率,该idfk被定义为idfk=1g(N/nk)+1,其中N是集合中的文档数,nk是包含第k个词的文档数,
α表示常数,
p(ti|q1)、p(ti|q2)…p(ti|qm)表示媒体库中的单词Ti与个人语料库中的单词q1、q2...qm的相关性,
p(ti|Q)表示在个人语料库条件下词Ti出现的概率。
14.如权利要求13所述的节目选择方法,其特征在于,ti表示与个人语料库中的词是相关的所述词Ti,p(ti|q1)用词ti与词q1的相似度来代替,p(ti|q2)用词ti与词q2的相似度来代替,...,p(ti|qm)用词ti与词qm的相似度来代替。
15.如权利要求14所述的节目选择方法,其特征在于,词ti与词q1,词ti与词q2的相似度,...,词ti与词qm的相似度取自所述公共语料库所包含的词的相似度。
CN200510093224A 2005-08-19 2005-08-19 模糊匹配的节目选择装置及方法 Expired - Fee Related CN1916893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200510093224A CN1916893B (zh) 2005-08-19 2005-08-19 模糊匹配的节目选择装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200510093224A CN1916893B (zh) 2005-08-19 2005-08-19 模糊匹配的节目选择装置及方法

Publications (2)

Publication Number Publication Date
CN1916893A CN1916893A (zh) 2007-02-21
CN1916893B true CN1916893B (zh) 2010-05-12

Family

ID=37737891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510093224A Expired - Fee Related CN1916893B (zh) 2005-08-19 2005-08-19 模糊匹配的节目选择装置及方法

Country Status (1)

Country Link
CN (1) CN1916893B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294727B (zh) * 2012-03-05 2017-09-08 阿里巴巴集团控股有限公司 一种被推荐对象的过滤方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1516960A (zh) * 2002-04-12 2004-07-28 索尼株式会社 节目选择装置、节目选择方法、及节目信息提供系统
CN1579089A (zh) * 2001-10-26 2005-02-09 皇家飞利浦电子股份有限公司 基于收视历史的自动电视控制系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1579089A (zh) * 2001-10-26 2005-02-09 皇家飞利浦电子股份有限公司 基于收视历史的自动电视控制系统
CN1516960A (zh) * 2002-04-12 2004-07-28 索尼株式会社 节目选择装置、节目选择方法、及节目信息提供系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2005-202485A 2005.07.28

Also Published As

Publication number Publication date
CN1916893A (zh) 2007-02-21

Similar Documents

Publication Publication Date Title
US8452760B2 (en) Relevancy presentation apparatus, method, and program
US10049150B2 (en) Category-based content recommendation
US20180004843A1 (en) Content recommendation based on collections of entities
US9405848B2 (en) Recommending mobile device activities
US20150324449A1 (en) Cluster-based identification of news stories
CN101122909B (zh) 文本信息检索装置以及文本信息检索方法
CN101094335B (zh) 电视节目推荐设备和电视节目推荐方法
US20170103060A1 (en) Nlp-based systems and methods for providing quotations
CN102163228B (zh) 用于确定资源候选项的排序结果的方法、装置及设备
CN101446959A (zh) 一种基于互联网的新闻推荐方法和系统
US20150081696A1 (en) Systems and Methods for Actively Composing Content for Use in Continuous Social Communication
CN101802776A (zh) 应用语义向量和关键字分析关联数据集的方法和装置
CN102737037A (zh) 一种网页预读取的方法、装置及一种浏览器
CN104885081A (zh) 搜索系统和相应方法
CN102763105A (zh) 用于分段和概括媒体内容的方法和装置
CN104160712A (zh) 计算媒体节目之间的相似度
CN102341795A (zh) 自适应搜索结果用户界面
CN101889281A (zh) 内容检索装置及内容检索方法
CN105740460A (zh) 网页搜集推荐方法和装置
CN101833587A (zh) 网络视频搜索系统
CN102630049A (zh) 一种用于确定用户关于在播视频的兴趣度的方法和设备
Chiny et al. Netflix recommendation system based on TF-IDF and cosine similarity algorithms
US20230244739A1 (en) Content opportunity scoring and automation
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN106021430A (zh) 基于Lucence自定义词库的全文检索匹配方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

Termination date: 20180819

CF01 Termination of patent right due to non-payment of annual fee