CN103299651B - 节目推荐装置和节目推荐方法 - Google Patents
节目推荐装置和节目推荐方法 Download PDFInfo
- Publication number
- CN103299651B CN103299651B CN201080070252.1A CN201080070252A CN103299651B CN 103299651 B CN103299651 B CN 103299651B CN 201080070252 A CN201080070252 A CN 201080070252A CN 103299651 B CN103299651 B CN 103299651B
- Authority
- CN
- China
- Prior art keywords
- information
- electronic program
- data base
- guide data
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种节目推荐装置和节目推荐方法,属于人工智能研究领域。所述装置包括:输入单元、节目预选单元、特征抽取单元、机器学习单元、节目预测单元和输出单元。所述方法包括:接收用户输入的语言信息;根据语言信息从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;对提取的电子节目信息进行特征选取,得到特征元素,并从已存储语言知识的知识库中获取特征元素的关联信息,构建特征集合;利用特征集合和机器学习方法构建统计模型;利用统计模型,对电子节目表数据库中的节目进行匹配;输出匹配的结果给用户。本发明解决了节目推荐系统的“冷启动”问题,保障用户的隐私情报不泄漏,提高了节目推荐精度、性能以及实用性。
Description
技术领域
本发明涉及人工智能研究领域,特别涉及一种节目推荐装置和节目推荐方法。
背景技术
随着网络技术、数字电视和通信技术的飞速发展,当前,有线数字电视、网络数字电视、卫星数字电视和无线数字电视已经发展到了大规模实用阶段。数字技术带来电视频道的大量增加、尽管EPG(ElectronicProgramGuide,电子节目表)为人们带来了一定的便利,由于电视节目资源日趋繁多,导致人们很难快速发现自己真正喜欢的节目。
为了解决信息过载问题,形式多样的节目推荐系统应运而生,现有的节目推荐方法主要包括以下几种:基于规则的推荐方法、基于内容过滤的推荐方法、基于协同过滤的推荐方法和基于混合策略的推荐方法。
基于规则的推荐方法主要运用各种规则来实现节目的推荐功能。规则的获取又可以分为人工编写的规则或基于关联规则的挖掘技术来加以实现。该方法的优点在于规则的制作简单直接。
基于内容过滤的推荐方法通过比较节目和用户的描述信息来实现推荐功能。此方法可以采用向量空间模型、贝叶斯方法、决策树、支持向量机(SVM)等机器学习方法加以实现。该方法的优点在于方法简单,可以对用户潜在的需求做出适当的预测。
基于协同过滤的推荐方法根据用户的相似性来推荐节目。在计算用户之间的相似度方面,此方法可以采用各种聚类和分类算法,如K最近邻法(KNN)、K平均(K-MEANs)、模糊聚类、朴素贝叶斯、SVM等等来实现。该方法的优点在于能够为用户发现一部分新的感兴趣的节目。
基于混合策略的推荐方法是指综合采用基于内容过滤的方法和基于协同过滤的推荐方法。该方法能综合上述两种方法的优点,相互取长补短,形成优势互补,能够在一定程度上改善推荐的精度和效果。
在实现本发明的过程中,发明人发现上述现有技术至少具有以下缺点:
基于规则的推荐方法中规则的主观性较强,质量难以保证;规则的增加会导致规则之间相互冲突,系统的管理和升级困难等问题。基于内容过滤的推荐方法对于全新的节目的推荐效果和效率不高,存在“冷启动”问题。基于协同过滤的推荐方法自适应能力低下、可扩展性能不高、不能很好地解决“冷启动”问题、还涉及他人隐私等问题。基于混合策略的推荐方法的可扩展性有待进一步提高,系统抗恶意评分能力差且依旧存在“冷启动”的问题。综上所述,现有的节目推荐技术无法在确保不侵犯用户个人隐私的前提下,很好地解决节目推荐系统的“冷启动”问题,极大地影响了节目推荐系统的推荐精度和性能。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种节目推荐装置和节目推荐方法。所述技术方案如下:
一种节目推荐装置,所述装置包括:
输入单元,用于接收用户输入的语言信息;
节目预选单元,用于根据所述输入单元接收的语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
特征抽取单元,用于对所述节目预选单元提取的电子节目信息进行特征选取,得到特征元素,并从已存储语言知识的知识库中获取所述特征元素的关联信息,构建特征集合;
机器学习单元,用于利用所述特征抽取单元得到的特征集合和机器学习方法,构建统计模型;
节目预测单元,用于利用所述机器学习单元构建的统计模型,对所述电子节目表数据库中的节目进行匹配;
输出单元,用于输出所述节目预测单元匹配的结果给用户。
所述节目预选单元包括:
第一预选子单元,用于当所述输入单元接收的语言信息为关键词集合时,对所述关键词集合进行逻辑计算后从所述电子节目表数据库中提取相关的电子节目信息。
所述节目预选单元包括:
第二预选子单元,用于当所述输入单元接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算所述空间模型与所述电子节目表数据库中的电子节目信息的相似度,根据所述相似度提取相关的电子节目信息。
所述特征抽取单元还包括:
反馈子单元,用于以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目信息进行检索和评价处理,并把处理的结果反馈给所述节目预选单元;
相应地,所述节目预选单元还用于接收所述反馈子单元反馈的结果,根据所述反馈的结果从所述电子节目表数据库中提取相关的电子节目信息,并输出给所述特征抽取单元。
所述知识库包括词的同义、近义、反义,概念的相似度,以及词、词类和语义属性中的任意的一种或多种。
一种节目推荐方法,所述方法包括:
接收用户输入的语言信息;
根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
对所述提取的电子节目信息进行特征选取,得到特征元素,并从已存储语言知识的知识库中获取所述特征元素的关联信息,构建特征集合;
利用所述特征集合和机器学习方法,构建统计模型;
利用所述统计模型,对所述电子节目表数据库中的节目进行匹配;
输出所述匹配的结果给用户。
根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息,包括:
当所述接收的语言信息为关键词集合时,对所述关键词集合进行逻辑计算后从所述电子节目表数据库中提取相关的电子节目信息。
根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息,包括:
当所述接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算所述空间模型与所述电子节目表数据库中的电子节目信息的相似度,根据所述相似度提取相关的电子节目信息。
对所述提取的电子节目信息进行特征选取,得到特征元素之后,还包括:
以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目信息进行检索和评价处理,并根据所述处理的结果从所述电子节目表数据库中提取相关的电子节目信息,然后对根据所述语言信息提取的电子节目信息和根据所述特征元素提取的电子节目信息进行特征选取,得到新的特征元素;
相应地,从已存储语言知识的知识库中获取所述特征元素的关联信息,构建特征集合,包括:
从已存储语言知识的知识库中获取所述新的特征元素的关联信息,构建特征集合。
所述知识库包括词的同义、近义、反义,概念的相似度,以及词、词类和语义属性中的任意的一种或多种。
本发明实施例提供的技术方案的有益效果是:根据用户输入的语言信息从电子节目表数据库中提取相关的电子节目信息,并进行特征选取得到特征元素,以及调用知识库中存储的信息对特征元素进行扩充得到用户兴趣爱好空间的特征集合,用该特征集合和机器学习的方法构建统计模型,以此匹配电子节目表数据库输出匹配结果给用户,实现了节目推荐,解决了现有技术的“冷启动”问题,而且提高了节目推荐的精度、性能和实用性。由于上述装置位于用户端,该方法也是在用户侧执行的,不涉及在网络服务器端或用户端采集用户个人信息,因此,可以充分保障用户的隐私情报不泄漏,提高了保密性。另外,还可以以特征元素为检索关键词对电子节目表数据库进行检索和评价处理,然后根据处理结果再次进行节目预选,从而可以进一步扩大用户兴趣爱好空间,提高节目推荐的精度。
附图说明
图1是本发明实施例1提供的节目推荐装置结构图;
图2是本发明实施例2提供的节目推荐装置结构图;
图3是本发明实施例3提供的节目推荐方法流程图;
图4是本发明实施例4提供的节目推荐方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种节目推荐装置,包括:
输入单元100,用于接收用户输入的语言信息;
节目预选单元110,用于根据输入单元100接收的语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
特征抽取单元120,用于对节目预选单元110提取的电子节目信息进行特征选取,得到特征元素,并从已存储语言知识的知识库中获取特征元素的关联信息,构建特征集合;
机器学习单元130,用于利用特征抽取单元120得到的特征集合和机器学习方法,构建统计模型;
节目预测单元140,用于利用机器学习单元130构建的统计模型,对电子节目表数据库中的节目进行匹配;
输出单元150,用于输出节目预测单元140匹配的结果给用户。
本发明实施例中涉及的电子节目表(EPG),不仅仅限于电视节目的EPG,对其他任何用电子节目表构成的推荐系统都是可以接受的。
本实施例中,输入单元100接收由用户输入的语言,可以采用多种方式实现,包括但不限于:遥控器、键盘、定点装置(如鼠标)、手写字符识别、光学字符读取器等任何通用输入模块,或者通过语音识别系统进行语音输入、以及通过读取文本文件或读取数据库等形式都是可以接受的。输入单元100可以使用任何方法,只要其执行处理最终获得语言信息的输入即可。用户的输入可以是关键词,也可以是描述用户的喜好的短语或句子。
本实施例中,节目预选单元110可以包括:
第一预选子单元,用于当输入单元100接收的语言信息为关键词集合时,对关键词集合进行逻辑计算后从电子节目表数据库中提取相关的电子节目信息;和/或,
第二预选子单元,用于当输入单元100接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算空间模型与电子节目表数据库中的电子节目信息的相似度,根据该相似度提取相关的电子节目信息。
具体地,第一预选子单元可以直接利用关键词集合从EPG数据库中抽取节目,关键词集合中的各个关键词之间可以采用逻辑与、逻辑或、逻辑非、逻辑与非运算等逻辑运算方法加以实现。
具体地,第二预选子单元可以采用分词工具进行处理,然后针对分词结果可以使用计算词频等方法得到用户喜好的空间模型,再计算空间模型和EPG数据库中电子节目信息的相似度,然后排序得到推荐结果。
另外,节目预选单元110还可以将提取的电子节目信息提供给用户,由用户对其进行初期筛选,然后将用户筛选确认后的结果输出到特征抽取单元120。
本发明实施例涉及的EPG数据库可以由按照一定结构或半结构化的电子节目表组成。如现在放送的数字电视包括网络电视和有线电视等一般能够提供从视听当天开始2周的节目。EPG数据库中的数据可以从数字无线电视接收装置中提取,也可以从互联网上获得。EPG一般包括节目号、节目名称、节目介绍、频道、起止时间等等信息,可以根据需要按照一定的数据格式存储到EPG数据库中。本发明实施例中,EPG中存取的节目信息可以是过去、现在或将来的节目信息,本发明实施例对此不做具体限定。本发明的EPG数据库,允许积累和存储过去时间的EPG数据,如自用户视听当日算起,过去1年或半年或3个月的电子节目,其目的在于为用户提供足够的兴趣选择的数据空间。
本实施例中,特征抽取单元120进行特征选取的方法有多种,包括但不限于:基于文档频率的特征提取方法,信息增益法,x2统计方法和互信息方法等等。特征选取中可以基于特征权重进行计算,该特征权重的计算方法也有很多,如布尔权重、绝对TF(TermFrequency,词频)、IDF(InverseDocumentFrequency,倒排文档频度)、TF-IDF(TermFrequencyandInverseDocumentFrequency,词频和倒排文档频度)、TFC(TermFrequencyCount,词频计数)、ITC、熵权重、TF-IWF等等,本发明实施例对此不做具体限定。特征抽取单元120从知识库中获取的特征元素的关联信息包括:词语的语义、概念等属性信息,这些信息可以作为用户的兴趣和喜好空间的特征集合,从而为机器学习单元130提供建模的数据条件和判定依据。
本发明实施例涉及的知识库包括词的同义、近义、反义,概念的相似度,以及词、词类和语义属性中的任意的一种或多种。知识库不仅可以包含上述语义、概念等属性特征,同时还可以包括与属性特征相关的组织化信息,该组织化信息是指根据知识库中知识的结构对特征元素进行适当的组织化管理后得到的信息,如确立概念的所属关系和语义的包络关系等。组织化管理可以根据概念语义网络进行,同时还可以根据概念语义网络的层次赋予各个要素不同的权重处理等,以提高系统的性能。知识库可以由人工构建,也可以利用现有的词典或义类词典等。例如英语的WordNet、中文的HowNet、日语的EDR电子词典等。同时,还可以利用各种同义词、近义词电子词典等。
本实施例中,机器学习单元130使用的机器学习方法多种多样,如有监督机器学习方法或无监督机器学习方法、以及半监督机器学习方法等;具体地,如采用支持向量机(SVM)、决策树(decisiontree)、贝叶斯、最大熵以及条件随机场等算法中的任何一种加以实现,也可以使用其中的多个构建混合算法加以实现,本发明实施例对此不做具体限定。
本实施例中,节目预测单元140还可以进一步对匹配的结果进行排序处理,然后把排序的结果输出到输出单元150,相应地,输出单元150再将该结果输出给用户。
本实施例中,输出单元150输出节目推荐的结果给用户可以采用多种形式,可以是文件输出,也可以是显示器输出等等,其中,可以以特定格式输出并展现给用户,最终的表现方式可以是任意形式的,比如高亮推荐,声音提醒等,本发明实施例对此不做具体限定。用户在得到该推荐的节目后,可以请求播放自己需要的节目,从而接收相应的数据流进行观看。
本实施例中,特征抽取单元120在特征选取之前或之后还可以运用聚类或分类算法进行计算,机器学习单元130也可以在构建统计模型之前或之后运用聚类或分类算法进行计算,从而进一步提高节目推荐的精度,本发明实施例对此不做具体限定。
本实施例提供的上述装置根据用户输入的语言信息,从电子节目表数据库中提取相关的电子节目信息,并进行特征选取得到特征元素,以及调用知识库中存储的信息对特征元素进行扩充得到用户兴趣爱好空间的特征集合,用该特征集合和机器学习的方法构建统计模型,以此匹配电子节目表数据库输出匹配结果给用户,实现了节目推荐,解决了现有技术的“冷启动”问题,而且提高了节目推荐的精度、性能和实用性。由于上述装置位于用户端,不涉及在网络服务器端或用户端采集用户个人信息,因此,可以充分保障用户的隐私情报不泄漏,提高了保密性。另外,还可以以特征元素为检索关键词对电子节目表数据库进行检索和评价处理,然后根据处理结果再次进行节目预选,从而可以进一步扩大用户兴趣爱好空间,提高节目推荐的精度。
实施例2
在实施例1的基础上,本实施例提供了一种节目推荐装置,包括:输入单元100、节目预选单元110、特征抽取单元120、机器学习单元130、节目预测单元140和输出单元150,上述各个单元的功能均与实施例1中描述的功能相同,在此基础之上的改进之处在于,特征抽取单元120还可以包括:
反馈子单元120a,用于以上述特征元素为检索关键词对电子节目表数据库中的电子节目信息进行检索和评价处理,并把处理的结果反馈给节目预选单元110;
相应地,节目预选单元110还用于接收反馈子单元反馈的结果,根据反馈的结果从电子节目表数据库中提取相关的电子节目信息,并输出给特征抽取单元120,从而特征抽取单元120可以对根据所述语言信息提取的电子节目信息和根据所述特征元素提取的电子节目信息进行特征选取,得到新的特征元素,从已存储语言知识的知识库中获取该新的特征元素的关联信息,构建特征集合,从而可以扩大特征集合,用户可以更精确地选择自己喜爱的节目,从而提高系统的预测精度。
进一步地,特征抽取单元120还可以先判断是否需要再预选,如果是,则执行上述反馈操作,否则,按照实施例1中的方式继续执行。其中,可以采用多种方式判断是否需要再预选,如可以预设简单的提问窗口,问用户是否需要对电视节目进行再预选,或同时把特征元素输出为动态的类似于语义网络图形的方式提供给用户,供用户进行观察和分析等等,本发明实施例对此不做具体限定。
本实施例提供的上述装置根据用户输入的语言信息,从电子节目表数据库中提取相关的电子节目信息,并进行特征选取得到特征元素,以及调用知识库中存储的信息对特征元素进行扩充得到用户兴趣爱好空间的特征集合,用该特征集合和机器学习的方法构建统计模型,以此匹配电子节目表数据库输出匹配结果给用户,实现了节目推荐,解决了现有技术的“冷启动”问题,而且提高了节目推荐的精度、性能和实用性。由于上述装置位于用户端,不涉及在网络服务器端或用户端采集用户个人信息,因此,可以充分保障用户的隐私情报不泄漏,提高了保密性。另外,还可以以特征元素为检索关键词对电子节目表数据库进行检索和评价处理,然后根据处理结果再次进行节目预选,从而可以进一步扩大用户兴趣爱好空间,提高节目推荐的精度。
实施例3
参见图3,本实施例提供了一种节目推荐方法,包括:
S01:接收用户输入的语言信息;
S02:根据该语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
S03:对提取的电子节目信息进行特征选取,得到特征元素;
S04:从已存储语言知识的知识库中获取特征元素的关联信息,构建特征集合;
S05:利用该特征集合和机器学习方法,构建统计模型;
S06:利用该统计模型,对电子节目表数据库中的节目进行匹配;
S07:输出匹配的结果给用户,完成节目推荐。
本实施例中,由用户对自己感兴趣的节目或自己的兴趣空间进行输入,输入的内容可以是关键词,也可以是描述用户的喜好的短语或句子。
本实施例中,S02可以具体包括:
S02a:当接收的语言信息为关键词集合时,对关键词集合进行逻辑计算后从电子节目表数据库中提取相关的电子节目信息;和/或,
S02b:当接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算空间模型与电子节目表数据库中的电子节目信息的相似度,根据相似度提取相关的电子节目信息。
具体地,S02a中可以直接利用关键词集合从EPG数据库中抽取节目,关键词集合中的各个关键词之间可以采用逻辑与、逻辑或、逻辑非、逻辑与非运算等逻辑运算方法加以实现。
具体地,S02b中可以采用分词工具进行处理,然后针对分词结果可以使用计算词频等方法得到用户的喜好空间模型,再计算空间模型和EPG数据库中电子节目信息的相似度,然后排序得到推荐结果。
另外,在S02中还可以将提取的电子节目信息提供给用户,由用户对其进行初期筛选,然后将用户筛选确认后的结果作为提取的电子节目信息。
本发明实施例涉及的EPG数据库可以由按照一定结构或半结构化的电子节目表组成,具体同实施例1中的描述,此处不再赘述。本实施例中涉及的知识库包括词的同义、近义、反义,概念的相似度,以及词、词类和语义属性中的任意的一种或多种,具体同实施例1中的描述,此处不再赘述。
本实施例中,S03中进行特征选取的方法有多种,包括但不限于:基于文档频率的特征提取方法,信息增益法,x2统计方法和互信息方法等等。特征选取中可以基于特征权重进行计算,该特征权重的计算方法也有很多,如布尔权重、绝对词频TF、IDF、TF-IDF、TFC、ITC、熵权重、TF-IWF等等,本发明实施例对此不做具体限定。S04中从知识库中获取的特征元素的关联信息包括:词语的语义、概念等属性信息,这些信息可以作为用户的兴趣和喜好空间的特征集合,从而为建模提供数据条件和判定依据。
本实施例中,S05中使用的机器学习方法多种多样,如有监督机器学习方法或无监督机器学习方法、以及半监督机器学习方法等;具体地,如采用支持向量机(SVM)、决策树(decisiontree)、贝叶斯、最大熵以及条件随机场等算法中的任何一种加以实现,也可以使用其中的多个构建混合算法加以实现,本发明实施例对此不做具体限定。
本实施例中,S06中还可以进一步对匹配的结果进行排序处理,相应地,S07中把排序的结果输出给用户。
本实施例中,S07输出节目推荐的结果给用户可以采用多种形式,可以是文件输出,也可以是显示器输出等等,当输出的结果有多个时,可以一屏显示给用户,也可以分多屏显示给用户,本发明实施例对此不做具体限定。用户在得到推荐结果后,可以请求播放自己需要的节目,从而接收相应的数据流进行观看。
本实施例中,S03中在特征选取之前或之后还可以运用聚类或分类算法进行计算,S05中也可以在构建统计模型之前或之后运用聚类或分类算法进行计算,从而进一步提高节目推荐的精度,本发明实施例对此不做具体限定。
本实施例提供的上述方法根据用户输入的语言信息,从电子节目表数据库中提取相关的电子节目信息,并进行特征选取得到特征元素,以及调用知识库中存储的信息对特征元素进行扩充得到用户兴趣爱好空间的特征集合,用该特征集合和机器学习的方法构建统计模型,以此匹配电子节目表数据库输出匹配结果给用户,实现了节目推荐,解决了现有技术的“冷启动”问题,而且提高了节目推荐的精度、性能和实用性。由于上述方法是在用户端执行的,不涉及在网络侧服务器端或用户端采集用户个人信息,因此,可以充分保障用户的隐私情报不泄漏,提高了保密性。另外,还可以以特征元素为检索关键词对电子节目表数据库进行检索和评价处理,然后根据处理结果再次进行节目预选,从而可以进一步扩大用户兴趣爱好空间,提高节目推荐的精度。
实施例4
在实施例3的基础上,本实施例提供了一种节目推荐方法,其改进之处在于,根据得到的特征元素再次从EPG数据库中提取电子节目信息,以此来构建特征集合,参见图4,该方法具体包括:
S11:接收用户输入的语言信息;
S12:根据该语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
S13:对提取的电子节目信息进行特征选取,得到特征元素;
S14:以该特征元素为检索关键词,对电子节目表数据库中的电子节目信息进行检索和评价处理,并根据处理的结果从电子节目表数据库中提取相关的电子节目信息;
S15:对S12中根据语言信息提取的电子节目信息和S14中根据特征元素提取的电子节目信息进行特征选取,得到新的特征元素;
S16:从已存储语言知识的知识库中获取该新的特征元素的关联信息,构建特征集合;
S17:利用该特征集合和机器学习方法,构建统计模型;
S18:利用该统计模型,对电子节目表数据库中的节目进行匹配;
S19:输出匹配的结果给用户,完成节目推荐。
进一步地,S14中还可以先判断是否需要再预选,如果是,则继续执行S14以及后续步骤,否则,直接对根据语言信息提取的电子节目信息进行特征选取,得到特征元素,从已存储语言知识的知识库中获取该特征元素的关联信息,构建特征集合,然后继续执行S17等后续步骤。
其中,上述判断是否需要再预选可以采用多种方式进行,如可以预设简单的提问窗口,问用户是否需要对电视节目进行再预选,或同时把特征元素输出为动态的类似于语义网络图形的方式提供给用户,供用户进行观察和分析等等,本发明实施例对此不做具体限定。
本实施例提供的上述方法根据用户输入的语言信息,从电子节目表数据库中提取相关的电子节目信息,并进行特征选取得到特征元素,以及调用知识库中存储的信息对特征元素进行扩充得到用户兴趣爱好空间的特征集合,用该特征集合和机器学习的方法构建统计模型,以此匹配电子节目表数据库输出匹配结果给用户,实现了节目推荐,解决了现有技术的“冷启动”问题,而且提高了节目推荐的精度、性能和实用性。由于上述方法是在用户端执行的,不涉及在网络服务器端或用户端采集用户个人信息,因此,可以充分保障用户的隐私情报不泄漏,提高了保密性。另外,还可以以特征元素为检索关键词对电子节目表数据库进行检索和评价处理,然后根据处理结果再次进行节目预选,从而可以进一步扩大用户兴趣爱好空间,提高节目推荐的精度。
本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成,所述程序可以存储在可读取的存储介质中,该存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种节目推荐装置,其特征在于,所述装置包括:
输入单元,用于接收用户输入的语言信息;
节目预选单元,用于根据所述输入单元接收的语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
特征抽取单元,用于对所述节目预选单元提取的电子节目信息进行特征选取,得到特征元素,并从已存储语言知识的知识库中获取所述特征元素的关联信息,构建特征集合;
机器学习单元,用于利用所述特征抽取单元得到的特征集合和机器学习方法,构建统计模型;
节目预测单元,用于利用所述机器学习单元构建的统计模型,对所述电子节目表数据库中的节目进行匹配;
输出单元,用于输出所述节目预测单元匹配的结果给用户;
所述特征抽取单元还包括:
反馈子单元,用于以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目信息进行检索和评价处理,并把处理的结果反馈给所述节目预选单元;
相应地,所述节目预选单元还用于接收所述反馈子单元反馈的结果,根据所述反馈的结果从所述电子节目表数据库中提取相关的电子节目信息,并输出给所述特征抽取单元。
2.根据权利要求1所述的装置,其特征在于,所述节目预选单元包括:
第一预选子单元,用于当所述输入单元接收的语言信息为关键词集合时,对所述关键词集合进行逻辑计算后从所述电子节目表数据库中提取相关的电子节目信息。
3.根据权利要求1所述的装置,其特征在于,所述节目预选单元包括:
第二预选子单元,用于当所述输入单元接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算所述空间模型与所述电子节目表数据库中的电子节目信息的相似度,根据所述相似度提取相关的电子节目信息。
4.根据权利要求1至3中任一权利要求所述的装置,其特征在于,所述知识库包括词的同义词、近义词、反义词、概念的相似度、词类和语义属性中的任意的一种或多种。
5.一种节目推荐方法,其特征在于,所述方法包括:
接收用户输入的语言信息;
根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息;
对所述提取的电子节目信息进行特征选取,得到特征元素,以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目信息进行检索和评价处理,并根据所述处理的结果从所述电子节目表数据库中提取相关的电子节目信息,然后对根据所述语言信息提取的电子节目信息和根据所述特征元素提取的电子节目信息进行特征选取,得到新的特征元素,并从已存储语言知识的知识库中获取所述新的特征元素的关联信息,构建特征集合;
利用所述特征集合和机器学习方法,构建统计模型;
利用所述统计模型,对所述电子节目表数据库中的节目进行匹配;
输出所述匹配的结果给用户。
6.根据权利要求5所述的方法,其特征在于,根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息,包括:
当所述接收的语言信息为关键词集合时,对所述关键词集合进行逻辑计算后从所述电子节目表数据库中提取相关的电子节目信息。
7.根据权利要求5所述的方法,其特征在于,根据所述语言信息,从已存储电子节目信息的电子节目表数据库中提取相关的电子节目信息,包括:
当所述接收的语言信息为短语或句子时,先进行分词处理,对分词结果进行计算得到用户喜好的空间模型,然后计算所述空间模型与所述电子节目表数据库中的电子节目信息的相似度,根据所述相似度提取相关的电子节目信息。
8.根据权利要求5至7中任一权利要求所述的方法,其特征在于,所述知识库包括词的同义词、近义词、反义词、概念的相似度、词类和语义属性中的任意的一种或多种。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2010/079958 WO2012079254A1 (zh) | 2010-12-17 | 2010-12-17 | 节目推荐装置和节目推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103299651A CN103299651A (zh) | 2013-09-11 |
CN103299651B true CN103299651B (zh) | 2016-08-03 |
Family
ID=46243996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080070252.1A Active CN103299651B (zh) | 2010-12-17 | 2010-12-17 | 节目推荐装置和节目推荐方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103299651B (zh) |
WO (1) | WO2012079254A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869015B1 (en) | 2022-12-09 | 2024-01-09 | Northern Trust Corporation | Computing technologies for benchmarking |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104836720B (zh) * | 2014-02-12 | 2022-02-25 | 北京三星通信技术研究有限公司 | 交互式通信中进行信息推荐的方法及装置 |
CN103970858A (zh) * | 2014-05-07 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | 推荐内容确定系统和方法 |
CN105446970A (zh) * | 2014-06-10 | 2016-03-30 | 华为技术有限公司 | 推荐项目的方法和装置 |
CN104602040B (zh) * | 2014-11-28 | 2017-08-29 | 中国传媒大学 | 一种节目单制定系统及方法 |
CN106484810A (zh) * | 2016-09-23 | 2017-03-08 | 广州视源电子科技股份有限公司 | 一种多媒体节目的推荐方法及系统 |
CN107124653B (zh) * | 2017-05-16 | 2020-09-29 | 四川长虹电器股份有限公司 | 电视用户画像的构建方法 |
CN109978580A (zh) * | 2017-12-28 | 2019-07-05 | 北京京东尚科信息技术有限公司 | 对象推荐方法、装置以及计算机可读存储介质 |
CN108810640B (zh) * | 2018-06-15 | 2020-12-18 | 浙江广业软件科技有限公司 | 一种电视节目的推荐方法 |
CN108965937A (zh) * | 2018-06-27 | 2018-12-07 | 广东技术师范学院 | 一种面向网络电视家庭用户的动态兴趣模型构建方法 |
CN111599349B (zh) * | 2020-04-01 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种训练语言模型的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1496522A (zh) * | 2000-03-29 | 2004-05-12 | �ʼҷ����ֵ�������˾ | 用于定义和操作用户简档的具有人机工程机制的数据搜索界面 |
CN101527815A (zh) * | 2008-03-06 | 2009-09-09 | 株式会社东芝 | 节目推荐装置以及节目推荐方法 |
US7685276B2 (en) * | 1999-12-28 | 2010-03-23 | Personalized User Model | Automatic, personalized online information and product services |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6662177B1 (en) * | 2000-03-29 | 2003-12-09 | Koninklijke Philips Electronics N.V. | Search user interface providing mechanism for manipulation of explicit and implicit criteria |
CN101094335B (zh) * | 2006-06-20 | 2010-10-13 | 株式会社日立制作所 | 电视节目推荐设备和电视节目推荐方法 |
-
2010
- 2010-12-17 WO PCT/CN2010/079958 patent/WO2012079254A1/zh active Application Filing
- 2010-12-17 CN CN201080070252.1A patent/CN103299651B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7685276B2 (en) * | 1999-12-28 | 2010-03-23 | Personalized User Model | Automatic, personalized online information and product services |
CN1496522A (zh) * | 2000-03-29 | 2004-05-12 | �ʼҷ����ֵ�������˾ | 用于定义和操作用户简档的具有人机工程机制的数据搜索界面 |
CN101527815A (zh) * | 2008-03-06 | 2009-09-09 | 株式会社东芝 | 节目推荐装置以及节目推荐方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869015B1 (en) | 2022-12-09 | 2024-01-09 | Northern Trust Corporation | Computing technologies for benchmarking |
Also Published As
Publication number | Publication date |
---|---|
WO2012079254A1 (zh) | 2012-06-21 |
CN103299651A (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103299651B (zh) | 节目推荐装置和节目推荐方法 | |
CN104933113B (zh) | 一种基于语义理解的表情输入方法和装置 | |
US8064641B2 (en) | System and method for identifying objects in video | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
US20130039545A1 (en) | System and method of object recognition and database population for video indexing | |
CN101889281B (zh) | 内容检索装置及内容检索方法 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
Chen et al. | A novel feature extraction methodology for sentiment analysis of product reviews | |
CN110430476A (zh) | 直播间搜索方法、系统、计算机设备和存储介质 | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN115587175A (zh) | 人机对话及预训练语言模型训练方法、系统及电子设备 | |
CN103384883A (zh) | 利用Top-K处理使语义丰富 | |
CN111861550A (zh) | 一种基于ott设备的家庭画像构建方法及系统 | |
CN110413770B (zh) | 将群消息归类到群话题的方法及装置 | |
CN112988953B (zh) | 自适应广播电视新闻关键词标准化方法 | |
CN115955452A (zh) | 基于多轮会话意图识别的5g消息推送方法和装置 | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
CN113704549A (zh) | 视频标签的确定方法和装置 | |
Kokatnoor et al. | A Two-Stepped Feature Engineering Process for Topic Modeling Using Batchwise LDA with Stochastic Variational Inference Model. | |
CN117150046B (zh) | 基于上下文语义的任务自动分解方法和系统 | |
CN117668236B (zh) | 一种专利标准融合系统的分析方法、系统及存储介质 | |
CN102752644A (zh) | 一种机顶盒节目自动分类的方法 | |
Nazari et al. | MoGaL: Novel Movie Graph Construction by Applying LDA on Subtitle | |
CN113641901B (zh) | 资讯推荐方法、装置、计算机可读介质及电子设备 | |
Popescu et al. | Scale-free content based image retrieval (or nearly so) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |