CN103207917A - 标注多媒体内容的方法、生成推荐内容的方法及系统 - Google Patents

标注多媒体内容的方法、生成推荐内容的方法及系统 Download PDF

Info

Publication number
CN103207917A
CN103207917A CN2013101483353A CN201310148335A CN103207917A CN 103207917 A CN103207917 A CN 103207917A CN 2013101483353 A CN2013101483353 A CN 2013101483353A CN 201310148335 A CN201310148335 A CN 201310148335A CN 103207917 A CN103207917 A CN 103207917A
Authority
CN
China
Prior art keywords
content
word
multimedia
interest
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101483353A
Other languages
English (en)
Other versions
CN103207917B (zh
Inventor
李达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310148335.3A priority Critical patent/CN103207917B/zh
Publication of CN103207917A publication Critical patent/CN103207917A/zh
Application granted granted Critical
Publication of CN103207917B publication Critical patent/CN103207917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种标注多媒体内容的方法、生成推荐内容的方法及系统。一种标注多媒体内容的方法包括:获取包括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项目的第一标注信息。

Description

标注多媒体内容的方法、生成推荐内容的方法及系统
技术领域
本申请涉及一种标注多媒体内容的方法、生成推荐内容的方法及系统,尤其涉及一种根据收录的多媒体内容的标题对所述多媒体内容进行标注,并且基于用户的网络访问日志个性化地生成推荐的多媒体内容的方法和系统。
背景技术
目前的多媒体内容网站(如视频网站)大多对其提供的多媒体内容进行分类,用户根据网站上提供的分类标签或者特定的专题(如热门视频)查找感兴趣的多媒体内容项目。多数多媒体内容网站也会根据用户的观看历史推荐一些用户可能感兴趣的多媒体内容。
然而,多数的多媒体内容网站仅提供二级或至多三级的分类,产生有限数量的内容主题;而基于用户的观看历史推荐内容无法解决冷启动的问题,并且推荐的内容具有一定的局限性,不能从用户一般的网络行为产生推荐内容。
发明内容
本发明的目的在于提供一种标注多媒体内容的方法、生成推荐内容的方法及系统,使用具有不同粒度的兴趣实体词对多媒体内容进行标注,并且根据用户的一般网络搜索记录来提取用户的兴趣实体词并推荐与提取的兴趣实体词匹配的多媒体内容,从而用户可个性化地订阅多媒体内容,并且可为用户推荐个性化的多媒体内容。
根据本发明的一方面,提供一种标注多媒体内容的方法,包括:获取包括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项目的第一标注信息。
优选地,所述的方法还包括:从获取的内容项目的标题切出至少一个词;
通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
优选地,所述的方法还包括:将所述兴趣词存储为所述内容项目的第二标注信息。
优选地,获取的内容项目还包括一个或多个内容标签,并且所述方法还包括:将所述一个或多个内容标签存储所述内容项目的第三标注信息。
优选地,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
优选地,将所述多媒体内容以及其标注信息存储在多媒体库中。
根据本发明的另一方面,提供一种标注多媒体内容的系统,包括:内容接收单元,用于获取包括多媒体内容及其标题的内容项目;自然语言分析单元,用于对所述标题进行自然语言分析,以提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;内容收录单元,用于将所述兴趣实体词存储为所述内容项目的第一标注信息。
优选地,所述的系统还包括:切词分析单元,用于从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
优选地,内容收录单元还将所述兴趣词存储为所述内容项目的第二标注信息。
优选地,获取的内容项目还包括一个或多个内容标签,并且内容收录单元还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
优选地,内容收录单元将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
优选地,内容收录单元将所述多媒体内容以及其标注信息存储在多媒体库中。
根据本发明的另一方面,提供一种生成推荐内容的方法,包括:获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
优选地,所述对每个用户的网络访问记录进行分析的步骤还包括:对于多媒体内容的网络访问记录,从所述网络访问记录提取多媒体内容的内容标签,并且为所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
优选地,对每个用户的网络访问记录进行分析的步骤还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
优选地,对每个用户的网络访问记录进行分析的步骤还包括:对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词;其中,所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
优选地,所述的方法还包括:从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
优选地,所述的方法还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
优选地,所述的方法还包括:响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
根据本发明的另一方面,提供一种生成推荐内容的系统,包括:日志获取单元,用于获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;日志分析单元,用于对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;推荐内容生成单元,用于根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
优选地,日志分析单元在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签,并且推荐内容生成单元从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
优选地,日志分析单元在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
优选地,日志分析单元还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,其中,推荐内容生成单元还从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
优选地,推荐内容生成单元还从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
优选地,所述的系统还包括:接收单元,用于接收用户创建的兴趣标签,其中,推荐内容生成单元从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
优选地,所述系统响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程图;
图2是示出根据本发明的示例性实施例的标注多媒体内容的系统的逻辑框图;
图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程图;
图4是示出根据本发明的示例性实施例的生成推荐内容的系统的逻辑框图。
具体实施方式
以下,将参照附图来详细说明本发明的实施例。
本发明的总体发明构思是,在收录如视频、音乐等多媒体内容项目时,对所述多媒体内容项目的信息(如标题、自带标签等)进行多种分析处理,为所述多媒体内容项目产生较丰富的标注信息;当向用户提供推荐内容时,通过对用户的网络行为进行分析来挖掘用户的兴趣点,根据提供涉及挖掘的兴趣点的多媒体内容。
图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程图。
参照图1,在步骤S110,获取多媒体的内容项目。所述内容项目可以是用户上传的一条视频或音频,也可以是自特定网站收录的多媒体内容项目。内容项目包括多媒体内容以及其标题。根据本发明的可选实施例,所述内容项目还可以包括一个或多个预先标注的内容标签(例如用户上传视频时标注的关键词、视频网站对所述视频项目标注的标签等)。
在步骤S120,对获取的内容项目中的标题进行自然语言分析,以提取一个或多个名词。可使用通常的自然语音分析算法或应用来提取所述名词。例如,对标题“范冰冰出席戛纳国际电影节”进行自然语言分析后,可提取出“范冰冰”以及“戛纳国际电影节”等名词;而对标题“范爷出席戛纳国际电影节”进行自然语言分析后,可提取出“范爷”以及“戛纳国际电影节”等名词。
在步骤S130,将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词。例如,将“范冰冰”以及“戛纳国际电影节”分别与实体词典进行匹配后,可仍匹配出“范冰冰”以及“戛纳国际电影节”两个兴趣实体词;而将从标题“范爷出席戛纳国际电影节”提取出的“范爷”以及“戛纳国际电影节”与实体词典进行匹配后,也匹配出“范冰冰”以及“戛纳国际电影节”两个兴趣实体词。
在步骤S140,将所述兴趣实体词存储为所述内容项目的第一标注信息。
根据本发明的优选实施例,所述标注多媒体内容的方法还包括:从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。所述专名库包括关于每个词的不同粒度的兴趣词,例如,大粒度的娱乐、体育、汽车等,小粒度的范冰冰、屌丝、切糕等。因此,通过与所述专名库匹配可确定不同粒度的兴趣词。例如,对标题“范冰冰出席戛纳国际电影节”进行切词后,得到“范冰冰”、“出席”以及“戛纳国际电影节”三个词,当将“范冰冰”与实体词典进行匹配时,可得到“娱乐”、“影星”和“范冰冰”三个兴趣词。此后,将确定的所述兴趣词存储为所述内容项目的第二标注信息。
前面提到,在步骤S110获取的内容项目可还包括一个或多个预先标注的内容标签。此时,根据本发明的优选实施例,还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
根据本发明的示例性实施例,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息,而不对这三种标注信息进行区分。
根据本发明的示例性实施例,将所述多媒体内容以及其标注信息存储在多媒体库中。
图2是示出根据本发明的示例性实施例的标注多媒体内容的系统的逻辑框图。
参照图2,根据本发明的示例性实施例的标注多媒体内容的系统包括内容接收单元210、自然语言(NLP)分析单元230和内容收录单元240。
内容接收单元210获取包括多媒体内容及其标题的内容项目。所述内容项目可以是用户上传的一条视频或音频,也可以是自特定网站收录的内容项目。根据本发明的可选实施例,所述内容项目还包括一个或多个预先标注的内容标签。
NLP分析单元230通过对内容接收单元210获取的所述标题进行自然语言分析来提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词。
内容收录单元240将NLP分析单元230产生的所述兴趣实体词存储为所述内容项目的第一标注信息。
根据本发明的优选实施例,所述标注多媒体内容的系统还包括切词分析单元220。切词分析单元220从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。根据本发明的优选实施例,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。在这种情况下,内容收录单元240还将切词分析单元220确定的所述兴趣词存储为所述内容项目的第二标注信息。
如前所述,获取的内容项目可还包括一个或多个内容标签。此时,根据本发明的优选实施例,内容收录单元240还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
根据本发明的示例性实施例,内容收录单元240将为内容项目产生的第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
根据本发明的示例性实施例,内容收录单元240将所述多媒体内容以及其标注信息存储在多媒体库中。
如前所述,本发明的标注多媒体内容的方法和系统通过对多媒体内容项目的标题进行如自然语言分析和切词分析,产生规范、不同粒度的标注信息。
图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程图。
在步骤S310,获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内容观看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将网络访问日志按照用户整理成为各个用户的网络访问记录。
步骤S320~S330是针对每个用户执行的步骤。以下描述对每个用户的网络访问记录进行处理并生成推荐内容的操作。
在步骤S320,对每个用户的网络访问记录进行分析。其中,对用户的每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,并且通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词。例如,网络访问记录显示用户近期经常浏览有关范冰冰的娱乐新闻,则可通过对相应的网络访问记录进行分析,挖掘出“范冰冰”的这个用户兴趣点。
在步骤S330,根据为所述用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。这里所说标注信息与兴趣实体词匹配是指在多项标注信息中包含所述兴趣实体词。
根据本发明的优选实施例,步骤S320还包括:如果所述网络访问记录多媒体内容的网络访问记录,则从所述网络访问记录提取多媒体内容的内容标签,并且步骤S330还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。这里所说标注信息与内容标签匹配是指在多项标注信息中包含与所述内容标签实质相似的标注信息,可根据设计的需要确定所述实质相似的标准。
根据本发明的优选实施例,步骤S320还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。根据本发明的另一优选实施例,在步骤S320,还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词。然后,在步骤S330,从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。这里所说标注信息与兴趣词匹配是指在多项标注信息中包含所述兴趣词。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:对根据兴趣实体词、兴趣词和/或内容标签为每个用户生成的推荐内容进行筛选,选出预定个数的推荐内容项目作为最终的推荐内容。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。这样,可根据用户提供的兴趣点来生成推荐内容。这里所说标注信息与内容标签匹配是指在多项标注信息中包含与所述内容标签实质相似的标注信息,可根据设计的需要确定所述实质相似的标准。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:响应于来自用户的请求(如打开特定网页的请求),提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。用户可从提供的这些兴趣实体词、兴趣词以及内容标签选择自己感兴趣的主题,并进行多媒体内容(如视频)的定制。
图4是示出根据本发明的示例性实施例的生成推荐内容的系统的逻辑框图。
参照图4,根据本发明的示例性实施例的生成推荐内容的系统包括日志获取单元410、日志分析单元420和推荐内容生成单元430。
日志获取单元410获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内容观看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将网络访问日志按照用户整理成为各个用户的网络访问记录。
日志分析单元420对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词。
推荐内容生成单元430根据日志分析单元420为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签;推荐内容生成单元430还从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。根据本发明的另一优选实施例,日志分析单元420还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词;推荐内容生成单元430从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
根据本发明的优选实施例,推荐内容生成单元430还对根据兴趣实体2词、兴趣词和/或内容标签生成的推荐内容进行筛选,从为每个用户生成的推荐内容筛选出预定个数的推荐内容作为最终的推荐内容。
根据本发明的优选实施例,所述生成推荐内容的系统还包括接收单元(未显示),用于接收用户创建的兴趣标签。推荐内容生成单元430从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
根据本发明的优选实施例,所述生成推荐内容的系统还响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签,从而用户可选择个性化地定制多媒体内容的兴趣主题。
由此可见,本发明的生成推荐内容的方法及系统可从用户的各种网络访问记录中挖掘用户的兴趣点,并且相应地生成推荐内容。即使用户先前并未访问过多媒体内容网站,也可通过其其他的网络行为找到其兴趣点,为其推荐可能感兴趣的多媒体内容。
从上述参照附图对本发明的示例性实施例的描述可以看出,本发明的标注多媒体内容的方法、生成推荐内容的方法及系统在收录多媒体内容项目(如电影、电视剧、视频新闻、视频报道等)时,对所述多媒体内容项目的辅助信息进行相对深度的分析,并进行准确、多粒度的丰富标注。同时,通过用户的各种网络行为来挖掘用户的兴趣点,从而提供用户可能感兴趣的多媒体内容推荐,增强了用户的网络体验。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些实施例进行各种修改和变换。

Claims (28)

1.一种标注多媒体内容的方法,包括:
获取包括多媒体内容及其标题的内容项目;
对所述标题进行自然语言分析,以提取一个或多个名词;
将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;
将所述兴趣实体词存储为所述内容项目的第一标注信息。
2.如权利要求1所述的方法,还包括:
从获取的内容项目的标题切出至少一个词;
通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
3.如权利要求2所述的方法,其特征在于,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
4.如权利要求3所述的方法,还包括:将所述兴趣词存储为所述内容项目的第二标注信息。
5.如权利要求4所述的方法,其特征在于,获取的内容项目还包括一个或多个内容标签,并且所述方法还包括:将所述一个或多个内容标签存储所述内容项目的第三标注信息。
6.如权利要求5所述的方法,其特征在于,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
7.如权利要求6所述的方法,其特征在于,将所述多媒体内容以及其标注信息存储在多媒体库中。
8.一种标注多媒体内容的系统,包括:
内容接收单元,用于获取包括多媒体内容及其标题的内容项目;
自然语言分析单元,用于对所述标题进行自然语言分析,以提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;
内容收录单元,用于将所述兴趣实体词存储为所述内容项目的第一标注信息。
9.如权利要求8所述的系统,还包括:
切词分析单元,用于从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
10.如权利要求9所述的系统,其特征在于,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
11.如权利要求10所述的系统,其特征在于,内容收录单元还将所述兴趣词存储为所述内容项目的第二标注信息。
12.如权利要求11所述的系统,其特征在于,获取的内容项目还包括一个或多个内容标签,并且内容收录单元还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
13.如权利要求12所述的系统,其特征在于,内容收录单元将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
14.如权利要求13所述的系统,其特征在于,内容收录单元将所述多媒体内容以及其标注信息存储在多媒体库中。
15.一种生成推荐内容的方法,包括:
获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;
对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;
根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
16.如权利要求15所述的方法,其特征在于,所述对每个用户的网络访问记录进行分析的步骤还包括:对于多媒体内容的网络访问记录,从所述网络访问记录提取多媒体内容的内容标签,并且为所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
17.如权利要求16所述的方法,其特征在于,对每个用户的网络访问记录进行分析的步骤还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
18.如权利要求17所述的方法,其特征在于,对每个用户的网络访问记录进行分析的步骤还包括:对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,
其中,所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
19.如权利要求18所述的方法,还包括:从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
20.如权利要求15-19任一项所述的方法,还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
21.如权利要求20所述的方法,还包括:响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
22.一种生成推荐内容的系统,包括:
日志获取单元,用于获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;
日志分析单元,用于对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;
推荐内容生成单元,用于根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
23.如权利要求22所述的系统,其特征在于,日志分析单元在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签,并且推荐内容生成单元从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
24.如权利要求23所述的系统,其特征在于,日志分析单元在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
25.如权利要求24所述的系统,其特征在于,日志分析单元还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,
其中,推荐内容生成单元还从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
26.如权利要求25所述的系统,其特征在于,推荐内容生成单元还从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
27.如权利要求22-26任一项所述的系统,还包括:接收单元,用于接收用户创建的兴趣标签,
其中,推荐内容生成单元从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
28.如权利要求27所述的系统,其特征在于,所述系统响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
CN201310148335.3A 2013-04-25 2013-04-25 标注多媒体内容的方法、生成推荐内容的方法及系统 Active CN103207917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310148335.3A CN103207917B (zh) 2013-04-25 2013-04-25 标注多媒体内容的方法、生成推荐内容的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310148335.3A CN103207917B (zh) 2013-04-25 2013-04-25 标注多媒体内容的方法、生成推荐内容的方法及系统

Publications (2)

Publication Number Publication Date
CN103207917A true CN103207917A (zh) 2013-07-17
CN103207917B CN103207917B (zh) 2017-03-08

Family

ID=48755138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310148335.3A Active CN103207917B (zh) 2013-04-25 2013-04-25 标注多媒体内容的方法、生成推荐内容的方法及系统

Country Status (1)

Country Link
CN (1) CN103207917B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216965A (zh) * 2014-08-21 2014-12-17 北京金山安全软件有限公司 信息推荐方法和装置
CN105117449A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种用于生成内容项的标签的方法和装置
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和系统
CN105354227A (zh) * 2015-09-30 2016-02-24 北京奇虎科技有限公司 基于搜索的提供高质量评论信息的方法及装置
CN108052666A (zh) * 2017-12-29 2018-05-18 北京奇虎科技有限公司 一种内容推荐方法和装置
CN108073719A (zh) * 2017-12-29 2018-05-25 北京奇虎科技有限公司 一种内容推荐方法和装置
CN109271502A (zh) * 2018-09-25 2019-01-25 武汉大学 一种基于自然语言处理的空间查询主题的归类方法及装置
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN113590851A (zh) * 2020-05-01 2021-11-02 脸谱公司 建议在线系统中的实体创建内容并向内容添加标签

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102622399A (zh) * 2011-01-11 2012-08-01 索尼公司 搜索装置、搜索方法和程序
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253994A (zh) * 2011-07-08 2011-11-23 宇龙计算机通信科技(深圳)有限公司 自动搜索装置和自动搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102622399A (zh) * 2011-01-11 2012-08-01 索尼公司 搜索装置、搜索方法和程序
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张旭: ""一个基于词典与统计的中文分词算法"", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》, 15 February 2008 (2008-02-15), pages 3 *
赵旭: ""搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用"", 《万方数据》, 31 March 2009 (2009-03-31) *
陈忆群等: ""高适应性企业信息查询扩展系统设计与实现"", 《计算机工程与应用》, 31 January 2011 (2011-01-31), pages 227 - 232 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216965A (zh) * 2014-08-21 2014-12-17 北京金山安全软件有限公司 信息推荐方法和装置
CN105117449A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种用于生成内容项的标签的方法和装置
CN105117449B (zh) * 2015-08-14 2019-08-16 百度在线网络技术(北京)有限公司 一种用于生成内容项的标签的方法和装置
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和系统
CN105138670B (zh) * 2015-09-06 2018-12-14 天翼爱音乐文化科技有限公司 音频文件标签生成方法和系统
CN105354227A (zh) * 2015-09-30 2016-02-24 北京奇虎科技有限公司 基于搜索的提供高质量评论信息的方法及装置
CN108052666A (zh) * 2017-12-29 2018-05-18 北京奇虎科技有限公司 一种内容推荐方法和装置
CN108073719A (zh) * 2017-12-29 2018-05-25 北京奇虎科技有限公司 一种内容推荐方法和装置
CN109271502A (zh) * 2018-09-25 2019-01-25 武汉大学 一种基于自然语言处理的空间查询主题的归类方法及装置
CN113590851A (zh) * 2020-05-01 2021-11-02 脸谱公司 建议在线系统中的实体创建内容并向内容添加标签
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN111680219B (zh) * 2020-06-09 2023-10-20 深圳市雅阅科技有限公司 内容推荐方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN103207917B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN103207917A (zh) 标注多媒体内容的方法、生成推荐内容的方法及系统
CN106331778B (zh) 视频推荐方法和装置
US8843467B2 (en) Method and system for providing relevant information to a user of a device in a local network
US9600530B2 (en) Updating a search index used to facilitate application searches
CA2688921C (en) Identification of segments within audio, video, and multimedia items
WO2017096877A1 (zh) 一种推荐方法和装置
CN102007492B (zh) 用于搜索多幅存储的数字图像的方法和设备
US8478759B2 (en) Information presentation apparatus and mobile terminal
CN101446959A (zh) 一种基于互联网的新闻推荐方法和系统
CN106030569A (zh) 重构搜索查询的技术
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
US20220107978A1 (en) Method for recommending video content
CN110633406B (zh) 事件专题的生成方法、装置、存储介质和终端设备
CN104008139A (zh) 视频索引表的创建方法和装置,视频的推荐方法和装置
CN110377817B (zh) 搜索词条挖掘方法和装置及其在多媒体资源的应用
CN105916032A (zh) 视频推荐的方法及视频推荐的终端设备
US20180011613A1 (en) Generating interactive menu for contents search based on user inputs
CN102789476A (zh) 信息处理装置、信息处理方法和程序
CN104503988A (zh) 搜索方法及装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
EP3014894B1 (en) Creating playlist from web page
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
Desyaputri et al. News recommendation in Indonesian language based on user click behavior
CN110347922A (zh) 基于相似度的推荐方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant