CN104978314A - 媒体内容推荐方法及装置 - Google Patents

媒体内容推荐方法及装置 Download PDF

Info

Publication number
CN104978314A
CN104978314A CN201410129899.7A CN201410129899A CN104978314A CN 104978314 A CN104978314 A CN 104978314A CN 201410129899 A CN201410129899 A CN 201410129899A CN 104978314 A CN104978314 A CN 104978314A
Authority
CN
China
Prior art keywords
media content
phrase
weight coefficient
word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410129899.7A
Other languages
English (en)
Other versions
CN104978314B (zh
Inventor
尹程果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201410129899.7A priority Critical patent/CN104978314B/zh
Priority to PCT/CN2015/075541 priority patent/WO2015149690A1/en
Publication of CN104978314A publication Critical patent/CN104978314A/zh
Priority to US15/205,456 priority patent/US10248715B2/en
Application granted granted Critical
Publication of CN104978314B publication Critical patent/CN104978314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种媒体内容推荐方法,包括:接收输入的词条参数,对所述词条参数进行分词得到单词序列;将所述单词序列中相邻的单词进行组合生成混合词序列;获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数;查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。此外,还提供了一种媒体内容推荐装置。上述媒体内容推荐方法及装置能够提高推荐的准确度。

Description

媒体内容推荐方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种媒体内容推荐方法及装置。
背景技术
用户在访问视频网站点击某个视频观看时,播放器的侧边栏通常会展示与正在播放的视频关联程度较高的视频的链接,用来向用户推荐与用户的浏览兴趣匹配较高的视频。然而,传统技术中的内容网站(如视频网站、论坛、小说网站等)向用户推荐媒体内容时,没有考虑一些新兴词汇(如喵星人、汪星人等)的匹配问题,因此,推荐的准确度较低。
发明内容
基于此,有必要提供一种能够提高推荐的准确度的媒体内容推荐方法。
一种媒体内容推荐方法,包括:
接收输入的词条参数,对所述词条参数进行分词得到单词序列;
将所述单词序列中相邻的单词进行组合生成混合词序列;
获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数;
查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。
此外,还有必要提供一种能够提高推荐的准确度的媒体内容推荐装置。
一种媒体内容推荐装置,包括:
词条输入模块,用于接收输入的词条参数,对所述词条参数进行分词得到单词序列;
混词模块,用于将所述单词序列中相邻的单词进行组合生成混合词序列;
系数分配模块,用于获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数;
查找匹配模块,用于查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。
上述媒体内容推荐方法及装置中,先使用常用的分词手段对输入的词条参数进行了分词,然后又通过连接相邻的单词进行混合组词生成了新词。在根据词条参数提取出的词组匹配相应的媒体内容时,不仅考虑了分词与媒体内容的相关性,还考虑了混合后生成的新词语媒体内容的相关性,使得在网络新词汇较多的媒体领域中,也可像用户推荐与包含新词的词条信息关联程度较高的也包含有该新词的媒体内容,相比传统技术中仅以简单分词作为匹配参考的方案,提高了推荐的准确度。
附图说明
图1为一个实施例中一种媒体内容推荐方法的流程图;
图2为一个实施例中一种创建词组与媒体内容对应的倒排索引的方法的流程图;
图3为一个实施例中一种媒体内容推荐装置的结构示意图;
图4为一个实施例中运行上述媒体内容推荐方法的服务器硬件环境图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本实施例中,一种媒体内容推荐方法。该方法可依赖于计算机程序,能够运行于基于冯洛伊曼体系的计算机系统上。该计算机系统可以是提供媒体内容点播业务的应用服务器。例如视频点播网站、在线阅读网站和论坛的网站服务器或应用服务器。其应用场景通常为根据用户正在浏览的视频的标题或浏览的论坛帖子的标题在视频库或帖子数据库中找到与该正在浏览的媒体内容相关度较高的视频或帖子,并下发给视频播放器或浏览器,视频播放器或浏览器则可在播放器或网页的侧边栏等区域展示该相关的视频或帖子的链接或缩略信息。
具体的,如图1所示,该媒体内容推荐方法可包括:
步骤S102:接收输入的词条参数,对词条参数进行分词得到单词序列。
词条参数即为推荐媒体内容时参考的条件语句。在一个实施例中,接收输入的词条参数的步骤可具体为:接收媒体内容浏览指令,获取对应的目标媒体内容,根据目标媒体内容提取词条参数。
例如,在本实施例对应的应用场景中,本方法的适用环境为在视频网站的在线点播场景。该视频网站的页面上展示有多个视频链接以及相应的视频缩略图,用户通过点击网页上的视频链接即可通过浏览器向视频网站的服务器发送媒体内容浏览指令。该视频网站的服务器可根据媒体内容浏览指令在其视频库中查找到相应的视频资源的数据流并推送给用户的浏览器终端。
在本应用场景中,目标媒体内容即为该推送给视频资源,提取的词条参数即为该视频资源的名称、摘要和/或备注信息。例如,若用户在视频网站上点播的视频的名称为“喵星人对主人卖萌”,则该标题即被作为媒体内容时参考的词条参数输入。
在一个适用环境为在线阅读的应用场景,目标媒体内容即为用户在线阅读的文本内容(小说、诗等文学作品),点击某个小说阅读时,该小说即为目标媒体内容,即可提取该小说的摘要作为词条参数输入。
在一个适用环境为论坛的应用场景,目标媒体内容即为用户点击浏览的论坛帖子,即可提取该论坛帖子的主题或主楼文本作为词条参数输入。
在另一个实施例中,词条参数还可以是用户通过客户端直接输入的字符串。例如,在一个适用环境为问答网站的应用场景中,用户输入问题寻求相似问题的答案,即可将该用户输入的问题作为词条参数输入。
获取输入的词条参数后,即可对该词条参数的字符串进行分词。
常用的分词算法可分为三大类:
1.字符匹配
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
2.理解法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
3.统计法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
常用的分词框架包括:SCWS、FudanNLP、ICTCLAS、HTTPCWS、CC-CEDICT、IK、Paoding、MMSEG4J、盘古分词、Jcseg和friso等。可使用上述分词框架且不限于上述分词框架对词条参数进行分词得到单词词组。
步骤S104:将单词序列中相邻的单词进行组合生成混合词序列。
步骤S106:获取单词序列和混合词序列中包含的词组,并为词组各自分配相应的匹配权重系数。
若单词序列为[w1,w2,w3,...wn],若以相邻两个单词构成混合词序列中的词组,则混合词词组即为[w1w2,w2w3,w3w4,...wn-1wn-2]。在其他实施例中,还可再以两个以上的相邻的单词生成混合词序列,例如,可在上例中进一步的得到另一个混合词词组[w1w2w3,w2w3w4,....wn-2wn-1wn]。
在上述应用场景中,对于“喵星人对主人卖萌”的词条参数即可先得到单词序列[喵,星,人,对,主人,卖萌],而相应的,以相邻两个单词构成混合词序列即为[喵星,星人,人对,对主人,主人卖萌]。
然后从单词序列和后续生成的混合词序列获取到的词组即包括:“喵、星、人、对、主人、卖萌、喵星、星人、人对、对主人、主人卖萌”。得到词组后,可为每个词组分配匹配权重系数。
为某个词组分配的匹配权重系数用于表示该词组在整个词条参数所表达的语义中所占的权重,优选的,每个词组的匹配权重系数之和可归一化为1,每个词组的匹配权重系数即表示该词组在整个词条参数所表达的语义中所占的百分比,从而利于比较。可根据词组的词性类型、包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量、以及词组包含的字符数为词组分配权重系数。
需要说明的是,某个词组的匹配权重系数可包含多个字部分。在本实施例中,可包含词性权重系数(根据词性类型分配)和词义权重系数(根据包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量分配),即某个词组的词性权重系数和词义权重系数之和即构成该词组的匹配权重系数。在其他实施例中,匹配权重系数的组成部分也不限于上述词性权重系数和词义权重系数,也可以根据实际需要添加其他类型的权重系数作为参考向量。
在一个实施例中,可获取词组的词性类型,根据词组的词性类型为词组分配词性权重系数。
词性类型即该词组属于实词(名词、动词、形容词、数词、量词和代词)还是虚词(副词、介词、连词、助词、拟声词和叹词),可以为实词分配比虚词较多的词性权重系数(或者直接为虚词分配词性权重系数为0),可通过前述的分词工具得到词组的词性类型。
进一步的,对于均为实词的词组,还可根据名词、动词、形容词、数词、量词和代词的类型为其分配词性权重系数。
例如,可设置与实词对应的三个词性权重系数的等级,其中,名词为第一词性权重系数等级,具有较高的词性权重系数;动词和形容词则为第二词性权重系数等级,具有一般的词性权重系数;数词、量词和代词则为第三词性权重系数等级,具有较低的词性权重系数(或直接设置为0,但在某些对数字敏感的应用场景中,例如标题含有电视剧的季号和剧集号的应用场景,则可将数词提到第二词性权重系数等级,也就是说,可根据实际应用进行设置)。
进一步的,对于名词类型的词组,还可设置两个词性权重系数等级,其中,人名或机构组织名的词性权重系数较高,其他类型的名词词性权重系数较低。
例如,若预先设置的某个词组匹配权重系数的70%由词性权重系数构成,30%由词义权重系数构成,且预先设置的人名或机构组织名的词组的词性权重系数为1,一般名词的词性权重系数为0.6(即名词分为1和0.6两档),预先设置的动词和形容词的词组的词性权重系数为0.4,预先设置的数词、量词、代词以及其他虚词的词组的词性权重系数为0,则对于词条参数提取得到的词组:“喵、星、人、对、主人、卖萌、喵星、星人、人对、对主人、主人卖萌”,其每个词组的词性权重系数分别为:0、0.6、0.6、0、0.6、0.4、0.6、0.6、0、0和0.4。
优选的,可预先根据词性类型对提取的词组进行过滤,去掉词性权重系数较低的词组。如上例中,可将词组中的包含虚词“喵、对”的词组(通常也为副词)过滤掉,则词组“喵、对、人对、对主人”即被过滤掉,从而减少了对无意义词的操作,提高了执行效率。
在一个实施例中,为词组各自分配相应的匹配权重系数的步骤还包括:获取包含词组的媒体内容被浏览的浏览次数以及包含词组的媒体内容的匹配数量;根据词组的浏览次数和匹配数量为其分配词义权重系数。
可计算包含词组的媒体内容被浏览的浏览次数NCLICK与包含词组的媒体内容的匹配数量NDF的比值,可根据词组的NCLICK/NDF(可以是该比值的线性或非线性变换)来为该词组分配词义权重系数。
例如,对于“星、人”等词组,NDF的数值往往较大,而NCLICK相比则较小,因此最终的NCLICK/NDF或其线性变换也较小,因此,对于“星、人”等词组,其词义权重系数则较小。在本实施例中,可根据词组的浏览次数和匹配数量对词组进行过滤。即可将NCLICK/NDF小于阈值的词组过滤掉,例如:“星、人、主人”即可被过滤掉。
综上所述各种过滤之后,即可得到剩余的词组为“卖萌、喵星、星人、主人卖萌”。若经过计算,分别得出其各自的与其NCLICK/NDF对应的词义权重系数为:0.3、0.7、0.6、0.2,则如前所述,若匹配权重系数的70%由词性权重系数构成,30%由词义权重系数构成,那么“卖萌、喵星、星人、主人卖萌”的匹配权重系数分别为:0.4×0.3、0.6×0.7、0.6×0.6、0.4×0.2,即0.12、0.42、0.36和0.08,归一化后“卖萌、喵星、星人、主人卖萌”各自的匹配权重系数即为:0.122、0.428、0.367和0.082,其他词组的匹配权重系数则为0。
需要说明的是上述定义和计算词性权重系数和词义权重系数的数值的方案仅为用于说明分配匹配权重系数的方案中的一个举例说明,在其他实施例中,不限于上述定义和计算方式。
步骤S108:查找包含词组的媒体内容,获取查找到的媒体内容中包含词组的匹配权重系数之和,根据匹配权重系数之和筛选查找到的媒体内容并进行推荐。
在本实施例中,为方便查找,提高查找效率,可预先创建词组与媒体内容库中存储的媒体内容对应的倒排索引(inverted index),然后根据倒排索引查找与提取的词组对应的媒体内容。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。
在本实施例中,如图2所示,创建倒排索引的步骤可具体为:
步骤S202,获取媒体内容库,遍历其中存储的媒体内容,对所述遍历到的媒体内容提取词条并进行分词得到单词序列。
步骤S204,将所述单词序列中相邻的单词进行组合生成混合词序列。
步骤S206,获取单词序列和所述混合词序列中包含的词组。
步骤S208,创建词组与媒体内容库中存储的媒体内容对应的倒排索引。
也就是说,对于视频库,可将视频库中的每个视频的标题提取出来,然后对其进行分词以及混合,然后对于得到的每个词组即可在倒排索引中添加该视频的链接地址与该词组对应。
例如,若视频库中有100个视频(在此仅举例说明倒排索引,实际中不止100个),对每个视频的标题进行分词即混合后,得到标题包含“喵星”的有56个视频,则索引值“喵星”对应该56个视频的地址。
优选的,查找包含词组的媒体内容的步骤之前还包括:根据词组的匹配权重系数对其进行过滤。
如上例中,可将匹配权重系数低于阈值的词组过滤掉,而不进行查找。例如,对于“星、人”等匹配权重系数为0的词组即可过滤,而仅查找“卖萌、喵星、星人、主人卖萌”4个词组,从而节省了查询时间,提高了效率。
优选的,还可获取提取到的词组的同义词,查找包含所述词组的同义词的媒体内容。
在获取查找到的媒体内容中所述词组的匹配权重系数之和的步骤中可判断词组的同义词是否包含在所述查找到的媒体内容中,若是则判定媒体内容包含该词组。
例如,在一个应用场景中,若提取的词组为“烹饪、马铃薯、方法”,则对于词组“马铃薯”,可对同义词“土豆”也进行查找。若对词组“烹饪”进行查找得到“烹饪土豆的方法”的媒体内容,则该媒体内容中的“土豆”由于是“马铃薯”的同义词,因此词组“马铃薯”也被认为命中,即包含在该媒体内容中。
查找到包含词组的媒体内容之后,即可获取查找到的媒体内容中包含词组的匹配权重系数之和,该包含的词组的匹配权重系数之和即为该媒体内容与输入的词条参数的匹配度。
例如,若查找到的某个视频的标题为“汪星人卖萌撒娇”,则词组“卖萌”和“星人”两个词组命中,该视频与输入的词条参数的匹配度即为0.122(卖萌)+0.367(星人)=0.489。若另一个视频的标题为“喵星人卖萌撒娇”,则词组“卖萌、喵星、星人”命中,该视频与输入的词条参数的匹配度即为0.122(卖萌)+0.367(星人)+0.428(喵星)=0.917。
如上所述,将于查找到的媒体内容与输入的词条参数的匹配度(即命中的匹配权重系数之和)计算完毕之后,即可根据匹配度的大小排序,并将匹配度较大的媒体内容推荐给用户。如上例中,则可将标题为“喵星人卖萌撒娇”的视频优先推荐给用户,即排在推荐视频的第一个。
在本实施例中,将查找到的媒体内容进行推荐的步骤之前还包括:
获取目标媒体内容的时间参数和类型参数,根据目标媒体内容的时间参数和类型参数对查找到的媒体内容进行筛选。
在本实施例对应的应用场景中,目标媒体内容即为前述的用户正在浏览的视频或文学作品等。其类型参数即为目标媒体内容的媒体领域的类型信息,例如视频可分为新闻、微电影、随拍等。时间参数即为该目标媒体内容的发布时间戳或创作年代,例如,对于新闻类型的视频,时间参数即为其发布时间戳,对于微电影或小说类型的文学作品,其时间参数即为其创作年代。
对于新闻类型的媒体内容,则可筛选出发布时间戳较新的媒体内容进行推荐;对于微电影或小说类型的文学作品,则可筛选出创作年代与该目标媒体内容较接近的媒体内容进行推荐。
具体的,可在前述匹配权重系数之和的基础上加入时间匹配系数,然后根据匹配权重系数之和与时间匹配系数的和的大小排序后进行推荐。
计算时间匹配系数的方法可以是根据查找到的媒体内容与目标媒体内容的时间参数之差生成。例如,对于新闻类型的视频,可设置发布时间戳之差超过10天即为0,10天之内每天递减0.1,则若查找到的新闻视频的发布时间为3天前,那么该视频的时间匹配系数即为0.7。
若分别归一化后的匹配权重系数之和(前述的匹配度)与时间匹配系数的比例为6:4,且在该应用场景中,若该查找到的媒体内容对应的匹配权重系数之和为0.8,则该查找到的媒体内容与用户正在浏览的新闻视频的综合匹配程度即为0.8×0.6+0.4×0.7=0.76。则在最终选择查找到的媒体内容推荐给用户时,可根据该综合匹配程度进行排序,将综合匹配程度的得分较高的媒体内容推荐给用户。
在一个实施例中,如图3所示,一种媒体内容推荐装置,包括词条输入模块102、混词模块104、系数分配模块106以及查找匹配模块108,其中:
一种媒体内容推荐装置,其特征在于,包括:
词条输入模块102,用于接收输入的词条参数,对所述词条参数进行分词得到单词序列。
混词模块104,用于将所述单词序列中相邻的单词进行组合生成混合词序列。
系数分配模块106,用于获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数。
查找匹配模块108,用于查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。
在一个实施例中,如图3所示,媒体内容推荐装置还包括倒排索引创建模块110,用于获取媒体内容库,遍历其中存储的媒体内容,对所述遍历到的媒体内容提取词条并进行分词得到单词序列;将所述单词序列中相邻的单词进行组合生成混合词序列;获取所述单词序列和所述混合词序列中包含的词组;创建所述词组与所述媒体内容库中存储的媒体内容对应的倒排索引。
查找匹配模块108还用于在倒排索引中查找与词组对应的媒体内容。
在一个实施例中,系数分配模块106还用于获取词组的词性类型,根据词组的词性类型为所述词组分配词性权重系数;所述匹配权重系数包含所述词性权重系数。
在一个实施例中,系数分配模块106还用于获取包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量;根据所述词组的浏览次数和匹配数量为其分配词义权重系数;所述匹配权重系数包含所述词义权重系数。
在一个实施例中,系数分配模块106还用于根据词组的浏览次数和匹配数量对所述词组进行过滤。
在一个实施例中,查找匹配模块108还用于根据所述词组的匹配权重系数对其进行过滤。
在一个实施例中,词条输入模块102用于接收媒体内容浏览指令,获取对应的目标媒体内容,根据所述目标媒体内容提取词条参数。
在一个实施例中,如图3所示,媒体内容推荐装置还包括综合推荐模块112,用于获取目标媒体内容的时间参数和类型参数,根据所述目标媒体内容的时间参数和类型参数对所述查找到的媒体内容进行筛选。
在一个实施例中,查找匹配模块108还用于获取所述词组的同义词,查找包含所述词组的同义词的媒体内容;
在本实施例中,查找匹配模块108还用于获取所述词组的同义词,判断所述词组的同义词是否包含在所述查找到的媒体内容中,若是则判定所述媒体内容包含该词组。
上述媒体内容推荐方法及装置中,先使用常用的分词手段对输入的词条参数进行了分词,然后又通过连接相邻的单词进行混合组词生成了新词。在根据词条参数提取出的词组匹配相应的媒体内容时,不仅考虑了分词与媒体内容的相关性,还考虑了混合后生成的新词语媒体内容的相关性,使得在网络新词汇较多的媒体领域中,也可像用户推荐与包含新词的词条信息关联程度较高的也包含有该新词的媒体内容,相比传统技术中仅以简单分词作为匹配参考的方案,提高了推荐的准确度。
在一个实施例中,如图4所示,提供了一种可运行前述处理业务请求的方法的反向代理节点结构示意图,该业务节点结构可应用于互联网应用的业务节点上。该业务节点500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(如前述的词条输入模块102、混词模块104、系数分配模块106以及查找匹配模块108),每个模块可以包括对业务节点中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在业务节点500上执行存储介质530中的一系列指令操作。业务节点500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1所示实施例中所述的步骤可以基于该图4所示的服务器结构。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种媒体内容推荐方法,包括:
接收输入的词条参数,对所述词条参数进行分词得到单词序列;
将所述单词序列中相邻的单词进行组合生成混合词序列;
获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数;
查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。
2.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述方法还包括:
获取媒体内容库,遍历其中存储的媒体内容,对所述遍历到的媒体内容提取词条并进行分词得到单词序列;
将所述单词序列中相邻的单词进行组合生成混合词序列;
获取所述单词序列和所述混合词序列中包含的词组;
创建所述词组与所述媒体内容库中存储的媒体内容对应的倒排索引。
3.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述查找包含所述词组的媒体内容的步骤为:
在所述倒排索引中查找与所述词组对应的媒体内容。
4.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述为所述词组各自分配相应的匹配权重系数的步骤包括:
获取所述词组的词性类型,根据所述词组的词性类型为所述词组分配词性权重系数;所述匹配权重系数包含所述词性权重系数。
5.根据权利要求1或4所述的媒体内容推荐方法,其特征在于,所述为所述词组各自分配相应的匹配权重系数的步骤包括:
获取包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量;
根据所述词组的浏览次数和匹配数量为其分配词义权重系数;所述匹配权重系数包含所述词义权重系数。
6.根据权利要求5所述的媒体内容推荐方法,其特征在于,所述获取包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量的步骤之后还包括:
根据所述词组的浏览次数和匹配数量对所述词组进行过滤。
7.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述查找包含所述词组的媒体内容的步骤之前还包括:
根据所述词组的匹配权重系数对其进行过滤。
8.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述接收输入的词条参数的步骤为:
接收媒体内容浏览指令,获取对应的目标媒体内容,根据所述目标媒体内容提取词条参数。
9.根据权利要求8所述的媒体内容推荐方法,其特征在于,所述将所述查找到的媒体内容进行推荐的步骤之前还包括:
获取所述目标媒体内容的时间参数和类型参数,根据所述目标媒体内容的时间参数和类型参数对所述查找到的媒体内容进行筛选。
10.根据权利要求1所述的媒体内容推荐方法,其特征在于,所述查找包含所述词组的媒体内容的步骤还包括:
获取所述词组的同义词,查找包含所述词组的同义词的媒体内容;
所述获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和的步骤还包括:
获取所述词组的同义词,判断所述词组的同义词是否包含在所述查找到的媒体内容中,若是则判定所述媒体内容包含该词组。
11.一种媒体内容推荐装置,其特征在于,包括:
词条输入模块,用于接收输入的词条参数,对所述词条参数进行分词得到单词序列;
混词模块,用于将所述单词序列中相邻的单词进行组合生成混合词序列;
系数分配模块,用于获取所述单词序列和所述混合词序列中包含的词组,并为所述词组各自分配相应的匹配权重系数;
查找匹配模块,用于查找包含所述词组的媒体内容,获取所述查找到的媒体内容中包含所述词组的匹配权重系数之和,根据所述匹配权重系数之和筛选所述查找到的媒体内容并进行推荐。
12.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述装置还包括倒排索引创建模块,用于获取媒体内容库,遍历其中存储的媒体内容,对所述遍历到的媒体内容提取词条并进行分词得到单词序列;将所述单词序列中相邻的单词进行组合生成混合词序列;获取所述单词序列和所述混合词序列中包含的词组;创建所述词组与所述媒体内容库中存储的媒体内容对应的倒排索引。
13.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述查找匹配模块还用于在所述倒排索引中查找与所述词组对应的媒体内容。
14.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述系数分配模块还用于获取所述词组的词性类型,根据所述词组的词性类型为所述词组分配词性权重系数;所述匹配权重系数包含所述词性权重系数。
15.根据权利要求10或14所述的媒体内容推荐装置,其特征在于,所述系数分配模块还用于获取包含所述词组的媒体内容被浏览的浏览次数以及包含所述词组的媒体内容的匹配数量;根据所述词组的浏览次数和匹配数量为其分配词义权重系数;所述匹配权重系数包含所述词义权重系数。
16.根据权利要求15所述的媒体内容推荐装置,其特征在于,所述系数分配模块还用于根据所述词组的浏览次数和匹配数量对所述词组进行过滤。
17.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述查找匹配模块还用于根据所述词组的匹配权重系数对其进行过滤。
18.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述词条输入模块用于接收媒体内容浏览指令,获取对应的目标媒体内容,根据所述目标媒体内容提取词条参数。
19.根据权利要求18所述的媒体内容推荐装置,其特征在于,所述装置还包括综合推荐模块,用于获取所述目标媒体内容的时间参数和类型参数,根据所述目标媒体内容的时间参数和类型参数对所述查找到的媒体内容进行筛选。
20.根据权利要求11所述的媒体内容推荐装置,其特征在于,所述查找匹配模块还用于获取所述词组的同义词,查找包含所述词组的同义词的媒体内容;
所述查找匹配模块还用于获取所述词组的同义词,判断所述词组的同义词是否包含在所述查找到的媒体内容中,若是则判定所述媒体内容包含该词组。
CN201410129899.7A 2014-04-01 2014-04-01 媒体内容推荐方法及装置 Active CN104978314B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410129899.7A CN104978314B (zh) 2014-04-01 2014-04-01 媒体内容推荐方法及装置
PCT/CN2015/075541 WO2015149690A1 (en) 2014-04-01 2015-03-31 Media content recommendation method and apparatus
US15/205,456 US10248715B2 (en) 2014-04-01 2016-07-08 Media content recommendation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410129899.7A CN104978314B (zh) 2014-04-01 2014-04-01 媒体内容推荐方法及装置

Publications (2)

Publication Number Publication Date
CN104978314A true CN104978314A (zh) 2015-10-14
CN104978314B CN104978314B (zh) 2019-05-14

Family

ID=54239401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410129899.7A Active CN104978314B (zh) 2014-04-01 2014-04-01 媒体内容推荐方法及装置

Country Status (3)

Country Link
US (1) US10248715B2 (zh)
CN (1) CN104978314B (zh)
WO (1) WO2015149690A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526809A (zh) * 2017-08-23 2017-12-29 北京百度网讯科技有限公司 基于人工智能推送音乐的方法和装置
CN109684207A (zh) * 2018-12-14 2019-04-26 平安科技(深圳)有限公司 操作序列封装的方法、装置、电子设备及存储介质
CN111104583A (zh) * 2018-10-10 2020-05-05 武汉斗鱼网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN111597471A (zh) * 2020-05-22 2020-08-28 北京字节跳动网络技术有限公司 一种展示位置的确定方法、装置、电子设备及存储介质
CN114139044A (zh) * 2021-10-27 2022-03-04 北京达佳互联信息技术有限公司 账户推送方法、装置、服务器及存储介质
WO2024021949A1 (zh) * 2022-07-26 2024-02-01 深圳市世强元件网络有限公司 一种搜索后推荐内容排序呈现的方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488112B (zh) * 2015-11-20 2019-09-17 小米科技有限责任公司 信息推送方法及装置
CN109492216A (zh) * 2018-09-19 2019-03-19 平安科技(深圳)有限公司 水帖自动鉴别及审批方法、装置及计算机可读存储介质
CN112559768B (zh) * 2020-12-11 2023-02-17 北京中科汇联科技股份有限公司 一种短文本图谱化及推荐方法
CN113392200A (zh) * 2021-06-18 2021-09-14 中国工商银行股份有限公司 基于用户学习行为的推荐方法及装置
CN117474703B (zh) * 2023-12-26 2024-03-26 武汉荟友网络科技有限公司 基于社交网络的话题智能推荐方法
CN117520864B (zh) * 2024-01-08 2024-03-19 四川易利数字城市科技有限公司 一种数据要素多特征融合智能匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814073A (zh) * 2009-02-23 2010-08-25 未序网络科技(上海)有限公司 基于文字异形体信息的搜索引擎方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US8463830B2 (en) * 2007-01-05 2013-06-11 Google Inc. Keyword-based content suggestions
US8892422B1 (en) * 2012-07-09 2014-11-18 Google Inc. Phrase identification in a sequence of words
US20160070803A1 (en) * 2014-09-09 2016-03-10 Funky Flick, Inc. Conceptual product recommendation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814073A (zh) * 2009-02-23 2010-08-25 未序网络科技(上海)有限公司 基于文字异形体信息的搜索引擎方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526809A (zh) * 2017-08-23 2017-12-29 北京百度网讯科技有限公司 基于人工智能推送音乐的方法和装置
CN107526809B (zh) * 2017-08-23 2021-05-25 北京百度网讯科技有限公司 基于人工智能推送音乐的方法和装置
CN111104583A (zh) * 2018-10-10 2020-05-05 武汉斗鱼网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN111104583B (zh) * 2018-10-10 2024-01-05 河南星易网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN109684207A (zh) * 2018-12-14 2019-04-26 平安科技(深圳)有限公司 操作序列封装的方法、装置、电子设备及存储介质
CN109684207B (zh) * 2018-12-14 2022-09-02 平安科技(深圳)有限公司 操作序列封装的方法、装置、电子设备及存储介质
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN111221943B (zh) * 2020-01-13 2023-08-08 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置
CN111597471A (zh) * 2020-05-22 2020-08-28 北京字节跳动网络技术有限公司 一种展示位置的确定方法、装置、电子设备及存储介质
CN114139044A (zh) * 2021-10-27 2022-03-04 北京达佳互联信息技术有限公司 账户推送方法、装置、服务器及存储介质
WO2024021949A1 (zh) * 2022-07-26 2024-02-01 深圳市世强元件网络有限公司 一种搜索后推荐内容排序呈现的方法及系统

Also Published As

Publication number Publication date
WO2015149690A1 (en) 2015-10-08
US20160321355A1 (en) 2016-11-03
CN104978314B (zh) 2019-05-14
US10248715B2 (en) 2019-04-02

Similar Documents

Publication Publication Date Title
CN104978314A (zh) 媒体内容推荐方法及装置
CN110941692B (zh) 互联网政治外交类新闻事件抽取方法
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US20170308531A1 (en) Method, system and storage medium for implementing intelligent question answering
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
CN105447080A (zh) 一种社区问答搜索中的查询补全方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN112749272A (zh) 面向非结构化数据的新能源规划性文本智能推荐方法
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
Spitz et al. Exploring entity-centric networks in entangled news streams
Wei et al. Online education recommendation model based on user behavior data analysis
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN114970543B (zh) 一种众包设计资源的语义分析方法
CN116956818A (zh) 文本素材的处理方法、装置、电子设备以及存储介质
CN113434789B (zh) 基于多维度文本特征的搜索排序方法及相关设备
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
Drury A Text Mining System for Evaluating the Stock Market's Response To News
CN113656641A (zh) 支持模糊评论挖掘的视频高效检索系统
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
Liang et al. Multilingual information retrieval and smart news feed based on big data
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant