CN107633460A - 内容分发控制方法及装置 - Google Patents
内容分发控制方法及装置 Download PDFInfo
- Publication number
- CN107633460A CN107633460A CN201710842563.9A CN201710842563A CN107633460A CN 107633460 A CN107633460 A CN 107633460A CN 201710842563 A CN201710842563 A CN 201710842563A CN 107633460 A CN107633460 A CN 107633460A
- Authority
- CN
- China
- Prior art keywords
- circle
- name
- candidate
- content
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种内容分发控制方法及装置,其中的方法包括:从互联网数据源爬取得到互联网内容;对所述互联网内容进行特征识别,得到至少一个候选圈子名;对所述候选圈子名与所述互联网内容进行相关性分析,根据相关性分析的结果从所述候选圈子名对应的候选圈子中确定出目标圈子;控制在所述目标圈子中分发所述互联网内容。本发明可以提高互联网内容分发的准确性。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种内容分发控制方法及装置。
背景技术
社交网络服务(Social Network Service,SNS),专指旨在帮助用户建立社会性网络的互联网应用服务,其代表产品包括微信,微博、以及各种社交网站(如facebook,twitter)等。SNS不仅提供了丰富的应用场景,同时也为商业化带来巨大的想象空间。例如通过数据挖掘实现精准推荐,把“广告”变成用户感兴趣的“资讯”。
发明内容
为了提高互联网内容分发的精准度,本发明实施例提供一种内容分发控制方法及装置。
根据本发明的一个方面,提供一种内容分发控制方法,包括:从互联网数据源爬取得到互联网内容;对所述互联网内容进行特征识别,得到至少一个候选圈子名;对所述候选圈子名与所述互联网内容进行相关性分析,根据相关性分析的结果从所述候选圈子名对应的候选圈子中确定出目标圈子;控制在所述目标圈子中分发所述互联网内容。
在一个可选的方式中,所述对互联网内容进行特征识别,得到至少一个候选圈子名,包括:提取出互联网内容中的文本内容,对所述文本内容进行文字识别,得到至少一个第一圈子名;和/或,提取出互联网内容中的多媒体内容,对所述多媒体内容进行图像识别,得到至少一个第二圈子名;在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为所述候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合所述第一圈子名和所述第二圈子名,得到所述至少一个候选圈子名。
在一个可选的方式中,所述对所述文本内容进行文字识别,得到至少一个第一圈子名,包括:对所述文本内容进行分词处理,从分词中识别出所述第一圈子名;其中,所述第一圈子名为人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选的方式中,所述对所述多媒体内容进行图像识别,得到至少一个第二圈子名,包括:对多媒体内容中的图片或视频进行图像识别,得到第二圈子名;其中,所述第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选的方式中,还包括:根据所述第一圈子名在所述文本内容中的位置,为不同位置设置不同的位置权值;确定所述第一圈子名在所述文本内容中位置权值最高的出现位置,并统计所述第一圈子名在所述文本内容中的出现次数;采用三元组记录所述第一圈子名、第一圈子名位置权值最高的出现位置和第一圈子名出现次数,得到第一圈子名记录列表;统计第二圈子名在所述多媒体内容中出现的次数;采用二元组记录所述第二圈子名和所述第二圈子名出现次数,得到第二圈子记录列表;将所述第一圈子记录列表和所述第二圈子名记录列表进行取并集操作,得到候选圈子名列表,所述候选圈子名列表包括所述至少一个候选圈子名。
在一个可选的方式中,所述对所述候选圈子名与所述互联网内容进行相关性分析,包括:分析候选圈子特征与互联网内容特征的相关性,得到所述候选圈子名与所述互联网内容的相关性得分;
在一个可选的方式中,所述从候选圈子中确定出目标圈子,包括:将所述相关性得分与预置的相关性分值最低阈值进行比较,从所述候选圈子中选取出得分高于最低阈值的圈子作为目标圈子;和/或,预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从所述候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子。
根据本发明的一个方面,提供一种内容分发控制装置,包括:爬取单元,用于从互联网数据源爬取得到互联网内容;识别单元,用于对所述互联网内容进行特征识别,得到至少一个候选圈子名;分析单元,对所述候选圈子名与所述互联网内容进行相关性分析;决策单元,用于根据相关性分析的结果从所述候选圈子名对应的候选圈子中确定出目标圈子;控制单元,用于控制在所述目标圈子中分发所述互联网内容。
在一个可选的方式中,所述识别单元包括:文字识别子单元,用于提取出互联网内容中的文本内容,对所述文本内容进行文字识别,得到至少一个第一圈子名;和/或,图像识别子单元,用于提取出互联网内容中的多媒体内容,对所述多媒体内容进行图像识别,得到至少一个第二圈子名;融合子单元,用于在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为所述候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合所述第一圈子名和所述第二圈子名,得到所述至少一个候选圈子名。
在一个可选的方式中,所述文字识别子单元具体用于,对所述文本内容进行分词处理,从分词中识别出所述第一圈子名;其中,所述第一圈子名为人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选的方式中,所述图像识别子单元具体用于,对多媒体内容中的图片或视频进行图像识别,得到第二圈子名;其中,所述第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选的方式中,所述文字识别子单元具体用于,根据所述第一圈子名在所述文本内容中的位置,为不同位置设置不同的位置权值;确定所述第一圈子名在所述文本内容中位置权值最高的出现位置,并统计所述第一圈子名在所述文本内容中的出现次数;以及,采用三元组记录所述第一圈子名、第一圈子名位置权值最高的出现位置和第一圈子名出现次数,得到第一圈子名记录列表;所述图像识别子单元具体用于,统计第二圈子名在所述多媒体内容中出现的次数;采用二元组记录所述第二圈子名和所述第二圈子名出现次数,得到第二圈子记录列表;所述融合子单元具体用于,将所述第一圈子记录列表和所述第二圈子名记录列表进行取并集操作,得到候选圈子名列表,所述候选圈子名列表包括所述至少一个候选圈子名。
在一个可选的方式中,所述分析单元具体用于,分析候选圈子特征与互联网内容特征的相关性,得到所述候选圈子名与所述互联网内容的相关性得分;所述决策单元具体用于,将所述相关性得分与预置的相关性分值最低阈值进行比较,从所述候选圈子中选取出得分高于最低阈值的圈子作为目标圈子;和/或,预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从所述候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子。
可见,本发明实施例提供的内容分发控制方法,通过特征识别得出一批候选圈子名,并对候选圈子名与互联网内容进行相关性分析,确定出目标圈子,将互联网内容在目标圈子中进行分发,实现精准推送,满足圈子内用户需求。在一个可选方式中,将文本识别和图像识别进行结合,解决纯自然语言处理与纯图像处理的不足,结合二者的优势,使得对互联网内容的识别更加准确,达到内容分发更加准确的效果。
附图说明
图1是本发明一个实施例提供的一种内容分发控制方法流程图;
图2是本发明一个实施例提供的一种内容分发控制方法中文字识别出第一圈子名的流程图;
图3是本发明一个实施例提供的一种内容分发控制方法中图像识别出第二圈子名的流程图;
图4是本发明一个实施例提供的一种内容分发控制方法实例逻辑示意图;
图5是本发明一个实施例提供的一种内容分发控制装置结构示意图;
图6是本发明另一个实施例提供的一种内容分发控制装置结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
网络社区是指包括BBS/论坛、贴吧、公告栏、个人知识发布、群组讨论、个人空间、无线增值服务等形式在内的网上交流空间,同一主题的网络社区集中了具有共同兴趣的访问者。为了将具有共同爱好/话题的用户聚合在一起,网络社区一般以“圈子”(或理解为“群组”)为单位进行社交和互动,例如,对天文爱好者,可以加入“天文”圈子进行互动;再如,对于关注某影视明星的用户,可以加入该影视明星的圈子。
为了丰富网络社区的内容,本发明实施例旨在提供一种内容分发控制方法及装置,对于互联网内容,通过特征识别得出一批候选圈子名,并对候选圈子名与互联网内容进行相关性分析,确定出目标圈子,将互联网内容在目标圈子中进行分发,实现精准推送,满足圈子内用户需求。
参见图1,为本发明实施例提供的一种内容分发控制方法流程图,该方法包括:
S101:从互联网数据源爬取得到互联网内容。
互联网数据源包括各类互联网网站及APP,例如,新闻类网站/APP、社交类网站/APP等。
通过对互联网数据源进行网络爬取,可以获取互联网内容。例如,通网页爬取器(gatherer)进行爬取,网页爬取器,是指网页搜索集子系统中根据url(统一资源定位符)完成一篇见面爬取的进程或者线程,通常一个搜索子系统上会同时启动多个gatherer并行工作。网页爬取器软件有“网络蜘蛛”,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
在对各类互联网网站进行爬取获取互联网数据之后,可以对互联网数据进行过滤,即去除一些与网站内容不相关的信息,得到互联网内容。
S102:对互联网内容进行特征识别,得到至少一个候选圈子名。
为了实现对互联网内容进行有的放矢的分发,需要识别出互联网内容的主题,即,确定互联网内容是属于哪个圈子的,后续才能够将该互联网内容进行精准分发。
本发明实施例中,通过对互联网内容的特征识别,初步确定出候选圈子名,在后续步骤S103中,再从候选圈子中进一步选择确定出内容分发的目标圈子。
互联网内容一般包括文本内容和多媒体内容,其中,多媒体内容又包括图片和视频。因此,对于互联网内容的特征识别,可以从对这两部分的识别入手。
因此,上述对互联网内容进行特征识别,得到至少一个候选圈子名,可以包括如下实现方式:提取出互联网内容中的文本内容,对文本内容进行文字识别,得到至少一个第一圈子名;和/或,提取出互联网内容中的多媒体内容,对多媒体内容进行图像识别,得到至少一个第二圈子名;在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合第一圈子名和第二圈子名,得到至少一个候选圈子名。
下面分别对这两部分的识别过程进行描述。
参见图2,为本发明实施例提供的一种内容分发控制方法中文字识别出第一圈子名的流程图,包括步骤S201-S203。
S201:从互联网内容中提取出文本内容。
S202:对文本内容进行分词处理,从分词中识别出第一圈子名。
分词是将连续的字序列按照一定的规范重新组合成词序列的过程,分词包括中文分词、英文分词等。在对文本内容进行分词处理后,得到各个分词,然后例如基于命名实体识别(Named Entity Recognition,简称NER)算法,又称作“专名识别”,可以识别出第一圈子名。命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
由于网络社区涉及各个方面的圈子,例如,对某名人感兴趣的圈子,对某部影视剧感兴趣的圈子、关注某地方/城市的圈子、关注某事件的圈子、对某话题感兴趣的圈子、对某机构感兴趣的圈子,等等,因此,本发明实施例中的第一圈子名包括但不限于:人物名、剧名、地名、事件名、话题名、机构名。
S203:采用三元组记录第一圈子名、第一圈子名位置权值最高的出现位置和第一圈子名出现次数,得到第一圈子名记录列表。
为了实现“融合第一圈子名和第二圈子名,得到至少一个候选圈子名”,因此执行步骤S203。后续将第一圈子名记录列表和第二圈子记录列表进行取并集操作,实现第一圈子名和第二圈子名的融合(关于第二圈子名记录列表后续介绍)。
为了得到第一圈子名记录列表,需要对第一圈子名位置权值最高出现位置和第一圈子名出现次数进行统计。其中,“第一圈子名位置权值最高出现位置”,是指根据第一圈子名在文本内容中的出现位置,预先进行权值设置,并确定出权值最高的位置。例如,依据出现位置在标题、副标题、导语、标签、图片标题、视频标题、正文,分别进行权值从高至低进行设置。假设第一圈子名出现在标题、标签和正文中,则“标题”即第一圈子名位置权值最高出现位置;第一圈子名出现次数则为三次。
参见图3,为本发明实施例提供的一种内容分发控制方法中图像识别出第一圈子名的流程图,包括步骤S301-S303。
S301:从互联网内容中提取出多媒体内容。
S302:对多媒体内容中的图片或视频进行图像识别,得到第二圈子名。
如前分析的,第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
如前提及的,多媒体内容包括图片和视频等。具体的,例如可以基于深度学习算法,对多媒体内容进行图像识别(例如物体识别或人脸识别),确定出第二圈子名。例如,图片中可能出现人物,因此通过人脸识别可以确定以人物名体现的第二圈子名,再如,视频中可能出现某机构相关信息,因此可以通过物体识别,可以确定以机构名体现的第二圈子名,等等。
S303:采用二元组记录第二圈子名和第二圈子名出现次数,得到第二圈子记录列表。
为了实现“融合第一圈子名和第二圈子名,得到至少一个候选圈子名”,因此执行步骤S302。后续将第一圈子名记录列表和第二圈子记录列表进行取并集操作,实现第一圈子名和第二圈子名的融合。
在完成上述文本识别和图像识别之后,可以对得到的第一圈子名和第二圈子名进行融合,得到候选圈子名。具体的,可以采取如下步骤进行融合:将第一圈子记录列表和第二圈子名记录列表进行取并集操作,得到候选圈子名列表,其中,候选圈子名列表包括所述至少一个候选圈子名。
S103:对候选圈子名与互联网内容进行相关性分析,根据相关性分析的结果从候选圈子名对应的候选圈子中确定出目标圈子。
为了从候选圈子中精确选择出与互联网内容更加贴近的圈子名,通过将候选圈子名与互联网内容进行相关性分析,根据相关性分析的结果确定出目标圈子。
在一种实现方式中,对候选圈子名与互联网内容进行相关性分析,包括:例如通过训练逻辑回归模型,分析候选圈子特征与互联网内容特征的相关性,得到候选圈子名与互联网内容的相关性得分。例如,提取出候选圈子名的特征集,以及,提取出互联网内容中各部分(文本内容和视频内容)的特征集,并根据训练的逻辑回归模型,对两部分特征集进行相关性得分计算。
在一种实现方式中,根据预先设定的目标圈子选取策略,从候选圈子中确定出目标圈子。例如,一种目标圈子选取策略是,将相关性得分与预置的相关性分值最低阈值进行比较,从候选圈子中选取出得分高于最低阈值的圈子作为目标圈子,这种选取方式中,将得分低的候选圈子排除掉,通过不将内容分发到得分低的候选圈子中,尽量避免误分发。再如,另一种目标圈子选取策略是,预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子,这种方式中,通过从候选圈子中选取一定比例的圈子作为目标圈子,有效控制目标圈子的数量,假设候选圈子为50个,预先设定的目标圈子占候选圈子最高占比阈值为30%,则从这50个选取相关性得分最高的15个作为目标圈子。
S104:控制在目标圈子中分发互联网内容。
在从候选圈子中选择出目标圈子之后,控制将互联网内容在目标圈子中进行分发,实现为圈子内用户进行信息精准推送。
下面以一个具体实例对本发明实施例提供的内容分发控制方法进行介绍。
该实例中,以视频网站维护的影视明星讨论社区为背景,社区中包括以各明星、影视剧划分的圈子。因此可以理解,该例子中,圈子名一般是指人名、剧名。
图4是本发明一个实施例提供的一种内容分发控制方法实例逻辑示意图,该实例中,包括网络爬虫模块、基于自然语言处理技术的圈子名识别模块、基于深度学习的人脸识别模块、融合与相关性打分模块以及feed分发模块。其中,Feed,本意是“(新闻的)广播等”,在互联网中,以Feed表示向目标客户推送的互联网内容。下面以上述五个模块进行描述如下。
(1)网络爬虫模块
网络爬虫模块自动从互联网爬取所需的网页内容,数据源包括新闻网站、社交网站等,例如:东方网(eastday.com)、头条(toutiao.com)、新浪娱乐(ent.sina.com.cn)、腾讯视频(ent.qq.com)、微博(weibo.com)等,然后对爬取的网页内容进行清洗处理(例如过滤掉不需要的内容),转换为圈子展示所需的样式,得到feed集合。
(2)基于自然语言处理技术的圈子名识别模块
通过自然语言处理技术(主要是分词和命名实体识别)识别出feed文本内容中的圈子名,该例子中,识别的圈子名主要是人名和剧名。
因为人名或剧名在feed内容中出现的位置不同,重要性是不一样的,例如出现在标题中或出现在新闻导语中是较重要的,而出现在正文中的重要性要弱一些,因此,本发明同时抽取人名或剧名出现在feed中的位置,位置定义为:标题、副标题、导语、标签、图片标题、视频标题、正文等,依次赋予由大到小的权值,对于同一个人名或剧名出现在不同的位置,取权值最高的位置。同时,统计人名或剧名出现的次数。
例如,识别出的人名和剧名的列表E1,E1中每行是一个三元组<e,p,f>,e表示圈子名,p表示出现的位置,f表示出现的次数。
(3)基于深度学习的人脸识别模块
利用已成熟的人脸识别系统,实现对feed中多媒体内容(图片、视频等)中的明星进行识别。该模块得到识别出的圈子名(明星人名)列表E2,E2中每行是一个二元组<e,c>,e表示圈子名,c表示在多媒体内容中出现的次数。
(4)融合与相关性打分模块
将E1和E2两个列表进行融合(取并集)的到列表E,E的每行为E1和E2每行内容的融合,即<e,p,f,c>。使用f(e)=<p,f,c>作为候选圈子名e的特征,使用机器学习方法构建打分模型计算相关性得分,例如,使用逻辑回归模型,相关性定义如下公式:
其中,R(e)表示人名或剧名e与feed的相关性得分,f(e)上述抽取的特征,g为sigmoid函数,θ为模型需要学习的参数,也是特征集f中每一维特征的权重,初始时可以随机赋值。
因为逻辑回归是一种有监督的方法,需要训练数据,因此可预先标注样本作为训练数据。样本标注过程可以是:对标注集中每条feed,使用模块(2)和模块(3)的方法识别出其中的圈子名,得到列表L,标注人员对L中每个圈子名e,判断其与feed的相关性并标注相关性并标注得分,例如,非常相关的标注1,不相关的标注0,其他标注0到1之间的实数值,得到训练集T。
使用标注的训练集T训练上述定义的逻辑回归模型,完成训练后得到参数θ的取值。逻辑回归模型是既有的成熟机器学习模型。训练得到模型的参数θ后,就可以使用上述公式计算相关性得分:首先,通过模块(2)和模块(3)抽取得到圈子名及对应的特征的列表;然后,依次对其中每一个圈子名及特征使用公式计算相关性得分。
(5)feed分发决策模块
将前述得到的圈子名及相关性得分的列表,作为圈子分发的候选列表(记为C),使用规则决策是否需要分发,例如,规则1:设定阈值th1,对于相关性得分小于th1的圈子名不进行分发;规则2:设定阈值th2,对于C中目标圈子数占比(即:目标圈子数/候选圈子总数)应小于th2。
可见,本发明实施例提供的内容分发控制方法,通过特征识别得出一批候选圈子名,并对候选圈子名与互联网内容进行相关性分析,确定出目标圈子,将互联网内容在目标圈子中进行分发,实现精准推送,满足圈子内用户需求。在一个可选方式中,将文本识别和图像识别进行结合,解决纯自然语言处理与纯图像处理的不足,结合二者的优势,使得对互联网内容的识别更加准确,达到内容分发更加准确的效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,是本发明实施例提供的一种内容分发控制装置结构示意图。该装置包括:
爬取单元501,用于从互联网数据源爬取得到互联网内容;
识别单元502,用于对所述互联网内容进行特征识别,得到至少一个候选圈子名;
分析单元503,对所述候选圈子名与所述互联网内容进行相关性分析;
决策单元504,用于根据相关性分析的结果从候选圈子名对应的候选圈子中确定出目标圈子;
控制单元505,用于控制在所述目标圈子中分发所述互联网内容。
在一种可选方式中,参见图6,所述识别单元502包括:
文字识别子单元5021,用于提取出互联网内容中的文本内容,对所述文本内容进行文字识别,得到至少一个第一圈子名;和/或,图像识别子单元5022,用于提取出互联网内容中的多媒体内容,对所述多媒体内容进行图像识别,得到至少一个第二圈子名;以及,
融合子单元5023,用于在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合所述第一圈子名和所述第二圈子名,得到所述至少一个候选圈子名。
在一个可选方式中,所述文字识别子单元5021具体用于,对所述文本内容进行分词处理,从分词中识别出所述第一圈子名;其中,所述第一圈子名为人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选方式中,所述图像识别子单元5022具体用于,对多媒体内容中的图片或视频进行图像识别,得到第二圈子名;其中,所述第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
在一个可选方式中,所述文字识别子单元5021具体用于,根据所述第一圈子名在所述文本内容中的位置,为不同位置设置不同的位置权值;确定所述第一圈子名在所述文本内容中位置权值最高的出现位置,并统计所述第一圈子名在所述文本内容中的出现次数;以及,采用三元组记录所述第一圈子名、第一圈子名权值最高出现位置和第一圈子名出现次数,得到第一圈子名记录列表;所述图像识别子单元5022具体用于,统计第二圈子名在所述多媒体内容中出现的次数;采用二元组记录所述第二圈子名和所述第二圈子名出现次数,得到第二圈子记录列表;所述融合子单元5023具体用于,将所述第一圈子记录列表和所述第二圈子名记录列表进行取并集操作,得到候选圈子名列表,所述候选圈子名列表包括所述至少一个候选圈子名。
在一个可选方式中,所述分析单元503具体用于,分析候选圈子特征与互联网内容特征的相关性,得到所述候选圈子名与所述互联网内容的相关性得分;所述决策单元504具体用于,将所述相关性得分与预置的相关性分值最低阈值进行比较,从所述候选圈子中选取出得分高于最低阈值的圈子作为目标圈子;和/或,预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从所述候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种关系型数据库的调度方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种内容分发控制方法,其特征在于,包括:
从互联网数据源爬取得到互联网内容;
对所述互联网内容进行特征识别,得到至少一个候选圈子名;
对所述候选圈子名与所述互联网内容进行相关性分析,根据相关性分析的结果从所述候选圈子名对应的候选圈子中确定出目标圈子;
控制在所述目标圈子中分发所述互联网内容。
2.如权利要求1所述的方法,其特征在于,所述对互联网内容进行特征识别,得到至少一个候选圈子名,包括:
提取出互联网内容中的文本内容,对所述文本内容进行文字识别,得到至少一个第一圈子名;和/或,提取出互联网内容中的多媒体内容,对所述多媒体内容进行图像识别,得到至少一个第二圈子名;
在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为所述候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合所述第一圈子名和所述第二圈子名,得到所述至少一个候选圈子名。
3.如权利要求2所述的方法,其特征在于,所述对所述文本内容进行文字识别,得到至少一个第一圈子名,包括:
对所述文本内容进行分词处理,从分词中识别出所述第一圈子名;其中,所述第一圈子名为人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
4.如权利要求2所述的方法,其特征在于,所述对所述多媒体内容进行图像识别,得到至少一个第二圈子名,包括:
对多媒体内容中的图片或视频进行图像识别,得到第二圈子名;其中,所述第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
5.如权利要求2所述的方法,其特征在于,还包括:
根据所述第一圈子名在所述文本内容中的位置,为不同位置设置不同的位置权值;确定所述第一圈子名在所述文本内容中位置权值最高的出现位置,并统计所述第一圈子名在所述文本内容中的出现次数;采用三元组记录所述第一圈子名、第一圈子名位置权值最高的出现位置和第一圈子名出现次数,得到第一圈子名记录列表;
统计第二圈子名在所述多媒体内容中出现的次数;采用二元组记录所述第二圈子名和所述第二圈子名出现次数,得到第二圈子记录列表;
将所述第一圈子记录列表和所述第二圈子名记录列表进行取并集操作,得到候选圈子名列表,所述候选圈子名列表包括所述至少一个候选圈子名。
6.如权利要求1至5任一项所述的方法,其特征在于,
所述对所述候选圈子名与所述互联网内容进行相关性分析,包括:分析候选圈子特征与互联网内容特征的相关性,得到所述候选圈子名与所述互联网内容的相关性得分;所述从候选圈子中确定出目标圈子,包括:
将所述相关性得分与预置的相关性分值最低阈值进行比较,从所述候选圈子中选取出得分高于最低阈值的圈子作为目标圈子;和/或,
预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从所述候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子。
7.一种内容分发控制装置,其特征在于,包括:
爬取单元,用于从互联网数据源爬取得到互联网内容;
识别单元,用于对所述互联网内容进行特征识别,得到至少一个候选圈子名;
分析单元,对所述候选圈子名与所述互联网内容进行相关性分析;
决策单元,用于根据相关性分析的结果从所述候选圈子名对应的候选圈子中确定出目标圈子;
控制单元,用于控制在所述目标圈子中分发所述互联网内容。
8.如权利要求7所述的装置,其特征在于,所述识别单元包括:
文字识别子单元,用于提取出互联网内容中的文本内容,对所述文本内容进行文字识别,得到至少一个第一圈子名;和/或,
图像识别子单元,用于提取出互联网内容中的多媒体内容,对所述多媒体内容进行图像识别,得到至少一个第二圈子名;
融合子单元,用于在仅得到第一圈子名或仅得到第二圈子名情况下,将第一圈子名或第二圈子名作为所述候选圈子名;在得到第一圈子名以及第二圈子名情况下,融合所述第一圈子名和所述第二圈子名,得到所述至少一个候选圈子名。
9.如权利要求8所述的装置其特征在于,所述文字识别子单元具体用于,对所述文本内容进行分词处理,从分词中识别出所述第一圈子名;其中,所述第一圈子名为人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
10.如权利要求8所述的装置,其特征在于,所述图像识别子单元具体用于,对多媒体内容中的图片或视频进行图像识别,得到第二圈子名;其中,所述第二圈子名包括人物名、剧名、地名、事件名、话题名、机构名中的一项或多项。
11.如权利要求8所述的装置,其特征在于,
所述文字识别子单元具体用于,根据所述第一圈子名在所述文本内容中的位置,为不同位置设置不同的位置权值;确定所述第一圈子名在所述文本内容中位置权值最高的出现位置,并统计所述第一圈子名在所述文本内容中的出现次数;以及,采用三元组记录所述第一圈子名、第一圈子名位置权值最高的出现位置和第一圈子名出现次数,得到第一圈子名记录列表;
所述图像识别子单元具体用于,统计第二圈子名在所述多媒体内容中出现的次数;采用二元组记录所述第二圈子名和所述第二圈子名出现次数,得到第二圈子记录列表;
所述融合子单元具体用于,将所述第一圈子记录列表和所述第二圈子名记录列表进行取并集操作,得到候选圈子名列表,所述候选圈子名列表包括所述至少一个候选圈子名。
12.如权利要求7至11任一项所述的装置,其特征在于,
所述分析单元具体用于,分析候选圈子特征与互联网内容特征的相关性,得到所述候选圈子名与所述互联网内容的相关性得分;
所述决策单元具体用于,将所述相关性得分与预置的相关性分值最低阈值进行比较,从所述候选圈子中选取出得分高于最低阈值的圈子作为目标圈子;和/或,预先设定目标圈子占候选圈子最高占比阈值,按照相关性得分从高至低,从所述候选圈子中选取最高占比阈值比例的候选圈子作为目标圈子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710842563.9A CN107633460A (zh) | 2017-09-18 | 2017-09-18 | 内容分发控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710842563.9A CN107633460A (zh) | 2017-09-18 | 2017-09-18 | 内容分发控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107633460A true CN107633460A (zh) | 2018-01-26 |
Family
ID=61102953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710842563.9A Pending CN107633460A (zh) | 2017-09-18 | 2017-09-18 | 内容分发控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633460A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147817A (zh) * | 2019-04-11 | 2019-08-20 | 北京搜狗科技发展有限公司 | 训练数据集生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
US20130218886A1 (en) * | 2006-01-06 | 2013-08-22 | Ricoh Co., Ltd. | Dynamic Presentation of Targeted Information in a Mixed Media Reality Recognition System |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN103544186A (zh) * | 2012-07-16 | 2014-01-29 | 富士通株式会社 | 挖掘图片中的主题关键词的方法和设备 |
-
2017
- 2017-09-18 CN CN201710842563.9A patent/CN107633460A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130218886A1 (en) * | 2006-01-06 | 2013-08-22 | Ricoh Co., Ltd. | Dynamic Presentation of Targeted Information in a Mixed Media Reality Recognition System |
CN103544186A (zh) * | 2012-07-16 | 2014-01-29 | 富士通株式会社 | 挖掘图片中的主题关键词的方法和设备 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
Non-Patent Citations (2)
Title |
---|
许丽丽: "《网络信息资源检索与利用》", 31 December 2008, 哈尔滨:黑龙江人民出版社 * |
陆兰华: "《网络营销》", 31 July 2017, 南京:东南大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147817A (zh) * | 2019-04-11 | 2019-08-20 | 北京搜狗科技发展有限公司 | 训练数据集生成方法及装置 |
CN110147817B (zh) * | 2019-04-11 | 2021-08-27 | 北京搜狗科技发展有限公司 | 训练数据集生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809154B (zh) | 用于资讯推荐的方法及装置 | |
CN103914492B (zh) | 查询词融合方法、商品信息发布方法和搜索方法及系统 | |
US20180189405A1 (en) | Method and device for displaying recommended contents | |
US8725717B2 (en) | System and method for identifying topics for short text communications | |
CN103455524B (zh) | 展现和获取词条信息的方法和装置 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
CN109033149B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN109906455A (zh) | 视觉搜索查询中的对象检测 | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
US10402479B2 (en) | Method, server, browser, and system for recommending text information | |
CN109508406B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN104199872A (zh) | 一种信息推荐的方法以及装置 | |
CN104853248B (zh) | 一种视频推荐方法及装置 | |
CN105975472A (zh) | 一种推荐方法和装置 | |
CN105718184A (zh) | 一种数据处理方法和装置 | |
CN104021140B (zh) | 一种网络视频的处理方法及装置 | |
CN102708174A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN111506831A (zh) | 一种协同过滤的推荐模块、方法、电子设备及存储介质 | |
CN111639255B (zh) | 搜索关键词的推荐方法、装置、存储介质及电子设备 | |
TWI539306B (zh) | Information delivery method, processing server and merge server | |
US11625448B2 (en) | System for superimposed communication by object oriented resource manipulation on a data network | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN108629010A (zh) | 一种基于主题和服务组合信息的web服务推荐方法 | |
CN106919703A (zh) | 电影信息搜索方法及装置 | |
CN107368489A (zh) | 一种资讯数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180126 |
|
RJ01 | Rejection of invention patent application after publication |