CN107807964B - 数字内容排序方法、装置和计算机可读存储介质 - Google Patents

数字内容排序方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN107807964B
CN107807964B CN201710943328.0A CN201710943328A CN107807964B CN 107807964 B CN107807964 B CN 107807964B CN 201710943328 A CN201710943328 A CN 201710943328A CN 107807964 B CN107807964 B CN 107807964B
Authority
CN
China
Prior art keywords
content
digital content
label
effective
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710943328.0A
Other languages
English (en)
Other versions
CN107807964A (zh
Inventor
侯逸文
邹剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Interactive Entertainment Co Ltd
Original Assignee
MIGU Interactive Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Interactive Entertainment Co Ltd filed Critical MIGU Interactive Entertainment Co Ltd
Priority to CN201710943328.0A priority Critical patent/CN107807964B/zh
Publication of CN107807964A publication Critical patent/CN107807964A/zh
Application granted granted Critical
Publication of CN107807964B publication Critical patent/CN107807964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种数字内容排序方法,包括:分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序作为有效标签的排序;根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。本发明还公开了一种数字内容排序装置和计算机可读存储介质。

Description

数字内容排序方法、装置和计算机可读存储介质
技术领域
本发明涉及互联网信息技术,尤其涉及一种数字内容排序方法、装置和计算机可读存储介质。
背景技术
随着互联网和自媒体的快速蓬勃发展,音乐、视频、游戏、阅读和动漫等类型的数字内容被媒体和网络用户们大量快速生产出来。以数字内容运营为主的网站如何从纷繁众多的数字内容中,快速、准确地选取合适内容并按特定维度排序后生成各种榜单,以优质内容吸引用户访问,越来越成为网站运营的重要课题之一。
传统的数字内容排序方法包括基于用户投票和基于时间冷却的两大类方法,如基于用户投票的Delicious算法、基于时间冷却的牛顿冷却算法等。在传统的数字内容排序方法中,基于用户投票的方法是从用户对内容的喜好维度来进行内容排序,用户越喜好的内容排名越高;基于时间冷却的方法是从内容生成时间的远近维度来进行内容排序,越新生成的内容排名越高。
传统的数字内容排序方法虽然考虑了用户喜好程度和时间新鲜度对数字内容排序的影响,但还存在以下不足:
1、没有考虑互联网热点事件对数字内容排序的影响;
目前社会各界的热点事件、人物会借助微博、搜索引擎、论坛等渠道在互联网上快速传播,热点事件、人物相关的数字内容,也会迅速受到网络用户的关注,而网站往往不能对这些数字内容做出及时响应,将相关数字内容发布到网站上,错失了提升网站流量的时机。可见,由于互联网热点事件造成数字内容的热度提升,传统的排序方法无法实现。
2、没有考虑除用户、时间外其他维度对数字内容排序的影响;
目前对数字内容的评价角度除了用户使用量、时间新鲜度外,还有各种其他维度,如互联网热度、第三方权威机构的评分、搜索引擎搜索指数、重大赛事获奖等。如何综合数字内容在多种维度上的表现来进行综合排序,传统的排序方法无法实现。
发明内容
有鉴于此,本发明的主要目的在于提供一种数字内容排序方法、装置和计算机可读存储介质,能结合多种维度对数字内容进行综合排序,提升数字内容排序的准确度和关注度。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种数字内容排序方法,所述方法包括:
分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。
上述方案中,所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述解析所述数字内容,确定所述数字内容包含的至少一个内容标签,包括:
对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询预存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
上述方案中,所述互联网实时内容,包括:内容标题;
所述解析所述互联网实时内容,确定所述互联网实时内容包含的至少一个互联网标签,包括:
对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询预存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
上述方案中,所述根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,包括:
确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
上述方案中,所述数字内容,还包括:首发时间;
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,包括:
确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
上述方案中,所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,还包括:
确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
本发明实施例还提供了一种数字内容排序装置,所述装置包括:第一处理模块、第二处理模块和第三处理模块;其中,
所述第一处理模块,用于分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
所述第二处理模块,用于根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
所述第三处理模块,用于根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。
上述方案中,所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述第一处理模块,具体用于对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询保存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
上述方案中,所述互联网实时内容,包括:内容标题;
所述第一处理模块,具体用于对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询保存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
上述方案中,所述第二处理模块,具体用于确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
上述方案中,所述数字内容,还包括:首发时间;
所述第三处理模块,具体用于确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
上述方案中,所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述第三处理模块,还用于确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
本发明实施例还提供了一种数字内容排序装置,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上面所述的任意一种数字内容排序方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面所述的任意一种数字内容排序方法的步骤。
本发明实施例所提供的数字内容排序方法、装置和计算机可读存储介质,分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序作为有效标签的排序;根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。可见,本发明实施例能根据互联网中实时内容的热点事件、人物,从数字内容库中搜索到与热点事件和人物相关联的数字内容,形成具有吸引力的数字内容榜单,向用户进行推荐,以提升用户对相应数字内容的关注度,从而促进网站访问流量的提升;
除此以外,本发明实施例的方案在考虑互联网热度和内容新鲜度的基础上,结合用户访问量、搜索指数、内容评分等多种维度对数字内容排序的影响,对数字内容的排序进行调整,不仅能输出综合性的数字内容排行榜,而且,能使数字内容排序的准确度更高,进而也能提升网站的访问流量。
附图说明
图1为本发明实施例提供的数字内容排序方法一的流程示意图;
图2为本发明实施例提供的数字内容排序方法二的流程示意图;
图3为本发明实施例提供的数字内容排序装置一的结构示意图;
图4为本发明实施例提供的数字内容排序装置二的结构示意图。
具体实施方式
在本发明的各种实施例中,分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的数字内容排序方法一的流程示意图;所述方法应用于服务器,如图1所示,所述方法包括:
步骤101、分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
这里,所述数字内容可以由网站运营人员编辑,并保存在数据库中;所述数字内容可以采用数字内容表的形式保存于数据库中;所述数字内容可以涉及音乐、视频、游戏、阅读和动漫等不同种类。
针对每条数字内容,可以包括:内容编号、内容名称、种类、分类名称、相关人物、内容介绍、首发时间、创建时间等内容记录信息。
具体地,步骤101中,所述获取数字内容,包括:
服务器根据所述数字内容的创建时间,周期性获取新的数字内容;这里,可以设定一个固定时间点作为获取新的数字内容的时间点。
具体地,所述步骤101中,所述解析所述数字内容,确定所述数字内容包含的至少一个内容标签,包括:
从所述数字内容的内容记录信息中提取所述内容名称、相关人物、内容介绍、分类名称中至少一个;
对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询预存的标签记录,确定所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
这里,所述标签记录可以以表的形式存储于数据库中,所述标签记录包括至少一个标签;所述标签可以由网站运营人员编辑,并保存在数据库的标签记录对应的表中;所述标签以词的形式呈现,针对每个标签,包括:标签的编号、名称、分类等。
这里,运用分词技术,对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析;所运用的分词技术,具体针对内容记录中的中文,中文分词(Chinese WordSegmentation)是指将一个连续的汉字序列切分成一个一个单独的词。
所述数据库还包括内容标签表和第一关系表;其中,所述内容标签表,用于保存对所述数字内容进行分词解析后获得的所述内容标签;所述第一关系表,用于保存数字内容及内容标签之间的对应关系;
这里,一个数字内容可以解析出多个内容标签,即一个数字内容可以对应多个内容标签;不同的数字内容可以解析出同一个内容标签,即多个数字内容可以对应一个内容标签。
具体地,步骤101中,所述获取互联网实时内容,包括:服务器运用互联网爬虫模块爬取互联网上的实时内容;例如,从微博热点排行榜、搜索引擎热点排行榜、论坛热点排行榜上获取排序为前x位的互联网实时内容的内容标题和排序号,所述x的值可以由开发人员确定,例如x可以为50。
具体地,所述互联网实时内容,包括:内容标题;
相应的,所述解析所述互联网实时内容,确定所述互联网实时内容包含的至少一个互联网标签,包括:
提取所述互联网实时内容的内容标题,对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询预存的所述标签记录,确定所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
所述数据库还包括第二关系表,所述第二关系表,用于保存互联网标签及互联网实时内容之间的对应关系。
这里,一个互联网实时内容可以解析出多个互联网标签,即一个互联网实时内容可以对应多个互联网标签;不同的互联网实时内容可以解析出同一个互联网标签,即多个互联网实时内容可以对应同一个互联网标签。
步骤102、根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为所述有效标签的排序;
这里,所述根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,包括:确定所述至少一个内容标签和所述至少一个互联网标签中均包含的标签,作为所述有效标签;即,所述有效标签,既是内容标签也是互联网标签。
具体地,所述将所述至少一个有效标签对应的互联网实时内容的排序,作为所述有效标签的排序,包括:
确定所述有效标签对应的至少一个互联网实时内容;
将各有效标签对应的至少一个互联网实时内容中最前的排序,作为有效标签的排序。
步骤103、根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。
具体地,所述数字内容还包括:首发时间;相应的,所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,包括:
确定各有效标签对应的至少一个数字内容,获取所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
这里,根据各有效标签对应的至少一个数字内容的排序,即可确定数字内容的排列顺序。
具体来说,这里以有效标签的排序作为第一维度、以有效标签对应的数字内容的首发时间为第二维度,构建二维矩阵,根据所述二维矩阵确定各有效标签对应的至少一个数字内容的排序。
在实际应用中,所述方法还可以增加数字内容的排序维度,所述维度可以是:用户访问量、权威机构对数字内容的内容评分、搜索指数等。
具体地,所述数字内容,包括以下至少一个指数:用户访问量、搜索指数和内容评分;其中,
所述用户访问量,表示服务器从各网站获得的用户对数字内容的访问次数的排序;如获取微博中各用户对某一数字内容的访问次数的排序;
所述搜索指数,表示服务器从各搜索引擎获得的用户搜索数字内容的次数的排序;如获取各用户在百度搜索引擎中搜索某一数字内容的次数的排序;
所述内容评分,表示服务器从各评分网络获得的各用户对数字内容的打分的排序;如获取豆瓣中对某一数字内容(如某一电影、某一本书)的评分的排序。
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,可以包括:
确定各有效标签对应的各数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
具体来说,网站运营人员确定增加的排序维度,并设定各个维度的优先级后,服务器根据各个维度的优先级输出三维至N维的数字内容的矩阵。具体规则如下:
假设排序空间维度有n维,其中,第i维的长度为Li(i属于[1…n]),且某个数字内容在n维空间中的坐标为[a1,a2…an],则该数字内容在所述n维排序空间对应的各数字内容中的排序为:
Figure BDA0001431143100000101
这里,n表示维度总个数,Lj表示维度的长度。
以3维排序空间为例,假设第1维为用户访问量,长度为10;第2维为有效标签的排序,长度为20;第3维为有效标签对应的至少一个数字内容的首发时间的倒序排序(首发时间越晚,排序越高),长度为100;则空间中第[5,12,80]个数字内容的排序为(80-1)*(10*20)+(12-1)*10+5=15915,其中,5代表用户访问量排序第5,即a1=5;12代表有效标签的排序第12,即a2=12;80代表数字内容的首发时间的倒序排序第80,即a3=80。
图2为本发明实施例提供的数字内容排序方法二的流程示意图;如图2所示,所述方法,包括:
步骤201、编辑数字内容和标签;
具体地,步骤201,包括:网站运营人员编辑音乐、视频、游戏、阅读和动漫等不同类型的数字内容,将编辑的数字内容保存在数据库的数字内容表中;及,网站运营人员编辑标签,并将编辑的所述标签保存在所述数据库的标签记录中。
这里,所述数字内容,可以包括:内容编号、内容名称、种类、分类名称、相关人物、内容介绍、首发时间、创建时间等内容记录信息;
所述标签以词的形式呈现,所述标签包括:标签的编号、名称、分类等信息。
以下表1和表2分别为一种数字内容表和标签记录对应的表的格式;
内容编号 VARchar2(50)
内容名称 VARchar2(512)
种类 VARchar2(20)
一级分类名称 VARchar2(100)
二级分类名称 VARchar2(100)
人物1 VARchar2(512)
人物2 VARchar2(512)
内容介绍 CLOB
首发时间 DATE
创建时间 DATE
表1
标签编号 VARchar2(50)
标签名称 VARchar2(100)
标签分类 NUMBER
父标签编号 VARchar2(50)
父标签名称 VARchar2(100)
表2
步骤202、查询新的数字内容;
具体地,步骤202包括:服务器每日定时根据数字内容表的创建时间字段,从数字内容表查询上一日新入库的数字内容。
步骤203、解析所述数字内容;
具体地,步骤203,包括:服务器针对每个数字内容的内容名称、相关人物、内容介绍、分类名称中的至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词。
具体来说,服务器从所述数字内容表中获得所述数字内容对应的内容名称、相关人物、内容介绍、分类名称中至少一个;将所述内容名称、相关人物、内容介绍、分类名称中至少一个组合成一段短文本内容,对组合后的短文本内容进行中文分词解析,形成一个一个独立的中文分词。
例如,以针对《泰坦尼克号》这一数字内容进行解析为例;具体解析如下表3所示;
Figure BDA0001431143100000121
Figure BDA0001431143100000131
表3
步骤204、查询标签记录;
具体地,步骤204,包括:服务器查询数据库中的标签记录,获取网站运营人员事先设定好的全部标签,所述标签是以词的形式呈现。
步骤205、生成内容标签;
具体地,所述步骤205,包括:服务器将根据数字内容对应的第一解析结果中的词与标签记录中的标签进行比对,从所述第一解析结果中筛选出存在于标签记录中的词作为所述数字内容对应的标签,即筛选出的词作为所述内容标签。将所述内容标签保存在数据库的内容标签表中,表4为一种内容标签表的格式。
标签编号 VARchar2(50)
标签名称 VARchar2(100)
标签分类 NUMBER
父标签编号 VARchar2(50)
父标签名称 VARchar2(100)
标签排序号 VARchar2(512)
创建时间 DATE
表4
步骤206、保存内容标签及其对应的数字内容;
具体地,步骤206包括:服务器将内容标签保存入数据库的内容标签表,并将内容标签与数字内容的对应关系保存入数据库的第一关系表。
这里,所述数据库保存有第一关系表,所述第一关系表用于保存所述内容标签和所述数字内容的对应关系。表5为第一关系表的示例。
内容编号 VARchar(50)
标签编号 VARchar(50)
标签类别 VARchar(50)
内容类别 VARchar(50)
创建时间 DATE
表5
步骤207、爬取互联网内容;
具体地,步骤207包括:服务器使用互联网爬虫模块,爬取互联网上的微博热点排行榜、搜索引擎热点排行榜、论坛热点排行榜;从各排行榜上获取排序为前x(x暂定50)位的互联网内容的标题和排序号。
例如,从微博排行榜,获取标题为“莱昂纳多荣获奥斯卡最佳男主角”、排序为第3名的互联网内容。
步骤208、解析互联网内容;
具体地,步骤208包括:服务器确定所述互联网内容的标题,对所述标题进行中文分词解析,获得第二解析结果;所述第二解析结果包括标题中包含的至少一个词。
例如,“莱昂纳多荣获奥斯卡最佳男主角”进行分词解析后,获得分词结果(即第二解析结果)“莱昂纳多荣获奥斯卡最佳男主角”。
步骤209、生成互联网标签;
具体地,步骤209包括:服务器将第二解析结果中的词与标签记录中的标签进行比对,从第二解析结果中筛选出存在于标签记录中的至少一个词,作为互联网标签。
例如,“莱昂纳多荣获奥斯卡最佳男主角”对应的互联网标签为“莱昂纳多”和“奥斯卡”。
步骤210、确定有效标签及其对应的数字内容;
这里,查询内容标签表,确定有效标签,并确定有效标签对应的数字内容;具体地,步骤210包括:服务器根据互联网标签查询数据库中的内容标签表,筛选出所述互联网标签与内容标签有交集的标签,作为有效标签,即所述有效标签既是内容标签也是互联网标签;所述服务器根据第一关系表查询这些有效标签对应的数字内容。
例如,“莱昂纳多荣获奥斯卡最佳男主角”的有效标签为“莱昂纳多”,对应的数字内容为电影《泰坦尼克号》。
步骤211、对所述有效标签进行排序;
具体地,步骤211包括:服务器确定所有有效标签对应的互联网内容的排序;将所有有效标签根据对应的互联网内容的排序进行排序;提取排序为前y(y暂定20)位的有效标签,形成有效标签排序表。
这里,所述有效标签排序表,包括:提取的有效标签和所述有效标签对应的排序。
例如,“莱昂纳多”对应的互联网内容“莱昂纳多荣获奥斯卡最佳男主角”的排序为第3名,所以所述有效标签“莱昂纳多”排序也为第3名。
步骤212、生成多维的数字内容排序矩阵;
具体地,步骤212包括:服务器以由高到低依次查询有效标签排序表包含的各有效标签对应的数字内容;
按照所述数字内容的首发时间的进行倒序排序,取每个有效标签下首发时间最新的前z(z由网站运营人员设定,例如设定z为100)个数字内容,形成数字内容的首发时间排序表;这里,所述首发时间排序表包括:有效标签对应的前z个数字内容及各数字内容按首发时间进行倒序排序后对应的排序;当有效标签对应的数字内容不满z个时,则取所述有效标签对应的数字内容。
所述服务器以有效标签的排序(以下称第一排序)为第一维度,数字内容按首发时间进行倒序排序后对应的排序(以下称第二排序)为第二维度,将各有效标签对应的数字内容进行组合,形成一个以第一排序为x轴、第二排序为y轴的二维的数字内容排序矩阵。
例如,针对20个有效标签,且每个有效标签取前100个数字内容,构建如表6所示的二维的数字内容排序矩阵。
Figure BDA0001431143100000161
表6
针对表6中的各个数字内容,从第1行开始先按列(第1列-第20列)再按行(第1行-第100行)的方式输出,保存入数据库的数字内容排序表中。
表6中数字内容的输出顺序为:数字内容1_1、数字内容1_2……数字内容1_19、数字内容1_20……数字内容2_1、数字内容2_2……数字内容2_19、数字内容2_20……数字内容100_1、数字内容100_2……数字内容100_99、数字内容100_20。第i_j个数字内容的输出顺序为(i-1)*20+j,其中,i属于[1,100],j属于[1,20]。
所述数字内容排序表保存在数据库中,所述数字内容排序表如下表7所示;
Figure BDA0001431143100000162
Figure BDA0001431143100000171
表7
具体地,本发明实施例提供的数字内容排序方法,还可以包括:
由网站运营人员确定增加的排序维度,并设定各个维度的优先级;
服务器根据各个维度的优先级输出三维至N维的数字内容的矩阵。所述维度可以是:数字内容的用户访问量、权威机构对数字内容的内容评分、数字内容的搜索指数等。
图3为本发明实施例提供的数字内容排序装置一的结构示意图;如图4所示,所述装置包括:第一处理模块301、第二处理模块302和第三处理模块303;其中,
所述第一处理模块301,用于分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
所述第二处理模块302,用于根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
所述第三处理模块303,用于根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序。
具体地,所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述第一处理模块301,具体用于对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询保存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
具体地,所述互联网实时内容,包括:内容标题;
所述第一处理模块301,具体用于对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询保存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
具体地,所述第二处理模块302,具体用于确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
具体地,所述数字内容,还包括:首发时间;
所述第三处理模块303,具体用于确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
具体地,所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述第三处理模块303,具体用于确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
图4为本发明实施例提供的数字内容排序装置二的结构示意图;如图4所示,所述装置40包括:
处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402;其中,
所述处理器401用于运行所述计算机程序时,执行:
分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序
所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述处理器401还用于运行所述计算机程序时,执行:
对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询保存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
所述互联网实时内容,包括:内容标题;
所述处理器401还用于运行所述计算机程序时,执行:
对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询保存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
所述处理器401还用于运行所述计算机程序时,执行:
确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
所述数字内容,还包括:首发时间;
所述处理器401还用于运行所述计算机程序时,执行:
确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;所述处理器401还用于运行所述计算机程序时,执行:
确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
需要说明的是:上述实施例提供的数字内容排序装置与数字内容排序方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实际应用时,所述装置40还可以包括:至少一个网络接口403。数字内容排序装置40中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统404。
其中,所述处理器404的个数可以为至少一个。
网络接口403用于数字内容排序装置40与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器402用于存储各种类型的数据以支持语音处理装置40的操作。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,数字内容排序装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行:
分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序
所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述计算机程序被处理器运行时,执行:
对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询保存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
所述互联网实时内容,包括:内容标题;
所述计算机程序被处理器运行时,执行:
对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询保存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
所述计算机程序被处理器运行时,执行:
确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
所述数字内容,还包括:首发时间;
所述计算机程序被处理器运行时,执行:
确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述计算机程序被处理器运行时,执行:
确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数字内容排序方法,其特征在于,所述方法包括:
分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序;
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,包括:以所述有效标签的排序作为第一维度以及以所述有效标签对应的数字内容的首发时间作为第二维度,构建二维矩阵;根据所述二维矩阵确定所述有效标签对应的数字内容的排序。
2.根据权利要求1所述的方法,其特征在于,所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述解析所述数字内容,确定所述数字内容包含的至少一个内容标签,包括:
对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询预存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
3.根据权利要求1所述的方法,其特征在于,所述互联网实时内容,包括:内容标题;
所述解析所述互联网实时内容,确定所述互联网实时内容包含的至少一个互联网标签,包括:
对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询预存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
4.根据权利要求1、2或3所述的方法,其特征在于,所述根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,包括:
确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
5.根据权利要求1、2或3所述的方法,其特征在于,所述数字内容,还包括:首发时间;
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,包括:
确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
6.根据权利要求5所述的方法,其特征在于,所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序,还包括:
确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
7.一种数字内容排序装置,其特征在于,所述装置包括:第一处理模块、第二处理模块和第三处理模块;其中,
所述第一处理模块,用于分别获取并解析数字内容和互联网实时内容,确定所述数字内容包含的至少一个内容标签和所述互联网实时内容包含的至少一个互联网标签;
所述第二处理模块,用于根据所述至少一个内容标签和所述至少一个互联网标签确定至少一个有效标签,将所述至少一个有效标签对应的互联网实时内容的排序,作为有效标签的排序;
所述第三处理模块,用于根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间,确定所述有效标签对应的数字内容的排序;其中,所述第三处理模块具体用于:以所述有效标签的排序作为第一维度以及以所述有效标签对应的数字内容的首发时间作为第二维度,构建二维矩阵;根据所述二维矩阵确定所述有效标签对应的数字内容的排序。
8.根据权利要求7所述的装置,其特征在于,所述数字内容,至少包括以下之一:内容名称、相关人物、内容介绍、分类名称;
所述第一处理模块,具体用于对所述内容名称、相关人物、内容介绍、分类名称中至少一个进行分词解析,获得第一解析结果,所述第一解析结果包括至少一个词;
根据所述第一解析结果查询保存的标签记录,将所述标签记录和所述第一解析结果中均包含的词,作为所述内容标签。
9.根据权利要求7所述的装置,其特征在于,所述互联网实时内容,包括:内容标题;
所述第一处理模块,具体用于对所述互联网实时内容的内容标题进行分词解析,获得第二解析结果,所述第二解析结果包括至少一个词;
根据所述第二解析结果查询保存的标签记录,将所述标签记录和所述第二解析结果中均包含的词,作为所述互联网标签。
10.根据权利要求7、8或9所述的装置,其特征在于,所述第二处理模块,具体用于确定所述至少一个内容标签和所述至少一个互联网标签均包含的标签,作为所述有效标签。
11.根据权利要求7所述的装置,其特征在于,所述数字内容,还包括:首发时间;
所述第三处理模块,具体用于确定各有效标签对应的至少一个数字内容,确定所述至少一个数字内容的首发时间;
根据所述首发时间对所述至少一个数字内容进行排序,获得排序结果;
根据所述排序结果和所述有效标签的排序,确定所述各有效标签对应的至少一个数字内容的排序。
12.根据权利要求11所述的装置,其特征在于,所述数字内容,还包括:用户访问量、搜索指数和内容评分中的至少一个;
所述第三处理模块,还用于确定所述有效标签对应的数字内容的用户访问量、搜索指数和内容评分中的至少一个;
根据所述有效标签的排序和所述有效标签对应的数字内容的首发时间、以及所述用户访问量、搜索指数和内容评分中的至少一个,确定所述各有效标签对应的至少一个数字内容的排序。
13.一种数字内容排序装置,其特征在于,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至6任一所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN201710943328.0A 2017-10-11 2017-10-11 数字内容排序方法、装置和计算机可读存储介质 Active CN107807964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710943328.0A CN107807964B (zh) 2017-10-11 2017-10-11 数字内容排序方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710943328.0A CN107807964B (zh) 2017-10-11 2017-10-11 数字内容排序方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107807964A CN107807964A (zh) 2018-03-16
CN107807964B true CN107807964B (zh) 2021-02-09

Family

ID=61592822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710943328.0A Active CN107807964B (zh) 2017-10-11 2017-10-11 数字内容排序方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107807964B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040775A (zh) * 2018-08-24 2018-12-18 深圳创维-Rgb电子有限公司 视频关联方法、装置及计算机可读存储介质
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324686A (zh) * 2013-06-03 2013-09-25 中国科学院自动化研究所 基于文本流网络的实时个性化视频推荐方法
CN105550277A (zh) * 2015-12-10 2016-05-04 中国传媒大学 基于标签热度的智能电影排名和评价系统
CN105721905A (zh) * 2016-02-02 2016-06-29 林蔚 一种基于视频标签的广告推送方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8839141B2 (en) * 2007-06-01 2014-09-16 Napo Enterprises, Llc Method and system for visually indicating a replay status of media items on a media device
CN102880712B (zh) * 2012-10-08 2015-07-22 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN107180089A (zh) * 2017-05-11 2017-09-19 夏振宇 基于互联网的版权作品的推荐方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324686A (zh) * 2013-06-03 2013-09-25 中国科学院自动化研究所 基于文本流网络的实时个性化视频推荐方法
CN105550277A (zh) * 2015-12-10 2016-05-04 中国传媒大学 基于标签热度的智能电影排名和评价系统
CN105721905A (zh) * 2016-02-02 2016-06-29 林蔚 一种基于视频标签的广告推送方法

Also Published As

Publication number Publication date
CN107807964A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
US10296640B1 (en) Video segments for a video related to a task
US8725717B2 (en) System and method for identifying topics for short text communications
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
US9535911B2 (en) Processing a content item with regard to an event
US9846744B2 (en) Media discovery and playlist generation
US8874586B1 (en) Authority management for electronic searches
US20100306249A1 (en) Social network systems and methods
US20100262597A1 (en) Method and system for searching information of collective emotion based on comments about contents on internet
CN101305390A (zh) 媒体对象元数据关联和排名
CN103902656A (zh) 媒体对象元数据关联和排名
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN112015962A (zh) 一种政务智能大数据中心体系架构
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
Ivanov et al. Object-based tag propagation for semi-automatic annotation of images
Chen et al. WTR: A test collection for web table retrieval
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Tan et al. Placing videos on a semantic hierarchy for search result navigation
Choi et al. Consento: a new framework for opinion based entity search and summarization
Subramanya et al. Socialtagger-collaborative tagging for blogs in the long tail
Lu et al. Exploratory product image search with circle-to-search interaction
Lucchese et al. Recommender Systems.
Dahake et al. Developing Unsupervised Learning Techniques for Business News Articles
de Jesus et al. Enriching an Authority File of Scientific Conferences with Information Extracted from the Web.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant