CN111782924B - 内容处理方法、装置、设备以及存储介质 - Google Patents
内容处理方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111782924B CN111782924B CN202010614109.XA CN202010614109A CN111782924B CN 111782924 B CN111782924 B CN 111782924B CN 202010614109 A CN202010614109 A CN 202010614109A CN 111782924 B CN111782924 B CN 111782924B
- Authority
- CN
- China
- Prior art keywords
- content
- keywords
- processed
- determining
- heat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了内容处理方法、装置、设备以及存储介质,涉及云计算、自然语言处理和智能搜索领域。具体实现方案为:对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;根据聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;根据所述待处理内容在所述指定时段内的热度,确定热点内容。本申请提高了输出内容的热度,从而提高了点击率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及云计算、自然语言处理和智能搜索等领域。
背景技术
传统的社区站点在确定对外所展现的内容,往往考虑的是内容的权威性、相关性、互动性和丰富度。然而随着信息迭代速度的加快,人们提高了对搜索信息时效性的要求。若采用传统的内容展现策略,输出的内容难以满足用户需求。
发明内容
本申请提供了一种用于内容处理方法、装置、设备以及存储介质。
第一方面,本申请提供了一种内容处理方法,包括:
对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
根据聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词;
根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度;
根据待处理内容在指定时段内的热度,确定热点内容。
第二方面,本申请提供一种内容处理装置,包括:
聚合模块,用于对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
关键词确定模块,用于聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词;
内容热度确定模块,用于根据待处理内容中出现的关键词的特征,确定待处理内容
热点内容确定模块,用于根据待处理内容在指定时段内的热度,确定热点内容。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任意实施例提供的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请任意实施例提供的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
根据本申请的技术提高了输出内容的热度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的内容处理方法的流程图一;
图2是根据本申请实施例提供的内容处理方法的流程图二;
图3是根据本申请实施例提供的内容处理方法的流程图三;
图4是根据本申请实施例提供的内容处理方法的一示例图;
图5是根据本申请实施例提供的内容处理装置的结构框图一;
图6是根据本申请实施例提供的内容处理装置的结构框图二;
图7是根据本申请实施例提供的内容处理装置的结构框图三;
图8是根据本申请实施例提供的内容处理装置的结构框图四;
图9是用来实现本申请实施例的内容处理的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例公开了一种内容处理方法,涉及云计算、自然语言处理和智能搜索等领域。参见图1,内容处理方法包括:
S101、对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
S102、根据聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词
S103、根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度。
S104、根据待处理内容在指定时段内的热度,确定热点内容。
其中,待处理内容可以为线上社区里的内容,例如用户发布的贴子、日志、文章、问答或心情等等。内容的形式可以包括但不限于文字、图片、链接和视频等。
其中,指定时段可以为用户指定的某个时间段。例如指定采集1点~2点区间内,或者指定采集1小时内搜索引擎的查询数据。通常,每隔预设时间例如5分钟采集一次搜索引擎的查询数据并存储,然后从存储的数据中选取指定时段的查询数据,例如选取最近1小时内的查询数据。
其中,搜索引擎可以为待处理内容所在站点的搜索引擎和/或站点外的搜索引擎。站点可以包括各种网站。例如,待处理内容所在站点的搜索引擎可以为某个网站内部可以搜索本网站内容的搜索引擎。站点外的搜索引擎可以为某些专用的搜索引擎,例如百度。
通过分析搜索引擎侧引入的查询数据,确定当前的关键词。关键词也可以称为热搜词,与用户在一段时间内用搜索引擎搜索的查询词的频率有关。关键词从一定程度上体现了当前热点,在当前站点内的所有内容中挖掘和关键词相关性较高的内容,得到的内容的热点程度较高。利用该热点内容在站内或者其它平台进行展现时,可以提高用户点击率。此外,其它平台在对展现的内容评估时,内容的热度越高,展现的概率越高。
在一种实施方式中,参见图2,步骤S102根据聚合后得到的每个预设时长内的查询数据,确定所述指定时内的关键词,包括:
S201、对聚合后得到的每个预设时长内的查询数据进行词频统计。
可选地,对聚合后得到的每个预设时长内的查询数据进行切词处理,再对切词处理后的每个预设时长内的查询数据进行词频统计。
S202、根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词。
可选地,每个预设时长对应的关键词词频标准可以为词频超过预设值、词频排序位于前预设位数。查询数据可以包括用户输入搜索引擎的词、句等内容。可以记录查询数据对应的查询时间,将指定时段的查询数据按照预设时长进行聚合。例如,指定时段为上午7点到8点,预设时长为10分钟、30分钟、1小时。在某个上午8点的时候,选取出上午7点到8点的查询数据,然后按照10分钟、30分钟、1小时分类。通常选取最近的10分钟、30分钟和1小时内的查询数据,即10分钟的为7:51到8:00,30分钟的为7:31到8:00,1小时的为7:00到8:00。然后对7:51到8:00、7:31到8:00和7:00到8:00这三组查询数据的词频进行统计。假设各个时长的关键词频标准为:5分钟的为词频超过1千次;30分钟为词频超过1万次;设定1小时的为词频超过10万次。根据上述关键词标准可以选取各个预设时长的查询数据中关键词。
S203、根据每个预设时长内的关键词,确定指定时段内的关键词。
可选地,选取每个预设时长内的关键词里共同的关键词,作为指定时段内的关键词。在其它实施例中,也可以按照需求调整为满足。
例如,基于上述示例关键词频标准,选出各个时长的关键词为:10分钟的为词A、词B和词C,30分钟的为词A、词D和词E,1小时的为词A、词C和词E;由于三个时长里的关键词均出现了词A,此时可以选取词A作为上午7点到8点这个时段内的关键词。
确定关键词的时候,将满足不同时长要求的词才作为关键词,可以避免一些瞬时查询量突增但又很快消逝的词语被选为关键词的情况,对关键词的考虑更加全面。
如图3所示,在一种实施方式中,内容处理方法还包括:
S301、获取黑词数据,并根据黑词数据对关键词进行过滤,其中,黑词数据包括常态关键词和语气助词中至少一项。
黑词数据包括:(1)语气助词,比如“啊”、“哎哟”和“哈哈”等,这些词语通常无实际意义;(2)常态热词,比如“天气”、“日期”、“知道”、“好像”和“帮忙”等等,这些词语通常与热点无关的词。可选地,黑词过滤可以设置于切词处理之后进行。在进行热词挖掘时进行黑词过滤,可以过滤查询数据中和热点无关的词语,使得到的关键词更能体现当前热点。
S302、获取白词数据,并根据白词数据增加新的关键词,其中,白词数据包括用户指定的关键词。
由于一些可能成为热点的突发事件在初期传播时,比较少用户会进行检索。这时如果单纯分析用户的查询数据确定关键词,会忽略和这些突发事件相关的关键词。因此,在预估某些突发事件可能成为热点时,获取与其相关的关键词作为白词数据,可以弥补基于查询数据确定关键词的滞后性。
举例说明,一些容易产生热点事件的词,比如“两会”、“开学”和“双十一”等,这些词可以属于被挖掘的白词数据集合。
在一种实施方式中,内容处理方法还包括:
获取关键词在指定时段内的热度;其中,关键词在指定时段内容的热度可以根据在步骤S202对查询数据的词频统计进行确定。
步骤S102,包括:根据待处理内容中出现的关键词的特征以及关键词在指定时段内的热度,确定待处理内容在指定时段内的热度。
比如将多个关键词的词频按照大小分成1、2、3……若干等,起对应的热度为1、0.9、0.8……,假设一关键词的特征为关键词的个数,内容的标题中包括的三个关键词,三个关键词的热度依次为1、0.9、0.8,那么该关键词的特征值为1+0.9+0.8=2.7。
由于不同词频的关键词,对内容热度计算的贡献度不一样,因此基于各个关键词的热度计算热点内容的关键词特征,得到的待处理内容在指定时段内的热度更加准确。
在一种实施方式中,步骤S102,包括:
(1)根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理;
可选地,采用式1对待处理内容的关键词的特征进行归一化处理:
式1,
其中,i表示第i条待处理内容,i∈[1,n],n为整数且n≥1;j表示第j项关键词的特征,a表示归一化处理前的关键词的特征,b表示归一化处理后的关键词的特征。
(2)根据归一化处理后的待处理内容的关键词的特征,确定待处理内容在指定时段内的热度。
可选地,获取关键词的特征对应的权重,对待处理内容中关键词的特征进行加权求和,得到待处理内容在指定时段内的热度。
可选地,关键词的特征对应的权重为采用层次分析法(Analytic HierarchyProcess,简称 AHP)计算得到的。
通过归一化处理,消除在计算各个指标对内容热点程度不同权重时造成的影响。
在一种实施方式中,关键词的特征包括下述至少一项:指定位置的关键词个数、指定位置的关键词长度占比和指定位置的关键词总频次,指定位置包括标题、正文、回帖中的至少一项。
采用关键词个数、关键词长度占比以及关键词总频次多个维度的关键词特征,确定的内容的热点分值更加准确。并且,不同的关键词特征对于内容热点程度影响大小是不同的,多个特征可以提供用户对不同的特征进行权重的设计。
在一种实施方式中,步骤S103根据待处理内容在指定时段内的热度,确定热点内容,包括:
对多条待处理内容在指定时段内的热度进行排序,按照排序选取预设数量待处理内容确定为热点内容。或者,在指定时段内的热度超过预设热度阈值的待处理内容作为热点内容。
其中,按照排序选取的预设数量和预设热度阈值,均根据热点内容对应输出的目标站点进行设定。
在步骤S103后,方法还包括:定时将热点内容输出至目标站点。目标站点可以为当前站点或当前站点外的其它站点。
下述为本申请实施例的一个具体示例。
本示例分为4个步骤来描述:(1)热点query挖掘;(2)特征提取;(3)热度分值计算;(4)热点内容输出,整体示例的框架见图4,图4中以帖子为例,详细流程如下:
(1)热点query挖掘。
a)热词聚合
每隔5分钟产出一次最近5分钟用户在搜索引擎的查询数据,得到这些查询数据进行30分钟、1小时、3小时的聚合,对聚合后的数据进行自然语言处理(Natural LanguageProcessing,nlp)切词以及词频统计,得到热搜词。
b)黑词过滤
基于黑词配置,对热搜词进行黑词过滤。黑词有语气助词和有常态热词等等。
c)白词干预
基于白词配置,添加新的热搜词。
(2)特征提取
a)特征指标确定
如图4以帖子为例,每一条内容包括帖子内容和回帖内容,确定每一条内容的6种热搜词的特征指标:标题中热搜词个数、标题中热搜词长度占比、标题中热搜词总频次,回贴中热搜词个数、回贴中热搜词长度占比和回贴中热搜词总频次。
b)建立评价特征矩阵。
由以上6种特征指标及N条内容可得一个N行6列的评价矩阵A。利用离线服务定期统计每条内容的6个特征指标值。
其中,在确定特征指标值时,还可以依据词频大小对热搜词进行系数加权,不同词频的词,对内容热度计算的贡献度不一样,比如将词频按照大小分成1、2、3……若干等,起对应的贡献度为1、0.9、0.8……。例如,第一行第四列元素a14对应为第一条内容的标题中热搜词对应的贡献度之和。
c)归一化处理。由于各个特征指标的量纲不同,取值范围也不同。因此,为了消除在计算各个特征指标对内容的热度不同权重时造成的影响,要矩阵A做无量纲化处理得到矩阵B,归一化处理如下:
式1,
其中,i表示第i条待处理内容,i∈[1,n];j表示第j项热搜词的特征,b表示归一化处理前的特征指标,a表示归一化处理后的特征指标;
d)获取特征指标的权重w1、w2、w3、w4、w5、w6。权重为利用层次分析法计算所得。
(3)热度计算
获得加权评价指标矩阵。由于文中提到的6个特征指标对于内容的热度影响大小是不同的,所以需要对矩阵B中各列值进行加权求和。6个特征指标的权重构成了向量(w1,w2,w3,w4 ,w5,w6),且w1+w2+w3+w4 +w5 +w6=1,由此可得加权评价指标矩阵,其中,/>表示向量/>的倒置,加权评价指标矩阵W中的每一行均为一条内容的热度,即图4所示的帖子时效性得分。
(4)热点内容输出
a)将定时产出的热度较高的内容在站内输出;
b)将定时产出的热度较高的内容在站外输出;
c)根据日志埋点进行统计热点内容的收益,收益包括用户的点击量。
对应的,图5示出本申请实施例的一种内容处理装置的结构框图,如图5所示,所述装置500包括:
聚合模块501,用于对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
关键词确定模块502,用于聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;
内容热度确定模块503,用于根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度;
热点内容确定模块504,用于根据待处理内容在指定时段内的热度,确定热点内容。
在一种实施方式中,参见图6,关键词确定模块502,包括:
词频统计子模块601,用于对聚合后得到的每个预设时长内的查询数据进行词频统计;
第一关键词确定子模块602,用于根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词;
第二关键词确定子模块603,用于根据每个预设时长内的关键词,确定指定时段内的关键词。
在一种实施方式中,参见图7,内容处理装置700还包括:
关键词过滤模块701,用于获取黑词数据,并根据黑词数据对关键词进行过滤,其中,黑词数据包括常态关键词和语气助词中至少一项;
关键词增加模块702,用于获取白词数据,并根据白词数据增加新的关键词,其中,白词数据包括用户指定的关键词。
在一种实施方式中,参见图7,内容处理装置700还包括:
关键词热度获取模块703,用于获取关键词在指定时段内的热度;
内容热度确定模块502用于根据待处理内容中出现的关键词的特征以及关键词在指定时段内的热度,确定待处理内容在指定时段内的热度。
在一种实施方式中,参见图8,内容热度确定模块503,包括:
归一处理子模块801,用于根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理;
可选地,采用式1对待处理内容的关键词的特征进行归一化处理:
式1,
其中,i表示第i条待处理内容,i∈[1,n],n为整数且n≥1;j表示第j项关键词的特征,a表示归一化处理前的关键词的特征,b表示归一化处理后的关键词的特征;
内容热度确定子模块802,用于根据归一化处理后的待处理内容的关键词的特征,确定待处理内容在指定时段内的热度。
在一种实施方式中,关键词的特征包括下述至少一项:指定位置的关键词个数、指定位置的关键词长度占比和指定位置的关键词总频次,指定位置包括标题、正文、回帖中的至少一项。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图9所示,是根据本申请实施例的内容处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的内容处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的内容处理的方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的内容处理的方法对应的程序指令/模块(例如,附图5所示的聚合模块501、关键词确定模块502、内容热度确定模块503和热点内容确定模块504)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的内容处理的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据内容处理的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至内容处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
内容处理的方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与内容处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种内容处理方法,包括:
对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
根据聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;
根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;
根据所述待处理内容在所述指定时段内的热度,确定热点内容;
其中,所述根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度,包括:
根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理;根据归一化处理后的所述待处理内容的关键词的特征,确定所述待处理内容在所述指定时段内的热度;
所述根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理,包括:
采用如下公式对待处理内容中出现的关键词的特征进行归一化处理:
其中,i表示第i条待处理内容,i∈[1,n],n为整数且n≥1;j表示第j项关键词的特征,a表示归一化处理前的关键词的特征,b表示归一化处理后的关键词的特征;
其中,所述关键词的特征包括下述至少一项:指定位置的关键词个数、指定位置的关键词长度占比和指定位置的关键词总频次,所述指定位置包括标题、正文、回帖中的至少一项。
2.根据权利要求1所述的方法,其中,
所述根据聚合后得到的每个预设时长内的查询数据,确定所述指定时内的关键词包括:
对聚合后得到的每个预设时长内的查询数据进行词频统计;
根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词;
根据每个预设时长内的关键词,确定所述指定时段内的关键词。
3.根据权利要求1所述的方法,其中,还包括下述至少一项:
获取黑词数据,并根据所述黑词数据对所述关键词进行过滤,其中,所述黑词数据包括常态关键词和语气助词中至少一项;
获取白词数据,并根据所述白词数据增加新的关键词,其中,所述白词数据包括用户指定的关键词。
4.根据权利要求1所述的方法,其中,还包括:获取所述关键词在所述指定时段内的热度;
所述根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度,包括:根据待处理内容中出现的关键词的特征以及所述关键词在所述指定时段内的热度,确定所述待处理内容在所述指定时段内的热度。
5.一种内容处理装置,包括:
聚合模块,用于对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
关键词确定模块,用于聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;
内容热度确定模块,用于根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;
热点内容确定模块,用于根据所述待处理内容在所述指定时段内的热度,确定热点内容;
其中,所述内容热度确定模块,包括:
归一处理子模块,用于根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理;
内容热度确定子模块,用于根据归一化处理后的所述待处理内容的关键词的特征,确定所述待处理内容在所述指定时段内的热度;
所述归一处理子模块,具体用于:采用如下公式对待处理内容中出现的关键词的特征进行归一化处理:
其中,i表示第i条待处理内容,i∈[1,n],n为整数且n≥1;j表示第j项关键词的特征,a表示归一化处理前的关键词的特征,b表示归一化处理后的关键词的特征;
其中,所述关键词的特征包括下述至少一项:指定位置的关键词个数、指定位置的关键词长度占比和指定位置的关键词总频次,所述指定位置包括标题、正文、回帖中的至少一项。
6.根据权利要求5所述的装置,其中,所述关键词确定模块,包括:
词频统计子模块,用于对聚合后得到的每个预设时长内的查询数据进行词频统计;
第一关键词确定子模块,用于根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词;
第二关键词确定子模块,用于根据每个预设时长内的关键词,确定所述指定时段内的关键词。
7.根据权利要求5所述的装置,其中,还包括:
关键词过滤模块,用于获取黑词数据,并根据所述黑词数据对所述关键词进行过滤,其中,所述黑词数据包括常态关键词和语气助词中至少一项;
关键词增加模块,用于获取白词数据,并根据所述白词数据增加新的关键词,其中,所述白词数据包括用户指定的关键词。
8.根据权利要求5所述的装置,其中,还包括:
关键词热度获取模块,用于获取所述关键词在所述指定时段内的热度;
所述内容热度确定模块用于根据所述待处理内容中出现的关键词的特征以及所述关键词在所述指定时段内的热度,确定所述待处理内容在所述指定时段内的热度。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614109.XA CN111782924B (zh) | 2020-06-30 | 2020-06-30 | 内容处理方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614109.XA CN111782924B (zh) | 2020-06-30 | 2020-06-30 | 内容处理方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782924A CN111782924A (zh) | 2020-10-16 |
CN111782924B true CN111782924B (zh) | 2023-09-29 |
Family
ID=72759803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614109.XA Active CN111782924B (zh) | 2020-06-30 | 2020-06-30 | 内容处理方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782924B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120876A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京奇艺世纪科技有限公司 | 一种搜索缓存更新方法及装置 |
CN108572990A (zh) * | 2017-03-14 | 2018-09-25 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN110457580A (zh) * | 2019-07-31 | 2019-11-15 | 百度时代网络技术(北京)有限公司 | 基于搜索的热点推荐方法及装置 |
CN110688846A (zh) * | 2018-07-06 | 2020-01-14 | 北京京东尚科信息技术有限公司 | 周期词挖掘方法、系统、电子设备及可读存储介质 |
CN110990708A (zh) * | 2019-12-11 | 2020-04-10 | Oppo(重庆)智能科技有限公司 | 热点事件确定方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9430498B2 (en) * | 2014-12-13 | 2016-08-30 | Velvet Ropes, Inc. | Methods and systems for generating a digital celebrity map tour guide |
CN107315823B (zh) * | 2017-07-04 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 基于电子商务的数据处理方法与装置 |
-
2020
- 2020-06-30 CN CN202010614109.XA patent/CN111782924B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120876A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京奇艺世纪科技有限公司 | 一种搜索缓存更新方法及装置 |
CN108572990A (zh) * | 2017-03-14 | 2018-09-25 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN110688846A (zh) * | 2018-07-06 | 2020-01-14 | 北京京东尚科信息技术有限公司 | 周期词挖掘方法、系统、电子设备及可读存储介质 |
CN110457580A (zh) * | 2019-07-31 | 2019-11-15 | 百度时代网络技术(北京)有限公司 | 基于搜索的热点推荐方法及装置 |
CN110990708A (zh) * | 2019-12-11 | 2020-04-10 | Oppo(重庆)智能科技有限公司 | 热点事件确定方法、装置、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
基于AHP与TOPSIS方法的中文搜索引擎评价体系;方曦;李娜;葛月凤;;科技导报(14);全文 * |
基于用户行为的搜索关键字的权重分析;亓国涛;王颖;刘云;包智妍;;电脑编程技巧与维护(23);全文 * |
微博检索的研究进展;卫冰洁;王斌;张帅;李鹏;;中文信息学报(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111782924A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984689B (zh) | 信息检索的方法、装置、设备以及存储介质 | |
US10409868B2 (en) | Blending search results on online social networks | |
US10210243B2 (en) | Method and system for enhanced query term suggestion | |
US8639679B1 (en) | Generating query suggestions | |
CN110674406A (zh) | 推荐方法、装置、电子设备及存储介质 | |
CN104899315A (zh) | 推送用户信息的方法和装置 | |
KR20210132578A (ko) | 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체 | |
EP3879416A1 (en) | Query auto-completion method, apparatus and device, and computer storage medium | |
WO2021139221A1 (zh) | 查询自动补全的方法、装置、设备和计算机存储介质 | |
CN111666462B (zh) | 地理位置的推荐方法、装置、设备和计算机存储介质 | |
US10552438B2 (en) | Triggering method for instant search | |
CN106777282B (zh) | 相关搜索的排序方法和装置 | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
CN110427436B (zh) | 实体相似度计算的方法及装置 | |
CN112765452B (zh) | 搜索推荐方法、装置及电子设备 | |
KR20180075234A (ko) | 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치 | |
KR20140119269A (ko) | 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법 | |
CN113779381A (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
CN113127669B (zh) | 广告配图方法、装置、设备和存储介质 | |
CN112084150A (zh) | 模型训练、数据检索方法,装置,设备以及存储介质 | |
CN111782924B (zh) | 内容处理方法、装置、设备以及存储介质 | |
EP3293696A1 (en) | Similarity search using polysemous codes | |
CN112699314A (zh) | 热点事件确定方法、装置、电子设备及存储介质 | |
CN112100480A (zh) | 搜索方法、装置、设备及存储介质 | |
CN111310044A (zh) | 页面元素信息的提取方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |