CN111966899B - 搜索排序方法、系统及计算机可读存储介质 - Google Patents
搜索排序方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111966899B CN111966899B CN202010807641.3A CN202010807641A CN111966899B CN 111966899 B CN111966899 B CN 111966899B CN 202010807641 A CN202010807641 A CN 202010807641A CN 111966899 B CN111966899 B CN 111966899B
- Authority
- CN
- China
- Prior art keywords
- hot spot
- media asset
- time
- question
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种搜索排序方法、系统及计算机可读存储介质,其中方法包括以下步骤:获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;基于所述热点问句集进行媒资搜索,获取相关媒资;提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度;基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出。本发明中通过提取与热点问句相匹配的热点实体进行问句补充搜索,使召回的相关媒资更全面;本发明结合匹配度、文本信息和发布时间计算相关度,有效提高搜索的精准性。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种搜索排序方法、系统及计算机可读存储介质。
背景技术
通用的搜索方案为,用户向搜索引擎中输入查询语句,搜索引擎通过关键词匹配检索出相对应的媒资并按照匹配度从大到小的顺序反馈给用户;
基于关键词匹配进行搜索的技术方案,因查询语句的限制导致所获得的媒资往往不全面;
另一方面,存在包含相应关键词但不符合用户查询意图的媒资,甚至存在于标题和正文中添加当前热点关键词,以获取关注度的媒资,此类媒资数量众多且于该热点无关,故直接基于匹配度进行排序时,无法精准反馈热点媒资。
发明内容
本发明针对现有技术中的缺点,提供了能够向用户反馈精准且全面的热点媒资的搜索排序方法、系统及计算机可读存储介质。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种搜索排序方法,包括以下步骤:
获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
基于所述热点问句集进行媒资搜索,获取相关媒资;
提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度;
基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出。
作为一种可实施方式:
基于所述匹配度生成相应的关键词特征值;
所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
基于所述发布时间生成相应的时间特征值;
基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度。
作为一种可实施方式:
所述内容特征值包括媒资标题特征值和媒资内容特征值;
基于所述媒资标题信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资标题特征值;
基于所述媒资内容信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资内容特征值。
作为一种可实施方式:
基于热点问句获取热点发生时间;
按照预先设置的时间判断规则,基于所述热点发生时间和所述发布时间,判断对应相关媒资时间是否相关;
当判定时间不相关时,将所述相关媒资的时间特征值记为0;
当判定时间相关时,基于所述时间发生时间和所述发布时间计算对应相关媒资的时间特征值。
作为一种可实施方式,所述时间特征值的计算公式为:
其中,x为相关媒资的发布时间,t为热点发生时间,e为自然底数,a、b、c均为系数,*表示乘运算。
为一种可实施方式:
基于热点问句集进行关键词匹配,获得第一媒资,将第一媒资作为相关媒资。
作为一种可实施方式:
配置至少一个召回条件;
基于所述召回条件和热点问句集进行媒资搜索,获得第二媒资;
基于所述第一媒资和所述第二媒资,获得相关媒资。
本发明还提出一种搜索排序系统,包括:
问句补充模块,用于获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
搜索模块,用于基于所述热点问句集进行媒资搜索,获取相匹配的相关媒资;
排序模块,用于提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度,还用于基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出。
作为一种可实施方式,所述排序模块包括计算单元和排序单元,所述计算单元包括第一计算子单元、第二计算子单元、第三计算子单元和第四计算子单元;所述第一计算子单元,用于基于所述匹配度生成相应的关键词特征值;
所述第二计算子单元,用于所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
所述第三计算子单元,用于基于所述发布时间生成相应的时间特征值;
所述第四计算子单元,用于基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度。
本发明还提出一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明由于采用了以上技术方案,具有显著的技术效果:
由于同一热点事件对应的热点名称不同,如直接利用热点问句进行媒资搜索时,仅能获得与热点问句相关的媒资,无法召回其他热点名称下的相关媒资,本发明中通过提取与热点问句相匹配的热点实体,利用所得的热点实体进行问句补充搜索,使召回的相关媒资更全面;且本发明基于提取相关媒资与热点问句集的匹配度,以及所述相关媒资文本信息和发布时间共同计算所述相关媒资与所述热点问句集的相关度,基于所述相关度对相关媒资进行筛选和排序,有效提高搜索的精准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种搜索排序方法的工作流程示意图;
图2是本发明一种搜索排序方法的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种搜索排序方法,如图1所示,包括以下步骤:
S100、获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
S200、基于所述热点问句集进行媒资搜索,获取相关媒资;
S300、提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度;
由此可见,本实施例中结合相关媒资的文本信息、发布时间以及其与热点问句集的匹配度共同计算所述相关媒资和热点问句集的相关度,所得特征值与用户的搜索意图更贴合。
S400、基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出。
由于同一热点事件对应的热点名称不同,如直接利用热点问句进行媒资搜索时,仅能获得与热点问句相关的媒资,无法召回其他热点名称下的相关媒资,本实施例中通过提取与热点问句相匹配的热点实体,利用所得的热点实体进行问句补充搜索,使召回的相关媒资更全面。
例如可预先收集热点问句样本,计算热点问句与各热点问句样本的相似度,提取相似度大于预设相似度阈值(0.8)的热点问句样本作为热点实体。
本实施例中基于知识图谱提取热点实体,具体步骤为:
预先构建包含热点实体以及各热点实体关系的知识图谱;
计算热点问句与热点实体的相似度,提取相似度大于预设相似度阈值(0.8)的热点实体,获得第一热点实体;
基于知识图谱中各热点实体的关联关系,提取与所述第一热点实体相关联的热点实体,获得第二热点实体;
基于所述热点问句、第一热点实体、第二热点实体生成热点问句集。
注,在实际使用时,本领域技术人员可根据实际情况,仅利用热点问句和第一热点实体构建热点问句集。
所述知识图谱包括多个实体以及实体之间的边连接,本实施例中实体包括热点实体、人物、地点、机构,所述热点实体不仅关联人物、地点和机构,还将关联与其相似的热点实体。
上述热点实体为预先收集的热点问句样本,当热点问句样本作为热点实体进入知识图谱时,计算该热点问句样本与知识图谱中其他热点实体的相似度,基于所述相似度建立热点实体之间的关联关系。
例如可计算热点问句样本与知识图谱中其他热点实体的杰卡德系数(Jaccard系数)作为相似度,当相似度大于预设的相似度阈值(0.8)时,将热点问句样本与相应热点实体相关联。
注:本领域技术人员可根据实际需要自行构建知识图谱,仅需所述知识图谱中包含上述实体,且热点实体之间基于相似度相关联即可,本实施例不对构建方式做限定。
进一步地,步骤S200中基于所述热点问句集进行媒资搜索,获取相关媒资的具体步骤为:
S210、基于热点问句集进行关键词匹配,获得第一媒资。
例如可采用现有已公开的搜索引擎(如ElasticSearch)基于关键词匹配对热点问句集进行检索,获得相应的检索结果。
上述检索结果包括相匹配的媒资和所述媒资对应的匹配度。
S220、基于用户配置的召回条件进行媒资搜索,获得第二媒资,具体步骤为:
所述召回条件为用户根据实际需要自行设定的查询规则,搜索引擎根据所述查询规则对热点问句集进行媒资搜索,所得搜索结果亦包括相匹配的媒资和所述媒资对应的匹配度。
在实际使用时,用户可不配置召回条件,直接将步骤S210所得的第一媒资作为相关媒资。
S221、配置至少一个召回条件;
S222、基于所述召回条件和热点问句集进行媒资搜索,获得第二媒资;
S223、基于所述第一媒资和所述第二媒资,获得相关媒资。
所述召回条件包括但不限于全匹配召回、比例召回和实体召回。
全匹配召回指:提取媒资标题和/或媒资内容中出现所述热点问句集中任一问句(任一问句或热点实体)所有内容的媒资,例如将某一问句进行逐字符分词,获得相应的分词集,当所述分词集中所有词于某媒资的媒资标题中出现,即将所述媒资作为第二媒资召回;
比例召回指:提取媒资标题和/或媒资内容中出现所述热点问句集中任一问句预设比例内容的媒资,即,上述分词集中预设比例(如80%)的词于某媒资的媒资标题中出现,即将所述媒资作为第二媒资召回;
实体召回指:提取媒资标题和/或媒资内容中出现与所述热点问句集中任一问句相关实体的媒资,即,提取某一问句的动词和其他限定词,并基于知识图谱提取某一问句关联的实体词(人物、机构、地理),并为上述不同类别的词配置不同的权重,如人或机构>地理>动词>其他,根据不同权重限定这些词汇在媒资标题或内容的出现情况。
在实际使用中,用户可根据所述召回条件和热点问句集对网络中的媒资进行召回,即,将所得第二媒资与所得第一媒资相合并,从而使搜索结果更全面,还可根据所述召回条件和热点问句集对第一媒资进行召回,将第二媒资作为相关媒资,从而使搜索结果更精准。
步骤S300中所述文本信息媒资标题和/或媒资内容,其中媒资标题、发布时间和匹配度可直接进行提取,故不在本说明书中进行详细介绍,提取媒资内容的具体方式如下:
当所述相关媒资的类型为文本时,直接提取所述媒资的摘要作为媒资内容,否则将所述相关媒资进行文本转换,将所获得的文本作为媒资内容。
如所述相关媒资为图片或视频时,可采用任意一种已公开的语义提取模型提取所述相关媒资的语义信息,将所得语义信息作为媒资内容。
进一步地,步骤S300中计算所述相关媒资与所述热点问句集的相关度的具体步骤为:
S310、基于所述匹配度生成相应的关键词特征值;
由上可知,利用搜索引擎进行媒资搜索时,搜索引擎将自动生成各相关媒资的匹配度,该匹配度呈现长尾分布的趋势,本实施例中将各匹配度进行归一化处理,将所得结果作为各相关媒资的关键词特征值。
S320、所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
所述内容特征值包括媒资标题特征值和媒资内容特征值;
基于所述媒资标题信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资标题特征值;
基于所述媒资内容信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资内容特征值。
本实施例中,媒资标题特征值与媒资内容特征值为计算所得杰卡德系数及最长公共子序列比例的平均值,由于计算原理相同,故本实施例中以媒资标题特征值为例进行详细介绍,具体步骤如下:
S321、分词处理:
将所述热点问句集中各问句进行分词,生成问句分词集(A);
将所述媒资标题进行分词,生成标题分词集(B)。
S321、计算杰卡德系数J(A,B):
S323、最长公共子序列比例LCS(A,B):由于杰卡德系数未考虑问句的语序,故本实施例通过计算最长公共子序列比例以弥补语序信息,其中,最长公共子序列比例LCS(A,B)为问句分词集A与标题分词集B中的最长公共子序列长度除以该媒资标题长度的结果。
S324、计算媒资标题特征值:计算步骤S232所得杰卡德系数和步骤S233最长公共子序列比例的平均数,获得媒资标题特征值。
注,本领域技术人员可根据实际需要自行配置杰卡德系数和最长公共子序列比例的权重值,即,本实施例中配置上述两个系数对应的权重值均为0.5。
以热点问句集中仅一条问句为例,对上述计算方法进行说明,其中,问句:“高考倒计时2天”,媒资标题:“离高考还有2天,你复习的怎么样”。
问句分词集A:{高考,倒计时,2天};
标题分词集B:{离,高考,还有,2天,你,复习,的,怎么样}。
计算得J(A,B)=2/9,LCS(A,B)=4/14,媒资标题特征值为(J(A,B)+LCS(A,B))*0.5。
S330、基于所述发布时间生成相应的时间特征值,具体步骤为:
S330、基于热点问句获取热点发生时间;
本实施例中可热点发生时间,从知识图谱中获取对应热点实现发生的时间,以获得相应的热点发生时间,此为现有技术,故不再本说明书中进行详细阐述。
S330、按照预先设置的时间判断规则,基于所述热点发生时间和所述发布时间,判断对应相关媒资时间是否相关;
本实施例中,预设第一时间阈值和第二时间阈值,其中第一时间阈值小于等于0,第二时间阈值大于第一时间阈值。
计算发布时间与热点发生时间的差值,当所述差值大于等于第一时间阈值且小于等于第二时间阈值范围时,判定时间相关,否则判定时间不相关。
本领域技术人员可自行设置第一时间阈值和第二时间阈值,本实施例中第一时间阈值为-2,第二时间阈值为7,即,当x=[t-2,t+7]时判定时间相关,其中x为相关媒资的发布时间,t为热点发生时间。
S330、当判定时间不相关时,将所述相关媒资的时间特征值记为0;
S330、当判定时间相关时,基于所述时间发生时间和所述发布时间计算对应相关媒资的时间特征值计算公式为:
其中,x为相关媒资的发布时间,t为热点发生时间,e为自然底数,a、b、c均为系数,*表示乘运算。
注,本领域技术人员可自行设置上述系数a、b、c,各系数的取值范围为(0,1)。
当不同时间段的热点名称相同时,根据关键词往往会检索出多个时间段的热点媒资,但彼此内容不相同,不符合用户查询意图,例如上述关于高考的热点,每年都存在高考相关的媒资,历年媒资将影响搜索的精准度。
本实施例通过对时间特征值表征热点发生时间与相关媒资的发布之间特征值,从而使最终排序更结合用户的搜索意图。
S340、基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度。
本实施例预先为各特征值分配权重系数,基于权重系数计算相关度,例如:
F=a1s1+a2s2+a3s3+a4s4,其中s1为关键词特征值、s2为媒资标题特征值、s3为媒资内容特征值,s4为时间特征值,a1至a4为权重系数,a1+a2+a3+a4=1,用于调节各特征值所占的比例,本领域技术人员可根据实际情况自行设定a1至a4的值。
步骤S400中基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出的具体步骤为:
基于所述相关度对各相关媒资按照从大到小的顺序排序,并将相关度大于预设相关度阈值的相关媒资作为热点媒资输出。
本领域技术人员可根据实际需要自行设置相关度阈值。
综上,现今的搜索方式不适用于对热点媒资的搜索,原因为,针对同一热点事件,不同媒资具有不同的表述方式,基于关键词匹配所搜索获得的媒资不完整,另一方面现今存在蹭热点的情况,导致基于关键词进行搜索时,往往会搜索到大量蹭热点的媒资,此类媒资包含和热点相一致的关键词和发布时间,很难进行有效过滤,导致搜索不准确。
本实施例中通过提取与热点问句相匹配的热点实体进行问句补充,从而使搜索获得的热点媒资更为完整,还通过计算各类维度对应的特征值,基于所得特征值即可计算获得相关度,基于相关度进行排序即过滤,从而提高热点媒资搜索排序的精准性。
本领域中判断两个文本相似的技术方案为:基于两个文本的向量信息进行余弦相似度计算,将所得结果作为相关度,此种方案需要预先收集大量的相关语料进行模型训练,且在使用过程,仍需不断采集大量语料更新模型才能向量的准确性,此种技术方案过于复杂,与该方案相比,本实施例中相关度计算的方案更为简单高效。
实施例2、一种搜索排序系统,如图2所示,包括:
问句补充模块100,用于获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
搜索模块200,用于基于所述热点问句集进行媒资搜索,获取相匹配的相关媒资;
排序模块300,用于提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度,还用于基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出。
进一步地,所述排序模块300包括计算单元310和排序单元320,所述计算单元310包括第一计算子单元、第二计算子单元、第三计算子单元和第四计算子单元;所述第一计算子单元,用于基于所述匹配度生成相应的关键词特征值;
所述第二计算子单元,用于所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
所述第三计算子单元,用于基于所述发布时间生成相应的时间特征值;
所述第四计算子单元,用于基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度。
进一步地,所述内容特征值包括媒资标题特征值和媒资内容特征值,所述第二计算子单元被配置为:
基于所述媒资标题信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资标题特征值;
基于所述媒资内容信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资内容特征值。
进一步地,第三计算子单元被配置为:基于热点问句获取热点发生时间;
按照预先设置的时间判断规则,基于所述热点发生时间和所述发布时间,判断对应相关媒资时间是否相关;
当判定时间不相关时,将所述相关媒资的时间特征值记为0;
当判定时间相关时,基于所述时间发生时间和所述发布时间计算对应相关媒资的时间特征值。
进一步地,所述搜索模块200包括第一召回单元和第二召回单元;
所述第一召回单元,用于基于热点问句集进行关键词匹配,获得第一媒资,将第一媒资作为相关媒资。
所述第二召回单元,被配置为:
配置至少一个召回条件;
基于所述召回条件和热点问句集进行媒资搜索,获得第二媒资;
基于所述第一媒资和所述第二媒资,获得相关媒资。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
实施例3、一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现实施例1所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (7)
1.一种搜索排序方法,其特征在于包括以下步骤:
获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
基于所述热点问句集进行媒资搜索,获取相关媒资;
提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度;
基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出;
其中,提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度的具体步骤为;
基于所述匹配度生成相应的关键词特征值;
所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
基于所述发布时间生成相应的时间特征值;
基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度;
其中,基于所述发布时间生成相应的时间特征值的具体步骤为:
基于热点问句获取热点发生时间;
按照预先设置的时间判断规则,基于所述热点发生时间和所述发布时间,判断对应相关媒资时间是否相关;
当判定时间不相关时,将所述相关媒资的时间特征值记为0;
当判定时间相关时,基于所述发布时间计算对应相关媒资的时间特征值。
2.根据权利要求1所述的搜索排序方法,其特征在于:
所述内容特征值包括媒资标题特征值和媒资内容特征值;
基于所述媒资标题信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资标题特征值;
基于所述媒资内容信息和所述热点问句集计算杰卡德系数和/或最长公共子序列比例,生成媒资内容特征值。
3.根据权利要求1所述的搜索排序方法,其特征在于,所述时间特征值的计算公式为:
其中,x为相关媒资的发布时间,e为自然底数,a、b、c均为系数,*表示乘运算。
4.根据权利要求1至3任一所述的搜索排序方法,其特征在于:
基于热点问句集进行关键词匹配,获得第一媒资,将第一媒资作为相关媒资。
5.根据权利要求4所述的搜索排序方法,其特征在于:
配置至少一个召回条件;
基于所述召回条件和热点问句集进行媒资搜索,获得第二媒资;
基于所述第一媒资和所述第二媒资,获得相关媒资。
6.一种搜索排序系统,其特征在于,包括:
问句补充模块,用于获取热点问句,提取与所述热点问句相匹配的热点实体,基于所述热点问句和所述热点实体生成热点问句集;
搜索模块,用于基于所述热点问句集进行媒资搜索,获取相匹配的相关媒资;
排序模块,用于提取各相关媒资与热点问句集的匹配度,以及所述相关媒资的文本信息和发布时间,计算所述相关媒资与所述热点问句集的相关度,还用于基于所述相关度对所述相关媒资进行提取,获得热点媒资,基于相关度对所述热点媒资进行排序并输出;
所述排序模块包括计算单元和排序单元,所述计算单元包括第一计算子单元、第二计算子单元、第三计算子单元和第四计算子单元;所述第一计算子单元,用于基于所述匹配度生成相应的关键词特征值;
所述第二计算子单元,用于所述文本信息为媒资标题和/或媒资内容,基于媒资标题和/或媒资内容与所述热点问句集进行相似度计算,获得相应的内容特征值;
所述第三计算子单元,用于基于所述发布时间生成相应的时间特征值;
所述第四计算子单元,用于基于所述关键词特征值、内容特征值和时间特征值生成所述相关媒资与所述热点问句集的相关度;
所述第三计算子单元被配置为:
基于热点问句获取热点发生时间;
按照预先设置的时间判断规则,基于所述热点发生时间和所述发布时间,判断对应相关媒资时间是否相关;
当判定时间不相关时,将所述相关媒资的时间特征值记为0;
当判定时间相关时,基于所述发布时间计算对应相关媒资的时间特征值。
7.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807641.3A CN111966899B (zh) | 2020-08-12 | 2020-08-12 | 搜索排序方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807641.3A CN111966899B (zh) | 2020-08-12 | 2020-08-12 | 搜索排序方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966899A CN111966899A (zh) | 2020-11-20 |
CN111966899B true CN111966899B (zh) | 2024-02-13 |
Family
ID=73365325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807641.3A Active CN111966899B (zh) | 2020-08-12 | 2020-08-12 | 搜索排序方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966899B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377976B (zh) * | 2021-08-16 | 2022-09-09 | 北京达佳互联信息技术有限公司 | 资源搜索方法、装置、计算机设备及存储介质 |
CN115129976A (zh) * | 2022-05-25 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种资源召回方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100900467B1 (ko) * | 2008-01-16 | 2009-06-02 | 넷다이버(주) | 개인 미디어 검색 서비스 시스템 및 방법 |
CN104516980A (zh) * | 2014-12-26 | 2015-04-15 | 携程计算机技术(上海)有限公司 | 搜索结果的输出方法以及服务器系统 |
CN105354300A (zh) * | 2015-11-05 | 2016-02-24 | 上海智臻智能网络科技股份有限公司 | 一种信息推荐方法及装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN110096655A (zh) * | 2019-04-29 | 2019-08-06 | 北京字节跳动网络技术有限公司 | 搜索结果的排序方法、装置、设备及存储介质 |
CN110399548A (zh) * | 2018-04-20 | 2019-11-01 | 北京搜狗科技发展有限公司 | 一种搜索处理方法、装置、电子设备以及存储介质 |
WO2020019563A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
CN111177532A (zh) * | 2019-12-02 | 2020-05-19 | 平安资产管理有限责任公司 | 一种垂直搜索方法、装置、计算机系统及可读存储介质 |
CN111259225A (zh) * | 2018-12-03 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 新媒体信息展示方法、装置、电子设备及计算机可读介质 |
CN111324768A (zh) * | 2020-02-12 | 2020-06-23 | 新华智云科技有限公司 | 一种视频搜索系统和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095319A1 (en) * | 2013-06-10 | 2015-04-02 | Microsoft Corporation | Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs |
CN110674429B (zh) * | 2018-07-03 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 用于信息检索的方法、装置、设备和计算机可读存储介质 |
-
2020
- 2020-08-12 CN CN202010807641.3A patent/CN111966899B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100900467B1 (ko) * | 2008-01-16 | 2009-06-02 | 넷다이버(주) | 개인 미디어 검색 서비스 시스템 및 방법 |
CN104516980A (zh) * | 2014-12-26 | 2015-04-15 | 携程计算机技术(上海)有限公司 | 搜索结果的输出方法以及服务器系统 |
CN105354300A (zh) * | 2015-11-05 | 2016-02-24 | 上海智臻智能网络科技股份有限公司 | 一种信息推荐方法及装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN110399548A (zh) * | 2018-04-20 | 2019-11-01 | 北京搜狗科技发展有限公司 | 一种搜索处理方法、装置、电子设备以及存储介质 |
WO2020019563A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
CN111259225A (zh) * | 2018-12-03 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 新媒体信息展示方法、装置、电子设备及计算机可读介质 |
CN110096655A (zh) * | 2019-04-29 | 2019-08-06 | 北京字节跳动网络技术有限公司 | 搜索结果的排序方法、装置、设备及存储介质 |
CN111177532A (zh) * | 2019-12-02 | 2020-05-19 | 平安资产管理有限责任公司 | 一种垂直搜索方法、装置、计算机系统及可读存储介质 |
CN111324768A (zh) * | 2020-02-12 | 2020-06-23 | 新华智云科技有限公司 | 一种视频搜索系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111966899A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN105893533B (zh) | 一种文本匹配方法及装置 | |
CN104111933B (zh) | 获取业务对象标签、建立训练模型的方法及装置 | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
US8527506B2 (en) | Media discovery and playlist generation | |
US20110191336A1 (en) | Contextual image search | |
US9396413B2 (en) | Choosing image labels | |
CN106919575B (zh) | 应用程序搜索方法及装置 | |
CN107679070B (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
US8606780B2 (en) | Image re-rank based on image annotations | |
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN108133058B (zh) | 一种视频检索方法 | |
CN111966899B (zh) | 搜索排序方法、系统及计算机可读存储介质 | |
CN111259173A (zh) | 一种搜索信息推荐方法及装置 | |
CN111177559A (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN111061954A (zh) | 搜索结果排序方法、装置及存储介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
CN108875014B (zh) | 基于大数据与人工智能的精准项目推荐方法和机器人系统 | |
CN116610810A (zh) | 基于调控云知识图谱血缘关系的智能搜索方法及系统 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN115203500A (zh) | 一种用户标签的丰富方法、装置、计算机设备和存储介质 | |
CN111143506B (zh) | 话题内容的排序方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |