CN112070550A - 基于搜索平台的关键词确定方法、装置、设备及存储介质 - Google Patents
基于搜索平台的关键词确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112070550A CN112070550A CN202010955370.6A CN202010955370A CN112070550A CN 112070550 A CN112070550 A CN 112070550A CN 202010955370 A CN202010955370 A CN 202010955370A CN 112070550 A CN112070550 A CN 112070550A
- Authority
- CN
- China
- Prior art keywords
- keyword
- candidate
- candidate keywords
- participle
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Abstract
本申请实施例提供了一种基于搜索平台的关键词确定方法、装置、设备及存储介质,涉及计算机技术领域。所述方法包括:获取初始关键词集合;获取候选关键词在目标搜索平台中的搜索量,以及候选关键词在内容提供平台中的关联量;从初始关键词集合中,选取搜索量和关联量符合第一条件的候选关键词,得到剩余关键词集合;对于剩余关键词集合中的候选关键词,获取候选关键词与其对应的关联内容之间的匹配度,将匹配度符合第二条件的关联内容的数量,确定为候选关键词的更新后关联量;将剩余关键词集合中,更新后关联量符合第三条件的候选关键词,确定为投放至目标搜索平台的关键词。本申请实施例提供的技术方案,提高了关键词的投放准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种基于搜索平台的关键词确定方法、装置、设备及存储介质。
背景技术
SEM(Search Engine Marketing,搜索引擎营销)是一种通过在搜索平台投放关键词的营销方式,这需要确定投放的关键词。
在相关技术中,由相关技术人员分析内容提供平台中提供的内容,以及用户可能在搜索平台上进行搜索所使用的词,然后根据自身经验人工选取用于在目标搜索平台投放的关键词。
发明内容
本申请实施例提供了一种基于搜索平台的关键词确定方法、装置、设备及存储介质,能够提高关键词的投放准确性。所述技术方案如下:
一方面,本申请实施例提供了一种基于搜索平台的关键词确定方法,所述方法包括:
获取初始关键词集合,所述初始关键词集合包括多个候选关键词,所述候选关键词是指候选的用于在目标搜索平台投放的关键词;
获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,所述关联量是指所述候选关键词在所述内容提供平台中对应的关联内容的数量;
从所述初始关键词集合中,选取所述搜索量和所述关联量符合第一条件的候选关键词,得到剩余关键词集合;
对于所述剩余关键词集合中的候选关键词,获取所述候选关键词与其对应的关联内容之间的匹配度,将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量;
将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词。
另一方面,本申请实施例提供了一种基于搜索平台的关键词确定装置,所述装置包括:
关键词获取模块,用于获取初始关键词集合,所述初始关键词集合包括多个候选关键词,所述候选关键词是指候选的用于在目标搜索平台投放的关键词;
第一获取模块,用于获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,所述关联量是指所述候选关键词在所述内容提供平台中对应的关联内容的数量;
关键词选取模块,用于从所述初始关键词集合中,选取所述搜索量和所述关联量符合第一条件的候选关键词,得到剩余关键词集合;
关联量获取模块,用于对于所述剩余关键词集合中的候选关键词,获取所述候选关键词与其对应的关联内容之间的匹配度,将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量;
关键词确定模块,用于将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述基于搜索平台的关键词确定方法。
还一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述基于搜索平台的关键词确定方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过获取候选关键词的搜索量和关联量并对候选关键词进行初步筛选,得到剩余关键词集合,将经过过滤的关联内容的数量确定为候选关键词的更新后关联量,并基于候选关键词的更新后关联量对剩余关键词集合中的候选关键词进行进一步筛选,从而确定最终投放至目标搜索平台的关键词,相比于依靠人工根据经验选取关键词,提高了关键词在目标搜索平台中进行投放的投放准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的实施环境的示意图;
图2是本申请一个实施例提供的基于搜索平台的关键词确定方法的流程图;
图3是本申请另一个实施例提供的基于搜索平台的关键词确定方法的流程图;
图4是本申请一个实施例提供的词向量的计算方法的示意图;
图5是本申请另一个实施例提供的基于搜索平台的关键词确定方法的流程图;
图6是本申请一个实施例提供的基于搜索平台的关键词确定装置的框图;
图7是本申请另一个实施例提供的基于搜索平台的关键词确定装置的框图;
图8是本申请一个实施例提供的计算机设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。
请参考图1,其示出了本申请一个实施例提供的实施环境的示意图,该实施环境可以实现为基于搜索平台的关键词确定系统,该系统10包括:计算机设备11、第一服务器12和第二服务器13。
计算机设备11用于执行本申请实施例的各个步骤。计算机设备是指具备数据计算、处理和存储能力的电子设备。计算机设备可以是诸如PC(Personal Computer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端;也可以是服务器。第一服务器12为内容提供平台的后台服务器。第一服务器12和计算机设备11之间建立有网络连接。第一服务器11用于向计算机设备11发送候选关键词的关联内容。第二服务器13为目标搜索品台的后台服务器。第二服务器13和计算机设备11之间建立有网络连接。计算机设备11通过访问第二服务器12获取候选关键词的搜索量。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
下面,通过几个实施例对本申请的技术方案进行介绍说明。
请参考图2,其示出了本申请一个实施例提供的基于搜索平台的关键词确定方法的流程图。在本实施例中,以该方法应用于上文介绍的计算机设备来举例说明。该方法可以包括如下几个步骤(201~205):
步骤201,获取初始关键词集合。
在一些实施例中,初始关键词集合包括多个候选关键词,候选关键词是指候选的用于在目标搜索平台投放的关键词。关键词集合可以包括常用词典中的词。用户能够通过关键词在目标搜索平台中搜索到与关键词相关的信息。在目标搜索平台投放关键词,是指用户在目标搜索平台中采用投放的关键词进行搜索时,目标搜索平台展示与内容提供平台相关的信息。
其中,目标搜索平台可以是搜索引擎类网站、知识问答类网站、图文分享类网站、视频类网站、音乐类网站等任何具备关键词搜索功能的网站;目标搜索平台也可以是搜索引擎应用程序、知识问答应用程序、图文分享应用程序、视频应用程序、音乐应用程序等任何具备关键词搜索功能的应用程序,本申请实施例对此不作限定。
步骤202,获取候选关键词在目标搜索平台中的搜索量,以及候选关键词在内容提供平台中的关联量。
在一些实施例中,关联量是指候选关键词在内容提供平台中对应的关联内容的数量,搜索量是指指定时间段内候选关键词在目标搜索平台中被搜索的次数。在内容提供平台中采用候选关键词进行搜索时,内容提供平台展示的相关内容即为候选关键词的关联内容,内容提供平台展示的相关内容的数量即为上述关联量。在一些实施例中,通过设置时间筛选条件,获取指定时间段内候选关键词在目标搜索平台的搜索量(即上述搜索量是指定时间段内的搜索量)。用户对候选关键词的关注程度会随着时间的变化而发生变化,指定时间段内的搜索量能够表示指定时间段内用户对候选关键词的相关信息的关注程度。
在一个示例中,距今较远的时间段内候选关键词的搜索量,与候选关键词未来的搜索量和搜索频率的关联性不大。也即,距今较远的时间段内候选关键词的搜索量,对于预测候选关键词未来的搜索情况的参考价值较小,还有可能对预测候选关键词未来的搜索情况产生误导。因而,指定时间段是指从某一历史时刻至今的时间段。可选地,指定时间段为最近1个月内、最近6个月内、最近1年内、最近2年内等等,指定时间段的具体起止时间由相关技术人员根据实际情况进行设定,本申请实施例对此不作具体限定。
在另一个示例中,候选关键词的搜索量的历史情况呈现一定的周期性,则可以根据预计在目标搜索平台投放关键词的时间,确定相应的指定时间段。例如,候选关键词“月饼”在每年中秋节之前的一段时间内的搜索量较大,在每年的其他时间段内的搜索量相对较小,若预计在目标搜索平台投放该候选关键词的时间临近中秋节,则指定时间段为临近中秋节的时间段;若预计在目标搜索平台投放该候选关键词的时间不临近中秋节,则指定时间段为不临近中秋节的时间段。
在一些实施例中,步骤202还包括如下子步骤:
1、调用目标搜索平台提供的媒体API(Application Programming Interface,应用程序编程接口),能够访问目标搜索平台关于,候选关键词的,获取候选关键词在目标搜索平台中的搜索量;
2、调用内容提供平台的站内搜索服务,获取内容提供平台中与候选关键词对应的关联内容的数量得到关联量。
通过调用目标搜索平台的媒体API,能够访问目标搜索平台中各个关键词的搜索情况,从而获取候选关键词在目标搜索平台中的搜索量。内容提供平台提供有搜索服务,如通过内容提供平台的用户界面中的搜索框,在搜索框中输入候选关键词并确认,即可获取内容提供平台提供的与候选关键词对应的关联内容的量得到关联量。在另一些实施例中,通过内容提供平台的后台服务,也能够查询并获取到预先存储在后台服务器中的上述关联量。
步骤203,从初始关键词集合中,选取搜索量和关联量符合第一条件的候选关键词,得到剩余关键词集合。
其中,第一条件包括:搜索量大于或等于第五阈值,且关联量大于或等于第六阈值。去除搜索量小于第五阈值或关联量小于第六阈值的候选关键词,将初始关键词集合中搜索量大于或等于第五阈值、且关联量大于或等于第六阈值的候选关键词选出,从而得到剩余关键词集合。需要说明的是,第五阈值和第六阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作具体限定。
步骤204,对于剩余关键词集合中的候选关键词,获取候选关键词与其对应的关联内容之间的匹配度,将匹配度符合第二条件的关联内容的数量,确定为候选关键词的更新后关联量。
剩余关键词集合中的候选关键词是经过初步筛选的候选关键词,但是通过内容提供平台获取到的候选关键词的关联内容,与候选关键词的关联性有可能并不高,因而需要对候选关键词的关联内容进行筛选。通过获取候选关键词与对应的关联内容之间的匹配度,确定匹配度符合第二条件的关联内容,从而确定与候选关键词的关联性较强的关联内容的数量(即候选关键词的更新后关联量),进而能够进一步对剩余关键词集合中的候选关键词进行筛选。
步骤205,将剩余关键词集合中,更新后关联量符合第三条件的候选关键词,确定为投放至目标搜索平台的关键词。
由上文可知,更新后关联量能够更准确地反映内容提供平台中,与候选关键词关联性较强的关联内容的数量。在一些实施例中,将剩余关键词集合中更新后关联量大于或等于第九阈值(即符合第三条件)的候选关键词,确定为最终投放在目标搜索平台中的关键词。用户通过目标搜索平台采用关键词进行搜索时,目标搜索平台会将内容提供平台中与关键词相关的信息优先进行展示,展示的内容可以是网页链接,网页链接可以用于进入内容提供平台的网站,或用于提示用户下载内容提供平台的应用程序,从而提高内容提供平台的访问量。
在一些实施例中,步骤205之后,还包括如下几个步骤:
1、获取关键词对应的CVR(Conversion Rate,激活转化率);
2、若关键词对应的CVR小于第七阈值,则减小在目标搜索平台上投放关键词的力度;
3、若关键词对应的CVR小于第八阈值,则停止在目标搜索平台上投放关键词。
在一些实施例中,第七阈值大于第八阈值。CVR是指目标搜索平台优先展示的内容提供平台的相关网页链接被点击的次数与关键词的投放力度的比例,其中,关键词的投放力度包括:上述相关网页链接的数量、上述相关网页链接的排名优先程度等等。当关键词对应的CVR小于第七阈值,表示该关键词的CVR较低,关键词的投放力度并不能带来预期的CVR,因而减小在目标搜索平台上投放关键词的力度;当关键词对应的CVR小于第八阈值,表示该关键词的投放力度过低,因而停止在目标搜索平台上投放关键词。
综上所述,本申请实施例提供的技术方案,通过获取候选关键词的搜索量和关联量并对候选关键词进行初步筛选,得到剩余关键词集合,将经过过滤的关联内容的数量确定为候选关键词的更新后关联量,并基于候选关键词的更新后关联量对剩余关键词集合中的候选关键词进行进一步筛选,从而确定最终投放至目标搜索平台的关键词,相比于依靠人工根据经验选取关键词,提高了关键词在目标搜索平台中进行投放的投放准确性。
另外,本申请实施例中,根据CVR对关键词的投放力度进行调整,从而提高关键词的投放效率。
请参考图3,其示出了本申请另一个实施例提供的基于搜索平台的关键词确定方法的流程图。在本实施例中,以该方法应用于上文介绍的计算机设备来举例说明。如图3所示,上述步骤204可以包括如下几个子步骤(2041~2043)。
步骤2041,对候选关键词对应的关联内容进行分词处理,得到分词集合。
在一些实施例中,将候选关键词对应的关联内容的文本内容划分为多个分词,得到该关联内容对应的分词集合。本步骤2041具体可以包括如下几个子步骤:
1、基于现有的统计词典构造前缀词典;
2、基于前缀词典对关联内容进行词划分,并采用划分得到的词语为节点、词语的词频边构造有向无环图;
3、通过动态规划算法,计算最大概率路径,得到词频的最大切分组合,从而得到该关联内容对应的分词集合。
其中,有向无环图是指没有回路的有向图。在一个示例中,若一个有向有环图包括A、B、C三个点,A点出发经过B点和C点可回到A,则可以形成一个环;若将从C点指向A点的边的方向改为从A点指向C点,则该有向有环图变为有向无环图。
步骤2042,从分词集合中选取关键分词,得到关键分词集合。
在一些实施例中,采用TextRank(文本排名)算法,从分词集合中的分词中提取出关键分词,从而得到关键分词集合。
在一些实施例中,步骤2042包括如下子步骤:
1、根据分词集合中与目标分词的距离满足第四条件的分词,确定目标分词的重要性指标,目标分词的重要性指标用于指示目标分词的重要性;
2、将分词集合中重要性指标符合第五条件的分词,确定为关键分词,得到关键分词集合。
若需要确定分词集合中的某一个分词是否为关键分词,可以将该分词确定为目标分词,并计算分词集合中的其他分词与目标分词的文本距离,将与目标分词之间的文本距离满足第四条件的分词,确定为与目标分词存在链接关系的分词,并根据与目标分词有链接关系的分词确定目标分词的重要性指标。以此类推,得到分词集合中各个分词的重要性指标,将重要性指标符合第五条件的分词,确定为关键分词,从而得到关键分词集合。可选地,第四条件包括:与目标分词的距离小于或等于距离阈值,其中,距离阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作具体限定。
在一些实施例中,第五条件包括:分词的重要性指标大于或等于重要性阈值,其中,重要性阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作具体限定。在另一些实施例中,将分词集合中重要性指标符合第五条件的分词,确定为关键分词,得到关键分词集合,包括:将分词集合中各个分词按照重要性指标的大小顺序排序,将重要性指标最高的k个分词,确定为关键分词,得到关键分词集合,k为正整数。
在一些实施例中,采用TextRank算法,获取各个分词的重要性指标可以参考如下公式一:
公式一:
其中S(Vi)表示第i个分词Vi的重要性指标(即TextRank的值);d为阻尼系数,用于进行平滑处理;In(Vi)表示关联内容中与第i个分词Vi存在链接关系的分词的集合,|Out(Vi)|表示与第i个分词Vi存在链接关系的分词的数量。然后通过对上述公式一不断迭代优化,最终第i个分词Vi的TextRank值可以收敛到某个固定值附近,从而得到分词集合中各个分词的重要性指标。另外,分词对应的TextRank值越大,该分词是关键分词的概率越大。
TextRank算法主要借鉴PageRank(网页排名)算法。PageRank算法主要用于对网页进行排序,其原理包括:
1、链接数量:若一个网页如果与越多的网页存在链接关系,则这个网页越重要;
2、链接质量:若一个网页被PageRank值越高的页面所引用,则这个网页越重要。
相应地,TextRank算法的原理包括:
1、若一个分词位于越多分词的附近,则这个分词越重要;
2、若一个分词附近有重要性越高的分词,则这个分词也越重要。
由于每个分词并不是与关联内容中所有的分词都存在链接关系,本申请采用“窗口”的概念,在指定“窗口”内的词,默认相互之间才有链接关系。假设“窗口”大小为N,则每个分词的结点可以与其附近的N个词对应的结点构造成N条边,从而得到一个无向图,无向图是指没有方向的图。
步骤2043,获取候选关键词与关键分词集合之间的语义相似度。
在一些实施例中,上述匹配度包括语义相似度,通过获取候选关键词与对应的关键分词集合中各个关键分词之间的语义相似度,从而得到候选关键词与其对应的关联内容之间的匹配度。
在一些实施例中,步骤2043包括如下子步骤:
1、获取候选关键词的词向量,以及关键分词集合对应的词向量集合,词向量集合中包括关键分词的词向量;
2、通过余弦距离,计算候选关键词的词向量与关键分词的词向量之间的语义相似度。
可选地,先将候选关键词以及对应的关键分词集合中的关键分词向量化,得到候选关键词的词向量和关键分词集合对应的词向量集合,然后通过计算候选关键词的词向量和对应的各个关键分词的词向量之间的余弦距离,得到候选关键词与关键分词之间的语义相似度。
在一些实施例中,计算候选关键词与关键分词之间的语义相似度可以参考如下公式二:
其中,Sim(v,v′)和cos(v,v′)表示候选关键词与关键分词之间的余弦距离(即语义相似度),v表示候选关键词的词向量,v=(n1,n2,n3,……,nc),ni表示候选关键词的词向量中的第i个向量元素,v′表示关键分词的词向量,v′=(m1,m2,m3,……,mc),mi表示关键分词的词向量的第i个向量元素,c表示一个词向量中向量元素的总数量。
在一些实施例中,采用word2vec算法计算词向量,得到候选关键词的词向量和关键分词的词向量。word2vec算法是基于“一个词的含义可以由它的上下文推断得出”的假设提出的一种词嵌入方法。word2vec算法能够通过单层神经网络,把输入的one-hot编码(独热编码)形式的稀疏词,映射为一个n维的稠密向量。word2vec算法包括有CBOW模型和Skip-Gram模型。CBOW模型采用上下文一定窗口内的词(即中心词附近的词)对中心词进行预测,Skip-Gram是用中心词对上下文一定窗口内的词进行预测。Skip-Gram模型相比CBOW模型进行预测训练的次数更多,在数据量较少或者生僻词出现次数较少时,Skip-Gram模型计算的词向量更加准确。
如图4所示,以分词集合中的第k个分词为例,介绍采用Skip-Gram模型计算词向量的方法:
1、对分词集合中的n个分词进行one-hot编码,得到各个关键词n×1的向量,第k个分词对应的向量为向量,分词集合对应的向量集为n×n的向量集合。
2、对于处于分词集合中的第k个分词,其one-hot编码记为向量规定上下文窗口大小为m,也即,将分词集合中第k个分词的前m个分词和第k个分词的后m个分词确定为位于第k个分词附近的分词,也称为背景词。则第k个分词对应的背景词集合记为将向量与矩阵Wd×n相乘可使向量映射到d维向量Od。或者,也可以通过查表获取向量Od。例如,若的第t行为1,则向量Od为矩阵Wd×n的第t列,通过查表操作即可获取结果。其中,Wd×n为d维空间的矩阵,Wd×n表示n个分词各自作为中心词时生成的词向量组成的矩阵。
3、令矩阵W′n×d×Od,将向量Od重新映射为n维向量V′n。其中,W′n×d为d维空间的矩阵。
4、通过下述公式三将V′n中的n个数字映射为位于[0,1]区间中的值,得到向量Sn:
公式三:
5、对于处于第k-m个位置的背景词(即第k个分词之前、与第k个分词相隔m-1个分词的背景词),其one-hot编码后的向量记为向量中的第p行为1,则其被中心词预测成功的概率的计算公式如下公式四。其他背景词被中心词预测成功的概率同理。
公式四:
6、采用交叉熵函数作为损失函数,参考的计算公式如下公式五,通过反向传播梯度下降方法对矩阵W′n×d和矩阵Wd×n参数进行迭代优化从而最小化损失函数。
公式五:
最终训练得到的Wd×n列向量和W′n×d行向量都可以用来表征分词的one-hot编码映射后的词向量。
综上所述,本申请实施例提供的技术方案中,通过对关联内容进行分词处理,先选取关联内容中重要性较高的分词作为关键分词,再依据关键分词与候选关键词之间的语义相似度,对关联内容进行筛选,得到与候选关键词之间的关联性较强的关联内容,提高候选关键词的更新后关联量的参考价值,从而提高关键词的投放准确性。
如图4所示,上述步骤204还可以包括如下几个子步骤(2044~2045)。
步骤2044,将包含与第i个候选关键词的语义相似度大于或等于第三阈值的关键分词的关联内容,确定为第i个候选关键词对应的筛选后的关联内容。
在一些实施例中,对于第i个候选关键词对应的其中一个关联内容,其对应有至少一个关键分词,若该至少一个关键分词中存在一个关键分词与第i个候选关键词的语义相似度大于或等于第三阈值,则该关联内容为第i个候选关键词对应的筛选后的关联内容,i为正整数。
步骤2045,统计第i个候选关键词对应的筛选后的关联内容,得到第i个候选关键词的更新后关联量。
经过上述步骤的处理和筛选操作,得到的第i个候选关键词对应的筛选后的关联内容,可以认为是与第i个候选关键词匹配度较高的关联内容,因而将第i个候选关键词对应的筛选后的关联内容,确定为第i个候选关键词的更新后关联量。
综上所述,本申请实施例提供的技术方案中,若关联内容中包含与候选关键词之间的语义相似性较高的关键分词,则将该关联内容确定为候选关键词筛选后的关联内容,从而确保候选关键词与关联内容之间存在较高的匹配度,进而提升内容提供平台的用户留存率。
请参考图5,其示出了本申请一个实施例提供的基于搜索平台的关键词确定方法,该方法包括如下步骤(501~514):
步骤501,获取候选关键词;
步骤502,获取候选关键词在目标搜索平台中的搜索量;
步骤503,判断搜索量是否符合第一条件,若是,则执行下述步骤504;若否,则执行下述步骤514;
步骤504,调用内容提供平台的搜索服务,获取候选关键词在内容提供平台中的关联内容,得到候选关键词的关联量;
步骤505,判断关联量是否符合第一条件,若是,则执行下述步骤506,若否,则执行下述步骤514;
步骤506,采用nip算法提取关联内容中的关键分词,得到关键分词集合;
步骤507,采用nip算法对关键分词集合与候选关键词的语义相似度进行匹配,得到候选关键词与关联内容之间的匹配程度;
步骤508,判断匹配程度是否符合第二条件,若是,则执行下述步骤509;若否,则执行下述步骤514;
步骤509,将候选关键词确定为投放至目标搜索平台的关键词;
步骤510,获取关键词的CVR;
步骤511,判断关键词的CVR是否大于第七阈值,若是,则执行下述步骤512;若否,则执行下述步骤513;
步骤512,将CVR大于第七阈值的关键词确定为候选关键词,并继续执行上述步骤502;
步骤513,减小关键词的投放力度或停止投放关键词;
步骤514,放弃投放候选关键词。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的基于搜索平台的关键词确定装置的框图。该装置具有实现上述基于搜索平台的关键词确定的方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置600可以包括:关键词获取模块610、第一获取模块620、关键词选取模块630、关联量获取模块640和关键词确定模块650。
所述关键词获取模块610,用于获取初始关键词集合,所述初始关键词集合包括多个候选关键词,所述候选关键词是指候选的用于在目标搜索平台投放的关键词。
所述第一获取模块620,用于获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,所述关联量是指所述候选关键词在所述内容提供平台中对应的关联内容的数量。
所述关键词选取模块630,用于从所述初始关键词集合中,选取所述搜索量和所述关联量符合第一条件的候选关键词,得到剩余关键词集合。
所述关联量获取模块640,用于对于所述剩余关键词集合中的候选关键词,获取所述候选关键词与其对应的关联内容之间的匹配度,将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量。
所述关键词确定模块650,用于将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词。
综上所述,本申请实施例提供的技术方案,通过获取候选关键词的搜索量和关联量并对候选关键词进行初步筛选,得到剩余关键词集合,将经过过滤的关联内容的数量确定为候选关键词的更新后关联量,并基于候选关键词的更新后关联量对剩余关键词集合中的候选关键词进行进一步筛选,从而确定最终投放至目标搜索平台的关键词,相比于依靠人工根据经验选取关键词,提高了关键词在目标搜索平台中进行投放的投放准确性。
在一些实施例中,如图7所示,所述关联量获取模块640包括:分词处理子模块641、分词选取子模块642和相似度获取子模块643。
所述分词处理子模块641,用于对所述候选关键词对应的关联内容进行分词处理,得到分词集合。
所述分词选取子模块642,用于从所述分词集合中选取关键分词,得到关键分词集合。
所述相似度获取子模块643,用于获取所述候选关键词与所述关键分词集合之间的语义相似度。
其中,所述匹配度包括所述语义相似度。
在一些实施例中,如图7所示,所述分词选取子模块642用于:
根据所述分词集合中与目标分词的距离满足第四条件的分词,确定所述目标分词的重要性指标,所述目标分词的重要性指标用于指示所述目标分词的重要性;
将所述分词集合中所述重要性指标符合第五条件的分词,确定为所述关键分词,得到所述关键分词集合。
在一些实施例中,如图7所示,所述相似度获取子模块643用于:
获取所述候选关键词的词向量,以及所述关键分词集合对应的词向量集合,所述词向量集合中包括所述关键分词的词向量;
通过余弦距离,计算所述候选关键词的词向量与所述关键分词的词向量之间的语义相似度。
在一些实施例中,所述关联量获取模块640用于:
将包含与所述第i个候选关键词的语义相似度大于或等于第三阈值的关键分词的关联内容,确定为所述第i个候选关键词对应的筛选后的关联内容,所述i为正整数;
统计所述第i个候选关键词对应的筛选后的关联内容,得到所述第i个候选关键词的更新后关联量。
在一些实施例中,所述关联量获取模块640,用于:
调用所述目标搜索平台提供的媒体应用程序编程接口API,获取所述候选关键词在所述目标搜索平台中的搜索量;
调用所述内容提供平台的站内搜索服务,获取所述内容提供平台中与所述候选关键词对应的关联内容的量得到所述关联量;
其中,所述第一条件包括:所述搜索量大于或等于第五阈值,且所述关联量大于或等于第六阈值。
在一些实施例中,如图7所示,所述装置600还包括:转化率获取模块660、力度减小模块670和投放停止模块680。
所述转化率获取模块660,用于获取所述关键词对应的激活转化率CVR。
所述力度减小模块670,用于若所述关键词对应的CVR小于第七阈值,则减小在所述目标搜索平台上投放所述关键词的力度。
所述投放停止模块680,用于若所述关键词对应的CVR小于第八阈值,则停止在所述目标搜索平台上投放所述关键词。其中,所述第七阈值大于所述第八阈值。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的基于搜索平台的关键词方法。具体来讲:
所述计算机设备800包括CPU(Central Processing Unit,中央处理单元)801、包括RAM(Random Access Memory,随机存取存储器)802和ROM(Read-Only Memory,只读存储器)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output,输入/输出)系统806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述基于搜索平台的关键词确定方法。
可选地,该计算机可读存储介质包括:ROM、RAM、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(DynamicRandom Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品,当所述计算机程序产品被处理器执行时,其用于实现上述基于搜索平台的关键词确定方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于搜索平台的关键词确定方法,其特征在于,所述方法包括:
获取初始关键词集合,所述初始关键词集合包括多个候选关键词,所述候选关键词是指候选的用于在目标搜索平台投放的关键词;
获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,所述关联量是指所述候选关键词在所述内容提供平台中对应的关联内容的数量;
从所述初始关键词集合中,选取所述搜索量和所述关联量符合第一条件的候选关键词,得到剩余关键词集合;
对于所述剩余关键词集合中的候选关键词,获取所述候选关键词与其对应的关联内容之间的匹配度,将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量;
将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词。
2.根据权利要求1所述的方法,其特征在于,所述获取所述候选关键词与其对应的关联内容之间的匹配度,包括:
对所述候选关键词对应的关联内容进行分词处理,得到分词集合;
从所述分词集合中选取关键分词,得到关键分词集合;
获取所述候选关键词与所述关键分词集合之间的语义相似度;
其中,所述匹配度包括所述语义相似度。
3.根据权利要求2所述的方法,其特征在于,所述从所述分词集合中选取关键分词,得到关键分词集合,包括:
根据所述分词集合中与目标分词的距离满足第四条件的分词,确定所述目标分词的重要性指标,所述目标分词的重要性指标用于指示所述目标分词的重要性;
将所述分词集合中所述重要性指标符合第五条件的分词,确定为所述关键分词,得到所述关键分词集合。
4.根据权利要求2述的方法,其特征在于,所述获取所述候选关键词与所述关键分词集合之间的语义相似度,包括:
获取所述候选关键词的词向量,以及所述关键分词集合对应的词向量集合,所述词向量集合中包括所述关键分词的词向量;
通过余弦距离,计算所述候选关键词的词向量与所述关键分词的词向量之间的语义相似度。
5.根据权利要求2所述的方法,其特征在于,所述将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量,包括:
将包含与所述第i个候选关键词的语义相似度大于或等于第三阈值的关键分词的关联内容,确定为所述第i个候选关键词对应的筛选后的关联内容,所述i为正整数;
统计所述第i个候选关键词对应的筛选后的关联内容,得到所述第i个候选关键词的更新后关联量。
6.根据权利要求1所述的方法,其特征在于,所述获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,包括:
调用所述目标搜索平台提供的媒体应用程序编程接口API,获取所述候选关键词在所述目标搜索平台中的搜索量;
调用所述内容提供平台的站内搜索服务,获取所述内容提供平台中与所述候选关键词对应的关联内容的量得到所述关联量;
其中,所述第一条件包括:所述搜索量大于或等于第五阈值,且所述关联量大于或等于第六阈值。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词之后,还包括:
获取所述关键词对应的激活转化率CVR;
若所述关键词对应的CVR小于第七阈值,则减小在所述目标搜索平台上投放所述关键词的力度;
若所述关键词对应的CVR小于第八阈值,则停止在所述目标搜索平台上投放所述关键词;
其中,所述第七阈值大于所述第八阈值。
8.一种基于搜索平台的关键词确定装置,其特征在于,所述装置包括:
关键词获取模块,用于获取初始关键词集合,所述初始关键词集合包括多个候选关键词,所述候选关键词是指候选的用于在目标搜索平台投放的关键词;
第一获取模块,用于获取所述候选关键词在所述目标搜索平台中的搜索量,以及所述候选关键词在内容提供平台中的关联量,所述关联量是指所述候选关键词在所述内容提供平台中对应的关联内容的数量;
关键词选取模块,用于从所述初始关键词集合中,选取所述搜索量和所述关联量符合第一条件的候选关键词,得到剩余关键词集合;
关联量获取模块,用于对于所述剩余关键词集合中的候选关键词,获取所述候选关键词与其对应的关联内容之间的匹配度,将所述匹配度符合第二条件的关联内容的数量,确定为所述候选关键词的更新后关联量;
关键词确定模块,用于将所述剩余关键词集合中,所述更新后关联量符合第三条件的候选关键词,确定为投放至所述目标搜索平台的关键词。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至7任一项所述的基于搜索平台的关键词确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至7任一项所述的基于搜索平台的关键词确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955370.6A CN112070550A (zh) | 2020-09-11 | 2020-09-11 | 基于搜索平台的关键词确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955370.6A CN112070550A (zh) | 2020-09-11 | 2020-09-11 | 基于搜索平台的关键词确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112070550A true CN112070550A (zh) | 2020-12-11 |
Family
ID=73696499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010955370.6A Pending CN112070550A (zh) | 2020-09-11 | 2020-09-11 | 基于搜索平台的关键词确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070550A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792210A (zh) * | 2021-08-19 | 2021-12-14 | 广州云硕科技发展有限公司 | 一种基于语义实时分析的热控方法及系统 |
CN113987374A (zh) * | 2021-10-27 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 词云展示方法、装置、电子设备、介质及产品 |
CN116028609A (zh) * | 2023-02-14 | 2023-04-28 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
CN116069595A (zh) * | 2023-04-06 | 2023-05-05 | 华能信息技术有限公司 | 一种基于日志的运维监控方法 |
-
2020
- 2020-09-11 CN CN202010955370.6A patent/CN112070550A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792210A (zh) * | 2021-08-19 | 2021-12-14 | 广州云硕科技发展有限公司 | 一种基于语义实时分析的热控方法及系统 |
CN113987374A (zh) * | 2021-10-27 | 2022-01-28 | 北京达佳互联信息技术有限公司 | 词云展示方法、装置、电子设备、介质及产品 |
CN116028609A (zh) * | 2023-02-14 | 2023-04-28 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
CN116028609B (zh) * | 2023-02-14 | 2024-02-27 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
CN116069595A (zh) * | 2023-04-06 | 2023-05-05 | 华能信息技术有限公司 | 一种基于日志的运维监控方法 |
CN116069595B (zh) * | 2023-04-06 | 2023-06-09 | 华能信息技术有限公司 | 一种基于日志的运维监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN112070550A (zh) | 基于搜索平台的关键词确定方法、装置、设备及存储介质 | |
CN111566654A (zh) | 集成知识和自然语言处理的机器学习 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
CN110390052B (zh) | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 | |
CN112380331A (zh) | 信息推送的方法和装置 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN109086386B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
US20200175022A1 (en) | Data retrieval | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN116663505B (zh) | 一种基于互联网的评论区管理方法及系统 | |
CN112765450A (zh) | 推荐内容确定方法、装置及存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN113608688B (zh) | 数据迁移方法、装置、设备及存储介质 | |
CN115186188A (zh) | 基于行为分析的产品推荐方法、装置、设备及存储介质 | |
CN114741489A (zh) | 文档检索方法、装置、存储介质以及电子设备 | |
CN114780745A (zh) | 用于构建知识体系的方法及装置、电子设备、存储介质 | |
CN111753199A (zh) | 用户画像构建方法及设备、电子设备和介质 | |
CN113392312A (zh) | 信息处理方法、系统及电子设备 | |
CN114548083B (zh) | 标题生成方法、装置、设备及介质 | |
CN113792163B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 | |
CN117788842A (zh) | 图像检索方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201211 |