关键词挖掘方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种关键词挖掘方法、装置、电子设备及存储介质。
背景技术
在互联网广告营销领域,无论是搜索引擎优化SEO,还是搜索引擎营销SEM,搜索过程中都有一个重要的步骤就是关键词的分析和挖掘。关键词的分析和挖掘是否准确,将直接决定后续的广告创意或者网页内容是否能够有效地触达意向用户。
然而,发明人意识到,影响关键词分析和挖掘的因素有很多,传统的关键词分析和挖掘往往依赖于某一种因素,例如,长尾关系,尚无法全面覆盖与广告主推广需求相关的各类搜索需求中的众多因素,例如父子关系、三元关系等等。
由上可知,如何提高关键词分析和挖掘的准确性仍有待解决。
发明内容
本发明各实施例提供一种关键词挖掘方法、装置、电子设备及存储介质,以此解决相关技术中存在的所挖掘关键词的不够准确的问题。
其中,本发明所采用的技术方案为:
根据本发明的一个方面,一种关键词挖掘方法,包括:显示关键词挖掘界面,并侦听字符串输入指令;从侦听到的所述字符串输入指令中解析出源词,并在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词;针对包含所述源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令;当侦听得到所述关键词挖掘指令,计算所述关系子图中所述衍生词与所述源词的关系强度,输出关键词集合,所述关键词集合中衍生词与所述源词的关系强度符合设定规则。
根据本发明的一个方面,一种关键词挖掘装置,包括:界面显示模块,用于显示关键词挖掘界面,并侦听字符串输入指令;衍生词搜索模块,用于从侦听到的所述字符串输入指令中解析出源词,并在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词;指令侦听模块,用于针对包含所述源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令;关键词输出模块,用于当侦听得到所述关键词挖掘指令,计算所述关系子图中所述衍生词与所述源词的关系强度,输出关键词集合,所述关键词集合中衍生词与所述源词的关系强度符合设定规则。
在一个实施例中,所述装置还包括:扩展模块,用于如果已构建的所述关系图谱中未包含所述源词,则为所述源词扩展具有扩展关系的衍生词;添加模块,用于将所述源词及其具有扩展关系的衍生词,按照所述源词及其衍生词之间的扩展关系,添加至所述关系图谱中;返回执行所述在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词的步骤。
在一个实施例中,所述扩展模块,包括:一级扩展单元,用于对所述源词进行一级扩展,得到与所述源词具有扩展关系的第一级关键词;二级扩展单元,用于对所述第一级关键词进行二级扩展,得到与所述第一级关键词具有扩展关系的第二级关键词;衍生词定义单元,用于将所述第一级关键词和所述第二级关键词,作为与所述源词具有扩展关系的衍生词。
在一个实施例中,所述装置还包括:关系路径扩展模块,用于响应于关系扩展输入指令,进行所述关系子图的关系路径扩展,以使所述关键词挖掘指令的侦听是针对添加了所述关系路径的关系子图进行的。
在一个实施例中,所述关系路径扩展模块,包括:第一展示单元,用于在所述关键词挖掘界面中,展示包含所述源词及其具有扩展关系衍生词的关系子图,并侦听所述关系扩展输入指令;信息解析单元,用于从侦听到的所述关系扩展输入指令中解析得到关键词扩展信息,所述关键词扩展信息用于指示用户请求扩展的衍生词;路径构建单元,用于按照所述关键词扩展信息的指示,为展示在所述关键词挖掘界面中的所述关系子图构建一条关系路径,所述关系路径连接在所述源词与所述用户请求扩展的衍生词之间,用于表示所述源词与所述用户请求扩展的衍生词之间的扩展关系;第二展示单元,用于在所述关键词挖掘界面中,展示添加了所述关系路径的关系子图;执行针对添加了所述关系路径的关系子图,侦听关键词挖掘指令的步骤,或者,返回执行所述侦听所述关系扩展输入指令的步骤。
在一个实施例中,所述关键词输出模块,包括:属性值确定单元,用于当侦听得到所述关键词挖掘指令,针对所述关系子图中的每一个衍生词,根据该衍生词与所述源词之间的至少一种扩展关系,确定所述至少一种扩展关系对应的扩展属性值;权重值确定单元,用于从所述关键词挖掘指令中解析得到所述至少一种扩展属性值对应的权重值;关系强度确定单元,用于针对每一种扩展关系,对该种扩展关系分别对应的扩展属性值和权重值进行乘法运算,得到该衍生词关于该种扩展关系的关系强度;关系强度计算单元,用于根据该衍生词关于每一种扩展关系的关系强度,计算得到该衍生词与所述源词的关系强度;集合输出单元,用于按照所述关系子图中各衍生词与所述源词的关系强度,输出所述关键词集合。
在一个实施例中,所述扩展关系包括父子关系、三元关系、同义关系、收录关系、命中关系、竞价关系、长尾关系、查询关系、共现关系、疑问关联关系中的任意一种或者几种;所述关系强度包括共现强度、疑问关联强度、竞争强度、查询强度、长尾强度、收录强度、同义强度中的任意一种或者几种。
根据本发明的一个方面,一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的关键词挖掘方法。
根据本发明的一个方面,一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的关键词挖掘方法。
在上述技术方案中,在显示的关键词挖掘界面中侦听字符串输入指令,以从侦听到的字符串输入指令中解析出源词,并在已构建关系图谱中搜索与源词具有扩展关系的衍生词,进而针对包含源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令,在侦听得到关键词挖掘指令之后,计算关系子图中衍生词与源词的关系强度,输出关系强度符合设定规则的衍生词构成的关键词集合,也就是说,关键词的分析和挖掘建立在包含源词及其具有扩展关系衍生词的关系子图的基础上,使得所挖掘的关键词不再依赖于某一种因素,而能够从与源词具有各种扩展关系的衍生词出发,以此全面覆盖与广告主推广需求相关的各类搜索需求中的众多因素,进而能够有效解决现有技术中所挖掘关键词的准确性不高的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图。
图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。
图3是根据一示例性实施例示出的一种关键词挖掘方法的流程图。
图4为图3对应实施例所涉及的关系图谱的示意图;
图5是根据一示例性实施例示出的另一种关键词挖掘方法的流程图。
图6是图5对应实施例中步骤410在一个实施例的流程图。
图7是根据一示例性实施例示出的另一种关键词挖掘方法的流程图。
图8是图3对应实施例中步骤370在一个实施例的流程图。
图9是根据一示例性实施例示出的另一种关键词挖掘方法的流程图。
图10是根据一示例性实施例示出的一种关键词挖掘装置的框图。
图11是根据一示例性实施例示出的一种电子设备的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如前所述,关键词的分析和挖掘是否准确,将直接决定后续的广告创意或者网页内容是否能够有效地触达意向用户。
例如,为了提升广告的展现和点击率,搜索引擎会充分引导和推荐广告主去购买长尾关键词,既增加了广告展示的机会,也因为长尾关键词的需求明确而提升了广告点击率,同时还可以避免多个广告主过度竞争热词的搜索广告。
但是搜索引擎推荐给广告主的长尾关键词都是根据广告主提供的源词来匹配用户的搜索词,尚无法全面覆盖与广告主推广需求相关的各类搜索需求中的众多因素,而导致关键词分析和挖掘的准确性不够。
又或者,对于网站站长如何组织网页内容从而获得有效自然的排名位置而言,搜索引擎所推荐的长尾关键词词仅是实际需要规划的关键词中的一小部分,因缺少对众多因素的综合考虑,往往还需要进一步结合人工来筛选和评估所挖掘关键词的准确性,故而,也难以保证关键词分析和挖掘的准确性。
由此可知,关键词的分析和挖掘尚存在准确率不高的缺陷。
为此,本发明特提出了一种关键词挖掘方法,能够有效地提高关键词挖掘的准确率,相应地,一种关键词挖掘装置部署于电子设备,例如,电子设备可以是智能手机、计算机设备等等,以此实现关键词挖掘方法。
图1为一种关键词挖掘方法所涉及的实施环境的示意图。该实施环境包括用户端110和服务端130。
具体地,用户端110可以是台式电脑、笔记本电脑、平板电脑、智能手机或者其他可供用户输入的电子设备,在此不进行限定。
服务端130预先建立与用户端110之间的网络连接,并通过网络连接实现与用户端110之间的数据传输。传输的数据包括但不限于:携带源词的请求、携带关系子图的消息、携带关键词集合的消息等等。
其中,该服务端130可以是一台服务器,也可以是由多台服务器构成的服务器集群,甚至是由多台服务器构成的云计算中心。此服务器是为用户提供后台服务的电子设备,例如,后台服务包括但不限于关键词挖掘服务等等。
通过用户端110与服务端130的交互,用户端110显示关键词挖掘界面,以侦听字符串输入指令。在侦听得到字符串输入指令之后,从中解析得到源词,并以此向服务端130发起关键词挖掘请求。
对于服务端130而言,在接收到关键词挖掘请求之后,便可从中提取出源词,并在已构建关系图谱中搜索与该源词具有扩展关系的衍生词,进而基于包含源词及其扩展关系衍生词的关系子图,计算该关系子图中衍生词与源词的关系强度,获得关键词集合。
最终,服务端130可根据用户端110的请求,将关键词集合返回至用户端110,由此,用户端110便能够将关键词集合中与源词的关系强度符合设定规则的衍生词作为关键词,推送给广告主或者网站站长,以此实现关键词的准确挖掘。
当然,根据实际营运的需要,关键词挖掘方法不局限于用户端110与服务端130交互的形式完成,即用户端110和服务端130被用于实现关键词挖掘的模块也可以整合在同一个电子设备上,以使关键词挖掘由该同一个电子设备独立完成,此处并非构成具体限定。
图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。该种电子设备适用于图1所示出实施环境的用户端110和服务端130。
需要说明的是,该种电子设备只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。
电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异,如图2所示,电子设备200包括:电源210、接口230、至少一存储器250、、至少一中央处理器(CPU,Central Processing Units)270、显示屏幕280以及输入组件290。
具体地,电源210用于为电子设备200上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口,用于与外部设备交互。例如,进行图1所示出实施环境中用户端110与服务端130之间的交互。
当然,在其余本发明适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,如图2所示,在此并非对此构成具体限定。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。
其中,操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。
应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如,关键词挖掘装置可视为部署于电子设备200的应用程序253。
数据255可以是存储于磁盘中的照片、图片等,还可以是关系图谱等,存储于存储器250中。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机可读指令,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成关键词挖掘方法。
显示屏幕280可以是液晶显示屏或者电子墨水显示屏等,此显示屏幕280在终端200与用户之间提供一个输出界面,以通过该输出界面将文字、图片或者视频任意一种形式或者组合所形成的输出内容向用户显示输出。例如,用于显示关键词挖掘界面。
输入组件290,可以是显示屏幕280上覆盖的触摸层,也可以是终端200外壳上设置的按键、轨迹球或者触控板,还可以是外接的键盘、鼠标、触控板等,用于获取用户触发的各种操作。例如,字符串输入操作、关键词挖掘操作、关系扩展输入操作等等。
可以理解,图2所示的结构仅为示意,终端200还可包括比图2中所示更多或更少的组件,或者具有与图2所示不同的组件。图2中所示的各组件可以采用硬件、软件或者其组合来实现。
请参阅图3,在一示例性实施例中,一种关键词挖掘方法适用于电子设备,该电子设备的结构可以如图2所示。
该种关键词挖掘方法可以由电子设备执行,也可以理解为由电子设备中运行的应用程序(即关键词挖掘装置)执行。在下述方法实施例中,为了便于描述,以各步骤的执行主体为电子设备加以说明,但是并不对此构成限定。
该种关键词挖掘方法可以包括以下步骤:
步骤310,显示关键词挖掘界面,并侦听字符串输入指令。
首先,关键词挖掘界面,是随着关键词挖掘装置在电子设备上运行而进入,此时,广告主或者网站站长便可借由与关键词挖掘界面之间的交互,请求电子设备为其提供关键词挖掘服务。
具体地,广告主或者网站站长与关键词挖掘界面之间的交互,包括但不限于:广告主或者网站站长请求输入源词、请求进行关键词挖掘、请求扩展关系子图、以及向广告主或者网站站长输出关键词集合等等。
其次,对于电子设备而言,为了方便于广告主或者网站站长与关键词挖掘界面之间关于请求输入源词的交互,本实施例中,在关键词挖掘界面中提供了字符串输入口。
那么,在关键词挖掘界面显示时,如果广告主或者网站站长请求输入源词,便可通过该关键词挖掘界面中提供的字符串输入口触发字符串输入操作,相应地,就电子设备来说,便可检测到该字符串输入操作,以此侦听得到字符串输入指令。
需要说明的是,根据电子设备所配置输入组件(例如显示屏幕上覆盖的触摸层、鼠标、键盘等)的不同,字符串输入操作的具体行为也可以各不相同。例如,借由触摸层输入的智能手机而言,字符串输操作可以是点击、滑动等手势操作,而对于配置鼠标的个人计算机而言,字符串输操作则可以是拖拽、单击、双击等机械操作,本实施例并未对此加以限定。
步骤330,从侦听到的所述字符串输入指令中解析出源词,并在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词。
如前所述,字符串输入指令,实质是在广告主或者网站站长请求输入源词,进而触发了字符串输入操作时侦听得到。也就是说,字符串输入指令,相当于携带了源词的指令,基于此,源词,便可由字符串输入指令中解析得到。
进一步地,在由字符串输入指令获得源词之后,需要在已构建的关系图谱中进行与该源词具有扩展关系的衍生词的搜索。
其中,所述扩展关系包括父子关系、三元关系、同义关系、收录关系、命中关系、竞价关系、长尾关系、查询关系、共现关系、疑问关联关系中的任意一种或者几种。
如图4所示,在关系图谱中,无论是源词,还是衍生词,通过不同的扩展关系,都能够扩展出不同的衍生词。其中,关系路径,连接于源词与衍生词、或者不同衍生词之间,用于表示源词与衍生词、或者不同衍生词之间的扩展关系。
换而言之,关系图谱,相当于一个候选关键词集合,该候选关键词集合中的候选关键词之间通过关系路径连接,以此来表示各候选关键词之间具有的扩展关系。
由此,基于已构建的关系图谱,一旦源词确定,便可搜索得到与该源词具有扩展关系的至少一个衍生词。
步骤350,针对包含所述源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令。
首先,关系子图,包含了源词及其具有扩展关系的衍生图,相当于关系图谱的子集。一旦广告主或者网站站长确定了源词,关系子图也确定了,后续的关键词挖掘都是基于该关系子图进行的。
由此,不仅将关键词的挖掘范围由关系图谱缩小至关系子图,有利于提升关键词挖掘的效率,而且关系子图的确定,是基于源词与衍生词之间的各种扩展关系,以此充分地保证在关键词挖掘时能够全面地覆盖与广告主或者网站站长推广需求相关的各类搜索需求中的众多因素,进而充分地保证关键词挖掘的准确性。
进一步地,发明人意识到,由字符串输入指令中解析得到的源词,很可能并不存在于已构建的关系图谱中,故而,在一实施例的实现中,执行步骤330之后或者执行步骤350之前,首先需要检测已构建的关系图谱中是否包含源词。
如果已构建的关系图谱中已包含源词,则执行步骤350。
反之,如果已构建的关系图谱中未包含源词,则需要将该源词及其具有扩展关系的衍生词添加至已构建的关系图谱,使得在已构建关系图谱中搜索与源词具有扩展关系的衍生词得以实现,进而方能够执行步骤350,即针对包含源词及其具有扩展关系衍生词的关系子图,进行关键词挖掘指令的侦听。
其次,对于电子设备而言,为了方便于广告主或者网站站长与关键词挖掘界面之间关于请求进行关键词挖掘的交互,本实施例中,在关键词挖掘界面中提供了关键词挖掘入口。
那么,在关键词挖掘界面显示时,如果广告主或者网站站长请求进行关键词挖掘,便可通过该关键词挖掘界面中提供的关键词挖掘入口触发关键词挖掘操作,相应地,就电子设备来说,便可检测到该关键词挖掘操作,以此侦听得到关键词挖掘指令,进而获知广告主或者网站站长请求基于当前的关系子图进行关键词挖掘。
步骤370,当侦听得到所述关键词挖掘指令,计算所述关系子图中所述衍生词与所述源词的关系强度,输出关键词集合。
其中,所述关键词集合中衍生词与所述源词的关系强度符合设定规则。
在侦听得到关键词挖掘指令之后,便可基于当前的关系子图进行关键词挖掘。如前所述,关系子图,包含了源词及其具有扩展关系的衍生词,且源词与衍生词之间通过关系路径连接。其中,关系路径,用于表示源词与衍生词之间的扩展关系。
那么,基于关系子图进行的关键词挖掘,实质是通过关系路径所表示的衍生词与源词之间的扩展关系,对关系子图中的衍生词进行筛选的过程。
具体地,根据关系路径所表示的衍生词与源词之间的扩展关系,计算衍生词与源词的关系强度,进而基于衍生词与源词之间的关系强度,筛选得到与源词的关系强度符合设定规则的衍生词,进而形成关键词集合。
如前所述,所述扩展关系包括父子关系、三元关系、同义关系、收录关系、命中关系、竞价关系、长尾关系、查询关系、共现关系、疑问关联关系中的任意一种或者几种,相应地,所述关系强度包括共现强度、疑问关联强度、竞争强度、查询强度、长尾强度、收录强度、同义强度中的任意一种或者几种。
例如,关系强度=长尾强度,或者,关系强度=长尾强度+竞争强度。
其次,设定规则,可以是指关系强度排名前K名的衍生词,或者指关系强度超过设定阈值L的衍生词。当然,根据应用场景的实际需要,K或者L,可以灵活地调整,以此确保关键词挖掘的准确性。
通过如上所述的过程,基于关系子图的关键词挖掘,通过关系子图所反映出源词与衍生词之间多种多样的扩展关系,使得所挖掘的关键词不再依赖于某一种因素,而能够从与源词具有各种扩展关系的衍生词出发,以此全面覆盖与广告主推广需求相关的各类搜索需求中的众多因素,从而有效地提高关键词挖掘的准确率。
如前所述,发明人意识到,由字符串输入指令中解析得到的源词,很可能并不存在于已构建的关系图谱中,故而,在本发明一实施例中,当检测到已构建的关系图谱中未包含源词,还提供了关系图谱的扩建方法,具体过程说明如下。
请参阅图5,在一示例性实施例中,步骤330之后,如上所述的方法还可以包括以下步骤:
步骤410,如果已构建的所述关系图谱中未包含所述源词,则为所述源词扩展具有扩展关系的衍生词。
如前所述,所述扩展关系包括父子关系、三元关系、同义关系、收录关系、命中关系、竞价关系、长尾关系、查询关系、共现关系、疑问关联关系中的任意一种或者几种。
下面基于上述扩展关系,对如何获取与源词具有扩展关系的衍生词的过程加以详细地说明。
其中,在产品服务领域,父子关系中,假设源词是“父”关键词,其实质是对商品和服务编码(UNSPSC,The Universal Standard Products and Services Classification)进行加工,形成产品服务层级式的“父”关键词。那么,以“子”关键词作为衍生词,则是进一步通过对产品服务各类目的采集,从而形成产品服务各类目下分级式的“子”关键词,以此作为衍生词,由此,便得到了与源词具有父子关系的衍生词。
或者,使用通过“百度百科”或者“维基百科”等在线语料加工形成的三元关系知识图谱库,对源词进行扩展,以获得与源词具有三元关系的衍生词。具体地,在三元关系知识图谱库包含的数亿条三元组(实体1、关系、实体2)中,首先匹配得到与源词相关的三元组,即(源词、关系、实体2)或者(实体1、关系、源词),然后从匹配得到的三元组中,仅提取出关系为“属性”、“描述”、“用途”、以及“标签”的三元组,将这些三元组中区别于源词的另一个实体(即实体2或者实体1)作为衍生词,由此,便得到了与源词具有三元关系的衍生词。
或者,通过“哈工大同义词词林扩展版”等同义词扩展工具,对源词进行同义词扩展,将源词的同义词作为衍生词,由此,便得到了与源词具有同义关系的衍生词。
或者,使用爬虫技术,以源词作为搜索词,对各搜索引擎采集的用户输入的搜索词进行匹配,将与源词相匹配的搜索词,作为与源词具有查询关系的衍生词。
或者,对上述衍生词进行长尾词拓展,将拓展的长尾词作为新的衍生词,由此,便得到了与源词具有长尾关系的衍生词。
或者,在各搜索引擎使用源词进行搜索时,采集由此返回的结果页面总数量以及前N页结果页面中的标题、摘要和描述文本,新建该前N页结果页面的链接及对应的站点实体,在新建的前N页结果页面的链接与源词之间建立“命中”关系,由此形成与源词具有命中关系的衍生词。同时,将该新建的链接在前N页结果页面中的排名值作为命中关系对应的扩展属性值,并在新建的站点实体与新建的链接之间建立“包含链接”关系。
或者,针对前述基于源词进行搜索时所新建的前N页结果页面的链接,判断各链接在该源词上是否存在搜索竞价,从而在各条存在搜索竞价的链接与源词之间建立“竞价”关系,由此形成与源词具有竞价关系的衍生词。
或者,对于前述采集到的前N页结果页面中的描述文本,应用RAKE算法,进行主题关键词提取,将提取到的主题关键词作为与源词具有收录关系的衍生词。
或者,对于由前述与源词之间建立“命中”关系的结果页面的链接的HTML内容所形成的页面内容素材库,经过去分词、去停用词等清洗处理之后,使用Lucene等检索引擎工具,建立素材倒排索引,进而基于该素材倒排索引检索到的词来统计共现关系,具体地,针对页面素材库,为各检索到的词统计共现间隔5个词以内的文档命中数量m,在m>0的词与源词之间建立“共现”关系,由此形成与源词具有共现关系的衍生词。
或者,对于设定的若干种疑问词,例如“什么”、“如何”、“怎么”等等,与源词之间进行两两组合,检测疑问词与源词之间是否存在共现关系,对于存在共现关系的源词与疑问词,建立“疑问关联”关系,由此,便得到了与源词具有疑问关联关系的衍生词。
由此,基于前述扩展关系,便可获得与源词具有扩展关系的衍生词,进而为后续关系图谱的扩建提供依据。
步骤430,将所述源词及其具有扩展关系的衍生词,按照所述源词及其衍生词之间的扩展关系,添加至所述关系图谱中。
关系图谱的扩建,实质是将获得的与源词具有扩展关系的衍生词添加至关系图谱中。
具体地,在关系图谱中构建一条关系路径,该关系路径连接在源词及其具有扩展关系的衍生词之间,用于表示源词及其衍生词之间的扩展关系。
当关系图谱完成扩建,即返回执行步骤330中所述在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词的步骤。
通过上述实施例的配合,实现了关系图谱的扩建,使得任意源词均能够在关系图谱中搜索到具有扩展关系的至少一个衍生词,从而为关系子图的生成提供了依据,进而有利于关键词挖掘的实现。
在此说明的是,关系图谱的构建方法与扩建方法的原理基本一致,区别仅在于关系图谱的构建是在广告主或者网站站长尚未输入源词时,主动收集广告主或者网站站长曾经输入的源词而自发启动的,而关系图谱的扩建则是在广告主或者网站站长输入源词,且该源词不存在于关系图谱中而被动启动的,此处不再重复描述。
请参阅图6,在一示例性实施例中,步骤410可以包括以下步骤:
步骤411,对所述源词进行一级扩展,得到与所述源词具有扩展关系的第一级关键词。
步骤413,对所述第一级关键词进行二级扩展,得到与所述第一级关键词具有扩展关系的第二级关键词。
步骤415,将所述第一级关键词和所述第二级关键词,作为与所述源词具有扩展关系的衍生词。
如图4所示,基于父子关系,源词a,经过一级扩展,得到了与源词a具有父子关系的衍生词a1,作为第一级关键词。
继续基于父子关系,衍生词a1,经过二级扩展,得到了与衍生词a1具有父子关系的衍生词a2,作为第二级关键词。
此时,衍生词a1、衍生词a2,均作为与源词a具有父子关系的衍生词。
通过上述过程,电子设备最终获得的与源词具有扩展关系的衍生词,实质上是基于各种扩展关系,对源词进行了两级扩展。
当然,根据应用场景的实际需要,扩展的级数可以灵活地调整,以此充分地保证关键词挖掘的准确性。
在上述实施例的作用下,基于关系图谱,同一个源词通过各种扩展关系,将能够获得至少两个层级的各种相关衍生词,由此极大地丰富了关键词的挖掘基础,进而有利于充分地保障关键词挖掘的准确性。
此外,发明人发现,广告主或者网站站长从实际搜索需求出发,可能对电子设备提供的包含了源词及其具有扩展关系衍生词的当前关系子图不是很满意,那么,可能期望按照自身的关键词规划对该关系子图进行扩展,故而,本发明的一实施例中,还提供了关系子图的扩展方法,具体过程说明如下。
在一示例性实施例中,步骤350之前,如上所述的方法还可以包括以下步骤:
响应于关系扩展输入指令,进行所述关系子图的关系路径扩展,以使所述关键词挖掘指令的侦听是针对添加了所述关系路径的关系子图进行的。
具体而言,如图7所示,上述步骤可以包括以下步骤:
步骤510,在所述关键词挖掘界面中,展示包含所述源词及其具有扩展关系衍生词的关系子图,并侦听所述关系扩展输入指令。
也就是说,在获得包含源词及其具有扩展关系衍生词的关系子图之后,对于电子设备而言,将在关键词挖掘界面中展示该关系子图,以向广告主或者网站站长展示关键词挖掘的初步成果。
进一步地,为了方便于广告主或者网站站长与关键词挖掘界面之间关于请求扩展关系子图的交互,本实施例中,在关键词挖掘界面中提供了关系扩展输入口。
此时,如果广告主或者网站站长对关键词界面中展示的关系子图不满意,便可通过该关键词挖掘界面中提供的关系扩展输入口触发关系扩展输入操作,相应地,就电子设备来说,便可检测到该关系扩展输入操作,以此侦听得到关系扩展输入指令,进而获知广告主或者网站站长自身实际的关键词规划,以便于后续扩展关系子图。
在此补充说明的是,无论是前述的关键词挖掘操作,还是此处的关系扩展输入操作,都类似于前述的字符串输入操作,将根据电子设备所配置输入组件(例如显示屏幕上覆盖的触摸层、鼠标、键盘等)的不同,而使得操作的具体行为有所差别,在此不再重复举例说明。
步骤530,从侦听到的所述关系扩展输入指令中解析得到关键词扩展信息。
其中,所述关键词扩展信息用于指示用户请求扩展的衍生词,还进一步用于指示用户请求扩展的衍生词与源词之间的扩展关系。
步骤550,按照所述关键词扩展信息的指示,为展示在所述关键词挖掘界面中的所述关系子图构建一条关系路径。
其中,所述关系路径连接在所述源词与所述用户请求扩展的衍生词之间,用于表示所述源词与所述用户请求扩展的衍生词之间的扩展关系。
步骤570,在所述关键词挖掘界面中,展示添加了所述关系路径的关系子图。
在获得添加了关系路径的关系子图之后,对于电子设备而言,将在关键词挖掘界面中展示该关系子图,以向广告主或者网站站长展示关键词挖掘的优化成果。
当完成关系子图本次的关系路径添加,可以执行针对添加了所述关系路径的关系子图,侦听关键词挖掘指令的步骤,即基于添加了关系路径的该关系子图,为广告主或者网站站长进行关键词挖掘。
或者,返回执行所述侦听所述关系扩展输入指令的步骤,以继续根据广告主或者网站站长自身的关键词规划继续对该关系子图进行后一次的关系路径添加,直至广告主或者网站站长满意。
当然,其他实施例中,扩展,还可以包括关系路径的删除等,此处并非构成具体限定。
通过上述过程,实现了关系子图的扩展,辅助广告主或者网站站长更加准确地定位合适的关系子图,不仅为关键词的挖掘提供了依据,而且有利于充分地保障关键词挖掘的准确性,极大地提升了关键词的规划质量。
此外,通过关系子图的展示,更好地实现了广告主或者网站站长与关键词挖掘界面之间直观有效的互动方式,有利于提升广告主或者网站站长的使用体验。
请参阅图8,在一示例性实施例中,步骤370可以包括以下步骤:
步骤371,当侦听得到所述关键词挖掘指令,针对所述关系子图中的每一个衍生词,根据该衍生词与所述源词之间的至少一种扩展关系,确定所述至少一种扩展关系对应的扩展属性值。
如前所述,扩展关系包括父子关系、三元关系、同义关系、收录关系、命中关系、竞价关系、长尾关系、查询关系、共现关系、疑问关联关系中的任意一种或者几种。
下面结合上述扩展关系,对扩展关系对应的扩展属性值是如何确定的过程进行详细地说明。
其中,共现关系对应的扩展属性值,记为Cc,基于素材倒排索引,在页面素材库中分别统计包含具有共现关系的衍生词与源词的文档总数,记为Ca和Cb,则Cc=m/(Ca+Cb),其中,m表示针对页面素材库,为具有共现关系的衍生词与源词统计共现间隔5个词以内的文档命中数量。
疑问关联关系对应的扩展属性值,记为Cq,则Cq=m’/(Ca’+Cb’),其中,m’表示针对页面素材库,为具有疑问关联关系的衍生词与源词统计共现间隔5个词以内的文档命中数量,Ca’表示基于素材倒排索引,在页面素材库中统计的包含具有疑问关联关系中衍生词的文档总数,Cb’表示基于素材倒排索引,在页面素材库中统计的包含具有疑问关联关系中源词的文档总数。
查询关系对应的扩展属性值,实质为与衍生词具有查询关系的所有源词在有限扩展级数(例如两级)内的所有具有查询关系的衍生词的数量。
长尾关系对应的扩展属性值,实质为与衍生词具有长尾关系的所有源词在有限扩展级数(例如两级)内的所有具有长尾关系的衍生词的数量。
收录关系对应的扩展属性值,实质为与衍生词具有收录关系的所有源词在有限扩展级数(例如两级)内的所有具有收录关系的衍生词的数量。
同义关系对应的扩展属性值,确定过程包括:基于衍生词及其具有同义关系的所有源词,由与衍生词具有共现关系的源词生成第一词集合,由与该衍生词具有同义关系的各源词分别具有共现关系的衍生词生成若干第二词集合,取第一词集合分别与若干第二词集合的交集,将各个交集中的词的数量累加,即得到同义关系对应的扩展属性值。
命中关系对应的扩展属性值,如前所述,实质是新建的链接在前N页结果页面中的排名值,而该新建的链接是各搜索引擎使用衍生词搜索采集到的。
竞价关系对应的扩展属性值,首先统计与衍生词之间建立了“竞价”关系的链接的数量,记为Kc,然后,确定与该衍生词之间建立了“命中”关系的链接,进而确定与该链接之间建立了“包含链接”关系的站点实体的竞争度Ms/Max(Ms),记为Kts,最后通过Pc=Wc1×Kc/10+Wc2×Kts计算得到竞价关系对应的扩展属性值Pc。其中,Wc1、Wc2表示Kc、Kts对应的权重值,可以根据应用场景的实际需要灵活地调整。
在此,对站点实体的竞争度Ms/Max(Ms)的计算过程进行如下说明。
首先,确定该站点实体下具有“包含链接”关系的所有链接,并确定各链接所形成的命中关系对应的扩展属性值。
然后,针对扩展属性值排名进入前3,前10,前30,前100名的命中关系,统计形成该些命中关系的源词或者衍生词的数量,以此作为该站点实体的排名属性值m3、m10、m30、m100。
之后,通过Ms=(Wp3×m3+Wp10×10+Wp30×m30+Wp100×m100)计算得到Ms。其中,Wp3、Wp10、Wp30、Wp100分别为该站点实体的排名属性值m3、m10、m30、m100对应的权重值,可以根据应用场景的实际需要灵活地调整。
最终,结合上述方法计算出的所有站点的Ms求取最大值Max(Ms),根据Ms和Max(Ms)进行归一化处理,从而形成各个站点的竞争度Ms/Max(Ms)。
由此,基于前述扩展关系,便可获得各扩展关系对应的扩展属性值,进而为后续衍生词关于扩展关系的关系强度提供依据。
步骤373,从所述关键词挖掘指令中解析得到所述至少一种扩展属性值对应的权重值。
首先,权重值,可以由提供关键词挖掘服务的工作人员设置,也可以由广告主或者网站站长根据自身的关键词规划设置,本实施例对此并未加以限定。
例如,假设扩展关系包括长尾关系和竞争关系,如果广告主或者网站站长根据自身的关键词规划,期望关键词集合中更多地包含与源词具有长尾关系的衍生词,便可为长尾关系设置更大的权重值。
其次,为了方便于广告主或者网站站长与关键词挖掘界面之间关于权重值设置的交互,在关键词挖掘界面中还可提供权重值输入口。
此时,如果广告主或者网站站长期望为各种扩展关系进行权重值设置,便可通过该关键词挖掘界面中提供的权重值输入口触发权重值输入操作。相应地,就电子设备来说,便可检测到该权重值输入操作。
其中,权重值的设置,可以根据应用场景的实际需要灵活地调整。例如,需要关键词集合覆盖更多与源词具有查询关系的衍生词时,可以为查询关系设置更大的权重值;或者,当需要更加精准地触达长尾意向用户时,可以为长尾关系设置更大的权重值;或者,当需要使得网页内容更加相关更加聚焦时,可以为收录关系设置更大的权重值;又或者,为了使得新站点实体或者本身竞争度较低的站点实体具有更好地竞争度,则可以为竞价关系设置更大的权重值。
进一步地,为了提高电子设备的关键词挖掘效率,本实施例中,在检测权重值输入操作时,电子设备是进行关键词挖掘指令的侦听而并非进行权重值输入指令的侦听。
基于此,权重值将封装至关键词挖掘指令中,以此避免权重值的多次解析而影响电子设备的关键词挖掘效率。
相应地,在侦听得到关键词挖掘指令之后,方能够通过解析关键词挖掘指令获知广告主或者网站站长期望为各种扩展关系设置的权重值。
步骤375,针对每一种扩展关系,对该种扩展关系分别对应的扩展属性值和权重值进行乘法运算,得到该衍生词关于该种扩展关系的关系强度。
步骤377,根据该衍生词关于每一种扩展关系的关系强度,计算得到该衍生词与所述源词的关系强度。
举例来说,Rp=(Wq×Pq+Wl×Pl+Wi×Pi)×(1-Wc×Pc)。
其中,Wq、Wl、Wi、Wc分别表示查询关系对应的权重值、长尾关系对应的权重值、收录关系对应的权重值、竞价关系对应的权重值。
Pq、Pl、Pi、Pc分别表示查询关系对应的扩展属性值、长尾关系对应的扩展属性值、收录关系对应的扩展属性值、竞价关系对应的扩展属性值。
Wq×Pq、Wl×Pl、Wi×Pi、Wc×Pc分别表示衍生词关于询关系的关系强度、关于长尾关系的关系强度、关于收录关系的关系强度、关于竞价关系的关系强度。
Rp表示衍生词与源词的关系强度。
由此,便可计算得到关系子图中所有衍生词与源词的关系强度。
值得一提的是,关系子图展示时,衍生词与源词之间连接的关系路径,不仅可用于表示该衍生词与该源词之间的扩展关系,还可用于表示该衍生词与该源词的关系强度,例如,关系强度越强,关系路径越粗;或者,关系强度超过阈值,则关系路径高亮显示等等。
步骤379,按照所述关系子图中各衍生词与所述源词的关系强度,输出所述关键词集合。
如前所述,关系子图可以根据广告主或者网站站长自身的关键词规划进行扩展,故而,本实施例中,关系子图中的衍生词,均视为符合广告主或者网站站长自身的关键词规划。
由此,在输出关键词集合时,将按照关系子图中各衍生词与源词的关系强度的大小,按照从大到小的顺序,依次输出关系子图中的所有衍生词。
此处,输出,可以通过图形的方式输出,例如,通过列表的形式展示在关键词挖掘界面中,也可以通过语音等方式输出,在此不进行限定。
在上述过程中,实现了基于衍生词与源词之间关系强度输出关键词集合的方案,即关系强度越强,表示与源词之间的扩展关系越紧密,则越有可能作为关键词集合的一部分输出,以此充分地保障关键词挖掘的准确性。
上文仅以一个电子设备独立完成关键词挖掘方法为例,对关键词挖掘方法进行了详细地说明,在此应当说明的是,该关键词挖掘方法还可以通过如图1实施环境中用户端110与服务端130交互的形式实现,过程如图9所示。
请参阅图9,在一示例性实施例中,一种关键词挖掘方法适用于电子设备,例如,电子设备包括如图1实施环境中示出的用户端110与服务端130,以通过用户端110与服务端130的交互实现关键词挖掘方法,该电子设备的结构可以如图2所示。
该种关键词挖掘方法可以由电子设备执行,也可以理解为由电子设备中运行的应用程序执行。在下述方法实施例中,为了便于描述,以各步骤的执行主体为电子设备加以说明,但是并不对此构成限定。
该种关键词挖掘方法可以包括以下步骤:
步骤810,用户端显示关键词挖掘界面,并侦听字符串输入指令。
步骤830,用户端从侦听到的所述字符串输入指令中解析出源词,并根据所述源词请求服务端在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词。
步骤850,用户端针对包含所述源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令。
步骤870,当用户端侦听得到所述关键词挖掘指令,请求服务端计算所述关系子图中所述衍生词与所述源词的关系强度,以接收服务端根据所述关系强度返回的关键词集合,并在用户端中输出所述关键词集合,所述关键词集合中衍生词与所述源词的关系强度符合设定规则。
由此,关键词挖掘方法即通过用户端与服务端交互的形式实现,各步骤在用户端与服务端等不同电子设备中的实现过程,与上文各实施例中各步骤在同一个电子设备中的实现过程原理基本一致,此处不再重复赘述。
通过上述过程,用户端仅实现简单的输入输出功能,即在于提供用户界面与广告主或者网站站长进行互动,而计算量大且复杂的关键词挖掘功能则依赖于服务端完成,使得用户端即使未具备较高的配置,仍可以借助处理能力强大的服务端为广告主或者网站站长提供便捷的关键词挖掘服务,同时还充分地保障了关键词的高效率挖掘,从而有效地帮助广告主或者网站站长优化广告创意或者网页内容中的关键词选择,进而极有利于提升广告主或者网站站长的使用体验。
下述为本发明装置实施例,可以用于执行本发明所涉及的关键词挖掘方法。对于本发明装置实施例中未披露的细节,请参照本发明所涉及的关键词挖掘方法的方法实施例。
请参阅图10,在一示例性实施例中,一种关键词挖掘装置900包括但不限于:界面显示模块910、衍生词搜索模块930、指令侦听模块950、以及关键词输出模块970。
其中,界面显示模块910,用于显示关键词挖掘界面,并侦听字符串输入指令。
衍生词搜索模块930,用于从侦听到的所述字符串输入指令中解析出源词,并在已构建关系图谱中搜索与所述源词具有扩展关系的衍生词。
指令侦听模块950,用于针对包含所述源词及其具有扩展关系衍生词的关系子图,侦听关键词挖掘指令。
关键词输出模块970,用于当侦听得到所述关键词挖掘指令,计算所述关系子图中所述衍生词与所述源词的关系强度,输出关键词集合,所述关键词集合中衍生词与所述源词的关系强度符合设定规则。
需要说明的是,上述实施例所提供的关键词挖掘装置在进行关键词挖掘时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即关键词挖掘装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的关键词挖掘装置与关键词挖掘方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
请参阅图11,在一示例性实施例中,一种电子设备1000,包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。
其中,存储器1002上存储有计算机可读指令,处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。
该计算机可读指令被处理器1001执行时实现上述各实施例中的关键词挖掘方法。
在一示例性实施例中,一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的关键词挖掘方法。
上述内容,仅为本发明的较佳示例性实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。