CN107665222B - 关键词的拓展方法和装置 - Google Patents

关键词的拓展方法和装置 Download PDF

Info

Publication number
CN107665222B
CN107665222B CN201610617919.4A CN201610617919A CN107665222B CN 107665222 B CN107665222 B CN 107665222B CN 201610617919 A CN201610617919 A CN 201610617919A CN 107665222 B CN107665222 B CN 107665222B
Authority
CN
China
Prior art keywords
keyword
target
vector
similarity
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610617919.4A
Other languages
English (en)
Other versions
CN107665222A (zh
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610617919.4A priority Critical patent/CN107665222B/zh
Publication of CN107665222A publication Critical patent/CN107665222A/zh
Application granted granted Critical
Publication of CN107665222B publication Critical patent/CN107665222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关键词的拓展方法和装置。其中,该方法包括:获取目标关键词和N个参考关键词,其中,N个参考关键词的领域与目标关键词的领域相关,N≥2;获取多个第一位置,其中,第一位置是目标关键词在语句成分中出现的位置;获取多个第二位置,并比较多个第一位置和多个第二位置,得到目标关键词与第i个参考关键词的相似度,其中,第二位置是第i个参考关键词在语句成分中出现的位置,i依次取1至N;从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,拓展关键词是对目标关键词进行拓展得到的关键词。本申请解决了现有技术中人工拓展关键词效率低的技术问题。

Description

关键词的拓展方法和装置
技术领域
本申请涉及关键词领域,具体而言,涉及一种关键词的拓展方法和装置。
背景技术
在互联网时代,每天都有大量网络用户通过点击搜索引擎营销(Search EngineMarketing,简称SEM)广告访问网站,以购买商品。为了增加广告受众覆盖率,增加网站流量,SEM业务人员需要经常根据已有的关键词拓展新的关键词,并将拓展得到的新的关键词添加到账户里。
由于每个SEM业务人员的经验不同,对所在SEM领域掌握的关键词丰富程度也不同,对商品的品牌的熟悉程度也不同,当SEM业务人员经验较少、对所在SEM领域掌握的关键词丰富程度不够、或者对商品的品牌的熟悉程度不够时,业务人员需要花费大量的时间和精力来了解SEM领域的关键词及其具体含义、商品的品牌等等,这就导致了人工拓展关键词效率低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种关键词的拓展方法和装置,以至少解决现有技术中人工拓展关键词效率低的技术问题。
根据本申请实施例的一个方面,提供了一种关键词的拓展方法,包括:获取目标关键词和N个参考关键词,其中,所述N个参考关键词的领域与所述目标关键词的领域相关,N≥2;获取多个第一位置,其中,所述第一位置是所述目标关键词在语句成分中出现的位置;获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度,其中,所述第二位置是所述第i个参考关键词在语句成分中出现的位置,i依次取1至N;从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,所述拓展关键词是对所述目标关键词进行拓展得到的关键词。
进一步地,使用向量表示关键词在语句成分中出现的位置,获取多个第一位置包括:对所述目标关键词进行向量化处理,得到目标向量,其中,所述目标向量用于表示所述多个第一位置;获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度包括:对所述第i个参考关键词进行向量化处理,得到所述第i个参考关键词的向量,其中,所述第i个参考关键词的向量用于表示所述第i个参考关键词在语句成分中出现的位置;计算所述目标向量和所述第i个参考关键词的向量的相似度,得到所述目标关键词与所述第i个参考关键词的相似度。
进一步地,在对所述目标关键词进行向量化处理之前,所述方法还包括:根据所述目标关键词所在领域的语料库训练词向量模型,得到训练后的词向量模型,其中,所述训练后的词向量模型用于对所述参考关键词和所述目标关键词进行向量化处理。
进一步地,计算所述目标向量和所述第i个参考关键词的向量的相似度包括:根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure BDA0001065014190000021
其中,
Figure BDA0001065014190000022
Figure BDA0001065014190000023
表示所述目标向量,
Figure BDA0001065014190000024
表示所述第i个参考关键词的向量,S1表示所述目标向量和所述第i个参考关键词的向量的相似度。
进一步地,计算所述目标向量和所述第i个参考关键词的向量的相似度包括:根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure BDA0001065014190000025
其中,
Figure BDA0001065014190000026
Figure BDA0001065014190000027
表示所述目标向量,
Figure BDA0001065014190000028
表示所述第i个参考关键词的向量,S2表示所述目标向量和所述第i个参考关键词的向量的相似度。
进一步地,对所述目标关键词进行向量化处理,得到目标向量包括:对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;根据所述第二分词集合中每个分词的向量计算所述目标关键词的向量,得到所述目标向量。
进一步地,根据所述第二分词集合中每个分词的向量计算所述目标关键词的向量,得到所述目标向量包括:将所述第二分词集合中所有分词的向量之和作为所述目标向量;或者将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
根据本申请实施例的另一方面,还提供了一种关键词的拓展装置,包括:第一获取单元,用于获取目标关键词和N个参考关键词,其中,所述N个参考关键词的领域与所述目标关键词的领域相关,N≥2;第二获取单元,用于获取多个第一位置,其中,所述第一位置是所述目标关键词在语句成分中出现的位置;第三获取单元,用于获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度,其中,所述第二位置是所述第i个参考关键词在语句成分中出现的位置,i依次取1至N;确定单元,用于从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,所述拓展关键词是对所述目标关键词进行拓展得到的关键词。
进一步地,使用向量表示关键词在语句成分中出现的位置,所述第二获取单元用于对所述目标关键词进行向量化处理,得到目标向量,其中,所述目标向量用于表示所述多个第一位置;所述第三获取单元用于对所述第i个参考关键词进行向量化处理,得到所述第i个参考关键词的向量,其中,所述第i个参考关键词的向量用于表示所述第i个参考关键词在语句成分中出现的位置;计算所述目标向量和所述第i个参考关键词的向量的相似度,得到所述目标关键词与所述第i个参考关键词的相似度。
进一步地,所述装置还包括:训练单元,用于根据所述目标关键词所在领域的语料库训练词向量模型,得到训练后的词向量模型,其中,所述训练后的词向量模型用于对所述参考关键词和所述目标关键词进行向量化处理。
进一步地,所述第三获取单元根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure BDA0001065014190000031
其中,
Figure BDA0001065014190000032
Figure BDA0001065014190000033
Figure BDA0001065014190000034
表示所述目标向量,
Figure BDA0001065014190000035
表示所述第i个参考关键词的向量,S1表示所述目标向量和所述第i个参考关键词的向量的相似度。
进一步地,所述第三获取单元根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure BDA0001065014190000036
其中,
Figure BDA0001065014190000037
Figure BDA0001065014190000041
Figure BDA0001065014190000042
表示所述目标向量,
Figure BDA0001065014190000043
表示所述第i个参考关键词的向量,S2表示所述目标向量和所述第i个参考关键词的向量的相似度。
进一步地,所述第二获取单元包括:分词子单元,用于对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;删除子单元,用于删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;计算子单元,用于根据所述第二分词集合中每个分词的向量计算所述目标关键词的向量,得到所述目标向量。
进一步地,所述计算子单元包括:第一确定模块,用于将所述第二分词集合中所有分词的向量之和作为所述目标向量;第二确定模块,用于将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
在本申请实施例中,当目标关键词与某一个参考关键词在多个语句成分中出现位置的相似度较高时,说明目标关键词和该参考关键词在不同的句子中有类似的上下文,说明目标关键词与该参考关键词大致表达了同一个意思或概念,这时,该参考关键词就可以作为目标关键词的拓展关键词,根据关键词在多个语句成分中出现的位置对目标关键词进行拓展,不需要人工拓展关键词,达到了高效拓展关键词的技术效果,进而解决了现有技术中人工拓展关键词效率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的关键词的拓展方法的流程图;
图2是根据本申请实施例的另一种可选的关键词的拓展方法的流程图;
图3是根据本申请实施例的关键词的拓展装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种关键词的拓展方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种可选的关键词的拓展方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标关键词和N个参考关键词,其中,N个参考关键词的领域与目标关键词的领域相关,N≥2。
步骤S104,获取多个第一位置,其中,第一位置是目标关键词在语句成分中出现的位置。
步骤S106,获取多个第二位置,并比较多个第一位置和多个第二位置,得到目标关键词与第i个参考关键词的相似度,其中,第二位置是第i个参考关键词在语句成分中出现的位置,i依次取1至N。
步骤S108,从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,拓展关键词是对目标关键词进行拓展得到的关键词。
目标关键词是待拓展的关键词。获取多个参考关键词的方法可以包括以下两种:方法一、直接从数据库中获取与目标关键词的领域相关的多个参考关键词;方法二、从数据库中获取与目标关键词的领域相关的语料库,将语料库中的文本进行分词,得到多个参考关键词。
当目标关键词与某一个参考关键词在多个语句成分中出现位置的相似度较高时,说明目标关键词和该参考关键词在不同的句子中有类似的上下文,说明目标关键词与该参考关键词大致表达了同一个意思或概念,这时,该参考关键词就可以作为目标关键词的拓展关键词,根据关键词在多个语句成分中出现的位置对目标关键词进行拓展,不需要人工拓展关键词,解决了现有技术中人工拓展关键词效率低的技术问题,达到了高效拓展关键词的技术效果。
可选地,使用向量表示关键词在语句成分中出现的位置,获取多个第一位置包括:对目标关键词进行向量化处理,得到目标向量,其中,目标向量用于表示多个第一位置;获取多个第二位置,并比较多个第一位置和多个第二位置,得到目标关键词与第i个参考关键词的相似度包括:对第i个参考关键词进行向量化处理,得到第i个参考关键词的向量,其中,第i个参考关键词的向量用于表示第i个参考关键词在语句成分中出现的位置;计算目标向量和第i个参考关键词的向量的相似度,得到目标关键词与第i个参考关键词的相似度。
根据目标关键词所在领域的语料库可以训练词向量模型,得到训练后的词向量模型。词向量(Word2Vec)是一种序列化学习模型,被广泛应用于自然语言处理(NatureLanguage Processing)等领域。通过语料库(由很多文本句子组成的文本文件)的训练后,它可以将语料库中的每一个词化成一个由若干维度实数值组成的向量,所有词生成的向量空间记为Ω。每个词的实数值向量被认为表征该词在众多句子成分中出现的位置关系。当两个关键词在不同的句子中经常有类似的上下文时,则这两个关键词的向量在向量空间Ω中的距离就是相近的,也就是在某种向量相似度度量下这两个关键词是相近的。因此,通过获取目标向量和参考关键词的向量来表达第一位置和第二位置的相似度。
具体地,使用训练后的词向量模型对参考关键词和目标关键词进行向量化处理。使用训练后的词向量模型对目标关键词进行向量化后,得到目标向量,目标向量能够表示多个第一位置。使用训练后的词向量模型对参考关键词进行向量化处理后,得到参考关键词的向量,参考关键词的向量能够表示多个第二位置。
假设一共有N个参考关键词,则使用训练后的词向量模型对第i个参考关键词进行向量化,得到第i个参考关键词的向量,其中,i依次取1至N。计算目标向量和第i个参考关键词的向量的相似度,得到目标关键词与第i个参考关键词的相似度。由于参考关键词为N个,因此,得到N个相似度。筛选出相似度排名靠前的预设数量的参考关键词,或者,筛选出相似度大于预设值的参考关键词。
目标向量和某个参考关键词的向量的相似度能够表明目标关键词和这个参考关键词在众多的语句中上下文类似程度的高低,以及在众多的语句中同一个位置出现的概率的大小。例如,将“苹果手机”和“Apple”这两个词分别向量化,计算“苹果手机”的向量和“Apple”的向量的相似度,发现相似度很高,这说明“苹果手机”和“Apple”这两个词在很多不同的句子中经常有类似的上下文。
可选地,对目标关键词进行向量化处理,得到目标向量包括:对目标关键词进行分词,得到目标关键词的第一分词集合;删除第一分词集合中的无语义词汇,得到目标关键词的第二分词集合;根据第二分词集合中每个分词的向量计算目标关键词的向量,得到目标向量。
可选地,根据第二分词集合中每个分词的向量计算目标关键词的向量,得到目标向量包括:将第二分词集合中所有分词的向量之和作为目标向量;或者将第二分词集合中所有分词的向量的加权平均值作为目标向量。
无语义词汇指的是常规上意义不大的词,如“的”、“地”、“得”等。停用词词典中收录了很多无语义词汇,可以利用停用词词典删除第一分词集合中的无语义词汇。
使用训练后的词向量模型将第二分词集合中每一个分词进行向量化,得到每一个分词的向量,然后根据第二分词集合中每个分词的向量计算目标向量。
根据第二分词集合中每个分词的向量计算目标向量的方法有多种,方法一:可以将第二分词集合中所有分词的向量之和作为目标向量。方法二:可以将第二分词集合中所有分词的向量的加权平均值作为目标向量。方法三:可以将第二分词集合中所有分词的向量的平均值作为目标向量。方法三可以认为是方法二的一种特例。
例如,某个目标关键词的第一分词集合是C1={k1,k2,k3,k4,k5},假设分词k2和分词k3是无语义词汇,那么该目标关键词的第二分词集合是C2={k1,k4,k5},使用训练后的词向量模型将分词k1,分词k4,分词k5分别向量化,得到分词k1的向量V1,分词k4的向量V4,分词k5的向量V5。可以将第二分词集合中所有分词的向量的加权平均值作为目标向量V,即目标向量V=w1×V1+w4×V4+w5×V5,其中,w1、w4、w5分别为向量V1、向量V4、向量V5的权重值。
将参考关键词进行向量化得到参考关键词的向量的过程与将目标关键词进行向量化得到目标向量的过程是相同的,不再赘述。
当得到参考关键词的向量和得到目标向量之后,计算目标向量和每个参考关键词的向量的相似度,筛选出相似度排名靠前的预设数量的参考关键词作为目标关键词的拓展关键词,或者筛选出相似度大于预设值的参考关键词作为目标关键词的拓展关键词。
计算目标向量和参考关键词的向量的相似度的方法有多种,现列举两种。
方法一:根据以下公式计算目标向量和第i个参考关键词的向量的相似度:
Figure BDA0001065014190000081
其中,
Figure BDA0001065014190000082
Figure BDA0001065014190000083
表示目标向量,
Figure BDA0001065014190000084
表示第i个参考关键词的向量,S1表示目标向量和第i个参考关键词的向量的相似度。
方法二:根据以下公式计算目标向量和第i个参考关键词的向量的相似度:
Figure BDA0001065014190000085
其中,
Figure BDA0001065014190000086
Figure BDA0001065014190000087
表示目标向量,
Figure BDA0001065014190000088
表示第i个参考关键词的向量,S2表示目标向量和第i个参考关键词的向量的相似度。
以上两个公式都能够计算出两个向量的相似度。
将目标关键词和每个参考关键词均向量化为多维向量,维度的值携带了该向量对应的关键词在语句中出现的位置信息。
当目标关键词与某个参考关键词在不同的语句中出现的位置很接近或者总是有类似的上下文时,目标向量
Figure BDA0001065014190000089
的每个维度的值与参考关键词对应的向量
Figure BDA00010650141900000810
相应的维度的值相近,此时计算出的S1和S2的值比较大,这表明,向量
Figure BDA00010650141900000811
与向量
Figure BDA00010650141900000812
的相似度较高。当目标关键词与某个参考关键词在大部分的语句中没有类似的上下文时,目标向量
Figure BDA00010650141900000813
的每个维度的值与向量
Figure BDA00010650141900000814
的对应的维度的值相差很大,计算出的S1和S2的值比较小,这表明,向量
Figure BDA00010650141900000815
与向量
Figure BDA00010650141900000816
的相似度较低。
图2是根据本申请实施例的另一种可选的关键词的拓展方法的流程图。如图2所示,该方法包括如下步骤:
步骤S202,接收用户输入的目标关键词和数量n,其中,n是用户希望拓展目标关键词得到的拓展关键词的数量。
步骤S204,从数据库中获取目标关键词所在领域相关的语料库。
步骤S206,利用语料库训练词向量模型,得到训练后的词向量模型。
步骤S208,利用训练后的词向量模型对目标关键词进行向量化,得到目标向量。
步骤S210,返回与目标向量的相似度最高的n个向量,以及与这n个向量相对应的关键词和相似度。
例如,当目标关键词为“苹果”,数量n=8时,表1是与目标向量的相似度最高的8个向量对应的关键词和相似度。
表1
拓展关键词 相似度
5S 0.909226894379
Iphone4 0.901111364365
iphone6Splus 0.898730397224
iphone6PLUS 0.897267878056
Phone6 0.891661584377
苹果iPhone 0.891285538673
6Plus 0.889303803444
充电线器 0.889189243317
又例如,当目标关键词为“洗衣机”,数量n=8时,表2是与目标向量的相似度最高的8个向量对应的关键词和相似度。
表2
Figure BDA0001065014190000091
Figure BDA0001065014190000101
本申请实施例提供的关键词的拓展方法不需要人工拓展关键词,不依赖于人对目标关键词的相关领域的知识和经验,解决了由于人的主观差异造成的拓展关键词的准确度低、不客观的技术问题。
根据本申请实施例,还提供了一种关键词的拓展装置。该关键词的拓展装置可以执行上述关键词的拓展方法,上述关键词的拓展方法也可以通过该关键词的拓展装置实施。
图3是根据本申请实施例的关键词的拓展装置的示意图。如图3所示,该装置包括第一获取单元10、第二获取单元20、第三获取单元30和确定单元40。
第一获取单元10,用于获取目标关键词和N个参考关键词,其中,N个参考关键词的领域与目标关键词的领域相关,N≥2。
第二获取单元20,用于获取多个第一位置,其中,第一位置是目标关键词在语句成分中出现的位置。
第三获取单元30,用于获取多个第二位置,并比较多个第一位置和多个第二位置,得到目标关键词与第i个参考关键词的相似度,其中,第二位置是第i个参考关键词在语句成分中出现的位置,i依次取1至N。
确定单元40,用于从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,拓展关键词是对目标关键词进行拓展得到的关键词。
可选地,使用向量表示关键词在语句成分中出现的位置。第二获取单元20用于对目标关键词进行向量化处理,得到目标向量,其中,目标向量用于表示多个第一位置。第三获取单元30用于对第i个参考关键词进行向量化处理,得到第i个参考关键词的向量,其中,第i个参考关键词的向量用于表示第i个参考关键词在语句成分中出现的位置;计算目标向量和第i个参考关键词的向量的相似度,得到目标关键词与第i个参考关键词的相似度。
可选地,装置还包括训练单元。训练单元,用于根据目标关键词所在领域的语料库训练词向量模型,得到训练后的词向量模型,其中,训练后的词向量模型用于对参考关键词和目标关键词进行向量化处理。
可选地,第三获取单元30根据以下公式计算目标向量和第i个参考关键词的向量的相似度:
Figure BDA0001065014190000111
其中,
Figure BDA0001065014190000112
Figure BDA0001065014190000113
表示目标向量,
Figure BDA0001065014190000114
表示第i个参考关键词的向量,S1表示目标向量和第i个参考关键词的向量的相似度。
可选地,第三获取单元30根据以下公式计算目标向量和第i个参考关键词的向量的相似度:
Figure BDA0001065014190000115
其中,
Figure BDA0001065014190000116
Figure BDA0001065014190000117
表示目标向量,
Figure BDA0001065014190000118
表示第i个参考关键词的向量,S2表示目标向量和第i个参考关键词的向量的相似度。
可选地,第二获取单元20包括分词子单元、删除子单元、计算子单元。分词子单元,用于对目标关键词进行分词,得到目标关键词的第一分词集合。删除子单元,用于删除第一分词集合中的无语义词汇,得到目标关键词的第二分词集合。计算子单元,用于根据第二分词集合中每个分词的向量计算目标关键词的向量,得到目标向量。
可选地,计算子单元包括第一确定模块、第二确定模块。第一确定模块,用于将第二分词集合中所有分词的向量之和作为目标向量。第二确定模块,用于将第二分词集合中所有分词的向量的加权平均值作为目标向量。
所述关键词的拓展装置包括处理器和存储器,上述等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来高效拓展关键词。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标关键词和N个参考关键词,其中,N个参考关键词的领域与目标关键词的领域相关,N≥2;获取多个第一位置,其中,第一位置是目标关键词在语句成分中出现的位置;获取多个第二位置,并比较多个第一位置和多个第二位置,得到目标关键词与第i个参考关键词的相似度,其中,第二位置是第i个参考关键词在语句成分中出现的位置,i依次取1至N;从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,拓展关键词是对目标关键词进行拓展得到的关键词。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种关键词的拓展方法,其特征在于,包括:
获取目标关键词和N个参考关键词,其中,所述N个参考关键词的领域与所述目标关键词的领域相关,N≥2;
获取多个第一位置,其中,所述第一位置是所述目标关键词在语句成分中出现的位置;
获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度,其中,所述第二位置是所述第i个参考关键词在语句成分中出现的位置,i依次取1至N;
从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,所述拓展关键词是对所述目标关键词进行拓展得到的关键词;
使用向量表示关键词在语句成分中出现的位置,
获取多个第一位置包括:对所述目标关键词进行向量化处理,得到目标向量,其中,所述目标向量用于表示所述多个第一位置;
获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度包括:对所述第i个参考关键词进行向量化处理,得到所述第i个参考关键词的向量,其中,所述第i个参考关键词的向量用于表示所述第i个参考关键词在语句成分中出现的位置;计算所述目标向量和所述第i个参考关键词的向量的相似度,得到所述目标关键词与所述第i个参考关键词的相似度。
2.根据权利要求1所述的方法,其特征在于,在对所述目标关键词进行向量化处理之前,所述方法还包括:
根据所述目标关键词所在领域的语料库训练词向量模型,得到训练后的词向量模型,其中,所述训练后的词向量模型用于对所述参考关键词和所述目标关键词进行向量化处理。
3.根据权利要求1所述的方法,其特征在于,计算所述目标向量和所述第i个参考关键词的向量的相似度包括:
根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure FDA0002566830380000021
其中,
Figure FDA0002566830380000022
Figure FDA0002566830380000023
表示所述目标向量,
Figure FDA0002566830380000024
表示所述第i个参考关键词的向量,S1表示所述目标向量和所述第i个参考关键词的向量的相似度。
4.根据权利要求1所述的方法,其特征在于,计算所述目标向量和所述第i个参考关键词的向量的相似度包括:
根据以下公式计算所述目标向量和所述第i个参考关键词的向量的相似度:
Figure FDA0002566830380000025
其中,
Figure FDA0002566830380000026
Figure FDA0002566830380000027
表示所述目标向量,
Figure FDA0002566830380000028
表示所述第i个参考关键词的向量,S2表示所述目标向量和所述第i个参考关键词的向量的相似度。
5.根据权利要求1所述的方法,其特征在于,对所述目标关键词进行向量化处理,得到目标向量包括:
对所述目标关键词进行分词,得到所述目标关键词的第一分词集合;
删除所述第一分词集合中的无语义词汇,得到所述目标关键词的第二分词集合;
根据所述第二分词集合中每个分词的向量计算所述目标关键词的向量,得到所述目标向量。
6.根据权利要求5所述的方法,其特征在于,根据所述第二分词集合中每个分词的向量计算所述目标关键词的向量,得到所述目标向量包括:
将所述第二分词集合中所有分词的向量之和作为所述目标向量;或者
将所述第二分词集合中所有分词的向量的加权平均值作为所述目标向量。
7.一种关键词的拓展装置,其特征在于,包括:
第一获取单元,用于获取目标关键词和N个参考关键词,其中,所述N个参考关键词的领域与所述目标关键词的领域相关,N≥2;
第二获取单元,用于获取多个第一位置,其中,所述第一位置是所述目标关键词在语句成分中出现的位置;
第三获取单元,用于获取多个第二位置,并比较所述多个第一位置和所述多个第二位置,得到所述目标关键词与第i个参考关键词的相似度,其中,所述第二位置是所述第i个参考关键词在语句成分中出现的位置,i依次取1至N;
确定单元,用于从N个相似度中筛选出满足预设条件的相似度,并将筛选出的相似度所关联的参考关键词作为拓展关键词,其中,所述拓展关键词是对所述目标关键词进行拓展得到的关键词;
其中,使用向量表示关键词在语句成分中出现的位置,
所述第二获取单元用于对所述目标关键词进行向量化处理,得到目标向量,其中,所述目标向量用于表示所述多个第一位置;
所述第三获取单元用于对所述第i个参考关键词进行向量化处理,得到所述第i个参考关键词的向量,其中,所述第i个参考关键词的向量用于表示所述第i个参考关键词在语句成分中出现的位置;计算所述目标向量和所述第i个参考关键词的向量的相似度,得到所述目标关键词与所述第i个参考关键词的相似度。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练单元,用于根据所述目标关键词所在领域的语料库训练词向量模型,得到训练后的词向量模型,其中,所述训练后的词向量模型用于对所述参考关键词和所述目标关键词进行向量化处理。
CN201610617919.4A 2016-07-29 2016-07-29 关键词的拓展方法和装置 Active CN107665222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617919.4A CN107665222B (zh) 2016-07-29 2016-07-29 关键词的拓展方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617919.4A CN107665222B (zh) 2016-07-29 2016-07-29 关键词的拓展方法和装置

Publications (2)

Publication Number Publication Date
CN107665222A CN107665222A (zh) 2018-02-06
CN107665222B true CN107665222B (zh) 2020-11-06

Family

ID=61122117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617919.4A Active CN107665222B (zh) 2016-07-29 2016-07-29 关键词的拓展方法和装置

Country Status (1)

Country Link
CN (1) CN107665222B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572942A (zh) * 2018-04-20 2018-09-25 北京深度智耀科技有限公司 一种创建超链接的方法和装置
CN109948161A (zh) * 2019-03-20 2019-06-28 北京深海巨鲸信息科技有限公司 用于中文舆情的数据处理方法及装置
CN111581952B (zh) * 2020-05-20 2023-10-03 长沙理工大学 一种用于自然语言信息隐藏的大规模可替换词词库构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488027A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 关键词的推送方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288791A1 (de) * 2001-08-27 2003-03-05 Data Becker GmbH & Co. KG. Computersystem sowie Verfahren zum Betrieb einer erweiterbaren Datenbank
CN101136028B (zh) * 2006-07-10 2012-07-04 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101251841B (zh) * 2007-05-17 2011-06-29 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103235773B (zh) * 2013-04-26 2019-02-12 百度在线网络技术(北京)有限公司 基于关键词的文本的标签提取方法及装置
CN103699625B (zh) * 2013-12-20 2017-05-10 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN103927358B (zh) * 2014-04-15 2017-02-15 清华大学 文本检索方法及系统
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104536992B (zh) * 2014-12-10 2019-03-26 北京国双科技有限公司 关键词的拓展方法和装置
CN105260359B (zh) * 2015-10-16 2018-10-02 晶赞广告(上海)有限公司 语义关键词提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853722A (zh) * 2012-11-29 2014-06-11 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488027A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 关键词的推送方法和装置

Also Published As

Publication number Publication date
CN107665222A (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
CN108319627B (zh) 关键词提取方法以及关键词提取装置
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
US10528662B2 (en) Automated discovery using textual analysis
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN109388743B (zh) 语言模型的确定方法和装置
CN108269122B (zh) 广告的相似度处理方法和装置
CN107885717B (zh) 一种关键词提取方法及装置
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN110019669B (zh) 一种文本检索方法及装置
CN108268439B (zh) 文本情感的处理方法及装置
WO2018068648A1 (zh) 一种信息匹配方法及相关装置
CN112633000B (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN111125348A (zh) 一种文本摘要的提取方法及装置
KR102412158B1 (ko) 오픈마켓에서의 시장점유율 확대를 위한 키워드 추출 및 분석 방법
CN108021545A (zh) 一种司法文书的案由提取方法及装置
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN107665222B (zh) 关键词的拓展方法和装置
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
CN111191454A (zh) 一种实体匹配的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant