CN104408191A

CN104408191A - 关键词的关联关键词的获取方法和装置

Info

Publication number: CN104408191A
Application number: CN201410779363.XA
Authority: CN
Inventors: 刘粉香
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2015-03-11
Anticipated expiration: 2034-12-15
Also published as: CN104408191B

Abstract

本发明公开了一种关键词的关联关键词的获取方法和装置。其中，该获取方法包括：接收用于获取关联关键词的获取请求；对文本信息进行分词处理，得到包括多个关键词的词库；通过机器学习方法获取词库中各个关键词对应文本信息的多维数组；基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合；确定包含目标关键词的词语集合；计算目标关键词与第二关键词之间的距离，其中，第二关键词为包含目标关键词的词语集合中除目标关键词之外的关键词；将符合预设条件的距离对应的第二关键词作为关联关键词。通过本发明，解决了现有技术中获取关键词的关联关键词的速度慢的问题，实现了提高获取关联关键词的速度的效果。

Description

关键词的关联关键词的获取方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种关键词的关联关键词的获取方法和装置。

背景技术

对于人们关注的主题，如果给定一个关键词，需要解决的问题是如何快速有效的找到文本中与给定关键词的关联性最强的关键词，如，给定关键词为“天安门”，由于经常与“天安门”同时出现的词语包括“天安门城楼”、“故宫”或者“天安门广场”等，那么与给定关键词“天安门”相关的关键词就包括“天安门城楼”、“故宫”以及“天安门广场”。为解决上述的问题，现有的解决方案主要有两种：一种是基于给定关键词的文本匹配相似度查找关联关键词；一种是基于给定关键词在语句中的共现概率去计算或查找关联关键词。

具体地，通过文本匹配相似度查找关联关键词，即在文本中查找与给定关键词所包含的文字相似的关键词，如，若给定关键词为“天安门”，那么通过文本匹配相似度的方法查找关联关键词，将认为“地安门”与“天安门”极为相似，即认为“地安门”为给定关键词“天安门”的一个关联关键词，但是实际上，通常与“天安门”同时出现的词语是“天安门城楼”、“故宫”或者“天安门广场”等，而不是“地安门”。

进一步地，通过共现概率计算或查找关联关键词，即将文本的所有语句划分为最小关键词(即切分为最小词组或单字)，计算任意两个最小关键词在每个语句中共同出现的概率，得到这两个最小关键词的共现概率。根据预先设定的概率阈值，共现概率大于概率阈值的两个词语即为关联性词语，共现概率越高的两个词语的关联性越高。

由于现有的解决方案运用遍历法查找关键词，在计算和存储数据时耗费的计算机资源都比较大，导致了对于大量的自然语言的处理速度非常慢。

针对相关技术中获取关键词的关联关键词的速度慢的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种关键词的关联关键词的获取方法和装置，以解决相关技术中获取关键词的关联关键词的速度慢的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种关键词的关联关键词的获取方法。

根据本发明的获取方法包括：接收用于获取关联关键词的获取请求，其中，获取请求中携带有目标关键词和包含目标关键词的文本信息；对文本信息进行分词处理，得到包括多个关键词的词库，其中，关键词包括目标关键词；通过机器学习方法获取词库中各个关键词对应文本信息的多维数组；基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合；确定包含目标关键词的词语集合；计算目标关键词与第二关键词之间的距离，其中，第二关键词为包含目标关键词的词语集合中除目标关键词之外的关键词；将符合预设条件的距离对应的第二关键词作为关联关键词。

进一步地，基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合包括：使用各个多维数组对多个关键词进行聚类，得到多个词语集合，其中，多维数组中的一维数据用于描述关键词的一个属性信息。

进一步地，计算目标关键词与第二关键词之间的距离包括：计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离；将符合预设条件的距离对应的第二关键词作为关联关键词包括：对计算得到的欧式距离进行倒序排序，得到距离排序表；将距离排序表中排序前N位的欧式距离的第二关键词作为关联关键词，其中，N为自然数。

进一步地，计算目标关键词与第二关键词之间的距离包括：计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离；将符合预设条件的距离对应的第二关键词作为关联关键词包括：将不大于预设阈值的欧式距离的第二关键词作为关联关键词。

进一步地，对文本信息进行分词处理，得到包括多个关键词的词库包括：按照预设词汇组合将文本信息拆分为多个关键词；保存多个关键词得到词库。

为了实现上述目的，根据本发明的另一方面，提供了一种关键词的关联关键词的获取装置。

根据本发明的获取装置包括：第一获取模块，用于接收用于获取关联关键词的获取请求，其中，获取请求中携带有目标关键词和包含目标关键词的文本信息；分词模块，用于对文本信息进行分词处理，得到包括多个关键词的词库，其中，关键词包括目标关键词；第二获取模块，用于通过机器学习方法获取词库中各个关键词对应文本信息的多维数组；聚类模块，用于基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合；第一确定模块，用于确定包含目标关键词的词语集合；计算模块，用于计算目标关键词与第二关键词之间的距离，其中，第二关键词为包含目标关键词的词语集合中除目标关键词之外的关键词；第二确定模块，用于确定将符合预设条件的距离对应的第二关键词作为关联关键词。

进一步地，聚类模块包括：聚类子模块，用于使用各个多维数组对多个关键词进行聚类，得到多个词语集合，其中，多维数组中的一维数据用于描述关键词的一个属性信息。

进一步地，计算模块包括：计算子模块，用于计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离；第二确定模块包括：排序模块，用于对计算得到的欧式距离进行倒序排序，得到距离排序表；第一确定子模块，用于确定将距离排序表中排序前N位的欧式距离的第二关键词作为关联关键词，其中，N为自然数。

进一步地，计算模块包括：计算子模块，用于计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离；第二确定模块包括：第二确定子模块，用于确定将不大于预设阈值的欧式距离的第二关键词作为关联关键词。

进一步地，分词模块包括：拆分模块，用于按照预设词汇组合将文本信息拆分为多个关键词；保存模块，用于保存多个关键词得到词库。

采用本发明实施例，在接收到获取请求之后，对获取请求中携带的包含目标关键词的文本信息进行分词，得到包含多个关键词的词库，基于机器学习方法训练词库，得到每个关键词对应的多维数组，然后基于各个关键词对应的多维数组对多个关键词进行聚类分析得到多个词语集合，在确定目标关键词的所在的词语集合之后，计算该词语集合中目标关键词和其他关键词之间的距离，并将符合预设条件的距离所对应的第二关键词作为关联关键词。在本发明实施例中，将对文本信息进行分词处理得到的多个关键词进行聚类分析，得到多个词语集合，在获取关键词(即上述实施例中的目标关键词)的关联关键词时，仅需在目标关键词所在的词语集合中查找即可，无需遍历整个文本信息以获取关联关键词，提高了获取关联关键词的速度。通过本发明实施例，解决了现有技术中获取关键词的关联关键词的速度慢的问题，实现了提高获取关联关键词的速度的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的关键词的关联关键词的获取方法的流程图；

图2是根据本发明实施例的一种可选的关键词的关联关键词的获取方法的流程图；以及

图3是根据本发明实施例的关键词的关联关键词的获取装置的示意图。

具体实施方式

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

机器学习是通过从数据里提取规则或模式来把数据转换成信息的一种方法，主要的机器学习方法有归纳学习法和分析学习法。在机器学习过程中，数据首先被预处理，形成特征，然后根据特征创建某种模型；机器学习算法分析收集到的数据，分配权重、阈值和其他参数达到学习目的。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是根据本发明实施例的关键词的关联关键词的获取方法的流程图，如图1所示，该获取方法可以包括如下的步骤：

步骤S102，接收用于获取关联关键词的获取请求。

其中，获取请求中携带有目标关键词和包含目标关键词的文本信息。

步骤S104，对文本信息进行分词处理，得到包括多个关键词的词库。

其中，对文本信息进行分词处理得到的关键词中包括目标关键词。

步骤S106，通过机器学习方法获取词库中各个关键词对应文本信息的多维数组。

在本发明实施例中，多维数组可以为属性数组。

步骤S108，基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合。

步骤S110，确定包含目标关键词的词语集合。

步骤S112，计算目标关键词与第二关键词之间的距离。

其中，第二关键词为包含目标关键词的词语集合中除目标关键词之外的关键词。

步骤S114，将符合预设条件的距离对应的第二关键词作为关联关键词。

在上述实施例中，文本信息可以为从互联网中获取的文本(如，一条新闻或者一篇文博评论)，也可以是通过扫描或输入纸质文件的内容得到的电子文本，还可以是用户通过终端输入的电子文本等。可选地，文本信息可以段落的形式存在于文本信息中，如，一条新闻或一个评论为一个段落。

根据本发明上述的实施例，基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合可以包括：使用各个多维数组对多个关键词进行聚类，得到多个词语集合，其中，多维数组中的一维数据用于描述关键词的一个属性信息。例如，多维数组的一维数据对应的属性信息可以用于描述目标关键词与文本信息的位置关系。

具体地，在获取到各个关键词的多维数组之后，使用各个多维数组对多个关键词进行聚类分析，得到包含一个或多个关键词的多个词语集合。

进一步地，获取各个关键词对应文本信息的多维数组可以通过机器学习的方法来实现。可选地，该实施例中的多维数组可以为500维的数组，在该实施例中采用500维的数组可以保证终端运行效率和运行结果准确性。

在本发明的上述实施例，可以使用kmeans聚类方法对多个关键词进行聚类Kmeans聚类是常用的数组聚类方法。

通过本发明上述的实施例，使用多维数组对文本信息中的关键词进行聚类分析，得到多个词语集合，在获取关联关键词时，只需计算目标关键词所在的词语集合中的第二关键词与该目标关键词的距离，无需逐一遍历文本信息中的所有词语，节省了存储关键词和文本信息所需的空间，在文本信息的数据量较大时，能够快速准确地获取目标关键词的关联关键词。

在本发明的上述实施例中，计算目标关键词与第二关键词之间的距离可以包括：计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离。

具体地，可以按照下述公式计算欧式距离d：d＝||X-Y||₂，其中，X为目标关键词的第一多维数组，Y为第二关键词的第二多维数组。

在本发明一个可选的实施例中，将符合预设条件的距离对应的第二关键词作为关联关键词可以包括：对计算得到的欧式距离进行倒序排序，得到距离排序表；将距离排序表中排序前N位的欧式距离的第二关键词作为关联关键词，其中，N为自然数。

在本发明的另一个可选的实施例中，将符合预设条件的距离对应的第二关键词作为关联关键词可以包括：将不大于预设阈值的欧式距离的第二关键词作为关联关键词。

具体地，在计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离之后，可以将计算得到的欧式距离进行倒序排序得到距离排序表，并将距离排序表中排序前N位的欧式距离的第二关键词作为关联关键词；还可以将不大于预设阈值的欧式距离的第二关键词作为关联关键词。

其中，N和预设阈值可以根据获取请求而确定。

通过本发明上述实施例，使用数组标识关键词，在获取目标关键词的关联关键词时，通过多维数组之间的距离来客观地表示文本信息中关键词的相似度，增加了获取到的关联关键词的精确度。在上述实施例中，通过简单的数据处理即可获取关联关键词，提升了获取关键词的关联关键词的速度。

需要进一步说明的是，对文本信息进行分词处理，得到包括多个关键词的词库可以包括：按照预设词汇组合将文本信息拆分为多个关键词；保存多个关键词得到词库。

具体地，可以从词语数据库中获取预设词汇组合，并将文本信息中的关键词与词语数据库中的预设词汇组合进行匹配，若文本信息中的关键词与预设词汇组合相同，则将该关键词从文本信息中划分出来，得到多个关键词，保存得到的多个关键词得到词库。

可选地，可以使用分词工具对文本信息进行分词处理。

例如，若文本信息为“今天天气很好”，在使用分词工具对该文本信息进行分词处理之后，得到的关键词可以为“今天”、“天气”、“很”以及“好”。

本发明上述实施例中的获取方法可以通过如图2所示的方法实现。如图2所示，该方法可以包括：

步骤S202，从互联网上获取文本训练样本。

其中，文本训练样本即为本发明上述实施例中的包含目标关键词的文本信息。

步骤S204，对文本训练样本进行分词处理，得到多个关键词。

步骤S206，通过机器学习得到每个关键词对应的多维数组。

步骤S208，基于每个关键词的唯一数组对关键词进行聚类，得到多个类。

其中，每个类中包括多个关键词；在该实施例中的类即为本发明上述实施例中的词语集合。

步骤S210，获取一个或多个关键词，查找关键词所在的类。

步骤S212，计算关键词的多维数组与类中其他关键词的多维数组之间的欧式距离。

步骤S214，将得到的欧式距离进行倒序排序，得到该关键词的关联关键词排序表。

其中，关联关键词排序表中包括该关键词的多个关联关键词及对应的欧式距离。

在本发明的上述实施例中，在得到该关键词的关联关键词排序表之后，从关联关键词排序表中读取前N位的关键词，作为该关键词的关联关键词。其中，N为预先设定的自然数。

在该实施例中，关联关键词排序表即为上述实施例中的距离排序表。

通过本发明上述实施例，使用数组标识关键词，在计算关键词与其他关键词的关联性时，无需逐一匹配文本训练样本中的所有词语，只需进行简单的数学计算即可获得关键词的关联关键词排序表，并可从表中读取符合预设条件的关联关键词，加快了计算关联关键词的速度；并且由于使用数组客观标识关键词，使得计算得到的结果更加客观准确，避免了现有技术中获取到的关联关键词不准确的问题。

采用本发明上述实施例，在获取关键词“天安门”的关联关键词时，不会认为“地安门”是该关键词的关联关键词，而会获得如“天安门广场”、“故宫”和“城楼”等关键词，而采用现有技术，将会认为“地安门”为“天安门”的关联关键词。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图3是根据本发明的关键词的关联关键词的获取装置的示意图，如图3所示，该获取装置可以包括：第一获取模块10，用于接收用于获取关联关键词的获取请求，其中，获取请求中携带有目标关键词和包含目标关键词的文本信息；分词模块30，用于对文本信息进行分词处理，得到包括多个关键词的词库，其中，关键词包括目标关键词；第二获取模块50，用于通过机器学习方法获取词库中各个关键词对应文本信息的多维数组；聚类模块70，用于基于各个关键词对应的多维数组对多个关键词进行聚类分析，得到多个词语集合；第一确定模块90，用于确定包含目标关键词的词语集合；计算模块110，用于计算目标关键词与第二关键词之间的距离，其中，第二关键词为包含目标关键词的词语集合中除目标关键词之外的关键词；第二确定模块130，用于确定将符合预设条件的距离对应的第二关键词作为关联关键词。

根据本发明上述的实施例，聚类模块可以包括：聚类子模块，用于使用各个多维数组对多个关键词进行聚类，得到多个词语集合，其中，多维数组中的一维数据用于描述关键词的一个属性信息。例如，多维数组的一维数据对应的属性信息可以用于描述目标关键词与文本信息的位置关系。

在本发明的上述实施例中，计算模块可以包括：计算子模块，用于计算目标关键词的第一多维数组与第二关键词的第二多维数组之间的欧式距离。

在本发明一个可选的实施例中，第二确定模块可以包括：排序模块，用于对计算得到的欧式距离进行倒序排序，得到距离排序表；第一确定子模块，用于确定将距离排序表中排序前N位的欧式距离的第二关键词作为关联关键词，其中，N为自然数。

在本发明的另一个可选的实施例中，第二确定模块可以包括：第二确定子模块，用于确定将不大于预设阈值的欧式距离的第二关键词作为关联关键词。

其中，N和预设阈值可以根据获取请求而确定。

需要进一步说明的是，分词模块可以包括：拆分模块，用于按照预设词汇组合将文本信息拆分为多个关键词；保存模块，用于保存多个关键词得到词库。

可选地，可以使用分词工具对文本信息进行分词处理。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然，需要注意的是，上述模块涉及的方案可以不限于上述实施例中的内容和场景，且上述模块可以运行在计算机终端或移动终端，可以通过软件或硬件实现。

从以上的描述中，可以看出，本发明实现了如下技术效果：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词的关联关键词的获取方法，其特征在于，包括：

接收用于获取关联关键词的获取请求，其中，所述获取请求中携带有目标关键词和包含所述目标关键词的文本信息；

对所述文本信息进行分词处理，得到包括多个关键词的词库，其中，所述关键词包括所述目标关键词；

通过机器学习方法获取所述词库中各个所述关键词对应所述文本信息的多维数组；

基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析，得到多个词语集合；

确定包含所述目标关键词的所述词语集合；

计算所述目标关键词与第二关键词之间的距离，其中，所述第二关键词为包含所述目标关键词的所述词语集合中除所述目标关键词之外的关键词；

将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词。

2.根据权利要求1所述的获取方法，其特征在于，基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析，得到多个词语集合包括：

使用各个所述多维数组对多个所述关键词进行聚类，得到多个所述词语集合，其中，所述多维数组中的一维数据用于描述所述关键词的一个属性信息。

3.根据权利要求2所述的获取方法，其特征在于，

计算所述目标关键词与第二关键词之间的距离包括：计算所述目标关键词的第一多维数组与所述第二关键词的第二多维数组之间的欧式距离；

将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词包括：

对计算得到的所述欧式距离进行倒序排序，得到距离排序表；

将所述距离排序表中排序前N位的所述欧式距离的所述第二关键词作为所述关联关键词，其中，N为自然数。

4.根据权利要求2所述的获取方法，其特征在于，

将不大于预设阈值的所述欧式距离的所述第二关键词作为所述关联关键词。

5.根据权利要求1至4中任意一项所述的获取方法，其特征在于，对所述文本信息进行分词处理，得到包括多个关键词的词库包括：

按照预设词汇组合将所述文本信息拆分为所述多个关键词；

保存所述多个关键词得到所述词库。

6.一种关键词的关联关键词的获取装置，其特征在于，包括：

第一获取模块，用于接收用于获取关联关键词的获取请求，其中，所述获取请求中携带有目标关键词和包含所述目标关键词的文本信息；

分词模块，用于对所述文本信息进行分词处理，得到包括多个关键词的词库，其中，所述关键词包括所述目标关键词；

第二获取模块，用于通过机器学习方法获取所述词库中各个所述关键词对应所述文本信息的多维数组；

聚类模块，用于基于各个所述关键词对应的所述多维数组对所述多个关键词进行聚类分析，得到多个词语集合；

第一确定模块，用于确定包含所述目标关键词的所述词语集合；

计算模块，用于计算所述目标关键词与第二关键词之间的距离，其中，所述第二关键词为包含所述目标关键词的所述词语集合中除所述目标关键词之外的关键词；

第二确定模块，用于确定将符合预设条件的所述距离对应的所述第二关键词作为所述关联关键词。

7.根据权利要求6所述的获取装置，其特征在于，所述聚类模块包括：

聚类子模块，用于使用各个所述多维数组对多个所述关键词进行聚类，得到多个所述词语集合，其中，所述多维数组中的一维数据用于描述所述关键词的一个属性信息。

8.根据权利要求7所述的获取装置，其特征在于，

所述计算模块包括：计算子模块，用于计算所述目标关键词的第一多维数组与所述第二关键词的第二多维数组之间的欧式距离；

所述第二确定模块包括：

排序模块，用于对计算得到的所述欧式距离进行倒序排序，得到距离排序表；

第一确定子模块，用于确定将所述距离排序表中排序前N位的所述欧式距离的所述第二关键词作为所述关联关键词，其中，N为自然数。

9.根据权利要求7所述的获取装置，其特征在于，

所述第二确定模块包括：

第二确定子模块，用于确定将不大于预设阈值的所述欧式距离的所述第二关键词作为所述关联关键词。

10.根据权利要求6至9中任意一项所述的获取装置，其特征在于，所述分词模块包括：

拆分模块，用于按照预设词汇组合将所述文本信息拆分为所述多个关键词；

保存模块，用于保存所述多个关键词得到所述词库。