CN108153728B

CN108153728B - 一种关键词确定方法及装置

Info

Publication number: CN108153728B
Application number: CN201711407143.4A
Authority: CN
Inventors: 闵剑; 温煦峰; 郝景坡; 张静静; 翟素校
Original assignee: Enn China Gas Investment Co ltd
Current assignee: Enn China Gas Investment Co ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-05-25
Anticipated expiration: 2037-12-22
Also published as: CN108153728A

Abstract

本发明提供了一种关键词确定方法及装置，该方法包括：获取待确定信息，从所述待确定信息中解析出至少一个特征词；针对每一个所述特征词，均执行：确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词，如果是，则确定所述特征词与所述目标样本关键词之间的匹配系数；确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词。本方案能提高关键词的准确性。

Description

一种关键词确定方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种关键词确定方法及装置。

背景技术

随着计算机技术的发展，信息量呈爆炸式增长。为了便于对大量信息进行有效管理，通常需要确定出信息对应的关键词，以根据关键词对信息进行分类管理。

目前，在确定信息对应的关键词时，首先确定信息对应的标题，然后将标题拆分成多个词语，并将拆分出的各个词语直接作为该信息对应的关键词。

由于从标题拆分出的词语中存在助词和代词等无实意的词语，因此采用上述方式确定出的关键词不能准确反映其对应的信息。

发明内容

本发明实施例提供了一种关键词确定方法及装置，能提高关键词的准确性。

第一方面，本发明实施例提供了一种关键词确定方法，包括：

获取待确定信息，从所述待确定信息中解析出至少一个特征词；

针对每一个所述特征词，均执行：

确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词，如果是，则确定所述特征词与所述目标样本关键词之间的匹配系数；

确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词。

优选地，

所述确定所述特征词与所述目标样本关键词之间的匹配系数，包括：

根据预设的拆分规则，将所述特征词拆分为至少一个特征字符，并将所述目标样本关键词拆分为至少一个样本字符；

针对每一个所述特征字符，均执行：确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符，如果是，则将所述特征字符确定为匹配字符；

根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数。

优选地，

所述根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数，包括：

根据下述公式计算所述匹配系数：

其中，M表征所述匹配系数，a表征所述匹配字符的数量，b表征所述特征字符的数量，c表征所述样本字符的数量，α为校正系数，α＞0。

优选地，

所述从所述待确定信息中解析出至少一个特征词，包括：

确定所述待确定信息的标题，并确定所述标题的数据类型；

设置与所述数据类型相对应的词法分析器；

利用所述词法分析器，从所述标题中拆分出至少一个特征词。

优选地，

在所述将所述特征词作为所述待确定信息对应的关键词之后，进一步包括：将每一个所述关键词作为当前关键词执行：

确定其他关键词中是否存在与所述当前关键词相同的目标关键词，如果是，确定所述目标关键词的数量；其中，所述其他关键词为：各个所述关键词中除所述当前关键词以外的关键词；

根据所述目标关键词的数量以及各个所述关键词的总数量，确定所述当前关键词对应的出现频次；

根据每一个所述关键词对应的出现频次，确定各个所述关键词的优先级顺序；

根据所述优先级顺序，对所述待确定信息进行分类管理。

第二方面，本发明实施例提供了一种关键词确定装置，包括：获取单元、匹配系数确定单元和关键词确定单元；其中，

所述获取单元，用于获取待确定信息，从所述待确定信息中解析出至少一个特征词；

所述匹配系数确定单元，用于针对每一个所述特征词，均执行：确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词，如果是，则确定所述特征词与所述目标样本关键词之间的匹配系数；

所述关键词确定单元，用于确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词。

优选地，

所述匹配系数确定单元包括：字符拆分子单元、匹配字符确定子单元和系数确定子单元；其中，

所述字符拆分子单元，用于根据预设的拆分规则，将所述特征词拆分为至少一个特征字符，并将所述目标样本关键词拆分为至少一个样本字符；

所述匹配字符确定子单元，用于针对每一个所述特征字符，均执行：确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符，如果是，则将所述特征字符确定为匹配字符；

所述系数确定子单元，用于根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数。

优选地，

所述系数确定子单元，用于根据下述公式计算所述匹配系数：

优选地，

所述获取单元，用于确定所述待确定信息的标题，并确定所述标题的数据类型；设置与所述数据类型相对应的词法分析器，并利用所述词法分析器，从所述标题中拆分出至少一个特征词。

优选地，

进一步包括：分类单元；其中，

所述分类单元，用于将每一个所述关键词作为当前关键词执行：确定其他关键词中是否存在与所述当前关键词相同的目标关键词，如果是，确定所述目标关键词的数量；其中，所述其他关键词为：各个所述关键词中除所述当前关键词以外的关键词；根据所述目标关键词的数量以及各个所述关键词的总数量，确定所述当前关键词对应的出现频次，并根据每一个所述关键词对应的出现频次，确定各个所述关键词的优先级顺序，根据所述优先级顺序，对所述待确定信息进行分类管理。

本发明实施例提供了一种关键词确定方法及装置，从获取的待确定信息中解析出至少一个特征词，然后从解析出的特征词中确定与预存的样本关键词相匹配的目标样本关键词，并确定特征词与其对应的目标样本关键词之间匹配系数。当匹配系数大于预设阈值时，将该特征词作为待确定信息对应的关键词。由此可避免将助词和代词等无实意的词语作为关键词，从而提高关键词的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种关键词确定方法的流程图；

图2是本发明一个实施例提供的一种关键词确定方法的流程图；

图3是本发明一个实施例提供的一种关键词确定装置的结构示意图；

图4是本发明另一个实施例提供的一种关键词确定装置的结构示意图；

图5是本发明又一个实施例提供的一种关键词确定装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种关键词确定方法，该方法可以包括以下步骤：

步骤101：获取待确定信息，从所述待确定信息中解析出至少一个特征词；

步骤102：针对每一个所述特征词，均执行：确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词，如果是，则确定所述特征词与所述目标样本关键词之间的匹配系数；

步骤103：确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词。

上述实施例中，从获取的待确定信息中解析出至少一个特征词，然后从解析出的特征词中确定与预存的样本关键词相匹配的目标样本关键词，并确定特征词与其对应的目标样本关键词之间匹配系数。当匹配系数大于预设阈值时，将该特征词作为待确定信息对应的关键词。由此可避免将助词和代词等无实意的词语作为关键词，从而提高关键词的准确性。

本发明一个实施例中，步骤101的具体实施方式，可以包括：

确定所述待确定信息的标题，并确定所述标题的数据类型；

设置与所述数据类型相对应的词法分析器；

以获取的待确定信息是一篇文章为例，首先确定该文章的标题，然后根据标题的数据类型设置相应的词法分析器，例如，若其标题为文本格式，则设置相应的中文分词器，然后利用对应的词法分析器，从标题中拆分出多个特征词。在此过程中，由于直接对文章标题进行解析，这与对全文进行解析相比，大大减轻了拆分特征词的工作量，从而有利于提高确定关键词的效率。同时，选择与标题的数据类型相对应的词法分析器，有利于对标题进行更准确的拆词，减少错分以及拆分不完整等错误的发生率，从而有利于进一步提高关键词的准确性。

本发明一个实施例中，步骤102的具体实施方式，可以包括：

例如，从标题中拆分出的一个特征词为“然气”，目标样本关键词为“天然气”，则可根据相同的拆分规则，将特征词拆分为两个特征字符“然”和“气”，将目标样本关键词拆分为三个样本字符“天”、“然”和“气”。然后从各个样本字符中确定与特征字符相同的样本字符，在这里，可确定“然”和“气”为与样本字符相同的匹配字符，然后根据匹配字符的数量，特征字符的数量和样本字符的数量，利用公式(1)确定特征词与目标样本关键词之间的匹配系数，在这里，可确定出匹配系数

其中α可根据实际情况进行设定。由此准确确定出特征词与目标样本关键词之间的匹配系数，有利于进一步提高关键词的准确性。

另外，还可将特征词与目标样本关键词转换为长度相同的字符串之后，例如，利用哈希算法将特征词和目标样本关键词转换为长度相同的随机字符串，然后利用公式(2)计算特征词与目标样本关键词之间的匹配系数。

其中，y表征所述匹配系数，x_i表征转换后的特征词对应的第i个字符与目标样本关键词对应的第i个字符之间的匹配系数，n表征转换后的特征词的总字符长度，a_i表征转换后的特征词对应的第i个字符，b_i表征转换后的目标样本关键词对应的第i个字符。

另外，从待确定信息中解析出特征词，以及确定特征词与样本关键词的匹配系数的过程可利用elastic search工具，在确定匹配系数时，可利用公式

其中，f(q_i，D)表征第i个特征词在标题中出现的频率，|D|是标题的字符长度，avgdl是多个待确定信息分别对应的标题的平均字符长度。

本发明一个实施例中，在步骤103之后，可以进一步包括：将每一个所述关键词作为当前关键词执行：

根据所述优先级顺序，对所述待确定信息进行分类管理。

例如，抓取到一篇文章后，确定这篇文章的标题为“天然气的运输管线以及天然气的传输方法”，然后从标题中拆分出多个特征词为“天然气”、“天然”、“然气”、“气”、“的”、“运输”、“管线”、“以及”、“天然气”、“天然”、“然气”、“气”、“的”、“传输”和“方法”。然后，将拆分出的这几个特征词逐一与预设的关键词库中的样本关键词进行对比，例如，关键词库中有样本关键词“天然气”和“管线”，那么，特征词中的“管线”能与关键词库中的“管线”匹配上，同时“天然气”、“天然”、“然气”和“气”这几个特征词都能与关键词库中的“天然气”匹配上，并且“天然气”的匹配系数最高，则将“天然气”和“管线”作为这篇文章对应的关键词。另外，将“天然气”作为当前关键词时，其他关键词中也存在与其相同的目标关键词，即“天然气”在标题中出现了两次，因此“天然气”的出现频次比只在标题中出现了一次的“管线”高，因此“天然气”的优先级顺序在“管线”之前，因此对该文章进行分类管理时，将其归属到“天然气”对应的类别中。由此，根据各个关键词的出现频次，确定各个关键词的优先级顺序，并根据优先级顺序对待确定信息进行分类管理，有利于提高信息分类管理的准确性，便于用户查找。

下面以确定一篇文章的关键词为例，对本发明实施例提供的一种关键词确定方法进行详细说明，如图2所示，该方法可以包括以下步骤：

步骤201：确定文章的标题，根据文章标题的文本格式，设置中文词法分析器，利用设置的中文词法分析器，将文章标题拆分为多个特征词，并确定预设的关键词库中存储有样本关键词“天然气”和“管线”。

例如，该文章的标题为“天然气的运输管线以及天然气的传输方法”，利用中文分词器可将标题拆分为“天然气”、“天然”、“然气”、“气”、“的”、“运输”、“管线”、“以及”、“天然气”、“天然”、“然气”、“气”、“的”、“传输”和“方法”等多个特征词。

步骤202：针对每一个特征词，均执行：判断关键词库中是否存在与特征词匹配的目标样本关键词，如果是，则执行步骤203，否则结束当前流程。

步骤203：根据预设的拆分规则，将特征词拆分为至少一个特征字符，并将目标样本关键词拆分为至少一个样本字符。

在这里，以特征词“天然气”和“然气”以及样本关键词“天然气”为例，可将特征词“天然气”拆分为特征字符“天”、“然”和“气”，将特征词“然气”拆分为特征字符“然”和“气”，将目标样本关键词“天然气”拆分为样本字符“天”、“然”和“气”。

步骤204：针对每一个所述特征字符，均执行：确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符，如果是，则执行步骤205，否则结束当前流程。

在这里，特征词“天然气”中的匹配字符为“天”、“然”和“气”，特征词“然气”中的匹配字符为“然”和“气”。

步骤205：将所述特征字符确定为匹配字符，并根据匹配字符的数量、特征字符的数量以及样本字符的数量，确定特征词与目标样本关键词之间的匹配系数。

可利用公式

计算匹配系数，其中，M表征所述匹配系数，a表征所述匹配字符的数量，b表征所述特征字符的数量，c表征所述样本字符的数量，α为校正系数，α＞0。α可根据实际情况进行设定，例如，α为30时，由此，特征词“天然气”与样本关键词“天然气”的匹配系数为15，特征词“然气”与样本关键词“天然气”的匹配系数为12。

步骤206：针对每一个特征词：确定所述匹配系数是否大于预设阈值，如果是，则执行步骤207，否则结束当前流程。

步骤207：将所述特征词作为文章对应的关键词。

例如，当预设阈值为14时，“天然气”作为该文章的关键词，而“然气”不能作为该文章的关键词。同理，可将“管线”也确定该文章对应的关键词。

步骤208：将每一个所述关键词作为当前关键词执行：确定其他关键词中是否存在与所述当前关键词相同的目标关键词，如果是，确定所述目标关键词的数量；其中，所述其他关键词为：各个所述关键词中除所述当前关键词以外的关键词。

步骤209：根据每一个所述关键词对应的出现频次，确定各个所述关键词的优先级顺序，并根据所述优先级顺序，对所述待确定信息进行分类管理。

例如，将“天然气”作为当前关键词时，其他关键词中也存在与其相同的目标关键词，即“天然气”在标题中出现了两次，因此“天然气”的出现频次比只在标题中出现了一次的“管线”高，因此“天然气”的优先级顺序在“管线”之前，因此对该文章进行分类管理时，将其归属到“天然气”对应的类别中。

如图3所示，本发明实施例提供了一种关键词确定装置，包括：获取单元301、匹配系数确定单元302和关键词确定单元303；其中，

所述获取单元301，用于获取待确定信息，从所述待确定信息中解析出至少一个特征词；

所述匹配系数确定单元302，用于针对每一个所述特征词，均执行：确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词，如果是，则确定所述特征词与所述目标样本关键词之间的匹配系数；

所述关键词确定单元303，用于确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词。

如图4所示，本发明一个实施例中，所述匹配系数确定单元302包括：字符拆分子单元3021、匹配字符确定子单元3022和系数确定子单元3023；其中，

所述字符拆分子单元3021，用于根据预设的拆分规则，将所述特征词拆分为至少一个特征字符，并将所述目标样本关键词拆分为至少一个样本字符；

所述匹配字符确定子单元3022，用于针对每一个所述特征字符，均执行：确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符，如果是，则将所述特征字符确定为匹配字符；

所述系数确定子单元3023，用于根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数。

本发明一个实施例中，所述系数确定子单元3023，用于根据下述公式计算所述匹配系数：

本发明一个实施例中，所述获取单元301，用于确定所述待确定信息的标题，并确定所述标题的数据类型；设置与所述数据类型相对应的词法分析器，并利用所述词法分析器，从所述标题中拆分出至少一个特征词。

如图5所示，本发明一个实施例中，该装置可以进一步包括：分类单元501；其中，

所述分类单元501，用于将每一个所述关键词作为当前关键词执行：确定其他关键词中是否存在与所述当前关键词相同的目标关键词，如果是，确定所述目标关键词的数量；其中，所述其他关键词为：各个所述关键词中除所述当前关键词以外的关键词；根据所述目标关键词的数量以及各个所述关键词的总数量，确定所述当前关键词对应的出现频次，并根据每一个所述关键词对应的出现频次，确定各个所述关键词的优先级顺序，根据所述优先级顺序，对所述待确定信息进行分类管理。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明上述任一实施例提供的方法。

本发明实施例还提供了一种存储控制器，包括：处理器、存储器和总线；所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行本发明上述任一实施例提供的方法。

综上所述，本发明以上各个实施例至少具有如下有益效果：

1、在本发明实施例中，从获取的待确定信息中解析出至少一个特征词，然后从解析出的特征词中确定与预存的样本关键词相匹配的目标样本关键词，并确定特征词与其对应的目标样本关键词之间匹配系数。当匹配系数大于预设阈值时，将该特征词作为待确定信息对应的关键词。由此可避免将助词和代词等无实意的词语作为关键词，从而提高关键词的准确性。

2、在本发明实施例中，根据待确定信息的标题的数据类型，设置相应的词法分析器，并利用设置的词法分析器，从标题中拆分出特征词。由于直接对文章标题进行解析，这与对全文进行解析相比，大大减轻了拆分特征词的工作量，从而有利于提高确定关键词的效率。同时，选择与标题的数据类型相对应的词法分析器，有利于对标题进行更准确的拆词，减少错分以及拆分不完整等错误的发生率，从而有利于进一步提高关键词的准确性。

3、在本发明一个实施例中，根据同一拆分规则，将特征词拆分为多个特征字符，并将目标样本关键词拆分为多个样本字符，然后确定各个样本字符中与特征字符相同的样本字符作为匹配字符，并根据匹配字符的数量、特征字符的数量以及样本字符的数量，确定特征词与目标样本关键词之间的匹配系数。由此可准确确定出特征词与目标样本关键词之间的匹配系数，有利于进一步提高关键词的准确性。

4、在本发明一个实施例中，当其他关键词中存在与当前关键词相同的目标关键词时，根据目标关键词的数量，确定当前关键词对应的出现频次。根据各个关键词对应的出现频次，确定各个关键词的优先级顺序，并根据优先级顺序，对待确定信息进行分类管理，这有利于提高信息分类管理的准确性，便于用户查找。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种关键词确定方法，其特征在于，包括：

针对每一个所述特征词，均执行：

确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词；

根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数；

根据下述公式计算所述匹配系数：

2.根据权利要求1所述的方法，其特征在于，

所述从所述待确定信息中解析出至少一个特征词，包括：

确定所述待确定信息的标题，并确定所述标题的数据类型；

设置与所述数据类型相对应的词法分析器；

3.根据权利要求1所述的方法，其特征在于，

根据所述优先级顺序，对所述待确定信息进行分类管理。

4.一种关键词确定装置，其特征在于，包括：获取单元、匹配系数确定单元和关键词确定单元；其中，

所述关键词确定单元，用于确定所述匹配系数是否大于预设阈值，如果是，将所述特征词作为所述待确定信息对应的关键词；

所述系数确定子单元，用于根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量，确定所述特征词与所述目标样本关键词之间的匹配系数；

5.根据权利要求4所述的装置，其特征在于，

6.根据权利要求4所述的装置，其特征在于，

进一步包括：分类单元；其中，