CN102402561A

CN102402561A - 一种搜索方法和装置

Info

Publication number: CN102402561A
Application number: CN2010102876394A
Authority: CN
Inventors: 王全礼; 肖巍; 钟延辉
Original assignee: China Mobile Group Sichuan Co Ltd
Current assignee: China Mobile Group Sichuan Co Ltd
Priority date: 2010-09-19
Filing date: 2010-09-19
Publication date: 2012-04-04
Anticipated expiration: 2030-09-19
Also published as: CN102402561B

Abstract

一种搜索方法，该方法包括：预处理用户输入的关键词，得到待搜索关键词；将待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量；依据所述特征向量采用协同神经网络模式识别得到序参量，由序参量在数据库中获取最佳关键词。本文还公开了一种搜索装置。应用本发明实施例以后，提高了关键词搜索的精确性。

Description

一种搜索方法和装置

技术领域

本发明涉及搜索技术领域，更具体地，涉及一种搜索方法和装置。

背景技术

在现有的搜索引擎中模糊搜索是用户输入关键词，搜索服务器采用Levenshtein距离算法来计算用户输入的关键词与索引文件中词的相似度。与用户输入的关键词距离最近的索引文件中词称为最佳关键词。由用户输入关键词得到最佳关键词，搜索服务器根据最佳关键词在数据库中搜索获得最佳关键词对应的索引文件。

Levenshtein距离算法计算从一个字符转换到另一个字符串所需的最少插入、删除和替换的字符个数。目前通过Levenshtein距离算法来获取索引文件中词与用户输入的关键词之间的编辑距离，编辑距离越小表示索引文件中词与用户输入的关键词相似度越佳。Levenshtein距离算法主要应用英文字符和字符串的计算，对中文和其它语言文字支持较低。因此，应用于非英文字符的Levenshtein距离算法精确性较低。

专利申请《推荐搜索引擎关键词》(申请号200580042218.2)提出通过分析用户输入的关键字和存储的历史关键字记录来生成最佳关键字集合，从而提高返回结果集的精确性。但用户未存储历史关键字则无法保证返回结果集的精确性。

综上，现有技术中存在关键词搜索精确性低的问题。

发明内容

本发明实施例提出一种搜索方法，提高了关键词搜索的精确性。

本发明实施例还提出一种搜索装置，提高了关键词搜索的精确性。

本发明实施例的技术方案如下：

一种搜索方法，该方法包括：

预处理用户输入的关键词，得到待搜索关键词；

将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量；

依据所述特征向量采用协同神经网络模式识别得到序参量，由序参量在数据库中获取最佳关键词。

所述预处理包括，对所述用户输入的关键词进行切词处理。

当所述用户输入的关键词长度超过预先设置的阈值长度，所述预处理进一步包括，修改所述用户输入的关键词；然后，对修改后的关键词进行切词处理。

所述标准化处理包括，查询国标码库将所述待搜索关键词转换为数字向量；对所述数字向量进行对齐处理后，再进行零均值处理和归一化处理得到所述特征向量。

所述依据所述特征向量采用协同神经网络模式识别得到序参量包括依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配，得到所述序参量。

所述依据所述特征向量采用协同神经网络模式得到序参量包括，根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类，依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配，得到所述序参量。

所述根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类包括，所述原型向量的维数与所述特征向量的维数的比值向上取整为所述子类的数目。

当所述序参量等于1，所述由序参量在数据库中获取最佳关键词包括，由所述序参量直接在数据库中获取所述最佳关键词。

当所述序参量小于1，所述由序参量在数据库中获取最佳关键词包括，由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。

一种搜索装置，包括预处理模块、标准化模块和模式识别模块，

预处理模块，用于预处理用户输入的关键词，得到待搜索关键词；

标准化模块，用于标准化处理待搜索关键词得到待搜索关键词对应的特征向量；

模式识别模块，用于依据所述特征向量采用协同神经网络模式识别得到序参量，由序参量在数据库中获取最佳关键词。

所述预处理模块包括切词单元，

切词单元，用于对用户输入的关键词进行切词处理。

所述预处理模块进一步包括修改单元，

修改单元，用于当所述用户输入的关键词长度超过预先设置的阈值长度，修改所述用户输入的关键词；

所述切词单元，进一步用于对所述修改单元输出的用户输入的关键词进行切词处理。

所述标准化模块包括查询单元、对齐单元和处理单元，

查询单元，用于查询国标码库将所述待搜索关键词转换为所述数字向量；

对齐单元，用于对齐处理所述数字向量；

处理单元，用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。

所述模式识别模块包括模式识别单元和搜索单元，

模式识别单元，用于依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配得到所述序参量；

搜索单元，用于由所述序参量在数据库中获取最佳关键词。

所述模式识别模块进一步包括分组单元和控制单元，

分组单元，用于根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类；

模式识别单元，进一步用于依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配，得到所述序参量；

控制单元，用于当所述序参量等于1，由所述序参量直接在数据库中获取所述最佳关键词；当所述序参量小于1，由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。

从上述技术方案中可以看出，在本发明实施例中，首先预处理用户输入的关键词，得到待搜索关键词；然后将待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量；依据所述特征向量采用协同神经网络模式识别得到序参量，由序参量在数据库中获取最佳关键词。由于利用协同神经网络模式识别用户输入的关键词得到序参量，再由序参量在数据库中获取用户输入的关键词对应的最佳关键词。因而可以提高关键词搜索的精确性。

附图说明

图1为本发明实施例搜索方法的流程示意图；

图2为本发明实施例预处理用户输入的关键词的流程示意图；

图3为本发明实施例标准化数字向量的流程示意图；

图4为本发明实施例协同神经网络模式识别的流程示意图；

图5为本发明实施例改进后的协同神经网络模式识别的流程示意图；

图6为本发明实施例搜索装置的结构示意图；

图7为本发明实施例的实验效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

在本发明实施例中，先预处理用户输入的关键词，以便进行标准化处理。将关键词转换为数字的特征向量，为采用协同神经网络模式识别奠定基础。依据特征向量采用协同神经网络模式识别得到获取最佳关键词，进而提高了关键词搜索的精确性。

参见附图1是本发明搜索方法的流程示意图，具体包括以下步骤：

步骤101、预处理用户输入的关键词。

用户输入的关键词后，需要对该关键词进行预处理，得到待搜索关键词。步骤101的具体实现过程参见附图2，包括步骤201至203。

参见附图2是预处理用户输入的关键词流程示意图，包括：

步骤201、判断用户输入的关键词是否超出阈值长度。

用户输入的关键词若超出阈值长度则执行步骤202，否则执行步骤203。

步骤202、长度限度处理。

当用户输入的关键词超过阈值长度，需要从用户输入的关键词中获取阈值长度的关键词得到修改后关键词。即首先去掉用户输入的关键词中的特殊字符，然后取从第一个字符开始的阈值长度的子串，该子串记为修改后关键词。取子串是现有技术，阈值长度是根据具体情况预先设置的，本文不再赘述。

步骤203、切词处理。

对用户输入的关键词或修改后关键词进行切词处理，将上述关键词分割成适合于搜索引擎特征的关键词即待搜索关键词。切词处理过程是现有技术，本文不再赘述。

步骤102、标准化数字向量。

待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量。将关键词转换为其对应的特征向量，为精确搜索做准备。参见附图3是标准化数字向量的流程示意图，包括步骤301至步骤304。

步骤301、查询国标码库。

通过查询国标码库将步骤101获得的待搜索关键词转换为其对应的数字向量。另外，由于在实际应用过程中，对于英文、中文、韩文、日文以及其它语言都可以通过查询国标码库得到其所对应的数字向量，因此本发明的技术方案可以适用于多种语言，从而提高利用多种语言关键词搜索的精确性。

步骤302、对齐处理。

为了统一待搜索键词对应的数字向量维数，需要对齐处理。在处理数字向量的时候，由计数器记录数字向量的最大维数N，其他数字向量通过随机数达到维数N，使得所有的数字向量的维数相同。数字向量有如下表示，

表示关键词文字的国标码.

表示数字向量。

\tilde{v_{k}} = [\begin{matrix} {\tilde{v}}_{k 1} \\ . \\ . \\ . \\ \tilde{v_{kN}} \end{matrix}] - - - (1)

其中k＝1，2，…，M，

称为原始向量。

步骤303、零均值处理。

零均值处理是指对原始向量进行处理后，得到的新向量

满足均值等于零，零均值处理可以通过(3)式完成，

令：

{\tilde{v}}_{kl}^{'} = {\tilde{v}}_{kl} - \frac{1}{N} Σ_{j = 1}^{N} {\tilde{v}}_{kl},

l＝1，2，…，N (2)

则：

Σ_{l = 1}^{N} {\tilde{v}}_{kl}^{'} = Σ_{l = 1}^{N} \tilde{v_{kl}} - N \times \frac{1}{N} Σ_{j = 1}^{N} {\tilde{v}}_{kj} = 0 - - - (3)

可见，得到的新向量

满足均值为零的条件。

步骤304、归一化处理。

归一化处理是指对原始向量

经过零均值处理后得到的新向量v_k再进行处理，得到的新向量v_k满足的模等于1，归一化处理可通过下式(6)完成。

令：

v_{k} = \frac{\tilde{v_{k}^{'}}}{{(\tilde{v_{k}} \tilde{v_{k}^{'}})}^{0.5}} - - - (4)

则：

| v_{k} | = \overset{&OverBar;}{v_{k}} v_{k} = \frac{\overset{&OverBar;}{\tilde{v_{k}^{'}}}}{(\overset{&OverBar;}{\tilde{v_{k}}} \tilde{v_{k}^{'}})} \times \frac{\tilde{v_{k}^{'}}}{({\overset{&OverBar;}{\tilde{v}}}_{k} \tilde{v_{k}^{'}})} = 1 - - - (5)

Σ_{l = 1}^{N} v_{kl} = \frac{Σ_{l = 1}^{N} {\tilde{v}}_{kl}^{'}}{{(\overset{&OverBar;}{v_{k}} \tilde{v_{k}^{'}})}^{1 / 2}} - - - (6)

由上式可得：

Σ_{l = 1}^{k} v_{kl} = 0 - - - (7)

可见，新向量v_k既满足归一化的条件也满足零均值的条件。

步骤301至步骤304是将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量记为q(0)。

而利用步骤301至步骤304对数据库中的关键词进行标准化处理，可以得到原型向量数据库中原型向量记为v_k。

步骤103、协同神经网络模式识别最佳关键词。

采用协同神经网络模式识别特征向量对应序参量，再由序参量在数据库中获取其对应的最佳关键词。

目前协同神经网络模式识别主要在计算机视觉、图像分析领域有大量的应用。协同神经网络式识别过程对应于一个动力学过程。初始状态的设置表现为部分有序化的子系统，属于这个子系统的序参量在竞争中取胜，最后支配整个系统并进入特定的有序状态。协同神经网络可分三层：输入层(原型向量)、中间层(序参量层)和输出层。在步骤301至步骤304中已获得原型向量。参见附图4，在步骤401至步骤404获取序参量，最后在步骤405中获取输出层即最佳关键词。

步骤401、输入特征向量。

将步骤304中获得的特征向量q(0)输入步骤404。

步骤402、原型向量。

根据步骤301至步骤304计算原型向量数据库中关键词的原型向量v_k，原型向量数据库中共有k个关键词，因此相应的有k个原型向量。

步骤403、计算伴随向量。

由原型向量计算得到对应的伴随向量

步骤404、计算序参量。

输入特征向量q(0)与伴随向量

相乘，即

可以求出序参量ξ_k的初始值。

步骤405、动力学演化方程。

序参量ξ_k按下式描述的动力学方程进行演化。

\begin{matrix} ξ_{k} (n + 1) - ξ_{k} (n) = γ (λ_{k} - D + B ξ_{k^{'}}^{2} (n)) ξ_{k} (n) \\ D = (B + C) \underset{k}{Σ} ξ_{k^{'}}^{2} (n) \end{matrix} - - - (8)

其中γ为迭代步长，B，C为平衡注意参数，λk是注意参数，ξ_k代表趋向于1的序参量，ξ_k′代表趋向于0的序参量。上述参数的确定是现有技术本文不再赘述。

判断序参量ξ_k(n)演化过程是否稳定。当ξ_k(n+1)＝ξ_k(n)时，序参量ξ_k(n)为稳定状态。若演化过程已经稳定，则进行投影；否则，序参量ξ_k(n)继续进行动力学演化。

将演化稳定的序参量按下式进行投影，则ξ_k的取值范围在0和1之间。

q_{l} (t) = Σ_{k = 1}^{M} ξ_{k} (t) v_{lk}, l = 1,2, . . ., N - - - (9)

t代表从q(0)进入一个原型向量模式的中间状态。在给出输入模式q(0)(即n＝0的初始量)后，即得

按(8)演化而稳定于某个模式，可直接选择最大序参量作为竞争获胜者输出，避免迭代，快速识别。稳定于某模式，ξ_k接近1，其余接近0。则ξ_k在数据库中对应的关键词即为最佳关键词。

步骤401至步骤405是经典协同神经网络模式识别过程。但在面对数据库中海量关键词的识别无能为力。此时为了满足原型向量之间线性无关性，构造伴随向量极为困难，且原型向量的维数M必须小于特征向量的维数N。因此必须使用新的方法来解决协同神经网络对海量关键词的处理，以及原型向量的维数M必须小于特征向量的维数N的问题。

在序参量演化过程中针对海量关键词，可以引入局部竞争，以改变传统的协同神经网络只存在全局竞争所导致的鲁棒性差以及原型向量的维数M必须小于特征向量的维数N的问题。

因此，通过在协同神经网络的匹配子网中对原型向量分组。在识别过程中首先在组内进行序参量的竞争，竞争获胜的序参量代表与待识别模式较接近的子域。然后在再次竞争。通过在协同神经网络的匹配子网中对原型向量分类，在识别过程中首先进行组间序参量的竞争，得到各个子类的序参量，然后比较得出最大的序参量，即为识别的结果。参见附图5，将原型向量分为多个子类，将每个子类中得到的序参量排序，得到识别结果即最佳关键词。

假设原型向量的维数A，特征向量的维数M，M＜A

步骤501、将原型模式数分为S＝A/M个子类，S向上取整。子类原型向量数为S_i个，有S_i≤M。

步骤502、每个子类分别按照(10)进行协同神经网络识别，得到序参量。

ξ_{k} (0) = \frac{\underset{i}{Σ} v_{ki} q_{i}}{\sqrt{\underset{i}{Σ} v_{ki}^{2}} \sqrt{\underset{i}{Σ} q_{i}^{2}}} - - - (10)

步骤503、比较每个子类的序参量。最大的序参量为最后的识别结果。当ξ_k＝1，取ξ_k为最佳识别结果。ξ_k在数据库中对应的关键词为最佳关键词；当ξ_k(0)＜1，θ为预先设置阈值，取H个大于θ的序参量作为最佳识别结果，θ取值可以根据当前序参量的最大值，平均值以及H的值动态适配获取。H的取值是根据具体情况确定的，本文不再赘述。H个大于θ的序参量在数据库中对应的关键词为最佳关键词。

下面以用户输入中文关键词“刘的华少”为例，说明本发明的技术方案。

1、阈值长度是50个汉字，判断用户输入的关键词长度符合要求，因此不进行长度限度处理。直接进行分词，待搜索中文关键词为“刘的华少”，“刘的”“华少”“刘的华”。

2、将待搜索中文关键词进行标准化处理，得到以下特征向量：

[\begin{matrix} 0.1831, 0.8932,0.1345,0.232,0,0,0,0,0,0 \\ 0.9223,0.1234,0,0,0,0,0,0 \\ 0.8765,0.1234,0,0, 0, 0, 0,0,0, 0 \\ 0.9234,0.2356,0.4321,0,0,0,0,0,0,0 \end{matrix}]

特征向量的维数M是10。

3、若原型向量数据库中关键词没有标准化处理，则需要先将原型向量数据库中关键词进行标准化处理再进行用户识别。

当原型向量数据库中关键词已经标准化，则有：

假设原型向量的维数A为100000，则将原型向量分成100000/10＝10000份，每一份按照(10)式计算序参量。阈值θ为0.8，H等于10，则取前10个值，结果如下：

[0.8231，0.8023，0.8001，0，0，0，0，0，0，0]

其中大于阈值0.8的值有三个，得到原型向量数据库中的三个向量。查询数据库获取最佳关键词，结果如下：

[刘德华，华少，华仔]。

参见附图6是搜索装置的结构示意图，具体包括：预处理模块601、标准化模块602和模式识别模块603。

预处理模块601包括修改单元6011和切词单元6012。

修改单元6011，用于当所述用户输入的关键词长度超过预先设置的阈值长度，修改所述用户输入的关键词。

切词单元6012，用于对用户输入的关键词或所述修改单元输出的用户输入的关键词进行切词处理。

标准化模块602包括查询单元6021、对齐单元6022和处理单元6023。

查询单元6021，用于查询国标码库将所述待搜索关键词转换为所述数字向量；

对齐单元6022，用于对齐处理所述数字向量；

处理单元6023，用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。

模式识别模块603包括分组单元6031、模式识别单元6032、控制单元6033和搜索单元6034。

分组单元6031，用于根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类；

模式识别单元6032，用于依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配得到所述序参量；进一步用于依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配，得到所述序参量；

搜索单元6033，用于由所述序参量在数据库中获取最佳关键词。

控制单元6034，用于当所述序参量等于1，由所述序参量直接在数据库中获取所述最佳关键词；当所述序参量小于1，由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。

参见附图7是以用户输入的1000个中文词测试，采用Levenshtein距离法对比本专利的结果。纵轴代表精确度，横轴代表用户输入关键词长度。

	精确度(％)	用户输入关键词长度
			本专利方法	0.9371	2
Levenshtein距离法	0.912	2
			本文方法	0.9369	3
Levenshtein距离法	0.9101	3
			本文方法	0.9409	4
Levenshtein距离法	0.8999	4
			本文方法	0.9391	5
Levenshtein距离法	0.9099	5
			本文方法	0.9409	6
Levenshtein距离法	0.9087	6
			本文方法	0.9392	7
Levenshtein距离法	0.9120	7
			本文方法	0.9382	8
Levenshtein距离法	0.9119	8
			本文方法	0.9381	9
Levenshtein距离法	0.9019	9
			本文方法	0.9412	10
Levenshtein距离法	0.9138	10
			本文方法	0.9398	11
Levenshtein距离法	0.9154	11
			本文方法	0.9421	12
Levenshtein距离法	0.9029	12

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索方法，其特征在于，该方法包括：

预处理用户输入的关键词，得到待搜索关键词；

2.根据权利要求1所述搜索方法，其特征在于，所述预处理包括，对所述用户输入的关键词进行切词处理。

3.根据权利要求2所述搜索方法，其特征在于，当所述用户输入的关键词长度超过预先设置的阈值长度，所述预处理进一步包括，修改所述用户输入的关键词；然后，对修改后的关键词进行切词处理。

4.根据权利要求1所述搜索方法，其特征在于，所述标准化处理包括，查询国标码库将所述待搜索关键词转换为数字向量；对所述数字向量进行对齐处理后，再进行零均值处理和归一化处理得到所述特征向量。

5.根据权利要求1所述搜索方法，其特征在于，所述依据所述特征向量采用协同神经网络模式识别得到序参量包括依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配，得到所述序参量。

6.根据权利要求1所述搜索方法，其特征在于，所述依据所述特征向量采用协同神经网络模式得到序参量包括，根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类，依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配，得到所述序参量。

7.根据权利要求6所述搜索方法，其特征在于，所述根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类包括，所述原型向量的维数与所述特征向量的维数的比值向上取整为所述子类的数目。

8.根据权利要求6所述搜索方法，其特征在于，当所述序参量等于1，所述由序参量在数据库中获取最佳关键词包括，由所述序参量直接在数据库中获取所述最佳关键词。

9.根据权利要求6所述搜索方法，其特征在于，当所述序参量小于1，所述由序参量在数据库中获取最佳关键词包括，由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。

10.一种搜索装置，其特征在于，包括预处理模块、标准化模块和模式识别模块，

11.根据权利要求10所述搜索装置，其特征在于，所述预处理模块包括切词单元，

切词单元，用于对用户输入的关键词进行切词处理。

12.根据权利要求11所述搜索装置，其特征在于，所述预处理模块进一步包括修改单元，

13.根据权利要求10所述搜索装置，其特征在于，所述标准化模块包括查询单元、对齐单元和处理单元，

对齐单元，用于对齐处理所述数字向量；

14.根据权利要求10所述搜索装置，其特征在于，所述模式识别模块包括模式识别单元和搜索单元，

搜索单元，用于由所述序参量在数据库中获取最佳关键词。

15.根据权利要求14所述搜索装置，其特征在于，所述模式识别模块进一步包括分组单元和控制单元，