CN102402561A - 一种搜索方法和装置 - Google Patents

一种搜索方法和装置 Download PDF

Info

Publication number
CN102402561A
CN102402561A CN2010102876394A CN201010287639A CN102402561A CN 102402561 A CN102402561 A CN 102402561A CN 2010102876394 A CN2010102876394 A CN 2010102876394A CN 201010287639 A CN201010287639 A CN 201010287639A CN 102402561 A CN102402561 A CN 102402561A
Authority
CN
China
Prior art keywords
keyword
vector
database
preface parameter
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102876394A
Other languages
English (en)
Other versions
CN102402561B (zh
Inventor
王全礼
肖巍
钟延辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Sichuan Co Ltd
Original Assignee
China Mobile Group Sichuan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Sichuan Co Ltd filed Critical China Mobile Group Sichuan Co Ltd
Priority to CN201010287639.4A priority Critical patent/CN102402561B/zh
Publication of CN102402561A publication Critical patent/CN102402561A/zh
Application granted granted Critical
Publication of CN102402561B publication Critical patent/CN102402561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索方法,该方法包括:预处理用户输入的关键词,得到待搜索关键词;将待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量;依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。本文还公开了一种搜索装置。应用本发明实施例以后,提高了关键词搜索的精确性。

Description

一种搜索方法和装置
技术领域
本发明涉及搜索技术领域,更具体地,涉及一种搜索方法和装置。
背景技术
在现有的搜索引擎中模糊搜索是用户输入关键词,搜索服务器采用Levenshtein距离算法来计算用户输入的关键词与索引文件中词的相似度。与用户输入的关键词距离最近的索引文件中词称为最佳关键词。由用户输入关键词得到最佳关键词,搜索服务器根据最佳关键词在数据库中搜索获得最佳关键词对应的索引文件。
Levenshtein距离算法计算从一个字符转换到另一个字符串所需的最少插入、删除和替换的字符个数。目前通过Levenshtein距离算法来获取索引文件中词与用户输入的关键词之间的编辑距离,编辑距离越小表示索引文件中词与用户输入的关键词相似度越佳。Levenshtein距离算法主要应用英文字符和字符串的计算,对中文和其它语言文字支持较低。因此,应用于非英文字符的Levenshtein距离算法精确性较低。
专利申请《推荐搜索引擎关键词》(申请号200580042218.2)提出通过分析用户输入的关键字和存储的历史关键字记录来生成最佳关键字集合,从而提高返回结果集的精确性。但用户未存储历史关键字则无法保证返回结果集的精确性。
综上,现有技术中存在关键词搜索精确性低的问题。
发明内容
本发明实施例提出一种搜索方法,提高了关键词搜索的精确性。
本发明实施例还提出一种搜索装置,提高了关键词搜索的精确性。
本发明实施例的技术方案如下:
一种搜索方法,该方法包括:
预处理用户输入的关键词,得到待搜索关键词;
将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量;
依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
所述预处理包括,对所述用户输入的关键词进行切词处理。
当所述用户输入的关键词长度超过预先设置的阈值长度,所述预处理进一步包括,修改所述用户输入的关键词;然后,对修改后的关键词进行切词处理。
所述标准化处理包括,查询国标码库将所述待搜索关键词转换为数字向量;对所述数字向量进行对齐处理后,再进行零均值处理和归一化处理得到所述特征向量。
所述依据所述特征向量采用协同神经网络模式识别得到序参量包括依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配,得到所述序参量。
所述依据所述特征向量采用协同神经网络模式得到序参量包括,根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类,依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量。
所述根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类包括,所述原型向量的维数与所述特征向量的维数的比值向上取整为所述子类的数目。
当所述序参量等于1,所述由序参量在数据库中获取最佳关键词包括,由所述序参量直接在数据库中获取所述最佳关键词。
当所述序参量小于1,所述由序参量在数据库中获取最佳关键词包括,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
一种搜索装置,包括预处理模块、标准化模块和模式识别模块,
预处理模块,用于预处理用户输入的关键词,得到待搜索关键词;
标准化模块,用于标准化处理待搜索关键词得到待搜索关键词对应的特征向量;
模式识别模块,用于依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
所述预处理模块包括切词单元,
切词单元,用于对用户输入的关键词进行切词处理。
所述预处理模块进一步包括修改单元,
修改单元,用于当所述用户输入的关键词长度超过预先设置的阈值长度,修改所述用户输入的关键词;
所述切词单元,进一步用于对所述修改单元输出的用户输入的关键词进行切词处理。
所述标准化模块包括查询单元、对齐单元和处理单元,
查询单元,用于查询国标码库将所述待搜索关键词转换为所述数字向量;
对齐单元,用于对齐处理所述数字向量;
处理单元,用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。
所述模式识别模块包括模式识别单元和搜索单元,
模式识别单元,用于依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配得到所述序参量;
搜索单元,用于由所述序参量在数据库中获取最佳关键词。
所述模式识别模块进一步包括分组单元和控制单元,
分组单元,用于根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类;
模式识别单元,进一步用于依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量;
控制单元,用于当所述序参量等于1,由所述序参量直接在数据库中获取所述最佳关键词;当所述序参量小于1,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
从上述技术方案中可以看出,在本发明实施例中,首先预处理用户输入的关键词,得到待搜索关键词;然后将待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量;依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。由于利用协同神经网络模式识别用户输入的关键词得到序参量,再由序参量在数据库中获取用户输入的关键词对应的最佳关键词。因而可以提高关键词搜索的精确性。
附图说明
图1为本发明实施例搜索方法的流程示意图;
图2为本发明实施例预处理用户输入的关键词的流程示意图;
图3为本发明实施例标准化数字向量的流程示意图;
图4为本发明实施例协同神经网络模式识别的流程示意图;
图5为本发明实施例改进后的协同神经网络模式识别的流程示意图;
图6为本发明实施例搜索装置的结构示意图;
图7为本发明实施例的实验效果对比图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
在本发明实施例中,先预处理用户输入的关键词,以便进行标准化处理。将关键词转换为数字的特征向量,为采用协同神经网络模式识别奠定基础。依据特征向量采用协同神经网络模式识别得到获取最佳关键词,进而提高了关键词搜索的精确性。
参见附图1是本发明搜索方法的流程示意图,具体包括以下步骤:
步骤101、预处理用户输入的关键词。
用户输入的关键词后,需要对该关键词进行预处理,得到待搜索关键词。步骤101的具体实现过程参见附图2,包括步骤201至203。
参见附图2是预处理用户输入的关键词流程示意图,包括:
步骤201、判断用户输入的关键词是否超出阈值长度。
用户输入的关键词若超出阈值长度则执行步骤202,否则执行步骤203。
步骤202、长度限度处理。
当用户输入的关键词超过阈值长度,需要从用户输入的关键词中获取阈值长度的关键词得到修改后关键词。即首先去掉用户输入的关键词中的特殊字符,然后取从第一个字符开始的阈值长度的子串,该子串记为修改后关键词。取子串是现有技术,阈值长度是根据具体情况预先设置的,本文不再赘述。
步骤203、切词处理。
对用户输入的关键词或修改后关键词进行切词处理,将上述关键词分割成适合于搜索引擎特征的关键词即待搜索关键词。切词处理过程是现有技术,本文不再赘述。
步骤102、标准化数字向量。
待搜索关键词进行标准化处理得到待搜索关键词对应的特征向量。将关键词转换为其对应的特征向量,为精确搜索做准备。参见附图3是标准化数字向量的流程示意图,包括步骤301至步骤304。
步骤301、查询国标码库。
通过查询国标码库将步骤101获得的待搜索关键词转换为其对应的数字向量。另外,由于在实际应用过程中,对于英文、中文、韩文、日文以及其它语言都可以通过查询国标码库得到其所对应的数字向量,因此本发明的技术方案可以适用于多种语言,从而提高利用多种语言关键词搜索的精确性。
步骤302、对齐处理。
为了统一待搜索键词对应的数字向量维数,需要对齐处理。在处理数字向量的时候,由计数器记录数字向量的最大维数N,其他数字向量通过随机数达到维数N,使得所有的数字向量的维数相同。数字向量有如下表示,
Figure BSA00000278330100061
表示关键词文字的国标码.
Figure BSA00000278330100062
表示数字向量。
v k ~ = v ~ k 1 . . . v kN ~ - - - ( 1 )
其中k=1,2,…,M,
Figure BSA00000278330100064
称为原始向量。
步骤303、零均值处理。
零均值处理是指对原始向量进行处理后,得到的新向量
Figure BSA00000278330100065
满足均值等于零,零均值处理可以通过(3)式完成,
令:
v ~ kl ′ = v ~ kl - 1 N Σ j = 1 N v ~ kl , l=1,2,…,N                (2)
则:
Σ l = 1 N v ~ kl ′ = Σ l = 1 N v kl ~ - N × 1 N Σ j = 1 N v ~ kj = 0 - - - ( 3 )
可见,得到的新向量
Figure BSA00000278330100068
满足均值为零的条件。
步骤304、归一化处理。
归一化处理是指对原始向量
Figure BSA00000278330100069
经过零均值处理后得到的新向量vk再进行处理,得到的新向量vk满足的模等于1,归一化处理可通过下式(6)完成。
令:
v k = v k ′ ~ ( v k ~ v k ′ ~ ) 0.5 - - - ( 4 )
则:
| v k | = v k ‾ v k = v k ′ ~ ‾ ( v k ~ ‾ v k ′ ~ ) × v k ′ ~ ( v ~ ‾ k v k ′ ~ ) = 1 - - - ( 5 )
Σ l = 1 N v kl = Σ l = 1 N v ~ kl ′ ( v k ‾ v k ′ ~ ) 1 / 2 - - - ( 6 )
由上式可得:
Σ l = 1 k v kl = 0 - - - ( 7 )
可见,新向量vk既满足归一化的条件也满足零均值的条件。
步骤301至步骤304是将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量记为q(0)。
而利用步骤301至步骤304对数据库中的关键词进行标准化处理,可以得到原型向量数据库中原型向量记为vk
步骤103、协同神经网络模式识别最佳关键词。
采用协同神经网络模式识别特征向量对应序参量,再由序参量在数据库中获取其对应的最佳关键词。
目前协同神经网络模式识别主要在计算机视觉、图像分析领域有大量的应用。协同神经网络式识别过程对应于一个动力学过程。初始状态的设置表现为部分有序化的子系统,属于这个子系统的序参量在竞争中取胜,最后支配整个系统并进入特定的有序状态。协同神经网络可分三层:输入层(原型向量)、中间层(序参量层)和输出层。在步骤301至步骤304中已获得原型向量。参见附图4,在步骤401至步骤404获取序参量,最后在步骤405中获取输出层即最佳关键词。
步骤401、输入特征向量。
将步骤304中获得的特征向量q(0)输入步骤404。
步骤402、原型向量。
根据步骤301至步骤304计算原型向量数据库中关键词的原型向量vk,原型向量数据库中共有k个关键词,因此相应的有k个原型向量。
步骤403、计算伴随向量。
由原型向量计算得到对应的伴随向量
Figure BSA00000278330100081
步骤404、计算序参量。
输入特征向量q(0)与伴随向量
Figure BSA00000278330100082
相乘,即
Figure BSA00000278330100083
可以求出序参量ξk的初始值。
步骤405、动力学演化方程。
序参量ξk按下式描述的动力学方程进行演化。
ξ k ( n + 1 ) - ξ k ( n ) = γ ( λ k - D + B ξ k ′ 2 ( n ) ) ξ k ( n ) D = ( B + C ) Σ k ξ k ′ 2 ( n ) - - - ( 8 )
其中γ为迭代步长,B,C为平衡注意参数,λk是注意参数,ξk代表趋向于1的序参量,ξk′代表趋向于0的序参量。上述参数的确定是现有技术本文不再赘述。
判断序参量ξk(n)演化过程是否稳定。当ξk(n+1)=ξk(n)时,序参量ξk(n)为稳定状态。若演化过程已经稳定,则进行投影;否则,序参量ξk(n)继续进行动力学演化。
将演化稳定的序参量按下式进行投影,则ξk的取值范围在0和1之间。
q l ( t ) = Σ k = 1 M ξ k ( t ) v lk , l = 1,2 , . . . , N - - - ( 9 )
t代表从q(0)进入一个原型向量模式的中间状态。在给出输入模式q(0)(即n=0的初始量)后,即得
Figure BSA00000278330100086
按(8)演化而稳定于某个模式,可直接选择最大序参量作为竞争获胜者输出,避免迭代,快速识别。稳定于某模式,ξk接近1,其余接近0。则ξk在数据库中对应的关键词即为最佳关键词。
步骤401至步骤405是经典协同神经网络模式识别过程。但在面对数据库中海量关键词的识别无能为力。此时为了满足原型向量之间线性无关性,构造伴随向量极为困难,且原型向量的维数M必须小于特征向量的维数N。因此必须使用新的方法来解决协同神经网络对海量关键词的处理,以及原型向量的维数M必须小于特征向量的维数N的问题。
在序参量演化过程中针对海量关键词,可以引入局部竞争,以改变传统的协同神经网络只存在全局竞争所导致的鲁棒性差以及原型向量的维数M必须小于特征向量的维数N的问题。
因此,通过在协同神经网络的匹配子网中对原型向量分组。在识别过程中首先在组内进行序参量的竞争,竞争获胜的序参量代表与待识别模式较接近的子域。然后在再次竞争。通过在协同神经网络的匹配子网中对原型向量分类,在识别过程中首先进行组间序参量的竞争,得到各个子类的序参量,然后比较得出最大的序参量,即为识别的结果。参见附图5,将原型向量分为多个子类,将每个子类中得到的序参量排序,得到识别结果即最佳关键词。
假设原型向量的维数A,特征向量的维数M,M<A
步骤501、将原型模式数分为S=A/M个子类,S向上取整。子类原型向量数为Si个,有Si≤M。
步骤502、每个子类分别按照(10)进行协同神经网络识别,得到序参量。
ξ k ( 0 ) = Σ i v ki q i Σ i v ki 2 Σ i q i 2 - - - ( 10 )
步骤503、比较每个子类的序参量。最大的序参量为最后的识别结果。当ξk=1,取ξk为最佳识别结果。ξk在数据库中对应的关键词为最佳关键词;当ξk(0)<1,θ为预先设置阈值,取H个大于θ的序参量作为最佳识别结果,θ取值可以根据当前序参量的最大值,平均值以及H的值动态适配获取。H的取值是根据具体情况确定的,本文不再赘述。H个大于θ的序参量在数据库中对应的关键词为最佳关键词。
下面以用户输入中文关键词“刘的华少”为例,说明本发明的技术方案。
1、阈值长度是50个汉字,判断用户输入的关键词长度符合要求,因此不进行长度限度处理。直接进行分词,待搜索中文关键词为“刘的华少”,“刘的”“华少”“刘的华”。
2、将待搜索中文关键词进行标准化处理,得到以下特征向量:
0.1831 , 0.8932,0.1345,0.232,0,0,0,0,0,0 0.9223,0.1234,0,0,0,0,0,0 0.8765,0.1234,0,0 , 0 , 0 , 0,0,0 , 0 0.9234,0.2356,0.4321,0,0,0,0,0,0,0
特征向量的维数M是10。
3、若原型向量数据库中关键词没有标准化处理,则需要先将原型向量数据库中关键词进行标准化处理再进行用户识别。
当原型向量数据库中关键词已经标准化,则有:
假设原型向量的维数A为100000,则将原型向量分成100000/10=10000份,每一份按照(10)式计算序参量。阈值θ为0.8,H等于10,则取前10个值,结果如下:
[0.8231,0.8023,0.8001,0,0,0,0,0,0,0]
其中大于阈值0.8的值有三个,得到原型向量数据库中的三个向量。查询数据库获取最佳关键词,结果如下:
[刘德华,华少,华仔]。
参见附图6是搜索装置的结构示意图,具体包括:预处理模块601、标准化模块602和模式识别模块603。
预处理模块601包括修改单元6011和切词单元6012。
修改单元6011,用于当所述用户输入的关键词长度超过预先设置的阈值长度,修改所述用户输入的关键词。
切词单元6012,用于对用户输入的关键词或所述修改单元输出的用户输入的关键词进行切词处理。
标准化模块602包括查询单元6021、对齐单元6022和处理单元6023。
查询单元6021,用于查询国标码库将所述待搜索关键词转换为所述数字向量;
对齐单元6022,用于对齐处理所述数字向量;
处理单元6023,用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。
模式识别模块603包括分组单元6031、模式识别单元6032、控制单元6033和搜索单元6034。
分组单元6031,用于根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类;
模式识别单元6032,用于依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配得到所述序参量;进一步用于依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量;
搜索单元6033,用于由所述序参量在数据库中获取最佳关键词。
控制单元6034,用于当所述序参量等于1,由所述序参量直接在数据库中获取所述最佳关键词;当所述序参量小于1,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
参见附图7是以用户输入的1000个中文词测试,采用Levenshtein距离法对比本专利的结果。纵轴代表精确度,横轴代表用户输入关键词长度。
  精确度(%)   用户输入关键词长度
  本专利方法   0.9371   2
  Levenshtein距离法   0.912   2
  本文方法   0.9369   3
  Levenshtein距离法   0.9101   3
  本文方法   0.9409   4
  Levenshtein距离法   0.8999   4
  本文方法   0.9391   5
  Levenshtein距离法   0.9099   5
  本文方法   0.9409   6
  Levenshtein距离法   0.9087   6
  本文方法   0.9392   7
  Levenshtein距离法   0.9120   7
  本文方法   0.9382   8
  Levenshtein距离法   0.9119   8
  本文方法   0.9381   9
  Levenshtein距离法   0.9019   9
  本文方法   0.9412   10
  Levenshtein距离法   0.9138   10
  本文方法   0.9398   11
  Levenshtein距离法   0.9154   11
  本文方法   0.9421   12
  Levenshtein距离法   0.9029   12
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种搜索方法,其特征在于,该方法包括:
预处理用户输入的关键词,得到待搜索关键词;
将待搜索关键词对应的数字向量进行标准化处理得到待搜索关键词对应的特征向量;
依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
2.根据权利要求1所述搜索方法,其特征在于,所述预处理包括,对所述用户输入的关键词进行切词处理。
3.根据权利要求2所述搜索方法,其特征在于,当所述用户输入的关键词长度超过预先设置的阈值长度,所述预处理进一步包括,修改所述用户输入的关键词;然后,对修改后的关键词进行切词处理。
4.根据权利要求1所述搜索方法,其特征在于,所述标准化处理包括,查询国标码库将所述待搜索关键词转换为数字向量;对所述数字向量进行对齐处理后,再进行零均值处理和归一化处理得到所述特征向量。
5.根据权利要求1所述搜索方法,其特征在于,所述依据所述特征向量采用协同神经网络模式识别得到序参量包括依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配,得到所述序参量。
6.根据权利要求1所述搜索方法,其特征在于,所述依据所述特征向量采用协同神经网络模式得到序参量包括,根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类,依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量。
7.根据权利要求6所述搜索方法,其特征在于,所述根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类包括,所述原型向量的维数与所述特征向量的维数的比值向上取整为所述子类的数目。
8.根据权利要求6所述搜索方法,其特征在于,当所述序参量等于1,所述由序参量在数据库中获取最佳关键词包括,由所述序参量直接在数据库中获取所述最佳关键词。
9.根据权利要求6所述搜索方法,其特征在于,当所述序参量小于1,所述由序参量在数据库中获取最佳关键词包括,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
10.一种搜索装置,其特征在于,包括预处理模块、标准化模块和模式识别模块,
预处理模块,用于预处理用户输入的关键词,得到待搜索关键词;
标准化模块,用于标准化处理待搜索关键词得到待搜索关键词对应的特征向量;
模式识别模块,用于依据所述特征向量采用协同神经网络模式识别得到序参量,由序参量在数据库中获取最佳关键词。
11.根据权利要求10所述搜索装置,其特征在于,所述预处理模块包括切词单元,
切词单元,用于对用户输入的关键词进行切词处理。
12.根据权利要求11所述搜索装置,其特征在于,所述预处理模块进一步包括修改单元,
修改单元,用于当所述用户输入的关键词长度超过预先设置的阈值长度,修改所述用户输入的关键词;
所述切词单元,进一步用于对所述修改单元输出的用户输入的关键词进行切词处理。
13.根据权利要求10所述搜索装置,其特征在于,所述标准化模块包括查询单元、对齐单元和处理单元,
查询单元,用于查询国标码库将所述待搜索关键词转换为所述数字向量;
对齐单元,用于对齐处理所述数字向量;
处理单元,用于对所述对齐处理后的数字向量向后进行零均值处理和归一化处理得到所述特征向量。
14.根据权利要求10所述搜索装置,其特征在于,所述模式识别模块包括模式识别单元和搜索单元,
模式识别单元,用于依据所述特征向量采用协同神经网络模式识别与原型向量数据库中的原型向量匹配得到所述序参量;
搜索单元,用于由所述序参量在数据库中获取最佳关键词。
15.根据权利要求14所述搜索装置,其特征在于,所述模式识别模块进一步包括分组单元和控制单元,
分组单元,用于根据所述特征向量的维数将原型向量数据库的原型向量的维数分为多个子类;
模式识别单元,进一步用于依据所述特征向量采用协同神经模式识别与每个子类中的原型向量匹配,得到所述序参量;
控制单元,用于当所述序参量等于1,由所述序参量直接在数据库中获取所述最佳关键词;当所述序参量小于1,由大于预先设置阈值的所述序参量在数据库中获取所述最佳关键词。
CN201010287639.4A 2010-09-19 2010-09-19 一种搜索方法和装置 Active CN102402561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010287639.4A CN102402561B (zh) 2010-09-19 2010-09-19 一种搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010287639.4A CN102402561B (zh) 2010-09-19 2010-09-19 一种搜索方法和装置

Publications (2)

Publication Number Publication Date
CN102402561A true CN102402561A (zh) 2012-04-04
CN102402561B CN102402561B (zh) 2014-03-26

Family

ID=45884772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010287639.4A Active CN102402561B (zh) 2010-09-19 2010-09-19 一种搜索方法和装置

Country Status (1)

Country Link
CN (1) CN102402561B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155342A (zh) * 2015-04-03 2016-11-23 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106774969A (zh) * 2015-11-20 2017-05-31 北京搜狗科技发展有限公司 一种输入方法和装置
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN107862062A (zh) * 2017-11-15 2018-03-30 中国银行股份有限公司 一种信息查询方法、装置及电子设备
CN108431809A (zh) * 2015-12-21 2018-08-21 电子湾有限公司 使用语义含义向量的跨语言搜索
CN108629697A (zh) * 2018-03-30 2018-10-09 平安科技(深圳)有限公司 保险产品配置方法、装置、计算机设备及存储介质
CN110443267A (zh) * 2019-05-28 2019-11-12 浙江大华技术股份有限公司 误检过滤方法、装置、拍摄装置及存储介质
CN110785754A (zh) * 2017-08-30 2020-02-11 深圳市欢太科技有限公司 应用资源处理方法及相关产品
CN113779363A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置
US11227004B2 (en) 2016-02-11 2022-01-18 Ebay Inc. Semantic category classification

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02224068A (ja) * 1989-02-27 1990-09-06 Toshiba Corp 情報検索システム
JPH0981579A (ja) * 1995-09-11 1997-03-28 Oki Electric Ind Co Ltd キーワード入力支援方法および支援キーワード提示装置
CN1890669A (zh) * 2003-10-15 2007-01-03 施克莱无线公司 关键字字符串的增量搜索
US20090210218A1 (en) * 2008-02-07 2009-08-20 Nec Laboratories America, Inc. Deep Neural Networks and Methods for Using Same
CN101593194A (zh) * 2008-05-28 2009-12-02 索意互动(北京)信息技术有限公司 给关键词添加附加信息的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02224068A (ja) * 1989-02-27 1990-09-06 Toshiba Corp 情報検索システム
JPH0981579A (ja) * 1995-09-11 1997-03-28 Oki Electric Ind Co Ltd キーワード入力支援方法および支援キーワード提示装置
CN1890669A (zh) * 2003-10-15 2007-01-03 施克莱无线公司 关键字字符串的增量搜索
US20090210218A1 (en) * 2008-02-07 2009-08-20 Nec Laboratories America, Inc. Deep Neural Networks and Methods for Using Same
CN101593194A (zh) * 2008-05-28 2009-12-02 索意互动(北京)信息技术有限公司 给关键词添加附加信息的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘秉瀚 等: "协同模式识别方法综述", 《系统工程与电子技术》, vol. 25, no. 6, 30 June 2003 (2003-06-30), pages 758 - 762 *
堵俊: "协同神经网络及其在模式识别中的应用", 《苏州大学学报(自然科学)》, vol. 12, no. 3, 31 July 1996 (1996-07-31), pages 43 - 47 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155342B (zh) * 2015-04-03 2019-07-05 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106155342A (zh) * 2015-04-03 2016-11-23 阿里巴巴集团控股有限公司 预测用户待输入字的方法及装置
CN106774969A (zh) * 2015-11-20 2017-05-31 北京搜狗科技发展有限公司 一种输入方法和装置
CN106774969B (zh) * 2015-11-20 2021-12-14 北京搜狗科技发展有限公司 一种输入方法和装置
CN108431809A (zh) * 2015-12-21 2018-08-21 电子湾有限公司 使用语义含义向量的跨语言搜索
US11227004B2 (en) 2016-02-11 2022-01-18 Ebay Inc. Semantic category classification
CN107341152B (zh) * 2016-04-28 2020-05-08 创新先进技术有限公司 一种参数输入的方法及装置
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN110785754A (zh) * 2017-08-30 2020-02-11 深圳市欢太科技有限公司 应用资源处理方法及相关产品
CN110785754B (zh) * 2017-08-30 2023-11-21 深圳市欢太科技有限公司 应用资源处理方法及相关产品
CN107862062A (zh) * 2017-11-15 2018-03-30 中国银行股份有限公司 一种信息查询方法、装置及电子设备
CN108629697A (zh) * 2018-03-30 2018-10-09 平安科技(深圳)有限公司 保险产品配置方法、装置、计算机设备及存储介质
CN108629697B (zh) * 2018-03-30 2024-01-16 平安科技(深圳)有限公司 保险产品配置方法、装置、计算机设备及存储介质
CN110443267A (zh) * 2019-05-28 2019-11-12 浙江大华技术股份有限公司 误检过滤方法、装置、拍摄装置及存储介质
CN113779363A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置
CN113779363B (zh) * 2021-09-14 2023-12-22 广州汇通国信科技有限公司 一种基于深度神经网络的搜索优化方法及装置

Also Published As

Publication number Publication date
CN102402561B (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN102402561B (zh) 一种搜索方法和装置
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN105095204B (zh) 同义词的获取方法及装置
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN101079025B (zh) 一种文档相关度计算系统和方法
CN102156711B (zh) 一种基于云存储的电力全文检索方法及系统
CN101807211B (zh) 一种面向海量小规模xml文档融合路径约束的xml检索方法
CN108573045A (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN103235812B (zh) 查询多意图识别方法和系统
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103646080A (zh) 基于倒序索引的微博去重方法和系统
CN103473307B (zh) 跨媒体稀疏哈希索引方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
Landthaler et al. Extending Full Text Search for Legal Document Collections Using Word Embeddings.
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN102156728A (zh) 一种改进的基于用户兴趣模型的个性化摘要系统
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN108595413B (zh) 一种基于语义依存树的答案抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant