CN102110174A - 一种基于关键词的web服务器扩展检索方法 - Google Patents

一种基于关键词的web服务器扩展检索方法 Download PDF

Info

Publication number
CN102110174A
CN102110174A CN 201110089889 CN201110089889A CN102110174A CN 102110174 A CN102110174 A CN 102110174A CN 201110089889 CN201110089889 CN 201110089889 CN 201110089889 A CN201110089889 A CN 201110089889A CN 102110174 A CN102110174 A CN 102110174A
Authority
CN
China
Prior art keywords
mapping table
expansion
keyword
chinese
corresponding relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110089889
Other languages
English (en)
Other versions
CN102110174B (zh
Inventor
叶蕾
邹国奇
刘春伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN 201110089889 priority Critical patent/CN102110174B/zh
Publication of CN102110174A publication Critical patent/CN102110174A/zh
Application granted granted Critical
Publication of CN102110174B publication Critical patent/CN102110174B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于关键词的WEB服务器扩展检索方法,该方法由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索,即WEB服务器的检索系统在进行检索之前,先根据扩展条件自动把用户查询的关键词进行语义扩展,从而形成新的查询条件,并检索相匹配的信息文本返回给用户。本发明方法可增强WEB服务器的语义扩展检索性能,并且扩展条件可灵活选择,能够更好的满足人们对于语义信息检索的灵活性需求。

Description

一种基于关键词的WEB服务器扩展检索方法
技术领域
本发明属于计算机与通信技术领域,尤其涉及一种基于关键词的WEB服务器扩展检索方法。
背景技术
互联网与计算机网络技术的发展给人们带来了前所未有的方便,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一。互联网络中的文本信息的数量不断增加,个人和组织拥有的文档数量也越来越多。随着人们对信息获取所要求的准确性和全面性,从而如何从海量的信息资源中快速的检索出满足用户所需的信息已成为亟需解决的问题。
近几十年来,文本检索的研究取得了很大进展,典型的有决策树、K近邻、朴素贝叶斯和向量空间模型中基于特征向量与向量机、潜在语义分析(Latent Semantic Analysis,简称LSA)等。但大多数方法存在严重的鲁棒性问题,这些文本检索系统都是基于词频统计的向量空间模型(Vector Space Model,简称VSM)的改进或推广,其基本思想是用向量之间的距离来逼近文本之间的语义相似性,VSM的优点是将文本和检索简化为词项及权重集合的向量表示,从而把检索操作变成向量空间上的向量运算,从而使得检索简便快捷,适合于大规模文档库的文本检索。基于现有VSM模型的互联网络检索模式,是将海量的信息以文本的形式存储在WEB服务器的信息文本数据库中,用户使用计算机客户端输入药检所的关键词并通过互联网络向WEB服务器发送检索请求,WEB服务器的检索请求解析程序解析获得关键词,并通过搜索引擎检索信息文本数据库,获得与关键词相匹配的项检索结果返回至发送检索请求的客户端,完成信息检索。
但是,VSM模型假定的关键词仅唯一地代表一个概念或语义单元,这种基于关键词频统计的文本处理方法,其两个文本的相似度取决于它们包含的公共词语的数量,而无法体现语义信息。然而,在很多情况下,人们需要检索的信息是包含关键词所体现的语义信息的,例如外地游客需要查询陌生城市中的住宿地点,输入关键词“住宿”,实际上该游客需要查询的内容包括了旅社、宾馆、酒店等各种与“住宿”相关的信息,针对这种情况,现有的检索技术是难以满足用户检索需求的,因此用户只能够针对含有相同语义的不同关键词进行反复的检索,以从中搜寻自己需要的信息,非常麻烦。
发明内容
针对现有技术中存在的上述问题,本发明综合考虑到人们对于语义信息检索的灵活性需求,提出一种基于关键词的WEB服务器扩展检索方法,通过该方法增强WEB服务器的语义扩展检索性能。
为实现上述目的,本发明采用了如下的技术手段:
一种基于关键词的WEB服务器扩展检索方法,包括如下步骤:
1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成;
2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;
3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。
上述的基于关键词的WEB服务器扩展检索方法中,进一步,所述关联词对应关系,是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由此获得关联词对应关系。
进一步,所述拼音与汉字对应关系根据汉语词典获得。
进一步,所述英文与汉字对应关系根据英汉对照词典获得。
进一步,所述同义词对应关系根据同义词词典获得。
相比于现有技术,本发明具有如下优点:
1、本发明方法针对人们对文本检索准确性和高效性的需求,研究了查询扩展技术以及其在文本检索中的应用,设计出一种基于关键词的WEB服务器扩展检索方法,增强WEB服务器的语义扩展检索性能,能够更好的满足人们对于语义信息检索的灵活性需求。
2、用户可通过扩展条件选项指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件,更具自己的实际检索需求进行关键词扩展,使用灵活。
3、采用本发明方法的WEB服务器不需要在硬件上作改动,不会增加服务器的硬件建设成本,并且易于实现,更新和维护都很方便,具有很好的工业实用性。
附图说明
图1为采用本发明方法的检索过程流程框图。
具体实施方式
采用现有的检索技术,由于输入的关键词不匹配问题的存在,很多时候用户不得不反复针对含有相同语义的不同关键词进行检索,才能找到所需要的信息。本发明基于关键词的WEB服务器扩展检索方法就能够减轻用户的这一负担,由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索,即查询扩展技术;简单地说来,就是WEB服务器的检索系统在进行检索之前,先根据扩展条件自动把用户查询的关键词进行语义扩展,从而形成新的查询条件,并检索相匹配的信息文本返回给用户。
本发明基于关键词的WEB服务器扩展检索方法的的流程框图如图1所示,其具体步骤如下:
1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成;
2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;
3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。
通过上述的检索方法,WEB服务器即可根据用户通过扩展条件选项指定的关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件,对关键词进行扩展检索,更好的满足人们对于语义信息检索的灵活性需求。由上述方法可见,要在现有的WEB服务器上实现本发明的检索方法,不需要在服务器的硬件上添加任何的额外装置,只需要在软件上增加关键词扩展程序即可,对于熟悉服务器编程的技术人员而言非常容易实现,而且关键词扩展程序中各映射表的更新和维护都很方便。
下面通过具体实施方式对本发明作进一步的说明。
根据目前网络语言的的特点以及汉语意思表达形式的多样化,结合现行所研究出来的语义扩展方法,本发明基于关键词的WEB服务器扩展检索方法中共设计了六个用于语义扩展的映射表,分别为关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表。对于不同的映射表,其对应关系需要通过不同的方式获得。
A、关联词对应关系的获得:
基于关键词匹配的现有检索技术中,由于单个的关键词所表达的语义并不明确,所以对于每个关键词计算其关联词也就是与之相关度高的词汇,以关联词作为体现关键词语义的一个方面。本发明方法中通过关联词映射表来记录关联词对应关系,而关联词对应关系则通过计算词汇的相关度来获得。
对于词汇相关度的计算方式,现行研究出来的已有很多,具体可参考文献“田萱、杜小勇、李海华.语义查询扩展中词语-概念相关度的计算[J]软件学报,2008,19(8):第2043~2053页”以及“Ricardo Baeza Yates.现代信息检索[M].王知津,译.北京:机械工业出版社2004”。为了提高检索效率,结合WEB服务器自身的一些特征,本实施例中采用基于广义Jaccard系数的相似度计算方法来计算词与词之间的相关度,针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由此获得关联词对应关系,从而建立不同词语的关联词。
一般数据类型有:标称型变量、序数型变量、二元变量、比例标度型变量、混合类型变量等。综合以上变量类型,文本字符串适合归为二元变量,所以可利用分词技术先将字符串分成若干个词,每个独立词作为二元变量的一个属性。把全部词设定为一个二元变量属性集合R,字符串A和字符串B的词包含于这个集合R。设m是字符串A词总数,n是字符串B词总数,p是字符串A、B共有词总数。m、n、p是字符串比较的3个状态分量。
采用广义Jaccard系数来描述两个字符串间(可以把一个词语看做一个字符串)的相关程度,即相似度=p/(m+n-p)。
根据字符串相似度计算公式,结合向量空间模型中文本的表示,本文所采用的相关度算法如下:假设一文本库中文本集合为W,其中总的文本数为R篇,W中出现词a的文本集合为Wa,Wa={Wa1,Wa2,...,Wam}。设文本集合W中出现词b的文本集合为Wb,Wb={Wb1,Wb2,...,Wbn}。设Wa中含有词b的文章集合为Wab∈Wa以及Wb中含有词a的文章集合为Wba∈Wb,则出现词a的集合中含有词b的子集应等于出现词b的集合中含有词a的子集,即Wab=Wba=Wa∩Wb,Wab={Wab1,Wab2,...,Wabs}。再设W中或者出现词a和或者出现词b的文本集合为Wa∪b,则Wa∪b=Wa∪Wb,Wa∪b=Wa+Wb-Wab。从而由字符串相似度的定义有词a和词b的相似度Sim(a,b)必定正比于集合Wab与集合Wa∪b大小之比,由此得到词a与词b相似度计算公式如下:
Sim ( a , b ) = β × Z X 2 + Y 2 - Z 2 - - - ( 1 ) ;
式(1)中参数 X = Σ i = 1 m W ai , Y = Σ j = 1 n W bj , Z = Σ k = 1 s W abk ;
其中
Figure BDA0000054745270000055
为修正系数均值,因为词a和词b有可能出现在同一个标题中,或者出现在同一个句子中,还有可能出现在同一段话中等等,所以根据在文本集合Wabi中词a和词b出现位置的不同赋予不同修正系数βi
定义查询词相关度的取值范围为(0,1],相关度取1表示的是查询词同其自身的相关度。一般情况下相关度的取值都是很小的,所以为了让结果便于表示,这里对式(1)进行归一化处理,采用TF-IDF加权策略,可得归一化相关度:
norm _ sim ( a , b ) = 1 + log Sim ( a , b ) 2 - - - ( 2 ) ;
根据以上算法,可快速计算找出指定候选词在文本库中的关联词及其相关度,取出相关度排列前三的三个词作为与该候选词对应的关联词。表1中列举了几个候选词通过上述方法计算得到的关联词:
表1
Figure BDA0000054745270000061
从表1中我们可以得出,由此方法计算能很好的得到候选词的关联词,并且关联词都在一定程度上体现了候选词的语义。
B、拼音与汉字对应关系的获得:
由于网络语言元素日益丰富、计算机输入法的限制等原因,在关键词的输入过程中有可能夹杂拼音,如“亚运会”输入成“ya运会”等等。本发明方法中通过拼音汉字映射表记录拼音与汉字对应关系,拼音与汉字对应关系则直接根据汉语词典获得。
C、英文与汉字对应关系的获得:
考虑到英语使用范围广泛,很多文献资料都以英语为语言载体,本发明将中文关键词的英文翻译或者英文关键词的中文翻译作为关键词的横向扩展条件,例如“大学”翻译为“university”,有时候一个关键词可能存在几种翻译方式,如“大学”还可以翻译为“college”;通过英汉互译扩展,为用户提供一种横向将扩展检索的选择。本发明方法中通过英汉对照映射表记录英文与汉字对应关系,英文与汉字对应关系则直接根据英汉对照词典获得。
D、同义词对应关系的获得:
对于同义词当然我们也可以说是近义词,我们知道一词多义或多词一义在汉语中是很常见的,所以在文本语言的表示方面同一信息可以用不同的词语来表达,而且这种现象在文本检索中出现的比较频繁,例如“早餐”,通常也可以说是“早点”,二者属于同义词或近义词。本发明方法中通过同义词映射表记录同义词对应关系,同义词对应关系则直接根据同义词词典获得。
E、错别字对应关系和缩写词对应关系:
由于网络语言以及计算机输入习惯等原因,可能用户输入的关键词中存在错别字,例如“博览会”是入为“波澜会”、“自动化”输入为“自动划”等情况,但是用户想表达的语义却是相同的。而缩写词在中文表达中的应用就更为广泛了,例如“世界博览会”通常会缩写为“世博”、“奥林匹克运动会”通常会缩写为“奥运会”等,缩写词是词汇语义的一个重要体现方面。
基于上面两方面原因,本发明方法还通过错别字映射别和缩写词映射表分别记录错别字对应关系和缩写词对应关系,对关键词进行语义扩展;错别字对应关系和缩写词对应关系通过经验获得,需要总结、归纳人们日常的语言表达习惯和文字输入习惯,根据归纳出的结果列举出错别字对应关系和缩写词对应关系。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于关键词的WEB服务器扩展检索方法,其特征在于,包括如下步骤:
1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成;
2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;
3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。
2.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于:所述关联词对应关系,是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由此获得关联词对应关系。
3.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于:所述拼音与汉字对应关系根据汉语词典获得。
4.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于:所述英文与汉字对应关系根据英汉对照词典获得。
5.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于:所述同义词对应关系根据同义词词典获得。
CN 201110089889 2011-04-11 2011-04-11 一种基于关键词的web服务器扩展检索方法 Expired - Fee Related CN102110174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110089889 CN102110174B (zh) 2011-04-11 2011-04-11 一种基于关键词的web服务器扩展检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110089889 CN102110174B (zh) 2011-04-11 2011-04-11 一种基于关键词的web服务器扩展检索方法

Publications (2)

Publication Number Publication Date
CN102110174A true CN102110174A (zh) 2011-06-29
CN102110174B CN102110174B (zh) 2013-04-03

Family

ID=44174335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110089889 Expired - Fee Related CN102110174B (zh) 2011-04-11 2011-04-11 一种基于关键词的web服务器扩展检索方法

Country Status (1)

Country Link
CN (1) CN102110174B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890674A (zh) * 2011-07-18 2013-01-23 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103020049A (zh) * 2011-09-20 2013-04-03 中国电信股份有限公司 搜索方法及搜索系统
CN103064962A (zh) * 2012-12-31 2013-04-24 安徽科大讯飞信息科技股份有限公司 信息查询方法及系统
CN103294684A (zh) * 2012-02-24 2013-09-11 鸿富锦精密工业(深圳)有限公司 关联词汇搜索系统及方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103902535A (zh) * 2012-12-24 2014-07-02 腾讯科技(深圳)有限公司 获取联想词的方法、装置及系统
CN103995844A (zh) * 2014-05-06 2014-08-20 小米科技有限责任公司 信息搜索方法和装置
CN104021201A (zh) * 2014-06-16 2014-09-03 辛玲 一种数据转换方法及装置
CN106250531A (zh) * 2016-08-06 2016-12-21 马岩 同义词在大数据搜索中的应用方法及系统
CN106599206A (zh) * 2016-12-15 2017-04-26 北京小米移动软件有限公司 搜索信息的方法及装置
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
WO2018027342A1 (zh) * 2016-08-06 2018-02-15 马岩 同义词在大数据搜索中的应用方法及系统
CN107704463A (zh) * 2016-08-08 2018-02-16 上海颐为网络科技有限公司 一种基于信息点结构的上溯方法和系统
CN108170664A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
WO2019041197A1 (zh) * 2017-08-30 2019-03-07 深圳市云中飞网络科技有限公司 应用资源处理方法及相关产品
CN110287440A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 搜索引擎优化方法、装置、计算机设备及计算机可读存储介质
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN111859013A (zh) * 2020-07-17 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法、装置、终端和存储介质
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《福建电脑》 20051231 杨鹏、叶少珍 《基于关键词和语义融合的WEB检索》 第105-107页 1-5 , 第8期 *
《计算机应用》 20061231 张映海、何中市 《基于关键词与语义概念结合的信息检索研究》 第2964-2966页 1-5 第26卷, 第12期 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890674A (zh) * 2011-07-18 2013-01-23 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN102890674B (zh) * 2011-07-18 2015-12-02 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN103020049A (zh) * 2011-09-20 2013-04-03 中国电信股份有限公司 搜索方法及搜索系统
CN103294684A (zh) * 2012-02-24 2013-09-11 鸿富锦精密工业(深圳)有限公司 关联词汇搜索系统及方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103902535B (zh) * 2012-12-24 2019-02-22 腾讯科技(深圳)有限公司 获取联想词的方法、装置及系统
WO2014101678A1 (en) * 2012-12-24 2014-07-03 Tencent Technology (Shenzhen) Company Limited Method,apparatus and system for obtaining associated word information
CN103902535A (zh) * 2012-12-24 2014-07-02 腾讯科技(深圳)有限公司 获取联想词的方法、装置及系统
CN103064962A (zh) * 2012-12-31 2013-04-24 安徽科大讯飞信息科技股份有限公司 信息查询方法及系统
CN103064962B (zh) * 2012-12-31 2016-08-24 科大讯飞股份有限公司 信息查询方法及系统
CN103995844A (zh) * 2014-05-06 2014-08-20 小米科技有限责任公司 信息搜索方法和装置
CN103995844B (zh) * 2014-05-06 2017-11-21 小米科技有限责任公司 信息搜索方法和装置
CN104021201B (zh) * 2014-06-16 2017-06-16 辛玲 一种数据转换方法及装置
CN104021201A (zh) * 2014-06-16 2014-09-03 辛玲 一种数据转换方法及装置
WO2018027342A1 (zh) * 2016-08-06 2018-02-15 马岩 同义词在大数据搜索中的应用方法及系统
CN106250531A (zh) * 2016-08-06 2016-12-21 马岩 同义词在大数据搜索中的应用方法及系统
CN107704463A (zh) * 2016-08-08 2018-02-16 上海颐为网络科技有限公司 一种基于信息点结构的上溯方法和系统
CN106599206A (zh) * 2016-12-15 2017-04-26 北京小米移动软件有限公司 搜索信息的方法及装置
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
WO2019041197A1 (zh) * 2017-08-30 2019-03-07 深圳市云中飞网络科技有限公司 应用资源处理方法及相关产品
CN108170664A (zh) * 2017-11-29 2018-06-15 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
CN110287440A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 搜索引擎优化方法、装置、计算机设备及计算机可读存储介质
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN111859013A (zh) * 2020-07-17 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法、装置、终端和存储介质
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索系统
CN116340470B (zh) * 2023-05-30 2023-09-15 环球数科集团有限公司 一种基于aigc的关键词关联检索系统

Also Published As

Publication number Publication date
CN102110174B (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN102110174B (zh) 一种基于关键词的web服务器扩展检索方法
Sumathy et al. Text mining: concepts, applications, tools and issues-an overview
US8001064B1 (en) Learning based on feedback for contextual personalized information retrieval
Sánchez et al. Content annotation for the semantic web: an automatic web-based approach
Hyvönen et al. Semantic autocompletion
US9201869B2 (en) Contextually blind data conversion using indexed string matching
CN100433007C (zh) 提供搜索结果的方法
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN101136018A (zh) 为检索对多个文档进行预处理及呈现检索结果的方法和装置
EP2891075A1 (en) Contextually blind data conversion using indexed string matching
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
Richards et al. The Archaeology Data Service and the Archaeotools project: faceted classification and natural language processing
CN101751420A (zh) 语义脉络文档查询方法
Küçük Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles
Gregorowicz et al. Mining a large-scale term-concept network from Wikipedia
Chang et al. Metaquerier over the deep web: Shallow integration across holistic sources
Kumar et al. A language-independent approach to identify the named entities in under-resourced languages and clustering multilingual documents
Jin et al. Tise: A temporal search engine for web contents
CN103530291A (zh) 适用于搜索引擎的关键词投放拓词方法及其装置
Xie et al. Personalized query recommendation using semantic factor model
Ibekwe‐SanJuan Constructing and maintaining knowledge organization tools: a symbolic approach
WO2019142094A1 (en) System and method for semantic text search
Yang et al. Cross-lingual news group recommendation using cluster-based cross-training
Gajendragadkar et al. User intended context sensitive mining algorithm for search string composition
Zhong et al. A holistic approach on deep web schema matching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130403

Termination date: 20180411