CN103377226B - 一种智能检索方法及其系统 - Google Patents

一种智能检索方法及其系统 Download PDF

Info

Publication number
CN103377226B
CN103377226B CN201210124028.7A CN201210124028A CN103377226B CN 103377226 B CN103377226 B CN 103377226B CN 201210124028 A CN201210124028 A CN 201210124028A CN 103377226 B CN103377226 B CN 103377226B
Authority
CN
China
Prior art keywords
phrase
text
retrieved
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210124028.7A
Other languages
English (en)
Other versions
CN103377226A (zh
Inventor
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210124028.7A priority Critical patent/CN103377226B/zh
Publication of CN103377226A publication Critical patent/CN103377226A/zh
Application granted granted Critical
Publication of CN103377226B publication Critical patent/CN103377226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种智能检索方法及其系统,该方法包括:接收信息检索请求,提取其中携带的关键词;将所述关键词作为原始关键词,对所述关键词进行扩展;根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本并返回检索结果。本发明可应用于对短文本的检索,可提高信息检索的准确性和有效性。

Description

一种智能检索方法及其系统
技术领域
本发明涉及通信领域的信息检索技术,尤其涉及一种智能检索方法及其系统。
背景技术
信息检索是指是指从信息集合中找出用户所需要的有关信息的过程。传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。
目前常用的信息检索方法是基于关键词匹配,即,先为要检索的内容设置关键词,然后通过关键词匹配来衡量是否为检索目标,一般认为匹配的关键词越多则越相近。
传统的基于关键词匹配的检索方法对基于句子且文本内容较少(比如微博)的检索不是很有效,这是由于文本内容较少,与关键词匹配的几率较小,因此检索到用户所需要的信息的几率就小,存在检索结果不全面(即查不全)的问题。
发明内容
本发明实施例提供了一种智能检索方法及其系统,用以解决现有信息检索技术检索结果不全面的问题。
本发明实施例提供的智能检索方法,包括:接收信息检索请求,提取其中携带的关键词;将所述关键词作为原始关键词,对所述关键词进行扩展;根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本并返回检索结果。
本发明实施例提供的智能检索系统,包括:接收单元,用于接收信息检索请求,并提取所述信息检索请求中携带的关键词;关键词扩展单元,用于将所述关键词作为原始关键词,对所述关键词进行扩展;词组划分单元,用于根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;相似度确定单元,用于根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;检索结果确定单元,用于根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本;发送单元,用于返回检索结果。
本发明的上述实施例,考虑到二元词组表达的信息比一元词组准确,三元词组表达的信息比二元词组准确,以此类推,通过引入二元词组、三元词组以致多元词组,提高了检索结果的有效性和准确性。
附图说明
图1为本发明实施例提供的智能检索流程示意图;
图2为本发明实施例中最多扩展到三元词组时的智能检索流程示意图;
图3为本发明实施例提供的智能检索系统结构示意图。
具体实施方式
本发明实施例提供的智能检索方法在传统的基于关键词匹配的检索方法基础上,引入了关键词扩展,且将扩展得到的关键词组成关键词集合,其中按照一元词组以及多元词组(包括二元词组,三元词组......N元词组,N≥1)进行区分,并赋予不同的权重,然后通过语义计算得到被检测文本与关键词集合的匹配程度,进而根据被检测文本与关键词集合的匹配程度得到检索结果。本发明实施例适合于对句子进行检索,或者适合于对较短的文字片段的检索,比如对微博进行检索。
本发明实施例中,一元词组指不可拆分的词语,词语中不存在修饰关系,比如,北京,中国;N元词组指该词组由N个一元词组构成。
下面结合附图对本发明实施例进行详细描述。
本发明实施例可应用于C/S(客户端/服务器)或B/S(浏览器/服务器)系统架构,其中,客户端用于发起信息检索请求以及接收信息检索结果,服务器端设置有智能检索系统,可为用户提供智能检索服务。
参见图1,为本发明实施例提供的智能检索流程示意图,该流程可由智能检索系统实现,该流程可包括:
步骤101,客户端向智能检索系统提交信息检索请求,其中携带有关键词。
具体实现时,用户可通过智能检索系统提供的检索界面输入关键词,并提交检索请求,其中携带有该关键词。
步骤102,智能检索系统接收该信息检索请求后,提取其中携带的关键词,并以该关键词为基础进行扩展(为描述方便,以下将该关键词称为原始关键词)。
具体实施时,可采用PMI(PointwiseMutualInformation)算法对关键词进行扩展。比如,可通过同义词库、近义词库、关联词库等,查询与用户提交的关键词语义相近或有关联的词。扩展词的数量根据组合级数N来确定,比如,若组合级数设定为5,即经过对扩展得到的关键词进行排列组合后最多得到五元词组,则扩展词的数量不低于4。
步骤103,智能检索系统根据组合级数N,将原始关键词和扩展得到的关键词进行划分,得到包含一元词组到N元词组的关键词集合。
具体实施时,智能检索系可根据组合级数N,将原始关键词和扩展得到的关键词进行排列组合,从而得到包含一元词组到N元词组的关键词集合。在基于原始关键词和扩展得到的关键词进行排列组合时,可以得到一元、二元......N-1元、N元词组,比如,用户输入的关键词是一个一元词组,可以以该一元词组为基础扩展得到M(M≥N)个一元词组(包括原始关键词),然后,通过排列组合得到个二元词组、个三元词组......个N元词组。
步骤104,智能检索系统根据语义计算算法,得到被检索文本与关键词集合的相似度。
具体实施时,智能检索系统计算原始关键词与被检索文本的相似度,计算所有包含原始关键词的二元词组与被检索文本的相似度,以此类推,直到计算包含原始关键词的N元词组与被检索文本的相似度,然后根据一元词组、二元词组到N元词组各自对应的权重值,对计算出的各元词组与被检索文本的相似度值进行加权求和,得到所有包含原始关键词的词组与检索文本的相似度,并将该相似度值与第一系数相乘。同理,智能检索系统根据一元到N元词组各自对应的权重值,计算除原始关键词以外的一元词组与被检索文本的相似度,计算所有不包含原始关键词的二元词组与被检索文本的相似度,以此类推,直到所有不包含原始关键词的N元词组与被检索文本的相似度的权重累加和,得到所有不包含原始关键词的词组与检索文本的相似度,并将该相似度与第二系数相乘。然后,将与第一系数相乘后的数值和与第二系数相乘后的数值相加,得到被检索文本与关键词集合的相似度。其中,第一系数大于第二系数。
具体的,可采用以下公式(1)计算被检索文本与关键词集合的相似度,该公式代表关键词与被检索句子的语义相似度,相似度越大说明越相关:
log P ( Q | S )
= λ { α 1 Σ i = 1 K log P 1 ( t i | S ) + α 2 Σ j = 1 m log P 2 ( t j | S ) + . . . + α N Σ k = 1 n log P N ( t k | S ) }
+ ( 1 - λ ) { α 1 Σ i = 1 K ′ log P 1 ( t i ′ | S ) + α 2 Σ j = 1 m ′ log P 2 ( t j ′ | S ) + . . . + α N Σ k = 1 n ′ log P N ( t k ′ | S ) }
其中,α1,α2,...αN分别为一元词组、二元词组直到N元词组各自对应的权重值,α12+...+αN=1。一般一元词组、二元词组在短文中出现的概率远大于三元词组,所以一元、二元词组的权重要大于三元词组,如可将一元词组、二元词组......N元词组的权重值依次降低。
λ是关键词权重系数,用来衡量原始关键字和扩展后的关键字的权重,一般认为原始关键词更能表达用户的检索目标,所以λ取值要大于1-λ,如设置为:0.5<λ<1。
P(t|S)表示关键词t与被检索文本S的相似度,其中,表示原始关键词与被检索文本相似度对数值的累加和,表示包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和,表示除所述原始关键词以外的一元词组与被检索文本相似度对数值的累加和,表示不包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示不包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和。
步骤105,智能检索系统根据各被检索文本与关键词集合的相似度,得到作为检索结果的被检索文本。
具体实施时,确定被检索文本与关键词集合的相似度之前可首先对被检索文本进行预处理,以提取被检索文本主干。预处理过程可包括:通过对被检索文本进行分词,标注词性,去掉被检索文本中的副词、介词、连词等虚词,得到被检索文本主干。各被检索文本与关键词集合的相似度是指各被检索文本主干与关键词集合的相似度。
步骤106,智能检索系统返回检索结果给发起信息检索请求的客户端。
具体实施时,由于相似度越大则相关性越大,因此可将最后的输出结果按相似度进行排序。
通过以上描述可以看出,考虑到二元词组表达的信息比一元词组准确,三元词组表达的信息比二元词组准确,以此类推,所以引入二元词组、三元词组以致多元词组,可以提高检索结果的有效性和准确性。
考虑到对于多元词组,其检索到匹配文本的概率会比较小,为了降低处理开销,因此本发明实施例优选采用最多扩展至三元词组。
下面以一具体实例,并采用最多扩展到三元词组为例,对本发明实施例进行详细描述。如图2所示,用户提交的关键词为“奥运”,其为一元词组,经智能检索系统扩展后得到(包括原始关键词“奥运”):奥运、北京、圣火,经排列组合后得到的关键词集合中的一元词组包括:奥运、北京、圣火;二元词组包括:奥运/北京,奥运/圣火,北京/圣火;三元词组包括:北京/奥运/圣火。然后分别根据一元词组、二元词组和三元词组,采用前述公式计算该关键词集合与被检测文本的相似度,并最终得到检索结果进行输出。
例如,从网上抓取“北京奥运”相关的新闻40篇,选取其中的30篇(共596个句子)来训练算法中的参数设置,另外10篇(共204个句子)进行测试,测试(以句子为单位进行测试)结果可如表1所示:
表1
其中,P10表示前10个检索结果中正确的概率。
通过对表1的对比分析可以看出,采用本发明实施例进行信息检索,其准确性明显高于采用传统检索方式。
本发明实施例可以应用在微博搜索方面。假设用户想搜索包含“北京奥运”内容的短信,该方案会将“北京奥运”进行扩展,可能包括“2008、祥云”这样的扩展关键词,然后将扩展词输入到语义算法进行计算,然后按照结果进行排序,返回给用户,用户便可以看到跟“北京奥运”相关的微博。
本发明实施例还可以应用在移动梦网搜索、WAP10086帮助用户准确的搜索自己感兴趣的内容。根据用户输入的内容,假设用户输入“北京奥运”,则该搜索先通过扩展算法将“北京奥运”进行扩展,扩展后的关键字与原始输入关键字构成关键字集合,然后与被检索的句子计算语义距离,在计算之前先将被检索句子用句子主干代替,然后按照返回的值倒序排列,值越大则表示越相关,最后按相关性截取部分句子作为结果返回给用户。
基于相同的技术构思,本发明实施例还提供了一种应用于上述流程的智能搜索系统。
参见图3,为本发明实施例提供的智能搜索系统的结构示意图。如图所示,该系统可包括:
接收单元301,用于接收信息检索请求,并提取所述信息检索请求中携带的关键词;
关键词扩展单元302,用于将所述关键词作为原始关键词,对所述关键词进行扩展;
词组划分单元303,用于根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;
相似度确定单元304,用于根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;
检索结果确定单元305,用于根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本;
发送单元306,用于返回检索结果。
具体的,相似度确定单元304对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,在确定该被检索文本与所述关键词集合的相似度时:根据一元词组到N元词组各自对应的权重值,计算所述原始关键词与被检索文本的相似度、所有包含所述原始关键词的二元词组与被检索文本的相似度,直到包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第一系数相乘;根据一元词组到N元词组各自对应的权重值,计算除所述原始关键词以外的一元词组与被检索文本的相似度、所有不包含所述原始关键词的二元词组与被检索文本的相似度,直到所有不包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第二系数相乘;将与第一系数相乘后的数值和与第二系数相乘后的数值相加,得到所述被检索文本与所述关键词集合的相似度;其中,第一系数大于第二系数。
具体的,相似度确定单元304对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,确定该被检索文本与所述关键词集合的相似度时,采用前述公式(1),其中参数的设置和含义如前所述。优选的,N=3,即最多扩展到三元词组。
具体的,按照从一元词组、二元词组直到N元词组的顺序,其权重值依次递减。
进一步的,该系统还可包括预处理单元307,用于在确定被检索文本与所述关键词集合的相似度之前,通过对被检索文本进行分词,提取被检索文本主干。相应的,相似度确定单元304根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本的文本主干与所述关键词集合的相似度。
综上所述,本发明实施例更适用于句子或者较短的文字片段检索,传统的关键字匹配检索算法依赖于关键词匹配,而句子或文字片段较难匹配关键词,导致检索结果不全。另外,传统的关键词匹配检索经常包含一些不准确的结果,这些结果是用户不想要的,对用户造成了干扰,本发明实施例在传统的关键词匹配基础上增加了语义计算,可以提高检索结果的准确性。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (12)

1.一种智能检索方法,其特征在于,包括:
接收信息检索请求,提取其中携带的关键词;
将所述关键词作为原始关键词,对所述关键词进行扩展;
根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;
根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;
根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本并返回检索结果。
2.如权利要求1所述的方法,其特征在于,对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,确定该被检索文本与所述关键词集合的相似度,具体为:
根据一元词组到N元词组各自对应的权重值,计算所述原始关键词与被检索文本的相似度、所有包含所述原始关键词的二元词组与被检索文本的相似度,直到包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第一系数相乘;
根据一元词组到N元词组各自对应的权重值,计算除所述原始关键词以外的一元词组与被检索文本的相似度、所有不包含所述原始关键词的二元词组与被检索文本的相似度,直到所有不包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第二系数相乘;
将与第一系数相乘后的数值和与第二系数相乘后的数值相加,得到所述被检索文本与所述关键词集合的相似度;其中,第一系数大于第二系数。
3.如权利要求2所述的方法,其特征在于,对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,确定该被检索文本与所述关键词集合的相似度时,采用以下公式:
log P ( Q | S )
= λ { α 1 Σ i = 1 K log P 1 ( t i | S ) + α 2 Σ j = 1 m log P 2 ( t j | S ) + . . . + α N Σ k = 1 n log P N ( t k | S ) }
+ ( 1 - λ ) { α 1 Σ i = 1 K ′ log P 1 ( t i ′ | S ) + α 2 Σ j = 1 m ′ log P 2 ( t j ′ | S ) + . . . + α N Σ k = 1 n ′ log P N ( t k ′ | S ) }
其中,α1,α2,...αN分别为一元词组、二元词组直到N元词组各自对应的权重值,α12+...+αN=1;0.5<λ<1;
P(t|S)表示关键词t与被检索文本S的相似度,其中,表示所述原始关键词与被检索文本相似度对数值的累加和,表示包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和,表示除所述原始关键词以外的一元词组与被检索文本相似度对数值的累加和,表示不包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示不包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和。
4.如权利要求3所述的方法,其特征在于,N=3。
5.如权利要求1-4之一所述的方法,其特征在于,按照从一元词组、二元词组直到N元词组的顺序,其权重值依次递减。
6.如权利要求1所述的方法,其特征在于,确定被检索文本与所述关键词集合的相似度之前还包括:通过对被检索文本进行分词,提取被检索文本主干;
所述各被检索文本与所述关键词集合的相似度是指各被检索文本主干与所述关键词集合的相似度。
7.一种智能检索系统,其特征在于,包括:
接收单元,用于接收信息检索请求,并提取所述信息检索请求中携带的关键词;
关键词扩展单元,用于将所述关键词作为原始关键词,对所述关键词进行扩展;
词组划分单元,用于根据设定的组合级数N,通过对所述原始关键词和扩展得到的关键词进行排列组合,得到包含一元词组到N元词组的关键词集合;其中,N≥2;
相似度确定单元,用于根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本与所述关键词集合的相似度;
检索结果确定单元,用于根据各被检索文本与所述关键词集合的相似度,得到作为检索结果的被检索文本;
发送单元,用于返回检索结果。
8.如权利要求7所述的系统,其特征在于,所述相似度确定单元具体用于,对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,在确定该被检索文本与所述关键词集合的相似度时:
根据一元词组到N元词组各自对应的权重值,计算所述原始关键词与被检索文本的相似度、所有包含所述原始关键词的二元词组与被检索文本的相似度,直到包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第一系数相乘;
根据一元词组到N元词组各自对应的权重值,计算除所述原始关键词以外的一元词组与被检索文本的相似度、所有不包含所述原始关键词的二元词组与被检索文本的相似度,直到所有不包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和,并将该权重累加和与第二系数相乘;
将与第一系数相乘后的数值和与第二系数相乘后的数值相加,得到所述被检索文本与所述关键词集合的相似度;其中,第一系数大于第二系数。
9.如权利要求8所述的系统,其特征在于,所述相似度确定单元具体用于,对于每个被检测文本,根据一元词组到N元词组各自对应的权重值,确定该被检索文本与所述关键词集合的相似度时,采用以下公式:
log P ( Q | S )
= λ { α 1 Σ i = 1 K log P 1 ( t i | S ) + α 2 Σ j = 1 m log P 2 ( t j | S ) + . . . + α N Σ k = 1 n log P N ( t k | S ) }
+ ( 1 - λ ) { α 1 Σ i = 1 K ′ log P 1 ( t i ′ | S ) + α 2 Σ j = 1 m ′ log P 2 ( t j ′ | S ) + . . . + α N Σ k = 1 n ′ log P N ( t k ′ | S ) }
其中,α1,α2,...αN分别为一元词组、二元词组直到N元词组各自对应的权重值,α12+...+αN=1;0.5<λ<1;
P(t|S)表示关键词t与被检索文本S的相似度,其中,表示所述原始关键词与被检索文本相似度对数值的累加和,表示包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和,表示除所述原始关键词以外的一元词组与被检索文本相似度对数值的累加和,表示不包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和,表示不包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和。
10.如权利要求9所述的系统,其特征在于,N=3。
11.如权利要求7-10之一所述的系统,其特征在于,按照从一元词组、二元词组直到N元词组的顺序,其权重值依次递减。
12.如权利要求7所述的系统,其特征在于,还包括预处理单元,用于在确定被检索文本与所述关键词集合的相似度之前,通过对被检索文本进行分词,提取被检索文本主干;
所述相似度确定单元具体用于,根据一元词组到N元词组各自对应的权重值,分别确定各被检索文本的文本主干与所述关键词集合的相似度。
CN201210124028.7A 2012-04-25 2012-04-25 一种智能检索方法及其系统 Active CN103377226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210124028.7A CN103377226B (zh) 2012-04-25 2012-04-25 一种智能检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210124028.7A CN103377226B (zh) 2012-04-25 2012-04-25 一种智能检索方法及其系统

Publications (2)

Publication Number Publication Date
CN103377226A CN103377226A (zh) 2013-10-30
CN103377226B true CN103377226B (zh) 2016-08-03

Family

ID=49462352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210124028.7A Active CN103377226B (zh) 2012-04-25 2012-04-25 一种智能检索方法及其系统

Country Status (1)

Country Link
CN (1) CN103377226B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910498A (zh) * 2017-03-01 2017-06-30 成都启英泰伦科技有限公司 提高语音控制命令词识别率的方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035955B (zh) * 2014-03-18 2018-07-10 北京百度网讯科技有限公司 搜索方法和装置
CN105095271B (zh) * 2014-05-12 2019-04-05 北京大学 微博检索方法和微博检索装置
CN105095270B (zh) * 2014-05-12 2019-02-26 北京大学 检索装置和检索方法
CN104268233B (zh) * 2014-09-26 2018-07-13 北京国双科技有限公司 组合关键词的生成方法及装置
CN104899262B (zh) * 2015-05-22 2017-12-22 华中师范大学 一种支持用户自定义归类规则的信息归类方法
CN106294418B (zh) * 2015-05-25 2019-08-30 北京大学 检索方法和检索系统
CN105975482A (zh) * 2016-04-25 2016-09-28 乐视控股(北京)有限公司 基于垂直搜索的相关度排序实现方法及装置
CN107544982B (zh) * 2016-06-24 2022-12-02 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN106445916A (zh) * 2016-09-19 2017-02-22 合肥清浊信息科技有限公司 专利检索用语义分析方法
CN108427686A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 文本数据查询方法及装置
CN107798144A (zh) * 2017-11-28 2018-03-13 北京小度互娱科技有限公司 一种基于切词的多层次检索方法
CN108182201B (zh) * 2017-11-29 2020-06-30 有米科技股份有限公司 基于重点关键词的应用拓展方法和装置
CN108804421B (zh) * 2018-05-28 2022-04-15 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质
CN108984654A (zh) * 2018-06-27 2018-12-11 无锡市人民医院 一种基于人工智能的专利创新方法及系统
CN110287284B (zh) * 2019-05-23 2021-07-06 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN112948655A (zh) * 2019-11-26 2021-06-11 中兴通讯股份有限公司 一种信息搜索方法、装置、设备及存储介质
CN111753048B (zh) * 2020-05-21 2024-02-02 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN112000783B (zh) * 2020-08-03 2022-09-27 北京大学 基于文本相似性分析的专利推荐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关键字策略在SEO中的应用研究;吕梁;《电子商务》;20100228;第2卷(第2期);第77-79页 *
基于查询扩展词条加权的文本检索研究;张映海,张宇薇;《计算机工程与科学》;20110131;第33卷(第1期);第161-165页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910498A (zh) * 2017-03-01 2017-06-30 成都启英泰伦科技有限公司 提高语音控制命令词识别率的方法

Also Published As

Publication number Publication date
CN103377226A (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN103377226B (zh) 一种智能检索方法及其系统
CN105488024B (zh) 网页主题句的抽取方法及装置
US8250046B2 (en) Cross-language search
US20190073357A1 (en) Hybrid classifier for assigning natural language processing (nlp) inputs to domains in real-time
US9710547B2 (en) Natural language semantic search system and method using weighted global semantic representations
US20170270159A1 (en) Determining query results in response to natural language queries
US8332396B1 (en) Resource geotopicality measures
CN103838735A (zh) 一种提高检索效率和质量的数据检索方法
US20190266286A1 (en) Method and system for a semantic search engine using an underlying knowledge base
CN101980196A (zh) 文章比对方法与装置
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN105956010B (zh) 基于分布式表征和局部排序的分布式信息检索集合选择方法
KR101707941B1 (ko) 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법, 판례검색장치 및 이를 위한 컴퓨터 판독가능 기록매체
KR20150054300A (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
Savelka et al. Discovering explanatory sentences in legal case decisions using pre-trained language models
CN111428031A (zh) 一种融合浅层语义信息的图模型过滤方法
Emu et al. An efficient approach for keyphrase extraction from english document
US20190012388A1 (en) Method and system for a semantic search engine using an underlying knowledge base
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
Juan An effective similarity measurement for FAQ question answering system
CN105786794A (zh) 一种问答对检索方法及社区问答检索系统
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
Chen et al. An educational resource retrieval mechanism based on Lucene and topic index

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant