CN103246681A - 一种搜索方法及装置 - Google Patents

一种搜索方法及装置 Download PDF

Info

Publication number
CN103246681A
CN103246681A CN2012100315233A CN201210031523A CN103246681A CN 103246681 A CN103246681 A CN 103246681A CN 2012100315233 A CN2012100315233 A CN 2012100315233A CN 201210031523 A CN201210031523 A CN 201210031523A CN 103246681 A CN103246681 A CN 103246681A
Authority
CN
China
Prior art keywords
searched
associated document
vectorial
correlation
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100315233A
Other languages
English (en)
Other versions
CN103246681B (zh
Inventor
路彦雄
杨月奎
王亮
焦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210031523.3A priority Critical patent/CN103246681B/zh
Priority to US14/347,776 priority patent/US9317590B2/en
Priority to PCT/CN2012/086025 priority patent/WO2013120373A1/zh
Publication of CN103246681A publication Critical patent/CN103246681A/zh
Application granted granted Critical
Publication of CN103246681B publication Critical patent/CN103246681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本发明实施例公开了一种搜索方法,包括:获取待搜索信息的所有关联文档;基于词匹配算法及语义匹配算法,计算每一个关联文档与所述待搜索信息的相关度;根据计算得到的相关度对所有关联文档进行排序处理,并显示排序结果。本发明实施例还公开了一种搜索装置。本发明综合考虑词与词的匹配,以及词与词之间的语义关系的匹配,获得准确的相关度计算结果,为用户提供理想的搜索结果,提高用户的满意度。

Description

一种搜索方法及装置
技术领域
本发明涉及计算机网络搜索技术领域,尤其涉及一种搜索方法及装置。
背景技术
目前,传统的搜索方案主要为:根据用户输入待搜索信息在网络中查找所有的关联文档,依据一定的算法规则计算每个关联文档与待搜索信息的关联程度,基于关联程度的高低对所有关联文档进行排序处理,将排序结果作为搜索结果返回给用户。上述可知,关联程度的高低直接影响关联文档的排序结果,直接影响用户的搜索结果,而关联程度的高低一般采用相关度评分直观反映。
传统的搜索方案中,通常采用词匹配算法进行相关度计算,例如采用BM25(Best Match,最佳匹配)算法、proximity(Term proximity scoring,词近邻得分)算法等等进行相关度评分,相关度评分越高,表明关联程度越强。以基于BM25算法的搜索方案进行说明,如下:假设用户输入的待搜索信息为“中国的首都”,根据BM25算法的相关度评分原则,关联文档中必须出现“中国”、“首都”,才能够获得相应的相关度评分,否则该关联文档的相关度评分则为0;例如:其中一个关联文档为:“北京,它是一座有着3000多年的建城史,850多年的建者史的历史文化名城;是全国政治、文化中心,也是全国最大的陆空产通枢纽”,根据上述传统的搜索方案,该关联文档的相关度评分为0,表明与待搜索信息不相关,然而,从语义关系来看,该关联文档与待搜索信息的相关性实际上是十分好的。经过排序处理后,该关联文档可能排列于较后的搜索结果页面中,不利于用户的查看。上述例子可知,传统的搜索方案仅仅基于词进行相关度的匹配,并未考虑词与词之间的语义关系,可能造成相关度计算结果的不准确,影响搜索结果的排列顺序,降低用户对搜索结果的满意度,降低用户的搜索体验。
发明内容
本发明实施例所要解决的技术问题在于,提供一种搜索方法及装置,能够获得更准确的搜索结果。
一方面,本发明实施例提供了一种搜索方法,包括:
获取待搜索信息的关联文档;
基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度;
根据计算得到的相关度对获取到的关联文档进行排序,并显示排序结果。
另一方面,本发明实施例还提供了一种搜索装置,包括:
搜索模块,用于获取待搜索信息的关联文档;
计算模块,用于基于词匹配算法及语义匹配算法,计算所述搜索模块获得的每一个关联文档与所述待搜索信息的相关度;
排序模块,用于根据所述计算模块计算得到的相关度对所述搜索模块获得的所有关联文档进行排序处理;
显示模块,用于显示所述排序模块获得的排序结果。
实施本发明实施例,具有如下有益效果:
本发明实施例结合词匹配算法及语义匹配算法,综合考虑词与词的匹配,以及词与词之间的语义关系的匹配,获得每一个关联文档与待搜索信息之间较为准确的相关度,基于该相关度进行排序并显示排序结果,可以为用户提供理想的搜索结果,使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己实际的搜索需求,提高了搜索效率,从而提高了用户的满意度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的搜索方法的一个实施例的流程图;
图2为图1所示步骤S102的具体流程图;
图3为本发明提供的IDF表的示意图;
图4为本发明提供的MI表的示意图;
图5为图1所示步骤S103的具体流程图;
图6为本发明提供的搜索装置的一个实施例的结构示意图;
图7为图6所示的计算模块的实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的方案中,搜索装置可以基于词匹配以及词与词之间的语义匹配算法,计算待搜索信息的所有关联文档的相关度,并根据该相关度进行排序和显示,使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己的搜索需求,提高搜索效率。
其中,所述待搜索信息可以为用户输入的搜索关键词句,其可以用query(查询)表示。所述关联文档可以为:基于用户输入的搜索关键词句,利用现有的网络搜索技术获得的搜索结果中包含的文档,其可以用document(文档)表示。
所述词匹配算法是指搜索过程基于词进行匹配,其可以为:BM25算法、proximity等算法,除特别说明外,本发明实施例以BM25算法为例进行说明。所述语义匹配算法是指搜索过程基于词与词之间的语义关系进行匹配,也即,搜索过程基于词与词之间的互信息进行匹配。所谓MI(Mutual Information,互信息),是对两个随机变量的关联程度的描述,在文本处理中,MI用来衡量两个词的相关度,两个词的MI越大,表示该两个词的关联程度越强。
下面将结合附图1-附图5,对本发明实施例提供的搜索方法进行详细介绍。
请参见图1,为本发明提供的搜索方法的一个实施例的流程图;该方法包括:
S101,获取待搜索信息的关联文档。本步骤可以参照现有技术,在此不赘述。
S102,基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度。
本步骤中,每一个关联文档与待搜索信息的相关度的评分可以由两部分组成,一部分是基于词匹配算法获得的关联评分,另一部分是基于语义匹配算法获得的关联评分。实际应用中,可以根据具体情况,预先设置两部分关联评分的权重,使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。
S103,根据计算得到的相关度对获取到的关联文档进行排序处理,并显示排序结果。
本步骤中,可以按照每个关联文档与待搜索信息的相关度评分由高至低的顺序,对搜索得到的所有关联文档进行排序和显示,使得显示在前的始终为与待搜索信息较相关的关联文档,从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己的搜索需求,提高搜索效率。可以理解的是,本步骤也可以采用其他顺序进行排序处理,例如按照相关度评分由低至高的顺序,或者设置一部分按照相关度评分由低至高的顺序,一部分按照相关度评分由高至低的顺序,等等。
请参见图2,为图1所示步骤S102的具体流程图;该步骤S102包括:
S211,对所述待搜索信息进行向量化处理,获得m个向量ti
本步骤中,对待搜索信息进行向量化处理,即是利用分词技术,对待搜索信息进行分词处理,将待搜索信息分割成m个词组成,可以表示为t1至tm,其中,m和i均为正整数,且1≤i≤m。
S212,对获取到的每一个关联文档进行向量化处理,获得每一个关联文档所对应的n个向量dj
本步骤中,对获取到的所有关联文档中的每一个文档进行向量化处理,即是利用分词技术,对每一个关联文档进行分词处理,将该关联文档分割成n个词组成,可以表示为d1至dn,其中,n和j均为正整数,且1≤j≤n。
需要说明的是,步骤S211与步骤S212在时序上不分先后,例如也可以先执行步骤S212,再执行步骤S211。步骤S211-步骤S212中的向量化处理过程可以参照现有技术,在此不赘述。
S213,基于词匹配算法,计算得到每一个关联文档与所述待搜索信息的关联评分S1
本步骤中,词匹配算法的公式可以为:
S 1 = Σ i = 1 m ( qtf i k 3 + qtf i ) × ( ( k 1 + 1 ) × tf i k × ( 1 - b + b l avdl ) + tf i ) log ( w i )
其中,参数k1、k3、k、b为调节因子,可以起到平滑数据的作用;具体实现中,参数k1、k3、k、b为常数,其具体取值可以根据实际情况或经验值由用户进行设定;
qtfi为第i个向量ti在所述待搜索信息中的词频,即向量ti在所述待搜索信息中出现的次数;
tfi为向量ti在所述关联文档中的词频,即向量ti在相应的关联文档中出现的次数;
l为所述关联文档的长度,根据步骤S212中的向量化处理结果,l的值为n;
avdl为所有关联文档的平均长度;
wi为向量ti的权重,wi一般为IDF(Inverse document frequency,逆文档频率)值,其可以通过以下公式计算得到,该计算公式如下:
w i = log H - htf i + 0.5 htf i + 0.5
其中,H为所有关联文档的个数,htfi为向量ti在获取到的所有关联文档中的词频。
本发明实施例中,在搜索过程执行之前,可以将网络中各个向量(词)的权重(IDF值)预先计算出来并进行存储,例如可以采用表的形式存储各向量的权重。请一并参见图3,为本发明提供的IDF表的示意图,图3所示例子中的IDF表中存储了各向量的权重,可以理解的是,图3所示例子的IDF表以及表中各项均为举例。
步骤S213中,可直接从预设的IDF表中读取到待搜索信息中的各向量的权重,并根据步骤S211和步骤S212所得到的数据,计算获得词匹配算法所需的各参数,代入上述词匹配算法的计算公式中计算,得到所述关联文档与所述待搜索信息的关联评分S1
S214,基于语义匹配算法,计算得到每一个关联文档与所述待搜索信息的关联评分S2
本步骤中,所述语义匹配算法的公式可以为:
S 2 = Σ i = 1 m Σ j n 1 k 3 + 1 × ( k 1 + 1 k × ( 1 - b + b l avdl ) ) mi ( t i , d j )
其中,参数k1、k3、k、b为调节因子,可以起到平滑数据的作用;具体实现中,参数k1、k3、k、b为常数,其具体取值可以根据实际情况或经验值由用户进行设定;
l为相应关联文档的长度,根据步骤S212中的向量化处理结果,l的值为n;
avdl为获取到的所有关联文档的平均长度;
mi(ti,dj)为向量ti与向量dj的互信息,实际应用中,向量ti与向量dj的互信息的计算公式可以为:
mi ( t i , d j ) = log p ( t i , d j ) p ( t i ) p ( d j )
其中,
Figure BDA0000135371750000062
c(ti,dj)表示在网络中,向量ti与向量dj同时出现在同一篇文档中的次数;
Figure BDA0000135371750000063
c(ti)表示在网络中,向量ti出现的次数;
Figure BDA0000135371750000064
c(dj)表示在网络中,向量dj出现的次数。
本发明实施例中,在搜索过程执行之前,可以将网络中各个向量(词)与各个向量之间的互信息预先计算出来并进行存储,例如可以采用表的形式存储各向量之间的互信息。请一并参见图4,为本发明提供的MI表的示意图;图4所示例子中的MI表中存储了各向量之间的互信息,可以理解的是,图4所示例子的MI表以及表中各项均为举例。
步骤S214中,可直接从预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息,并根据步骤S211和步骤S212所得到的数据,计算获得语义匹配算法所需的各参数,代入上述语义匹配算法的计算公式中计算,得到所述关联文档与所述待搜索信息的关联评分S2
需要说明的是,步骤S213与步骤S214在时序上不分先后,例如也可以先执行步骤S214,再执行步骤S213。
S215,根据公式S=α×S1+(1-α)×S2,计算得到每一个关联文档与所述待搜索信息的相关度S。
其中,α为预设的权重,且0<α<1。实际应用中,可以根据具体情况设置α的值,使得加权后的S1和S2所组成的相关度评分S更能准确体现该关联文档与待搜索信息的关联程度。需要说明的是,S的值越大,表明该关联文档与所述待搜索信息的关联程度越强。
请参见图5,为图1所示步骤S103的具体流程图;该步骤S103包括:
S311,根据每一个关联文档与所述待搜索信息的相关度,按照相关度从高至低的顺序对所有关联文档进行排序。
S312,显示排序后的所有关联文档。
经步骤S311排序处理之后,各关联文档按照相关度由高至低的顺序进行排列,步骤S312则显示按照相关度由高至低的顺序排列的关联文档,使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己的搜索需求,提高搜索效率。
下面将结合一个具体示例,详细阐述上述图1-图5所示例子中的搜索方法。
假设用户想要查询关于XX牌手机的一些资讯介绍,可以在搜索引擎中输入的待搜索信息为:“XX牌手机性价比”;经步骤S101搜索后,总共获得三个关联文档,包括:
关联文档1:XX牌的手机性价比都很不错的,而且XX牌手机很耐用的;
关联文档2:我是XX牌手机的忠实玩友,喜欢玩XX牌手机,刷机呀,下载程序呀,游戏呀各方面,觉得XX牌手机的各种软件都比较多比较全,所以一直玩到现在;
关联文档3:符合你要求的机型非常多,给你几个参考:1、直板商务新机A,2.4寸全键盘,金属机身,500万像素,带WIFI,全面支持导航系统;2、全触摸娱乐街机B,3.2的1600万色屏,支持WIFI,320万像素,支持导航系统且带车载架;3、传统直板机C,功能同B,但更薄、轻,2.2寸屏,500万像素。
步骤S211对待搜索信息进行向量化处理,得到获得m个向量ti,具体如下:XX牌\手机\性价比。其中,m=3,t1为“XX牌”,t2为“手机”,t3为“性价比”。
步骤S212对任一个关联文档进行向量化处理,以关联文档1为例,经步骤S212的向量化处理后,获得n个向量dj,具体如下:XX牌\的\手机\性价比\都\很\不错\的\,\而且\XX牌\手机\很\耐用\的。其中,n=15,d1为“XX牌”,d2为“的”,d3为“手机”,d4为“性价比”,d5为“都”,d6为“很”,d7为“不错”,d8为“的”,d9为“,”,d10为“而且”,d11为“XX牌”,d12为“手机”,d13为“很”,d14为“耐用”,d15为“的”。
步骤S213中,可分别统计出向量ti在所述待搜索信息中的词频qtfi分别为:t1为1,t2为1,t3为1。向量ti在所述关联文档中的词频tfi分别为:t1为2,t2为2,t3为1。l为关联文档1的长度15。avdl为三个关联文档的平均长度。可以从图3所示的预设的IDF表中读取待搜索信息中的各向量的权重分别为:w1为8.435292,w2为5.256969,w3为8.952069。基于词匹配算法的计算公式,计算得到所述关联文档与所述待搜索信息的关联评分S1
步骤S214中,可以从图4所示的预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息。基于语义匹配算法的计算公式,计算得到所述关联文档与所述待搜索信息的关联评分S2
步骤S215中,可以根据实际需要设定α为,例如α为0.4,从而利用α对S1和S2加权求和,计算得到关联文档1与所述待搜索信息的相关度S为1.759。
重复上述步骤S211-步骤S215,分别获得关联文档2与所述待搜索信息的相关度S为4.509;关联文档3与所述待搜索信息的相关度S为10.403。
步骤S311按照相关度由高至低的顺序对关联文档1-3进行排序,形成“关联文档3-关联文档2-关联文档1”的排列。步骤S312向用户显示步骤S311所获得的排列。
经过上述各步骤的处理,用户可以从显示的搜索结果中最首位获得最相关的关联文档3,无需再进行查找即可满足自己的实际的搜索需求,提高了搜索效率。
本发明实施例结合词匹配算法及语义匹配算法,综合考虑词与词的匹配,以及词与词之间的语义关系的匹配,获得每一个关联文档与待搜索信息之间较为准确的相关度,基于该相关度进行排序并显示排序结果,可以为用户提供理想的搜索结果,使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己实际的搜索需求,提高了搜索效率,从而提高了用户的满意度。
对应于上述附图1-附图5任一实施例所述的搜索方法,下面将结合附图6-附图7,对本发明实施例提供的搜索装置进行详细介绍,下述实施例的装置可以应用于上述方法实施例中。
请参见图6,为本发明提供的搜索装置的一个实施例的结构示意图;该装置包括:
搜索模块101,用于获取待搜索信息的关联文档。搜索模块101的具体搜索过程可以参照现有技术,在此不赘述。
计算模块102,用于基于词匹配算法及语义匹配算法,计算所述搜索模块101获得的每一个关联文档与所述待搜索信息的相关度。
本实施例中,每一个关联文档与待搜索信息的相关度的评分可以由两部分组成,一部分是基于词匹配算法获得的关联评分,另一部分是基于语义匹配算法获得的关联评分。实际应用中,可以根据具体情况,预先设置两部分关联评分的权重,使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。
排序模块103,用于根据所述计算模块102计算得到的相关度对所述搜索模块获得的关联文档进行排序。
排序模块103可以按照计算模块102计算获得的每个关联文档与待搜索信息的相关度评分由高至低的顺序,对搜索得到的所有关联文档进行排序,也可以采用其他顺序进行排序处理,例如按照相关度评分由低至高的顺序,或者设置一部分按照相关度评分由低至高的顺序,一部分按照相关度评分由高至低的顺序,等等。
显示模块104,用于显示所述排序模块103获得的排序结果。
显示模块104按照排序模块103获得的排序结果进行显示,使得显示在前的始终为与待搜索信息较相关的关联文档,从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己的搜索需求,提高搜索效率。
请参见图7,为图6所示的计算模块的实施例的结构示意图,该计算模块102包括:
第一向量化处理单元211,用于对所述待搜索信息进行向量化处理,获得m个向量ti
第一向量化处理单元211对待搜索信息进行向量化处理,即是利用分词技术,对待搜索信息进行分词处理,将待搜索信息分割成m个词组成,可以表示为t1至tm,其中,m和i均为正整数,且1≤i≤m。第一向量化处理单元211的具体处理过程可以参照现有技术,在此不赘述。
第二向量化处理单元212,用于对所述搜索模块获得的每一个关联文档进行向量化处理,获得每一个关联文档所对应的n个向量dj
第二向量化处理单元212对关联文档进行向量化处理,即是利用分词技术,对关联文档进行分词处理,将该关联文档分割成n个词组成,可以表示为d1至dn,其中,n和j均为正整数,且1≤j≤n。第二向量化处理单元212的具体处理过程可以参照现有技术,在此不赘述。
词匹配计算单元213,用于基于词匹配算法,计算得到所述第二向量化处理单元212处理后的关联文档与所述待搜索信息的关联评分S1
词匹配计算单元213可直接从图3所示例子中的预设的IDF表中读取到待搜索信息中的各向量的权重,并根据第一向量化处理单元211和第二向量化处理单元212所得到的数据,计算获得词匹配算法所需的各参数,基于词匹配算法的计算公式,计算得到所述关联文档与所述待搜索信息的关联评分S1
语义匹配计算单元214,用于基于语义匹配算法,计算得到所述第二向量化处理单元212处理后的关联文档与所述待搜索信息的关联评分S2
语义匹配计算单元214可直接从图4所示例子中的预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息,并根据第一向量化处理单元211和第二向量化处理单元212所得到的数据,计算获得语义匹配算法所需的各参数,基于语义匹配算法的计算公式,计算得到所述关联文档与所述待搜索信息的关联评分S2
相关度计算单元215,用于根据公式S=α×S1+(1-α)×S2,计算得到所述关联文档与所述待搜索信息的相关度S,其中,α为预设的权重,且0<α<1。
其中,α为预设的权重,且0<α<1。实际应用中,可以根据具体情况设置α的值,使得加权后的S1和S2所组成的相关度评分S更能准确体现该关联文档与待搜索信息的关联程度。需要说明的是,S的值越大,表明该关联文档与所述待搜索信息的关联程度越强。
可以理解的是,第二向量化处理单元212、词匹配计算单元213、语义匹配计算单元214以及相关度计算单元215可能需要重复工作,直至获得所有关联文档与待搜索信息的相关度为止。之后,所述排序模块103可以根据每个关联文档与所述待搜索信息的相关度,按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序;所述显示模块104则显示所述排序模块103排序处理后的所有关联文档。
需要说明的是,本发明实施例所述的搜索装置可以为:搜索引擎、浏览器以及具备搜索功能的终端。
通过上述实施例的描述,本发明实施例结合词匹配算法及语义匹配算法,综合考虑词与词的匹配,以及词与词之间的语义关系的匹配,获得每一个关联文档与待搜索信息之间较为准确的相关度,基于该相关度进行排序并显示排序结果,可以为用户提供理想的搜索结果,使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档,满足自己实际的搜索需求,提高了搜索效率,从而提高了用户的满意度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (11)

1.一种搜索方法,其特征在于,包括:
获取待搜索信息的关联文档;
基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度;
根据计算得到的相关度对获取到的关联文档进行排序,并显示排序结果。
2.如权利要求1所述的方法,其特征在于,所述基于词匹配算法及语义匹配算法,计算获取到的每一个关联文档与所述待搜索信息的相关度,包括:
对所述待搜索信息进行向量化处理,获得m个向量ti,其中,m和i均为正整数,且1≤i≤m;
对获取到的每一个关联文档进行向量化处理,获得每一个关联文档所对应的n个向量dj,其中,n和j均为正整数,且1≤j≤n;
基于词匹配算法,计算得到每一个关联文档与所述待搜索信息的关联评分S1,基于语义匹配算法,计算得到每一个关联文档与所述待搜索信息的关联评分S2
根据公式S=α×S1+(1-α)×S2,计算得到每一个关联文档与所述待搜索信息的相关度S,其中,α为预设的权重,且0<α<1。
3.如权利要求2所述的方法,其特征在于:所述词匹配算法的公式为:
S 1 = Σ i = 1 m ( qtf i k 3 + qtf i ) × ( ( k 1 + 1 ) × tf i k × ( 1 - b + b l avdl ) + tf i ) log ( w i )
其中,k1、k3、k、b为常数;qtfi为第i个向量ti在所述待搜索信息中的词频;tfi为向量ti在相应的关联文档中的词频;l为该相应关联文档的长度,avdl为获取到的所有关联文档的平均长度;wi为向量ti的权重。
4.如权利要求3所述的方法,其特征在于,向量ti的权重的计算公式如下:
w i = log H - htf i + 0.5 htf i + 0.5
其中,H为获取到的所有关联文档的个数,htfi为向量fi在所有关联文档中的词频。
5.如权利要求2所述的方法,其特征在于:所述语义匹配算法的公式为:
S 2 = Σ i = 1 m Σ j n 1 k 3 + 1 × ( k 1 + 1 k × ( 1 - b + b l avdl ) ) mi ( t i , d j )
其中,k1、k3、k、b为常数;l为相应关联文档的长度,avdl为获取到的所有关联文档的平均长度;mi(ti,dj)为向量ti与向量dj的互信息。
6.如权利要求5所述的方法,其特征在于,向量ti与向量dj的互信息的计算公式如下:
mi ( t i , d j ) = log p ( t i , d j ) p ( t i ) p ( d j )
其中,
Figure FDA0000135371740000023
c(ti,dj)表示在网络中,向量ti与向量dj同时出现在同一篇文档中的次数;
Figure FDA0000135371740000024
c(ti)表示在网络中,向量ti出现的次数;
Figure FDA0000135371740000025
c(dj)表示在网络中,向量dj出现的次数。
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据计算得到的相关度对获取到的关联文档进行排序,并显示排序结果,包括:
根据每一个关联文档与所述待搜索信息的相关度,按照相关度从高至低的顺序对所有关联文档进行排序;
显示排序后的所有关联文档。
8.一种搜索装置,其特征在于,包括:
搜索模块,用于获取待搜索信息的关联文档;
计算模块,用于基于词匹配算法及语义匹配算法,计算所述搜索模块获得的每一个关联文档与所述待搜索信息的相关度;
排序模块,用于根据所述计算模块计算得到的相关度对所述搜索模块获得的关联文档进行排序;
显示模块,用于显示所述排序模块获得的排序结果。
9.如权利要求8所述的装置,其特征在于,所述计算模块包括:
第一向量化处理单元,用于对所述待搜索信息进行向量化处理,获得m个向量ti,其中,m和i均为正整数,且1≤i≤m;
第二向量化处理单元,用于对所述搜索模块获得的每一个关联文档进行向量化处理,获得每一个关联文档所对应的n个向量dj,其中,n和j均为正整数,且1≤j≤n;
词匹配计算单元,用于基于词匹配算法,计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分S1
语义匹配计算单元,用于基于语义匹配算法,计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分S2
相关度计算单元,用于根据公式S=α×S1(1-α)×S2,计算得到所述关联文档与所述待搜索信息的相关度S,其中,α为预设的权重,且0<α<1。
10.如权利要求9所述的装置,其特征在于,所述词匹配算法的公式为:
S 1 = Σ i = 1 m ( qtf i k 3 + qtf i ) × ( ( k 1 + 1 ) × tf i k × ( 1 - b + b l avdl ) + tf i ) log ( w i )
所述语义匹配算法的公式为:
S 2 = Σ i = 1 m Σ j n 1 k 3 + 1 × ( k 1 + 1 k × ( 1 - b + b l avdl ) ) mi ( t i , d j )
其中,k1、k3、k、b为常数;qtfi为第i个向量ti在所述待搜索信息中的词频;tfi为向量ti在相应的关联文档中的词频;l为该相应关联文档的长度,avdl为所述搜索模块获得的所有关联文档的平均长度;wi为向量ti的权重;mi(ti,dj)为向量ti与向量dj的互信息。
11.如权利要求8-10任一项所述的装置,其特征在于,
所述排序模块根据每个关联文档与所述待搜索信息的相关度,按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序;
所述显示模块显示所述排序模块排序后的所有关联文档。
CN201210031523.3A 2012-02-13 2012-02-13 一种搜索方法及装置 Active CN103246681B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210031523.3A CN103246681B (zh) 2012-02-13 2012-02-13 一种搜索方法及装置
US14/347,776 US9317590B2 (en) 2012-02-13 2012-12-06 Search method, search device and storage medium
PCT/CN2012/086025 WO2013120373A1 (zh) 2012-02-13 2012-12-06 搜索方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210031523.3A CN103246681B (zh) 2012-02-13 2012-02-13 一种搜索方法及装置

Publications (2)

Publication Number Publication Date
CN103246681A true CN103246681A (zh) 2013-08-14
CN103246681B CN103246681B (zh) 2018-10-26

Family

ID=48926205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210031523.3A Active CN103246681B (zh) 2012-02-13 2012-02-13 一种搜索方法及装置

Country Status (3)

Country Link
US (1) US9317590B2 (zh)
CN (1) CN103246681B (zh)
WO (1) WO2013120373A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699662A (zh) * 2013-12-27 2014-04-02 贝壳网际(北京)安全技术有限公司 一种通知栏消息展现方法及装置
CN105653703A (zh) * 2015-12-31 2016-06-08 武汉传神信息技术有限公司 一种文档检索匹配方法
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN107798637A (zh) * 2016-08-30 2018-03-13 北京国双科技有限公司 同案异判文书的获取方法及装置
CN107923967A (zh) * 2015-08-12 2018-04-17 Trw有限公司 处理从目标反射的接收辐射
CN108415903A (zh) * 2018-03-12 2018-08-17 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN109388786A (zh) * 2018-09-30 2019-02-26 武汉斗鱼网络科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN109977292A (zh) * 2019-03-21 2019-07-05 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
CN110162590A (zh) * 2019-02-22 2019-08-23 北京捷风数据技术有限公司 一种工程招标文本结合经济要素的数据库显示方法及其装置
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984031B2 (en) * 2015-10-26 2018-05-29 International Business Machines Corporation Adapter selection based on a queue time factor
CN110362813B (zh) * 2018-04-09 2023-12-05 乐万家财富(北京)科技有限公司 基于bm25的搜索相关性度量方法、存储介质、设备及系统
CN109408616A (zh) * 2018-10-10 2019-03-01 中南民族大学 内容相似性短文本查询方法、设备、系统及存储介质
CN113361248B (zh) * 2021-06-30 2022-08-12 平安普惠企业管理有限公司 一种文本的相似度计算的方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
US20110087701A1 (en) * 2009-10-09 2011-04-14 International Business Machines Corporation System, method, and apparatus for pairing a short document to another short document from a plurality of short documents
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589050B2 (en) * 2014-04-07 2017-03-07 International Business Machines Corporation Semantic context based keyword search techniques

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
US20110087701A1 (en) * 2009-10-09 2011-04-14 International Business Machines Corporation System, method, and apparatus for pairing a short document to another short document from a plurality of short documents
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PABLO CASTELLS 等: "An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699662A (zh) * 2013-12-27 2014-04-02 贝壳网际(北京)安全技术有限公司 一种通知栏消息展现方法及装置
CN107923967A (zh) * 2015-08-12 2018-04-17 Trw有限公司 处理从目标反射的接收辐射
CN107923967B (zh) * 2015-08-12 2021-11-16 Trw有限公司 处理从目标反射的接收辐射
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN106815252B (zh) * 2015-12-01 2020-08-25 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN105653703A (zh) * 2015-12-31 2016-06-08 武汉传神信息技术有限公司 一种文档检索匹配方法
CN107341152B (zh) * 2016-04-28 2020-05-08 创新先进技术有限公司 一种参数输入的方法及装置
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN107798637A (zh) * 2016-08-30 2018-03-13 北京国双科技有限公司 同案异判文书的获取方法及装置
CN108415903A (zh) * 2018-03-12 2018-08-17 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN109388786B (zh) * 2018-09-30 2024-01-23 广州财盟科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN109388786A (zh) * 2018-09-30 2019-02-26 武汉斗鱼网络科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN110162590A (zh) * 2019-02-22 2019-08-23 北京捷风数据技术有限公司 一种工程招标文本结合经济要素的数据库显示方法及其装置
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置
CN109977292B (zh) * 2019-03-21 2022-12-27 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
CN109977292A (zh) * 2019-03-21 2019-07-05 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN103246681B (zh) 2018-10-26
US20140358914A1 (en) 2014-12-04
WO2013120373A1 (zh) 2013-08-22
US9317590B2 (en) 2016-04-19

Similar Documents

Publication Publication Date Title
CN103246681A (zh) 一种搜索方法及装置
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
CN107247745B (zh) 一种基于伪相关反馈模型的信息检索方法及系统
JP5540080B2 (ja) 検索結果を生成する方法および情報検索のためのシステム
US9589277B2 (en) Search service advertisement selection
CN106022869A (zh) 一种消费对象的推荐方法及装置
CN103064945A (zh) 基于本体的情境搜索方法
CN107273519A (zh) 数据分析方法、装置、终端及存储介质
CN105787068A (zh) 基于引用网络及用户熟练度分析的学术推荐方法及系统
CN106156135A (zh) 查询数据的方法及装置
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN103164408A (zh) 基于垂直搜索引擎的信息存储、查询方法及其装置
CN102945273B (zh) 一种用于提供搜索结果的方法和设备
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN110737756B (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
CN103902549A (zh) 搜索数据排序的方法和装置,数据搜索的方法和装置
CN104077327B (zh) 核心词重要性识别方法和设备及搜索结果排序方法和设备
CN107305559A (zh) 一种应用推荐方法和装置
CN109544394A (zh) 一种旅游地评估方法和计算设备
CN108563794A (zh) 基于高阶奇异值分解的上下文推荐方法及装置
CN111563207A (zh) 一种搜索结果的排序方法、装置、存储介质及计算机设备
Xu et al. A novel travel group recommendation model based on user trust and social influence
JP2013200862A (ja) クエリ結果を多様化するための方法および装置
CN111353793A (zh) Crm业务推荐方法及装置
CN109492142A (zh) 适用于关注对象的影响力检测方法、电子终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131030

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131030

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant