CN106021346A - 检索处理方法及装置 - Google Patents

检索处理方法及装置 Download PDF

Info

Publication number
CN106021346A
CN106021346A CN201610302396.4A CN201610302396A CN106021346A CN 106021346 A CN106021346 A CN 106021346A CN 201610302396 A CN201610302396 A CN 201610302396A CN 106021346 A CN106021346 A CN 106021346A
Authority
CN
China
Prior art keywords
participle
web page
query statement
vector
page title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610302396.4A
Other languages
English (en)
Other versions
CN106021346B (zh
Inventor
吴文权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610302396.4A priority Critical patent/CN106021346B/zh
Publication of CN106021346A publication Critical patent/CN106021346A/zh
Application granted granted Critical
Publication of CN106021346B publication Critical patent/CN106021346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种检索处理方法及装置,其中,该方法包括:接收用户输入的查询语句,根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题,依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。

Description

检索处理方法及装置
技术领域
本申请涉及信息检索技术领域,尤其涉及一种检索处理方法及装置。
背景技术
随着互联网的普及,互联网上的信息也越来越丰富,现在人们通过搜索引擎可以便捷的获取自己想要的信息。
现有的搜索引擎,在收到用户输入的查询语句(query)后,首先根据query从数据库中检索获得对应的查询结果,然后根据排序策略,对获得的title进行排序,再将排名靠前的一定数量的结果推送给用户,比如根据query与title包含相同文字的数量,确定title的显示的优先级。
这种检索方式,获取的搜索结果往往与用户期望的不匹配,影响了搜索的准确性,降低了用户体验。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种检索处理方法,该方法实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
本申请的第二个目的在于提出一种检索处理装置。
为达上述目的,本申请第一方面实施例提出了一种检索处理方法,包括:
接收用户输入的查询语句;根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题;依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的分词结构与所述网页标题的分词结构的相似度;根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
本申请实施例的检索处理方法,首先接收用户输入的查询语句,再根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题,然后依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,再根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
为达上述目的,本申请第二方面实施例提出了一种检索处理装置,包括:
接收模块,用于接收用户输入的查询语句;
获取模块,用于根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题;
第一确定模块,用于依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的分词结构与所述网页标题的分词结构的相似度;
第二确定模块,用于根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
本申请实施例的检索处理装置,首先接收用户输入的查询语句,再根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题,然后依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,再根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的检索处理方法的流程示意图;
图2是本申请另一个实施例的检索处理方法的流程示意图;
图3是本申请又一个实施例的检索处理方法的流程示意图;
图4是本申请的检索处理方法的原理示意图;
图5是本申请一个实施例的检索处理装置的结构示意图;
图6是本申请另一个实施例的检索处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的检索处理方法及装置。
图1是本申请一个实施例的检索处理方法的流程示意图。
如图1所示,该检索处理方法包括:
步骤101,接收用户输入的查询语句。
具体地,本发明实施例提供的检索处理方法的执行主体为检索处理装置,该检索处理装置可以被配置在任何搜索引擎中,用于对搜索结果进行优化处理。其中,搜索引擎可以应用于任何具有检索功能的终端设备中。其中,终端设备的类型很多,例如:智能手机、平板电脑,计算机等。
其中,用户输入的查询语句可以是一句话,或几个词组或者一段语音等,本实施例对此不做限定。
步骤102,根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题。
具体地,检索处理装置在接收到用户输入的查询语句后,即可根据查询语句从搜索库中获取对应的查询结果。
其中,查询结果通常包含多条网页信息,每条网页信息包括网页标题(title)、摘要(网页正文的摘要)和网页地址(url)。
步骤103,依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的分词结构与所述网页标题的分词结构的相似度。
其中,第一紧密度值为大于或等于零,且小于或等于1的正数。
查询语句的分词结构,是指查询语句中包括的分词及分词之间的排序及构成。相应的,网页标题的分词结构,指网页标题包括的分词及分词之间的排序及构成。
举例来说,若查询语句为“哥哥结婚,妹妹送礼”,获取到的网页标题包括:“哥哥送礼,妹妹结婚”、“哥哥结婚,姐姐送礼”等。通过比较可知,查询语句包括四个词“哥哥”、“结婚”、“妹妹”、“送礼”,而两个网页标题也分别包括四个分词,其中,第一个网页标题包括的四个分词与查询语句完全相同,而第二个网页标题包括的四个分词中,有一个分词“姐姐”并未在查询语句中出现,而查询语句中出现的分词“妹妹”并未在该网页标题中出现。
若仅按网页标题与查询语句中相同词的个数,那么第一个网页标题应该是最相似的,但是通过第一个网页标题的意思,即可看出,其与查询语句的意思并不相同,而第二个查询语句中,词组“哥哥结婚”与查询语句中词组完全相同,仅将“妹妹送礼”变成了“姐姐送礼”,因此按分词结构的相关度来分,则第二个网页标题与查询语句的相关度,比第一网页标题与查询语句的相关度高。
步骤104,根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
具体的,通常用户输入的查询语句中,分词之间的结构才能反映用户真正的检索意图。因此,本实施例中,检索处理装置在确定查询结果中各个网页标题的分词结构与查询语句的分词结构的相似度,即第一紧密度值后,即可根据第一紧密度值确定各个网页标题对应的网页信息的显示优先级。
举例来说,若根据查询语句获取到两个网页标题,根据预设的规则,确定第一个网页标题与查询语句的第一紧密度值为0.5,而第二个网页标题与查询语句的第二紧密度值为0.7,则可确定第二个网页标题对应的网页信息的显示优先级高于第一个网页标题对应的网页信息。
本申请实施例的检索处理方法,首先接收用户输入的查询语句,再根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题,然后依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,再根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
通过上述分析可知,检索处理装置,可以根据查询结果中网页标题与查询语句的紧密度,确定各网页标题对应的网页信息的显示优先级。其中,检索处理装置,可以根据查询语句与网页标题中分词间的顺序或结构,来确定查询语句与网页标题间的第一紧密度值,或者还可以采用图2所示的方法,确定查询语句与网页标题间的第一紧密度值。
图2是本申请另一个实施例的检索处理方法的流程示意图。
如图2所示,该检索处理方法可以包括以下步骤:
步骤201,接收用户输入的查询语句。
步骤202,根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题。
步骤203,确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,其中,每组初始向量中均包括:由所述查询语句对应的第一向量和一个网页标题对应的第二向量。
其中,检索处理装置,可以采用多种方式确定查询语句或网页标题对应的向量。
比如方式一:
根据查询语句和网页标题中分词确定查询语句或网页标题对应的向量。
首先设定一固定向量模型,比如H=[i,j,k,l,m,n],且不同的分词分别映射不同的维度的向量值,比如“人民银行利率调整”的查询语句中,“人民”映射i维度,其向量值为1,“银行”映射l维度,其向量值为0.3,“利率”映射j维度,其向量值为0.6,“调整”映射n维度,其向量值为0.7。
则检索处理装置,在收到查询语句后,即可根据查询语句中各分词分别映射的不同维度的向量值,确定查询语句对应的第一向量H=[1,0.6,0,0.3,0,0.7]。同样的,还可以确定获取的网页标题分别对应的第二向量。
方式二:
首先设定一固定向量模型,比如H=[i,j,k,l,m,n],且不同的分词和分词间的紧密度值,分别映射不同的维度的向量值,根据查询语句和网页标题中的分词及分词间的紧密度值确定查询语句和网页标题分别对应的向量。
检索处理装置,在确定查询语句的相邻分词间的紧密度值后,即可根据紧密度值确定对应的向量元素值,举例来说,若“人民银行”映射向量k,其对应的值为0.7,“利率调整”映射向量m,其对应的值大小为0.8,则最终确定的查询语句对应的第一向量为H=[1,0.6,0.7,0.3,0.8,0.7]。
需要说明的是,上述向量H仅是示例性说明。实际的向量H包含的元素数量,可以根据用户通常的检索语句中包含的分词数量,及可能存在的紧密度的分词组数量确定,本实施例对词不做限定。
步骤204,采用预设的运算法则,对所述至少两组向量进行运算处理,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值。
具体的,检索处理装置,在确定了查询语句对应的第一向量和网页标题对应的第二向量后,即可对第一向量和第二向量进行预设的运算,从而确定两个向量间的距离,由此,确定两个向量所对应的查询语句和网页标题间的紧密度。
其中,预设的运算法则,可以为以下运算法则中的任意一种:余弦运算、正弦运算、正切运算、余切运算。
需要说明的是,通过对两个向量进行运算,是为了确定两个向量间的距离,一切可以反映两个向量间距离的运算法则,都可以用来对获取的第一向量和第二向量进行运算。
步骤205,根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
本实施例提供的的检索处理方法,首先接收用户输入的查询语句,然后根据查询语句获取对应的查询结果,再确定由查询语句与查询结果中的网页标题组成的初始向量,然后采用预设的运算法则,对初始向量进行运算,确定查询语句与网页标题间的第一紧密度值,进而根据第一紧密度值,确定查询结果中各网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
为了更加清楚的说明本申请提供的检索处理方法的实施过程,通过以下实施例进行详细说明。
图3是本申请又一个实施例的检索处理方法的流程示意图。
如图3所示,该方法包括:
步骤301,接收用户输入的查询语句。
步骤302,根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题。
步骤303,确定所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值。
需要说明的是,上述步骤302和步骤303之间,并无固定的先后顺序,可以先执行步骤303再执行步骤302,也可以二者同时进行。
步骤304,确定所述至少两个网页标题包括的各第二分词,及各相邻第二分词间的第三紧密度值。
具体的,检索处理装置在收到用户输入的查询语句后,可首先采用切词技术,将查询语句分成数个有独立词义的分词,然后再判断各个相邻分词之间的紧密度。
其中,分词间紧密度是指两个相邻分词间的紧密程度。举例来说,“哥哥结婚,妹妹送礼”的查询语句中,“哥哥”和“结婚”之间的紧密度与“结婚”和“妹妹”之间的紧密度相比,“哥哥”和“结婚”之间的紧密度要高,比如,“哥哥”和“结婚”间的第二紧密度值为0.7,而“结婚”和“妹妹”之间的紧密度值可能为0.2。又如“人民银行利率”的查询语句中,分词“人民”和“银行”之间有比较强的相关性,因此紧密度值较大,比如为0.8,而“银行”和“利率”之间也有比较强的相关性,因此紧密度值也较大,比如为0.85等等。
可以理解的是,查询语句中,分词间的紧密度,不仅与分词有关,还与分词在查询语句中的先后顺序有关。
具体的,检索处理装置,在确定分词之间的紧密度值时,可以是根据分词的属性、顺序等确定。比如,可以预先设定名词与动词的紧密度值、动词与名词的紧密度值、数词与量词的紧密度值等等。检索处理装置即可根据设定的值,确定相邻第一分词间的第二紧密度值;或者,检索处理装置还可以预设各个分词与紧密度的映射关系表,从而在确定分词后,直接从预设的映射关系表中,查找各相邻分词对应的紧密度值。本实施例对词不做限定。
进而采用与上述相同的方法,即可确定查询结果中各个网页标题包括的分词,及分词间的第三紧密度值。
步骤305,根据所述各相邻第一分词间的第二紧密度值的大小,确定第一目标词组。
具体的,可以预设一个参考阈值,第二紧密度大于参考阈值的相邻第一分词都可以确定为第一目标词组。
举例来说,若参考阈值为0.5,则相邻的第一分词间的第二紧密度大于0.5的都可以确定为目标词组。
步骤306,根据分词、词组与向量间的映射关系,确定所述各第一分词和第一目标词组对应的各第一子向量。
其中,分词、词组与向量间的映射关系,是指将分词或词组,用向量表示。该向量可以包含多个元素,用于表征对应的分词或者词组的含义、属性或构成等。向量间距离越小,说明两个向量对应的分词或者词组的相似程度越高,即紧密度越高。
步骤307,根据所述各相邻第二分词间的第三紧密度值的大小,分别确定所述至少两个网页标题分别对应的第二目标词组。
步骤308,根据分词、词组与向量间的映射关系,确定所述各第二分词和第二目标词组对应的各第二子向量。
步骤309,将所述各第一子向量按位求和,得到所述查询语句对应的第一初始向量。
步骤310,将所述各第二子向量按位求和,得到所述至少两个网页标题分别对应的至少两个第二初始向量。
举例来说,若查询语句为“人民银行利率调整”,预设的参考阈值为0.6,对查询语句进行分词后得到的分词包括:“人民”、“银行”、“利率”和“调整”,其中,“人民”和“银行”之间的第二紧密度值为0.5,“银行”和“利率”之间的第二紧密度值为0.7,“利率”和“调整”之间的第二紧密度值为0.7,则可以确定第一目标词组为“银行利率”和“利率调整”。而根据分词和词组与向量的映射关系,可以确定:“人民”对应的第一子向量为A1=[0.1、0.06、0.4、0.03],“银行”对应的第一子向量为A2=[0.3、0.5、0.7、0.4],“利率”对应的第一子向量为A3=[0.2、0.2、0.1、0.6],“调整”对应的第一子向量为A4=[0.15、0.2、0.04、0.1],“银行利率”对应的第一子向量为A5=[0.05、0.04、0.5、0.4],“利率调整”对应的第一子向量为A6=[0.1、0.6、0.03、0.41]。
之后将上述6个第一子向量按位求和后,即可确定“人民银行利率调整”对应的第一初始向量为:A=[0.9、1.6、1.77、1.94]。
同样的方法,还可以确定查询结果中各个网页标题对应的第二初始向量。
需要说明的是,上述分词或词组对应的子向量仅是示意性说明,子向量包含的元素的数量可以根据能讲一个分词或词组包含的语义、属性或结构等表达清楚设置。比如为4个、5个、8个或10个等等,本实施例对此不做限定。
步骤311,确定所述第一初始向量中的各元素对应的各变换值。
步骤312,根据所述各变换值,对所述第一初始向量进行变换处理,得到第一变换向量。
具体的,将第一初始向量进行变换处理的方式可以由很多种,比如将第一初始向量中各元素分别乘以其对应的变换值,得到第一变换向量;或者将第一初始向量中各元素分别与其对应的变换值做合,得到第一变换向量等等;或者,还可以根据ai=Σbi×cij,确定所述第一变换向量。
其中,ai为第一变换向量中的第i个元素,bj为第一初始向量中的第j个元素,cij为第bj个元素变换到第ai个元素时对应的变换值,i和j均为大于等于1且小于等于n的正整数,n为第一初始向量和第一变换向量均包括的元素数量。
举例来说,若n=4,则第一初始向量与第一变换向量间的对应关系可以如下表1所示的形式。其中,该表格的每一列代表一个初始向量的元素,每一行代表一个变换向量元素,那么每个由列和行组成的每个单元格中,即为每个初始向量中的元素在转换为该对应的转换向量中的元素时,需要乘以的变换值。
其中,上述各元素对应的变换值,可以是检索处理装置根据大量的数据训练得到的。从而使得根据该变换值变换后的向量更能准确的表达查询语句或者网页标题。
另外,可以理解的是,为了使得最终的变换向量更能准确表达查询语句或者网页标题,除了对第一初始向量或第二初始向量进行上述变换外,还可以将变换后的向量再经过一次非线性变换,比如进行拉普拉斯变换,或者拉格朗日变换等,从而将最终得到的变换向量,确定为查询语句和网页标题对应的向量。
步骤313,确定所述第二初始向量中的各元素对应的各变换值。
步骤314,根据所述各变换值,对所述第二初始向量进行变换处理,得到第二变换向量。
具体的,采用与上述同样的方法,即可确定查询结果中的各网页标题对应的第二变换向量。
步骤315,采用预设的运算法则,对至少两组变换向量进行运算处理,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值。
为了更加清楚的说明本申请提供的检索处理方法的实施过程,通过以下实施例进行详细说明。
图4是检索处理方法的原理示意图。如图4所示,检索处理装置,在收到查询语句,并根据查询语句从信息库获取查询结果后,即可对查询语句和查询结果中的网页标题进行分词处理,并根据各相邻分词间的紧密度,选择目标词组,从而根据分词和词组与向量的映射关系,确定查询语句对应的第一子向量,网页标题对应的第二子向量,然后对各第一子向量按位求和,得到第一初始向量,对第二子向量按位求和,得到第二初始向量,在根据获取的第一初始向量和第二初始向量中各元素对应的变换值,对第一初始向量和第二初始向量进行变换处理,从而得到第一变换向量和第二变换向量,再根据预设的运算法则,对第一变换向量和第二变换向量进行运算,得到查询语句与该网页标题的第一紧密度值,依次类推,从而即可获得查询语句与所有网页标题间的第一紧密度值。继而即可根据各个紧密度值,确定各个网页标题对应的网页信息的显示顺序。
本实施例提供的的检索处理方法,首先接收用户输入的查询语句,然后根据查询语句获取对应的查询结果,再确定由查询语句与查询结果中的网页标题组成的变换向量,然后采用预设的运算法则,对变换向量进行运算,确定查询语句与网页标题间的第一紧密度值,进而根据第一紧密度值,确定查询结果中各网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
为了实现上述实施例,本申请还提出一种检索处理装置。
图5是本申请一个实施例的检索处理装置的结构示意图。
如图5所示,该检索处理装置包括:
接收模块51,用于接收用户输入的查询语句;
获取模块52,用于根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题;
第一确定模块53,用于依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的分词结构与所述网页标题的分词结构的相似度;
第二确定模块54,用于根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
需要说明的是,前述对检索处理方法实施例的解释说明也适用于该实施例的检索处理装置,此处不再赘述。
本申请实施例的检索处理装置,首先接收用户输入的查询语句,再根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题,然后依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,再根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
图6是本申请另一个实施例的检索处理装置的结构示意图。
如图6所示,上述第一确定模块53,包括:
第一确定单元531,用于确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,其中,每组初始向量中均包括:由所述查询语句对应的第一向量和一个网页标题对应的第二向量;
运算单元532,用于采用预设的运算法则,对所述至少两组向量进行运算处理,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值。
其中,所述第一确定单元531,具体用于:
根据所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值,确定所述查询语句对应的第一向量;
根据所述查询结果中至少两个网页标题包括的各第二分词、及各相邻第二分词间的第三紧密度值,确定所述至少两个网页标题分别对应的第二分量。
所述预设的运算法则,包括以下运算法则中的任意一种:余弦运算、正弦运算、正切运算、余切运算。
进一步地,上述检索处理装置,还包括:
第二确定单元533,用于确定所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值;
第三确定单元534,用于确定所述至少两个网页标题包括的各第二分词,及各相邻第二分词间的第三紧密度值。
其中,所述第二确定单元533,具体用于:
根据所述各相邻第一分词间的第二紧密度值的大小,确定第一目标词组;
根据分词、词组与向量间的映射关系,确定所述各第一分词和第一目标词组对应的各第一子向量。
相应的,所述第三确定单元534,具体用于:
根据所述各相邻第二分词间的第三紧密度值的大小,分别确定所述至少两个网页标题分别对应的第二目标词组;
根据分词、词组与向量间的映射关系,确定所述各第二分词和第二目标词组对应的各第二子向量。
所述运算单元532,还用于将所述各第一子向量按位求和,得到所述查询语句对应的第一初始向量;
所述运算单元532,还用于将所述各第二子向量按位求和,得到所述至少两个网页标题分别对应的至少两个第二初始向量。
进一步的,第二确定单元533,还用于:
确定所述第一初始向量中的各元素对应的各变换值;
根据所述各变换值,对所述第一初始向量进行变换处理,得到第一变换向量。
所述运算单元532,具体用于:
根据ai=Σbi×cij,确定所述第一变换向量;
其中,ai为第一变换向量中的第i个元素,bj为第一初始向量中的第j个元素,cij为第bj个元素变换到第ai个元素时对应的变换值,i和j均为大于等于1且小于等于n的正整数,n为第一初始向量和第一变换向量均包括的元素数量。
需要说明的是,前述对检索处理方法实施例的解释说明也适用于该实施例的检索处理装置,此处不再赘述。
本实施例提供的的检索处理装置,首先接收用户输入的查询语句,然后根据查询语句获取对应的查询结果,再确定由查询语句与查询结果中的网页标题组成的变换向量,然后采用预设的运算法则,对变换向量进行运算,确定查询语句与网页标题间的第一紧密度值,进而根据第一紧密度值,确定查询结果中各网页标题对应的网页信息的显示优先级。由此,实现了查询结果的显示顺序与用户的检索需要更匹配,提高了检索的精确度,节省了用户从查询结果中查找目标结果的时间,改善了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,但是上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种检索处理方法,其特征在于,包括以下步骤:
接收用户输入的查询语句;
根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题;
依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的结构与所述网页标题的结构的相似度;
根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
2.根据权利要求1所述的检索处理方法,其特征在于,所述依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,包括:
确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,其中,每组向量中均包括:由所述查询语句对应的第一向量和一个网页标题对应的第二向量;
采用预设的运算法则,对所述至少两组向量进行运算处理,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值。
3.根据权利要求2所述的检索处理方法,其特征在于,所述确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,包括:
根据所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值,确定所述查询语句对应的第一向量;
根据所述查询结果中至少两个网页标题包括的各第二分词、及各相邻第二分词间的第三紧密度值,确定所述至少两个网页标题分别对应的第二分量。
4.根据权利要求2或3所述的检索处理方法,其特征在于,所述预设的运算法则,包括以下运算法则中的任意一种:余弦运算、正弦运算、正切运算、余切运算。
5.根据权利要求3所述的检索处理方法,其特征在于,所述根据所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值,确定所述查询语句对应的第一向量之前,还包括:
确定所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值;
确定所述至少两个网页标题包括的各第二分词,及各相邻第二分词间的第三紧密度值。
6.根据权利要求5所述的检索处理方法,其特征在于,所述根据所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值,确定所述查询语句对应的第一向量,包括:
根据所述各相邻第一分词间的第二紧密度值的大小,确定第一目标词组;
根据分词、词组与向量间的映射关系,确定所述各第一分词和第一目标词组对应的各第一子向量。
7.根据权利要求6所述的检索处理方法,其特征在于,所述根据所述查询结果中至少两个网页标题包括的各第二分词、及各相邻第二分词间的第三紧密度值,确定所述至少两个网页标题分别对应的第二分量,包括:
根据所述各相邻第二分词间的第三紧密度值的大小,分别确定所述至少两个网页标题分别对应的第二目标词组;
根据分词、词组与向量间的映射关系,确定所述各第二分词和第二目标词组对应的各第二子向量。
8.根据权利要求7所述的检索处理方法,其特征在于,所述确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,包括:
将所述各第一子向量按位求和,得到所述查询语句对应的第一初始向量;
将所述各第二子向量按位求和,得到所述至少两个网页标题分别对应的至少两个第二初始向量。
9.根据权利要求8所述的检索处理方法,其特征在于,所述得到所述至少两个网页标题分别对应的至少两个第二初始向量之后,还包括:
确定所述第一初始向量中的各元素对应的各变换值;
根据所述各变换值,对所述第一初始向量进行变换处理,得到第一变换向量。
10.根据权利要求9所述的检索处理方法,其特征在于,所述根据所述各变换值,对所述第一初始向量进行变换处理,得到第一变换向量,包括:
根据ai=Σbi×cij,确定所述第一变换向量;
其中,ai为第一变换向量中的第i个元素,bj为第一初始向量中的第j个元素,cij为第bj个元素变换到第ai个元素时对应的变换值,i和j均为大于等于1且小于等于n的正整数,n为第一初始向量和第一变换向量均包括的元素数量。
11.一种检索处理装置,其特征在于,包括:
接收模块,用于接收用户输入的查询语句;
获取模块,用于根据所述查询语句获取查询结果,所述查询结果包括至少两个网页标题;
第一确定模块,用于依据预设的规则,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值,所述紧第一密度值用于表征所述查询语句的分词结构与所述网页标题的分词结构的相似度;
第二确定模块,用于根据所述第一紧密度值确定所述至少两个网页标题对应的网页信息的显示优先级。
12.根据权利要求11所述的检索处理装置,其特征在于,第一确定模块,包括:
第一确定单元,用于确定所述查询语句分别与所述至少两个网页标题组成的至少两组向量,其中,每组向量中均包括:由所述查询语句对应的第一向量和一个网页标题对应的第二向量;
运算单元,用于采用预设的运算法则,对所述至少两组向量进行运算处理,确定所述查询语句分别与所述至少两个网页标题间的至少两个第一紧密度值。
13.根据权利要求12所述的检索处理装置,其特征在于,所述第一确定单元,具体用于:
根据所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值,确定所述查询语句对应的第一向量;
根据所述查询结果中至少两个网页标题包括的各第二分词、及各相邻第二分词间的第三紧密度值,确定所述至少两个网页标题分别对应的第二分量。
14.根据权利要求12或13所述的检索处理装置,其特征在于,所述预设的运算法则,包括以下运算法则中的任意一种:余弦运算、正弦运算、正切运算、余切运算。
15.根据权利要求13所述的检索处理装置,其特征在于,还包括:
第二确定单元,用于确定所述查询语句包括的各第一分词、及各相邻第一分词间的第二紧密度值;
第三确定单元,用于确定所述至少两个网页标题包括的各第二分词,及各相邻第二分词间的第三紧密度值。
16.根据权利要求15所述的检索处理装置,其特征在于,所述第二确定单元,具体用于:
根据所述各相邻第一分词间的第二紧密度值的大小,确定第一目标词组;
根据分词、词组与向量间的映射关系,确定所述各第一分词和第一目标词组对应的各第一子向量。
17.根据权利要求16所述的检索处理装置,其特征在于,所述第三确定单元,具体用于:
根据所述各相邻第二分词间的第三紧密度值的大小,分别确定所述至少两个网页标题分别对应的第二目标词组;
根据分词、词组与向量间的映射关系,确定所述各第二分词和第二目标词组对应的各第二子向量。
18.根据权利要求17所述的检索处理装置,其特征在于,
所述运算单元,还用于将所述各第一子向量按位求和,得到所述查询语句对应的第一初始向量;
所述运算单元,还用于将所述各第二子向量按位求和,得到所述至少两个网页标题分别对应的至少两个第二初始向量。
19.根据权利要求18所述的检索处理装置,其特征在于,所述第二确定单元,还用于:
确定所述第一初始向量中的各元素对应的各变换值;
根据所述各变换值,对所述第一初始向量进行变换处理,得到第一变换向量。
20.根据权利要求19所述的检索处理装置,其特征在于,所述运算单元,具体用于:根据,确定所述第一变换向量;
其中,ai为第一变换向量中的第i个元素,bj为第一初始向量中的第j个元素,cij为第bj个元素变换到第ai个元素时对应的变换值,i和j均为大于等于1且小于等于n的正整数,n为第一初始向量和第一变换向量均包括的元素数量。
CN201610302396.4A 2016-05-09 2016-05-09 检索处理方法及装置 Active CN106021346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610302396.4A CN106021346B (zh) 2016-05-09 2016-05-09 检索处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610302396.4A CN106021346B (zh) 2016-05-09 2016-05-09 检索处理方法及装置

Publications (2)

Publication Number Publication Date
CN106021346A true CN106021346A (zh) 2016-10-12
CN106021346B CN106021346B (zh) 2020-01-07

Family

ID=57099248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610302396.4A Active CN106021346B (zh) 2016-05-09 2016-05-09 检索处理方法及装置

Country Status (1)

Country Link
CN (1) CN106021346B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423353A (zh) * 2017-05-25 2017-12-01 环球智达科技(北京)有限公司 一种基于拼音首字母的查询系统
WO2022262632A1 (zh) * 2021-06-18 2022-12-22 华为技术有限公司 网页搜索方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756864B2 (en) * 2002-01-03 2010-07-13 Microsoft Corporation System and method for performing a search and a browse on a query
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN104462327A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756864B2 (en) * 2002-01-03 2010-07-13 Microsoft Corporation System and method for performing a search and a browse on a query
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN104462327A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423353A (zh) * 2017-05-25 2017-12-01 环球智达科技(北京)有限公司 一种基于拼音首字母的查询系统
WO2022262632A1 (zh) * 2021-06-18 2022-12-22 华为技术有限公司 网页搜索方法、装置及存储介质

Also Published As

Publication number Publication date
CN106021346B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
US11544474B2 (en) Generation of text from structured data
Tang et al. Understanding the limiting factors of topic modeling via posterior contraction analysis
US8768919B2 (en) Web searching
US20090276414A1 (en) Ranking model adaptation for searching
US20190197154A1 (en) Question answering for data visualizations
US8612367B2 (en) Learning similarity function for rare queries
CN107329949A (zh) 一种语义匹配方法和系统
US20110213784A1 (en) Semantic object characterization and search
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
US20150169740A1 (en) Similar image retrieval
US20180189307A1 (en) Topic based intelligent electronic file searching
CN110795572A (zh) 一种实体对齐方法、装置、设备及介质
CN104572631A (zh) 一种语言模型的训练方法及系统
CN106203165B (zh) 基于可信云计算的信息大数据分析支撑方法
Lindsay et al. Kernels, degrees of freedom, and power properties of quadratic distance goodness-of-fit tests
Fernández-Reyes et al. CV Retrieval System based on job description matching using hybrid word embeddings
CN106021346A (zh) 检索处理方法及装置
CN105786794B (zh) 一种问答对检索方法及社区问答检索系统
CN111143515B (zh) 文本匹配方法及装置
CN117034916A (zh) 构建词向量表示模型和词向量表示的方法、装置及设备
CN107368525B (zh) 搜索相关词的方法及装置、存储介质和终端设备
WO2023050649A1 (zh) 基于数据补全的esg指数确定方法及相关产品
Volpi et al. Natural alpha embeddings
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant