CN106095780B - 一种基于位置特征的检索方法 - Google Patents

一种基于位置特征的检索方法 Download PDF

Info

Publication number
CN106095780B
CN106095780B CN201610361839.7A CN201610361839A CN106095780B CN 106095780 B CN106095780 B CN 106095780B CN 201610361839 A CN201610361839 A CN 201610361839A CN 106095780 B CN106095780 B CN 106095780B
Authority
CN
China
Prior art keywords
score
keyword
search result
preset
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610361839.7A
Other languages
English (en)
Other versions
CN106095780A (zh
Inventor
江永青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Daerguan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daerguan Information Technology (shanghai) Co Ltd filed Critical Daerguan Information Technology (shanghai) Co Ltd
Priority to CN201610361839.7A priority Critical patent/CN106095780B/zh
Publication of CN106095780A publication Critical patent/CN106095780A/zh
Application granted granted Critical
Publication of CN106095780B publication Critical patent/CN106095780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于位置特征的检索方法,包括如下步骤:根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算关键词在检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;将词频及密度分数及位置距离分数进行加权求和获取关键词在检索结果中的基本分数A,将分布分数平滑后,计算顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算关键词在每个检索结果的综合分数,将检索结果按照其对应的综合分数进行降序排序后通过用户接口提供给用户。本发明词频及密度的分数、位置距离分数、分布分数、顺序分数的统合分数,实现提高检索结果相关性,提高用户体验性的目的。

Description

一种基于位置特征的检索方法
技术领域
本发明属于互联网技术领域,具体而言,涉及一种基于位置特征的检索方法。
背景技术
随着互联网的发展,搜索引擎的种类也越来越多。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。在信息检索的过程中,搜索引擎一般是根据用户输入的查询词获取匹配相应的泛需求的关键词,再根据关键词在检索结果中的词频、密度或位置计算在检索结果中的分数后,根据分数排序检索结果并提供给用户的。这种检索结果并没有考虑综合到关键词在检索结果中的词频、密度、位置、以及关键词的排序对检索结果的影响。
发明内容
为解决现有现有搜索引擎检索并未综合考虑关键词在检索结果总的词频及密度、位置、顺序对检索结果的影响,导致用户检索体验性差的计算缺陷,本发明提供了一种将关键词在检索结果中的词频、密度、位置、顺序都考虑在内计算用户查询词与检索结果关联性的基于位置特征的检索方法。
本发明提供了一种基于位置特征的检索方法,包括如下步骤:
采集通过用户接口获取的用户输入的查询词;
查询预设所述泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果;
根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;
将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;
将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
进一步,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
进一步,所述词频及密度分数为:
,其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,
所述idf按照如下公式计算:
进一步,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
进一步,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
进一步,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
进一步,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数。
进一步,所述比值
其中,所述SmoothA为预设的平滑参数。
综上,本发明通过统计所述关键词的词频及密度的分数、所述位置距离分数、分布分数、顺序分数的统合分数,实现提高检索结果相关性,提高用户体验性的目的。
附图说明
图1为本发明所述的基于位置特征的检索方法的流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
本发明的基本思想是:将用户输入的查询词进行识别获取泛需求检索的关键词,根据所述泛需求检索的关键词查找相应的文档,根据所述关键词在所述查找出的文档中的紧密度、检索的重要程度进行相关性分数计算,最后按照预设的规则将统计分数后的检索结果提供给用户。
如图1所示,本发明提供了一种基于位置特征的检索方法,包括如下步骤:
S101、采集通过用户接口获取的用户输入的查询词;
S102、查询预设所述泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果。
进一步,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
具体实施时,所述泛需求关键词数据库可选的利用搜索引擎采集的网页进行分词,并将分词的结果构建出倒排索引结构;同时还可选的还会存储它们的“正排”信息,即记录它们的标题、作者、发布时间、描述等跟位置、出现次数无关但也很重要的信息。而在搜索引擎中,这些关键词可选的以倒排索引的形式存储的。倒排索引中可选的包括所有的关键词的组合及每一个关键词词对应的倒排链表。每个所述倒排链表中的块都是该关键词在某个文档中的信息,包括在文档ID、在文档中出现的次数、在文档中的出现的位置等。
关键词的获取方式是通过分词算法获取的。例如“好看的电影”,在分词算法中会被分为“好看”、“的”、“电影”,其中“的”字因为经常出现,会被作为“停用词”给去除。所以最后的关键词结果是“好看”、“电影”。具体实施时,如查找Term(即关键词)是否在文档A中存在,以及存在的位置,就是先找到Term所在的倒排链表,然后遍历该倒排链表(当然链表是按ID顺序排列的,可以随时中断跳出),找到文档A对应的信息,就能获得该Term在文档中出现的次数、位置等。如果没有找到,就说明这个Term没有在文档中出现。
例如,对于查找“电影”查询词。假设有文档1(“好看的电影”),文档2(“电影很好看,是一部好看的电影”),“电影”这个Term对应到的倒排列表有A(docid:1,count:1,pos:2),B(docid:2,count:2,pos:1、5)。这里的count指该term在文档中出现的次数,pos表示在文档中出现的词的位置(去除了停用词“很”、“是”、“的”)。通过“电影”可以很容易地查找到在哪个文档中出现,以及出现的位置等信息。
S103、根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数。
S104、将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;
S105、将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
所述词频及密度分数为:
,其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,
所述idf按照如下公式计算:
进一步,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
进一步,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
进一步,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
进一步,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数
进一步,
其中,所述SmoothA为预设的平滑参数。
以“好看电影”这个搜索和文档(“好看的动漫电影,评价很好看”)为例说明本发明。“电影”对应到的倒排列表为(docid:1,count:1,pos:3),“好看”对应的倒排列表为(docid:1,count:2,pos:1、5)。
计算hit_score:假设文档库中有10000个文档,有2000个文档包含了“电影”,则idf(“电影”)=log(10000/2001)=0.698,假设有5000个文档包含了“好看”,则idf(“好看”)=log(10000/5001)=0.30。设置demote=0.5,文档1的hit_score=idf(好看)*exp(hits_count(好看),0.5)+idf(电影)*exp(hits_count(电影),0.5)=0.698*exp(2,0.5)+0.30=0.698*1.414+0.3=1.287。
计算span_score:文档1的最优位置组合是“好看的动漫电影”,words_count是指“好看电影”这个查询里的词数,为2;span为“好看的动漫电影”中的词数,为3;设置promote为0.7,smoothA为1,smoothB为2,span_score=exp((2+1)/(3+2),0.7)=0.699。
计算base_score:假设对两个分数都取相同的权重,则base_score=0.5*1.287+0.5*0.699=0.993。
计算balance_score:平均位置u=1/3*(1+3+5)=3,
计算reverse_score:reverse score是在最优位置组合“好看的动漫电影”里计算reverse_score。由于对于查询“好看电影”,这个组合中的逆序数为0,而对于2个词的最大逆序数为1。取smoothA为1和smoothB为10,promote为0.5,则reverse_score=exp(1–(0+1)/(1+10),0.5)=0.9534。
最后计算总分final_score=base_score*reverse_score/(balance_score+smoothA)=0.993*0.9534/(0.8366+1)=0.515,其中smoothA设置为1。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于位置特征的检索方法,其特征在于,包括如下步骤:
采集通过用户接口获取的用户输入的查询词;
查询预设泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果;
根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;
将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;其中,所述词频及密度分数为:
其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,所述idf按照如下公式计算:
将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
2.根据权利要求1所述的基于位置特征的检索方法,其特征在于,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
3.根据权利要求2所述的基于位置特征的检索方法,其特征在于,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
4.根据权利要求3所述的基于位置特征的检索方法,其特征在于,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
5.根据权利要求1所述的基于位置特征的检索方法,其特征在于,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
6.根据权利要求5所述的基于位置特征的检索方法,其特征在于,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数。
7.根据权利要求6所述的基于位置特征的检索方法,其特征在于,
所述比值
其中,所述SmoothA为预设的平滑参数。
CN201610361839.7A 2016-05-26 2016-05-26 一种基于位置特征的检索方法 Active CN106095780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610361839.7A CN106095780B (zh) 2016-05-26 2016-05-26 一种基于位置特征的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610361839.7A CN106095780B (zh) 2016-05-26 2016-05-26 一种基于位置特征的检索方法

Publications (2)

Publication Number Publication Date
CN106095780A CN106095780A (zh) 2016-11-09
CN106095780B true CN106095780B (zh) 2019-12-03

Family

ID=57229346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610361839.7A Active CN106095780B (zh) 2016-05-26 2016-05-26 一种基于位置特征的检索方法

Country Status (1)

Country Link
CN (1) CN106095780B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933947B (zh) * 2017-01-20 2018-12-04 北京三快在线科技有限公司 一种搜索方法及装置、电子设备
CN109033222B (zh) * 2018-06-29 2021-07-13 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN111310477B (zh) * 2020-02-24 2023-04-21 成都网安科技发展有限公司 文档查询方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及系统
CN103064846A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 检索装置和检索方法
CN103150356A (zh) * 2013-02-22 2013-06-12 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统
CN103235773A (zh) * 2013-04-26 2013-08-07 百度在线网络技术(北京)有限公司 基于关键词的文本的标签提取方法及装置
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910479B2 (en) * 2014-04-16 2018-03-06 Facebook, Inc. Location based content promotion on online social networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及系统
CN103064846A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 检索装置和检索方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103150356A (zh) * 2013-02-22 2013-06-12 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统
CN103235773A (zh) * 2013-04-26 2013-08-07 百度在线网络技术(北京)有限公司 基于关键词的文本的标签提取方法及装置

Also Published As

Publication number Publication date
CN106095780A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
Howe et al. Legal area classification: A comparative study of text classifiers on singapore supreme court judgments
CN104063523B (zh) 一种电子商务搜索评分与排名的方法及系统
Chen et al. Collabseer: a search engine for collaboration discovery
Kim et al. Attribute relationship evaluation methodology for big data security
Sambasivam et al. Advanced data clustering methods of mining Web documents.
Soliman et al. Ranking with uncertain scoring functions: semantics and sensitivity measures
CN105320772B (zh) 一种专利查重的关联论文查询方法
CN106598949B (zh) 一种词语对文本贡献度的确定方法及装置
CN106095780B (zh) 一种基于位置特征的检索方法
CN107247743A (zh) 一种司法类案检索方法及系统
Oh et al. CV-PCR: a context-guided value-driven framework for patent citation recommendation
CN103902694B (zh) 基于聚类和查询行为的检索结果排序方法
Zhang et al. Consensus-based ranking of multivalued objects: A generalized borda count approach
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
Fu et al. Patent citation recommendation for examiners
Galkó et al. Biomedical question answering via weighted neural network passage retrieval
Kanapala et al. Passage-based text summarization for legal information retrieval
CN108062355A (zh) 基于伪反馈与tf-idf的查询词扩展方法
Leilei et al. Approaches for source retrieval and text alignment of plagiarism detection
Sun et al. Visualizing differences in web search algorithms using the expected weighted Hoeffding distance
Krstovski et al. Efficient nearest-neighbor search in the probability simplex
Wang et al. A semantic query expansion-based patent retrieval approach
Sharma et al. Finding similar patents through semantic query expansion
Yuan et al. A mathematical information retrieval system based on RankBoost
CN106095779A (zh) 一种基于关键词位置的检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 1208, No. 2305 Zuchongzhi Road, Zhangjiang, Pudong New Area, Shanghai, 200000

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.