CN108268663A - 一种用于网络搜索的短句检索方法 - Google Patents

一种用于网络搜索的短句检索方法 Download PDF

Info

Publication number
CN108268663A
CN108268663A CN201810145923.4A CN201810145923A CN108268663A CN 108268663 A CN108268663 A CN 108268663A CN 201810145923 A CN201810145923 A CN 201810145923A CN 108268663 A CN108268663 A CN 108268663A
Authority
CN
China
Prior art keywords
word
search
result
short sentence
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810145923.4A
Other languages
English (en)
Inventor
杨良军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Qian Yun Degree Information Technology Co Ltd
Original Assignee
Anhui Qian Yun Degree Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Qian Yun Degree Information Technology Co Ltd filed Critical Anhui Qian Yun Degree Information Technology Co Ltd
Priority to CN201810145923.4A priority Critical patent/CN108268663A/zh
Publication of CN108268663A publication Critical patent/CN108268663A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于网络搜索的短句检索方法,涉及信息检索技术领域。包括以下步骤:(1)中文分词和词性标注、(2)句法分析、(3)词语加权计算、(4)搜索引擎处理和(5)结果排序计算。本发明改进现有的基于统计的短句分析算法给出一种引入祖先节点信息和位置信息更适用于短句分析的算法,有效的提高了整句和短句正确率减少繁杂的不必要的信息;通过对于短句中关键词的加权算法和引入词语权值给出一种返回文档得分的计算方法并依据该方法的搜索结果进行排序,从而使搜索结果能更好的反应用户搜索意图,有效提高结果返回的准确率并使得满足用户需求的文档排在靠前位置,使用户快速得到自己想要的结果。

Description

一种用于网络搜索的短句检索方法
技术领域
本发明属于信息检索技术领域,特别是涉及一种用于网络搜索的短句检索方法。
背景技术
随着计算机互联网技术的飞速发展,互联网上的信息量也变得日益庞大,如何高效的使用互联网资源,准确的找到用户所需要的信息就变得至关重要;互联网上的信息具有分布性、开放性和异构性的特点,使得互联网上的信息缺乏统一的组织与管理,没有一定的层次目录结构或索引机制,在这样的背景下,搜索引擎应运而生。
目前搜索引擎自诞生以来在速度和效率方面都得到了巨大的进步,但是现在大多数的检索工具都是基于关键字匹配进行查找的,这中查找方式存在诸多不足之处;首先这种方式需要用户具有较强的搜索技巧才能得到正确的关键词序列,得到较好的搜索结果,但是需要较长时间的学习和培养;大部分用户习惯使用自然语言方式来查询,而现有的搜索引擎只能对句子进行简单的分词和去词,这样返回的搜索结果中由于无法理解用户输入的搜索意图造成不必要的信息过多和无法将搜索结果合理排序已使用户快速得到自己想要的结果。
发明内容
本发明的目的在于提供一种用于网络搜索的短句检索方法,通过改进现有的基于统计的短句分析算法给出一种引入祖先节点信息和位置信息更适用于短句分析的算法,通过对于短句中关键词的加权算法和引入词语权值给出一种返回文档得分的计算方法并依据该方法的搜索结果进行排序,从而使搜索结果能较好的反应用户搜索意图,并有效提高结果返回的准确率和使得满足用户需求的用户文档排在靠前位置。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种用于网络搜索的短句检索方法,包括以下步骤:
(1)中文分词和词性标注:对输入的短句进行按词典进行分词,并通过分析上下文确定每个词在句子中的词性,分析结果为一串带有词性标注的词串;
(2)句法分析:在中文分析和词性标注的基础上,应用句法分析方法将带有词性标注的词串分析为表示句法结构的树状结构;
(3)词语加权计算:依据词性标注和句法分析的结果,对词性和词语在句子中的结构信息进行分析得出其权值,通过数值形式表示词语在查询短语中的重要性,使得结果能更好的表达用户搜索意图;
(4)搜索引擎处理:根据词语加权的结果,对权值进行分析并设置阀值较低的词语剔除,然后将剩下的词语带权值输入搜索引擎进行检索;
(5)结果排序计算:将词频统计、反转频率和相对长度等检索中排序常用信息和词语加权结果相结合,将查询结果进行评分,然后根据所得分数进行排序。
进一步地,所述步骤(3)词语加权计算中的权值为:名词的权值设为第一级;谓词类设为第二级;其他如量词、数词等设为第三级。
进一步地,所述结果排序计算的算法为:引入步骤(3)词语加权算法中的权值,对检索后返回的检索结果文档进行文档得分计算,并按数值由大到小排序。
进一步地,所述词语句法分析,包括改进的规则库和依据该改进的规则库进行句法分析计算。
进一步地,所述规则库为语法规则和概率值的获取;所述语法规则为在原有的chart线图算法基础上引入祖先节点和位置信息的句法分析算法。
本发明具有以下有益效果:
1、本发明通过改进现有的基于统计的短句分析算法给出一种引入祖先节点信息和位置信息更适用于短句分析的算法,有效的提高了整句和短句正确率减少繁杂的不必要的信息。
2、本发明通过对于短句中关键词的加权算法和引入词语权值给出一种返回文档得分的计算方法并依据该方法的搜索结果进行排序,从而使搜索结果能较好的反应用户搜索意图,并有效提高结果返回的准确率,使得满足用户需求的用户文档排在靠前位置,使用户快速得到自己想要的结果。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于网络搜索的短句检索方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本实施例的一个具体应用为:一种用于网络搜索的短句检索方法,包括以下步骤:
(1)中文分词和词性标注:对输入的短句进行按词典进行分词,并通过分析上下文确定每个词在句子中的词性,分析结果为一串带有词性标注的词串;
(2)句法分析:在中文分析和词性标注的基础上,应用句法分析方法将带有词性标注的词串分析为表示句法结构的树状结构;包括改进的规则库和和依据该改进的规则库进行句法分析计算;其中规则库为语法规则和概率值的获取;语法规则为在原有的chart型句法分析算法和基于统计的句法分析算法基础上引入祖先节点和位置信息,公式为:其中Par表示父节点的标记,Loc表示在此规则中所处的位置信息,并将原规则中的“和”、“与”、“并”、“或”等次设为终结符;其中句法分析计算算法为,输入:G=(S,VN,VT,P),字符串W=w1w2…wn;输出:最佳分析树t*;数据结构:其中chart(线图){edge[i]}i=1,2,…edge:=<P1,P2,Label,Probability>;其中agenda(议程表)存放等待加入到chart中的边(edge);其中active arc(活动弧);
存放分析过程的中间状态由三部分组成<P1,P2,点规则,Probability>其算法为:
(a)将等待分析的字符串W=w1w2…wn置入缓冲区,agenda清为空栈;
(b)循环执行一下步骤,直至输入缓冲区和agenda均为空;
①若agenda为空,则从输入缓冲区取一个字符,并把该字符及起止位置<P1,P2,Prob1>推入agenda栈;
②若agenda不为空,则从若agenda中弹出栈顶的边,该边起止位置为(P1,P2)边上标记为L,概率为Probedge
③检查所有形如A→Lβ,Probrule的规则,计算应用该规则的概率并对最大概率的前三个以起止位置设为P1,P2,并将原规则转变为A→Lοβ的点规则形式形成一个弧加入active arc中,使得Probacr=Probtemp
④把从agenda中弹出标记为L的边加入chart中的P1,P2,之间;
⑤检查所有active arc,如增加一条心的active arc,起止位置为P0,P2,将弧上点规则的点号右移为A→αLοβ,并将两个active arc的Probacr相乘赋给新的Probacr
⑥如果一条active arc(起止位置为P0,P2)上点规则形如A→αLο,则将起止位置为P0,P2,边上标记为A的边压和这条边的概率入agenda栈;
(c)检查chart中edge:<1,n,S,Prob>是否存在,如不存在则分析失败,如存在一个,则为分析结果,如有多个则按Prob最大的分析结果作为t*返回;
(3)词语加权计算:依据词性标注和句法分析的结果,对词性和词语在句子中的结构信息进行分析得出其权值,通过数值形式表示词语在查询短语中的重要性,使得结果能更好的表达用户搜索意图;
其中,词语加权计算的算法为:假设句子S由一系列词语W1、W2……Wn组成,设权值为C1、C2……Cn;则设词语权值计算公式为:C(W)=λ1×λ2×λ3;其中C为词语权值,λ1表示是否为实词,λ2表示实词词性,λ3表示词在句子结构中所处位置;首先对与实词和虚词的加权计算,根据日常习惯及研究表明名词以及某些具有类名词词性(如人名、地名、机构名等)的词相比其他词更易被作为关键词,故名词的权值设为第一级;对于谓词类设为第二级;其他如量词、数词等设为第三级;因此得出λ2的计算公式:设句子中词语W存在参数αi、βi,则:
其中βi为第i级的词对应的权值,其满足根据中文习惯名词短语和动词短语中中心词一般为最后一个词,离中心词距离越远,对中心词的作用越弱,重要性就越小,因此在名词短语和动词短语中的词W有参数τ,则λ3=τi,0<τ<1;其中i为w距离中心词的距离,如果W为中心词,则i=0;
(4)搜索引擎处理:根据词语加权的结果,对权值进行分析并设置阀值较低的词语剔除,然后将剩下的词语带权值输入搜索引擎进行检索;
(5)结果排序计算:将词频统计、反转频率和相对长度等检索中排序常用信息和词语加权结果相结合,将查询结果进行评分,然后根据所得分数进行排序;其中,结果排序计算的算法引入词语加权算法中的权值C,对搜索引擎返回的搜索结果文档进行文档得分计算,设对于每篇结果文档d,其算法为:建立文档索引时,统计每篇文档中的词的频率,根据公式length(W in d)=1.0Math.sqrt(numTerms),计算文档的长度;其中numTerms表示搜索域中的词条总数,词条越多,长度因子越小;
当用户输入短句时,使用上述的词语加权公式计算词语权值C(W);
将带权值关键词输入搜索引擎进行检索返回n篇文档;
使用公式从第一篇文档开始计算第i篇文档的Score;
如果未计算完所有返回文档的Score则返回上一步;
将返回结果按Score从大到小排序;
其中公式中tf(W in d)表示检索的词条W在某个文档d中总共出现的次数;idf(W)表示反转频率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种用于网络搜索的短句检索方法,其特征在于,包括以下步骤:
(1)中文分词和词性标注:对输入的短句进行按词典进行分词,并通过分析上下文确定每个词在句子中的词性,分析结果为一串带有词性标注的词串;
(2)句法分析:在中文分析和词性标注的基础上,应用改进的规则库和依据该改进的规则库进行句法分析计算,将带有词性标注的词串分析为表示句法结构的树状结构;
(3)词语加权计算:依据词性标注和句法分析的结果,对词性和词语在句子中的结构信息进行分析得出其权值,通过数值形式表示词语在查询短语中的重要性,使得结果能更好的表达用户搜索意图;
(4)搜索引擎处理:根据词语加权的结果,对权值进行分析并设置阀值较低的词语剔除,然后将剩下的词语带权值输入搜索引擎进行检索;
(5)结果排序计算:将词频统计、反转频率和相对长度等检索中排序常用信息和词语加权结果相结合,将查询结果进行评分,然后根据所得分数进行排序。
2.根据权利要求1所述的用于网络搜索的短句检索方法,其特征在于,所述步骤(3)词语加权计算中的权值为:名词的权值设为第一级;谓词类设为第二级;其他如量词、数词等设为第三级。
3.根据权利要求1所述的用于网络搜索的短句检索方法,其特征在于,所述步骤(5)结果排序计算的算法为:引入步骤(3)词语加权算法中的权值,对检索后返回的检索结果文档进行文档得分计算,并按数值由大到小排序。
4.根据权利要求1所述的用于网络搜索的短句检索方法,其特征在于,所述规则库为语法规则和概率值的获取;所述语法规则为在原有的chart线图算法基础上引入祖先节点和位置信息的句法分析算法。
CN201810145923.4A 2018-02-12 2018-02-12 一种用于网络搜索的短句检索方法 Withdrawn CN108268663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810145923.4A CN108268663A (zh) 2018-02-12 2018-02-12 一种用于网络搜索的短句检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145923.4A CN108268663A (zh) 2018-02-12 2018-02-12 一种用于网络搜索的短句检索方法

Publications (1)

Publication Number Publication Date
CN108268663A true CN108268663A (zh) 2018-07-10

Family

ID=62774054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145923.4A Withdrawn CN108268663A (zh) 2018-02-12 2018-02-12 一种用于网络搜索的短句检索方法

Country Status (1)

Country Link
CN (1) CN108268663A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895655A (zh) * 2018-09-11 2020-03-20 北京京东尚科信息技术有限公司 提取文本核心短语的方法和装置
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895655A (zh) * 2018-09-11 2020-03-20 北京京东尚科信息技术有限公司 提取文本核心短语的方法和装置
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
CN114138966B (zh) * 2021-11-30 2023-05-23 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法

Similar Documents

Publication Publication Date Title
CN103136352B (zh) 基于双层语义分析的全文检索系统
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
Perez-Carballo et al. Natural language information retrieval: progress report
Varma et al. IIIT Hyderabad at TAC 2009.
CN112035730A (zh) 一种语义检索方法、装置及电子设备
CN101901249A (zh) 一种图像检索中基于文本的查询扩展与排序方法
CN106844331A (zh) 一种句子相似度计算方法和系统
CN101246492A (zh) 基于自然语言的全文检索系统
CN111428047B (zh) 一种基于ucl语义标引的知识图谱构建方法及装置
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN103377226A (zh) 一种智能检索方法及其系统
CN108268663A (zh) 一种用于网络搜索的短句检索方法
CN101576888A (zh) 中文信息检索中基于结构约束的索引词权重计算方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
Adeel et al. MATH GO! PROTOTYPE OF A CONTENT BASED MATHEMATICAL FORMULA SEARCH ENGINE.
Zhang et al. A graph based document retrieval method
CN111428031A (zh) 一种融合浅层语义信息的图模型过滤方法
CN113505196A (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
Lenz Textual cbr and information retrieval–a comparison
Hu et al. Intelligent information retrieval applying automatic constructed fuzzy ontology
Almeida et al. Universal Passage Weighting Mecanism (UPWM) in BioASQ 9b.
Gupta et al. Document summarisation based on sentence ranking using vector space model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180710

WW01 Invention patent application withdrawn after publication