CN111310477B - 文档查询方法及装置 - Google Patents

文档查询方法及装置 Download PDF

Info

Publication number
CN111310477B
CN111310477B CN202010111494.6A CN202010111494A CN111310477B CN 111310477 B CN111310477 B CN 111310477B CN 202010111494 A CN202010111494 A CN 202010111494A CN 111310477 B CN111310477 B CN 111310477B
Authority
CN
China
Prior art keywords
word
sequence
word sequence
document
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010111494.6A
Other languages
English (en)
Other versions
CN111310477A (zh
Inventor
朱永强
伍文成
熊思宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Wangan Technology Development Co ltd
Original Assignee
Chengdu Wangan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Wangan Technology Development Co ltd filed Critical Chengdu Wangan Technology Development Co ltd
Priority to CN202010111494.6A priority Critical patent/CN111310477B/zh
Publication of CN111310477A publication Critical patent/CN111310477A/zh
Application granted granted Critical
Publication of CN111310477B publication Critical patent/CN111310477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文档查询方法及装置,在根据查询语句生成对应的单词序列之后,可以根据单词序列从倒排索引库中获得对应的文档信息,之后考虑到单词之间的语义关联性,进一步根据单词序列的查询长度、单词顺序以及文档信息,计算每个目标文档与单词序列之间的语义关联参数,并以此计算每个目标文档与单词序列之间的特征相似度得分后输出查询语句的文档查询结果。如此,能够很好地区分文档与查询语句中单词之间的语义关联性,避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。

Description

文档查询方法及装置
技术领域
本申请涉及信息检索技术领域,具体而言,涉及一种文档查询方法及装置。
背景技术
当前,可以通过信息检索模型来获得文档与查询语句之间的相关性评分,但是在传统方案中,其局限性也显而易见:无法理解目标文档中的语义,从而难以很好地区分文档与查询语句中单词之间的语义关联性,由此获得的相关性得分并未考虑到单词之间的关联性,进而导致文档查询结果的准确率较低。
发明内容
有鉴于此,本申请的目的在于提供一种文档查询方法及装置,能够很好地区分文档与查询语句中单词之间的语义关联性,避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。
根据本申请的第一方面,提供一种文档查询方法,应用于存储有文档的服务器,所述服务器中预先配置有倒排索引库,所述倒排索引库包括文档中每个单词在各个文档的出现频率与出现位置,所述方法包括:
根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序;
根据所述单词序列从所述倒排索引库中获得对应的文档信息,所述文档信息包括所述单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置;
根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果。
在第一方面的一种可能的实施方式中,所述根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序的步骤,包括:
对所述查询语句进行分词,并剔除所述查询语句中的停用词,得到对应的单词序列;
获得所述单词序列的单词数量作为所述单词序列的查询长度,并根据所述单词序列中每个单词在所述查询语句中的出现顺序确定所述单词顺序。
在第一方面的一种可能的实施方式中,所述根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分的步骤,包括:
针对每个目标文档,根据所述单词序列的查询长度和单词顺序,以及所述单词序列中每个单词在该目标文档中的出现位置计算每个目标文档与所述单词序列之间的位置相关参数;
根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算该目标文档与所述单词序列之间的词序相关参数;
根据所述位置相关参数和所述词序相关参数计算该目标文档与所述单词序列之间的语义关联参数;
根据所述语义关联参数以及所述单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与所述单词序列之间的特征相似度得分。
在第一方面的一种可能的实施方式中,所述根据所述单词序列的查询长度和单词顺序,以及所述单词序列中每个单词在该目标文档中的出现位置计算每个目标文档与所述单词序列之间的位置相关参数的步骤,包括:
获取该目标文档中出现的所述单词序列中的单词种类数量;
根据所述单词种类数量、所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个所述单词之间的最小词间距之和;
根据所述单词序列的查询长度、所述单词种类数量以及所述最小词间距之和,得到该目标文档与所述单词序列之间的位置相关参数。
在第一方面的一种可能的实施方式中,所述根据所述单词种类数量、所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个所述单词之间的最小词间距之和的步骤,包括:
根据所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置生成对应的排序序列,所述排序序列中的每个元素分别按照该元素中的单词在该目标文档中的出现位置由前往后排列,每个元素用于表征单词编号与该单词在该目标文档中的出现位置之间的对应关系;
根据所述排序序列的序列长度和所述单词种类数量创建多个窗口,所述窗口的数量为所述序列长度与所述单词种类数量之差加一,每个窗口中可容纳的元素数量为所述单词种类数量;
从所述排序序列第一个元素起,遍历所述排序序列,依次将每个元素添加到第一个窗口,直到所述第一个窗口中的元素数量达到所述单词种类数量时,计算所述第一个窗口的第一个元素和最后一个元素之间的出现位置差;
从所述排序序列第二个元素起,遍历所述排序序列,依次将每个元素添加到下一个窗口,直到所述下一个窗口中的元素数量达到所述单词种类数量时,计算所述下一个窗口的第一个元素和最后一个元素之间的出现位置差,以此类推,当所有窗口中的元素数量达到所述单词种类数量时,比较每个窗口对应的出现位置差,其中,在添加元素时每个窗口中的元素对应的单词编号不发生重复,未填满元素的窗口对应的出现位置差为0;
根据比较结果,将最小的且非0的出现位置差与所述单词种类数量的差值作为该目标文档中出现的各个所述单词之间的最小词间距之和。
在第一方面的一种可能的实施方式中,所述位置相关参数通过以下公式计算得到:
Figure BDA0002390167990000041
其中,LC为所述位置相关参数,h为所述单词种类数量,D为该目标文档中出现的各个所述单词之间的最小词间距,L为所述单词序列的查询长度。
在第一方面的一种可能的实施方式中,所述根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算该目标文档与所述单词序列之间的词序相关参数的步骤,包括:
根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算每个目标文档与所述单词序列之间的词序相关参数确定该目标文档所命中的所述单词的最小间距词序;
根据所述最小间距词序和所述单词顺序得到所述单词序列中每个单词在该目标文档中的文档顺序序列;
分别对所述文档顺序序列和所述单词序列进行排序,将所述文档顺序序列和所述单词序列中单词的交换次数记录为该目标文档与所述单词序列之间的词序相关参数,其中,所述文档顺序序列中的各个单词经过所述交换次数的顺序交换后与所述单词序列中的各个单词的顺序相匹配。
在第一方面的一种可能的实施方式中,所述根据所述语义关联参数以及所述单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与所述单词序列之间的特征相似度得分的步骤,包括:
根据所述单词序列中每个单词在该目标文档中的出现频率,计算该目标文档与所述单词序列之间的词频相关参数;
根据所述词频相关参数和所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
其中,所述特征相似度得分通过以下公式计算得到:
Figure BDA0002390167990000051
Figure BDA0002390167990000052
其中,Score表示所述特征相似度得分,OLC表示所述语义关联参数,h表示所述单词种类数量,D表示该目标文档中出现的各个所述单词之间的最小词间距之和,L表示所述单词序列的查询长度,S表示所述词序相关参数,IDF表示词频相关参数,qi表示所述单词序列中的一个单词,d表示目标文档,k1和b表示调节因子,fi表示qi在d中的出现频率,dl表示d的长度,avgdl表示所有目标文档的平均长度,b用于调整目标文档长度对特征相似度得分影响的大小,b越大时目标文档长度对特征相似度得分的影响越大,反之越小。
在第一方面的一种可能的实施方式中,所述根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果的步骤,包括:
根据每个目标文档与所述单词序列之间的特征相似度得分对每个目标文档进行排序,并将排序结果作为所述查询语句的文档查询结果输出,其中,所述排序结果包括每个目标文档的排序序号以及与所述单词序列之间的特征相似度得分。
根据本申请的第二方面,提供一种文档查询装置,应用于服务器,所述服务器中预先配置有倒排索引库,所述倒排索引库包括每个单词在各个文档的出现频率与出现位置,所述装置包括:
生成模块,用于根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序;
获得模块,用于根据所述单词序列从所述倒排索引库中获得对应的文档信息,所述文档信息包括所述单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置;
计算模块,用于根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
输出模块,用于根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果。
根据本申请的第三方面,提供一种服务器,所述服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该服务器实现第一方面或者第一方面的任意一种可能的实施方式中的文档查询方法。
根据本申请的第四方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现第一方面或者第一方面的任意一种可能的实施方式中的文档查询方法。
基于上述任一方面,本申请在根据查询语句生成对应的单词序列之后,可以根据单词序列从倒排索引库中获得对应的文档信息,之后考虑到单词之间的语义关联性,进一步根据单词序列的查询长度、单词顺序以及文档信息,计算每个目标文档与单词序列之间的语义关联参数,并以此计算每个目标文档与单词序列之间的特征相似度得分后输出查询语句的文档查询结果。如此,能够很好地区分文档与查询语句中单词之间的语义关联性,避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了示例性文档1的示意图之一;
图2示出了示例性文档2的示意图之一;
图3示出了本申请实施例所提供的文档查询方法的流程示意图;
图4示出了图3中所示的步骤S130的子步骤流程示意图;
图5示出了示例性文档1的示意图之二;
图6示出了示例性文档2的示意图之二;
图7示出了示例性排序序列的示意图;
图8示出了示例性窗口添加元素的示意图;
图9示出了本申请实施例所提供的文档查询装置的功能模块示意图;
图10示出了本申请实施例所提供的用于实现上述文档查询方法的服务器的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
如前述背景技术所获知的技术问题,以信息检索模型为常见的BM25模型为例,虽然BM25模型在工业应用中的表现尚可,但其仍然是基于查询词独立假设的方案,无法避免排序过程中丧失查询词之间的关联性。
例如,以查询语句:“楼市火热背后的原因”为例,该查询语句的分词后的单词序列可以是:“楼市”,“火热”,“背后”,“原因”(“的”为停用词)。在此单词序列的基础上,分别以图1中所示的文档1和图2中所示的文档2为例,对文档查询过程进行简要描述。
首先,参见图1中的文档1:“楼市火热久未平息,原因是其背后有着炒房势力的支持。所有人都在为楼市升温,无论是买房人还是相关部门都不希望下跌,而只有那些没有买房的还在期待房价下跌。但事实是,目前住宅市场依旧火热,无论是房企的销售数据还是房企拿地的积极性,都能看出来住宅仍将是未来的主力,而之前一铺养三代的商铺却变得无人问津起来。”
接着,参见图2中的文档2:“房管部门作为楼市调控方之一。据楼市分析师、楼市委员会公布联合调查,发现房管部门在过去短短两个月,颁布了多项调控政策,其背后原因是火热的加剧。”
经发明人研究测试,通过采用BM25模型计算文档1和文档2与上述上述单词序列“楼市”,“火热”,“背后”,“原因”进行相关性比对,得出BM25得分分别为:文档1(3.9191)、文档2(4.7492)。其中,文档1和文档2中标粗的下划线对应的文字部分为匹配上述单词序列“楼市”,“火热”,“背后”,“原因”中的单词。
然而由于文档1和文档2命中的单词相同,因此IDF(Inverse DocumentFrequency,逆文本频率指数)值对文档1和文档2的排序无影响,因此这里在BM25模型的BM25得分为未考虑到文档1和文档2的IDF值的情况。
观察这文档1和文档2,可以发现文档1明显更契合单词序列的语义,但是,如果使用BM25模型进行文档排序,可以很显然的发现文档2中由于楼市的词频更大,导致其BM25得分明显高于文档1。
发明人研究发现,BM25模型在计算得分时,是对每一个命中单词序列的单词分别计算得分再求和的过程,其必然继承了词袋模型的天然缺陷,单词之间的词序关系与位置关系对最终的文档查询结果无影响。然而,其实在语言中,单词之间的词序关系与位置关系对语义存在巨大的影响。为了改善这个缺陷,现有技术中有提出将语言模型应用到文档检索中,但由于内存和速度的限制,一般也仅使用二元语言模型来进行检索匹配,该方案一定程度上可以解决某些歧义,例如“我爱你”和“你爱我”的区别。但是,整体来说二元语言模型仍然不足以解决以上缺陷。
为此,基于上述技术问题的发现,发明人提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
图3示出了本申请实施例提供的文档查询方法的流程示意图,应当理解,在其它实施例中,本实施例的文档查询方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该文档查询方法的详细步骤介绍如下。
步骤S110,根据查询语句生成对应的单词序列,并获得单词序列的查询长度和单词顺序。
步骤S120,根据单词序列从倒排索引库中获得对应的文档信息。
步骤S130,根据单词序列的查询长度、单词顺序以及文档信息,计算每个目标文档与单词序列之间的语义关联参数,并根据语义关联参数计算每个目标文档与单词序列之间的特征相似度得分。
步骤S140,根据每个目标文档与单词序列之间的特征相似度得分,输出查询语句的文档查询结果。
本实施例中,倒排索引库可包括文档中每个单词在各个文档的出现频率与出现位置。由此,当获得查询语句对应的单词序列后,可以从倒排索引库中获得对应的文档信息,文档信息可以包括但并不仅限于单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置。
基于上述步骤,本实施例在根据查询语句生成对应的单词序列之后,可以根据单词序列从倒排索引库中获得对应的文档信息,之后考虑到单词之间的语义关联性,进一步根据单词序列的查询长度、单词顺序以及文档信息,计算每个目标文档与单词序列之间的语义关联参数,并以此计算每个目标文档与单词序列之间的特征相似度得分后输出查询语句的文档查询结果。如此,能够很好地区分文档与查询语句中单词之间的语义关联性,避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。
在一种可能的实施方式中,针对步骤S110,本实施例可以对查询语句进行分词,并剔除查询语句中的停用词,得到对应的单词序列。
其中,该查询语句可以理解为用户指定的检索关键内容,例如前述示例中的“楼市火热背后的原因”,可以理解为一个查询语句。在此基础上,前述示例中的“楼市”,“火热”,“背后”,“原因”可以理解为“楼市火热背后的原因”对应的单词序列,其中,由于“的”是停用词,因此已被剔除。
然后,可以获得单词序列的单词数量作为单词序列的查询长度,并根据单词序列中每个单词在查询语句中的出现顺序确定单词顺序。也即,单词序列的查询长度可以理解为单词序列中的单词数量,单词顺序可以理解为单词序列中每个单词在查询语句中依次的顺序。例如,前述示例中的“楼市火热背后的原因”包括“楼市”,“火热”,“背后”,“原因”四个单词,那么“楼市火热背后的原因”的长度为4,单词顺序分别为:“楼市”对应1,“火热”对应2,“背后”对应3,“原因”对应4。
可以理解,以上查询语句仅为示例,在具体实施过程中,用户可以根据实际文档查询需求灵活确定查询语句,本实施例对此不作任何限制。
在一种可能的实施方式中,针对步骤S130,请结合参阅图4,可以通过以下子步骤进一步实现:
子步骤S131,针对每个目标文档,根据单词序列的查询长度和单词顺序,以及单词序列中每个单词在该目标文档中的出现位置计算每个目标文档与单词序列之间的位置相关参数。
子步骤S132,根据单词序列中每个单词在该目标文档中的出现位置和单词顺序计算该目标文档与单词序列之间的词序相关参数。
子步骤S133,根据位置相关参数和词序相关参数计算该目标文档与单词序列之间的语义关联参数。
子步骤S134,根据语义关联参数以及单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与单词序列之间的特征相似度得分。
作为一种可能的示例,在子步骤S131中,本实施例可以获取该目标文档中出现的单词序列中的单词种类数量,并根据单词种类数量、单词序列的单词顺序以及单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个单词之间的最小词间距之和,然后根据单词序列的查询长度、单词种类数量以及最小词间距之和,得到该目标文档与单词序列之间的位置相关参数。
其中,以图5中所示的文档1和图6中所示的文档2为例,文档1中出现的单词序列中的单词依次包括“楼市”,“火热”,“背后”,“原因”(加粗下划线对应的文字部分),也即文档1对应的单词种类数量为4;文档2中出现的单词序列中的单词依次包括“楼市”,“背后”,“原因”,“火热”(加粗下划线对应的文字部分),也即文档2对应的单词种类数量也为4。
本实施例中,最小词间距之和可以理解为除去命中的单词序列中的单词之外的词的数量,以图5和图6为例,最小词间距之和可以理解为框选来的文本中加粗下划线对应的文字部分之外的词的数量。
下面给出一种示例来计算上述的最小词间距之和。详细地,作为一种可能的实施方式,本实施例可以根据单词序列的单词顺序以及单词序列中每个单词在该目标文档中的出现位置生成对应的排序序列。其中,排序序列中的每个元素可分别按照该元素中的单词在该目标文档中的出现位置由前往后排列,每个元素用于表征单词编号与该单词在该目标文档中的出现位置之间的对应关系。
例如,以图7中所示的示例为例,排序序列中可包括7个元素,单词编号为3、1、2、0、1、3、0,分别对应的在该目标文档中的出现位置为4、5、10、13、16、18、29。
接着,可以根据排序序列的序列长度和单词种类数量创建多个窗口,窗口的数量为序列长度与单词种类数量之差加一,每个窗口中可容纳的元素数量为单词种类数量。
例如,结合图8中所示的示例为例,由于排序序列中包括7个元素,单词编号包括0、1、2、3,那么排序序列的序列长度length为7,单词种类数量为4,因此可以创建7-4+1=4个窗口,也即窗口1、窗口2、窗口3、窗口4,窗口1、窗口2、窗口3、窗口4分别可容纳4个元素。
而后,可以从排序序列第一个元素起,遍历排序序列,依次将每个元素添加到第一个窗口,直到第一个窗口中的元素数量达到单词种类数量时,计算第一个窗口的第一个元素和最后一个元素之间的出现位置差。
接着,可以继续从排序序列第二个元素起,遍历排序序列,依次将每个元素添加到下一个窗口,直到下一个窗口中的元素数量达到单词种类数量时,计算下一个窗口的第一个元素和最后一个元素之间的出现位置差,以此类推,当所有窗口中的元素数量达到单词种类数量时,比较每个窗口对应的出现位置差,其中,在添加元素时每个窗口中的元素对应的单词编号不发生重复,未填满元素的窗口对应的出现位置差为0。
例如,可以从排序序列第一个元素(3,4)起,依次将(3,4)、(1,5)、(2,10)、(0,13)添加到窗口1,然后计算窗口1的第一个元素(3,4)和最后一个元素(0,13)之间的出现位置差(即距离)为13-4+1=10。接着,可以从排序序列第二个元素(1,5)起,依次将(1,5)、(2,10)、(0,13)、(3,18)添加到窗口2,然后计算窗口2的第一个元素(1,5)和最后一个元素(3,18)之间的出现位置差(即距离)为18-5+1=14。接着,可以从排序序列第三个元素(2,10)起,依次将(2,10)、(0,13)、(1,16)、(3,18)添加到窗口3,然后计算窗口3的第一个元素(2,10)和最后一个元素(3,18)之间的出现位置差(即距离)为18-10+1=9。接着,可以从排序序列第四个元素(0,13)起,依次将(0,13)、(1,16)、(3,18)添加到窗口4,由于窗口4未填满,因此其出现位置差(即距离)为0。
最后,可以根据比较结果,将最小的且非0的出现位置差min_distance与单词种类数量的差值,也即9-4=5,作为该目标文档中出现的各个单词之间的最小词间距之和。
在以上基础上,位置相关参数即可以通过以下公式计算得到:
Figure BDA0002390167990000141
其中,LC为位置相关参数,h为单词种类数量,D为该目标文档中出现的各个单词之间的最小词间距,L为单词序列的查询长度。
根据以上公式不难得出,当目标文档命中单词序列中的单词种类数量越多且单词种类在目标文档中的分布越密集,则LC越大,且随着命中的单词种类分布的密集程度越小,该位置相关参数的影响就越小,即当最小词间距D大于一定数值时,该相关性就基本处于失效状态,这样更符合实际应用。
如此,基于上述步骤,考虑到了区分文档与查询语句的单词之间的位置相关参数,从而能够从一定程度上避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。
进一步地,针对子步骤S132,在一种可能的实施方式中,本实施例可以根据单词序列中每个单词在该目标文档中的出现位置和单词顺序计算每个目标文档与单词序列之间的词序相关参数确定该目标文档所命中的单词的最小间距词序。
例如,仍旧以图5和图6所示的示例为例,文档1所命中的单词的最小间距词序为(“楼市”,“火热”,“原因”,“背后”),文档2所命中的单词的最小间距词序为(“楼市”,“背后”,“原因”,“火热”),查询词序为(“楼市”,“火热”,“背后”,“原因”)。
接着,可以根据最小间距词序和单词顺序得到单词序列中每个单词在该目标文档中的文档顺序序列。
例如,可以对查询语句中的单词按顺序编号,那么可以为:
{“楼市”:0,“火热”:1,“背后”:2,“原因”:3}
接着,单词序列中每个单词在文档1中的文档顺序序列可以为[0,1,3,2]、在文档2中的文档顺序序列可以为[0,2,3,1]。
然后,可以分别对文档顺序序列和单词序列进行排序(例如冒泡排序),将文档顺序序列和单词序列中单词的交换次数记录为该目标文档与单词序列之间的词序相关参数。其中,文档顺序序列中的各个单词经过交换次数的顺序交换后与单词序列中的各个单词的顺序相匹配。
例如,不难得出文档1的文档顺序序列为1,文档2的文档顺序误差为2。
由此,在子步骤S133中,可以根据位置相关参数和词序相关参数计算该目标文档与单词序列之间的语义关联参数,具体公式可以是:
Figure BDA0002390167990000151
其中,LC为位置相关参数,h为单词种类数量,D为该目标文档中出现的各个单词之间的最小词间距,L为单词序列的查询长度。
基于上述公式,不难当D越小时,该顺序才有意义,因为D过大,很可能单词之间的联系已经很微弱,因此发明人研究认为不能单独使用词序相关参数S来衡量查询语句与目标文档之间的语义关联参数,还需要与最小词间距之和D相结合。此外,词序相关参数也与命中的单词种类数量h有关,当h越大时,在文档查询过程中出现误差的可能性越大,故本实施例通过结合位置相关参数和词序相关参数计算该目标文档与单词序列之间的语义关联参数,能够充分考虑到文档与查询语句的单词之间的语义关联性,避免语义理解偏差所带来的信息检索歧义,从而提高文档查询结果的准确率。
在此基础上,针对子步骤S134,本实施例可以根据单词序列中每个单词在该目标文档中的出现频率,计算该目标文档与单词序列之间的词频相关参数。接着,根据词频相关参数和语义关联参数计算每个目标文档与单词序列之间的特征相似度得分;
其中,特征相似度得分可以通过以下公式计算得到:
Figure BDA0002390167990000161
Figure BDA0002390167990000162
其中,Score表示特征相似度得分,OLC表示语义关联参数,h表示单词种类数量,D表示该目标文档中出现的各个单词之间的最小词间距之和,L表示单词序列的查询长度,S表示词序相关参数,IDF表示词频相关参数,qi表示单词序列中的一个单词,d表示目标文档,k1和b表示调节因子,fi表示qi在d中的出现频率,dl表示d的长度,avgdl表示所有目标文档的平均长度,b用于调整目标文档长度对特征相似度得分影响的大小,b越大时目标文档长度对特征相似度得分的影响越大,反之越小。
在上述基础上,针对步骤S140,本实施例可以根据每个目标文档与单词序列之间的特征相似度得分对每个目标文档进行排序,并将排序结果作为查询语句的文档查询结果输出。其中,排序结果可以包括每个目标文档的排序序号以及与单词序列之间的特征相似度得分。
例如,经发明人实际针对图1中的文档1和图2中的文档2进行测试,分别得到的特征相似度得分为:文档1(6.2962),文档2(5.1574),由此使得明显更契合单词序列的语义的文档1排序更靠前,尽管文档2中楼市的词频更大,但是其与单词序列之间的语义关联参数必然小于文档1与单词序列之间的语义关联参数,导致其特征相似度得分明显低于文档1。如此,相较于前述单纯采用BM25模型进行特征相似度得分的计算而言,可以很好地分辨出单词之间的语义关联性的不同所带来的歧义。
基于同一发明构思,请参阅图9,示出了本申请实施例提供的文档查询装置200的功能模块示意图,本实施例可以根据上述方法实施例对文档查询装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图9示出的文档查询装置200只是一种装置示意图。其中,文档查询装置200可以包括生成模块210、获得模块220、计算模块230以及输出模块240,下面分别对该文档查询装置200的各个功能模块的功能进行详细阐述。
生成模块210,用于根据查询语句生成对应的单词序列,并获得单词序列的查询长度和单词顺序。可以理解,该生成模块210可以用于执行上述步骤S110,关于该生成模块210的详细实现方式可以参照上述对步骤S110有关的内容。
获得模块220,用于根据单词序列从倒排索引库中获得对应的文档信息,文档信息包括单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置。可以理解,该获得模块220可以用于执行上述步骤S120,关于该获得模块220的详细实现方式可以参照上述对步骤S120有关的内容。
计算模块230,用于根据单词序列的查询长度、单词顺序以及文档信息,计算每个目标文档与单词序列之间的语义关联参数,并根据语义关联参数计算每个目标文档与单词序列之间的特征相似度得分。可以理解,该计算模块230可以用于执行上述步骤S130,关于该计算模块230的详细实现方式可以参照上述对步骤S130有关的内容。
输出模块240,用于根据每个目标文档与单词序列之间的特征相似度得分,输出查询语句的文档查询结果。可以理解,该输出模块240可以用于执行上述步骤S140,关于该输出模块240的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,生成模块210可以通过以下方式生成对应的单词序列,并获得单词序列的查询长度和单词顺序:
对查询语句进行分词,并剔除查询语句中的停用词,得到对应的单词序列;
获得单词序列的单词数量作为单词序列的查询长度,并根据单词序列中每个单词在查询语句中的出现顺序确定单词顺序。
在一种可能的实施方式中,计算模块230可以通过以下方式计算每个目标文档与单词序列之间的语义关联参数,并根据语义关联参数计算每个目标文档与单词序列之间的特征相似度得分:
针对每个目标文档,根据单词序列的查询长度和单词顺序,以及单词序列中每个单词在该目标文档中的出现位置计算每个目标文档与单词序列之间的位置相关参数;
根据单词序列中每个单词在该目标文档中的出现位置和单词顺序计算该目标文档与单词序列之间的词序相关参数;
根据位置相关参数和词序相关参数计算该目标文档与单词序列之间的语义关联参数;
根据语义关联参数以及单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与单词序列之间的特征相似度得分。
在一种可能的实施方式中,计算模块230可以通过以下方式计算每个目标文档与单词序列之间的位置相关参数:
获取该目标文档中出现的单词序列中的单词种类数量;
根据单词种类数量、单词序列的单词顺序以及单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个单词之间的最小词间距之和;
根据单词序列的查询长度、单词种类数量以及最小词间距之和,得到该目标文档与单词序列之间的位置相关参数。
在一种可能的实施方式中,计算模块230可以通过以下方式计算该目标文档中出现的各个单词之间的最小词间距之和:
根据单词序列的单词顺序以及单词序列中每个单词在该目标文档中的出现位置生成对应的排序序列,排序序列中的每个元素分别按照该元素中的单词在该目标文档中的出现位置由前往后排列,每个元素用于表征单词编号与该单词在该目标文档中的出现位置之间的对应关系;
根据排序序列的序列长度和单词种类数量创建多个窗口,窗口的数量为序列长度与单词种类数量之差加一,每个窗口中可容纳的元素数量为单词种类数量;
从排序序列第一个元素起,遍历排序序列,依次将每个元素添加到第一个窗口,直到第一个窗口中的元素数量达到单词种类数量时,计算第一个窗口的第一个元素和最后一个元素之间的出现位置差;
从排序序列第二个元素起,遍历排序序列,依次将每个元素添加到下一个窗口,直到下一个窗口中的元素数量达到单词种类数量时,计算下一个窗口的第一个元素和最后一个元素之间的出现位置差,以此类推,当所有窗口中的元素数量达到单词种类数量时,比较每个窗口对应的出现位置差,其中,在添加元素时每个窗口中的元素对应的单词编号不发生重复,未填满元素的窗口对应的出现位置差为0;
根据比较结果,将最小的且非0的出现位置差与单词种类数量的差值作为该目标文档中出现的各个单词之间的最小词间距之和。
在一种可能的实施方式中,位置相关参数通过以下公式计算得到:
Figure BDA0002390167990000191
其中,LC为位置相关参数,h为单词种类数量,D为该目标文档中出现的各个单词之间的最小词间距,L为单词序列的查询长度。
在一种可能的实施方式中,计算模块230可以通过以下方式计算该目标文档与单词序列之间的词序相关参数:
根据单词序列中每个单词在该目标文档中的出现位置和单词顺序计算每个目标文档与单词序列之间的词序相关参数确定该目标文档所命中的单词的最小间距词序;
根据最小间距词序和单词顺序得到单词序列中每个单词在该目标文档中的文档顺序序列;
分别对文档顺序序列和单词序列进行排序,将文档顺序序列和单词序列中单词的交换次数记录为该目标文档与单词序列之间的词序相关参数,其中,文档顺序序列中的各个单词经过交换次数的顺序交换后与单词序列中的各个单词的顺序相匹配。
在一种可能的实施方式中,计算模块230可以通过以下方式,计算每个目标文档与单词序列之间的特征相似度得分:
根据单词序列中每个单词在该目标文档中的出现频率,计算该目标文档与单词序列之间的词频相关参数;
根据词频相关参数和语义关联参数计算每个目标文档与单词序列之间的特征相似度得分;
其中,特征相似度得分通过以下公式计算得到:
Figure BDA0002390167990000201
Figure BDA0002390167990000202
其中,Score表示特征相似度得分,OLC表示语义关联参数,h表示单词种类数量,D表示该目标文档中出现的各个单词之间的最小词间距之和,L表示单词序列的查询长度,S表示词序相关参数,IDF表示词频相关参数,qi表示单词序列中的一个单词,d表示目标文档,k1和b表示调节因子,fi表示qi在d中的出现频率,dl表示d的长度,avgdl表示所有目标文档的平均长度,b用于调整目标文档长度对特征相似度得分影响的大小,b越大时目标文档长度对特征相似度得分的影响越大,反之越小。
在一种可能的实施方式中,输出模块240可以通过以下方式输出查询语句的文档查询结果:
根据每个目标文档与单词序列之间的特征相似度得分对每个目标文档进行排序,并将排序结果作为查询语句的文档查询结果输出,其中,排序结果包括每个目标文档的排序序号以及与单词序列之间的特征相似度得分。
基于同一发明构思,请参阅图10,示出了本申请实施例提供的用于执行上述文档查询方法的服务器100的结构示意框图,该服务器100可以包括机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
处理器130是该服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块,以及调用存储在机器可读存储介质120内的数据,执行该服务器100的各种功能和处理数据,从而对服务器100进行整体监控。可选地,处理器130可包括一个或多个处理核心;例如,处理器130可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制上述方法实施例提供的文档查询方法的程序执行的集成电路。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以实现前述方法实施例提供的文档查询方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的文档查询方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
进一步地,本申请实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于实现上述方法实施例提供的文档查询方法。
本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种文档查询方法,其特征在于,应用于存储有文档的服务器,所述服务器中预先配置有倒排索引库,所述倒排索引库包括文档中每个单词在各个文档的出现频率与出现位置,所述方法包括:
根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序;
根据所述单词序列从所述倒排索引库中获得对应的文档信息,所述文档信息包括所述单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置;
根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果;
其中,所述根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分的步骤,包括:
针对每个目标文档,获取该目标文档中出现的所述单词序列中的单词种类数量;
根据所述单词种类数量、所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个所述单词之间的最小词间距之和;
根据所述单词序列的查询长度、所述单词种类数量以及所述最小词间距之和,得到该目标文档与所述单词序列之间的位置相关参数;
根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算该目标文档与所述单词序列之间的词序相关参数;
根据所述位置相关参数和所述词序相关参数计算该目标文档与所述单词序列之间的语义关联参数;
根据所述语义关联参数以及所述单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与所述单词序列之间的特征相似度得分。
2.根据权利要求1所述的文档查询方法,其特征在于,所述根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序的步骤,包括:
对所述查询语句进行分词,并剔除所述查询语句中的停用词,得到对应的单词序列;
获得所述单词序列的单词数量作为所述单词序列的查询长度,并根据所述单词序列中每个单词在所述查询语句中的出现顺序确定所述单词顺序。
3.根据权利要求1所述的文档查询方法,其特征在于,所述根据所述单词种类数量、所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个所述单词之间的最小词间距之和的步骤,包括:
根据所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置生成对应的排序序列,所述排序序列中的每个元素分别按照该元素中的单词在该目标文档中的出现位置由前往后排列,每个元素用于表征单词编号与该单词在该目标文档中的出现位置之间的对应关系;
根据所述排序序列的序列长度和所述单词种类数量创建多个窗口,所述窗口的数量为所述序列长度与所述单词种类数量之差加一,每个窗口中可容纳的元素数量为所述单词种类数量;
从所述排序序列第一个元素起,遍历所述排序序列,依次将每个元素添加到第一个窗口,直到所述第一个窗口中的元素数量达到所述单词种类数量时,计算所述第一个窗口的第一个元素和最后一个元素之间的出现位置差;
从所述排序序列第二个元素起,遍历所述排序序列,依次将每个元素添加到下一个窗口,直到所述下一个窗口中的元素数量达到所述单词种类数量时,计算所述下一个窗口的第一个元素和最后一个元素之间的出现位置差,以此类推,当所有窗口中的元素数量达到所述单词种类数量时,比较每个窗口对应的出现位置差,其中,在添加元素时每个窗口中的元素对应的单词编号不发生重复,未填满元素的窗口对应的出现位置差为0;
根据比较结果,将最小的且非0的出现位置差与所述单词种类数量的差值作为该目标文档中出现的各个所述单词之间的最小词间距之和。
4.根据权利要求3所述的文档查询方法,其特征在于,所述位置相关参数通过以下公式计算得到:
Figure FDA0004087992200000031
其中,LC为所述位置相关参数,h为所述单词种类数量,D为该目标文档中出现的各个所述单词之间的最小词间距,L为所述单词序列的查询长度。
5.根据权利要求1所述的文档查询方法,其特征在于,所述根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算该目标文档与所述单词序列之间的词序相关参数的步骤,包括:
根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算每个目标文档与所述单词序列之间的词序相关参数确定该目标文档所命中的所述单词的最小间距词序;
根据所述最小间距词序和所述单词顺序得到所述单词序列中每个单词在该目标文档中的文档顺序序列;
分别对所述文档顺序序列和所述单词序列进行排序,将所述文档顺序序列和所述单词序列中单词的交换次数记录为该目标文档与所述单词序列之间的词序相关参数,其中,所述文档顺序序列中的各个单词经过所述交换次数的顺序交换后与所述单词序列中的各个单词的顺序相匹配。
6.根据权利要求1所述的文档查询方法,其特征在于,所述根据所述语义关联参数以及所述单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与所述单词序列之间的特征相似度得分的步骤,包括:
根据所述单词序列中每个单词在该目标文档中的出现频率,计算该目标文档与所述单词序列之间的词频相关参数;
根据所述词频相关参数和所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
其中,所述特征相似度得分通过以下公式计算得到:
Figure FDA0004087992200000041
Figure FDA0004087992200000051
其中,Score表示所述特征相似度得分,OLC表示所述语义关联参数,h表示所述单词种类数量,D表示该目标文档中出现的各个所述单词之间的最小词间距之和,L表示所述单词序列的查询长度,S表示所述词序相关参数,IDF表示词频相关参数,q表示所述单词序列,qi表示所述单词序列中的一个单词,d表示目标文档,k1和b表示调节因子,fi表示qi在d中的出现频率,dl表示d的长度,avgdl表示所有目标文档的平均长度,b用于调整目标文档长度对特征相似度得分影响的大小,b越大时目标文档长度对特征相似度得分的影响越大,反之越小。
7.根据权利要求1-6中任意一项所述的文档查询方法,其特征在于,所述根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果的步骤,包括:
根据每个目标文档与所述单词序列之间的特征相似度得分对每个目标文档进行排序,并将排序结果作为所述查询语句的文档查询结果输出,其中,所述排序结果包括每个目标文档的排序序号以及与所述单词序列之间的特征相似度得分。
8.一种文档查询装置,其特征在于,应用于服务器,所述服务器中预先配置有倒排索引库,所述倒排索引库包括每个单词在各个文档的出现频率与出现位置,所述装置包括:
生成模块,用于根据查询语句生成对应的单词序列,并获得所述单词序列的查询长度和单词顺序;
获得模块,用于根据所述单词序列从所述倒排索引库中获得对应的文档信息,所述文档信息包括所述单词序列中每个单词出现的目标文档以及每个单词在对应目标文档中的出现频率和出现位置;
计算模块,用于根据所述单词序列的查询长度、单词顺序以及所述文档信息,计算每个目标文档与所述单词序列之间的语义关联参数,并根据所述语义关联参数计算每个目标文档与所述单词序列之间的特征相似度得分;
输出模块,用于根据所述每个目标文档与所述单词序列之间的特征相似度得分,输出所述查询语句的文档查询结果;
其中,所述计算模块具体用于,
针对每个目标文档,获取该目标文档中出现的所述单词序列中的单词种类数量;
根据所述单词种类数量、所述单词序列的单词顺序以及所述单词序列中每个单词在该目标文档中的出现位置,计算该目标文档中出现的各个所述单词之间的最小词间距之和;
根据所述单词序列的查询长度、所述单词种类数量以及所述最小词间距之和,得到该目标文档与所述单词序列之间的位置相关参数;
根据所述单词序列中每个单词在该目标文档中的出现位置和所述单词顺序计算该目标文档与所述单词序列之间的词序相关参数;
根据所述位置相关参数和所述词序相关参数计算该目标文档与所述单词序列之间的语义关联参数;
根据所述语义关联参数以及所述单词序列中每个单词在该目标文档中的出现频率,计算每个目标文档与所述单词序列之间的特征相似度得分。
CN202010111494.6A 2020-02-24 2020-02-24 文档查询方法及装置 Active CN111310477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111494.6A CN111310477B (zh) 2020-02-24 2020-02-24 文档查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111494.6A CN111310477B (zh) 2020-02-24 2020-02-24 文档查询方法及装置

Publications (2)

Publication Number Publication Date
CN111310477A CN111310477A (zh) 2020-06-19
CN111310477B true CN111310477B (zh) 2023-04-21

Family

ID=71161865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111494.6A Active CN111310477B (zh) 2020-02-24 2020-02-24 文档查询方法及装置

Country Status (1)

Country Link
CN (1) CN111310477B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112436B2 (en) * 2009-09-21 2012-02-07 Yahoo ! Inc. Semantic and text matching techniques for network search
CN103064846B (zh) * 2011-10-20 2016-08-31 北京中搜网络技术股份有限公司 检索装置和检索方法
CN103136352B (zh) * 2013-02-27 2016-02-03 华中师范大学 基于双层语义分析的全文检索系统
US20150046152A1 (en) * 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
CN103678576B (zh) * 2013-12-11 2016-08-17 华中师范大学 基于动态语义分析的全文检索系统
CN103838833B (zh) * 2014-02-24 2017-03-15 华中师范大学 基于相关词语语义分析的全文检索系统
US10503761B2 (en) * 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
CN106095780B (zh) * 2016-05-26 2019-12-03 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106776746A (zh) * 2016-11-14 2017-05-31 天津南大通用数据技术股份有限公司 一种全文索引数据的创建方法及装置
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107704453B (zh) * 2017-10-23 2021-10-08 深圳市前海众兴科研有限公司 一种文字语义分析方法、文字语义分析终端及存储介质
CN109284352B (zh) * 2018-09-30 2022-02-08 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111310477A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
CN110263180B (zh) 意图知识图谱生成方法、意图识别方法及装置
CN105302810B (zh) 一种信息搜索方法和装置
JP6177871B2 (ja) 製品情報の公開
TWI652584B (zh) 文本資訊的匹配、業務對象的推送方法和裝置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
Kovbasistyi et al. Method for detection of non-relevant and wrong information based on content analysis of web resources
WO2008106668A1 (en) User query mining for advertising matching
US10067965B2 (en) Hierarchic model and natural language analyzer
CN107016001A (zh) 一种数据查询方法及装置
US20130339369A1 (en) Search Method and Apparatus
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN109145161A (zh) 中文地名查询方法、装置及设备
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
WO2014052332A2 (en) Method and apparatus for graphic code database updates and search
CN105740448A (zh) 面向话题的多微博时序文摘方法
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
CN111966900A (zh) 基于局部敏感哈希的用户冷启动产品推荐方法及系统
CN104615621B (zh) 搜索中的相关性处理方法和系统
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN111339784A (zh) 一种新话题的自动挖掘方法和系统
CN109284441A (zh) 动态自适应网络敏感信息检测方法及装置
CN111310477B (zh) 文档查询方法及装置
Jayashree et al. Multimodal web page segmentation using self-organized multi-objective clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant