CN115203379A - 检索方法、装置、计算机设备、存储介质和程序产品 - Google Patents

检索方法、装置、计算机设备、存储介质和程序产品 Download PDF

Info

Publication number
CN115203379A
CN115203379A CN202211118427.2A CN202211118427A CN115203379A CN 115203379 A CN115203379 A CN 115203379A CN 202211118427 A CN202211118427 A CN 202211118427A CN 115203379 A CN115203379 A CN 115203379A
Authority
CN
China
Prior art keywords
word
sentence
retrieved
determining
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211118427.2A
Other languages
English (en)
Inventor
时爱民
郭红梅
斯媛
上官翔飞
严冲
彭俊
王祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Original Assignee
Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch filed Critical Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority to CN202211118427.2A priority Critical patent/CN115203379A/zh
Publication of CN115203379A publication Critical patent/CN115203379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种检索方法、装置、计算机设备、存储介质和程序产品,对待检索语句进行词拆分处理,获得多个检索词,确定每一检索词与文档库中每一参考文档的匹配度,其中,匹配度与检索词和参考文档中的参考词的相似度相关;根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果;由于完全匹配忽略了同义词匹配导致匹配到的相似文档比较局限,而采用待检索语句的检索词与参考文档的参考词的相似度的方式,确定待检索语句与参考文档之间的匹配度,很大程度上增加了相似文档的检索概率,增加了相似文档的查询数量,提高了搜索引擎的查全率和准确率。

Description

检索方法、装置、计算机设备、存储介质和程序产品
技术领域
本申请涉及计算机技术领域,特别是涉及一种检索方法、装置、计算机设备、存储介质和程序产品。
背景技术
分布式全文搜索引擎(ElasticSearch,简称ES)是目前已被广泛应用的一种搜索引擎。在ES5.0之后,默认采用BM25算法来计算查询语句和查询文档之间的相关性评分,评分越高表明查询语句和查询文档之间的相关性也就越高。
现有的BM25算法,采用查询语句中包含的查询词汇和查询文档中的词汇完全匹配的策略,确定查询词汇在查询文档中出现的次数,进而来计算查询语句和查询文档之间的相关性评分。
然而,现有的BM25算法对查询语句进行文档匹配时,所匹配到的相似文档比较局限,导致ES搜索引擎的查全率和准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够扩大查询范围,增加匹配到的文档数量,进而提高ES搜索引擎的查全率和准确率的检索方法、装置、计算机设备、存储介质和程序产品。
第一方面,本申请提供了一种检索方法。该方法包括:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
在其中一个实施例中,确定每一检索词与文档库中每一参考文档的匹配度,包括:
针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;
根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在其中一个实施例中,确定检索词与参考文档中每一参考词的相似度,包括:
对检索词进行向量化处理,获得检索词向量;
对参考词进行向量化处理,获得参考词向量;
根据检索词向量和参考词向量确定检索词与参考词的相似度。
在其中一个实施例中,根据检索词向量和参考词向量确定检索词与参考词的相似度,包括:
根据包含(
Figure 8041DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度;其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置。
在其中一个实施例中,根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度,包括:
确定相似度大于等于阈值的参考词在参考文档中的词频;
根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在其中一个实施例中,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果,包括:
确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新;该第二匹配结果用于表征待检索语句与参考文档中段落的相似度;
基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果。
在其中一个实施例中,确定待检索语句与参考文档的第二匹配结果,包括:
对待检索语句进行向量化处理,获得检索句向量;
对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;
根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度;
将相似度最大的段落对应的相似度,确定为第二匹配结果。
在其中一个实施例中,根据第二匹配结果对参考文档的第一匹配结果进行更新,包括:
根据包含(
Figure 336866DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,P 2为第二匹配结果,
Figure 92333DEST_PATH_IMAGE006
为权重系数。
在其中一个实施例中,对待检索语句进行词拆分处理,获得多个检索词,包括:
基于参考文档的字体类型对待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
在其中一个实施例中,对待检索语句进行词拆分处理,获得多个检索词,包括:
对待检索语句进行长度截断,获取多个候选检索词;
基于参考文档的字体类型对每一候选检索词进行字体类型转换,获得多个检索词。
第二方面,本申请还提供了一种检索装置。该装置包括:
获取模块,用于对待检索语句进行词拆分处理,获得多个检索词;
第一确定模块,用于确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
第二确定模块,用于根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
上述检索方法、装置、计算机设备、存储介质和程序产品,服务器通过对待检索语句进行词拆分处理,获得多个检索词,并确定每一检索词与文档库中每一参考文档的匹配度,其中,该匹配度与检索词和参考文档中的参考词的相似度相关;接着,服务器根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果;也就是说,本实施例中,服务器在对待检索语句进行相关文档检索的过程中,采用的是待检索语句的检索词与参考文档的参考词之间的相似度的方式,来确定待检索语句与参考文档之间的匹配度,相比于通过待检索语句的检索词在参考文档中完全匹配时出现的次数的方式来确定待检索语句与参考文档之间的相关性来说,由于完全匹配忽略了近义词或者同义词的匹配,导致匹配到的相似文档比较局限,数量较少;因此,本实施例中采用待检索语句的检索词与参考文档的参考词之间的相似度的方式,来确定待检索语句与参考文档之间的匹配度,在很大程度上增加了相似文档的检索概率,扩大了查询范围,进而能够增加相似文档的查询数量,还能提高ES搜索引擎的查全率和准确率。
附图说明
图1为一个实施例中检索方法的应用环境图;
图2为一个实施例中检索方法的流程示意图;
图3为另一个实施例中检索方法的流程示意图;
图4为一个实施例中确定检索词与参考词的相似度的流程示意图;
图5为一个实施例中确定检索词与参考文档的匹配度的流程示意图;
图6为另一个实施例中检索方法的流程示意图;
图7为一个实施例中确定待检索语句与参考文档的第二匹配结果的流程示意图;
图8为一个实施例中检索方法的完整流程示意图;
图9为一个实施例中检索装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种检索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,对待检索语句进行词拆分处理,获得多个检索词。
其中,待检索语句可以是由至少一个词汇组成的语句,在根据待检索语句进行相关文档搜索时,需要对待检索语句进行词拆分处理,得到该待检索语句对应的多个词汇,并将每个词汇作为文档搜索过程中的检索词。
可选地,可以采用预设的语句拆分算法或者词分割算法对待检索语句进行词拆分处理,得到该待检索语句对应的多个检索词,该预设的语句拆分算法或者词分割算法可以是基于预设词汇数据库进行训练得到的算法,该预设词汇数据库中可以包括特定行业内的专有词汇;例如:“吉祥人生”、“大湾区重疾”、“盛世稳赢2018”等,属于某某人寿具体的保险产品名称,如果仅单纯靠原生(现有)的分词算法进行分词生成索引时,很容易拆成多个词,而采用本实施例中的预设的语句拆分算法或者词分割算法进行词拆分处理时,可以有效地将特定行业的专有词汇进行准确拆分,避免拆成多个通用词汇而导致检索不准确的问题,提高特定行业领域的精准搜索。
可选地,还可以采用预设的分词工具,将该待检索语句输入分词工具中,得到该待检索语句对应的多个检索词,其中,该预设的分词工具也可以是基于特定行业内的专有词汇而设置的分词工具,该分词工具可以是服务器内安装的,也可以是服务器调用的第三方工具等,本实施例对此并不做限定;另外,本实施例对词拆分处理的方式也不做限定。
可选地,在参考文档与待检索语句的字体类型不一致时,例如:待检索语句为简体,参考文档为繁体,在进行文档检索时,容易造成繁体的参考文档被漏检的情况;因此,针对参考文档与待检索语句的字体类型不一致的情况,在对待检索语句进行词拆分处理之前,还可以基于参考文档的字体类型,对待检索语句进行字体类型转化,并对转化后的语句进行长度截断处理,获得待检索语句对应的与参考文档字体类型一致的多个检索词;可选地,还可以先对待检索语句进行长度截断处理,获取待检索语句对应的多个候选检索词,接着,可以基于参考文档的字体类型对每一候选检索词进行字体类型转化,获得待检索语句对应的与参考文档字体类型一致的多个检索词;以此来提高参考文档的检索命中率,避免字体类型不一致时导致的相似文档被漏检的情况,能够提高检索的查全率和检索准确率,其中,查全率表示能检索到的相似文档都能检索到,扩大了检索词的搜索维度和查询范围,准确率表示检索到的相似文档都是准确的,即与待检索语句的匹配程度更高,检索效果更好。
步骤202,确定每一检索词与文档库中每一参考文档的匹配度。
其中,该匹配度与检索词和参考文档中的参考词的相似度相关;在现有的文档检索算法中,仅考虑检索词在参考文档中完全匹配时出现的次数,并未考虑到与该检索词对应的同义词的出现次数,导致待检索语句与一些具有同义词的文档的相似度较低,未被检索出来;例如:“中国”和“China”均表示中国、“广州”和“花城”实际均是指广州、保险行业里的“新契约”和“新保”均是表示承保环节等;因此,本实施例中采用检索词与参考词的相似度来确定检索词与参考文档之间的匹配度,提高同义词被检索到的概率,进而增加具有同义词的文档被检索的概率。
针对该待检索语句对应的每一检索词和文档库中的每一参考文档,分别确定该检索词与该参考文档之间的匹配度;可选地,可以分别确定该检索词与该参考文档的每一参考词之间的相似度,接着,对该检索词与每一参考词的相似度进行加权求和处理,得到该检索词与该参考文档的匹配度;其中,确定该检索词与参考词之间的相似度时,可以采用预设的词与词之间的相似度计算算法,来计算检索词与参考词之间的相似度。
同样地,可以确定出该待检索语句对应的每一检索词与文档库中每一参考文档之间的匹配度。
步骤203,根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
其中,该第一匹配结果表征该待检索语句与文档库中的参考文档之间的匹配程度,可选地,该第一匹配结果可以是评分的形式,评分越高,表明待检索语句与参考文档之间的匹配程度越高,也即待检索语句与参考文档之间的相关性越高。
可选地,在确定出该待检索语句对应的每一检索词与文档库中每一参考文档之间的匹配度之后,针对每一参考文档,可以根据该待检索语句对应的每一检索词与该参考文档的匹配度,确定出待检索语句与该参考文档的第一匹配结果;可选地,可以对每一检索词与该参考文档的匹配度进行加权求和处理,得到该待检索语句与该参考文档的第一匹配结果。在实际应用中,该加权求和的方式可以依据现有的搜索引擎所采用的查询语句与查询文档的相关性评分算法的不同而不同;例如:在该相关性评分算法为BM25算法的情况下,可以将现有BM25算法中的词频参数(该词频参数是采用完全匹配确定出的检索词在参考文档中出现的次数)替换为本实施例中的检索词与参考文档的匹配度,其他参数保持不变,来计算待检索语句与参考文档的第一匹配结果,通过公式可表示为:
Figure 560354DEST_PATH_IMAGE008
(1)
与现有的BM25公式相比,该公式(1)中,采用检索词与参考文档的匹配度
Figure 375864DEST_PATH_IMAGE010
替换了现有BM25公式中的词频参数f d (即检索词在参考文档中出现的次数);其他的参数说明如下:
其中,q为待检索语句,w为待检索语句对应的检索词,可表示为q=[w 1,w 2,...,w k ,...,w N ],N为待检索语句中检索词的数量,d为文档库中的参考文档,可表示为D=[d 1,d 2,...,d k ,...,d M ],M为文档库中的参考文档的数量,f DW 为包含检索词w的参考文档的数量,f q 为检索词w在待检索语句q中出现的次数,L d 为参考文档d的长度,L ave 为参考文档d的平均长度,
Figure 788390DEST_PATH_IMAGE010
为检索词w与参考文档d的匹配度,k 1k 3以及b分别为可调参数,在实际应用中可根据需要灵活调整,其调整范围可参考现有技术中提供的可调范围,本实施例中对此不做限定。
进一步地,在确定出待检索语句与文档库中的每一参考文档的第一匹配结果之后,可以根据该多个第一匹配结果,确定待检索语句的检索结果;可选地,可以对该多个第一匹配结果进行降序排序,并将该排列顺序中前预设数量的参考文档作为与该待检索语句对应的检索结果,进而,可以将该检索结果发送至终端进行展示;对于该预设数量可以是服务器预设的固定值,也可以是获取的用户输入的检索数量等;可选地,还可以将降序排序中,第一匹配结果大于或者等于预设匹配阈值的参考文档作为与该待检索语句对应的检索结果;需要说明的是,本实施例中对根据第一匹配结果确定检索结果的方式并不做限定,可以根据用户需求灵活设置。
上述检索方法中,服务器通过对待检索语句进行词拆分处理,获得多个检索词,并确定每一检索词与文档库中每一参考文档的匹配度,其中,该匹配度与检索词和参考文档中的参考词的相似度相关;接着,服务器根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果;也就是说,本实施例中,服务器在对待检索语句进行相关文档检索的过程中,采用的是待检索语句的检索词与参考文档的参考词之间的相似度的方式,来确定待检索语句与参考文档之间的匹配度,相比于通过待检索语句的检索词在参考文档中完全匹配时出现的次数的方式来确定待检索语句与参考文档之间的相关性来说,由于完全匹配忽略了近义词或者同义词的匹配,导致匹配到的相似文档比较局限,数量较少;因此,本实施例中采用待检索语句的检索词与参考文档的参考词之间的相似度的方式,来确定待检索语句与参考文档之间的匹配度,在很大程度上增加了相似文档的检索概率,扩大了查询范围,进而能够增加相似文档的查询数量,还能提高ES搜索引擎的查全率和准确率。
图3为另一个实施例中检索方法的流程示意图。本实施例涉及的是服务器确定每一检索词与文档库中每一参考文档的匹配度的一种可选的实现过程,在上述实施例的基础上,如图3所示,上述步骤202包括:
步骤301,针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词。
其中,该阈值可以是服务器中预先设置的固定阈值,也可以是获取的用户输入的阈值,还可以是根据用户输入的检索条件进行转换后的阈值等,可选地,该检索条件可以是检索类型,比如:粗略检索、一般检索、深度检索等,不同的检索类型下可以对应不同的阈值大小,检索粒度越细,对应的该阈值可以越小。
可选地,可以采用预设的相似度计算算法,分别确定检索词与参考文档中各个参考词之间的相似度。
在本实施例的一个可选的实现过程中,如图4所示,对于确定检索词与参考文档中每一参考词的相似度的方式,还可以采用如下方式,包括以下步骤:
步骤401,对检索词进行向量化处理,获得检索词向量。
可选地,可以采用预设词向量转换模型,将检索词输入该词向量转换模型中,得到该检索词对应的检索词向量,其中,该检索词向量为一个行向量。
步骤402,对参考词进行向量化处理,获得参考词向量。
可选地,可以采用预设词向量转换模型,将每一参考词分别输入该词向量转换模型中,得到各个参考词分别对应的参考词向量,其中,该参考词向量为一个行向量。
步骤403,根据检索词向量和参考词向量确定检索词与参考词的相似度。
可选地,可以采用现有的任一种向量间的距离计算方式,计算检索词向量和参考词向量之间的距离,并根据该距离来确定检索词与参考词之间的相似度。
可选地,还可以通过将检索词向量和参考词向量进行向量相乘的方式来确定检索词与参考词之间的相似度;例如:可以根据包含(
Figure 222914DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度,其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置;在一种实现方式中,可以采用公式
Figure 935655DEST_PATH_IMAGE012
来计算检索词与参考词的相似度,将向量相乘之后的数值作为检索词与参考词之间的相似度sim(w,c)。
步骤302,根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
可选地,对于检索词与参考词之间的相似度大于等于阈值的参考词,可以认为该参考值与检索词为近义词或者同义词,进一步地,可以根据这些相似度大于等于阈值的参考词对应的相似度,来确定检索词与参考文档的匹配度。可选地,可以对这些相似度大于等于阈值的参考词对应的相似度进行加权求和处理,来得到检索词与该参考文档的匹配度。
在本实施例的一个可选的实现过程中,在基于BM25算法的情况下,如图5所示,该步骤302可以采用如下方式来实现,包括以下步骤:
步骤501,确定相似度大于等于阈值的参考词在参考文档中的词频。
也就是说,在确定出相似度大于等于阈值的参考词之后,分别确定这些参考词在该参考文档中完全匹配时出现的次数,即为该参考词在该参考文档中的词频。
步骤502,根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
可选地,可以根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度的乘积之和,确定检索词与参考文档的匹配度;通过公式可以表达为:
Figure 125328DEST_PATH_IMAGE014
(2)
其中:w为检索语句对应的检索词,c为参考文档d中相似度大于等于阈值的参考词,Count(c,d)表示相似度大于等于阈值的参考词c在参考文档d中的词频(即完全匹配时出现的次数),
Figure 431675DEST_PATH_IMAGE016
表示相似度大于等于阈值T的参考词对应的相似度,T小于1,
Figure 528944DEST_PATH_IMAGE010
为检索词与参考文档的匹配度;可选地,本实施例中阈值T可以取0.6。
需要说明的是,在阈值T等于1的情况下,该检索词与参考文档的匹配度
Figure 830613DEST_PATH_IMAGE010
即为检索词在参考文档中完全匹配时对应的词频f d =Count(w,d)。
本实施例中,针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词,接着,根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度;由于相似度大于等于阈值的参考词与检索词之间的相似程度较高,因此,采用相似度大于等于阈值的参考词的词频和相似度计算得到的检索词与参考文档之间的匹配度,更能准确表达出检索词与参考文档之间的匹配程度,避免那些相似度小于阈值的参考词对检索词与参考文档的匹配度的影响,能够提高检索词与参考文档的匹配度的计算准确性和计算精度,还能降低匹配度的计算量,提高服务器的运行效率。
图6为另一个实施例中检索方法的流程示意图。本实施例涉及的是服务器根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果的一种可选的实现过程,在上述实施例的基础上,如图6所示,上述步骤203包括:
步骤601,确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新。
其中,该第二匹配结果用于表征待检索语句与参考文档中段落的相似度,可选地,该第二匹配结果可以是待检索语句与参考文档中的多个段落的相似度中的最大相似度。对于现有的BM25算法,其考虑的是待检索语句与参考文档的整个篇幅内容的相关性,得到的是与待检索语句最相关的多个参考文档,而对于检索到的整个参考文档,用户并不容易直接从整个参考文档中确定出相关性较高的文本片段;基于此,本实施例中,增加对待检索语句与参考文档的连续文档片段之间的相关性判断,并得到参考文档中相关性最高的文档片段(即段落),以提供给用户更直观的检索效果。
可选地,该参考文档可以包括多个段落,每个段落可以是预先分割好的,也可以是根据预设分割算法对参考文档进行的实时分割处理;该预设分割算法可以是基于参考文档的结构进行文档分割的,比如:段落标记、标点符号等;也可以是基于固定文本长度和滑动窗口的方式进行文档分割的,比如:每次分割取连续512个字,每次分割窗口步进24个字;优选地,可以采用基于固定文本长度和滑动窗口的方式对参考文档进行分割,得到该参考文档对应的多个段落。
进一步地,可以分别确定待检索语句与该参考文档的每一段落之间的相似度,并将最大相似度作为待检索语句与该参考文档的第二匹配结果;接着,可以采用待检索语句与该参考文档段落的第二匹配结果,对待检索语句与该参考文档的第一匹配结果进行更新,得到更新后的待检索语句与该参考文档的第一匹配结果。可选地,可以采用加权求和的方式对第一匹配结果和第二匹配结果进行处理,例如:可以根据包含(
Figure 597712DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,也就是上述BM25 new P 2为第二匹配结果,
Figure 515989DEST_PATH_IMAGE006
为权重系数且0<
Figure 885791DEST_PATH_IMAGE006
<1;可选地,
Figure 182911DEST_PATH_IMAGE006
可以为0.5,也可以大于0.5。
步骤602,基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果。
可选地,对于结合了待检索语句与参考文档的参考词的第一匹配结果和待检索语句与参考文档的段落的第二匹配结果后,得到的更新后的待检索语句与参考文档之间的第一匹配结果,可以对各个参考文档的第一匹配结果进行降序排序,进而根据预设筛选条件从降序排序的各个参考文档中,筛选出满足该预设筛选条件的多个参考文档作为待检索语句的检索结果;可选地,该预设筛选条件可以是检索文档数量,也可以是检索到的文档与待检索语句的匹配度阈值,本实施例中对预设筛选条件并不做限定。
可选地,该检索结果中即可以包括匹配度较高的多个参考完档,也可以包括每个参考文档中至少一个匹配度较高的段落,提高检索结果的智能化。
本实施例中,服务器通过确定用于表征待检索语句与参考文档中段落的相似度的第二匹配结果,并根据第二匹配结果对参考文档的第一匹配结果进行更新,接着,基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果;也就是说,本实施例中,在进行文档检索时,综合考虑了待检索语句与参考文件的参考词之间的匹配程度、以及待检索语句与参考文档的段落之间的匹配程度,即综合考虑了同义词及段落的相似度匹配,使得所检索到的文档与待检索语句之间的匹配度更高,检索到的文档的准确性更高,提高了检索的精细化和智能化,进而使得检索效果更好。
图7为另一个实施例中检索方法的流程示意图。本实施例涉及的是服务器确定待检索语句与参考文档的第二匹配结果的一种可选的实现过程,在上述实施例的基础上,如图7所示,上述步骤601包括:
步骤701,对待检索语句进行向量化处理,获得检索句向量。
可选地,可以采用预设句向量转换模型,将待检索语句输入该句向量转换模型中,得到该待检索语句对应的检索句向量,其中,该检索句向量为行向量;例如:该预设句向量转换模型可以是采用fastText或者BERT等预训练模型训练得到的;优选地,考虑到时间复杂度和准确率,本实施例中采用基于fastText的句向量转换模型。
可选地,也可以将该待检索语句的各个检索词分别输入上述词向量转换模型,得到每个检索词对应的检索词向量,接着,可以将每个检索词对应的检索词向量进行向量求和,得到该待检索语句对应的检索句向量,其中,该检索句向量与检索词向量的向量维度相同。
步骤702,对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量。
可选地,可以采用固定文本长度和滑动窗口的方式对参考文档进行分割,得到多个段落,针对每一段落,将该段落输入上述预设句向量转换模型,得到每一段落对应的参考句向量,其中,该参考句向量为行向量。
步骤703,根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度。
可选地,可以通过将检索句向量和参考句向量进行向量相乘的方式来确定待检索语句与段落之间的相似度;例如:可以根据包括(
Figure 511124DEST_PATH_IMAGE018
)的表达式,确定待检索语句与段落的相似度,其中,v q 为检索句向量,v p 为参考句向量,T为矩阵的转置,可以将向量相乘之后的数值作为待检索语句与段落的相似度。
步骤704,将相似度最大的段落对应的相似度,确定为第二匹配结果。
通过公式可表示为:
Figure 119960DEST_PATH_IMAGE020
(3)
其中,p i P=[p 1,p 2,...,p k ,...,p n ],P为参考文档d的整个段落,p i 为参考文档d的第i个段落,n为参考文档的段落总数。
本实施例中,服务器通过对待检索语句进行向量化处理,获得检索句向量,以及对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;接着,根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度;进而将相似度最大的段落对应的相似度,确定为第二匹配结果;也就是说,通过向量化处理和向量之间的相似度来计算待检索语句与参考文档的各个段落之间的相似度,能够提高相似度计算的准确性,进而提高待检索语句与段落之间的相似性判断的准确性,提高检索准确性和检索精度。
在一个实施例中,提供一种检索方法的完整实现过程,包括以下步骤:
步骤801,获取待检索语句,并对待检索语句进行长度截断,得到多个候选检索词,接着,基于参考文档的字体类型,对多个候选检索词进行字体类型转换,得到多个检索词;
步骤802,针对每一检索词,对检索词进行向量化处理,获得检索词向量;以及针对文档库中各个参考文档的每一参考词,对参考词进行向量化处理,获得参考词向量;
步骤803,根据检索词向量和参考文档的每一参考词的参考词向量确定检索词与每一参考词的相似度;
步骤804,确定相似度大于阈值的参考词在该参考文档中的词频,并根据各相似度大于阈值的参考词对应的词频以及各相似度大于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度;
步骤805,根据每一检索词与每一参考文档的匹配度,确定待检索语句与每一参考文档的第一匹配结果;
步骤806,对待检索语句进行向量化处理,获得检索句向量,以及对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;
步骤807,根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度,并将相似度最大的段落对应的相似度,确定为第二匹配结果;
步骤808,根据第二匹配结果对参考文档的第一匹配结果进行更新;
步骤809,基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的检索方法的检索装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个检索装置实施例中的具体限定可以参见上文中对于检索方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种检索装置,包括:获取模块901、第一确定模块902和第二确定模块903,其中:
获取模块901,用于对待检索语句进行词拆分处理,获得多个检索词;
第一确定模块902,用于确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
第二确定模块903,用于根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
在其中一个实施例中,第一确定模块902包括第一确定单元和第二确定单元;其中,第一确定单元,用于针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;第二确定单元,用于根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在其中一个实施例中,第一确定单元,具体用于对检索词进行向量化处理,获得检索词向量;以及对参考词进行向量化处理,获得参考词向量;根据检索词向量和参考词向量确定检索词与参考词的相似度。
在其中一个实施例中,第一确定单元,具体用于根据包含(
Figure 699977DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度;其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置。
在其中一个实施例中,第二确定单元,具体用于确定相似度大于等于阈值的参考词在参考文档中的词频;根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在其中一个实施例中,第二确定模块903包括第三确定单元和第四确定单元;其中,第三确定单元,用于确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新;该第二匹配结果用于表征待检索语句与参考文档中段落的相似度;第四确定单元,用于基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果。
在其中一个实施例中,第三确定单元,具体用于对待检索语句进行向量化处理,获得检索句向量;对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度; 将相似度最大的段落对应的相似度,确定为第二匹配结果。
在其中一个实施例中,第三确定单元,具体用于根据包含(
Figure 241817DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,P 2为第二匹配结果,
Figure 209773DEST_PATH_IMAGE006
为权重系数。
在其中一个实施例中,获取模块901,具体用于基于参考文档的字体类型对待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
在其中一个实施例中,获取模块901,具体用于对待检索语句进行长度截断,获取多个候选检索词;基于参考文档的字体类型对每一候选检索词进行字体类型转换,获得多个检索词。
上述检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文档库中的多个参考文档、每一参考文档中的多个参考词、每一参考词的词向量、每一参考文档的多个段落、以及每一段落的参考句向量等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检索方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对检索词进行向量化处理,获得检索词向量;对参考词进行向量化处理,获得参考词向量;根据检索词向量和参考词向量确定检索词与参考词的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据包含(
Figure 712429DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度;其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定相似度大于等于阈值的参考词在参考文档中的词频;根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新;基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果;其中,该第二匹配结果用于表征待检索语句与参考文档中段落的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待检索语句进行向量化处理,获得检索句向量;对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度;将相似度最大的段落对应的相似度,确定为第二匹配结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据包含(
Figure 955192DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,P 2为第二匹配结果,
Figure 820380DEST_PATH_IMAGE006
为权重系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于参考文档的字体类型对待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待检索语句进行长度截断,获取多个候选检索词;基于参考文档的字体类型对每一候选检索词进行字体类型转换,获得多个检索词。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对检索词进行向量化处理,获得检索词向量;对参考词进行向量化处理,获得参考词向量;根据检索词向量和参考词向量确定检索词与参考词的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据包含(
Figure 356973DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度;其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定相似度大于等于阈值的参考词在参考文档中的词频;根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新;基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果;其中,该第二匹配结果用于表征待检索语句与参考文档中段落的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待检索语句进行向量化处理,获得检索句向量;对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度;将相似度最大的段落对应的相似度,确定为第二匹配结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据包含(
Figure 471559DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,P 2为第二匹配结果,
Figure 721275DEST_PATH_IMAGE006
为权重系数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于参考文档的字体类型对待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待检索语句进行长度截断,获取多个候选检索词;基于参考文档的字体类型对每一候选检索词进行字体类型转换,获得多个检索词。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一检索词与文档库中每一参考文档的匹配度;该匹配度与检索词和参考文档中的参考词的相似度相关;
根据每一检索词对应的匹配度确定待检索语句与每一参考文档的第一匹配结果,根据待检索语句与每一参考文档的第一匹配结果确定待检索语句的检索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对每一检索词,确定检索词与参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;根据相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对检索词进行向量化处理,获得检索词向量;对参考词进行向量化处理,获得参考词向量;根据检索词向量和参考词向量确定检索词与参考词的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据包含(
Figure 113073DEST_PATH_IMAGE002
)的表达式,确定检索词与参考词的相似度;其中,v w 为检索词向量,v c 为参考词向量,T为矩阵的转置。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定相似度大于等于阈值的参考词在参考文档中的词频;根据各相似度大于等于阈值的参考词对应的词频以及各相似度大于等于阈值的参考词对应的相似度,确定检索词与参考文档的匹配度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定待检索语句与参考文档的第二匹配结果,根据第二匹配结果对参考文档的第一匹配结果进行更新;基于各个参考文档的第一匹配结果的降序顺序,确定待检索语句的检索结果;其中,该第二匹配结果用于表征待检索语句与参考文档中段落的相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待检索语句进行向量化处理,获得检索句向量;对参考文档中各个段落进行向量化处理,获得每一段落对应的参考句向量;根据检索句向量与每一参考句向量,确定待检索语句与每一段落之间的相似度;将相似度最大的段落对应的相似度,确定为第二匹配结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据包含(
Figure 953990DEST_PATH_IMAGE004
)的表达式,对参考文档的第一匹配结果进行更新;其中,P 1为参考文档的第一匹配结果,P 2为第二匹配结果,
Figure 24714DEST_PATH_IMAGE006
为权重系数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于参考文档的字体类型对待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待检索语句进行长度截断,获取多个候选检索词;基于参考文档的字体类型对每一候选检索词进行字体类型转换,获得多个检索词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (14)

1.一种检索方法,其特征在于,所述方法包括:
对待检索语句进行词拆分处理,获得多个检索词;
确定每一所述检索词与文档库中每一参考文档的匹配度;所述匹配度与所述检索词和所述参考文档中的参考词的相似度相关;
根据每一所述检索词对应的匹配度确定所述待检索语句与每一所述参考文档的第一匹配结果,根据所述待检索语句与每一所述参考文档的第一匹配结果确定所述待检索语句的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述确定每一所述检索词与文档库中每一参考文档的匹配度,包括:
针对每一所述检索词,确定所述检索词与所述参考文档中每一参考词的相似度,并确定所有参考词中相似度大于等于阈值的参考词;
根据所述相似度大于等于阈值的参考词对应的相似度,确定所述检索词与所述参考文档的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述确定所述检索词与所述参考文档中每一参考词的相似度,包括:
对所述检索词进行向量化处理,获得检索词向量;
对所述参考词进行向量化处理,获得参考词向量;
根据所述检索词向量和所述参考词向量确定所述检索词与所述参考词的相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述检索词向量和所述参考词向量确定所述检索词与所述参考词的相似度,包括:
根据包含(
Figure 565181DEST_PATH_IMAGE002
)的表达式,确定所述检索词与所述参考词的相似度;其中,v w 为所述检索词向量,v c 为所述参考词向量,T为矩阵的转置。
5.根据权利要求2所述的方法,其特征在于,所述根据所述相似度大于等于阈值的参考词对应的相似度,确定所述检索词与所述参考文档的匹配度,包括:
确定所述相似度大于等于阈值的参考词在所述参考文档中的词频;
根据各所述相似度大于等于阈值的参考词对应的词频以及各所述相似度大于等于阈值的参考词对应的相似度,确定所述检索词与所述参考文档的匹配度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待检索语句与每一所述参考文档的第一匹配结果确定所述待检索语句的检索结果,包括:
确定所述待检索语句与所述参考文档的第二匹配结果,根据所述第二匹配结果对所述参考文档的第一匹配结果进行更新;所述第二匹配结果用于表征所述待检索语句与所述参考文档中段落的相似度;
基于各个所述参考文档的第一匹配结果的降序顺序,确定所述待检索语句的检索结果。
7.根据权利要求6所述的方法,其特征在于,所述确定所述待检索语句与所述参考文档的第二匹配结果,包括:
对所述待检索语句进行向量化处理,获得检索句向量;
对所述参考文档中各个段落进行向量化处理,获得每一所述段落对应的参考句向量;
根据所述检索句向量与每一所述参考句向量,确定所述待检索语句与每一所述段落之间的相似度;
将相似度最大的段落对应的相似度,确定为所述第二匹配结果。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第二匹配结果对所述参考文档的第一匹配结果进行更新,包括:
根据包含(
Figure 811486DEST_PATH_IMAGE004
)的表达式,对所述参考文档的第一匹配结果进行更新;其中,P 1为所述参考文档的第一匹配结果,P 2为所述第二匹配结果,
Figure 823305DEST_PATH_IMAGE006
为权重系数。
9.根据权利要求1所述的方法,其特征在于,所述对待检索语句进行词拆分处理,获得多个检索词,包括:
基于参考文档的字体类型对所述待检索语句进行字体类型转换,对转换后的语句进行长度截断,获得多个检索词。
10.根据权利要求1所述的方法,其特征在于,所述对待检索语句进行词拆分处理,获得多个检索词,包括:
对待检索语句进行长度截断,获取多个候选检索词;
基于参考文档的字体类型对每一所述候选检索词进行字体类型转换,获得多个检索词。
11.一种检索装置,其特征在于,所述装置包括:
获取模块,用于对待检索语句进行词拆分处理,获得多个检索词;
第一确定模块,用于确定每一所述检索词与文档库中每一参考文档的匹配度;所述匹配度与所述检索词和所述参考文档中的参考词的相似度相关;
第二确定模块,用于根据每一所述检索词对应的匹配度确定所述待检索语句与每一所述参考文档的第一匹配结果,根据所述待检索语句与每一所述参考文档的第一匹配结果确定所述待检索语句的检索结果。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202211118427.2A 2022-09-15 2022-09-15 检索方法、装置、计算机设备、存储介质和程序产品 Pending CN115203379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118427.2A CN115203379A (zh) 2022-09-15 2022-09-15 检索方法、装置、计算机设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118427.2A CN115203379A (zh) 2022-09-15 2022-09-15 检索方法、装置、计算机设备、存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN115203379A true CN115203379A (zh) 2022-10-18

Family

ID=83572290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118427.2A Pending CN115203379A (zh) 2022-09-15 2022-09-15 检索方法、装置、计算机设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN115203379A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质
CN116776869A (zh) * 2023-06-30 2023-09-19 荣耀终端有限公司 文档评分方法和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
WO2019160133A1 (ja) * 2018-02-19 2019-08-22 日本電信電話株式会社 情報管理装置、情報管理方法及び情報管理プログラム
CN110929498A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN112115232A (zh) * 2020-09-24 2020-12-22 腾讯科技(深圳)有限公司 一种数据纠错方法、装置及服务器
CN112541069A (zh) * 2020-12-24 2021-03-23 山东山大鸥玛软件股份有限公司 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN113094519A (zh) * 2021-05-07 2021-07-09 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
WO2019160133A1 (ja) * 2018-02-19 2019-08-22 日本電信電話株式会社 情報管理装置、情報管理方法及び情報管理プログラム
CN110929498A (zh) * 2018-09-20 2020-03-27 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN112115232A (zh) * 2020-09-24 2020-12-22 腾讯科技(深圳)有限公司 一种数据纠错方法、装置及服务器
CN112541069A (zh) * 2020-12-24 2021-03-23 山东山大鸥玛软件股份有限公司 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN113094519A (zh) * 2021-05-07 2021-07-09 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质
CN116776869A (zh) * 2023-06-30 2023-09-19 荣耀终端有限公司 文档评分方法和电子设备

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN115203379A (zh) 检索方法、装置、计算机设备、存储介质和程序产品
US10311096B2 (en) Online image analysis
US11016997B1 (en) Generating query results based on domain-specific dynamic word embeddings
US20080114725A1 (en) Method and System for High Performance Data Metatagging and Data Indexing Using Coprocessors
US10528662B2 (en) Automated discovery using textual analysis
US10915707B2 (en) Word replaceability through word vectors
WO2021139343A1 (zh) 基于自然语言处理的数据分析方法、装置和计算机设备
CN106708929B (zh) 视频节目的搜索方法和装置
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN106557777A (zh) 一种基于SimHash改进的Kmeans聚类方法
CN109344246B (zh) 一种电子问卷生成方法、计算机可读存储介质及终端设备
CA3085463A1 (en) Search engine for identifying analogies
CN114841161A (zh) 事件要素抽取方法、装置、设备、存储介质和程序产品
CN111125366B (zh) 文本分类方法及装置
CN114153995B (zh) 医学术语的处理方法、装置、计算机设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
JP7213890B2 (ja) 高速化された大規模な類似度計算
CN115858878A (zh) 一种分层机构名称多维匹配方法、装置、设备及存储介质
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
CN115422429A (zh) 关联词的确定方法、装置、计算机设备和存储介质
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221018

RJ01 Rejection of invention patent application after publication