CN112800181A - 文本检索方法、装置、计算机设备和存储介质 - Google Patents
文本检索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112800181A CN112800181A CN202110180732.3A CN202110180732A CN112800181A CN 112800181 A CN112800181 A CN 112800181A CN 202110180732 A CN202110180732 A CN 202110180732A CN 112800181 A CN112800181 A CN 112800181A
- Authority
- CN
- China
- Prior art keywords
- text
- retrieval
- version
- model
- text vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 594
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 37
- 230000001960 triggered effect Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000009411 base construction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001112285 Berta Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本检索方法、装置、计算机设备和存储介质。所述方法包括:获取待检索文本;确定第一文本向量模型的版本更新状态;若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。采用本方法能够提高文本检索的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本检索方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,人们可以借助计算机可以更加方便的管理更多的文档,为了快速查找计算机所管理的文档,需要通过文本检索,如通过关键字匹配,从众多文档中查询得到目标文档。随着文本检索技术的不断发展,结合机器学习模型,以实现更准确、高效的文本检索,已经成为文本检索处理的热门趋势。
然而,目前文本检索采用的机器学习模型往往需要进行频繁更新,通过机器学习模型进行文本检索时,容易导致机器学习模型处理的数据不一致,影响文本检索的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本检索的准确性的文本检索方法、装置、计算机设备和存储介质。
一种文本检索方法,所述方法包括:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,所述方法还包括:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,在确定第一文本向量模型的版本更新状态之前,还包括:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库,包括:查询预设的文本知识库;通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型,包括:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库,包括:通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,确定第一文本向量模型的版本更新状态,包括:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在其中一个实施例中,所述方法还包括:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
一种文本检索装置,所述装置包括:
文本获取模块,用于获取待检索文本;
更新状态确定模块,用于确定第一文本向量模型的版本更新状态;
模型处理模块,用于若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
文本检索模块,用于将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,所述装置还包括旧版模型检索模块,用于若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,所述装置还包括模型更新触发模块和检索库构建模块;其中:模型更新触发模块,用于若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;检索库构建模块,用于基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,检索库构建模块包括知识库查询模块、检索文本处理模块和检索文本向量处理模块;其中:知识库查询模块,用于查询预设的文本知识库;检索文本处理模块,用于通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;检索文本向量处理模块,用于基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,模型更新触发模块,还用于若通过检索配置节点接收到版本更新节点发送的更新版本信息则,通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;检索库构建模块,还用于通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,更新状态确定模块,还用于若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库则,确定第一文本向量模型的版本更新状态为版本更新完成。
在其中一个实施例中,所述装置还包括数据删除模块,用于若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:查询预设的文本知识库;通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:查询预设的文本知识库;通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
上述文本检索方法、装置、计算机设备和存储介质,在第一文本向量模型的版本更新状态为版本更新完成时,通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量,并将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。在文本检索的处理过程中,在确定第一文本向量模型的版本更新完成时,通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,并通过第二文本向量模型对应的第二文本检索库进行向量匹配,可以确保文本检索处理过程中数据版本的一致性,从而提高了文本检索的准确性。
附图说明
图1为一个实施例中文本检索方法的应用环境图;
图2为一个实施例中文本检索方法的流程示意图;
图3为一个实施例中构建第二文本检索库的流程示意图;
图4为一个实施例中文本向量模型更新的流程示意图;
图5为一个实施例中文本检索装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户通过终端102输入待检索文本,终端102将待检索文本发送至服务器104,服务器104接收到待检索文本后,确定第一文本向量模型的版本更新状态,在第一文本向量模型的版本更新状态为版本更新完成时,服务器104通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量,并将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果,服务器104可以将文本检索结果反馈至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本检索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待检索文本。
其中,待检索文本为需要进行文本检索处理的文本数据,待检索文本可以由终端获得并发送给服务器。具体地,用户可以在终端通过输入设备输入待检索文本,终端将待检索文本发送至服务器。
步骤204,确定第一文本向量模型的版本更新状态。
其中,文本向量模型用于对输入的文本进行文本特征提取,具体可以进行文本向量提取,从而输出能够表征文本特征的文本向量。文本向量模型可以基于机器学习算法构建,如BERT(Bidirectional Encoder Representation from Transformers,双向变换的编码器)算法、Roberta(A Robustly Optimized BERT Pretraining Approach,一种鲁棒优化的BERT预训练方法)算法、各种神经网络算法和深度学习算法等。文本向量模型根据文本检索的需要预先训练得到。第一文本向量模型指未进行版本更新的文本向量模型,即第一文本向量模型为旧版本的文本向量模型,版本更新状态指第一文本向量模型在进行版本更新过程中版本更新处理所处的状态,如更新完成、更新失败、更新未开始等。
具体地,服务器确定旧版本的第一文本向量模型的版本更新状态,具体可以由服务器查询第一文本向量模型的模型信息,根据该模型信息确定第一文本向量模型是否触发进行版本更新,进而确定第一文本向量模型对应的版本更新状态。
步骤206,若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量。
其中,版本更新状态为版本更新完成,表明已完成版本更新,即已经配置好新版本的文本向量模型。版本更新后的第二文本向量模型为新版本的文本向量模型,第二文本向量模型可以基于第一文本向量模型对应的训练数据经过版本更新得到,也可以为全新的文本向量模型。例如,第一文本向量模型可以基于数据集A训练得到,第二文本向量模型可以基于数据集A和数据集B训练得到,第二文本向量模型也可以基于数据集C训练得到。第二文本向量为通过第二文本向量模型对待检索文本进行文本向量提取后,获得的表征待检索文本的特征的向量。
具体地,服务器确定第一文本向量模型的版本更新状态后,若版本更新状态为版本更新完成,表明文本向量模型已经完成版本更新,已经配置好更新后的第二文本向量模型,则服务器通过由版本更新后的第二文本向量模型对待检索文本进行文本向量提取。具体可以由服务器将待检索文本输入至第二文本向量模型中,由第二文本向量模型对待检索文本进行文本向量提取,并输出待检索文本的第二文本向量。
此外,在版本更新状态为版本更新未完成时,表明文本向量模型未完成版本更新,如第二文本向量模型未完成更新,或第二文本检索库未完成构建,若通过第二文本向量模型对待检索文本进行文本向量提取处理,则会导致文本检索处理中的数据不一致,降低文本检索的准确性。此时,可以通过旧版本的第一文本向量模型进行文本检索处理,从而确保文版检索中数据的一致性,提高文本检索的准确性。
步骤208,将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
其中,第二文本检索库存储有各种文本信息对应的文本向量,通过与第二文本检索库中的文本向量进行匹配,可以查询得到对应的文本信息。第二文本检索库与第二文本向量模型对应预先设置,即第二文本检索库中存储的各种文本向量,是由第二文本向量模型针对各种文本信息进行文本向量提取处理得到的。
具体地,获得待检索文本的第二文本向量后,服务器将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,具体可由服务器查询与第二文本向量模型对应的第二文本检索库,将第二文本向量在第二文本检索库中进行向量匹配,如可以将第二文本向量与第二文本检索库中的各文本向量进行匹配,根据匹配结果得到待检索文本的文本检索结果。具体可以由服务器将第二文本检索库中与第二文本向量匹配成功的文本向量所对应的文本信息,确定为待检索文本的文本检索结果。
上述文本检索方法中,在第一文本向量模型的版本更新状态为版本更新完成时,通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量,并将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。在文本检索的处理过程中,在确定第一文本向量模型的版本更新完成时,通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,并通过第二文本向量模型对应的第二文本检索库进行向量匹配,可以确保文本检索处理过程中数据版本的一致性,从而提高了文本检索的准确性。
在一个实施例中,文本检索方法还包括:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
其中,第一文本向量为通过第一文本向量模型对待检索文本进行文本向量提取后,获得的表征待检索文本的特征的向量。第一文本检索库存储有各种文本信息对应的文本向量,通过与第一文本检索库中的文本向量进行匹配,可以查询得到对应的文本信息。第一文本检索库与第一文本向量模型对应预先设置,即第一文本检索库中存储的各种文本向量,是由第一文本向量模型针对各种文本信息进行文本向量提取处理得到的。
具体地,服务器确定第一文本向量模型的版本更新状态后,若版本更新状态为版本更新未完成,表明第一文本向量模型未完成版本更新,未配置好更新后的第二文本向量模型,则服务器直接通过第一文本向量模型对待检索文本进行文本向量提取。具体可以由服务器将待检索文本输入至第一文本向量模型中,由第一文本向量模型对待检索文本进行文本向量提取,并输出待检索文本的第一文本向量。获得待检索文本的第一文本向量后,服务器将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,具体可由服务器查询与第一文本向量模型对应的第一文本检索库,将第一文本向量在第一文本检索库中进行向量匹配,如可以将第一文本向量与第一文本检索库中的各文本向量进行匹配,根据匹配结果得到待检索文本的文本检索结果。具体可以由服务器将第一文本检索库中与第一文本向量匹配成功的文本向量所对应的文本信息,确定为待检索文本的文本检索结果。
本实施例中,在第一文本向量模型未完成版本更新时,通过旧版本的第一文本向量模型进行文本检索处理,从而确保文版检索中数据的一致性,提高文本检索的准确性。
在一个实施例中,在确定第一文本向量模型的版本更新状态之前,还包括:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
其中,版本更新事件用于触发针对第一文本向量模型的版本更新,具体可以为检测到新版本的文本向量模型,或接收到推送的新版本的文本向量模型等。文本知识库预先构建,其存储有各种文本信息。
具体地,在确定第一文本向量模型的版本更新状态之前,服务器检测到针对第一文本向量模型进行版本更新的版本更新事件时,如接收到推送的新版本的文本向量模型,或检测到有新版本可以进行更新时,触发版本更新事件,服务器确定版本更新后的第二文本向量模型。得到第二文本向量模型后,服务器基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。具体应用时,服务器可以查询预设的文本知识库,并通过第二文本向量模型对文本知识库中的文本信息进行文本向量提取,根据各文本信息对应的文本向量构建第二文本向量模型对应的第二文本检索库。
本实施例中,在触发针对第一文本向量模型进行版本更新的版本更新事件时,通过版本更新后的第二文本向量模型与预设的文本知识库,建立第二文本向量模型对应的第二文本检索库,从而使第二文本检索库的中的数据能够与第二文本向量模型,在切换至新版本的第二文本向量模型进行文本检索时,可以确保数据一致性,提高文本检索的准确性。
在一个实施例中,如图3所示,基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库包括:
步骤302,查询预设的文本知识库。
其中,文本知识库存储有各种文本信息,文本检索及为检索出文本知识库中对应关联的文本信息。具体地,服务器在构建第二文本向量模型对应的第二文本检索库时,查询预设的文本知识库。
步骤304,通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量。
其中,文本知识库中的各检索文本即为文本知识库中存储的各种文本信息,服务器第二文本向量模型对文本知识库中的各检索文本分别进行文本向量提取,得到各检索文本对应的第二检索文本向量。具体实现时,服务器可以将文本知识库中的各检索文本分别输入第二文本向量模型进行文本向量提取,获得第二文本向量模型输出的各检索文本对应的第二检索文本向量。
步骤306,基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
服务器根据获得的各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。具体实现时,服务器可以创建文本检索库并建文本检索库与第二文本向量模型之间的映射关系,服务器将获得的各检索文本对应的第二检索文本向量,分别存储至创建的文本检索库中,得到第二文本向量模型对应的第二文本检索库。
本实施例中,在触发针对第一文本向量模型进行版本更新时,服务器通过针对版本更新后获得的第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库,从而实现对第二文本向量模型的更新,确保通过第二文本检索库进行文本检索能够时,涉及的文本向量能够与第二文本向量模型对应,确保数据版本的一致性,提高文本检索的准确性。
在一个实施例中,若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型,包括:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系。
其中,检索配置节点为用于对文本检索处理中的文本向量模型和文本检索库进行配置的节点,版本更新节点用于推送针对文本向量模型的更新信息,具体可以包括更新版本信息,如版本号、版本名称等;更新信息还可以包括版本更新后的文本向量模型。模型节点是对各种版本的文本向量模型进行管控的节点,检索库节点是对各种版本的文本向量模型对应的文本检索库进行管控的节点。可以理解,为确保文本检索处理时数据版本的一致性,需要通过相同版本的文本向量模型和文本检索库进行文本检索处理,从而提高文本检索处理的准确性。在具体实现时,检索配置节点、版本更新节点、模型节点和检索库节点可以处于同一服务器内,也可以分设在不同的服务器中。
具体地,服务器通过检索配置节点接收到版本更新节点发送的更新版本信息时,表明需要对文版检索处理中的文本向量模型进行更新。其中,更新版本信息可以包括版本号。版本更新节点检测到需要进行版本更新处理时,如版本更新节点接收到版本更新指令,或版本更新节点获得版本更新后得到的第二文本向量模型时,需要触发版本更新处理,则由版本更新节点确定第二文本向量模型的更新版本信息后,向检索配置节点发送更新版本信息,以指示检索配置节点进行文本向量模型更新处理。检索配置节点将更新版本信息发送至模型节点和检索库节点,从而提示模型节点和检索库节点需要更新的文本向量模型的更新版本信息。进一步地,通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,模型节点接收到第二文本向量模型后,建立第二文本向量模型和更新版本信息之间的映射关系,从而实现对第二文本向量模型的版本管控。
进一步地,基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库,包括:通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
其中,新增文本检索库为检索库节点根据更新版本信息创建的新的文本检索库,用于存储与第二文本向量模型对应的文本向量。具体地,在通过检索配置节点将更新版本信息发送至检索库节点,检索库节点接收到更新版本信息后,检索库节点在本地存储空间中创建与更新版本信息对应的新增文本检索库。进一步地,由模型节点通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点。具体可以由版本更新节点查询预设的文本知识库中的各检索文本,将各检索文本发送至检索库节点,并由检索库节点将各检索文本转发至模型节点,模型节点通过第二文本向量模型对接收到的各检索文本分别进行文本向量提取,得到各检索文本对应的第二检索文本向量,并将各检索文本对应的第二检索文本向量发送至检索库节点。检索库接收到模型节点发送的各检索文本对应的第二检索文本向量后,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库,从而实现第二文本检索库的构建。
本实施例中,通过检索配置节点、版本更新节点、模型节点和检索库节点实现文本向量模型和对应的文本检索库的更新处理,可以确保文本检索时数据版本的一致性,提高文本检索的准确性。
在一个实施例中,确定第一文本向量模型的版本更新状态,包括:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
具体地,在服务器确定第一文本向量模型的版本更新状态时,可以确定是否已经完成文本向量模型的模型更新,以及是否完成更新后模型对应文本检索库的建立。由服务器确定模型节点是否存储有版本更新后的第二文本向量模型,并确定检索库节点是否存储有第二文本向量模型对应的第二文本检索库。具体实现时,可以根据更新版本信息在模型节点中进行模型查询,查询模型节点是否存储有与更新版本信息存在映射关系的文本向量模型,从而确定模型节点是否完成了文本向量模型的更新。另一方面,可以通过更新版本信息,查询检索库节点是否存储有与更新版本信息对应的文本检索库,从而确定检索库节点是否存储有版本更新后的第二文本向量模型对应的第二文本检索库。在模型节点存储有第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库时,表明模型节点和检索库节点分别存储有更新后的文本向量模型,以及与更新后的文本向量模型对应的文本检索库,则服务器确定第一文本向量模型的版本更新状态为版本更新完成。否则,服务器确定第一文本向量模型的版本更新状态为版本更新未完成,以通过旧版本的文本向量模型进行文本检索处理。
本实施例中,在模型节点存储有第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库时,才确定第一文本向量模型的版本更新完成,从而确保通过更新后的文本向量模型进行文本检索处理时版本数据的一致性,提高了文本检索的准确性。
在一个实施例中,文本检索方法还包括:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
具体地,在服务器获得第一文本向量模型的版本更新状态,确定版本更新状态为版本更新完成时,表明已经完成对第一文本向量模型的更新,可以通过更新后的第二文本向量模型进行文本检索处理,则将第一文本向量模型和与第一文本向量模型对应的第一文本检索库删除,从而能够及时释放存储空间,提高内存资源的利用。
在一个实施例中,如图4所示,文本检索系统包括版本更新节点、检索配置节点、模型节点和检索库节点。版本更新节点用于发布文本向量模型版本更新的信息;检索配置节点用于配置模型节点和检索库节点的版本使用;模型节点用于管控文本向量模型,检索库节点用于管控文本向量模型对应的文本检索库。具体地,版本更新节点可以为离线更新节点,对文本向量模型进行离线更新,离线是指在平台内部处理,与外部的用户之间没有联系。在第一时间插入文本向量模型和文本检索库,版本更新节点从知识库获取文本,并将文本传输给检索库节点,检索库节点将文本发送至模型节点,模型节点采用V1版本的文本向量模型对文本进行计算,得到V1版本的文本向量,将V1版本的文本向量存储到检索库节点中。检索库节点中不存储文本,仅存储文本向量。版本更新节点、检索配置节点、模型节点和检索库节点中均存储一个版本列表,该版本列表中记录有存在哪些版本,当前使用的版本号等信息。
在第二时间进行文本向量模型更新,版本更新节点告知检索配置节点有个更新版本V2,配置中心将版本V2的版本信息,如版本号同步给模型节点和检索库节点。版本更新节点在模型节点中新增V2版本的文本向量模型,V2版本的文本向量模型更新完后,版本更新节点通知检索库节点新建空间并增加V2版本的向量,并从知识库中文本信息发送给检索库节点;检索库节点将文本信息及需要采用V2版本文本向量模型计算向量的信息一并发送给模型节点,模型节点采用V2版本的文本向量模型对文本进行向量计算,得到V2版本的文本向量,模型节点将V2版本的文本向量发送给检索库节点,并存储在新建的用于存储V2版本的文本向量的空间中。
在完成文本向量模型的更新后,版本更新节点通知检索配置节点切换到新版本号,检索配置节点通知模型节点和检索库节点统一切换版本。版本更新节点再通知模型节点删除旧模型和检索库节点删除旧向量。另一方面,还可以将版本号等配置信息同步至各节点的共享存储,以备模型节点或检索库节点发生异常或故障时,可以通过共享存储自行恢复,从而确保文本检索处理的正常运行。
相比于传统的文本检索处理中,在检索库节点中存储有文本向量,当模型节点中的文本向量模型更新后,检索时文本输入到模型节点计算时,变为新的向量,因文本向量与检索库节点中存储的文本向量不一致,则无法匹配到。而且,在检索库节点有多个,版本更新节点发布的文本在检索库节点A中更新,在检索库节点B中未更新,部分检索库节点中的向量更新,部分未更新,导致提供的检索服务不稳定,降低文本检索准确性。本实施例中,在文本向量模型进行版本更新的过程中,在模型节点和检索库节点模块中维护不同的版本号,在版本更新前,均采用旧版本进行文本检索处理;在版本统一切换后,采用新版本进行文本检索处理,确保每个时刻数据查询结果的一致性,提高了文本检索的准确性。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种文本检索装置500,包括:文本获取模块502、更新状态确定模块504、模型处理模块506和文本检索模块508,其中:
文本获取模块502,用于获取待检索文本;
更新状态确定模块504,用于确定第一文本向量模型的版本更新状态;
模型处理模块506,用于若版本更新状态为版本更新完成,则通过版本更新后第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
文本检索模块508,用于将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,还包括旧版模型检索模块,用于若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,还包括模型更新触发模块和检索库构建模块;其中:模型更新触发模块,用于若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;检索库构建模块,用于基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,检索库构建模块包括知识库查询模块、检索文本处理模块和检索文本向量处理模块;其中:知识库查询模块,用于查询预设的文本知识库;检索文本处理模块,用于通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;检索文本向量处理模块,用于基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,模型更新触发模块,还用于若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;检索库构建模块,还用于通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在一个实施例中,更新状态确定模块504,还用于若模型节点存储有第二文本向量模型、且检索库节点存储有版本更新后的第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在一个实施例中,还包括数据删除模块,用于若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
关于文本检索装置的具体限定可以参见上文中对于文本检索方法的限定,在此不再赘述。上述文本检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检索方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:查询预设的文本知识库;通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第二文本向量;
将第二文本向量在与第二文本向量模型对应的第二文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若版本更新状态为版本更新未完成,则通过第一文本向量模型对待检索文本进行文本向量提取,得到待检索文本的第一文本向量;将第一文本向量在与第一文本向量模型对应的第一文本检索库中进行向量匹配,获得待检索文本的文本检索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若触发针对第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;基于第二文本向量模型和预设的文本知识库,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:查询预设的文本知识库;通过第二文本向量模型对文本知识库中的各检索文本进行文本向量提取,得到各检索文本对应的第二检索文本向量;基于各检索文本对应的第二检索文本向量,构建第二文本向量模型对应的第二文本检索库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过检索配置节点将更新版本信息发送至模型节点和检索库节点;通过版本更新节点,将版本更新后的第二文本向量模型发送至模型节点,以使模型节点建立第二文本向量模型和更新版本信息之间的映射关系;通过检索库节点创建与更新版本信息对应的新增文本检索库;由模型节点,通过第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各检索文本对应的第二检索文本向量发送至检索库节点;通过检索库节点,将各检索文本对应的第二检索文本向量存储至新增文本检索库中,得到第二文本向量模型对应的第二文本检索库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若模型节点存储有版本更新后的第二文本向量模型、且检索库节点存储有第二文本向量模型对应的第二文本检索库,则确定第一文本向量模型的版本更新状态为版本更新完成。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若版本更新状态为版本更新完成,则删除第一文本向量模型和与第一文本向量模型对应的第一文本检索库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本检索方法,其特征在于,所述方法包括:
获取待检索文本;
确定第一文本向量模型的版本更新状态;
若所述版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对所述待检索文本进行文本向量提取,得到所述待检索文本的第二文本向量;
将所述第二文本向量在与所述第二文本向量模型对应的第二文本检索库中进行向量匹配,获得所述待检索文本的文本检索结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述版本更新状态为版本更新未完成,则通过所述第一文本向量模型对所述待检索文本进行文本向量提取,得到所述待检索文本的第一文本向量;
将所述第一文本向量在与所述第一文本向量模型对应的第一文本检索库中进行向量匹配,获得所述待检索文本的文本检索结果。
3.根据权利要求1所述的方法,其特征在于,在所述确定第一文本向量模型的版本更新状态之前,还包括:
若触发针对所述第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型;
基于所述第二文本向量模型和预设的文本知识库,构建所述第二文本向量模型对应的第二文本检索库。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二文本向量模型和预设的文本知识库,构建所述第二文本向量模型对应的第二文本检索库,包括:
查询预设的文本知识库;
通过所述第二文本向量模型对所述文本知识库中的各检索文本进行文本向量提取,得到各所述检索文本对应的第二检索文本向量;
基于各所述检索文本对应的第二检索文本向量,构建所述第二文本向量模型对应的第二文本检索库。
5.根据权利要求3所述的方法,其特征在于,所述若触发针对所述第一文本向量模型进行版本更新的版本更新事件,则确定版本更新后的第二文本向量模型,包括:
若通过检索配置节点接收到版本更新节点发送的更新版本信息,则通过所述检索配置节点将所述更新版本信息发送至模型节点和检索库节点;
通过所述版本更新节点,将版本更新后的第二文本向量模型发送至所述模型节点,以使所述模型节点建立所述第二文本向量模型和所述更新版本信息之间的映射关系;
所述基于所述第二文本向量模型和预设的文本知识库,构建所述第二文本向量模型对应的第二文本检索库,包括:
通过所述检索库节点创建与所述更新版本信息对应的新增文本检索库;
由所述模型节点,通过所述第二文本向量模型对预设的文本知识库中的各检索文本进行文本向量提取,并将得到的各所述检索文本对应的第二检索文本向量发送至所述检索库节点;
通过所述检索库节点,将各所述检索文本对应的第二检索文本向量存储至所述新增文本检索库中,得到所述第二文本向量模型对应的第二文本检索库。
6.根据权利要求5所述的方法,其特征在于,所述确定第一文本向量模型的版本更新状态,包括:
若所述模型节点存储有版本更新后的第二文本向量模型、且所述检索库节点存储有所述第二文本向量模型对应的第二文本检索库,则确定所述第一文本向量模型的版本更新状态为版本更新完成。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
若所述版本更新状态为版本更新完成,则删除所述第一文本向量模型和与所述第一文本向量模型对应的第一文本检索库。
8.一种文本检索装置,其特征在于,所述装置包括:
文本获取模块,用于获取待检索文本;
更新状态确定模块,用于确定第一文本向量模型的版本更新状态;
模型处理模块,用于若所述版本更新状态为版本更新完成,则通过版本更新后的第二文本向量模型对所述待检索文本进行文本向量提取,得到所述待检索文本的第二文本向量;
文本检索模块,用于将所述第二文本向量在与所述第二文本向量模型对应的第二文本检索库中进行向量匹配,获得所述待检索文本的文本检索结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180732.3A CN112800181A (zh) | 2021-02-08 | 2021-02-08 | 文本检索方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180732.3A CN112800181A (zh) | 2021-02-08 | 2021-02-08 | 文本检索方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800181A true CN112800181A (zh) | 2021-05-14 |
Family
ID=75814981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110180732.3A Pending CN112800181A (zh) | 2021-02-08 | 2021-02-08 | 文本检索方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688101A (zh) * | 2021-08-11 | 2021-11-23 | 杭州网易云音乐科技有限公司 | 基于文件指纹库的检索方法、介质、装置和计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02224069A (ja) * | 1988-11-21 | 1990-09-06 | Hitachi Ltd | 情報検索方法 |
CN107229649A (zh) * | 2016-03-25 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 数据更新系统及方法 |
CN110287202A (zh) * | 2019-05-16 | 2019-09-27 | 北京百度网讯科技有限公司 | 数据更新方法、装置、电子设备及存储介质 |
CN111898759A (zh) * | 2020-06-20 | 2020-11-06 | 中国建设银行股份有限公司 | 知识库更新方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-02-08 CN CN202110180732.3A patent/CN112800181A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02224069A (ja) * | 1988-11-21 | 1990-09-06 | Hitachi Ltd | 情報検索方法 |
CN107229649A (zh) * | 2016-03-25 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 数据更新系统及方法 |
CN110287202A (zh) * | 2019-05-16 | 2019-09-27 | 北京百度网讯科技有限公司 | 数据更新方法、装置、电子设备及存储介质 |
CN111898759A (zh) * | 2020-06-20 | 2020-11-06 | 中国建设银行股份有限公司 | 知识库更新方法、装置、电子设备及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688101A (zh) * | 2021-08-11 | 2021-11-23 | 杭州网易云音乐科技有限公司 | 基于文件指纹库的检索方法、介质、装置和计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590214B (zh) | 搜索关键词的推荐方法、装置及电子设备 | |
CN109086394B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN108986910B (zh) | 线上问答方法、装置、计算机设备和存储介质 | |
CN110866198B (zh) | 静态资源缓存方法、系统、装置、计算机设备和存储介质 | |
CN111459978A (zh) | 查询方法、装置、计算机设备和存储介质 | |
US10078509B2 (en) | Method and system for processing lifelong learning of terminal and apparatus | |
US10268655B2 (en) | Method, device, server and storage medium of searching a group based on social network | |
CN111666370B (zh) | 面向多源异构航天数据的语义索引方法和装置 | |
CN110489421A (zh) | 数据存储方法、装置、计算机可读存储介质和计算机设备 | |
WO2022142043A1 (zh) | 课程推荐方法、装置、设备及存储介质 | |
WO2020206910A1 (zh) | 产品信息推送方法、装置、计算机设备和存储介质 | |
CN109460541B (zh) | 词汇关系标注方法、装置、计算机设备和存储介质 | |
CN109389299B (zh) | 工作流流程部署方法、装置、计算机设备和存储介质 | |
CN112100152A (zh) | 业务数据处理方法、系统、服务器和可读存储介质 | |
CN111083054B (zh) | 路由配置处理方法、装置、计算机设备和存储介质 | |
WO2019161620A1 (zh) | 应用依赖关系更新方法、终端、设备及存储介质 | |
CN112800181A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN113918437A (zh) | 用户行为数据分析方法、装置、计算机设备和存储介质 | |
CN112507010B (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN103647843A (zh) | 触发和响应云输入请求的方法和设备 | |
CN112783866B (zh) | 数据读取方法、装置、计算机设备和存储介质 | |
CN110765125A (zh) | 一种存储数据的方法及装置 | |
CN114168589A (zh) | 索引构建方法及装置 | |
CN114138785A (zh) | 适用于大数据量的数据检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |