CN114780710A - 文本匹配方法和装置、存储介质及电子设备 - Google Patents
文本匹配方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114780710A CN114780710A CN202210361931.9A CN202210361931A CN114780710A CN 114780710 A CN114780710 A CN 114780710A CN 202210361931 A CN202210361931 A CN 202210361931A CN 114780710 A CN114780710 A CN 114780710A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- vector
- target
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本匹配方法和装置、存储介质及电子设备,该文本匹配方法包括:在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量;计算上述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据上述相似度从上述多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量;将目标文本向量对应的目标文本确定为与检索文本匹配的文本。本发明解决了文本匹配的准确度较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本匹配方法和装置、存储介质及电子设备。
背景技术
随着网络技术的发展,越来越多的网络平台提供文本检索功能,通过在搜索框中输入检索文本,从而在平台数据库中查找到与检索文本相似的检索结果。例如,在新闻系统中通过关键字进行检索,从而检索到与关键字的匹配的新闻内容,以呈现与关键字相关的新闻内容。还有,在电商购物平台中,通过检索商品关键文本,从而搜索到与商品关键文本相关的商品。
而当前在文本检索匹配的过程中,往往是将平台中内容,无论是与文章类似的长文本,还是与商品标题类似的短文本,均是将文本压缩至几个关键词,从而利用关键词的编码的权重得到用于代表文本的短编码。由于编码位数少且是利用关键词编码代替文本,使得短编码中既不包含文本的语义特征,编码的准确性还低,由此导致基于编码实现的文本匹配的准确性较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本匹配方法和装置、存储介质及电子设备,以至少解决文本匹配的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本匹配方法,包括:在获取到检索文本的情况下,将上述检索文本输入预训练语言模型,得到检索文本向量,其中,上述预训练语言模型用于提取输入文本的语义特征以得到与上述输入文本对应的文本向量;计算上述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据上述相似度从上述多个候选文本向量中确定目标文本向量,其中,上述列式数据库中存储有多个候选文本以及上述多个候选文本各自对应的候选文本向量,上述候选文本向量为将上述候选文本输入上述预训练语言模型得到的文本向量,上述目标文本向量为与上述检索文本向量的相似度大于预设相似阈值的上述候选文本向量;将上述目标文本向量对应的目标文本确定为与上述检索文本匹配的文本。
根据本发明实施例的另一方面,还提供了一种文本匹配装置,包括:输入单元,用于在获取到检索文本的情况下,将上述检索文本输入预训练语言模型,得到检索文本向量,其中,上述预训练语言模型用于提取输入文本的语义特征以得到与上述输入文本对应的文本向量;计算单元,用于计算上述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据上述相似度从上述多个候选文本向量中确定目标文本向量,其中,上述列式数据库中存储有多个候选文本以及上述多个候选文本各自对应的候选文本向量,上述候选文本向量为将上述候选文本输入上述预训练语言模型得到的文本向量,上述目标文本向量为与上述检索文本向量的相似度大于预设相似阈值的上述候选文本向量;确定单元,用于将上述目标文本向量对应的目标文本确定为与上述检索文本匹配的文本。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本匹配方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的文本匹配方法。
在本发明实施例中,采用在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量,计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量,将目标文本向量对应的目标文本确定为与检索文本匹配的文本的方式,通过预训练语言模型得到检索文本以及待匹配的候选文本各自对应的检索文本向量和候选文本向量,并将候选文本向量存入列式数据库中,通过在列式数据库中查找与检索文本向量相似的目标文本向量,将与目标文本向量对应的目标文本为与检索文本向量匹配的文本,达到了通过预训练语言模型得到包含文本语义特征的文本向量,基于文本向量的相似度确定与检索文本匹配的目标文本的目的,从而实现了精准地进行文本匹配的技术效果,进而解决了文本匹配的准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本匹配的应用环境的示意图;
图2是根据本发明实施例的一种可选的文本匹配方法的流程示意图;
图3是根据本发明实施例的一种可选的文本匹配方法的流程示意图;
图4是根据本发明实施例的一种可选的文本匹配方法的流程示意图;
图5是根据本发明实施例的一种可选的文本匹配方法的流程示意图;
图6是根据本发明实施例的一种可选的文本匹配方法的流程示意图;
图7是根据本发明实施例的一种可选的文本匹配装置的结构示意图;
图8是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本匹配方法,该文本匹配方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(IntelligenceHouse)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述文本匹配方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
终端设备102中不限于运行有提供文本检索功能的应用或网页,服务器104不限于支持应用或网页运行的服务器。终端设备102在接收到检索文本的情况下,将检索文本通过网络传输给服务器104,服务器104不限于通过依次执行S102至S106以确定出与检索文本匹配的目标文本,并将目标文本通过网络102传输给终端设备102,以在应用或网页中显示检索文本匹配的检索结果。S102,得到检索文本向量。在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,其中,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量。S104,确定目标文本向量。计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量。S106,确定匹配文本。将目标文本向量对应的目标文本确定为与检索文本匹配的文本。
上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选的实施方式,如图2所示,上述文本匹配方法包括:
S202,在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,其中,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量;
S204,计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量;
S206,将目标文本向量对应的目标文本确定为与检索文本匹配的文本。
在本申请实施例中,采用在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量,计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量,将目标文本向量对应的目标文本确定为与检索文本匹配的文本的方式,通过预训练语言模型得到检索文本以及待匹配的候选文本各自对应的检索文本向量和候选文本向量,并将候选文本向量存入列式数据库中,通过在列式数据库中查找与检索文本向量相似的目标文本向量,将与目标文本向量对应的目标文本为与检索文本向量匹配的文本,达到了通过预训练语言模型得到包含文本语义特征的文本向量,基于文本向量的相似度确定与检索文本匹配的目标文本的目的,从而实现了精准地进行文本匹配的技术效果,进而解决了文本匹配的准确度较低的技术问题。
作为一种可选的实施方式,如图3所示,上述在获取检索文本之前,还包括:
S302,在接收到候选文本的情况下,将候选文本输入预训练语言模型,得到预训练语言模型输出的候选文本向量;
S304,获取候选文本的文本索引,其中,文本索引用于标识候选文本;
S306,将候选文本的文本索引和候选文本向量对应存入列式数据库中。
在本申请实施例中,在进行候选文本以及候选文本向量的存储时,采用先进的列式数据库进行候选文本向量的存储,便于在列式数据库中更快的查找与检索文本向量相似的目标文本向量,提高查找效率。
作为一种可选的实施方式,上述将候选文本的文本索引和候选文本向量对应存入列式数据库中,包括:以候选文本的文本索引作为存储标识、候选文本向量作为存储内容,将候选文本的文本索引和候选文本向量存入列式数据库。
作为一种可选的实施方式,上述将目标文本向量对应的目标文本确定为与检索文本匹配的文本,包括:
S1,在文本数据库中,查找与目标文本向量对应的目标文本索引对应的文本,其中,文本数据库中存储存在关联关系的文本索引和候选文本;
S2,将与目标文本索引对应的候选文本确定为目标文本。
在本申请实施例中,将文本与文本索引存入文本数据库中,从而在确定出文本索引的情况下,通过文本索引在文本数据库中查找与文本索引对应的文本,避免了将大量的文本数据存入列式数据库中导致的列式数据库因存储数据量较大导致的索引速度较慢,将文本与文本向量分别存储,保证文本向量和文本的查找速度。
作为一种可选的实施方式,上述计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定量,包括:
S1,获取列式数据库的存储类型,其中,存储类型用于指示列式数据库所在存储介质的类型;
S2,按照与列式数据库的存储类型匹配的向量索引方式,在列式数据库中查找与检索文本向量在相似度上匹配的目标候选文本向量;
S3,计算与检索文本向量与目标候选文本向量之间的候选相似度,根据候选相似度从目标候选文本向量中确定出目标文本向量。
按照列式数据库的存储类型确定在列式数据库中进行候选文本向量索引的向量索引方式。向量索引方式不限于包括Faiss向量索引和HNSWLib向量索引,根据列式数据库存储介质的不同,确定出与存储介质匹配的向量索引方式,从而在列式数据库中查找到与检索文本向量匹配的目标候选文本向量,缩小所需计算向量相似度的候选文本向量的数量,从而在提高文本匹配准确性的同时,提高文本匹配的效率。
本申请实施例,在采用列式数据库存储候选文本向量的同时,使用向量索引框架下的超快速计算,在CPU下就可以达到百万量级毫秒级别的召回响应,从而在海量文本召回匹配场景中实现了高精度、超快速的双重目标。
作为一种可选的实施方式,如图4所示,上述按照与列式数据库的存储类型匹配的向量索引方式,在列式数据库中查找与检索文本向量在相似度上匹配的目标候选文本向量,包括:
S402,依次比对检索文本向量与多个候选文本向量在相同位次上的数值,得到候选文本向量的候选相似参数,其中,候选相似参数用于指示候选文本向量与检索文本向量在相同位次上数值满足数值相似阈值条件的位次参数;
S404,根据每个候选文本向量的候选相似参数,从列式数据库的多个候选文本向量中确定出目标候选文本向量,其中,目标候选文本向量的候选相似参数大于候选相似阈值。
相同位次是指在向量中,将所包含的数值看作有序数组的情况下的每个数值在有序数组中的位次。依次比对检索文本向量与候选文本向量在相同位次上的数值,在数值相同或数值差小于数值相似阈值,则确定该位次上的数值符合候选相似参数的计数条件。
候选相似参数不限于为数值相同或数值差小于数值相似阈值的位次的累计数量,在候选相似参数大于候选相似阈值的情况下,确定该候选文本向量与检索文本向量初步相似,从而再计算候选相似度。在候选相似参数小于或等于候选相似阈值的情况下,则可以判断出该候选文本向量与检索文本向量的相似度小于预设相似阈值,则无需计算该候选文本向量与检索文本向量的相似度,减少目标文本向量所需的计算量,从而提高文本匹配的效率。
在本申请实施例中,在召回计算方面,采用先进的列式数据库进行向量的存储,同时使用向量索引框架通过相同位次上的数值比对,对列式数据库中所存储的海量文本向量进行初步筛选,减少向量相似度的计算量,从而在海量文本匹配场景中实现了高精度、超快速的双重目标。
作为一种可选的实施方式,上述计算检索文本向量与目标候选文本向量之间的候选相似度,根据候选相似度从目标候选文本向量中确定出目标文本向量,包括:
S1,计算目标候选文本向量与检索文本向量的向量距离,得到目标候选文本向量对应的候选相似度;
S2,在目标候选文本向量的候选相似度超过相似度阈值的情况下,将目标候选文本向量确定为目标文本向量。
计算目标候选文本向量与检索文本向量的向量距离,不限于计算目标候选文本向量与检索文本向量之间的汉明距离、欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等任意一个或多个距离。在向量距离为多个向量距离组合成的综合距离的情况下,不限于按照预设比重对多个向量距离进行综合计算,从而得到目标候选文本向量与检索文本向量的向量距离。
如图5所示,本发明采用预训练语言模型,优化了Attention部分,使之同时具有NLU和NLG的能力。在预训练语言模型中的结构名为UniLM,UniLM核心是通过AttentionMask来赋予模型Seq2Seq的能力,UniLM在输入的时候也随机加入一些MASK,这样输入部分就可以做MLM任务,输出部分就可以做Seq2Seq任务,MLM增强了NLU能力。该预训练模型可以对文本进行向量化输出,输出为固定长度的向量,以实现对文本进行语义特征的抽取。
如图6所示,流程图表示了文本匹配的整体流程架构,以向量距离选用欧式距离为例,文本匹配的流程如下:
构建预训练语言模型,并优化Attention部分。在构建完预训练语言模型的情况下,将海量文本(候选文本)传入到预训练语言模型中,进行多头注意力机制的语义特征提取,输出与文本对应的文本向量,并将文本向量,以文本索引作为key,文本向量作为value存入到列式数据库当中。
在获取到检索文本的情况下,将检索文本同样输入预训练语言模型中,进行多头注意力机制的语义特征提取,输出与检索文本对应的检索文本向量。开始通过向量索引,与列式数据库中的文本向量进行查找,从而计算列式数据库计算中文本向量与文本向量之间的欧式距离,在查找和计算过程中通过Faiss或HNSWLib向量索引的索引优化,进一步提高索引效率。
将列式数据库中的匹配的目标文本的文本索引输出,通过在文本数据库中按照文本索引进行目标文本查找,从而获得与检索文本相似的目标文本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本匹配方法的文本匹配装置。如图7所示,该装置包括:
输入单元702,用于在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,其中,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量;
计算单元704,用于计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量;
确定单元706,用于将目标文本向量对应的目标文本确定为与检索文本匹配的文本。
可选地,上述文本匹配装置还包括存储单元,用于在获取检索文本之前,在接收到候选文本的情况下,将候选文本输入预训练语言模型,得到预训练语言模型输出的候选文本向量;获取候选文本的文本索引,其中,文本索引用于标识候选文本;将候选文本的文本索引和候选文本向量对应存入列式数据库中。
可选地,上述存储单元还包括将候选文本的文本索引和候选文本向量对应存入列式数据库中,还包括:以候选文本的文本索引作为存储标识、候选文本向量作为存储内容,将候选文本的文本索引和候选文本向量存入列式数据库。
可选地,上述确定单元706将目标文本向量对应的目标文本确定为与检索文本匹配的文本,还包括:在文本数据库中,查找与目标文本向量对应的目标文本索引对应的文本,其中,文本数据库中存储存在关联关系的文本索引和候选文本;将与目标文本索引对应的候选文本确定为目标文本。
可选地,上述计算单元704还包括:获取列式数据库的存储类型,其中,存储类型用于指示列式数据库所在存储介质的类型;按照与列式数据库的存储类型匹配的向量索引方式,在列式数据库中查找与检索文本向量在相似度上匹配的目标候选文本向量;计算检索文本向量与目标候选文本向量之间的候选相似度,根据候选相似度从目标候选文本向量中确定出目标文本向量。
可选地,上述计算单元704按照与列式数据库的存储类型匹配的向量索引方式,在列式数据库中查找与检索文本向量在相似度上匹配的目标候选文本向量,包括:依次比对检索文本向量与多个候选文本向量在相同位次上的数值,得到候选文本向量的候选相似参数,其中,候选相似参数用于指示候选文本向量与检索文本向量在相同位次上数值满足数值相似阈值条件的位次参数;根据每个候选文本向量的候选相似参数,从列式数据库的多个候选文本向量中确定出目标候选文本向量,其中,目标候选文本向量的候选相似参数大于候选相似阈值。
可选地,上述计算单元704还包括:计算目标候选文本向量与检索文本向量的向量距离,得到目标候选文本向量对应的候选相似度;在目标候选文本向量的候选相似度超过相似度阈值的情况下,将目标候选文本向量确定为目标文本向量。
在本申请实施例中,采用在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量,计算检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据相似度从多个候选文本向量中确定目标文本向量,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量,将目标文本向量对应的目标文本确定为与检索文本匹配的文本的方式,通过预训练语言模型得到检索文本以及待匹配的候选文本各自对应的检索文本向量和候选文本向量,并将候选文本向量存入列式数据库中,通过在列式数据库中查找与检索文本向量相似的目标文本向量,将与目标文本向量对应的目标文本为与检索文本向量匹配的文本,达到了通过预训练语言模型得到包含文本语义特征的文本向量,基于文本向量的相似度确定与检索文本匹配的目标文本的目的,从而实现了精准地进行文本匹配的技术效果,进而解决了文本匹配的准确度较低的技术问题。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本匹配方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图8所示,该电子设备包括存储器802和处理器804,该存储器802中存储有计算机程序,该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,其中,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量;
S2,计算上述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据上述相似度从上述多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量;
S3,将目标文本向量对应的目标文本确定为与检索文本匹配的文本。
可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,电子设备也可以是任意终端设备。图8其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。
其中,存储器802可用于存储软件程序以及模块,如本发明实施例中的文本匹配方法和装置对应的程序指令/模块,处理器804通过运行存储在存储器802内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本匹配方法。存储器802可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器802可进一步包括相对于处理器804远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器802具体可以但不限于用于存储检索文本、预训练语言模型、列式数据库、目标文本向量、目标文本等信息。作为一种示例,如图8所示,上述存储器802中可以但不限于包括上述文本匹配装置中的输入单元702、计算单元704和确定单元706。此外,还可以包括但不限于上述文本匹配装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置806包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置806为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器808,用于显示上述检索文本、目标文本;和连接总线810,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本匹配方面的各种可选实现方式中提供的方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在获取到检索文本的情况下,将检索文本输入预训练语言模型,得到检索文本向量,其中,预训练语言模型用于提取输入文本的语义特征以得到与输入文本对应的文本向量;
S2,计算上述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据上述相似度从上述多个候选文本向量中确定目标文本向量,其中,列式数据库中存储有多个候选文本以及多个候选文本各自对应的候选文本向量,候选文本向量为将候选文本输入预训练语言模型得到的文本向量,目标文本向量为与检索文本向量的相似度大于预设相似阈值的候选文本向量;
S3,将目标文本向量对应的目标文本确定为与检索文本匹配的文本。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本匹配方法,其特征在于,包括:
在获取到检索文本的情况下,将所述检索文本输入预训练语言模型,得到检索文本向量,其中,所述预训练语言模型用于提取输入文本的语义特征以得到与所述输入文本对应的文本向量;
计算所述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据所述相似度从所述多个候选文本向量中确定目标文本向量,其中,所述列式数据库中存储有多个候选文本以及所述多个候选文本各自对应的候选文本向量,所述候选文本向量为将所述候选文本输入所述预训练语言模型得到的文本向量,所述目标文本向量为与所述检索文本向量的相似度大于预设相似阈值的所述候选文本向量;
将所述目标文本向量对应的目标文本确定为与所述检索文本匹配的文本。
2.根据权利要求1所述的方法,其特征在于,在获取检索文本之前,还包括:
在接收到所述候选文本的情况下,将所述候选文本输入所述预训练语言模型,得到所述预训练语言模型输出的所述候选文本向量;
获取所述候选文本的文本索引,其中,所述文本索引用于标识所述候选文本;
将所述候选文本的文本索引和所述候选文本向量对应存入所述列式数据库中。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选文本的文本索引和所述候选文本向量对应存入所述列式数据库中,包括:
以所述候选文本的文本索引作为存储标识、所述候选文本向量作为存储内容,将所述候选文本的文本索引和所述候选文本向量存入所述列式数据库。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述目标文本向量对应的目标文本确定为与所述检索文本匹配的文本,包括:
在文本数据库中,查找与所述目标文本向量对应的目标文本索引对应的文本,其中,所述文本数据库中存储存在关联关系的所述文本索引和所述候选文本;
将与所述目标文本索引对应的候选文本确定为所述目标文本。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述计算所述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据所述相似度从所述多个候选文本向量中确定目标文本向量,还包括:
获取所述列式数据库的存储类型,其中,所述存储类型用于指示所述列式数据库所在存储介质的类型;
按照与所述列式数据库的存储类型匹配的向量索引方式,在所述列式数据库中查找与所述检索文本向量在相似度上匹配的目标候选文本向量;
计算所述检索文本向量与所述目标候选文本向量之间的候选相似度,根据所述候选相似度从所述目标候选文本向量中确定出所述目标文本向量。
6.根据权利要求5所述的方法,其特征在于,所述按照与所述列式数据库的存储类型匹配的向量索引方式,在所述列式数据库中查找与所述检索文本向量在相似度上匹配的目标候选文本向量,包括:
依次比对所述检索文本向量与所述多个候选文本向量在相同位次上的数值,得到所述候选文本向量的候选相似参数,其中,所述候选相似参数用于指示所述候选文本向量与所述检索文本向量在相同位次上数值满足数值相似阈值条件的位次参数;
根据每个所述候选文本向量的所述候选相似参数,从所述列式数据库的所述多个候选文本向量中确定出所述目标候选文本向量,其中,所述目标候选文本向量的所述候选相似参数大于候选相似阈值。
7.根据权利要求6所述的方法,其特征在于,所述计算所述检索文本向量与所述目标候选文本向量之间的候选相似度,根据所述候选相似度从所述目标候选文本向量中确定出所述目标文本向量,包括:
计算所述目标候选文本向量与所述检索文本向量的向量距离,得到所述目标候选文本向量对应的所述候选相似度;
在所述目标候选文本向量的所述候选相似度超过相似度阈值的情况下,将所述目标候选文本向量确定为所述目标文本向量。
8.一种文本匹配装置,其特征在于,包括:
输入单元,用于在获取到检索文本的情况下,将所述检索文本输入预训练语言模型,得到检索文本向量,其中,所述预训练语言模型用于提取输入文本的语义特征以得到与所述输入文本对应的文本向量;计算单元,用于计算所述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度,根据所述相似度从所述多个候选文本向量中确定目标文本向量,其中,所述列式数据库中存储有多个候选文本以及所述多个候选文本各自对应的候选文本向量,所述候选文本向量为将所述候选文本输入所述预训练语言模型得到的文本向量,所述目标文本向量为与所述检索文本向量的相似度大于预设相似阈值的所述候选文本向量;
确定单元,用于将所述目标文本向量对应的目标文本确定为与所述检索文本匹配的文本。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210361931.9A CN114780710A (zh) | 2022-04-07 | 2022-04-07 | 文本匹配方法和装置、存储介质及电子设备 |
PCT/CN2022/096402 WO2023193332A1 (zh) | 2022-04-07 | 2022-05-31 | 文本匹配方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210361931.9A CN114780710A (zh) | 2022-04-07 | 2022-04-07 | 文本匹配方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114780710A true CN114780710A (zh) | 2022-07-22 |
Family
ID=82427577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210361931.9A Pending CN114780710A (zh) | 2022-04-07 | 2022-04-07 | 文本匹配方法和装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114780710A (zh) |
WO (1) | WO2023193332A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226350A (zh) * | 2023-03-03 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种文档查询方法、装置、设备和存储介质 |
CN117435696A (zh) * | 2023-12-21 | 2024-01-23 | 数据空间研究院 | 文本数据的检索方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答系统 |
CN111783433A (zh) * | 2019-12-26 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 一种文本检索纠错方法和装置 |
CN112148855A (zh) * | 2020-09-16 | 2020-12-29 | 深圳康佳电子科技有限公司 | 一种智能客服问题检索方法、终端以及存储介质 |
CN113407738B (zh) * | 2021-07-12 | 2022-12-13 | 网易(杭州)网络有限公司 | 一种相似文本检索方法、装置、电子设备和存储介质 |
CN114065750A (zh) * | 2021-11-15 | 2022-02-18 | 广州华多网络科技有限公司 | 商品信息匹配、发布方法及其装置、设备、介质、产品 |
-
2022
- 2022-04-07 CN CN202210361931.9A patent/CN114780710A/zh active Pending
- 2022-05-31 WO PCT/CN2022/096402 patent/WO2023193332A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226350A (zh) * | 2023-03-03 | 2023-06-06 | 北京优特捷信息技术有限公司 | 一种文档查询方法、装置、设备和存储介质 |
CN117435696A (zh) * | 2023-12-21 | 2024-01-23 | 数据空间研究院 | 文本数据的检索方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023193332A1 (zh) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314823B2 (en) | Method and apparatus for expanding query | |
CN114780710A (zh) | 文本匹配方法和装置、存储介质及电子设备 | |
CN102298650B (zh) | 一种海量数字信息的分布式推荐方法 | |
CN108989397A (zh) | 数据推荐方法、装置及存储介质 | |
CN105808649A (zh) | 一种搜索结果排序方法及其设备 | |
CN111767796A (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN112836125B (zh) | 一种基于知识图谱和图卷积网络的推荐方法及其系统 | |
CN112052387A (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN110543603A (zh) | 基于用户行为的协同过滤推荐方法、装置、设备和介质 | |
CN108319628B (zh) | 一种用户兴趣确定方法及装置 | |
CN110399564B (zh) | 帐号分类方法和装置、存储介质及电子装置 | |
CN112364184A (zh) | 多媒体数据的排序方法、装置、服务器及存储介质 | |
CN113434506B (zh) | 数据管理及检索方法、装置、计算机设备及可读存储介质 | |
CN110019400B (zh) | 数据存储方法、电子设备及存储介质 | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
CN112784025A (zh) | 一种目标事件的确定方法和装置 | |
CN115687676B (zh) | 信息检索方法、终端及计算机可读存储介质 | |
CN113744002A (zh) | 推送信息的方法、装置、设备和计算机可读介质 | |
CN112231700B (zh) | 行为识别方法和装置、存储介质及电子设备 | |
Ren et al. | Efficient processing of shortest path queries in evolving graph sequences | |
CN111507788A (zh) | 数据推荐方法、装置、存储介质及处理器 | |
CN115291793A (zh) | 属性数据的转换方法和装置、存储介质及电子装置 | |
CN113327154A (zh) | 基于大数据的电商用户讯息推送方法及系统 | |
CN113297467A (zh) | 推荐方法、装置及计算机存储介质 | |
CN111488490A (zh) | 视频聚类方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |