CN117992575A - 文本匹配方法、装置、计算机设备、存储介质、程序产品 - Google Patents
文本匹配方法、装置、计算机设备、存储介质、程序产品 Download PDFInfo
- Publication number
- CN117992575A CN117992575A CN202410187951.8A CN202410187951A CN117992575A CN 117992575 A CN117992575 A CN 117992575A CN 202410187951 A CN202410187951 A CN 202410187951A CN 117992575 A CN117992575 A CN 117992575A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- matching
- matched
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 439
- 238000004590 computer program Methods 0.000 claims abstract description 27
- 238000013136 deep learning model Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000157593 Milvus Species 0.000 description 1
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本匹配方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:响应于文本查询请求,接收客户端输入的待匹配文本;基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量;利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量;基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端。采用本方法能够提高文本匹配的匹配精度、效率和灵活性。
Description
技术领域
本申请涉及文本匹配技术领域,特别是涉及一种文本匹配方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着信息时代的发展,文本数据的处理变得越来越重要。其中,文本相似度匹配是搜索引擎、数据挖掘、知识管理等许多领域的关键技术。传统的文本相似度匹配方法主要基于关键词的匹配,如TF-IDF算法(Term Frequency–Inverse Document Frequency,一种基于词频和逆文本频率指数的匹配算法),BM25算法(Okapi BM25,一种用于评估搜索词与文档之间相关性的算法)等。
但是,由于上述传统技术中的文本匹配方法过于依赖关键词,而容易忽略单词在文本中的语境和语义信息。因此在处理复杂的、含有大量同义词的文本时效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种匹配精度更高的文本匹配方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文本匹配方法,包括:
响应于文本查询请求,接收客户端输入的待匹配文本;
基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量;
利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量;
基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端。
在其中一个实施例中,所述基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端,包括:
在所述匹配模式为第一模式的情况下,采用所述目标向量对应的文本数据生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端;
在所述匹配模式为第二模式的情况下,根据所述目标向量所在的向量聚类簇生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端。
在其中一个实施例中,所述向量聚类簇的生成方式,包括:
采集若干个样本文本,并将每个所述样本文本转换为对应的样本嵌入向量;
确定两两所述样本嵌入向量之间的向量相似度;
基于所述向量相似度和预设聚类阈值,对每个所述样本嵌入向量进行聚类,得到对应的向量聚类结果;
对同一所述向量聚类结果中的样本嵌入向量执行以下操作:根据每个所述样本嵌入向量与所述向量聚类结果的聚类中心之间的向量相似度,对每个所述样本嵌入向量进行排序,得到与每个所述样本嵌入向量对应的排序结果;
根据所述排序结果依次将所述向量聚类结果中的每个样本嵌入向量存储至所述向量数据库,形成所述向量聚类簇。
在其中一个实施例中,所述在所述匹配模式为第二模式的情况下,根据所述目标向量所在的向量聚类簇生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端,包括:
在所述匹配模式为第二模式的情况下,从所述目标向量所在的向量聚类簇中,确定出与所述目标向量的排序结果差异在预设阈值内的相似嵌入向量;
采用所述目标向量和所述相似嵌入向量对应的文本数据生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端。
在其中一个实施例中,所述基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量,包括:
利用预训练的深度学习模型对所述待匹配文本进行语义特征提取,得到所述待匹配文本的语义信息;
利用所述深度学习模型基于预设的语义向量映射,将所述语义信息转换为对应的所述文本嵌入向量。
在其中一个实施例中,所述利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量,包括:
确定所述文本嵌入向量与所述向量数据库中的每个样本嵌入向量之间的向量距离;
基于所述向量距离,从所述向量数据库中确定出与所述文本嵌入向量对应的目标向量。
第二方面,本申请还提供了一种文本匹配装置,包括:
请求响应模块,用于响应于文本查询请求,接收客户端输入的待匹配文本;
向量转换模块,用于基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量;
相似度匹配模块,用于利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量;
结果生成模块,用于基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的文本匹配方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的文本匹配方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项实施例所述的文本匹配方法。
上述文本匹配方法、装置、计算机设备、存储介质和计算机程序产品,通过响应于文本查询请求,接收客户端输入的待匹配文本;基于待匹配文本携带的语义信息,将待匹配文本转换为对应的文本嵌入向量;利用文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与文本嵌入向量对应的目标向量;基于客户端当前选择的匹配模式和目标向量生成与待匹配文本对应的文本匹配结果,并将文本匹配结果返回至客户端,能够利用基于语义信息转换得到的嵌入向量实现文本之间的精确匹配,提高文本匹配方法的匹配精度。此外,采用本申请中提供的文本匹配方法时,由于使用了专为嵌入向量设计的向量数据库进行相似度检索,还能够大幅提升文本匹配效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中文本匹配方法的应用环境图;
图2为一个实施例中文本匹配方法的流程示意图;
图3为一个实施例中向量聚类簇生成步骤的流程示意图;
图4为另一个实施例中文本匹配方法的流程示意图;
图5为一个实施例中文本匹配装置500的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本申请实施例提供的文本匹配方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。具体地,服务器104可以通过终端102接收用户在客户端上触发的文本查询请求。响应于文本查询请求,接收客户端输入的待匹配文本。服务器104可以根据预先存储的语义识别逻辑,确定出待匹配文本携带的语义信息。基于语义信息将待匹配文本转换为对应的文本嵌入向量。服务器104可以利用待匹配文本的文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与文本嵌入向量对应的目标向量。服务器104可以通过终端102读取客户端当前选择的匹配模式。基于匹配模式和目标向量生成与待匹配文本对应的文本匹配结果,并将文本匹配结果返回至终端102中的客户端。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个示例性的实施例中,如图2所示,提供了一种文本匹配方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤S202至步骤S208。其中:
步骤S202,响应于文本查询请求,接收客户端输入的待匹配文本。
示例性地,服务器可以响应于客户端发送的文本查询请求,接收客户端当前输入的待匹配文本。其中,文本查询请求可以是用户通过点击客户端界面中的交互按键触发的。待匹配文本可以是用户通过上传文本文档或文本图片输入的;或者,也可以是用户通过键盘或手写板手动录入的;或者,也可以是用户通过语音录入的。
步骤S204,基于待匹配文本携带的语义信息,将待匹配文本转换为对应的文本嵌入向量。
其中,文本嵌入向量可以表示采用词嵌入的方式将待匹配文本映射至高维空间中得到的连续向量。由于其涉及的向量特征维度较多,能够使得语义上相近的词在高维的向量空间中的距离也相近,从而能够更好地表示词与词之间的语义关系。
示例性地,服务器中可以预先部署有语义识别逻辑。采用语义识别逻辑对待匹配文本进行数据处理,可以提取出待匹配文本中携带的语义信息。基于待匹配文本的语义信息,以及语义信息与多个向量维度之间的映射关系,可以将待匹配文本转换为对应的文本嵌入向量。
步骤S206,利用文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与文本嵌入向量对应的目标向量。
其中,向量数据库可以表示一种专门用来存储和查询向量的数据库,如Elasticsearch(一种支持各种类型数据的分布式搜索和分析引擎的数据库)、Faiss(一种用于高效相似性搜索和密集向量聚类的数据库)、Milvus(一种支持多种矢量搜索索引和内置过滤的数据库)等数据库。
示例性地,服务器中可以预先存储有预设的向量数据库。利用待匹配文本的文本嵌入向量在预设的向量数据库中进行相似度匹配,得到文本嵌入向量与向量数据库中的每个样本嵌入向量之间的向量相似度。可选地,在一些实施方式中,服务器可以将与文本嵌入向量的向量相似度最高的样本嵌入向量作为与文本嵌入向量对应的目标向量。或者,在另一些实施方式中,服务器也可以将与文本嵌入向量的向量相似度大于预设相似度阈值的若干个样本嵌入向量作为与文本嵌入向量对应的目标向量。
步骤S208,基于客户端当前选择的匹配模式和目标向量生成与待匹配文本对应的文本匹配结果,并将文本匹配结果返回至客户端。
示例性地,服务器中可以存储与每种匹配模式对应的文本匹配逻辑。服务器可以读取客户端当前选择的匹配模式。基于客户端当前选择的匹配模式,确定出当前执行的文本匹配逻辑。根据与匹配模式对应的文本匹配逻辑,对目标向量进行数据处理,生成与待匹配文本对应的文本匹配结果。服务器可以将文本匹配结果返回至客户端。
可选地,在一些实施方式中,匹配模式可以是用户通过客户端中的交互按键选择的。或者,在另一些方式中,当用户未触发与模式选择相关的交互按键时,客户端可以将默认配置的模式作为当前的匹配模式。
可选地,在一些实施方式中,匹配模式可以包括但不仅限于精确匹配模式、模糊匹配模式等。精确匹配模式是一种仅返回向量相似度最高的匹配结果的模式。模糊匹配模式是一种返回向量相似度较高的多个匹配结果的模式。
上述文本匹配方法中,通过响应于文本查询请求,接收客户端输入的待匹配文本;基于待匹配文本携带的语义信息,将待匹配文本转换为对应的文本嵌入向量;利用文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与文本嵌入向量对应的目标向量;基于客户端当前选择的匹配模式和目标向量生成与待匹配文本对应的文本匹配结果,并将文本匹配结果返回至客户端,能够利用基于语义信息转换得到的嵌入向量实现文本之间的精确匹配,提高文本匹配方法的匹配精度。此外,采用上述文本匹配方法时,由于使用了专为嵌入向量设计的向量数据库进行相似度检索,还能够大幅提升文本匹配效率。
在一个示例性的实施例中,上述步骤S208可以通过以下方式实现:在匹配模式为第一模式的情况下,采用目标向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端;在匹配模式为第二模式的情况下,根据目标向量所在的向量聚类簇生成文本匹配结果,并将文本匹配结果返回至客户端。
其中,第一模式可以表示仅返回向量相似度最高的匹配结果的精确匹配模式。第二模式可以表示返回向量相似度较高的多个匹配结果的模糊匹配模式。向量聚类簇可以表示若干个向量相似度较高的样本嵌入向量构建的聚类结果。
可选地,在一些实施方式中,服务器可以在确定客户端当前选择的匹配模式为第一模式的情况下,搜索目标向量对应的文本数据。采用目标向量对应的文本数据生成待匹配文本的文本匹配结果,并将该文本匹配结果返回至客户端。
可选地,在另一些实施方式中,服务器可以在确定客户端当前选择的匹配模式为第二模式的情况下,在向量数据库中搜索目标向量所在的向量聚类簇。采用向量聚类簇对应的文本数据生成待匹配文本的文本匹配结果,并将该文本匹配结果返回至客户端。
可选地,在一些实施方式中,服务器可以在将样本嵌入向量存储至向量数据库的入库阶段,先对样本嵌入向量进行聚类,然后再将样本嵌入向量以及聚类得到的若干个向量聚类簇存储至向量数据库。或者,在另一些实施方式中,服务器也可以在待匹配文本的匹配阶段,确定了客户端当前选择的匹配模式为第二模式的情况下,计算目标向量与向量数据库中其余样本嵌入向量之间的向量相似度,以聚类得到目标向量所在的向量聚类簇。
本实施例中,通过基于客户端当前选择的不同匹配模式,采用目标向量对应的文本数据或者目标向量所在的向量聚类簇对应的文本数据生成待匹配文本的文本匹配结果,能够提高文本匹配方法的灵活性,满足用户的不同匹配需求。
在一个示例性的实施例中,如图3所示,提供了一种向量聚类簇的生成方式,包括以下步骤S302至步骤S310。其中:
步骤S302,采集若干个样本文本,并将每个样本文本转换为对应的样本嵌入向量。
示例性地,服务器可以在向量数据库的数据采集阶段,可以采集若干个样本文本。参照上述实施例中提供的文本嵌入向量的转换方式,基于每个样本文本的语义信息,将每个样本文本转换为对应的样本嵌入向量。
步骤S304,确定两两样本嵌入向量之间的向量相似度。
步骤S306,基于向量相似度和预设聚类阈值,对每个样本嵌入向量进行聚类,得到对应的向量聚类结果。
示例性地,服务器可以通过计算两两样本嵌入向量之间的余弦相似度、欧式距离等相似度计算方式,确定两两样本嵌入向量之间的向量相似度。基于向量相似度和预设聚类阈值的比较结果,对每个样本嵌入向量的聚类,将向量相似度满足预设聚类阈值的若干个样本嵌入向量判定为属于同一个聚类,得到对应的向量聚类结果。
步骤S308,根据每个样本嵌入向量与向量聚类结果的聚类中心之间的向量相似度,对每个样本嵌入向量进行排序,得到与每个样本嵌入向量对应的排序结果。
示例性地,服务器可以对同一向量聚类结果中的样本嵌入向量执行以下操作:利用该向量聚类结果中的所有样本嵌入向量进行运算处理,确定出该向量聚类结果的聚类中心。参照上述实施例中提供的向量相似度的计算方式,确定出当前该向量聚类结果中的每个样本嵌入向量与聚类中心之间的向量相似度。根据向量相似度的数值大小,从高到低或者从低到高对当前该向量聚类结果中的每个样本嵌入向量进行排序,得到与每个样本嵌入向量对应的排序结果。
步骤S310,根据排序结果依次将向量聚类结果中的每个样本嵌入向量存储至向量数据库,形成向量聚类簇。
示例性地,服务器可以根据排序结果依次将每个向量聚类结果中的每个样本嵌入向量按序存储至向量数据库,并记录每个样本嵌入向量在向量聚类结果中的排序结果,形成与每个向量聚类结果对应的向量聚类簇。
本实施例中,通过利用样本嵌入向量与聚类中心之间的向量相似度,对同一向量聚类结果中的每个样本嵌入向量进行排序,并按照排序结果依次存储以形成对应的向量聚类簇,能够记录样本嵌入向量之间的相似程度,从而有利于提高后续在向量数据库进行相似度匹配的效率。
在一个示例性的实施例中,基于上述图3中所示的向量聚类簇生成方式,可以在匹配模式为第二模式的情况下,采用以下方式生成文本匹配结果:在匹配模式为第二模式的情况下,从目标向量所在的向量聚类簇中,确定出与目标向量的排序结果差异在预设阈值内的相似嵌入向量;采用目标向量和相似嵌入向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端。
示例性地,服务器可以在确定客户端当前选择的匹配模式为第二模式的情况下,在向量数据库中搜索目标向量所在的向量聚类簇。从目标向量所在的向量聚类簇中,确定出目标向量的排序结果。基于预设阈值,将目标向量所在的向量聚类簇中存储的与目标向量的排序结果差异在预设阈值内的若干个样本嵌入向量作为目标向量对应的相似嵌入向量。采用目标向量和相似嵌入向量对应的文本数据生成待匹配文本的文本匹配结果,并将文本匹配结果返回至客户端。
可选地,在一些实施方式中,预设阈值可以为二十。也即,服务器可以基于预设阈值,将目标向量所在的向量聚类簇中,存储在目标向量之前的二十个样本嵌入向量以及在目标向量之后的二十个样本嵌入向量作为相似嵌入向量。
本实施例中,通过利用向量聚类簇中与每个样本嵌入向量对应的排序结果,确定出与目标向量对应的相似嵌入向量,采用目标向量和相似嵌入向量生成文本匹配结果,能够提高文本匹配结果的生成效率。
在一个示例性的实施例中,上述步骤S204还可以采用以下方式实现:利用预训练的深度学习模型对待匹配文本进行语义特征提取,得到待匹配文本的语义信息;利用深度学习模型基于预设的语义向量映射,将语义信息转换为对应的文本嵌入向量。
示例性地,服务器中可以部署有预训练的深度学习模型,例如BERT模型(一种基于单词和文本之间的相关性进行概率检索的模型)、Word2Vec模型(一种通过创建词嵌入进行运算的模型)等多种语义模型中的任一种或多种。
服务器可以将待匹配文本输入至预训练的深度学习模型。利用预训练的深度学习模型对待匹配文本进行分词处理,得到待匹配文本中的文本分词。利用待匹配文本中与每个文本分词对应的上下文,确定与每个文本分词对应的语义信息。利用语义信息以及预设的语义与向量之间的映射关系,构建每个文本分词对应的词向量。依次将每个文本分词对应的词向量按照文本分词在待匹配文本中的排列顺序进行拼接,形成与待匹配文本对应的文本嵌入向量。
本实施例中,通过采用深度学习模型将待匹配文本转换为对应的嵌入向量来表示,不仅能够有效捕捉待匹配文本中深层的语义信息,提高文本嵌入向量的构建精度,还能够适应多样性、复杂性的待匹配文本,识别出可能具有相似含义的同义词,从而有助于提高后续文本匹配结果的匹配精度。
在一个示例性的实施例中,上述步骤S206还可以采用以下方式实现:确定文本嵌入向量与向量数据库中的每个样本嵌入向量之间的向量距离;基于向量距离,从向量数据库中确定出与文本嵌入向量对应的目标向量。
示例性地,服务器可以采用欧式距离、余弦相似度等计算方式,确定出待匹配文本的文本嵌入向量与向量数据库中的每个样本嵌入向量之间的向量距离。将向量数据库中与文本嵌入向量之间的向量距离最小的,或者向量距离小于预设距离阈值的样本嵌入向量,确定为与待匹配文本的文本嵌入向量对应的目标向量。
本实施例中,通过使用专为嵌入向量设计的向量数据库进行相似度检索,能够大幅提升目标向量的匹配效率。尤其是在同时处理大规模文本数据时,采用本实施例中提供的目标向量确定方式,由于其效率较高,耗时较短,能够满足实时或近实时的应用需求。
在一个示例性的实施例中,如图4所示,提供了一种文本匹配方法,包括以下步骤S402至步骤S410。其中:
步骤S402,响应于文本查询请求,接收客户端输入的待匹配文本。
示例性地,服务器中可以部署有文本向量化服务、向量数据库、相似度检索服务以及相似度计算服务。利用相似度检索服务接收用户通过客户端提交的文本查询请求。响应于文本查询请求,利用文本向量化服务接收用户通过客户端输入的待匹配文本。
步骤S404,利用预训练的深度学习模型基于待匹配文本携带的语义信息,将待匹配文本转换为对应的文本嵌入向量。
示例性地,服务器可以利用文本向量化服务将待匹配文本输入至预训练的深度学习模型。利用文本向量化服务通过预训练的深度学习模型对待匹配文本进行分词处理,利用分词处理得到的每个文本分词在待匹配文本中的上下文信息,确定每个文本分词携带的语义信息。并基于语义信息构建与文本分词对应的词向量,利用词向量拼接形成待匹配文本对应的文本嵌入向量。利用文本向量化服务将待匹配文本的文本嵌入向量发送至向量数据库中存储。
步骤S406,利用文本嵌入向量在预设的向量数据库中进行相似度匹配,基于向量距离确定出与文本嵌入向量对应的目标向量。
示例性地,服务器可以利用相似度检索服务发送检索相似文本向量的请求至预设的向量数据库,并接收向量数据库返回的当前已存储的文本向量列表。利用相似度检索服务将文本嵌入向量和文本向量列表发送至相似度计算服务。
利用相似度计算服务采用欧式距离、余弦相似度等计算方式对待匹配文本的文本嵌入向量以及文本向量列表中的每个样本嵌入向量进行运算处理,得到文本嵌入向量与样本嵌入向量之间的向量距离。基于向量距离确定出向量数据库中与待匹配文本的文本嵌入向量距离最小的目标向量。基于当前客户端中选择的匹配模式,执行以下步骤S408或步骤S410。
步骤S408,在匹配模式为第一模式的情况下,采用目标向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端。
步骤S410,在匹配模式为第二模式的情况下,根据目标向量所在的向量聚类簇生成文本匹配结果,并将文本匹配结果返回至客户端。
示例性地,服务器可以读取用户在当前客户端中选择的匹配模式。利用相似度计算服务在匹配模式为第一模式的情况下,采用目标向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端。或者,利用相似度计算服务在匹配模式为第二模式的情况下,从目标向量所在的向量聚类簇中确定出排序结果与目标向量差异在预设阈值内的相似嵌入向量。采用目标向量和相似嵌入向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端。
可选地,在一些实施方式中,当服务器从客户端接收到新的文本输入时,可以将当前接收到的文本转换为对应的文本嵌入向量。参照上述向量聚类簇的生成方式,确定该新的文本的文本嵌入向量所在的向量聚类簇,以及该新的文本的文本嵌入向量在向量聚类簇中的排序结果。按照排序结果,将该新的文本的文本嵌入向量存储至向量数据库中对应的位置,以便于后续在向量数据库中进行高效检索。
本实施例中,通过深度学习模型转换得到待匹配文本的文本嵌入向量,能够理解复杂语义信息,有助于提高后续文本匹配结果的准确性。通过使用专为嵌入向量设计的向量数据库进行相似度匹配,能够使得向量匹配过程更加高效,快速处理大量文本数据,满足实时或近实时的使用需求。通过基于客户端当前选择的匹配模式,采用与待匹配文本的文本嵌入向量最相似的目标向量,或者目标向量以及目标向量所在的向量聚类簇中的相似嵌入向量,生成待匹配文本对应的文本匹配结果,能够适应于不同规模和类型的文本匹配需求,显著提升文本匹配方法的扩展性和灵活性。此外,由于采用本实施例中提供的文本匹配方法,用户仅需在客户端输入待匹配文本、提交文本查询请求以及选择匹配模式即可实现文本匹配,能够降低了对用户操作的专业知识依赖,使得非专业人员也能简单高效地进行文本匹配。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本匹配方法的文本匹配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本匹配装置实施例中的具体限定可以参见上文中对于文本匹配方法的限定,在此不再赘述。
在一个示例性的实施例中,如图5所示,提供了一种文本匹配装置500,包括:请求响应模块502、向量转换模块504、相似度匹配模块506和结果生成模块508,其中:
请求响应模块502,用于响应于文本查询请求,接收客户端输入的待匹配文本。
向量转换模块504,用于基于待匹配文本携带的语义信息,将待匹配文本转换为对应的文本嵌入向量。
相似度匹配模块506,用于利用文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与文本嵌入向量对应的目标向量。
结果生成模块508,用于基于客户端当前选择的匹配模式和目标向量生成与待匹配文本对应的文本匹配结果,并将文本匹配结果返回至客户端。
在一个示例性的实施例中,结果生成模块508,还用于在匹配模式为第一模式的情况下,采用目标向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端;在匹配模式为第二模式的情况下,根据目标向量所在的向量聚类簇生成文本匹配结果,并将文本匹配结果返回至客户端。
在一个示例性的实施例中,文本匹配装置500还包括向量聚类模块,用于采集若干个样本文本,并将每个样本文本转换为对应的样本嵌入向量;确定两两样本嵌入向量之间的向量相似度;基于向量相似度和预设聚类阈值,对每个样本嵌入向量进行聚类,得到对应的向量聚类结果;对同一向量聚类结果中的样本嵌入向量执行以下操作:根据每个样本嵌入向量与向量聚类结果的聚类中心之间的向量相似度,对每个样本嵌入向量进行排序,得到与每个样本嵌入向量对应的排序结果;根据排序结果依次将向量聚类结果中的每个样本嵌入向量存储至向量数据库,形成向量聚类簇。
在一个示例性的实施例中,结果生成模块508,还用于在匹配模式为第二模式的情况下,从目标向量所在的向量聚类簇中,确定出与目标向量的排序结果差异在预设阈值内的相似嵌入向量;采用目标向量和相似嵌入向量对应的文本数据生成文本匹配结果,并将文本匹配结果返回至客户端。
在一个示例性的实施例中,向量转换模块504,还用于利用预训练的深度学习模型对待匹配文本进行语义特征提取,得到待匹配文本的语义信息;利用深度学习模型基于预设的语义向量映射,将语义信息转换为对应的文本嵌入向量。
在一个示例性的实施例中,相似度匹配模块506,还用于确定文本嵌入向量与向量数据库中的每个样本嵌入向量之间的向量距离;基于向量距离,从向量数据库中确定出与文本嵌入向量对应的目标向量。
上述文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待匹配文本、语义信息、文本嵌入向量、向量数据库、样本嵌入向量、目标向量、文本匹配结果等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本匹配方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个示例性的实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个示例性的实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本匹配方法,其特征在于,所述方法包括:
响应于文本查询请求,接收客户端输入的待匹配文本;
基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量;
利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量;
基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端,包括:
在所述匹配模式为第一模式的情况下,采用所述目标向量对应的文本数据生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端;
在所述匹配模式为第二模式的情况下,根据所述目标向量所在的向量聚类簇生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端。
3.根据权利要求2所述的方法,其特征在于,所述向量聚类簇的生成方式,包括:
采集若干个样本文本,并将每个所述样本文本转换为对应的样本嵌入向量;
确定两两所述样本嵌入向量之间的向量相似度;
基于所述向量相似度和预设聚类阈值,对每个所述样本嵌入向量进行聚类,得到对应的向量聚类结果;
对同一所述向量聚类结果中的样本嵌入向量执行以下操作:根据每个所述样本嵌入向量与所述向量聚类结果的聚类中心之间的向量相似度,对每个所述样本嵌入向量进行排序,得到与每个所述样本嵌入向量对应的排序结果;
根据所述排序结果依次将所述向量聚类结果中的每个样本嵌入向量存储至所述向量数据库,形成所述向量聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述在所述匹配模式为第二模式的情况下,根据所述目标向量所在的向量聚类簇生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端,包括:
在所述匹配模式为第二模式的情况下,从所述目标向量所在的向量聚类簇中,确定出与所述目标向量的排序结果差异在预设阈值内的相似嵌入向量;
采用所述目标向量和所述相似嵌入向量对应的文本数据生成所述文本匹配结果,并将所述文本匹配结果返回至所述客户端。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量,包括:
利用预训练的深度学习模型对所述待匹配文本进行语义特征提取,得到所述待匹配文本的语义信息;
利用所述深度学习模型基于预设的语义向量映射,将所述语义信息转换为对应的所述文本嵌入向量。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量,包括:
确定所述文本嵌入向量与所述向量数据库中的每个样本嵌入向量之间的向量距离;
基于所述向量距离,从所述向量数据库中确定出与所述文本嵌入向量对应的目标向量。
7.一种文本匹配装置,其特征在于,所述装置包括:
请求响应模块,用于响应于文本查询请求,接收客户端输入的待匹配文本;
向量转换模块,用于基于所述待匹配文本携带的语义信息,将所述待匹配文本转换为对应的文本嵌入向量;
相似度匹配模块,用于利用所述文本嵌入向量在预设的向量数据库中进行相似度匹配,确定出与所述文本嵌入向量对应的目标向量;
结果生成模块,用于基于所述客户端当前选择的匹配模式和所述目标向量生成与所述待匹配文本对应的文本匹配结果,并将所述文本匹配结果返回至所述客户端。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410187951.8A CN117992575A (zh) | 2024-02-20 | 2024-02-20 | 文本匹配方法、装置、计算机设备、存储介质、程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410187951.8A CN117992575A (zh) | 2024-02-20 | 2024-02-20 | 文本匹配方法、装置、计算机设备、存储介质、程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117992575A true CN117992575A (zh) | 2024-05-07 |
Family
ID=90887262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410187951.8A Pending CN117992575A (zh) | 2024-02-20 | 2024-02-20 | 文本匹配方法、装置、计算机设备、存储介质、程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992575A (zh) |
-
2024
- 2024-02-20 CN CN202410187951.8A patent/CN117992575A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732883B (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
Roshdi et al. | Information retrieval techniques and applications | |
Zandkarimi et al. | A generic framework for trace clustering in process mining | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
Guan et al. | Efficient BOF generation and compression for on-device mobile visual location recognition | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN112257419A (zh) | 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 | |
CN111859004B (zh) | 检索图像的获取方法、装置、设备及可读存储介质 | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
CN110674087A (zh) | 文件查询方法、装置及计算机可读存储介质 | |
CN118051653B (zh) | 基于语义关联的多模态数据检索方法、系统和介质 | |
CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN112115281A (zh) | 数据检索方法、装置及存储介质 | |
CN117992575A (zh) | 文本匹配方法、装置、计算机设备、存储介质、程序产品 | |
CN113297264A (zh) | 用于大规模并行处理数据库的方法及装置 | |
CN116702024B (zh) | 流水数据类型识别方法、装置、计算机设备和存储介质 | |
WO2024069941A1 (ja) | 情報処理装置、検索方法、及び検索プログラム | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN117688140B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
Doulamis et al. | 3D modelling of cultural heritage objects from photos posted over the Twitter | |
Nikolopoulos et al. | Leveraging massive user contributions for knowledge extraction | |
Eswaraiah et al. | Deep learning-based information retrieval with normalized dominant feature subset and weighted vector model | |
Williams-Lekuona et al. | FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |