CN111444319A - 文本匹配方法、装置和电子设备 - Google Patents
文本匹配方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111444319A CN111444319A CN202010533381.5A CN202010533381A CN111444319A CN 111444319 A CN111444319 A CN 111444319A CN 202010533381 A CN202010533381 A CN 202010533381A CN 111444319 A CN111444319 A CN 111444319A
- Authority
- CN
- China
- Prior art keywords
- text
- matched
- knowledge point
- knowledge
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本说明书提出了一种文本匹配方法、装置和电子设备,其中,上述方法包括:获取待匹配文本,根据所述待匹配文本得到知识点集合;根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合;根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。通过上述方法可以提高输入文本与知识点之间的匹配的准确度。
Description
技术领域
本说明书涉及人工智能领域,尤其涉及一种文本匹配方法、装置和电子设备。
背景技术
人工智能(Artificial Intelligence;以下简称:AI),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中,AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作;在实践应用中,通常是构建一个模型,例如,构建一个分类模型,通过训练数据对该分类模型进行反复训练,当训练到期望的目标时,可将该分类模型用于分类。
发明内容
本说明书实施例提供了一种文本匹配方法、装置和电子设备,通过获取待匹配文本对应的知识点的扩展信息,根据该扩展信息与待匹配文本之间的相似度确定匹配的知识点,可以提高输入文本与知识点之间的匹配的准确度。
第一方面,本说明书实施例提供一种文本匹配方法,包括:
获取待匹配文本,根据所述待匹配文本得到知识点集合,其中,所述知识点集合包括多个知识点;
根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度;
根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
其中一种可能的实现方式中,所述根据所述待匹配文本得到知识点集合包括:
将所述待匹配文本输入至预置分类模型,得到与所述待匹配文本对应的多个分类,其中,每个所述分类对应一个知识点及预测概率;
依次将每个所述知识点的预测概率与预置概率阈值进行比较,得到大于所述预置概率阈值的知识点。
其中一种可能的实现方式中,所述依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合包括:
将所述扩展信息与所述待匹配文本分别输入至预置向量转换模型,得到扩展信息向量及待匹配文本向量;
依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,所述依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合包括:
根据每个所述知识点对应的多个扩展信息向量确定扩展信息均值向量,其中,所述扩展信息均值向量用于表征多个扩展信息向量的平均值;
依次将每个所述知识点对应的扩展信息均值向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,所述根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点包括:
根据所述知识点集合中每个所述知识点的预测概率与所述相似度集合中对应的相似度的和值对所述知识点进行排序;
根据所述顺序确定与所述待匹配文本匹配的知识点。
第二方面,本说明书实施例提供一种文本匹配装置,包括:
获取模块,用于获取待匹配文本,根据所述待匹配文本得到知识点集合,其中,所述知识点集合包括多个知识点;
计算模块,用于根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度;
匹配模块,用于根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
其中一种可能的实现方式中,所述获取模块包括:
分类单元,用于将所述待匹配文本输入至预置分类模型,得到与所述待匹配文本对应的多个分类,其中,每个所述分类对应一个知识点及预测概率;
比较单元,用于依次将每个所述知识点的预测概率与预置概率阈值进行比较,得到大于所述预置概率阈值的知识点。
其中一种可能的实现方式中,所述计算模块包括:
转换单元,用于将所述扩展信息与所述待匹配文本分别输入至预置向量转换模型,得到扩展信息向量及待匹配文本向量;
计算单元,用于依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,所述计算单元还用于根据每个所述知识点对应的多个扩展信息向量确定扩展信息均值向量,其中,所述扩展信息均值向量用于表征多个扩展信息向量的平均值;依次将每个所述知识点对应的扩展信息均值向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,所述匹配模块包括:
排序单元,用于根据所述知识点集合中每个所述知识点的预测概率与所述相似度集合中对应的相似度的和值对所述知识点进行排序;
匹配单元,用于根据所述顺序确定与所述待匹配文本匹配的知识点。
第三方面,本说明书实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
第四方面,本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令在计算机上运行时,所述计算机指令使所述计算机执行第一方面提供的方法。
应当理解的是,本说明书的第二~第四方面与本说明书的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书文本匹配方法一个实施例的流程图;
图2为本说明书知识点分类一个实施例的流程图;
图3为本说明书文本匹配装置一个实施例的结构示意图;
图4为本说明书电子设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
目前,在云客服环境中,用户通常会设置多个知识库,该知识库中包含了大量的知识点,而每个知识点可以包含扩展描述;然而在对输入文本进行匹配的过程中,只对输入文本进行分类,即只得到与该输入文本对应的知识点分类,或者只计算该输入文本与知识点之间的相似度,因此造成输入文本与知识点之间的匹配的准确度不高。
图1为本说明书文本匹配方法一个实施例的流程图,如图1所示,上述文本匹配方法可以包括:
步骤101,获取待匹配文本,根据该待匹配文本得到知识点集合,其中,该知识点集合包括多个知识点。
具体地,该待匹配文本可以是用户输入的一句话或者一段文字;当获取到该待匹配文本之后,可以将该待匹配文本进行向量转换,得到文本向量;其中,首先可以将该待匹配文本进行分词,分词的方式可以是通过现有的工具,例如,Jieba工具;然后可以将该分词进行向量转换,得到每个分词对应的词向量;接着可以将该词向量输入至预置的编码器进行处理,得到向量序列;其中,编码器可以从双向变换编码器(Bidirectional EncoderRepresentation from Transformers,BERT)、长短期记忆网络(Long Short-Term Memory,LSTM)或卷积神经网络(Convolutional Neural Network,CNN)模型中提取;接着还可以对该向量序列进行池化操作,由此得到该匹配文本对应的文本向量。
接着,可以将该文本向量输入至预置分类模型,该分类模型可以用于对待匹配文本进行分类,即可以找到与该待匹配文本对应的所有知识点(知识点集合);在具体实现时,将该文本向量输入至该预置分类模型后,可以得到与该文本向量对应的每个分类的预测概率,其中,每个分类可以对应一个知识点;如图2所示,文本向量A经过分类模型后,可以得到所有对应的知识点的预测概率,其中,知识点1的预测概率为10%,知识点2的预测概率为20%,知识点3的预测概率为70%。
可选地,当得到每个知识点对应的预测概率后,由于知识点的数量可能很庞大,导致计算量增大,因此可以在所有知识点中选取部分;在具体实现时,可以将该预测概率与预置概率阈值进行比较,将大于该预置概率阈值的知识点进行输出;也可以预先设定一个数字N,无论得到多少个知识点,都只将N个知识点进行输出;也可以是其它形式的选取方式,本说明书实施例对此不作限定。
步骤102,根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度。
具体地,当获取到与该待匹配文本对应的知识点集合后,可以根据该知识点集合中的所有知识点找到对应的扩展信息;其中,每个知识点可以对应一个或多个扩展信息,而该知识点与扩展信息可以预先存储在知识库中;在具体实现时,当得到知识点集合后,可以依次根据知识点集合中的每个知识点在知识库中进行查询,由此得到每个知识点对应的扩展信息。
进一步地,当获取到扩展信息后,可以对该扩展信息进行向量转换,得到扩展信息向量;其中,扩展信息向量转换的方式可以是通过现有的分类模型或匹配模型实现,也可以是同步骤101文本向量转换的方式,例如,先对扩展信息进行词向量转换,然后根据该词向量可以得到扩展信息向量。
进一步地,当获取到扩展信息向量后,由于一个知识点可以对应多个扩展信息向量,因此还可以进一步得到扩展信息均值向量,该扩展信息均值向量可以用于表征多个扩展信息向量的平均值;在具体实现时,针对任意一个知识点,可以首先统计该知识点对应的所有扩展信息向量的总值,然后可以将该总值除以扩展信息向量的总数,即可以得到该知识点对应的扩展信息均值向量;接着可以计算其它知识点的扩展信息均值向量,直到所有的知识点对应扩展信息均值向量计算完毕。
接着,当获取到每个知识点对应的扩展信息均值向量后,可以依次将每个扩展信息均值向量与待匹配文本向量进行相似度计算,由此得到每个扩展信息均值向量与待匹配文本向量之间的相似度,即相似度集合,其中,相似度的计算方式可以是通过计算余弦相似度的方式,也可以是通过欧式距离的方式,本说明书实施例对此不作限定。
步骤103,根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
具体地,当获取到相似度集合及知识点集合后,可以首先找到相似度集合中每个知识点的相似度和知识点集合中每个知识点的预测概率之间的映射关系,然后可以将与同一知识点对应的相似度和预测概率进行累计,得到该知识点的综合值;然后得到其余知识点的综合值。
需要理解的是,由于该知识点集合中每个知识点的预测概率是归一化以后的值,因此在对相似度和预测概率进行累计前,还可以对该相似度值进行归一化,由此可以得到每个知识点对应的相似度归一化值,并可以将相似度归一化值与预测概率值进行累计。
进一步地,当得到每个知识点对应的综合值后,可以根据该综合值对所有知识点进行排序,其中,排序的顺序可以是由高到低,也可以是由低到高;并可以根据该顺序确定与待匹配文本匹配的知识点;在具体实现时,可以将最高综合值对应的知识点进行输出,作为与待匹配文本最匹配的知识点;也可以输出一部分知识点,例如,预设一个综合值阈值,将大于该综合值阈值的知识点进行输出,或者预设一个数目,将与该数目对应个数的知识点进行输出,作为与该待匹配文本匹配的候选知识点,以供用户参考。
本说明书文本匹配方法中,通过获取待匹配文本对应的知识点的扩展信息,根据该扩展信息与待匹配文本之间的相似度确定匹配的知识点,可以提高输入文本与知识点之间的匹配的准确度。
图3为本说明书文本匹配装置30一个实施例的结构示意图,如图3所示,上述文本匹配装置30可以包括:获取模块31、计算模块32和匹配模块33;
获取模块31,用于获取待匹配文本,根据所述待匹配文本得到知识点集合,其中,所述知识点集合包括多个知识点;
计算模块32,用于依次将所述知识点集合中的每个知识点与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度;
匹配模块33,用于根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
其中一种可能的实现方式中,上述获取模块31可以包括:分类单元311及比较单元312;
分类单元311,用于将所述待匹配文本输入至预置分类模型,得到与所述待匹配文本对应的多个分类,其中,每个所述分类对应一个知识点及预测概率;
比较单元312,用于依次将每个所述知识点的预测概率与预置概率阈值进行比较,得到大于所述预置概率阈值的知识点。
其中一种可能的实现方式中,上述计算模块32可以包括:转换单元321及计算单元322;
转换单元321,用于将所述扩展信息与所述待匹配文本分别输入至预置向量转换模型,得到扩展信息向量及待匹配文本向量;
计算单元322,用于依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,上述计算单元322还可以用于根据每个所述知识点对应的多个扩展信息向量确定扩展信息均值向量,其中,所述扩展信息均值向量用于表征多个扩展信息向量的平均值;依次将每个所述知识点对应的扩展信息均值向量与所述待匹配文本向量进行计算,得到相似度集合。
其中一种可能的实现方式中,上述匹配模块33可以包括:排序单元331及匹配单元332;
排序单元331,用于根据所述知识点集合中每个所述知识点的预测概率与所述相似度集合中对应的相似度的和值对所述知识点进行排序;
匹配单元332,用于根据所述顺序确定与所述待匹配文本匹配的知识点。
图3所示实施例提供的文本匹配装置可用于执行本说明书图1和图2所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图3所示的文本匹配装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,检测模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图4为本说明书电子设备400一个实施例的结构示意图,如图4所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书图1和图2所示实施例提供的文本匹配方法。
其中,上述电子设备可以为能够进行文本匹配的设备,例如:计算机,本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是,这里的电子设备即为方法实施例中提到的机器。
图4示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图4显示的电子设备400仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:一个或者多个处理器410,存储器430,连接不同系统组件(包括存储器430和处理器410)的通信总线440。
通信总线440表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器430可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器430可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器430中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过通信接口420进行。并且,电子设备还可以通过网络适配器(图4中未示出)与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide AreaNetwork;以下简称:WAN)和/或公共网络,例如因特网)通信,上述网络适配器可以通过通信总线440与电子设备的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Drives;以下简称:RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器410通过运行存储在存储器430中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书图1和图2所示实施例提供的文本匹配方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令在计算机上运行时,所述计算机指令使所述计算机执行本说明书图1所示实施例提供的文本匹配方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (12)
1.一种文本匹配方法,包括:
获取待匹配文本,根据所述待匹配文本得到知识点集合,其中,所述知识点集合包括多个知识点;
根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度;
根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
2.根据权利要求1所述的方法,所述根据所述待匹配文本得到知识点集合包括:
将所述待匹配文本输入至预置分类模型,得到与所述待匹配文本对应的多个分类,其中,每个所述分类对应一个知识点及预测概率;
依次将每个所述知识点的预测概率与预置概率阈值进行比较,得到大于所述预置概率阈值的知识点。
3.根据权利要求1所述的方法,所述依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合包括:
将所述扩展信息与所述待匹配文本分别输入至预置向量转换模型,得到扩展信息向量及待匹配文本向量;
依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合。
4.根据权利要求3所述的方法,所述依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合包括:
根据每个所述知识点对应的多个扩展信息向量确定扩展信息均值向量,其中,所述扩展信息均值向量用于表征多个扩展信息向量的平均值;
依次将每个所述知识点对应的扩展信息均值向量与所述待匹配文本向量进行计算,得到相似度集合。
5.根据权利要求2所述的方法,所述根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点包括:
根据所述知识点集合中每个所述知识点的预测概率与所述相似度集合中对应的相似度的和值对所述知识点进行排序;
根据所述顺序确定与所述待匹配文本匹配的知识点。
6.一种文本匹配装置,包括:
获取模块,用于获取待匹配文本,根据所述待匹配文本得到知识点集合,其中,所述知识点集合包括多个知识点;
计算模块,用于根据所述知识点集合中的每个知识点进行查询,得到与每个所述知识点对应的一个或多个扩展信息;依次将每个所述知识点对应的扩展信息与所述待匹配文本进行计算,得到相似度集合,其中,所述相似度集合包括每个所述知识点与所述待匹配文本之间的相似度;
匹配模块,用于根据所述相似度集合与所述知识点集合确定与所述待匹配文本匹配的知识点。
7.根据权利要求6所述的装置,所述获取模块包括:
分类单元,用于将所述待匹配文本输入至预置分类模型,得到与所述待匹配文本对应的多个分类,其中,每个所述分类对应一个知识点及预测概率;
比较单元,用于依次将每个所述知识点的预测概率与预置概率阈值进行比较,得到大于所述预置概率阈值的知识点。
8.根据权利要求6所述的装置,所述计算模块包括:
转换单元,用于将所述扩展信息与所述待匹配文本分别输入至预置向量转换模型,得到扩展信息向量及待匹配文本向量;
计算单元,用于依次将每个所述知识点对应的扩展信息向量与所述待匹配文本向量进行计算,得到相似度集合。
9.根据权利要求8所述的装置,所述计算单元还用于根据每个所述知识点对应的多个扩展信息向量确定扩展信息均值向量,其中,所述扩展信息均值向量用于表征多个扩展信息向量的平均值;依次将每个所述知识点对应的扩展信息均值向量与所述待匹配文本向量进行计算,得到相似度集合。
10.根据权利要求7所述的装置,所述匹配模块包括:
排序单元,用于根据所述知识点集合中每个所述知识点的预测概率与所述相似度集合中对应的相似度的和值对所述知识点进行排序;
匹配单元,用于根据所述顺序确定与所述待匹配文本匹配的知识点。
11.一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
12.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令在计算机上运行时,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010533381.5A CN111444319B (zh) | 2020-06-12 | 2020-06-12 | 文本匹配方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010533381.5A CN111444319B (zh) | 2020-06-12 | 2020-06-12 | 文本匹配方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444319A true CN111444319A (zh) | 2020-07-24 |
CN111444319B CN111444319B (zh) | 2020-10-20 |
Family
ID=71655320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010533381.5A Active CN111444319B (zh) | 2020-06-12 | 2020-06-12 | 文本匹配方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444319B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380832A (zh) * | 2020-11-13 | 2021-02-19 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
CN109857846A (zh) * | 2019-01-07 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 用户问句与知识点的匹配方法和装置 |
CN110532362A (zh) * | 2019-08-20 | 2019-12-03 | 北京齐尔布莱特科技有限公司 | 基于产品使用手册的问答方法、装置及计算设备 |
CN110765247A (zh) * | 2019-09-30 | 2020-02-07 | 支付宝(杭州)信息技术有限公司 | 一种用于问答机器人的输入提示方法及装置 |
-
2020
- 2020-06-12 CN CN202010533381.5A patent/CN111444319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
CN109857846A (zh) * | 2019-01-07 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 用户问句与知识点的匹配方法和装置 |
CN110532362A (zh) * | 2019-08-20 | 2019-12-03 | 北京齐尔布莱特科技有限公司 | 基于产品使用手册的问答方法、装置及计算设备 |
CN110765247A (zh) * | 2019-09-30 | 2020-02-07 | 支付宝(杭州)信息技术有限公司 | 一种用于问答机器人的输入提示方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380832A (zh) * | 2020-11-13 | 2021-02-19 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN112380832B (zh) * | 2020-11-13 | 2024-01-30 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444319B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444329B (zh) | 智能对话方法、装置和电子设备 | |
CN106951484B (zh) | 图片检索方法及装置、计算机设备及计算机可读介质 | |
US10929610B2 (en) | Sentence-meaning recognition method, sentence-meaning recognition device, sentence-meaning recognition apparatus and storage medium | |
CN111325156B (zh) | 人脸识别方法、装置、设备和存储介质 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
WO2021027125A1 (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN111382270A (zh) | 基于文本分类器的意图识别方法、装置、设备及存储介质 | |
CN113986950A (zh) | 一种sql语句处理方法、装置、设备及存储介质 | |
CN111738009B (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN111444319B (zh) | 文本匹配方法、装置和电子设备 | |
CN112784102B (zh) | 视频检索方法、装置和电子设备 | |
CN111898363B (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN111339308B (zh) | 基础分类模型的训练方法、装置和电子设备 | |
US20230186613A1 (en) | Sample Classification Method and Apparatus, Electronic Device and Storage Medium | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113362809B (zh) | 语音识别方法、装置和电子设备 | |
CN115292008A (zh) | 用于分布式系统的事务处理方法、装置、设备及介质 | |
CN114970470A (zh) | 文案信息处理方法、装置、电子设备和计算机可读介质 | |
CN111242322B (zh) | 后门样本的检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034073 Country of ref document: HK |