CN114942979A - 一种短文本问题匹配方法和装置 - Google Patents

一种短文本问题匹配方法和装置 Download PDF

Info

Publication number
CN114942979A
CN114942979A CN202210628259.5A CN202210628259A CN114942979A CN 114942979 A CN114942979 A CN 114942979A CN 202210628259 A CN202210628259 A CN 202210628259A CN 114942979 A CN114942979 A CN 114942979A
Authority
CN
China
Prior art keywords
text
target
question
vector
cosine similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210628259.5A
Other languages
English (en)
Inventor
严海强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Konka Electronic Technology Co Ltd
Original Assignee
Shenzhen Konka Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Konka Electronic Technology Co Ltd filed Critical Shenzhen Konka Electronic Technology Co Ltd
Priority to CN202210628259.5A priority Critical patent/CN114942979A/zh
Publication of CN114942979A publication Critical patent/CN114942979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种短文本问题匹配方法和装置,其中,该方法包括:获取待匹配的目标文本;计算目标文本的目标句向量;构建目标句向量的目标向量索引;分别计算目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据句向量构建的向量索引;根据余弦相似度的计算结果对目标文本进行问题匹配。通过本公开,解决了现有技术中短文本问题匹配效果较差的问题,实现了提高短文本问题匹配效果,进而提升智能客服系统用户体验。

Description

一种短文本问题匹配方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种短文本问题匹配方法和装置。
背景技术
随着科技进步,经济社会的日益发展,客服系统在企业的生产经营活动中扮演着重要的角色。随着用户量越来越大以及客户对于服务质量的要求的提高,会导致出现人工客服有时无法及时为客户服务的情况。智能客服是随着AI技术逐渐在产业界落地的一个非常普遍的应用场景,可以为商家节省人力投入,提升用户体验。
在智能客服系统中,文本匹配是核心任务之一,而问题匹配是文本匹配任务的一个类别。问题匹配(Question Matching)任务旨在判断两个自然问句之间的语义是否等价,是自然语言处理领域的一个重要研究方向。例如在客服系统中,通常会先构建知识库,其中包含问题(一般有标准问题和相似问题)和答案,在用户输入一个问题之后,会在所有问题中做匹配,从这些问题中找出与输入的问题最匹配的一个,再返回最匹配的那个问题所对应的答案给用户。
目前常见的方法,一是根据关键字匹配;二是利用文本分类的方法,将问题输入训练好的分类器,输出对应的问题匹配类别;三是利用文本检索的方法,其中有基于稀疏矩阵和基于稠密矩阵两种方式,基于稀疏矩阵的方法通常使用Tf-IDF或BM25等方法,稠密矩阵一般是利用深度学习方法,如BERT系列模型学习句向量的表达,然后利用向量检索返回知识库中相似度最高的问题,再获取对应的答案回复给用户。
在客服系统中,客户提出的问题的文本长度都比较短,目前的技术得到的短文本问题匹配的效果较差。例如,采用关键词匹配很难得到精确的结果,准确率低;利用文本分类又会造成过拟合的效果;而采用TF-IDF或者BM25方法等构建稀疏矩阵的方法对于短文本效果往往很差,主要是因为短文本能够提供的特征信息很有限,计算相似度时准确率也低;而采用训练深度学习模型得到文本向量进行文本检索的整个过程成本高,响应速度慢。
目前,针对相关技术中存在的短文本问题匹配效果较差的问题,尚未提出有效的解决方案。
发明内容
本公开的目的是针对现有技术中的不足,提供一种短文本问题匹配方法、装置、电子设备和计算机可读存储介质,以至少解决相关技术中短文本问题匹配效果较差的问题。
根据本公开的一方面,提供了一种短文本问题匹配方法,包括:获取待匹配的目标文本;计算所述目标文本的目标句向量;构建所述目标句向量的目标向量索引;分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;根据余弦相似度的计算结果对所述目标文本进行问题匹配。
根据本公开的另一方面,提供了一种短文本问题匹配装置,包括:获取单元,用于获取待匹配的目标文本;第一计算单元,用于计算所述目标文本的目标句向量;构建单元,用于构建所述目标句向量的目标向量索引;第二计算单元,用于分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;匹配单元,用于根据余弦相似度的计算结果对所述目标文本进行问题匹配。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开所述的短文本问题匹配方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开所述的短文本问题匹配方法。
本公开实施例中提供的一个或多个技术方案,根据过将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离来确定文本之间的相似性这一思想,通过比较待匹配的目标文本与预设的问题库中每个问题文本的向量索引之间的余弦相似度,对目标文本进行问题匹配,可以解决现有技术中短文本问题匹配效果较差的问题,实现提高短文本问题匹配效果,进而提升智能客服用户使用体验的效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的短文本问题匹配方法的流程图;
图2示出了根据本公开示例性实施例的智能客服系统算法的流程图;
图3示出了根据本公开示例性实施例的问题匹配的流程图;
图4示出了根据本公开示例性实施例的文本向量计算的流程图;
图5示出了根据本公开示例性实施例的短文本问题匹配装置的示意性框图;
图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下参照附图描述本公开的方案。
本公开示例性实施例提供了一种短文本问题匹配方法。图1示出了根据本公开示例性实施例的短文本问题匹配方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待匹配的目标文本;
步骤S102,计算所述目标文本的目标句向量;
步骤S103,构建所述目标句向量的目标向量索引;
步骤S104,分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;
步骤S105,根据余弦相似度的计算结果对所述目标文本进行问题匹配。
通过上述步骤,解决了现有技术中短文本问题匹配效果较差的问题,实现了提高短文本问题匹配效果,进而提升智能客服用户使用体验的效果。
如图2所示,在其中一些实施例中,在步骤S201:用户通过渠道端(小程序、APP等)进入智能客服入口并输入文本之后,即上述待匹配的目标文本,执行步骤S202:对用户输入的文本进行预处理,预处理包括但并不限于:英文大小写转换、特殊符号字符的过滤、拼音纠错,去除停用词等。之后执行步骤S203:对用户输入的文本进行意图识别,其中,意图识别分类为客服和闲聊;若意图识别为客服,则执行步骤S204:进行文本问题匹配;若意图识别为闲聊,则执行步骤S205:进入闲聊模块,并返回对应的闲聊话术。在步骤S204进行文本问题匹配之后,进行步骤S206:判断最大的余弦匹配度是否大于第一阈值,若是则执行步骤S207:返回问题答案;若否则执行步骤S208:返回相似问题作为引导问题。
如图3所示,在其中一些实施例中,进行文本问题匹配的具体过程包括以下步骤:步骤S301,对输入的目标文本,计算目标文本的目标句向量;步骤S302,构建目标句向量的目标向量索引;步骤S303,构建问题库,其中,问题库中包括标准问题、相似问题、答案;步骤S304,计算问题库中每个问题文本的句向量;步骤S305,构建问题库中每个句向量的向量索引;步骤S306,分别计算目标向量索引与问题库中的每个向量索引之间的余弦相似度;步骤S307,根据余弦相似度的计算结果对目标文本进行问题匹配。
在其中一些实施例中,步骤S302与步骤S305中构建向量索引可以采用faiss框架来构建索引,faiss是Facebook Ai Research开发的一款稠密向量检索工具,此框架支持高维度、速度快、GPU优化好。
在其中一些实施例中,步骤S307(也即步骤S105)根据余弦相似度的计算结果对所述目标文本进行问题匹配包括:
若最大的余弦相似度大于第一阈值,则将所述最大的余弦相似度对应的问题文本确定为与所述目标文本匹配的问题文本,并返回所述最大的余弦相似度对应的问题文本的答案;
若所述最大的余弦相似度小于或等于所述第一阈值,则将大于第二阈值且小于或等于所述第一阈值的余弦相似度对应的问题文本确定为与所述目标文本相似的问题文本,并返回所述与所述目标文本相似的问题文本,其中,所述第二阈值小于所述第一阈值。
需要说明的是,此处的第一阈值和第二阈值可以根据实际需求设定或调整,此处不做具体数值限定,例如,第一阈值为0.8,第二阈值为0.3。
如图4所示,在其中一些实施例中,步骤S301(也即步骤S102)计算所述目标文本的目标句向量具体包括以下步骤:步骤S401,对输入的目标文本进行预处理,将目标文本切分为多个字符。然后计算每个字符的字向量,包括以下步骤S402至步骤S406:
步骤S402,计算每个字符的权重,其中,所述权重为字符在所述目标文本中出现的次数与所述目标文本的字符总数的比值。例如,输入的目标文本为:手机投屏有几种投屏方式,则每个字符在目标文本中出现的频数以及权重如表1所示:
表1
频数 1 1 2 2 1 1 1 1 1
权重 0.091 0.091 0.182 0.182 0.091 0.091 0.091 0.091 0.091
步骤S403,生成每个字符的签名。
步骤S404,构建第一列表,其中,所述第一列表中元素的位数与所述签名的位数相同。
步骤S405,将所述签名与所述第一列表按位进行逻辑与运算,得到第二列表。
步骤S406,将所述第二列表中每位元素乘以所述权重,得到所述字向量。
针对上述步骤S403至步骤S406,利用传统的hash算法把词映射到一个f-bit的签名。对于这个f-bit的签名,如果签名的第i位上为1,则对第i位乘上这个字的权重,否则先将其置为-1,再乘上该字的权重。在具体实现中,采用了按位逻辑与运算,逻辑与运算表示当与的二者某位都是真(也就是1)的时候才能给该位赋1,其余情况是假(也就是0),进而得到正负值,然后在乘上权重值的方式,计算速度会更快。
对字符“投”计算哈希值,也即字向量,示例如下:
首先把字符“投”经过simhash算法函数之后生成了256位bit的签名,如“1100000110110110101011.....”。然后再另外生成一个有256个元素的列表(即上述第一列表),每个元素是由1左移一位而来,例如第一个元素左移0位为1,第二个元素左移1位为10,第三个元素左移两位为100,依此类推,得到列表[1,10,100,1000,...],再将256位bit签名和列表中的每个元素按位进行逻辑与运算,结果为0的赋值为-1,得到一个新的256个元素的列表(即上述第二列表),如[1,-1,1,1,1,-1,....],再乘以相应权重0.182得到[0.182,-0.182,0.182,0.182,0.182,-0.182,...],这就是“投”这个字符的哈希值,也即“投”这个字符的字向量。
在计算每个字符的字向量之后,执行步骤S407,将每个字符的字向量按列累加,得到所述目标文本的所述目标句向量。
将得到的每个字的f-bit的向量进行列向累加求和,不用像传统simhash算法一样做数值截断(对应位置为正数时取1,对应位置为负数时取0),直接把每条文本的向量表征即向量库存储下来,这是因为不做截断计算相似度时效果会更好,而且省去了截断这一步骤速度会更快。例如“投”的哈希值为[0.182,-0.182,0.182,0.182,0.182,-0.182,...],“手”的哈希值为[0.091,-0.091,0.091,0.091,0.091,-0.091,...],列向累加结果为[0.273,-0.273,0.273,0.273,0.273,-0.273,...],其他字符相加依此类推。
上述计算目标句向量的过程也同样适用于步骤S304计算问题库中每个问题文本的句向量的计算。
本公开实施例针对现有技术中短文本问题匹配效果差的问题,提出了一种基于simhash的字表征的短文本问题匹配方法,simhash是局部敏感哈希算法(localitysensitve hash)的一种,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离(Hamming Distance)来确定文章之间的相似性。本公开实施例利用此方法在保证准确率的同时显著提高了计算速度,且减少了计算成本,进而提升了客服系统的性能。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开示例性实施例还提供了一种短文本问题匹配装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5示出了根据本公开示例性实施例的短文本问题匹配装置的示意性框图,如图5所示,该装置包括:
获取单元51,用于获取待匹配的目标文本;
第一计算单元52,用于计算所述目标文本的目标句向量;
构建单元53,用于构建所述目标句向量的目标向量索引;
第二计算单元54,用于分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;
匹配单元55,用于根据余弦相似度的计算结果对所述目标文本进行问题匹配。
在其中一些实施例中,所述匹配单元55包括:
第一确定模块,用于若最大的余弦相似度大于第一阈值,则将所述最大的余弦相似度对应的问题文本确定为与所述目标文本匹配的问题文本,并返回所述最大的余弦相似度对应的问题文本的答案;
第二确定模块,用于若所述最大的余弦相似度小于或等于所述第一阈值,则将大于第二阈值且小于或等于所述第一阈值的余弦相似度对应的问题文本确定为与所述目标文本相似的问题文本,并返回所述与所述目标文本相似的问题文本,其中,所述第二阈值小于所述第一阈值。
在其中一些实施例中,所述第一计算单元52包括:
切分模块,用于将所述目标文本切分为多个字符;
计算模块,用于计算每个字符的字向量;
累加模块,用于将每个字符的字向量按列累加,得到所述目标文本的所述目标句向量。
在其中一些实施例中,所述计算模块包括:
第一计算子模块,用于计算每个字符的权重,其中,所述权重为字符在所述目标文本中出现的次数与所述目标文本的字符总数的比值;
生成子模块,用于生成每个字符的签名;
构建子模块,用于构建第一列表,其中,所述第一列表中元素的位数与所述签名的位数相同;
第二计算子模块,用于将所述签名与所述第一列表按位进行逻辑与运算,得到第二列表;
第三计算子模块,用于将所述第二列表中每位元素乘以所述权重,得到所述字向量。
在其中一些实施例中,所述短文本问题匹配装置还包括:
识别单元,用于在获取待匹配的目标文本之后,对所述目标文本进行意图识别,其中,所述意图识别分为客服和闲聊;
执行单元,用于若所述目标文本的意图识别为客服,则执行所述计算所述目标文本的目标句向量的步骤。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,短文本问题匹配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行短文本问题匹配方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (10)

1.一种短文本问题匹配方法,其特征在于,包括:
获取待匹配的目标文本;
计算所述目标文本的目标句向量;
构建所述目标句向量的目标向量索引;
分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;
根据余弦相似度的计算结果对所述目标文本进行问题匹配。
2.如权利要求1所述的短文本问题匹配方法,其特征在于,所述根据余弦相似度的计算结果对所述目标文本进行问题匹配包括:
若最大的余弦相似度大于第一阈值,则将所述最大的余弦相似度对应的问题文本确定为与所述目标文本匹配的问题文本,并返回所述最大的余弦相似度对应的问题文本的答案;
若所述最大的余弦相似度小于或等于所述第一阈值,则将大于第二阈值且小于或等于所述第一阈值的余弦相似度对应的问题文本确定为与所述目标文本相似的问题文本,并返回所述与所述目标文本相似的问题文本,其中,所述第二阈值小于所述第一阈值。
3.如权利要求1所述的短文本问题匹配方法,其特征在于,所述计算所述目标文本的目标句向量包括:
将所述目标文本切分为多个字符;
计算每个字符的字向量;
将每个字符的字向量按列累加,得到所述目标文本的所述目标句向量。
4.如权利要求3所述的短文本问题匹配方法,其特征在于,所述计算每个字符的字向量包括:
计算每个字符的权重,其中,所述权重为字符在所述目标文本中出现的次数与所述目标文本的字符总数的比值;
生成每个字符的签名;
构建第一列表,其中,所述第一列表中元素的位数与所述签名的位数相同;
将所述签名与所述第一列表按位进行逻辑与运算,得到第二列表;
将所述第二列表中每位元素乘以所述权重,得到所述字向量。
5.如权利要求1至4中任一项所述的短文本问题匹配方法,其特征在于,在获取待匹配的目标文本之后,所述短文本问题匹配方法还包括:
对所述目标文本进行意图识别,其中,所述意图识别分为客服和闲聊;
若所述目标文本的意图识别为客服,则执行所述计算所述目标文本的目标句向量的步骤。
6.一种短文本问题匹配装置,其特征在于,包括:
获取单元,用于获取待匹配的目标文本;
第一计算单元,用于计算所述目标文本的目标句向量;
构建单元,用于构建所述目标句向量的目标向量索引;
第二计算单元,用于分别计算所述目标向量索引与预设的问题库中的每个向量索引之间的余弦相似度,其中,所述问题库中包括多个问题文本,每个问题文本对应一个句向量以及根据所述句向量构建的向量索引;
匹配单元,用于根据余弦相似度的计算结果对所述目标文本进行问题匹配。
7.如权利要求6所述的短文本问题匹配装置,其特征在于,所述匹配单元包括:
第一确定模块,用于若最大的余弦相似度大于第一阈值,则将所述最大的余弦相似度对应的问题文本确定为与所述目标文本匹配的问题文本,并返回所述最大的余弦相似度对应的问题文本的答案;
第二确定模块,用于若所述最大的余弦相似度小于或等于所述第一阈值,则将大于第二阈值且小于或等于所述第一阈值的余弦相似度对应的问题文本确定为与所述目标文本相似的问题文本,并返回所述与所述目标文本相似的问题文本,其中,所述第二阈值小于所述第一阈值。
8.如权利要求6所述的短文本问题匹配装置,其特征在于,所述第一计算单元包括:
切分模块,用于将所述目标文本切分为多个字符;
计算模块,用于计算每个字符的字向量;
累加模块,用于将每个字符的字向量按列累加,得到所述目标文本的所述目标句向量。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-5中任一项所述的短文本问题匹配方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的短文本问题匹配方法。
CN202210628259.5A 2022-06-06 2022-06-06 一种短文本问题匹配方法和装置 Pending CN114942979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210628259.5A CN114942979A (zh) 2022-06-06 2022-06-06 一种短文本问题匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210628259.5A CN114942979A (zh) 2022-06-06 2022-06-06 一种短文本问题匹配方法和装置

Publications (1)

Publication Number Publication Date
CN114942979A true CN114942979A (zh) 2022-08-26

Family

ID=82908669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210628259.5A Pending CN114942979A (zh) 2022-06-06 2022-06-06 一种短文本问题匹配方法和装置

Country Status (1)

Country Link
CN (1) CN114942979A (zh)

Similar Documents

Publication Publication Date Title
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN114881129A (zh) 一种模型训练方法、装置、电子设备及存储介质
US20230096921A1 (en) Image recognition method and apparatus, electronic device and readable storage medium
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN114942979A (zh) 一种短文本问题匹配方法和装置
CN114862479A (zh) 信息推送方法、装置、电子设备和介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN113361621A (zh) 用于训练模型的方法和装置
CN116244740B (zh) 一种日志脱敏方法、装置、电子设备及存储介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN113238765B (zh) 小程序的分发方法、装置、设备和存储介质
EP4123999B1 (en) Method and apparatus for pushing a resource, and storage medium
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN115563964B (zh) 短信文本正则生成方法、装置、电子设备及存储介质
CN113591440A (zh) 一种文本处理方法、装置及电子设备
CN113947082A (zh) 分词处理的方法、装置、设备以及存储介质
CN115758142A (zh) 深度学习模型的训练方法、数据处理方法和装置
CN115599916A (zh) 词向量矩阵增强方法、装置、设备及介质
CN114821566A (zh) 文本识别方法、装置、电子设备和存储介质
CN115828925A (zh) 文本选取方法、装置、电子设备与可读存储介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN114490976A (zh) 对话摘要训练数据的生成方法、装置、设备及存储介质
CN114860981A (zh) 图像检索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination