CN112182167B - 一种文本匹配方法、装置、终端设备和存储介质 - Google Patents

一种文本匹配方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN112182167B
CN112182167B CN202011228709.9A CN202011228709A CN112182167B CN 112182167 B CN112182167 B CN 112182167B CN 202011228709 A CN202011228709 A CN 202011228709A CN 112182167 B CN112182167 B CN 112182167B
Authority
CN
China
Prior art keywords
text
sentence
vector
text sentence
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011228709.9A
Other languages
English (en)
Other versions
CN112182167A (zh
Inventor
谢舒翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011228709.9A priority Critical patent/CN112182167B/zh
Publication of CN112182167A publication Critical patent/CN112182167A/zh
Priority to PCT/CN2021/090952 priority patent/WO2022095370A1/zh
Application granted granted Critical
Publication of CN112182167B publication Critical patent/CN112182167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提出一种文本匹配方法、装置、终端设备和存储介质。该方法包括:获取第一文本语句和第二文本语句;对第一文本语句和第二文本语句进行拼音转换,得到第一文本语句的第一拼音以及第二文本语句的第二拼音;将第一文本语句和第一拼音拼接,得到第一文本语料,以及将第二文本语句和第二拼音拼接,得到第二文本语料;将第一文本语料和第二文本语料分别输入预先构建的文本转换模型,得到第一文本语句对应的第一句向量以及第二文本语句对应的第二句向量;根据第一句向量和第二句向量计算得到第一文本语句与第二文本语句之间的匹配度,采用该方法能够提高文本匹配的准确率。

Description

一种文本匹配方法、装置、终端设备和存储介质
技术领域
本申请属于人工智能技术领域,尤其涉及一种文本匹配方法、装置、终端设备和存储介质。
背景技术
文本匹配是自然语言处理的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如,信息检索系统、问答系统、对话系统、阅读理解系统等。随着语音系统的不断发展,越来越多的系统支持语音输入,由于语音转换成文本存在一定的差异性及人工输入的误差性,使得输入的文本存在一定的差错,而传统的文本匹配模型没办法正确进行文本匹配,导致意图识别错误,给用户带来不好的体验。
发明内容
有鉴于此,本申请提出一种文本匹配方法、装置、终端设备和存储介质,能够提高文本匹配的准确率。
第一方面,本申请实施例提供了一种文本匹配方法,包括:
获取第一文本语句和第二文本语句;
对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
本申请实施例将拼音作为一个新特征,与文本语句进行拼接,形成新的语料输入到文本转换模型中,使模型学习到包含拼音信息的更多语义信息。这样,即使出现语音转换文本错误时,模型也可以根据学习到的拼音信息,对输入信息进行纠正,返回正确的匹配信息,从而能够提高文本匹配的准确率。
进一步的,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,可以包括:
计算所述第一句向量和所述第二句向量之间的余弦相似度;
根据所述余弦相似度确定所述第一文本语句与所述第二文本语句之间的匹配度。
余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性,故通过计算第一句向量和第二句向量之间的余弦相似度,可以用于确定两个文本语句的匹配度。
进一步的,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,可以包括:
基于所述第一句向量和所述第二句向量构建目标特征向量,所述目标特征向量用于衡量所述第一句向量和所述第二句向量的匹配关系;
采用多个全连接层对所述目标特征向量进行处理,得到所述第一文本语句与所述第二文本语句之间的匹配度。
在获得目标特征向量之后,可以将该目标特征向量输入多个全连接层,通过全连接层整合卷积层或池化层中具有类别区分性的局部信息,从而得到两个文本语句之间的相似程度,也即匹配度。
更进一步的,基于所述第一句向量和所述第二句向量构建目标特征向量,可以包括:
将所述第一句向量和所述第二句向量首尾相接,得到第一特征向量;
将所述第一句向量和所述第二句向量对应位置的元素值相乘,得到第二特征向量;
将所述第一句向量和所述第二句向量对应位置的元素值相减并取绝对值,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量降维度拼接,得到所述目标特征向量。
进一步的,在得到所述第一文本语句与所述第二文本语句之间的匹配度之后,还可以包括:
采用softmax层对所述匹配度进行分类处理,得到所述第一文本语句与所述第二文本语句是否匹配的结果。
还可以采用softmax层完成文本匹配结果的分类,也即根据输入的匹配度获得一个第一文本语句和第二文本语句是否匹配的结果。例如,若输入的匹配度大于某个阈值,则输出第一文本语句和第二文本语句匹配的结果;否则输出第一文本语句和第二文本语句不匹配的结果。
进一步的,在获取第一文本语句和第二文本语句之后,对所述第一文本语句和所述第二文本语句进行拼音转换之前,还可以包括:
分别检测所述第一文本语句的长度和所述第二文本语句的长度;
若所述第一文本语句的长度超过预设长度值,则对所述第一文本语句进行截断,得到长度为所述预设长度值的第一文本语句;
若所述第二文本语句的长度超过所述预设长度值,则对所述第二文本语句进行截断,得到长度为所述预设长度值的第二文本语句。
更进一步的,在分别检测所述第一文本语句的长度和所述第二文本语句的长度之后,还可以包括:
若所述第一文本语句的长度小于所述预设长度值,则采用指定字符对所述第一文本语句进行填充,得到长度为所述预设长度值的第一文本语句;
若所述第二文本语句的长度小于所述预设长度值,则采用所述指定字符对所述第二文本语句进行填充,得到长度为所述预设长度值的第二文本语句。
后续步骤中采用的文本转换模型,其针对不同长度文本语句的处理效果是有区别的,因此在将文本语句输入模型之前,可以先将文本语句截断或者填充至某个指定长度,以提高后续模型的处理效果。
第二方面,本申请实施例提供了一种文本匹配装置,包括:
文本语句获取模块,用于获取第一文本语句和第二文本语句;
拼音转换模块,用于对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
文本拼接模块,用于将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
向量转换模块,用于将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
匹配度计算模块,用于根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的文本匹配方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的文本匹配方法的步骤。
上述第二方面至第四方面所能实现的有益效果,可以参照上述第一方面的相关说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本匹配方法的第一个实施例的流程图;
图2是本申请实施例提供的一种文本匹配方法的第二个实施例的流程图;
图3是本申请实施例提供的一种文本匹配方法的第三个实施例的流程图;
图4是本申请实施例提供的一种文本匹配装置的一个实施例的结构图;
图5是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
文本匹配是自然语言处理的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如,信息检索系统、问答系统、对话系统、阅读理解系统等。由于文本匹配存在匹配对象差异巨大、优质训练样本难以大量获取及文本匹配的层次性等问题,针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。
目前,基于神经网络进行文本匹配的方式主要可以分为两大类:Sentenceinteraction(SI)类,该类模型可以更好的把握语义焦点,能对上下文重要性进行更好的建模,但忽视了句法、句间对照等全局性信息,无法由局部匹配信息刻画全局匹配信息;还有一类为Sentence encoding(Sentence representation)即SE类,它可以对文本进行预处理,构建索引,大幅度降低在线计算耗时、使用方便简单,且效果也比较好,孪生网络就是典型的SE结构,因此很多人都会采用孪生网络去进行文本匹配。然而,随着语音系统的不断发展,越来越多的系统支持语音输入,由于语音转换成文本存在一定的差异性及人工输入的误差性,使得输入的文本存在一定的差错,传统的文本匹配模型没办法正确进行文本匹配,导致意图识别错误,给用户带来不好的体验。
针对上述问题,本申请提出一种文本匹配方法、装置、终端设备和存储介质,能够提高文本匹配的准确率。
本申请实施例提供的文本匹配方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、大屏电视等终端设备或者服务器上,本申请实施例对终端设备和服务器的具体类型不作任何限制。
请参阅图1,本申请实施例中一种文本匹配方法的第一个实施例包括:
101、获取第一文本语句和第二文本语句;
首先,获取待匹配的第一文本语句和第二文本语句。第一文本语句和第二文本语句是需要执行文本匹配的两个汉字语句,每个文本语句都包含多个汉字。其中,第一文本语句和第二文本语句包含的汉字数量可以相同,也可以不同。
102、对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
在获取第一文本语句和第二文本语句后,对这两个文本语句分别进行拼音转换,得到第一文本语句的拼音以及第二文本语句的拼音。具体的,可以采用拼音转换器将输入的汉字转换成拼音,拼音转换器是可以将汉字转换成拼音的一种工具,比如可以采用python中的xpinyin库进行转换,直接将句子中的每个汉字都转换成拼音,例如:“我爱人工智能”经过转换处理后得到“wo ai ren gong zhi neng”。
103、将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
在获得两个文本语句的拼音之后,分别将每个文本语句与对应的拼音进行拼接,得到两个新的文本语料。具体的,在拼接时,可以按照指定的字符拼接顺序,将汉字和拼音依次拼接。例如,在将我们是一家人”转换为“wo men shi yi jia ren”后,可以按照汉字在前,拼音在后的顺序,拼接成“我们是一家人wo men shi yi jia ren”;可以按照拼音在前,汉字在后的顺序,拼接成“wo men shi yi jia ren我们是一家人”;也可以按照“汉字-拼音-汉字”的顺序,拼接成“我wo们men是shi一yi家jia人ren”。
104、将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
在得到第一文本语料和第二文本语料之后,将这两个文本语料分别输入某个预先构建的文本转换模型中。通过该文本转换模型,可以将文本语料转换为对应的句向量,也即可以将第一文本语料转换为第一句向量,将第二文本语料转换为第二句向量。
具体的,该文本转换模型是预先训练完成的神经网络模型。可以包含Transformer编码层和pooling层,首先利用Transformer编码层对输入的文本预料进行编码,得到一系列数字表示的二维向量,类似于以下结构形式:
[[0 2 1 0],
[3 1 2 1],
[4 0 5 1]]
然后,利用pooling层对编码后得到的二维向量执行文本特征提取操作。pooling层提取特征主要有max-pooling(最大池化层)和mean-pooling(均值池化层),max-pooling是对领域内特征点取最大值,而mean-pooling是对领域内特征点求平均,本申请优选采用的是max-pooling层进行特征选取,例如pooling层大小为2*2,则对上面向量从左到右,从上到下依次以2*2的窗口进行移动,抽取窗口内特征最大值,最后经过最大池化后变成以下二维向量结构:
[[3 2 2],
[4 5 5]]
接着,对上述二维向量结构进行降维,得到一维向量(3 2 2 4 5 5),即为文本语句对应的句向量。
105、根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
在获得第一文本语句对应的第一句向量和第二文本语句对应的第二句向量之后,即可根据这两个句向量计算得到第一文本语句和第二文本语句之间的匹配度,从而完成文本匹配的操作。
进一步的,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,可以包括:
(1)计算所述第一句向量和所述第二句向量之间的余弦相似度;
(2)根据所述余弦相似度确定所述第一文本语句与所述第二文本语句之间的匹配度。
余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性,故通过计算第一句向量和第二句向量之间的余弦相似度,可以用于确定两个文本语句的匹配度。
本申请实施例将拼音作为一个新特征,与文本语句进行拼接,形成新的语料输入到文本转换模型中,使模型学习到包含拼音信息的更多语义信息。这样,即使出现语音转换文本错误时,模型也可以根据学习到的拼音信息,对输入信息进行纠正,返回正确的匹配信息,从而能够提高文本匹配的准确率。
请参阅图2,本申请实施例中一种文本匹配方法的第二个实施例包括:
201、获取第一文本语句和第二文本语句;
202、对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
203、将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
204、将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
步骤201-204与步骤101-104相同,具体可参照步骤101-104的相关说明。
205、基于所述第一句向量和所述第二句向量构建目标特征向量,所述目标特征向量用于衡量所述第一句向量和所述第二句向量的匹配关系;
在获得第一文本语句对应的第一句向量和第二文本语句对应的第二句向量之后,即可根据这两个句向量计算得到第一文本语句和第二文本语句之间的匹配度,具体可以通过构建目标特征向量的方式计算匹配度,该目标特征向量用于衡量第一句向量和第二句向量之间的匹配关系。
具体的,基于所述第一句向量和所述第二句向量构建目标特征向量,可以包括:
(1)将所述第一句向量和所述第二句向量首尾相接,得到第一特征向量;
(2)将所述第一句向量和所述第二句向量对应位置的元素值相乘,得到第二特征向量;
(3)将所述第一句向量和所述第二句向量对应位置的元素值相减并取绝对值,得到第三特征向量;
(4)将所述第一特征向量、所述第二特征向量和所述第三特征向量降维度拼接,得到所述目标特征向量。
以举例的方式说明上述步骤(1)至(4),假设第一句向量为u=[1 2 3 1 1 0],第二句向量为v=[1 0 1 2 3 0],则可以对u和v进行首尾相接,得到第一特征向量(u,v)=[[1 2 3 1 1 0],[1 0 1 2 3 0]];将u和v对应位置的元素值分别相乘,得到第二特征向量u*v=[1 0 3 2 3 0];将u和v对应位置的元素值相减并取绝对值,得到第三特征向量|u-v|=[0 2 2 1 2 0]。然后,将这3个特征向量在-1维度进行拼接,得到以下目标特征向量:
[[1 1 1 0]
[2 0 0 2]
[3 1 3 2]
[1 2 2 1]
[1 3 2 2]
[0 0 0 0]]
该目标特征向量可以用于衡量第一句向量u和第二句向量v之间的匹配关系,可以通过该目标特征向量计算得到第一文本语句和第二文本语句之间的匹配度。
206、采用多个全连接层对所述目标特征向量进行处理,得到所述第一文本语句与所述第二文本语句之间的匹配度。
在获得目标特征向量之后,可以将该目标特征向量输入多个全连接层进行处理,从而得到两个文本语句之间的匹配度。全连接层(fully connected layers)在整个神经网络中起到“分类器”的作用,如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。
具体的,全连接层中的每个神经元与其前一层的所有神经元进行全连接.可以整合卷积层或者池化层中具有类别区分性的局部信息.也即可以将目标特征向量具有的文本特征整合成一个用于评价两个文本之间相似程度的数值参数,即匹配度。
进一步的,在得到所述第一文本语句与所述第二文本语句之间的匹配度之后,还可以包括:
采用softmax层对所述匹配度进行处理,得到所述第一文本语句与所述第二文本语句是否匹配的结果。
最后,还可以采用softmax层完成分类,也即根据输入的匹配度获得一个第一文本语句和第二文本语句是否匹配的结果。例如,若输入的匹配度大于某个阈值,则输出第一文本语句和第二文本语句匹配的结果;否则输出第一文本语句和第二文本语句不匹配的结果。
本申请实施例将拼音作为一个新特征,与汉字语料进行拼接,形成新的语料输入到文本转换模型中,使模型学习到包含拼音信息的更多语义信息。这样,即使出现语音转换文本错误时,模型也可以根据学习到的拼音信息,对输入信息进行纠正,返回正确的匹配信息,从而能够提高文本匹配的准确率。与本申请的第一个实施例相比,本实施例提出一种根据第一句向量和第二句向量计算得到两个文本语句之间的匹配度的具体方式。
请参阅图3,本申请实施例中一种文本匹配方法的第三个实施例包括:
301、获取第一文本语句和第二文本语句;
302、分别检测所述第一文本语句的长度和所述第二文本语句的长度;
本申请实施例在获取到两个文本语句之后,会分别检测这两个文本语句的长度,具体可以是检测文本语句具有的字符串的个数。
303、若所述第一文本语句的长度超过预设长度值,则对所述第一文本语句进行截断,得到长度为所述预设长度值的第一文本语句;
304、若所述第二文本语句的长度超过所述预设长度值,则对所述第二文本语句进行截断,得到长度为所述预设长度值的第二文本语句;
305、若所述第一文本语句的长度小于所述预设长度值,则采用指定字符对所述第一文本语句进行填充,得到长度为所述预设长度值的第一文本语句;
306、若所述第二文本语句的长度小于所述预设长度值,则采用所述指定字符对所述第二文本语句进行填充,得到长度为所述预设长度值的第二文本语句;
后续步骤中采用的文本转换模型,其针对不同长度文本语句的处理效果是有区别的,因此在将文本语句输入模型之前,可以先将文本语句截断或者填充至某个指定长度,以提高后续模型的处理效果。比如,可以设置语句长度值为60个字符,当某个文本语句的长度超过60个字符时,按照设定的方式对该文本语句进行截断,使得该文本语句的长度为60个字符。当某个文本语句的长度不足60个字符时,可以采用某个指定字符(比如字符“0”)对该文本语句进行填充,使得该文本语句的长度为60个字符。
另外,也可以设置一个优选的文本长度范围区间,比如[30,60],其中30是文本语句的长度下限,60是文本语句的长度上限。当检测到某个文本语句的长度超过60时,对该文本语句进行截断,使得该文本语句的长度为60;当某个文本语句的长度小于30时,采用指定字符对该文本语句进行填充,使得该文本语句的长度为30。
307、对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
308、将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
309、将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
310、根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
步骤307-310与步骤102-105相同,具体可参照步骤102-105的相关说明。
本申请实施例将拼音作为一个新特征,与汉字语料进行拼接,形成新的语料输入到文本转换模型中,使模型学习到包含拼音信息的更多语义信息。这样,即使出现语音转换文本错误时,模型也可以根据学习到的拼音信息,对输入信息进行纠正,返回正确的匹配信息,从而能够提高文本匹配的准确率。另外,本申请实施例在将文本语句输入模型之前,会先将文本语句截断或者填充至某个指定长度,能够提高后续模型的处理效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的文本匹配方法,图4示出了本申请实施例提供的一种文本匹配装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该装置包括:
文本语句获取模块401,用于获取第一文本语句和第二文本语句;
拼音转换模块402,用于对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
文本拼接模块403,用于将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
向量转换模块404,用于将所述第一文本语料和所述第二文本语料分别输入预先构建的文本向量转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
匹配度计算模块405,用于根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
进一步的,所述匹配度计算模块可以包括:
余弦相似度计算单元,用于计算所述第一句向量和所述第二句向量之间的余弦相似度;
匹配度计算单元,用于根据所述余弦相似度确定所述第一文本语句与所述第二文本语句之间的匹配度。
进一步的,所述匹配度计算模块可以包括:
特征向量构建单元,用于基于所述第一句向量和所述第二句向量构建目标特征向量,所述目标特征向量用于衡量所述第一句向量和所述第二句向量的匹配关系;
向量处理单元,用于采用多个全连接层对所述目标特征向量进行处理,得到所述第一文本语句与所述第二文本语句之间的匹配度。
更进一步的,所述特征向量构建单元可以包括:
向量拼接子单元,用于将所述第一句向量和所述第二句向量首尾相接,得到第一特征向量;
向量相乘子单元,用于将所述第一句向量和所述第二句向量对应位置的元素值相乘,得到第二特征向量;
向量作差子单元,用于将所述第一句向量和所述第二句向量对应位置的元素值相减并取绝对值,得到第三特征向量;
向量降维子单元,用于将所述第一特征向量、所述第二特征向量和所述第三特征向量降维度拼接,得到所述目标特征向量。
进一步的,所述匹配度计算模块还可以包括:
分类单元,用于采用softmax层对所述匹配度进行分类处理,得到所述第一文本语句与所述第二文本语句是否匹配的结果。
进一步的,所述文本匹配装置还可以包括:
文本长度检测模块,用于分别检测所述第一文本语句的长度和所述第二文本语句的长度;
第一文本截断模块,用于若所述第一文本语句的长度超过预设长度值,则对所述第一文本语句进行截断,得到长度为所述预设长度值的第一文本语句;
第二文本截断模块,用于若所述第二文本语句的长度超过所述预设长度值,则对所述第二文本语句进行截断,得到长度为所述预设长度值的第二文本语句。
进一步的,所述文本匹配装置还可以包括:
第一文本填充模块,用于若所述第一文本语句的长度小于所述预设长度值,则采用指定字符对所述第一文本语句进行填充,得到长度为所述预设长度值的第一文本语句;
第二文本填充模块,用于若所述第二文本语句的长度小于所述预设长度值,则采用所述指定字符对所述第二文本语句进行填充,得到长度为所述预设长度值的第二文本语句。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1至图3表示的任意一种文本匹配方法的步骤。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1至图3表示的任意一种文本匹配方法的步骤。
图5是本申请一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个文本匹配方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至405的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述终端设备5可以是智能手机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本匹配方法,其特征在于,包括:
获取第一文本语句和第二文本语句;
对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度;
其中,所述文本转换模型是预先训练完成的神经网络模型,其结构包含编码层和池化层;所述将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量,包括:
利用所述编码层对所述第一文本语料进行编码得到第一二维向量,利用所述池化层对所述第一二维向量进行文本特征提取得到第二二维向量,对所述第二二维向量进行降维处理得到所述第一句向量;
利用所述编码层对所述第二文本语料进行编码得到第三二维向量,利用所述池化层对所述第三二维向量进行文本特征提取得到第四二维向量,对所述第四二维向量进行降维处理得到所述第二句向量。
2.如权利要求1所述的文本匹配方法,其特征在于,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,包括:
计算所述第一句向量和所述第二句向量之间的余弦相似度;
根据所述余弦相似度确定所述第一文本语句与所述第二文本语句之间的匹配度。
3.如权利要求1所述的文本匹配方法,其特征在于,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,包括:
基于所述第一句向量和所述第二句向量构建目标特征向量,所述目标特征向量用于衡量所述第一句向量和所述第二句向量的匹配关系;
采用多个全连接层对所述目标特征向量进行处理,得到所述第一文本语句与所述第二文本语句之间的匹配度。
4.如权利要求3所述的文本匹配方法,其特征在于,基于所述第一句向量和所述第二句向量构建目标特征向量,包括:
将所述第一句向量和所述第二句向量首尾相接,得到第一特征向量;
将所述第一句向量和所述第二句向量对应位置的元素值相乘,得到第二特征向量;
将所述第一句向量和所述第二句向量对应位置的元素值相减并取绝对值,得到第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量降维度拼接,得到所述目标特征向量。
5.如权利要求3所述的文本匹配方法,其特征在于,在得到所述第一文本语句与所述第二文本语句之间的匹配度之后,还包括:
采用softmax层对所述匹配度进行分类处理,得到所述第一文本语句与所述第二文本语句是否匹配的结果。
6.如权利要求1至5任一项所述的文本匹配方法,其特征在于,在获取第一文本语句和第二文本语句之后,对所述第一文本语句和所述第二文本语句进行拼音转换之前,还包括:
分别检测所述第一文本语句的长度和所述第二文本语句的长度;
若所述第一文本语句的长度超过预设长度值,则对所述第一文本语句进行截断,得到长度为所述预设长度值的第一文本语句;
若所述第二文本语句的长度超过所述预设长度值,则对所述第二文本语句进行截断,得到长度为所述预设长度值的第二文本语句。
7.如权利要求6所述的文本匹配方法,其特征在于,在分别检测所述第一文本语句的长度和所述第二文本语句的长度之后,还包括:
若所述第一文本语句的长度小于所述预设长度值,则采用指定字符对所述第一文本语句进行填充,得到长度为所述预设长度值的第一文本语句;
若所述第二文本语句的长度小于所述预设长度值,则采用所述指定字符对所述第二文本语句进行填充,得到长度为所述预设长度值的第二文本语句。
8.一种文本匹配装置,其特征在于,包括:
文本语句获取模块,用于获取第一文本语句和第二文本语句;
拼音转换模块,用于对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
文本拼接模块,用于将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
向量转换模块,用于将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
匹配度计算模块,用于根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度;
其中,所述文本转换模型是预先训练完成的神经网络模型,其结构包含编码层和池化层;所述向量转换模块包括:
第一向量转换单元,用于利用所述编码层对所述第一文本语料进行编码得到第一二维向量,利用所述池化层对所述第一二维向量进行文本特征提取得到第二二维向量,对所述第二二维向量进行降维处理得到所述第一句向量;
第二向量转换单元,用于利用所述编码层对所述第二文本语料进行编码得到第三二维向量,利用所述池化层对所述第三二维向量进行文本特征提取得到第四二维向量,对所述第四二维向量进行降维处理得到所述第二句向量。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本匹配方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本匹配方法的步骤。
CN202011228709.9A 2020-11-06 2020-11-06 一种文本匹配方法、装置、终端设备和存储介质 Active CN112182167B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011228709.9A CN112182167B (zh) 2020-11-06 2020-11-06 一种文本匹配方法、装置、终端设备和存储介质
PCT/CN2021/090952 WO2022095370A1 (zh) 2020-11-06 2021-04-29 一种文本匹配方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228709.9A CN112182167B (zh) 2020-11-06 2020-11-06 一种文本匹配方法、装置、终端设备和存储介质

Publications (2)

Publication Number Publication Date
CN112182167A CN112182167A (zh) 2021-01-05
CN112182167B true CN112182167B (zh) 2023-12-22

Family

ID=73916606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011228709.9A Active CN112182167B (zh) 2020-11-06 2020-11-06 一种文本匹配方法、装置、终端设备和存储介质

Country Status (2)

Country Link
CN (1) CN112182167B (zh)
WO (1) WO2022095370A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182167B (zh) * 2020-11-06 2023-12-22 平安科技(深圳)有限公司 一种文本匹配方法、装置、终端设备和存储介质
CN113297354A (zh) * 2021-06-16 2021-08-24 深圳前海微众银行股份有限公司 文本匹配方法、装置、设备及存储介质
CN113360623A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 一种文本匹配方法、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686404A (zh) * 2016-12-16 2017-05-17 中兴通讯股份有限公司 一种视频分析平台、匹配方法、精准投放广告方法及系统
CN111797204A (zh) * 2020-07-01 2020-10-20 北京三快在线科技有限公司 文本匹配方法、装置、计算机设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701120B (zh) * 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN106815197B (zh) * 2015-11-27 2020-07-31 北京国双科技有限公司 文本相似度的确定方法和装置
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109658938B (zh) * 2018-12-07 2020-03-17 百度在线网络技术(北京)有限公司 语音与文本匹配的方法、装置、设备及计算机可读介质
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置
CN111159339A (zh) * 2019-12-24 2020-05-15 北京亚信数据有限公司 一种文本匹配处理方法和装置
CN112182167B (zh) * 2020-11-06 2023-12-22 平安科技(深圳)有限公司 一种文本匹配方法、装置、终端设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686404A (zh) * 2016-12-16 2017-05-17 中兴通讯股份有限公司 一种视频分析平台、匹配方法、精准投放广告方法及系统
CN111797204A (zh) * 2020-07-01 2020-10-20 北京三快在线科技有限公司 文本匹配方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2022095370A1 (zh) 2022-05-12
CN112182167A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112182167B (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN112069319B (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN111858843B (zh) 一种文本分类方法及装置
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN114090823A (zh) 视频检索方法、装置、电子设备及计算机可读存储介质
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110969023B (zh) 文本相似度的确定方法及装置
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
CN115374845A (zh) 商品信息推理方法和装置
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN117038099A (zh) 医疗类术语标准化方法以及装置
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN116844573A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN114925175A (zh) 基于人工智能的摘要生成方法、装置、计算机设备及介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN112749554B (zh) 确定文本匹配度的方法、装置、设备及存储介质
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN112036188A (zh) 一种质检例句推荐的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant