CN110442677A - 文本匹配度检测方法、装置、计算机设备和可读存储介质 - Google Patents
文本匹配度检测方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN110442677A CN110442677A CN201910599137.6A CN201910599137A CN110442677A CN 110442677 A CN110442677 A CN 110442677A CN 201910599137 A CN201910599137 A CN 201910599137A CN 110442677 A CN110442677 A CN 110442677A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- coding structure
- vector
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种文本匹配度检测方法,该方法包括:获取输入的语音文本,并将语音文本转为目标文本;将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;获取隐含特征向量与目标标准向量之间的相似度,将相似度作为目标文本和目标标准文本之间的匹配度。通过目标自编码结构提取目标文本的隐含特征,然后计算目标文本的隐含特征向量和目标标准向量之间的相似度,相似度计算更加准确。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本匹配度检测方法、装置、计算机设备和可读存储介质。
背景技术
文本匹配度是指不同文本之间的语义关联度,文本匹配度的确定是文本挖掘和文本检索的核心工作之一,例如,利用语音关键字从数据库中检索相关文献时,就需要利用文本匹配度检测和关键字对应的文献。因此,如何更好的进行文本匹配度检测一直是本领域技术人员极为关注的问题。
现有技术进行文本匹配度检测的主要方式为:将文本映射成单词空间中的一个向量,计算向量之间欧式距离或者余弦距离。这种检测方式不能有效提取文本的语义特征,导致文本匹配度检测准确率比较低,因此,匹配度检测结果准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种提高匹配度检测结果准确度的文本匹配度检测方法、装置、计算机设备和可读存储介质。
一种文本匹配度检测方法,所述方法包括:
获取输入的语音文本,并将所述语音文本转为目标文本;
将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
在其中一个实施例中,所述将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量的步骤之前,还包括:
对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取所述目标自编码结构。
在其中一个实施例中,所述对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取所述目标自编码结构的步骤,包括:
将预存的多个样本特征向量输入预存的自编码结构,得到对应的样本输出向量;
根据所述样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构;
根据所述训练后的自编码结构的信息损失率从所述多个训练后的自编码结构中选取目标自编码结构。
在其中一个实施例中,所述将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量的步骤,包括:
将所述目标文本输入预设学习算法,输出目标输入向量;
将所述目标输入向量输入所述目标自编码结构,从所述目标自编码结构的中间层提取与所述目标输入向量对应的隐含特征向量。
在其中一个实施例中,所述根据所述样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构的步骤,包括:
将所述样本特征向量输入预存的自编码结构,得到对应的样本输出向量;
获取所述样本特征向量和所述样本输出向量之间的信息损失量;
根据所述信息损失量调整所述自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将所述调整参数后的自编码结构作为所述训练后的自编码结构。
在其中一个实施例中,所述获取所述样本特征向量和所述样本输出向量之间的信息损失量的步骤,包括:
采用均方误差损失函数,计算所述样本特征向量和所述样本输出向量之间的信息损失量;其中,所述均方误差损失函数公式为:
式中,m为样本数,ya为样本特征向量,yb为样本输出向量。
在其中一个实施例中,所述根据所述训练后的自编码结构的信息损失率从所述多个训练后的自编码结构中选取目标自编码结构的步骤,包括:
将所述多个训练后的自编码结构的所述信息损失量进行比较;
选取信息损失量最小的训练后的自编码结构,作为所述目标自编码结构。
一种文本匹配度检测装置,所述装置包括:
自编码结构获取模块,获取输入的语音文本,并将所述语音文本转为目标文本;
隐含特征获取模块,用于将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
标准向量获取模块,用于获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
匹配度检测模块,用于获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取输入的语音文本,并将所述语音文本转为目标文本;
将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取输入的语音文本,并将所述语音文本转为目标文本;
将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
本发明提供的文本匹配度检测方法,其获取输入的语音文本,并将所述语音文本转为目标文本;将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。通过目标自编码结构提取目标文本的隐含特征,从而得到目标文本的语义特征,然后计算目标文本的隐含特征向量和目标标准向量之间的相似度,作为目标文本和目标标注文本之间的匹配度,可以有效保留文本的语义特征,提高匹配度检测结果准确率。
附图说明
图1为一个实施例中文本匹配度检测方法的应用环境图;
图2为一个实施例中文本匹配度检测方法的流程示意图;
图3为一个实施例中自编码结构示意图;
图4为另一个实施例中文本匹配度检测方法的流程示意图;
图5为一个实施例中文本匹配度检测装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本匹配度检测方法,可以应用于如图1所示的应用环境中。具体的,服务器获取输入的语音文本,并将语音文本转为目标文本;服务器将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;服务器获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;服务器获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本匹配度检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取输入的语音文本,并将语音文本转为目标文本;
其中,目标文本是用于分析和对应的目标标准文本之间的相似度。
具体的,可以采用语音转化工具将语音文本转化为目标文本。
步骤S204,将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征。
其中,自编码结构是一种神经网络,如图3所示,图3为自编码结构示意图,将x1-x6输入自编码结构,自编码结构对x1-x6进行编码,然后进行解码,得到使得输出的和输入的x1-x6之间的差异最小化,此时自编码结构的中间层就是输入的x1-x6的隐含特征向量。
其中,隐含特征向量是将输入自编码结构的特征进行编码得到的特征向量,保留了原始输入自编码结构的输入向量的大量信息,即保留了目标文本的语义特征;自编码结构再将隐含特征向量进行解码还原,得到输出特征编码。
在具体实施过程中,通过将目标文本转化为目标输入编码,将目标输入编码输入目标自编码结构,得到目标文本的隐含特征向量。
步骤S206,获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;
其中,目标文本用于分析和对应的目标标准文本之间的相似度。
在具体实施过程中,由于文本本身不便于直接进行相似度对比,因此,需要将预设的目标标准文本转换成目标标注向量,然后和隐含特征向量进行对比获取相似度。
步骤S208,获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。
其中,关于相似度的计算,通常是基于向量,计算两个向量之间的距离,距离越近,相似度越大。
在具体实施过程中,采用余弦相似度计算方法,计算隐含特征向量和目标标准向量之间的目标相似度。
其中,余弦相似度计算方法又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。
上述文本匹配度检测方法,通过获取输入的语音文本,并将语音文本转为目标文本;将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。通过目标自编码结构提取目标文本的隐含特征,从而得到目标文本的语义特征,然后计算目标文本的隐含特征向量和目标标准向量之间的相似度,作为目标文本和目标标注文本之间的匹配度,可以有效保留文本的语义特征,提高匹配度检测结果准确率。
在其中一个实施例中,步骤S204的将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量的之前,还包括:
步骤S203,对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构。
具体的,步骤S203对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构的步骤,包括:
(1)将预存的多个样本特征向量输入预存的自编码结构,得到对应的样本输出向量。
其中,样本特征向量,是根据用于对自编码结构进行训练的训练文本得到的。
在具体实施过程中,获取用于训练后的自编码结构的训练文本,通过预设学习算法将训练文本转化成样本特征向量。例如,通过Python中的sklearn库,将目标文本转化为词袋模型特征形式的目标输入向量。
其中,Python是一种计算机程序设计语言;sklearn,也称为scikit-learn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。
(2)根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构。
其中,自编码结构的训练过程是使输入和输出差异最小化的过程。
在具体实施过程中,将样本特征向量分别输入多个不同的自编码结构,不同的自编码结构的区别在于隐层数量和隐层单元数量的不同,分别调整多个自编码结构的参数,使各自编码结构输出和样本特征向量差异最小化。
(3)根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构。
在具体实施过程中,由于多个训练后的自编码结构的隐层和隐层单元数据的不同,因此,能达到的输入和输出差异程度也不同,根据各训练后的自编码结构的输入和输出的差异值,从多个训练后的自编码结构中选取目标自编码结构。
在其中一个实施例中,步骤S204的将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量,包括:(1)将目标文本输入预设学习算法,输出目标输入向量。
其中,预设学习算法是用于将文本转化成对应的向量的算法,例如,通过Python中的sklearn库,将目标文本转化为词袋模型特征形式的目标输入向量。
其中,Python是一种计算机程序设计语言;sklearn,也称为scikit-learn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。
例如,现有文本一:“我喜欢吃苹果,苹果营养丰富”,以及文本二:“我喜欢吃梨”,则首先通过Python中的jieba库进行分词以将话语中的词语分隔开来,随后通过sklearn库建立词袋模型特征(特征将包括“我”、“喜欢”、“吃”、“苹果”、“营养”、“丰富”、“梨”),并根据词语出现频次确定各个样本的特征数值,可以得到,文本一的特征向量(1,1,1,2,1,1,0),文本二的特征向量为(1,1,1,0,0,0,1))。其中,jieba库是一种Python中文分词库。
(2)将目标输入向量输入目标自编码结构,从目标自编码结构的中间层提取与目标输入向量对应的隐含特征向量。
其中,隐含特征向量是将输入自编码结构的特征进行编码得到的特征向量,保留了原始输入自编码结构的输入向量的大量信息;自编码结构再将隐含特征向量进行解码还原,得到输出特征编码。
如图3所示,图3为自编码结构的结构示意图,左边为输入,右边为输出,中间为隐含特征向量,将目标输入向量输入目标编码结构,提取目标自编码结构中间层的隐含特征向量。
在其中一个实施例中,根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构,包括:
(1)将样本特征向量输入预存的自编码结构,得到对应的样本输出向量。
在具体实施过程中,服务器预存有多种不同隐层结构的自编码结构,分别将样本特征向量输入多个不同隐层的自编码结构,得到对应的样本输出向量。
例如,预存有隐层数量分别为一层、两层和三层的三种自编码结构,将样本特征向量分别输入三种自编码结构,得到对应的三种样本输出向量。
(2)获取样本特征向量和样本输出向量之间的信息损失量。
其中,信息损失量代表样本特征向量输入自编码结构,然后输出样本输出向量的这个过程中的信息损失。
在具体实施过程中,由于自编码结构的训练过程是使输入和输出差异最小化的过程,因此,要通过样本特征向量和样本输出向量计算自编码结构的信息损失量。
(3)根据信息损失量调整自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将调整参数后的自编码结构作为训练后的自编码结构。
在具体实施过程中,每次输入样本特征向量,得到样本输出向量,计算样本特征向量和样本输出向量之间的信息损失,调整参数,重新输入样本特征向量进行训练,再次计算样本特征向量和样本输出向量之间的信息损失,不断调整参数,使信息损失不断减小,直到信息损失收敛,即停止减小,说明当前的参数为最优参数,自编码结构的训练完成。
在其中一个实施例中,获取样本特征向量和样本输出向量之间的信息损失量,包括:
采用均方误差损失函数,计算样本特征向量和样本输出向量之间的信息损失量。
其中,均方误差损失函数公式为:
式中,m为样本数,ya为样本特征向量,yb为样本输出向量。
在具体实施过程中,样本特征向量和样本输出向量之间的差异越小,即ya和yb越接近,对应的自编码结构的信息损失量越小。
在其中一个实施例中,根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构的步骤,包括:
将多个训练后的自编码结构的信息损失量进行比较;选取信息损失量最小的训练后的自编码结构,作为目标自编码结构。
在具体实施过程中,由于训练后的自编码模型的输出无法实现对于输入的完全还原,因此训练完毕的各个自编码模型的损失函数依旧为非零,选取损失函数最低的训练后的自编码结构,也就是输入和输出差异最小的训练后的自编码结构,作为所用的目标自编码结构。
在其中一个实施例中,计算隐含特征向量与目标标准向量之间的相似度,包括:
采用余弦相似度计算方法,计算隐含特征向量与目标标准向量的夹角余弦值,作为隐含特征向量与目标标准向量之间的相似度。
其中,余弦相似度计算方法又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度;0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1,从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。隐含特征向量与目标标准向量有相同的指向时,余弦相似度的值为1;隐含特征向量与目标标准向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1;余弦相似度通常用于正空间,因此给出的值为0到1之间。
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图5所示,提供了一种文本匹配度检测装置,装置包括:
自编码结构获取模块502,获取输入的语音文本,并将语音文本转为目标文本;
隐含特征获取模块504,用于将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;
标准向量获取模块506,用于获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;
匹配度检测模块508,用于获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。
关于文本匹配度检测装置的具体限定可以参见上文中对于文本匹配度检测方法的限定,在此不再赘述。上述文本匹配度检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本匹配度检测涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本匹配度检测方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取输入的语音文本,并将语音文本转为目标文本;将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。
在其中一个实施例中,处理器执行计算机程序时将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量的步骤之前,还包括:对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构。
在其中一个实施例中,处理器执行计算机程序时对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构的步骤,包括:将预存的多个样本特征向量输入预存的自编码结构,得到对应的样本输出向量;根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构;根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构。
在其中一个实施例中,处理器执行计算机程序时将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量的步骤,包括:将目标文本输入预设学习算法,输出目标输入向量;将目标输入向量输入目标自编码结构,从目标自编码结构的中间层提取与目标输入向量对应的隐含特征向量。
在其中一个实施例中,处理器执行计算机程序时根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构的步骤,包括:将样本特征向量输入预存的自编码结构,得到对应的样本输出向量;获取样本特征向量和样本输出向量之间的信息损失量;根据信息损失量调整自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将调整参数后的自编码结构作为训练后的自编码结构。
在其中一个实施例中,处理器执行计算机程序时获取样本特征向量和样本输出向量之间的信息损失量的步骤,包括:采用均方误差损失函数,计算样本特征向量和样本输出向量之间的信息损失量;其中,均方误差损失函数公式为:
式中,m为样本数,ya为样本特征向量,yb为样本输出向量。
在其中一个实施例中,处理器执行计算机程序时根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构的步骤,包括:将多个训练后的自编码结构的信息损失量进行比较;选取信息损失量最小的训练后的自编码结构,作为目标自编码结构。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取输入的语音文本,并将语音文本转为目标文本;将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量;其中,目标自编码结构用于对目标文本进行编码并解码,以得到隐含特征向量;隐含特征向量用于表示目标文本的语义特征;获取与目标文本对应的预设的目标标准文本,将目标标准文本转化为目标标准向量;获取隐含特征向量与目标标准向量之间的相似度,根据隐含特征向量和目标文本之间的对应关系,以及目标标准文本和目标标准文本之间的对应关系,将相似度作为目标文本和目标标准文本之间的匹配度。
在其中一个实施例中,计算机程序被处理器执行时将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量的步骤之前,还包括:对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构。
在其中一个实施例中,计算机程序被处理器执行时对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取目标自编码结构的步骤,包括:将预存的多个样本特征向量输入预存的自编码结构,得到对应的样本输出向量;根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构;根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构。
在其中一个实施例中,计算机程序被处理器执行时将目标文本输入预设的目标自编码结构,从目标自编码结构的中间层提取与目标文本对应的隐含特征向量的步骤,包括:将目标文本输入预设学习算法,输出目标输入向量;将目标输入向量输入目标自编码结构,从目标自编码结构的中间层提取与目标输入向量对应的隐含特征向量。
在其中一个实施例中,计算机程序被处理器执行时根据样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构的步骤,包括:将样本特征向量输入预存的自编码结构,得到对应的样本输出向量;获取样本特征向量和样本输出向量之间的信息损失量;根据信息损失量调整自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将调整参数后的自编码结构作为训练后的自编码结构。
在其中一个实施例中,计算机程序被处理器执行时获取样本特征向量和样本输出向量之间的信息损失量的步骤,包括:采用均方误差损失函数,计算样本特征向量和样本输出向量之间的信息损失量;其中,均方误差损失函数公式为:
式中,m为样本数,ya为样本特征向量,yb为样本输出向量。
在其中一个实施例中,处理器执行计算机程序时根据训练后的自编码结构的信息损失率从多个训练后的自编码结构中选取目标自编码结构的步骤,包括:将多个训练后的自编码结构的信息损失量进行比较;选取信息损失量最小的训练后的自编码结构,作为目标自编码结构。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本匹配度检测方法,其特征在于,所述方法包括:
获取输入的语音文本,并将所述语音文本转为目标文本;
将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量的步骤之前,还包括:
对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取所述目标自编码结构。
3.根据权利要求2所述的方法,其特征在于,所述对多个预存的自编码结构分别进行训练,并从训练后的自编码结构中获取所述目标自编码结构的步骤,包括:
将预存的多个样本特征向量输入预存的自编码结构,得到对应的样本输出向量;
根据所述样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构;
根据所述训练后的自编码结构的信息损失率从所述多个训练后的自编码结构中选取目标自编码结构。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量的步骤,包括:
将所述目标文本输入预设学习算法,输出目标输入向量;
将所述目标输入向量输入所述目标自编码结构,从所述目标自编码结构的中间层提取与所述目标输入向量对应的隐含特征向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述样本特征向量,对预存的多个自编码结构进行训练,得到多个训练后的自编码结构的步骤,包括:
将所述样本特征向量输入预存的自编码结构,得到对应的样本输出向量;
获取所述样本特征向量和所述样本输出向量之间的信息损失量;
根据所述信息损失量调整所述自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将所述调整参数后的自编码结构作为所述训练后的自编码结构。
6.根据权利要求5所述的方法,其特征在于,所述获取所述样本特征向量和所述样本输出向量之间的信息损失量的步骤,包括:
采用均方误差损失函数,计算所述样本特征向量和所述样本输出向量之间的信息损失量;其中,所述均方误差损失函数公式为:
式中,m为样本数,ya为样本特征向量,yb为样本输出向量。
7.根据权利要求3所述的方法,其特征在于,所述根据所述训练后的自编码结构的信息损失率从所述多个训练后的自编码结构中选取目标自编码结构的步骤,包括:
将所述多个训练后的自编码结构的所述信息损失量进行比较;
选取信息损失量最小的训练后的自编码结构,作为所述目标自编码结构。
8.一种文本匹配度检测装置,其特征在于,所述装置包括:
自编码结构获取模块,获取输入的语音文本,并将所述语音文本转为目标文本;
隐含特征获取模块,用于将所述目标文本输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述目标文本对应的隐含特征向量;其中,所述目标自编码结构用于对所述目标文本进行编码并解码,以得到所述隐含特征向量;所述隐含特征向量用于表示所述目标文本的语义特征;
标准向量获取模块,用于获取与所述目标文本对应的预设的目标标准文本,将所述目标标准文本转化为目标标准向量;
匹配度检测模块,用于获取所述隐含特征向量与所述目标标准向量之间的相似度,根据所述隐含特征向量和所述目标文本之间的对应关系,以及所述目标标准文本和所述目标标准文本之间的对应关系,将所述相似度作为所述目标文本和所述目标标准文本之间的匹配度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599137.6A CN110442677A (zh) | 2019-07-04 | 2019-07-04 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
PCT/CN2019/103474 WO2021000412A1 (zh) | 2019-07-04 | 2019-08-30 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910599137.6A CN110442677A (zh) | 2019-07-04 | 2019-07-04 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110442677A true CN110442677A (zh) | 2019-11-12 |
Family
ID=68429073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910599137.6A Pending CN110442677A (zh) | 2019-07-04 | 2019-07-04 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110442677A (zh) |
WO (1) | WO2021000412A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191028A (zh) * | 2019-12-16 | 2020-05-22 | 浙江大搜车软件技术有限公司 | 样本标注方法、装置、计算机设备和存储介质 |
CN111368079A (zh) * | 2020-02-28 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法、模型训练的方法、装置及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254658B (zh) * | 2021-07-07 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 文本信息处理方法、系统、介质和设备 |
CN113486672A (zh) * | 2021-07-27 | 2021-10-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 多音字消歧方法及电子设备和计算机可读存储介质 |
CN116778011B (zh) * | 2023-05-22 | 2024-05-24 | 阿里巴巴(中国)有限公司 | 图像生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN109829299A (zh) * | 2018-11-29 | 2019-05-31 | 电子科技大学 | 一种基于深度自编码器的未知攻击识别方法 |
CN109871531A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 隐含特征提取方法、装置、计算机设备及存储介质 |
CN109887562A (zh) * | 2019-02-20 | 2019-06-14 | 广州天鹏计算机科技有限公司 | 电子病历的相似度确定方法、装置、设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
CN108509407B (zh) * | 2017-02-27 | 2022-03-18 | 阿里巴巴(中国)有限公司 | 文本语义相似度计算方法、装置及用户终端 |
KR102069692B1 (ko) * | 2017-10-26 | 2020-01-23 | 한국전자통신연구원 | 신경망 기계번역 방법 및 장치 |
CN109840328B (zh) * | 2019-02-28 | 2022-12-27 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
-
2019
- 2019-07-04 CN CN201910599137.6A patent/CN110442677A/zh active Pending
- 2019-08-30 WO PCT/CN2019/103474 patent/WO2021000412A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN109829299A (zh) * | 2018-11-29 | 2019-05-31 | 电子科技大学 | 一种基于深度自编码器的未知攻击识别方法 |
CN109871531A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 隐含特征提取方法、装置、计算机设备及存储介质 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN109887562A (zh) * | 2019-02-20 | 2019-06-14 | 广州天鹏计算机科技有限公司 | 电子病历的相似度确定方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191028A (zh) * | 2019-12-16 | 2020-05-22 | 浙江大搜车软件技术有限公司 | 样本标注方法、装置、计算机设备和存储介质 |
CN111368079A (zh) * | 2020-02-28 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种文本分类的方法、模型训练的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021000412A1 (zh) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442677A (zh) | 文本匹配度检测方法、装置、计算机设备和可读存储介质 | |
CN110413730B (zh) | 文本信息匹配度检测方法、装置、计算机设备和存储介质 | |
CN111104495B (zh) | 基于意图识别的信息交互方法、装置、设备和存储介质 | |
CN112668313A (zh) | 句子智能纠错方法、装置、计算机设备及存储介质 | |
CN110321566B (zh) | 中文命名实体识别方法、装置、计算机设备和存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN111247581B (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
CN109492215A (zh) | 新闻实体识别方法、装置、计算机设备和存储介质 | |
WO2021128044A1 (zh) | 一种基于上下文的多轮对话方法、装置、设备及存储介质 | |
CN110162633A (zh) | 语音数据意图确定方法、装置、计算机设备和存储介质 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN110347799A (zh) | 语言模型训练方法、装置和计算机设备 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN109460434B (zh) | 数据提取模型建立方法及装置 | |
KR102109369B1 (ko) | 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템 | |
CN110781677B (zh) | 药品信息匹配处理方法、装置、计算机设备和存储介质 | |
CN111325660A (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
US20100169077A1 (en) | Method, system and computer readable recording medium for correcting ocr result | |
Gong et al. | Layer-wise fast adaptation for end-to-end multi-accent speech recognition | |
CN109325118A (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
CN112733539A (zh) | 面试实体识别模型训练、面试信息实体提取方法及装置 | |
CN110569486A (zh) | 基于双架构的序列标注方法、装置和计算机设备 | |
CN111859916A (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN113157900A (zh) | 意图识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |