CN110309343A - 一种基于深度哈希的声纹检索方法 - Google Patents

一种基于深度哈希的声纹检索方法 Download PDF

Info

Publication number
CN110309343A
CN110309343A CN201910574215.7A CN201910574215A CN110309343A CN 110309343 A CN110309343 A CN 110309343A CN 201910574215 A CN201910574215 A CN 201910574215A CN 110309343 A CN110309343 A CN 110309343A
Authority
CN
China
Prior art keywords
hash
vocal print
depth
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910574215.7A
Other languages
English (en)
Other versions
CN110309343B (zh
Inventor
李武军
樊磊
蒋庆远
余亚奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910574215.7A priority Critical patent/CN110309343B/zh
Publication of CN110309343A publication Critical patent/CN110309343A/zh
Application granted granted Critical
Publication of CN110309343B publication Critical patent/CN110309343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度哈希的声纹检索方法,达到了声纹检索任务中存储空间低且检索高效的效果。该方法包括训练深度声纹哈希模型的步骤,构建哈希编码数据库的步骤,对查询语音在数据库中检索的步骤:首先构建端到端的深度神经网络结构,利用已标注过说话人身份的语音数据,训练深度神经网络模型,得到深度声纹哈希函数。之后通过深度声纹哈希函数计算训练集对应的哈希编码,构建数据库;对于新录入的语音数据,使用深度声纹哈希函数计算对应的哈希编码,实时增加到数据库。在检索过程中,对于给定的语音,使用深度声纹哈希函数计算对应的哈希编码,最后在数据库中基于索引或海明距离排序得到检索结果。

Description

一种基于深度哈希的声纹检索方法
技术领域
本发明涉及一种基于深度哈希的声纹检索方法,用于实现大规模语音数据库 在低存储开销下的快速声纹检索。
背景技术
声纹检索通过给定的语音,检索返回在数据库中与这段语音来自同一个说话 人的一条或多条语音。由于近些年麦克风录入式设备例如手机、个人电脑等等的 普及,网络媒体的飞速发展,大量的语音和视频喷涌出现,每一分钟都有成千上 百小时的视频上传到云端。语音检索的用途也越来越广泛,例如通过对于语音的 检索来推荐相似语音;通过语音检索,检测侵权行为;在大规模声纹认证中,说 话人过多会导致认证速度慢,也可以使用检索技术加快认证过程等等。
传统的声纹检索算法,通常先将语音表示为一个低维的实值向量,之后通过 实值向量之间的相似度进行排序,返回对应检索结果。但是这样的实值向量往往 不适用于大规模数据的情况,过高的存储开销和计算时间会降低检索的实用性和 效率。为了解决这个问题,已有一些基于哈希的声纹检索工作被提出。这些工作 都基于i-vector特征。i-vector特征是由高斯混合模型-通用背景模型GMM-UBM 提取的有效语音身份向量。这些声纹哈希方法通过对i-vector使用局部敏感哈希 (Locality Sensitive Hashing,简称LSH)或海明距离度量学习(Hamming Distance Metric Learning,简称HDML)来进行哈希编码的学习。
基于i-vector的声纹哈希方法,第一步先提取i-vector,第二步在i-vector的 基础上学习实值向量到哈希编码的映射,是一个两阶段的训练过程。一方面,哈 希编码的区分性受到i-vector效果的约束,而i-vector在短语音的情况下难以达 到满意的精度;另一方面,两步骤学习过程很难学到更优化的哈希编码。
发明内容
发明目的:目前的声纹检索方法主要有基于实值向量和基于哈希编码两种: 基于实值向量的声纹检索在面对大规模数据时存在检索效率过低的问题;已有基 于哈希编码的声纹检索,由于都采用了两阶段的训练过程,先提取i-vector,之 后对i-vector使用哈希函数求解哈希编码,哈希编码的表现受i-vector的约束, 两阶段的训练过程也不能学到更有区分度的哈希编码。针对上述问题,本发明提 供了一种基于深度哈希的声纹检索方法,在声纹检索领域第一次采用端到端的深 度哈希方法,相对实值检索提高效率,相对传统的两阶段哈希方法提高哈希编码 的区分性。
技术方案:一种基于深度哈希的声纹检索方法,引入端到端的深度哈希方法, 意在解决传统实值检索系统检索效率低和传统声纹哈希方法两阶段训练过程准 确率低的问题。主要包括深度声纹哈希模型训练、建立数据库和检索三个部分, 具体包括以下步骤:
1)利用已标注过说话人身份的语音数据构建训练集;
2)初始化深度神经网络模型,使用深度哈希的目标函数训练深度神经网络 模型,得到深度声纹哈希函数;
3)利用训练得到的深度声纹哈希函数计算数据库的哈希编码;
4)对于新录入语音使用深度声纹哈希函数计算哈希编码,并增加到数据库 中;
5)对于给定的目标语音,使用深度声纹哈希函数计算哈希编码,通过哈希 编码的索引或是海明距离排序进行检索。
上述步骤1)的过程为:对于有标注说话人身份的语音数据,首先提取短时 傅里叶变换特征,作为深度神经网络模型的输入,对应说话人的身份作为训练的 标签。
上述步骤2)的过程为:深度神经网络模型可以划分为两个部分:特征提取 部分和哈希学习部分;特征提取部分使用多层卷积层为主干,多层卷积层的输出 通过全局平均池化层将时域信号进行平均,哈希学习部分使用一层全连接层作为 哈希层,哈希层将全局平均池化层的输出转化为哈希编码,哈希层的维度对应于 哈希编码的长度;
在深度神经网络模型训练过程中,使用深度哈希的目标函数作为训练准则, 端到端地进行训练;在求解时,使用梯度反向传播算法优化深度神经网络的参数。
在深度神经网络模型训练过程中,采用交替优化的方式进行训练:首先将训 练样本输入深度神经网络,进行前向运算,1)在固定模型参数时,根据目标函 数L求解哈希编码;2)在固定哈希编码时,计算目标函数L,使用梯度反向传播 算法计算深度神经网络各层参数的梯度,并对参数进行更新。不断迭代本过程, 直到训练完成。
上述步骤3)的过程为:对于数据库的语音,输入深度神经网络,进行前向 运算,通过哈希层得到对应的哈希编码,存入数据库中,以备后续的索引或海明 距离排序。
上述步骤5)的过程为:对于给定的目标语音,输入深度神经网络,进行前 向运算,通过哈希层得到对应的哈希编码;基于目标语音的哈希编码,与数据库 的哈希编码进行海明距离排序或哈希表索引,根据海明排序升序或索引返回最后 的检索结果。
特征提取部分以多层卷积层为主干,多层卷积层的结构可以选择多种设置, 诸如ResNet、VGG等等;整个模型的网络结构共包括多层卷积层、一层最大池 化层、一层全局平均池化层、一层哈希层和一层分类层。
这里的目标函数包括两个部分,分类学习部分Lclassifier可以选择多种形式, 诸如最大交叉熵损失函数及各类变种,三元组损失函数,二元组损失函数等等; 哈希学习部分使用二范数惩罚项;整个深度哈希的目标函数定义如下:
其中,L为损失函数,Lclassifier为分类学习部分的损失函数,N为语音训 练样本数,hi=tanh(f(xi;Θcnn))是第i个样本在哈希层的输出,Θcnn是特征提 取部分的参数,f是哈希层的映射函数,λ为惩罚项的系数,bi是第i个样本 的哈希编码,K是哈希编码的长度;
模型采用交替优化的方式进行训练:首先将训练样本输入深度神经网络,进 行前向运算,1)在固定模型参数时,哈希编码的求解过程如下:
const表示与变量bi无关的量,即新插入的公式中的后两项;
为了最小化哈希编码bi和hi保持相同的符号,得到对应的闭式解:
2)在固定哈希编码时,直接计算目标函数(1),通过误差反向传播算法计 算深度神经网络各层的梯度,并对模型参数进行更新,直到训练完成。
目标函数(1)的梯度计算如下:
其中W*j是分类层权重的第j列,之后通过链式法则继续计算深度神经网络其 他参数的梯度,根据梯度更新对应的参数;
所述声纹检索方法,适用于各类声纹检索系统,各类声纹检索系统均可训练 深度声纹哈希函数以及提取哈希编码,并在终端中完成检索过程,应用场景包括 但不限于声纹检索,基于检索的推荐和基于检索的大规模声纹识别。
附图说明
图1为本发明实施的深度声纹哈希模型训练流程图;
图2为附加间隔损失函数的分类示意图;
图3为本发明实施例的构建哈希编码数据库的工作流程图;
图4为本发明实施例的声纹检索工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于深度哈希的声纹检索方法,深度声纹哈希模型的训练流程如图1所示。 首先收集有标记说话人的语音作为训练集,按照说话人的身份分配训练标签(步 骤10)。之后搭建深度神经网络模型,并初始化模型参数(步骤11):深度声纹 哈希模型的网络结构以多层卷积层作为主干,这里多层卷积层以ResNet-34为例, 整个模型的网络结构见表1,包括六层卷积层、一层最大池化层、一层全局平均 池化层、一层哈希层和一层分类层;其中第二层到第三层卷积神经网络由若干个 残差模块组合而成;BN和ReLU分别表示跟在卷积层后面的批归一化和线性整 流;T为训练数据的时间长度,k是哈希编码长度,C是训练集说话人总数。对训 练集进行随机采样,采样的语音数据通过短时傅里叶变换,输入深度神经网络模型,进行前向运算(步骤12)。然后计算深度哈希的目标函数(步骤13):这里 的分类学习部分的损失函数Lclassifier以附加间隔损失函数为例,深度哈希的目标 函数如式(5)所示:
其中,L为损失函数,N为语音训练样本数,s为余弦距离的放缩因子超 参数,yi为第i个样本的标签,为第i个样本和第i个标签分类角度,θj,i为第i个样本和第j个标签分类角度, 是分类层权重 第j列的转置,hi=tanh(f(xi;Θcnn))是第i个样本在哈希层的输出,Θcnn是特 征提取部分的参数,f是哈希层的映射函数,λ为惩罚项的系数,C为训练样本 中说话人总数,m为增加的角度间隔,bi是第i个样本的哈希编码,k是哈 希编码的长度。如图2所示,深度哈希通过附加间隔损失函数,可以有效增强哈 希编码的区分性,增加不同类之间的分类间隔。
在固定模型参数的情况下,根据式(6)更新哈希编码(步骤14)。
在固定哈希编码的情况下,先由式(6)和式(7)分别计算分类层权重W*j和哈 希层的输出hi的梯度,之后通过链式法则继续计算深度神经网络其他参数的梯度, 根据梯度更新对应的参数(步骤15)。
从步骤12开始迭代,每迭代一轮,通过模型在验证集上的表现判断模型是 否训练完成(步骤16)。如果训练完成则输出训练结果并保存模型,否则继续迭 代(步骤17)。
本实施例使用的网络结构在哈希层之前的部分可以替换为任意其他神经网 络结构,并不限于ResNet-34,这里仅以ResNet-34作为演示;本实施例使用的 附加间隔损失函数也可以替换为其他损失函数,这里仅以附加间隔损失函数作为 演示。
表1深度声纹哈希模型的网络结构
基于深度哈希的声纹检索方法,构建哈希编码数据库的工作流程如图4所示。 首先读取训练得到的深度神经网络模型(步骤20),训练集中的语音依次通过短 时傅里叶变换后输入深度神经网络模型(步骤21),提取哈希层的输出,根据式 (6)计算训练集对应的哈希编码(步骤22),基于训练集的哈希编码构建数据 库(步骤23);对于新录入的数据,首先读取训练得到的深度神经网络模型(步 骤30),将新录入的语音通过短时傅里叶变换后输入深度神经网络模型(步骤31), 提取哈希层的输出,根据式(8)计算对应的哈希编码(步骤32),在数据库中 添加新录入语音对应的哈希编码(步骤33)。
基于深度哈希的声纹检索方法,声纹检索的工作流程如图4所示。首先读取 训练得到的深度神经网络模型(步骤40),读取本次查询任务的语音文件,提取 短时傅里叶变换得到的特征(步骤41),将得到的短时傅里叶变换特征输入深度 神经网络模型中,进行前向计算(步骤42)。提取哈希层的输出,根据式(6) 计算哈希编码(步骤43),通过海明距离排序或索引的方式得到声纹检索需要返 回的目标(44),最后输出检索结果(步骤45)。

Claims (10)

1.一种基于深度哈希的声纹检索方法,其特征在于,该方法包括以下步骤:
1)利用已标注过说话人身份的语音数据构建训练集;
2)初始化深度神经网络模型,使用深度哈希目标函数训练模型参数,得到深度声纹哈希函数;
3)利用训练得到的深度声纹哈希函数计算数据库的哈希编码;
4)对于新录入语音使用深度声纹哈希函数计算哈希编码,并增加到数据库中;
5)对于给定的目标语音,使用深度声纹哈希函数计算哈希编码,通过哈希编码的索引或是海明距离排序进行检索。
2.如权利要求1所述的基于深度哈希的声纹检索方法,其特征在于,所述步骤1)中,对于有标注说话人身份的语音数据,首先提取短时傅里叶变换特征,作为深度神经网络模型的输入,对应说话人的身份作为训练的标签。
3.如权利要求1所述的基于深度哈希的声纹检索方法,其特征在于,所述步骤2)中,深度神经网络模型可以划分为两个部分:特征提取部分和哈希学习部分;特征提取部分以多层卷积层为主干,多层卷积层的输出通过全局平均池化层将时域信号进行平均,哈希学习部分使用一层全连接层作为哈希层,哈希层将全局平均池化层的输出转化为哈希编码,哈希层的维度对应于哈希编码的长度;
在深度神经网络模型训练过程中,使用深度哈希的目标函数作为训练准则,端到端地进行训练;在求解时,使用梯度反向传播算法优化深度神经网络的参数。
4.如权利要求1所述的基于深度哈希的声纹检索方法,其特征在于,所述步骤3)中,对于数据库的语音,输入深度神经网络模型,进行前向运算,通过哈希层得到对应的哈希编码,存入数据库中,以备后续的索引或海明距离排序。
5.如权利要求1所述的基于深度哈希的声纹检索方法,其特征在于,所述步骤5)中,对于给定的目标语音,输入深度神经网络模型,进行前向运算,通过哈希层得到对应的哈希编码;基于目标语音的哈希编码,与数据库的哈希编码进行海明距离排序或哈希表索引,根据海明排序升序或索引返回最后的检索结果。
6.如权利要求3所述的基于深度哈希的声纹检索方法,其特征在于,特征提取部分以多层卷积层为主干;整个模型的网络结构共包括多层卷积层、一层最大池化层、一层全局平均池化层、一层哈希层和一层分类层。
7.如权利要求3所述的基于深度哈希的声纹检索方法,其特征在于,这里的目标函数包括两个部分,分类学习部分Lclassifier可以选择多种形式,诸如最大交叉熵损失函数及各类变种,三元组损失函数,二元组损失函数等等;哈希学习部分使用二范数惩罚项;整个深度哈希的目标函数定义如下:
其中,L为损失函数,Lclassifier为分类学习部分的损失函数,N为语音训练样本数,hi=tanh(f(xi;Θcnn))是第i个样本在哈希层的输出,Θcnn是特征提取部分的参数,f是哈希层的映射函数,λ为惩罚项的系数,bi是第i个样本的哈希编码,K是哈希编码的长度。
8.如权利要求7所述的基于深度哈希的声纹检索方法,其特征在于,模型采用交替优化的方式进行训练:首先将训练样本输入深度神经网络,进行前向运算,1)在固定模型参数时,哈希编码的求解过程如下:
为了最小化哈希编码bi和hi保持相同的符号,得到对应的闭式解:
2)在固定哈希编码时,直接计算目标函数(1),通过误差反向传播算法计算深度神经网络各层的梯度,并对模型参数进行更新,直到训练完成。
9.如权利要求8所述的基于深度哈希的声纹检索方法,其特征在于,目标函数(1)的梯度计算如下:
其中W*j是分类层权重的第j列,之后通过链式法则继续计算深度神经网络其他参数的梯度,根据梯度更新对应的参数。
10.如权利要求1所述的基于深度哈希的声纹检索方法,其特征在于:所述声纹检索方法,适用于各类声纹检索系统,各类声纹检索系统均可训练深度声纹哈希函数以及提取哈希编码,并在终端中完成检索过程,应用场景包括但不限于声纹检索,基于检索的推荐和基于检索的大规模声纹识别。
CN201910574215.7A 2019-06-28 2019-06-28 一种基于深度哈希的声纹检索方法 Active CN110309343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910574215.7A CN110309343B (zh) 2019-06-28 2019-06-28 一种基于深度哈希的声纹检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910574215.7A CN110309343B (zh) 2019-06-28 2019-06-28 一种基于深度哈希的声纹检索方法

Publications (2)

Publication Number Publication Date
CN110309343A true CN110309343A (zh) 2019-10-08
CN110309343B CN110309343B (zh) 2023-08-08

Family

ID=68079272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910574215.7A Active CN110309343B (zh) 2019-06-28 2019-06-28 一种基于深度哈希的声纹检索方法

Country Status (1)

Country Link
CN (1) CN110309343B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930383A (zh) * 2019-11-20 2020-03-27 佛山市南海区广工大数控装备协同创新研究院 基于深度学习语义分割和图像分类的注射器缺陷检测方法
CN111128196A (zh) * 2019-12-06 2020-05-08 北京工业大学 基于声纹特征识别主播的方法及装置
CN111177432A (zh) * 2019-12-23 2020-05-19 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
CN111508469A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种文语转换方法及装置
CN111626408A (zh) * 2020-05-22 2020-09-04 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN113053407A (zh) * 2021-02-06 2021-06-29 南京蕴智科技有限公司 一种针对多说话人的单通道语音分离方法及系统
CN114780787A (zh) * 2022-04-01 2022-07-22 杭州半云科技有限公司 声纹检索方法、身份验证方法、身份注册方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294331A (zh) * 2015-05-11 2017-01-04 阿里巴巴集团控股有限公司 音频信息检索方法及装置
CN107451189A (zh) * 2017-06-20 2017-12-08 中山大学 一种基于哈希编码的无监督图像检索方法
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294331A (zh) * 2015-05-11 2017-01-04 阿里巴巴集团控股有限公司 音频信息检索方法及装置
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN107451189A (zh) * 2017-06-20 2017-12-08 中山大学 一种基于哈希编码的无监督图像检索方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930383A (zh) * 2019-11-20 2020-03-27 佛山市南海区广工大数控装备协同创新研究院 基于深度学习语义分割和图像分类的注射器缺陷检测方法
CN111128196A (zh) * 2019-12-06 2020-05-08 北京工业大学 基于声纹特征识别主播的方法及装置
CN111128196B (zh) * 2019-12-06 2022-08-09 北京工业大学 基于声纹特征识别主播的方法及装置
CN111177432A (zh) * 2019-12-23 2020-05-19 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
CN111177432B (zh) * 2019-12-23 2020-11-03 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
CN111508469A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种文语转换方法及装置
CN111626408B (zh) * 2020-05-22 2021-08-06 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111626408A (zh) * 2020-05-22 2020-09-04 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN112035700A (zh) * 2020-08-31 2020-12-04 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN112035700B (zh) * 2020-08-31 2022-09-13 兰州理工大学 一种基于cnn的语音深度哈希学习方法及系统
CN113053407A (zh) * 2021-02-06 2021-06-29 南京蕴智科技有限公司 一种针对多说话人的单通道语音分离方法及系统
CN114780787A (zh) * 2022-04-01 2022-07-22 杭州半云科技有限公司 声纹检索方法、身份验证方法、身份注册方法和装置

Also Published As

Publication number Publication date
CN110309343B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110309343A (zh) 一种基于深度哈希的声纹检索方法
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
Settle et al. Query-by-example search with discriminative neural acoustic word embeddings
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
CN107818164A (zh) 一种智能问答方法及其系统
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111368920A (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN106971180B (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
Shen et al. A deep learning method for Chinese singer identification
CN108806694A (zh) 一种基于声音识别的教学考勤方法
CN109800314A (zh) 一种利用深度卷积网络生成用于图像检索的哈希码的方法
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN113569553A (zh) 基于改进Adaboost算法的句子相似性判断方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
Chen et al. Towards unsupervised automatic speech recognition trained by unaligned speech and text only
Yang et al. Tweet stance detection: A two-stage DC-BILSTM model based on semantic attention
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN111899766A (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114756678A (zh) 一种未知意图文本的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant