CN110990685A

CN110990685A - 基于声纹的语音搜索方法、设备、存储介质及装置

Info

Publication number: CN110990685A
Application number: CN201910970870.4A
Authority: CN
Inventors: 唐滔
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-04-10
Anticipated expiration: 2039-10-12
Also published as: CN110990685B

Abstract

本发明公开了一种基于声纹的语音搜索方法、设备、存储介质及装置，该方法通过获取多个历史用户的历史搜索内容，将历史搜索内容与历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集，接收目标用户录入的目标语音，对目标语音进行声纹提取，获得目标声纹特征，将目标声纹特征与语音搜索推荐数据集中的声纹特征进行匹配，若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从语音搜索推荐数据集中获取与匹配声纹特征对应的历史搜索内容作为目标推荐数据，根据目标推荐数据和目标语音进行搜索，获得目标页面，基于人工智能，通过历史数据与声纹的绑定，实现个性化推荐，提高搜索的准确度，更加符合用户需求。

Description

基于声纹的语音搜索方法、设备、存储介质及装置

技术领域

本发明涉及人工智能的技术领域，尤其涉及一种基于声纹的语音搜索方法、设备、存储介质及装置。

背景技术

常见的应用程序(Application，缩写APP)内的语音搜索都是通过语音转文字后，再进行语义识别和意图解析，帮助用户进行功能和内容的检索，以及简单的对话式交互。目前，语音搜索仅仅根据用户当前的语音信息进行搜索，不同的用户即使说出相同的语音信息，对应的真实意图可能因为业务需求或其他原因导致真实意图不同，则搜索到的页面内容可能偏离用户的真实意图，导致语音搜索到的内容不能满足用户真实意图，用户体验差。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于声纹的语音搜索方法、设备、存储介质及装置，旨在解决现有技术中语音搜索到的内容准确度不高的技术问题。

为实现上述目的，本发明提供一种基于声纹的语音搜索方法，所述基于声纹的语音搜索方法包括以下步骤：

获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系，将所述语音搜索推荐数据集存储在预设服务器中；

接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征；

从所述预设服务器中获取所述语音搜索推荐数据集，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配；

若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据；

根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面。

优选地，所述获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，包括：

记录多个历史用户在进行语音搜索时说出的历史搜索内容，对所述历史搜索内容进行识别，获得文本形式的初始意图，并将所述初始意图进行展示，以使所述历史用户对所述初始意图进行确认或纠正；

接收所述历史用户对所述初始意图进行确认或纠正的回复语音，根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图；

获取多个历史用户的历史搜索内容和对应的所述历史意图；

对所述历史搜索内容和对应的所述历史意图进行关键词提取，获得历史关键词；

将所述历史关键词与所述历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集。

优选地，所述根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面，包括：

获取所述目标用户的目标用户类别，根据所述目标用户类别配置目标热词；

对所述目标语音进行文本识别，获得目标文本；

根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面。

优选地，所述根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面，包括：

根据所述目标推荐数据、所述目标热词及所述目标文本，通过预设推测模型推测所述目标用户的多个推测意图；

获取所述目标用户在预设时段内的用户行为数据；

从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据；

根据所述目标行为数据，从多个所述推测意图中选取目标意图；

根据所述目标意图进行搜索，获得目标页面。

优选地，所述根据所述目标行为数据，从多个所述推测意图中选取目标意图，包括：

分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征；

通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合，获得各推测意图与所述目标行为数据之间的相似度；

选取所述相似度最高的推测意图作为目标意图。

优选地，所述根据所述目标意图进行搜索，获得目标页面，包括：

将所述目标意图转换成语音形式的意图语音，播放所述意图语音；

接收所述目标用户基于所述意图语音的反馈语音，根据所述反馈语音和所述目标意图进行搜索，获得目标页面。

优选地，所述将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配，包括：

对所述语音搜索推荐数据集中的声纹特征进行遍历，将遍历到的声纹特征作为当前声纹特征；

将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较，获得第一似然和第二似然；

将所述第一似然和所述第二似然相除再取对数，获得目标值；

根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配。

此外，为实现上述目的，本发明还提出一种基于声纹的语音搜索设备，所述基于声纹的语音搜索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的语音搜索程序，所述基于声纹的语音搜索程序配置为实现如上文所述的基于声纹的语音搜索方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于声纹的语音搜索程序，所述基于声纹的语音搜索程序被处理器执行时实现如上文所述的基于声纹的语音搜索方法的步骤。

此外，为实现上述目的，本发明还提出一种基于声纹的语音搜索装置，所述基于声纹的语音搜索装置包括：

绑定模块，用于获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系，将所述语音搜索推荐数据集存储在预设服务器中；

提取模块，用于接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征；

匹配模块，用于从所述预设服务器中获取所述语音搜索推荐数据集，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配；

获取模块，用于若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据；

搜索模块，用于根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面。

本发明中，通过获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集，通过历史数据与与声纹进行绑定，实现个性化推荐；接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配，若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据，根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面，基于人工智能，通过声纹识别，从而获取个性化推荐数据，结合个性化推荐数据进行搜索，提高搜索的准确度，更加符合用户需求。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于声纹的语音搜索设备的结构示意图；

图2为本发明基于声纹的语音搜索方法第一实施例的流程示意图；

图3为本发明基于声纹的语音搜索方法第二实施例的流程示意图；

图4为本发明基于声纹的语音搜索方法第三实施例的流程示意图；

图5为本发明基于声纹的语音搜索装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于声纹的语音搜索设备结构示意图。

如图1所示，该基于声纹的语音搜索设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(Non-volatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于声纹的语音搜索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于声纹的语音搜索程序。

在图1所示的基于声纹的语音搜索设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述基于声纹的语音搜索设备通过处理器1001调用存储器1005中存储的基于声纹的语音搜索程序，并执行本发明实施例提供的基于声纹的语音搜索方法。

基于上述硬件结构，提出本发明基于声纹的语音搜索方法的实施例。

参照图2，图2为本发明基于声纹的语音搜索方法第一实施例的流程示意图，提出本发明基于声纹的语音搜索方法第一实施例。

在第一实施例中，所述基于声纹的语音搜索方法包括以下步骤：

步骤S10：获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系，将所述语音搜索推荐数据集存储在预设服务器中。

应理解的是，本实施例的执行主体是所述基于声纹的语音搜索设备，其中，所述基于声纹的语音搜索设备可为智能手机、智能手表、平板电脑、个人电脑或服务器等电子设备，本实施例对此不加以限制。通常将用户对应的声纹特征作为特征标识，用以区分不同的用户身份，对各用户每次的搜索内容和相关意图做记录，并进行数据分析和学习，并与其声纹特征进行绑定，形成各个用户对应的个性化的语音搜索推荐数据。所述历史用户为通过语音搜索设备的目标应用程序进行过语音搜索的用户，所述历史搜索内容可以是所述历史用户经过语音搜索之后浏览的页面内容的关键词，通过将所述历史搜索内容与对应的历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史搜索内容之间的对应关系。

步骤S20：接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征。

可理解的是，所述目标用户为通过所述基于声纹的语音搜索设备进行语音搜索的用户，所述目标语音为所述目标用户与所述基于声纹的语音搜索设备进行语音搜索时录入的语音信息。首先，对所述目标语音进行预处理，去除非语音信号和静默语音信号，获得预处理语音。再对所述预处理语音进行分帧，提取每一帧语音信号的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，缩写MFCC)并保存，具体包括以下步骤：

预增强(Pre-Emphasis)：即差分语音信号；音框化(Framing)：对语音数据分帧；汉明窗(Hamming Windowing)：对每帧信号加窗，以减小吉布斯效应的影响；快速傅立叶变换(fast Fourier transform，缩写FFT)：将时域信号变换成为信号的功率谱；三角带通滤波器(Triangle Filters)：三角滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应；离散余弦转换(Discrete Cosine Transform，缩写DCT)：去除各维信号之间的相关性，将信号映射到低维空间。可从提取的MFCC参数中提取语音动态特性参数作为所述目标声纹特征。

步骤S30：从所述预设服务器中获取所述语音搜索推荐数据集，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配。

需要说明的是，提供所述目标声纹特征与预设高斯混合模型(Gaussian mixturemodel，缩写GMM)的匹配运算函数，以判断所述目标声纹特征是否与所述语音搜索推荐数据集中的声纹匹配，具体为：

所述预设高斯混合模型将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合，可以平滑地逼近任意形状的概率密度函数，并且是一个易于处理的参数模型。在具体表示上，这个模型实际上就是把高斯混合模型的每个高斯分量的均值向量排列在一起组成一个超向量作为某一个说话人的模型，称为均值超矢量。

在训练说话人模型的时候，由于注册时说话人的数据稀疏，通常利用一个通用背景模型(Universal Background Model，UBM)和少量的说话人数据，通过自适应算法(如最大后验概率MAP，最大似然线性回归MLLR等)得到目标说话人模型。

对数似然比的评价指标。用所述目标声纹特征分别与所述目标说话人模型和UBM进行似然度比较，然后将这两个似然相除再取对数，用得到的值作为打分来评价所述目标声纹特征是否和所述目标说话人模型匹配。由于UBM代表了最最普遍的平凡的语音特征，而所述目标说话人模型代表了属于这一个说话人的特征。用对数似然比来表示，就是评价所述目标声纹特征到底和所述目标说话人模型更接近还是和UBM最接近。最后设定一个阀值，用来进行最后的分类判断。UBM平均每个混合得到100帧左右训练样本时，能够获得较高且较稳定识别率。

也就是说，所述语音搜索推荐数据集中包括各历史用户的说话人模型，及通用背景模型，将所述目标声纹特征与各历史用户的说话人模型及通用背景模型进行似然度比较，匹配出最接近的说话人模型，并且相比于所述通用背景模型，所述目标声纹特征更接近匹配出的说话人模型，则认为匹配成功，匹配成功的说话人模型就是所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征。

步骤S40：若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。

应理解的是，若匹配成功，说明所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征，则将匹配成功的声纹特征作为匹配声纹特征，所述匹配声纹特征与所述目标声纹特征为同一用户的声纹特征，即所述目标用户的声纹特征，并根据绑定的对应关系从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。

需要说明的是，所述语音搜索推荐数据集是存储在预设服务器上，所述语音搜索推荐数据集中预先存储了大量不同历史用户的声纹特征，更换手机时或者未进行登录操作时，可从所述预设服务器中获取所述语音搜索推荐数据集，通过将所述目标用户的所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配，判断所述语音搜索推荐数据集中是否存在与所述目标声纹特征匹配的声纹特征。若匹配失败，则将所述目标声纹特征作为一组新的声纹特征，插入所述语音搜索推荐数据集中，并获取本次的搜索内容与所述目标声纹特征进行绑定。

步骤S50：根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面。

在具体实现中，将所述目标语音进行识别，获得目标文本，对所述目标文本和所述目标推荐数据进行关键词提取，根据提取的关键词进行搜索，获得所述目标页面。将所述目标页面进行展示，供所述目标用户浏览，满足所述目标用户的需求。记录所述目标语音及所述目标页面，并将所述目标语音及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中，以便于提高后续的语音搜索的准确性。

本实施例中，通过获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集，通过历史数据与与声纹进行绑定，实现个性化推荐；接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配，若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据，根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面，基于人工智能，通过声纹识别，从而获取个性化推荐数据，结合个性化推荐数据进行搜索，提高搜索的准确度，更加符合用户需求。

参照图3，图3为本发明基于声纹的语音搜索方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明基于声纹的语音搜索方法的第二实施例。

在第二实施例中，所述步骤S10，包括：

步骤S101：记录多个历史用户在进行语音搜索时说出的历史搜索内容，对所述历史搜索内容进行识别，获得文本形式的初始意图，并将所述初始意图进行展示，以使所述历史用户对所述初始意图进行确认或纠正。

应理解的是，每次所述历史用户在进行语音搜索时，均对所述历史搜索内容进行记录，所述历史搜索内容为一段语音信息，对其首尾端的静音进行切除，降低对后续步骤造成的干扰，对所述历史搜索内容进行分帧，也就是把声音切开成一小段一小段，每小段称为一帧，分帧操作使用移动窗函数来实现。分帧后，所述历史搜索内容就变成了很多小段，但波形在时域上几乎没有描述能力，因此必须将波形作变换，可对分帧后的小段波形提取MFCC特征，把每一帧波形变成一个多维向量，这个向量包含了这帧语音的内容信息，再把帧识别成状态，把状态组合成音素，把音素组合成单词，从而获得文本形式的初始意图。

在具体实现中，为了搜索的准确性，可将所述初始意图进行展示，在所述基于声纹的语音搜索设备的显示节面进行展示，以使所述历史用户查看所述初始意图是否正确，以对所述初始意图进行确认或纠正。

步骤S102：接收所述历史用户对所述初始意图进行确认或纠正的回复语音，根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图。

需要说明的是，所述历史用户在查看所述初始意图之后，在所述初始意图正确时，对所述初始意图进行确认，则所述回复语音可以是正确或对的等语音内容，在所述初始意图存在错误时，对所述初始意图进行纠正，则所述回复语音为用户对所述初始意图中错误信息的纠正信息，因此，根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图，所述历史意图能够正确表达所述历史搜索内容的含义，从而搜索到更加准确的页面。

步骤S103：获取多个历史用户的历史搜索内容和对应的所述历史意图。

应理解的是，记录所述历史用户在进行语音搜索时说出的历史语音，对所述历史语音进行识别，获得文本形式的所述历史意图。所述历史意图为经过所述历史用户确认或纠正之后的正确意图，则获取多个历史用户的历史搜索内容和对应的所述历史意图，能够准确表示所述历史用户的历史搜索目的。

步骤S104：对所述历史搜索内容和对应的所述历史意图进行关键词提取，获得历史关键词。

可理解的是，对所述历史搜索内容和所述历史意图进行分词处理，获得所述历史搜索内容的所有第一词语和所述历史意图的所有第二词语，计算所述第一词语和所述第二词语的词频逆文档频率，所述词频逆文档频率越大，说明对应的词语的区分能力越强。将所述第一词语按照所述词频逆文档频率从大到小进行排序，获取排在前面的预设数量(比如1个或2个等)的第一词语作为所述历史关键词；将所述第二词语按照所述词频逆文档频率从大到小进行排序，获取排在前面的所述预设数量的第二词语也作为所述历史关键词。

步骤S105：将所述历史关键词与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系，将所述语音搜索推荐数据集存储在预设服务器中。

需要说明的是，所述历史关键词能够准确体现所述历史用户的历史搜索意图，将所述历史关键词与对应的历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史关键词之间的对应关系。从而能够未后续的搜索提供参考，以提高后续搜索内容的准确度。

在本实施例中，所述步骤S40，包括：

步骤S401：若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史关键词作为目标推荐数据。

应理解的是，若匹配成功，说明所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征，则将匹配成功的声纹特征作为匹配声纹特征，所述匹配声纹特征与所述目标声纹特征为同一用户的声纹特征，即所述目标用户的声纹特征，并根据绑定的对应关系从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史关键词作为目标推荐数据。

在本实施例中，所述步骤S30，包括：

在具体实现中，所述语音搜索推荐数据集中包括多个所述历史用户的声纹特征，为了实现所述目标声纹特征的匹配，则需将所述目标声纹特征与所述语音搜索推荐数据集中的多个声纹特征依次进行匹配，可对所述语音搜索推荐数据集中的声纹特征进行遍历，将遍历到的声纹特征作为当前声纹特征，通过预设高斯混合声纹模型，将所述目标声纹特征与所述当前声纹特征进行匹配，具体为：

用所述目标声纹特征分别与所述预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和UBM进行似然度比较，获得所述目标声纹特征与所述预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型之间的第一似然，所述目标声纹特征与所述预设高斯混合声纹模型中的所述UBM之间的第二似然，然后将这两个似然相除再取对数，获得目标值，用所述目标值作为打分来评价所述目标声纹特征是否和所述当前声纹特征对应的目标说话人模型匹配。由于UBM代表了最最普遍的平凡的语音特征，而所述目标说话人模型代表了属于这一个说话人的特征。用对数似然比来表示，就是评价所述目标声纹特征到底和所述当前声纹特征对应的目标说话人模型更接近还是和UBM最接近。最后设定一个阀值，用来进行最后的分类判断。

在本实施例中，获取多个历史用户的历史搜索内容和对应的所述历史意图，能够准确表示所述历史用户的历史搜索目的；将所述历史关键词与所述历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集，从而能够未后续的搜索提供参考，以提高后续搜索内容的准确度。

参照图4，图4为本发明基于声纹的语音搜索方法第三实施例的流程示意图，基于上述图3所示的第二实施例，提出本发明基于声纹的语音搜索方法的第三实施例。

在第三实施例中，所述步骤S50，包括：

步骤S501：获取所述目标用户的目标用户类别，根据所述目标用户类别配置目标热词。

应理解的是，为了提高搜索的准确度，通常对于使用所述目标应用程序进行语音搜索的用户，会根据业务需求对各用户进行分类，获得各用户的用户类别，对不同类别的用户，设定不同的热词范围，如新注册的用户，实名认证、代理人考试为这一类角色用户的个性化热词。获取所述匹配声纹特征对应的目标用户类别，查找所述目标用户类别对应的目标热词。通常还可将所述目标应用程序内的一些主要功能的关键字作为通用热词，比如会员权益、宝币、资金、团队以及产品名称，还可将所述通用热词和所述个性化热词一同配置为所述目标热词。

步骤S502：对所述目标语音进行文本识别，获得目标文本。

需要说明的是，语音识别之前，将所述目标语音的首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作称为语音活动检测(Voice Activity Detection,VAD)，获得第一语音；接着对所述第一语音分帧，也就是把所述第一语音切开成一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现。分帧后，所述第一语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。把帧识别成状态，状态是比音素更细致的语音单位，通常把一个音素划分成3个状态。把状态组合成音素。把音素组合成单词。若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。从而获得所述目标文本。

步骤S503：根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面。

在具体实现中，对所述目标文本、所述目标热词和所述目标推荐数据进行关键词提取，根据提取的关键词进行搜索，获得所述目标页面。将所述目标页面进行展示，供所述目标用户浏览，满足所述目标用户的需求。记录所述目标语音及所述目标页面，并将所述目标语音及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中，以便于提高后续的语音搜索的准确性。

在本实施例中，所述步骤S503，包括：

获取所述目标用户在预设时段内的用户行为数据；

根据所述目标意图进行搜索，获得目标页面。

应理解的是，基于统计分词，在给定大量已经分词的样本文本的前提下，利用统计机器学习模型学习所述样本文本的词语切分规律，通过训练获得的统计机器学习模型对所述目标文本进行分词，获得所述目标文本的第三词语。对所述目标推荐数据进行分词处理，获得所述目标推荐数据的第四词语，将所述第三词语分别与所述第四词语、所述目标热词进行匹配，将匹配成功的第三词语进行保留，未匹配成功的第三词语，可计算其与各第四词语与目标热词之间的相似度，将相似度较高的第四词语或者目标热词作为目标词语，将未匹配成功的第三词语替换为所述目标词语，从而获得所述目标用户的多个预测意图。

可理解的是，对大量的业务相关的点击事件进行埋点，获得所述目标用户基于业务的用户行为数据，通过获取预设时段的用户行为数据，所述预设时段通常指的是最近一段时间，比如最近一周、最近一个月或者最近一个季度等，从所述用户行为数据中获取所述目标用户使用频率高的功能、停留时间久的页面作为所述目标行为数据，所述目标用户使用频率高的功能和停留时间久的页面说明所述用户近期对该功能和页面有需求或者感兴趣，能够体现用户的习惯和偏好。

本实施例中，所述根据所述目标行为数据，从多个所述推测意图中选取目标意图，包括：

选取所述相似度最高的推测意图作为目标意图。

需要说明的是，通过计算各推测意图与所述目标行为数据之间的相似度，通过计算各推测意图与所述目标行为数据之间的语义特征、文本特征、句法特征和主题特征，通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合，获得各推测意图与所述目标行为数据之间的相似度，所述相似度越高说明与所述目标行为数据越接近，也就是与所述目标用户近期的习惯和偏好越接近，选取所述相似度最高的推测意图作为目标意图。

在具体实现中，基于长短期记忆网络(Long Short-Term Memory，LSTM)构建所述目标行为数据及各推测意图的向量，计算所述向量之间的余弦相似度，将该余弦相似度作为所述语义特征。通过文档主题生成模型(Latent Dirichlet Allocation，LDA)对所述目标行为数据及各推测意图进行对应的主题特征的生成。所述逻辑回归(LogisticRegression，LR)在线性回归的基础上，套用了一个逻辑函数，通过所述逻辑回归可将所述语义特征、文本特征、句法特征和所述主题特征进行聚合，获得各推测意图与所述目标行为数据之间的相似度。

在本实施例中，所述根据所述目标意图进行搜索，获得目标页面，包括：

在具体实现中，为了提高语音搜索的准确性，通常在识别出所述目标意图之后，通过语音交互方式将所述目标意图以语音形式进行播放，首先将文本形式的所述目标意图转换成语音形式的意图语音，并将所述意图语音进行播放，所述目标用户在听到所述意图语音时，可通过语音交互方式对所述意图语音进行确认或者纠正。

应理解的是，所述目标用户在听到所述意图语音时，若所述意图语音符合所述目标用户的真实意图，则所述目标用户可以录入所述反馈语音，对所述意图语音进行确认，所述反馈语音包括：是的、正确或者对的等，此时，可直接搜索与所述目标意图相关的页面作为所述目标页面进行推送，所述目标用户可浏览所述目标页面，满足所述目标用户的需求。

所述目标用户在听到所述意图语音时，若所述意图语音不符合所述目标用户的真实意图，则所述目标用户可以录入所述反馈语音，对所述意图语音进行纠正，此时所述目标用户可通过所述反馈语音纠正所述意图语音中错误的地方，或者直接说出正确的真实意图，根据所述反馈语音对所述目标意图进行纠正，根据纠正后的意图搜索相关页面作为目标页面，推送所述目标页面供所述目标用户浏览，满足所述目标用户的需求。记录所述目标意图及所述目标页面，并将所述目标意图及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中，以便于提高后续的语音搜索意图识别的准确性。

本实施例中，获取所述目标用户的目标用户类别，根据所述目标用户类别配置目标热词，对所述目标语音进行文本识别，获得目标文本，根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面，所述目标热词能够体现所述目标用户的业务需求，结合所述目标热词进行搜索，从而提高搜索的准确度。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于声纹的语音搜索程序，所述基于声纹的语音搜索程序被处理器执行时实现如上文所述的基于声纹的语音搜索方法的步骤。

此外，参照图5，本发明实施例还提出一种基于声纹的语音搜索装置，所述基于声纹的语音搜索装置包括：

绑定模块10，用于获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系，将所述语音搜索推荐数据集存储在预设服务器中。

应理解的是，通常将用户对应的声纹特征作为特征标识，用以区分不同的用户身份，对各用户每次的搜索内容和相关意图做记录，并进行数据分析和学习，并与其声纹特征进行绑定，形成各个用户对应的个性化的语音搜索推荐数据。所述历史用户为通过语音搜索设备的目标应用程序进行过语音搜索的用户，所述历史搜索内容可以是所述历史用户经过语音搜索之后浏览的页面内容的关键词，通过将所述历史搜索内容与对应的历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史搜索内容之间的对应关系。

提取模块20，用于接收目标用户录入的目标语音，对所述目标语音进行声纹提取，获得目标声纹特征。

可理解的是，所述目标用户为通过所述基于声纹的语音搜索设备进行语音搜索的用户，所述目标语音为所述目标用户与所述基于声纹的语音搜索设备进行语音搜索时录入的语音信息。首先，对所述目标语音进行预处理，去除非语音信号和静默语音信号，获得预处理语音。再对所述预处理语音进行分帧，提取每一帧语音信号的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，缩写MFCC)并保存，具体包括以下步骤：预增强(Pre-Emphasis)：即差分语音信号；音框化(Framing)：对语音数据分帧；汉明窗(HammingWindowing)：对每帧信号加窗，以减小吉布斯效应的影响；快速傅立叶变换(fast Fouriertransform，缩写FFT)：将时域信号变换成为信号的功率谱；三角带通滤波器(TriangleFilters)：三角滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应；离散余弦转换(Discrete Cosine Transform，缩写DCT)：去除各维信号之间的相关性，将信号映射到低维空间。可从提取的MFCC参数中提取语音动态特性参数作为所述目标声纹特征。

匹配模块30，用于从所述预设服务器中获取所述语音搜索推荐数据集，将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配。

获取模块40，用于若匹配成功，则将匹配成功的声纹特征作为匹配声纹特征，从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。

搜索模块50，用于根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面。

在一实施例中，所述绑定模块10，还用于记录多个历史用户在进行语音搜索时说出的历史搜索内容，对所述历史搜索内容进行识别，获得文本形式的初始意图，并将所述初始意图进行展示，以使所述历史用户对所述初始意图进行确认或纠正；接收所述历史用户对所述初始意图进行确认或纠正的回复语音，根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图；获取多个历史用户的历史搜索内容和对应的所述历史意图；对所述历史搜索内容和对应的所述历史意图进行关键词提取，获得历史关键词；将所述历史关键词与所述历史用户的声纹特征进行绑定，以获得语音搜索推荐数据集。

在一实施例中，所述搜索模块50，还用于获取所述目标用户的目标用户类别，根据所述目标用户类别配置目标热词；对所述目标语音进行文本识别，获得目标文本；根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面。

在一实施例中，所述搜索模块50，还用于根据所述目标推荐数据、所述目标热词及所述目标文本，通过预设推测模型推测所述目标用户的多个推测意图；获取所述目标用户在预设时段内的用户行为数据；从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据；根据所述目标行为数据，从多个所述推测意图中选取目标意图；根据所述目标意图进行搜索，获得目标页面。

在一实施例中，所述搜索模块50，还用于分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征；通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合，获得各推测意图与所述目标行为数据之间的相似度。

在一实施例中，所述搜索模块50，还用于将所述目标意图转换成语音形式的意图语音，播放所述意图语音；接收所述目标用户基于所述意图语音的反馈语音，根据所述反馈语音和所述目标意图进行搜索，获得目标页面。

在一实施例中，所述匹配模块30，还用于对所述语音搜索推荐数据集中的声纹特征进行遍历，将遍历到的声纹特征作为当前声纹特征；将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较，获得第一似然和第二似然；将所述第一似然和所述第二似然相除再取对数，获得目标值；根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配。

本发明所述基于声纹的语音搜索装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image，ROM)/随机存取存储器(Random AccessMemory，RAM)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于声纹的语音搜索方法，其特征在于，所述基于声纹的语音搜索方法包括以下步骤：

2.如权利要求1所述的基于声纹的语音搜索方法，其特征在于，所述获取多个历史用户的历史搜索内容，将所述历史搜索内容与所述历史用户的声纹特征进行绑定，获得语音搜索推荐数据集，包括：

获取多个历史用户的历史搜索内容和对应的所述历史意图；

3.如权利要求1或2所述的基于声纹的语音搜索方法，其特征在于，所述根据所述目标推荐数据和所述目标语音进行搜索，获得目标页面，包括：

对所述目标语音进行文本识别，获得目标文本；

4.如权利要求3所述的基于声纹的语音搜索方法，其特征在于，所述根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索，获得目标页面，包括：

获取所述目标用户在预设时段内的用户行为数据；

根据所述目标意图进行搜索，获得目标页面。

5.如权利要求4所述的基于声纹的语音搜索方法，其特征在于，所述根据所述目标行为数据，从多个所述推测意图中选取目标意图，包括：

选取所述相似度最高的推测意图作为目标意图。

6.如权利要求4所述的基于声纹的语音搜索方法，其特征在于，所述根据所述目标意图进行搜索，获得目标页面，包括：

7.如权利要求1或2所述的基于声纹的语音搜索方法，其特征在于，所述将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配，包括：

8.一种基于声纹的语音搜索设备，其特征在于，所述基于声纹的语音搜索设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的语音搜索程序，所述基于声纹的语音搜索程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于声纹的语音搜索方法的步骤。

9.一种存储介质，其特征在于，所述存储介质上存储有基于声纹的语音搜索程序，所述基于声纹的语音搜索程序被处理器执行时实现如权利要求1至7中任一项所述的基于声纹的语音搜索方法的步骤。

10.一种基于声纹的语音搜索装置，其特征在于，所述基于声纹的语音搜索装置包括：