CN110136727B

CN110136727B - 基于说话内容的说话者身份识别方法、装置及存储介质

Info

Publication number: CN110136727B
Application number: CN201910305438.3A
Authority: CN
Inventors: 王健宗; 孙奥兰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2024-04-16
Anticipated expiration: 2039-04-16
Also published as: CN110136727A; WO2020211354A1

Abstract

本发明涉及语音处理领域，提出一种基于说话内容的说话者身份识别的方法、装置及存储介质，其中的方法包括采集初始语音信号，其中，初始语音信号包含多个待确认目标的说话内容；通过语音识别技术将初始语音信号转换为与说话内容对应的文本信息；根据文本信息对说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，说话者为多个待确认目标其中之一；根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接，获取目标语音信号；根据目标语音信号对待确认目标的身份进行确认。本发明基于说话内容进行说话人身份的识别及验证，能够提高身份验证过程中的准确率，实现其在电话客户服务中的应用，节省人力物力。

Description

基于说话内容的说话者身份识别方法、装置及存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质。

背景技术

根据研究表明，声纹虽然不如指纹、人脸这样，个体差异明显，但是由于每个人的声道、口腔和鼻腔(发音要用到的器官)也具有个体差异性。因为反映到声音上，也是具有差异性的。就比如说，当我们在接电话的时候，通过一声"喂"，我们就能准确的分辨出接电话的是谁，我们人耳作为身体的接收器生来就具有分辨声音的能力，那么我们也可以通过技术的手段，使声纹也可以向人脸、指纹那样作为“个人身份认证”的重要信息。

声纹识别(Voiceprint Recognition,VPR)，也称为说话人识别(SpeakerRecognition)，包括两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。说话人识别是给定说话者语音信息，以接受或拒绝说话者身份的过程，被广泛应用在银行系统，金融商业和语音安全控制中。

为此，说话人识别技术逐渐发展并得到普及，尤其在安全验证、电话银行中得到广泛应用。该技术要求在单信道-单一说话者情景下应用，即输入单一客户的语音信息，能够获得较好的验证效果。但是，在客户导向的企业中，说话人识别能够帮助客户解决紧急需要，并获得个性化服务，也可以帮助实现精准营销。但是，现有业内产品多为基于说话者声纹的识别，但这种方法在对话双方性别不同时效果较好，性别相同时，效果相对差。

例如，在电话客户服务平台上，在电话录音的单一信道上记录的是客户与客服的对话音频，因此，不能够直接通过说话人验证技术对电话录音信息进行客户身份验证，导致电话客户服务效率低，浪费大量的人力物力。

发明内容

本发明提供一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质，其主要目的在于通过将录制的对话音频用自动语音识别技术转换为文字信息，然后使用深度学习分类方法进行客户或客服的身份识别，最后，对客户音频片段进行拼接及对拼接后的音频片段进行身份验证，能够根据电话销售中客户与客服说话内容存在差异的应用场景，基于说话内容进行说话人识别及验证，提高身份验证过程中的准确率，实现其在电话客户服务中的应用，节省人力物力。

为实现上述目的，本发明提供一种基于说话内容的说话者身份识别方法，应用于电子装置，所述方法包括：

采集初始语音信号，其中，所述初始语音信号包含多个待确认目标的说话内容；

通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息；

根据所述文本信息对说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，所述说话者为所述多个待确认目标其中之一；

根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接，获取目标语音信号；

根据所述目标语音信号对所述待确认目标的身份进行确认。

此外，优选地，所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括：

通过子空间高斯混合模型和语音活动检测技术，将所述初始语音信号分割为多个语音片段；

通过语音识别技术对各语音片段分别进行文本信息转换。

此外，优选地，所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括：

构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM；

将所述各语音片段输入所述语音识别模型进行处理，所述语音识别模型将所述各语音片段表示为多维特征输出；

将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理，得到所述各语音片段对应的文本信息。

此外，优选地，所述根据所述文本信息对说话者身份进行识别的步骤包括：

获取基于训练集训练形成好的深度学习分类模型，其中，所述训练集基于语料库组建而成；

将所述文本信息输入所述深度学习分类模型中，对所述文本信息分配对应的标签。

此外，优选地，所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括：

采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认；或者，

采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器及摄像装置，所述存储器中包括基于说话内容的说话者身份识别程序，所述基于说话内容的说话者身份识别程序被所述处理器执行时实现如下步骤：

根据所述目标语音信号对待确认目标的身份进行确认。

此外，优选地，所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息的步骤包括：

通过子空间高斯混合模型和语音活动检测，将所述初始语音信号分割为多个语音片段；

通过语音识别技术对各语音片段分别进行文本信息转换。

所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理，得到所述各语音片段对应的文本信息。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序，所述基于说话内容的说话者身份识别程序被处理器执行时，实现如上所述的基于说话内容的说话者身份识别方法的步骤。

本发明提出的基于说话内容的说话者身份识别方法、装置及计算机可读存储介质，将录制的对话音频用自动语音识别技术转换为文字信息，然后使用深度学习分类方法进行目标或非目标的身份识别，最后，对目标音频片段进行拼接及对拼接后的音频片段进行身份验证，能够根据电话销售中客户与客服说话内容存在差异的应用场景，基于说话内容进行说话人识别及验证，提高身份验证过程中的准确率。

附图说明

图1为本发明基于说话内容的说话者身份识别方法具体实施例的应用环境示意图；

图2为图1中基于说话内容的说话者身份识别程序具体实施例的模块示意图；

图3为本发明根据转换后的文本信息对目标进行身份识别的原理图；

图4为3中根据转换后的文本信息对目标进行身份识别的流程图；

图5为基于DNN的说话人身份确认原理图；

图6为基于GMM的说话人身份确认原理图；

图7为基于说话内容的说话者身份识别方法具体实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于说话内容的说话者身份识别方法，应用于一种电子装置1。参照图1所示，为本发明基于说话内容的说话者身份识别方法具体实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于说话内容的说话者身份识别程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如基于说话内容的说话者身份识别程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，计算机存储介质的存储器11中可以包括操作系统、以及基于说话内容的说话者身份识别程序10；处理器12执行存储器11中存储的基于说话内容的说话者身份识别程序10时实现如下步骤：

首先，采集初始语音信号，其中，初始语音信号包含多个待确认目标的说话内容。

其中，针对电话沟通过程中，只有两个人进行语音通话的情况，待确认目标为两个，当多人通话时，初始语音信号就会包含多个待确认目标的说话内容，具体实施方案是相似的，此处不再赘述。

另外，针对应用场景的不同，对语音信号数据的采集触发点也存在不同，例如，当基于说话内容的说话者身份识别程序安装在移动终端上时，触发语音信号数据采集的可以为设定在移动终端上的按键，或者启动按钮等。而初始语音信号就是采集到的语音信号数据，该语音信号数据即可作为后续身份识别中所需要的初始语音信号。

其次，通过语音识别技术(Automatic Speech Recognition，ASR)将所述初始语音信号转换为与说话内容对应的文本信息，所述说话者为多个待确认目标其中之一。

作为示例，当说话者分别为客户和客服时，通过语音识别技术ASR将所述初始语音信号转换为对应的文本信息的步骤包括：先通过子空间高斯混合模型(Subspace GaussianMixture Model，SGMM)和语音活动检测(Voice Activity Detection，VAD)，将初始语音信号分割为多个短小的语音片段，短小的语音片段能够便于ASR对其进行文本信息转换，此处的分割参数可以根据ASR进行设定；然后，通过ASR对各语音片段分别进行文本信息转换。

具体地，SGMM-VAD算法可由两个高斯混合模型(Gaussian Mixed Model，GMM)组成，分别用来描述语音/非语音对数正态分布，从混有高比例噪声信号的语音中检测语音片段。

而语音活动检测又称语音端点检测或语音边界检测。目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

通过ASR对各语音片段进行转换处理的步骤包括：

第一：构建ASR模型，ASR模型包含共83维特征，其中80维为log FBANK的前端特征，帧长25ms，另外3维为音高特征(包含POV主元特征的概率)。同时，创建延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型(Latency-controlledBidirectional Highway Long Short-Term Memory，LC-BHLSTM)，该LC-BHLSTM模型共有5层，1024个存储单元，每层输出有512个节点的投影。

第二，将上述分割后的各语音片段输入ASR模型中，通过ASR模型将各语音片段表示为多维特征输出，具体可以为83维特征输出。然后，将ASR模型的输出信号输入LC-BHLSTM模型中，LC-BHLSTM模型的输出目标值是10k维上下文相关的三音素状态(又名：句音)，最终完成语音片段至对话文本信息的转换。

其中，长短期记忆网络(Long Short-Term Memory，LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的事件。

再次，根据所述文本信息对待确认目标或者说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，所述说话者为所述多个待确认目标其中之一。

其中，根据文本信息对说话者身份进行识别的步骤包括：

第一：获取基于训练集训练形成好的深度学习分类模型，其中，所述训练集基于语料库组建而成；

第二：将所述文本信息输入所述深度学习分类模型中，对所述文本信息分配对应的标签。

进一步地，根据文本信息对说话者身份进行识别的步骤包括：

1.基于语料库组建训练集；其中，在训练阶段可以手动标记“目标”、“非目标”标签来组建训练集。

2.基于训练集训练形成深度学习分类模型；

3.将文本信息输入训练好的深度学习分类模型中，对文本信息分配“目标”或“非目标”的标签。

具体地，基于语料库组建训练集，在训练阶段手动标记“客户”/“客服”(即“目标”/“非目标”)标签来组建训练集，进而训练形成深度学习分类模型，将对话文本信息输入所述深度学习分类模型，对文本片段分配“客户”和“客服”的标签。最后，将各段被识别的客户文字数据找到对应的客户语音信息，并拼接成客户语音。

在对说话者身份进行识别的过程中，客户语音的质量十分重要。因此需要在客户-客服对话语音中完整地抽取出客户语音，以输入到后续深度学习分类模型中进行说话人验证。

当前，电话客户服务平台数据具有如下特征：其一，录制语音仅有客服与客户两个说话者，而等待验证身份的为客户语音。因此，本发明采用二分类方法来识别分类客服/客户。其二，两位说话者声音可能相似，但是说话内容有所不同。电话客服服务，大多为既定内容，介绍相关领域的产品，因此会包含较多专业术语，而客户接听或来电主要是咨询相关问题，语言相对平实生活化，包含较少专业术语。因此这些专业术语关键词可作为分类模型的特征，以训练二分类模型，该方法被称为“关键词匹配”。最后，将各片段被识别的客户文字数据拼接成客户语音，以用于后期说话人验证。

该步骤的主要工作原理如框图3及流程图4所示，主要包括：

S210：系统从训练集中构建搜索引擎，通过搜索引擎提取文本信息的中文分词，并在这些文本上构建保留索引。

S220：将所述对话文本信息放入深度学习分类模型中训练，获取与所述对话文本信息最相关的K条文本。

S230：根据K-NN算法投票表决对话文本信息的类别。

其中，邻近算法(k-NearestNeighbor，K-NN)或者说K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表。

而K-NN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。K-NN算法在类别决策时，只与极少量的相邻样本有关。由于K-NN算法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，K-NN算法较其他方法更为适合。

再次，根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接，获取目标语音信号。此处的语音信号段也可以理解为语音片段，在与待确认目标对应的各段文本信息未获取之前，初始语音信号分割为多个语音片段，待获取各段文本信息之后，即可根据该文本信息确认对应的语音信号段，该语音信号段就为我们需要进行身份确认的说话者的语音信号。

最后，根据所述目标语音信号对待确认目标的身份进行确认。

根据目标语音信号对目标身份进行确认的步骤包括两种方式：

方式一是采用基于深度神经网络模型DNN的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。方式二是采用基于高斯混合模型GMM的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。

具体地，图5示出了基于DNN的i-向量系统对目标说话进行人身份确认的原理，其中，DNN为深度神经网络算法，UBM为通用背景模型(Universal Background Model)，DFNN为动态模糊神经网络(Dynamic Fuzzy Neural Network))，LSTM为长短期记忆网络(LongShort-Term Memory)，TDNN为时延神经网络(Time delay neural network)，该过程主要包括以下步骤：

步骤一：特征提取，收集足够多的统计信息，抽取i-向量和一个评分标准。该过程是用来将语音波形转换为特征向量(常用参数有：MFCC(Mel-frequency cepstralcoefficients，梅尔频率倒谱系数)，LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱参数)和PLP(Perceptual Linear Prediction，感知线性预测))，从给定的语音信号中过滤噪声，保留有用的说话人信息。

步骤二：基于VAD技术收集足够多的统计信息是从一系列特征向量中计算0阶，1阶，2阶Baum-Welch(鲍姆-韦尔奇)统计信息。这些统计信息是从大规模DNN中生成的高维信息，也称作UBM。

步骤三：i-向量的提取是将上述高维统计信息转换为单一低维特征向量，该低维向量仅包含与其他说话者不同的有辨别力的特征信息

步骤四：在i-向量被提取后，采用评分标准(常用标准：余弦cosine距离相似度，LDA(Linear Discriminant Analysis，线性判别分析)和PLDA(Probabilistic LinearDiscriminant Analysis，概率线性判别分析))来决定是否接受或拒绝该客户身份信息。

图6示出了基于GMM的i-向量系统对目标说话进行人身份确认的原理，其中，GMM为高斯混合模型，MFCC和PLP的意思可参照图5中的解释。

该方式二与方式一的特征提取过程相类似，此处不再一一赘述。

上述实施例提出的电子装置1，相较之前的声纹识别算法，能够减少声学模型建模的需要，用二分类算法提高模型在说话者性别不同的场景下的识别效果。此外，提出整个身份验证识别框架，能够解决单通道-多或者双说话者场景下的客户验证问题，说话人识别精度高、速度快。

在其他实施例中，基于说话内容的说话者身份识别程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于说话内容的说话者身份识别程序10具体实施例的程序模块图。

具体地，基于说话内容的说话者身份识别程序10可以被分割为：

语音数据采集单元210，用于采集初始语音信号，其中，所述初始语音信号包含多个待确认目标的说话内容。

文本转换单元220，用于通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息，该单元进一步包括分割模块、模型创建模块、转换处理模块。

身份识别单元230，用于根据所述文本信息对说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，所述说话者为所述多个待确认目标其中之一，该单元进一步包括训练集组件模块、模型训练模块、识别模块。

身份验证单元240，用于根据目标语音信号对待确认目标的身份进行确认。

此外，本发明还提供一种基于说话内容的说话者身份识别方法。参照图7所示，为本发明基于说话内容的说话者身份识别具体实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于说话内容的说话者身份识别方法包括：

步骤S110，采集初始语音信号其中，所述初始语音信号包含多个待确认目标的说话内容。

其中，该初始语音信号为至少两个说话者的对话语音信号。此处提到的采集初始语音信号，主要是针对电话沟通过程中，说话人的语音信号，只有两个人进行语音通话的情况，待确认目标为两个，当能实现多人通话时，本发明提供的基于说话内容的说话者身份识别程序也可以适用于多人通话的情形，此时初始语音信号就会包含多个待确认目标的说话内容，具体实施方案是相似的，此处不再赘述。

步骤S120，通过ASR将所述初始语音信号转换为与说话内容对应的文本信息。

作为示例，当说话者分别为客户和客服时，通过ASR将所述初始语音信号转换为对应的文本信息的步骤包括：先通过子空间高斯混合模型SGMM和语音活动检测VAD，将初始语音信号分割为多个短小的语音片段，短小的语音片段能够便于ASR对其进行文本信息转换，此处的分割参数可以根据ASR进行设定；然后，通过ASR对各语音片段分别进行文本信息转换。

具体地，SGMM-VAD算法可由两个GMM组成，分别用来描述语音/非语音对数正态分布，从混有高比例噪声信号的语音中检测语音片段。

而语音活动检测(Voice Activity Detection，VAD)又称语音端点检测或语音边界检测。目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。

通过ASR对各语音片段进行转换处理的步骤包括：

第一：构建ASR模型，ASR模型包含共83维特征，其中80维为log FBANK的前端特征，帧长25ms，另外3维为音高特征(包含POV主元特征的概率)。同时，创建LC-BHLSTM(Latency-controlled Bidirectional Highway Long Short-Term Memory，延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络)模型，该LC-BHLSTM模型共有5层，1024个存储单元，每层输出有512个节点的投影。

其中，LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的事件。

S130：根据所述文本信息对待确认目标或者说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，所述说话者为所述多个待确认目标其中之一。

其中，根据文本信息对说话者身份进行识别的步骤包括：

1.基于语料库组建训练集；其中，在训练阶段手动标记“目标”、“非目标”标签来组建训练集。

2.基于训练集训练形成深度学习分类模型；

上述处理过程主要包括以下步骤：

步骤一：系统从训练集中构建搜索引擎，通过搜索引擎提取文本信息的中文分词，并在这些文本上构建保留索引。

步骤二：将所述对话文本信息放入深度学习分类模型中训练，获取与所述对话文本信息最相关的K条文本。

步骤三：根据K-NN算法投票表决对话文本信息的类别。

其中，邻近算法或者说K最近邻(K-NN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

步骤S140：根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接，获取目标语音信号。

此处的语音信号段也可以理解为语音片段，在与待确认目标对应的各段文本信息未获取之前，初始语音信号分割为多个语音片段，待获取各段文本信息之后，即可根据该文本信息确认对应的语音信号段，该语音信号段就为我们需要进行身份确认的说话者的语音信号。

步骤S150：根据所述目标语音信号对待确认目标的身份进行确认。

其中，根据目标语音信号对目标身份进行确认的步骤包括两种方式：

具体地，基于DNN的i-向量系统对目标说话进行人身份确认的程主要包括以下步骤：

而基于GMM的i-向量系统对目标说话进行人身份确认的原理与方式一的特征提取过程相类似，此处不再一一赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序，所述基于说话内容的说话者身份识别程序被处理器执行时实现如下操作：

根据所述目标语音信号对所述待确认目标的身份进行确认。

通过语音识别技术对各语音片段分别进行文本信息转换。

采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。本发明之计算机可读存储介质的具体实施方式与上述基于说话内容的说话者身份识别方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于说话内容的说话者身份识别方法，应用于电子装置，其特征在于，所述方法包括：

根据所述目标语音信号对所述待确认目标的身份进行确认；

所述文本信息的转换过程包括：构建语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM；

将所述初始语音信号的各语音片段输入所述语音识别模型进行处理，所述语音识别模型将所述各语音片段表示为多维特征输出；

2.根据权利要求1所述的基于说话内容的说话者身份识别方法，其特征在于，所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括：

通过语音识别技术对各语音片段分别进行文本信息转换。

3.根据权利要求1所述的基于说话内容的说话者身份识别方法，其特征在于，所述根据所述文本信息对说话者身份进行识别的步骤包括：

4.根据权利要求1所述的基于说话内容的说话者身份识别方法，其特征在于，所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括：

5.一种电子装置，其特征在于，该电子装置包括：存储器、处理器及摄像装置，所述存储器中包括基于说话内容的说话者身份识别程序，所述基于说话内容的说话者身份识别程序被所述处理器执行时实现如下步骤：

根据所述目标语音信号对待确认目标的身份进行确认；

6.根据权利要求5所述的电子装置，其特征在于，所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息的步骤包括：

通过语音识别技术对各语音片段分别进行文本信息转换。

7.根据权利要求6所述的电子装置，其特征在于，所述根据所述文本信息对说话者身份进行识别的步骤包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序，所述基于说话内容的说话者身份识别程序被处理器执行时，实现如权利要求1至4中任一项所述的基于说话内容的说话者身份识别方法的步骤。