CN111081249A - 一种模式选择方法、装置及计算机可读存储介质 - Google Patents

一种模式选择方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111081249A
CN111081249A CN201911396275.0A CN201911396275A CN111081249A CN 111081249 A CN111081249 A CN 111081249A CN 201911396275 A CN201911396275 A CN 201911396275A CN 111081249 A CN111081249 A CN 111081249A
Authority
CN
China
Prior art keywords
mode
user
group
sound signal
electronic equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911396275.0A
Other languages
English (en)
Inventor
孔秀哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911396275.0A priority Critical patent/CN111081249A/zh
Publication of CN111081249A publication Critical patent/CN111081249A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开一种模式选择方法、装置及计算机可读存储介质,该方法应用于服务器,包括:获取声音信号,声音信号为第一电子设备采集的声音信号,第一电子设备为与服务器建立连接的电子设备中的任一电子设备;确定声音信号对应的用户所属群体;根据群体与模式的对应关系,获取群体对应的模式。本发明实施例,可以提高模式选择的效率。

Description

一种模式选择方法、装置及计算机可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种模式选择方法、装置及计算机可读存储介质。
背景技术
为了适应用户的各种使用需求,智能语音电子产品设置了多种情景模式,可针对不同的使用者来提供不同的模式,从而展现不同的功能,比如老年模式、成人模式、儿童模式。用户使用智能语音电子产品时,可以手动选择需要的模式。上述方法中,由于需要用户手动操作选择,以致降低了模式选择的效率。
发明内容
本发明实施例公开了一种模式选择方法、装置及计算机可读存储介质,用于提高模式选择的效率。
第一方面公开一种模式选择方法,所述方法应用于服务器,包括:
获取声音信号,所述声音信号为第一电子设备采集的声音信号,所述第一电子设备为与所述服务器建立连接的电子设备中的任一电子设备;
确定所述声音信号对应的用户所属群体;
根据群体与模式的对应关系,获取所述群体对应的模式。
作为一种可能的实施方式,所述确定所述声音信号对应的用户所属群体包括:
从所述声音信号中提取声纹特征;
确定所述声纹特征属于所有群体中每个群体的概率;
将所述所有群体中对应的概率最大的群体,确定为所述声音信号对应的用户所属群体。
作为一种可能的实施方式,所述方法还包括:
向所述第一电子设备发送获取的模式,所述模式用于指示所述第一电子设备的工作模式处于所述模式。
作为一种可能的实施方式,所述方法还包括:
获取所述模式包括的信息;
向所述第一电子设备发送获取的信息。
作为一种可能的实施方式,所述获取所述模式包括的信息包括:
确定所述声音信号所需获取信息;
从所述模式包括的信息中获取与所述信息匹配的信息。
作为一种可能的实施方式,所述确定所述声音信号对应的用户所属群体包括:
确定所述声音信号对应的用户;
所述根据群体与模式的对应关系,获取所述群体对应的模式包括:
根据用户与模式的对应关系,获取所述用户对应的模式。
作为一种可能的实施方式,所述模式包括语音模式,所述方法还包括:
从预设的音色信息集合中选取与所述语音模式对应的音色信息;
向所述第一电子设备发送所述音色信息,所述音色信息用于指示所述第一电子设备采用所述音色信息与所述用户进行语音交互。
第二方面公开一种模式选择装置,所述装置设置于服务器中,包括:
第一获取单元,用于获取声音信号,所述声音信号为第一电子设备采集的声音信号,所述第一电子设备为与所述服务器建立连接的电子设备中的任一电子设备;
确定单元,用于确定所述声音信号对应的用户所属群体;
第二获取单元,用于根据群体与模式的对应关系,获取所述群体对应的模式。
作为一种可能的实施方式,所述确定单元,具体用于:
从所述声音信号中提取声纹特征;
确定所述声纹特征属于所有群体中每个群体的概率;
将所述所有群体中对应的概率最大的群体,确定为所述声音信号对应的用户所属群体。
作为一种可能的实施方式,所述装置还包括:
第一发送单元,用于向所述第一电子设备发送获取的模式,所述模式用于指示所述第一电子设备的工作模式处于所述模式。
作为一种可能的实施方式,所述装置还包括:
第三获取单元,用于获取所述模式包括的信息;
第二发送单元,用于向所述第一电子设备发送获取的信息。
作为一种可能的实施方式,所述第三获取单元,具体用于:
确定所述声音信号所需获取信息;
从所述模式包括的信息中获取与所述信息匹配的信息。
作为一种可能的实施方式,所述确定单元,具体用于确定所述声音信号对应的用户;
所述第二获取单元,具体用于根据用户与模式的对应关系,获取所述用户对应的模式。
作为一种可能的实施方式,所述模式包括语音模式,所述装置还包括:
选取单元,用于从预设的音色信息集合中选取与所述语音模式对应的音色信息;
第三发送单元,用于向所述第一电子设备发送所述音色信息,所述音色信息用于指示所述第一电子设备采用所述音色信息与所述用户进行语音交互。
第三方面公开一种模式选择装置,所述装置设置于服务器中,所述装置包括处理器和存储器,所述处理器和存储器耦合,其中,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,以使得所述装置执行第一方面或第一方面的任一种实施例所公开的模式选择方法。
第四方面公开一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或计算机指令,当所述计算机程序或所述计算机指令被计算机设备运行时,实现如第一方面或第一方面的任一种实施例所公开的模式选择方法。
本发明实施例中,获取声音信号,声音信号为第一电子设备采集的声音信号,第一电子设备为与服务器建立连接的电子设备中的任一电子设备,确定声音信号对应的用户所属群体,根据群体与模式的对应关系,获取群体对应的模式。可见,可以通过声音信号识别自动选择与用户所属群体对应的模式,不需要用户手动操作选择,因此,提高了模式选择的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种网络架构示意图;
图2是本发明实施例公开的一种模式选择的流程示意图;
图3是本发明实施例公开的一种声纹识别的流程示意图;
图4是本发明实施例公开的一种MFCC提取的流程示意图;
图5是本发明实施例公开的一种场景示意图;
图6是本发明实施例公开的另一种模式选择的流程示意图;
图7是本发明实施例公开的一种模式选择装置的结构示意图;
图8是本发明实施例公开的另一种模式选择装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或者设备固有的其它步骤或单元。
本发明实施例公开了一种模式选择方法、装置及计算机可读存储介质,用于提高模式选择的效率。以下分别进行详细说明。
为了更好地理解本发明实施例公开的一种模式选择方法及装置,下面先对本发明实施例的网络架构进行介绍。请参阅图1,图1是本发明实施例公开的一种网络架构示意图。如图1所示,该网络架构可以包括电子设备101和服务器102。电子设备101与服务器102之间通过网络连接。服务器102获取电子设备101采集的声音信号,确定声音信号对应的用户所属群体,根据群体与模式的对应关系,获取群体对应的模式,将获取的群体对应的模式发送给电子设备101。电子设备101接收来自服务器102的模式,显示模式。
基于图1所示的网络架构,请参见图2,图2是本发明实施例公开的一种模式选择的流程示意图。其中,该方法应用于服务器。如图2所示,该模式选择方法可以包括以下步骤。
201、获取声音信号。
服务器可以获取声音信号,声音信号为第一电子设备采集的声音信号,第一电子设备为与服务器建立连接的电子设备中的任一电子设备。
在本发明实施例中,声音信号可以是在用户使用第一电子设备的时候,对第一电子设备发出的一段包含用户搜索请求的声音,在用户发出包含用户搜索请求的声音之前,先对第一电子设备发出特定的唤醒词来“唤醒”第一电子设备。例如,用户可以对第一电子设备发出声音“叮当,叮当,我想看《小猪佩奇》”,第一电子设备接收来自用户的唤醒词“叮当”之后,将包含用户搜索请求的声音“我想看《小猪佩奇》”发送给服务器,服务器接收来自第一电子设备的声音信号。声音信号也可以是服务器向第一电子设备主动获取的,当服务器检测到第一电子设备接收来自用户的唤醒词后,向第一电子设备获取来自用户的包含用户搜索请求的声音。
其中,第一电子设备可以是在家庭中为多个家庭成员提供语音服务的智能语音设备,例如,智能音箱、电视机、公用手机等。
202、确定声音信号对应的用户所属群体。
服务器获取到来自第一电子设备的声音信号之后,可以从声音信号中提取声纹特征,确定声纹特征属于所有群体中每个群体的概率,再将所有群体中对应的概率最大的群体,确定为声音信号对应的用户所属群体。
具体地,服务器可以根据声纹识别确定声音信号对应的用户所属群体。声纹识别技术就是利用语音的声纹特征对说话人进行身份验证的生物识别技术。每个人都具有特定的声纹特征,这是由的发声器官在生长过程中逐渐形成的特征。无论其他用户对目标用户的说话模仿的多么相似,声纹特征都具有显著差别。
请参阅图3,图3是本发明实施例公开的一种声纹识别的流程示意图。如图3所示,先对声音信号进行训练,在训练阶段时,用户可以对第一电子设备念一小段话,采集每一个用户预留充足的声音信息,提取该声音信息中的声纹特征,然后根据用户的声纹特征训练得到用户模型,根据全部用户的模型建立模型库。建立模型库之后,再对声音信号进行识别,在识别阶段采集第一用户的声音信息,提取该声音信息中的声纹特征,然后根据用户的声纹特征与模型库进行对比,得到相应的相似性打分,最后根据相似性打分判决第一用户对应的用户所属群体。
在声音信号训练阶段和识别阶段都经过了声纹特征提取这个步骤。在实际应用中,经典的梅尔倒谱系数(mel-frequency cepstrum,MFCC)、感知线性预测系数(perceptual linear predictive,PLP)、深度特征(deep feature)以及能量规整谱系数等,都可以作为声纹特征。在本发明实施例中,可以使用MFCC进行声纹特征提取。具体地,请参阅图4,图4是本发明实施例公开的一种MFCC提取的流程示意图。如图4所示,提取声音信息的声纹特征时,可以先对声音信息进行预处理,去除非声音信号和静默信号,然后对经过预处理之后的声音信息进行分帧,得到每一帧声音信号,并提取每一帧声音信号的MFCC,把得到的MFCC确定为声音信息的声纹特征。除此之外,还可以采用其他方式获得声纹特征,本发明实施例对此不做特殊限定。具体的MFCC提取的步骤如下:
1)分帧
先将N个采样点集合成一个观测单位,即将声音分成一个小小的片段,称之为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此可以设置两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。例如,通常声音识别所采用的声音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
2)预加重
将经采样后的数字声音信号s(n)通过一个高通滤波器,称为预加重。预加重的公式可以表示为:
H(z)=1-a*z-1,0.9<a<1.0
其中,式中的a的值介于0.9-1.0之间,通常取0.95。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿声音信号收到发音系统所抑制的高频部分,也为了突出高频的共振峰。
3)加窗(hamming window)
通过预加重后的信号为:
s(n)=s(n)-a×s(n-1)
声音在长范围内是不停的变动的,没有固定的特性无法做处理,因此将每一帧带入窗函数,即将每一帧乘以汉明窗,目的是消除各个帧两端信号的不连续性,从而增加帧左端和右端的连续性。假设分帧后的信号为s(n),n=0,1,...,N-1,N为帧的大小,那么乘上汉明窗后为s'(n)=s(n)×w(n),w(n)形式可以表示为:
Figure BDA0002346371750000071
其中,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
4)快速傅里叶变换(fast fourier transform,FFT)
FFT是DFT的一种高效快速算法。离散傅里叶变换(discrete fouriertransform,DFT),是傅里叶变换在时域和频域上都呈离散的形式,将信号的时域采样变换为其离散时间傅里叶变换(discrete time fourier transform,DTFT)的频域采样。设声音信号的FFT为:
Figure BDA0002346371750000081
式中,x(n)为输入的声音信号,N表示傅里叶变换的点数。
5)能量谱
由于人耳对不同频率的敏感程度不同,将频谱按人耳敏感程度分为多个Mel滤波器组,在Mel刻度范围内,各个滤波器的中心频率是相等间隔的线性分布,但在频率范围不是相等间隔的,这个是由于频率与Mel频率转换的公式形成的,成为log对数谱。Mel标度描述了人耳频率的非线性特性,它与频率的关系可以近似表示为:
Figure BDA0002346371750000082
式中的log是以log10为底,也就是lg,经过FFT的声音信号的平方称为能量谱。由于信号在时域上的变换通常很难看出信号的特性,所以通常转换为频域上的能量分部来观察,不同的能量分布,就能代表不同声音的特性,目的是获得能量分布在时间轴上不同时间窗内的频谱,即能量谱。在乘上汉明窗后,每帧再经过FFT以转换成频谱上的能量分布。对分帧加窗后的各帧信号进行FFT得到各帧的频谱。并对声音信号的频谱取模平方得到声音信号的功率谱。
6)Mel滤波器组
将能量谱通过一组Mel滤波器组,达到降低维数的目的。定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器。M通常取22-26。在Mel频谱范围内,这些滤波器是等带宽的,每个带通滤波器的传递函数为:
Figure BDA0002346371750000091
式中,
Figure BDA0002346371750000092
这里的三角带通滤波器有两个主要目的:对频谱进行平滑化,消除谐波的作用,突显原先声音的共振峰。因此,一段声音的高调或高音,是不会呈现在MFCC参数内,换句话说,以MFCC为特征的声音辨识系统,并不会受到输入声音的音调不同而有所影响。此外,还可以降低运算量。
7)计算每个滤波器组输出的对数谱
计算每个滤波器组输出的对数谱的公式可以表示为:
Figure BDA0002346371750000093
8)离散余弦变换
可以经离散余弦变换(discrete cosine transform,DCT)得到MFCC参数,DCT经常用于信号处理和图像处理,用来对信号和图像进行有损压缩,大多数自然信号能量都集中在离散余弦变换后的低频部分,实际就是对声音帧数据再进行一次降维。计算MFCC参数的公式可以表示为:
Figure BDA0002346371750000094
将上述的对数能量带入离散余弦变换,求出L阶的MFCC参数。L阶指MFCC参数阶数,通常取12-16。一般取DCT后的第2个到第13个参数作为MFCC参数。
特征提取完成之后,需要进行模型训练,对上述N帧MFCC数组进行计算,得出高斯混合模型(gaussian mixture model,GMM)参数组。具体的模型训练为使用用户的训练数据计算出GMM模型的新参数(高斯权重、均值和方差),将得到的新参数与GMM模型的原参数进行融合,从而得到用户的模型。
识别阶段的声纹匹配打分判断的步骤中,在本发明实施例中,使用对数似然比来计算得分。计算得分的公式可以表示为:
Figure BDA0002346371750000101
式中,如果有两条测试声音,这两条声音来自同一空间的假设为HS,来自不同的空间的假设为Hd,那么通过计算对数似然比,就能衡量两条声音的相似程度。得分越高,则两条声音属于同一用户的可能性越大。
还可以在识别时,同样先对声音信号预处理,提取MFCC特征,比较本次特征和训练库码本之间的欧氏距离。当小于某个阈值,我们认定本次说话的用户及说话内容与训练码本库中的一致,配对成功。
服务器可以通过声纹识别得到声音信号对应的用户所属群体,也可以得到声音信号对应的用户。
在第一种实现中,服务器可以根据声音信号确定声音信号对应的用户所属群体。声纹识别模型可以是用于表示声纹特征和用户所属群体对应关系的模型,在声音信号训练阶段,第一电子设备可以同时采集用户的身份信息和声音信息,用户的身份信息可以包括性别和年龄。服务器接收来自第一电子设备的用户身份信息之后,将用户的声纹特征与该用户身份信息建立对应关系。可以将年龄划分成一定的年龄区间,例如,0-3岁、20-30岁、60-70岁等,将年龄区间在0-3岁的用户定义为儿童用户,将20-30岁的用户定义为成年用户,将年龄区间在60-70岁的用户定义为老年用户,也可以将性别和年龄区间结合起来,预先设置用户所属群体,所属群体可以包括儿童男性、成年女性、老年男性等群体。在声音信号识别阶段,服务器根据预先设置好的用户声纹特征与所属群体的对应关系,可以识别到获取到的声音信号属于哪一种用户对应的所属群体。
在第二种实现中,服务器也可以根据声音信号确定声音信号对应的用户。声纹识别模型可以是用于表示声纹特征和用户对应关系的模型,在声音信号训练阶段,第一电子设备可以同时采集用户的身份信息和声音信息,用户的身份信息可以包括姓名、性别、年龄和人脸图像等表征用户具体身份的信息。服务器接收来自第一电子设备的用户身份信息之后,将用户的声纹特征与该用户身份信息建立对应关系。在声音信号识别阶段,服务器根据预先设置好的用户声纹特征与用户的对应关系,可以识别到获取到的声音信号属于用户中的某一个用户。例如,训练模型中有小红、小明、小丽三个人的声纹特征模型,声纹识别阶段,识别到用户的声纹特征与小明的声纹特征模型匹配打分最高,则可以判定该用户为小明。
203、根据群体与模式的对应关系,获取群体对应的模式。
服务器确定声音信号对应的用户所属群体之后,可以根据群体与模式的对应关系,获取群体对应的模式。
在一种实现中,请参阅图5,图5是本发明实施例公开的一种场景示意图。如图5所示,在当前场景下有用户1(老人男)、用户2(成人女)和用户3(儿童男)三个类型的用户,他们分别对智能语音设备发起语音请求“最近有什么好看的?”,智能语音设备分别采集三个用户的语音请求,将该语音请求发送给语音服务云端,语音服务云端接收来自智能语音设备的语音请求,通过声纹识别可以识别到用户1属于老人男群体,用户2属于成人女群体,用户3属于儿童男群体,从而根据群体与模式的对应关系,获取群体对应的模式,即针对用户1获取老人男的第一模式,针对用户2获取成人女的第二模式,针对用户3获取儿童男的第三模式。
在一种实现中,如图5所示,在当前场景下有用户1小红、用户2小明和用户3小丽三个用户,他们分别对智能语音设备发起语音请求“最近有什么好看的?”,智能语音设备分别采集三个用户的语音请求,将该语音请求发送给语音服务云端,语音服务云端接收来自智能语音设备的语音请求,通过声纹识别可以识别到用户1为小红,用户2为小明,用户3为小丽,从而根据用户与模式的对应关系,获取用户对应的模式,即针对用户1获取小红的私人模式,针对用户2获取小明的私人模式,针对用户3获取小丽的私人模式。
在图2所描述的模式选择方法中,获取声音信号,确定声音信号对应的用户所述群体,根据群体与模式的对应关系,获取群体对应的模式。可见,可以通过声音信号识别自动选择与用户所属群体对应的模式,不需要用户手动操作选择,因此,提高了模式选择的效率。
基于图1所示的网络架构,请参见图6,图6是本发明实施例公开的另一种模式选择的流程示意图。如图6所示,该模式选择方法可以包括以下步骤。
601、服务器获取来自第一电子设备的声音信号。
其中,步骤601与步骤201相同,详细描述可以参考步骤201,在此不再赘述。
602、服务器确定声音信号对应的用户所属群体。
其中,步骤602与步骤202相同,详细描述可以参考步骤202,在此不再赘述。
603、根据群体与模式的对应关系,服务器获取群体对应的模式。
其中,步骤603与步骤203相同,详细描述可以参考步骤203,在此不再赘述。
604、服务器向第一电子设备发送获取的模式。
服务器可以向第一电子设备发送获取的模式,该模式用于指示第一电子设备的工作模式处于该模式。
在一种实现中,服务器获取用户所属群体对应的模式之后,可以向第一电子设备发送获取的模式,使得第一电子设备当前的工作模式处于服务器发送来的模式。在第一电子设备的当前模式处于服务器发送来的模式的情况下,第一电子设备可以保持该当前模式;在第一电子设备的当前模式不处于服务器发送来的模式的情况下,自动将当前模式切换成服务器发送来的模式。例如,如图5所示的场景下,当智能语音设备处于模式二(成人女)的情况下,向语音服务云端发送采集到的用户3的声音信号,语音服务云端通过声纹识别到用户3大概率属于儿童,会向智能语音设备下发切换到儿童模式的指令,智能语音设备接收到用户3同意的指令之后将当前模式切换到儿童模式,并通过显示屏向用户显示儿童模式;当智能语音设备处于模式二(成人女)的情况下,向语音服务云端发送采集到的用户2的声音信号,语音服务云端通过声纹识别到用户2大概率属于成人女群体,则不触发切换模式的操作,智能语音设备可以继续保持当前模式向用户显示。
在一种实现中,服务器除了可以获取群体或者用户对应的模式,还可以获取该模式包括的信息,向第一电子设备发送该模式包括的信息。具体地,可以预先对不同的模式设置不同的多媒体文件,例如,模式一是老人男群体的模式,该模式中可以设置一些如“太极拳”、“天气”、“健康保健”等多媒体文件;模式二是成人女群体的模式,该模式中可以设置一些如“双十一购物攻略”、“职场电视剧”、“幼儿教育”等多媒体文件;模式三是儿童男群体,该模式中可以设置一些如“动画片”、“益智小游戏”、“儿歌”等多媒体文件。服务器在向第一电子设备发送模式的同时,将模式包括的信息一同发送给第一电子设备。例如,如图5所示的场景下,有3种用户类型,用户1属于老人男群体,用户2属于成人女群体,用户3属于儿童男群体,当他们向智能语音设备发起的声音信号都是相同的“最近有什么好看的?”,语音服务云端通过声纹识别可以识别用户的所属群体,根据所属群体推荐相应的多媒体文件,例如,对用户1可以推荐《养生之道》,对用户2可以推荐《双十一购物指南》,对用户3可以推荐《小猪佩奇》。智能语音设备可以接收来自服务器的模式和该模式包括的信息,通过显示屏向用户显示模式和该模式包括的信息。这样以来,智能语音设备推荐的多媒体文件内容就非常具有针对性。推荐的内容可以按照该用户所属群体的搜索次数由大到小的顺序从预设的多媒体文件集合中选择对该用户所属群体推荐的多媒体文件的顺序。
在一种实现中,服务器在获取用户所属群体对应的模式之后,也可以确定用户声音信号的所需信息,再从用户所属群体模式包括的信息中获取与该信息匹配的信息。具体地,当用户属于老人男的群体时,服务器向第一电子设备发送模式一(老年男)的模式之后,再根据用户的搜索语音如“今天适合打太极拳吗?”,获取有关“今天天气”、“太极拳教学视频”等多媒体文件发送给第一电子设备,第一电子设备接收来自服务器的多媒体文件之后,通过显示屏向用户显示该多媒体文件。服务器也可以向第一电子设备发送语音提示,例如,根据用户的搜索语音如“今天适合打太极拳吗?”获取“今天天气”,并向第一电子设备发送“天冷请多加衣物”的语音提示,第一电子设备接收来自服务器的语音提示之后,通过喇叭向用户播放该语音提示。
在一种实现中,服务器可以根据声音信号确定声音信号对应的用户,获取对应用户的私人模式,私人模式可以包括该用户的相关感兴趣的多媒体文件。确定该用户感兴趣的多媒体文件可以按照用户搜索次数由大到小的顺序从预设的多媒体文件集合中选择与该用户的身份信息匹配的多媒体文件作为该用户感兴趣的多媒体文件。例如,电影A被搜索了100次,电影B被搜索了200次,则可以选择电影B生成预览文件,或者将电影B的预览信息排在电影A的预览信息之前推荐给用户。第一电子设备接收来自服务器的私人模式和私人模式包括的该用户感兴趣的多媒体文件,通过显示屏向用户显示私人模式和该用户感兴趣的多媒体文件。
在一种实现中,模式还可以包括语音模式,语音模式是指可以从预设的音色信息集合中选取与该模式对应的音色信息,该音色信息可以用于指示第一电子设备采用该音色信息与用户进行语音交互。例如,对于儿童模式,可以为用户选择动画人物的音色,如喜羊羊、光头强、小猪佩奇等;对于成人模式,可以选择明星的音色,如明星A、明星B等。还可以根据该用户播放某一具体的多媒体文件的次数来确定音色信息,例如,《小猪佩奇》动画片的播放次数最多,则可选择喜羊羊的音色。第一电子设备接收来自服务器音色信息,可以通过喇叭播放该音色的语音与用户进行语音交互。
在图6所描述的模式选择方法中,获取声音信号,确定声音信号对应的用户所述群体,根据群体与模式的对应关系,获取群体对应的模式,向第一电子设备发送获取的模式。与图2对应的模式选择方法中,图6的方法不仅可以选择模式,还可以将模式包括的推荐信息发送给第一电子设备,同时可以针对不同的用户群体采用不同的音色进行语音交互,因此,减少了用户的请求搜索次数,提高了模式选择的效率。
请参阅图7,图7是本发明实施例公开的一种模式选择装置的结构示意图。其中,该模式选择装置可以设置于服务器中。如图7所示,该模式选择装置可以包括:
第一获取单元701,用于获取声音信号,声音信号为第一电子设备采集的声音信号,第一电子设备为与服务器建立连接的电子设备中的任一电子设备;
确定单元702,用于确定声音信号对应的用户所属群体;
第二获取单元703,用于根据群体与模式的对应关系,获取群体对应的模式。
在一个实施例中,确定单元702,具体用于:
从声音信号中提取声纹特征;
确定声纹特征属于所有群体中每个群体的概率;
将所有群体中对应的概率最大的群体,确定为声音信号对应的用户所属群体。
在一个实施例中,该模式选择装置还包括:
第一发送单元704,用于向第一电子设备发送获取的模式,模式用于指示第一电子设备的工作模式处于模式。
在一个实施例中,该模式选择装置还包括:
第三获取单元705,用于获取模式包括的信息;
第二发送单元706,用于向第一电子设备发送获取的信息。
在一个实施例中,第三获取单元705,具体用于:
确定声音信号所需获取信息;
从模式包括的信息中获取与信息匹配的信息。
在一个实施例中,确定单元702,具体用于确定声音信号对应的用户;
第二获取单元703,具体用于根据用户与模式的对应关系,获取用户对应的模式。
在一个实施例中,该模式包括语音模式,该模式选择装置还可以包括:
选取单元707,用于从预设的音色信息集合中选取与语音模式对应的音色信息;
第三发送单元708,用于向第一电子设备发送音色信息,音色信息用于指示第一电子设备采用音色信息与用户进行语音交互。
有关上述第一获取单元701、确定单元702、第二获取单元703、第一发送单元704、第三获取单元705、第二发送单元706、选取单元707和第三发送单元708详细的描述可以直接参考上述图2和图6所示的方法实施例中的相关描述直接得到,这里不加赘述。
请参阅图8,图8是本发明实施例公开的另一种模式选择装置的结构示意图。其中,该模式选择装置可以设置于服务器中。如图8所示,该模式选择装置可以包括:存储器801、收发器802及与存储器801和收发器802耦合的处理器803。存储器801用于存储计算机程序,该计算机程序包括程序指令,处理器803用于执行存储器801存储的程序指令,收发器802用于在处理器803的控制下与其他设备进行通信。当处理器803在执行指令时可根据程序指令执行模式选择方法。
其中,处理器803可以是中央处理器(central processing unit,CPU)、通用处理器、数据信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框、模板和电路。处理器803也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合得到。收发器802可以是通信接口、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如区块链节点与终端之间的接口。
可选地,模式选择装置还可以包括总线804,其中,存储器801、收发器802以及处理器803可以通过总线804相互连接。总线804可以是外设部件互联标准(peripheralcomponent interconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。总线804可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
除了图8所示的存储器801、收发器802、处理器803以及上述总线804之外,实施例中模式选择装置通常根据该装置的实际功能,还可以包括其他硬件,对此不再赘述。
本发明实施例还公开了一种存储介质,该存储介质上存储有程序,该程序运行时,实现如图2和图6所示的模式选择方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。

Claims (10)

1.一种模式选择方法,其特征在于,所述方法应用于服务器,包括:
获取声音信号,所述声音信号为第一电子设备采集的声音信号,所述第一电子设备为与所述服务器建立连接的电子设备中的任一电子设备;
确定所述声音信号对应的用户所属群体;
根据群体与模式的对应关系,获取所述群体对应的模式。
2.根据权利要求1所述的方法,其特征在于,所述确定所述声音信号对应的用户所属群体包括:
从所述声音信号中提取声纹特征;
确定所述声纹特征属于所有群体中每个群体的概率;
将所述所有群体中对应的概率最大的群体,确定为所述声音信号对应的用户所属群体。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述第一电子设备发送获取的模式,所述模式用于指示所述第一电子设备的工作模式处于所述模式。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取所述模式包括的信息;
向所述第一电子设备发送获取的信息。
5.根据权利要求4所述的方法,其特征在于,所述获取所述模式包括的信息包括:
确定所述声音信号所需获取信息;
从所述模式包括的信息中获取与所述信息匹配的信息。
6.根据权利要求1所述的方法,其特征在于,所述确定所述声音信号对应的用户所属群体包括:
确定所述声音信号对应的用户;
所述根据群体与模式的对应关系,获取所述群体对应的模式包括:
根据用户与模式的对应关系,获取所述用户对应的模式。
7.根据权利要求6所述的方法,其特征在于,所述模式包括语音模式,所述方法还包括:
从预设的音色信息集合中选取与所述语音模式对应的音色信息;
向所述第一电子设备发送所述音色信息,所述音色信息用于指示所述第一电子设备采用所述音色信息与所述用户进行语音交互。
8.一种模式选择装置,其特征在于,所述装置设置于服务器中,包括:
第一获取单元,用于获取声音信号,所述声音信号为第一电子设备采集的声音信号,所述第一电子设备为与所述服务器建立连接的电子设备中的任一电子设备;
确定单元,用于确定所述声音信号对应的用户所属群体;
第二获取单元,用于根据群体与模式的对应关系,获取所述群体对应的模式。
9.一种模式选择装置,其特征在于,所述装置设置于服务器中,包括处理器和存储器,所述处理器和存储器耦合,其中,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,以使所述模式选择装置实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或计算机指令,当所述计算机程序或所述计算机指令被计算机设备运行时,使得所述计算机设备实现如权利要求1-7任一项所述的方法。
CN201911396275.0A 2019-12-30 2019-12-30 一种模式选择方法、装置及计算机可读存储介质 Pending CN111081249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396275.0A CN111081249A (zh) 2019-12-30 2019-12-30 一种模式选择方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396275.0A CN111081249A (zh) 2019-12-30 2019-12-30 一种模式选择方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111081249A true CN111081249A (zh) 2020-04-28

Family

ID=70319724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396275.0A Pending CN111081249A (zh) 2019-12-30 2019-12-30 一种模式选择方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111081249A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916052A (zh) * 2020-07-30 2020-11-10 北京声智科技有限公司 一种语音合成方法及装置
CN113160832A (zh) * 2021-04-30 2021-07-23 合肥美菱物联科技有限公司 一种支持声纹识别的语音洗衣机智能控制系统及方法
CN113707154A (zh) * 2021-09-03 2021-11-26 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107580237A (zh) * 2017-09-05 2018-01-12 深圳Tcl新技术有限公司 电视的操作方法、装置、系统和存储介质
CN108021622A (zh) * 2017-11-21 2018-05-11 北京金山安全软件有限公司 一种信息确定方法、装置、电子设备及存储介质
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108882032A (zh) * 2018-06-08 2018-11-23 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US20190251975A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Electronic device and method of performing function of electronic device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107580237A (zh) * 2017-09-05 2018-01-12 深圳Tcl新技术有限公司 电视的操作方法、装置、系统和存储介质
CN108021622A (zh) * 2017-11-21 2018-05-11 北京金山安全软件有限公司 一种信息确定方法、装置、电子设备及存储介质
US20190251975A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Electronic device and method of performing function of electronic device
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108882032A (zh) * 2018-06-08 2018-11-23 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916052A (zh) * 2020-07-30 2020-11-10 北京声智科技有限公司 一种语音合成方法及装置
CN111916052B (zh) * 2020-07-30 2021-04-27 北京声智科技有限公司 一种语音合成方法及装置
CN113160832A (zh) * 2021-04-30 2021-07-23 合肥美菱物联科技有限公司 一种支持声纹识别的语音洗衣机智能控制系统及方法
CN113707154A (zh) * 2021-09-03 2021-11-26 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质
CN113707154B (zh) * 2021-09-03 2023-11-10 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN110503976B (zh) 音频分离方法、装置、电子设备及存储介质
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
CN103943104B (zh) 一种语音信息识别的方法及终端设备
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN110459241B (zh) 一种用于语音特征的提取方法和系统
CN112289333A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN111081249A (zh) 一种模式选择方法、装置及计算机可读存储介质
CN104183245A (zh) 一种演唱者音色相似的歌星推荐方法与装置
CN111128213A (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN110931023B (zh) 性别识别方法、系统、移动终端及存储介质
CN110648672A (zh) 人物图像生成方法、交互方法、装置及终端设备
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN113782032B (zh) 一种声纹识别方法及相关装置
WO2017177629A1 (zh) 远讲语音识别方法及装置
CN113314101B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN114302301B (zh) 频响校正方法及相关产品
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
CN110033786B (zh) 性别判断方法、装置、设备及可读存储介质
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN109697985B (zh) 语音信号处理方法、装置及终端
Rosell An introduction to front-end processing and acoustic features for automatic speech recognition
WO2024056078A1 (zh) 视频生成方法、装置和计算机可读存储介质
US11495200B2 (en) Real-time speech to singing conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022554

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination