CN105895080A - 语音识别模型训练方法、说话人类型识别方法及装置 - Google Patents
语音识别模型训练方法、说话人类型识别方法及装置 Download PDFInfo
- Publication number
- CN105895080A CN105895080A CN201610195561.0A CN201610195561A CN105895080A CN 105895080 A CN105895080 A CN 105895080A CN 201610195561 A CN201610195561 A CN 201610195561A CN 105895080 A CN105895080 A CN 105895080A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- identified
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000000284 extract Substances 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004064 recycling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供一种语音识别模型训练方法、说话人类型识别方法及装置,获取训练语音并提取其声学特征,利用所述声学特征,训练获得用于提取说话人特征的特征识别器;利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,利用说话人类型识别模型中所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。本发明实施实现了用户类型的识别。
Description
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种用于说话人类型识别的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置。
背景技术
随着信息类型的多元化发展,例如影视剧类型的多样化,不同用户对信息类型的需求也不一样,例如儿童、成年和老年对影视剧需求即不一样,成年男和成年女对影视剧需求也不一样。因此针对用户类型推送或者显示不同的信息内容,可以极大提高用户体验。而为了实现针对用户类型推送或者显示不同的信息内容,就需要对用户类型进行区分。
目前的信息播放设备中,例如电视剧、电脑等中都配置有语音识别模块,但是语音识别模块通常只是用于提取语音信号的语言相关信息,识别关键词,并用于信息查找等方面。而并无法实现对用户类型的区分,因此如何提供一种说话人类型识别方案,实现对用户类型的识别,成为本领域技术人员主要解决的技术问题。
发明内容
本发明实施例提供一种语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置,用以解决现有技术中无法实现用户类型识别的计算问题。
本发明实施例提供一种语音识别模型训练方法,包括:
获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;
利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;
利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;
将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
本发明实施例提供一种说话人类型识别方法,包括:
获取待识别语音,并提取所述待识别语音的声学特征;
利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述用户类型对应的目标语音中提取获得;
分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;
将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
本发明实施例提供一种语音识别模型训练装置,包括:
第一提取模块,用于获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;
训练模块,用于利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;
第二提取模块,用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;
模型生成模块,用于将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
本发明实施例提供一种说话人类型识别装置,包括:
第三提取模块,用于获取待识别语音,并提取所述待识别语音的声学特征;
第四提取模块,用于利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型对应的目标语音中提取获得;
匹配度计算模块,用于分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;
识别模块,用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
本发明实施例提供的语音识别模型训练方法、语音识别模型训练装置、说话人类型识别方法及装置,获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,从而在进行说话人类型识别时,利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征,可以提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型,从而实现了用户类型的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音识别模型训练方法一个实施例流程图;
图2为本发明说话人类型识别方法一个实施例流程图;
图3为本发明语音识别模型训练装置一个实施例结构示意图;
图4为本发明说话人类型识别装置一个实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的技术方案适用于语音识别场景中,用于区分不同用户类型,用户类型可以包括成年男、成年女、老人或者儿童,对用户类型的区分可以应用于不同的应用场景中,例如智能电视通过区分用户类型可以向不同用户类型的用户展示不同的影视内容等。
在本发明实施例中,为了实现不同用户类型的区分,首先进行模型训练,获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,从而在进行说话人类型识别时,利用所述说话人类型识别模型中的所述特征识别器结合待识别语音的声音特征,可以提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,匹配度最高的说话人特征对应的用户类型即为所述待识别语音的用户类型,从而实现了用户类型的识别。
下面将结合附图对本发明技术方案进行详细描述。
图1是本发明实施例提供的一种语音识别模型训练方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:获取训练语音并提取所述训练语音的声学特征。
其中,所述训练语音包括不同用户类型的语音。
通常选择大规模的训练语音,一般超过50小时。
不同用户类型可以包括成年男、成年女、老人或者儿童,不同用户类型对应的语音量相同或相近。
对于大量的训练语音,首先提取声学特征,该声学特征可以是MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)特征。
102:利用所述声学特征,训练获得用于提取说话人特征的特征识别器。
其中,不同用户类型对应的说话人特征不同。
其中,所述说话人特征为与文本无关的特征。通过利用声学特征计算获得。因此利用所述声学特征,可以训练用于提取说话人特征的特征识别器。
该说话人特征可以是基频特征,发明人在研究中发现,人声基频一般在140Hz(赫兹)到300Hz之间,通常女性比男性的基频高,儿童比成人基频高,从而可以利用基频特征进行不同用户类型的区分。
当然,为了进一步提高识别准确度,该说话人特征可以是i-Vector(i-向量)特征。i-Vector特征能够反映说话人声学差异,从而可以实现对不同用户类型的区分。
利用训练语音的声学特征可以训练特征识别器,以用于提取说话人特征。在说话人特征为i-Vector特征时,该特征识别器具体即是一个T矩阵。
其中,利用所述声学特征,训练获得用于提取说话人特征的特征识别器可以具体是:
利用所述声学特征可以首先训练获得UBM(Universal BackgroundModel,通用背景模型),再利用UBM,训练获得用于提取说话人特征的特征识别器。
103:利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征。
目标语音可以是在应用环境中采集的目标语音,用于进行训练。
例如应用于电视机中时,每一个用户类型的目标语音可以是利用电视机的麦克风采集获得的每一个用户类型的目标语音。
其中这些目标语音具有一定时长,通常至少为1个小时,以提高识别精确度。
获得目标语音之后,即可以利用步骤102训练获得的特征识别器提取说话人特征。
为了提高识别准确度,每一个用户类型的目标语音可以包括多个,从而具体的可以是利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征,并将提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
104:将不同用户类型对应的说话人特征以及所述特征识别器,作为说话人类型识别模型。
训练获得的特征识别器以及利用特征识别器从目标语音中提取的每一用户类型对应的说话人特征,即作为说话人类型识别模型。
在进行说话人类型识别时,即可以利用所述说话人类型识别模型的特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别所述待识别语音的用户类型。
在本实施例中,通过训练获得的说话人类型识别模型,实现了识别用户类型目的,从而实现对不同用户类型的区分。
在实际应用中,通过识别用户语音,确定用户类型,以可以针对性的向用户推送其用户类型对应的相关信息等。
图2为本发明实施例提供的一种说话人类型识别方法一个实施例的流程图,该方法可以包括以下几个步骤:
201:获取待识别语音,并提取所述待识别语音的声学特征。
在实际应用中,该待识别语音可以是设备采集的用户输入的语音,通过对该待识别语音进行识别,以实现确定所述用户的用户类型的目的。
202:利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征。
其中,所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得。
其中,所述说话人类型识别模型的具体训练过程可以参见图1对应实施例,在此不再赘述。
203:分别计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度。
204:将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
匹配度最高的说话人特征对应的用户类型,即识别为待识别语音的用户类型。
其中,说话人特征为i-Vector特征时,计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度具体可以是:
分别计算所述待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离作为匹配度;其中距离越小,匹配度越大。
计算的待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离具体可以是余弦距离。
从而最小距离对应的用户类型,即识别为所述待识别语音的用户类型。
通过本实施例,实现了用户类型的确定,从而实现了根据语音区分不同用户类型的目的。
图3为本发明实施例提供的一种语音识别模型训练装置一个实施例的结构示意图,该装置可以包括:
第一提取模块301,用于获取训练语音并提取所述训练语音的声学特征。
所述训练语音包括不同用户类型的语音。
不同用户类型可以包括成年男、成年女、老人或者儿童。
对于大量的训练语音,首先提取声学特征,该声学特征可以是MFCC特征。
训练模块302,用于利用所述声学特征,训练获得用于提取说话人特征的特征识别器。
其中,不同用户类型对应的说话人特征不同。
其中,所述说话人特征为与文本无关的特征。通过利用声学特征计算获得。因此利用所述声学特征,可以训练用于提取说话人特征的特征识别器。
该说话人特征可以是基频特征。人声基频一般在140Hz(赫兹)到300Hz之间,通常女性比男性的基频高,儿童比成人基频高,从而可以利用基频特征进行不同用户类型的区分。
当然,为了进一步提高识别准确度,该说话人特征可以是i-Vector特征。i-Vector特征能够反映说话人声学差异,从而可以实现对不同用户类型的区分。
利用训练语音的声学特征可以训练特征识别器,以用于提取说话人特征。在说话人特征为i-Vector特征时,该特征识别器具体即是一个T矩阵。
作为又一个实施例,该训练模块可以包括:
第一训练单元,用于利用所述声学特征,训练获得通用背景模型;
第二训练单元,用于利用所述通用背景模型,训练获得用于提取说话人特征的特征识别器。
第二提取模块303,用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征。
目标语音可以是在应用环境中采集的目标语音,用于进行训练。
例如应用于电视机中时,每一个用户类型的目标语音可以是利用电视机的麦克风采集获得的每一个用户类型的目标语音。
为了提高识别准确度,每一个用户类型的目标语音可以包括多个,因此,作为又一个实施例,所述第二提取模块具体用于利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征,并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
模型生成模块304,用于将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型。
训练获得的特征识别器以及利用特征识别器从目标语音中提取的每一用户类型对应的说话人特征,即作为说话人类型识别模型。
在进行说话人类型识别时,即可以利用所述说话人类型识别模型的特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别所述待识别语音的用户类型。
在本实施例中,通过训练获得的说话人类型识别模型,实现了识别用户类型目的,从而实现对不同用户类型的区分。
在实际应用中,通过识别用户语音,确定用户类型,以可以针对性的向用户推送其用户类型对应的相关信息等。
图4为本发明实施例提供的一种说话人类型识别装置一个实施例的结构示意图,该装置可以包括:
第三提取模块401,用于获取待识别语音,并提取所述待识别语音的声学特征。
在实际应用中,该待识别语音可以是设备采集的用户输入的语音,通过对该待识别语音进行识别,以实现确定所述用户的用户类型的目的。
第四提取模块402,用于利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征。
其中,所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音提取中获得。
其中,所述说话人类型识别模型的具体训练过程可以参见上述实施例中所述,在此不再赘述。
匹配度计算模块403,用于分别计算所述待识别语音的说话人特征与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度。
识别模块404,用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
匹配度最高的说话人特征对应的用户类型,即识别为待识别语音的用户类型。
其中,说话人特征为i-Vector特征时,所述匹配度计算模块具体用于:
分别计算所述待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离作为匹配度;其中距离越小,匹配度越大。
计算待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离具体可以是余弦距离。
从而最小距离对应的用户类型,即识别为所述待识别语音的用户类型。
通过本实施例,实现了用户类型的确定,从而实现了根据语音区分不同用户类型的目的。
在实际应用中,图4所示的说话人类型识别装置可以配置在诸如智能电视、手机、平板电脑等智能电子设备中,实现对用户输入的语音进行用户类型识别,从而针对不同的用户类型,可以推送或显示不同的信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种语音识别模型训练方法,其特征在于,包括:
获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;
利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;
利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;
将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述声学特征,训练获得用于提取说话人特征的特征识别器包括:
利用所述声学特征,训练用于计算i-Vector特征的T矩阵,所述T矩阵为特征识别器,所述i-Vector特征为说话人特征。
3.根据权利要求1所述的方法,其特征在于,利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征包括:
利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征,并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
4.根据权利要求1所述的方法,其特征在于,所述利用所述声学特征,训练获得用于提取说话人特征的特征识别器包括:
利用所述声学特征,训练获得通用背景模型;
利用所述通用背景模型,训练获得用于提取说话人特征的特征识别器。
5.一种说话人类型识别方法,其特征在于,包括:
获取待识别语音,并提取所述待识别语音的声学特征;
利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得;
分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;
将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
6.根据权利要求5所述的方法,其特征在于,所述说话人特征为i-Vector特征;
所述分别计所述算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度包括:
分别计算所述待识别语音的i-Vector特征,与所述说话人类型识别模型中不同用户类型对应的i-Vector特征的距离作为匹配度;其中距离越小,匹配度越大。
7.一种语音识别模型训练装置,其特征在于,包括:
第一提取模块,用于获取训练语音并提取所述训练语音的声学特征,所述训练语音包括不同用户类型的语音;
训练模块,用于利用所述声学特征,训练获得用于提取说话人特征的特征识别器;其中,不同用户类型对应的说话人特征不同;
第二提取模块,用于利用所述特征识别器从每一个用户类型对应的目标语音中提取说话人特征,作为所述用户类型对应的说话人特征;
模型生成模块,用于将不同用户类型对应的说话人特征以及所述特征提取器,作为说话人类型识别模型,所述说话人类型识别模型用于利用所述特征识别器结合待识别语音的声音特征,提取所述待识别语音的说话人特征,并将所述待识别语音的说话人特征与不同用户类型对应的说话人特征进行匹配,将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块具体用于:
利用所述声学特征,训练用于计算i-Vector特征的T矩阵,所述T矩阵为特征识别器,所述i-Vector特征为说话人特征。
9.根据权利要求7所述的装置,其特征在于,所述第二提取模块具体用于:
利用所述特征识别器从每一个用户类型的多个目标语音中分别提取说话人特征,并提取获得的多个说话人特征的平均值作为所述用户类型对应的说话人特征。
10.根据权利要求7所述的装置,其特征在于,所述训练模块包括:
第一训练单元,用于利用所述声学特征,训练获得通用背景模型;
第二训练单元,用于利用所述通用背景模型,训练获得用于提取说话人特征的特征识别器。
11.一种说话人类型识别装置,其特征在于,包括:
第三提取模块,用于获取待识别语音,并提取所述待识别语音的声学特征;
第四提取模块,用于利用说话人类型识别模型中的特征识别器以及所述声学特征,提取所述待识别语音的说话人特征;所述说话人类型识别模型包括特征识别器以及不同用户类型对应的说话人特征;所述特征识别器利用训练语音的声学特征训练获得;所述不同用户类型对应的说话人特征利用所述特征识别器从所述不同用户类型的目标语音中提取获得;
匹配度计算模块,用于分别计算所述待识别语音的说话人特征,与所述说话人类型识别模型中不同用户类型对应的说话人特征的匹配度;
识别模块,用于将匹配度最高的说话人特征对应的用户类型识别为所述待识别语音的用户类型。
12.根据权利要求11所述的装置,其特征在于,所述说话人特征为i-Vector特征;
所述匹配度计算模块具体用于:
分别计算所述待识别语音的i-Vector特征与所述说话人类型识别模型中不同用户类型的i-Vector特征的距离作为匹配度;其中距离越小,匹配度越大。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610195561.0A CN105895080A (zh) | 2016-03-30 | 2016-03-30 | 语音识别模型训练方法、说话人类型识别方法及装置 |
PCT/CN2016/096986 WO2017166651A1 (zh) | 2016-03-30 | 2016-08-26 | 语音识别模型训练方法、说话人类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610195561.0A CN105895080A (zh) | 2016-03-30 | 2016-03-30 | 语音识别模型训练方法、说话人类型识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105895080A true CN105895080A (zh) | 2016-08-24 |
Family
ID=57014248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610195561.0A Pending CN105895080A (zh) | 2016-03-30 | 2016-03-30 | 语音识别模型训练方法、说话人类型识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105895080A (zh) |
WO (1) | WO2017166651A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166651A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN107610706A (zh) * | 2017-09-13 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 语音搜索结果的处理方法和处理装置 |
CN110288978A (zh) * | 2018-10-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110797034A (zh) * | 2019-09-23 | 2020-02-14 | 重庆特斯联智慧科技股份有限公司 | 一种用于老人及病患照料的自动语音视频识别对讲系统 |
CN111462759A (zh) * | 2020-04-01 | 2020-07-28 | 科大讯飞股份有限公司 | 一种说话人标注方法、装置、设备及存储介质 |
CN111739517A (zh) * | 2020-07-01 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及介质 |
CN112712792A (zh) * | 2019-10-25 | 2021-04-27 | Tcl集团股份有限公司 | 一种方言识别模型的训练方法、可读存储介质及终端设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112825256B (zh) * | 2019-11-20 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 录制语音包功能的引导方法、装置、设备和计算机存储介质 |
CN111243607A (zh) * | 2020-03-26 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 用于生成说话人信息的方法、装置、电子设备和介质 |
CN113370923B (zh) * | 2021-07-23 | 2023-11-03 | 深圳市元征科技股份有限公司 | 一种车辆配置的调整方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310788A (zh) * | 2013-05-23 | 2013-09-18 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8831942B1 (en) * | 2010-03-19 | 2014-09-09 | Narus, Inc. | System and method for pitch based gender identification with suspicious speaker detection |
CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
US9208777B2 (en) * | 2013-01-25 | 2015-12-08 | Microsoft Technology Licensing, Llc | Feature space transformation for personalization using generalized i-vector clustering |
CN103413551B (zh) * | 2013-07-16 | 2015-11-18 | 清华大学 | 基于稀疏降维的说话人识别方法 |
CN103824557B (zh) * | 2014-02-19 | 2016-06-15 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
CN105139857B (zh) * | 2015-09-02 | 2019-03-22 | 中山大学 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
-
2016
- 2016-03-30 CN CN201610195561.0A patent/CN105895080A/zh active Pending
- 2016-08-26 WO PCT/CN2016/096986 patent/WO2017166651A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310788A (zh) * | 2013-05-23 | 2013-09-18 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166651A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN107610706A (zh) * | 2017-09-13 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 语音搜索结果的处理方法和处理装置 |
CN110288978A (zh) * | 2018-10-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110364144A (zh) * | 2018-10-25 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110288978B (zh) * | 2018-10-25 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110364144B (zh) * | 2018-10-25 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110797034A (zh) * | 2019-09-23 | 2020-02-14 | 重庆特斯联智慧科技股份有限公司 | 一种用于老人及病患照料的自动语音视频识别对讲系统 |
CN112712792A (zh) * | 2019-10-25 | 2021-04-27 | Tcl集团股份有限公司 | 一种方言识别模型的训练方法、可读存储介质及终端设备 |
CN111462759A (zh) * | 2020-04-01 | 2020-07-28 | 科大讯飞股份有限公司 | 一种说话人标注方法、装置、设备及存储介质 |
CN111462759B (zh) * | 2020-04-01 | 2024-02-13 | 科大讯飞股份有限公司 | 一种说话人标注方法、装置、设备及存储介质 |
CN111739517A (zh) * | 2020-07-01 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及介质 |
CN111739517B (zh) * | 2020-07-01 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017166651A1 (zh) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105895080A (zh) | 语音识别模型训练方法、说话人类型识别方法及装置 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
CN104036774B (zh) | 藏语方言识别方法及系统 | |
US9542938B2 (en) | Scene recognition method, device and mobile terminal based on ambient sound | |
CN106297773B (zh) | 一种神经网络声学模型训练方法 | |
CN108428446A (zh) | 语音识别方法和装置 | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN108074576A (zh) | 审讯场景下的说话人角色分离方法及系统 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN102637433A (zh) | 识别语音信号中所承载的情感状态的方法和系统 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN111048095A (zh) | 一种语音转写方法、设备及计算机可读存储介质 | |
CN113096647B (zh) | 语音模型训练方法、装置和电子设备 | |
CN108877809A (zh) | 一种说话人语音识别方法及装置 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
CN110600008A (zh) | 语音唤醒的优化方法及系统 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN105679323B (zh) | 一种号码发现方法及系统 | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
CN104952446A (zh) | 基于语音交互的数字楼盘展示系统 | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
CN102831890A (zh) | 一种对文本无关的声纹进行识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |