CN106981289A - 一种识别模型训练方法及系统以及智能终端 - Google Patents
一种识别模型训练方法及系统以及智能终端 Download PDFInfo
- Publication number
- CN106981289A CN106981289A CN201610024588.3A CN201610024588A CN106981289A CN 106981289 A CN106981289 A CN 106981289A CN 201610024588 A CN201610024588 A CN 201610024588A CN 106981289 A CN106981289 A CN 106981289A
- Authority
- CN
- China
- Prior art keywords
- identification
- signal stream
- identification model
- initial
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 61
- 238000000638 solvent extraction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种识别模型训练方法及系统以及智能终端,属于语音识别技术领域;方法为获取初始语音信号流;将初始语音信号流与预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出识别语音流;获取说话人的反馈语音流;根据预设的说话人分割算法和说话人聚类算法,获取反馈语音流关联于说话人的语音信号流;判断所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出;将识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与识别信号流匹配成功的初始识别模型;将识别信号流作为追加的识别信号流的训练样本并依据训练样本对与识别信号流匹配成功的初始识别模型进行更新。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种识别模型训练方法及系统以及智能终端。
背景技术
声纹识别是一种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,因此可以通过建立识别模型来表征不同的个体,进而利用该识别模型识别不同的个体。目前识别模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上。一般而言,声纹训练无法自动识别进行训练,需要人为手动设定,训练过程繁琐,用户体验效果差,且声纹训练的语料越长,建立的特征模型越精确,识别准确率也就越高,但是这种模型建立的方式的实用性不强;相反地,声纹训练语料较短,能保证较好的实用性,但相对而言其训练生成的模型的识别准确率不高。而在实际应用中,例如应用到一些智能设备中进行语音操作的声纹识别时,既要求有较高的识别准确率,又要求训练语料不能太长,从而保证较好的实用性,则以现有技术中的声纹识别模型建立的技术方案难以实现上述目的。
同样地,现有技术中,需要由用户手动多次录入一定时长的训练语料来辅助建立识别模型,因此会给用户较差的体验,不具备较高的实用性;同时,组合起来的训练语料的长度仍然有限,不能生成较精确的特征模型,识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高识别模型精确度,进而提高识别准确率是急需解决的问题。
发明内容
根据现有技术中存在的上述问题,现提供一种识别模型训练方法及系统以及智能终端的技术方案,具体包括:
一种识别模型训练方法,其中,所述方法包括:
获取包含至少一个说话人的初始语音信号流;
将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;
获取所述说话人的反馈语音流;
根据预设的说话人分割算法和说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流;
判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
将所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型;
将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新。
优选的,该识别模型训练方法,其中,所述方法在获取包含至少一个说话人的初始语音信号流之前还包括:
根据预设的所述训练样本建立复数个所述初始识别模型。
优选的,根据所述说话人分割算法与所述说话人聚类算法,分别获取所述反馈语音流关联于所述说话人的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述反馈语音流分割成多个语音分段;
根据所述说话人聚类算法,将多个所述语音分段进行聚类,生成关联于所述说话人的所述语音信号流。
优选的,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
优选的,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
优选的,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
一种识别模型训练系统,其中,包括:获取单元、处理单元、判断单元、第一匹配单元、第二匹配单元以及模型更新单元;
所述获取单元用于获取包含至少一个说话人的初始语音信号流并发送给与所述获取单元连接的所述第一匹配单元;
所述第一匹配单元用于将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;
所述获取单元还用于获取所述说话人的反馈语音流,并发送所述反馈语音流至与所述获取单元连接的所述处理单元;
所述处理单元用于接收所述获取单元发送的所述反馈语音流,并根据预设的说话人分割算法与说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流,并将所述语音信号流发送给与所述处理单元连接的所述判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的所述第二匹配单元;
所述第二匹配单元用于接收所述判断单元发送的关联于所述说话人的所述识别信号流,且将所述识别信号流分别与一预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型,并将匹配成功的所述识别信号流发送给与所述第二匹配单元连接的所述模型更新单元;以及
所述模型更新单元用于接收所述第二匹配单元发送的匹配成功的所述初始识别模型,并将匹配成功的所述识别信号流作为追加的所述识别信号流的训练样本,以对与所述识别信号流匹配成功的所述初始识别模型进行更新。
优选的,还包括:
样本获取单元,用于获取预设的所述训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的所述训练样本并根据预设的所述训练样本建立复数个所述初始识别模型。
优选的,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述反馈语音流分割成多个语音分段,并将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将多个所述语音分段进行聚类,生成关联于所述说话人的语音信号流。
优选的,所述第二匹配单元具体包括:
匹配度获取模块,用于将每个所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
优选的,所述匹配单元具体包括:
匹配度获取模块,用于将每个所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
一种智能终端,其中,采用上述的识别模型训练方法。
一种智能终端,其中,包括上述的识别模型训练系统。
上述技术方案的有益效果是:
1)提供一种识别模型训练方法,能够自动识别说话人的语音信号流,无需用户手动操作即可实现识别模型的训练,操作简单,且同时兼顾应用于一般智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。
2)提供一种识别模型训练系统,能够支持实现上述识别模型训练方法。
附图说明
图1是本发明的实施例一中,一种识别模型训练方法的流程示意图;
图2是本发明的实施例二中,一种识别模型训练方法的流程示意图;
图3是本发明的实施例三中,一种识别模型训练系统的结构示意图;
图4是本发明的实施例四中,识别模型训练系统中的处理单元的结构示意图;
图5是本发明的实施例五中,识别模型训练系统中的匹配单元的结构示意图;
图6是本发明的实施例六中,识别模型训练系统中的模型更新单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取至少一个说话人时的初始语音信号流,根据预设的说话人分割与聚类算法,获取该初始语音信号流中该至少一个说话人中每一个说话人的分别的语音信号流,进而获取与初始识别模型相匹配的语音信号流,并将该匹配的语音信号流作为生成该初始识别模型的追加语音信号流训练样本,以更新该初始识别模型,使得识别模型精确度得到提高,用户体验效果得到提升等。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明第一实施例提供的识别模型训练方法的实现流程,详述如下:
步骤S1,获取包含至少一个说话人的初始语音信号流。
该实施例中,该识别模型训练方法可能用于一处于私人空间的智能终端例如智能机器人,因此该初始语音信号流可以为用户通过该智能终端进行语音聊天或者发出语音指令等产生的语音信号流,也可以为通过录音等方式获取的语音信号流等。具体地,上述识别模型训练方法同样可以应用在一个较为开放的空间内,即初始语音信号流的来源可能为有限的多个,因此有可能会收录到包括多人的初始语音信号流。
步骤S2,将初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出识别语音流;
步骤S3,获取说话人的反馈语音流;
上述反馈语音流可以为再智能终端中设置有是否自动在语音交互的过程中启用声纹学习功能的开关,用户根据需要自行设置;或者在智能终端中设置有声纹学习功能,用户可以自行录制语音信号流。上述反馈语音流通常为音频流。
步骤S4,根据预设的说话人分割算法和说话人聚类算法,获取反馈语音流关联于说话人的语音信号流。
该实施例中,将获得的反馈语音流首先经过说话人分割算法的处理得到多个语音分段;
随后,将同属于同一个说话人相关的语音信息的语音分段进行说话人聚类算法的处理,以得到关联于说话人的语音信号流。
步骤S5,判断所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出。
其中,分别判断每个语音信号流是否能够作为识别对象的语音信号流,其方法可以包括下文中的一种或几种的结合:
1)设定一个标准声音强度,并分别判断每个语音信号流对应的声音强度大于上述标准声音强度:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
2)设定一个标准音频时长,并分别判断每个语音信号流对应的连续时长是否大于上述标准音频时长:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
3)设定一个标准频段,并分别判断每个语音信号流对应的接收频率是否处于该标准频段内:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
4)预先通过声纹匹配设定一个或多个作为训练者的说话人,并根据预先的模糊声纹匹配的方式确定该一个或多个说话人的语音信号流,以作为识别对象的识别信号流。
上述步骤S5能够在进行识别模型的更新之前首先对获取的多个语音信号流进行筛选,排除一些原本就不需要用来作为训练样本的语音信号流,从而保证识别模型训练的训练样本来源的精确性,进一步保证根据识别模型进行声纹识别的准确度。
步骤S6,将识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与识别信号流匹配成功的初始识别模型。
其中,该初始识别模型为根据预设的语音信号流的训练样本预先建立的识别模型,即预先提供关联于预设的语音信号流的多个训练样本,并根据这些训练样本训练形成初始识别模型。该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称语音信号流的训练样本的长短没有要求。此时,可以根据每一个说话人的识别信号流与该初始识别模型的匹配度,来选取匹配成功的识别信号流(下文中会详述)。
步骤S7,将识别信号流作为追加的识别信号流的训练样本,并依据训练样本对与识别信号流匹配成功的初始识别模型进行更新。
具体地,在获取该匹配成功的初始识别模型后,根据该匹配成功的初始识别模型以及预设的识别信号流的训练样本,调用声纹注册算法接口,生成修正识别模型。其中,该预设的训练样本也即为生成上述初始识别模型所使用的训练样本。上述修正识别模型则为更为精确的识别模型,利用该修正识别模型对上述初始识别模型进行更新(也就是将修正识别模型作为初始识别模型进行保存,以替换之前的初始识别模型),能够达到模型自适应与智能化的目的。
本发明的优选的实施例中,对于多个说话人中每个说话人的识别信号流都无法与初始识别模型进行匹配的情况,可以根据用户的预先设置新建识别模型并进行记录。例如,对于首次使用的智能终端,其初始识别模型为空值(null),因此任何新获取的识别信号流都不可能与其进行匹配。此时可以根据用户的设置,识别其中某一个说话人的识别信号流,调用声纹注册算法接口新建识别模型,并将其更新为初始识别模型。
本发明的优选实施例中,通过获取至少一个说话人的初始语音信号流,根据预设的说话人分割与聚类算法,并且经过判断分别获取该初始语音信号流中该每个说话人的识别信号流,进而获取与初始识别模型相匹配的识别信号流,并将匹配的初始识别模型的追加的识别信号流的训练样本,对该初始识别模型进行更新,达到了可以不断地修正、更新识别模型,不断提高识别模型的精确度,用户体验效果得到提升等的目的。
实施例二:
图2示出了本发明第二实施例提供的识别模型训练方法的实现流程,详述如下:
步骤S21,根据预设的训练样本建立复数个初始识别模型。
其中,该初始识别模型为通过调用声纹注册算法接口,根据预设的语音信号流的训练样本建立的识别模型,该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的识别模型,该注册过程对训练语料或称语音信号的流训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等操作,因此该初始识别模型可以为利用现有方法获取的识别模型,也可以为利用本发明实施例的提供的方法进行修正后的识别模型。
步骤S22,获取包含至少一个说话人的初始语音信号流。
具体实施例中,由于用户在说话过程或者多人会话等过程中,一般会出现变化较大的语速、语调、情绪波动等,则通过不断收集通话过程中的语料能够尽量消除用户的各种语调、语速、情绪等因素对于识别模型精确度的偏移,将会大大减少语调、语速、情绪等因素对识别模型精确度的影响,也能够降低对声纹识别准确度的影响。
步骤S23,根据说话人分割算法,将反馈语音流分割成多个语音分段。
步骤S24,根据说话人聚类算法,将多个语音分段进行聚类,生成关联于说话人的语音信号流。
步骤S25,将识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与识别信号流匹配成功的初始识别模型。
该步骤S25具体包括:
将说话人的识别信号流与复数个初始识别模型进行匹配,获取识别信号流与每个初始识别模型的匹配度;
选取符合预设条件的匹配度相关的初始识别模型作为匹配成功的初始识别模型。该预设条件包括:1)相关的匹配度大于一预设的匹配阈值;2)相关的匹配度在所有匹配度中的数值最高。
步骤S26,将识别信号流作为追加的识别信号流的训练样本,并依据训练样本对与识别信号流匹配成功的初始识别模型进行更新。
该步骤S26具体包括:
根据该匹配成功的初始识别模型以及预设的语音信号流的训练样本,生成修正识别模型;预设的语音信号流的训练样本为生成初始识别模型的语音信号流;
更新该初始识别模型为该修正识别模型。
具体地,将识别信号流作为追加的识别信号流的训练样本,也即根据该匹配成功的识别信号流以及预设的语音信号流的训练样本,调用声纹注册算法接口,生成修正识别模型,该修正识别模型为更为精确的识别模型(如上文中),达到了模型自适应与智能化的目的。
进一步地,还可以将更新后的识别模型作为初始识别模型,重复上述步骤,不断地修正、更新识别模型,不断提高识别模型的精确度。
本发明的优选的实施例中,上述初始识别模型可以有多个,对于每个初始识别模型都可以执行上文中的步骤,即通过说话人分割算法及说话人聚类算法获得不同的识别信号流,并根据匹配度选择最匹配的初始识别模型来生成关联于该初始识别模型的修正识别模型,并对该初始识别模型进行更新。上述多个初始识别模型分别对应于不同的说话人,即对应于不同的初始识别模型的匹配度最高的识别信号流可以来源于不同的说话人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,的程序可以存储于一计算机可读取存储介质中,的存储介质,如ROM/RAM、磁盘、光盘等。
实施例三:
图3示出了本发明第三实施例提供的识别模型训练系统的结构,本发明实施例三提供的终端可以用于实施本发明实施例一至二实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例一与实施例二。
该识别模型训练系统可以为应用于私人空间或者半开放空间中并支持语音操作的智能终端,例如智能机器人等,则该实施例中以识别模型训练系统应用于智能机器人中为例,图3示出的是与本发明实施例提供的识别模型训练系统相关的结构框图。
如图3所示,上述识别模型训练系统A具体包括:
获取单元1,用于获取包含至少一个说话人的初始语音信号流并发送给与获取单元1连接的第一匹配单元8;
第一匹配单元8用于将初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出识别语音流;
获取单元1还用于获取说话人的反馈语音流,并发送反馈语音流至与获取单元连接的处理单元2;
处理单元2用于接收获取单元1发送的反馈语音流,并根据预设的说话人分割算法与说话人聚类算法,获取反馈语音流关联于说话人的语音信号流,并将语音信号流发送给与处理单元2连接的判断单元3;
判断单元3用于判断处理单元2发送的所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出至与判断单元3连接的第二匹配单元4;
第二匹配单元4用于接收判断单元3发送的关联于说话人的识别信号流,且将识别信号流分别与一预先形成的复数个初始识别模型进行匹配,获取与识别信号流匹配成功的初始识别模型,并将匹配成功的识别信号流发送给与第二匹配单元4连接的模型更新单元5;以及
模型更新单元5用于接收第二匹配单元4发送的匹配成功的初始识别模型,并将匹配成功的识别信号流作为追加的识别信号流的训练样本,以对与识别信号流匹配成功的初始识别模型进行更新。
该实施例中,上述识别模型训练系统A进一步包括:
样本获取单元6,用于获取预设的训练样本并发送给与样本获取单元连接的模型建立单元7;以及
模型建立单元7用于接收样本获取单元发送的预设的训练样本并根据预设的训练样本建立复数个初始识别模型。
实施例四:
图4示出了本发明第四实施例提供的识别模型训练系统的结构。如图4所示,识别模型训练系统中的处理单元2具体包括:
分割模块21,用于根据预设的说话人分割算法,将反馈语音流分割成多个语音分段,并将所有语音分段发送给与分割模块连接的聚类模块21;以及
聚类模块22用于接收分割模块21发送的语音分段,并根据预设的说话人聚类算法,将多个语音分段进行聚类,生成关联于说话人的语音信号流。
实施例五:
图5示出了本发明第五实施例提供的识别模型训练系统的结构。如图5所示,识别模型训练系统中的第二匹配单元4具体包括:
匹配度获取模块41,用于将每个说话人的识别信号流与复数个初始识别模型进行匹配,获取识别信号流与每个初始识别模型的匹配度,并将所有匹配度发送至与匹配度获取模块连接的信号流获取模块42;以及
信号流获取模块42用于接收匹配度获取模块41发送的所有匹配度,并选取大于预设的匹配阈值的多个匹配度中最高的匹配度所对应初始识别模型。
实施例六:
图6示出了本发明第六实施例提供的识别模型训练系统的结构。如图6所示,识别模型训练系统中的模型更新单元5具体包括:
修正模块51,用于根据匹配成功的初始识别模型以及预设的训练样本,生成修正识别模型并发送至与修正模块连接的更新模块52;以及
更新模块52用于接收修正模块51发送的修正识别模型,并以修正识别模型对初始识别模型进行更新。
需要说明的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种识别模型训练方法,其特征在于,所述方法包括:
获取包含至少一个说话人的初始语音信号流;
将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;
获取所述说话人的反馈语音流;
根据预设的说话人分割算法和说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流;
判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
将所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型;
将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新。
2.如权利要求1所述的识别模型训练方法,其特征在于,所述方法在获取包含至少一个说话人的初始语音信号流之前还包括:
根据预设的所述训练样本建立复数个所述初始识别模型。
3.如权利要求1或2所述的识别模型训练方法,其特征在于,根据所述说话人分割算法与所述说话人聚类算法,分别获取所述反馈语音流关联于所述说话人的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述反馈语音流分割成多个语音分段;
根据所述说话人聚类算法,将多个所述语音分段进行聚类,生成关联于所述说话人的所述语音信号流。
4.如权利要求1或2所述的识别模型训练方法,其特征在于,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
5.如权利要求3所述的识别模型训练方法,其特征在于,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
6.如权利要求1,2和5中任意一项所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
7.如权利要求3所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
8.如权利要求4所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
9.一种识别模型训练系统,其特征在于,包括:获取单元、处理单元、判断单元、第一匹配单元、第二匹配单元以及模型更新单元;
所述获取单元用于获取包含至少一个说话人的初始语音信号流并发送给与所述获取单元连接的所述第一匹配单元;
所述第一匹配单元用于将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;
所述获取单元还用于获取所述说话人的反馈语音流,并发送所述反馈语音流至与所述获取单元连接的所述处理单元;
所述处理单元用于接收所述获取单元发送的所述反馈语音流,并根据预设的说话人分割算法与说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流,并将所述语音信号流发送给与所述处理单元连接的所述判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的所述第二匹配单元;
所述第二匹配单元用于接收所述判断单元发送的关联于所述说话人的所述识别信号流,且将所述识别信号流分别与一预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型,并将匹配成功的所述识别信号流发送给与所述第二匹配单元连接的所述模型更新单元;以及
所述模型更新单元用于接收所述第二匹配单元发送的匹配成功的所述初始识别模型,并将匹配成功的所述识别信号流作为追加的所述识别信号流的训练样本,以对与所述识别信号流匹配成功的所述初始识别模型进行更新。
10.如权利要求9所述的识别模型训练系统,其特征在于,还包括:
样本获取单元,用于获取预设的所述训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的所述训练样本并根据预设的所述训练样本建立复数个所述初始识别模型。
11.如权利要求9或10所述的识别模型训练系统,其特征在于,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述反馈语音流分割成多个语音分段,并将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将多个所述语音分段进行聚类,生成关联于所述说话人的语音信号流。
12.如权利要求9或10所述的识别模型训练系统,其特征在于,所述第二匹配单元具体包括:
匹配度获取模块,用于将每个所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
13.如权利要求11所述的识别模型训练系统,其特征在于,所述匹配单元具体包括:
匹配度获取模块,用于将每个所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。
14.如权利要求9,10和13中任意一项所述的识别模型训练系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
15.如权利要求11所述的识别模型训练系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
16.如权利要求12所述的识别模型训练系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
17.一种智能终端,其特征在于,采用如权利要求1-8所述的识别模型训练方法。
18.一种智能终端,其特征在于,包括如权利要求9-16所述的识别模型训练系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610024588.3A CN106981289A (zh) | 2016-01-14 | 2016-01-14 | 一种识别模型训练方法及系统以及智能终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610024588.3A CN106981289A (zh) | 2016-01-14 | 2016-01-14 | 一种识别模型训练方法及系统以及智能终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106981289A true CN106981289A (zh) | 2017-07-25 |
Family
ID=59340033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610024588.3A Pending CN106981289A (zh) | 2016-01-14 | 2016-01-14 | 一种识别模型训练方法及系统以及智能终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106981289A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN109902747A (zh) * | 2019-03-01 | 2019-06-18 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN108364654B (zh) * | 2018-01-30 | 2020-10-13 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN111767793A (zh) * | 2020-05-25 | 2020-10-13 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
WO2021174760A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
CN114579635A (zh) * | 2022-03-04 | 2022-06-03 | 北京三月雨文化传播有限责任公司 | 基于云计算的大数据信息分析处理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102259629A (zh) * | 2011-04-06 | 2011-11-30 | 浙江吉利汽车研究院有限公司 | 车载儿童遗漏提醒装置及其检测方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN102800324A (zh) * | 2012-07-30 | 2012-11-28 | 东莞宇龙通信科技有限公司 | 用于移动终端的音频处理系统和方法 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
-
2016
- 2016-01-14 CN CN201610024588.3A patent/CN106981289A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN102259629A (zh) * | 2011-04-06 | 2011-11-30 | 浙江吉利汽车研究院有限公司 | 车载儿童遗漏提醒装置及其检测方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN102800324A (zh) * | 2012-07-30 | 2012-11-28 | 东莞宇龙通信科技有限公司 | 用于移动终端的音频处理系统和方法 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108039168A (zh) * | 2017-12-12 | 2018-05-15 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108039168B (zh) * | 2017-12-12 | 2020-09-11 | 科大讯飞股份有限公司 | 声学模型优化方法及装置 |
CN108364654B (zh) * | 2018-01-30 | 2020-10-13 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN109902747A (zh) * | 2019-03-01 | 2019-06-18 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
CN109902747B (zh) * | 2019-03-01 | 2023-08-29 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
WO2021174760A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
CN111767793A (zh) * | 2020-05-25 | 2020-10-13 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN114579635A (zh) * | 2022-03-04 | 2022-06-03 | 北京三月雨文化传播有限责任公司 | 基于云计算的大数据信息分析处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106981289A (zh) | 一种识别模型训练方法及系统以及智能终端 | |
Schuller et al. | The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN105869626B (zh) | 一种语速自动调节的方法及终端 | |
CN106887231A (zh) | 一种识别模型更新方法及系统以及智能终端 | |
CN103903627B (zh) | 一种语音数据的传输方法及装置 | |
Chan | Using a test-to-speech synthesizer to generate a reverse Turing test | |
US9984679B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
James et al. | An open source emotional speech corpus for human robot interaction applications | |
JP3588302B2 (ja) | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 | |
CN106228988A (zh) | 一种基于声纹信息的习惯信息匹配方法及装置 | |
KR100321841B1 (ko) | 스피치 애플리케이션의 언어 모델 갱신 방법 | |
AU2016277548A1 (en) | A smart home control method based on emotion recognition and the system thereof | |
CN106463113A (zh) | 在语音辨识中预测发音 | |
JP5507260B2 (ja) | 発話音声プロンプトを作成するシステム及び技法 | |
CN1783213A (zh) | 用于自动语音识别的方法和装置 | |
CN102693725A (zh) | 依赖于文本信息语境的语音识别 | |
KR20070106809A (ko) | 함축적인 화자 적응을 사용하는 음성 인식 시스템 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
DE112022000504T5 (de) | Interaktive Inhaltsausgabe | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
CN110767233A (zh) | 一种语音转换系统及方法 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170725 |