CN106887231A - 一种识别模型更新方法及系统以及智能终端 - Google Patents
一种识别模型更新方法及系统以及智能终端 Download PDFInfo
- Publication number
- CN106887231A CN106887231A CN201510945742.6A CN201510945742A CN106887231A CN 106887231 A CN106887231 A CN 106887231A CN 201510945742 A CN201510945742 A CN 201510945742A CN 106887231 A CN106887231 A CN 106887231A
- Authority
- CN
- China
- Prior art keywords
- signal stream
- identification
- identification model
- initial
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 76
- 230000005236 sound signal Effects 0.000 claims abstract description 68
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000000638 solvent extraction Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种识别模型更新方法及系统以及智能终端,属于语音识别技术领域;方法包括:获取初始语音信号流;根据分割和聚类算法,获取初始语音信号流中分别关联于每个说话人的语音信号流;判断所有语音信号流中是否存在能够作为识别对象的语音信号流并作为识别信号流输出;将每个说话人的识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的识别信号流;将匹配成功的识别信号流作为追加的识别信号流的训练样本,并依据训练样本对初始识别模型进行更新,最终形成多个识别模型,每个识别模型对应于一个说话人。上述技术方案的有益效果是:兼顾应用于智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种识别模型更新方法及系统以及智能终端。
背景技术
声纹识别是一种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,因此可以通过建立识别模型来表征不同的个体,进而利用该识别模型识别不同的个体。目前识别模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上。一般而言,声纹训练的语料越长,建立的特征模型越精确,识别准确率也就越高,但是这种模型建立的方式的实用性不强;相反地,声纹训练语料较短,能保证较好的实用性,但相对而言其训练生成的模型的识别准确率不高。而在实际应用中,例如应用到一些智能设备中进行语音操作的声纹识别时,既要求有较高的识别准确率,又要求训练语料不能太长,从而保证较好的实用性,则以现有技术中的声纹识别模型建立的技术方案难以实现上述目的。
同样地,现有技术中,需要由用户手动多次录入一定时长的训练语料来辅助建立识别模型,因此会给用户较差的体验,不具备较高的实用性;同时,组合起来的训练语料的长度仍然有限,不能生成较精确的特征模型,识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高识别模型精确度,进而提高识别准确率是急需解决的问题。
发明内容
根据现有技术中存在的上述问题,现提供一种识别模型更新方法及系统以及智能终端的技术方案,具体包括:
一种识别模型更新方法,其中,所述方法包括:
获取包含至少一个说话人的初始语音信号流;
根据预设的说话人分割算法和说话人聚类算法,获取所述初始语音信号流中分别关联于每一个所述说话人的所述语音信号流;
判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
将每个所述说话人的所述识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的所述识别信号流;
将匹配成功的所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
优选的,该识别模型更新方法,其中,所述方法在获取包含至少一个说话人的初始语音信号流之前还包括:
根据预设的所述训练样本建立初始识别模型。
优选的,该识别模型更新方法,其中,根据所述说话人分割算法与所述说话人聚类算法,分别获取所述初始语音信号流中的关联于每个所述说话人的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,每个所述语音分段中仅包含同一个所述说话人的语音信息;
根据所述说话人聚类算法,将关联于同一个所述说话人的所述语音分段进行聚类,生成仅关联于同一个所述说话人的所述语音信号流。
优选的,该识别模型更新方法,其中,分别将每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
优选的,该识别模型更新方法,其中,分别将每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
优选的,该识别模型更新方法,其中,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,该识别模型更新方法,其中,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
优选的,该识别模型更新方法,其中,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
一种识别模型更新系统,其中,包括:获取单元、处理单元、匹配单元以及模型更新单元;
获取单元,用于获取包含至少一个说话人的初始语音信号流并发送给与所述获取单元连接的处理单元;
所述处理单元用于接收所述获取单元发送的所述初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取所述初始语音信号流中分别关联于每一个所述说话人的所述语音信号流,并分别将关联于每一个所述说话人的所述语音信号流发送给与所述处理单元连接的判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的匹配单元;
所述匹配单元用于接收所述判断单元发送的分别关联于每一个所述说话人的所述识别信号流,且将每个所述说话人的所述识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的所述识别信号流,并将匹配成功的所述识别信号流发送给与所述匹配单元连接的模型更新单元;以及
所述模型更新单元用于接收所述匹配单元发送的匹配成功的所述识别信号流,并将匹配成功的所述识别信号流作为追加的所述识别信号流的训练样本,以对所述初始识别模型进行更新。
优选的,该识别模型更新系统,其中,还包括:
样本获取单元,用于获取预设的所述训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的所述训练样本并根据预设的所述训练样本建立所述初始识别模型。
优选的,该识别模型更新系统,其中,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,每个所述语音分段中仅包含同一个所述说话人的语音信息,并将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将关联于同一个所述说话人的所述语音分段进行聚类,生成仅关联于同一个所述说话人的语音信号流。
优选的,该识别模型更新系统,其中,所述匹配单元具体包括:
匹配度获取模块,用于分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
优选的,该识别模型更新系统,其中,所述匹配单元具体包括:
匹配度获取模块,用于分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
优选的,该识别模型更新系统,其中,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,该识别模型更新系统,其中,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
优选的,该识别模型更新系统,其中,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
一种智能终端,其中,采用上述的识别模型更新方法。
一种智能终端,其中,包括上述的识别模型更新系统。
上述技术方案的有益效果是:
1)提供一种识别模型更新方法,能够同时兼顾应用于一般智能终端中形成识别模型所需的较好的实用性以及声纹识别所需的准确度。
2)提供一种识别模型更新系统,能够支持实现上述识别模型更新方法。
附图说明
图1是本发明的实施例一中,一种识别模型更新方法的流程示意图;
图2是本发明的实施例二中,一种识别模型更新方法的流程示意图;
图3是本发明的实施例三中,一种识别模型更新系统的结构示意图;
图4是本发明的实施例四中,识别模型更新系统中的处理单元的结构示意图;
图5是本发明的实施例五中,识别模型更新系统中的匹配单元的结构示意图;
图6是本发明的实施例六中,识别模型更新系统中的模型更新单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取至少一个说话人时的初始语音信号流,根据预设的说话人分割与聚类算法,获取该初始语音信号流中该至少一个说话人中每一个说话人的分别的语音信号流,进而获取与初始识别模型相匹配的语音信号流,并将该匹配的语音信号流作为生成该初始识别模型的追加语音信号流训练样本,以更新该初始识别模型,使得识别模型精确度得到提高,用户体验效果得到提升等。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明第一实施例提供的识别模型更新方法的实现流程,详述如下:
步骤S1,获取包含至少一个说话人的初始语音信号流。
该实施例中,该识别模型更新方法可能用于一处于私人空间的智能终端例如智能机器人伤,因此该初始语音信号流可以为用户通过该智能终端进行语音聊天或者发出语音指令等产生的语音信号流,也可以为通过录音等方式获取的语音信号流等。具体地,上述识别模型更新方法同样可以应用在一个较为开放的空间内,即初始语音信号流的来源可能为有限的多个,因此有可能会收录到包括多人的初始语音信号流。同样地,上述初始语音信号流可以为再智能终端中设置有是否自动在语音交互的过程中启用声纹学习功能的开关,用户根据需要自行设置;或者在智能终端中设置有声纹学习功能,用户可以自行录制语音信号流。上述初始语音信号流通常为音频流。
步骤S2,根据预设的说话人分割算法和说话人聚类算法,获取初始语音信号流中分别关联于每一个说话人的语音信号流。
具体地,由于该初始语音信号流中包含有至少一个说话人的语音信号流,则需要根据预设的说话人分割算法,将该初始语音信号流分割成多个语音分段,该多个语音分段中的每一语音分段仅包含其中同一个说话人的语音信息,再接着根据预设的说话人聚类算法,将仅包含同一个说话人的所有语音分段进行聚类,最终生成仅包含同一个说话人语音信息的语音信号流。
换言之,该实施例中,将获得的初始语音信号流首先经过说话人分割算法的处理得到多个语音分段,每个语音分段中仅包括同一个说话人相关的语音信息;
随后,将同属于同一个说话人相关的语音信息的语音分段进行说话人聚类算法的处理,以分别得到关联于每个说话人的语音信号流。
步骤S3,判断所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出。
其中,分别判断每个语音信号流是否能够作为识别对象的语音信号流,其方法可以包括下文中的一种或几种的结合:
1)设定一个标准声音强度,并分别判断每个语音信号流对应的声音强度大于上述标准声音强度:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
2)设定一个标准音频时长,并分别判断每个语音信号流对应的连续时长是否大于上述标准音频时长:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
3)设定一个标准频段,并分别判断每个语音信号流对应的接收频率是否处于该标准频段内:若是,则表示该语音信号流可以作为识别对象的识别信号流,反之则忽略该语音信号流。
4)预先通过声纹匹配设定一个或多个作为训练者的说话人,并根据预先的模糊声纹匹配的方式确定该一个或多个说话人的语音信号流,以作为识别对象的识别信号流。
上述步骤S3能够在进行识别模型的更新之前首先对获取的多个语音信号流进行筛选,排除一些原本就不需要用来作为训练样本的语音信号流,从而保证识别模型更新的训练样本来源的精确性,进一步保证根据识别模型进行声纹识别的准确度。
步骤S4,将每个说话人的识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的识别信号流。
其中,该初始识别模型为根据预设的语音信号流的训练样本预先建立的识别模型,即预先提供关联于预设的语音信号流的多个训练样本,并根据这些训练样本训练形成初始识别模型。该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的特征模型,该注册过程对训练语料或称语音信号流的训练样本的长短没有要求。此时,可以根据每一个说话人的识别信号流与该初始识别模型的匹配度,来选取匹配成功的识别信号流(下文中会详述)。
步骤S5,将匹配成功的识别信号流作为追加的识别信号流的训练样本,并依据训练样本对初始识别模型进行更新,最终形成多个识别模型,每个识别模型对应于一个说话人。
具体地,在获取该匹配成功的识别信号流后,根据该匹配成功的识别信号流以及预设的识别信号流的训练样本,调用声纹注册算法接口,生成修正识别模型。其中,该预设的训练样本也即为生成上述初始识别模型所使用的训练样本。上述修正识别模型则为更为精确的识别模型,利用该修正识别模型对上述初始识别模型进行更新(也就是将修正识别模型作为初始识别模型进行保存,以替换之前的初始识别模型),能够达到模型自适应与智能化的目的。
本发明的优选的实施例中,对于多个说话人中每个说话人的识别信号流都无法与初始识别模型进行匹配的情况,可以根据用户的预先设置新建识别模型并进行记录。例如,对于首次使用的智能终端,其初始识别模型为空值(null),因此任何新获取的识别信号流都不可能与其进行匹配。此时可以根据用户的设置,识别其中某一个说话人的识别信号流,调用声纹注册算法接口新建识别模型,并将其更新为初始识别模型。
本发明的优选实施例中,通过获取至少一个说话人的初始语音信号流,根据预设的说话人分割与聚类算法,并且经过判断分别获取该初始语音信号流中该每个说话人的识别信号流,进而获取与初始识别模型相匹配的识别信号流,并将该匹配的识别信号流作为生成该初始识别模型的追加的识别信号流的训练样本,对该初始识别模型进行更新,达到了可以不断地修正、更新识别模型,不断提高识别模型的精确度,用户体验效果得到提升等的目的。
实施例二:
图2示出了本发明第二实施例提供的识别模型更新方法的实现流程,详述如下:
步骤S21,根据预设的所述训练样本建立初始识别模型。
其中,该初始识别模型为通过调用声纹注册算法接口,根据预设的语音信号流的训练样本建立的识别模型,该初始识别模型为针对某一人或者多人完成的声纹注册过程后形成的识别模型,该注册过程对训练语料或称语音信号的流训练样本的长短没有要求。且因为本发明实施例提供的方法可以实现对修正后的模型继续动态修正等操作,因此该初始识别模型可以为利用现有方法获取的识别模型,也可以为利用本发明实施例的提供的方法进行修正后的识别模型。
步骤S22,获取包含至少一个说话人的初始语音信号流。
具体实施例中,由于用户在说话过程或者多人会话等过程中,一般会出现变化较大的语速、语调、情绪波动等,则通过不断收集通话过程中的语料能够尽量消除用户的各种语调、语速、情绪等因素对于识别模型精确度的偏移,将会大大减少语调、语速、情绪等因素对识别模型精确度的影响,也能够降低对声纹识别准确度的影响。
步骤S23,根据说话人分割算法,将初始语音信号流分割成多个语音分段,每个语音分段中仅包含同一个说话人的语音信息。
步骤S24,根据说话人聚类算法,将关联于同一个说话人的语音分段进行聚类,生成仅关联于同一个说话人的语音信号流。
具体地,假设当前的说话人分别包括A用户、B用户和C用户,在用户同意录音后,可以通过开启录音模块,并录下用户与智能终端进行语音交互时的初始语音信号流。则智能终端基于预设的说话人分割算法,能够将该初始语音信号流分割成多个语音分段,该每一语音分段仅包含其中一个说话人的语音信息。例如,将初始语音信号流分割后,分别获取的语音分段分别为语音分段A、语音分段B、语音分段A、语音分段C、语音分段A以及语音分段C,且语音分段A、语音分段B以及语音分段C分别为分别获取的用户A、B和C说话的不同片段,此后,利用预设的说话人聚类算法,将相同说话人的语音分段进行聚类,生成语音信号流A、语音信号流B、语音信号流C文件,比如语音信号流A包含了用户A所有的语音分段等,从而能够区分不同人的语音信号流,提取出属于同一人的有效语音信号流。其中,该说话人分割算法及说话人聚类算法可以分别为现有的任意一种说话人分割算法及说话人聚类算法,在此不做限定。
在执行上述步骤S24之后,首先判断每个语音信号流是否能够作为识别信号流,保留所有识别信号流并输出。
步骤S25,将每个说话人的识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的识别信号流。
该步骤S25具体包括:
根据每个说话人的识别信号流以及初始识别模型,分别获取每一个说话人的识别信号流与该初始识别模型的匹配度;
选取符合预设条件的匹配度相关的识别信号流作为匹配成功的识别信号流。该预设条件包括:1)相关的匹配度大于一预设的匹配阈值;2)相关的匹配度在所有匹配度中的数值最高。
具体地,调用声纹确认算法接口,分别获取该识别信号流A、识别信号流B以及识别信号流C与该初始识别模型的匹配度A、匹配度B以及匹配度C,匹配度的计算方式可以为:分别将识别信号流A、识别信号流B以及识别信号流C作为初始识别模型的输入值,则获取识别信号流A、识别信号流B、识别信号流C分别与初始识别模型对应的匹配度A、匹配度B以及匹配度C,或称为分别对应的概率A、概率B以及概率C,比如匹配度A表示对应的识别信号流A与初始识别模型的相关度的大小。假设初始识别模型是基于用户A的识别信号流训练样本建立的,则通常情况下匹配度A大于上述预设的匹配阈值,且匹配度B与匹配度C通常情况下应当小于上述预设的匹配阈值,该匹配阈值可以为根据实际测试结果所得,同样可以由用户预先自定义进行设置获得。则此时获取大于预设阈值的匹配度所对应的识别信号流,也即识别信号流A为匹配成功的识别信号流。当特殊情况下,如用户A和用户B的声音很像的情况下,可能大于匹配阈值的识别信号流不止一个,则可以选取匹配值最高的识别信号流(通常情况下仍然可能为识别信号流A)作为匹配成功的识别信号流。
另外,当该初始识别模型为针对多人完成的声纹注册过程后形成的特征模型时,比如针对用户B及C的识别信号流的训练样本建立的,则匹配后获取的识别信号流将很有可能同时包括识别信号流B及识别信号流C两种,从而实现了多人模式的识别模型的匹配。这种情况下,针对上述多人中的每一人分别执行上述步骤。
步骤S26,将匹配成功的识别信号流作为追加的识别信号流的训练样本,并依据训练样本对初始识别模型进行更新,最终形成多个识别模型,每个识别模型对应于一个说话人。
该步骤S26具体包括:
根据该匹配成功的识别信号流以及预设的语音信号流的训练样本,生成修正识别模型;预设的语音信号流的训练样本为生成初始识别模型的语音信号流;
更新该初始识别模型为该修正识别模型。
具体地,将匹配成功的识别信号流作为追加的识别信号流的训练样本,也即根据该匹配成功的识别信号流以及预设的语音信号流的训练样本,调用声纹注册算法接口,生成修正识别模型,该修正识别模型为更为精确的识别模型(如上文中所述),达到了模型自适应与智能化的目的。
进一步地,还可以将更新后的识别模型作为初始识别模型,重复上述步骤,不断地修正、更新识别模型,不断提高识别模型的精确度。
本发明的优选的实施例中,上述初始识别模型可以有多个,对于每个初始识别模型都可以执行上文中所述的步骤,即通过说话人分割算法及说话人聚类算法获得不同的识别信号流,并根据匹配度选择最匹配的识别信号流来生成关联于该初始识别模型的修正识别模型,并对该初始识别模型进行更新。上述多个初始识别模型分别对应于不同的说话人,即对应于不同的初始识别模型的匹配度最高的识别信号流可以来源于不同的说话人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例三:
图3示出了本发明第三实施例提供的识别模型更新系统的结构,本发明实施例三提供的终端可以用于实施本发明实施例一至二实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例一与实施例二。
该识别模型更新系统可以为应用于私人空间或者半开放空间中并支持语音操作的智能终端,例如智能机器人等,则该实施例中以识别模型更新系统应用于智能机器人中为例,图3示出的是与本发明实施例提供的识别模型更新系统相关的结构框图。
如图3所示,上述识别模型更新系统A具体包括:
获取单元1,用于获取包含至少一个说话人的初始语音信号流并发送给与获取单元1连接的处理单元2;
处理单元2用于接收获取单元1发送的初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取初始语音信号流中分别关联于每一个说话人的语音信号流,并分别将关联于每一个说话人的语音信号流发送给与处理单元2连接的判断单元3;
判断单元3用于判断处理单元2发送的所有语音信号流中是否存在能够作为识别对象的语音信号流,并将能够作为识别对象的语音信号流作为识别信号流输出至与判断单元3连接的匹配单元4;
匹配单元4用于接收判断单元3发送的分别关联于每一个说话人的识别信号流,且将每个说话人的识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的识别信号流,并将匹配成功的识别信号流发送给与匹配单元4连接的模型更新单元5;以及
模型更新单元5用于接收匹配单元4发送的匹配成功的识别信号流,并将匹配成功的识别信号流作为追加的识别信号流的训练样本,以对初始识别模型进行更新。
该实施例中,上述识别模型更新系统A进一步包括:
样本获取单元6,用于获取预设的训练样本并发送给与样本获取单元连接的模型建立单元7;以及
模型建立单元7用于接收样本获取单元发送的预设的训练样本并根据预设的训练样本建立初始识别模型。
实施例四:
图4示出了本发明第四实施例提供的识别模型更新系统的结构。如图4所示,识别模型更新系统中的处理单元2具体包括:
分割模块21,用于根据预设的说话人分割算法,将初始语音信号流分割成多个语音分段,每个语音分段中仅包含同一个说话人的语音信息,并将所有语音分段发送给与分割模块连接的聚类模块21;以及
聚类模块22用于接收分割模块21发送的语音分段,并根据预设的说话人聚类算法,将关联于同一个说话人的语音分段进行聚类,生成仅关联于同一个说话人的语音信号流。
实施例五:
图5示出了本发明第四实施例提供的识别模型更新系统的结构。如图5所示,识别模型更新系统中的匹配单元4具体包括:
匹配度获取模块41,用于分别根据每个说话人的识别信号流与初始识别模型进行匹配,获取每个识别信号流与初始识别模型的匹配度,并将所有匹配度发送至与匹配度获取模块连接的信号流获取模块42;以及
信号流获取模块42用于接收匹配度获取模块41发送的所有匹配度,并选取大于预设的匹配阈值的多个匹配度中最高的匹配度所对应的识别信号流作为匹配成功的识别信号流。
实施例六:
图6示出了本发明第六实施例提供的识别模型更新系统的结构。如图6所示,识别模型更新系统中的模型更新单元5具体包括:
修正模块51,用于根据匹配成功的识别信号流以及预设的训练样本,生成修正识别模型并发送至与修正模块连接的更新模块52;以及
更新模块52用于接收修正模块51发送的修正识别模型,并以修正识别模型对初始识别模型进行更新。
需要说明的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种识别模型更新方法,其特征在于,所述方法包括:
获取包含至少一个说话人的初始语音信号流;
根据预设的说话人分割算法和说话人聚类算法,获取所述初始语音信号流中分别关联于每一个所述说话人的所述语音信号流;
判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;
将每个所述说话人的所述识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的所述识别信号流;
将匹配成功的所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对所述初始识别模型进行更新,最终形成多个识别模型,每个所述识别模型对应于一个所述说话人。
2.如权利要求1所述的识别模型更新方法,其特征在于,所述方法在获取包含至少一个说话人的初始语音信号流之前还包括:
根据预设的所述训练样本建立初始识别模型。
3.如权利要求1或2所述的识别模型更新方法,其特征在于,根据所述说话人分割算法与所述说话人聚类算法,分别获取所述初始语音信号流中的关联于每个所述说话人的所述语音信号流的方法具体包括:
根据所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,每个所述语音分段中仅包含同一个所述说话人的语音信息;
根据所述说话人聚类算法,将关联于同一个所述说话人的所述语音分段进行聚类,生成仅关联于同一个所述说话人的所述语音信号流。
4.如权利要求1或2所述的识别模型更新方法,其特征在于,分别将每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
5.如权利要求3所述的识别模型更新方法,其特征在于,分别将每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:
分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度;
选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
6.如权利要求1,2和5中任意一项所述的识别模型更新方法,其特征在于,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
7.如权利要求3所述的识别模型更新方法,其特征在于,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
8.如权利要求4所述的识别模型更新方法,其特征在于,将匹配成功的所述识别信号流作为对所述初始识别模型进行更新的追加的所述识别信号流的所述训练样本,并对所述初始识别模型进行更新的方法具体包括:
根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;
以所述修正识别模型对所述初始识别模型进行更新。
9.一种识别模型更新系统,其特征在于,包括:获取单元、处理单元、匹配单元以及模型更新单元;
获取单元,用于获取包含至少一个说话人的初始语音信号流并发送给与所述获取单元连接的处理单元;
所述处理单元用于接收所述获取单元发送的所述初始语音信号流,并根据预设的说话人分割算法与说话人聚类算法,获取所述初始语音信号流中分别关联于每一个所述说话人的所述语音信号流,并分别将关联于每一个所述说话人的所述语音信号流发送给与所述处理单元连接的判断单元;
所述判断单元用于判断所述处理单元发送的所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出至与所述判断单元连接的匹配单元;
所述匹配单元用于接收所述判断单元发送的分别关联于每一个所述说话人的所述识别信号流,且将每个所述说话人的所述识别信号流分别与一预先形成的初始识别模型进行匹配,获取匹配成功的所述识别信号流,并将匹配成功的所述识别信号流发送给与所述匹配单元连接的模型更新单元;以及
所述模型更新单元用于接收所述匹配单元发送的匹配成功的所述识别信号流,并将匹配成功的所述识别信号流作为追加的所述识别信号流的训练样本,以对所述初始识别模型进行更新。
10.如权利要求9所述的识别模型更新系统,其特征在于,还包括:
样本获取单元,用于获取预设的所述训练样本并发送给与所述样本获取单元连接的模型建立单元;以及
所述模型建立单元用于接收所述样本获取单元发送的预设的所述训练样本并根据预设的所述训练样本建立所述初始识别模型。
11.如权利要求9或10所述的识别模型更新系统,其特征在于,所述处理单元具体包括:
分割模块,用于根据预设的所述说话人分割算法,将所述初始语音信号流分割成多个语音分段,每个所述语音分段中仅包含同一个所述说话人的语音信息,并将所有所述语音分段发送给与所述分割模块连接的聚类模块;以及
所述聚类模块用于接收所述分割模块发送的所述语音分段,并根据预设的所述说话人聚类算法,将关联于同一个所述说话人的所述语音分段进行聚类,生成仅关联于同一个所述说话人的语音信号流。
12.如权利要求9或10所述的识别模型更新系统,其特征在于,所述匹配单元具体包括:
匹配度获取模块,用于分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
13.如权利要求11所述的识别模型更新系统,其特征在于,所述匹配单元具体包括:
匹配度获取模块,用于分别根据每个所述说话人的所述识别信号流与所述初始识别模型进行匹配,获取所述每个所述识别信号流与所述初始识别模型的匹配度,并将所有所述匹配度发送至与所述匹配度获取模块连接的信号流获取模块;以及
所述信号流获取模块用于接收所述匹配度获取模块发送的所有所述匹配度,并选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述识别信号流作为匹配成功的所述识别信号流。
14.如权利要求9,10和13中任意一项所述的识别模型更新系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
15.如权利要求11所述的识别模型更新系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
16.如权利要求12所述的识别模型更新系统,其特征在于,所述模型更新单元具体包括:
修正模块,用于根据匹配成功的所述识别信号流以及预设的训练样本,生成修正识别模型并发送至与所述修正模块连接的更新模块;以及
所述更新模块用于接收所述修正模块发送的所述修正识别模型,并以所述修正识别模型对所述初始识别模型进行更新。
17.一种智能终端,其特征在于,采用如权利要求1-8所述的识别模型更新方法。
18.一种智能终端,其特征在于,包括如权利要求9-16所述的识别模型更新系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510945742.6A CN106887231A (zh) | 2015-12-16 | 2015-12-16 | 一种识别模型更新方法及系统以及智能终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510945742.6A CN106887231A (zh) | 2015-12-16 | 2015-12-16 | 一种识别模型更新方法及系统以及智能终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106887231A true CN106887231A (zh) | 2017-06-23 |
Family
ID=59175664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510945742.6A Pending CN106887231A (zh) | 2015-12-16 | 2015-12-16 | 一种识别模型更新方法及系统以及智能终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106887231A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065026A (zh) * | 2018-09-14 | 2018-12-21 | 海信集团有限公司 | 一种录音控制方法及装置 |
CN109427336A (zh) * | 2017-09-01 | 2019-03-05 | 华为技术有限公司 | 语音对象识别方法及装置 |
CN109902747A (zh) * | 2019-03-01 | 2019-06-18 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
CN111095402A (zh) * | 2017-09-11 | 2020-05-01 | 瑞典爱立信有限公司 | 对用户简档的声控管理 |
CN111508481A (zh) * | 2020-04-24 | 2020-08-07 | 展讯通信(上海)有限公司 | 语音唤醒模型的训练方法、装置、电子设备及存储介质 |
WO2021174760A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102259629A (zh) * | 2011-04-06 | 2011-11-30 | 浙江吉利汽车研究院有限公司 | 车载儿童遗漏提醒装置及其检测方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN102800324A (zh) * | 2012-07-30 | 2012-11-28 | 东莞宇龙通信科技有限公司 | 用于移动终端的音频处理系统和方法 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
-
2015
- 2015-12-16 CN CN201510945742.6A patent/CN106887231A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN102259629A (zh) * | 2011-04-06 | 2011-11-30 | 浙江吉利汽车研究院有限公司 | 车载儿童遗漏提醒装置及其检测方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN102800324A (zh) * | 2012-07-30 | 2012-11-28 | 东莞宇龙通信科技有限公司 | 用于移动终端的音频处理系统和方法 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427336A (zh) * | 2017-09-01 | 2019-03-05 | 华为技术有限公司 | 语音对象识别方法及装置 |
WO2019041871A1 (zh) * | 2017-09-01 | 2019-03-07 | 华为技术有限公司 | 语音对象识别方法及装置 |
CN111095402A (zh) * | 2017-09-11 | 2020-05-01 | 瑞典爱立信有限公司 | 对用户简档的声控管理 |
US11727939B2 (en) | 2017-09-11 | 2023-08-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice-controlled management of user profiles |
CN109065026A (zh) * | 2018-09-14 | 2018-12-21 | 海信集团有限公司 | 一种录音控制方法及装置 |
CN109902747A (zh) * | 2019-03-01 | 2019-06-18 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
CN109902747B (zh) * | 2019-03-01 | 2023-08-29 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
WO2021174760A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
CN111508481A (zh) * | 2020-04-24 | 2020-08-07 | 展讯通信(上海)有限公司 | 语音唤醒模型的训练方法、装置、电子设备及存储介质 |
CN111508481B (zh) * | 2020-04-24 | 2022-11-08 | 展讯通信(上海)有限公司 | 语音唤醒模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schuller et al. | The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates | |
CN106887231A (zh) | 一种识别模型更新方法及系统以及智能终端 | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN105869626B (zh) | 一种语速自动调节的方法及终端 | |
CN106981289A (zh) | 一种识别模型训练方法及系统以及智能终端 | |
KR102509464B1 (ko) | 발언 분류기 | |
CN1783213B (zh) | 用于自动语音识别的方法和装置 | |
CN106409289B (zh) | 语音识别的环境自适应方法、语音识别装置和家用电器 | |
CN103903627A (zh) | 一种语音数据的传输方法及装置 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN110970018A (zh) | 语音识别方法和装置 | |
CN107591150A (zh) | 语音识别方法及装置、计算机装置及计算机可读存储介质 | |
CN101111885A (zh) | 使用抽出的声音数据生成应答声音的声音识别系统 | |
CN109712646A (zh) | 语音播报方法、装置和终端 | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
CN106971734A (zh) | 一种可根据模型的提取频率训练识别模型的方法及系统 | |
CN110298150B (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN106653003A (zh) | 语音识别方法及装置 | |
CN113920996A (zh) | 语音交互的处理方法、装置、电子设备与存储介质 | |
US8600750B2 (en) | Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition) | |
CN108629024A (zh) | 一种基于声音识别的教学考勤方法 | |
CN106971731B (zh) | 一种声纹识别的修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170623 |