CN106297775B - 语音识别装置及方法 - Google Patents

语音识别装置及方法 Download PDF

Info

Publication number
CN106297775B
CN106297775B CN201510294261.3A CN201510294261A CN106297775B CN 106297775 B CN106297775 B CN 106297775B CN 201510294261 A CN201510294261 A CN 201510294261A CN 106297775 B CN106297775 B CN 106297775B
Authority
CN
China
Prior art keywords
voice
section
database
value
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510294261.3A
Other languages
English (en)
Other versions
CN106297775A (zh
Inventor
林海兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuzhan Precision Technology Co ltd, Hon Hai Precision Industry Co Ltd filed Critical Shenzhen Yuzhan Precision Technology Co ltd
Priority to CN201510294261.3A priority Critical patent/CN106297775B/zh
Publication of CN106297775A publication Critical patent/CN106297775A/zh
Application granted granted Critical
Publication of CN106297775B publication Critical patent/CN106297775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种语音识别装置及方法,该装置包括存储单元及处理单元,该存储单元存储有第一数据库及第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储历史语音数据,该处理单元包括第一训练模块,当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;转移模块,在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;及第二训练模块,在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练。本发明在数据量较少的第一数据库中进行语音训练,减少了语音训练的耗时。

Description

语音识别装置及方法
技术领域
本发明涉及一种语音识别装置及方法。
背景技术
在现有的识别语音发音人的技术中,通常会建立一个用于存储发音人模板语音及对应语音特征值的数据库,从而通过对比发音人语音的特征值与模板语音的特征值识别出发音人的身份。每当用户输入一段新的模板语音时,一般需要在该数据库中进行语音训练,而将该段语音及语音特征值存储于数据库中。然而当数据库中的语音数据量比较大时,执行一次语音训练需要花费大量时间。
发明内容
有鉴于此,有必要提供一种语音识别装置及方法,以解决上述的技术问题。
本发明提供一种语音识别装置,该装置包括一存储单元及一处理单元,该存储单元存储有一第一数据库及一第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储该第一数据库未存储的历史语音数据,该处理单元包括:
第一训练模块,用于当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;
转移模块,用于在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;及
第二训练模块,用于在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练。
本发明还提供一种语音识别方法,该方法应用于一语音识别装置中,该装置包括一存储单元,该存储单元存储有一第一数据库及一第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储该第一数据库未存储的历史语音数据,该方法包括以下步骤:
当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;
在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;及
在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练。
相较于现有技术,本发明的语音识别装置及方法设置有第一数据库及第二数据库,第一数据库用于较少的语音数据,第二数据库用于存储所有历史语音数据,用户输入的待训练语音在数据量较少的第一数据库中进行训练,从而可以减少语音训练所花费的时间。
附图说明
图1为本发明语音识别装置较佳实施方式的应用结构图。
图2为图1所示语音识别装置中的模块的子模块图。
图3为本发明语音识别装置提供的语音训练界面的示意图。
图4为本发明语音识别装置提供的语音识别界面的示意图。
图5为本发明语音识别方法较佳实施方式中语音训练的流程图。
图6为本发明语音识别方法较佳实施方式中语音识别的流程图。
主要元件符号说明
语音识别装置 1
存储单元 10
第一数据库 101
第二数据库 102
处理单元 20
界面提供模块 21
第一训练模块 22
转移模块 23
第二训练模块 24
群组划分模块 25
第一识别模块 26
第二识别模块 27
特征值提取模块 201
相似值获取模块 202
比对模块 203
删除模块 204
输出模块 205
命名模块 206
更新模块 207
显示单元 30
语音输入单元 40
语音训练界面 50
“开始训练”选项 51
语音识别界面 60
“开始识别”选项 61
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参考图1,为本发明语音识别装置1较佳实施方式的应用结构图。该语音识别装置1用于执行语音训练及语音识别,其中,语音识别为对语音的发音人的身份进行识别。在本实施方式中,该语音识别装置1可为个人电脑、智能手机、机器人或云端服务器等具有语音输入及语音处理功能的电子装置,该语音识别装置1可以在装置内部对输入的语音进行语音训练或语音识别。在一实施方式中,该语音识别装置1也可以通过互联网或局域网的方式连接至云端服务器,在云端服务器内进行语音训练或语音识别。在另一实施方式中,该语音识别装置1也可以通过互联网或局域网的方式连接至云端服务器,在云端服务器内进行语音训练,然后将训练的结果回传至该语音识别装置1,使得该语音识别装置1在装置内部进行语音识别。
该语音识别装置1包括一存储单元10、一处理单元20、一显示单元30及一语音输入单元40。该存储单元10存储有一第一数据库101及一第二数据库102,该第一数据库101用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库102用于存储该第一数据库101未存储的历史语音数据,其中,该历史语音数据包括多段语音、每段语音的特征值及各用户的语音特征平均值。在本实施方式中,该第一数据库101存储的语音的数量可为默认数值,例如30段,也可由用户设置为其他数值。其中,每一段语音可为一单独的语音文件或一单独的数据包。
该显示单元30用于显示该语音识别装置1执行语音训练或语音识别的结果。该语音输入单元40用于接收用户输入的语音。
请一并参考图2,该处理单元20包括界面提供模块21、第一训练模块22、转移模块23、第二训练模块24、群组划分模块25、第一识别模块26及第二识别模块27,该处理单元20还包括特征值提取模块201、相似值获取模块202、比对模块203、删除模块204、输出模块205、命名模块206及更新模块207。其中,该些模块201-207为可被模块22-27调用的子模块。在本实施方式中,该些模块为可被该处理单元20调用执行的程序化的软件指令。在其他实施方式中,该些模块也可为固化于该处理单元20中的程序指令或固件(Firmware)。
请参考图3,该界面提供模块21用于响应用户的语音训练请求操作而提供一语音训练界面50,供用户登录后进行语音训练。其中,用户可通过用户名和密码登录该语音训练界面50,在其他实施方式中,用户也可通过脸部识别或指纹识别等方式进行登录。在本实施方式中,该语音训练界面50显示有一“开始训练”选项51,用户可通过点击该选项开始语音训练。在其他实施方式中,该语音识别装置1包括重力感应器(图中未示)及接近感应器(图中未示),在用户登录该语音训练界面50后,通过感应器产生的感应信号确定当该语音识别装置1靠近用户的嘴时,而自动开始语音训练。另外,用户也可通过该语音输入单元40输入“开始训练”的语音而开始语音训练。
该第一训练模块22用于当第一数据库101中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练。具体的,该第一训练模块22通过调用模块201-207而对所有语音进行语音训练。
该特征值提取模块201用于获取登录用户输入的一段语音,将该获取的语音暂存于第一数据库101中,并提取该段新输入的语音的特征值。其中,该段新输入的语音可为用户提前录制的语音,也可为通过该语音输入单元40临时输入的语音。在本实施方式中,用户输入的语音的时长需超过一预设时长,其中,该预设时长为一默认值,例如15秒。关于语音特征值的提取方法为语音识别领域中常见的技术,在此不作详细描述。
该相似值获取模块202用于将该段新输入的语音的特征值分别与第一数据库101中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值。在本实施方式中,语音相似值的默认区间为[-1,1],当语音相似值越接近1,则说明两段语音的相似度越高,当语音相似值越接近-1,则说明两段语音的相似度越低。
该比对模块203用于将该最高语音相似值与一预设的高临界值进行比对。在本实施方式中,该预设的高临界值为用于确定新输入的一段语音是否需要进行训练的临界相似值,由用户设定或系统默认。
该删除模块204用于当该最高语音相似值大于该预设的高临界值时,删除该段新输入的语音。具体的,当最高语音相似值大于该预设的高临界值时,说明在第一数据库101中存储有与该段新输入的语音相似度很高的语音,对该段新输入的语音进行训练不能明显更新该用户的语音特征,故将该段语音删除。
该输出模块205用于输出一该段语音被删除的信息于该显示单元30。
该命名模块206用于当该最高语音相似值小于或等于该预设的高临界值时,命名该段新输入的语音,并将该段命名后的语音存储于第一数据库101中。具体的,当该最高语音相似值小于或等于该预设的高临界值时,说明在第一数据库101中未存储有与该段语音相似度很高的语音,该段语音可以体现该用户的语音特征,故有必要对该段语音进行训练。需要说明的是,当用户设定该预设高临界值为1时,而最高语音相似值必然小于或等于1,表明用户希望新输入的每段语音都要进行训练。
在本实施方式中,该命名模块206对新段输入的语音进行命名的格式为name_n_time,其中,name代表用户登录该语音训练界面50所用的用户名;n代表该段新输入的语音在存储于第一数据库101及第二数据库102中该用户的所有语音中的段数序号。例如,若第一数据库101中已经存储有该用户的两段语音及第二数据库102中已经存储有该用户的三段语音,则该命名模块206确定该段新输入的语音为该用户的第六段语音,则确定n的数值为6,其他依次类推;time代表命名该段新输入的语音并存储至第一数据库101的具体时间。
该更新模块207用于提取该新段输入的语音在内的所有语音的特征值,并重新计算得到各用户的语音特征平均值,将所有语音的特征值及重新计算得到的各用户的语音特征平均值存储于第一数据库101中。
进一步地,该比对模块203还用于将该最高语音相似值与一预设的低临界值进行比对。在本实施方式中,该预设的低临界值为用于确定新输入的一段语音能否被识别成功的临界相似值,由用户设定或系统默认。
该输出模块205还用于当该最高语音相似值大于或等于该预设的低临界值时,输出一该段新输入的语音能被识别的结果及该最高语音相似值于该显示单元30。在本实施方式中,当输出的最高语音相似值较低时,说明该用户的该段新输入的语音虽然能被识别,但是与第一数据库101中存储的语音的相似度较低,表明被识别的准确度并不是很高,该用户需要进行更多的语音训练,以便于该用户以后的待识别语音能更准确地被识别。
该输出模块205还用于当该最高语音相似值小于该预设的低临界值时,输出一该段新输入的语音不能被识别的结果及该最高语音相似值于该显示单元30。在本实施方式中,当该段语音不能被识别成功时,说明该段语音与第一数据库101中存储的语音的相似度很低,表明该用户需要进行更多的语音训练,以便于该用户以后的待识别语音能被识别。
该转移模块23用于在所有语音完成语音训练时,将第一数据库101中最早存储的一段语音转移存储至第二数据库102。在本实施方式中,该第一数据库101最早存储的语音转移存储至第二数据库102指将该第一数据库101最早存储的语音剪切至第二数据库102中,因此,第一数据库101最早存储的语音转移存储至第二数据库102后不再存储于第一数据库101中。
该第二训练模块24用于在该最早存储的一段语音转移存储至第二数据库102时,对第二数据库102中的所有语音进行语音训练。在本实施方式中,该第二训练模块24通过与该第一训练模块22相同的方法对第二数据库102中的所有语音进行语音训练。
进一步地,该处理单元20还包括一群组划分模块25,该群组划分模块25用于将该第一数据库101及第二数据库102中存储的多个用户的语音、每段语音的特征值及各用户的语音特征平均值划分为相同的多个群组,每个群组均包括多个用户的语音、每段语音的特征值及各用户的语音特征平均值。例如,当该第一数据库101包括群组A、群组B及群组C时,该第二数据库也包括群组A、群组B及群组C。在一实施方式中,该群组划分模块25根据每个用户所位于的区域或者部门等因素将该第一数据库101及第二数据库102中存储的多个用户的语音、每段语音的特征值及各用户的语音特征平均值划分至相应的群组。例如,群组A中为位于北京的用户的语音、每段语音的特征值及各用户的语音特征平均值,群组B中为位于南京的用户的语音、每段语音的特征值及各用户的语音特征平均值,等等。
该第一训练模块22还用于当第一数据库101对应的群组中新存储有一段语音时,对该群组中该段新存储的语音在内的所有语音进行语音训练。该转移模块23还用于在该群组中所有语音完成语音训练时,将第一数据库101中最早存储的一段语音转移存储至第二数据库102对应的群组。例如,若该段转移的语音原先存储于第一数据库101的群组A中,转移至第二数据库102后,也存储于第二数据库102的群组A中。该第二训练模块24还用于在该最早存储的一段语音转移存储至第二数据库102对应的群组时,对第二数据库102对应的群组中的所有语音进行语音训练。
具体的,该特征值提取模块201还用于基于登录用户的登录信息确定该段新输入的语音对应的用户在第一数据库101中所属的群组,并将该段新输入的语音暂存于该所属群组中,并提取该段新输入的语音的特征值。在本实施方式中,登录用户的登录信息包括用户名及密码,其中,该特征值提取模块201可根据用户名确定该登录用户所属的群组。该相似值获取模块202还用于将该段新输入的语音的特征值与所属群组中各用户的语音特征平均值进行比对,并从得到的多个语音相似值中选取一最高语音相似值。
该命名模块206还用于当该最高语音相似值小于或等于该预设高临界值时,通过前述的方式命名该段新输入的语音,即将该段新输入的语音以name_n_time的格式进行命名,并将该段语音存储于该所属群组中。该更新模块207还用于提取该所属群组中该段新输入的语音在内的所有语音的特征值,并重新计算得到各用户的语音特征平均值,将所有语音的特征值及重新计算得到的各用户的语音特征平均值存储于第一数据库101对应的群组中。
在本实施方式中,在第一数据库101及第二数据库102中设置群组可汇集相同群体内(例如相同区域或一个公司内的相同部门)多个用户的语音数据,当一用户需要进行语音训练或语音识别时,该用户的待训练语音或待识别语音的特征值只需与该用户所属群组内各用户的语音特征平均值作比对,从而减少语音训练及语音识别所花费的时间。
进一步地,请参考图4,该界面提供模块21还用于响应用户的识别请求操作而提供一语音识别界面60,供用户登录后通过该语音输入单元40输入待识别的语音至该语音识别界面60,从而进行语音识别。在本实施方式中,该语音识别界面60显示有一“开始识别”选项61,用户可通过点击该“开始识别”选项61开始语音识别。在其他实施方式中,用户也可通过该语音输入单元40输入“开始识别”的语音而开始语音识别。
该第一识别模块26用于当第一数据库101对应的群组中新存储有一段待识别语音时,基于第一数据库101中对应的群组对该段待识别语音的发音人的身份进行识别。具体的,该第一识别模块26通过调用特征值提取模块201、相似值获取模块202、比对模块203及输出模块205而对该段待识别语音的发音人的身份进行识别。
该特征值提取模块201用于获取一登录用户输入的一段待识别语音,将该待识别语音暂存于第一数据库101中该用户所属的群组,并提取该段待识别语音的特征值。其中,该段待识别语音为通过该语音输入单元40临时输入的语音。
该相似值获取模块202用于将该段待识别语音的特征值分别与对应群组下各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值。
该比对模块203用于将该最高语音相似值与一预设值进行比对。在本实施方式中,该预设值为待识别语音的发音人的身份能否被识别成功的临界相似值,且为一默认值。
该输出模块205用于当该最高语音相似值大于或等于该预设值时,输出一识别成功的结果及该段待识别语音的发音人的身份于该显示单元30。
该第二识别模块27用于在该段待识别语音的发音人的身份无法被第一识别模块26识别成功时,基于第二数据库102中对应的群组对该段待识别语音的发音人的身份进行识别。在本实施方式中,该第二识别模块27通过调用特征值提取模块201、相似值获取模块202、比对模块203及输出模块205而将该段待识别语音的发音人的身份进行识别。
该特征值提取模块201用于在该段待识别语音的发音人的身份无法被识别成功时,获取该段待识别语音,并基于第二数据库102中对应的群组提取该段待识别语音的特征值。
该相似值获取模块202用于将该段待识别语音的特征值与第二数据库102相同群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值。该比对模块203用于将该最高语音相似值与该预设值进行比对。该输出模块205用于当该最高语音相似值大于或等于该预设值时,输出一识别成功的结果及该段待识别语音的发音人的身份于该显示单元30。该输出模块205还用于当该最高语音相似值小于该预设值时,输出一识别失败的结果于该显示单元30。
在本实施方式中,该语音识别装置1通过上述的方法在装置内部进行语音训练及语音识别。在一实施方式中,该第一数据库101及第二数据库102可存储于云端服务器(图中未示)中,该语音识别装置1可连接至该云端服务器,并在该云端服务器中通过上述的方法进行语音训练或语音识别。此时该云端服务器运行有模块22-27及模块201-206,而该语音识别装置1只需执行语音输入及结果显示的动作。
在另一实施方式中,该语音识别装置1及云端服务器均存储有第一数据库101及第二数据库102,该语音识别装置1可连接至该云端服务器,并在该云端服务器中通过上述的方法进行语音训练,该云端服务器在语音训练完成后将两个数据库中的训练结果(即所有语音的特征值及各用户的语音特征平均值)对应回传至该语音识别装置1的两个数据库中,使得该语音识别装置1可基于回传的训练结果通过上述方法对输入的待识别语音进行语音识别。此时该云端服务器中运行有模块22-25及模块201-204、模块206-207,该语音识别装置1运行有界面提供模块21、第一识别模块26及第二识别模块27,以及特征值提取模块201、相似值获取模块202、比对模块203、输出模块205。
请参考图5,为本发明语音识别方法中语音训练的流程图。
步骤S101,当第一数据库101中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练。
步骤S102,在所有语音完成语音训练时,将第一数据库101中最早存储的一段语音转移存储至第二数据库102。
步骤S103,在该最早存储的一段语音转移存储至第二数据库102时,对第二数据库102中的所有语音进行语音训练。
其中,步骤S101具体包括:获取登录用户输入的一段语音,将该获取的语音暂存于第一数据库101中,并提取该段新输入的语音的特征值;将该段新输入的语音的特征值分别与第一数据库101中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;将该最高语音相似值与一预设的高临界值进行比对;当该最高语音相似值大于该预设的高临界值时,删除该段新输入的语音;输出一该段语音被删除的信息于该显示单元30;当该最高语音相似值小于或等于该预设的高临界值时,命名该段新输入的语音,并将该段命名后的语音存储于第一数据库101中;及提取该段新输入的语音在内的所有语音的特征值,并重新计算得到各用户的语音特征平均值,将所有语音的特征值及重新计算得到的各用户的语音特征平均值存储于第一数据库101中。
进一步地,步骤S101还包括:将该最高语音相似值与一预设的低临界值进行比对;当该最高语音相似值大于或等于该预设的低临界值时,输出一该段新输入的语音能被识别的结果及该最高语音相似值于该显示单元30;当该最高语音相似值小于该预设的低临界值时,输出一该段新输入的语音不能被识别的结果及该最高语音相似值于该显示单元30。
进一步地,该语音识别方法还包括步骤:将该第一数据库101及第二数据库102中存储的多个用户的语音、每段语音的特征值及各用户的语音特征平均值划分为相同的多个群组;当第一数据库101对应的群组中新存储有一段语音时,对该群组中该段新存储的语音在内的所有语音进行语音训练;在该段语音完成语音训练时,将第一数据库101中最早存储的一段语音转移存储至第二数据库102对应的群组;及在该最早存储的一段语音转移存储至第二数据库102对应的群组时,对第二数据库102对应的群组中的所有语音进行语音训练。
请参考图6,为本发明语音识别方法中语音识别的流程图。
步骤S201,当第一数据库101对应的群组中新存储有一段待识别语音时,基于第一数据库101中对应的群组对该段待识别语音的发音人的身份进行识别。
步骤S202,在该段待识别语音的发音人的身份无法被识别成功时,基于第二数据库102中对应的群组对该段待识别语音的发音人的身份进行识别。
其中,步骤S201具体包括:获取一登录用户输入的一段待识别语音,将该待识别语音暂存于第一数据库101中该用户所属的群组,并提取该段待识别语音的特征值;将该段待识别语音的特征值分别与对应群组下各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;将该最高语音相似值与一预设值进行比对;当该最高语音相似值大于或等于该预设值时,输出一识别成功的结果及该段待识别语音的发音人的身份于该显示单元30。
其中,步骤S202具体包括:在该段待识别语音的发音人的身份无法被识别成功时,获取该段待识别语音,并基于第二数据库102中对应的群组提取该段待识别语音的特征值;将该段待识别语音的特征值与该第二数据库102相同群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;将该最高语音相似值与该预设值进行比对;当该最高语音相似值大于或等于该预设值时,输出识别成功的结果及该段待识别语音的发音人的身份于该显示单元30;当该最高语音相似值小于该预设值时,输出一识别失败的结果于该显示单元30。
最后应说明的是,以上实施例仅用以说明本发明的实施方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (12)

1.一种语音识别装置,该装置包括一存储单元及一处理单元,其特征在于:该存储单元存储有一第一数据库及一第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储该第一数据库未存储的历史语音数据,该处理单元包括:
第一训练模块,用于当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;
转移模块,用于在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;
第二训练模块,用于在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练;
群组划分模块,用于将第一数据库及第二数据库中存储的多个用户的语音、每段语音的特征值及各用户的语音特征平均值划分为相同的多个群组;
第一识别模块,用于当第一数据库对应的群组中新存储有一段待识别语音时,基于第一数据库中对应的群组对该段待识别语音的发音人的身份进行识别;及
第二识别模块,用于在该段待识别语音的发音人的身份无法被第一识别模块识别成功时,基于第二数据库中对应的群组对该段待识别语音的发音人的身份进行识别。
2.如权利要求1所述的语音识别装置,其特征在于,该处理单元还包括:
该第一训练模块还用于当第一数据库对应的群组中新存储有一段语音时,对该群组中该段新存储的语音在内的所有语音进行语音训练;
该转移模块还用于在该群组中所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库对应的群组;及
该第二训练模块还用于在该最早存储的一段语音转移存储至第二数据库时,对第二数据库对应的群组中的所有语音进行语音训练。
3.如权利要求1所述的语音识别装置,其特征在于,该语音识别装置还包括一显示单元,该第一训练模块包括:
特征值提取模块,用于获取登录用户输入的一段语音,将该获取的语音暂存于第一数据库中,并提取该段新输入的语音的特征值;
相似值获取模块,用于将该段新输入的语音的特征值与第一数据库中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
比对模块,用于将该最高语音相似值与一预设的高临界值进行比对;
删除模块,用于当该最高语音相似值大于该预设的高临界值时,删除该段新输入的语音;
输出模块,用于输出一该段语音被删除的信息于该显示单元;
命名模块,用于当该最高语音相似值小于或等于该预设高的临界值时,命名该段新输入的语音,并将该段命名后的语音存储于第一数据库中;及
更新模块,用于提取该段新输入的语音在内的所有语音的特征值,并重新计算得到各用户的语音特征平均值,将所有语音的特征值及重新计算得到的各用户的语音特征平均值存储于第一数据库中。
4.如权利要求3所述的语音识别装置,其特征在于:该比对模块还用于将该最高语音相似值与一预设的低临界值进行比对;
该输出模块还用于当该最高语音相似值大于或等于该预设的低临界值时,输出一该段新输入的语音能被识别的结果及该最高语音相似值于该显示单元;及
该输出模块还用于当该最高语音相似值小于该预设的低临界值时,输出一该段新输入的语音不能被识别的结果及该最高语音相似值于该显示单元。
5.如权利要求1所述的语音识别装置,其特征在于,该第一识别模块包括:
特征值提取模块,用于获取一登录用户输入的一段待识别语音,将该待识别语音暂存于第一数据库中该用户所属的群组,并提取该段待识别语音的特征值;
相似值获取模块,用于将该段待识别语音的特征值分别与第一数据库对应群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
比对模块,用于将该最高语音相似值与一预设值进行比对;及
输出模块,用于当该最高语音相似值大于或等于该预设值时,输出一识别成功的结果及该段待识别语音的发音人的身份于显示单元。
6.如权利要求5所述的语音识别装置,其特征在于,该第二识别模块包括:
特征值提取模块,用于在该段待识别语音的发音人的身份无法被识别成功时,获取该段待识别语音,并基于第二数据库中对应的群组提取该段待识别语音的特征值;
相似值获取模块,用于将该段待识别语音的特征值与该第二数据库相同群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
对比模块,用于将该最高语音相似值与该预设值进行比对;
输出模块,用于当该最高语音相似值大于或等于该预设值时,输出识别成功的结果及该段待识别语音的发音人的身份于该显示单元;及
该输出模块还用于当该最高语音相似值小于该预设值时,输出一识别失败的结果于该显示单元。
7.一种语音识别方法,该方法应用于一语音识别装置中,该装置包括一存储单元,其特征在于,该存储单元存储有一第一数据库及一第二数据库,该第一数据库用于存储预设数量段的语音、每段语音的特征值及各用户的语音特征平均值,该第二数据库用于存储该第一数据库未存储的历史语音数据,该方法包括以下步骤:
当第一数据库中新存储有一段语音时,对该段新存储的语音在内的所有语音进行语音训练;
在所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库;
在该最早存储的一段语音转移存储至第二数据库时,对第二数据库中的所有语音进行语音训练;
将第一数据库及第二数据库中存储的多个用户的语音、每段语音的特征值及各用户的语音特征平均值划分为相同的多个群组;
当第一数据库对应的群组中新存储有一段待识别语音时,基于第一数据库中对应的群组对该段待识别语音的发音人的身份进行识别;及
在该段待识别语音的发音人的身份无法被识别成功时,基于第二数据库中对应的群组对该段待识别语音的发音人的身份进行识别。
8.如权利要求7所述的语音识别方法,其特征在于,该方法还包括步骤:
当第一数据库对应的群组中新存储有一段语音时,对该群组中该段新存储的语音在内的所有语音进行语音训练;
在该群组中所有语音完成语音训练时,将第一数据库中最早存储的一段语音转移存储至第二数据库对应的群组;及
在该最早存储的一段语音转移存储至第二数据库时,对第二数据库对应的群组中的所有语音进行语音训练。
9.如权利要求7所述的语音识别方法,其特征在于,该语音识别装置还包括一显示单元,步骤“对该段新存储的语音在内的所有语音进行语音训练”具体包括:
获取登录用户输入的一段语音,并将该获取的语音暂存于第一数据库中,并提取该段新输入的语音的特征值;
将该段新输入的语音的特征值与第一数据库中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
将该最高语音相似值与一预设的高临界值进行比对;
当该最高语音相似值大于该预设的高临界值时,删除该段新输入的语音;
输出一该段语音被删除的信息于该显示单元;
当该最高语音相似值小于或等于该预设高的临界值时,命名该段新输入的语音,并将该段命名后的语音存储于第一数据库中;及
提取该段新输入的语音在内的所有语音的特征值,并重新计算得到各用户的语音特征平均值,将所有语音的特征值及重新计算得到的各用户的语音特征平均值存储于第一数据库中。
10.如权利要求9所述的语音识别方法,其特征在于,步骤“对该段新存储的语音在内的所有语音进行语音训练”还包括:
将该最高语音相似值与一预设的低临界值进行比对;
当该最高语音相似值大于或等于该预设的低临界值时,输出一该段新输入的语音能被识别的结果及该最高语音相似值于该显示单元;及
当该最高语音相似值小于该预设的低临界值时,输出一该段新输入的语音不能被识别的结果及该最高语音相似值于该显示单元。
11.如权利要求7所述的语音识别方法,其特征在于,步骤“基于第一数据库中对应的群组对该段待识别语音的发音人的身份进行识别”具体包括:
获取一登录用户输入的一段待识别语音,将该待识别语音暂存于第一数据库中该用户所属的群组,并提取该段待识别语音的特征值;
将该段待识别语音的特征值分别与第一数据库对应群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
将该最高语音相似值与一预设值进行比对;及
当该最高语音相似值大于或等于该预设值时,输出一识别成功的结果及该段待识别语音的发音人的身份于显示单元。
12.如权利要求11所述的语音识别方法,其特征在于,步骤“基于第二数据库中对应的群组对该段待识别语音的发音人的身份进行识别”具体包括:
在该段待识别语音的发音人的身份无法被识别成功时,获取该段待识别语音,并基于第二数据库中对应的群组提取该段待识别语音的特征值;
将该段待识别语音的特征值与该第二数据库相同群组中各用户的语音特征平均值进行比对,而得到多个语音相似值,并从该多个语音相似值中选取一最高语音相似值;
将该最高语音相似值与该预设值进行比对;
当该最高语音相似值大于或等于该预设值时,输出识别成功的结果及该段待识别语音的发音人的身份于该显示单元;及
当该最高语音相似值小于该预设值时,输出一识别失败的结果于该显示单元。
CN201510294261.3A 2015-06-02 2015-06-02 语音识别装置及方法 Active CN106297775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510294261.3A CN106297775B (zh) 2015-06-02 2015-06-02 语音识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510294261.3A CN106297775B (zh) 2015-06-02 2015-06-02 语音识别装置及方法

Publications (2)

Publication Number Publication Date
CN106297775A CN106297775A (zh) 2017-01-04
CN106297775B true CN106297775B (zh) 2019-11-19

Family

ID=57655448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510294261.3A Active CN106297775B (zh) 2015-06-02 2015-06-02 语音识别装置及方法

Country Status (1)

Country Link
CN (1) CN106297775B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
CN108053822B (zh) * 2017-11-03 2021-01-15 深圳和而泰智能控制股份有限公司 一种语音信号处理方法、装置、终端设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
CN1667701A (zh) * 2004-03-11 2005-09-14 微星科技股份有限公司 语音数据库建立与辨识方法以及系统
WO2014052326A2 (en) * 2012-09-25 2014-04-03 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
CN103956168A (zh) * 2014-03-29 2014-07-30 深圳创维数字技术股份有限公司 一种语音识别方法、装置及终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008058883B4 (de) * 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US9106760B2 (en) * 2012-08-31 2015-08-11 Meng He Recording system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
CN1667701A (zh) * 2004-03-11 2005-09-14 微星科技股份有限公司 语音数据库建立与辨识方法以及系统
WO2014052326A2 (en) * 2012-09-25 2014-04-03 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
CN103956168A (zh) * 2014-03-29 2014-07-30 深圳创维数字技术股份有限公司 一种语音识别方法、装置及终端

Also Published As

Publication number Publication date
CN106297775A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN109767787B (zh) 情绪识别方法、设备及可读存储介质
WO2019024692A1 (zh) 语音输入方法、装置、计算机设备和存储介质
CN103915092B (zh) 语音识别方法和装置
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN104538034A (zh) 一种语音识别方法及系统
CN103632668B (zh) 一种基于中文语音信息训练英文语音模型的方法与设备
TWI579828B (zh) 語音辨識裝置及方法
CN109522397B (zh) 信息处理方法及装置
CN103310790A (zh) 电子装置及语音识别方法
CN104267922A (zh) 一种信息处理方法及电子设备
CN110807093A (zh) 语音处理方法、装置及终端设备
CN110675867A (zh) 智能对话方法、装置、计算机设备及存储介质
CN113129898A (zh) 一种机器辅助的会议记录系统及方法
CN105677636A (zh) 智能问答系统的信息处理方法及信息处理装置
CN106297775B (zh) 语音识别装置及方法
CN111223487B (zh) 一种信息处理方法及电子设备
CN112732893A (zh) 文本信息的提取方法和装置、存储介质和电子设备
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN107610718A (zh) 一种对语音文件内容进行标记的方法及装置
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
JP6567128B1 (ja) 会話支援システムおよび会話支援方法
CN116612759A (zh) 一种语音识别方法及存储介质
CN113099043A (zh) 客户服务的控制方法、装置和计算机可读存储介质
CN104036421A (zh) 基于语音识别电话号码的银行业务申请书生成系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant