CN112331191B - 一种基于大数据的语音识别系统及方法 - Google Patents
一种基于大数据的语音识别系统及方法 Download PDFInfo
- Publication number
- CN112331191B CN112331191B CN202110015512.5A CN202110015512A CN112331191B CN 112331191 B CN112331191 B CN 112331191B CN 202110015512 A CN202110015512 A CN 202110015512A CN 112331191 B CN112331191 B CN 112331191B
- Authority
- CN
- China
- Prior art keywords
- voice
- correction
- module
- keywords
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012937 correction Methods 0.000 claims abstract description 225
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 36
- 239000003607 modifier Substances 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于大数据的语音识别系统及方法,所述语音识别系统包括个人语音修正库、辅助修正库设置模块、语音信号采集模块和语音识别结果修正判断模块,所述个人语音修正库用于存储修正字,所述辅助修正库设置模块用于选取个人语音修正库的辅助修正库,所述语音信号采集模块用于采集语音信号,所述语音识别结果修正判断模块通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果。
Description
技术领域
本发明涉及大数据技术领域,具体为一种基于大数据的语音识别系统及方法。
背景技术
随着科技的发展,智能设备逐渐走入人们的生活中。现有的智能设备在用户家中的无线网络连接,智能设备采集到用户的语音信号后,能够根据用户的语音信号执行相应的操作,从而大大丰富了和方便人们的娱乐生活。比如智能音箱,在采集到用户的语音信号后,对语音信号进行识别,从而实现对智能家居设备的控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。但是,现有技术中,常常发生语音信号识别与用户表达含义不一样的情况。
发明内容
本发明的目的在于提供一种基于大数据的语音识别系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的语音识别系统,所述语音识别系统包括个人语音修正库、辅助修正库设置模块、语音信号采集模块和语音识别结果修正判断模块,所述个人语音修正库用于存储修正字,所述辅助修正库设置模块用于选取个人语音修正库的辅助修正库,所述语音信号采集模块用于采集语音信号,所述语音识别结果修正判断模块通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果。
进一步的,所述辅助修正库设置模块包括重合度计算模块和重合度比较模块,所述重合度计算模块用于计算两两个人语音修正库之间的修正字的重合度,所述重合度比较模块将重合度计算模块计算出的重合度与第一重合度阈值进行比较,在重合度大于等于第一重合度阈值时,设置这两个语音修正库互为彼此的辅助修正库;所述语音识别结果修正判断模块包括语音采集间隔计算比较模块、第一相似度计算模块、语音采集时间判断模块、第二相似度计算模块、相似度比较模块、第一处理模块和第二处理模块;所述语音采集间隔计算比较模块将麦克风采集到第一语音信号的时间为第一时间,将麦克风采集到第二语音信号的时间为第二时间,计算第二时间与第一时间之间的间隔时长,并将间隔时长与第一间隔时长阈值进行比较,在间隔时长小于第一间隔时长阈值时,令第一相似度计算模块计算第一语音信号得到的第一语音识别结果与第二语音信号得到的第二语音识别结果之间的相似度为第一相似度,在第一相似度大于第一相似度阈值时,所述语音采集时间判断模块用于判断麦克风采集到第三语音信号时的时间是否与第二时间的间隔时长之间小于第二间隔时长阈值的时间,在小于第二间隔时长阈值的时间,所述第二相似度计算模块计算第一语音信号得到的第一语音识别结果与第三语音信号得到的第二语音识别结果之间的相似度为第二相似度,所述相似度比较模块用于比较第一相似度和第二相似度的大小,在第一相似度与第二相似度不相等时令第一处理模块对语音识别结果进行处理,在第一相似度与第二相似度相等时令第二处理模块对语音识别结果进行处理。
进一步的,所述第一处理模块包括播报询问模块、答复采集模块和肯定答复处理模块,所述播报询问模块用于播报询问第三语音识别结果识别是否正确,所述答复采集模块用于采集关于答复的语音信号,在采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作并令肯定答复处理模块工作,在采集到否定答复时令第二处理模块工作,所述肯定答复处理模块包括第一关键字拆分模块、拆分关键字比较模块和修正字第一存储模块,所述第一关键字拆分模块将第三语音识别结果拆分成多个第一关键字,所述拆分关键字比较模块将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,存在某个第一关键字与第二关键字不相同时,令修正字第一存储模块采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
进一步的,所述第二处理模块包括待比较关键字拆分播报模块、修正语音信号采集模块、待比较关键字搜索模块、修正字修正替换模块、待替换单字拆分模块、组词信号采集模块、单字替换模块、替换关键字替换模块和修正字第二存储模块,所述待比较关键字拆分播报模块将第三语音识别结果拆分成多个待比较关键字,并依次播报待比较关键字,所述修正语音信号采集模块播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号,令待比较关键字搜索模块判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,在个人语音修正库中或者辅助语音修正库存在该待比较关键字时,令所述修正字修正替换模块获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报;在个人语音修正库和辅助语音修正库中都不存在待比较关键字时,所述待替换单字拆分模块将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,令用户按照语音播报的顺序,依次对待替换单字进行组词,所述组词信号采集模块用于采集到组词的语音信号,所述单字替换模块从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,所述替换关键字替换模块将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果,所述修正字第二存储模块采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
一种基于大数据的语音识别方法,所述语音识别方法包括以下步骤:
步骤S1:预先分别为每个家庭用户建立个人语音修正库,所述个人语音修正库用于存储修正字,其中,家庭用户的人数n大于等于二,
步骤S2:智能设备通过麦克风采集语音信号,通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果。
进一步的,所述步骤S1还包括:
当激活智能设备后,获取麦克风采集到的语音信号,根据语音信号获取该语音的声纹特征,为麦克风最先采集到的n种不同的声纹特征建立个人语音修正库。
进一步的,所述步骤S1还包括:
将家庭用户中的个人语音修正库两两进行比较,当某个个人语音修正库与另一个个人语音修正库之间的修正字的重合度大于等于第一重合度阈值时,这两个语音修正库互为彼此的辅助修正库;家庭用户的口音往往比较相似,因此将重合度较高的两个语音修正库互为彼此的辅助修正库,从而达到提高智能设备进行语音识别效率的技术效果;
进一步的,所述步骤S2进一步包括:
当智能设备通过麦克风采集到语音信号时,设麦克风采集到第一语音信号的时间为第一时间,对第一语音信号进行识别并播报第一语音识别结果,
通过麦克风采集到第二语音信号的时间为第二时间,对第二语音信号进行识别并播报第二语音识别结果,计算第二时间与第一时间之间的间隔时长,当间隔时长小于第一间隔时长阈值时,采集第一语音识别结果和第二语音识别结果的相似度为第一相似度,
当第一相似度大于第一相似度阈值时,如果麦克风在第三时间内采集到第三语音信号时,对第三语音信号进行识别并播报第三语音识别结果,其中,第三时间为与第二时间的间隔时长之间小于第二间隔时长阈值的时间,
采集第三语音识别结果与第一语音识别结果的相似度为第二相似度,
如果第一相似度与第二相似度不相等,智能设备播报询问第三语音识别结果识别是否正确,当麦克风采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作,并将第三语音识别结果拆分成多个第一关键字,将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,如果存在某个第一关键字与第二关键字不相同,采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库;比较第一相似度与第二相似度的目的是为了判断用户是否认为播报出的语音识别结果是否正确,当连续采集到用户相似度较大的语音信号时,很有可能说明用户认为播报出的语音识别结果不正确;
当麦克风采集到否定答复或者第一相似度与第二相似度相等时,将第三语音识别结果拆分成多个待比较关键字,智能设备依次播报待比较关键字,
当播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号时,判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,
如果个人语音修正库中或者辅助语音修正库存在待比较关键字时,获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报,其中,个人语音修正库中修正字的优先级高于辅助语音修正库中修正字的优先级。
上述技术方案中,在检测到第三语音识别结果还是与第一语音识别结果相似度较大的情况下,表明智能设备的语音识别结果很有可能不正确,因此对语音识别结果进行拆分比较处理,从而不需要智能设备重复采集语音信号,达到了提高智能设备识别处理语音信号的效率的计数效果;
进一步的,所述步骤S2还包括:
如果个人语音修正库和辅助语音修正库中都不存在待比较关键字,将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,用户按照语音播报的顺序进行组词;
麦克风采集到组词的语音信号后,分别从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果;
并采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
进一步的,当一个关键字有多个修正字时,那么该关键字的修正字之间也互为彼此的修正字。
与现有技术相比,本发明所达到的有益效果是:本发明通过对智能设备连续三次采集到的语音信号进行相似度比较、关键字拆分替换等处理方式,从而提高了智能设备语音识别的准确率和语音识别的识别效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于大数据的语音识别系统的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于大数据的语音识别系统,所述语音识别系统包括个人语音修正库、辅助修正库设置模块、语音信号采集模块和语音识别结果修正判断模块,所述个人语音修正库用于存储修正字,所述辅助修正库设置模块用于选取个人语音修正库的辅助修正库,所述语音信号采集模块用于采集语音信号,所述语音识别结果修正判断模块通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果。
所述辅助修正库设置模块包括重合度计算模块和重合度比较模块,所述重合度计算模块用于计算两两个人语音修正库之间的修正字的重合度,所述重合度比较模块将重合度计算模块计算出的重合度与第一重合度阈值进行比较,在重合度大于等于第一重合度阈值时,设置这两个语音修正库互为彼此的辅助修正库;所述语音识别结果修正判断模块包括语音采集间隔计算比较模块、第一相似度计算模块、语音采集时间判断模块、第二相似度计算模块、相似度比较模块、第一处理模块和第二处理模块;所述语音采集间隔计算比较模块将麦克风采集到第一语音信号的时间为第一时间,将麦克风采集到第二语音信号的时间为第二时间,计算第二时间与第一时间之间的间隔时长,并将间隔时长与第一间隔时长阈值进行比较,在间隔时长小于第一间隔时长阈值时,令第一相似度计算模块计算第一语音信号得到的第一语音识别结果与第二语音信号得到的第二语音识别结果之间的相似度为第一相似度,在第一相似度大于第一相似度阈值时,所述语音采集时间判断模块用于判断麦克风采集到第三语音信号时的时间是否与第二时间的间隔时长之间小于第二间隔时长阈值的时间,在小于第二间隔时长阈值的时间,所述第二相似度计算模块计算第一语音信号得到的第一语音识别结果与第三语音信号得到的第二语音识别结果之间的相似度为第二相似度,所述相似度比较模块用于比较第一相似度和第二相似度的大小,在第一相似度与第二相似度不相等时令第一处理模块对语音识别结果进行处理,在第一相似度与第二相似度相等时令第二处理模块对语音识别结果进行处理。
所述第一处理模块包括播报询问模块、答复采集模块和肯定答复处理模块,所述播报询问模块用于播报询问第三语音识别结果识别是否正确,所述答复采集模块用于采集关于答复的语音信号,在采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作并令肯定答复处理模块工作,在采集到否定答复时令第二处理模块工作,所述肯定答复处理模块包括第一关键字拆分模块、拆分关键字比较模块和修正字第一存储模块,所述第一关键字拆分模块将第三语音识别结果拆分成多个第一关键字,所述拆分关键字比较模块将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,存在某个第一关键字与第二关键字不相同时,令修正字第一存储模块采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
所述第二处理模块包括待比较关键字拆分播报模块、修正语音信号采集模块、待比较关键字搜索模块、修正字修正替换模块、待替换单字拆分模块、组词信号采集模块、单字替换模块、替换关键字替换模块和修正字第二存储模块,所述待比较关键字拆分播报模块将第三语音识别结果拆分成多个待比较关键字,并依次播报待比较关键字,所述修正语音信号采集模块播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号,令待比较关键字搜索模块判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,在个人语音修正库中或者辅助语音修正库存在该待比较关键字时,令所述修正字修正替换模块获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报;在个人语音修正库和辅助语音修正库中都不存在待比较关键字时,所述待替换单字拆分模块将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,令用户按照语音播报的顺序,依次对待替换单字进行组词,所述组词信号采集模块用于采集到组词的语音信号,所述单字替换模块从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,所述替换关键字替换模块将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果,所述修正字第二存储模块采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
一种基于大数据的语音识别方法,所述语音识别方法包括以下步骤:
步骤S1:预先分别为每个家庭用户建立个人语音修正库,所述个人语音修正库用于存储修正字,其中,家庭用户的人数n大于等于二;
当激活智能设备后,获取麦克风采集到的语音信号,根据语音信号获取该语音的声纹特征,为麦克风最先采集到的n种不同的声纹特征建立个人语音修正库;
将家庭用户中的个人语音修正库两两进行比较,当某个个人语音修正库与另一个个人语音修正库之间的修正字的重合度大于等于第一重合度阈值时,这两个语音修正库互为彼此的辅助修正库;在计算重合度时,可以获取先统计其中一个语音修正库内修正字的个数mc以及该个人语音修正库与另一个个人语音修正库的修正字重合的个数mz,mc/mz即为重合度,当其中一个个人语音修正库的重合度大于等于第一重合度阈值时,这两个语音修正库即可以互为彼此的辅助修正库;
当一个关键字有多个修正字时,那么该关键字的修正字之间也互为彼此的修正字。
步骤S2:智能设备通过麦克风采集语音信号,通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果:
当智能设备通过麦克风采集到语音信号时,设麦克风采集到第一语音信号的时间为第一时间,对第一语音信号进行识别并播报第一语音识别结果,
通过麦克风采集到第二语音信号的时间为第二时间,对第二语音信号进行识别并播报第二语音识别结果,计算第二时间与第一时间之间的间隔时长,当间隔时长小于第一间隔时长阈值时,采集第一语音识别结果和第二语音识别结果的相似度为第一相似度,
当第一相似度大于第一相似度阈值时,如果麦克风在第三时间内采集到第三语音信号时,对第三语音信号进行识别并播报第三语音识别结果,其中,第三时间为与第二时间的间隔时长之间小于第二间隔时长阈值的时间,
采集第三语音识别结果与第一语音识别结果的相似度为第二相似度,
如果第一相似度与第二相似度不相等,智能设备播报询问第三语音识别结果识别是否正确,当麦克风采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作,并将第三语音识别结果拆分成多个第一关键字,将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,如果存在某个第一关键字与第二关键字不相同,采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库;
当麦克风采集到否定答复或者第一相似度与第二相似度相等时,将第三语音识别结果拆分成多个待比较关键字,智能设备依次播报待比较关键字,
当播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号时,判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,
如果个人语音修正库中或者辅助语音修正库存在待比较关键字时,获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报,其中,个人语音修正库中修正字的优先级高于辅助语音修正库中修正字的优先级。在选取修正字进行替换时,优先选取个人语音修正库中的修正字进行替换,在个人语音修正库中不包含修正字时,选取辅助语音修正库中的修正字进行替换;如果一个关键字有多个修正字,按照替换次数的从大到小的顺序依次去替换第三语音信号中的待比较关键字;
如果个人语音修正库和辅助语音修正库中都不存在待比较关键字,将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,用户按照语音播报的顺序进行组词;
麦克风采集到组词的语音信号后,分别从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果;
并采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。例如,第三语音识别结果为“设置一个四点的闹钟”,将第三语音识别结果拆分成多个待比较关键字“设置”、“一个”、“四点”、“的”、“闹钟”,智能设备依次播报“设置”、“一个”、“四点”、“的”、“闹钟”,播报相邻的待比较关键字时之间留有第二预设时间段的时长,在本实施例中在播报“四点”时,采集到用户传来的对“四点”进行修正的语音信息,修正的语音信号可以直接为“修正”、“修改”、“修正四点”、“修改四点”均可以理解为对“四点”进行修正的语音信息,如果该用户的个人语音修正库中或者辅助语音修正库中存在 “四点”,且存在有“四点”的修正字为“十点”,直接将“十点”替换为“四点”,智能设备进行播报“设置一个十点的闹钟”,如果采集到用户反馈的修正失败的信号,将“四点”拆分成待替换单字进行处理;
如果该用户的个人语音修正库中或者辅助语音修正库不存在 “四点”时,将“四点”拆分成待替换单字“四”和“点”,智能设备播报“四”时,用户组词“十字架”,将“四”与“十字架”进行读音相似度比较,“四”与“十”的读音相似度较大,选取“十”为替换单字,智能设备播报“点”时,用户组词“点火”,选取“点”为替换单字,将提取的“十”和“点”按照“四点”顺序组成“十点”,将“十点”替换为“设置一个四点的闹钟”得到“设置一个十点的闹钟”,进行语音播报,如果没有采集到用户反馈的修正失败的信号,采集“四点” “十点”互为彼此的修正字,存入该第三语音信号所对应的声纹特征的个人语音修正库,如果没采集到用户反馈的修正失败的信号,智能设备重新进行播报待替换单字,用户重新进行组词。当采集到“错了”“不对”等语音信号即为采集到用户反馈的修正失败的信号。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于大数据的语音识别系统,其特征在于,所述语音识别系统包括个人语音修正库、辅助修正库设置模块、语音信号采集模块和语音识别结果修正判断模块,所述个人语音修正库用于存储修正字,所述辅助修正库设置模块用于选取个人语音修正库的辅助修正库,所述语音信号采集模块用于采集语音信号,所述语音识别结果修正判断模块通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果;
所述辅助修正库设置模块包括重合度计算模块和重合度比较模块,所述重合度计算模块用于计算家庭用户中两两个人语音修正库之间的修正字的重合度,所述重合度比较模块将重合度计算模块计算出的重合度与第一重合度阈值进行比较,在重合度大于等于第一重合度阈值时,设置这两个语音修正库互为彼此的辅助修正库;所述语音识别结果修正判断模块包括语音采集间隔计算比较模块、第一相似度计算模块、语音采集时间判断模块、第二相似度计算模块、相似度比较模块、第一处理模块和第二处理模块;所述语音采集间隔计算比较模块将麦克风采集到第一语音信号的时间为第一时间,将麦克风采集到第二语音信号的时间为第二时间,计算第二时间与第一时间之间的间隔时长,并将间隔时长与第一间隔时长阈值进行比较,在间隔时长小于第一间隔时长阈值时,令第一相似度计算模块计算第一语音信号得到的第一语音识别结果与第二语音信号得到的第二语音识别结果之间的相似度为第一相似度,在第一相似度大于第一相似度阈值时,所述语音采集时间判断模块用于判断麦克风采集到第三语音信号时的时间是否与第二时间的间隔时长之间小于第二间隔时长阈值的时间,在小于第二间隔时长阈值的时间,所述第二相似度计算模块计算第一语音信号得到的第一语音识别结果与第三语音信号得到的第二语音识别结果之间的相似度为第二相似度,所述相似度比较模块用于比较第一相似度和第二相似度的大小,在第一相似度与第二相似度不相等时令第一处理模块对语音识别结果进行处理,在第一相似度与第二相似度相等时令第二处理模块对语音识别结果进行处理。
2.根据权利要求1所述的一种基于大数据的语音识别系统,其特征在于:所述第一处理模块包括播报询问模块、答复采集模块和肯定答复处理模块,所述播报询问模块用于播报询问第三语音识别结果识别是否正确,所述答复采集模块用于采集关于答复的语音信号,在采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作并令肯定答复处理模块工作,在采集到否定答复时令第二处理模块工作,所述肯定答复处理模块包括第一关键字拆分模块、拆分关键字比较模块和修正字第一存储模块,所述第一关键字拆分模块将第三语音识别结果拆分成多个第一关键字,所述拆分关键字比较模块将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,存在某个第一关键字与第二关键字不相同时,令修正字第一存储模块采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
3.根据权利要求2所述的一种基于大数据的语音识别系统,其特征在于:所述第二处理模块包括待比较关键字拆分播报模块、修正语音信号采集模块、待比较关键字搜索模块、修正字修正替换模块、待替换单字拆分模块、组词信号采集模块、单字替换模块、替换关键字替换模块和修正字第二存储模块,所述待比较关键字拆分播报模块将第三语音识别结果拆分成多个待比较关键字,并依次播报待比较关键字,所述修正语音信号采集模块播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号,令待比较关键字搜索模块判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,在个人语音修正库中或者辅助语音修正库存在该待比较关键字时,令所述修正字修正替换模块获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报;在个人语音修正库和辅助语音修正库中都不存在待比较关键字时,所述待替换单字拆分模块将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,令用户按照语音播报的顺序,依次对待替换单字进行组词,所述组词信号采集模块用于采集到组词的语音信号,所述单字替换模块从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,所述替换关键字替换模块将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果,所述修正字第二存储模块采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
4.一种基于大数据的语音识别方法,其特征在于:所述语音识别方法包括以下步骤:
步骤S1:预先分别为每个家庭用户建立个人语音修正库,所述个人语音修正库用于存储修正字,其中,家庭用户的人数n大于等于二,
步骤S2:智能设备通过麦克风采集语音信号,通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果;
所述步骤S1还包括:
当激活智能设备后,获取麦克风采集到的语音信号,根据语音信号获取该语音的声纹特征,为麦克风最先采集到的n种不同的声纹特征建立个人语音修正库;
所述步骤S1还包括:
将家庭用户中的个人语音修正库两两进行比较,当某个个人语音修正库与另一个个人语音修正库之间的修正字的重合度大于等于第一重合度阈值时,这两个语音修正库互为彼此的辅助修正库。
5.根据权利要求4所述的一种基于大数据的语音识别方法,其特征在于:所述步骤S2进一步包括:
当智能设备通过麦克风采集到语音信号时,设麦克风采集到第一语音信号的时间为第一时间,对第一语音信号进行识别并播报第一语音识别结果,
通过麦克风采集到第二语音信号的时间为第二时间,对第二语音信号进行识别并播报第二语音识别结果,计算第二时间与第一时间之间的间隔时长,当间隔时长小于第一间隔时长阈值时,采集第一语音识别结果和第二语音识别结果的相似度为第一相似度,
当第一相似度大于第一相似度阈值时,如果麦克风在第三时间内采集到第三语音信号时,对第三语音信号进行识别并播报第三语音识别结果,其中,第三时间为与第二时间的间隔时长之间小于第二间隔时长阈值的时间,
采集第三语音识别结果与第一语音识别结果的相似度为第二相似度,
如果第一相似度与第二相似度不相等,智能设备播报询问第三语音识别结果识别是否正确,当麦克风采集到肯定答复的语音信号时,智能设备按照第三语音识别结果执行相应的操作,并将第三语音识别结果拆分成多个第一关键字,将每个第一关键字依次与第二语音识别结果中相应位置的第二关键字进行比较,如果存在某个第一关键字与第二关键字不相同,采集第一关键字与第二关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库;
当麦克风采集到否定答复或者第一相似度与第二相似度相等时,将第三语音识别结果拆分成多个待比较关键字,智能设备依次播报待比较关键字,
当播报完一个待比较关键字的预设第二时间段内如果采集到进行修正的语音信号时,判断第三语音信号所对应的该声纹特征的个人语音修正库和辅助语音修正库中是否存在该待比较关键字,
如果个人语音修正库中或者辅助语音修正库存在待比较关键字时,获取个人语音修正库中或者辅助语音修正库中待比较关键字的修正字,依次将修正字替换第三语音信号中的待比较关键字后进行语音播报,其中,个人语音修正库中修正字的优先级高于辅助语音修正库中修正字的优先级。
6.根据权利要求5所述的一种基于大数据的语音识别方法,其特征在于:所述步骤S2还包括:
如果个人语音修正库和辅助语音修正库中都不存在待比较关键字,将待比较关键字依次拆分成多个单字,设拆分成的单字为待替换单字,依次语音播报待替换单字,用户按照语音播报的顺序进行组词;
麦克风采集到组词的语音信号后,分别从组词当中提取与待替换单字相对应的单字为替换单字,将替换单字按照待替换单字在待比较关键字中的顺序进行排序组成替换关键字,将替换关键字替换第三语音识别结果中相应的待比较关键字后,播报替换后的第三语音识别结果;
并采集待比较关键字与替换关键字互为彼此的修正字,并将其存入第三语音信号所对应的声纹特征的个人语音修正库。
7.根据权利要求6所述的一种基于大数据的语音识别方法,其特征在于:当一个关键字有多个修正字时,那么该关键字的修正字之间也互为彼此的修正字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015512.5A CN112331191B (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据的语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015512.5A CN112331191B (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据的语音识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331191A CN112331191A (zh) | 2021-02-05 |
CN112331191B true CN112331191B (zh) | 2021-04-16 |
Family
ID=74301948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110015512.5A Active CN112331191B (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据的语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331191B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658852B (zh) * | 2022-12-28 | 2023-10-24 | 北京百车宝科技有限公司 | 基于知识库的汽车智能问答系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US7200555B1 (en) * | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
JP5542559B2 (ja) * | 2010-07-16 | 2014-07-09 | 三菱電機株式会社 | 音声検索インタフェース装置及び音声入力検索方法 |
CN107305768B (zh) * | 2016-04-20 | 2020-06-12 | 上海交通大学 | 语音交互中的易错字校准方法 |
CN107146607B (zh) * | 2017-04-10 | 2021-06-18 | 北京猎户星空科技有限公司 | 智能设备交互信息的修正方法、装置及系统 |
CN109065054A (zh) * | 2018-08-31 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别纠错方法、装置、电子设备及可读存储介质 |
CN109346069A (zh) * | 2018-09-14 | 2019-02-15 | 北京赋睿智能科技有限公司 | 一种基于人工智能的交互系统及装置 |
-
2021
- 2021-01-07 CN CN202110015512.5A patent/CN112331191B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112331191A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103730115B (zh) | 一种语音中检测关键词的方法和装置 | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN108335695B (zh) | 语音控制方法、装置、计算机设备和存储介质 | |
CN101923854B (zh) | 一种交互式语音识别系统和方法 | |
US9230547B2 (en) | Metadata extraction of non-transcribed video and audio streams | |
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
Barzilay et al. | The rules behind roles: Identifying speaker role in radio broadcasts | |
CN106205609B (zh) | 一种基于音频事件和主题模型的音频场景识别方法及其装置 | |
CN110070857B (zh) | 语音唤醒模型的模型参数调整方法及装置、语音设备 | |
CN105872619A (zh) | 一种视频播放记录的匹配方法及匹配装置 | |
CN107729433B (zh) | 一种音频处理方法及设备 | |
CN112331191B (zh) | 一种基于大数据的语音识别系统及方法 | |
US20180342244A1 (en) | Coordination among multiple voice recognition devices | |
CN109697989B (zh) | 音频数据处理方法、服务器及可读存储介质 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
Temko et al. | Acoustic event detection: SVM-based system and evaluation setup in CLEAR’07 | |
CN111954868A (zh) | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 | |
Lanchantin et al. | The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge | |
Kim et al. | Hybrid speaker-based segmentation system using model-level clustering | |
Nishida et al. | Speaker indexing for news articles, debates and drama in broadcasted tv programs | |
CN114220418A (zh) | 目标说话人的唤醒词识别方法及装置 | |
CN113436625A (zh) | 一种人机交互方法及其相关设备 | |
Liang et al. | Selective pseudo-labeling and class-wise discriminative fusion for sound event detection | |
US20230178096A1 (en) | Audio data identification apparatus | |
EP1256934B1 (en) | Method for adapting speaker-identification data using application speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |