CN112466056A - 一种基于语音识别的自助柜取件系统及方法 - Google Patents
一种基于语音识别的自助柜取件系统及方法 Download PDFInfo
- Publication number
- CN112466056A CN112466056A CN202011378780.5A CN202011378780A CN112466056A CN 112466056 A CN112466056 A CN 112466056A CN 202011378780 A CN202011378780 A CN 202011378780A CN 112466056 A CN112466056 A CN 112466056A
- Authority
- CN
- China
- Prior art keywords
- pickup
- voice
- pronunciation
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 53
- 238000001228 spectrum Methods 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 13
- 230000003321 amplification Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 6
- 238000011410 subtraction method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims description 2
- 230000009471 action Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/10—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for means for safe-keeping of property, left temporarily, e.g. by fastening the property
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于语音识别的自助柜取件系统及方法,包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜;所述语音采集模块用于采集取件人的声音信息;所述语音识别模块用于对取件人的声音信息进行内容分析;所述声纹识别模块用于对取件人的声音信息进行判断,确认取件人的身份;所述服务器模块连接云端,云端有取件人的声纹信息以及商家发送给取件人的验证码;所述控制中心模块用于控制取件柜柜门的开启;所述触摸显示屏用于点击输入验证码;所述取件柜用于存放快递。本发明提高了语音识别的准确性,提高了取件的安全性。
Description
技术领域
本发明涉及语音识别技术领域,具体为一种基于语音识别的自助柜取件系统及方法。
背景技术
随着语音通信及语音识别技术的快速发展,已在人们的日常生活和工作中的多个领域得到了广泛的应用,为人们提供了极大的便利,如基于语音识别的自助柜取件系统,取件人读出取件码,利用取件人的语音信息进行身份识别以及对信息的内容进行识别,方便取走快递并且安全性高,但是在取件人读出验证码的时候,若周围环境的噪音较大,会对语音信息的采集造成很大的干扰,导致对取件人的身份认证及语音信息的内容识别不够准确。
所以我们需要一种基于语音识别的自助柜取件系统及方法来解决上述问题。
发明内容
本发明的目的在于提供一种基于语音识别的自助柜取件系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于语音识别的自助柜取件系统,包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜;
所述语音采集模块用于采集取件人的声音信息;
所述语音识别模块用于对取件人的声音信息进行内容分析;
所述声纹识别模块用于对取件人的声音信息进行判断,确认取件人的身份;
所述服务器模块连接云端,云端有取件人的声纹信息以及商家发送给取件人的验证码;
所述控制中心模块用于控制取件柜柜门的开启;
所述触摸显示屏用于点击输入验证码;
所述取件柜用于存放快递。
进一步的,所述语音采集模块包括采集模块、计算模块、放大模块和转换模块;
所述采集模块用于采集当前的模拟语音信号,并进行降噪处理;
所述计算模块用于根据当前的模拟语音信号计算得到模拟语音信号的放大倍率;
所述放大模块用于根据所述放大倍率对当前的模拟语音信号进行放大,得到放大后的模拟语音信号;
所述转换模块用于将放大后的模拟语音信号进行模数转换,得到当前的数字语音信号,为语音识别提供一个良好的信号输入基础,提高语音识别的识别率。
进一步的,所述采集模块包括第一麦克风、第二麦克风;
所述第一麦克风为主麦克风,位于用于获取取件人的语音信息;
所述第二麦克风为辅助麦克风,用于采集周围坏境的噪声;
所述第一麦克风位于第二麦克风前方,并且第一麦克风位于第二麦克风之间设有主板隔离,用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱,得到增强的模拟语音信号,用于隔离第一麦克风和第二麦克风,防止获取的语音信息重复,增强了语音信息的质量。
进一步的,所述语音识别模块包括:
声学模型模块,用于采集取件人的声学信息;
样本模块,用于储存每个取件人的每个数字的声学模型。
一种基于语音识别的自助柜取件方法,包括以下步骤;
S1、快递员将快递放入取件柜,关上柜门后服务器向取件人发送验证码信息,方便取件人直接获得验证码信息,不需要打开购物软件进行查看,简化了取件流程;
S2、取件人点击触摸显示屏上的取件按钮,然后对语音采集模块读出服务器发送的验证码,语音采集模块对取件人的声音进行采集,并进行降噪处理,提高了收取快递的安全性,防止快递被他人代拿;
S3、服务器将降噪处理后的声音信息与云端中储存的声纹信息进行对比,验证取件人的身份信息,若身份验证成功,则进行下一步,若不成功,则取件结束;
S4、对进行降噪处理后的声音信息进行语音识别,读取声音信息中的验证码,并将验证码发送到服务器,与云端中的验证码对比,若与云端中的验证码一致,则验证成功,进行下一步,若与云端中的验证码不一致,则验证失败;
S5、验证成功后,服务器发送信号给控制中心模块,控制中心模块打开取件柜柜门,取件人取走快递后关闭柜门,取件结束,提高了取件的安全性,使得快递的提取更加的方便。
进一步的,所述步骤S1中,降噪处理采用基本谱减法:
所述基本谱减法采用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱,得到的语音信息更加清晰,使后续的语音处理以及判断的精确度得到了极大的提高。
进一步的,所述语音识别是用每个数字的声学模型对取件人的语音信息特征向量进行识别,得到文本信息,即取件人读出的取件码;
对所述每个数字的声学模型进行小波包分解,得到各个子频带的小波包系数,小波包的分解尺度为M;所述子频带的个数为个,设第n个子频带上的小波包系数为,n=1,2,3,4,…n,…N,N=,每个自频带上的小波包系数均为大小为的矩阵;
所述每个取件人的每个数字的声学模型需要进行采集,首先取件人在移动端采集每个数字发音的多个样本,得到每个取件人和每个数字的声学模型,用每个取件人的语音信息形成用于识别取件人的高斯混合模型,用每个数字的语音信息形成用于识别取件人语音识别的隐马尔可夫模型,多个语音样本可以防止云端中的数据不足,导致进行语音识别时不准确;
所述每个数字是从0-9十个数字。
进一步的,对于取件人语音信息的特征向量,将其分解为多个字音序列,用隐马尔可夫模型对每个字音进行语音识别,得到文本信息,将得到的文本信息与云端中的验证码进行对比,完成语音识别,方便得出语音信息中的内容,对文本信息进行判断,将语音信息的特征向量分解为多个字音序列,对单个字音进行识别,提高了语音识别的准确性。
将所述字音序列生成频谱波形图,提取频谱波形图的特征向量,与样本模块中的语音信息的特征向量进行对比,得到字音相似度的清单,根据字音相似度的清单判断字音是否相似;
在对比时:
预先设定好频谱波形图中的特征向量的字音相似度,将字音相似的程度进行数字量化,所述字音相似度设置为0-1之间,相同字音的字音相似度为1,越接近的两个字音之间的相似度越高;所有字音之间的字音相似度定义组成字音似度表;
其次,设立频谱波形图中的特征向量的字音标准度,将字音标准的程度进行数字量化,字音标准度的具体数值是和字音相似度对应的,为0到1之间的数值;具体设置方法如下:
S101、找出取件人所有可能混淆的字音对(m1,n1)、(m2,n2)、……、(mi,ni);
S102、将上述可能混淆的字音对相似度分别定义为Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni);
S103、取件人的字音标准度W为若干可能混淆的字音对相似度的最小值,即:
W=Min[Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)]
S103、在进行语音识别前先根据取件人的发音标准情况确定字音标准度u,将发音标准度u作为语音识别系统的动态调节参数,在对识别到的字音进行模式匹配时,假设与其最接近的字音为m,则所有与m的相似度大于等于u的音字也作为其匹配到的字音来看待;
S104、通过预置的字音相似度矩阵发现共有字音n1、n2、……、ni与m的相似度大于等于u,则最终识别到的字音集合为P=[m,n1,n2,……,ni];
所述字音集合P即为最终得到的文本信息;
所述可能混淆的字音对通过相同韵母部分设置,如(1,7),(4,10)等,将标准的程度作为一个控制参数引入语音识别系统,从而较好地提升对于非标准语音的识别能力,大大提高了语音识别的成功率。
进一步的,所述触摸显示屏可以根据取件人所取的快递类型进行广告推送,增加取件柜的功能性,提高取件环节的广告收入。
进一步的,取件人在取走快递后,若柜门未关闭,服务器发出语音提醒取件人及时关闭柜门,防止取件人在取走快递后忘记关闭柜门,导致取件流程未完成,服务器对于取件有没有结束判断失误。
与现有技术相比,本发明所达到的有益效果是:本发明使用双麦克风降噪,使得到的语音信息更加清晰,使后续的语音处理以及判断的精确度得到了极大的提高,在获取取件人的声学模型时,采用多个样本,多个语音样本可以防止云端中的数据不足,导致进行语音识别时不准确,触摸显示屏可以根据取件人所取的快递类型进行广告推送,增加取件柜的功能性,提高取件环节的广告收入,对取件人语音信息的特征向量分解为多个字音序列识别,可以增加识别的准确度,将字音相似的程度和字音标准的程度进行数字量化,提高了发音不标准的人群进行语音识别的成功率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的一种基于语音识别的自助柜取件系统及方法的流程示意图;
图2是本发明的一种基于语音识别的自助柜取件系统及方法的结模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供技术方案:
本发明的工作原理:
一种基于语音识别的自助柜取件系统,包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜;
所述语音采集模块用于采集取件人的声音信息;
所述语音识别模块用于对取件人的声音信息进行内容分析;
所述声纹识别模块用于对取件人的声音信息进行判断,确认取件人的身份;
所述服务器模块连接云端,云端有取件人的声纹信息以及商家发送给取件人的验证码;
所述控制中心模块用于控制取件柜柜门的开启;
所述触摸显示屏用于点击输入验证码;
所述取件柜用于存放快递。
语音采集模块包括采集模块、计算模块、放大模块和转换模块;
所述采集模块用于采集当前的模拟语音信号,并进行降噪处理;
所述计算模块用于根据当前的模拟语音信号计算得到模拟语音信号的放大倍率;
所述放大模块用于根据所述放大倍率对当前的模拟语音信号进行放大,得到放大后的模拟语音信号;
所述转换模块用于将放大后的模拟语音信号进行模数转换,得到当前的数字语音信号。
所述采集模块包括第一麦克风、第二麦克风;
所述第一麦克风为主麦克风,位于用于获取取件人的语音信息;
所述第二麦克风为辅助麦克风,用于采集周围坏境的噪声;
所述第一麦克风位于第二麦克风前方,并且第一麦克风位于第二麦克风之间设有主板隔离,用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱,得到增强的模拟语音信号。
所述语音识别模块包括:
声学模型模块,用于采集取件人的声学信息;
样本模块,用于储存每个取件人的每个数字的声学模型。
一种基于语音识别的自助柜取件方法,包括以下步骤;
S1、快递员将快递放入取件柜,关上柜门后服务器向取件人发送验证码信息;
S2、取件人点击触摸显示屏上的取件按钮,然后对语音采集模块读出服务器发送的验证码,语音采集模块对取件人的声音进行采集,并进行降噪处理;
S3、服务器将降噪处理后的声音信息与云端中储存的声纹信息进行对比,验证取件人的身份信息,若身份验证成功,则进行下一步,若不成功,则取件结束;
S4、对进行降噪处理后的声音信息进行语音识别,读取声音信息中的验证码,并将验证码发送到服务器,与云端中的验证码对比,若与云端中的验证码一致,则验证成功,进行下一步,若与云端中的验证码不一致,则验证失败;
S5、验证成功后,服务器发送信号给控制中心模块,控制中心模块打开取件柜柜门,取件人取走快递后关闭柜门,取件结束。
步骤S1中,降噪处理采用基本谱减法:
所述基本谱减法采用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱;
根据基本谱减法有信号的加性模型:
对功率谱有:
通过上式可以得到纯净语音的谱估计,根据以下公式得到增强后的语音:
基本谱减法算法较为简单、运算量小,便于实现快速处理,缩短了语音识别的时间,往往能够获得较高的输出信噪比,语音的纯净度更高。
语音识别是用每个数字的声学模型对取件人的语音信息特征向量进行识别,得到文本信息,即取件人读出的取件码;
所述每个取件人的每个数字的声学模型需要进行采集,首先取件人在移动端采集每个数字发音的多个样本,得到每个取件人和每个数字的声学模型,用每个取件人的语音信息形成用于识别取件人的高斯混合模型,用每个数字的语音信息形成用于识别取件人语音识别的隐马尔可夫模型;
所述每个数字是从0-9十个数字。
对于取件人语音信息的特征向量,将其分解为多个字音序列,用隐马尔可夫模型对每个字音进行语音识别,得到文本信息,将得到的文本信息与云端中的验证码进行对比,完成语音识别。
将字音序列生成频谱波形图,提取频谱波形图的特征向量,与样本模块中的语音信息的特征向量进行对比,得到字音相似度的清单,根据字音相似度的清单判断字音是否相似;
在对比时:
预先设定好频谱波形图中的特征向量的字音相似度,将字音相似的程度进行数字量化,字音相似度设置为0-1之间,相同字音的字音相似度为1,越接近的两个字音之间的相似度越高;所有字音之间的字音相似度定义组成字音似度表;
其次,设立频谱波形图中的特征向量的字音标准度,将字音标准的程度进行数字量化,字音标准度的具体数值是和字音相似度对应的,为0到1之间的数值;具体设置方法如下:
S101、找出取件人所有可能混淆的字音对(m1,n1)、(m2,n2)、……、(mi,ni);
S102、将上述可能混淆的字音对相似度分别定义为Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni);
S103、取件人的字音标准度W为若干可能混淆的字音对相似度的最小值,即:
W=Min[Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)]
S103、在进行语音识别前先根据取件人的发音标准情况确定字音标准度u,将发音标准度u作为语音识别系统的动态调节参数,在对识别到的字音进行模式匹配时,假设与其最接近的字音为m,则所有与m的相似度大于等于u的音字也作为其匹配到的字音来看待;
S104、通过预置的字音相似度矩阵发现共有字音n1、n2、……、ni与m的相似度大于等于u,则最终识别到的字音集合为P=[m,n1,n2,……,ni];
字音集合P即为最终得到的文本信息,将文本信息和云端中的验证码进行对比,验证相同则打开柜门进行取件。
所述触摸显示屏可以根据取件人所取的快递类型进行广告推送。
取件人在取走快递后,若柜门未关闭,服务器发出语音提醒取件人及时关闭柜门。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语音识别的自助柜取件系统,其特征在于:包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜;
所述语音采集模块用于采集取件人的声音信息;
所述语音识别模块用于对取件人的声音信息进行内容分析;
所述声纹识别模块用于对取件人的声音信息进行判断,确认取件人的身份;
所述服务器模块连接云端,云端有取件人的声纹信息以及商家发送给取件人的验证码;
所述控制中心模块用于控制取件柜柜门的开启;
所述触摸显示屏用于点击输入验证码;
所述取件柜用于存放快递。
2.根据权利要求1所述的一种基于语音识别的自助柜取件系统,其特征在于:所述语音采集模块包括采集模块、计算模块、放大模块和转换模块;
所述采集模块用于采集当前的模拟语音信号,并进行降噪处理;
所述计算模块用于根据当前的模拟语音信号计算得到模拟语音信号的放大倍率;
所述放大模块用于根据所述放大倍率对当前的模拟语音信号进行放大,得到放大后的模拟语音信号;
所述转换模块用于将放大后的模拟语音信号进行模数转换,得到当前的数字语音信号。
3.根据权利要求2所述的一种基于语音识别的自助柜取件系统,其特征在于:所述采集模块包括第一麦克风、第二麦克风;
所述第一麦克风为主麦克风,位于用于获取取件人的语音信息;
所述第二麦克风为辅助麦克风,用于采集周围坏境的噪声;
所述第一麦克风位于第二麦克风前方,并且第一麦克风位于第二麦克风之间设有主板隔离,用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱,得到增强的模拟语音信号。
4.根据权利要求1所述的一种基于语音识别的自助柜取件系统,其特征在于:所述语音识别模块包括:
声学模型模块,用于采集取件人的声学信息;
样本模块,用于储存每个取件人的每个数字的声学模型。
5.根据权利要求1所述的一种基于语音识别的自助柜取件方法,其特征在于:包括以下步骤;
S1、快递员将快递放入取件柜,关上柜门后服务器向取件人发送验证码信息;
S2、取件人点击触摸显示屏上的取件按钮,然后对语音采集模块读出服务器发送的验证码,语音采集模块对取件人的声音进行采集,并进行降噪处理;
S3、服务器将降噪处理后的声音信息与云端中储存的声纹信息进行对比,验证取件人的身份信息,若身份验证成功,则进行下一步,若不成功,则取件结束;
S4、对进行降噪处理后的声音信息进行语音识别,读取声音信息中的验证码,并将验证码发送到服务器,与云端中的验证码对比,若与云端中的验证码一致,则验证成功,进行下一步,若与云端中的验证码不一致,则验证失败;
S5、验证成功后,服务器发送信号给控制中心模块,控制中心模块打开取件柜柜门,取件人取走快递后关闭柜门,取件结束。
6.根据权利要求5所述的一种基于语音识别的自助柜取件方法,其特征在于:所述步骤S1中,降噪处理采用基本谱减法:
所述基本谱减法采用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱,从而得到纯净语音的频谱。
7.根据权利要求5所述的一种基于语音识别的自助柜取件方法,其特征在于:所述语音识别是用每个数字的声学模型对取件人的语音信息特征向量进行识别,得到文本信息,即取件人读出的取件码;
对所述每个数字的声学模型进行小波包分解,得到各个子频带的小波包系数,小波包的分解尺度为M;所述子频带的个数为个,设第n个子频带上的小波包系数为,n=1,2,3,4,…n,…N,N=,每个自频带上的小波包系数均为大小为的矩阵;
所述每个取件人的每个数字的声学模型需要进行采集,首先取件人在移动端采集每个数字发音的多个样本,得到每个取件人和每个数字的声学模型,用每个取件人的语音信息形成用于识别取件人的高斯混合模型,用每个数字的语音信息形成用于识别取件人语音识别的隐马尔可夫模型;
所述每个数字是从0-9十个数字。
8.根据权利要求7所述的一种基于语音识别的自助柜取件方法,其特征在于:对于取件人语音信息的特征向量,将其分解为多个字音序列,用隐马尔可夫模型对每个字音进行语音识别,得到文本信息,将得到的文本信息与云端中的验证码进行对比,完成语音识别;
将所述字音序列生成频谱波形图,提取频谱波形图的特征向量,与样本模块中的语音信息的特征向量进行对比,得到字音相似度的清单,根据字音相似度的清单判断字音是否相似;
在对比时:
预先设定好频谱波形图中的特征向量的字音相似度,将字音相似的程度进行数字量化,所述字音相似度设置为0-1之间,相同字音的字音相似度为1,越接近的两个字音之间的相似度越高;所有字音之间的字音相似度定义组成字音似度表;
其次,设立频谱波形图中的特征向量的字音标准度,将字音标准的程度进行数字量化,字音标准度的具体数值是和字音相似度对应的,为0到1之间的数值;具体设置方法如下:
S101、找出取件人所有可能混淆的字音对(m1,n1)、(m2,n2)、……、(mi,ni);
S102、将上述可能混淆的字音对相似度分别定义为Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni);
S103、取件人的字音标准度W为若干可能混淆的字音对相似度的最小值,即:
W=Min[Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)]
S103、在进行语音识别前先根据取件人的发音标准情况确定字音标准度u,将发音标准度u作为语音识别系统的动态调节参数,在对识别到的字音进行模式匹配时,假设与其最接近的字音为m,则所有与m的相似度大于等于u的音字也作为其匹配到的字音来看待;
S104、通过预置的字音相似度矩阵发现共有字音n1、n2、……、ni与m的相似度大于等于u,则最终识别到的字音集合为P=[m,n1,n2,……,ni];
所述字音集合P即为最终得到的文本信息。
9.根据权利要求5所述的一种基于语音识别的自助柜取件方法,其特征在于:所述触摸显示屏可以根据取件人所取的快递类型进行广告推送。
10.根据权利要求5所述的一种基于语音识别的自助柜取件方法,其特征在于:取件人在取走快递后,若柜门未关闭,服务器发出语音提醒取件人及时关闭柜门。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011378780.5A CN112466056B (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的自助柜取件系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011378780.5A CN112466056B (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的自助柜取件系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466056A true CN112466056A (zh) | 2021-03-09 |
CN112466056B CN112466056B (zh) | 2022-04-05 |
Family
ID=74805069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011378780.5A Active CN112466056B (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的自助柜取件系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466056B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
CN101188107A (zh) * | 2007-09-28 | 2008-05-28 | 中国民航大学 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
CN101548313A (zh) * | 2006-11-16 | 2009-09-30 | 国际商业机器公司 | 话音活动检测系统和方法 |
CN105678918A (zh) * | 2016-01-04 | 2016-06-15 | 上海斐讯数据通信技术有限公司 | 一种语音存取件方法及装置 |
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN106782519A (zh) * | 2016-12-23 | 2017-05-31 | 深圳先进技术研究院 | 一种机器人 |
CN107507623A (zh) * | 2017-10-09 | 2017-12-22 | 维拓智能科技(深圳)有限公司 | 基于麦克风阵列语音交互的自助服务终端 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
WO2018054361A1 (zh) * | 2016-09-23 | 2018-03-29 | 合肥华凌股份有限公司 | 语音识别的环境自适应方法、语音识别装置和家用电器 |
CN108109277A (zh) * | 2017-12-05 | 2018-06-01 | 中科富创(北京)科技有限公司 | 一种快递取件方法及系统 |
CN108303649A (zh) * | 2017-01-13 | 2018-07-20 | 重庆邮电大学 | 一种电池健康状态识别方法 |
CN108806109A (zh) * | 2018-05-02 | 2018-11-13 | 苏州诺登德智能科技有限公司 | 一种基于语音识别的快递柜取件控制装置 |
CN108806723A (zh) * | 2018-05-21 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 婴儿语音识别方法及装置 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN109147767A (zh) * | 2018-08-16 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN109741758A (zh) * | 2019-01-14 | 2019-05-10 | 杭州微纳科技股份有限公司 | 一种双麦克风语音降噪方法 |
-
2020
- 2020-12-01 CN CN202011378780.5A patent/CN112466056B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
CN101548313A (zh) * | 2006-11-16 | 2009-09-30 | 国际商业机器公司 | 话音活动检测系统和方法 |
CN101188107A (zh) * | 2007-09-28 | 2008-05-28 | 中国民航大学 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN105678918A (zh) * | 2016-01-04 | 2016-06-15 | 上海斐讯数据通信技术有限公司 | 一种语音存取件方法及装置 |
WO2018054361A1 (zh) * | 2016-09-23 | 2018-03-29 | 合肥华凌股份有限公司 | 语音识别的环境自适应方法、语音识别装置和家用电器 |
CN106782519A (zh) * | 2016-12-23 | 2017-05-31 | 深圳先进技术研究院 | 一种机器人 |
CN108303649A (zh) * | 2017-01-13 | 2018-07-20 | 重庆邮电大学 | 一种电池健康状态识别方法 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN107507623A (zh) * | 2017-10-09 | 2017-12-22 | 维拓智能科技(深圳)有限公司 | 基于麦克风阵列语音交互的自助服务终端 |
CN108109277A (zh) * | 2017-12-05 | 2018-06-01 | 中科富创(北京)科技有限公司 | 一种快递取件方法及系统 |
CN108806109A (zh) * | 2018-05-02 | 2018-11-13 | 苏州诺登德智能科技有限公司 | 一种基于语音识别的快递柜取件控制装置 |
CN108806723A (zh) * | 2018-05-21 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 婴儿语音识别方法及装置 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109147767A (zh) * | 2018-08-16 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN109741758A (zh) * | 2019-01-14 | 2019-05-10 | 杭州微纳科技股份有限公司 | 一种双麦克风语音降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112466056B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553218B2 (en) | Dimensionality reduction of baum-welch statistics for speaker recognition | |
US20230290357A1 (en) | Channel-compensated low-level features for speaker recognition | |
US5583961A (en) | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands | |
EP1159737B1 (en) | Speaker recognition | |
US6038528A (en) | Robust speech processing with affine transform replicated data | |
US20120143608A1 (en) | Audio signal source verification system | |
CN111694938B (zh) | 基于情绪识别的答复方法、装置、计算机设备及存储介质 | |
JPS6217240B2 (zh) | ||
CN101416237A (zh) | 基于源和室内声学的概率模型的语音去混响方法和设备 | |
CN109256139A (zh) | 一种基于Triplet-Loss的说话人识别方法 | |
CN105306673A (zh) | 移动终端及其自动调整情景模式的方法 | |
CN110364168A (zh) | 一种基于环境感知的声纹识别方法及系统 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN112466056B (zh) | 一种基于语音识别的自助柜取件系统及方法 | |
CN113241081A (zh) | 一种基于梯度反转层的远场说话人认证方法及系统 | |
CN110827834B (zh) | 声纹注册方法、系统及计算机可读存储介质 | |
JP2001520764A (ja) | スピーチ分析システム | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
AU752317B2 (en) | Cohort model selection apparatus and method | |
US6961703B1 (en) | Method for speech processing involving whole-utterance modeling | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
Ji et al. | Text-independent speaker identification using soft channel selection in home robot environments | |
Singh et al. | Speaker Recognition and Fast Fourier Transform | |
Zucatelli et al. | Adaptive learning with surrogate assisted training models using limited labeled acoustic sample sequences | |
Chen et al. | Robust speech recognition using spatial–temporal feature distribution characteristics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |