CN112466056A

CN112466056A - 一种基于语音识别的自助柜取件系统及方法

Info

Publication number: CN112466056A
Application number: CN202011378780.5A
Authority: CN
Inventors: 胡礼波; 胡永君; 陈滔龙; 范君龙
Original assignee: Shanghai Kuanglia Network Technology Co ltd
Current assignee: Shanghai Kuanglia Network Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-09
Anticipated expiration: 2040-12-01
Also published as: CN112466056B

Abstract

本发明公开了一种基于语音识别的自助柜取件系统及方法，包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜；所述语音采集模块用于采集取件人的声音信息；所述语音识别模块用于对取件人的声音信息进行内容分析；所述声纹识别模块用于对取件人的声音信息进行判断，确认取件人的身份；所述服务器模块连接云端，云端有取件人的声纹信息以及商家发送给取件人的验证码；所述控制中心模块用于控制取件柜柜门的开启；所述触摸显示屏用于点击输入验证码；所述取件柜用于存放快递。本发明提高了语音识别的准确性，提高了取件的安全性。

Description

一种基于语音识别的自助柜取件系统及方法

技术领域

本发明涉及语音识别技术领域，具体为一种基于语音识别的自助柜取件系统及方法。

背景技术

随着语音通信及语音识别技术的快速发展，已在人们的日常生活和工作中的多个领域得到了广泛的应用，为人们提供了极大的便利，如基于语音识别的自助柜取件系统，取件人读出取件码，利用取件人的语音信息进行身份识别以及对信息的内容进行识别，方便取走快递并且安全性高，但是在取件人读出验证码的时候，若周围环境的噪音较大，会对语音信息的采集造成很大的干扰，导致对取件人的身份认证及语音信息的内容识别不够准确。

所以我们需要一种基于语音识别的自助柜取件系统及方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于语音识别的自助柜取件系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于语音识别的自助柜取件系统，包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜；

所述语音采集模块用于采集取件人的声音信息；

所述语音识别模块用于对取件人的声音信息进行内容分析；

所述声纹识别模块用于对取件人的声音信息进行判断，确认取件人的身份；

所述服务器模块连接云端，云端有取件人的声纹信息以及商家发送给取件人的验证码；

所述控制中心模块用于控制取件柜柜门的开启；

所述触摸显示屏用于点击输入验证码；

所述取件柜用于存放快递。

进一步的，所述语音采集模块包括采集模块、计算模块、放大模块和转换模块；

所述采集模块用于采集当前的模拟语音信号，并进行降噪处理；

所述计算模块用于根据当前的模拟语音信号计算得到模拟语音信号的放大倍率；

所述放大模块用于根据所述放大倍率对当前的模拟语音信号进行放大，得到放大后的模拟语音信号；

所述转换模块用于将放大后的模拟语音信号进行模数转换，得到当前的数字语音信号，为语音识别提供一个良好的信号输入基础，提高语音识别的识别率。

进一步的，所述采集模块包括第一麦克风、第二麦克风；

所述第一麦克风为主麦克风，位于用于获取取件人的语音信息；

所述第二麦克风为辅助麦克风，用于采集周围坏境的噪声；

所述第一麦克风位于第二麦克风前方，并且第一麦克风位于第二麦克风之间设有主板隔离，用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱，从而得到纯净语音的频谱，得到增强的模拟语音信号，用于隔离第一麦克风和第二麦克风，防止获取的语音信息重复，增强了语音信息的质量。

进一步的，所述语音识别模块包括：

声学模型模块，用于采集取件人的声学信息；

样本模块，用于储存每个取件人的每个数字的声学模型。

一种基于语音识别的自助柜取件方法，包括以下步骤;

S1、快递员将快递放入取件柜，关上柜门后服务器向取件人发送验证码信息，方便取件人直接获得验证码信息，不需要打开购物软件进行查看，简化了取件流程；

S2、取件人点击触摸显示屏上的取件按钮，然后对语音采集模块读出服务器发送的验证码，语音采集模块对取件人的声音进行采集，并进行降噪处理，提高了收取快递的安全性，防止快递被他人代拿；

S3、服务器将降噪处理后的声音信息与云端中储存的声纹信息进行对比，验证取件人的身份信息，若身份验证成功，则进行下一步，若不成功，则取件结束；

S4、对进行降噪处理后的声音信息进行语音识别，读取声音信息中的验证码，并将验证码发送到服务器，与云端中的验证码对比，若与云端中的验证码一致，则验证成功，进行下一步，若与云端中的验证码不一致，则验证失败；

S5、验证成功后，服务器发送信号给控制中心模块，控制中心模块打开取件柜柜门，取件人取走快递后关闭柜门，取件结束，提高了取件的安全性，使得快递的提取更加的方便。

进一步的，所述步骤S1中，降噪处理采用基本谱减法：

所述基本谱减法采用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱，从而得到纯净语音的频谱，得到的语音信息更加清晰，使后续的语音处理以及判断的精确度得到了极大的提高。

进一步的，所述语音识别是用每个数字的声学模型对取件人的语音信息特征向量进行识别，得到文本信息，即取件人读出的取件码；

对所述每个数字的声学模型进行小波包分解，得到各个子频带的小波包系数，小波包的分解尺度为M；所述子频带的个数为

个,设第n个子频带上的小波包系数为

,n=1,2,3,4,…n,…N,N=

,每个自频带上的小波包系数均为大小为

的矩阵；

根据下式计算出参数

，已知第n个子频带上的小波包系数为

：

`

利用

，k=2,3,…,N，组成语音信息的特征向量；

建立合集

,S即为语音信息的特征向量。

所述每个取件人的每个数字的声学模型需要进行采集，首先取件人在移动端采集每个数字发音的多个样本，得到每个取件人和每个数字的声学模型，用每个取件人的语音信息形成用于识别取件人的高斯混合模型，用每个数字的语音信息形成用于识别取件人语音识别的隐马尔可夫模型，多个语音样本可以防止云端中的数据不足，导致进行语音识别时不准确；

所述每个数字是从0-9十个数字。

进一步的，对于取件人语音信息的特征向量，将其分解为多个字音序列，用隐马尔可夫模型对每个字音进行语音识别，得到文本信息，将得到的文本信息与云端中的验证码进行对比，完成语音识别，方便得出语音信息中的内容，对文本信息进行判断，将语音信息的特征向量分解为多个字音序列，对单个字音进行识别，提高了语音识别的准确性。

将所述字音序列生成频谱波形图，提取频谱波形图的特征向量，与样本模块中的语音信息的特征向量进行对比，得到字音相似度的清单，根据字音相似度的清单判断字音是否相似；

在对比时：

预先设定好频谱波形图中的特征向量的字音相似度，将字音相似的程度进行数字量化，所述字音相似度设置为0-1之间，相同字音的字音相似度为1，越接近的两个字音之间的相似度越高；所有字音之间的字音相似度定义组成字音似度表；

其次，设立频谱波形图中的特征向量的字音标准度，将字音标准的程度进行数字量化，字音标准度的具体数值是和字音相似度对应的，为0到1之间的数值；具体设置方法如下：

S101、找出取件人所有可能混淆的字音对(m1,n1)、(m2,n2)、……、(mi,ni)；

S102、将上述可能混淆的字音对相似度分别定义为Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)；

S103、取件人的字音标准度W为若干可能混淆的字音对相似度的最小值，即:

W=Min[Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)]

S103、在进行语音识别前先根据取件人的发音标准情况确定字音标准度u，将发音标准度u作为语音识别系统的动态调节参数，在对识别到的字音进行模式匹配时，假设与其最接近的字音为m，则所有与m的相似度大于等于u的音字也作为其匹配到的字音来看待；

S104、通过预置的字音相似度矩阵发现共有字音n1、n2、……、ni与m的相似度大于等于u，则最终识别到的字音集合为P=[m,n1,n2,……,ni]；

所述字音集合P即为最终得到的文本信息；

所述可能混淆的字音对通过相同韵母部分设置，如（1,7），（4,10）等，将标准的程度作为一个控制参数引入语音识别系统，从而较好地提升对于非标准语音的识别能力，大大提高了语音识别的成功率。

进一步的，所述触摸显示屏可以根据取件人所取的快递类型进行广告推送，增加取件柜的功能性，提高取件环节的广告收入。

进一步的，取件人在取走快递后，若柜门未关闭，服务器发出语音提醒取件人及时关闭柜门，防止取件人在取走快递后忘记关闭柜门，导致取件流程未完成，服务器对于取件有没有结束判断失误。

与现有技术相比，本发明所达到的有益效果是：本发明使用双麦克风降噪，使得到的语音信息更加清晰，使后续的语音处理以及判断的精确度得到了极大的提高，在获取取件人的声学模型时，采用多个样本，多个语音样本可以防止云端中的数据不足，导致进行语音识别时不准确，触摸显示屏可以根据取件人所取的快递类型进行广告推送，增加取件柜的功能性，提高取件环节的广告收入，对取件人语音信息的特征向量分解为多个字音序列识别，可以增加识别的准确度，将字音相似的程度和字音标准的程度进行数字量化，提高了发音不标准的人群进行语音识别的成功率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的一种基于语音识别的自助柜取件系统及方法的流程示意图；

图2是本发明的一种基于语音识别的自助柜取件系统及方法的结模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供技术方案：

本发明的工作原理：

一种基于语音识别的自助柜取件系统，包括语音采集模块、语音识别模块、声纹识别模块、服务器模块、控制中心模块、触摸显示屏和取件柜；

所述语音采集模块用于采集取件人的声音信息；

所述语音识别模块用于对取件人的声音信息进行内容分析；

所述控制中心模块用于控制取件柜柜门的开启；

所述触摸显示屏用于点击输入验证码；

所述取件柜用于存放快递。

语音采集模块包括采集模块、计算模块、放大模块和转换模块；

所述转换模块用于将放大后的模拟语音信号进行模数转换，得到当前的数字语音信号。

所述采集模块包括第一麦克风、第二麦克风；

所述第二麦克风为辅助麦克风，用于采集周围坏境的噪声；

所述第一麦克风位于第二麦克风前方，并且第一麦克风位于第二麦克风之间设有主板隔离，用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱，从而得到纯净语音的频谱，得到增强的模拟语音信号。

所述语音识别模块包括：

声学模型模块，用于采集取件人的声学信息；

样本模块，用于储存每个取件人的每个数字的声学模型。

一种基于语音识别的自助柜取件方法，包括以下步骤;

S1、快递员将快递放入取件柜，关上柜门后服务器向取件人发送验证码信息；

S2、取件人点击触摸显示屏上的取件按钮，然后对语音采集模块读出服务器发送的验证码，语音采集模块对取件人的声音进行采集，并进行降噪处理；

S5、验证成功后，服务器发送信号给控制中心模块，控制中心模块打开取件柜柜门，取件人取走快递后关闭柜门，取件结束。

步骤S1中，降噪处理采用基本谱减法：

所述基本谱减法采用第一麦克风获取的取件人语音信息频谱减去第二麦克风获取的噪声频谱，从而得到纯净语音的频谱；

根据基本谱减法有信号的加性模型：

设

、

和

分别代表语音、噪声和带噪语音,噪声

是与

不相关的加性噪声，将上式经过加窗处理得到：

、

和

分别为经过加窗处理后的信号，对加窗处理后的信号做傅立叶变换，得到：

对功率谱有：

根据观察数据估计

，其它各项为统计均值，因为噪声

是与

不相关的加性噪声，即相互独立，则互相的统计均值为0，所以原始语音初值为：

通过上式可以得到纯净语音的谱估计，根据以下公式得到增强后的语音：

基本谱减法算法较为简单、运算量小，便于实现快速处理，缩短了语音识别的时间，往往能够获得较高的输出信噪比，语音的纯净度更高。

语音识别是用每个数字的声学模型对取件人的语音信息特征向量进行识别，得到文本信息，即取件人读出的取件码；

所述每个取件人的每个数字的声学模型需要进行采集，首先取件人在移动端采集每个数字发音的多个样本，得到每个取件人和每个数字的声学模型，用每个取件人的语音信息形成用于识别取件人的高斯混合模型，用每个数字的语音信息形成用于识别取件人语音识别的隐马尔可夫模型；

所述每个数字是从0-9十个数字。

对于取件人语音信息的特征向量，将其分解为多个字音序列，用隐马尔可夫模型对每个字音进行语音识别，得到文本信息，将得到的文本信息与云端中的验证码进行对比，完成语音识别。

将字音序列生成频谱波形图，提取频谱波形图的特征向量，与样本模块中的语音信息的特征向量进行对比，得到字音相似度的清单，根据字音相似度的清单判断字音是否相似；

在对比时：

预先设定好频谱波形图中的特征向量的字音相似度，将字音相似的程度进行数字量化，字音相似度设置为0-1之间，相同字音的字音相似度为1，越接近的两个字音之间的相似度越高；所有字音之间的字音相似度定义组成字音似度表；

W=Min[Q(m1,n1)、Q(m2,n2)、……、Q(mi,ni)]

字音集合P即为最终得到的文本信息，将文本信息和云端中的验证码进行对比，验证相同则打开柜门进行取件。

所述触摸显示屏可以根据取件人所取的快递类型进行广告推送。

取件人在取走快递后，若柜门未关闭，服务器发出语音提醒取件人及时关闭柜门。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。