CN113053360A

CN113053360A - 一种精准度高的基于语音软件识别方法

Info

Publication number: CN113053360A
Application number: CN202110255014.8A
Authority: CN
Inventors: 沈玲玲; 曾奕
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-29

Abstract

本发明公开了一种精准度高的基于语音软件识别方法，包括如下步骤：用户可以选择通过摄像头进行脸部识别登录、通过按压Home键进行指纹Touch解锁登录或者通过输入账号和密码进行账号登录。本发明通过语音软件识别的步骤流程配合，从用户登录方式上进行精准管控，加强语音传输通道的多样性和私密性，满足语音传输的合理分流管理，避免语音之间出现重叠错误，可对语音发送环境中各种电磁噪音杂波进行过滤去除，杜绝用户发送语音时出现声门和口鼻辐射较弱的现象，提升语音的传输质量，同时也可对语音中的模糊部分和特征部分进行精准解析识别处理，避免语音软件识别过程中出现大量错误，采用多次纠错方式对错误语音进行校正处理。

Description

一种精准度高的基于语音软件识别方法

技术领域

本发明涉及语音软件识别技术领域，具体为一种精准度高的基于语音软件识别方法。

背景技术

语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生，其中，语音数据受到了人们越来越多的重视，语音识别技术所涉及的领域包括：人工智能、信号处理、模式识别、概率论和信息论、发声机理和听觉机理等等。

随着现在智能互联网技术的日益发展，为了促进人与人与人与智能设备之间的多样性交流发展，语音软件识别应用在很多设备领域上，然而现有的语音软件识别方法在对语音进行识别过程中，无法确保语音分析识别的精准度，由于语音发送环境各不相同，存在各种电磁噪音，干扰语音波段的正常传输质量，同时也无法对语音中的模糊部分和特征部分进行精准解析识别处理，导致语音软件识别过程中出现大量错误，降低语音的分析识别错误率，直接降低语音软件的体验感受，导致用户之间出现语言错误交流，给用户生活和工作中带来不必要的麻烦。

因此亟需设计一种精准度高的基于语音软件识别方法来解决上述问题。

发明内容

本发明的目的在于提供一种精准度高的基于语音软件识别方法，以解决上述背景技术中提出的现有的语音软件识别方法在对语音进行识别过程中，无法确保语音分析识别的精准度的问题。

为实现上述目的，本发明提供如下技术方案：一种精准度高的基于语音软件识别方法，包括如下步骤：

步骤一：用户可以选择通过摄像头进行脸部识别登录、通过按压Home键进行指纹Touch解锁登录以及通过输入账号和密码进行账号登录；

步骤二：身份验证模块分别对用户脸部识别登录信息、指纹touch解锁登录信息以及输入账号和密码信息进行验证，验证通过后即可登录语音软件界面。如果三次验证均未通过，系统将弹出拒绝访问窗口提醒该用户停止访问；

步骤三：授权用户登录后即可发送语音，则语音通过多通道传输模块进行多通道传输，且对应的语音通道再随机设定加密秘钥，然后语音再经过语音预处理单元和语音识别单元进行处理；

步骤四：语音预处理单元通过语音特征提取模块对语音中的特征数据进行提取，然后声学特征参数采集模块对提取的特征进行声学处理，接着背景噪音滤波模块对所采集的特征数据进行噪音滤除处理；而对于用户语音中的模糊语音则通过终端语音模糊处理模块进行预先处理，然后再通过语音信号检测模块对模糊语音中的语音信号进行距离检测，避免语音信号过远出现信号传输质量不佳，接着语音分帧处理模块再次对模糊语音中的语音信号帧数进行逐帧处理，则处理完成的模糊语音再经过背景噪音滤波模块进行噪音滤除处理；将从语音中的特征部分和模糊部分获取的特征矢量参数传输至终端云计算数据库；

步骤五：以特征矢量参数为原型，通过语音声学模型动态处理模块建立动态语音数据链，再经过量化处理模块将用户语音数据传输至语音语义识别模块进行语音语义双重识别处理；与此同时，语音识别单元再将用户发出的语音进行分析，预先对用户的声门和口鼻辐射进行加重采集，从而直接通过语音信号加重处理模块对用户发出的语音信号进行加重处理，然后通过频谱信噪分析模块对语音频率信号进行分析处理，接着再将语音信息以激励信号的形式通过语音激励信号数字化处理模块进行数字化处理，同时再对语音信号动态范围进行压缩处理，提高信噪比，然后再通过语音加窗分帧时间数据序列对语音数据信号形成新的信号分段序列，再将信号序列进行线性转换处理；

步骤六：经过语音预处理单元和语音分析单元双重处理后，再将处理后的用户语音发送至语音语义识别模块进行语音语义识别处理，判断用户语音是否识别精准；

步骤七：判断精准通过后，然后再将识别通过的语音数据经过嵌入式微处理器处理解析后，再根据语音和语义作出最佳语音或文字回复，然后最佳语音或文字回复由语音输出模块在软件界面上显示，用户点击收听或观看即可；

步骤八：判断用户语音未精准识别后，未通过的语音传输至语音纠错模块进行语音纠错校正处理；

步骤九：语音纠错模块对未通过的语音进行三次纠错校正处理，判断是否纠错校正成功。再将纠错校正完成的语音重新发送至嵌入式微处理器进行解析回复处理；

步骤十：三次纠错校正后的用户语音未精准识别后，发送至错误提醒模块，由错误提醒模块对用户进行错误提醒，与此同时，对错误用户语音建立日志和时间戳，然后再将错误语音传输至错误语音存储数据库内进行统一存储处理，经过一个月后，再通过错误语音粉碎处理模块对错误语音数据进行粉碎后删除。

优选的，所述在步骤一和步骤二过程中，所述用户脸部识别登录信息包括脸部特征信息采集，所述指纹touch解锁登录的原始采集指纹至少有三个，且每个指纹采集的手指均不相同，所述输入账号和密码中账号可以为手机号、身份证号和初始账号，且密码的组成部分为英文字母+数字组成，密码位数至少为八位。

优选的，所述在步骤三过程中，所述随机设定加密秘钥的个数与多通道传输模块中通道的个数相同，且加密秘钥的随机更换频率为5s/次，且加密秘钥采用加密二进制串。

优选的，所述在步骤四过程中，所述背景噪音滤波模块滤除的杂波包括电磁干扰噪声波段、设备自身噪声干扰波段等，且语音信号检测模块检测的最佳距离范围介于0.1-5m内。

优选的，所述在步骤五过程中，设原始语音信号采样序列为S(a)，将其分段处理，等效乘以幅度为1的窗函数w(b-a)，当窗函数幅度不为1时，按照一定取值标准，将每帧语音加入权值，对语音信号进行处理，获取每一帧信号经过处理后得到的时间序列为：

且式(1)中：S(a)表示输入语音信号序列，Rb表示帧信号经过处理后的时间序列，T[]表示某种线性变换。

优选的，所述在步骤五过程中，预加重系数为：高信噪比[15]，且预加重系数公式为：

λ系＝数1-为Ha：(a)(1)＝a(1)-H(a)a (2)；

加重后序列为：加重后序列Y(b)：＝X(b)-aX(b-1) (3)；

且式(2)、(3)中：X(b)表示原始信号序列，Y(b)表示加重后序列；H(a)表示终端产生的输出；a表示信号。

优选的，所述在步骤十过程中，所述错误提醒模块以弹出错误提醒窗口的形式对用户进行错误提醒，且弹出错误提醒窗口的字样为：“语音发送错误，请重新纠正发送”，且错误提醒窗口的弹出时间为三秒钟。

优选的，所述在步骤十过程中，所述建立日志对错误语音建立的日志包括：安全日志、自检日志、查询日志以及路径日志，所述错误语音存储数据库的自检周期为一周，所述错误语音粉碎处理模块的单项粉碎次数至少为三次。

与现有技术相比，本发明的有益效果是：

1、该精准度高的基于语音软件识别方法通过语音软件识别的步骤流程配合，从用户登录方式上进行精准管控，加强语音传输通道的多样性和私密性，满足语音传输的合理分流管理，避免语音之间出现重叠错误，可对语音发送环境中各种电磁噪音杂波进行过滤去除，杜绝用户发送语音时出现声门和口鼻辐射较弱的现象，提升语音的传输质量，同时也可对语音中的模糊部分和特征部分进行精准解析识别处理，避免语音软件识别过程中出现大量错误，采用多次纠错方式对错误语音进行校正处理，从而降低语音的分析识别错误率，提升降低语音软件的体验感受，促进用户之间进行正常语言交流，增加用户生活和工作中的丰富度和多样性。

附图说明

图1为本发明的系统流程框图；

图2为本发明身份验证模块的系统流程图；

图3为本发明的方法步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供的一种实施例：

一种精准度高的基于语音软件识别方法，其特征在于：包括如下步骤：

步骤十：三次纠错校正后的用户语音未精准识别后，发送至错误提醒模块，由错误提醒模块对用户进行错误提醒，与此同时，对错误用户语音建立日志和时间戳，然后再将错误语音传输至错误语音存储数据库内进行统一存储处理，经过一个月后，再通过错误语音粉碎处理模块对错误语音数据进行粉碎后删除，通过语音软件识别的步骤流程配合，从用户登录方式上进行精准管控，加强语音传输通道的多样性和私密性，满足语音传输的合理分流管理，避免语音之间出现重叠错误，可对语音发送环境中各种电磁噪音杂波进行过滤去除，杜绝用户发送语音时出现声门和口鼻辐射较弱的现象，提升语音的传输质量，同时也可对语音中的模糊部分和特征部分进行精准解析识别处理，避免语音软件识别过程中出现大量错误，采用多次纠错方式对错误语音进行校正处理，从而降低语音的分析识别错误率，提升降低语音软件的体验感受，促进用户之间进行正常语言交流，增加用户生活和工作中的丰富度和多样性。

在步骤一和步骤二过程中，用户脸部识别登录信息包括虹膜信息采集和脸部特征信息采集，增加脸部信息采集的多样性，提高用户脸部信息提取识别的精准度，避免授权用户脸部出现识别验证错误，指纹touch解锁登录的原始采集指纹至少有三个，且每个指纹采集的手指均不相同，避免用户手指指纹出现破损，导致指纹touch解锁登录方式出现错误，输入账号和密码中账号可以为手机号、身份证号和初始账号，且密码的组成部分为英文字母+数字组成，密码位数至少为八位，提升账号和密码的安全等级，避免不法分子对用户的账号和密码进行偷盗。

在步骤三过程中，随机设定加密秘钥的个数与多通道传输模块中通道的个数相同，且加密秘钥的随机更换频率为5s/次，且加密秘钥采用加密二进制串，保证语音在对应通道内传输的高安全性，避免不法分子对通道内传输的语音进行非法盗取，提高语音传输过程中的安全性。

在步骤四过程中，背景噪音滤波模块滤除的杂波包括电磁干扰噪声波段、设备自身噪声干扰波段等，保证语音背景中的杂音波段充分去除，有效提升语音的传输质量，且语音信号检测模块检测的最佳距离范围介于0.1-5m内，可对语音接收的音质提供有效保障，避免语音发送来源距离过远导致语音中出现模糊识别不清楚的部分。

在步骤五过程中，设原始语音信号采样序列为S(a)，将其分段处理，等效乘以幅度为1的窗函数w(b-a)，当窗函数幅度不为1时，按照一定取值标准，将每帧语音加入权值，对语音信号进行处理，获取每一帧信号经过处理后得到的时间序列为：

Rb＝a＝∑-∞

Rb＝a＝∞∑-∞T[S(a)]w(b-a) (3)

Rb＝a＝∑-∞T[S(a)]w(b-a) (1)；

且式(1)中：S(a)表示输入语音信号序列，Rb表示帧信号经过处理后的时间序列，T[]表示某种线性变换，增强语音加窗分帧时间数据序列对语音数据信号的处理效果，提升语音数据信号帧数的处理精度。

在步骤五过程中，预加重系数为：高信噪比[15]，且预加重系数公式为：

λ系＝数1-为Ha：(a)(1)＝a(1)-H(a)a (2)；

加重后序列为：加重后序列Y(b)：＝X(b)-aX(b-1) (3)；且式(2)、(3)中：X(b)表示原始信号序列，Y(b)表示加重后序列；H(a)表示终端产生的输出；a表示信号，提升语音信号加重处理模块对语音信号的预加重效率和精准率，避免语音信号传输过程中出现缺失或丢失，保证语音信号的识别处理完整性。

在步骤十过程中，错误提醒模块以弹出错误提醒窗口的形式对用户进行错误提醒，且弹出错误提醒窗口的字样为：“语音发送错误，请重新纠正发送”，且错误提醒窗口的弹出时间为三秒钟，可对用户发送的错误语音进行有效提醒作业，以便用户及时作出撤回重发。

在步骤十过程中，建立日志对错误语音建立的日志包括：安全日志、自检日志、查询日志以及路径日志，可对错误语音的日志信息进行充分多样记载，以便后期使用者对语音信息日志信息查询，错误语音存储数据库的自检周期为一周，保证错误语音存储数据库的存储安全性能，避免错误语音存储数据库内部错误语音出现丢失混乱，错误语音粉碎处理模块的单项粉碎次数至少为三次，可对到期后的错误语音进行充分粉碎删除处理，避免后期不法分子寻找漏洞对错误语音进行偷盗，保证错误语音的后期处理安全性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种精准度高的基于语音软件识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤一和步骤二过程中，所述用户脸部识别登录信息包括脸部特征信息采集，所述指纹touch解锁登录的原始采集指纹至少有三个，且每个指纹采集的手指均不相同，所述输入账号和密码中账号可以为手机号、身份证号和初始账号，且密码的组成部分为英文字母+数字组成，密码位数至少为八位。

3.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤三过程中，所述随机设定加密秘钥的个数与多通道传输模块中通道的个数相同，且加密秘钥的随机更换频率为5s/次，且加密秘钥采用加密二进制串。

4.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤四过程中，所述背景噪音滤波模块滤除的杂波包括电磁干扰噪声波段、设备自身噪声干扰波段等，且语音信号检测模块检测的最佳距离范围介于0.1-5m内。

5.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤五过程中，设原始语音信号采样序列为S(a)，将其分段处理，等效乘以幅度为1的窗函数w(b-a)，当窗函数幅度不为1时，按照一定取值标准，将每帧语音加入权值，对语音信号进行处理，获取每一帧信号经过处理后得到的时间序列为：

Rb＝a＝∑-∞

Rb＝a＝∞∑-∞T[S(a)]w(b-a) (3)

Rb＝a＝∑-∞T[S(a)]w(b-a) (1)；

6.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤五过程中，预加重系数为：高信噪比[15]，且预加重系数公式为：

λ系＝数1-为Ha：(a)(1)＝a(1)-H(a)a (2)；

加重后序列为：加重后序列Y(b)：＝X(b)-aX(b-1) (3)；

7.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤十过程中，所述错误提醒模块以弹出错误提醒窗口的形式对用户进行错误提醒，且弹出错误提醒窗口的字样为：“语音发送错误，请重新纠正发送”，且错误提醒窗口的弹出时间为三秒钟。

8.根据权利要求1所述的一种精准度高的基于语音软件识别方法，其特征在于：所述在步骤十过程中，所述建立日志对错误语音建立的日志包括：安全日志、自检日志、查询日志以及路径日志，所述错误语音存储数据库的自检周期为一周，所述错误语音粉碎处理模块的单项粉碎次数至少为三次。