CN112233679B - 一种人工智能语音识别系统 - Google Patents

一种人工智能语音识别系统 Download PDF

Info

Publication number
CN112233679B
CN112233679B CN202011080042.2A CN202011080042A CN112233679B CN 112233679 B CN112233679 B CN 112233679B CN 202011080042 A CN202011080042 A CN 202011080042A CN 112233679 B CN112233679 B CN 112233679B
Authority
CN
China
Prior art keywords
voice information
time
real
module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011080042.2A
Other languages
English (en)
Other versions
CN112233679A (zh
Inventor
程松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Fastcall Information Technology Co ltd
Original Assignee
Anhui Fastcall Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Fastcall Information Technology Co ltd filed Critical Anhui Fastcall Information Technology Co ltd
Priority to CN202011080042.2A priority Critical patent/CN112233679B/zh
Publication of CN112233679A publication Critical patent/CN112233679A/zh
Application granted granted Critical
Publication of CN112233679B publication Critical patent/CN112233679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种人工智能语音识别系统,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息。本发明能够更加准确有效的进行语音识别更加值得推广使用。

Description

一种人工智能语音识别系统
技术领域
本发明涉及语音识别领域,具体涉及一种人工智能语音识别系统。
背景技术
语音识别技术,也被称为自动语音识别其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容,语音识别系统即时进行语音内容识别的系统。
现有的语音识别系统,在使用时,多为单次验证,在验证过程中容易出现验证出错的状况发生,并且录入语音信息时容易受到噪音的影响,给语音识别系统的使用带来了一定影响,因此,提出一种人工智能语音识别系统。
发明内容
本发明所要解决的技术问题在于:如何解决现有的语音识别系统,在使用时,多为单次验证,在验证过程中容易出现验证出错的状况发生,并且录入语音信息时容易受到噪音的影响,给语音识别系统的使用带来了一定影响的问题,提供了一种人工智能语音识别系统。
本发明是通过以下技术方案解决上述技术问题的,本发明包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作;
所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理;
所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为根据最小均方误差准则,要使得取极小值,再经过推导,得到维纳滤波器谱估计器:引入先验信噪比和后验信噪比,定义/> 谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器基于后验信噪比的维纳滤波器谱估计器/>引入平滑参数得到先验信噪比和后验信噪比的关系:/>(γi(k)-1)表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),/>进一步可导出维纳滤波器的输出:/>最终得到经过降噪的实时语音信息;
提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息;
所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
本发明相比现有技术具有以下优点:该人工智能语音识别系统,设置了双重验证,能够对语音进行双重识别,有效的避免了验证出错导致的放行非允许通行的人员的状况发生,使得该系统的验证效果更好,更加的安全,并且通过对语音内容进行降噪处理,有效减少了语音内容内的噪音对语音识别的影响,让该系统能够更加安全准确的进行语音识别,更加值得推广使用。
附图说明
图1是本发明的系统框图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种技术方案:一种人工智能语音识别系统,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作。
所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为根据最小均方误差准则,要使得取极小值,再经过推导,得到维纳滤波器谱估计器:引入先验信噪比和后验信噪比,定义/> 谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器基于后验信噪比的维纳滤波器谱估计器/>引入平滑参数得到先验信噪比和后验信噪比的关系:/>(γi(k)-1)表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),/>进一步可导出维纳滤波器的输出:/>最终得到经过降噪的实时语音信息。
提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息。
所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
综上,本发明在使用时,内容展示模块用于展示用户进行语音识别时需要读出的内容信息,语音录入模块用于录入用户的实时语音信息,数据储存终端中储存有允许通行人员的语音信息,数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块,数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,总控模块接收到允许通行信息后控制验证通过模块进行放行操作,数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (1)

1.一种人工智能语音识别系统,其特征在于,包括内容展示模块、语音录入模块、数据接收模块、数据储存终端、数据处理模块、总控模块与验证通过模块;
所述内容展示模块用于展示用户进行语音识别时需要读出的内容信息,所述语音录入模块用于录入用户的实时语音信息,所述数据储存终端中储存有允许通行人员的语音信息,所述数据接收模块用于接收用户的实时语音信息与数据储存终端中的允许通行人员的语音信息,并将实时语音信息与允许通行人员的语音信息发送到数据处理模块;
所述数据处理模块用于对实时语音信息与允许通行人员的语音信息进行处理将其处理为允许通行信息,允许通行信息被发送到总控模块,所述总控模块接收到允许通行信息后控制验证通过模块进行放行操作;
所述数据处理模块在处理用户实时语音信息时对实时语音信息进行降噪处理;
所述降噪处理的具体过程如下:设计一个数字滤波器h(n),使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则,当输入为y(n)时,滤波器输出为根据最小均方误差准则,要使得取极小值,再经过推导,得到维纳滤波器谱估计器:引入先验信噪比和后验信噪比,定义/> 谱估计器可以进一步写成:基于先验信噪比的维纳滤波器谱估计器基于后验信噪比的维纳滤波器谱估计器/>引入平滑参数得到先验信噪比和后验信噪比的关系:/>表明由地i-1帧的先验信噪比和第i帧的后验信噪比,就可求出第i帧的先验信噪比,一旦已知本帧的先验信噪比,即导出本帧的维纳滤波器传递函数Hi(k),/>进一步可导出维纳滤波器的输出:/>最终得到经过降噪的实时语音信息;
提取出经过降噪的实时语音信息,对经过降噪的实时语音信息进行比对处理,其比对过程如下:
步骤一:提取出内容展示模块展示的内容信息,内容信息为预设文本内容;
步骤二:提取出用户读取第一个文本内容的时间点将其标记为T1时间点,提取出用户读取最后一个文本内容的时间点标记为T2时间点;
步骤三:计算出T2时间点与T1时间点之间的时间差得到实时读取时长Tt;
步骤四:提取出数据储存模块中储存的允许通行人员的语音信息,将其通过步骤一到步骤三得到预设读取时长T
步骤五:再计算出实时读取时长Tt与预设读取时长T之间的差值得到T当T的绝对值大于预设值时即初步验证不通过,当T的绝对值小于预设值时即初步验证通过;
步骤六:初步验证通过之后进行二次验证,二次验证通过之后即生成验证通过信息,即允许通信信息;
所述二次验证的具体过程如下:
步骤一:提取出经过降噪的实时语音信息,将其进行声纹化处理,得到实时声纹;
步骤二:再提取出允许通行人员的语音信息,将其进行声纹化处理,得到预存声纹;
步骤三:对实时声纹与预存声纹进行相似度对比,得到实时声纹与预存声纹的相似度,将相似度标记为G,当相似度G大于预设相似度时即二次验证通过。
CN202011080042.2A 2020-10-10 2020-10-10 一种人工智能语音识别系统 Active CN112233679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011080042.2A CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011080042.2A CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别系统

Publications (2)

Publication Number Publication Date
CN112233679A CN112233679A (zh) 2021-01-15
CN112233679B true CN112233679B (zh) 2024-02-13

Family

ID=74111990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011080042.2A Active CN112233679B (zh) 2020-10-10 2020-10-10 一种人工智能语音识别系统

Country Status (1)

Country Link
CN (1) CN112233679B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885168B (zh) * 2021-01-21 2022-09-09 绍兴市人民医院 一种基于ai的沉浸式言语反馈训练系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853666A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种语音增强的方法和装置
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及系统
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及系统
CN103778921A (zh) * 2013-12-28 2014-05-07 中国人民解放军兰州军区乌鲁木齐总医院 消除雷达采集到的语音中的不均匀噪声的方法
CN105280193A (zh) * 2015-07-20 2016-01-27 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于mmse误差准则的先验信噪比估计方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
CN108986288A (zh) * 2018-09-11 2018-12-11 黑龙江大学 一种实验室基于人脸识别和语音识别的双门禁系统
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853666A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种语音增强的方法和装置
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102708867A (zh) * 2012-05-30 2012-10-03 北京正鹰科技有限责任公司 一种基于声纹和语音的防录音假冒身份识别方法及系统
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及系统
CN103778921A (zh) * 2013-12-28 2014-05-07 中国人民解放军兰州军区乌鲁木齐总医院 消除雷达采集到的语音中的不均匀噪声的方法
CN105280193A (zh) * 2015-07-20 2016-01-27 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于mmse误差准则的先验信噪比估计方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
CN108986288A (zh) * 2018-09-11 2018-12-11 黑龙江大学 一种实验室基于人脸识别和语音识别的双门禁系统
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置

Also Published As

Publication number Publication date
CN112233679A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
JP6857699B2 (ja) 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム
CN109036412A (zh) 语音唤醒方法和系统
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
DE2918533A1 (de) Spracherkennungssystem
CN106205624B (zh) 一种基于dbscan算法的声纹识别方法
CN109616100A (zh) 语音识别模型的生成方法及其装置
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN109785834B (zh) 一种基于验证码的语音数据样本采集系统及其方法
CN112233679B (zh) 一种人工智能语音识别系统
CN113886792A (zh) 一种声纹识别和人脸识别相结合的印控仪应用方法和系统
US20030120490A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recorgnition system
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN111883141B (zh) 一种文本半相关的声纹识别方法及系统
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
JPS6348598A (ja) 単語音声認識装置
CN114387968A (zh) 语音解锁方法、装置、电子设备及存储介质
CN112820292A (zh) 生成会议纪要的方法、装置、电子装置及存储介质
CN102592592A (zh) 语音数据的提取方法和装置
JP2001350494A (ja) 照合装置及び照合方法
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
CN104734858A (zh) 对数据进行识别的防锁死的usb身份认证系统及方法
CN113068058A (zh) 一种基于语音识别及转写技术的实时字幕上屏直播系统
CN115762496A (zh) 降低相近语音误识的方法、语音识别方法及其装置
JPS59152498A (ja) 音声信号デ−タ抽出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant