CN111292748B - 一种可适应多种频率的语音录入系统 - Google Patents

一种可适应多种频率的语音录入系统 Download PDF

Info

Publication number
CN111292748B
CN111292748B CN202010082691.XA CN202010082691A CN111292748B CN 111292748 B CN111292748 B CN 111292748B CN 202010082691 A CN202010082691 A CN 202010082691A CN 111292748 B CN111292748 B CN 111292748B
Authority
CN
China
Prior art keywords
voice
filter
module
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010082691.XA
Other languages
English (en)
Other versions
CN111292748A (zh
Inventor
蒲瑶
沈彬彬
赵茂祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Original Assignee
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puqiang Times Zhuhai Hengqin Information Technology Co ltd filed Critical Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority to CN202010082691.XA priority Critical patent/CN111292748B/zh
Publication of CN111292748A publication Critical patent/CN111292748A/zh
Application granted granted Critical
Publication of CN111292748B publication Critical patent/CN111292748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

本发明涉及语音录入系统领域,且公开了一种可适应多种频率的语音录入系统,包括语音采集单元、语音预处理单元、单片机以及存储单元,所述语音采集单元与语音处理单元串口连接,所述语音预处理单元与单片机串口连接,所单片机还与存储单元串口连接。该可适应多种频率的语音录入系统,通过FIR数字滤波器的使用以及设计步骤,在处理多频率语音信号时,滤除了高频噪声和多频杂音,达到了抗混叠的目的,保障后期语音识别的高准确性,并且经过滤波后的信号基本上保持原样,并在滤波后的信号出现了时延,基本将原输入的有用连续信号恢复,使得后信号的延时得到有效的降低,提高了语音录入的效率。

Description

一种可适应多种频率的语音录入系统
技术领域
本发明涉及语音录入系统领域,具体为一种可适应多种频率的语音录入系统。
背景技术
语音识别技术,也称为自动语音识别(Automatic Speech Recognition),其目的是将人类的语音中的词汇内容转换为计算机可读的输入,语音识别技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等领域,作为人机交互的关键技术,语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。
其中语音录入系统试整个语音识别技术中最为重要的一环,它是语音识别技术的主要依据支撑,然而,现有的语音录入系统在录入多频率语音时,常规滤波器很难精确的滤除了多频杂音和高频噪声,导致录音混叠,影响后期识别的准确率,且由于多频语音的情况,在语音识别单元中提取的语音信号参数准确率不高,同样影响后期语音识别的准确性。
发明内容
针对上述背景技术的不足,本发明提供了一种可适应多种频率的语音录入系统,具备保障后期语音识别的准确性高的优点,解决了背景技术提出的问题。
本发明提供如下技术方案:一种可适应多种频率的语音录入系统,包括语音采集单元、语音预处理单元、单片机以及存储单元,所述语音采集单元与语音处理单元串口连接,所述语音预处理单元与单片机串口连接,所单片机还与存储单元串口连接;
其中,所述语音采集单元中设置语音采集模块,语音采集模块外连接语音输入终端,包括麦克风;
所述语音预处理单元包括音频输入模块、语音放大模块、抗混叠滤波模块、语音识别模块、特征提取模块;。
优选的,所述特征提取模块基于matlab程序来提取基音频率的语音信号,语音特征提取的步骤如下:
a、输入序列,求语音信号的相关序列,并在求取过程中限定最大值的范围,同时添加一个极小数,防止被零整除;
b、求第一周期的极大值点;
c、根据存储单元中的模板库信息,对比语音特点,筛选出最大值点;
d、根据该最大值点的位置得到语音频率。
优选的,所述抗混叠滤波器为FIR数字滤波器,其设计步骤如下:
S1、建立一个目标信号,并储存到存储单元中,在设计一个滤波器之前,先根据工程实际的需要确定滤波器的技术指标,即指标的形式一般在频域中给出幅度和相位响应;
S2、在确定了技术指标后,建立一个目标的数字滤波器模型之后,利用数字滤波器的设计方法,设计出一个实际滤波器模型来逼近给定的目标信号;
S3、得到以差分或系统函数或冲激响应滤波器,从而分析其频率特性和相位特性,以验证设计结果是否满足指标要求,或者利用单片机仿真实现设计的滤波器,再分析滤波结果来判断;
S4、用窗函数设计法,根据过渡带带宽及阻带最小衰减,选择窗型,并估计窗口长度N,理想抗混叠滤波器的幅度谱值通带内为1,阻带内为0,缺少过渡带带宽及阻带最小衰减限制。
优选的,所述语音识别采用HMM模型,语音预处理单元还设有人工神经元网络模块。
本发明具备以下有益效果:
该可适应多种频率的语音录入系统,通过FIR数字滤波器的使用以及设计步骤,在处理多频率语音信号时,滤除了高频噪声和多频杂音,达到了抗混叠的目的,保障后期语音识别的高准确性,并且经过滤波后的信号基本上保持原样,并在滤波后的信号出现了时延,基本将原输入的有用连续信号恢复,使得后信号的延时得到有效的降低,提高了语音录入的效率;通过语音预处理单元的预处理,利用特征提取模块基于matlab程序来提取基音频率的语音信号,从而获取准确的参数,以便后续利用该参数进行高效的处理,同时通过基音周期的提取方法,准确可靠的估计并提取语音信号,使得语音信号的识别准确率和效率更高。
附图说明
图1为本发明语音录入系统框图示意图;
图2为本发明语音预处理单元系统图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种可适应多种频率的语音录入系统,包括语音采集单元、语音预处理单元、单片机以及存储单元,语音采集单元与语音处理单元串口连接,语音预处理单元与单片机串口连接,所单片机还与存储单元串口连接;
语音采集单元中设置语音采集模块,语音采集模块用于多频率语音的采集,语音采集模块外连接语音输入终端,包括麦克风,通过麦克风进行初步录音,将语音转换成电信号,再由语音采集模块采集录入的语音信号;
语音预处理单元包括音频输入模块、语音放大模块、抗混叠滤波模块、语音识别模块、特征提取模块;
语音采集模块采集的语音数据传输到音频输入模块,由语音输入模块传输到语音预处理单元进行预处理,通过语音放大模块对语音电信号进行放大处理,由语音放大模块放大语音电信号,确保后面语音处理的精确性,然后通过A/D转换模块将语音电信号转换为语音数字信号,语音数字信号通过抗混叠滤波模块,由抗混叠滤波模块除去语音数字信号中,个体发音差异、录音设备和环境引起的噪音,从而消除语音数字信号出现叠音的现象,处理后的语音数字信号传输至语音识别模块和特征提取模块进一步处理,由语音识别模块进行识别处理,再由特征提取模块提取需要的语音信号,并将处理后的语音信号通过存储单元中的进行存储,其处理均由单片机进行控制,其中,存储单元设有内存和flash闪存芯片,以便于存储选择。
特征提取模块提取的语音信号特征参数能有效的代替语音特征,具有良好的区分性,且各阶参数均具有良好的特征性,使得特征参数计算方便高效,即在语音信号处理阶段,使得每个词条都能得到一个模型,并保存为模板库,存储到存储单元,在识别提取阶段,语音信号喜欢经过相同的通道得到语音信号参数,通过与参数模板进行匹配,并将匹配分数最高的模板作为匹配结果,以提高准确率。
其中,特征提取模块基于matlab程序来提取基音频率的语音信号,语音特征提取的步骤如下:
a、输入序列,求语音信号的相关序列,并在求取过程中限定最大值的范围,同时添加一个极小数,防止被零整除;
b、求第一周期的极大值点;
c、根据存储单元中的模板库信息,对比语音特点,筛选出最大值点;
d、根据该最大值点的位置得到语音频率,从而获取准确的参数,以便后续利用该参数进行高效的处理,同时通过基音周期的提取方法,准确可靠的估计并提取语音信号,使得语音信号的识别准确率和效率更高。
其中,抗混叠滤波器为FIR数字滤波器,其设计步骤如下:
S1、建立一个目标信号,并储存到存储单元中,在设计一个滤波器之前,先根据工程实际的需要确定滤波器的技术指标,即指标的形式一般在频域中给出幅度和相位响应;
S2、在确定了技术指标后,建立一个目标的数字滤波器模型之后,利用数字滤波器的设计方法,设计出一个实际滤波器模型来逼近给定的目标信号;
S3、得到以差分或系统函数或冲激响应滤波器,从而分析其频率特性和相位特性,以验证设计结果是否满足指标要求,或者利用单片机仿真实现设计的滤波器,再分析滤波结果来判断;
S4、用窗函数设计法,根据过渡带带宽及阻带最小衰减,选择窗型,并估计窗口长度N,理想抗混叠滤波器的幅度谱值通带内为1,阻带内为0,缺少过渡带带宽及阻带最小衰减限制。
通过FIR数字滤波器的使用,混有高频噪声信号在通过该系统后,滤除了高频噪声和多频杂音,达到了抗混叠的目的,并且保障了经过滤波后的信号基本上保持原样,并在滤波后的信号出现了时延,但是由于FIR数字滤波器设计使用基本将原输入的有用连续信号恢复。
其中,语音识别采用HMM模型,语音预处理单元还设有人工神经元网络模块,由工神经元网络模块模仿人类神经元活动原理,具有自学、联想、对比、推力和概况的功能,配合HMM模型,已补充HMM模型语音识别时所不具备的能力,从而进一步提高了语音识别的准确率,保障了语音录入系统录入语音的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种可适应多种频率的语音录入系统,其特征在于:包括语音采集单元、语音预处理单元、单片机以及存储单元,所述语音采集单元与语音处理单元串口连接,所述语音预处理单元与单片机串口连接,所述单片机还与存储单元串口连接;
其中,所述语音采集单元中设置语音采集模块,语音采集模块外连接语音输入终端,语音输入终端包括麦克风;
所述语音预处理单元包括音频输入模块、语音放大模块、抗混叠滤波模块、语音识别模块、特征提取模块;
所述特征提取模块基于matlab程序来提取基音频率的语音信号,语音特征提取的步骤如下:
a、输入序列,求语音信号的相关序列,并在求取过程中限定最大值的范围,同时添加一个极小数,防止被零整除;
b、求第一周期的极大值点;
c、根据存储单元中的模板库信息,对比语音特点,筛选出最大值点;
d、根据该最大值点的位置得到语音频率;
所述抗混叠滤波模块为FIR数字滤波器,其设计步骤如下:
S1、建立一个目标信号,并储存到存储单元中,在设计一个滤波器之前,先根据工程实际的需要确定滤波器的技术指标,即指标的形式在频域中给出幅度和相位响应;
S2、在确定了技术指标后,建立一个目标的数字滤波器模型之后,利用数字滤波器的设计方法,设计出一个实际滤波器模型来逼近给定的目标信号;
S3、得到以差分或系统函数或冲激响应描述的滤波器,从而分析其频率特性和相位特性,以验证设计结果是否满足指标要求,或者利用单片机仿真实现设计的滤波器,再分析滤波结果来判断;
S4、用窗函数设计法,根据过渡带带宽及阻带最小衰减,选择窗型,并估计窗口长度N,理想抗混叠滤波器的幅度谱值通带内为1,阻带内为0,缺少过渡带带宽及阻带最小衰减限制;
所述语音识别模块采用HMM模型,语音预处理单元还设有人工神经元网络模块。
CN202010082691.XA 2020-02-07 2020-02-07 一种可适应多种频率的语音录入系统 Active CN111292748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010082691.XA CN111292748B (zh) 2020-02-07 2020-02-07 一种可适应多种频率的语音录入系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010082691.XA CN111292748B (zh) 2020-02-07 2020-02-07 一种可适应多种频率的语音录入系统

Publications (2)

Publication Number Publication Date
CN111292748A CN111292748A (zh) 2020-06-16
CN111292748B true CN111292748B (zh) 2023-07-28

Family

ID=71021946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082691.XA Active CN111292748B (zh) 2020-02-07 2020-02-07 一种可适应多种频率的语音录入系统

Country Status (1)

Country Link
CN (1) CN111292748B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111835663B (zh) * 2020-07-16 2022-04-26 普强时代(珠海横琴)信息技术有限公司 一种基于网络抓包分析的实时通话监听方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161494A (ja) * 1992-11-18 1994-06-07 Nippon Hoso Kyokai <Nhk> 音声のピッチ区間自動抽出方法
CN1490787A (zh) * 2003-09-12 2004-04-21 中国科学院声学研究所 基于语音增强的语音识别方法
CN105070286A (zh) * 2015-07-28 2015-11-18 苏州宏展信息科技有限公司 一种用于录音笔的语音特征提取控制装置
CN105702260A (zh) * 2016-04-18 2016-06-22 安徽大学 基于matlab的多功能语音测试滤波系统
CN106067783A (zh) * 2016-06-13 2016-11-02 电子科技大学 基于粒子群算法的fir滤波器设计方法
CN106849909A (zh) * 2017-01-04 2017-06-13 天津大学 一种基于两层次优化的fir滤波器设计方法及其装置
CN107833581A (zh) * 2017-10-20 2018-03-23 广州酷狗计算机科技有限公司 一种提取声音的基音频率的方法、装置及可读存储介质
CN108831447A (zh) * 2018-09-29 2018-11-16 广东工业大学 基于hmm和pnn的语音识别方法、装置及存储介质
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161494A (ja) * 1992-11-18 1994-06-07 Nippon Hoso Kyokai <Nhk> 音声のピッチ区間自動抽出方法
CN1490787A (zh) * 2003-09-12 2004-04-21 中国科学院声学研究所 基于语音增强的语音识别方法
CN105070286A (zh) * 2015-07-28 2015-11-18 苏州宏展信息科技有限公司 一种用于录音笔的语音特征提取控制装置
CN105702260A (zh) * 2016-04-18 2016-06-22 安徽大学 基于matlab的多功能语音测试滤波系统
CN106067783A (zh) * 2016-06-13 2016-11-02 电子科技大学 基于粒子群算法的fir滤波器设计方法
CN106849909A (zh) * 2017-01-04 2017-06-13 天津大学 一种基于两层次优化的fir滤波器设计方法及其装置
CN107833581A (zh) * 2017-10-20 2018-03-23 广州酷狗计算机科技有限公司 一种提取声音的基音频率的方法、装置及可读存储介质
CN108831447A (zh) * 2018-09-29 2018-11-16 广东工业大学 基于hmm和pnn的语音识别方法、装置及存储介质
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于FIR滤波器的基音提取预处理";龚英姬 等;《河池学院学报》;20081015;第28卷(第5期);64-67 *
"基于matlab/FDATool的语音信号滤波处理";王丽;《德州学院学报》;20130815;第29卷(第4期);33-36 *
"基于Matlab加噪语音的FIR滤波器设计";申艳 等;《电气电子教学学报》;20110415;第33卷(第2期);43-46 *

Also Published As

Publication number Publication date
CN111292748A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN112802484B (zh) 一种混合音频下的大熊猫声音事件检测方法及系统
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
US4852181A (en) Speech recognition for recognizing the catagory of an input speech pattern
CN101710490B (zh) 语音评测的噪声补偿方法及装置
CN109300483B (zh) 一种智能化音频异音检测方法
CN106098079B (zh) 音频信号的信号提取方法与装置
CN102163427A (zh) 一种基于环境模型的音频异常事件检测方法
CN101976564A (zh) 昆虫声音识别方法
CN107564543B (zh) 一种高情感区分度的语音特征提取方法
CN110797031A (zh) 语音变音检测方法、系统、移动终端及存储介质
CN105118511A (zh) 一种雷声识别方法
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN111292723A (zh) 一种语音识别系统
CN112908344A (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
CN111292748B (zh) 一种可适应多种频率的语音录入系统
CN109377982A (zh) 一种有效语音获取方法
CN112885330A (zh) 一种基于低资源音频的语种识别方法及系统
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN109346104A (zh) 一种基于谱聚类的音频特征降维方法
CN101950564A (zh) 一种远程数字化语音采集分析识别系统
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN115985331B (zh) 一种用于野外观测的音频自动分析方法
CN106887226A (zh) 一种基于人工智能识别的语音识别算法
CN106228984A (zh) 语音识别信息获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A voice input system that can adapt to multiple frequencies

Granted publication date: 20230728

Pledgee: Guangfa Bank Co.,Ltd. Hengqin Guangdong Macao Deep Cooperation Zone Branch

Pledgor: Puqiang times (Zhuhai Hengqin) Information Technology Co.,Ltd.

Registration number: Y2024980003019

PE01 Entry into force of the registration of the contract for pledge of patent right