CN115631743B - 一种基于语音芯片的高精度语音识别方法及系统 - Google Patents

一种基于语音芯片的高精度语音识别方法及系统 Download PDF

Info

Publication number
CN115631743B
CN115631743B CN202211565449.3A CN202211565449A CN115631743B CN 115631743 B CN115631743 B CN 115631743B CN 202211565449 A CN202211565449 A CN 202211565449A CN 115631743 B CN115631743 B CN 115631743B
Authority
CN
China
Prior art keywords
voice
acquisition
chip
map
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211565449.3A
Other languages
English (en)
Other versions
CN115631743A (zh
Inventor
王嘉诚
张少仲
张栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202211565449.3A priority Critical patent/CN115631743B/zh
Publication of CN115631743A publication Critical patent/CN115631743A/zh
Application granted granted Critical
Publication of CN115631743B publication Critical patent/CN115631743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于语音芯片的高精度语音识别方法及系统,涉及语音识别技术领域,方法包括:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;基于语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;基于补偿结果,对处理后的语音进行再次识别。通过构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。

Description

一种基于语音芯片的高精度语音识别方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于语音芯片的高精度语音识别方法及系统。
背景技术
目前,随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,并且正在改变人类的生产和生活方式,在日常生活中对语音信号进行识别过程中,一般是需要进行降噪处理的,但是一般只是按照过滤器或者模型来对语音本身进行降噪,降噪过程中会出现部分语音失真,无法进行识别,使得降噪效果不理想,进而导致语音识别无法达到高精度的识别。
发明内容
本发明提供一种基于语音芯片的高精度语音识别方法及系统,通过对采集的当下语音进行去噪和语音增强处理,构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。
本发明提出一种基于语音芯片的高精度语音识别方法,包括:
步骤1:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
步骤2:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
步骤3:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
步骤4:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
步骤5:基于补偿结果,对处理后的语音进行再次识别。
优选的,基于语音采集芯片采集当下语音,包括:
获取语音采集芯片的标识码,并根据所述标识码获取所述语音采集芯片相对应的配置信息;
基于所述配置信息确定所述语音采集芯片的兼容语音类型;
当所述语音采集芯片接收到采集当下语音的指令时,采集当下语音并对所述当下语音进行检测,确定所述当下语音的当下语音类型;
判断所述当下语音类型是否与兼容语音类型一致,若一致,将采集的当下语音保留;
否则,将采集的当下语音删除,且对所述语音采集芯片的当下采集模式进行调节,进行重新采集。
优选的,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定,包括:
确定所述当下语音的采集来源;
评估所述采集来源的外放声音与所述当下语音的匹配兼容度;
确认所述匹配兼容度是否大于等于预设阈值,若是,确认采集来源的采集置信度为高,否则,采集来源的采集置信度为低。
优选的,确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,包括:
从声音-来源数据库中获取采集来源的标准声音并制作第一声音图谱;
制作获取的当下语音的第二声音图谱;
将所述第一声音图谱和第二声音图谱进行比较,确定采集来源的初始噪音;
基于所述采集置信度判断所述当下语音是否具备作为待识别语音的条件,若是,将待识别语音分成多个频段;
获取所述多个频段中每个频段的噪声等效功率,计算每个频段的噪声抑制因子;
对待识别语音进行傅里叶变换,得到每个频段的幅值;
基于每个频段的噪声抑制因子和对应的每个频段的幅值,得到去噪后的幅值;
对去噪后的幅值进行反向傅里叶变换,得到去噪后的语音;
将去噪后的语音分成多个语音帧,获取各个语音帧的声学特征;
基于各个语音帧的声学特征确定该语音帧的语音增强参数;
利用语音帧的语音增强参数对去噪后的语音进行增强处理,得到增强后的语音。
优选的,提取处理后的语音中的语音特征来构建语音图谱,包括:
去除所述处理后的语音中的无关部分,得到第一语音;
构建音频特征提取模型并对所述第一语音进行特征提取,得到语音特征;
基于预设特征识别模型对语音特征进行识别,得到对应的识别结果,并按照结果转换规则,得到语音图谱。
优选的,实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱,包括:
获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;
获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;
根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据,构建识别图谱。
优选的,基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析,包括:
将当下语音分成多个语音帧,对语音帧进行频谱分析,获取分析结果;
将所述语音图谱和识别图谱进行对比,且结合频谱分析结果得到语音信息中丢失的语音帧;
获取与多个丢失的语音帧对应的多个语音恢复包;
对多个语音恢复包进行发声分析,得到每个语音恢复包的失真信息;
基于所述失真信息,确定与丢失的语音帧对应的目标恢复语音包,将所述目标恢复语音包对应的语音补偿包对当下语音进行补偿。
优选的,去除所述处理后的语音中的无关部分,得到第一语音,包括:
通过预设音频拆分检测算法将所述当下语音拆分成多个语音段;
检测每个语音段中的每帧音频的帧能量和过零次数,若所述帧能量为0,则判定对应帧音频为静音,若所述帧能量不为0,且过零次数为1,则判定对应帧音频为非静音;
获取每个语音段的非静音的音频帧分布,获得对应音频帧分布中超过预设峰值的帧个数的第一占比;
判断所述第一占比是否大于音频帧分布的一半;
若是,将对应语音段保留;
否则,判断获取对应音频帧分布中超过预设峰值的第一峰值平均幅度以及未超过预设峰值的第二峰值平均幅度;
计算所述第一峰值平均幅度与第二峰值平均幅度的第一比值B1、第一峰值平均幅度与预设峰值的第二比值B2以及第二峰值平均幅度与预设峰值的第三比值B3;
建立比值函数Y(B1,B2,B3),确定比值有效值;
当比值有效值大于预设有效值时,将对应语音段保留;
否则,将对应语音段剔除;
按照时间顺序,将所有保留的语音段进行重新拼接,得到新语音。
优选的,基于所述配置信息确定所述语音采集芯片的兼容语音类型,包括:
根据所述配置信息确定语音采集芯片的采集语音格式;
获取预设数量个语音类型各自对应的语音样本,将所述语音样本的当前格式转化为采集语音格式;
将转化后的语音样本供语音采集芯片进行采集,获取采集结果;
根据所述采集结果计算出语音采集芯片对于每个语音类型的语音样本的采集率:
Figure 362112DEST_PATH_IMAGE001
其中,Pi为语音采集芯片对于第i个语音类型的语音样本的采集率,
Figure 912042DEST_PATH_IMAGE002
为基于语音时长的第一权重,
Figure 278564DEST_PATH_IMAGE003
为基于固定矢量的第二权重,f()为语音采集芯片的窗函数,
Figure 447508DEST_PATH_IMAGE004
表示基于窗函数对
Figure 81621DEST_PATH_IMAGE005
进行采集后的信号的语音时长,
Figure 536873DEST_PATH_IMAGE005
为第i个语音类型的转化后的语音样本的语音信号的语音时长,
Figure 843220DEST_PATH_IMAGE006
为第i个语音类型的转化后的语音样本在采集之前的初始固定矢量,
Figure 363326DEST_PATH_IMAGE007
为第i个语音类型的转化后的语音样本经由语音采集芯片的采集结果中的当前固定矢量,u为语音采集芯片的性能指数,取值为0.9,ln为自然对数,k为语音采集芯片的采集延迟增益对性能指数的影响因子,取值范围为[0.1,0.3];
选择采集率大于预设阈值的目标语音类型作为语音采集芯片的兼容语音类型。
一种基于语音芯片的高精度语音识别系统,包括:
确定模块:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
去噪模块:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
第一识别模块:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
补偿模块:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
第二识别模块:基于补偿结果,对处理后的语音进行再次识别。
与现有技术相比,本申请的有益效果如下:通过对采集的当下语音进行去噪和语音增强处理,构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于语音芯片的高精度语音识别方法的流程图;
图2为本发明实施例中一种基于语音芯片的高精度语音识别系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供一种基于语音芯片的高精度语音识别方法,如图1所示,该方法包括:
步骤1:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
步骤2:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
步骤3:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
步骤4:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
步骤5:基于补偿结果,对处理后的语音进行再次识别。
该实施例中,当下语音是从某个设定的场景中获取到的,且获取到的语音中可能会存在噪声或者声音比较弱化的部分,因此,需要进行去噪和增强处理。
该实施例中,采集来源是语音是从哪里获取的,比如是开空调的房间里,或者是放音乐的房间里,指的是可以采集到语音的场景。
该实施例中,采集置信度是采集来源的可靠度,主要是确保获得的语音的可靠性和信服度,比如,需要对空调设备房间中的空调设备的运转所产生的声音进行采集,但是此过程中会存在人对话的情况,通过将当下语音与标准语音比较,来确定置信度。
该实施例中,初始噪音是不含有噪音的标准声音和含有噪音的当下语音进行比较,得到的噪音,比如标准声音是房间里只有空调的声音,当下语音是房间里空调和人说话的声音,那么人说话的声音就是噪音。
该实施例中,语音特征与每个语音帧的能量有关,可以通过语音的能量构建语音图谱。
该实施例中,脉冲信号是芯片在识别过程中,由于语音里不同帧对应的能量是不一样的以及对应的语言表述也是不一样的,因此,在识别过程中会出现不同的脉冲大小来作为识别结果,可以根据脉冲大小的识别结果来有效的构建处识别图谱。
该实施例中,补偿分析是语音图谱中含有a段语音,但是识别图谱在识别的过程中未识别出a段语音,用补偿包对识别图谱为识别出来的语音段进行补偿。
该实施例中,关联关系主要指的识别图谱与语音图谱中存在的一致语音段以及不一致语音段,进而对不一致语音段进行补偿分析。
上述技术方案的有益效果是:通过对采集的当下语音进行去噪和语音增强处理,构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。
实施例2:
本发明提供一种基于语音芯片的高精度语音识别方法,基于语音采集芯片采集当下语音,包括:
获取语音采集芯片的标识码,并根据所述标识码获取所述语音采集芯片相对应的配置信息;
基于所述配置信息确定所述语音采集芯片的兼容语音类型;
当所述语音采集芯片接收到采集当下语音的指令时,采集当下语音并对所述当下语音进行检测,确定所述当下语音的当下语音类型;
判断所述当下语音类型是否与兼容语音类型一致,若一致,将采集的当下语音保留;
否则,将采集的当下语音删除,且对所述语音采集芯片的当下采集模式进行调节,进行重新采集。
该实施例中,标识码是芯片特有的唯一码,可以判断出芯片的型号,判断出芯片的特征。
该实施例中,配置信息是芯片的信息,比如兼容、分类和规格。
该实施例中,兼容语音类型是和芯片相匹配的语音,不会产生排斥,比如获取的当下语音是纯语音,而芯片的兼容语音是复合音,那么当下语音和芯片的兼容语音就会产生排斥,需要重新进行采集。
该实施例中,采集模式是对语音采集的方法,比如,发言采集模式、立体声混音采集模式、卡拉OK采集模式、线路输入采集模式。
上述技术方案的有益效果是:通过确定语音采集芯片的兼容类型和采集的当下语音的语音类型是否兼容,获取需要的当下语音,能够确定所需要的语音,选择最合适、最匹配的语音。
实施例3:
本发明提供一种基于语音芯片的高精度语音识别方法,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定,包括:
确定所述当下语音的采集来源;
评估所述采集来源的外放声音与所述当下语音的匹配兼容度;
确认所述匹配兼容度是否大于等于预设阈值,若是,确认采集来源的采集置信度为高,否则,采集来源的采集置信度为低。
该实施例中,采集来源是语音是从哪里获取的,比如是开空调的房间里,或者是放音乐的房间里。
该实施例中,外放声音是环境自然音效,比如空调房里的音乐声,游戏声。
该实施例中,预设阈值是采集来源的外放声音与所述当下语音匹配的程度,如果大于50%,则可确认置信度为高,如果小于等于50%,则可确认置信度为低。
上述技术方案的有益效果是:通过确定当下语音的采集来源并对采集来源的置信度进行确认,能够获取到高可信度的语音,保证语音的可靠性,时后续识别语音更加具有信服度。
实施例4:
本发明提供一种基于语音芯片的高精度语音识别方法,确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,包括:
从声音-来源数据库中获取采集来源的标准声音并制作第一声音图谱;
制作获取的当下语音的第二声音图谱;
将所述第一声音图谱和第二声音图谱进行比较,确定采集来源的初始噪音;
基于所述采集置信度判断所述当下语音是否具备作为待识别语音的条件,若是,将待识别语音分成多个频段;
获取所述多个频段中每个频段的噪声等效功率,计算每个频段的噪声抑制因子;
对待识别语音进行傅里叶变换,得到每个频段的幅值;
基于每个频段的噪声抑制因子和对应的每个频段的幅值,得到去噪后的幅值;
对去噪后的幅值进行反向傅里叶变换,得到去噪后的语音;
将去噪后的语音分成多个语音帧,获取各个语音帧的声学特征;
基于各个语音帧的声学特征确定该语音帧的语音增强参数;
利用语音帧的语音增强参数对去噪后的语音进行增强处理,得到增强后的语音。
该实施例中,声音-来源数据库是存储声音和声音来源关系的数据库。
该实施例中,初始噪音是不含有噪音的标准声音和含有噪音的当下语音进行比较,得到的噪音,比如标准声音是房间里只有空调的声音,当下语音是房间里空调和人说话的声音,那么人说话的声音就是噪音。
该实施例中,第一声音图谱是不包含初始噪音的图谱,比如是只有空调的声音回执单图谱。
该实施例中,第二声音图谱是包含初始噪音的图谱,比如是房间里空调和人说话的声音都包含的绘制的图谱。
该实施例中,噪声等效功率是与特定带宽的内部噪声相同的信号输出功率所需的入射光功率。
该实施例中,噪声抑制因子是降低噪音的一些因素,比如是环境因素或者是产品性能,产品性能好的芯片对降低噪音的影响就会大。
该实施例中,声学特征是声学特性的物理量,比如是能量、音频或者是平均语声功率。
该实施例中,语音增强参数是语音中含有的音调过低,就对音调进行增强,语音在中的音量过低,就对音量进行增强,主要指的是对需要进行语音增强位置处的语音进行一定程度的增强,且增强多少是基于对应帧的声学特征确定的。
上述技术方案的有益效果是:对噪音进行去噪并进行语音增强处理,可以得到更纯净的语音信息,保证语音的质量,提高语音处理系统的识别能力,提升语音的清晰度。
实施例5:
本发明提供一种基于语音芯片的高精度语音识别方法,提取处理后的语音中的语音特征来构建语音图谱,包括:
去除所述处理后的语音中的无关部分,得到第一语音;
构建音频特征提取模型并对所述第一语音进行特征提取,得到语音特征;
基于预设特征识别模型对语音特征进行识别,得到对应的识别结果,并按照结果转换规则,得到语音图谱。
该实施例中,无关部分是语音能量为0的静音部分以及语音能量不为0的比值有效值小于预设有效值的语音部分。
该实施例中,音频特征提取模型是提取语音中的音高、语调、能量、节奏变化的模型。
该实施例中,语音特征是语音的能量,周期或者频谱。
该实施例中,预设特征识别模型是对语音中的音高、语调、能量、节奏变化进行识别,获取相对应的参数。
该实施例中,结果转换规是将语音根据语音特征转化为图谱,比如的根据语音的能量绘制语音的能量图谱。
上述技术方案的有益效果是:对去除静音部分的语音进行特征提取,并对语音特征进行识别,得到语音图谱,能够快速确定语音的特征,对语音的识别更有可信度。
实施例6:
本发明提供一种基于语音芯片的高精度语音识别方法,实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱,包括:
获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;
获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;
根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据,构建识别图谱。
该实施例中,脉冲是语音信号忽高忽低,之后又重复忽高忽低,它的每一次的高低起伏,一般来说它的幅度宽度以及波形往往是相同或者是有规律的。
该实施例中,第一脉冲峰值数据是脉冲的最高值。
该实施例中,第二脉冲峰值数据是脉冲的次高值。
该实施例中,脉冲谷值数据是脉冲的最低值。
上述技术方案的有益效果是:通过识别语音过程中的脉冲信号,获取脉冲数据和脉冲谷值数据,构建识别图谱,能够快速判断芯片对语音的识别情况,更直观的看出识别过程中是否出现遗漏,提高了识别稳定性。
实施例7:
本发明提供一种基于语音芯片的高精度语音识别方法,基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析,包括:
将当下语音分成多个语音帧,对语音帧进行频谱分析,获取分析结果;
将所述语音图谱和识别图谱进行对比,且结合频谱分析结果得到语音信息中丢失的语音帧;
获取与多个丢失的语音帧对应的多个语音恢复包;
对多个语音恢复包进行发声分析,得到每个语音恢复包的失真信息;
基于所述失真信息,确定与丢失的语音帧对应的目标恢复语音包,将所述目标恢复语音包对应的语音补偿包对当下语音进行补偿。
该实施例中,语音帧是将语音分成长度相同的多段。
该实施例中,丢失的语音帧是识别过程中未识别到的语音帧。
该实施例中,语音恢复包是修复语音,对语音进行补偿的数据包。
该实施例中,发声分析是对语音恢复包里的语音声音进行分析。
该实施例中,失真信息是信号在传输过程中与原有信号或标准相比所发生的偏差,比如输入出信号要与输入信号要完全一样,但是实际上可能会有一点偏差,偏差的这部分就是失真信息。
上述技术方案的有益效果是:通过将语音图谱和识别图谱进行比较,获取丢失的语音帧,利用对应的语音恢复包对丢失的语音帧进行补偿分析,得到补偿后的语音,为再次识别语音奠定了基础,对语音实现高精度识别提提供了前提条件。
实施例8:
本发明提供一种基于语音芯片的高精度语音识别方法,去除所述处理后的语音中的无关部分,得到第一语音,包括:
通过预设音频拆分检测算法将所述当下语音拆分成多个语音段;
检测每个语音段中的每帧音频的帧能量和过零次数,若所述帧能量为0,则判定对应帧音频为静音,若所述帧能量不为0,且过零次数为1,则判定对应帧音频为非静音;
获取每个语音段的非静音的音频帧分布,获得对应音频帧分布中超过预设峰值的帧个数的第一占比;
判断所述第一占比是否大于音频帧分布的一半;
若是,将对应语音段保留;
否则,判断获取对应音频帧分布中超过预设峰值的第一峰值平均幅度以及未超过预设峰值的第二峰值平均幅度;
计算所述第一峰值平均幅度与第二峰值平均幅度的第一比值B1、第一峰值平均幅度与预设峰值的第二比值B2以及第二峰值平均幅度与预设峰值的第三比值B3;
建立比值函数Y(B1,B2,B3),确定比值有效值;
当比值有效值大于预设有效值时,将对应语音段保留;
否则,将对应语音段剔除;
按照时间顺序,将所有保留的语音段进行重新拼接,得到新语音。
该实施例中,预设音频拆分检测算法是事先设定好的,通过对多个音频样本进行拆分检测得到的计算,音频样本数量大于1000。
该实施例中,第一占比是音频帧中超过预设峰值的帧的个数占语音段中的音频帧的个数,比如音频帧中峰值超过预设峰值的个数为10,那么第一占比就是10%。
该实施例中,第一峰值平均幅度是超过预设峰值的所有峰值的平均数。
该实施例中,第二峰值平均幅度是未超过预设峰值的所有峰值的平均数。
该实施例中,建立比值函数Y(B1,B2,B3),确定比值有效值是根据比值B1、比值B2以及比值B3和对应范围进行比较,来综合获取的一个有效值。
由于会预先设置好不同幅度进行比较之后的比值范围,因此,通过B1、B2、B3分别与对应比值范围进行比较,如果都在对应比值范围内,则视为所有比值都有效,那么就可以得到比值有效值。
针对B1情况下的比值范围为(b1,b2),针对B2情况下的比值范围为(1,b1),针对B3情况下的比值范围为(0,1),其中,1<b1<b2,且b1、b2为常数;
如果B1在范围(b1,b2)中,对应的第一有效因子为0.4,当不在对应范围内,对应的第一有效因子为0.1;
如果B2在范围(1,b1)中,对应的第二有效因子为0.3,当不在对应范围内,对应的第二有效因子为0.12;
如果B3在范围(0,1)中,对应的第二有效因子为0.2,当不在对应范围内,对应的第三有效因子为0.09;
那么,当比值都在对应范围内时,获取的比值有效值为:0.4+0.3+0.2=0.9,且预设有效值是预先设置好的,为0.7,此时,可以将语音段保留。
上述技术方案的有益效果是:通过确定音频中的静音段和无效段,并将静音段和无效段进行剔除处理,使整个音频中的信息都是有效语音,对于音频的转换打好了基础,并节省了转换时间,使整个识别过程的速度得到了提升。
实施例9:
本发明提供一种基于语音芯片的高精度语音识别方法,基于所述配置信息确定所述语音采集芯片的兼容语音类型,包括:
根据所述配置信息确定语音采集芯片的采集语音格式;
获取预设数量个语音类型各自对应的语音样本,将所述语音样本的当前格式转化为采集语音格式;
将转化后的语音样本供语音采集芯片进行采集,获取采集结果;
根据所述采集结果计算出语音采集芯片对于每个语音类型的语音样本的采集率:
Figure 602677DEST_PATH_IMAGE001
其中,Pi为语音采集芯片对于第i个语音类型的语音样本的采集率,
Figure 228830DEST_PATH_IMAGE002
为基于语音时长的第一权重,
Figure 271742DEST_PATH_IMAGE003
为基于固定矢量的第二权重,f()为语音采集芯片的窗函数,
Figure 579226DEST_PATH_IMAGE004
表示基于窗函数对
Figure 980DEST_PATH_IMAGE005
进行采集后的信号的语音时长,
Figure 752030DEST_PATH_IMAGE005
为第i个语音类型的转化后的语音样本的语音信号的语音时长,
Figure 298549DEST_PATH_IMAGE006
为第i个语音类型的转化后的语音样本在采集之前的初始固定矢量,
Figure 127833DEST_PATH_IMAGE007
为第i个语音类型的转化后的语音样本经由语音采集芯片的采集结果中的当前固定矢量,u为语音采集芯片的性能指数,取值为0.9,ln为自然对数,k为语音采集芯片的采集延迟增益对性能指数的影响因子,取值范围为[0.1,0.3];
选择采集率大于预设阈值的目标语音类型作为语音采集芯片的兼容语音类型。
该实施例中,语音格式是指的是MP3,MP4等格式。
该实施例中,窗函数就是不同的截取函数对信号进行截断,截断函数就是窗函数,防止频谱能量的泄露。
比如,语音样本的信号为:1111211,时长视为7,此时,窗函数截取范围为[0.8,1.5]那么截取出来的结果为111111,时长视为6。
该实施例中,矢量是有大小和方向的物理量,比如是语音的传递速度。
该实施例中,性能指数与采集的语音音质相关,音质越好,性能指数越大。
该实施例中,延迟增益是采集过程中,因为采集量过大导致时间延迟而对时间进行的补偿。
上述技术方案的有益效果是:通过计算语音采集芯片对于语音样本的采集率,获取到采集率大于预设阈值的目标语音类型作为采集芯片的兼容语音类型,能够快速确定与芯片相匹配的语音类型,对于确定语音的可靠性有很大的帮助,同时能够快速确定语音的语音类型,便于提取语音特征。
实施例10:
一种基于语音芯片的高精度语音识别系统,如图2所示,包括:
确定模块:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
去噪模块:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
第一识别模块:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
补偿模块:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
第二识别模块:基于补偿结果,对处理后的语音进行再次识别。
上述技术方案的有益效果是:通过对采集的当下语音进行去噪和语音增强处理,构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于语音芯片的高精度语音识别方法,其特征在于,该方法包括:
步骤1:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
步骤2:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
步骤3:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
步骤4:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
步骤5:基于补偿结果,对处理后的语音进行再次识别;
其中,实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱,包括:
获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;
获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;
根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据,构建识别图谱;
其中,基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析,包括:
将当下语音分成多个语音帧,对语音帧进行频谱分析,获取分析结果;
将所述语音图谱和识别图谱进行对比,且结合频谱分析结果得到语音信息中丢失的语音帧;
获取与多个丢失的语音帧对应的多个语音恢复包;
对多个语音恢复包进行发声分析,得到每个语音恢复包的失真信息;
基于所述失真信息,确定与丢失的语音帧对应的目标恢复语音包,将所述目标恢复语音包对应的语音补偿包对当下语音进行补偿。
2.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,基于语音采集芯片采集当下语音,包括:
获取语音采集芯片的标识码,并根据所述标识码获取所述语音采集芯片相对应的配置信息;
基于所述配置信息确定所述语音采集芯片的兼容语音类型;
当所述语音采集芯片接收到采集当下语音的指令时,采集当下语音并对所述当下语音进行检测,确定所述当下语音的当下语音类型;
判断所述当下语音类型是否与兼容语音类型一致,若一致,将采集的当下语音保留;
否则,将采集的当下语音删除,且对所述语音采集芯片的当下采集模式进行调节,进行重新采集。
3.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定,包括:
确定所述当下语音的采集来源;
评估所述采集来源的外放声音与所述当下语音的匹配兼容度;
确认所述匹配兼容度是否大于等于预设阈值,若是,确认采集来源的采集置信度为高,否则,采集来源的采集置信度为低。
4.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,包括:
从声音-来源数据库中获取采集来源的标准声音并制作第一声音图谱;
制作获取的当下语音的第二声音图谱;
将所述第一声音图谱和第二声音图谱进行比较,确定采集来源的初始噪音;
基于所述采集置信度判断所述当下语音是否具备作为待识别语音的条件,若是,将待识别语音分成多个频段;
获取所述多个频段中每个频段的噪声等效功率,计算每个频段的噪声抑制因子;
对待识别语音进行傅里叶变换,得到每个频段的幅值;
基于每个频段的噪声抑制因子和对应的每个频段的幅值,得到去噪后的幅值;
对去噪后的幅值进行反向傅里叶变换,得到去噪后的语音;
将去噪后的语音分成多个语音帧,获取各个语音帧的声学特征;
基于各个语音帧的声学特征确定该语音帧的语音增强参数;
利用语音帧的语音增强参数对去噪后的语音进行增强处理,得到增强后的语音。
5.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,提取处理后的语音中的语音特征来构建语音图谱,包括:
去除所述处理后的语音中的无关部分,得到第一语音;
构建音频特征提取模型并对所述第一语音进行特征提取,得到语音特征;
基于预设特征识别模型对语音特征进行识别,得到对应的识别结果,并按照结果转换规则,得到语音图谱。
6.根据权利要求5所述的基于语音芯片的高精度语音识别方法,其特征在于,去除所述处理后的语音中的无关部分,得到第一语音,包括:
通过预设音频拆分检测算法将所述当下语音拆分成多个语音段;
检测每个语音段中的每帧音频的帧能量和过零次数,若所述帧能量为0,则判定对应帧音频为静音,若所述帧能量不为0,且过零次数为1,则判定对应帧音频为非静音;
获取每个语音段的非静音的音频帧分布,获得对应音频帧分布中超过预设峰值的帧个数的第一占比;
判断所述第一占比是否大于音频帧分布的一半;
若是,将对应语音段保留;
否则,判断获取对应音频帧分布中超过预设峰值的第一峰值平均幅度以及未超过预设峰值的第二峰值平均幅度;
计算所述第一峰值平均幅度与第二峰值平均幅度的第一比值B1、第一峰值平均幅度与预设峰值的第二比值B2以及第二峰值平均幅度与预设峰值的第三比值B3;
建立比值函数Y(B1,B2,B3),确定比值有效值;
当比值有效值大于预设有效值时,将对应语音段保留;
否则,将对应语音段剔除;
按照时间顺序,将所有保留的语音段进行重新拼接,得到新语音。
7.根据权利要求2所述的基于语音芯片的高精度语音识别方法,其特征在于,基于所述配置信息确定所述语音采集芯片的兼容语音类型,包括:
根据所述配置信息确定语音采集芯片的采集语音格式;
获取预设数量个语音类型各自对应的语音样本,将所述语音样本的当前格式转化为采集语音格式;
将转化后的语音样本供语音采集芯片进行采集,获取采集结果;
根据所述采集结果计算出语音采集芯片对于每个语音类型的语音样本的采集率:
Figure QLYQS_1
其中,Pi为语音采集芯片对于第i个语音类型的语音样本的采集率,
Figure QLYQS_2
为基于语音时长的第一权重,
Figure QLYQS_3
为基于固定矢量的第二权重,f()为语音采集芯片的窗函数,
Figure QLYQS_4
表示基于窗函数对
Figure QLYQS_5
进行采集后的信号的语音时长,
Figure QLYQS_6
为第i个语音类型的转化后的语音样本的语音信号的语音时长,
Figure QLYQS_7
为第i个语音类型的转化后的语音样本在采集之前的初始固定矢量,
Figure QLYQS_8
为第i个语音类型的转化后的语音样本经由语音采集芯片的采集结果中的当前固定矢量,u为语音采集芯片的性能指数,取值为0.9,ln为自然对数,k为语音采集芯片的采集延迟增益对性能指数的影响因子,取值范围为[0.1,0.3];
选择采集率大于预设阈值的目标语音类型作为语音采集芯片的兼容语音类型。
8.一种基于语音芯片的高精度语音识别系统,其特征在于,包括:
确定模块:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
去噪模块:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;
第一识别模块:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;
补偿模块:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;
第二识别模块:基于补偿结果,对处理后的语音进行再次识别;
其中,第一识别模块,用于:
获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;
获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;
根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据,构建识别图谱;
其中,补偿模块,用于:
将当下语音分成多个语音帧,对语音帧进行频谱分析,获取分析结果;
将所述语音图谱和识别图谱进行对比,且结合频谱分析结果得到语音信息中丢失的语音帧;
获取与多个丢失的语音帧对应的多个语音恢复包;
对多个语音恢复包进行发声分析,得到每个语音恢复包的失真信息;
基于所述失真信息,确定与丢失的语音帧对应的目标恢复语音包,将所述目标恢复语音包对应的语音补偿包对当下语音进行补偿。
CN202211565449.3A 2022-12-07 2022-12-07 一种基于语音芯片的高精度语音识别方法及系统 Active CN115631743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211565449.3A CN115631743B (zh) 2022-12-07 2022-12-07 一种基于语音芯片的高精度语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211565449.3A CN115631743B (zh) 2022-12-07 2022-12-07 一种基于语音芯片的高精度语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN115631743A CN115631743A (zh) 2023-01-20
CN115631743B true CN115631743B (zh) 2023-03-21

Family

ID=84910468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211565449.3A Active CN115631743B (zh) 2022-12-07 2022-12-07 一种基于语音芯片的高精度语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN115631743B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264892A (zh) * 1999-02-23 2000-08-30 摩托罗拉公司 语音识别系统及其方法
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN111292747A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种电话网络用文本自动语音录入系统
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
WO2022134833A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN115359803A (zh) * 2022-10-21 2022-11-18 中诚华隆计算机技术有限公司 一种基于芯片实现的语音降噪优化方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264892A (zh) * 1999-02-23 2000-08-30 摩托罗拉公司 语音识别系统及其方法
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN111292747A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种电话网络用文本自动语音录入系统
WO2022134833A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN115359803A (zh) * 2022-10-21 2022-11-18 中诚华隆计算机技术有限公司 一种基于芯片实现的语音降噪优化方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文婷 ; .基于DSP的语音识别的设计与实现.(第23期), *
王群 ; 曾庆宁 ; 郑展恒 ; .低信噪比环境下的麦克风阵列语音识别算法研究.(第31期), *

Also Published As

Publication number Publication date
CN115631743A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN111816218A (zh) 语音端点检测方法、装置、设备及存储介质
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN110299141B (zh) 一种声纹识别中录音回放攻击检测的声学特征提取方法
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN110689885A (zh) 机器合成语音识别方法、装置、存储介质及电子设备
CN115631743B (zh) 一种基于语音芯片的高精度语音识别方法及系统
CN108735230A (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN111370000A (zh) 声纹识别算法评估方法、系统、移动终端及存储介质
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN114882906A (zh) 一种新型环境噪声识别方法及系统
CN112201226B (zh) 一种发声方式判别方法及系统
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法
CN115967894B (zh) 一种话筒声音处理方法、系统、终端设备及存储介质
KR100381372B1 (ko) 음성특징 추출장치
CN111508503B (zh) 一种识别同一说话人的方法和装置
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
CN111768801A (zh) 气流杂音消除方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant