CN111462757A - 基于语音信号的数据处理方法、装置、终端及存储介质 - Google Patents

基于语音信号的数据处理方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111462757A
CN111462757A CN202010042542.0A CN202010042542A CN111462757A CN 111462757 A CN111462757 A CN 111462757A CN 202010042542 A CN202010042542 A CN 202010042542A CN 111462757 A CN111462757 A CN 111462757A
Authority
CN
China
Prior art keywords
emphasis
signal
target
determining
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010042542.0A
Other languages
English (en)
Other versions
CN111462757B (zh
Inventor
王秋明
吴富章
邓菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202010042542.0A priority Critical patent/CN111462757B/zh
Publication of CN111462757A publication Critical patent/CN111462757A/zh
Application granted granted Critical
Publication of CN111462757B publication Critical patent/CN111462757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种基于语音信号的数据处理方法、装置、终端及存储介质。其中方法包括:检测到语音信号时,确定针对语音信号的多个候选预加重系数各自对应的预加重信号;基于针对语音信号的多个候选预加重系数各自对应的预加重信号,确定多个斜度;将多个斜度分别与预设斜度阈值进行比较,并依据比较结果确定目标斜度以及目标预加重系数;依据目标斜度及目标候选预加重系数,对语音信号进行处理。本申请实施例解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

Description

基于语音信号的数据处理方法、装置、终端及存储介质
技术领域
本申请涉及语音处理技术领域,特别涉及一种基于语音信号的数据处 理方法、装置、终端及存储介质。
背景技术
基于语音信号处理的声纹识别、语音识别等交互技术目前在智能家居、 智能驾驶等诸多领域都有了比较成熟的应用。语音识别、声纹识别都是基 于深度学习等训练方法对海量标注数据进行训练,获得数据分布信息,因 此麦克风采集到的音频信号和训练数据的匹配程度会影响后续声纹识别、 语音识别的准确率。由于语音信号是宽度信号,能量主要分布在在50Hz到 8000Hz之间。麦克风传感器对各个频率感知增益(频响曲线)并不完全一致,在中高频感知增益低于低频,并且频率越高增益越小。因此,在用户 与麦克风的距离适中的情况下,可以调节频响曲线使得采集的声信号在正 值与负值之间均衡;在用户与麦克风的距离较近的情况下,音频信号在高 频能量分布远远低于低频能量,会造成信号整体下移,影响后续声纹识别、 语音识别的准确性。
相关技术中一般采用号预加重技术对不同频带的能量进行调整,但预 加重技术中采用的是通过固定的前向滤波权重的方式,来抑制低频能量并 实现能量均衡,因此,这种方式并无法解决距离对不同频带的能量的影响, 存在声纹验证精度差、语音识别的准确性低的问题。
发明内容
本申请旨在解决至少一个上述技术问题,本申请提出一种基于语音信 号的数据处理方法、装置、终端及存储介质。
第一方面,本申请提供一种基于语音信号的数据处理方法,该方法包括:
检测到语音信号时,确定针对语音信号的多个候选预加重系数各自对应的 预加重信号;
基于针对语音信号的多个候选预加重系数各自对应的预加重信号,确定多 个斜度;
将多个斜度分别与预设斜度阈值进行比较,并依据比较结果确定目标斜度 以及目标预加重系数;
依据目标斜度及目标候选预加重系数,对语音信号进行处理。
第二方面,本申请提供一种基于语音信号的数据处理装置,该装置包括:
加重信号确定模块,用于检测到语音信号时,确定针对语音信号的多个候 选预加重系数各自对应的预加重信号;
信号斜度确定模块,用于基于针对语音信号的多个候选预加重系数各自对 应的预加重信号,确定多个斜度;
处理参数确定模块,用于将多个斜度分别与预设斜度阈值进行比较,并依 据比较结果确定目标斜度以及目标预加重系数;
信号处理模块,用于依据目标斜度及目标候选预加重系数,对语音信号进 行处理。
第三方面,本申请提供一种终端,该终端包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处 理器执行计算机程序时实现上述基于语音信号的数据处理方法。
第四方面,本申请提供一种计算机可读存储介质,存储有计算机可执行 指令,计算机可执行指令用于执行上述基于语音信号的数据处理方法。
本申请实施例的有益效果:通过检测语音信来确定针对语音信号的多个 候选预加重系数各自对应的预加重信号,以基于针对语音信号的多个候选预加 重系数各自对应的预加重信号,确定多个斜度,进而将多个斜度分别与预设斜 度阈值进行比较,并依据比较结果确定目标斜度以及目标预加重系数,从而依 据目标斜度及目标候选预加重系数,对语音信号进行处理,解决了现有技术中 因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证 精度差、语音识别的准确性低的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本 申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及 其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本申请实施例提供的基于语音信号的数据处理方法的流程示意 图;
图2是本申请实施例提供的基于语音信号的数据处理装置的框图结构示 意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施 例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申 请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征 可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
本申请提供了一种基于语音信号的数据处理方法,如图1所示,该方法包 括:步骤S101至步骤S104。
步骤S101、检测到语音信号时,确定针对语音信号的多个候选预加重系 数各自对应的预加重信号。
本申请实施例中,终端设备检测到语音信号时,确定针对语音信号的多个 候选预加重系数各自赌赢的预加重信号。具体地,终端设备可以为中控设备, 也可以为被控设备。例如,智能家居控制系统中,手机等移动终端可以作为中 控设备与多个智能家电(如智能空调)通过WiFi、蓝牙等无线连接方式进行 连接,手机通过麦克风检测用户输入的语音信号;再如,智能音响可以作为被 控设备,利用内置的麦克风检测用户输入的语音信号。
本申请实施例中,多个候选预加重系数一般是依据用户与麦克风的距离设 置。例如,当用户距离麦克风S1米时,对应的预加重系数为
Figure BDA0002368248270000042
当用户距离麦 克风S2米时,对应的预加重系数为
Figure BDA0002368248270000043
以此类推,确定出多个预加重系数来 作为本申请实施例中多个候选预加重系数。
具体应用时,一般滤波器来确定语音信号针对多个候选预加重系数各自对 应的预加重信号。
具体应用时,多个预加重系数一般设置在终端设备本地,执行步骤S101 时直接在本地进行读取即可,另外,存储在本地的多个预加重系数还可以通过 向服务器发送更新请求来实现更新本地存储的多个预加重系数的目的;具体应 用时,多个预加重系数还可以设置在服务端,终端设备在执行步骤S101时, 将语音信号发送至服务端,以使服务端计算语音信号针对多个候选预加重系数 各自对应的预加重信号,并在服务端计算完成后发送至终端设备,从而完成确 定语音信号针对多个候选预加重系数各自对应的预加重信号的目的。
具体地,假设多个候选预加重系数的数量为N,第n个候选系数为
Figure BDA0002368248270000041
若麦克风检测到的语音信号为y(t),t为时间变量,对每一个候选预加重系数 αn,进行预加重计算,信号输出x(t)为:
x(t)=y(t)-αny(t-1)。
步骤S102、基于针对语音信号的多个候选预加重系数各自对应的预加重 信号,确定多个斜度。
具体地,每一个预加重系数,对应一组预加重信号输出,对每一组预加重 信号输出,并计算斜度。
本申请实施例中,斜度用于表征信号分布对称性的常用度量。
本申请实施例中,通过预设的预加重计算公式来根据语音信号针对多个候 选预加重系数各自对应的预加重信号,确定多个斜度。具体应用时,可以采用 任一斜度计算公式进行计算,斜度计算公式:
Figure BDA0002368248270000051
其中,ρn表示斜度,T表示语音信号的信号长度。
因此,具体应用时,信号长度可以根据通过在终端设备设定单次采集的语 音信号的长度来进行控制。
步骤S103、将多个斜度分别与预设斜度阈值进行比较,并依据比较结果 确定目标斜度以及目标预加重系数。
步骤S104、依据目标斜度及目标候选预加重系数,对语音信号进行处理。
本申请实施例,检测到语音信号时,确定针对语音信号的多个候选预加重 系数各自对应的预加重信号,以基于针对语音信号的对多个候选预加重系数各 自对应的预加重信号,确定多个斜度,进而将多个斜度分别与预设斜度阈值进 行比较,并依据比较结果确定目标斜度以及目标预加重系数,从而依据目标斜 度及目标候选预加重系数,对语音信号进行处理,解决了现有技术中因预加重 系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、 语音识别的准确性低的问题。
在一个实现方式中,步骤S101中确定针对语音信号的多个候选预加重系 数各自对应的预加重信号之前,该方法还包括:
对预存斜度进行初始化,得到初始斜度;
对预存预加重系数进行初始化,得到初始预加重系数。
本申请实施例中,预存斜度一般为上次计算得到的目标斜度,预存预加重 系数一般为上次计算得到的目标预加重系数。具体应用时,若,终端设备还未 执行过本申请实施例提供的方法,那么预存斜度即为预设的斜度,预存预加重 系数即为预设的预加重系数。
在另一个实现方式中,步骤S103依据比较结果确定目标斜度以及目标预 加重系数,包括:
若任一斜度小于初始斜度,则依据该任一斜度确定目标斜度,该任一斜度 对应的候选预加重系数确定目标预加重系数;
若任一候选预加重系数不小于初始斜度,则将初始预加重系数作为目标预 加重系数,初始斜度作为目标斜度。
例如,假设终端设备初始化本次之前得到的目标目标斜度和目标预加重系 数之后,得到初始斜度、初始预加重系数分别为:
Figure BDA0002368248270000061
将该步骤按照 如下公式进行比较:
Figure BDA0002368248270000062
因此,若某一斜度的绝对值绝对值小于初始斜度时,目标斜度、目标预加 重系数为该某一斜度的绝对值,该斜度对应的候选预加重系数为目标预加重系 数。
在另一个实现方式中,步骤S101检测到语音信号之前,该方法还包括:
对已存储的目标斜度、目标预加重系数进行初始化处理,并将初始化处理 之后的目标斜度作为初始斜度,初始化之后的目标预加重系数作为初始预加重 系数。
本申请实施例通过对各次计算得到的目标斜度、目标预加重系数的初始 化,保证了后续再次进行计算的准确性,防止了以前计算得到的目标斜度、目 标预加重系数的影响。
在又一个实现方式中,步骤S101确定针对语音信号的多个候选预加重系 数各自对应的预加重信号之前,方法还包括:
基于预加重系数算法,确定多个距离参数分别对应的预加重系数,以得到 多个候选预加重系数。
例如,不同的距离分别采集一组语音信号y(t),假设采集周期为1分钟, 那么在距离为S时,进行语音信号的采集,得到一组语音信号y(t)。
具体应用时,根据不同的候选预加重系数来进行滤波,按照公式 x(t)=y(t)-αny(t-1)进行处理。
在又一个实现方式中,如图1所示,步骤S101检测到语音信号之后,该 方法还包括:
步骤S1011(图中未示出)、对语音信号进行预处理;
步骤S101中确定针对语音信号的多个候选预加重系数各自对应的预加重 信号,包括:
步骤S1012(图中未示出)、基于预处理之后的语音信号,确定针对多个 候选预加重系数各自对应的预加重信号。
进一步地,预处理至少包括:自适应增益控制、噪声抑制。
本申请实施例中对语音信号的增益进行自适应控制,能够保证信号在一定 幅度范围之内,而去燥处理(即噪声抑制处理)能够抑制环境噪声,避免环境 噪声对后续识别的影响,为后续确定预加重信号提供支持。
具体应用时,可以采用以下方法进行增益控制:主要方法基于过零率检测 的语音活动检测与增益控制方法、基于语音存在概率的语音活动检测与增益控 制方法、基于深度学习的语音活动检测与增益控制方法等方法。在以基于语音 存在概率的语音活动检测与增益控制方法进行增益的过程为:基于信号初始段 估计噪音的功率谱密度,然后更新更新噪音的功率谱密度与语音先验与后验信 噪比;然后根据信噪比估计结果确定语音存在概率,如果一定时段内信噪比估 计结果较大,对应语音存在概率较大,说明当前进入语音段;否则为噪音段; 随后进行增益控制,对语音存在时段把幅值调整到目标幅度范围,对噪音时段, 则不做处理。
具体应用时,可以采用麦克风阵列的超指向滤波器的方法、基于单声道噪 声功率谱密度估计的方法、基于深度学习的语音增强方法等进行去燥处理。例 如,以噪声功率谱密度估计方法进行去燥时,首先采用短时傅里叶变化把时域 信号变化到时频域,然后对信号起始段能量进行平均,得到噪声功率谱密度的 初始估计,在后续处理中实时更新噪声功率谱密度;随后构建维纳滤波器对噪 声进行抑制。
在又一个实现方式中,如图1所示,该方法还包括以下至少一项:
步骤S105(图中未示出)、确定处理后的语音信号的声纹特征;
步骤S106(图中未示出)、若声纹特征对应用户为具有控制权限的用户, 则将声纹特征与预存声纹特征数据库进行匹配,确定被控设备及相应的控制指 令,并依据控制指令对被控设备进行控制处理,声纹特征数据库包括多个被控 设备及针对多个被控设备各自对应的多个控制指令分别对应的声纹特征。
本申请实施例通过提取语音信号的声纹特征来确定相应的控制指令以及 被控设备,起到了语音控制的作用,实现了对被控设备的自动化、智能化控制。
具体地,一般可以设置声纹特征与各个被控设备的对应关系,以及声纹特 征与控制指令的对应关系,通过这两个对应关系来执行控制。
实施例二
本申请实施例提供了一种基于语音信号的数据处理装置,如图2所示,该 装置30包括:加重信号确定模块301、信号斜度确定模块302、处理参数确定 模块303和信号处理模块304,其中,
加重信号确定模块301,用于检测到语音信号时,确定针对语音信号的多 个候选预加重系数各自对应的预加重信号;
信号斜度确定模块302,用于基于针对语音信号的多个候选预加重系数各 自对应的预加重信号,确定多个斜度;
处理参数确定模块303,用于将多个斜度分别与预设斜度阈值进行比较, 并依据比较结果确定目标斜度以及目标预加重系数;
信号处理模块304,用于依据目标斜度及目标候选预加重系数,对语音信 号进行处理。
本申请实施例,检测到语音信号时,确定针对语音信号的对多个候选预加 重系数各自对应的预加重信号,以基于针对语音信号的多个候选预加重系数各 自对应的预加重信号,确定多个斜度,进而将多个斜度分别与预设斜度阈值进 行比较,并依据比较结果确定目标斜度以及目标预加重系数,从而依据目标斜 度及目标候选预加重系数,对语音信号进行处理,解决了现有技术中因预加重 系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、 语音识别的准确性低的问题。
进一步地,加重信号确定模块301确定针对语音信号的多个候选预加重 系数各自对应的预加重信号之前,用于:
对预存斜度进行初始化,得到初始斜度;
对预存预加重系数进行初始化,得到初始预加重系数。
进一步地,信号处理模块304用于:
若任一斜度小于初始斜度,则依据该任一斜度确定目标斜度,将该任一斜 度对应的候选预加重系数确定目标预加重系数;
若任一候选预加重系数不小于初始斜度,则将初始预加重系数作为目标预 加重系数,初始斜度作为目标斜度。
进一步地,加重信号确定模块301确定针对语音信号的多个候选预加重 系数各自对应的预加重信号之前,用于:
基于预加重系数算法,确定多个距离参数分别对应的预加重系数,以得到 多个候选预加重系数。
进一步地,加重信号确定模块301检测到语音信号之后,用于:
对语音信号进行预处理;
确定针对语音信号的多个候选预加重系数各自对应的预加重信号,包括:
基于预处理之后的语音信号,确定针对多个候选预加重系数各自对应的预 加重信号。
进一步地,预处理至少包括:
自适应增益控制、噪声抑制。
进一步地,信号处理模块304还包括以下至少一项:
确定处理后的语音信号的声纹特征;
若声纹特征对应用户为具有控制权限的用户,则将声纹特征与预存声纹特 征数据库进行匹配,确定被控设备及相应的控制指令,并依据控制指令对被控 设备进行控制处理,声纹特征数据库包括多个被控设备及针对多个被控设备各 自对应的多个控制指令分别对应的声纹特征。
本实施例的基于语音信号的数据处理装置可执行本申请实施例一提供的 基于语音信号的数据处理方法,其实现原理相类似,此处不再赘述。
实施例三
本申请实施例提供了一种终端,包括:存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,该处理器执行该计算机程序时以实现上述 基于语音信号的数据处理方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可 编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执 行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器 也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微 处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送 信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总 线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备, RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、 CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通 用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携 带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的 任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理 器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现所示实 施例提供的基于语音信号的数据处理装置的动作。
本申请实施例,检测到语音信号时,确定语音信号针对多个候选预加重系 数各自对应的预加重信号,以基于语音信号针对多个候选预加重系数各自对应 的预加重信号,确定多个斜度,进而将多个斜度分别与预设斜度阈值进行比较, 并依据比较结果确定目标斜度以及目标预加重系数,从而依据目标斜度及目标 候选预加重系数,对语音信号进行处理,解决了现有技术中因预加重系数固定 导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别 的准确性低的问题。
实施例四
本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指 令,计算机可执行指令用于执行上述实施例提供的基于语音信号的数据处理 方法。
本申请实施例,检测到语音信号时,确定语音信号针对多个候选预加重系 数各自对应的预加重信号,以基于语音信号针对多个候选预加重系数各自对应 的预加重信号,确定多个斜度,进而将多个斜度分别与预设斜度阈值进行比较, 并依据比较结果确定目标斜度以及目标预加重系数,从而依据目标斜度及目标 候选预加重系数,对语音信号进行处理,解决了现有技术中因预加重系数固定 导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别 的准确性低的问题。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的 技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于语音信号的数据处理方法,其特征在于,包括:
检测到语音信号时,确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号;
基于所述语音信号针对多个候选预加重系数各自对应的预加重信号,确定多个斜度;
将多个所述斜度分别与预设斜度阈值进行比较,并依据比较结果确定目标斜度以及目标预加重系数;
依据所述目标斜度及所述目标候选预加重系数,对所述语音信号进行处理。
2.根据权利要求1所述的方法,其特征在于,所述确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号之前,所述方法还包括:
对预存斜度进行初始化,得到初始斜度;
对预存预加重系数进行初始化,得到初始预加重系数。
3.根据权利要求2所述的方法,其特征在于,所述依据比较结果确定目标斜度以及目标预加重系数,包括:
若任一所述斜度小于所述初始斜度,则依据该任一所述斜度确定所述目标斜度,将该任一所述斜度对应的候选预加重系数确定目标预加重系数;
若任一所述候选预加重系数不小于所述初始斜度,则将所述初始预加重系数作为目标预加重系数,所述初始斜度作为所述目标斜度。
4.根据权利要求1所述的方法,其特征在于,所述确定针对语音信号的多个候选预加重系数各自对应的预加重信号之前,所述方法还包括:
基于预加重系数算法,确定多个距离参数分别对应的预加重系数,以得到多个候选预加重系数。
5.根据权利要求1所述的方法,其特征在于,
所述检测到语音信号之后,所述方法还包括:
对所述语音信号进行预处理;
所述确定针对语音信号的多个候选预加重系数各自对应的预加重信号,包括:
基于预处理之后的所述语音信号,确定针对多个候选预加重系数各自对应的预加重信号。
6.根据权利要求5所述的方法,其特征在于,所述预处理至少包括:
自适应增益控制、噪声抑制。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括以下至少一项:
确定处理后的所述语音信号的声纹特征;
若所述声纹特征对应用户为具有控制权限的用户,则将所述声纹特征与预存声纹特征数据库进行匹配,确定被控设备及相应的控制指令,并依据所述控制指令对所述被控设备进行控制处理,所述声纹特征数据库包括多个被控设备及针对多个被控设备各自对应的多个控制指令分别对应的声纹特征。
8.一种基于语音信号的数据处理装置,其特征在于,包括:
加重信号确定模块,用于检测到语音信号时,确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号;
信号斜度确定模块,用于基于针对所述语音信号的多个候选预加重系数各自对应的预加重信号,确定多个斜度;
处理参数确定模块,用于将多个所述斜度分别与预设斜度阈值进行比较,并依据比较结果确定目标斜度以及目标预加重系数;
信号处理模块,用于依据所述目标斜度及所述目标候选预加重系数,对所述语音信号进行处理。
9.一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于语音信号的数据处理方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7中任意一项所述的基于语音信号的数据处理方法。
CN202010042542.0A 2020-01-15 2020-01-15 基于语音信号的数据处理方法、装置、终端及存储介质 Active CN111462757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042542.0A CN111462757B (zh) 2020-01-15 2020-01-15 基于语音信号的数据处理方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042542.0A CN111462757B (zh) 2020-01-15 2020-01-15 基于语音信号的数据处理方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111462757A true CN111462757A (zh) 2020-07-28
CN111462757B CN111462757B (zh) 2024-02-23

Family

ID=71681739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042542.0A Active CN111462757B (zh) 2020-01-15 2020-01-15 基于语音信号的数据处理方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111462757B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823277A (zh) * 2021-11-23 2021-12-21 北京百瑞互联技术有限公司 基于深度学习的关键词识别方法、系统、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041789A1 (en) * 2005-10-11 2007-04-19 National Ict Australia Limited Front-end processing of speech signals
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
US20110131044A1 (en) * 2009-11-30 2011-06-02 International Business Machines Corporation Target voice extraction method, apparatus and program product
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110517696A (zh) * 2019-08-19 2019-11-29 效生软件科技(上海)有限公司 一种可植入式离线声纹识别系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041789A1 (en) * 2005-10-11 2007-04-19 National Ict Australia Limited Front-end processing of speech signals
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
US20110131044A1 (en) * 2009-11-30 2011-06-02 International Business Machines Corporation Target voice extraction method, apparatus and program product
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110517696A (zh) * 2019-08-19 2019-11-29 效生软件科技(上海)有限公司 一种可植入式离线声纹识别系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823277A (zh) * 2021-11-23 2021-12-21 北京百瑞互联技术有限公司 基于深度学习的关键词识别方法、系统、介质及设备

Also Published As

Publication number Publication date
CN111462757B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN110832580B (zh) 重放攻击的检测
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
CN110265020B (zh) 语音唤醒方法、装置及电子设备、存储介质
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN107910013B (zh) 一种语音信号的输出处理方法及装置
CN110600048B (zh) 音频校验方法、装置、存储介质及电子设备
CN110390947B (zh) 声源位置的确定方法、系统、设备和存储介质
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
CN111415653B (zh) 用于识别语音的方法和装置
CN104885153A (zh) 音频校正设备及其音频校正方法
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN108806707A (zh) 语音处理方法、装置、设备及存储介质
CN110475181B (zh) 设备配置方法、装置、设备和存储介质
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
CN111462757B (zh) 基于语音信号的数据处理方法、装置、终端及存储介质
JP2023536104A (ja) 機械学習を用いたノイズ削減
CN109741761B (zh) 声音处理方法和装置
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN114694649A (zh) 一种通用定向语音对抗样本生成方法、系统、介质及设备
CN112509556B (zh) 一种语音唤醒方法及装置
CN112489692A (zh) 语音端点检测方法和装置
CN111613247A (zh) 一种基于麦克风阵列的前景语音检测方法及装置
CN111798862A (zh) 音频降噪方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant