CN111429890B - 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 - Google Patents

一种微弱语音增强方法、语音识别方法及计算机可读存储介质 Download PDF

Info

Publication number
CN111429890B
CN111429890B CN202010162482.6A CN202010162482A CN111429890B CN 111429890 B CN111429890 B CN 111429890B CN 202010162482 A CN202010162482 A CN 202010162482A CN 111429890 B CN111429890 B CN 111429890B
Authority
CN
China
Prior art keywords
fundamental frequency
standard
harmonic
speech
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010162482.6A
Other languages
English (en)
Other versions
CN111429890A (zh
Inventor
张广学
肖龙源
蔡振华
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010162482.6A priority Critical patent/CN111429890B/zh
Publication of CN111429890A publication Critical patent/CN111429890A/zh
Application granted granted Critical
Publication of CN111429890B publication Critical patent/CN111429890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及人计算机技术领域,提供了一种微弱语音增强方法,所述方法包含以下步骤:获取待处理语音中的非静音片段;将所述非静音片段转换为频域;对所述非静音片段的频域进行基频检测,得到可能是说话人的基频,作为计算基频;分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;检测各所述待确认谐波是否包含在所述非静音片段的频域中;若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。

Description

一种微弱语音增强方法、语音识别方法及计算机可读存储 介质
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种微弱语音增强方法、语音识别方法及计算机可读存储介质。
背景技术
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
应用需求的不断增加,对语音识别的准确性也提出了更高的要求,例如,在远场语音的识别应用中,如何对目的语音信号进行增强,以提升语音识别准确性,已成为行业重要研究课题。
发明内容
针对上述问题,本发明的实施例提供了一种微弱语音增强方法,所述方法包含以下步骤:获取待处理语音中的非静音片段;将所述非静音片段转换为频域;对所述非静音片段的频域进行基频检测,得到可能是说话人的基频,作为计算基频;分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;检测各所述待确认谐波是否包含在所述非静音片段的频域中;若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。本实施例所提供的方法,通过对待处理语音中的标准基频进行自动识别,从而对非标准基频进行反向补偿,以及不属于标准基频对应的说话人的共振峰进行去除,从而实现抑制或消除干扰信号,进而实现对微弱语音的增强处理。
基于同样的发明构思,本发明实施例还提供了一种语音识别方法,所述方法具体包含步骤:基于上述的微弱语音增强方法对待识别语音进行去噪处理;基于语音识别模型对处理后的所述待识别语音进行识别。
以及,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的微弱语音增强方法和/或上述语音识别方法。
在一实施中,所述获取待处理语音中的非静音片段具体包含:基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。
在一实施中,所述将所述非静音片段转换为频域具体包含:依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换,从而转换为频域。
在一实施中,对所述标准基频进行处理的所述预设方法包含:获取所述标准基频范围中出现的所有共振峰;确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准;基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人;去除不属于所述标准基频对应的说话人的所述共振峰。
在一实施中,所述去除不属于所述标准基频对应的说话人的所述共振峰具体包含:基于所述共振峰的位置范围,获取所述位置范围内的基频与谐波,对所述基频和所述谐波进行反向补偿。
在一实施中,对所述非标准基频进行处理的所述预设方法包含:对所述非标准基频及谐波进行反向补偿。
在一实施中,所述方法更进一步包含:若所述非静音片段中确定出多个标准基频,则基于所述待确认谐波的匹配度,确认出其中一个为所述标准基频。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1绘示本发明第一实施例所提供的微弱语音增强方法流程图;
图2绘示第一实施例中处理标准基频的方法流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
在本发明的第一实施例中,提出了一种微弱语音增强方法,实现对微弱语音数据中的目的语音进行准确识别,并有效增强。本实施例所提供的方法可通过在服务设备上执行相应的代码程序来实现,服务设备可包含业务服务器、机器人、手机、平板电脑等智能终端设备。
具体请参照图1,图1绘示本发明第一实施例所提供的微弱语音增强方法流程图。如图1所示,所述方法具体包含以下步骤:
步骤101,获取待处理语音中的非静音片段。
在实施中,待处理语音中可包含静音片段和非静音片段,而在对待处理语音进行微弱语音增强时,可仅针对非静音片段进行处理,具体而言,可基于语音活动检测技术(Voice Activity Detection,VAD)对待处理语音中的非静音片段进行识别和获取。可以理解的是,待处理语音中可能包含有多个非静音片段,如此一来,在本实施例中,可分别对各非静音片段进行微弱语音增强处理,在本发明的其他实施例中,也可将多个非静音片段拼接成一个整体,来进行微弱语音增强处理,具体可基于实际应用需求来进行选择。
步骤102,将所述非静音片段转换为频域。
在实施中,可依次对待处理语音中的各非静音片段进行分帧、加窗、快速傅里叶变换,将其转换为对应的频域,以便于后续的处理。
具体而言,分帧和加窗都是语音信号提取特征的预处理阶段,先分帧,后加窗,再做快速傅里叶变换。由于语音信号整体上不稳定,但局部上可以看作是稳定的,在后续的处理中,需要输入一个稳定的信号,那么就可对非静音片段对应的语音信号进行分帧处理,即将其分割成多个片段。一般而言,在10-30ms的时长范围内,可以认为信号是稳定的,相应的可以不少于20毫秒为帧,再以1/2的时间作为帧移位帧,帧移位是指相邻两帧之间的重叠区域,以避免相邻两帧的变化,从而实现对非静音片段的分帧;按上述方法分帧后,每一帧的开始和结束都会出现间断,分割的帧越多,与原始信号的误差就越大,通过加窗则可解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性,在语音信号处理中,通常会增加汉明窗;通过对非静音片段的分帧和加窗后,再进行快速傅里叶变化,以得到非静音片段对应的频域。
步骤103,对所述非静音片段的频域进行基频检测,得到可能是说话人的基频,作为计算基频。
一般而言,非静音片段中可包含各种音频信号,例如,人说话的声音、及各种背景音。本实施例主要实现对人说话的语音信号进行处理,即对非静音片段中的人说话的语音信号进行微弱增强处理。
在实施中,可基于预先获取的人说话的基频范围,对非静音片段的频域中的基频与预先获取的人说话的基频范围进行匹配,从而得到归属于人说话的基频范围内的各基频,那么该些基频就有可能为真实的人说话的基频,并可将该些基频作为计算基频,通过后续步骤的处理,从计算基频中确认出标准基频。
步骤104,分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波。
在实施中,由于谐波是声音中所含有的频率为基波的整数倍的各次分量,如此一来,可基于基频与谐波的整数倍关系,则可通过分别获取各计算基频的各整数倍来得到各计算基频对应的多个待确认谐波。
步骤105,检测各所述待确认谐波是否包含在所述非静音片段的频域中。若包含,则执行步骤106;若不包含,则进入步骤107。
在实施中,可基于同一基频对应的各待确认谐波,依次检测非静音片段的频域中是否包含各待确认谐波的一个。
步骤106,确认所述待确认谐波对应的所述计算基频为标准基频。
在实施中,标准基频为非静音片段的频域中,确定的人的说话基频,通过确定标准基频的方式从而可确认出非静音片段中需要进行微弱增强的频率。
步骤107,确定所述待确认谐波对应的所述计算基频为非标准基频。
在实施中,若计算基频对应的所有谐波都无法从非静音片段的频域中检测出来,则可确认该基频为非标准基频,即干扰信号。
步骤108,基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强。
在实施中,处理标准基频和非标准基频的预设方法各不相同。
由于非标准基频可能为干扰信号,故对非标准基频的处理方法可包含对非标准基频进行反向补偿,从而对干扰信号进行抑制。
更进一步的,除了标准基频以及其对应的谐波之外,其他未被检测到的谐波也可被识别为干扰信号,对未被匹配到的谐波进行反向补偿,可更进一步的对干扰信号进行抑制。
处于标准基频的预设方法可参考图2,图2绘示第一实施例中处理标准基频的方法流程图,所述方法包含如下步骤:
步骤201,获取所述标准基频范围中出现的所有共振峰。
共振峰是指在声音的频谱中能量相对集中的一些区域,虽然不是音质的决定因素,但是可以反映声道(共振腔)的物理特征。具体而言,共振峰的本义是指声腔的共鸣频率,元音和响辅音声谱包络曲线上的峰巅位置,在元音和响辅音的产生中,声源谱经过声腔的调制,原来谐波振幅不再随频率的升高而依次递减,而是有的加强,有的减弱,形成有起伏的新的包络曲线,曲线峰巅位置的频率值和声腔共鸣频率是一致的。
共振峰可以反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,本发明实施中将共振峰作为重要的特征参数。
在实施中,可基于线性预测编码(linear predictive coding,LPC)的方式,检测标准基频范围内的所包含的共振峰。
步骤202,确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准。
如上文所述,共振峰可反映声道谐振特性,就元音来说,头三个共振峰对其音色有质的规定性,可识别为同一个说话人,在本实施中,可确定标准基频范围中的前三个共振峰为标准基频对应的说话人的共振峰标准。
步骤203,基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人。
在实施中,当标准基频范围中的共振峰个数明显多于三个时,就需要判断是否有背景说话人。
具体而言,若标准基频范围内有明显的三个共振峰,则可直接判定没有背景说话人;若有明显的多于三个共振峰,则可判定可能有背景说话人,则需要基于共振峰标准判断其他共振峰,其中,可通过比较其他共振峰与共振峰标准的振幅范围是否匹配,来判断其他共振峰是否归属于标准基频对应的说话人。
步骤204,去除不属于所述标准基频对应的说话人的所述共振峰。
在实施中,去除不属于标准基频对应的说话人的共振峰具体包含:基于共振峰的位置范围,获取位置范围内的基频与谐波,对基频和谐波进行反向补偿。
值得注意的是,在本发明的实施例中,若非静音片段中确定出多个标准基频,则分别基于各标准基频执行上述步骤,其中在对共振峰进行反向补偿时,则需要确认其他共振峰是否归属于其他标准基频对应的说话人,再统一进行处理,避免因误处理;本发明的其他实施例中,也可基于待确认谐波的匹配度,确认出其中一个作为标准基频,例如,可选取匹配度最高的,具体可基于实际应用场景的需求进行调整。
综上所述,基于本发明实施例提供的微弱语音增强方法可自动对待处理语音中的非静音片段中包含的标准基频进行识别,并同时对非标准基频进行降噪处理,从而抑制干扰信号,更进一步的,可通过共振峰的确认,对不属于标准基频对应的说话人的共振峰进行去除,以进一步对干扰信号进行抑制,从而实现目标语音信号的增强。
基于同样的发明构思,本发明的第二实施例提供了一种语音识别方法,所述方法可包含在通过上述方法实施例对待识别语音进行微弱语音增强处理,之后,基于语音识别模型对去噪后的待识别语音进行识别。
通过预先对待识别语音进行微弱语音增强处理,可将待识别语音中影响识别准确率的干扰信号进行去除,进而凸显出有效信号,从而提高语音识别准确率。
基于同样的发明构思,本发明另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时,实现第一实施例中的方法。
基于同样的发明构思,本发明另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时,实现第二实施例中的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种微弱语音增强方法,其特征在于,所述方法包含以下步骤:
获取待处理语音中的非静音片段;
将所述非静音片段转换为频域;
对所述非静音片段的频域进行基频检测,得到可能是说话人的基频,作为计算基频;
分别基于所述计算基频进行计算,得到与所述计算基频对应的各待确认谐波;
检测各所述待确认谐波是否包含在所述非静音片段的频域中;
若包含,则确认所述待确认谐波对应的所述计算基频为标准基频;
若不包含,则确定所述待确认谐波对应的所述计算基频为非标准基频;
基于不同的预设方法,分别对所述标准基频和所述非标准基频进行处理,以实现对所述标准基频对应的语音数据进行增强;
对所述标准基频进行处理的所述预设方法包含:
获取所述标准基频范围中出现的所有共振峰;
确定前三个所述共振峰为所述标准基频对应的说话人的共振峰标准;
基于所述共振峰标准判断其他所述共振峰是否归属于所述标准基频对应的说话人;
去除不属于所述标准基频对应的说话人的所述共振峰;
对所述非标准基频进行处理的所述预设方法包含:
对所述非标准基频及谐波进行反向补偿;
所述方法更进一步包含:
若所述非静音片段中确定出多个标准基频,则基于所述待确认谐波的匹配度,确认出其中一个为所述标准基频。
2.如权利要求1所述的方法,其特征在于,所述获取待处理语音中的非静音片段具体包含:基于语音活动检测技术对所述待处理语音中的非静音片段进行识别。
3.如权利要求1所述的方法,其特征在于,所述将所述非静音片段转换为频域具体包含:
依次对各所述非静音片段进行分帧、加窗、快速傅里叶变换,从而转换为频域。
4.如权利要求1所述的方法,其特征在于,所述去除不属于所述标准基频对应的说话人的所述共振峰具体包含:
基于所述共振峰的位置范围,获取所述位置范围内的基频与谐波,对所述基频和所述谐波进行反向补偿。
5.一种语音识别方法,其特征在于,所述方法具体包含步骤:
基于权利要求1至4中任一项所述的微弱语音增强方法对待识别语音进行增强处理;
基于语音识别模型对处理后的所述待识别语音进行识别。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的微弱语音增强方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求5所述的语音识别方法。
CN202010162482.6A 2020-03-10 2020-03-10 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 Active CN111429890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162482.6A CN111429890B (zh) 2020-03-10 2020-03-10 一种微弱语音增强方法、语音识别方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162482.6A CN111429890B (zh) 2020-03-10 2020-03-10 一种微弱语音增强方法、语音识别方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111429890A CN111429890A (zh) 2020-07-17
CN111429890B true CN111429890B (zh) 2023-02-10

Family

ID=71546269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162482.6A Active CN111429890B (zh) 2020-03-10 2020-03-10 一种微弱语音增强方法、语音识别方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111429890B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
CN107274892A (zh) * 2017-04-24 2017-10-20 乐视控股(北京)有限公司 说话人识别方法及装置
CN108831500A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置
CN107274892A (zh) * 2017-04-24 2017-10-20 乐视控股(北京)有限公司 说话人识别方法及装置
CN108831500A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Enhancing speech degrated by additive noise or interfering speakers;Douglas O’Shaughnessy;《IEEE》;19890228;第46-52页 *
Fundamental frequency and speech intelligibility in background noise;Christopher A.Brown et al.;《Hearing Research》;20101231(第266期);第52-59页 *
非平稳噪声环境下基于谐波能量的语音检测;刘红星 等;《计算机仿真》;20081130;第25卷(第11期);第305-308页 *

Also Published As

Publication number Publication date
CN111429890A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US20070185715A1 (en) Method and apparatus for generating a frequency warping function and for frequency warping
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
EP3807878B1 (en) Deep neural network based speech enhancement
CN105654955B (zh) 语音识别方法及装置
CN106257584A (zh) 改进的语音可懂度
CN108806707B (zh) 语音处理方法、装置、设备及存储介质
CN113571047B (zh) 一种音频数据的处理方法、装置及设备
CN107680584B (zh) 用于切分音频的方法和装置
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
Müller et al. Contextual invariant-integration features for improved speaker-independent speech recognition
EP3574499B1 (en) Methods and apparatus for asr with embedded noise reduction
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
CN113421584A (zh) 音频降噪方法、装置、计算机设备及存储介质
CN114550741A (zh) 一种语义识别的方法和系统
CN111429890B (zh) 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN109741761B (zh) 声音处理方法和装置
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
CN114171032A (zh) 跨信道声纹模型训练方法、识别方法、装置及可读介质
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
CN111696524A (zh) 一种叠字语音识别方法及系统
JP7557052B2 (ja) 音声認識方法及び装置、記録媒体及び電子機器
CN117935865B (zh) 一种用于个性化营销的用户情感分析方法及系统
US20230267945A1 (en) Automatic detection and attenuation of speech-articulation noise events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant