CN113724691A - 一种具有快速抓取识别用户语音功能的键盘 - Google Patents

一种具有快速抓取识别用户语音功能的键盘 Download PDF

Info

Publication number
CN113724691A
CN113724691A CN202111039128.5A CN202111039128A CN113724691A CN 113724691 A CN113724691 A CN 113724691A CN 202111039128 A CN202111039128 A CN 202111039128A CN 113724691 A CN113724691 A CN 113724691A
Authority
CN
China
Prior art keywords
field
voice
far
module
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111039128.5A
Other languages
English (en)
Inventor
马冰
马升
朱国正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Madao Information Technology Co ltd
Original Assignee
Hefei Madao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Madao Information Technology Co ltd filed Critical Hefei Madao Information Technology Co ltd
Priority to CN202111039128.5A priority Critical patent/CN113724691A/zh
Publication of CN113724691A publication Critical patent/CN113724691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别,具体涉及一种具有快速抓取识别用户语音功能的键盘,包括设于键盘内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式,控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换;本发明提供的技术方案能够有效克服现有技术所存在的无法快速准确识别用户语音的缺陷。

Description

一种具有快速抓取识别用户语音功能的键盘
技术领域
本发明涉及语音识别,具体涉及一种具有快速抓取识别用户语音功能的键盘。
背景技术
键盘是用于操作计算机设备运行和输入数据的交互装置,也指经过系统设置操作一台机器或设备的一组功能键(如打字机、电脑键盘)。电脑键盘是最常用也是最主要的输入设备,通过键盘可以将英文字母、数字、标点符号等输入到计算机中,从而向计算机输入指令、数据等。
随着时间的推移,市场上也出现独立的具有各种快捷功能的键盘,并带有专用驱动和设置软件,在兼容机上也能实现个性化操作。但是,现有键盘在使用时,一般只能手动输入,操作起来非常麻烦,费时费力,不具备快速准确识别用户语音,并有效执行的功能。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种具有快速抓取识别用户语音功能的键盘,能够有效克服现有技术所存在的无法快速准确识别用户语音的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种具有快速抓取识别用户语音功能的键盘,包括设于键盘内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式,所述控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换;
所述控制器通过远场语音识别单元对采集语音进行降噪,并构建远场语音特征提取模型,同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别;
所述控制器通过近场语音识别单元对采集语音进行近场语音特征提取,并基于提取的近场语音特征选取适合的近语音识别模型,利用近语音识别模型进行近场语音识别。
优选地,所述语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块;
近场语音数据集生成模块,用于采集近场语音数据并生成近场语音数据集;
远场音频生成模块,基于近场语音数据集通过重录方式生成远场音频;
语音特征混叠模块,从没有生成远场音频的近场语音数据中提取近场语音特征,从远场音频中提取远场语音特征,并对近场语音特征、远场语音特征进行混叠;
远场识别模型训练模块,构建远场识别模型,并基于混叠后的近场语音特征、远场语音特征对远场识别模型进行模型训练;
语音识别模式判断模块,基于训练好的远场识别模型结合采集语音,判断系统采用的语音识别模式。
优选地,所述远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据,并合成一段连续播放的音频数据,通过播放并录制该音频数据生成远场音频。
优选地,所述远场音频生成模块获取远场音频的预设起止点,并根据预设起止点对远场音频进行截取,同时将截取的远场音频与播放的音频数据进行对齐。
优选地,所述远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块;
远场语音降噪模块,用于对采集语音进行降噪预处理;
远场语音特征提取模型构建模块,构建用于从采集语音中提取远场语音特征的远场语音特征提取模型;
远场语音特征提取模块,基于构建好的远场语音特征提取模型对采集语音进行远场语音特征提取;
远场语音识别模块,基于提取的远场语音特征对采集语音进行进行远场语音识别。
优选地,所述远场语音降噪模块对采集语音进行降噪预处理,包括:
通过经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量,并进行小波变换分解,分解出高频系数和低频系数;
对高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数;
基于阈值处理后的估计小波系数以及低频系数对小波系数进行重构,获得重构后的小波系数;
基于重构后的小波系数及低频内涵模态分量对语音信号进行重构,获得降噪处理后的语音信号。
优选地,所述远场语音特征提取模型构建模块构建远场语音特征提取模型,包括:
对语音信号进行分帧处理,将每一帧语音信号进行离散小波分解,获得分解后的小波系数;
对小波系数进行快速傅里叶变换,确定所有小波系数对应的频带局部能量;
确定频带局部能量的分布,并结合梅尔滤波器组确定梅尔倒谱系数,基于梅尔倒谱系数确定动态特性的差分参数;
基于差分参数对远场语音特征的提取进行训练,获取远场语音特征。
优选地,所述近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块;
近场语音特征提取模块,用于从采集语音中提取近场声纹特征;
近场语音识别模型数据库,用于存储近场声纹特征与目标人物,以及目标人物与基于该目标人物构建的近场语音识别模型之间的对应关系;
近场语音识别模型确定模块,基于提取的近场声纹特征在近场语音识别模型数据库中匹配近场语音识别模型;
近场语音识别模块,基于匹配的近场语音识别模型对采集语音进行进行近场语音识别。
优选地,所述近场语音识别模块将采集语音输入近场语音识别模型中的声学模型,得到目标声学字符串,将目标声学字符串输入近场语音识别模型中的语言模型,得到近场语音识别后的识别文字序列。
(三)有益效果
与现有技术相比,本发明所提供的一种具有快速抓取识别用户语音功能的键盘,具有以下有益效果:
1)借助语音识别模式判断单元能够基于采集语音判断适合系统当前工作的语音识别模式,基于远场语音、近场语音的特征选用合适的语音识别模式,通过对语音识别模式的选择保证语音识别结果的准确性;
2)远场语音识别单元对采集语音进行降噪,并构建远场语音特征提取模型,同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别,从而能够对采集语音进行准确地远场语音识别;
3)近场语音识别单元对采集语音进行近场语音特征提取,并基于提取的近场语音特征选取适合的近语音识别模型,利用近语音识别模型进行近场语音识别,从而能够对采集语音进行准确地近场语音识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统示意图;
图2为本发明中在远场语音识别模式下进行远场语音识别的流程示意图;
图3为本发明中在近场语音识别模式下进行近场语音识别的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种具有快速抓取识别用户语音功能的键盘,如图1至图3所示,包括设于键盘内部的控制器,以及用于采集用户语音的语音采集模块,控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式,控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换。
语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块;
近场语音数据集生成模块,用于采集近场语音数据并生成近场语音数据集;
远场音频生成模块,基于近场语音数据集通过重录方式生成远场音频;
语音特征混叠模块,从没有生成远场音频的近场语音数据中提取近场语音特征,从远场音频中提取远场语音特征,并对近场语音特征、远场语音特征进行混叠;
远场识别模型训练模块,构建远场识别模型,并基于混叠后的近场语音特征、远场语音特征对远场识别模型进行模型训练;
语音识别模式判断模块,基于训练好的远场识别模型结合采集语音,判断系统采用的语音识别模式。
远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据,并合成一段连续播放的音频数据,通过播放并录制该音频数据生成远场音频。
在生成远场音频后,远场音频生成模块获取远场音频的预设起止点,并根据预设起止点对远场音频进行截取,同时将截取的远场音频与播放的音频数据进行对齐。
本申请技术方案中,借助语音识别模式判断单元能够基于采集语音判断适合系统当前工作的语音识别模式,基于远场语音、近场语音的特征选用合适的语音识别模式,通过对语音识别模式的选择保证语音识别结果的准确性。
当判断系统采用的语音识别模式时,如果语音识别模式判断模块基于训练好的远场识别模型,得出当前采集语音不适合远场语音识别模式的结果时,控制器关闭远场语音识别模式,同时开启近场语音识别模式;否则控制器关闭近场语音识别模式,同时开启远场语音识别模式。
如图2所示,控制器通过远场语音识别单元对采集语音进行降噪,并构建远场语音特征提取模型,同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别。
远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块;
远场语音降噪模块,用于对采集语音进行降噪预处理;
远场语音特征提取模型构建模块,构建用于从采集语音中提取远场语音特征的远场语音特征提取模型;
远场语音特征提取模块,基于构建好的远场语音特征提取模型对采集语音进行远场语音特征提取;
远场语音识别模块,基于提取的远场语音特征对采集语音进行进行远场语音识别。
其中,远场语音降噪模块对采集语音进行降噪预处理,包括:
通过经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量,并进行小波变换分解,分解出高频系数和低频系数;
对高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数;
基于阈值处理后的估计小波系数以及低频系数对小波系数进行重构,获得重构后的小波系数;
基于重构后的小波系数及低频内涵模态分量对语音信号进行重构,获得降噪处理后的语音信号。
其中,远场语音特征提取模型构建模块构建远场语音特征提取模型,包括:
对语音信号进行分帧处理,将每一帧语音信号进行离散小波分解,获得分解后的小波系数;
对小波系数进行快速傅里叶变换,确定所有小波系数对应的频带局部能量;
确定频带局部能量的分布,并结合梅尔滤波器组确定梅尔倒谱系数,基于梅尔倒谱系数确定动态特性的差分参数;
基于差分参数对远场语音特征的提取进行训练,获取远场语音特征。
如图3所示,控制器通过近场语音识别单元对采集语音进行近场语音特征提取,并基于提取的近场语音特征选取适合的近语音识别模型,利用近语音识别模型进行近场语音识别。
近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块;
近场语音特征提取模块,用于从采集语音中提取近场声纹特征;
近场语音识别模型数据库,用于存储近场声纹特征与目标人物,以及目标人物与基于该目标人物构建的近场语音识别模型之间的对应关系;
近场语音识别模型确定模块,基于提取的近场声纹特征在近场语音识别模型数据库中匹配近场语音识别模型;
近场语音识别模块,基于匹配的近场语音识别模型对采集语音进行进行近场语音识别。
当近场语音识别模型确定模块基于提取的近场声纹特征,没有在近场语音识别模型数据库中匹配到近场语音识别模型时,近场语音识别模型确定模块选取默认近场语音识别模型,并发送给近场语音识别模块。
近场语音识别模块将采集语音输入近场语音识别模型中的声学模型,得到目标声学字符串,将目标声学字符串输入近场语音识别模型中的语言模型,得到近场语音识别后的识别文字序列。
本申请技术方案中,一方面控制器可以根据远场语音识别模式、近场语音识别模式对用户语音的识别结果,控制键盘向计算机输入基于用户语音下发的指令、数据等内容;另一方面,本申请可以作为通用的语音识别系统,用于各种情形下的语音识别。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种具有快速抓取识别用户语音功能的键盘,其特征在于:包括设于键盘内部的控制器,以及用于采集用户语音的语音采集模块,所述控制器通过语音识别模式判断单元基于采集语音判断系统采用的语音识别模式,所述控制器根据语音识别模式判断单元的判断结果对远场语音识别模式、近场语音识别模式进行切换;
所述控制器通过远场语音识别单元对采集语音进行降噪,并构建远场语音特征提取模型,同时基于远场语音特征提取模型提取的远场语音特征进行远场语音识别;
所述控制器通过近场语音识别单元对采集语音进行近场语音特征提取,并基于提取的近场语音特征选取适合的近语音识别模型,利用近语音识别模型进行近场语音识别。
2.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述语音识别模式判断单元包括近场语音数据集生成模块、远场音频生成模块、语音特征混叠模块、远场识别模型训练模块和语音识别模式判断模块;
近场语音数据集生成模块,用于采集近场语音数据并生成近场语音数据集;
远场音频生成模块,基于近场语音数据集通过重录方式生成远场音频;
语音特征混叠模块,从没有生成远场音频的近场语音数据中提取近场语音特征,从远场音频中提取远场语音特征,并对近场语音特征、远场语音特征进行混叠;
远场识别模型训练模块,构建远场识别模型,并基于混叠后的近场语音特征、远场语音特征对远场识别模型进行模型训练;
语音识别模式判断模块,基于训练好的远场识别模型结合采集语音,判断系统采用的语音识别模式。
3.根据权利要求2所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述远场音频生成模块从近场语音数据集中选取预定数量的近场语音数据,并合成一段连续播放的音频数据,通过播放并录制该音频数据生成远场音频。
4.根据权利要求3所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述远场音频生成模块获取远场音频的预设起止点,并根据预设起止点对远场音频进行截取,同时将截取的远场音频与播放的音频数据进行对齐。
5.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述远场语音识别单元包括远场语音降噪模块、远场语音特征提取模型构建模块、远场语音特征提取模块和远场语音识别模块;
远场语音降噪模块,用于对采集语音进行降噪预处理;
远场语音特征提取模型构建模块,构建用于从采集语音中提取远场语音特征的远场语音特征提取模型;
远场语音特征提取模块,基于构建好的远场语音特征提取模型对采集语音进行远场语音特征提取;
远场语音识别模块,基于提取的远场语音特征对采集语音进行进行远场语音识别。
6.根据权利要求5所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述远场语音降噪模块对采集语音进行降噪预处理,包括:
通过经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量,并进行小波变换分解,分解出高频系数和低频系数;
对高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数;
基于阈值处理后的估计小波系数以及低频系数对小波系数进行重构,获得重构后的小波系数;
基于重构后的小波系数及低频内涵模态分量对语音信号进行重构,获得降噪处理后的语音信号。
7.根据权利要求6所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述远场语音特征提取模型构建模块构建远场语音特征提取模型,包括:
对语音信号进行分帧处理,将每一帧语音信号进行离散小波分解,获得分解后的小波系数;
对小波系数进行快速傅里叶变换,确定所有小波系数对应的频带局部能量;
确定频带局部能量的分布,并结合梅尔滤波器组确定梅尔倒谱系数,基于梅尔倒谱系数确定动态特性的差分参数;
基于差分参数对远场语音特征的提取进行训练,获取远场语音特征。
8.根据权利要求1所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述近场语音识别单元包括近场语音特征提取模块、近场语音识别模型数据库、近场语音识别模型确定模块和近场语音识别模块;
近场语音特征提取模块,用于从采集语音中提取近场声纹特征;
近场语音识别模型数据库,用于存储近场声纹特征与目标人物,以及目标人物与基于该目标人物构建的近场语音识别模型之间的对应关系;
近场语音识别模型确定模块,基于提取的近场声纹特征在近场语音识别模型数据库中匹配近场语音识别模型;
近场语音识别模块,基于匹配的近场语音识别模型对采集语音进行进行近场语音识别。
9.根据权利要求8所述的具有快速抓取识别用户语音功能的键盘,其特征在于:所述近场语音识别模块将采集语音输入近场语音识别模型中的声学模型,得到目标声学字符串,将目标声学字符串输入近场语音识别模型中的语言模型,得到近场语音识别后的识别文字序列。
CN202111039128.5A 2021-09-06 2021-09-06 一种具有快速抓取识别用户语音功能的键盘 Pending CN113724691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039128.5A CN113724691A (zh) 2021-09-06 2021-09-06 一种具有快速抓取识别用户语音功能的键盘

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039128.5A CN113724691A (zh) 2021-09-06 2021-09-06 一种具有快速抓取识别用户语音功能的键盘

Publications (1)

Publication Number Publication Date
CN113724691A true CN113724691A (zh) 2021-11-30

Family

ID=78681873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039128.5A Pending CN113724691A (zh) 2021-09-06 2021-09-06 一种具有快速抓取识别用户语音功能的键盘

Country Status (1)

Country Link
CN (1) CN113724691A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150044202A (ko) * 2013-10-16 2015-04-24 현대모비스 주식회사 동일이름 선택 및 음성안내 단계가 추가된 음성인식 장치 및 그 방법
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN111341314A (zh) * 2020-03-05 2020-06-26 北京声智科技有限公司 语音识别方法及装置
CN111785275A (zh) * 2020-06-30 2020-10-16 北京捷通华声科技股份有限公司 语音识别方法及装置
CN113096680A (zh) * 2021-04-07 2021-07-09 深圳市轻生活科技有限公司 一种远场语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150044202A (ko) * 2013-10-16 2015-04-24 현대모비스 주식회사 동일이름 선택 및 음성안내 단계가 추가된 음성인식 장치 및 그 방법
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN111341314A (zh) * 2020-03-05 2020-06-26 北京声智科技有限公司 语音识别方法及装置
CN111785275A (zh) * 2020-06-30 2020-10-16 北京捷通华声科技股份有限公司 语音识别方法及装置
CN113096680A (zh) * 2021-04-07 2021-07-09 深圳市轻生活科技有限公司 一种远场语音识别方法

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN105244026B (zh) 一种语音处理方法及装置
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN106558306A (zh) 用于语音识别的方法、装置和设备
WO2019119279A1 (en) Method and apparatus for emotion recognition from speech
CN111105798B (zh) 基于语音识别的设备控制方法
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN113593565B (zh) 一种智能家庭设备管控方法和系统
CN110853669A (zh) 音频识别方法、装置及设备
CN110689885A (zh) 机器合成语音识别方法、装置、存储介质及电子设备
CN110931018A (zh) 智能语音交互的方法、装置及计算机可读存储介质
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN111192573B (zh) 基于语音识别的设备智能化控制方法
CN113470650A (zh) 一种基于语音识别的操作票防误方法
CN112185392A (zh) 一种用于供电智能客户的语音识别处理系统
CN113724691A (zh) 一种具有快速抓取识别用户语音功能的键盘
CN116612754A (zh) 一种应用于车辆的语音指令识别方法及装置
CN115331670B (zh) 一种家用电器用离线语音遥控器
CN113707156B (zh) 一种用于车载的语音识别方法及系统
CN113889073B (zh) 语音处理方法、装置、电子设备和存储介质
CN114974240A (zh) 财务系统的语音控制方法、装置、存储介质及设备
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及系统
CN113724697A (zh) 模型生成方法、情绪识别方法、装置、设备及存储介质
CN113160821A (zh) 一种基于语音识别的控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination