CN113689865A - 采样率切换方法、装置、电子设备以及语音系统 - Google Patents

采样率切换方法、装置、电子设备以及语音系统 Download PDF

Info

Publication number
CN113689865A
CN113689865A CN202110974092.3A CN202110974092A CN113689865A CN 113689865 A CN113689865 A CN 113689865A CN 202110974092 A CN202110974092 A CN 202110974092A CN 113689865 A CN113689865 A CN 113689865A
Authority
CN
China
Prior art keywords
rate
sampling rate
voice system
current
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110974092.3A
Other languages
English (en)
Inventor
张德星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Youbisheng Technology Co ltd
Original Assignee
Guangdong Youbisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Youbisheng Technology Co ltd filed Critical Guangdong Youbisheng Technology Co ltd
Priority to CN202110974092.3A priority Critical patent/CN113689865A/zh
Publication of CN113689865A publication Critical patent/CN113689865A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例提供一种采样率切换方法、装置、设备以及语音系统,所述方法包括:获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;根据所述唤醒结果,对所述语音系统的当前采样率进行切换。

Description

采样率切换方法、装置、电子设备以及语音系统
技术领域
本申请涉及采样率切换技术领域,特别涉及一种采样率切换方法、装置、电子设备以及语音系统。
背景技术
目前市面上基于Linux的语音系统的USB声卡多数为单一、固定的录音采样率,较多设定为16000Hz。如果需要更高的录音质量,往往需要设置更高的录音采样率,再进行录音,这往往需要定制USB声卡,并重新升级系统,而且录音采样率过高,则采集到的音频数据量增多,对语音系统的降噪处理或语音识别模型要求较高,反应速度较慢,唤醒时间延长。如果采样率较低,则采集到的音频数据减少,录音质量下降,语音识别的成功率较低,导致语音系统的唤醒率降低。由此可见,目前技术中语音系统采用单一、固定的录音采样率,适应性较低,如何切换采样率是目前亟需解决的问题之一。
发明内容
本申请提供了一种采样率切换方法、装置、电子设备以及语音系统,能够切换采样率,避免单一、固定的采样率,有利于提高适应性。
第一方面,本申请提供了一种采样率切换方法,应用于语音系统,包括:
获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,所述根据所述唤醒结果,对所述语音系统的当前采样率进行切换,包括:
根据所述唤醒结果,获得所述语音系统的当前唤醒率;
在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,所述在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
其中一种可能的实现方式中,所述语音系统包括数值从小到大的多个采样率,所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率;
和/或,所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
其中一种可能的实现方式中,所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率;
和/或,所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
其中一种可能的实现方式中,所述语音系统包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,所述基于所述语音系统的当前唤醒率,获取到第一目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,所述基于所述语音系统的当前唤醒率,获取到第二目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
其中一种可能的实现方式中,所述基于所述音频数据,对所述语音系统进行唤醒,包括:
获取所述音频数据对应的语言文本;
将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
根据所述识别结果对所述语音系统进行唤醒。
第二方面,本申请提供一种采样率切换装置,包括:
获取模块,用于获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
唤醒模块,用于基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
处理模块,用于根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
第三方面,本申请提供了一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面所述的方法。
第四方面,本申请提供一种语音系统,包括:
主设备,所述主设备包括第一声卡节点和音频处理单元,所述第一声卡节点与所述音频处理单元连接;
从设备,所述从设备与所述主设备通信连接,所述从设备包括第二声卡节点和第三声卡节点,所述第三声卡节点用于采集音频数据,所述第二声卡节点与所述第三声卡节点连接,所述第一声卡节点与所述第二声卡节点连接;
所述音频处理单元,包含:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述系统执行时,使得所述系统执行如第一方面所述的方法;
所述从设备,用于受控于所述主设备的所述音频处理单元,以切换采样率。
第五方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
第六方面,本申请提供一种计算机程序,当所述计算机程序被计算机执行时,用于执行第一方面所述的方法。
在一种可能的设计中,第六方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1为本申请采样率切换方法一个实施例的方法示意图;
图2为本申请采样率切换方法一个实施例中语音系统的结果示意图;
图3为本申请采样率切换方法一个实施例的流程示意图;
图4为本申请采样率切换方法另一个实施例的流程示意图;
图5为本申请采样率切换方法一个实施例中目标插值系数的算法流程图;
图6为本申请采样率切换装置一个实施例的结构示意图;
图7为本申请语音系统一个实施例的结构示意图;
图8为本申请电子设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
现有技术中,基于Linux的语音系统的USB声卡多数为单一、固定的录音采样率,较多设定为16000Hz,适应性较低。
为此,本申请提出一种采样率切换方法、装置、电子设备以及语音系统,能够切换采样率,避免单一、固定的采样率,有利于提高适应性。
在本实施例中,图1所示采样率切换方法可以应用于语音系统。语音系统,如基于Linux的语音系统、语音机器人、智能终端、智能家居、无人智能餐厅系统等。语音系统可以包括支持多采样率的声卡,如Linux-USB声卡等,语音系统用于执行采样率切换方法,以切换该声卡的采样率,避免单一、固定的采样率,提高适应性。
图1为本申请采样率切换方法一个实施例的方法示意图。如图1所示,上述采样率切换方法可以包括:
S101、获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据。
优选地,如图2所示,语音系统可以包括主设备和从设备,从设备如USB声卡,用于采集音频数据并将采集到的音频数据发送到主设备,主设备用于接收并处理由从设备发送的音频数据,并执行采样率切换方法,以切换主设备和/或从设备的采样率等。主设备与从设备中均包含声卡节点,一般情况下,为避免音频数据不正常或失真等现象,主设备的声卡节点与从设备的声卡节点的采样率需保持一致。因此,语音系统的当前采样率可以包括主设备或从设备的当前采样率等。语音系统还可以包括扬声器、音频电路以及麦克风阵列等设备,麦克风阵列用于采集音频数据,扬声器用于播放音频数据,音频电路用于处理音频数据等。
S102、基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果。
也就是说,唤醒结果可以包括唤醒成功或唤醒失败。在其他一些实施例中,唤醒结果还可以包括唤醒时长等,唤醒时长可以用于表示语音系统从采集到音频数据到输出唤醒结果(如唤醒成功或唤醒失败)所需的时长。
进一步地,语音系统可以包括语音识别模型,语音识别模型用于对音频数据进行识别,根据识别结果对语音系统进行唤醒,得到唤醒结果。
若识别结果可以包括识别成功或识别失败,若识别结果为识别成功,则唤醒语音系统,输出唤醒结果为唤醒成功,若识别结果为识别失败,则不唤醒语音系统,输出唤醒结果为唤醒识别。
步骤S102中,还可以包括:对音频数据进行降噪处理,得到降噪处理后的音频数据,将降噪处理后的音频数据输入到语音识别模型中进行识别,得到识别结果,根据识别结果对语音系统进行唤醒,得到唤醒结果。举例地,降噪处理可以包括滤波处理等,以提高识别率,在此不受限制。
S103、根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
也就是说,根据唤醒结果,降低或升高语音系统的采样率,避免单一、固定的采样率,有利于提高语音系统的适应性。
举例地,如图3所示,若唤醒结果为唤醒成功,则降低语音系统的当前采样率,以降低对语音系统的降噪处理或语音识别模型的要求,提高反应速度,缩短唤醒时间。若唤醒结果为唤醒失败,则升高语音系统的当前采样率,以增加采集到的音频数据的频次,提高录音质量,提高语音识别的成功率,提高语音系统的唤醒率或唤醒成功率等。
在举例地,若唤醒结果中的唤醒时长高于预设第一时长,则降低语音系统的当前采样率,以降低对语音系统的降噪处理或语音识别模型的要求,提高反应速度,缩短唤醒时间。若唤醒结果中的唤醒时长处于预设时长范围内,则保持语音系统的当前采样率不变。若唤醒结果中的唤醒时长低于预设第二时长,则升高语音系统的当前采样率,以增加采集到的音频数据的频次,提高录音质量,提高语音识别的成功率,提高语音系统的唤醒率或唤醒成功率等。预设第一时长可以为预设时长范围的最大值,预设第二时长可以为预设时长范围的最小值。
可以理解的是,唤醒结果中的唤醒时长可以结合唤醒成功或唤醒失败等,实现对语音系统的当前采样率进行切换,在此不做限制。
在本实施例中,语音系统的主设备与从设备通信连接,主设备根据唤醒结果,对主设备和/或从设备的当前采样率进行切换。具体地,主设备根据唤醒结果,得到目标采样率(目标采样率可以大于或小于当前采样率等),将主设备的声卡节点的当前采样率切换为目标采样率,并将目标采样率以及切换指令发送至从设备。从设备接收到目标采样率以及切换指令后,将从设备的声卡节点的当前采样率切换为目标采样率,从而使主设备与从设备的采样率保持一致。可以理解的是,主设备还可以主动下发切换采样率请求至从设备,切换采样率请求用于请求从设备切换采样率,以使从设备切换采样率等。
其中一种可能的实现方式中,S103可以包括:
S201、根据所述唤醒结果,获得所述语音系统的当前唤醒率;
S202、在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
S203、在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
如图4所示,当前唤醒率用于表示在当前采样率下唤醒成功的次数与总唤醒次数的比值,如唤醒成功率等,例如,总唤醒次数为10次,唤醒成功的次数为n次,则当前唤醒率P=n/10。在其他一些可选实施例中,当前唤醒率可以包含在当前采样率下唤醒成功的次数与唤醒失败的次数的比值或者差值等,在此不做限制。
在本实施例中,第一唤醒率范围可以为70%到90%。也就是说,若当前唤醒率P满足:70%<P<90%,则表示当前采样率合适,保持语音系统的当前采样率不变,若当前唤醒率不满足:70%<P<90%,则表示当前采样率不合适,对语音系统的当前采样率进行切换,以使切换后的语音系统的唤醒率处于第一唤醒率范围内。
其中一种可能的实现方式中,所述步骤S203可以包括:
S301、在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
S302、在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
第二唤醒率范围可以为大于或等于90%,第三唤醒率范围可以为小于或等于70%。
优选地,唤醒结果可以包括第一结果、第二结果以及第三结果,第一结果用于表示当前采样率合适,第二结果用于表示当前采样率过高,第三结果用于表示当前采样率过低。
例如,若当前唤醒率P满足:70%<P<90%,则输出第一结果,保持语音系统的当前采样率不变。若当前唤醒率P满足:P≥90%,则输出第二结果,降低语音系统的当前采样率,以在保证唤醒成功率的情况下,降低采集到的音频数据的频次,降低对语音系统的降噪处理或语音识别模型的要求,提高反应速度,缩短唤醒时间。若当前唤醒率P满足:P≤70%,则输出第三结果,提高语音系统的当前采样率,以在保证唤醒成功率的情况下,增加采集到的音频数据的频次,提高录音质量,提高语音识别的成功率,提高语音系统的唤醒率或唤醒成功率等。
其中一种可能的实现方式中,所述语音系统包括数值从小到大的多个采样率,所述步骤S301可以包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率。
举例地,多个所述采样率包括数值从小到大的多个等级的采样率,如第一采样率、第二采样率、第三采样率以及第四采样率,如第一采样率D1为8K,第二采样率D2为16K,第三采样率D3为44.1K,第四采样率D4为48K。
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为第四采样率D4,则将所述语音系统的当前采样率切换为第三采样率D3,若所述语音系统的当前采样率为第三采样率D3,则将所述语音系统的当前采样率切换为第二采样率D2,若所述语音系统的当前采样率为第二采样率D2,则将所述语音系统的当前采样率切换为第一采样率D1,若所述语音系统的当前采样率为第一采样率D1,则保持所述语音系统的当前采样率不变。
可以理解的是,若当前唤醒率与第二唤醒率范围的最小值的差值大于预设第一差值,且语音系统的当前采样率为第四采样率D4,则可以将当前采样率切换为第二采样率D2;若当前唤醒率与第二唤醒率范围的最小值的差值大于预设第二差值,且语音系统的当前采样率为第四采样率D4,则可以将当前采样率切换为第一采样率D2。若当前唤醒率与第二唤醒率范围的最小值的差值大于预设第三差值,且语音系统的当前采样率为第三采样率D3,则可以将当前采样率切换为第一采样率D1。
值得一提的是,在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若当前采样率为数值最小的采样率(如第一采样率D1),则输出第一提示信息,用于提示当前采样率已达到数值最小的采样率,以提示用户。
和/或,所述步骤S302包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
相应地,在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为第一采样率D1,则将所述语音系统的当前采样率切换为第二采样率D2,若所述语音系统的当前采样率为第二采样率D2,则将所述语音系统的当前采样率切换为第三采样率D3,若所述语音系统的当前采样率为第三采样率D3,则将所述语音系统的当前采样率切换为第四采样率D3,若所述语音系统的当前采样率为第四采样率D4,则保持所述语音系统的当前采样率不变。
可以理解的是,若当前唤醒率与第三唤醒率范围的最大值的差值大于预设第四差值,且语音系统的当前采样率为第一采样率D1,则可以将当前采样率切换为第三采样率D3;若当前唤醒率与第三唤醒率范围的最大值的差值大于预设第五差值,且语音系统的当前采样率为第一采样率D1,则可以将当前采样率切换为第四采样率D4。若当前唤醒率与第三唤醒率范围的最大值的差值大于预设第六差值,且语音系统的当前采样率为第二采样率D2,则可以将当前采样率切换为第四采样率D4。
值得一提的是,在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若当前采样率为数值最大的采样率(如第四采样率D4),则输出第二提示信息,用于提示当前采样率已达到数值最大的采样率,以提示用户。
熟知本领域人员应当理解的是,语音系统还可以包括其他数量数值大小的采样率,如3个采样率、5个采样率或更多数量的采样率等,在此不做限制。
其中一种可能的实现方式中,步骤S301可以包括:
S401、在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率。
第一目标采样率可以用于表示使语音系统的唤醒率达到第一唤醒率范围内的采样率。也就是说,在所述语音系统的当前采样率切换为第一目标采样率后,语音系统的唤醒率可以达到第一唤醒率范围内,从而在保证唤醒成功率的情况下,降低采集到的音频数据的频次,降低对语音系统的降噪处理或语音识别模型的要求,提高反应速度,缩短唤醒时间。
和/或,步骤S302可以包括:
S402、在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
相应地,第二目标采样率可以用于表示使语音系统的唤醒率达到第一唤醒率范围内的采样率。也就是说,在所述语音系统的当前采样率切换为第一目标采样率后,语音系统的唤醒率可以达到第一唤醒率范围内,在保证唤醒成功率的情况下,增加采集到的音频数据的频次,提高录音质量,提高语音识别的成功率,提高语音系统的唤醒率或唤醒成功率等。可以理解的是,第一目标采样率与第二目标采样率可以相同,或者不同。
在一些可选实施例中,语音系统可以包含数值从小到大的多个等级的采样率范围,第一目标采样率或第二目标采样率可以从不同等级的采样率范围内选取得到,如在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,根据当前唤醒率,从数值低等级的采样率范围内获取到第一目标采样率,在保证唤醒成功率的情况下,降低采集到的音频数据的频次,降低对语音系统的降噪处理或语音识别模型的要求,提高反应速度,缩短唤醒时间。在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,根据当前唤醒率,从数值高等级的采样率范围内获取到第二目标采样率,在保证唤醒成功率的情况下,增加采集到的音频数据的频次,提高录音质量,提高语音识别的成功率。
例如,按数值从小到大的顺序,多个采样率范围分别为第一采样率范围、第二采样率范围、第三采样率范围以及第四采样率范围等。步骤S401中,在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若当前采样率处于第四采样率范围,则从第一采样率范围、第二采样率范围或第三采样率范围内获取到第一目标采样率等,若当前采样率处于第三采样率范围,则从第一采样率范围或第二采样率范围内获取到第一目标采样率等,若当前采样率处于第二采样率范围,则从第一采样率范围内获取到第一目标采样率等,若当前采样率处于第一采样率范围,则从第一采样率范围内获取比当前采样率低的采样率为第一目标采样率,若当前采样率为第一采样率范围内的最小值,则保持当前采样率不变。
步骤S402中,在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若当前采样率处于第一采样率范围,则从第二采样率范围、第三采样率范围或第四采样率范围内获取到第二目标采样率等,若当前采样率处于第二采样率范围,则从第三采样率范围或第四采样率范围内获取到第二目标采样率等,若当前采样率处于第三采样率范围,则从第四采样率范围内获取到第二目标采样率等,若当前采样率处于第四采样率范围,则从第四采样率范围内获取比当前采样率高的采样率为第二目标采样率,若当前采样率为第四采样率范围内的最大值,则保持当前采样率不变。
其中一种可能的实现方式中,所述语音系统可以包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,步骤S401可以包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,步骤S402可以包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
目标唤醒率可以由用户设定或者系统默认值等,如目标唤醒率可以处于上述第一唤醒率范围内等。上述映射关系可以根据实际应用情况预先设定,或者根据多次采集的唤醒率与采样率统计得到等。也就是说,将目标唤醒率、当前采样率以及当前唤醒率输入到映射关系中,输出第一目标采样率或第二目标采样率等,使得在语音系统将当前采样率切换为第一目标采样率或第二目标采样率后,语音系统的唤醒率可以达到目标唤醒率或者达到第一唤醒率范围内等。
其中一种可能的实现方式中,语音识别模型可以包括语言模型,语言模型用于对音频数据对应的语言文本进行识别,得到识别结果,语言模型优选为混合语言模型,步骤S102中,可以包括:
S501、获取音频数据对应的语言文本;
S502、将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
S503、根据所述识别结果对所述语音系统进行唤醒。
在步骤S501中,可以包括:对音频数据进行特征提取,得到音频数据的声学特征,如MFCC特征等;将音频数据的声学特征输入到声学模型中进行处理,得到音频数据对应的语言文本如声学特征对应的音素或字词等单元,声学模型可以通过神经网络模型训练得到。
优选地,第一语言模型和第二语言模型均为n元语言模型,如Ngrams语言模型等。
具体地,语言模型以概率论和数理统计理论为基础,用来计算自然语言语句的概率,使得正确语句的概率大于错误语句的概率。对于一个包含m个词的自然语言语句S=w1w2…wi,根据Bayes理论,其概率P(S)可以分解为若干个条件概率的乘积,即:
Figure BDA0003227012320000091
Ngrams语言模型将自然语言语句定义为一个马尔科夫序列,满足马尔科夫属性,具体来讲,Ngrams语言模型对条件概率P(wi|w1w2…wi-1)作出如下假设:
1)有限历史假设:当前词语的概率仅仅与前n-1个词相关,而与语句的整个历史信息无关。
2)时序性假设:当前词语的概率与它在句子中的位置无关。
根据上述两个假设,语言模型的概率计算公式简化为如下形式:
Figure BDA0003227012320000092
Ngrams语言模型通过限制条件概率中词语的个数,整体降低了参数空间的大小,使得在训练语料(或语言文本)上能够估计出概率P(wi|w1w2…wi-1)。在标准Ngrams语言模型中,条件概率P(wi|w1w2…wi-1)的值采样最大似然估计的方法进行估计,公式如下:
Figure BDA0003227012320000093
其中,C(wi-n+1…wi-1wi)表示词语序列wi-n+1…wi-1wi在训练语料(或语言文本)中出现的次数。
优选地,第一语言模型可以表示为根据Ngrams语言模型对专用领域的训练文本(已分好词)进行训练得到的专用语言模型G,第二语言模型可以表示为根据Ngrams语言模型对通用领域的训练文本(已分好词)以及专有领域的训练文本(已分好词)进行训练得到的通用语音模型G
具体地,设第一语言模型(如专用语言模型)G的插值系数为β,则第二语言模型(如通用语言模型)G的插值系数为(1-β),则插值模型G可以包括以下公式:
p_G(A)=β*p_G(A)+(1-β)*p_G(A);
p_G(B)=(1-β)*p_G(B)。
其中,A为待预测的专用语言文本或词条等,B为待预测的通用语言文本或词条等,p_G(A)为表示第一语言模型G预测到词条A的概率,p_G(A)为表示第二语言模型G预测到词条A的概率,p_G(B)为表示第二语言模型G预测到词条B的概率。值得一提的是,第一语言模型的训练文本包括专用语言文本,不包括通用语言文本,因此,第一语言模型G中存在词条A,不存在词条B。第二语言模型(如通用语言模型)的训练文本包括通用语言文本和专用语言文本,故第二语言模型G中存在词条A和词条B。
在本实施例中,根据插值模型的好坏对插值系数进行择优,得到目标插值系数,实现插值系数的自适应调节,以降低语言模型的困惑度。也就是说,目标插值系数用于表示使插值模型的困惑度降低的插值系数(如最优插值系数等)。
其中一种可能的实现方式中,所述插值系数包括多个第一插值系数,所述插值模型包括多个第一插值模型,目标插值系数基于多个所述第一插值模型的困惑度以及多个所述第一插值系数得到。
具体地,困惑度用于表示语言模型(或插值模型等)的好坏或性能高低等,在实际应用中,语言模型(或插值模型等)的困惑度越低,语言模型(或插值模型等)的性能越好。
例如,定义句子S,其包含词序列w1,w2,…wT,T为句子长度,则语言模型(或插值模型等)的困惑度PPL表示为:
Figure BDA0003227012320000101
若困惑度PPL的值越小,则句子S出现的概率越高,表明语言模型(或插值模型等)越好。
值得一提的是,为提高语言模型(或插值模型等)在专用领域的适用性,可利用专用语言文本计算多个第一插值系数对应的插值模型的困惑度,以降低插值模型的困惑度为目标,对插值系数进行择优,实现自适应调节。由于在插值模型中,p_G的系数为β,p_G的系数为1-β,则插值系数β的取值范围优选为0.5<β小于1,则多个第一插值系数可以在(0.5,1)区间内选取得到,选取规则不限,或可由人为设定等。
举例地,在(0.5,1)区间内选取得到4个第一插值系数,且分别为第一插值系数β0.6=0.6,第一插值系数β0.7=0.7,第一插值系数β0.8=0.8,第一插值系数β0.9=0.9,相应地,根据每个第一插值系数分别对第一语言模型与第二语言模型进行插值处理,得到4个第一插值模型,分别为与第一插值系数β0.6对应的第一插值模型A1、与第一插值系数β0.7对应的第一插值模型A2、与第一插值系数β0.8对应的第一插值模型A3以及与第一插值系数β0.9对应的第一插值模型A4,因此,第一插值模型A1的困惑度为PPL0.6、第一插值模型A2的困惑度为PPL0.7、第一插值模型A3的困惑度为PPL0.8、第一插值模型A4的困惑度为PPL0.9
具体地,如图5所示,本实施例中还提供了选取目标插值系数的算法流程:
a)获取专用语言文本(如未加入训练的专用语言文本等),以2万条为例;
b)分别计算与4个插值系数(β0.9=0.9,β0.8=0.8,β0.7=0.7,β0.6=0.6)对应的插值模型的困惑度ppl0.9,ppl0.8,ppl0.7,ppl0.6,初始化计数变量i=1;
c)取步骤b)所得的困惑度ppl0.9,ppl0.8,ppl0.7,ppl0.6中的最小值,记为pplmin-i,以及与最小值pplmin-i对应的插值系数相邻且与最小值pplmin-i的差值最小的困惑度,记为pplnext-i
d)取与pplmin-i对应的插值系数和与pplnext-i对应的插值系数的中间值,记为βmid-i,并计算与中间值βmid-i对应的插值模型的困惑度,记为pplmid-i
e)当pplmid-i<pplmin-i不成立,则与pplmin-i对应的插值系数为目标插值系数βbest
f)当pplmid-i<pplmin-i成立,若pplmin-i—pplmid-i≤阈值a成立(a为0.005),与pplmid-i对应的插值系数为目标插值系数βbest
g)当pplmid-i<pplmin-i成立,若pplmin-i—pplmid-i≤阈值a不成立(a为0.005),令i=i+1,pplmin-i=pplmid-i,pplnext-i=pplmin-i-1重复步骤d)~步骤g)。
因此,通过上述插值系数的选取算法得到的目标插值系数,可以有效地降低对所述第一语言模型以及所述第二语言模型进行插值处理得到的混合语言模型的困惑度,该混合语言模型可以用于语音识别方法中,有利于提高语音识别的准确率。
可以理解的是,上述实施例中的部分或全部步骤骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图6所示为本申请采样率切换装置100一个实施例的结构示意图。如图6所示,上述采样率切换装置100可以包括:
获取模块10,用于获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
唤醒模块20,用于基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
处理模块30,用于根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,处理模块30还用于:
根据所述唤醒结果,获得所述语音系统的当前唤醒率;
在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,处理模块30还用于:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
其中一种可能的实现方式中,所述语音系统包括数值从小到大的多个采样率,处理模块30还用于:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率;
和/或,处理模块30还用于:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
其中一种可能的实现方式中,处理模块30还用于:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率;
和/或,处理模块30还用于:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
其中一种可能的实现方式中,所述语音系统包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,处理模块30还用于:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,所述基于所述语音系统的当前唤醒率,获取到第二目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
其中一种可能的实现方式中,唤醒模块20还用于:
获取所述音频数据对应的语言文本;
将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
根据所述识别结果对所述语音系统进行唤醒。
可以理解的是,图6所示实施例提供的采样率切换装置可用于执行本申请图1所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图6所示的采样率切换装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图7为本申请语音系统200一个实施例的结构示意图。如图7所示,语音系统200可以包括主设备210,所述主设备210包括第一声卡节点211和音频处理单元212,所述第一声卡节点211与所述音频处理单元212连接;从设备220,所述从设备220与所述主设备210通信连接,所述从设备220包括第二声卡节点221和第三声卡节点222,所述第三声卡节点222用于采集音频数据,所述第二声卡节点221与所述第三声卡节点222连接,所述第一声卡节点221与所述第二声卡节点222连接;所述从设备220,用于受控于所述主设备210的所述音频处理单元212,以切换采样率。本实施例中,语音系统200如基于Linux的语音系统、语音机器人、智能终端、智能家居、无人智能餐厅系统等。
所述音频处理单元212,包含:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述系统执行时,使得所述系统执行;
获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,当所述指令被所述系统执行时,使得所述系统执行所述根据所述唤醒结果,对所述语音系统的当前采样率进行切换,包括:
根据所述唤醒结果,获得所述语音系统的当前唤醒率;
在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,当所述指令被所述系统执行时,使得所述系统执行所述在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
其中一种可能的实现方式中,所述语音系统包括数值从小到大的多个采样率,当所述指令被所述系统执行时,使得所述系统执行所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率;
和/或,当所述指令被所述系统执行时,使得所述系统执行所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
其中一种可能的实现方式中,当所述指令被所述系统执行时,使得所述系统执行所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率;
和/或,当所述指令被所述系统执行时,使得所述系统执行所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
其中一种可能的实现方式中,所述语音系统包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,当所述指令被所述系统执行时,使得所述系统执行所述基于所述语音系统的当前唤醒率,获取到第一目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,当所述指令被所述系统执行时,使得所述系统执行所述基于所述语音系统的当前唤醒率,获取到第二目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
其中一种可能的实现方式中,当所述指令被所述系统执行时,使得所述系统执行所述基于所述音频数据,对所述语音系统进行唤醒,包括:
获取所述音频数据对应的语言文本;
将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
根据所述识别结果对所述语音系统进行唤醒。
也就是说,所述语音系统200可以用于执行如图1所示实施例的采样率切换方法,其功能或原理可以参考上述图1所示实施例的采样率切换方法,在此不再赘述。
举例地,主设备210如智能终端等,从设备220如可支持多采样率的Linux-USB声卡等。主设备210的第一声卡节点和从设备220的第二声卡节点如UAC声卡节点等,用于管理与主设备进行音频数据传输通道,从设备220的第三声卡节点如default声卡节点等,用于管理声卡的采集音频数据和播放数据通道等。
在本实施例中,主设备210的第一声卡节点211、从设备220的第二声卡节点221以及第三声卡节点222中均可以包括录音端(如capture端)以及播放端(如playback端)。从设备220的第三声卡节点222的录音端用于通过麦克风阵列等录音设备捕获外界的音频数据,将捕获到的音频数据通过第二声卡节点221的录音端发送至主设备210的第一声卡节点211的录音端,并传输到音频处理单元212进行处理。音频处理单元212的处理结果可以通过主设备210的第一声卡节点的播放端发送到从设备220的第二声卡节点221的播放端,并传输到第三声卡节点222的播放端,然后经音频电路处理后通过扬声器等进行播放。
一般情况下,从设备220以轮询方式对第二声卡节点221(如UAC声卡节点等)进行操作,例如,若从设备220从主设备210中获取数据,则从设备220的第二声卡节点221的录音端执行录音操作,若从设备220向主设备210发送音频数据,则从设备221的第二声卡节点221的播放端执行播放操作。需要指出的是,主设备210与从设备220的各声卡节点的播放端与录音端保持相同的采样率,以避免造成数据不正常或失真等现象。
优选地,主设备210与从设备220可以通过总线通信方式通信连接,如HID通信(USB总线通信)等。若主设备210主动要求切换采样率,则主设备210发送切换采样率请求以及目标采样率至从设备220,切换采样率请求用于请求从设备220的声卡节点重新初始化录制端和播放端,并重新设置参数以及采样率。从设备220接收切换采样率请求以及目标采样率,并响应该切换采样率请求,将从设备220的当前采样率切换为目标采样率,并初始化声卡节点。
换句话说,从设备220可以有3个线程去轮询执行3个操作,分别为读取HID信息、播放操作、录音操作等,若主设备210将当前采样率切换为目标采样率并进行录制操作,则在从设备220读取HID信息的线程收到由主设备发送的切换请求以及目标采样率后,从设备220将当前采样率切换为目标采样率,并初始化声卡节点,以达到切换采样率的效果。
应理解,本实施例语音系统200中的执行装置可以包括操作机构,以根据所述主设备210输出的识别结果,执行相应的操作,在此不受限制。
应理解,控制装置220可以被实施为控制电路,控制装置220中可以包含用于通信的通信模块或电路等,控制装置220中的处理器可以是片上系统SOC,该处理器中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等。
图8为本申请电子设备一个实施例的结构示意图,如图8所示,上述电子设备可以包括:一个或多个处理器;存储器;以及一个或多个计算机程序。
其中,上述电子设备可以为语音设备、语音机器人、智能终端、智能家居、无人智能餐厅设备等,或者内置于电子设备的电路或模块等。
其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行以下步骤:
获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,当上述指令被上述设备执行时,使得上述设备执行所述根据所述唤醒结果,对所述语音系统的当前采样率进行切换,包括:
根据所述唤醒结果,获得所述语音系统的当前唤醒率;
在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
其中一种可能的实现方式中,当上述指令被上述设备执行时,使得上述设备执行所述在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
其中一种可能的实现方式中,所述语音系统包括数值从小到大的多个采样率,当上述指令被上述设备执行时,使得上述设备执行所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率;
和/或,当上述指令被上述设备执行时,使得上述设备执行所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
其中一种可能的实现方式中,当上述指令被上述设备执行时,使得上述设备执行所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率;
和/或,当上述指令被上述设备执行时,使得上述设备执行所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
其中一种可能的实现方式中,所述语音系统包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,当上述指令被上述设备执行时,使得上述设备执行所述基于所述语音系统的当前唤醒率,获取到第一目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,当上述指令被上述设备执行时,使得上述设备执行所述基于所述语音系统的当前唤醒率,获取到第二目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
其中一种可能的实现方式中,当上述指令被上述设备执行时,使得上述设备执行所述基于所述音频数据,对所述语音系统进行唤醒,包括:
获取所述音频数据对应的语言文本;
将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
根据所述识别结果对所述语音系统进行唤醒。
该设备可以用于执行本申请图1所示实施例提供的采样率切换方法中的功能/步骤。
如图8所示,电子设备900包括处理器910和存储器920。其中,处理器910和存储器920之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器920用于存储计算机程序,该处理器910用于从该存储器920中调用并运行该计算机程序。
上述存储器920可以是只读存储器(read-only memory,ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory,RAM)或可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。
上述处理器910可以和存储器920可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器920中存储的程序代码来实现上述功能。具体实现时,该存储器920也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得电子设备900的功能更加完善,该电子设备900还可以包括摄像头930、电源940、输入单元950等中的一个或多个。
可选地,电源950用于给电子设备中的各种器件或电路提供电源。
应理解,图8所示的电子设备900能够实现本申请图1所示实施例提供的方法的各个过程。电子设备900中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见本申请图1所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图8所示的电子设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器920中。
本申请还提供一种电子设备,所述设备包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图1所示实施例提供的方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图1所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图1所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种采样率切换方法,应用于语音系统,其特征在于,包括:
获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
2.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒结果,对所述语音系统的当前采样率进行切换,包括:
根据所述唤醒结果,获得所述语音系统的当前唤醒率;
在所述语音系统的当前唤醒率处于第一唤醒率范围内的情况下,保持所述语音系统的当前采样率不变;
在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换。
3.根据权利要求2所述的方法,其特征在于,所述在所述语音系统的当前唤醒率未处于所述第一唤醒率范围内的情况下,对所述语音系统的当前采样率进行切换,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率;
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率;
其中,所述第二唤醒率范围的最小值大于或等于所述第一唤醒率范围的最大值,所述第三唤醒率范围的最大值小于或等于所述第一唤醒率范围的最小值。
4.根据权利要求3所述的方法,其特征在于,所述语音系统包括数值从小到大的多个采样率,所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最小的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最小的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值低的所述采样率;
和/或,所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,若所述语音系统的当前采样率为数值最高的所述采样率,则保持所述语音系统的当前采样率不变,若所述语音系统的当前采样率不为数值最高的所述采样率,则将所述语音系统的当前采样率切换为比所述当前采样率数值高的所述采样率。
5.根据权利要求3所述的方法,其特征在于,所述在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,降低所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第二唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第一目标采样率,并将所述语音系统的当前采样率切换为所述第一目标采样率;
和/或,所述在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,升高所述语音系统的当前采样率,包括:
在所述语音系统的当前唤醒率处于第三唤醒率范围内的情况下,基于所述语音系统的当前唤醒率,获取到第二目标采样率,并将所述语音系统的当前采样率切换为所述第二目标采样率。
6.根据权利要求5所述的方法,其特征在于,所述语音系统包括目标唤醒率以及所述目标唤醒率、唤醒率、采样率与目标采样率之间的映射关系,所述基于所述语音系统的当前唤醒率,获取到第一目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第一目标采样率;
和/或,所述基于所述语音系统的当前唤醒率,获取到第二目标采样率,包括:
根据所述目标唤醒率、所述语音系统的当前唤醒率、所述语音系统的当前采样率以及所述映射关系,获得第二目标采样率。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述音频数据,对所述语音系统进行唤醒,包括:
获取所述音频数据对应的语言文本;
将所述语言文本输入到混合语言模型中,得到识别结果,所述混合语言模型由目标插值系数对第一语言模型以及第二语言模型进行插值处理得到,所述目标插值系数由插值模型以及预设插值系数得到,所述插值模型由所述预设插值系数对所述第一语言模型以及所述第二语言模型进行插值处理得到;
根据所述识别结果对所述语音系统进行唤醒。
8.一种采样率切换装置,其特征在于,包括:
获取模块,用于获取所述语音系统的当前采样率以及在所述当前采样率下采集到的音频数据;
唤醒模块,用于基于所述音频数据,对所述语音系统进行唤醒,获得唤醒结果;
处理模块,用于根据所述唤醒结果,对所述语音系统的当前采样率进行切换。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
11.一种语音系统,其特征在于,包括:
主设备,所述主设备包括第一声卡节点和音频处理单元,所述第一声卡节点与所述音频处理单元连接;
从设备,所述从设备与所述主设备通信连接,所述从设备包括第二声卡节点和第三声卡节点,所述第三声卡节点用于采集音频数据,所述第二声卡节点与所述第三声卡节点连接,所述第一声卡节点与所述第二声卡节点连接;
所述音频处理单元,包含:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述系统执行时,使得所述系统执行如权利要求1至7任一项所述的方法;
所述从设备,用于受控于所述主设备的所述音频处理单元,以切换采样率。
CN202110974092.3A 2021-08-24 2021-08-24 采样率切换方法、装置、电子设备以及语音系统 Pending CN113689865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110974092.3A CN113689865A (zh) 2021-08-24 2021-08-24 采样率切换方法、装置、电子设备以及语音系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110974092.3A CN113689865A (zh) 2021-08-24 2021-08-24 采样率切换方法、装置、电子设备以及语音系统

Publications (1)

Publication Number Publication Date
CN113689865A true CN113689865A (zh) 2021-11-23

Family

ID=78581834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110974092.3A Pending CN113689865A (zh) 2021-08-24 2021-08-24 采样率切换方法、装置、电子设备以及语音系统

Country Status (1)

Country Link
CN (1) CN113689865A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610234A (zh) * 2012-04-09 2012-07-25 河海大学 信号复杂度和编码速率选择的映射实现方法
CN103886860A (zh) * 2014-02-21 2014-06-25 联想(北京)有限公司 一种信息处理方法和电子设备
CN104038804A (zh) * 2013-03-05 2014-09-10 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
US20170365257A1 (en) * 2016-06-15 2017-12-21 Realtek Semiconductor Corp. Voice control system and method thereof
CN110288981A (zh) * 2019-07-03 2019-09-27 百度在线网络技术(北京)有限公司 用于处理音频数据的方法和装置
CN111402908A (zh) * 2020-03-30 2020-07-10 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备和存储介质
CN111508475A (zh) * 2020-04-16 2020-08-07 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN112530400A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 基于深度学习的文本生成语音的方法、系统、装置及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610234A (zh) * 2012-04-09 2012-07-25 河海大学 信号复杂度和编码速率选择的映射实现方法
CN104038804A (zh) * 2013-03-05 2014-09-10 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
CN103886860A (zh) * 2014-02-21 2014-06-25 联想(北京)有限公司 一种信息处理方法和电子设备
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
US20170365257A1 (en) * 2016-06-15 2017-12-21 Realtek Semiconductor Corp. Voice control system and method thereof
CN110288981A (zh) * 2019-07-03 2019-09-27 百度在线网络技术(北京)有限公司 用于处理音频数据的方法和装置
CN111402908A (zh) * 2020-03-30 2020-07-10 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备和存储介质
CN111508475A (zh) * 2020-04-16 2020-08-07 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN112530400A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 基于深度学习的文本生成语音的方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
US11502859B2 (en) Method and apparatus for waking up via speech
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
US8874440B2 (en) Apparatus and method for detecting speech
CN108932944B (zh) 解码方法及装置
WO2021072955A1 (zh) 解码网络构建方法、语音识别方法、装置、设备及存储介质
JPWO2008004663A1 (ja) 言語モデル更新装置、言語モデル更新方法、および言語モデル更新用プログラム
KR102609430B1 (ko) 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
EP2388778A1 (en) Speech recognition
US8332222B2 (en) Viterbi decoder and speech recognition method using same using non-linear filter for observation probabilities
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
CN105390139A (zh) 关键词辨认系统以及方法
CN108053826B (zh) 用于人机交互的方法、装置、电子设备及存储介质
CN105830058A (zh) 对话管理器
CN113132193A (zh) 智能设备的控制方法、装置、电子设备以及存储介质
CN111179931A (zh) 用于语音交互的方法、装置及家用电器
CN111386566A (zh) 设备控制方法、云端设备、智能设备、计算机介质及设备
CN115240633A (zh) 用于文本到语音转换的方法、装置、设备和存储介质
CN111862943B (zh) 语音识别方法和装置、电子设备和存储介质
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
CN113689865A (zh) 采样率切换方法、装置、电子设备以及语音系统
CN115019817A (zh) 语音唤醒方法及装置、电子设备及存储介质
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
JP2004109590A (ja) 音響モデル作成方法および音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211123