CN107527614A - 语音控制系统及其方法 - Google Patents

语音控制系统及其方法 Download PDF

Info

Publication number
CN107527614A
CN107527614A CN201610452459.4A CN201610452459A CN107527614A CN 107527614 A CN107527614 A CN 107527614A CN 201610452459 A CN201610452459 A CN 201610452459A CN 107527614 A CN107527614 A CN 107527614A
Authority
CN
China
Prior art keywords
audio
voice data
unit
module
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610452459.4A
Other languages
English (en)
Other versions
CN107527614B (zh
Inventor
林家强
王奕桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Realtek Semiconductor Corp
Original Assignee
Realtek Semiconductor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Realtek Semiconductor Corp filed Critical Realtek Semiconductor Corp
Priority to CN201610452459.4A priority Critical patent/CN107527614B/zh
Publication of CN107527614A publication Critical patent/CN107527614A/zh
Application granted granted Critical
Publication of CN107527614B publication Critical patent/CN107527614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例提供一种语音控制系统及其方法,此语音控制系统适用于一电子装置,运作于休眠模式与工作模式,并包括音频检测模块、音频编解码模块与控制模块。于休眠模式下,音频检测模块持续检测一收音单元所接收的第一音频数据中是否存在唤醒语句。当音频检测模块检测到唤醒语句,即产生第一提示信号,并暂存唤醒语句后的第一音频数据。控制模块由第一提示信号唤醒后,语音控制系统进入工作模式。于工作模式下,控制模块驱动音频编解码模块读取并解码暂存于音频检测模块的第一音频数据,以辨识第一音频数据中的控制语句,进而控制电子装置。

Description

语音控制系统及其方法
技术领域
本发明涉及一种语音控制系统及其方法,特别涉及一种允许使用者说出唤醒语句后,无需等待系统唤醒即可接续说出控制语句的语音控制系统及其方法。
背景技术
随着科技的发展,语音控制功能已逐渐地实现于各种电子装置,使得人们的生活越趋便利。一般来说,电子装置若要实现语音控制功能并且兼顾低功耗,通常会通过语音唤醒的机制来启动语音控制功能。理由在于,若没有通过语音唤醒的机制来启动语音控制功能,语音控制系统便需要持续地将所接收音频数据传送至处理器以进行辨识。尽管以此方式电子装置确实能实现语音控制功能,但却十分耗电。
因此,目前多数的语音控制系统会通过语音唤醒的机制来启动语音控制功能,如此一来,当语音控制系统运作于休眠模式下,便只须运作部分用以实现语音唤醒机制的电路,待该些电路检测到唤醒语句后,再唤醒整个语音控制系统,以对语音控制语句进行辨识,进而控制电子装置。
然而,于实际操作上,语音控制系统从休眠模式被唤醒并进入工作模式须经过一段时间,因此使用者并不能于输入唤醒语句后即刻地输入控制语句,而必须等待一个提示获知语音控制系统进入工作模式后,才能输入控制语句来控制电子装置。
发明内容
本发明实施例提供一种语音控制系统,适用于一电子装置。此语音控制系统运作于一休眠模式与一工作模式,并包括音频检测模块、音频编解码模块与控制模块。音频编解码模块连接于音频检测模块,且控制模块连接于音频编解码模块与音频检测模块。于休眠模式下,音频检测模块持续地检测一收音单元所接收的第一音频数据中是否存在唤醒语句。当音频检测模块检测到唤醒语句,即产生第一提示信号,并暂存唤醒语句后的第一音频数据。控制模块由第一提示信号唤醒后,语音控制系统进入工作模式。于工作模式下,控制模块驱动音频编解码模块读取并解码暂存于音频检测模块的第一音频数据,以辨识第一音频数据中的控制语句,进而控制电子装置。
本发明实施例亦提供一种语音控制方法,适用于一语音控制系统。此语音控制系统运作于一休眠模式与一工作模式,并包括音频检测模块、音频编解码模块与控制模块。音频编解码模块连接于音频检测模块,且控制模块连接于音频编解码模块与音频检测模块。此语音控制方法包括:于休眠模式下,通过音频检测模块,持续检测一收音单元所接收的第一音频数据中是否存在唤醒语句;当音频检测模块检测到唤醒语句,即产生第一提示信号至控制模块,并暂存唤醒语句后的第一音频数据;通过第一提示信号,控制模块被唤醒,使得语音控制系统进入工作模式;以及于工作模式下,控制模块驱动音频编解码模块读取并解码暂存于音频检测模块的第一音频数据,以辨识第一音频数据中的控制语句,进而控制电子装置。
综上所述,由于在本发明所提供的语音控制系统及其方法中,音频检测模块能暂存音频数据,因此使用者于说出唤醒语句后,无需停顿与确认系统已被唤醒,便可即刻地接续说出控制语句,十分方便。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,但是此等说明与附图说明书附图仅是用来说明本发明,而非对本发明的权利范围作任何的限制。
附图说明
图1为根据本发明例示性实施例所绘示的语音控制系统的方块图。
图2为根据本发明另一例示性实施例所绘示的语音控制系统的方块图。
图3为根据本发明例示性实施例所绘示的储存于缓冲单元的音频数据的示意图。
图4为根据本发明例示性实施例所绘示的语音控制方法的流程图。
图5A与图5B为根据本发明其他例示性实施例所绘示的语音控制方法的流程图。
附图标记说明:
1、2:语音控制系统
10:音频检测模块
11:辨识单元
11a:计时器
13:提示单元
15:缓冲单元
17:取样频率转换单元
20:音频编解码模块
21:第一音频输入单元
22:第二音频输入单元
23:音频编解码单元
25:音频输出单元
30:控制模块
31:睡眠唤醒单元
33:控制单元
SPK:扬声器
MIC:收音单元
MIC-L:来自收音单元的左声道的音频数据
MIC-R:来自收音单元的右声道的音频数据
SPK-L:来自扬声器的左声道的音频数据
SPK-R:来自扬声器的右声道的音频数据
A-mar、B-mar:标记数据
400、500A、500B:语音控制方法
S410~S480:步骤
S431、S470a、S471a、S471b、S472b:步骤
具体实施方式
在下文将参看说明书附图更充分地描述各种例示性实施例,在说明书附图中展示一些例示性实施例。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述的例示性实施例。确切而言,提供此等例示性实施例使得本发明将为详尽且完整,且将向熟习此项技术者充分传达本发明概念的范畴。在诸附图中,类似数字始终指示类似元件。
首先,以下将以多个实施例说明本发明的语音控制系统。此种语音控制系统适用于多种电子装置,如:智能手机、平板电脑…等。使用者可通过说出唤醒语句来唤醒此语音控制系统,再通过说出控制语句使得此语音控制系统根据控制语句来对电子装置进行控制,如:拨打电话、对电子装置进行定位…等。
〔语音控制系统的实施例〕
请参照图1,图1为根据本发明例示性实施例所绘示的语音控制系统的方块图。语音控制系统1运作于一休眠模式与一工作模式。如图1所示,语音控制系统1包括音频检测模块10、音频编解码模块20与控制模块30。音频编解码模块20连接于音频检测模块10,且控制模块30连接于音频编解码模块20与音频检测模块10,其中音频检测模块10连接于一收音单元MIC,以接收音频数据,如:使用者所发出的各种语句。举例来说,收音单元可以是内建于电子装置的麦克风…等,本发明于此并不限制。
进一步说明,音频检测模块10包括辨识单元11、提示单元13与缓冲单元15。提示单元13连接于辨识单元11与控制模块30,且缓冲单元15连接于收音单元MIC与音频编解码模块20。控制模块30包括睡眠唤醒单元31与控制单元33。睡眠唤醒单元31连接于音频检测模块10的提示单元13,且控制单元33连接睡眠唤醒单元31。音频编解码模块20包括第一音频输入单元21与音频编解码单元23。第一音频输入单元21连接于音频检测模块10的缓冲单元15,且音频编解码单元23连接于第一音频输入单元21与控制模块30的控制单元33。
当语音控制系统1运作于休眠模式,多数模块里的电路均运作于休眠模式,而前述的音频检测模块10以及控制模块30的睡眠唤醒单元31是正常工作,以持续地通过收音单元MIC接收音频数据(为便于说明,将其定义为第一音频数据)并检测使用者是否发出唤醒语句。
唤醒语句可为任何语种的语句,如:「Hello,computer!」或者任何系统设计者所设定的语句,本发明于此并不限制。当辨识单元11于第一音频数据中检测到唤醒语句时,便会控制提示单元13产生第一提示信号至睡眠唤醒单元31,同时辨识单元11也会将唤醒语句的后所检测到的第一音频数据暂存于缓冲单元15中。
一般来说,收音单元MIC所输出的第一音频数据可为两种,一种是模拟信号,另一种系数字信号。于收音单元MIC所输出的第一音频数据为模拟信号的情况下第一音频数据会先经由一模拟数字转换器(未图示)转换成数字信号,此第一音频数据的数据格式(即第一取样率,如:16kHz)乃根据此模拟数字转换器本身的时脉以及一数字滤波器(未图示)的速度而决定。另一方面,于收音单元MIC所输出的第一音频数据为数字信号的情况下,一数字滤波器(未图示)会将此第一音频数据转换为脉冲编码调变(Pulse-Code Modulation;PCM)信号,且此第一音频数据的数据格式(即第一取样率,如:16kHz)乃根据此数字滤波器的速度而决定。以上音频处理为本领域的技术人员所熟知,故不予赘述。
复如前述,当语音控制系统1处于休眠模式,控制模块30的睡眠唤醒单元31仍会正常工作,以持续地检测音频检测模块10的提示单元13是否传来第一提示信号。若睡眠唤醒单元31接收到第一提示信号,即表示音频检测模块10检测到使用者所发出的唤醒语句,于是睡眠唤醒单元31便会唤醒控制单元33,使得控制单元33驱动整个语音控制系统1进入工作模式。
于音频检测模块10的提示单元13产生第一提示信号至控制模块30的睡眠唤醒单元31的同时,音频检测模块10的辨识单元11也会将唤醒语句的后所检测到的第一音频数据暂存于音频检测模块10的缓冲单元15中。也就是说,使用者说完唤醒语句后接续说出的语句均会被暂存至缓冲单元15中。接着,当控制模块30的控制单元33由第一提示信号唤醒,并驱动语音控制系统1进入工作模式时,控制单元33便控制第一音频输入单元21读取暂存于缓冲单元15中的第一音频数据,且控制单元33驱动音频编解码单元23解码被读取的第一音频数据,以辨识第一音频数据中的控制语句,进而控制电子装置。
也就是说,由于音频检测模块10中设置有缓冲单元15,当使用者在说完唤醒语句后不作停顿地说出控制语句时,辨识单元11能够将于唤醒语句的后所检测到的第一音频数据均暂存至此缓冲单元15。简言之,使用者在说完唤醒语句后,无需停顿一段时间等待以判断语音控制系统1已被唤醒,才说出控制语句。
于是,在使用者于行驶车辆或步行时…等较难留意语音控制系统是否已被唤醒的情况下,本实施例所提供的语音控制系统1能让使用者流畅地对电子装置进行语音控制,相当便利。
〔语音控制系统的另一实施例〕
请参照图2,图2为根据本发明另一例示性实施例所绘示的语音控制系统的方块图。本实施例所提供的语音控制系统2与图1所绘示的实施例所提供的语音控制系统1具有相似的架构,故于接下来的叙述中,将描述不同于上述图1所绘示的实施例的部分,且其余省略部分与上述图1所绘示的实施例相同。此外,为方便说明,相似的参考数字或标号指示相似的元件。
本实施例所提供的语音控制系统2与图1所绘示的实施例所提供的语音控制系统1的其中一个差异处在于,如图2所示,于语音控制系统2中,音频检测模块10的辨识单元11包括有计时器11a。
当控制单元33由第一提示信号唤醒,并驱动语音控制系统2进入工作模式时,计时器11a便会开始计时,其目的是为了判断语音控制系统2是否有必要停止运作并回到休眠模式,以减少电子装置的耗电量。详细地说,语音控制系统2一进入工作模式,计时器11a便会开始计时一段预设时间,如:3秒或5秒…等。若使用者说完唤醒语句后,于此预设时间内都没有说出控制语句,使得辨识单元11在检测到唤醒语句后的一段预设时间内都未检测到第一音频数据,则辨识单元11就会控制提示单元13传送第二提示信号至睡眠唤醒单元31。睡眠唤醒单元31将根据第二提示信号停止控制单元33的运作,使得语音控制系统2回到休眠模式。
再者,本实施例所提供的语音控制系统2与图1所绘示的实施例所提供的语音控制系统1的另一个差异处在于,复如图2所示,于语音控制系统2中,音频检测模块10还包括有取样频率转换单元17,其中取样频率转换单元17连接于缓冲单元15与音频编解码模块20的音频输出单元25之间,且音频编解码模块20还包括音频输出单元25,其中音频输出单元25连接于音频编解码单元23。
于本实施例中,语音控制系统2能够支援电子装置的音频数据播放。于此情况下,控制模块30会传送欲播放的音频数据(为便于说明,将其定义为第二音频数据)至音频编解码单元23,并驱动音频编解码单元23将此第二音频数据进行编码。接着,由音频输出单元25将经编码的第二音频数据输出至一扬声器SPK以进行播放。值得注意地是,于此同时,此第二音频数据亦会被传送至取样频率转换单元17,由取样频率转换单元17将此第二音频数据的数据格式由第二取样率(如:48kHz)转换为与第一音频数据的数据格式相同的第一取样率(如:16kHz),接着取样频率转换单元17再将经转换的该第二音频数据暂存于缓冲单元15,目的在于将此第二音频数据作为参考音频数据,以利进行相关的语音处理。
于一实施例中,在使用者发出控制语句以通过语音控制系统2控制电子装置的过程中,通过音频输出单元25输出至扬声器SPK进行播放的第二音频数据也会经由收音单元MIC收录,成为第一音频数据中的噪声,使得控制模块30在对第一音频数据中的控制语句进行辨识时受到干扰。故于本实施例中,为了有效地消除第一音频数据中来自第二音频数据的噪声,音频编解码模块20经由音频输出单元25将第二音频数据传送至取样频率转换单元17进行数据格式转换后,将其暂存于缓冲单元15,再由控制模块30驱动音频编解码单元23读取并解码暂存于缓冲单元15的第一音频数据与第二音频数据。接着,控制模块30会将第二音频数据当作是参考音频数据,据以将第一音频数据中与参考音频数据相符的部分消除。如此一来,便能减少控制模块30对控制语句误判的机率。
于另一实施例中,类似地,第二音频数据也会被暂存于缓冲单元15,以作为参考音频数据。辨识单元11接收包含有来自第二音频数据的第一音频数据后,会先根据参考音频数据,将第一音频数据中与参考音频数据相符的部分消除,以有效地消除第一音频数据中来自第二音频数据的噪声。接着,辨识单元11再将经处理的第一音频数据暂存于缓冲单元15,待控制模块30通过音频编解码模块20取得并辨识经处理的第一音频数据中的控制语句,进而控制电子装置。
须说明地是,比较前述两实施例,若是由辨识单元11对第一音频数据进行语音处理,辨识单元11需具有较高的运算能力。此外,由于音频检测模块10在休眠模式下须进行来自收音单元MIC的第一音频数据与来自扬声器SPK的第二音频数据的数据处理,故语音控制系统2的整体耗电量将较大,但却能相对地缩短控制模块30辨识控制语句的运算量。
若是由控制模块30对第一音频数据进行语音处理,系统整体耗电量会较低,则此语音控制系统2便能应用于便携式电子装置,如:智能手机、平板电脑…等。另一方面,若是由辨识单元11对第一音频数据进行语音处理,系统整体耗电量较大,则此语音控制系统2会比较适合应用于通常以市电作为供应电源的家电设备,如:智能电冰箱…等。
除此之外,由于在使用者发出控制语句以通过语音控制系统2控制电子装置的过程中,通过音频输出单元25输出至扬声器SPK进行播放的第二音频数据也会经由收音单元MIC收录。因此,收音单元MIC所收录的第一音频数据(包含第二音频数据)便至少包括有来自收音单元MIC的左右声道的音频数据以及来自扬声器SPK的左右声道的音频数据。简言之,于本实施例中,收音单元MIC所收录的第一音频数据实质上将至少包括有四个声道的音频数据。
于实际操作上,缓冲单元15的数据储存空间有限,以48kHz的取样率以及16位元的数据长度作为暂存数据格式来说,暂存收音单元MIC的左右声道1秒钟的音频数据就需要192KB储存空间。考量到一般对于人声特征的辨识,其取样频率最低使用8kHz即可接受,故本实施例所提供的语音控制系统2选择以16kHz的取样率作为暂存数据格式,以储存多个声道的音频数据。相较于以48kHz的取样率作为暂存数据格式来储存多个声道的音频数据的作法来说,缓冲单元15所需的储存空间较小。
请参照图3,图3为根据本发明例示性实施例所绘示的储存于缓冲单元的音频数据的示意图。于本实施例中,语音控制系统2是以16kHz的取样率以及16位元的数据长度作为暂存数据格式以储存来自收音单元MIC的左右声道的音频数据MIC-L与MIC-R与来自扬声器SPK的左右声道的音频数据SPK-L与SPK-R,以此暂存数据格式储存的音频数据即可如图3所示。
然而,一般来说,数字音频接口(如:本实施中的音频编解码单元23)的取样频率多高于16kHz,如:44.1kHz或48kHz…等。为了因应音频编解码单元23高于16kHz的取样率,语音控制系统2会利用取样频率转换单元17将音频输出单元25输出的第二音频数据的数据格式由第二取样率(如:48kHz)转换为第一取样率(如:16kHz)。
如图3所示,收音单元MIC的左右声道的音频数据MIC-L与MIC-R,以及扬声器SPK的左右声道的音频数据SPK-L与SPK-R是以固定顺序重复地排列,其中于收音单元MIC的左右声道的音频数据MIC-L与MIC-R的前排列有固定格式的标记数据A-mar与B-mar。如此一来,控制模块30便能通过读取到标记数据A-mar与B-mar,判断出接续读取的音频数据是来自收音单元MIC的左声道与右声道,且再接续读取的音频数据是来自扬声器SPK的左声道与右声道;另一方面,控制模块30也能通过标记数据A-mar与B-mar将来自收音单元MIC的左右声道与来自扬声器SPK的左右声道的音频数据作重组。
最后,本实施例所提供的语音控制系统2与图1所绘示的实施例所提供的语音控制系统1的又一个差异处在于,复如图2所示,于语音控制系统2中,音频编解码模块20还包括第二音频输入单元22,其中第二音频输入单元22连接于收音单元MIC与音频编解码单元23。当控制模块30控制电子装置启动通话模式、录音模式或者任何仅需收发音频数据而无需根据所接收的音频数据对电子装置进行控制的模式时,控制模块30便会驱动第二音频输入单元22直接由收音单元MIC接收第一音频数据,并于音频编解码单元23解码第一音频数据后,由控制模块30对经解码的第一音频数据进行语音处理。也就是说,于此情况下,第一音频数据无须被暂存于缓冲单元15中。
相较于前述实施例所提供的语音控制系统1,本实施例所提供的语音控制系统2除了能让使用者在说完唤醒语句后不作停顿地说出控制语句以对电子装置进行控制外,通过将背景音频数据(即,前述的第二音频数据)暂存以作为参考音频数据,还能消除第一音频数据中的噪声。另外,通过将音频数据以低取样率的数据格式进行暂存并以高取样率的数据格式进行读取的方式,便能于有限的储存空间内储存多个声道的音频数据。
〔语音控制方法的一实施例〕
本实施例提供一种语音控制方法,适用于前述语音控制系统1与2,然而关于语音控制系统1与2的架构于此便不再赘述。请参照图4,图4为根据本发明例示性实施例所绘示的语音控制方法的流程图。
如图4所示,本实施例所提供的语音控制方法400主要是通过以下步骤具体实现。当语音控制系统运作于休眠模式下,于步骤S410中,音频检测模块会持续检测收音单元所接收的第一音频数据中是否存在唤醒语句。接着,于步骤S420中,当音频检测模块检测到唤醒语句时,即产生第一提示信号至控制模块,并暂存唤醒语句后的第一音频数据。通过第一提示信号,于步骤S430中,控制模块会被唤醒,使得语音控制系统进入工作模式。
为了判断语音控制系统是否有必要停止运作并回到休眠模式,接着进入步骤S440,以于工作模式下,通过音频检测模块计时一预设时间以检测唤醒语句后是否存在有第一音频数据。若于此预设时间内,音频检测模块未检测到唤醒语句后的第一音频数据,则进入步骤S450。于步骤S450中,音频检测模块传送第二提示信号至控制模块以停止控制模块的运作,使得语音控制系统回到休眠模式。另一方面,若于此预设时间内,音频检测模块检测到唤醒语句后的第一音频数据,则进入步骤S460。于步骤S460中,音频检测模块暂存唤醒语句后的第一音频数据。
接着进入步骤S470,由控制模块驱动音频编解码模块读取并解码暂存于音频检测模块的第一音频数据,以辨识第一音频数据中的控制语句,进而控制电子装置。
值得注意地是,若于步骤S470后,电子装置受控制模块控制而启动通话模式、录音模式或者任何仅需收发音频数据而无需继续根据所接收的音频数据对电子装置进行控制的模式,则会进入步骤S480。于步骤S480中,控制模块会驱动第二音频输入单元直接由收音单元接收第一音频数据,并于音频编解码单元解码第一音频数据后,由控制模块对经解码的第一音频数据进行语音处理。也就是说,此时,第一音频数据已无须被暂存于缓冲单元15中。
〔语音控制方法的其他实施例〕
以下两个实施例分别提供了语音控制方法500A与500B,请参照图5A与图5B,图5A与图5B为根据本发明其他例示性实施例所绘示的语音控制方法的流程图。语音控制方法500A与500B的步骤大致类似于前述实施例所提供的语音控制方法400,故于接下来的叙述中,将描述不同于上述图4所绘示的实施例的部分,且其余省略部分与上述图4所绘示的实施例相同。此外,为方便说明,相似的参考数字或标号指示相似的步骤。
语音控制方法500A与图4所示的语音控制方法400的差异处在于,于步骤S430后,语音控制方法500A还包括了步骤S431。由于前述实施例各语音控制系统均能够支援电子装置的音频数据播放,故于步骤S431中,控制模块便会传送第二音频数据(即,欲播放的音频数据)至音频编解码模块以进行编码,接着再通过音频编解码模块将经编码的第二音频数据输出至一扬声器以进行播放。
接着,不同于语音控制方法400中的步骤S470,于步骤S431与S460后,语音控制方法500A便进入步骤S470a。当音频编解码模块将经编码的第二音频数据输出至一扬声器进行播放时,于步骤S470a中,音频编解码模块也将经编码的第二音频数据传送至音频检测模块,以转换其数据格式并暂存经转换的第二音频数据,以作为参考音频数据。须说明的是,音频编解码模块是将第二音频数据的数据格式由一第二取样率转换为一第一取样率,其中第二取样率(如:48k Hz)大于第一取样率(如:16k Hz)。接着于步骤S471a中,控制模块驱动音频编解码单元读取并解码第一音频数据与参考音频数据,以根据经解码的参考音频数据对经解码的第一音频数据进行语音处理,来辨识第一音频数据中的控制语句,进而控制电子装置。
类似于语音控制方法500A,语音控制方法500B也包括了步骤S431,并且于步骤S431与S460后,语音控制方法500B亦进入步骤S470a。然而,语音控制方法500B与语音控制方法500A的差异处在于,于步骤S470a后,语音控制方法500B便进入步骤S471b,以由音频检测模块根据经解码的参考音频数据对经解码的第一音频数据进行语音处理,并将经处理的第一音频数据暂存于缓冲单元。接着再进入步骤S472b,将经处理的第一音频数据通过音频编解码模块传送至控制模块,以辨识经处理的第一音频数据中的控制语句,进而控制电子装置。
〔实施例的可能技术效果〕
综上所述,本发明所提供的语音控制系统及其方法能够让使用者通过说出唤醒语句与控制语句来对电子装置进行控制,并至少具有以下优点:
首先,本发明所提供的语音控制系统与方法能让使用者于行驶车辆或步行时…等较难留意语音控制系统是否已被唤醒的情况下仍能流畅地对电子装置进行语音控制。
再者,本发明所提供的语音控制系统与方法通过将背景音频数据暂存以作为参考音频数据的方式,便能消除收音单元所接收的音频数据中的噪声。
此外,本发明所提供的语音控制系统与方法通过将音频数据以低取样率的数据格式输入并以高取样率的数据格式读取的方式,能够在有限的储存空间内储存多个声道的音频数据。
以上所述仅为本发明的实施例,其并非用以局限本发明的专利范围。

Claims (10)

1.一种语音控制系统,适用于一电子装置,并运作于一休眠模式与一工作模式,包括:
一音频检测模块,于该休眠模式下,该音频检测模块持续检测一收音单元所接收的一第一音频数据中是否存在一唤醒语句,其中当该音频检测模块检测到该唤醒语句,即产生一第一提示信号,并暂存该唤醒语句后的该第一音频数据;
一音频编解码模块,连接于该音频检测模块;以及
一控制模块,连接于该音频编解码模块与该音频检测模块;
其中,该控制模块由该第一提示信号唤醒后,该语音控制系统进入该工作模式,于该工作模式下,该控制模块驱动该音频编解码模块读取并解码暂存于该音频检测模块的该第一音频数据,以辨识该第一音频数据中的该控制语句,进而控制该电子装置。
2.如权利要求1所述的语音控制系统,其中该音频检测模块包括:
一辨识单元,于该休眠模式下,接收并检测该第一音频数据中的该唤醒语句;
一提示单元,连接于该辨识单元与该控制模块;以及
一缓冲单元,连接于该收音单元与该音频编解码模块;
其中,当该辨识单元检测到该唤醒语句,便控制该提示单元产生并传送该第一提示信号至该控制模块,同时该缓冲单元暂存该唤醒语句后的该第一音频数据。
3.如权利要求2所述的语音控制系统,其中该控制模块包括:
一睡眠唤醒单元,连接于该音频检测模块的该提示单元;以及
一控制单元,连接该睡眠唤醒单元;
其中于该休眠模式下,该睡眠唤醒单元持续检测该第一提示信号,当该睡眠唤醒单元接收到该第一提示信号时,该睡眠唤醒单元唤醒该控制单元,使该语音控制系统进入该工作模式。
4.如权利要求3所述的语音控制系统,其中该音频编解码模块包括:
一第一音频输入单元,连接于该音频检测模块的该缓冲单元,读取暂存于该缓冲单元的该第一音频数据;以及
一音频编解码单元,连接于该第一音频输入单元与该控制模块的该控制单元,其中于该工作模式下,该控制单元驱动该音频编解码单元解码该第一音频输入单元所读取的该第一音频数据,以辨识该第一音频数据中的该控制语句,进而控制该电子装置。
5.如权利要求4所述的语音控制系统,其中该音频编解码模块还包括一音频输出单元,该音频输出单元连接于该音频编解码单元,其中该控制模块传送一第二音频数据至该音频编解码单元,并驱动该音频编解码单元将该第二音频数据进行编码,该音频输出单元将经编码的该第二音频数据输出至一扬声器以进行播放。
6.如权利要求5所述的语音控制系统,其中该音频检测模块还包括一取样频率转换单元,该取样频率转换单元连接于该缓冲单元与该音频编解码模块的该音频输出单元之间,用以将该音频输出单元输出的该第二音频数据的数据格式由一第二取样率转换为该第一取样率,并将经转换的该第二音频数据暂存于该缓冲单元,以作为一参考音频数据,其中该第一取样率即为该第一音频数据的数据格式,且该第二取样率大于该第一取样率。
7.如权利要求6所述的语音控制系统,其中该控制模块驱动该音频编解码单元读取并解码暂存于该缓冲单元的该第一音频数据与该参考音频数据,并根据经解码的该参考音频数据对经解码的该第一音频数据进行语音处理,以辨识该第一音频数据中的该控制语句,进而控制该电子装置。
8.如权利要求6所述的语音控制系统,其中该辨识单元根据经解码的该参考音频数据对经解码的该第一音频数据进行语音处理,再将经处理的该第一音频数据暂存于该缓冲单元,经处理的该第一音频数据通过该音频编解码模块被传送至该控制模块,以辨识该第一音频数据中的该控制语句,进而控制该电子装置。
9.如权利要求1所述的语音控制系统,其中该音频编解码模块包括一第二音频输入单元,该第二音频输入单元连接于该收音单元与该音频编解码单元,其中当该控制模块控制该电子装置启动一通话模式或一录音模式时,该控制模块驱动该第二音频输入单元直接由该收音单元接收该第一音频数据,并于该音频编解码单元解码该第一音频数据后,由该控制模块对经解码的该第一音频数据进行语音处理。
10.一种语音控制方法,适用于一语音控制系统,该语音控制系统运作于一休眠模式与一工作模式且包括一音频检测模块、一音频编解码模块与一控制模块,该音频编解码模块连接于该音频检测模块,该控制模块连接于该音频编解码模块与该音频检测模块,该语音控制方法包括:
于该休眠模式下,通过该音频检测模块,持续检测一收音单元所接收的一第一音频数据中是否存在一唤醒语句;
当该音频检测模块检测到该唤醒语句,即产生一第一提示信号至该控制模块,并暂存该唤醒语句后的该第一音频数据;
通过该第一提示信号,该控制模块被唤醒,使得该语音控制系统进入该工作模式;以及
于该工作模式下,该控制模块驱动该音频编解码模块读取并解码暂存于该音频检测模块的该第一音频数据,以辨识该第一音频数据中的该控制语句,进而控制该电子装置。
CN201610452459.4A 2016-06-21 2016-06-21 语音控制系统及其方法 Active CN107527614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610452459.4A CN107527614B (zh) 2016-06-21 2016-06-21 语音控制系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610452459.4A CN107527614B (zh) 2016-06-21 2016-06-21 语音控制系统及其方法

Publications (2)

Publication Number Publication Date
CN107527614A true CN107527614A (zh) 2017-12-29
CN107527614B CN107527614B (zh) 2021-11-26

Family

ID=60735148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610452459.4A Active CN107527614B (zh) 2016-06-21 2016-06-21 语音控制系统及其方法

Country Status (1)

Country Link
CN (1) CN107527614B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108469894A (zh) * 2018-03-13 2018-08-31 深圳阿凡达智控有限公司 语音识别芯片控制方法、装置以及系统
CN108711427A (zh) * 2018-05-18 2018-10-26 出门问问信息科技有限公司 语音信息的采集方法及装置
CN109003611A (zh) * 2018-09-29 2018-12-14 百度在线网络技术(北京)有限公司 用于车辆语音控制的方法、装置、设备和介质
CN110047471A (zh) * 2019-05-13 2019-07-23 深圳市智宇盟科技有限公司 语音唤醒方法
CN110182155A (zh) * 2019-05-14 2019-08-30 中国第一汽车股份有限公司 车载控制系统的语音控制方法、车载控制系统和车辆
CN111383632A (zh) * 2018-12-28 2020-07-07 北京小米移动软件有限公司 电子设备
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
CN112744474A (zh) * 2019-10-29 2021-05-04 上海浦东临港智慧城市发展中心 一种用于公共场所的智能语音分类垃圾系统
CN112860331A (zh) * 2021-03-19 2021-05-28 Vidaa美国公司 一种显示设备及语音交互的提示方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
CN1661676A (zh) * 2004-02-23 2005-08-31 宏碁股份有限公司 语音互动的方法及其系统
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
CN104035743A (zh) * 2013-03-07 2014-09-10 亚德诺半导体技术公司 用于基于传感器数据进行处理器唤醒的系统和方法
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
CN1661676A (zh) * 2004-02-23 2005-08-31 宏碁股份有限公司 语音互动的方法及其系统
CN104035743A (zh) * 2013-03-07 2014-09-10 亚德诺半导体技术公司 用于基于传感器数据进行处理器唤醒的系统和方法
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
CN108469894A (zh) * 2018-03-13 2018-08-31 深圳阿凡达智控有限公司 语音识别芯片控制方法、装置以及系统
CN108711427A (zh) * 2018-05-18 2018-10-26 出门问问信息科技有限公司 语音信息的采集方法及装置
CN109003611A (zh) * 2018-09-29 2018-12-14 百度在线网络技术(北京)有限公司 用于车辆语音控制的方法、装置、设备和介质
CN111383632A (zh) * 2018-12-28 2020-07-07 北京小米移动软件有限公司 电子设备
CN111383632B (zh) * 2018-12-28 2023-10-31 北京小米移动软件有限公司 电子设备
CN110047471A (zh) * 2019-05-13 2019-07-23 深圳市智宇盟科技有限公司 语音唤醒方法
CN110182155A (zh) * 2019-05-14 2019-08-30 中国第一汽车股份有限公司 车载控制系统的语音控制方法、车载控制系统和车辆
CN110182155B (zh) * 2019-05-14 2021-04-30 中国第一汽车股份有限公司 车载控制系统的语音控制方法、车载控制系统和车辆
CN112744474A (zh) * 2019-10-29 2021-05-04 上海浦东临港智慧城市发展中心 一种用于公共场所的智能语音分类垃圾系统
CN112860331A (zh) * 2021-03-19 2021-05-28 Vidaa美国公司 一种显示设备及语音交互的提示方法
CN112860331B (zh) * 2021-03-19 2023-11-10 Vidaa美国公司 一种显示设备及语音交互的提示方法

Also Published As

Publication number Publication date
CN107527614B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
TWI584270B (zh) 語音控制系統及其方法
CN107527614A (zh) 语音控制系统及其方法
US11676600B2 (en) Methods and apparatus for detecting a voice command
US9940936B2 (en) Methods and apparatus for detecting a voice command
EP2946383B1 (en) Methods and apparatus for detecting a voice command
US9361885B2 (en) Methods and apparatus for detecting a voice command
US9549273B2 (en) Selective enabling of a component by a microphone circuit
US11545146B2 (en) Techniques for language independent wake-up word detection
CN104620314B (zh) 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
CN106463112A (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
CN104247280A (zh) 话音控制的通信连接
CN101315770B (zh) 语音识别片上系统及采用其的语音识别方法
CN107147792B (zh) 一种自动配置音效的方法、装置、移动终端及存储装置
CN107112017A (zh) 操作语音识别功能的电子设备和方法
CN105009204A (zh) 语音识别功率管理
TW201626363A (zh) 一種機器人系統的聲音識別系統及方法
CN104538030A (zh) 一种可以通过语音控制家电的控制系统与方法
CN110223691A (zh) 语音唤醒识别的切换控制方法和装置
CN106356059A (zh) 语音控制方法、装置及投影仪设备
CN106775569A (zh) 装置位置提示系统与方法
CN108093350A (zh) 麦克风的控制方法和麦克风
JP2004294946A (ja) 携帯型電子機器
CN113658601A (zh) 语音交互方法、装置、终端设备、存储介质及程序产品
CN210265228U (zh) 一种基于ai语音芯片的风扇控制器
CN112637543A (zh) 基于语音控制的音视频会议方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant