CN114512127B - 语音控制方法、装置、设备、介质及智能语音采集系统 - Google Patents
语音控制方法、装置、设备、介质及智能语音采集系统 Download PDFInfo
- Publication number
- CN114512127B CN114512127B CN202210112788.XA CN202210112788A CN114512127B CN 114512127 B CN114512127 B CN 114512127B CN 202210112788 A CN202210112788 A CN 202210112788A CN 114512127 B CN114512127 B CN 114512127B
- Authority
- CN
- China
- Prior art keywords
- voice
- level signal
- acquisition device
- working mode
- input state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Power Sources (AREA)
- Telephone Function (AREA)
Abstract
本申请提出了一种语音控制方法、装置、设备、介质及智能语音采集系统,其中方法包括:实时获取当前环境的语音数据,并确定语音数据的目标信号;根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;根据电平信号控制语音采集装置的工作模式。本申请根据当前语音数据从而确定目标信号,通过目标信号对应的语音输入状态控制语音采集装置的工作模式,使得语音采集装置无需一直保持高功耗的工作模式,从而能够有效降低语音采集装置在整个工作过程的功耗。
Description
技术领域
本申请涉及语音处理技术领域,具体涉及一种语音控制方法、装置、设备、介质及智能语音采集系统。
背景技术
随着智能语音技术的普及,智能语音产品的使用在日常生活中也越来越频繁。随之而来,对智能语音产品的低功耗要求也越来越高。在传统智能语音麦克风系统中,为了节省功耗,往往选在非语音输出时段,整个麦克风系统除了专用集成电路的语音端点检测模块处于常开启状态外,其余模块均处于休眠或低功耗状态,只有当语音端点检测模块检测到语音后,才对整个系统进行使能,从而进行语音输出或者更复杂的语音识别。
在构思及实现本申请过程中,发明人发现至少存在如下问题:现有的智能语音麦克风系统需要增加智能语音芯片,从而能够存储智能语音识别算法并根据语音信息进行语音识别和判断,但增加智能语音芯片同时会导致系统架构较为复杂,而如果进行集成处理,则会增加模组面积。另一方面,现有的智能语音麦克风系统中的前置放大器和模拟数字转换器占据了常开启状态时的大部分功耗,而且现有的麦克风需要一直保持正常工作状态,以实时监听语音数据,进一步增加了麦克风系统的功耗。
前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
发明内容
针对上述技术问题,本申请提供一种语音控制方法、装置、设备、介质及智能语音采集系统,根据当前语音输入状态控制语音采集装置的工作模式,使得语音采集装置无需一直保持高功耗的工作模式,从而能够有效降低语音采集装置在整个工作过程的功耗。
为解决上述技术问题,本申请提供一种语音控制方法,包括如下步骤:
实时获取当前环境的语音数据,并确定所述语音数据的目标信号;
根据所述目标信号确定语音输入状态,并根据所述语音输入状态输出对应的电平信号;
根据所述电平信号控制语音采集装置的工作模式。
可选地,所述根据所述目标信号确定语音输入状态,并根据所述语音输入状态输出对应的电平信号,包括:
若确定所述语音输入状态为未输入状态,则输出第一电平信号;
若确定所述语音输入状态为已输入状态,则输出第二电平信号。
可选地,所述根据所述电平信号控制语音采集装置的工作模式,包括:
若所述电平信号为第一电平信号,则根据所述第一电平信号控制语音采集装置的工作模式为第一工作模式;
若所述电平信号为第二电平信号,则根据所述第二电平信号控制语音采集装置的工作模式为第二工作模式。
可选地,所述根据所述第二电平信号控制语音采集装置的工作模式为第二工作模式,包括:
根据所述第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第二工作模式。
可选地,所述实时获取当前环境的语音数据,并确定所述语音数据的目标信号,包括:
通过智能语音芯片实时获取当前环境的语音数据;
采用第一预设算法对所述语音数据进行识别,得到对应的语音端点检测信号,和/或,采用第二预设算法识别所述语音数据中的关键词。
可选地,所述根据所述目标信号确定语音输入状态,并根据所述语音输入状态输出对应的电平信号,还包括:
根据语音端点检测信号和/或关键词确定语音输入状态,并根据所述语音输入状态输出对应的电平信号。
相应地,本申请还提供了一种语音控制装置,包括:
获取模块,用于实时获取当前环境的语音数据,并确定所述语音数据的目标信号;
检测模块,用于根据所述目标信号确定语音输入状态,并根据所述语音输入状态输出对应的电平信号;
控制模块,用于根据所述电平信号控制语音采集装置的工作模式。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的语音控制方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的语音控制方法的步骤。
本申请还提出了一种智能语音采集系统,包括智能语音芯片和语音采集装置,所述语音采集装置包括前置放大器和模数转换器;其中,所述智能语音芯片用于实时获取当前环境的语音数据,并确定所述语音数据的目标信号后确定语音输入状态,并根据所述语音输入状态输出对应的电平信号,根据所述电平信号控制语音采集装置的工作模式;所述语音采集装置用于根据接收的电平信号确定对应的工作模式。
实施本发明实施例,具有如下有益效果:
如上所述,本申请提供的一种语音控制方法、装置、设备、介质及智能语音采集系统,其中方法包括:实时获取当前环境的语音数据,并确定语音数据的目标信号;根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;根据电平信号控制语音采集装置的工作模式。本申请的语音控制方法,首先根据获取的当前语音数据确定目标信号,然后通过目标信号确定语音输入状态,从而输出该语音输入状态对应的电平信号,最后根据该电平信号控制语音采集装置的工作模式,实现根据实时语音环境动态控制语音采集装置的工作模式,从而无需一直保持在高功耗的工作模式,有效降低语音采集装置在整个工作过程中的功耗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音控制方法的流程示意图;
图2是本申请实施例提供的语音控制装置的结构示意图;
图3是本申请实施例提供的计算机设备的结构示意图;
图4是本申请实施例提供的智能语音采集系统的第一种实施方式的结构示意图;
图5是本申请实施例提供的智能语音采集系统的第二种实施方式的结构示意图;
图6是本申请实施例提供的智能语音采集系统的第三种实施方式的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的,或意味着任一个或任何组合。例如,“包括以下至少一个:A、B、C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”,再如,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,在本文中,采用了诸如S10、S20等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行S20后执行S10等,但这些均应在本申请的保护范围之内。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
首先介绍本申请可以提供的应用场景,如提供一种语音控制方法、装置、设备、介质及智能语音采集系统,能够根据实时语音环境动态控制语音采集装置的工作模式,从而无需一直保持在高功耗的工作模式,有效降低语音采集装置在整个工作过程中的功耗。
请参阅图1,图1是本申请实施例提供的语音控制方法的第一种实施方式的流程示意图。该语音控制方法具体可以包括:
S10、实时获取当前环境的语音数据,并确定语音数据的目标信号。
可选地,在一些实施例中,步骤S10具体可以包括:
通过智能语音芯片实时获取当前环境的语音数据;
采用第一预设算法对语音数据进行识别,得到对应的语音端点检测信号,和/或,采用第二预设算法识别语音数据中的关键词。
具体的,对于S10步骤,首先通过智能语音芯片实时获取当前环境的语音数据,例如可以通过智能语音芯片中存储的第一预设算法对语音数据进行识别,从而得到对应的语音端点检测信号,其中该第一预设算法包括但不限于语音激活检测(VAD)算法。也可以通过通过智能语音芯片中预先存储的第二预设算法对获取的语音数据进行识别,从而得到该语音数据中的关键词,其中该第二预设算法包括但不限于关键词识别(KWS)算法。在对语音数据进行识别时,不仅可以单独采用第一预设算法或第二预设算法对语音数据进行识别,也可以同时采用第一预设算法和第二预设算法对语音数据进行识别,从而确定该语音数据的目标信号,该目标信号用于后续确定当前环境的语音输入状态。
S20、根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号。
可选地,在一些实施例中,步骤S20具体可以包括:
若确定语音输入状态为未输入状态,则输出第一电平信号;
若确定语音输入状态为已输入状态,则输出第二电平信号。
具体的,根据步骤S10从语音数据中识别得到的目标信号确定当前语音输入状态,当确定当前语音输入状态为未输入状态时,输出该未输入状态对应的第一电平信号;当确定当前语音输入状态为已输入状态时,输出该已输入状态对应的第二电平信号。其中,上述第一电平信号和第二电平信号可根据实际需求设置为低电平信号或高电平信号,在此不进行具体限制。例如可以设置未输入状态时输出的第一电平信号为低电平信号,已输入状态时输出的第二电平信号为高电平信号。
可选地,在一些实施例中,步骤S20具体还可以包括:
根据语音端点检测信号和/或关键词确定语音输入状态,并根据语音输入状态输出对应的电平信号。
具体的,若采用第一预设算法对语音数据进行识别,得到对应的语音端点检测信号,和/或,采用第二预设算法识别语音数据中的关键词,则S20还可以包括:根据语音端点检测信号和/或关键词确定语音输入状态,并根据语音输入状态输出对应的电平信号。例如当仅采用第一预设算法或第二预设算法对语音数据进行识别时,则根据语音端点检测信号或关键词确定当前语音输入状态,从而根据当前语音输入状态输出对应的电平信号;例如当同时采用第一预设算法和第二预设算法对语音数据进行识别时,则综合语音端点检测信号和关键词来确定当前语音输入状态,从而根据当前语音输入状态输出对应的电平信号,进一步提高检测语音输入状态的准确性。
S30、根据电平信号控制语音采集装置的工作模式。
可选地,在一些实施例中,步骤S30具体可以包括:
若电平信号为第一电平信号,则根据第一电平信号控制语音采集装置的工作模式为第一工作模式;
若电平信号为第二电平信号,则根据第二电平信号控制语音采集装置的工作模式为第二工作模式。
可选地,在一些实施例中,根据第一电平信号控制语音采集装置的工作模式为第一工作模式,具体可以包括:
根据第一电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使前置放大器和/或模数转换器的工作模式为第一工作模式。
可选地,在一些实施例中,根据第二电平信号控制语音采集装置的工作模式为第二工作模式,具体可以包括:
根据第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使前置放大器和/或模数转换器的工作模式为第二工作模式。
具体的,对于S30步骤,主要根据S20步骤得到的电平信号控制语音采集装置的工作模式,该语音采集装置包括但不限于麦克风系统。当输出的电平信号为第一电平信号时,则根据该第一电平信号控制语音采集装置的工作模式为第一工作模式,具体控制过程为根据第一电平信号控制语音采集装置的前置放大器和/或模数转换器的模式控制引脚,从而使得前置放大器/或模数转换器的工作模式为第一工作模式。当输出的电平信号为第二电平信号时,则根据该第二电平信号控制语音采集装置的工作模式为第二工作模式,具体控制过程为根据第二电平信号控制语音采集装置的前置放大器和/或模数转换器的模式控制引脚,从而使得前置放大器/或模数转换器的工作模式为第二工作模式。其中,前置放大器和模数转换器可单独运行其中一个,也可同时运行,具体设置可根据产品实际需求。通过根据实时语音环境动态控制语音采集装置中前置放大器/或模数转换器的工作模式,只有在检测到语音输入时才进行高性能模式(高保真和高采样率)的运行,能够有效降低前置放大器和模数转换器的功耗,从而降低整个语音采集装置在整个工作过程中的功耗。
需要说明的是,上述第一工作模式和第二工作模式可根据实际需求设置为低功耗模式和高性能模式,也可以分别设置为与低电平信号和高电平信号对应的工作模式,在此不做具体限制。例如当设置第一电平信号为低电平信号时,根据第一电平信号控制语音采集装置的前置放大器和/或模数转换器的模式控制引脚,使得前置放大器/或模数转换器的工作模式为第一工作模式(低功耗模式),从而使得语音采集装置的第一工作模式(低功耗模式);当设置第二电平信号为高电平信号时,根据第二电平信号控制语音采集装置的前置放大器和/或模数转换器的模式控制引脚,使得前置放大器/或模数转换器的工作模式为第二工作模式(高性能模式),从而使得语音采集装置的第二工作模式(高性能模式)。
由上可知,本申请实施例提供的语音控制方法,包括:实时获取当前环境的语音数据,并确定语音数据的目标信号;根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;根据电平信号控制语音采集装置的工作模式。可见,本申请实施例的语音控制方法,首先根据获取的当前环境的语音数据确定目标信号,然后通过目标信号确定语音输入状态,从而输出该语音输入状态对应的电平信号,最后根据该电平信号控制语音采集装置的工作模式,实现根据实时语音环境动态控制语音采集装置的工作模式,通过根据实时语音环境动态控制语音采集装置中前置放大器/或模数转换器的工作模式,只有在检测到语音输入时才进行高性能模式(高保真和高采样率)的运行,从而无需一直保持在高功耗的工作模式,能够有效优化前置放大器和模数转换器在非语音输出时段的功耗,从而降低整个系统在非语音输出时段的功耗,进而降低系统在整个工作过程中的平均功耗。
相应的,本申请还提供一种语音控制装置,请参阅图2,图2是本申请提供的语音控制装置的结构示意图,具体可以包括获取模块100、检测模块200和控制模块300。
其中,获取模块100,用于实时获取当前环境的语音数据,并确定语音数据的目标信号。
可选地,在一些实施例中,获取模块100具体可以包括:
第一获取单元,用于通过智能语音芯片实时获取当前环境的语音数据;
第二获取单元,用于采用第一预设算法对语音数据进行识别,得到对应的语音端点检测信号,和/或,采用第二预设算法识别语音数据中的关键词。
检测模块200,用于根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号。
具体的,检测模块200根据语音端点检测信号和/或关键词确定语音输入状态,并根据语音输入状态输出对应的电平信号。
可选地,在一些实施例中,检测模块200具体可以包括:
第一检测单元,用于若确定语音输入状态为未输入状态,则输出第一电平信号;
第二检测单元,用于若确定语音输入状态为已输入状态,则输出第二电平信号。
控制模块300,用于根据电平信号控制语音采集装置的工作模式。
可选地,在一些实施例中,控制模块300具体可以包括:
第一控制单元,用于若电平信号为第一电平信号,则根据第一电平信号控制语音采集装置的工作模式为第一工作模式;具体的,根据第一电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使前置放大器和/或模数转换器的工作模式为第一工作模式。
第二控制单元,用于若电平信号为第二电平信号,则根据第二电平信号控制语音采集装置的工作模式为第二工作模式。具体的,根据第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使前置放大器和/或模数转换器的工作模式为第二工作模式。
综上所述,本申请实施例提供的语音控制装置,获取模块100实时获取当前环境的语音数据,并确定语音数据的目标信号;检测模块200根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;控制模块300根据电平信号控制语音采集装置的工作模式。可见,本申请实施例的语音控制装置,首先根据获取的当前环境的语音数据确定目标信号,然后通过目标信号确定语音输入状态,从而输出该语音输入状态对应的电平信号,最后根据该电平信号控制语音采集装置的工作模式,实现根据实时语音环境动态控制语音采集装置的工作模式,通过根据实时语音环境动态控制语音采集装置中前置放大器/或模数转换器的工作模式,只有在检测到语音输入时才进行高性能模式(高保真和高采样率)的运行,从而无需一直保持在高功耗的工作模式,能够有效优化前置放大器和模数转换器在非语音输出时段的功耗,从而降低整个系统在非语音输出时段的功耗,进而降低系统在整个工作过程中的平均功耗。
本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其结构示意图如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存语音控制方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。
该计算机程序被处理器执行时以实现一种语音控制方法。所述语音控制方法,包括:实时获取当前环境的语音数据,并确定语音数据的目标信号;根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;根据电平信号控制语音采集装置的工作模式。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音控制方法,包括步骤:实时获取当前环境的语音数据,并确定语音数据的目标信号;根据目标信号确定语音输入状态,并根据语音输入状态输出对应的电平信号;根据电平信号控制语音采集装置的工作模式。
上述执行的语音控制方法,本申请实施例首先根据获取的当前语音数据确定目标信号,然后通过目标信号确定语音输入状态,从而输出该语音输入状态对应的电平信号,最后根据该电平信号控制语音采集装置的工作模式,实现根据实时语音环境动态控制语音采集装置的工作模式,从而无需一直保持在高功耗的工作模式,有效降低语音采集装置在整个工作过程中的功耗。
本申请实施例还提供了一种智能语音采集系统,包括智能语音芯片和语音采集装置,该语音采集装置包括前置放大器和模数转换器;其中,上述智能语音芯片用于实时获取当前环境的语音数据,并确定语音数据的目标信号后确定语音输入状态,并根据语音输入状态输出对应的电平信号,从而根据电平信号控制语音采集装置的工作模式;上述语音采集装置用于根据接收的电平信号确定对应的工作模式。
在具体的实施例中,将preamp(前置放大器)设计为两个工作模式,第一种工作模式为High performance模式,简称HP_MODE,此模式具有高SNR,低失真,功耗较高;第二种工作模式为low power模式,简称LP_MODE,此模式具有超低功耗。HP_EN为preamp的模式控制脚,当HP_EN=0时,preamp处于LP_MODE,HP_EN=1时,preamp处于HP_MODE。同理,将ADC(模数转换器)设计为HP_EN控制LP_MODE(低SNR,低采样率)以及HP_MODE(高SNR,高采样率)两个工作模式,即HP_EN=0时,模数转换器处于LP_MODE,HP_EN=1时,模数转换器处于HP_MODE。
如图4所示,本实施提供了智能语音采集系统的第一种实施方式的结构示意图,包括数字集成电路,以及与集成电路连接的数字智能语音芯片和MEMS传感器,其中集成电路中设有前置放大器和模数转换器。由于VAD语音检测的功能不需要前置放大器和ADC(模数转换器)具有高保真输出时的高性能,因此在VAD模块持续监测是否有语音输入但未检测到语音输入时,利用VAD模块的状态,将前置放大器preamp和ADC(数字智能语音系统)设置为LP_MODE工作。当VAD检测到语音输入后,输出高电平flag并保持,高电平flag将preamp和ADC切换为HP_MODE工作。当语音输入结束后,系统再将VAD flag清零,从而preamp和ADC又回到LP_MODE工作。通过以上一系列控制,降低preamp和VAD的功耗,同时保持语音输入时的高性能。
如图5所示,本实施提供了智能语音采集系统的第二种实施方式的结构示意图,包括集成电路,以及与集成电路连接的模数混合智能语音芯片和MEMS传感器,前置放大器分别设在集成电路和模数智能语音芯片中。
如图6所示,本实施提供了智能语音采集系统的第三种实施方式的结构示意图,包括模数混合智能语音芯片和MEMS传感器,其中模数混合智能语音芯片集成原集成电路,由于ASIC和模数混合语音芯片中都有preamp,且两者实现的功能相似,且ASIC中preamp的性能可以覆盖模数混合语音处理的需求,可将两颗芯片的preamp合二为一为共用模式,同时将ASIC的charge pump也集成到模数混合语音芯片中,最终实现ASIC和模数混合芯片两颗芯片合二为一,进一步降低功耗,同时减小系统复杂度以及模组尺寸。另外,preamp的输出给到语音芯片的下一级AGC,同时也作为模拟语音输出信号,供系统上高保真语音采集系统的使用,简化了系统复杂度。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。
在本申请中,对于相同或相似的术语概念、技术方案和/或应用场景描述,一般只在第一次出现时进行详细描述,后面再重复出现时,为了简洁,一般未再重复阐述,在理解本申请技术方案等内容时,对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等,可以参考其之前的相关详细描述。
在本申请中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (6)
1.一种语音控制方法,其特征在于,所述语音控制方法应用于智能语音采集系统,所述智能语音采集系统包括智能语音芯片和语音采集装置,所述语音采集装置包括前置放大器和模数转换器,所述语音控制方法包括如下步骤:
通过智能语音芯片实时获取当前环境的语音数据;
通过智能语音芯片中存储的第一预设算法对所述语音数据进行识别,得到对应的语音端点检测信号,以及通过智能语音芯片中存储的第二预设算法识别所述语音数据中的关键词;
智能语音芯片根据所述语音端点检测信号和所述关键词确定语音输入状态,并根据所述语音输入状态输出对应的电平信号至所述语音采集装置;
若所述电平信号为第一电平信号,则所述语音采集装置根据所述第一电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第一工作模式,所述第一工作模式为低功耗模式;
若所述电平信号为第二电平信号,则所述语音采集装置根据所述第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第二工作模式,所述第二工作模式为高性能模式。
2.根据权利要求1所述的语音控制方法,其特征在于,所述根据所述语音输入状态输出对应的电平信号,包括:
若确定所述语音输入状态为未输入状态,则输出第一电平信号;
若确定所述语音输入状态为已输入状态,则输出第二电平信号。
3.一种语音控制装置,其特征在于,所述语音控制装置应用于智能语音采集系统,所述智能语音采集系统包括智能语音芯片和语音采集装置,所述语音采集装置包括前置放大器和模数转换器,所述智能语音芯片包括语音控制装置,所述语音控制装置包括:
获取模块,用于实时获取当前环境的语音数据;通过智能语音芯片中存储的第一预设算法对所述语音数据进行识别,得到对应的语音端点检测信号,以及通过智能语音芯片中存储的第二预设算法识别所述语音数据中的关键词;
检测模块,用于根据所述语音端点检测信号和所述关键词确定语音输入状态,并根据所述语音输入状态输出对应的电平信号至所述语音采集装置;
控制模块,用于在所述电平信号为第一电平信号时,根据所述第一电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第一工作模式,所述第一工作模式为低功耗模式;在所述电平信号为第二电平信号时,根据所述第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第二工作模式,所述第二工作模式为高性能模式。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1或2所述的语音控制方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的语音控制方法的步骤。
6.一种智能语音采集系统,其特征在于,包括智能语音芯片和语音采集装置,所述语音采集装置包括前置放大器和模数转换器;其中,所述智能语音芯片用于实时获取当前环境的语音数据;通过智能语音芯片中存储的第一预设算法对所述语音数据进行识别,得到对应的语音端点检测信号,以及通过第二预设算法识别所述语音数据中的关键词;根据所述语音端点检测信号和所述关键词确定语音输入状态,并根据所述语音输入状态输出对应的电平信号至所述语音采集装置,在所述电平信号为第一电平信号时,所述语音采集装置根据所述第一电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第一工作模式,所述第一工作模式为低功耗模式;在所述电平信号为第二电平信号时,所述语音采集装置根据所述第二电平信号控制语音采集装置中的前置放大器和/或模数转换器的模式控制引脚,以使所述前置放大器和/或模数转换器的工作模式为第二工作模式,所述第二工作模式为高性能模式;所述语音采集装置用于根据接收的电平信号确定对应的工作模式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210112788.XA CN114512127B (zh) | 2022-01-29 | 2022-01-29 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
PCT/CN2023/073630 WO2023143544A1 (zh) | 2022-01-29 | 2023-01-29 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210112788.XA CN114512127B (zh) | 2022-01-29 | 2022-01-29 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114512127A CN114512127A (zh) | 2022-05-17 |
CN114512127B true CN114512127B (zh) | 2023-12-26 |
Family
ID=81551633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210112788.XA Active CN114512127B (zh) | 2022-01-29 | 2022-01-29 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114512127B (zh) |
WO (1) | WO2023143544A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512127B (zh) * | 2022-01-29 | 2023-12-26 | 深圳市九天睿芯科技有限公司 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885339A (zh) * | 2019-11-14 | 2021-06-01 | 杭州智芯科微电子科技有限公司 | 语音唤醒系统及语音识别系统 |
CN113990311A (zh) * | 2021-10-15 | 2022-01-28 | 深圳市航顺芯片技术研发有限公司 | 语音采集装置、控制器、控制方法及语音采集控制系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100705563B1 (ko) * | 2004-12-07 | 2007-04-10 | 삼성전자주식회사 | 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 |
KR20160010606A (ko) * | 2013-05-23 | 2016-01-27 | 노우레스 일렉트로닉스, 엘엘시 | Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법 |
CN108597507A (zh) * | 2018-03-14 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 远场语音功能实现方法、设备、系统及存储介质 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN110473544A (zh) * | 2019-10-09 | 2019-11-19 | 杭州微纳科技股份有限公司 | 一种低功耗语音唤醒方法及装置 |
CN113096652A (zh) * | 2020-01-09 | 2021-07-09 | 炬芯科技股份有限公司 | 语音唤醒方法及芯片系统 |
CN113393865B (zh) * | 2020-03-13 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 功耗控制、模式配置与vad方法、设备及存储介质 |
CN113808585A (zh) * | 2021-08-16 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 耳机唤醒方法、装置、设备以及存储介质 |
CN113763958B (zh) * | 2021-09-28 | 2024-02-13 | 海信视像科技股份有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
CN114512127B (zh) * | 2022-01-29 | 2023-12-26 | 深圳市九天睿芯科技有限公司 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
-
2022
- 2022-01-29 CN CN202210112788.XA patent/CN114512127B/zh active Active
-
2023
- 2023-01-29 WO PCT/CN2023/073630 patent/WO2023143544A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885339A (zh) * | 2019-11-14 | 2021-06-01 | 杭州智芯科微电子科技有限公司 | 语音唤醒系统及语音识别系统 |
CN113990311A (zh) * | 2021-10-15 | 2022-01-28 | 深圳市航顺芯片技术研发有限公司 | 语音采集装置、控制器、控制方法及语音采集控制系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114512127A (zh) | 2022-05-17 |
WO2023143544A1 (zh) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867596B2 (en) | Voice assistant system, server apparatus, device, voice assistant method therefor, and program to be executed by computer | |
US10522164B2 (en) | Method and device for improving audio processing performance | |
US10643621B2 (en) | Speech recognition using electronic device and server | |
CN107886944B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
KR20180083587A (ko) | 전자 장치 및 그의 동작 방법 | |
CN109785845B (zh) | 语音处理方法、装置及设备 | |
CN108810280B (zh) | 语音采集频率的处理方法、装置、存储介质及电子设备 | |
CN114512127B (zh) | 语音控制方法、装置、设备、介质及智能语音采集系统 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN109712623A (zh) | 语音控制方法、装置及计算机可读存储介质 | |
WO2020228226A1 (zh) | 一种纯音乐检测方法、装置及存储介质 | |
CN111048118B (zh) | 一种语音信号处理方法、装置及终端 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
CN109597996A (zh) | 一种语义解析方法、装置、设备和介质 | |
CN113157240A (zh) | 语音处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111261157A (zh) | 一种短视频的控制方法、装置、设备及存储介质 | |
KR20180121759A (ko) | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 | |
WO2023011237A1 (zh) | 业务处理 | |
CN113763968B (zh) | 用于识别语音的方法、装置、设备、介质和产品 | |
CN113808585A (zh) | 耳机唤醒方法、装置、设备以及存储介质 | |
CN109658930B (zh) | 语音信号处理方法、电子装置及计算机可读存储介质 | |
CN112163078A (zh) | 智能应答方法、装置、服务器及存储介质 | |
CN111027406A (zh) | 图片识别方法、装置、存储介质及电子设备 | |
CN113163282B (zh) | 一种基于usb的降噪拾音系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Hongjie Inventor after: Chen Ke Inventor before: Chen Ke |
|
GR01 | Patent grant | ||
GR01 | Patent grant |