CN116153341A - 一种语音检测装置的控制方法和装置 - Google Patents

一种语音检测装置的控制方法和装置 Download PDF

Info

Publication number
CN116153341A
CN116153341A CN202310425559.8A CN202310425559A CN116153341A CN 116153341 A CN116153341 A CN 116153341A CN 202310425559 A CN202310425559 A CN 202310425559A CN 116153341 A CN116153341 A CN 116153341A
Authority
CN
China
Prior art keywords
voice
sound
processed
signal
receiving module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310425559.8A
Other languages
English (en)
Other versions
CN116153341B (zh
Inventor
王帅
叶媲舟
韩静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruimeng Semiconductor Co ltd
Original Assignee
Shenzhen Ruimeng Semiconductor Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruimeng Semiconductor Co ltd filed Critical Shenzhen Ruimeng Semiconductor Co ltd
Priority to CN202310425559.8A priority Critical patent/CN116153341B/zh
Publication of CN116153341A publication Critical patent/CN116153341A/zh
Application granted granted Critical
Publication of CN116153341B publication Critical patent/CN116153341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例应用于语音检测领域,提供了一种语音检测装置的控制方法和装置,语音检测装置包括声音接收模块和语音识别模块,声音接收模块用于将接收的声音信号转换为待处理声音,待处理声音是电信号,语音识别模块用于对待处理声音进行语音识别该方法包括:对待处理声音进行检测,以确定声音信号中是否存在语音;在声音信号中不存在语音的情况下,控制声音接收模块处于间歇工作状态,处于间歇工作状态的声音接收模块对声音信号的转换是间断性进行的。基于本申请的方法,能够降低语音检测装置的功耗。

Description

一种语音检测装置的控制方法和装置
技术领域
本申请涉及语音检测领域,并且更具体地,涉及一种语音检测装置的控制方法和装置。
背景技术
随着科技的发展,智能家居设备逐渐走进人们的生活。一些智能家居设备中,设置有语音检测装置,以实现智能语音控制。当一个人或者某个特定的人说出一句特定的话时,智能家居设备可以执行预设的相应程序。
语音检测装置可以对声音进行检测。语音检测装置可以包括声音接收模块、声音检测模块和语音识别模块。声音接收模块用于接收声音。声音检测模块用于检测声音接收模块接收的声音是否为语音。语音识别模块用于在该声音为语音的情况下进行语音识别。智能家居设备可以根据语音检测装置中语音识别模块的语音识别结果,执行与该语音识别结果对应的程序,完成该语音指示的任务。为了降低功耗,声音检测模块可以在确定该声音为语音的情况下控制语音识别模块开启。开启后的语音识别模块可以进行语音识别。
声音接收模块包括麦克风(microphone,MIC)、低噪放大器(low noiseamplifier,LNA)、模数转换器(analog to digital converter,ADC)等。语音识别模块的功耗一般在微瓦(microwatt,uW)甚至纳瓦(nanowatt,nW)级别,而声音接收模块的功耗是毫瓦(milliwatt,mW)级。因此,语音检测装置的功耗仍然较高。
发明内容
本申请提供了一种语音检测装置的控制方法和装置,能够降低语音检测装置的功耗。
第一方面,提供一种语音检测装置的控制方法,所述语音检测装置包括声音接收模块和语音识别模块,所述声音接收模块用于将接收的声音信号转换为待处理声音,所述待处理声音是电信号,所述语音识别模块用于对所述待处理声音进行语音识别,所述方法包括:对所述待处理声音进行检测,以确定所述声音信号中是否存在语音;在所述声音信号中不存在语音的情况下,控制所述声音接收模块处于间歇工作状态,处于所述间歇工作状态的所述声音接收模块对声音信号的转换是间断性进行的。
结合第一方面,在一些可能是实现方式中,所述方法还包括:在所述声音信号中存在语音的情况下,控制所述声音接收模块处于连续工作状态。
结合第一方面,在一些可能的实现方式中,所述对所述待处理声音进行检测,以确定所述声音信号中是否存在语音,包括:根据所述待处理声音中多个时间点的声音幅度,确定所述多个时间点中每个时间点的特征值,每个时间点的特征值与所述时间点的声音幅度正相关;根据所述多个时间点的特征值,确定所述声音信号中是否存在语音。
结合第一方面,在一些可能的实现方式中,所述方法还包括:根据所述多个时间点的特征值中的最大特征值在多个预设范围中所属的目标范围,以及预设范围与时长比例的对应关系,确定所述间歇工作状态中工作时长占间歇周期的目标时长比例,每个预设范围的范围最大值与所述预设范围对应的时长比例正相关。
结合第一方面,在一些可能是实现方式中,所述根据所述待处理声音中多个时间点的声音幅度,确定所述多个时间点中每个时间点的特征值,包括:根据目标时间点的声音幅度和所述目标时间点之前的至少一个时间点的声音幅度,确定所述目标时间点的特征值,所述多个时间点包括所述目标时间点。
结合第一方面,在一些可能的实现方式中,所述根据所述多个时间点的特征值,确定所述声音信号中是否存在语音,包括:在多个连续的所述时间点的特征值均大于第一预设阈值的情况下,确定所述声音信号中存在语音。
结合第一方面,在一些可能的实现方式中,所述方法还包括:向所述语音识别模块发送待处理语音,以使得所述语音识别模块对所述待处理语音进行语音识别,所述待处理语音为所述待处理语音中第一时间点至第二时间点之间的部分,所述第一时间点之前第一预设数量的连续的所述时间点的特征值均大于第一预设阈值,所述第二时间点之前第二预设数量的连续的所述时间点的特征值均小于第二预设阈值,所述第二预设阈值大于或等于所述第一预设阈值。
结合第一方面,在一些可能的实现方式中,所述方法还包括:在所述声音信号中不存在语音的情况下,控制所述语音识别模块处于休眠状态。
第二方面,提供一种语音检测装置的控制装置,所述控制装置包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述控制装置执行第一方面中的任一种语音检测装置的控制方法。
第三方面,提供一种语音检测装置的控制装置,包括分别用于执行第一方面中的任一种语音检测装置的控制方法的各个步骤的多个模块。
第四方面,提供一种芯片,包括处理器,当所述处理器执行指令时,所述处理器执行第一方面中的任一种语音检测装置的控制方法。
第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行第一方面中的任一种所述的语音检测装置的控制方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被语音检测装置的控制装置运行时,使得该语音检测装置的控制装置执行第一方面中的任一种语音检测装置的控制方法。
附图说明
图1是一种适用于本申请的语音检测装置的示意型结构图;
图2是一种控制方法的示意性流程图;
图3是本申请实施例提供的一种语音检测装置的控制方法的示意性流程图;
图4是本申请实施例提供的另一种语音检测装置的控制方法的示意性流程图;
图5是本申请实施例提供的一种声音检测方法的示意性流程图;
图6是本申请实施例提供的一种语音检测装置的示意性结构图;
图7是本申请实施例提供的另一种声音检测方法的示意性流程图;
图8是本申请提供的一种语音检测装置的控制装置的示意性结构图;
图9是本申请提供的一种用于语音检测装置控制的电子设备的示意性结构图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
图1示出了一种适用于本申请的语音检测装置的示意性结构图。
语音检测装置100包括声音接收模块110、声音检测模块120和语音识别模块130。
声音接收模块110可以包括麦克风(microphone,MIC)111、低噪声放大器(lownoise amplifier,LNA)112和模数转换器(analog to digital converter,ADC)130等。
麦克风111也称为话筒或传声器,用于将接收的声音信号转换为电信号。声音接收模块110中可以设置一个或多个麦克风111。在一些实施例中,声音接收模块110可以设置两个麦克风111,以实现降噪功能。在另一实施例中,声音接收模块110可以设置三个、四个或更多麦克风111,以实现识别声音来源和定向录音等功能。
LNA 112是一种噪声系数很低的放大器。在放大微弱信号的场合,放大器自身的噪声对信号的干扰可能很严重。LNA自身的噪声较低,利用LNA进行信号放大,可以降低由放大器所引起的信噪比恶化程度,提高输出的信噪比。
麦克风111输出的声音的电信号是模拟信号,经过LNA 112进行信号放大,得到的仍然是模拟信号。ADC 130也可以称为A/D转换器,用于将时间连续、幅值均连续的模拟信号转换为时间离散、幅值也离散的数字信号。ADC 130的输出可以理解为以数字信号形式表示的声音。
声音检测模块120用于对声音接收模块110输出的以数字信号形式表示的声音进行声音检测,以确定该声音是否为语音。
在该声音为语音的情况下,语音识别模块130对该以数字信号形式表示的声音进行语音识别,以得到语音识别结果。
语音检测装置100可以设置在智能音箱、智能家电、智能手机等智能设备或其他电子设备中。在电子设备中设置语音检测装置100,语音检测装置100可以接收声音中识别出指令,从而电子设备可以执行该指令对应的程序。
在家居等应用场景中,语音检测装置100接收的声音信号中存在语音的时间较短。也就是说,在大多时间段中,语音检测装置100接收的声音信号中不存在语音,及声音信号处于静默状态。为了降低功耗,声音检测模块120可以在电子设备上电后,进行图2所示的方法。
图2示出了一种控制方法的示意性流程图。该方法包括步骤S210至步骤S220。
在进行S210之前,语音检测装置100中的语音识别模块130可以处于休眠的状态。
在S210,声音检测模块120根据声音接收模块110输出的以数字信号形式表示的声音中的特征值,并判断该声音中是否存在语音。
在S220,在该声音中存在语音的情况下,声音检测模块120控制语音识别模块130开启,对该以数字信号形式表示的声音进行语音识别。
通过S210至S220,在声音中不存在语音的情况下语音识别模块130处于工作状态,进行语音识别,而在声音中不存在语音的情况下,语音识别模块130处于休眠状态,可以降低语音检测装置的功耗。
但是,语音检测装置100中的声音接收模块110和声音检测模块120持续工作,一直保持开启(always-on)。而声音接收模块110中的麦克风111和ADC 130的功耗一般都在毫瓦(milliwatt,mW)级,语音识别模块130的功耗仅有几个微瓦(microwatt,uW)甚至是纳瓦(nanowatt,nW)级的。
由于语音识别模块130自身的功耗较低,在声音接收模块110接收的声音中不存在语音的情况下语音识别模块130处于休眠状态,对语音检测装置100整体功耗的降低量有限,语音检测装置100的功耗较高。
为了解决上述问题,本申请实施例提供了一种语音检测装置的控制方法。下面结合图3至图7对本申请实施例提供的语音检测装置的控制方法进行详细描述。
图3是本申请实施例提供的一种语音检测装置的控制方法的示意性流程图。
语音检测装置包括声音接收模块和语音识别模块。声音接收模块用于将接收的声音信号转换为待处理声音,所述待处理声音是电信号。也就是说,声音接收模块用于将声音信号转换为电信号。语音识别模块用于对声音接收模块输出的待处理声音进行语音识别。
语音检测装置的控制方法可以包括步骤S310至步骤S320,下面分别对这些步骤进行详细的描述。
步骤S310,对所述待处理声音进行检测,以确定所述声音信号中是否存在语音。
声音接收模块可以用于将接收的声音信号进行转换,得到待处理声音。待处理声音可以是数字电信号或模拟电信号。示例性地,声音接收模块可以包括麦克风和ADC,其中,麦克风用于将接收的声音信号转换为模拟电信号,模数转换器用于将模拟电信号转换为数字电信号。声音接收模块还可以包括LNA,LNA用于对模拟电信号进行放大,模数转换器可以对放大后的模拟电信号进行转换,以得到数字电信号。LNA的设置使得转换结果更准确。
在S310可以对待处理声音进行处理,以确定待处理声音中是否存在语音。
待处理声音可以包括多个帧,每个帧可以包括多个时间点。每个时间点可以是ADC的一个采样点。在一些实施例中,根据一个帧中各个时间点的幅度,可以确定该帧是否为语音。待处理声音中的一个帧为语音,即声音信号中该帧对应的部分为语音。
在另一些实施例中,可以根据待处理声音中多个时间点的声音幅度,确定该多个时间点中每个时间点的特征值,并根据该多个时间点的特征值,确定该声音信号中是否存在语音。每个时间点的特征值与该时间点的声音幅度正相关。
语音具有一定的特点。一方面,声音信号的幅度越大,该声音信号中存在语音的可能性越高。另一方面,语音会持续一段时间。因此,根据待处理声音中多个时间点的与时间点声音幅度正相关的特征值,对是否存在语音进行判断,可以得到较为准确的判断结果。
具体地,在多个连续的所述时间点的特征值均大于第一预设阈值的情况下,可以确定声音信号中存在语音。
在确定待处理声音中存在语音之后,可以在待处理声音中确定待处理语音。待处理语音可以是待处理语音中第一时间点至第二时间点之间的部分。第一时间点之前,第一预设数量的连续时间点的特征值均大于第一预设阈值。第二时间点之前,第二预设数量的连续时间点的特征值均小于第二预设阈值。第二预设阈值大于或等于第一预设阈值。
语音的声音幅度是存在波动的。在确定待处理语音开始之后,在待处理声音中一段时间内各个时间点的特征值均不超过第二预设阈值的情况下,可以确定待处理语音结束。
特征值的确定方式对声音信号是否存在语音的判断结果准确度产生影响。
仅根据某个时间点的声音幅度,可以确定该时间点的特征值。或者,对于待处理声音的多个时间点中按照时间顺序第一个时间点之外的其他时间点,将某个时间段作为目标时间点,可以根据目标时间点的声音幅度和所述目标时间点之前的至少一个时间点的声音幅度,确定所述目标时间点的特征值。
语音一般会持续一段时间,相邻的时间点的声音幅度存在关联。对于某个时间点,根据该时间点的声音幅度以及该时间点之前的一个或多个时间点的声音幅度,确定该时间点的特征值。该时间点的特征值与该时间点的声音幅度正相关,并且与该时间点之前的该一个或多个的声音幅度正相关。
步骤S320,在所述声音信号中不存在语音的情况下,控制所述声音接收模块处于间歇工作状态,处于所述间歇工作状态的所述声音接收模块对声音信号的转换是间断性进行的。
通过S310至S320,在语音检测装置中,声音接收模块的功耗较高。在声音信号中不存在语音的情况下,控制声音接收模块间歇性工作,间断性地进行声音信号的接收和转换,缩短声音接收模块进行声音信号接收的时长,可以有效降低语音检测装置的功耗。并且,合理设置声音接收模块间歇性进行声音信号接收的周期,可以较为及时识别环境中的语音,避免对环境声音中语音的遗漏。
在所述声音信号中不存在语音的情况下,还可以控制所述语音识别模块处于休眠状态。
在声音信号中不存在语音的情况下,语音识别模块不需要进行语音识别,可以处于休眠状态,以降低语音检测装置的功耗。
在声音信号中存在语音的情况下,可以控制所述声音接收模块处于连续工作状态。
在当前的声音信号中存在语音时,后续的声音信号中存在语音的概率较高,控制声音接收模块处于连续工作状态,持续进行声音信号的接收和转换,可以避免对环境声音中语音的遗漏。
间歇工作状态的声音接收模块可以周期性或非周期新进行声音信号的接收和转换。间歇工作状态的周期可以是预设的,每个周期中声音接收模块进行声音信号的接收和转换的工作时长可以是预设的。间歇工作状态的周期可以称为间歇周期。
或者,根据已采集的声音信号中多个时间点的特征值,可以调整间歇工作状态的周期中工作时长的比例,降低遗漏环境声音中的语音的概率。
示例性地,在进行S320之前,可以确定间歇工作状态中工作时长占间歇周期的目标时长比例。间歇周期可以设置为小于语音一个音节的时长,从而避免遗漏语音中的信息。示例性地,语音一个音节的时长可以包括多个间歇周期。间歇周期可以小于或等于1毫秒。
执行图3所示方法的装置中可以设置有预设范围与时长比例的对应关系,每个预设范围的范围最大值与该预设范围对应的时长比例正相关。根据该对应关系,可以确定声音信号中多个时间点的特征值中的最大特征值在多个预设范围中所属的目标范围对应的目标时长比例,目标时长比例可以作为间歇工作状态中工作时长占间歇周期的时长比例。
声音信号中,最大特征值的值越大,后续出现语音的可能性越高。在最大特征值的值较大的情况下,声音接收模块采用工作时长在间歇周期中占比较大的方式进行间歇性声音信号的采集和转换,降低遗漏环境声音中的语音的概率。
应当理解,执行图3所示方法的装置可以位于语音检测装置中,也可以是语音检测装置之外的其他装置。
图4是本申请实施例提供的一种语音检测装置的控制方法的示意性流程图。语音检测装置的控制方法可以包括步骤S410至步骤S440,下面分别对这些步骤进行详细的描述。
步骤S410,计算待处理声音的多个时间点中每个时间点的特征值。
待处理声音是声音接收模块对接收的声音信号进行转换得到的电信号。
对于每个时间点,对该时间点的声音幅度以及该时间点之前的预设数量的时间点的声音幅度进行加权累加运算。也就是说,每个时间点的特征值是该时间点以及该时间点之前预设数量的时间点的声音幅度与权重的乘积之和。应当理解,为防止溢出,可以对该时间点以及该时间点之前预设数量的时间点的声音幅度与权重的乘积之和的计算结果进行移位取整,以防止溢出,降低计算量。
因此,每个时间点的特征值是根据该时间点的声音信息以及历史时间点的声音信息确定的。
声音的幅度与声音的能量正相关,即每个时间点的特征值与待处理声音在该时间点的能量正相关。
步骤S420,根据每个时间点的特征值,确定待处理声音中是否存在语音。
按照图5所示的声音检测方法,可以确定待处理声音中是否存在语音。
具体地,图5所示的声音检测方法包括步骤S501至S511。
初始情况下,语音标识p=0,第一计数c1=0,第二计数c2=0。
步骤S501,判断第一计数c1是否大于或等于第一预设数量n1。
在第一计数c1小于第一预设数量的情况下,进行S502。
在第一计数c1大于或等于第一预设数量的情况下,进行S504。
步骤S502,判断当前时间点的特征值e是否大于第一预设阈值th1。
如果当前时间点的特征值e小于或等于第一预设阈值th1,则进行S503。如果当前时间点的特征值e大于第一预设阈值th1,则进行S510。
步骤S503,设置第一计数c1=0,第二计数c2=0。语音标识p=0表示当前时间点不是语音,语音标识p=1表示当前时间点是语音。
在步骤S503之后,进行S510。
步骤S504,设置语音标识p=1。
语音标识p由0变为1的时间点可以理解为语音起始点。
在步骤S504之后,进行S505。
步骤S505,判断当前时间点的特征值e是否大于或等于第二预设阈值th2。
在当前时间点的特征值e小于第二预设阈值th2的情况下,进行S506。在当前时间点的特征值e大于或等于第二预设阈值th2的情况下,进行S507。
步骤S506,第二计数c2加1。
步骤S507,设置第二计数c2=0。
在步骤S506或步骤S507之后,进行步骤S508。
步骤S508,判断第二计数c2是否大于或等于第二预设数量n2。
在第二计数c2小于第二预设数量n2的情况下,进行S510。在第二计数大于或等于第二预设数量n2的情况下,进行S509。
步骤S509,设置语音标识p=0,第一计数c1=0,第二计数c2=0。
在步骤S508或S509之后,进行S510。
步骤S510,将下一个时间点作为当前时间点。
在步骤S510之后,进行S511。
步骤S511,第一计数c1加1。
在步骤S511之后,进行S501。
或者,在步骤S510之后,可以判断当前时间点的特征值e是否大于或等于第三预设阈值th3。在特征值e大于或等于第三预设阈值th3的情况下,可以进行S511。在特征值e大于或等于第三预设阈值th3的情况下,可以进行S501。第一预设阈值th1大于或等于第三预设阈值th3。
在待处理声音中存在语音标识p=1对应的时间点的情况下,可以确定待处理声音中存在语音。
第一预设阈值th1大于第二预设阈值th2。第二预设数量n2大于第一预设数量n1。第一预设数量n1可以是100,第二预设数量n2可以是200。
在待处理声音中存在语音的情况下,进行S430;在待处理声音中不存在语音的情况下,进行S440。
步骤S430,控制声音接收模块处于连续工作状态,控制语音识别模块处于工作状态。
步骤S440,控制声音接收模块处于间歇工作状态,控制语音识别模块处于休眠状态。
具体地,进行步骤S430和S440过程中,语音检测装置的可以通过状态标识Timerflag表示。状态标识Timerflag=0表示声音接收模块处于间歇工作状态并且正在工作,语音识别模块处于休眠状态;状态标识Timerflag=1表示声音接收模块处于间歇工作状态并且正在休眠,语音识别模块处于休眠状态;状态标识Timerflag=2表示声音接收模块处于连续工作状态,语音识别模块处于工作状态。
执行图4所示方法的装置通过开关控制信号MicOnFlag控制声音接收模块是否工作。开关控制信号MicOnFlag是执行图4所示方法的装置向声音接收模块发送的信号。当开关控制信号MicOnFlag=1时,声音接收模块工作,接收声音信号并进行转换。当开关控制信号MicOnFlag=0时,声音接收模块不工作,即不进行声音信号的接收和转换。需要说明的是,开关控制信号MicOnFlag的初始值为1,保证声音接收模块在初始时保持工作。
在通过图5所示的方法判断语音标识p=1的情况下,执行图4所示方法的装置设置状态标识Timerflag=2,保持各模块正常工作,避免错过语音。
在语音标识p=0并持续一段时间的情况下,设置状态标识Timerflag=1。在此情况下,计数器sqcnt开始计数。语音标识p=0的持续时间可以是预设值。
当计数器sqcnt计数至间歇工作状态的工作时长OnTime时,设置状态标识TimerFlag=0,开关控制信号MicOnFlag=0,并将计数器sqcnt清零,即设置计数器sqcnt=0。即,如果在经过工作时长OnTime时间段内,未出现语音,则关闭声音接收模块,使其不工作。
在声音接收模块关闭的时间段内,执行图4所示方法的装置也可以关闭主要功能,以降低功耗。执行图4所示方法的装置关闭主要功能期间,控制开关控制信号MicOnFlag与状态标识TimerFlag进行逻辑切换的模块是保持运行的。
当状态标识TimerFlag变化为0时,计数器sqcnt重新开始计数。当计数器sqcnt计数至间歇工作状态的非工作时长OffTime时,设置状态标识TimerFlag=1,MicOnFlag=1,并将计数器sqcnt清零。在非工作时长OffTime的时间段内,声音接收模块与执行图4所示方法的装置关闭,并在计数器sqcnt计数至OffTime时切换状态标识TimerFlag与开关控制信号MicOnFlag的值。
在待处理声音中不存在语音的情况下,还可以根据待处理声音的多个时间点的特征值中的最大特征值,确定间歇工作状态中工作时长占间歇周期的比例。
间歇周期是工作时长和非工作时长之和。而根据声音接收模块进入间歇工作状态之前预设时长内待处理声音的多个时间点的特征值中的最大特征值,以及预设范围与时长比例的对应关系,可以将最大特征值所属的目标预设范围对应的目标时长比例作为间歇工作状态中工作时长占间歇周期的比例。
声音接收模块进入间歇工作状态之前预设时长内待处理声音的多个时间点的特征值中的最大特征值越大,在声音接收模块进入间歇工作状态之后环境声音中出现语音的概率越高。因此,在预设范围与时长比例的对应关系中,每个预设范围的范围最大值可以设置为与所述预设范围对应的时长比例正相关。
对应关系中不同的时长比例可以理解为不同的档位,各个档位可以通过工作时长和非工作时长的组合表示。示例性地,在不同档位下,工作时长和非工作时长的组合可以是[14微秒(μs),6μs]、[720μs,280μs]、[37.5μs,12.5μs]、[40μs,40μs]等。
基于待处理声音中多个时间点的最大特征值,自适应调整声音接收模块与执行图4所示方法的装置的工作周期占空比,以达到在尽可能避免遗漏环境声音中的语音的同时,最大限度节省语音检测装置的待机功耗的预期目标。
执行图4所示方法的装置可以称为声音检测(sound detect,SD)模块。如图6所示,语音检测装置包括声音接收模块610、SD模块620和语音识别模块630。SD模块620通过开关控制信号MicOnFlag控制声音接收模块610是否工作。
在SD模块620确定声音接收模块输出的待处理声音中不存在语音的情况下,SD模块利用开关控制信号MicOnFlag控制声音接收模块处于间歇工作状态。
在SD模块确定声音接收模块610输出的待处理声音中存在语音的情况下,SD模块620将待处理声音中的语音传输至语音识别模块630。语音识别模块630对SD模块620输出的语音进行语音识别。
在待处理声音中存在语音的情况下,SD模块620可以通过图7所述的声音检测方法,确定待处理声音中的语音。图7所示的方法在利用图5所示的方法确定待处理声音中存在语音之后执行,包括步骤S701至S703。
步骤S701,判断是否当前时刻的语音标识p=1且上一时刻的语音标识p’=0。
在当前时刻的语音标识p=1且上一时刻的语音标识p’=0的情况下,进行S702;反之,则将该下一时刻作为当前时刻,进行S701。
当前时刻的语音标识p=1且上一时刻的语音标识p’=0,
步骤S702,在当前时刻的语音标识p=1,且语音起始位置recordStart=0的情况下,设置语音起始位置recordStart为当前时刻的时间值pos。
语音起始位置recordStar的初始值为0。
在S702之后,进行步骤S703。
步骤S703,在当前时刻的语音标识p=1,且recordStart!=0的情况下,将语音终止位置recordEnd清零。
recordStart!表示recordStart为0时有效。recordStart!=0可以理解为recordStart不等于0。
在S703之后,进行步骤S704。
步骤S704,在当前时刻的语音标识prob=0且recordStart!=0时,将语音终止标识recordEnd设置为1。
反之,在不满足当前时刻的语音标识prob=0且recordStart!=0的情况下,将下一时刻作为当前时刻,进行S704。
通过S701至S704,确定了语音起始位置recordStart以及语音终止标识recordEnd设置为1的时间点,从而在待处理声音中确定了语音的起止位置,在待处理声音中确定了语音对应的时间范围。
上文结合图1至图7,详细描述了本申请实施例的语音检测装置的控制方法,下面将结合图8和图9,详细描述本申请的装置实施例。应理解,本申请实施例中的语音检测装置的控制装置可以执行前述本申请实施例的各种语音检测装置的控制方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图8是本申请实施例提供的语音检测装置的控制装置的示意图。
应理解,语音检测装置的控制装置800可以执行图3至图4所示的语音检测装置的控制方法。语音检测装置包括声音接收模块和语音识别模块,所述声音接收模块用于将接收的声音信号转换为待处理声音,所述待处理声音是电信号,所述语音识别模块用于对所述待处理声音进行语音识别。语音检测装置的控制装置800包括:检测单元810和控制单元820。
检测单元810用于,对所述待处理声音进行检测,以确定所述声音信号中是否存在语音。
控制单元820用于,在所述声音信号中不存在语音的情况下,控制所述声音接收模块处于间歇工作状态,处于所述间歇工作状态的所述声音接收模块对声音信号的转换是间断性进行的。
可选地,控制单元820还用于,在所述声音信号中存在语音的情况下,控制所述声音接收模块处于连续工作状态。
可选地,检测单元810具体用于,根据所述待处理声音中多个时间点的声音幅度,确定所述多个时间点中每个时间点的特征值,每个时间点的特征值与所述时间点的声音幅度正相关;根据所述多个时间点的特征值,确定所述声音信号中是否存在语音。
可选地,控制装置800还包括处理单元,处理单元用于根据所述多个时间点的特征值中的最大特征值在多个预设范围中所属的目标范围,以及预设范围与时长比例的对应关系,确定所述间歇工作状态中工作时长占间歇周期的目标时长比例,每个预设范围的范围最大值与所述预设范围对应的时长比例正相关。
可选地,处理单元具体用于,根据目标时间点的声音幅度和所述目标时间点之前的至少一个时间点的声音幅度,确定所述目标时间点的特征值,所述多个时间点包括所述目标时间点。
可选地,检测单元810具体用于,在多个连续的所述时间点的特征值均大于第一预设阈值的情况下,确定所述声音信号中存在语音,所述第二预设阈值大于所述第一预设阈值。
可选地,控制装置800还包括收发模块,用于向所述语音识别模块发送待处理语音,以使得所述语音识别模块对所述待处理语音进行语音识别,所述待处理语音为所述待处理语音中第一时间点至第二时间点之间的部分,所述第一时间点之前第一预设数量的连续的所述时间点的特征值均大于第一预设阈值,所述第二时间点之前第二预设数量的连续的所述时间点的特征值均小于第二预设阈值,所述第二预设阈值大于或等于所述第一预设阈值。
可选地,控制单元820还用于,在所述声音信号中不存在语音的情况下,控制所述语音识别模块处于休眠状态。
需要说明的是,上述语音检测装置的控制装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图9示出了本申请提供的一种电子设备的结构示意图。图9中的虚线表示该单元或该模块为可选的。电子设备900可用于实现上述方法实施例中描述的语音检测装置的控制方法。
电子设备900包括一个或多个处理器901,该一个或多个处理器901可支持电子设备900实现方法实施例中的语音检测装置的控制方法。处理器901可以是通用处理器或者专用处理器。例如,处理器901可以是中央处理器(central processing unit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,如分立门、晶体管逻辑器件或分立硬件组件。
处理器901可以用于对电子设备900进行控制,执行软件程序,处理软件程序的数据。电子设备900还可以包括通信单元905,用以实现信号的输入(接收)和输出(发送)。
例如,电子设备900可以是芯片,通信单元905可以是该芯片的输入和/或输出电路,或者,通信单元905可以是该芯片的通信接口,该芯片可以作为终端设备或其它电子设备的组成部分。
又例如,电子设备900可以是终端设备,通信单元905可以是该终端设备的收发器,或者,通信单元905可以是该终端设备的收发电路。
电子设备900中可以包括一个或多个存储器902,其上存有程序904,程序904可被处理器901运行,生成指令903,使得处理器901根据指令903执行上述方法实施例中描述的语音检测装置的控制方法。
可选地,存储器902中还可以存储有数据。可选地,处理器901还可以读取存储器902中存储的数据,该数据可以与程序904存储在相同的存储地址,该数据也可以与程序904存储在不同的存储地址。
处理器901和存储器902可以单独设置,也可以集成在一起;例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
示例性地,存储器902可以用于存储本申请实施例中提供的语音检测装置的控制方法的相关程序904,处理器901可以用于调用存储器902中存储的语音检测装置的控制方法的相关程序904,执行本申请实施例的语音检测装置的控制方法。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器901执行时实现本申请中任一方法实施例所述的语音检测装置的控制方法。
该计算机程序产品可以存储在存储器902中,例如是程序904,程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的语音检测装置的控制方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器,或者,存储器902可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音检测装置的控制方法,其特征在于,所述语音检测装置包括声音接收模块和语音识别模块,所述声音接收模块用于将接收的声音信号转换为待处理声音,所述待处理声音是电信号,所述语音识别模块用于对所述待处理声音进行语音识别,所述方法包括:
对所述待处理声音进行检测,以确定所述声音信号中是否存在语音;
在所述声音信号中不存在语音的情况下,控制所述声音接收模块处于间歇工作状态,处于所述间歇工作状态的所述声音接收模块对声音信号的转换是间断性进行的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述声音信号中存在语音的情况下,控制所述声音接收模块处于连续工作状态。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述待处理声音进行检测,以确定所述声音信号中是否存在语音,包括:
根据所述待处理声音中多个时间点的声音幅度,确定所述多个时间点中每个时间点的特征值,每个时间点的特征值与所述时间点的声音幅度正相关;
根据所述多个时间点的特征值,确定所述声音信号中是否存在语音。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述多个时间点的特征值中的最大特征值在多个预设范围中所属的目标范围,以及预设范围与时长比例的对应关系,确定所述间歇工作状态中工作时长占间歇周期的目标时长比例,每个预设范围的范围最大值与所述预设范围对应的时长比例正相关。
5.根据权利要求3所述的方法,其特征在于,所述根据所述待处理声音中多个时间点的声音幅度,确定所述多个时间点中每个时间点的特征值,包括:根据目标时间点的声音幅度和所述目标时间点之前的至少一个时间点的声音幅度,确定所述目标时间点的特征值,所述多个时间点包括所述目标时间点。
6.根据权利要求3所述的方法,其特征在于,所述根据所述多个时间点的特征值,确定所述声音信号中是否存在语音,包括:在多个连续的所述时间点的特征值均大于第一预设阈值的情况下,确定所述声音信号中存在语音。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:在所述声音信号中不存在语音的情况下,控制所述语音识别模块处于休眠状态。
8.一种语音检测装置的控制装置,其特征在于,所述控制装置包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述控制装置执行权利要求1至7中任一项所述的语音检测装置的控制方法。
9.一种芯片,其特征在于,包括处理器,当所述处理器执行指令时,所述处理器执行如权利要求1至7中任一项所述的语音检测装置的控制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至7中任一项所述的语音检测装置的控制方法。
CN202310425559.8A 2023-04-20 2023-04-20 一种语音检测装置的控制方法和装置 Active CN116153341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310425559.8A CN116153341B (zh) 2023-04-20 2023-04-20 一种语音检测装置的控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310425559.8A CN116153341B (zh) 2023-04-20 2023-04-20 一种语音检测装置的控制方法和装置

Publications (2)

Publication Number Publication Date
CN116153341A true CN116153341A (zh) 2023-05-23
CN116153341B CN116153341B (zh) 2023-06-30

Family

ID=86358570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310425559.8A Active CN116153341B (zh) 2023-04-20 2023-04-20 一种语音检测装置的控制方法和装置

Country Status (1)

Country Link
CN (1) CN116153341B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
JP2017010166A (ja) * 2015-06-18 2017-01-12 Tdk株式会社 会話検出装置及び会話検出方法
CN106612367A (zh) * 2015-10-23 2017-05-03 钰太芯微电子科技(上海)有限公司 一种基于麦克风的语音唤醒方法及移动终端
CN108831508A (zh) * 2018-06-13 2018-11-16 百度在线网络技术(北京)有限公司 语音活动检测方法、装置和设备
CN109741762A (zh) * 2019-02-15 2019-05-10 杭州嘉楠耘智信息科技有限公司 声音活动检测方法及装置和计算机可读存储介质
CN115295004A (zh) * 2022-06-24 2022-11-04 厦门星纵物联科技有限公司 一种噪声检测方法、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
JP2017010166A (ja) * 2015-06-18 2017-01-12 Tdk株式会社 会話検出装置及び会話検出方法
CN106612367A (zh) * 2015-10-23 2017-05-03 钰太芯微电子科技(上海)有限公司 一种基于麦克风的语音唤醒方法及移动终端
CN108831508A (zh) * 2018-06-13 2018-11-16 百度在线网络技术(北京)有限公司 语音活动检测方法、装置和设备
CN109741762A (zh) * 2019-02-15 2019-05-10 杭州嘉楠耘智信息科技有限公司 声音活动检测方法及装置和计算机可读存储介质
CN115295004A (zh) * 2022-06-24 2022-11-04 厦门星纵物联科技有限公司 一种噪声检测方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN116153341B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
KR102335717B1 (ko) 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서
CN108231079B (zh) 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
US10955898B2 (en) Electronic device with a wake up module distinct from a core domain
CN110310633A (zh) 多音区语音识别方法、终端设备和存储介质
CN113470634B (zh) 语音交互设备的控制方法、服务器及语音交互设备
CN111124511A (zh) 唤醒芯片及唤醒系统
KR20190065861A (ko) 전자장치 및 그 제어방법
CN108806673A (zh) 一种智能设备控制方法、装置及智能设备
CN111192590A (zh) 语音唤醒方法、装置、设备及存储介质
CN111837179A (zh) 捕获噪声用于模式识别处理的系统和方法
CN111429901A (zh) 一种面向IoT芯片的多级语音智能唤醒方法及系统
CN106612367A (zh) 一种基于麦克风的语音唤醒方法及移动终端
CN116153341B (zh) 一种语音检测装置的控制方法和装置
CN108093350B (zh) 麦克风的控制方法和麦克风
CN116386676B (zh) 语音唤醒方法、语音唤醒装置及存储介质
CN116705033A (zh) 用于无线智能音频设备的片上系统和无线处理方法
CN112420051A (zh) 设备的确定方法、装置及存储介质
CN110610710B (zh) 一种自学习语音识别系统的构建装置和构建方法
CN112201239B (zh) 目标设备的确定方法及装置、存储介质、电子装置
CN113284517B (zh) 语音端点检测方法、电路、音频处理芯片和音频设备
KR20210087880A (ko) 스마트 오디오 장치, 방법, 전자 장치 및 컴퓨터 판독 가능 매체
WO2004027528A3 (en) Adaptive data processing scheme based on delay forecast
CN212588488U (zh) 一种耳机
CN115442877B (zh) 控制功耗的方法、装置、处理设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant