CN111028841B - 唤醒系统调节参数的方法、装置、计算机设备和存储介质 - Google Patents

唤醒系统调节参数的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111028841B
CN111028841B CN202010162189.XA CN202010162189A CN111028841B CN 111028841 B CN111028841 B CN 111028841B CN 202010162189 A CN202010162189 A CN 202010162189A CN 111028841 B CN111028841 B CN 111028841B
Authority
CN
China
Prior art keywords
parameters
scene
wake
awakening
parameter set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010162189.XA
Other languages
English (en)
Other versions
CN111028841A (zh
Inventor
徐泓洋
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010162189.XA priority Critical patent/CN111028841B/zh
Publication of CN111028841A publication Critical patent/CN111028841A/zh
Application granted granted Critical
Publication of CN111028841B publication Critical patent/CN111028841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供唤醒系统调节参数的方法、装置、计算机设备和存储介质,包括:将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个场景下的混合音;并输入至唤醒系统中,基于网格搜索法,确定出唤醒系统在每个场景下的最优参数;并建立最优参数与对应场景的映射关系;在监听唤醒语音时,基于用户语音信息中的背景声音信息,检测用户所处的场景;基于场景与参数集合的映射关系,获取对应的参数集合;并对应切换唤醒系统中的参数。本申请基于定点混音模拟真实场景,自动优化唤醒系统在各个场景下的最优参数;根据所处场景不同,将唤醒系统的参数切换至最优参数,以提升在该场景下的唤醒成功率。

Description

唤醒系统调节参数的方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机设备的技术领域,特别涉及一种唤醒系统调节参数的方法、装置、计算机设备和存储介质。
背景技术
目前,智能蓝牙音箱等具有语音唤醒功能的设备终端越来越受到用户的喜爱,该类设备终端中集成有唤醒系统,当监听到正确的唤醒语音时,则可以唤醒该设备终端。但是,目前的具有类似功能的设备终端在通过语音唤醒时,通常面临着较多的唤醒失败的现象。主要原因在于,目前类似的设备终端通常不会进行其中唤醒系统的参数更新/切换,使得随着用户所处场景的不同,其唤醒成功率也随之改变。其次,虽然有些设备终端中会进行相应的参数进行更新/切换,但是其通常是根据经验去实时调整,显然,其不具备通用性,可靠性也不高。
发明内容
本申请的主要目的为提供一种唤醒系统调节参数的方法、装置、计算机设备和存储介质,旨在目前唤醒系统中的参数切换不可靠的缺陷。
为实现上述目的,本申请提供了一种唤醒系统调节参数的方法,应用于设备终端,所述方法包括以下步骤:
实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
基于所述背景声音信息,检测所述用户当前所处的场景;
基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;
根据所述参数集合,对应切换唤醒系统中对应的参数。
进一步地,所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤之后,包括:
将所述语音信息输入至切换参数后的唤醒系统中,以检测所述语音信息是否为唤醒语音;
若是,则执行唤醒操作。
进一步地,所述唤醒系统包括唤醒模型以及唤醒策略;所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤,包括:
依次将所述唤醒策略中的参数切换为所述参数集合中对应的参数;其中,所述参数至少包括平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小。
本申请还提供了一种唤醒系统调节参数的方法,应用于服务器,所述方法包括以下步骤:
将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;
将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;
将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。
进一步地,所述唤醒系统包括多个调节的参数;所述基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数的步骤,包括:
迭代将唤醒系统中的其中任意一个目标参数在预设的选择范围内进行调节,将其它的参数固定在特定值;其中,所述目标参数为所述参数中的任意一个;
依次得到调节所述目标参数时所述唤醒系统在每个场景下对所述混合音的检测结果,并记录所述检测结果最优时的参数,作为所述目标参数在对应场景下的最优参数;
迭代获取到所有参数在对应场景下的最优参数,以确定出所述唤醒系统在每个场景下的最优参数。
进一步地,所述将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系的步骤之后,包括:
将所述参数集合与对应场景的映射关系推送至与所述服务器连接的设备终端。
进一步地,所述唤醒系统包括唤醒模型以及唤醒策略,所述参数至少包括所述唤醒策略中的平滑队列长度、平滑机制参数、唤醒条件队列长度以及唤醒阈值大小。
本申请还提供了一种唤醒系统调节参数的装置,包括:
采集单元,用于实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
第一检测单元,用于基于所述背景声音信息,检测所述用户当前所处的场景;
获取单元,用于基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;
切换单元,用于根据所述参数集合,对应切换唤醒系统中对应的参数。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的唤醒系统调节参数的方法、装置、计算机设备和存储介质,在监听唤醒语音时,通过实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;进而基于所述背景声音信息,检测所述用户当前所处的场景;基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;根据所述参数集合,对应切换唤醒系统中对应的参数。即是根据当前用户所处场景的不同,将唤醒系统中的参数切换至最优的参数,以便提升在该场景下的唤醒成功率。
附图说明
图1 是本申请一实施例中唤醒系统调节参数的方法步骤示意图;
图2 是本申请另一实施例中唤醒系统调节参数的方法步骤示意图;
图3 是本申请又一实施例中唤醒系统调节参数的方法步骤示意图;
图4 是本申请中唤醒系统调节参数的方法的具体应用示意图;
图5 是本申请一实施例中唤醒系统调节参数的装置结构框图;
图6 为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种唤醒系统调节参数的方法,应用于设备终端,所述方法包括以下步骤:
步骤S1,实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
步骤S2,基于所述背景声音信息,检测所述用户当前所处的场景;
步骤S3,基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;
步骤S4,根据所述参数集合,对应切换唤醒系统中对应的参数。
在本实施例中,上述方法应用于对设备终端(例如蓝牙音箱等)中使用的唤醒系统进行参数的切换。可以理解的是,在不同的背景场景下,上述设备终端对用户的语音信息的唤醒成功率不同。例如在安静的场景与喧闹的场景下,相同用户通过语音唤醒设备终端的成功率显然会差异较大。
如上述步骤S1所述的,上述设备终端实时采集当前用户的语音信息,该语音信息既包括用户语音信息,还包括当前的背景声音信息,该背景声音信息较容易影响到上述用户语音信息的唤醒成功率。在本实施例中,采集到上述语音信息时,可基于声音分析技术从上述语音信息中分离出用户语音信息以及背景声音信息。
如上述步骤S2所述的,可以基于神经网络模型,对所述背景声音信息进行检测出来,从而便可以检测出所述用户当前所处的场景。上述神经网络模型可采用对声音进行分类的惯用模型,在此不进行赘述。在本实施例中,进行场景识别的过程中,优先选取最接近的场景作为当前用户所处的场景。在一些实施例中,也可以是通过用户在上述设备终端上自行选择对应的场景。
如上述步骤S3所述的,在上述设备终端上可以预先保存有场景与参数集合的映射关系,该映射关系指的是不同场景下对应不同的参数集合,该参数集合指的是上述唤醒模型中各个参数的集合,且该参数集合为该场景下的最优参数的集合。在一实施例中,上述场景与参数集合的映射关系也可以是定期由服务器所推送/更新的,在服务器上可以定期更新上上述映射关系,并定期推送至设备终端,以便于上述设备终端可以定时更新,以提升其在不同场景下对唤醒语音的识别正确率。
如上述步骤S4所述的,在获取到上述参数集合之后,便可以将上述唤醒系统中对应的参数切换至于上述参数集合相同,以使得当前唤醒系统的参数为当前场景下的最优参数,进而,使用该唤醒系统对上述语音信息进行识别时,可以显著提高识别正确率。
在本实施例中,针对当前用户所处不同的背景场景,不仅会切换上述唤醒系统的参数,同时,无需凭靠经验进行参数的调节,只需要根据当前场景与参数集合的映射关系,找出对应当前场景的最优参数的集合,从而进行参数的切换,使上述唤醒模型处于最优的识别状态;提高识别准确率、识别速度、以及可靠性。
参照图2,在一实施例中,所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤S4之后,包括:
步骤S5,将所述语音信息输入至切换参数后的唤醒系统中,以检测所述语音信息是否为唤醒语音;
步骤S6,若是,则执行唤醒操作。
在本实施例中,在切换上述唤醒系统中对应的参数之后,便可以使用切换参数之后得到的唤醒系统对上述语音信息进行识别,可以有针对性的进行处理。进而提高识别准确率、识别速度、以及可靠性。
在一实施例中,所述唤醒系统包括唤醒模型以及唤醒策略;所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤S4,包括:
依次将所述唤醒策略中的参数切换为所述参数集合中对应的参数;其中,所述参数至少包括平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小。
在本实施例中,上述唤醒系统包括唤醒模型以及唤醒策略,该唤醒模型为通用的神经网络模型,上述唤醒策略中包括多个参数,例如平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小。在不同的场景中,上述参数会有所不同,将上述参数进行调整时,便可以影响上述唤醒策略,从而影响到上述唤醒系统的识别效果。
在一个实施例中,上述场景与参数集合的映射关系由服务器推送,上述服务器上可以进行上述映射关系的定时更新,而为了便于上述服务器进行上述映射关系的定时更新,上述设备终端可以为上述服务器提供对应的用户语音信息以及背景声音信息。具体地,上述设备终端实时采集到上述语音信息,便可以将上述语音信息包括用户语音信息以及背景声音信息作为测试数据发送至上述服务器,上述服务器接收到上述语音信息之后,便可以将其作为语音测试数据输入到上述唤醒系统中进行迭代训练,以进一步的优化上述唤醒系统的参数。
参照图3,本申请另一实施例中还提供了一种唤醒系统调节参数的方法,应用于服务器,所述方法包括以下步骤:
步骤S10,将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;
步骤S20,将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;
步骤S30,将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。
在本实施例中,提供的是对上述唤醒系统的参数进行迭代调节的方法,
如上述步骤S10所述的,上述预设的唤醒测试语音以及多个场景的背景声音组成测试集,将上述唤醒测试语音定点的混入上述场景的背景声音中,得到混合音,上述混合音便可以模拟出实际的场景。优选地,在实际测试中,将上述混合音的音频文件读成流数据人工测试场景的形式,以输入唤醒系统。
如上述步骤S20所述的,将每个所述混合音输入至唤醒系统中,从而在基于网格搜索法,迭代进行上述唤醒系统中参数的训练,从而得到所述唤醒系统在每个场景下的最优参数。
如上述步骤S30所述的,在得出所述唤醒系统在每个场景下的最优参数之后,便可以将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。上述映射关系便可以由上述服务器推送至设备终端上,从而在实际识别过程中,设备终端的唤醒系统根据当前场景的变化,切换对应的最优参数,以提升识别准确率、可靠性。
在本实施例中,将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,模拟出实际的人工测试场景,从而进行不同场景下的唤醒系统的参数训练,以训练得到不同场景下的最优参数。上述过程完全自动化,代替人工经验,对上述唤醒系统的调优效果显著。在本实施例中,采用定点混音测试的方法,是因为目前在实际的研发中每更新一次唤醒系统都需要人工去重新进行调参寻找最优参数,耗费人力物力;而采用定点混音的方法来模型真实场景,并基于网格搜索法进行自动寻找最优参数集合,可以节省大量的人力物力。
在一实施例中,所述唤醒系统包括多个调节的参数;所述基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数的步骤S20,包括:
a、迭代将唤醒系统中的其中任意一个目标参数在预设的选择范围内进行调节,将其它的参数固定在特定值;其中,所述目标参数为所述参数中的任意一个;
b、依次得到调节所述目标参数时所述唤醒系统在每个场景下对所述混合音的检测结果,并记录所述检测结果最优时的参数,作为所述目标参数在对应场景下的最优参数;
c、迭代获取到所有参数在对应场景下的最优参数,以确定出所述唤醒系统在每个场景下的最优参数。
在本实施例中,将每个所述混合音输入至唤醒系统中,上述唤醒系统便可以输出在哪里监测到唤醒词,由于是定点混音,所以应该唤醒的位置范围是已知的,那么在唤醒系统在监测出唤醒的位置后,将其与已知的真实位置进行比对,若位置正确的就是唤醒,位置不正确的就是误唤醒,从而便可以将误唤醒率和唤醒率计算出来,即上述检测结果;由于每个参数都具有对应的值域范围,因此从上述唤醒系统的参数中选择一个参数,固定其它参数值,然后遍历选择出的该参数在其值域范围内的所有取值,找到最优的参数。依次类推,搜索所有其它的参数对应的最优参数。最后,将最优的参数集合保存下来,完成调优。
在一实施例中,所述将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系的步骤S30之后,包括:
步骤S40,将所述参数集合与对应场景的映射关系推送至与所述服务器连接的设备终端。
上述服务器上得到上述参数集合与对应场景的映射关系之后,便可以将其推送至设备终端。
具体结合参照图4,在一具体应用场景中,在线下,上述服务器将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系;进而将所述参数集合与对应场景的映射关系推送至与所述服务器连接的设备终端。
在线上,上述设备终端可以在实际应用当中,实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;再基于所述背景声音信息,检测所述用户当前所处的场景;然后基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;并根据所述参数集合,对应切换唤醒系统中对应的参数,以使得上述唤醒系统处于最优的状态;进而将所述语音信息输入至切换参数后的唤醒系统中,以检测所述语音信息是否为唤醒语音,以提升其在不同场景下对唤醒语音的识别正确率。
在一实施例中,所述唤醒系统包括唤醒模型以及唤醒策略,所述参数至少包括所述唤醒策略中的平滑队列长度、平滑机制参数、唤醒条件队列长度以及唤醒阈值大小。在本实施例中,将涉及到的需要人工调适的参数提出来,使用网格搜索法来实现自动化调节,代替人工经验,提升可靠性。
参照图5,本申请另一实施例中还提供了一种唤醒系统调节参数的装置,包括:
采集单元10,用于实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
第一检测单元20,用于基于所述背景声音信息,检测所述用户当前所处的场景;
获取单元30,用于基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;
切换单元40,用于根据所述参数集合,对应切换唤醒系统中对应的参数。
在本实施例中,上述各个单元的具体实现请参照对应的方法实施例中所述,在此不再进行赘述。
在一实施例中,本申请还提供了一种唤醒系统调节参数的装置,包括:
混合单元,用于将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;
训练单元,用于将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;
建立单元,用于将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。
在本实施例中,上述各个单元的具体实现请参照对应的方法实施例中所述,在此不再进行赘述。
在又一实施例中,本申请还提供了一种唤醒系统调节参数的系统,包括服务器以及设备终端;
其中,所述服务器用于:将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系;将所述参数集合与对应场景的映射关系推送至与所述服务器连接的设备终端。
所述设备终端用于:实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;基于所述背景声音信息,检测所述用户当前所处的场景;基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;根据所述参数集合,对应切换唤醒系统中对应的参数;将所述语音信息输入至切换参数后的唤醒系统中,以检测所述语音信息是否为唤醒语音;若是,则执行唤醒操作。
所述设备终端还用于实时采集到上述语音信息,并将上述语音信息包括用户语音信息以及背景声音信息作为测试数据发送至上述服务器。
参照图6,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种唤醒系统调节参数的方法。
上述处理器执行上述唤醒系统调节参数的方法的步骤:
实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
基于所述背景声音信息,检测所述用户当前所处的场景;
基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;
根据所述参数集合,对应切换唤醒系统中对应的参数。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种唤醒系统调节参数的方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的唤醒系统调节参数的方法、装置、计算机设备和存储介质,将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。在监听唤醒语音时,通过实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;进而基于所述背景声音信息,检测所述用户当前所处的场景;基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;根据所述参数集合,对应切换唤醒系统中对应的参数。即是根据当前用户所处场景的不同,将唤醒系统中的参数切换至最优的参数,以便提升在该场景下的唤醒成功率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种唤醒系统调节参数的方法,其特征在于,应用于设备终端,所述方法包括以下步骤:
实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
基于所述背景声音信息,检测所述用户当前所处的场景;
基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;其中,所述参数集合中的参数至少包括平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小;
根据所述参数集合,对应切换唤醒系统中对应的参数。
2.根据权利要求1所述的唤醒系统调节参数的方法,其特征在于,所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤之后,包括:
将所述语音信息输入至切换参数后的唤醒系统中,以检测所述语音信息是否为唤醒语音;
若是,则执行唤醒操作。
3.根据权利要求1所述的唤醒系统调节参数的方法,其特征在于,所述唤醒系统包括唤醒模型以及唤醒策略;所述根据所述参数集合,对应切换唤醒系统中对应的参数的步骤,包括:
依次将所述唤醒策略中的参数切换为所述参数集合中对应的参数。
4.一种唤醒系统调节参数的方法,其特征在于,应用于服务器,所述方法包括以下步骤:
将预设的唤醒测试语音分别与多个场景的背景声音进行定点混合,得到每个所述场景下的混合音;
将每个所述混合音输入至唤醒系统中,并基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数;其中,所述最优参数至少包括平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小;
将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系。
5.根据权利要求4所述的唤醒系统调节参数的方法,其特征在于,所述唤醒系统包括多个调节的参数;所述基于网格搜索法,确定出所述唤醒系统在每个场景下的最优参数的步骤,包括:
迭代将唤醒系统中的其中任意一个目标参数在预设的选择范围内进行调节,将其它的参数固定在特定值;其中,所述目标参数为所述参数中的任意一个;
依次得到调节所述目标参数时所述唤醒系统在每个场景下对所述混合音的检测结果,并记录所述检测结果最优时的参数,作为所述目标参数在对应场景下的最优参数;
迭代获取到所有参数在对应场景下的最优参数,以确定出所述唤醒系统在每个场景下的最优参数。
6.根据权利要求4所述的唤醒系统调节参数的方法,其特征在于,所述将所述唤醒系统在每个场景下的最优参数分别构成一个参数集合,并建立每个所述参数集合与对应场景的映射关系的步骤之后,包括:
将所述参数集合与对应场景的映射关系推送至与所述服务器连接的设备终端。
7.根据权利要求4所述的唤醒系统调节参数的方法,其特征在于,所述唤醒系统包括唤醒模型以及唤醒策略。
8.一种唤醒系统调节参数的装置,其特征在于,包括:
采集单元,用于实时采集用户的语音信息,所述语音信息包括用户语音信息以及背景声音信息;
第一检测单元,用于基于所述背景声音信息,检测所述用户当前所处的场景;
获取单元,用于基于场景与参数集合的映射关系,获取所述用户当前所处的场景对应的参数集合;其中,所述参数集合中的参数至少包括平滑队列长度,平滑机制参数,唤醒条件队列长度,唤醒阈值大小;
切换单元,用于根据所述参数集合,对应切换唤醒系统中对应的参数。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010162189.XA 2020-03-10 2020-03-10 唤醒系统调节参数的方法、装置、计算机设备和存储介质 Active CN111028841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162189.XA CN111028841B (zh) 2020-03-10 2020-03-10 唤醒系统调节参数的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162189.XA CN111028841B (zh) 2020-03-10 2020-03-10 唤醒系统调节参数的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111028841A CN111028841A (zh) 2020-04-17
CN111028841B true CN111028841B (zh) 2020-07-07

Family

ID=70199379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162189.XA Active CN111028841B (zh) 2020-03-10 2020-03-10 唤醒系统调节参数的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111028841B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034000B (zh) * 2022-05-13 2023-12-26 深圳模德宝科技有限公司 一种工艺设计的方法
CN116597855B (zh) * 2023-07-18 2023-09-29 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
KR101662946B1 (ko) * 2015-03-25 2016-10-06 연세대학교 산학협력단 음질 개선 장치 및 그 제어 방법
CN106068535A (zh) * 2014-03-17 2016-11-02 皇家飞利浦有限公司 噪声抑制
CN109036411A (zh) * 2018-09-05 2018-12-18 深圳市友杰智新科技有限公司 一种智能终端语音交互控制方法及装置
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN110047487A (zh) * 2019-06-05 2019-07-23 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326112C (zh) * 2005-03-28 2007-07-11 华南理工大学 一种语音识别装置及其集成电路实现方法
CN1819019A (zh) * 2006-03-13 2006-08-16 华南理工大学 基于矩阵特征向量范数的语音识别装置及其语音识别方法
CN103310789B (zh) * 2013-05-08 2016-04-06 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN106068535A (zh) * 2014-03-17 2016-11-02 皇家飞利浦有限公司 噪声抑制
KR101662946B1 (ko) * 2015-03-25 2016-10-06 연세대학교 산학협력단 음질 개선 장치 및 그 제어 방법
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN109036411A (zh) * 2018-09-05 2018-12-18 深圳市友杰智新科技有限公司 一种智能终端语音交互控制方法及装置
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
CN110047487A (zh) * 2019-06-05 2019-07-23 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
CN110808030A (zh) * 2019-11-22 2020-02-18 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN111028841A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN108182937B (zh) 关键词识别方法、装置、设备及存储介质
CN111028841B (zh) 唤醒系统调节参数的方法、装置、计算机设备和存储介质
CN109074804B (zh) 基于口音的语音识别处理方法、电子设备和存储介质
CN111326154B (zh) 语音交互的方法、装置、存储介质及电子设备
CN111312253A (zh) 语音控制方法、云端服务器及终端设备
CN110992937B (zh) 语言离线识别方法、终端及可读存储介质
CN112905939A (zh) Html5页面资源的加载方法、装置、设备及存储介质
CN114333799B (zh) 相近音误识别的检测方法、装置和计算机设备
CN110837758A (zh) 一种关键词输入方法、装置及电子设备
CN111179934A (zh) 选择语音引擎的方法、移动终端和计算机可读存储介质
CN111125177A (zh) 生成数据标签的方法、装置、电子设备及可读存储介质
CN114637837A (zh) 用户阅读行为信息的采集方法、装置、设备及介质
CN110609618A (zh) 一种人机对话方法、装置、计算机设备及存储介质
CN114360522A (zh) 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN116481149B (zh) 配置室内环境参数的方法及系统
CN111161747B (zh) 基于Tensorflow唤醒模型的预测方法、装置和计算机设备
CN115881126B (zh) 基于语音识别的开关控制方法、装置和开关设备
CN110708370B (zh) 一种数据处理方法及终端
CN116110112B (zh) 基于人脸识别的智能开关的自适应调节方法以及装置
CN108717851B (zh) 一种语音识别方法及装置
CN111554292A (zh) 在移动终端中进行人机交互的方法及其装置
CN114550719A (zh) 语音控制指令的识别方法和装置、存储介质
CN109582841A (zh) 一种应用识别方法、装置、服务器及存储介质
CN113129902B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant