CN113327610B - 一种语音唤醒方法、装置及设备 - Google Patents

一种语音唤醒方法、装置及设备 Download PDF

Info

Publication number
CN113327610B
CN113327610B CN202110741987.2A CN202110741987A CN113327610B CN 113327610 B CN113327610 B CN 113327610B CN 202110741987 A CN202110741987 A CN 202110741987A CN 113327610 B CN113327610 B CN 113327610B
Authority
CN
China
Prior art keywords
processed
voice
acoustic coding
text sequence
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110741987.2A
Other languages
English (en)
Other versions
CN113327610A (zh
Inventor
梁镇麟
董林昊
蔡猛
马泽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110741987.2A priority Critical patent/CN113327610B/zh
Publication of CN113327610A publication Critical patent/CN113327610A/zh
Application granted granted Critical
Publication of CN113327610B publication Critical patent/CN113327610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例公开了一种语音唤醒方法、装置及设备。对于获取的待处理语音信号,从该待处理语音信号中获取待处理语音特征,并对该待处理语音特征进行编码获得声学编码表示。在获取到待处理语音信号对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行整合,进而根据整合后的声学编码表示获取待处理语音信号所包括的文字序列。在获取到文字序列后,根据文字序列以及关键词确定是否对设备进行唤醒。也就是,本申请实施例从待处理语音信号中获取可能存在的文字,进而基于字级别判断是否唤醒,不再是基于语音帧进行判断,提高唤醒效率。

Description

一种语音唤醒方法、装置及设备
技术领域
本申请涉及计算机处理技术领域,具体涉及一种语音唤醒方法、装置及设备。
背景技术
语音唤醒是目前语音领域非常重要的技术,其更多的部署于硬件上,该硬件在接收到语音指令后帮助用户完成一些任务。传统的唤醒方法通常包含一个语音识别的声学模型和包含关键词、路径裁剪的有限状态转换器(Finite State Transducers,FST),通过置信度来判断是否进行唤醒。
然而,目前的唤醒方案均是在语音帧级别上进行判断的,例如输入的语音有100帧,实际的文本很少,通过上述的唤醒方案将在长度为100的解码路径上进行搜索判断是否召回,导致解码速度较慢。
发明内容
有鉴于此,本申请实施例提供一种语音唤醒方法、装置及设备,以提高唤醒速度,提升用户使用体验。
为实现上述目的,本申请实施例提供的技术方案如下:
在本申请实施例第一方面,提供了一种语音唤醒方法,所述方法包括:
获取待处理语音信号;
从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
在本申请实施例第二方面,提供了一种语音唤醒装置,所述装置包括:
第一获取单元,用于获取待处理语音信号;
第二获取单元,用于从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
第三获取单元,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
判断单元,用于根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
在本申请实施例第三方面,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行第一方面所述的方法。
在本申请实施例第四方面,提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行第一方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中对于获取的待处理语音信号,从该待处理语音信号中获取待处理语音特征,并对该待处理语音特征进行编码获得声学编码表示。在获取到待处理语音信号对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行整合,进而根据整合后的声学编码表示获取待处理语音信号所包括的文字序列。在获取到文字序列后,根据文字序列以及关键词确定是否对设备进行唤醒。也就是,本申请实施例从待处理语音信号中获取可能存在的文字,进而基于字级别判断是否唤醒,不再是基于语音帧进行判断,提高唤醒效率。
附图说明
图1为本申请实施例提供的一种语音唤醒方法流程图;
图2a为本申请实施例提供的一种解码示意图;
图2b为本申请实施例提供的一种滑窗示意图;
图3为本申请实施例提供的一种语音唤醒框架图;
图4为本申请实施例提供的一种语音唤醒装置结构图;
图5为本申请实施例提供的一种电子设备结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,并非对本申请的限定。另外,还需要说明的是,为便于描述,附图中仅示出了与本申请相关的部分,并非全部结构。
为便于理解本申请实施例提供的技术方案,将先对本申请涉及的技术术语进行说明。
语音唤醒(keyword spotting,KWS))是指在连续语流中实时检测出说话人特定片段。语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。通常情况下通过以下4个指标来评价唤醒效果,分别为唤醒率、误唤醒率、响应时间和功耗水平。其中,唤醒率,指用户交互的成功率,专业术语为召回率,即recall。误唤醒,用户未进行交互而设备被唤醒的概率。响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。
传统的语音唤醒均是在帧级别上进行判断的,例如,输入的语音有100帧,实际包括为文字只有10个字,通常的语音唤醒判断将在长度为100的解码路径进行搜索判断,增加解码开销。
基于此,本申请实施例提供了一种语音唤醒方法,利用连续整合发放(ContinuousIntegrate-and-Fire,CIF)模型对获取的声学编码表示进行整合并发放出所识别的文字,进而基于字级别判断是否唤醒,减少解码的开销,提高解码速度。
其中,CIF是一种以神经脉冲作为输出的神经元模型,把输入进行加权总和后按指数规律积累起来直到达到某个阈值会对先后到来的声学信息依次进行整合,当整合的信息量达到识别阈值,将整合后的信息发放以用作后续识别。具体地,CIF应用于编解码框架,在每一个编码时刻,CIF分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。CIF不断地积累权重并对声学编码表示进行整合(加权求和的形式)。当积累的权重达到阈值后,意味一个声学边界被定位到。
为便于理解本申请所提供的技术方案,下面将结合附图对本申请实施例所提供的语音唤醒方法进行说明。
参见图1,该图为本申请实施例提供的一种语音唤醒方法流程图,如图1所示,该方法可以包括:
S101:获取待处理语音信号。
本实施例中,对于具备语音唤醒能力的设备而言,在设备开启并自动加载好资源后,这时处于休眠状态。在休眠状态,设备实时监听用户所发出的语音信号(待处理语音信号)是否包括特定的唤醒词,当用户说出特定的唤醒词时,设备就会被唤醒,切换到工作状态等待用户接下来的指令。其中,待处理语音信号为用户发出的语音信号。
S102:从待处理语音信号中获取待处理语音特征,并对待处理语音特征进行编码获得声学编码表示。
在设备采集到待处理语音信号后,从待处理语音信号中获取待处理语音特征,并对待处理语音特征进行编码获得声学编码表示。具体地,由于语音信号是准稳态信号,在处理时可以先把语音信号分帧,每帧长度约为20ms-30ms,这一区间内把语音信号看作为稳态信号。只有稳态的信息才能进行信号处理。再把语音信号分帧后,对每一帧进行小波变换和处理,即获得每个语音帧对应的语音特征。在获得每个语音帧的语音特征后,对该语音特征进行编码获得声学编码表示。
S103:根据各声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列。
在获得各语音特征对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行以获得文字序列。其中,可以利用CIF模型实现对各声学编码表示以及声学编码表示对应的权重进行整合,以发放出待处理语音信号所包括的文字序列。
具体地,根据各声学编码表示和所述声学编码表示对应的权重进行整合获得目标声学编码表示;在声学编码表示对应的权重满足预设条件时,根据目标声学编码表示获得待处理语音信号所包括的文字序列。其中,声学编码表示对应的权重满足预设条件可以为权重等于预设阈值,其中,预设阈值可以根据实际应用情况进行设定。
例如,获取的待处理语音信号包括100帧,提取该100帧语音信号对应的语音特征,并对该100帧语音好的语音特征进行编码,获得100帧语音信号各自对应的声学编码表示,将该声学编码表示输入CIF模型,CIF模型积累权重并对声学编码表示进行整合(加权求和的形式)。当积累的权重达到阈值后,由该CIF模型输出待处理语音信号所包括的10个文字。
在一些优选的实施例中,声学编码表示对应的权重可以在不断变化,例如可以通过注意力机制不断更新各声学编码表示对应的权重,以使得对获取文字序列有重要影响的声学编码表示对应较大的权重,进而更加准确地确定待处理语音信号中所包括的文字序列。
S104:根据文字序列以及关键词确定是否对设备进行唤醒,其中,关键词用于唤醒设备。
在获取待处理语音信号所包括的文字序列后,根据文字序列以及关键词确定是否对设备进行唤醒。其中,关键词用于唤醒设备,唤醒词的长度可以根据实际情况进行设定。
具体地,在获取文字序列后,利用解码器对文字序列进行解码获得解码图,其中,解码图的长度为文字序列的长度。即,本实施例中的解码图的长度为文字的长度,相较于基于语音帧进行唤醒,其解码路径的长度小,提高解码速度。其中,为减少参数量的计算,提高计算速度,解码器可以为非自回归的解码器。具体地,解码图为一个M*K维的矩阵,其中,M为文字序列的长度,K为词表的长度。词表包括常见的词。例如图2a所示的解码图,在该解码图中以词表包括20个常见词word、文字序列长度为10为例,矩阵内的数据表示预测的文字为某一常见词的后验概率。其中,w1-w20为常见的文字,q1-q10为预测的10个文字,其中每一行表示预测的q1为各个字的概率,且每一行的后验概率之和为1。
在获取到文字序列所对应的解码图后,可以以关键词的长度作为滑窗的大小在解码图上进行滑动,以确定每次滑动所对应的滑窗内出现关键词的置信度;在第i次滑窗内出现关键词的置信度大于预设置信度阈值时,对设备进行唤醒。其中,i为大于等于1且小于N,N为滑窗滑动总次数,N=M-L+1,L为关键词的长度。例如,文字序列的长度为10、关键词的长度为4,则滑动次数为7。例如,图2b所示,以关键词长度为4,每次滑窗包括4个所预测的文字,并确定每个滑窗内4个预测的文字为关键词的后验概率。如第1次滑窗,q1为关键词中第一个字的概率为p15、q2为关键词中第二个字的概率为p22、q3为关键词中第三个字的概率为p37、q4为关键词中第四个字的概率为p48,则第1次滑窗对应的后验概率为p15*p22*p37*p48。同理,第2次滑窗,q2为关键词中第一个字的概率为p25、q3为关键词中第二个字的概率为p32、q4为关键词中第三个字的概率为p47、q5为关键词中第四个字的概率为p58,则第2次滑窗对应的后验概率为p25*p32*p47*p58。依次滑动,获得每次滑窗的后验概率,假设第3次滑窗的后验概率大于预设概率阈值,则唤醒设备,否则继续滑窗,直至滑动N次滑窗。
可见,对于获取的待处理语音信号,从该待处理语音信号中获取待处理语音特征,并对该待处理语音特征进行编码获得声学编码表示。在获取到待处理语音信号对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行整合,进而根据整合后的声学编码表示获取待处理语音信号所包括的文字序列。在获取文字序列,根据文字序列以及关键词确定是否对设备进行唤醒。也就是,本申请实施例从待处理语音信号中获取可能存在的文字,进而基于字级别判断是否唤醒,不再是基于语音帧进行判断,提高唤醒效率。
为便于理解,参见图3所示的语音唤醒框架图,首先获取待处理语音信号,对该待处理语音信号进行下采样处理获得待处理语音信号特征,将待处理语音信号特征输入编码器,获得声学编码表示,将声学编码表示输入CIF模型,以使得CIF通过声学边界整合输出待处理语音信号所包括的文字序列。将文字序列输入解码器,由解码器对文字序列进行解码,以获得文字序列中是否包括关键词,在包括关键词且对应的后验概率满足预设条件时,对设备进行唤醒。
基于上述方法实施例,本申请实施例提供了一种语音唤醒装置,下面将结合附图对该装置进行说明。
参见图4,该图为本申请实施例提供的一种语音唤醒装置结构图,如图4所示,该装置可以包括:
第一获取单元401,用于获取待处理语音信号;
第二获取单元402,用于从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
第三获取单元403,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
判断单元404,用于根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
在一种可能的实现方式中,所述判断单元404,具体包括确定子单元和唤醒子单元;
确定子单元,用于以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度;
唤醒子单元,用于在第i次滑窗内出现所述关键词的置信度大于预设置信度阈值时,对所述设备进行唤醒,所述i为大于等于1且小于N的正整数,所述N为滑动次数。
在一种可能的实现方式中,所述确定子单元,具体用于针对任一次滑窗操作,获取滑窗内各个文字对应的后验概率,将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述关键词的置信度。
在一种可能的实现方式中,所述N=M-L+1,其中,M为所述文字序列的长度,L为所述关键词的长度,所述M和L均为大于等于1的正整数。
在一种可能的实现方式中,所述装置还包括:解码单元;
解码单元,用于利用解码器对所述文字序列进行解码获得解码图,所述解码图的长度为文字序列的长度。
在一种可能的实现方式中,所述解码器为非自回归的解码器。
在一种可能的实现方式中,所述解码图为M*K的矩阵,所述K为词表的长度。
在一种可能的实现方式中,第三获取单元403,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合获得目标声学编码表示,所述声学编码表示对应的权重在变化;在所述声学编码表示对应的权重满足预设条件时,根据所述目标声学编码表示获得所述待处理语音信号所包括的文字序列。
需要说明的是,本实施例中各个单元的实现可以参见图1所示方法实施例中的相关描述,本实施例在此不再赘述。
参见图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
本公开实施例提供的电子设备与上述实施例提供的语音唤醒方法属于同一构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的语音唤醒方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取待处理语音信号;
从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,协作用户确定模块还可以被描述为“用户确定模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种语音唤醒方法,所述方法包括:
获取待处理语音信号;
从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
根据本公开的一个或多个实施例,所述根据所述文字序列以及关键词确定是否进行唤醒,包括:
以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度;
在第i次滑窗内出现所述关键词的置信度大于预设置信度阈值时,对所述设备进行唤醒,所述i为大于等于1且小于N的正整数,所述N为滑动次数。
根据本公开的一个或多个实施例,所述以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度,包括:
针对任一次滑窗操作,获取滑窗内各个文字对应的后验概率,将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述关键词的置信度。
根据本公开的一个或多个实施例,所述N=M-L+1,其中,M为所述文字序列的长度,L为所述关键词的长度,所述M和L均为大于等于1的正整数。
根据本公开的一个或多个实施例,所述方法还包括:
利用解码器对所述文字序列进行解码获得解码图,所述解码图的长度为文字序列的长度。
根据本公开的一个或多个实施例,所述解码器为非自回归的解码器。
根据本公开的一个或多个实施例,所述解码图为M*K的矩阵,所述K为词表的长度。
根据本公开的一个或多个实施例,所述根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列,包括:
根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合获得目标声学编码表示,所述声学编码表示对应的权重在变化;
在所述声学编码表示对应的权重满足预设条件时,根据所述目标声学编码表示获得所述待处理语音信号所包括的文字序列。
根据本公开的一个或多个实施例,一种语音唤醒装置,所述装置包括:
第一获取单元,用于获取待处理语音信号;
第二获取单元,用于从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
第三获取单元,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
判断单元,用于根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
根据本公开的一个或多个实施例,所述判断单元,具体包括确定子单元和唤醒子单元;
确定子单元,用于以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度;
唤醒子单元,用于在第i次滑窗内出现所述关键词的置信度大于预设置信度阈值时,对所述设备进行唤醒,所述i为大于等于1且小于N的正整数,所述N为滑动次数。
根据本公开的一个或多个实施例,所述确定子单元,具体用于针对任一次滑窗操作,获取滑窗内各个文字对应的后验概率,将所述各个文字对应的后验概率相乘获得每次滑窗内出现所述关键词的置信度。
根据本公开的一个或多个实施例,所述N=M-L+1,其中,M为所述文字序列的长度,L为所述关键词的长度,所述M和L均为大于等于1的正整数。
根据本公开的一个或多个实施例,所述装置还包括:解码单元;
解码单元,用于利用解码器对所述文字序列进行解码获得解码图,所述解码图的长度为文字序列的长度。
根据本公开的一个或多个实施例,所述解码器为非自回归的解码器。
根据本公开的一个或多个实施例,所述解码图为M*K的矩阵,所述K为词表的长度。
根据本公开的一个或多个实施例,第三获取单元,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合获得目标声学编码表示,所述声学编码表示对应的权重在变化;在所述声学编码表示对应的权重满足预设条件时,根据所述目标声学编码表示获得所述待处理语音信号所包括的文字序列。
根据本公开的一个或多个实施例,一种电子设备,所述设备包括:处理器和存储器;所述存储器,用于存储指令或计算机程序;所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行所述的语音唤醒方法。
根据本公开的一个或多个实施例,一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的语音唤醒方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种语音唤醒方法,其特征在于,所述方法包括:
获取待处理语音信号;
从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
根据连续整合发放模型对各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文字序列以及关键词确定是否进行唤醒,包括:
以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度;
在第i次滑窗内出现所述关键词的置信度大于预设置信度阈值时,对所述设备进行唤醒,所述i为大于等于1且小于N的正整数,所述N为滑动次数。
3.根据权利要求2所述的方法,其特征在于,所述以所述关键词的长度在所述文字序列所形成的解码图上进行滑窗,确定每次滑窗内出现所述关键词的置信度,包括:
针对任一次滑窗操作,获取滑窗内各个文字序列对应的后验概率,将所述各个文字序列对应的后验概率相乘获得每次滑窗内出现所述关键词的置信度。
4.根据权利要求2或3或所述的方法,其特征在于,所述N=M-L+1,其中,M为所述文字序列的长度,L为所述关键词的长度,所述M和L均为大于等于1的正整数。
5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
利用解码器对所述文字序列进行解码获得解码图,所述解码图的长度为文字序列的长度。
6.根据权利要求5所述的方法,其特征在于,所述解码器为非自回归的解码器。
7.根据权利要求5所述的方法,其特征在于,所述解码图为M*K的矩阵,所述K为词表的长度。
8.根据权利要求1所述的方法,其特征在于,所述根据连续整合发放模型对各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列,包括:
根据连续整合发放模型对各所述声学编码表示以及所述声学编码表示对应的权重进行整合获得目标声学编码表示,所述声学编码表示对应的权重在变化;
在所述声学编码表示对应的权重满足预设条件时,根据所述目标声学编码表示获得所述待处理语音信号所包括的文字序列。
9.一种语音唤醒装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理语音信号;
第二获取单元,用于从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
第三获取单元,用于根据连续整合发放模型对各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
判断单元,用于根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
10.一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行权利要求1-8任一项所述的方法。
CN202110741987.2A 2021-06-30 2021-06-30 一种语音唤醒方法、装置及设备 Active CN113327610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110741987.2A CN113327610B (zh) 2021-06-30 2021-06-30 一种语音唤醒方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110741987.2A CN113327610B (zh) 2021-06-30 2021-06-30 一种语音唤醒方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113327610A CN113327610A (zh) 2021-08-31
CN113327610B true CN113327610B (zh) 2023-10-13

Family

ID=77425252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110741987.2A Active CN113327610B (zh) 2021-06-30 2021-06-30 一种语音唤醒方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113327610B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506575B (zh) * 2021-09-09 2022-02-08 深圳市友杰智新科技有限公司 流式语音识别的处理方法、装置和计算机设备
CN114550722A (zh) * 2022-03-22 2022-05-27 贝壳找房网(北京)信息技术有限公司 语音信号处理方法和装置、存储介质、电子设备、产品
CN114822539A (zh) * 2022-06-24 2022-07-29 深圳市友杰智新科技有限公司 双窗口语音解码方法、装置、设备和存储介质
CN117594046A (zh) * 2023-10-19 2024-02-23 摩尔线程智能科技(北京)有限责任公司 一种模型训练方法、唤醒方法、装置及存储介质
CN118609548A (zh) * 2024-08-08 2024-09-06 腾讯科技(深圳)有限公司 语音识别方法、装置、存储介质以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110910885A (zh) * 2019-12-12 2020-03-24 苏州思必驰信息科技有限公司 基于解码网络的语音唤醒方法和装置
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110910885A (zh) * 2019-12-12 2020-03-24 苏州思必驰信息科技有限公司 基于解码网络的语音唤醒方法和装置
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置

Also Published As

Publication number Publication date
CN113327610A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113327610B (zh) 一种语音唤醒方法、装置及设备
CN113436620B (zh) 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN112712801B (zh) 一种语音唤醒方法、装置、电子设备及存储介质
CN113470646B (zh) 一种语音唤醒方法、装置及设备
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN110047485A (zh) 识别唤醒词的方法和装置、介质以及设备
CN112509562B (zh) 用于文本后处理的方法、装置、电子设备和介质
WO2023273612A1 (zh) 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN111883117A (zh) 语音唤醒方法及装置
US20240078385A1 (en) Method and apparatus for generating text
CN112634872A (zh) 语音设备唤醒方法及装置
EP4287182A1 (en) Method and apparatus for training a speech recognition model, electronic device and storage medium
CN113470698A (zh) 一种说话人转换点检测方法、装置、设备及存储介质
CN111326146A (zh) 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质
CN110852801B (zh) 信息处理方法、装置及设备
CN111312243B (zh) 设备交互方法和装置
US20240169988A1 (en) Method and device of generating acoustic features, speech model training, and speech recognition
CN111276127B (zh) 语音唤醒方法、装置、存储介质及电子设备
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN113823313A (zh) 语音处理方法、装置、设备以及存储介质
CN116884402A (zh) 语音转文本的方法、装置、电子设备及存储介质
CN117253334A (zh) 电动汽车充电站烟雾火灾预警方法、装置和设备
CN115862604B (zh) 语音唤醒模型训练及语音唤醒方法、装置及计算机设备
CN115129877B (zh) 标点符号预测模型的生成方法、装置和电子设备
CN111640440B (zh) 一种音频流解码方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant