CN111192588B - 一种系统唤醒方法及装置 - Google Patents

一种系统唤醒方法及装置 Download PDF

Info

Publication number
CN111192588B
CN111192588B CN201911414856.2A CN201911414856A CN111192588B CN 111192588 B CN111192588 B CN 111192588B CN 201911414856 A CN201911414856 A CN 201911414856A CN 111192588 B CN111192588 B CN 111192588B
Authority
CN
China
Prior art keywords
information
awakening
voice information
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911414856.2A
Other languages
English (en)
Other versions
CN111192588A (zh
Inventor
梁飞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruixun Cloud Technology Co ltd
Original Assignee
Shenzhen Ruixun Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruixun Cloud Technology Co ltd filed Critical Shenzhen Ruixun Cloud Technology Co ltd
Priority to CN201911414856.2A priority Critical patent/CN111192588B/zh
Publication of CN111192588A publication Critical patent/CN111192588A/zh
Application granted granted Critical
Publication of CN111192588B publication Critical patent/CN111192588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明实施例提供了一种系统唤醒方法及装置,所述方法应用于人工智能系统,所述方法包括:当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;获取所述处理语音信息的声学特征;确定所述声学特征与预存数据库的特征是否相同;若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;若所述处理语音信息包含唤醒信息,则执行唤醒操作。本实施例提出的系统唤醒方法,操作简便,可以从语音数据中提取出不同的声学特征,并利用不同的声学特征快速识别唤醒字词,可以提高识别准确率,而且可以降低误识别的概率,也提高了人工智能系统识别的准确度,提高用户的使用体验。

Description

一种系统唤醒方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种系统唤醒方法以及一种系统唤醒装置。
背景技术
随着互联网的不断普及,人工智能系统也逐渐进入人们的生活一部分,为人们生活提供便利。
人工智能系统可以通过识别用户的语音数据,从而执行语音数据对应的操作,为用户的生活提供便利。
在唤醒人工智能系统时,用户的语音数据容易受到环境的语音数据影响,例如在用户旁边有其他朋友在,使得用户的语音数据与朋友的语音数据相互混淆,使得人工智能系统无法识别用户的唤醒操作。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种系统唤醒方法以及一种系统唤醒装置。
为了解决上述问题,本发明实施例公开了一种系统唤醒方法,应用于人工智能系统,所述方法包括:
当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
获取所述处理语音信息的声学特征;
确定所述声学特征与预存数据库的特征是否相同;
若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;
若所述处理语音信息包含唤醒信息,则执行唤醒操作。
可选地,所述声学特征包括:时间长度、共振峰和基频;所述获取所述处理语音信息的声学特征,包括:
获取所述处理语音信息的时间长度;
判断所述时间长度是否大于预设时间长度;
当所述时间长度大于预测时间长度时,则获取所述处理语音信息的共振峰与基频。
可选地,所述唤醒信息包括唤醒字词和语音间隙,所述判断所述处理语音信息是否包含唤醒信息,包括:
识别所述语音信息的语音字词;
判断所述语音字词是否包含多个唤醒字词;
若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
所述若所述处理语音信息包含唤醒信息,则执行唤醒操作,包括:
若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
可选地,所述对所述语音信息进行预处理,包括:
对所述语音信息进行高通滤波,得到滤波信息;
对所述滤波信息进行噪声抑制,得到抑制信息;
对所述抑制信息进行自动增益处理,得到处理语音信息。
本发明实施例还公开了一种系统唤醒装置,应用于人工智能系统,所述装置包括:
预处理模块,用于当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
获取模块,用于获取所述处理语音信息的声学特征;
确定模块,用于确定所述声学特征与预存数据库的特征是否相同;
判断模块,用于若所述声学特征与预存数据库的特征相同,则判断所述处理语音信息是否包含唤醒信息;
执行模块,用于若所述处理语音信息包含唤醒信息,则执行唤醒操作。
可选地,所述声学特征包括:时间长度、共振峰和基频;所述获取模块,包括:
获取时间模块,用于获取所述处理语音信息的时间长度;
判断时间模块,用于判断所述时间长度是否大于预设时间长度;
获取信息模块,用于若所述时间长度大于预测时间长度,则获取所述处理语音信息的共振峰与基频。
可选地,所述唤醒信息包括唤醒字词和语音间隙,所述判断模块包括:
识别模块,用于识别所述语音信息的语音字词;
判断字词模块,用于判断所述语音字词是否包含多个唤醒字词;
判断空格模块,用于若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
所述执行模块,包括:
唤醒操作模块,用于若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
可选地,所述预处理模块,包括:
滤波模块,用于对所述语音信息进行高通滤波,得到滤波信息;
抑制模块,用于对所述滤波信息进行噪声抑制,得到抑制信息;
增益模块,用于对所述抑制信息进行自动增益处理,得到处理语音信息。
本发明实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上述实施例所述的一个或多个方法。
本发明实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述实施例所述的任一项所述方法。
本发明实施例包括以下优点:提出了一种系统唤醒方法,该方法可以当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;获取所述处理语音信息的声学特征;确定所述声学特征与预存数据库的特征是否相同;若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;最后若所述处理语音信息包含唤醒信息,则执行唤醒操作。本实施例提出的系统唤醒方法,操作简便,可以从语音数据中提取出不同的声学特征,并利用不同的声学特征快速识别唤醒字词,可以提高识别准确率,同时在识别过程中的计算量小,也降低了系统功耗,而且可以降低误识别的概率,也提高了人工智能系统识别的准确度,提高用户的使用体验。
附图说明
图1是本发明的系统唤醒方法实施例一的步骤流程图;
图2是本发明的系统唤醒方法实施例二的步骤流程图;
图3是本发明的系统唤醒装置实施例一的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的系统唤醒方法实施例一的步骤流程图,在本实施例中,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤101,当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
在本实施例中,该休眠模式可以是人工智能系统处于关闭状态或人工智能系统处于待机状态或者人工智能系统处于休眠状态等等。
在可选的实施例中,该人工智能系统可以设有语音接收设备,可以采用该语音接收设备接收用户输入的语音信息。具体地,该语音接收设备可以麦克风,可以采用麦克风接收用户输入的语音信息。
在其中一种可选的实施例中,该人工智能系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备或服务器等等。可以通过智能终端或智能设备接收用户的语音信息,再由智能终端或智能设备将语音信息发送至人工智能系统中。
在具体实现中,当人工智能系统接收了语音信息后,可以先对该语音信息进行预处理,该预处理可以是对语音信息进行滤波、增益、拆分、分解等等。对语音信息进行预处理实际是为了可以让人工智能系统可以更加容易地识别该语音信息,也可以去除一部分杂音或噪声,从而可以提高识别的准确率,更加准确地根据识别的结果执行对应的步骤,提高用户的使用体验。
步骤102,获取所述处理语音信息的声学特征。
在本实施例中,该声学特征可以是波形特征,具体地,可以获取波形的幅值、周期、波长、分贝、声功率、声强等波形特征。
在实际操作中,可以先获取用户音频数据中的幅值、周期、波长、分贝、声功率、声强、基频、共振峰等波形特征。
人工智能系统在获取声学特征后,可以采用声学特征判断该语音信息是否可以包含唤醒词或唤醒文本,从而可以确定是否唤醒该人工智能系统。
在其中一种优选的实施例中,所述声学特征包括:时间长度、共振峰和基频。该时间长度可以是语音信息的时间长度,共振峰可以是是语音信息对应的音频波形的共振峰,该基频可以是语音信息对应的音频波形的基频。
步骤103,确定所述声学特征与预存数据库的特征是否相同。
在本实施例中,声学特征可以是波形特征,具体地波形特征可以是幅值、周期、波长、分贝、声功率、声强基频、共振峰等波形特征。预存数据库的特征可以是用户预存在预设数据库中的幅值、周期、波长、分贝、声功率、声强基频、共振峰等波形特征。
在实际操作中,预存数据库的特征可以是用户根据实际的唤醒词对应的波形特征。
若语音信息中包含唤醒词信息,则该语音信息可以包含该唤醒词对应的波形信息。通过声学特征可以快速判断该语音信息是否包含唤醒词,可以提高唤醒词和唤醒信息的判断效率,也可以提高判断的准确性。
步骤104,若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息。
在本实施例中,当声学特征与预存数据库的声学特征相同时,可以确定该语音信息中可能包含唤醒信息或者唤醒字词。
在实际操作中,可以从语音信息中获取对应的文本信息,可以判断该文本信息是否包含唤醒信息。若包含唤醒信息可以唤醒该人工智能系统,若不包含可以不唤醒。
在其中一种实施例中,所述唤醒信息包括唤醒字词和语音间隙。
该唤醒字词可以是唤醒该人工智能系统的唤醒文本信息,例如:你好助手,你好小智,你好小能等类似的唤醒文本信息。该语音间隙可以是字词与字词间的语音空白间隔,例如,“你好”在你好两字中间的语音空白间隙。
步骤105,若所述处理语音信息包含唤醒信息,则执行唤醒操作。
在本实施例中,当处理语音信息包含唤醒信息时,可以确定用户希望唤醒该人工智能系统,可以根据唤醒信息执行对应的唤醒操作。
在本发明可选的实施例中,提出了一种系统唤醒方法,该方法可以当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;获取所述处理语音信息的声学特征;确定所述声学特征与预存数据库的特征是否相同;若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;最后若所述处理语音信息包含唤醒信息,则执行唤醒操作。本实施例提出的系统唤醒方法,操作简便,可以从语音数据中提取出不同的声学特征,并利用不同的声学特征快速识别唤醒字词,可以提高识别准确率,同时在识别过程中的计算量小,也降低了系统功耗,而且可以降低误识别的概率,也提高了人工智能系统识别的准确度,提高用户的使用体验。
参照图2,示出了本发明的系统唤醒方法实施例二的步骤流程图,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤201,当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
在本实施例中,该休眠模式可以是人工智能系统处于关闭状态或人工智能系统处于待机状态或者人工智能系统处于休眠状态等等。
在可选的实施例中,该人工智能系统可以设有语音接收设备,可以采用该语音接收设备接收用户输入的语音信息。具体地,该语音接收设备可以麦克风,可以采用麦克风接收用户输入的语音信息。
在其中一种可选的实施例中,该人工智能系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备或服务器等等。可以通过智能终端或智能设备接收用户的语音信息,再由智能终端或智能设备将语音信息发送至人工智能系统中。
在具体实现中,当人工智能系统接收了语音信息后,可以先对该语音信息进行预处理,该预处理可以是对语音信息进行滤波、增益、拆分、分解等等。对语音信息进行预处理实际是为了可以让人工智能系统可以更加容易地识别该语音信息,也可以去除一部分杂音或噪声,从而可以提高识别的准确率,更加准确地根据识别的结果执行对应的步骤,提高用户的使用体验。
可选地,步骤201可以包括以下子步骤:
子步骤2011,对所述语音信息进行高通滤波,得到滤波信息。
在本实施例中,对语音信息进行高通滤波,可以将低于设定临界值的低频信号则被阻隔、减弱。
具体地,可以在人工智能系统中设置信号处理电路,该处理电路可以与语音接收设备连接,当语音接收设备接收了语音信息后将语音信息发送至信号处理电路,再进行预处理。
在实际操作中,可以获取信号处理电路输入的语音信息和输出的语音信息;将输入的语音信息和输出的语音信息进行比较,获取输入的语音信息和输出的语音信息的比例值,根据比例值与输入的语音信息和输出的语音信息的单位精度值;根据所述单位精度值计算得到输入的语音信息和输出的语音信息之间的相位差;判断相位差是否大于预设的相位差;相位差小于预设的相位差,则得到滤波后的输出的语音信息,该输出的语音信息可以为滤波信息。
其中,该预设的相位差可以是30度、15度,具体可以根据实际需要进行调整。
在本实施例中,判断输出的语音信息与输入的语音信息的相位差,可以判断该进行滤波的语音信息是否在滤波过程中出现变形。可选地,也可以判断输出的语音信息与输入的语音信息的周期、幅值、波长、分贝、声功率、声强等波形特征。可以根据实际需要进行调整,本发明并不在此作限定。
子步骤2012,对所述滤波信息进行噪声抑制,得到抑制信息。
在本实施例中,在获取了滤波信息后,可以再对滤波信息进行噪声抑制,可以将滤波信息中的毛刺音频去掉,从而可以保留完整且连续的语音信息。
其中,在可选的实施例中,噪声抑制又可以分为对低频噪声的降噪,以及对非低频噪声的降噪。具体的,空调、车载发动机等噪声均属于低频噪声,可以采用高通滤波技术消除低频噪声,具体可以参考上述步骤,为了避免重复,在此不再赘述。而背景的音乐或者人声等噪声属于非低频噪声,可以采用噪声抑制(Noise Suppression,简称:NS)技术消除非低频噪声。
具体地,也可以采用处理电路,该处理电路包括滤波模块,处理电路可以再接收滤波信息,将高于某一预设值的高频率信号信息过滤掉。
子步骤2013,对所述抑制信息进行自动增益处理,得到处理语音信息。
在本实施例中,由于受到硬件麦克风不同增益的影响,有些语音信息的音量可能会处于一个较低的水平。对此,可以采用自动增益处理,该自动增益处理可以是自动增益控制(Automatic Gain Control,简称AGC),采用自动增益控制技术进行语音增强,以将音量过低的音频信号的能量增强到可进行识别的水平。
在具体实现中,可以使用闭环电子电路AGC环,该AGC环可以分成增益受控放大电路和控制电压形成电路两部分,增益受控放大电路位于正向放大通路,其增益随控制电压而改变。其中,该放大电路的增益控制方法有:改变晶体管的直流工作状态,以改变晶体管的电流放大系数β;或者在放大器各级间插入电控衰减器;再或者用电控可变电阻作放大器负载等。
在本实施例中,当输入信号电压变化很大时,采用自动增益控制可以保持输出电压恒定或基本不变,可以保持信息的稳定性。
步骤202,获取所述处理语音信息的声学特征。
在本实施例中,该声学特征可以是波形特征,具体地,可以获取波形的幅值、周期、波长、分贝、声功率、声强等波形特征。
在实际操作中,可以先获取用户音频数据中的幅值、周期、波长、分贝、声功率、声强、基频、共振峰等波形特征。
人工智能系统在获取声学特征后,可以采用声学特征判断该语音信息是否可以包含唤醒词或唤醒文本,从而可以确定是否唤醒该人工智能系统。
在其中一种优选的实施例中,所述声学特征包括:时间长度、共振峰和基频。该时间长度可以是语音信息的时间长度,共振峰可以是是语音信息对应的音频波形的共振峰,该基频可以是语音信息对应的音频波形的基频。
可选地,步骤202可以包括以下子步骤:
子步骤2021,获取所述处理语音信息的时间长度。
在本实施例中,人工智能系统可以先获取该处理语音信息的时间长度。具体地,人工智能系统可以根据处理语音信息的内存大小计算该处理语音信息对应的时间长度。
子步骤2022,判断所述时间长度是否大于预设时间长度。
在本实施例中,获取了处理语音信息的时间长度后,可以比较该时间长度与预设时间长度。由于人工智能系统获取的语音信息可能只能用户具体指令信息,当该具体的指令信息并不包含唤醒词,或者环境声音对应的语音信息等等各种不包含唤醒词或唤醒文本信息的语音信息,又或者是简短的触发信息。
具体地,该预设时间长度可以是唤醒词或唤醒文本对应的音频数据的时间长度。若时间长度太短,可以确定获取语音信息并不可能包含唤醒词或唤醒文本。通过判断该语音信息的时间长度,可以确定该语音信息是否包含唤醒词。
本实施例中通过判断语音时间长度可以快速有效地判断该语音信息是包含唤醒词,或唤醒文本或唤醒信息,从而可以快速根据语音信息进行语音唤醒。
子步骤2023,当所述时间长度大于预测时间长度时,则获取所述处理语音信息的共振峰与基频。
在本实施例中,共振峰是在声音的频谱中能量相对集中的一些区域。基频是基音的频率。
具体地,可以获取语音信息对应的语音波形。在实际操作中,可以在人工智能系统中设置数字模拟转换模块,可以将语音信息从数字信号转换为模拟信号,再通过傅里叶波形变换,将语音信号转换成对应的语音波形,再从语音波形中获取共振峰与基频。
具体地,获取共振峰可以用于判断是否包含唤醒词。共振峰是波形中的集中区域,用户设置的语音唤醒词中,在波形中会形成对应的集中区域,可以判断语音唤醒词在波形中形成的集中区域与获取的语音信息在波形的形成的集中区域是否相同,若相同,可以判断该语音信息包含唤醒词,若不相同,可以判断该语音新不保护唤醒词。
相应地,也可以采用基频进行判断,判断与共振峰相同,可以参照上述步骤,在此不再赘述。
步骤203,确定所述声学特征与预存数据库的特征是否相同。
在本实施例中,声学特征可以是波形特征,具体地,波形特征可以是幅值、周期、波长、分贝、声功率、声强基频、共振峰等波形特征。预存数据库的特征可以是用户预存在预设数据库中的幅值、周期、波长、分贝、声功率、声强基频、共振峰等波形特征。
在实际操作中,预存数据库的特征可以是用户根据实际的唤醒词对应的波形特征。
若语音信息中包含唤醒词信息,则该语音信息可以包含该唤醒词对应的波形信息。通过声学特征可以快速判断该语音信息是否包含唤醒词,可以提高唤醒词和唤醒信息的判断效率,也可以提高判断的准确性。
步骤204,若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息。
在本实施例中,当声学特征与预存数据库的声学特征相同时,可以确定该语音信息中可能包含唤醒信息或者唤醒字词。
在实际操作中,可以从语音信息中获取对应的文本信息,可以判断该文本信息是否包含唤醒信息。若包含唤醒信息可以唤醒该人工智能系统,若不包含可以不唤醒。
在其中一种实施例中,所述唤醒信息包括唤醒字词和语音间隙。
该唤醒字词可以是唤醒该人工智能系统的唤醒文本信息,例如:你好助手,你好小智,你好小能等类似的唤醒文本信息。该语音间隙可以是字词与字词间的语音空白间隔,例如,“你好”在你好两字中间的语音空白间隙。
可选地,步骤204可以包括以下子步骤:
子步骤2041,识别所述语音信息的语音字词;
在本实施例中,当判断该语音信息中可能包含唤醒字词时,可以获取该语音信息中的语音字词。
具体地,可以在人工智能系统中设置音素神经网络模型和语言神经网络模型从语音信息中获取唤醒字词。
在实际操作中,音素神经网络模型可以从语音信息中获取音素,将音素发送至语言神经网络模型,语言神经网络模型可以利用音素获取对应的文字。
可以采用音素神经网络模型将声学特征转换为音素阵列;需说明的是,音素(phoneme)是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素,音素分为元音、辅音两大类,如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。
而语言神经网络模型可以将音素阵列进一步转换为文字序列,完成对语音数据的识别工作。而在实际操作中,语言神经网络模型的训练方式可以不作限定,例如其可以是直接利用音素和对应的语言文字序列进行训练,当然也可以是利用预设的识别函数进行计算训练,且都属于本发明的保护范围内。以及,关于音素神经网络模型的训练方法,可以是采用用户预设的计算函数或相关技术的训练方法。
子步骤2042,判断所述语音字词是否包含多个唤醒字词;
在本实施例中,当获取了唤醒字词后,人工智能系统可以判断是否包含多个唤醒字词。在实际使用过程中,用户可能会重复对人工智能系统发送多个唤醒字词,或者多个唤醒字词中间存在语音间隙,而被误认为是唤醒的,例如,“缓刑缓刑”被识别为“唤醒唤醒”。可以通过判断是否包含多个唤醒字词,可以减少出错的概率。
子步骤2043,若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
在本实施例中,当确定多个唤醒字词时,可以识别各个唤醒字词中是否包含语音间隙,若不包含语音间隙,可以确定该语音字词是唤醒字词。在实际的使用过程中,当唤醒字词中包含语音间隙,容易使得唤醒字词与唤醒字词的意思不同,而出现了误唤醒。
例如唤醒字词为“你好小智”,而获取的唤醒字词为“你好小只”,是形容该人工智能系统小巧,却误认为“你好小智”而被唤醒。可以通过判断该是否出现语音间隙,可以减少出错的概率。
步骤205,若所述处理语音信息包含唤醒信息,则执行唤醒操作。
在本实施例中,当处理语音信息包含唤醒信息时,可以确定用户希望唤醒该人工智能系统,可以根据唤醒信息执行对应的唤醒操作。
可选地,步骤205可以包括以下子步骤:
子步骤2051,若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
在本实施例中,当多个唤醒字词中不存在语音间隙时,可以确定多个唤醒字词是相互之间连续的,可以确定该处理语音信息包含唤醒信息,人工智能系统可以根据唤醒信息执行对应的唤醒操作。
在本实施例中,所述方法还可以包括:
步骤206,生成操作结果,并将所述操作结果发送至用户。
在本实施例中,人工智能系统在执行了唤醒操作后,可以生成操作结果,例如,声音提示,视频提示,动作提示等等。在生成了操作结果后可以将操作结果发送给用户,例如,可以将声音提示发送给用户,用户可以根据声音提示执行对应的操作。可以提高用户的使用体验。
在本发明优选的实施例中,提出了一种系统唤醒方法,该方法可以当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;获取所述处理语音信息的声学特征;确定所述声学特征与预存数据库的特征是否相同;若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;若所述处理语音信息包含唤醒信息,则执行唤醒操作,最后生成操作结果,并将所述操作结果发送至用户。本实施例提出的系统唤醒方法,操作简便,可以从语音数据中提取出不同的声学特征,并利用不同的声学特征快速识别唤醒字词,可以提高识别准确率,同时在识别过程中的计算量小,也降低了系统功耗,而且可以降低误识别的概率,也提高了人工智能系统识别的准确度,提高用户的使用体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的系统唤醒装置实施例一的结构示意图,在本实施例中,该装置可以应用于人工智能系统,所述装置包括:
预处理模块301,用于当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
获取模块302,用于获取所述处理语音信息的声学特征;
确定模块303,用于确定所述声学特征与预存数据库的特征是否相同;
判断模块304,用于若所述声学特征与预存数据库的特征相同,则判断所述处理语音信息是否包含唤醒信息;
执行模块305,用于若所述处理语音信息包含唤醒信息,则执行唤醒操作。
可选地,所述声学特征包括:时间长度、共振峰和基频;所述获取模块,包括:
获取时间模块,用于获取所述处理语音信息的时间长度;
判断时间模块,用于判断所述时间长度是否大于预设时间长度;
获取信息模块,用于若所述时间长度大于预测时间长度,则获取所述处理语音信息的共振峰与基频。
可选地,所述唤醒信息包括唤醒字词和语音间隙,所述判断模块包括:
识别模块,用于识别所述语音信息的语音字词;
判断字词模块,用于判断所述语音字词是否包含多个唤醒字词;
判断空格模块,用于若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
所述执行模块,包括:
唤醒操作模块,用于若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
可选地,所述预处理模块,包括:
滤波模块,用于对所述语音信息进行高通滤波,得到滤波信息;
抑制模块,用于对所述滤波信息进行噪声抑制,得到抑制信息;
增益模块,用于对所述抑制信息进行自动增益处理,得到处理语音信息。
可选地,所述装置还可以包括:
生成模块,用于生成操作结果,并将所述操作结果发送至用户。
在本发明其中一种实施例中,提出了一种系统唤醒装置,该装置可以应用于人工智能系统,所述装置包括:预处理模块301,用于当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;获取模块302,用于获取所述处理语音信息的声学特征;确定模块303,用于确定所述声学特征与预存数据库的特征是否相同;判断模块304,用于若所述声学特征与预存数据库的特征相同,则判断所述处理语音信息是否包含唤醒信息;执行模块305,用于若所述处理语音信息包含唤醒信息,则执行唤醒操作。本实施例提出的系统唤醒装置,操作简便,可以从语音数据中提取出不同的声学特征,并利用不同的声学特征快速识别唤醒字词,可以提高识别准确率,同时在识别过程中的计算量小,也降低了系统功耗,而且可以降低误识别的概率,也提高了人工智能系统识别的准确度,提高用户的使用体验。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例还提供了一种装置,包括:
包括一个或多个处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的机器可读介质,该机器可读介质被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种系统唤醒方法和一种系统唤醒装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种系统唤醒方法,其特征在于,应用于人工智能系统,所述方法包括:
当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
获取所述处理语音信息的声学特征;
确定所述声学特征与预存数据库的特征是否相同;
若所述声学特征与预存数据库的声学特征相同,则判断所述处理语音信息是否包含唤醒信息;
若所述处理语音信息包含唤醒信息,则执行唤醒操作;
其中,所述唤醒信息包括唤醒字词和语音间隙,所述判断所述处理语音信息是否包含唤醒信息,包括:
识别所述语音信息的语音字词;
判断所述语音字词是否包含多个唤醒字词;
若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
所述若所述处理语音信息包含唤醒信息,则执行唤醒操作,包括:
若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
2.根据权利要求1所述的方法,其特征在于,所述声学特征包括:时间长度、共振峰和基频;所述获取所述处理语音信息的声学特征,包括:
获取所述处理语音信息的时间长度;
判断所述时间长度是否大于预设时间长度;
当所述时间长度大于预测时间长度时,则获取所述处理语音信息的共振峰与基频。
3.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行预处理,包括:
对所述语音信息进行高通滤波,得到滤波信息;
对所述滤波信息进行噪声抑制,得到抑制信息;
对所述抑制信息进行自动增益处理,得到处理语音信息。
4.一种系统唤醒装置,其特征在于,应用于人工智能系统,所述装置包括:
预处理模块,用于当所述人工智能系统处于休眠模式时接收语音信息,并对所述语音信息进行预处理,得到处理语音信息;
获取模块,用于获取所述处理语音信息的声学特征;
确定模块,用于确定所述声学特征与预存数据库的特征是否相同;
判断模块,用于若所述声学特征与预存数据库的特征相同,则判断所述处理语音信息是否包含唤醒信息;
执行模块,用于若所述处理语音信息包含唤醒信息,则执行唤醒操作;
其中,所述唤醒信息包括唤醒字词和语音间隙,所述判断模块包括:
识别模块,用于识别所述语音信息的语音字词;
判断字词模块,用于判断所述语音字词是否包含多个唤醒字词;
判断空格模块,用于若所述语音字词包含多个唤醒字词,则判断所述多个唤醒字词相互之间是否存在语音间隙;
所述执行模块,包括:
唤醒操作模块,用于若所述多个唤醒字词相互之间不存在语音间隙,则确定所述处理语音信息包含唤醒信息,并执行唤醒操作。
5.根据权利要求4所述的装置,其特征在于,所述声学特征包括:时间长度、共振峰和基频;所述获取模块,包括:
获取时间模块,用于获取所述处理语音信息的时间长度;
判断时间模块,用于判断所述时间长度是否大于预设时间长度;
获取信息模块,用于若所述时间长度大于预测时间长度,则获取所述处理语音信息的共振峰与基频。
6.根据权利要求4所述的装置,其特征在于,所述预处理模块,包括:
滤波模块,用于对所述语音信息进行高通滤波,得到滤波信息;
抑制模块,用于对所述滤波信息进行噪声抑制,得到抑制信息;
增益模块,用于对所述抑制信息进行自动增益处理,得到处理语音信息。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1至3任一项所述方法。
8.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至3任一项所述方法。
CN201911414856.2A 2019-12-31 2019-12-31 一种系统唤醒方法及装置 Active CN111192588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911414856.2A CN111192588B (zh) 2019-12-31 2019-12-31 一种系统唤醒方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911414856.2A CN111192588B (zh) 2019-12-31 2019-12-31 一种系统唤醒方法及装置

Publications (2)

Publication Number Publication Date
CN111192588A CN111192588A (zh) 2020-05-22
CN111192588B true CN111192588B (zh) 2022-09-09

Family

ID=70709658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911414856.2A Active CN111192588B (zh) 2019-12-31 2019-12-31 一种系统唤醒方法及装置

Country Status (1)

Country Link
CN (1) CN111192588B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192588B (zh) * 2019-12-31 2022-09-09 深圳市瑞讯云技术有限公司 一种系统唤醒方法及装置
CN111951802A (zh) * 2020-08-10 2020-11-17 山东金东数字创意股份有限公司 基于ai语音识别的可视化表现系统和方法
CN115881126B (zh) * 2023-02-22 2023-05-05 广东浩博特科技股份有限公司 基于语音识别的开关控制方法、装置和开关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
CN105812573A (zh) * 2016-04-28 2016-07-27 努比亚技术有限公司 一种语音处理方法及移动终端
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106331603A (zh) * 2016-08-18 2017-01-11 深圳市瑞讯云技术有限公司 视频监控方法、装置、服务器及系统
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN111192588A (zh) * 2019-12-31 2020-05-22 深圳市瑞讯云技术有限公司 一种系统唤醒方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731941B2 (en) * 2011-08-29 2014-05-20 Zanavox Voice-activated measurement system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
CN105812573A (zh) * 2016-04-28 2016-07-27 努比亚技术有限公司 一种语音处理方法及移动终端
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106331603A (zh) * 2016-08-18 2017-01-11 深圳市瑞讯云技术有限公司 视频监控方法、装置、服务器及系统
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN109378000A (zh) * 2018-12-19 2019-02-22 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN111192588A (zh) * 2019-12-31 2020-05-22 深圳市瑞讯云技术有限公司 一种系统唤醒方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Wilson M. Tan,等.Determination of Maximum Supportable Receiver Wakeup Intervals in Energy Harvesting WSN Nodes Using a Client-Server Setup.《2013 IEEE Conference on Wireless Sensors (ICWiSe2013)》.2013,第61-67页. *
吕勇,等.时间间隔对面部表情唤醒度阈下情绪启动的影响.《心理科学》.2014,第48-52页. *

Also Published As

Publication number Publication date
CN111192588A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111192588B (zh) 一种系统唤醒方法及装置
CN108010515B (zh) 一种语音端点检测和唤醒方法及装置
CN107704275B (zh) 智能设备唤醒方法、装置、服务器及智能设备
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
JP4166153B2 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
US20220215853A1 (en) Audio signal processing method, model training method, and related apparatus
DE112021001064T5 (de) Vorrichtungsgerichtete Äußerungserkennung
CN111312222B (zh) 一种唤醒、语音识别模型训练方法及装置
CN110473536B (zh) 一种唤醒方法、装置和智能设备
US20190348032A1 (en) Methods and apparatus for asr with embedded noise reduction
CN112700782A (zh) 语音处理方法和电子设备
CN111292737A (zh) 语音交互及语音唤醒检测方法、装置、设备及存储介质
CN108074581A (zh) 用于人机交互智能终端的控制系统
CN108509225B (zh) 一种信息处理方法及电子设备
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN113744730B (zh) 声音检测方法及装置
CN114944153A (zh) 一种物联网终端增强唤醒方法、装置及存储介质
JP2023553451A (ja) 検出のシーケンスに基づいたホットフレーズトリガ
US10236000B2 (en) Circuit and method for speech recognition
US11763806B1 (en) Speaker recognition adaptation
CN111210811B (zh) 一种基音混合方法及装置
US11620990B2 (en) Adapting automated speech recognition parameters based on hotword properties
US11183179B2 (en) Method and apparatus for multiway speech recognition in noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant