CN111429901B - 一种面向IoT芯片的多级语音智能唤醒方法及系统 - Google Patents

一种面向IoT芯片的多级语音智能唤醒方法及系统 Download PDF

Info

Publication number
CN111429901B
CN111429901B CN202010182110.XA CN202010182110A CN111429901B CN 111429901 B CN111429901 B CN 111429901B CN 202010182110 A CN202010182110 A CN 202010182110A CN 111429901 B CN111429901 B CN 111429901B
Authority
CN
China
Prior art keywords
voice
phoneme
awakening
preset condition
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010182110.XA
Other languages
English (en)
Other versions
CN111429901A (zh
Inventor
朱海周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010182110.XA priority Critical patent/CN111429901B/zh
Publication of CN111429901A publication Critical patent/CN111429901A/zh
Application granted granted Critical
Publication of CN111429901B publication Critical patent/CN111429901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种面向IoT芯片的多级语音智能唤醒方法及系统,其中方法包括:步骤S1:当获取到待处理语音时;步骤S2:判断待处理语音是否符合第一预设条件;当待处理语音符合第一预设条件时,执行步骤S3;否则,结束唤醒;步骤S3:判断符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,执行步骤S4;否则,结束唤醒;步骤S4:判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件;当符合时,执行步骤S5;否则,结束唤醒;步骤S5:全面唤醒IoT芯片。本发明提供的面向IoT芯片的多级语音智能唤醒方法,将唤醒系统进行分级,采用逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。

Description

一种面向IoT芯片的多级语音智能唤醒方法及系统
技术领域
本发明涉及与唤醒技术领域,特别涉及一种面向IoT芯片的多级语音智能唤醒方法及系统。
背景技术
目前,按照芯片的启动流程,一般将IoT芯片分为两个大的电源域,第一个电源域是唤醒系统,第二个电源域是芯片中除唤醒系统以外的所有其他部分。从芯片上电开始,芯片的唤醒系统就开始工作,此时有且仅有第一个电源域有电。只有当唤醒系统检测通过之后才会给第二个电源域上电,从而使整颗芯片处于工作状态。
现有IoT芯片的唤醒系统仅仅包含能量检测技术,即检测到声音超过某个能量阈值时,会启动整颗芯片进行声音识别,而此时输入的声音可能不是人声或者是人声但不是该设备的唤醒词,这两种情况下均会导致整颗芯片被误唤醒,且实际应用时这两种情况出现的概率很高,从而导致芯片的整体功耗较高。
发明内容
本发明提供一种面向IoT芯片的多级语音智能唤醒方法,将唤醒系统进行分级,采用逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
本发明实施例提供一种面向IoT芯片的多级语音智能唤醒方法,包括:
步骤S1:当获取到待处理语音时,执行步骤S2;
步骤S2:判断待处理语音是否符合第一预设条件;当待处理语音符合第一预设条件时,执行步骤S3;否则,结束唤醒;
步骤S3:判断符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,执行步骤S4;否则,结束唤醒;
步骤S4:判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件;当符合时,执行步骤S5;否则,结束唤醒;
步骤S5:全面唤醒IoT芯片。
优选的,第一预设条件为待处理语音的能量大于预设值;此时,步骤S2包括如下操作:
步骤S21:计算待处理语音的短时能量值;
步骤S22:判断短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,执行步骤S3;当小于等于时,为不符合第一预设条件,结束唤醒。
优选的,第二预设条件为人声;此时,步骤S3包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取第一语音的特征值;
步骤S33:将特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定第一语音符合是人声,执行步骤S4;否则,结束唤醒。
优选的,第三预设条件为包含唤醒词;此时,步骤S4包括如下操作:
步骤S41:获取符合第一预设条件且符合第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将第二语音转换为语音数据;
步骤S43:当语音数据中包含的音素的数目小于唤醒词的音素的数目时,结束唤醒;当音素的数目大于等于唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取语音数据的音素阵列;获取唤醒词的音素阵列;
步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列;
步骤S46:当包含时,执行步骤S5;否则,结束唤醒。
优选的,步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列,具体包括:
将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第一个音素对应;将唤醒词的音素阵列中第一个音素后续的每一个音素与语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个匹配值;
当多个匹配值中存在一个匹配值大于等于预设匹配值,则判定语音数据的音素阵列包含唤醒词的音素阵列;当多个匹配值都小于预设匹配值时,则判定语音数据的音素阵列不包含唤醒词的音素阵列。
本发明还提供一种面向IoT芯片的多级语音智能唤醒系统包括:
语音获取模块,用于获取待处理语音
第一唤醒模块,用于判断待处理语音是否符合第一预设条件;当待处理语音符合第一预设条件时,唤醒第二唤醒模块;否则,结束唤醒;
第二唤醒模块,用于判断符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,唤醒第三唤醒模块;否则,结束唤醒;
第三唤醒模块,用于判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件;当符合时,唤醒IoT芯片;否则,结束唤醒。
优选的,第一预设条件为待处理语音的能量大于预设值;第一唤醒模块执行包括如下操作:
步骤S21:计算待处理语音的短时能量值;
步骤S22:判断短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,唤醒第二唤醒模块;当小于等于时,为不符合第一预设条件,结束唤醒。
优选的,第二预设条件为人声;第二唤醒模块执行包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取第一语音的特征值;
步骤S33:将特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定第一语音符合是人声,唤醒第三唤醒模块;否则,结束唤醒。
优选的,第三预设条件为包含唤醒词;第三唤醒模块执行包括如下操作:
步骤S41:获取符合第一预设条件且符合第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将第二语音转换为语音数据;
步骤S43:当语音数据中包含的音素的数目小于唤醒词的音素的数目时,结束唤醒;当音素的数目大于等于唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取语音数据的音素阵列;获取唤醒词的音素阵列;
步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列;
步骤S46:当包含时,唤醒IoT芯片;否则,结束唤醒。
优选的,步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列,具体包括:
将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第一个音素对应;将唤醒词的音素阵列中第一个音素后续的每一个音素与语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个匹配值;
当多个匹配值中存在一个匹配值大于等于预设匹配值,则判定语音数据的音素阵列包含唤醒词的音素阵列;当多个匹配值都小于预设匹配值时,则判定语音数据的音素阵列不包含唤醒词的音素阵列。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种面向IoT芯片的多级语音智能唤醒方法的示意图;
图2为本发明实施例中一种面向IoT芯片的多级语音智能唤醒系统的示意图;
图3为本发明实施例中又一种面向IoT芯片的多级语音智能唤醒方法的示意图。
图中:
1、语音获取模块;2、第一唤醒模块;3、第二唤醒模块;4、第三唤醒模块。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种面向IoT芯片的多级语音智能唤醒方法,如图1所示,包括:
步骤S1:当获取到待处理语音时,执行步骤S2;
步骤S2:判断待处理语音是否符合第一预设条件;
当待处理语音符合第一预设条件时,执行步骤S3;否则,结束唤醒;
步骤S3:判断符合第一预设条件的待处理语音是否符合第二预设条件;
当符合时,执行步骤S4;否则,结束唤醒;
步骤S4:判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件;
当符合时,执行步骤S5;否则,结束唤醒;
步骤S5:全面唤醒IoT芯片。
上述技术方案的工作原理及有益效果为:
将IoT芯片分为四个电源域,第一个电源域为执行步骤S2的区域,第二个电源域为执行步骤S3的区域,第三个电源域为执行步骤S4的区域,前三个电源域对应现有技术中的第一电源域【唤醒系统】;第四个电源域为芯片中执行步骤S2、步骤S3和步骤S4以外的所有其他部分【对应现有技术中的第二电源域】;
从芯片上电开始,芯片的唤醒功能就开始工作,此时有且仅有第一个电源域有电;此时为第一级检测,当待处理语音符合第一预设条件时,第二电源域才会被上电。当第二电源域上电后此时有且仅有第一个和第二个电源域有电;可进行第二级检测,当待处理语音符合第二预设条件时,第三电源域才会被上电。当第三电源域上电后此时有且仅有第一、二和三个电源域有电;可进行第三级检测,当待处理语音符合第三预设条件时,第四电源域被上电。当第四电源域被上电后,此时,芯片的所有电源域全部被上电。这种逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
本发明提供的面向IoT芯片的多级语音智能唤醒方法,将唤醒系统进行分级,采用逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,第一预设条件为待处理语音的能量大于预设值;此时,步骤S2包括如下操作:
步骤S21:计算待处理语音的短时能量值;
步骤S22:判断短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,执行步骤S3;当小于等于时,为不符合第一预设条件,结束唤醒。
上述技术方案的工作原理及有益效果为:
唤醒系统的第一级检测主要是对待处理语音的短时能量值进行检测,当其大于预设能量值时才会唤醒第二电源域,避免距离过远或者细微声音导致的误唤醒判断,从而降低整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,第二预设条件为人声;此时,步骤S3包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取第一语音的特征值;
步骤S33:将特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定第一语音符合是人声,执行步骤S4;否则,结束唤醒。
上述技术方案的工作原理及有益效果为:
第二级检测为人声的检测,即只有待处理语音为人声时才会唤醒第三级电源域,避免了动物、敲击等其他物体或动作发出的声音而引起的误唤醒判断,从而降低整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,第三预设条件为包含唤醒词;此时,步骤S4包括如下操作:
步骤S41:获取符合第一预设条件且符合第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将第二语音转换为语音数据;
步骤S43:当语音数据中包含的音素的数目小于唤醒词的音素的数目时,结束唤醒;当音素的数目大于等于唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取语音数据的音素阵列;获取唤醒词的音素阵列;
步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列;
步骤S46:当包含时,执行步骤S5;否则,结束唤醒。
上述技术方案的工作原理及有益效果为:
声音都是由各个音素【音节】组成;音素阵列是一段语音数据中各个音素依次排列组成的数组;第一个音素就是排在音素阵列的数组的第一位的音素,即声音或语音的第一个音节。
第三级检测为判断是否包含唤醒词,即只有待处理语音包含唤醒词时才会唤醒第四级电源域,采用唤醒机制,从而极大的降低了芯片的整体功耗。在第三级检测时,先判断音素数目是否达到唤醒词包含的音素数目,提高判断效率。
在一个实施例中,步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列,具体包括:
将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第一个音素对应;将唤醒词的音素阵列中第一个音素后续的每一个音素与语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个匹配值;
当多个匹配值中存在一个匹配值大于等于预设匹配值,则判定语音数据的音素阵列包含唤醒词的音素阵列;当多个匹配值都小于预设匹配值时,则判定语音数据的音素阵列不包含唤醒词的音素阵列。
上述技术方案的工作原理及有益效果为:
通过上述滑动相关检测,保证检测结果的准确性,从而有效避免唤醒误判,从而降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,如图3所示,接收声音信号【待处理语音】;第一级检测为能量检测,第一预设条件为能量【短时能量】大于预设能量值。第二级检测为人声检测,第二预设条件为是人声。第三级检测为唤醒词检测,第三预设条件为包含唤醒词。只用通过上述三层检测后才能全面启动芯片。
此外,例如第一个到第四个电源域的平均功耗分别为13mW,22mW,37mW,135mW,在此基础上对比和分析IoT芯片的功耗情况。
Figure SMS_1
从表中可以看出,误唤醒次数明显降低,从而极大的降低了芯片的整体功耗。
本发明还提供一种面向IoT芯片的多级语音智能唤醒系统包括:
语音获取模块1,用于获取待处理语音
第一唤醒模块2,用于判断待处理语音是否符合第一预设条件;当待处理语音符合第一预设条件时,唤醒第二唤醒模块3;否则,结束唤醒;
第二唤醒模块3,用于判断符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,唤醒第三唤醒模块4;否则,结束唤醒;
第三唤醒模块4,用于判断符合第一预设条件且符合第二预设条件的待处理语音是否符合第三预设条件;当符合时,唤醒IoT芯片;否则,结束唤醒。
上述技术方案的工作原理及有益效果为:
将IoT芯片分为四个电源域,第一个电源域为语音获取模块1和第一唤醒模块2供电的区域,第二个电源域为第二唤醒模块3供电的区域,第三个电源域为第三唤醒模块4供电的区域,前三个电源域对应现有技术中的第一电源域【唤醒系统】;第四个电源域为芯片中除了语音获取模块1、第一唤醒模块2、第二唤醒模块3和第三唤醒模块4以外的所有其他部分【对应现有技术中的第二电源域】;
从芯片上电开始,芯片的唤醒功能就开始工作,此时有且仅有第一个电源域有电;此时为语音获取模块1和第一唤醒模块2,第一唤醒模块2判断当待处理语音符合第一预设条件时,第二电源域才会被上电。当第二电源域上电后此时有且仅有第一个和第二个电源域有电;第二唤醒模块3工作,当待处理语音符合第二预设条件时,第三电源域才会被上电。当第三电源域上电后此时有且仅有第一、二和三个电源域有电;第三唤醒模块4工作,当待处理语音符合第三预设条件时,第四电源域被上电。当第四电源域被上电后,此时,芯片的所有电源域全部被上电。这种逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
本发明的面向IoT芯片的多级语音智能唤醒系统,将唤醒系统进行分级,采用逐级唤醒和逐级上电机制,降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,第一预设条件为待处理语音的能量大于预设值;第一唤醒模块2执行包括如下操作:
步骤S21:计算待处理语音的短时能量值;
步骤S22:判断短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,唤醒第二唤醒模块3;当小于等于时,为不符合第一预设条件,结束唤醒。
上述技术方案的工作原理及有益效果为:
唤醒系统的第一唤醒模块2主要是对待处理语音的短时能量值进行检测,当其大于预设能量值时才会唤醒第二唤醒模块3,避免距离过远或者细微声音导致的误唤醒判断,从而降低整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗
在一个实施例中,第二预设条件为人声;第二唤醒模块3执行包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取第一语音的特征值;
步骤S33:将特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定第一语音符合是人声,唤醒第三唤醒模块4;否则,结束唤醒。
上述技术方案的工作原理及有益效果为:
第二唤醒模块3为人声的检测,即只有待处理语音为人声时才会唤醒第三唤醒模块4,避免了动物、敲击等其他物体或动作发出的声音而引起的误唤醒判断,从而降低整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
在一个实施例中,第三预设条件为包含唤醒词;第三唤醒模块4执行包括如下操作:
步骤S41:获取符合第一预设条件且符合第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将第二语音转换为语音数据;
步骤S43:当语音数据中包含的音素的数目小于唤醒词的音素的数目时,结束唤醒;当音素的数目大于等于唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取语音数据的音素阵列;获取唤醒词的音素阵列;
步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列;
步骤S46:当包含时,唤醒IoT芯片;否则,结束唤醒。
上述技术方案的工作原理及有益效果为:
第三唤醒模块4为判断是否包含唤醒词,即只有待处理语音包含唤醒词时才会唤醒第四级电源域,采用唤醒机制,从而极大的降低了芯片的整体功耗。在第三级检测时,先判断音素数目是否达到唤醒词包含的音素数目,提高判断效率。
在一个实施例中,步骤S45:将唤醒词的音素阵列与语音数据的音素阵列做滑动相关检测,检测语音数据的音素阵列是否包含唤醒词的音素阵列,具体包括:
将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第一个音素对应;将唤醒词的音素阵列中第一个音素后续的每一个音素与语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个匹配值;
当多个匹配值中存在一个匹配值大于等于预设匹配值,则判定语音数据的音素阵列包含唤醒词的音素阵列;当多个匹配值都小于预设匹配值时,则判定语音数据的音素阵列不包含唤醒词的音素阵列。
上述技术方案的工作原理及有益效果为:
通过上述滑动相关检测,保证检测结果的准确性,从而有效避免唤醒误判,从而降低了整个芯片的误唤醒率,从而极大的降低了芯片的整体功耗。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种面向IoT芯片的多级语音智能唤醒方法,其特征在于,包括:
步骤S1:当获取到待处理语音时,执行步骤S2;
步骤S2:判断所述待处理语音是否符合第一预设条件;当所述待处理语音符合所述第一预设条件时,执行步骤S3;否则,结束唤醒;
步骤S3:判断所述符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,执行步骤S4;否则,结束唤醒;
步骤S4:判断所述符合第一预设条件且符合所述第二预设条件的待处理语音是否符合第三预设条件;当符合时,执行步骤S5;否则,结束唤醒;
步骤S5:全面唤醒IoT芯片;
其中,所述第三预设条件为包含唤醒词;此时,步骤S4包括如下操作:
步骤S41:获取符合所述第一预设条件且符合所述第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将所述第二语音转换为语音数据;
步骤S43:当所述语音数据中包含的音素的数目小于所述唤醒词的音素的数目时,结束唤醒;当所述音素的数目大于等于所述唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取所述语音数据的音素阵列;获取所述唤醒词的音素阵列;
步骤S45:将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测,检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列;
步骤S46:当包含时,执行步骤S5;否则,结束唤醒;
其中,所述步骤S45:将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测,检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列,具体包括:
将所述唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第一个音素对应;将所述唤醒词的音素阵列中第一个音素后续的每一个音素与所述语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个所述匹配值;
当多个所述匹配值中存在一个所述匹配值大于等于预设匹配值,则判定所述语音数据的音素阵列包含所述唤醒词的音素阵列;当多个所述匹配值都小于预设匹配值时,则判定所述语音数据的音素阵列不包含所述唤醒词的音素阵列。
2.如权利要求1所述的面向IoT芯片的多级语音智能唤醒方法,其特征在于,所述第一预设条件为所述待处理语音的能量大于预设值;此时,步骤S2包括如下操作:
步骤S21:计算所述待处理语音的短时能量值;
步骤S22:判断所述短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,执行步骤S3;当小于等于时,为不符合第一预设条件,结束唤醒。
3.如权利要求1所述的面向IoT芯片的多级语音智能唤醒方法,其特征在于,所述第二预设条件为人声;此时,步骤S3包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取所述第一语音的特征值;
步骤S33:将所述特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定所述第一语音符合是人声,执行步骤S4;否则,结束唤醒。
4.一种面向IoT芯片的多级语音智能唤醒系统,其特征在于,包括:
语音获取模块(1),用于获取待处理语音
第一唤醒模块(2),用于判断所述待处理语音是否符合第一预设条件;当所述待处理语音符合所述第一预设条件时,唤醒第二唤醒模块(3);否则,结束唤醒;
所述第二唤醒模块(3),用于判断所述符合第一预设条件的待处理语音是否符合第二预设条件;当符合时,唤醒第三唤醒模块(4);否则,结束唤醒;
所述第三唤醒模块(4),用于判断所述符合第一预设条件且符合所述第二预设条件的待处理语音是否符合第三预设条件;当符合时,唤醒IoT芯片;否则,结束唤醒;
其中,所述第三预设条件为包含唤醒词;所述第三唤醒模块(4)执行包括如下操作:
步骤S41:获取符合所述第一预设条件且符合所述第二预设条件的待处理语音为第二语音;
步骤S42:基于自动语音识别技术将所述第二语音转换为语音数据;
步骤S43:当所述语音数据中包含的音素的数目小于所述唤醒词的音素的数目时,结束唤醒;当所述音素的数目大于等于所述唤醒词的音素的数目时,执行步骤S44;
步骤S44:获取所述语音数据的音素阵列;获取所述唤醒词的音素阵列;
步骤S45:将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测,检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列;
步骤S46:当包含时,唤醒IoT芯片;否则,结束唤醒;
其中,所述步骤S45:将所述唤醒词的音素阵列与所述语音数据的音素阵列做滑动相关检测,检测所述语音数据的音素阵列是否包含所述唤醒词的音素阵列,具体包括:
将所述唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第一个音素对应;将所述唤醒词的音素阵列中第一个音素后续的每一个音素与所述语音数据的音素阵列中的第一个音素后续的每一个音素进行一一对应,确定该对应关系的匹配值;
然后,依次将唤醒词的音素阵列中第一个音素与所述语音数据的音素阵列中的第二个音素、第三个音素直至最后一个音素进行对应,确定出多个所述匹配值;
当多个所述匹配值中存在一个所述匹配值大于等于预设匹配值,则判定所述语音数据的音素阵列包含所述唤醒词的音素阵列;当多个所述匹配值都小于预设匹配值时,则判定所述语音数据的音素阵列不包含所述唤醒词的音素阵列。
5.如权利要求4所述的面向IoT芯片的多级语音智能唤醒系统,其特征在于,所述第一预设条件为所述待处理语音的能量大于预设值;所述第一唤醒模块(2)执行包括如下操作:
步骤S21:计算所述待处理语音的短时能量值;
步骤S22:判断所述短时能量值是否大于预设能量值,当大于时,为符合第一预设条件,唤醒所述第二唤醒模块(3);当小于等于时,为不符合第一预设条件,结束唤醒。
6.如权利要求4所述的面向IoT芯片的多级语音智能唤醒系统,其特征在于,所述第二预设条件为人声;所述第二唤醒模块(3)执行包括如下操作:
步骤S31:获取符合第一预设条件的待处理语音为第一语音;
步骤S32:提取所述第一语音的特征值;
步骤S33:将所述特征值与预先存储的对应人声的特征值进行匹配,当匹配符合时,确定所述第一语音符合是人声,唤醒第三唤醒模块(4);否则,结束唤醒。
CN202010182110.XA 2020-03-16 2020-03-16 一种面向IoT芯片的多级语音智能唤醒方法及系统 Active CN111429901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182110.XA CN111429901B (zh) 2020-03-16 2020-03-16 一种面向IoT芯片的多级语音智能唤醒方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182110.XA CN111429901B (zh) 2020-03-16 2020-03-16 一种面向IoT芯片的多级语音智能唤醒方法及系统

Publications (2)

Publication Number Publication Date
CN111429901A CN111429901A (zh) 2020-07-17
CN111429901B true CN111429901B (zh) 2023-03-21

Family

ID=71553548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182110.XA Active CN111429901B (zh) 2020-03-16 2020-03-16 一种面向IoT芯片的多级语音智能唤醒方法及系统

Country Status (1)

Country Link
CN (1) CN111429901B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002320A (zh) * 2020-08-10 2020-11-27 北京小米移动软件有限公司 语音唤醒方法、装置、电子设备和存储介质
CN114333854A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 语音唤醒方法、电子设备及芯片系统
CN113808585A (zh) * 2021-08-16 2021-12-17 百度在线网络技术(北京)有限公司 耳机唤醒方法、装置、设备以及存储介质
CN117153166A (zh) * 2022-07-18 2023-12-01 荣耀终端有限公司 语音唤醒方法、设备及存储介质
CN117992128A (zh) * 2022-11-03 2024-05-07 华为技术有限公司 一种唤醒方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271690A (zh) * 2008-05-09 2008-09-24 中国人民解放军重庆通信学院 保护音频数据的音频扩频水印处理方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
US20160299623A1 (en) * 2012-04-20 2016-10-13 Ambit Microsystems (Shanghai) Ltd Text input method
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
CN105009202B (zh) * 2013-01-04 2019-05-07 寇平公司 分为两部分的语音识别
CN105374352B (zh) * 2014-08-22 2019-06-18 中国科学院声学研究所 一种语音激活方法及系统
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN107223280B (zh) * 2017-03-03 2021-01-08 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107969055A (zh) * 2017-08-03 2018-04-27 南京邮电大学盐城大数据研究院有限公司 一种选频电路触发多级多词语音唤醒控制灯具的方法
CN108122556B (zh) * 2017-08-08 2021-09-24 大众问问(北京)信息科技有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN108198548B (zh) * 2018-01-25 2020-11-20 苏州奇梦者网络科技有限公司 一种语音唤醒方法及其系统
CN108538297B (zh) * 2018-03-12 2020-12-04 恒玄科技(上海)股份有限公司 一种基于无线麦克风阵列的智能语音交互方法及交互系统
KR102628211B1 (ko) * 2018-08-29 2024-01-23 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN110473554B (zh) * 2019-08-08 2022-01-25 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110415699B (zh) * 2019-08-30 2021-10-26 北京声智科技有限公司 一种语音唤醒的判断方法、装置及电子设备
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN110673821B (zh) * 2019-12-09 2020-05-01 苏宁云计算有限公司 一种智能设备唤醒反馈方法及智能设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271690A (zh) * 2008-05-09 2008-09-24 中国人民解放军重庆通信学院 保护音频数据的音频扩频水印处理方法

Also Published As

Publication number Publication date
CN111429901A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429901B (zh) 一种面向IoT芯片的多级语音智能唤醒方法及系统
EP3522153B1 (en) Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor
CN107123417B (zh) 基于鉴别性训练的定制语音唤醒优化方法及系统
CN103971685B (zh) 语音命令识别方法和系统
CN107767861B (zh) 语音唤醒方法、系统及智能终端
CN110428810A (zh) 一种语音唤醒的识别方法、装置及电子设备
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN105741838A (zh) 语音唤醒方法及装置
CN110673821B (zh) 一种智能设备唤醒反馈方法及智能设备
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN112151015B (zh) 关键词检测方法、装置、电子设备以及存储介质
CN111880856A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN106155621B (zh) 可识别声源位置的关键词语音唤醒系统及方法及移动终端
CN110473536B (zh) 一种唤醒方法、装置和智能设备
CN111105796A (zh) 无线耳机控制装置及控制方法、语音控制设置方法和系统
CN111192590B (zh) 语音唤醒方法、装置、设备及存储介质
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN111128155B (zh) 一种智能设备的唤醒方法、装置、设备及介质
CN112700782A (zh) 语音处理方法和电子设备
CN111508493B (zh) 语音唤醒方法、装置、电子设备及存储介质
US20240177707A1 (en) Wake-up processing method and device, voice apparatus, and computer-readable storage medium
CN111179944B (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN112669818B (zh) 语音唤醒方法及装置、可读存储介质、电子设备
CN116386676B (zh) 语音唤醒方法、语音唤醒装置及存储介质
US20210304734A1 (en) On-device self training in a two-stage wakeup system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant