CN116564285A - 一种语音唤醒设备的方法、装置、存储介质及电子装置 - Google Patents
一种语音唤醒设备的方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN116564285A CN116564285A CN202310331741.7A CN202310331741A CN116564285A CN 116564285 A CN116564285 A CN 116564285A CN 202310331741 A CN202310331741 A CN 202310331741A CN 116564285 A CN116564285 A CN 116564285A
- Authority
- CN
- China
- Prior art keywords
- wake
- target
- voice
- word
- response instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000002618 waking effect Effects 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 113
- 238000012545 processing Methods 0.000 claims abstract description 98
- 230000007613 environmental effect Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 59
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音唤醒设备的方法、装置、存储介质及电子装置,涉及智慧家庭技术领域。该方法包括:采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。本申请提供的实施例能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
Description
技术领域
本申请涉及智慧家庭技术领域,尤其涉及一种语音唤醒设备的方法、装置、存储介质及电子装置。
背景技术
目前,随着人工智能与物联网相关技术的蓬勃发展,语音交互技术在信息获取、业务办理、娱乐等场景中得到了广泛的应用,方便了人们的生活。例如,智能空调、智能音箱、智能电视、智能汽车等等,都渐渐地可以通过人工智能唤醒进行唤醒。现在主要的唤醒方式还是通过唤醒词的方式,例如,为智能空调设置唤醒词“海海”,那么智能空调可以实时监听外界的声音,如果识别到外界有“海海”这种语音数据输入,那么就唤醒空调,即,通过唤醒词实现对设备的唤醒。
然而,通过唤醒词的方式来唤醒设备容易造成误唤醒,即,用户在说别的话,并没有叫“海海”,但是识别系统识别错误,将其识别为了“海海”,那么将导致误唤醒,严重影响用户体验。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
有鉴于此,本申请提供一种语音唤醒设备的方法、装置、存储介质及电子装置,能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
第一方面,本申请提供一种语音唤醒设备的方法,包括:
采集终端设备所处环境的环境声音;
对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
对所述唤醒词进行分析处理;
在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
优选地,根据本申请提供的一种语音唤醒设备的方法,在所述对所述唤醒词进行分析处理的步骤之后,所述方法还包括:
在所述唤醒词为快捷唤醒词的情况下,将确定所述快捷唤醒词的时间为唤醒词时间;
获取当前时间,并根据所述当前时间和所述唤醒词时间确定等待时间段。
优选地,根据本申请提供的一种语音唤醒设备的方法,在所述根据所述当前时间和所述唤醒词时间确定等待时间段的步骤之后,所述方法还包括:
在所述等待时间段小于预设时间段的情况下,判断是否生成全量唤醒事件信息;
在生成所述全量唤醒事件信息的情况下,对所述快捷唤醒词标记处理,得到快捷唤醒标记信息。
优选地,根据本申请提供的一种语音唤醒设备的方法,在所述对所述快捷唤醒词标记处理,得到快捷唤醒标记信息的步骤之后,所述方法还包括:
对所述全量唤醒事件信息、所述快捷唤醒标记信息和所述目标设备的设备参数信息进行拼接处理,生成目标请求信息;以及
对与所述全量唤醒事件对应的第一音频、与所述有效声音对应的第二音频进行拼接处理,生成目标音频。
优选地,根据本申请提供的一种语音唤醒设备的方法,
所述根据所述目标语义信息生成所述应答指令,包括:
对所述目标语义信息提取处理,得到与所述目标语义信息对应的目标功能;
将所述目标功能与预设的功能实现库中的多个执行功能进行匹配处理;
根据所述目标功能与至少一个所述执行功能匹配的第一匹配结果,生成实现所述目标功能的所述应答指令。
优选地,根据本申请提供的一种语音唤醒设备的方法,在所述对所述唤醒词进行分析处理的步骤之后,所述方法还包括:
在所述唤醒词与所述全量唤醒词匹配的情况下,利用预设的应答策略对所述有效声音进行处理,生成所述应答指令,以使所述目标设备执行所述应答指令的操作;以及
在所述唤醒词与所述快捷唤醒词和/或所述全量唤醒词中的至少一个进行匹配,而未匹配成功的情况下,确定所述唤醒词为所述无效唤醒词,并在确定所述唤醒词为所述无效唤醒词的情况下,重新采集所述终端设备所处环境的环境声音。
优选地,根据本申请提供的一种语音唤醒设备的方法,所述对所述环境声音进行处理,确定有效声音,包括:
对所述环境声音进行声音分离处理,得到人声声音;
将所述人声声音输入声音辨识模型进行处理,输出所述有效声音,其中所述声音辨识模型为对人声声音样本进行训练得到的。
优选地,根据本申请提供的一种语音唤醒设备的方法,
所述基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,包括:
对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理;
根据所述终端信息和所述目标信息相同的第一比较结果,以使所述终端设备执行所述应答指令的操作。
优选地,根据本申请提供的一种语音唤醒设备的方法,
在所述对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理的步骤之后,所述方法还包括:
根据所述终端信息和所述目标信息不同的第二比较结果,将所述应答指令从所述终端设备下发至所述目标设备,以使所述目标设备根据接收到的所述应答指令执行所述应答指令的操作。
第二方面,本申请还提供一种语音唤醒设备的装置,包括:
采集模块,用于采集终端设备所处环境的环境声音;
确定模块,用于对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
分析模块,用于对所述唤醒词进行分析处理;
生成模块,用于在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
响应模块,用于基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
第三方面,本申请还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行实现如上述任一种所述语音唤醒设备的方法。
第四方面,本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行实现如上述任一种所述语音唤醒设备的方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒设备的方法。
本申请提供的一种语音唤醒设备的方法、装置、存储介质及电子装置,通过采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种语音唤醒设备的方法的硬件环境示意图;
图2是本申请提供的一种语音唤醒设备的方法的流程示意图之一;
图3是本申请提供的一种语音唤醒设备的方法的流程示意图之二;
图4是本申请提供的一种语音唤醒设备的装置的结构示意图;
图5是本申请提供的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对本申请实施例中涉及的专业词汇进行解释:
语音可包括语音识别、语音交互等技术领域,是人工智能领域中的一个重要方向。
语音识别(Voice Recognition)是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
语音交互(Voice Interaction)是一种机器与用户以语音为信息载体进行互动、沟通、信息交换等交互行为的技术,相较于传统的人机交互,具有方便快捷、用户舒适性高的优点。
自然语言处理(Natural Language Processing,NLP)是研究能有效地实现自然语言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。
下面结合图1-图5描述本申请的一种语音唤醒设备的方法、装置、存储介质及电子装置,本申请提供的实施例能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
根据本申请实施例的一个方面,提供了一种语音唤醒设备的方法。该语音唤醒设备的方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述语音唤醒设备的方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
如图2所示,其为本申请实施例提供的一种语音唤醒设备的方法的实施流程示意图之一,一种语音唤醒设备的方法可以包括但不限于步骤S100至S500。
S100,采集终端设备所处环境的环境声音;
S200,对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
S300,对所述唤醒词进行分析处理;
S400,在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
S500,基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
在一些实施例的步骤S100中,采集终端设备所处环境的环境声音。
需要说明的是,本申请实施例的一种语音唤醒设备的方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。
可选地,执行主体可以包括但不限于工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
可选地,终端设备上具有语音采集装置,语音采集装置可为麦克风(Microphone)、麦克风阵列(Microphone Array)等,语音采集装置的麦克风阵列为环形6麦阵列,利用具有环形6麦阵列的语音采集装置采集终端设备所处环境的环境声音。
需要说明的是,终端设备可以为智能音箱、智能平板、智能手机等。
环形6麦阵列的远场拾音距离达5米利用远场识别和降噪技术,使拾音距离达到5米。5米范围内识别率和近讲效果相当,5米距离语音识别率超过90%。环形6麦阵列能够较好的适应远场拾音的特性需求,达到360°语音信号采集,并能通过声源精确定位来确定目标说话人的方向。相比较之前的环形五麦克风阵列来说,6+0麦克风阵列形成六个拾音波束,各自对应60°的范围,比5麦90°的范围波束更细,使得声源角度定位更加准确。
环形6麦阵列构型使用度广六麦环形阵列呈原型布局,其中六个麦克风均匀分布在圆周,一麦克风按原形等距摆放,半径为35mm。环形6麦阵列相比4+1五麦克风阵列来说,在构型上也有很大的突破,中间空出来的部分可以被后期产品设计所利用,适用的程度更广。
环形6麦阵列支持语音唤醒、连续唤醒,成功率超过90%支持语音唤醒的功能,用户通过说出关键词,可以改变交互状态,例如从睡眠至等待,从交互到等待。同时也支持连续唤醒,可随时在任意角度进行多次唤醒,输出环形波束的识别音频,唤醒的成功率超过90%。
环形6麦阵列回声消除当播放和录音同时进行时,扬声器的声音会被麦克风拾取,就会形成回声,影响录音质量。通过接入参考信号,并对录音信号进行滤波计算,这种回声消除的技术,可以将扬声器的声音屏蔽,播放和录音同时进行也不必担忧识别准确度。
环形6麦阵列支持语音打断在设备播音时,仍然可以唤醒,实现打断效果。
环形6麦阵列具有稳态、动态噪声的高效抑制,嘈杂的环境也能轻松应对六麦环形阵列算法会增强波束范围内的声音,削弱波束外的声音,使得声源角度的增强效果更佳,对噪声的抑制效果也更好,从而提高了识别准确率。
在一些实施例的步骤S200中,对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词。
需要说明的是,环境声音至少包括人声声音、场景声音、环境噪音等。
其具体执行步骤可以为:对所述环境声音进行声音分离处理,得到人声声音,将所述人声声音输入声音辨识模型进行处理,输出所述有效声音,其中所述声音辨识模型为对人声声音样本进行训练得到的。
人声声音、场景声音、环境噪音对应的音频不同,这些声音的音频频率信息都预存于音频数据库中,将采集到的环境声音的音频频率与音频数据库中的音频频率作匹配,可区分出人声声音、场景声音、环境噪音。在利用预设的声音分离算法将人声声音、场景声音、环境噪音分离开,最后筛选出人声声音。
再将人声声音输入声音辨识模型进行处理,输出所述有效声音。
需要说明的是,将大量的人声声音样本输入预设的神经网络进行训练,得到训练成熟的声音辨识模型。
根据声音辨识模型能够准确的输出有效声音,如此能够避免无效声音的干扰,无效声音比如为电视机中播放的人声声音,其他智能音箱或智能设备播报的人声声音。
需要说明的是,所述有效声音对应的有效文本信息至少包括唤醒词。
对有效声音进行预处理,得到与有效声音对应的有效文本信息,有效文本信息至少包括唤醒词。
需要说明的是,唤醒词至少包括快捷唤醒词、全量唤醒词和无效唤醒词。
本申请实施例中的快捷唤醒词为双音节唤醒词,不是常规的四音节唤醒词。
全量唤醒词至少包括:快捷唤醒词和唤醒命令词。
比如,快捷唤醒词为“海海”或“尔尔”,词的字可根据需求替换,但是词的数量是双音节固定的。
全量唤醒词为“海海,打开XX”,“海海,关闭XX”等。
无效唤醒词即在所述唤醒词与所述快捷唤醒词和/或所述全量唤醒词中的至少一个进行匹配,而未匹配成功的情况下,确定所述唤醒词为所述无效唤醒词。在确定所述唤醒词为所述无效唤醒词的情况下,重新采集所述终端设备所处环境的环境声音。
在一些实施例的步骤S300中,对所述唤醒词进行分析处理
需要说明的是,对唤醒词进行分析处理,分析唤醒词是快捷唤醒词,还是全量唤醒词,还是无效唤醒词,可以得到唤醒词为快捷唤醒词的第一分析结果,以及唤醒词为全量唤醒词的第二分析结果,以及确定唤醒词为无效唤醒词的第三分析结果。
在一些实施例的步骤S400中,在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令。
可以理解的是,在对所述唤醒词进行分析处理的步骤之后,在所述唤醒词与所述快捷唤醒词匹配的情况下,将确定所述快捷唤醒词的时间为唤醒词时间,并获取当前时间。最后根据所述当前时间和所述唤醒词时间确定等待时间段。
在所述等待时间段小于预设时间段的情况下,判断是否生成全量唤醒事件信息,在生成所述全量唤醒事件信息的情况下,对所述快捷唤醒词标记处理,得到快捷唤醒标记信息。
对所述全量唤醒事件信息、所述快捷唤醒标记信息和所述目标设备的设备参数信息进行拼接处理,生成目标请求信息。对与所述全量唤醒事件对应的第一音频、与所述有效声音对应的第二音频进行拼接处理,生成目标音频。
需要说明的是,所述语音处理策略至少包括:语音识别策略、语义理解策略;
利用所述语音识别策略对所述目标音频进行处理,生成与所述目标音频对应的目标文本信息,并利用所述语义理解策略,对所述目标请求信息和所述目标文本信息进行处理,生成目标语义信息,最后根据所述目标语义信息生成所述应答指令。
进一步需要说明的是,语音识别策略为利用ASR算法的策略,利用语音识别策略对所述目标音频处理,自动生成目标文本信息。
ASR是指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。
语义理解策略为利用自然语言理解的策略,自然语言理解(Natural LanguageUnderstanding,NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块。利用自然语义理解策略可直接从目标请求信息和所述目标文本信息中,确定目标语义信息。
更具体的为对目标请求信息和所述目标文本信息进行机器翻译处理、文本挖掘处理、信息抽取处理,从而生成目标语义信息。
机器翻译处理:把输入的目标音频通过自动翻译获得一种语言文本。
文本挖掘处理:包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的界面表达。
信息抽取处理:从给定文本中抽取重要信息。
在确定目标语义信息的步骤之后,对所述目标语义信息提取处理,得到与所述目标语义信息对应的目标功能,将所述目标功能与预设的功能实现库中的多个执行功能进行匹配处理,根据所述目标功能与至少一个所述执行功能匹配的第一匹配结果,生成实现所述目标功能的所述应答指令。
比如目标语义信息对应的目标功能为“打开空调”功能,那么将将“打开空调”的目标功能与预设的功能实现库中的多个执行功能进行匹配处理,得到目标功能与至少一个所述执行功能匹配的第一匹配结果,根据匹配成功的第一匹配结果,自动生成实现所述目标功能的所述应答指令。
将“打开空调”的目标功能与预设的功能实现库中的多个执行功能进行匹配处理,如果得到目标功能与所有的执行功能均不匹配的第二匹配结果,则根据第二匹配结果生成不应答指令,并结束程序。根据不应答指令不做任何响应操作。
假如目标功能为A,功能实现库中的多个执行功能分别为A、B、C等。
目标功能A对应的目标文本信息为“打开空调”。
那么在功能实现库中对应的文本信息可能为“启动空调”“开开空调”等多个文本信息语句。那么此时也认为是匹配成功的,不一定要语句必须一致,只要能实现的功能是相同的即可。
再比如,目标功能P对应的目标文本信息为“启动汽车”,而功能实现库中预存的文本信息均不具有“启动汽车”的执行功能,则是得到不匹配的第二匹配结果。
在一些实施例的步骤S500中,基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作。
首先需要说明的是,所述目标设备至少包括所述终端设备。
目标设备是根据人声语音需要控制的设备,比如为智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、等。
而终端设备则为具有环形6麦阵列的智能设备,比如为智能音箱、智能平板等。
因为,并不是每个智能设备都具有环形6麦阵列,比如智能门锁。目标设备可以为具有环形6麦阵列的智能设备,也可以为不具有环形6麦阵列的智能设备。
首先,获取终端设备的终端信息和目标设备的目标信息,再对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理,具体可以为比较终端设备的ID和目标设备的ID。
根据所述终端信息和所述目标信息相同的第一比较结果,以使所述终端设备执行所述应答指令的操作。
比如此时,终端设备和目标设备为同一智能设备,为智能音箱。
根据所述终端信息和所述目标信息不同的第二比较结果,将所述应答指令从所述终端设备下发至所述目标设备,以使所述目标设备根据接收到的所述应答指令执行所述应答指令的操作。
比如此时,终端设备为智能音箱,目标设备为智能热水器。
在本申请的一些实施例中,在所述对所述唤醒词进行分析处理的步骤之后,所述方法包括:
在所述唤醒词与所述全量唤醒词匹配的情况下,利用预设的应答策略对所述有效声音进行处理,生成所述应答指令,以使所述目标设备执行所述应答指令的操作。
比如,全量唤醒词为“海海,打开空调”,服务器在直接调用预设的应答策略对有效声音进行自然语义处理,并解析出对应的控制文本信息,根据控制文本信息自动生成控制空调打开的应答指令,进而使得目标设备执行打开空调应答指令的操作。
在本申请的一些实施例中,在所述对所述唤醒词进行分析处理的步骤之后,在所述唤醒词与所述快捷唤醒词和/或所述全量唤醒词中的至少一个进行匹配,而未匹配成功的情况下,确定所述唤醒词为所述无效唤醒词。
在确定所述唤醒词为所述无效唤醒词的情况下,重新采集所述终端设备所处环境的环境声音,如此避免因无效声音而唤醒设备,控制设备,提高了语音唤醒设备的准确性。
图3是本申请提供的一种语音唤醒设备的方法的流程示意图之二,采集终端设备所处环境的环境声音,并基于环境声音,确定是否生成全量唤醒事件,并将对应的音频信息进行存储,若是生成全量唤醒事件,则根据预设的应答策略直接生成所述应答指令,以使所述目标设备执行所述应答指令的操作。
若是生成快捷唤醒事件,首先将快捷唤醒事件的音频信息进行存储,再判断T时刻内是否捕获了全量唤醒事件,如果捕获了则增加快捷唤醒标记生成快捷唤醒标记信息。并进行拼接处理,具体为对所述全量唤醒事件信息、所述快捷唤醒标记信息和所述目标设备的设备参数信息进行拼接处理,生成目标请求信息。对与所述全量唤醒事件对应的第一音频、与所述有效声音对应的第二音频进行拼接处理,生成目标音频。
利用ASR技术对目标音频处理,生成目标文本信息,再利用NLU技术对目标文本信息和目标请求信息进行处理,生成目标语义信息。再对所述目标语义信息提取处理,得到与所述目标语义信息对应的目标功能,将所述目标功能与预设的功能实现库中的多个执行功能进行匹配处理,根据所述目标功能与至少一个所述执行功能匹配的第一匹配结果,生成实现所述目标功能的所述应答指令。基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作。
本申请提供的一种语音唤醒设备的方法、装置、存储介质及电子装置,通过采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
下面对本申请提供的一种语音唤醒设备的装置进行描述,下文描述的一种语音唤醒设备的装置与上文描述的一种语音唤醒设备的方法可相互对应参照。
如图4所示是本申请提供的一种语音唤醒设备的装置的结构示意图,一种语音唤醒设备的装置,包括:
采集模块410,用于采集终端设备所处环境的环境声音;
确定模块420,用于对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
分析模块430,用于对所述唤醒词进行分析处理;
生成模块440,用于在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
响应模块450,用于基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
优选地,根据本申请提供的一种语音唤醒设备的装置,还用于在所述唤醒词为快捷唤醒词的情况下,将确定所述快捷唤醒词的时间为唤醒词时间;
获取当前时间,并根据所述当前时间和所述唤醒词时间确定等待时间段。
优选地,根据本申请提供的一种语音唤醒设备的装置,还用于在所述等待时间段小于预设时间段的情况下,判断是否生成全量唤醒事件信息;
在生成所述全量唤醒事件信息的情况下,对所述快捷唤醒词标记处理,得到快捷唤醒标记信息。
优选地,根据本申请提供的一种语音唤醒设备的装置,还用于对所述全量唤醒事件信息、所述快捷唤醒标记信息和所述目标设备的设备参数信息进行拼接处理,生成目标请求信息;以及
对与所述全量唤醒事件对应的第一音频、与所述有效声音对应的第二音频进行拼接处理,生成目标音频。
优选地,根据本申请提供的一种语音唤醒设备的装置,生成模块440,用于对所述目标语义信息提取处理,得到与所述目标语义信息对应的目标功能;
将所述目标功能与预设的功能实现库中的多个执行功能进行匹配处理;
根据所述目标功能与至少一个所述执行功能匹配的第一匹配结果,生成实现所述目标功能的所述应答指令。
优选地,根据本申请提供的一种语音唤醒设备的装置,还用于在所述唤醒词与所述全量唤醒词匹配的情况下,利用预设的应答策略对所述有效声音进行处理,生成所述应答指令,以使所述目标设备执行所述应答指令的操作;以及
在所述唤醒词与所述快捷唤醒词和/或所述全量唤醒词中的至少一个进行匹配,而未匹配成功的情况下,确定所述唤醒词为所述无效唤醒词,并在确定所述唤醒词为所述无效唤醒词的情况下,重新采集所述终端设备所处环境的环境声音。
优选地,根据本申请提供的一种语音唤醒设备的装置,确定模块420用于对所述环境声音进行声音分离处理,得到人声声音;
将所述人声声音输入声音辨识模型进行处理,输出所述有效声音,其中所述声音辨识模型为对人声声音样本进行训练得到的。
优选地,根据本申请提供的一种语音唤醒设备的装置,响应模块450,用于对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理;
根据所述终端信息和所述目标信息相同的第一比较结果,以使所述终端设备执行所述应答指令的操作。
优选地,根据本申请提供的一种语音唤醒设备的装置,还用于根据所述终端信息和所述目标信息不同的第二比较结果,将所述应答指令从所述终端设备下发至所述目标设备,以使所述目标设备根据接收到的所述应答指令执行所述应答指令的操作。
本申请提供的一种语音唤醒设备的方法、装置、存储介质及电子装置,通过采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。能够降低误唤醒的可能性,提高唤醒词识别的准确率,进而提高用户的智能体验感。
图5示例了一种电子装置的实体结构示意图,如图5所示,该电子装置可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行一种语音唤醒设备的方法,该方法包括:采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在计算机可读的存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种语音唤醒设备的方法,该方法包括:采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
又一方面,本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述各方法提供的一种语音唤醒设备的方法,该方法包括:采集终端设备所处环境的环境声音;对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词;对所述唤醒词进行分析处理;在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (12)
1.一种语音唤醒设备的方法,其特征在于,包括:
采集终端设备所处环境的环境声音;
对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
对所述唤醒词进行分析处理;
在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
2.根据权利要求1所述的语音唤醒设备的方法,其特征在于,
在所述对所述唤醒词进行分析处理的步骤之后,所述方法还包括:
在所述唤醒词为快捷唤醒词的情况下,将确定所述快捷唤醒词的时间为唤醒词时间;
获取当前时间,并根据所述当前时间和所述唤醒词时间确定等待时间。
3.根据权利要求2所述的语音唤醒设备的方法,其特征在于,
在所述根据所述当前时间和所述唤醒词时间确定等待时间的步骤之后,所述方法还包括:
在所述等待时间小于预设时间的情况下,判断是否生成全量唤醒事件信息;
在生成所述全量唤醒事件信息的情况下,对所述快捷唤醒词标记处理,得到快捷唤醒标记信息。
4.根据权利要求3所述的语音唤醒设备的方法,其特征在于,
在所述对所述快捷唤醒词标记处理,得到快捷唤醒标记信息的步骤之后,所述方法还包括:
对所述全量唤醒事件信息、所述快捷唤醒标记信息和所述目标设备的设备参数信息进行拼接处理,生成目标请求信息;以及
对与所述全量唤醒事件对应的第一音频、与所述有效声音对应的第二音频进行拼接处理,生成目标音频。
5.根据权利要求1所述的语音唤醒设备的方法,其特征在于,
所述根据所述目标语义信息生成所述应答指令,包括:
对所述目标语义信息提取处理,得到与所述目标语义信息对应的目标功能;
将所述目标功能与预设的功能实现库中的多个执行功能进行匹配处理;
根据所述目标功能与至少一个所述执行功能匹配的第一匹配结果,生成实现所述目标功能的所述应答指令。
6.根据权利要求1所述的语音唤醒设备的方法,其特征在于,
在所述对所述唤醒词进行分析处理的步骤之后,所述方法还包括:
在所述唤醒词与所述全量唤醒词匹配的情况下,利用预设的应答策略对所述有效声音进行处理,生成所述应答指令,以使所述目标设备执行所述应答指令的操作;以及
在所述唤醒词与所述快捷唤醒词和/或所述全量唤醒词中的至少一个进行匹配,而未匹配成功的情况下,确定所述唤醒词为所述无效唤醒词,并在确定所述唤醒词为所述无效唤醒词的情况下,重新采集所述终端设备所处环境的环境声音。
7.根据权利要求1所述的语音唤醒设备的方法,其特征在于,
所述对所述环境声音进行处理,确定有效声音,包括:
对所述环境声音进行声音分离处理,得到人声声音;
将所述人声声音输入声音辨识模型进行处理,输出所述有效声音,其中所述声音辨识模型为对人声声音样本进行训练得到的。
8.根据权利要求1所述的语音唤醒设备的方法,其特征在于,
所述基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,包括:
对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理;
根据所述终端信息和所述目标信息相同的第一比较结果,以使所述终端设备执行所述应答指令的操作。
9.根据权利要求8所述的语音唤醒设备的方法,其特征在于,
在所述对所述终端设备对应的终端信息和所述目标设备的目标信息进行比较处理的步骤之后,所述方法还包括:
根据所述终端信息和所述目标信息不同的第二比较结果,将所述应答指令从所述终端设备下发至所述目标设备,以使所述目标设备根据接收到的所述应答指令执行所述应答指令的操作。
10.一种语音唤醒设备的装置,其特征在于,包括:
采集模块,用于采集终端设备所处环境的环境声音;
确定模块,用于对所述环境声音进行处理,确定有效声音,其中所述有效声音对应的有效文本信息至少包括唤醒词,所述唤醒词至少包括:快捷唤醒词、全量唤醒词和无效唤醒词;
分析模块,用于对所述唤醒词进行分析处理;
生成模块,用于在所述唤醒词与所述快捷唤醒词匹配的情况下,利用预设的语音处理策略对所述有效声音进行处理,生成目标语义信息,并根据所述目标语义信息生成应答指令;
响应模块,用于基于所述应答指令,以使与所述应答指令对应的目标设备执行所述应答指令的操作,其中所述目标设备至少包括所述终端设备。
11.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至9中任一项所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331741.7A CN116564285A (zh) | 2023-03-30 | 2023-03-30 | 一种语音唤醒设备的方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331741.7A CN116564285A (zh) | 2023-03-30 | 2023-03-30 | 一种语音唤醒设备的方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564285A true CN116564285A (zh) | 2023-08-08 |
Family
ID=87499016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310331741.7A Pending CN116564285A (zh) | 2023-03-30 | 2023-03-30 | 一种语音唤醒设备的方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564285A (zh) |
-
2023
- 2023-03-30 CN CN202310331741.7A patent/CN116564285A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182153A1 (zh) | 基于自适应语种进行语音识别的方法及相关装置 | |
TWI730584B (zh) | 關鍵詞的檢測方法以及相關裝置 | |
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
CN113035227B (zh) | 一种多模态语音分离方法及系统 | |
CN111508474B (zh) | 一种语音打断方法、电子设备及存储装置 | |
CN109920419B (zh) | 语音控制方法和装置、电子设备及计算机可读介质 | |
CN112051743A (zh) | 设备控制方法、冲突处理方法、相应的装置及电子设备 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110503969A (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN109189980A (zh) | 与用户进行语音交互的方法和电子设备 | |
US20200219384A1 (en) | Methods and systems for ambient system control | |
CN109166575A (zh) | 智能设备的交互方法、装置、智能设备和存储介质 | |
CN111640433A (zh) | 语音交互方法、存储介质、电子设备及智能家居系统 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN108461081A (zh) | 语音控制的方法、装置、设备和存储介质 | |
CN113593595A (zh) | 基于人工智能的语音降噪方法、装置及电子设备 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
WO2017177629A1 (zh) | 远讲语音识别方法及装置 | |
CN116386623A (zh) | 一种智能设备的语音交互方法、存储介质及电子装置 | |
CN113611318A (zh) | 一种音频数据增强方法及相关设备 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
CN111710339A (zh) | 一种基于数据可视化展示技术的语音识别交互系统及方法 | |
CN116564285A (zh) | 一种语音唤醒设备的方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |