CN116364076A - 一种处理方法、控制方法、识别方法及其装置和电子设备 - Google Patents
一种处理方法、控制方法、识别方法及其装置和电子设备 Download PDFInfo
- Publication number
- CN116364076A CN116364076A CN202310133165.5A CN202310133165A CN116364076A CN 116364076 A CN116364076 A CN 116364076A CN 202310133165 A CN202310133165 A CN 202310133165A CN 116364076 A CN116364076 A CN 116364076A
- Authority
- CN
- China
- Prior art keywords
- control
- wake
- voice instruction
- control object
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Electric Clocks (AREA)
Abstract
本发明实施例涉及一种处理方法、控制方法、识别方法及其装置和电子设备,尤其涉及唤醒处理方法、唤醒灵敏度控制方法、快捷唤醒处理方法以及语音控制对象识别方法以及相应的装置和电子设备。本发明实施例在设备唤醒的提示方面、根据不同的场景调整唤醒灵敏度方面、准确识别并去除快捷唤醒中的快捷唤醒词方面以及提高语音指令执行的控制对象的确定等方面,提出了改进方案,相比现有技术而言,提高了人机对话的智能化和准确度。
Description
技术领域
本发明涉及唤醒处理方法、唤醒灵敏度控制方法以及语音控制对象识别方法以及相应的装置和电子设备。
背景技术
随着人工智能相关应用的越来越深入发展,语音识别技术作为智能化设备的基本的交互方式,扮演着越来越重要的角色。语音识别技术涉及到很多方面,其中包括通过语音指令来唤醒设备、对设备的操作进行控制、与设备进行人机对话以及针对多个设备的语音指令控制等。高效和准确的语音识别技术以及快捷便利的唤醒模式,是智能化设备的重要的发展方向。
发明内容
本发明提供了一种唤醒处理方法、装置及电子设备,能够在设备处于,唤醒状态,且没有语音输入的场景下,主动发出提示,从而让用户感知当前设备处于唤醒状态,方便进行语音输入。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种唤醒处理方法,包括:
在设备被唤醒后,检测是否有语音输入;
如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
第二方面,提供了一种唤醒处理装置,包括:
语音检测模块,用于在设备被唤醒后,检测是否有语音输入;
唤醒提示模块,用于如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
第三方面,提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
在设备被唤醒后,检测是否有语音输入;
如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
本发明提供的唤醒处理方法、装置及电子设备,在设备被唤醒后,如果用户在指定时间内没有发出语音指令,则设备可以输出表示设备处于唤醒状态的提示,让用户感知当前设备正处于唤醒状态;通过这样的机制,能够使得处于唤醒状态下的设备,在没有接收到任何用户输入的情况下,始终保持一个与用户进行沟通的状态,能够不断提示用户设备已经处于唤醒状态,并提示用户进行进一步操作,从而不需要用户再去判断设备是否唤醒。
本发明提供了一种唤醒灵敏度控制方法、装置及电子设备,能够根据设备所处的不同的应用场景,灵活调整设备的唤醒灵敏度,从而平衡了唤醒率和误唤醒率在使用方面存在的矛盾。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种唤醒灵敏度控制方法,包括:
获取设备当前的应用场景信息;
根据所述应用场景信息,调整所述设备的唤醒灵敏度。
第二方面,提供了一种唤醒灵敏度控制装置,包括:
信息获取模块,用于获取设备当前的应用场景信息;
灵敏度调整模块,用于根据所述应用场景信息,调整所述设备的唤醒灵敏度。
第三方面,提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
获取设备当前的应用场景信息;
根据所述应用场景信息,调整所述设备的唤醒灵敏度。
本发明提供的唤醒灵敏度控制方法、装置及电子设备,根据当前设备所处的应用场景,灵活调整设备的唤醒灵敏度。由于不再采用固定的唤醒灵敏度,从而能够根据应用场景来采用适合的唤醒灵敏度,平衡了唤醒率和误唤醒率在使用方面存在的矛盾。
本发明提供了一种快捷唤醒处理方法、装置及电子设备,能够在对语音指令进行语义解析之前,先滤除掉唤醒词,从而使得语义解析的结果不会受到唤醒词的影响。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种快捷唤醒处理方法,包括:
对来自设备的包含唤醒词的第一音频信息进行识别,生成与该第一音频信息对应的第一文本;
针对该第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本;
对所述第二文本执行语义解析。
第二方面,提供了一种快捷唤醒处理装置,包括:
文本生成模块,用于对来自设备的包含唤醒词的第一音频信息进行识别,生成与该第一音频信息对应的第一文本;
唤醒词过滤模块,用于针对该第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本;
语义解析模块,用于对所述第二文本执行语义解析。
第三方面,提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
对来自设备的包含唤醒词的第一音频信息进行识别,生成与该第一音频信息对应的第一文本;
针对该第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本;
对所述第二文本执行语义解析。
本实施例提供的快捷唤醒处理方法、装置及电子设备,在对识别后生成的文本进行语义解析之前识别并滤除掉唤醒词,从而使得语义解析的结果不会受到唤醒词的影响。
本发明提供了一种语音控制对象识别方法、装置及电子设备,能够在多设备同时运行的人机对话场景下,准确的识别出当前语音指令所要控制的对象设备。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种语音控制对象识别方法,包括:
识别当前语音指令中体现控制意图的第一语义单元;
根据所述控制意图确定对应的一个或多个控制场景;
获取各个设备当前所处的运行状态;
根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
第二方面,提供了另一种语音控制对象识别方法,包括:
获取当前语音指令对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,
根据所述逻辑类确定所述当前语音指令的控制对象。
第三方面,提供了一种语音控制对象识别装置,包括:
语义识别模块,用于识别当前语音指令中体现控制意图的第一语义单元;
场景确定模块,用于根据所述控制意图确定对应的一个或多个控制场景;
状态获取模块,用于获取各个设备当前所处的运行状态;
第一对象确定模块,用于根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
第四方面,提供了另一种语音控制对象识别装置,包括:
逻辑类获取模块,用于获取当前语音指令对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,
第二对象确定模块,用于根据所述逻辑类确定所述当前语音指令的控制对象。
第五方面,提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
识别当前语音指令中体现控制意图的第一语义单元;
根据所述控制意图确定对应的一个或多个控制场景;
获取各个设备当前所处的运行状态;
根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
第六方面,提供了另一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
获取当前语音指令对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,
根据所述逻辑类确定所述当前语音指令的控制对象。
本实施例提供的语音控制对象的识别方法、装置及电子设备,根据不同设备的运行状态和当前语音指令体现的控制意图所确定的控制场景之间的匹配关系,确定当前语音指令的控制对象,或者,根据当前语音指令与前一次语音指令的上下文逻辑关系,确定当前语音指令的控制对象,从而提高了在从多个运行的设备中识别出语音控制对象的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的唤醒处理的逻辑示意图;
图2为本发明实施例提供的唤醒处理方法的流程图;
图3a为本发明实施例提供的唤醒处理装置的结构示意图一;
图3b为本发明实施例提供的唤醒处理装置的结构示意图二;
图4为本发明实施例提供的电子设备的结构示意图;
图5为本发明实施例提供的唤醒灵敏度的控制逻辑示意图;
图6为本发明实施例提供的唤醒灵敏度的控制方法的流程图;
图7为本发明实施例提供的唤醒灵敏度的控制装置的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图;
图9为本发明实施例提供的快捷唤醒的处理逻辑示意图;
图10为本发明实施例提供的快捷唤醒的处理方法的流程图;
图11为本发明实施例提供的快捷唤醒的处理装置的结构示意图;
图12为本发明实施例提供的电子设备的结构示意图;
图13为本发明实施例提供的语音控制对象识别方法的流程图一;
图14为本发明实施例提供的语音控制对象识别装置的结构示意图一;
图15为本发明实施例提供的语音控制对象识别装置的结构示意图二;
图16为本发明实施例提供的语音控制对象识别装置的结构示意图三;
图17为本发明实施例提供的电子设备的结构示意图一;
图18为本发明实施例提供的电子设备的结构示意图二。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
现有的人机会话场景中,设备从休眠状态下被唤醒到运行状态下,会通过灯光或者铃声来提示一下已经处于唤醒状态。但是,如果用户忽略了灯光或者铃声的提示时,就很难知道是否已经切换到唤醒状态或者是否还处于唤醒状态,这种提示对于用户来说并不方便。在唤醒之后,在用户不进行任何操作的情况下,设备也不会向用户提供任何反馈,以提示用户是否还处于唤醒状态。面对这种状态,用户不知道是应该输入唤醒指令还是直接输入指示设备的具体操作。
比如设备在从休眠切换到唤醒后,进行了一次响铃提示,如果用户没有听到这次响铃,便无法获知是否已经唤醒,而通过灯光方式来进行提示,用户在距离设备较远的时候也很难观察到灯光,因此,也无法清楚的获知是否处于唤醒状态。
本发明实施例改变了现有技术中,通过响铃和/或灯光方式无法使用户明确感知到设备是否处于唤醒状态,其核心思想在于,在唤醒状态下,通过增加检测是否有语音输入的功能,如果没有输入,则通过提示语来提示用户进行输入,从而让用户感知当前设备处于唤醒状态。
如图1所示,为本发明实施例提供的唤醒处理的逻辑示意图。在图1中,在设备被唤醒后,设备会先检测是否有语音输入,如果在预定的第一时间内检测到语音输入,则进行正常的语音输入流程以及后续操作;如果在预定的第一时间内没有检测到语音输入,则设备会发出语音提示,告知用户当前设备已处于唤醒状态,请用户输入语音指令。如果用户在设备发出处于唤醒状态的语音提示以后的预设第二时间内发出了语音指令,则设备采集该语音信号进行正常的语音输入流程以及后续操作,否则结束倾听,即关闭语音采集流程。用户如果想再次输入语音指令需要再次唤醒设备。
基于图1所示的唤醒处理的逻辑,如图2所示,为本发明实施例提供的唤醒处理方法流程图,该方法包括如下步骤:
S210,在设备被唤醒后,检测是否有语音输入。
具体地,用户可以通过直接唤醒和快捷唤醒的方式唤醒设备。所谓直接唤醒是指语音输入唤醒指令后等设备响应后,待设备被唤醒后再输入语音指令,等待设备反馈结果以实现人机会话。所谓快捷唤醒是指唤醒指令和语音指令一起进行语音设备,设备直接反馈结果实现人机会话。本方案中,关于设备的唤醒方式不局限于上述方式。
在设备被唤醒后,设备启动语音活动检测(Voice Activity Detection,VAD)流程,检测是否有语音输入。
当然,在设备被唤醒后,也可以进行响铃和/或灯光提醒,以告知用户设备以唤醒。
S220,如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
在设备被唤醒后,自动进行倒计时,倒计时的时长为预设的第一时间,如果在预定的第一时间内设备没有检测到语音输入,则输出表示设备处于唤醒状态的提示。如区别于设备唤醒初始状态的响铃内容和/或灯光闪烁方式,也可以直接通过语音的方式提示用户输入语音内容,例如语音输出“我在,请输入语音内容”。
用户听到或看到这些表示设备处于唤醒状态的提示后,可继续执行语音输入完成人机会话。
当然,如果当前设备没有连接到云端(云端负责对设备接收的语音指令进行识别,并将识别出的控制操作指令反馈给设备进行相应操作,本方案的改进点不涉及云端的处理环节),也可以通过语音提示的方式提醒用户网络没有连接好。
进一步地,上述方法还包括:如果在输出表示设备处于唤醒状态的提示之后的预定的第二时间内没有检测到语音输入,则关闭唤醒状态。
当设备输出表示设备处于唤醒状态的提示之后指定时间段内仍没有检测到语音输入,则表明用户可能不想进行人机会话,此时可控制设备关闭唤醒状态,进入到休眠模式。用户如果想再次输入语音指令需要再次唤醒设备。
本发明实施例提供的唤醒处理方法,在设备被唤醒后,如果用户在指定时间内没有发出语音指令,则设备可以输出表示设备处于唤醒状态的提示,让用户感知当前设备正处于唤醒状态;通过这样的机制,能够使得处于唤醒状态下的设备,在没有接收到任何用户输入的情况下,始终保持一个与用户进行沟通的状态,能够不断提示用户设备已经处于唤醒状态,并提示用户进行进一步操作,从而不需要用户再去判断设备是否唤醒。
实施例二
如图3a所示,为本发明实施例的唤醒处理装置结构图,该唤醒处理装置可用于执行如图2所示的方法步骤,其包括:
语音检测模块310,用于在设备被唤醒后,检测是否有语音输入;
唤醒提示模块320,用于如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
进一步地,如图3b所示,上述唤醒处理装置还可包括唤醒关闭模块330,用于如果在输出表示设备处于唤醒状态的提示之后的预定的第二时间内没有检测到语音输入,则关闭唤醒状态。
进一步地,上述表示设备处于唤醒状态的提示为语音提示。
本发明实施例提供的唤醒处理装置,在设备被唤醒后,如果用户在指定时间内没有发出语音指令,则设备可以输出表示设备处于唤醒状态的提示,让用户感知当前设备正处于唤醒状态;通过这样的机制,能够使得处于唤醒状态下的设备,在没有接收到任何用户输入的情况下,始终保持一个与用户进行沟通的状态,能够不断提示用户设备已经处于唤醒状态,并提示用户进行进一步操作,从而不需要用户再去判断设备是否唤醒。
实施例三
前面描述了唤醒处理装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图4所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器410和处理器420。
存储器410,用于存储程序。
除上述程序之外,存储器410还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器410可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器420,耦合至存储器410,用于执行存储器410中的程序,以用于:
在设备被唤醒后,检测是否有语音输入;
如果在预定的第一时间内没有检测到语音输入,则输出表示设备处于唤醒状态的提示。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图4所示,电子设备还可以包括:通信组件430、电源组件440、音频组件450、显示器460等其它组件。图4中仅示意性给出部分组件,并不意味着电子设备只包括图4所示组件。
通信组件430被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件430经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件430还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件440,为电子设备的各种组件提供电力。电源组件440可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件450被配置为输出和/或输入音频信号。例如,音频组件450包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器410或经由通信组件430发送。在一些实施例中,音频组件450还包括一个扬声器,用于输出音频信号。
显示器460包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
实施例四
目前,在一些智能设备中,引入了语音唤醒机制,即检测环境的语音输入,并自动唤醒的机制。语音唤醒的两个基本的技术指标分别是唤醒率和误唤醒率。唤醒率和误唤醒率是相辅相成的。唤醒率过低影响用户唤醒设备的体验,误唤醒率过高会影响用户的正常生活,造成不必要的干扰。
唤醒率和误唤醒率本质上主要都是由唤醒灵敏度决定的,决定唤醒灵敏度的因素可以是设备的传感器的灵敏度设置或者语音处理程序(唤醒引擎)对唤醒指令判定的灵敏度。
唤醒灵敏度越高,则越容易检测到周围环境的语音输入,在检测时,会更加容易导致设备唤醒,同时也会增加误唤醒的概率,而如果传感器的灵敏度较低,则虽然误唤醒的概率降低了,但同时设备也不容易被唤醒,唤醒率也就降低了,从而影响了用户的正常使用。
在现有技术中,采用的唤醒灵敏度固定的方式,无论是采用高唤醒灵敏度还是采用低唤醒灵敏度都无法解决对上述使用中存在的矛盾。
本发明实施例改变了现有技术中,对设备的唤醒灵敏度采用固定的方式,其核心思想在于,根据应用场景的不同,灵活调整设备的唤醒灵敏度。
如图5所示,为本发明实施例提供的唤醒灵敏度的控制逻辑示意图。在图5中,作为影响设备的唤醒灵敏度设置的一个重要因素,那就是应用场景,随着引用场景的不同,对唤醒灵敏度的要求也不同。例如,白天环境比较嘈杂,噪音比较大,则可以适当降低唤醒灵敏度,以减少误唤醒率;而夜晚环境较为安静,噪音比较小,则可以适当提高唤醒灵敏度,以提高唤醒率。在调整设备唤醒灵敏度时,可以从软件和硬件两个方面进行调整。
软件方面则可以调整设备中唤醒引擎的唤醒参数,例如通过设备的应用(APP)为唤醒引擎的唤醒灵敏度设置多个等级:灵敏、一般、稍弱、安静。用户可以用过手机APP来设置各时间段的灵敏等级,手机APP设置后,上传到相应云端记录该事件。云端在相应的时间点,推送相关的指令给设备,控制设备调整当前的唤醒引擎中的相关设置,从而调整唤醒灵敏度。
硬件方面,可以直接设置设备中声音传感器的声音采集参数,从而调整设备的唤醒灵敏度。
基于图5所示的唤醒处理的逻辑,如图6所示,为本发明实施例提供的唤醒灵敏度的控制方法流程图,该方法包括如下步骤:
S610,获取设备当前的应用场景信息。
其中,所述的应用场景可以为设备所处的时间段,可从设备的系统时钟获得,如白天、夜晚;也可以是周围环境,如设备是处在安静的居家室内,还是嘈杂的商场里等,当然关于环境的应用场景信息可以由人工手动输入到设备中,如预先设置一个应用场景的安静等级:安静、轻度喧闹、嘈杂等几个等级。
S620,根据所述应用场景信息,调整设备的唤醒灵敏度。
根据检测到的设备当前的应用场景信息,调整设备的唤醒灵敏度,使得当应用场景较为安静时提高设备的唤醒灵敏度,当应用场景较为嘈杂时降低设备的唤醒灵敏度,从而根据应用场景的不同,灵活调整设备的唤醒灵敏度,兼顾降低误唤醒率和提高用户体验。
进一步地,上述方法还可包括:接收设备的应用的灵敏度设置信息,所谓的设备的应用,是指设备所对应的后台服务端,用户可以在手机APP上向服务端发送灵敏度设置信息,以通过服务端向设备发送设置指令,来调整设备的唤醒灵敏度。
进一步地,根据应用场景信息,调整设备的唤醒灵敏度可包括:根据应用场景信息和灵敏度设置信息,设置设备的唤醒引擎的唤醒参数和/或设置设备的声音传感器的声音采集参数。应用场景信息可包括设备所处的时间段信息。
例如,用户可以用过手机APP来设置各时间段的灵敏等级,并在手机APP上设置后,上传到相应云端记录该事件。云端在相应的时间点,推送相关的指令给设备,控制设备调整唤醒灵敏度;或者云端将针对不同时间段的唤醒灵敏度设置信息发送给设备,当设备检测到当前的时间段与云端推送的调整唤醒灵敏度的时间段相匹配时,控制设备调整当前的唤醒灵敏度。具体调整的对象可以是内置在设备中的唤醒引擎的相关设置参数,也可以是接收语音的声音传感器的声音采集参数。
本实施例提供的唤醒灵敏度的控制方法,根据当前设备所处的应用场景,灵活调整设备的唤醒灵敏度。由于不再采用固定的唤醒灵敏度,从而能够根据应用场景来采用适合的唤醒灵敏度,平衡了唤醒率和误唤醒率在使用方面存在的矛盾。
实施例五
如图7所示,为本发明实施例的唤醒灵敏度的控制装置结构图,该唤醒处理装置可内置在设备中,可用于执行如图6所示的方法步骤,其包括:
信息获取模块710,用于获取设备当前的应用场景信息;
灵敏度调整模块720,用于根据应用场景信息,调整设备的唤醒灵敏度。
进一步地,上述信息获取模块710还用于接收设备的应用的灵敏度设置信息,
相应的,灵敏度调整模块720具体用于,根据应用场景信息和灵敏度设置信息,设置设备的唤醒引擎的唤醒参数和/或设置设备的声音传感器的声音采集参数。
进一步地,上述应用场景信息可包括设备所处的时间段信息。
本实施例提供的唤醒灵敏度的控制装置,根据当前设备所处的应用场景,灵活调整设备的唤醒灵敏度。由于不再采用固定的唤醒灵敏度,从而能够根据应用场景来采用适合的唤醒灵敏度,平衡了唤醒率和误唤醒率在使用方面存在的矛盾。
实施例六
前面描述了唤醒灵敏度的控制装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图8所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器810和处理器820。
存储器810,用于存储程序。
除上述程序之外,存储器810还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器810可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器820,耦合至存储器810,用于执行存储器810中的程序,以用于:
获取设备当前的应用场景信息;
根据所述应用场景信息,调整所述设备的唤醒灵敏度。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图8所示,电子设备还可以包括:通信组件830、电源组件840、音频组件850、显示器860等其它组件。图8中仅示意性给出部分组件,并不意味着电子设备只包括图8所示组件。
通信组件830被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件830经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件830还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件840,为电子设备的各种组件提供电力。电源组件840可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件850被配置为输出和/或输入音频信号。例如,音频组件850包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器810或经由通信组件830发送。在一些实施例中,音频组件850还包括一个扬声器,用于输出音频信号。
显示器860包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
实施例七
在目前的语音技术中,可以通过输入唤醒词来唤醒设备,然后设备会将后续接收到的语音内容送到云端进行识别,然后返回具体的针对设备的指令或者是回答内容等。
但是,在快捷唤醒的场景下,即唤醒词和语音指示内容一起作为一条语音指令输入的情况下,设备会把唤醒词和语音指示内容一起送到云端做语义理解,而云端不具备识别唤醒词的能力,因此,这样会导致语义理解出现各种问题,造成如语音理解会进错领域,或者答非所问。并且,不同设备设定的唤醒词也会有差异,每个设备中的唤醒词识别引擎也是不同的,导致云端也很难统一进行处理。
本发明实施例改善了现有技术中,云端没有过滤唤醒词,而影响后续语义理解的问题,其核心思想在于,在云端也设置唤醒词识别引擎,从而在进行语义解析之前,先滤除掉唤醒词。
如图9所示,为本实施例提供的快捷唤醒的处理逻辑图。在图9中,设备首先将检测到的包含唤醒词的音频信息传输到云端的自动语音识别(ASR)进行处理,识别出包含唤醒词的文本,然后对唤醒词进行过滤,生成唤醒词被过滤后的文本再进行语义解析。其中,在经唤醒词识别引擎识别出唤醒词后,云端可以将包含唤醒词的文本返回至设备,由设备对文本中的唤醒词进行过滤,然后再将过滤后的文本返回云端继续进行语义解析处理。
基于图9所示的快捷唤醒的处理逻辑,如图10所示,为本发明实施例提供的快捷唤醒的处理方法流程图,该方法包括如下步骤:
S101,对来自设备的包含唤醒词的第一音频信息进行识别,生成与该第一音频信息对应的第一文本;
人机对话场景中,针对快捷唤醒设备的应用场景,设备在接收到唤醒词+语音指令的第一音频信息后,将该音频信息传送至云端,云端对该第一音频信息进行识别处理后,生成与该第一音频信息对应的第一文本。
S102,针对该第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本;
在实际应用场景中,云端并不知道哪条音频信息中包括唤醒词,并且如果在进行识别时,如果音频清晰,则可识准确别出语义正确的文本内容,且该内容在进行后续语义解析时也不会因发生误解析,而进入错误领域,产生错误指令。但是,如果音频不清晰,则可能语音识别出语义错误的文本内容,且该内容在进行后续语义解析时很可能因发生误解析而进入错误领域,产生错误指令,或者根本无法判断出执行指令,而使得对设备的控制或反馈失败。因此,在对识别处理后得到的第一文本进行语义解析之前,有必要过滤掉其中的唤醒词。
本步骤在对设备上传的第一音频信息进行识别处理后,对生成的第一文本先进行过滤唤醒词的处理,生成去掉唤醒词后的第二文本,以防止唤醒词在进行语义解析时出现错误解析。
S103,对第二文本执行语义解析。
进一步地,上述对来自设备的包含唤醒词的第一音频信息进行识别的处理包括:
使用云端的识别模型对第一音频信息进行识别,其中,识别模型包括设备中唤醒词识别引擎所使用的唤醒词词库。
为了使云端能够过准确识别出第一语音信息中包含的唤醒词,在识别模型中可增加专门用于识别设备唤醒词的唤醒词词库,该唤醒词词库与设备中唤醒词识别引擎所使用的唤醒词词库相同。这样在对第一音频信息进行识别时,就可以准确识别出唤醒词。
例如,当输入至设备的第一音频信息为“你好,请开灯”,如果语音不太清晰,则可能会识别为“你要开灯”(识别模型也会根据上下文的情况进行一些智能判断)。在这样的情况下,当识别算法模型中,包含唤醒词的唤醒词词库时,就可以很容易识别出该唤醒词。这样,当针对“你好,请开灯”这样的音频进行识别时,会在识别句子的前部分时,更多的考虑是唤醒词,当识别到可能是“你好”还是“你要”时,根据唤醒词的词库,会最终确定为“你好”,这样就不会出现上述的错误了。
进一步地,上述针对第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本可包括:
将第一文本发送给设备;
设备根据该设备的唤醒词识别引擎所使用的唤醒词词库,过滤掉第一文本中的唤醒词,生成第二文本,并将该第二文本发送给云端。
最后再由云端继续执行对第二文本的语义解析。
本实施例提供的快捷唤醒的处理方法,在对识别后生成的文本进行语义解析之前识别并滤除掉唤醒词,从而使得语义解析的结果不会受到唤醒词的影响。
实施例八
如图11所示,为本发明实施例的快捷唤醒的处理装置结构图,该快捷唤醒的处理装置可内置在云端中,可用于执行如图10所示的方法步骤,其包括:
文本生成模块111,用于对来自设备的包含唤醒词的第一音频信息进行识别,生成与该第一音频信息对应的第一文本;
唤醒词过滤模块112,用于针对该第一文本执行过滤唤醒词的处理,生成去掉唤醒词后的第二文本;
语义解析模块113,用于对第二文本执行语义解析。
进一步地,上述文本生成模块111具体用于,
使用云端的识别模型对第一音频信息进行识别,其中,识别模型包括设备中唤醒词识别引擎所使用的唤醒词词库。
进一步地,上述唤醒词过滤模块112具体用于,
将第一文本发送给设备;
接收设备返回的过滤掉第一文本中的唤醒词后的第二文本。
在实际应用场景中,云端可在识别出语音指令中的唤醒词后,将包含唤醒词的第一文本返回给设备,由设备对第一文本中的唤醒词进行过滤,然后再将唤醒词过滤之后的第二文本返回至云端,以是云端继续进行文本的语义解析。由此可见,云端与设备之间通过任务交互构成一个处理系统,共同完成对第一文本中的唤醒词的过滤操作。
本实施例提供的快捷唤醒的处理装置,在对识别后生成的文本进行语义解析之前识别并滤除掉唤醒词,从而使得语义解析的结果不会受到唤醒词的影响。
实施例九
前面描述了快捷唤醒的处理装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图12所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器121和处理器122。
存储器121,用于存储程序。
除上述程序之外,存储器121还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器121可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器122,耦合至存储器121,用于执行存储器121中的程序,以用于:
获取设备当前的应用场景信息;
根据所述应用场景信息,调整所述设备的唤醒灵敏度。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图12所示,电子设备还可以包括:通信组件123、电源组件124、音频组件125、显示器126等其它组件。图12中仅示意性给出部分组件,并不意味着电子设备只包括图12所示组件。
通信组件123被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件123经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件123还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件124,为电子设备的各种组件提供电力。电源组件124可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件125被配置为输出和/或输入音频信号。例如,音频组件125包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器121或经由通信组件123发送。在一些实施例中,音频组件125还包括一个扬声器,用于输出音频信号。
显示器126包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
实施例十
在智能语音控制领域中,用户发出的一条语音指令,该条指令反应用户明确唯一意图,但语句本身可能具有多个意图表现,此种情况是我们常说的“歧义”。在语音智能系统可以控制多个设备时,会出现对多个设备之间的控制冲突,比如用户发出一条“播放”的语音指令,可能是播放音乐播放设备中的音乐,也可能是播放视频播放机中的电影等。
针对这样的问题,本实施例提供了一种语音控制对象识别方法,如图13所示,其为本发明实施例提供的语音控制对象识别方法的流程图,包括:
S131:识别当前语音指令中体现控制意图的第一语义单元。具体地,用户的语音指令一般会包含多个语义单元,这里所说的语义单元可以是一个字或者一个词或者一个短语,也可以是构成语音指令中的一个句子,语义单元应当是能够完整表达一个含义的单元。在本步骤中,第一语义单元应当是能够体现控制意图的语义单元,其中,控制意图是指人机交互系统中让设备执行的某一项具体功能,例如播放、暂停、提高音量。相同的控制意图可能会由不同的语音指令的表达形式,也就是说会对应不同的第一语义单元。比如,语音控制指令为“把视频给我播放一下”、“给我放映一下视频”、“我要看一下电影”,在这这些语音控制指令中,“播放”、“放映”、“看一下”都是第一语义单元,其都指向“播放”这一控制意图,对于控制意图的确定可以使用已有的语义分析技术,在这里就不再赘述。
当一个语音指令中,主要只包含体现控制意图的第一语义单元时,就容易造成控制指令或者说是控制意图在多个设备之间的冲突。例如:“播放”、“暂停”、“停止”、“重播”、“退出”、“打开声音”、“关闭声音”、“提高音量”、“降低音量”,这些控制意图往往是很多设备都具备的,因此,很容易产生冲突。
S132:根据控制意图确定对应的一个或多个控制场景。在步骤S131中,已经识别出了控制意图,在步骤S132中,可以根据该控制意图将可能的控制场景全部列出。例如,在当前的环境中,具有如下三个设备,该三个设备均能接收语音指令:
智能电视:与网络连接,能够进行在线视频播放以及视频搜索;
智能音箱:具有wifi和蓝牙功能,能够播放在线音乐或者通过蓝牙连接的其他设备中的音乐;
智能电脑。
以控制意图为“播放”为例,其对应的控制场景可能为:
1)智能音箱通过wifi进行在线音乐播放。
2)智能音箱播放与其有蓝牙连接的其他设备中的音乐。
3)智能电视播放当前暂停的视频。
4)智能电视播放当前搜索结果中对应的视频。
5)运行智能电脑中音视频播放APP的播放功能。
上述的多个控制场景,也就对应了该控制意图可能的控制对象。
S133:获取各个设备当前所处的运行状态。这里所说的运行状态可以是各个设备的开机状态、运行着哪些应用、以及各个应用所处的控制状态等。例如,针对上述的智能电视、智能音箱以及智能电脑的运行状态进行获取,可以假设存在如下状态:
a)智能电视处于一个电影的暂停播放状态。
b)智能电视执行完一个电影名称的搜索,并显示了搜索结果。
c)智能音箱与手机蓝牙连接,并且处于音乐播放暂停状态,所播放音乐为手机中的音乐。
d)智能音箱处于wifi连接状态,并且处于在线音乐播放暂停状态。
f)智能电脑中运行着听书软件,并且处于播放暂停状态。
需要说明的是,以上各个状态并不是并存关系,例如,状态a和状态b对于同一个智能电视来说当前只会存在于一个状态中,状态c和状态d对于同一个智能音箱而言当前只会存在于一个状态中。
在实际应用中,虽然也会存在智能设备会同时运行多个应用情形,但是,可以将当前处于激活状态的应用或者处于平面显示的应用的状态作为当前的状态。
另外,需要说明的是,步骤S131和S132与步骤S133之间本身没有先后顺序,步骤S133可以与步骤S131和S132同时执行,也行在步骤S131之前执行,也可以在步骤S132之后执行,也可以在步骤,步骤S131和S132之间执行。
S134:根据各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定当前语音指令的控制对象。步骤S132和步骤S133已经获取到了各个设备的运行状态和控制场景,在步骤S134中,将会对各个设备的运行状态和一个或多个控制场景之间的匹配关系进行分析,看一下各个设备的运行状态与那种一控制场景匹配,然后就可以根据相应的控制场景确定相应的控制对象,并执行进一步的控制操作。
需要说明的是,这里所述的控制对象可以是设备也可以是设备中的具体某个应用或者进程。
仍然以上述的智能电视、智能音箱以及智能电脑为例,可能存在如下的情形:
A1)如果智能电视处于电影的暂停播放状态(上述状态a),智能音箱处于虽然与手机连接但是并未执行播放进程,智能电脑中的听书软件没有运行。针对这种情形,可以确定该“播放”控制意图指向智能电视中的电影播放进程。
A2)如果智能电视处于执行完一个电影名称的搜索并显示了搜索结果的状态(上述状态b),智能音箱处于虽然与手机连接但是并未执行播放进程,智能电脑中的听书软件没有运行。针对这种情形,可以确定该“播放”控制意图指向智能电视中的电影播放进程。
A3)如果智能音箱与手机蓝牙连接,并且处于音乐播放暂停状态,所播放音乐为手机中的音乐,智能电视只是显示主页界面,智能电脑中的听书软件没有运行。针对这种情形,可以确定该“播放”控制意图指向智能音箱中的音乐播放进程。
A4)智能音箱处于wifi连接状态,并且处于在线音乐播放暂停状态,智能电视只是显示主页界面,智能电脑中的听书软件没有运行。针对这种情形,可以确定该“播放”控制意图指向智能音箱中的音乐播放进程。
A5)如果智能电脑中运行着听书软件,并且处于播放暂停状态,智能音箱处于虽然与手机连接但是并未执行播放进程,智能电视只是显示主页界面。针对这种情形,可以确定该“播放”控制意图指向智能电脑中的听书软件应用。
通过上面的举例可以看出,通过综合分析各个设备的运行状态和当前语音指令中的控制意图对应的一个或多个控制场景,在一些情况下是可以确定出当前语音指令的合理的控制对象,从而能够更加准确地确定用户发出的当前语音指令的确定指向,从而方便用户的语音控制,减少实际控制对象和用户想要的控制对象之间的判断偏差,提高设备的智能化水平。
需要说明的是,基于上述的语音控制对象识别方法整个流程也可能存在无法唯一判定出用户的当前语音指令所指向的控制对象的情形,在这种情况下,可以通过后面介绍的其他处理方式来进一步判断,也可以直接向用户发出语音提示让用户进一步明确控制需求或者控制对象。
此外,在一些情形中,用户发出的当前语音指令中会包含能够体现控制对象的一些第二语义单元,如果存在能够第二语义单元,则可以基于此直接确定控制对象或筛选掉一部分控制对象。因此,在上述的步骤S131之前,还可以包括:
S130:识别当前语音指令中体现控制对象的第二语义单元,如果存在第二语义单元,则根据第二语义单元确定控制对象或者排除掉部分控制对象后,执行步骤S131,如果不存在第二语音单元,则执行步骤S131。例如,当前语音控制指令为“播放这个视频”,则如果环境中只有智能电视、智能音箱以及智能电脑三个设备,则可以直接把智能音箱排除掉,进而通过后续的设备的运行状态和可能场景的视频可以很容易确定出控制对象。如果环境中只有智能电视和智能音箱这两个设备,则可以直接确定出控制对象为智能电视中的视频播放进程。
如果通过上述的处理步骤仍然无法确定控制对象,例如在无法获取到各个设备当前所处的运行状态或者无法根据获取到运行状态确定所述当前语音指令的控制对象的情况下,则可以执行如下处理:
S135:获取当前语音指令的控制意图所对应的逻辑池中记录的最近一次历史语音指令所对应的逻辑类,所述逻辑池包括多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,根据所述逻辑类确定所述当前语音指令的控制对象。
该步骤主要是基于当前语音指令之前的历史语音指令并结合当前语音指令进行判断,属于基于语音指令的上下文的判断。不过,本实施例的特别之处在于,针对不同的控制意图构建了相应的逻辑池,逻辑池包括多个逻辑类,并且在设备开机后,对执行过的历史语音指令进行记录,记录方式为按照将历史语音指令按照逻辑类进行分别记录。在实际应用中,逻辑池的各个逻辑类中可以只保存属于该逻辑类的最近一次历史语音指令即可。
这里所说的逻辑类为控制意图所对应的具体控制领域或者具体控制场景等,通过逻辑类并结合环境中存在设备,可以确定具体的控制对象。
此外,需要说明的是,上述步骤S135中基于逻辑池来确定当前语音指令的控制对象的方法也可以作为一个独立的方案来执行,即不用在通过上述步骤S130到S134后无法确定出控制对象的情况下才执行。
进一步地,如果在所述逻辑池中无记录或者无法根据所述逻辑类确定所述当前语音指令的控制对象的情况下,可以执行如下处理:
S136:获取从当前语音指令的控制意图对应的控制对象队列中获取优先级最高的控制对象作为当前语音指令的控制对象,其中,所述控制对象队列中记录有根据用户行为习惯统计获得的所述控制意图对应的控制对象,并按照统计次数的多少进行优先级的排序,统计次数越高优先级越高。例如,根据用户的行为习惯,在“播放”这个意图下,对音箱的控制次数较多,则可以在步骤S130到S134都无法确定控制对象的情况下,将控制对象确定为音箱的音乐播放进程。
本实施例的语音控制对象识别方法,通过对设备的运行状态和控制场景之间的匹配关系进行分析,从而确定语音指令的控制对象,减少实际控制对象和用户想要的控制对象之间的判断偏差,提高设备的智能化水平。此外,本实施例还引入了逻辑池机制和控制对象队列等机制来进行独立或者辅助的控制对象判断,从而进一步提高了确定语音指令的控制对象的准确度。
实施例十一
如图14所示,为本发明实施例的语音控制对象识别装置结构图,该语音控制对象识别装置可设置在云端中,可用于执行如图13所示的方法步骤,其包括:
语义识别模块141,用于识别当前语音指令中体现控制意图的第一语义单元;
场景确定模块142,用于根据控制意图确定对应的一个或多个控制场景;
状态获取模块143,用于获取各个设备当前所处的运行状态;
第一对象确定模块144,用于根据各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定当前语音指令的控制对象。
进一步地,如图15所示,上述装置中还包括:
第一处理模块145,用于识别当前语音指令中体现控制对象的第二语义单元,如果存在第二语义单元,则根据第二语义单元确定控制对象或者排除掉部分控制对象后,执行获取当前语音指令中体现控制意图的第一语义单元的处理,否则,执行获取当前语音指令中体现控制意图的第一语义单元的处理。
进一步地,如图15所示,上述语音控制对象识别装置中还可包括:逻辑类获取模块146用于,
在无法获取到各个设备当前所处的运行状态或者无法根据获取到运行状态确定当前语音指令的控制对象的情况下,
获取当前语音指令的控制意图所对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池包括多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令;
第二对象确定模块147,用于根据所述逻辑类确定所述当前语音指令的控制对象。
进一步地,如图15所示,上述语音控制对象识别装置中还可包括:第二处理模块148用于,
在逻辑池中无记录或者无法根据逻辑类确定当前语音指令的控制对象的情况下,
获取从当前语音指令的控制意图对应的控制对象队列中获取优先级最高的控制对象作为当前语音指令的控制对象,其中,控制对象队列中记录有根据用户行为习惯统计获得的控制意图对应的控制对象,并按照统计次数的多少进行优先级的排序,统计次数越高优先级越高。
需要说明的是,上述逻辑类获取模块146和第二对象确定模块147也可以单独构成一个语音控制对象识别装置,如图16所示,直接根据当前语音指令进行语音控制对象的识别处理。
实施例十二
前面图14描述了语音控制对象识别装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图17所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器171和处理器172。
存储器171,用于存储程序。
除上述程序之外,存储器171还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器171可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器172,耦合至存储器171,用于执行存储器171中的程序,以用于:
识别当前语音指令中体现控制意图的第一语义单元;
根据所述控制意图确定对应的一个或多个控制场景;
获取各个设备当前所处的运行状态;
根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图17所示,电子设备还可以包括:通信组件173、电源组件174、音频组件175、显示器176等其它组件。图17中仅示意性给出部分组件,并不意味着电子设备只包括图17所示组件。
通信组件173被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件173经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件173还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件174,为电子设备的各种组件提供电力。电源组件174可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件175被配置为输出和/或输入音频信号。例如,音频组件175包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器171或经由通信组件173发送。在一些实施例中,音频组件175还包括一个扬声器,用于输出音频信号。
显示器176包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
实施例十三
前面图16描述了语音控制对象识别装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图18所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器181和处理器182。
存储器181,用于存储程序。
除上述程序之外,存储器181还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器181可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器182,耦合至存储器181,用于执行存储器181中的程序,以用于:
获取当前语音指令对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,
根据所述逻辑类确定所述当前语音指令的控制对象。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图18所示,电子设备还可以包括:通信组件183、电源组件184、音频组件185、显示器186等其它组件。图18中仅示意性给出部分组件,并不意味着电子设备只包括图18所示组件。
通信组件183被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件183经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件183还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件184,为电子设备的各种组件提供电力。电源组件184可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件185被配置为输出和/或输入音频信号。例如,音频组件185包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器181或经由通信组件183发送。在一些实施例中,音频组件185还包括一个扬声器,用于输出音频信号。
显示器186包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种语音控制对象识别方法,其特征在于,包括:
识别当前语音指令中体现控制意图的第一语义单元;
根据所述控制意图确定对应的一个或多个控制场景;
获取各个设备当前所处的运行状态;
根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
识别当前语音指令中体现控制对象的第二语义单元,如果存在所述第二语义单元,则根据所述第二语义单元确定所述控制对象或者排除掉部分控制对象后,执行所述获取当前语音指令中体现控制意图的第一语义单元的处理,否则,执行所述获取当前语音指令中体现控制意图的第一语义单元的处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在无法获取到各个设备当前所处的运行状态或者无法根据获取到运行状态确定所述当前语音指令的控制对象的情况下,
获取当前语音指令的控制意图所对应的逻辑池中记录的最近一次语音指令所对应的逻辑类,所述逻辑池包括多个逻辑类,每个逻辑类中记录有属于该逻辑类的历史语音指令,
根据所述逻辑类确定所述当前语音指令的控制对象。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述逻辑池中无记录或者无法根据所述逻辑类确定所述当前语音指令的控制对象的情况下,
获取从当前语音指令的控制意图对应的控制对象队列中获取优先级最高的控制对象作为当前语音指令的控制对象,其中,所述控制对象队列中记录有根据用户行为习惯统计获得的所述控制意图对应的控制对象,并按照统计次数的多少进行优先级的排序,统计次数越高优先级越高。
5.一种语音控制对象的识别装置,其特征在于,包括:
语义识别模块,用于识别当前语音指令中体现控制意图的第一语义单元;
场景确定模块,用于根据所述控制意图确定对应的一个或多个控制场景;
状态获取模块,用于获取各个设备当前所处的运行状态;
第一对象确定模块,用于根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
6.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
识别当前语音指令中体现控制意图的第一语义单元;
根据所述控制意图确定对应的一个或多个控制场景;
获取各个设备当前所处的运行状态;
根据所述各个设备的运行状态和一个或多个控制场景之间的匹配关系,确定所述当前语音指令的控制对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310133165.5A CN116364076A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310133165.5A CN116364076A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN201710539394.1A CN109243431A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710539394.1A Division CN109243431A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116364076A true CN116364076A (zh) | 2023-06-30 |
Family
ID=64950569
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710539394.1A Pending CN109243431A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN202310135300.XA Pending CN116364077A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN202310133165.5A Pending CN116364076A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710539394.1A Pending CN109243431A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN202310135300.XA Pending CN116364077A (zh) | 2017-07-04 | 2017-07-04 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (3) | CN109243431A (zh) |
WO (1) | WO2019007245A1 (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920418B (zh) * | 2019-02-20 | 2021-06-22 | 北京小米移动软件有限公司 | 调整唤醒灵敏度的方法及装置 |
CN111596833A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 一种技能话术缠绕处理方法和装置 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
CN110047485B (zh) * | 2019-05-16 | 2021-09-28 | 北京地平线机器人技术研发有限公司 | 识别唤醒词的方法和装置、介质以及设备 |
CN110047487B (zh) * | 2019-06-05 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN112147907A (zh) * | 2019-06-28 | 2020-12-29 | 广东美的制冷设备有限公司 | 运行控制方法、装置、线控设备和存储介质 |
CN110556107A (zh) * | 2019-08-23 | 2019-12-10 | 宁波奥克斯电气股份有限公司 | 可自动调节语音识别灵敏度的控制方法、系统、空调器及可读存储介质 |
CN112581945A (zh) * | 2019-09-29 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置、电子设备和可读存储介质 |
CN110782891B (zh) * | 2019-10-10 | 2022-02-18 | 珠海格力电器股份有限公司 | 一种音频处理方法、装置、计算设备及存储介质 |
CN110738044B (zh) * | 2019-10-17 | 2023-09-22 | 杭州涂鸦信息技术有限公司 | 控制意图识别方法及装置、电子设备和存储介质 |
CN111261160B (zh) * | 2020-01-20 | 2023-09-19 | 联想(北京)有限公司 | 一种信号处理方法及装置 |
CN111767083A (zh) * | 2020-02-03 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 |
CN112825030B (zh) * | 2020-02-28 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种应用程序控制方法、装置、设备及存储介质 |
CN113393834B (zh) * | 2020-03-11 | 2024-04-16 | 阿里巴巴集团控股有限公司 | 一种控制方法及装置 |
CN111580773B (zh) * | 2020-04-15 | 2023-11-14 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN113593541B (zh) * | 2020-04-30 | 2024-03-12 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和计算机存储介质 |
CN111552794B (zh) * | 2020-05-13 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 提示语生成方法、装置、设备和存储介质 |
CN111667827B (zh) * | 2020-05-28 | 2023-10-17 | 北京小米松果电子有限公司 | 应用程序的语音控制方法、装置及存储介质 |
CN111722824B (zh) * | 2020-05-29 | 2024-04-30 | 北京小米松果电子有限公司 | 语音控制方法、装置及计算机存储介质 |
CN111833874B (zh) * | 2020-07-10 | 2023-12-05 | 上海茂声智能科技有限公司 | 一种基于标识符的人机交互方法、系统、设备和存储介质 |
CN111951795B (zh) * | 2020-08-10 | 2024-04-09 | 中移(杭州)信息技术有限公司 | 语音交互方法、服务器、电子设备和存储介质 |
CN112133302B (zh) * | 2020-08-26 | 2024-05-07 | 北京小米松果电子有限公司 | 预唤醒终端的方法、装置及存储介质 |
CN112133296A (zh) * | 2020-08-27 | 2020-12-25 | 北京小米移动软件有限公司 | 全双工语音控制方法、装置、存储介质及语音设备 |
CN111966568A (zh) * | 2020-09-22 | 2020-11-20 | 北京百度网讯科技有限公司 | 一种提示方法、装置以及电子设备 |
CN112201244A (zh) * | 2020-09-30 | 2021-01-08 | 北京搜狗科技发展有限公司 | 一种记账方法、装置和耳机 |
CN112489642B (zh) * | 2020-10-21 | 2024-05-03 | 深圳追一科技有限公司 | 控制语音机器人响应的方法、装置、设备和存储介质 |
CN112365883B (zh) * | 2020-10-29 | 2023-12-26 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN112311635B (zh) * | 2020-11-05 | 2022-05-17 | 深圳市奥谷奇技术有限公司 | 语音打断唤醒方法、装置及计算机可读存储介质 |
CN112407111B (zh) * | 2020-11-20 | 2022-10-14 | 北京骑胜科技有限公司 | 控制方法、控制装置、车辆、存储介质和电子设备 |
CN112581960A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、电子设备及可读存储介质 |
CN112712807B (zh) * | 2020-12-23 | 2024-04-16 | 宁波奥克斯电气股份有限公司 | 语音提醒方法、装置、云端服务器及存储介质 |
CN112786042A (zh) * | 2020-12-28 | 2021-05-11 | 北京百度网讯科技有限公司 | 车载语音设备的调整方法、装置、设备及存储介质 |
CN112634897B (zh) * | 2020-12-31 | 2022-10-28 | 青岛海尔科技有限公司 | 设备唤醒方法、装置和存储介质及电子装置 |
CN112863545B (zh) * | 2021-01-13 | 2023-10-03 | 抖音视界有限公司 | 性能测试方法、装置、电子设备及计算机可读存储介质 |
CN113012695B (zh) * | 2021-02-18 | 2022-11-25 | 北京百度网讯科技有限公司 | 智能控制方法、装置、电子设备及计算机可读存储介质 |
CN112883314B (zh) * | 2021-02-25 | 2024-05-07 | 北京城市网邻信息技术有限公司 | 一种请求处理方法及装置 |
CN113643711B (zh) * | 2021-08-03 | 2024-04-19 | 常州匠心独具智能家居股份有限公司 | 用于智能家具的基于离线模式和在线模式的语音系统 |
CN113689853A (zh) * | 2021-08-11 | 2021-11-23 | 北京小米移动软件有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN113393839B (zh) * | 2021-08-16 | 2021-11-12 | 成都极米科技股份有限公司 | 智能终端控制方法、存储介质及智能终端 |
CN113689857B (zh) * | 2021-08-20 | 2024-04-26 | 北京小米移动软件有限公司 | 语音协同唤醒方法、装置、电子设备及存储介质 |
CN114023335A (zh) * | 2021-11-08 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
CN116416993A (zh) * | 2021-12-30 | 2023-07-11 | 华为技术有限公司 | 一种语音识别的方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN104347072A (zh) * | 2013-08-02 | 2015-02-11 | 广东美的制冷设备有限公司 | 遥控器控制的方法、装置和遥控器 |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
WO2016161641A1 (zh) * | 2015-04-10 | 2016-10-13 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
JP6495792B2 (ja) * | 2015-09-16 | 2019-04-03 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
US20170116994A1 (en) * | 2015-10-26 | 2017-04-27 | Le Holdings(Beijing)Co., Ltd. | Voice-awaking method, electronic device and storage medium |
CN105355201A (zh) * | 2015-11-27 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 基于场景的语音服务处理方法、装置和终端设备 |
CN106782554B (zh) * | 2016-12-19 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
-
2017
- 2017-07-04 CN CN201710539394.1A patent/CN109243431A/zh active Pending
- 2017-07-04 CN CN202310135300.XA patent/CN116364077A/zh active Pending
- 2017-07-04 CN CN202310133165.5A patent/CN116364076A/zh active Pending
-
2018
- 2018-06-28 WO PCT/CN2018/093216 patent/WO2019007245A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019007245A1 (zh) | 2019-01-10 |
CN109243431A (zh) | 2019-01-18 |
CN116364077A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116364076A (zh) | 一种处理方法、控制方法、识别方法及其装置和电子设备 | |
US10600415B2 (en) | Method, apparatus, device, and storage medium for voice interaction | |
CN107025906B (zh) | 扩展语音识别的周期的方法和产品以及信息处理设备 | |
US10366688B2 (en) | Voice control user interface with multiple voice processing modules | |
US10381001B2 (en) | Voice control user interface during low-power mode | |
EP3690877B1 (en) | Method and apparatus for controlling device | |
US10304465B2 (en) | Voice control user interface for low power mode | |
US10880833B2 (en) | Smart listening modes supporting quasi always-on listening | |
CN110060685B (zh) | 语音唤醒方法和装置 | |
JP2017517708A (ja) | エアコン起動方法、エアコン起動装置、コンピュータプログラム及びコンピュータ読み取り可能な記憶媒体 | |
US20140195235A1 (en) | Remote control apparatus and method for controlling power | |
CN105556595A (zh) | 用于调整用于激活话音辅助功能的检测阈值的方法及设备 | |
CN110730115B (zh) | 语音控制方法及装置、终端、存储介质 | |
CN111063354B (zh) | 人机交互方法及装置 | |
US10373615B2 (en) | Voice control user interface during low power mode | |
KR102343084B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
WO2019174487A1 (zh) | 设备的唤醒方法、装置及电子设备 | |
EP3933570A1 (en) | Method and apparatus for controlling a voice assistant, and computer-readable storage medium | |
US20190304460A1 (en) | Voice control user interface with progressive command engagement | |
CN103077721A (zh) | 移动终端的语音备忘方法及移动终端 | |
US11178280B2 (en) | Input during conversational session | |
CN109087650B (zh) | 语音唤醒方法及装置 | |
CN109686368B (zh) | 语音唤醒应答处理方法及装置、电子设备及存储介质 | |
CN112133302B (zh) | 预唤醒终端的方法、装置及存储介质 | |
US20220165258A1 (en) | Voice processing method, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |