CN110600023A - 一种终端设备交互方法、装置和终端设备 - Google Patents
一种终端设备交互方法、装置和终端设备 Download PDFInfo
- Publication number
- CN110600023A CN110600023A CN201810602117.5A CN201810602117A CN110600023A CN 110600023 A CN110600023 A CN 110600023A CN 201810602117 A CN201810602117 A CN 201810602117A CN 110600023 A CN110600023 A CN 110600023A
- Authority
- CN
- China
- Prior art keywords
- terminal equipment
- recognition model
- training
- activation information
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000003993 interaction Effects 0.000 title abstract description 13
- 230000004913 activation Effects 0.000 claims abstract description 87
- 230000003213 activating effect Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 210000001747 pupil Anatomy 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 16
- 230000002452 interceptive effect Effects 0.000 abstract description 12
- 238000004891 communication Methods 0.000 abstract description 5
- 230000002618 waking effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明适用于通信技术领域,提供了一种终端设备交互方法、装置和终端设备。该方法包括:采集用户输入的激活信息;基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。本发明的交互流程无需用户输入唤醒词,用户直接输入激活信息,通过识别模型完成终端设备的激活,之后完成交互。本发明不需要用户先唤醒终端设备的交互操作,大大简化了使用终端设备的交互复杂度,具有较强的易用性和实用性。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种终端设备交互方法、装置和终端设备。
背景技术
目前,人工智能和AI技术发展迅速,越来越多的企业将人工智能技术应用到其产品中。例如,在各类智能设备上都出现了AI智能助手,当前的主流唤醒智能助手的方式一般有两种,一种是通过按键或者触摸事件来唤醒智能助手,另一种通过语音来唤醒智能助手。在语音唤醒的方式中,均存在一个特定的唤醒词,如“小度”、“小艾同学”等等,用户通过语音唤醒词的方式来唤醒智能助手。使用唤醒词的方式虽然符合人类交流的特点,但此种方式存在经常性的唤醒失败的现象,操作效率低,降低了用户体验。
因此,有必要提出一种方案,以解决上述问题。
发明内容
有鉴于此,本发明实施例提供了一种终端设备交互方法、装置和终端设备,以解决现有技术中终端设备交互方法存在操作效率低的问题。
本发明实施例的第一方面提供了一种终端设备交互方法,包括:
采集用户输入的激活信息;
基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
可选地,所述训练后的识别模型包括多个分类器;
基于所述激活信息,通过预先训练好的识别模型评估分析是否需要激活终端设备包括:
对所述激活信息进行预处理,得到预处理后的输入信息;
从所述多个分类器中选择与所述输入信息对应的分类器;
通过选择的所述分类器对所述输入信息进行分类,得到分类结果;
若分类结果为第一结果,则确定需要激活所述终端设备,若分类结果为第二结果,则确定不需要激活所述终端设备。
可选地,所述激活信息包括以下任意一种:语音信息、文字信息、手势动作信息、面部表情变化信息和瞳孔变化信息。
可选地,在采集用户的激活信息之前,还包括:
创建初始的识别模型;
将训练样本输入所述初始的识别模型进行训练,获得训练后的识别模型,所述训练后的识别模型包括多个分类器。
可选地,所述训练样本为能够激活设备的正例数据,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将能够激活设备的正例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够将正例数据闭包且能够将不同于所述正例数据的数据区分于正例数据的第一分类器。
可选地,所述训练样本为能够激活设备的正例数据和不能够激活设备的负例数据,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将所述正例数据和负例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够判断输入的激活信息为正例数据还是负例数据的第二分类器。
可选地,配置双分类器识别模式,使得第一分类器的网络复杂度、功耗极和准确率均高于第二分类器或者,第一分类器的网络复杂度、功耗极和准确率均低于第二分类器。
本发明实施例的第二方面提供了一种终端设备交互装置,包括:
采集模块,用于采集用户输入的激活信息;
评估分析模块,用于基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
激活模块,用于若需要激活终端设备,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面中方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面中方法的步骤。
在本发明实施例中,首先采集用户的激活信息,然后基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令,以完成交互。本方案的交互流程无需用户输入唤醒词,用户直接输入激活信息,通过识别模型完成终端设备的激活,之后完成交互。例如,在当用户想通过智能语音助手打电话给某人的场景中,使用一般的交互流程,用户需要先说“唤醒词”,正确唤醒终端设备,得到终端设备的响应后,才能告知“打电话给某人”的目标语音指令以完成打电话给某人的目标;在本发明实施例中,用户直接输入激活信息“打电话给某人”,终端设备接受到激活信息后通过识别模型评估分析是否需要激活设备,若是则进行激活处理,完成打电话给某人的目的。因此,本发明实施例避免了用户先唤醒终端设备的交互操作,大大简化了使用终端设备的交互复杂度,具有较强的易用性和实用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的终端设备交互方法的实现流程示意图;
图2是本发明实施例二提供的终端设备交互方法的实现流程示意图;
图3是本发明实施例提供的终端设备交互方法的实现流程示意图;
图4是本发明实施例提供的具体实施框架图;
图5是本发明实施例三提供的终端设备交互装置的结构框图;
图6是本发明实施例四提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当……时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
图1示出了本发明实施例一提供的终端设备交互方法的实现流程示意图。如图1所示,该终端设备交互方法具体可包括如下步骤S101至步骤S103。
步骤S101:采集用户输入的激活信息。
本实施例的执行主体为终端设备(例如智能手机、机器人等),该终端设备包括音频采集模块,通过音频采集模块自动采集用户的激活信息。所述激活信息包括以下任意一种:语音信息、文字信息、手势动作信息、面部表情变化信息和瞳孔变化信息。以激活信息为语音信息来说明,可根据终端设备的实际使用场景来具体定义音频采集模块,例如麦克风阵列等。该步骤旨在采集用户在终端设备周围发出的语音信息。
进一步,可保存用户输入的激活信息,对用户一段时间内输入的激活信息进行分析,获取用户的习惯输入的激活信息。可选地,上述激活信息还可以是文字信息,当用户不具有输入语音信息的能力或者在当前场景下不方便输入语音信息时,可输入文字信息替代语音信息进行相应的操作。可以理解的是,当用户输入的为文字信息时,终端设备至少包括一个文字输入模块。
步骤S102:基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备。
根据用户输入的激活信息,通过训练后的识别模型评估分析输入的激活信息,确定是否需要激活终端设备。识别模型所使用的机器学习算法并无局限性,可以使用任何算法模型(如One-classSVM、CNN、GAN等传统机器学习算法和深度学习算法)。
步骤S103:若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
例如,在当用户想通过智能手机上的智能语音助手打电话给某人的场景中,使用一般的交互流程,用户需要先说“唤醒词”,正确唤醒终端设备,得到终端设备的响应后,才能告知“打电话给某人”的目标语音指令以完成打电话给某人的目标;在本发明实施例中,用户直接输入语音信息“打电话给某人”,终端设备接受到语音信息后通过识别模型评估分析是否需要激活设备,若是则进行激活处理,完成打电话给某人的目的。
在本发明实施例中,首先采集用户的激活信息,然后基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令,以完成交互。本方案的交互流程无需用户输入唤醒词,用户直接输入激活信息,通过识别模型完成终端设备的激活,之后完成交互。例如,在当用户想通过智能语音助手打电话给某人的场景中,使用一般的交互流程,用户需要先说“唤醒词”,正确唤醒终端设备,得到终端设备的响应后,才能告知“打电话给某人”的目标语音指令以完成打电话给某人的目标;在本发明实施例中,用户直接输入激活信息“打电话给某人”,终端设备接受到激活信息后通过识别模型评估分析是否需要激活设备,若是则进行激活处理,完成打电话给某人的目的。因此,本发明实施例避免了用户先唤醒终端设备的交互操作,大大简化了使用终端设备的交互复杂度,具有较强的易用性和实用性。
实施例二
在实施例一的基础上,图2示出了本发明实施例二提供的终端设备交互方法的实现流程示意图:
步骤S201:创建初始的识别模型。
步骤S202:将训练样本输入所述初始的识别模型进行训练,获得训练后的识别模型,所述训练后的识别模型包括多个分类器。
将训练样本输入所述初始的识别模型进行训练,获得训练后的识别模型包括至少两种方式:
在第一种训练方式中,所述训练样本为能够激活设备的正例数据;
对应地,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将能够激活设备的正例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够将正例数据闭包且能够将不同于所述正例数据的数据区分于正例数据的第一分类器。
针对第一种训练方式,本实施例的核心思想为:通过学习正例的样本特征得到一个能够将正例闭包(闭包程度使用参数可控),且能够将不同于该正例的样本正确区分于正样本的分类器。本实施例通过在能够激活设备的正例数据的数据集上训练,最终得到了第一分类器。可选地,还可以基于机器学习中的异常检测思想,使用传统机器学习算法或者深度学习算法得到第一分类器。
在第二种训练方式中,所述训练样本为能够激活设备的正例数据和不能够激活设备的负例数据;
对应地,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将所述正例数据和负例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够判断输入的激活信息为正例数据还是负例数据的第二分类器。
针对第二种训练方式,本实施例的核心思想为:通过学习正例样本和负例样本特征得到一个能够将输入数据正确分类,即能够判断输入的激活信息为正例数据还是负例数据的第二分类器。通过在能够激活设备的正例数据和不能够激活设备的负例数据的数据集上进行训练,最终得到了该第二分类器。可选地,还可以使用传统机器学习算法或者深度学习算法得到第二分类器。
可选地,作为本发明的一个优选实施例,本方案具体实施过程中考虑分类器在智能设备上的性能和功耗问题,可以根据具体的终端设备的功耗要求,通过对分类器的算法模型的结构和尺寸进行相应裁剪,例如在使用CNN卷积神经网络搭建模型的过程中,通过减少通道数,数据尺寸裁剪,降低网络层数等方式达到控制模型的大小和计算复杂度的目的,从而达到将智能分类器的性能和功耗约束到实际应用的要求范围之内的目的。另外,为平衡性能和准确率的关系,可设置双模型模式,即一个网络复杂度较高、准确率极高、功耗稍大的分类器A和一个网络复杂度低、功耗极低、准确率一般高的分类器B,在不同的使用场景下选用不同的分类器模型。例如,当设备处于输入数据密集(即输入频率高)的场景下,使用智能分类器B,以保证整体功耗保持较低,其余正常情况下采用智能分类器A,具体转换机制和限定条件等可根据终端设备的具体要求制定。
步骤S203:采集用户输入的激活信息。
步骤S204:基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备。
可选地,所述训练后的识别模型包括多个分类器,基于所述激活信息,通过预先训练好的识别模型评估分析是否需要激活终端设备包括:
步骤S301:对所述激活信息进行预处理,得到预处理后的输入信息。
步骤S302:从所述多个分类器中选择与所述输入信息对应的分类器。
步骤S303:通过选择的所述分类器对所述输入信息进行分类,得到分类结果。
步骤S304:若分类结果为第一结果,则确定需要激活所述终端设备,若分类结果为第二结果,则确定不需要激活所述终端设备。
针对步骤S301至步骤S304,具体实施框架图如附图4所示。用户原始输入数据(RawInput Data)例如激活信息,经过预处理模块(Encoder)进行数据预处理,得到处理后的可用数据(Input Data)例如预处理后的输入信息,之后通过转换模块(Switcher,根据目标产品上的需求制定转换模块具体规则),决定使用分类器A或是B,分类器处理过InputData后为得到该数据的标签(Label,1代表应该激活设备的数据,0代表不应该激活设备的数据),label为1(第一结果)则认定成功激活设备,此时激活连接的终端设备并传入数据以完成后续处理步骤。Label为0(第二结果)则丢弃该数据,完成处理流程。
步骤S205:若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
上述步骤S203和步骤S205分别与步骤S101和步骤S103相同,具体可参见步骤S101至步骤S103的相关描述,在此不再赘述。
在本发明实施例中,通过将训练样本输入初始的识别模型进行训练,获得训练后的识别模型,所述训练后的识别模型包括多个分类器,再通过训练后的包括多个分类器的识别模型对用户输入的激活信息进行识别来确定是否激活终端设备,提高了判断的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三
请参考图5,其示出了本发明实施例三提供的终端设备交互装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。所述终端设备交互装置50包括:采集模块51、评估分析模块52和激活模块53。其中,各模块的具体功能如下:
采集模块51,用于采集用户输入的激活信息;
评估分析模块52,用于基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
激活模块53,用于若需要激活终端设备,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
可选地,评估分析模块52包括:
预处理单元,用于对所述激活信息进行预处理,得到预处理后的输入信息;
选择单元,用于从所述多个分类器中选择与所述输入信息对应的分类器;
分类单元,用于通过选择的所述分类器对所述输入信息进行分类,得到分类结果;
确定单元,用于若分类结果为第一结果,则确定需要激活所述终端设备,若分类结果为第二结果,则确定不需要激活所述终端设备。
可选地,终端设备交互装置50还包括:
创建模块,用于创建初始的识别模型;
训练模块,用于将训练样本输入所述初始的识别模型进行训练,获得训练后的识别模型,所述训练后的识别模型包括多个分类器。
可选地,所述训练模块包括:
第一输入单元,用于将能够激活设备的正例数据作为训练样本输入所述识别模型进行训练;
第一训练单元,用于通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够将正例数据闭包且能够将不同于所述正例数据的数据区分于正例数据的第一分类器。
可选地,所述训练模块包括:
第二输入单元,用于将所述正例数据和负例数据作为训练样本输入所述识别模型进行训练;
第二训练单元,用于通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够判断输入的激活信息为正例数据还是负例数据的第二分类器。
在本发明实施例中,首先采集用户的激活信息,然后基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令,以完成交互。本方案的交互流程无需用户输入唤醒词,用户直接输入激活信息,通过识别模型完成终端设备的激活,之后完成交互。例如,在当用户想通过智能语音助手打电话给某人的场景中,使用一般的交互流程,用户需要先说“唤醒词”,正确唤醒终端设备,得到终端设备的响应后,才能告知“打电话给某人”的目标语音指令以完成打电话给某人的目标;在本发明实施例中,用户直接输入激活信息“打电话给某人”,终端设备接受到激活信息后通过识别模型评估分析是否需要激活设备,若是则进行激活处理,完成打电话给某人的目的。因此,本发明实施例避免了用户先唤醒终端设备的交互操作,大大简化了使用终端设备的交互复杂度,具有较强的易用性和实用性。
实施例四
图6是本发明四实施例提供的终端设备的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如终端设备交互方法程序。所述处理器60执行所述计算机程序62时实现上述各个终端设备交互方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块的功能,例如图5所示模块51至53的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如,所述计算机程序62可以被分割成采集模块、评估分析模块和激活模块,各模块的具体功能如下:
采集模块,用于采集用户输入的激活信息;
评估分析模块,用于基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
激活模块,用于若需要激活终端设备,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种终端设备交互方法,其特征在于,包括:
采集用户输入的激活信息;
基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
若是,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
2.如权利要求1所述的终端设备交互方法,其特征在于,所述训练后的识别模型包括多个分类器;
基于所述激活信息,通过预先训练好的识别模型评估分析是否需要激活终端设备包括:
对所述激活信息进行预处理,得到预处理后的输入信息;
从所述多个分类器中选择与所述输入信息对应的分类器;
通过选择的所述分类器对所述输入信息进行分类,得到分类结果;
若分类结果为第一结果,则确定需要激活所述终端设备,若分类结果为第二结果,则确定不需要激活所述终端设备。
3.如权利要求1所述的终端设备交互方法,其特征在于,所述激活信息包括以下任意一种:语音信息、文字信息、手势动作信息、面部表情变化信息和瞳孔变化信息。
4.如权利要求1所述的终端设备交互方法,其特征在于,在采集用户的激活信息之前,还包括:
创建初始的识别模型;
将训练样本输入所述初始的识别模型进行训练,获得训练后的识别模型,所述训练后的识别模型包括多个分类器。
5.如权利要求4所述的终端设备交互方法,其特征在于,所述训练样本为能够激活设备的正例数据,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将能够激活设备的正例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够将正例数据闭包且能够将不同于所述正例数据的数据区分于正例数据的第一分类器。
6.如权利要求4所述的终端设备交互方法,其特征在于,所述训练样本为能够激活设备的正例数据和不能够激活设备的负例数据,将训练样本输入所述识别模型进行训练,得到所述分类器包括:
将所述正例数据和负例数据作为训练样本输入所述识别模型进行训练;
通过机器学习算法或者深度学习算法学习正例数据的样本特征,训练得到一个能够判断输入的激活信息为正例数据还是负例数据的第二分类器。
7.如权利要求5或6项任一所述的终端设备交互方法,其特征在于,配置双分类器识别模式,使得第一分类器的网络复杂度、功耗极和准确率均高于第二分类器或者,第一分类器的网络复杂度、功耗极和准确率均低于第二分类器。
8.一种终端设备交互装置,其特征在于,包括:
采集模块,用于采集用户输入的激活信息;
评估分析模块,用于基于所述激活信息,通过训练后的识别模型评估分析是否需要激活终端设备;
激活模块,用于若需要激活终端设备,则激活所述终端设备,并在激活所述终端设备后执行与所述激活信息对应的指令。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810602117.5A CN110600023A (zh) | 2018-06-12 | 2018-06-12 | 一种终端设备交互方法、装置和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810602117.5A CN110600023A (zh) | 2018-06-12 | 2018-06-12 | 一种终端设备交互方法、装置和终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110600023A true CN110600023A (zh) | 2019-12-20 |
Family
ID=68849228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810602117.5A Pending CN110600023A (zh) | 2018-06-12 | 2018-06-12 | 一种终端设备交互方法、装置和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600023A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150536A1 (en) * | 2010-12-09 | 2012-06-14 | International Business Machines Corporation | Model restructuring for client and server based automatic speech recognition |
US20140274203A1 (en) * | 2013-03-12 | 2014-09-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN106863319A (zh) * | 2017-01-17 | 2017-06-20 | 北京光年无限科技有限公司 | 一种机器人唤醒方法及装置 |
CN107481209A (zh) * | 2017-08-21 | 2017-12-15 | 北京航空航天大学 | 一种基于卷积神经网络的图像或视频质量增强方法 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
-
2018
- 2018-06-12 CN CN201810602117.5A patent/CN110600023A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150536A1 (en) * | 2010-12-09 | 2012-06-14 | International Business Machines Corporation | Model restructuring for client and server based automatic speech recognition |
US20140274203A1 (en) * | 2013-03-12 | 2014-09-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN106863319A (zh) * | 2017-01-17 | 2017-06-20 | 北京光年无限科技有限公司 | 一种机器人唤醒方法及装置 |
CN107481209A (zh) * | 2017-08-21 | 2017-12-15 | 北京航空航天大学 | 一种基于卷积神经网络的图像或视频质量增强方法 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
Non-Patent Citations (2)
Title |
---|
REN YANG等: "《Decoder-side HEVC quality enhancement with scalable convolutional neural network》", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
徐立中,等: "《数字图像的智能信息处理》", 31 January 2007, 北京:国防工业出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515627B2 (en) | Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus | |
KR102317958B1 (ko) | 화상처리장치 및 방법 | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN107633207A (zh) | Au特征识别方法、装置及存储介质 | |
EP3617946A1 (en) | Context acquisition method and device based on voice interaction | |
CN107610698A (zh) | 一种实现语音控制的方法、机器人及计算机可读存储介质 | |
CN104346503A (zh) | 一种基于人脸图像的情感健康监控方法及手机 | |
CN104616002A (zh) | 用于年龄段判断的面部识别设备 | |
CN111508493B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111179935A (zh) | 一种语音质检的方法和设备 | |
CN111382248A (zh) | 一种问题回复方法、装置、存储介质及终端设备 | |
CN105631445A (zh) | 中文车牌字符识别方法及系统 | |
CN115512005A (zh) | 一种数据处理方法及其装置 | |
CN111191207A (zh) | 电子文件的控制方法、装置、计算机设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
US20200043477A1 (en) | Sensor-Processing Systems Including Neuromorphic Processing Modules and Methods Thereof | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN112884040B (zh) | 训练样本数据的优化方法、系统、存储介质及电子设备 | |
CN110717407A (zh) | 基于唇语密码的人脸识别方法、装置及存储介质 | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN117219074A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN108231074A (zh) | 一种数据处理方法、语音助手设备及计算机可读存储介质 | |
CN109446780B (zh) | 一种身份认证方法、装置及其存储介质 | |
CN115954019A (zh) | 一种融合自注意力和卷积操作的环境噪声识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |