CN104615359A - 对应用软件进行语音操作的方法及装置 - Google Patents
对应用软件进行语音操作的方法及装置 Download PDFInfo
- Publication number
- CN104615359A CN104615359A CN201510079912.7A CN201510079912A CN104615359A CN 104615359 A CN104615359 A CN 104615359A CN 201510079912 A CN201510079912 A CN 201510079912A CN 104615359 A CN104615359 A CN 104615359A
- Authority
- CN
- China
- Prior art keywords
- voice
- application software
- user
- operational order
- operating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000011022 operating instruction Methods 0.000 claims abstract description 11
- 230000000052 comparative effect Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010411 cooking Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开是关于一种对应用软件进行语音操作的方法及装置,用以在用户不方便手动操作应用软件的情形下仍使用户能够有效地操作应用软件。所述方法包括:确定用户的语音强度是否达到进行语音识别的触发条件;在确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;根据所述操作指令对所述应用软件进行操作。本公开技术方案能够使用户无需中断双手当前正在做的事情即可实现对应用软件的操作,避免了用户的手动操作,极大地提高了用户对应用软件的操作体验。
Description
技术领域
本公开涉及通信技术领域,尤其涉及一种对应用软件进行语音操作的方法及装置。
背景技术
随着手机上的应用软件的广泛普及,用户在需要开启应用软件时需要手动操作,当用户在进行某些需要占用双手的活动并且需要对应用软件的相应功能进行控制时,例如,用户在锻炼时,用户通过设置手机上的计时类的应用软件对用户的锻炼时间进行计时,当应用软件通过计时确定锻炼完毕时,通过响铃的方式提醒用户锻炼结束,此时用户双手仍手持运动器械并不方便将应用软件关闭,致使用户不能方便有效地控制应用软件。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种对应用软件进行语音操作的方法及装置,用以在用户不方便手动操作应用软件的情形下仍使用户能够有效地操作应用软件。
根据本公开实施例的第一方面,提供一种对应用软件进行语音操作的方法,包括:
确定用户的语音强度是否达到进行语音识别的触发条件;
在确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
根据所述操作指令对所述应用软件进行操作。
在一实施例中,所述确定用户的语音强度是否达到进行语音识别的触发条件,可包括:
将所述用户的语音强度与分贝阈值进行比较;
如果所述语音强度大于或者等于所述分贝阈值,确定所述语音强度达到进行语音识别的触发条件;
如果所述语音强度小于所述分贝阈值,确定所述语音强度未达到进行语音识别的触发条件。
在一实施例中,所述从所述用户的语音中识别用于操作所述应用软件的操作指令,可包括:
从所述用户的语音中提取语音特征矢量;
将所述语音特征矢量与所述应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
根据所述比较结果确定用于操作所述应用软件的操作指令。
在一实施例中,所述根据所述比较结果确定用于操作所述应用软件的操作指令,可包括:
确定所述比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
如果所述相似度最高的特征矢量大于或者等于所述比较阈值,将所述相似度最高的特征矢量对应的操作指令作为用于操作所述应用软件的操作指令;
如果所述相似度最高的特征矢量小于所述比较阈值,播放第一语音提示,以使所述用户根据所述第一语音提示重新进行语音操作。
在一实施例中,所述方法还可包括:
如果从所述用户的语音中未识别出用于操作所述应用软件的操作指令,对所述用户进行语音输入错误的语音提示。
根据本公开实施例的第二方面,提供一种对应用软件进行语音操作的装置,包括:
确定模块,被配置为确定用户的语音强度是否达到进行语音识别的触发条件;
识别模块,被配置为在所述确定模块确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
操作模块,被配置为根据所述识别模块识别的所述操作指令对所述应用软件进行操作。
在一实施例中,所述确定模块可包括:
第一比较子模块,被配置为将所述用户的语音强度与分贝阈值进行比较;
第一确定子模块,被配置为如果所述第一比较子模块的比较结果为所述语音强度大于或者等于所述分贝阈值,确定所述语音强度达到进行语音识别的触发条件;
第二确定子模块,被配置为如果所述第一比较子模块的比较结果为所述语音强度小于所述分贝阈值,确定所述语音强度未达到进行语音识别的触发条件。
在一实施例中,所述识别模块可包括:
提取子模块,被配置为从所述用户的语音中提取语音特征矢量;
第二比较子模块,被配置为将所述提取子模块提取到的所述语音特征矢量与所述应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
第三确定子模块,被配置为根据所述第二比较子模块的比较结果确定用于操作所述应用软件的操作指令。
在一实施例中,所述第三确定子模块可包括:
第四确定子模块,被配置为确定所述第二比较子模块的比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
第五确定子模块,被配置为如果所述第四确定子模块确定的所述相似度最高的特征矢量大于或者等于所述比较阈值,将所述相似度最高的特征矢量对应的操作指令作为用于操作所述应用软件的操作指令;
播放子模块,被配置为如果所述第四确定子模块确定的所述相似度最高的特征矢量小于所述比较阈值,播放第一语音提示,以使所述用户根据所述第一语音提示重新进行语音操作。
在一实施例中,所述装置还可包括:
播放模块,被配置为如果所述识别模块从所述用户的语音中未识别出用于操作所述应用软件的操作指令,播放第二语音提示,以提示所述用户的语音输入错误。
根据本公开实施例的第三方面,提供一种对应用软件进行语音操作的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定用户的语音强度是否达到进行语音识别的触发条件;
在确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
根据所述操作指令对所述应用软件进行操作。
本公开的实施例提供的技术方案可以包括以下有益效果:通过语音输入的方式对应用软件进行操作,当用户的双手被占用并且必须要对应用软件进行操作时,能够使用户无需中断双手当前正在做的事情即可实现对应用软件的操作,避免了用户的手动操作,极大地提高了用户对应用软件的操作体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的进行语音操作的方法的流程图。
图2A是根据一示例性实施例一示出的进行语音操作的方法的流程图。
图2B是根据一示例性实施例一示出的进行语音操作的界面示意图。
图2C是根据一示例性实施例一示出的步骤S205的流程图。
图3A是根据一示例性实施例二示出的移动终端的框图。
图3B是根据一示例性实施例二示出的进行语音操作的应用场景图。
图4是根据一示例性实施例示出的一种进行语音操作的装置的框图。
图5是根据一示例性实施例示出的另一种进行语音操作的装置的框图。
图6是根据一示例性实施例示出的一种适用于进行语音操作的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的进行语音操作的方法的流程图,该进行语音操作的方法可以应用在终端设备(例如:智能手机、平板电脑、智能电视、PC等)上,可以通过在智能手机或者平板电脑上安装应用的方式或者在PC的用户桌面上安装软件的方式实现,如图1所示,该进行语音操作的方法包括以下步骤S101-S 103:
在步骤S101中,确定用户的语音强度是否达到进行语音识别的触发条件。
在一实施例中,可以通过设置在移动终端上的声控传感器确定用户的语音强度。在一实施例中,可以通过将用户的语音强度与预设的分贝阈值进行比较,当语音强度超过分贝阈值时,确定达到进行语音识别的触发条件,在另一实施例中,还可以先确定声控传感器当前接收到的声音的平均强度,当用户的语音强度超过平均强度的设定倍数(例如,语音强度超过平均强度的1.5倍)时,确定达到进行语音识别的触发条件。
在步骤S102中,在确定语音强度达到进行语音识别的触发条件后,从用户的语音中识别用于操作应用软件的操作指令。
在一实施例中,用于操作应用软件的操作指令例如为:暂停、快进、停止、开始等指令,具体的操作指令可以依据具体的应用软件而定,例如,对于定时器应用(app),当定时结束并需要响铃对用户进行定时提醒时,在用户双手被占用或者不方便手动关闭定时器的响铃时,可以通过“停止”的语音来关闭定时器应用(app)的响铃,再例如,当用户正在厨房进行烹调并且双手还手持刀具时,如果其通过终端设备的视频应用收看某一视频节目,当播放到其中一段比较精彩的环节但是用户双手还需要忙于烹调,此时用户可以通过“暂停”的语音来控制视频应用进行暂停,或者,用户觉得剧情拖拉,需要对视频应用进行快进,则可以通过“快进”的语音来控制视频应用进行快进,从而加快播放。由此可知,本公开实施例对具体的语音不做限制。
在步骤S103中,根据操作指令对应用软件进行操作。
在一实施例中,与上述步骤S102相对应,例如,当用户输入“快进”的语音时,当通过语音识别解析出“快进”的操作指令时,根据该操作指令即可控制应用软件。
在本实施例中,通过语音输入的方式进行操作,当用户的双手被占用并且必须要进行操作时,能够使用户无需中断双手当前正在做的事情即可实现的操作,避免了用户的手动操作,极大地提高了用户的操作体验。
能够远程控制,在洁净度要求较高的时候无需因为操作计时器而造成交叉污染
在一实施例中,确定用户的语音强度是否达到进行语音识别的触发条件,可包括:
将用户的语音强度与分贝阈值进行比较;
如果语音强度大于或者等于分贝阈值,确定语音强度达到进行语音识别的触发条件;
如果语音强度小于分贝阈值,确定语音强度未达到进行语音识别的触发条件。
在一实施例中,从用户的语音中识别用于操作应用软件的操作指令,可包括:
从用户的语音中提取语音特征矢量;
将语音特征矢量与应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
根据比较结果确定用于操作应用软件的操作指令。
在一实施例中,根据比较结果确定用于操作应用软件的操作指令,可包括:
确定比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
如果相似度最高的特征矢量大于或者等于比较阈值,将相似度最高的特征矢量对应的操作指令作为用于操作应用软件的操作指令。
在一实施例中,方法还可包括:
如果从用户的语音中未识别出用于操作应用软件的操作指令,对用户进行语音输入错误的语音提示。
具体如何进行语音操作的,请参考后续实施例。
至此,本公开实施例提供的上述方法,当用户的双手被占用并且必须要对应用软件进行操作时,能够使用户无需中断双手当前正在做的事情即可实现对应用软件的操作,避免了用户的手动操作,极大地提高了用户对应用软件的操作体验。
下面以具体实施例来说明本公开实施例提供的技术方案。
图2A是根据一示例性实施例一示出的进行语音操作的方法的流程图,图2B根据一示例性实施例一示出的进行语音操作的界面示意图,图2C是根据一示例性实施例一示出的步骤S204的流程图;本实施例利用本公开实施例提供的上述方法,以应用软件为计时器应用程序为例进行示例性说明,如图2A所示,包括如下步骤:
在步骤S201中,将用户的语音强度与分贝阈值进行比较,如果语音强度大于或者等于分贝阈值,执行步骤S202,如果语音强度小于分贝阈值,执行步骤S206。
在一实施例中,分贝阈值可以由用户根据其自身的发声强度而定,例如,如果用户平时习惯高声调的讲话,则可以将该分贝阈值设置的较高一些,如果用户平时习惯轻声细语般的讲话,则可以将该分贝阈值设置的较低一些,由此,本公开实施例对分贝阈值的具体设置及具体大小不做限制,只要能够通过后续的过程识别出用户的语音即可。
在步骤S202中,如果语音强度大于或者等于分贝阈值,确定语音强度达到进行语音识别的触发条件,执行步骤S203。
在步骤S203中,从用户的语音中提取语音特征矢量,执行步骤S204。
在一实施例中,用户进行操作的指令不同,则相应的语音也会不同,如图2B所示,在计时器应用软件的用户界面20上,除了虚线框21所述的计时器的常规显示内容“已过时长”和“定时时长”之外,该用户界面20上还设置有一个麦克风22的图标,通过麦克风22可以使用户获知该计时器应用软件可以使用户进行语音操作。例如,用户需要对计时器软件进行“暂停”处理,由于进行“暂停”处理与进行“快进”处理的语音是不同的,则“暂停”与“快进”各自对应的语音特征矢量也不相同,因此通过语音特征矢量可以确定用户输入的语音内容,具体可以通过语音识别技术来实现,本公开实施例在此不进行详述。
在步骤S204中,将语音特征矢量与应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果,执行步骤S205。
在一实施例中,为了使应用软件能够区分不容的语音操作指令,可以通过语音训练的方式首先得到用户在发出“快进”、“停止”、“开始”、“后退”等语音时对应的特征矢量,将上述特征矢量存储在应用软件中,当终端设备接收到语音后,将用户的语音特征矢量与已存储的特征矢量进行比较,得到用户的语音特征矢量与多个特征矢量的相似值,从而可以根据相似值来确定用户的语音特征矢量与多个特征矢量中的哪一个特征矢量最接近。例如,在图2B所示的计时器应用软件中,已存储的特征矢量可以为“停止”,当用户发出“停止”的语音时,可以使计时器在对用户进行响铃提醒后,用户通过“停止”的语音即可关闭计时器的响铃,避免用户在双手被占用的情形下仍能够通过语音对计时器软件进行操作。
在步骤S205中,根据比较结果确定用于操作应用软件的操作指令,流程结束。
在一实施例中,如图2C所示,步骤S205可以包括如下步骤S211和步骤S213:
在步骤S211中,确定比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值,如果相似度最高的特征矢量大于或者等于比较阈值,执行步骤S212,如果相似度最高的特征矢量小于比较阈值,执行步骤S213。
在步骤S212中,如果相似度最高的特征矢量大于或者等于比较阈值,将相似度最高的特征矢量对应的操作指令作为用于操作应用软件的操作指令。
在步骤S213中,如果相似度最高的特征矢量小于比较阈值,播放第一语音提示,以使用户根据第一语音提示重新进行语音操作。
通过步骤S211至步骤S213,例如,当用户的语音为“结束”时,虽然此时可以得到“结束”对应的语音特征矢量,并将该语音特征矢量与已存储的多个特征矢量进行计算后得到相应的相似度,但由于已存储的特征矢量中并没有“结束”对应的语音特征矢量,因此虽然此时“结束”对应的语音特征矢量与已存储的多个特征矢量之间的相似度虽然不为零,也不能通过“结束”的语音实现对应用软件的语音控制,再例如,当用户的语音为“停止”时,“停止”对应的语音特征矢量与已存储的多个特征矢量中的“停止”对应的特征矢量的相似度应该为最大,并且应该大于一个预设的比较阈值,因此,本公开通过比较阈值可以避免应用软件通过错误的语音进行错误的语音操作,进而确保语音操作的准确性。
在步骤S206中,如果语音强度小于分贝阈值,确定语音强度未达到进行语音识别的触发条件,流程结束。
本实施例除了具有上述实施例的有益技术效果之外,还通过将语音特征矢量与应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果,根据比较结果确定用于操作应用软件的操作指令,从而可以根据相似值来确定用户的语音特征矢量与多个特征矢量中的哪一个特征矢量最接近,避免应用软件通过错误的语音进行错误的语音操作,进而确保语音操作的准确性。
图3A是根据一示例性实施例二示出的移动终端的框图,图3B是根据一示例性实施例二示出的进行语音操作的应用场景图。如图3A所示,当移动终端30上启动应用软件34后,声控传感器31进入工作状态,当声控传感器31接收到用户发出的超过一定分贝的语音后,并同时启动移动终端30上的麦克风32收集用户发出的语音,语音识别引擎33对用户的语音进行分析,将语音信息转化为34进行操作的配置命令或者控制命令,从而实现通过语音操作应用软件。
图3B是根据一示例性实施例二示出的进行语音操作的应用场景图,本实施例利用本公开实施例提供的上述方法,以应用软件具体为视频播放器应用(app)为例进行示例性说明;如图3B所示,在移动终端30的音频播放器app的用户界面上,除了虚线框35所述的视频播放器当前播放的视频内容为“明星新片现场”,该移动终端30的音频播放器app的用户界面上还设置有一个麦克风36的图标,通过麦克风36可以使用户获知该视频播放器app可以使用户进行语音操作。例如,用户需要对视频播放器app进行“暂停”处理,由于进行“暂停”处理与进行“快进”处理的语音是不同的,则“暂停”与“快进”各自对应的语音特征矢量也不相同,因此通过语音特征矢量可以确定用户输入的语音内容,具体可以通过语音识别技术来实现,本公开实施例在此不进行详述。
在图3B所示的视频播放器app中,当用户正在厨房进行烹调并且双手还手持刀具时,如果其通过视频播放器app收看某一视频节目,当播放到其中一段比较精彩的环节但是用户双手还需要忙于烹调,此时用户可以通过“暂停”的语音来控制视频应用进行暂停,或者,用户觉得剧情拖拉,需要对视频播放器app当前所播放的视频节目进行快进,则可以通过“快进”的语音来控制视频应用进行快进,从而加快播放,避免用户在双手被占用的情形下仍能够通过语音对计时器软件进行操作;此外,由于厨房对用户的双手的洁净度的要求较高,本公开可以使用户在洁净度要求较高的场合无需因为需要手动操作终端设备而造成交叉污染,确保用户的用餐卫生。
图4是根据一示例性实施例示出的一种进行语音操作的装置的框图,该进行语音操作的装置可以应用在终端设备上,如图4所示,进行语音操作的装置包括:
确定模块41,被配置为确定用户的语音强度是否达到进行语音识别的触发条件;
识别模块42,被配置为在确定模块41确定语音强度达到进行语音识别的触发条件后,从用户的语音中识别用于操作应用软件的操作指令;
操作模块43,被配置为根据识别模块42识别的操作指令进行操作。
图5是根据一示例性实施例示出的另一种进行语音操作的装置的框图,在上述图4所示实施例的基础上,在一实施例中,确定模块41包括:
第一比较子模块411,被配置为将用户的语音强度与分贝阈值进行比较;
第一确定子模块412,被配置为如果第一比较子模块411的比较结果为语音强度大于或者等于分贝阈值,确定语音强度达到进行语音识别的触发条件;
第二确定子模块413,被配置为如果第一比较子模块411的比较结果为语音强度小于分贝阈值,确定语音强度未达到进行语音识别的触发条件。
在一实施例中,识别模块42可包括:
提取子模块421,被配置为从用户的语音中提取语音特征矢量;
第二比较子模块422,被配置为将提取子模块提取到的语音特征矢量与应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
第三确定子模块423,被配置为根据第二比较子模块422的比较结果确定用于操作应用软件的操作指令。
在一实施例中,第三确定子模块423可包括:
第四确定子模块4231,被配置为确定第二比较子模块422的比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
第五确定子模块4232,被配置为如果第四确定子模块4231确定的相似度最高的特征矢量大于或者等于比较阈值,将相似度最高的特征矢量对应的操作指令作为用于操作应用软件的操作指令;
播放子模块4233,被配置为如果第四确定子模块4231确定的相似度最高的特征矢量小于比较阈值,播放第一语音提示,以使用户根据第一语音提示重新进行语音操作。
在一实施例中,进行语音操作的装置还可包括:
播放模块44,被配置为如果识别模块42从用户的语音中未识别出用于操作应用软件的操作指令,对用户进行语音输入错误的语音提示。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种适用于移动终端防卫装置的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种对应用软件进行语音操作的方法,其特征在于,应用在终端设备上,所述方法包括:
确定用户的语音强度是否达到进行语音识别的触发条件;
在确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
根据所述操作指令对所述应用软件进行操作。
2.根据权利要求1所述的方法,其特征在于,所述确定用户的语音强度是否达到进行语音识别的触发条件,包括:
将所述用户的语音强度与分贝阈值进行比较;
如果所述语音强度大于或者等于所述分贝阈值,确定所述语音强度达到进行语音识别的触发条件;
如果所述语音强度小于所述分贝阈值,确定所述语音强度未达到进行语音识别的触发条件。
3.根据权利要求1所述的方法,其特征在于,所述从所述用户的语音中识别用于操作所述应用软件的操作指令,包括:
从所述用户的语音中提取语音特征矢量;
将所述语音特征矢量与所述应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
根据所述比较结果确定用于操作所述应用软件的操作指令。
4.根据权利要求3所述的方法,其特征在于,所述根据所述比较结果确定用于操作所述应用软件的操作指令,包括:
确定所述比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
如果所述相似度最高的特征矢量大于或者等于所述比较阈值,将所述相似度最高的特征矢量对应的操作指令作为用于操作所述应用软件的操作指令;
如果所述相似度最高的特征矢量小于所述比较阈值,播放第一语音提示,以使所述用户根据所述第一语音提示重新进行语音操作。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果从所述用户的语音中未识别出用于操作所述应用软件的操作指令,播放第二语音提示,以提示所述用户的语音输入错误。
6.一种对应用软件进行语音操作的装置,应用在终端设备上,其特征在于,所述装置包括:
确定模块,被配置为确定用户的语音强度是否达到进行语音识别的触发条件;
识别模块,被配置为在所述确定模块确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
操作模块,被配置为根据所述识别模块识别的所述操作指令对所述应用软件进行操作。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第一比较子模块,被配置为将所述用户的语音强度与分贝阈值进行比较;
第一确定子模块,被配置为如果所述第一比较子模块的比较结果为所述语音强度大于或者等于所述分贝阈值,确定所述语音强度达到进行语音识别的触发条件;
第二确定子模块,被配置为如果所述第一比较子模块的比较结果为所述语音强度小于所述分贝阈值,确定所述语音强度未达到进行语音识别的触发条件。
8.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
提取子模块,被配置为从所述用户的语音中提取语音特征矢量;
第二比较子模块,被配置为将所述提取子模块提取到的所述语音特征矢量与所述应用软件预设的语音操作指令对应的多个特征矢量进行相似度比较,得到比较结果;
第三确定子模块,被配置为根据所述第二比较子模块的比较结果确定用于操作所述应用软件的操作指令。
9.根据权利要求8所述的装置,其特征在于,所述第三确定子模块包括:
第四确定子模块,被配置为确定所述第二比较子模块的比较结果中的相似度最高的特征矢量是否大于或者等于比较阈值;
第五确定子模块,被配置为如果所述第四确定子模块确定的所述相似度最高的特征矢量大于或者等于所述比较阈值,将所述相似度最高的特征矢量对应的操作指令作为用于操作所述应用软件的操作指令;
播放子模块,被配置为如果所述第四确定子模块确定的所述相似度最高的特征矢量小于所述比较阈值,播放第一语音提示,以使所述用户根据所述第一语音提示重新进行语音操作。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
播放模块,被配置为如果所述识别模块从所述用户的语音中未识别出用于操作所述应用软件的操作指令,播放第二语音提示,以提示所述用户的语音输入错误。
11.一种对应用软件进行语音操作的装置,其特征在于,所述装置包括:处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定用户的语音强度是否达到进行语音识别的触发条件;
在确定所述语音强度达到进行所述语音识别的触发条件后,从所述用户的语音中识别用于操作应用软件的操作指令;
根据所述操作指令对所述应用软件进行操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510079912.7A CN104615359B (zh) | 2015-02-13 | 2015-02-13 | 对应用软件进行语音操作的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510079912.7A CN104615359B (zh) | 2015-02-13 | 2015-02-13 | 对应用软件进行语音操作的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615359A true CN104615359A (zh) | 2015-05-13 |
CN104615359B CN104615359B (zh) | 2018-05-29 |
Family
ID=53149830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510079912.7A Active CN104615359B (zh) | 2015-02-13 | 2015-02-13 | 对应用软件进行语音操作的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615359B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677152A (zh) * | 2015-12-31 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音触屏操作处理的方法、装置以及终端 |
CN106254612A (zh) * | 2015-06-15 | 2016-12-21 | 中兴通讯股份有限公司 | 一种语音控制方法及装置 |
CN108055617A (zh) * | 2017-12-12 | 2018-05-18 | 广东小天才科技有限公司 | 一种麦克风的唤醒方法、装置、终端设备及存储介质 |
CN108091333A (zh) * | 2017-12-28 | 2018-05-29 | 广东欧珀移动通信有限公司 | 语音控制方法及相关产品 |
CN108242236A (zh) * | 2016-12-26 | 2018-07-03 | 现代自动车株式会社 | 对话处理装置及其车辆和对话处理方法 |
CN109218035A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 群组信息的处理方法、电子设备、服务器及视频播放设备 |
CN109495637A (zh) * | 2017-09-13 | 2019-03-19 | 珠海市魅族科技有限公司 | 一种语音控制功能开启方法及其终端设备 |
CN109785601A (zh) * | 2018-12-19 | 2019-05-21 | 骏升科技(钦州)有限公司 | 一种基于手势动作控制语音功能的智能遥控器 |
CN110782889A (zh) * | 2019-08-22 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种语音操作方法及相关设备 |
CN111273879A (zh) * | 2020-01-10 | 2020-06-12 | 杭州勇电照明有限公司 | 一种用户互动显示大屏显示方法及装置 |
CN112562644A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 基于人声分离的客服服务质检方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149923A (zh) * | 2006-09-22 | 2008-03-26 | 富士通株式会社 | 语音识别方法、语音识别装置及计算机程序 |
EP2602786A2 (en) * | 2011-12-09 | 2013-06-12 | Yamaha Corporation | Sound data processing device and method |
CN103220151A (zh) * | 2013-04-17 | 2013-07-24 | 合肥华恒电子科技有限责任公司 | 一种基于声音识别的用户关联方法 |
CN103593047A (zh) * | 2013-10-11 | 2014-02-19 | 北京三星通信技术研究有限公司 | 移动终端及其操控方法 |
CN104123939A (zh) * | 2014-06-06 | 2014-10-29 | 国家电网公司 | 基于变电站巡检机器人的语音交互控制方法 |
-
2015
- 2015-02-13 CN CN201510079912.7A patent/CN104615359B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149923A (zh) * | 2006-09-22 | 2008-03-26 | 富士通株式会社 | 语音识别方法、语音识别装置及计算机程序 |
EP2602786A2 (en) * | 2011-12-09 | 2013-06-12 | Yamaha Corporation | Sound data processing device and method |
CN103220151A (zh) * | 2013-04-17 | 2013-07-24 | 合肥华恒电子科技有限责任公司 | 一种基于声音识别的用户关联方法 |
CN103593047A (zh) * | 2013-10-11 | 2014-02-19 | 北京三星通信技术研究有限公司 | 移动终端及其操控方法 |
CN104123939A (zh) * | 2014-06-06 | 2014-10-29 | 国家电网公司 | 基于变电站巡检机器人的语音交互控制方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106254612A (zh) * | 2015-06-15 | 2016-12-21 | 中兴通讯股份有限公司 | 一种语音控制方法及装置 |
WO2017113498A1 (zh) * | 2015-12-31 | 2017-07-06 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音触屏操作处理的方法、装置以及终端 |
CN105677152A (zh) * | 2015-12-31 | 2016-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音触屏操作处理的方法、装置以及终端 |
CN108242236B (zh) * | 2016-12-26 | 2023-12-15 | 现代自动车株式会社 | 对话处理装置及其车辆和对话处理方法 |
CN108242236A (zh) * | 2016-12-26 | 2018-07-03 | 现代自动车株式会社 | 对话处理装置及其车辆和对话处理方法 |
CN109218035A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 群组信息的处理方法、电子设备、服务器及视频播放设备 |
CN109495637A (zh) * | 2017-09-13 | 2019-03-19 | 珠海市魅族科技有限公司 | 一种语音控制功能开启方法及其终端设备 |
CN108055617A (zh) * | 2017-12-12 | 2018-05-18 | 广东小天才科技有限公司 | 一种麦克风的唤醒方法、装置、终端设备及存储介质 |
CN108055617B (zh) * | 2017-12-12 | 2020-12-15 | 广东小天才科技有限公司 | 一种麦克风的唤醒方法、装置、终端设备及存储介质 |
CN108091333B (zh) * | 2017-12-28 | 2021-11-30 | Oppo广东移动通信有限公司 | 语音控制方法及相关产品 |
CN108091333A (zh) * | 2017-12-28 | 2018-05-29 | 广东欧珀移动通信有限公司 | 语音控制方法及相关产品 |
CN109785601A (zh) * | 2018-12-19 | 2019-05-21 | 骏升科技(钦州)有限公司 | 一种基于手势动作控制语音功能的智能遥控器 |
CN110782889A (zh) * | 2019-08-22 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种语音操作方法及相关设备 |
CN111273879A (zh) * | 2020-01-10 | 2020-06-12 | 杭州勇电照明有限公司 | 一种用户互动显示大屏显示方法及装置 |
CN112562644A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 基于人声分离的客服服务质检方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104615359B (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615359A (zh) | 对应用软件进行语音操作的方法及装置 | |
CN105955579B (zh) | 音乐播放控制方法及装置 | |
CN108538291A (zh) | 语音控制方法、终端设备、云端服务器及系统 | |
CN108509232A (zh) | 屏幕录制方法、装置及计算机可读存储介质 | |
CN104407592A (zh) | 一种调整智能家居设备运行状态的方法及装置 | |
CN104836897A (zh) | 通过可穿戴设备控制终端通信的方法及装置 | |
CN104391711B (zh) | 一种设置屏幕保护的方法及装置 | |
CN104184870A (zh) | 通话记录标记方法、装置及电子设备 | |
CN104461304A (zh) | 控制应用的方法及装置 | |
CN104219388A (zh) | 语音控制方法和装置 | |
CN104320688A (zh) | 视频播放操控方法及装置 | |
CN105094577A (zh) | 应用切换的方法和装置 | |
CN104539871B (zh) | 多媒体通话方法及装置 | |
CN103914148A (zh) | 一种显示功能界面的方法、装置及终端设备 | |
CN105242942A (zh) | 应用控制方法和装置 | |
CN105487680A (zh) | 用于终端截屏的方法、装置及终端 | |
CN105355195A (zh) | 音频识别方法及装置 | |
CN111696553A (zh) | 一种语音处理方法、装置及可读介质 | |
CN103955274A (zh) | 应用控制方法和装置 | |
CN105426060A (zh) | 应用控制方法及装置 | |
CN104679386A (zh) | 录音处理的方法和装置 | |
CN104182039A (zh) | 设备控制方法、装置及电子设备 | |
CN105320768A (zh) | 搜索方法及装置 | |
CN105187671A (zh) | 录音方法及装置 | |
CN105468281A (zh) | 显示设置界面的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |