CN113129887B - 一种语音控制方法及装置 - Google Patents
一种语音控制方法及装置 Download PDFInfo
- Publication number
- CN113129887B CN113129887B CN201911424733.7A CN201911424733A CN113129887B CN 113129887 B CN113129887 B CN 113129887B CN 201911424733 A CN201911424733 A CN 201911424733A CN 113129887 B CN113129887 B CN 113129887B
- Authority
- CN
- China
- Prior art keywords
- application
- behavior
- user
- logic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002618 waking effect Effects 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 154
- 238000004590 computer program Methods 0.000 claims description 17
- 230000003542 behavioural effect Effects 0.000 claims description 14
- 230000002787 reinforcement Effects 0.000 claims description 9
- 238000013178 mathematical model Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 16
- 238000013461 design Methods 0.000 description 14
- 238000010295 mobile communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000003796 beauty Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 210000000988 bone and bone Anatomy 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 244000240602 cacao Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种语音控制方法及装置,该方法包括:响应用户的第一操作,所述第一操作用于唤醒语音助手;接收用户在语音助手中当前输入的语音指令;确定与当前输入的语音指令相关联的至少一个候选应用;根据在语音助手中处于当前输入的语音指令之前的历史信息,在至少一个候选应用中确定目标应用,目标应用为当前输入的语音指令所要调用的应用,所述历史信息包括历史对话信息和用户操作行为历史;调用所述目标应用,以使目标应用响应所述当前输入的语音指令。通过本申请的方法可以提高电子设备调用应用程序的准确度,进而提高语音控制的准确率。该方法可用于人工智能(artificial intelligence,AI)终端,与语音识别或语音控制相关。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种语音控制方法及装置。
背景技术
随着信息技术的飞速发展,语音控制作为人机交互的其中一种形式应用的越来越广泛。
目前,语音控制通常是通过终端设备安装上的语音助手实现的,具体的,用户可通过语音助手输入语音指令,然后语音助手会根据用户输入的语音指令启动相应的应用程序,并执行与语音指令相对应的操作。
假设用户在语音助手中先输入“南京的天气怎么样”,在这之后用户在语音助手中再输入“北京呢?”,则此时电子设备并不能确定出用户输入的“北京呢”具体指的是北京的什么信息,因此可能会出现响应错误的情况发生,或者回复“不知道您想知道北京的什么信息”,也就是说,对于这种语音指令,电子设备无法调用出准确的应用程序,以响应用户输入的语音指令。
发明内容
本申请提供一种语音控制方法及装置,用以提高电子设备调用应用程序的准确度。
第一方面,本申请提供一种语音控制方法,该方法包括:
响应用户的第一操作,所述第一操作用于唤醒语音助手;接收用户在所述语音助手中当前输入的语音指令;确定与所述当前输入的语音指令相关联的至少一个候选应用;根据在语音助手中处于所述当前输入的语音指令之前的历史信息,在所述至少一个候选应用中确定目标应用,所述目标应用为所述当前输入的语音指令所要调用的应用,所述历史信息包括历史对话信息和用户操作行为历史;调用所述目标应用,以使所述目标应用响应所述当前输入的语音指令。
在上述技术方案中,通过确定与当前输入的语音指令相关联的多个候选应用,并基于历史信息在多个候选应用中确定目标应用,然后调用目标应用,响应用户在语音助手中输入的语音指令,从而准确的调出与当前输入的语音指令相对应的应用程序,提高语音控制的准确率。
在一种可能的设计中,所述用户操作行为历史包括多个设备上的用户操作行为历史。
所述根据在语音助手中处于所述当前输入的语音指令之前的历史信息,在所述至少一个候选应用中确定目标应用,包括:
对所述历史信息以及各候选应用进行特征提取,将提取出的特征输入数学模型进行打分,获得各候选应用的打分,并将打分最高的候选应用作为目标应用。
在上述技术方案中,可以针对多个设备上的用户操作行为以及各候选应用进行特征提取,得到模型所能够识别出的特征向量,然后输入到模型,由模型对各候选应用进行打分,确定出目标应用。上述方法可以提高特征提取的准确率,并且通过多个设备上的用户操作行为可以得到比较多的操作行为,便于提取用户操作行为历史的特征。
在一种可能的设计中,所述多个设备上的用户操作行为历史包括同一用户的多个设备上的用户操作行为历史或不同用户的多个设备上的用户操作行为历史。在上述技术方案中,不同用户之间的操作行为历史可以共享,这样能够丰富字典中的词汇,使得提取特征更为方便。
在一种可能的设计中,对所述历史信息进行特征提取,包括:获取与所述历史信息的同一特征相对应的多个行为逻辑;从所述多个行为逻辑中选择目标行为逻辑,对所述历史信息进行特征提取。
在上述技术方案中,针对行为本身不是特征,需要从行为中抽取特征的情况,本申请中可以针对同一特征设置多个行为逻辑,然后从多个行为逻辑中选择一个行为逻辑进行通则证提取,这样可以提高特征提取的准确率。
在一种可能的设计中,从所述多个行为逻辑中选择目标行为逻辑,可包括如下三种情况:
第一种:确定所述历史信息所属的场景,并将与所述场景相对应的行为逻辑作为目标行为逻辑;所述场景与行为逻辑具有对应关系。
第二种:依据多个行为逻辑对应的优先级,将优先级最高的行为逻辑,作为目标行为逻辑。
第三种:依据所述多个行为逻辑强化学习的动态结果,在所述多个行为逻辑中选择目标行为逻辑。
在一种可能的设计中,确定与所述当前输入的语音指令相关联的至少一个候选应用,包括:
获取当前输入的语音指令中的关键词;将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。
在上述技术方案中,通过获取语音指令中的关键词,并根据关键词确定多个候选应用,这样能够提高确定目标应用的准确率,从而提高语音控制的准确率。
第二方面,本申请还提供一种装置,该装置包括:显示屏;与存储器耦合的一个或多个处理器;其中,所述存储器中存储有一个或多个计算机程序;所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述装置执行上述第一方面及其第一方面任一可能设计的技术方案。
第三方面,本申请还提供一种电子设备(也可以称为终端,如手机),该电子设备包括执行第一方面或者第一方面的任意一种可能的设计的方法的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
第四方面,本申请实施例还提供一种芯片,所述芯片与电子设备中的存储器耦合,执行本申请实施例第一方面及其第一方面任一可能设计的技术方案;本申请实施例中“耦合”是指两个部件彼此直接或间接地结合。
第五方面,本申请实施例的一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行本申请实施例第一方面及其第一方面任一可能设计的技术方案。
第六方面,本申请实施例的中一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行本申请实施例第一方面及其第一方面任一可能设计的技术方案。
附图说明
图1A为本申请实施例提供的一种可折叠式手机的示意图;
图1B为本申请实施例提供的一种三折式手机的示意图;
图2为本申请实施例提供的一种手机的硬件结构示意图;
图3为本申请实施例提供的一组界面示意图;
图4为本申请实施例提供的一界面示意图;
图5为本申请实施例提供的一种模型实现示意图;
图6为本申请实施例提供的检测逻辑示意图;
图7为本申请实施例提供的用户的多个设备之间关联的示意图;
图8为本申请实施例提供的一种语音控制方法流程图;
图9为本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本申请以下实施例中的附图,对本申请实施例中的技术方案进行详尽描述。
需要说明的是,本申请实施例提供的语音控制方法,可以适用于具有显示屏的任何电子设备,诸如手机、平板电脑、可穿戴设备(例如,手表、手环、智能头盔等)、车载设备、智能家居、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等,本申请实施例不作限定。本申请实施例涉及到的电子设备也可以是可折叠式的电子设备,比如可折叠式手机,可折叠式ipad等,本申请对此不作限定。下文中以可折叠式手机为例进行说明。
参见图1A所示,为本申请实施例提供的一种可折叠式手机的示意图。如图1A(a)所示,可折叠式手机包括第一本体和第二本体,第一本体和第二本体之间的夹角可以发生变化,进而使得可折叠式手机展开或者折叠。应理解,第一本体和第二本体上可以覆盖一整个屏幕,该屏幕可以是可折叠屏,当第一本体和第二本体之间的夹角改变时,第一本体对应的第一显示区域和第二本体对应的第二显示区域之间的夹角也发生变化,参见图1A(b)所示。
本申请实施例涉及的展开角度,即可折叠式电子设备上第一本体和第二本体之间的夹角。当展开角度是0度时,第一本体对应的第一显示区域的第一背面和第二本体对应的第二显示区域的第二背面重叠(通常称为外折),或者第一本体对应的第一显示区域和第二本体对应的第二显示区域重叠(通常称为内折);当展开角度是180度时,第一显示区域和第二显示区域位于同一水平面;当展开角度是360度时,第一显示区域和第二显示区域重叠。
参见图1B所示,为本申请实施例提供的一种三折式手机的示意图。当手机处于展开状态时,参阅图1B(a)所示,可以包括第一折叠线和第二折叠线。在沿第一折叠线纵向折叠后,可以形成如图1B所示的子屏A、子屏B和子屏C。
在本申请中,折叠屏可以包括展开状态、折叠状态和半折叠状态。其中,展开状态表示折叠屏完全展开,即折叠屏中相邻两个子屏之间的夹角为180度;折叠状态表示折叠屏完全折叠,即折叠屏中相邻两个子屏之间的夹角为0度;半折叠状态为介于展开状态和折叠状态之间的状态,即折叠屏中相邻两个子屏之间的夹角介于0度和180度之间。例如,图1B(b)所示的示意图即为折叠屏半折叠状态。
需要说明的是,本申请实施例中的折叠屏手机并不限于上述示意图中的举例,例如还可以为三折以上的折叠屏手机,本申请对此不作限定。
本申请实施例所应用的电子设备中可以安装各种应用程序(application,App),简称应用,应用为能够实现某项或多项特定功能的软件程序。通常,电子设备中可以安装多个应用,比如,相机应用、短信应用、邮箱应用、微信(WeChat)、WhatsApp Messenger、连我(Line)、照片分享(instagram)、Kakao Talk、钉钉等。下文中提到的应用,可以是电子设备出厂时已安装的应用,也可以称之为原生应用;也可以是用户在使用电子设备的过程中从网络下载或其他电子设备获取的应用。
下面以可折叠式手机为例,介绍手机的硬件结构。
如图2所示,手机100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是手机100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为手机100充电,也可以用于手机100与外围设备之间传输数据。充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
手机100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在手机100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
显示屏194用于显示应用的显示界面等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dotlight emitting diodes,QLED)等。在一些实施例中,手机100可以包括1个或N个显示屏194,N为大于1的正整数。在本申请实施例中,显示屏194可用于同时显示多个应用界面。
摄像头193用于捕获静态图像或视频。摄像头193可以包括前置摄像头和后置摄像头。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,以及至少一个应用程序(例如爱奇艺应用,微信应用等)的软件代码等。存储数据区可存储手机100使用过程中所产生的数据(例如图像、视频等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将图片,视频等文件保存在外部存储卡中。
手机100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。陀螺仪传感器180B可以用于确定手机100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定手机100围绕三个轴(即,x,y和z轴)的角速度。
陀螺仪传感器180B可以用于拍摄防抖。气压传感器180C用于测量气压。在一些实施例中,手机100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。磁传感器180D包括霍尔传感器。手机100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当手机100是翻盖机时,手机100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。加速度传感器180E可检测手机100在各个方向上(一般为三轴)加速度的大小。当手机100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。手机100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,手机100可以利用距离传感器180F测距以实现快速对焦。接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。手机100通过发光二极管向外发射红外光。手机100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定手机100附近有物体。当检测到不充分的反射光时,手机100可以确定手机100附近没有物体。手机100可以利用接近光传感器180G检测用户手持手机100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。手机100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测手机100是否在口袋里,以防误触。指纹传感器180H用于采集指纹。手机100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,手机100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,手机100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,手机100对电池142加热,以避免低温导致手机100异常关机。在其他一些实施例中,当温度低于又一阈值时,手机100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于手机100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。手机100可以接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和手机100的接触和分离。
可以理解的是,图2所示的部件并不构成对手机的具体限定,手机还可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。以下的实施例中,以图2所示的手机100为例进行介绍。
目前,电子设备上在进行语音控制时,是根据用户当前输入的语音指令直接关联当前前台正在运行的应用,这可能会使得关联的前台应用与用户当前输入的语音指令对应需要调用的应用不匹配,从而导致语音控制不够准确。
为解决上述技术问题,本申请实施例提出一种语音控制方法,通过对用户在语音助手中输入的语音指令的上下文信息进行关联,使得电子设备根据用户当前输入的语音指令以及当前语音指令的上下文,确定与当前输入的语音指令相匹配的应用,这样可以提高语音指令控制的准确率。以下实施例以应用在图2所示的手机100所示的硬件架构中为例进行描述。
此外,下述实施例涉及的至少一个,包括一个或者多个;其中,多个是指大于或者等于两个。另外,需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应理解,对于可折叠式的手机100,由于其具有多个可以折叠的显示屏,本申请实施例提供的语音控制方法,可以实现在可折叠式的手机100的每个显示屏上运行至少一个应用,即可折叠式的手机100的每个显示屏上可存在至少一个前台应用。下面介绍本申请实施例提供的语音控制方法的实现过程。在下文中,以手机100以可折叠式手机为例,且以手机100的展开角度是180度为例。本发明实施例的方案可适用于任何屏幕较大的设备,但也可适用于小屏设备,本申请不做限定。
以下,将结合附图对本申请实施例提供的一种语音控制方法进行具体介绍。
本申请实施例中,用户可首先唤醒语音助手的功能,然后用户可在语音助手中输入多条语音指令,手机100可根据用户输入的多条语音指令中的上下文信息,确定与当前输入的语音指令需要使用的应用程序,最后在确定出的应用程序中执行对应于当前输入的语音指令相对应的操作。
需要说明的是,唤醒语音助手功能的方式包括但不限于:按键唤醒、图标唤醒或语音唤醒等方式,本申请对此不作限定。示例性的,用户可以通过长按电源键三秒来唤醒语音助手功能,然后在唤醒语音助手功能之后,显示屏上可显示语音助手的功能图标。作为另一种示例,用户可通过在虚拟按键区长按虚拟按键区的Home键,唤醒语音助手,或者用户也可以对着手机说出唤醒词,例如“小艺小艺”来唤醒语音助手。
以下以手机为例,结合几种不同场景对本申请中涉及的语音控制方法进行说明。
场景一:
在一些实施例中,在单屏幕的手机或者折叠屏手机处于折叠状态下,即用户仅使用单一屏幕的情况下,当用户与语音助手在对话的过程中,可根据用户当前输入的语音指令直接关联该单一屏幕上当前正在运行的前台应用。
作为一种示例,假设用户打开音乐播放器,此时用户在语音助手中输入“播放XXX的”,则此时手机控制音乐播放器播放XXX的音乐。
作为又一种示例,假设用户打开天猫(一个购物APP)应用程序,此时如果用户在语音助手中输入“搜下女士钱包”,则此时手机控制当前在前台运行的天猫响应用户输入的语音指令。需要说明的是,即使手机上安装了多个相关的购物应用程序,则此时手机也仅调用当前正在前台运行的应用程序响应用户输入的语音指令。
场景二:
在单屏幕的手机或者折叠屏手机处于折叠状态下,即用户仅使用单一屏幕的情况下,当用户与语音助手在对话的过程中,手机可根据用户在语音助手中输入的语音指令的上下文,关联手机上的应用。
示例性的,如图3中(a)所示,假设用户打开用户界面300中的语音助手301,并通过语音助手301输入第一条语音指令:“今天南京天气怎么样”,此时手机可响应第一条语音指令,调用天气应用程序,获取天气应用程序给出的今天南京天气数据,然后语音助手301输出“今天南京晴,19度-30度”,然后用户在语音助手中输入第二条语音指令:“买张北京去那的机票”,此时手机可根据第二条语音指令的上文信息(即第一条语音指令)确定出第二条语音指令中的“那”指的是目的地南京,这样手机可调用购票应用程序,然后在购票应用程序的界面上显示北京-南京的所有机票信息,例如参阅图3种(b)所示的界面310,被调用的购票应用程序响应第二条语音指令,并显示出发地为北京,目的地为南京的所有机票信息。
需要说明的是,语音助手的显示形式并不限于上述示意图的显示形式,例如也可以为话筒形状等其他显示形式,本申请对此不作限定。
场景三:
在一些实施例中,对于折叠屏手机来说,存在至少两个显示屏,假设折叠屏手机的显示屏总数量为N(N为正整数,且N≥2),打开有前台应用的显示屏数量为M(M≤N)。当用户在语音助手中输入语音指令的过程中,可分别确定不同显示屏上的前台应用与当前输入的语音指令的关联程度,然后将各个显示屏上对应的前台应用中与当前输入的语音指令的关联程度最高的应用作为与当前输入的语音指令要调用的前台应用。
示例性的,如图4所示,假设折叠屏包括两个显示屏A、B,若显示屏A上当前的前台应用为闹钟软件,若显示屏B上的前台应用为音乐播放软件,在本申请中此时如果用户在显示屏A界面上定闹钟,并且同时对语音助手输入“播放XXX的音乐”,则此时手机可关联显示屏B上的前台应用,例如酷我音乐(一个音乐APP),并播放XXX的音乐。
作为另一示例,假设折叠屏包括A、B、C三个显示屏,显示屏A的前台应用为视频软件,显示屏B的前台应用为天气软件,显示屏C的前台应用为音乐播放软件,若用户当前操作的显示屏为显示屏B,假设用户在显示屏B上对语音助手输入“播放XXX的视频”,此时手机可关联显示屏A上的前台应用,并播放XXX的视频。
在另一些实施例中,假设折叠屏手机的显示屏总数量为N(N为正整数,且N≥2),打开有前台应用的显示屏数量为M(M≤N)。当用户在语音助手中输入语音指令的过程中,可结合用户在语音助手中输入的语音指令的上下文,分别确定不同显示屏上的前台应用与当前输入的语音指令的关联程度,然后将不同显示屏上的前台应用与当前输入的语音指令的关联程度最高的前台应用,作为当前输入的语音指令要调用的前台应用。
作为一种示例,假设折叠屏包括两个显示屏A、B,若显示屏A上当前的前台应用为天气软件,若显示屏B上的前台应用为音乐播放软件,此时假设用户之前在语音助手中输入的第一语音指令为“北京天气怎么样”,当手机响应该语音指令之后,会调用显示屏A上运行的天气软件为用户提供北京的天气数据;接下来,用户又在语音助手中输入的第二语音指令“播放音乐”,假设手机响应该语音指令,调用显示屏B上的音乐播放软件为用户播放音乐。如果用户在显示屏B的音乐播放界面上又输入第三语音指令“南京呢”,此时手机可结合第一语音指令和第二语音指令,确定出用户输入的语音指令的含义为“南京的天气怎么样”,然后确定第三语音指令需要调用的应用为显示屏A上的天气软件,然后手机调用显示屏A上的天气软件中的数据,告知用户南京的天气状况。
场景四:
在一些实施例中,假设折叠屏手机的显示屏总数量为N(N为正整数,且N≥2),显示有前台应用的显示屏数量为M(M≤N)。当用户在语音助手中输入语音指令的过程中,可分别确定不同显示屏上的前台应用以及后台应用与当前输入的语音指令的关联程度,然后将不同显示屏上的前台应用以及后台应用与当前输入的语音指令的关联程度最高的前台应用或后台应用,作为当前输入的语音指令需要调用的应用。
示例性的,假设折叠屏包括两个显示屏A、B,显示屏A上的前台应用为音乐播放软件,后台应用包括联系人软件,显示屏B的前台应用为购物软件,若此时用户在显示屏B上对语音助手输入“给XX打电话”,则手机可调用显示屏A的后台应用联系人,将应用联系人程序调至显示屏A的前台运行,并执行对XX打电话。
在另一些实施例中,假设折叠屏手机的显示屏总数量为N(N为正整数,且N≥2),显示有前台应用的显示屏数量为M(M≤N)。当用户在语音助手中输入语音指令的过程中,可结合用户在语音助手中输入的语音指令的上下文,分别确定不同显示屏上的前台应用以及后台应用与当前输入的语音指令的关联程度,然后将不同显示屏上的前台应用以及后台应用与当前输入的语音指令的关联程度最高的前台应用或后台应用,作为当前输入的语音指令需要调用的应用。
示例性的,假设折叠屏包括两个显示屏A、B,若显示屏A上当前的前台应用为购物软件,后台运行的应用为天气软件,若显示屏B上的前台应用为音乐播放软件,假设用户在语音助手中输入的第一语音指令为“北京天气怎么样”,当手机响应该语音指令之后,调用显示屏A后台运行的天气软件,并通过天气软件给出的数据在语音助手上给出北京的天气状况。然后,用户又在语音助手中输入第二语音指令“播放音乐”,假设手机响应该语音指令,调用显示屏B上的前台应用音乐播放软件为用户播放音乐。此时如果用户在显示屏B的音乐播放界面上继续输入第三语音指令“南京呢”,此时手机可结合第一语音指令和第二语音指令,确定出用户输入的语音指令的含义为“南京的天气怎么样”,然后手机确定第三语音指令需要调用的应用为显示屏A的后台应用程序,即应用天气软件,并通过天气软件给出的数据告知用户南京的天气状况。
以下对于上述实施例中涉及到的确定不同显示屏上的应用(前台应用和/或后台应用)与用户在语音助手中当前输入的语音指令的关联程度的具体确定过程进行详细介绍。
本申请实施例中,可采用深度学习模型将每个显示屏中的前台应用或后台应用,各个应用对应的状态信息、当前输入的语音指令以及历史轮语音对话信息,分别转换为模型能够识别的特征向量,然后将各个信息对应的特征向量作为模型的输入参数,利用深度学习模型确定每个应用与当前输入的语音指令的关联程度。当然,可以理解的是,历史语音对话信息可以理解为在当前输入的语音指令之前的多轮语音对话。需要说明的是,应用的状态信息包括但不限于以下内容:应用的打开顺序(也可以理解为应用的打开时间距离当前时间的时长)、应用的打开时长、应用的使用频率。
作为一种可能的实现方式,参阅图5所示,本申请实施例中可以首先根据用户当前输入的语音指令,确定与当前输入的语音指令可能相关联的至少一个候选应用,然后将在当前输入的语音指令之前的历史语音对话信息所调用过的各个应用的状态信息分别转换为模型能够识别的特征向量,然后将各个特征向量输入到模型中进行打分,得到各个特征向量对应的每一个候选应用的打分值,然后可以在候选应用中选择打分最高的目标应用作为用于响应当前输入的语音指令的应用,也就是说将所述目标应用作为当前输入的语音指令需要调用的应用。
示例性的,假设用户与语音助手之间的历史对话信息如下:
用户:帮我查下南京的天气。
语音助手:调用天气应用,通过天气应用为用户提供南京的天气情况;或者在语音助手界面中直接回复:南京,晴,12-24度,此时前台应用可能不是天气应用。
用户:帮我买张去那的机票。
语音助手:调用携程应用,通过携程应用为用户提供购票途径。
用户:北京呢?
在上述对话中,假设用户在当前输入的语音指令之前的历史语音对话为:“帮我查下南京的天气”,然后手机调用天气应用,此时前台应用为天气,接着用户在语音助手中输入“帮我买张去那的机票”,然后手机调用携程应用(一个购票APP),此时前台应用为携程。
假设用户在语音助手中当前输入的语音指令为“北京呢”,则可确定出与该语音指令相关的候选应用可能包括:天气、音乐播放器、携程、美团等(因为候选应用中的每一个应用都可以提供与北京有关的信息,比如,天气软件可以提供北京的天气数据,音乐播放器也可以播放与北京有关的歌曲,例如北京一夜、我爱北京天安门等,携程应用可以提供北京作为出发地或目的地的票务信息,美团应用可以提供北京作为目的地的一些吃喝玩乐商家信息等),那么可以将天气、音乐播放器、携程、美团等作为与当前输入的语音指令“北京呢”相关联的候选应用。也就是说可以理解为,确定与当前输入的语音指令相关的候选应用可以为:获取当前输入的语音指令中的关键词;将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用可以指能够提供所述关键词对应所需服务的应用。
与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。然后将当前输入的语音指令、历史对话信息、各个候选应用以及各个候选应用的状态信息分别转换为模型能够识别的特征向量,然后将特征向量输入到模型中,并基于历史对话信息和各个候选应用分别对应的状态信息,对各个候选应用进行打分,得到每一个候选应用与当前输入的语音指令的关联程度,最后将打分值最高,也就是说关联程度最高的候选应用作为当前输入的语音指令要调用的应用。
需要说明的是,候选应用可以为折叠屏的显示屏上当前在前台运行的应用,也可以为在后台运行的应用,当然,还可以为用户从未打开过但安装在折叠屏手机上的其他应用。
作为一种示例,假设利用模型对各个候选应用进行打分的过程,可以选择每个候选应用的状态信息中的使用频率来打分,例如根据距离当前时间点之前的一定时长内各个候选应用被打开的频率(次数)来打分,如果在一定时长内候选应用被打开的频率越高,则打分越高;候选应用被打开的频率越低,则打分越低。以上述对话为例,例如,天气应用、音乐播放器应用、携程应用以及美团应用在距离当前时间点过去的一个小时内被打开的次数分别为5次、3次、2次、0次,则天气的打分可以为:5/(5+3+2+0)=0.5,音乐播放器的打分可以为:3/(5+3+2+0)=0.3,携程的打分可以为:2/(5+3+2+0)=0.2,而美团的打分为0,即天气应用的打分最高,可以将天气应用作为语音指令“北京呢”要调用的应用。
作为另一种示例,也可以选择每个候选应用的状态信息中的被打开的时长来打分,例如,在距离当前时间点之前的一定时长内各个候选应用被打开的时间越长,打分越高,候选应用被打开的时长越低,则打分越低。以上述对话为例,例如,天气应用、音乐播放器应用、携程应用以及美团应用在距离当前时间点过去的一个小时内被打开的时长分别为5分钟、3分钟、2分钟、0分钟,则天气的打分可以为:5/(5+3+2+0)=0.5,音乐播放器的打分可以为:3/(5+3+2+0)=0.3,携程的打分可以为:2/(5+3+2+0)=0.2,而美团的打分为0,即天气应用的打分最高,则可以将天气应用作为语音指令“北京呢”要调用的应用。
又一种示例,还可以选择每个候选应用的状态信息中的被打开的顺序来打分,打开时间距离当前时间点越近的候选应用,被打分越高,打开时间距离当前时间点越远的候选应用,被打分越低。以上述对话为例,例如,天气应用、音乐播放器应用、携程应用以及美团应用在距离当前时间点过去的一个小时内被打开的顺序分别为美团、携程、音乐播放器和天气应用,也就是说天气应用的打开时间距离当前时间点最近,音乐播放器的打开时间距离当前时间点次近,携程应用的打开时间距离当前时间点次远,美团应用的打开时间距离当前时间点最远。则天气的打分可以为:5/(5+3+2+0)=0.5,音乐播放器的打分可以为:3/(5+3+2+0)=0.3,携程的打分可以为:2/(5+3+2+0)=0.2,而美团的打分为0,即天气应用的打分最高,则可以将天气应用作为语音指令“北京呢”要调用的应用。
上述分析可见,每个候选应用的状态信息其实是和在语音助手中处于当前输入的语音指令之前的历史对话信息相关联的。比如,当前输入的语音指令之前,被调用的应用的打开时间通常距离当前时间点最近,因此被打分越高;而基于历史对话信息,被调用的应用的频次越高,证明这个应用在最近经常被使用到,所以被打分越高,或者被调用的应用被打开的时间越长,也就证明这个应用被用户使用的时长越长,所以被打分也就越高。而且,被打分越高的候选应用,被命中作为用于响应当前输入的语音指令的应用的概率越高,这样基于本发明实施例这种确定当前语音指令要调用的应用的方式,可以提高被调用的应用的准确性,进而可以提高响应语音助手中当前语音指令的响应准确度。
应理解,还可以选择分别根据每个候选应用的状态信息中的被打开的顺序、打开频率、打开时长等因素对每个候选应用分别打分,然后求取每个候选应用的综合打分,综合打分可以为一个候选应用对应每个状态信息的打分之和,也可以是对应每个状态信息的打分的其他运算关系,比如上述例子中,对于天气程序,其对应的被打开的顺序打分为0.5分、打开频率对应的打分为0.5分、打开时长对应的打分为0.5分,则综合打分可以为1.5分。然后选择综合打分最高的候选应用作为当前输入的语音指令要调用的应用程序。
当然,可以理解的是,利用模型对候选应用进行打分的方式并不限于上述举例,例如也可以根据候选应用的其他状态信息来打分,本申请对此不作限定。
当然,可以理解的是,上述实施例中,除了选择打分最高的候选应用作为目标应用,用于响应当前输入的语音指令之外,还可以选择打分次高的候选应用作为目标应用来响应当前输入的语音指令,本申请对此不作限定。
在本申请另一些实施例中,手机在检测到各个候选应用的状态信息,包括应用的打开顺序(也可以理解为应用的打开时间距离当前时间的时长)、应用的打开时长、应用的使用频率之后,可以将这些状态信息上传到云端,由云端利用这些状态信息对候选应用进行打分,得到每一个候选应用的打分值,然后云端再将打分值发送给手机,手机再根据云端发送的打分值确定当前语音指令所要调用的应用。
以下介绍将每个显示屏中的前台应用或后台应用,各个应用对应的状态信息、当前输入的语音指令以及历史轮语音对话信息,分别转换为模型能够识别的输入参数的过程,本申请实施例中,可以对输入参数进行特征提取得到特征向量。可以理解的是,上述实施例中所介绍的状态信息可以理解为输入参数不同维度的特征。
一种可能的实现方式中,本申请实施例可以对输入参数提取特征类型,并根据不同的特征设置不同的检测逻辑,例如可以提取出实体特征,比如音乐实体、电影实体等。如图6所示,本申请中可设置多个检测逻辑,例如,可以对音乐实体设置一个检测逻辑,对电影实体设置一个检测逻辑等等,并且可以对每一个实体对应的检测逻辑进一步设置多个不同的检测逻辑,例如音乐实体对应的检测逻辑可以进一步包括检测逻辑1、检测逻辑2等。需要理解的是,本申请中的特征并不限于上述举例,也可以为其它的特征,例如,也可以将应用程序所执行的语音指令中的名称作为特征类型,本申请对此不作限定。
在一些实施例中,当用户在语音助手中输入“打开酷我音乐播放林俊杰的小酒窝”时,此时手机可首先确定用户输入的语音指令符合的检测逻辑,然后对用户输入的语音指令中包括的特征实体进行提取。
需要说明的是,本申请中针对检测逻辑也可以设置优先级,并且同一种类型的实体,可以设置多个检测逻辑,同时设置多个检测逻辑之间的优先级。举例来说,假设检测逻辑包括A、B、C三种类型,可以设置这三种类型的检测逻辑优先级为:A的优先级高于B的优先级,B的优先级高于C的优先级。假设检测逻辑A中还包括:A1、A2、A3三种不同的检测逻辑,也可以设置优先级,例如设置A1的优先级高于A2的优先级,A2的优先级高于A3的优先级。当然,可以理解的是,优先级的高低并不限于上述举例,本申请对此不作限定。
在另一些实施例中,假设用户在语音助手中输入“播放林俊杰的小酒窝”,此时如果手机提取出的特征为歌曲名称,即“小酒窝”时,如果手机检测到有某个应用程序,例如酷我音乐(一个音乐APP)的词库中包含有该词语时,可直接抽取出该特征。如果手机检测到本地的应用程序的词库中没有该词语时,(也可以理解为用户输入的语音指令中的名称为新的名词),在本申请中可采用分布式查询的方式,查找该词语对应的应用程序。如图7所示,可将同一用户的不同电子设备进行关联,也可以将不同用户的不同电子设备进行关联,以实现资源共享,从而便于提取特征。
假设用户A是在手机1的语音助手中输入的语音指令,一种可能的实施方式中,可以将手机1与用户A的其它电子设备进行关联,也可以将手机1与用户B的电子设备进行关联。举例来说,假设用户A的手机1与用户A自身的其它电子设备,比如手机2、平板1关联。如果用户A在手机1的语音助手中输入“播放林俊杰的小酒窝”,此时如果手机1在本地的应用程序的词库中没有找到“小酒窝”这个词语时,可以从与手机1相关联的手机2、平板1上查找“小酒窝”这个词,如果在平板1上查找到用户在平板1上播放过“小酒窝”这首歌曲,或者平板1的某个应用程序,例如网易云音乐(一个音乐APP)的词库中包括“小酒窝”这个词语,则手机1可从平板1的网易云音乐中提取出该特征。
可以理解的是,如果手机1上没有安装有网易云音乐,如果要执行用户在语音助手中输入的语音指令“播放林俊杰的小酒窝”,从用户界面的角度,本申请中可以在手机1的界面上显示“该手机上没有下载网易云音乐,请确认是否下载”等类似的提示信息,或者在检测到手机1上没有安装网易云音乐时,可直接从后台下载网易云音乐的应用程序。
需要说明的是,手机本地的应用程序的词库中如果没有找到对应的词语,可能是应用程序没有更新,使得词库没有及时更新,也有可能是歌曲的版权限制问题等。
进一步的,在本申请实施例中,将不同电子设备进行关联时,可根据不同的特征类型进行关联。示例性的,假设是音乐类别,则关联的电子设备可以有显示屏,也可以没有显示屏,即手机1可以与有显示屏的手机2、平板1相关联,也可以与没有显示屏的音箱1关联。如果是电影类别,则关联的电子设备需要有显示屏,即手机1可以与有显示屏的手机2、平板1相关联,不能与没有显示屏的音箱1关联。
当然,可以理解的是,上述示例仅是一种示意性说明,本申请中关联的电子设备也可以为其它设备,对此不作限定。
在本申请一些实施例中,用户的操作行为历史可以为用户在多个设备上的操作行为历史。并且可以为同一用户在多个设备上的操作行为历史,也可以为不同用户在多个设备上的操作行为历史。
当用户操作行为历史为不同用户在多个设备上的操作行为历史时,本申请中用户可以设置将自己的操作行为共享给其他用户,并且可以设置哪些操作行为是可以共享的,哪些操作行为是不可以共享的。例如,用户可以设置在音乐播放器播放过的音乐可以共享给其他用户,也可以设置在社交软件上的聊天记录不可以共享给其他用户。
进一步的,本申请实施例中,在提取特征时可包括两种情况:
(1)、行为本身是特征,可以直接提取;
(2)、行为本身不是特征,需要从行为中提取特征。
对于第二种情况,本申请中针对输入到模型的特征可以绑定多个行为逻辑,然后在对历史信息以及各候选应用进行特征提取时,选择其中的一个行为逻辑进行特征提取,输入到模型中对各个候选应用进行打分,最终得到目标应用。
示例性的,假设将用户在某个页面浏览时间超过5分钟,这个行为提取的特征为“用户的兴趣度高”,则可针对这一特征设置多个行为逻辑,例如:
行为逻辑1:用户在页面浏览时间超过5分钟;
行为逻辑2:用户在页面浏览时间超过10分钟;
行为逻辑3:用户在页面浏览时间超过15分钟。
作为一种示例,行为逻辑1可以对应低频应用,行为逻辑2可以对应高频应用,行为逻辑3可以对应社交类应用。当然,上述仅是一种举例,本申请对此不作限定。
在上述三个逻辑中选择一个逻辑作为目标行为逻辑进行特征提取,在本申请实施例中可以包括如下几种实现方式:
第一种可能的实现方式:可以对用户的操作行为历史进行场景识别,确定用户的操作行为历史所属的场景,然后根据所属的场景确定目标行为逻辑。其中,场景与行为逻辑可具有对应关系。
作为一种示例,假设场景包括场景1、场景2、场景3,可以设置场景与行为逻辑的对应关系为:场景1与行为逻辑1对应;场景2与行为逻辑2对应;场景3与行为逻辑3对应。若确定出用户操作行为历史所属的场景为场景1,则可将行为逻辑1作为目标行为逻辑。
第二种可能的实现方式:同一特征对应多个行为逻辑,可以针对多个行为逻辑设置优先级。例如,可以设置行为逻辑1的优先级高于行为逻辑2的优先级,行为逻辑2的优先级高于行为逻辑3的优先级。当然,优先级的设置方式并不限于上述方式,本申请对此不作限定。作为一种示例,若上述三个行为逻辑中行为逻辑1的优先级最高,则可将行为逻辑1作为目标行为逻辑。
第三种可能的实现方式:可以通过强化学习技术(例如,Multi-armed bandit)进行建模,然后根据用户反馈选择目标行为逻辑,并且强化学习的结果为动态变化的。示例性的,假设用户选择行为逻辑1进行特征提取,然后根据用户的反馈确定选择的行为逻辑1是否正确。如果用户最终使用的应用为确定出的目标应用(即当前输入的语音指令所要调用的应用),则可确定进行特征提取时选择的行为逻辑正确(可以理解为正向反馈);如果用户最终使用的应用不是确定出的目标应用,则可确定进行特征提取时选择的行为逻辑有偏差(可以理解为负向反馈)。
并且,在本申请中行为逻辑是否正确取决于用户反馈,也就是说对于行为逻辑进行强化学习的结果是动态变化的。例如,用户在不同时间可能对于同一行为逻辑的反馈也不同。对于行为逻辑强化学习的结果,可以认为是一个概率,即行为逻辑所对应的概率为动态变化的。
基于上述实施例,本申请实施例还提供一种语音控制方法,参阅图8所示,该方法可包括如下步骤:
S801:响应用户的第一操作。其中,第一操作用于唤醒语音助手。
S802:接收用户在语音助手中当前输入的语音指令。
S803:确定与当前输入的语音指令相关联的至少一个候选应用。
S804:根据在语音助手中处于当前输入的语音指令之前的历史信息,在至少一个候选应用中确定目标应用。
其中,目标应用为当前输入的语音指令所要调用的应用,历史信息包括历史对话信息和用户操作行为历史。
在本申请实施例中,用户操作行为历史可以包括多个设备上的用户操作行为历史。
进一步的,根据在语音助手中处于当前输入的语音指令之前的历史信息,在至少一个候选应用中确定目标应用,包括:
对所述历史信息以及各候选应用进行特征提取,将提取出的特征输入数学模型进行打分,获得各候选应用的打分,并将打分最高的候选应用作为目标应用。
需要说明的是,数学模型可以是深度学习模型,也可以是非深度学习模型等,本申请对此不作限定。
S805:调用目标应用,以使目标应用响应所述当前输入的语音指令。
在一种可能的设计中,所述多个设备上的用户操作行为历史包括同一用户的多个设备上的用户操作行为历史或不同用户的多个设备上的用户操作行为历史。即用户的操作行为历史可以共享,并且用户可以设置共享的内容,即哪些行为可以共享给其他用户,哪些行为不共享给其他用户。
进一步的,对所述历史信息进行特征提取,包括:获取与所述历史信息的同一特征相对应的多个行为逻辑;从所述多个行为逻辑中选择目标行为逻辑,对所述历史信息进行特征提取。
在本申请实施例中,对于行为本身不是特征,需要从行为中提取出特征的情况,可以针对同一特征设置多个行为逻辑,并从多个行为逻辑中选择目标行为逻辑,然后基于目标行为逻辑进行特征提取。
在一种可能的实现中,从所述多个行为逻辑中选择目标行为逻辑,包括:
确定所述历史信息所属的场景,并将与所述场景相对应的行为逻辑作为目标行为逻辑;所述场景与行为逻辑具有对应关系;或者依据所述多个行为逻辑对应的优先级,将优先级最高的行为逻辑,作为目标行为逻辑;或者依据所述多个行为逻辑强化学习的动态结果,在所述多个行为逻辑中选择目标行为逻辑。
上述三种情况在上文中已有介绍,具体可参阅前面的描述,在此处不再赘述。
在一种可能的设计中,确定与所述当前输入的语音指令相关联的至少一个候选应用,包括:
获取当前输入的语音指令中的关键词;将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。
为了实现上述本申请实施例提供的方法中的各功能,移动终端设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
上述本申请提供的实施例中,从电子设备作为执行主体的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,电子设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
如图9所示,本申请另外一些实施例公开了一种装置,该装置可以是具有显示屏的电子设备。参阅图9所示,所述装置900包括:显示屏901;一个或多个处理器902;存储器903;多个应用904(图中未示出);以及一个或多个计算机程序905(图中未示出),上述各器件可以通过一个或多个通信总线906连接。
其中,显示屏901用于显示主界面,或者电子设备中的应用的显示界面。存储器903中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令;处理器902调用存储器903中存储的所述指令,使得电子设备900可以执行以下步骤:
响应用户的第一操作,所述第一操作用于唤醒语音助手;接收用户在所述语音助手中当前输入的语音指令;确定与所述当前输入的语音指令相关联的至少一个候选应用;根据在语音助手中处于所述当前输入的语音指令之前的历史信息,在所述至少一个候选应用中确定目标应用,所述目标应用为所述当前输入的语音指令所要调用的应用,所述历史信息包括历史对话信息和用户操作行为历史;调用所述目标应用,以使所述目标应用响应所述当前输入的语音指令。
一种可能的实现方式中,所述用户操作行为历史包括多个设备上的用户操作行为历史。
当所述指令被所述一个或多个处理器调用执行时,使得所述电子设备根据在语音助手中处于所述当前输入的语音指令之前的历史信息,在所述至少一个候选应用中确定目标应用,执行以下步骤:
对所述历史信息以及各候选应用进行特征提取,将提取出的特征输入数学模型进行打分,获得各候选应用的打分,并将打分最高的候选应用作为目标应用。
一种可能的实现方式中,所述多个设备上的用户操作行为历史包括同一用户的多个设备上的用户操作行为历史或不同用户的多个设备上的用户操作行为历史。
具体的,当所述指令被所述一个或多个处理器调用执行时,使得所述电子设备对所述历史信息进行特征提取,执行以下步骤:
获取与所述历史信息的同一特征相对应的多个行为逻辑;从所述多个行为逻辑中选择目标行为逻辑,对所述历史信息进行特征提取。
更进一步的,当所述指令被所述一个或多个处理器调用执行时,使得所述电子设备从所述多个行为逻辑中选择目标行为逻辑,执行以下步骤:
确定所述历史信息所属的场景,并将与所述场景相对应的行为逻辑作为目标行为逻辑;所述场景与行为逻辑具有对应关系;或者依据所述多个行为逻辑对应的优先级,将优先级最高的行为逻辑,作为目标行为逻辑;或者依据所述多个行为逻辑强化学习的动态结果,在所述多个行为逻辑中选择目标行为逻辑。
一种可能的实现方式中,当所述指令被所述一个或多个处理器调用执行时,使得所述电子设备确定与所述当前输入的语音指令相关联的至少一个候选应用,执行以下步骤:
获取当前输入的语音指令中的关键词;
将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。
一种可能的实现中,所述装置为电子设备或电子设备的一部分。示例性的,可以为芯片或者芯片系统。
在本申请实施例中,处理器902可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器903中,处理器902读取存储器903中的程序指令,结合其硬件完成上述方法的步骤。
在本申请实施例中,存储器903可以是非易失性存储器,比如硬盘(hard diskdrive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatilememory),例如RAM。存储器还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储指令和/或数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于以上实施例,本申请还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被计算机执行时,使得所述计算机执行以上实施例提供的语音控制方法。
本申请实施例中还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行以上实施例提供的语音控制方法。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (9)
1.一种语音控制方法,其特征在于,包括:
响应用户的第一操作,所述第一操作用于唤醒语音助手;
接收用户在所述语音助手中当前输入的语音指令;
确定与所述当前输入的语音指令相关联的至少一个候选应用;
获取与历史信息的同一特征相对应的多个行为逻辑;从所述多个行为逻辑中选择目标行为逻辑,对所述历史信息进行特征提取,并对各候选应用进行特征提取;
将提取出的特征输入数学模型进行打分,获得各候选应用的打分,并将打分最高的候选应用作为目标应用,所述目标应用为所述当前输入的语音指令所要调用的应用,所述历史信息包括历史对话信息和多个设备上的用户操作行为历史;
调用所述目标应用,以使所述目标应用响应所述当前输入的语音指令;
从所述多个行为逻辑中选择目标行为逻辑,包括:
确定所述历史信息所属的场景,并将与所述场景相对应的行为逻辑作为目标行为逻辑;所述场景与行为逻辑具有对应关系;或者依据所述多个行为逻辑对应的优先级,将优先级最高的行为逻辑,作为目标行为逻辑;或者依据所述多个行为逻辑强化学习的动态结果,在所述多个行为逻辑中选择目标行为逻辑。
2.如权利要求1所述的方法,其特征在于,所述多个设备上的用户操作行为历史包括同一用户的多个设备上的用户操作行为历史或不同用户的多个设备上的用户操作行为历史。
3.如权利要求1或2所述的方法,其特征在于,确定与所述当前输入的语音指令相关联的至少一个候选应用,包括:
获取当前输入的语音指令中的关键词;
将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。
4.一种装置,其特征在于,所述装置包括显示屏;与存储器耦合的一个或多个处理器,其中,所述存储器中存储有一个或多个计算机程序;所述一个或多个计算机程序包括指令,当所述指令被所述装置执行时,使得所述装置执行如下步骤:
响应用户的第一操作,所述第一操作用于唤醒语音助手;
接收用户在所述语音助手中当前输入的语音指令;
确定与所述当前输入的语音指令相关联的至少一个候选应用;
获取与历史信息的同一特征相对应的多个行为逻辑;从所述多个行为逻辑中选择目标行为逻辑,对所述历史信息进行特征提取,并对各候选应用进行特征提取;
将提取出的特征输入数学模型进行打分,获得各候选应用的打分,并将打分最高的候选应用作为目标应用,所述目标应用为所述当前输入的语音指令所要调用的应用,所述历史信息包括历史对话信息和多个设备上的用户操作行为历史;
调用所述目标应用,以使所述目标应用响应所述当前输入的语音指令;
当所述指令被所述一个或多个处理器调用执行时,使得所述装置从所述多个行为逻辑中选择目标行为逻辑,执行以下步骤:
确定所述历史信息所属的场景,并将与所述场景相对应的行为逻辑作为目标行为逻辑;所述场景与行为逻辑具有对应关系;或者依据所述多个行为逻辑对应的优先级,将优先级最高的行为逻辑,作为目标行为逻辑;或者依据所述多个行为逻辑强化学习的动态结果,在所述多个行为逻辑中选择目标行为逻辑。
5.如权利要求4所述的装置,其特征在于,所述多个设备上的用户操作行为历史包括同一用户的多个设备上的用户操作行为历史或不同用户的多个设备上的用户操作行为历史。
6.如权利要求4或5所述的装置,其特征在于,当所述指令被所述一个或多个处理器调用执行时,使得所述装置确定与所述当前输入的语音指令相关联的至少一个候选应用,执行以下步骤:
获取当前输入的语音指令中的关键词;
将与所述关键词相关的至少一个应用分别作为候选应用,与所述关键词相关的应用指能够提供所述关键词对应所需服务的应用。
7.如权利要求4所述的装置,其特征在于,所述装置为电子设备或为电子设备的一部分。
8.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-3中任一项所述的语音控制方法。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-3中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424733.7A CN113129887B (zh) | 2019-12-31 | 2019-12-31 | 一种语音控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424733.7A CN113129887B (zh) | 2019-12-31 | 2019-12-31 | 一种语音控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129887A CN113129887A (zh) | 2021-07-16 |
CN113129887B true CN113129887B (zh) | 2024-07-05 |
Family
ID=76770827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911424733.7A Active CN113129887B (zh) | 2019-12-31 | 2019-12-31 | 一种语音控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129887B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113573132B (zh) * | 2021-07-23 | 2023-08-11 | 深圳康佳电子科技有限公司 | 一种基于语音实现的多应用拼屏方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147779A (zh) * | 2018-08-14 | 2019-01-04 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
CN110060679A (zh) * | 2019-04-23 | 2019-07-26 | 诚迈科技(南京)股份有限公司 | 一种全程语音控制的交互方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6068901B2 (ja) * | 2012-09-26 | 2017-01-25 | 京セラ株式会社 | 情報端末、音声操作プログラムおよび音声操作方法 |
CN107293294B (zh) * | 2016-03-31 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种语音识别处理方法及装置 |
JP6651973B2 (ja) * | 2016-05-09 | 2020-02-19 | 富士通株式会社 | 対話処理プログラム、対話処理方法および情報処理装置 |
CN108650401A (zh) * | 2018-03-28 | 2018-10-12 | 维沃移动通信有限公司 | 一种应用程序控制方法及移动终端 |
-
2019
- 2019-12-31 CN CN201911424733.7A patent/CN113129887B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147779A (zh) * | 2018-08-14 | 2019-01-04 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
CN110060679A (zh) * | 2019-04-23 | 2019-07-26 | 诚迈科技(南京)股份有限公司 | 一种全程语音控制的交互方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113129887A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113794800B (zh) | 一种语音控制方法及电子设备 | |
CN110910872B (zh) | 语音交互方法及装置 | |
US11871328B2 (en) | Method for identifying specific position on specific route and electronic device | |
CN110543287B (zh) | 一种屏幕显示方法及电子设备 | |
CN110602273B (zh) | 一种消息显示方法、电子设备及计算机可读存储介质 | |
CN111819533B (zh) | 一种触发电子设备执行功能的方法及电子设备 | |
CN112154431B (zh) | 一种人机交互的方法及电子设备 | |
CN110673783B (zh) | 一种触控方法与电子设备 | |
CN111742539B (zh) | 一种语音控制命令生成方法及终端 | |
CN112130714B (zh) | 可进行学习的关键词搜索方法和电子设备 | |
CN112445276A (zh) | 一种折叠屏显示应用方法及电子设备 | |
CN113641488A (zh) | 一种基于用户使用场景进行资源优化的方法和装置 | |
CN112527093A (zh) | 手势输入方法及电子设备 | |
CN113472861B (zh) | 一种文件传输方法及电子设备 | |
CN110866254A (zh) | 一种检测漏洞方法与电子设备 | |
CN114822525A (zh) | 语音控制方法和电子设备 | |
CN110955452B (zh) | 一种非侵入式交互方法及电子设备 | |
CN114064571A (zh) | 一种确定文件存储位置的方法、装置及终端 | |
CN116052648A (zh) | 一种语音识别模型的训练方法、使用方法及训练系统 | |
CN113129887B (zh) | 一种语音控制方法及装置 | |
CN117215446B (zh) | 一种显示方法及电子设备 | |
CN114528842A (zh) | 一种词向量构建方法、装置、设备及计算机可读存储介质 | |
CN113380240A (zh) | 语音交互方法和电子设备 | |
CN114817521B (zh) | 搜索方法和电子设备 | |
WO2023221895A1 (zh) | 一种目标信息的处理方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |