CN115083401A - 语音控制方法及装置 - Google Patents
语音控制方法及装置 Download PDFInfo
- Publication number
- CN115083401A CN115083401A CN202110262462.0A CN202110262462A CN115083401A CN 115083401 A CN115083401 A CN 115083401A CN 202110262462 A CN202110262462 A CN 202110262462A CN 115083401 A CN115083401 A CN 115083401A
- Authority
- CN
- China
- Prior art keywords
- target
- user
- semantic reasoning
- voice
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000006870 function Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001976 improved effect Effects 0.000 abstract description 4
- 238000007726 management method Methods 0.000 description 20
- 239000010410 layer Substances 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000010295 mobile communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音控制方法及装置,该方法包括:电子设备接收目标用户的语音数据,语音数据包括语音操控指令,该语音操控指令用于指示电子设备执行操作命令;判断语音数据中是否包括目标设备的名称,在语音数据中包括所述目标设备的名称时,将语音操控指令转换成设备控制指令;否则,根据语音数据获取目标用户的身份信息,根据身份信息调用语义推理模型确定目标设备;最后向所述目标设备发送所述设备控制指令。本申请通过语义推理模型来确定执行语音操控指令的目标设备,从而实现了根据用户的意图来选择执行设备,提高了用户体验。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音控制方法及装置。
背景技术
随着物联网技术的不断进步,万物互联、互通、互融是当前的科技热点及未来趋势。越来越多的智能终端设备,比如手机、音箱、平板、电视、空调等,出现在大众的视野中,由以前的单一设备发展为多设备、多场景的分布式设备,传统的基于操控面板的操作方式并不能为用户提供简洁的、用户友好的、智能的操控方式。目前语音识别和语义理解技术的取得重要突破,该技术得到快速的普及,同时由于基于语音的交互方式具有简洁、方便、智能等优点,已成为目前操控分布式设备的主流方式。
目前,智能设备的处理能力逐渐增强,设备的能力差异性逐渐减小或消失,从而导致设备出现功能同质化现象,比如智能电视和手机在视频服务、音乐服务方面从功能上并没有差异,因此,如何正确理解用户的意图来选择提供服务的设备是亟待解决的问题。
发明内容
本申请实施例提供一种语音控制方法及装置,通过语义推理模型来确定执行语音操控指令的目标设备,从而实现了根据用户的意图来选择执行设备,提高了用户体验。
第一方面,本申请实施例提供一种语音控制方法,应用于仲裁设备,所述方法包括:
接收目标用户的语音数据,所述语音数据包括语音操控指令,所述语音操控指令用于指示电子设备执行操作命令;
判断所述语音数据中是否包括目标设备的名称;
在所述语音数据中包括所述目标设备的名称时,将所述语音操控指令转换成设备控制指令;否则,根据所述语音数据获取目标用户的身份信息,根据所述身份信息调用语义推理模型确定目标设备;
向所述目标设备发送所述设备控制指令。
第二方面,本申请实施例提供一种语音控制装置,应用于仲裁设备,所述装置包括:
收发单元,用于接收目标用户的语音数据,所述语音数据包括语音操控指令,所述语音操控指令用于指示电子设备执行操作命令;
处理单元,用于判断所述语音数据中是否包括目标设备的名称;在所述语音数据中包括所述目标设备的名称时,将所述语音操控指令转换成设备控制指令;否则,根据所述语音数据获取目标用户的身份信息,根据所述身份信息调用语义推理模型确定目标设备;
所述收发单元,还用于向所述目标设备发送所述设备控制指令。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,电子设备接收目标用户的语音数据,语音数据包括语音操控指令,该语音操控指令用于指示电子设备执行操作命令;判断语音数据中是否包括目标设备的名称,在语音数据中包括所述目标设备的名称时,将语音操控指令转换成设备控制指令;否则,根据语音数据获取目标用户的身份信息,根据身份信息调用语义推理模型确定目标设备;最后向所述目标设备发送所述设备控制指令。本申请通过语义推理模型来确定执行语音操控指令的目标设备,从而实现了根据用户的意图来选择执行设备,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的一种电子设备的软件结构示意图;
图3a是本申请实施例提供的一种设备控制系统的示意图;
图3b为本申请实施例提供的一种仲裁设备的结构示意图;
图4是本申请实施例提供了一种设备唤醒的流程示意图;
图5是本申请实施例提供了一种语音控制方法的流程示意图;
图6是本申请实施例提供的一种第一语义推理模型的训练方法的流程示意图;
图6a是本申请实施例提供的另一种语音控制方法的流程示意图;
图7是本申请实施例提供的一种语音控制装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本申请实施例提供的语音控制方法可以应用于手持设备、车载设备、可穿戴设备、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、投影设备、投影仪或者连接到无线调制解调器的其他设备,也可以是各种具体形式的用户设备(userequipment,UE)、终端设备(terminal device)、手机(smart phone)、智慧屏、智慧电视、智能手表、笔记本电脑、智能音响、摄像头、游戏手柄、鼠标、麦克风、站点(station,STA)、接入点(access point,AP)、移动台(mobile Station,MS)、个人数字助理(personal digitalassistant,PDA)、个人计算机(personal computer,PC)或者中继设备等终端设备或者服务器,本申请实施例对终端设备和服务器的具体类型不作任何限制。
例如,所述终端设备可以是WLAN中的站点(STAION,ST),可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box,STB)、用户驻地设备(customer premise equipment,CPE)和/或用于在无线装置上进行通信的其它设备以及下一代通信装置,例如,5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network,PLMN)网络中的移动终端等。
作为示例而非限定,当所述终端设备为可穿戴设备时,该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,如智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
第一部分,本申请所公开的技术方案的软硬件运行环境介绍如下。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus,USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、移动通信模块150、无线通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、指南针190、马达191、指示器192、摄像头193、显示屏194以及用户标识模块(subscriber identification module,SIM)卡接口195等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的部件,也可以集成在一个或多个处理器中。在一些实施例中,电子设备100也可以包括一个或多个处理器110。其中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。在其他一些实施例中,处理器110中还可以设置存储器,用于存储指令和数据。示例性地,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。这样就避免了重复存取,减少了处理器110的等待时间,因而提高了电子设备100处理数据或执行指令的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit,I2C)接口、集成电路间音频(inter-integrated circuitsound,I2S)接口、脉冲编码调制(pulse code modulation,PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口、移动产业处理器接口(mobile industry processor interface,MIPI)、用输入输出(general-purpose input/output,GPIO)接口、SIM卡接口和/或USB接口等。其中,USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。该USB接口130也可以用于连接耳机,通过耳机播放音频。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络)、蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)、UWB等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED)、柔性发光二极管(flex light-emittingdiode,FLED)、迷你发光二极管(mini light-emitting diode,miniled)、MicroLed、Micro-oLed、量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或多个摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别、人脸识别、语音识别、文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令,从而使得电子设备100执行本申请一些实施例中所提供的显示页面元素的方法,以及各种应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如照片,联系人等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储部件,闪存部件,通用闪存存储器(universal flash storage,UFS)等。在一些实施例中,处理器110可以通过运行存储在内部存储器121的指令,和/或存储在设置于处理器110中的存储器的指令,来使得电子设备100执行本申请实施例中所提供的显示页面元素的方法,以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。
传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。
其中,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即X、Y和Z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
示例性的,图2示出了电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
第二部分,本申请实施例所公开的示例应用场景介绍如下。
示例性地,本申请实施例的技术方案可以应用于如图3a所示的设备控制系统。其中,该设备控制系统可以包括语音采集设备、第一类电子设备、第二类电子设备和仲裁设备。仲裁设备可以分别连接多个第一类电子设备、第二类电子设备和语音采集设备,多个第一类电子设备和多个第二类电子设备之间可以通过无线网络或有线数据相互通信连接。
其中,语音采集设备具备基本的语音输入、语音输出或语音识别等能力,只作为用户的语音操控指令的语音输入接口,而不执行该语音操控指令(或语音操控指令、语音操控命令)。第一类电子设备同时具有语音接收和提供服务的能力,比如手机、智能音箱、电视等,它们既可以作为分布式设备控制系统的语音接收设备,也可以作为被控设备来执行用户的语音操控指令。第二类电子设备具备提供服务的能力,但不具备提供语音输入的功能的能力,只作为被控设备来执行用户的语音操控指令,比如空调、冰箱、洗衣机等。仲裁设备主要负责目标设备唤醒仲裁、用户意图识别等。该仲裁设备可以是第一类电子设备、第二类电子设备中具有支持上述能力的硬件资源的设备,也可以是独立的服务器,也可以是远程云服务器等。
具体地,语音采集设备采集用户的语音数据,并将语音数据传输给仲裁设备,仲裁设备根据该语音数据从连接的多个第一类电子设备和多个第二类电子设备中选取符合用户意图的电子设备来执行用户的操作指令。例如,用户通过手机上的麦克风接收用户说出的“播放新闻联播”语音,然后手机对该语音进行处理,识别出用户的真实意图,从智能电视、手机、笔记本电脑和平板中选择出符合用户意图的电子设备来执行播放新闻联播的服务。
示例性地,上述语音控制系统中的电子设备中可以安装语音助手,以使该电子设备实现语音控制功能。语音助手一般情况下是处于休眠状态的。用户在使用电子设备的语音控制功能之前,需要对语音助手进行语音唤醒。其中,唤醒语音助手的语音数据可以称为唤醒词(或唤醒语音)。该唤醒词可以预先注册在电子设备中。本实施例中所述的唤醒语音助手可以是指,电子设备响应于用户说出的唤醒词,启动语音助手。语音控制功能可以是指:电子设备的语音助手启动后,用户通过说出语音命令(如,一段语音数据),可以触发电子设备自动执行该语音命令对应的事件。
另外,上述语音助手可以是电子设备中的嵌入式应用(即电子设备的系统应用),也可以是可下载应用。嵌入式应用是作为电子设备(如手机)实现的一部分提供的应用程序。可下载应用是一个可以提供自己的因特网协议多媒体子系统(Internet ProtocolMultimedia Subsystem,IMS)连接的应用程序。可下载应用可以预先安装在电子设备中,也可是由用户下载并安装在电子设备中的第三方应用。
示例性地,如图3b所示,图3b为本申请实施例提供的一种仲裁设备的结构示意图。如图3b所示,所述仲裁设备包括语音唤醒模块、用户识别模块、语义推理模型、优化更新模块和用户注册模块。
其中,用户在通过仲裁设备进行语音控制之前,可以事先录入或从与其连接的电子设备中获取用户的生物信息特征(如声纹、指纹、人脸、虹膜等)和/或用户账号信息。例如,用户使用同一个用户账号登录与仲裁设备连接的电子设备,仲裁设备可以从该多个电子设备中获取用户使用声音、人脸、指纹、虹膜等信息。然后将获取的生物特征信息和/或用户账号信息进行存储以为后续任务提供身份识别特征。
进一步地,用户识别模块通过用户注册模块中存储的生物信息特征来识别用户的身份,从而为后续的个性化操控提供身份证明。用户识别模块将用户粗分为注册用户和未注册用户,其中注册用户则具体标识为用户注册模块中的具体用户。
其中,语义推理模型的主要作用是进行语义解析和设备推断。例如当用户说出“打开新闻联播”时,需要利用语义推理模型推理出用户需要在什么电子设备上播放新闻联播。同时为了个性化推理,该模块包含至少一个通用语义推理模型和用户特定语义推理模型。其中通用语义推理模型是针对未注册用户而使用通用预料训练的一个推理模型,用户特定语义推理模型是在通用语义推理模型基础之上使用该户用的预料进行微调后的推理模型。语义推理模型是将隐式操控命令,比如“打开新闻联播”等未指定电子设备的语音操控命令进行用户意图理解,并准确推断出用户希望操控的电子设备。该模块利用大规模的语料训练一个语义推理模型,该语义推理模型从语料中学习我们的社会生活常识,从而辅助理解用户的意图,其可以抽象地表达为:
P(设备|设备操控命令)=model(语音操控命令)
其中,model是所述语义推理模型,它以语音操控命令为输入,来近似拟合前面的概率模型。例如,对于“打开新闻联播”操控命令,对于未注册的用户,由于没有该用户的用户特定语义推理模型,因此,根据我们的日常语义信息,P(电视|打开新闻联播)的值应满足要远大于P(手机|打开新闻联播)的值和P(平板|打开新闻联播)的值。
进一步地,优化更新模块可以根据注册用户的操控习惯不断学习优化该用户的用户特定语义推理模型,从而使该用户特定语义推理模型更准确地识别出用户的意图。
最后,在用户输出的语音数据中包括电子设备的唤醒词时,例如仲裁设备接收的语音数据中包括“小布小布”,并且与仲裁设备连接的各个电子设备的唤醒词为“小布小布”时,仲裁设备可以在选择了目标设备后,唤醒目标设备,并向目标设备反馈用户说出后续的操控命令。
示例性地,以仲裁设备为服务器,第一类电子设备为智能音箱、智能手机和智能电视为例对设备唤醒流程进行说明。请参阅图4。首先,用户向其周围输入唤醒语音,如“小布小布”;其次,具有语音输入功能的电子设备(智能音箱、智能手机和智能电视)接收到该唤醒语音;其中,该电子设备安装有智能语音助手,并处于休眠状态;再次,该电子设备通过预先存储的唤醒词与该唤醒语音进行匹配。若匹配成功,则将自己接收到的该唤醒语音息的信号强度、自身的服务能力信息、自身的设备标识信息等上传至服务器;接着,服务器接收来自上述各信息以完成该电子设备的注册,并根据预设唤醒规则(如设备距离最近、设备历史使用时间最近、设备历史使用频次最高等唤醒规则)响应于该唤醒语音以确定唤醒智能音箱,并向该智能音箱下发控制指令;最后,智能音箱接收该用户的控制指令,并开启自身的语音智能助手,以及向用户发出提示信息(如“在,主人”)。
应理解,设备操控系统还可以包括其他数量的电子设备,在此不作具体限定。
第三部分,本申请实施例所公开的权要保护范围介绍如下。
请参阅图5,图5是本申请实施例提供了一种语音控制方法的流程示意图,应用于上述图3b中的仲裁设备,如图5所示,本语音控制方法包括以下操作。
S510、接收目标用户的语音数据,所述语音数据包括语音操控指令,所述语音操控指令用于指示电子设备执行操作命令。
在本实施例中,语音采集设备采集到用户的语音数据后,可将语音数据发送给仲裁设备,以使仲裁设备选择目标设备来执行语音数据中的语音操控指令。
示例性地,当第一类电子设备和/或第二类电子设备处于休眠状态时,用户可先输出唤醒语音来唤醒第一类电子设备和/或第二类电子设备,以执行用户后续输出的语音操控指令。具体为在说出语音操控指令之前,用户可先说出唤醒语音,当语音采集设备采集到用户的唤醒语音后,可将唤醒语音发送给仲裁设备,仲裁设备可根据唤醒规则,将唤醒指令发送给需要被唤醒的电子设备,然后当接收到语音采集设备的语音操作指令后,根据语义推理模型输出该语音操作指令的目标设备,最后将该语音操作指令转换成设备操作指令发送给目标设备,以使目标设备执行用户操作指令。
需要说明的是,接收仲裁设备发送的唤醒指令的电子设备和目标设备可以不是同一电子设备,也可以是同一电子设备,例如,服务器在接收到用户说出唤醒词“你好小布”后,由于智能音箱离用户比较近(智能音箱接收的唤醒词的信号能量最高),服务器可向智能音箱发送唤醒指令来唤醒智能音箱,并通过智能音箱来接收用户的后续指令。当用户说出“播放音乐”时,服务器接收到该语音控制指令“播放音乐”后,通过语义推理模块得到的目标设备为手机(该用户在日常生活中经常使用手机播放音乐),则服务器向手机发送“播放音乐”的操控指令,手机接收到该操控指令后,提供音频播放服务执行该操控指令。
示例性地,当目标用户的语音数据中包括唤醒语音和语音操控指令时,仲裁设备可根据语义推理模块得到执行语音操控指令的目标设备,然后将唤醒指令和设备控制指令同时发送给目标设备。目标设备接收到该唤醒指令和设备控制指令后,可先唤醒再执行操控指令。例如,手机采集到用户说出的“你好小布,请播放新闻联播”时,通过手机中的语义推理模块得到的目标设备为智能电视(该用户在日常生活中经常使用智能电视播放新闻联播),则手机向智能电视发送唤醒指令和“播放新闻联播”的操控指令。智能电视接收后先唤醒再提高视频服务播放新闻联播。
S520、判断所述语音数据中是否包括目标设备的名称。
实际应用中,在进行语音操控时,用户可能会指定执行该语音操控的目标设备,例如,对于“在电视上播放新闻联播”的语音数据,用户指定的目标设备为电视;用户也可能不会指定执行该语音操控的目标设备,例如,对于“播放新闻联播”的语音数据。因此,仲裁设备在接收到目标用户的语音数据后,需要判断该语音数据是否完整,即该语音数据中是否包括目标设备的名称。
S530、在所述语音数据中包括所述目标设备的名称时,将所述语音操控指令转换成设备控制指令;否则,根据所述语音数据获取目标用户的身份信息,根据所述身份信息调用语义推理模型确定目标设备,并将所述语音操控指令转换成设备控制指令。
其中,仲裁设备接收到该语音数据后,需要对该语音数据进行解析。若解析出该语音数据中包括语音操控指令和目标设备,则仲裁设备可直接将语音操控指令转化成设备控制指令发送给目标设备进行执行。例如,用户显示说出“在电视上播放新闻联播”,仲裁设备接收到该语音数据后,解析出该语音数据具有设备名称“电视”,仲裁设备可直接输出“播放新闻联播”对应“电视”的设备操控命令给电视。
进一步地,若语音数据中未包括目标设备的名称,此时需要仲裁设备选择出目标设备。其中每个用户在日常生活中会有自己的表达习惯,不同的用户对同一功能服务可能会使用不同的电子设备来执行,例如,用户A对于“播放新闻联播”的目标设备是手机,用户B对于“播放新闻联播”的目标设备是电视。因此,仲裁设备可根据语音数据获取目标用户的身份,根据用户的身份调用与目标用户对应的语义推理模型来选择目标设备。
可选的,所述身份信息包括注册用户和未注册用户;
所述根据所述语音数据获取目标用户的身份信息,包括:
提取所述语音数据对应的声纹特征信息;将所述声纹特征信息与预存储的至少一个声纹特征信息分别进行匹配;若所述声纹特征信息与预存储的目标声纹特征信息匹配,将所述目标用户的身份信息确定为所述注册用户,所述目标声纹特征信息为所述至少一个声纹特征信息中的任一声纹特征信息;若所述声纹特征信息与所有预存储的声纹特征信息均不匹配,将所述目标用户的身份信息确定为所述未注册用户。
其中,在进行语音控制前,用户可将自己的身份信息注册到仲裁设备中,具体为用户可将自己的语音录入到仲裁设备,或者通过语音采集设备将录入的语音发送给仲裁设备。然后仲裁设备对每个用户录入的语音进行处理,提取出每个用户的声纹特征信息,并建立用户与声纹特征信息之间的映射关系。
示例性地,提取语音数据的声纹特征可以采用线性预测编码(Linear PredictiveCoding,LPC)特征,MFCC特征,感知线性预测(Perceptual Linear Predictive,PLP)特征等,本申请实施例对声学特征的类型不进行限制。
具体地,将从语音数据中提取出的声纹特征信息分别与仲裁设备中存储的注册用户的声纹特征信息进行匹配。若语音数据的声纹特征信息与仲裁设备中存储的声纹特征信息匹配,则表明该目标用户为注册用户;若语音数据的声纹特征信息与仲裁设备中存储的声纹特征信息均不匹配,则表明该目标用户为未注册用户。
可选的,所述语义推理模型包括多个第一语义推理模型和第二语义推理模型,所述第一语义推理模型为将所述注册用户语料作为训练样本训练得到的,所述第二语义推理模型为将通用语料作为训练样本训练得到的。
其中,每个用户对应一个第一语义推理模型,所有未注册用户对应第二语义推理模型。每个第一语义推理模型是根据对应注册用户的多条语义操控指令训练得到的,第二语义推理模型是日常生活中常用的多条语义操控指令训练得到的。
可选的,所述根据所述身份信息调用语义推理模型确定目标设备,包括:若所述用户身份为所述注册用户,将所述语音操控指令输入所述第一语义推理模型,得到所述目标设备;若所述用户身份为所述未注册用户,将所述语音操控指令输入所述第二语义推理模型,得到所述目标设备。
具体地,若目标用户为注册用户,则表明仲裁设备有针对该目标用户的第一语义推理模型。因此根据声纹特征信息与第一语义推理模型之间的映射关系,确定目标用户的第一语义推理模型。该声纹特征信息与第一语义推理模型之间的映射关系可以是预先存储的,也可以是在训练第一语义推理模型构建的,本申请实施例对此不做限定。然后将语音操控指令输入到该第一语义推理模型中,从而得到该语音操控指令的目标设备。若目标用户为未注册用户,则可直接使用第二语义推理模型来得到该语音操控指令的目标设备。
可选的,如图6所示,所述第一语义推理模型的训练方法,包括以下步骤:
S610、获取训练数据集,所述训练数据集包括注册用户的多条语音数据。
其中,所述训练数据集可以是用户在日常生活中进行语音操控时的音频数据。当用户在仲裁设备上进行注册后,仲裁设备可将接收来自语音采集设备、第一类电子设备、第二类电子设备的关于该注册用户的语音数据存储到数据库中,每条语音数据中包括语音操控指令和用户指定的目标设备。示例性地,若语音数据中未包括目标设备的名称,则记录每条语音操控指令对应的执行设备。
可选的,所述获取训练数据集,包括:根据所述声纹特征信息与注册用户之间的映射关系,确定目标声纹特征信息所对应的目标注册用户;获取多条原始语音数据,所述原始语音数据包括所述目标注册用户的语音操控指令;确定执行所述目标注册用户的语音操控指令的执行设备;将所述执行设备标注为所述语音操控指令的所述目标设备,得到所述多条语音数据。
具体地,根据声纹特征信息与注册用户之间的映射关系,确定目标用户为目标注册用户后,仲裁设备可从数据库中获取目标注册用户的原始语音数据。然后对原始语音数据进行解析,得到语音操控指令和对应的执行设备,将执行设备标注为语音操控数指令的目标设备。最后将该标注有目标设备的语音操控指令作为训练数据对待训练的第一语义推理模型进行训练。
S620、对所述多条语音数据执行特征提取操作,得到多个音频特征。
其中,在获取到用于训练的语音数据后,需要提取语音数据的音频特征来训练待训练的第一语义推理模型。该音频特征可以为梅尔倒谱系数(Mel-frequency CepstralCoefficient,MFCC)和滤波器组特征(Filter Bank)等。
S630、将所述多个音频特征输入待训练第一语义推理模型进行训练,直至达到训练结束条件,得到所述第一语义推理模型。
其中,所述待训练第一语义推理模型可以是用于分类的机器学习算法,例如K_means算法、K最近邻(KNN,K-Nearest Neighbor)分类算法、决策树等,也可以是神经网络算法,例如循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(ConvolutionalNeural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)及各种变式神经网络算法等。
可选的,所述将所述多个音频特征输入待训练第一语义推理模型进行训练,直至达到训练结束条件,得到所述第一语义推理模型,包括:将所述多个音频特征输入待训练第一语义推理模型,得到每条语音数据对应的输出设备;依据所述输出设备和标注的目标设备构建损失函数;将所述损失函数最小化所对应的参数更新为所述待训练第一语义推理模型的参数,得到所述第一语义推理模型。
其中,在训练模型的过程中,因为希望模型的输出尽可能的接近真正想要预测的值,所以可以通过比较当前模型的预测值和真正想要的目标值,再根据两者之间的差异情况来更新智能算法的权重向量,比如,如果模型的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。损失函数是用于衡量预测值和目标值的差异的重要方程。例如,损失函数的输出值(loss)越高表示差异越大,那么模型的训练就变成了尽可能缩小这个loss的过程,最终将损失函数最小所对应的参数确定为训练模型的参数。
具体地,将每条语音操控指令的音频特征输入到待训练的第一语义推理模型中,得到与仲裁设备连接的每个第一类电子设备和每个第二类电子的第一后验概率,该第一后验概率为是目标设备的概率。输出第一后验概率最大所对应的电子设备为目标设备。然后将输出的电子设备与标注的目标设备进行比较,若输出的电子设备不是标注的目标设备,则调整待训练的第一语义推理模型的参数,降低该输出的电子设备的第一后验概率,然后重新将输出的第一后验概率最大的电子设备与标注的目标设备进行比较,直至待训练的第一语义推理模型输出的第一后验概率最大的电子设备为标注的目标设备。
示例性,若第一后验概率最大的电子设备不是标注的目标设备,损失函数可为1;若第一后验概率最大的电子设备是标注的目标设备,损失函数可为0。
S540、向所述目标设备发送所述设备控制指令。
其中,当确定了目标设备后,仲裁设备可将根据语音操控指令转换的设备控制指令发送给目标设备,以使目标设备提供相应的服务执行该操控指令。
示例性地,在语音操控场景,当用户A显示说出“在电视上播放新闻联播”,仲裁设备接收到该语音数据后,解析出该语音数据中具有目标设备名称,则直接输出该语音操控指令的对应的特定设备的设备操控命令给电视,电视接收到该设备控制指令后提供相应的功能服务执行操控指令。
示例性地,用户B为未注册用户,当用户B说出“播放新闻联播”时,由于大部分人在日常生活中习惯使用电视播放新闻联播,因此仲裁设备根据第二语义推理模型,得到执行用户B的“播放新闻联播”的目标设备是电视。
示例性地,用户A和用户B均为注册用户,若用户A喜欢基于手机提供服务,用户B喜欢基于电视提供服务,当用户A和用户B在相同场景下说出“播放新闻联播”时,仲裁设备根据用户A的第一语义推理模型,得到执行用户A的“播放新闻联播”的目标设备是手机;根据用户B的第一语义推理模块,得到执行用户B的“播放新闻联播”的目标设备是电视。
下面,以仲裁设备为服务器、第一类电子设备为智能音箱、智能手机和智能电视、目标设备为智能电视为例对决策目标设备的流程进行说明。
请参阅图6a,图6a是本申请实施例提供的另一种语音控制方法的流程示意图。如图6a所示,用户输入语音数据,其中包括“播放新闻联播”的语音操控指令,已开启智能语音助手的智能音箱接收到该语音数据,并将该语音数据上传至服务器;再次,服务器识别该语音操数据以确定语音数据中是否包括目标设备的名称,若该语音操作数据中包括目标设备的名称,则直接将语音操控指令转换为设备控制指令发送给目标设备。若该语音操作数据中未包括目标设备的名称,则根据语义推理模型确定执行该语音操控指令的电子设备为智能电视,然后服务器根据语音操控指令转换成设备控制指令,并向智能电视下发该设备控制指令,该设备控制指令用于控制智能电视提供相应的功能服务执行指令;最后,智能电视接收到该设备控制指令后使用视频播放服务来执行“播放新闻联播”的操作。
可以看出,本申请实施例的提出的语音控制方法,电子设备接收目标用户的语音数据,语音数据包括语音操控指令,该语音操控指令用于指示电子设备执行操作命令;判断语音数据中是否包括目标设备的名称,在语音数据中包括所述目标设备的名称时,将语音操控指令转换成设备控制指令;否则,根据语音数据获取目标用户的身份信息,根据身份信息调用语义推理模型确定目标设备;最后向所述目标设备发送所述设备控制指令。本申请通过语义推理模型来确定执行语音操控指令的目标设备,从而实现了根据用户的意图来选择执行设备,提高了用户体验。
可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图7示出了语音控制装置的示意图,如图7所示,该语音控制装置700应用于仲裁设备,该语音控制装置700可以包括:收发单元701和处理单元702。
其中,收发单元701可以用于支持电子设备执行上述S510、S540等,和/或用于本文所描述的技术的其他过程。
处理单元702可以用于支持电子设备执行上述S520、S530等,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述语音控制方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述收发单元701和处理单元702执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的语音控制方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音控制方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音控制方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音控制方法,其特征在于,应用于仲裁设备,所述方法包括:
接收目标用户的语音数据,所述语音数据包括语音操控指令,所述语音操控指令用于指示电子设备执行操作命令;
判断所述语音数据中是否包括目标设备的名称;
在所述语音数据中包括所述目标设备的名称时,将所述语音操控指令转换成设备控制指令;否则,根据所述语音数据获取目标用户的身份信息,根据所述身份信息调用语义推理模型确定目标设备;
向所述目标设备发送所述设备控制指令。
2.根据权利要求1所述的方法,其特征在于,所述身份信息包括注册用户和未注册用户;
所述根据所述语音数据获取目标用户的身份信息,包括:
提取所述语音数据对应的声纹特征信息;
将所述声纹特征信息与预存储的至少一个声纹特征信息分别进行匹配;
若所述声纹特征信息与预存储的目标声纹特征信息匹配,将所述目标用户的身份信息确定为所述注册用户,所述目标声纹特征信息为所述至少一个声纹特征信息中的任一声纹特征信息;
若所述声纹特征信息与所有预存储的声纹特征信息均不匹配,将所述目标用户的身份信息确定为所述未注册用户。
3.根据权利要求2所述的方法,其特征在于,所述语义推理模型包括第一语义推理模型和第二语义推理模型,所述第一语义推理模型为将所述注册用户语料作为训练样本训练得到的,所述第二语义推理模型为将通用语料作为训练样本训练得到的;
所述根据所述身份信息调用语义推理模型确定目标设备,包括:
若所述用户身份为所述注册用户,将所述语音操控指令输入所述第一语义推理模型,得到所述目标设备;
若所述用户身份为所述未注册用户,将所述语音操控指令输入所述第二语义推理模型,得到所述目标设备。
4.根据权利要求3所述的方法,其特征在于,所述第一语义推理模型的训练方法包括:
获取训练数据集,所述训练数据集包括所述注册用户的多条语音数据;
对所述多条语音数据执行特征提取操作,得到多个音频特征;
将所述多个音频特征输入待训练第一语义推理模型进行训练,直至达到训练结束条件,得到所述第一语义推理模型。
5.根据权利要求3所述的方法,其特征在于,所述获取训练数据集,包括:
根据所述声纹特征信息与注册用户之间的映射关系,确定目标声纹特征信息所对应的目标注册用户;
获取多条原始语音数据,所述原始语音数据包括所述目标注册用户的语音操控指令;
确定执行所述目标注册用户的语音操控指令的执行设备;
将所述执行设备标注为所述语音操控指令的所述目标设备,得到所述多条语音数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述将所述多个音频特征输入待训练第一语义推理模型进行训练,直至达到训练结束条件,得到所述第一语义推理模型,包括:
将所述多个音频特征输入待训练第一语义推理模型,得到每条语音数据对应的输出设备;
依据所述输出设备和标注的目标设备构建损失函数;
将所述损失函数最小化所对应的参数更新为所述待训练第一语义推理模型的参数,得到所述第一语义推理模型。
7.一种语音控制装置,其特征在于,应用于仲裁设备,所述装置包括:
收发单元,用于接收目标用户的语音数据,所述语音数据包括语音操控指令,所述语音操控指令用于指示电子设备执行操作命令;
处理单元,用于判断所述语音数据中是否包括目标设备的名称;在所述语音数据中包括所述目标设备的名称时,将所述语音操控指令转换成设备控制指令;否则,根据所述语音数据获取目标用户的身份信息,根据所述身份信息调用语义推理模型确定目标设备;
所述收发单元,还用于向所述目标设备发送所述设备控制指令。
8.根据权利要求7所述的装置,其特征在于,所述语义推理模型包括多个第一语义推理模型和第二语义推理模型,所述第一语义推理模型为将注册用户语料作为训练样本训练得到的,所述第二语义推理模型为将通用语料作为训练样本训练得到的;
在根据所述身份信息调用语义推理模型确定目标设备方面,所述处理单元具体用于:
若所述用户身份为所述注册用户,根据声纹特征信息与第一语义推理模型之间的映射关系,确定所述目标声纹特征信息对应的第一语义推理模型,将所述语音操控指令输入所述第一语义推理模型,得到所述目标设备;
若所述用户身份为所述未注册用户,将所述语音操控指令输入所述第二语义推理模型,得到所述目标设备。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262462.0A CN115083401A (zh) | 2021-03-10 | 2021-03-10 | 语音控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262462.0A CN115083401A (zh) | 2021-03-10 | 2021-03-10 | 语音控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115083401A true CN115083401A (zh) | 2022-09-20 |
Family
ID=83240531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262462.0A Pending CN115083401A (zh) | 2021-03-10 | 2021-03-10 | 语音控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083401A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115562054A (zh) * | 2022-09-28 | 2023-01-03 | 北京小米移动软件有限公司 | 设备控制方法、装置、可读存储介质与芯片 |
CN117055744A (zh) * | 2023-10-09 | 2023-11-14 | 深圳市英菲克电子有限公司 | 家用物联网鼠标、终端、服务器及系统 |
CN117389422A (zh) * | 2023-10-24 | 2024-01-12 | 深圳市旅途供应链管理有限公司 | 磁吸式折叠键盘鼠标一体化的电脑组件 |
WO2024139974A1 (zh) * | 2022-12-30 | 2024-07-04 | 华为技术有限公司 | 一种交互方法、电子设备及介质 |
-
2021
- 2021-03-10 CN CN202110262462.0A patent/CN115083401A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115562054A (zh) * | 2022-09-28 | 2023-01-03 | 北京小米移动软件有限公司 | 设备控制方法、装置、可读存储介质与芯片 |
WO2024139974A1 (zh) * | 2022-12-30 | 2024-07-04 | 华为技术有限公司 | 一种交互方法、电子设备及介质 |
CN117055744A (zh) * | 2023-10-09 | 2023-11-14 | 深圳市英菲克电子有限公司 | 家用物联网鼠标、终端、服务器及系统 |
CN117055744B (zh) * | 2023-10-09 | 2024-01-26 | 深圳市英菲克电子有限公司 | 家用物联网鼠标、终端、服务器及系统 |
CN117389422A (zh) * | 2023-10-24 | 2024-01-12 | 深圳市旅途供应链管理有限公司 | 磁吸式折叠键盘鼠标一体化的电脑组件 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN110543289B (zh) | 控制音量的方法和电子设备 | |
CN111316199B (zh) | 一种信息处理方法及电子设备 | |
CN113056901A (zh) | 一种语音控制方法及电子设备 | |
CN111669515B (zh) | 一种视频生成方法及相关装置 | |
CN115083401A (zh) | 语音控制方法及装置 | |
CN112154431B (zh) | 一种人机交互的方法及电子设备 | |
WO2021013132A1 (zh) | 输入方法及电子设备 | |
CN113778663B (zh) | 一种多核处理器的调度方法及电子设备 | |
CN116070684B (zh) | 一种集成芯片以及处理传感器数据的方法 | |
CN112860428A (zh) | 一种高能效的显示处理方法及设备 | |
WO2021052139A1 (zh) | 手势输入方法及电子设备 | |
CN113488042B (zh) | 一种语音控制方法及电子设备 | |
CN114242037A (zh) | 一种虚拟人物生成方法及其装置 | |
WO2022135157A1 (zh) | 页面显示的方法、装置、电子设备以及可读存储介质 | |
WO2021169370A1 (zh) | 服务元素的跨设备分配方法、终端设备及存储介质 | |
WO2024093515A1 (zh) | 一种语音交互方法及相关电子设备 | |
CN113970888A (zh) | 家居设备控制方法、终端设备及计算机可读存储介质 | |
WO2022188551A1 (zh) | 信息处理方法与装置、主控设备和受控设备 | |
WO2022143258A1 (zh) | 一种语音交互处理方法及相关装置 | |
CN115333941A (zh) | 获取应用运行情况的方法及相关设备 | |
CN115314591A (zh) | 设备交互方法、电子设备及计算机可读存储介质 | |
CN111524528B (zh) | 防录音检测的语音唤醒方法及装置 | |
WO2023179490A1 (zh) | 应用推荐方法和电子设备 | |
CN111880661A (zh) | 手势识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |