CN113380240B - 语音交互方法和电子设备 - Google Patents

语音交互方法和电子设备 Download PDF

Info

Publication number
CN113380240B
CN113380240B CN202110495469.7A CN202110495469A CN113380240B CN 113380240 B CN113380240 B CN 113380240B CN 202110495469 A CN202110495469 A CN 202110495469A CN 113380240 B CN113380240 B CN 113380240B
Authority
CN
China
Prior art keywords
slot
voice
value corresponding
electronic device
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110495469.7A
Other languages
English (en)
Other versions
CN113380240A (zh
Inventor
陈祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202110495469.7A priority Critical patent/CN113380240B/zh
Publication of CN113380240A publication Critical patent/CN113380240A/zh
Application granted granted Critical
Publication of CN113380240B publication Critical patent/CN113380240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请实施例提供了一种语音交互方法和电子设备,该方法包括:当接收到用户的第一语音时,确定第一语音是否包括第一槽位对应的第一槽值;其中,第一槽位对应的第一槽值表征电子设备的设备标识;若第一语音未包括第一槽位对应的第一槽值,根据接收到的第一唤醒词确定第一槽位对应的第一槽值;根据第一槽位对应的第一槽值,确定并输出第一语音对应的应答结果。该方法可以提高用户意图识别的精确性,并提高用户对所使用品牌的电子设备的体验度。

Description

语音交互方法和电子设备
技术领域
本申请涉及电子技术领域,具体涉及一种语音交互方法和电子设备。
背景技术
自然语言处理(natural language processing,NLP)是使用自然语言与电子设备进行通讯的技术,因处理自然语言的关键是要让电子设备“理解”自然语言,因此自然语言处理又叫做自然语言理解(natural language understanding,NLU)。
随着电子设备的快速发展,NLP技术已广泛应用于语音交互(或对话)类的电子设备上,如智能手机、智能音箱、智能家居、智能玩具等,该电子设备可以对用户输入的语音进行语义分析以识别用户意图,并完成用户意图的槽位填充,最终将用户意图转换为明确的指令并执行该指令。
当前,在用户与A品牌的电子设备进行产品类问题对话时,可能会存在意图识别的精确性较低的问题,而导致用户对该品牌的产品体验度较差的问题。比如用户语音输入“如果手机打不开怎么办”,该电子设备虽识别到该语音所表达的意图为问题解答意图,但给出了B品牌的手机解决策略,导致用户对A品牌的产品体验度较差。
发明内容
本申请提供了一种语音交互方法和电子设备,能够提高用户意图识别的精确性,进而提高用户对所使用品牌的电子设备的体验度。
第一方面,本申请提供一种语音交互方法,可以由电子设备执行,该方法包括:当接收到用户的第一语音时,确定第一语音是否包括第一槽位对应的第一槽值;其中,第一槽位对应的第一槽值表征电子设备的设备标识;若第一语音未包括第一槽位对应的第一槽值,根据接收到的第一唤醒词确定第一槽位对应的第一槽值;根据第一槽位对应的第一槽值,确定并输出第一语音对应的应答结果。
其中,电子设备的设备标识(即第一槽值)可以为电子设备的厂商、设备名称、型号或者版本号等,对应的,第一槽位可以为厂商槽位、设备名称槽位、型号槽位或者版本号槽位等。唤醒词可以为将电子设备从待机状态切换至工作状态的词语,或者触发电子设备的语音助手功能开启的词语,通常不同厂商的唤醒词不同。
上述实现方式,在用户输入的语音中不包括电子设备的设备标识时,电子设备可以通过唤醒词确定对应的设备标识,并填充至对应槽位,然后根据设备标识确定用户输入的语音对应的应答结果。由此,电子设备输出的应答结果是根据自身的设备标识(如厂商)所确定的,可以提高用户意图识别的精确性,并提高用户对所使用品牌的电子设备的体验度。
结合第一方面,在第一方面的有些实现方式中,上述第一槽位为电子设备的厂商槽位。
结合第一方面,在第一方面的有些实现方式中,根据接收到的第一唤醒词确定第一槽位对应的第一槽值,包括:获取关联关系,该关联关系包括多个唤醒词与多个槽值的对应关系,多个唤醒词包括第一唤醒词,多个槽值包括第一槽值;根据第一唤醒词和关联关系,确定第一槽位对应的第一槽值。由此,电子设备可以准确获取到第一槽位对应的第一槽值,进一步提高用户意图识别的精确性。
结合第一方面,在第一方面的有些实现方式中,若根据第一唤醒词确定的第一槽位对应的第一槽值为空值,上述方法还包括:获取电子设备的设备信息,该设备信息包括电子设备的版本号、厂商定制信息与硬件信息中的至少一种;根据设备信息确定第一槽位对应的第一槽值。由此,电子设备可以在根据唤醒词获取不到第一槽值时,根据设备信息确定第一槽值,可进一步提高用户意图识别的精确性,进一步提高用户体验度。
结合第一方面,在第一方面的有些实现方式中,在根据接收到的第一唤醒词确定第一槽位对应的第一槽值之后,上述方法还包括:根据第一语音确定第二槽位对应的第二槽值;根据第一槽位对应的第一槽值,确定并输出第一语音对应的应答结果,包括:根据第一槽位对应的第一槽值和第二槽位对应的第二槽值,确定并输出第一语音对应的应答结果。
其中,第二槽位为不同于第一槽位的类别的槽位,包括但不限于时间槽位、事件槽位、产品槽位等。电子设备根据第一槽值和第二槽值共同确定第一语音对应的应答结果,可进一步提高用户意图识别的精确性。
结合第一方面,在第一方面的有些实现方式中,根据第一槽位对应的第一槽值和第二槽位对应的第二槽值,确定并输出第一语音对应的应答结果,包括:根据第一槽位对应的第一槽值和第二槽位对应的第二槽值,确定第一语音对应的至少一个候选应答结果;获取至少一个候选应答结果的置信度;若至少一个候选应答结果中的每个候选应答结果的置信度都小于预设的阈值,将预设的应答结果确定为第一语音对应的应答结果,输出应答结果;或者,将至少一个候选应答结果中,置信度大于或者等于阈值的候选应答结果确定为第一语音对应的应答结果,输出应答结果。
结合第一方面和上述实现方式,当候选应答结果的置信度都小于预设的阈值时,电子设备输出的应答结果同样是基于上述第一槽值(如厂商)而确定的,包括但不限于“请拨打官方咨询热线111111”、“请拨打官方维修热线222222”等。其中,相比较于现有的“我不知道”、“我还没学会”等官方答复,本申请中预设的应答结果与电子设备的产品匹配度更高,进一步提高了用户的体验度。
结合第一方面,在第一方面的有些实现方式中,当接收到用户的第一语音时,确定第一语音是否包括第一槽位对应的第一槽值,包括:解析第一语音,若第一语音包括预设的关键词,则确定第一语音是否包括第一槽位对应的第一槽值,关键词包括上述电子设备的类别,如手机、电视、音箱等。
结合第一方面和上述实现方式,电子设备首先判断第一语音中是否包括预设的关键词,如果包括则执行第一槽值的确定过程,若不包括则不执行第一槽值的确定过程,由此可减少电子设备的工作功耗,提高工作效率。
第二方面,本申请提供一种装置,该装置包含在电子设备中,该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,接收模块或单元、处理模块或单元等。
第三方面,本申请提供一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第一方面的技术方案中任意一种方法。
第四方面,本申请提供一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法。
可选地,芯片还包括存储器,存储器与处理器通过电路或电线连接。
进一步可选地,芯片还包括通信接口。
第五方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得该处理器执行第一方面的技术方案中任意一种方法。
第六方面,本申请提供一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码在电子设备上运行时,使得该电子设备执行第一方面的技术方案中任意一种方法。
附图说明
图1是本申请实施例提供的一例电子设备的结构示意图;
图2是本申请实施例提供的电子设备的软件结构框图;
图3中的(a)图是本申请实施例提供的语音交互方法的一个应用场景图;
图3中的(b)图是本申请实施例提供的语音交互方法的另一个应用场景图;
图4是本申请实施例提供的一例语音交互方法的流程示意图;
图5是本申请实施例提供的另一例语音交互方法的流程示意图;
图6是本申请实施例提供的又一例语音交互方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
NLP是将自然语言转化为电子设备可理解的、结构化的、完整的语义信息,通俗来讲就是让电子设备能够理解和生成自然语言。在计算机科学、人工智能、数据挖掘等领域,NLP的目的是通过电子设备读取、解读、理解和感知自然语言,代替人类处理某些任务,包括但不限于在线聊天机器人、文本摘要生成器、自动生成关键字以及分析文本情绪等。随着电子设备的快速发展,较多的电子设备都已具备语音助手功能,可以与用户进行语音交互,对用户提出的问题做出应答。在语音交互过程中,电子设备首先对用户输入的语音进行语义分析以识别用户意图,其中,每个意图种类可以对应一个或多个槽位,通过语义分析可以得到各槽位的槽值,并将槽值填充至对应的槽位,最终识别出用户意图,将该用户意图转换为明确的指令并给出应答。例如查询路线意图种类对应的槽位可以包括出发地点槽位和目的地点槽位,当用户向电子设备语音输入“查询从C地出发至D地的路线”时,电子设备可以识别到出发地点槽位的槽值为C地,目的地点槽位的槽值为D地,并将各槽值填充至对应的槽位;然后电子设备根据填充的槽值识别用户的精确意图,根据用户意图查询具体路线并给出查询结果。
在一种场景中,用户与A品牌的电子设备进行产品类问题对话,比如询问“手机打不开怎么办”、“手机如何设置字体大小”等问题,虽然用户是想询问其使用的A品牌的手机问题,但该用户并没有明确所询问的产品的厂商,也即是说所对应的厂商槽位的槽值为空,那么电子设备可能会通过搜索引擎搜索排名第一的答案输出给用户,该答案却是B品牌的手机解决策略,这明显导致用户对A品牌的产品体验度较差。
有鉴于此,本申请实施例提供一种语音交互方法,可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等具有语音助手的电子设备上,该电子设备可以实现与用户进行语音交互的功能。上述电子设备可以在用户输入的语音中不包括产品厂商的情况下,从电子设备的唤醒词或设备信息中获取厂商信息,填充至厂商槽位,以提高用户意图识别的精确性,进而提高用户对所使用品牌的电子设备的体验度。应当明确,本申请实施例对电子设备的具体类型不作任何限制。
示例性的,图1是本申请实施例提供的一例电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。I2S接口和PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。图1中的天线1和天线2的结构仅为一种示例。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
在一个实施例中,当电子设备100具有语音助手的功能时,即电子设备100可以与用户进行语音交互,则用户可以通过麦克风170C向电子设备100输入语音,比如“今天天气怎么样”,电子设备100接收到该语音后,通过内部存储器121内存储的程序代码对语音进行解析,将语音解析为电子设备100可以识别的指令,进而响应该指令。当电子设备100需要输出应答结果时,可以通过扬声器170A将应答结果播放给用户。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
为了便于理解,本申请以下实施例将以具有图1和图2所示结构的电子设备为例,结合附图和应用场景,对本申请实施例提供的语音交互方法进行具体阐述。
首先介绍本申请实施例提供的语音交互方法的应用场景,以两个场景为例:
场景1产品问题解答场景
如图3中的(a)图所示,假设电子设备为智能音箱,用户向电子设备语音输入“你好小Q,手机打不开怎么办”,电子设备对该语音进行语义分析,确定唤醒词为小Q,并从预存的唤醒词与厂商的对应关系中得到小Q对应的厂商为A,那么厂商槽位的槽值为A,产品槽位的槽值为手机,事件槽位的槽值为打不开,然后根据各槽位的槽值确定用户意图,进而向用户输出A品牌手机解决策略,比如输出“您可尝试长按XX键”。
场景2产品咨询推荐场景
如图3中的(b)图所示,假设电子设备为智能电视,用户向电子设备语音输入“你好小Q,最新款的手机”,电子设备对该语音进行语义分析,确定唤醒词为小Q,并从预存的唤醒词与厂商的对应关系中得到小Q对应的厂商为A,那么厂商槽位的槽值为A,时间槽位的槽值为最新款,产品槽位的槽值为手机,然后根据各槽位的槽值确定用户意图,进而向用户输出A品牌最新款手机的宣传广告。
关于本申请实施例提供的语音交互方法,下面对其进行具体介绍。图4是本申请实施例提供的一例语音交互方法100的流程示意图,该方法包括:
S101,当接收到用户的第一语音时,确定第一语音是否包括第一槽位对应的第一槽值;该第一槽位对应的第一槽值表征电子设备的设备标识。
其中,电子设备的设备标识可以为电子设备的厂商、设备名称、型号或者版本号等,对应的,第一槽位可以为厂商槽位、设备名称槽位、型号槽位或者版本号槽位等,第一语音可以为上述场景1中的“手机打不开怎么办”或者场景2中的“最新款的手机”。电子设备接收到第一语音后,可以对第一语音进行语义分析,以确定第一语音是否包括电子设备的设备标识,本申请实施例采用的语义分析方法包括但不限于基于分词技术的文本处理方法、基于机器学习的语言模型处理方法等。
S102,若第一语音包括第一槽位对应的第一槽值,将该第一槽值填充至第一槽位。
具体地,若上述电子设备确定到第一语音中包括了电子设备的设备标识,便将该设备标识作为第一槽值填充至第一槽位。示例性地,比如第一语音为“B品牌手机打不开怎么办”,电子设备可以识别到第一语音中包括厂商B,即第一槽值,则可以将B填充至厂商槽位。
S103,若第一语音未包括第一槽位对应的第一槽值,根据接收到的第一唤醒词确定第一槽位对应的第一槽值,并将第一槽值填充至第一槽位。
具体地,若上述电子设备确定到第一语音中未包括电子设备的设备标识,比如第一语音为“手机打不开怎么办”,则可以根据接收到的唤醒词确定电子设备的设备标识,即第一槽值。
可以理解,电子设备在接收到上述用户的第一语音时,电子设备已处于工作状态,或者电子设备的语音助手功能已开启,也即是说,电子设备已被唤醒。其中,唤醒是用户与电子设备进行语音交互的第一个接触点,唤醒词可以为将电子设备从待机状态切换至工作状态的词语,或者触发电子设备的语音助手功能开启的词语,通常不同厂商的唤醒词不同。电子设备所接收到的第一语音可以为与第一唤醒词相邻的语音输入,也可以为与第一唤醒词不相邻的语音输入。示例性地,与第一唤醒词相邻的语音输入可以为:当用户语音输入唤醒词“小Q”、电子设备回应“您好”后,用户便输入第一语音“手机打不开怎么办”;与第一唤醒词不相邻的语音输入可以为:当用户语音输入唤醒词“小Q”、电子设备回应“您好”后,用户先输入语音“今天天气怎么样”,电子设备回应了天气信息,接下来用户再输入第一语音“手机打不开怎么办”,对于此场景,电子设备可以根据用户输入的语音追溯到刚开始所输入的唤醒词。
以第一槽位为厂商槽位、第一槽值为厂商为例,因不同厂商的唤醒词不同,电子设备根据唤醒词可以确定对应的厂商,然后将厂商信息填充至厂商槽位。在一种可实现的方式中,电子设备中预存有多个唤醒词与多个厂商的对应关系,然后根据上述接收到的唤醒词与该对应关系,便可以得到该唤醒词对应的厂商,比如小Q对应的厂商为A,则将该厂商信息填充至厂商槽位。可选地,多个唤醒词与多个厂商的对应关系可以预存在内存或者外存中,本申请实施例对此不做限制。在另一种可实现的方式中,若电子设备无法追溯到唤醒词,电子设备还可以从配置文件中获取自身的设备信息,该设备信息包括但不限于版本号、厂商定制信息与硬件信息,然后根据设备信息确定对应的厂商,并填充至厂商槽位。在又一种可实现的方式中,若第一语音未包括第一槽位对应的第一槽值,电子设备还可以直接从配置文件中获取自身的设备信息,然后根据设备信息确定对应的第一槽值,并填充至第一槽位。
S104,根据第一槽位对应的第一槽值,确定并输出第一语音对应的应答结果。
具体地,电子设备确定了第一槽值后,可以根据第一槽值(即电子设备的设备标识)与第一语音的其他语义信息,确定并输出应答结果。示例性地,电子设备所确定的厂商为A,对于用户输入的第一语音“手机打不开怎么办”,电子设备可以输出A品牌手机解决策略。
上述语音交互方法,在用户输入的语音中不包括电子设备的设备标识时,电子设备可以通过唤醒词确定对应的设备标识,并填充至对应槽位,然后根据设备标识确定用户输入的语音对应的应答结果。由此,电子设备输出的应答结果是根据自身的设备标识(如厂商)所确定的,可以提高用户意图识别的精确性,并提高用户对所使用品牌的电子设备的体验度。
在一个实施例中,上述S103中根据接收到的第一唤醒词确定第一槽位对应的第一槽值的过程可以通过以下方式实现:电子设备中预存有多个唤醒词与多个槽值的对应关系,该多个唤醒词包括第一唤醒词,多个槽值包括第一槽值;比如唤醒词小Q对应的厂商为A、设备名称为A30,唤醒词小T对应的厂商为B、设备名称为B10等。然后电子设备可以根据第一唤醒词和上述对应关系,确定第一槽位对应的槽值。示例性地,假设第一唤醒词为小Q,若第一槽位为厂商槽位,则对应的第一槽值为A,若第一槽位为设备名称槽位,则对应的第一槽值为A30;假设第一唤醒词为小T,若第一槽位为厂商槽位,则对应的第一槽值为B,若第一槽位为设备名称槽位,则对应的第一槽值为B10。由此,电子设备可以准确获取到第一槽位对应的第一槽值,进一步提高用户意图识别的精确性。可选地,多个唤醒词与多个槽值的对应关系可以预存在内存或者外存中,本申请实施例对此不做限制。
在另一个实施例中,对于上述S103中根据接收到的第一唤醒词确定第一槽位对应的第一槽值的过程,若根据第一唤醒词确定的第一槽值为空值,比如当前一些高端配置的电子设备支持用户私人订制唤醒词,用户可以将原唤醒词小Q更改为YaYa,但是电子设备中并没有记录唤醒词YaYa与槽值之间的对应关系,那么电子设备根据新的唤醒词就无法确定对应的第一槽值。对于此场景,电子设备可以获取自身的设备信息,该设备信息包括但不限于版本号、厂商定制信息与硬件信息,然后根据设备信息确定对应的第一槽值,并填充至第一槽位。由此,电子设备可以在根据唤醒词获取不到第一槽值时,根据设备信息确定第一槽值,可进一步提高用户意图识别的精确性,进一步提高用户体验度。
图5是本申请实施例提供的另一例语音交互方法200的流程示意图,该方法包括:
S201,当接收到用户的第一语音时,确定第一语音是否包括第一槽位对应的第一槽值;该第一槽位对应的第一槽值表征电子设备的设备标识。
S202,若第一语音包括第一槽位对应的第一槽值,将该第一槽值填充至第一槽位。
S203,若第一语音未包括第一槽位对应的第一槽值,根据接收到的第一唤醒词确定第一槽位对应的第一槽值,并将第一槽值填充至第一槽位。
其中,S201-S203的实现过程参见上述S101-S103的实现过程,在此不再赘述。
S204,根据第一语音确定第二槽位对应的第二槽值。
S205,根据第一槽位对应的第一槽值和第二槽位对应的第二槽值,确定并输出第一语音对应的应答结果。
具体地,第二槽位为不同于第一槽位类别的槽位,包括但不限于时间槽位、事件槽位、产品槽位等。比如第一语音为“最新款手机”,则时间槽位的槽值为最新款,产品槽位的槽值为手机,电子设备再结合上述确定的第一槽值A,便可以确定用户意图为“A品牌的最新款手机”,进而输出针对该意图得到的应答结果。
在一种可实现的方式中,电子设备根据第一槽值和第二槽值可以确定到第一语音对应的至少一个候选应答结果。示例性地,电子设备根据“A品牌的最新款手机”通过搜索引擎进行搜索,因搜索引擎的搜索能力与自身的特定策略有关,其从互联网检索到的结果可能有多个,假设所得到的候选应答结果有“最新款A40手机”、“最新款AX电视”、“最新款B20手机”。然后,电子设备对这些候选应答结果进行分析,发现“最新款AX电视”并不是手机产品、“最新款B20手机”并不是A品牌产品,因此可以将这两个候选应答结果的置信度设置的较低(例如20%),将候选应答结果“最新款A40手机”的置信度设置的较高(例如80%)。接下来,电子设备判断每个候选应答结果的置信度是否大于或者等于预设的阈值(例如30%),通过判断确定“最新款A40手机”的置信度满足条件,因此电子设备可以将该候选应答结果作为第一语音对应的应答结果并输出给用户。
对于一种可能性,电子设备通过判断得到每个候选应答结果的置信度都小于预设的阈值,则电子设备可以将预设的应答结果确定为第一语音对应的应答结果,并输出给用户,该预设的应答结果同样是基于上述第一槽值(如厂商)而确定的,包括但不限于“请拨打官方咨询热线111111”等。其中,相比较于现有的“我不知道”、“我还没学会”等官方答复,本申请实施例中预设的应答结果与电子设备的产品匹配度更高,进一步提高了用户的体验度。
在实际场景中,用户与电子设备的语音交互并不一定全部是产品类问题交互,比如还可以询问天气、提醒等其他问题,对于此类问题其实并不需要获取电子设备的设备标识,也即是说,电子设备只需在用户进行产品类问题交互时执行本申请实施例的语音交互方法。因此,电子设备在接收到用户输入的第一语音时,可以先判断该第一语音是否包括产品类的词语,如图6所示,是本申请实施例提供的又一例语音交互方法300的流程示意图,该方法包括:
S301,当接收到用户的第一语音时,解析第一语音,若第一语音包括预设的关键词,则确定第一语音是否包括第一槽位对应的第一槽值。
其中,上述关键词包括电子设备的类别,如手机、电视、音箱等,若第一语音中包括这些词语,则电子设备再确定第一语音是否包括第一槽位对应的槽值;若第一语音中不包括这些词语,则电子设备无需执行下述过程。
S302,若第一语音包括第一槽位对应的第一槽值,将该第一槽值填充至第一槽位。
S303,若第一语音未包括第一槽位对应的第一槽值,根据接收到的第一唤醒词确定第一槽位对应的第一槽值,并将第一槽值填充至第一槽位。
S304,若根据第一唤醒词确定的第一槽位对应的第一槽值为空值,获取电子设备的设备信息,根据设备信息确定第一槽位对应的第一槽值。
S305,根据第一语音确定第二槽位对应的第二槽值。
S306,根据第一槽位对应的第一槽值和第二槽位对应的第二槽值,确定第一语音对应的至少一个候选应答结果。
S307,若至少一个候选应答结果中的每个候选应答结果的置信度都小于预设的阈值,将预设的应答结果确定为第一语音对应的应答结果,输出应答结果。
S308,将至少一个候选应答结果中,置信度大于或者等于预设的阈值的候选应答结果确定为第一语音对应的应答结果,输出应答结果。
其中,S302-S308的实现过程参见上述实施例的描述,在此不再赘述。
上述语音交互方法,电子设备首先判断第一语音中是否包括预设的关键词,如果包括则执行第一槽值的确定过程,若不包括则不执行第一槽值的确定过程,由此可减少电子设备的工作功耗,提高工作效率。
上文详细介绍了本申请实施例提供的语音交互方法的示例。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分为各个功能模块,例如检测单元、处理单元、显示单元等,也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述语音交互方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备还可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得处理器执行上述任一实施例的语音交互方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音交互方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音交互方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种语音交互方法,其特征在于,所述方法包括:
当接收到用户的第一语音时,确定所述第一语音是否包括第一槽位对应的第一槽值;其中,所述第一槽位对应的第一槽值表征电子设备的设备标识;
若所述第一语音未包括所述第一槽位对应的第一槽值,根据接收到的第一唤醒词确定所述第一槽位对应的第一槽值;
根据所述第一槽位对应的第一槽值,确定并输出所述第一语音对应的应答结果。
2.根据权利要求1所述的方法,其特征在于,所述第一槽位为所述电子设备的厂商槽位。
3.根据权利要求1或2所述的方法,其特征在于,所述根据接收到的第一唤醒词确定所述第一槽位对应的第一槽值,包括:
获取关联关系,所述关联关系包括多个唤醒词与多个槽值的对应关系,所述多个唤醒词包括所述第一唤醒词,所述多个槽值包括所述第一槽值;
根据所述第一唤醒词和所述关联关系,确定所述第一槽位对应的第一槽值。
4.根据权利要求3所述的方法,其特征在于,若根据所述第一唤醒词确定的所述第一槽位对应的第一槽值为空值,所述方法还包括:
获取所述电子设备的设备信息,所述设备信息包括所述电子设备的版本号、厂商定制信息与硬件信息中的至少一种;
根据所述设备信息确定所述第一槽位对应的第一槽值。
5.根据权利要求1所述的方法,其特征在于,在确定所述第一槽位对应的第一槽值之后,所述方法还包括:
根据所述第一语音确定第二槽位对应的第二槽值;
所述根据所述第一槽位对应的第一槽值,确定并输出所述第一语音对应的应答结果,包括:
根据所述第一槽位对应的第一槽值和所述第二槽位对应的第二槽值,确定并输出所述第一语音对应的应答结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一槽位对应的第一槽值和所述第二槽位对应的第二槽值,确定并输出所述第一语音对应的应答结果,包括:
根据所述第一槽位对应的第一槽值和所述第二槽位对应的第二槽值,确定所述第一语音对应的至少一个候选应答结果;
获取所述至少一个候选应答结果的置信度;
若所述至少一个候选应答结果中的每个候选应答结果的置信度都小于预设的阈值,将预设的应答结果确定为所述第一语音对应的应答结果,输出所述应答结果;或者,
将所述至少一个候选应答结果中,置信度大于或者等于所述阈值的候选应答结果确定为所述第一语音对应的应答结果,输出所述应答结果。
7.根据权利要求1所述的方法,其特征在于,所述当接收到用户的第一语音时,确定所述第一语音是否包括第一槽位对应的第一槽值,包括:
解析所述第一语音,若所述第一语音包括预设的关键词,则确定所述第一语音是否包括所述第一槽位对应的第一槽值,所述关键词包括所述电子设备的类别。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
安装有多个应用程序的模块;
所述存储器存储有一个或多个程序,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
当接收到用户的第一语音时,确定所述第一语音是否包括第一槽位对应的第一槽值;其中,所述第一槽位对应的第一槽值表征所述电子设备的设备标识;
若所述第一语音未包括所述第一槽位对应的第一槽值,根据接收到的第一唤醒词确定所述第一槽位对应的第一槽值;
根据所述第一槽位对应的第一槽值,确定并输出所述第一语音对应的应答结果。
9.根据权利要求8所述的电子设备,其特征在于,所述第一槽位为所述电子设备的厂商槽位。
10.根据权利要求8或9所述的电子设备,其特征在于,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
获取关联关系,所述关联关系包括多个唤醒词与多个槽值的对应关系,所述多个唤醒词包括所述第一唤醒词,所述多个槽值包括所述第一槽值;
根据所述第一唤醒词和所述关联关系,确定所述第一槽位对应的第一槽值。
11.根据权利要求10所述的电子设备,其特征在于,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
若根据所述第一唤醒词确定的所述第一槽位对应的第一槽值为空值,则获取所述电子设备的设备信息,所述设备信息包括所述电子设备的版本号、厂商定制信息与硬件信息中的至少一种;
根据所述设备信息确定所述第一槽位对应的第一槽值。
12.根据权利要求8所述的电子设备,其特征在于,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
根据所述第一语音确定第二槽位对应的第二槽值;
根据所述第一槽位对应的第一槽值和所述第二槽位对应的第二槽值,确定并输出所述第一语音对应的应答结果。
13.根据权利要求12所述的电子设备,其特征在于,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
根据所述第一槽位对应的第一槽值和所述第二槽位对应的第二槽值,确定所述第一语音对应的至少一个候选应答结果;
获取所述至少一个候选应答结果的置信度;
若所述至少一个候选应答结果中的每个候选应答结果的置信度都小于预设的阈值,将预设的应答结果确定为所述第一语音对应的应答结果,输出所述应答结果;或者,
将所述至少一个候选应答结果中,置信度大于或者等于所述阈值的候选应答结果确定为所述第一语音对应的应答结果,输出所述应答结果。
14.根据权利要求8所述的电子设备,其特征在于,当所述一个或者多个程序被所述处理器执行时,使得所述电子设备执行如下步骤:
解析所述第一语音,若所述第一语音包括预设的关键词,则确定所述第一语音是否包括所述第一槽位对应的第一槽值,所述关键词包括所述电子设备的类别。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项所述的方法。
CN202110495469.7A 2021-05-07 2021-05-07 语音交互方法和电子设备 Active CN113380240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110495469.7A CN113380240B (zh) 2021-05-07 2021-05-07 语音交互方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110495469.7A CN113380240B (zh) 2021-05-07 2021-05-07 语音交互方法和电子设备

Publications (2)

Publication Number Publication Date
CN113380240A CN113380240A (zh) 2021-09-10
CN113380240B true CN113380240B (zh) 2022-04-12

Family

ID=77570524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110495469.7A Active CN113380240B (zh) 2021-05-07 2021-05-07 语音交互方法和电子设备

Country Status (1)

Country Link
CN (1) CN113380240B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380240B (zh) * 2021-05-07 2022-04-12 荣耀终端有限公司 语音交互方法和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671429A (zh) * 2018-12-02 2019-04-23 腾讯科技(深圳)有限公司 语音交互方法及设备
CN110390934A (zh) * 2019-06-25 2019-10-29 华为技术有限公司 一种信息提示的方法和语音交互终端
CN111694939A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
CN112579031A (zh) * 2019-09-27 2021-03-30 北京安云世纪科技有限公司 一种语音交互的方法、系统和电子设备
CN113380240A (zh) * 2021-05-07 2021-09-10 荣耀终端有限公司 语音交互方法和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102050897B1 (ko) * 2013-02-07 2019-12-02 삼성전자주식회사 음성 대화 기능을 구비한 휴대 단말기 및 이의 음성 대화 방법
US10042840B2 (en) * 2016-08-04 2018-08-07 Oath Inc. Hybrid grammatical and ungrammatical parsing
CN106331393A (zh) * 2016-08-19 2017-01-11 美的集团股份有限公司 控制方法及控制装置
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
TWI666558B (zh) * 2018-11-20 2019-07-21 財團法人資訊工業策進會 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
US20210082417A1 (en) * 2019-09-13 2021-03-18 Talkdesk, Inc Systems and methods for integrating business processes into voice assistant platforms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671429A (zh) * 2018-12-02 2019-04-23 腾讯科技(深圳)有限公司 语音交互方法及设备
CN110390934A (zh) * 2019-06-25 2019-10-29 华为技术有限公司 一种信息提示的方法和语音交互终端
CN112579031A (zh) * 2019-09-27 2021-03-30 北京安云世纪科技有限公司 一种语音交互的方法、系统和电子设备
CN111694939A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
CN113380240A (zh) * 2021-05-07 2021-09-10 荣耀终端有限公司 语音交互方法和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Design and Implementation of Human-Computer Interaction Intelligent System Based on Speech Control;Jichao Liu,等;《Computer-Aided Design & Applications》;20201231;第22-34页 *
基于多模态信息融合的语音意图理解方法;郑彬彬,等;《中国科技论文在线》;20110731;第6卷(第7期);第498-500页 *

Also Published As

Publication number Publication date
CN113380240A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN109584879B (zh) 一种语音控制方法及电子设备
CN110134316B (zh) 模型训练方法、情绪识别方法及相关装置和设备
CN110138959B (zh) 显示人机交互指令的提示的方法及电子设备
CN113704014B (zh) 日志获取系统、方法、电子设备及存储介质
CN110825469A (zh) 语音助手显示方法及装置
CN112399390B (zh) 一种蓝牙回连的方法及相关装置
CN111819533B (zh) 一种触发电子设备执行功能的方法及电子设备
CN111666119A (zh) Ui组件显示的方法及电子设备
CN113838490B (zh) 视频合成方法、装置、电子设备及存储介质
CN113704205B (zh) 日志存储的方法、芯片、电子设备和可读存储介质
CN113254409A (zh) 文件共享方法、系统及相关设备
CN114650363A (zh) 一种图像显示的方法及电子设备
CN115589051B (zh) 充电方法和终端设备
CN113641271A (zh) 应用窗口的管理方法、终端设备及计算机可读存储介质
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN113380240B (zh) 语音交互方法和电子设备
CN114650330A (zh) 一种添加操作序列的方法、电子设备和系统
CN110058729B (zh) 调节触摸检测的灵敏度的方法和电子设备
CN114995715B (zh) 悬浮球的控制方法和相关装置
CN112416984A (zh) 一种数据处理方法及其装置
CN113407300B (zh) 应用误杀评估方法及相关设备
CN115333941A (zh) 获取应用运行情况的方法及相关设备
CN114003241A (zh) 应用程序的界面适配显示方法、系统、电子设备和介质
CN114828098A (zh) 数据传输方法和电子设备
CN114093368A (zh) 跨设备声纹注册方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant