CN108897517B - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN108897517B
CN108897517B CN201810675145.XA CN201810675145A CN108897517B CN 108897517 B CN108897517 B CN 108897517B CN 201810675145 A CN201810675145 A CN 201810675145A CN 108897517 B CN108897517 B CN 108897517B
Authority
CN
China
Prior art keywords
information
instruction
determining
voice
voice instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810675145.XA
Other languages
English (en)
Other versions
CN108897517A (zh
Inventor
徐培来
孙艳庆
张光杰
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201810675145.XA priority Critical patent/CN108897517B/zh
Publication of CN108897517A publication Critical patent/CN108897517A/zh
Application granted granted Critical
Publication of CN108897517B publication Critical patent/CN108897517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种信息处理方法及电子设备,所述方法包括:获取语音指令;确定电子设备的使用状态信息,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种;根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息;根据所述指令信息使目标程序做出响应。本申请的信息处理方法能够高精度分析用户的语音指令以使电子设备能够做出正确响应,提高用户体验。

Description

一种信息处理方法及电子设备
技术领域
本申请涉及能够响应语音指令的智能设备领域,特别涉及一种关于语音指令的信息处理方法及电子设备。
背景技术
随着智能终端的普及,语音作为终端入口,成为常见的模式,例如苹果公司的Siri、微软公司的Cortana以及Google Now、Amazon Echo等。语音作为人机交互的接口,改变了此前用户必须用手指去完成各种操作才能使用终端设备的情况。用户可以通过自然语言的方式,与终端设备进行交互,驱动终端设备去处理和响应用户的语音指令。但是,由于人类语言的复杂性、语音指令的多样性,目前的电子设备在进行语音识别处理时正确率较低,经常不能正确获取用户指令所表达的实际意图,造成无法响应或错误响应,用户体验较差。
申请内容
本申请所要解决的问题是,提供一种能够高精度分析用户的语音指令以使电子设备能够做出正确响应的信息处理方法及应用该方法的电子设备。
为了解决上述问题,本申请提供一种信息处理方法,包括:
获取语音指令;
确定电子设备的使用状态信息,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种;
根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息;
根据所述指令信息使目标程序做出响应。
作为优选,所述确定电子设备的使用状态信息具体为:
确定电子设备当前安装的应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
作为优选,所述根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息具体为:
基于所述使用状态信息确定所述语音指令的垂直领域信息;
基于所述垂直领域信息确定所述语音指令的识别结果;
基于所述垂直领域信息和识别结果确定所述指令信息。
作为优选,所述基于垂直领域信息确定所述语音指令的识别结果具体为:
基于所述垂直领域信息确定用于识别所述语音指令的第一智能模型;
所述第一智能模型基于所述语音指令确定所述识别结果。
作为优选,所述基于所述垂直领域信息和识别结果确定所述指令信息具体为:
基于所述垂直领域信息确定用于解析所述识别结果以确定所述语音指令实际意图的第二智能模型;
所述第二智能模型基于所述识别结果确定所述指令信息。
作为优选,还包括:
发送所述语音指令及电子设备的使用状态信息至云服务器;
根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息具体为:
所述云服务器根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息;
所述云服务器发送所述指令信息至电子设备。
作为优选,还包括:
确定所述操作目标是否判定准确;
根据判定结果确定是否优化所述智能模型。
作为优选,所述根据所述指令信息使目标程序做出响应具体为:
根据所述指令信息确定目标应用或所述目标应用中的至少第一子程序;
控制所述目标应用或至少所述第一子程序做出响应。
本申请实施例同时提供一种电子设备,包括:
采集装置,配置为获取语音指令;
处理装置,配置为确定电子设备的使用状态信息,根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息,根据所述指令信息控制目标程序做出响应;
其中,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种。
作为优选,所述处理装置确定所述使用状态信息时具体配置为:
确定电子设备当前安装的应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
本申请的有益效果在于,能够同时结合电子设备的使用状态信息对用户的语音指令进行高效准确的分析,以确定出用户的语音指令所要表达的实际意图,使电子设备能够根据该分析结果而向用户做出满足用户需求的响应,提高人机交互的成功率与用户体验。
附图说明
图1为本申请实施例中的信息处理方法的流程图。
图2为本申请另一实施例中的信息处理方法的流程图。
图3为本申请另一实施例中的信息处理方法的流程图。
图4为本申请另一实施例中的信息处理方法的流程图。
图5为本申请另一实施例中的信息处理方法的流程图。
图6为本申请实施例中的电子设备的结构框图。
具体实施方式
下面,结合附图对本申请的具体实施例进行详细的描述,但不作为本申请的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本申请实施例。
图1为,如图1所示,本申请实施例提供一种信息处理方法,包括:
获取语音指令;
确定电子设备的使用状态信息,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种;
根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息;
根据所述指令信息使目标程序做出响应。
通过上述方法,电子设备能够在接收到语音指令并对其进行分析时同时结合电子设备的使用状态信息,使通过结合电子设备的当前安装的至少部分应用程序的种类、用途以及当前或在一段时间阈值内所处的状态来对用户的语音指令进行高效准确的分析,以确定出用户的语音指令所要表达的实际意图,使电子设备能够根据该分析结果而向用户做出满足用户需求的响应,提高人机交互的成功率与用户体验。
例如,当电子设备(该电子设备可为任意种具有识别语音指令的设备,例如电脑、手机、汽车内部智能系统、家电等等)获取用户的语音指令并识别出该语音指令的内容信息为“发红包给小王”。此时,电子设备便可通过确定当前或在一定时间阈值内的至少部分应用程序的种类、用途和所处状态中的一种或多种来确定具有发红包功能的应用程序,接着确定具有发红包功能的应用程序是否具有名为或备注为小王的好友,或者是否具有与在通讯录中名为小王的联系人的信息相匹配的好友得到判断结果。最后,电子设备基于上述条件筛选出能够实现“发红包给小王”的应用程序,并令该应用程序执行语音指令而对用户做出正确响应,满足用户需求。
具体地,本申请实施例中在确定电子设备的使用状态信息时具体为:
确定电子设备当前安装的至少部分应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
当实际应用时,电子设备可获取其当前安装的所有应用程序的相关信息,也可获取在一定时间阈值内处于开启状态的应用程序的相关信息。还可对语音指令进行简单的语音识别,然后基于识别结果确定出应用程序的种类及用途的大致范围,接着仅获取位于该初判断结果范围内的应用程序的相关信息,以减少设备的数据处理量。其中,电子设备对于应用程序的相关信息的获取可为实时或定时或仅在接收到语音指令时才获取。再或者电子设备可预先将当前电子设备的所有应用程序的相关信息进行存储,在电子设备的日常使用中仅检测有哪些应用程序处于开启状态即可。而只有在检测到电子设备加载了新的应用程序,或卸载了某个已有的应用程序时,才更新所有应用程序的信息或仅检测新应用程序的信息。
进一步地,如图2所示,执行根据语音指令以及使用状态信息确定出能够表征语音指令实际意图的指令信息的步骤时,具体包括:
基于使用状态信息确定语音指令的垂直领域信息;
基于垂直领域信息确定语音指令的识别结果;
基于垂直领域信息和识别结果确定指令信息。
上述的垂直领域信息即为电子设备根据其当前或在一段时间阈值内开启的应用程序而确定出与各类别的应用程序对应的垂直领域信息,也即,此时电子设备确定的垂直领域信息并非是唯一的,而是既可能为一个,也可能为多个,具体需要根据电子设备在检测时检测到的处于开启状态的至少一个应用程序的种类而定。或如上所述,基于对语音指令的初判断,可仅获取与语音指令的种类及用途相关的应用程序信息,并基于该信息确定垂直领域信息。在确定出垂直领域信息后,电子设备可通过例如对语音指令的初判断结果而从多个垂直领域信息中确定出适配语音指令的垂直领域信息。接着,根据确定的垂直领域信息而对语音指令进行精确识别,而得到最终的识别结果。最后,基于该垂直领域信息和最终确定出的识别结果而确定出指令信息,使电子设备基于该指令信息能够使目标程序做出满足用户需求的响应。
具体地,如图3所示,上述基于垂直领域信息确定语音指令的识别结果的步骤的执行方法可采用语音识别引擎基于垂直领域信息进行精确的语音识别,还可采用本实施例中的方法,具体为:
基于垂直领域信息确定用于识别语音指令的第一智能模型;
第一智能模型基于语音指令确定识别结果。
也就是,预先建立对应不同垂直领域的人工智能训练模型(简称智能模型),该智能模型是基于该垂直领域内对应的语言习惯以及涉及到的所有功能性词汇、简称等等进行训练而成,能够精准高效地识别出对应该垂直领域的语音指令。例如,若获取的用户指令为“发送捂嘴偷笑给A”(此时并不确定该语音指令的具体信息是否正确),同时获取当前用户开启了微信、qq、默默等社交应用程序,则电子设备便可据此确定垂直领域信息为文字通讯领域、社交领域,并根据该垂直领域信息确定出对应该垂直领域的第一智能模型。接着,将获取的用户指令信息输入至第一智能模型中,使第一智能模型对该语音指令信息进行语音识别,最终确定出用户的语音指令实际为“发送捂嘴偷笑给好友A”。再如,若用户当前开启的应用程序同上,同时发出的语音指令为“发送红包给B”,也可采用上述的智能模型对其进行语音识别。而倘若用户当前开启的应用程序为“百度搜索”和“QQ音乐”,而在5分钟前开启了“微信”的应用程序,之后又对其进行了关闭,此时若获取的用户指令近似为“我分享给你的歌曲好听吗”,电子设备可通过对语音指令的初判断结果以及获取的使用状态信息而确定出适配该语音指令的垂直领域同位社交领域,故可仍采用上述的第一智能模型来对该语音指令进行精确识别。再如,若用户发出的语音指令为“今天天气如何”,同时获取到前3分钟内用户开启的应用程序为“QQ音乐、百度地图、谷歌翻译和天气预报”,而同时结合用户的语音指令和获取的电子设备的使用状态信息可确定出对应语音指令的垂直领域信息属于生活领域中的气象查询领域。
进一步地,前述地“基于垂直领域信息和识别结果确定指令信息”的执行主体可为处理器,例如在处理器中设置相应的分析程序,或可采用本实施例中的方法,继续结合图3所示,具体为:
基于垂直领域信息确定用于解析识别结果以确定语音指令实际意图的第二智能模型;
第二智能模型基于识别结果确定指令信息。
也即,同样地,采用该种方法前,需要预先建立多个第二智能模型,该多个第二智能模型也同样分别基于不同垂直领域的语言习惯以及用户在历史聊天记录中的语言习惯等进行训练的,针对不同的垂直领域的第二智能模型能够对语音指令的识别结果进行有效的分析,使确定出最终符合用户心意的意图信息,也即,能够有效辅助电子设备确定出用户的语音指令的实际意图。例如,仍以上述实施例为例,第二智能模型获取到第一智能模型识别出的语音指令信息“发送捂嘴偷笑给好友A”后,对其进行分析,具体为:首先确定出是要发信息给好友A,接着第二智能模型通过识别结果分析出发送的信息内容为捂嘴偷笑,而在其垂直领域内以及用户历史聊天记录中,捂嘴偷笑通常采用输出一对应的表情代替文字的输出,因此,第二智能模型便可识别出用户实际的指令信息为发送一捂嘴偷笑的表情给好友A。电子设备获取该指令信息后便可令相应的应用程序发送一捂嘴偷笑的表情给好友A。再如,第二智能模型获取到语音识别结果为“分享歌曲B给A”,经分析可知,用户是想分享一首名为B的歌曲给好友A。再如,第二智能模型获取到语音识别结果为“我分享的歌曲好听吗”,经分析可知,用户是想问一个或多个好友,在某一时间阈值内分享的歌曲是否好听,此时,第二智能模型确定的指令信息首先要包含a:确定在一时间阈值内用户采用分享功能向哪些好友或是群体或是朋友圈或是状态圈等分享了歌曲;b:向分享了歌曲的好友或群体或朋友圈或状态圈等发送或发布信息“我分享的歌曲好听吗”。使电子设备基于包含有上述a和b信息的指令信息而使目标程序进行响应。
而在实际应用中,也可不局限于上述的基于本地设备对用户的语音指令进行分析处理,还可利用“云计算”实现指令信息的确定。如图4所示,具体步骤包括:
发送语音指令及电子设备的使用状态信息至云服务器;
云服务器根据语音指令以及使用状态信息确定出能够表征语音指令实际意图的指令信息;
云服务器发送指令信息至电子设备。
也即,电子设备本地仅获取用户的语音指令以及使用状态信息,而基于语音指令和使用状态信息确定最终的指令信息的一系列计算步骤均由云服务器执行,最后,云服务器将最终的计算结果,也即指令信息,发送至电子设备中,由电子设备根据指令信息执行后续步骤。
进一步地,如图5所示,本实施例中的电子设备根据上述任意种方式获取到指令信息后,并根据指令信息使目标程序做出响应具体为:
根据指令信息确定目标应用或目标应用中的至少第一子程序;
控制目标应用或至少第一子程序做出响应。
例如,指令信息为发送红包给好友A,电子设备获取该指令信息后会首先确定好友A是否存在于通讯录中,或电子设备中的聊天类应用程序中是否有用户与好友A的聊天窗口,基于此,确定出候选应用程序。接着,电子设备再根据候选应用程序中是否具有“发红包”的第一子程序而从候选应用程序中确定出目标应用程序。最后,根据指令信息而控制目标应用程序的第一子程序做出满足用户指令的响应。而若用户仅装设了一种社交类的应用程序,那么上述地候选应用程序的步骤便可省略,直接确定该应用程序即为目标程序。而倘若该目标程序内有多种能够执行发红包的子程序时,便需要例如第二智能模型对指令信息的进一步分析以得到所需的指令信息,使电子设备基于该指令信息确定出用户实际是想采用哪一子程序实现发红包给好友A的效果。
优选地,继续结合图5,为了能够实时地确定最终的目标程序以及响应是否满足用户所需,并根据结果而实时更新优化自身的计算处理程序,本实施例中的方法还包括:
确定操作目标是否判定准确;
根据判定结果确定是否优化智能模型。
也就是确定电子设备最终针对用户的语音指令而做出的响应是否符合用户的实际要求,若不是,则基于用户手动操作的结果来优化上述地第一智能模型和第二智能模型,如更新两个智能模型的权重。
如图6所示,本申请的实施例还提供一种电子设备,包括:
采集装置,配置为获取语音指令;
处理装置,配置为确定电子设备的使用状态信息,根据语音指令以及使用状态信息确定出能够表征语音指令实际意图的指令信息,根据指令信息控制目标程序做出响应;
其中,使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种。
通过上述方法,电子设备能够在接收到语音指令并对其进行分析时同时结合电子设备的使用状态信息,使通过结合电子设备的当前安装的至少部分应用程序的种类、用途以及当前或在一段时间阈值内所处的状态来对用户的语音指令进行高效准确的分析,以确定出用户的语音指令所要表达的实际意图,使电子设备能够根据该分析结果而向用户做出满足用户需求的响应,提高人机交互的成功率与用户体验。
例如,当电子设备(该电子设备可为任意种具有识别语音指令的设备,例如电脑、手机、汽车内部智能系统、家电等等)获取用户的语音指令并识别出该语音指令的内容信息为“发红包给小王”。此时,电子设备便可通过确定当前或在一定时间阈值内的至少部分应用程序的种类、用途和所处状态中的一种或多种来确定具有发红包功能的应用程序,接着确定具有发红包功能的应用程序是否具有名为或备注为小王的好友,或者是否具有与在通讯录中名为小王的联系人的信息相匹配的好友得到判断结果。最后,电子设备基于上述条件筛选出能够实现“发红包给小王”的应用程序,并令该应用程序执行语音指令而对用户做出正确响应,满足用户需求。
具体地,本申请实施例中处理装置在确定电子设备的使用状态信息时具体为:
确定电子设备当前安装的至少部分应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
当实际应用时,电子设备可获取其当前安装的所有应用程序的相关信息,也可获取在一定时间阈值内处于开启状态的应用程序的相关信息。还可对语音指令进行简单的语音识别,然后基于识别结果确定出应用程序的种类及用途的大致范围,接着仅获取位于该初判断结果范围内的应用程序的相关信息,以减少设备的数据处理量。其中,电子设备对于应用程序的相关信息的获取可为实时或定时或仅在接收到语音指令时才获取。再或者电子设备可预先将当前电子设备的所有应用程序的相关信息进行存储,在电子设备的日常使用中仅检测有哪些应用程序处于开启状态即可。而只有在检测到电子设备加载了新的应用程序,或卸载了某个已有的应用程序时,才更新所有应用程序的信息或仅检测新应用程序的信息。
进一步地,处理装置执行根据语音指令以及使用状态信息确定出能够表征语音指令实际意图的指令信息的步骤时,具体包括:
基于使用状态信息确定语音指令的垂直领域信息;
基于垂直领域信息确定语音指令的识别结果;
基于垂直领域信息和识别结果确定指令信息。
上述的垂直领域信息即为电子设备根据其当前或在一段时间阈值内开启的应用程序而确定出与各类别的应用程序对应的垂直领域信息,也即,此时电子设备确定的垂直领域信息并非是唯一的,而是既可能为一个,也可能为多个,具体需要根据电子设备在检测时检测到的处于开启状态的至少一个应用程序的种类而定。或如上所述,基于对语音指令的初判断,可仅获取与语音指令的种类及用途相关的应用程序信息,并基于该信息确定垂直领域信息。在确定出垂直领域信息后,电子设备可通过例如对语音指令的初判断结果而从多个垂直领域信息中确定出适配语音指令的垂直领域信息。接着,根据确定的垂直领域信息而对语音指令进行精确识别,而得到最终的识别结果。最后,基于该垂直领域信息和最终确定出的识别结果而确定出指令信息,使电子设备基于该指令信息能够使目标程序做出满足用户需求的响应。
具体地,上述基于垂直领域信息确定语音指令的识别结果的步骤的执行方法可采用语音识别引擎基于垂直领域信息进行精确的语音识别,还可采用本实施例中的方法,具体为:
基于垂直领域信息确定用于识别语音指令的第一智能模型;
第一智能模型基于语音指令确定识别结果。
也就是,预先建立对应不同垂直领域的人工智能训练模型(简称智能模型),该智能模型是基于该垂直领域内对应的语言习惯以及涉及到的所有功能性词汇、简称等等进行训练而成,能够精准高效地识别出对应该垂直领域的语音指令。例如,若获取的用户指令为“发送捂嘴偷笑给A”(此时并不确定该语音指令的具体信息是否正确),同时获取当前用户开启了微信、qq、默默等社交应用程序,则电子设备便可据此确定垂直领域信息为文字通讯领域、社交领域,并根据该垂直领域信息确定出对应该垂直领域的第一智能模型。接着,将获取的用户指令信息输入至第一智能模型中,使第一智能模型对该语音指令信息进行语音识别,最终确定出用户的语音指令实际为“发送捂嘴偷笑给好友A”。再如,若用户当前开启的应用程序同上,同时发出的语音指令为“发送红包给B”,也可采用上述的智能模型对其进行语音识别。而倘若用户当前开启的应用程序为“百度搜索”和“QQ音乐”,而在5分钟前开启了“微信”的应用程序,之后又对其进行了关闭,此时若获取的用户指令近似为“我分享给你的歌曲好听吗”,电子设备可通过对语音指令的初判断结果以及获取的使用状态信息而确定出适配该语音指令的垂直领域同位社交领域,故可仍采用上述的第一智能模型来对该语音指令进行精确识别。再如,若用户发出的语音指令为“今天天气如何”,同时获取到前3分钟内用户开启的应用程序为“QQ音乐、百度地图、谷歌翻译和天气预报”,而同时结合用户的语音指令和获取的电子设备的使用状态信息可确定出对应语音指令的垂直领域信息属于生活领域中的气象查询领域。
进一步地,前述地“基于垂直领域信息和识别结果确定指令信息”的执行主体可为处理器,例如在处理器中设置相应的分析程序,或可采用本实施例中的方法,具体为:
基于垂直领域信息确定用于解析识别结果以确定语音指令实际意图的第二智能模型;
第二智能模型基于识别结果确定指令信息。
也即,同样地,采用该种方法前,需要预先建立多个第二智能模型,该多个第二智能模型也同样分别基于不同垂直领域的语言习惯以及用户在历史聊天记录中的语言习惯等进行训练的,针对不同的垂直领域的第二智能模型能够对语音指令的识别结果进行有效的分析,使确定出最终符合用户心意的意图信息,也即,能够有效辅助电子设备确定出用户的语音指令的实际意图。例如,仍以上述实施例为例,第二智能模型获取到第一智能模型识别出的语音指令信息“发送捂嘴偷笑给好友A”后,对其进行分析,具体为:首先确定出是要发信息给好友A,接着第二智能模型通过识别结果分析出发送的信息内容为捂嘴偷笑,而在其垂直领域内以及用户历史聊天记录中,捂嘴偷笑通常采用输出一对应的表情代替文字的输出,因此,第二智能模型便可识别出用户实际的指令信息为发送一捂嘴偷笑的表情给好友A。电子设备获取该指令信息后便可令相应的应用程序发送一捂嘴偷笑的表情给好友A。再如,第二智能模型获取到语音识别结果为“分享歌曲B给A”,经分析可知,用户是想分享一首名为B的歌曲给好友A。再如,第二智能模型获取到语音识别结果为“我分享的歌曲好听吗”,经分析可知,用户是想问一个或多个好友,在某一时间阈值内分享的歌曲是否好听,此时,第二智能模型确定的指令信息首先要包含a:确定在一时间阈值内用户采用分享功能向哪些好友或是群体或是朋友圈或是状态圈等分享了歌曲;b:向分享了歌曲的好友或群体或朋友圈或状态圈等发送或发布信息“我分享的歌曲好听吗”。使电子设备基于包含有上述a和b信息的指令信息而使目标程序进行响应。
而在实际应用中,也可不局限于上述的基于本地的处理装置对用户的语音指令进行分析处理,还可利用“云计算”实现指令信息的确定。具体步骤包括:
发送语音指令及电子设备的使用状态信息至云服务器;
云服务器根据语音指令以及使用状态信息确定出能够表征语音指令实际意图的指令信息;
云服务器发送指令信息至电子设备。
也即,本地的处理装置仅获取用户的语音指令以及使用状态信息,而基于语音指令和使用状态信息确定最终的指令信息的一系列计算步骤均由云服务器执行,最后,云服务器将最终的计算结果,也即指令信息,发送至电子设备中,由电子设备根据指令信息执行后续步骤。
进一步地,本实施例中的电子设备根据上述任意种方式获取到指令信息后,并根据指令信息使目标程序做出响应具体为:
根据指令信息确定目标应用或目标应用中的至少第一子程序;
控制目标应用或至少第一子程序做出响应。
例如,指令信息为发送红包给好友A,电子设备获取该指令信息后会首先确定好友A是否存在于通讯录中,或电子设备中的聊天类应用程序中是否有用户与好友A的聊天窗口,基于此,确定出候选应用程序。接着,电子设备再根据候选应用程序中是否具有“发红包”的第一子程序而从候选应用程序中确定出目标应用程序。最后,根据指令信息而控制目标应用程序的第一子程序做出满足用户指令的响应。而若用户仅装设了一种社交类的应用程序,那么上述地候选应用程序的步骤便可省略,直接确定该应用程序即为目标程序。而倘若该目标程序内有多种能够执行发红包的子程序时,便需要例如第二智能模型对指令信息的进一步分析以得到所需的指令信息,使电子设备基于该指令信息确定出用户实际是想采用哪一子程序实现发红包给好友A的效果。
优选地,为了能够实时地确定最终的目标程序以及响应是否满足用户所需,并根据结果而实时更新优化自身的计算处理程序,本实施例中处理装置还配置为:
确定操作目标是否判定准确;
根据判定结果确定是否优化智能模型。
也就是确定电子设备最终针对用户的语音指令而做出的响应是否符合用户的实际要求,若不是,则基于用户手动操作的结果来优化上述地第一智能模型和第二智能模型,如更新两个智能模型的权重。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据处理方法所应用于的电子设备,可以参考前述产品实施例中的对应描述,在此不再赘述。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (8)

1.一种信息处理方法,其特征在于,包括:
获取语音指令;
确定电子设备的使用状态信息,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种;
基于所述使用状态信息确定所述语音指令的垂直领域信息;
基于所述垂直领域信息确定用于识别所述语音指令的第一智能模型;
所述第一智能模型基于所述语音指令确定识别结果;
基于所述垂直领域信息和识别结果确定能够表征所述语音指令实际意图的指令信息;
根据所述指令信息使目标程序做出响应。
2.根据权利要求1所述的方法,其特征在于,所述确定电子设备的使用状态信息具体为:
确定电子设备当前安装的应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
3.根据权利要求1所述的方法,其特征在于,所述基于所述垂直领域信息和识别结果确定所述指令信息具体为:
基于所述垂直领域信息确定用于解析所述识别结果以确定所述语音指令实际意图的第二智能模型;
所述第二智能模型基于所述识别结果确定所述指令信息。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
发送所述语音指令及电子设备的使用状态信息至云服务器;
根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息具体为:
所述云服务器根据所述语音指令以及使用状态信息确定出能够表征所述语音指令实际意图的指令信息;
所述云服务器发送所述指令信息至电子设备。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定操作目标是否判定准确;
根据判定结果确定是否优化所述智能模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述指令信息使目标程序做出响应具体为:
根据所述指令信息确定目标应用或所述目标应用中的至少第一子程序;
控制所述目标应用或至少所述第一子程序做出响应。
7.一种电子设备,其特征在于,包括:
采集装置,配置为获取语音指令;
处理装置,配置为基于使用状态信息确定所述语音指令的垂直领域信息;基于所述垂直领域信息确定用于识别所述语音指令的第一智能模型;所述第一智能模型基于所述语音指令确定识别结果;基于所述垂直领域信息和识别结果确定所述指令信息,根据所述指令信息控制目标程序做出响应;
其中,所述使用状态信息包括电子设备当前安装的应用程序的种类、用途及所处状态中的一种或多种。
8.根据权利要求7所述的电子设备,其特征在于,所述处理装置确定所述使用状态信息时具体配置为:
确定电子设备当前安装的应用程序的种类、用途和/或在预设时间阈值内处于开启状态中的所述应用程序的种类、用途。
CN201810675145.XA 2018-06-27 2018-06-27 一种信息处理方法及电子设备 Active CN108897517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810675145.XA CN108897517B (zh) 2018-06-27 2018-06-27 一种信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810675145.XA CN108897517B (zh) 2018-06-27 2018-06-27 一种信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN108897517A CN108897517A (zh) 2018-11-27
CN108897517B true CN108897517B (zh) 2021-09-14

Family

ID=64346420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810675145.XA Active CN108897517B (zh) 2018-06-27 2018-06-27 一种信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN108897517B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658926B (zh) * 2018-11-28 2021-03-23 维沃移动通信有限公司 一种语音指令的更新方法及移动终端
CN112306352A (zh) * 2020-02-24 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的系统、方法和装置
CN113687876B (zh) * 2021-08-17 2023-05-23 华北电力大学(保定) 信息处理方法、自动驾驶控制方法和电子设备
CN116206602A (zh) * 2021-11-30 2023-06-02 华为终端有限公司 语音解析方法、电子设备、可读存储介质及芯片系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN105869635A (zh) * 2016-03-14 2016-08-17 江苏时间环三维科技有限公司 一种语音识别方法及系统
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016847B1 (en) * 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
CN102868827A (zh) * 2012-09-15 2013-01-09 潘天华 一种利用语音命令控制手机应用程序启动的方法
CN105679314B (zh) * 2015-12-28 2020-05-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106297782A (zh) * 2016-07-28 2017-01-04 北京智能管家科技有限公司 一种人机交互方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN105869635A (zh) * 2016-03-14 2016-08-17 江苏时间环三维科技有限公司 一种语音识别方法及系统
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法

Also Published As

Publication number Publication date
CN108897517A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108897517B (zh) 一种信息处理方法及电子设备
CN107657950B (zh) 基于云端和多命令词的汽车语音控制方法、系统及装置
CN110148416A (zh) 语音识别方法、装置、设备和存储介质
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
US10854189B2 (en) Techniques for model training for voice features
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
CN116521841B (zh) 用于生成回复信息的方法、装置、设备及介质
CN108805035A (zh) 基于手势识别的教学互动方法以及装置
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN112116910A (zh) 语音指令的识别方法和装置、存储介质、电子装置
CN116303962B (zh) 对话生成方法、深度学习模型的训练方法、装置和设备
CN109086276A (zh) 数据翻译方法、装置、终端及存储介质
CN111413877A (zh) 控制家电设备的方法及装置
CN113868404A (zh) 一种多机器人对话管理方法、装置、设备和介质
CN111399629A (zh) 一种终端设备的操作引导方法、终端设备及存储介质
CN110262278B (zh) 智能家电设备的控制方法及装置、智能电器设备
US10847154B2 (en) Information processing device, information processing method, and program
CN112151034B (zh) 设备的语音控制方法、装置、电子设备及存储介质
CN112579031A (zh) 一种语音交互的方法、系统和电子设备
CN111128127A (zh) 一种语音识别处理方法及装置
CN112818096A (zh) 对话生成方法及其装置
WO2023093280A1 (zh) 语音控制方法、装置、电子设备及存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN109002498A (zh) 人机对话方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant