CN116339871A - 终端设备的控制方法、装置、终端设备及存储介质 - Google Patents
终端设备的控制方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN116339871A CN116339871A CN202111579677.1A CN202111579677A CN116339871A CN 116339871 A CN116339871 A CN 116339871A CN 202111579677 A CN202111579677 A CN 202111579677A CN 116339871 A CN116339871 A CN 116339871A
- Authority
- CN
- China
- Prior art keywords
- voice information
- displayed
- terminal equipment
- target
- interactive interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002452 interceptive effect Effects 0.000 claims abstract description 95
- 230000003993 interaction Effects 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种终端设备的控制方法、装置、终端设备及存储介质,涉及计算机技术领域,尤其涉及人工智能及语音技术领域。具体实现方案为:获取终端设备当前待展示交互界面的内容;根据当前待展示交互界面的内容,生成针对当前待展示交互界面的目标语音信息;基于内容和目标语音信息,生成当前待展示交互界面,并将当前待展示交互界面在终端设备的屏幕上进行展示;响应于接收到的语音信息中包含目标语音信息之中至少部分信息,基于语音信息控制终端设备执行相应操作。本申请能够在用户同意授权的情况下引导用户使用语音指令与终端设备进行交互,进而提高语音交互效率,进而提升用户使用体验。
Description
技术领域
本申请涉及计算机技术,尤其涉及人工智能及语音技术领域,特别涉及一种终端设备的控制方法、装置、终端设备及存储介质。
背景技术
相关技术中,用户与非触屏设备进行语音交互时,或离设备距离较远时,受设备自身性能限制、及语音交互技术缺陷的影响,导致语音交互效率低,降低了用户使用体验。
发明内容
本申请提供了一种终端设备的控制方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种终端设备的控制方法,包括:获取所述终端设备当前待展示交互界面的内容;根据所述当前待展示交互界面的内容,生成针对所述当前待展示交互界面的目标语音信息;基于所述内容和所述目标语音信息,生成所述当前待展示交互界面,并将所述当前待展示交互界面在所述终端设备的屏幕上进行展示;响应于接收到的语音信息中包含所述目标语音信息之中至少部分信息,基于所述语音信息控制所述终端设备执行相应操作。
根据本申请的第二方面,提供了一种终端设备的控制装置,包括:获取模块,用于获取所述终端设备当前待展示交互界面的内容;第一生成模块,用于根据所述当前待展示交互界面的内容,生成针对所述当前待展示交互界面的目标语音信息;第二生成模块,用于基于所述内容和所述目标语音信息,生成所述当前待展示交互界面,并将所述当前待展示交互界面在所述终端设备的屏幕上进行展示;处理模块,用于响应于接收到的语音信息中包含所述目标语音信息之中至少部分信息,基于所述语音信息控制所述终端设备执行相应操作。
根据本申请的第三方面,提供了一种终端设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述方法的步骤。
根据本申请的技术,能够在用户同意授权的情况下引导用户使用语音指令与终端设备进行交互,进而提高语音交互效率,进而提升用户使用体验。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请实施例的一种交互界面示意图;
图4是根据本申请实施例的另一种交互界面示意图;
图5是根据本申请实施例的又一种交互界面示意图;
图6是根据本申请实施例的又一种交互界面示意图;
图7是本申请实施例提供的一种终端设备控制装置的结构示意图;
图8是本申请实施例提供的另一种终端设备控制装置的结构示意图;
图9是本申请实施例提供的又一种终端设备控制装置的结构示意图;
图10是本申请实施例提供的又一种终端设备控制装置的结构示意图;
图11是用来实现本申请实施例的终端设备的控制方法的终端设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参见图1,图1为根据本申请第一实施例的示意图。该终端设备的控制方法可以应用于带有非触摸式显示屏的终端设备,也可应用于其他满足语音交互所需条件的,带有显示屏的设备。如图1所示,该终端设备的控制方法可以包括以下步骤。
步骤S101,获取终端设备当前待展示交互界面的内容。
举例而言,可以从每个交互界面的配置信息中,获得每个界面对应的待展示交互界面的内容。
步骤S102,根据当前待展示交互界面的内容,生成针对当前待展示交互界面的目标语音信息。
其中,在本申请的实施例中,目标语音信息指为引导用户采用语音指令的方式与终端设备进行交互而生成的、当前待展示交互界面可执行操作的语音指令对应的文本信息。
举例而言,可根据当前待展示交互界面的内容,确定待展示交互界面能够执行的若干具体操作,进而生成执行每个具体操作对应语音指令的文本信息。
作为一种示例,若当前待展示交互界面的音乐播放界面内容,则目标语音信息可以是:收藏歌曲。
步骤S103,基于内容和目标语音信息,生成当前待展示交互界面,并将当前待展示交互界面在终端设备的屏幕上进行展示。
举例而言,可以将待展示交互界面的内容在终端设备的屏幕上进行展示,并在预先设置的终端设备屏幕的相应位置,展示目标语音信息。
步骤S104,响应于接收到的语音信息中包含目标语音信息之中至少部分信息,基于语音信息控制终端设备执行相应操作。
举例而言,响应于接收到的语音信息中,包含待展示交互界面能够执行的某一具体操作的目标语音信息,则控制终端设备执行该目标语音信息对应的操作。
通过实施本申请实施例,基于当前待展示交互界面的内容,在终端设备的界面上展示相应的目标语音信息,基于该目标语音信息引导用户使用语音指令与终端设备进行交互,进而提高语音交互效率,进而提升用户使用体验。
请参见图2,图2为根据本申请第二实施例的示意图,本申请实施例的终端设备的控制方法,可以基于待展示交互界面的内容的类型,确定对应的操作词条,进而生成目标语音信息。如图2所示,该终端设备的控制方法可以包括以下步骤。
步骤S201,获取终端设备当前待展示交互界面的内容。
在本申请的实施例中,步骤S201可分别采用本申请的各实施例中的任一种方式实现,本申请实施例并不对此作出限定,也不再赘述。
步骤S202,基于当前待展示交互界面的内容的类型,确定与类型对应的至少一个操作事件。
其中,在本申请的实施例中,操作事件中至少包括以下一项或多项:基本操作事件、内容推荐事件、提醒事件。
举例而言,可基于当前待展示交互界面的内容的类型,确定当前待展示交互界面能够进行的操作事件。
作为一种示例,若当前待展示交互界面为音乐播放界面,则当前待展示交互界面能够进行的操作事件,可以为基本操作事件及音乐相关的内容推荐事件。
作为另一种示例,若当前待展示交互界面为备忘录界面,则当前待展示交互界面能够进行的操作事件,可以为提醒事件,例如:设置备忘录。
步骤S203,确定每个操作事件对应的操作词条。
举例而言,可根据操作事件的具体类型及内容,确定对应的操作词条。
需要说明的是,每个操作事件对应的操作词条可以包括但不限于:操作事件的名称或缩写、操作事件的相关内容等。
作为一种示例,若操作事件为基本操作事件,则操作词条可以是当前待展示交互界面可进行的具体操作,包括但不限于:收藏、退出、翻页等。
作为另一种示例,若操作事件为内容推荐事件,操作词条可以是根据当前待展示交互界面的内容,确定相关的其他内容;例如,内容推荐事件为健身,则对应的操作词条可以包括但不限于:瑜伽、健身直播课等。
作为又一种示例,若操作事件为提醒事件,例如:健身结束提醒用户进行下一步操作的提醒事件,则操作词条可以是收藏课程。
需要说明的是,由于一个操作事件对应的操作词条可能有多个,实际应用中可根据用户偏好,选择合适的操作词条,或根据系统设置选择操作词条,且展示的操作词条个数也可根据交互界面情况进行调整。
步骤S204,基于预设的语音交互唤醒词和每个操作事件对应的操作词条,生成针对当前待展示交互界面的目标语音信息。
举例而言,可将预设的语音交互唤醒词与每个操作事件对应的操作词条,生成当前待展示交互界面的目标语音信息。
作为一种示例,若预设的语音交互唤醒词为:一二三四,操作事件对应的操作词条为瑜伽,则待展示交互界面的目标语音信息为:一二三四、瑜伽。
步骤S205,基于内容和目标语音信息,生成当前待展示交互界面,并将当前待展示交互界面在终端设备的屏幕上进行展示。
在一种实现方式中,将当前待展示交互界面在终端设备的屏幕上进行展示,包括:将当前待展示交互界面中的目标语音信息固定展示在屏幕的第一区域;将当前待展示交互界面中的内容以一级层级结构展示在屏幕的第二区域;其中,第一区域区别于第二区域。
其中,在本申请的实施例中,一级层级结构指所有交互界面由两级结构组成,每个上一级交互界面中的内容,只对应一个次一级界面,且同一界面多个内容展示方式,以平铺展示为主,如需在同一界面展示的内容较多,则采用上下滑动的翻页操作进行展示。
在本申请的一些实施例中,将当前待展示交互界面中的目标语音信息固定展示在屏幕的第一区域,还包括:将每个操作词条,使用区别于该界面中其它形状的图形进行包裹,以与交互界面的其他内容进行区别。
举例而言,响应于确定当前待展示交互界面中的目标语音信息及当前待展示交互界面中的内容,可以将目标语音信息在预先设置的,屏幕中的对应区域展示;将当前待展示交互界面中的内容,以一级层级结构在预先设置的相应位置展示。
作为一种示例,请参见图3,图3是根据本申请实施例的一种交互界面示意图。如图3所示,该交互界面中,待展示交互界面的内容包含健身、音乐、天气及闹钟。健身对应的内容推荐事件操作词条为:瑜伽;天气对应内容推荐事件操作词条为:明天天气。音乐对应的内容推荐事件操作词条为:播放歌曲。对应的目标语音信息为:唤醒词、瑜伽、明天天气、播放歌曲。将目标语音信息在预设的屏幕顶端区域展示,将健身、音乐、天气及闹钟等内容在目标语音信息下方依次展示。且每个操作词条由区别于该界面其它形状的对角圆角矩形框包裹,以与交互界面的其他内容进行区别。
作为另一种示例,请参见图4,图4是根据本申请实施例的另一种交互界面示意图。如图4所示,该交互界面为健身课程结束后的交互界面,该交互界面的操作事件为基本操作事件及内容推荐事件,对应的操作词条为退出及收藏课程,则目标语音信息为:唤醒词、退出、收藏课程。将目标语音信息在预设的屏幕顶层的中央区域以弹窗形式展示,将健身课程内容在预设的屏幕的底层展示。且每个操作词条由区别于该界面其它形状的对角圆角矩形框包裹,以与交互界面的其他内容进行区别,便于用户区分。
步骤S206,响应于接收到的语音信息中包含目标语音信息之中至少部分信息,基于语音信息控制终端设备执行相应操作。
举例而言,响应于接收到的语音操作指令包含目标语音信息之中某个操作词条,则执行该操作词条对应的操作事件。
通过实施本申请实施例,可以基于待展示交互界面的内容的类型,确定对应的操作词条,进而生成目标语音信息,便于用户通过语音控制终端设备。
在本申请的一些实施例中,该终端设备的控制方法还包括:响应于进入到终端设备的目标交互界面,基于TTS(Text To Speech,从文本到语音)技术生成引导语音信息;引导语音信息用于语音引导终端设备使用者与终端设备的交互操作;控制终端设备播放引导语音信息。
举例而言,响应于进入到某些预先设置的目标交互界面,可以基于目标交互界面的具体内容信息及其他相关参数,生成与该内容对应的相关推荐的文本信息,基于该文本信息及TTS技术,生成该文本信息对应的引导语音信息,并控制终端设备播放该引导语音信息。
作为一种示例,响应于进入到音乐交互界面,则可根据音乐这一信息,及用户历史偏好,生成相关推荐的文本信息为:是否播放歌手小明的歌曲,并基于TTS技术控制终端设备播放该文本信息。
在本申请的一些实施例中,以控制终端设备播放引导语音信息的时刻为基准,在系统预设的一段时间内,可直接响应于用户回复的、不附加唤醒词的语音操作指令,进行相应操作。
作为一种示例,控制终端设备播放“是否播放歌手小明的歌曲”的引导语音信息后,用户可在系统预设的一段时间内,直接发出语音指令“播放”,接收到该用户发出的语音信息后,直接开始播放歌手小明的歌曲,用户无需在语音指令“播放”前添加唤醒词。
在本申请的一些实施例中,该终端设备的控制方法还包括:接收目标任务的语音指令;确定接收到语音指令时终端设备上的当前场景;响应于目标任务为第一类任务,基于语音指令执行目标任务,并将目标任务的执行反馈结果信息展示在当前场景的界面中。
其中,在本申请的实施例中,第一类任务指能够将任务的执行反馈结果信息,展示在当前场景的界面,而无需退出当前场景的界面的任务。
举例而言,响应于接收到的目标任务的语音指令为第一类任务的语音指令,则执行该目标任务,并将执行反馈结果信息通过弹窗,在不退出当前场景的界面的情况下进行展示。
作为一种示例,请参见图5,图5是根据本申请实施例的又一种交互界面示意图,如图5所示,在当前场景的界面为健身界面时,响应于接收目标任务的语音指令为:定明天8点的闹钟。则在设定闹钟后,将执行反馈结果信息:已经定了明天8:00的闹钟,通过弹窗显示在当前场景的界面。
通过实施本申请实施例,可以在不退出当前场景的界面的同时,执行并反馈接收到的目标任务的语音指令,从而减少对当前场景的干扰,提升用户使用体验。
在本申请的一些实施例中,该终端设备的控制方法还包括:响应于目标任务为第二类任务,基于TTS技术生成询问语音信息,并控制终端设备播放询问语音信息;响应于接收到针对询问语音信息的确认语音指令,退出当前场景,并执行目标任务。
其中,在本申请的实施例中,第二类任务指退出当前场景的界面,才能继续执行的任务。
举例而言,响应于接收到的目标任务的语音指令为第二类任务的语音指令,可基于TTS技术生成询问是否确认退出当前场景的询问语音信息,并控制终端设备播放询问语音信息;响应于接收到针对询问语音信息的确认语音指令,退出当前场景,并基于语音指令执行目标任务;响应于接收到针对询问语音信息的否认语音指令,或未接收到针对询问语音信息的语音指令,则继续保持当前界面。
作为一种示例,响应于当前界面为健身界面,接收到的目标任务的语音指令为:唤醒词、玩游戏。则基于TTS技术生成并播放的询问语音信息为:你确定要退出健身吗?响应于接收到的语音指令为:确定退出。则退出健身界面,进入游戏界面。
作为另一种示例,当前界面为健身界面,响应于接收到的目标任务的语音指令为:唤醒词、玩游戏。则基于TTS技术生成并播放的询问语音信息为:你确定要退出健身吗?响应于接收到的语音指令为:不退出。或以播放的询问语音信息的时间为基准,在预先设定的一段时间内未接收到语音指令,则继续展示健身界面。
通过实施本申请实施例,可以在需要退出当前场景时,进行二次确认,从而避免误操作,提升用户使用体验。
在本申请的一些实施例中,该终端设备的控制方法还包括:基于终端设备之上物理键对屏幕上的目标语音信息的选择操作,控制终端设备执行相应操作。
举例而言,可在终端设备上增加物理键,通过终端设备之上物理键对屏幕上的多个目标语音信息进行选择操作,以在一些特殊场景下,补足语音的准确及效率问题。
作为一种示例,可在终端设备上增加两个方向按键及一个确认按键。请参见图6,图6是根据本申请实施例的又一种交互界面示意图,如图6所示,该界面提供两项目标语音信息供用户选择,以进行下一步骤操作,此时用户可使用方向键选择任一目标语音信息,并使用确认按键确认该信息,以控制终端设备进行下一步操作。
可以理解的是,通过终端设备上增加的物理键,也可对界面上其他可操作信息进行操作,本申请并不对此进行限定,也不再赘述。
在本申请的一些实施例中,可以省略唤醒词、或只用两个字完成唤醒,减少唤醒步长。
需要说明的是,为提升操作精度,减少误操作概率,唤醒词通常由三个或更多的字符重复组成。
举例而言,可以响应于接收到的进入免唤醒词状态指令,进入免唤醒词状态后,该状态下,终端设备可直接响应于接收到的无唤醒词的语音指令,并在界面中显示预先设置的标志,以指示当前状态。或者,在语音干扰较小的场景中,可缩短唤醒词长度。
需要说明的是,本申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本申请的技术方案中,通过获取终端设备上待展示界面的相关信息,生成目标语音信息,引导用户使用语音进行交互。因涉及用户相关个人信息的使用,故需在用户同意相关信息使用协议后,方可实施本申请的技术方案。为此需在实施本申请的技术方案前,通过在终端设备界面进行显示及其他可能方式,向用户展示相关协议内容,并由用户自主选择是否同意该协议。本申请的技术方案是在用户同意相关协议后,在用户同意授权的情况下获得相关信息,并基于用户同意授权的相关信息而实现人机交互功能。
请参见图7,图7为本申请实施例提供的一种终端设备控制装置的结构示意图,图7所示的装置可以包括获取模块701、第一生成模块702、第二生成模块703及处理模块704。
在本申请实施例,获取模块701用于获取终端设备当前待展示交互界面的内容;第一生成模块702,用于根据当前待展示交互界面的内容,生成针对当前待展示交互界面的目标语音信息;第二生成模块703,用于基于内容和目标语音信息,生成当前待展示交互界面,并将当前待展示交互界面在终端设备的屏幕上进行展示;处理模块704,用于响应于接收到的语音信息中包含目标语音信息之中至少部分信息,基于语音信息控制终端设备执行相应操作。
在一种实现方式中,第一生成模块702具体用于:基于当前待展示交互界面的内容的类型,确定与类型对应的至少一个操作事件;确定每个操作事件对应的操作词条;基于预设的语音交互唤醒词和每个操作事件对应的操作词条,生成针对当前待展示交互界面的目标语音信息。
在一种可选地实现方式中,操作事件中至少包括以下一项或多项:基本操作事件、内容推荐事件、提醒事件。
在一种实现方式中,第二生成模块703具体用于:将当前待展示交互界面中的目标语音信息固定展示在屏幕的第一区域;将当前待展示交互界面中的内容以一级层级结构展示在屏幕的第二区域;其中,第一区域区别于第二区域。
在本申请的一些实施例中,该终端设备的控制装置还包括:接收模块、确定模块及第四处理模块。作为一种示例,如图8所示,该终端设备的控制装置还可包括接收模块805、确定模块806及第四处理模块807。接收模块805用于接收目标任务的语音指令;确定模块806用于确定接收到语音指令时终端设备上的当前场景;第四处理模块807用于响应于目标任务为第一类任务,基于语音指令执行目标任务,并将目标任务的执行反馈结果信息展示在当前场景的界面中。其中,图8中801-804和图7中701-704具有相同功能和结构。
在本申请的一些实施例中,该终端设备的控制装置还包括:第五处理模块及第六处理模块。作为一种示例,如图9所示,该终端设备的控制装置还可包括第五处理模块908及第六处理模块909。第五处理模块908用于响应于目标任务为第二类任务,基于TTS技术生成询问语音信息,并控制终端设备播放询问语音信息;第六处理模块909用于响应于接收到针对询问语音信息的确认语音指令,退出当前场景,并基于语音指令执行目标任务。其中,图9中901-907和图8中801-807具有相同功能和结构。
在本申请的一些实施例中,该终端设备的控制装置还包括第七处理模块。作为一种示例,如图10所示,该终端设备的控制装置还可包括第七处理模块1005。第七处理模块1005用于基于终端设备之上物理键对屏幕上的目标语音信息的选择操作,控制终端设备执行相应操作。其中图10中1001-1004和图7中701-704具有相同功能和结构。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请的实施例,本申请还提供了一种终端设备和一种可读存储介质。
如图11所示,是根据本申请实施例的终端设备的控制方法的终端设备的框图。终端设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。终端设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该终端设备包括:一个或多个处理器1101、存储器1102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在终端设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个终端设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。
存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的终端设备的控制方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的终端设备的控制方法。
存储器1102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的终端设备的控制方法对应的程序指令/模块(例如,附图7所示的获取模块701、第一生成模块702、第二生成模块703及处理模块704;或者,附图8所示的接收模块805、确定模块806及第四处理模块807;或者,附图9所示的第五处理模块908及第六处理模块909;或者,附图10所示的第七处理模块1005)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的终端设备的控制方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据终端设备的控制终端设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至终端设备的控制终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
终端设备的控制方法的终端设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置1103可接收输入的数字或字符信息,以及产生与终端设备的控制终端设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的技术方案,能够引导用户使用语音指令与终端设备进行交互,进而提高语音交互效率,进而提升用户使用体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (19)
1.一种终端设备的控制方法,包括:
获取所述终端设备当前待展示交互界面的内容;
根据所述当前待展示交互界面的内容,生成针对所述当前待展示交互界面的目标语音信息;
基于所述内容和所述目标语音信息,生成所述当前待展示交互界面,并将所述当前待展示交互界面在所述终端设备的屏幕上进行展示;
响应于接收到的语音信息中包含所述目标语音信息之中至少部分信息,基于所述语音信息控制所述终端设备执行相应操作。
2.根据权利要求1所述的方法,其中,所述根据所述当前待展示交互界面的内容,生成针对所述当前待展示交互界面的目标语音信息,包括:
基于所述当前待展示交互界面的内容的类型,确定与所述类型对应的至少一个操作事件;
确定每个所述操作事件对应的操作词条;
基于预设的语音交互唤醒词和每个所述操作事件对应的操作词条,生成针对所述当前待展示交互界面的目标语音信息。
3.根据权利要求2所述的方法,其中,所述操作事件中至少包括以下一项或多项:
基本操作事件、内容推荐事件、提醒事件。
4.根据权利要求1所述的方法,其中,所述将所述当前待展示交互界面在所述终端设备的屏幕上进行展示,包括:
将所述当前待展示交互界面中的所述目标语音信息固定展示在所述屏幕的第一区域;
将所述当前待展示交互界面中的所述内容以一级层级结构展示在所述屏幕的第二区域;其中,所述第一区域区别于所述第二区域。
5.根据权利要求1所述的方法,还包括:
响应于进入到所述终端设备的目标交互界面,基于从文本到语音TTS技术生成引导语音信息;所述引导语音信息用于语音引导所述终端设备使用者与所述终端设备的交互操作;
控制所述终端设备播放所述引导语音信息。
6.根据权利要求1所述的方法,还包括:
接收目标任务的语音指令;
确定接收到所述语音指令时所述终端设备上的当前场景;
响应于所述目标任务为第一类任务,基于所述语音指令执行所述目标任务,并将所述目标任务的执行反馈结果信息展示在所述当前场景的界面中。
7.根据权利要求6所述的方法,还包括:
响应于所述目标任务为第二类任务,基于TTS技术生成询问语音信息,并控制所述终端设备播放所述询问语音信息;
响应于接收到针对所述询问语音信息的确认语音指令,退出所述当前场景,并基于所述语音指令执行所述目标任务。
8.根据权利要求1至7中任一项所述的方法,还包括:
基于所述终端设备之上物理键对所述屏幕上的所述目标语音信息的选择操作,控制所述终端设备执行相应操作。
9.一种终端设备的控制装置,包括:
获取模块,用于获取所述终端设备当前待展示交互界面的内容;
第一生成模块,用于根据所述当前待展示交互界面的内容,生成针对所述当前待展示交互界面的目标语音信息;
第二生成模块,用于基于所述内容和所述目标语音信息,生成所述当前待展示交互界面,并将所述当前待展示交互界面在所述终端设备的屏幕上进行展示;
处理模块,用于响应于接收到的语音信息中包含所述目标语音信息之中至少部分信息,基于所述语音信息控制所述终端设备执行相应操作。
10.根据权利要求9所述的装置,其中,所述第一生成模块具体用于:
基于所述当前待展示交互界面的内容的类型,确定与所述类型对应的至少一个操作事件;
确定每个所述操作事件对应的操作词条;
基于预设的语音交互唤醒词和每个所述操作事件对应的操作词条,生成针对所述当前待展示交互界面的目标语音信息。
11.根据权利要求10所述的装置,其中,所述操作事件中至少包括以下一项或多项:
基本操作事件、内容推荐事件、提醒事件。
12.根据权利要求9所述的装置,其中,所述第二生成模块具体用于:
将所述当前待展示交互界面中的所述目标语音信息固定展示在所述屏幕的第一区域;
将所述当前待展示交互界面中的所述内容以一级层级结构展示在所述屏幕的第二区域;其中,所述第一区域区别于所述第二区域。
13.根据权利要求9所述的装置,还包括:
第二处理模块,响应于进入到所述终端设备的目标交互界面,基于从文本到语音TTS技术生成引导语音信息;所述引导语音信息用于语音引导所述终端设备使用者与所述终端设备的交互操作;
第三处理模块,用于控制所述终端设备播放所述引导语音信息。
14.根据权利要求9所述的装置,还包括:
接收模块,用于接收目标任务的语音指令;
确定模块,用于确定接收到所述语音指令时所述终端设备上的当前场景;
第四处理模块,用于响应于所述目标任务为第一类任务,基于所述语音指令执行所述目标任务,并将所述目标任务的执行反馈结果信息展示在所述当前场景的界面中。
15.根据权利要求14所述的装置,还包括:
第五处理模块,用于响应于所述目标任务为第二类任务,基于TTS技术生成询问语音信息,并控制所述终端设备播放所述询问语音信息;
第六处理模块,用于响应于接收到针对所述询问语音信息的确认语音指令,退出所述当前场景,并基于所述语音指令执行所述目标任务。
16.根据权利要求9-15任一项所述的装置,还包括:
第七处理模块,用于基于所述终端设备之上物理键对所述屏幕上的所述目标语音信息的选择操作,控制所述终端设备执行相应操作。
17.一种终端设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111579677.1A CN116339871A (zh) | 2021-12-22 | 2021-12-22 | 终端设备的控制方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111579677.1A CN116339871A (zh) | 2021-12-22 | 2021-12-22 | 终端设备的控制方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116339871A true CN116339871A (zh) | 2023-06-27 |
Family
ID=86889911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111579677.1A Pending CN116339871A (zh) | 2021-12-22 | 2021-12-22 | 终端设备的控制方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116339871A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198291A (zh) * | 2023-11-08 | 2023-12-08 | 四川蜀天信息技术有限公司 | 一种语音控制终端界面的方法、装置及系统 |
-
2021
- 2021-12-22 CN CN202111579677.1A patent/CN116339871A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198291A (zh) * | 2023-11-08 | 2023-12-08 | 四川蜀天信息技术有限公司 | 一种语音控制终端界面的方法、装置及系统 |
CN117198291B (zh) * | 2023-11-08 | 2024-01-23 | 四川蜀天信息技术有限公司 | 一种语音控制终端界面的方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220012432A1 (en) | Dialog interaction method, graphical user interface, terminal device, and network device | |
CN112533041A (zh) | 视频播放方法、装置、电子设备和可读存储介质 | |
CN112581946B (zh) | 语音控制方法、装置、电子设备和可读存储介质 | |
US20210352059A1 (en) | Message Display Method, Apparatus, and Device | |
JP2021131528A (ja) | ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
JP2021111379A (ja) | インタラクション情報推薦方法及び装置 | |
CN111813912B (zh) | 一种人机对话方法、装置、设备及存储介质 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
CN111488740A (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
US20210097993A1 (en) | Speech recognition control method and apparatus, electronic device and readable storage medium | |
CN110706701B (zh) | 语音技能推荐方法、装置、设备及存储介质 | |
CN112530419B (zh) | 语音识别控制方法、装置、电子设备和可读存储介质 | |
CN112466280B (zh) | 语音交互方法、装置、电子设备和可读存储介质 | |
CN112133307A (zh) | 人机交互方法、装置、电子设备及存储介质 | |
CN111708477B (zh) | 按键识别方法、装置、设备以及存储介质 | |
CN111554298B (zh) | 语音交互方法、语音交互设备和电子设备 | |
CN113010248A (zh) | 操作引导方法、装置和电子设备 | |
US20210097991A1 (en) | Speech control method and apparatus, electronic device, and readable storage medium | |
CN112652304B (zh) | 智能设备的语音交互方法、装置和电子设备 | |
US20210098012A1 (en) | Voice Skill Recommendation Method, Apparatus, Device and Storage Medium | |
CN112650844B (zh) | 对话状态的追踪方法、装置、电子设备和存储介质 | |
CN116339871A (zh) | 终端设备的控制方法、装置、终端设备及存储介质 | |
US20210074265A1 (en) | Voice skill creation method, electronic device and medium | |
CN112579032B (zh) | 智能设备引导的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |