CN115408492A - 资源显示的方法、终端及服务器 - Google Patents

资源显示的方法、终端及服务器 Download PDF

Info

Publication number
CN115408492A
CN115408492A CN202110579359.9A CN202110579359A CN115408492A CN 115408492 A CN115408492 A CN 115408492A CN 202110579359 A CN202110579359 A CN 202110579359A CN 115408492 A CN115408492 A CN 115408492A
Authority
CN
China
Prior art keywords
voice
card
resource
instruction
candidate set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110579359.9A
Other languages
English (en)
Inventor
黄益贵
乔登龙
夏潘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110579359.9A priority Critical patent/CN115408492A/zh
Priority to PCT/CN2022/085018 priority patent/WO2022247466A1/zh
Publication of CN115408492A publication Critical patent/CN115408492A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及人工智能下的语音控制的技术领域,尤其涉及资源显示的方法,包括:终端接收用户的第一语音,将第一语音对应的数据发送给服务器;接收服务器发送的与第一语音对应的第一资源;显示第一用户界面,第一用户界面显示的内容包括第一资源的第一部分内容;接收用户的第二语音;第二语音用于对显示的第一资源进行控制;响应第二语音对应的控制指令,显示第一资源的第二部分内容,或,响应第二语音对应的控制指令,显示与第一资源相关的第二资源。通过本申请,第二语音对应的控制指令可基于第一资源确定,使得第二语音对应的控制指令在识别时有了一定的范围限制,故所识别的控制指令更为准确,即对用户的语音的控制意图理解更为准确。

Description

资源显示的方法、终端及服务器
技术领域
本申请涉及人工智能领域下的语音控制的技术领域,特别是指用于资源显示的方法、终端及服务器。
背景技术
当前,智能终端,例如手机、平板、智慧屏、笔记本、穿戴设备等的使用越来越普遍。终端不仅能基于用户的手势进行交互,语音交互也越来越普遍。
语音交互可以实现用户的基本需求,例如查天气、打开应用、推荐美食等。但若语音交互的过程稍复杂,例如多轮对话时,需要对前一轮对话获取的内容进行显示控制,终端不能准确识别用户的意图,容易出现误识别或误响应。
发明内容
鉴于现有技术的以上问题,本申请提供一种资源显示的方法、终端及服务器,以在多轮对话中,识别用户第二轮或以后的语音时,基于第一轮、或当前轮对话之前的某轮所显示的第一资源,来识别所述用户语音对应的控制指令,使得语音所识别的控制指令具有了一定的范围控制,从而所识别的控制指令更为准确,以准确响应用户的意图。
为达到上述目的,本申请第一方面提供了一种资源显示的方法,包括:
接收用户的第一语音;
将第一语音对应的数据发送给服务器;
接收服务器发送的与第一语音对应的第一资源;
显示第一用户界面,第一用户界面显示的内容包括第一资源的第一部分内容;
接收用户的第二语音;第二语音用于对显示的第一资源进行控制;
响应第二语音对应的控制指令,显示第一资源的第二部分内容,或者,响应第二语音对应的控制指令,显示与第一资源相关的第二资源。
由上,通过上述步骤,可以实现在多轮对话中,通过用户第二语音,对前一轮对话获取的内容(如上述第一资源)进行显示控制,以显示第一资源的第二部分内容,或显示与第一资源相关的第二资源。可见,由于识别用户第二轮或以后的语音时,基于第一轮、或当前轮对话之前的某轮(相对于当前轮,该某轮可以视为第一轮)所显示的第一资源,来识别所述用户语音对应的控制指令,使得语音所识别的控制指令具有了一定的范围控制,从而所识别的控制指令更为准确,以准确响应用户的意图。
作为第一方面的一种可能的实现方式,第一用户界面显示的内容包括第一资源的第一部分,具体包括:在第一用户界面,以卡片形式显示第一资源的第一部分。
由上,终端可以通过卡片或类似卡片的展示形式,向用户呈现多种资源进行显示。卡片可以是视图(view)、组件(Widget组件)的形态,通常在用户界面上以信息框呈现信息的形式,信息框通常是矩形或圆角矩形等形状。在一些可能的实现方式中,卡片可以是终端的负一屏所显示的卡片,也可以是快应用卡片。
作为第一方面的一种可能的实现方式,卡片包括多个类型,终端呈现的第一卡片的卡片类型与第一资源需要显示的内容相关。
由上,可以预先指定(例如由第一资源提供方指定)所显示的第一资源与对应所要采用的卡片类型,以使第一资源能够以较合适的卡片类型进行显示。其中,卡片类型例如纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片等。
作为第一方面的一种可能的实现方式,第一卡片对应第一语音指令控制的候选集合,第一语音指令控制的候选集合包括一个或多个对第一卡片的内容进行显示控制的指令,第一语音指令控制的候选集合与第一卡片的卡片类型相关;
响应第二语音对应的控制指令,显示第一资源的第二部分内容,或者,响应第二语音对应的控制指令,显示与第一资源相关的第二资源,具体包括:
若第二语音对应的指令与第一语音指令控制的候选集合的第一指令匹配时,对第一卡片执行与第一指令关联的第一显示控制以显示第一资源的第二部分内容,或者显示与第一资源相关的第二资源。
由上,通过生成第一语音指令控制的候选集合,使得在识别第二语音对应的控制指令时,从该第一语音指令控制的候选集合中去匹配识别,由于第一语音指令控制的候选集合与所使用的卡片类型相关,相当于对可识别的控制指令设定了对应的范围(即候选集合),因此据此识别的第二语音的控制指令更为准确。
作为第一方面的一种可能的实现方式,方法还包括:接收用户的第三语音;若第三语音对应的指令与第一语音指令控制的候选集合的第二指令匹配时,对第一卡片执行与第二指令关联的第二显示控制,第二显示控制不同于第一显示控制。
其中,例如图4b或图4c示出对应的例子中,第二语音可以是控制选择框移动的语音指令(如语音为:选择下一个或选择左边的/右边的等等),第一显示控制是控制选择框的移动;第三语音可以是卡片显示内容整体移动(对应手指触摸滑动)的语音指令(如语音为:向右滑、向下滑等等),第二显示控制是控制卡片显示内容的移动,例如将所显示内容向左或向上方向移动,以将部分内容移出卡片,而将另一部分(对应第二资源的部分内容)移入卡片显示。由上,可以实现对第二轮对话(对应第二语音)、第三轮(对应第三语音)的多轮对话的支持。
作为第一方面的一种可能的实现方式,不同的卡片类型对应的语音指令控制的候选集合不同;方法还包括:接收用户的第四语音;以第二卡片显示第四语音对应的第三资源,第二卡片的类型不同于第一卡片的类型;第二卡片对应第二语音指令控制的候选集合,第二语音指令控制的候选集合包括一个或多个对第二卡片的内容进行显示控制的指令,第二语音指令控制的候选集合不同于第一语音指令控制的候选集合。
其中,例如图4f-1和图4f-2构成的实施例中,图4f-1为以宫格型卡片(相当于第一卡片的类型)显示获得的第一资源(即获得各Mate手机型号和图),图4f-2为采用图文型卡片(相当于第二卡片的类型)显示获得的第三资源(即获得的Mate保时捷设计版的介绍信息),服务器会根据宫格型卡片和获得的第一资源生成对应的指令控制的候选集合(对应第一语音指令控制的候选集合),会根据图文型卡片和获得的第二资源生成对应的指令控制的候选集合(对应第二语音指令控制的候选集合)。由上,可以实现对第二轮对话(对应第二语音)、第三轮(对应第四语音)的多轮对话的支持。
作为第一方面的一种可能的实现方式,第一语音指令控制的候选集合由服务器基于第一卡片的卡片类型和第一资源生成。
由上,由于第一语音指令控制的候选集合与所使用的卡片类型、第一资源相关,相当于对可识别的控制指令设定了对应的范围(即候选集合),因此据此识别的第二语音的控制指令与卡片类型、第一资源相关,故识别的第二语音的控制指令更为准确。
作为第一方面的一种可能的实现方式,接收用户的第二语音之后,方法还包括:向服务器发送第二语音的数据;接收服务器确认的第二语音对应的指令与第一语音指令控制的候选集合的第一指令匹配的结果,对第一卡片执行与第一指令关联的第一显示控制。
由上,第二语音对应的指令,是由服务器根据第一语音指令控制的候选集合进行匹配获得,由于第一语音指令控制的候选集合与所使用的卡片类型、第一资源相关,因此识别的第二语音的控制指令更为准确。
作为第一方面的一种可能的实现方式,方法还包括:接收用户的第五语音;以第三卡片显示第五语音对应的第四资源,第三卡片的类型与第一卡片的类型相同,第四资源不同于第一资源;第三卡片对应第三语音指令控制的候选集合,第三语音指令控制的候选集合包括一个或多个对第三卡片的内容进行显示控制的指令,第三语音指令控制的候选集合不同于第一语音指令控制的候选集合。
以图4a-1和图4a-2构成的实施例对此进行说明,图4a-1为以图文型卡片显示获得的第一资源(即对张三的简介),图4a-2为也采用图文型卡片显示获得的第四资源(即通过触发跳转链接获得的张三的详情信息),服务器会根据图文型卡片和获得的第一资源生成对应的指令控制的候选集合(对应第一语音指令控制的候选集合,例如包括查看详情的指令),会根据图文型卡片和获得的第四资源生成对应的指令控制的候选集合(对应第三语音指令控制的候选集合,例如包括使卡片所显示内容整体向上/下移动的指令,以显示出当前卡片尚未显示出来的部分)。由上,可以实现对第二轮对话(例如对应第二语音)、第三轮(例如对应第五语音)的多轮对话的支持。
作为第一方面的一种可能的实现方式,卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。
由上,在通过卡片显示时,可以采用不同的卡片类型进行显示。
作为第一方面的一种可能的实现方式,对于纯文本型卡片或图文型卡片,第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。
由上,可以根据上述卡片的类型,生成对应的第一控制指令的候选集合。生成的第一控制指令的候选集合可以与所使用的卡片类型相关。
作为第一方面的一种可能的实现方式,对于宫格型卡片或列表型卡片,控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。
由上,可以根据上述卡片的类型,生成对应的第一控制指令的候选集合。生成的第一控制指令的候选集合可以与所使用的卡片类型相关。
作为第一方面的一种可能的实现方式,第一卡片还显示有按钮时,第一控制指令的候选集合还包括:对按钮的控制指令,控制指令用于触发控件。
由上,还可以根据卡片上所具有的按钮生成对应的控制指令,扩展了可语音控制的内容。
作为第一方面的一种可能的实现方式,第一资源是从第三方服务器获取的资源,卡片类型由第一资源对应的第三方选择。
由上,可以由提供第一资源的第三方选择,便于第三方选择出与第一资源所匹配的卡片类型。
作为第一方面的一种可能的实现方式,第一语音和第二语音对应的会话标识相同。
由上,可以便于实现多轮对话的交互流程。
本申请第二面提供了一种资源显示的方法,应用于服务器,包括:
接收终端发送的用户的第一语音对应的数据;
根据第一语音对应的数据获取第一资源;
将第一资源发送给终端进行显示;
接收终端发送的用户的第二语音对应的数据;第二语音用于终端对所显示的第一资源进行控制;
识别第二语音对应的控制指令;
将控制指令发送给终端,以使终端响应控制指令,显示第一资源的第二部分内容,或者,响应控制指令,显示与第一资源相关的第二资源。
由上,通过服务器的上述步骤,可以实现终端通过卡片或类似卡片的展示形式,向用户呈现多种资源进行显示。卡片可以是视图(view)、组件(Widget组件)的形态,通常在用户界面上以信息框呈现信息的形式,信息框通常是矩形或圆角矩形等形状。在一些可能的实现方式中,卡片可以是终端的负一屏所显示的卡片,也可以是快应用卡片。
对于下述列出的各种本申请第二面的可能的实现方式,其有益效果可参见上述对应的本申请第一面的可能的实现方式,不再赘述。
作为第二方面的一种可能的实现方式,在根据第一语音对应的数据获取第一资源之后,方法还包括:将第一卡片的信息发送给终端,以使终端以第一卡片显示第一资源,其中,第一卡片的信息包括第一卡片或第一卡片的标识或第一卡片的资源访问路径。
由上,可以通过多种方式使终端获得第一卡片。例如直接发送第一卡片到终端;或将第一卡片的标识发送到终端,终端可以根据预先存储的各卡片中确定对应该标识的卡片,或根据该卡片标识向服务器获取对应的卡片;或发送第一卡片的资源访问路径到终端,终端可根据该路径获得第一卡片。
作为第二方面的一种可能的实现方式,在根据第一语音对应的数据获取第一资源之后,方法还包括:
根据第一卡片的卡片类型生成第一语音指令控制的候选集合,或,根据第一卡片的卡片类型和第一资源生成第一语音指令控制的候选集合,第一语音指令控制的候选集合包括一个或多个对第一卡片的内容进行显示控制的指令;
识别第二语音对应的控制指令,将控制指令发送给终端,以使终端响应控制指令,具体包括:
将第二语音对应的指令与第一语音指令控制的候选集合中的控制指令进行匹配;
若第二语音对应的指令与第一语音指令控制的候选集合的第一指令匹配时,向终端发送与第一指令关联的对第一卡片的第一显示控制指令,以使终端显示第一资源的第二部分内容,或者显示与第一资源相关的第二资源。
作为第二方面的一种可能的实现方式,方法还包括:
接收终端发送的用户的第三语音对应的数据;
将第三语音对应的指令与第一语音指令控制的候选集合中的控制指令进行匹配;
若第三语音对应的指令与第一语音指令控制的候选集合的第二指令匹配时,向终端发送与第二指令关联的对第一卡片的第二显示控制指令,第二显示控制指令不同于第一显示控制指令。
作为第二方面的一种可能的实现方式,不同的卡片类型对应的语音指令控制的候选集合不同;方法还包括:
接收终端发送的用户的第四语音对应的数据;
获取与第四语音对应的第三资源;
将第二卡片的信息,以及第三资源发送给终端,以使终端以第二卡片显示第三资源;第二卡片的信息包括第二卡片或第二卡片的标识或第二卡片的资源访问路径,第二卡片的类型不同于第一卡片的类型;
并根据第二卡片的卡片类型,生成与第二卡片关联的第二语音指令控制的候选集合,或,根据第二卡片的卡片类型和第三资源,生成与第二卡片关联的第二语音指令控制的候选集合,第二语音指令控制的候选集合包括一个或多个对第二卡片的内容进行显示控制的指令,第二语音指令控制的候选集合不同于第一语音指令控制的候选集合。
作为第二方面的一种可能的实现方式,方法还包括:
接收终端发送的用户的第五语音对应的数据;
获取与第五语音对应的第四资源;
将第三卡片或第三卡片的标识,以及第四资源发送给终端,以使终端以第三卡片显示第四资源,第三卡片的类型与第一卡片的类型相同,第四资源不同于第一资源;
并根据第三卡片的卡片类型,生成与第三卡片关联的第三语音指令控制的候选集合,或,根据第三卡片的卡片类型和第四资源,生成与第三卡片关联的第三语音指令控制的候选集合,第三语音指令控制的候选集合包括一个或多个对第三卡片的内容进行显示控制的指令,第三语音指令控制的候选集合不同于第一语音指令控制的候选集合。
作为第二方面的一种可能的实现方式,卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。
作为第二方面的一种可能的实现方式,对于纯文本型卡片或图文型卡片,第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。
作为第二方面的一种可能的实现方式,对于宫格型卡片或列表型卡片,控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。
作为第二方面的一种可能的实现方式,第一卡片还显示有按钮时,第一控制指令的候选集合还包括:对按钮的控制指令,控制指令用于触发控件。
作为第二方面的一种可能的实现方式,第一资源是从第三方服务器获取的资源,卡片类型由第一资源对应的第三方选择。
作为第二方面的一种可能的实现方式,第一语音和第二语音对应的会话标识相同。
本申请第三方面提供了一种资源显示的方法,包括:
本申请第一方面提供的资源显示的方法的任一可能的实现方式,和本申请第二方面提供的资源显示的方法的任一可能的实现方式。
本申请第四方面提供了一种终端,包括处理器、内部存储器、显示屏和通信接口;
内部存储器,用于存储计算机可执行程序;
计算机可执行程序在被处理器调用时,使处理器用于通过通信接口或显示屏实现本申请第一方面提供的任一项的资源显示的方法。
本申请第五方面提供了一种服务器,包括处理器、存储器和通信接口;
存储器,用于存储计算机可执行程序;
计算机可执行程序在被处理器调用时,使处理器用于通过通信接口实现本申请第二方面提供的任一项的资源显示的方法。
本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
以下参照附图来进一步说明本申请的各个特征和各个特征之间的联系。附图均为示例性的,一些特征并不以实际比例示出,并且一些附图中可能省略了本申请所涉及领域的惯常的且对于本申请非必要的特征,或是额外示出了对于本申请非必要的特征,附图所示的各个特征的组合并不用以限制本申请。另外,在本说明书全文中,相同的附图标记所指代的内容也是相同的。具体的附图说明如下:
图1是通过卡片展示一菜谱的示意图;
图2是本申请的应用场景的一实施例的示意图图;
图3是本申请资源显示的方法的第一实施例的流程图;
图4a-1是本申请的图文型卡片的一实施例的示意图;
图4a-2是本申请的图4a-1对应的详情页面的一实施例的示意图;
图4b是本申请的宫格型卡片的一实施例的示意图;
图4c是本申请的列表型卡片的一实施例的示意图;
图4d是本申请的纯文本型卡片的一实施例的示意图;
图4e是本申请的列表型卡片的另一实施例的示意图;
图4f-1是本申请资源显示的方法的第一具体实施方式中的响应“我想买Mate40”的卡片显示的示意图;
图4f-2是本申请资源显示的方法的第一具体实施方式中的响应“Mate40保时捷设计版”的卡片显示的示意图;
图5是本申请提供的开发界面的一实施例的示意图;
图6是本申请资源显示的方法的第一具体实施方式的流程图;
图7a是本申请资源显示的方法的第二实施例的示意图;
图7b是本申请资源显示的方法的第三实施例的示意图;
图8是本申请的终端一实施例的示意图;
图9为本申请服务器的一实施例的示意图。
具体实施方式
说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在以下的描述中,所涉及的表示步骤的标号,如S110、S120……等,并不表示一定会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行,或合并执行。
说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容;它不排除其它的元件或步骤。因此,其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在,但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此,表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。
本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例,但可以指同一实施例。此外,在一个或多个实施例中,能够以任何适当的方式组合各特定特征、结构或特性,如从本公开对本领域的普通技术人员显而易见的那样。
随着智能语音交互技术的发展,用户在使用终端时可以选择使用语音的模式与终端进行交互。如图1所示卡片展示的页面示出的与菜谱相关的图文信息为例进行说明。该例子中,终端响应用户语音“红烧肉怎么做”,通过卡片向用户展示了红烧肉菜谱的做法,由于内容较多,当前的显示界面只展示了红烧肉菜谱的第一步,当用户希望卡片展示红烧肉烹饪步骤的第二步时,用户说出“下一步”的语音后,终端无法识别出该“下一步”应对应展示红烧肉烹饪步骤的第二步页面的意图,无法执行用户所期望的操作,即无法准确响应用户的语音“下一步”。例如图1示出了终端将“下一步”识别为一诗词名称,并将该“下一步”对应的诗词内容通过卡片进行展示。
卡片是一种新的服务形态,终端可以通过卡片或类似卡片的展示形式,向用户呈现多种资源进行显示。这些资源的信息包括图片、文本、控件、跳转链接等信息,通过这些资源可实现向用户提供可交互的服务。卡片可以是视图(view)、组件(Widget组件)的形态,是一种在用户界面上以信息框呈现信息的形式,信息框通常是矩形或圆角矩形等形状。本申请实施例后续以卡片形式展示信息为例进行说明。可以理解的是,终端也可以是通过其他形式展现信息,不限于卡片,本申请实施例对此不做具体限定。
本申请实施例提供了一种资源显示的方法,可以实现用户与当前界面所显示的第一资源的语音交互。例如如图1中,基于本申请实施例的资源显示方法,用户说出“下一步”时,终端可以较为准确的响应用户的意图,显示出该第一资源(红烧肉菜谱)的另一部分,或显示与第一资源相关的第二资源(红烧肉菜谱详情)。
本申请实施例的一种应用场景,可参见图2示出的示意图,包括终端20、服务器24和第三方服务器26。
其中,终端20可以为任意具有通信功能的终端,例如手机、平板电脑、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、车载终端等电子设备。通过终端20可以实现人机交互,以及在用户界面通过卡片形式展示内容。
其中,服务器24可以为通用服务器、或者云服务器等,用于为终端20提供用户界面展示所需的信息,这些信息可以包括第三方服务器26所提供的数据,或服务器24自身的数据,还可以包括卡片模板等。在一些实施例中,服务器24可以由多个服务器实现,例如,该服务器24可以由语音助手服务器和语音开放服务器实现。在一些实施例中,服务器24也可以由一个服务器实现,这种情况下,则不存在由多个服务器实现时的服务器之间的信息交互步骤。
其中,第三方服务器26可以为通用服务器、或者云服务器等,用于提供语音交互过程所需的资源数据,例如终端20的用户界面中在卡片中展示的数据。
在一些实施例中,终端20包括语音APP或语音服务。语音APP又可以称之为语音助手APP。终端20还可以包括卡片引擎。其中,卡片引擎可以是另外一个APP或另外一个服务,其也可以集成在语音助手APP中作为语音助手APP中的一个功能模块。
在一些实施例中,语音助手APP可包括自动语音识别(ASR)模块,还可包括文本转语音(TTS)模块。语音助手APP通过终端的麦克风收录用户语音,并将该语音提交给ASR模块,由ASR模块将语音识别为文本,然后发送到语音助手服务器。TTS模块可以将语音助手服务器发送来的文本转化为语音,以播放给用户。
在一些实施例中,卡片引擎用于将要展示的数据进行处理通过卡片的形式进行显示,呈现给用户。在一些实施例中,卡片引擎可以将接收的卡片与所述数据进行整合,按照卡片的布局、配置信息(如字体大小、主题颜色模式等)将要展示的数据进行处理/适配,以呈现给用户。卡片引擎的生命周期可以由语音助手APP管理,由语音助手APP拉起和销毁。
在一些实施例中,语音助手服务器可包括自然语言理解(Natural LanguageUnderstanding,NLU)模块和对话管理(Dialog Manager,DM)模块。NLU模块用于将接收的自然语言通过语义分析得到相应的语义。其中,语义可包括技能信息、意图信息、或槽位信息。DM模块具有对人机对话过程中涉及的服务进行编排的能力,以控制着人机对话的过程,或者成为通过管理人机对话过程中的上下文,驱动多轮人机对话。在一种实现方式中,终端20也可以具有NLU模块和DM模块,以进行语义分析和语音对话关联。
在一些实施例中,语音开放服务器可以根据语音指令的语义确定语音指令对应的技能,并可以根据技能确定需要获取资源(或称为数据)的第三方服务器26的接口。语音开放服务器可将语义中的意图信息和槽位信息发送到第三方服务器26,以接收由第三方服务器26反馈的资源,然后通过语音助手服务器提供给终端20。在一些实施例中,如果第三方服务器26反馈的资源/数据在终端上通过卡片形式呈现时,第三方服务器26还可以提供相关的卡片信息,以使语音开放服务器可以据此得知所使用的卡片并提供给终端20,以及用于语音开放服务器生成多轮对话所使用的控制意图。
第三方服务器26是提供服务资源的服务器。第三方服务器26可以是与服务器24为同一厂商的服务器,也可以是不同厂商的服务器,本申请实施例对此不作具体限定。
下面参照图3示出的流程图,对本申请资源显示的方法的第一实施例进行介绍,包括以下步骤:
S10:终端接收用户的第一语音。
在用户对终端的语音APP或语音服务进行唤醒后,终端可以继续对用户的语音进行检测,以识别用户的语音指令,即第一语音,例如图1中的“红烧肉怎么做”。
用户与终端进行语音交互过程的一次会话过程可以包括用户与终端之间的一轮或多轮对话。每次会话可通过对应的会话标识标识。例如,该会话标识可以为sessionId或dialogId等。一般,一次会话过程可与一个技能对应。例如,当用户的语音输入命中点外卖的技能后,电子设备可为本次会话过程分配sessionId 1,后续,用户与电子设备在点外卖这一技能下的对话均属于会话1,其会话标识均为sessionId 1。图1中的“红烧肉怎么做”可以与“查询菜谱”的技能匹配。
S15:终端将所述第一语音对应的数据发送给服务器。
在一些实施例中,第一语音对应的数据可以是第一语音对应的文本。终端可以对用户的语音进行识别,转化为文本。
在一些实施例中,第一语音对应的数据可以是接收到的语音数据,也可以是原语音数据经过降噪处理、或压缩后的语音数据。终端将语音数据发送给服务器进行处理。
S20:服务器识别所述第一语音的语义,根据所述第一语音的语义获得对应的第一资源。
在一些实施例中,服务器可以是根据第一语音的语义从第三方服务器获取所述第一资源。
在一些实施例中,所述语义可包括意图信息、槽位信息、或技能信息。
在本实施例中,对文本对应的语义的识别在服务器执行。在一些实施例中,语义的识别也可以在终端执行,或者语义的识别由终端与服务器联合执行。
当语义的识别在服务器或终端上执行时,服务器或终端上可布设NLU模块,该模块可以由深度神经网络,如循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、基于Transformer的双向编码器(BidirectionalEncoder Representation from Transformers,BERT)等网络实现。当语义的识别由终端与服务器联合执行时,深度神经网络的一部分可布设在终端上,另一部分可布设在服务器上。进一步的,若终端具备完整或部分的语义的识别功能,终端可直接获得第一语音对应的完整或部分的语义(比如意图信息、槽位信息、技能信息中的全部或部分)而无须完全依赖服务器进行识别,降低了服务器和终端之间的通信要求的同时,也保护了终端的使用者的隐私。
本实施例中,所识别的语义中包括技能信息,服务器可以获取自身满足语音指令的数据(第一资源)返回给终端。服务器也可以确定出可提供该资源的第三方服务器,根据技能信息找到调用第三方服务器的接口,通过该接口将语义中的意图信息和槽位信息发送到第三方服务器,从所述第三方服务器来获取满足语音指令的数据,即所述第一资源。例如,当图1中用户语音“红烧肉怎么做”被识别的语义为“获取菜谱:红烧肉”时,由于服务器上并未缓存有该语义对应的第一资源,则确定出可提供该第一资源的第三方服务器,并从该第三方服务器获取到红烧肉烹饪的菜谱。
S25:服务器将所述第一资源发送给所述终端。
在一种实现方式中,服务器在获取到自身或第三方服务器与语音控制指令相关的数据后,可以直接发送给终端,也可以先进行处理,例如整合数据、去除不能显示的内容或对数据进行编排等,然后将处理后的数据发送给终端。
可以理解的是,从第三方服务器获取的数据和服务器发送给终端的数据可能经过服务器的处理,本申请实施例中,针对这些数据都可以认为是第一资源。
S30:终端接收所述第一资源,并且,终端显示第一用户界面,该第一用户界面显示的内容包括第一资源的第一部分。
其中,第一资源包括第一部分,还包括后述的至少一个第二部分。基于显示屏幕大小的限制,终端无法通过用户界面的一个页面全部显示,或者第一资源本身即包括了通过多个页面显示的多个部分时,终端显示第一用户界面,所述第一用户界面包括第一资源中的第一部分。
例如图1示出的红烧肉的烹饪菜谱,包含了六个步骤,采用了六个页面的显示方式,图1中第一用户界面所显示的是该菜谱的第一步的页面,即对应第一资源的第一部分;尚未显示的该菜谱的其他步骤,对应第一资源的多个第二部分。
在一些实施例中,第一资源也可能仅包括第一部分,即终端可以通过第一用户界面的一个页面完整显示出该第一资源。例如在第一资源的数据量很少的情况下。
S35:终端接收用户的第二语音;所述第二语音用于对所述显示的第一资源进行控制。
用户希望查看第一资源相关的更多内容时,可以通过手势操作进行交互,也可以通过语音进行交互。
在本申请实施例的一种实现方式中,终端的第一用户界面上显示了第一资源的第一部分内容之后。用户可以在本次会话的基础上,通过第二语音,查看更多第一资源的内容,或查看与第一资源相关的更多的内容。该第二语音会与当前对话上下文有关,服务器可以根据该第二语音对应的语义和上下文确定相应的控制指令。
可选的,终端还可以在第一用户界面上采用提示的方式显示出用户可以参考说出的文字、语句等,以提高语音交互的准确性。例如图4a-1示出了这样的提示信息“好的,已经找到这些信息,可以继续对我说出查看详情”,表示已经根据用户的第一语音“张三是谁”找到了相关信息,并提示用户可以采用“查看详情”的方式继续对话,又如图4e示出了的提示信息中包括“找到这些商家,你可以试着对我说选择第几个商家……”,表示已经根据用户第一语音“附件有什么好吃的”找到图中所显示的商家,并且提示用户可以采用“选择第几个商家”的方式继续对话,服务器可以准确识别该“选择第几个商家”的语义,进而可以转化为对应的控制指令。
第二语音可以与第一语音对应同一会话过程,如第二语音和第一语音的会话标识相同。
S40:终端将所述第二语音对应的数据发送给服务器。
该步骤可参见步骤S15,不再赘述。
S45:服务器识别出所述第二语音对应的语义。
该步骤可参见步骤S20。不同的是,本实施例中,第二语音是用于对第一用户界面显示的第一资源相关的内容进行显示控制。
可以理解的是,服务器对第二语音进行识别时,由于NLU模块本身对语音识别语义的鲁棒性,可以对相同意图的不同的表达识别出相同的语义,例如对于向左滑的控制指令,用户可能表达为向左滑,还可能表达为向左滚动、前一页、上页,NLU模块是可以识别为相同的语义的。在一些实施例中,为了实现语义识别的泛化,还可以进一步的在将各个语义与控制指令对应时,可以通过配置参数等方式,指明某控制指令可对应的扩展词汇,例如近义词。这样当NLU模型识别为这些扩展词,或者NLU模型输入的是这些扩展词时,也都能对应到所述控制指令上。
S50:服务器确定所述第二语音的语义对应的控制指令。在一些实施例中,服务器可以直接根据所述第二语音的语义确定出控制指令。
在一些实施例中,服务器可以根据所述第二语音的语义、所要通过用户界面所显示内容的形式(例如后面介绍的卡片类型对应的形式),来确定出控制指令。
在一些实施例中,所述控制包括但不限于:触发一跳转链接以查看详情页面(即第二资源);页面内容进行翻页:如向左滑、向右滑、向上滑、向下滑等;移动选择框,如上一个、下一个、上一行、下一行等;选中多个可选对象的某个对象,如选第n个,或等价于第一用户界面上某控件被触发(如按钮控件被点击)。将在后文对此进行详述。
S55:服务器将所述控制指令发送给终端。
S60:终端接收所述控制指令,响应所述控制指令,显示所述第一资源的第二部分,或者显示与所述第一资源相关的第二资源。
在一种实现方式中,终端响应所述第二语音对应的控制指令,可以在第一用户界面显示第一资源的第二部分,也可以在另一个用户界面显示第一资源的第二部分。第一资源的第二部分可以包括第一资源第一部分之外的一部分或全部,第一资源的第二部分也可以包括第一部分以及第一部分外的其他内容,本申请实施例对比不做具体限定。
在一种实现方式中,终端响应所述第二语音对应的控制指令,可以在第一用户界面显示与所述第一资源相关的第二资源,也可以在另一个用户界面显示第二资源。第二资源可能是另外获取的资源,例如第一资源中可以携带第二资源的跳转链接,终端可以通过触发第二资源的跳转链接获取第二资源,或者跳转到第二资源的跳转链接对应的显示界面。例如,第二语音对应的控制指令是查看详情,终端可以根据详情页面的跳转链接跳转到显示详情的页面,该页面可以是H5页面,App页面,或者快应用页面等。
可选的,在步骤S60之后,终端还可以检测用户的后续的语音,以继续与用户进行交互。后续检测到的语音可以是同一会话的语音,对第一卡片进行其他的显示控制,如图1中的“红烧肉怎么做”中,用户可以输入语音“再下一步”或“查看详细内容”等进行其他显示控制。终端后续检测到的语音,也可以是其他会话的语音,不再接续之前的会话,查询其他信息,例如“我想买Mate40”,终端再显示其他内容。可选的,后续会话过程中,终端显示的资源的显示的方式可以与之前的方式不同,能执行的控制指令也可以与之前不同。
在一些实施例中,针对上述步骤S30,终端通过第一用户界面所显示的资源的第一部分,也可以通过其他方式从第三方服务器获得,而非上述步骤S10-S20,这种情况下则不需要包括步骤S10-S20。例如,下面列举了两种可能的方式:
第一种方式:在一些实施例中,第一资源是响应终端的非语音的输入后提供给终端的。例如,可以是用户手动进入终端的第一用户界面,点击第一用户界面所显示的某图标(如菜谱图标),或在终端提供的搜索框手动输入某词(如“红烧肉”),终端将相应信息发送到服务器,服务器获得相应的请求后,从第三方服务器获得相应的请求结果(即第一资源)后提供给终端。
第二种方式:在一些实施例中,当用户使用了订阅功能的情况下,第一资源可以是第三方服务器主动通过服务器推送到终端的。例如用户订阅了某菜谱,当第三方服务器提供了新的“红烧肉”菜谱(即第一资源)后,则通过服务器推送到终端,当用户进入第一用户界面时,则可以显示该推送的菜谱(即第一资源)。
在一些实施例中,终端在显示第一资源的第一部分或第二部分时,或者在显示与第一资源相关的第二资源时,所述第一用户界面可以采用卡片的形式进行显示。由于需要展示的内容不同,卡片也会有多种不同的形式。不同的内容布局适用不同的卡片形式,或称为卡片模板。因此,通过采用的卡片模板终端/服务器也可以确定卡片所展示的内容的布局。
为了更准确有效地识别用户的意图,终端/服务器可以通过获取的第一资源以及卡片模板来生成针对该第一资源进行显示的控制指令的候选集合,该控制指令的候选集合可以用于匹配出第二语音的语义对应的控制指令。例如如图1所示,第一资源为红烧肉菜谱,第一用户界面只显示了“红烧肉”做法的第一步。当前的卡片属于图文型卡片,且包含多页内容,终端/服务器可以生成针对该红烧肉菜谱卡片的控制指令的候选集合包括:“下一页”/“下一步”/“翻页”等切换到第二部分进行显示的控制指令、“查看详情”等切换到详情页面进行显示的控制指令等。可选的,如果第一资源只有一个页面,卡片模板为图文型卡片,有可能终端/服务器生成的控制指令的候选集合就没有“下一页”/“下一步”/“翻页”等切换到第二部分进行显示的控制指令。
在一些实施例中,按照卡片所展示的内容的呈现形式,卡片可以分为纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片等。其中,卡片中还可以有控件,如按钮控件,该控件会对应一指令,例如,按钮控件为一电话呼出按钮时,该电话呼出按钮控件对应呼叫操作(例如调用电话APP并呼出相应的号码)的指令,又如,按钮控件为一用于翻页的控件(如控件上写着下一页)时,该翻页按钮控件对应显示下一页内容的指令。
可以理解的是,上述卡片的分类只是示例,卡片还可以有不同的分类方式,也可以有不同的命名等,本申请实施例对此不作具体限定。以下先以上述列出的四种卡片类型来进行举例说明。
1)纯文本型卡片:指卡片中的展示的内容是文本的卡片,或者,卡片中的展示的内容以文本为主的卡片,例如图4d所示的示例。
可选的,纯文本型卡片上可以有按钮控件,用户可以通过语音或触控的方式触发按钮控件的功能。对此,同样适用于其他类型的卡片,后文描述其他类型卡片时,将不再赘述。
该类型的卡片,如果当前显示的内容是第一资源(服务器返回的用于显示的数据)的部分信息时,用户可以通过触控卡片,来对显示的内容进行翻页、移动、查看第一资源的详情等,来进行显示控制。其中,查看第一资源内容的详情时,终端可以切换到显示第一资源的详细信息的内容的页面,也可以是终端通过详情页面的跳转链接,跳转到与该跳转链接对应的与详情相关的第二页面并显示详情内容(第二资源)。
相应的,语音控制指令的候选集合可包括实现翻页、移动、查看详情需求对应的指令,从而用户也可以通过语音指令实现上述对显示的内容进行翻页、移动、查看详情等需求。可选的,针对该类型的卡片,在获取到需要进行显示的数据(第一资源)时,可以根据卡片模板和需要显示的数据预先生成语音控制指令的候选集合。例如语音控制指令的候选集合可以包括查看详情(CHECK_DETAIL)对应的指令。当需要多页来显示数据时,该语音控制指令的候选集合还可以包括:“上一页”、“上一步”等往上/往前翻页(Previous)的指令,“下一页”、“下一步”等往下/往后翻页(Next)的指令;可选的,该语音控制指令的候选集合还可以包括“往上(Up)”、“往下(Down)”、“往左(Left)”或“往右(Right)”等移动相关的指令(等价于手指在屏幕移动,使卡片显示的页面的整体移动的指令);等。若卡片还包括控件,该语音控制指令的候选集合还可以包括与控件功能对应的语音指令。对此,同样适用于其他类型的卡片,后文描述其他类型卡片时,将不再赘述。
可选的,语音控制指令的候选集合可以是基于卡片模板和需要显示的数据生成的。语音控制指令的候选集合也可以是基于卡片模板生成。对此,同样适用于其他类型的卡片,后文描述其他类型卡片时,将不再赘述。
语音控制指令的候选集合中的控制指令都预先关联了终端能响应的与卡片显示关联的控制。因此,当接收到用户的语音指令后,终端/服务器可以将语音指令(如语音指令的意图)与语音控制指令的候选集合中的控制指令进行匹配,若匹配成功,则执行对应指令的功能,以实现翻页、移动、查看详情、触发控件操作等控制。对此,同样适用于其他类型的卡片,后文描述其他类型卡片时,将不再赘述。
进一步的,以图4d所示的纯文本型卡片的例子进一步进行说明:图4d所示卡片存在三个按钮功能,对应呼叫、更换国家、出行指南三个按钮,采用本申请实施例的技术方案会将该三个按钮功能中展示的文字,即控件名称(图4d中即对应按钮名称),作为可响应语音指令的文本。当语音指令匹配(或称被语音指令命中)控件名称(即对应按钮名称)时,会生成该按钮对应的控制指令。例如,识别用户语音中的语音指令的语义为“呼叫”,命中控件名称为“呼叫”的所述按钮,将该按钮对应的控制指令发送到终端以执行,假设该“呼叫”按钮对应的指令是呼出号码“0123-987654321”,则终端执行该指令。由此,通过用户语音即可实现触发该“呼叫”按钮对应的指令,并且,由于语义识别的鲁棒性,在用户说出“呼叫”、“呼出”、“电话”、“拨号”,都可以识别为语义为“呼叫”(即都可以识别语音指令为呼叫)时,都可以执行该“呼叫”按钮对应的指令。
2)图文型卡片:指一个卡片中展示的内容是图片和文字,或者,卡片中展示的内容只有图片没有文字的卡片,例如图4a-1和图4a-2。图片与文字的排布可以是上下排布、左右排布、包围排布、嵌入排布等等。
可选的,该图文型卡片上可以有按钮控件,用户可以通过语音或触控的方式触发按钮控件的功能。
该类型的卡片,语音控制指令的候选集合与纯文本型卡片类似,语音控制指令的候选集合可包括实现翻页、移动、查看详情需求对应的指令。具体可参见纯文本型卡片的语音控制指令的候选集合的介绍,不再赘述。
例如,当图文型卡片所对应的第三方提供的数据包含隐藏的对应详情页的跳转链接时,所生成的该语音控制指令的候选集合可包括“查看详情(CHECK_DETAIL)”的控制指令,当识别用户的语音指令的语义为“查看详情”时,命中该“查看详情”的对应控制指令,然后执行该控制指令,例如根据对应的跳转链接,跳转到对应的跳转链接对应的页面,或拉起某应用显示对应的跳转链接的页面。例如图4a-1示出的即采用了图文型卡片的一个例子,卡片此时呈现的是张三的简要信息,此卡片所展示的数据中包括跳转链接,图4a-1中“张三(Sam Zhang)”以下划线表示该数据包含跳转链接(也可以无这类显示),该跳转链接链接到用于展示张三的详细信息的地址,基于此生成查看详情对应的控制指令。当用户语音为“查看详情”、“详细信息”等类似语音,并被识别为语义为查看详情时,命中该“查看详情”的控制指令,假设该控制指令是访问所述跳转链接的指令,则将该指令发送到终端并被终端执行时,所呈现效果为终端的卡片响应用户语音指令,卡片展示的内容从张三的简要信息切换到所述跳转链接的地址所展示的张三的详细信息,可以是直接显示地址的对应的网页信息,或启动另一应用,如百度百科来提供对应的详情页面等。如图4a-2示出了仍通过卡片形式显示张三的详细信息的例子。
又如,图1示出的具有红绕肉的菜谱的烹饪步骤,也采用了图文型卡片来显示,其需要对应6个烹饪步骤的6个页面数据,即需要多页来显示数据,所生成的语音控制指令的候选集合中可包括翻页的语音控制指令,如“上一页”、“上一步”等往上/往前翻页(Previous)的指令,“下一页”、“下一步”等往下/往后翻页(Next)的指令。
3)宫格型卡片:是指以多个方格或类方格形式来展示的内容的卡片。宫格型卡片中显示的内容通常是多于一行和一列的卡片,宫格型卡片里显示的内容可以是包括图片和文字的卡片,或者,卡片中的展示的内容也可以只有图片或文字。宫格的布局通常为多行多列排列,例如,宫格型卡片如2行2列即是四个图文或者图片组成的卡片,3行3列即是9个图文或者图片组成的卡片,也可以是2行3列或者3列2行,或者超过3行或3列的图文或者图片组成的卡片。宫格型卡片的例子可参见图4b或图4f-1所示的示例。
该类型的卡片,语音控制指令的候选集合可包括实现翻页、移动对应的指令,并且,由于存在多个宫格对象时,语音控制指令的候选集合还可以包括:“选择第n个(SelectItemID:n)”的表示选择的相关指令,该指令用于表示选择多个对象中的一个,并进入所选择对象的详情页面,以及还可包括选择框移动的相关指令。
例如,图4b或图4f-1示出的宫格型卡片,每个宫格对象上可以具有用于选择的编号,生成的语音控制指令的候选集合中可包括:选择某编号的相关指令,使用该语音控制指令可以选中其中的一个宫格对象,并执行相应控制,如进入所选择的宫格对象的详情页,如图4f-2所示。其中,所述编号为服务器根据各个宫格对象的位置依次生成。对此,同样适用于列表型卡片,后文将不再赘述。
采用该类型卡片时,生成的语音控制指令的候选集合中还可包括用于执行选择框的移动(Move)的语音控制指令,如选择框的往上(SelectBox up)、往下(SelectBox down)、往左(SelectBox let)、往右(SelectBox right),下一个(SelectBox Next),上一个(SelectBox Previous)等,例如针对图4b示出的横向布局的宫格型卡片,假设当前选择框位于电影二的海报上(以粗体框线示意选择框),通过对应的语音控制指令可以将选择框移动相邻的电影海报上。对此,同样适用于列表型卡片,后文将不再赘述。宫格型卡片和列表型卡片可能的一个区别是,宫格型卡片的移动相关的指令通常不仅可以包括上下方向移动,还可以包括左右方向移动,而列表型卡片通常是上下移动或者左右移动,通常不会同时支持上下方向和左右方向移动。
采用该卡片时,当生成语音控制指令的候选集合时,在生成翻页的控制指令时也可结合布局方向,生成向左/向右翻页、或者向上/向下翻页的控制指令。例如针对图4b示出的宫格型卡片横向布局时(即仅有两行),可生成向左/向右滑翻页的控制指令。
4)列表型卡片:指卡片中的展示的内容以列表的形式呈现,可以是多列(大于等于2)的横向布局型,或者多行(大于等于2)的纵向布局型。列表型卡片显示的内容可以是图片和文字,或者只有图片,或者只有文字组成的卡片,例如图4c和图4e所示的示例。
该类型的卡片,语音控制指令的候选集合与宫格型卡片类似,语音控制指令的候选集合可包括实现翻页、移动、用于表示选择多个对象中的一个并进入所选择对象的详情页面、选择框移动的相关指令。具体可参见宫格型卡片的语音控制指令的候选集合的介绍,不再赘述。
图4c和图4e示出的列表型卡片,生成了用于选择列表项的编号,对应的,语音控制指令的候选集合还可以包括:“选择第n个(Select ItemID:n)”的相关指令。这样会方便用户通过说出编号的方式来进行操作,简化了用户的使用繁琐度。例如,服务器识别用户语音的语义为“选择第4个”时,因此能够对应到相应的第四个选项被选中的控制指令,采用该方式借助于编号触发,从用户语音输入角度来看会更便捷,从识别准确率角度来看会更简化和准确。
可选的,不同的实例中对卡片类型的划分可以不同。例如,在一种可实现方式中,包括单行横向排列的多个方格或单列纵向排列的多个方格的卡片,例如当图4b示出的卡片中,但当其多个方格仅为一行或一列时,可以属于宫格型卡片。可选的,在另一种可实现方式中,单行横向排列的多个方格或单列纵向排列的多个方格的卡片也可以属于列表型卡片,而不属于宫格型卡片。
终端/服务器是否支持不同的卡片类型,以及是否针对不同的卡片类型有不同的语音控制指令的候选集合,可以通过是否能响应用户的不同的语音请求来确认。
可以理解的是,上述语音指令与语音控制指令集合中预生成的控制指令进行匹配可以是精确匹配,也可以是模糊匹配来实现,本申请实施例对此不作具体限定。例如在模糊匹配模式下,当识别到的语音对应的文本为“下一”时,即可匹配到“下一个”。另一方面,基于神经网络的鲁棒性,也可以预先学习到对应相同语音指令的不同表述方式。进一步的,也可以根据所要展示的数据的内容/领域等,进一步扩展表述相同控制指令的不同表达方式,这种不同的表达方式,可以由提供所要展示数据的第三方服务器提供,指明扩展词和所对应的控制指令。例如服务器生成的表述下一页的控制指令,语义识别时,会将“下一步、下一页”等都识别为对应下一页的翻页控制指令,当提供某锻造工艺的相关数据的第三方服务器提供包括了类似“下一页翻页扩展:下一工序”的扩展说明(如文本方式提供),则,语义识别时,会将“下一工序”识别为下一页的翻页控制指令。
在一些实施例中,卡片模板可以有粗粒度和细粒度的划分。卡片模板可存储在终端中,并且,可以定期或不定期的从服务器获得卡片模板的更新,其中,该更新的方式可以是通过终端向服务器请求更新,或服务器主动推送更新。在一些实施例中,当卡片模板存储在终端中时,当显示上述第一资源时,可以由服务器发送给终端显示该第一资源所使用的模板标识(可以先由服务器从第三方服务器获取该模板标识),由终端根据该模板标识读取存储的卡片模板,以用于显示所述第一资源的第一部分或第二部分,在一些实施例中,当卡片模板存储在终端中时,也可以是用户从多个卡片模板中选择其所喜欢的卡片模板来进行第一资源的第一部分或第二部分的显示。
在一些实施例中,卡片模板存储在服务器中,服务器会将显示第一资源所需的卡片模板提供给终端。所使用的卡片模板的标识可以是从提供第一资源的第三方服务器获得。例如,在服务器从第三方服务器获取第一资源时,同时会获得一卡片模板标识,服务器根据该卡片模板标识确定出具体的卡片模板,连同第一资源提供给终端,终端使用该卡片模板显示第一资源的第一部分或第二部分。
在一些实施例中,服务器可以提供给终端卡片模板的资源访问路径,终端可根据资源访问路径来获得卡片模板。在一些实施例中,提供给终端的可以是各类卡片模块的资源访问路径,从而终端可以下载或更新所存储的各类卡片模块。在一些实施例中,可以是在提供给终端第一资源时,提供给终端的对应第一资源的卡片模块的资源访问路径,从而终端可以下载或更新该卡片模块。
服务器可以根据所述终端的用户界面展示数据时使用的卡片形式(或卡片模板),来生成控制指令的候选集合。服务器将识别的用户语音信息与候选集合中的指令进行匹配,进而在匹配到候选集合中的控制指令后,执行对应的控制指令。在一些实施例中,在生成卡片控制意图对应的语音控制指令的候选集合时,可以进一步将所示卡片形式(或卡片模板)和所要展示的数据(资源)结合,来生成卡片控制意图的语音控制指令的候选集合。
在另一些实施例中,如图5所示,服务器还可提供网页页面形式的开发界面,用于使得第三方开发者可通过该开发界面选择所要使用的卡片类型,其中可以采用卡片模板(如图3左侧示出的模板类型)的方式来确定卡片类型,并且可以通过开发界面对所选用模板的进行基本配置,如图5上侧和右侧示出的字体大小、是否显示标题、图片比例、图片样式、或主题模式等配置,这些配置信息可对应不同的第三方服务器进行存储,以在使用时能够根据第三方的标识获取到对应的配置信息,以用于终端在进行卡片展示时会对应该配置进行展示。并且图3示出的开发界面还示出了所选模板的样例(如图3中间宫格型卡片的样例),该样例可随所述配置进行相应的字体、比例等变化。第三方服务器的开发人员(指展示所需数据的提供商)可以基于服务器,例如语音开放服务器的开发页面选择对应的卡片模板,第三方服务器的开发人员只需要输入业务数据内容,无需第三方服务器的开发人员输入与业务数据相关的编程内容(数据格式、控制意图),从而降低了第三方用户在开发时的开发难度,可以不需要第三方用户预设支持的控制指令。
为了对上述实施例进一步的进行理解,下面参照图6示出的流程图,对本申请用于资源显示的方法的第一具体实施方式进行介绍。上述实施例中描述的内容均适用于图6所示实施例,此处不再赘述。该具体实施方式中,服务器包括语音助手服务器和语音开放服务器,终端包括有语音助手APP和卡片引擎,且该具体实施方式的应用环境为用户通过语音助手APP发起卡片服务的情景,包括以下步骤:
S100:终端接收用户的第一语音。
在一种可选的实现方式中,终端的语音助手App在被启动或被唤醒后,可以开启与用户的语音交互,接收用户的语音指令。例如,用户通过“小艺小艺”等语音唤醒词唤醒语音助手App。终端中的语音助手APP可以调用终端麦克风接收到用户语音,或终端通过麦克风接收用户语音并提供给语音助手APP。本具体实施方式中,例如,终端接收的用户的第一语音为“我想买Mate40”,这里Mate40是手机的型号。
S105:终端将接收到的第一语音(“我想买Mate40”)发送给语音助手服务器。终端可以将第一语音发送给服务器。终端发送的可以是第一语音,或者第一语音经过处理后的文本等,本申请实施例对此不作限定。
S110:语音助手服务器在接收到第一语音后,对第一语音进行处理。语音助手服务器可以通过DM模块和NLU模块,对第一语音(“我想买Mate40”)做语义分析,得到语义分析的结果,该结果包括技能、意图和槽位,如“技能:华为导购,意图:买设备,槽位1-型号:Mate40,槽位2-设备类型:手机)。语音助手服务器可以将语义分析的结果(技能、意图和槽位的相关数据)发送到语音开放服务器。
S115:语音开放服务器可以根据技能,如技能名称或技能ID,确认提供该技能对应的服务的第三方服务器,并将该语义分析的结果(“技能:华为导购,意图:买设备,槽位1-型号:Mate40,槽位2-设备类型:手机)(意图和槽位的相关数据,或技能、意图和槽位的相关数据)通过预设的接口发给第三方服务器。
S120:第三方服务器可以根据意图和槽位信息获取对应的数据,或,根据技能、意图和槽位信息获取对应的数据,并将所述数据(第一资源)返回给语音开放服务器。
可选的,第三方服务器返回给语音开放服务器的信息还可以包括卡片模板ID(即选择哪类卡片类型来显示需要展示的数据)。
S125:语音开放服务器可以根据返回的需要显示的数据来确定卡片模板。
在一种实现方式中,语音开发服务器可以根据需要显示的数据来自动判断选择什么类型的卡片模板。
在另一种实现方式中,语音开放服务器可以预先记录该第三方服务器返回的需要显示的数据的卡片类型。
例如,第三方服务器对应的开发者可以在将第三方服务器的资源接入语音开发服务器时,选择卡片模板进行关联。后续该第三方服务器返回的数据都可以基于该卡片模板进行显示。如果选择多个时,可以根据数据的内容从多个关联的卡片模板中选择一个。选择模板的示例可如图5所示的宫格型卡片模板,但本申请实施例不做具体限定。
在另一种实现方式中,第三方服务器返回的信息中不仅包括与第一语音指令关联的数据(第一资源),还可以包括卡片模板。语音开放服务器可以根据第三方服务器返回信息中的卡片模板名称或卡片模板ID等来确定卡片模板。
可选的,语音开发服务器可以保存有卡片模板的详细信息,语音开发服务器也可以从根据卡片模板ID从卡片引擎获取对应的卡片模板的数据。卡片引擎可以是语音开发服务器的模板,也可以是其他服务器的模板或其他设备。
S130:语音开放服务器根据卡片模板和第三方服务器返回的卡片展示需要的数据生成语音控制指令的候选集合。
语音开放服务器根据卡片模板和第三方服务器返回的卡片展示需要的数据生成语音控制指令的候选集合。同一卡片模板,但不同的显示数据,可能对应的语音控制指令的候选集合不同。例如显示的数据不需要多页显示时,语音控制指令的候选集合就没有翻页、移动等候选控制指令。
可选的,语音开放服务器也可以根据卡片模板生成语音控制指令的候选集合。卡片模板相同,不同的显示数据对应的语音控制指令的候选集合相同。例如,语音控制指令的候选集合可以为基于该类卡片模板的可能的显示控制的指令全集。
具体语音控制指令的候选集合,可以参考上述卡片类型介绍部分的描述,此处不再赘述。卡片的类型可以多样,上述示例作为参考,但不构成限制。
在上述“我想买Mate40”的实例中,假设所返回的数据包括了4种Mate型号的手机,显示这4种型号手机的页面采用了宫格型模板,基于宫格型卡片,以及该卡片可显示上述4种Mate手机的页面(例如在后续步骤中生成的如图4f-1示出的页面),所生成的语音控制指令的候选集合包括:“选择第n个(Select ItemID:n)”、表示选择框移动的下一个(SelectBox Next),上一个(SelectBox Previous)。在选择框移动到目标位置后,可以直接进入目标页面,或者等待接收到用户的表示“进入”等类似的语音指令后再进入目标页面。
S135:语音开放服务器将卡片模板的数据、卡片展示需要的数据、语音控制指令的候选集合返回给语音助手服务器。
S140:语音助手服务器存储所述语音控制指令的候选集合,用于响应后续语音指令。
S145:语音助手服务器将卡片模板的数据和需要显示的数据下发给终端。
语音助手服务器可以将卡片模板发送给终端,也可以在终端保存有卡片模板时,将卡片模板标识(如卡片模板ID、或卡片模板名称)发送给终端。
可选的,在将需要显示的数据(第一资源)发送给终端前,语音助手服务器或语音开放服务器可以对需要显示的数据进行处理,例如对显示的内容进行识别、提取、排版等。本申请实施例中将从第三方获取的需要显示的数据和发送给终端进行显示的数据均认为是需要显示的数据或第一资源。
S150:终端的语音助手APP基于卡片模板对接收的数据进行显示。
例如,终端的语音助手App可以拉起卡片引擎,将卡片模板的数据和卡片展示需要的数据传给卡片引擎,由卡片引擎完成卡片的渲染并进行展示,即对第一资源的第一部分进行展示。
当语音助手服务器发送了卡片模板时,则终端可以使用该模板。当语音助手发送的是卡片标识时,且终端上存储有各类卡片模板时,可以根据收到的模板标识确定出所使用的卡片模板。当语音助手服务器发送的是卡片模板的资源访问路径时,则终端可以访问该资源访问路径获得对应的卡片模块。
在上述“我想买Mate40”的实例中,根据卡片模板标识获得的宫格型模板,以及相应的要展示的数据,生成了如图4f-1示出的宫格型卡片页面,包括了4种Mate型号手机的图和位于图下方的型号,以及对应的编号1-4。
S200:终端接收用户的第二语音。
基于上述语音对话交互,终端可以继续检测用户的语音,实现多轮对话。具体的,终端的语音助手App显示第一资源的第一部分内容后,终端还可以继续接收用户的语音指令,接续之前的对话。其中,在如图4f-1所示,并显示了用户可以使用的语音指令“选第几个、上/下一个”,以便于用户所说的语音尽量贴近可识别的语音指令,便于精准的识别用户的意图。第二语音与第一语音属于同一会话过程,如第二语音的会话标识与上述第一语音的会话标识相同。
本实施例中,终端中的语音助手APP可以接收用户的语音,如“上一个、下一个、第n个”等语音,可以对上一轮对话显示内容,如选择框的移动等,以进行进一步显示控制。
在上述“我想买Mate40”的实例中,可以接收用户的“选择第4个”的语音指令。在一些实施例中,表示相同意图的用于语音也可以是“第4个”、“选第4”等等。
S205:终端将接收到语音由ASR模块识别为文本,然后发送到语音助手服务器。
例如,自动语音识别模块将语音转换成文本为“选择第4个”。对应步骤S200中的例子,当语音为“第4个”、“选第4”时,转换成文本为则“第4个”、“选第4”。
终端可以将第二语音或第二语音对应的文本等发送给服务器进行语音识别。可选的,终端具有语音识别功能时,也可以终端本地对语音进行识别,而不需要通过服务器处理。
S210:语音助手服务器识别第二语音对应的语义,并将第二语音对应的语义与语音控制指令的候选集合进行匹配,匹配出对应的控制指令。
其中,对于“选择第4个”、“第4个”、“选第4”语音助手服务器会识别为相同的语义,假设本例中所识别的语义为“选择第4个”。
然后,语音助手服务器识别出“选择第4个”与语音控制指令的候选集合中所匹配的匹配控制指令,如所匹配的完整的控制指令为“CardAction:Select ItemID:4th”。
再例如,假设步骤S200中,接收用户语音为“下一个”时,则本步骤中语音助手服务器识别出“下一个”与语音控制指令的候选集合中的“移动选择框到下一个”的意图相匹配,进而确定出该卡片控制意图对应的控制指令,如为“CardAction:GeneralAction:MoveNext”。
S215:语音助手服务器向终端的语音助手APP发送所确定出的控制指令。
语音助手在匹配出第二语音对应的控制指令后,发送给终端,以使终端对卡片进行相应的显示控制。
S220-S225:终端的语音助手APP将所述控制指令发送给卡片引擎,通过卡片引擎使卡片响应该控制指令。
卡片引擎可以是语音助手App的一部分模块/功能,也可以是独立于语音助手App模块/功能。卡片引擎用于对卡片显示进行处理和控制,也可以是其他名称,本申请实施例对此不作限定。
假设控制指令是对应步骤S210中用户语音“下一个”的控制指令:“CardAction:GeneralAction:Move Next”,本步骤中,卡片引擎将图4f-1中的选择框下移到第二个宫格对象(即Mate40 pro对应的图片上),此时本轮对话结束。
假设控制指令是对应步骤S210中用户语音“选第4个”的控制指令“CardAction:Select ItemID:4th”,则本步骤中,卡片引擎响应该指令的具体方式为:根据与语音助手APP约定的消息格式,向语音助手APP反馈包括第四项的信息的消息,如该消息格式可以为{"message2vassistant":"Mate40保时捷设计版"},并继续S230-S235(以虚线表示)。
S230-S235:语音助手APP可根据预设的处理方式对收到的消息进行处理,举例说明:
语音助手APP收到所述消息后,发送到语音助手服务器,语音助手服务器收到后,继续进行下一轮的对话处理。
例如,下一轮对话中,从第三方服务器获得Mate40保时捷设计版的详情页面数据及所使用的模板,并发送到终端显示(具体原理可参见步骤S110-S150,不再赘述),例如图4f-2示出了下一轮对话中,终端所显示的Mate40保时捷设计版的详细介绍,即详情页面,采用了图文型模板。并且,在下一轮对话中,图4f-2卡片页面对应的所生成的语音控制指令的候选集合包括:表示翻页指令的“上一页”、“下一页”、查看详情指令的“显示全部详情信息”。
其中,上述实施例中,上述步骤S200开始是进行的人机首轮对话之后的第二次对话,本领域技术人员不难理解,步骤S200开始可以是进行的人机首轮对话之后的任一次对话的过程。
在一种可选的实现方式中,终端还可以接续第二语音,对图4f-2中所示的卡片进行其他显示控制。例如“下一页”或“显示全部详情信息”等语音指令。其中,“显示全部详情信息”可以跳转到第三方的页面进行显示,该第三方页面可以是H5页面,也可以是应用或快应用页面。
在一种可选的实现方式中,终端还可以与用户进行其他多轮对话,实现其他会话过程。基于接收到的用户的语音,终端可以以不同类型的卡片(例如上述描述的文本型、图片型、宫格型、列表型等卡片)显示不同的资源。不同类型的卡片可以有相同的语音控制指令的候选集合,例如语音控制指令的候选集合包括移动、翻页、查看详情等一个或多个。不同类型的卡片也可以有不同的语音控制指令的候选集合,或者,针对同一类型的卡片,需要显示的数据(资源)不同,不同卡片也可以有不同的语音控制指令的候选集合,例如同一类型的卡片,单页显示和多页显示的语音控制指令的候选集合不同。可选的,终端或服务器是否支持有不同的语音控制指令的候选集合,可以通过测试终端或服务器是否能响应用户的特定的指令来验证。
多轮对话是否属于同一次对话,可以通过会话标识来区分。
基于上述实施例,本申请还提供了一种资源显示的方法的另一实施例,应用于终端。上述实施例中相关的内容均适用于本实施例,此处不再赘述。参见图7a示出的流程图,包括以下步骤:
S310:接收用户的第一语音。
S320:将所述第一语音对应的数据发送给服务器。
S330:接收所述服务器发送的与所述第一语音对应的第一资源。
S340:显示第一用户界面,所述第一用户界面显示的内容包括所述第一资源的第一部分内容。
S350:接收所述用户的第二语音;所述第二语音用于对显示的所述第一资源进行控制。
S360:响应所述第二语音对应的控制指令,显示所述第一资源的第二部分内容,或者,响应所述第二语音对应的控制指令,显示与所述第一资源相关的第二资源。
其中,上述步骤S310和步骤S320的一种可实现的方式,可参见上述步骤S10-S15所描述的内容。上述步骤S330-S350的一种可实现的方式,可参见上述步骤S30-S35所描述的内容。上述步骤S360的一种可实现的方式可参见上述步骤S60所描述的内容。
在一些实施例中,所述第一用户界面显示的内容包括第一资源的第一部分,具体包括:在所述第一用户界面,以卡片形式显示所述第一资源的第一部分。例如图1、图4a-1、图4b到图4f-1均为以卡片形式显示所述第一资源的第一部分的实施例。
在一些实施例中,所述卡片包括多个类型,所述终端呈现的第一卡片的卡片类型与所述第一资源需要显示的内容相关。例如纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片等。
在一些实施例中,所述第一卡片对应第一语音指令控制的候选集合,所述第一语音指令控制的候选集合包括一个或多个对所述第一卡片的内容进行显示控制的指令,所述第一语音指令控制的候选集合与所述第一卡片的卡片类型相关;相应的,响应所述第二语音对应的控制指令,显示所述第一资源的第二部分内容,或者,响应所述第二语音对应的控制指令,显示与所述第一资源相关的第二资源,具体包括:若所述第二语音对应的指令与所述第一语音指令控制的候选集合的第一指令匹配时,对所述第一卡片执行与所述第一指令关联的第一显示控制以显示所述第一资源的第二部分内容,或者显示与所述第一资源相关的第二资源。其中,生成第一语音指令控制的候选集合的一种可实现的方式可参见上述步骤S130所描述的内容。另外,图1所描述的实施例为显示所述第一资源的第二部分内容,图4a-1和图4a-2所描述的实施例为显示与所述第一资源相关的第二资源。
在一些实施例中,所述方法还包括:接收所述用户的第三语音;若所述第三语音对应的指令与所述第一语音指令控制的候选集合的第二指令匹配时,对所述第一卡片执行与所述第二指令关联的第二显示控制,所述第二显示控制不同于所述第一显示控制。例如图4b或图4c示出对应的例子中,第二语音可以是控制选择框移动的语音指令(如语音为:选择下一个或选择左边的/右边的等等),第一显示控制是控制选择框的移动;第三语音可以是卡片显示内容整体移动(对应手指触摸滑动)的语音指令(如语音为:向右滑、向下滑等等),第二显示控制是控制卡片显示内容的移动,例如将所显示内容向左或向上方向移动,以将部分内容移出卡片,而将另一部分(对应第二资源的部分内容)移入卡片显示。
在一些实施例中,不同的卡片类型对应的语音指令控制的候选集合不同;所述方法还包括:接收用户的第四语音;以第二卡片显示所述第四语音对应的第三资源,所述第二卡片的类型不同于所述第一卡片的类型;所述第二卡片对应第二语音指令控制的候选集合,所述第二语音指令控制的候选集合包括一个或多个对所述第二卡片的内容进行显示控制的指令,所述第二语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。例如,以图4f-1和图4f-2构成的实施例对此进行说明,图4f-1为以宫格型卡片(相当于第一卡片的类型)显示获得的第一资源(即获得各Mate手机型号和图),图4f-2为采用图文型卡片(相当于第二卡片的类型)显示获得的第三资源(即获得的Mate保时捷设计版的介绍信息),服务器会根据宫格型卡片和获得的第一资源生成对应的指令控制的候选集合(对应第一语音指令控制的候选集合),会根据图文型卡片和获得的第二资源生成对应的指令控制的候选集合(对应第二语音指令控制的候选集合)。
在一些实施例中,所述第一语音指令控制的候选集合由服务器基于所述第一卡片的卡片类型和所述第一资源生成。例如前文参考图1所描述的终端/服务器可以通过获取的第一资源以及卡片模板来生成针对该第一资源进行显示的控制指令的候选集合的例子。
在一些实施例中,接收所述用户的第二语音之后,所述方法还包括:向服务器发送所述第二语音的数据;接收服务器确认的所述第二语音对应的指令与所述第一语音指令控制的候选集合的所述第一指令匹配的结果,对所述第一卡片执行与所述第一指令关联的第一显示控制。其中,一种可实现的方式可参见上述步骤S40、步骤S60所描述的内容。
在一些实施例中,所述方法还包括:接收用户的第五语音;以第三卡片显示所述第五语音对应的第四资源,所述第三卡片的类型与所述第一卡片的类型相同,所述第四资源不同于所述第一资源;所述第三卡片对应第三语音指令控制的候选集合,所述第三语音指令控制的候选集合包括一个或多个对所述第三卡片的内容进行显示控制的指令,所述第三语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。例如,以图4a-1和图4a-2构成的实施例对此进行说明,图4a-1为以图文型卡片显示获得的第一资源(即对张三的简介),图4a-2为也采用图文型卡片显示获得的第四资源(即通过触发跳转链接获得的张三的详情信息),服务器会根据图文型卡片和获得的第一资源生成对应的指令控制的候选集合(对应第一语音指令控制的候选集合,例如包括查看详情的指令),会根据图文型卡片和获得的第四资源生成对应的指令控制的候选集合(对应第三语音指令控制的候选集合,例如包括使卡片所显示内容整体向上/下移动的指令,以显示出当前卡片尚未显示出来的部分)。
在一些实施例中,所述卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。例如图4d为纯文本型卡片,图1、图4a-1、图4a-2、图4f-2为图文型卡片,图4b、图4f-1为宫格型卡片,图4c、图4e为列表型卡片。
在一些实施例中,对于纯文本型卡片或图文型卡片,所述第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。其一种实现方式,可参见对纯文本型卡片、图文型卡片的介绍。
在一些实施例中,对于宫格型卡片或列表型卡片,所述控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。其一种实现方式,可参见对宫格型卡片或列表型卡片的介绍。
在一些实施例中,所述第一卡片还显示有按钮时,所述第一控制指令的候选集合还包括:对所述按钮的控制指令,所述控制指令用于触发所述控件。其一种实现方式,可参见纯文本型卡片中对按钮的介绍。
在一些实施例中,所述第一资源是从第三方服务器获取的资源,所述卡片类型由第一资源对应的第三方选择。其一种实现方式,可参见在针对步骤S30终端通过第一用户界面所显示的资源的第一部分的介绍。
在一些实施例中,所述第一语音和所述第二语音对应的会话标识相同。这里参照图3对一种实现方式进行介绍,图3示出的步骤S10-步骤S60可以是在一次对话中,故可以采用相同的会话标识。
基于上述实施例,本申请还提供了一种资源显示的方法的又一实施例,应用于服务器,上述实施例中相关的内容均适用于本实施例,此处不再赘述。参见图7b示出的流程图,包括:
S410:接收终端发送的用户的第一语音对应的数据。
S420:根据所述第一语音对应的数据获取第一资源。
S430:将所述第一资源发送给所述终端进行显示。
S440:接收所述终端发送的所述用户的第二语音对应的数据;所述第二语音用于所述终端对所显示的所述第一资源进行控制。
S450:识别所述第二语音对应的控制指令。
S460:将所述控制指令发送给所述终端,以使所述终端响应所述控制指令,显示所述第一资源的第二部分内容,或者,响应所述控制指令,显示与所述第一资源相关的第二资源。
其中,上述步骤S410-S430的一种可实现的方式,可参见上述步骤S15-S25所描述的内容。步骤S440-S460的一种可实现的方式,可参见上述步骤35-S55所描述的内容。
在一些实施例中,在根据所述第一语音对应的数据获取第一资源之后,所述方法还包括:将第一卡片的信息发送给所述终端,以使所述终端以所述第一卡片显示所述第一资源,其中,所述第一卡片的信息包括所述第一卡片或所述第一卡片的标识或所述第一卡片的资源访问路径。其中,一种可实现的方式可参见上述步骤S125所描述的内容。
在一些实施例中,所述在根据所述第一语音对应的数据获取第一资源之后,所述方法还包括:根据所述第一卡片的卡片类型生成第一语音指令控制的候选集合,或,根据所述第一卡片的卡片类型和所述第一资源生成第一语音指令控制的候选集合,所述第一语音指令控制的候选集合包括一个或多个对所述第一卡片的内容进行显示控制的指令;所述识别所述第二语音对应的控制指令,将所述控制指令发送给所述终端,以使所述终端响应所述控制指令,具体包括:将所述第二语音对应的指令与所述第一语音指令控制的候选集合中的控制指令进行匹配;若所述第二语音对应的指令与所述第一语音指令控制的候选集合的第一指令匹配时,向所述终端发送与所述第一指令关联的对所述第一卡片的第一显示控制指令,以使所述终端显示所述第一资源的第二部分内容,或者显示与所述第一资源相关的第二资源。其中,生成第一语音指令控制的候选集合的一种可实现的方式可参见上述步骤S130所描述的内容。另外,图1所描述的实施例为显示所述第一资源的第二部分内容,图4a-1和图4a-2所描述的实施例为显示与所述第一资源相关的第二资源。
在一些实施例中,所述方法还包括:接收所述终端发送的所述用户的第三语音对应的数据;将所述第三语音对应的指令与所述第一语音指令控制的候选集合中的控制指令进行匹配;若所述第三语音对应的指令与所述第一语音指令控制的候选集合的第二指令匹配时,向所述终端发送与所述第二指令关联的对所述第一卡片的第二显示控制指令,所述第二显示控制指令不同于所述第一显示控制指令。其中,可实现方式,可以参见前述的对终端侧涉及第三语音时的可实现的例子的介绍,不再赘述。
在一些实施例中,不同的卡片类型对应的语音指令控制的候选集合不同;所述方法还包括:接收所述终端发送的所述用户的第四语音对应的数据;获取与所述第四语音对应的第三资源;将第二卡片的信息,以及所述第三资源发送给所述终端,以使所述终端以所述第二卡片显示所述第三资源;所述第二卡片的信息包括所述第二卡片或所述第二卡片的标识或所述第二卡片的资源访问路径,所述第二卡片的类型不同于所述第一卡片的类型;并根据所述第二卡片的卡片类型,生成与所述第二卡片关联的第二语音指令控制的候选集合,或,根据所述第二卡片的卡片类型和所述第三资源,生成与所述第二卡片关联的第二语音指令控制的候选集合,所述第二语音指令控制的候选集合包括一个或多个对所述第二卡片的内容进行显示控制的指令,所述第二语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。其中,可实现方式,可以参见前述的对终端侧涉及第四语音时的可实现的例子的介绍,不再赘述。
在一些实施例中,所述方法还包括:接收所述终端发送的所述用户的第五语音对应的数据;获取与所述第五语音对应的第四资源;将第三卡片或第三卡片的标识,以及所述第四资源发送给所述终端,以使所述终端以所述第三卡片显示所述第四资源,所述第三卡片的类型与所述第一卡片的类型相同,所述第四资源不同于所述第一资源;并根据所述第三卡片的卡片类型,生成与所述第三卡片关联的第三语音指令控制的候选集合,或,根据所述第三卡片的卡片类型和所述第四资源,生成与所述第三卡片关联的第三语音指令控制的候选集合,所述第三语音指令控制的候选集合包括一个或多个对所述第三卡片的内容进行显示控制的指令,所述第三语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。其中,可实现方式,可以参见前述的对终端侧涉及第五语音时的可实现的例子的介绍,不再赘述。
在一些实施例中,所述卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。例如图4d为纯文本型卡片,图1、图4a-1、图4a-2、图4f-2为图文型卡片,图4b、图4f-1为宫格型卡片,图4c、图4e为列表型卡片。
在一些实施例中,对于纯文本型卡片或图文型卡片,所述第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。其一种实现方式,可参见对纯文本型卡片、图文型卡片的介绍。
在一些实施例中,对于宫格型卡片或列表型卡片,所述控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。其一种实现方式,可参见对宫格型卡片或列表型卡片的介绍。
在一些实施例中,所述第一卡片还显示有按钮时,所述第一控制指令的候选集合还包括:对所述按钮的控制指令,所述控制指令用于触发所述控件。其一种实现方式,可参见纯文本型卡片中对按钮的介绍。
在一些实施例中,所述第一资源是从第三方服务器获取的资源,所述卡片类型由第一资源对应的第三方选择。其一种实现方式,可参见在针对步骤S30终端通过第一用户界面所显示的资源的第一部分的介绍。
在一些实施例中,所述第一语音和所述第二语音对应的会话标识相同。这里参照图3对一种实现方式进行介绍,图3示出的步骤S10-步骤S60可以是在一次对话中,故可以采用相同的会话标识。
图8示意了本申请实施例的一终端100的结构示意图。
终端20可以包括手机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备、或智慧城市设备中的至少一种。本申请实施例对该终端20的具体类型不作特殊限制。
终端20可以包括处理器110,内部存储器120,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,显示屏130等。其中传感器模块140可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
本实施例中,终端20通过移动通信模块150和天线1,或无线通信模块160和天线2接入移动通信网络或无线网络,实现与服务器的数据传输;通过麦克风170C或受话器170B实现接收用户语音;通过扬声器170A播放语音,或通过耳机接口170D向该耳机接口170D所接入的耳机或外接扬声器播放语音;通过显示屏130显示卡片;通过处理器110实现语音识别为文本、文本转换为语音、相关控制指令的执行、卡片的渲染和展示等等。这些具体的功能或其他未在此为列举的一些功能,具体可参见上述各个实施例和具体实施方式中所描述的终端所执行的步骤或功能,不再赘述。
可以理解的是,本申请实施例示意的结构并不构成对终端20的具体限定。在本申请另一些实施例中,终端20可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110用过或使用频率较高的指令或数据。如果处理器110需要使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。处理器110可以通过以上至少一种接口连接触摸传感器、音频模块、无线通信模块、显示器、摄像头等模块。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端20的结构限定。在本申请另一些实施例中,终端20也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
终端20的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端20中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端20上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏130显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端20上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),蓝牙低功耗(bluetooth low energy,BLE),超宽带(ultra wide band,UWB),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端20的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端20可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。该GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端20可以通过GPU,显示屏130,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏130和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏130用于显示图像,视频等。显示屏130包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端20可以包括1个或多个显示屏130。
内部存储器120可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。内部存储器120可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端20使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器120的指令,和/或存储在设置于处理器中的存储器的指令,执行终端20的各种功能方法或数据处理。
终端20可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端20可以通过扬声器170A收听音乐,或输出免提通话的音频信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端20接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端20可以设置至少一个麦克风170C。在另一些实施例中,终端20可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端20还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
图9是本申请实施例提供的一种服务器200的结构性示意性图。该服务器200包括:处理器210、存储器220、通信接口230、总线240。其中,服务器200通过通信接口230与终端进行数据或指令的传输,与第三方服务器进行数据或指令的传输。通过处理器实现自然语言理解的功能、对话管理的功能、卡片控制意图生成的功能、存储的功能等等,这些具体的功能或其他一些未在此为列举的功能,具体可参见上述各个实施例和具体实施方式中所描述的服务器所执行的步骤或功能,不再赘述。
应理解,图9所示的服务器24中的通信接口230可以用于与其他设备之间进行通信。
其中,该处理器210可以与存储器220连接。该存储器220可以用于存储该程序代码和数据。因此,该存储器220可以是处理器210内部的存储单元,也可以是与处理器210独立的外部存储单元,还可以是包括处理器210内部的存储单元和与处理器210独立的外部存储单元的部件。
可选的,服务器24还可以包括总线240。其中,存储器220、通信接口230可以通过总线240与处理器210连接。总线240可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线240可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
应理解,在本申请实施例中,该处理器210可以采用中央处理单元(centralprocessing unit,CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器210采用一个或多个集成电路,用于执行相关程序,以实现本申请实施例所提供的技术方案。
该存储器220可以包括只读存储器和随机存取存储器,并向处理器210提供指令和数据。处理器210的一部分还可以包括非易失性随机存取存储器。例如,处理器210还可以存储设备类型的信息。
在服务器24运行时,所述处理器210执行所述存储器220中的计算机执行指令执行上述方法的操作步骤。
应理解,根据本申请实施例的服务器24可以对应于执行根据本申请各实施例的方法中的相应主体,并且服务器24中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行一种多样化问题生成方法,该方法包括上述各个实施例所描述的方案中的至少之一。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上的程序代码可以用任何适当的介质传输,包括、但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,均属于本申请保护范畴。

Claims (30)

1.一种资源显示的方法,应用于终端,其特征在于,包括:
接收用户的第一语音;
将所述第一语音对应的数据发送给服务器;
接收所述服务器发送的与所述第一语音对应的第一资源;
显示第一用户界面,所述第一用户界面显示的内容包括所述第一资源的第一部分内容;
接收所述用户的第二语音;所述第二语音用于对显示的所述第一资源进行控制;
响应所述第二语音对应的控制指令,显示所述第一资源的第二部分内容,或者,响应所述第二语音对应的控制指令,显示与所述第一资源相关的第二资源。
2.根据权利要求1所述的方法,其特征在于,所述第一用户界面显示的内容包括第一资源的第一部分,具体包括:
在所述第一用户界面,以卡片形式显示所述第一资源的第一部分。
3.根据权利要求2所述的方法,其特征在于,
所述卡片包括多个类型,所述终端呈现的第一卡片的卡片类型与所述第一资源需要显示的内容相关。
4.根据权利要求2或3所述的方法,其特征在于,所述第一卡片对应第一语音指令控制的候选集合,所述第一语音指令控制的候选集合包括一个或多个对所述第一卡片的内容进行显示控制的指令,所述第一语音指令控制的候选集合与所述第一卡片的卡片类型相关;
响应所述第二语音对应的控制指令,显示所述第一资源的第二部分内容,或者,响应所述第二语音对应的控制指令,显示与所述第一资源相关的第二资源,具体包括:
若所述第二语音对应的指令与所述第一语音指令控制的候选集合的第一指令匹配时,对所述第一卡片执行与所述第一指令关联的第一显示控制以显示所述第一资源的第二部分内容,或者显示与所述第一资源相关的第二资源。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收所述用户的第三语音;
若所述第三语音对应的指令与所述第一语音指令控制的候选集合的第二指令匹配时,对所述第一卡片执行与所述第二指令关联的第二显示控制,所述第二显示控制不同于所述第一显示控制。
6.根据权利要求4或5所述的方法,其特征在于,不同的卡片类型对应的语音指令控制的候选集合不同;所述方法还包括:
接收用户的第四语音;
以第二卡片显示所述第四语音对应的第三资源,所述第二卡片的类型不同于所述第一卡片的类型;所述第二卡片对应第二语音指令控制的候选集合,所述第二语音指令控制的候选集合包括一个或多个对所述第二卡片的内容进行显示控制的指令,所述第二语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述第一语音指令控制的候选集合由服务器基于所述第一卡片的卡片类型和所述第一资源生成。
8.根据权利要求7所述的方法,其特征在于,接收所述用户的第二语音之后,所述方法还包括:
向服务器发送所述第二语音的数据;
接收服务器确认的所述第二语音对应的指令与所述第一语音指令控制的候选集合的所述第一指令匹配的结果,对所述第一卡片执行与所述第一指令关联的第一显示控制。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
接收用户的第五语音;
以第三卡片显示所述第五语音对应的第四资源,所述第三卡片的类型与所述第一卡片的类型相同,所述第四资源不同于所述第一资源;所述第三卡片对应第三语音指令控制的候选集合,所述第三语音指令控制的候选集合包括一个或多个对所述第三卡片的内容进行显示控制的指令,所述第三语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。
10.根据权利要求2-9任一项所述的方法,其特征在于,所述卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。
11.根据权利要求10所述的方法,其特征在于,对于纯文本型卡片或图文型卡片,所述第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。
12.根据权利要求10或11所述的方法,其特征在于,对于宫格型卡片或列表型卡片,所述控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。
13.根据权利要求10-12任一项所述的方法,其特征在于,所述第一卡片还显示有按钮时,所述第一控制指令的候选集合还包括:对所述按钮的控制指令,所述控制指令用于触发所述控件。
14.根据权利要求2-13任一项所述的方法,其特征在于,所述第一资源是从第三方服务器获取的资源,所述卡片类型由第一资源对应的第三方选择。
15.根据权利要求1-14任一项所述的方法,其特征在于,所述第一语音和所述第二语音对应的会话标识相同。
16.一种资源显示的方法,应用于服务器,其特征在于,包括:
接收终端发送的用户的第一语音对应的数据;
根据所述第一语音对应的数据获取第一资源;
将所述第一资源发送给所述终端进行显示;
接收所述终端发送的所述用户的第二语音对应的数据;所述第二语音用于所述终端对所显示的所述第一资源进行控制;
识别所述第二语音对应的控制指令;
将所述控制指令发送给所述终端,以使所述终端响应所述控制指令,显示所述第一资源的第二部分内容,或者,响应所述控制指令,显示与所述第一资源相关的第二资源。
17.根据权利要求16所述的方法,其特征在于,在根据所述第一语音对应的数据获取第一资源之后,所述方法还包括:
将第一卡片的信息发送给所述终端,以使所述终端以所述第一卡片显示所述第一资源,其中,所述第一卡片的信息包括所述第一卡片或所述第一卡片的标识或所述第一卡片的资源访问路径。
18.根据权利要求17所述的方法,其特征在于,所述在根据所述第一语音对应的数据获取第一资源之后,所述方法还包括:
根据所述第一卡片的卡片类型生成第一语音指令控制的候选集合,或,根据所述第一卡片的卡片类型和所述第一资源生成第一语音指令控制的候选集合,所述第一语音指令控制的候选集合包括一个或多个对所述第一卡片的内容进行显示控制的指令;
所述识别所述第二语音对应的控制指令,将所述控制指令发送给所述终端,以使所述终端响应所述控制指令,具体包括:
将所述第二语音对应的指令与所述第一语音指令控制的候选集合中的控制指令进行匹配;
若所述第二语音对应的指令与所述第一语音指令控制的候选集合的第一指令匹配时,向所述终端发送与所述第一指令关联的对所述第一卡片的第一显示控制指令,以使所述终端显示所述第一资源的第二部分内容,或者显示与所述第一资源相关的第二资源。
19.根据权利要求18所述的方法,其特征在于,所述方法还包括:
接收所述终端发送的所述用户的第三语音对应的数据;
将所述第三语音对应的指令与所述第一语音指令控制的候选集合中的控制指令进行匹配;
若所述第三语音对应的指令与所述第一语音指令控制的候选集合的第二指令匹配时,向所述终端发送与所述第二指令关联的对所述第一卡片的第二显示控制指令,所述第二显示控制指令不同于所述第一显示控制指令。
20.根据权利要求18或19所述的方法,其特征在于,不同的卡片类型对应的语音指令控制的候选集合不同;所述方法还包括:
接收所述终端发送的所述用户的第四语音对应的数据;
获取与所述第四语音对应的第三资源;
将第二卡片的信息,以及所述第三资源发送给所述终端,以使所述终端以所述第二卡片显示所述第三资源;所述第二卡片的信息包括所述第二卡片或所述第二卡片的标识或所述第二卡片的资源访问路径,所述第二卡片的类型不同于所述第一卡片的类型;
并根据所述第二卡片的卡片类型,生成与所述第二卡片关联的第二语音指令控制的候选集合,或,根据所述第二卡片的卡片类型和所述第三资源,生成与所述第二卡片关联的第二语音指令控制的候选集合,所述第二语音指令控制的候选集合包括一个或多个对所述第二卡片的内容进行显示控制的指令,所述第二语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。
21.根据权利要求18-20任一项所述的方法,其特征在于,所述方法还包括:
接收所述终端发送的所述用户的第五语音对应的数据;
获取与所述第五语音对应的第四资源;
将第三卡片或第三卡片的标识,以及所述第四资源发送给所述终端,以使所述终端以所述第三卡片显示所述第四资源,所述第三卡片的类型与所述第一卡片的类型相同,所述第四资源不同于所述第一资源;
并根据所述第三卡片的卡片类型,生成与所述第三卡片关联的第三语音指令控制的候选集合,或,根据所述第三卡片的卡片类型和所述第四资源,生成与所述第三卡片关联的第三语音指令控制的候选集合,所述第三语音指令控制的候选集合包括一个或多个对所述第三卡片的内容进行显示控制的指令,所述第三语音指令控制的候选集合不同于所述第一语音指令控制的候选集合。
22.根据权利要求17-21任一项所述的方法,其特征在于,所述卡片的类型包括如下一个或多个:纯文本型卡片、图文型卡片、宫格型卡片、列表型卡片。
23.根据权利要求22所述的方法,其特征在于,对于纯文本型卡片或图文型卡片,所述第一控制指令的候选集合包括移动、翻页、或查看详情中的一个或多个。
24.根据权利要求22或23所述的方法,其特征在于,对于宫格型卡片或列表型卡片,所述控制指令的候选集合包括移动、翻页、选中对象、或移动选择框中的一个或多个。
25.根据权利要求22-24任一项所述的方法,其特征在于,所述第一卡片还显示有按钮时,所述第一控制指令的候选集合还包括:对所述按钮的控制指令,所述控制指令用于触发所述控件。
26.根据权利要求17-25任一项所述的方法,其特征在于,所述第一资源是从第三方服务器获取的资源,所述卡片类型由第一资源对应的第三方选择。
27.根据权利要求16-26任一项所述的方法,其特征在于,所述第一语音和所述第二语音对应的会话标识相同。
28.一种资源显示的方法,其特征在于,包括:
权利要求1-15任一项所述的资源显示的方法,和权利要求16-27任一项所述的资源显示的方法。
29.一种终端,其特征在于,包括处理器、内部存储器、显示屏和通信接口;
所述内部存储器,用于存储计算机可执行程序;
所述计算机可执行程序在被所述处理器调用时,使所述处理器用于通过所述通信接口或显示屏实现权利要求1-15任一项所述的资源显示的方法。
30.一种服务器,其特征在于,包括处理器、存储器和通信接口;
所述存储器,用于存储计算机可执行程序;
所述计算机可执行程序在被所述处理器调用时,使所述处理器用于通过所述通信接口实现权利要求16-27任一项所述的资源显示的方法。
CN202110579359.9A 2021-05-26 2021-05-26 资源显示的方法、终端及服务器 Pending CN115408492A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110579359.9A CN115408492A (zh) 2021-05-26 2021-05-26 资源显示的方法、终端及服务器
PCT/CN2022/085018 WO2022247466A1 (zh) 2021-05-26 2022-04-02 资源显示的方法、终端及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579359.9A CN115408492A (zh) 2021-05-26 2021-05-26 资源显示的方法、终端及服务器

Publications (1)

Publication Number Publication Date
CN115408492A true CN115408492A (zh) 2022-11-29

Family

ID=84156275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579359.9A Pending CN115408492A (zh) 2021-05-26 2021-05-26 资源显示的方法、终端及服务器

Country Status (2)

Country Link
CN (1) CN115408492A (zh)
WO (1) WO2022247466A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198291A (zh) * 2023-11-08 2023-12-08 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201405546A (zh) * 2012-07-27 2014-02-01 Ikala Interactive Media Inc 可語音控制之點歌系統及其運作流程
KR102141116B1 (ko) * 2013-08-05 2020-08-04 삼성전자주식회사 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
CN108491178B (zh) * 2018-02-13 2021-05-28 北京百度网讯科技有限公司 信息浏览方法、浏览器和服务器
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
CN109584879B (zh) * 2018-11-23 2021-07-06 华为技术有限公司 一种语音控制方法及电子设备
CN113407089A (zh) * 2019-08-26 2021-09-17 华为技术有限公司 一种语音控制的分屏显示方法及电子设备
CN110706702B (zh) * 2019-10-15 2021-11-09 芜湖盟博科技有限公司 一种语音识别无限级多轮对话方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198291A (zh) * 2023-11-08 2023-12-08 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统
CN117198291B (zh) * 2023-11-08 2024-01-23 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统

Also Published As

Publication number Publication date
WO2022247466A1 (zh) 2022-12-01

Similar Documents

Publication Publication Date Title
US11722449B2 (en) Notification message preview method and electronic device
WO2020192456A1 (zh) 一种语音交互方法及电子设备
US11941323B2 (en) Meme creation method and apparatus
CN112154640B (zh) 一种消息的播放方法及终端
US11893359B2 (en) Speech translation method and terminal when translated speech of two users are obtained at the same time
WO2021204098A1 (zh) 语音交互方法及电子设备
CN114115674B (zh) 录音和文档内容的定位方法、电子设备及存储介质
CN111147660B (zh) 一种控件的操作方法及电子设备
KR102527178B1 (ko) 음성 제어 명령 생성 방법 및 단말
JP2018508086A (ja) 入力処理方法、装置及び機器
CN114422640B (zh) 一种设备推荐方法及电子设备
US20220116758A1 (en) Service invoking method and apparatus
KR20140026726A (ko) 광학식 문자 판독기를 이용한 데이터 처리 방법 및 장치
WO2022247466A1 (zh) 资源显示的方法、终端及服务器
WO2024001940A1 (zh) 寻车的方法、装置和电子设备
WO2023005711A1 (zh) 一种服务的推荐方法及电子设备
CN115079810A (zh) 信息处理方法与装置、主控设备和受控设备
CN110737765A (zh) 多轮对话的对话数据处理方法及相关装置
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质
CN114327198A (zh) 控制功能推送方法及设备
WO2019183904A1 (zh) 自动识别音频中不同人声的方法
WO2024114233A1 (zh) 通话方法及电子设备
WO2023197949A1 (zh) 汉语翻译的方法和电子设备
WO2023197951A1 (zh) 搜索方法和电子设备
CN113506571A (zh) 控制方法、移动终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination