CN108683937A - 智能电视的语音交互反馈方法、系统及计算机可读介质 - Google Patents
智能电视的语音交互反馈方法、系统及计算机可读介质 Download PDFInfo
- Publication number
- CN108683937A CN108683937A CN201810195553.5A CN201810195553A CN108683937A CN 108683937 A CN108683937 A CN 108683937A CN 201810195553 A CN201810195553 A CN 201810195553A CN 108683937 A CN108683937 A CN 108683937A
- Authority
- CN
- China
- Prior art keywords
- current interface
- information
- audio stream
- smart television
- phonetic order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 69
- 230000000694 effects Effects 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 230000005611 electricity Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 108091027981 Response element Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2401—Monitoring of the client buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4331—Caching operations, e.g. of an advertisement for later insertion during playback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种智能电视的语音交互反馈方法、系统及计算机可读介质。其方法包括:采集用户发出语音指令的音频流和智能电视当前界面的元素信息;向云端服务器发送音频流和当前界面的元素信息,以供云端服务器根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;接收云端服务器返回的响应消息;根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。本发明的技术方案,在智能电视上可以对用户的语音指令进行反馈,这样,当智能电视未执行控制指令时,可以准确定位到未执行的原因是未识别还是执行受到阻塞。
Description
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种智能电视的语音交互反馈方法、系统及计算机可读介质。
【背景技术】
随着语音技术的发展,电视场景下利用语音提升用户交互体验的场景越来越多。但用户做出的控制类的语音指令从下发到执行会经历唤醒、自动语音识别(AutomaticSpeech Recognition;ASR)、自然语言理解(Natural Language Understanding;NLU)、智能电视(Television;TV)接收指令并执行几个过程。良好的反馈机制可以实时告知用户语音指令的执行状态,达到体验提升的效果。例如,目前唤醒、ASR、NLU几个步骤在执行过程中智能电视均有相应反馈。
例如,现有的智能电视的语音交互反馈过程具体可以包括如下过程:用户下发控制类的语音指令Query,智能电视采集用户的Query的音频流,并发送给云端服务器,由云端服务器进行ASR识别Query,NLU理解Query意图,判断该Query槽位信息,并最后下发对应意图与槽位信息到智能电视,最后由智能电视直接执行对应意图与槽位信息对应的控制指令。
但是,现有技术中,智能电视在接收到语音指令Query对应的意图与槽位信息后,到执行对应的控制指令的过程中,无任何反馈信息,这样,当智能电视未执行控制指令时,无法确定是云端服务器未识别该语音指令Query还是智能电视执行控制指令受到阻塞,即导致未执行控制指令的原因无法进行准确定位。
【发明内容】
本发明提供了一种智能电视的语音交互反馈方法、系统及计算机可读介质,用于为用户的语音指令进行相应的反馈,以在智能电视未执行控制指令时,便于对未执行的原因进行准确定位。
本发明提供一种智能电视的语音交互反馈方法,所述方法包括:
采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
向云端服务器发送所述音频流和所述当前界面的元素信息,以供所述云端服务器根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
接收所述云端服务器返回的所述响应消息;
根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
进一步可选地,如上所述的方法中,采集用户发出语音指令的音频流和智能电视当前界面的元素信息之后,所述方法还包括:
在缓存中存储所述当前界面的元素信息;
根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,具体包括:
根据所述响应消息中的所述目标元素的信息,从所述缓存中存储的所述当前界面的元素信息中查找对应的所述目标元素;
对所述当前界面上对应的所述目标元素执行预设的效果展示。
进一步可选地,如上所述的方法中,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
本发明提供一种智能电视的语音交互反馈方法,所述方法包括:
接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息;
根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
向所述智能电视返回所述响应消息,以供所述智能电视根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
进一步可选地,如上所述的方法中,根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息,具体包括:
根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素;
基于所述目标元素的信息生成响应消息。
进一步可选地,如上所述的方法中,根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素,具体包括:
对所述音频流进行语音识别,得到所述音频流对应的所述语音指令对应的文字指令;
对所述文字指令进行自然语言理解处理,识别所述语音指令的意图;
将所述语音指令的意图和所述当前界面的元素信息进行比对,识别所述语音指令的意图命中的所述当前界面中的目标元素。
进一步可选地,如上所述的方法中,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
本发明提供一种智能电视装置,所述装置包括:
采集模块,用于采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
收发模块,用于向云端服务器发送所述音频流和所述当前界面的元素信息,以供所述云端服务器根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
所述收发模块,还用于接收所述云端服务器返回的所述响应消息;
执行模块,用于根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
进一步可选地,如上所述的装置中,还包括:
存储模块,用于在缓存中存储所述当前界面的元素信息;
所述执行模块,具体用于:
根据所述响应消息中的所述目标元素的信息,从所述缓存中存储的所述当前界面的元素信息中查找对应的所述目标元素;
对所述当前界面上对应的所述目标元素执行预设的效果展示。
进一步可选地,如上所述的装置中,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
本发明还提供一种云端服务器,所述服务器包括:
收发模块,用于接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息;
生成模块,用于根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
所述收发模块,还用于向所述智能电视返回所述响应消息,以供所述智能电视根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
进一步可选地,如上所述的服务器中,所述生成模块,包括:
识别单元,用于根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素;
生成单元,用于基于所述目标元素的信息生成响应消息。
进一步可选地,如上所述的服务器中,所述识别单元,具体用于:
对所述音频流进行语音识别,得到所述音频流对应的所述语音指令对应的文字指令;
对所述文字指令进行自然语言理解处理,识别所述语音指令的意图;
将所述语音指令的意图和所述当前界面的元素信息进行比对,识别所述语音指令的意图命中的所述当前界面中的目标元素。
进一步可选地,如上所述的服务器中,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
本发明还提供一种智能电视的语音交互系统,所述系统包括智能电视装置和云端服务器,所述智能电视装置和所述云端服务器通信连接,所述智能电视装置采用如上所述的智能电视装置,所述云端服务器采用如上所述的云端服务器。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的智能电视的语音交互反馈方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的智能电视的语音交互反馈方法。
本发明的智能电视的语音交互反馈方法、系统及计算机可读介质,通过采用上述技术方案,在智能电视上可以对用户的语音指令进行反馈,这样,当智能电视未执行控制指令时,可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且,本发明通过预设的效果对用户的语音指令进行反馈,还能够有效地提高用户的体验度。
【附图说明】
图1为本发明的智能电视的语音交互反馈方法实施例一的流程图。
图2为本发明的智能电视的语音交互反馈方法实施例二的流程图。
图3为本发明的智能电视装置实施例一的结构图。
图4为本发明的智能电视装置实施例二的结构图。
图5为本发明的云端服务器实施例一的结构图。
图6为本发明的云端服务器实施例二的结构图。
图7为本发明的智能电视的语音交互系统实施例的结构图。
图8为本发明的计算机设备实施例的结构图。
图9为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的智能电视的语音交互反馈方法实施例一的流程图。如图1所示,本实施例的智能电视的语音交互反馈方法,具体可以包括如下步骤:
100、采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
本实施例的智能电视的语音交互反馈方法,在智能电视侧描述本发明的技术方案。本实施例的智能电视不仅包括智能电视的客户端,还包括智能电视的实体。例如,具体由智能电视的客户端和智能电视的实体的配合实现智能电视的语音交互的反馈。
例如,本实施例中,智能电视的客户端可以调用智能电视实体自带的或者外接的麦克风设备,采集用户说话声音的音频流。当用户发出语音指令时,智能电视便可以采集到语音指令对应的音频流。另外,由于用户的语音指令都是针对当前界面上显示的内容而做出的,因此,本实施例中,智能电视还需要采集智能电视当前界面的元素信息,例如具体由智能电视的客户端采集当前展示在智能电视实体的显示屏上的当前界面的元素信息。
可选地,本实施例的当前界面的元素信息可以包括当前界面中的元素的位置、显示的文字以及层级结构等信息,当前界面的每一个元素的信息都可以唯一标识当前界面中的该元素。本实施例中,元素的位置可以采用元素在当前界面中的坐标来表示。
101、向云端服务器发送音频流和当前界面的元素信息,以供云端服务器根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;
具体地,可以由智能电视客户端通过http协议向云端服务器发送音频流和当前界面的元素信息。例如,目前智能电视大多基于Android系统,可以通过Android系统中提供的接口,采集并获取到当前界面上的所有元素的位置、显示的文字以及层级结构。并通过对获取到的信息进行分析,可以最终确定当前界面上能被语音指令所响应的全部元素。当所有元素信息确定后,智能电视客户端通过与后端的云端服务器约定的协议和接口,将所有的元素的信息按照协议格式上报给云端服务器。
智能电视向云端服务器发送音频流和当前界面的元素信息后,云端服务器可以通过ASR、NLU等步骤,理解用户的音频流中的语音指令对应的意图。由于用户在观看电视的过程中,发出的语音指令都是针对于当前界面显示的信息所发出的,例如当前界面中由播放按钮、暂停按钮等,用户可以语音发出播放指令,或者暂停指令。这样,云端服务器通过ASR和NLU理解用户的意图之后,可以确定用户的语音指令对应的控制指令时播放或者暂停。同时,由于云端服务器已经获取到当前界面的元素信息,可以根据音频流中语音指令的意图和当前界面的元素信息,识别音频流对应的语音指令的意图命中的当前界面中的目标元素,进而生成携带目标元素的信息响应消息。例如,目标元素为当前界面中显示文字为暂停或者播放的元素。
102、接收云端服务器返回的响应消息;
103、根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。
本实施例中,智能电视接收的云端服务器返回的响应消息中携带目标元素的信息,如目标元素的位置、目标元素显示的文字以及目标元素在当前界面的层级结构。智能电视收到服务端的响应后,智能电视的客户端根据约定的协议对响应消息进行解析,如果解析后发现响应消息中包含了命中当前界面的目标元素的相关内容,则将该目标元素的信息转交到智能电视的客户端中的用户界面(User Interface;UI)模块进行处理。对应地,UI模块接收到目标元素的信息后,获取当前界面的所有元素信息,并根据命中的目标元素的位置、显示的文字以及层级结构等,在当前界面的所有元素信息中获取对应的目标元素,并对对应的目标元素执行预设的效果展示,使得当前界面中的该目标元素在智能电视的实体的显示屏上按照预设的效果展示,作为语音指令的交互反馈。本实施例的预设的效果展示可以为放大、闪烁、获取焦点、或者模拟按钮按下等等动画效果展示。
进一步地,本实施例中,在采集到智能电视当前界面的元素信息之后,还可以在客户端的缓存中存储当前界面的元素信息,以便后续进行快速查找。如在云端服务器侧,UI模块接收到目标元素的信息后,根据命中的目标元素的位置、显示的文字以及层级结构等,在智能电视客户端的缓存中存储的当前界面的所有元素信息中进行查找,找到对应的目标元素,然后对该目标元素执行预设的效果展示,并展现在智能电视实体的显示屏上。相对于上述技术方案,不用再获取当前界面的元素信息,而可以直接根据缓存中存储的当前界面的元素信息快速查找目标元素,缩短查找时间,提高查找效率。
例如,一个典型的场景为:用户在智能电视的电影详情页发出语音指令Query“播放”,智能电视接收到语音指令后,获取语音指令的音频流和当前界面的元素信息发送给云端服务器,云端服务器进行ASR和NLU处理后,理解用户的意图为播放,并查找到用户的意图命中当前界面即电影详情页的播放按钮,并向智能电视反馈携带播放按钮元素信息的响应消息。智能电视便可以根据响应消息中的该播放按钮的元素信息,对当前界面中该播放按钮进行放大、闪烁、获取焦点或者模拟按钮按下等预设的效果展示,以响应用户的语音指令。这样,随后即便播放操作没有执行,用户也可知道语音指令已经理解,只是在执行过程中遇到阻塞。而若智能电视未执行预设的效果展示,则表示未理解语言指令。采用本实施例的技术方案,当智能电视未执行用户的语音指令时,可以对未执行的原因进行准确定位。并且,通过预设的效果对用户的语音指令进行反馈,还能够有效地提高用户的体验度。
本实施例的智能电视的语音交互反馈方法,通过采集用户发出语音指令的音频流和智能电视当前界面的元素信息;向云端服务器发送音频流和当前界面的元素信息,以供云端服务器根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;接收云端服务器返回的响应消息;根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。通过采用本实施例的技术方案,在智能电视上可以对用户的语音指令进行反馈,这样,当智能电视未执行控制指令时,可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且,本实施例,通过预设的效果对用户的语音指令进行反馈,还能够有效地提高用户的体验度。
图2为本发明的智能电视的语音交互反馈方法实施例二的流程图。如图2所示,本实施例的智能电视的语音交互反馈方法,具体可以包括如下步骤:
200、接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息;
201、根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;
202、向智能电视返回响应消息,以供智能电视根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。
例如,本实施例中的当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息等等。
进一步可选地,本实施例中的步骤201“根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息”,具体可以包括如下步骤:
(a1)根据音频流和当前界面的元素信息,识别音频流对应的语音指令的意图命中的当前界面中的目标元素;
进一步可选地,该步骤(a1)具体还可以包括如下步骤:
(a2)对音频流进行ASR识别,得到音频流对应的语音指令对应的文字指令;
(b2)对文字指令进行NLU处理,识别语音指令的意图;
(c2)将语音指令的意图和当前界面的元素信息进行比对,识别语音指令的意图命中的当前界面中的目标元素。
(b1)基于目标元素的信息生成响应消息。
具体地,本实施例中,云端服务器收到智能电视发来的音频流后,将音频流提交给ASR引擎,ASR把用户说话的声音转换为文字,即将音频流中的语音指令转换为文字。需要说明的是,当ASR引擎识别到用户说话停止时,云端服务器还需要向智能电视下发停止录音指令,让智能电视的客户端停止发送音频流。当云端服务器中的ASR对音频流的语音指令中的所有文字都转换完成后,生成的文字信息被提交到NLU模块进行处理。
NLU模块会分析文字信息,识别用户的语音指令对应的意图,同时与智能电视发送的当前界面的元素信息进行对比。如果用户的语音指令对应的意图完全命中了当前界面中的某个目标元素,则将该目标元素对应的所有信息如位置、显示的文字以及层级结构等,添加到响应消息中。当然,实际应用中,云端服务器也可以再经过一些其他的处理,生成完整的响应消息,并通过http的链路下发到智能电视的客户端,以供智能电视根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。
本实施例的智能电视的语音交互反馈方法,与上述图1所示实施例的区别在于:上述图1所示实施例在智能电视侧描述本发明的技术方案,而本实施例在云端服务器侧描述本发明的技术方案,其具体实现过程亦可以参考上述图1所示实施例的记载,在此不再赘述。
本实施例的智能电视的语音交互反馈方法,接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息;根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;其中目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;向智能电视返回响应消息,以供智能电视根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。通过采用本实施例的技术方案,在智能电视上可以对用户的语音指令进行反馈,这样,当智能电视未执行控制指令时,可以准确定位到是云端服务器未识别该语音指令还是智能电视执行控制指令受到阻塞。而且,本实施例,通过预设的效果对用户的语音指令进行反馈,还能够有效地提高用户的体验度。
图3为本发明的智能电视装置实施例一的结构图。如图3所示,本实施例的智能电视装置,具体可以包括:
采集模块10用于采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
收发模块11用于向云端服务器发送采集模块10采集的音频流和当前界面的元素信息,以供云端服务器根据音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;
收发模块11还用于接收云端服务器返回的响应消息;
执行模块12用于根据收发模块11接收的响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。
本实施例的智能电视装置,通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的智能电视装置实施例二的结构图。如图4所示,本实施例的智能电视装置,在上述图3所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
如图4所示,本实施例的智能电视装置,还可以包括:
存储模块13用于在采集模块10采集到智能电视当前界面的元素信息后,在缓存中存储采集模块10采集的当前界面的元素信息;
此时对应地,执行模块12具体用于:
根据收发模块11接收的响应消息中的目标元素的信息,从存储模块13在缓存中存储的当前界面的元素信息中查找对应的目标元素;
对当前界面上对应的目标元素执行预设的效果展示。
进一步可选地,本实施例的智能电视装置中,当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息。
本实施例的智能电视装置,通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的云端服务器实施例一的结构图。如图5所示,本实施例的云端服务器,具体可以包括:
收发模块20用于接收智能电视发送的用户的语音指令对应的音频流和智能电视当前界面的元素信息;
生成模块21用于根据收发模块20接收的音频流和当前界面的元素信息,生成携带目标元素的信息响应消息;目标元素为音频流对应的语音指令的意图命中的当前界面中的元素;
收发模块20还用于向智能电视返回生成模块21生成的响应消息,以供智能电视根据响应消息中的目标元素的信息,在当前界面上对对应的目标元素执行预设的效果展示,作为语音指令的交互反馈。
本实施例的云端服务器,通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图6为本发明的云端服务器实施例二的结构图。如图6所示,本实施例的云端服务器,在上述图5所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
如图6所示,本实施例的云端服务器中,生成模块21包括:
识别单元211用于根据收发模块20接收的音频流和当前界面的元素信息,识别音频流对应的语音指令的意图命中的当前界面中的目标元素;
生成单元212用于基于识别单元211识别的目标元素的信息生成响应消息。
进一步可选地,本实施例的云端服务器中,识别单元211具体用于:
对收发模块20接收的音频流进行语音识别,得到音频流对应的语音指令对应的文字指令;
对文字指令进行自然语言理解处理,识别语音指令的意图;
将语音指令的意图和当前界面的元素信息进行比对,识别语音指令的意图命中的当前界面中的目标元素。
进一步可选地,本实施例的云端服务器中,当前界面的元素信息包括当前界面中的元素的位置、显示的文字以及层级结构信息。
本实施例的云端服务器,通过采用上述模块实现智能电视的语音交互反馈的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图7为本发明的智能电视的语音交互系统实施例的结构图。如图7所示,本实施例的智能电视的语音交互系统,包括智能电视装置30和云端服务器40,智能电视装置30和云端服务器40通信连接,智能电视装置30采用如上图3或者图4所述的智能电视装置,云端服务器40采用如上图5或者图6所述的云端服务器,并且具体可以采用如上图1或者图2所示实施例的智能电视的语音交互反馈方法实现语音交互,详细可以参考上述相关实施例的记载,在此不再赘述。
图8为本发明的计算机设备实施例的结构图。如图8所示,本实施例的计算机设备,包括:一个或多个处理器50,以及存储器60,存储器60用于存储一个或多个程序,当存储器60中存储的一个或多个程序被一个或多个处理器50执行,使得一个或多个处理器50实现如上图1或者图2所示实施例的智能电视的语音交互反馈方法。图8所示实施例中以包括多个处理器50为例。
例如,图9为本发明提供的一种计算机设备的示例图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图9显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1、图3和图4各实施例的功能,或者被配置以执行本发明上述图2、图5和图6各实施例的功能
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1、图3和图4各实施例中的功能和/或方法;或者执行本发明所描述的上述图2、图5和图6各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的智能电视的语音交互反馈方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的智能电视的语音交互反馈方法。
本实施例的计算机可读介质可以包括上述图9所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (17)
1.一种智能电视的语音交互反馈方法,其特征在于,所述方法包括:
采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
向云端服务器发送所述音频流和所述当前界面的元素信息,以供所述云端服务器根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
接收所述云端服务器返回的所述响应消息;
根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
2.根据权利要求1所述的方法,其特征在于,采集用户发出语音指令的音频流和智能电视当前界面的元素信息之后,所述方法还包括:
在缓存中存储所述当前界面的元素信息;
根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,具体包括:
根据所述响应消息中的所述目标元素的信息,从所述缓存中存储的所述当前界面的元素信息中查找对应的所述目标元素;
对所述当前界面上对应的所述目标元素执行预设的效果展示。
3.根据权利要求1或2所述的方法,其特征在于,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
4.一种智能电视的语音交互反馈方法,其特征在于,所述方法包括:
接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息;
根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
向所述智能电视返回所述响应消息,以供所述智能电视根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
5.根据权利要求4所述的方法,其特征在于,根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息,具体包括:
根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素;
基于所述目标元素的信息生成响应消息。
6.根据权利要求5所述的方法,其特征在于,根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素,具体包括:
对所述音频流进行语音识别,得到所述音频流对应的所述语音指令对应的文字指令;
对所述文字指令进行自然语言理解处理,识别所述语音指令的意图;
将所述语音指令的意图和所述当前界面的元素信息进行比对,识别所述语音指令的意图命中的所述当前界面中的目标元素。
7.根据权利要求4-6任一所述的方法,其特征在于,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
8.一种智能电视装置,其特征在于,所述装置包括:
采集模块,用于采集用户发出语音指令的音频流和智能电视当前界面的元素信息;
收发模块,用于向云端服务器发送所述音频流和所述当前界面的元素信息,以供所述云端服务器根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
所述收发模块,还用于接收所述云端服务器返回的所述响应消息;
执行模块,用于根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
存储模块,用于在缓存中存储所述当前界面的元素信息;
所述执行模块,具体用于:
根据所述响应消息中的所述目标元素的信息,从所述缓存中存储的所述当前界面的元素信息中查找对应的所述目标元素;
对所述当前界面上对应的所述目标元素执行预设的效果展示。
10.根据权利要求8或9所述的装置,其特征在于,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
11.一种云端服务器,其特征在于,所述服务器包括:
收发模块,用于接收智能电视发送的用户的语音指令对应的音频流和所述智能电视当前界面的元素信息;
生成模块,用于根据所述音频流和所述当前界面的元素信息,生成携带目标元素的信息响应消息;所述目标元素为所述音频流对应的所述语音指令的意图命中的所述当前界面中的元素;
所述收发模块,还用于向所述智能电视返回所述响应消息,以供所述智能电视根据所述响应消息中的所述目标元素的信息,在所述当前界面上对对应的所述目标元素执行预设的效果展示,作为所述语音指令的交互反馈。
12.根据权利要求11所述的服务器,其特征在于,所述生成模块,包括:
识别单元,用于根据所述音频流和所述当前界面的元素信息,识别所述音频流对应的所述语音指令的意图命中的所述当前界面中的目标元素;
生成单元,用于基于所述目标元素的信息生成响应消息。
13.根据权利要求12所述的服务器,其特征在于,所述识别单元,具体用于:
对所述音频流进行语音识别,得到所述音频流对应的所述语音指令对应的文字指令;
对所述文字指令进行自然语言理解处理,识别所述语音指令的意图;
将所述语音指令的意图和所述当前界面的元素信息进行比对,识别所述语音指令的意图命中的所述当前界面中的目标元素。
14.根据权利要求11-13任一所述的服务器,其特征在于,所述当前界面的元素信息包括所述当前界面中的所述元素的位置、显示的文字以及层级结构信息。
15.一种智能电视的语音交互系统,其特征在于,所述系统包括智能电视装置和云端服务器,所述智能电视装置和所述云端服务器通信连接,所述智能电视装置采用如上权利要求8-10任一所述的智能电视装置,所述云端服务器采用如上权利要求11-14任一所述的云端服务器。
16.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法,或者如权利要求4-7中任一所述的方法。
17.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的方法,或者如权利要求4-7中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195553.5A CN108683937B (zh) | 2018-03-09 | 2018-03-09 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
US16/179,436 US10971145B2 (en) | 2018-03-09 | 2018-11-02 | Speech interaction feedback method for smart TV, system and computer readable medium |
JP2018219135A JP6713034B2 (ja) | 2018-03-09 | 2018-11-22 | スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195553.5A CN108683937B (zh) | 2018-03-09 | 2018-03-09 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108683937A true CN108683937A (zh) | 2018-10-19 |
CN108683937B CN108683937B (zh) | 2020-01-21 |
Family
ID=63799410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195553.5A Active CN108683937B (zh) | 2018-03-09 | 2018-03-09 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10971145B2 (zh) |
JP (1) | JP6713034B2 (zh) |
CN (1) | CN108683937B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584870A (zh) * | 2018-12-04 | 2019-04-05 | 安徽精英智能科技有限公司 | 一种智能语音交互服务方法及系统 |
CN110085224A (zh) * | 2019-04-10 | 2019-08-02 | 深圳康佳电子科技有限公司 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
CN110660391A (zh) * | 2019-09-29 | 2020-01-07 | 苏州思必驰信息科技有限公司 | 基于rpa接口实现大屏终端语音控制的定制方法及系统 |
CN111263236A (zh) * | 2020-02-21 | 2020-06-09 | 广州欢网科技有限责任公司 | 电视机应用的语音适配方法和装置及语音控制方法 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN112201230A (zh) * | 2019-07-08 | 2021-01-08 | 安徽华米信息科技有限公司 | 语音响应方法、装置、设备以及存储介质 |
CN112309388A (zh) * | 2020-03-02 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN112346695A (zh) * | 2019-08-09 | 2021-02-09 | 华为技术有限公司 | 语音控制设备的方法及电子设备 |
CN112581941A (zh) * | 2020-11-17 | 2021-03-30 | 北京百度网讯科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN112885354A (zh) * | 2021-01-25 | 2021-06-01 | 海信视像科技股份有限公司 | 一种显示设备、服务器及基于语音的显示控制方法 |
CN114898746A (zh) * | 2022-04-12 | 2022-08-12 | 青岛海尔科技有限公司 | 交互方法和装置、存储介质及电子装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021056467A1 (zh) * | 2019-09-27 | 2021-04-01 | 京东方科技集团股份有限公司 | 信息查询方法及显示装置 |
CN113497980A (zh) * | 2020-03-20 | 2021-10-12 | 佛山市云米电器科技有限公司 | 界面模式显示方法、云服务器、电视机、系统和存储介质 |
CN112051748A (zh) * | 2020-09-15 | 2020-12-08 | 北京百度网讯科技有限公司 | 智能家居车载控制方法、装置、设备以及存储介质 |
CN112351097A (zh) * | 2020-11-05 | 2021-02-09 | 深圳Tcl新技术有限公司 | 设备控制方法、装置、发送端以及存储介质 |
CN114679614B (zh) * | 2020-12-25 | 2024-02-06 | 深圳Tcl新技术有限公司 | 一种语音查询方法、智能电视及计算机可读存储介质 |
CN112869676B (zh) * | 2021-01-11 | 2022-04-26 | 佛山市顺德区美的洗涤电器制造有限公司 | 用于洗碗机的控制方法、控制装置、显示装置及洗碗机 |
CN113889108B (zh) * | 2021-10-19 | 2024-06-25 | 清华大学 | 一种语音操作的纠错方法及系统 |
CN114286183A (zh) * | 2021-12-24 | 2022-04-05 | 深圳创维-Rgb电子有限公司 | 智能电视人机交互方法、智能电视及计算机可读存储介质 |
CN114415875B (zh) * | 2022-01-20 | 2024-08-13 | 京东方科技集团股份有限公司 | 智慧交互平板及其功能设置方法、外接pc设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0016113D0 (en) * | 1999-08-12 | 2000-08-23 | Ibm | Voice interaction method for a computer graphical user interface |
US20080100747A1 (en) * | 2006-10-31 | 2008-05-01 | Inventec Corporation | Voice-controlled TV set |
CN102395013A (zh) * | 2011-11-07 | 2012-03-28 | 康佳集团股份有限公司 | 一种对智能电视机的语音控制方法和系统 |
CN105453025A (zh) * | 2013-07-31 | 2016-03-30 | 谷歌公司 | 用于已识别语音发起动作的视觉确认 |
CN105681829A (zh) * | 2016-01-12 | 2016-06-15 | 深圳市茁壮网络股份有限公司 | 一种面向电视终端的消息处理方法及装置 |
EP2555537B1 (en) * | 2011-08-05 | 2016-07-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing user interface thereof |
CN105988915A (zh) * | 2015-06-03 | 2016-10-05 | 乐卡汽车智能科技(北京)有限公司 | 一种应用程序运行状态的展示方法及装置 |
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
CN107608652A (zh) * | 2017-08-28 | 2018-01-19 | 三星电子(中国)研发中心 | 一种语音控制图形界面的方法和装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US20060206339A1 (en) * | 2005-03-11 | 2006-09-14 | Silvera Marja M | System and method for voice-enabled media content selection on mobile devices |
JP2006330576A (ja) * | 2005-05-30 | 2006-12-07 | Sharp Corp | 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体 |
US8364486B2 (en) * | 2008-03-12 | 2013-01-29 | Intelligent Mechatronic Systems Inc. | Speech understanding method and system |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
JP4811507B2 (ja) * | 2009-08-25 | 2011-11-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理システム、画像処理装置及び情報処理装置 |
US10013976B2 (en) * | 2010-09-20 | 2018-07-03 | Kopin Corporation | Context sensitive overlays in voice controlled headset computer displays |
US8793136B2 (en) * | 2012-02-17 | 2014-07-29 | Lg Electronics Inc. | Method and apparatus for smart voice recognition |
KR102056461B1 (ko) * | 2012-06-15 | 2019-12-16 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 제어 방법 |
JP6440513B2 (ja) * | 2014-05-13 | 2018-12-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
JP2016014967A (ja) * | 2014-07-01 | 2016-01-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 情報管理方法 |
KR102298767B1 (ko) * | 2014-11-17 | 2021-09-06 | 삼성전자주식회사 | 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법 |
CN107369446A (zh) * | 2017-06-28 | 2017-11-21 | 北京小米移动软件有限公司 | 处理状态提示方法、装置以及计算机可读存储介质 |
-
2018
- 2018-03-09 CN CN201810195553.5A patent/CN108683937B/zh active Active
- 2018-11-02 US US16/179,436 patent/US10971145B2/en active Active
- 2018-11-22 JP JP2018219135A patent/JP6713034B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0016113D0 (en) * | 1999-08-12 | 2000-08-23 | Ibm | Voice interaction method for a computer graphical user interface |
US20080100747A1 (en) * | 2006-10-31 | 2008-05-01 | Inventec Corporation | Voice-controlled TV set |
EP2555537B1 (en) * | 2011-08-05 | 2016-07-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing user interface thereof |
CN102395013A (zh) * | 2011-11-07 | 2012-03-28 | 康佳集团股份有限公司 | 一种对智能电视机的语音控制方法和系统 |
CN105453025A (zh) * | 2013-07-31 | 2016-03-30 | 谷歌公司 | 用于已识别语音发起动作的视觉确认 |
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
CN105988915A (zh) * | 2015-06-03 | 2016-10-05 | 乐卡汽车智能科技(北京)有限公司 | 一种应用程序运行状态的展示方法及装置 |
CN105681829A (zh) * | 2016-01-12 | 2016-06-15 | 深圳市茁壮网络股份有限公司 | 一种面向电视终端的消息处理方法及装置 |
CN107608652A (zh) * | 2017-08-28 | 2018-01-19 | 三星电子(中国)研发中心 | 一种语音控制图形界面的方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584870A (zh) * | 2018-12-04 | 2019-04-05 | 安徽精英智能科技有限公司 | 一种智能语音交互服务方法及系统 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN111696534B (zh) * | 2019-03-15 | 2023-05-23 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
CN110085224B (zh) * | 2019-04-10 | 2021-06-01 | 深圳康佳电子科技有限公司 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
CN110085224A (zh) * | 2019-04-10 | 2019-08-02 | 深圳康佳电子科技有限公司 | 智能终端全程语音操控处理方法、智能终端及存储介质 |
CN112201230A (zh) * | 2019-07-08 | 2021-01-08 | 安徽华米信息科技有限公司 | 语音响应方法、装置、设备以及存储介质 |
CN112346695A (zh) * | 2019-08-09 | 2021-02-09 | 华为技术有限公司 | 语音控制设备的方法及电子设备 |
CN110660391A (zh) * | 2019-09-29 | 2020-01-07 | 苏州思必驰信息科技有限公司 | 基于rpa接口实现大屏终端语音控制的定制方法及系统 |
CN111263236A (zh) * | 2020-02-21 | 2020-06-09 | 广州欢网科技有限责任公司 | 电视机应用的语音适配方法和装置及语音控制方法 |
CN111263236B (zh) * | 2020-02-21 | 2022-04-12 | 广州欢网科技有限责任公司 | 电视机应用的语音适配方法和装置及语音控制方法 |
CN112309388A (zh) * | 2020-03-02 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN112581941A (zh) * | 2020-11-17 | 2021-03-30 | 北京百度网讯科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN112885354A (zh) * | 2021-01-25 | 2021-06-01 | 海信视像科技股份有限公司 | 一种显示设备、服务器及基于语音的显示控制方法 |
CN114898746A (zh) * | 2022-04-12 | 2022-08-12 | 青岛海尔科技有限公司 | 交互方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
US10971145B2 (en) | 2021-04-06 |
JP6713034B2 (ja) | 2020-06-24 |
US20190279628A1 (en) | 2019-09-12 |
CN108683937B (zh) | 2020-01-21 |
JP2019161636A (ja) | 2019-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108683937A (zh) | 智能电视的语音交互反馈方法、系统及计算机可读介质 | |
US11050683B2 (en) | System for providing dialog content | |
US10964300B2 (en) | Audio signal processing method and apparatus, and storage medium thereof | |
US10009303B2 (en) | Message push method and apparatus | |
CN104992709B (zh) | 一种语音指令的执行方法及语音识别设备 | |
US20210312671A1 (en) | Method and apparatus for generating video | |
CN108012173B (zh) | 一种内容识别方法、装置、设备和计算机存储介质 | |
CN107507615A (zh) | 界面智能交互控制方法、装置、系统及存储介质 | |
CN111739553A (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
CN108363556A (zh) | 一种基于语音与增强现实环境交互的方法和系统 | |
CN108133707A (zh) | 一种内容分享方法及系统 | |
US20230274471A1 (en) | Virtual object display method, storage medium and electronic device | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
WO2015089103A1 (en) | Method and system for processing voice messages | |
CN110444206A (zh) | 语音交互方法及装置、计算机设备与可读介质 | |
CN106789581A (zh) | 即时通讯方法、装置及系统 | |
WO2021227308A1 (zh) | 一种视频资源的生成方法和装置 | |
CN108965977A (zh) | 直播礼物的展示方法、装置、存储介质、终端和系统 | |
CN111158924A (zh) | 内容分享方法、装置、电子设备及可读存储介质 | |
EP4138355A1 (en) | In-vehicle voice interaction method and device | |
CN109241721A (zh) | 用于推送信息的方法和装置 | |
CN109495549A (zh) | 一种应用拉活的方法、设备和计算机存储介质 | |
CN111327910A (zh) | 应用程序的操作控制方法、装置、设备及存储介质 | |
CN112102836B (zh) | 语音控制屏幕显示方法、装置、电子设备和介质 | |
CN111985252B (zh) | 对话翻译方法及装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210511 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Patentee after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |