CN111225261B - 用于处理语音命令的多媒体装置及其控制方法 - Google Patents

用于处理语音命令的多媒体装置及其控制方法 Download PDF

Info

Publication number
CN111225261B
CN111225261B CN201911119320.8A CN201911119320A CN111225261B CN 111225261 B CN111225261 B CN 111225261B CN 201911119320 A CN201911119320 A CN 201911119320A CN 111225261 B CN111225261 B CN 111225261B
Authority
CN
China
Prior art keywords
voice
application
data
server
based data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911119320.8A
Other languages
English (en)
Other versions
CN111225261A (zh
Inventor
许承炫
金玄承
李香珍
李在京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN111225261A publication Critical patent/CN111225261A/zh
Application granted granted Critical
Publication of CN111225261B publication Critical patent/CN111225261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本发明公开了一种用于处理语音命令的多媒体装置及其控制方法。本发明的一个实施方式提供了一种多媒体装置,其包括:存储器,其中存储至少一个应用;应用管理器,其用于执行存储在存储器中的至少一个应用当中的任何应用;控制器,其从外部接收基于语音的数据,其中,控制器被配置为:响应于所接收的基于语音的数据,从当前执行的应用捕获视频数据;控制网络接口模块向服务器发送所捕获的视频数据、所接收的基于语音的数据和关于当前执行的应用的附加信息;并控制网络接口模块从服务器接收与基于语音的数据关联的反馈结果值,其中,针对相同的基于语音的数据,反馈结果值基于所捕获的视频数据和关于当前执行的应用的附加信息而变化。

Description

用于处理语音命令的多媒体装置及其控制方法
技术领域
本发明涉及一种用于处理语音命令的多媒体装置。该多媒体装置可以是STB(机顶盒)、移动终端、模拟电视、数字电视、智能电视、具有语音识别功能的柔性电视等。
背景技术
语音信号识别技术被分类为语音识别和说话人识别。语音识别被分为:说话人相关系统,其中仅针对特定说话人识别语音;以及说话人独立系统,其中识别语音而不管说话人如何。
更具体地讲,语音识别系统由三个步骤组成,包括语音检测、特征提取和语音识别/匹配(模式分类)。具体地,作为最后一步,下面更详细地描述语音识别/匹配。
从特征提取获得的特征向量经受相似度测量和识别处理。为了测量和识别相似度,采用了对语音的信号特性进行建模并比较的声学模型以及包括在识别的语音中的单词和音节的语言顺序关系的语言模型。声学模型被分为识别的对象被设定为特征向量模型并与输入信号的特征向量进行比较的直接比较方法以及识别的对象的特征向量以统计方式处理并使用的统计方法。在直接比较方法中,诸如单词和音素的单元作为识别的对象被设定为特征向量模型,并且确定输入语音与特征向量建模单元之间的相似度。代表性直接比较方法是向量量化方法。在向量量化方法中,先前获得的特征向量或系数被映射到作为现有模型的码本,因此被编码为代表值,这些代表值继而彼此进行比较。在统计模型方法中,识别的对象的单元被配置成状态序列,并且使用状态序列之间的关系。状态序列可允许表示复杂模型。因此,除了简单单词识别之外,大多数语音识别属于基于状态序列的统计模型方法。使用状态序列之间的关系的方法可包括诸如使用时间排列关系的DTW(动态时间规整)的方法、诸如使用概率值、平均值和方差作为要比较的对象的HMM(隐马尔可夫模型)的统计方法以及使用人工神经网络的方法。
然而,根据现有技术的语音识别技术仅聚焦于准确地识别用户所说的内容。因此,在现有技术中,对找出用户的实际意图的人工智能(AI)技术的研究相对较少。
此外,可应用于移动电话和智能TV的应用的数量成指数增加。在这方面,在现有技术中,没有提供针对各个应用优化的语音识别服务的方法。根据现有技术的语音识别服务仅被配置为装置特定的。
发明内容
本发明的一个实施方式(第一实施方式)在于考虑用户说出任何语音的时间和周围环境来精确地检测用户的意图,因此基于意图针对相同的语音提供不同的语音识别服务。
此外,本发明的另一实施方式(第二实施方式)在于提供一种使用关于在多媒体装置中执行的应用的信息来扩展可应用语音识别服务的解决方案。
根据本发明的实施方式,一种能够处理识别的基于语音的命令的多媒体装置包括:存储器,该存储器中存储至少一个应用;应用管理器,该应用管理器用于执行存储在所述存储器中的所述至少一个应用当中的任何应用;以及控制器,该控制器被配置为从外部接收基于语音的数据,其中,所述控制器被配置为:响应于所接收的基于语音的数据,从当前执行的应用捕获视频数据;控制网络接口模块向服务器发送所捕获的视频数据、所接收的基于语音的数据以及关于当前执行的应用的附加信息;并且控制所述网络接口模块从所述服务器接收与所述基于语音的数据关联的反馈结果值,其中,针对相同的基于语音的数据,所述反馈结果值基于所捕获的视频数据以及关于当前执行的应用的所述附加信息而变化。
根据本发明的另一实施方式,一种用于控制能够处理识别的基于语音的命令的多媒体装置的方法包括以下步骤:执行存储在存储器中的至少一个应用当中的任何应用;从外部接收基于语音的数据;响应于所接收的基于语音的数据,从当前执行的应用捕获视频数据;向服务器发送所捕获的视频数据、所接收的基于语音的数据以及关于当前执行的应用的附加信息;以及从所述服务器接收与所述基于语音的数据关联的反馈结果值,其中,针对相同的基于语音的数据,所述反馈结果值基于所捕获的视频数据以及关于当前执行的应用的所述附加信息而变化。
将理解,本发明的以上总体描述和以下详细描述二者均是示例性和说明性的,旨在提供对要求保护的本发明的进一步说明。
本发明的进一步的适用范围将从下文给出的详细描述而变得显而易见。然而,应该理解,仅例示性地在指示本发明的优选实施方式的同时给出详细描述和具体示例,因为对于本领域技术人员而言,通过该详细描述,在本发明的精神和范围内的各种改变和修改将变得显而易见。
附图说明
附图被包括以提供对本发明的进一步理解,并且被并入本申请并构成本申请的一部分,附图例示了本发明的实施方式并且与说明书一起用来说明本发明的原理。考虑以下结合附图对优选实施方式的描述,本发明的以上和其它方面、特征和优点将变得更显而易见。附图中:
图1是示出根据本发明的一个实施方式的包括数字装置的服务系统的示意图。
图2是示出根据本发明的一个实施方式的数字装置的框图。
图3是示出根据本发明的另一实施方式的数字装置的配置的框图。
图4是示出根据本发明的另一实施方式的数字装置的示图。
图5是示出根据本发明的一个实施方式的图2至图4的各个控制器的详细配置的框图。
图6是根据本发明的一个实施方式的连接到图2至图4的各个数字装置的输入单元的示图。
图7是示出根据本发明的一个实施方式的WebOS架构的示图。
图8是示出根据本发明的一个实施方式的WebOS装置的架构的示图。
图9是示出根据本发明的一个实施方式的WebOS装置中的图形组合流程的示图。
图10是示出根据本发明的一个实施方式的媒体服务器的示图。
图11是示出根据本发明的一个实施方式的媒体服务器的配置的框图。
图12是示出根据本发明的一个实施方式的媒体服务器与TV服务之间的关系的示图。
图13示出根据本发明的一个实施方式的能够处理基于语音的命令的多媒体装置的主要内部组件。
图14对根据本发明的一个实施方式的多媒体装置的存储器中存储的元数据的类型进行归类。
图15示出根据本发明的一个实施方式的多媒体装置使用关于应用的信息更准确地提取用户的语音的意图的处理。
图16示出根据本发明的一个实施方式的多媒体装置使用距当前识别的语音预设定时的先前识别的语音来更准确地提取用户的语音的意图的处理。
图17示出根据本发明的一个实施方式的多媒体装置使用广播信息来更准确地提取特定人和用户的语音的意图的处理。
图18示出根据本发明的一个实施方式的多媒体装置显示特定人的情况。
图19更详细地示出图17的处理。
图20示出图17至图19中提供的语音识别服务的结果。
图21示出图17所示的控制器位于多媒体装置外部的外部服务器中。
图22示出稍后描述的图23中要识别的特定对象。
图23示出根据本发明的一个实施方式的多媒体装置可使用捕获方案更准确地提取特定对象和用户的语音的意图的处理。
图24示出根据本发明的其它实施方式之一的在执行任意应用的同时多媒体装置接收第一基于语音的命令的情况。
图25详述了根据本发明的另一实施方式的在执行任意应用的同时多媒体装置处理第一基于语音的命令的处理。
图26示出根据本发明的另一实施方式的在执行任意应用的同时多媒体装置接收第二基于语音的命令的情况。
图27详述了根据本发明的另一实施方式的在正执行任意应用的情况下多媒体装置处理第二基于语音的命令的处理。
具体实施方式
现在将参照附图根据本文公开的实施方式详细给出描述。为了参照附图简要描述,可为相同或等同的组件提供相同或相似的标号,其描述将不再重复。通常,诸如“模块”和“单元”的后缀可用于指代元件或组件。本文使用这种后缀仅是为了方便说明书的描述,后缀本身并非旨在给予任何特殊含义或功能。在本公开中,通常为了简明起见,省略了相关领域的普通技术人员熟知的内容。使用附图来帮助容易地理解各种技术特征,应该理解,本文呈现的实施方式不受附图的限制。因此,本发明应该被解释为扩展至附图中具体示出的更改形式、等同形式和替代形式以外的任何更改形式、等同形式和替代形式。
在以下描述中,参照附图说明根据本发明的各种实施方式。
图1示出根据本发明的实施方式的包括数字接收机的广播系统。
参照图1,包括数字接收机的广播系统的示例可包括内容提供商(CP)10、服务提供商(SP)20、网络提供商(NP)30以及家庭网络终端用户(HNED)(客户)40。HNED 40包括客户端100(即,数字接收机)。
CP 10、SP 20和NP 30中的每一个或其组合可被称为服务器。HNED 40也可用作服务器。术语“服务器”意指在数字广播环境中向另一实体发送数据的实体。考虑服务器-客户端概念,服务器可被视为绝对概念和相对概念。例如,一个实体在与第一实体的关系中可以是服务器,在与第二实体的关系中可以是客户端。
CP 10是生成内容的实体。参照图1,CP 10可包括第一地面广播商或第二地面广播商、有线系统运营商(SO)、多系统运营商(MSO)、卫星广播商、各种互联网广播商、私有内容提供商(CP)等。所述内容可包括应用以及广播内容。
SP 20将CP 10所提供的内容打包。参照图1,SP 20将CP 10所提供的内容打包为用户可用的一个或更多个服务。
SP 20可按照单播或多播方式将服务提供给客户端100。
CP 10和SP 20可按照一个实体的形式配置。例如,CP 10可通过生成内容并且将所生成的内容直接打包为服务而用作SP 20,反之亦然。
NP 30可提供用于服务器10和/或20与客户端100之间的数据交换的网络环境。NP30支持有线/无线通信协议并且为其构建环境。另外,NP 30可提供云环境。
客户端100可构建家庭网络并且发送/接收数据。
服务器可使用和请求诸如条件访问的内容保护手段。在这种情况下,客户端100可使用与服务器的内容保护手段对应的诸如有线电视卡或可下载CAS(DCAS)的手段。
另外,客户端100可通过网络使用交互服务。在这种情况下,客户端100可在与另一客户端的关系中直接充当CP 10和/或SP 20,或者间接用作另一客户端的服务器。
图2是根据本发明的实施方式的数字接收机200的示意图。数字接收机200可对应于图1所示的客户端100。
数字接收机200可包括网络接口201、TCP/IP管理器202、服务传送管理器203、SI(系统信息、服务信息或信令信息)解码器204、解复用器205、音频解码器206、视频解码器207、显示A/V和OSD(屏幕显示)模块208、服务控制管理器209、服务发现管理器210、SI和元数据数据库(DB)211、元数据管理器212、应用管理器等。
网络接口201可通过网络接收或发送包括服务数据的IP分组。换言之,网络接口201可通过网络从与其连接的服务器接收用于SNS的包括文本数据、图像数据、音频数据和视频数据以及服务和应用中的至少一个的IP分组。
TCP/IP管理器202可参与发送给数字接收机200的IP分组和从数字接收机200发送的IP分组的传送,即,源与目的地之间的分组传送。TCP/IP管理器202可根据适当协议将接收的分组分类,并将分类的分组输出给服务传送管理器205、服务发现管理器210、服务控制管理器209和元数据管理器212。
服务传送管理器203可控制服务数据的分类和处理。服务传送管理器203可(例如)利用实时协议/实时控制协议(RTP/RTCP)控制实时流数据。换言之,在服务管理器213的控制下,服务传送管理器203可根据RTP解析基于RTP发送的实时流数据分组,并将解析的数据分组发送给解复用器205或者将解析的数据分组存储在SI和元数据DB 211中。服务传送管理器203可基于RTP将网络接收信息反馈给服务器。
解复用器205可通过分组标识符(PID)过滤来从接收的分组解复用音频数据、视频数据、SI,并将解复用的数据发送给对应的处理器,即,音频/视频解码器206/207和SI解码器204。
SI解码器204可解析和/或解码诸如节目特定信息(PSI)、节目和系统信息协议(PSIP)、数字视频广播-服务信息(DVB-SI)等的SI数据。
SI解码器204可将解析和/或解码的SI数据存储在SI和元数据DB 211中。存储在SI和元数据DB 211中的SI数据可被需要SI数据的组件读取或提取并使用。还可从SI和元数据DB 211读取EPG数据。这将在下面详细描述。
音频解码器206和视频解码器207可分别对由解复用器205解复用的音频数据和视频数据解码。解码的音频数据和视频数据可通过显示单元208提供给用户。
应用管理器可包括服务管理器213和用户接口(UI)管理器214,管理数字接收机200的总体状态,提供UI,并管理其它管理器。
UI管理器214可接收来自用户的键输入,并通过OSD提供与键输入所对应的接收机操作有关的图形用户界面(GUI)。
服务管理器213可控制并管理诸如服务传送管理器203、服务发现管理器210、服务控制管理器209和元数据管理器212的服务相关管理器。
服务管理器213可配置频道映射并允许基于该频道映射应用户的请求进行频道控制。
服务管理器213可从SI解码器204接收与频道对应的服务信息,并将选择的频道的音频/视频PID设定给解复用器205以控制解复用器205的解复用程序。
应用管理器可配置OSD图像或控制OSD图像的配置以在用户请求SNS时在画面的预定区域上提供用于SNS的窗口。应用管理器可配置OSD图像或控制OSD图像的配置,使得可应用户的请求考虑其它服务(例如,广播服务)来确定和提供SNS窗口。换言之,当数字接收机200可通过画面上的图像提供服务(例如,SNS)时,数字接收机200可配置图像,使得其可考虑与其它服务的关系、优先级等来适当地应对请求。
应用管理器可从相关的外部服务器(例如,SNS提供服务器或者制造商提供的服务器)接收用于SNS的数据并将所接收的数据存储在存储器中,使得该数据用于配置用于应用户的请求提供SNS的OSD并且可通过画面的预定区域提供SNS。此外,数字接收机200可将与服务相关并在服务期间由用户输入的数据按照类似的方式存储在存储器中,使得该数据用于配置服务,并且如果需要,将数据处理成另一数字接收机所需的形式并将处理的数据发送到所述另一数字接收机或相关服务服务器。
另外,当用户在使用SNS时做出请求时,应用管理器、控制器或数字接收机可控制与用户的请求对应的信息或动作被执行。例如,当用户在使用SNS时选择另一用户的输入数据或者与输入数据对应的区域时,应用管理器、控制器或数字接收机可控制执行用于处理所选择的数据或区域的第一处理和/或第二处理并且控制以适当的形式输出第一结果和/或第二结果。第一结果和/或第二结果可包括信息、动作、相关UI等,并且按照诸如文本、图像、音频/视频数据等的各种形式配置。第一结果和/或第二结果可手动地或自动地由数字接收机提供和执行。
当用户通过拖放将第一结果(例如,图像数据)移动到广播节目或广播服务输出区域时,数字接收机可使用电子节目指南(EPG)或电子服务指南(ESG)(以下称为“广播指南”)(即,搜索引擎)对与第一结果有关的数据执行第二处理(例如,搜索处理)以提供第二结果。这里,第二结果可按照与用作搜索引擎的广播指南相似的方式提供或者作为单独配置的UI提供。当按照广播指南的形式提供第二结果时,可随第二结果提供其它数据。在这种情况下,第二结果可被配置为使得其与其它数据相区分以允许用户容易地识别第二数据。为了将第二结果与其它数据相区别,第二结果可被高亮、加阴影以及按照3维(3D)形式提供。
在执行第二处理时,数字接收机可基于第一结果的位置变化来自动地确定第二处理的类型以及是否执行第二处理。在这种情况下,画面的坐标信息可用于确定第一结果的位置是否改变或者用于关于第二处理和第一结果之间的改变的位置的信息。例如,当服务和/或OSD可显示在画面上时,数字接收机可确定并存储关于所显示的服务和/或OSD的坐标信息。因此,数字接收机可预先知道关于提供到画面的服务和数据的坐标信息,因此可基于坐标信息识别第一结果的位置(信息)的变化并基于第一结果的位置执行第二处理。
服务发现管理器210可提供选择提供服务的服务提供商所需的信息。在从服务管理器213接收到选择频道的信号时,服务发现管理器210基于接收的信号来发现服务。
服务控制管理器209可选择并控制服务。例如,服务控制管理器209可在用户选择直播服务时利用IGMP(互联网组管理协议)或实时流协议(RTSP),在用户选择视频点播(VOD)服务时利用RTSP,来执行服务选择和控制。
说明书中所描述的方案或协议是为了说明方便而举例说明的,以便帮助理解本发明,本发明的范围不限于此。因此,可考虑与所举例说明的条件不同的条件来确定方案或协议,并且可使用其它方案或协议。
元数据管理器212可管理关于服务的元数据,并将元数据存储在SI和元数据DB211中。
SI和元数据DB 211可存储由SI解码器204解码的SI数据、由元数据管理器212管理的元数据以及由服务发现管理器210提供的选择服务提供商所需的信息。另外,SI和元数据DB 211可存储系统设置数据。
IMS(IP多媒体子系统)网关250可包括访问基于IMS的IPTV服务所需的功能。
图3是根据本发明的实施方式的移动终端300的框图。参照图3,移动终端300包括无线通信单元310、A/V(音频/视频)输入单元320、用户输入单元330、感测单元340、输出单元350、存储器360、接口单元370、控制器380和电源单元390。图3示出移动终端300具有各种组件,但是将理解,并不要求实现所有示出的组件。可根据各种实施方式实现更多或更少的组件。
无线通信单元310通常包括允许移动终端300与无线通信系统或移动终端300所在的网络之间的无线通信的一个或更多个组件。例如,无线通信单元110可包括广播接收模块311、移动通信模块312、无线互联网模块313、短距离通信模块314和定位模块315。
广播接收模块311经由广播频道从外部广播管理服务器接收广播信号和/或广播相关信息。广播频道可包括卫星频道和地面频道。移动终端300中可设置至少两个广播接收模块311以方便至少两个广播频道的同时接收或广播频道切换。
广播管理服务器通常是产生并发送广播信号和/或广播相关信息的服务器,或者被提供有先前产生的广播信号和/或广播相关信息,然后将提供的信号或信息发送给终端的服务器。广播信号可被实现为TV广播信号、无线电广播信号和/或数据广播信号,以及其它信号。如果需要,广播信号还可包括与TV或无线电广播信号结合的广播信号。
广播相关信息包括与广播频道、广播节目或广播服务提供商相关的信息。另外,广播相关信息可经由移动通信网络来提供。在这种情况下,广播相关信息可通过移动通信模块312来接收。
广播相关信息可按照各种形式实现。例如,广播相关信息可包括数字多媒体广播(DMB)的电子节目指南(EPG)以及手持数字视频广播(DVB-H)的电子服务指南(ESG)。
广播接收模块311可被配置为接收从各种类型的广播系统发送来的广播信号。作为非限制性示例,这些广播系统可包括地面数字多媒体广播(DMB-T)、卫星数字多媒体广播(DMB-S)、手持数字视频广播(DVB-H)、广播和移动服务融合的数字视频广播(DVB-CBMS)、开放移动联盟广播(OMA-BCAST)、称为仅媒体前向链路(MediaFLOTM)的数据广播系统以及地面综合业务数字广播(ISDB-T)。可选地,广播接收模块311可被配置为除了上述数字广播系统之外还适用于其它广播系统。
通过广播接收模块311接收的广播信号和/或广播相关信息可被存储在诸如存储器360的合适的装置中。
移动通信模块312经由诸如GSM(全球移动通信系统)、CDMA(码分多址)或WCDMA(宽带CDMA)的移动网络,向一个或更多个网络实体(例如,基站、外部终端和/或服务器)发送无线信号/从其接收无线信号。这些无线信号可承载音频、视频以及根据文本/多媒体消息的数据。
无线互联网模块313支持移动终端300的互联网接入。该模块可内部或外部连接至移动终端300。无线互联网技术可包括WLAN(无线LAN)、Wi-Fi、WibroTM(无线宽带)、WimaxTM(全球微波接入互操作性)、HSDPA(高速下行链路分组接入)、GSM、CDMA、WCDMA或LTE(长期演进)。
通过WibroTM、HSPDA、GSM、CDMA、WCDMA或LTE的无线互联网接入经由移动通信网络来实现。在这方面,无线互联网模块313可被视为一种移动通信模块312以经由移动通信网络执行无线互联网接入。
短距离通信模块314方便相对短距离的通信。用于实现此模块的合适的技术包括射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、以及常称为蓝牙TM和ZigBeeTM的联网技术(仅举几个例子)。
定位模块315识别或者获得移动终端100的位置。根据一个实施方式,该模块可用全球定位系统(GPS)模块来实现。GPS模块315能够通过从至少三个卫星计算距离信息和精确时间信息,然后对计算的信息应用三角测量法,来基于至少经度、纬度或高度和方向(或取向)精确计算当前3维位置信息。利用三个卫星来计算位置信息和时间信息,然后利用另一卫星来修正(或校正)计算的定位以及一个或更多个时间信息的误差。另外,GPS模块315能够通过连续计算实时的当前位置来计算速度信息。
继续参照图3,音频/视频(A/V)输入单元320被配置为向移动终端300提供音频或视频信号输入。如图所示,A/V输入单元320包括相机321和麦克风322。相机321接收并处理在视频呼叫模式或拍照模式下通过图像传感器获得的静止画面或视频的图像帧。另外,经处理的图像帧可显示在显示器351上。
由相机321处理的图像帧可存储在存储器360中,或者可经由无线通信单元310被发送给外部接收方。可选地,可根据使用环境在移动终端300中设置至少两个相机321。
在便携式装置处于特定模式(例如,电话呼叫模式、录制模式和语音识别模式)时,麦克风322接收外部音频信号。该音频信号被处理并转换为电音频数据。在呼叫模式下处理的音频数据被变换成能够经由移动通信模块312发送给移动通信基站的格式。麦克风322通常包括各种各样的噪声去除算法以去除在接收外部音频信号的过程中产生的噪声。
用户输入单元330响应于用户对相关输入装置的操纵产生输入数据。这些装置的示例包括键区、薄膜开关、触摸板(例如,静压/电容)、滚轮和触合式开关(jog switch)。
感测单元340提供感测信号以利用移动终端的各个方面的状态测量值来控制移动终端300的操作。例如,感测单元340可检测移动终端100的打开/关闭状态、移动终端300的组件(例如,显示器和键区)的相对定位、移动终端300或移动终端300的组件的位置改变、是否存在用户与移动终端300的接触以及移动终端300的取向或加速/减速。例如,考虑被配置为滑盖型移动终端的移动终端300。在这种配置中,感测单元340可感测移动终端的滑动部分是打开还是闭合的。根据其它示例,感测单元340感测电源单元390是否供电以及接口单元370与外部装置之间是否存在联接或其它连接。根据一个实施方式,感测单元340可包括接近传感器341。
输出单元350生成与视觉、听觉和触觉有关的输出。另外,输出单元350包括显示器351、音频输出模块352、警报单元353、触觉模块354和投影仪模块355。
显示器351通常被实现为视觉显示(输出)与移动终端300相关的信息。例如,如果移动终端在电话呼叫模式下操作,则显示器通常将提供用户界面(UI)或图形用户界面(GUI)(其包括与电话呼叫的发起、进行和终止相关的信息)。又如,如果移动终端300处于视频呼叫模式或拍照模式,则显示器351可另外地或另选地显示与这些模式相关的图像、UI或GUI。
显示模块351可利用已知显示技术实现。这些技术包括(例如)液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管显示器(OLED)、柔性显示器和三维显示器。移动终端300可包括这些显示器中的一个或更多个。
这些显示器中的一些可被实现为透明或光学透射型,即,透明显示器。透明显示器的代表性示例是TOLED(透明OLED)。显示器351的背面配置也可被实现为光学透射型。在这种配置中,用户能够在终端主体的显示器351的一部分上看到位于终端主体背后的物体。
根据移动终端300的一个实施方式,可在移动终端300中设置至少两个显示器351。例如,多个显示器可彼此间隔开或形成一体地布置在移动终端300的单面上。另选地,多个显示器可布置在移动终端300的不同面上。
如果显示器351和用于检测触摸动作的传感器(以下称为“触摸传感器)被配置成相互层结构(以下称为“触摸屏”),则除了输出装置之外,显示器351还能用作输入装置。在这种情况下,触摸传感器可被配置为触摸膜、触摸片或触摸板。
触摸传感器可被配置为将施加于显示器351的特定部分的压力或从显示器351的特定部分产生的电容变化转换为电输入信号。另外,触摸传感器可被配置为检测触摸压力以及触摸位置或尺寸。
如果对触摸传感器进行了触摸输入,则与该触摸输入对应的信号被传送至触摸控制器。触摸控制器处理所述信号,然后将处理的信号传送给控制器380。因此,使控制器380知道显示器351的指定部分何时被触摸。
参照图3,可在移动终端300的被触摸屏包围的内部区域或触摸屏周围设置接近传感器341。接近传感器是在没有机械接触的情况下,利用电磁场强度或红外线检测是否存在靠近指定检测表面的物体或者存在于(或位于)接近传感器周围的物体的传感器。因此,接近传感器341比接触型传感器更耐用,并且实用性也比接触型传感器广。
接近传感器341可包括透射型光电传感器、直接反射型光电传感器、反射镜反射型光电传感器、射频振荡接近传感器、静电容量接近传感器、磁性接近传感器和红外接近传感器中的一种。如果触摸屏包括静电容量接近传感器,则其被配置为利用电场随指点器的接近而发生的变化来检测指点器的接近。在这种配置中,触摸屏(触摸传感器)可被视为接近传感器。
为了说明清晰和方便起见,使得靠近触摸屏的指点器能够被识别为置于触摸屏上的动作可被命名为“接近触摸”,使得指点器能够与触摸屏实际接触的动作可被命名为“接触触摸”。并且,利用指点器对触摸屏进行接近触摸的位置可表示当指点器进行接近触摸时与触摸屏垂直对应的指点器的位置。
接近传感器检测接近触摸和接近触摸模式(例如,接近触摸距离、接近触摸持续时间、接近触摸位置、接近触摸移位状态)。与检测到的接近触摸动作和检测到的接近触摸模式对应的信息可输出给触摸屏。
音频输出模块352在各种模式(包括呼叫接收模式、呼叫发起模式、录制模式、语音识别模式和广播接收模式)下起作用,以输出从无线通信单元310接收或存储在存储器360中的音频数据。在操作期间,音频输出模块352输出与特定功能(例如,接收到呼叫、接收到消息)有关的音频。音频输出模块352可利用一个或更多个扬声器、蜂鸣器、其它音频生成装置以及这些装置的组合来实现。
警报单元353输出用于通报发生与移动终端300相关的特定事件的信号。典型事件包括呼叫接收、消息接收和触摸输入接收。警报单元353能够通过振动以及视频或音频信号来输出通报事件发生的信号。视频或音频信号可经由显示器351或音频输出模块352输出。因此,显示器351或音频输出模块352可被视作警报单元353的一部分。
触觉模块354产生用户能够感觉到的各种触觉效果。振动是触觉模块354所产生的一种代表性触觉效果。触觉模块354所产生的振动的强度和模式是可控的。例如,不同的振动可按照合成在一起的方式来输出,或者可顺序输出。
除了振动之外,触觉模块354还能够产生各种触觉效果。例如,触觉模块354可产生归因于插针排列抵靠接触皮肤表面垂直移动的效果、归因于通过注入/抽吸孔对空气的注入/抽吸力的效果、归因于擦过皮肤表面的效果、归因于与电极接触的效果、归因于静电力的效果以及归因于利用吸热或发热装置表现热/冷感觉的效果。
除了通过直接接触传递触觉效果之外,触觉模块354还可被实现为使得用户能够通过手指或手臂的肌肉觉来感觉到触觉效果。可选地,根据移动终端300的实施方式,可在移动终端300中设置至少两个触觉模块354。
存储器360通常用于存储各种类型的数据,以支持移动终端300的处理、控制和存储要求。这些数据的示例包括在移动终端300上操作的应用的程序指令、联系人员数据、电话簿数据、消息、音频、静止画面(或照片)和移动画面。另外,各个数据的最近使用历史或累积使用频率(例如,各个电话簿、各个消息或各个多媒体文件的使用频率)可存储在存储器360中。
另外,响应于对触摸屏的触摸输入而输出的各种模式的振动和/或声音的数据可存储在存储器360中。
存储器360可利用任何类型的合适的易失性和非易失性存储器或存储装置或其组合来实现,包括硬盘、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘、多媒体卡微型存储器、卡型存储器(例如,SD存储器或XD存储器)、或者其它类似的存储器或数据存储装置。另外,移动终端300能够与在互联网上执行存储器360的存储功能的Web存储器关联地操作。
接口单元370可被实现为将移动终端100与外部装置连接。接口单元370从外部装置接收数据或者被供电,然后将数据或电力传送给移动终端300的相应元件,或者使得移动终端300内的数据能够被传送给外部装置。接口单元370可利用有线/无线头戴式耳机端口、外部充电器端口、有线/无线数据端口、存储卡端口、用于连接至具有标识模块的装置的端口、音频输入/输出端口、视频输入/输出端口和/或耳机端口来配置。
所述标识模块是存储用于验证移动终端300的使用权限的各种类型的信息的芯片,并且可包括用户标识模块(UIM)、订户标识模块(SIM)和/或全球订户标识模块(USIM)。具有标识模块的装置(以下称为“标识装置”)可被制造为智能卡。因此,标识装置能够经由对应端口连接至移动终端300。
当移动终端300连接至外部托架时,接口单元370变成向移动终端300供应来自托架的电力的通道,或者将由用户从托架输入的各种命令信号输送给移动终端300的通道。从托架输入的各种命令信号或电力中的每一个可用作使得移动终端300能够识别出其正确加载到托架中的信号。
控制器380通常控制移动终端300的总体操作。例如,控制器380执行与语音呼叫、数据通信和视频呼叫相关的控制和处理。控制器380可包括提供多媒体回放的多媒体模块381。多媒体模块381可被配置成控制器380的一部分,或者被实现为单独的组件。
另外,控制器380能够执行模式(或图像)识别处理,以将触摸屏上所执行的书写输入和绘画输入分别识别为字符或图像。
电源单元390提供移动终端300的各种组件所需的电力。所述电力可为内部电力、外部电力或者内部电力和外部电力的组合。
本文所述的各种实施方式可利用例如计算机软件、硬件或者计算机软件和硬件的一些组合在计算机可读介质中实现。对于硬件实现方式,本文所述的实施方式可实现于一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行本文所述的功能的其它电子单元、或其选择性组合内。这些实施方式还可通过控制器180来实现。
对于软件实现方式,本文所述的实施方式可利用单独的软件模块(例如,程序和函数)来实现,其各自执行本文所述的一个或更多个功能和操作。软件代码可利用以任何合适的编程语言编写的软件应用来实现,并且可存储在诸如存储器160的存储器中,并由诸如控制器380的控制器或处理器执行。
图4示出根据本发明的另一实施方式的数字接收机。
参照图4,根据本发明的示例性数字接收机400可包括广播接收单元405、外部装置接口435、存储单元440、用户输入接口450、控制器470、显示单元480、音频输出单元485、电源单元490和拍摄单元(未示出)。广播接收单元305可包括一个或更多个调谐器410、解调器420和网络接口430中的至少一个。广播接收单元405可包括调谐器410和解调器420而没有网络接口430,或者可包括网络接口430而没有调谐器410和解调器420。广播接收单元405可包括复用器(未示出)以对经受调谐器410并被解调器420解调的信号和通过网络接口40接收的信号进行复用。另外,广播接收单元405可包括解复用器(未示出)并且将复用的信号、解调的信号或者通过网络接口430接收的信号解复用。
调谐器410可通过调谐至用户从通过天线接收的RF广播信号或者所有先前存储的频道当中选择的频道来接收射频(RF)广播信号。
解调器420可接收通过调谐器410转换的数字IF(中频)信号(DIF),并且解调DIF信号。
从解调器420输出的流信号可输入至控制器470。控制器470可控制解复用、音频/视频信号处理等。另外,控制器470可控制通过显示单元480的图像输出以及通过音频输出单元485的音频输出。
外部装置接口435可提供用于将外部装置与数字接收机400接口连接的环境。为此,外部装置接口435可包括A/V输入/输出单元(未示出)或者RF通信单元(未示出)。
外部装置接口435可按照有线/无线方式与诸如数字多功能盘(DVD)、蓝光播放器、游戏装置、相机、摄像机、计算机(气象计算机)、云和移动装置(例如,智能电话、平板等)的外部装置连接。
A/V输入/输出单元可包括USB(通用串行总线)端子、复合视频消隐同步(CVBS)端子、组件端子、S视频端子(模拟)、数字视觉接口(DVI)端子、高清多媒体接口(HDMI)端子、红绿蓝(RGB)端子、D-SUB端子等。
RF通信单元可执行近场通信。例如,数字接收机400可根据诸如蓝牙、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、ZigBee和数字生活网络联盟(DLNA)的通信协议与其它电子设备联网。
网络接口430可提供用于将数字接收机400连接到有线/无线网络的接口。
利用网络接口430,数字接收机可向其他用户或其它电子设备发送数据/从其接收数据,或者通过与其连接的网络或者与所连接的网络链接的另一网络访问预定网页。
网络接口430可通过网络选择性地接收公共开放应用当中的期望应用。
存储单元440可存储用于信号处理的程序,并且控制和存储处理的视频、音频或数据信号。
另外,存储单元440可执行临时存储从外部装置接口435或网络接口430输入的视频、音频或数据信号的功能。存储单元440可通过频道记忆功能存储关于预定广播频道的信息。
存储单元440可存储从外部装置接口435或网络接口430输入的应用或应用列表。存储单元440可存储各种平台(将稍后描述)。存储单元440可包括一种或更多种类型的存储介质,例如闪存型、硬盘型、微型多媒体卡型、卡型存储器(例如,SD或XD存储器)、RAM、EEPROM等。数字接收机400可再现内容文件(视频文件、静止图像文件、音乐文件、文本文件、应用文件等)并将它们提供给用户。
尽管图4示出存储单元440与控制器470分离的实施方式,数字接收机400的配置不限于此,存储单元440可包括在控制器470中。
用户输入接口450可将用户所输入的信号发送给控制器470,或者将从控制器470输出的信号传送给用户。
例如,用户输入接口450可根据诸如RF通信、IR通信等的各种通信方案,从遥控器500接收诸如电源开/关信号、频道选择信号、图像设置信号等的控制信号或者将控制器470的控制信号发送给遥控器500。
用户输入接口450可将通过电源键、频道键、音量键和设定值的本地键(未示出)输入的控制信号发送给控制器470。
用户输入接口450可发送从感测用户的手势的感测单元(未示出)输入的控制信号,或者将控制器470的信号传送给感测单元(未示出)。这里,感测单元(未示出)可包括触摸传感器、语音传感器、位置传感器、动作传感器、加速度传感器、陀螺仪传感器、速度传感器、倾斜传感器、温度传感器、压力或背压传感器等。
控制器470可通过将经由调谐器410、解调器420或外部装置接口435输入的流解复用或者处理解复用的信号来生成并输出信号以用于视频或音频输出。
由控制器470处理的视频信号可被输入给显示单元380并且通过显示单元480显示为图像。另外,由控制器470处理的视频信号可通过外部装置接口435被输入给外部输出装置。
由控制器470处理的音频信号可被施加给音频输出单元485。或者,由控制器470处理的音频信号可通过外部装置接口435被施加到外部输出装置。
控制器470可包括解复用器和图像处理器(图4中未示出)。
控制器470可控制数字接收机300的总体操作。例如,控制器470可控制调谐器410调谐至与用户所选择的频道或者先前存储的频道对应的RF广播。
控制器470可根据通过用户输入接口450或者内部程序输入的用户命令控制数字接收机400。具体地讲,控制器470可控制数字接收机400链接到网络以将用户期望的应用或应用列表下载到数字接收机400。
例如,控制器470可控制调谐器410接收响应于通过用户输入接口450接收的预定频道选择命令而选择的频道的信号。另外,控制器470可处理与所选择的频道对应的视频、音频或数据信号。控制器470可控制关于用户所选择的频道的信息通过显示单元480或音频输出单元485随处理的视频或音频信号一起输出。
另选地,控制器470可根据通过用户输入接口450接收的外部装置图像再现命令,控制通过外部装置接口435从外部设备(例如,相机或摄像机)接收的视频信号或音频信号通过显示单元480或音频输出单元485输出。
控制器470可控制显示单元480显示图像。例如,控制器470可控制通过调谐器410输入的广播图像、通过外部装置接口435接收的外部输入图像、通过网络接口430输入的图像或者存储在存储单元440中的图像显示在显示单元480上。这里,显示在显示单元480上的图像可以是静止图像或视频,并且它可以是2D或3D图像。
控制器470可控制内容的再现。这里,所述内容可以是存储在数字接收机400中的内容、接收的广播内容或者从外部装置输入的内容。所述内容可包括广播图像、外部输入图像、音频文件、静止图像、链接的网页的图像和文本文件中的至少一个。
当应用查看菜单被选择时,控制器470可控制可从数字接收机400或外部网络下载的应用或应用列表的显示。
除了各种用户接口以外,控制器470可控制从外部网络下载的应用的安装和执行。另外,控制器470可控制与通过用户选择执行的应用有关的图像显示在显示单元480上。
数字接收机400还可包括生成与频道信号或外部输入信号对应的缩略图图像的频道浏览处理器(未示出)。
频道浏览处理器可接收从解调器420输出的流信号(例如,TS)或者从外部装置接口435输出的流信号,并且从接收的流信号提取图像以生成缩略图图像。所生成的缩略图图像可被直接输入给控制器470,或者可被编码然后输入给控制器470。另外,缩略图图像可被编码成流,然后应用于控制器470。控制器470可利用输入的缩略图图像在显示单元480上显示包括多个缩略图图像的缩略图列表。包括在缩略图列表中的缩略图图像可被顺序或同时地更新。因此,用户可方便地查看多个广播频道的内容。
显示单元480可将控制器470所处理的视频信号、数据信号和OSD信号以及从外部装置接口435接收的视频信号和数据信号转换为RGB信号,以生成驱动信号。显示单元480可以是PDP、LCD、OLED、柔性显示器、3D显示器等。显示单元480可被配置成触摸屏并用作输入装置,而非输出装置。音频输出单元485接收由控制器470进行了音频处理的信号(例如,立体声信号、3.1声道信号或5.1声道信号),并且将接收的信号输出为音频。音频输出单元485可被配置成各种扬声器之一。
数字接收机400还可包括用于感测用户的手势的感测单元(未示出),如上所述,该感测单元包括触摸传感器、语音传感器、位置传感器和动作传感器中的至少一个。由感测单元(未示出)感测的信号可通过用户输入接口450被传送给控制器470。数字接收机400还可包括用于拍摄用户的拍摄单元(未示出)。通过拍摄单元(未示出)获取的图像信息可被供应给控制器470。控制器470可从拍摄单元(未示出)所捕获的图像或者感测单元(未示出)所感测的信号,或者通过组合所述图像和所述信号,来感测用户的手势。
电源单元490可向数字接收机400供电。具体地讲,电源单元490可向可被实现为系统芯片(SoC)的控制器470、用于显示图像的显示单元480以及用于音频输出的音频输出单元485供电。
遥控器500可将用户输入发送给用户输入接口450。为此,遥控器500可使用蓝牙、RF通信、IR通信、UWB、ZigBee等。另外,遥控器500可接收从用户输入接口350输出的音频、视频或数据信号,并且显示接收的信号或者将接收的信号输出为音频或振动。
图2所示的应用管理器的功能可被分割并由控制器470、由控制器470控制的存储单元440、用户接口450、显示单元480和音频输出单元485执行。
图2和图4所示的数字接收机是示例性的,其组件可根据其规格而被集成、添加或省略。即,如果需要,两个或更多个组件可被集成为一个组件,或者一个组件可被再分成两个或更多个组件。各个组件所执行的功能被举例说明以描述本发明的实施方式,详细操作或装置不限制本发明的范围。如果需要,图2所示的一些组件可被省略,或者可添加(图2中未示出的)组件。不同于图2和图4所示的数字接收机,根据本发明的数字接收机可不包括调谐器和解调器,并且可通过网络接口或外部装置接口接收内容并再现所述内容。
数字接收机是处理存储在其中的图像或输入图像的图像信号处理器的示例。图像信号处理器的其它示例可包括不包括显示单元380和图4所示的音频输出单元485的机顶盒(STB)、DVD播放器、蓝光播放器、游戏装置、计算机等。
图5示出根据本发明的另一实施方式的数字接收机。具体地讲,图5示出用于实现可被包括在图2和图3的配置中的3D数字接收机的配置。
根据本发明的数字接收机可包括解复用器510、图像处理器520、OSD生成器540、混合器550、帧速率转换器(FRC)555和3D格式化器(或输出格式化器)560。
例如,解复用器510可将输入的流信号解复用为MPEG-2TS图像、音频信号和数据信号。
图像处理器可利用视频解码器525和缩放器535处理解复用的图像信号。视频解码器525可将解复用的图像信号解码,并且缩放器535可缩放解码的图像信号的分辨率,使得图像信号可被显示。
由图像处理器520解码的图像信号可被输入给混合器550。
OSD生成器540可自动地或者根据用户输入生成OSD数据。例如,OSD生成器540可基于用户输入接口的控制信号以图像或文本的形式生成要显示在输出单元的屏幕上的数据。由OSD生成器540生成的OSD数据可包括诸如数字接收机的用户界面图像、各种菜单画面、微件、图标以及关于收视率的信息的各种数据。OSD生成器540可生成广播图像的字幕或用于显示基于EPG的广播信息的数据。
混合器550可将OSD生成器540所生成的OSD数据和图像处理器520所处理的图像信号混合。混合器550可将混合的信号提供给3D格式化器560。通过将解码的图像信号和OSD数据混合,OSD可叠加在广播图像或外部输入图像上。
帧速率转换器(FRC)555可转换输入视频的帧速率。例如,帧速率转换器555可根据输出单元的输出频率将输入的60Hz视频的帧速率转换为120Hz或240Hz的帧速率。当没有执行帧转换时,帧速率转换器555可被绕过。
3D格式化器560可将输入的帧速率转换器555的输出改变为适合于输出单元的输出格式的形式。例如,3D格式化器560可输出RGB数据信号。在这种情况下,此RGB数据信号可根据低压差分信号(LVDS)或微型LVDS来输出。当从帧速率转换器555输出的3D图像信号被输入给3D格式化器560时,3D格式化器560可将3D图像信号格式化,使得3D图像信号与输出单元的输出格式匹配,由此支持3D服务。
音频处理器(未示出)可对解复用的音频信号进行音频处理。音频处理器(未示出)可支持各种音频格式。例如,当音频信号按照MPEG-2、MPEG-4、高级音频编码(AAC)、高效AAC(HE-AAC)、AC-3和比特切片音频编码(BSAC)格式编码时,音频处理器(未示出)可包括与所述格式对应的解码器以处理音频信号。另外,音频处理器(未示出)可控制低音、高音和音量。
另外,数据处理器(未示出)可处理解复用的数据信号。例如,当解复用的数据信号被编码时,数据处理器(未示出)可将编码的解复用数据信号解码。这里,编码的数据信号可以是EPG信息,该EPG信息包括诸如通过各个频道广播的广播节目的开始时间和结束时间(或持续时间)的广播信息。
图6示出根据本发明的实施方式的数字接收机的遥控器。
为了执行用于实现根据实施方式的本发明的各种操作,可按照有线/无线方式与数字接收机600通信的各种用户接口装置(UID)可用作遥控器。
遥控器可使用诸如蓝牙、RFID、IrDA、UWB、ZigBee、DLNA等的各种通信协议。
除了一般遥控器610以外,UID还可包括移动装置(例如,智能电话、平板PC等)、魔幻遥控器620以及配备有键盘和触摸板的遥控器630。
魔幻遥控器620可包括安装在其中的陀螺仪传感器以感测用户的手的振动或旋转。即,魔幻遥控器620可根据用户的上、下、左和右运动移动指点器,使得用户可容易地执行期望的动作(例如,容易地控制频道或菜单)。
包括键盘和触摸板的遥控器630可通过键盘来方便文本输入,并且通过触摸板来方便指点器的的移动以及画面或视频的放大和缩小的控制。
本说明书中所描述的数字装置可基于WebOS平台来操作。以下,基于WebOS的处理或算法可由上述数字装置的控制器执行。所述控制器包括图2至图5的控制器并且具有宽泛的概念。因此,以下,数字装置中用于处理基于WebOS的服务、应用、内容等的组件(包括软件、固件或硬件)被称作控制器。
例如,这种基于WebOS的平台可通过基于Luna服务总线整合服务、应用等来改进开发独立性和功能可扩展性,并且基于Web应用框架增加应用开发效率。另外,可经由WebOS进程和资源管理有效地使用系统资源等以支持多任务。
本说明书中描述的WebOS平台不仅可用于或被加载用于诸如个人计算机(PC)、TV和机顶盒(STB)的固定装置,而且可用于诸如蜂窝电话、智能电话平板PC、膝上型计算机和可穿戴装置的移动装置。
用于数字装置的软件结构是解决了依赖于市场的传统问题的整体结构,是基于多线程的单一进程和封闭产品,并且在外部应用方面有困难。为了寻求基于新平台的开发、经由芯片组置换的成本创新以及UI应用和外部应用开发效率,执行分层和组件化以获得3层结构以及用于附加(add-on)的附加结构、单源产品和开放应用。近来,已进行软件结构的模块化设计以便提供用于功能单元的回显系统和模块化架构的Web开放应用程序接口(API)或者用于游戏引擎的本地开放API,进而生成基于服务结构的多进程结构。
基于WebOS的电视
图7是示出根据本发明的一个实施方式的WebOS架构的示图。
现在将参照图7描述WebOS平台的架构。
平台可大致分成内核、基于系统库的WebOS核心平台、应用、服务等。
WebOS平台的架构具有分层结构。OS设置在最下层,系统库设置在次高层,应用设置在最高层。
首先,最下层是包括Linux内核的OS层,使得包括Linux作为数字装置的OS。
在比OS层高的层,顺序设置板级支持包(BSP)/硬件抽象层(HAL)层、WebOS核心模块层、服务层、Luna服务总线层和Enyo框架/本地开发包(NDK)/QT层。在最高层,设置应用层。
上述WebOS分层结构中的一个或更多个层可被省略,多个层可被组合成一个层,一个层可被分成多个层。
WebOS核心模块层可包括用于管理表面窗口等的Luna表面管理器(LSM)、用于管理应用等的执行和性能状态的系统和应用管理器(SAM)以及用于基于WebKit管理Web应用的Web应用管理器(WAM)。
LSM管理显示在屏幕上的应用窗口。LSM可控制显示硬件(HW)并提供用于呈现应用所需的内容的缓冲器,并且将多个应用的呈现结果组合并输出在屏幕上。
SAM根据系统和应用的多个条件管理策略。
WAM基于Enyo框架,因为WebOS将Web应用视作基本应用。
应用可经由Luna服务总线使用服务。可经由总线新注册服务,并且应用可检测并使用期望的服务。
服务层可包括具有各种服务级别的服务,例如TV服务、WebOS服务等。WebOS服务可包括媒体服务器、Node.JS等,具体地讲,例如,Node.JS服务支持JavaScript。
可经由总线将WebOS服务传送给实现功能逻辑的Linux进程。此WebOS服务大致分成四部分,从TV进程和现有TV迁移至WebOS,被开发为在制造商之间不同的服务、WebOS公共服务和Javascript,并且由经由Node.JS使用的Node.JS服务组成。
应用层可包括数字装置可支持的所有应用,例如TV应用、展示(showcase)应用、本地应用、Web应用等。
WebOS上的应用可根据实现方法分成Web应用、palm开发包(PDK)应用、Qt元语言或Qt建模语言(QML)应用等。
Web应用基于WebKit引擎并且在WAM运行时执行。这种Web应用基于Enyo框架,或者可基于普通HTML5、层叠样式表(CSS)和JavaScript来开发并执行。
PDK应用包括基于为第三方或外部开发者提供的PDK利用C/C++开发的本地应用。PDK是指一组开发库和工具,其被提供以使得第三方能够开发诸如游戏的本地应用(C/C++)。例如,PDK应用可用于开发要求高性能的应用。
QML应用是基于Qt的本地应用,并且包括随WebOS平台一起提供的基本应用,例如卡片式视图(card view)、家庭仪表盘(home dashboard)、虚拟键盘等。QML是非C++的脚本格式的标记语言。
本地应用是利用C/C++开发并编译并且以二进制形式执行的应用,具有诸如高执行速度的优点。
图8是示出根据本发明的一个实施方式的WebOS装置的架构的示图。
图8是基于WebOS装置的运行时的框图,并且参照图7的分层结构来描述。
以下,将参照图7和图8给出描述。
参照图8,服务、应用和WebOS核心模块被包括在系统OS(Linux)和系统库上,并且它们之间的通信可经由Luna服务总线来执行。
基于HTML5(例如,电子邮件、联系人或日历)、CSS、Javasscript等的Node.JS服务、诸如日志、备份、文件通知、数据库(DB)、活动管理器、系统策略、音频守护进程(AudioD)、更新、媒体服务器等的WebOS服务、诸如电子节目指南(EPG)、个人视频记录仪(PVR)、数据广播等的TV服务、诸如语音识别、Now on、通知、搜索、自动内容识别(ACR)、内容列表浏览器(CBOX)、wfdd、(数字媒体重制)DMR、远程应用、下载、索尼飞利浦数字接口格式(SDPIF)等的CP服务、诸如PDK应用、浏览器、QML应用的本地应用、基于Enyo框架的UI相关TV应用和Web应用经由Luna服务总线通过WebOS核心模块(例如上述SAM、WAM和LSM)来处理。TV应用和Web应用并非必须基于Enyo框架或与UI相关。
CBOX可管理元数据以及外部装置(例如,连接到TV的USB驱动器、DLNA装置或云服务器)的内容列表。CBOX可将诸如USB、数据管理系统(DMS)、DVR、云服务器等的各种内容容器的内容列表作为整合视图输出。CBOX可显示诸如照片、音乐或视频的各种类型的内容列表并且管理其元数据。CBOX可实时地输出附接的存储装置的内容。例如,如果诸如USB的存储装置被插入,则CBOX应该立即输出该存储装置的内容列表。此时,可定义用于处理内容列表的标准化方法。CBOX可适用各种连接协议。
SAM用于改进模块复杂性和可扩展性。例如,现有系统管理器经由一个进程处理诸如系统UI、窗口管理、Web应用运行时和UX约束处理的多个功能,因此具有高实现复杂性。为了解决这种问题,SAM划分主要功能并且明晰功能之间的接口,从而降低实现复杂性。
支持LSM以独立地开发和集成诸如卡片式视图、启动器等的系统UX并且容易地应对产品要求的改变。LSM最大程度地使用硬件资源,以在利用应用上应用(app-on-app)方法构成多个应用画面的情况下允许多任务,并且可针对21:9和多窗口提供窗口管理机制。
LSM支持基于QML实现系统UI,并且改进开发效率。QML UX可基于模型视图控制器(MVC)利用画面布局和UI组件容易地配置视图,并且容易地开发用于处理用户输入的代码。QML与WebOS组件之间的接口经由QML可扩展插件来实现,并且应用的图形操作可基于Wayland协议、luna服务调用等。
LSM是Luna表面管理器的缩写,用作应用窗口组合器。
LSM将独立开发的应用、UI组件等组合并输出在屏幕上。当诸如通话记录应用、展示应用或启动器应用的组件呈现相应内容时,作为组合器,LSM限定输出区域、链接方法等。用作组合器的LSM执行诸如图形组合、焦点管理、输入事件等的处理。此时,LSM从输入管理器接收事件、焦点等,可包括遥控器、诸如鼠标和键盘的HID、操纵杆、游戏手柄、远程应用、触控笔等作为输入管理器。
LSM支持多个窗口模型,并且可作为系统UI在所有应用中同时执行。LSM可支持启动器、通话记录、设置、通知、系统键盘、音量UI、搜索、手指手势、语音识别(语音至文本(STT)、文本至语音(TTS)、自然语言处理(NLP)等)、图案手势(相机或移动无线电控制单元(MRCU))、实时菜单、ACR等。
图9是示出根据本发明的一个实施方式的WebOS装置中的图形组合流程的示图。
参照图9,图形组合处理可经由用作UI进程的的Web应用管理器910、用作Web进程的WebKit 920、LSM 930和图形管理器(GM)940来执行。
当Web应用管理器910作为UI进程生成基于Web应用的图形数据(或应用)时,如果所生成的图形数据不是全屏应用,则该图形数据被传送给LSM。Web应用管理器910接收WebKit 920所生成的应用以便在UI进程与Web进程之间共享用于图形管理的图形处理单元(GPU)存储器,并且如果应用不是全屏应用,则将该应用传送给LSM 930。如果应用是全屏应用,则LSM 930可绕过该应用。在这种情况下,应用被直接传送给图形管理器940。
LSM 930经由Wayland表面将接收的UI应用发送给Wayland组合器,Wayland组合器适当地处理UI应用并将处理的UI应用传送给图形管理器。例如,经由图形管理器940的LSMGM表面将从LSM 930接收的图形数据传送给图形管理器组合器。
全屏应用被直接传送给图形管理器940而没有如上所述经过LSM 930,并且经由WAM GM表面在图形管理器组合器中被处理。
图形管理器处理并输出WebOS装置中的所有图形数据,并且接收并在屏幕上输出经过上述LSM GM表面的数据、经过WAM GM表面的数据以及经过GM表面的图形数据(例如,数据广播应用或字幕应用)。GM组合器的功能等同于或类似于上述组合器。
图10是示出根据本发明的一个实施方式的媒体服务器的示图,图11是根据本发明的一个实施方式的媒体服务器的框图,图12是示出根据本发明的一个实施方式的媒体服务器与TV服务之间的关系的示图。
媒体服务器支持数字装置中的各种多媒体的执行,并且管理必要的资源。媒体服务器可有效地使用媒体播放所需的硬件资源。例如,媒体服务器需要音频/视频硬件资源以用于多媒体执行,并且有效地管理资源使用状态以有效地使用资源。通常,屏幕比移动装置大的固定装置在多媒体执行时需要更多硬件资源,并且由于大量数据而需要高编码/解码速率和图形数据传输速率。媒体服务器应该不仅执行流处理或文件回放,而且执行广播、记录和调谐任务、同时观看和记录的任务以及在视频呼叫时在屏幕上同时显示发送者和接收者的任务。由于芯片组单元中的诸如编码器、解码器、调谐器、显示引擎等的硬件资源的限制,媒体服务器难以同时执行多个任务。例如,媒体服务器限制使用场景或者利用用户输入执行处理。
媒体服务器可使得系统稳定性鲁棒,并且可按照流水线去除在媒体回放期间发生错误的回放流水线,使得即使发生错误时,其它媒体播放也不受影响。这种流水线是应媒体回放请求来连接诸如解码、分析、输出等的单元功能的链,所需要的单元功能可根据媒体类型等而改变。
媒体服务器可具有可扩展性,可增加新类型的流水线而不影响现有实现方法。例如,媒体服务器可容纳相机流水线、视频会议(Skype)流水线、第三方流水线等。
媒体服务器可将一般媒体回放和TV任务执行作为单独的服务来处理,因为TV服务的接口不同于媒体回放。媒体服务器支持与TV服务有关的诸如“设定频道”、“频道向上”、“频道向下”、“频道调谐”和“记录开始”的操作,并且支持与一般媒体回放有关的诸如“播放”、“暂停”和“停止”的操作,即,对于TV服务和一般媒体回放支持不同的操作并且将TV服务和媒体回放作为单独的服务来进行处理。
媒体服务器可控制或管理资源管理功能。装置中的硬件资源分配或恢复由媒体服务器进行。具体地讲,TV服务进程将正在执行的任务和资源分配状态传送给媒体服务器。基于各个流水线的资源状态,媒体服务器每当媒体被执行时确保执行流水线的资源,应媒体执行请求由于优先级(例如,策略)而允许媒体执行,并且执行另一流水线的资源恢复。预定义的执行优先级和特定请求所需的资源信息由策略管理器管理,资源管理器与策略管理器通信以处理资源分配和恢复。
媒体服务器可具有与回放有关的所有操作的标识符(ID)。例如,媒体服务器可基于ID将命令发送给特定流水线。媒体服务器可将各个命令发送给流水线以用于两个或更多个媒体的回放。
媒体服务器负责回放HTML5标准媒体。
媒体服务器根据TV重构范围执行TV流水线的服务进程。可在不管TV重构范围的情况下设计和实现媒体服务器。如果没有执行单独的TV服务进程,则当特定任务中发生错误时,TV可能整个重新执行。
媒体服务器也被称作uMS,即,微型媒体服务器。媒体播放器是媒体客户端,例如意指用于HTML5视频标签、相机、TV、Skype或第二屏幕的WebKit。
媒体服务器主要管理诸如资源管理器或策略管理器的微资源。媒体服务器还控制Web标准媒体内容的回放。媒体服务器可管理流水线控制器资源。
例如,媒体服务器支持可扩展性、可靠性、有效资源使用等。
换言之,uMS(即,微型媒体服务器)管理并控制资源使用以用于WebOS装置内的适当处理,例如诸如云游戏、MVPD(付费服务等)、相机预览、第二屏幕或Skype的资源和TV资源。例如,在使用各个资源时使用流水线,媒体服务器可管理并控制流水线的生成、删除、使用以用于资源管理。
当与任务有关的媒体开始一系列请求、解码流处理和解析(例如,视频输出)时,可生成流水线。例如,与TV服务和应用关联,经由根据其针对资源使用的请求单独生成的流水线来控制并执行观看、记录、频道调谐等。
参照图10,将详细描述媒体服务器的处理结构。
在图10中,应用或服务经由Luna服务总线1010连接到媒体服务器1020,媒体服务器1020经由Luna服务总线1010连接到生成的流水线并由所述流水线管理。
应用或服务根据其特性包括各种客户端,并且可经由所述客户端与媒体服务器1020或流水线交换数据。
例如,客户端包括用于与媒体服务器1020连接的uMedia客户端(WebKit)和资源管理器(RM)客户端(C/C++)。
包括uMedia客户端的应用如上所述连接到媒体服务器1020。更具体地讲,例如,uMedia客户端对应于下述视频对象,并且针对请求的视频操作等使用媒体服务器1020。
视频操作涉及视频状态,并且可包括与诸如加载、卸载、播放(回放或再现)、暂停、停止等的视频操作有关的所有状态数据。这些视频操作或状态可通过生成单独的流水线来处理。因此,uMedia客户端将与视频操作有关的状态数据发送给媒体服务器中的流水线管理器1022。
媒体服务器1022经由与资源管理器1024的数据通信来获取关于当前装置的资源的信息,并且请求分配与uMedia客户端的状态数据对应的资源。此时,如果需要,流水线管理器1022或资源管理器1024经由与策略管理器1026的数据通信来控制资源分配。例如,如果根据流水线管理器1022的请求分配的资源不存在或者不在资源管理器1024中,则可根据策略管理器1026的优先级比较来适当地执行资源分配。
针对根据资源管理器1024的资源分配而分配的资源,流水线管理器1022请求媒体流水线控制器102根据uMedia客户端的请求生成用于操作的流水线。
媒体流水线控制器1028在流水线管理器1022的控制下生成必要的流水线。如所示,可生成媒体流水线、相机流水线、与回放、暂停或停止有关的流水线。流水线包括用于HTML5、Web CP、Smarthshare回放、缩略图提取、NDK、电影院、多媒体和超媒体信息编码专家组(MHEG)等的流水线。
例如,流水线可包括基于服务的流水线和基于URI的流水线(媒体流水线)。
参照图10,包括RM客户端的应用或服务可不直接连接到媒体服务器1020,因为所述应用或服务可直接处理媒体。换言之,如果应用或服务直接处理媒体,则可不使用媒体服务器。此时,对于流水线生成和使用,资源管理是必要的,并且此时,使用uMS连接器。当接收到对应用或服务的直接媒体处理的资源管理请求时,uMS连接器与包括资源管理器1024的媒体服务器1020通信。媒体服务器1020还包括uMS连接器。
因此,应用或服务可通过uMS连接器经由资源管理器1024的资源管理来应对RM客户端的请求。RM客户端可处理诸如本地CP、TV服务、第二屏幕、flash播放器、YouTube媒体源扩展(MSE)、云游戏、Skype等的服务。在这种情况下,如上所述,如果资源管理需要,资源管理器1024可经由与策略管理器1026的适当的数据通信来管理资源。
与上述RM客户端不同,基于URI的流水线不直接处理媒体,而是经由媒体服务器1020来处理媒体。基于URI的流水线可包括PlayerFactory、Gstreamer、流处理插件、数字版权管理(DRM)插件流水线。
应用与媒体服务之间的接口方法如下。
可使用在Web应用中使用服务的接口方法。在此方法中,可使用利用palm服务桥(PSB)的Luna调用方法以及利用Cordova的方法,其中显示扩展至视频标签。另外,可使用利用与视频标签或媒体元素有关的HTML5标准的方法。
可使用在PDK中使用服务的方法。
另选地,可使用用在现有CP中的方法。为了向后兼容性,可基于Luna扩展并使用现有平台的插件。
最后,可使用利用非WebOS的接口方法。在这种情况下,Luna总线可被直接调用以执行接口连接。
无缝改变由单独的模块(例如,TVwin)来处理,并且是指首先在WebOS引导之前或期间在没有WebOS的情况下在屏幕上显示TV节目,然后执行无缝处理的过程。这用于首先提供TV服务的基本功能,以便于对用户的电源开启请求作出快速响应,因为WebOS的引导时间较晚。该模块是TV服务进程的一部分,并且支持无缝改变以用于提供快速引导和基本TV功能、出厂模式等。该模块负责从非WebOS模式切换为WebOS模式。
图11示出媒体服务器的处理结构。
在图11中,实线框表示进程组件,虚线框表示进程的内部处理模块。实线箭头表示进程间调用,即,Luna服务调用,虚线箭头表示诸如注册/通告的通知或数据流。
服务、Web应用或PDK应用(以下,称作“应用”)经由Luna服务总线连接到各种服务处理组件,并且经由服务处理组件来操作或控制。
数据处理路径根据应用类型而改变。例如,如果应用包括与相机传感器有关的图像数据,则该图像数据被发送给相机处理器1130并由其处理。此时,相机处理器1130包括手势或脸部检测模块,并且处理接收的应用的图像数据。相机处理器1130可根据用户选择或者自动地经由媒体服务器处理器1110针对需要使用流水线的数据生成流水线,并且处理所述数据。
另选地,如果应用包括音频数据,则可经由音频处理器(AudioD)1140和音频模块(PulseAudio)1150处理音频。例如,音频处理器1140处理从应用接收的音频数据并且将处理的音频数据发送给音频模块1150。此时,音频处理器1140可包括音频策略管理器以确定音频数据的处理。处理的音频数据被音频模块1150处理。应用或与其有关的流水线可将与音频数据处理有关的数据通知给音频模块1150。音频模块1150包括高级Linux声音架构(ALSA)。
另选地,如果应用包括或处理(以下,称作“包括”)经受DRM的内容,则内容数据被发送给DRM服务处理器1160,DRM服务处理器1160生成DRM实例并且处理经受DRM的内容数据。DRM服务处理器1160经由Luna服务总线连接到媒体流水线中的DRM流水线,以便于处理经受DRM的内容数据。
以下,将描述包括媒体数据或TV服务数据(例如,广播数据)的应用的处理。
图12详细示出图11的媒体服务器处理器和TV服务处理器。
因此,将参照图11和图12给出描述。
首先,如果应用包括TV服务数据,则该应用由TV服务处理器1120/1220来处理。
例如,TV服务处理器1120包括DVR/频道管理器、广播模块、TV流水线管理器、TV资源管理器、数据广播模块、音频设置模块、路径管理器等中的至少一个。在图12中,TV服务处理器1220可包括TV广播处理机、TV广播接口、服务处理器、TV中间件(MW)、路径管理器和BSP(NetCast)。例如,服务处理器可意指包括TV流水线管理器、TV资源管理器、TV策略管理器、USM连接器等的模块。
在本说明书中,TV服务处理器可具有图11或图12的配置或者其组合。一些组件可被省略,或者可增加其它组件(未示出)。
TV服务处理器1120/1220将DVR或频道相关数据发送给DVR/频道管理器,并且将DVR或频道相关数据发送给TV流水线管理器以基于从应用接收的TV服务数据的属性或类型生成并处理TV流水线。如果TV服务数据的属性或类型是广播内容数据,则TV服务处理器1120经由TV流水线管理器生成并处理TV流水线,以用于经由广播模块处理数据。
另选地,JavaScript标准对象符号(json)文件或者以c编写的文件被TV广播处理机处理并经由TV广播接口发送给TV流水线管理器,以生成并处理TV流水线。在这种情况下,TV广播接口可基于TV服务策略将经过TV广播处理机的数据或文件发送给TV流水线管理器,并且在生成流水线时参照所述数据或文件。
TV流水线管理器在TV资源管理器的控制下根据来自TV服务处理器的处理模块或管理器的TV流水线生成请求来生成一个或更多个流水线。TV资源管理器可由TV策略管理器来控制,以便根据TV流水线管理器的TV流水线生成请求来请求TV服务的资源分配状态,并且可经由MS连接器执行与媒体服务器处理器1110/1210的数据通信。媒体服务器处理器1110/1210中的资源管理器根据TV资源管理器的请求发送TV服务的资源分配状态。例如,如果媒体服务器处理器1110/1210中的资源管理器确定已经分配了用于TV服务的资源,则可向TV资源管理器通知所有资源的分配完成。此时,随同用于请求的TV服务的TV流水线的通知和请求生成,媒体服务器处理器中的资源管理器可根据预定标准或者已经为TV服务分配的TV流水线的优先级去除预定的TV流水线。另选地,TV资源管理器可根据媒体服务器处理器1110/1210中的资源管理器的状态报告适当地去除TV流水线或者可增加或新建立TV流水线。
BSP支持与现有数字装置的后向兼容性。
所生成的TV流水线可在处理过程中在路径管理器的控制下适当地操作。路径管理器可考虑媒体服务器处理器1110/1210所生成的流水线的处理过程和操作中的TV流水线来确定或控制流水线的处理路径或过程。
接下来,如果应用包括媒体数据,而不是TV服务数据,则应用由媒体服务器处理器1110/1210来处理。媒体服务器处理器1110/1210包括资源管理器、策略管理器、媒体流水线管理器、媒体流水线控制器等。作为在媒体流水线管理器和媒体流水线控制器的控制下生成的流水线,可生成相机预览流水线、云游戏流水线、媒体流水线等。媒体流水线可包括流处理协议、自动/静态Gstreamer、DRM等,其处理流程可在路径管理器的控制下确定。对于媒体服务器处理器1110/1210的处理过程的详细描述,参照图10的描述,将省略重复描述。在本说明书中,例如,媒体服务器处理器1110/1210中的资源管理器可执行基于计数器的资源管理。
第一实施方式(用户语音的意图的分析)
如本文所使用的,为了方便,实施方式被分成第一实施方式(图13至图23)和
第二实施方式(图24至图27)。然而,本发明不限于此。例如,第一实施方式和/或第二实施方式与先前图1至图12组合的配置也在本发明的范围内。
图13示出根据本发明的一个实施方式的能够处理基于语音的命令的多媒体装置的主要内部组件。
如图13所示,根据本发明的一个实施方式的多媒体装置1300包括存储器1301、应用管理器1302、显示器1303、网络接口模块1304、控制器1305等。在一个示例中,在图13中,没有单独地示出用于处理基于语音的命令的模块。这种模块可被内置于上述控制器1305中,或者可作为单独的模块添加。另外,可经由图13所示的多媒体装置1300的麦克风(未示出)直接接收用户的语音。另选地,从用于控制多媒体装置1300的遥控器接收语音也落在本发明的范围内。
图13所示的存储器1301中存储至少一个应用。图13所示的应用管理器1302执行存储在存储器1301中的至少一个应用当中的任意应用。
图13所示的控制器1305从外部接收任意基于语音的数据。如上所述,语音可经由多媒体装置1300的麦克风直接接收,或者可经由遥控器接收。
此外,图13所示的控制器1305响应于所接收的基于语音的数据来捕获当前执行的应用的视频数据。然后,控制器控制网络接口模块1304向服务器1310发送所捕获的视频数据、所接收的基于语音的数据以及关于当前执行的应用的附加信息。
另外,图13所示的控制器1305控制网络接口模块1304从服务器1310接收与基于语音的数据关联的反馈结果值。即使针对相同的基于语音的数据的反馈结果值也可能例如基于所捕获的视频数据以及关于当前执行的应用的附加信息而改变。这将在下面在图22和图23中更详细地描述。
任意应用可对应于存储在存储器1301中的应用。另选地,应用可包括经由调谐器(未示出)或图13所示的网络接口模块1304接收的一般广播。
此外,图13所示的控制器1305控制网络接口模块1304将所接收的基于语音的数据和当前执行的应用的ID(标识)发送到第一服务器。然后,图13所示的控制器1305控制网络接口模块1304从第一服务器接收基于语音的数据的意图信息。第一服务器对应于例如图23所示的自然语言处理(NLP)云服务器2320。如本文所使用的,NLP是指处理自然语言相关数据的软件或硬件。
如本文所使用的,意图信息可经由服务器的分析、经由多媒体装置的分析或者经由服务器和多媒体装置之间的通信来提取。意图信息可不仅基于用户的语音内容,而且基于使用环境等而变化。
此外,只有当基于意图信息确定需要捕获当前执行的应用的视频数据时,图13所示的控制器1305才控制网络接口模块1304将所捕获的视频数据以及关于当前执行的应用的体裁信息和演员表信息发送到第二服务器。接下来,图13所示的控制器1305控制网络接口模块1304从第二服务器接收关于从基于语音的数据识别的特定对象的位置信息。第二服务器对应于例如图23所示的图像识别云服务器2330。
此外,图13所示的控制器1305基于所接收的位置信息控制网络接口模块1304将所捕获的视频数据的一部分发送到第三服务器。图13所示的控制器1305控制网络接口模块1304从第三服务器接收与基于语音的数据关联的反馈结果值。第三服务器对应于例如图23所示的图像识别云服务器2340。在一个示例中,在图23中,NLP云服务器2320、图像识别云服务器2330和图像识别云服务器2340被示出为单独的实体。本发明不限于该配置。例如,NLP云服务器2320、图像识别云服务器2330和图像识别云服务器2340可被组合成一个或两个服务器。
即使针对相同的基于语音的数据的反馈结果值也可能根据EPG信息(例如,体裁信息、演员表信息等)而变化。这将在下面在图19中更详细地描述。
图14对根据本发明的一个实施方式的多媒体装置的存储器中存储的元数据的类型进行归类。存储器示出于图13中。
与相同的用户语音关联的意图应该被确定为基于使用中的多媒体装置的状态等而变化。即,本语音识别服务利用多媒体装置(例如,TV)可提供的所有信息以允许更准确地识别用户的意图。图14对改进语音识别服务的意图分析所需的相关信息进行归类。该归类可允许控制器选择性地执行用户意图分析。
类型1对应于关于用户正在观看的广播节目的信息。类型2对应于用户的过去观看(历史)的累积信息。
类型3对应于关于多媒体装置上当前运行的应用的附加信息。类型4对应于关于TV的状态信息(例如,安装区域、其中设定的语言、存储在存储器中的应用的类型等)。最后,类型5对应于用户先前的基于语音的命令。然而,为了更准确地检测用户意图,仅距当前识别的语音预设阈值时间的先前识别的语音被视为用户先前的基于语音的命令。先前识别的语音可与当前识别的语音组合,使得基于该组合来确定用户意图。因此,这可降低误解用户意图的可能性。这将在下面在图16中更详细地描述。
首先,将参照图15描述使用类型4的TV状态信息当中的存储在存储器中的应用的类型的实施方式。
图15示出根据本发明的一个实施方式的多媒体装置使用关于应用的信息来更精确地提取用户的语音的意图的处理。
首先,如图15所示,假设多媒体装置1510接收到语音“please,execute Bugs(请执行Bugs)”作为任何基于语音的命令S1501。Bugs是音乐播放器应用。
在这方面,多媒体装置1510中的NLP(自然语言处理)客户端1511向上下文管理器1512请求实时信息。上下文管理器1512从存储器1513收集实时信息。随后,上下文管理器1512将实时信息发送回NLP客户端1511(S1504)。然而,实时信息是指关于可执行应用的信息。例如,实时信息对应于存储在存储器1513中的应用列表。
在根据传统方案的语音识别服务中,仅所接收的基于语音的命令本身被发送到NLP服务器1520。然而,根据本发明的一个实施方式,实时信息与所接收的基于语音的命令一起被发送到NLP服务器1520S1505。
在根据传统方案的语音识别服务中,用户语音“Bugs”被识别为“box”。由于在传统方案中没有使用关于存储在存储器中的应用的信息,所以传统服务具有box无法被校正为bugs的问题。然而,根据本发明,即使当本语音识别服务将“Bugs”识别为“box”时,本识别服务也可将“box”校正为“Bugs”,因为服务知道存储器中存储有称为“Bugs”(在声音方面与“box”相似)的应用。
NLP服务器1520使用存储在位于服务器中或服务器外部的存储器1530中的模式信息来检查可应用模式。服务器将基于实时信息处理的基于语音的命令结果发送到NLP客户端1511(S1507)。例如,服务器是指存储器1530,然后针对所有识别的命令语音“please,execute(请执行)”、“execute(执行)”、“would you mind executing(可不可以执行)”等,提取并发送相同的操作命令“execute(执行)”。
图16示出根据本发明的一个实施方式的多媒体装置使用距当前识别的语音预设定时的先前识别的语音来更精确地提取用户的语音的意图的处理。图16所示的实施方式与先前图14中所描述的类型5有关。
根据传统方案,当用户说出第一语音“Who is Tom Cruise(汤姆克鲁斯是谁)”时,提供关于汤姆克鲁斯的信息。然后,当同一用户说出第二语音“Show me action movies(显示动作电影)”时,在不考虑先前识别的第一语音的情况下,仅提供关于与汤姆克鲁斯无关的动作电影的信息。
相比之下,根据本发明,如图16所示,当用户在第一时间点说出“Who is TomCruise(汤姆克鲁斯是谁)”时,第一NLP服务器与第二NLP服务器通信以提供与该话语关联的相关信息。在一个示例中,在图16中,两个服务器被分开示出。本发明不限于该配置。能够处理语音识别的一个服务器实现上述功能的配置也在本发明的范围内。
此外,当在距第一时间点在预设“t”持续时间内的第二时间点识别出基于语音的命令“Show me action movies(显示动作电影)”时,在第一时间点识别的语音与在第二时间点识别的语音彼此组合,然后,提供基于该组合的结果。此外,根据本发明的另一实施方式,不仅当满足当前时间应该距第一时间点在“t”持续时间内的条件时,而且当在上述两个时间点识别的说话人彼此相同时,在第一时间点识别的语音可与在第二时间点识别的语音组合,然后可提供基于该组合的结果。
此外,基于用户的行为模式将上述预定持续时间t值调节为更小或更大的配置属于本发明的权利范围。
图17示出根据本发明的一个实施方式的媒体装置使用关于广播的信息来更准确地提取特定人和用户的语音的意图的处理。根据本发明,方案可使用语音来识别当前显示的视频数据上出现的人并提供关于该人的信息。此外,提供一种经由捕获服务来增加人识别的准确性的方案。
根据本发明的一个实施方式的多媒体装置1700包括NLP模块1701、捕获模块1702、控制器1703和显示器。当从遥控器1710向NLP模块1701接收任意基于语音的命令时,NLP模块1701经由与NLP云服务器1720的通信分析所接收的基于语音的命令。捕获模块1702执行显示器上当前输出的视频数据的捕获。NLP模块经由与图像识别云服务器1730的通信来接收所捕获的图像的分析结果。NLP模块将所接收的基于语音的命令和图像的分析结果发送到控制器1703S1705。控制器1703将所接收的信息组合以改进语音识别的准确性,具体地,确定用户语音的意图,并最终将基于该意图的语音识别结果发送到显示器(S1706)。
图18示出根据本发明的一个实施方式的多媒体装置显示特定人的情况。根据本发明的一个实施方式,可假设多媒体装置1800输出任意特定人1810,并且用户说出与该特定人关联的基于语音的命令,例如“Who is this person(这人是谁)”。
图19更详细地示出图17的处理。
假设图19所示的控制器1900被嵌入在多媒体装置中。在一个示例中,本发明可被配置为使得在外部服务器中执行上述功能。这使得可简化多媒体装置的硬件/软件配置。
首先,基于存储在存储器中的数据或者经由任意服务器将图18所示的人的候选确定为三个(例如,Park Myung-Su、Hulk Hogan、Lee Sung-Chul)。可假设所有这三个人的确定准确性相同,为80%。在传统方法中,存在无法确定这些人中的哪一个是显示器上当前显示的人的问题。
在这方面,根据本发明,控制器将关于三个候选的信息发送到人员数据服务器1910。控制器从人员数据服务器接收关于各个人的工作信息S1903。
然后,控制器从广播台接收EPG信息(例如,体裁信息、演员表信息等)S1904。在S1905的操作处,控制器基于在S1903和S1904的操作中接收的数据来调节在对应位置处所识别的人的识别准确性。
图20示出从图17至图19提供的语音识别服务结果。如图20所示,根据本发明的一个实施方式的多媒体装置1900与当前广播画面一起在显示器的下部显示所识别的人的捕获的图像2010。捕获的图像2010对应于图18所示的人1801。
具体地,在画面上以列表形式仅显示基于关于捕获的图像中的人的位置的信息(目标位置)选择的识别的人的脸部的配置属于本发明的范围。
图21示出图17所示的控制器位于外部服务器中,而非多媒体装置内的情况。与图17的配置相比,在图21的配置中,控制器位于外部服务器中,而非多媒体装置内,从而使多媒体装置内的操作最小化,此外,实现成本降低。
根据本发明的一个实施方式的多媒体装置2100包括NLP模块2101、捕获模块2102和显示器。当通过遥控器2110接收到任意基于语音的命令时,NLP模块2101经由与NLP云服务器2120的通信来分析所接收的基于语音的命令。捕获模块2102执行显示器上当前输出的视频数据的捕获。捕获模块将所捕获的视频数据发送到图像识别云服务器2130S2104。图像识别云服务器2130经由与控制器2140的通信来接收图像的分析结果S2105。图像识别云服务器2130将分析结果传送到NLP模块S2104。
然后,NLP模块2101将经由与服务器2120、2130的通信获得的信息组合,从而改进语音识别的准确性(具体地,确定用户语音的意图)。然后,在操作S2106处,NLP模块2101将基于该意图的语音识别结果发送到显示器。
图22示出下面的图23中要识别的特定对象。图23示出根据本发明的一个实施方式的多媒体装置2300可使用捕获方案来更准确地提取特定对象和用户的语音的意图的处理。具体地,与先前附图不同,在此图中捕获处理已被进一步细分。这去除了不必要的捕获处理并且使数据传送最小化。
在S2301,经由遥控器2310向多媒体装置2300发送基于语音的命令“What is ahat that Park Myung-Su is wearing(Park Myung-Su戴着什么帽子)?”。基于语音的命令中所包含的“Park Myung-Su”被假设为图22中所示的人之一。
多媒体装置2300中的NLP模块2311向NLP云服务器2320发送在操作S2301中接收的基于语音的命令和关于当前执行的应用的标识信息(前台APP ID)二者。在图23和其它附图以及本说明书中,用于执行语音处理的模块被表示为NLP(自然语言处理模块)。本发明不限于此。执行该功能的模块可由能够处理语音的任何其它模块代替。
与传统方案不同,根据本方案的NLP云服务器2320使用基于语音的命令和关于当前执行的应用的标识信息来确定用户的意图。在S2303中,服务器2320将确定结果发送到NLP模块。例如,当当前执行的应用与家庭购物等关联时,根据本发明确定用户的意图不是接收关于对应帽子的附加信息,而是接收购买对应帽子的URL信息。
NLP模块2311控制捕获模块2312在接收到基于语音的命令的时间点或者在距该时间点的预设持续时间内捕获当前画面。然后,模块2311将所捕获的当前画面、演员表信息和体裁信息发送到图像识别云服务器2330S2305。演员表信息和体裁信息可从接收自广播台或互联网服务器的EPG信息提取。
图像识别云服务器2330使用在操作S2305中接收的信息来确定画面上当前显示的人的姓名和该人的位置信息,并在操作S2306中将该姓名和位置发送到NLP模块2311。
NLP模块2311基于在操作S2306中接收的该人的位置信息和姓名以及在操作S2301中接收的基于语音的命令来确定特定人(例如,Park Myung-Su)所在的部分画面(不是S2305操作中的整个捕获的图像)、对应人的性别信息和对应人周围的产品信息(帽子信息),并将该部分画面、性别信息和产品信息发送到另一图像识别云服务器2340S2307。在一个示例中,如上所述,服务器2320、2330和2340也可被组合成一个或两个服务器。
在S2308,图像识别云服务器2340将对应商品(帽子)的品牌名称、其价格信息和购买该商品的URL信息发送到NLP模块2311。
另外,NLP模块2311将最终识别结果和捕获的图像的部分(如在操作S2307中使用的)二者显示在当前输出的画面的底部2301。结果,这用作方便用户选择的指南。
第二实施方式(与应用对应的基于语音的命令列表的提取)
传统语音识别服务仅基于存储在装置的存储器中的命令来操作。然而,所提供的功能可基于多媒体装置中执行的应用而变化。因此,需要主动地调整语音识别服务以启用变化的功能。
为此,可参照图13说明第二实施方式中的操作。然而,构成各个实施方式的模块的具体操作在两个实施方式之间不同。
根据本发明的第二实施方式,能够处理基于语音的命令的多媒体装置1300基本上包括存储器1301、应用管理器1302和控制器1305。在一个示例中,应用管理器1302可被包括在控制器1305中。
存储器1301中存储至少一个应用。
应用管理器1302执行存储在存储器1301中的至少一个应用当中的任意应用。
此外,控制器1305从应用管理器1302接收当前执行的应用可执行的至少一个基于语音的命令的列表。
此外,控制器1305控制网络接口模块1304将从外部接收的任何基于语音的数据以及该列表发送到服务器1310。
此外,基于经由网络接口模块1304从服务器1310接收的反馈结果值,控制器1305控制当前执行的应用或者执行非当前执行的应用所特定的功能。该配置可经由将在下面描述的图25的操作S2507-1和S2507-2来具体实现。
此外,例如,从遥控器接收到与特定快捷键对应的命令的条件可被配置为应用执行触发条件。当满足该触发条件时,控制器1305向应用管理器1302请求当前执行的应用可执行的至少一个基于语音的命令的列表。
应用管理器1302向控制器报告映射至当前执行的应用的语音识别服务在执行该应用时被启用。
此外,可由当前执行的应用执行的至少一个基于语音的命令的列表可基于当前显示的画面以及当前执行的应用的类型而改变。
控制器1305可被配置为不管经由网络接口模块1304从服务器1310接收的反馈结果值如何,输出询问是否控制当前执行的应用或者执行非当前执行的应用所特定的功能的OSD。这将在下面参照图26和图27来描述。
上述第二实施方式的多媒体装置和图13的多媒体装置1300对应于例如机顶盒(STB)、数字电视(DTV)或移动装置中的至少一个。
参照图24至图27,下面将更详细地描述如上所述的第二实施方式。第二实施方式可参照先前附图(具体地,图13的框图)来解释。
图24示出根据本发明的另一实施方式的多媒体装置在执行应用的状态下接收第一基于语音的命令的情况。
在本发明的另一实施方式(第二实施方式)中,可假设多媒体装置2400正在执行应用(例如,VOD服务)。
另外假设由多媒体装置2400识别图24所示的第一基于语音的命令(例如,“PlayMission Impossible(播放Mission Impossible)”)。在这方面,上述第一基于语音的命令可以是例如当前执行的应用相关或特定的命令,而非多媒体装置2400的独特功能相关或特定的命令。然而,稍后将参照图26和图27描述对由多媒体装置识别的基于语音的命令与当前执行的应用特定的功能和多媒体装置独特的功能二者关联的情况的方法。
根据传统方案,出现这样的问题:即使当多媒体装置2400识别出第一基于语音的命令时,控制器也不知道是否将映射至第一命令的特定命令发送到应用管理器。下面将参照图25描述解决此问题的解决方案。
图25详细示出根据本发明的另一实施方式的当执行应用时多媒体装置处理第一基于语音的命令的处理。
图25所示的语音客户端和应用管理器二者被包括在如上所述的多媒体装置中。更具体地,语音客户端和应用管理器被包括在图13所示的控制器中。此外,图25将语音客户端和应用管理器示出为单独的模块。然而,语音客户端和应用管理器被组合成单个模块的配置也在本发明的范围内。
当应用管理器接收到启动任意应用的命令S2501时,应用管理器向语音客户端注册当前执行的应用能够执行基于语音的命令的事实S2502。因此,存在这样的优点:此后,操作S2502可被省略。
将更详细地描述操作S2502。应用管理器向语音客户端报告当执行应用时映射至当前执行的应用的语音识别服务可用。
当语音客户端接收到来自遥控器的执行基于语音的命令的键按钮信号和对应基于语音的命令时,在S2504,语音客户端向应用管理器发送请求信号。请求信号可例如用于请求可由当前执行的应用执行的语音识别的命令的列表。
在一个示例中,在图25中,示出了当上述S2503操作被触发时,发起S2504操作。省略S2503操作并启用S2504操作也在本发明的范围内。在这种情况下,存在应用可更快速地处理基于语音的命令的技术效果。
响应于操作S2504,应用管理器向语音客户端提供可由当前执行的应用执行的至少一个基于语音的命令的列表。
在操作S2505中,语音客户端控制上述网络接口模块将在操作S2503中接收的基于语音的数据与列表一起发送到服务器。
在上述操作S2504和操作S2505中,可由当前执行的应用执行的至少一个基于语音的命令的列表可根据当前执行的应用的类型(标识信息)和当前显示的画面而变化。
例如,可假设图25中所描述的任何应用是VOD相关应用。在VOD相关应用的主画面上,提供用于选择体裁的主选项。在这方面,当用户选择特定体裁时,提供子选项。因此,无需向语音客户端提供语音命令列表以在主画面上执行子选项。即,当正在执行相同的应用时,可根据当前提供的画面(选项的类型)来传送最小的基于语音的命令相关列表。因此,存在这样的技术效果:这可消除不必要的数据处理。
语音客户端经由网络接口模块S2506从服务器接收反馈结果值。基于所接收的反馈结果值,语音客户端在操作S2507-1中控制当前执行的应用或者在操作S2507-2中执行非当前执行的应用所特定的功能。
更具体地,在执行VOD应用的同时接收到基于语音的命令“Execute DAREDEVIL(执行DAREDEVIL)”。在这种情况下,根据传统方案的多媒体装置从未从其接收可由VOD应用执行的命令列表,装置无法执行与该命令对应的内容。
相比之下,根据图25所示的第二实施方式,装置已经接收到VOD相关应用预期执行或可执行的基于语音的命令的列表。因此,装置可立即执行“DAREDEVIL”。在一个示例中,当接收到非当前执行的VOD应用所特定的基于语音的命令(例如,“Show Weather(显示天气)”)时,装置可直接执行与该命令对应的功能。然而,当所接收的基于语音的命令是多媒体装置和当前执行的VOD应用二者所特定的功能时,可能发生问题。
下面将参照图26和图27描述解决此问题的解决方案。
图26示出根据本发明的另一实施方式的在应用处于执行状态的同时多媒体装置接收第二基于语音的命令的情况。
先前附图中所描述的第一基于语音的命令是当前执行的应用所特定的,而不是多媒体装置的独特功能。相比之下,图26和图27中所描述的第二基于语音的命令是当前执行的应用以及多媒体装置二者所特定的命令。因此,需要解决方案来解决由当前执行的应用执行命令与由多媒体装置执行命令之间的冲突。
更具体地,如图26所示,假设根据本发明的第二实施方式的多媒体装置2600当前正在执行VOD(视频点播)应用。
在这方面,可在当前画面上提供可使用语音选择的上述VOD应用的四个选项。在图26中,作为示例,示出包括“Gone with the wind”2601、“Weather”2602、“Searchers”2603和“Batman”2604的四个选项。所有这四个选项均为电影片名。
可接收经由多媒体装置2600的遥控器或麦克风的基于语音的命令2610“PlayWeather(播放Weather)”。然后,根据先前第一实施方式,播放电影片名“Weather”2602。然而,即使当执行VOD应用时,多媒体装置2600的用户的意图也不是执行电影片名2602,而是请求关于当前区域中的当前天气的信息。下面将参照图27详细描述考虑此情况的UX/UI菜单。
另外,图27示出根据本发明的另一实施方式的当应用处于执行状态时多媒体装置处理第二基于语音的命令的处理。
如图27所示,根据第二实施方式(如本文所使用的,称为“另一实施方式”)的多媒体装置2700可被配置为输出查询天气的OSD(屏上显示)2710以控制当前执行的应用(VOD相关应用)或执行非当前执行的应用(VOD相关应用)所特定的功能。
根据本发明,显示OSD 2710的条件包括以下两个条件。
首先,考虑第一建议以便更准确地反映用户意图。即,当所识别的基于语音的命令存在于由应用管理器提供的列表中(即,属于可使用语音命令执行的命令类型)时,显示上述OSD 2710。
另选地,可以想到第二建议以防止提供不必要的OSD的情况。当满足所识别的基于语音的命令存在于由应用管理器提供的列表中(例如,如图27所示,命令属于用于选择选项2701、2702、2703或2704的基于语音的命令类型)的第一条件和所识别的基于语音的命令涉及执行多媒体装置独特的功能的第二条件二者时,显示上述OSD 2710。
在一个示例中,第一建议和第二建议二者均落在本发明的范围内,并且其组合和修改是可能的。
根据上述实施方式的数字装置以及数字装置的内容处理方法不限于本文所阐述的实施方式。因此,本文所阐述的示例性实施方式的变化和组合可落在本发明的范围内。
根据上述实施方式的数字装置的操作方法可被实现为可被写到计算机可读记录介质并因此可由处理器读取的代码。计算机可读记录介质可以是可按照计算机可读方式存储数据的任何类型的记录装置。计算机可读记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储装置和载波(例如,经由互联网的数据传输)。计算机可读记录介质可分布在连接到网络的多个计算机系统上,以使得计算机可读代码被写到其中并以分散方式从其执行。用于实现本文中的实施方式的功能程序、代码和代码段可由本领域普通技术人员解释。
尽管出于例示性目的公开了本发明的优选实施方式,但是本领域技术人员将理解,在不脱离所附权利要求中所公开的本发明的范围和精神的情况下,可进行各种修改、添加和置换。

Claims (13)

1.一种能够处理识别的基于语音的命令的多媒体装置,该多媒体装置包括:
存储器,该存储器中存储至少一个应用;
应用管理器,该应用管理器用于执行存储在所述存储器中的所述至少一个应用当中的任何应用;以及
控制器,该控制器被配置为从外部接收基于语音的数据,
其中,所述控制器被配置为:
响应于所接收的基于语音的数据,从当前执行的应用捕获视频数据;
控制网络接口模块向服务器发送所捕获的视频数据、所接收的基于语音的数据以及关于所述当前执行的应用的附加信息;并且
控制所述网络接口模块从所述服务器接收与所述基于语音的数据关联的反馈结果值,
其中,针对相同的基于语音的数据,所述反馈结果值基于所捕获的视频数据以及关于所述当前执行的应用的所述附加信息而变化,并且
其中,当所述基于语音的数据的说话人与先前距当前时间预设阈值持续时间接收的先前的基于语音的数据的说话人相同时,针对相同的基于语音的数据,所述反馈结果值还根据所述先前的基于语音的数据而变化。
2.根据权利要求1所述的多媒体装置,其中,所述任何应用包括经由调谐器或所述网络接口模块接收的一般广播。
3.根据权利要求1所述的多媒体装置,其中,所述控制器还被配置为:
控制所述网络接口模块将所接收的基于语音的数据和所述当前执行的应用的标识ID发送到第一服务器;并且
控制所述网络接口模块从所述第一服务器接收与所述基于语音的数据关联的意图。
4.根据权利要求3所述的多媒体装置,其中,当基于所述意图确定需要从所述当前执行的应用捕获视频数据时,
所述控制器还被配置为:
控制所述网络接口模块向第二服务器发送所捕获的视频数据以及关于所述当前执行的应用的体裁信息和演员表信息;并且
控制所述网络接口模块从所述第二服务器接收关于从所述基于语音的数据识别的特定对象的位置信息。
5.根据权利要求4所述的多媒体装置,其中,所述控制器还被配置为:
控制所述网络接口模块基于所接收的位置信息向所述第二服务器发送所捕获的视频数据的一部分;并且
控制所述网络接口模块从所述第二服务器接收与所述基于语音的数据关联的反馈结果值。
6.根据权利要求1所述的多媒体装置,其中,针对相同的基于语音的数据,所述反馈结果值根据电子节目指南EPG信息而变化,其中,所述EPG信息还包括体裁信息和演员表信息,其中,所述基于语音的数据经由安装在所述多媒体装置中的麦克风接收或者经由遥控器以无线通信方式接收。
7.一种用于控制能够处理识别的基于语音的命令的多媒体装置的方法,该方法包括以下步骤:
执行存储在存储器中的至少一个应用当中的任何应用;
从外部接收基于语音的数据;
响应于所接收的基于语音的数据,从当前执行的应用捕获视频数据;
向服务器发送所捕获的视频数据、所接收的基于语音的数据以及关于所述当前执行的应用的附加信息;以及
从所述服务器接收与所述基于语音的数据关联的反馈结果值,
其中,针对相同的基于语音的数据,所述反馈结果值基于所捕获的视频数据以及关于所述当前执行的应用的所述附加信息而变化,并且
其中,当所述基于语音的数据的说话人与先前距当前时间预设阈值持续时间接收的先前的基于语音的数据的说话人相同时,针对相同的基于语音的数据,所述反馈结果值还根据所述先前的基于语音的数据而变化。
8.根据权利要求7所述的方法,其中,所述任何应用包括经由调谐器或网络接口模块接收的一般广播。
9.根据权利要求7所述的方法,其中,所述方法还包括以下步骤:
将所接收的基于语音的数据和所述当前执行的应用的标识ID发送到第一服务器;以及
从所述第一服务器接收与所述基于语音的数据关联的意图。
10.根据权利要求9所述的方法,其中,所述方法还包括以下步骤:
当基于所述意图确定需要从所述当前执行的应用捕获视频数据时,
向第二服务器发送所捕获的视频数据以及关于所述当前执行的应用的体裁信息和演员表信息;以及
从所述第二服务器接收关于从所述基于语音的数据识别的特定对象的位置信息。
11.根据权利要求10所述的方法,其中,所述方法还包括以下步骤:
基于所接收的位置信息向所述第二服务器发送所捕获的视频数据的一部分;以及
从所述第二服务器接收与所述基于语音的数据关联的反馈结果值。
12.根据权利要求7所述的方法,其中,针对相同的基于语音的数据,所述反馈结果值根据电子节目指南EPG信息而变化。
13.根据权利要求12所述的方法,其中,所述EPG信息还包括体裁信息和演员表信息,其中,所述基于语音的数据经由安装在所述多媒体装置中的麦克风接收或者经由遥控器以无线通信方式接收。
CN201911119320.8A 2018-11-27 2019-11-15 用于处理语音命令的多媒体装置及其控制方法 Active CN111225261B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/201,993 2018-11-27
US16/201,993 US10796695B2 (en) 2018-11-27 2018-11-27 Multimedia device for processing voice command

Publications (2)

Publication Number Publication Date
CN111225261A CN111225261A (zh) 2020-06-02
CN111225261B true CN111225261B (zh) 2021-11-26

Family

ID=64556755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911119320.8A Active CN111225261B (zh) 2018-11-27 2019-11-15 用于处理语音命令的多媒体装置及其控制方法

Country Status (3)

Country Link
US (1) US10796695B2 (zh)
EP (1) EP3660841B1 (zh)
CN (1) CN111225261B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7185866B2 (ja) * 2019-03-15 2022-12-08 ハミングヘッズ株式会社 情報処理装置、情報処理方法、コンピュータプログラム
CN111880875B (zh) * 2020-07-15 2023-12-22 百度在线网络技术(北京)有限公司 多媒体播放的控制方法、装置、设备、存储介质和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428355A (zh) * 2012-05-24 2013-12-04 上海博泰悦臻电子设备制造有限公司 基于移动终端的语音控制装置及其语音控制方法
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US8942991B2 (en) * 2011-05-12 2015-01-27 Accenture Global Services Limited Agent-side traveler application for mobile computing devices
US9424409B2 (en) * 2013-01-10 2016-08-23 Lookout, Inc. Method and system for protecting privacy and enhancing security on an electronic device
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428355A (zh) * 2012-05-24 2013-12-04 上海博泰悦臻电子设备制造有限公司 基于移动终端的语音控制装置及其语音控制方法
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统

Also Published As

Publication number Publication date
US10796695B2 (en) 2020-10-06
CN111225261A (zh) 2020-06-02
EP3660841A1 (en) 2020-06-03
US20200168215A1 (en) 2020-05-28
EP3660841B1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
CN107113469B (zh) 控制装置的系统、数字装置及其控制方法
CN107040847B (zh) 包括主扬声器和副扬声器的系统及其控制方法
US11962934B2 (en) Display device and control method therefor
CN106534475B (zh) 移动终端及其控制方法
US9554084B2 (en) Display device and controlling method thereof
KR102288087B1 (ko) 멀티미디어 디바이스 및 그 제어 방법
US9965015B2 (en) Digital device and method of processing screensaver thereof
CN107852531B (zh) 显示装置及其控制方法
US10204439B2 (en) Digital device and speech to text conversion processing method thereof
US11211063B2 (en) Multimedia device for processing voice command
CN109247066B (zh) 数字装置及其控制方法
US9921793B2 (en) Display device and controlling method thereof
US20160156959A1 (en) Multimedia device and method for controlling the same
US20180234723A1 (en) Digital device and method of processing data in said digital device
CN111225261B (zh) 用于处理语音命令的多媒体装置及其控制方法
US11509967B2 (en) Display device and method for controlling same
KR102396035B1 (ko) 디지털 디바이스 및 그의 음성 문자 변환 처리 방법
KR102311249B1 (ko) 디스플레이 디바이스 및 그 제어 방법
KR102603458B1 (ko) 디지털 디바이스 및 그 제어 방법
KR20170138788A (ko) 디지털 디바이스 및 그 제어 방법
KR20200055365A (ko) 디스플레이 디바이스 및 그 제어 방법
KR102439464B1 (ko) 디지털 디바이스 및 그 제어 방법
KR20200085104A (ko) 디스플레이 디바이스 및 그 제어 방법
KR20200137412A (ko) 디스플레이 디바이스 및 그 제어 방법
KR20200084563A (ko) 디스플레이 디바이스 및 그 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant