CN104424362B - 额外丰富内容元数据生成器 - Google Patents
额外丰富内容元数据生成器 Download PDFInfo
- Publication number
- CN104424362B CN104424362B CN201410444283.9A CN201410444283A CN104424362B CN 104424362 B CN104424362 B CN 104424362B CN 201410444283 A CN201410444283 A CN 201410444283A CN 104424362 B CN104424362 B CN 104424362B
- Authority
- CN
- China
- Prior art keywords
- metadata
- additional
- content
- search
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2665—Gathering content from different sources, e.g. Internet and satellite
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4622—Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Astronomy & Astrophysics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
Abstract
本公开涉及额外丰富内容元数据生成器。在一个实施方式中,方法包括接收与由内容提供者提供的内容项相关的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的语言变化版本;将内容元数据连同额外元数据存储在存储设备中,其中内容元数据被存储为与额外元数据关联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关元数据,额外的相关元数据包括相关元数据的语言变化版本;以及增加一个或多个额外搜索项至搜索请求,一个或多个额外搜索项对应于额外相关元数据。
Description
技术领域
本公开内容总体上涉及用于内容元数据生成的方法和装置。
背景技术
随着新的混合网络(除了具有广播能力(例如,地面电视(TV)、卫星TV、电缆TV),还具有宽带因特网能力(例如,数字用户线路(DSL)或者电缆))的迅速发展,流媒体内容变得越来越流行。现在用户可利用和可进入包括多媒体和视听觉(AV)内容的越来越多的内容。这样大量的增加可能随着传统的广播产业通过开发新一代的机顶盒(STB)和能够流传送和回放此类内容的配套设备(例如,计算机、移动电话、平板电脑、手持设备等)进入互联网电视机顶盒业务(OTT)汇聚世界而进一步增加。TV用户现在期望TV内容搜索与它们在因特网世界中一样简单、丰富和高效。
发明内容
因此,根据本发明的一个方面,提出一种方法,包括:接收与由内容提供者提供的内容项有关的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的语言变化版本;将内容元数据连同额外元数据存储在存储设备中,其中,内容元数据被存储为与额外元数据关联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关的元数据,额外的相关的元数据包括相关元数据的语言变化版本;以及增加一个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外的相关的元数据。
根据本发明的另一个方面,提出一种装置,包括:管理单元,可操作地接收与由内容提供者提供的内容项相关的内容元数据;创建单元,可操作地从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的语言变化版本;存储单元,可操作地存储内容元数据连同额外元数据,其中,内容元数据被存储为与额外元数据关联;其中,管理单元被另外可操作为:接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关的元数据,额外的相关的元数据包括相关元数据的语言变化版本;以及增加一个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外的相关的元数据。
根据本发明的又一方面,提出一种或多种计算机可读有形存储介质,利用包括计算机可执行指令的软件编码并且当软件被执行时,可操作为:接收与由内容提供者提供的内容项相关的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括所接收的内容元数据的语言变化版本;将所接收的内容元数据连同额外元数据存储在存储设备中,其中,所接收的内容元数据被存储为与额外元数据关联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在所接收的内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元数据;识别存储为与所识别的相关元数据关联的额外的相关的元数据,额外的相关的元数据包括所识别的相关元数据的语言变化版本;以及增加一个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外的相关的元数据。
附图说明
结合附图,从以下详细描述中将更充分地理解并领会本发明,在附图中:
图1是根据本发明的实施方式构造和操作的系统的简化框图示图;
图2是根据本发明的实施方式构造和操作的包括额外丰富(extra-rich,超丰富)内容元数据生成器的系统的简化框图示图;
图3是描述根据本发明的实施方式的操作额外丰富内容元数据生成器的方法的流程图;和
图4是根据本发明的实施方式的与具体演员相关的不同的元数据之间的关系的方框图示图。
具体实施方式
概述
在一个实施方式中,方法包括接收与由内容提供者提供的内容项相关的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的语言变化版本;将内容元数据与额外元数据存储在存储设备中,其中,内容元数据被存储为与额外元数据关联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关的元数据;识别存储为与相关的元数据关联的额外的相关的元数据,额外的相关的元数据包括相关的元数据的语言变化版本;并且增加一个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外的相关的元数据。
示例性实施方式
在以下描述中,阐述大量的具体细节以提供对本发明的各种原理的全面理解。然而,本领域技术人员将理解不是所有这些细节始终必要地需要用于实践本发明。在此情况下,为了避免不必要地使一般概念模糊,并未详细地示出众所周知的电路、控制逻辑、和用于惯用算法和处理的计算机程序指令的细节。
虽然本发明的原理在此被大量地描述为与电视广播和OTT环境以及相关的电视应用有关,这个是为方便展现起见选择的示例,没有限制性。
类似地,虽然本发明的原理在此被大量地描述为与汉语语言变化版本和格式有关,这个是为方便展现起见选择的示例,没有限制性。
在一些国家中和/或对于某些语言,使用传统的远程控制搜索内容(诸如TV节目、与演员/导演等相关的额外的信息)不容易、不方便、和甚至有时不可能。例如,使用通常仅支持拉丁字的传统的远程控制来输入汉字是困难的。因此,在传统的电视广播世界的这些区域中,内容搜索不被看做是重要的业务范围。然而,电视广播产业正在进入具有用作用于内容消耗的新媒体的配套设备(例如,个人计算机、智能电话、平板电脑等)的提升的多屏融合世界。这些配套设备提供包括新的和更加便利的搜索的新的功能和语言输入能力。实际上,用户现在可以使用不同的输入类型例如,诸如绘制或者键入字(例如,中文简体字和繁体字)的人工录入、声音录入等搜索。因此,可靠的跨平台内容搜索支持变为此类国家和/或语言的重要的发行物。
并且,TV用户现在期望内容搜索与他们在因特网世界中一样简单和高效。通常,提供搜索因特网以发现包含一个或多个指定关键字的内容的搜索引擎(软件程序),并且返回与含有关键字的内容链接的搜索结果条目。诸如Google(www.google.com)或者Yahoo(www.yahoo.com)的广泛搜索引擎使用网络爬虫(Web crawler)访问非常大量的内容项(例如,网页)。然后,称为索引器的另一个程序解析这些内容项并且基于每个内容项的元数据创建搜索索引。每个搜索引擎使用专有算法创建索引以理想地仅返回用于每个查询的有意义的搜索结果。然而,由于某些语言的复杂性和多样性,原始的内容元数据可能无法提供足够的信息以允许搜索引擎返回一致的和/或精确的搜索结果。再次参考中文语言示例,不同类型的书面中文格式在不同的区域中存在。简体中文通常在中国大陆使用,而繁体中文在香港和台湾使用。此外,这些不同的区域也可以使用不同的方言。事实上,普通话是中国大陆的官方语言(也被称作汉语拼音-在下文中称为拼音),然而,广东话广泛地用于香港或者甚至在中国大陆的南部(威妥玛式拼音法(Wade-Giles Romanization)-在下文中称作香港拼音)。并且,台湾有其自己的稍微不同于汉语和香港拼音的语言发音(台湾通用拼音–在下文中称作台湾拼音)。这些拼音变化版本被中国用户广泛地用作关键字输入,因为它们被转录为拉丁字,并且因此更加便利的进行搜索(尤其利用仅支持拉丁字输入的远程控制)。例如,如果用户搜索与“Jackie Chan”(众所周知的演员)相关的内容并且使用它的简体中文格式(“成龙”)作为关键字,然后将仅回复包含这个具体书面格式的搜索结果。利用以另一个格式书面的元数据的索引的内容项,诸如:
繁体中文:“成龍”;
拼音:“Cheng Long”;
香港拼音:“Sing Lung”;
台湾拼音:“Cheng Lung”;或者
甚至英语:“Jackie Chan”。
可能没有发现,并且因此没有作为搜索的结果返回至用户。为了返回更加精确的和一致的搜索结果,用户行为也是可以被考虑的标准。利用上文给出的示例进一步进行,观察到繁体中文用户大量使用拼音简写作为关键字搜索。拼音简写通常对应于全部拼音的首个字母/字。以下给出“Jackie Chan”的拼音简写:
“CL”用于大陆(Cheng Long)和台湾(Cheng Lung)拼音;和
“SL”用于香港拼音(Sing Lung)。
因此,需要能够考虑语言变化版本、用户的行为和简档,从而提供更加准确的、个性化的和相关搜索结果的系统。例如,使用“CL”作为关键字搜索的台湾用户应当能够接收包括“Jackie Chan”作为演员的电影的繁体中文格式的搜索结果。
另一个挑战涉及地理的和版权限制。对于OTT平台,地理限制不再是问题。在开放因特网世界中,用户(例如,注册消费者)可以自身位于世界各地通过OTT消费内容。然而,在某些区域/范围中,对一些内容项的访问可能被限制和/或不同版本的相同的内容项可以由于文化差异、版权或者其他管制法律被广播。例如,“泰坦尼克3D”电影的定制版本在中国大陆被特殊准备和播放–即,一些场景被去除–但是“断背山”电影没有被允许播放。而且,电影片名在电影被播放时可以被翻译为国家语言。在中文示例中情形甚至更加复杂,因为电影片名可以被翻译为多种中文片名。为了阐明这个,考虑詹姆斯邦德的最后的片名为“Skyfall”的电影的示例。在中国,“Skyfall”可以被翻译为:
中国大陆的“大破天幕杀机”;
香港(繁体中文)的“新鐵金剛:智破天凶城”;和
台湾(繁体中文)的“空降危機”。
增加拼音变化版本和简写,“Skyfall”还可以被翻译为:
大陆拼音的“Da Po Tian Mu Sha Ji”和“TMSJ”作为相应的简写,“Da Po”通常被忽略因为其为形容词;
香港拼音的“Zhi Po Tian Xiong Cheng”和相应的简写“ZPTXC”;以及
台湾拼音的“Kong Jiang Wei Ji”和相应的简写“KJWJ”。
本领域技术人员将理解存在其他非标准的形式诸如:“詹姆斯邦德2012”、或者“邦德23”等。因此,需要能够考虑这些限制的系统。
本发明,在其实施方式中,提供当考虑区域和/或版权限制时使用户能够轻易地进行内容搜索并且获得准确、个性化和一致的搜索结果的改善方法和相关的装置。
现在参考图1,它是根据本发明的实施方式构造和操作系统的简化的方框图示图。
头端110通常通过通信网络130与多个客户端设备120通信。附带地或可选地,多个头端110与单个的客户端设备120或者通过通信网络130与多个客户端设备120通信。为了描绘和描述的简单性,并且不限制本发明的一般性,在图1中示出与仅一个头端110通信的仅一个客户端设备120。
通信网络130包括以下中至少一个:基于卫星的通讯网络;基于电缆的通讯网络;常规地面广播电视网络;基于电话的通讯网络;基于电话的电视广播网络;基于移动电话的电视广播网络;互联网协议(IP)电视广播网络;以及基于计算机的通讯网络。应理解,在替换的实施方式中,通信网络130可以,例如,通过双向混合通信网络,诸如组合电缆-电话网络,组合卫星-电话网络,基于组合卫星-计算机通信网络,或者通过任何其他适当的网络实现。对于本领域的一些技术人员,实现通信网络130的其他方式将是明显的。
客户端设备120可以是能够通过通信网络130与头端110通信的任何类型的设备。客户端设备120可以是例如(但是不限制本发明的一般性),机顶盒(STB)、PVR(个人的视频信号记录器)、DVR(数字视频记录器)、诸如便携式计算机、台式机或者个人计算机(PC)的配套设备、诸如iPadTM的平板电脑、诸如个人数字助理(PDA)的可移动计算装置、移动电话、或者任何合适的手持设备。图1示出设置在头端110和显示设备140之间的客户端设备120。在此类情形中,客户端设备120通常通过数字AV接口(例如,HDMI、DVI等)或者通过模拟AV接口(例如,单元(RGB、YPbPr)、混合式(NTSC、PAL、SECAM)、S-视频、SCART、RF同轴、D-端子(D-端子)等)操作连接至显示设备140。尽管在图1中作为分离的实体示出,在本发明的其他实施例中,客户端设备120可以是具有显示设备140的整体。
显示设备140通常由用户,例如通过远程控制单元(RCU)150操作。本领域技术人员将理解可以使用诸如PC、移动电话、平板电脑或者其他合适的手持设备的其他设备操作显示设备140。根据使用的设备,用户可以使用包括例如,用于计算机的计算机鼠标、用于移动电话的键盘按钮、或者甚至用于支持直接操纵的设备的用户的手指的各种方法录入搜索关键字。通过使用一个或多个在上文作为示例给出的各种手段,用户可以搜索、浏览、请求、和选择AV内容以观看(诸如实时事件广播、视频点播(VOD)资产、记录事件等)或者任何合适的信息和/或元数据。客户端设备120内的操作系统软件监测与显示设备140和/或客户端设备120的用户交互。
此外,通常位于头端侧110的额外丰富内容元数据生成器160(ERCMG)可操作地通过通信网络130与搜索引擎170和客户端设备120通信。图1仅示出一个通信网络130。尽管在图1中示出为被嵌入头端110,本领域技术人员将理解在本发明的进一步实施方式中,ERCMG160可以是可操作与头端110通信的分离的实体。
最后,提供搜索引擎170(作为头端110的单元示出)。当用户操作RCU 150和选择菜单时,输入一个或多个搜索项诸如字和/或数量或者通过在显示设备140(嵌入和/或相关于客户端设备120)上显示的应用进行动作,可以通过通信网络130将请求发送至头端110并且由搜索引擎170接收。请求可以是对元数据、TV节目或者内容、或者任何其他额外的信息的请求。然后,搜索引擎170可以将请求传递/转发至ERCMG 160。作为响应,ERCMG 160返回包括原始的搜索请求的不同的语言变化版本的相关的额外丰富元数据至搜索引擎170,并且通过增加这个相关的额外丰富元数据至原始的搜索请求来更新请求。然后,搜索引擎使用更新的搜索请求进行搜索并且一组相关的搜索结果在显示在显示设备140上之前被发送回至客户端设备120。ERCMG 160还能够通过考虑与用户相关的有用的情境信息诸如,例如(但是不限制本发明的一般性),地理位置、初始语言输入、简档、优选、搜索历史等适应搜索结果的相关性/排列。这样做,定义如何排列和显示搜索结果的权重规则由ERCMG 160使用所述情境信息创建并然后应用在通过搜索引擎170获得的搜索结果上。
现在参考图2,图2是根据本发明的实施方式的包括额外丰富内容元数据生成器(ERCMG)的系统的简化框图示图。以下将详细地描述与图3的方法有关的图2的系统的操作。
过程在步骤300开始,并且在步骤301,内容提供者202(例如,TV操作员)发送与内容项(例如,构成TV时间表或者VOD目录的部分的程序)相关的内容元数据至ERCMG 260。通常,内容元数据可以被通过资产分配接口(ADI)、使用元数据描述(例如,电缆实验室ADI规格描述资源(诸如TV节目和商业广告)如何可以从内容源极分配至TV广播员)定义资源如何标记和分类的产业方针、或者线性业务量信息接口(例如,XML流量接口(XTI),其为用于输入XML格式化流量数据至流动数据库服务器和从流动数据库服务器输出XML格式化流量数据的基于Java的应用)被接收和摄入。本领域技术人员将理解可以使用任何其他合适的用于元数据摄入的格式。一旦摄入,内容元数据被存储和索引在ERCM数据库266中从而对用户可用。在摄入期间或者摄入之后,一些或者所有摄入内容元数据被转发至ERCMG 260和由ERCM管理单元261接收。通常,在内容制备平台期间,这个内容元数据摄入操作预先在内容提供者/TV操作者的控制下进行。
在步骤302,ERCM创建子单元262检查ERCM管理单元261接收的内容元数据并且然后使用一个或多个网络爬虫来检索额外元数据从而使内容提供者提供的原始的内容元数据丰富。通常,网络爬虫被用于访问、解析和从外源诸如(但是不限制本发明的一般性),由内容提供者指定的网站入口提取元数据。本领域技术人员将理解,任何其他合适的网络来源可以被访问,只要网络爬虫能够解析和提取来自该网络源的元数据。在本发明的一个实施方式中,网络爬虫被用于搜索与原始的内容元数据的子集相关的额外元数据。例如,由内容提供者提供的原始的内容元数据可以包括用于每个TV或者VOD节目的一个或多个图像、类型和/或次类型、片名、开始和结束时间、持续时间、一个或多个视频、摘录、不同演员的名字、导演的名字等。因此,网络爬虫可以检索在TV或者VOD节目中呈现的与片名或者演员相关的额外元数据。这些额外元数据通常包括对应于原始的内容元数据的区域或者语言变化版本的演员/导演/标题的额外的名字,版权信息和区域限制等。
在中文语言和区域变化版本的背景下,网络爬虫可以访问不同的门户网络诸如例如(但是不限制本发明的一般性),时光网(中国大陆的内容元数据门户网络)、香港雅虎电影、或者True电影(台湾)并且提取以书面的汉字表示的额外元数据。在包括原始的内容元数据的情形中,例如:
“Jackie Chan”作为演员,网络爬虫可以能够检索以下对应于其区域和/或语言变化版本以及社交共用名字的额外元数据中至少一个:
简体中文的“成龙”;
繁体中文的“成龍”;和/或
Jackie Chan的中文原名“陈港生”。
“Skyfall”作为电影片名,网络爬虫可以能够检索以下对应于其区域和/或语言变化版本以及社交共用名称的额外元数据中至少一个:
中国大陆的“大破天幕杀机”;
香港(繁体中文)的“新鐵金剛:智破天凶城”;
台湾(繁体中文)的“空降危機”;和/或
作为社交共用名字的“詹姆斯邦德2012”或者“邦德23”。
对本领域中的技术人员显而易见的是原始的内容元数据可以被以任何合适的格式设置并且网络爬虫被配置为检索缺失的额外元数据。
在步骤303,确定是否网络爬虫没有发现一个或多个额外元数据。如果成功地检索所有的额外元数据,然后过程直接进行至步骤305。相反地,在缺失一个或多个额外元数据的情形中,创建子单元262的ERCM可以在移动至步骤305之前在步骤304通过词典检查来检索缺失的额外元数据。
一旦被网络爬虫检索到,额外元数据被集中并且可以被存储为与原始的内容元数据在多个索引中关联或者在ERCM数据库266的表267和268中。通常,原始的内容元数据利用它们相应的额外元数据,即,对应于原始内容元数据的语言变化版本的额外元数据相关联和存储。并且,创建子单元262的ERCM还可以进行以汉字书面的原始内容元数据和以汉字书面相应的额外元数据的拼音映射。因此,在包括原始内容元数据和额外元数据的情形中,例如:简体中文的“成龙”;繁体中文的“成龍”;和作为JackieChan的中文原名的“陈港生”,进行以下拼音映射:
大陆拼音的“Cheng Long”;
香港拼音的“Sing Lung”;和/或
台湾拼音的“Cheng Lung”。
并且,可以为Skyfall样本进行以下拼音映射:
大陆拼音的“Da Po Tian Mu Sha Ji”;
香港拼音的“Zhi Po Tian Xiong Cheng”;和/或
台湾拼音的“Kong Jiang Wei Ji”。
在步骤306,ERCM创建子单元262进一步创建拼音简写。通常,采用拼音格式的每个单词的首个字母以创建拼音简写。因此,拼音简写被表示为以下:
对于“Jackie Chan”:
“CL”用于大陆和台湾拼音;和/或
“SL”用于香港拼音。
对于“Skyfall”:
“TMSJ”用于大陆拼音;
“ZPTXC”用于香港拼音;和/或
“KJWJ”用于台湾拼音。
一旦被处理,原始内容元数据和关联的额外元数据,拼音和拼音简写被在ERCM管理单元261的控制下进一步相关联地存储在存储单元266–在下文中称作ERCM数据库266–(步骤307)。虽然仅在图2中示出一个ERCM存储单元266,本领域技术人员将理解可以采用单个或者多个存储器单元、数据库等作为存储手段。原始内容元数据和关联的额外元数据以及它们的拼音和拼音简写可以被存储在多个索引或者表中。图2示出两个表267和268。表267是通常包括大陆中文(即,简体中文)、大陆汉语拼音和TV操作员直接保持或者更新的相同的元数据的英语语言变化版本的元数据表。为了说明,以下表1示出包括用于在上文给出的两个示例的元数据变化版本的元数据表267:
表1–元数据表267
大陆中文(简体中文) | 大陆汉语拼音 | 英语 |
成龙 | Cheng Long | Jackie Chan |
大破天幕杀机 | Da Po Tian Mu Sha Ji | Skyfall |
元数据表268是通常包括所有可能的区域和/或语言变化版本以及社交共用名字的表。为了说明,以下表2示出包括用于在上文给出的两个示例的元数据变化版本的元数据表268:
表2–元数据表268
本领域技术人员将理解,可以被索引的元数据不局限于表2中所示的。事实上,另外的语言或者区域变化版本以及其他社交共用名字被本发明包括并且因此可以被作为条目包括在表2中。此外,本领域技术人员将理解,虽然存储在两个分离的表中,但是额外丰富元数据可以被存储在单个或者多个表中。当包括原始内容元数据、它们的关联的额外元数据、拼音和拼音简写的额外丰富元数据被索引和存储在ERCM数据库266中时,过程在步骤308结束。
当用户201操作远程控制150时,他可以通过输入诸如以任何类型的书面语言变化版本的字、数字或者关键字的一个或多个搜索项发起搜索请求,任何类型的书面语言变化版本包括诸如拉丁字或者简体/繁体中文的传统书面格式、诸如中国大陆、香港或者台湾拼音的发音格式;或者甚至拼音简写。然后,请求可能被客户端设备220发送至搜索引擎270。请求可以是对内容、元数据、或者任何其他额外信息的请求。搜索引擎270通常传递/转发以第一语言变化版本表示的搜索请求的搜索项至ERCMG 260的ERCM管理单元261。ERCM管理单元261搜索ERCM数据库266和表267和268以识别匹配用户201输入的搜索项的第一语言变化版本的额外丰富元数据中的相关的元数据。如在上文解释的,表267和268包括相同元数据的多个不同的语言变化版本。因此,基于识别在表267和268中匹配用户以第一语言变化版本录入的搜索项的相关的元数据,ERCM管理单元261能够识别对应于所识别的相关的元数据的不同的语言变化版本的额外的相关元数据。最后,ERCM 260返回额外的相关元数据至搜索引擎270和通过增加额外的搜索项(对应于额外的相关的元数据)至用户以第一语言变化版本输入的初始一个或多个搜索项更新初始搜索请求。通过提供额外的相关的元数据至搜索引擎270,搜索不局限于精确的用户的初始输入。为了阐明这个,考虑输入“成龙”(简体中文的“Jackie Chan”)作为关键字至搜索引擎270的用户201的示例。没有ERCMG 260,搜索引擎270仅可以向用户201返回精确匹配这个具体的书面格式的搜索结果。利用ERCMG 260,搜索引擎270通常能够识别ERCM数据库266中的这个具体书面格式并且检索:
来自元数据表267的大陆拼音“Cheng Long”和英语名字格式;和
来自元数据表268的香港(“成龍”、“Sing Lung”、和“SL”)和台湾(“成龍”和“ChengLung”和“CL”)语言变化版本以及大陆中文拼音简写“CL”和社交共用名字“陈港生”。
ERCMG 260还包括与两个数据库(用户搜索历史数据库264和用户简档数据库265)关联的ERCM权重子单元263。在本发明的一个实施方式中,ERCM权重子单元263能够通过考虑与用户201相关的有用的情境信息诸如,例如(但是不限制本发明的一般性),地理位置、初始语言输入、用户简档、优选、搜索历史等适应搜索结果的相关性/排列。
以下将描述与图4有关的ERCM权重子单元263的操作,图4是根据本发明的实施方式的与具体演员有关的不同的元数据之间的关系的方框图示图。通常,当用户201发起搜索请求时,搜索引擎270接收并且转发搜索请求至ERCMG 260。请求被ERCM管理单元261接收。由用户201输入的初始输入通常至ERCM权重子单元263。此外,在ERCMG 260没有识别初始输入或者在数据库266中没有发现的情形中,初始输入被发送至ERCM创建子单元262用于进一步处理。这个处理与摄入流程的描述类似并且输入被作为从内容提供者202接收的内容元数据处理。在该情形中,可以如在图3中示出的方法中的描述来处理初始输入。基于初始输入的接收,ERCM权重子单元263分析输入以确定使用的是哪个区域和/或语言变化版本或者拼音格式。ERCM权重子单元263可以在该点上检测输入是否为简体或者繁体中文或者输入是否对应于具体的拼音格式。并且,ERCM权重子单元263能够翻译用户201使用的简写以进行搜索。基于分析的结果,ERCM权重子单元263可以提供权重规则至搜索引擎270以在搜索结果被显示时应用。为了阐明这个,考虑在图4中给出的示例。如果用户201在搜索引擎270中输入“成龙”以获得与“Jackie Chan”相关的信息,ERCM权重子单元263通常检测作为简体中文提供的输入。因此,ERCM权重子单元263可以发送具体的权重规则至搜索引擎270以影响搜索结果的排列。例如,其可以通过在屏幕上作为第一搜索结果和/或利用具体直观指示显示它们给予简体中文书写的或者包括演员的名字的这个书面形式和/或包括大陆拼音演员的名字的搜索结果更多重要性。本领域技术人员将理解可以使用任何合适的显示形式或者指示以具体地表示权重的搜索结果。类似地,如果用户201在搜索引擎270中输入“成龍”以获得与“Jackie Chan”相关的信息,ERCM权重子单元263通常检测作为繁体中文提供的输入并且可以发送具体的权重规则给予以繁体中文书写的或者包括演员名字的这个书面形式和/或拼音形式的搜索结果更多重要性。
在本发明的另一个实施方式中,进一步进行分析以精细权重规则。这样做,ERCM权重子单元263可以从用户搜索历史264和用户简档265数据库检索进一步信息。通常,用户搜索历史数据库264包括与用户201之前请求的搜索相关的和/或搜索引擎270进行的信息。并且,用户简档数据库265包括与系统的不同用户相关的信息并且可以包括用户的优选、地理位置(例如,注册的家庭位置、当前位置等)、具体家庭的不同的简档、设备、订阅等。该额外的信息可以用于提供搜索引擎270精细后的权重规则以在搜索结果返回至用户201时应用。此外,在图4的示例中,如果用户201在搜索引擎270中输入“CL”以获得与“Jackie Chan”相关的信息,ERCM权重子单元263通常检测涉及“Cheng Long”(大陆汉语拼音)和/或“ChengLung”(台湾通用拼音)的请求。在该情形中,即使在这时候一些权重规则可以被应用并且发送至搜索引擎270,那么其可以对获得关于用户201的更多信息有用。ERCM权重子单元263可以检索与用户201相关的情境信息诸如,例如(但是不限制本发明的范围),他的地理位置和/或用户201还使用简体中文用于之前搜索。因此,较高的权重可以给予以简体中文或者包括演员的名字的书面的和/或大陆汉语拼音形式提供的搜索结果。本领域技术人员将理解可以使用与存储在数据库264和265中的用户201相关的任何类型的情境信息以精细权重规则。
在本发明的进一步实施方式中,ERCM权重子单元263能够通过进一步考虑区域版权和内容分配规章定制搜索结果。如在上文中解释的,在某些区域/范围中,对一些内容项的访问可能被限制和/或不同版本的相同的内容项可以由于文化差异、版权或者其他管制法律被广播。例如,“泰坦尼克3D”电影的定制版本在中国大陆被特殊准备和播放–即,一些场景被去除–但是“断背山”电影没有被允许播放。而且,电影片名在电影被播放时可以被翻译为国家语言。搜索结果的定制可以包括去除一些搜索结果使得用户201不可以访问内容;和/或替换一些搜索结果;和/或对一些内容增加一些具体的权重规则。这样做,ERCM权重子单元263检查当前用户的地理位置和区域版权和内容分配规章。通常,GPS(全球定位卫星)数据被用于建立当前用户的地理位置。本领域技术人员将理解可以使用任何其他合适的手段用于检索当前地理位置。因此,搜索“泰坦尼克”电影的台湾用户201可以根据他的地理位置接收,例如,不同的搜索结果。如果他当前位于台湾,他可以接收作为搜索结果之一的台湾版本的电影,但是如果他在中国大陆,该版本可以被简单地除去和/或通过中文版本替换。并且,在后者情况下,虽然“泰坦尼克”电影的其他中文版本被设置为简体中文,但是台湾用户201可以接收“泰坦尼克”电影的中文版本连同友好的繁体中文。
虽然本发明的原理在此被大量地描述为与电视广播环境以及相关的电视应用有关,这个是为方便展现起见选择的示例,没有限制性。
类似地,虽然本发明的原理在此被大量地描述为与汉语语言变化版本和格式有关,这个是为方便展现起见选择的示例,没有限制性。
虽然上述实施方式已经描述为在头端侧上执行,本领域的一些技术人员将理解本发明的各种特征可以在中间网络单元中和/或在客户端设备侧上实现。
应理解,为清晰起见,在单独的实施方式的上下文中描述的本发明的各个特征也可在单个实施方式中以组合的形式来提供。相反,为简便起见,在单个实施方式的上下文中描述的本发明的各个特征也可单独地或者以任何适合的子组合来提供。
本领域技术人员将理解,本发明不由上文具体示出和描述的内容来限制。而是由所附权利要求及其等价物来限定本发明的范围。
Claims (16)
1.一种在内容元数据生成器上实施的方法,所述方法包括:
在内容元数据生成器管理单元处接收与由内容提供者提供的内容项有关的内容提供者元数据;
针对与所述内容项有关的所述内容提供者元数据的子集检索额外外部元数据,所述额外外部元数据包括使用一个或多个网络爬虫从一个或多个外部源检索的所述内容提供者元数据的语言变化版本,所述语言变化版本包括以下各项中的至少一项:书面格式、发音格式和社交共用名字;
将所述内容提供者元数据连同所述额外外部元数据存储在存储设备中,其中,所述内容提供者元数据被存储和索引为与所述额外外部元数据关联;
在搜索引擎处接收来自用户的内容项搜索请求,所述内容项搜索请求包括以第一语言变化版本表示的一个或多个搜索项;
使用所述索引,在所述内容提供者元数据或者所述额外外部元数据中识别匹配所述一个或多个搜索项的相关元数据,其中,所述内容提供者元数据和所述额外外部元数据在所述存储设备中被关联地存储和索引;
识别所述存储设备中存储和索引为与所述相关元数据关联的额外的相关的元数据,所述额外的相关的元数据包括所述相关元数据的语言变化版本并且对应于除了匹配所述一个或多个搜索项的所述相关元数据之外的内容提供者元数据和/或额外外部元数据;以及
增加一个或多个额外的搜索项至所述内容项搜索请求,所述一个或多个额外的搜索项对应于所述额外的相关的元数据。
2.根据权利要求1所述的方法,其中,从一个或多个外部源中检索额外外部元数据包括:
采集和解析一个或多个网络源,其中,所述一个或多个网络源包括以不同的语言变化版本提供额外外部元数据的一个或多个网络入口;和
从所采集和所解析的一个或多个网络源中的每一个提取所述额外外部元数据。
3.根据权利要求1所述的方法,其中,所述内容提供者元数据的所述子集包括以下的至少一个:
演员名字;
导演名字;
片名;和
版权和/或区域信息。
4.根据权利要求1所述的方法,其中,所述书面格式包括简体中文和/或繁体中文。
5.根据权利要求1所述的方法,其中,所述发音格式包括香港、台湾通用和/或汉语拼音。
6.根据权利要求1所述的方法,其中,对应于所述发音格式的简写创建另外的语言变化版本。
7.根据权利要求6所述的方法,其中,所述简写通过采用发音格式的每个所述额外外部元数据的每个单词的首个字母创建。
8.根据权利要求6所述的方法,其中,包括以第一语言变化版本表示的一个或多个搜索项的所述内容项搜索请求为发音格式的简写。
9.根据权利要求1所述的方法,所述方法进一步包括:
创建限定如何排列和显示搜索结果的权重规则;和
应用所述权重规则至使用包括所述一个或多个搜索项和所述一个或多个额外的搜索项的所述内容项搜索请求获得的搜索结果。
10.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括将以对应于所述第一语言变化版本的语言变化版本的搜索结果排列为高于其他搜索结果。
11.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括将以之前搜索的所述用户最频繁使用的语言变化版本的搜索结果排列为高于其他搜索结果。
12.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括将以定义在所述用户的简档中的语言变化版本的搜索结果排列为高于其他搜索结果。
13.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括将以对应于所述用户的当前位置的语言变化版本的搜索结果排列为高于其他搜索结果。
14.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括根据所述用户的当前地理位置和当地版权限制去除语言变化版本的一些搜索结果。
15.根据权利要求9所述的方法,其中,限定如何排列和显示搜索结果的所述权重规则包括根据所述用户的当前地理位置和当地版权限制替换语言变化版本的一些搜索结果。
16.一种包括计算机可执行指令的计算机可读存储介质,当所述指令被执行时,可操作为:
在内容元数据生成器管理单元处接收与由内容提供者提供的内容项相关的内容提供者元数据;
针对与所述内容项有关的所述内容提供者元数据的子集从一个或多个外部源检索额外外部元数据,所述额外外部元数据包括使用一个或多个网络爬虫从一个或多个外部源检索的所述内容提供者元数据的语言变化版本,所述语言变化版本包括以下各项中的至少一项:书面格式、发音格式和社交共用名字;
将所述内容提供者元数据连同所述额外外部元数据存储在存储设备中,其中,所述内容提供者元数据被存储和索引为与所述额外外部元数据关联;
在搜索引擎处接收来自用户的内容项搜索请求,所述内容项搜索请求包括以第一语言变化版本表示的一个或多个搜索项;
使用所述索引,在所述内容提供者元数据或者所述额外外部元数据中识别匹配所述一个或多个搜索项的相关元数据,其中,所述内容提供者元数据和所述额外外部元数据在所述存储设备中被关联地存储和索引;
识别在所述存储设备中存储和索引为与所述相关元数据关联的额外的相关的元数据,所述额外的相关的元数据包括所述相关元数据的语言变化版本并且对应于除了匹配所述一个或多个搜索项的所述相关元数据之外的内容提供者元数据和/或额外外部元数据;以及
增加一个或多个额外的搜索项至所述内容项搜索请求,所述一个或多个额外的搜索项对应于所述额外的相关的元数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/016,418 US9332318B2 (en) | 2013-09-03 | 2013-09-03 | Extra rich content MetaData generator |
US14/016,418 | 2013-09-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104424362A CN104424362A (zh) | 2015-03-18 |
CN104424362B true CN104424362B (zh) | 2019-06-07 |
Family
ID=52585188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410444283.9A Active CN104424362B (zh) | 2013-09-03 | 2014-09-02 | 额外丰富内容元数据生成器 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9332318B2 (zh) |
CN (1) | CN104424362B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085780A (ja) * | 2012-10-23 | 2014-05-12 | Samsung Electronics Co Ltd | 番組推薦装置及び番組推薦プログラム |
US20150356175A1 (en) * | 2014-06-05 | 2015-12-10 | Kpmg Llp | System and method for finding and inventorying data from multiple, distinct data repositories |
US10176257B2 (en) | 2015-08-21 | 2019-01-08 | Accenture Global Services Limited | Interactive video distribution system with content similarity matching |
US10956507B2 (en) * | 2018-08-16 | 2021-03-23 | Rovi Guides, Inc. | Reaction compensated result selection |
US11762898B1 (en) | 2022-03-31 | 2023-09-19 | Dropbox, Inc. | Generating and utilizing digital media clips based on contextual metadata from digital environments |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1598814A (zh) * | 2003-09-19 | 2005-03-23 | 鸿富锦精密工业(深圳)有限公司 | 同义词分类检索系统及方法 |
CN1855090A (zh) * | 2005-04-26 | 2006-11-01 | 株式会社东芝 | 用于将日文翻译成中文的装置和方法 |
JP2009086979A (ja) * | 2007-09-28 | 2009-04-23 | Ntt Data Corp | 組織名抽出装置、方法及びプログラム |
CN101443759A (zh) * | 2006-05-12 | 2009-05-27 | 乐图集团有限公司 | 多语言信息检索 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812300B2 (en) * | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6735583B1 (en) * | 2000-11-01 | 2004-05-11 | Getty Images, Inc. | Method and system for classifying and locating media content |
US20030149690A1 (en) * | 2002-02-01 | 2003-08-07 | Kudlacik Mark E. | Method and apparatus to search domain name variations world wide |
US20070112839A1 (en) * | 2005-06-07 | 2007-05-17 | Anna Bjarnestam | Method and system for expansion of structured keyword vocabulary |
US8386469B2 (en) * | 2006-02-16 | 2013-02-26 | Mobile Content Networks, Inc. | Method and system for determining relevant sources, querying and merging results from multiple content sources |
US20100257160A1 (en) * | 2006-06-07 | 2010-10-07 | Yu Cao | Methods & apparatus for searching with awareness of different types of information |
US20080098433A1 (en) * | 2006-10-23 | 2008-04-24 | Hardacker Robert L | User managed internet links from TV |
US20080270382A1 (en) * | 2007-04-24 | 2008-10-30 | Interse A/S | System and Method of Personalizing Information Object Searches |
CN101378562B (zh) | 2007-08-29 | 2012-07-04 | 北京三星通信技术研究有限公司 | 移动通信终端地址簿的中文和拼音的相互查找方法 |
CN101404716B (zh) | 2008-11-06 | 2012-04-11 | 深圳市茁壮网络股份有限公司 | 一种在数字电视终端上进行字符输入的方法和装置 |
US8705933B2 (en) * | 2009-09-25 | 2014-04-22 | Sony Corporation | Video bookmarking |
US8825661B2 (en) * | 2010-11-30 | 2014-09-02 | International Business Machines Corporation | Systems and methods for two stream indexing of audio content |
CN102222089A (zh) | 2011-06-02 | 2011-10-19 | 康佳集团股份有限公司 | 电视输入法系统 |
CN102291615B (zh) | 2011-08-31 | 2013-01-16 | 深圳市佳创视讯技术股份有限公司 | 基于单向网络的电视节目精准搜索及查看详情装置与方法 |
US20130212116A1 (en) * | 2012-02-13 | 2013-08-15 | Post Pro Finance Co., Inc. | Metadata engine and repository |
-
2013
- 2013-09-03 US US14/016,418 patent/US9332318B2/en active Active
-
2014
- 2014-09-02 CN CN201410444283.9A patent/CN104424362B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1598814A (zh) * | 2003-09-19 | 2005-03-23 | 鸿富锦精密工业(深圳)有限公司 | 同义词分类检索系统及方法 |
CN1855090A (zh) * | 2005-04-26 | 2006-11-01 | 株式会社东芝 | 用于将日文翻译成中文的装置和方法 |
CN101443759A (zh) * | 2006-05-12 | 2009-05-27 | 乐图集团有限公司 | 多语言信息检索 |
JP2009086979A (ja) * | 2007-09-28 | 2009-04-23 | Ntt Data Corp | 組織名抽出装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN104424362A (zh) | 2015-03-18 |
US20150067737A1 (en) | 2015-03-05 |
US9332318B2 (en) | 2016-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104137553B (zh) | 视频管理系统 | |
JP4062908B2 (ja) | サーバ装置および画像表示装置 | |
CN104255038B (zh) | 一种用于补充实况广播的方法及系统 | |
CN104424362B (zh) | 额外丰富内容元数据生成器 | |
US8990223B2 (en) | Systems and methods for matching media content data | |
KR101593720B1 (ko) | 시맨틱 네트워크 기반 콘텐츠 검색추천 장치 및 방법 | |
US20110289529A1 (en) | user interface for content browsing and selection in a television portal of a content system | |
US20110283232A1 (en) | User interface for public and personal content browsing and selection in a content system | |
US10187677B1 (en) | Systems and methods for generating aggregated media assets on related content from different sources | |
US20120317136A1 (en) | Systems and methods for domain-specific tokenization | |
US8478759B2 (en) | Information presentation apparatus and mobile terminal | |
US20110289533A1 (en) | Caching data in a content system | |
JP7019669B2 (ja) | 静的ナレッジグラフおよび時間的ナレッジグラフに基づいて用語の曖昧性を除去するためのシステムおよび方法 | |
US20110252065A1 (en) | Apparatus and method for semantic-based search and semantic metadata providing server and method of operating the same | |
CN106446235B (zh) | 视频的搜索方法和装置 | |
US10178422B1 (en) | Systems and methods for generating aggregated media assets based on related keywords | |
US9542395B2 (en) | Systems and methods for determining alternative names | |
CN102884524A (zh) | 针对显示的电视内容的自动图像发现和推荐 | |
US8117180B2 (en) | Personal mashups | |
US20120013805A1 (en) | Apparatus and method for displaying content | |
US20130179425A1 (en) | Apparatus and method for searching for program using related keyword | |
US10650065B2 (en) | Methods and systems for aggregating data from webpages using path attributes | |
US10182264B2 (en) | Methods and systems for selecting media content based on a location of a user relative to a viewing area | |
CN103336784B (zh) | 一种用于确定资源的优选资源描述信息的方法与设备 | |
US20170094320A1 (en) | Methods and systems for performing playback operations based on a location of a user relative to a viewing area |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: The Middlesex County Applicant after: Xina Media Co.,Ltd. Address before: The Middlesex County Applicant before: Enders GmbH |
|
CB02 | Change of applicant information | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190107 Address after: The Middlesex County Applicant after: Enders GmbH Address before: California, USA Applicant before: Cisco Technology, Inc. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |