CN112514410A - 电子设备及其控制方法 - Google Patents

电子设备及其控制方法 Download PDF

Info

Publication number
CN112514410A
CN112514410A CN201980051095.0A CN201980051095A CN112514410A CN 112514410 A CN112514410 A CN 112514410A CN 201980051095 A CN201980051095 A CN 201980051095A CN 112514410 A CN112514410 A CN 112514410A
Authority
CN
China
Prior art keywords
content
processor
server
frame
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980051095.0A
Other languages
English (en)
Other versions
CN112514410B (zh
Inventor
金玟寿
金圣晋
金永郁
朴宰贤
崔智雄
崔贤秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112514410A publication Critical patent/CN112514410A/zh
Application granted granted Critical
Publication of CN112514410B publication Critical patent/CN112514410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6581Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种电子设备包括通信器电路和处理器,其中,处理器用于经由通信器从外部设备获得多媒体数据,在多媒体数据中包括的多个帧中的至少一个帧中识别对象,并且基于从第一服务器提供的内容引导信息识别与识别出的所述对象相应的内容。

Description

电子设备及其控制方法
技术领域
本公开涉及一种电子设备及其控制方法。更具体地,本公开涉及一种识别多媒体数据中包括的内容的电子设备和电子系统。
此外,本公开涉及一种使用机器学习算法模拟人脑的诸如认知、确定等的功能的人工智能(AI)系统及其应用。
背景技术
近年来,在各种领域中使用实现人类级别的智能的人工智能(AI)系统。与基于规则的智能系统不同,人工智能(AI)系统是机器自己学习和识别的系统。在AI系统中,使用越多,识别率被提高并且用户偏好被更准确地理解。因此,基于规则的智能系统已经逐渐被基于深度学习的人工智能系统取代。
人工智能技术包括机器学习(例如,深度学习)和利用机器学习的元素技术。
机器学习是自己对输入数据的特征进行分类和学习的算法技术。元素技术是通过利用诸如深度学习等的机器学习算法来模拟人脑的诸如识别、确定等的功能的技术,其中,元素技术可包括诸如语言理解、视觉理解、推断/预测、知识表达、运动控制等的技术领域。
人工智能技术适用的各种领域如下所示。语言理解是一种识别人类的语言和字符并应用和处理识别的人类语言和字符的技术,其可包括自然语言处理、机器翻译、对话系统、问答、语音识别和合成等。视觉理解是一种就好像从人类视线观察对象一样地识别对象的技术,其可包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改善等。推理和预测是一种识别信息以执行逻辑推理和预测的技术,其可包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表达是一种将人类经验信息作为知识数据执行自动处理的技术,其可包括知识构建(数据生成/分类)、知识管理(数据利用)等。运动控制是一种控制车辆的自动驾驶和机器人运动的技术,其可包括运动控制(导航、碰撞和驾驶)、操纵控制(行为控制)等。
对于用于TV内容识别的自动内容识别,可能需要将节目标识信息和标题构建为数据库。例如,对于基于指纹的内容识别,可能需要预先获取将识别的内容的标识信息(指纹),并将获取的标识信息与内容的标题映射并将其存储在服务器中。此外,当在TV中获取当前屏幕的标识信息并将其发送到服务器时,服务器可识别是否存在匹配的标识信息,并将匹配的标识信息的节目标题和相关信息提供给TV。
然而,对于上述数据库结构,用于收集节目标识信息、将收集的节目标识信息连接到节目标题并将其发送到数据库服务器的附加操作或设备可能是必要的,由此产生相当大的成本。此外,当TV将指纹等发送到服务器并获取节目标题等时,也会产生成本。
因此,需要一种用于使服务器使用最小化的方法。
以上信息作为背景信息被呈现仅用于帮助理解本公开。至于以上信息中的任何信息是否可应用为针对本公开的现有技术,尚未做出确定并且尚未进行声明。
发明内容
技术问题
本公开的各方面在于至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一方面在于提供一种使外部服务器用于识别内容的使用最小化的电子设备及其控制方法。
技术方案
本公开的各方面至少解决上述问题和/或缺点,并且至少提供下面描述的优点。
根据本公开的一方面,提供一种电子设备,包括:通信器,包括电路;以及处理器,被配置为经由通信器从外部设备获得多媒体数据,在多媒体数据中包括的多个帧中的至少一个帧中识别对象,并且基于从第一服务器提供的内容引导信息识别与识别出的所述对象相应的内容。
处理器还可被配置为:基于所述至少一个帧获得数字视频指纹;控制通信器将获得的数字视频指纹发送到第二服务器;并且经由通信器从第二服务器获得与数字视频指纹相应的内容信息。
处理器还可被配置为:识别外部设备的类型;并且基于外部设备的类型是预定类型,基于所述至少一个帧获得数字视频指纹。
处理器还可被配置为:控制通信器将识别出的所述对象和识别出的所述内容中的一者或两者发送到第三服务器;并且经由通信器从第三服务器获得与识别出的所述对象和识别出的所述内容中的一者或两者相应的广告。
所述电子设备可包括存储器,其中,处理器还可被配置为:基于存储在存储器中的对象识别模型在所述至少一个帧中识别所述对象,其中,对象识别模型可通过经由人工智能算法训练多个样本图像和所述多个样本图像中包括的多个对象被获得。
处理器还可被配置为:基于与所述对象和所述内容相关的信息重新训练对象识别模型。
处理器还可被配置为:将光学字符读取器(OCR)应用于所述多个帧中的所述至少一个帧,并识别文本;并且基于识别出的所述文本识别所述内容。
处理器还可被配置为:识别外部设备的类型;并且基于外部设备的类型是预定类型,识别所述至少一个帧中的对象。
所述电子设备可包括显示器,其中,处理器还可被配置为:控制显示器顺序地显示所述多个帧;并且在所述多个帧中的显示的帧中识别所述对象。
所述对象可包括以下项中的任意一项或以下项的任意组合:与所述至少一个帧相应的内容的标题、与所述至少一个帧相应的内容的再现时间、与所述至少一个帧相应的内容的频道信息和所述至少一个帧中包括的字符。
根据本公开的另一方面,提供一种电子设备的控制方法,所述控制方法包括:从外部设备获得多媒体数据;在多媒体数据中包括的多个帧中的至少一个帧中识别对象;并且基于从第一服务器提供的内容引导信息识别与识别出的所述对象相应的内容。
所述方法还可包括:基于所述至少一个帧获得数字视频指纹;将获得的数字视频指纹发送到第二服务器;并且从第二服务器获得与数字视频指纹相应的内容信息。
获得数字视频指纹的步骤可包括:识别外部设备的类型;并且基于外部设备的类型是预定类型,基于所述至少一个帧获得数字视频指纹。
所述方法还可包括:将识别出的所述对象或识别出的所述内容中的一者或两者发送到第三服务器;并且从第三服务器获得与识别出的所述对象或识别出的所述内容中的一者或两者相应的广告。
识别对象的步骤可包括:基于对象识别模型在所述至少一个帧中识别所述对象,并且其中,对象识别模型可通过经由人工智能算法训练多个样本图像和所述多个样本图像中包括的多个对象被获得。
所述方法还可包括:基于与所述对象和所述内容相关的信息重新训练对象识别模型。
识别对象的步骤可包括:将光学字符读取器(OCR)应用于所述多个帧中的所述至少一个帧,并识别文本,并且其中,识别所述内容的步骤可包括基于识别出的所述文本识别所述内容。
所述方法还可包括:识别外部设备的类型,其中,识别对象的步骤可包括:基于外部设备的类型是预定类型,在所述至少一个帧中识别所述对象。
所述方法还可包括:顺序地显示所述多个帧,其中,识别对象的步骤可包括在所述多个帧中的显示的帧中识别所述对象。
所述对象可包括以下项中的任意一项或以下项的任意组合:与所述至少一个帧相应的内容的标题、与所述至少一个帧相应的内容的再现时间、与所述至少一个帧相应的内容的频道信息和所述至少一个帧中包括的字符。
根据本公开的另一方面,提供一种包括模型学习部的电子设备的控制方法,所述控制方法包括:从外部设备获得多媒体数据;基于通过经由人工智能算法训练多个样本图像和所述多个样本图像中包括的多个对象而获得的对象识别模型,识别是否在多媒体数据中包括的多个帧中的至少一个帧中识别出对象;基于所述对象被识别出,识别与识别出的所述对象相应的内容是否被识别出;并且基于所述内容未被识别出,基于所述至少一个帧获得数字视频指纹;将获得的数字视频指纹发送到服务器;并且从服务器获得与数字视频指纹相应的内容信息。
获得数字视频指纹的步骤可包括:基于所述内容未被识别出,识别外部设备的类型;并且基于外部设备的类型是预定类型,基于所述至少一个帧获得数字视频指纹。
所述预定类型可以是机顶盒、外部内容服务器和广播服务器中的任意一个或任意组合。
识别外部设备的类型的步骤可在将获得的数字视频指纹发送到服务器之前被执行。
有益效果
根据以下结合附图进行的公开了一个或更多个实施例的详细描述,本公开的其它方面、优点和显著特征对于本领域技术人员将变得显而易见。
附图说明
根据以下结合附图进行的描述,实施例的以上和其它方面以及优点将更加明显,其中:
图1A是示出根据实施例的电子设备的示例配置的框图;
图1B是详细示出根据实施例的电子设备的示例配置的框图;
图1C是示出根据实施例的电子设备的另一示例配置的框图;
图2是简要示出根据实施例的整个系统的示图;
图3A是示出根据实施例的根据对象识别的操作的示图;
图3B是示出根据实施例的根据对象识别的操作的示图;
图3C是示出根据实施例的根据对象识别的操作的示图;
图4是示出根据实施例的内容识别方法的过程的流程图;
图5是示出根据实施例的另一电子设备的配置的框图;
图6是示出根据实施例的学习部的框图;
图7是示出根据实施例的响应部的框图;
图8是示出根据实施例的电子设备和外部服务器彼此互锁以学习和识别数据的示例的示图;以及
图9是示出根据实施例的电子设备的控制方法的流程图。
在整个附图中,相同的参考标号用于表示相同的元件。
最佳实施方式
具体实施方式
可对本公开的实施例进行各种修改。实施例在附图中被示出并且在详细描述中被详细描述。然而,将理解,本公开不限于特定实施例,而是包括在不脱离本公开的范围和精神的情况下的所有修改、等同物和替换物。此外,如果公知的功能或结构会以不必要的细节模糊本公开,则可不详细地描述公知的功能或结构。
在下文中,将参照附图详细描述一个或更多个实施例。
本公开的一方面在于提供一种使外部服务器用于识别内容的使用最小化的电子设备及其控制方法。
根据一个或更多个实施例,电子设备可基于多媒体数据中包括的多个帧中的至少一个帧中包括的对象来识别内容,从而使外部服务器在内容识别中的使用最小化。
图1A是示出电子设备100的示例配置的框图;
参照图1A,电子设备100可包括通信器电路110(例如,通信器)和处理器120。
电子设备100可执行与外部设备的通信。例如,电子设备100可包括诸如TV、台式PC、笔记本PC、智能电话、平板PC、智能眼镜、智能手表等的显示器,并且再现从诸如机顶盒(STB)的外部设备获取的多媒体数据。
可选地,电子设备100可以是没有显示器的设备,诸如扬声器、计算机主体等。在这种情况下,电子设备100可将从诸如机顶盒(STB)的外部设备获取的多媒体数据发送到设置有显示器的设备。
可选地,电子设备100可以是与显示设备分开的元件,其中,该元件可以是用于执行显示设备的功能中的诸如图像处理功能的主要功能并仅将图像处理结果发送到显示设备的设备。在这种情况下,显示设备可被小型化,并且电子设备100可从机顶盒获取多媒体数据,并将获取的多媒体数据发送到显示设备。可选地,电子设备100可从外部内容服务器、广播站服务器等获取内容,处理图像,然后将与内容相应的多媒体数据发送到显示设备。
根据实施例,电子设备100可以是从外部设备获取多媒体数据的任何设备。在实施例中,外部设备不仅可以是机顶盒,而且可以是外部内容服务器、广播站服务器、卫星有线服务器等。此外,外部设备可以是通用串行总线(USB)、光盘(CD)、游戏机、机顶盒等,并且可以是能够向电子设备100提供多媒体数据的任何设备。此外,多媒体数据可包括视频数据或音频数据中的至少一种。
电子设备100可以是从多媒体内容识别内容的电子设备。下面将详细描述其具体操作。
包括电路的通信器110是用于与各种设备执行通信的元件。例如,包括电路的通信器110可支持各种通信方案,诸如蓝牙(BT)、蓝牙低功耗(BLE)、无线保真(Wi-Fi)、Zigbee等。然而,实施例不限于此,并且包括电路的通信器110可支持通信标准中的可进行无线通信的任何通信方案。
此外,包括电路的通信器110可包括能够与各种设备进行有线通信的通信接口。例如,包括电路的通信器110可包括诸如高清晰度多媒体接口(HDMI)、移动高清链路(MHL)、通用串行总线(USB)、红-绿-蓝(RGB)、D-超小型(D-sub)、数字视频接口(DVI)等的通信接口,并且可执行与各种服务器的通信。
电子设备100可与外部设备连接,并且获取多媒体数据。在这种情况下,电子设备100可通过通信接口(诸如高清多媒体接口(HDMI)、显示端口(DP)、雷电接口(thunderbolt)、通用串行总线(USB)、红绿蓝(RGB)、D-超小型(D-sub)、数字视频接口(DVI)等)被连接到外部设备,并且包括电路的通信器110可包括所有有线通信接口。此外,有线通信接口不仅可包括通过一个端口执行视频输入和音频输入的标准,而且可包括通过两个端口执行视频输入和音频输入的标准。
然而,实施例不限于此,并且有线通信接口可以是能够执行视频输入和音频输入中的一者或两者的任何标准。
包括电路的通信器110除了可包括上述有线通信接口之外,还可包括能够与各种设备执行有线通信的所有通信方案的接口。
处理器120包括各种处理电路并控制电子设备100的总体操作。
根据实施例,处理器120可被实现为数字信号处理器(DSP)、微处理器和时间控制器(TCON),但不限于此。处理器120可包括各种处理电路(诸如,例如但不限于中央处理器(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)或ARM处理器)中的至少一个,或者可被定义为相应的术语。此外,处理器120可被实现为具有内置处理算法的片上系统(SoC)和大规模集成(LSI),并且可被实现为现场可编程门阵列(FPGA)。
处理器120可通过包括电路的通信器110从外部设备获取多媒体数据。根据实施例,外部设备可以是向电子设备100提供与内容相应的多媒体数据的设备,诸如机顶盒。也就是说,外部设备可执行内容的图像处理并向电子设备100提供多媒体数据,并且电子设备100可在没有附加图像处理的情况下向显示设备提供获取的多媒体内容,或者可直接显示获取的多媒体内容。
此外,外部设备可将内容信息包括在多媒体内容中,并向电子设备100提供包括内容信息的多媒体数据。例如,外部设备可向电子设备100提供多媒体内容,其中,在该多媒体内容中,内容标题、频道信息等被添加到总共10000帧的内容中的与当前时间点相应的帧。此外,外部设备可将内容信息包括在多个连续帧中,并向电子设备100提供包括内容信息的多个连续帧。
处理器120可在多媒体数据中包括的多个帧中的至少一个帧中识别对象。例如,处理器120可在多媒体数据中包括的多个帧中的至少一个帧中识别猴子。可选地,处理器120可在多媒体数据中包括的至少一个帧中识别由外部设备添加的图形数据,并从图形数据识别内容标题、频道信息等。在实施例中,对象可包括字符、徽标、线条、商品或文本中的至少一个。
可选地,处理器120可从多媒体数据中包括的音频数据识别对象。在这种情况下,处理器120可按照预设时间段识别对象,而不是在诸如帧的特定点处识别对象。例如,处理器120可基于在多媒体数据中包括的音频数据的第一时间段期间的语音来识别字符。在下文中,为了便于解释,假设按帧来识别对象。
处理器120可基于从第一服务器提供的内容引导信息来识别与识别出的对象相应的内容。例如,当识别出猴子时,处理器120可根据内容引导信息识别与猴子相应的猴子纪录片。根据实施例,内容引导信息可包括由广播站等提供的内容的再现时间、标题、频道信息、摘要信息、字符、故事或内容本身的广告(诸如电子节目引导(EPG))中的至少一个。此外,内容信息可包括紧接在内容的再现时间之前的广告、再现期间的广告或紧接在再现之后的广告中的至少一个。
处理器120可从第一服务器获取内容引导信息,并且基于获取的内容引导信息来识别与识别出的对象相应的内容。可选地,处理器120可搜索存储在第一服务器中的内容引导信息,并识别与识别出的对象相应的内容。
当基于从第一服务器提供的内容引导信息识别与识别出的对象相应的内容时,处理器120还可考虑当前时间信息和类别。例如,当识别出猴子时,处理器120可根据内容引导信息在与当前时间相应的内容中识别与猴子相应的内容。可选地,当识别出猴子时,处理器120可从内容引导信息中包括的电影、纪录片、娱乐和戏剧中的纪录片中识别与猴子相关的内容。如果在当前时间或特定类别中未识别出与对象相应的内容,则处理器120可在另一时间或类别中识别与对象相应的内容。
上述第一服务器可以是与外部设备分离的设备。例如,第一服务器可以是向外部设备提供内容的设备。此外,第一服务器可以是不仅向外部设备提供内容而且向外部设备提供内容引导信息的设备。然而,电子设备100可不从外部设备获取内容引导信息。这是因为诸如机顶盒的外部设备必须设置有附加功能,以便向外部设备100提供内容引导信息。也就是说,外部设备是专注于向电子设备100提供多媒体数据的功能的设备,但第一服务器可以是除了能够提供内容和内容引导信息之外还能够提供各种功能的通用设备。因此,处理器120可从第一服务器而不是外部设备获取内容引导信息。
此外,当没有识别出内容时,处理器120可基于至少一个帧获取指纹(例如,数字视频指纹),控制包括电路的通信器110将获取的指纹发送到第二服务器,并且经由包括电路的通信器110从第二服务器获取与指纹相应的内容信息。
处理器120可不通过对象识别来识别内容。例如,处理器120可不根据内容引导信息识别与识别出的猴子相应的内容。在这种情况下,处理器120可使用指纹通过第一服务器获取内容信息。
根据实施例,第二服务器是存储多个内容和多个内容中的每个内容中包括的每个帧的指纹,并且当从电子设备获取到指纹时,将与指纹相应的内容信息发送到电子设备100的服务器,其中,第二服务器可以是与第一服务器分离的设备。然而,实施例不限于此,并且第一服务器和第二服务器可具有相同的尺寸。
相反,当识别出内容时,处理器120可不获取指纹。这是因为,当通过对象识别来识别内容时,不需要使用指纹来识别内容。
此外,指纹是能够将一帧与另一帧区分开的标识信息,其中,标识信息指每一帧的固有数据。例如,与基于文本的元数据不同,指纹是从帧中包括的视频、图像或音频信号获取的特征数据,并且反映信号本身固有的特性。因此,指纹也被称为指纹数据、DNA数据或基因数据。例如,在图像或视频信号的情况下,指纹可以是表示诸如运动矢量、颜色等的特征的数据。
可通过各种算法获取指纹。例如,可按照预定时间段划分音频信号,并且可计算在各个时间段中包括的频率的信号的幅度。此外,可通过经由计算相邻频率间隔的信号之间的幅度差来获得频率斜率,并且当斜率为正时将计算的频率斜率量化为1并且当斜率为负时将计算的频率斜率量化为0,来生成指纹数据。然而,实施例不限于此,并且可以以各种方式获取指纹。
可选地,当没有识别出内容时,处理器120可识别外部设备的类型,并且当外部设备的类型是预定类型时,基于至少一个帧获取指纹。此外,处理器120可控制包括电路的通信器110将获取的指纹发送到第二服务器,并且经由包括电路的通信器110从第二服务器获取与指纹相应的内容信息。也就是说,处理器120可在将指纹发送到第二服务器之前识别外部设备的类型。
例如,当没有识别出内容时,处理器120可识别外部设备的类型,并且当外部设备的类型是机顶盒、外部内容服务器、广播站服务器等时,处理器120可经由第二服务器获取指纹并获取内容信息。
相反,当外部设备的类型是智能电话、游戏控制台、数字视频记录器(DVR)、DVD播放器等时,处理器120可能无法获取指纹。例如,当电子设备100与智能电话镜像时,处理器120可获取在智能电话上显示的屏幕作为多媒体内容。然而,与智能电话上显示的屏幕相应的指纹可不被存储在第二服务器中。因此,即使当处理器120将指纹发送到第二服务器时,处理器120也不会获取到内容信息。因此,当外部设备的类型不是预定类型时,处理器120可不获取指纹。在这种情况下,处理器120可停止用于识别内容的操作。
在上述实施例中,在识别出对象之后识别外部设备的类型,但实施例不限于此。例如,处理器120可首先识别外部设备的类型,并且当外部设备的类型是预定类型时,在至少一个帧中识别对象。
例如,处理器120可识别外部设备的类型,并且当外部设备的类型是机顶盒、外部内容服务器、广播服务器等时,识别对象。当外部设备的类型是智能电话、游戏控制台、DVR等时,处理器120可不识别对象。例如,当电子设备100与智能电话镜像时,处理器120可获取智能电话上显示的屏幕作为多媒体内容。然而,从智能电话上显示的屏幕识别出的对象可能与内容引导信息无关。此外,与智能电话上显示的屏幕相应的指纹可不被存储在第二服务器中。因此,当外部设备的类型不是预定类型时,处理器120可不执行对象识别操作和指纹获取操作。在这种情况下,处理器120可停止用于识别内容的操作。
在上述实施例中,识别了外部设备的类型,但实施例不限于此。例如,处理器120可识别用于与外部设备通信的方法。当通信方法是镜像、USB等时,处理器120可不识别对象,并且可在通信方法是其余通信方法时识别对象。可选地,处理器120可首先识别对象,并且当没有识别出内容时,识别用于与外部设备通信的方法。此外,当与外部设备的通信方法是镜像、USB等时,处理器120可不获取指纹,并且可在通信方法是其余通信方法时获取指纹。可选地,处理器120可基于从外部设备获取的多媒体数据来识别是否识别对象。
处理器120可控制包括电路的通信器110将识别出的对象或内容中的至少一个发送到第三服务器,并且经由包括电路的通信器110从第三服务器获取与识别出的对象或内容中的至少一个相应的广告。通过该操作,第三服务器可获取用户的观看历史,并且基于用户的观看历史提供广告。例如,当用户观看历史中存在大量电影观看历史时,第三服务器可向电子设备100提供电影预告片、新电影信息等。
此外,处理器120可基于用户的观看历史来识别内容。例如,当电子设备100的用户的电影内容的观看历史多于戏剧的观看历史时,处理器120可将关于观看历史的用户信息存储在存储器中。此后,处理器120可通过识别从多媒体数据识别特定的男演员或女演员。此外,即使当特定男演员或女演员在电影和戏剧中都主演时,处理器120也可基于存储在存储器中的用户信息将多媒体数据识别为电影中的一个电影。
此外,即使没有识别出内容,处理器120也可控制包括电路的通信器110将存储在存储器中的用户信息发送到第三服务器,并且经由包括电路的通信器110从第三服务器获取与用户信息相应的广告。例如,当用户观看历史中存在大量电影观看历史时,第三服务器可向电子设备100提供电影预告片、新电影信息等,而不管当前观看者观看的内容的类型如何。
在实施例中,第三服务器可以是与第一服务器和第二服务器分离的服务器。然而,实施例不限于此,并且第三服务器可以是与第一服务器或第二服务器中的至少一个相同的服务器。
电子设备100还可包括存储器,并且可基于存储在存储器中的对象识别模型来在至少一个帧中识别对象。在实施例中,可通过经由人工智能算法训练多个样本图像和多个样本图像中包括的多个对象来获取对象识别模型。
根据实施例,存储器可以是与处理器120分离的元件。然而,实施例不限于此,并且可在处理器120内提供存储对象识别模型的存储器。可选地,处理器120本身可以以硬件被实现以与对象识别模型相应。在下文中,为了便于解释,将假设存储器和处理器120是单独的元件。
可在另一电子设备中训练对象识别模型并获取对象识别模型。然而,实施例不限于此,并且电子设备100可通过经由人工智能算法训练多个样本图像和多个样本图像中包括的多个对象来直接获取对象识别模型。
此外,处理器120可基于关于对象和内容的信息来重新训练对象识别模型。例如,当重复识别猴子时,处理器120可通过重新训练来获取猴子的具有提高的识别速度和准确性的人工智能算法。
处理器120可将光学字符读取器(OCR)应用于多个帧中的至少一个帧并识别文本,并且基于识别出的文本识别内容。
处理器120可将识别出的文本与内容引导信息进行比较并获取内容信息。可选地,处理器120可不将识别出的文本与内容引导信息进行比较,并且可将识别出的文本本身识别为内容信息。
电子设备100还可包括显示器,并且可控制显示器顺序地显示多个帧,并且在多个帧中的显示的帧中识别对象。
例如,处理器120可在获取和显示视频帧之后识别对象,而不是在获取视频帧时识别对象。也就是说,处理器120可仅在用户观看与视频帧相应的内容时识别对象。可通过该操作获取用户的内容观看历史。
上述对象可包括以下项中的至少一项:与至少一个帧相应的内容的标题、该内容的再现时间、该内容的频道信息或至少一个帧中包括的字符。
图1B是详细示出电子设备100的示例配置的框图。电子设备100可包括通信器电路110和处理器120。参照图1B,电子设备100可包括存储器130、显示器140、用户接口部150、扬声器160、按钮170和麦克风180。省略了与图1A中的构成元件相比冗余的图1B中所示的构成元件的详细描述。
处理器120可使用存储在存储器130中的各种程序控制电子设备100的全部操作。
详细地,处理器120可包括随机存取存储器(RAM)121、只读存储器(ROM)122、主中央处理器(CPU)123、第一接口124-1至第n接口124-n和总线125。
RAM 121、ROM 122、主CPU 123、第一接口124-1至第n接口124-n等可经由总线125彼此连接。
第一接口124-1至第n接口124-n可被连接到上述各种元件。接口中的一个接口可以是经由网络被连接到外部设备的网络接口。
主CPU 123可访问存储器130,并且使用存储在存储器130中的操作系统(O/S)执行启动。此外,主CPU 123可使用存储在存储器130中的各种程序来执行各种操作。
ROM 122可存储用于系统启动的一组指令。当输入开启命令并且供电时,主CPU123可根据存储在ROM 122中的指令将存储在存储器130中的O/S复制到RAM 121,并且运行O/S以启动系统。如果启动完成,则主CPU 123可将存储在存储器130中的各种应用程序复制到RAM 121并运行复制到RAM 121的应用程序,从而执行各种操作。
主CPU 123可提供包括诸如图标、图像、文本等的各种对象的屏幕。主CPU 123可基于获取的控制命令根据屏幕布局获取属性值,诸如将指示每个对象的坐标值、形式、尺寸和颜色。主CPU 123可基于获取的属性值提供包括对象的各种布局的屏幕。提供的屏幕被显示在显示器140的显示区域中。
处理器120可对音频数据执行处理。处理器120可执行诸如音频数据的解码、放大和噪声滤波的各种处理。
此外,处理器120可对多媒体数据执行处理。处理器120可对多媒体数据执行各种图像处理,诸如解码、缩放、噪声滤波、帧速率转换、分辨率转换等。
上述处理器120的操作可由存储在存储器130中的程序执行。
存储器130可存储诸如用于操作电子设备100的操作系统(O/S)软件模块、对象识别模块、对象识别人工智能模块、人工智能训练模块或光学字符识别(OCR)模块的各种数据。
包括电路的通信器110是根据各种类型的通信方法与各种类型的外部设备执行通信的元件。包括电路的通信器110可包括Wi-Fi芯片111、蓝牙芯片112、无线通信芯片113和近场通信(NFC)芯片114。
Wi-Fi芯片111和蓝牙芯片112可分别根据Wi-Fi方法和蓝牙方法执行通信。在使用Wi-Fi芯片111或蓝牙芯片112的情况下,可首先发送和获取诸如SSID、会话密钥等的各种接入信息,可使用各种接入信息执行通信接入,然后可发送和获取各种信息。无线通信芯片113指示根据诸如IEEE、Zigbee、第三代(3G)、第三代合作伙伴计划(3GPP)和长期演进(LTE)等的各种通信标准执行通信的芯片。NFC芯片114意味着以NFC方案操作的芯片,其中,NFC方案使用诸如135kHz、13.56MHz、433MHz、860至960MHz、2.45GHz等的各种RF-ID频带中的13.56MHz的频带。
此外,包括电路的通信器110还可包括有线通信接口,诸如HDMI、MHL、USB、DP、雷电接口、RGB、D-SUB、DVI等。处理器120可通过包括电路的通信器110的有线通信接口被连接到外部设备。在这种情况下,处理器120可通过有线通信接口从外部设备获取多媒体数据。
显示器140可被实现为各种类型的显示器,诸如液晶显示器(LCD)、有机发光二极管(OLED)显示器和等离子体显示面板(PDP)。显示器140还可包括驱动电路和背光单元,其中,驱动电路可被实现为非晶硅薄膜晶体管(a-si TFT)、低温多晶硅(LTPS)薄膜晶体管(TFT)或有机TFT(OTFT)。显示器140可以是包括触摸传感器的触摸屏。
用户接口部150可获取各种用户交互。在实施例中,用户接口部150可根据电子设备100的实现实施例以各种形式被实现。例如,用户接口部150可被实现为设置在电子设备100上的按钮、获取用户语音的麦克风、检测用户运动的相机等。此外,当电子设备100被实现为基于触摸的移动终端时,用户接口部150可被实现为与触摸板形成中间层结构的触摸屏。用户接口部150可用作上述显示器140。
扬声器160输出由处理器120处理的各种音频数据和各种通知声音或语音消息等。
按钮170可包括形成在电子设备100的主体的外部的前面、侧面或后面的各种类型的按钮,诸如机械按钮、触摸板、轮盘等。
麦克风180获取用户语音或其它声音,并将用户语音或其它声音转换为音频数据。
图1C是示出电子设备的另一示例配置的框图。参照图1C,电子设备100可包括通信器电路110和处理器120,并且处理器120可包括存储对象识别模型的存储器130。也就是说,处理器120可以以包括对象识别模型的片上形式被制造。在实施例中,存储器130可被实现为高速缓冲存储器、寄存器文件和缓冲器。
通过上述方法,处理器120可用最小的指纹获取操作识别内容。
在下文中,将参照附图更详细地描述电子设备100的操作。
图2是简要示出根据实施例的整个系统的示图。
参照图2,电子设备100可被连接到显示设备200、外部设备300、第一服务器400-1、第二服务器400-2和第三服务器400-3。
处理器120可将从外部设备300获取的多媒体数据发送到显示设备200。处理器120可从多媒体数据识别对象,并且基于从第一服务器400-1提供的内容引导信息来识别内容。在实施例中,内容引导信息可以是在获取多媒体数据之前存储在电子设备100中的信息。然而,实施例不限于此,并且当获取多媒体数据时,处理器120可向第一服务器400-1请求内容引导信息并获取请求的内容引导信息。
此外,当没有识别出内容并且外部设备300是预定设备时,处理器120可基于多媒体内容中包括的至少一个帧来获取指纹,将获取的指纹发送到第二服务器400-2,并且从第二服务器400-2获取与指纹相应的内容信息。
此外,处理器120可将识别出的对象或内容中的至少一个发送到第三服务器400-3,并且从第三服务器400-3获取与识别出的对象或内容中的至少一个相应的广告。处理器120可将获取的广告发送到显示设备200。
根据图2中所示的实施例,电子设备100和显示设备200彼此分离,但实施例不限于此。例如,电子设备100和显示设备200可在一个设备中被实现。可选地,电子设备100可被实现为USB,并且可在被连接到显示设备200时被使用。
此外,根据图2中所示的实施例,第一服务器400-1、第二服务器400-2和第三服务器400-3彼此分离。然而,第一服务器400-1、第二服务器400-2和第三服务器400-3中的至少两个可在一个服务器中被实现。
图3A是示出根据实施例的根据对象识别的操作的示图。图3B是示出根据实施例的根据对象识别的操作的示图。图3C是示出根据实施例的根据对象识别的操作的示图。
处理器120可在多媒体数据中包括的多个帧中的至少一个帧中识别对象。例如,如图3A中所示,处理器120可在帧中识别猴子。
然而,实施例不限于此,并且处理器120可识别内容的标题、内容的再现时间、内容的频道信息、至少一个帧中包括的字符、徽标、内容图像、外部设备的类型、邮政编码、关键字、体裁、观看率或评论中的至少一个。
此外,处理器120可在多媒体内容中包括的多个帧中识别对象。例如,当在预定数量的帧中识别出如图3A中的猴子时,处理器120可基于内容引导信息识别与猴子相应的内容。在实施例中,所述多个帧可以是连续帧。
可选地,处理器120可在帧的特定区域中识别对象。例如,处理器120可将帧划分为3×3区域并在中间区域中识别对象。
在图3A中,示出了内容中不包括附加信息的屏幕,但实施例不限于此。例如,外部设备可将如图3A中的帧中的包括屏幕显示(OSD)信息的多媒体数据发送到电子设备100。在这种情况下,处理器120可将光学字符识别(OCR)应用于帧并获取OSD信息。可选地,处理器120可执行OSD信息识别和对象识别两者。例如,处理器120可将帧中包括的文本识别为OSD信息,并且通过对象识别来识别猴子。此外,处理器120可基于识别出的文本或识别出的猴子来识别内容。
根据实施例,处理器120可排除包括OSD信息的一些区域之外识别对象。例如,当OSD信息被包括在帧的下端时,处理器120可在除了存储OSD信息的帧的下端之外的其余区域中识别对象。
当识别出对象时,处理器120可基于内容引导信息识别与对象相应的内容。例如,处理器120可基于如图3B中所示的内容引导信息来识别与猴子相应的全球纪录片(你好!猴子)。
在图3B中,示出了向观看者显示的内容引导信息屏幕,并且存储在电子设备100中的内容引导信息可以是文本格式。此外,内容引导信息还可包括图像,并且处理器120可从内容引导信息中包括的图像中识别对象,并且将在帧中识别出的对象与在内容引导信息中包括的图像中识别出的对象进行比较并识别内容。
处理器120可控制包括电路的通信器110将内容的标识信息发送到第三服务器400-3,并且经由包括电路的通信器110从第三服务器400-3获取与内容的标识信息相应的广告。例如,如图3C中所示,处理器120可控制包括电路的通信器110发送关于图3B中识别出的全球纪录片(你好,猴子)的信息,并且经由包括电路的通信器110从第三服务器400-3获取与全球纪录片(你好,猴子)高相关的旅行广告。
然而,实施例不限于此,并且处理器120除了可将内容的标识信息发送到第三服务器400-3之外,还可将识别出的对象和用户的观看历史发送到第三服务器400-3。
在上述示例中,获取的广告是与识别出的对象或识别出的内容中的至少一个相应的产品广告,但不限于此。例如,获取的广告可以是与识别出的内容相关的内容。例如,获取的广告可以是识别出的内容的下一集的预览。
图4是示出根据实施例的内容识别方法的过程的流程图。
在操作S410,处理器120可首先在多媒体数据中包括的多个帧中的至少一个帧中识别对象。此外,当识别出对象时,S410-Y,在操作S420,处理器120可基于识别出的对象识别内容。当识别出内容时,S420-Y,处理器120可终止操作。
可选地,当未识别出对象(S410-N)或未识别出内容(S420-N)时,在操作S430,处理器120可识别外部设备的类型是否是预定类型。当外部设备的类型是预定类型时,S430-Y,在操作S440,处理器120可获取多个帧中的至少一个帧中的指纹。
在操作S450,处理器120可将指纹发送到服务器,并且在操作S460从服务器获取与指纹相应的内容的识别信息。
当从服务器获取内容的识别信息时,处理器120可终止操作。
可选地,当外部设备的类型不是预定类型时,S430-N,处理器120可终止操作。这是识别出即使指纹被发送到服务器,也不能接收到内容的识别信息的情况。例如,外部设备的类型可以是智能电话、游戏控制台等。
此外,当未识别出对象(S410-N)或者未识别出内容(S420-N)时,处理器120可跳过识别外部设备的类型是否是预定类型的操作S430,并且在操作S440立即获取多个帧中的至少一个帧中的指纹。
图5是示出根据实施例的另一电子设备500的配置的框图。在实施例中,另一电子设备500可以是通过人工智能算法获取对象识别模型的设备。
参照图5,另一电子设备500可包括学习部510或响应部520中的至少一个。
学习部510可使用学习数据提供或训练用于识别对象的人工智能模型。学习部510可通过使用所收集的学习数据提供包括识别标准的识别模型。
响应部520可使用预定数据作为训练的人工智能模型的输入数据来获取预定图像中包括的对象。
根据实施例,学习部510和响应部520可被包括在另一外部服务器500中。然而,这仅是示例,并且学习部510和响应部520可被安装在电子设备100内。例如,学习部510的至少一部分和响应部520的至少一部分可被实现为软件模块,或者被制造为至少一个硬件芯片并被安装在电子设备100中。例如,学习部510或响应部520中的至少一个可以以专用于人工智能(AI)的硬件芯片的形式被制造,或者可被制造为先前的通用处理器(例如,CPU或应用处理器)或专用图形处理器(例如,GPU)的一部分并被安装在上述各种电子设备中。专用于人工智能的硬件芯片是专门用于概率计算的专用处理器,其中,与通用处理器相比,专用处理器可展示出高并行处理性能,使得可快速处理人工智能领域(诸如机器学习)中的计算操作。当学习部510和响应部520被实现为软件模块(或包括指令的程序模块)时,软件模块可被存储在非暂时性计算机可读介质上。在这种情况下,软件模块可由操作系统(OS)或预定应用提供。可选地,软件模块的一部分可由操作系统(OS)提供,并且其余部分可由预定应用提供。
在这种情况下,学习部510和响应部520可被安装在一个电子设备中,或者可分别被安装在附加的电子设备中。例如,学习部510或响应部520中的一个可被包括在电子设备100中,并且剩余的一个可被包括在另一电子设备500中。学习部510和响应部520可经由有线或无线地将由学习部510构建的模型信息提供给响应部520,或者输入到学习部520的数据可作为附加的学习数据被提供给学习部510。
图6是示出根据实施例的学习部510的框图。
参照图6,根据一个或更多个实施例的学习部510可包括学习数据获取部510-1和模型学习部510-4。此外,学习部510还可选择性地包括学习数据预处理部510-2、学习数据选择部510-3或模型评估部510-5中的至少一个。
学习数据获取部510-1可获取用于识别对象的人工智能模型所需的学习数据。在实施例中,学习数据获取部510-1可获取多个样本图像和多个样本图像中包括的多个对象作为学习数据。学习数据可以是由学习部或学习部510的制造商收集或测试的数据。
模型学习部510-4可使用学习数据将人工智能模型训练为包括用于从图像中识别对象的标准。例如,模型学习部510-4可使用学习数据的至少一部分通过监督学习训练人工智能模型。可选地,模型学习部510-4可例如在没有特定监督的情况下使用学习数据训练自身,使得可通过发现用于识别对象的标准的无监督学习来训练人工智能模型。此外,模型学习部510-4可例如通过强化学习来训练人工智能模型,其中,强化学习使用关于根据学习提供的响应的结果是否正确的反馈。此外,模型学习部510-4可例如通过使用包括误差反向传播或梯度下降的学习算法来训练人工智能模型。
此外,模型学习部510-4可使用输入数据学习关于什么学习数据将被用于识别对象的选择标准。
当存在多个预先构建的人工智能模型时,模型学习部510-4可将在输入的学习数据与基本学习数据之间具有高相关性的人工智能模型识别为要训练的数据识别模型。在这种情况下,可根据数据的类型对基本学习数据进行预先分类,并且可根据数据的类型预先构建人工智能模型。
当训练人工智能模型时,模型学习部510-4可存储训练的人工智能模型。在这种情况下,模型学习部510-4可将训练的人工智能模型存储在另一电子设备500的存储器中。可选地,模型学习部510-4可将训练的人工智能模型存储在经由有线网路或无线网络连接到另一电子设备500的服务器中或者存储在电子设备的存储器中。
数据学习部510还可包括学习数据预处理部510-2和学习数据选择部510-3,以改善人工智能模型的响应结果或节省生成人工智能模型所需的时间或资源。
学习数据预处理部510-2可对获取的数据进行预处理,使得获取的数据在从图像中识别对象的学习中被使用。也就是说,学习数据预处理部510-2可将获取的数据处理为预定格式。例如,学习数据预处理部510-2可将样本图像划分为多个区域。
学习数据选择部510-3可从由学习数据获取部510-1获取的数据和由学习数据预处理部510-2预处理的数据中选择学习所需的数据。选择的学习数据可被提供给模型学习部510-4。学习数据选择部510-3可根据预定选择标准从获取或处理的数据中选择学习所需的学习数据。此外,学习数据选择部510-3可通过模型学习部510-4的学习根据预定的选择标准来选择学习数据。
学习部510还可包括模型评估部510-5以改善人工智能模型的响应结果。
模型评估部510-5可将评估数据输入到人工智能模型,并且如果从评估数据输出的响应结果不满足预定标准,则允许模型学习部510-4再次训练。在这种情况下,评估数据可以是用于评估人工智能模型的预定义数据。
另一方面,当存在多个训练的人工智能模型时,模型评估部510-5可评估每个训练的人工智能模型是否满足预定标准,并将满足预定标准的模型确定为最终的人工智能模型。在这种情况下,当存在满足预定标准的多个模型时,模型评估部510-5可将先前以评估分数的降序设置的任何一个或预定数量个模型确定为最终的人工智能模型。
图7是示出根据实施例的响应部520的框图。
参照图7,根据一个或更多个实施例的响应部520可包括输入数据获取部520-1和响应结果提供部520-4。
此外,响应部520还可选择性地包括输入数据预处理部520-2、输入数据选择部520-3或模型更新部520-5中的至少一个。
输入数据获取部520-1可获取识别对象所需的数据。响应结果提供部520-4可将由输入数据获取部520-1获取的输入数据应用于训练的人工智能模型作为输入值,并且从图像中识别对象。响应结果提供部520-4可将由稍后将描述的输入数据预处理部520-2或输入数据选择部520-3选择的数据应用于人工智能模型作为输入值,并获取响应结果。可通过人工智能模型确定响应结果。
根据实施例,响应结果提供部520-4可应用识别由输入数据获取部520-1获取的对象的人工智能模型,并且从图像中识别对象。
响应部520还可包括输入数据预处理部520-2和输入数据选择部520-3,以改善人工智能模型的响应结果或节省提供响应结果所需的时间或资源。
输入数据预处理部520-2可对获取的用于识别对象的数据进行预处理,使得获取的数据可被使用。也就是说,输入数据预处理部520-2可将获取的数据处理为预定义格式。
输入数据选择部520-3可从由输入数据获取部520-1获取的数据或由输入数据预处理部520-2预处理的数据中选择提供响应所需的数据。选择的数据可被提供给响应结果提供部520-4。输入数据选择部520-3可根据用于提供响应的预定的选择标准来选择获取或预处理的数据中的一些数据或全部数据。此外,输入数据选择部520-3可通过模型学习部510-4的训练根据预定的选择标准来选择数据。
模型更新部520-5可基于对由响应结果提供部520-4提供的响应结果的评估来控制人工智能模型被更新。例如,模型更新部520-5可将由响应结果提供部520-4提供的响应结果提供给模型学习部510-4,从而请求模型学习部510-4可进一步训练或更新人工智能模型。
图8是示出根据实施例的电子设备100和外部服务器S彼此互锁以学习和识别数据的示例的示图。
参照图8,外部服务器S可学习用于从图像中识别对象的标准,并且电子设备100可基于服务器S的学习结果从图像中识别对象。
在这种情况下,服务器S的模型学习部510-4可执行图6中所示的学习部510的功能。也就是说,服务器S的模型学习部510-4可学习关于将使用哪个图像信息来识别对象以及如何使用上述信息来识别对象的标准。
此外,电子设备100的响应结果提供部520-4可将由输入数据选择部520-3选择的数据应用于由服务器S提供的人工智能模型,并且从图像中识别对象。可选地,电子设备100的响应结果提供部520-4可从服务器S获取由服务器S提供的人工智能模型,并且从图像中识别对象。
图9是示出根据实施例的电子设备的控制方法的流程图。
首先,在操作S910,可从外部设备获取多媒体数据。此外,在操作S920,可在多媒体数据中包括的多个帧中的至少一个帧中识别对象。此外,在操作S930,可基于从第一服务器提供的内容引导信息来识别与识别出的对象相应的内容。
根据实施例,当没有识别出内容时,还可包括基于至少一个帧获取指纹的操作、将获取的指纹发送到第二服务器的操作以及从第二服务器获取与指纹相应的内容信息的操作。
此外,获取指纹的操作可包括:当没有识别出内容时,识别外部设备的类型,并且当外部设备的类型是预定类型时,基于至少一个帧获取指纹。
此外,还可包括将识别出的对象或识别出的内容中的至少一个发送到第三服务器400-3的操作、以及从第三服务器400-3获取与识别出的对象或识别出的内容中的至少一个相应的广告的操作。
此外,识别对象的操作S920可包括基于对象识别模型在至少一个帧中识别对象,并且对象识别模型可通过经由人工智能算法训练多个样本图像和多个样本图像中包括的多个对象被获取。
在实施例中,基于关于对象和内容的信息来重新训练对象识别模型的操作。
此外,识别对象的操作S920可包括将光学字符读取器(OCR)应用于多个帧中的至少一个帧并识别文本。识别内容的操作S930可包括基于识别出的文本来识别内容。
此外,还可包括识别外部设备的类型的操作。识别对象的操作S920可包括:当外部设备的类型是预定类型时,在至少一个帧中识别对象。
此外,还可包括顺序地显示多个帧的操作。识别对象的操作S920可包括在多个帧中的显示的帧中识别对象。
此外,对象可包括以下项中的至少一项:与至少一个帧相应的内容的标题、该内容的再现时间、该内容的频道信息或至少一个帧中包括的字符。
根据一个或更多个实施例,电子设备可基于多媒体数据中包括的多个帧中的至少一个帧中包括的对象来识别内容,从而使外部服务器在内容识别中的使用最小化。
此外,上述一个或更多个实施例可被实现为包括存储在机器可读(例如,计算机可读)存储介质上的一个或更多个指令的S/W程序。机器可以是能够从存储介质调用存储的指令并根据调用的指令进行操作的设备,并且可包括根据上述实施例的电子设备(例如,电子设备100)。当一个或更多个指令由处理器运行时,处理器可直接执行与一个或更多个指令相应的功能,或者在处理器的控制下使用其它组件执行与一个或更多个指令相应的功能。一个或更多个指令可包括由编译器或解释器生成或运行的代码。机器可读存储介质可被提供为非暂时性存储介质。这里,术语“非暂时性”仅表示存储介质不包括信号而是有形的,其中,该术语不对数据被半永久地存储在存储介质中的情况与数据被临时存储在存储介质中的情况进行区分。
根据实施例,根据上述一个或更多个实施例的方法可被设置为被包括在计算机程序产品中。计算机程序产品可作为产品在销售者与消费者之间进行交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式或通过应用商店(例如,Play Store TM)在线发布。对于在线发布,计算机程序产品的至少一部分可至少被临时存储在制造商的服务器、应用商店的服务器或诸如存储器的存储介质中,或者可被临时生成。
上述一个或更多个实施例可被实现在记录介质中,其中,记录介质可由计算机或与计算机类似的装置通过使用软件、硬件或其组合来读取。在一些情况下,本文描述的实施例可由处理器本身实现。在软件配置中,说明书中描述的一个或更多个实施例(诸如程序和功能)可被实现为单独的软件模块。每个软件模块可执行说明书中描述的一个或更多个功能和操作。
此外,用于执行根据上述一个或更多个实施例的机器的处理操作的计算机指令可被存储在非暂时性计算机可读介质中。存储在这样的非暂时性计算机可读介质上的计算机指令在由处理器或特定装置执行时,可使特定装置执行根据上述各种示例实施例的机器中的处理操作。非暂时性计算机可读介质不限于在其中永久地存储数据的介质(例如,寄存器、高速缓存、存储器等),而是可以是在其中半永久地存储数据并可由装置读取的介质。例如,非暂时性计算机可读介质可包括光盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、存储卡或只读存储器(ROM)。
根据一个或更多个实施例的各个组件(例如,模块或程序)可包括单个实体或多个实体,并且可省略上述相应的子组件中的一些子组件,或者还可将另一子组件添加到一个或更多个实施例。可选地或另外地,一些元件(例如,模块或程序)可被集成为一个实体,并且在集成之前由各个元件执行的功能可以以相同或相似的方式被执行。由根据一个或更多个实施例的其它元件执行的模块、程序或操作可连续地、并行地、重复地或启发式地被执行,或者至少一些操作可根据不同的顺序被执行,可被省略,或者可向其添加其它操作。
前述实施例和优点仅仅是示例,并且将不被解释为限制本公开。本教导可容易地被应用于其它类型的装置。此外,一个或更多个实施例的描述旨在是说明性的,而不在于限制权利要求的范围,并且许多替换物、修改和变化对于本领域技术人员将是显而易见的。

Claims (15)

1.一种电子设备,包括:
通信器,包括电路;以及
处理器,被配置为:
经由通信器从外部设备获得多媒体数据;
在多媒体数据中包括的多个帧中的至少一个帧中识别对象;并且
基于从第一服务器提供的内容引导信息识别与识别出的所述对象相应的内容。
2.如权利要求1所述的电子设备,其中,处理器还被配置为:
基于所述至少一个帧获得数字视频指纹;
控制通信器将获得的数字视频指纹发送到第二服务器;并且
经由通信器从第二服务器获得与数字视频指纹相应的内容信息。
3.如权利要求2所述的电子设备,其中,处理器还被配置为:
识别外部设备的类型;并且
基于外部设备的类型是预定类型,基于所述至少一个帧获得数字视频指纹。
4.如权利要求1所述的电子设备,其中,处理器还被配置为:
控制通信器将识别出的所述对象和识别出的所述内容中的一者或两者发送到第三服务器;并且
经由通信器从第三服务器获得与识别出的所述对象和识别出的所述内容中的一者或两者相应的广告。
5.如权利要求1所述的电子设备,还包括:
存储器,
其中,处理器还被配置为:
基于存储在存储器中的对象识别模型在所述至少一个帧中识别所述对象,
其中,对象识别模型通过经由人工智能算法训练多个样本图像和所述多个样本图像中包括的多个对象被获得。
6.如权利要求5所述的电子设备,其中,处理器还被配置为基于与所述对象和所述内容相关的信息重新训练对象识别模型。
7.如权利要求1所述的电子设备,其中,处理器还被配置为:
将光学字符读取器(OCR)应用于所述多个帧中的所述至少一个帧,并识别文本;并且
基于识别出的所述文本识别所述内容。
8.如权利要求1所述的电子设备,其中,处理器还被配置为:
识别外部设备的类型;并且
基于所述外部设备的类型是预定类型,在所述至少一个帧中识别所述对象。
9.如权利要求1所述的电子设备,还包括:
显示器,
其中,处理器还被配置为:
控制显示器顺序地显示所述多个帧;并且
在所述多个帧中的显示的帧中识别所述对象。
10.如权利要求1所述的电子设备,其中,所述对象包括以下项中的任意一项或以下项的任意组合:与所述至少一个帧相应的内容的标题、与所述至少一个帧相应的内容的再现时间、与所述至少一个帧相应的内容的频道信息和所述至少一个帧中包括的字符。
11.一种电子设备的控制方法,所述控制方法包括:
从外部设备获得多媒体数据;
在多媒体数据中包括的多个帧中的至少一个帧中识别对象;并且
基于从第一服务器提供的内容引导信息识别与识别出的所述对象相应的内容。
12.如权利要求11所述的控制方法,还包括:
基于所述至少一个帧获得数字视频指纹;
将获得的数字视频指纹发送到第二服务器;并且
从第二服务器获得与数字视频指纹相应的内容信息。
13.如权利要求12所述的控制方法,其中,获得数字视频指纹的步骤包括:
识别外部设备的类型;以及
基于外部设备的类型是预定类型,基于所述至少一个帧获得数字视频指纹。
14.如权利要求11所述的控制方法,还包括:
将识别出的所述对象或识别出的所述内容中的一者或两者发送到第三服务器;并且
从第三服务器获得与识别出的所述对象或识别出的所述内容中的一者或两者相应的广告。
15.如权利要求11所述的控制方法,其中,识别所述对象的步骤包括:
基于对象识别模型在所述至少一个帧中识别所述对象,并且
其中,对象识别模型通过经由人工智能算法训练多个样本图像和所述多个样本图像中包括的多个对象被获得。
CN201980051095.0A 2018-09-21 2019-09-03 电子设备及其控制方法 Active CN112514410B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0113658 2018-09-21
KR1020180113658A KR102585244B1 (ko) 2018-09-21 2018-09-21 전자 장치 및 그 제어 방법
PCT/KR2019/011331 WO2020060071A1 (en) 2018-09-21 2019-09-03 Electronic apparatus and control method thereof

Publications (2)

Publication Number Publication Date
CN112514410A true CN112514410A (zh) 2021-03-16
CN112514410B CN112514410B (zh) 2024-04-26

Family

ID=69884906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980051095.0A Active CN112514410B (zh) 2018-09-21 2019-09-03 电子设备及其控制方法

Country Status (4)

Country Link
US (2) US11386659B2 (zh)
KR (1) KR102585244B1 (zh)
CN (1) CN112514410B (zh)
WO (1) WO2020060071A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220000758A (ko) 2020-06-26 2022-01-04 삼성전자주식회사 영상 검출 장치 및 그 동작 방법
WO2023234431A1 (ko) * 2022-05-30 2023-12-07 엘지전자 주식회사 디스플레이 장치 및 그 동작 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578267A (zh) * 2014-11-05 2016-05-11 三星电子株式会社 终端装置及其信息提供方法
CN106462874A (zh) * 2014-04-10 2017-02-22 谷歌公司 用于呈现与视频内容有关的商业信息的方法、系统和介质
US20170171629A1 (en) * 2015-12-11 2017-06-15 Samsung Electronics Co., Ltd. Display device and method for controlling the same
US20170251271A1 (en) * 2016-02-29 2017-08-31 Rovi Guides, Inc. Systems and methods for transmitting a portion of a media asset containing an object to a first user
US20170251272A1 (en) * 2016-02-29 2017-08-31 Rovi Guides, Inc. Systems and methods for performing an action based on context of a feature in a media asset
CN107851104A (zh) * 2015-04-23 2018-03-27 索伦森媒体有限公司 自动内容辨识指纹序列匹配
CN108012162A (zh) * 2017-12-04 2018-05-08 北京小米移动软件有限公司 内容推荐方法及装置
US20180255313A1 (en) * 2015-10-14 2018-09-06 Samsung Electronics Co., Ltd. Display apparatus and control method therefor

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
WO2006019101A1 (ja) 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
US7945099B2 (en) 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
KR100717402B1 (ko) * 2005-11-14 2007-05-11 삼성전자주식회사 멀티미디어 데이터의 장르를 판단하는 장치 및 방법
US9966112B1 (en) 2013-04-18 2018-05-08 Gracenote, Inc. Systems and methods to associate multimedia tags with user comments and generate user modifiable snippets around a tag time for efficient storage and sharing of tagged items
US9264785B2 (en) 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
KR20130050369A (ko) 2010-08-27 2013-05-15 인텔 코포레이션 터치 감지 장치 및 방법
US10070201B2 (en) * 2010-12-23 2018-09-04 DISH Technologies L.L.C. Recognition of images within a video based on a stored representation
US20130347018A1 (en) * 2012-06-21 2013-12-26 Amazon Technologies, Inc. Providing supplemental content with active media
US8955005B2 (en) * 2013-03-14 2015-02-10 Samsung Electronics Co., Ltd. Viewer behavior tracking using pattern matching and character recognition
KR102123062B1 (ko) * 2013-08-06 2020-06-15 삼성전자주식회사 콘텐츠에 관한 정보를 획득하는 방법 및 이를 이용한 영상 표시 장치, 그리고 콘텐츠에 관한 정보를 제공하는 서버 시스템.
CN104639993A (zh) * 2013-11-06 2015-05-20 株式会社Ntt都科摩 视频节目推荐方法及其服务器
US9641870B1 (en) 2014-09-12 2017-05-02 Sorenson Media, Inc. Content management of a content feed
US10003844B2 (en) * 2014-11-25 2018-06-19 Arris Enterprises Llc Automated retrieval of social media tags
US9351025B1 (en) 2015-04-17 2016-05-24 Rovi Guides, Inc. Systems and methods for providing automatic content recognition to verify affiliate programming
US10645457B2 (en) * 2015-06-04 2020-05-05 Comcast Cable Communications, Llc Using text data in content presentation and content search
KR102107499B1 (ko) * 2016-01-05 2020-05-29 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
US9848235B1 (en) 2016-02-22 2017-12-19 Sorenson Media, Inc Video fingerprinting based on fourier transform of histogram
US9906831B2 (en) 2016-02-24 2018-02-27 Sorenson Media, Inc. Fingerprinting media content using hashing
KR102561711B1 (ko) 2016-02-26 2023-08-01 삼성전자주식회사 컨텐트를 인식하는 방법 및 장치
CN105959696A (zh) * 2016-04-28 2016-09-21 成都三零凯天通信实业有限公司 一种基于sift特征算法的视频内容安全监管方法
US9996769B2 (en) 2016-06-08 2018-06-12 International Business Machines Corporation Detecting usage of copyrighted video content using object recognition
US10616631B2 (en) * 2016-08-01 2020-04-07 Samsung Electronics Co., Ltd. Electronic apparatus and method of operating the same
US10616639B2 (en) * 2016-12-21 2020-04-07 Samsung Electronics Co., Ltd. Display apparatus, content recognizing method thereof, and non-transitory computer readable recording medium
WO2018131875A1 (en) * 2017-01-11 2018-07-19 Samsung Electronics Co., Ltd. Display apparatus and method for providing service thereof
US20190080175A1 (en) * 2017-09-14 2019-03-14 Comcast Cable Communications, Llc Methods and systems to identify an object in content
CN111212250B (zh) * 2017-12-20 2023-04-14 海信视像科技股份有限公司 智能电视及电视画面截图的图形用户界面的显示方法
KR102504174B1 (ko) * 2018-05-11 2023-02-27 삼성전자주식회사 전자 장치 및 그의 제어방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462874A (zh) * 2014-04-10 2017-02-22 谷歌公司 用于呈现与视频内容有关的商业信息的方法、系统和介质
CN105578267A (zh) * 2014-11-05 2016-05-11 三星电子株式会社 终端装置及其信息提供方法
CN107851104A (zh) * 2015-04-23 2018-03-27 索伦森媒体有限公司 自动内容辨识指纹序列匹配
US20180255313A1 (en) * 2015-10-14 2018-09-06 Samsung Electronics Co., Ltd. Display apparatus and control method therefor
US20170171629A1 (en) * 2015-12-11 2017-06-15 Samsung Electronics Co., Ltd. Display device and method for controlling the same
US20170251271A1 (en) * 2016-02-29 2017-08-31 Rovi Guides, Inc. Systems and methods for transmitting a portion of a media asset containing an object to a first user
US20170251272A1 (en) * 2016-02-29 2017-08-31 Rovi Guides, Inc. Systems and methods for performing an action based on context of a feature in a media asset
CN108012162A (zh) * 2017-12-04 2018-05-08 北京小米移动软件有限公司 内容推荐方法及装置

Also Published As

Publication number Publication date
KR102585244B1 (ko) 2023-10-06
US20220301312A1 (en) 2022-09-22
CN112514410B (zh) 2024-04-26
KR20200036092A (ko) 2020-04-07
US20200097730A1 (en) 2020-03-26
US11386659B2 (en) 2022-07-12
WO2020060071A1 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
TWI821358B (zh) 電子裝置、控制其的方法以及控制伺服器的方法
US20220147870A1 (en) Method for providing recommended content list and electronic device according thereto
US20190066158A1 (en) Method and electronic device for providing advertisement
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
US20220301312A1 (en) Electronic apparatus for identifying content based on an object included in the content and control method thereof
US11294457B2 (en) Display apparatus and controlling method thereof
JP2020087449A (ja) 映像処理装置及びその動作方法
US11934953B2 (en) Image detection apparatus and operation method thereof
US10110843B2 (en) Image display device and operating method of the same
US20220045776A1 (en) Computing device and operating method therefor
US11184670B2 (en) Display apparatus and control method thereof
US11367283B2 (en) Electronic device and control method thereof
US11930236B2 (en) Content playback device using voice assistant service and operation method thereof
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
US20230153419A1 (en) Display apparatus and operation method thereof
US11893980B2 (en) Electronic apparatus and control method thereof
US20220293090A1 (en) Electronic apparatus and control method thererof
KR20230059029A (ko) 전자 장치 및 그 동작 방법
KR20240078140A (ko) 컴퓨팅 디바이스 및 그 동작 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant