CN112040329B - 动态处理并播放多媒体内容的方法及多媒体播放装置 - Google Patents

动态处理并播放多媒体内容的方法及多媒体播放装置 Download PDF

Info

Publication number
CN112040329B
CN112040329B CN201910619509.7A CN201910619509A CN112040329B CN 112040329 B CN112040329 B CN 112040329B CN 201910619509 A CN201910619509 A CN 201910619509A CN 112040329 B CN112040329 B CN 112040329B
Authority
CN
China
Prior art keywords
node
playing
multimedia
group
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910619509.7A
Other languages
English (en)
Other versions
CN112040329A (zh
Inventor
陈志明
陈延川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wistron Corp
Original Assignee
Wistron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wistron Corp filed Critical Wistron Corp
Publication of CN112040329A publication Critical patent/CN112040329A/zh
Application granted granted Critical
Publication of CN112040329B publication Critical patent/CN112040329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种动态处理并播放多媒体内容的方法及多媒体播放装置。基于标题产生主题地图。主题地图包括多个节点,每一个节点对应至一个多媒体内容。通过这些节点的排列组合而获得多个节点群组。在这些节点群组中找出符合限制条件的目标组。依据至少一奖励表格来决定目标组中各节点的播放顺序。依照播放顺序来处理并播放目标组所包括的一或多个多媒体内容。

Description

动态处理并播放多媒体内容的方法及多媒体播放装置
技术领域
本发明是有关于一种播放多媒体内容的方法及装置,且特别是有关于一种动态处理并播放多媒体内容的方法及多媒体播放装置。
背景技术
传统上,演讲者在演讲之前将电子简报的投影片放在文件中。而电子简报的播放是静态的,其遵循预定的顺序。传统的电子简报不能通过更新投影片来响应情境(例如观众的情绪、意图或是演讲时间的限制),也不能在演讲期间动态添加、删除或重新排列投影片。因此,在播放上缺乏弹性的调整。
发明内容
本发明提供一种动态处理并播放多媒体内容的方法,能够视情况来动态地处理并排列多媒体内容的播放顺序。
本发明的动态处理并播放多媒体内容的方法,包括:基于标题产生主题地图,其中主题地图包括多个节点,每一个节点对应至一个多媒体内容,且通过这些节点的排列组合而获得多个节点群组;在这些节点群组中找出符合限制条件的目标组;依据至少一奖励表格来决定目标组中各节点的播放顺序;以及依照播放顺序来处理并播放目标组所包括的一或多个多媒体内容。
在本发明的一实施例中,上述动态处理并播放多媒体内容的方法还包括:建立多个样本;以及基于强化学习对这些样本进行批次学习,借此获得对应不同场景的奖励表格。
在本发明的一实施例中,基于标题产生主题地图的步骤包括:基于标题在一知识库的多个子标题以及多个文章之间进行选择;以及以所选择的一或多个子标题、一或多个文章与其阶层关系,建立主题地图。
在本发明的一实施例中,在这些节点群组中找出符合限制条件的目标组的步骤包括:利用深度语意匹配模型来计算主题地图所包括的每一个节点的语意分数;基于限制条件来过滤节点群组;以及使用贝叶斯优化(Bayesian Optimization)算法而根据过滤后的每一个节点群组所包括的各节点的语意分数来找出目标组。
在本发明的一实施例中,依照播放顺序来处理并播放目标组所包括的多媒体内容的步骤还包括:在处理并播放多媒体内容的过程中接收到重新调整指令时,选择另一节点群组来作为目标组;依据奖励表格来重新决定目标组中各节点的另一播放顺序;以及依照另一播放顺序来处理并播放目标组所包括的一或多个多媒体内容。
在本发明的一实施例中,上述动态处理并播放多媒体内容的方法还包括:在处理并播放多媒体内容的过程中接收到用户指令时或每隔一时间间隔便发出重新调整指令。
在本发明的一实施例中,重新调整指令包括另一限制条件。而选择另一节点群组来作为目标组的步骤包括:自未播放的多媒体内容所对应的节点的节点群组中,基于另一限制条件来过滤节点群组;以及使用贝叶斯优化算法而根据过滤后的每一个节点群组所包括的各节点的语意分数来找出另一节点群组来作为目标组。
在本发明的一实施例中,限制条件包括时间限制以及情绪限制至少其中一个。
在本发明的一实施例中,上述动态处理并播放多媒体内容的方法还包括:收集多个现场观众的多个情绪特征;以及分析这些情绪特征,以决定情绪限制。
在本发明的一实施例中,上述动态处理并播放多媒体内容的方法还包括:在接收到重新调整指令时,计算剩余时间,以剩余时间作为时间限制。
本发明的多媒体播放装置,包括:处理器以及储存装置。储存装置耦接至处理器,并储存有多个代码段,其中这些代码段在被安装后,由处理器来执行,以实现动态处理并播放多媒体内容的方法。处理器基于标题产生主题地图,其中主题地图包括多个节点,各节点对应至其中一个多媒体内容,且通过这些节点的排列组合而获得多个节点群组。处理器在这些节点群组中找出符合限制条件的目标组。处理器依据至少一奖励表格来决定目标组中各节点的播放顺序。处理器依照播放顺序来处理并播放目标组所包括的一或多个多媒体内容。
基于上述,本发明能够动态地处理并调整播放多媒体内容,并在播放期间重新排列多媒体内容的播放顺序。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1是依照本发明一实施例的多媒体内容播放装置的方块图。
图2是依照本发明一实施例的动态处理并播放多媒体内容的方法流程图。
图3是依照本发明一实施例的贝叶斯优化算法流程的示意图。
图4是依照本发明一实施例的决定播放顺序方法的流程图。
图5是依照本发明一实施例的主题地图的示意图。
图6是依照本发明一实施例的用来说明目标组的示意图。
图7是依照本发明一实施例的用来说明另一目标组的示意图。
具体实施方式
图1是依照本发明一实施例的多媒体内容播放装置的方块图。请参照图1,多媒体播放装置100为具有运算能力的电子装置。例如,多媒体播放装置100可以是笔记本电脑、平板计算机、智能型手机、智能型眼镜、智能型摄像头、桌面计算机、服务器等。
在本实施例中,多媒体播放装置100外接至一显示设备140。显示设备140例如为投影装置或巨型显示器等。通过多媒体播放装置100来执行动态处理并播放多媒体内容的方法,以决定多媒体内容在显示设备140上的播放顺序,并且产生新的多媒体内容或多媒体文件。在此,所述“处理”指的是多媒体播放装置100将多媒体内容转换为可以播放的文件。例如,对多媒体内容进行处理以获得投影片或其他适合观看的文件。多媒体播放装置100包括处理器110、储存装置120以及输出装置130。处理器110耦接至储存装置120与输出装置130。
处理器110例如为中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphic Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、可程序化微处理器(Microprocessor)、嵌入式控制芯片、数字信号处理器(Digital SignalProcessor,DSP)、特殊应用集成电路(Application Specific Integrated Circuits,ASIC)或其他类似装置。
储存装置120例如是任意形式的固定式或可移动式随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash memory)、安全数字卡(Secure Digital Memory Card,SD)、硬盘或其他类似装置或这些装置的组合。储存装置120中储存有多个代码段,上述代码段在被安装后,会由处理器110来执行,以实现动态处理并播放多媒体内容的方法各步骤。
输出装置130例如为网络卡、WiFi模块等通信芯片,或者为视频图形阵列(VideoGraphics Array,VGA)、高清晰度多媒体接口(High Definition Multimedia Interface,HDMI)或显示端口(Display Port,DP)等连接接口规范的传输接口电路。输出装置130用以将多媒体内容显示至外接的显示设备140。
利用多媒体播放装置100来处理多媒体内容及决定播放顺序及多媒体内容,并产生欲播放的多媒体文件。多媒体文件例如为电子投影片、视频、音频、图像、文字等。例如,在储存装置120中设置一应用程序,由应用程序来负责处理、排序多媒体内容并产生欲播放的多媒体文件。
另外,多媒体播放装置100还可进一步包括未绘示的内置显示器。例如,智能型眼镜中的成像装置、笔记本计算机的屏幕、平板计算机的屏幕等。在内置显示器中呈现出当次播放中所包括的全部多媒体内容,而在外接的显示设备140中仅显示已挑选且排序过的多媒体内容。并且,多媒体播放装置100还包括未绘示的图像捕获设备和/或收音装置,借此来收集现场观众的情绪特征,以依据观众情绪来决定多媒体内容的处理及播放顺序。
下面再举例来说明如何动态处理并播放多媒体内容的方法各步骤。图2是依照本发明一实施例的动态处理并播放多媒体内容的方法流程图。请参照图2,在步骤S205中,基于所接收标题搜寻知识库,借此产生主题地图(topic map)。在此,知识库储存在储存装置120中。而在其他实施例中,知识库亦可储存在远程服务器中。在一实施例中,用户可通过多媒体播放装置100输入欲播放的标题,处理器110基于标题来查询知识库。而主题地图包括多个节点,一个节点对应至一个标题、一个子标题、文章或一个多媒体内容,且通过这些节点的排列组合而获得多个节点群组。
主题地图是对知识进行表示和交互的一种标准,强调信息的可查找性,并且结合了传统索引、搜索引擎与人工智能等领域的优点,可以有效的组织知识以利于探索、推理,解决大量无序信息所带来的问题。主题地图即如同书本的书后主题索引一般。主题索引的主要目的在于将某一主题范围(Knowledge Domain)内的各主题及单一主题内的附属子题列出,并建立见(see)及参见(see also)的参照关系,将具有关联性的主题加以连接。主题地图是一种类似于资源描述框架(Resource Description Framework,RDF)的语意网(Semantic Web)技术。
知识库例如为语意网数据库(Semantic Web Database)。知识库中包括多个短字符串以及多个长字符串。短字符串例如为标题、子标题,长字符串例如为文章等。基于所接收的标题自知识库中来选择多个子标题和/或文章,之后以所选择的一或多个子标题、一或多个文章与其阶层关系,来建立主题地图。而在一层一层往下搜寻的过程中,在找到文章之后,就不再往下一层进行搜寻。
下面以制作电子投影片为例来帮助主题地图的建立。图5是依照本发明一实施例的主题地图的示意图。在图5中,以“全球暖化”来作为标题,借由查询知识库可以获得“全球暖化”下面所包括的多个子标题、文章以及这些子标题、文章之间的阶层关系,借此来产生整个主题地图。
接着,在步骤S210中,在多个节点群组中找出符合限制条件的目标组。目标组为符合限制条件中具有优化的目标函数的节点。利用目标函数所获得的分数来判断这些节点群组是否为最佳节点群组。具体而言,先利用深度语意匹配模型(Deep Semantic SimilarityModel,DSSM)来计算主题地图所包括的各节点的语意分数。深度语意匹配模型主要用途在于计算语意空间的相似度,因为这一特性,DSSM可以用在各种途径,用来解决各种实际工作的任务,如机器翻译、搜索引擎、图文描述生成、对话系统、上下文命名实体识别等等。
另外,在计算语义分数之前,更可进一步基于限制条件来过滤节点群组。即,先基于限制条件来过滤节点群组,之后再利用深度语意匹配模型来计算主题地图中过滤后的各节点的语意分数。另外,在其他实施例中,也可以先利用深度语意匹配模型来计算主题地图所包括的各节点的语意分数,之后再基于限制条件来过滤节点群组。限制条件例如为本次欲进行播放的最长时间。并且,使用贝叶斯优化(Bayesian Optimization)算法而根据过滤后的各节点群组所包括的各节点的语意分数来找出目标组。在另一实施例中,例如使用限制贝叶斯优化(Constrained Bayesian Optimization)算法来找出目标组,并基于限制条件过滤节点,例如包括演讲时间限制和听众情绪限制。
图3是依照本发明一实施例的贝叶斯优化算法流程的示意图。请参照图3,将由主题地图中的多个节点进行排列组合所获得的多个节点群组放入至解答空间510中。接着,执行贝叶斯优化算法520。
在此,贝叶斯优化算法520是基于限制条件(constraint)以及目标函数(objective function)来执行。限制条件例如为时间限制以及情绪限制,目标函数使用的是语意分数。即,贝叶斯优化算法520利用时间限制来限制多媒体文件的呈现时间,利用情绪限制来以限制欲播放的多媒体内容的类型。并且,利用目标函数所获得的分数来判断是否为最佳节点群组。
之后,利用帕雷托最优(Pareto Frontier)530来获得多n组最佳节点群组,再从n组最佳节点群组中挑出一个最合适的解来作为目标组。例如,用户可视情况来进行选择其中一者,或是自动选出总语意分数最高的一者等,在此并不限制。
在尚未进行播放之前,贝叶斯优化算法520以节点群组中各节点的语意分数作为目标函数,并且基于剩余时间限制和/或情绪限制来执行贝叶斯优化算法520。之后,在播放过程中,贝叶斯优化算法520再基于当下的剩余时间限制和/或情绪限制(例如当下的观众情绪)来重复执行。
返回图2,在步骤S215中,依据多个奖励表格来决定目标组中各节点的播放顺序。进一步地说,基于深度优先搜寻(Depth First Search)依据经由强化学习所获得的多个奖励表格来决定目标组中各节点的播放顺序。本实施例是利用生成对抗网络(GenerativeAdversarial Network,GAN)来建立多个样本。GAN包括鉴别器(Discriminator)以及生成器(Generator)两个神经网络。由生成器来生成样本,由鉴别器来检查样本的真伪。接着,基于强化学习进行批次学习,借此获得奖励表格。
在此,强化学习例如为Q学习(Q-learning),奖励表格例如为Q表格(Q-table)。Q学习所获得的奖励值会储存在Q表格中。强化学习涉及一个智能体(agent)、一组状态(state)和每个状态下的一组动作(action)。通过执行一个动作,智能体从一个状态转移到另一个状态。在一个特定的状态下执行一个动作时,智能体可以得到一个奖励值。
GAN针对几个特定场景来产生多个样本,并且将样本作为Q学习的输入来训练出Q表格。Q表格如下所示。然而,下述Q表格仅为举例说明,实际应用会视情况来决定Q表格的维度及其奖励值。
Figure BDA0002125038020000071
在Q表格中记录了在每一个状态(State)下,对每一个动作(Action)的奖励值。而每一个节点会对应至奖励表格。也就是说,在决定了目前欲播放的节点之后,通过查询奖励表格来决定下一个欲播放的节点。在另一实施例中,多媒体播放装置100依据深度优先搜寻(Depth First Search)并参考经由强化学习所获得的多个奖励表格来决定目标组中各节点的播放顺序。Q表格的奖励值会根据不同的场景由不同的样本输入训练而成。例如,在技术研讨会的场景中,Q表格会根据会导致情绪为“喜爱”的场景来训练,因此技术研讨会场景对应的Q表格的奖励值已累积了大量导致情绪为“喜爱”的经验。又例如,在补习班讲解的场景中,Q表格会根据会导致情绪为“快乐”的场景来训练;在追悼大会的场景中,Q表格会根据会导致情绪为“哀伤”的场景来训练;在声讨集会的场景中,Q表格会根据会导致情绪为“愤怒”的场景来训练。
例如,在Q表格的多个状态中找到对应于“全球暖化”的节点的状态,在该状态中找出奖励值最高者对应的节点,作为下一个要播放的节点。每一个节点都可以在Q表格中找到对应的状态。
在利用奖励表格决定各节点的播放顺序之后,在步骤S220中,依照播放顺序来处理并播放目标组所包括的一或多个多媒体内容,并产生欲播放的多媒体文件。
另外,在处理并播放多媒体内容的过程中接收到重新调整指令时,选择另一节点群组来作为目标组。例如,在处理并播放多媒体内容的过程中接收到用户指令时,发出重新调整指令。或者,在处理并播放多媒体内容的过程中,由应用程序每隔一时间间隔便发出重新调整指令。重新调整指令包括限制条件。在接收到重新调整指令时,自包括未播放的多媒体内容所对应的节点的节点群组中,基于限制条件来过滤节点群组。之后,再使用贝叶斯优化算法而根据过滤后的每一节点群组所包括的各节点的语意分数来找出另一节点群组作为目标组。
在此,可计算距离先前设定的欲进行播放的最长时间截止的剩余时间,以剩余时间作为时间限制来重新找出符合所述剩余时间的另一节点群组。并且,也可利用图像捕获设备和/或收音装置等传感器来收集现场观众的情绪特征,并分析这些情绪特征,以决定情绪限制。在此,传感器耦接至处理器110。借此来重新找出符合所述情绪限制的另一节点群组。并且,以所述另一节点群组来重新作为目标组。
之后,再依据奖励表格来重新决定目标组中各节点的另一播放顺序,而依照另一播放顺序来处理并播放目标组所包括的多媒体内容,并产生另一多媒体文件。
下面以电子简报为例来说明如何决定播放顺序。图4是依照本发明一实施例的决定播放顺序方法的流程图。在决定好目标组之后,便可由根节点开始,根据奖励表格来决定其他节点的播放顺序。参照图4,在步骤S405中,选择根节点G.rootNode(),并将其设定为Node w。
接着,在步骤S410中,将Node w设定为Node v。并且,在步骤S415中,将Node v标记为已播放。也就是说,将根节点设定为播放顺序为1,并且将根节点设定为已播放。
之后,在步骤S420中,根据奖励表格在Node v的子节点中找出具有最大奖励值的其中一个子节点G.childNode(v),并且将其设定为Node w。然后,在步骤S425中,判断是否存在Node w,即,判断Node v是否存在子节点。倘若存在,则执行步骤S430;倘若不存在,则执行步骤S445。
在步骤S430中,判断演讲者是否指定了其他节点。若演讲者指定了其他节点,则将所指定的节点G.specfiedNode(v)设定为Node w。接着,在步骤S440中,判断Node w是否尚未被标记为已播放。若演讲者未指定其他节点,如步骤S440所示,判断Node w是否尚未被标记为已播放。在步骤S440中,倘若Node w尚未被标记为已播放,则返回步骤S415。在步骤S440中,倘若Node w已被标记为已播放,则返回步骤S430。也就是说,在播放过程中,允许演讲者来自行决定所欲播放的内容。而倘若演讲者所指定的节点为已播放,则会要求演讲者重新指定其他尚未播放的节点。
而在步骤S425中,倘若不存在Node w,即,Node v不存在子节点,则在步骤S445中,判断目前时间是否花费太长或太短。也就是说,在此实施例中,设定为在检测到当前播放的节点不具有子节点时,应用程序便会自动判断目前时间是否花费太长或太短,即,计算剩余时间。
若没有花费太长或太短的时间,则如步骤S470所示,将Node v的父节点G.parentNode(v)设定为Node v,并且返回步骤S420。也就是说,回到Node v的父节点来重新找出其下面另一子节点。若花费太长或太短的时间,在步骤S450中,在解答空间中仅保留未播放的节点的节点群组。并且,在步骤S455中,重新执行贝叶斯优化算法。在步骤S460中,选择另一节点群组来作为目标组。之后,在步骤S465中,在新的目标组中,返回根节点而在尚未被标记为已播放的节点中重新进行选择。
下面搭配图6~图7来进行说明。图6是依照本发明一实施例的用来说明目标组的示意图。图7是依照本发明一实施例的用来说明另一目标组的示意图。在图6与图7中分别为对主题地图中的每一个节点赋予一个编号,以方便后续进行说明。
首先,以图6所示的目标组为例来进行说明。在图6中,目标组包括节点0-1、节点1-1、节点1-2、节点2-1、节点2-2、节点2-4、节点3-1、节点3-3、节点4-1。
从根节点即节点0-1对应的多媒体内容开始进行处理及播放。并且,将节点0-1标记为已播放。而在图6所示的目标组中,节点0-1的下一层子节点包括节点1-1与节点1-2。此时,依据对应的奖励表格来选择奖励值较大的一者。在此,假设节点1-1的奖励值大于节点1-2,因此,选择节点1-1对应的多媒体内容进行处理及播放,并且将节点1-1标记为已播放。而节点1-1的下一层子节点仅包括节点2-1,便选择节点2-1对应的多媒体内容来进行处理及播放,并且将节点2-1标记为已播放。
由于节点2-1不具有下一层子节点,因此,返回节点2-1的父节点即节点1-1。而节点1-1仅有的子节点已被标示为已播放,则再返回节点1-1的父节点即节点0-1。此时,由于节点0-1的下一层子节点仅剩节点1-2尚未被标记已播放,因此,选择节点1-2对应的多媒体内容进行处理及播放,并且将节点1-2标记为已播放。
之后,在节点1-2的下一层子节点中,依据对应的奖励表格来选择奖励值较大的一者。在此,假设节点2-2的奖励值大于节点2-4,因此,选择节点2-2对应的多媒体内容进行处理及播放,并且将节点2-2标记为已播放。而节点2-2的下一层子节点仅包括节点3-1,则便选择节点3-1对应的多媒体内容来进行处理及播放,并且将节点3-1标记为已播放。
接着,由于节点3-1不具有下一层子节点,因此,返回其父节点即节点2-2。而节点2-2仅有的子节点已被标示为已播放,则返回其父节点即节点1-2。此时,由于节点1-2的下一层子节点仅剩节点2-4尚未被标记为已播放,因此,选择节点2-4对应的多媒体内容进行处理及播放,并且将节点2-4标记为已播放。
而节点2-4的下一层子节点仅包括节点3-3,则便选择节点3-3对应的多媒体内容来进行播放,并且将节点3-3标记为已播放。接着,继续选择节点4-1对应的多媒体内容来进行处理及播放,并将节点4-1标记为已播放。
据此,图6所示的目标组的播放顺序依序为:节点0-1、节点1-1、节点2-1、节点1-2、节点2-2、节点3-1、节点2-4、节点3-3、节点4-1。
倘若在上述播放过程中,判定目前时间花费太长或太短,则重新选择另一节点群组来作为目标组。例如,以图4而言,在检测到当前播放的节点不具有子节点时,应用程序便会自动判断目前时间是否花费太长或太短。因此,在图6中,由于节点2-1不具有下一层子节点,此时便可自动判断目前时间是否花费太长或太短。在另一实施例中,亦可进一步判断现场观众的情绪。
也就是说,在播放先前多媒体内容所花费的时间,是否有提早或延误。如果提早或延误,应用程序会重新调整在剩余时间内所要处理及播放的多媒体内容及其播放顺序。如图4的步骤S450~步骤S460所示,重新选择另一节点群组来作为目标组。
图7所示的另一目标组包括节点0-1、节点1-1、节点1-3、节点2-1、节点2-6、节点2-7。在新的目标组中,返回根节点即节点0-1,而在尚未被标记为已播放的节点中重新进行选择。即,选择节点1-3对应的多媒体内容进行处理及播放,并且将节点1-3标记为已播放。接着,根据对应的奖励表格而选择了节点2-6对应的多媒体内容进行处理及播放,并且将节点2-6标记为已播放。
接着,由于节点2-6不具有下一层子节点,因此,返回其父节点即节点1-3。由于节点1-3的下一层子节点仅剩节点2-7尚未被标记为已播放,因此,选择节点2-7对应的多媒体内容进行处理及播放,并且将节点2-7标记为已播放。
以图6、图7而言,倘若在播放节点2-1对应的多媒体内容之后发现目前时间花费太长或太短而重新调整后续要处理、播放的多媒体内容及其顺序。则,多媒体内容的处理、播放顺序为节点0-1、节点1-1、节点2-1、节点1-3、节点2-6、节点2-7。
也就是说,当演讲者剩余的时间太少或者剩余的时间太多时,应用程序会自动把尚未播放的多媒体内容重新依照剩余时间再安排接下来的处理及播放顺序,借此维持原定的播放时间而不至于超时或提前结束。
另外,也可以视现场观众的情绪来重新调整欲处理及播放的多媒体内容及其播放顺序。例如,剩余时间为5分钟,检测到的情绪限制为怒,则依据上述方式来重新决定接下来要处理的多媒体内容及其播放顺序。例如,选择较不花脑筋的节点群组。或者,剩余时间为10分钟,检测到的情绪限制为乐,则依据上述方式来重新决定接下来要处理的多媒体内容及其播放顺序。例如,选择需要深思的节点群组。
另外,利用图像捕获设备和/或收音装置等传感器所获得的情绪(E)例如可分为喜(D)、怒(A)、哀(M)、乐(H)、无感(P)。假设映像函数F:E→C,将情绪E转换为情绪限制C。即,C=F(E)=F(D,A,M,H,P)。实务上,映像函数F可以用结构化分类(structuredclassification)来实作。训练结构化分类这个模型当观众情绪是E时其情绪限制C为何。
例如,利用结构化支持向量机(Structured Support Vector Machine)可以预测出结构化对象(structured object)。结构化对象可以包括{ConstraintFunction_1,ConstraintFunction_2,…,ConstraintFunction_n},其中ConstraintFunction_1~ConstraintFunction_n为限制条件,用来限制选出留在帕雷托最优530的节点群组。假设ConstraintFunction_1只能针对解决“哀”的节点群组传回“TRUE”,针对其他节点群组则一律回传“FALSE”;ConstraintFunction_2只能针对解决“怒”的节点群组传回“TRUE”,针对其他节点群组则一律回传“FALSE”。当判断出哀/怒时,只有经过ConstraintFunction_1以及ConstraintFunction_2过滤过的节点群组才能留在帕雷托最优530里面。
另外,在观众数量多的情况下,每个人的情绪不一定一样,在此可设定几个关键人物(例如具有采购决定权或部门主管),将关键人物的权重调高来进行分析。例如,E=(W1*E1+W2*E2+…+Wn*En)/n,其中n为观众数量,W1~Wn代表权重,E1~En为不同观众的情绪。
通过上述方式,可以应用在不同场景。例如,在技术研讨会上可以针对情绪为喜爱的状况来自动调整演讲内容。在补习班讲解会上可以针对情绪为快乐的状况来自动调整演讲内容。在追悼大会上可以针对情绪为悲伤的状况来自动调整演讲内容。在声讨集会上可以针对情绪为愤怒的状况来自动调整演讲内容。
举例来说,演讲者将多媒体播放装置100固定在讲架上,将图像捕获设备及收音装置朝向观众。接着,演讲者直接输入本次要演讲的标题,多媒体播放装置100内的应用程序会在内置显示器上显示所有的投影片以及演讲顺序,并且在外接的显示设备140上显示实际上要播放的节点群组对应的投影片。而在内置显示器上例如可以闪烁的方式来提醒演讲者下一个要演讲的投影片,倘若演讲者不同意,则可由演讲者自行通过内置显示器来决定下一个要演讲的投影片。例如内置显示器为触控屏幕,则可直接在内置显示器上进行点选。此时,应用程序便会依据演讲者的选择来重新调整后续的演讲内容。
另外,演讲中每一个投影片都有其预算的时间,倘若提早或延误,则应用程序亦会根据剩余时间来重新调整后续的演讲内容,借此掌控演讲时间能够在预定时间内结束。而通过图像捕获设备及收音装置来收集现场观众的多个情绪特征,可以在检测到情绪变化时,由应用程序来重新调整后续的演讲内容。
综上所述,本发明能够动态地处理多媒体内容,并在播放期间重新排列顺序,并动态产生多媒体文件。演讲者能够动态地更新、添加、移除投影片并在演讲期间重新排列投影片的顺序,而获得更弹性化的内容。并且,任何演讲者都可以在接下来的几分钟内发表演讲,而无需花费大量时间准备演讲材料。此外,在另一实施立中结合增强现实(Augmentedreality,AR)用于促进引导,并为人工智能(Artificial Intelligence,AI)的最佳知识库提出下一步行动。
虽然本发明已以实施例揭示如上,然而其并非用以限定本发明,任何所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可作些许的改动与润饰,因此本发明的保护范围应当以后附的权利要求书所界定的为准。
符号说明
100:多媒体播放装置
110:处理器
120:储存装置
130:输出装置
140:显示设备
S205~S220:动态处理并播放多媒体内容的方法各步骤
510:解答空间
520:贝叶斯优化算法
530:帕雷托最优
S405~S470:
1-1~5-2:节点。

Claims (16)

1.一种动态处理并播放多媒体内容的方法,包括:
基于一标题产生一主题地图,其中该主题地图包括多个节点,每一所述节点对应至一多媒体内容,且通过所述节点的排列组合而获得多个节点群组;
在所述节点群组中找出符合一限制条件的一目标组;
依据至少一奖励表格来决定该目标组中各节点的播放顺序,其中该奖励表格记录在每一个状态下,对每一个动作的奖励值;以及
依照该播放顺序来处理并播放该目标组所包括的一或多个所述多媒体内容,
其中,所述限制条件包括时间限制,当播放中检测到当前播放的节点不具有子节点时或者在接收到重新调整指令时,计算距离先前设定的欲进行播放的最长时间截止的剩余时间,将该剩余时间作为该时间限制的所述限制条件,以选择另一节点群组作为该目标组。
2.如权利要求1所述的动态处理并播放多媒体内容的方法,还包括:
建立针对特定场景产生的多个样本;以及
基于强化学习对所述样本进行批次学习,借此获得对应不同场景的所述奖励表格。
3.如权利要求1所述的动态处理并播放多媒体内容的方法,其中基于该标题产生该主题地图的步骤包括:
基于该标题在一知识库的多个子标题以及多个文章之间进行选择;以及
以所选择的一或多个所述子标题、一或多个所述文章与其阶层关系,建立该主题地图。
4.如权利要求1所述的动态处理并播放多媒体内容的方法,其中在所述节点群组中找出符合该限制条件的该目标组的步骤包括:
基于该限制条件来过滤所述节点群组;
利用一深度语意匹配模型来计算该主题地图所包括的每一所述节点的语意分数;以及
使用贝叶斯优化算法而根据过滤后的每一所述节点群组所包括的各节点的语意分数找出该目标组。
5.如权利要求1所述的动态处理并播放多媒体内容的方法,其中依照该播放顺序来处理并播放该目标组所包括的所述多媒体内容的步骤还包括:
在处理并播放所述多媒体内容的过程中接收到该重新调整指令时,选择另一节点群组来作为该目标组;
依据所述奖励表格来重新决定该目标组中各节点的另一播放顺序;以及
依照该另一播放顺序来处理并播放该目标组所包括的一或多个所述多媒体内容。
6.如权利要求5所述的动态处理并播放多媒体内容的方法,还包括:
在处理并播放所述多媒体内容的过程中,接收到一用户指令时或每隔一时间间隔便发出该重新调整指令。
7.如权利要求5所述的动态处理并播放多媒体内容的方法,其中该重新调整指令包括另一限制条件,
选择该另一节点群组来作为该目标组的步骤包括:
自未播放的所述多媒体内容所对应的一或多个所述节点的一或多个所述节点群组中,基于该另一限制条件来过滤所述节点群组;以及
使用贝叶斯优化算法而根据过滤后的每一所述节点群组所包括的各节点的语意分数来找出该另一节点群组来作为该目标组,
其中该另一限制条件包括情绪限制。
8.如权利要求7所述的动态处理并播放多媒体内容的方法,还包括:
收集多个现场观众的多个情绪特征;以及
分析所述情绪特征,以决定该情绪限制。
9.一种多媒体播放装置,包括:
一处理器;以及
一储存装置,耦接至该处理器,并储存有多个代码段,其中所述代码段在被安装后,由该处理器来执行,以实现动态处理并播放多媒体内容的方法,其中
该处理器基于一标题产生一主题地图,其中该主题地图包括多个节点,每一所述节点对应至一多媒体内容,且通过所述节点的排列组合而获得多个节点群组,
该处理器在所述节点群组中找出符合一限制条件的一目标组,
该处理器依据至少一奖励表格来决定该目标组中各节点的播放顺序,其中该奖励表格记录在每一个状态下,对每一个动作的奖励值
该处理器依照该播放顺序来处理并播放该目标组所包括的一或多个所述多媒体内容,
其中,所述限制条件包括时间限制,当播放中检测到当前播放的节点不具有子节点时或者在接收到重新调整指令时,计算距离先前设定的欲进行播放的最长时间截止的剩余时间,将该剩余时间作为该时间限制的所述限制条件,以选择另一节点群组作为该目标组。
10.如权利要求9所述的多媒体播放装置,其中该处理器建立针对特定场景产生的多个样本,并基于强化学习对所述样本进行批次学习,借此获得对应不同场景的所述奖励表格。
11.如权利要求9所述的多媒体播放装置,其中该处理器基于该标题在一知识库的多个子标题以及多个文章之间进行选择,并且以所选择的一或多个所述子标题、一或多个所述文章与其阶层关系,建立该主题地图。
12.如权利要求9所述的多媒体播放装置,其中该处理器基于该限制条件来过滤所述节点群组;利用一深度语意匹配模型来计算该主题地图所包括的每一所述节点的语意分数;以及使用贝叶斯优化算法而根据过滤后的每一所述节点群组所包括的各节点的语意分数来找出该目标组。
13.如权利要求9所述的多媒体播放装置,其中该处理器在处理并播放所述多媒体内容的过程中接收到该重新调整指令时,选择另一节点群组来作为该目标组,并依据所述奖励表格来重新决定该目标组中各节点的另一播放顺序,而依照该另一播放顺序来处理并播放该目标组所包括的一或多个所述多媒体内容。
14.如权利要求13所述的多媒体播放装置,其中该处理器在处理并播放所述多媒体内容的过程中,接收到一用户指令时或每隔一时间间隔便发出该重新调整指令。
15.如权利要求13所述的多媒体播放装置,其中该重新调整指令包括另一限制条件,
该处理器自未播放的所述多媒体内容所对应的一或多个所述节点的一或多个所述节点群组中,基于该另一限制条件来过滤所述节点群组,并且使用贝叶斯优化算法而根据过滤后的每一所述节点群组所包括的各节点的语意分数来找出该另一节点群组来作为该目标组,
其中该另一限制条件包括情绪限制。
16.如权利要求15所述的多媒体播放装置,还包括:
一传感器,耦接至该处理器,收集多个现场观众的多个情绪特征,以供该处理器分析所述情绪特征,来决定该情绪限制。
CN201910619509.7A 2019-06-03 2019-07-10 动态处理并播放多媒体内容的方法及多媒体播放装置 Active CN112040329B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW108119190 2019-06-03
TW108119190A TWI780333B (zh) 2019-06-03 2019-06-03 動態處理並播放多媒體內容的方法及多媒體播放裝置

Publications (2)

Publication Number Publication Date
CN112040329A CN112040329A (zh) 2020-12-04
CN112040329B true CN112040329B (zh) 2023-02-28

Family

ID=73550843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910619509.7A Active CN112040329B (zh) 2019-06-03 2019-07-10 动态处理并播放多媒体内容的方法及多媒体播放装置

Country Status (3)

Country Link
US (1) US11163815B2 (zh)
CN (1) CN112040329B (zh)
TW (1) TWI780333B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002334721B2 (en) * 2001-09-28 2008-10-23 Oracle International Corporation An index structure to access hierarchical data in a relational database system
US7403904B2 (en) * 2002-07-19 2008-07-22 International Business Machines Corporation System and method for sequential decision making for customer relationship management
US7853710B2 (en) * 2008-10-15 2010-12-14 Patentvc Ltd. Methods and devices for controlling the rate of a pull protocol
TW201022968A (en) 2008-12-10 2010-06-16 Univ Nat Taiwan A multimedia searching system, a method of building the system and associate searching method thereof
US9081783B2 (en) * 2009-06-08 2015-07-14 International Business Machines Corporation Automated dynamic reprioritization of presentation materials
US20110065082A1 (en) * 2009-09-17 2011-03-17 Michael Gal Device,system, and method of educational content generation
US9600919B1 (en) * 2009-10-20 2017-03-21 Yahoo! Inc. Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
WO2011049799A1 (en) * 2009-10-20 2011-04-28 Qwiki, Inc. Method and system for assembling animated media based on keyword and string input
WO2012135048A2 (en) * 2011-04-01 2012-10-04 Votini Llc Systems and methods for capturing event feedback
US9146546B2 (en) * 2012-06-04 2015-09-29 Brain Corporation Systems and apparatus for implementing task-specific learning using spiking neurons
US20130252222A1 (en) * 2012-03-26 2013-09-26 Steven Fox Systems and methods for real-time and discrete analytics for web-mediated content and events
CN103905218B (zh) * 2013-06-28 2017-12-08 威盛电子股份有限公司 多节点架构的多媒体传播系统和其多媒体传播控制方法
US20150281250A1 (en) * 2014-03-26 2015-10-01 Zeetings Pty Limited Systems and methods for providing an interactive media presentation
TWI514863B (zh) * 2014-04-09 2015-12-21 Gemtek Technology Co Ltd 多媒體資訊處理方法、多媒體裝置與多媒體網路系統
US9015193B1 (en) * 2014-05-30 2015-04-21 Semmle Limited Recursive aggregates
US10101974B2 (en) * 2014-07-31 2018-10-16 Angel.Com Incorporated Contact center application creating using reusable program modules
CN104287747A (zh) * 2014-10-24 2015-01-21 南京邮电大学 基于情绪感知的运动康复机器人交互控制方法
US10360925B2 (en) * 2014-10-29 2019-07-23 International Business Machines Corporation Computerized tool for creating variable length presentations
US9875288B2 (en) * 2014-12-01 2018-01-23 Sap Se Recursive filter algorithms on hierarchical data models described for the use by the attribute value derivation
EP3254478B1 (en) * 2015-02-03 2020-02-26 Dolby Laboratories Licensing Corporation Scheduling playback of audio in a virtual acoustic space
WO2016174585A1 (en) * 2015-04-27 2016-11-03 Toonimo Inc. Content adapted multimedia guidance
US11611564B2 (en) * 2016-02-15 2023-03-21 Luigius Caramico Methods and systems of dual-layer computer-system security
FR3055203A1 (fr) * 2016-09-01 2018-03-02 Orange Prediction de l'attention d'un auditoire lors d'une presentation
US20180101776A1 (en) * 2016-10-12 2018-04-12 Microsoft Technology Licensing, Llc Extracting An Emotional State From Device Data
US11960525B2 (en) * 2016-12-28 2024-04-16 Dropbox, Inc Automatically formatting content items for presentation
WO2018175750A1 (en) * 2017-03-22 2018-09-27 Swoup, LLC Intelligent visual object management system
CN107392151A (zh) * 2017-07-21 2017-11-24 竹间智能科技(上海)有限公司 基于神经网络的人脸影像多维度情感判别系统及方法
US10698876B2 (en) * 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content
US10628432B2 (en) * 2018-02-19 2020-04-21 Microsoft Technology Licensing, Llc Personalized deep models for smart suggestions ranking
JP7035734B2 (ja) * 2018-03-30 2022-03-15 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
US20200023157A1 (en) * 2018-07-17 2020-01-23 Limbix Health, Inc. Dynamic digital content delivery in a virtual environment
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统

Also Published As

Publication number Publication date
TW202046140A (zh) 2020-12-16
US11163815B2 (en) 2021-11-02
TWI780333B (zh) 2022-10-11
US20200380025A1 (en) 2020-12-03
CN112040329A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
US11810576B2 (en) Personalization of experiences with digital assistants in communal settings through voice and query processing
CN105120304B (zh) 信息显示方法、装置及系统
CN109165302B (zh) 多媒体文件推荐方法及装置
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
KR102457665B1 (ko) 검색/생성된 디지털 미디어 파일을 기반으로 잠재적 관련성에 대한 주제 예측
US20140164371A1 (en) Extraction of media portions in association with correlated input
CN111279709B (zh) 提供视频推荐
KR20120088650A (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
CN108475260A (zh) 基于评论的媒体内容项的语言识别的方法、系统和介质
Rudinac et al. Learning crowdsourced user preferences for visual summarization of image collections
CN113779381B (zh) 资源推荐方法、装置、电子设备和存储介质
WO2017123419A1 (en) Organization, retrieval, annotation and presentation of media data files using signals captured from a viewing environment
US20140161423A1 (en) Message composition of media portions in association with image content
US20140163956A1 (en) Message composition of media portions in association with correlated text
JP5611155B2 (ja) コンテンツに対するタグ付けプログラム、サーバ及び端末
KR102135077B1 (ko) 인공지능 스피커를 이용한 실시간 이야깃거리 제공 시스템
CN113573128B (zh) 一种音频处理方法、装置、终端以及存储介质
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
CN108604250A (zh) 识别内容项的类别并按照类别组织内容项以呈现的方法、系统和介质
CN113886568A (zh) 一种文本摘要的生成方法及装置
EP3985669A1 (en) Methods and systems for automatically matching audio content with visual input
US11410706B2 (en) Content pushing method for display device, pushing device and display device
CN112040329B (zh) 动态处理并播放多媒体内容的方法及多媒体播放装置
CN116049490A (zh) 素材搜索方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant