CN112333554A

CN112333554A - 多媒体数据的处理方法、装置、电子设备以及存储介质

Info

Publication number: CN112333554A
Application number: CN202011164776.9A
Authority: CN
Inventors: 李振阳; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-05
Anticipated expiration: 2040-10-27
Also published as: CN112333554B

Abstract

本申请实施例公开了一种多媒体数据的处理方法、装置、电子设备以及存储介质，可适用于人工智能以及大数据领域。该方法包括：获取多媒体数据中包含的至少一个文本信息，以及多媒体数据的标题信息；确定标题信息与各文本信息的匹配度；根据各文本信息对应的匹配度，确定多媒体数据中的目标播放时间区域；根据目标播放时间区域对多媒体数据进行处理。采用本申请实施例，可确定出与标题信息相关联的多媒体内容的播放时间区域，可提升用户体验，适用性高。

Description

多媒体数据的处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种多媒体数据的处理方法、装置、电子设备以及存储介质。

背景技术

随着科学技术的不断发展，传统的文字以及文字配图的多媒体内容已经不能满足用户的需求，视频、音频等多媒体内容(如短视频)逐渐成为大众获取信息以及娱乐的重要方式之一。

在日常生活中，用户往往希望直接浏览主要咨询内容(如短视频的亮点内容)来快速获取相关信息。为满足用户需求，在人工智能领域以及大数据领域现有技术中，往往采取将多媒体内容与标题信息进行图文匹配的方式，向用户提示与标题相关联的主要媒体内容。但是由于图像和文字属于不同领域的信息，在实际的匹配过程往往会导致匹配效果较差，并且现有的图文匹配技术对于不包含任何图像的音频数据来说，无法确定音频数据中与标题信息相关联的主要音频内容，适用性较差，降低用户体验。

因此，如何准确地确定出多媒体数据中的主要内容成为亟需解决的问题。

发明内容

本申请实施例提供一种多媒体数据的处理方法、装置、电子设备以及存储介质，可确定出多媒体数据中与标题信息相关联的主要内容的播放时间区域，可提升用户体验，适用性高。

第一方面，本申请实施例提供一种多媒体数据的处理方法，该方法包括：

获取多媒体数据中包含的至少一个文本信息，以及上述多媒体数据的标题信息；

确定上述标题信息与各上述文本信息的匹配度；

根据各上述文本信息对应的匹配度，确定上述多媒体数据中的目标播放时间区域；

根据上述目标播放时间区域对上述多媒体数据进行处理。

第二方面，本申请实施例提供了一种多媒体数据的处理装置，该装置包括：

获取单元，用于获取多媒体数据中包含的至少一个文本信息，以及上述多媒体数据的标题信息；

确定单元，用于确定上述标题信息与各上述文本信息的匹配度；

上述确定单元，用于根据各上述文本信息对应的匹配度，确定上述多媒体数据中的目标播放时间区域；

播放单元，用于根据上述目标播放时间区域对上述多媒体数据进行处理。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行上述第一方面所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述第一方面所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所提供的方法。

在本申请实施例中，通过将多媒体数据用至少一个文本信息表示，可在文字维度上准确确定多媒体数据的标题信息和每个文本信息的匹配度，进而可基于匹配度准确衡量各文本信息与标题信息的关联程度以通过匹配度确定多媒体数据中的目标播放时间区域。进一步的，通过目标播放时间区域对多媒体数据进行处理，可使用户快速确定与标题信息相关的多媒体内容的播放时间区域，可增强用户吸引力，适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的多媒体数据的处理方法的一流程图；

图2a是本申请实施例提供的获取视频数据中包含的文本信息的一场景示意图；

图2b是本申请实施例提供的获取视频数据中包含的文本信息的另一场景示意图；

图2c是本申请实施例提供的获取视频数据中包含的文本信息的又一场景示意图；

图3是本申请实施例提供的获取音频数据中包含的文本信息的场景示意图；

图4是本申请实施例提供的根据相似度确定目标播放时间区域的示意图；

图5是本申请实施例提供的根据关键词确定目标播放时间区域的示意图；

图6是本申请实施例提供的根据指定信息确定目标播放时间区域的示意图；

图7是本申请实施例提供的确定目标播放时间区域的示意图；

图8是本申请实施例提供的对多媒体数据进行处理的场景示意图；

图9是本申请实施例提供的多媒体数据的处理装置的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的多媒体数据处理方法可适用于人工智能、大数据等多种领域，如基于自然语言处理((Nature Language processing，NLP)的人机交互、云技术(Cloudtechnology)中的云计算、人工智能云服务以及大数据领域中的相关数据计算处理领域，旨在通过将多媒体数据转化为文本信息，进而基于文本信息确定出多媒体数据中主要媒体内容的目标播放时间区域。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。本申请实施例所提供的多媒体数据的处理方法可基于云技术中的云计算(cloud computing)实现。

云计算是指通过网络以按需、易扩展的方式获得所需资源，是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，AI即服务)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的人工智能服务进行拆分，并在云端提供独立或者打包的服务，如语音识别处理、文本信息提取等。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注。大数据基于大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、以及上述云计算等技术，有效地实施本实施例所提供的多媒体数据的处理方法。

参见图1，图1是本申请实施例提供的多媒体数据的处理方法的一流程图。该方法可以由任一电子设备执行，如可以是服务器或者用户终端，也可以是用户终端和服务器交互完成。当由用户终端执行时，用户终端在获取到多媒体数据后，可确定多媒体数据中的目标播放时间区域，进而基于目标播放时间区域对多媒体数据进行处理。当由服务器和用户终端交互完成时，服务器可确定多媒体数据中的目标播放时间区域，进而将目标播放时间区域指示给用户终端，用户终端根据目标播放时间区域对多媒体数据进行处理。其中，服务器接收到的多媒体数据可以由用户终端发送，也可由服务器通过其他方式，如数据库、网页获取等获取，在此不做限制。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。

如图1所示，本申请实施例提供的多媒体数据的处理方法可包括如下步骤：

步骤S101、获取多媒体数据中包含的至少一个文本信息，以及多媒体数据的标题信息。

在一些可行的实施方式中，本申请实施例中的多媒体数据包括但不限于视频数据、音频数据以及视频与音频相结合的数据，其中，视频数据为包含图像以及语音数据的多媒体数据，音频数据可以为视频数据中的语音数据，具体可基于实际应用场景确定，在此不做限制。进一步的，本申请实施例可基于多媒体数据中包含的至少一个文本信息来确定出多媒体数据中的目标播放时间区域，以基于目标播放时间区域对多媒体数据进行处理。

在一些可行的实施方式中，对于视频数据而言，可获取视频数据中的至少一帧图像的字幕信息，将至少一帧图像的字幕信息作为视频数据中包含的至少一个文本信息。也就是说，视频数据中的任一帧图像的字幕信息可作为视频数据中包含的一个文本信息。其中，从视频数据的帧图像中获取字幕信息时，可采用OCR(Optical CharacterRecognition，光学字符识别)技术，或者其他文字识别方式、文字提取工具等获取，在此不做限制。

参见图2a，图2a是本申请实施例提供的获取视频数据中包含的文本信息的一场景示意图。为方便描述，假设一视频数据仅有9帧图像，且每一帧图像具有不同的字幕信息，如第1帧图像中的字幕信息为“台风‘山竹’即将登陆”，第7帧图像中的字幕信息为“让我们看看发生了什么”。对于该视频数据，可将该视频数据中每一帧图像的字幕信息，作为该视频数据中包含的多个文本信息。例如，第1帧图像中的字幕信息“台风‘山竹’即将登陆”可作为视频数据中包含的一个文本信息，第7帧图像中的字幕信息“让我们看看发生了什么”可作为视频数据中包含的另一个文本信息。可选的，也可根据实际需求将第1帧图像或者第7帧图像中的任一字幕信息作为一个文本信息，具体可根据实际应用场景需求确定，在此不做限制。

具体的，由于人眼具有视觉暂留原理，即人眼无法辨别单幅的静态画面，从而实现平滑连续的视觉播放效果，因此视频数据在播放过程中是以连续的图像变化进行播放(如每秒播放连续的24帧图像)。在该情况下，视频数据中通常存在连续多帧图像所包含的字幕信息完全相同的情况。因此，在确定出视频数据中的各帧图像之后，对于字幕信息完全相同的连续多帧图像，可将其中任意一帧或者多帧图像的字幕信息作为视频数据中包含的一个或者多个文本信息，如将字幕信息完全相同的连续多帧图像中的第一个播放的帧图像的字幕信息，作为视频数据中包含的一个文本信息。

参见图2b，图2b是本申请实施例提供的获取视频数据中包含的文本信息的另一场景示意图。为方便描述，假设存在一包含60帧图像的视频数据，且在该视频数据中，第1帧图像至第35帧图像均对应同一图像，且字幕信息均为“台风‘山竹即将登陆’”，第36帧图像至第60帧图像均对应图一图像，且字幕信息均为“让我们看看发生了什么”。此时可将第1帧图像至第35帧图像中的任一帧图像(如第1帧图像)的字幕信息作为视频数据中包含的一个文本信息，将第36帧至第60帧图像中的任一帧图像(如第36帧图像)的字幕信息作为视频数据中包含的一个文本信息。也就是说，通过上述方式可确定出该视频数据中包含的两个文本信息。

可选的，对于字幕信息中每个字随视频播放进程逐一出现的视频数据而言，如果将每帧图像对应的文本信息作为视频数据中包含的文本信息时，将会导致存在大量无语义或者语义表述不全的文本信息。因此对于该种视频数据，可将视频数据分成多个视频数据片段，使得每个视频数据片段由一句完整字幕信息所对应的所有帧图像。也就是说，每个视频数据片段为一句完整的字幕信息从第一个字至完整字幕信息所对应的全部帧图像。进而可从每个视频数据片段的所有帧图像中确定出包含完整字幕的帧图像，并将该帧图像的字幕信息作为视频数据中包含的至少一个文本信息。基于上述实现方式，可将视频数据中每一句完整字幕信息作为视频数据中包含的一个文本信息，提高文本信息的处理效率。

参见图2c，图2c是本申请实施例提供的获取视频数据中包含的文本信息的又一场景示意图。图2c展示了某视频数据中的一个视频数据片段，该视频数据片段包含9帧图像，每一帧图像中的字幕信息为一完整字幕信息中的一部分。如第1帧图像中的字幕信息为“台”，第2帧图像中的字幕信息为“台风”，在将视频数据片段连续播放的过程中，字幕信息随播放画面不断变化直至显示完整的字幕信息“台风‘山竹’即将登陆”。由图2c可知，由于第1帧至第8帧的字幕信息均不为完整的字幕信息，只有第9帧图像的字幕信息为完整的字幕信息，因此对于如2c中的视频数据片段，可将第9帧所包含的字幕信息作为视频数据中包含的一个文本信息。

可选的，对于不包含字幕信息的视频数据而言，若视频数据中包含语音数据，如视频旁白、新闻播报语音等，则可将语音数据进行语音识别，得到语音数据的语音识别结果，进而可将语音识别结果中的每个语句对应的文本内容，作为视频数据中包含的至少一个文本信息。

在一些可行的实施方式中，对于音频数据而言，由于音频数据中不包含帧图像，因此无法从帧图像中直接获取音频数据中包含的文本信息。此时可基于自然语言处理技术，将音频数据转化为文本内容，进而基于音频数据对应的文本内容确定音频数据中包含的至少一个文本信息。具体的，可对音频数据进行语音识别，以得到音频数据的语音识别结果。对于语音识别结果中的每一句对应的文本内容，可将其作为音频数据中包含的至少一个文本信息。也就是说，音频数据的语音识别结果中的每个语句，均可作为音频数据中包含的一个文本信息。

参见图3，图3是本申请实施例提供的获取音频数据中包含的文本信息的场景示意图。如图3所示，对音频数据进行语音识别之后，得到的语音识别结果中包括“台风‘山竹’即将登陆”，以及“让我们看看发生了什么”两个语句。对于上述两个语句，每个语句对应的文本内容均可作为语音数据中包含的一个文本信息。

可选的，对于语音识别结果中的各语句而言，当任一语句的文本长度较短时，其对应的文本内容所表述的语义有限，因此在得到语音识别结果之后，去除语音识别结果中文本长度较短的语句，可将每个文本长度大于预设文本长度阈值的语句对应的文本内容，作为音频数据中包含的一个文本信息。

可选的，当音频数据的语音识别结果中，存在文本内容相同的语句，此时可将播放时间最早的语句对应的文本内容作为语音数据中包含的一个文本信息，也可将每个语句对应的文本内容均作为音频数据中包含的文本信息，具体可基于实际应用场景需求确定，在此不做限制。

可选的，由于语音识别结果中往往存在部分语气词，以及其他无意义的词，因此在得到音频数据的语音识别结果之后，可对语音识别结果进行筛选，以去除语气词以及其他无意义词，进而在筛选后的语音识别结果的基础上，基于上述任一种可行的实施方式，确定音频数据中包含的至少一个文本信息。

可选的，当音频数据为视频数据中包含的语音数据时，可基于音频数据的语音识别结果中的至少一个语句对应的文本内容，确定视频数据中包含的至少一个文本信息。

在一些可行的实施方式中，多媒体数据的标题信息可以为多媒体数据的文件名，可以为多媒体数据相关联的主题信息以及简要描述等，如短视频平台的视频标题，博客内容中关于视频、语音的内容标签等，具体可基于实际应用场景确定，在此不做限制。

步骤S102、确定标题信息与各所述文本信息的匹配度。

在一些可行的实施方式中，在获取到多媒体数据的标题信息之后，可确定标题信息和至少一个文本信息中各文本信息的匹配度，进而根据各文本信息对应的匹配度来确定多媒体数据中的目标播放时间区域。

其中，标题信息和每个文本信息的匹配度，用于表示标题信息与每个文本信息的关联程度，以表征每个文本信息对应的多媒体内容与标题信息的关联程度。并且任一文本信息与标题信息的匹配度越高，表示该文本信息对应的多媒体内容与标题信息的关联程度越高，该文本信息对应的多媒体内容越贴近标题信息，即该文本信息对应的多媒体内容为多媒体数据中的主要内容。

在一些可行的实施方式中，标题信息与多媒体数据包含的各文本信息的匹配度，可以为标题信息与多媒体数据包含的各文本信息的文本相似度。也就是说，标题信息与任一文本信息的文本相似度越高，说明该文本信息对应的多媒体内容与标题信息的关联性越高。

其中，标题信息与各文本信息的文本相似度，具体可通过计算标题信息与各文本信息的余弦相似度、欧氏距离、汉明距离以及杰卡德相似度等方式确定，具体可基于实际应用场景确定，在此不做限制。

在一些可行的实施方式中，标题信息与多媒体数据包含的各文本信息的匹配度，还可基于标题信息中的各关键词确定。标题信息中的各关键词为表示标题信息中的主要信息的词，如标题信息为“多地高校开学时间确定”，该标题信息中的各关键词可以为“高校”、“开学时间”以及“确定”。需要特别说明的是，标题信息中的关键词的具体确定方式，可根据具体的标题信息以及实际应用场景需求确定，在此不做限制。

具体的，在基于标题信息中的各关键词确定各文本信息对应的匹配度时，可先确定标题信息中的各关键词。并进一步对每个文本信息进行分词处理，以得到每个文本信息中所有的词。从而对于每个文本信息，可将其包括的所有词与标题信息中各关键词进行匹配，以得到该文本信息中出现各关键词的次数，如该文本信息中出现“高校”两次，出现“开学时间”一次。当任一文本信息中出现标题信息中所有关键词的总次数越多时，可说明该文本信息与标题信息的关联性越高，如一个文本信息中出现各关键词共2次，另一文本信息中出现各关键词共8次，则显而易见地可确定后者与标题信息的关联性更高。因此，对于每个文本信息而言，将其中出现所有关键词的总次数确定为标题信息与该文本信息的匹配度。

可选的，对于标题信息而言，其所包括的各关键词虽然可表示标题信息的主要信息，但是每个关键词在标题信息中所对应的含义具有不同的重要性。如对于标题信息“多地高校开学时间确定”中的各关键词“高校”、“开学时间”以及“确定”来说，“高校”与“开学时间”所表示的含义的重要性，明显高于“确定”所表示的含义。因此在将文本信息中出现各关键词的次数作为该文本信息对应的匹配度时，会忽略各关键词对于标题信息的重要性，从而在一定程度上出现与标题信息的关联性高，出现各关键词次数较少的文本信息对应的匹配度较低的情况出现。因此，上述情况下，对于每个文本信息而言，可确定该文本信息中出现的各关键词中，每个关键词对应的次数。进而基于每个关键词的权重，得到该文本信息所对应的各关键词的权重和，进而将该权重和确定为标题信息与该文本信息的匹配度。

在一些可行的实施方式中，在确定标题信息与各文本信息的匹配度之前，可先确定各文本信息中是否存在包含有指定信息的文本信息，在不存在包含指定信息的文本信息的情况下，再确定标题信息与各文本信息的匹配度。其中，上述指定信息为用于提示多媒体数据主要播放内容的常见话术信息，例如短视频中常见的“让我们看看接下来会发生什么”、“本期节目主要有以下内容”等等，并且上述指定信息的具体文本内容可基于实际应用场景需求确定，在此不做限制。也就是说，当多媒体数据包括的各文本信息中，存在包含上述指定信息的文本信息时，包含上述指定信息的文本信息所对应的播放内容为多媒体数据的主要多媒体内容，从而可确定该文本信息与标题信息的关联性较强。因此，对于任一文本信息，当其包含上述指定信息时，可确定该文本信息与标题信息具有关联性。

进一步的，当各文本信息中不存在包含指定信息的文本信息时，可先确定标题信息与各文本信息的文本相似度，若存在满足预设条件的文本相似度时，可将各文本信息对应的文本相似度确定为各文本信息对应的匹配度。其中，上述满足预设条件的文本相似度可以为存在超过文本相似度阈值的文本相似度，以及存在超过一定数量的文本相似度等，具体可基于实际应用场景确定，在此不做限制。

当各文本信息对应的文本相似度中不存在满足预设条件的文本相似度时，可根据各文本信息中出现标题信息中各关键词次数，确定标题信息与各文本信息的匹配度。或者根据各文本信息中出现标题信息中各关键词的次数，以及各关键词的权重，确定各文本信息对应的权重和，进而将各文本信息对应的权重和确定为标题信息与各文本信息的匹配度。

步骤S103、根据各文本信息对应的匹配度，确定多媒体数据中的目标播放时间区域。

在一些可行的实施方式中，目标播放时间区域为多媒体数据中与标题信息相关联的多媒体内容的播放时间区域，或者为多媒体数据中主要内容的播放时间区域。例如，某一短视频的标题信息为“新华街发生车祸”，该短视频中的目标播放时间区域可以为车祸现场对应的视频内容的播放时间区域。

其中，当多媒体数据为视频数据时，每个文本信息对应的播放时间区域为该文本信息对应的帧图像的播放时间区域，当多媒体数据为音频数据时，文本信息的播放时间区域为该文本信息中第一个字在音频数据中的播放时间区域。

可选的，可将每个文本信息对应的帧图像或者音频数据的开始播放时间视为每个文本信息对应的播放时间区域，即每个文本信息对应的播放时间区域在此情况下可表示时间跨度极小的时间区域或者表征文本信息对应的开始播放时间，具体可基于实际应用场景需求确定，在此不做限制。

在一些可行的实施方式中，由于各文本信息对应的匹配度可表示与标题信息的关联程度，因此在确定出各文本信息对应的匹配度之后，可将满足匹配条件的文本信息的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。也就是说，当任一文本信息与标题信息的关联程度达到一定程度时，可确定该文本信息所对应的多媒体内容与标题信息相关。

其中，上述满足匹配条件的文本信息可以为匹配度高于匹配度阈值的文本信息，也可以为各文本信息中匹配度最高的文本信息，具体可基于实际应用场景确定，在此不做限制。其中，上述匹配度阈值也可基于应用场景确定，在此不做限制。

可选的，当各文本信息对应的匹配度为标题信息与各文本信息的文本相似度时，可将文本相似度满足上述匹配条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。其中，在匹配度为文本相似度的情况下，匹配度阈值为对应的相似度阈值。参见图4，图4是本申请实施例提供的根据文本相似度确定目标播放时间区域的示意图。假设标题信息与各文本信息的文本相似度为余弦相似度，在确定标题信息与某一该文本信息的文本相似度时，可将标题信息和文本信息进行向量化处理，得到该文本信息对应的文本信息向量和标题信息对应的标题信息向量。根据文本信息对应的文本信息向量，以及标题信息对应的标题信息向量确定标题信息与该文本信息的余弦相似度，并将其所为标题信息与该文本信息的匹配度，进而将满足匹配条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

可选的，当多媒体数据中的各文本信息对应的匹配度，是根据各文本信息中出现标题信息中各关键词的次数确定的时，可将匹配度满足匹配条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。参见图5，图5是本申请实施例提供的根据关键词确定目标播放时间区域的示意图。在图5中，对于每个文本信息而言，可对该文本信息进行分词处理，进而提取该文本信息中的各词。进一步的，将该文本信息中的各词与标题信息中的关键词进行匹配，可确定每个文本信息出现各关键词的次数。进而根据每个文本信息出现各关键词的次数，确定各文本信息对应的匹配度，以将满足匹配度条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

可选的，当各文本信息对应的匹配度，为基于各文本信息中出现标题信息中各关键词确定出的权重和时，可将匹配度满足匹配条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。此时匹配条件为权重和高于权重和阈值，或者权重和为最高权重和。

在一些可行的实施方式中，为避免基于上述实现方式确定出的目标播放时间区域较多的情况，可在满足匹配条件的文本信息中至少包括两个文本信息的情况下，在满足匹配条件的各文本信息中，基于预设选择方式选择一个或者多个文本信息对应的播放时间区域，作为多媒体数据中的目标播放时间区域。

可选的，可确定满足匹配条件的各文本信息在多媒体数据中对应的播放时间，将第一个或者前预设数量的满足匹配条件的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

可选的，在满足匹配条件的文本信息中，随机选择预设数量的文本信息对应的播放时间区域，并将其确定为多媒体数据中的目标播放时间区域。

可选的，根据满足匹配条件的各文本信息在多媒体数据中的播放时间，将第一个文本信息对应的播放时间确定为多媒体数据中的一个目标播放时间区域，对于第一个文本信息之后的任一文本信息，若该文本信息对应的播放时间区域与其相邻的前一个播放时间区域所间隔的时间距离不小于时间距离阈值，则可将该文本信息对应的播放时间区域确定为多媒体数据中的目标播放时间区域。

需要特别说明的是，上述基于预设选择方式从满足匹配条件的文本信息中确定多媒体数据中的目标播放时间区域的实现方式仅为示例，具体可基于实际应用场景确定，在此不做限制。

在一些可行的实施方式中，在上述匹配条件为匹配度高于匹配度阈值的情况下，可根据多媒体数据中各文本信息在多媒体中对应的播放时间，按照播放顺序依次确定每个文本信息对应的匹配度，并在每确定一个文本信息对应的匹配度之后，将其与匹配度阈值进行比较。从而将第一个或者预设数量的匹配度高于匹配度阈值的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。或者，在将第一个匹配度高于匹配度阈值的文本信息对应的播放时间区域，确定为多媒体数据中的一个目标播放时间区域之后，可确定下一个匹配度高于匹配度阈值的文本信息。若该文本信息对应的播放时间区域，距离第一个匹配度高于匹配度阈值的文本信息的播放时间区域的时间距离，不小于时间距离阈值，则可将该文本信息对应的播放时间区域确定为多媒体数据中的目标播放时间区域，以此类推，直至确定出多媒体数据中的所有目标播放时间区域为止。

在一些可行的实施方式中，在标题信息与各文本信息的匹配度由各文本信息中出现标题信息中各关键词的次数确定的情况下，可将任一文本信息中出现所有关键词的总次数确定为该文本信息对应的匹配度。若此时上述匹配条件为总次数高于次数阈值，则在各文本信息存在满足匹配条件的多个文本信息(存在总次数高于次数阈值的多个文本信息)时，基于各关键词的权重确定各文本信息对应的权重和，将权重和最高的文本信息对应的播放时间区域确定为目标播放时间区域。若满足匹配条件的多个文本信息中存在权重和最高的多个文本信息时，可根据各文本信息在多媒体数据中的播放时间，将第一个权重和最高的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。或者可基于上述预设选择方式从权重和最高的多个文本信息中确定多媒体数据中的目标播放时间区域，在此不做限制。

可选的，若此时上述匹配条件为总次数为最高次数，则在各文本信息中存在满足匹配条件的多个文本信息(存在总次数最高的多个文本信息)时，基于满足匹配条件的多个文本信息中，每个文本信息中出现各关键词的次数，以及各关键词的权重，确定出满足匹配条件的多个文本信息中权重和最高的文本信息，并将权重和最高的文本信息对应的播放时间区域确定为目标播放时间区域。若满足匹配条件的多个文本信息中存在多个权重和最高的多个文本信息时，可根据各文本信息在多媒体数据中的播放时间，将第一个权重和最高的文本信息对应的播放时间区域确定为目标播放时间区域。或者可基于上述预设选择方式从权重和最高的多个文本信息中确定多媒体数据中的目标播放时间区域，在此不做限制。

在一些可行的实施方式中，在标题信息与各文本信息的匹配度为各文本信息对应的权重和的情况下，若此时上述匹配条件为权重和高于权重和阈值，或者权重和为最高权重和，则在各文本信息存在满足匹配条件的多个文本信息(存在权重和高于权重和阈值的多个文本信息，或者存在权重和高于权重和阈值的多个文本信息)时，将出现所有关键词的总次数最高的文本信息对应的播放时间区域确定为目标播放时间区域。若满足匹配条件的多个文本信息中存在总次数最高的多个文本信息时，可根据各文本信息在多媒体数据中的播放时间，将第一个总次数最高的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。或者可基于上述预设选择方式从总次数最高的多个文本信息中确定多媒体数据中的目标播放时间区域，在此不做限制。

在一些可行的实施方式中，由于步骤S102中的指定信息可提示多媒体数据的主要播放内容，因此可在确定标题信息与各文本信息的匹配度之前，基于上述指定信息确定多媒体数据中的目标播放时间区域。参见图6，图6是本申请实施例提供的根据指定信息确定目标播放时间区域的示意图。在获取到多媒体数据中包含的至少一个文本信息之后，可将每个文本信息与指定信息进行比较，并进一步将包含指定信息的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。其中，在基于指定信息确定多媒体数据中的目标播放时间区域时，可以采用一个指定信息或者多个指定信息，具体可基于实际应用场景确定，在此不做限制。如将包含任一指定信息的文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

具体的，可将每个文本信息按照播放时间顺序依次与指定信息进行匹配，在匹配过程中，将第一个或者前预设数量的包含任一指定信息的文本信息所对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

可选的，还可先确定出各文本信息中，包含任一指定信息的所有文本信息，并从其中确定出包含不同指定信息的文本信息。若存在包含同一指定信息的多个文本信息，选择播放时间最早的文本信息。也就是说，基于上述实现方式，从多媒体数据包含的所有文本信息中，确定出分别包含不同指定信息的文本信息(任一文本信息所包含的指定信息与其他文本信息所包含的指定信息不同)，进而将包含不同指定信息的各文本信息对应的播放时间区域，确定为多媒体数据中的目标播放时间区域。

进一步的，参见图7，图7是本申请实施例提供的确定目标播放时间区域的示意图。在图7中，若多媒体数据中各文本信息中存在包含指定信息的文本信息，可成功确定出多媒体数据中的目标播放时间区域。若各文本信息中不存在包含指定信息的文本信息，即基于指定信息确定多媒体数据中的目标播放时间区域失败时，可确定标题信息与各文本信息的文本相似度，将文本相似度作为各文本信息对应的匹配度，并进一步基于匹配条件确定多媒体数据中的目标播放时间区域，具体确定方式如上述所示，在此不做赘述。若在将文本相似度作为匹配度的情况下，未确定出多媒体数据中的目标播放时间区域，即基于文本相似度确定目标播放时间区域失败时，可基于关键词匹配的方式确定各文本信息中出现标题信息中各关键词的次数，进而确定标题信息与各文本信息的匹配度。进而基于匹配条件确定多媒体数据中的目标播放时间区域，具体确定方式如上述所示，在此不做赘述。

需要特别说明的是，上述基于指定信息确定多媒体数据中的目标播放时间区域的具体实现方式仅为示例，具体可基于实际应用场景确定，在此不做限制。

在一些可行的实施方式中，图7所示的目标播放时间区域的确定方式，即指定信息确定目标播放时间区域的方式、将文本相似度作为匹配度确定目标播放时间区域的方式以及基于文本信息中各关键词的出现次数确定目标播放时间区域的方式中，三者的组合顺序仅为示例，具体组合顺序可基于实际应用场景限制，在此不做限制。

例如，可先确定标题信息与各文本信息的文本相似度，将文本相似度作为匹配度以基于匹配条件确定多媒体数据中的目标播放时间区域。在基于文本相似度确定目标播放时间区域失败时，可基于各文本信息中出现标题信息中各关键词的次数，确定各文本信息的匹配度，进而根据匹配条件确定目标播放时间区域。进而在基于各文本信息中出现各关键词的次数确定目标播放时间区域失败时，基于上述指定信息确定多媒体数据中的目标播放时间区域。

可选的，还可基于上述三种目标播放时间区域的确定方式中，任意两种实现方式进行组合，得到新的目标播放时间区域的确定方式，具体的选取方式和组合顺序也可基于实际应用场景确定，在此不做限制。

例如，可先确定标题信息与各文本信息的文本相似度，将文本相似度作为匹配度以基于匹配条件确定多媒体数据中的目标播放时间区域。在基于文本相似度确定目标播放时间区域失败时，基于上述指定信息确定多媒体数据中的目标播放时间区域。

步骤S104、根据目标播放时间区域对多媒体数据进行处理。

在一些可行的实施方式中，基于步骤S102确定出的目标播放时间区域所对应的多媒体内容，为与多媒体数据的标题信息相关联的主要内容。因此，在确定出多媒体数据中的目标播放时间区域之后，可基于目标播放时间区域生成播放提示信息，以提示多媒体数据的主要内容的目标播放时间区域。

如对于短视频应用而言，短视频用户在使用短视频应用时，不同用户会因为其性格以及其所处环境等因素，会导致用户对于短视频的铺垫(即与标题信息不相关或者相关性较低的视频内容)长短的忍受度不同。因此，基于目标播放时间区域所生成的播放提示信息可向短视频用户提示短视频的亮点(即与标题信息相关的主要视频内容)对应的目标播放时间区域，以满足短视频用户的快速观看需求，提升用户体验度。

如对于音乐应用而言，目标播放时间区域所对应的文本信息与标题信息相关，即目标播放时间区域对应的音频内容可能为音乐的副歌(高潮)部分，因此音乐应用可通过播放提示信息提示用户音乐的副歌对应的目标播放区域，从而使得用户直接欣赏音乐副歌部分，或者基于播放提示信息对音乐副歌部分进行截取(如截取副歌作为彩铃)等。

具体的，在播放提示信息用于提示多媒体数据的主要内容的目标播放时间区域时，该播放提示信息可以为文字、语音等提示信息，也可以是符号、图形等，如视频播放进度条中的符号，或者将目标播放时间区域所对应的帧图像、文本信息等作为播放提示信息，具体可基于实际应用场景需求确定，在此不做限制。进一步的，在播放多媒体数据的过程中，如播放视频画面、播放音频内容时，可向用户显示播放提示信息，以提示用户与多媒体数据的标题信息相关的主要内容的目标播放时间区域，进而使得用户可基于目标播放时间区域快速浏览多媒体数据的主要内容。

参见图8，图8是本申请实施例提供的对多媒体数据进行处理的场景示意图。如图8中的多媒体数据为视频数据，且该媒体数据的标题信息为“恐龙灭绝之谜”，由此可知该多媒体数据主要通过视频画面播放与恐龙灭绝相关的内容。其中，假设基于步骤S102确定出的多媒体数据的目标播放时间区域之后，基于该目标播放时间区域生成的播放提示信息可作为图8中视频进度条中的指示时间区域，即该指示时间区域可以作为多媒体数据对应的播放提示信息。或者，在该目标播放时间区域在视频进度条中所在的位置，将目标播放时间区域对应的帧图像作为播放提示信息向用户显示，即将用于说明“恐龙已经灭绝了”相关内容的视频内容作为播放提示信息，并提示用户与标题信息“恐龙灭绝之谜”相关的主要内容的播放时间区域。

可选的，当确定出多个目标播放时间区域时，可同样生成多个播放提示信息以提示用户与标题信息相关联的多个内容的播放时间区域。例如当多媒体数据为电影数据时，基于多个目标播放时间区域可生成多个播放提示信息，以提示用户该电影中多个主要内容(如高潮部分)的播放时间区域，有助于提升用户的观影体验。

可选的，若未能确定出多媒体数据的目标播放时间区域，则可确定多媒体数据的播放内容可能与标题信息关联性较低，即多媒体数据的播放内容可能无实质性内容。在该情况下，可生成内容提示信息，并在播放多媒体数据时向用户展示内容提示信息，以告知用户当前播放的多媒体数据可能不存在与标题信息相关联的内容，从而减少用户在该多媒体数据所浪费的时间，适用性更高。

在一些可行的实施方式中，由于上述播放提示信息对应于多媒体数据中的主要内容，因此基于目标播放时间区域对多媒体数据进行筛选。如将目标播放时间区域时长超过一定时长阈值的多媒体数据，确定为目标多媒体数据，即目标多媒体数据的主要内容所对应的播放时长占据多媒体数据对应的总播放时长较大比例，从而可说明目标多媒体数据存在较少的与标题信息不相关的内容。

可选的，还可基于目标播放时间区域的数量作为筛选依据，筛选出目标播放时间区域较多的目标多媒体数据。即此时目标多媒体数据包含多段与标题信息相关的内容。

其中，上述基于目标播放时间区域对多媒体数据进行筛选的方式仅为示例，具体可基于实际应用场景需求确定，在此不做限制。

对于短视频应用而言，短视频应用可基于目标播放时间区域对短视频进行筛选，以对短视频进行更好的推荐与管理。如短视频应用可基于目标播放时间区域对用户上传的短视频进行审核筛选，将目标播放时间区域时长较短的短视频不予以审核通过，进而提高短视频应用中的各个短视频的视频质量。或者短视频应用在向用户推荐短视频时，优先向用户推荐目标播放时间区域较长，或者目标播放时间区域较多的短视频，以提升用户短视频观看体验。

可选的，还可基于多媒体数据的目标播放时间区域，确定向用户推荐多媒体数据的推荐测量。如基于用户播放多媒体数据的播放习惯信息，以及多媒体数据的目标播放时间区域向用户推荐多媒体数据。其中，上述播放习惯信息包括但不限于用户播放过的历史多媒体数据所对应的时长(即每个历史多媒体数据播放完所需时长)，用户对应的历史多媒体数据对应的播放时间(用户浏览和/或收听各历史多媒体数据所消耗的时间)等，具体可基于实际应用场景需求确定，在此不做限制。

进一步的，同样对于短视频应用而言，若基于用户对应的历史播放短视频确定用户更倾向于浏览时长较短的短视频，或者用户对于每个历史播放短视频均占用较少的时间浏览，说明用户对于与标题信息不相关的短视频内容的忍受度有限，因此短视频应用可基于短视频对应的目标播放时间区域，向用户推荐目标播放时间区域较为靠前的短视频，从而使得用户可在较短时间内浏览到与标题信息相关的视频内容。

在一些可行的实施方式中，在基于多媒体数据的目标播放时间区域生成播放提示信息时，若播放提示信息与目标播放时间区域相对应的文本信息相关联，可同样基于播放提示信息确定相对应的多媒体数据推荐策略，如向用户推荐与其历史播放的多媒体数据相关的多媒体数据。

其中，播放提示信息与目标播放时间区域相对应的文本信息相关联，可可以表现为播放提示信息为目标播放时间区域所对应的帧图像、文本信息等，或者为相对应的帧图像、文本信息所对应的关键词、类别标签等，具体可基于实际应用场景需求确定，在此不做限制。

例如，对于短视频应用而言，若基于用户的历史短视频播放数据可确定用户经常播放“足球”相关的短视频，短视频音乐则可确定播放提示信息与“足球”相关联的目标短视频，并向用户推荐目标短视频。

进一步的，短视频用户还可在确定出播放提示信息与“足球”相关联的目标短视频之后，可基于各目标短视频的播放提示信息所对应的目标播放时间区域，进一步筛选出适合用户浏览的目标短视频。如筛选出播放时间区域较为靠前的目标短视频，并将其优先向用户推荐。

再例如，对于音乐应用而言，可通过用户的历史音乐播放数据确定用户经常播放的音乐类型，如“励志音乐”、“情歌”、“英文歌”等。进而音乐应用可基于各音乐对应的播放提示信息，向用户推荐相关类型的音乐，以提升用户吸引力。

可选的，若播放提示信息与目标播放时间区域相对应的文本信息相关联，可同样基于播放提示信息确定相对应的多媒体数据管理策略，如基于各多媒体数据对应的播放提示信息对多媒体数据进行分类，或者基于各多媒体数据的标题信息进行分类后，基于各多媒体数据对应的播放提示信息对每个类别下的多媒体数据进行进一步分类，以及基于播放提示信息确定每个类别中与该类别不相符的多媒体数据等，具体管理策略可基于实际应用场景需求确定在，在此不做限制。

在本申请实施例中，通过将多媒体数据用至少一个文本信息表示，可在文字维度上准确确定多媒体数据的标题信息和每个文本信息的匹配度。通过标题信息与每个文本信息的文本相似度，每个文本信息中出现标题信息中各关键词的次数，来确定标题信息与每个文本信息的匹配度，可提供多种标题信息与文本信息的关联程度的衡量方式，进而提供多种多媒体数据中的目标播放时间区域的确定方式，更好地适用于不同的应用场景。另一方面，通过将不同目标播放时间区域的确定方式进行组合，可进一步拓展目标播放时间的确定方式，并且可降低基于单一确定方式确定目标播放时间区域所可能导致的确定失败的风险。另一方面，通过目标播放时间区域对多媒体数据进行处理，可使用户快速确定与标题信息相关的多媒体内容的播放时间区域，通过多媒体提醒信息，可使用户节省对不包含与标题信息相关的多媒体内容的多媒体数据的浏览时间，增强用户吸引力，适用性高。

参见图9，图9是本申请实施例提供的多媒体数据的处理装置的结构示意图。本申请实施例提供的处理装置1包括：

获取单元11，用于获取多媒体数据中包含的至少一个文本信息，以及上述多媒体数据的标题信息；

确定单元12，用于确定上述标题信息与各上述文本信息的匹配度；

上述确定单元12，用于根据各上述文本信息对应的匹配度，确定上述多媒体数据中的目标播放时间区域；

播放单元13，用于根据上述目标播放时间区域对上述多媒体数据进行处理。

在一些可行的实施方式中，上述确定单元12，用于：

确定上述标题信息与各上述文本信息的文本相似度，将上述文本相似度作为匹配度；

确定上述标题信息的各关键词，对于每个上述文本信息，根据该文本信息中出现各上述关键词的次数，确定上述标题信息与该文本信息的匹配度。

在一些可行的实施方式中，上述确定单元12，用于：

确定各上述关键词的权重；

对于每个上述文本信息，根据该文本信息中出现各上述关键词的次数，以及各上述关键词的权重，确定上述标题信息与该文本信息的匹配度。

在一些可行的实施方式中，上述确定单元12，用于：

将满足匹配条件的文本信息对应的播放时间区域，确定为上述多媒体数据中的目标播放时间区域；

上述匹配条件包括以下任一项：

匹配度高于匹配度阈值；

匹配度为最高匹配度。

在一些可行的实施方式中，若满足上述匹配条件的文本信息中包括至少两个文本信息，上述确定单元12，用于：

根据满足上述匹配条件的各上述文本信息在上述多媒体数据中对应的播放时间，将第一个满足上述匹配条件的文本信息的播放时间区域，确定为上述多媒体数据中的目标播放时间区域。

在一些可行的实施方式中，上述确定单元12，用于：

若各上述文本信息中不存在包含指定信息的文本信息，则确定上述标题信息与各上述文本信息的文本相似度，若存在满足预设条件的文本相似度，则将各上述文本信息对应的文本相似度作为匹配度；

若各上述文本信息对应的文本相似度中不存在满足上述预设条件的文本相似度，则根据各上述文本信息中出现各上述关键词的次数，确定上述标题信息与各上述文本信息的匹配度。

在一些可行的实施方式中，上述确定单元12，还用于：

将各上述文本信息中包含指定信息的文本信息对应的播放时间区域，确定为上述多媒体数据中的目标播放时间区域。

在一些可行的实施方式中，上述播放单元13，用于：

在接收到上述多媒体数据的播放请求时，根据上述目标播放时间区域生成上述多媒体数据对应的播放提示信息，其中，上述播放提示信息用于提示上述目标播放时间区域；

播放上述多媒体数据，并向用户显示上述播放提示信息。

在一些可行的实施方式中，上述多媒体数据为视频数据；上述获取单元11，用于：

获取上述视频数据中的至少一帧图像的字幕信息，将上述至少一帧图像的字幕信息作为上述视频数据中包含的至少一个文本信息；

其中，一帧图像的字幕信息为一个文本信息。

在一些可行的实施方式中，上述多媒体数据为音频数据；上述获取单元11，用于：

对上述音频数据进行语音识别，得到上述音频数据的语音识别结果；

将上述语音识别结果中至少一个语句对应的文本内容，作为上述音频数据中包含的至少一个文本信息。

具体实现中，上述装置1可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图10，图10是本申请实施例提供的电子设备的结构示意图。如图10所示，本实施例中的电子设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

确定上述标题信息与各上述文本信息的匹配度；

根据上述目标播放时间区域对上述多媒体数据进行处理。

在一些可行的实施方式中，上述处理器1001用于：

确定各上述关键词的权重；

在一些可行的实施方式中，上述处理器1001用于：

上述匹配条件包括以下任一项：

匹配度高于匹配度阈值；

匹配度为最高匹配度。

在一些可行的实施方式中，若满足上述匹配条件的文本信息中包括至少两个文本信息，上述处理器1001用于：

在一些可行的实施方式中，上述处理器1001用于：

在一些可行的实施方式中，上述处理器1001还用于：

在一些可行的实施方式中，上述处理器1001用于：

播放上述多媒体数据，并向用户显示上述播放提示信息。

在一些可行的实施方式中，上述多媒体数据为视频数据；上述处理器1001用于：

其中，一帧图像的字幕信息为一个文本信息。

在一些可行的实施方式中，上述多媒体数据为音频数据；上述处理器1001用于：

应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1000可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现上述图1中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的装置或者设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(randomaccess memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据的处理方法，其特征在于，所述方法包括：

获取多媒体数据中包含的至少一个文本信息，以及所述多媒体数据的标题信息；

确定所述标题信息与各所述文本信息的匹配度；

根据各所述文本信息对应的匹配度，确定所述多媒体数据中的目标播放时间区域；

根据所述目标播放时间区域对所述多媒体数据进行处理。

2.根据权利要求1所述的方法，其特征在于，所述确定所述标题信息与各所述文本信息的匹配度，包括以下任一项：

确定所述标题信息与各所述文本信息的文本相似度，将所述文本相似度作为匹配度；

确定所述标题信息的各关键词，对于每个所述文本信息，根据该文本信息中出现各所述关键词的次数，确定所述标题信息与该文本信息的匹配度。

3.根据权利要求2所述的方法，其特征在于，所述对于每个所述文本信息，根据该文本信息中出现各所述关键词的次数，确定所述标题信息与该文本信息的匹配度，包括：

确定各所述关键词的权重；

对于每个所述文本信息，根据该文本信息中出现各所述关键词的次数，以及各所述关键词的权重，确定所述标题信息与该文本信息的匹配度。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据各所述文本信息对应的匹配度，确定所述多媒体数据中的目标播放时间区域，包括：

将满足匹配条件的文本信息对应的播放时间区域，确定为所述多媒体数据中的目标播放时间区域；

所述匹配条件包括以下任一项：

匹配度高于匹配度阈值；

匹配度为最高匹配度。

5.根据权利要求4所述的方法，其特征在于，若满足所述匹配条件的文本信息中包括至少两个文本信息，所述根据各所述文本信息对应的匹配度，确定所述多媒体数据中的目标播放时间区域，包括：

根据满足所述匹配条件的各所述文本信息在所述多媒体数据中对应的播放时间，将第一个满足所述匹配条件的文本信息的播放时间区域，确定为所述多媒体数据中的目标播放时间区域。

6.根据权利要求1所述的方法，其特征在于，所述确定所述标题信息与各所述文本信息的匹配度，包括：

若各所述文本信息中不存在包含指定信息的文本信息，则确定所述标题信息与各所述文本信息的文本相似度，若存在满足预设条件的文本相似度，则将各所述文本信息对应的文本相似度作为匹配度；

若各所述文本信息对应的文本相似度中不存在满足所述预设条件的文本相似度，则根据各所述文本信息中出现各所述关键词的次数，确定所述标题信息与各所述文本信息的匹配度。

7.根据权利要求1或6所述的方法，其特征在于，所述方法还包括：

将各所述文本信息中包含指定信息的文本信息对应的播放时间区域，确定为所述多媒体数据中的目标播放时间区域。

8.根据权利要求4至7任一项所述的方法，其特征在于，所述根据所述目标播放时间区域对所述多媒体数据进行处理，包括：

在接收到所述多媒体数据的播放请求时，根据所述目标播放时间区域生成所述多媒体数据对应的播放提示信息，其中，所述播放提示信息用于提示所述目标播放时间区域；

播放所述多媒体数据，并向用户显示所述播放提示信息。

9.根据权利要求8所述的方法，其特征在于，所述多媒体数据为视频数据；所述获取多媒体数据中包含的至少一个文本信息，包括：

获取所述视频数据中的至少一帧图像的字幕信息，将所述至少一帧图像的字幕信息作为所述视频数据中包含的至少一个文本信息；

其中，一帧图像的字幕信息为一个文本信息。

10.根据权利要求8所述的方法，其特征在于，所述多媒体数据为音频数据；所述获取多媒体数据中包含的至少一个文本信息，包括：

对所述音频数据进行语音识别，得到所述音频数据的语音识别结果；

将所述语音识别结果中至少一个语句对应的文本内容，作为所述音频数据中包含的至少一个文本信息。

11.一种多媒体数据的处理装置，其特征在于，所述处理装置包括：

获取单元，用于获取多媒体数据中包含的至少一个文本信息，以及所述多媒体数据的标题信息；

确定单元，用于确定所述标题信息与各所述文本信息的匹配度；

所述确定单元，用于根据各所述文本信息对应的匹配度，确定所述多媒体数据中的目标播放时间区域；

播放单元，用于根据所述目标播放时间区域对所述多媒体数据进行处理。

12.根据权利要求11所述的处理装置，其特征在于，所述确定单元，用于：

13.根据权利要求12所述的处理装置，其特征在于，所述确定单元，用于：

确定各所述关键词的权重；

14.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至10任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至10任一项所述的方法。