CN112752155B

CN112752155B - 一种媒体数据显示方法和相关设备

Info

Publication number: CN112752155B
Application number: CN202010033754.2A
Authority: CN
Inventors: 高文君
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2024-02-09
Anticipated expiration: 2040-01-13
Also published as: CN112752155A

Abstract

本申请实施例公开了一种媒体数据显示方法和相关设备，对于包括多个媒体片段的待显示的媒体数据，针对其中的目标媒体片段，可以根据目标媒体片段的时长，确定目标媒体片段的进度控制信息。其中，目标媒体片段为媒体数据中的任意一个媒体片段。以及，根据目标媒体片段所体现的内容，确定目标媒体片段的文本信息。为目标媒体片段显示进度控制信息和文本信息。并完成针对多个媒体片段的显示。该方法利于用户基于文本信息更清晰的确定每个媒体片段体现的内容，且相比于完整的媒体数据的进度控制信息，媒体片段的进度控制信息要更易精确控制，从而提高用户准确控制和查找媒体数据的播放位置的可能性。

Description

一种媒体数据显示方法和相关设备

技术领域

本申请涉及数据处理领域，特别是涉及一种媒体数据显示方法和相关设备。

背景技术

数据处理设备如终端等在显示或播放媒体数据时，通常会同时显示该媒体数据的进度条，以供用户通过调整进度条上按钮的位置，来控制数据处理设备从该按钮位置所对应媒体数据的内容处开始播放媒体数据。

然而，该种媒体数据显示方式，使得用户无法得知其进度条的各个位置处所对应的内容。例如，针对一个录音数据，用户无法准确确定其进度条的各个位置处所对应的录音内容。

由此，导致用户无法通过拖动进度条上的按钮，来准确查找或控制媒体数据的播放位置。

发明内容

为了解决上述技术问题，本申请提供了一种媒体数据显示方法和相关装置，从而提高用户准确控制和查找媒体数据的播放位置的可能性。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种媒体数据显示方法，所述方法包括：

针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息；所述媒体数据包括多个媒体片段，所述目标媒体片段为所述媒体数据中的任意一个媒体片段；

确定与所述目标媒体片段对应的文本信息；

为所述目标媒体片段显示所述进度控制信息和所述文本信息；

完成针对所述多个媒体片段的显示。

另一方面，本申请实施例提供了一种媒体数据显示装置，所述装置包括：

进度控制信息确定单元，用于针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息；所述媒体数据包括多个媒体片段，所述目标媒体片段为所述媒体数据中的任意一个媒体片段；

文本信息确定单元，用于确定与所述目标媒体片段对应的文本信息；

显示单元，用于为所述目标媒体片段显示所述进度控制信息和所述文本信息；

所述显示单元，还用于完成针对所述多个媒体片段的显示。

另一方面，本申请实施例提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述任意一项所述的媒体数据显示方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述任意一项所述的媒体数据显示方法。

由上述技术方案可以看出，对于包括多个媒体片段的待显示的媒体数据，针对其中的目标媒体片段，可以根据目标媒体片段的时长，确定目标媒体片段的进度控制信息。其中，目标媒体片段为媒体数据中的任意一个媒体片段。以及，确定与目标媒体片段对应的文本信息。为目标媒体片段显示进度控制信息和文本信息。并完成针对多个媒体片段的显示。该方法中将媒体数据分为多个媒体片段，并将对应的进度控制信息和文本信息分别进行显示，利于用户基于文本信息更清晰的确定每个媒体片段体现的内容，且相比于完整的媒体数据的进度控制信息，媒体片段的进度控制信息要更易精确控制，从而提高用户准确控制和查找媒体数据的播放位置的可能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种显示媒体数据的界面示意图；

图2为本申请实施例提供的一种显示媒体数据的界面示意图；

图3为本申请实施例提供的一种媒体内容显示方法流程图；

图4为本申请实施例提供的一种显示目标媒体片段的进度控制信息和文本信息的示意图；

图5a为本申请实施例提供的一种媒体数据的显示界面图；

图5b为本申请实施例提供的另一种媒体数据的显示界面图；

图6为本申请实施例提供的一种进度控制信息和文本信息对应显示的界面示意图；

图7为本申请实施例提供的一种显示媒体数据的界面示意图；

图8a为本申请实施例提供的一种修改目标媒体片段的文本信息的显示界面图；

图8b为本申请实施例提供的一种修改目标媒体片段的进度控制信息的显示界面图；

图9为本申请实施例提供的一种媒体数据显示系统结构图；

图10为本申请实施例提供的一种媒体数据显示装置结构图；

图11为本申请实施例提供的一种数据处理设备结构图；

图12为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前，在显示或播放媒体数据时，通常会同时显示该媒体数据的进度条。该种媒体数据显示方式，使得用户无法得知其进度条的各个位置处所对应的媒体数据所体现内容，最终导致用户无法通过拖动进度条上的按钮，来准确查找或控制媒体数据的播放位置。另外，参见图1，该图示出了一种显示媒体数据的界面示意图，在相关技术中，如图1所示，即使在显示媒体数据时，显示完整的媒体数据的进度条，以及显示针对该媒体数据的完整的文本信息，即媒体数据的进度条与媒体数据的完整的文本信息分开进行显示，也会出现上述技术问题。

为此，本申请实施例提供了一种媒体数据显示方法，从而提高用户准确控制和查找媒体数据的播放位置的可能性。

本申请实施例所提供的媒体数据显示方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和自然语言处理技术等方向。

例如可以涉及语音技术(Speech Technology)中的语音识别技术，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signalfrequency analyzing)、语音信号特征提取(Speech signal feature extraction)、语音信号特征匹配/识别(Speech signal feature matching/recognition)、语音的训练(Speech training)等。

例如可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)和机器翻译(Machine Translation)等，其中包括词、句切分(word/sentence segementation)、词性标注(word tagging)、语句分类(word/sentenceclassification)、译词选择(word selection)、语句生成(sentence generation)、词性变化(word-activity)、编辑输出(Editting and outputting)等。

首先，对本申请实施例的执行主体进行介绍。本申请提供的媒体数据显示方法可以通过数据处理设备执行，该数据处理设备可以是终端设备，也可以是服务器。其中，终端设备例如可以是智能手机、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑、销售终端(Point of Sales，简称POS)、车载电脑等设备。服务器可以是独立的服务器，也可以是集群中的服务器。

需要说明，当执行主体为终端设备时，该终端设备可以执行该媒体数据显示方法，且在该终端设备上显示该媒体数据。

该数据处理设备可以具有实施语音技术中自动语音识别技术(ASR)和声纹识别技术等的能力。让数据处理设备能听、能看、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在本申请实施例中，数据处理设备通过实施上述语音技术，可以对获取的媒体数据如音频数据进行语音识别，从而得到语音片段对应的文本信息等功能。

该数据处理设备还可以具有实施自然语言处理(Nature Language processing,NLP)的能力，NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在本申请实施例中，数据处理设备通过实施上述NLP技术，可以实现对前述确定的文本信息确定是否具有语法错误等。

为了便于理解本申请的技术方案，下面以服务器作为执行主体，来结合实际应用场景对本申请实施例提供的媒体数据显示方法进行介绍。

需要说明，本申请实施例所涉及的媒体数据可以是任意类型的媒体数据，如可以为音频数据、视频数据等。

参见图2，该图示出了本申请实施例提供的一种媒体数据显示方法的应用场景示意图。如图1所示，该场景中可以包括服务器201和终端设备202，该终端设备202可以是用户持有的终端设备，且用于播放媒体数据，该终端设备202可以将待显示的媒体数据发送至服务器201，由服务器201来执行该媒体数据显示方法，以使在终端设备202中显示媒体数据。

在本申请实施例中，服务器201在获取媒体数据后，可以将其分为多个媒体片段。也就是说，该媒体数据包括了多个媒体片段。例如，如图2所示，待显示的媒体数据为音频数据，服务器201在获取音频数据后，将其分为多个音频片段。

然后，服务器201可以针对该媒体数据中的每个媒体片段进行相关操作。以该媒体数据中的任意一个媒体片段作为目标媒体片段(如图2中的音频片段c)为例进行说明，针对待显示的媒体数据中的目标媒体片段，可以根据目标媒体片段的时长，确定该目标媒体片段的进度控制信息。其中，该进度控制信息可以用于基于用户的指示，控制目标媒体片段从用户的指示位置开始播放。例如，如图2所示，该进度控制信息可以为对应于目标媒体片段即音频片段的进度条，该进度控制信息以声波形式存在，且该声波形式对应于目标媒体片段的内容即声音的振幅。

另外，服务器201还可以确定与目标媒体片段对应的文本信息。该文本信息可以体现目标媒体片段的内容，例如，如图2所示，目标媒体片段的文本信息可以是该目标媒体片段(音频片段c)即音频片段所对应的文字内容，即“孙子曰：兵者，国之大事，死生之地，”。

接下来，服务器201可以将为目标媒体片段确定的进度控制信息和文本信息发送至终端设备202，以为目标媒体片段显示进度控制信息和文本信息。以及，完成针对媒体数据所包括的每个媒体片段显示对应的进度信息和文本信息，以完成针对媒体数据的显示。

该方法中将媒体数据分为多个媒体片段，并将对应的进度控制信息和文本信息分别进行显示，利于用户基于文本信息更清晰的确定每个媒体片段体现的内容，且相比于完整的媒体数据的进度控制信息，媒体片段的进度控制信息要更易精确控制，从而提高用户准确控制和查找媒体数据的播放位置的可能性。

接下来，将以服务器作为执行主体，对本申请实施例提供的媒体内容显示方法进行介绍。

参见图3，该图示出了本申请实施例提供的一种媒体内容显示方法流程图，所述方法可以包括：

S301：针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息。

其中，待显示的媒体数据可以包括多个媒体片段，目标媒体片段为媒体数据中的任意一个媒体片段。该目标媒体片段的时长可以是目标媒体片段的播放时间长度。该进度控制信息可以用于基于用户的指示，控制目标媒体片段从用户指示位置开始播放。

需要说明，本申请实施例不限定获得媒体片段的方式，可以根据实际场景或不同需求，应用适合的方式获取媒体数据，如针对正在进行录音的音频数据，可以在该录音过程中，获取该音频数据的音频片段即媒体片段，并为每次获取的媒体片段执行该S301-S303的方法，也可以在完成录音后获取音频数据，并对音频数据中的各个音频片段执行该S301-S303的方法。

本申请实施例不限定将媒体数据分成多个媒体片段的方式，如可以为媒体数据确定多个等时长的媒体片段，也可以为媒体数据确定不等时长的多个媒体片段。

在本申请实施例中，可以根据媒体数据所体现内容的连贯性，为媒体数据划分媒体片段。其中，针对持续获取的媒体数据的片段，可以识别出该片段中的内容，并根据内容连贯性，为媒体数据从该片段中确定出内容连贯的媒体片段。或者，针对完整的媒体数据，可以根据该媒体数据的内容，划分出内容连贯的媒体片段。

例如，针对媒体数据的一个片段，所对应内容为“孙子曰：兵者，国之大事，死生之地，存亡”，其中，该“存亡”与后续片段内容“之道”连续，则，根据内容连贯性，可以确定媒体片段为“孙子曰：兵者，国之大事，死生之地，”，而不将“存亡”确定至该媒体片段中。

以媒体数据为音频数据为例进行说明，假设音频数据的时长为25s，可以将其分为5个等时长即5s的音频片段即媒体片段。

S302：确定与目标媒体片段对应的文本信息。

需要说明，本申请实施例不限定该S302、确定与目标媒体片段对应的文本信息的方式，其中，在实时获取目标媒体片段的情形下，如可以对目标媒体片段进行文本识别，以直接确定该目标媒体片段对应的文本信息；另外，若已经预先为媒体数据或目标媒体片段识别出对应的文本，也可以根据该媒体数据或目标媒体片段的文本，确定出该目标媒体片段对应的文本信息。

还需说明，本申请实施例不限定S301和S302间执行的先后顺序。由于这两个步骤为并列步骤，由此可以先执行S301，再执行S302；也可以先执行S302，再执行S301；或者，也可以同时执行这两个步骤。

S303：为目标媒体片段显示进度控制信息和文本信息。

也就是说，针对目标媒体片段，可以显示其进度控制信息和文本信息。

需要说明，本申请实施例不限定该S303的执行主体，若执行上述S301-S302的方法的执行主体与显示媒体数据的执行主体不同，该S303的步骤可以由执行上述S301-S302的方法的执行主体来执行，也可以由显示媒体数据的执行主体来执行。

例如，针对上述图2的场景，服务器201在为目标媒体片段显示对应的进度控制信息和文本信息时，可以先将目标媒体片段的进度控制信息和文本信息发送至终端设备202，再由服务器201来执行S303。或者，服务器201还可以将目标媒体片段的进度控制信息和文本信息发送至终端设备202，由终端设备202来执行S303，即为目标媒体片段显示进度控制信息和文本信息。

可以理解的是，在实际场景中，在S302中识别的目标媒体片段对应的文本信息中可能具有错误文本内容。

在一种可能的实现方式中，在执行S302之后，所述方法还可以包括：

检测文本信息是否包括错误文本内容。

其中，该错误文本内容可以是文本信息中可能出现错误的文本内容。

在具体实现中，如可以通过语法检测器来检测文本信息中是否具有错误文本内容。

若检测文本信息包括错误文本内容，则，该S303中为目标媒体片段显示进度控制信息和文本信息的方法，可以包括：

在为目标媒体片段显示进度控制信息和文本信息时，标注该错误文本内容，以使错误文本内容更突出显示。参见图4，该图示出了本申请实施例提供的一种显示目标媒体片段的进度控制信息和文本信息的示意图，如图4所示，在显示目标媒体片段的进度控制信息和文本信息时，对该文本信息中的错误文本内容“笑”进行了突出显示，从而提高了用户关注错误文本内容的可能性。

S304：完成针对所述多个媒体片段的显示。

从而，媒体数据包括的每个媒体片段均通过上述S301-S303的方法进行显示。

参见图5a，该图示出了本申请实施例提供的一种媒体数据的显示界面图，如图5a所示，在录制媒体数据的过程中，为获取的各个媒体片段均进行了进度控制信息和文本信息的显示。参见图5b，该图示出了本申请实施例提供的另一种媒体数据的显示界面图，如图5b所示，在完成录制媒体数据时，该显示界面中显示了媒体数据中各个媒体片段的进度控制信息和文本信息。

需要说明，本申请实施例不限定该S304的执行主体，若执行上述S301-S302的方法的执行主体与显示媒体数据的执行主体不同，该S304的步骤可以由执行上述S301-S302的方法的执行主体来执行，也可以由显示媒体数据的执行主体来执行。

在本申请实施例中，为使用户能够更为准确的控制和查找媒体数据的播放位置，在一种可能的实现方式中，上述S301、根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息的方法，可以包括：

根据目标媒体片段的时长、所体现内容和内容对应的时序信息，确定目标媒体片段的进度控制信息。

其中，目标媒体片段所体现内容可以对应有时序信息，该时序信息可以体现目标媒体片段所体现内容在该目标媒体片段中所处的时间位置。例如，针对音频片段这一目标媒体片段，其时长为5s，其体现内容为“孙子曰：兵者，国之大事，死生之地，”，该内容对应的时序信息可以包括：针对于文字“孙”，其所处的时间位置可以为该音频片段的第0-0.5s之间，针对于文字“子”，其所处的时间位置为该音频片段的第0.5-1s之间，等等，不再赘述。

另外，根据目标媒体片段所体现内容对应的时序信息，还可以确定目标媒体片段所体现内容之间的先后关系，如文字“孙”的时间位置先于文字“子”。

由此，针对根据目标媒体片段的时长、所体现内容和内容对应的时序信息，所确定出的目标媒体片段的进度控制信息，其可以包括对应的第一时序标识。该第一时序标识可以用于标识目标媒体片段所对应内容的时序信息。例如，该第一时序标识可以标识有上述音频片段中每个文字在音频片段中所处的时间位置。

类似的，上述S302、确定与目标媒体片段对应的文本信息的方法，可以包括：

根据目标媒体片段所体现内容和内容对应的时序信息，确定目标媒体片段的文本信息。

其中，文本信息可以包括对应的第二时序标识，该第二时序标识可以用于标识该目标媒体片段所对应内容的时序信息。例如，该第二时序标识也可以标识有上述音频片段中每个文字在音频片段中所处的时间位置。

可以理解的是，根据该目标媒体片段所确定的进度控制信息中的第一时序标识，以及以此确定的文本信息中的第二时序标识，它们之间可以具有针对目标媒体片段所体现内容的关于时间位置即时序信息的匹配关系。例如，参照前述示例，针对音频片段这一目标媒体片段中的文字“孙”，在进度控制信息对应的第一时序标识标识了该文字“孙”在该音频片段处于第0-0.5s之间，且在文本信息对应的第二时序标识也标识了该文字“孙”在该音频片段处于第0-0.5s之间。可见，该第一时序标识和第二时序标识针对该音频片段中的文字“孙”具有相应的匹配关系。

由此，在本申请实施例中，在S303、为所述目标媒体片段显示所述进度控制信息和所述文本信息的方法，可以包括：

根据所述第一时序标识和所述第二时序标识间的匹配关系，为所述目标媒体片段显示进度控制信息和文本信息。

由此，可以为目标媒体片段的进度控制信息和文本信息进行对应显示。例如，参见图6，该图示出了本申请实施例提供的一种进度控制信息和文本信息对应显示的界面示意图，如图6所示，针对于目标媒体片段各个部分所体现的内容如“孙”，根据在进度控制信息对应的第一时序标识所标识的该文字“孙”在该音频片段处于第0-0.5s之间，且在文本信息对应的第二时序标识所标识的该文字“孙”在该音频片段处于第0-0.5s之间。由此，基于第一时序标识和第二时序标识间的匹配关系，将进度控制信息和文本信息一一对应显示，使得用户更清晰的确定该进度控制信息各个时刻位置处对应的内容。

通过执行该方法，更便于用户准确查看并获知目标媒体片段的各个部分所体现内容对应的文字信息，进而提高用户准确控制和查找媒体数据的播放位置的可能性。

在本申请实施例中，为了提高用户体验，可以向用户提供用于显示媒体数据的可视化控制方式，如向用户提供用于显示媒体数据的控件等。

基于此，在一种可能的实现方式中，所述方法还可以包括：

若获取针对所述媒体数据的显示指令，执行本申请实施例提供的媒体数据显示方法，即执行上述S301、针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息的步骤。

需要说明，针对媒体数据的显示指令可以是基于相关操作如用户操作触发生成的，也可以通过自动触发生成的，本申请对此不作限定。

还需说明，针对媒体数据的显示指令可以是针对媒体数据中的各个媒体片段的，也可是根据完整的媒体数据的，本申请对此不作限定。

通过执行该方法，方便用户可以基于自身需求控制显示媒体数据的时机。

在本申请实施例中，为了提高媒体数据显示效率，在一种可能的实现方式中，所述方法还可以包括：

存储所述多个媒体片段、所述多个媒体片段的进度控制信息和文本信息。

在为媒体数据存储其包括的多个媒体片段、该多个媒体片段的进度控制信息和文本信息的前提下，在一种可能的实现方式中，所述方法还可以包括：

若获取针对所述媒体数据的显示指令，根据存储的所述多个媒体片段、所述多个媒体片段的进度控制信息和文本信息，显示所述媒体数据。

参见图7，该图示出了本申请实施例提供的一种显示媒体数据的界面示意图，如图7所示，可以根据存储的媒体数据包括的多个媒体片段、多个媒体片段的进度控制信息和文本信息，显示该媒体数据。以供用户播放该媒体数据中的各个媒体片段或完整的媒体数据。这样，用户可以根据文本信息快速找到对应的音频片段，然后如通过单击等操作选择需要播放的音频片段，实现了播放用户需要播放的重点部分，避免了复杂操作，大幅度提升了查找和控制播放媒体数据的效率。

通过为媒体数据存储各个媒体片段、媒体片段对应的进度控制信息和文本信息，方便后续显示媒体数据时直接根据存储的数据直接进行显示，从而提高了媒体数据显示效率。

可以理解，实际场景中，可能出现用户需要删除目标媒体片段中的部分片段的情形等等。为此，在一种可能的实现方式中，在S303、为所述目标媒体片段显示所述进度控制信息和所述文本信息之后，所述方法还可以包括：

若获取针对所述目标媒体片段中目标显示内容的修改指令，根据所述修改指令，对所述目标显示内容进行修改。

其中，修改指令可以用于指示对目标媒体片段的目标显示内容进行修改，进行修改的方式如可以是修改内容、删除内容、增加内容等。目标显示内容可以包括目标媒体片段的进度控制信息和文本信息中的一种或多种组合，即，目标显示内容可以是进度控制信息中的部分或全部内容、或者是文本信息中的部分或全部内容，或者既包括进度控制信息中的部分或全部内容，又包括文本信息中的部分或全部内容。

需要说明，在修改目标媒体片段的进度控制信息时，还可以针对目标媒体片段和文本信息进行修改。例如，当需要删除进度控制信息的前1s时，实际也会删除目标媒体片段的前1s，以及删除该目标媒体片段的前1s的文本信息。

还需说明，针对目标媒体片段的文本信息的修改，不会对目标媒体片段和进度控制信息造成影响，即修改文本信息不会对目标媒体片段和进度控制信息进行修改。

另外，该修改指令还可以包括针对目标显示内容的待修改数据，该待修改内容可以是用于替换该目标显示内容。

下面对针对于目标媒体片段的文本信息进行修改的方式进行说明，参见图8a，该图示出了本申请实施例提供的一种修改目标媒体片段的文本信息的显示界面图，如图8a所示，用户可以进行相应操作如双击音频片段的文本信息，将文本信息中的“笑”修改为“校”。

通过执行该方法，可以根据目标媒体片段，来修改识别出的文本信息中的错误文本，以进行有效的内容编辑，保证文本信息的准确性。

下面对针对于目标媒体片段的进度控制信息进行修改的方式进行说明，参见图8b，该图示出了本申请实施例提供的一种修改目标媒体片段的进度控制信息的显示界面图，如图8b所示，用户可以通过相应操作如双击音频片段的进度控制信息，将进度控制信息中对应于文字“嗯，嗯”的音频部分删除。

在具体实现中，用户可以双击录音的声波部分，针对音频片段的部分内容进行删除操作，如删除音频片段中对应于非关键信息如口头语、连接词等信息的部分。

通过执行该方法，方便了用户对媒体数据的整理存档，保存了有效、高质量的媒体数据。

在一种可能的实现方式中，若上述目标显示内容包括文本信息，且目标媒体片段的文本信息是通过文本识别模型识别出的。则，所述方法还可以包括：

根据目标训练样本对所述文本识别模型进行迭代训练，所述目标训练样本是根据所述待修改数据和所述目标显示内容得到的。

可以理解的是，用户对文本信息进行修改后的待修改内容为准确的内容，由此，可以根据待修改数据和目标显示内容得到目标训练样本，并根据目标训练样本对文本识别模型进行迭代训练，从而可以提升文本识别模型的识别准确率。

接下来，以媒体数据为音频数据为例，并结合实际应用场景对本申请实施例提供的媒体数据显示方法进行介绍。

参见图9，该图示出了本申请实施例提供的一种媒体数据显示系统结构图，如图9所示，该媒体数据显示系统可以包括用户手持的终端设备如手机以及云端服务器，该媒体数据显示方法由该用户手持终端设备和该云端服务器共同执行。

其中，用户可以基于其手持的终端设备的录音系统如麦克风进行录音、并转化为音频数据。然后，可以将音频数据分为多个音频片段，并使每个音频片段通过该终端设备中的声波文字时序管理系统，以生成各个音频片段的以声波形式显示的进度控制信息，该进度控制信息中包括对应的第一时序标识。

相应的，在获取音频片段后，还可以将其传输到云端服务器中的流式语音识别系统进行文本信息识别，并通过时序计算系统确定文本信息的第二时序标识，以及将文本信息输入至语法检查系统即前述的语法检测器进行文本错误识别，最后将包括第二时序标识的文本信息发送至用户手持终端设备中的声波文字时序管理系统。

该声波文字时序管理系统根据第一时序标识和第二时序标识间的匹配关系，并通过该终端设备中的波形显示系统及排版显示系统，对各个音频片段的进度控制信息和文本信息进行对应显示。

其中，针对音频数据的显示如可以为前述的图5a和图5b的显示方式，可以在每一行为音频数据中对应时间段的音频片段进行显示，即显示每个音频片段的以声波形式显示的进度控制信息和文本信息。比如在第一行显示了音频数据中第0～5s的音频片段的进度控制新和文本信息，等等，不再赘述。其中，在每一行的上半部分显示进度控制信息，下半部分显示文本信息。

另外，还通过用户手持的终端设备中的存储系统，对音频数据中的各个音频片段、音频片段的进度控制信息和文本信息进行存储。

当用户需要回顾音频数据时，可以从存储系统中读入已经存储的各个音频片段、音频片段的进度控制信息和文字信息，并将进度控制信息和文字信息对应显示在用户手持终端设备的屏幕上。还可以根据终端设备中的文字音频编辑系统来对文字信息或者进度控制信息进行修改。以及将修改的待修改数据、以及对应的音频片段的目标显示内容上传到云端服务器中，以得到目标训练样本，并通过目标训练样本对流式语音识别系统中的文本识别模型进行迭代训练，以持续优化流式语音识别系统的语音识别能力。

通过执行该方法，使得用户在使用手机进行录制音频时方便看到文本信息，也可以让用户快速回顾音频数据中的关键内容，以及快速编辑文本信息，从而解决了用户痛点。

基于前述提供的媒体数据显示方法，本申请实施例还提供了一种媒体数据显示装置，参见图10，该图示出了本申请实施例提供的一种媒体数据显示装置结构图，如图10所示，所述装置包括：

进度控制信息确定单元1001，用于针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息；所述媒体数据包括多个媒体片段，所述目标媒体片段为所述媒体数据中的任意一个媒体片段；

文本信息确定单元1002，用于＝确定与所述目标媒体片段对应的文本信息；

显示单元1003，用于为所述目标媒体片段显示所述进度控制信息和所述文本信息；

所述显示单元1003，还用于完成针对所述多个媒体片段的显示。

在一种可能的实现方式中，所述进度控制信息确定单元1001，具体用于：

根据所述目标媒体片段的时长、所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的进度控制信息；所述进度控制信息包括对应的第一时序标识，所述第一时序标识用于标识所述目标媒体片段所对应内容的时序信息；

所述文本信息确定单元1002，具体用于：

根据所述目标媒体片段所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的文本信息；所述文本信息包括对应的第二时序标识，所述第二时序标识用于标识所述目标媒体片段所对应内容的时序信息；

所述显示单元1003，具体用于：

根据所述第一时序标识和所述第二时序标识间的匹配关系，为所述目标媒体片段显示所述进度控制信息和所述文本信息。

在一种可能的实现方式中，所述进度控制信息确定单元1001，还具体用于：

若获取针对所述媒体数据的显示指令，执行所述针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息的步骤。

在一种可能的实现方式中，所述显示单元1003，还具体用于：

存储所述多个媒体片段、所述多个媒体片段的进度控制信息和文本信息；

在一种可能的实现方式中，所述显示单元1003，还具体用于：

在所述为所述目标媒体片段显示所述进度控制信息和所述文本信息之后，若获取针对所述目标媒体片段中目标显示内容的修改指令，根据所述修改指令，对所述目标显示内容进行修改；

其中，所述修改指令包括针对所述目标显示内容的待修改数据，所述目标显示内容为所述目标媒体片段对应的文本信息和进度控制信息中的一种或多种组合。

在一种可能的实现方式中，所述显示单元1003，还具体用于：

若所述目标显示内容包括文本信息，且所述目标媒体片段的文本信息是通过文本识别模型识别出的，根据目标训练样本对所述文本识别模型进行迭代训练，所述目标训练样本是根据所述待修改数据和所述目标显示内容得到的。

在一种可能的实现方式中，所述显示单元1003，还具体用于：

在所述根据所述目标媒体片段所体现的内容，确定所述目标媒体片段的文本信息之后，检测所述文本信息是否包括错误文本内容；

若检测所述文本信息包括错误文本内容，在为所述目标媒体片段显示所述进度控制信息和所述文本信息时，标注所述错误文本内容。

本申请实施例还提供了一种数据处理设备。下面结合附图对数据处理设备进行介绍。请参见图11所示，本申请实施例提供了一种数据处理设备1100结构图，该数据处理设备1100可以是终端设备，以终端设备为手机为例：

图11示出的是与本申请实施例提供的手机的部分结构框图。参考图11，手机包括：射频(Radio Frequency，简称RF)电路1111、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity，简称WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路1111可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1111包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1111还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1111以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该手机所包括的处理器1180可以执行上述实施例中的步骤。

本申请实施例提供的数据处理设备可以是服务器，请参见图12所示，图12为本申请实施例提供的服务器1200的结构图，服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中的步骤也可以由服务器执行，该服务器可以基于该图12所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种媒体数据显示方法，其特征在于，所述方法包括：

针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息，所述进度控制信息包括对应的第一时序标识，所述第一时序标识用于标识所述目标媒体片段所对应内容的时序信息；所述媒体数据包括多个媒体片段，所述目标媒体片段为所述媒体数据中的任意一个媒体片段；

根据所述目标媒体片段所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的文本信息，所述文本信息包括对应的第二时序标识，所述第二时序标识用于标识所述目标媒体片段所对应内容的时序信息，所述第一时序标识与所述第二时序标识之间具有针对目标媒体片段所体现内容的时序信息的匹配关系；

根据所述第一时序标识和所述第二时序标识的匹配关系，为所述目标媒体片段将所述进度控制信息和所述文本信息一一对应显示；

完成针对所述多个媒体片段的显示，其中，将媒体数据分为多个媒体片段，每一行为媒体数据中对应时间段的媒体片段进行显示，在每一行中分为两部分对应显示每个媒体片段的进度控制信息和文本信息；

其中，所述根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息，包括：

根据所述目标媒体片段的时长、所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的进度控制信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述为所述目标媒体片段将所述进度控制信息和所述文本信息一一对应显示之后，所述方法还包括：

若获取针对所述目标媒体片段中目标显示内容的修改指令，根据所述修改指令，对所述目标显示内容进行修改；

5.根据权利要求4所述的方法，其特征在于，若所述目标显示内容包括文本信息，且所述目标媒体片段的文本信息是通过文本识别模型识别出的，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在确定与所述目标媒体片段对应的文本信息之后，所述方法还包括：

检测所述文本信息是否包括错误文本内容；

若检测所述文本信息包括错误文本内容，所述为所述目标媒体片段显示所述进度控制信息和所述文本信息，包括：

在为所述目标媒体片段显示所述进度控制信息和所述文本信息时，标注所述错误文本内容。

7.一种媒体数据显示装置，其特征在于，所述装置包括：

进度控制信息确定单元，用于针对待显示的媒体数据中的目标媒体片段，根据所述目标媒体片段的时长，确定所述目标媒体片段的进度控制信息，所述进度控制信息包括对应的第一时序标识，所述第一时序标识用于标识所述目标媒体片段所对应内容的时序信息；所述媒体数据包括多个媒体片段，所述目标媒体片段为所述媒体数据中的任意一个媒体片段；

文本信息确定单元，用于根据所述目标媒体片段所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的文本信息，所述文本信息包括对应的第二时序标识，所述第二时序标识用于标识所述目标媒体片段所对应内容的时序信息，所述第一时序标识与所述第二时序标识之间具有针对目标媒体片段所体现内容的时序信息的匹配关系；

显示单元，用于根据所述第一时序标识和所述第二时序标识的匹配关系，为所述目标媒体片段将所述进度控制信息和所述文本信息一一对应显示；

所述显示单元，还用于完成针对所述多个媒体片段的显示，其中，将媒体数据分为多个媒体片段，每一行为媒体数据中对应时间段的媒体片段进行显示，在每一行中分为两部分对应显示每个媒体片段的进度控制信息和文本信息；

其中，所述进度控制信息确定单元，具体用于根据所述目标媒体片段的时长、所体现内容和所述内容对应的时序信息，确定所述目标媒体片段的进度控制信息。

8.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的媒体数据显示方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6任意一项所述的媒体数据显示方法。