CN113722425A

CN113722425A - 数据处理方法、计算机设备及计算机可读存储介质

Info

Publication number: CN113722425A
Application number: CN202110837291.XA
Authority: CN
Inventors: 李亚丽; 邓憧; 张庆林
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-30

Abstract

本发明公开了一种数据处理方法、计算机设备及计算机可读存储介质。其中，该方法包括：对语音数据进行识别，得到文字数据；对文字数据进行分段点预测，得到分段文字；基于分段文字，提取分段标题；基于提取的分段标题，生成文字数据对应的目录。本发明解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

Description

数据处理方法、计算机设备及计算机可读存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据处理方法、计算机设备及计算机可读存储介质。

背景技术

在相关技术中，很多类型的口语场景比如演讲、会议、访谈等都有被记录的需求，也就是需要语音识别来将语音识别为文字。当用户在回看记录时，面对长篇章的口语记录常常无从下手，如何方便的读取到用户所关注的内容，快速读取到关键信息，就成了行业关注的重点。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法、计算机设备及计算机可读存储介质，以至少解决相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：对语音数据进行识别，得到文字数据；对所述文字数据进行分段点预测，得到分段文字；基于所述分段文字，提取分段标题；基于提取的所述分段标题，生成所述文字数据对应的目录。

可选地，所述对所述文字数据进行分段点预测，得到分段文字，包括：将所述文字数据输入分段预测模型进行分段点预测，得到分段文字，其中，所述分段预测模型基于多组第一样本数据训练得到，所述多组第一样本数据包括：第一样本文字，该第一样本文字的分段结果。

可选地，所述第一样本文字包括口语化的文字。

可选地，所述基于所述分段文字，提取分段标题，包括：将所述分段文字输入标题提取模型，得到所述分段标题，其中，所述标题提取模型基于多组第二样本数据训练得到，所述多组第二样本数据包括：第二样本文字，该第二样本文字的标题。

可选地，所述第二样本文字包括口语化的文字。

可选地，所述基于提取的所述分段标题，生成所述文字数据对应的目录，包括：对所述分段文字进行分段点预测，得到子分段文字；基于所述子分段文字，提取子分段标题；基于所述分段标题，所述子分段标题，生成所述文字数据对应的目录。

根据本发明实施例的另一个方面，提供了一种数据处理方法，包括：在交互界面上接收语音数据；接收目录生成指令；响应所述目录生成指令，在所述交互界面上显示文字数据对应的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对接收到的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种数据处理方法，包括：获取在预定场所召开的线下会议的语音数据；接收目录生成指令；响应所述目录生成指令，展示所述线下会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对获取到的线下会议的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种数据处理方法，包括：获取线上会议的语音数据；接收目录生成指令；响应所述目录生成指令，展示所述线上会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对接收到的线上会议的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种数据处理装置，包括：识别模块，用于对语音数据进行识别，得到文字数据；预测模块，用于对所述文字数据进行分段点预测，得到分段文字；提取模块，用于基于所述分段文字，提取分段标题；生成模块，用于基于提取的所述分段标题，生成所述文字数据对应的目录。

根据本发明实施例的另一个方面，提供了一种数据处理装置，包括：第一接收模块，用于在交互界面上接收语音数据；第二接收模块，用于接收目录生成指令；显示模块，用于响应所述目录生成指令，在所述交互界面上显示所述文字数据对应的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种数据处理装置，包括：第一获取模块，用于获取在预定场所召开的线下会议的语音数据；第三接收模块，用于接收目录生成指令；第一展示模块，用于响应所述目录生成指令，展示所述线下会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对获取到的线下会议的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种数据处理装置，包括：第二获取模块，用于获取线上会议的语音数据；第四接收模块，用于接收目录生成指令；第二展示模块，用于响应所述目录生成指令，展示所述线上会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对接收到的线上会议的语音数据进行识别得到。

根据本发明实施例的另一个方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行任意一项所述的数据处理方法。

根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行任一项所述的数据处理方法。

根据本发明实施例的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现任一项所述的数据处理方法。

在本发明实施例中，采用对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，达到了生成文字数据对应的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现数据处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例1的数据处理方法一的流程图；

图3是根据本发明实施例1的数据处理方法二的流程图；

图4是根据本发明实施例1的数据处理方法三的流程图；

图5是根据本发明实施例1的数据处理方法四的流程图；

图6是根据本发明可选实施方式提供的自动生成目录方法的流程图；

图7是根据本发明实施例2提供的数据处理装置一的结构框图；

图8是根据本发明实施例3提供的数据处理装置二的结构框图；

图9是根据本发明实施例4提供的数据处理装置三的结构框图；

图10是根据本发明实施例5提供的数据处理装置四的结构框图；

图11是根据本发明实施例的一种终端的装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

1.ASR：(Automatic Speech Recognition，自动语音识别)，将语音转换为文字。

2.NLU：(Natural Language Understanding，自然语言理解)。

3.NLG：(Natural Language Generation，自然语言生成)。

4.NLP：(Natural Language Processing，自然语言处理)，包括NLU，NLG等多种和语言处理相关的任务。

5.SLP：(Spoken Language Processing，口语语言处理)，输入为口语语言，输出为具体任务需要的结果。

6.BERT：(Bidirectional Encoder Representations from Transformers)，一种预训练语言模型，是很多NLP任务的基础底座。

7.UniLM：(Unifie Language Model Pre-training for Natural LanguageUnderstanding and Generation)，微软基于BERT(Bidirectional EncoderRepresentation from Transformers,预训练的语言表征模型)，使用了三种不同的MASK(掩码)预训练任务，例如，双向、单向、seq2seq(sequence to sequence，一种循环网络的变种模型)，使得基于预训练获取好效果的NLG成为可能。

8.主题分段：将长篇章内容按照谈论的话题进行大段分割。

9.标题生成：将大段落的口语内容提炼、抽象为一句话描述。

10.LDA：(Latent Dirichlet Allocation，主题模型)，可解决文档处理领域的问题如主题分类，文本分段等。

实施例1

根据本发明实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例1的数据处理方法一的流程图，如图2所示，该方法包括如下步骤：

步骤S202，对语音数据进行识别，得到文字数据；

步骤S204，对文字数据进行分段点预测，得到分段文字；

步骤S206，基于分段文字，提取分段标题；

步骤S208，基于提取的分段标题，生成文字数据对应的目录。

通过上述步骤，采用对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，达到了生成文字数据对应的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

作为一种可选的实施例，对语音数据进行识别，得到文字数据。其中，用于进行识别的语音数据可以为多种，例如，多种类型的实时语音场景，比如有被记录需求的演讲、会议、访谈等，多种类型的语音记录，比如录音、歌曲、视频，等等，其中，语音记录的格式也可以为多种，例如MP3(Moving Picture Experts Group Audio Layer 3)格式，WMA(WindowsMedia Audio)格式，等等。能够应用到各种各样需要进行语音记录、识别的场景中，具有很强的实用性。

作为一种可选的实施例，对于语音数据进行识别，得到文字数据之前，可以对语音数据进行翻译处理，例如，当使用的语音数据基于实时英文演讲的场景中，为了更好地回顾与学习，适应母语为中文的人的需求，可以先对语音数据进行识别，将英文转译为中文，再对中文的文字数据进行处理。保证了能够应用于更多、更广阔的使用场景中，以便用户进行更好、更便捷的学习。

作为一种可选的实施例，对文字数据进行分段点预测，得到分段文字。对分段点进行预测时，可以按照多种不同的标准划分得到的文字数据，例如，会议、访谈、讲话、事情的阐述等等各种语音数据所表达出的内容是具备一定逻辑的，由语音数据所得到的文字数据中也是具有一定的逻辑顺序的。基于此，可以选择基于语言逻辑将文字数据按语义主题进行划分；又例如，语音数据所表达出的同一内容往往是相关的，能够表达相同意义的不同表述方式也是相关的，即文字数据中相似的内容也具有一定的相关性的，基于此，可以选择基于相似内容将文字数据按内容意义进行划分，等等。可以按照不同的需求，按照特定的规则进行分段点的预测。

作为一种可选的实施例，对文字数据进行分段点预测，得到分段文字，包括：将文字数据输入分段预测模型进行分段点预测，得到分段文字，其中，分段预测模型基于多组第一样本数据训练得到，多组第一样本数据包括：第一样本文字，该第一样本文字的分段结果。采用第一样本文字，该第一样本文字的分段结果作为第一样本数据进行训练得到分段预测模型。由于训练时，可以采用大量的第一样本数据进行训练，因此，后续采用训练得到的分段预测模型对文字数据进行分段点预测时，能够准确地对文字数据所对应的分段点进行预测，从而得到分段文字，提高分段点预测的准确性，另外，采用人工智能的分段预测模型进行分段点预测，能够有效提升分段预测效率。其中，第一样本文包括口语化的文字，可以是基于数据库获得的，例如，是基于书面语的网页语料，也可以是在分段预测模型之前，采集语音数据及其对应文字数据的过程中不断实时获取的。分段预测模型通过对口语数据做自适应，保证了文字数据分段的效果，同时也是保证了对口语数据进行分段的效果。

作为一种可选的实施例，基于分段文字，提取分段标题。在划分好的分段文字中，各段文字可能代表多种相同或不同的意义、不同的语义、语境等等，此时需要提取出各分段文字中的标题，实现对各分段文字所表示的内容进行概括处理。标题的分类方式可以有多种，能够保证代表不同的分段文字即可。通过提取分段标题，能够保证用户无需阅读整个分段文字，即可获得分段文字所能表达出来的大致内容。分段文字的大致内容通过提取的标题获知，方便用户快速地获知该分段内容对自己的重要程度，即确定用户的关注度，有效地提高了获取关注信息的效率。

作为一种可选的实施例，基于分段文字，提取分段标题，包括：将分段文字输入标题提取模型，得到分段标题，其中，标题提取模型基于多组第二样本数据训练得到，多组第二样本数据包括：第二样本文字，该第二样本文字的标题。由于训练时，可以采用大量第二样本数据进行训练，因而后续采用训练得到的标题提取模型对文字数据进行标题提取，能够准确地依据文字数据对对应的标题进行提取，有效提升标题提取的精确度的问题，另外，采用人工智能的分段预测模型进行标题提取，有效地提升了标题提取的效率。

作为一种可选的实施例，标题提取模型可以基于多种提取网络，一般的提取网络有很多，例如:可以包括：基于bert-base的UniLM，等等。例如，该基于bert-base的UniLM可以是基于bert-base的UniLM的标题提取模型。需要说明的是，上述基于提取网络的标题提取模型仅仅为一种举例，没有一一举出的基于其他提取网络的标题提取模型也可应用于本申请。同样通过训练，上述标题提取模型也可以对文字中的标题进行准确地提取。基于不同的提取网络的标题提取模型，可以根据不同的需要选择，提供了选择不同方法的多样性，使用起来更加灵活，便捷，大大地提高了标题提取的适用性，选择基于不同的提取网络，适用于更多场景下的不同需求。

其中，第二样本文字包括口语化的文字，可以是基于数据库获得的，也可以是训练得到标题提取模型之前，采集语音数据及其对应文字数据的过程中不断实时获取的。标题生成中的第二样本文字，例如，口语化的文字可以是基于各公开的新闻、摘要数据，等资源。较优地，可以对其中的口语数据部分做微调等针对性的优化，一方面使得口语多样性，另一方面，提升训练样本的数量，使得训练得到的标题提取模型更优。

作为一种可选的实施例，基于提取的分段标题，生成文字数据对应的目录，包括：对分段文字进行分段点预测，得到子分段文字；基于子分段文字，提取子分段标题；基于分段标题，子分段标题，生成文字数据对应的目录。举例说明，在电学学科的演讲中，分别讲述电的起源，电学的应用，电学的扩展，等等。可以依据上述作为文字数据中的分段文字，再通过标题提取模型提取出分段文字各自的标题，即可以将其命名为电的起源，电学的应用，电学的扩展。在电的起源，电学的应用，电学的扩展内容中又包括其他内容，例如，电的起源中，不同地区的起源；电学的应用中，强电、弱电等等，电的不同学科的应用；电学的扩展内容中又可以包括与生物学、化学等领域相关的知识。可以针对各段文字中更细节的内容进行子分段，得到细节内容的子标题。即在大段切分后，生成各个不同的含有主题语义的子大段，这些子大段进行标题的提取，生成各段落相关的标题，进而针对不同的子标题，汇总成一个整体的标题，最终产出基础版本的目录。如上例，依据一场电学学科的演讲，可以得出与演讲相关电学内容的一本电子书，用户可以依据目录点击，即可获得目录的相关知识。需要说明的是，这个目录是可以递归进行下去的，生成不同级别的子标题及完整目录。用户不需要记清楚准确的关键词，而且可以从目录来定位到该用户更关注的内容，同时也可以对整个口语长篇章有更直观的感受。

需要说明的是，在对分段文字进行分段点预测，得到子分段文字时，也可以采用人工智能的方式。例如，采用上述用于对文字数据进行分段点预测的分段预测模型对分段文字进行分段点预测，得到子分段文字。也可以采用对上述分段预测模型进行调整后得到的模型对分段文字进行分段点预测，得到子分段文字。在对分段预测模型进行调整时，由于分段文字是从文字数据中分段得到的，因此，文字数据也分段文字的区别仅在于片幅的大小不同，因此，在对分段预测模型进行调整时，可以仅对分段预测模型的片幅参数进行适应调整，使得调整参数后的模型更适应于小片幅的文字的分段点预测。

另外，基于子分段文字，提取子分段标题时，也可以采用人工智能的处理方式。例如，也可以采用上述对分段文字进行标题提取，得到分段标题的标题提取模型对该子分段文字进行标题提取，得到子分段标题。当然，为进一步地提升提取子分段标题的效率，也可以对上述标题提取模型进行调整，即对应调整片幅参数，使得调整参数后的模型更适应于小片幅文字的标题提取。

作为一种可选的实施例，在基于分段标题，子分段标题，生成文字数据对应的目录时，由于对文字数据进行分段，得到分段文字，以及对分段文字进行分段得到子分段文字，以及可以再分得到次子分段文字等时，得到的分段文字，子分段文字，以及再分得到的次子分段文字等之间具备一定的层级结构。分段文字对应于分段标题，子分段文字对应于子分段标题，次子分段文字对应于次子分段标题，等，依据文字与标题的对应关系，标题之间也具备与文字相同的层级结构，因此，各个标题，结合各个标题之间的层级结构，即可生成目录。

图3是根据本发明实施例1的数据处理方法二的流程图，如图3所示，该方法包括如下步骤：

步骤S302，在交互界面上接收语音数据；

步骤S304，接收目录生成指令；

步骤S306，响应目录生成指令，在交互界面上显示文字数据对应的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的语音数据进行识别得到。

通过上述步骤，通过在交互界面上接收语音数据，接收并响应文字识别指令，对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，再通过接收并响应目录生成指令的方式，达到了生成文字数据对应的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

图4是根据本发明实施例1的数据处理方法三的流程图，如图4所示，该方法包括如下步骤：

步骤S402，获取在预定场所召开的线下会议的语音数据；

步骤S404，接收目录生成指令；

步骤S406，响应目录生成指令，展示线下会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对获取到的线下会议的语音数据进行识别得到。

通过上述步骤，通过在预定场所召开的线下会议的语音数据，对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，再通过接收并响应目录生成指令的方式，达到了生成文字数据对应预定场所召开的线下会议的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

在一个可选的实施例中，上述预定场所召开的线下会议可以是多种类型的，例如，可以是多人参与的礼堂会议，办公室会议，操场会议，会议室会议等。该线下会议可以通过预定的语音采集设备采集会议上的语音数据，包括：发言的语音数据，会议上讨论的语音数据等。

图5是根据本发明实施例1的数据处理方法四的流程图，如图5所示，该方法包括如下步骤：

步骤S502，获取线上会议的语音数据；

步骤S504，接收目录生成指令；

步骤S506，响应目录生成指令，展示线上会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的线上会议的语音数据进行识别得到。

通过上述步骤，通过获取线上会议的语音数据，接收并响应目录生成指令，对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，达到了生成文字数据对应线上会议的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

在一个可选的实施例中，上述线上会议可以是通过预定的会议软件召开的会议，也可以是多种类型的，例如，可以是多人参与的视频会议，语音会议，直播会议等。该线下会议可以通过该预定的会议软件采集会议上的语音数据，包括：发言的语音数据，会议上讨论的语音数据等。

基于上述实施例及可选实施例，提供一种可选实施方式，下面具体说明。

相关技术中，用户回忆定位方式都是使用搜索，但采用相关技术中的使用搜索方式时，会出现以下问题：

1)搜索前提是用户能记得关键词，

2)搜索到关键词相关位置，得到的是整篇文章大概内容的简略描述，前后大段都的大致或具体的描述信息，没有直观的感知。

基于此，在本发明可选实施方式中，提出了自动生成目录(例如，大段落子标题)来帮助用户回看长篇口语记录，准确的找到其关注的主题大段，并且使用语义切分主题大段与大段标题生成的思路来生成目录，引入口语自适应的方法来提升口语的分段及标题生成效果。下面对本发明可选实施方式进行详细说明。

图6是根据本发明可选实施方式提供的自动生成目录方法的流程图，如图6所示；

S1，输入为长篇章口语数据，比如，4个小时的会议数据，访谈数据，长篇演讲数据等。

S2，对输入的长篇章口语数据进行基于语义主题的大段切分，其中方法包括，基于滑动窗口的序列模型进行序列预测大段分段点，基于LDA主题预测切分等。其中训练数据多是基于书面语的网页语料，其中，算法都需要对口语数据做自适应，保证文字数据与口语数据的分段效果。

S3，经过语义主题大段落切分后，会生成各个不同的含有主题语义的子大段，这些子大段都会分别经过标题生成模块，生成各段落相关的标题，标题生成中采用的基于bertbase的UniLM方法,其中，训练数据可以是基于各公开的新闻、摘要数据等资源。优选地，可以对口语数据部分做微调(finetune)等针对性的优化，并且改进源码提高标题提取的效率，使得适用于各方面的应用，例如，工业应用。

S4，针对不同的子标题，会汇总成一个整体的标题，产出基础版本的目录。需要说明的是，这个目录是可以递归进行下去的，生成不同级别的子标题及完整目录。

通过上述可选实施方式，可以达到以下有益效果：

(1)用户不需要记清楚准确的关键词，而是可以从目录(例如，主题大段落与标题生成)来定位到该用户更关注的内容；

(2)对整个口语长篇章有更直观的感受。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置一，图7是根据本发明实施例2提供的数据处理装置一的结构框图，如图7所示，该装置包括：识别模块702，预测模块704，提取模块706和生成模块708，下面对该装置进行说明。

识别模块702，用于对语音数据进行识别，得到文字数据；预测模块704，连接于上述识别模块702，用于对文字数据进行分段点预测，得到分段文字；提取模块706，连接于上述预测模块704，用于基于分段文字，提取分段标题；生成模块708，连接于上述提取模块706，用于基于提取的分段标题，生成文字数据对应的目录。

此处需要说明的是，上述识别模块702，预测模块704，提取模块706和生成模块708，对应于实施例1中的步骤S202至步骤S208，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置二，图8是根据本发明实施例3提供的数据处理装置二的结构框图，如图8所示，该装置包括：第一接收模块802，第二接收模块804和显示模块806，下面对该装置进行说明。

第一接收模块802，用于在交互界面上接收语音数据；第二接收模块804，连接于上述第一接收模块802，用于接收目录生成指令；显示模块806，连接于上述第二接收模块804，用于响应目录生成指令，在交互界面上显示文字数据对应的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的语音数据进行识别得到。

此处需要说明的是，上述第一接收模块802，第二接收模块804和显示模块806，对应于实施例1中的步骤S302至步骤S306，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例4

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置三，图9是根据本发明实施例4提供的数据处理装置三的结构框图，如图9所示，该装置包括：第一获取模块902，第三接收模块904和第一展示模块906，下面对该装置进行说明。

第一获取模块902，用于获取在预定场所召开的线下会议的语音数据；第三接收模块904，连接于上述第一获取模块902，用于接收目录生成指令；第一展示模块906，连接于上述第三接收模块904，用于响应目录生成指令，展示线下会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对获取到的线下会议的语音数据进行识别得到。

此处需要说明的是，上述第一获取模块902，第三接收模块904和第一展示模块906，对应于实施例1中的步骤S402至步骤S406，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例5

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置四，图10是根据本发明实施例5提供的数据处理装置四的结构框图，如图10所示，该装置包括：第二获取模块1002，第四接收模块1004和第二展示模块1006，下面对该装置进行说明。

第二获取模块1002，用于获取线上会议的语音数据；第四接收模块1004，连接于上述第二获取模块1002，用于接收目录生成指令；第二展示模块1006，连接于上述第四接收模块1004，用于响应目录生成指令，展示线上会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的线上会议的语音数据进行识别得到。

此处需要说明的是，上述第二获取模块1002，第四接收模块1004和第二展示模块1006，对应于实施例1中的步骤S502至步骤S506，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例6

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备，图11是根据本发明实施例的一种终端的装置框图。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的数据处理方法中以下步骤的程序代码：对语音数据进行识别，得到文字数据；对文字数据进行分段点预测，得到分段文字；基于分段文字，提取分段标题；基于提取的分段标题，生成文字数据对应的目录。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：对语音数据进行识别，得到文字数据；对文字数据进行分段点预测，得到分段文字；基于分段文字，提取分段标题；基于提取的分段标题，生成文字数据对应的目录。

可选的，上述处理器还可以执行如下步骤的程序代码：对文字数据进行分段点预测，得到分段文字，包括：将文字数据输入分段预测模型进行分段点预测，得到分段文字，其中，分段预测模型基于多组第一样本数据训练得到，多组第一样本数据包括：第一样本文字，该第一样本文字的分段结果。

可选的，上述处理器还可以执行如下步骤的程序代码：第一样本文字包括口语化的文字。

可选的，上述处理器还可以执行如下步骤的程序代码：基于分段文字，提取分段标题，包括：将分段文字输入标题提取模型，得到分段标题，其中，标题提取模型基于多组第二样本数据训练得到，多组第二样本数据包括：第二样本文字，该第二样本文字的标题。

可选的，上述处理器还可以执行如下步骤的程序代码：第二样本文字包括口语化的文字。

可选的，上述处理器还可以执行如下步骤的程序代码：基于提取的分段标题，生成文字数据对应的目录，包括：对分段文字进行分段点预测，得到子分段文字；基于子分段文字，提取子分段标题；基于分段标题，子分段标题，生成文字数据对应的目录。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在交互界面上接收语音数据；接收目录生成指令；响应目录生成指令，在交互界面上显示文字数据对应的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的语音数据进行识别得到。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取在预定场所召开的线下会议的语音数据；接收目录生成指令；响应目录生成指令，展示线下会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对获取到的线下会议的语音数据进行识别得到。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取线上会议的语音数据；接收目录生成指令；响应目录生成指令，展示线上会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的线上会议的语音数据进行识别得到。

采用本发明实施例，提供了一种数据处理的方案，采用对从语音数据中得到的文字数据进行分段点预测的方式得到分段文字，并对分段文字的分段标题进行提取，达到了生成文字数据对应的目录的目的，从而实现了自动识别语音数据中分段标题及对应目录的技术效果，进而解决了相关技术中在获取语音数据中的关注内容，存在获取效率低的技术问题。

本领域普通技术人员可以理解，图11中所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

根可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对语音数据进行识别，得到文字数据；对文字数据进行分段点预测，得到分段文字；基于分段文字，提取分段标题；基于提取的分段标题，生成文字数据对应的目录。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对文字数据进行分段点预测，得到分段文字，包括：将文字数据输入分段预测模型进行分段点预测，得到分段文字，其中，分段预测模型基于多组第一样本数据训练得到，多组第一样本数据包括：第一样本文字，该第一样本文字的分段结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：第一样本文字包括口语化的文字。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于分段文字，提取分段标题，包括：将分段文字输入标题提取模型，得到分段标题，其中，标题提取模型基于多组第二样本数据训练得到，多组第二样本数据包括：第二样本文字，该第二样本文字的标题。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：第二样本文字包括口语化的文字。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于提取的分段标题，生成文字数据对应的目录，包括：对分段文字进行分段点预测，得到子分段文字；基于子分段文字，提取子分段标题；基于分段标题，子分段标题，生成文字数据对应的目录。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在交互界面上接收语音数据；接收目录生成指令；响应目录生成指令，在交互界面上显示文字数据对应的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的语音数据进行识别得到。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取在预定场所召开的线下会议的语音数据；接收目录生成指令；响应目录生成指令，展示线下会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对获取到的线下会议的语音数据进行识别得到。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取线上会议的语音数据；接收目录生成指令；响应目录生成指令，展示线上会议的目录，其中，目录依据分段标题生成，分段标题基于分段文字提取得到，分段文字通过对文字数据进行分段点预测得到，文字数据通过对接收到的线上会议的语音数据进行识别得到。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

对语音数据进行识别，得到文字数据；

对所述文字数据进行分段点预测，得到分段文字；

基于所述分段文字，提取分段标题；

基于提取的所述分段标题，生成所述文字数据对应的目录。

2.根据权利要求1所述的方法，其特征在于，所述对所述文字数据进行分段点预测，得到分段文字，包括：

将所述文字数据输入分段预测模型进行分段点预测，得到分段文字，其中，所述分段预测模型基于多组第一样本数据训练得到，所述多组第一样本数据包括：第一样本文字，该第一样本文字的分段结果。

3.根据权利要求2所述的方法，其特征在于，所述第一样本文字包括口语化的文字。

4.根据权利要求1所述的方法，其特征在于，所述基于所述分段文字，提取分段标题，包括：

将所述分段文字输入标题提取模型，得到所述分段标题，其中，所述标题提取模型基于多组第二样本数据训练得到，所述多组第二样本数据包括：第二样本文字，该第二样本文字的标题。

5.根据权利要求4所述的方法，其特征在于，所述第二样本文字包括口语化的文字。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于提取的所述分段标题，生成所述文字数据对应的目录，包括：

对所述分段文字进行分段点预测，得到子分段文字；

基于所述子分段文字，提取子分段标题；

基于所述分段标题，所述子分段标题，生成所述文字数据对应的目录。

7.一种数据处理方法，其特征在于，包括：

在交互界面上接收语音数据；

接收目录生成指令；

响应所述目录生成指令，在所述交互界面上显示文字数据对应的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对接收到的语音数据进行识别得到。

8.一种数据处理方法，其特征在于，包括：

获取在预定场所召开的线下会议的语音数据；

接收目录生成指令；

响应所述目录生成指令，展示所述线下会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对获取到的线下会议的语音数据进行识别得到。

9.一种数据处理方法，其特征在于，包括：

获取线上会议的语音数据；

接收目录生成指令；

响应所述目录生成指令，展示所述线上会议的目录，其中，所述目录依据分段标题生成，所述分段标题基于分段文字提取得到，所述分段文字通过对文字数据进行分段点预测得到，所述文字数据通过对接收到的线上会议的语音数据进行识别得到。

10.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至9中任意一项所述的数据处理方法。

11.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至9中任一项所述的数据处理方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的数据处理方法。