CN112183084A

CN112183084A - 一种音视频数据处理方法和装置及设备

Info

Publication number: CN112183084A
Application number: CN202010929123.9A
Authority: CN
Inventors: 许开拓
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-05
Anticipated expiration: 2040-09-07
Also published as: CN112183084B

Abstract

本公开提供一种音视频数据处理方法和装置及设备，该方法包括：接收音视频数据流，提取所述音视频数据流中的语音数据，得到包括多个语义单元的文本序列；将所述多个语义单元转换为对应的词向量；利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号。利用本公开提供的方法，在音视频数据处理时，可以并行处理文本中的词语确定是否断句，提高显示语音内容的精确度并提高了处理效率。

Description

一种音视频数据处理方法和装置及设备

技术领域

本公开涉及网络视频技术领域，特别涉及一种音视频数据处理方法和装置及设备。

背景技术

目前登录网络视频平台上传网络视频的应用越来越广泛，与之相关的网络视频编辑也越来越流行，对于网络视频编辑的应用程序中，自动为网络视频加字幕的需求也随之增加。字幕是指在视频播放时，对网络视频中的语音信息进行文字识别，并将识别的文字进行断句后与视频数据同步在屏幕上进行显示，自动加字幕可以提升显示效果，适用于更多观看视频的场景，如在嘈杂的环境中或需要静音的环境中也能获得视频中的信息。

目前对上传的视频自动加字幕的方式为，通过语音识别技术(ASR，AutomaticSpeech Recognition)将网络视频中的语音数据转为文字，并且将文字与其在视频中对应的时间段对应起来，从而生成字幕。但是语音识别技术得到的文本序列一般是没有进行断句的。目前主要采用以下两种进行断句：

1)通过声音活动检测(VAD，Voice Activity Detection)进行断句。

对于有进行断句的语音识别文本，通过声音活动检测(VAD)技术检测到较长静音后将句子断开。

2)利用序列建模方式进行断句。

对未断句文本进行自动加标点，然后将标点处设置为断句。以流行的自动加标点技术为例，主要使用循环神经网络(RNN)这一类网络对未加标点的文本进行自动加标点。

具体的过程为从音视频数据流中提取语音数据，对提取的语音数据进行字词识别得到文本序列，对文本序列进行语义单元识别，将识别得到的多个词转换为对应的词向量，将词向量依次输入到RNN，以标注的词向量后是否有标点为结果进行RNN网络模型训练，利用训练好的RNN判断是否在字词后面加上标点。

由于RNN网络模型在序列建模时，时间t的计算依赖t-1时刻的计算结果，这样限制了模型的并行能力。其他的网络模型如长短期记忆网络(LSTM，Long Short-Term Memory)、门控循环单元网络(GRU，Gated Recurrent Unit)也存在同样的问题。

可见，目前的采用序列建模方式进行断句的方案，存在难以并行处理，且由于顺序计算的过程中信息会丢失精确度不高的问题。

发明内容

本公开提供了一种音视频数据处理方法和装置及设备，可以解决现有的采用序列建模方式进行断句的方案，存在难以并行处理，且由于顺序计算的过程中信息会丢失精确度不高的问题。

第一方面，本公开提供一种音视频数据处理的方法，该方法包括：

接收音视频数据流，提取所述音视频数据流中的语音数据，得到包括多个语义单元的文本序列；

将所述多个语义单元转换为对应的词向量；

利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；

根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号。

可选地，所述分多级预测各个词向量对该词向量上下文的依赖程度，包括如下至少一个步骤：

根据利用词库中不同语义单元所在的句式，对不同语义单元进行的全局上下文依赖程度，计算各词向量对该词向量的全局上下文的依赖程度；

根据利用库存中不同语义单元在句式中前后的局部上下文，对不同语义单元进行的局部上下文依赖程度，计算各词向量对该词向量的局部上下文的依赖程度。

可选地，所述计算各词向量对该词向量的全局上下文的依赖程度，包括：

根据对词库中不同语义单元进行全局上下文依赖程度，确定多头自注意力机制的相关参数；

利用多头自注意力机制，对各词向量对该词向量的全局上下文的依赖程度进行特征提取。

可选地，所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

根据对词库中不同语义单元进行局部上下文依赖程度，确定卷积网络进行卷积运算的相关参数；

利用卷积网络采用卷积算法，对各词向量对该词向量的局部上下文的依赖程度进行特征提取。

可选地，不同的预测方式中，采用的多头自注意力机制中的相关参数不同。

可选地，不同的预测方式中，卷积网络进行卷积运算的相关参数不同。

可选地，所述计算各词向量对该词向量的全局上下文的依赖程度，或所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

利用包括线性函数和非激活函数的前向反馈FFN网络，将各词向量对该词向量的局部上下文的依赖程度进行深度特征处理。

可选地，所述根据最后一级输出的预测结果，确定需要附加标点符号的词向量，包括：

对最后一级输出的各词向量对该词向量的局部上下文的依赖程度的特征数据进行线性组合，得到组合后的向量；

对组合后的向量利用softmax函数，预测各词向量是否需要附加标点符号的概率。

可选地，将所述多个语义单元转换为对应的词向量，包括：

根据预先建立的词库中不同语义单元对应的编码值，将所述多个语义单元对应的编码值作为对应的词向量。

可选地，所述对词库中不同语义单元间时间依赖关系，为通过以为输入不同句式中语义单元对应的词向量为输入特征，以输出句式中标注的标点符号为目标，对网络模型参数进行训练的序列建模结果。

可选地，所述网络模型为转换器网络模型或卷积增强转换器网络模型。

第二方面，本公开提供一种音视频数据处理的设备，包括存储器和处理器，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的程序并执行如下任一所述的显示音视频数据中语音内容的方法，包括：

将所述多个语义单元转换为对应的词向量；

可选地，所述处理器分多级预测各个词向量对该词向量上下文的依赖程度，包括如下至少一个步骤：

可选地，所述处理器计算各词向量对该词向量的全局上下文的依赖程度，包括：

可选地，所述处理器计算各词向量对该词向量的局部上下文的依赖程度，包括：

可选地，所述处理器计算各词向量对该词向量的全局上下文的依赖程度，或所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

可选地，所述处理器根据最后一级输出的预测结果，确定需要附加标点符号的词向量，包括：

可选地，所述处理器将所述多个语义单元转换为对应的词向量，包括：

第三方面，本公开提供一种音视频数据处理的装置，包括：

文字处理单元，用于接收音视频数据流，提取所述音视频数据流中的语音数据，得到包括多个语义单元的文本序列；

词向量转换单元，用于对将所述多个语义单元转换为对应的词向量；

预测单元，利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；

输出单元，用于根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号。

可选地，所述预测单元分多级预测各个词向量对该词向量上下文的依赖程度，包括如下至少一个步骤：

可选地，所述预测单元计算各词向量对该词向量的全局上下文的依赖程度，包括：

可选地，所述预测单元计算各词向量对该词向量的局部上下文的依赖程度，包括：

可选地，不同的预测方式中，预测单元采用的多头自注意力机制中的相关参数不同。

可选地，不同的预测方式中，预测单元中卷积网络进行卷积运算的相关参数不同。

可选地，所述预测单元计算各词向量对该词向量的全局上下文的依赖程度，或所述预测单元计算各词向量对该词向量的局部上下文的依赖程度，包括：

可选地，所述输出单元根据最后一级输出的预测结果，确定需要附加标点符号的词向量，包括：

可选地，词向量转换单元将所述多个语义单元转换为对应的词向量，包括：

第四方面，本公开提供一种计算机程序介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的任一所述方法的步骤。

利用本公开提供的音视频数据处理方法和装置及设备，由于预先确定词库中不同语义单元间上下文依赖程度的结果，在接收到音视频数据流时可以根据该结果确定当前语义单元间上下文依赖程度，采用分多级预测一方面可以实现并行处理多个词向量，提高处理效率，另一方面可以获得更准确的预测结果。

附图说明

图1为本公开实施例的一个应用场景的示意图；

图2为本公开实施例提供的一种音视频编辑系统的示意图；

图3为本公开实施例提供的一种音视频编辑方法流程图；

图4为本实施例中Transformer网络模型中隐层结构示意图；

图5为应用Transform网络模型确定是否附加标点符号的流程示意图；

图6为Conformer网络模型中的一个Conformer Block结构图；

图7为FFN模块的内部结构示意图；

图8为多头自注意力机制MHSA模块结构示意图；

图9为卷积模块内部结构示意图；

图10为应用Conformer网络模型确定是否对词语附加标点符号的流程示意图；

图11为一种显示音视频数据中的语音内容的设备的结构示意图；

图12为一种显示音视频数据中的语音内容的装置的单元示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(2)本公开实施例中术语“电子设备”可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

(3)本公开实施例中术语“短视频”是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，几秒到几分钟不等。内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于内容较短，可以单独成片，也可以成为系列栏目。

(3)本公开实施例中术语“FFN”(FeedForward Network，前馈神经网络)，也叫多层感知机，没有循环，单向传播，是最简单的神经网络。它是一种最简单的万能逼近器，一般用于特征提取。

(4)本公开实施例中术语“MHSA”(Multi-Head Self Attention Module，多头自注意力模块)，MHSA是进行了h次计算而不仅仅算一次Multi-headed self-attention，也就是所谓的多头，每一次算一个头。Query，Key，Value首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息。

(5)本公开实施例中术语“客户端”，或称为用户端，是指与服务器相对应的，为用户提供本地服务的程序。除了一些只在本地运行的应用程序之外，一般安装在普通的客户机上，需要与服务端互相配合运行。

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

图1为根据本公开实施例的一个应用场景的示意图。

如图1所示，该应用场景中可以包括至少一个服务器20和多个终端设备30。其中，终端设备30可以是可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。服务器20则是能够通过网络访问的提供交互服务所需信息的任何服务器。终端设备30可以经由网络40实现与服务器20的信息收发。服务器20可以通过访问数据库50来获取终端设备30所需的内容，例如模型参数、广告内容、索引文件等。终端设备之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

在随后的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和数据库50旨在表示本申请的技术方案涉及终端设备、服务器及数据库的操作。对单个终端设备以及单个服务器和数据库加以详述至少为了说明方便，而非暗示对终端设备和服务器的类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本公开的示例实施例的底层概念。另外，虽然为了方便说明而在图中示出了从数据库50到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

音视频编辑可以应用在展示音视频的应用程序上，用户触发页面展示请求后，应用程序将编辑后的音视频展示给用户。以音视频编辑的对象为短视频介绍短视频编辑流程：

服务器接收客户端通过网络视频平台上传的短视频数据，提取所述短视频数据流中的语音数据，得到文本序列；对所述文本序列进行语义单元识别，得到多个语义单元；确定是否在语义单元后面加上对应的标点符号；根据确定结果，在文本序列中对应的语义单元位置附加标点符号。

RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络，神经网络包含输入层、隐层、输出层，在标准的RNN结构中，隐层的神经元之间也是带有权值的。利用RNN进行序列建模判断是否对上述词语进行断句的方案，存在以下两个问题：

时间片t的计算依赖t-1时刻的计算结果，这样限制了模型的并行能力；顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。

基于上述问题，如图2所示，本公开实施例提供一种音视频编辑系统，包括客户端21、服务器22以及用户23。客户端21为安装在电子设备上的应用程序客户端，与服务器22配合为用户23提供服务，用户23可以查看客户端21展示的内容，或触发客户端21上支持的操作。

本公开实施例中，响应于用户23在客户端21上传音视频操作，客户端21向服务器22发送录制的音视频数据流，服务器22接收客户端21上传的接收音视频数据流，提取所述音视频数据流中的语音数据，得到包括多个语义单元的文本序列；将所述多个语义单元转换为对应的词向量；利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号。

服务器对上述音视频数据流中的语音内容增加标点符号后，保存编辑后的音视频数据流，可以实时将编辑后的音视频数据流发送给相应的客户端进行显示，该场景为视频直播场景；也可以在保存音视频数据流后，响应于其他客户端的音视频展示请求，将编辑后的音视频数据发送到对应的客户端进行显示，该场景为视频推荐场景。下面给出本公开实施例提供的音视频数据处理方法和装置及设备的实施方式。

实施例1

如图3所示，为本公开实施例提供的一种音视频编辑方法流程图，该方法应用于提供网络视频的服务器，主要包括如下步骤：

步骤S301，接收音视频数据流，提取所述音视频数据流中的语音数据，得到包括多个语义单元的文本序列；

可以采用音视频分流技术从音视频数据流中提取语音数据，利用自动语音识别技术(Automatic Speech Recognition，ASR)对语音数据进行文字识别。具体的语音识别过程为现有过程，这里不再详述。利用语音识别技术对语音数据进行文字识别后得到的是连续的时间序列文本。语音识别技术仅能识别语音数据对应的语义单元，并按照识别出的时间将语义单元组合成文本序列，但并不能对文本序列进行断句。

需要说明的是上述语义单元为文本序列中能够表达语义的最小单元，可以理解为词语，例如，构成“我爱你中国”文本序列的语义单元为“我”、“爱”、“你”、“中国”。

服务器可以通过音视频数据上传平台接收不同客户端上传的音视频数据，该音视频上传平台可以是任意的能够接收音视频数据流且支持语音内容显示的网络视频编辑平台。音视频的数据流的文件格式可以是选用的网络视频编辑平台支持的任意文件格式，如音频视频交错格式(AVI，Audio Video Interleaved)、流媒体格式(FLV，FLASH VIDEO)、动态图像专家组(MP4，Moving Picture Experts Group 4)等。

步骤S302，将所述多个语义单元转换为对应的词向量；

通过将多个语义单元转换为对应的词向量，可以使服务器的处理器理解该词向量对应的语义单元。可以预先建立包括多个语义单元的语义单元表，并存储语义单元表中每个语义单元对应的编码值。编码值可以由多个比特位组成，编码值占用的比特位数与语义单元表中语义单元的数量有关，一个语义单元唯一对应一个编码值。

在进行词向量转换时，根据预先建立的语义单元表中不同语义单元对应的编码值，将所述多个语义单元对应的编码值作为对应的词向量。

步骤S303，利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；

本实施方式中的词库中的不同语义单元来自于不同的句式，这里的句式为标注标点符号的句式，标点符号可以是各类标点符号，如逗号，句号和问号等。本实施例中服务器预先搜集大量的句式样本，对于一个带标点符号的句式来说，句式中包括多个语义单元，对于后面没有标点符号的语义单元，该语义单元对应的对上下文依赖程度相对较大，对于后面带标点符号的语义单元，该语义单元对应的对上下文依赖程度较小。例如对于“你好吗”，该句式中包括两个语义单元“你好”和“吗”之间的上下文依赖关系程度比较大，而对于“你好，北京”，该句式中包括两个语义单元“你好”和“北京”之间的上下文依赖关系程度较小，本实施例中预先通过大量的句式样本，确定句式中不同语义单元间的依赖程度，从而建立相应的词库并得到词库中不同语义单元间的依赖程度的计算结果。

本公开实施例中利用对词库中不同语义单元间上下文依赖程度，在接收到新的文本序列时，根据文本序列中的语义单元及语义单元间的时间顺序，可以确定各个语义单元的上下文，这里的上下文包括该语义单元之前和/或之后的至少一个语义单元，根据词库中不同语义单元间上下文依赖程度，可以预测当前各语义单元对该语义单元上下文依赖程度。

本实施例中上述词库中的语义单元与语义单元表的语义单元可以相同，也可以不同。

在进行上下文依赖程度预测时，本实施例中采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度。这里不同的预测方式，本领域技术人员可以理解为不同的匹配/逼近计算方法，在每一级利用对应的匹配方法进行计算时，除了需要利用该匹配方法对该词向量进行上下文依赖程度计算，还进一步参考上一级输出的各词向量对上下文依赖程度的计算结果，从而使预测结果更准确。

步骤S304，根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号。

最后一级输出的预测结果可以较为准确的反应文本序列中各语义单元对应的上下文依赖程度，根据各语义单元对其上下文的依赖程度，确定是否需要附加标点符号的概率，其中对上下文依赖程度越高，附加标点符号的概率越低，对上下文依赖程度越低，附加标点符号的概率越高。确定其中任一词向量之后需要附加标点符号时，在文本序列中对应的语义单元位置附加标点符号。

服务器在将文本序列中对应的语义单元位置附加标点符号后，可以将对应的音视频数据进行保存，采用实时播放或者延时播放的方式，响应于客户端的播放请求，播放带着字幕的音视频数据。

本公开实施例所提供的音视频数据处理方法，能够实现对文本序列中语义单元进行并行处理预测是否进行断句，相比其他方法一方面提升了断句的准确性，另一方面提高了处理效果，对于实施播放音视频的场景，使自动加字幕的输出效率更高。

作为一种可选的实施方式，本公开实施例中不同级之间采用的计算语义单元间依赖程度的计算方式相同，但采用同一计算方式时所使用的参数取值不同，在每一级预测各个词向量对该词向量上下文的依赖程度时，可以采用全局预测方式和/或局部预测方式，具体预测方式如下：

方式一、全局预测方式

根据利用词库中不同语义单元所在的句式，对不同语义单元进行全局上下文依赖程度，计算各词向量对该词向量的全局上下文的依赖程度。

全局预测方式中，预先通过不同的句式样本，根据样本中一个完整的句式中各语义单元，及该语义单元在句式中的全局上下文，确定各词向量对该词向量的全局上下文的依赖程度。即对于一个完整的句式，需要考虑的是每个词对于该句话中所有其他语义单元的上下文依赖关系，例如对于句式“我给大家推荐几个美食”，对于语义单元“大家”需要考虑其对语义单元“我”“给”“推荐”“几个”“美食”的依赖关系。

作为一种可选的实施方式，上述全局预测方式可以通过自注意力机制计算方式进行预测，根据对词库中不同语义单元进行全局上下文依赖程度，确定多头自注意力机制的相关参数，使利用该多头自注意力机制的相关参数进行词库中语义单元间的上下文依赖程度计算时，逼近句式样本依赖关系的结果；

方式二、局部预测方式

根据利用库存中不同语义单元在句式中前后的局部上下文，对不同语义单元进行局部上下文依赖程度，计算各词向量对该词向量的局部上下文的依赖程度。

局部预测方式中，预先通过不同的句式样本，根据样本中一个完整的句式中各语义单元，及该语义单元在句式中局部上下文，确定各词向量对该词向量的局部上下文的依赖程度。即对于一个完整的句式，需要考虑的是每个词对于该句话中与其相邻的语义单元的上下文依赖关系，例如对于句式“我给大家推荐几个美食”，对于语义单元“大家”需要考虑其对语义单元“给”“推荐”的依赖关系。

作为一种可选的实施方式，根据对词库中不同语义单元进行局部上下文依赖程度，确定卷积网络进行卷积运算的相关参数，使利用卷积运算的相关参数进行词库中语义单元间的上下文依赖程度计算时，逼近句式样本依赖关系的结果；

在每一级对词库中不同语义单元间上下文依赖程度计算时，可以采用上述方式中的任一种或者组合，但各级之间的采用的方式是相同的，如果各级采用了多头自注意力机制进行上下文依赖关系计算，不同的是各级之间采用的多头自注意力机制中的相关参数不同；如果各级利用了卷积网络采用卷积算法进行上下文依赖关系计算，不同的是各级之间采用的卷积网络进行卷积运算的相关参数不同。

作为一种可选的实施方式，所述计算各词向量对该词向量的全局上下文的依赖程度，或所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

上述通过自注意力机制或者卷积算法确定词向量对上下文的依赖程度，为对依赖程度进行特征提取的过程，本实施例中通过FFN对提取的特征进行深度处理，得到更为高级的特征数据，从而更准确地逼近词向量对上下文的依赖程度。

最后一级输出的进行依赖程度预测结果为最终得到的特征数据，需要通过该特征数据预测各词向量是否需要附加标点符号的概率，根据最后一级输出的预测结果，确定需要附加标点符号的词向量，包括：

作为一种可选的实施方式，所述对词库中不同语义单元间时间依赖关系，为通过以为输入不同句式中语义单元对应的词向量为输入特征，以输出句式中标注的标点符号为目标，对网络模型参数进行训练的序列建模结果。在得到序列建模结果后，利用序列建模并行处理文本序列中各语义单元对应的词向量，得到是否在语义单元后面是否加标点符号的结果。

上述网络模型为转换器网络模型，即transform网络模型或卷积增强转换器网络模型，即conformer网络模型，下面给出各个网络模型的模型架构，并说明具体确定各语义单元是否附加标点符号的具体过程。

1)采用Transform网络模型确定是否附加标点符号。

Transformer网络模型的结构由编码encoder和解码decoder两个部分组成。输入序列先进行经过输入层Embedding，经过Encoder之后结合上一次输出output再输入Decoder，最后用softmax计算序列下一个单词的概率。

本公开实施例应用Transformer网络模型确定是否附加标点符号时，仅应用上述网络模型结构的编码部分，即输入序列先进行输入层Embedding，经过隐层Encoder对词向量对上下文依赖程度进行特征提取后，经过一个线性输出层和一个softmax层，计算是否在词向量之后加上相应的标点符号。

如图4为本实施例中Transformer网络模型中隐层结构示意图，包括多个级联的小Encoder，每一级小Encoder对词向量对上下文依赖程度进行特征提取，每一级的小Encoder的网络结构包括以下两个部分：

1)多头自注意力Multi-Head Self Attention机制部分。

Multi-Head Self Attention实际上是由h个Self Attention层并行组成，self-attention的输入是序列词向量，此处记为x。x经过一个线性变换得到query(Q),x经过第二个线性变换得到key(K),x经过第三个线性变换得到value(V)。也就是：

key＝linear_k(x)

query＝linear_q(x)

value＝linear_v(x)

linear_k，linear_q，linear_v是相互独立的，对应的权重是不同的，可以通过训练得到。

上述多头自注意力机制，可以实现对各词向量对该词向量的全局上下文的依赖程度进行特征提取。

2)前馈神经网络Feed-Forward network。

前馈神经网络Feed-Forward Network可以细分为有两层，第一层是一个线性激活函数，第二层是激活函数是ReLU。通过FFN层的处理，可以得到词向量对上下文依赖程度的深度特征。

如图5所示为应用Transform网络模型确定是否附加标点符号的流程示意图，主要包括以下步骤：

步骤501，将得到的文本序列中的语义单元经过输入层，转换为对应的词向量；

步骤502，将得到的词向量同时输入到包括多个小Encoder的隐层，提取各词向量对该词向量上下文依赖关系的特征数据；

对于多个小Encoder的隐层，第一级小Encoder的输入为上述多个词向量，输出为预测的各词向量对上下文依赖程度的特征数据，之后每一级小Encoder的输入为上述多个词向量及上一级输出的各词向量对上下文依赖程度的特征数据，需要说明的是在每一级各个词向量是按照时序依次输入该级进行运算，得到该词向量对上下文依赖程度的特征数据。

步骤503，对最后一级输出的各词向量对该词向量的局部上下文的依赖程度的特征数据进行线性组合，得到组合后的向量；

步骤504，对组合后的向量利用softmax函数，预测各词向量是否需要附加标点符号的概率。

softmax之后值都介于0到1之间，可以理解成得到了attention weights。利用上述Transform网络模型确定词向量是否附加标点符号之前，需要获取大量的句式样本，对该Transform网络模型进行序列建模，即根据对词库中不同语义单元进行全局上下文依赖程度，确定多头自注意力机制的相关参数。序列建模的过程为确定上述隐层中各级进行词向量依赖程度计算的多头自注意力机制及FFN中的各相关参数的过程，这些相关参数包括权重等参数。完成序列建模后，不同级之间的相关参数是不同的。

应用上述Transform网络模型，输入序列是中文词序列，输出序列是由“断句”、“不断”组成的序列，每个输入的中文语义单元对应一个输出，如果该语义单元对应的输出是“断句”，则表示该语义单元后面进行断句，如果该语义单元对应的输出是“不断”，则表示该词后面不断句。

输出线性层Linear将Transform输出的隐向量转换成一个二维向量。

Softmax再将Linear输出的二维向量转换为第一个概率是输出“断句”的概率，第二个概率是输出“不断”的概率。向量变成二个概率值，这两个概率值加起来为1。

当输出“断句”的概率大于输出“不断”的概率时，该输入词对应的输出为“断句”，否则为“不断”。

2)采用Conformer网络模型确定是否附加标点符号。

Conformer网络模型结果为由N个Conformer Block构成，如图6所示为其中一个Conformer Block结构图，Conformer Block由两个前馈神经网络模块Feedforward Module(FFN)、一个自注意力机制模块Multi-Head Self Attention Module(MHSA)、一个卷积模块Convolution Module、一个归一化Layernorm模块，以及每个Module之间的残差连接构成。

x_i表示一个Conformer Block的输入，则该Conformer Block的输出y_i由以下公式计算得到：

x″_i＝x′_i+Conv(x′_i)

上述第一个FFN可以对输入的词向量进行特征提取，MHSA用于可以实现提取各词向量对该词向量的全局上下文的依赖程度的特征数据。卷积模块用于提取各词向量对该词向量的局部上下文的依赖程度的特征数据。第二个FFN用于对输入的各词向量对该词向量的依赖程度的特征数据进行处理，从低级特征数据处理为高级特征数据。归一化Layernorm模块用于对提取的各词向量对该词向量的依赖程度的特征数据进行归一化处理，如果通过除以均值，或求取均方差等处理方式进行归一化。

如图7所示为上述FFN模块的内部结构示意图，FFN模块由一个归一Layernorm层、一个非线性层、一个线性层和残差连接组成，其中非线性层由线性层Linear Layer、激活函数Swish Activation和Dropout组成，线性层由线性层Linear Layer和Dropout组成。线性层用于对输入数据进行线性处理，激活函数用于对输入数据通进行非线性处理，Dropout用于输入的特征数据处理，按照一定的概率将一些特征数据暂时从网络中丢弃，防止数据过拟合。

如图8所示为多头自注意力机制MHSA模块结构示意图，MHSA模块由一个归一化Layernorm层、一个基于相对位置嵌入的多头自注意力机制Multi-Head Attention withRelative Positional Embedding(MHSA-RPE)、一个Dropout和残差连接构成，MHSA-RPE是在原始Transformer所用的Multi-Head Self-Attention的基础上使用了RelativePositional Embedding。

如图9所示为卷积模块内部结构示意图，卷积模块由一个归一化Layernorm层、两个逐点转换Pointwise Conv卷积层、一个激活函数GLU Activation、一个1D DepthwiseConv卷积层、一个BatchNorm、一个Swish Activation、一个Dropout和残差连接构成。

上述内部结构上各个层所采用的具体算法、涉及的神经元连接关系及需要训练的参数为现有技术，这里不再详述过程。

在利用上述网络模型结构对文本序列进行断句前，需要获取大量的句式样本，对该Conformer网络模型进行序列建模，即根据对词库中不同语义单元进行全局上下文依赖程度，确定各个模块内部相关参数。序列建模的过程为确定上述隐层中各级进行词向量依赖程度计算的多头自注意力机制、FFN及卷积等模块的相关参数的过程，这些相关参数包括权重等参数。完成序列建模后，不同级之间的相关参数是不同的。

如图10所示，为应用Conformer网络模型确定是否对语义单元附加标点符号的流程示意图，主要包括以下步骤：

步骤1001，将得到的文本序列中的语义单元经过输入层，转换为对应的词向量；

步骤1002，将得到的词向量同时输入到包括多个Conformer Block的隐层，对各词向量对该词向量上下文依赖关系特征；

对于多个Conformer Block隐层，第一级Conformer Block的输入为上述多个词向量，输出为预测的各词向量对上下文依赖程度的特征数据，之后每一级Conformer Block的输入为上述多个词向量及上一级输出的各词向量对上下文依赖程度的特征数据，需要说明的是在每一级各个词向量是按照时序依次输入该级进行运算得到该词向量对上下文依赖程度的特征的。

步骤1003，对最后一级输出的各词向量对该词向量的局部上下文的依赖程度的特征数据进行线性组合，得到组合后的向量；

Conformer将Embed层的输出向量转换成一个中间隐向量，具体为各语义单元对该语义单元上下文依赖程度的特征数据。

步骤1004，对组合后的向量利用softmax函数，预测各词向量是否需要附加标点符号的概率。

应用上述Conformer网络模型，输入序列是中文词序列，输出序列是由“断句”、“不断”组成的序列，每个输入的中文语义单元对应一个输出，如果该语义单元对应的输出是“断句”，则表示该语义单元后面进行断句，如果该语义单元对应的输出是“不断”，则表示该词后面不断句。

输出线性层Linear将Conformer输出的隐向量转换成一个二维向量。

实施例2

本公开提供一种智能设备，如图11所示，包括存储器1101和处理器1102，其中：

所述存储器用于存储计算机程序；

接收音视频数据流，提取所述音视频数据流中的语音数据，得到文本序列；

对所述文本序列进行语义单元识别，得到多个语义单元，将所述多个语义单元转换为对应的词向量；

根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号，并输出显示。

根据利用词库中不同语义单元所在的句式，对不同语义单元进行全局上下文依赖程度，计算各词向量对该词向量的全局上下文的依赖程度；

可选地，将所述多个语义单元转换为对应的词向量，包括：

可选地，所述网络模型为transform网络模型或conformer网络模型。

第三方面，本公开提供一种显示音视频数据中语音内容的装置，如图12所示，包括：

文字处理单元1201，用于接收音视频数据流，提取所述音视频数据流中的语音数据，得到文本序列；

词向量转换单元1202，用于对所述文本序列进行语义单元识别，得到多个语义单元，将所述多个语义单元转换为对应的词向量；

预测单元1203，用于利用对词库中不同语义单元间上下文依赖程度，采用不同预测方式，分多级预测各个词向量对该词向量上下文的依赖程度，其中第一级的输入为各词向量，之后每一级的输入为各词向量及上一级输出的预测结果；

输出单元1204，用于根据最后一级输出的预测结果，确定需要附加标点符号的词向量，并在文本序列中对应的语义单元位置附加标点符号，并输出显示。

在示例性实施例中，还提供了一种包括指令的非易失性存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述任意一项信息推荐方法或任意一项信息推荐方法任一可能涉及的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音视频数据处理方法，其特征在于，包括：

将所述多个语义单元转换为对应的词向量；

2.根据权利要求1所述的方法，其特征在于，所述分多级预测各个词向量对该词向量上下文的依赖程度，包括如下至少一个步骤：

3.根据权利要求2所述的方法，其特征在于，所述计算各词向量对该词向量的全局上下文的依赖程度，包括：

根据对词库中不同语义单元进行的全局上下文依赖程度，确定多头自注意力机制的相关参数；

4.根据权利要求2所述的方法，其特征在于，所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

根据对词库中不同语义单元进行的局部上下文依赖程度，确定卷积网络进行卷积运算的相关参数；

5.根据权利要求3所述的方法，其特征在于，不同的预测方式中，采用的多头自注意力机制中的相关参数不同。

6.根据权利要求4所述的方法，其特征在于，不同的预测方式中，卷积网络进行卷积运算的相关参数不同。

7.根据权利要求2所述的方法，其特征在于，所述计算各词向量对该词向量的全局上下文的依赖程度，或所述计算各词向量对该词向量的局部上下文的依赖程度，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据最后一级输出的预测结果，确定需要附加标点符号的词向量，包括：

9.根据权利要求1所述的方法，其特征在于，所述将所述多个语义单元转换为对应的词向量，包括：

10.根据权利要求1所述的方法，其特征在于，对词库中不同语义单元间上下文依赖程度，为通过以为输入不同句式中语义单元对应的词向量为输入特征，以输出句式中标注的标点符号为目标，对网络模型参数进行训练的序列建模结果。