CN112637620A

CN112637620A - 一种对音视频流中物品和语言实时识别分析的方法与装置

Info

Publication number: CN112637620A
Application number: CN202011451586.5A
Authority: CN
Inventors: 柏杨; 樊晓昆
Original assignee: Hangzhou Aigeng Technology Co ltd
Current assignee: Hangzhou Zhiyi Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-09

Abstract

本发明公开了一种对音视频流中物品和语言实时识别分析的方法与装置，本发明针对现有的直播平台，在直播时对音视频进行实时处理，实现物品识别，语音识别，并将识别的结果通过贴图的形式实时的展现在直播画面中，实现低延时的直播处理，使得观看者可以几乎无延迟的看到直播内容。本发明还可以根据直播音频内容产生丰富的关键字贴图，并实时的展现在画面上，直播画面的丰富度，减少了人工处理的成本，还可以通过物品识别，在画面上添加实时追踪的文字或者贴图，该类型的贴图人工是无法做到的。

Description

一种对音视频流中物品和语言实时识别分析的方法与装置

技术领域

本发明具体涉及一种对音视频流中物品和语言实时识别分析的方法与装置。

背景技术

随着视频直播的发展，主播直播带货逐渐兴起。现有的直播工具往往只是对主播端进行音视频采集，然后允许主播简单的将一些文字和贴图手工的放在直播画面中，而有时候带货主播有更加综合的需求，希望对直播的音视频进行实时的简单后期，实现物品识别、贴图跟随、智能字幕等功能。

RTMP协议又叫实时信息传输协议，目前被广泛的使用在视频直播领域，直播端通过应用将本地设备中的视频以流的形式推送至互联网，用户可以在自己的设备上通过可以拉取RTMP协议的视频流的应用在本地实时的观看直播端推送过来的视频内容。

针对音视频处理和直播音视频处理，目前主要有以下方法：

(1)对于音视频处理，目前视频方面主要是使用逐帧截图进行视频内容识别，然后将修改后的帧再编码成连续的视频画面；音频方面已经有较为成熟的音频转文字的方法。

(2)对于直播音视频处理，主要还是通过人工标注，使用直播工具如(Open Broad-cast Software)进行人工添加图层进行直播画面展示；对音频基本只有变声，升降调等音频信号处理方式，与画面内容基本无关联。

现有技术中，对音视频流中物品和语言实时识别分析的方法存在以下缺点：

(1)现有的音视频处理方法，具有较大的处理延时，无法直接运用在直播流音视频处理上；

(2)直播工具中对直播画面的处理往往比较单一，仅能简单的增加静态的文字、对画面进行简单的修饰；不能智能识别物品，不能结合语音和其他后台数据将其展现在画面上。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供一种对音视频流中物品和语言实时识别分析的方法与装置。

为了实现上述目的，本发明提供以下技术方案：

一种对音视频流中物品和语言实时识别分析的方法，包括以下步骤：

(1)音视频RTMP直播流接收与分割

(1.1)接收音视频RTMP直播流：搭建支持RTMP协议的服务器，直播端向这个服务器推送RTMP直播流，服务器会持续收到这个直播流并将其缓存；

(1.2)音视频RTMP直播流的分割：从步骤(1.1)中的RTMP协议的服务器中实时拉取正在推送的直播流信息，每隔一段时间进行一次切割，生成视频文件；当视频文件生成后，对该文件进行标记并发送；

(2)音视频片段识别及贴图元素生成：收到步骤(1.2)中切割得到的视频文件后，按如下顺序进行处理；

(2.1)音频提取及识别：首先从视频片段中提取出音频，并将声音转化为文本，将文本及时间轴信息存储下来；

(2.2)文字处理及贴图生成：由步骤(2.1)得到语音对应的文本，通过自然语言处理方法从中提取出关键词，然后使用这些关键词生成文字贴图；将这些文字贴图结合时间轴信息一起保存下来；

(2.3)视频元素识别及处理：对视频画面中的文字和物品进行识别，生成不同时间上画面的位置信息并保存；

(3)视频片段合成：结合步骤(2.2)-(2.3)得到的信息，将贴图按时间和位置将原片段中的特定的画面帧进行替换即完成视频片段的合成；

(4)视频片段拼接与连续推流：使用FFmpeg中对多个视频进行拼接再推流的方法进行视频片段的拼接与连续推流。

进一步地，步骤(1.2)中，每隔5-10s进行一次切割，生成长度相同的视频。

进一步地，步骤(1.2)中，使用重命名的方法进行标记，生成视频文件过程中，文件名为*.mp4.tmp，生成完毕后，文件名为*.mp4。

一种对音视频流中物品和语言实时识别分析的装置，该装置能够被用于实现以上所述的方法，该装置包括音视频RTMP直播流接收与分割单元、音视频片段识别及贴图元素生成单元、视频片段合成单元、视频片段拼接与连续推流单元，音视频RTMP直播流接收与分割单元与音视频片段识别及贴图元素生成单元连接，音视频片段识别及贴图元素生成单元与视频片段合成单元连接，视频片段合成单元与视频片段拼接与连续推流单元连接。

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时能够实现如上所述的对音视频流中物品和语言实时识别分析的方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的对音视频流中物品和语言实时识别分析的方法中的步骤。

本发明的有益效果是：

(1)本发明针对现有的直播平台，在直播时对音视频进行实时处理，实现物品识别，语音识别，并将识别的结果通过贴图的形式实时的展现在直播画面中，实现低延时的直播处理，使得观看者可以几乎无延迟的看到直播内容。

(2)本发明采用音视频处理方法，结合数据库对画面中的物品进行识别标记，并识别主播语音，将关键字生成到画面，并实时推送至直播平台。

(3)相比对整个视频处理完成后再全部推流造成的非实时直播，本发明方法中的延时几乎是可以忽略不计的。

(4)本发明可以根据直播音频内容产生丰富的关键字贴图，并实时的展现在画面上，直播画面的丰富度，减少了人工处理的成本。本发明可以通过物品识别，在画面上添加实时追踪的文字或者贴图，该类型的贴图人工是无法做到的。

附图说明

图1是音视频RTMP直播流接收与分割流程图。

图2是RTMP音视频片段处理单元流程图。

图3是本发明方法的流程框图。

图4是计算机设备的示意图。

图5是使用关键词生成的文字贴图示意图。

图6是从特定数据库中获取数据生成的贴图示意图。

具体实施方式

以下结合附图对本发明的技术方案做进一步详细说明，应当指出的是，具体实施方式只是对本发明的详细说明，不应视为对本发明的限定。

实施例1

一种对音视频流中物品和语言实时识别分析的装置，包括音视频RTMP直播流接收与分割单元、音视频片段识别及贴图元素生成单元(即音视频片段处理单元)、视频片段合成单元、视频片段拼接与连续推流单元，音视频RTMP直播流接收与分割单元与音视频片段识别及贴图元素生成单元连接，音视频片段识别及贴图元素生成单元与视频片段合成单元连接，视频片段合成单元与视频片段拼接与连续推流单元连接。

如图1-3所示，音视频RTMP直播流接收与分割单元接收RTMP直播流，并进行切割，保存，然后将切割后的音视频文件发送至音视频片段识别及贴图元素生成单元，音视频片段识别及贴图元素生成单元从音视频片段中提取出音频文件，并将声音转化为文本，从文本中提取关键词生成文字贴图，将这些文字贴图结合时间信息一起保存下来；对视频画面中的文字和物品进行识别，生成不同时间上画面的位置信息并保存，然后将上述保存的数据信息发送至视频片段合成单元，视频片段合成单元将文字贴图按时间和位置信息把原片段中的画面帧进行替换即完成视频片段的合成，然后将合成后的视频片段发送至视频片段拼接与连续推流单元，该单元对视频片段进行拼接，并推流。

如图1-3所示，本发明提供一种对音视频流中物品和语言实时识别分析的方法，采用以上所述的装置，能够实现实时识别并处理直播中的信息并将处理后的画面推送出去，具体包括以下步骤：

(1)音视频RTMP直播流接收与分割，如图1所示，

(1.1)接收音视频RTMP直播流：接收直播流首先要在本地服务器上搭建一个可以支持RTMP协议的服务器(RTMP-Server)，直播端通过本地应用向这个服务器推送RTMP直播流，服务器会持续收到这个直播流并将其缓存在本地待处理。

(1.2)音视频RTMP直播流的分割：在本地服务器上需要一个直播流切割单元，该单元使用FFmpeg工具从步骤(1.1)中的RTMP-Server中实时拉取正在推送的直播流信息，每隔一段时间(5-10s)进行一次切割，生成长度相同的视频；当视频文件生成后，对该文件进行标记并发送给音视频片段识别及贴图元素生成单元进行处理。

本发明中，对视频文件进行标记的目的是防止生成中的视频被发送出去并进行处理；具体地，可以使用重命名的方法进行标记，生成视频文件过程中，文件名为*.mp4.tmp，生成完毕后，改名为*.mp4。

(2)音视频片段识别及贴图元素生成：当音视频片段识别及贴图元素生成单元收到步骤(1.2)中切割得到的视频片段后，将会按如下顺序进行处理：

(2.1)音频提取及识别：首先使用FFmpeg工具从视频片段中提取出音频轨输出生成音频文件，并使用自动语音识别方法将声音转化为文本，将文本及时间轴信息存储下来。或者，从画面中直接使用视频检测算法识别出文本，并记录文本对应画面的时间轴。

具体地，本实施例中，使用科大讯飞提供的音频转文字的方法进行抽取文本和时间轴，所述音频转文字的方法是现有的方法，本发明并不对此进行改进。

(2.2)文字处理及贴图生成：贴图生成有三个方法：

1)在步骤(2.1)的结果中可以得到语音对应的文本，通过自然语言处理方法(此处的自然语言处理方法是指现有的通用的自然语言处理的方法)从中提取出关键词，然后使用这些关键词生成文字贴图，如图5所示，具体地，根据需要，使用设计好的文字样式将输入文字转化生成图片。文字样式使用AE设计完毕后输出为json格式的文件，将文件中的相应字段的文字进行替换，然后使用lottie-web对文件进行渲染得到图片。

2)从特定的数据库中获取数据并生成贴图，如图6所示，从画面中识别出文字N002，然后在后台存储商品订单信息的数据库中获取到该ID对应的买家姓名，生成图片，并跟随商品移动。因为不同的场景有不同的后台数据库，如图6则是商品ID对应买家订单的数据库。

3)通过特定规则生成贴纸以提高画面的丰富度，如图5中的花瓣贴图，同时，这些贴图都会结合时间轴信息一起保存下来待下一步使用。特定规则指的是：根据不同的情况，采用不同的规则。两个简单的规则示例：如果视频的10s内都没有其他贴图生成，则可以生成一个花瓣的特效对画面进行装饰；如果在很短的时间内有大量的文字(上一步语音转文字得到的文字)，不适合出文字特效，可以生成一个快速飞过贴纸，表示语速很快。

因为贴图中的文字是从文字(此处的文字为语音转文字得到的文字)中抽取的，文字本身抽取时会带有时间轴信息，能够实现将贴图与时间轴信息对应地保存下来。

(2.3)视频元素识别及处理：该步骤使用视频检测算法(如文字、人脸和物品检测等算法)对视频画面中的文字和物品进行识别，根据定义好的规则，如避开人脸，避开商品位置生成不同时间轴上贴图可用的位置信息并保存。

定义好的规则就是：结合画面识别出人脸，手臂，商品等位置，定义贴图需要避开或者跟随的位置。比如图6中的标签贴图就要对商品进行跟随，而生成贴图位置。

此处的视频检测算法采用的是现有的通用的视频检测算法，本发明不对其进行改进。

(3)视频片段合成：步骤(2.2)提供了视频片段合成所需要的素材及时间信息，步骤(2.3)提供了片段合成的画面位置，本步骤中结合以上的信息，将贴图按时间和位置把原片段中的特定的画面帧进行替换即完成视频片段的合成。

具体地，使用FFmpeg将图片或者视频贴到指定视频的指定时间范围内的画面的指定位置上，该步骤只要将步骤(2.2)中的素材、时间信息和步骤(2.3)中识别出的位置和时间信息对照起来即可将素材贴到指定视频中。

(4)视频片段拼接与连续推流：视频推流将设置一定延时，最早在处理完第一段视频片段后才可以进行推流。

在一些优选的方式中，根据单个视频片段的处理时间设置延时，处理过程中，延时设置为视频片段长度的2倍，即如果一个视频片段长度为5s，则设置延时为10s。

由于分段对多个视频片段进行推流会造成段与段之间的卡顿，故本发明使用了FFmpeg中对多个视频进行拼接再推流的方法。FFmpeg安装在本地服务器上，首先预先生成一个足够长的视频片段的名称列表，然后将步骤(3)中处理后的视频片段按该列表中的名称按顺序写回到本地服务器指定位置。

如果每个视频片段长度为10s，预估直播时间为3个小时，所述“足够长的视频片段的名称列表”是指长度为6*60*3＝1080的名称列表，这里的名称是一个序列，比如video0001.mp4,video0002.mp4...video1000.mp4......，步骤(3)中处理后的视频片段也要按顺序依次命名为video0001.mp4,video0002.mp4...video1000.mp4...。

所述“本地服务器指定的位置”是指当前视频片段拼接与连续推流单元的工作目录，或者指定的其他文件夹下，可以自定义。

由于推流一直在进行，如果处理时间超过预设的延时，则需要推送该视频片段的时候会由于片段未生成造成推流错误，这时，需要使用未处理的原视频补充未成功生成的片段进行容错。这样，就可以在预估的每段视频处理时间的延时内完成向下游推流。同时，因为每段视频时长越短，则处理时间越短，那么相对的可设置的直播延时也就越小。

实施例2，参照附图4。

在本实施例中，提供了一种计算机设备100，包括存储器102、处理器101及存储在存储器102上并可在处理器101上运行的计算机程序103，处理器101执行计算机程序103时能够实现上述实施例1所提供的对音视频流中物品和语言实时识别分析的方法中的步骤。

实施例3

在本实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时能够实现上述各个实施例所提供的对音视频流中物品和语言实时识别分析的方法中的步骤。

在本实施例中，所述计算机程序可以是实施例2中的计算机程序。

在本实施例中，所述计算机可读存储介质可以被实施例2中的计算机设备所运行。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例的所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种对音视频流中物品和语言实时识别分析的方法，其特征是，包括以下步骤：

(1)音视频RTMP直播流接收与分割

2.根据权利要求1所述的一种对音视频流中物品和语言实时识别分析的方法，其特征是，步骤(1.2)中，每隔5-10s进行一次切割，生成长度相同的视频。

3.根据权利要求1所述的一种对音视频流中物品和语言实时识别分析的方法，其特征是，步骤(1.2)中，使用重命名的方法进行标记，生成视频文件过程中，文件名为*.mp4.tmp，生成完毕后，文件名为*.mp4。

4.一种对音视频流中物品和语言实时识别分析的装置，其特征是，该装置能够被用于实现权利要求1-3中任一项所述的方法，该装置包括音视频RTMP直播流接收与分割单元、音视频片段识别及贴图元素生成单元、视频片段合成单元、视频片段拼接与连续推流单元，音视频RTMP直播流接收与分割单元与音视频片段识别及贴图元素生成单元连接，音视频片段识别及贴图元素生成单元与视频片段合成单元连接，视频片段合成单元与视频片段拼接与连续推流单元连接。

5.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时能够实现权利要求1-3中任一项所述的对音视频流中物品和语言实时识别分析的方法中的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能够实现权利要求1-3中任一项所述的对音视频流中物品和语言实时识别分析的方法中的步骤。