CN112562732B

CN112562732B - 音频分析系统及其分析方法

Info

Publication number: CN112562732B
Application number: CN202011556299.0A
Authority: CN
Inventors: 庞飞翔
Original assignee: Beijing Zhongke Flux Technology Co ltd
Current assignee: Beijing Zhongke Flux Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-04-16
Anticipated expiration: 2040-12-24
Also published as: CN112562732A

Abstract

本公开涉及音频分析系统及其分析方法，音频分析系统包括：前端机处理装置和音频分析装置，所述前端机处理装置和所述音频分析装置通过网络连接，其中，所述前端机处理装置包括抓取模块，该抓取模块用于抓取网络上的媒体流数据，所述音频分析装置接收来自所述前端机处理装置的媒体流数据，对该媒体流数据进行分析，所述音频分析装置包括：拼包模块、音视频分离模块、解码模块以及检测模块，该检测模块对所述音频数据的内容进行分析检测，具有样例匹配检测模块，该样例匹配检测模块通过在预先建立的样例检测库，优选进行音频样例比对。本发明通过分析服务器实现样例匹配库来过滤已知媒体流信息，大大减少检测压力，提升检测效率。

Description

音频分析系统及其分析方法

技术领域

本发明涉及音视频技术领域，特别涉及一种音频分析系统及其分析方法。

背景技术

随着技术不断发展，各种智能网络设备越来越广泛地应用于日常生产生活中，极大的提高和改善了生产生活效率，与此同时，带来了另外一个困扰的问题-信息过于庞大，处理较为繁琐。例如：从大量媒体流中检索到需要的信息，多少会需要人工参与的部分，参与比例越大，处理信息越多，所需耗费的代价大，处理效率低，成本高。

如图1所示，为一种音频处理装置结构示意图，包括待分析网络、前端处理机、交换机以及音频分析机，使用流程如下：用户通过前端处理机的客户端登录交互管理平台web页面；在管理平台配置所需要的内容检测服务，如语种识别，说话人检测，语音转写，等等，在交换机中的交互平台导入待处理的数据；启动音频分析机，此时后台处理服务器开始工作；检测完成后通过交互平台展示分析结构。在上述的结构中，是采用手动导入数据或接入媒体流的方式作为数据源，通过后台处理服务器部署音频检测业务处理音频数据，如识别、转写、断句、语义等等。前端通过客户端登录交互管理平台进行数据交互、展示。

在某些应用领域，如网络安全，监控等，存在对大量音视频流分析的需求，需要从原始信息中提取出所关注的重点信息，比如识别出一个人，找出敏感信息等，当有效数据夹杂在大量背景流中则会带来较高的处理代价。因此，按照现有的方法，存在如下缺点：1、数据的导入方式需要人工操作配置，效率低。2、大流量处理能力一般。对于现有技术中的上述问题，急需一种解决办法，以使在音频领域可以极大提高分析处理能力。

发明内容

发明所要解决的问题

本发明的主要目的在于提供一种音频分析系统及其分析方法，正常对于媒体流信息的检测一般流程为：信息预处理，信息检测，处理结果。音频检测预处理环节包括音频采集(导入的音频数据、媒体流中分离出的音频数据)，音频解码(转换分装音频格式为原始音频格式PCM)，分析服务器检测原始数据，得到处理结果。当高负载情况时，总流量变大，分析服务器容易达到处理瓶颈，超出处理能力的数据只能丢弃。因此，需要解决对音频媒体流大流量下进行高效检测。

另外，在通常情况下，对于音频的处理一般是通过外部导入数据或接入流媒体设备的方式获得的待处理数据，当原始数据较大时，处理比较繁琐，需要人工介入或者操作配置。因此，需要解决需手动导入音频媒体流和相关配置繁琐的问题。

用于解决问题的方案

本发明的一方式为音频分析系统，包括：前端机处理装置和音频分析装置，所述前端机处理装置和所述音频分析装置通过网络连接，其中，所述前端机处理装置包括抓取模块，该抓取模块用于抓取网络上的媒体流数据，所述音频分析装置接收来自所述前端机处理装置的媒体流数据，对该媒体流数据进行分析，所述音频分析装置包括：

拼包模块，其将所述媒体流数据进行拆分，然后封包后下发，进行拼包处理；

音视频分离模块，其将所述媒体流数据中的音视频进行分离，剥离出需要处理的音频数据；

解码模块，其对分离出的所述音频数据进行解码；以及

检测模块，其对所述音频数据的内容进行分析检测，具有样例匹配检测模块，该样例匹配检测模块通过在预先建立的样例检测库，优选进行音频样例比对。

优选地，所述前端机处理装置还包括分析交互模块，该分析交互模块与所述抓取模块基于tcp通讯协议，实现数据交互。

优选地，所述前端机处理装置还包括用户交互模块，该用户交互模块实现系统配置、系统控制、以及所述前端机处理装置和所述音频分析装置的状态的监控。

优选地，所述前端机处理装置和所述音频处理装置分别各用一台服务器或者共用一台服务器。

优选地，所述音频分析装置由一台服务器和解码器组成，用于接收来所述前端机处理装置的数据。

优选地，所述检测模块包括多个独立的检测模块，该多个独立的检测模块分别检测每一项检测内容。

优选地，所述样例匹配检测模块具有最高的检测优先级，当待检测所述音频数据匹配到所述样例匹配检测模块的样例检测库中的信息后，对此ID音频数据，直接跳过后续的检测模块。

优选地，由多个所述前端机处理装置和多个所述音频分析装置构成集群，所述多个前端机处理装置与所述多个音频分析装置通过交换机进行数据交互。

本发明的另一方式是一种音频分析方法，包括如下步骤：

步骤1：将前端机处理装置接入待分析网络上，配置前端机处理装置的工作模式为抓取模式，选择需要检测的业务模块并启动分析；

步骤2：前端机处理装置抓取数据并封包，根据音频处理的负载情况，建立新链接，并发送数据；

步骤3：接收并校验数据包，进行拼包、解封装并且解码；

步骤4：将原始音频信息送往检测模块进行检测，优先进行音频样例比对，通过样例匹配检测模块进行音频样例匹配检测，若未命中则继续进行说话人检测及语种分析，若命中则跳过剩余检测模块；检测模块检测出结果，保存响应结果数据及log，并通过建议消息回传给所述前端机处理装置；

步骤5：进行其他音频检测模块检测，接收检测结果。

优选地，还包括如下步骤：

步骤6：当所述前端机处理装置和所述音频处理装置之间的链接被主动关闭或因异常原因被动关闭时，所述音频处理装置会自动释放此路链接所有资源，所述前端机处理装置会根据音频处理装置负载状况进行重新连接。

发明的效果

本发明不同于通常的数据检测方法，本发明在正常的检测基础上增加了优先级最高的样例匹配检测模块，通过预先建立大量样例检测库，在正常检测过程中，预先剔除此部分数据，节约了后续检测所耗费的代价，提升了检测流量和效率。

另外，本发明通过分析服务器实现样例匹配库来过滤已知媒体流信息，大大减少检测压力，提升检测效率。

附图说明

图1为现有的音频处理系统结构的示意图。

图2为本发明音频分析系统的示意图。

图3为本发明音频分析系统的一实施例示意图。

图4为本发明音频分析装置的一实施例示意图。

图5为本发明音频分析装置的一种简化的应用场景的示意图。

图6为本发明音频分析装置的一种集群处理的情况的示意图。

图7为本发明的音频分析方法流程图。

附图标记说明

1：音频分析系统；11：前端机处理装置；111：抓取模块；112：分析机交互模块；113：用户交互模块；114：拆分模块；12：音频分析装置；121：拼包模块；122：音视频分离模块；123：解码模块；124：检测模块；1241：样例匹配检测模块；13：网络；14：交换机；15：交互管理机；2：待分析网络。

具体实施方式

下面将结合本发明实施例中的图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。并且，在此处需要进一步强调的是，以下的具体实施例提供的优选的技术方案，各方案(实施例)之间是可以相互配合或结合使用的。

如图2所示，是本发明音频分析系统的示意图。本发明的音频分析系统1包括前端机处理装置11和音频分析装置12，所述前端机处理装置11和所述音频分析装置12通过网络13连接，并通过特定协议进行数据双向传输，其中，下行数据主要包括媒体流信息及数据、同步数据等，上行数据包括检测结果及对应的媒体流信息。

如图3所示，为本发明音频分析系统的一实施例示意图，前端机处理装置11包括抓取模块111，抓取模块111用于抓取网络上的媒体流数据，通过查询系统中已注册的音频分析装置12并下发任务，前端机处理装置11和音频分析装置12之间通过网络13连接后，通过抓取模块111抓取合适网络位置的媒体数据流，即可实现对所有区域网络的分析。

前端机处理装置11由一台服务器组成，但不特别限定于一台，通过网络13连接到待分析的网络2线路上，例如，连接到交换机的镜像端口，由于存在流量大的特点，通常是通过光纤连接(10G以上宽带)。

前端机处理装置11除了包括抓取模块111还包括分析机交互模块112和用户交互模块113。抓取模块111通过网络抓包，提取如rtsp rtmp ts等视频流原始数据。与分析机交互模块112，基于tcp通讯协议，实现数据交互、负载均衡、心跳等，交互方式采用“请求-响应”的模式，支持对每条消息进行应答。通过定义消息类型，服务端支持反馈“带外消息”。其中带外消息指的是除对请求消息的响应之外的其他消息，如建议消息。数据交互包括下行分析数据，下行控制数据，上行应答，上行建议数据；其中下行分析数据即为抓取模块111通过网络抓包所提取出的码流数据，应答数据为音频分析装置12对前端机处理装置11的响应。建议消息为处理结果，包含对应的原始码流信息。该协议具有如下特点：

1、发送方根据接收方负载情况动态调整发送目标，达到负载均衡的目的；

2、发送方通过tcp检测到接收方出现故障时，自动切换任务到其它接收节点，实现无故障切换功能；

3、发送方与接收方通过tcp连接建立多路链接，多个链接之间是相互独立的，即音频分析装置12不需要对多个链接的数据进行聚合、关联处理。

前端机处理装置11还包括拆分模块114，其用于在获取原始媒体流信息后，通过对信息进行拆分，分割成相互独立的一个个片段(<1M)，对独立片段按上述协议进行封包后即可发送给音频分析装置12，封包的过程会对媒体流信息进行信息绑定，如设定节目ID等信息，方便后续处理即会话的管理。

用户交互模块113主要实现系统配置，系统控制，以及前端机处理装置和音频分析装置12的状态的监控、系统日志管理、系统维护等功能，通过web页面展示交互。

如图4所示，为本发明音频分析装置的一实施例的示意图。音频分析装置12由一台服务器组成，但不特别限定于一台，或者也可以由一台服务器+解码卡组成，主要接收来自前端机处理装置11的数据，通过解码卡或自身计算资源对音频数据进行预处理，随后对原始音频数据进行检测。当使用解码卡时，通过使用解码卡，可以大大提高解码能力，增加分析机的处理流量，如未使用解码卡，则基于服务器CPU进行解码。

音频分析装置12同样可以接受来自非前端机处理装置11的数据，例如离线数据文件，实时媒体流等形式。

当音频分析装置12接收前端机处理装置11下发的媒体流信息后，这些媒体流信息是按session组织起来的，每一路session即为ip+port源地址(前端机处理装置11)和目的地址(音频分析装置12)的一对组合，对于每一路会话，采用如下四大模块进行处理，拼包模块121、音视频分离模块122、解码模块123以及检测模块124，以下对上述四种模块进行详细说明。

拼包模块121：如上所述，前端机处理装置11在获取媒体流后，为了便于后续传输，会通过拆分模块114将媒体流进行拆分成一个个独立的小片段，然后封包后下发，每个包含有包头信息包含所属媒体流ID，偏移等字段。音频分析装置12接收到下发信息后，首先通过校验确认信息无误，反馈给前端机处理装置11ACK响应消息，同时提取payload信息(原始媒体流信息片段)，按ID进行管理，当数据量较小时，进行缓存操作，等待下一个本ID片段的到来；当获取到足够的数据时，拼包完成，可以进行下一步操作。

音视频分离模块122：由于前端机处理装置11下发的媒体流信息大部分为音视频流，因此需要对音视频进行分离，剥离出需要处理的音频数据，此操作通过服务器CPU来完成，使用FFMPEG库。

解码模块123：经音视频分离后获取的音频一般是经过压缩过的格式，如aac、mp3、dts等。而检测模块124需要的输入是原始音频格式(PCM)，因此需要对分离出的音频数据进行解码转换为PCM格式的原始音频流。解码操作可由两种硬件完成：CPU、解码卡，通过使用解码卡可以部分缓解CPU的压力，让CPU集中在检测的业务上，以此可以或者最大的处理能力。

检测模块124：对于音频内容的分析检测包括语音识别、语音转写、语义分析、自然语言理解、声纹识别、语种检测等等。其中，每一项检测内容为检测模块124可包括多个独立的检测模块，每一项检测内容为一个独立的检测模块，检测模块由公共的接口定义，使得新增检测模块操作简单便利。

当针对大流量的数据时，有价值的数据总是掺杂在大量无效背景流数据中，对所有数据都进行无差别的检测，无疑会给系统带来很大的压力，因此，对数据有差异的对待，踢除就可以一定程度上提高分析的效率，避免大量无用功的产生。为了提升检测效率，增大音频检测装置12的处理流量，本发明检测模块124包括样例匹配检测模块1241，样例匹配检测模块1241内设置样例检测库，样例检测库是基于检测算法对大量已有音频原始数据进行提取特征操作，并将特征集合起来得到的。

同时，样例匹配检测模块1241具有最高的检测优先级，当待检测音频数据匹配到样例匹配检测模块1241的样例检测库中的信息后，对此ID音频数据，直接跳过后续的检测模块。达到过滤的效果。当样例检测库丰富且与使用场景匹配度高时，可以达到很好的效果，节省了后续检测的处理时间及资源。

除了具有样例匹配检测模块1241外，本检测模块124还包含语种识别模块和说话人检测模块这两个检测模块。其中，语种识别包含常用语种的识别检测。说话人检测模块支持声纹识别，通过预先建立目标人模型库，对音频原始数据检测的信息进行匹配。除此之外，本发明的检测模块124还支持任何以公共接口定义(SDK接口)的其它音频检测模块。

如图5所示，为本发明音频分析装置的一种简化的应用场景的示意图，在这种情况下，适用于处理流量较低的情况，此实施例为前端机处理装置11和音频处理装置12共用一个主体，即一台服务器充当两个角色。数据来源可以来自前端机处理装置11部分，也可以来自离线数据。当数据来源于前端机处理装置11部分时，该前端机处理装置11直接接入交换机，通过镜像端口抓取数据，或访问固定的地址(智能网络设备的地址)获取数据。前端机处理装置11和音频处理装置12由于共用一个服务器，因此直接使用127.0.0.1回环网口进行通讯。

如图6所示，为本发明音频分析装置的一种集群处理的情况的示意图，适用于大流量情况。此实施例集群处理，由多个前端机处理装置11和多个音频分析装置12构成，由于前端机处理装置11与音频处理装置12之间通过网络连接，并且基于tcp协议通过交换机14进行数据交互，每路会话之间相互独立，互不影响，所以整个系统易于扩展，维护，容错性好，具有高鲁棒性等特点。当采用此种方式时，原本运行于前端机处理装置11的用户交互程序可以独立运行于一台服务器作为入口交换机。还包括交互管理机15，用于对交换机14进行管理，并且交换机14支持集群管理，可以下发配置及控制命令到所有前端机处理装置11上，并监控所有前端机处理装置11的状态。此时所有前端机处理装置11分别链接到所需监听的网络端口上。

图7为本发明的音频分析方法流程图，该方法具体包括以下步骤：

步骤1：加载配置信息，检测模块，将前端机处理装置11接入待分析网络2上，配置前端机处理装置11的工作模式为抓取模式，选择需要检测的业务模块并启动分析；

步骤2：获取数据包，建立新链接，发送数据，具体是前端机处理装置11抓取数据并封包，根据音频处理的负载情况，建立新链接，并发送数据；

步骤3：接收并校验数据包，进行拼包、解封装并且解码，具体是音频处理装置12接收到数据包，提取数据，并根据数据包信息，创建相应的节目信息(每一路节目按ID区分，有开始和结束标识，由前端机处理装置11填充)；当节目信息缓存到一定数据时(1M)，或者收到该路节目的结束标识时，对该音频原始信息片段进行解封装操作，分离出音频信息，并对音频信息进行解码，以获取原始音频信息(PCM)；

步骤4：音频样例匹配检测，具体是将原始音频信息送往检测模块124检测，优先进行音频样例比对，通过样例匹配检测模块1241进行音频样例匹配检测，若未命中则继续进行说话人检测及语种分析，若命中则跳过剩余检测模块；检测模块124检测出结果，保存响应结果数据及log，并通过建议消息回传给前端机处理装置11。

步骤5：其他音频检测模块检测，接收检测结果，具体是前端机处理装置11接收到检测结果，保存相应信息并通过交互界面可以进行查询操作；

步骤6：当前端机处理装置11和音频处理装置之间12的链接被主动关闭或因异常原因被动关闭时，音频处理装置12会自动释放该路链接所有资源。前端机处理装置11会根据音频处理装置12负载状况进行重新连接。

综上所述，本发明可以实现如下有益效果：

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种音频分析系统，其特征在于，包括：前端机处理装置和音频分析装置，所述前端机处理装置和所述音频分析装置通过网络连接，其中，所述前端机处理装置包括抓取模块，该抓取模块用于抓取网络上的媒体流数据，所述音频分析装置接收来自所述前端机处理装置的媒体流数据，对该媒体流数据进行分析，所述音频分析装置包括：

解码模块，其对分离出的所述音频数据进行解码；以及

检测模块，所述检测模块包括多个独立的检测模块，多个独立的检测模块分别检测每一项检测内容，所述检测模块对所述音频数据的内容进行分析检测，具有样例匹配检测模块，该样例匹配检测模块通过在预先建立的样例检测库，进行音频样例比对，

所述前端机处理装置还包括分析交互模块，该分析交互模块与所述抓取模块基于tcp通讯协议，实现数据交互，

所述前端机处理装置还包括用户交互模块，该用户交互模块实现系统配置、系统控制、以及所述前端机处理装置和所述音频分析装置的状态监控，

所述前端机处理装置还包括拆分模块，所述拆分模块用于在获取原始媒体流信息后，通过对信息进行拆分，分割成相互独立的片段，对独立片段按tcp通讯协议进行封包后发送给音频分析装置，封包的过程对媒体流信息进行信息绑定。

2.根据权利要求1所述的音频分析系统，其特征在于，所述前端机处理装置和所述音频分析装置分别各用一台服务器或者共用一台服务器。

3.根据权利要求1所述的音频分析系统，其特征在于，所述音频分析装置由一台服务器和解码器组成，用于接收来所述前端机处理装置的数据。

4.根据权利要求1所述的音频分析系统，其特征在于，所述样例匹配检测模块具有最高的检测优先级，当待检测所述音频数据匹配到所述样例匹配检测模块的样例检测库中的信息后，对此ID音频数据，直接跳过后续的检测模块。

5.根据权利要求1所述的音频分析系统，其特征在于，由多个所述前端机处理装置和多个所述音频分析装置构成集群，多个所述前端机处理装置与多个所述音频分析装置通过交换机进行数据交互。

6.一种音频分析方法，该方法应用于权利要求1-5任一项所述的音频分析系统中，其特征在于，包括如下步骤：

步骤1：将前端机处理装置接入待分析网络上，配置所述前端机处理装置的工作模式为抓取模式，选择需要检测的业务模块并启动分析；

步骤2：前端机处理装置抓取数据并封包，根据音频分析的负载情况，建立新链接，并发送数据；

步骤3：接收并校验数据包，进行拼包、解封装并且解码；

步骤5：进行其他音频检测模块检测，接收检测结果。

7.根据权利要求6所述的音频分析方法，其特征在于，还包括如下步骤：

步骤6：当所述前端机处理装置和所述音频分析装置之间的链接被主动关闭或因异常原因被动关闭时，所述音频分析装置会自动释放此路链接所有资源，所述前端机处理装置会根据音频分析装置负载状况进行重新连接。