CN113382205A

CN113382205A - 一种用于监视器的人工智能多源数据处理系统及方法

Info

Publication number: CN113382205A
Application number: CN202110570054.1A
Authority: CN
Inventors: 李启娟
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-10
Anticipated expiration: 2041-05-25
Also published as: CN113382205B

Abstract

一种用于监视器的人工智能多源数据采集系统及方法。系统中，视频变化检测器根据视频数据采集器提供的信息是否包含视频变化产生有无视频变化的标识及无视频变化的时间间隔数据；微控器根据视频变化检测器提供的信息，分别将有效数据和无效的时间间隔数据存储到存储器中。本发明提供的系统和方法有效地提高了存储器的利用率。

Description

一种用于监视器的人工智能多源数据处理系统及方法

技术领域

本发明涉及一种用于监视器的人工智能多源数据处理系统及方法，属于信息处理技术领域。

背景技术

监视器为录取某被监视场所的影像及声音等相关资讯的仪器，安装监视器后，能够记录被监视场所的视频图像和声音。为了将这些数据存在起来，现有技术中提供方法是将所获取的数据采用磁盘进行存储，后而从磁盘中调用出来进行分析，如此需要大容量的存储器。

发明内容

为克服现有技术中存在的缺点，本发明的发明目的是提供一种用于监视器的人工智能多源数据处理系统及方法，其有效地提高了存储器的利用率。

为实现所述发明目的，本发明提供一种用于监视器的多源数据处理系统，其特征在于：包括语音数据采集器、视频数据采集器、语音活动检测器、视频变化检测器、微控器和存储器，语音活动检测器根据语音数据采集器提供的信息是否包含语音产生有无语音的标识及无语音的时间间隔数据；视频变化检测器根据视频数据采集器提供的信息是否包含视频变化产生有无视频变化的标识及无视频变化的时间间隔数据；微控器根据语音活动检测器、视频变化检测器提供的信息，分别将有效语音数据帧、无音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据存储到存储器中或者通过通信单元发送给上位机。

为实现所述发明目的，本发明提供一种用于监视器的多源数据处理方法，其特征在于：利用语音活动检测器检测语音数据采集器提供的信息是否包含语音，若包含语音产生有语音的标识，若不包含语音则产生无语音的标识及无语音的时间间隔数据；利用视频变化检测器检测视频数据采集器提供的信息是否包含视频变化，若有视频变化，产生有视频变化的标识，若无视频变化，产生无视频变化的标识及无视频变化的时间间隔数据；根据语音活动检测器、视频变化检测器提供的信息，分别将有效语音数据帧、无语音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据存储到存储器中或者通过通信单元发送给上位机。

优选地，需要重放时，从存储器中取出有效语音数据帧、无语音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据提供给记录和重放控制器，记录和重放控制器根据有效语音数据帧和无音时间间隔数据恢复为时间序列语音数据；根据有视频变化的视频数据帧和无视频变化的时间间隔数据恢复为时间序列视频数据。

优选地，微控器至少包括人工智能处理模块，其至少包括语音识别模块和图像识别模块，所述语音识别模块包括自组织竞争神经网络，其被配置为根据接收的有效语音数据帧进行语音特征提取；图像识别模块包括卷积神经网络，其被配置为根据接收的有视频变化的视频数据帧进行图像特征提取。

优选地，微控器使语音特征数据代替有效语音数据和使视频特征数据代替有视频变化的数据帧存储于数据库中。

优选地，自组织竞争神经网络构建的步骤包括：步骤1：在预定时间段T₁ ^p1内输入的以音素为单位的语音语言数据，将具有以音素为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第一级网络层；步骤2，在完成了如上所述的网络的第一层次的构造之后，改变输入数据的大小输入的以单词为单位的语音语言数据，将具有以单词为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第二级网络层；同样，在将与上述步骤2同样的处理应用于步骤n(n＝3，4，…，N)的处理，在规定的期间

进行，依次构建第n级网络层。

与现有技术相比，本发明提供的用于监视器的多源数据处理系统及方法，其有效地提高了存储器的利用率。

附图说明

图1是本发明提供的用于监视器的多源数据处理系统组成框图；

图2是本发明提供的语音识别模块的组成框图；

图3是本发明提供的自组织竞争神经网络的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个部件内部的连通，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1是本发明提供的用于监视器的多源数据处理系统组成框图，如图1所示，本发明提供的用于监视器多源数据处理系统包括语音数据采集器、视频数据采集器、监视器数据采集器30、语音活动检测器24、视频变化检测器25、微控器29和存储器22，语音活动检测器24根据语音数据采集器提供的信息是否包含语音产生有无语音的标识及无语音的时间间隔数据；视频变化检测器25根据视频数据采集器提供的信息是否包含视频变化产生有无视频变化的标识及无视频变化的时间间隔数据；微控器29根据语音活动检测器24和语音数据采集器提供的信息，产生有效语音数据帧，并将有效语音数据帧和无音时间间隔数据存储到存储器中或者通过通信单元发送给上位机；微控器29根据视频变化检测器25和视频数据采集器提供的信息，产生有视频变化的数据帧，并将有视频变化的数据帧和无视频变化的时间间隔数据存储到存储器中或者通过通信单元发送给上位机。

可选地，微控器从有效语音数据帧将语音数据转换为音素数据，从有视频变化的视频帧提出特征数据，将音素数据和特征数据存储于存储器中或者通过通信单元发送给上位机，后续将结合附图2-3进行详细描述。

本发明中，音频数据采集器包括声电转换器1、滤波器2和A/D转换器3，其中，声电转换器1用于将声音信号转换为电信号经滤波器2提供给A/D转换器3，A/D转换器3用于将模拟信号转换为数字信号而后提供微控器29和语音活动检测器器24，音频编码器用于对音频数据压缩编码，本发明中，在声电转换器1和滤波器之间还可设置一级或者多级低频放大器，用于放大声电转换器1提供的信息。

本发明中，视频数据采集器例如包括摄像头5，其中摄像头5用于将光图像转换为电图像数据而后提供给微控器29和视频变化检测器25。

可选地,本发明提供的用于监视器多源数据处理系统可选地包括数据融合器，其用于将语音数据采集器、视频数据采集器进行融合处理形成待发送的基带数据并提供给编码器28，编码器28对数据融合器发送来基带数据进行信源编码、信道编码、交织处理得到发送数据而后送给发射电路7；发射电路7将发送数据调到载频上得到高频调波，而后双功器10发送给收发天线11；收发天线11将发射电路发送来的高频调波转换为电磁波而后发送到空间以发送给监视器管理中心或者上级指挥部门；接收时，收发天线11将空间电磁波转换为电信息而后经双工器10发送给接收电路9，接收电路9从高频调波中解调出接收的数据，而后发送给解码器17，解码器17对接收的数据进行解交织、信道解码、信源解码取出接收的音频视频数字信息，而后传送给微控器23，微控器23对音频视频数字信息进行处理，将音频数据发送给复用器20的第一路输入端，将视频数据发送给复用器21的第二路输入端。音频解码器15对从复用器20接收的音频数据进行解压缩形成音频数字信号，音数字信号经D/A转换器14转换为模拟语音语言数据，而后经扬声器12/或耳机发出声音，接收的语音语言数据为上级传送的命令信息或者监视器指挥中心的命令信息。视频解码器18对从复用器21接收的视频数据进行解压缩形成视频数字信号，显示器16根据视频数据显示所接收的视频率图像。

当需要重放通话和/或视频时，微控器29从存储器22中取出有效语音数据帧和无语音时间间隔数据恢复为语音数据并提供给复用器20的S1端，而后经音频解码器15解码，而后经D/A转换器进行数模转换，经滤波器13滤波提供给扬声器重播记录的声音。

微控器29从存储器22中取出有变化视频帧和无变化时间间隔恢复视频数据并提供给复用器21的S2端，而后经视频解码器18解码，而后经显示器显示出图像。

本发明中，微控器29至少包括人工智能处理模块，其至少包括语音识别模块和图像识别模块，所述语音识别模块包括自组织竞争神经网络，其被配置为根据接收的有效语音数据帧进行语音特征提取；图像识别模块包括卷积神经网络，其被配置为根据接收的有视频变化的视频数据帧进行图像特征提取，微控器29将语音特征数据和视频特征数据存储于数据库中。语音特征数据可以为由图2所示的语音识别模块识别有效语音数据而得到的以句子为单位的文本。

图2是本发明提供的语音识别模块的组成框图，如图2所示，语音识别模块包括：特征抽取模块111的模式识别模块112，其中,特征抽取模块111抽取有效的语言信息帧的特征，输出特征数据；模式识别模块112，根据从特征抽取模块111输出的特征数据，进行模式识别的处理。

另外，语音识别模块还包括控制模块，其控制特征抽取模块111以及模式识别模块112，控制模式识别模块112内的自组织竞争神经网络结构的构建或学习处理、以及基于构建的自组织竞争神经网络的语音数据帧的识别处理。特征提取单元111对有效的语言信息帧执行诸如离散化和频带分割的处理，以生成要输入到模式识别模块12的输入数据x。另外，特征提取单元111在控制模块的控制下，能够控制从特征提取单元111输出的特征数据(输入数据x)的大小。

图3是本发明提供的自组织竞争神经网络的结构示意图，本发明中，模式识别模块112具有如图3所示自组织竞争神经网络结构，该自组织竞争神经网络结构包括多个神经元(内核单元)，该多个神经元根据核函数确定输入数据与模板数据之间的相似度。

本发明中，在模式识别模块112内构建的自组织竞争神经网络构造是根据训练数据构建或学习的。具体地，模式识别模块112通过以下方式来执行：在训练阶段，选择性地提取输入数据x中所包括的数据，基于该数据以自增生的方式依序添加神经元，并且通过根据基于Hebb定律的自组织算法将多个神经元彼此连接来形成网络。另外，这样构建的自组织竞争神经网络结构内的各神经元从特征提取模块111输出的特征数据取数据x(参照图3的实线箭头)或从前级的神经元输出的数据取输入数据(参照图3的虚线箭头)中的某一个作为其输入数据(向量)。每个神经元可以使特征数据(语音数据)本身作为模板数据，并且还可以设置与特征数据(语音数据)相对应的数值标签等。第n(n＝2～N，其中N是等于或大于2的整数)层的神经元与前层的第(n-1)层中的神经元相关联。在第一级网络层级中包括的每个神经元作为模板数据的特征数据是通过提取原始语音的时间短的帧数据的特征而获得的，例如，第一级网络层级是音素级。

下面将详细描述包含在第n(n＝2～N，其中N是等于或大于2的整数)级的网络层中的神经元中的模板数据(模板矩阵)。如果第一级网络层中的与音素“zh”、“ong”相对应的神经元

的激活第二级网络层中的与字“zhong”相对应的神经元

则由神经元

的模板矩阵

可以由例如以下表达式(1)来表示。

这里，模板矩阵

中的元素值"0"表示在作为前一级的网络层级中包括的每个神经元的激活状态为"不激活"；"1"表示在作为前一级的网络层级中包括的每个神经元的激活状态为"激活"。当考虑第一级网络层级中包括的各神经元的激活程度来概括等式(1)的模板矩阵

时，模板矩阵

可以由以下等式(2)表示。这里，在下式(2)的模板矩阵

中，

表示神经元

的激活程度。.

在上式(1)、(2)中，模板矩阵

的各行表示第一级网络层级中包含的各神经元的激活的时间推移(在上式(1)、(2)中为过去6个点)。如果

保存了用于匹配模板矩阵

和输入数据的核心函数，则作为输入的是音素级神经元的激活模式，并且当与如等式(1)和(2)所示的模板矩阵

在某种程度上匹配时，该神经元

激活，从而可以识别字“zhong(中)”和“guo(国)”的模式。

具体地，例如，第一级网络层中包括的神经元的核函数

具有S型函数，如以下等式(3)所示：

式中，函数f()可以任意设置为第一级网络层次中的神经元的核函数

b为常数；T₁ ^P为预定时长

上述描述同样适用于较高等级的网络层级的关系(即，字级别的网络层级与短语级别的网络层级之间的关系，以及短语级别的网络层级与短语级别的网络层级之间的关系)，并且添加具有如表达式(1)和(2)所示的模板矩阵的神经元，作为短语级别的网络层级中包括的每个神经元和短语级别的网络层级中包括的每个神经元。

在模式识别模块112中建立的自组织竞争神经网络结构中包括的神经元中，彼此相关的神经元通过权重系数彼此连接，以便根据语音语言数据的分层识别级以步进方式彼此相关。具体地，包括在自组织竞争神经网络结构中的每个神经元被包括在与语音语言数据的相应分层识别级对应的多个网络层级中的任何一个网络层级中，并且包括在每个网络层级中的每个神经元仅在与相应网络层级相邻的网络层级中包括的神经元之间彼此连接。例如，如果假设分层识别级是音素级、单词级、短语级以及句子级这四个级别，则模式识别模块112中构造的自组织竞争神经网络结构可以具有图3所示的结构。

另外，在图3所示的自组织竞争神经网络结构中，假设各级别间包含的神经元间的信号流只是单一方向。(即，图3所示那样的自组织竞争神经网络构造是相互结合型神经网络，在原理上能够进行双向的信号流动，但在此设为不考虑反方向的信号的流动(例如从句子级朝向音素级的信号流动)。

在自组织竞争神经网络结构中，包括神经元的输入侧网络层是识别语音语言数据的音素级网络层，其中，作为特征数据的输入数据x被直接输入到该神经元，并且该输入侧网络层是识别语音语言数据的相对小的(时间上短的)单元(诸如音素)的音素级网络层，并且随着输入侧网络层的位置远离该输入侧网络层，提供识别语音语言数据的相对大的单元(诸如字级网络层、短语级网络层、以及句子级网络层)的网络层。在图3中，例如，将输入数据x直接输入到作为音素级神经元的“zh”、“ong”、“g”、“u”、“o”中，而将作为字级神经元的“zhong”连接到作为音素级神经元的“zh”、“ong”。

另外，在图3所示的自组织竞争神经网络结构中，即使模板数据的大小不同，包含在该结构内的神经元也能相互结合，另外，由于因结合的其他神经元的激活而促使该神经元激活，所以通过利用该特性，能容易地构建具备图3所示的层次结构的自组织竞争神经网络结构。即，假设某两个神经元A和B分别预先保持不同大小的模板数据TA和TB。然后，例如，当神经元A基于某个输入数据而被激活时，该激活被传递给与该神经元A连接的神经元B，并且该神经元B可根据这些权重系数的值而被激活。因此，通过使用这种特性，可实现从音素级网络层级中包括的神经元到单词级网络层级中包括的神经元的连接。在此，在具备图3所示那样的分层构造的自组织竞争神经网络构造中，其模式识别结果例如能够通过在自组织竞争神经网络构造内激活的所有神经元中选择激活率最大的神经元，并输出其值(类ID的值等)来得到。另外，在具有图3所示的分层结构的自组织竞争神经网络结构中，由于多个神经元以网络分层单位分阶段地配置，所以，其模式识别结果例如可以通过选择以各个网络分层单位(例如，音素级别网络分层或单词级别网络分层等)中激活率最大的神经元，并输出其值(类ID的值等)来得到。

下面，详细说明在图2所示的语音识别模块，构建具有图3所示的层次结构的自我组织化神经网络结构的方法。在图2所示的语音识别模块中，从特征抽取模块111输出的特征数据(输入数据x)，在外部控制模块的控制下，输入到模式识别模块112，根据该输入的特征数据(输入数据x)，在模式识别模块112中，进行用于实现语音语言数据的模式识别处理的自组织竞神经网络结构的构建或学习。

本发明中，在控制模块的控制下，从特征提取模块111输出并输入到模式识别模块112的输入数据x在预定时段内从最小单位(例如，音素单位)到最大单位(例如，句子单位)按顺序改变。在控制模块的控制下，模式识别模块112首先建立能够在音素级别进行模式识别的网络，然后依次建立词级别、短语级别以及句子级别的网络。由此，构建具有图3所示的层次结构的自组织竞争神经网络结构。

下面，具体说明用于构建具有3所示的层次结构的自组织竞争神经网络结构的具体的步骤：

步骤1：在控制模块的控制下，控制从特征抽出模块111输出的特征数据(输入数据x)的大小，将音素单位的语音语言数据输入模式识别模块112。在这种状态下，模式识别模块112在预定时间段T₁ ^p1内基于从外部输入的以音素为单位的语音语言数据，将具有以音素为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第一级网络层(音素级别网络层)中。

步骤2，在完成了如上所述的网络的第一层次(音素级别网络层次)的构造之后，在控制模块的控制下，从特征提取模块111输出的输入数据x的大小被改变，以单词为单位的语音语言数据被输入到模式识别模块112。在这种状态下，模式识别模块112在预定时间段

内，基于从外部输入的以单词(或字)为单位的语音语言数据，将具有以单词为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第二级网络层(单词级别网络层)中。此外，以这种方式添加的神经元通过权重系数与由作为输入数据x的以单词为单位的语音语言数据连锁激活的第一级网络层中包括的神经元相连接。同样，在将与上述步骤2同样的处理应用于步骤n(n＝3，4，…)的处理，在规定的期间

进行，依次构建第n级网络层次。在上述内容中，如果已经建立了目标第N级网络层级，则过程可以返回到步骤1，并且可以从音素级别网络层级重复建立或学习。通过以上处理，构建具有图3所示的层次结构的自组织竞争神经网络结构。

虽然以上已结合附图对按照本发明目的的构思和实例作了详尽说明，但本领域技术人员应当认识到，在没有脱离本发明构思的前提下，任何基于本发明作出的改进和变换仍然属于本发明保护范围内的内容。

Claims

1.一种用于监视器的多源数据处理系统，其特征在于：包括语音数据采集器、视频数据采集器、语音活动检测器、视频变化检测器、微控器和存储器，语音活动检测器根据语音数据采集器提供的信息是否包含语音产生有无语音的标识及无语音的时间间隔数据；视频变化检测器根据视频数据采集器提供的信息是否包含视频变化产生有无视频变化的标识及无视频变化的时间间隔数据；微控器根据语音活动检测器、视频变化检测器提供的信息，分别将有效语音数据帧、无音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据存储到存储器中或者通过通信单元发送给上位机。

2.根据权利要求1所述的用于监视器的多源数据处理系统，其特征在于，需要重放时，微控器从存储器中取出有效语音数据帧、无音时间间隔数据、有效视频变化的数据、无视频变化的时间间隔数据提供给记录和重放控制器，记录和重放控制器根据有效语音数据帧和无音时间间隔数据恢复为时间序列语音数据；根据有视频变化的视频数据帧和无视频变化的时间间隔数据恢复为时间序列视频数据。

3.根据权利要求1所述的用于监视器的多源数据处理系统，其特征在于，微控器至少包括人工智能处理模块，其至少包括语音识别模块和图像识别模块，所述语音识别模块包括自组织竞争神经网络，其被配置为根据接收的有效语音语言数据进行语音特征提取；图像识别模块包括卷积神经网络，其被配置为根据接收的有视频变化的视频数据帧进行图像特征提取。

4.根据权利要求3所述的用于监视器的多源数据处理系统，其特征在于，微控器使语音特征数据代替有效语音数据和使视频特征数据代替有视频变化的数据帧存储于数据库中。

5.根据权利要求4所述的用于监视器的多源数据处理系统，其特征在于，自组织竞争神经网络构建的步骤包括：步骤1：在预定时间段T₁p¹内输入的以音素为单位的语音语言数据，将具有以音素为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第一级网络层；步骤2，在完成了如上所述的网络的第一层次的构造之后，改变输入数据的大小输入的以单词为单位的语音语言数据，将具有以单词为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第二级网络层；同样，在将与上述步骤2同样的处理应用于步骤n(n＝3，4，…，N)的处理，在规定的期间

进行，依次构建第n级网络层。

6.一种用于监视器的多源数据处理方法，其特征在于：利用语音活动检测器检测语音数据采集器提供的信息是否包含语音，若包含语音产生有语音的标识，若不包含语音则产生无语音的标识及无语音的时间间隔数据；利用视频变化检测器检测视频数据采集器提供的信息是否包含视频变化，若有视频变化，产生有视频变化的标识，若无视频变化，产生无视频变化的标识及无视频变化的时间间隔数据；根据语音活动检测器、视频变化检测器提供的信息，分别将有效语音数据帧、无语音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据存储到存储器中或者通过通信单元发送给上位机。

7.根据权利要求6所述的用于监视器的多源数据处理方法，其特征在于，需要重放时，从存储器中取出有效语音数据帧、无语音时间间隔数据、有视频变化的数据帧、无视频变化的时间间隔数据提供给记录和重放控制器，记录和重放控制器根据有效语音数据帧和无音时间间隔数据恢复为时间序列语音数据；根据有视频变化的视频数据帧和无视频变化的时间间隔数据恢复为时间序列视频数据。

8.根据权利要求7所述的用于监视器的多源数据处理方法，其特征在于，微控器至少包括人工智能处理模块，其至少包括语音识别模块和图像识别模块，所述语音识别模块包括自组织竞争神经网络，其被配置为根据接收的有效语音数据帧进行语音特征提取；图像识别模块包括卷积神经网络，其被配置为根据接收的有视频变化的视频数据帧进行图像特征提取。

9.根据权利要求8所述的用于监视器的多源数据处理方法，其特征在于，微控器使语音特征数据代替有效语音数据和使视频特征数据代替有视频变化的数据帧存储于数据库中。

10.根据权利要求9所述的用于监视器的多源数据处理方法，其特征在于，自组织竞争神经网络构建的步骤包括：步骤1：在预定时间段T₁ ^p1内输入的以音素为单位的语音语言数据，将具有以音素为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第一级网络层；步骤2，在完成了如上所述的网络的第一层次的构造之后，改变输入数据的大小输入的以单词为单位的语音语言数据，将具有以单词为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第二级网络层；同样，在将与上述步骤2同样的处理应用于步骤n(n＝3，4，…，N)的处理，在规定的期间

进行，依次构建第n级网络层。