CN110545408A

CN110545408A - 基于智能服务平台的智能制造展示系统及方法

Info

Publication number: CN110545408A
Application number: CN201910841831.4A
Authority: CN
Inventors: 刘洋; 宋文燕; 万能
Original assignee: Suzhou Lingrui Intelligent Technology Co Ltd
Current assignee: Suzhou Lingxi Internet of Things Technology Co., Ltd.
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-06
Anticipated expiration: 2039-09-06
Also published as: CN110545408B

Abstract

本发明涉及一种基于智能服务平台的智能制造展示系统及方法，所述系统包括智能制造采集终端、智能服务平台和智能制造展示终端，所述智能采集终端包括摄像头和第一无线通信设备，所述摄像头用于采集智能制造视频，所述第一无线通信设备用于与所述智能服务平台进行通信，将所述摄像头采集的智能制造视频发送至所述智能服务平台，所述智能制造展示终端包括显示屏、音响和第二无线通信设备，所述第二无线通信设备与所述智能服务平台进行通信。通过采用本发明的系统及方法，通过语音识别、噪音检测、人脸识别和设备识别多种因素来比较视频段落的优劣性，从中提取拍摄的智能制造视频的精华部分，自动剪辑合成展示视频，提高展示效率和效果。

Description

基于智能服务平台的智能制造展示系统及方法

技术领域

本发明涉及智能制造技术领域，具体是指一种基于智能服务平台的智能制造展示系统及方法。

背景技术

智能制造就是面向产品全生命周期，实现泛在感知条件下的信息化制造。智能制造技术是在现代传感技术、网络技术、自动化技术、拟人化智能技术等先进技术的基础上，通过智能化的感知、人机交互、决策和执行技术，实现设计过程、制造过程和制造装备智能化，是信息技术、智能技术与装备制造技术的深度融合与集成。智能制造对于工业生产具有很重要的意义，并且，智能制造的进一步推广也是对工业生产大有裨益的。

现有的智能制造生产中，为了宣传的需要，会制作一些智能制造设备实际生产过程中的操作视频来作为展示。然而，现有技术中的智能制造视频展示时，往往只是人工拍摄一些视频然后通过简单的人工剪辑即作为展示，无法很好地突出智能制造的优势，也无法保证展示视频的质量，此外，人工剪辑十分费时费力，如果对于数量比较大的视频或者时长比较长的视频，则需要花费很长的时间。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于智能服务平台的智能制造展示系统及方法，通过多种因素集中判断智能制造展示视频中的精华部分并加以自动剪辑，提高智能制造展示的效果，省时省力。

为了实现上述目的，本发明具有如下构成：

本发明提供了一种基于智能服务平台的智能制造展示系统，所述系统包括智能制造采集终端、智能服务平台和智能制造展示终端，所述智能采集终端包括摄像头和第一无线通信设备，所述摄像头用于采集智能制造视频，所述第一无线通信设备用于与所述智能服务平台进行通信，将所述摄像头采集的智能制造视频发送至所述智能服务平台，所述智能制造展示终端包括显示屏、音响和第二无线通信设备，所述第二无线通信设备与所述智能服务平台进行通信，用于从所述智能服务平台接收所述智能服务平台发送的展示视频，所述显示屏和所述音响用于播放所述展示视频，所述智能服务平台包括：

无线通信模块，用于与所述第一无线通信设备进行通信，从所述智能制造采集终端获取智能制造视频，以及与所述第二无线通信设备进行通信，将所述智能制造视频发送至所述智能制造展示终端；

设备识别模块，用于在所述智能制造视频中每一帧画面识别特定的智能制造设备，并计算该帧画面中智能制造设备的尺寸与预设设备标准尺寸之间的比例，于比例大于第一预设阈值时，将该帧画面记录为设备符合画面；

人脸识别模块，用于在所述智能制造视频中每一帧画面识别特定的人脸，并计算该帧画面中人脸的尺寸与预设人脸标准尺寸之间的比例，于比例大于第二预设阈值时，将该帧画面记录为人脸符合画面；

噪音识别模块，用于在所述智能制造视频中识别声音，将音量大于第三预设阈值或频率大于第四预设阈值的声音定义为噪音，将噪音所对应的画面记录为噪音画面；

语音识别模块，用于在所述智能制造视频中识别人的语音，对人的语音进行语音识别和语句分割，得到多段语音，并记录每段语音所对应的画面的帧数，将智能制造视频按照多段语音的分割方式分割的到多个视频段落；

画面评分模块，用于将设备符合画面的设备值设置为1，将非设备符合画面的设备值设置为0，将人脸符合画面的人脸值设置为1，将非人脸符合画面的人脸值设置为0，将噪音画面的噪音值设置为0，将非噪音画面的噪音值设置为1，分别根据预设的设备值的权值、人脸值的权值和噪音值的权值将各帧画面的设备值、人脸值和噪音值加权求和，作为该帧画面的评分，并将一个视频段落中所有画面的评分相加作为该视频段落的评分；

视频合成模块，用于根据预设的展示视频的时间长度，从所述智能制造视频中依次选择评分最高的视频段落，将选择的视频段落合成所述展示视频。

可选地，所述设备识别模块还用于从所述智能制造视频的每一帧画面中识别制造设备以及识别制造设备的类型，所述设备识别模块统计每一种智能制造设备出现的画面的帧数，将出现的画面的帧数最多的智能制造设备作为特定的智能制造设备，将出现该特定的智能制造设备的画面设定为设备符合画面，将出现其他类型智能制造设备或未出现智能制造设备的画面设定为非设备符合画面。

可选地，所述智能服务平台还包括权值选择模块，所述权值选择模块用于获取所述设备识别模块识别到的特定的智能制造设备的类型，根据智能制造设备的类型与权值的映射关系获取该智能制造设备所对应的设备值的权值、人脸值的权值和噪音值的权值。

可选地，智能服务平台的设备识别模块采用训练好的设备识别模型对所述智能制造视频中的每桢画面进行设备识别；

所述设备识别模型的训练集包括各种智能制造设备的六个表面的多张照片以及各种智能制造设备在不同使用状态时的多张照片，且所述训练集中各个照片上标注有所对应的智能制造设备的类型。

可选地，所述智能服务平台的人脸识别模块采用训练好的人脸识别模型对所述智能制造视频中的每帧画面进行人脸识别；

所述人脸识别模型的训练集包括各个工作人员的多个角度的多张照片，且所述训练集中每张照片上标注有所对应的工作人员的编号。

可选地，所述人脸识别模块识别人脸之前，从所述设备识别模型中获取智能制造设备的类型，根据设备类型与工作人员的映射关系，查找所述智能制造设备的类型所对应的工作人员的编号；

所述人脸识别模块识别人脸时，识别所述智能制造视频中的每帧画面是否检测到所述智能制造设备的类型所对应的工作人员，如果是，则将该帧画面标记为人脸符合画面；

如果检测到非所述智能制造设备的类型所对应的人脸，或未检测到人脸，则将该帧画面标记为非人脸符合画面。

可选地，所述语音识别模块还用于从所述设备识别模块中获取智能制造设备的类型，根据设备类型与关键词的映射关系，查找到所述智能制造设备的类型所对应的关键词；

所述语音识别模块还用于检测每个视频段落中语音中是否存在所述智能制造设备的类型所对应的关键词，如果存在，则将该视频段落的语义值定义为第一预设语义值，如果不存在，则将该视频段落的语义值定位为第二预设语义值，所述第一预设语义值和所述第二预设语义值均为介于0和1之间的数值。

可选地，所述画面评分模块将一个视频段落中所有画面的评分相加作为该视频段落的评分之后，将该视频段落的评分乘以该视频段落的语义值，作为更新后的该视频段落的评分。

本发明实施例还提供一种基于智能服务平台的智能制造展示方法，采用上述的基于智能服务平台的智能制造展示系统，所述方法包括如下步骤：

所述摄像头采集智能制造视频，并通过所述第一无线通信设备发送至所述智能服务平台；

所述智能服务平台的设备识别模块在所述智能制造视频中每一帧画面识别特定的智能制造设备，并计算该帧画面中智能制造设备的尺寸与预设设备标准尺寸之间的比例，于比例大于第一预设阈值时，将该帧画面记录为设备符合画面；

所述智能服务平台的人脸识别模块在所述智能制造视频中每一帧画面识别特定的人脸，并计算该帧画面中人脸的尺寸与预设人脸标准尺寸之间的比例，于比例大于第二预设阈值时，将该帧画面记录为人脸符合画面；

所述智能服务平台的噪音识别模块在所述智能制造视频中识别声音，将音量大于第三预设阈值或频率大于第四预设阈值的声音定义为噪音，将噪音所对应的画面记录为噪音画面；

所述智能服务平台的语音识别模块在所述智能制造视频中识别人的语音，对人的语音进行语音识别和语句分割，得到多段语音，并记录每段语音所对应的画面的帧数，将智能制造视频按照多段语音的分割方式分割的到多个视频段落；

所述智能服务平台的画面评分模块将设备符合画面的设备值设置为1，将非设备符合画面的设备值设置为0，将人脸符合画面的人脸值设置为1，将非人脸符合画面的人脸值设置为0，将噪音画面的噪音值设置为0，将非噪音画面的噪音值设置为1，分别根据预设的设备值的权值、人脸值的权值和噪音值的权值将各帧画面的设备值、人脸值和噪音值加权求和，作为该帧画面的评分，并将一个视频段落中所有画面的评分相加作为该视频段落的评分；

所述智能服务平台的视频合成模块根据预设的展示视频的时间长度，从所述智能制造视频中依次选择评分最高的视频段落，将选择的视频段落合成所述展示视频；

所述智能服务平台通过所述无线通信模块将合成的所述展示视频发送至所述智能制造展示终端；

所述智能制造展示终端的显示屏和所述音响播放所述展示视频。

综上所述，与现有技术相比，本发明通过语音识别、噪音检测、人脸识别和设备识别多种因素来比较视频段落的优劣性，从中提取拍摄的智能制造视频的精华部分，自动剪辑合成展示视频，提高展示效率和效果；进一步地，本发明可以根据设备的类型分情况处理视频剪辑，选择不同的权重值、不同的工作人员、不同的语义关键词等，实现定制化视频剪辑，更能够突出视频剪辑的有效性。

附图说明

图1为本发明一实施例的基于智能服务平台的智能制造展示系统的结构示意图；

图2为本发明一实施例的智能服务平台的组成模块的结构框图；

图3为本发明一实施例的人脸识别得到画面的人脸值的流程图；

图4为本发明一实施例的语音识别得到视频段落的语义值的流程图；

图5为本发明一实施例的基于智能服务平台的智能制造展示方法的流程图。

附图标记：

M100智能制造采集终端

M110摄像头M120第一无线通信设备

M200智能服务平台

M210无线通信模块M220设备识别模块M230人脸识别模块

M240噪音识别模块M250语音识别模块M260画面评分模块

M270视频合成模块

M300智能制造展示终端

M310显示屏M320音响M330第二无线通信设备

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员应意识到，没有特定细节中的一个或更多，或者采用其它的方法、组元、材料等，也可以实践本发明的技术方案。在某些情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明。

如图1所示，为了解决现有技术中的技术问题，本发明提供了一种基于智能服务平台的智能制造展示系统，所述系统包括智能制造采集终端M100、智能服务平台M200和智能制造展示终端M300，所述智能采集终端M100包括摄像头M110和第一无线通信设备M120，所述摄像头M110用于采集智能制造视频，所述第一无线通信设备M120用于与所述智能服务平台M200进行通信，将所述摄像头M110采集的智能制造视频发送至所述智能服务平台M200，所述智能制造展示终端M300包括显示屏M310、音响M320和第二无线通信设备M330，所述第二无线通信设备M330与所述智能服务平台M200进行通信，用于从所述智能服务平台M200接收所述智能服务平台M200发送的展示视频，所述显示屏M310和所述音响M320用于播放所述展示视频。

如图2所示，在该实施例中，用于接收智能制造视频和合成展示视频的所述智能服务平台包括如下各个功能模块：

无线通信模块M210，用于与所述第一无线通信设备M120进行通信，从所述智能制造采集终端M100获取智能制造视频，以及与所述第二无线通信设备M330进行通信，将所述智能制造视频发送至所述智能制造展示终端M300；无线通信模块M210、第一无线通信设备M120和第二无线通信设备M330可以为基于WIFI的无线通信设备，也可以是基于GPRS、CDMA、3G或4G的无线通信设备；

设备识别模块M220，用于在所述智能制造视频中每一帧画面识别特定的智能制造设备，并计算该帧画面中智能制造设备的尺寸与预设设备标准尺寸之间的比例，于比例大于第一预设阈值时，将该帧画面记录为设备符合画面；

人脸识别模块M230，用于在所述智能制造视频中每一帧画面识别特定的人脸，并计算该帧画面中人脸的尺寸与预设人脸标准尺寸之间的比例，于比例大于第二预设阈值时，将该帧画面记录为人脸符合画面；

噪音识别模块M240，用于在所述智能制造视频中识别声音，将音量大于第三预设阈值或频率大于第四预设阈值的声音定义为噪音，将噪音所对应的画面记录为噪音画面；

语音识别模块M250，用于在所述智能制造视频中识别人的语音，对人的语音进行语音识别和语句分割，得到多段语音，并记录每段语音所对应的画面的帧数，将智能制造视频按照多段语音的分割方式分割的到多个视频段落；语音识别和语句分割方式可以采用现有技术中的语音识别方法和语句分割方法，能够实现将一段语音按照一句句话进行分割即可，例如语音识别可以采用识别声音中属于预设的人的语音频率的部分，将该部分作为识别到的人的语音，语句分割可以采用识别语音之间的间隔，将两个语音间隔小于预设停顿阈值的两个语音合并作为一段语音，将间隔大于等于预设停顿阈值的位置作为语音断句位置；

画面评分模块M260，用于将设备符合画面的设备值设置为1，将非设备符合画面的设备值设置为0，将人脸符合画面的人脸值设置为1，将非人脸符合画面的人脸值设置为0，将噪音画面的噪音值设置为0，将非噪音画面的噪音值设置为1，分别根据预设的设备值的权值、人脸值的权值和噪音值的权值将各帧画面的设备值、人脸值和噪音值加权求和，作为该帧画面的评分，并将一个视频段落中所有画面的评分相加作为该视频段落的评分；因此，画面评分模块M260综合考虑设备、人脸和噪音多种因素进行评分，并且以语句分割得到的各个视频段落为单位，避免视频截取语音不完整；

视频合成模块M270，用于根据预设的展示视频的时间长度，从所述智能制造视频中依次选择评分最高的视频段落，将选择的视频段落合成所述展示视频。由于选择的视频段落的时长加起来可能并不一定正好等于预设的展示视频的时间长度，最终合成的视频可能会与预设的展示视频的时间长度有一定的时间偏差，例如可能会偏差几秒，但是该偏差是可以接受的。。

在该实施例中，所述设备识别模块M220还用于从所述智能制造视频的每一帧画面中识别制造设备以及识别制造设备的类型，所述设备识别模块M220统计每一种智能制造设备出现的画面的帧数，将出现的画面的帧数最多的智能制造设备作为特定的智能制造设备，将出现该特定的智能制造设备的画面设定为设备符合画面，将出现其他类型智能制造设备或未出现智能制造设备的画面设定为非设备符合画面。

在该实施例中，所述智能服务平台M200还包括权值选择模块，所述权值选择模块用于获取所述设备识别模块M220识别到的特定的智能制造设备的类型，根据智能制造设备的类型与权值的映射关系获取该智能制造设备所对应的设备值的权值、人脸值的权值和噪音值的权值。因此，该实施例中，选择的各个因素的权值根据设备的类型不同而不同。例如，对于一个智能制造设备，已知其本身的噪声声音比较大，则需要将噪音值的权值设定的相对较小，以避免自身使用时的噪声影响视频段落的评分。又例如，对于一个智能制造设别来说，其智能化比较高，几乎不需要人的操作，则将人脸值的权值降低，主要依靠设备值的权值和噪音值的权值来判断视频段落的评分。

在该实施例中，智能服务平台M200的设备识别模块M220采用训练好的设备识别模型对所述智能制造视频中的每桢画面进行设备识别；所述设备识别模型可以是深度学习模型，例如卷积神经网络等，也可以是支持向量机等分类模型等，均属于本发明的保护范围之内；

所述设备识别模型的训练集包括各种智能制造设备的六个表面的多张照片以及各种智能制造设备在不同使用状态时的多张照片，且所述训练集中各个照片上标注有所对应的智能制造设备的类型，可以综合考虑到设备不同角度不同使用状态下的形态。使用状态可以包括关机、开机预热、正常运转等。

在该实施例中，所述智能服务平台M200的人脸识别模块M230采用训练好的人脸识别模型对所述智能制造视频中的每帧画面进行人脸识别；所述人脸识别模型也可以是深度学习模型，例如卷积神经网络等，也可以是支持向量机等分类模型等，均属于本发明的保护范围之内；

所述人脸识别模型的训练集包括各个工作人员的多个角度的多张照片，且所述训练集中每张照片上标注有所对应的工作人员的编号，以工作人员编号来作为工作人员的标识。

在实际应用中，一台智能制造设备可能只对应于一部分工作人员，而其他的人员在画面中出现是不应该的，也会影响视频质量。如图3所示，在该实施例中，所述人脸识别模块M230识别人脸之前，从所述设备识别模型中获取智能制造设备的类型，根据设备类型与工作人员的映射关系，查找所述智能制造设备的类型所对应的工作人员的编号；

所述人脸识别模块M230识别人脸时，识别所述智能制造视频中的每帧画面是否检测到所述智能制造设备的类型所对应的工作人员，如果是，则将该帧画面标记为人脸符合画面；

如果检测到非所述智能制造设备的类型所对应的人脸，或未检测到人脸，则将该帧画面标记为非人脸符合画面。由此，可以实现更加精准地视频剪辑。

如图4所示，在该实施例中，所述语音识别模块M250还用于从所述设备识别模块M220中获取智能制造设备的类型，根据设备类型与关键词的映射关系，查找到所述智能制造设备的类型所对应的关键词；

所述语音识别模块M250还用于检测每个视频段落中语音中是否存在所述智能制造设备的类型所对应的关键词，如果存在，则将该视频段落的语义值定义为第一预设语义值，如果不存在，则将该视频段落的语义值定位为第二预设语义值，所述第一预设语义值和所述第二预设语义值均为介于0和1之间的数值。

因此，本发明进一步考虑了语音中与智能制造设备的类型所对应的关键词，可以保证截取的视频段落中，语音描述部分是与智能制造设备最相关的，可以剔除掉一些闲聊、或者与智能制造本身无关的语音部分。此处关键词可以是智能制造设备的名称、智能制造设备的类型的名称、智能制造设备的生产工序的步骤名称等等。

在该实施例中，所述画面评分模块M260将一个视频段落中所有画面的评分相加作为该视频段落的评分之后，将该视频段落的评分乘以该视频段落的语义值，作为更新后的该视频段落的评分。即将语义值作为一个影响该视频段落的评分的系数。

如图5所示，本发明实施例还提供一种基于智能服务平台的智能制造展示方法，采用上述的基于智能服务平台的智能制造展示系统，所述方法包括如下步骤：

本发明的基于智能服务平台的智能制造展示方法中，各个步骤的具体实现可以采用上述基于智能服务平台的智能制造展示系统中各个设备的功能实现方法来实现，在此不予赘述。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于智能服务平台的智能制造展示系统，其特征在于，所述系统包括智能制造采集终端、智能服务平台和智能制造展示终端，所述智能采集终端包括摄像头和第一无线通信设备，所述摄像头用于采集智能制造视频，所述第一无线通信设备用于与所述智能服务平台进行通信，将所述摄像头采集的智能制造视频发送至所述智能服务平台，所述智能制造展示终端包括显示屏、音响和第二无线通信设备，所述第二无线通信设备与所述智能服务平台进行通信，用于从所述智能服务平台接收所述智能服务平台发送的展示视频，所述显示屏和所述音响用于播放所述展示视频，所述智能服务平台包括：

2.根据权利要求1所述的基于智能服务平台的智能制造展示系统，其特征在于，所述设备识别模块还用于从所述智能制造视频的每一帧画面中识别制造设备以及识别制造设备的类型，所述设备识别模块统计每一种智能制造设备出现的画面的帧数，将出现的画面的帧数最多的智能制造设备作为特定的智能制造设备，将出现该特定的智能制造设备的画面设定为设备符合画面，将出现其他类型智能制造设备或未出现智能制造设备的画面设定为非设备符合画面。

3.根据权利要求2所述的基于智能服务平台的智能制造展示系统，其特征在于，所述智能服务平台还包括权值选择模块，所述权值选择模块用于获取所述设备识别模块识别到的特定的智能制造设备的类型，根据智能制造设备的类型与权值的映射关系获取该智能制造设备所对应的设备值的权值、人脸值的权值和噪音值的权值。

4.根据权利要求2所述的基于智能服务平台的智能制造展示系统，其特征在于，智能服务平台的设备识别模块采用训练好的设备识别模型对所述智能制造视频中的每桢画面进行设备识别；

5.根据权利要求2所述的基于智能服务平台的智能制造展示系统，其特征在于，所述智能服务平台的人脸识别模块采用训练好的人脸识别模型对所述智能制造视频中的每帧画面进行人脸识别；

6.根据权利要求5所述的基于智能服务平台的智能制造展示系统，其特征在于，所述人脸识别模块识别人脸之前，从所述设备识别模型中获取智能制造设备的类型，根据设备类型与工作人员的映射关系，查找所述智能制造设备的类型所对应的工作人员的编号；

7.根据权利要求2所述的基于智能服务平台的智能制造展示系统，其特征在于，所述语音识别模块还用于从所述设备识别模块中获取智能制造设备的类型，根据设备类型与关键词的映射关系，查找到所述智能制造设备的类型所对应的关键词；

8.根据权利要求7所述的基于智能服务平台的智能制造展示系统，其特征在于，所述画面评分模块将一个视频段落中所有画面的评分相加作为该视频段落的评分之后，将该视频段落的评分乘以该视频段落的语义值，作为更新后的该视频段落的评分。

9.一种基于智能服务平台的智能制造展示方法，其特征在于，采用权利要求1至8中任一项所述的基于智能服务平台的智能制造展示系统，所述方法包括如下步骤：