CN117392289A

CN117392289A - 基于ai语音自动生成案发现场视频的方法和系统

Info

Publication number: CN117392289A
Application number: CN202311166459.4A
Authority: CN
Inventors: 王璐; 周炼赤; 王红艳; 周益周; 孙宇
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-12

Abstract

本发明涉及一种基于AI语音自动生成案发现场视频的方法和系统，属于自然语言处理及语音识别、计算机视觉技术领域。本发明收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集，对语音进行一系列处理，对人体在时间、地点、动作等的相关事件进行特征提取，将提取结果输入到训练好的人体姿态估计神经网络模型，得到该人体基于时间地点的连贯的姿态动作视频；把人体的姿态动作与三维场景主题输入到视频生成器模块中，将时间维度上人体模型的姿态动作与三维场景主题进行动画融合，生成人体在实景中的动态连贯的案发现场人物视频。本发明能替代人工对繁杂信息的收集及处理，有利于办案效率的整体提升。

Description

基于AI语音自动生成案发现场视频的方法和系统

技术领域

本发明属于自然语言处理及语音识别、计算机视觉技术领域，具体涉及一种基于AI语音自动生成案发现场视频的方法和系统。

背景技术

近年来，在信息化水平不断提高的情况下，人工智能的发展越来越多的应用于现实场景，特别是行政人员的日常办公。

在案情调查期间，针对某个案件，需要持续输入人员进行案件跟踪调查，如调查询问目击证人、嫌疑人、获取监控视频等前期案情分析工作，要分析记录多场次的笔录，这些任务会消耗大量的人力物力。在案情回顾时，只能翻阅大量卷宗文档，信息庞杂而不利于对目标任务的过程把控。在案件后期，大部分信息逐渐完善且整合好资源后，进行案件整体发展过程的合理性分析时，需要警务人员根据多方位线索在脑海里还原案发现场，这份独有的理解，不利于警员间进行案情分析的沟通。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于AI语音自动生成案发现场视频的方法和系统，以解决案情调查任务会消耗大量的人力物力，信息庞杂而不利于对目标任务的过程把控，且根据多方位线索在脑海里还原案发现场，不利于案情分析沟通的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于AI语音自动生成案发现场视频的方法，该方法包括如下步骤：

S1、通过收集当事人的自我叙述语音，经过语音处理模块，输出该叙述主体的人体模型姿态视频；

S2、将案发现场的图片输入到三维场景处理模块中，输出为具有案发实景的三维场景模型；

S3、将上述两部分作为输入，输入到视频生成模块中，生成该人体模型在案发现场连贯的姿态视频。

(三)有益效果

本发明提出一种基于AI语音自动生成案发现场视频的方法和系统，本发明在使用过程中，具有以下有益效果：

调查审讯结果不需要查看繁多的卷宗问答，与本案相关的人体的动作场景被生成一段可视化的视频，可帮助办案人员快速理清人物与案情的关系，对案情提取的响应速度快，案发现场能够被快速生成，更有利于后续警务人员办案效率的整体提升。

附图说明

图1为本发明的系统模块架构图；

图2为语音合成人体模型姿态视频的模块图；

图3为人体姿态估计模型的系统流程；

图4为图片生成三维场景模型的模块图；

图5为人体模型姿态视频、三维场景融合生成视频的模块图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明要解决的技术问题是：提供一种基于AI语音自动生成案发现场视频的方法和系统。下面以简要的形式介绍该发明内容的构思。

本发明的第一方面提供了一种语音提取人体姿态的方法，包括：

收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集，对语音进行一系列处理，对人体在时间、地点、动作等的相关事件进行特征提取，将提取结果输入到训练好的人体姿态估计神经网络模型，得到该人体基于时间地点的连贯的姿态动作视频；

本发明第二方面提供一种将人体姿态视频、场景三维模型进行场景融合的方法，包括：

把人体的姿态动作与三维场景主题输入到视频生成器模块中，将时间维度上人体模型的姿态动作与三维场景主题进行动画融合，生成人体在实景中的动态连贯的案发现场人物视频。

本发明提供一种多方位审讯信息审查后由语音生成案发视频的方法，该技术应用于对案情的审查调取分析还原案发现场，替代人工对繁杂信息的收集及处理。

本发明的基于AI语音自动生成案发现场视频的系统，共分为三个模块：语音处理模块、三维场景处理模块和视频生成模块，主要涉及的背景技术是语音处理和深度学习技术，本方案的系统模块架构如图1所示。

本发明的基于AI语音自动生成案发现场视频的方法，包括如下步骤：

一、语音处理模块(如图2所示)

步骤S11、音频数据采集

收集目击证人、嫌疑人等有关本案案情的口供语音，将录音转换为数字音频格式，如MP3格式。

步骤S12、语音识别

用于识别语音信息对应的语义，将语音转换为可处理的文本。

其中，包括如下操作步骤：

对采集到的语音信号进行预处理，去除语音噪声、放大语音信号；

将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text，转换为可处理的文本。

步骤S13、文本解析处理

根据步骤S12的结果，对转换后的文本进行处理，包括分词、词性标注、命名实体识别、动作提取、时间提取等。

S131、文本预处理：对文本进行预处理，包括去除标点符号、转换为小写、去除停用词等，以提高文本的可读性。

S132、词性标注与分类：使用词性标注器，对文本中的每个词进行词性标注。词性标注可以帮助识别动词、名词等。通过词性标注，将动作分类为不同的动作类型，如跳跃、走动、举手等。识别出时间、日期等词汇。

S133、动作提取：根据词性标注的结果，使用语法语义分析提取与人体动作相关的信息。例如动作类型、方向、目标等。

S134、时间提取：根据词性标注的结果，使用时间规则匹配，来捕捉和解析文本中的时间表达式。比如：通过识别“八月八号”、“下午两点半”等时间表达式，提取与时间相关的内容

S135、语义解析：通过分析文本中的句法和语义结构，捕捉时间、动作描述词的上下文和意义。

步骤S14、人体姿态估计模型

人体姿态估计模型是最核心的部分，输入步骤S13提取的时间、动作描述词，使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态。根据提取的动作在场景中的位置、动作与时间的关联，把人体关节点的位置信息，包括头、肩膀、手肘、膝盖等关键部位姿态与坐标，与提取的关键动作做有效的组合匹配，输出人体与动作时间相关的姿态数据。

步骤S15、可视化处理

将步骤S14生成的人体关节点的姿态数据进行可视化和优化处理，确保姿态数据的稳定性和平滑性；

使用一个3D人体模型来呈现姿态数据，选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构。结合人体的关节点和姿态数据，将姿态数据和相应的关节点关联起来，使人体模型能够根据关节点的位置和姿态进行动态变换。这样可以更直观的显示人体的形状和姿态，生成人体模型姿态视频；

步骤S16、人体模型姿态视频输出

将步骤S15优化后的人体模型姿态视频进行导出。

二、步骤S14的人体姿态估计模型介绍(如图3所示)

人体姿态估计模型首先会通过大量的文本数据集进行训练，目的是进行文本到姿态的识别转换。训练的数据集包含人体可以做出的多样动作的文本，进行无监督训练。在训练完成后，就可以对输入的人体动作进行转换。

训练：

给神经元加入非线性因素，使得模型可以逼近任意非线性函数，可以更接近预期结果。以卷积层的激活映射作为输入，再次进行特征提取，在最大池化下，提取出文本中人体的动作的特征，提高模型的泛化能力。全连接层将前面层得到的局部特征通过权重组合成完整的图。输出层输出姿态数据；

预测：

向已训练好的神经网络模型输入人体动作的文本，从输出层输出文本中的姿态数据。

三、三维场景处理模块(如图4所示)

步骤S21、数据采集

利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片，把获取到的二维图像数据信息作为输入。

步骤S22、图像处理

对步骤S21采集到的图像进行预处理，如去噪、图像增强、图像对齐，以提高图像质量的准确性。

步骤S23、特征提取与匹配

使用特征点检测算法对步骤S22的结果进行特征提取，对每个视角的图像进行关键特征点提取，这些特征点需要包括边缘、角点、纹理等，通过特征点描述符来描述特征点。使用最近邻匹配算法，把这些特征点在不同视角下进行特征点匹配，以便获取物体或场景在不同视角下的关联性信息。

步骤S24、点云生成、连通性分析与点云配准

根据步骤S23提取到的关键特征点的像素坐标和深度值，将图像或深度数据转换为点云数据。点云是一组离散的三维坐标点的集合，表示场景中的几何形状和场景中不同物体的三维位置信息。

通过高斯滤波操作对生成的点云数据进行优化处理，去除噪声和不符合场景的异常点，以提高点云的质量。

通过连通性分析算法分析点云中点的空间关系，将近邻的点连接起来形成三角面片。将三角面片组合成连通区域，形成初步的深度估计结果。对三角面片组成的联通区域进行优化和平滑处理，得到更准确与连续的重建网络。

基于步骤S3获得的关键特征点，通过运动恢复结构为输入图像进行相机位姿估计，以获得相机的内外参，包括焦距、相机位置、姿态等信息。使用基于特征描述符的匹配方法，将不同视角下生成的点云数据进行配准，将这些数据对齐融合到统一的坐标系中，得到点云配准结果。

步骤S25、三维场景建模

根据步骤S24的深度估计结果及点云配准结果，使用多视角图像立体匹配的三维重建方法进行三维场景建模，此方法视野范围大，识别精度高，重建效果稳定，适应性较强，可以应用于各种场景中。将处理后的点云形成连续的三维表面模型，进而生成三维场景模型。

在具体的某个实施例中，以室内场景作为假设，首先获取室内多角度的图片，根据点云配准，室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上。根据多视角图像立体匹配的方法进行三维建模，得到室内的三维场景模型。

步骤S26、纹理映射和可视化渲染

将步骤S23提取到的纹理特征，映射到步骤S25生成的三维场景模型中，使其外观更加逼真，获得具有表面纹理的三维重建结果。使用三维渲染引擎对三维场景模型进行渲染和可视化，添加光照与材质以呈现真实感的三维实景效果。

步骤S27、三维场景模型输出

使用深度学习模型FasterR-CNN对物体进行检测和识别，标记出三维空间模型的位置信息、布局和物件，将步骤S26生成的三维场景模型进行输出。

四、视频生成模块(如图5所示)

通过大量训练人体在场景中活动的数据集，利用递归神经网络学习人体模型姿态视频在场景空间中的映射。

输入人体模型姿势视频、三维场景模型，根据姿态间帧的时间相关性在三维场景中进行特征融合，生成人体姿态在三维场景中与时间相关的连续视频。

步骤S31、人体模型姿态视频

从语音处理模块中获得人体模型的关节点的姿态信息，定位到人体关节点轨迹并记录其运动数据。

步骤S32、三维场景模型

从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型。

步骤S33、姿态与场景关联

从步骤S31获取人体模型的关节点的姿态信息，从步骤S32获取三维场景的几何数据及布局坐标，利用姿态估计结果，将人体关节点的姿态与三维场景进行关联，通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上，确定姿态在三维空间中的位置。

步骤S34、姿态渲染和融合

使用渲染引擎将人体模型及动作渲染到三维场景中，通过最小化姿态与场景之间的误差来优化姿态估计的准确性。使人体在场景中的移动姿态合理且连贯，并生成最终的人体姿态在场景中的视频。

步骤S35、视频输出

将步骤S34生成的人体姿态在三维场景中活动的视频进行输出。

本发明在使用过程中，具有以下有益效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于AI语音自动生成案发现场视频的方法，其特征在于，该方法包括如下步骤：

2.如权利要求1所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述S1由语音处理模块执行，具体包括如下步骤：

步骤S11、音频数据采集

收集有关本案案情的口供语音，将录音转换为数字音频格式；

步骤S12、语音识别

用于识别语音信息对应的语义，将语音转换为可处理的文本；

步骤S13、文本解析处理

根据步骤S12的结果，对转换后的文本进行处理，包括分词、词性标注、命名实体识别、动作提取和时间提取；

步骤S14、人体姿态估计模型

输入步骤S13提取的时间、动作描述词，使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态；根据提取的动作在场景中的位置、动作与时间的关联，把人体关节点的位置信息，包括头、肩膀、手肘、膝盖关键部位姿态与坐标，与提取的关键动作做有效的组合匹配，输出人体与动作时间相关的姿态数据；

步骤S15、可视化处理

使用一个3D人体模型来呈现姿态数据，选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构；结合人体的关节点和姿态数据，将姿态数据和相应的关节点关联起来，使人体模型能够根据关节点的位置和姿态进行动态变换，更直观的显示人体的形状和姿态，生成人体模型姿态视频；

步骤S16、人体模型姿态视频输出

将步骤S15优化后的人体模型姿态视频进行导出。

3.如权利要求2所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S12具体包括：对采集到的语音信号进行预处理，去除语音噪声、放大语音信号；将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text，转换为可处理的文本。

4.如权利要求2所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S13具体包括如下步骤：

S131、文本预处理：对文本进行预处理，包括去除标点符号、转换为小写、去除停用词，以提高文本的可读性；

S132、词性标注与分类：使用词性标注器，对文本中的每个词进行词性标注；通过词性标注，将动作分类为不同的动作类型，包括：跳跃、走动和举手；识别出时间、日期；

S133、动作提取：根据词性标注的结果，使用语法语义分析提取与人体动作相关的信息，包括：动作类型、方向和目标；

S134、时间提取：根据词性标注的结果，使用时间规则匹配，来捕捉和解析文本中的时间表达式，提取与时间相关的内容；

5.如权利要求2所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S14中的人体姿态估计模型首先会通过大量的文本数据集进行训练，目的是进行文本到姿态的识别转换；训练的数据集包含人体能做出的多样动作的文本，进行无监督训练；在训练完成后，能对输入的人体动作进行转换。

6.如权利要求5所述的基于AI语音自动生成案发现场视频的方法，其特征在于，人体姿态估计模型的训练和预测包括：

训练：给神经元加入非线性因素，使得模型逼近任意非线性函数，更接近预期结果；以卷积层的激活映射作为输入，再次进行特征提取，在最大池化下，提取出文本中人体的动作的特征，提高模型的泛化能力；全连接层将前面层得到的局部特征通过权重组合成完整的图；输出层输出姿态数据；

预测：向已训练好的神经网络模型输入人体动作的文本，从输出层输出文本中的姿态数据。

7.如权利要求1-6任一项所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S2由三维场景处理模块执行，具体包括如下步骤：

步骤S21、数据采集

利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片，把获取到的二维图像数据信息作为输入；

步骤S22、图像处理

对步骤S21采集到的图像进行预处理，包括：去噪、图像增强和图像对齐，以提高图像质量的准确性；

步骤S23、特征提取与匹配

使用特征点检测算法对步骤S22的结果进行特征提取，对每个视角的图像进行关键特征点提取，特征点包括边缘、角点和纹理，通过特征点描述符来描述特征点；使用最近邻匹配算法，把这些特征点在不同视角下进行特征点匹配，以便获取物体或场景在不同视角下的关联性信息；

步骤S24、点云生成、连通性分析与点云配准

根据步骤S23提取到的关键特征点的像素坐标和深度值，将图像或深度数据转换为点云数据；点云是一组离散的三维坐标点的集合，表示场景中的几何形状和场景中不同物体的三维位置信息；

通过高斯滤波操作对生成的点云数据进行优化处理，去除噪声和不符合场景的异常点，以提高点云的质量；

通过连通性分析算法分析点云中点的空间关系，将近邻的点连接起来形成三角面片；将三角面片组合成连通区域，形成初步的深度估计结果；对三角面片组成的联通区域进行优化和平滑处理，得到更准确与连续的重建网络；

基于步骤S3获得的关键特征点，通过运动恢复结构为输入图像进行相机位姿估计，以获得相机的内外参，包括焦距、相机位置和姿态；使用基于特征描述符的匹配方法，将不同视角下生成的点云数据进行配准，将这些数据对齐融合到统一的坐标系中，得到点云配准结果；

步骤S25、三维场景建模

根据步骤S24的深度估计结果及点云配准结果，使用多视角图像立体匹配的三维重建方法进行三维场景建模，将处理后的点云形成连续的三维表面模型，进而生成三维场景模型；

步骤S26、纹理映射和可视化渲染

将步骤S23提取到的纹理特征，映射到步骤S25生成的三维场景模型中，使其外观更加逼真，获得具有表面纹理的三维重建结果；使用三维渲染引擎对三维场景模型进行渲染和可视化，添加光照与材质以呈现真实感的三维实景效果；

步骤S27、三维场景模型输出

使用深度学习模型Faster R-CNN对物体进行检测和识别，标记出三维空间模型的位置信息、布局和物件，将步骤S26生成的三维场景模型进行输出。

8.如权利要求7所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S25具体包括：以室内场景作为假设，首先获取室内多角度的图片，根据点云配准，室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上；根据多视角图像立体匹配的方法进行三维建模，得到室内的三维场景模型。

9.如权利要求7所述的基于AI语音自动生成案发现场视频的方法，其特征在于，视频生成模块通过大量训练人体在场景中活动的数据集，利用递归神经网络学习人体模型姿态视频在场景空间中的映射；输入人体模型姿势视频、三维场景模型，根据姿态间帧的时间相关性在三维场景中进行特征融合，生成人体姿态在三维场景中与时间相关的连续视频。

10.如权利要求9所述的基于AI语音自动生成案发现场视频的方法，其特征在于，所述步骤S3由视频生成模块执行，具体包括如下步骤：

步骤S31、人体模型姿态视频

从语音处理模块中获得人体模型的关节点的姿态信息，定位到人体关节点轨迹并记录其运动数据；

步骤S32、三维场景模型

从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型；

步骤S33、姿态与场景关联

从步骤S31获取人体模型的关节点的姿态信息，从步骤S32获取三维场景的几何数据及布局坐标，利用姿态估计结果，将人体关节点的姿态与三维场景进行关联，通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上，确定姿态在三维空间中的位置；

步骤S34、姿态渲染和融合

使用渲染引擎将人体模型及动作渲染到三维场景中，通过最小化姿态与场景之间的误差来优化姿态估计的准确性；使人体在场景中的移动姿态合理且连贯，并生成最终的人体姿态在场景中的视频；

步骤S35、视频输出