CN117392289A - 基于ai语音自动生成案发现场视频的方法和系统 - Google Patents
基于ai语音自动生成案发现场视频的方法和系统 Download PDFInfo
- Publication number
- CN117392289A CN117392289A CN202311166459.4A CN202311166459A CN117392289A CN 117392289 A CN117392289 A CN 117392289A CN 202311166459 A CN202311166459 A CN 202311166459A CN 117392289 A CN117392289 A CN 117392289A
- Authority
- CN
- China
- Prior art keywords
- human body
- model
- scene
- dimensional
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005516 engineering process Methods 0.000 title claims abstract description 7
- 230000009471 action Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000001427 coherent effect Effects 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000009877 rendering Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000005286 illumination Methods 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims description 2
- 210000003127 knee Anatomy 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000037081 physical activity Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000011835 investigation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于AI语音自动生成案发现场视频的方法和系统,属于自然语言处理及语音识别、计算机视觉技术领域。本发明收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集,对语音进行一系列处理,对人体在时间、地点、动作等的相关事件进行特征提取,将提取结果输入到训练好的人体姿态估计神经网络模型,得到该人体基于时间地点的连贯的姿态动作视频;把人体的姿态动作与三维场景主题输入到视频生成器模块中,将时间维度上人体模型的姿态动作与三维场景主题进行动画融合,生成人体在实景中的动态连贯的案发现场人物视频。本发明能替代人工对繁杂信息的收集及处理,有利于办案效率的整体提升。
Description
技术领域
本发明属于自然语言处理及语音识别、计算机视觉技术领域,具体涉及一种基于AI语音自动生成案发现场视频的方法和系统。
背景技术
近年来,在信息化水平不断提高的情况下,人工智能的发展越来越多的应用于现实场景,特别是行政人员的日常办公。
在案情调查期间,针对某个案件,需要持续输入人员进行案件跟踪调查,如调查询问目击证人、嫌疑人、获取监控视频等前期案情分析工作,要分析记录多场次的笔录,这些任务会消耗大量的人力物力。在案情回顾时,只能翻阅大量卷宗文档,信息庞杂而不利于对目标任务的过程把控。在案件后期,大部分信息逐渐完善且整合好资源后,进行案件整体发展过程的合理性分析时,需要警务人员根据多方位线索在脑海里还原案发现场,这份独有的理解,不利于警员间进行案情分析的沟通。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于AI语音自动生成案发现场视频的方法和系统,以解决案情调查任务会消耗大量的人力物力,信息庞杂而不利于对目标任务的过程把控,且根据多方位线索在脑海里还原案发现场,不利于案情分析沟通的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于AI语音自动生成案发现场视频的方法,该方法包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
(三)有益效果
本发明提出一种基于AI语音自动生成案发现场视频的方法和系统,本发明在使用过程中,具有以下有益效果:
调查审讯结果不需要查看繁多的卷宗问答,与本案相关的人体的动作场景被生成一段可视化的视频,可帮助办案人员快速理清人物与案情的关系,对案情提取的响应速度快,案发现场能够被快速生成,更有利于后续警务人员办案效率的整体提升。
附图说明
图1为本发明的系统模块架构图;
图2为语音合成人体模型姿态视频的模块图;
图3为人体姿态估计模型的系统流程;
图4为图片生成三维场景模型的模块图;
图5为人体模型姿态视频、三维场景融合生成视频的模块图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明要解决的技术问题是:提供一种基于AI语音自动生成案发现场视频的方法和系统。下面以简要的形式介绍该发明内容的构思。
本发明的第一方面提供了一种语音提取人体姿态的方法,包括:
收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集,对语音进行一系列处理,对人体在时间、地点、动作等的相关事件进行特征提取,将提取结果输入到训练好的人体姿态估计神经网络模型,得到该人体基于时间地点的连贯的姿态动作视频;
本发明第二方面提供一种将人体姿态视频、场景三维模型进行场景融合的方法,包括:
把人体的姿态动作与三维场景主题输入到视频生成器模块中,将时间维度上人体模型的姿态动作与三维场景主题进行动画融合,生成人体在实景中的动态连贯的案发现场人物视频。
本发明提供一种多方位审讯信息审查后由语音生成案发视频的方法,该技术应用于对案情的审查调取分析还原案发现场,替代人工对繁杂信息的收集及处理。
本发明的基于AI语音自动生成案发现场视频的系统,共分为三个模块:语音处理模块、三维场景处理模块和视频生成模块,主要涉及的背景技术是语音处理和深度学习技术,本方案的系统模块架构如图1所示。
本发明的基于AI语音自动生成案发现场视频的方法,包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
一、语音处理模块(如图2所示)
步骤S11、音频数据采集
收集目击证人、嫌疑人等有关本案案情的口供语音,将录音转换为数字音频格式,如MP3格式。
步骤S12、语音识别
用于识别语音信息对应的语义,将语音转换为可处理的文本。
其中,包括如下操作步骤:
对采集到的语音信号进行预处理,去除语音噪声、放大语音信号;
将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text,转换为可处理的文本。
步骤S13、文本解析处理
根据步骤S12的结果,对转换后的文本进行处理,包括分词、词性标注、命名实体识别、动作提取、时间提取等。
S131、文本预处理:对文本进行预处理,包括去除标点符号、转换为小写、去除停用词等,以提高文本的可读性。
S132、词性标注与分类:使用词性标注器,对文本中的每个词进行词性标注。词性标注可以帮助识别动词、名词等。通过词性标注,将动作分类为不同的动作类型,如跳跃、走动、举手等。识别出时间、日期等词汇。
S133、动作提取:根据词性标注的结果,使用语法语义分析提取与人体动作相关的信息。例如动作类型、方向、目标等。
S134、时间提取:根据词性标注的结果,使用时间规则匹配,来捕捉和解析文本中的时间表达式。比如:通过识别“八月八号”、“下午两点半”等时间表达式,提取与时间相关的内容
S135、语义解析:通过分析文本中的句法和语义结构,捕捉时间、动作描述词的上下文和意义。
步骤S14、人体姿态估计模型
人体姿态估计模型是最核心的部分,输入步骤S13提取的时间、动作描述词,使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态。根据提取的动作在场景中的位置、动作与时间的关联,把人体关节点的位置信息,包括头、肩膀、手肘、膝盖等关键部位姿态与坐标,与提取的关键动作做有效的组合匹配,输出人体与动作时间相关的姿态数据。
步骤S15、可视化处理
将步骤S14生成的人体关节点的姿态数据进行可视化和优化处理,确保姿态数据的稳定性和平滑性;
使用一个3D人体模型来呈现姿态数据,选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构。结合人体的关节点和姿态数据,将姿态数据和相应的关节点关联起来,使人体模型能够根据关节点的位置和姿态进行动态变换。这样可以更直观的显示人体的形状和姿态,生成人体模型姿态视频;
步骤S16、人体模型姿态视频输出
将步骤S15优化后的人体模型姿态视频进行导出。
二、步骤S14的人体姿态估计模型介绍(如图3所示)
人体姿态估计模型首先会通过大量的文本数据集进行训练,目的是进行文本到姿态的识别转换。训练的数据集包含人体可以做出的多样动作的文本,进行无监督训练。在训练完成后,就可以对输入的人体动作进行转换。
训练:
给神经元加入非线性因素,使得模型可以逼近任意非线性函数,可以更接近预期结果。以卷积层的激活映射作为输入,再次进行特征提取,在最大池化下,提取出文本中人体的动作的特征,提高模型的泛化能力。全连接层将前面层得到的局部特征通过权重组合成完整的图。输出层输出姿态数据;
预测:
向已训练好的神经网络模型输入人体动作的文本,从输出层输出文本中的姿态数据。
三、三维场景处理模块(如图4所示)
步骤S21、数据采集
利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片,把获取到的二维图像数据信息作为输入。
步骤S22、图像处理
对步骤S21采集到的图像进行预处理,如去噪、图像增强、图像对齐,以提高图像质量的准确性。
步骤S23、特征提取与匹配
使用特征点检测算法对步骤S22的结果进行特征提取,对每个视角的图像进行关键特征点提取,这些特征点需要包括边缘、角点、纹理等,通过特征点描述符来描述特征点。使用最近邻匹配算法,把这些特征点在不同视角下进行特征点匹配,以便获取物体或场景在不同视角下的关联性信息。
步骤S24、点云生成、连通性分析与点云配准
根据步骤S23提取到的关键特征点的像素坐标和深度值,将图像或深度数据转换为点云数据。点云是一组离散的三维坐标点的集合,表示场景中的几何形状和场景中不同物体的三维位置信息。
通过高斯滤波操作对生成的点云数据进行优化处理,去除噪声和不符合场景的异常点,以提高点云的质量。
通过连通性分析算法分析点云中点的空间关系,将近邻的点连接起来形成三角面片。将三角面片组合成连通区域,形成初步的深度估计结果。对三角面片组成的联通区域进行优化和平滑处理,得到更准确与连续的重建网络。
基于步骤S3获得的关键特征点,通过运动恢复结构为输入图像进行相机位姿估计,以获得相机的内外参,包括焦距、相机位置、姿态等信息。使用基于特征描述符的匹配方法,将不同视角下生成的点云数据进行配准,将这些数据对齐融合到统一的坐标系中,得到点云配准结果。
步骤S25、三维场景建模
根据步骤S24的深度估计结果及点云配准结果,使用多视角图像立体匹配的三维重建方法进行三维场景建模,此方法视野范围大,识别精度高,重建效果稳定,适应性较强,可以应用于各种场景中。将处理后的点云形成连续的三维表面模型,进而生成三维场景模型。
在具体的某个实施例中,以室内场景作为假设,首先获取室内多角度的图片,根据点云配准,室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上。根据多视角图像立体匹配的方法进行三维建模,得到室内的三维场景模型。
步骤S26、纹理映射和可视化渲染
将步骤S23提取到的纹理特征,映射到步骤S25生成的三维场景模型中,使其外观更加逼真,获得具有表面纹理的三维重建结果。使用三维渲染引擎对三维场景模型进行渲染和可视化,添加光照与材质以呈现真实感的三维实景效果。
步骤S27、三维场景模型输出
使用深度学习模型FasterR-CNN对物体进行检测和识别,标记出三维空间模型的位置信息、布局和物件,将步骤S26生成的三维场景模型进行输出。
四、视频生成模块(如图5所示)
通过大量训练人体在场景中活动的数据集,利用递归神经网络学习人体模型姿态视频在场景空间中的映射。
输入人体模型姿势视频、三维场景模型,根据姿态间帧的时间相关性在三维场景中进行特征融合,生成人体姿态在三维场景中与时间相关的连续视频。
步骤S31、人体模型姿态视频
从语音处理模块中获得人体模型的关节点的姿态信息,定位到人体关节点轨迹并记录其运动数据。
步骤S32、三维场景模型
从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型。
步骤S33、姿态与场景关联
从步骤S31获取人体模型的关节点的姿态信息,从步骤S32获取三维场景的几何数据及布局坐标,利用姿态估计结果,将人体关节点的姿态与三维场景进行关联,通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上,确定姿态在三维空间中的位置。
步骤S34、姿态渲染和融合
使用渲染引擎将人体模型及动作渲染到三维场景中,通过最小化姿态与场景之间的误差来优化姿态估计的准确性。使人体在场景中的移动姿态合理且连贯,并生成最终的人体姿态在场景中的视频。
步骤S35、视频输出
将步骤S34生成的人体姿态在三维场景中活动的视频进行输出。
本发明在使用过程中,具有以下有益效果:
调查审讯结果不需要查看繁多的卷宗问答,与本案相关的人体的动作场景被生成一段可视化的视频,可帮助办案人员快速理清人物与案情的关系,对案情提取的响应速度快,案发现场能够被快速生成,更有利于后续警务人员办案效率的整体提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于AI语音自动生成案发现场视频的方法,其特征在于,该方法包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
2.如权利要求1所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述S1由语音处理模块执行,具体包括如下步骤:
步骤S11、音频数据采集
收集有关本案案情的口供语音,将录音转换为数字音频格式;
步骤S12、语音识别
用于识别语音信息对应的语义,将语音转换为可处理的文本;
步骤S13、文本解析处理
根据步骤S12的结果,对转换后的文本进行处理,包括分词、词性标注、命名实体识别、动作提取和时间提取;
步骤S14、人体姿态估计模型
输入步骤S13提取的时间、动作描述词,使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态;根据提取的动作在场景中的位置、动作与时间的关联,把人体关节点的位置信息,包括头、肩膀、手肘、膝盖关键部位姿态与坐标,与提取的关键动作做有效的组合匹配,输出人体与动作时间相关的姿态数据;
步骤S15、可视化处理
将步骤S14生成的人体关节点的姿态数据进行可视化和优化处理,确保姿态数据的稳定性和平滑性;
使用一个3D人体模型来呈现姿态数据,选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构;结合人体的关节点和姿态数据,将姿态数据和相应的关节点关联起来,使人体模型能够根据关节点的位置和姿态进行动态变换,更直观的显示人体的形状和姿态,生成人体模型姿态视频;
步骤S16、人体模型姿态视频输出
将步骤S15优化后的人体模型姿态视频进行导出。
3.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S12具体包括:对采集到的语音信号进行预处理,去除语音噪声、放大语音信号;将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text,转换为可处理的文本。
4.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S13具体包括如下步骤:
S131、文本预处理:对文本进行预处理,包括去除标点符号、转换为小写、去除停用词,以提高文本的可读性;
S132、词性标注与分类:使用词性标注器,对文本中的每个词进行词性标注;通过词性标注,将动作分类为不同的动作类型,包括:跳跃、走动和举手;识别出时间、日期;
S133、动作提取:根据词性标注的结果,使用语法语义分析提取与人体动作相关的信息,包括:动作类型、方向和目标;
S134、时间提取:根据词性标注的结果,使用时间规则匹配,来捕捉和解析文本中的时间表达式,提取与时间相关的内容;
S135、语义解析:通过分析文本中的句法和语义结构,捕捉时间、动作描述词的上下文和意义。
5.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S14中的人体姿态估计模型首先会通过大量的文本数据集进行训练,目的是进行文本到姿态的识别转换;训练的数据集包含人体能做出的多样动作的文本,进行无监督训练;在训练完成后,能对输入的人体动作进行转换。
6.如权利要求5所述的基于AI语音自动生成案发现场视频的方法,其特征在于,人体姿态估计模型的训练和预测包括:
训练:给神经元加入非线性因素,使得模型逼近任意非线性函数,更接近预期结果;以卷积层的激活映射作为输入,再次进行特征提取,在最大池化下,提取出文本中人体的动作的特征,提高模型的泛化能力;全连接层将前面层得到的局部特征通过权重组合成完整的图;输出层输出姿态数据;
预测:向已训练好的神经网络模型输入人体动作的文本,从输出层输出文本中的姿态数据。
7.如权利要求1-6任一项所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S2由三维场景处理模块执行,具体包括如下步骤:
步骤S21、数据采集
利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片,把获取到的二维图像数据信息作为输入;
步骤S22、图像处理
对步骤S21采集到的图像进行预处理,包括:去噪、图像增强和图像对齐,以提高图像质量的准确性;
步骤S23、特征提取与匹配
使用特征点检测算法对步骤S22的结果进行特征提取,对每个视角的图像进行关键特征点提取,特征点包括边缘、角点和纹理,通过特征点描述符来描述特征点;使用最近邻匹配算法,把这些特征点在不同视角下进行特征点匹配,以便获取物体或场景在不同视角下的关联性信息;
步骤S24、点云生成、连通性分析与点云配准
根据步骤S23提取到的关键特征点的像素坐标和深度值,将图像或深度数据转换为点云数据;点云是一组离散的三维坐标点的集合,表示场景中的几何形状和场景中不同物体的三维位置信息;
通过高斯滤波操作对生成的点云数据进行优化处理,去除噪声和不符合场景的异常点,以提高点云的质量;
通过连通性分析算法分析点云中点的空间关系,将近邻的点连接起来形成三角面片;将三角面片组合成连通区域,形成初步的深度估计结果;对三角面片组成的联通区域进行优化和平滑处理,得到更准确与连续的重建网络;
基于步骤S3获得的关键特征点,通过运动恢复结构为输入图像进行相机位姿估计,以获得相机的内外参,包括焦距、相机位置和姿态;使用基于特征描述符的匹配方法,将不同视角下生成的点云数据进行配准,将这些数据对齐融合到统一的坐标系中,得到点云配准结果;
步骤S25、三维场景建模
根据步骤S24的深度估计结果及点云配准结果,使用多视角图像立体匹配的三维重建方法进行三维场景建模,将处理后的点云形成连续的三维表面模型,进而生成三维场景模型;
步骤S26、纹理映射和可视化渲染
将步骤S23提取到的纹理特征,映射到步骤S25生成的三维场景模型中,使其外观更加逼真,获得具有表面纹理的三维重建结果;使用三维渲染引擎对三维场景模型进行渲染和可视化,添加光照与材质以呈现真实感的三维实景效果;
步骤S27、三维场景模型输出
使用深度学习模型Faster R-CNN对物体进行检测和识别,标记出三维空间模型的位置信息、布局和物件,将步骤S26生成的三维场景模型进行输出。
8.如权利要求7所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S25具体包括:以室内场景作为假设,首先获取室内多角度的图片,根据点云配准,室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上;根据多视角图像立体匹配的方法进行三维建模,得到室内的三维场景模型。
9.如权利要求7所述的基于AI语音自动生成案发现场视频的方法,其特征在于,视频生成模块通过大量训练人体在场景中活动的数据集,利用递归神经网络学习人体模型姿态视频在场景空间中的映射;输入人体模型姿势视频、三维场景模型,根据姿态间帧的时间相关性在三维场景中进行特征融合,生成人体姿态在三维场景中与时间相关的连续视频。
10.如权利要求9所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S3由视频生成模块执行,具体包括如下步骤:
步骤S31、人体模型姿态视频
从语音处理模块中获得人体模型的关节点的姿态信息,定位到人体关节点轨迹并记录其运动数据;
步骤S32、三维场景模型
从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型;
步骤S33、姿态与场景关联
从步骤S31获取人体模型的关节点的姿态信息,从步骤S32获取三维场景的几何数据及布局坐标,利用姿态估计结果,将人体关节点的姿态与三维场景进行关联,通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上,确定姿态在三维空间中的位置;
步骤S34、姿态渲染和融合
使用渲染引擎将人体模型及动作渲染到三维场景中,通过最小化姿态与场景之间的误差来优化姿态估计的准确性;使人体在场景中的移动姿态合理且连贯,并生成最终的人体姿态在场景中的视频;
步骤S35、视频输出
将步骤S34生成的人体姿态在三维场景中活动的视频进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166459.4A CN117392289A (zh) | 2023-09-11 | 2023-09-11 | 基于ai语音自动生成案发现场视频的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166459.4A CN117392289A (zh) | 2023-09-11 | 2023-09-11 | 基于ai语音自动生成案发现场视频的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392289A true CN117392289A (zh) | 2024-01-12 |
Family
ID=89436327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311166459.4A Pending CN117392289A (zh) | 2023-09-11 | 2023-09-11 | 基于ai语音自动生成案发现场视频的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392289A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808945A (zh) * | 2024-03-01 | 2024-04-02 | 北京烽火万家科技有限公司 | 一种基于大规模预训练语言模型的数字人生成系统 |
-
2023
- 2023-09-11 CN CN202311166459.4A patent/CN117392289A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808945A (zh) * | 2024-03-01 | 2024-04-02 | 北京烽火万家科技有限公司 | 一种基于大规模预训练语言模型的数字人生成系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gomez-Donoso et al. | Large-scale multiview 3d hand pose dataset | |
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
Torralba et al. | Labelme: Online image annotation and applications | |
CN108537191B (zh) | 一种基于结构光摄像头的三维人脸识别方法 | |
WO2020228766A1 (zh) | 基于实景建模与智能识别的目标跟踪方法、系统及介质 | |
Choi et al. | Depth analogy: Data-driven approach for single image depth estimation using gradient samples | |
CN112287820A (zh) | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 | |
Tang et al. | Latent regression forest: structured estimation of 3d hand poses | |
CN104732203A (zh) | 一种基于视频信息的情绪识别与跟踪方法 | |
CN114758362B (zh) | 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
Voulodimos et al. | Physics-based keyframe selection for human motion summarization | |
Lovanshi et al. | Human pose estimation: benchmarking deep learning-based methods | |
CN117392289A (zh) | 基于ai语音自动生成案发现场视频的方法和系统 | |
CN110751097A (zh) | 一种半监督的三维点云手势关键点检测方法 | |
Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
Menon et al. | Pedestrian counting using Yolo V3 | |
Doulamis et al. | 4D reconstruction of the past | |
Li et al. | Deep-learning-based 3D reconstruction: a review and applications | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN117238034A (zh) | 一种基于时空Transformer的人体姿态估计方法 | |
Callemein et al. | Automated analysis of eye-tracker-based human-human interaction studies | |
Balachandar et al. | Deep learning technique based visually impaired people using YOLO V3 framework mechanism | |
CN112149528A (zh) | 一种全景图目标检测方法、系统、介质及设备 | |
Zhang et al. | RGB+ 2D skeleton: local hand-crafted and 3D convolution feature coding for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |