CN117392289A - 基于ai语音自动生成案发现场视频的方法和系统 - Google Patents

基于ai语音自动生成案发现场视频的方法和系统 Download PDF

Info

Publication number
CN117392289A
CN117392289A CN202311166459.4A CN202311166459A CN117392289A CN 117392289 A CN117392289 A CN 117392289A CN 202311166459 A CN202311166459 A CN 202311166459A CN 117392289 A CN117392289 A CN 117392289A
Authority
CN
China
Prior art keywords
human body
model
scene
dimensional
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311166459.4A
Other languages
English (en)
Inventor
王璐
周炼赤
王红艳
周益周
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202311166459.4A priority Critical patent/CN117392289A/zh
Publication of CN117392289A publication Critical patent/CN117392289A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于AI语音自动生成案发现场视频的方法和系统,属于自然语言处理及语音识别、计算机视觉技术领域。本发明收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集,对语音进行一系列处理,对人体在时间、地点、动作等的相关事件进行特征提取,将提取结果输入到训练好的人体姿态估计神经网络模型,得到该人体基于时间地点的连贯的姿态动作视频;把人体的姿态动作与三维场景主题输入到视频生成器模块中,将时间维度上人体模型的姿态动作与三维场景主题进行动画融合,生成人体在实景中的动态连贯的案发现场人物视频。本发明能替代人工对繁杂信息的收集及处理,有利于办案效率的整体提升。

Description

基于AI语音自动生成案发现场视频的方法和系统
技术领域
本发明属于自然语言处理及语音识别、计算机视觉技术领域,具体涉及一种基于AI语音自动生成案发现场视频的方法和系统。
背景技术
近年来,在信息化水平不断提高的情况下,人工智能的发展越来越多的应用于现实场景,特别是行政人员的日常办公。
在案情调查期间,针对某个案件,需要持续输入人员进行案件跟踪调查,如调查询问目击证人、嫌疑人、获取监控视频等前期案情分析工作,要分析记录多场次的笔录,这些任务会消耗大量的人力物力。在案情回顾时,只能翻阅大量卷宗文档,信息庞杂而不利于对目标任务的过程把控。在案件后期,大部分信息逐渐完善且整合好资源后,进行案件整体发展过程的合理性分析时,需要警务人员根据多方位线索在脑海里还原案发现场,这份独有的理解,不利于警员间进行案情分析的沟通。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于AI语音自动生成案发现场视频的方法和系统,以解决案情调查任务会消耗大量的人力物力,信息庞杂而不利于对目标任务的过程把控,且根据多方位线索在脑海里还原案发现场,不利于案情分析沟通的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于AI语音自动生成案发现场视频的方法,该方法包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
(三)有益效果
本发明提出一种基于AI语音自动生成案发现场视频的方法和系统,本发明在使用过程中,具有以下有益效果:
调查审讯结果不需要查看繁多的卷宗问答,与本案相关的人体的动作场景被生成一段可视化的视频,可帮助办案人员快速理清人物与案情的关系,对案情提取的响应速度快,案发现场能够被快速生成,更有利于后续警务人员办案效率的整体提升。
附图说明
图1为本发明的系统模块架构图;
图2为语音合成人体模型姿态视频的模块图;
图3为人体姿态估计模型的系统流程;
图4为图片生成三维场景模型的模块图;
图5为人体模型姿态视频、三维场景融合生成视频的模块图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明要解决的技术问题是:提供一种基于AI语音自动生成案发现场视频的方法和系统。下面以简要的形式介绍该发明内容的构思。
本发明的第一方面提供了一种语音提取人体姿态的方法,包括:
收集目击证人、嫌疑人等有关本案案情的口供语音作为数据集,对语音进行一系列处理,对人体在时间、地点、动作等的相关事件进行特征提取,将提取结果输入到训练好的人体姿态估计神经网络模型,得到该人体基于时间地点的连贯的姿态动作视频;
本发明第二方面提供一种将人体姿态视频、场景三维模型进行场景融合的方法,包括:
把人体的姿态动作与三维场景主题输入到视频生成器模块中,将时间维度上人体模型的姿态动作与三维场景主题进行动画融合,生成人体在实景中的动态连贯的案发现场人物视频。
本发明提供一种多方位审讯信息审查后由语音生成案发视频的方法,该技术应用于对案情的审查调取分析还原案发现场,替代人工对繁杂信息的收集及处理。
本发明的基于AI语音自动生成案发现场视频的系统,共分为三个模块:语音处理模块、三维场景处理模块和视频生成模块,主要涉及的背景技术是语音处理和深度学习技术,本方案的系统模块架构如图1所示。
本发明的基于AI语音自动生成案发现场视频的方法,包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
一、语音处理模块(如图2所示)
步骤S11、音频数据采集
收集目击证人、嫌疑人等有关本案案情的口供语音,将录音转换为数字音频格式,如MP3格式。
步骤S12、语音识别
用于识别语音信息对应的语义,将语音转换为可处理的文本。
其中,包括如下操作步骤:
对采集到的语音信号进行预处理,去除语音噪声、放大语音信号;
将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text,转换为可处理的文本。
步骤S13、文本解析处理
根据步骤S12的结果,对转换后的文本进行处理,包括分词、词性标注、命名实体识别、动作提取、时间提取等。
S131、文本预处理:对文本进行预处理,包括去除标点符号、转换为小写、去除停用词等,以提高文本的可读性。
S132、词性标注与分类:使用词性标注器,对文本中的每个词进行词性标注。词性标注可以帮助识别动词、名词等。通过词性标注,将动作分类为不同的动作类型,如跳跃、走动、举手等。识别出时间、日期等词汇。
S133、动作提取:根据词性标注的结果,使用语法语义分析提取与人体动作相关的信息。例如动作类型、方向、目标等。
S134、时间提取:根据词性标注的结果,使用时间规则匹配,来捕捉和解析文本中的时间表达式。比如:通过识别“八月八号”、“下午两点半”等时间表达式,提取与时间相关的内容
S135、语义解析:通过分析文本中的句法和语义结构,捕捉时间、动作描述词的上下文和意义。
步骤S14、人体姿态估计模型
人体姿态估计模型是最核心的部分,输入步骤S13提取的时间、动作描述词,使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态。根据提取的动作在场景中的位置、动作与时间的关联,把人体关节点的位置信息,包括头、肩膀、手肘、膝盖等关键部位姿态与坐标,与提取的关键动作做有效的组合匹配,输出人体与动作时间相关的姿态数据。
步骤S15、可视化处理
将步骤S14生成的人体关节点的姿态数据进行可视化和优化处理,确保姿态数据的稳定性和平滑性;
使用一个3D人体模型来呈现姿态数据,选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构。结合人体的关节点和姿态数据,将姿态数据和相应的关节点关联起来,使人体模型能够根据关节点的位置和姿态进行动态变换。这样可以更直观的显示人体的形状和姿态,生成人体模型姿态视频;
步骤S16、人体模型姿态视频输出
将步骤S15优化后的人体模型姿态视频进行导出。
二、步骤S14的人体姿态估计模型介绍(如图3所示)
人体姿态估计模型首先会通过大量的文本数据集进行训练,目的是进行文本到姿态的识别转换。训练的数据集包含人体可以做出的多样动作的文本,进行无监督训练。在训练完成后,就可以对输入的人体动作进行转换。
训练:
给神经元加入非线性因素,使得模型可以逼近任意非线性函数,可以更接近预期结果。以卷积层的激活映射作为输入,再次进行特征提取,在最大池化下,提取出文本中人体的动作的特征,提高模型的泛化能力。全连接层将前面层得到的局部特征通过权重组合成完整的图。输出层输出姿态数据;
预测:
向已训练好的神经网络模型输入人体动作的文本,从输出层输出文本中的姿态数据。
三、三维场景处理模块(如图4所示)
步骤S21、数据采集
利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片,把获取到的二维图像数据信息作为输入。
步骤S22、图像处理
对步骤S21采集到的图像进行预处理,如去噪、图像增强、图像对齐,以提高图像质量的准确性。
步骤S23、特征提取与匹配
使用特征点检测算法对步骤S22的结果进行特征提取,对每个视角的图像进行关键特征点提取,这些特征点需要包括边缘、角点、纹理等,通过特征点描述符来描述特征点。使用最近邻匹配算法,把这些特征点在不同视角下进行特征点匹配,以便获取物体或场景在不同视角下的关联性信息。
步骤S24、点云生成、连通性分析与点云配准
根据步骤S23提取到的关键特征点的像素坐标和深度值,将图像或深度数据转换为点云数据。点云是一组离散的三维坐标点的集合,表示场景中的几何形状和场景中不同物体的三维位置信息。
通过高斯滤波操作对生成的点云数据进行优化处理,去除噪声和不符合场景的异常点,以提高点云的质量。
通过连通性分析算法分析点云中点的空间关系,将近邻的点连接起来形成三角面片。将三角面片组合成连通区域,形成初步的深度估计结果。对三角面片组成的联通区域进行优化和平滑处理,得到更准确与连续的重建网络。
基于步骤S3获得的关键特征点,通过运动恢复结构为输入图像进行相机位姿估计,以获得相机的内外参,包括焦距、相机位置、姿态等信息。使用基于特征描述符的匹配方法,将不同视角下生成的点云数据进行配准,将这些数据对齐融合到统一的坐标系中,得到点云配准结果。
步骤S25、三维场景建模
根据步骤S24的深度估计结果及点云配准结果,使用多视角图像立体匹配的三维重建方法进行三维场景建模,此方法视野范围大,识别精度高,重建效果稳定,适应性较强,可以应用于各种场景中。将处理后的点云形成连续的三维表面模型,进而生成三维场景模型。
在具体的某个实施例中,以室内场景作为假设,首先获取室内多角度的图片,根据点云配准,室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上。根据多视角图像立体匹配的方法进行三维建模,得到室内的三维场景模型。
步骤S26、纹理映射和可视化渲染
将步骤S23提取到的纹理特征,映射到步骤S25生成的三维场景模型中,使其外观更加逼真,获得具有表面纹理的三维重建结果。使用三维渲染引擎对三维场景模型进行渲染和可视化,添加光照与材质以呈现真实感的三维实景效果。
步骤S27、三维场景模型输出
使用深度学习模型FasterR-CNN对物体进行检测和识别,标记出三维空间模型的位置信息、布局和物件,将步骤S26生成的三维场景模型进行输出。
四、视频生成模块(如图5所示)
通过大量训练人体在场景中活动的数据集,利用递归神经网络学习人体模型姿态视频在场景空间中的映射。
输入人体模型姿势视频、三维场景模型,根据姿态间帧的时间相关性在三维场景中进行特征融合,生成人体姿态在三维场景中与时间相关的连续视频。
步骤S31、人体模型姿态视频
从语音处理模块中获得人体模型的关节点的姿态信息,定位到人体关节点轨迹并记录其运动数据。
步骤S32、三维场景模型
从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型。
步骤S33、姿态与场景关联
从步骤S31获取人体模型的关节点的姿态信息,从步骤S32获取三维场景的几何数据及布局坐标,利用姿态估计结果,将人体关节点的姿态与三维场景进行关联,通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上,确定姿态在三维空间中的位置。
步骤S34、姿态渲染和融合
使用渲染引擎将人体模型及动作渲染到三维场景中,通过最小化姿态与场景之间的误差来优化姿态估计的准确性。使人体在场景中的移动姿态合理且连贯,并生成最终的人体姿态在场景中的视频。
步骤S35、视频输出
将步骤S34生成的人体姿态在三维场景中活动的视频进行输出。
本发明在使用过程中,具有以下有益效果:
调查审讯结果不需要查看繁多的卷宗问答,与本案相关的人体的动作场景被生成一段可视化的视频,可帮助办案人员快速理清人物与案情的关系,对案情提取的响应速度快,案发现场能够被快速生成,更有利于后续警务人员办案效率的整体提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于AI语音自动生成案发现场视频的方法,其特征在于,该方法包括如下步骤:
S1、通过收集当事人的自我叙述语音,经过语音处理模块,输出该叙述主体的人体模型姿态视频;
S2、将案发现场的图片输入到三维场景处理模块中,输出为具有案发实景的三维场景模型;
S3、将上述两部分作为输入,输入到视频生成模块中,生成该人体模型在案发现场连贯的姿态视频。
2.如权利要求1所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述S1由语音处理模块执行,具体包括如下步骤:
步骤S11、音频数据采集
收集有关本案案情的口供语音,将录音转换为数字音频格式;
步骤S12、语音识别
用于识别语音信息对应的语义,将语音转换为可处理的文本;
步骤S13、文本解析处理
根据步骤S12的结果,对转换后的文本进行处理,包括分词、词性标注、命名实体识别、动作提取和时间提取;
步骤S14、人体姿态估计模型
输入步骤S13提取的时间、动作描述词,使用训练好的基于OpenPose的人体姿态估计模型来预测人体关节点姿态;根据提取的动作在场景中的位置、动作与时间的关联,把人体关节点的位置信息,包括头、肩膀、手肘、膝盖关键部位姿态与坐标,与提取的关键动作做有效的组合匹配,输出人体与动作时间相关的姿态数据;
步骤S15、可视化处理
将步骤S14生成的人体关节点的姿态数据进行可视化和优化处理,确保姿态数据的稳定性和平滑性;
使用一个3D人体模型来呈现姿态数据,选定的人体模型应包含和人体姿态估计中的关节点对应的骨骼结构;结合人体的关节点和姿态数据,将姿态数据和相应的关节点关联起来,使人体模型能够根据关节点的位置和姿态进行动态变换,更直观的显示人体的形状和姿态,生成人体模型姿态视频;
步骤S16、人体模型姿态视频输出
将步骤S15优化后的人体模型姿态视频进行导出。
3.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S12具体包括:对采集到的语音信号进行预处理,去除语音噪声、放大语音信号;将预处理后的语音用谷歌的语音识别软件Google Cloud Speech-to-Text,转换为可处理的文本。
4.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S13具体包括如下步骤:
S131、文本预处理:对文本进行预处理,包括去除标点符号、转换为小写、去除停用词,以提高文本的可读性;
S132、词性标注与分类:使用词性标注器,对文本中的每个词进行词性标注;通过词性标注,将动作分类为不同的动作类型,包括:跳跃、走动和举手;识别出时间、日期;
S133、动作提取:根据词性标注的结果,使用语法语义分析提取与人体动作相关的信息,包括:动作类型、方向和目标;
S134、时间提取:根据词性标注的结果,使用时间规则匹配,来捕捉和解析文本中的时间表达式,提取与时间相关的内容;
S135、语义解析:通过分析文本中的句法和语义结构,捕捉时间、动作描述词的上下文和意义。
5.如权利要求2所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S14中的人体姿态估计模型首先会通过大量的文本数据集进行训练,目的是进行文本到姿态的识别转换;训练的数据集包含人体能做出的多样动作的文本,进行无监督训练;在训练完成后,能对输入的人体动作进行转换。
6.如权利要求5所述的基于AI语音自动生成案发现场视频的方法,其特征在于,人体姿态估计模型的训练和预测包括:
训练:给神经元加入非线性因素,使得模型逼近任意非线性函数,更接近预期结果;以卷积层的激活映射作为输入,再次进行特征提取,在最大池化下,提取出文本中人体的动作的特征,提高模型的泛化能力;全连接层将前面层得到的局部特征通过权重组合成完整的图;输出层输出姿态数据;
预测:向已训练好的神经网络模型输入人体动作的文本,从输出层输出文本中的姿态数据。
7.如权利要求1-6任一项所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S2由三维场景处理模块执行,具体包括如下步骤:
步骤S21、数据采集
利用倾斜摄影技术拍摄带有重叠度的多角度的案发现场图片,把获取到的二维图像数据信息作为输入;
步骤S22、图像处理
对步骤S21采集到的图像进行预处理,包括:去噪、图像增强和图像对齐,以提高图像质量的准确性;
步骤S23、特征提取与匹配
使用特征点检测算法对步骤S22的结果进行特征提取,对每个视角的图像进行关键特征点提取,特征点包括边缘、角点和纹理,通过特征点描述符来描述特征点;使用最近邻匹配算法,把这些特征点在不同视角下进行特征点匹配,以便获取物体或场景在不同视角下的关联性信息;
步骤S24、点云生成、连通性分析与点云配准
根据步骤S23提取到的关键特征点的像素坐标和深度值,将图像或深度数据转换为点云数据;点云是一组离散的三维坐标点的集合,表示场景中的几何形状和场景中不同物体的三维位置信息;
通过高斯滤波操作对生成的点云数据进行优化处理,去除噪声和不符合场景的异常点,以提高点云的质量;
通过连通性分析算法分析点云中点的空间关系,将近邻的点连接起来形成三角面片;将三角面片组合成连通区域,形成初步的深度估计结果;对三角面片组成的联通区域进行优化和平滑处理,得到更准确与连续的重建网络;
基于步骤S3获得的关键特征点,通过运动恢复结构为输入图像进行相机位姿估计,以获得相机的内外参,包括焦距、相机位置和姿态;使用基于特征描述符的匹配方法,将不同视角下生成的点云数据进行配准,将这些数据对齐融合到统一的坐标系中,得到点云配准结果;
步骤S25、三维场景建模
根据步骤S24的深度估计结果及点云配准结果,使用多视角图像立体匹配的三维重建方法进行三维场景建模,将处理后的点云形成连续的三维表面模型,进而生成三维场景模型;
步骤S26、纹理映射和可视化渲染
将步骤S23提取到的纹理特征,映射到步骤S25生成的三维场景模型中,使其外观更加逼真,获得具有表面纹理的三维重建结果;使用三维渲染引擎对三维场景模型进行渲染和可视化,添加光照与材质以呈现真实感的三维实景效果;
步骤S27、三维场景模型输出
使用深度学习模型Faster R-CNN对物体进行检测和识别,标记出三维空间模型的位置信息、布局和物件,将步骤S26生成的三维场景模型进行输出。
8.如权利要求7所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S25具体包括:以室内场景作为假设,首先获取室内多角度的图片,根据点云配准,室内的地面、墙面、天花板被对齐在三个互相垂直的主方向上;根据多视角图像立体匹配的方法进行三维建模,得到室内的三维场景模型。
9.如权利要求7所述的基于AI语音自动生成案发现场视频的方法,其特征在于,视频生成模块通过大量训练人体在场景中活动的数据集,利用递归神经网络学习人体模型姿态视频在场景空间中的映射;输入人体模型姿势视频、三维场景模型,根据姿态间帧的时间相关性在三维场景中进行特征融合,生成人体姿态在三维场景中与时间相关的连续视频。
10.如权利要求9所述的基于AI语音自动生成案发现场视频的方法,其特征在于,所述步骤S3由视频生成模块执行,具体包括如下步骤:
步骤S31、人体模型姿态视频
从语音处理模块中获得人体模型的关节点的姿态信息,定位到人体关节点轨迹并记录其运动数据;
步骤S32、三维场景模型
从三维场景处理模块中获得包括物体、场景、灯光和材质的三维场景模型;
步骤S33、姿态与场景关联
从步骤S31获取人体模型的关节点的姿态信息,从步骤S32获取三维场景的几何数据及布局坐标,利用姿态估计结果,将人体关节点的姿态与三维场景进行关联,通过将关节点的坐标位置映射到三维场景中与之匹配的坐标上,确定姿态在三维空间中的位置;
步骤S34、姿态渲染和融合
使用渲染引擎将人体模型及动作渲染到三维场景中,通过最小化姿态与场景之间的误差来优化姿态估计的准确性;使人体在场景中的移动姿态合理且连贯,并生成最终的人体姿态在场景中的视频;
步骤S35、视频输出
将步骤S34生成的人体姿态在三维场景中活动的视频进行输出。
CN202311166459.4A 2023-09-11 2023-09-11 基于ai语音自动生成案发现场视频的方法和系统 Pending CN117392289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311166459.4A CN117392289A (zh) 2023-09-11 2023-09-11 基于ai语音自动生成案发现场视频的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311166459.4A CN117392289A (zh) 2023-09-11 2023-09-11 基于ai语音自动生成案发现场视频的方法和系统

Publications (1)

Publication Number Publication Date
CN117392289A true CN117392289A (zh) 2024-01-12

Family

ID=89436327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311166459.4A Pending CN117392289A (zh) 2023-09-11 2023-09-11 基于ai语音自动生成案发现场视频的方法和系统

Country Status (1)

Country Link
CN (1) CN117392289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808945A (zh) * 2024-03-01 2024-04-02 北京烽火万家科技有限公司 一种基于大规模预训练语言模型的数字人生成系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808945A (zh) * 2024-03-01 2024-04-02 北京烽火万家科技有限公司 一种基于大规模预训练语言模型的数字人生成系统

Similar Documents

Publication Publication Date Title
Gomez-Donoso et al. Large-scale multiview 3d hand pose dataset
CN111339903B (zh) 一种多人人体姿态估计方法
Torralba et al. Labelme: Online image annotation and applications
CN108537191B (zh) 一种基于结构光摄像头的三维人脸识别方法
WO2020228766A1 (zh) 基于实景建模与智能识别的目标跟踪方法、系统及介质
Choi et al. Depth analogy: Data-driven approach for single image depth estimation using gradient samples
CN112287820A (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
Tang et al. Latent regression forest: structured estimation of 3d hand poses
CN104732203A (zh) 一种基于视频信息的情绪识别与跟踪方法
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
Voulodimos et al. Physics-based keyframe selection for human motion summarization
Lovanshi et al. Human pose estimation: benchmarking deep learning-based methods
CN117392289A (zh) 基于ai语音自动生成案发现场视频的方法和系统
CN110751097A (zh) 一种半监督的三维点云手势关键点检测方法
Fei et al. Flow-pose Net: An effective two-stream network for fall detection
Menon et al. Pedestrian counting using Yolo V3
Doulamis et al. 4D reconstruction of the past
Li et al. Deep-learning-based 3D reconstruction: a review and applications
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
CN117238034A (zh) 一种基于时空Transformer的人体姿态估计方法
Callemein et al. Automated analysis of eye-tracker-based human-human interaction studies
Balachandar et al. Deep learning technique based visually impaired people using YOLO V3 framework mechanism
CN112149528A (zh) 一种全景图目标检测方法、系统、介质及设备
Zhang et al. RGB+ 2D skeleton: local hand-crafted and 3D convolution feature coding for action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination