CN116800976B

CN116800976B - 伴睡婴幼儿时音视频压缩和还原方法、装置及设备

Info

Publication number: CN116800976B
Application number: CN202310879755.2A
Authority: CN
Inventors: 陈辉; 胡国湖; 熊章; 张智; 张青军; 杜沛力
Original assignee: Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Wuhan Xingxun Intelligent Technology Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2024-03-12
Anticipated expiration: 2043-07-17
Also published as: CN116800976A

Abstract

本发明涉及婴幼儿看护技术领域，解决了现有技术中在婴幼儿睡眠场景下，音频和视频占用存储空间大的问题，提供了一种伴睡婴幼儿时音视频压缩和还原方法、装置及设备。该方法包括：获取婴幼儿睡眠场景下的实时视频数据和实时音频数据；对所述实时视频数据和实时音频数据进行压缩，输出压缩后的第一视频数据和第一音频数据；获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息；依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据；依据所述音频关键信息，对所述第一音频数据进行还原，输出还原后的第二音频数据。本发明减少了婴幼儿睡眠场景下音频和视频的存储空间。

Description

伴睡婴幼儿时音视频压缩和还原方法、装置及设备

技术领域

本发明涉及婴幼儿看护技术领域，尤其涉及一种伴睡婴幼儿时音视频压缩和还原方法、装置及设备。

背景技术

如今，婴幼儿睡眠看护至关重要，其能够促进婴幼儿的健康发展、确保安全的睡眠环境以及维护家长和照顾者的健康和福祉。

然而，婴幼儿睡眠通常需要连续监测较长时间，可能会导致大量的音频和视频数据积累。长时间录制会占用大量的存储空间，特别是高分辨率视频和高质量音频；如果采用高分辨率的视频录制，每一帧的像素数量会增加，导致视频文件更大，高分辨率视频能提供更清晰的图像细节，有利于更好地满足看护需求，但同时也增加了存储空间的需求；同时，对于婴幼儿睡眠监测，可能需要记录高质量的音频，以捕捉婴幼儿细微的声音变化，高质量的音频通常需要较高的采样率和比特率，这会增加音频文件的大小。在婴幼儿睡眠监测中，通常需要进行连续录制，以确保不会错过任何重要的信息。连续录制会产生大量的连续音频和视频文件，进一步增加存储空间的消耗。

现有中国专利CN106534949A公开了一种延长视频监控系统录像存储时间的方法，所述方法包括：设定存储系统占用率的阈值，存储系统占用率超过设定的阈值时开启处理；选择待处理的录像文件；对选择出的录像文件运用图像运动目标检测算法：图像帧间差异法，鉴别当前场景是否为长时间静止场景或快速运动场景；其中长时间静止场景，丢掉所有视频帧，直到有运动场景要素来临；快速运动场景保存所有视频帧，保证视频质量；其他场景保留视频关键帧；智能分析后的数据进行解码和再编码，将编码后的录像文件保存到存储系统。尽管该方法可以在一定程度上减少存储空间的占用，但还是不能解决婴幼儿睡眠场景的视频存储要求，也无法针对婴幼儿睡眠场景中的特定场景目标进行准确地识别，存在大量误差，会影响睡眠看护的正常运行。

为此，如何针对婴幼儿睡眠场景，在保证睡眠看护正常运行的前提条件下，进一步减少音频和视频存储空间是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种伴睡婴幼儿时音视频压缩和还原方法、装置及设备，用以解决现有技术中在婴幼儿睡眠场景下，音频和视频占用存储空间大的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种伴睡婴幼儿时音视频压缩和还原方法，所述方法包括：

S1：获取婴幼儿睡眠场景下的实时视频数据和实时音频数据；

S2：对所述实时视频数据和实时音频数据进行压缩，输出压缩后的第一视频数据和第一音频数据；

S3：对所述第一视频数据和第一音频数据进行检测，获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息；

S4：依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据；

S5：依据所述音频关键信息，对所述第一音频数据进行还原，输出还原后的第二音频数据。

优选地，所述S3包括：

S31：将所述第一视频数据输入预训练的目标检测模型中，输出与婴幼儿睡眠看护相关的关键点和兴趣区域作为所述视频关键信息；

S32：对所述第一音频数据进行分析，输出第一音频数据中各音频帧对应的时域波形作为所述音频关键信息。

优选地，所述S31包括：

S311：获取所述第一视频数据，将所述第一视频数据分解为多帧目标图像；

S312：对各所述目标图像进行关键点检测，输出各目标图像中的实时关键点；

S313：对所述实时关键点与预设的标准关键点进行特征匹配，输出所述与婴幼儿睡眠看护相关的关键点。

优选地，所述S31还包括：

S314：对用户是否预设目标区域进行判断，输出判断结果；

S315：依据所述判断结果，若用户预设了目标区域，则获取所述目标区域作为所述兴趣区域；

S316：依据所述判断结果，若用户未预设目标区域，则将各所述目标图像输入预训练的标志物检测模型中，输出标志物关键点的位置信息；

S317：依据所述位置信息，将标志物关键点围成的闭合区域作为所述兴趣区域。

优选地，所述S4包括：

S41：对各所述与婴幼儿睡眠看护相关的关键点进行协方差计算，输出目标协方差值；

S42：将所述目标协方差值与预设的协方差阈值进行比较，输出目标协方差对应的目标协方差区间；

S43：获取预先定义的协方差区间与GOP值之间的映射关系，依据所述映射关系，将所述目标协方差映射到对应的目标GOP值；

S44：依据所述目标GOP值，对第一视频数据的帧间结构进行调整，输出调整后的目标视频数据。

优选地，所述S4还包括：

S45：获取所述目标视频数据中各帧图像的兴趣区域和预设的主码流视频对应的第一码率和子码流视频对应的第二码率，其中，第一码率大于第二码率；

S46：将所述第一码率作为所述兴趣区域内的编码码率；

S47：将所述第二码率作为所述兴趣区域外的编码码率，输出所述第二视频数据。

优选地，所述S5包括：

S51：获取预设的音频信号能量门限；

S52：依据所述能量门限，获取时域波形中低于所述能量门限的目标音频片段；

S53：利用标识符，对所述目标音频片段的语音信号进行替换，输出替换后的音频数据作为所述第二音频数据。

第二方面，本发明提供了一种伴睡婴幼儿时音视频压缩和还原装置，所述装置包括：

数据获取模块，用于获取婴幼儿睡眠场景下的实时视频数据和实时音频数据；

数据压缩模块，用于对所述实时视频数据和实时音频数据进行压缩，输出压缩后的第一视频数据和第一音频数据；

关键信息检测模块，用于对所述第一视频数据和第一音频数据进行检测，获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息；

视频还原模块，用于依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据；

音频还原模块，用于依据所述音频关键信息，对所述第一音频数据进行还原，输出还原后的第二音频数据。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明提供的伴睡婴幼儿时音视频压缩和还原方法、装置及设备，所述方法包括：获取婴幼儿睡眠场景下的实时视频数据和实时音频数据；对所述实时视频数据和实时音频数据进行压缩，输出压缩后的第一视频数据和第一音频数据；对所述第一视频数据和第一音频数据进行检测，获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息；依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据；依据所述音频关键信息，对所述第一音频数据进行还原，输出还原后的第二音频数据。本发明先对获取的所有实时视频数据和音频数据进行压缩，可以更加有效减少存储空间的占用，同时，在通过对压缩后的第一视频数据和第一音频数据进行检测，可以提取其中的关键信息，基于视频关键信息和音频关键信息，对第一视频数据和第一音频数据进行实时还原，可以得到还原后的第二视频数据和第二音频数据，这有助于恢复视频和音频中关键信息的原始质量，提供更清晰、准确的视听体验，方便后续的观察、分析和记录，因此，本发明能够在保证睡眠看护正常运行的前提条件下，进一步减少音频和视频存储空间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施例1中伴睡婴幼儿时音视频压缩和还原方法的整体工作的流程示意图；

图2为本发明实施例1中提取关键信息的流程示意图；

图3为本发明实施例1中提取与婴幼儿睡眠看护相关的关键点的流程示意图；

图4为本发明实施例1中获取兴趣区域的流程示意图；

图5为本发明实施例1中依据关键点对视频进行第一次还原的流程示意图；

图6为本发明实施例1中依据关键点对视频进行第二次还原的流程示意图；

图7为本发明实施例1中对音频进行还原的流程示意图；

图8为本发明实施例2中伴睡婴幼儿时音视频压缩和还原装置的结构框图；

图9为本发明实施例3中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

请参见图1，本发明实施例1公开了一种伴睡婴幼儿时音视频压缩和还原方法，所述方法包括：

具体地，使用监控摄像头或婴儿监视器，可以实时获取婴幼儿睡眠场景的视频数据，实时视频数据可以显示婴幼儿的睡眠姿势、动作和睡眠质量，包括入睡、翻身、醒来等；视频数据也可以用于监测婴幼儿的安全状况，例如是否滚落或是否存在窒息等危险情况；视频数据还可以显示婴幼儿睡眠环境的温度、光线等信息，帮助父母调整环境条件；使用麦克风或婴儿监护器中的音频传感器，可以获取婴幼儿睡眠场景的实时音频数据，实时音频数据可以提供婴幼儿哭声的信息，帮助父母及时察觉并作出响应，例如安抚婴幼儿或提供所需的关爱；音频数据还可以用于监测婴幼儿的呼吸情况，例如呼吸频率和呼吸声音的变化，帮助父母了解婴幼儿的健康状况。

具体地，使用视频编码器(如H.264或H.265)对视频帧进行压缩，采用帧间压缩技术，利用帧间差异来减少数据量。这种压缩方法可以方便地还原原始视频数据；也可以采用无损压缩算法(如无损JPEG或无损视频编码器)对视频数据进行压缩，保留所有像素信息，以便在解压缩时完全还原视频数据；同时，使用音频编码器(如MP3或AAC)对音频数据进行有损压缩，通过去除听觉上不敏感的信号部分来减少数据量，在还原时，使用相应的解码器可以还原近似原始的音频数据；也可以采用无损音频编码器(如FLAC或ALAC)对音频数据进行无损压缩，保留了原始音频数据的所有信息，以便在解压缩时完全还原音频数据。通过使用能够方便还原的压缩方法有助于在解压缩时保持数据的质量和准确性，确保实时视频数据和实时音频数据在还原后能够准确呈现，提供更好的观看和听觉体验。这样的压缩方法可以在减小数据量的同时，尽量减少对视频和音频质量的影响。

具体地，对第一视频数据进行检测，获取视频关键信息，例如识别视频中的运动目标，并提取相关特征点或特征区域，这些特征点或特征区域可以包括目标的位置、大小、形状等信息；或者选取视频中的关键帧，即具有代表性和重要内容的帧，这些关键帧可以包含场景转变、关键动作或重要事件的信息；也可以评估视频的质量，包括清晰度、对比度、色彩准确性等方面的特征，这些特征可以用于判断视频的可观看性和视觉效果；对第一音频数据进行检测，获取音频关键信息：例如分析音频数据中的声音强度变化和频谱特征，这些特征可以用于判断音频的音量大小、声音的频率范围和频谱分布；或者检测音频数据中的声音事件，如婴儿的哭声、婴儿的呼吸声等。这些声音事件可以提供关于婴幼儿的睡眠状态和健康状况的重要信息；再例如评估音频的质量，包括清晰度、噪音水平、声音的频谱平衡等方面的特征。这些特征可以用于判断音频的可听性和听觉效果。通过检测和获取视频关键信息和音频关键信息，可以更准确地了解婴幼儿睡眠场景下的视频和音频数据，提供有价值的数据分析和应用，例如实时监测婴幼儿的睡眠状态、检测异常事件或提供有效的睡眠分析，同时，也为后续进行还原提供了还原的目标。

在一实施例中，请参见图2，所述S3包括：

具体地，将第一视频数据输入预训练的目标检测模型中，可以获得与婴幼儿睡眠看护相关的关键点和兴趣区域作为视频关键信息，其中，关键点是指视频中具有重要意义或特殊含义的位置或特征点，在婴幼儿睡眠看护场景下，至少包括以下关键点：婴儿的脸部关键点：包括眼睛、嘴巴、鼻子等特征点，用于判断婴儿的表情和面部表达；身体姿势关键点：包括头部、手臂、腿部等关键点，用于分析婴儿的姿势和动作，例如判断是否翻身或伸展；睡眠姿势关键点：包括躺卧、仰卧、侧卧等关键点，用于监测婴儿的睡眠姿势，例如判断是否处于正常睡眠姿势；兴趣区域是指视频中具有特殊关注或重要性的区域。在婴幼儿睡眠看护场景下，至少包括以下区域：婴儿床区域：标识出婴儿所在的床的区域，用于确定婴儿的位置和活动范围；婴儿脸部区域：将视频中婴儿的脸部区域作为兴趣区域，用于分析婴儿的表情和面部特征，识别婴幼儿脸部被遮挡等危险情况。通过提取这些关键点和兴趣区域，可以更精确地描述和分析婴幼儿睡眠场景下的视频数据，为后续的睡眠监测和分析提供有用的信息。

在一实施例中，请参见图3，所述S31包括：

具体地，将第一视频数据按时间顺序分割成一系列连续的图像帧，其中，每一帧目标图像都是视频中的静止图像，可以单独处理和分析。

具体地，通过将目标图像输入预先训练的模型中，预先训练的模型通常是基于深度学习的人体姿态估计或面部关键点检测模型。这些模型经过大规模的训练和学习，能够准确地识别和定位图像中的关键点，它们使用卷积神经网络(CNN)或其他深度学习架构进行构建，并通过大量的标注数据进行训练，获取目标图像中所有婴幼儿和成人的关键点信息，这些关键点可以提供关于姿势、表情、手势等方面的实时信息，有助于了解婴幼儿和成人的状态和行为，通过使用经过预先训练的关键点检测模型，可以自动化地获取目标图像中的实时关键点，减少人工处理的工作量，并提供更准确和可靠的分析结果，这有助于实现对婴幼儿和成人行为的实时监测和评估，为睡眠看护提供更全面和有效的支持。

具体地，对实时关键点与预设的标准关键点进行特征匹配，以输出与婴幼儿睡眠看护相关的关键点；其中，预设的标准关键点通常包括婴幼儿和成人在睡眠看护场景下的特定关键点，例如面部特征点(眼睛、鼻子、嘴巴)、身体姿势关键点(手臂、腿部)、睡眠姿势关键点(侧卧、仰卧)等,这些关键点的选择是基于对睡眠监测的需求和特定应用场景的分析，旨在捕捉与婴幼儿睡眠看护相关的重要信息；特征匹配的方法采用基于特征描述子的匹配算法，如SIFT(尺度不变特征变换)或SURF(加速稳健特征)算法,能够提取图像中的关键点的局部特征，并生成描述子用于匹配,通过计算实时关键点与预设的标准关键点之间的相似性，可以进行特征匹配，并输出与婴幼儿睡眠看护相关的关键点,特征匹配的过程涉及关键点的提取、特征描述子的计算、相似性度量和匹配筛选等步骤,具体而言，使用特征提取算法提取实时关键点和预设的标准关键点的特征描述子，然后计算它们之间的相似性得分，利用阈值或距离度量来筛选出与婴幼儿睡眠看护相关的关键点.通过进行特征匹配，可以实现对实时关键点与预设的标准关键点之间的对应关系的建立,这有助于判断婴幼儿睡眠状态、姿势变化、面部表情等重要信息，提供更全面和准确的睡眠监测和看护支持,同时，特征匹配还可以用于跟踪和定位关键点，实现对婴幼儿睡眠行为的实时监控和分析。

在一实施例中，请参见图4，所述S31还包括：

S314：对用户是否预设目标区域进行判断，输出判断结果；

具体地，通过判断用户是否预设了目标区域，系统可以确定用户是否指定了特定区域进行关注，例如婴儿床的位置或特定区域的摄像头范围，判断结果可以是布尔类型的值，表示用户是否预设了目标区域。

具体地，根据判断结果，如果用户预设了目标区域，系统可以获取该目标区域作为兴趣区域。这样可以确保系统只关注用户感兴趣的特定区域，减少处理的范围和数据量，提高处理效率和准确性。

具体地，根据判断结果，如果用户未预设目标区域，系统可以利用预训练的标志物检测模型对各目标图像进行处理。这个模型可以检测出图像中的标志物，并输出其关键点的位置信息。标志物可以是在婴幼儿睡眠场景中常见的物体或特定标记，如婴儿玩具、摄像头标识等。

具体地，根据位置信息，系统可以将标志物关键点围成的闭合区域作为兴趣区域。通过确定标志物关键点的位置，系统可以生成一个边界框或多边形，将其作为感兴趣的区域进行后续处理和分析。这样可以确保系统只处理标志物所在的区域，减少不必要的计算和资源消耗。系统可以根据用户的预设或标志物检测，确定婴幼儿睡眠监测中的感兴趣区域，从而提高系统的效率和准确性，同时，针对用户预设与否的不同情况，系统能够灵活地适应各种应用场景，满足用户的个性化需求。

具体地，将第一音频数据进行分帧处理，将其切割成若干个连续的音频帧。每个音频帧通常包含几毫秒至几十毫秒的音频信号；对每个音频帧进行时域分析，可以得到该帧对应的时域波形，时域波形是音频信号在时间上的振幅变化图形，它展示了音频信号的波动情况；将每个音频帧对应的时域波形作为音频关键信息输出。这样就可以获得第一音频数据中各音频帧的时域波形，从而了解音频信号在不同时间点的声音特征。通过输出音频关键信息(即各音频帧的时域波形)，可以实现对婴幼儿睡眠场景下的实时音频数据进行分析和处理；例如，可以通过时域波形来检测婴幼儿的睡眠状态，分析睡眠中的呼吸、哭闹等声音特征，或者进行婴儿啼哭的识别等应用，同时，时域波形也可以用于后续的音频处理和特征提取，帮助更全面地了解音频数据的内容和特性。

具体地，依据所述视频关键信息，可以对第一视频数据进行还原，输出还原后的第二视频数据，其中，具体的还原过程涉及视频帧的插值、补偿和修复等技术手段，以尽可能恢复原始视频的质量和完整性。

在一实施例中，请参见图5，所述S4包括：

具体地，对各所述与婴幼儿睡眠看护相关的关键点进行协方差计算，协方差矩阵Cov(x,y)的计算可以通过以下步骤进行：计算特征点P1、P2、P3、P4、P5在x轴方向上的均值，记为x_mean；计算特征点P1、P2、P3、P4、P5在y轴方向上的均值，记为y_mean；对于每个特征点Pi，计算其与x_mean的差值，记为xi-x_mean；对于每个特征点Pi，计算其与y_mean的差值，记为yi-y_mean；计算每个特征点对应的偏差乘积，即(x_i-x_mean)*(y_i-y_mean)；对所有特征点的偏差乘积进行求和，得到目标协方差值Cov(x,y)，最终的目标协方差值Cov(x,y)表示特征点之间在x和y轴方向上的相关性。

具体地，获取预设的多个协方差阈值，例如m0、m1、m2、m3，表示不同的阈值范围；将目标协方差值与每个阈值范围进行比较，确定它所属的目标协方差区间；比较的方式可以是通过判断目标协方差值是否在某个阈值范围内，或者计算目标协方差值与每个阈值范围的距离，选择最接近的范围；输出目标协方差对应的目标协方差区间，例如n0、n1、n2、n3、n4，表示确定的阈值范围。

具体地，预先定义协方差区间与GOP值之间的映射关系，例如映射表、映射函数或其他定义方式；根据目标协方差值确定所属的目标协方差区间；根据所述映射关系，将目标协方差区间映射到对应的目标GOP值，直接查找映射表中的对应值，或者通过映射函数进行计算得到，输出映射得到的目标GOP值，表示根据目标协方差值确定的编码器的GOP值。

具体地，根据所述目标GOP值，可以对第一视频数据的帧间结构进行调整，以生成调整后的目标视频数据，GOP(是视频编码中关键的概念，用于描述视频帧的编码结构。调整帧间结构可以影响视频的压缩效率和质量，其调整方法为：根据目标GOP值，确定关键帧(I帧)、预测帧(P帧)和双向预测帧(B帧)的数量和间隔；I帧是关键帧，是视频序列中独立编码的帧，没有依赖其他帧；在目标GOP值的间隔内，确定I帧的位置，并确保每个I帧之间的间隔与目标GOP值相符；P帧是前向预测帧，依赖于之前的I帧或P帧，用于预测当前帧的像素信息。根据目标GOP值，确定P帧的位置和间隔；B帧是双向预测帧，依赖于之前的I帧或P帧和之后的P帧，通过前向和后向预测来生成当前帧的像素信息，根据目标GOP值，确定B帧的位置和间隔。根据确定的I帧、P帧和B帧的位置和间隔，调整第一视频数据的帧间结构，并输出调整后的目标视频数据。调整帧间结构可以根据编码器的要求和优化目标，使得视频压缩效率更高，存储空间更有效利用，并且在保证一定视频质量的情况下减少数据量。

在一实施例中，请参见图6，所述S4还包括：

S46：将所述第一码率作为所述兴趣区域内的编码码率；

具体地，将第一码率作为兴趣区域内的编码码率。兴趣区域是指在视频帧中用户所关注的区域，可能是婴幼儿的睡眠区域或其他重要区域。将第一码率应用于兴趣区域可以保证在该区域内有更高的视频质量和更多的细节信息。

具体地，将第二码率作为兴趣区域外的编码码率。兴趣区域外是指兴趣区域以外的视频帧区域，可能是背景或其他不太重要的区域。将第二码率应用于兴趣区域外可以降低编码复杂度和存储空间，因为在这些区域内的视频质量要求较低。

具体地，根据所述音频关键信息，对第一音频数据进行还原，输出还原后的第二音频数据；音频关键信息通常包括音频的特征点、频谱信息或者其他与音频特征相关的数据。这些关键信息可以用于还原原始音频数据，以便恢复其原始质量和内容。具体的还原过程可以采用信号处理技术或音频解码算法，根据音频关键信息对第一音频数据进行处理。这可能包括去除噪音、补偿损失的频谱信息或还原被压缩的音频信号。通过这样的还原过程，可以得到还原后的第二音频数据，其质量和内容与原始音频数据更接近，提供更好的音频体验和信息准确性。

在一实施例中，请参见图7，所述S5包括：

S51：获取预设的音频信号能量门限；

具体地，语音信号的时域波形反应了语音信号的能量变化，对于语音时域波形中小于门限M的语音在录制中用一个标识E代替，对于大于门限M的语音则正常记录器数值。根据实际硬件实际测得经验值M，一般为安静时候的门限值，由于在婴儿看护器中录像中大部分时间环境音为安静状态，这段时间的语音数据不被记录，在保证语音被记录的情况下，去除无用的语音数据达到减小录像存储空间的目的。

实施例2

请参见图8，本发明实施例2还提供了一种伴睡婴幼儿时音视频压缩和还原装置，所述装置包括：

具体地，采用本发明实施例提供的伴睡婴幼儿时音视频压缩和还原装置，所述装置包括：数据获取模块，用于获取婴幼儿睡眠场景下的实时视频数据和实时音频数据；数据压缩模块，用于对所述实时视频数据和实时音频数据进行压缩，输出压缩后的第一视频数据和第一音频数据；关键信息检测模块，用于对所述第一视频数据和第一音频数据进行检测，获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息；视频还原模块，用于依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据；音频还原模块，用于依据所述音频关键信息，对所述第一音频数据进行还原，输出还原后的第二音频数据。本装置先对获取的所有实时视频数据和音频数据进行压缩，可以更加有效减少存储空间的占用，同时，在通过对压缩后的第一视频数据和第一音频数据进行检测，可以提取其中的关键信息，基于视频关键信息和音频关键信息，对第一视频数据和第一音频数据进行实时还原，可以得到还原后的第二视频数据和第二音频数据，这有助于恢复视频和音频中关键信息的原始质量，提供更清晰、准确的视听体验，方便后续的观察、分析和记录，因此，本装置能够在保证睡眠看护正常运行的前提条件下，进一步减少音频和视频存储空间。

实施例3

另外，结合图1描述的本发明实施例1的伴睡婴幼儿时音视频压缩和还原方法可以由电子设备来实现。图9示出了本发明实施例3提供的电子设备的硬件结构示意图。

电子设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种伴睡婴幼儿时音视频压缩和还原方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图9所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将所述设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例4

另外，结合上述实施例1中的伴睡婴幼儿时音视频压缩和还原方法，本发明实施例4还可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种伴睡婴幼儿时音视频压缩和还原方法。

综上所述，本发明实施例提供了一种伴睡婴幼儿时音视频压缩和还原方法、装置及设备。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种伴睡婴幼儿时音视频压缩和还原方法，其特征在于，所述方法包括：

S5：依据所述音频关键信息，采用信号处理技术或音频解码算法对所述第一音频数据进行还原，输出还原后的第二音频数据；

其中，所述S3包括：

S32：对所述第一音频数据进行分析，输出第一音频数据中各音频帧对应的时域波形作为所述音频关键信息；

所述S4包括：

S44：依据所述目标GOP值，对第一视频数据的帧间结构进行调整，输出调整后的目标视频数据；

其中，GOP用于描述视频帧的编码结构，调整帧间结构，其调整方法为：根据目标GOP值，确定关键帧、预测帧和双向预测帧的数量和间隔；

所述S4还包括：

S46：将所述第一码率作为所述兴趣区域内的编码码率；

2.根据权利要求1所述的伴睡婴幼儿时音视频压缩和还原方法，其特征在于，所述S31包括：

3.根据权利要求2所述的伴睡婴幼儿时音视频压缩和还原方法，其特征在于，所述S31还包括：

S314：对用户是否预设目标区域进行判断，输出判断结果；

4.根据权利要求1所述的伴睡婴幼儿时音视频压缩和还原方法，其特征在于，所述S5包括：

S51：获取预设的音频信号能量门限；

5.一种伴睡婴幼儿时音视频压缩和还原装置，其特征在于，所述装置包括：

音频还原模块，用于依据所述音频关键信息，采用信号处理技术或音频解码算法对所述第一音频数据进行还原，输出还原后的第二音频数据；

其中，所述对所述第一视频数据和第一音频数据进行检测，获取第一视频数据中的视频关键信息和第一音频数据中的音频关键信息包括：

将所述第一视频数据输入预训练的目标检测模型中，输出与婴幼儿睡眠看护相关的关键点和兴趣区域作为所述视频关键信息；

对所述第一音频数据进行分析，输出第一音频数据中各音频帧对应的时域波形作为所述音频关键信息；

所述依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据包括：

对各所述与婴幼儿睡眠看护相关的关键点进行协方差计算，输出目标协方差值；

将所述目标协方差值与预设的协方差阈值进行比较，输出目标协方差对应的目标协方差区间；

获取预先定义的协方差区间与GOP值之间的映射关系，依据所述映射关系，将所述目标协方差映射到对应的目标GOP值；

依据所述目标GOP值，对第一视频数据的帧间结构进行调整，输出调整后的目标视频数据；

所述依据所述视频关键信息，对所述第一视频数据进行还原，输出还原后的第二视频数据还包括：

获取所述目标视频数据中各帧图像的兴趣区域和预设的主码流视频对应的第一码率和子码流视频对应的第二码率，其中，第一码率大于第二码率；

将所述第一码率作为所述兴趣区域内的编码码率；

将所述第二码率作为所述兴趣区域外的编码码率，输出所述第二视频数据。

6.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。

7.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。