CN114615522B

CN114615522B - 一种低时延的流媒体转码分发的处理方法

Info

Publication number: CN114615522B
Application number: CN202210506041.2A
Authority: CN
Inventors: 李敏; 刘茂
Original assignee: Beijing Changfa Technology Co ltd
Current assignee: Beijing Changfa Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-07-29
Anticipated expiration: 2042-05-11
Also published as: CN114615522A

Abstract

本发明适用于图像通讯技术领域，尤其涉及一种低时延的流媒体转码分发的处理方法，所述方法包括：接收实时流媒体请求，发出画面取样图像，并接收目标定位请求；获取实时画面信息，进行实时存储，并从中分离实时音频信息；进行内容识别，进行画面截取，得到目标区域视频流数据；进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出。本发明仅对目标区域进行视频提取，从而对视频进行压缩处理，在数据处理量需求较小时，则将视频进行压缩后再进行传输，数据处理量较大时则，直接进行视频传输，在此过程中，音频只传输语音识别结果，从而在客户端完成对音频的恢复，以减少数据处理量，从而降低流数据传输的时延，提升用户体验。

Description

一种低时延的流媒体转码分发的处理方法

技术领域

本发明属于图像通讯技术领域，尤其涉及一种低时延的流媒体转码分发的处理方法。

背景技术

流媒体是指将一连串的媒体数据压缩后，经过网上分段发送数据，在网上即时传输影音以供观赏的一种技术与过程，此技术使得数据包得以像流水一样发送；如果不使用此技术，就必须在使用前下载整个媒体文件。

流式传输可传送现场影音或预存于服务器上的影片，当观看者在收看这些影音文件时，影音数据在送达观看者的计算机后立即由特定播放软件播放。

在当前的流媒体处理过程中，由于数据传输量较大，容易出现时延较高的问题，而出现时延则会影响用户的使用体验。

发明内容

本发明实施例的目的在于提供一种低时延的流媒体转码分发的处理方法，旨在解决背景技术第三部分中提出的问题。

本发明实施例是这样实现的，一种低时延的流媒体转码分发的处理方法，所述方法包括：

接收实时流媒体请求，根据实时流媒体请求发出画面取样图像，并接收目标定位请求；

获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息；

对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据；

对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出。

优选的，所述获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息的步骤，具体包括：

获取实时画面信息，单独提取实时画面对应的音轨，得到实时音频信息；

按照预设时长对实时画面信息进行片段划分，得到视频片段；

对视频片段进行画面帧对比，对实时画面信息进行压缩存储。

优选的，所述对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据的步骤，具体包括：

对实时画面信息进行内容识别，确定目标定位请求中目标所在位置；

根据目标所在位置，对实时画面进行画面截取，得到区域截图数据流；

根据区域截图数据流合成目标区域视频流数据。

优选的，所述对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出的步骤，具体包括：

对实时音频信息进行语音识别，得到语音识别结果；

计算待处理数据以及数据处理速度判断是否采用本地存储的实时画面信息作为目标区域视频流数据；

根据判断结果，生成目标区域视频流数据，并将其与语音识别结果经压缩和转码后发出。

优选的，实时流媒体请求来自客户端，客户端内存储有预设语音，所述预设语音根据实时画面信息进行提取获得。

优选的，所述客户端还存储有人员声纹信息，所述人员声纹信息根据实时画面信息进行提取获得。

优选的，客户端接收语音识别结果和目标区域视频流数据之后，根据语音识别结果调取人员声纹信息，并据此生成音轨，并将音轨录入到目标区域视频流数据中。

优选的，若客户端中没有对应的人员声纹信息，则调取预设的备用声纹信息完成音轨的制作。

本发明实施例的另一目的在于提供一种低时延的流媒体转码分发的处理系统，所述系统包括：

请求接收模块，用于接收实时流媒体请求，根据实时流媒体请求发出画面取样图像，并接收目标定位请求；

画面存储模块，用于获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息；

流数据提取模块，用于对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据；

流数据发送模块，用于对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出。

优选的，所述画面存储模块包括：

音轨提取单元，用于获取实时画面信息，单独提取实时画面对应的音轨，得到实时音频信息；

片段划分单元，用于按照预设时长对实时画面信息进行片段划分，得到视频片段；

数据压缩单元，用于对视频片段进行画面帧对比，对实时画面信息进行压缩存储。

优选的，所述流数据提取模块包括：

目标定位单元，用于对实时画面信息进行内容识别，确定目标定位请求中目标所在位置；

画面截图单元，用于根据目标所在位置，对实时画面进行画面截取，得到区域截图数据流；

视频合成单元，用于根据区域截图数据流合成目标区域视频流数据。

优选的，所述流数据发送模块包括：

语音识别单元，用于对实时音频信息进行语音识别，得到语音识别结果；

来源判断单元，用于计算待处理数据以及数据处理速度判断是否采用本地存储的实时画面信息作为目标区域视频流数据；

流数据处理单元，用于根据判断结果更新目标区域视频流数据，并将其与语音识别结果经压缩和转码后发出。

本发明实施例提供的一种低时延的流媒体转码分发的处理方法，通过对视频的音频和视频进行分离，并仅对目标区域进行视频提取，从而对视频进行压缩处理，在数据处理量需求较小时，则将视频进行压缩后再进行传输，数据处理量较大时则，直接进行视频传输，在此过程中，音频只传输语音识别结果，从而在客户端完成对音频的恢复，以减少数据处理量，从而降低流数据传输的时延，提升用户体验。

附图说明

图1为本发明实施例提供的一种低时延的流媒体转码分发的处理方法的流程图；

图2为本发明实施例提供的获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息的步骤的流程图；

图3为本发明实施例提供的对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据的步骤的流程图；

图4为本发明实施例提供的对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出的步骤的流程图；

图5为本发明实施例提供的一种低时延的流媒体转码分发的处理系统的架构图；

图6为本发明实施例提供的画面存储模块的架构图；

图7为本发明实施例提供的流数据提取模块的架构图；

图8为本发明实施例提供的流数据发送模块的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

流式传输可传送现场影音或预存于服务器上的影片，当观看者在收看这些影音文件时，影音数据在送达观看者的计算机后立即由特定播放软件播放。在当前的流媒体处理过程中，由于数据传输量较大，容易出现时延较高的问题，而出现时延则会影响用户的使用体验。

本发明中，通过对视频的音频和视频进行分离，并仅对目标区域进行视频提取，从而对视频进行压缩处理，在数据处理量需求较小时，则将视频进行压缩后再进行传输，数据处理量较大时则，直接进行视频传输，在此过程中，音频只传输语音识别结果，从而在客户端完成对音频的恢复，以减少数据处理量，从而降低流数据传输的时延，提升用户体验。

如图1所示，为本发明实施例提供的一种低时延的流媒体转码分发的处理方法的流程图，所述方法包括：

S100，接收实时流媒体请求，根据实时流媒体请求发出画面取样图像，并接收目标定位请求。

在本步骤中，接收实时流媒体请求，作为本发明的一个应用场景，以应用于家庭环境中的视频监控为例，利用设置的摄像头进行数据采集，采集得到的数据包括视频和音频，视频和音频在采集之后，将会按照预设时长进行存储，如以五分钟为一个视频段，进行分段存储，用户则使用客户端，通过客户端发出实时流媒体请求，接收到实时流媒体请求之后，则向客户端发送一组画面取样图像，用户根据画面取样图像选择一个需要被监控的目标，当然用户也可以选择全域作为监控目标，并将其录入至目标定位请求之中，再次通过客户端发出。

S200，获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息。

在本步骤中，获取实时画面信息，摄像头采集到大量的视频数据，将其进行存储，为了节省存储空间，可以采用相邻画面帧对比的方式，以一张图片代替视频中某一时长对应的画面无变动的视频，在后续需要查看时，据此进行视频恢复即可，并且将音频单独分离，得到实时音频信息。

S300，对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据。

在本步骤中，对实时画面信息进行内容识别，然后读取目标定位请求，从目标定位请求中判断本次需要进行监控的目标，进而从实时画面中对该目标进行追踪，从画面中截取包含该目标的区域，在进行截取时，截取得到的画面应当为矩形框，矩形框应大于目标的最大尺寸，如目标的最大宽度为2000像素点，长度为3000像素点，则矩形框至少为3000像素点*4500像素点，使其覆盖目标，得到目标区域视频流数据，此时，上述信息作为需要传输的数据，而在本地，仍将完成的实时画面进行存储。

S400，对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出。

在本步骤中，对实时音频信息进行语音识别，为了进一步减少数据传输量，先对实时音频进行语音识别，确定语音包含的内容，即文字内容，对于通过语音识别的音频，则将其与预设在本地的预设语音进行对比，实时流媒体请求来自客户端，客户端内存储有预设语音，所述预设语音根据实时画面信息进行提取获得，具体的，在监控过程中，实时对语音进行分析，根据语音分析，提取不同人物的声纹信息，即得到人员声纹信息，将其同时存储在本地以及客户端当中，无法识别的语音直接将其截取存储在本地和客户端，并赋予其相应的编号，在根据用户请求进行语音识别时，若遇到无法识别得到文字的，如宠物的叫声，则将其与存储在本地的语音进行比对，从而判断其内容，确定其编号，将其与目标区域视频流数据经压缩和转码后发出，发送至客户端，客户端接收之后，则根据文字内容，调取相应的人员声纹信息，生成音轨，若客户端中没有对应的人员声纹信息，则调取预设的备用声纹信息完成音轨的制作。

如图2所示，作为本发明的一个优选实施例，所述获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息的步骤，具体包括：

S201，获取实时画面信息，单独提取实时画面对应的音轨，得到实时音频信息。

在本步骤中，获取实时画面信息，即接收来自摄像头采集的视频数据，并同步分离其中包含的音频信息，即得到音轨，音轨中记录有不同时间对应的声音信号。

S202，按照预设时长对实时画面信息进行片段划分，得到视频片段。

在本步骤中，按照预设时长对实时画面信息进行片段划分，具体的预设时长可以根据用户需求进行设定，如用户可以设定10分钟为一个段落，也可以设置1分钟为一个段落，以得到多个视频片段。

S203，对视频片段进行画面帧对比，对实时画面信息进行压缩存储。

在本步骤中，对视频片段进行画面帧对比，通过二值化，并比较相邻两组画面帧之间的像素的变化情况，判断画面的变动区域大小，当其变动区域所占比例小于预设值时，则视为未出现变动，以一张图片代替视频中某一时长对应的画面无变动的视频即可，若大于预设值，则说明出现变动，则需要对两组画面帧均进行存储。

如图3所示，作为本发明的一个优选实施例，所述对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据的步骤，具体包括：

S301，对实时画面信息进行内容识别，确定目标定位请求中目标所在位置。

在本步骤中，对实时画面信息进行内容识别，然后根据目标定位请求，对实时画面信息进行检索，判定目标所在位置，若目标为人，则通过面部识别的方式，确定用户所在的位置，若目标不为人，则根据其特征确定其位置，特征包括形状和色彩。

S302，根据目标所在位置，对实时画面进行画面截取，得到区域截图数据流。

在本步骤中，根据目标所在位置，对实时画面进行画面截取，确定目标所在位置之后，计算目标的最大长度和最大宽度，上述最大长度和最大宽度均以像素点的数量进行计算，从而以矩形框对其进行框选，进而扩大选取区域，完成截图，得到区域截图数据流。

S303，根据区域截图数据流合成目标区域视频流数据。

在本步骤中，区域截图数据流包含多组截图，因此，按照时间顺序和播放帧率进行拼接即可。

如图4所示，作为本发明的一个优选实施例，所述对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出的步骤，具体包括：

S401，对实时音频信息进行语音识别，得到语音识别结果。

在本步骤中，对实时音频信息进行语音识别，通过语音识别，将其中包含的人物语音转化为文字，而将其中包含的不能被语音识别，如宠物叫声等作为单独语音进行提取，并将其与本地存储的语音进行比较，确定相应的语音内容。

S402，计算待处理数据以及数据处理速度判断是否采用本地存储的实时画面信息作为目标区域视频流数据。

S403，根据判断结果更新目标区域视频流数据，并将其与语音识别结果经压缩和转码后发出。

在本步骤中，根据待处理数据的数量以及数据处理速度，判断系统性能空置率，当空置率大于预设值时，则采用本地存储的实时画面信息作为目标区域视频流数据，即先完成视频的压缩处理，然后对其进行传输，如空置率不大于预设值，则说明当前系统较为繁忙，直接将实时采集的画面作为目标区域视频流数据进行传输，传输时，需要对其进行压缩和转码。

如图5所示，为本发明提供的一种低时延的流媒体转码分发的处理系统，所述系统包括：

请求接收模块100，用于接收实时流媒体请求，根据实时流媒体请求发出画面取样图像，并接收目标定位请求。

在本系统中，请求接收模块100接收实时流媒体请求，作为本发明的一个应用场景，以应用于家庭环境中的视频监控为例，利用设置的摄像头进行数据采集，采集得到的数据包括视频和音频，视频和音频在采集之后，将会按照预设时长进行存储，如以五分钟为一个视频段，进行分段存储，用户则使用客户端，通过客户端发出实时流媒体请求，接收到实时流媒体请求之后，则向客户端发送一组画面取样图像，用户根据画面取样图像选择一个需要被监控的目标，当然用户也可以选择全域作为监控目标，并将其录入至目标定位请求之中，再次通过客户端发出。

画面存储模块200，用于获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息。

在本系统中，画面存储模块200获取实时画面信息，摄像头采集到大量的视频数据，将其进行存储，为了节省存储空间，可以采用相邻画面帧对比的方式，以一张图片代替视频中某一时长对应的画面无变动的视频，在后续需要查看时，据此进行视频恢复即可，并且将音频单独分离，得到实时音频信息。

流数据提取模块300，用于对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据。

在本系统中，流数据提取模块300对实时画面信息进行内容识别，然后读取目标定位请求，从目标定位请求中判断本次需要进行监控的目标，进而从实时画面中对该目标进行追踪，从画面中截取包含该目标的区域，在进行截取时，截取得到的画面应当为矩形框，矩形框应大于目标的最大尺寸，如目标的最大宽度为2000像素点，长度为3000像素点，则矩形框至少为3000像素点*4500像素点，使其覆盖目标，得到目标区域视频流数据，此时，上述信息作为需要传输的数据，而在本地，仍将完成的实时画面进行存储。

流数据发送模块400，用于对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出。

在本系统中，流数据发送模块400对实时音频信息进行语音识别，为了进一步减少数据传输量，先对实时音频进行语音识别，确定语音包含的内容，即文字内容，对于通过语音识别的音频，则将其与预设在本地的预设语音进行对比，实时流媒体请求来自客户端，客户端内存储有预设语音，所述预设语音根据实时画面信息进行提取获得，具体的，在监控过程中，实时对语音进行分析，根据语音分析，提取不同人物的声纹信息，即得到人员声纹信息，将其同时存储在本地以及客户端当中，无法识别的语音直接将其截取存储在本地和客户端，并赋予其相应的编号，在根据用户请求进行语音识别时，若遇到无法识别得到文字的，如宠物的叫声，则将其与存储在本地的语音进行比对，从而判断其内容，确定其编号，将其与目标区域视频流数据经压缩和转码后发出，发送至客户端，客户端接收之后，则根据文字内容，调取相应的人员声纹信息，生成音轨，若客户端中没有对应的人员声纹信息，则调取预设的备用声纹信息完成音轨的制作。

如图6所示，作为本发明的一个优选实施例，所述画面存储模块200包括：

音轨提取单元201，用于获取实时画面信息，单独提取实时画面对应的音轨，得到实时音频信息。

在本模块中，音轨提取单元201获取实时画面信息，即接收来自摄像头采集的视频数据，并同步分离其中包含的音频信息，即得到音轨，音轨中记录有不同时间对应的声音信号。

片段划分单元202，用于按照预设时长对实时画面信息进行片段划分，得到视频片段。

在本模块中，片段划分单元202按照预设时长对实时画面信息进行片段划分，具体的预设时长可以根据用户需求进行设定，如用户可以设定10分钟为一个段落，也可以设置1分钟为一个段落，以得到多个视频片段。

数据压缩单元203，用于对视频片段进行画面帧对比，对实时画面信息进行压缩存储。

在本模块中，数据压缩单元203对视频片段进行画面帧对比，通过二值化，并比较相邻两组画面帧之间的像素的变化情况，判断画面的变动区域大小，当其变动区域所占比例小于预设值时，则视为未出现变动，以一张图片代替视频中某一时长对应的画面无变动的视频即可，若大于预设值，则说明出现变动，则需要对两组画面帧均进行存储。

如图7所示，作为本发明的一个优选实施例，所述流数据提取模块300包括：

目标定位单元301，用于对实时画面信息进行内容识别，确定目标定位请求中目标所在位置。

在本模块中，目标定位单元301对实时画面信息进行内容识别，然后对根据目标定位请求，对实时画面信息进行检索，判定目标所在位置，若目标为人，则通过面部识别的方式，确定用户所在的位置，若目标不为人，则根据其特征确定其位置，如形状和色彩。

画面截图单元302，用于根据目标所在位置，对实时画面进行画面截取，得到区域截图数据流。

在本模块中，画面截图单元302根据目标所在位置，对实时画面进行画面截取，确定目标所在位置之后，计算目标的最大长度和最大宽度，上述最大长度和最大宽度均以像素点的数量进行计算，从而以矩形框对其进行框选，进而扩大选取区域，完成截图，得到区域截图数据流。

视频合成单元303，用于根据区域截图数据流合成目标区域视频流数据。

如图8所示，作为本发明的一个优选实施例，所述流数据发送模块400包括：

语音识别单元401，用于对实时音频信息进行语音识别，得到语音识别结果。

在本模块中，语音识别单元401对实时音频信息进行语音识别，通过语音识别，将其中包含的人物语音转化为文字，而将其中包含的不能被语音识别，如宠物叫声等作为单独语音进行提取，并将其与本地存储的语音进行比较，确定相应的语音内容。

来源判断单元402，用于计算待处理数据以及数据处理速度判断是否采用本地存储的实时画面信息作为目标区域视频流数据。

流数据处理单元403，用于根据判断结果更新目标区域视频流数据，并将其与语音识别结果经压缩和转码后发出。

在本模块中，根据待处理数据的数量以及数据处理速度，判断系统性能空置率，当空置率大于预设值时，则采用本地存储的实时画面信息作为目标区域视频流数据，即先完成视频的压缩处理，然后对其进行传输，如空置率不大于预设值，则说明当前系统较为繁忙，直接将实时采集的画面作为目标区域视频流数据进行传输，传输时，需要对其进行压缩和转码。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种低时延的流媒体转码分发的处理方法，其特征在于，所述方法包括：

对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出；

所述对实时画面信息进行内容识别，根据目标定位请求进行画面截取，得到目标区域视频流数据的步骤，具体包括：

根据区域截图数据流合成目标区域视频流数据。

2.根据权利要求1所述的低时延的流媒体转码分发的处理方法，其特征在于，所述获取实时画面信息，对实时画面信息进行实时存储，并从中分离实时音频信息的步骤，具体包括：

3.根据权利要求1所述的低时延的流媒体转码分发的处理方法，其特征在于，所述对实时音频信息进行语音识别，将语音识别结果和目标区域视频流数据经压缩和转码后发出的步骤，具体包括：

对实时音频信息进行语音识别，得到语音识别结果；

根据判断结果更新目标区域视频流数据，并将其与语音识别结果经压缩和转码后发出。

4.根据权利要求1所述的低时延的流媒体转码分发的处理方法，其特征在于，实时流媒体请求来自客户端，客户端内存储有预设语音，所述预设语音根据实时画面信息进行提取获得。

5.根据权利要求4所述的低时延的流媒体转码分发的处理方法，其特征在于，所述客户端还存储有人员声纹信息，所述人员声纹信息根据实时画面信息进行提取获得。

6.根据权利要求5所述的低时延的流媒体转码分发的处理方法，其特征在于，客户端接收语音识别结果和目标区域视频流数据之后，根据语音识别结果调取人员声纹信息，并据此生成音轨，并将音轨录入到目标区域视频流数据中。

7.根据权利要求6所述的低时延的流媒体转码分发的处理方法，其特征在于，若客户端中没有对应的人员声纹信息，则调取预设的备用声纹信息完成音轨的制作。