CN115064176A

CN115064176A - 一种声纹筛系统及方法

Info

Publication number: CN115064176A
Application number: CN202210712269.7A
Authority: CN
Inventors: 徐海; 汪泽培
Original assignee: Guangzhou Desam Audio Co ltd
Current assignee: Guangzhou Desam Audio Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-16
Anticipated expiration: 2042-06-22
Also published as: CN115064176B

Abstract

本发明适用于声纹处理技术领域，尤其涉及一种声纹筛系统及方法，所述方法包括：获取预录音频数据，得到常驻准入声纹；实时获取实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹；进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入；根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出。本发明通过事先录制预录音频，根据预录音频判断在本次使用范围内的人声，并在使用过程中，监测新增的人声，根据新增人声的内容判断是否准入，从而在进行音频混合时，将收集到的音频数据与背景音频进行混合输出，避免了声反馈的问题，也解决了使用者临时加入的问题。

Description

一种声纹筛系统及方法

技术领域

本发明属于声纹处理技术领域，尤其涉及一种声纹筛系统及方法。

背景技术

声纹，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不变。

在扩声系统中，声反馈产生的原因是音箱发出的声音折回到话筒，再送到扩声系统放大，并再经音箱送出，而后又折回到话筒，从而形成正反馈，如此循环所致。啸叫不仅是一种让人很难受的噪声，深度的啸叫还会使系统信号过强，从而烧毁功放或音箱。

现有技术中，有的采用反馈抑制器来识别声反馈的频率，进而将其衰减，从而在不影响音质的情况下，降低声反馈带来的影响，但是现有技术对声反馈的处理效果不够理想。

发明内容

本发明实施例的目的在于提供一种声纹筛方法，旨在解决现有技术对声反馈的处理效果不够理想的问题，本发明中，通过对声纹进行识别，从而识别不同的人声，判断准予播放的音频，将其与背景音频混合后输出，避免了声反馈现象。

本发明实施例是这样实现的，一种声纹筛方法，所述方法包括：

获取预录音频数据，根据预录音频数据提取声纹信息，得到常驻准入声纹；

实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹；

对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入；

根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出。

优选的，所述实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹的步骤，具体包括：

实时获取收录得到的实时音频信息，对其进行实时声纹分析，同步提取其中的声纹；

将提取得到的声纹与常驻准入声纹进行比对，识别其中的常驻准入声纹；

将其他无法与常驻准入声纹匹配的声纹划分为新增声纹。

优选的，所述对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入的步骤，具体包括：

对常驻准入声纹和新增声纹进行内容识别，分别得到常驻声纹内容以及新增声纹内容；

对比常驻声纹内容和新增声纹内容，判断两者的重合度，所述重合度为语音识别内容的重合度；

重合度超过预设值的新增声纹内容对应的新增声纹获得准入许可。

优选的，所述根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出的步骤，具体包括：

根据常驻准入声纹以及准入的新增声纹进行音频提取，获得常驻音频以及新增音频；

对常驻音频和新增音频进行叠加处理，并调取背景音频；

根据背景音频对应的音频内容，将叠加后的常驻音频和新增音频插入，并输出。

优选的，对常驻准入声纹以及准入的新增声纹进行存储。

优选的，被存储的常驻准入声纹以及准入的新增声纹在预设时长之后失效。

本发明实施例的另一目的在于提供一种声纹筛系统，所述系统包括：

声纹分析模块，用于获取预录音频数据，根据预录音频数据提取声纹信息，得到常驻准入声纹；

声纹分类模块，用于实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹；

声纹识别模块，用于对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入；

音频混合模块，用于根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出。

优选的，所述声纹分类模块包括：

音频分析单元，用于实时获取收录得到的实时音频信息，对其进行实时声纹分析，同步提取其中的声纹；

声纹比对单元，用于将提取得到的声纹与常驻准入声纹进行比对，识别其中的常驻准入声纹；

声纹管理单元，用于将其他无法与常驻准入声纹匹配的声纹划分为新增声纹。

优选的，所述声纹识别模块包括：

语音识别单元，用于对常驻准入声纹和新增声纹进行内容识别，分别得到常驻声纹内容以及新增声纹内容；

重合度计算单元，用于对比常驻声纹内容和新增声纹内容，判断两者的重合度，所述重合度为语音识别内容的重合度；

声纹许可单元，用于重合度超过预设值的新增声纹内容对应的新增声纹获得准入许可。

优选的，所述声纹识别模块包括：

本发明实施例提供的一种声纹筛方法，通过事先录制预录音频，根据预录音频判断在本次使用范围内的人声，并在使用过程中，监测新增的人声，根据新增人声的内容判断是否准入，从而在进行音频混合时，将收集到的音频数据与背景音频进行混合输出，避免了声反馈的问题，也解决了使用者临时加入的问题。

附图说明

图1为本发明实施例提供的一种声纹筛方法的流程图；

图2为本发明实施例提供的实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹的步骤的流程图；

图3为本发明实施例提供的对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入的步骤的流程图；

图4为本发明实施例提供的根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出的步骤的流程图；

图5为本发明实施例提供的一种声纹筛系统的架构图；

图6为本发明实施例提供的一种声纹分类模块的架构图；

图7为本发明实施例提供的一种声纹识别模块的架构图；

图8为本发明实施例提供的一种音频混合模块的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

在扩声系统中，声反馈产生的原因是音箱发出的声音折回到话筒，再送到扩声系统放大，并再经音箱送出，而后又折回到话筒，从而形成正反馈，如此循环所致。啸叫不仅是一种让人很难受的噪声，深度的啸叫还会使系统信号过强，从而烧毁功放或音箱。现有技术中，有的采用反馈抑制器来识别声反馈的频率，进而将其衰减，从而在不影响音质的情况下，降低声反馈带来的影响，但是现有技术对声反馈的处理效果不够理想。

本发明中，通过事先录制预录音频，根据预录音频判断在本次使用范围内的人声，并在使用过程中，监测新增的人声，根据新增人声的内容判断是否准入，从而在进行音频混合时，将收集到的音频数据与背景音频进行混合输出，避免了声反馈的问题，也解决了使用者临时加入的问题。

如图1所示，为本发明实施例提供的一种声纹筛方法的流程图，所述方法包括：

S100，获取预录音频数据，根据预录音频数据提取声纹信息，得到常驻准入声纹。

在本步骤中，获取预录音频数据，本发明应用于音频收录设备，音频收录设备在收集到人声之后将其结合背景音乐输送至音响等播放设备，在使用之前，需要进行演唱的人员先录制预录音频，得到预录音频数据，具体的，可以直接录制演唱人员的音频，此时，不连接音响设备，通过录制得到音频来提取其中各个演唱人员的声纹，得到常驻准入声纹。

S200，实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹。

在本步骤中，实时获取收录得到的实时音频信息，在正式进行演唱时，对演唱人员的声音进行收录，在此过程中，难免会收集到来自场外观众以及音响设备的音频，此时，对收录到的实时音频信息进行声纹提取，从中提取声纹，通过提取之后，将会得到多种声纹，将每种声纹与常驻准入声纹进行比较，判断其是否归属于常驻准入声纹，不归属与常驻准入声纹的声纹则划分为新增声纹，在此过程中，仅将对属于常驻准入声纹的声纹对应的音频结合背景音乐输送至播放设备，而新增声纹则暂不予播放。

S300，对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入。

在本步骤中，对常驻准入声纹和新增声纹进行内容识别，具体的，通过语音识别的方式，识别其中包含的内容，根据识别结果来判断新增声纹对应的音频内容是否与常驻准入声纹对应的音频内容一致，当两者重合度超过预设值，则判定该新增声纹准入，反之则不准入，基于本判定方式，可以辅以音量判定，即直接筛除响度低于预设值的声纹对应的音频，以避免观众跟唱的音频乱入。

S400，根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出。

在本步骤中，根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，通过进行分类之后，根据常驻准入声纹持续从实时音频信息中提取相应的音频，对于准入的新增音频，说明其是在后续的使用过程中新加入的演唱人员，根据该新增声纹也进行音频提取，得到准入音频数据，此时，准入音频数据仅包含演唱人员的声音，需要将其与播放的背景音乐合并输出，即可避免声反馈的问题；对常驻准入声纹以及准入的新增声纹进行存储；被存储的常驻准入声纹以及准入的新增声纹在预设时长之后失效。

如图2所示，作为本发明的一个优选实施例，所述实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹的步骤，具体包括：

S201，实时获取收录得到的实时音频信息，对其进行实时声纹分析，同步提取其中的声纹。

在本步骤中，实时获取收录得到的实时音频信息，在实际演唱过程中，通过音频收录设备对演唱人员的声音进行收录，从而对收录到的音频进行实时分析，同步提取其中包含的所有声纹，并进行记录。

S202，将提取得到的声纹与常驻准入声纹进行比对，识别其中的常驻准入声纹。

在本步骤中，将提取得到的声纹与常驻准入声纹进行比对，首先要判断提取得到的声纹是否归属于常驻准入声纹，归属于常驻准入声纹则说明对应的音频是来自演唱人员，需要直接对其进行播放，而对于不属于常驻准入声纹的声纹，则需要根据其内容判断是否为新增演唱人员。

S203，将其他无法与常驻准入声纹匹配的声纹划分为新增声纹。

在本步骤中，通过比对之后，能够与常驻准入声纹相匹配的，则确定其为常驻准入声纹，反之，其他声纹则为新增声纹。

如图3所示，作为本发明的一个优选实施例，所述对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入的步骤，具体包括：

S301，对常驻准入声纹和新增声纹进行内容识别，分别得到常驻声纹内容以及新增声纹内容。

在本步骤中，对常驻准入声纹和新增声纹进行内容识别，通过内容识别，得到相应的常驻声纹内容以及新增声纹内容，具体的，采用语音识别，提取其中包含的文字内容。

S302，对比常驻声纹内容和新增声纹内容，判断两者的重合度，所述重合度为语音识别内容的重合度。

在本步骤中，对比常驻声纹内容和新增声纹内容，判断两者的重合度，通过逐字对比，判断文字内容之间的重合度，如在同一时刻，常驻声纹内容中的内容为“A”，新增声纹内容也为“A”，则当前时刻重合，统计10个时刻，如果存在8个时刻对应的内容一致，则重合度为80%。

S303，重合度超过预设值的新增声纹内容对应的新增声纹获得准入许可。

在本步骤中，判断该重合度与预设值之间的大小关系，如设置预设值为80%，那么当重合度大于或等于80%时，则该新增声纹获得准入许可，反之则无法获得准入许可。

如图4所示，作为本发明的一个优选实施例，所述根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出的步骤，具体包括：

S401，根据常驻准入声纹以及准入的新增声纹进行音频提取，获得常驻音频以及新增音频。

在本步骤中，根据常驻准入声纹以及准入的新增声纹进行音频提取，对于准入的新增声纹，在其获得准入许可的时候，对应演唱人员的声音方可输出至播放设备当中，在此之前，该演唱人员处于跟唱状态，在其获得准入许可之前，其声音将不会被播放。

S402，对常驻音频和新增音频进行叠加处理，并调取背景音频。

S403，根据背景音频对应的音频内容，将叠加后的常驻音频和新增音频插入，并输出。

在本步骤中，提取相应的常驻音频和新增音频，利用合成技术，将其进行叠加处理，进而将调取得到的背景音频也同时合并，三者同步输出，在整个实施过程中，直接提取演唱人员对应的音频，避免了声反馈现象。

如图5所示，为本发明实施例提供的一种声纹筛系统，所述系统包括：

声纹分析模块100，用于获取预录音频数据，根据预录音频数据提取声纹信息，得到常驻准入声纹。

在本系统中，声纹分析模块100获取预录音频数据，本发明应用于音频收录设备，音频收录设备在收集到人声之后将其结合背景音乐输送至音响等播放设备，在使用之前，需要进行演唱的人员先录制预录音频，得到预录音频数据，具体的，可以直接录制演唱人员的音频，此时，不连接音响设备，通过录制得到音频来提取其中各个演唱人员的声纹，得到常驻准入声纹。

声纹分类模块200，用于实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹。

在本系统中，声纹分类模块200实时获取收录得到的实时音频信息，在正式进行演唱时，对演唱人员的声音进行收录，在此过程中，难免会收集到来自场外观众以及音响设备的音频，此时，对收录到的实时音频信息进行声纹提取，从中提取声纹，通过提取之后，将会得到多种声纹，将每种声纹与常驻准入声纹进行比较，判断其是否归属于常驻准入声纹，不归属与常驻准入声纹的声纹则划分为新增声纹，在此过程中，仅将对属于常驻准入声纹的声纹对应的音频结合背景音乐输送至播放设备，而新增声纹则暂不予播放。

声纹识别模块300，用于对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入。

在本系统中，声纹识别模块300对常驻准入声纹和新增声纹进行内容识别，具体的，通过语音识别的方式，识别其中包含的内容，根据识别结果来判断新增声纹对应的音频内容是否与常驻准入声纹对应的音频内容一致，当两者重合度超过预设值，则判定该新增声纹准入，反之则不准入，基于本判定方式，可以辅以音量判定，即直接筛除响度低于预设值的声纹对应的音频，以避免观众跟唱的音频乱入。

音频混合模块400，用于根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出。

在本系统中，音频混合模块400根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，通过进行分类之后，根据常驻准入声纹持续从实时音频信息中提取相应的音频，对于准入的新增音频，说明其是在后续的使用过程中新加入的演唱人员，根据该新增声纹也进行音频提取，得到准入音频数据，此时，准入音频数据仅包含演唱人员的声音，需要将其与播放的背景音乐合并输出，即可避免声反馈的问题；对常驻准入声纹以及准入的新增声纹进行存储；被存储的常驻准入声纹以及准入的新增声纹在预设时长之后失效。

如图6所示，作为本发明的一个优选实施例，所述声纹分类模块200包括：

音频分析单元201，用于实时获取收录得到的实时音频信息，对其进行实时声纹分析，同步提取其中的声纹。

在本模块中，音频分析单元201实时获取收录得到的实时音频信息，在实际演唱过程中，通过音频收录设备对演唱人员的声音进行收录，从而对收录到的音频进行实时分析，同步提取其中包含的所有声纹，并进行记录。

声纹比对单元202，用于将提取得到的声纹与常驻准入声纹进行比对，识别其中的常驻准入声纹。

在本模块中，声纹比对单元202将提取得到的声纹与常驻准入声纹进行比对，首先要判断提取得到的声纹是否归属于常驻准入声纹，归属于常驻准入声纹则说明对应的音频是来自演唱人员，需要直接对其进行播放，而对于不属于常驻准入声纹的声纹，则需要根据其内容判断是否为新增演唱人员。

声纹管理单元203，用于将其他无法与常驻准入声纹匹配的声纹划分为新增声纹。

在本模块中，声纹管理单元203通过比对之后，能够与常驻准入声纹相匹配的，则确定其为常驻准入声纹，反之，其他声纹则为新增声纹。

如图7所示，作为本发明的一个优选实施例，所述声纹识别模块300包括：

语音识别单元301，用于对常驻准入声纹和新增声纹进行内容识别，分别得到常驻声纹内容以及新增声纹内容。

在本模块中，语音识别单元301对常驻准入声纹和新增声纹进行内容识别，通过内容识别，得到相应的常驻声纹内容以及新增声纹内容，具体的，采用语音识别，提取其中包含的文字内容。

重合度计算单元302，用于对比常驻声纹内容和新增声纹内容，判断两者的重合度，所述重合度为语音识别内容的重合度。

在本模块中，重合度计算单元302对比常驻声纹内容和新增声纹内容，判断两者的重合度，通过逐字对比，判断文字内容之间的重合度，如在同一时刻，常驻声纹内容中的内容为“A”，新增声纹内容也为“A”，则当前时刻重合，统计10个时刻，如果存在8个时刻对应的内容一致，则重合度为80%。

声纹许可单元303，用于重合度超过预设值的新增声纹内容对应的新增声纹获得准入许可。

在本模块中，声纹许可单元303判断该重合度与预设值之间的大小关系，如设置预设值为80%，那么当重合度大于或等于80%时，则该新增声纹获得准入许可，反之则无法获得准入许可。

如图8所示，作为本发明的一个优选实施例，所述音频混合模块400包括：

音频提取单元401，用于根据常驻准入声纹以及准入的新增声纹进行音频提取，获得常驻音频以及新增音频。

在本模块中，音频提取单元401根据常驻准入声纹以及准入的新增声纹进行音频提取，对于准入的新增声纹，在其获得准入许可的时候，对应演唱人员的声音方可输出至播放设备当中，在此之前，该演唱人员处于跟唱状态，在其获得准入许可之前，其声音将不会被播放。

音频叠加单元402，用于对常驻音频和新增音频进行叠加处理，并调取背景音频。

音频输入单元403，用于根据背景音频对应的音频内容，将叠加后的常驻音频和新增音频插入，并输出。

在本模块中，提取相应的常驻音频和新增音频，利用合成技术，将其进行叠加处理，进而将调取得到的背景音频也同时合并，三者同步输出，在整个实施过程中，直接提取演唱人员对应的音频，避免了声反馈现象。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹筛方法，其特征在于，所述方法包括：

2.根据权利要求1所述的声纹筛方法，其特征在于，所述实时获取收录得到的实时音频信息，提取其中的声纹信息，将其划分为常驻准入声纹和新增声纹的步骤，具体包括：

将其他无法与常驻准入声纹匹配的声纹划分为新增声纹。

3.根据权利要求1所述的声纹筛方法，其特征在于，所述对常驻准入声纹和新增声纹进行内容识别，计算两者对应识别结果的重合度，判断新增声纹是否准入的步骤，具体包括：

4.根据权利要求1所述的声纹筛方法，其特征在于，所述根据常驻准入声纹以及准入的新增声纹从实时音频信息提取准入音频数据，并将其与背景音频一同输出的步骤，具体包括：

对常驻音频和新增音频进行叠加处理，并调取背景音频；

5.根据权利要求1所述的声纹筛方法，其特征在于，对常驻准入声纹以及准入的新增声纹进行存储。

6.根据权利要求5所述的声纹筛方法，其特征在于，被存储的常驻准入声纹以及准入的新增声纹在预设时长之后失效。

7.一种声纹筛系统，其特征在于，所述系统包括：

8.根据权利要求7所述的声纹筛系统，其特征在于，所述声纹分类模块包括：

9.根据权利要求7所述的声纹筛系统，其特征在于，所述声纹识别模块包括：

10.根据权利要求7所述的声纹筛系统，其特征在于，所述音频混合模块包括：

音频提取单元，用于根据常驻准入声纹以及准入的新增声纹进行音频提取，获得常驻音频以及新增音频；

音频叠加单元，用于对常驻音频和新增音频进行叠加处理，并调取背景音频；

音频输入单元，用于根据背景音频对应的音频内容，将叠加后的常驻音频和新增音频插入，并输出。