CN113938708B

CN113938708B - 直播的音频纠错方法、装置、计算设备及存储介质

Info

Publication number: CN113938708B
Application number: CN202111199865.1A
Authority: CN
Inventors: 李宗祥
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2024-04-09
Anticipated expiration: 2041-10-14
Also published as: CN113938708A

Abstract

本发明公开了一种直播的音频纠错方法、装置、计算设备及存储介质，该方法包括：接收直播端发送的直播音频数据，提取直播音频数据的声纹特征；判断直播音频数据的声纹特征与混淆声纹特征是否匹配；其中，混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到；若是，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。通过上述方式，能够识别出直播中表述错误的音频，将表述错误的音频替换为修正音频，能够实时地对直播音频进行纠错。

Description

直播的音频纠错方法、装置、计算设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种直播的音频纠错方法、装置、计算设备及存储介质。

背景技术

目前，越来越多的人会选择通过移动应用来收看体育赛直播。对于体育赛事直播而言，其一大看点就是赛事解说，好的赛事解说可以帮助用户更好地了解比赛情况，增强用户的代入感，提升用户的观看体验。但在直播过程中解说可能会出现失误，会影响用户在观看比赛时的观看体验，有时候甚至会导致用户退出观看从而影响整体的播放量或收视率。

现有的语音实时监控的技术中，第一种方式是通过语音特征识别模型对用户说话的关键词进行识别，如果识别到关键词则认为用户说的话存在问题；第二种方式是针对文本通过知识图谱进行检查文本中的错误。但是，上述第一种方式的检测结果完全依赖于用户配置了多少关键词，语音查错的能力十分有限；上述第二种方式需要将语音转换为文本，而且需要查询庞大的知识图谱库，检测性能非常低，无法适应赛事直播的性能需求。

除此之外，现有技术也没有在检测到说话者的错误表述后进行实时补救处理的技术，只能在直播完成后对录播的内容进行后期的人工编辑，将有错的部分剪掉，尚没有针对于直播的实时音频纠错解决方式。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的直播的音频纠错方法、装置、计算设备及存储介质。

根据本发明的一个方面，提供了一种直播的音频纠错方法，包括：

接收直播端发送的直播音频数据，提取直播音频数据的声纹特征；

判断直播音频数据的声纹特征与混淆声纹特征是否匹配；

其中，混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到；

若是，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

根据本发明的另一方面，提供了一种直播的音频纠错装置，包括：

接收模块，适于接收直播端发送的直播音频数据；

特征提取模块，适于提取直播音频数据的声纹特征；

匹配模块，适于判断直播音频数据的声纹特征与混淆声纹特征是否匹配；

音频替换模块，适于若直播音频数据的声纹特征与混淆声纹特征相匹配，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述直播的音频纠错方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述直播的音频纠错方法对应的操作。

根据本发明的直播的音频纠错方法、装置、计算设备及存储介质，该方法包括：接收直播端发送的直播音频数据，提取直播音频数据的声纹特征；判断直播音频数据的声纹特征与混淆声纹特征是否匹配；其中，混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到；若是，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。通过上述方式，能够实现从语义角度识别出直播音频中解说者表述错误的音频内容，并将识别出的解说者表述错误的音频内容替换为修正音频内容，能够实时地对直播音频进行纠错，使得直播观看者能够收听到正确的解说，保证了用户观看直播的体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的直播的音频纠错方法的流程图；

图2示出了本发明另一实施例提供的直播的音频纠错方法的流程图；

图3示出了本发明另一实施例提供的直播的音频纠错方法的流程图；

图4示出了本发明实施例提供的直播的音频纠错装置的结构示意图；

图5示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的直播的音频纠错方法的流程图，如图1 所示，该方法包括以下步骤：

步骤S101，接收直播端发送的直播音频数据，提取直播音频数据的声纹特征。

直播系统进行赛事直播时，直播端将直播中的音频以流的形式发送至本实施例方法执行主体，例如后台服务器，在直播进行过程中会持续接收到直播音频数据。接收到直播音频数据后，对直播音频数据进行声纹特征提取处理，得到直播音频数据的声纹特征，声纹特征可以包括音高差、频率差和时间差等等。

步骤S102，判断直播音频数据的声纹特征与混淆声纹特征是否匹配。

混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到。

其中，根据知识图谱生成混淆文本，知识图谱描述知识实体之间的关联，例如(乒乓球比赛、甲、冠军)，其中前两个元素表示知识实体，第三个元素表示知识实体之间的关系，通过将该正确的关系替换为错误关系，即可以生成混淆文本，例如将“冠军”替换为“亚军”，得到混淆文本“乒乓球比赛亚军甲”。通过这种方式，能够生成语义错误的混淆文本，以混淆文本为依据进行语音匹配，能够从语义角度识别出直播解说者的表述内容是否出现错误，错误音频识别的准确率更高。

其中，对文本的语音克隆处理是指：克隆说话人的声音，并且将文本以说话人的声音转成音频。则对混淆文本进行语音克隆处理，得到混淆音频数据，其目的是将混淆音频处理成听上去跟直播解说者说的差不多。具体地，首先将混淆文本转换为音频，并且从解说者的音频中获取并克隆直播解说中解说者的声音，再根据音频和解说者声音合成为混淆音频数据。通过这种方式，能够使混淆音频的声音与直播解说者的声音相同，可以省去复杂的语音特征提取工作，能够提升音频匹配的准确性以及匹配性能。

在一种可选的方式中，接收直播音频数据后，对直播音频数据进行分帧处理，即对直播音频数据以固定的窗口大小提取音频帧，提取各个直播音频帧的声纹特征，各个直播音频帧的声纹特征之间也是具有先后顺序的。相应地，将混淆音频数据进行分帧处理，得到各个混淆音频帧，各个混淆音频帧之间具有顺序，提取各个混淆音频帧的声纹特征，得到混淆声纹特征。则在匹配过程中，匹配的是直播音频帧和混淆音频帧的声纹特征。通过比对音频帧的声纹特征，能够提高匹配的准确性。

步骤S103，若直播音频数据的声纹特征与混淆声纹特征相匹配，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

如果直播音频数据的声纹特征与混淆声纹特征相匹配，则说明该直播音频是解说者表述错误的音频，则对这段错误音频进行纠错处理。具体地，获取混淆声纹特征对应的修正音频，将错误音频替换为修正音频。其中，修正音频对应的文本语义是正确的。

举例来说，混淆声纹特征包含第1个到第10个混淆音频帧的声纹特征，通过对比得到，直播音频数据中第20个到第30个直播音频帧的声纹特征与其相匹配，则认为第20个到第30个直播音频帧对应的音频语义是错误的，将混淆声纹特征对应的修正音频替换该语义错误的音频。之后，将替换到直播音频数据处的修正音频数据下发给直播观看端，使得直播观看用户听到的不是解说者说错的内容，而是替换过的正确内容。

如果直播音频数据的声纹特征与混淆声纹特征不匹配，则说明该直播解说者的表述是正确的，则将直播音频数据下发给直播观看端。

根据本实施例所提供的直播的音频纠错方法，接收直播端发送的直播音频数据，提取直播音频数据的声纹特征；判断直播音频数据的声纹特征与混淆声纹特征是否匹配；其中，混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到，通过上述方式，采用语音克隆技术和混淆文本处理得到混淆音频，将直播音频的声纹特征与混淆音频的声纹特征进行匹配，以混淆声纹特征为基础检测出直播音频中解说者错误表述的音频内容，能够实现从语义角度识别出直播音频中解说者表述错误的音频内容；若直播音频数据的声纹特征与混淆声纹特征相匹配，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据，通过上述方式，将识别出的解说者表述错误的音频内容替换为修正音频内容，能够实时地对直播音频进行纠错，使得直播观看者能够收听到正确的解说，保证了用户观看直播的体验。

图2示出了本发明另一实施例提供的直播的音频纠错方法的流程图，如图2所示，该方法包括以下步骤：

步骤S201，接收直播配置信息，根据直播配置信息查询混淆知识图谱。

在直播开始之前，根据配置端发送的直播配置信息，根据直播配置信息配置相关的知识数据。例如，需要解说乒乓球比赛，则用户可在配置端可以输入比赛名称和参赛者的名称等等作为直播配置信息，根据配置端发送的直播配置信息查询相关的混淆知识图谱。

例如，配置端发送的直播配置信息为“乒乓球比赛、甲”，则会输出知识图谱“乒乓球比赛、甲、冠军”，其中，“乒乓球比赛”和“甲”为两个知识实体，“冠军”为这两个知识实体之间的关系。

步骤S202，获取混淆知识图谱中每两个知识实体之间的错误关系，根据该两个知识实体以及错误关系生成混淆文本。

针对于查询到的混淆知识图谱，将其中的每两个知识实体组成对，获取每两个知识实体之间的错误关系，基于该两个知识实体和错误关系，生成混淆文本。

三元知识图谱中只有两个知识实体，例如“乒乓球比赛”和“甲”，只有一种组合方式，即“乒乓球比赛甲夺冠”，这种情况不会产生知识组合的差错。但如果有三个知识实体，例如“乒乓球比赛”、“甲”以及“乙”，这种情况下才可能产生类似“乒乓球比赛乙夺冠”的知识组合错误。

基于此，在一种可选的方式中，基于五元知识图谱来生成混淆文本。以主知识实体保持不变，考察其与两个副知识实体之间的替换组合，一次性来预测图三个知识实体可能会出现的错误。

具体地，混淆知识图谱为五元知识图谱，包括：一个主知识实体、两个副知识实体、两个副知识实体之间的关系以及混淆度。具体结构如下：(知识实体1，知识实体2，知识实体3，知识实体2和知识实体3之间的关系，混淆度)，例如，知识图谱“乒乓球比赛，甲，乙，竞争对手，0.8712”，其中，混淆度表示这三个知识实体会混淆出错的概率，三个知识实体之间的相关度越高，混淆度越高，混淆度用于数据的存储排序，将在后续内容中进行说明。

生成混淆知识图谱的具体实施方式为：根据直播配置信息，查询相匹配的知识关联信息；知识关联信息包含两个知识实体及两个知识实体之间的关系；根据知识关联信息所包含的知识实体进行混淆处理，得到混淆知识图谱；其中，混淆知识图谱中主知识实体与两个副知识实体的关系之间的语义相关度大于预定值。

下面结合具体的示例说明生成混淆知识图谱的实施方式：

步骤1，通过关键词(直播配置信息)获取知识关联信息，知识关联信息为三元知识图谱形式的，三元知识图谱中包含两个知识实体以及两个知识实体之间的关系。例如，通过“乒乓球比赛”、“甲”等关键词进行查询，得到以下知识关联信息：(乒乓球比赛，甲，夺冠)、(乒乓球比赛，乙，参加)、(甲，乙，竞争对手)、(乒乓球比赛，医生，服务)；

步骤2，根据步骤1得到的知识关联信息进行初步混淆，得到初步混淆结果，初步混淆结果包括多个混淆知识图谱，混淆知识图谱中包括主知识实体、两个副知识实体、两个副知识实体之间的关系以及混淆度。

可选地，初步混淆的具体做法是：首先从知识关联信息中挑选出一个知识实体作为主知识实体，确定包含该主知识实体的目标知识关联信息；将目标知识关联信息中的另一知识实体确定为副知识实体；对于每两个副知识实体，从目标知识关联信息中提取出两者的关系；最后，根据主知识实体、两个副知识实体及两者之间的关系，形成初步混淆结果。

沿用上述示例，初步混淆后得到以下结果：(乒乓球比赛，甲，乙，竞争对手，0)、(乒乓球比赛，甲，医生，服务，0)、(乒乓球比赛，医生，乙，服务，0)、其中，混淆度的初始值设为0，后续步骤中计算出真正的混淆度对其进行替换。

步骤3，针对于初步混淆结果中包含的混淆知识图谱，过滤其中的两个副知识实体之间的关系与主知识实体的领域不相关的混淆知识图谱。其中，是否相关根据语义相关度进行判断，设置语义相关度阈值，语义相关度超过该语义相关度阈值，则表明领域相关，反之，则表明领域不相关。

该方式中，用两个副知识实体之间的关系与主知识实体作比较，来排除初步混淆得到的知识图谱中的一些干扰选项。例如，“丙”和“甲”之间的“队友”关系和“乒乓球比赛”这种描述比赛的实体就是相关的，但“甲”和其家人的关系就和“乒乓球比赛”这个赛事知识实体没有关联。因此，通过计算关系和主知识实体的语义向量之间的余弦距离得出相关度，将相关度与预定阈值进行比较，过滤掉副知识实体之间的关系和主知识实体之间的相关度未达到该预定阈值的混淆知识图谱。

具体地，预先通过训练Word2vec模型，使用该模型计算出两个副知识实体之间的关系的语义向量和主知识实体的语义向量，再计算语义向量之间的余弦距离，根据余弦距离得到两者之间的相关度。

例如上述“甲”和“乙”是竞争对手的关系，使用文本相关度判别的方法来确定该关系和主知识实体“乒乓球比赛”是否相关。具体实现时，使用乒乓球比赛领域的海量新闻数据训练出Word2vec模型，使用该模型计算出“乒乓球比赛”和“竞争对手”的语音向量V1和V2，再计算语义向量之间的余弦距离，进而得到两者之间的相关度。

步骤4，针对于过滤后剩余的各个混淆知识图谱，计算出混淆度，进而得到完整的混淆知识图谱。比如完整的混淆知识图谱如：(乒乓球比赛，甲，乙，竞争对手，0.876)，其中混淆度为0.876。

其中，混淆度用于描述五元知识图谱中的知识有多大概率被混淆用错，混淆度根据以下各个信息项计算得到：主知识实体与两个副知识实体之间的关系两者的语义向量之间的余弦距离、主知识实体与两个副知识实体的语义向量之间的余弦距离、主知识实体与各个副知识实体之间的图谱边数、主知识实体与两个副知识实体同时出现的次数信息；

在一种可选的方式中，混淆度的具体计算公式如下：

其中，D_er表示两个副知识实体之间的关系和主知识实体两者的语音向量之间的余弦距离，使用这个值使同一领域的知识获得高的混淆度，即同一领域的知识更容易出错；D_se表示三个知识实体的语音向量之间的余弦距离，求取两两知识实体的语义向量之间的余弦距离，再求取平均值得到三个知识实体的语义向量之间的余弦距离，使用这个值赋予关联紧密的实体更高的混淆度；V_ttl表示每个副知识实体与主知识实体之间的距离，用图谱中从主知识实体到副知识实体的边数表示，边数越少则副知识实体和主知识实体的关系越紧密；α为衰减系数，每经过一个边就进行一次衰减，降低离主知识实体远的副知识实体的相关度，因为离主知识实体越远，副知识实体与主知识实体的领域相关性就越远，出错率也就越低；i表示副实体的编号，最大取值为副知识实体的总数量；V_s是修正参数，指的是主知识实体和副知识实体同时出现的次数，同时出现的次数越多混淆度则越大。

采用上述五元混淆知识图谱，能够预测尽可能多的可能出现混淆的知识实体，举例来说，“乒乓球比赛”和“甲”是“参赛者”的关系，但“甲”和“丙”是“队友”的关系，而“丙”没有参加“乒乓球比赛”，如果依据常规的三元知识图谱，无法建立“乒乓球比赛”和“丙”之间的关联，但是从实际出发，因为“丙”是“甲”的队友且也是乒乓球比赛的主力，这就有可能产生把乒乓球比赛角色的冠军甲说成丙的错误。通过本实施例的五元混淆知识图谱就能够应对这种情况，“乒乓球比赛”这个知识实体可以通过边“参与者”找到“甲”，而“甲”这个知识实体可以通过边“队友”找到“丙”这个实体，进而可以建立起“乒乓球比赛”和“丙”的关系，则“乒乓球比赛”和“丙”的组合也是可能会出现混淆的知识实体。

相应地，在混淆知识图谱为五元知识图谱的方式中，生成混淆文本的具体实施方式为：

针对于任一副知识实体，获取该副知识实体与主知识实体之间的错误关系，根据该副知识实体与主知识实体以及错误关系，生成混淆文本。可选的，使用文本生成模型生成混淆文本。沿用上述示例，针对于混淆知识图谱(乒乓球比赛，甲，乙，竞争对手，0.876)，将主知识实体“乒乓球比赛”和副知识实体“乙”组队，获取这个知识实体之间的错误关系，在此基础上生成混淆文本，如“乙夺得乒乓球比赛的冠军”、“乒乓球比赛冠军是乙”，其中“冠军”即是“乒乓球比赛”和“乙”之间的错误关系。

步骤S203，对混淆文本进行语音克隆处理，得到混淆音频数据；对混淆音频数据进行分帧处理，得到各个混淆音频帧；对各个混淆音频帧进行特征提取，得到混淆声纹特征。

对混淆文本进行语音克隆处理，得到混淆音频数据，其目的是将混淆音频处理成听上去跟直播解说者说的差不多；将混淆音频数据切分为各个混淆音频帧，提取各个混淆音频帧的声纹特征，得到该混淆音频数据对应的混淆声纹特征。

在一种可选的方式中，在生成混淆音频数据之后，将混淆音频数据的标识、混淆声纹特征及其相应的混淆知识图谱中的混淆度相关联存储在混淆语音缓存中，并且，各组相关联的数据之间按照混淆度的高低顺序排列。该方式中使用循环优先级队列来存储，混淆语音缓存中数据结构为：(标识ID，混淆声纹特征，混淆度)，混淆度被用作为队列的优先级，其目的在于让容易混淆的数据放在队列前面，缩短其访问周期，提升混淆音频的匹配性能，保证能够识别错误以及实时纠正错误。

步骤S204，获取该两个知识实体之间的正确关系，根据该两个知识实体及其之间的正确关系，生成修正文本。

具体地，可利用两个知识实体查询知识关联信息，即查询常规的三元知识图谱，得到两个知识实体之间的正确关系，在此基础上生成修正文本，例如可使用Bert或者其他文本生成模型来生成修正文本。

相应地，在混淆知识图谱为五元知识图谱的方式中，生成修正文本的具体实施方式为：针对于任一副知识实体，获取该副知识实体与所述主知识实体之间的正确关系，根据该副知识实体与主知识实体以及正确关系，生成修正文本。

步骤S205，将修正文本进行语音克隆处理，得到修正音频数据，将该两个知识实体与修正音频数据相关联存储于修正语音池中。

对修正文本进行语音克隆处理，得到修正音频数据，其目的是将修正音频处理成听上去跟直播解说者说的差不多。相应地，可采用SV2TTS模型将修正文本处理成语音文件，得到修正音频数据。最终，将该两个知识实体与修正音频数据相关联存储于修正语音池中，以便在后续过程中在修正语音池中读取音频数据。

在一种可选的方式中，修正语音池中数据以key-value的结构存储，具体结构为：(两个知识实体的语义向量连接，修正音频数据)，或者(主知识实体以及副知识实体的语义向量连接，修正音频数据)，key为两个知识实体的语义向量的连接，value为修正音频数据。

步骤S206，接收直播端发送的直播音频数据，提取直播音频数据的声纹特征。

在一种可选的方式中，对直播音频数据进行分帧处理，得到各个直播音频帧。进一步地，将多个直播音频帧作为一个处理单元组进行后续处理。

步骤S207，将直播音频数据的声纹特征与混淆声纹特征进行比对，判断直播音频数据的声纹特征与混淆声纹特征是否匹配。

步骤S208，若直播音频数据的声纹特征与混淆声纹特征相匹配，从修正语音池中获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

通过上述内容可知，混淆文本是根据两个知识实体及两者之间的错误关系生成的，混淆音频数据又是对混淆文本进行处理得到的，混淆声纹特征是对混淆音频数据进行声纹特征提取得到的，因此，混淆声纹特征对应有两个知识实体。同样地，修正文本也是根据两个知识实体及两者之间的正确关系生成的，修正音频数据又是对修正文本进行处理的得到的，因此修正音频数据也对应有两个知识实体。

若直播音频数据的声纹特征与混淆声纹特征相匹配，说明该直播音频数据对应解说者表述错误的内容，根据该混淆声纹特征对应的两个知识实体，在修正语音池中查询该两个知识实体关联的修正音频数据。然后，使用获取的修正音频数据替换该直播音频数据，从而实现对解说者说错的内容进行修正的效果，从而达到了对直播音频进行实时修正的目的。

根据本实施例所提供的直播的音频纠错方法，根据直播配置信息查询相匹配的混淆知识图谱，根据混淆知识图谱所包含的知识实体及其之间的错误关系，生成混淆文本，并根据混淆文本处理得到混淆音频数据，将混淆音频数据抽取出混淆音频帧的声纹特征，作为判断直播解说者是否说错内容的依据；进一步地，通过改造常规的三元组知识图谱，构建五元组知识图谱，结合知识图谱，可自动进行知识数据扩展，无需人为配置，具有更高的可用性和扩展性，能够预测更多的领域相关且容易混淆的知识实体，有助于提升识别错误直播音频的准确性和完整性；同时，根据混淆知识图谱所包含的知识实体及其之间的正确关系生成修正文本，根据修正文本处理得到修正音频数据，将修正音频数据作为替换解说者说错的内容的候选语音片段；之后，接收到直播音频数据之后，提取直播音频数据的声纹特征，将直播音频数据的声纹特征与混淆声纹特征进行比对，确定直播音频数据的声纹特征与混淆声纹特征是否匹配，若是，则说明该直播音频即为解说者说错的内容，由此，识别出直播中解说者说错的音频内容；之后，再获取混淆声纹特征对应的修正音频数据，将直播解说者说错的直播音频数据替换为修正音频数据，从而修正直播中解说者说错的内容，从而实现了实时的直播音频修正。

图3示出了本发明另一实施例提供的直播的音频纠错方法的流程图，如图3所示，该方法包括以下步骤：

步骤S301，接收直播端发送的直播音频数据，提取直播音频数据的声纹特征。

直播系统进行赛事直播时，直播端将直播中的音频以流的形式发送至本实施例方法执行主体，例如后台服务器，在直播进行过程中，会持续接收到直播音频数据。接收到直播音频数据后，对直播音频数据进行声纹特征提取处理，得到直播音频数据的声纹特征，声纹特征可以包括音高差、频率差和时间差等等。

步骤S302，读取稿件状态配置信息。

若稿件状态配置信息为第一值，表示未配置有稿件，则执行步骤S303；若稿件状态配置信息为第二值，表示配置有稿件，则执行步骤S305。

是否有稿件属于系统的配置信息，系统提供有配置接口，用户可以通过该配置接口上传稿件，若用户通过该配置接口上传稿件，则将稿件状态配置信息标记为true即第二值；若用户未上传稿件，则将稿件状态配置信息标记为false即第一值。在有稿件情况下和没有稿件情况下的直播的音频纠错方式有所不同。

步骤S303，判断直播音频数据的声纹特征与混淆声纹特征是否匹配。

步骤S304，若直播音频数据的声纹特征与混淆声纹特征相匹配，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

上述步骤S303-步骤S304为没有稿件情况下的直播音频纠错方法，具体实施方式参见前述实施例的描述，在此不进行赘述。

如果直播音频数据的声纹特征与混淆声纹特征不匹配，则将直播音频数据直接下发给直播观看端。

步骤S305，将直播音频数据的声纹特征与稿件声纹特征进行匹配，根据匹配结果确定直播音频数据的声纹特征中的错误声纹特征及相应的目标稿件声纹特征。

其中，稿件声纹特征根据对稿件音频数据进行特征抽取处理得到，稿件音频数据通过对稿件进行语音克隆处理得到。

对用户上传的稿件进行语音克隆处理，得到稿件音频文件，其目的是将稿件音频处理成听上去跟直播解说者说的话差不多。具体地，首先将稿件转换为音频，并且从解说者的音频中获取并克隆直播解说中解说者的声音，再根据音频和解说者声音合成为稿件音频数据。通过进行语音克隆处理使得稿件音频的声音与直播的声音相同，可以省去复杂的语音特征特征提取工作，能够提升音频匹配的准确性以及匹配性能。

之后，对稿件音频数据进行分帧处理，得到多个稿件音频帧，并且，任意一个稿件音频帧与其前一个稿件音频帧之间具有重叠，例如每一帧跟其前一帧的重合率为50％。提取每一个稿件音频帧的声纹特征，得到稿件声纹特征。通过这种方式，避免遗漏边缘数据，保证音频匹配的完整性。

其中，错误声纹特征是指匹配不到稿件声纹特征的直播音频帧的声纹特征，如果一段直播音频的声纹特征匹配不到相应的稿件声纹特征，说明这一段音频解说者没有按照稿件解说，即认为这段音频是错误内容，需要进行修正处理。

本实施例中，将直播音频数据进行分帧，得到各个直播音频帧，并提取各个直播音频帧的声纹特征，相应地，将稿件音频数据进行分帧，得到各个稿件音频帧，并提取各个稿件音频帧的声纹特征。匹配时，按照各个直播音频帧之间的顺序以及各个稿件音频帧之间的顺序进行匹配。

举例来说，直播音频数据的声纹特征用序列A表示，A_i表示第i个直播音频帧的声纹特征，稿件声纹特征用序列B表示，B_j表示第j个稿件声纹特征，匹配之后得到以下结果：A₁到A₁₀与B₁到B₁₀相匹配，A₁₁到A₂₀匹配不到稿件声纹特征，A₂₁到A₃₀与B₂₁到B₃₀相匹配，则A₁₁到A₂₀就是直播音频数据中的错误声纹特征，而B₁₁到B₂₀就是相应的目标稿件声纹特征。

步骤S306，获取目标稿件声纹特征对应的目标稿件音频数据，利用目标稿件音频数据替换错误声纹特征对应的直播音频数据。

沿用上述示例，获取B₁₁到B₂₀相对应的目标稿件音频数据，利用目标稿件音频数据替换A₁₁到A₂₀相对应的直播音频数据，从而将直播解者说错的音频内容替换为正确的稿件音频内容，使得观看直播的用户能够收听到正确的音频内容，实现了对直播音频的修正。

在一种可选的方式中，稿件音频帧的位置序号、稿件音频帧的声纹特征及其对应的稿件音频数据的存储位置相关联存储于声纹序列缓存中。举例来说，声纹序列缓存中存储以下数据：

{1,loc,[E4:-14:1 A2:14:0 B3:15:1]}

{2,loc,[B3:15:1 E3:17:0]}

{3,loc,[E3:17:0 C3:11:0 B4:10:1 E4:15:2]}

……

其中，第一个元素为稿件声纹特征的序列编号，第二个元素为对应稿件音频内容的存储位置，第三个元素为稿件声纹特征。其中，稿件音频数据也可以存储于修正语音池中。

在一种可选的方式中，利用队列实现声纹序列缓存，队列中的元素用于存储上述每一组关联的数据，各组关联的数据按照序列编号的顺序进行存储，匹配时队列进行出队操作进行匹配。由于队列中存储的声纹特征有重合性，出队机制为：每次出队多组关联数据，且每一次出队的关联数据与前一次出队的关联数据之间具有重叠，重叠程度可以跟稿件音频帧之间的重叠程度一致。通过这种方式，可以保证匹配的完整性，并且由于缓存队列是实时处理，具有较好的实时性。

举例而言，稿件内容为“乒乓球比赛甲夺冠”，而解说者说的是“届乒乓球比赛乙夺冠”，通过声纹特征比较确定不匹配，则从声纹序列缓存获取相应稿件声纹特征对应的稿件音频数据的存储位置，再通过该存户位置获取到稿件音频，替代该直播音频，之后下发给用户，用户听到的将是“届乒乓球比赛甲夺冠”。

根据本实施例所提供的直播的音频纠错方法，根据接收稿件的情况设置稿件状态配置信息，以便在实时纠错过程中确定按照那种方式进行处理。针对于有稿件情况，将稿件通过语音克隆的方式处理为稿件音频数据，使得稿件音频的声音与解说者的声音一致，提取稿件音频的声纹特征作为匹配直播音频是否出错的依据，并且利用稿件音频替换直播音频中的错误内容，通过上述方式能够省去复杂的语音特征提取工作，能够提升音频匹配的准确性以及匹配性能，同时，替换到错误音频处的修正音频内容的声音与直播解说者的声音一致，保证了修正后直播音频的连贯性。针对于无稿件的情况，预先预测出可能混淆的知识实体，在此基础上生成混淆文本和修正文本，将混淆文本通过语音克隆的方式处理为混淆音频数据，使得混淆音频的声音与直播解说者的声音一致，提取混淆音频的声纹特征作为匹配直播音频是否出错的依据，保证音频匹配的准确性，将修正文本通过语音克隆的方式处理为修正音频数据，使得修正音频数据的声音与直播解说者的声音一致，利用修正音频对错误直播音频进行替换，保证了修正后直播音频的连贯性。

图4示出了本发明实施例提供的直播的音频纠错装置的结构示意图，如图4所示，该装置包括：

接收模块40，适于接收直播端发送的直播音频数据；

特征提取模块41，适于提取直播音频数据的声纹特征；

匹配模块42，适于判断直播音频数据的声纹特征与混淆声纹特征是否匹配；

音频替换模块43，适于若直播音频数据的声纹特征与混淆声纹特征相匹配，获取混淆声纹特征对应的修正音频数据，将直播音频数据替换为修正音频数据。

可选地，特征提取模块41进一步适于：将直播音频数据进行分帧处理，得到各个直播音频帧，对各个直播音频帧进行提取声纹特征；以及对混淆音频数据进行分帧处理，得到各个混淆音频帧，对各个混淆音频帧提取声纹特征。

可选地，装置进一步包括：

配置模块，适于接收直播配置信息，根据直播配置信息查询混淆知识图谱；

文本生成模块，适于获取混淆知识图谱中每两个知识实体之间的错误关系，根据该两个知识实体以及错误关系，生成混淆文本。

可选地，混淆知识图谱包括：一个主知识实体、两个副知识实体以及两个副知识实体之间的关系；

配置模块进一步适于：根据直播配置信息，查询相匹配的知识关联信息；知识关联信息包含两个知识实体及两个知识实体之间的关系；根据知识关联信息进行混淆处理，得到混淆知识图谱。

可选地，混淆知识图谱中主知识实体与两个副知识实体的关系之间的语义相关度大于预定值。

可选地，文本生成模块进一步适于：

针对于任一副知识实体，获取该副知识实体与主知识实体之间的错误关系，根据该副知识实体与主知识实体以及错误关系，生成混淆文本。

可选地，混淆知识图谱还包括：混淆度；装置进一步包括：

存储模块，适于将混淆音频数据的标识、混淆声纹特征以及其相应的混淆知识图谱中的混淆度相关联存储在混淆语音缓存中，并且，各组相关联的数据之间按照混淆度的高低顺序排列。

可选地，文本生成模块进一步适于：针对于任一副知识实体，获取该副知识实体与主知识实体之间的正确关系；根据该副知识实体与主知识实体之间的正确关系，生成修正文本；

装置进一步包括：语音克隆模块，适于将修正文本进行语音克隆处理，得到修正音频数据。

可选地，存储模块进一步适于：将该副知识实体与主知识实体以及修正音频数据相关联存储于修正语音池中；

则音频替换模块43进一步适于：根据混淆声纹特征对应的两个知识实体，从修正语音池中获取该两个知识实体关联的修正音频数据。

可选地，装置进一步包括：

配置读取模块，适于读取稿件配置状态信息；其中，若直播未配置有稿件，稿件配置状态信息为第一值；

则匹配模块42进一步适于：若稿件配置状态信息为第一值，判断直播音频数据的声纹特征与混淆声纹特征是否匹配。

可选地，匹配模块42进一步适于：若稿件配置状态信息为第二值，将直播音频数据的声纹特征与稿件声纹特征进行匹配；其中，稿件声纹特征通过对稿件音频数据进行声纹特征抽取处理得到，稿件音频数据通过对稿件进行语音克隆处理得到；根据匹配结果确定直播音频数据的声纹特征中的错误声纹特征及相应的目标稿件声纹特征；

音频替换模块43进一步适于：获取目标稿件声纹特征对应的目标稿件音频数据，利用目标稿件音频数据替换错误声纹特征对应的直播音频数据。

可选地，语音克隆模块进一步适于：接收配置端发送的稿件；对稿件进行语音克隆处理，得到稿件音频数据；

装置还包括：特征提取模块，适于对稿件音频数据进行分帧处理，得到至少一个稿件音频帧；其中，任意一个稿件音频帧与其前一个稿件音频帧之间具有重叠；提取至少一个稿件音频帧的声纹特征，得到稿件声纹特征。

可选地，稿件音频帧的位置序号、稿件音频帧的声纹特征及其对应的稿件音频数据的存储位置相关联存储于声纹序列缓存中。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的直播的音频纠错方法。

图5示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述用于计算设备的直播的音频纠错方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种直播的音频纠错方法，包括：

接收直播端发送的直播音频数据，提取所述直播音频数据的声纹特征；

判断所述直播音频数据的声纹特征与混淆声纹特征是否匹配；

其中，所述混淆声纹特征通过对混淆音频数据进行声纹特征抽取处理得到，所述混淆音频数据通过对表征知识实体之间的错误关系的混淆文本进行语音克隆处理得到；

若是，获取所述混淆声纹特征对应的修正音频数据，将所述直播音频数据替换为所述修正音频数据。

2.根据权利要求1所述的方法，其特征在于，所述提取所述直播音频数据的声纹特征进一步包括：

将所述直播音频数据进行分帧处理，得到各个直播音频帧，对所述各个直播音频帧进行提取声纹特征；

所述方法还包括：对混淆音频数据进行分帧处理，得到各个混淆音频帧，对所述各个混淆音频帧提取声纹特征。

3.根据权利要求1或2所述的方法，其特征在于，所述方法进一步包括：

接收直播配置信息，根据所述直播配置信息查询混淆知识图谱；

获取混淆知识图谱中每两个知识实体之间的错误关系，根据该两个知识实体以及所述错误关系，生成所述混淆文本。

4.根据权利要求3所述的方法，其特征在于，所述混淆知识图谱包括：一个主知识实体、两个副知识实体以及所述两个副知识实体之间的关系；

所述方法执行之前，进一步包括：

根据所述直播配置信息，查询相匹配的知识关联信息；所述知识关联信息包含两个知识实体及所述两个知识实体之间的关系；

根据所述知识关联信息进行混淆处理，得到混淆知识图谱。

5.根据权利要求4所述的方法，其特征在于，所述混淆知识图谱中所述主知识实体与所述两个副知识实体之间的关系两者之间的语义相关度大于预定值。

6.根据权利要求4所述的方法，其特征在于，所述获取所述混淆知识图谱中每两个知识实体之间的错误关系，根据该两个知识实体以及所述错误关系，生成混淆文本进一步包括：

针对于任一副知识实体，获取该副知识实体与所述主知识实体之间的错误关系，根据该副知识实体与所述主知识实体以及所述错误关系，生成混淆文本。

7.根据权利要求4所述的方法，其特征在于，所述混淆知识图谱还包括：混淆度；在所述得到混淆声纹特征之后，所述方法进一步包括：

将所述混淆音频数据的标识、所述混淆声纹特征以及其相应的混淆知识图谱中的混淆度相关联存储在混淆语音缓存中，并且，各组相关联的数据之间按照混淆度的高低顺序排列。

8.根据权利要求4所述的方法，其特征在于，所述方法进一步包括：

针对于任一副知识实体，获取该副知识实体与所述主知识实体之间的正确关系；

根据该副知识实体与所述主知识实体之间的正确关系，生成修正文本；

将所述修正文本进行语音克隆处理，得到修正音频数据。

9.根据权利要求8所述的方法，其特征在于，所述得到修正音频数据之后，所述方法进一步包括：

将该副知识实体与所述主知识实体以及所述修正音频数据相关联存储于修正语音池中；

则所述获取所述混淆声纹特征对应的修正音频数据进一步包括：

根据所述混淆声纹特征对应的两个知识实体，从所述修正语音池中获取该两个知识实体关联的修正音频数据。

10.根据权利要求1或2所述的方法，其特征在于，所述提取所述直播音频数据的声纹特征之后，所述方法进一步包括：

读取稿件配置状态信息；其中，若直播未配置有稿件，所述稿件配置状态信息为第一值；

若稿件配置状态信息为第一值，则执行判断所述直播音频数据的声纹特征与混淆声纹特征是否匹配的步骤。

11.根据权利要求10所述的方法，其特征在于，所述方法进一步包括：

若稿件配置状态信息为第二值，将所述直播音频数据的声纹特征与稿件声纹特征进行匹配；

其中，所述稿件声纹特征通过对稿件音频数据进行声纹特征抽取处理得到，所述稿件音频数据通过对稿件进行语音克隆处理得到；

根据匹配结果确定所述直播音频数据的声纹特征中的错误声纹特征及相应的目标稿件声纹特征；

获取所述目标稿件声纹特征对应的目标稿件音频数据，利用所述目标稿件音频数据替换所述错误声纹特征对应的直播音频数据。

12.根据权利要求11所述的方法，其特征在于，所述方法执行之前，进一步包括：

接收配置端发送的稿件；

对所述稿件进行语音克隆处理，得到稿件音频数据；

对所述稿件音频数据进行分帧处理，得到至少一个稿件音频帧；其中，任意一个稿件音频帧与其前一个稿件音频帧之间具有重叠；

提取所述至少一个稿件音频帧的声纹特征，得到稿件声纹特征。

13.根据权利要求12所述的方法，其特征在于，所述稿件音频帧的位置序号、所述稿件音频帧的声纹特征及其对应的稿件音频数据的存储位置相关联存储于声纹序列缓存中。

14.一种直播的音频纠错装置，包括：

接收模块，适于接收直播端发送的直播音频数据；

特征提取模块，适于提取所述直播音频数据的声纹特征；

匹配模块，适于判断所述直播音频数据的声纹特征与混淆声纹特征是否匹配；

音频替换模块，适于若所述直播音频数据的声纹特征与所述混淆声纹特征相匹配，获取所述混淆声纹特征对应的修正音频数据，将所述直播音频数据替换为所述修正音频数据。

15.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-13中任一项所述的直播的音频纠错方法对应的操作。

16.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-13中任一项所述的直播的音频纠错方法对应的操作。