CN111477244A

CN111477244A - 一种面向用户的自定义体育赛事解说增强方法

Info

Publication number: CN111477244A
Application number: CN202010284204.8A
Authority: CN
Inventors: 陈兴国; 张鹏; 刘威; 朱洁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-31
Anticipated expiration: 2040-04-13
Also published as: CN111477244B

Abstract

本发明公开了一种面向用户的自定义体育赛事解说增强方法，对于解说视频中的人声声纹进行分离，根据用户设置对个别解说员声纹进行屏蔽，实现更好的观赛体验。在人声声纹提取过程中，通过对音频进行切分，傅里叶变换，经深度循环神经网络处理，提取出纯净的人声时间帧。在解说员身份识别过程中，首先从时间帧中通过通用背景模型，根据特定时间帧进行最大后验估计，提取出时间帧的特征向量。对时间帧的特征向量进行聚类，每一个类别即为一个解说员，每一个类别的均值，即为解说员的身份向量，以此完成解说员的识别与屏蔽功能。

Description

一种面向用户的自定义体育赛事解说增强方法

技术领域

本发明涉及一种智能解说技术领域，特别是涉及一种面向用户的自定义体育赛事解说增强方法，对于解说视频中的人声声纹进行分离，根据用户设置对个别解说员声纹进行屏蔽，实现更好的观赛体验。

背景技术

在信息社会，体育比赛现场直播节目越来越受到人们的欢迎,日益成为大众的精神食粮，中国观众尤其喜欢足球、篮球(特别是NBA)、围棋等体育节目的现场直播。但是，随着体育频道的增多，体育比赛现场直播的场次也越来越增多，观众的欣赏水平也在不断提高，审美趣味也大异其趣，而解说员队伍却良莠不齐，人们对体育比赛的现场直播解说评论(简称体育解说或体育主持)颇多微词,包括央视某些知名“国嘴”在内的解说评论员通常容易成为舆论的焦点。

对于电视球迷来说，体育解说是一柄双刃剑，恰到好处的解说能使电视画面和现场气氛相得益彰，给观众以美的享受；糟糕的解说则使语言与画面产生分离，形成噪音,影响观众观赏比赛的情绪。真正令广大球迷满意的体育解说员，屈指可数。面对观众，相当一部分解说员在“说什么”与“怎样说”方面深受困扰，以致担任体育解说员多年而不得要领，因此得不到观众的认可。最突出的问题主要表现在两个方面：一是过分强调体育节目的意识形态性，二是随意性太大，东扯西拉，或者要么把自己当专家，要么把自己降格成普通球迷。即使是央视某些知名解说员，也概莫能外。除此之外，体育赛事的受众较为多样，涵盖了多个年龄段，体育解说员往往处于一种众口难调的窘境。由于一些大型体育赛事只由几个特定的信号源进行播出，观众们即使不喜欢某解说员，也不得不继续观看，可以说是深受其害，这极大的降低了体育比赛的可观赏性。

此外，如今人们越来越多的追求定制化与个性化的服务，但当前体育赛事的解说形式显然无法满足所有观众们的需求。一些同类的智能解说系统也不例外，如景点导游解说系统主要通过GPS定位，在指定地点范围播放录制好的语音，不关心用户真正的需求；而最新推出的阿里足球智能解说系统和百度“度秘”篮球智能解说系统虽然运用了但大量的智能算法和庞大的数据分析，但并不能针对用户的体育水平及素养提供最合适的解说内容。当下我国强调供给侧改革，我们可将选择解说内容的自由下放给用户，使用语音处理技术与机器学习方法，根据用户的喜好和预先设置，推送最为合适的解说内容。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种面向用户的自定义体育赛事解说增强方法，后台系统记录每一个比赛解说员的相关信息，如姓名，年龄，解说项目，声纹特征等，声纹特征与解说员一一对应。利用使用身份向量表达的声纹特征，可以通过匹配判定未知赛事视频中的解说员身份；对未知视频解说员的内容根据用户设定进行屏蔽或保留，首先从视频中过滤背景噪声以获得干净的声纹，再通过聚类来将同一视频中的不同解说员加以区分，最后通过声纹匹配，从数据库中获取解说员的身份，根据用户设定来保留或屏蔽解说内容，实现更好的观赛体验。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种面向用户的自定义体育赛事解说增强方法，包括以下步骤：

步骤S101：检查是否有新的解说视频信息，更新本地解说视频数据库集合F；

步骤S102：对本地解说视频库集合F中的视频进行切分处理，将完整的视频切分为若干个时间帧，时间帧的长度固定，对每一帧进行加窗操作，得到所有视频的时间帧集合T；

步骤S103：对时间帧集合T中的元素进行傅里叶变换，将信号转换至频率域，得到时间帧集合T的幅度谱集合T_s与相位谱集合T_s；

步骤S104：将时间帧幅度谱集合T_v输入神经网络，神经网络负责人声幅度谱H_v的提取工作；

步骤S105：将人声幅度谱H_v与相位谱集合T_s结合，进行逆傅里叶变换，得到纯人声时间帧集合H；

步骤S106：让纯人声时间帧集合H每个元素通过梅尔滤波器，得到精简频域信息集合H^*；

步骤S107：对精简频域信息集合H^*的每个元素取对数，并做离散傅里叶变换，取第2-13个分量的系数作为特征，然后把每个滤波器的能量叠加起来，成为第13个特征；

步骤S108：对精简频域信息集合H^*中的每个时间帧，已有13个特征，对这13个特征进行一阶差步骤分与二阶差分，得到共39个特征；相应的，每一个时间帧用大小为39×1的特征向量x来表示，得到所有时间帧特征集合X＝{x₁,x₂,…,x_i}，其中i为集合X的元素个数；

步骤S109：使用高斯混合模型来对时间帧特征集合X进行建模，使用最大期望演算法对高斯混合模型的参数进行优化，得到人声的通用背景模型；

步骤S110：对于时间帧特征集合中的每一个元素，利用S109得到的预训练通用背景模型使用最大期望方法优化，得到时间帧的身份向量(identity vector)集合X^*，同一解说员的所在时间帧的身份向量大致相同；

步骤S111：对身份向量集合X^*中的元素进行聚类，即将同一解说员的时间帧归为一类，得到一个N维的布尔变量组成的向量，N为解说员数量；

步骤S112：查看用户设置，将用户厌恶的解说员所对应的布尔值设为1，反之为0；

步骤S113：用户选择本地解说视频数据库集合F中的视频进行播放时，检测该视频是否已被增强，若未被增强，则从身份向量集合X^*中依次调取该视频对应的时间帧身份向量，若其所在类别在布尔向量中值为0，则执行步骤S115，反之执行步骤S114；

步骤S114：从时间帧集合T与纯人声时间帧集合H中调取对应时间帧，并相减，即从视频中剔除该解说员人声；

步骤S115：检查该视频的下一时间帧，若检查完毕，则进入步骤S116；

步骤S116：将该视频标记为已增强视频。

优选的：步骤S101步骤中，本地解说视频数据库集合F由用户手动下载并导入视频。

优选的：步骤S101步骤中，本地解说视频数据库集合F至少包含视频ID、视频是否为新视频信号、视频主要解说的身份向量、视频对应的纯人声音频、视频导入时间。

优选的：步骤S102中，每一帧的长度在20到25ms之间；帧与帧之间的重叠在8-12ms左右。

优选的：步骤S102中，加窗操作如下：从时间帧中截取一个时间片段，然后用观察的信号时间片段进行周期延拓处理，得到虚拟的无限长的信号。

优选的：步骤S104中，所述神经网络为语音多源分离的基于监督学习方法的深度循环神经网络，在训练过程中使用时频掩码方法，用于从混合声源的时间帧幅度谱集合T_v中提取中纯人声幅度谱H_v。

优选的：步骤S106中，梅尔滤波器是一组20-40个三角滤波器组，对上一步得到的周期图的功率谱估计进行滤波。

优选的：步骤S109中，高斯混合模型指的是多个高斯分布函数的线性组合。

优选的：步骤S109中，最大期望演算法指在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

优选的：最大期望算法经过两个步骤交替进行计算，其特征在于：引入隐含变量后会有两个参(变量)数，最大期望算法首先会固定其中的第一个参数，然后使用最大似然估计方法计算第二个参数值；接着通过固定第二个参数，再使用最大似然估计方法估测第一个参数值，依次迭代，直至收敛到局部最优解。

本发明相比现有技术，具有以下有益效果：

本发明在体育赛事解说过程中，用户能够根据自身喜好，对解说视频进行个性化的定制，这保证了当视频来源单一时，用户依旧拥有满足自身需求的权力。结合了多媒体处理技术，对赛事解说进行优化，以此完成解说员的识别与屏蔽功能，有利于提高用户的观赛体验，进而提高消费者的满意度。

附图说明

图1是本发明一种面向用户的自定义体育赛事解说增强方法的从赛事视频中提取时间帧特征向量流程示意图。

图2是本发明一种面向用户的自定义体育赛事解说增强方法的针对每一个解说员构建身份向量流程示意图。

图3是本发明一种面向用户的自定义体育赛事解说增强方法梅尔滤波器滤波的过程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种面向用户的自定义体育赛事解说增强方法，如图1-3所示，对于解说视频中的人声声纹进行分离，根据用户设置对个别解说员声纹进行屏蔽，实现更好的观赛体验，旨在优化用户观看比赛的体验以及增加赛事视频的可定制性，具体包括如下步骤：

步骤S101：检查是否有新的解说视频信息，若有则转步骤S102更新本地解说视频数据库集合F，否则转步骤S113；

本地解说视频数据库集合F由用户手动下载并导入视频，本地解说视频数据库集合F至少包含视频名称、视频格式、视频分辨率，(若为新视频，并要求同一时间段内，不可能有两个视频解说员同时发言)。当检测到有新的视频导入，需要对本地的背景通用模型以及每一个解说员的身份向量进行重建。因为身份向量的构建依赖于背景通用模型，而数据量越大，背景通用模型的效果越好，可以提高系统屏蔽的准确性和可靠性。

本地解说视频数据库集合F应该包含视频ID、视频是否为新视频信号、视频主要解说的身份向量(若为新视频，默认为0)、视频对应的纯人声音频、视频导入时间。例如，本地解说视频数据库集合F如表1所示，为了便于信息查找，视频所对应的ID被记录且保存在表1中显示，设置了一个布尔变量来记录是否存在新视频，若存在，则需要进行更新。假定每个解说视频只有一个解说员，对于每个视频，设置了解说身份向量来记录。同时保存了视频的纯人声音频和视频时长等长，使用视频原音轨与纯人声音轨相减，则可以得到剔除了人声但保留了赛场声音的视频。最后，设置了导入时间，以便用户查阅。

表1 本地解说视频数据库

对音频信号进行分帧有利于后面的处理，也能够提取到足够多的信息。每一帧的长度在20到25ms之间。帧与帧之间的重叠在10ms左右。数值可以有些许调整，一般来说，移动的距离大约为帧长的三分之一到二分之一之间。FFT变换只能对有限长度的时域数据进行变换，因此需要对信号进行加窗函数操作，也即信号数据截断的过程。做法是从信号中截取一个时间片段，然后用观察的信号时间片段进行周期延拓处理，得到虚拟的无限长的信号，比较典型的可以是汉明窗。

因为纯人声信号的相位和对应时间帧的相位谱是一致的，因此我们只需要对幅度谱进行处理。

神经网使用的是一种用于语音多源分离的基于监督学习方法的深度循环神经网络，在训练过程中使用时频掩码技术，用于从混合声源的幅度谱中提取中纯人声幅度谱。这里的神经网络可以使用Po-Sen Huang,Minje Kim,Mark Hasegawa-Johnson,ParisSmaragdis,Singing-Voice Separation From Monaural Recordings Using DeepRecurrent Neural Networks.2014.一文中的深度循环神经网络。

得到纯人声时间帧集合，一方面是为了从原视频中剔除人声，另一方面是为了对纯人声进行特征向量的构建，以便于识别解说员的身份。

梅尔滤波器是一组大约20-40(通常26)个三角滤波器组，它会对上一步得到的周期图的功率谱估计进行滤波。我们的滤波器组由26个(滤波器)长度为257的向量组成，每个滤波器的257个值中大部分都是0，只有对于需要采集的频率范围才是非零。输入的257点的信号会通过26个滤波器，计算通过每个滤波器的信号的能量。如图3所示，左侧示意图为原始声纹的频谱，通过一系列的三角滤波器，在梅尔滤波器的作用下，变换为图3下方所示的更贴合人耳听觉的频谱，我们把掉落到各个滤波器的能量分别加以统计，得到结果。从实现的角度，这里有一个实现方案：左边的等间距的三角滤波器有很多边界(滤波器个数加1)，把这些边界通过变换函数，映射到下图的各个三角形的边界上。这样就得到了下边图的范围。然后对于下边图的每一个频率都对应到一个三角滤波器的范围。加以处理(相乘)叠加统计之后，等到每一个滤波器里面的能量。

步骤S107：对精简频域信息集合H^*的每个元素取对数，并做离散傅里叶变换，取第2-13个前分量的系数作为特征，然后把每个滤波器的能量叠加起来，成为第13个特征；

对信号做离散傅里叶变换之后，不采用容易被干扰的高频分量，因此只取第2-13个分量的幅度作为特征，共13个，除此之外，将每个滤波器对应的能量相加，得到了第13个特征。不同的梅尔滤波器是有交集的，因此它们是相关的，用DCT变换去掉这些相关性。

一阶差分系数和二阶差分系数可由当前帧前后几帧的信息来计算，意义在于MFCC特征向量描述了一帧语音信号的功率谱的包络信息，但是语音识别也需要帧之间的动态变化信息。因此通过差分操作，获得更多的特征量是值得的。

如图2所示，我们既然没法从目标用户那里收集到足够的语音，那就换一种思路，可以从其他地方收集到大量非目标用户的声音，我们将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个高斯混合模型，可以看作是对语音的表征，但是又由于它是从大量身份的混杂数据中训练而成，它又不具备表征具体身份的能力。我们可以把这种模型看作是某一个具体说话人模型的先验模型。

高斯混合模型指的是多个高斯分布函数的线性组合，理论上高斯混合模型可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况；最大期望演算法指在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。引入隐含变量后会有两个参数，最大期望算法首先会固定其中的第一个参数，然后使用最大似然估计方法计算第二个变量值；接着通过固定第二个变量，再使用最大似然估计方法估测第一个变量值，依次迭代，直至收敛到局部最优解。

事实上，使用最大后验概率估计的方法，根据给定的时间帧特征向量，在经过预训练的高斯混合模型上训练时，主要改变高斯混合模型的各个均值，记作向量s。因此，身份向量即为训练完成的高斯混合模型中的每一个分量的均值构建成的向量$s$。

对于所有的时间帧特征向量进行聚类，同一解说员的时间帧将会被聚集起来，相应的，有几个解说员，就会有几个聚类的类别，我们可以使用k-means聚类，这种情况下，每个类别的均值即为该解说员的身份向量。

用户可以由硬盘，软盘等计算机外部设备导入视频，也可以从互联网上直接下载相关视频存放于本地。

用户设置的方法为：

a、给出数据库中已有身份向量的解说员的代号(聚类类别)；

b、若视频正在播放，转d，否则用户输入需要屏蔽的解说员代号；

c、将解说员代号对应的布尔向量中的值改为1；

d、用户输出指令，屏蔽当前视频的解说员；

e、从身份向量集合X’调取当前视频当前时间帧的身份向量，将其对应的布尔向量中的值改为1。

如表2解说员数据库所示，每一个解说员有唯一的ID以及身份向量，同时设置了一个布尔变量来描述该解说员是否需要被屏蔽。用户可以自由设置屏蔽解说员，但解说员身份向量只能由数据库更新改变。

表2 解说员数据库

解说员ID	解说员身份向量	是否屏蔽该解说员
			001	<1,1,1>	0
002	<2,5,6>	1
			003	<3,5,1>	0
…	…	…

步骤S113：用户选择本地解说视频数据库集合F中的视频进行播放时，检测该视频是否已被增强，若未被增强，则从身份向量集合X*中依次调取该视频对应的时间帧身份向量，若其所在类别在布尔向量中值为0，则执行步骤S115，反之执行步骤S114；

对于被增强的视频，播放的音轨为减去纯净人声的音轨。

时间帧集合T即为视频原声，纯人声时间帧集合H中存放着纯净人声。

步骤S116：将该视频标记为已增强视频；

下次播放该视频，且用户没有改变个人喜好设置时，直接播放无人声的音轨，而无需重复上述步骤。

本发明对于解说视频中的人声声纹进行分离，根据用户设置对个别解说员声纹进行屏蔽，实现更好的观赛体验。在人声声纹提取过程中，通过对音频进行切分，傅里叶变换，经深度循环神经网络处理，提取出纯净的人声时间帧。在解说员身份识别过程中，首先从时间帧中通过通用背景模型，根据特定时间帧进行最大后验估计，提取出时间帧的特征向量。对时间帧的特征向量进行聚类，每一个类别即为一个解说员，每一个类别的均值，即为解说员的身份向量，以此完成解说员的识别与屏蔽功能。从而提升了用户观看体育赛事的体验，有利于体育赛事更好的推广，丰富人民精神文化生活。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向用户的自定义体育赛事解说增强方法，其特征在于，包括以下步骤：

步骤S116：将该视频标记为已增强视频。

2.根据权利要求1所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S101步骤中，本地解说视频数据库集合F由用户手动下载并导入视频。

3.根据权利要求2所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S101步骤中，本地解说视频数据库集合F至少包含视频ID、视频是否为新视频信号、视频主要解说的身份向量、视频对应的纯人声音频、视频导入时间。

4.根据权利要求3所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S102中，每一帧的长度在20到25ms之间；帧与帧之间的重叠在8-12ms左右。

5.根据权利要求4所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S102中，加窗操作如下：从时间帧中截取一个时间片段，然后用观察的信号时间片段进行周期延拓处理，得到虚拟的无限长的信号。

6.根据权利要求5所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S104中，所述神经网络为语音多源分离的基于监督学习方法的深度循环神经网络，在训练过程中使用时频掩码方法，用于从混合声源的时间帧幅度谱集合T_v中提取中纯人声幅度谱H_v。

7.根据权利要求6所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S106中，梅尔滤波器是一组20-40个三角滤波器组，对上一步得到的周期图的功率谱估计进行滤波。

8.根据权利要求7所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S109中，高斯混合模型指的是多个高斯分布函数的线性组合。

9.根据权利要求8所述面向用户的自定义体育赛事解说增强方法，其特征在于：步骤S109中，最大期望演算法指在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

10.根据权利要求9所述面向用户的自定义体育赛事解说增强方法，其特征在于：最大期望算法通过引入隐含变量，会有两个参数，首先会固定其中的第一个参数，然后使用最大似然估计方法计算第二个参数值；接着通过固定第二个参数，再使用最大似然估计方法估测第一个参数值，依次迭代，直至收敛到局部最优解。