CN111477244A - 一种面向用户的自定义体育赛事解说增强方法 - Google Patents

一种面向用户的自定义体育赛事解说增强方法 Download PDF

Info

Publication number
CN111477244A
CN111477244A CN202010284204.8A CN202010284204A CN111477244A CN 111477244 A CN111477244 A CN 111477244A CN 202010284204 A CN202010284204 A CN 202010284204A CN 111477244 A CN111477244 A CN 111477244A
Authority
CN
China
Prior art keywords
video
time frame
user
commentary
sports event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010284204.8A
Other languages
English (en)
Other versions
CN111477244B (zh
Inventor
陈兴国
张鹏
刘威
朱洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010284204.8A priority Critical patent/CN111477244B/zh
Publication of CN111477244A publication Critical patent/CN111477244A/zh
Application granted granted Critical
Publication of CN111477244B publication Critical patent/CN111477244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向用户的自定义体育赛事解说增强方法,对于解说视频中的人声声纹进行分离,根据用户设置对个别解说员声纹进行屏蔽,实现更好的观赛体验。在人声声纹提取过程中,通过对音频进行切分,傅里叶变换,经深度循环神经网络处理,提取出纯净的人声时间帧。在解说员身份识别过程中,首先从时间帧中通过通用背景模型,根据特定时间帧进行最大后验估计,提取出时间帧的特征向量。对时间帧的特征向量进行聚类,每一个类别即为一个解说员,每一个类别的均值,即为解说员的身份向量,以此完成解说员的识别与屏蔽功能。

Description

一种面向用户的自定义体育赛事解说增强方法
技术领域
本发明涉及一种智能解说技术领域,特别是涉及一种面向用户的自定义体育赛事解说增强方法,对于解说视频中的人声声纹进行分离,根据用户设置对个别解说员声纹进行屏蔽,实现更好的观赛体验。
背景技术
在信息社会,体育比赛现场直播节目越来越受到人们的欢迎,日益成为大众的精神食粮,中国观众尤其喜欢足球、篮球(特别是NBA)、围棋等体育节目的现场直播。但是,随着体育频道的增多,体育比赛现场直播的场次也越来越增多,观众的欣赏水平也在不断提高,审美趣味也大异其趣,而解说员队伍却良莠不齐,人们对体育比赛的现场直播解说评论(简称体育解说或体育主持)颇多微词,包括央视某些知名“国嘴”在内的解说评论员通常容易成为舆论的焦点。
对于电视球迷来说,体育解说是一柄双刃剑,恰到好处的解说能使电视画面和现场气氛相得益彰,给观众以美的享受;糟糕的解说则使语言与画面产生分离,形成噪音,影响观众观赏比赛的情绪。真正令广大球迷满意的体育解说员,屈指可数。面对观众,相当一部分解说员在“说什么”与“怎样说”方面深受困扰,以致担任体育解说员多年而不得要领,因此得不到观众的认可。最突出的问题主要表现在两个方面:一是过分强调体育节目的意识形态性,二是随意性太大,东扯西拉,或者要么把自己当专家,要么把自己降格成普通球迷。即使是央视某些知名解说员,也概莫能外。除此之外,体育赛事的受众较为多样,涵盖了多个年龄段,体育解说员往往处于一种众口难调的窘境。由于一些大型体育赛事只由几个特定的信号源进行播出,观众们即使不喜欢某解说员,也不得不继续观看,可以说是深受其害,这极大的降低了体育比赛的可观赏性。
此外,如今人们越来越多的追求定制化与个性化的服务,但当前体育赛事的解说形式显然无法满足所有观众们的需求。一些同类的智能解说系统也不例外,如景点导游解说系统主要通过GPS定位,在指定地点范围播放录制好的语音,不关心用户真正的需求;而最新推出的阿里足球智能解说系统和百度“度秘”篮球智能解说系统虽然运用了但大量的智能算法和庞大的数据分析,但并不能针对用户的体育水平及素养提供最合适的解说内容。当下我国强调供给侧改革,我们可将选择解说内容的自由下放给用户,使用语音处理技术与机器学习方法,根据用户的喜好和预先设置,推送最为合适的解说内容。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向用户的自定义体育赛事解说增强方法,后台系统记录每一个比赛解说员的相关信息,如姓名,年龄,解说项目,声纹特征等,声纹特征与解说员一一对应。利用使用身份向量表达的声纹特征,可以通过匹配判定未知赛事视频中的解说员身份;对未知视频解说员的内容根据用户设定进行屏蔽或保留,首先从视频中过滤背景噪声以获得干净的声纹,再通过聚类来将同一视频中的不同解说员加以区分,最后通过声纹匹配,从数据库中获取解说员的身份,根据用户设定来保留或屏蔽解说内容,实现更好的观赛体验。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向用户的自定义体育赛事解说增强方法,包括以下步骤:
步骤S101:检查是否有新的解说视频信息,更新本地解说视频数据库集合F;
步骤S102:对本地解说视频库集合F中的视频进行切分处理,将完整的视频切分为若干个时间帧,时间帧的长度固定,对每一帧进行加窗操作,得到所有视频的时间帧集合T;
步骤S103:对时间帧集合T中的元素进行傅里叶变换,将信号转换至频率域,得到时间帧集合T的幅度谱集合Ts与相位谱集合Ts
步骤S104:将时间帧幅度谱集合Tv输入神经网络,神经网络负责人声幅度谱Hv的提取工作;
步骤S105:将人声幅度谱Hv与相位谱集合Ts结合,进行逆傅里叶变换,得到纯人声时间帧集合H;
步骤S106:让纯人声时间帧集合H每个元素通过梅尔滤波器,得到精简频域信息集合H*
步骤S107:对精简频域信息集合H*的每个元素取对数,并做离散傅里叶变换,取第2-13个分量的系数作为特征,然后把每个滤波器的能量叠加起来,成为第13个特征;
步骤S108:对精简频域信息集合H*中的每个时间帧,已有13个特征,对这13个特征进行一阶差步骤分与二阶差分,得到共39个特征;相应的,每一个时间帧用大小为39×1的特征向量x来表示,得到所有时间帧特征集合X={x1,x2,…,xi},其中i为集合X的元素个数;
步骤S109:使用高斯混合模型来对时间帧特征集合X进行建模,使用最大期望演算法对高斯混合模型的参数进行优化,得到人声的通用背景模型;
步骤S110:对于时间帧特征集合中的每一个元素,利用S109得到的预训练通用背景模型使用最大期望方法优化,得到时间帧的身份向量(identity vector)集合X*,同一解说员的所在时间帧的身份向量大致相同;
步骤S111:对身份向量集合X*中的元素进行聚类,即将同一解说员的时间帧归为一类,得到一个N维的布尔变量组成的向量,N为解说员数量;
步骤S112:查看用户设置,将用户厌恶的解说员所对应的布尔值设为1,反之为0;
步骤S113:用户选择本地解说视频数据库集合F中的视频进行播放时,检测该视频是否已被增强,若未被增强,则从身份向量集合X*中依次调取该视频对应的时间帧身份向量,若其所在类别在布尔向量中值为0,则执行步骤S115,反之执行步骤S114;
步骤S114:从时间帧集合T与纯人声时间帧集合H中调取对应时间帧,并相减,即从视频中剔除该解说员人声;
步骤S115:检查该视频的下一时间帧,若检查完毕,则进入步骤S116;
步骤S116:将该视频标记为已增强视频。
优选的:步骤S101步骤中,本地解说视频数据库集合F由用户手动下载并导入视频。
优选的:步骤S101步骤中,本地解说视频数据库集合F至少包含视频ID、视频是否为新视频信号、视频主要解说的身份向量、视频对应的纯人声音频、视频导入时间。
优选的:步骤S102中,每一帧的长度在20到25ms之间;帧与帧之间的重叠在8-12ms左右。
优选的:步骤S102中,加窗操作如下:从时间帧中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号。
优选的:步骤S104中,所述神经网络为语音多源分离的基于监督学习方法的深度循环神经网络,在训练过程中使用时频掩码方法,用于从混合声源的时间帧幅度谱集合Tv中提取中纯人声幅度谱Hv
优选的:步骤S106中,梅尔滤波器是一组20-40个三角滤波器组,对上一步得到的周期图的功率谱估计进行滤波。
优选的:步骤S109中,高斯混合模型指的是多个高斯分布函数的线性组合。
优选的:步骤S109中,最大期望演算法指在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。
优选的:最大期望算法经过两个步骤交替进行计算,其特征在于:引入隐含变量后会有两个参(变量)数,最大期望算法首先会固定其中的第一个参数,然后使用最大似然估计方法计算第二个参数值;接着通过固定第二个参数,再使用最大似然估计方法估测第一个参数值,依次迭代,直至收敛到局部最优解。
本发明相比现有技术,具有以下有益效果:
本发明在体育赛事解说过程中,用户能够根据自身喜好,对解说视频进行个性化的定制,这保证了当视频来源单一时,用户依旧拥有满足自身需求的权力。结合了多媒体处理技术,对赛事解说进行优化,以此完成解说员的识别与屏蔽功能,有利于提高用户的观赛体验,进而提高消费者的满意度。
附图说明
图1是本发明一种面向用户的自定义体育赛事解说增强方法的从赛事视频中提取时间帧特征向量流程示意图。
图2是本发明一种面向用户的自定义体育赛事解说增强方法的针对每一个解说员构建身份向量流程示意图。
图3是本发明一种面向用户的自定义体育赛事解说增强方法梅尔滤波器滤波的过程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向用户的自定义体育赛事解说增强方法,如图1-3所示,对于解说视频中的人声声纹进行分离,根据用户设置对个别解说员声纹进行屏蔽,实现更好的观赛体验,旨在优化用户观看比赛的体验以及增加赛事视频的可定制性,具体包括如下步骤:
步骤S101:检查是否有新的解说视频信息,若有则转步骤S102更新本地解说视频数据库集合F,否则转步骤S113;
本地解说视频数据库集合F由用户手动下载并导入视频,本地解说视频数据库集合F至少包含视频名称、视频格式、视频分辨率,(若为新视频,并要求同一时间段内,不可能有两个视频解说员同时发言)。当检测到有新的视频导入,需要对本地的背景通用模型以及每一个解说员的身份向量进行重建。因为身份向量的构建依赖于背景通用模型,而数据量越大,背景通用模型的效果越好,可以提高系统屏蔽的准确性和可靠性。
本地解说视频数据库集合F应该包含视频ID、视频是否为新视频信号、视频主要解说的身份向量(若为新视频,默认为0)、视频对应的纯人声音频、视频导入时间。例如,本地解说视频数据库集合F如表1所示,为了便于信息查找,视频所对应的ID被记录且保存在表1中显示,设置了一个布尔变量来记录是否存在新视频,若存在,则需要进行更新。假定每个解说视频只有一个解说员,对于每个视频,设置了解说身份向量来记录。同时保存了视频的纯人声音频和视频时长等长,使用视频原音轨与纯人声音轨相减,则可以得到剔除了人声但保留了赛场声音的视频。最后,设置了导入时间,以便用户查阅。
表1 本地解说视频数据库
Figure BDA0002447861400000051
步骤S102:对本地解说视频库集合F中的视频进行切分处理,将完整的视频切分为若干个时间帧,时间帧的长度固定,对每一帧进行加窗操作,得到所有视频的时间帧集合T;
对音频信号进行分帧有利于后面的处理,也能够提取到足够多的信息。每一帧的长度在20到25ms之间。帧与帧之间的重叠在10ms左右。数值可以有些许调整,一般来说,移动的距离大约为帧长的三分之一到二分之一之间。FFT变换只能对有限长度的时域数据进行变换,因此需要对信号进行加窗函数操作,也即信号数据截断的过程。做法是从信号中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,比较典型的可以是汉明窗。
步骤S103:对时间帧集合T中的元素进行傅里叶变换,将信号转换至频率域,得到时间帧集合T的幅度谱集合Ts与相位谱集合Ts
因为纯人声信号的相位和对应时间帧的相位谱是一致的,因此我们只需要对幅度谱进行处理。
步骤S104:将时间帧幅度谱集合Tv输入神经网络,神经网络负责人声幅度谱Hv的提取工作;
神经网使用的是一种用于语音多源分离的基于监督学习方法的深度循环神经网络,在训练过程中使用时频掩码技术,用于从混合声源的幅度谱中提取中纯人声幅度谱。这里的神经网络可以使用Po-Sen Huang,Minje Kim,Mark Hasegawa-Johnson,ParisSmaragdis,Singing-Voice Separation From Monaural Recordings Using DeepRecurrent Neural Networks.2014.一文中的深度循环神经网络。
步骤S105:将人声幅度谱Hv与相位谱集合Ts结合,进行逆傅里叶变换,得到纯人声时间帧集合H;
得到纯人声时间帧集合,一方面是为了从原视频中剔除人声,另一方面是为了对纯人声进行特征向量的构建,以便于识别解说员的身份。
步骤S106:让纯人声时间帧集合H每个元素通过梅尔滤波器,得到精简频域信息集合H*
梅尔滤波器是一组大约20-40(通常26)个三角滤波器组,它会对上一步得到的周期图的功率谱估计进行滤波。我们的滤波器组由26个(滤波器)长度为257的向量组成,每个滤波器的257个值中大部分都是0,只有对于需要采集的频率范围才是非零。输入的257点的信号会通过26个滤波器,计算通过每个滤波器的信号的能量。如图3所示,左侧示意图为原始声纹的频谱,通过一系列的三角滤波器,在梅尔滤波器的作用下,变换为图3下方所示的更贴合人耳听觉的频谱,我们把掉落到各个滤波器的能量分别加以统计,得到结果。从实现的角度,这里有一个实现方案:左边的等间距的三角滤波器有很多边界(滤波器个数加1),把这些边界通过变换函数,映射到下图的各个三角形的边界上。这样就得到了下边图的范围。然后对于下边图的每一个频率都对应到一个三角滤波器的范围。加以处理(相乘)叠加统计之后,等到每一个滤波器里面的能量。
步骤S107:对精简频域信息集合H*的每个元素取对数,并做离散傅里叶变换,取第2-13个前分量的系数作为特征,然后把每个滤波器的能量叠加起来,成为第13个特征;
对信号做离散傅里叶变换之后,不采用容易被干扰的高频分量,因此只取第2-13个分量的幅度作为特征,共13个,除此之外,将每个滤波器对应的能量相加,得到了第13个特征。不同的梅尔滤波器是有交集的,因此它们是相关的,用DCT变换去掉这些相关性。
步骤S108:对精简频域信息集合H*中的每个时间帧,已有13个特征,对这13个特征进行一阶差步骤分与二阶差分,得到共39个特征;相应的,每一个时间帧用大小为39×1的特征向量x来表示,得到所有时间帧特征集合X={x1,x2,…,xi},其中i为集合X的元素个数;
一阶差分系数和二阶差分系数可由当前帧前后几帧的信息来计算,意义在于MFCC特征向量描述了一帧语音信号的功率谱的包络信息,但是语音识别也需要帧之间的动态变化信息。因此通过差分操作,获得更多的特征量是值得的。
步骤S109:使用高斯混合模型来对时间帧特征集合X进行建模,使用最大期望演算法对高斯混合模型的参数进行优化,得到人声的通用背景模型;
如图2所示,我们既然没法从目标用户那里收集到足够的语音,那就换一种思路,可以从其他地方收集到大量非目标用户的声音,我们将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个高斯混合模型,可以看作是对语音的表征,但是又由于它是从大量身份的混杂数据中训练而成,它又不具备表征具体身份的能力。我们可以把这种模型看作是某一个具体说话人模型的先验模型。
高斯混合模型指的是多个高斯分布函数的线性组合,理论上高斯混合模型可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况;最大期望演算法指在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。引入隐含变量后会有两个参数,最大期望算法首先会固定其中的第一个参数,然后使用最大似然估计方法计算第二个变量值;接着通过固定第二个变量,再使用最大似然估计方法估测第一个变量值,依次迭代,直至收敛到局部最优解。
步骤S110:对于时间帧特征集合中的每一个元素,利用S109得到的预训练通用背景模型使用最大期望方法优化,得到时间帧的身份向量(identity vector)集合X*,同一解说员的所在时间帧的身份向量大致相同;
事实上,使用最大后验概率估计的方法,根据给定的时间帧特征向量,在经过预训练的高斯混合模型上训练时,主要改变高斯混合模型的各个均值,记作向量s。因此,身份向量即为训练完成的高斯混合模型中的每一个分量的均值构建成的向量$s$。
步骤S111:对身份向量集合X*中的元素进行聚类,即将同一解说员的时间帧归为一类,得到一个N维的布尔变量组成的向量,N为解说员数量;
对于所有的时间帧特征向量进行聚类,同一解说员的时间帧将会被聚集起来,相应的,有几个解说员,就会有几个聚类的类别,我们可以使用k-means聚类,这种情况下,每个类别的均值即为该解说员的身份向量。
步骤S112:查看用户设置,将用户厌恶的解说员所对应的布尔值设为1,反之为0;
用户可以由硬盘,软盘等计算机外部设备导入视频,也可以从互联网上直接下载相关视频存放于本地。
用户设置的方法为:
a、给出数据库中已有身份向量的解说员的代号(聚类类别);
b、若视频正在播放,转d,否则用户输入需要屏蔽的解说员代号;
c、将解说员代号对应的布尔向量中的值改为1;
d、用户输出指令,屏蔽当前视频的解说员;
e、从身份向量集合X’调取当前视频当前时间帧的身份向量,将其对应的布尔向量中的值改为1。
如表2解说员数据库所示,每一个解说员有唯一的ID以及身份向量,同时设置了一个布尔变量来描述该解说员是否需要被屏蔽。用户可以自由设置屏蔽解说员,但解说员身份向量只能由数据库更新改变。
表2 解说员数据库
解说员ID 解说员身份向量 是否屏蔽该解说员
001 <1,1,1> 0
002 <2,5,6> 1
003 <3,5,1> 0
步骤S113:用户选择本地解说视频数据库集合F中的视频进行播放时,检测该视频是否已被增强,若未被增强,则从身份向量集合X*中依次调取该视频对应的时间帧身份向量,若其所在类别在布尔向量中值为0,则执行步骤S115,反之执行步骤S114;
对于被增强的视频,播放的音轨为减去纯净人声的音轨。
步骤S114:从时间帧集合T与纯人声时间帧集合H中调取对应时间帧,并相减,即从视频中剔除该解说员人声;
时间帧集合T即为视频原声,纯人声时间帧集合H中存放着纯净人声。
步骤S116:将该视频标记为已增强视频;
下次播放该视频,且用户没有改变个人喜好设置时,直接播放无人声的音轨,而无需重复上述步骤。
本发明对于解说视频中的人声声纹进行分离,根据用户设置对个别解说员声纹进行屏蔽,实现更好的观赛体验。在人声声纹提取过程中,通过对音频进行切分,傅里叶变换,经深度循环神经网络处理,提取出纯净的人声时间帧。在解说员身份识别过程中,首先从时间帧中通过通用背景模型,根据特定时间帧进行最大后验估计,提取出时间帧的特征向量。对时间帧的特征向量进行聚类,每一个类别即为一个解说员,每一个类别的均值,即为解说员的身份向量,以此完成解说员的识别与屏蔽功能。从而提升了用户观看体育赛事的体验,有利于体育赛事更好的推广,丰富人民精神文化生活。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种面向用户的自定义体育赛事解说增强方法,其特征在于,包括以下步骤:
步骤S101:检查是否有新的解说视频信息,更新本地解说视频数据库集合F;
步骤S102:对本地解说视频库集合F中的视频进行切分处理,将完整的视频切分为若干个时间帧,时间帧的长度固定,对每一帧进行加窗操作,得到所有视频的时间帧集合T;
步骤S103:对时间帧集合T中的元素进行傅里叶变换,将信号转换至频率域,得到时间帧集合T的幅度谱集合Ts与相位谱集合Ts
步骤S104:将时间帧幅度谱集合Tv输入神经网络,神经网络负责人声幅度谱Hv的提取工作;
步骤S105:将人声幅度谱Hv与相位谱集合Ts结合,进行逆傅里叶变换,得到纯人声时间帧集合H;
步骤S106:让纯人声时间帧集合H每个元素通过梅尔滤波器,得到精简频域信息集合H*
步骤S107:对精简频域信息集合H*的每个元素取对数,并做离散傅里叶变换,取第2-13个分量的系数作为特征,然后把每个滤波器的能量叠加起来,成为第13个特征;
步骤S108:对精简频域信息集合H*中的每个时间帧,已有13个特征,对这13个特征进行一阶差步骤分与二阶差分,得到共39个特征;相应的,每一个时间帧用大小为39×1的特征向量x来表示,得到所有时间帧特征集合X={x1,x2,…,xi},其中i为集合X的元素个数;
步骤S109:使用高斯混合模型来对时间帧特征集合X进行建模,使用最大期望演算法对高斯混合模型的参数进行优化,得到人声的通用背景模型;
步骤S110:对于时间帧特征集合中的每一个元素,利用S109得到的预训练通用背景模型使用最大期望方法优化,得到时间帧的身份向量(identity vector)集合X*,同一解说员的所在时间帧的身份向量大致相同;
步骤S111:对身份向量集合X*中的元素进行聚类,即将同一解说员的时间帧归为一类,得到一个N维的布尔变量组成的向量,N为解说员数量;
步骤S112:查看用户设置,将用户厌恶的解说员所对应的布尔值设为1,反之为0;
步骤S113:用户选择本地解说视频数据库集合F中的视频进行播放时,检测该视频是否已被增强,若未被增强,则从身份向量集合X*中依次调取该视频对应的时间帧身份向量,若其所在类别在布尔向量中值为0,则执行步骤S115,反之执行步骤S114;
步骤S114:从时间帧集合T与纯人声时间帧集合H中调取对应时间帧,并相减,即从视频中剔除该解说员人声;
步骤S115:检查该视频的下一时间帧,若检查完毕,则进入步骤S116;
步骤S116:将该视频标记为已增强视频。
2.根据权利要求1所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S101步骤中,本地解说视频数据库集合F由用户手动下载并导入视频。
3.根据权利要求2所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S101步骤中,本地解说视频数据库集合F至少包含视频ID、视频是否为新视频信号、视频主要解说的身份向量、视频对应的纯人声音频、视频导入时间。
4.根据权利要求3所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S102中,每一帧的长度在20到25ms之间;帧与帧之间的重叠在8-12ms左右。
5.根据权利要求4所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S102中,加窗操作如下:从时间帧中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号。
6.根据权利要求5所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S104中,所述神经网络为语音多源分离的基于监督学习方法的深度循环神经网络,在训练过程中使用时频掩码方法,用于从混合声源的时间帧幅度谱集合Tv中提取中纯人声幅度谱Hv
7.根据权利要求6所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S106中,梅尔滤波器是一组20-40个三角滤波器组,对上一步得到的周期图的功率谱估计进行滤波。
8.根据权利要求7所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S109中,高斯混合模型指的是多个高斯分布函数的线性组合。
9.根据权利要求8所述面向用户的自定义体育赛事解说增强方法,其特征在于:步骤S109中,最大期望演算法指在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。
10.根据权利要求9所述面向用户的自定义体育赛事解说增强方法,其特征在于:最大期望算法通过引入隐含变量,会有两个参数,首先会固定其中的第一个参数,然后使用最大似然估计方法计算第二个参数值;接着通过固定第二个参数,再使用最大似然估计方法估测第一个参数值,依次迭代,直至收敛到局部最优解。
CN202010284204.8A 2020-04-13 2020-04-13 一种面向用户的自定义体育赛事解说增强方法 Active CN111477244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284204.8A CN111477244B (zh) 2020-04-13 2020-04-13 一种面向用户的自定义体育赛事解说增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284204.8A CN111477244B (zh) 2020-04-13 2020-04-13 一种面向用户的自定义体育赛事解说增强方法

Publications (2)

Publication Number Publication Date
CN111477244A true CN111477244A (zh) 2020-07-31
CN111477244B CN111477244B (zh) 2023-09-22

Family

ID=71752182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284204.8A Active CN111477244B (zh) 2020-04-13 2020-04-13 一种面向用户的自定义体育赛事解说增强方法

Country Status (1)

Country Link
CN (1) CN111477244B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216306A (zh) * 2020-09-25 2021-01-12 广东电网有限责任公司佛山供电局 基于声纹的通话管理方法、装置、电子设备及存储介质
CN114491143A (zh) * 2022-02-12 2022-05-13 北京蜂巢世纪科技有限公司 现场活动的音频解说搜索方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119729A1 (en) * 2002-12-10 2009-05-07 Onlive, Inc. Method for multicasting views of real-time streaming interactive video
US20090118017A1 (en) * 2002-12-10 2009-05-07 Onlive, Inc. Hosting and broadcasting virtual events using streaming interactive video
CN102163397A (zh) * 2011-05-27 2011-08-24 大连交通大学 自助式多媒体智能解说系统
CN104135667A (zh) * 2014-06-10 2014-11-05 腾讯科技(深圳)有限公司 一种视频异地解说同步方法、终端设备,及系统
CN105898605A (zh) * 2016-04-29 2016-08-24 乐视控股(北京)有限公司 一种实现平民解说的方法及装置
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN110971964A (zh) * 2019-12-12 2020-04-07 腾讯科技(深圳)有限公司 智能解说生成、播放方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119729A1 (en) * 2002-12-10 2009-05-07 Onlive, Inc. Method for multicasting views of real-time streaming interactive video
US20090118017A1 (en) * 2002-12-10 2009-05-07 Onlive, Inc. Hosting and broadcasting virtual events using streaming interactive video
CN102163397A (zh) * 2011-05-27 2011-08-24 大连交通大学 自助式多媒体智能解说系统
CN104135667A (zh) * 2014-06-10 2014-11-05 腾讯科技(深圳)有限公司 一种视频异地解说同步方法、终端设备,及系统
CN105898605A (zh) * 2016-04-29 2016-08-24 乐视控股(北京)有限公司 一种实现平民解说的方法及装置
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN110971964A (zh) * 2019-12-12 2020-04-07 腾讯科技(深圳)有限公司 智能解说生成、播放方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216306A (zh) * 2020-09-25 2021-01-12 广东电网有限责任公司佛山供电局 基于声纹的通话管理方法、装置、电子设备及存储介质
CN114491143A (zh) * 2022-02-12 2022-05-13 北京蜂巢世纪科技有限公司 现场活动的音频解说搜索方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111477244B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Chaudhuri et al. Ava-speech: A densely labeled dataset of speech activity in movies
CN111128214B (zh) 音频降噪方法、装置、电子设备及介质
US20100005485A1 (en) Annotation of video footage and personalised video generation
Vinciarelli Speakers role recognition in multiparty audio recordings using social network analysis and duration distribution modeling
JP2004258659A (ja) スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
CN106991163A (zh) 一种基于演唱者声音特质的歌曲推荐方法
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
JP5843401B2 (ja) コンテンツ情報提供装置、コンテンツ情報提供システム、コンテンツ情報提供方法及びコンテンツ情報提供プログラム
CN102073635A (zh) 节目端点时间检测装置和方法以及节目信息检索系统
CN111477244B (zh) 一种面向用户的自定义体育赛事解说增强方法
CN109525865B (zh) 基于区块链的收视率监测方法和计算机可读存储介质
CN109271550A (zh) 一种基于深度学习的音乐个性化分类推荐方法
Brown et al. Playing a part: Speaker verification at the movies
CN102073636A (zh) 节目高潮检索方法和系统
WO2019233361A1 (zh) 对音乐进行音量调节的方法及设备
CN110580914A (zh) 一种音频处理方法、设备及具有存储功能的装置
CN108629047B (zh) 一种歌曲清单生成方法及终端设备
CN113707183B (zh) 一种视频中的音频处理方法及装置
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
Schaffer et al. Music separation enhancement with generative modeling
KR100863122B1 (ko) 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
Pham et al. An audio-based deep learning framework for BBC television programme classification
Nwe et al. Broadcast news segmentation by audio type analysis
Jani et al. Experimental investigation of transitions for mixed speech and music playlist generation
CN111986696B (zh) 一种高效处理歌曲音量均衡的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Xingguo

Inventor after: Qiao Yiming

Inventor after: Liu Wei

Inventor after: Zhu Jie

Inventor after: Zhang Peng

Inventor before: Chen Xingguo

Inventor before: Zhang Peng

Inventor before: Liu Wei

Inventor before: Zhu Jie

CB03 Change of inventor or designer information
CB02 Change of applicant information

Address after: 210000, 66 new model street, Gulou District, Jiangsu, Nanjing

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Ya Dong Qixia District of Nanjing City, Jiangsu province 210000 New District No. 9

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant