CN101472082B

CN101472082B - 一种场记系统和方法

Info

Publication number: CN101472082B
Application number: CN2007103041380A
Authority: CN
Inventors: 张峰; 徐晓展
Original assignee: China Digital Video Beijing Ltd
Current assignee: China Digital Video Beijing Ltd
Priority date: 2007-12-25
Filing date: 2007-12-25
Publication date: 2012-07-25
Anticipated expiration: 2027-12-25
Also published as: CN101472082A

Abstract

本发明提供一种场记系统，其主要包含以下部件：场记系统，用于选择场记任务；收录信息系统，用于收录场记任务对应的音视频资料，并形成音视频文件和素材元数据文件；收录素材系统，用于存储所述音视频文件和素材元数据文件；语音识别系统，用于根据关键词词典识别音视频文件；其中，语音识别系统每识别出一个关键词就驱动所述场记系统进行场记，同时修改素材元数据文件。本发明对收录的音视频信号根据定义的关键词进行语音识别，从而自动进行场记，不仅保证了记录的准确性，而且节约了大量的人力、时间和场地。

Description

一种场记系统和方法

技术领域

本发明涉及广播电视领域，进一步的，涉及到一种场记系统和方法。

背景技术

场记主要任务是记录现场信息，通过相对时间、绝对时间或位置时码来记录画面的位置，将现场拍摄的每个镜头的详细情况：镜头号码、拍摄方法、镜头长度、人物的动作等各方面的细节和数据详细、精确地记录下来。因此，场记所作的记录为后期剪辑提供了准确的数据和资料。

特别是，在大型体育赛事和电视台的体育演播室中，报道赛事的编辑记者需要专题节目的快速编辑、制作。如何在茫茫大海似的素材中迅速找出精确到帧的画面，需要场记针对现场的电视画面进行镜头的画面描述和记录。记录的准确率和利用率是能否高效检索素材的关键。

在目前的实践中，由人工操作，记录体育素材热点画面的位置，因此要求操作人员熟悉各种比赛项目的比赛规则，这就需要大量的人力资源和长时间的培训。而且，人工手动记录因为操作人员对体育项目的熟悉程度不同，记录的准确性有很大的差别。

发明内容

本发明目的是提供一种场记系统和方法，其针对收录的音视频信号根据定义的关键词进行语音识别，从而自动进行场记，实现素材实时编目的功能。

为实现上述目的，根据本发明的一个方面，提供了一种场记系统，包括下列部件：

场记系统，用于选择场记任务；

收录信息系统，用于收录场记任务对应的音视频资料，并形成音视频文件和素材元数据文件；

收录素材系统，用于存储音视频文件和素材元数据文件；

语音识别系统，用于根据关键词词典识别音视频文件；

其中，语音识别系统每识别出一个关键词就驱动场记系统进行场记，同时修改素材元数据文件。

根据本发明的另一方面，上述系统还包括语音训练系统，用于定义关键词，学习所述关键词的发音，形成关键词词典。

根据本发明的又一方面，上述系统还包括内容平台系统，用于检索修改后的素材元数据文件，得到感兴趣画面。

根据本发明的再一方面，还提供了一种场记方法，包含以下步骤：

选择场记任务；

收录场记任务对应的音视频资料，并形成音视频文件和素材元数据文件；

存储音视频文件和素材元数据文件；

根据关键词词典对音视频文件进行语音识别，每识别出一个关键词就驱动所述场记系统进行场记，同时修改素材元数据文件。

根据本发明的再一方面，上述方法在根据关键词词典对音视频文件进行语音识别之前，首先定义关键词，学习关键词的发音，形成关键词词典。

根据本发明的再一方面，上述方法还包含用于检索修改后的素材元数据文件，得到感兴趣画面。

与现有技术相比，本发明能够达到如下技术效果：

对收录的音视频信号根据定义的关键词进行语音识别，从而自动进行场记，不仅保证了记录的准确性，而且节约了大量的人力、时间和场地。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1是基于语音识别的场记系统示意图。

图2是选择场记任务界面示意图。

图3是一个以足球赛事为例的场记界面示意图。

图4是本发明系统的实施流程图。

具体实施方式

在广播电视领域，特别是体育比赛中，解说员对每一项比赛所解说的词语大多是体育比赛规则、规范中统一定义的词语，即体育比赛各项目中用到的专业术语。这些词语描述的场景是比赛中的热点画面，是以后检索访问率比较高的画面，也即有效或有意义的素材，场记需要在此做标记。体育类节目中关键词通常是可枚举的，如足球项目的关键词：上半场、下半场、加时赛等，又如开幕式的关键词：领导进场、宣布开幕、队员进场等。

语音识别技术分析音频文件，把分析出来的内容记录成文本信息，从而自动记录元素材数据信息。该技术由设备按程序分析，不存在人的个体化差异。但是目前语音识别产品对自然语言的识别率不高，人的发音、语音、语速，素材的背景音乐，噪音都会影响素材识别的正确率。因为体育节目中，关键词可以枚举，所以本发明充分利用此特点提出了基于关键词对比与识别的语音识别技术，并基于此实现了自动场记系统，从而提高了识别正确率。具体地说，本发明通过关键词的对比与识别来定位语音关键帧，把此定位信息和关键词的相关描述信息作为编目信息，从而为精确到帧的检索提供信息和资料，便于后期编辑处理，例如以文字的方式和时间顺序反应音视频节目中的内容。

因为检索素材时关键词的利用频率是反映关键词定义好坏的标准，所以可以根据检索素材时关键词的利用频率定义关键词。

以足球项目和开幕式为例，表1和表2分别是两项目的关键词列表，其中“解释”一栏是对相应关键词的通俗描述。

表1 足球项目关键词列表

足球
					关键词	属性	解释
1	上半场	动作/事件	指的是本次比赛的从开始约45分钟的时间段
				2	下半场	动作/事件	指的是本次比赛的从休息约15分钟后的时间段
3	加时赛	动作/事件	有时比赛需要进行加时
				4	射门	动作/事件	是足球比赛得分的标志和精彩时刻
5	进球	动作/事件	指队员踢球进入对方的球门的事件
				6	角球	动作/事件	将足球放置到足球场的四个角中的一个角进行重新发球

7	点球	动作/事件
				8	任意球	动作/事件
9	上场	动作/事件	指某些队员上场替换某些下场的队员
				10	下场	动作/事件	指某些队员上场因各种原因下场
11	黄牌	动作/事件	指被裁判向某些队员因犯规给予的警告
				12	红牌	动作/事件	指被裁判向某些队员因犯规给予的惩罚(取消本次比赛资格)

表2 开幕式关键词列表

开幕式
					关键点	属性	解释
1	领导进场	动作/事件
				2	宣布开幕	动作/事件
3	队员进场	动作/事件
				4	火炬点火	动作/事件
5	领导发言	动作/事件
				6	队员宣誓	动作/事件
7	裁判宣誓	动作/事件
				8	表演	动作/事件
9	队员退场	动作/事件
				10	全景	镜头	整个比赛场地或场馆相对较大的画面
11	特写	镜头	针对人物或景物着重摄影
				12	精彩	镜头	对任何精彩的画面或事件的描述
13	观众	镜头	拍摄观众画面的镜头

结合附图1来详细说明本发明的一个具体实施例。

语音训练系统首先学习标准普通话中关键词的发音。通过对固定的词汇和固定人群的语音、语速进行学习训练可以大大提高语音识别的正确率。以体育节目为例，体育比赛素材的声音主要来自体育解说员，每个解说员的发音会与标准的发音有所偏离，收集一些著名解说员的赛事解说资料，针对这些解说员关键词的发音特点让语音识别系统进行学习。对于每个关键词，把各位解说员的发音和标准普通话的发音作个同义的类库，形成一个由这些同义类库构成的词典，存入语音识别系统，供其进行音视频文件的模糊查询。从而提高语音识别正确率。

登录场记系统，则自动进入场记任务选择界面，对应每一条收录计划存在一个场记任务，并自动获取一个任务号，选择即将开始的场记任务。附图2为一个选择场记任务界面示意图。其中，包含任务号、项目名、赛事描述、收录开始时间和收录结束时间共5栏显示区内容。可以首先选择所需赛事的日期，然后根据赛事描述一栏中每一条，对应一个收录的任务。选择这条就是对这条收录作场记。赛事描述一栏中没有收录条目信息的，如对临时手动收录的条目，就要手动建立一个场记任务和任务号。这样收录信息系统完成赛事等资料的收录和登记，形成音视频文件和素材元数据文件。场记系统根据收录的条目记录场记信息加到素材元数据文件中。例如：选择了图2中的全运会男子普通-田径1，则此系统将于2005年8月23日的16:57:00开始收录赛事，并于2005年8月23目的17:07:00结束收录。其中素材元数据文件中记载了音视频文件的相关信息，例如：可以把赛事组委会提供的比赛信息录入到数据库中，由数据库建立素材表单，自动按表单的日期和时间形成采集任务。收录信息系统把这两个文件传输至收录素材系统，并存储在收录素材系统。

语音识别系统对收录到的音视频文件进行实时分析处理：根据同义类库构成的词典，模糊检索音频文件中的关键词，每检索到一个关键词，就驱动场记系统中关键词相应的部件，比如关键词按钮单击事件。场记系统记录此关键词和其所在位置信息到收录素材系统中的素材元数据文件中，其中位置信息包含相对时间、绝对时间或位置时码。例如一段素材有十分钟，在三分五十八秒十一帧有个进球画面，本发明记录这一点为00:03:58:11，00:03:58:11就是这个关键词的时码位置，其提供了位置信息。语音识别系统可以把要分析的音视频文件分割成多份片段，多台服务器，多个进程同时分析这个素材，从而达到实时分析素材的目的。还可以通过人工手动驱动场记系统中相应的部件来记录相应的关键词和其位置信息，这与语音识别系统驱动事件作记录没有任何冲突，可以作为语音识别系统的补充。

以四川冠城足球队和上海申花足球队的足球赛事为例，电子场记的软件界面如图3所示。其中，包含所选项目的所有关键词，每队的队员、足球赛事的各个关键词。假设现在四川冠城足球队的4号刘宇射门。收到的素材声音文件就会有解说员说刘宇、射门的声音信息。语音识别到刘宇、射门关键词后，语音识别系统就驱动场记系统中关键词相应的按钮单击事件，场记系统记录关键词和其所在位置信息到素材元数据文件中，从而完成实时场记的记录。

内容平台系统依据场记信息检索素材元数据文件，可以很快获得所需的比赛的重要和精彩部分

本发明还提供了一种基于语音识别的场记方法，实施流程如图4所示，具体步骤如下所述：

首先，根据检索素材时关键词的利用频率定义关键词。

对上述关键词进行语音训练，学习标准普通话中关键词的发音。收集一些著名解说员的赛事解说资料，学习这些解说员的关键词发音特点。对于每个关键词，把各位解说员的发音和标准普通话的发音作个同义的类库，形成一个由这些同义类库构成的词典，以便依此进行音视频文件的模糊查询。从而提高语音识别正确率。

选择场记任务。收录和登记场记任务所对应的音视频资料，并形成音视频文件和素材元数据文件；存储这两个文件。根据关键词词典对音视频文件进行语音识别；如果识别出存在能够匹配的关键词，就驱动场记系统中关键词相应的部件，比如关键词按钮单击事件，同时记录此关键词和其所在位置信息到收录素材系统中的素材元数据文件中，其中位置信息包含相对时间、绝对时间或位置时码。检索已经记录了关键词和其位置信息的素材元数据文件，即可得到感兴趣画面。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种场记系统，包含以下部件：

场记装置，用于选择场记任务，并进行场记；

收录信息系统，用于收录所述场记任务对应的音视频资料，并形成音视频文件和素材元数据文件；

收录素材系统，用于存储所述音视频文件和素材元数据文件；

语音识别系统，用于根据关键词词典识别音视频文件；

其中，所述语音识别系统每识别出一个关键词就驱动所述场记装置进行场记，同时修改所述素材元数据文件，所述修改所述素材元数据文件包含记录所述关键词和其所在位置信息到素材元数据文件中。

2.根据权利要求1所述的系统，其特征在于，还包含语音训练系统，用于定义关键词，学习所述关键词的发音，形成所述关键词词典。

3.根据权利要求2所述的系统，其特征在于，所述语音训练系统根据检索素材时关键词的利用频率来定义关键词。

4.根据权利要求2所述的系统，其特征在于，所述语音训练系统在学习所述关键词的发音时：

首先学习标准普通话的关键词发音；

然后学习多个解说员的关键词发音。

5.根据权利要求1所述的系统，其特征在于，还包含内容平台系统，用于检索所述修改后的素材元数据文件，得到感兴趣画面。

6.根据权利要求1至5中任一项所述的系统，其特征在于，所述位置信息包含相对时间、绝对时间或位置时码。

7.一种场记方法，包含以下步骤：

选择场记任务；

收录所述场记任务对应的音视频资料，并形成音视频文件和素材元数据文件；

存储所述音视频文件和素材元数据文件；

根据关键词词典对音视频文件进行语音识别，每识别出一个关键词就驱动场记装置进行场记，同时修改所述素材元数据文件，所述修改所述素材元数据文件包含记录所述关键词和其所在位置信息到素材元数据文件中。

8.根据权利要求7所述的方法，其特征在于，在所述根据关键词词典对音视频文件进行语音识别之前，首先定义关键词，学习所述关键词的发音，形成所述关键词词典。

9.根据权利要求8所述的方法，其特征在于，所述定义关键词是根据检索素材时关键词的利用频率来定义的。

10.根据权利要求8所述的方法，其特征在于，所述学习所述关键词的发音，包含如下步骤：

首先学习标准普通话的关键词发音；

然后学习多个解说员的关键词发音。

11.根据权利要求7所述的方法，其特征在于，还包含用于检索所述修改后的素材元数据文件，得到感兴趣画面。

12.根据权利要求7至11中任一项所述的方法，其特征在于，所述修改所述素材元数据文件包含记录所述关键词和其所在位置信息到素材元数据文件中。

13.根据权利要求12所述的方法，其特征在于，所述位置信息包含相对时间、绝对时间或位置时码。