CN101539929A

CN101539929A - 利用计算机系统进行的电视新闻标引方法

Info

Publication number: CN101539929A
Application number: CN200910030960A
Authority: CN
Inventors: 陈一宏; 尹逊钰; 吴鹏
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2009-04-17
Filing date: 2009-04-17
Publication date: 2009-09-23
Anticipated expiration: 2029-04-17
Also published as: CN101539929B

Abstract

本发明公开了一种电视新闻智能标引的方法，将语音识别、图像识别等人工智能方法引入到传统的电视新闻标引工作中，包括如下步骤：(1)视频采集和分段；(2)视频预处理；(3)连续语音识别；(4)图像文字识别；(5)文本纠错与分词；(6)有人监督的校对，本发明重新定义了电视新闻节目的标引流程和方式，解决了旧有方法中工作效率低、标引不充分、信息挖掘不足等问题。

Description

利用计算机系统进行的电视新闻标引方法

技术领域

本发明涉及一种利用计算机系统进行的电视新闻智能标引的方法，将语音识别、图像识别等人工智能方法引入到传统的电视新闻标引工作中。

背景技术

电视台每天要生产大量电视新闻视频节目，这些视频节目将进入媒体资产管理系统，传统的媒体资产管理系统能够对这些视频节目进行手工的分类编目、添加标题和附属文稿、定义关键字或标签，以便使这些视频节目有序化、可检索化。传统的电视新闻节目的标引方法通常采用以下几个步骤：先是进行视频节目的采集，将各类电视节目信号采集转换为数字视频文件；采集之后采用人工方式进行前期处理；然后导入媒资系统并执行一定自动化处理；入库之后由编辑进行后期处理，包括添加标题、节目描述、新闻文稿、关键字和标签，从而使视频内容具备一定可检索特性。

但这种传统方法存在如下问题：(1)手工操作效率低；(2)视频帧与文稿、关键字或标签没有对应关系；(3)定义的关键字或标签不充分；(4)做不到帧级别的细粒度检索，信息挖掘不足。由于存在这些问题，导致电视台需要大量编辑人员去完成繁杂的手工操作，不但效率低，而且正确率低。更重要的是，传统手工方法实现不了视频帧和语音的分析，从而做不到细粒度的检索，导致大量信息被湮没在存储中，造成极大的浪费，也使这些新闻视频节目得不到充分利用。传统方法下对视频的利用率低，远远不能展现视频节目的信息量，从而使得节目检索的自由度、信息丰富度以及节目的再利用价值大打折扣。

发明内容

本发明所要解决的技术问题是提供一种新型的利用计算机系统进行电视新闻节目标引方法，提高视频的利用率、展现视频节目的信息量，节目检索的自由度、信息丰富度以及节目的再利用价值增大。

本发明的技术方案是：

一种利用计算机系统进行的电视新闻节目标引方法，其方法步骤为：

(1)、视频采集和分段：将电视节目信号导入带有视频采集卡的计算机，生成数字化的可进行非线性处理的视频文件，电视信号经采集处理，转换为视频文件存储于大容量存储器中；

(2)、视频预处理：进入存储器中的视频文件进入大容量存储器的“待处理素材区”工作，通过信道分离方法，将声音和画面进行分离，源视频文件将会根据视频画面转换特征和声学特征进行切分，每个切分单元包括分离的波形语音和连续画面；

(3)、连续语音识别：通过将步骤(2)产生的内容颗粒通过以太网接口读入内存，对步骤(2)生成的切分单元中的波形语音进行处理和识别，包括降噪、剔除非语音信号、语言识别、说话人识别等前期处理，然后选择适用的声学模型和语言模型，将波形语音信号转换为文本；

(4)、图像文字识别：通过以太网接口读入内存，然后取出内容颗粒中已经切分好的图像文件，并放置在缓存区；逐一读取图像文件作为输入，以字符特征作为比较，检查图像中是否包含有字幕等文本信息，对步骤(2)生成的切分单元中的连续画面进行处理和识别，包括画面切分、画面特征分析、画面文字信息发现，然后对发现的文字信息进行识别转换；

(5)、文本纠错与分词：以上(3)和(4)步骤获取的文本信息作为原始素材送入纠错分词服务器中运行进行二次处理，发现原始素材中的文字错误并自动更正，然后对连续的文字从语义角度进行分词和提取关键词，形成视频节目的标引信息；

(6)、有人监督的校对：经步骤(5)二次处理生成的标引信息进行有人监督的校对，校对引擎将标引信息文件读取显示在显示器上，同时根据时间点信息同步播放对应的媒体文件，如果编辑人员发现标引有错误，则通过键盘或鼠标操作计算机系统，使播放暂停，然后修改为正确的标引值。

有人监督和干预的自动化审核和校对，形成最终的视频节目标引信息；

有益效果：本发明通过连续语音识别和图像文字识别技术，将电视新闻视频节目里的语音信号和文本图像转化为文字符号，相对原始语音和图像，文字符号更便于计算机处理，包括存储、标引、检索、出版；采用模型库和字典库的方法对识别出的文字进行纠错和分词，将关键词以自动化的方式提取出来；最后使用有人监督的交互校对系统对视频画面、音频线、时间刻度和关键词进行交互校对，完成最终的标引。由于采用自然语音识别和图像文字识别等人工智能技术，本发明重新定义了电视新闻节目的标引流程和方式，解决了旧有方法中工作效率低、标引不充分、信息挖掘不足等问题。

附图说明

图1为本发明的流程框图。

图2为本发明的程序运行交互图。

图3为标记文件格式。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明利用计算机系统进行的电视新闻节目标引方法，其方法步骤为：

(1)视频采集和分段

从数字电视机顶盒的输出信号AV端子将电视节目信号导入带有视频采集卡的计算机，生成数字化的可进一步处理的视频文件。可导入的电视节目信号包括卫星电视信号、CATV电视信号、数字电视信号、经AV接口/RCA接口/BNC接口/DVI接口等输入的电视信号，“视频采集卡”根据电视信号指令，经A/D转换，将电视信号采集为数字文件，并保存在“大容量存储器”的“原始素材区”。并按MD5算法分配一个32位唯一ID，用来将来唯一标识。采集后的视频文件格式为mpeg2，包括一个视频流和一个音频流，视频为mpeg2编码格式，音频为mp3编码格式，均为国际标准格式，便于后期处理。

“视频采集服务器”内运行一个定时器，当定时器触发时会调用视频分段程序，该程序依据视频转场识别技术将大段的视频切分为独立的视频文件，每个视频文件作为一个完整的电视新闻节目，然后存入“大容量存储器”的“待处理素材区”。

(2)视频预处理

第(1)步中，分段后的视频文件存入“待处理素材区”即自动触发源视频预处工作，程序首先以流的形式将视频读入视频处理服务器的内存缓冲区，“视频处理引擎”从内存缓冲区不断读取视频流，首先通过信道分离方法，将声音和画面进行分离，任何分别使用声学波形分析和连续画面转场分析的方法，将声音或画面分别切分成较小的内容颗粒。经过本道工序处理后，源视频文件将会根据视频画面转换特征和声学特征进行切分。

切分完成后，视频处理引擎将内容颗粒存储到视频处理服务器硬盘上的一个区域，即待处理素材区。

具体工作方法为：

1)源视频预处理程序定时检测待处理素材区是否有新的文件生成，检测的时间间隔为1秒，预处理服务器与视频采集服务器之间通过以太网连接；

2)预处理程序检测到有新文件后，创建一个视频流缓冲区，大小为1024千字节，用来以流的方式打开并读取这个文件；

3)视频处理引擎从内存缓冲区逐段读取视频流，并进行视频/音频分离操作，该分离操作由MPEG解码器实现，分离后，将生成基于源视频的纯视频文件和纯音频文件，其中该纯视频文件的编码为mpeg2，纯音频文件则从mp3重新编码为wave格式；

4)接下来分别对分离出的mpeg2视频片段和wave音频片段进行切分，其中，对wave音频采用音强变换特征对文件进行切分，即在音强为0处进行切断，并过滤掉连续的音强为0的波形片段；mpeg2视频片段采用mpeg关键帧技术，从视频中抽出关键帧，每一帧保存为一个jpeg图片；切分后的文件以他们距离起始时间点的毫秒数和源文件ID来命名，比如某个关键帧所处时间点为第12秒，则其文件名为MD5ID-12000.jpg(其中MD5ID表示一个32位的ID值，下同)比如某个wave音频所处时间点为第1分30秒425毫秒，则其文件名为MD5ID-90425.wav。

切分完成后，视频处理引擎将以上内容颗粒存储到视频处理服务器硬盘上的一个目录，目录名以原始文件MD5ID表示，即待处理素材区。

(3)连续语音识别

语音识别引擎是语音识别服务器的主程序，它首先将步骤(2)产生的内容颗粒通过以太网接口读入内存，然后取出内容颗粒中已经切分好的波形语音，并放置一缓存区；接下来，语音识别引擎对缓存区的语音信息逐一进行以下前期处理：降噪、剔除非语音信号、语言识别、说话人识别；然后，该引擎根据初步识别结果从硬盘上选择适用的声学模型文件，作为声学模型对象存入内存中；再次，根据语言识别结果从硬盘中选择适用的语言模型文件，作为语言模型对象存入内存中；最后，识别引擎驱动内存中的声学模型对象和语言模型对象，将缓存区中的语音信号，逐一转换为文本。

生成的文本文件放置入语音识别服务器的“下步处理暂存区”这一硬盘区块，文本文件的格式如图3所示。

本步骤生成的标引文件采用本发明自定义的基于XML标签技术的标引格式，其格式如图3所示，记录了识别出的以下信息：时间点、时长、可靠度和识别出的文本。本阶段所有wave文件的识别结果均放入同一标引文件，文件命名为MD5ID-CSR.txt，这个标引文件被放置入语音识别服务器的“下步处理暂存区”，即本地硬盘上的一个目录MD5ID。

(4)图像文字识别

图像文本识别引擎是图像文本识别服务器的主程序，它首先将步骤(2)产生的内容颗粒、步骤(3)产生的文本文件通过以太网接口读入内存，然后取出内容颗粒中已经切分好的图像文件，并放置在缓存区；接下来，图像文字识别引擎逐一读取图像文件作为输入，以字符特征作为比较，检查图像中是否包含有字幕等文本信息。如果没有，则跳过本步转入下一步骤处理；如果有，则对缓存区的图像进行矩形画面切割，然后将切割了的画面信息特征分析。如果分析发现该画面未包含文字信息，这个画面图像将被从内存中丢弃掉；如果根据模式比对发现包含有文字信息，则进一步将该文字信息对应的文字字符按识别次序放入识别结果缓存区。最后，将缓存区内的文字字符读取出来，生成对应的文本文件，文本文件以内容颗粒的ID命名，并保存在图像文本识别服务器的“下步处理暂存区”这一硬盘区块，文本文件的格式如图3所示。

所有识别结果都保存入另一个标引文件MD5ID-OCR.txt，格式与步骤(3)生成的文件MD5ID-CSR.txt一致，只是字段duration的值均为0，因为识别的目标是图片，没有时长的概念。

(5)文本纠错与分词

本步骤为本发明的主要部分，又可以分为4步顺序操作：

【5.1】合并标引文件并纠错

纠错分词服务器中运行的主程序为纠错分词引擎，该引擎分别读取语音识别服务器中的标引文件MD5ID-CSR.txt，和图像文本识别服务器中标引文件MD5ID-OCR.txt，取得两个标引文件后，根据标引文件中的时间点(time)，对标记信息进行合并和纠错，规则如下：同一个时间点可能有两个值，分别是通过语音识别或图像文字识别得出，如果两个值一致，则保留一个即可；如果两个值不一致，则根据二者的可靠度(weight)，保留可靠度高的；如果两个值不一致，并且可靠度相等，则使用圆括号包围两个值，并用逗号分隔，作为识别不确定标记，参看图3中的例子。

经过以上初步的纠错和合并，将两个标引文件合并为一个标记结果文件，保存到本地硬盘并命名为MD5ID-TAG.txt。

【5.2】词典纠错

接下来，纠错分词引擎再加载词典文件，词典文件是一个词条队列，队列中的每个词条包括词语、重要度两个值。引擎逐一将文本MD5ID-TAG.txt中的每个“不确定的标记”读出来，将这一对不确定的词语与词典进行匹配，能够在词典中查找到，并且重要度高的词被保留，另一个则被丢弃；如果都没有在词典中匹配到，则仍保留不确定状态，留在最后校对阶段处理。经过本步骤的词典匹配，MD5ID-TAG.txt中的不确定标记会大大减少，并重新保存到文件MD5ID-TAG.txt中。

【5.3】最大匹配法分词

此时，标引文件中的词有些并不是最终的独立的词汇，可能是一句话、一个短语或者连续的多个词，接下来就需要把他们区分和独立出来，便于将来检索。这个操作就是分词。这里仍旧使用前述的词典文件，并再次加载标引文件MD5ID-TAG.txt，以便进行第二遍词典匹配，目的是做分词。程序从标引文件中逐一读取标记词(tag→text)，从词典比对中判断是否为独立的词，如果是，则不处理并转入下一个标记词的匹配；如果不是，即需要做分词，则按最大匹配方法，按字数从多到少、从左至右的规则，从标记词中循环取出子词，与词典文件进行匹配，如果匹配命中，则将该子词割裂出来，将原来的一个tag段(即标引文件中的<tag>…</tag>片段)分裂为两个tag段，如此循环操作，直至标引文件中所有标记词均不能再分割。

【5.4】标注关键词

接下来，纠错分词引擎将词典文件从内存中释放掉，然后再加载关键词文件，关键词文件与上述词典文件的格式类似，只是词语数量远少于词典文件，并且词语的检索意义更强。引擎从标引文件中逐一读取每一个标记词与关键词文件进行循环比对，如果该词与关键词文件中的某个词匹配，则在标引文件中在该词前后添加<key>和</key>标记，说明这个标记词是一个关键词。

经过以上处理，形成最后的文本结果，具备以下特征：

1)将语音识别的结果和图像文本识别的结果进行合并；

2)将语音识别的结果和图像文本识别的结果不一致的，分别根据识别的“可靠度”或者对应词典中的重要度进行取舍；

3)将合并后的每一个词根据词典进行分词，即将较长的词、短语或句子分割为多个独立的词；

4)根据关键词文件，对匹配的词前后添加<key></key>标记，表示这个词是关键词。

以上文件最后被纠错识别引擎保存到硬盘中，形成新闻视频节目初步的标引信息文件，保存在“下步处理暂存区”，文件格式如图3所示。

(6)有人监督的校对

校对引擎通过以太网接口从纠错分词服务器获取标引文件MD5ID-TAG.txt，并读取展示在显示器上，同时根据时间点信息同步播放对应的媒体文件。编辑人员对照播放的媒体和标记词信息，对标引结果进行审核。如果编辑人员发现标记词有错误，则通过键盘或鼠标操作计算机系统，使播放暂停，然后修改为正确的标引值。同时，步骤【5.2】中的不确定标记也将在本步骤被修改处理掉。

如果发现有多余的或不希望出现的关键词，则删掉该词前后的<key></key>标签。如果希望定义某个词为关键词，则在该词前后添加<key></key>标签即可。

除了对不确定的标记、错误的标记和关键词进行校对外，同时还检查视频画面、时间刻度是否正确，如果有缺失、错位等现象发生，则手工进行调整，调整方法为：打开标引文件，手工修改对应标记的time值，或者添加缺失的tag段。

通过本步骤计算机自动操作和编辑人员手动校对修改的方法，形成最终完善的视频节目标引文件。由于有专业编辑人员的监督和干预，本步骤生成的标引信息已经剔除掉了大部分错误，标引信息趋于完善。根据最终应用的需求，本步骤的校对工作可以由不同编辑人员操作多次，以便有经过更多的编辑人员把关。

经过以上6大步骤的操作，从新闻视频节目的采集，到最终标引文件的生成，使电视新闻视频节目具备了可编目、可检索、便于复用等特性，能够提供给其他系统实现高层次应用服务。

进行在编辑人员监督和干预下的自动化审核和校对，形成最终的视频节目标引信息。由于有专业编辑人员的监督和干预，本步骤生成的标引信息已经剔除掉了大部分错误，标引信息趋于完美。根据最终应用的需求，本步骤的校对工作可以再次划分为多个层次，以便有更多的编辑人员把关。完成最终标引的电视新闻视频节目，具备了可编目、可检索、便于复用等特性，能够提供给其他系统实现高层次应用服务。

Claims

1、一种利用计算机系统进行的电视新闻标引方法，其特征在于，包括如下步骤：