CN103336773B

CN103336773B - 一种音视频语音处理与检索的系统和方法

Info

Publication number: CN103336773B
Application number: CN201310148995.1A
Authority: CN
Inventors: 徐信
Original assignee: 徐信
Current assignee: Beijing Zhongke Mosi Technology Co.,Ltd.
Priority date: 2012-05-18
Filing date: 2013-04-26
Publication date: 2017-02-08
Anticipated expiration: 2033-04-26
Also published as: CN103336773A; CN102663143A

Abstract

本发明提供一种音视频语音处理与检索的系统，包括采集设备、音视频信息处理计算机（即前端处理平台）、和音视频信息检索计算机（即后端检索应用平台），其中采集设备采集的是音视频信号，音视频语音处理计算机包括音视频语音信息处理系统，音视频语音信息检索计算机包括音视频语音信息检索系统，所述音视频语音信息处理系统包括：音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块。本发明能够快速处理音视频语音信息并将其转换为文本，并能够通过文本信息检索原始对应的音视频信息，达到音、视、文信息一体化。

Description

一种音视频语音处理与检索的系统和方法

技术领域：

本发明涉及音视频语音信息处理和计算机速记领域，特别是一种音视频语音信息同步处理与检索的系统和方法。

背景技术：

目前在速记领域手写速记除个别场合已很少应用，而计算机速记有专业速记机（如亚伟速录机、华夏速记机等）、普通计算机键盘速记（如全音通、双文速记等）。均依靠人工（速记员）听打录入的高技能和计算机编码来实现，这是当前计算机速记的主体。但这种速记方法存在的问题有：高投入低产出，将一名具有大专以上中文水平的人（年龄不超过25岁）培养成合格的速记师需要再经过专业技能培训1年（约1500学时）及1年以上的实际工作锻炼，成才周期为2年。而且成才率低，最多不超过30%，难于普及；速记人员工作时高度紧张，劳动强度大和同声翻译雷同；行业整体素质低，工作质量难以保证，和行业要求差距较大。真正能胜任速记师工作的速记人员在本行业内是少数约占10%，多数或技能水平低或文化素质低，大专和本科生只有极少数人愿意投入到速记行业，速记行业大部分从业人员为高中、中专、中技的毕业生，约占70%以上，文化底蕴远不能满足速记行业的要求。所以速记专业人才队伍的建设非常困难。在计算机速记领域，以计算机语音识别为主体的新技术取代以人工技能为主体的（专业速记机或计算机键盘）速记是亟待解决的，也是计算机科学技术发展的必然。

音视频语音信息目前尚无有效的办法进行快速精确的检索定位，基本上凭借具体工作人员的个人经验，对一般人员只能依靠播放音像资料带进行原始的人工查找，费时费力。远不能满足信息化社会对信息时效和信息规范化管理的要求。

发明内容：

本发明所要解决的技术问题是：能够快速处理音视频语音信息并将其转换为文本，并能够通过文本信息检索原始对应的音视频信息，达到音、视、文信息一体化。

本发明的技术方案是：提供一种音视频语音处理与检索的系统，包括采集设

备、音视频语音信息处理计算机（即前端处理平台）、和音视频语音信息检索计算机（即后端检索应用平台）。其中采集设备采集的是音视频语音信号。音视频语音处理计算机包括音视频语音信息处理系统。音视频语音信息检索计算机包括音视频语音信息检索系统。所述音视频语音信息处理系统包括：音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块。

所述目标文件是所述音视频语音信息经过所述音视频语音处理与检索系统处

理后，最终所生成的电子集成文档；所述电子集成文档是与讲话人的语音及图像相关联的，并保持原有的时序关系的语音、视频、文字三合一的文件。

其中，所述音频抽取模块针对输入的音视频信息，抽取音视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式；所述音频流采样频率转换模块进行音频流采样频率转换；所述语音分节处理模块将语音信号分解为特定时间区间的音频片断，并保留和视频时序对应信息；所述音视频流编码压缩模块将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端检索应用平台使用但不可修改的相关文件；所述速记模式选择与处理模块进行三种模式的选择和处理：直接语音识别模式、人工跟读语音识别模式以及人工键盘速记模式；所述目标文件校对模块分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订；所述目标文件后续处理模块包括目标文件的编辑、排版、存储与打印。

进一步地，所述音视频语音信息检索系统包括目标文件处理模块和检索模块；其中目标文件处理模块可以打开由音视频语音信息处理系统最后所生成的文件，并可以对其中的音视频语音与文字信息进行浏览；检索模块在打开目标文件后，可以对目标文件进行检索。

本发明还提供一种音视频语音处理与检索的方法，包括采集步骤、音视频信息处理步骤和音视频信息检索步骤，其中所述采集步骤采集的是音视频信号，所述音视频语音信息处理步骤包括：音频抽取步骤、音频流采样频率转换步骤、语音分节处理步骤、音视频流编码压缩步骤、速记模式选择与处理步骤、目标文件校对步骤以及目标文件后续处理步骤。

其中，所述音频抽取步骤针对输入的音视频信息，抽取视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式；所述音频流采样频率转换步骤进行音频流采样频率转换；所述语音分节处理步骤将语音信号分解为特定时间区间的音频片断，并保留和视频时序对应信息；所述音视频流编码压缩步骤将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端检索应用平台使用但不可修改的相关文件；所述速记模式选择与处理步骤进行三种模式的选择和处理：直接语音识别模式、人工跟读语音识别模式以及人工键盘速记模式；所述目标文件校对步骤分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订；所述目标文件后续处理步骤包括目标文件的编辑、排版、存储与打印。

进一步地，所述音视频语音信息检索步骤包括目标文件处理步骤和检索步骤；

其中目标文件处理步骤可以打开由音视频语音信息处理系统最后所生成的文件，并可以对其中的音视频语音与文字信息进行浏览；检索步骤在打开目标文件后，可以对目标文件进行检索。

本发明的有益效果是计算机语音识别和计算机速记在更深层面的应用，同时也填补了我国在音视频语音精确定位与检索领域的一项空白，这项技术的成功问世将是音视频语音处理及计算机速记领域的一场革命，具有良好它的市场前景，具有巨大的社会效益与经济效益。

附图说明：

图1是实施例中同步处理与检索的系统的结构框图。

图2是实施例中音视频信息处理系统框图。

图3是实施例中音视频信息处理流程图。

图4是实施例中音视频信息检索系统框图。

图5是实施例中音视频信息检索系统功能框图。

具体实施例：

本系统的结构框图如附图1所示，包括采集设备、音视频语音信息处理计算

机（即前端处理平台）、和音视频信息检索计算机（即后端检索应用平台）。其中前端处理平台的要求是CPU为Intel 双核 E6300 1.68GHz 或以上，内存2G或以上，硬盘80G或以上，OS为Windows XP Professional/Windows 2003 .Net Framework 3.5。后端检索应用平台的要求是CPU:为P4 2.4或以上，RAM为1G 或以上，硬盘为40G或以上，OS为Windows XP/Windows 2000 .Net Framework 3.5。

其中采集设备采集的是音视频语音信息，本系统支持现场即时信息采集，通过计算机系统所安装的定制的音视频采集设备（视频编码器、摄像头、麦克风等）来即时记录音视频语音信息，提供给系统进行处理。系统也支持通过非现场录制的方式采集的满足系统要求的音视频语音信息。系统支持目前流行的常用多媒体文件格式：WMV、WAV、DAT、ASF、RM、AVI、WMA。这些媒体格式覆盖了当今计算机多媒体音视频文件的绝大部分格式，可以很好的满足用户对系统的需要。而对于其它系统所不支持的格式，则需要通过本系统提供的专用格式转换软件转换为本系统所支持的格式。对于录音笔等高压缩录音设备，也需要通过其专门的转换软件转换后再录入系统。

系统所支持的视频采集设备包括：系统定制的视频采集设备（视频编码器、摄像头），除此外，还支持DirectShow调用的视频采集卡；支持DirectShow调用的摄像头。采集的方案可以是一体化采集、独立式采集的方案，也可以是传统摄像机加AV/S端子视频采集卡的方案。

系统所支持的音频采集设备包括：系统定制的声卡、麦克风。除此外，还支持DirectSound调用技术的声卡麦克风输入；支持DirectSound调用技术的声卡Line in输入。

系统定制的视频采集设备包括视频编码器、降噪器、声卡和电源转换器，统一集成在系统前置盒内。其输入口为麦克风电平输入端口，输出口为线路电平输出至音视频语音信息处理计算机（即前端处理平台）。

其中一体化采集解决方案采用DV（数码摄像机）作为采集设备，使用1394

采集卡或USB接口，同时进行视频与音频采集，是一种方便高效的方式。使用1394中继器可以中继信号，使信号放大延长信号传输距离，最大支持16级串联，每一级根据使用信号线质量最远可以达到20米传输距离，总计可达200米以上的传输距离。

其中独立式采集采用声卡与网络摄像头相结合方式，使用网络摄像头与麦克风结合的输入。在使用该方案的时候，采集用的计算机应配备双声卡，使用一个声卡上的麦克作为现场采集用麦克，另一个声卡上的麦克做为跟读方式采集用麦克。选定其中任意一个声卡做为声音回放声卡既可。

而传统摄像机加AV/S端子视频采集卡方案使用传统摄像机AV/S端子输

出至视频采集卡方式，使用传统摄像机做为音频与视频采集的载体，将采集到的音视频信号通过AV/S端子接口传入计算机进行处理、转换与记录。

采集设备和前端处理平台之间通过TCP/IP进行通讯。采集设备采集的音视频数据，每隔一定时间存储一个片段文件，同时将保存好的片段音视频文件传输给处理端，前端处理平台接收完文件后开始对音频文件处理，处理完后通知采集设备端，整个采集数据处理完成后合并成一个完整文件。

音视频语音处理计算机（前端处理平台）包括音视频语音信息处理系统，

参见附图2，该系统包括音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块。其中音频抽取模块针对输入的音视频信息，抽取视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式。音频（语音）流采样频率转换模块进行音频流采样频率转换，对于不同的设备拥有不同的音频采样频率与编码速率，而后面的语音分节处理模块所使用的采样频率与编码速率是固定的（16KHZ,16bit），所以需要中间进行相应转换。

语音分节处理模块将语音信号分解为特定时间区间的语音音频片断，并保留和视频时序对应信息。通过计算机自动与辅助手动调整切分点，使每一小节的分节处应为一句话的完结处或一句话的中间停顿处，每一小节大约在3~10秒。当语音信息处理完毕生成相关文档后，系统将相关文档与音视频语音文件打包，音视频流编码压缩模块将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端处理平台使用但不可修改的相关文件。压缩速度由所选择的格式由计算机的运行速度决定。

速记模式选择与处理模块进行三种模式的选择和处理：直接语音识别模式、

人工跟读语音识别模式以及人工键盘速记模式。（1）对于普通话水平比较好的麦克风人声语音输入信息，直接选用语音识别引擎进行文本化处理，即直接语音识别模式。语音识别引擎直接根据输入语音信息将语音转换成文字，并保存对应的时序关系。该识别模式下除原音频文件所占用的系统内存外，还需要占用32KB/S的额外磁盘消耗，响应速度由计算机处理速度决定。（2）人工跟读语音识别模式：对于普通话水平不好的麦克风人声语音输入信息，通过语音速记人员复述后选用语音识别引擎进行文本化处理，即人工跟读语音识别模式。人工跟读的语音信息还作为处理平台中进行校对需要的语音信息，同时被记录在输出的目标文件中。该识别模式下，系统除原有音频文件占用系统的内存外，还需要占用64KB/S的额外磁盘空间来支持额外语音记录的磁盘消耗。当为现场录音速记，且输入设备为麦克风时，此功能必需使用含有两块声卡（含有两个以上MIC输入）的计算机完成，若计算机仅有一块声卡（仅有一个MIC输入端口）无法使用此功能进行文本生成。（3）人工键盘速记模式：对于音视频语音输入信息，工作人员也可以直接听写，通过键盘输入方式人工转换为文本信息。该模式下，听写记录速度由工作人员键盘输入速度决定，系统不占用额外磁盘空间。经上述步骤处理完的文本（称为目标文件）应保留和原音视频时序对应信息，建立文字和原音视频语音信息的关联。目标文件存储空间的占用，根据音频与视频相关联的解析度决定。所述目标文件是所述音视频语音信息经过所述音视频语音处理与检索系统处理后，最终所生成的电子集成文档；所述电子集成文档是与讲话人的语音及图像相关联的，并保持原有的时序关系的语音、视频、文字三合一的文件。

目标文件校对模块分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订的过程。校对过程仅生成纯文本文件，不包含排版信息。基础校对是以词组或句子为基础的校对，每次组合单个或几个语音分节时所分的音节，将音节组合后播放，并相应显示所转换出的文字信息。校对时语音信息的重放采用定时与快捷键组合的方式，根据用户设定的间隔时间自动重放语音信息，或者按照系统定义的特定快捷键重放语音信息。全文校对是以段落或全文为基础的校对，每次组合基础校对中的单个或几个语音信息，将组合后的语音播放，并显示相应的文本信息。经过基础校对后的目标文件中每一句话，应保留和原音视频时序对应信息，基础校对结束后，音视频与该段文字相对应的定位信息误差在人的听、视觉感觉不到的范围以内。全文校对结束后，音视频文件对每次校对内容的时间定位信息误差在人的听、视觉感觉不到的范围以内。

目标文件后续处理模块包括目标文件的编辑、排版、存储与打印。对于与原音视频语音信息相关联并经过全文校对的目标文件应提供固定格式的排版编辑功能；也可依用户需要，系统将文件导出启动word，编辑人员对于经过全文校对的目标文件，进行全文编辑、排版和打印输出，该模块还可以将校对后的文档、视频和语音信息打包生成系统所支持格式的输出文件，该目标文件可以被拷贝、传输，并可以被音视频信息检索系统打开、浏览、查询与打印，但不能被修改。

上述模块进行的流程，即语音信息处理流程参见附图3。语音信息处理流程包括音频抽取步骤、音频流采样频率转换步骤、语音分节处理步骤、音视频流编码压缩步骤、速记模式选择与处理步骤、目标文件校对步骤以及目标文件后续处理步骤。具体操作方法参照前述。

音视频语音信息检索计算机（后端检索应用平台）包括音视频语音信息检索系统，该系统包括目标文件处理模块和检索模块（参见附图4）。上述模块的功能图参见附图5。

其中目标文件处理模块可以打开由音视频语音信息处理系统最后所生成的电子集成文档，并可以对其中的音视频语音与文字信息进行浏览。还可以根据需要将文字信息导出为纯文本或富文本格式文件，并导入到其它文本编辑器中编辑打印。该模块还可以将目标文件中的文本信息根据已有的排版格式打印输出。

其中检索模块在打开目标文件后，可以对目标文件进行检索。用户输入期望的部分文本信息（一字、一句、一段文字），系统自动查询，并精确定位相应的音视频信息。即通过对文字的检索，可以检索到与文字对应的声音和图像的定位信息，并且支持跨文件检索。跨文件检索由用户选择文件范围，系统根据文件内的文字信息进行检索工作。检索速度由文档长度决定，根据磁盘性能与处理速度，检索响应速度在五万字每秒以内。跨文件检索时，文件间切换间隔在100ms以内该模块通过绝对匹配在文档中检索所要查询的信息，当查询结果为真时，返回文档中所处的定位位置，并定位相应的语音视频信息。计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率，计算机检索系统常采用一些运算方法，从概念相关性、位置相关性等方面对检索提问实行技术处理。检索的方法包含以下几种：布尔逻辑检索、位置检索、截词检索、字段限定检索。本模块采用近似于位置检索的方式，是利用记录中的自然语言进行检索，词与词之间的逻辑关系用位置算符组配，是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。

本系统整体使用计算机作为信息采集与语音向文本转换的工具。通过数模转换采集语音与视频信号，通过计算机语音识别与人工校对、编辑方式产生与语音、视频信号相互对应的电子集成文档，以便于后续完成对音视频语音信息及其文本的阅览、检索与打印等一系列工作。该系统是计算机语音识别和计算机速记在更深层面的应用，同时也填补了我国在音视频语音精确定位与检索领域的一项空白，这项技术的成功问世将是音视频语音处理及计算机速记领域的一场革命，具有良好它的市场前景，具有巨大的社会效益与经济效益。

Claims

1.一种音视频语音处理与检索的系统，包括采集设备、音视频信息处理计算机、和音视频信息检索计算机，所述音视频信息处理计算机即前端处理平台，所述音视频信息检索计算机即后端检索应用平台，其中采集设备采集的是音视频语音信号，音视频语音处理计算机包括音视频语音处理系统，音视频语音检索计算机包括音视频语音检索系统，其特征在于，所述音视频语音处理系统包括：音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块；

所述音视频语音检索系统包括目标文件处理模块和检索模块；其中目标文件处理模块可以打开由音视频语音处理系统最后所生成的电子集成文档，并可以对其中的音视频语音与文字信息进行浏览；检索模块在打开目标文件后，可以对目标文件进行检索；

所述目标文件是所述音视频语音信息经过所述音视频语音处理与检索系统处理后，最终所生成的电子集成文档；所述电子集成文档是与讲话人的语音及图像相关联的，并保持原有的时序关系的语音、视频、文字三合一的文件。

2.根据权利要求1所述的音视频语音处理与检索的系统，其特征在于，所述音频抽取模块针对输入的音视频信息，抽取视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式；所述音频流采样频率转换模块进行音频流采样频率转换；所述语音分节处理模块将语音信号分解为特定时间区间的音频片断，并保留和视频时序对应信息；所述音视频流编码压缩模块将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端检索应用平台使用但不可修改的相关文件。

3.根据权利要求1所述的音视频语音处理与检索的系统，其特征在于，所述速记模式选择与处理模块进行三种模式的选择和处理：直接语音识别模式、人工跟读语音识别模式以及人工键盘速记模式。

4.根据权利要求1所述的音视频语音处理与检索的系统，其特征在于，所述目标文件校对模块分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订；所述目标文件后续处理模块包括目标文件的编辑、排版、存储与打印。

5.一种音视频语音处理与检索的方法，应用上述权利要求1-4任意之一所述的系统，所述方法包括采集步骤、音视频信息处理步骤和音视频信息检索步骤，其中所述采集步骤采集的是音视频信号，其特征在于，所述音视频语音信息处理步骤包括：音频抽取步骤、音频流采样频率转换步骤、语音分节处理步骤、音视频流编码压缩步骤、速记模式选择与处理步骤、目标文件校对步骤以及目标文件后续处理步骤。

6.根据权利要求5所述的音视频语音处理与检索的方法，其特征在于，所述音视频语音信息检索步骤包括目标文件处理步骤和检索步骤；其中目标文件处理步骤可以打开由音视频语音信息处理系统最后所生成的文件，并可以对其中的音视频语音与文字信息进行浏览；检索步骤在打开目标文件后，可以对目标文件进行检索。

7.根据权利要求5所述的音视频语音处理与检索的方法，其特征在于，所述音频抽取步骤针对输入的音视频信息，抽取视频文件的语音信息，保留和视频时序对应信息，视频流保持原有样式；所述音频流采样频率转换步骤进行音频流采样频率转换；所述语音分节处理步骤将语音信号分解为特定时间区间的音频片断，并保留和视频时序对应信息；所述音视频流编码压缩步骤将音视频文件按照固定的编码与压缩格式进行压缩以节省硬盘占用空间，生成可供后端检索应用平台使用但不可修改的相关文件。

8.根据权利要求5所述的音视频语音处理与检索的方法，其特征在于，所述速记模式选择与处理步骤进行三种模式的选择和处理：直接语音识别模式、人工跟读语音识别模式以及人工键盘速记模式。

9.根据权利要求8所述的音视频语音处理与检索的方法，其特征在于，所述目标文件校对步骤分别对目标文件进行基础校对和全文校对，是对语音速记所生成文本文件再修订；所述目标文件后续处理步骤包括目标文件的编辑、排版、存储与打印。