CN101908053A

CN101908053A - 一种语音检索的方法及装置

Info

Publication number: CN101908053A
Application number: CN200910241321XA
Authority: CN
Inventors: 李军; 何宇飞; 温晓瑶; 张万军; 闫鹏
Original assignee: China Digital Video Beijing Ltd
Current assignee: China Digital Video Beijing Ltd
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2010-12-08

Abstract

本发明公开了一种语音检索的方法，所述语音为从视音频数据中分离的语音数据，所述的方法包括：预置步骤：预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索步骤：依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出步骤：在搜索结果界面上展示所述视音频信息及文本信息。本发明方便用户简单、快捷地获得想要的视频及关联文本信息，并不会过多占用系统资源。

Description

一种语音检索的方法及装置

技术领域

本发明涉及多媒体数据处理的技术领域，特别是涉及一种语音检索方法及一种语音检索装置。

背景技术

由于因特网的普及，大量的信息迅速累积并广泛地被使用。因此，时空距离远近不再是人们存取与使用信息的最大障碍，取而代之的问题是缺乏有效率的方式在浩瀚的因特网中寻找想要的信息。

信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息，因此在近几年来格外地受到重视。直到现在为止，大部分信息检索的研究以文字型式的查询指令(textqueries)去检索文字型式的信息为主，也就是做文字与文字间的比对，目前在这方面的研究与系统发展已有许多相当不错的成果。

目前，传统文字型式以外的影音多媒体信息如广播、电视节目、数字博物馆等，逐渐大量地出现在因特网上，显然已成为文字信息以外非常重要的信息来源。在绝大部分的情况下，语音是这些多媒体信息最主要的组成成分。随着语音辨识技术的进展，以语音为基础的信息检索变得越来越重要。

与传统文字型式的信息检索不同的是，以语音为基础的信息检索并不能直接地拿输入的查询指令(queries)来与数据库中很多条信息记录(information records)一一来作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的，但是由于输入的查询指令(queries)与每一条信息记录(information records)彼此的用字遣词可能不同，或者是声学环境(acoustic conditions)、语者(speakers)、讲话的模式(speaking modes)和背景噪声(background noises)等的不同，使得处理上变得更加的困难。

发明内容

本发明所要解决的技术问题是提供一种语音检索的方法及装置，以基于文本检索与语音相关的视频信息，方便用户简单、快捷地获得想要的视频及关联文本信息，并不会过多占用系统资源。

为了解决上述技术问题，本发明实施例公开了一种语音检索方法，所述语音为从视音频数据中分离的语音数据，所述的方法包括：

预置步骤：预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；

搜索步骤：依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；

输出步骤：在搜索结果界面上展示所述视音频信息及文本信息。

优选的，所述语音的特征量包括音调、音色和频率的声音量化信息。

优选的，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。

优选的，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。

优选的，所述的方法，还包括：

依据用户触发播放的操作，在搜索结果界面的播放窗口中，从所述视频帧开始播放所述视音频数据。

本发明实施例还公开了一种语音检索的装置，所述语音为从视音频数据中分离的语音数据，所述的装置包括：

预置模块：用于预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；

搜索模块：用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；

输出模块：在搜索结果界面上展示所述视音频信息及文本信息。

优选的，所述的装置，还包括：

直接播放模块，用于依据用户触发播放的操作，在搜索结果界面的播放窗口中，从所述视频帧开始播放所述视音频数据。

与现有技术相比，本发明具有以下优点：

本发明通过将各文本字符分别与对应语音的特征量和时码进行关联，使得语音标引与文本索引相结合，由于语音数据本身是从视音频数据中分离出来的，即其具有关联的视频信息，在检索时，即可根据用户提交搜索关键词定位到文本，然后由文本定位到语音，再由语音定位到视频，从而检索到相应的视频画面，从而方便用户简单、快捷地获得想要的视频及关联文本信息，并不会过多占用系统资源。

本发明对各类素材文件或节目文件中视音频数据及对应文本属性描述是以统一的、规范化的基于XML对象的元数据进行定义的，这种统一对象的元数据模型不仅可以向上屏蔽各种不同的多媒体内容格式，还为上层业务提供了统一的数据模型，从而不仅可以完成传统媒体行业对视频、音频素材文件以及相关元数据信息的存储管理，还可以有效兼容各种新媒体内容格式，满足所有文件格式的存储管理需求，使媒体行业、内容运营厂商以及其他相关用户可以对各种结构化或非结构化文件进行统一管理和查询检索。

附图说明

图1是本发明的一种语音检索方法实施例的步骤流程图；

图2是本发明的一种搜索结果展示效果的示意；

图3是本发明的一种语音检索装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：多处理器系统、服务器、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参考图1，示出了本发明的一种语音检索方法实施例的步骤流程图，具体可以包括以下步骤：

预置步骤11，预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；

搜索步骤12，依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；

输出步骤13：在搜索结果界面上展示所述视音频数据及文本信息。

可以理解，在本发明实施例中，素材文件或节目文件是以XML对象的方式存储于数据库中，这种基于对象的数据管理模式，不仅可以有效兼容多种多媒体数据格式，在查询检索时，还可以对XML对象中描述的所有资源进行快速定位。

在具体实现中，所述素材文件或节目文件的XML对象数据库可以通过以下步骤生成：

提取素材文件或节目文件的预置属性；

采用预定义的XML描述模型组织所述预置属性，生成所述素材文件或节目文件的XML对象；

对所述XML对象进行持久化，存储到数据库中。

其中，所述预置属性可以包括文件属性和内容属性。其中，所述文件属性是指针对素材文件或节目文件整体而言的描述信息，所述内容属性是指与素材文件或节目文件中具体内容相关的描述信息。

具体而言，所述文件属性可以包括文件的归属组信息、过程记载信息、扩展属性信息和分类信息；素材文件的内容属性可以包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、视音频元数据信息、素材实体文件及相关元数据信息、图片属性信息和/或文本属性信息；节目文件的内容属性相对于素材文件的内容属性而言，可以进一步增加故事板信息、文稿对象信息、串联单中包含的条目信息、串联单的信息。

当然，上述XML描述模型的组织方式仅仅用作示例，本领域技术人员依据实际情况可以采用其它方式组织，本发明对此无需加以限制。

在实际中，视频数据与音频数据通常是分别采集、制作的，在节目制作过程中，会将二者通过时码关联起来，然后进行播出。因此，从视音频数据中分离出当前所需的语音数据极为方便，现有技术中也提供了诸多分离音频的方法，本领域技术人员任意采用均可。

在本发明的一种优选实施例中，所述语音的特征量可以包括音调、音色和频率等声音量化信息。公知的是，音调是指人耳对声音高低的感觉，音调主要与声波的频率有关，声波的频率高，则音调也高；音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性，或者说是人耳对各种频率、各种强度的声波的综合反应。音色与声波的振动波形有关，或者说与声音的频谱结构有关。关于所述音调、音色、频率的测量方法和计算方法，本领域技术人员任意采用均可，例如，首先对声音信号进行处理，将其转换成脉冲信号；然后对脉冲信号进行计数，并由此计算信号频率；再根据所述计算的信号频率获得该声音的特征量。

需要说明的是，在本发明实施例中，是针对各个文本字符分别与对应语音的特征量和时码进行关联，例如，对于文本“胡锦涛主席”，其与语音的关联关系如下表所示：

文本字符	语音特征量(S)，时码(T)
		胡	s1，t1
锦	s2，t2
		涛	s3，t3
主	s4，t4
		席	s5，t5

基于上述预置的XML对象数据库及文本-语音索引，针对用户提交的搜索关键词时，即可在所述XML对象数据库中进行基于关键词的全文检索，从而获得对所需文本资源的快速定位，然后，通过所述文本关联的语音特征量和时码，即可方便、快捷地将相应的视频信息提取出来。需要说明的是，在实际应用中，用户提交搜索关键词的方式并不限于在指定的输入框中进入，还可以包括在浏览文本时，选定或触发一个或多个文本生成的搜索关键词。例如，用户输入关键词“胡锦涛主席”，或者，在浏览新闻稿文本时选择“胡锦涛主席”，均可触发搜索请求，从而通过该关键词即可直接检索到相关联的视频画面，在本发明的一种示例中，所述搜索结果在当前界面的展示效果如图2所示。即同时显示语音特征量和时码对应视频帧的缩略图以及关联的文本信息。在这种情况下，用户进一步触发该缩略图，即可打开相应视音频数据的播放窗口进行播放。

为进一步方便用户实时观看视频，在本发明的另一种优选实施例中，所述视音频信息在搜索结果界面上也可以展示为，显示所述语音特征量和时码对应视频帧的播放窗口。在实际中，所述播放窗口可以为内嵌在页面中的播放窗口，以同步展示视频画面与关联文本的信息。在这种情况下，本发明还可以包括以下步骤：

即用户直接在当前搜索结果界面上就可观看到相应的视频，从而更进一步提高用户的使用体验。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参考图3，示出了本发明的一种语音检索的装置实施例的结构框图，所述语音为从视音频数据中分离的语音数据，本实施例具体可以包括以下模块：

预置模块31：用于预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；

搜索模块32：用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；

输出模块33：在搜索结果界面上展示所述视音频信息及文本信息。

其中，所述语音的特征量可以包括音调、音色和频率的声音量化信息。

在本发明的一种优选实施例中，所述视音频信息在搜索结果界面上可以展示为所述语音特征量和时码对应视频帧的缩略图。在这种情况下，用户进一步触发该缩略图，即可打开相应视音频数据的播放窗口进行播放。

在本发明的另一种优选实施例中，所述视音频信息在搜索结果界面上还可以展示为显示所述语音特征量和时码对应视频帧的播放窗口。在这种情况下，本发明实施例还可以包括以下模块：

由于本实施例基本相应于前述方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此就不赘述了。

以上对本发明所提供的一种语音检索方法及一种语音检索装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音检索的方法，其特征在于，所述语音为从视音频数据中分离的语音数据，所述的方法包括：

2.如权利要求1所述的方法，其特征在于，所述语音的特征量包括音调、音色和频率的声音量化信息。

3.如权利要求1或2所述的方法，其特征在于，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。

4.如权利要求1或2所述的方法，其特征在于，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。

5.如权利要求4所述的方法，其特征在于，还包括：

6.一种语音检索的装置，其特征在于，所述语音为从视音频数据中分离的语音数据，所述的装置包括：

7.如权利要求6所述的装置，其特征在于，所述语音的特征量包括音调、音色和频率的声音量化信息。

8.如权利要求6或7所述的装置，其特征在于，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。

9.如权利要求6或7所述的装置，其特征在于，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。

10.如权利要求9所述的装置，其特征在于，还包括：