CN103164403B

CN103164403B - 视频索引数据的生成方法和系统

Info

Publication number: CN103164403B
Application number: CN201110406386.2A
Authority: CN
Inventors: 黄石磊; 刘轶; 程刚; 曹文晓
Original assignee: PKU-HKUST SHENZHEN INSTITUTE; SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Current assignee: PKU-HKUST SHENZHEN INSTITUTE; SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2016-03-16
Anticipated expiration: 2031-12-08
Also published as: CN103164403A

Abstract

一种视频索引数据生成方法和装置，其首先获取视频内容和与视频内容相关的文本内容；然后对文本内容进行分类并根据分类结果选择恰当的拼音语言模型和词语言模型；然后将视频内容中的音频数据进行分段并进行说话人分类，根据说话人分类结果选择恰当的声学模型；根据所选择的声学模型以及根据文本内容选择的拼音语言模型和第一发音字典，生成拼音网格；再根据拼音网格和文本内容对应的词语言模型以及第二发音字典得到词网格，再然后根据拼音网格和词网格重新计算词网格置信度后得到新的词网格，最后将新的词网格和原始的视频内容结合，得到视频索引数据。通过所述视频索引数据，用户便可以方便且准确地通过文本关键字检索到相关的视频内容。

Description

视频索引数据的生成方法和系统

【技术领域】

本发明涉及搜索技术领域，特别是涉及一种视频索引数据的生成方法和系统。

【背景技术】

随着网络技术的发展，搜索功能成了用户必不可少的工具。基于文本的搜索引擎已经非常普遍。在搜索之前，都要对搜索目标内容建立索引数据，用于和用户输入的文字匹配，实现搜索功能。

视频检索技术也已经在很多搜索引擎上得到了应用。百度、谷歌的搜索引擎基本上按照视频文件的名字、标签进行搜索，以及每个音频文件所在的网页对应的文字内容进行检索。而没有对视频以及视频中的音频内容(Content)进行正式的处理，并利用这些内容进行有效检索。

而实际上对于很多的视频，我们感兴趣的是其中某些具体的内容，例如某新闻视频(30分钟的新闻联播)，其对应的文件名和网页的内容(例如新闻标题，以及重要新闻内容)仅仅是新闻视频的很小一部分内容，而如果需要查找的内容(例如“招商银行”，是某财经新闻中提到的具体名字)没有出现在网页的内容，而是在视频或者音频中出现，那么就会出现查找不到的情况。

【发明内容】

基于此，有必要提供一种视频索引数据的生成方法和系统。

一种视频索引数据生成方法，包括如下步骤：

步骤S101，获取视频内容和与视频内容相关的文本内容；

步骤S102，通过预设的关键词，提取所述文本的特征参数，并对所述文本内容进行文本分类，得到所述文本内的分类信息；

步骤S103，根据所述文本内的分类信息，从预设的语言模型库中选择对应的拼音语言模型和词语言模型；

步骤S104，从所述视频内容中提取音频数据，并将所述音频数据分割为多个音频片段；

步骤S105，提取得到每个所述音频片段的特征矢量；

步骤S106，根据所述音频片段的特征矢量，以及预设的说话人模型库中的说话人模型，得到每个所述音频片段的说话人分类结果；

步骤S107，根据所述音频片段对应的说话人分类结果从声学模型库中选择对应的声学模型；

步骤S108，利用拼音识别器，根据每个所述音频片段的特征矢量和其对应的所述声学模型以及所述拼音语言模型和第一发音字典，生成拼音网格；

步骤S109，通过词解码器，根据所述拼音网格以及所述词语言模型和第二发音字典，生成词网格；

步骤S110，根据所述拼音网格以及所述词网格计算所述词网格中各个词的置信度，得到一个新的词网格；

步骤S111，根据所述新的词网格，并结合所述视频内容，生成视频索引数据。

其中所述步骤S101具体包括：

本发明一较佳实施例中，所述步骤S101是利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来；

本发明一较佳实施例中，所述步骤S101中获取文本内容是先获取所述网页的HTML文档，并把所述HTML文档转换为树形结构；再把所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容；或者以所述HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

所述步骤S102具体包括：

将所述文本内容进行分词，产生用一系列词语表示的词语序列；这里所述分词使用一个分词字典以及现有算法实现，例如向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等；

根据预设关键词表(也就是对文本分类起关键作用的词)将所述词语序列转换为用关键词的一种参数(数值形式)表示的特征矢量；

通过预设的多个文档分类模型计算特征矢量属于各个文档类别概率，并选择特征矢量对应概率最大的文档类别作为所述文本内容的类别。所述预设的文档分类模型就是每一类文档对应一个特征矢量的分布(例如GMM模型)，这个分布使用多维高斯混合分布来描述每个文档类型。

所述步骤S103中的所述语言模型库中包含着和文档分类模型数量一致的语言模型。也就是说，每一类文档分类对应一组语言模型(这组语言模型模型包含一个基于拼音的语言模型和一个基于词语的语言模型)。这里的拼音语言模型和词语的语言模型都是统计语言模型(StatisticalLanguageModel)，就是描述在一个符号(拼音或者词语)序列中当中，某个符号(音节或者词语)出现的概率分布的模型。

步骤S104具体包括：

一个音频片段包含若干音频帧；

一个音频片段为若干秒的长度；

首先对音频数据进行分帧，一般取若干毫秒一段为一帧，帧和帧之间的起始点相隔不超过一帧；然后计算所有帧的能量，再排序，以能量最小的一部分的帧的平均能量作为背景噪声的能量E0和过零率Z0估计值；从音频数据的的文件头开始搜索，如果连续若干帧的能量和过零率乘积超过E0和Z0的T1倍，则认为一个句子开始了，并把起始点往前推若干帧；如果在起始点之后，连续若干帧的能量和过零率乘积超过E0和Z0的T1倍，则认为一个句子结束了；并且从结束点之后若干帧之后再开始搜索起始点；当遇到整个音频数据的结尾时，如果此时句子还没有结束，则认为最后时刻是句子结束的；如果此时句子还未开始，则忽略；对上述分段的结果进行处理，对于段长小于一定的阈值DTH1，的段合并到相邻段，直到所有的音频片段的段长都超过这个阈值。

步骤S105中所述提取得到每个音频片段的特征矢量。具体包括：

这些特征矢量既用于后续的说话人分类，又用于后续的语音识别；

每个音频帧对应着一个音频特征矢量。每个音频片段对应若干语音音频特征矢量；

其中，提取得到每个音频片段的特征矢量可利用美尔频率倒谱MFCC，线性预测编码倒谱系数LPCC，感知线性预测系数PLP等技术实现。

所述步骤S106其特征包括：

一个预先设定的说话人模型库，其中存储着多个说话人模型；这里某一个说话人模型不是一个特定的人的模型，而是具有一定共同性的一组真实说话人(称为说话人类或者说话人组)的一个模型。每一个说话人模型是一个高斯混合模型GMM描述的特征矢量分布函数；这个模型库中还存储着一个背景说话人模型，它是说有说话人特征的一种平均；

对某一个音频片段计算对应每一个说话人(包括背景说话人模型)模型的概率，其中得出最概率最大的一个说话人，作为这个音频片段的说话人分类结果；

计算某个音频片段对应的某一个说话人模型概率时，计算音频片段中每一帧对某个说话人模型的概率，然后针对所有帧计算每帧平均的概率，这个平均概率作为这个音频片段对应这个说话人模型的概率。

所述步骤S108，具体包括：

输入为某个音频片段的特征矢量，根据说话人分类结果选择的说话人模型，根据视频文件对应的文本进行文本分类结果选择的拼音语言模型，第一发音字典；

利用拼音识别器，根据每个音频片段的特征矢量和其对应的声学模型以及拼音语言模型和第一发音字典，生成拼音网格(SyllableLattice)；

所述生成拼音网格的算法为Viterbi算法；

所述第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中每个单元(例如声韵母)的关系。

所述拼音网格中每个节点(NODE)表示一个拼音音节，并标记其起始或者结束时间，每条连接(LINK)上标记音节的声学概率和语言学概率。

所述步骤S109具体包括：

输入为拼音网格，根据视频文件对应的文本进行文本分类结果选择的词语言模型，第二发音字典；

所述第二发音字典表示词语言模型每个单元(汉语词)和拼音网格中每个单元(音节)的关系。

所述词网格(WordLattice)中每个节点(NODE)表示一个汉语词，并标记其起始或者结束时间，每条连接(LINK)上标记汉语词的声学概率和语言学概率，对于存在多个发音的汉语词语还需要标记为字典中的这个词的第几个发音的序号。

所述从拼音网格到词语网格的转换算法为基于统计的方法，计算所有可能的词序列中概率最大的若干种路径作为拼音网格到词网络转换结果；其中所述路径是指由若干连续的从起始节点到终止节点的连接(Link)所组成的，并且根据第二发音字典，这些词的拼音和拼音网格中若干连续的从起始节点到终止节点的连接(Link)一致；其中词序列的概率由词语言模型计算得到。

所述步骤S110具体包括：

根据所述拼音网格以及所述词网格计算所述词网格中各个词的置信度，得到一个新的词网格。新的词网格和原始词网格形式相同，只是每条连接(LINK)上标记改为汉语词的置信度；

其中对于每个词网格中的每个词，需要根据词网格和对应的拼音网格中的各种概率和发音信息等计算置信度；

置信度的计算可以是如下信息的一种或者多个的组合：(1)垃圾模型得分：(2)词长度得分：(3)网格密度得分：(4)高阶语言模型得分：(5)后验概率得分；

(1)～(5)的计算方法得到的可靠性得分，通过一定的四则运算得到最后的可靠度得分，作为这个词网格中某个词的置信度得分。

本发明一较佳实施例中，所述步骤S111包括如下步骤：把所述音频片段对应的所述拼音网格中的标记的时间信息和所述视频内容中的时间信息同步。

本发明一较佳实施例中，所述视频索引数据生成方法进一步包括如下步骤：

所述声学模型自适应；对于属于同一个说话人类的所有所述音频片段对应的所述拼音网格，将所述拼音网格中的概率最大的候选结果作为对应所述音频片段的最佳识别结果，利用这个候选结果以及对应所述音频片段的特征矢量序列，作为相应的所述声学模型的更新的输入，实现所述声学模型的参数调整。

一种视频索引数据生成系统，包括：

信息获取单元，用于获取视频内容和与视频内容相关的文本内容；

文本分类单元，用于通过预设的关键词，提取所述文本的特征参数，并对所述文本内容进行文本分类，得到所述文本内的分类信息；

语言模型数据库，用于存储拼音语言模型和词语言模型；

拼音语言模型选择单元，用于根据所述文本内的分类信息，从所述语言模型数据库中选择对应的拼音语言模型；

词语言模型选择单元，用于根据所述文本内的分类信息，从所述语言模型数据库中选择对应的词语言模型；

音频处理单元，用于从所述视频内容中提取音频数据，并将所述音频数据分割为多个音频片段；

特征提取单元，用于提取得到每个所述音频片段的特征矢量；

说话人模型数据库，用于存储多个说话人模型；

说话人分类单元，用于根据所述音频片段的所述特征矢量，以及所述说话人模型数据库中的说话人模型，得到每个所述音频片段的说话人分类结果；

声学模型库，用于存储多个语音识别的声学模型；

声学模型选择单元，用于根据所述音频片段对应的说话人模型从所述声学模型库中选择对应的声学模型；

拼音识别器，用于利用拼音识别器，根据每个所述音频片段的所述特征矢量和其对应的所述声学模型以及所述拼音语言模型和第一发音字典，生成拼音网格；

词解码器，用于通过词解码器，根据所述拼音网格以及所述词语言模型和第二发音字典，生成词网格；计算所有可能的词序列中概率最大的若干种路径作为拼音网格到词网络转换结果；其中所述路径是指由若干连续的从起始节点到终止节点的连接(Link)所组成的，并且根据第二发音字典，这些词的拼音和拼音网格中若干连续的从起始节点到终止节点的连接(Link)一致；其中词序列的概率由词语言模型计算得到；

置信度计算单元，用于根据所述拼音网格以及所述词网格计算所述词网格中各个词的置信度，得到一个新的词网格；

索引生成单元，用于根据所述新的词网格，并结合所述视频内容，生成视频索引数据。

本发明一较佳实施例中，所述信息获取单元用于利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来。

本发明一较佳实施例中，所述信息获取单元获取文本内容是先获取所述网页的HTML文档，并把所述HTML文档转换为树形结构；再把所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容；或者以HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

本发明一较佳实施例中，所述索引生成单元把所述音频片段对应的所述拼音网格中的标记的时间信息和所述视频内容中的时间信息同步。

本发明一较佳实施例中，所述视频索引数据生成系统进一步包括一更新单元，用于所述声学模型自适应；对于属于同一个说话人类的所有所述音频片段对应的所述拼音网格，将所述拼音网格中的概率最大的候选结果作为对应音频片段的最佳识别结果，利用这个候选结果以及对应音频片段的特征矢量序列，作为相应的所述声学模型的更新的输入，实现所述声学模型的参数调整。

通过上述方法和装置得到的视频索引数据，用户便可以方便且准确地通过文本关键字检索到相关的视频内容。

【附图说明】

图1为一实施例的视频索引数据生成方法的步骤流程图；

图2为一实施例的视频索引数据生成系统的功能模块图。

【具体实施方式】

如图1所示，其为一实施例的视频索引数据的生成方法的步骤流程图，包括如下步骤:

步骤S101，获取视频内容和与视频内容相关的文本内容。本发明一较佳实施例中，步骤S101是利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来。

步骤S102，通过预设的关键词，提取所述文本的特征参数，并对所述文本内容进行文本分类，得到所述文本内的分类信息。

步骤S103，根据所述文本内的分类信息，从预设的语言模型库中选择对应的拼音语言模型和词语言模型。

步骤S104，从所述视频内容中提取音频数据，并将所述音频数据分割为多个音频片段。本实施例中，一个视频文件对应着一个音频文件，二者的时间长度一致，音频数据的分割采用的是活动话音检测VAD(VoiceActivityDetection)技术。

步骤S105，提取得到每个音频片段的特征矢量。这些特征矢量既用于后续的说话人分类，又用于后续的语音识别。其中，提取得到每个音频片段的特征矢量可利用LPCC，MFCC，PLP等技术实现。

步骤S106，根据音频片段的特征矢量，以及预设的说话人模型库中的说话人模型，得到每个音频片段的说话人分类结果。

步骤S107，根据所述音频片段对应的说话人分类结果从声学模型库中选择对应的声学模型。所述声学模型库是一组声学模型，每一个声学模型对应一个说话人模型以及一个说话人模型。

步骤S108，利用拼音识别器，根据每个音频片段的特征矢量和其对应的声学模型以及拼音语言模型和第一发音字典，生成拼音网格(SyllableLattice)。

所述第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中每个单元(例如声韵母)的关系。所述拼音网格中每个节点(NODE)表示一个拼音音节，并标记其起始或者结束时间，每条连接(LINK)上标记音节的声学概率和语言学概率。

步骤S109，通过词解码器，根据拼音网格以及词语言模型和第二发音字典，生成词网格。

所述第二发音字典表示词语言模型每个单元(汉语词)和拼音网格中每个单元(音节)的关系。所述词网格中每个节点(NODE)表示一个汉语词，并标记其起始或者结束时间，每条连接(LINK)上标记汉语词的声学概率和语言学概率，对于存在多个发音的汉语词语还需要标记为字典中的这个词的第几个发音的序号。

步骤S110，根据所述拼音网格以及所述词网格计算所述词网格中各个词的置信度，得到一个新的词网格。新的词网格和原始词网格形式相同，只是每条连接(LINK)上标记改为汉语词的置信度。

步骤S111，根据所述新的词网格，并结合视频内容，生成视频索引数据。

一个完整的视频文件对应一个完整的音频文件；对应若干个可能连续，也可能不连续的音频片段；把音频片段对应的拼音网格中的标记的时间信息和原始视频内容中的时间信息同步。也就是使得原来拼音网格中的标记的时间修改为视频文件其实时间为起点的时间。这样理论上是的搜索到某个词(文本形式)之后，可以准确定位到完整音频文件以及视频文件对应的位置上，从而实现用文本搜索视频/音频内容。

后续，搜索功能就是利用用户输入的词与视频索引数据的关系得到搜索结果，此部分与传统技术相同，不再赘述。上述将拼音网格和词网格分开生成再融合的方式，可以有效地提高数据处理的效率，缩短处理时间。利用上述方法生成的与视频内容对应的视频索引数据，可以实现对视频内容更准确的搜索。

本发明一较佳实施例中，所述步骤S101中从网页中提取与所述视频内容相关的文本内容的动作包括如下步骤：

先获取所述网页的HTML文档，并把所述HTML文档转换为树形结构；

把所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容。或者以HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

步骤S102包括如下步骤：

将所述文本内容进行分词，产生用一系列词语表示的词语序列。

根据预设关键词表(也就是对文本分类起关键作用的词)将所述词语序列转换为用关键词的一种参数表示的特征矢量。例如对于关键词表：

[今天天气北京火车….]

优选的，计算所述文本内容中对应这些词的TFIDF值为：

[1.00.30.777,0.43.....]

这就是所述文本内容的特征矢量。

通过预设的多个文档分类模型计算特征矢量属于各个文档类别概率，并选择特征矢量对应概率最大的文档类别作为所述文本内容的类别。所述预设的文档分类模型就是每一类文档对应一个特征矢量的分布，这个分布使用多维高斯混合分布来描述每个文档类型。

音频数据一般比较长，而且可能包含不止一个说话人的语音，因此需要对音频数据进行分割和分段；在以下的描述中，一个句子代表一个音频片段；本发明实施例的步骤S104的实现方法是：

首先对音频数据进行分帧，一般取20～30毫秒一段为一帧，帧和帧之间的起始点相隔10毫秒；然后计算所有帧的能量，再排序，以能量最小的10％的帧的平均能量作为背景噪声的能量E0和过零率Z0估计值；从音频数据的的文件头开始搜索，如果连续若干帧(例如3帧)的能量和过零率乘积超过E0和Z0的T1倍(这里T1＝2)，则认为一个句子开始了，并把起始点往前推若干帧；如果在起始点之后，连续若干帧(例如5帧)的能量和过零率乘积超过E0和Z0的T1倍(这里T1＝1)，则认为一个句子结束了；并且从结束点之后若干帧(例如10帧)之后再开始搜索起始点；当遇到整个音频数据的结尾时，如果此时句子还没有结束，则认为最后时刻是句子结束的；如果此时句子还未开始，则忽略；对上述分段的结果进行处理，对于段长小于一定的阈值DTH1，例如(DTH1＝1秒)的段合并到相邻段，直到所有的音频片段的段长都超过这个阈值。

所述步骤S109中计算置信度的实现方法是：对于每个词网格中的每个词，需要根据词网格和对应的拼音网格中的各种概率和发音信息等计算置信度。置信度的计算可以是如下信息的一种或者多个的组合：(1)垃圾模型得分：(2)词长度得分：(3)网格密度得分：(4)高阶语言模型得分：(5)后验概率得分：(1)～(5)的计算方法得到的可靠性得分，通过一定的四则运算得到最后的可靠度得分，作为这个词网格中某个词的置信度得分。

为了在持续的提高搜索的稳定性和准确性，本发明一较佳实施例的视频索引数据的生成方法进一步包括如下步骤：

声学模型自适应：

对于属于同一个说话人类的所有音频片段对应的拼音网格，将拼音网格中的概率最大的候选结果作为对应音频片段的最佳识别结果，利用这个候选结果(时间信息和内容信息)以及对应音频片段的特征矢量序列，作为相应的声学模型的更新的输入，实现声学模型的参数调整，从而使得后续的搜索结果更为准确。

文本相关模型自适应。(包括文本分类模型、拼音语言模型、词语言模型的自适应)

每一个提取正文以后的文本，对应着一个文档类的标记，相当于每个文档对应一个二元组：

{DP1(m),DCLASS(m)}

其中DP1(m)表示第m个文档，DCLASS(m)表示第m个文档的类别。

当某个分类新增的文档达到一定的数量以后，可以进行文本相关模型的更新，包括第m个文档分类模型DCM(m)以及音节语言模型LM1(m),词语言模型LM2(m)，以及缺省的音节语言模型LM1_Def，缺省的词语言模型LM2_Def。

生成新的文档分类模型，代替原来的模型，具体步骤为：

A.1)所有新增的DP1(m)，计算对应关键词表(DCMWL)里每个词的TF-IDF值，此处和前述计算TF-IDF值过程一致，从而获得新增的DP1(m)的特征向量(模型)，DCM(m)_1；

A.2)对于文档类型m，原来的模型记为DCM(m)_0,那么更新的模型为

DCM(m)＝(1-q0)*DCM(m)_0+q0*DCM(m)_1

其中q0为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来DCM(m)_0；

生成新的拼音语言模型，代替原来的拼音语言模型，包括：

B.1)所有新增的DP1(m)，根据发音字典，转换为拼音序列；

B.2)将这些文档根据所有的拼音，训练基于拼音n-gram的语言模型；记为LM1(m)_1；

B.3)对于文档类型m，原来的对应的拼音语言模型LM1记为LM1(m)_0,那么更新的模型为

LM1(m)＝(1-q1)*LM1(m)_0+q1*LM1(m)_1

其中q1为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来LM1(m)_0。

生成新的词语言模型，代替原来的词语言模型，包括：

C.1)所有新增的DP1(m)，根据语言模型的词表，将不词表中的词标记为UNK；

C.2)将这些文档根据语言模型词表，训练n-gram；

C.3)对于文档类型m，原来对应的词语言模型记为LM2(m)_0；

那么更新的模型为：

LM2(m)＝(1-q2)*LM2(m)_0+q2*LM2(m)_1

其中q2为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来词语言模型LM2(m)_0。

如图2所示，其为一实施例的视频索引数据生成系统20的功能模块图，包括：

信息获取单元201，用于获取视频内容和与视频内容相关的文本内容。本发明一较佳实施例中，信息获取单元201用于利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来。

文本分类单元202，用于通过预设的关键词，提取所述文本的特征参数，并对所述文本内容进行文本分类，得到所述文本内的分类信息。

语言模型数据库203，用于存储拼音语言模型和词语言模型。

拼音语言模型选择单元204，用于根据所述文本内的分类信息，从语言模型数据库203中选择对应的拼音语言模型。

词语言模型选择单元205，用于根据所述文本内的分类信息，从语言模型数据库203中选择对应的词语言模型。

音频处理单元206，用于从所述视频内容中提取音频数据，并将所述音频数据分割为多个音频片段。本实施例中，一个视频文件对应着一个音频文件，二者的时间长度一致，音频数据的分割采用的是VAD(VoiceActivityDetection)技术。

特征提取单元207，用于提取得到每个音频片段的特征矢量。这些特征矢量既用于后续的说话人分类，又用于后续的语音识别。其中，提取得到每个音频片段的特征矢量可利用LPCC，MFCC，PLP等技术实现。

说话人模型数据库208，用于存储多个说话人模型。

说话人分类单元209，用于根据音频片段的特征矢量，以及说话人模型数据库208中的说话人模型，得到每个音频片段的说话人分类结果。

声学模型库210，用于存储多个语音识别的声学模型。

声学模型选择单元211，用于根据所述音频片段对应的说话人分类结果从声学模型库210中选择对应的声学模型。

拼音识别器212，用于利用拼音识别器，根据每个音频片段的特征矢量和其对应的声学模型以及拼音语言模型和第一发音字典，生成拼音网格(SyllableLattice)。

词解码器213，用于通过词解码器，根据拼音网格以及词语言模型和第二发音字典，生成词网格。

置信度计算单元214，用于根据所述拼音网格以及所述词网格计算所述词网格中各个词的置信度，得到一个新的词网格。

索引生成单元215，用于根据所述新的词网格，并结合视频内容，生成视频索引数据。

本发明一较佳实施例中，所述信息获取单元201用于获取网页的HTML文档，并把所述HTML文档转换为树形结构；并所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容。或者以HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

本发明一较佳实施例中，文本分类单元202用于将所述文本内容进行分词，产生用一系列词语表示的词语序列；

[今天天气北京火车….]

优选的，计算所述文本内容中对应这些词的TFIDF值为：

[1.00.30.777,0.43.....]

这就是所述文本内容的特征矢量。

所述语言模型数据库203中包含着和文档分类模型数量一致的语言模型。也就是说，每一类文档分类对应一组语言模型(这组语言模型模型包含一个基于拼音的语言模型和一个基于词语的语言模型)。这里的拼音语言模型和词语的语言模型都是统计语言模型(StatisticalLanguageModel)，就是描述在一个符号(拼音或者词语)序列中当中，某个符号(音节或者词语)出现的概率分布的模型。

音频处理单元206提取的音频数据一般比较长，而且可能包含不止一个说话人的语音，因此需要对音频数据进行分割和分段。分割和分段的实现方式为：

首先对音频数据进行分帧，一般取20～30ms一段为一帧，帧和帧之间的起始点相隔10ms；然后计算所有帧的能量，再排序，以能量最小的10％的帧的平均能量作为背景噪声的能量E0和过零率Z0估计值；从音频数据的的文件头开始搜索，如果连续若干帧(例如3帧)的能量和过零率乘积超过E0和Z0的T1倍(这里T1＝2)，则认为一个句子开始了，并把起始点往前推若干帧；如果在起始点之后，连续若干帧(例如5帧)的能量和过零率乘积超过E0和Z0的T1倍(这里T1＝1)，则认为一个句子结束了；并且从结束点之后若干帧(例如10帧)之后再开始搜索起始点；当遇到整个音频数据的结尾时，如果此时句子还没有结束，则认为最后时刻是句子结束的；如果此时句子还未开始，则忽略；对上述分段的结果进行处理，对于段长小于一定的阈值DTH1，例如(DTH1＝1s)的段合并到相邻段，直到所有的音频片段的段长都超过这个阈值。

本发明一较佳实施例中，置信度计算单元214用于对于每个词网格中的每个词，需要根据词网格和对应的拼音网格中的各种概率和发音信息等计算置信度。置信度的计算可以是如下信息的一种或者多个的组合：(1)垃圾模型得分：(2)词长度得分：(3)网格密度得分：(4)高阶语言模型得分：(5)后验概率得分：(1)～(5)的计算方法得到的可靠性得分，通过一定的四则运算得到最后的可靠度得分，作为这个词网格中某个词的置信度得分。

为了在持续的提高搜索的稳定性和准确性，本发明一较佳实施例的视频索引数据的生成系统进一步包括更新单元，用于：

声学模型自适应。

{DP1(m),DCLASS(m)}

其中DP1(m)表示第m个文档，DCLASS(m)表示第m个文档的类别。

当某个分类新增的文档达到一定的数量以后，可以进行文本相关模型的更新，包括第m个文档分类模型DCM(m)以及音节语言模型LM1(m),词语言模型LM2(m)，以及缺省的音节语言模型LM1_Def,缺省的词语言模型LM2_Def。

生成新的文档分类模型，代替原来的模型，具体步骤为：

DCM(m)＝(1-q0)*DCM(m)_0+q0*DCM(m)_1

其中q0为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来DCM(m)_0；

生成新的拼音语言模型，代替原来的拼音语言模型，包括：

B.1)所有新增的DP1(m)，根据发音字典，转换为拼音序列；

LM1(m)＝(1-q1)*LM1(m)_0+q1*LM1(m)_1

其中q1为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来LM1(m)_0。

生成新的词语言模型，代替原来的词语言模型，包括：

C.1)所有新增的DP1(m)，根据DB3WL，将不词表中的词标记为UNK；

C.2)将这些文档根据DB3WL，训练n-gram；

C.3)对于文档类型m，原来对应的模型记为LM2(m)_0；

那么更新的模型为：

LM2(m)＝(1-q2)*LM2(m)_0+q2*LM2(m)_1

其中q2为更新因子，一般取小于1的数，例如0.1；

新的模型将代替原来词语言模型LM2(m)_0。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频索引数据生成方法，其特征在于，包括如下步骤：

步骤S101，获取视频内容和与视频内容相关的文本内容；

步骤S105，提取得到每个所述音频片段的特征矢量；

2.根据权利要求1所述的视频索引数据生成方法，其特征在于，所述步骤S101是利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来。

3.根据权利要求2所述的视频索引数据生成方法，其特征在于，所述步骤S101中获取文本内容是先获取所述网页的HTML文档，并把所述HTML文档转换为树形结构；再把所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容；或者以所述HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

4.根据权利要求1所述的视频索引数据生成方法，其特征在于，所述步骤S111包括如下步骤：把所述音频片段对应的所述拼音网格中的标记的时间信息和所述视频内容中的时间信息同步。

5.根据权利要求1所述的视频索引数据生成方法，其特征在于，所述视频索引数据生成方法进一步包括如下步骤：

6.一种视频索引数据生成系统，其特征在于，包括：

语言模型数据库，用于存储拼音语言模型和词语言模型；

说话人模型数据库，用于存储多个说话人模型；

声学模型库，用于存储多个语音识别的声学模型；

声学模型选择单元，用于根据所述音频片段对应的说话人分类结果从所述声学模型库中选择对应的声学模型；

词解码器，用于通过词解码器，根据所述拼音网格以及所述词语言模型和第二发音字典，生成词网格；

7.根据权利要求6所述的视频索引数据生成系统，其特征在于，所述信息获取单元用于利用网络爬虫抓取带所述视频内容的网页信息，并将所述网页中的所述视频内容和与所述视频内容相关的文本内容分别提取出来。

8.根据权利要求7所述的视频索引数据生成系统，其特征在于，所述信息获取单元获取文本内容是先获取所述网页的HTML文档，并把所述HTML文档转换为树形结构；再把所述树形结构的HTML文档中正文和预设模板中正文对应部分提取出来，作为所述文本内容；或者以HTML文档中段落为单位考查HTML页面内容，找到段落标记，将目标语言字符串最长的一段作为正文首选段落；再然后往上下文查找，直到字符串长度小于首选段落长度预设倍数时，停止搜索；将满足要求的段落汇总为所述文本内容。

9.根据权利要求6所述的视频索引数据生成系统，其特征在于，所述索引生成单元把所述音频片段对应的所述拼音网格中的标记的时间信息和所述视频内容中的时间信息同步。

10.根据权利要求6所述的视频索引数据生成系统，其特征在于，所述视频索引数据生成系统进一步包括一更新单元，用于所述声学模型自适应；对于属于同一个说话人类的所有所述音频片段对应的所述拼音网格，将所述拼音网格中的概率最大的候选结果作为对应音频片段的最佳识别结果，利用这个候选结果以及对应音频片段的特征矢量序列，作为相应的所述声学模型的更新的输入，实现所述声学模型的参数调整。