CN110738987B

CN110738987B - 一种基于统一表征的关键词检索方法

Info

Publication number: CN110738987B
Application number: CN201910992852.6A
Authority: CN
Inventors: 张卫强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-02-15
Anticipated expiration: 2039-10-18
Also published as: CN110738987A

Abstract

本发明属于语音信号处理技术领域，尤其涉及一种基于统一表征的关键词检索方法，包括：采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器；采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器；采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器；通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量；通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量；对于待查询语音，分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离，若小于预设门限即认为命中查询词。

Description

一种基于统一表征的关键词检索方法

技术领域

本发明属于语音信号处理技术领域，尤其涉及一种基于统一表征的关键词检索方法。

背景技术

语音关键词检索是语音信号处理领域重要的核心技术之一。根据用户查询输入的不同，关键词检索可以分为大类：基于文本的关键词检索和基于样例的关键词检索。基于文本的关键词检索关键词以文本形式给出，借助ASR(自动语音识别)技术，然后根据识别结果进行文本的搜索和匹配；基于样例的关键词检索关键词以语音片段(样例)的形式给出，一般直接利用声学特征进行时间序列的模板匹配。

目前，基于文本的关键词检索系统和基于样例的关键词检索系统采用完全不同的架构，对用户来讲是完全不同的两套系统，这给系统的建模、使用、维护等方面都带来很多不便。如何有效的将基于文本的关键词检索系统和基于样例的关键词检索系统进行统一建模和检索是亟待解决的难题。

发明内容

针对上述问题，本发明提供了一种基于统一表征的关键词检索方法，包括以下步骤：

步骤1：采用大量语音数据训练带有瓶颈层的神经网络语音自编码器；

步骤2：将神经网络语音自编码器的瓶颈层作为输出层，得到声学表征矢量提取器；

步骤3：采用大量文本数据训练带有瓶颈层的神经网络文本自编码器；

步骤4：将神经网络文本自编码器的瓶颈层作为输出层，得到语言表征矢量提取器；

步骤5：采用大量语音数据片段和对应的文本数据片段分别经过声学表征矢量提取器和语言表征矢量提取器后提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器；

步骤6：若用户查询输入的是文本关键词，则依次通过语言表征矢量提取器和统一矢量提取器得到查询矢量；若用户查询输入的是语音关键词，则依次通过声学表征矢量提取器和统一矢量提取器得到查询矢量；

步骤7：对于待查询语音，分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量，并计算每个索引矢量与查询矢量的距离，若小于预设门限，即认为命中查询词。

所述神经网络语音自编码器采用深度神经网络、卷积神经网络或递归神经网络，中间为一节点数较少的瓶颈层，输入端和输出端呈对称结构。

所述步骤2包括：将神经网络语音自编码器中的输入层到瓶颈层的部分保留，其他部分舍弃，得到声学表征矢量提取器，瓶颈层的输出即为声学表征矢量。

所述神经网络文本自编码器采用递归神经网络，训练数据为目标语种的文本数据，器输入为文本字符序列，输出为同一段文本字符序列。

所述步骤5包括：首先训练带有瓶颈层的神经网络自编码器，自编码器输入声学表征矢量或对应的语言表征矢量，输出为同一个声学表征矢量；将该自编码器的瓶颈层作为输出层，得到统一矢量提取器。

本发明的有益效果是，可以对查询词为语音和文本的两种情况进行统一表征，从而可以将基于文本的关键词检索系统和基于样例的关键词检索系统统一为一套系统，方便整个系统的建模、使用和维护。

附图说明

图1为本发明的一种基于统一表征的关键词检索方法流程图。

具体实施方式

下面结合附图，对优选实施例作详细说明。

步骤1：采用大量语音数据训练带有瓶颈层的神经网络语音自编码器：其中训练数据可以是各种语言混合的数据，不需要内容标注；自编码器输入为一段语音(或特征)，输出为同一段语音(或特征)；神经网络可以采用深度神经网络、卷积神经网络或递归神经网络，中间为一节点数较少的瓶颈层，输入端和输出端呈对称结构；训练目标是使输出语音(或特征)与输入语音(或特征)的均方误差最小；

步骤2：将神经网络语音自编码器的瓶颈层作为输出层，得到声学表征矢量提取器：将前述自编码中的输入层到瓶颈层的部分保留，其他部分舍弃，得到声学表征矢量提取器，瓶颈层的输出即为声学表征矢量；

步骤3：采用大量文本数据训练带有瓶颈层的神经网络文本自编码器：与步骤1类似，但训练数据为目标语种的文本数据，自编码器输入为文本字符序列，输出为同一段文本字符序列；神经网络一般采用递归神经网络；

步骤4：将神经网络文本自编码器的瓶颈层作为输出层，得到语言表征矢量提取器：与步骤2类似；

步骤5：采用大量语音数据片段和对应的文本数据片段分别经过声学表征矢量提取器和语言表征矢量提取器，提取对应的声学表征矢量和语言表征矢量，然后采用这些声学表征矢量和语言表征矢量训练统一矢量提取器：首先训练带有瓶颈层的神经网络自编码器，自编码器输入声学表征矢量或对应的语言表征矢量，输出为同一个声学表征矢量；将该自编码器的瓶颈层作为输出层，得到统一矢量提取器；

步骤6：若用户查询输入的是文本关键词，则依次通过语言表征矢量提取器和统一矢量提取器得到查询矢量；若用户查询输入的是语音关键词，则依次通过声学表征矢量提取器和统一矢量提取器得到查询矢量：无论用户输入的文本关键词还是语音关键词，均能得到统一查询矢量；

步骤7：对于待查询语音，分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量，并计算每个索引矢量与查询矢量的距离，如果某个索引矢量与查询矢量的距离小于预设门限，即认为命中查询词：其中距离计算可以采用欧式距离或余弦距离。

实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于统一表征的关键词检索方法，其特征在于，包括以下步骤：

步骤7：对于待查询语音，分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量，并计算每个索引矢量与查询矢量的距离，若小于预设门限，即认为命中查询词；

所述神经网络语音自编码器采用深度神经网络、卷积神经网络或递归神经网络，中间为一节点数较少的瓶颈层，输入端和输出端呈对称结构；

所述步骤2包括：将神经网络语音自编码器中的输入层到瓶颈层的部分保留，其他部分舍弃，得到声学表征矢量提取器，瓶颈层的输出即为声学表征矢量；

所述神经网络文本自编码器采用递归神经网络，训练数据为目标语种的文本数据，器输入为文本字符序列，输出为同一段文本字符序列；