CN108986797A

CN108986797A - 一种语音主题识别方法及系统

Info

Publication number: CN108986797A
Application number: CN201810884203.XA
Authority: CN
Inventors: 郭武; 孙健
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2018-12-11
Anticipated expiration: 2038-08-06
Also published as: CN108986797B

Abstract

本申请公开了一种语音主题识别方法及系统，方法包括：对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本，将不同颗粒度的文本分别转换为特征向量，将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。本申请采用多个语音识别器得到多颗粒度的语音识别结果，并将多颗粒度的语音识别结果用来训练卷积神经网络，利用不同颗粒度单元的互补获得了稳健的主题表征，从而提升了主题识别的正确率。

Description

一种语音主题识别方法及系统

技术领域

本申请属于语音处理技术领域，尤其涉及一种语音主题识别方法及系统。

背景技术

近年来，随着人工智能技术在生活中的广泛使用，在自然交互过程中对输入的语音识别出相应的主题，能够为后端特定的服务目标提供有效的支撑。

目前，基于语音的主题识别基本上都是一种两步法，首先采用语音识别技术将一段语音转换为一篇文档，然后采用主流的基于文本的主题识别方法来识别语音的主题。语音识别技术是指将语音转换为文本的技术，大规模连续语音识别从上世纪80年代开始逐步成熟，目前已经进入商业应用，但是在电话信道、信噪比比较低以及小语种情况下，语音识别错误率较高，进而导致语音主题识别的正确率较低。

因此，如何提高语音主题识别的准确率是一项亟待解决的问题。

发明内容

有鉴于此，本申请提供了一种语音主题识别方法，通过采用多颗粒度输入卷积神经网络的方式，提高了语音主题识别的准确率。

本申请提供了一种语音主题识别方法，所述方法包括：

对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本；

将所述不同颗粒度的文本分别转换为特征向量；

将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题。

优选地，所述将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题包括：

将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；

提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量；

将所述语义描述矢量作为层次化聚类算法的特征向量，输出所述待识别语音的主题。

优选地，提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量包括：

分别提取不同颗粒度的特征向量分别输入卷积神经网络后，卷积神经网络模型池化层的特征；

将提取的所有池化层的特征相加，得到语义描述矢量。

优选地，所述对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本包括：

采用隐马尔可夫语音识别器对待识别语音进行识别，得到与所述待识别语音对应的以词为单元的文本；

采用基于链接时序分类准则的端到端语音识别器对待识别语音进行识别，得到与所述待识别语音对应的以字为单元的文本。

一种语音主题识别系统，包括：

识别模块，用于采用多种颗粒度的语音识别器对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本；

转换模块，用于将所述不同颗粒度的文本分别转换为特征向量；

处理模块，用于将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题。

优选地，所述处理模块包括：

训练单元，用于将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；

提取单元，用于提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量；

输出单元，用于将所述语义描述矢量作为层次化聚类算法的特征向量，输出所述待识别语音的主题。

优选地，所述提取单元具体用于：

将提取的所有池化层的特征相加，得到语义描述矢量。

优选地，所述识别模块包括：

隐马尔可夫语音识别器，用于对待识别语音进行识别，得到与所述待识别语音对应的以词为单元的文本；

基于链接时序分类准则的端到端语音识别器，用于对待识别语音进行识别，得到与所述待识别语音对应的以字为单元的文本。

综上所述，本申请公开了一种语音主题识别方法，当需要对语音的主题进行识别时，首先对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本，然后将不同颗粒度的文本分别转换为特征向量，将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。本申请通过采用多颗粒度输入卷积神经网络的方式，提高了语音主题识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种语音主题识别方法实施例1的方法流程图；

图2为本申请公开的一种语音主题识别方法实施例2的方法流程图；

图3为本申请公开的一种语音主题识别系统实施例1的结构示意图；

图 4为本申请公开的一种语音主题识别系统实施例2的结构示意图。

具体实施方式

在语音识别准确率不高的情况下，尤其是针对训练语料不足的小语种、低信噪比、电话信道情况下的连续语音识别，一般字词错误率都很高；识别错误必然导致在主题建模过程中出现歧义，从而影响主题识别的正确率。

为了提升主题建模对识别错误的鲁棒性，本申请采用多个不同颗粒度的语音识别器的识别结果来进行主题识别；颗粒度粗的语音识别一般语义更丰富，但是对于集外词(out of vacabulary，OOV)识别效果较差，而集外词经常是一些语义丰富的人名、地名，对主题识别的准确率影响很大；颗粒度细的语音识别结果可以有效地补充这种不足。本申请在基于神经网络的框架下，在训练神经网络参数和提取文档主题表达矢量过程中，将多颗粒度的语音识别结果融合到一个神经网络中，提出了采用多颗粒度输入卷积神经网络的语音主题识别方法。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请公开的一种语音主题识别方法实施例1的方法流程图，在融合多颗粒度输入卷积神经网络的语音主题识别方法中，主要包括多颗粒度语音识别阶段、神经网络模型参数训练阶段、文档语义矢量提取和主题识别阶段。

在本实施例中，该方法可以包括以下步骤：

S101、对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本；

对于一段语音，及待进行主题识别的语音，首先根据语音识别器中声学建模单元和语音模型单元的不同，采用多个不同颗粒度的语音识别器将语音转换为文本。

例如，采用基于隐马尔可夫语音识别器和基于链接时序分类准则的端到端语音识别器将语音转化为文本。基于隐马尔可夫语音识别器采用的是目前语音识别的主流技术，隐马尔可夫声学模型采用的是绑定的三音子作为建模单元，本申请中采用长短时记忆单元来实现声学建模，另外采用3元以词做单元的语言模型来解码，识别出来是以词为单元的文本。端到端语音识别技术是近年来研究热点，链接时序分类直接采用字形作为声学建模单元，在解码时也直接采用3元以字做单元的语言模型，识别出来是以字为单元的文本，链接时序分类准则的端到端语音识别器能够识别一些隐马尔可夫语音识别器无法识别的人名、地名等集外词。

由此可以看出，识别后的结果有以词为单元的识别结果，也有以字为单元的识别结果，以词为单元的结果语义更丰富，但是对于集外词无能为力，而以字为单元可以识别出一些集外词，因此这两种识别结果之间具有良好的互补性。将这两种识别结果同时用于主题建模，可以提升主题识别正确率。

S102、将不同颗粒度的文本分别转换为特征向量；

其次，识别后的文档采用卷积神经网络的方式进行主题建模，例如，有字、词两种颗粒度的识别结果，因此卷积神经网络结构需要支持两种完全不同的输入。另外，卷积神经网络的输入要求是维数相对固定的矢量，对字、词两种不同的识别文档都采用分布式的矢量来表示，将两个矢量化表示的识别文档作为卷积神经网络的输入来训练卷积神经网络模型。卷积神经网络模型的结构包括输入模块、卷积层、池化层、全连接层和输出模块。

S103、将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。

然后将不同颗粒度的特征向量分别输入卷积神经网络，对卷积神经网络进行训练，得到语义描述矢量，根据得到的语义描述矢量最终识别出待识别语音的主题。

综上所述，在上述实施例中，当需要对语音的主题进行识别时，首先对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本，然后将不同颗粒度的文本分别转换为特征向量，将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。本申请对于待识别语音采用多种颗粒度的语音识别器，得到不同颗粒度的识别结果，将不同颗粒度识别结果转换为特征向量，输入到卷积神经网络进行主题识别，有效克服语音识别错误带来的语义歧义，具有较好的互补性。另外，在一个卷积神经网络的框架下，对同一段语音识别结果形成的文档，分别将不同颗粒度的特征向量依次输入到网络中来更新模型参数，将卷积神经网络的池化层作为文档矢量表示，提取过程也是依次将不同颗粒度特征向量输入得到池化层矢量之后，将多次得到的池化层矢量进行平均作为最终语义描述矢量，用该语义描述矢量进行语音主题识别，进一步实现了不同特征映射后的尺度一致性，从而实现了高层的模型参数共享。

如图2所示，为本申请公开的一种语音主题识别方法实施例2的方法流程图，该方法可以包括以下步骤：

S201、对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本；

S202、将不同颗粒度的文本分别转换为特征向量；

S203、将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；

相对于传统的神经网络训练方法，本申请提出多颗粒度卷积神经网络模型参数训练，在模型参数训练时，例如，每段语音有字、词两个不同的识别结果，采用字向量和词向量形成的矢量特征作为卷积神经网络的输入。对于有两组不同颗粒度输入的神经网络训练，一般方法是将两个输入特征拼接之后作为一个高维特性输入到神经网络进行训练，本申请中是将两个不同的特征分别送入到卷积神经网络中训练，比如第一次训练时，把字的矢量输入到卷积神经网络中，采用后向传播算法更新卷积神经网络模型参数；第二次训练时，把字的矢量输入到卷积神经网络中，采用后向传播算法更新卷积神经网络模型参数。通过对卷积之后的数值做一个时间维度上的平均池化操作来实现两个不同的特征经映射后的尺度一致性，从而实现高层的模型参数共享。

S204、分别提取不同颗粒度的特征向量分别输入卷积神经网络后，卷积神经网络模型池化层的特征；

S205、将提取的所有池化层的特征相加，得到语义描述矢量；

本申请采用训练好的卷积神经网络最后一个池化层的固定长度的特征向量作为一个文档的主题语义表示，例如，对每段语音有字、词两个不同的识别文档，与训练类似，将字、词两个识别后的文档矢量化之后分别输入到卷积神经网络中，每次都能得到一个以最后一个池化层为表示的文档特征。然后将两次分别得到的文档特征进行相加得到这段语音的最终语义描述矢量。

S206、将语义描述矢量作为层次化聚类算法的特征向量，输出待识别语音的主题。

综上所述，本申请提出的方法有效地在卷积神经网络框架下实现了多个不同语音识别结果形成的特征矢量在模型参数上的互补融合。传统的基于语音的主题识别方法即使考虑多个语音识别结果，也仅仅是把每个语音识别文档进行主题识别之后的结果进行融合，本申请在一个卷积神经网络中融合了多个(例如，字、词)不同的语音识别结果。为了验证本申请所提出方法的有效性，设计了如下实验。

(1)实验设置

本试验使用King-ASR-222-2和King-ASR-222-3两个数据库，这两个数据库都是在电话信道下录制的自由对话风格的日语数据库。King-ASR-222-2 数据库有来自150个人的120小时电话语音数据，本实验用这个数据库来训练语音识别系统。King-ASR-222-3数据库有7435段对话语音，总计有大约 200小时，这些对话涵盖21个主题，在将这些语音识别到文本之后，本实验采用这些数据作主题识别。

(2)实验结果

本实验采用King-ASR-222-2建立两个语音识别系统，第一个系统是采用 HMM建模+词解码识别，第二个系统采用的端到端CTC建模+字解码识别，识别的结果分别是字和词。一般而言，基于词的识别系统不管在语音识别还是在主题识别上都会好一些，但是这两者之间的互补会提升主题识别的正确率。表格1列出了这两个识别器在King-ASR-222-3数据库上的识别正确率。

表格1不同语音识别系统的字、词正确率

语音识别系统	正确率
		词识别系统	44.91％(词)
字识别系统	45.92％(字)

在此基础上，本实验进行主题识别。如表格2所示，首先列举了一些传统非监督模型，如LDA，LSA或者DocNADE在数据集上主题识别的准确率，采用的指标是ACC，NMI。首先采用这些非监督模型提取文档的特征矢量，然后再采用层次聚类的方法进行主题识别。这些模型的参数都设置到最优以取得最好的主题识别结果。由于本实验有2个语音识别器，将这两套识别结果分别做主题识别，基于词的系统明显由于基于字的系统，这是由于基于词的系统采用词这种颗粒度更大的单元，包含更多语义。

表格2.基于传统非监督模型的主题识别正确率

进一步，本实验采用CNN来提取特征，由于神经网络需要每段语音对应类别标签来训练模型，本实验采用表格2中任意两种传统非监督模型共同确定的标签来共识分析，也就是只有两个聚类算法把一个文档分到同一个主题中，才认为这个文档是属于这个主题，否则认为该文档不适合用于CNN训练。

采用共识分析得到了训练文档及其对应的类别标签之后，将其应用到 CNN训练中。由于有字、词两种识别结果，分别训练两个不同的单输入的 CNN，然后用CNN模型的池化层来提取文档的特征矢量，然后再采用层次聚类来进行主题识别。表格3前两行列出了字、词提取CNN池化层作为特征矢量做主题识别的结果，最后一行是把字、词的矢量拼成一个长矢量做识别结果。结果的前两列是采用LDA和DocNade两种算法选择训练标签，后两列是采用LSA和DocNade两种算法选择标签。总体而言，表格3的结果相对表2有明显提升，但是最后一行“词字矢量拼接”相对单独用“词CNN矢量”提升并不是很明显，说明这种训练两个CNN模型的方法，信息融合的效果并不是很好，这主要是由于“字CNN矢量”系统的性能太差的原因。

表格3采用单输入CNN的主题识别正确率

最后，实现了本发明提出的多颗粒度输入的CNN系统，用于CNN训练的标签也是与表格3的一致，采用共识分析得到。与表格3的差别在于，对于字、词两种识别结果，是一起输入CNN中进行训练。训练好模型之后，也是用这个CNN模型的池化层来提取文档的特征矢量，对于字、词两个不同输入提取文档的特征矢量，可以采取逐个矢量相加(Vector-A)来获得最终语义矢量，也可以如表格3最后一行采用把字、词的矢量拼成一个长矢量(Vector-C)做最终语义矢量表示。从表格4的实验结果来看，本申请提出的方法得到的 Vector-A矢量得到的主题识别效果最好，相对表格3最好的结果有8％左右的 ACC和NMI绝对提升。

表格4采用多流输入CNN的主题识别正确率

总的来说，本申请提出采用多颗粒度输入和卷积神经网络的语音主题识别方法。该方法优点在于：第一，能够充分在一个CNN网络中支持多个语音识别结果的输入。第二，在CNN模型训练和语义特征提取时，采用的是每个输入特征分别进行模型训练和语义特征提取，这是与传统将2个或者多个特征拼接起来的方法完全不同的，从实验结果来看，这种方法也是优于拼接在一起训练的方法。

如图3所示，为本申请公开的一种语音主题识别系统实施例1的结构示意图，在融合多颗粒度输入卷积神经网络的语音主题识别方法中，主要包括多颗粒度语音识别阶段、神经网络模型参数训练阶段、文档语义矢量提取和主题识别阶段。

在本实施例中，该系统可以包括：

识别模块301，用于对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本；

转换模块302，用于将不同颗粒度的文本分别转换为特征向量；

处理模块303，用于将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。

如图4所示，为本申请公开的一种语音主题识别系统实施例2的结构示意图，该系统可以包括：

识别模块401，用于对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本；

转换模块402，用于将不同颗粒度的文本分别转换为特征向量；

训练单元403，用于将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；

提取单元404，用于分别提取不同颗粒度的特征向量分别输入卷积神经网络后，卷积神经网络模型池化层的特征，将提取的所有池化层的特征相加，得到语义描述矢量；

输出单元405，用于将语义描述矢量作为层次化聚类算法的特征向量，输出待识别语音的主题。

综上所述，本申请提出采用多颗粒度输入和卷积神经网络的语音主题识别系统。该系统优点在于：第一，能够充分在一个CNN网络中支持多个语音识别结果的输入。第二，在CNN模型训练和语义特征提取时，采用的是每个输入特征分别进行模型训练和语义特征提取，这是与传统将2个或者多个特征拼接起来的方法完全不同的，从实验结果来看，这种方法也是优于拼接在一起训练的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音主题识别方法，其特征在于，所述方法包括：

将所述不同颗粒度的文本分别转换为特征向量；

2.根据权利要求1所述的方法，其特征在于，所述将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题包括：

3.根据权利要求2所述的方法，其特征在于，提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量包括：

将提取的所有池化层的特征相加，得到语义描述矢量。

4.根据权利要求1所述的方法，其特征在于，所述对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本包括：

5.一种语音主题识别系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述处理模块包括：

7.根据权利要求6所述的系统，其特征在于，所述提取单元具体用于：

将提取的所有池化层的特征相加，得到语义描述矢量。

8.根据权利要求5所述的系统，其特征在于，所述识别模块包括：