CN112015872A

CN112015872A - 问句识别方法及装置

Info

Publication number: CN112015872A
Application number: CN201910458159.0A
Authority: CN
Inventors: 李明磊; 怀宝兴
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-01

Abstract

本申请实施例提供一种问句识别方法及装置，该方法包括：对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。根据分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，其中，分类器模型用于识别输入语音内容是否为问句。本实施例通过分类器根据各特征向量进行处理，以得到最终的问句识别结果，能提升问句识别的准确率。

Description

问句识别方法及装置

技术领域

本申请实施例涉及计算机技术，尤其涉及一种问句识别方法及装置。

背景技术

在实现人机对话的过程中，智能设备通常是根据用户输入的语音内容或者文本内容在预设的知识库中进行查找，从而获取到与用户输入内容相匹配的回答信息，通过将预设的知识库划分为问句知识库与非问句知识库能够有效提升匹配效率，因此需要预先识别用户输入的语音内容或者文本内容是否为问句。

目前，现有技术在进行识别的过程中，通常是将用户输入的语音内容转化为文本，或者直接对用户输入的文本进行从句切分得到多个从句内容，其次基于规则库对每个从句内容进行问句检测，如检测从句中是否包含疑问词等，若有一个从句内容为问句，则确定用户输入的语音内容或者文本内容为问句。

然而，规则库的定义复杂度较高，若是规则库定义的内容不全面，则会导致问句识别的准确率降低。

发明内容

本申请实施例提供一种问句识别方法及装置，以克服问句识别的准确率较低的问题。

第一方面，本申请实施例提供一种问句识别方法，包括：

首先对输入语音内容进行语音识别处理，得到所述输入语音内容对应的输入文本内容；接着对所述输入文本内容进行特征提取处理，以得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量，其中，所述输入文本特征向量包括至少一个文本特征，所述输入音频特征向量包括至少一个音频特征；最终根据分类器模型对所述输入文本特征向量和输入音频特征向量进行识别处理，得到所述输入语音内容是否为问句的识别结果，其中，所述分类器模型用于识别所述输入语音内容是否为问句。

在上述过程中，通过对输入语音内容及其对应的输入文本内容进行特征提取处理，得到输入音频特征向量法和输入文本特征向量，并且通过分类器根据特征向量进行处理，从而得到最终的问句识别结果，能够有效避免预设规则库定义不全面导致的问句识别的准确率较低，以提升问句识别的准确率。

在一种可能的设计中，所述根据分类器模型对所述输入文本特征向量和输入音频特征向量进行处理，得到所述输入语音内容是否为问句的识别结果，包括：

对所述输入文本特征向量和输入音频特征向量进行向量拼接处理，得到包括各文本特征和各音频特征的融合向量；

获取各所述文本特征以及各所述音频特征的权重信息，其中，所述权重信息用于指示各所述文本特征和各所述音频特征的权重；

根据所述融合向量和各所述权重信息，得到所述输入语音内容是否为问句的识别结果。

其中，通过将输入文本特征向量和输入音频特征向量进行向量拼接处理，以得到一个融合向量，可以使得分类器模型接收一个完整的向量作为，从而减少了处理处理的复杂性，有效提升处理效率。

在一种可能的设计中，所述根据所述融合向量和各所述权重信息，得到所述语音内容的识别结果，包括；

对所述融合向量进行归一化处理，得到归一化处理后的各所述文本特征和各所述音频特征；

根据归一化处理后的各所述文本特征和各所述音频特征，得到各所述文本特征和各所述音频特征对应的指标信息，其中，所述指标信息用于指示所述输入语音内容是否为问句；

根据各所述指标信息和各所述指标信息对应的权重信息，确定所述输入语音内容是否为问句的识别结果。

在上述过程中，通过对各文本特征和各音频特征进行归一化处理，从而将各特征的数据映射到0～1范围之内，将有量纲表达式变为了无量纲表达式，使得后续的数据处理更加的便捷快速。

在一种可能的设计中，所述对所述输入文本内容和所述输入语音内容分别进行特征提取处理，分别得到输入文本特征向量和输入音频特征向量之前，还包括：

对所述输入文本内容进行文本预处理，其中，所述文本预处理包括如下中的至少一种：分词处理、去停用词处理、同义词替换处理；

对所述输入语音内容进行音频预处理，其中，所述音频预处理包括如下中的至少一种：预加重处理、分帧处理、加窗处理。

其中，在进行特征提取处理之前，首先对输入文本内容和输入语音内容进行预处理，能够将输入文本内容和输入语音内容处理为便于进行特征提取的格式，从而有效提升特征提取处理的效率。

在一种可能的设计中，所述对所述输入文本内容进行特征提取处理，得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量之后，还包括：

获取输入语音内容的时间帧信息，其中，所述时间帧信息用于指示所述输入语音内容的时间序列；

根据所述时间帧信息，将所述输入文本特征向量和所述音频特征向量进行帧对齐处理。

具体的，通过进行帧对齐处理可以使得各文本特征和各语音特征均在输入语音内容的时间序列上对应各自的时间帧节点，从而可以结合文本特征和音频特征进行综合分析，以提升数据处理的效率和全面性。

在一种可能的设计中，所述对输入语音内容进行语音识别处理，得到所述语音内容对应的文本内容之前，还包括：

对训练语音内容进行语音识别处理，得到所述训练语音内容对应的训练文本内容；

对所述训练文本内容进行特征提取处理，得到训练文本特征向量，以及对所述训练语音内容进行特征提取处理，得到训练音频特征向量；

根据所述训练语音内容以及训练语音内容的问句标签，对所述分类器模型进行模型训练处理，得到训练后的分类器模型，其中，所述问句标签用于指示所述训练语音内容是否为问句。

其中，通过在应用分类器模型之前预先对分类器模型进行训练，可以有效提升分类器模型的识别结果的准确率。

在一种可能的设计中，所述音频特征包括如下中的至少一种：发音速率、短时能量、短时过零率、基频范围、基频变化特征、基频均值特征。

在一种可能的设计中，所述文本特征包括如下中的至少一种：词袋特征、语气词特征、语气词位置特征、问句指示词特征。

在一种可能的设计中，所述分类器模型可以为如下中的至少一种：支持向量机模型、随机森林模型、神经网络模型。

第二方面，本申请实施例提供一种问句识别装置，包括：

识别模块，用于对输入语音内容进行语音识别处理，得到所述输入语音内容对应的输入文本内容；

处理模块，用于对所述输入文本内容进行特征提取处理，得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量，其中，所述输入文本特征向量包括至少一个文本特征，所述输入音频特征向量包括至少一个音频特征；

输出模块，用于根据分类器模型对所述输入文本特征向量和输入音频特征向量进行识别处理，得到所述输入语音内容是否为问句的识别结果，其中，所述分类器模型用于识别所述输入语音内容是否为问句。

在一种可能的设计中，所述输出模块具体用于：

在一种可能的设计中，所述处理模块还用于：

所述对所述输入文本内容和所述输入语音内容分别进行特征提取处理，分别得到输入文本特征向量和输入音频特征向量之前，对所述输入文本内容进行文本预处理，其中，所述文本预处理包括如下中的至少一种：分词处理、去停用词处理、同义词替换处理；

在一种可能的设计中，所述处理模块还用于：

所述对所述输入文本内容进行特征提取处理，得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量之后，获取输入语音内容的时间帧信息，其中，所述时间帧信息用于指示所述输入语音内容的时间序列；

在一种可能的设计中，还包括：训练模块；

所述训练模块具体用于，在所述对输入语音内容进行语音识别处理，得到所述语音内容对应的文本内容之前，对训练语音内容进行语音识别处理，得到所述训练语音内容对应的训练文本内容；

第三方面，本申请实施例提供一种问句识别设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

本申请实施例提供一种问句识别方法及装置，该方法包括：对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。根据分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，其中，分类器模型用于识别输入语音内容是否为问句。通过对输入语音内容及其对应的输入文本内容进行特征提取处理，得到输入音频特征向量法和输入文本特征向量，并且通过分类器根据特征向量进行处理，从而得到最终的问句识别结果，能够有效避免预设规则库定义不全面导致的问句识别的准确率较低，以提升问句识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的问句识别系统的架构示意图；

图2为本申请一实施例提供的问句识别方法的流程图一；

图3为本申请一实施例提供的问句识别方法的流程图二；

图4为本申请一实施例提供的问句识别方法的流程图三；

图5为本申请一实施例提供的问句识别方法的流程图四；

图6为本申请一实施例提供的问句识别装置的结构示意图一；

图7为本申请一实施例提供的问句识别装置的结构示意图二；

图8为本申请一实施例提供的问句识别设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的问句识别系统的架构示意图。如图1所示，本实施例提供的系统包括智能设备101和服务器102。其中，智能设备101可以包括但不限于数字电视(Digital Television，DTV)、移动设备、膝上型计算机、外设广告设备、平板设备、个人数字助理(Personal Digital Assistant，PDA)、智能终端、具有无线连接功能的手持式设备或车载设备等其他便携式设备，本领域技术人员可以理解，凡是可以用于进行人机对话的设备均可以认为是本实施例中的智能设备，此处对此不作限制。

具体地，该智能设备101可以根据自身存储的语料库，在本地获取问答结果，也可以将该询问语句发送给服务器102，由服务器102获取问答结果，然后反馈给智能设备101。本实施例对具体的实现方式不做特别限制，智能设备101本地获取问答结果以及又服务器102根据询问语句获取问答结果皆可。

具体的，人机对话是智能设备的一种工作方式，用户通过语音向智能设备101输入询问语句，该智能设备101可以根据该询问语句获取问答结果向用户进行反馈，例如可以通过控制台或终端显示屏幕以对话方式进行工作，其中的对话可以为语音对话，如用户输入语音内容，或智能设备输出语音内容；或者对话还可以文本对话，如用户输入文本内容，或智能设备输出文本内容等。

在一种可能的实现方式中，预先在人机对话系统中设置有由问题-回答(Query-Response)构成的知识库(QR库)，其例如可以存储在智能设备101中，或者还可以存储在服务器102中，该智能设备101可以根据自身存储的知识库，在本地获取问答结果，也可以将该询问语句发送给服务器102，由服务器102获取问答结果，然后反馈给终端101。

其中，获取问答结果的实现方式可以为根据用户输入的语音内容在Query列表中进行匹配，以确定相似度最高的问题，并将该问题对应的回答作为人机对话中的应答，通过文本或者语音的方式输出给用户。

然而，根据用户输入的语音内容和知识库库中的每个问题均进行匹配，则会导致匹配的搜索空间较大，搜索效率下降，因此可以将知识库分成两类，一类是问句知识库，另一类是非问句知识库，当用户输入的语音内容是问句的时候在问句知识库库中匹配，不是问句的时候在非问句知识库中匹配，从而能够减小匹配的搜索空间，提升语义匹配的效率和准确率，因此需要预先识别用户输入的语音内容或者文本内容是否为问句。

目前，现有技术在进行识别的过程中，通常是将用户输入的语音内容转化为文本，或者直接对用户输入的文本进行从句切分得到多个从句内容，其次基于规则库对每个从句内容进行问句检测，如检测从句中是否包含疑问词(when，where，who，what，why)等，若有一个从句内容为问句，则确定用户输入的语音内容或者文本内容为问句。

然而，上述介绍的方式主要支持英文，无法适用于中文的场景，并且规则库的定义复杂度较高，若是规则库定义的内容不全面，则会导致问句识别的准确率降低。

基于上述问题，本申请提供一种问句识别方法，以提升问句识别的准确率，下面结合具体的实施例进行介绍，首先结合图2进行说明，图2为本申请一实施例提供的问句识别方法的流程图一，如图2所示，该方法包括：

S201、对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。

其中，智能设备可以通过内置的声音采集设备获取用户输入的语音内容，或者还可以通过外接的声音采集设备获取用户输入的语音内容，其中声音采集设备可以包括但不限于远场麦克风、数字广播终端、或个人数字助理等，其主要具备采集声音的功能。

或者，还可以通过接收一段语音文件(如MP3格式的文件)，从而获取到输入语音内容，本实施例对用户输入语音内容的具体实现方式不作限定。

具体的，对输入的语音内容进行语音识别处理，其中的语音识别处理具体用于得到输入语音内容对应的输入文本内容，语音识别处理例如采用现有的语音识别模型进行处理，其中语音识别模型包括但不限于：语音识别处理的网络应用程序编程接口(Application Programming Interface，API)、可提供语音识别功能的软件开发工具包(Software Development Kit，SDK)或者嵌入式设备等。

或者，语音识别处理还可以采用人机对话系统自行设置的语音识别单元进行处理，本领域技术人员可以理解，语音识别处理的目的是为了得到输入语音内容对应的输入文本内容，其具体的实现方式可以根据实际需求进行设定，只要最终能够得到对应的输入文本内容即可，本实施例对语音识别处理不作限制。

S202、对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。

具体的，基于文本内容进行的特征提取处理是为了得到输入文本内容的文本特征。

在本实施例中，文本特征包括如下中的至少一种：词袋特征、语气词特征、语气词位置特征、问句指示词特征。其中词袋特征是指词袋模型相关的特征，词袋模型具体为在自然语言处理和信息检索下被简化的表达模型，在词袋模型下，句子或是文件中的文字可以用一个袋子装着这些词的方式表现，而不考虑语法以及词的顺序，词袋特征例如包括词的数量，各个词出现的频率等。

其中，语气词特征用于指示输入文本内容中是否包括语气词，如：吗、啊、呢、吧、么等，语气词位置特征用于指示输入文本内容中语气词是否出现在文本最后的位置，如当前的输入文本特征为“你吃饭了吗”，则语气词特征指示包含语气词“吗”，并且语气词特征位置指示所包含的语气词位于输入文本内容最后的位置。

以及问句指示词特征用于指示输入文本内容中是否包含问句指示词，其中问句指示词例如可以包括：是不是、是否、谁、什么、哪里、难道等，本领域技术人员可以理解，上述介绍的文本特征、以及各文本特征中具体的语气词、问句指示词等均可以根据实际需求设定，本实施例对文本特征的具体实现方式不作限制。

具体的，特征提取处理的具体实现方式可以包括但不限于：TF-IDF、词袋、NGram，本领域技术人员可以理解，对输入文本内容进行特征提取处理的具体实现方式，可以根据实际所需求的文本特征进行设定，此处对此不作限制。

同样的，基于语音内容进行的特征提取处理是为了得到输入语音内容的音频特征。

在本实施例中，音频特征包括如下中的至少一种：发音速率、短时能量、短时过零率、基频范围、基频变化特征、基频均值特征。其中，发音速率反映了输入语音内容中音频的发音速率。

下面对短时能量和短时过零率进行介绍，一般来讲，语音可以分为无声段、清音段和浊音段，由于语音信号是一个非平稳态过程，不能用处理平稳信号的信号处理技术对其进行分析处理，然而，由于语音信号本身的特点，在10-30ms的短时间范围内，其特性可以看做是一个准稳态过程，因此可以采用短时能量和短时归零率有效的反映音频特征。

具体的，因为浊音的能量值比清音大很多，因此采用短时能量能够有效判断浊音和清音时间过渡的时刻，以及因为语音信号中高频段的过零率较高，低频段的过零率较低，因此采用短时过零率可以有效区分清音和浊音，其中短时过零率是指一帧语音中语音信号的波形穿过零电平的次数，采用短时过零率和短时能量，能够实现对中文的有效分析，从而避免了现有技术无法适用于中文的问题。

其中，基频是指基音的频率，决定了音的高低，具体的，基频范围用于指示一段音频中所包括的基频上限和下限，其中基频变化特征用于指示在预设词(如语气词、问句指示词、重音词等)对应的语音帧，基频是否发生突变。

以及基频均值特征用于指示各个音频窗口的基频均值，具体的，将K个语音帧作为一个音频窗口，其次通过窗口滑动计算每个音频窗口内K帧的基频均值，在可选的实施例中，可以判断最后一个窗口的基频均值是否为最大，从而可以判断输入语音内容的语气是否为问句语气。

具体的，特征提取处理的具体实现方式可以包括但不限于：倒谱法、短时自相关法、短时平均幅度差法、LPC法，本领域技术人员可以理解，对输入语音内容进行特征提取处理的具体实现方式，可以根据实际所需求的音频特征进行设定，此处对此不作限制。

在本实施例中，各文本特征构成输入文本特征向量，各音频特征构成输入文本音频向量，其中基于向量空间进行向量运算的计算复杂度低，直观易懂，并且操作效率高，因此将各特征存储为向量的形式能够有效降低问句识别的处理复杂度，并提升问句识别的效率。

S203、根据分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，其中，分类器模型用于识别输入语音内容是否为问句。

在本实施例中，设置有用于识别输入语音内容是否为问句的分类器模型，其中分类器模型的具体工作过程可以为，根据输入的输入文本特征和输入音频特征进行运算，本实施例中输入文本特征和输入音频特征可以直接或者间接反映输入语音内容是否为问句，从而使得分类器模型可以输出问句的识别结果，其中输出的形式例如可以为输出标签(问句标签/非问句标签)，从而实现对输入语音内容是否为问句的有效识别。

在可选的实现方式中，本实施例中的分类器模型可以为如下中的至少一种：支持向量机模型、随机森林模型、神经网络模型，或者还可以为其他分类器模型，其中分类器模型可以根据实际需求进行选择，只要其能够根据各特征进行分析，并最终输出问句的识别结果即可，本实施例对其具体实现过程不作限定。

本申请实施例提供的问句识别方法，包括：对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。根据分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，其中，分类器模型用于识别输入语音内容是否为问句。通过对输入语音内容及其对应的输入文本内容进行特征提取处理，得到输入音频特征向量法和输入文本特征向量，并且通过分类器根据特征向量进行处理，从而得到最终的问句识别结果，能够有效避免预设规则库定义不全面导致的问句识别的准确率较低，以提升问句识别的准确率。

在上述实施例的基础上，下面结合图3对本申请实施例提供的问句识别方法进行进一步地详细介绍，图3为本申请一实施例提供的问句识别方法的流程图二，如图3所示，该方法包括：

S301、对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。

具体的，S301的实现方式与S201类似，此处不再赘述。

S302、对输入文本内容进行文本预处理，以及对输入语音内容进行音频预处理。

在本实施例中，在进行特征提取处理之前，首先对输入文本内容和输入语音内容进行预处理，进行预处理能够将输入文本内容和输入语音内容处理为便于进行特征提取的格式，从而有效提升特征提取处理的效率。

具体的，对输入文本内容进行文本预处理，其中文本预处理包括如下中的至少一种：分词处理、去停用词处理、同义词替换处理。

其中，分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程，在英文中单词能够以空格作为自然分界符的，然而中文中仅仅只有字、句和段能通过明显的分界符来简单划界，其中词是没有形式上的分界符的，因此首先需要通过分词处理从一句话中提取出词，以便进行后续的特征提取处理。

其中，去停用词处理是指将一句话中的停用词去掉，其中停用词是指人类语言中非常普遍，但是没有什么实际含义的功能词，如：的、与、且、不过等，在一种可选的实现方式中，预先设置有停用词表，根据停用词表进行停用词的去除即可，其中停用词表的具体实现方式可以根据实际需求进行选择，本实施例对此不作限定，通过去停用词处理能够有效节省存储空间和提高搜索效率。

其中同义词替换处理是指，若当前输入文本内容中的词在之前没有记录，可将其替换为同义词，如之前对“开心”这一词汇进行过处理，然而当前输入文本内容中包含的词汇为“愉悦”，若不进行同义词替换，则会导致后续分类器模型在进行识别处理时没有可参考的处理依据，然而同义词替换能够使得分类器模型参照之前对“开心”的识别处理对“愉悦”进行处理，在一种可选的实现方式中，预先设置有同义词表，同义词表中一个词语对应的各同义词之间互为同义词，通过同义词替换处理能够有效提升识别处理的全面性。

在本实施例中，还需要对输入语音内容进行音频预处理，其中音频预处理包括如下中的至少一种：预加重处理、分帧处理、加窗处理。

其中，预加重处理是指对输入信号高频分量的提升，具体的，为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分，并且能突显高频的共振峰，因此预先采用预加重处理对输入语音内容进行处理。

其中，分帧处理是指将一段输入语音内容划分为以帧为单位的短段，具体的，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10-30ms内可以认为语音信号近似不变)，因此可以把语音信号分为一些短段来进行处理，每一个短段称为一帧，其中一帧的具体时长可以根据实际需求进行设定，此处对此不作限制。

其中，加窗处理是指将完整的语音信号划分为一个个便于处理的长度的过程，具体的，因为计算机只能处理有限长度的信号，因此原始信号要以采样时间截断以实现有限化，其中加窗可以理解为屋子里的窗口，透过窗口可以看到部分外面的世界，在实际实现过程中，加窗例如可以为矩形窗、三角窗、海宁窗、汉明窗等。

在可选的实施例中，分帧处理是采用可移动的有限长度的窗口进行加权的方法来实现的，或者还可以采用帧划分的方式实现等，本实施例对分帧处理和加窗处理的具体实现方式不作限定。

本领域技术人员可以理解，本实施例中所提到的文本预处理和音频预处理包括但不限于上述提到的各种处理方式，凡是为提高特征提取处理的处理效率所进行的处理，都可以认为是预处理，其具体实现方式可以根据实际需求进行设定，本实施例对此不做限制。

S303、对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。

具体的，S303的实现方式与S202的实现方式类似，此处不再赘述。

在可选的实施例中，在得到输入文本特征向量和输入音频特征向量之后，还可以进行帧对齐处理，以便于后续将语音特征和文本特征结合进行处理。

具体的，获取输入语音内容的时间帧信息，其中，时间帧信息用于指示所述输入语音内容的时间序列；根据时间帧信息，将输入文本特征向量和音频特征向量进行帧对齐处理。

通过进行帧对齐处理可以使得各文本特征和各语音特征均在输入语音内容的时间序列上对应各自的时间帧节点，从而可以结合文本特征和音频特征进行综合分析，以提升数据处理的效率和全面性。

例如音频特征中的语气词位置特征需要首先确定语气词的位置，其次才能够确定语气词的位置基频是否发生突变，因此在进行帧对齐处理之后，直接就可以根据文本特征首先获取各语气词所在的帧节点，其次判断语气词所在的帧节点是否发生基频突变。

S304、对输入文本特征向量和输入音频特征向量进行向量拼接处理，得到包括各文本特征和各音频特征的融合向量。

在本实施例中，各文本特征和各音频特征是按照向量的形式存储在内存中的，以便于后续进行处理，而将输入文本特征向量和输入音频特征向量进行向量拼接处理，以得到一个融合向量，可以使得分类器模型接收一个完整的向量作为分类器模型的输入，从而减少了处理处理的复杂性，提升处理效率。

其中，向量拼接处理的具体实现方式可参照现有技术，本实施例对此不做特别介绍。

S305、获取各文本特征以及各音频特征的权重信息，其中，权重信息用于指示各文本特征和各音频特征的权重。

本实施例中各文本特征和各音频特征各自对应不同的权重，例如文本特征中的语气词特征(是否包含疑问语气词)对于是否为问句有直接的指示作用，其所对应的权重可能较大，或者例如音频特征中的发音速率能够间接反映是否为问句，并没有直接的指示作用，其对应的权值可能就比较小。

在一种可能的实现方式中，各文本特征以及和各音频特征的权重信息是经过分类器模型进行模型训练得到的，具体的，根据已经明确是否为问句的训练数据对分类器模型进行训练，其训练的过程与上述介绍的识别是否为问句是实现方式相同，最终根据对训练数据输出的识别结果与预先已知的是否为问句进行比较，从而实现训练，其中不断的训练的过程中能够确定各文本特征以及和各音频特征与问句的关联关系，从而可以确定各文本特征以及和各音频特征的权重信息。

或者，权重信息还可以为根据历史经验数据中指示的各文本特征以及和各音频特征与问句之间的关联关系程度的相关数据确定的，本实施例对确定其权重信息的具体实现方式不做限制。

S306、对融合向量进行归一化处理，得到归一化处理后的各文本特征和各音频特征。

具体的，融合向量中包括各文本特征以及和各音频特征，各文本特征和各音频特征的单位以及取值范围是各不相同的，如语气词特征具体为是/否，用0/1来进行标识，然而短时过零率的单位为“次”，其取值范围例如可以为0-50，融合向量中各文本特征以及和各音频特征的数据不统一会使得数据处理的难度较大。

因此，对各文本特征和各音频特征进行归一化处理，其中归一化处理是指将各特征的数据映射到0～1范围之内，将有量纲表达式变为了无量纲表达式，使得后续的数据处理更加的便捷快速。

S307、根据归一化处理后的各文本特征和各音频特征，得到各文本特征和各音频特征对应的指标信息，其中，指标信息用于指示输入语音内容是否为问句。

在一种可选的实现方式中，归一化处理后的各文本特征和各音频特征对应0-1之间的特征数值，因此可以直接将各文本特征和各音频特征的特征数值作为指标信息，用于指示输入语音内容是否为问句。

在另一种可选的实现方式中，还可以根据归一化处理后的各文本特征和各音频特征对应0-1之间的特征数值与预设映射关系进行处理，从而得到各特征数值对应的映射结果(如对于是否为问句的百分比数值指示等)，将该映射结果作为指标信息，本实施例对指标信息的具体实现方式不作限制，只要指标信息是根据归一化处理后的各文本特征和各音频特征确定的即可。

S308、根据各指标信息和各指标信息对应的权重信息，确定输入语音内容是否为问句的识别结果。

本实施例中，分类器模型用于识别输入语音内容是否为问句，具体的，各文本特征和各语音特征均对应各自的权重信息与指标信息，采用分类器模型根据各指标信息和各指标信息对应的权重信息进行识别处理，从而确定输入语音内容是否为问句的识别结果，例如输出问句的标签，或者非问句的标签等。

在可选的实施例中，分类器模型包括但不限于支持向量机模型、随机森林模型、神经网络模型，分类器模型的具体选用可以根据实际需求进行设定，此处对此不作限制，其具体实现方式可参照现有技术中的相关说明，此处不作过多赘述。

本申请实施例提供的问句识别方法，包括：对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容。对输入文本内容进行文本预处理，以及对输入语音内容进行音频预处理。对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征。对输入文本特征向量和输入音频特征向量进行向量拼接处理，得到包括各文本特征和各音频特征的融合向量。获取各文本特征以及各音频特征的权重信息，其中，权重信息用于指示各文本特征和各音频特征的权重。对融合向量进行归一化处理，得到归一化处理后的各文本特征和各音频特征。根据归一化处理后的各文本特征和各音频特征，得到各文本特征和各音频特征对应的指标信息，其中，指标信息用于指示输入语音内容是否为问句。根据各指标信息和各指标信息对应的权重信息，确定输入语音内容是否为问句的识别结果。通过对输入文本特征向量和输入音频特征向量进行向量拼接处理，得到融合向量，其次对融合向量进行归一化处理能够使得向量机的输入是格式统一的无量纲数据，从而有效提升向量机的识别效率，其次各指标信息和各指标信息对应各自的权重信息，从而能够有效保证问句识别结果的有效性和准确率。

在上述实施例的基础上，本申请实施例提供的问句识别方法，在根据分离器模型进行识别处理之前，还需要预先对分类器模型进行训练，下面结合图4进行说明，图4为本申请一实施例提供的问句识别方法的流程图三，如图4所示，该方法还包括：

S401、对训练语音内容进行语音识别处理，得到训练语音内容对应的训练文本内容。

S402、对训练文本内容进行特征提取处理，得到训练文本特征向量，以及对训练语音内容进行特征提取处理，得到训练音频特征向量。

具体的，S401、S402的实现方式与S201、S202类似。

不同之处在于，本实施例中采用的数据是训练语音数据，其中训练语音内容是带有问句标签的，即训练语音内容是预先明确其是问句或者不是问句的，此处采用训练语音内容是为了对模型机进行训练。

S403、根据训练语音内容以及训练语音内容的问句标签，对分类器模型进行模型训练处理，得到训练后的分类器模型，其中，问句标签用于指示训练语音内容是否为问句。

具体的，根据分类器模型对训练语音内容进行进行识别处理，以输出训练识别结果，其中训练识别结果为分类器模型输出的是否为问句的结果，其次将训练识别结果与问句标签进行比较，从而确定分类器模型识别的准确与否，当不正确时，根据问句标签与训练语音内容进行学习，从而在下次训练时根据学习的相关数据进行识别处理，经过不断的模型训练处理，得到训练后的分类器模型，以实施上述实施例中介绍的问句识别方法。

本申请实施例提供的问句识别方法，包括：对训练语音内容进行语音识别处理，得到训练语音内容对应的训练文本内容。对训练文本内容进行特征提取处理，得到训练文本特征向量，以及对训练语音内容进行特征提取处理，得到训练音频特征向量。根据训练语音内容以及训练语音内容的问句标签，对分类器模型进行模型训练处理，得到训练后的分类器模型，其中，问句标签用于指示训练语音内容是否为问句。通过在应用分类器模型之前预先对分类器模型进行训练，可以有效提升分类器模型的识别结果的准确率。

结合上述实施例的介绍，下面结合图5对本申请实施例提供的问句识别方法所包括的所有内容的详细实现流程进行一个完整的介绍，图5为本申请一实施例提供的问句识别方法的流程图四。

如图5所示，训练语音内容包括训练语音内容和问句标签，对训练语音内容进行语音识别处理，得到训练语音内容对应的训练文本内容，接着对训练文本内容进行文本预处理，以及对训练语音内容进行音频预处理，得到预处理之后的训练文本内容和训练语音内容，其次在预处理之后对训练文本内容进行特征提取处理，得到训练文本特征向量，以及对训练语音内容进行特征提取处理，得到训练音频特征向量。

将训练文本特征向量和训练音频特征向量作为分类器模型的输入，分类器模型进行识别处理时候得到预测标签(即识别结果)，根据训练语音内容的问句标签和预测标签进行比较可以确定预测结果的准确性，分类器模型根据准确性的反馈可以再次进行学习，从而实现对分类器模型的训练。

在得到训练完成的分类器模型之后，对输入语音内容进行问句识别处理，其中输入语音内容是不带有问句标签的，及预先不知道输入语音内容是否为问句，需要采用本申请提供的问句识别方法进行识别。

具体的，对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容，接着进行预处理，其次对预处理完成的输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量。

其次，根据训练完成的分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，因为分类器模型经过了预先的训练，因此可以保证其识别结果的准确性。

图6为本申请一实施例提供的问句识别装置的结构示意图一。如图6所示，该装置60包括：识别模块601、处理模块602以及输出模块603。

识别模块601，用于对输入语音内容进行语音识别处理，得到输入语音内容对应的输入文本内容；

处理模块602，用于对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量，其中，输入文本特征向量包括至少一个文本特征，输入音频特征向量包括至少一个音频特征；

输出模块603，用于根据分类器模型对输入文本特征向量和输入音频特征向量进行识别处理，得到输入语音内容是否为问句的识别结果，其中，分类器模型用于识别输入语音内容是否为问句。

在一种可能的设计中，输出模块603具体用于：

对输入文本特征向量和输入音频特征向量进行向量拼接处理，得到包括各文本特征和各音频特征的融合向量；

获取各文本特征以及各音频特征的权重信息，其中，权重信息用于指示各文本特征和各音频特征的权重；

根据融合向量和各权重信息，得到输入语音内容是否为问句的识别结果。

在一种可能的设计中，输出模块603具体用于：

对融合向量进行归一化处理，得到归一化处理后的各文本特征和各音频特征；

根据归一化处理后的各文本特征和各音频特征，得到各文本特征和各音频特征对应的指标信息，其中，指标信息用于指示输入语音内容是否为问句；

根据各指标信息和各指标信息对应的权重信息，确定输入语音内容是否为问句的识别结果。

在一种可能的设计中，处理模块602还用于：

对输入文本内容和输入语音内容分别进行特征提取处理，分别得到输入文本特征向量和输入音频特征向量之前，对输入文本内容进行文本预处理，其中，文本预处理包括如下中的至少一种：分词处理、去停用词处理、同义词替换处理；

对输入语音内容进行音频预处理，其中，音频预处理包括如下中的至少一种：预加重处理、分帧处理、加窗处理。

在一种可能的设计中，处理模块602还用于：

对输入文本内容进行特征提取处理，得到输入文本特征向量，以及对输入语音内容进行特征提取处理，得到输入音频特征向量之后，获取输入语音内容的时间帧信息，其中，时间帧信息用于指示输入语音内容的时间序列；

根据时间帧信息，将输入文本特征向量和音频特征向量进行帧对齐处理。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图7为本申请一实施例提供的问句识别装置的结构示意图二。如图7所示，本实施例在图6实施例的基础上，还包括：训练模块704。

在一种可能的设计中，训练模块704具体用于，在对输入语音内容进行语音识别处理，得到语音内容对应的文本内容之前，对训练语音内容进行语音识别处理，得到训练语音内容对应的训练文本内容；

对训练文本内容进行特征提取处理，得到训练文本特征向量，以及对训练语音内容进行特征提取处理，得到训练音频特征向量；

根据训练语音内容以及训练语音内容的问句标签，对分类器模型进行模型训练处理，得到训练后的分类器模型，其中，问句标签用于指示训练语音内容是否为问句。

在一种可能的设计中，音频特征包括如下中的至少一种：发音速率、短时能量、短时过零率、基频范围、基频变化特征、基频均值特征。

在一种可能的设计中，文本特征包括如下中的至少一种：词袋特征、语气词特征、语气词位置特征、问句指示词特征。

在一种可能的设计中，分类器模型可以为如下中的至少一种：支持向量机模型、随机森林模型、神经网络模型。

图8为本申请一实施例提供的问句识别设备的硬件结构示意图，如图8所示，本实施例的问句识别设备80包括：处理器801以及存储器802；其中

存储器802，用于存储计算机执行指令；

处理器801，用于执行存储器存储的计算机执行指令，以实现上述实施例中问句识别方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。

当存储器802独立设置时，该问句识别设备还包括总线803，用于连接所述存储器802和处理器801。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上问句识别设备所执行的问句识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种问句识别方法，其特征在于，包括：

对输入语音内容进行语音识别处理，得到所述输入语音内容对应的输入文本内容；

对所述输入文本内容进行特征提取处理，得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量，其中，所述输入文本特征向量包括至少一个文本特征，所述输入音频特征向量包括至少一个音频特征；

根据分类器模型对所述输入文本特征向量和输入音频特征向量进行识别处理，得到所述输入语音内容是否为问句的识别结果，其中，所述分类器模型用于识别所述输入语音内容是否为问句。

2.根据权利要求1所述的方法，其特征在于，所述根据分类器模型对所述输入文本特征向量和输入音频特征向量进行处理，得到所述输入语音内容是否为问句的识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述融合向量和各所述权重信息，得到所述语音内容的识别结果，包括；

4.根据权利要求1所述的方法，其特征在于，所述对所述输入文本内容和所述输入语音内容分别进行特征提取处理，分别得到输入文本特征向量和输入音频特征向量之前，还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述输入文本内容进行特征提取处理，得到输入文本特征向量，以及对所述输入语音内容进行特征提取处理，得到输入音频特征向量之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述对输入语音内容进行语音识别处理，得到所述语音内容对应的文本内容之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述音频特征包括如下中的至少一种：发音速率、短时能量、短时过零率、基频范围、基频变化特征、基频均值特征。

8.根据权利要求1所述的方法，其特征在于，所述文本特征包括如下中的至少一种：词袋特征、语气词特征、语气词位置特征、问句指示词特征。

9.根据权利要求1所述的方法，其特征在于，所述分类器模型可以为如下中的至少一种：支持向量机模型、随机森林模型、神经网络模型。

10.一种问句识别装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述输出模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述输出模块具体用于：

13.根据权利要求10所述的装置，其特征在于，所述处理模块还用于：

14.根据权利要求10-13任一项所述的装置，其特征在于，所述处理模块还用于：

15.根据权利要求10所述的装置，其特征在于，还包括：训练模块；

16.根据权利要求10所述的装置，其特征在于，所述音频特征包括如下中的至少一种：发音速率、短时能量、短时过零率、基频范围、基频变化特征、基频均值特征。

17.根据权利要求10所述的装置，其特征在于，所述文本特征包括如下中的至少一种：词袋特征、语气词特征、语气词位置特征、问句指示词特征。

18.根据权利要求10所述的装置，其特征在于，所述分类器模型可以为如下中的至少一种：支持向量机模型、随机森林模型、神经网络模型。

19.一种问句识别设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1至9中任一所述的方法。

20.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一所述的方法。