CN105529028B

CN105529028B - 语音解析方法和装置

Info

Publication number: CN105529028B
Application number: CN201510903049.2A
Authority: CN
Inventors: 贺利强; 潘复平; 钱胜; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2019-07-30
Anticipated expiration: 2035-12-09
Also published as: CN105529028A

Abstract

本发明提出一种语音解析方法和装置，其中，方法包括：S1、接收输入的待检测语音信号；S2、分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果；S3、根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点；S4、计算待检测语音信号的置信度信息；S5、解析待检测语音信号的语义信息；以及S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。本发明实施例的语音解析方法和装置，能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

Description

语音解析方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音解析方法和装置。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否，会直接影响到语音识别系统的性能。如果端点切分出现错误，则会导致漏识别或者误识别等情况的发生，进而可导致语音识别结果不准确。

目前，传统的语音端点检测方法主要是获取时域或频域能量，并与给定的阈值进行比较，从而判断出语音的起始点和终止点。端点检测的一般过程为：1、分帧提取语音特征，计算时域或频域能量；2、将能量值与阈值比较，判断语音起始点；3、若找到语音起始点，则继续向后取能量值与阈值比较，判断语音是否结束；4、若找到语音结束点，则终止查找，返回结果。

然而，在实现本发明的过程中发明人发现上述方法至少存在以下问题：当对一段语音进行语音端点检测时，在非平稳噪声、较低信噪比环境下，所检测的语音端点的准确率较低，影响语音识别系统的性能，可能会被误判为噪声，导致用户使用体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种语音解析方法，该方法能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

本发明的第二个目的在于提出一种语音解析装置。

为实现上述目的，本发明第一方面实施例的语音解析方法，包括：S1、接收输入的待检测语音信号；S2、分帧提取所述待检测语音信号的语音特征信息，根据所述语音特征信息和声学模型生成所述待检测语音信号的识别结果；S3、根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点；S4、计算所述待检测语音信号的置信度信息；S5、解析所述待检测语音信号的语义信息；以及S6、根据所述置信度信息和所述语义信息获取所述待检测语音信号对应的语音解析结果。

本发明实施例的语音解析方法，通过分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果，再根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点，然后基于置信度信息和语义信息获取待检测语音信号对应的语音解析结果，在复杂的环境噪声场景，能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

为实现上述目的，本发明第二方面实施例的语音解析装置，包括：接收模块，用于接收输入的待检测语音信号；识别模块，用于分帧提取所述待检测语音信号的语音特征信息，根据所述语音特征信息和声学模型生成所述待检测语音信号的识别结果；检测模块，用于根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点；计算模块，用于计算所述待检测语音信号的置信度信息；解析模块，用于解析所述待检测语音信号的语义信息；以及获取模块，用于根据所述置信度信息和所述语义信息获取所述待检测语音信号对应的语音解析结果。

本发明实施例的语音解析装置，通过分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果，再根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点，然后基于置信度信息和语义信息获取待检测语音信号对应的语音解析结果，在复杂的环境噪声场景，能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

附图说明

图1是根据本发明一个实施例的语音解析方法的流程图；

图2是根据本发明一个实施例的检测语音起始点和语音结束点的流程图；

图3是根据本发明一个实施例的语音解析装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音解析方法和装置。

图1是根据本发明一个实施例的语音解析方法的流程图。

如图1所示，该语音解析方法包括：

S1，接收输入的待检测语音信号。

具体地，可接收用户通过麦克风等输入装置输入的待检测语音信号，如“帮忙查询一下北京天气。”。

S2，分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果。

具体地，在接收到待检测语音信号后，可对待检测语音信号进行分帧处理，并提取每帧待检测语音信号的语音特征信息。其中，语音特征信息可包括梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，简称MFCC)，以及MFCC的一阶差分和二阶差分等信息。例如：可将用户输入的语音信号分成若干个以25毫秒为单位的语音帧。

在生成语音特征信息之后，可基于声学模型计算每帧待检测语音信号在每个建模单元上的似然值，然后通过动态规划算法，可以得到最优状态转移序列及其对应的词序列，并将所得到的最优状态转移序列及其对应的词序列作为识别结果。

其中，建模单元为经音素决策树聚类后的三音子状态。基于声学模型，可以获得待检测语音信号在每个建模单元上的状态输出概率，状态输出概率和状态转移概率用于计算路径扩展时每条路径的累积似然值。其中，状态转移概率是声学模型中预先训练好的，状态转移概率是进行路径扩展时状态与状态之间进行跳转的概率值。

为了提高声学识别的准确性和效率，可使用基于神经网络(DNN，Deep NeuralNetworks)的声学模型对语音特征信息进行识别。其中，DNN声学模型可通过对大量语音数据进行训练获得。

S3，根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点。

其中，上述静音检测算法可以包括但不限于基于识别结果最优词序列的静音检测算法。

S4，计算待检测语音信号的置信度信息。

具体地，可根据识别结果、待检测语音信号的语音端点和待检测语音信号的信噪比计算待检测语音信号的置信度信息。

进一步而言，可基于识别结果，计算语音端点之间的每个词的声学后验概率。

其中，计算语音端点之间的第k个词的声学后验概率的公式：

其中P_k(X)为待检测语音信号中第k个词的声学后验概率，p_t(m_k|x)为第t帧时该词对应建模单元的似然值，为第t帧时所有建模单元的似然值和，T_k(X)为该词的持续时长。

在计算出声学后验概率后，可根据语音端点之间的每个词的声学后验概率和信噪比计算每个词对应的置信度信息。

具体地，针对语音端点之间的每个词，可基于当前词的短时能量值E_k(X)和输入语音的噪声能量评估值N(X)，计算当前词的信噪比SNR_k(X)＝E_k(X)/N(X)。

在计算出当前词的信噪比后，可基于当前词的声学后验概率和信噪比，计算出当前词的置信度CM_k(X)＝w*P_k(X)+(1-w)*SNR_k(X)，其中0≤w≤1，w为权重系数，w的取值由声学后验概率和信噪比决定。

然后，可根据以下公式计算语音信号对应的置信度：

其中，t_n(x)表示第n个词的持续时间长，CM_n(x)表示第n个词的置信度。

最后，再对每个词对应的置信度信息进行求和计算，并获取待检测语音信号的置信度信息。

S5、解析待检测语音信号的语义信息。

S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。

具体地，可结合置信度信息和语义信息，综合判断待检测语音信号是否被解析成功。举例来说，在人机交互的过程中，假设输入的当前语音的置信度为90分，超过了预设的置信度阈值80分，则可确定当前语音为有效语音输入；而同时可对当前语音进行语义解析，再结合上下文的语境，确定当前语音与上下文无关。虽然当前语音为有效输入，并非噪音，但是解析出的语义与上下文无关，则可向用户反馈如“请确认当前语音是否正确”等提示信息。

再例如：当前语音的置信度为40分，低于预设的置信度阈值80分，则可确定当前语音为无效语音输入，可能是噪音；而同时对当前语音进行语义解析，再结合上下文的语境，确定当前语音与上下文有关，则可向用户反馈如“声音太小，请重新输入”等提示信息。

当然，如果当前语音的置信度大于预设的置信度阈值，且经过语义解析后，确定与上下文相关，则可确定当前语音解析正确，并可向用户反馈相应的语句与用户进行交互。举例来说，用户输入“请帮忙推荐一本历史小说”，其置信度为90分，大于预设阈值80分，说明其为有效输入，并且用户之前输入的上文信息为“我想买一本书”，结合语义解析，可确定当前语音输入与上文信息相关，则能够准确定位用户的意图，向用户反馈符合其需求的信息，从而更加流畅地实现人机交互。

通过置信度信息和语义信息两个维度对待检测语音信号进行判定，可有效地判定待检测语音信号是否被解析正确，提高人机交互时回复语句的准确性，提升用户使用体验。

下面详细说明一下，根据识别结果和基于识别结果最优词序列的静音检测算法初步检测出待检测语音信号的语音起始点和语音结束点的具体过程。如图2所示，可包括以下步骤：

S31，根据识别结果确定当前时刻待检测语音信号的最优词序列，并检测最优词序列的尾部输出词是否为静音。

具体地，在获得待检测语音信号的识别结果后，可根据输出词序列累积的似然值大小，获得当前时刻待检测语音信号的最优词序列。例如，当前待检测语音为“我们”，在待检测语音前后均有静音，当前待检测语音对应的输出词序列的形式为：静音->语音->语音->静音。

其中，需要说明的是，随着输入语音的增加，最优词序列随着累积似然值变化而不断变化。

S32，若尾部输出词为静音，则记录在静音之前，且距离静音最近的输出词的结束时间点。

S33，进一步检测结束时间点在后续N帧待检测语音输入后是否发生变化，若结束时间点保持不变，则进入语音尾部静音检测的中间状态。

其中，N为正整数。

具体地，在检测到结束时间点保持N帧语音数据输入没有发生变化，则可进入语音尾部静音检测的中间状态。

S34，检测当前状态是否处于中间状态，若处于中间状态，则计算结束时间点之后静音的长度，并进一步判断静音的长度是否大于预设阈值，若大于，则静音检测成功，并根据最优词序列确定待检测语音信号的语音起始点，并将结束时间点作为待检测语音信号的语音结束点。

其中，预设阈值可设置为500ms，即在判断出尾部静音的长度大于500ms后，可确定静音检测成功，此时，可根据最优词序列确定待检测语音信号中的语音起始点，以及将结束时间点作为待检测语音信号的语音结束点。

S35，若结束时间点在静音检测成功之前发生变化，则重复执行步骤S31至S34。

其中，需要说明的是，最优词序列中会有对应每个词持续时长的信息，每个词与多帧语音信号对应，每个词对应的时长等于多帧待检测语音信号的时长之和。

为了实现上述实施例，本发明还提出一种语音解析装置。

图3是根据本发明一个实施例的语音解析装置的结构示意图。

如图3所示，该语音解析装置包括接收模块110、识别模块120、检测模块130、计算模块140、解析模块150和获取模块160，其中：

接收模块110可用于接收输入的待检测语音信号。具体地，可接收用户通过麦克风等输入装置输入的待检测语音信号，如“帮忙查询一下北京天气。”。

识别模块120可用于分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果。具体地，在接收到待检测语音信号后，可对待检测语音信号进行分帧处理，并提取每帧待检测语音信号的语音特征信息。其中，语音特征信息可包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)，以及MFCC的一阶差分和二阶差分等信息。例如：可将用户输入的语音信号分成若干个以25毫秒为单位的语音帧。

检测模块130可用于根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点。其中，上述静音检测算法可以包括但不限于基于识别结果最优词序列的静音检测算法。

其中，检测模块可包括确定单元131、记录单元132、第一检测单元133和第二检测单元134。

确定单元131可根据识别结果确定当前时刻待检测语音信号的最优词序列，并检测最优词序列的尾部输出词是否为静音。具体地，在获得待检测语音信号的识别结果后，可根据输出词序列累积的似然值大小，获得当前时刻待检测语音信号的最优词序列。例如，当前待检测语音为“我们”，在待检测语音前后均有静音，当前待检测语音对应的输出词序列的形式为：静音->语音->语音->静音。其中，需要说明的是，随着输入语音的增加，最优词序列随着累积似然值变化而不断变化。

记录单元132用于在当尾部输出词为静音时，记录在静音之前，且距离静音最近的输出词的结束时间点。

第一检测单元133用于进一步检测结束时间点在后续N帧待检测语音信号输入后是否发生变化。如果结束时间点保持不变，则可进入语音尾部静音检测的中间状态。其中，N是为预设正整数。

第二检测单元134用于检测当前状态是否处于中间状态。如果处于中间状态，则可计算结束时间点之后静音的长度，并进一步判断静音的长度是否大于预设阈值。若大于预设阈值，则静音检测成功。然后可根据最优词序列确定待检测语音信号的语音起始点，并将结束时间点作为待检测语音信号的语音结束点。其中，预设阈值可设置为500ms，即在判断出尾部静音的长度大于500ms后，可确定静音检测成功，此时，可根据最优词序列确定待检测语音信号中的语音起始点，以及将结束时间点作为待检测语音信号的语音结束点。

计算模块140用于计算待检测语音信号的置信度信息。具体地，可根据识别结果、待检测语音信号的语音端点和待检测语音信号的信噪比计算待检测语音信号的置信度信息。

其中，计算语音端点之间的第k个词的声学后验概率的公式：

然后，可根据以下公式计算语音信号对应的置信度：

解析模块150用于解析待检测语音信号的语义信息。

获取模块160用于根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。具体地，可结合置信度信息和语义信息，综合判断待检测语音信号是否被解析成功。举例来说，在人机交互的过程中，假设输入的当前语音的置信度为90分，超过了预设的置信度阈值80分，则可确定当前语音为有效语音输入；而同时可对当前语音进行语义解析，再结合上下文的语境，确定当前语音与上下文无关。虽然当前语音为有效输入，并非噪音，但是解析出的语义与上下文无关，则可向用户反馈如“请确认当前语音是否正确”等提示信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，″计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音解析方法，其特征在于，包括以下步骤：

S1、接收输入的待检测语音信号；

S2、分帧提取所述待检测语音信号的语音特征信息，根据所述语音特征信息和声学模型生成所述待检测语音信号的识别结果；

S3、根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点；

S4、计算所述待检测语音信号的置信度信息；

S5、解析所述待检测语音信号的语义信息；以及

S6、根据所述置信度信息和所述语义信息获取所述待检测语音信号对应的语音解析结果；

所述计算所述待检测语音信号的置信度信息，具体包括：

根据所述识别结果、所述待检测语音信号的语音端点和所述待检测语音信号的信噪比计算所述待检测语音信号的置信度信息；

所述根据所述识别结果、所述待检测语音信号的语音端点和所述待检测语音信号的信噪比计算所述待检测语音信号的置信度信息，具体包括：

基于所述识别结果，计算所述语音端点之间的每个词的声学后验概率；

根据所述语音端点之间的每个词的声学后验概率和信噪比计算每个词对应的置信度信息；

对所述每个词对应的置信度信息进行求和计算，并获取所述待检测语音信号的置信度信息。

2.如权利要求1所述的方法，其特征在于，所述预设静音检测算法包括基于识别结果最优词序列的静音检测算法。

3.如权利要求2所述的方法，其特征在于，所述根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点，具体包括：

S31、根据所述识别结果确定当前时刻所述待检测语音信号的最优词序列，并检测所述最优词序列的尾部输出词是否为静音；

S32、若所述尾部输出词为静音，则记录在所述静音之前，且距离所述静音最近的输出词的结束时间点；

S33、进一步检测所述结束时间点在后续N帧待检测语音信号输入后是否发生变化，若所述结束时间点保持不变，则进入语音尾部静音检测的中间状态，其中，N为正整数；

S34、检测当前状态是否处于所述中间状态，若处于所述中间状态，则计算所述结束时间点之后静音的长度，并进一步判断静音的长度是否大于预设阈值，若大于，则静音检测成功，并根据所述最优词序列确定所述待检测语音信号的语音起始点，并将所述结束时间点作为所述待检测语音信号的语音结束点；

S35，若所述结束时间点在静音检测成功之前发生变化，则重复执行所述步骤S31至S34。

4.一种语音解析装置，其特征在于，包括：

接收模块，用于接收输入的待检测语音信号；

识别模块，用于分帧提取所述待检测语音信号的语音特征信息，根据所述语音特征信息和声学模型生成所述待检测语音信号的识别结果；

检测模块，用于根据所述识别结果和预设静音检测算法初步检测出所述待检测语音信号的语音端点；

计算模块，用于计算所述待检测语音信号的置信度信息；

解析模块，用于解析所述待检测语音信号的语义信息；以及

获取模块，用于根据所述置信度信息和所述语义信息获取所述待检测语音信号对应的语音解析结果；

所述计算模块，用于：

所述计算模块，还用于：

5.如权利要求4所述的装置，其特征在于，所述预设静音检测算法包括基于识别结果最优词序列的静音检测算法。

6.如权利要求5所述的装置，其特征在于，所述检测模块，包括：

确定单元，用于根据所述识别结果确定当前时刻所述待检测语音信号的最优词序列，并检测所述最优词序列的尾部输出词是否为静音；

记录单元，用于当所述尾部输出词为静音时，记录在所述静音之前，且距离所述静音最近的输出词的结束时间点；

第一检测单元，用于进一步检测所述结束时间点在后续N帧待检测语音信号输入后是否发生变化，若所述结束时间点保持不变，则进入语音尾部静音检测的中间状态，其中，N是为预设正整数；

第二检测单元，用于检测当前状态是否处于所述中间状态，若处于所述中间状态，则计算所述结束时间点之后静音的长度，并进一步判断静音的长度是否大于预设阈值，若大于，则静音检测成功，并根据所述最优词序列确定所述待检测语音信号的语音起始点，并将所述结束时间点作为所述待检测语音信号的语音结束点。