CN105529030B

CN105529030B - 语音识别处理方法和装置

Info

Publication number: CN105529030B
Application number: CN201511016852.0A
Authority: CN
Inventors: 吴世伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2020-03-03
Anticipated expiration: 2035-12-29
Also published as: CN105529030A

Abstract

本发明提出一种语音识别处理方法和装置。其中，该语音识别处理方法包括：接收语音信号；提取语音信号中的多个特征信息；根据语音信号中的多个特征信息计算反馈函数；以及根据反馈函数建立语音识别的决策模型。本发明实施例的语音识别处理方法，可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

Description

语音识别处理方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别处理方法和装置。

背景技术

在人机语音交互中，语音识别系统需要处理多种多样的语音请求，而语音识别系统的目标就是反馈给用户最合理舒适的反馈结果。然而由于语音信号和外界环境的多样性，语音识别系统的反馈方式也需要因时而定。

目前，语音识别系统在接收到用户的语音请求后，通常会对该语音请求进行相应的语音和语义的识别，当识别用户意图后，根据语音请求进行相应的操作。然而，目前存在的问题是，如果语音识别系统并没有根据用户的语音请求识别出用户意图，需要用户进行操作后重新输入语音请求，导致用户使用语音识别系统时操作繁琐，语音识别的准确率低，语音交互过程不够平滑，用户的使用体验并不好。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别处理方法，该语音识别处理方法可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

本发明的第二个目的在于提出一种语音识别处理装置。

为达上述目的，本发明第一方面实施例提出了一种语音识别处理方法，包括以下步骤：接收语音信号；提取所述语音信号中的多个特征信息；根据所述语音信号中的多个特征信息计算反馈函数；以及根据所述反馈函数建立语音识别的决策模型。

本发明实施例的语音识别处理方法，针对接收到的语音信号，提取语音信号的识别结果、语音分析结果、对话状态等信息构造拒识规则，使用数据驱动的方法进行决策模型的训练，使得语音识别系统在进行语音识别时，可以根据决策模型处理后的反馈期望进行相应的反馈交互，对于经过决策模型处理后认定的有效输入，均给予明确的反馈，而不是理解为噪音，从而可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

为达上述目的，本发明第二方面实施例提出了一种语音识别处理装置，包括：接收模块，用于接收语音信号；提取模块，用于提取所述语音信号中的多个特征信息；计算模块，用于根据所述语音信号中的多个特征信息计算反馈函数；以及建立模块，用于根据所述反馈函数建立语音识别的决策模型。

本发明实施例的语音识别处理装置，针对接收到的语音信号，提取语音信号的识别结果、语音分析结果、对话状态等信息构造拒识规则，使用数据驱动的方法进行决策模型的训练，使得语音识别系统在进行语音识别时，可以根据决策模型处理后的反馈期望进行相应的反馈交互，对于经过决策模型处理后认定的有效输入，均给予明确的反馈，而不是理解为噪音，从而可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的语音识别处理方法的流程图；

图2是本发明另一个实施例的语音识别处理方法的流程图；

图3是本发明一个实施例的语音识别处理装置的结构示意图；以及

图4是本发明另一个实施例的语音识别处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的语音识别处理方法和装置。

图1是本发明一个实施例的语音识别处理方法的流程图。

如图1所示，语音识别处理方法包括：

S101，接收语音信号。

具体地，接收用户输入的语音信号，其中，用户可以通过麦克风等设备发送语音信号。

S102，提取语音信号中的多个特征信息。

其中，多个特征信息包括拒识标识、语义解析结果、语义解析置信度和语言模型置信度。

具体地，先将用户输入的语音信号分割成多个短语音，并去除这些短语音中的静音，再将多个短语音分别输入至语音识别引擎。语音识别引擎根据语音交互对话的上下文动态选择语言模型对短语音进行处理，得到对应的识别结果或者拒识标识，进而，识别结果会输入至语义分析器进行上下文相关的语义解析，获得对应的语义解析结果。同时，在对语音信号处理完成后，还获取语音解析时的语音解析置信度和语言模型置信度等特征信息。

S103，根据语音信号中的多个特征信息计算反馈函数。

在本发明的一个实施例中，根据以下公式计算反馈函数：

R＝-(w_in_i+w_en_e+w_fn_f+w_rejn_rej+w_s1n_sem+w_s2f_sem+w_lmf_lm)，其中，R表示反馈函数，n_i表示对话轮次，n_e表示错误数，n_f表示已知的槽位数量，n_rej表示拒识标识，n_sem表示语义解析结果，f_sem表示语义解析置信度，f_lm表示语言模型置信度，w表示参数。

具体地，结合所有可以利用的特征信息计算反馈函数，也就是说，在语音识别系统对用户输入的语音信号进行识别的过程中进行用户反馈标注，对于用户的交互输入进行判断，例如，交互对话完成程度，用户是否提供配合的表达信息进行标注等。

在语音识别系统对用户输入的语音信号进行识别的过程中，为了能够准确抓住用户给予的反馈信息，其中反馈信息包括积极反馈和消极反馈，因此需要设计合理的反馈函数，例如上述所示的反馈函数的计算公式。其中，n_e表示错误数，是语音识别系统中默认的。n_rej为拒识标识，n_rej可以是1或者-1，n_rej为1代表语音信号被正常识别，而n_rej为-1代表语音信号被拒识。n_sem为语义解析结果，n_sem可以是1、-1或者-2，n_sem为1代表对语音信号进行语义解析后得到符合上下文的正确解析，n_sem为-1代表对语音信号进行语义解析后得到正确解析但不符合上下文，而n_sem为-2代表对语音信号进行语义解析的解析失败。由此，根据拒识标识n_rej、语义解析结果n_sem、语义解析置信度f_sem和语言模型置信度f_lm等参数参照上述公式可以计算出反馈函数，根据反馈函数R可以判断出用户的反馈是积极反馈或者是消极反馈。

S104，根据反馈函数建立语音识别的决策模型。

在本发明的一个实施例中，根据以下公式建立语音识别的决策模型：

Q(s，a)＝R(s，a)+r∑_s′P(s′|s，a)max_d′Q(s′，a′)，

其中，Q表示反馈期望，s和s′表示系统状态节点，a和a′表示决策动作，P表示状态间决策动作上的跳转概率。

具体地，根据用户提供的反馈计算出反馈函数后，对用户的积极反馈进行加分，对用户的消极反馈进行减分，进而，使用马尔可夫决策算法，即根据上述的公式建立决策模型。针对目标函数，可以使用标准的价值迭代(value iteration)算法进行参数求解，经过训练可以得到反馈函数的参数和状态的跳转概率。

图2是本发明另一个实施例的语音识别处理方法的流程图。

如图2所示，语音识别处理方法包括：

S201，接收语音信号。

S202，提取语音信号中的多个特征信息。

S203，根据语音信号中的多个特征信息计算反馈函数。

在本发明的一个实施例中，根据以下公式计算反馈函数：

S204，根据反馈函数建立语音识别的决策模型。

Q(s，a)＝R(s，a)+r∑_s′P(s′|s，a)max_d′Q(s′，a′)，

S205，获取用户输入的语音交互信息，并根据决策模型对用户输入的语音交互信息进行处理，并选择对应的交互策略与用户进行语音交互。

其中，交互策略可以包括例如引导策略、忽略策略和澄清策略等，当语音识别系统识别用户的语音交互信息为噪音时，可以主动引导用户主动引导用户清晰表达，而当识别用户的语音交互信息有歧义或者是理解模糊时，应当进行确认。也就是说，用户和语音识别系统交互的每次对话可能有噪音、不清晰的回答、模糊的语义或者是完整的响应，而语音识别系统会选择引导、忽略、澄清等几种策略。

例如，语音交互引擎输出语音“你要在哪个城市定酒店”，用户输入语音“恩恩，啊啊…”，语音交互引擎基于决策模型对用户输入的语音识别后认定是噪音，因此选择对用户进行引导的策略，输出语音“请说出你想入住的城市名称”。此时，用户输入语音“北京天气怎么样”，语音交互引擎基于决策模型对用户输入的语音识别后认定不是噪音数据，是城市名称但是有歧义，因此选择对用户意图进行确认的策略，输出语音“请问你想在北京订酒店么？”。此时，用户输入语音“是的”，语音交互引擎基于决策模型对用户输入的语音识别后认定为是肯定的识别结果，因此继续输出语音“你想在北京的什么地方订酒店”，从而根据用户意图继续引导用户和语音识别系统进行交互。

本发明实施例的语音识别处理方法，基于决策模型对用户输入的语音信息进行处理，对识别为有效输入的语音信息均给予明确的反馈，而不是理解为噪音，从而使得语音交互系统可以反馈给用户最合理舒适的反馈交互，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

为了实现上述实施例，本发明还提出一种语音识别处理装置。

图3是本发明一个实施例的语音识别处理装置的结构示意图。

如图3所示，语音识别处理装置包括：接收模块10、提取模块20、计算模块30和建立模块40。

其中，接收模块10用于接收语音信号。具体地，接收模块10接收用户输入的语音信号，其中，用户可以通过麦克风等设备发送语音信号。

提取模块20用于提取语音信号中的多个特征信息。其中，多个特征信息包括拒识标识、语义解析结果、语义解析置信度和语言模型置信度。具体地，先将用户输入的语音信号分割成多个短语音，并去除这些短语音中的静音，再将多个短语音分别输入至提取模块20。提取模块20根据语音交互对话的上下文动态选择语言模型对短语音进行处理，得到对应的识别结果或者拒识标识，进而，识别结果会输入至语义分析器进行上下文相关的语义解析，获得对应的语义解析结果。同时，在对语音信号处理完成后，提取模块20还获取语音解析时的语音解析置信度和语言模型置信度等特征信息。

计算模块30用于根据语音信号中的多个特征信息计算反馈函数。

在本发明的一个实施例中，根据以下公式计算反馈函数：

R＝-(w_in_i+w_en_e+w_fn_f+w_rejn_rej+w_s1n_sem+w_s2f_sem+w_lmf_lm)，其中，R表示反馈函数，n_i表示对话轮次，n_e表示错误数，n_f表示已知的槽位数量，n_rej表示拒识标识，n_sem表示语义解析结果，f_sem表示语义解析置信度，f_lm表示语言模型置信度，w表示参数。具体地，计算模块30结合所有可以利用的特征信息计算反馈函数，也就是说，在语音识别系统对用户输入的语音信号进行识别的过程中计算模块30进行用户反馈标注，对于用户的交互输入进行判断，例如，交互对话完成程度，用户是否提供配合的表达信息进行标注等。

在语音识别系统对用户输入的语音信号进行识别的过程中，为了能够准确抓住用户给予的反馈信息，其中反馈信息包括积极反馈和消极反馈，因此需要设计合理的反馈函数，例如上述所示的反馈函数的计算公式。其中，n_e表示错误数，是语音识别系统中默认的。n_rej为拒识标识，n_rej可以是1或者-1，n_rej为1代表语音信号被正常识别，而n_rej为-1代表语音信号被拒识。n_sem为语义解析结果，n_sem可以是1、-1或者-2，n_sem为1代表对语音信号进行语义解析后得到符合上下文的正确解析，n_sem为-1代表对语音信号进行语义解析后得到正确解析但不符合上下文，而n_sem为-2代表对语音信号进行语义解析的解析失败。由此，计算模块30根据拒识标识n_rej、语义解析结果n_sem、语义解析置信度f_sem和语言模型置信度f_lm等参数参照上述公式可以计算出反馈函数，根据反馈函数R可以判断出用户的反馈是积极反馈或者是消极反馈。

建立模块40用于根据反馈函数建立语音识别的决策模型。

Q(s，a)＝R(s，a)+r∑_s′P(s′|s，a)max_d′Q(s′，a′)，

具体地，计算模块30根据用户提供的反馈计算出反馈函数后，建立模块40对用户的积极反馈进行加分，对用户的消极反馈进行减分，进而，建立模块40使用马尔可夫决策算法，即根据上述的公式建立决策模型。针对目标函数，可以使用标准的价值迭代(valueiteration)算法进行参数求解，经过训练可以得到反馈函数的参数和状态的跳转概率。

如图4所示，语音识别处理装置包括：接收模块10、提取模块20、计算模块30、建立模块40、获取模块50和处理模块60。

其中，获取模块50用于获取用户输入的语音交互信息。处理模块60用于根据决策模型对用户输入的语音交互信息进行处理，并选择对应的交互策略与用户进行语音交互。其中，交互策略可以包括例如引导策略、忽略策略和澄清策略等，当语音识别系统识别用户的语音交互信息为噪音时，可以主动引导用户主动引导用户清晰表达，而当识别用户的语音交互信息有歧义或者是理解模糊时，应当进行确认。也就是说，用户和语音识别系统交互的每次对话可能有噪音、不清晰的回答、模糊的语义或者是完整的响应，而语音识别系统会选择引导、忽略、澄清等几种策略。

本发明实施例的语音识别处理装置，基于决策模型对用户输入的语音信息进行处理，对识别为有效输入的语音信息均给予明确的反馈，而不是理解为噪音，从而使得语音交互系统可以反馈给用户最合理舒适的反馈交互，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别处理方法，其特征在于，包括以下步骤：

接收语音信号；

提取所述语音信号中的多个特征信息，所述多个特征信息包括拒识标识、语义解析结果、语义解析置信度和语言模型置信度；

根据所述语音信号中的多个特征信息计算反馈函数，所述反馈函数用于在对用户输入的语音信号进行识别的过程中进行用户反馈标注，用户的反馈信息包括积极反馈或消极反馈；以及

根据所述反馈函数建立语音识别的决策模型，其中，根据所述反馈函数对用户的所述积极反馈进行加分，对用户的所述消极反馈进行减分，并使用马尔科夫决策算法建立所述决策模型，所述决策模型包括所述反馈函数的参数和状态的跳转概率。

2.如权利要求1所述的语音识别处理方法，其特征在于，在根据所述反馈函数建立语音识别的决策模型之后，还包括：

获取用户输入的语音交互信息，并根据所述决策模型对所述用户输入的语音交互信息进行处理，并选择对应的交互策略与所述用户进行语音交互。

3.一种语音识别处理装置，其特征在于，包括：

接收模块，用于接收语音信号；

提取模块，用于提取所述语音信号中的多个特征信息，所述多个特征信息包括拒识标识、语义解析结果、语义解析置信度和语言模型置信度；

计算模块，用于根据所述语音信号中的多个特征信息计算反馈函数，所述反馈函数用于在对用户输入的语音信号进行识别的过程中进行用户反馈标注，用户的反馈信息包括积极反馈或消极反馈；以及

建立模块，用于根据所述反馈函数建立语音识别的决策模型，其中，根据所述反馈函数对用户的所述积极反馈进行加分，对用户的所述消极反馈进行减分，并使用马尔科夫决策算法建立所述决策模型，所述决策模型包括所述反馈函数的参数和状态的跳转概率。

4.如权利要求3所述的语音识别处理装置，其特征在于，还包括：

获取模块，用于获取用户输入的语音交互信息；

处理模块，用于根据所述决策模型对所述用户输入的语音交互信息进行处理，并选择对应的交互策略与所述用户进行语音交互。