CN108091324B

CN108091324B - 语气识别方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN108091324B
Application number: CN201711404907.4A
Authority: CN
Inventors: 谢波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-08-17
Anticipated expiration: 2037-12-22
Also published as: CN108091324A; US10964338B2; US20190198040A1

Abstract

本发明公开了一种语气识别方法、装置、电子设备和计算机可读存储介质。其中方法包括：获取样本文本；获取针对样本文本的多个录音数据，其中，多个录音数据是通过使用多种类别语气朗读样本文本而得到的语音；提取多个录音数据中的语气特征，并确定语气特征对应的语气类别；根据样本文本、多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。该方法可以使得每个样本文本被标注各种类别语气特征和对应的语气类别，以便在线上应用中，在对用户输入的语音数据进行语音识别的同时，还可以通过预先建立的语气识别模型对该语音数据进行语气识别，实现了针对语音数据中各种类别语气的识别，提高了语音识别效果。

Description

语气识别方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语气识别方法、装置、电子设备和计算机可读存储介质。

背景技术

目前有的语音文本相同，但由于用户讲该语音文本时使用了不同的语气，则导致用户的意图大大不同，例如，以文本“真的”为例，用户可以使用肯定语气讲该文本，还可以使用反问语气讲该文本，由于用户使用了两个不同的语气，所以用户的意图也会不同。然而，传统的语音识别技术，仅能对用户的语音内容进行识别，而还不能识别出用户语音的疑问语气，使得语音识别效果差，从而导致人机语音之间的对话效果差。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种语气识别方法。该方法可以使得每个样本文本被标注各种类别语气特征和对应的语气类别，以便在线上应用中，在对用户输入的语音数据进行语音识别的同时，还可以通过预先建立的语气识别模型对该语音数据进行语气识别，实现了针对语音数据中各种类别语气的识别，提高了语音识别效果。

本发明的第二个目的在于提出一种语气识别装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出的语气识别方法，包括：获取样本文本；获取针对所述样本文本的多个录音数据，其中，所述多个录音数据是通过使用多种类别语气朗读所述样本文本而得到的语音；提取所述多个录音数据中的语气特征，并确定所述语气特征对应的语气类别；根据所述样本文本、所述多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。

本发明实施例的语气识别方法，可通过使用多种类别语气朗读样本文本以得到多个录音数据，并提取该录音数据中的语气特征，并确定该语气特征对应的语气类别，最后根据该样本文本、录音数据中的语气特征和对应的语气类别，建立语气识别模型，使得每个样本文本被标注了各种类别语气特征和对应的语气类别，以便在线上应用中，在对用户输入的语音数据进行语音识别的同时，还可以通过预先建立的语气识别模型对该语音数据进行语气识别，实现了针对语音数据中各种类别语气的识别，提高了语音识别效果，从而可以提高人机语音之间的对话效果，提升了用户体验。

为达到上述目的，本发明第二方面实施例提出的语气识别装置，包括：第一获取模块，用于获取样本文本；第二获取模块，用于获取针对所述样本文本的多个录音数据，其中，所述多个录音数据是通过使用多种类别语气朗读所述样本文本而得到的语音；特征提取模块，用于提取所述多个录音数据中的语气特征；确定模块，用于确定所述语气特征对应的语气类别；模型建立模块，用于根据所述样本文本、所述多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。

本发明实施例的语气识别装置，可通过使用多种类别语气朗读样本文本以得到多个录音数据，并提取该录音数据中的语气特征，并确定该语气特征对应的语气类别，最后根据该样本文本、录音数据中的语气特征和对应的语气类别，建立语气识别模型，使得每个样本文本被标注了各种类别语气特征和对应的语气类别，以便在线上应用中，在对用户输入的语音数据进行语音识别的同时，还可以通过预先建立的语气识别模型对该语音数据进行语气识别，实现了针对语音数据中各种类别语气的识别，提高了语音识别效果，从而可以提高人机语音之间的对话效果，提升了用户体验。

为达到上述目的，本发明第三方面实施例提出的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现本发明第一方面实施例所述的语气识别方法。

为达到上述目的，本发明第四方面实施例提出的非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明第一方面实施例所述的语气识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的语气识别方法的流程图；

图2是根据本发明一个具体实施例的语气识别方法的流程图；

图3是根据本发明实施例的语气识别方法的流程示例图；

图4是根据本发明一个实施例的语气识别装置的结构示意图；

图5是根据本发明一个具体实施例的语气识别装置的结构示意图；

图6是根据本发明另一个具体实施例的语气识别装置的结构示意图；

图7是根据本发明又一个具体实施例的语气识别装置的结构示意图；

图8是根据本发明一个实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语气识别方法、装置、电子设备和计算机可读存储介质。

图1是根据本发明一个实施例的语气识别方法的流程图。需要说明的是，本发明实施例的语气识别方法可应用于本发明实施例的语气识别装置，该语气识别装置可被配置于电子设备。其中，该电子设备可以是具有语音识别系统的设备，能够实现语音识别的功能。

如图1所示，该语气识别方法可以包括：

S110，获取样本文本。

可选地，在建立语气识别模型之前，先收集大量的样本文本。其中，在本发明的实施例中，该样本文本可理解为利用不同语气来朗读时会对应不同的含义的文本，例如，文本“真的”、“你吃饭了”、“今天天气好吗”等。

S120，获取针对样本文本的多个录音数据，其中，多个录音数据是通过使用多种类别语气朗读样本文本而得到的语音。作为一种示例，该多种类别语气可包括但不限于肯定语气、疑问语气和反问语气等。

可选地，在得到样本文本之后，针对每个样本文本，可获取样本用户通过使用各种类别语气朗读该样本文本的录音数据。例如，以样本文本“真的”为例，可获取样本用户通过使用“肯定语气”朗读该样本文本“真的”，还可获取样本用户通过使用“疑问语气”朗读该样本文本“真的”。又如，以样本文本“今天天气好吗”为例，可获取样本用户通过使用“疑问语气”朗读该样本文本，还可获取样本用户通过使用“反问语气”朗读该样本文本。在得到针对各个样本文本的朗读语音时，可将该朗读语音作为针对该样本文本的录音数据。

S130，提取多个录音数据中的语气特征，并确定语气特征对应的语气类别。

可选地，在得到针对样本文本的多个录音数据之后，可提取各个录音数据中的语气特征，并确定该语气特征所对应的语气类别。其中，在本发明的实施例中，该语气类别可包括但不限于肯定类语气、疑问类语气和反问类语气等。

需要说明的是，使用不同类别的语气朗读出来的样本文本的录音中所包含的语气会各不相同，则所对应的语义含义也会不同。表示语气的词通常是在句尾或句中停顿处表示种种语气。作为一种示例，可提取录音数据中句中停顿处、句尾处表示语气的音频，并提取该音频的特征，例如，该特征可以包含语调(如升调、降调、升降调、降升调、平调)等。

S140，根据所述样本文本、所述多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。

可选地，可通过各个录音数据中的语气特征和对应的语气类别对该样本文本进行标注，并将该标注数据作为输入对分类器进行训练，以得到所述语气识别模型。其中，在本发明的实施例中，该分类器可包括但不限于SVM(Support Vector Machine，支持向量机的特征)分类器、KNN(K-Nearest Neighbour，K-近邻)分类器、决策分类器等。

图2是根据本发明一个具体实施例的语气识别方法的流程图。图3是根据本发明实施例的语气识别方法的流程示例图。

为了进一步提高本发明的可用性以及可行性，在本发明的实施例中，可接收用户输入的语音数据，并在对该语音数据进行语音识别的同时，还可通过预先建立的语气识别模型对该语音数据进行语气识别，结合语音识别的结果和语气识别的结果给用户相应的响应，使得人机语音之间的对话更加生动。具体地，如图2和图3所示，该语气识别方法可以包括：

S210，获取样本文本。

S220，获取针对样本文本的多个录音数据，其中，多个录音数据是通过使用多种类别语气朗读样本文本而得到的语音。作为一种示例，该多种类别语气可包括但不限于肯定语气、疑问语气和反问语气等。

S230，提取多个录音数据中的语气特征，并确定语气特征对应的语气类别。

S240，根据样本文本、多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。

S250，接收用户的语音数据。

举例而言，本发明实施例的语气识别方法可适用于聊天机器人的应用场景中，为了能够实现用户与聊天机器人之间的语音聊天功能，该聊天机器人可为用户提供语音输入模块，用户可通过该语音输入模块与该聊天机器人进行语音聊天。这样，在线上实际应用中，在检测到用户与该聊天机器人进行语音聊天时，可接收到用户通过语音输入模块输入的语音数据。

S260，对所述语音数据进行语音识别以得到对应的文本信息。

可选地，在接收到用户输入的语音数据时，可通过语音识别技术第该语音数据进行语音识别，得到该语音数据对应的文本信息。

S270，通过语气识别模型对语音数据进行语气识别以获得对应的语气含义。

作为一种示例的实现方式，可通过语气识别模型对语音数据进行语气识别，以得到该语音数据对应的语气类别，并根据语气类别确定对应的语气含义。也就是说，可先对该语音数据提取语气特征，并将该语气特征和该语音数据对应的文本信息代入预先建立的语气识别模型中进行预测，得到该语音数据对应的语气类别，之后，可根据该语气类别即可确定出对应的语气含义。

S280，根据所述文本信息和对应的语气含义给用户相应的响应。

作为一种示例的实现方式，可根据所述文本信息和对应的语气含义确定用户的用户意图，并根据所述用户意图获取对应的对话内容，并将所述对应的对话内容提供给用户。也就是说，可结合语音识别的结果和语气识别的结果确定出用户的用户意图，即用户想表达的具体含义或情感，并根据该用户意图获取对应的对话内容，最后，将该对应的对话内容提供给用户。

举例而言，假设接收到用户的语音数据为“今天天气好吗”，可对该语音数据进行语音识别以得到对应的文本信息，同时通过预先建立的语气识别模型对该语音数据进行语气识别，当得到该语音数据对应的语气类别为“疑问语气”时，可根据该语气类别确定对应的语气含义为：仅是正面的想问一下今天的天气怎么样，是不是天气好，之后，可根据该文本信息和对应的语气含义可以给出用户相应的对话内容，例如，给出用户“今天天气很好，今天的天气情况如下”的对话内容。又如，当得到该语音数据对应的语气类别为“反问语气”时，可根据该语气类别确定对应的语气含义为：对之前给出的天气情况对话内容产生怀疑，以便进一步确定，然后，可根据该文本信息和对应的语气含义可以给出用户相应的对话内容，比如，给出用户如下对话内容：今天天气真的很好，温度在22℃，风力1～2级，很适合出门的。由此，通过识别出用户疑问的语气，并针对不同的疑问语气进行不同的响应，使得对话更加生动。

本发明实施例的语气识别方法，可接收用户输入的语音数据，并在对该语音数据进行语音识别的同时，还可通过预先建立的语气识别模型对该语音数据进行语气识别，结合语音识别的结果和语气识别的结果给用户相应的响应，使得人机语音之间的对话更加生动，并提高了语音识别效果，提高了本发明的可用性以及可行性。

与上述几种实施例提供的语气识别方法相对应，本发明的一种实施例还提供一种语气识别装置，由于本发明实施例提供的语气识别装置与上述几种实施例提供的语气识别方法相对应，因此在前述语气识别方法的实施方式也适用于本实施例提供的语气识别装置，在本实施例中不再详细描述。图4是根据本发明一个实施例的语气识别装置的结构示意图。如图4所示，该语气识别装置400可以包括：第一获取模块410、第二获取模块420、特征提取模块430、确定模块440和模型建立模块450。

具体地，第一获取模块410用于获取样本文本。

第二获取模块420用于获取针对样本文本的多个录音数据，其中，多个录音数据是通过使用多种类别语气朗读样本文本而得到的语音。作为一种示例，该多种类别语气可包括但不限于肯定语气、疑问语气和反问语气等。

特征提取模块430用于提取多个录音数据中的语气特征。

确定模块440用于确定语气特征对应的语气类别。

模型建立模块450用于根据样本文本、多个录音数据中的语气特征和对应的语气类别，建立语气识别模型。

为了进一步提高本发明的可用性以及可行性，可选地，在本发明的一个实施例中，如图5所示，该语气识别装置400还可包括：接收模块460、语音识别模块470、语气识别模块480和响应模块490。其中，接收模块460用于接收用户的语音数据。语音识别模块470用于对语音数据进行语音识别以得到对应的文本信息。语气识别模块480用于通过语气识别模型对语音数据进行语气识别以获得对应的语气含义。响应模块490用于根据文本信息和对应的语气含义给用户相应的响应。

作为一种示例的实现方式，如图6所示，该语气识别模块480可以包括：语气识别单元481和确定单元482。其中，语气识别单元481用于通过语气识别模型对语音数据进行语气识别，以得到语音数据对应的语气类别。确定单元482用于根据语气类别确定对应的语气含义。

作为一种示例的实现方式，如图7所示，响应模块490可包括：确定单元491和响应单元492。其中，确定单元491用于根据文本信息和对应的语气含义确定用户的用户意图。响应单元492用于根据用户意图获取对应的对话内容，并将对应的对话内容提供给用户。

为了实现上述实施例，本发明还提出了一种电子设备。

图8是根据本发明一个实施例的电子设备的结构示意图。如图8所示，该电子设备800可以包括：存储器810、处理器820及存储在存储器810上并可在处理器820上运行的计算机程序830，处理器820执行所述程序830时，实现本发明上述任一个实施例所述的语气识别方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明上述任一个实施例所述的语气识别方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语气识别方法，其特征在于，包括以下步骤：

获取样本文本；

获取针对所述样本文本的多个录音数据，其中，所述多个录音数据是通过使用多种类别语气朗读所述样本文本而得到的语音；所述多种类别语气包括肯定语气、疑问语气和反问语气；

提取所述多个录音数据中的语气特征，并确定所述语气特征对应的语气类别；其中，所述提取所述多个录音数据中的语气特征，包括：提取所述录音数据中句中停顿处、句尾处表示语气的音频，并提取所述音频的特征，所述特征包含升调、降调、升降调、降升调、平调；

根据所述样本文本、所述多个录音数据中的语气特征和对应的语气类别，建立语气识别模型，以使得所述语气识别模型可用于对语音数据进行语气识别以获得对应的语气含义；

接收用户的语音数据；

对所述语音数据进行语音识别以得到对应的文本信息；

通过所述语气识别模型对所述语音数据进行语气识别以获得对应的语气含义；

根据所述文本信息和对应的语气含义给用户相应的响应。

2.如权利要求1所述的语气识别方法，其特征在于，所述通过语气识别模型对所述语音数据进行语气识别以获得对应的语气含义，包括：

通过所述语气识别模型对所述语音数据进行语气识别，以得到所述语音数据对应的语气类别；

根据所述语气类别确定对应的语气含义。

3.如权利要求1所述的语气识别方法，其特征在于，所述根据文本信息和对应的语气含义给用户相应的响应，包括：

根据所述文本信息和对应的语气含义确定所述用户的用户意图；

根据所述用户意图获取对应的对话内容，并将所述对应的对话内容提供给所述用户。

4.一种语气识别装置，其特征在于，包括：

第一获取模块，用于获取样本文本；

第二获取模块，用于获取针对所述样本文本的多个录音数据，其中，所述多个录音数据是通过使用多种类别语气朗读所述样本文本而得到的语音；所述多种类别语气包括肯定语气、疑问语气和反问语气；

特征提取模块，用于提取所述多个录音数据中的语气特征；其中，所述特征提取模块具体用于：提取所述录音数据中句中停顿处、句尾处表示语气的音频，并提取所述音频的特征，所述特征包含升调、降调、升降调、降升调、平调；

确定模块，用于确定所述语气特征对应的语气类别；

模型建立模块，用于根据所述样本文本、所述多个录音数据中的语气特征和对应的语气类别，建立语气识别模型，以使得所述语气识别模型可用于对语音数据进行语气识别以获得对应的语气含义；

接收模块，用于接收用户的语音数据；

语音识别模块，用于对所述语音数据进行语音识别以得到对应的文本信息；

语气识别模块，用于通过所述语气识别模型对所述语音数据进行语气识别以获得对应的语气含义；

响应模块，用于根据所述文本信息和对应的语气含义给用户相应的响应。

5.如权利要求4所述的语气识别装置，其特征在于，所述语气识别模块包括：

语气识别单元，用于通过所述语气识别模型对所述语音数据进行语气识别，以得到所述语音数据对应的语气类别；

确定单元，用于根据所述语气类别确定对应的语气含义。

6.如权利要求4所述的语气识别装置，其特征在于，所述响应模块包括：

确定单元，用于根据所述文本信息和对应的语气含义确定所述用户的用户意图；

响应单元，用于根据所述用户意图获取对应的对话内容，并将所述对应的对话内容提供给所述用户。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1至3中任一项所述的语气识别方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至3中任一项所述的语气识别方法。