CN109410946A

CN109410946A - 一种识别语音信号的方法、装置、设备及存储介质

Info

Publication number: CN109410946A
Application number: CN201910026325.XA
Authority: CN
Inventors: 刘勇; 周冀; 薛向东; 王芃; 赵立峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-03-01
Also published as: US20200227069A1

Abstract

本发明实施例提出一种识别语音信号的方法、装置、设备及存储介质，其中方法包括：采集语音信号；提取所述语音信号的第一声纹特征；将所述第一声纹特征与预先存储的基准声纹特征进行比对；当比对结果一致时，采用语音识别模型识别所述语音信号的内容。发明实施例能够提高语音信号的识别率。

Description

一种识别语音信号的方法、装置、设备及存储介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种识别语音信号的方法、装置、设备及存储介质。

背景技术

现有的语音交互设备存在误识别的情况。例如，在用户没有发声的情况下，语音交互设备将电视机、广播等装置播放的语音信号误认为是用户发出的语音信号，并识别该语音信号。或者，语音交互设备虽然识别出了用户的语音，但由于背景噪声的干扰或用户口音等问题，未能将用户语音信号的内容转换成正确的文本信息。这些误识别的情况影响用户的使用体验。

发明内容

本发明实施例提供一种识别语音信号的方法及装置，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种识别语音信号的方法，包括：

采集语音信号；

提取所述语音信号的第一声纹特征；

将所述第一声纹特征与预先存储的基准声纹特征进行比对；

当比对结果一致时，采用语音识别模型识别所述语音信号的内容。

在一种实施方式中，预先存储至少一个基准声纹特征；

所述将所述第一声纹特征与预先存储的基准声纹特征进行比对，包括：将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。

在一种实施方式中，所述至少一个基准声纹特征的确定方式为：

采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。

在一种实施方式中，预先建立分别对应各个基准声纹特征的语音识别模型；

所述采用语音识别模型识别所述语音信号的内容，包括：确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的语音识别模型；采用获取的语音识别模型识别所述语音信号。

在一种实施方式中，所述预先建立分别对应各个基准声纹特征的语音识别模型，包括：

针对各个基准声纹特征，分别执行以下步骤：

采用具备所述基准声纹特征的语音信号及所述语音信号对应的真实文本信息训练所述语音识别模型；训练的方式为：将所述语音信号输入语音识别模型，将所述语音识别模型输出的预测文本信息与所述真实文本信息进行对比，根据对比结果调整所述语音识别模型的参数。

第二方面，本发明实施例提供了一种识别语音信号的装置，包括：

采集模块，用于采集语音信号；

提取模块，用于提取所述语音信号的第一声纹特征；

比对模块，用于将所述第一声纹特征与预先存储的基准声纹特征进行比对；

识别模块，用于当比对结果一致时，采用语音识别模型识别所述语音信号的内容。

在一种实施方式中，还包括：声纹存储模块，用于存储至少一个基准声纹特征；

所述比对模块，用于将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。

在一种实施方式中，还包括：

声纹确定模块，用于采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。

在一种实施方式中，还包括：模型建立模块，用于建立分别对应各个基准声纹特征的语音识别模型；

所述识别模块，用于确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的语音识别模型；采用获取的语音识别模型识别所述语音信号。

在一种实施方式中，所述模型建立模块，用于针对各个基准声纹特征，分别采用具备所述基准声纹特征的语音信号及所述语音信号对应的真实文本信息训练所述语音识别模型；训练的方式为：将所述语音信号输入语音识别模型，将所述语音识别模型输出的预测文本信息与所述真实文本信息进行对比，根据对比结果调整所述语音识别模型的参数。

第三方面，本发明实施例提供了一种识别语音信号的设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述识别语音信号的方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储识别语音信号的设备所用的计算机软件指令，其包括用于执行上述识别语音信号的方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例在采集到语音信号之后，判断语音信号的声纹特征与预先存储的基准声纹特征是否一致。如果一致，则采用语音识别模型识别该语音信号的内容。通过这种分步的检测，能够提高语音信号的识别率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例的一种识别语音信号的方法实现流程图；

图2为本发明实施例的一种识别语音信号的装置结构示意图；

图3为本发明实施例的一种识别语音信号的装置结构示意图；

图4为本发明实施例的一种识别语音信号的设备结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例主要提供了识别语音信号的方法和装置，下面分别通过以下实施例进行技术方案的展开描述。

如图1为本发明实施例的一种识别语音信号的方法实现流程图，包括：

S11：采集语音信号；

S12：提取所述语音信号的第一声纹特征；

S13：将所述第一声纹特征与预先存储的基准声纹特征进行比对；当比对结果一致时，执行S14；

S14：采用语音识别模型识别所述语音信号的内容。

在一种可能的实施方式中，上述S11中采集语音信号的方式可以包括：接收音频信号，从所述音频信号中提取出语音信号。其中，音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。利用声波的特征，可以将语音信号从音频信号中提取出来。

在一种可能的实施方式中，上述S12可以采用声纹识别技术提取语音信号中的第一声纹特征。声纹(Voiceprint)，是用电声学仪器显示的携带语言信息的声波频谱。任何两个人的声纹特征都有差异，并且每个人的声纹特征具有相对稳定性。声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音。与文本无关的声纹识别系统不要求用户按照规定的内容发音。本发明实施例可以采用文本无关的声纹识别方式，在提取声纹特征及对声纹特征进行比对时，可以采用任意内容的语音信号，而不需要用户按照规定的内容发音。

在一种可能的实施方式中，可以预先存储至少一个基准声纹特征。例如，一个语音交互设备可以有多个用户，这些用户可以被看做语音交互设备的“主人”。本发明实施例可以将各个用户的声纹特征分别作为一个基准声纹特征，并存储各个基准声纹特征。具体地，所述至少一个基准声纹特征的确定方式可以为：采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。为了确定基准声纹特征，在采集各个用户的语音信号时，可以在用户知情的情况下开启录音装置，录入用户在生活中多种场景下的语音信号。

相应地，在一种可能的实施方式中，S13可以包括：将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。

例如，预先存储N个(N为正整数)基准声纹特征。在比对过程中，将第一声纹特征依次与N个基准声纹特征进行比对，当发现第一声纹特征与某一个基准声纹特征一致时，则确定比对结果一致，不再与后续的基准声纹特征进行比对。如果第一声纹特征与任一基准声纹特征均不一致，则确定比对结果不一致。或者，可以将第一声纹特征分别与N个基准声纹特征进行比对，得到N个比对结果，每个比对结果表示第一声纹特征与对应基准声纹特征的相似度。获取相似度最大的比对结果，当该最大的相似度超过预设相似度门限时，确定第一声纹特征与对应的基准声纹特征的比对结果一致；当该最大的相似度未超过预设相似度门限时，确定第一声纹特征与任一基准声纹特征均不一致。

在一种可能的实施方式中，可以预先建立分别对应各个基准声纹特征的语音识别模型。例如，针对语音交互设备的N个用户，预先分别提取了N个用户的声纹特征，作为N个基准声纹特征；针对N个基准声纹特征，分别设置对应的语音识别模型。用户、基准声纹特征和语音识别模型的对应关系可以如下表1所示。

表1

用户	基准声纹特征	语音识别模型
			用户1	基准声纹特征1	语音识别模型1
用户2	基准声纹特征2	语音识别模型2
			……	……	……
用户N	基准声纹特征N	语音识别模型N

在建立语音识别模型时，可以采用具备对应基准声纹特征的语音信号及所述语音信号对应的真实文本信息训练所述语音识别模型；训练的方式为：将所述语音信号输入语音识别模型，将所述语音识别模型输出的预测文本信息与所述真实文本信息进行对比，根据对比结果调整所述语音识别模型的参数。通过对参数的不断调整，使预测文本信息与真实文本信息一致的概率达到预设的识别门限值。

在获取语音信号及语音信号对应的真实文本信息时，可以采用如下方式。例如，为用户提供文本信息，由用户读出该文本信息，采集用户读该文本信息时发出的语音信号，即可以得到语音信号及语音信号对应的真实文本信息。此外，随着采集到用户语音信号数量的增多，可以根据用户的发音习惯，向用户提供该用户容易读不准确的文本信息。在用户读这些文本信息后，采集用户发出的语音信号，并存储语音信号及对应的真实文本信息。在上述过程中，向用户提供文本信息的方式可以为：在屏幕上显示文本信息，或者，播放该文本信息对应的音频信息等方式。

在一种可能的实施方式中，可以在用户使用语音交互设备的过程中，逐渐记录并增加训练样本(即语音信号及对应的真实文本信息)，并采用增加后的训练样本训练语音识别模型，以使得语音识别模型的识别更为准确。

相应地，步骤S14中采用语音识别模型识别所述语音信号的内容，可以包括：确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应该确定的基准声纹特征的语音识别模型；采用获取的语音识别模型识别所述语音信号。

例如，在一个实施例中，采集的语音信号的第一声纹特征与表1中的基准声纹特征2一致。则获取基准声纹特征2对应的语音识别模型2，采用语音识别模型2识别该语音信号的内容。

在一种可能的实施方式中，上述比对及识别过程可以在云端执行。或者，可以将基准声纹特征及语音识别模型下发到语音交互设备，由语音交互设备执行上述比对及识别过程，从而提高识别的效率。

本发明实施例可以应用于具有语音交互功能的设备，包括但不限于智能音箱、带屏幕智能音箱、带有语音交互功能的电视、智能手表及车载智能语音设备等。在对安全性要求不高的情况下，可以支持对错误拒绝率和错误接受率的可控调整，适当降低上述比对及识别的错误拒绝率，避免造成对用户的语音信号不做反应的情况。

例如，针对上述步骤S13，初始状态下，可以将第一声纹特征与基准声纹特征比对结果一致的标准设置为：如果第一声纹特征与基准声纹特征的相似度超过90％，则判定二者一致。在语音交互设备使用过程中，如果频繁出现对用户发出的语音信号没有反应的情况，可以适当调低上述标准，例如将比对结果一致的标准调整为：如果第一声纹特征与基准声纹特征的相似度超过80％，则判定二者一致。相反，在语音交互设备使用过程中，如果频繁出现对非用户发出的语音信号进行识别的情况，可以适当调高上述标准，例如将比对结果一致的标准调整为：如果第一声纹特征与基准声纹特征的相似度超过95％，则判定二者一致。

本发明实施例还提出一种识别语音信号的装置。参见图2，图2为本发明实施例的一种识别语音信号的装置结构示意图，包括：

采集模块201，用于采集语音信号；

提取模块202，用于提取所述语音信号的第一声纹特征；

比对模块203，用于将所述第一声纹特征与预先存储的基准声纹特征进行比对；

识别模块204，用于当比对结果一致时，采用语音识别模型识别所述语音信号的内容。

如图3为本发明实施例提出的另一种识别语音信号的装置结构示意图，包括：

采集模块201、提取模块202、比对模块203和识别模块204，前述四个模块与上述实施例中的对应模块相同，不再赘述。

该装置还包括：声纹存储模块205，用于存储至少一个基准声纹特征；

所述比对模块203，用于将所述第一声纹特征分别与预先存储的各个基准声纹特征进行比对，当第一声纹特征与其中一个基准声纹特征一致时，比对结果一致。

在一种可能的实施方式中，还包括：

声纹确定模块206，用于采集至少一个用户的语音信号，提取各个用户的语音信号的第二声纹特征，将每个所述第二声纹特征确定为一个所述基准声纹特征。

在一种可能的实施方式中，模型建立模块207，用于建立分别对应各个基准声纹特征的语音识别模型；

所述识别模块204，用于确定与所述第一声纹特征的比对结果一致的基准声纹特征；获取对应确定的基准声纹特征的语音识别模型；采用获取的语音识别模型识别所述语音信号。

在一种可能的实施方式中，所述模型建立模块207，用于针对各个基准声纹特征，分别采用具备所述基准声纹特征的语音信号及所述语音信号对应的真实文本信息训练所述语音识别模型；训练的方式为：将所述语音信号输入语音识别模型，将所述语音识别模型输出的预测文本信息与所述真实文本信息进行对比，根据对比结果调整所述语音识别模型的参数。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提出一种识别语音信号的设备，如图4为本发明实施例的识别语音信号的设备结构示意图，包括：

存储器11和处理器12，存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的识别语音信号的方法。所述存储器11和处理器12的数量可以为一个或多个。

所述设备还可以包括：

通信接口13，用于与外界设备进行通信，进行数据交换传输。

存储器11可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器11、处理器12和通信接口13独立实现，则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线，外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器11、处理器12和通信接口13集成在一块芯片上，则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明实施例提出的识别语音信号的方法和装置，在采集到语音信号之后，首先判断语音信号的声纹特征与预先存储的基准声纹特征是否一致。如果一致，则采用对应的语音识别模型识别语音信号的内容。通过这种分步的识别，能够提高语音信号的识别率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别语音信号的方法，其特征在于，包括：

采集语音信号；

提取所述语音信号的第一声纹特征；

将所述第一声纹特征与预先存储的基准声纹特征进行比对；

2.根据权利要求1所述的方法，其特征在于，预先存储至少一个基准声纹特征；

3.根据权利要求2所述的方法，其特征在于，所述至少一个基准声纹特征的确定方式为：

4.根据权利要求2或3所述的方法，其特征在于，预先建立分别对应各个基准声纹特征的语音识别模型；

5.根据权利要求4所述的方法，其特征在于，所述预先建立分别对应各个基准声纹特征的语音识别模型，包括：

针对各个基准声纹特征，分别执行以下步骤：

6.一种识别语音信号的装置，其特征在于，包括：

采集模块，用于采集语音信号；

提取模块，用于提取所述语音信号的第一声纹特征；

7.根据权利要求6所述的装置，其特征在于，还包括：声纹存储模块，用于存储至少一个基准声纹特征；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7或8所述的装置，其特征在于，还包括：模型建立模块，用于建立分别对应各个基准声纹特征的语音识别模型；

10.根据权利要求9所述的装置，其特征在于，所述模型建立模块，用于针对各个基准声纹特征，分别采用具备所述基准声纹特征的语音信号及所述语音信号对应的真实文本信息训练所述语音识别模型；训练的方式为：将所述语音信号输入语音识别模型，将所述语音识别模型输出的预测文本信息与所述真实文本信息进行对比，根据对比结果调整所述语音识别模型的参数。

11.一种识别语音信号的设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。