CN109545194A

CN109545194A - 唤醒词预训练方法、装置、设备及存储介质

Info

Publication number: CN109545194A
Application number: CN201811600766.8A
Authority: CN
Inventors: 张冉
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-03-29

Abstract

本公开提供了一种唤醒词预训练方法，包括：从语音识别数据中选取预定数量的语音；通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；通过语音合成系统生成目标唤醒词；以及根据生成的目标唤醒词进行唤醒词模型训练。本公开还提供了一种唤醒词预训练方法装置、计算机设备及计算机可读存储介质。

Description

唤醒词预训练方法、装置、设备及存储介质

技术领域

本公开涉及一种唤醒词预训练方法、唤醒词预训练方法装置、计算机设备及计算机可读存储介质。

背景技术

唤醒技术是人工智能设备所需的技术。通常在发布一个产品时，需要定义一个或多个唤醒词，当用户说相应唤醒词时，则执行相应的动作。

在定义完唤醒词以后，需要进行唤醒词模型的训练，即带有唤醒词的音频。现有技术通常是雇用组织大量不同年龄不同性别的人在不同距离上录制唤醒词。但是该方法存在人工录制成本太高、人工录制时间周期长、更改唤醒词需要重新录制及录制现场和用户实际使用的场景并不一致(用户可能带有方言、用户可能在带嗓环境下唤醒、用户唤醒的角度不同及预录无法涵盖所有种类的发音人)等问题。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种唤醒词预训练方法、唤醒词预训练方法装置、计算机设备及计算机可读存储介质。

根据本公开的一个方面，一种唤醒词预训练方法，包括：从语音识别数据中选取预定数量的语音；通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；通过语音合成系统生成目标唤醒词；以及根据生成的目标唤醒词进行唤醒词模型训练。

根据本公开的一个实施方式，从语音识别数据中选取预定数量的语音时是基于音素覆盖度来进行的。

根据本公开的一个实施方式，通过语音合成系统生成目标唤醒词时，生成不同条件下的目标唤醒词。

根据本公开的一个实施方式，当更改或增加唤醒词时，根据更改的唤醒词或增加的唤醒词，通过语音合成系统生成更改的唤醒词或增加的唤醒词的目标唤醒词，并且将生成的目标唤醒词进行唤醒词训练。

根据本公开的一个实施方式，语音识别数据为已经存在的语音识别数据。

根据本公开的一个实施方式，从语音识别数据中分别选取多个发音者的预定数量的语音；以及通过语音合成模型，根据所选取的语音来进行训练以得到多个发音者的个性化语音合成系统。

根据本公开的一个实施方式，还包括从其他设备中导出语音识别数据，以基于语音识别数据来选取预定数量的语音。

根据本公开的另一方面，一种唤醒词预训练装置，包括：语音选取模块，从语音识别数据中选取预定数量的语音；语音训练模块，通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；唤醒词生成模块，通过语音合成系统生成目标唤醒词；以及唤醒词训练模块，根据生成的目标唤醒词进行唤醒词模型训练。

根据本公开的又一方面，一种计算机设备，包括：存储器，存储器存储计算机执行指令；以及处理器，处理器执行存储器存储的计算机执行指令，使得处理器执行上述的唤醒词预训练方法。

根据本公开的在一方面，一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述的唤醒词预训练方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开一个实施方式的唤醒词预训练方法的示意性流程图。

图2是根据本公开一个实施方式的唤醒词预训练方法的示意性流程图。

图3是根据本公开一个实施方式的唤醒词预训练装置的示意性框图。

图4是根据本公开一个实施方式的计算机设备的示意性框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

根据本公开的一个实施方式，提供了一种唤醒词预训练方法。

如图所示，该唤醒词预训练方法10包括步骤S11、S12、S13及S14。

在步骤S11中，从识别语音中选取预定数量的语音。

在该步骤中，该识别语音可以是从多个其他设备中导出的识别语音，也可以是从已经公开的语音库得到的识别语音。例如针对音箱时，可以将已有的针对智能手表的语音导出来进行使用。通过使用现有设备或语音库中的语音的方式，可以不必像现有技术那样通过组织不同的人在不同条件下进行录制，而且这样所使用的语音也比较丰富可以满足各种需求。例如对于市面上已经成熟的设备，用户可能会经常跟其聊天，这样将会在各个设备上存在各个用户的大量语音数据，也会存在很多的有效语音数据，通过将语音数据回传至例如服务器中来得到这些语音数据，然后可以导出这些语音数据来进行使用。

在本公开的一个实施方式中，语音数据的选择可以使用已有的产品根据用户的性别、年龄、地域等的不同而进行抽样选择。这样可以尽可能地进行覆盖，从而使得预训练更加普适。也可以根据唤醒词将要使用的设备情况来进行抽样选择，例如根据将会使用设备的用户的年龄情况选择对应年龄段的用户语音。

在一个可选实施方式中，得到了语音识别数据之后，可以统计音素覆盖度来选取预定数量的语音。例如选取50～100条语音等。例如从这些语音数据中选择音素覆盖度全面的预定数量的语音。

例如对于普通话而言，其存在32个音素，因此可以选择适当数量的语音以覆盖32个音素，使得声母与韵母均在这些语音中出现。

在步骤S12中，通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统。这里，根据所选的语音，例如通过依据多个用户所选的各自的50～100条语音，进行训练从而可以得到多个用户的个性化语音，这样相当于生成了多个用户的个性化语音合成系统。

在步骤S13中，通过语音合成系统生成目标唤醒词。根据需要选择合适的唤醒词文本，然后例如通过TTS(Text to Speech)技术来合成唤醒词的语音。其中在合成唤醒词的语音时，通过使用上述生成的多个用户的个性化语音合成系统来生成多个用户的不同的个性化语音。

例如在生成多个用户的不同的个性化语音后，可以使用诸如高保真音响的扬声器等设备来进行播放、和在多个位置进行播放，从而可以模拟出通过真人来进行录音的场景。这样可以通过语音合成系统生成目标唤醒词时，生成不同条件下的目标唤醒词。

在步骤S14中，对目标唤醒词进行唤醒词模型训练。

如图2所示，示出了当更改唤醒词或增加唤醒词时，根据更改的唤醒词或增加的唤醒词，通过语音合成系统生成更改的唤醒词或增加的唤醒词的目标唤醒词，并且将生成的目标唤醒词进行唤醒词训练。

在图2所示的唤醒词预训练方法20中，在步骤S21中，从语音库中选取预定数量的语音。在步骤S22中，通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统。在步骤S23中，通过语音合成系统生成目标唤醒词。在步骤S24中，对目标唤醒词进行唤醒词模型训练。这些步骤可以分别与方法10中的相应步骤对应。

唤醒词预训练方法20还包括更换或增加唤醒词S25的情况下，则再次执行步骤S23通过语音合成系统生成目标唤醒词，以生成新的唤醒词。并且对新的唤醒词进行唤醒词模型训练。也就是说，在更换或增加唤醒词的情况下，继续使用之前的语音合成系统来对目标唤醒词进行生成及训练等。

根据本公开的一个实施方式，还提供了一种唤醒词预训练装置。如图3所示，该唤醒词预训练装置300可以包括：

语音选取模块301，从语音识别数据中选取预定数量的语音；

语音训练模块302，通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；

唤醒词生成模块303，通过语音合成系统生成目标唤醒词；以及

唤醒词训练模块304，根据生成的所述目标唤醒词进行唤醒词模型训练。

各个模块所执行的处理分别与参照图1所描述的方法的步骤相类似。

当了当更改唤醒词或增加唤醒词时，根据更改的唤醒词或增加的唤醒词，唤醒词生成模块303通过语音合成系统生成更改的唤醒词或增加的唤醒词的目标唤醒词，并且唤醒词训练模块304对新的目标唤醒词进行唤醒词训练。

根据本公开，通过使用已公开的或者其他设备的相关语音识别信息来生成语音合成系统，可以避免人工录制的情况，这样将会极大的节省时间与成本等。

本公开还提供一种计算机设备，如图4所示，该设备包括：通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。

存储器2000可以包括高速RAM存储器，也可以还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，计算机软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当计算机软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种唤醒词预训练方法，其特征在于，包括：

从语音识别数据中选取预定数量的语音；

通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；

通过语音合成系统生成目标唤醒词；以及

根据生成的所述目标唤醒词进行唤醒词模型训练。

2.如权利要求1所述的方法，其特征在于，从语音识别数据中选取预定数量的语音时是基于音素覆盖度来进行的。

3.如权利要求1至2中任一项所述的方法，其特征在于，通过语音合成系统生成目标唤醒词时，生成不同条件下的唤醒词。

4.如权利要求1至3中任一项所述的方法，其特征在于，当更改或增加唤醒词时，根据更改的唤醒词或增加的唤醒词，通过语音合成系统生成更改的唤醒词或增加的唤醒词的目标唤醒词，并且将生成的目标唤醒词进行唤醒词训练。

5.如权利要求1至4中任一项所述的方法，其特征在于，所述语音识别数据为已经存在的语音识别数据。

6.如权利要求1至5中任一项所述的方法，其特征在于，从语音识别数据中分别选取多个发音者的预定数量的语音；以及通过语音合成模型，根据所选取的语音来进行训练以得到多个发音者的个性化语音合成系统。

7.如权利要求1至6中任一项所述的方法，其特征在于，还包括从其他设备中导出语音识别数据，以基于所述语音识别数据来选取预定数量的语音。

8.一种唤醒词预训练装置，其特征在于，包括：

语音选取模块，从语音识别数据中选取预定数量的语音；

语音训练模块，通过语音合成模型，根据所选取的语音来进行训练以得到语音合成系统；

唤醒词生成模块，通过语音合成系统生成目标唤醒词；以及

唤醒词训练模块，根据生成的所述目标唤醒词进行唤醒词模型训练。

9.一种计算机设备，其特征在于，包括：

存储器，所述存储器存储计算机执行指令；以及

处理器，所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至7中任一项所述的唤醒词预训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的唤醒词预训练方法。