CN113096653A

CN113096653A - 一种基于人工智能的个性化口音语音识别方法及系统

Info

Publication number: CN113096653A
Application number: CN202110250910.5A
Authority: CN
Inventors: 谭维敏
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-07-09

Abstract

本发明实施例公开了一种基于人工智能的个性化口音语音识别方法及系统，通过个性化口音语音识别模型集成标准发音语音识别模型对用户的个性化口音语音指令信息进行识别，在用户的使用终端设备过程中自动对智能识别模型进行迭代优化，随着用户使用次数越多，效果将越精准。在不限定口音种类的自由度下，可大大提高对带有个人口音的非标准发音的语音识别准确率，适用于所有带有个性化语音指令识别的场景，包括但不限于智能家居场景中语音指令与家电的交互和控制、基于语音转文字的会议记录器、基于语音转文字的翻译设备、汽车驾驶中的语音交互控制领域等等。

Description

一种基于人工智能的个性化口音语音识别方法及系统

技术领域

本发明实施例涉及语音识别、人工智能技术领域，具体涉及一种基于人工智能的个性化口音语音识别方法及系统。

背景技术

目前的人机交互控制中的语音识别，主流还是针对标准发音，而对于带有口音的非标准发音的识别准确率就会大打折扣，哪怕是专人独自使用或小群体长时间使用也无法让语音识别模块学习到个性化口音来提高识别准确率。

发明内容

为此，本发明实施例提供一种基于人工智能的个性化口音语音识别方法及系统，以解决现有的人机交互控制中的语音识别，对于带有口音的非标准发音的识别准确率低的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于人工智能的个性化口音语音识别方法，所述方法包括：

根据在执行终端或云端上构建的个性化口音语音识别模型集成预先建立的标准发音语音识别模型对用户在使用终端设备过程中输入的个性化口音语音指令信息进行识别，输出语音识别结果；

获取执行终端根据所述语音识别结果执行的响应操作，若该操作与用户意图相符，则无需用户做手动调整，若该操作与用户意图不符，则用户通过手动调整使执行终端执行正确操作；

获取用户输入的个性化口音语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息在用户使用终端设备过程中对个性化口音语音识别模型进行定期迭代优化，提高模型识别准确率。

进一步地，所述方法具体还包括：

在用户初始使用终端设备时，仅基于所述标准发音语音识别模型无法识别用户输入的个性化语音指令信息，用户通过手动调整使执行终端执行的正确操作，获取用户输入的个性化语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；

在下次使用时，结合经过训练的所述个性化口音语音识别模型和标准发音语音识别模型对用户输入的语音指令信息进行识别。

进一步地，所述方法具体还包括：

当用户初始使用用于语音转换文本的终端设备时，仅基于所述标准发音语音识别模型无法识别用户输入的个性化语音指令信息，则用户通过手动录入正确的转换文本信息，获取用户输入的个性化语音指令信息以及正确的文本信息之间的对应关系信息，并根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；

在下次使用时，结合经过训练的所述个性化口音语音识别模型和标准发音语音识别模型对用户输入的语音指令信息进行识别，同时在用户使用终端设备过程中根据用户输入的个性化语音指令信息与文本信息之间的对应关系信息对个性化口音语音识别模型进行定期迭代优化，提高模型识别准确率。

进一步地，所述方法具体还包括：

预先采集并存储用户根据执行终端的常用指令录入的个性化口音语音指令信息集与终端的正确操作之间的对应关系信息，根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；

在用户使用终端设备过程中，基于经过训练的所述个性化口音语音识别模型和标准发音语音识别模型对用户输入的语音指令信息进行识别。

进一步地，所述方法还包括：

将个性化口音语音识别模型和标准发音语音识别模型进行加权或叠加或算法集成后用于对用户输入的语音指令信息进行识别。

进一步地，所述方法还包括：

基于深度学习/机器学习/ASR等技术构建个性化口音语音识别模型。

根据本发明实施例的第二方面，提出了一种基于人工智能的个性化口音语音识别系统，所述系统包括：

语音识别模块，用于根据在执行终端或云端上构建的个性化口音语音识别模型集成预先建立的标准发音语音识别模型对用户在使用终端设备过程中输入的个性化口音语音指令信息进行识别，输出语音识别结果；

样本采集模块，用于获取执行终端根据所述语音识别结果执行的响应操作，若该操作与用户意图相符，则无需用户做手动调整，若该操作与用户意图不符，则用户通过手动调整使执行终端执行正确操作；

模型优化模块，用于获取用户输入的个性化口音语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息在用户使用终端设备过程中对个性化口音语音识别模型进行定时迭代优化，提高模型识别准确率。

根据本发明实施例的第三方面，提出了一种电子设备，包括：

处理器；以及

存储器，用于存储基于人工智能的个性化口音语音识别方法的程序，该电子设备通电并通过所述处理器运行该基于人工智能的个性化口音语音识别方法的程序后，执行上述所述的基于人工智能的个性化口音语音识别方法。

根据本发明实施例的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被处理器执行如上所述的基于人工智能的个性化口音语音识别方法。

本发明实施例具有如下优点：

本发明实施例提供一种基于人工智能的个性化口音语音识别方法及系统，通过个性化口音语音识别模型集成标准发音语音识别模型对用户的个性化口音语音指令信息进行识别，在用户的使用终端设备过程中自动对智能识别模型进行迭代优化，随着用户使用次数越多，效果将越精准。在不限定口音种类的自由度下，可大大提高对带有个人口音的非标准发音的语音识别准确率，适用于所有带有个性化语音指令识别的场景，包括但不限于智能家居场景中语音指令与家电的交互和控制、基于语音转文字的会议记录器、基于语音转文字的翻译设备、汽车驾驶中的语音交互控制领域等等。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于人工智能的个性化口音语音识别方法的流程示意图；

图2为本发明实施例2提供的一种基于人工智能的个性化口音语音识别系统的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提出了一种基于人工智能的个性化口音语音识别方法，如图1所示，该方法包括以下步骤：

S110、根据在执行终端或云端上构建的个性化口音语音识别模型集成预先建立的标准发音语音识别模型对用户在使用终端设备过程中输入的个性化口音语音指令信息进行识别，输出语音识别结果。

S120、获取执行终端根据所述语音识别结果执行的响应操作，若该操作与用户意图相符，则无需用户做手动调整，若该操作与用户意图不符，则用户通过手动调整使执行终端执行正确操作。

S130、获取用户输入的个性化口音语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息在用户使用终端设备过程中对个性化口音语音识别模型进行定期迭代优化，提高模型识别准确率。

个性化口音语音指令信息Pa，比如某用户张三的带口音普通话“开机(gaiji)”、“停止(tinzi)”等，执行终端的正确操作，比如与带口音普通话“开机(gaiji)”对应的开机操作，与“停止(tinzi)”对应的关机操作等。将以上采集的个性化口音语音指令信息Pa、执行终端的正确操作之间的对应关系信息V1保存在数据中心库或存储设备中。

示例性的，在本实施例中，基于两种示例方案对个性化口音语音的识别方法进行阐述。

第一种方案：(无需事先录入个性化语音指令)

在用户初始使用终端设备时，仅基于所述标准发音语音识别模型无法识别用户输入的个性化语音指令信息，用户通过手动调整使执行终端执行的正确操作，获取用户输入的个性化语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；在下次使用时，结合经过训练的所述个性化口音语音识别模型和标准发音语音识别模型对用户输入的语音指令信息进行识别。

比如，张三对家电发出“开机(gaiji)”、“停止(tinzi)”等个性化口音语音指令，家电基于标准语音识别模块(“开机(kaiji)”、“停止(tingzhi)”)无法识别，张三只好拿起遥控器手动开机/停机，这时系统获取并记录“开机(gaiji)”、“停止(tinzi)”等个性化语音指令信息和终端操作开机/停机的对应关系，基于以上对应关系训练构建的深度学习/机器学习/ASR等自主学习算法模型模块，即个性化语音识别模型，在下一次使用时通过个性化语音识别模块和预先设置的标准语音识别模块一起识别用户语音指令；对于张三每次使用情况，系统都将记录获取此类对应关系，并定时更新优化迭代自主学习模型，随着使用次数增多，识别准确率越来越高，最后直至100％而不再需要手动调整。

特别的，当用户初始使用用于语音转换文本的终端设备时，仅基于所述标准发音语音识别模型无法识别用户输入的个性化语音指令信息，则用户通过手动录入正确的转换文本信息，获取用户输入的个性化语音指令信息以及正确的文本信息之间的对应关系信息，并根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；

比如，张三对着语音转文本的会议记录器/语音转文本的翻译器设备发出语音信息，设备无法识别，张三只好在设备手写面板上书写文本信息，系统会获取并记录张三发出的个性化语音信息与文本信息的对应关系，并构建自主学习识别模块(即个性化语音识别模块)，在下一次使用时通过个性化语音识别模块和标准发音语音识别模块一同识别，张三每次使用均会获取记录此类信息并定时更新智能识别模块，模块识别效果越来越准确。

第二种方案：(需要事先录入个性化语音指令集以及与终端操作的对应关系VA)

预先采集并存储用户根据执行终端的常用指令录入的个性化口音语音指令信息集与终端的正确操作之间的对应关系信息，根据所述对应关系信息对构建的个性化口音语音识别模型进行训练；在用户使用终端设备过程中，基于经过训练的所述个性化口音语音识别模型和标准发音语音识别模型对用户输入的语音指令信息进行识别。

比如，当张三首次使用即对家电发出“开机(gaiji)”、“停止(tinzi)”等个性化口音语音指令时，系统即通过预先构建的个性化口音语音识别模型和标准语音识别模型一同识别，终端根据识别结果做出操作反馈，若该操作与张三意图相符，张三不会手动调整，若该操作与张三意图不符，则张三通过面板、遥控器、按钮开关等装置手动调整使执行终端执行正确操作；系统将获取并记录个性化口音语音指令与终端操作的对应关系，并基于这个对应关系优化迭代个性化口音语音识别模块，同样随着使用次数增加，识别效果越来越准确。

本实施例中，基于深度学习/机器学习/ASR(自动语音识别Automatic SpeechRecognition)等技术构建个性化口音语音识别模型。个性化口音语音识别模型的构建基于包括但不限于DTW、GMM-HMM、DNN-HMM、端到端模型等语音识别技术。模型的训练包括比如：使用监督学习(包括但不限于深度学习、机器学习等算法)，以个性化口音语音指令信息Pa、执行终端的正确操作Aa、以及二者的对应关系作为输入，训练构建Pa与执行终端的正确操作Aa的函数对应关系，以便获得可精准辨识个性化口音语音指令的模型；或者使用半监督学习或非监督学习(包括但不限于KNN、kmeans算法)计算新样本与VA中样本Pa的相似性，将相似度高的样本Pa其所对应的终端操作作为输出，等等。

本实施中，该方法还包括：将个性化口音语音识别模型和标准发音语音识别模型进行加权或叠加或算法集成后用于对用户输入的语音指令信息进行识别。

个性化口音语音识别模型构建完成后与标准发音语音识别模型加权或叠加或算法集成工作，并保存在通用语音识别模块中，最终获得的通用语音识别模块包括标准发音语音识别模块和个性化口音语音识别模块，其中标准发音语音识别模块为事先基于标准发音语音素材预训练完成的模型，主要面向标准发音语音指令信息的识别；个性化口音语音识别模块为基于用户个性化口音语音指令信息构建的智能识别模块，主要面向使用者个性化发音语音指令信息的识别，并随着使用次数不断迭代优化。

与上述实施例1相对应的，本发明实施例2提出了一种基于人工智能的个性化口音语音识别系统，如图2所示，该系统包括：

语音识别模块210，用于根据在执行终端或云端上构建的个性化口音语音识别模型集成预先建立的标准发音语音识别模型对用户在使用终端设备过程中输入的个性化口音语音指令信息进行识别，输出语音识别结果；

样本采集模块220，用于获取执行终端根据所述语音识别结果执行的响应操作，若该操作与用户意图相符，则无需用户做手动调整，若该操作与用户意图不符，则用户通过手动调整使执行终端执行正确操作；

模型优化模块230，用于获取用户输入的个性化口音语音指令信息以及执行终端的正确操作之间的对应关系信息，并根据所述对应关系信息在用户使用终端设备过程中对个性化口音语音识别模型进行定时迭代优化，提高模型识别准确率。

本发明实施例提供的一种基于人工智能的个性化口音语音识别系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例3提出了一种电子设备，包括：

处理器；以及

存储器，用于存储基于人工智能的个性化口音语音识别方法的程序，该电子设备通电并通过处理器运行该基于人工智能的个性化口音语音识别方法的程序后，执行上述的基于人工智能的个性化口音语音识别方法。

与上述实施例相对应的，本发明实施例4提出了一种计算机可读存储介质，计算机可读存储介质中包含一个或多个程序指令，一个或多个程序指令用于被处理器执行如上的基于人工智能的个性化口音语音识别方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法具体还包括：

3.根据权利要求1所述的一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法具体还包括：

5.根据权利要求1所述的一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的一种基于人工智能的个性化口音语音识别方法，其特征在于，所述方法还包括：

7.一种基于人工智能的个性化口音语音识别系统，其特征在于，所述系统包括：

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储基于人工智能的个性化口音语音识别方法的程序，该电子设备通电并通过所述处理器运行该基于人工智能的个性化口音语音识别方法的程序后，执行上述权利要求1-6任意一项所述的基于人工智能的个性化口音语音识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被处理器执行如权利要求1-6任一项所述的基于人工智能的个性化口音语音识别方法。