CN109545218A

CN109545218A - 一种语音识别方法及系统

Info

Publication number: CN109545218A
Application number: CN201910014984.1A
Authority: CN
Inventors: 徐杨
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-03-29

Abstract

本发明属于语音识别技术领域，公开了一种语音识别方法及系统，其方法包括：建立不同地域不同年龄段的语音识别模型库；采集用户输入的语音信息；当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息；根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别。本发明通过建立不同地域不同年龄段的语音识别模型库，然后根据用户的年龄信息和地域信息在语音识别模型库中查找对应的语音识别模型对用户输入的语音信息进行识别，从而解决用户因携带口音及年龄变化而导致的语音识别准确率低的问题，以提高语音识别的准确率，提高用户的使用体验。

Description

一种语音识别方法及系统

技术领域

本发明属于语音识别技术领域，特别涉及一种语音识别方法及系统。

背景技术

随着科学技术的发展，市面上出现了电子设备，例如手机、平板电脑、学习平板、家教机等，这些电子学习设备可以帮助学生解决作业中遇到的问题。目前，大部分的电子学习设备都是基于语音识别来了解学生的意图，以便对学生进行学习辅导。

语音识别是一种利用机器模拟人类的识别和理解过程，把人类的语音信号转变为相应的文本或命令的技术。语音识别的根本目的是研究出一种具有听觉功能的机器，能直接接受人的语音，理解人的意图，并做出相应的反应。

目前，传统的学习设备(家教机等)只能识别出普通话，然而，在实践中发现，不同地区的用户在使用语音搜索时，语音中通常上携带该地区的口音，同时随着孩子年龄的变化，孩子的口音也会发生变化，从而导致学习设备的语音识别不准确，使得学习设备并不能很好的了解学生的真实意图，导致推荐的相关学习内容或解答并不是学生所需的，从而使得用户体验感较差。

发明内容

本发明的目的是提供一种语音识别方法及系统，通过建立不同地域不同年龄段的语音识别模型对用户输入的语音信息进行识别，以解决用户因携带口音及年龄变化而导致的语音识别准确率低的问题。

本发明提供的技术方案如下：

一方面，提供一种语音识别方法，包括：

建立不同地域不同年龄段的语音识别模型库；

采集用户输入的语音信息；

当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息；

根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别。

进一步优选地，所述建立不同地域不同年龄段的语音识别模型库具体包括：

获取大量语料信息，并将所述语料信息按地域进行分类；

对同一地域内的所述语料信息按年龄段进行分类；

根据同一地域同一年龄段内的所述语料信息，训练得到对应的语音识别模型；

根据不同地域内不同年龄段对应的语音识别模型，建立不同地域不同年龄段的语音识别模型库。

进一步优选地，所述当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息具体包括：

当所述用户输入的语音信息不为普通话时，提取所述语音信息中的语音特征；

根据所述语音特征，识别所述用户的身份信息；

根据所述用户的身份信息，获取所述用户的年龄信息和地域信息。

进一步优选地，所述根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别之后还包括：

获取用户输入的识别准确率；

当所述识别准确率低于预设阈值时，对所述匹配的语音识别模型进行标记；

当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新。

进一步优选地，当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新具体包括：

当所述匹配的语音识别模型的标记次数超过预设次数时，获取识别准确率低于预设阈值时的语音信息和对应的准确识别文本；

根据所述识别准确率低于预设阈值时的语音信息和对应的准确识别文本，对所述匹配的语音识别模型进行更新。

另一方面，还提供一种语音识别系统，包括：

模型库建立模块，用于建立不同地域不同年龄段的语音识别模型库；

语音信息采集模块，用于采集用户输入的语音信息；

年龄及地域获取模块，用于当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息；

语音识别模块，用于根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别。

进一步优选地，所述模型库建立模块包括：

语料信息获取单元，用于获取大量语料信息；

语料信息分类单元，用于将所述语料信息按地域进行分类，并对同一地域内的所述语料信息按年龄段进行分类；

识别模型训练单元，用于根据同一地域同一年龄段内的所述语料信息，训练得到对应的语音识别模型；

模型库建立单元，用于根据不同地域内不同年龄段对应的语音识别模型，建立不同地域不同年龄段的语音识别模型库。

进一步优选地，所述年龄及地域获取模块包括：

语音特征提取单元，用于当所述用户输入的语音信息不为普通话时，提取所述语音信息中的语音特征；

身份信息识别单元，用于根据所述语音特征，识别所述用户的身份信息；

年龄及地域获取单元，用于根据所述用户的身份信息，获取所述用户的年龄信息和地域信息。

进一步优选地，还包括：

准确率获取模块，用于获取用户输入的识别准确率；

标记模块，用于当所述识别准确率低于预设阈值时，对所述匹配的语音识别模型进行标记；

更新模块，用于当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新。

进一步优选地，所述更新模块包括：

语音及文本获取单元，用于当所述匹配的语音识别模型的标记次数超过预设次数时，获取识别准确率低于预设阈值时的语音信息和对应的准确识别文本；

更新单元，用于根据所述识别准确率低于预设阈值时的语音信息和对应的准确识别文本，对所述匹配的语音识别模型进行更新。

与现有技术相比，本发明提供的一种语音识别方法及系统具有以下有益效果：

1、本发明通过建立不同地域不同年龄段的语音识别模型库，当采集到用户输入的语音信息后，先判断该语音信息是否为普通话，若该语音信息不为普通话时，获取用户的年龄信息和地域信息，然后根据用户的年龄信息和地域信息在语音识别模型库中查找对应的语音识别模型对用户输入的语音信息进行识别，从而解决用户因携带口音及年龄变化而导致的语音识别准确率低的问题，以提高语音识别的准确率，提高用户的使用体验。

2、在本发明一优选实施例中，当语音识别模型库中的某一语音识别模型的识别准确率较低时，对该语音识别模型进行更新，以提高该语音识别模型的语音识别准确率。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语音识别方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语音识别方法的第一实施例的流程示意图；

图2是本发明一种语音识别方法的第二实施例的流程示意图；

图3是本发明一种语音识别方法的第三实施例的流程示意图；

图4是本发明一种语音识别方法的第四实施例的流程示意图一；

图5是本发明一种语音识别方法的第四实施例的流程示意图二；

图6是本发明一种语音识别方法的第五实施例的流程示意图；

图7是本发明一种语音识别方法的第六实施例的流程示意图；

图8是本发明一种语音识别系统的一个实施例的结构示意框图；

图9是本发明一种语音识别系统的另一个实施例的结构示意框图。

附图标号说明

100、模型库建立模块； 110、语料信息获取单元；

120、语料信息分类单元； 130、识别模型训练单元；

140、模型库建立单元； 200、语音信息采集模块；

300、年龄及地域获取模块； 310、语音特征提取单元；

320、身份信息识别单元； 330、年龄及地域获取单元；

400、语音识别模块； 500、准确率获取模块；

600、标记模块； 700、更新模块；

710、语音及文本获取单元； 720、更新单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

根据本发明提供的第一实施例，如图1所示，一种语音识别方法，包括：

S100建立不同地域不同年龄段的语音识别模型库；

具体地，先建立语音识别模型库，语音识别模型库中包含多个语音识别模型，在每个地域根据不同年龄段分别设置一个语音识别模型，即在每个地域中，一个年龄段对应一个语音识别模型。

例如，3-5岁为一个年龄段，6-8岁为一个年龄段，9-10岁为一个年龄段等，在实际使用中，具体年龄段的划分可根据学生的成长阶段进行划分。地域的划分可根据市进行划分，将口音相同的一个或多个市划分为一个地域，然后在地域中根据学生的成长阶段将学生的年龄分为多个阶段，并在一个地域中针对每个年龄阶段分别构建一个语音识别模型，以形成不同地域不同年龄段的语音识别模型库。

S200采集用户输入的语音信息；

具体地，通过用户输入的唤醒信号启动语音搜索功能，然后通过学习设备等智能终端上的麦克风采集用户输入的语音信息。

S300当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息；

具体地，采集到用户输入的语音信息后，先判断用户输入的语音信息是否为普通话，若该用户输入的语音信息为普通话，则直接按照现有的语音识别过程对用户输入的语音信息进行识别，若用户输入的语音信息不是普通话时，即表示用户输入的语音信息中携带有口音，若采用现有的识别普通话的语音识别模型则无法准确地识别出该语音信息，因此，当判断出用户输入的语音信息不是普通话时，不能采用现有的识别普通话的语音识别模型，而是需要继续获取用户的年龄信息和地域信息。用户的年龄信息和地域信息可由用户直接输入，也可以根据采集到的语音信息识别得到。

S400根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别。

具体地，获取到用户的年龄信息和地域信息后，可先根据用户的地域信息在语音识别模型库中查找到与该地域信息对应的多个语音识别模型，然后根据用户的年龄信息，在这多个语音识别模型中查找到与用户的年龄信息匹配的语音识别模型，最后通过该匹配的语音识别模型对用户输入的语音信息进行识别，得到语音识别结果。

本发明通过建立不同地域不同年龄段的语音识别模型库，当采集到用户输入的语音信息后，先判断该语音信息是否为普通话，若该语音信息不为普通话时，获取用户的年龄信息和地域信息，然后根据用户的年龄信息和地域信息在语音识别模型库中查找对应的语音识别模型对用户输入的语音信息进行识别，从而解决用户因携带口音及年龄变化而导致的语音识别准确率低的问题，以提高语音识别的准确率，提高用户的使用体验。

根据本发明提供的第二实施例，如图2所示，一种语音识别方法，包括：

S110获取大量语料信息，并将所述语料信息按地域进行分类；

具体地，先通过人工或在网络上收集大量的语料信息，该语料信息包括音频信息、对应的文本信息，以及标注好的地域信息和被采集者的年龄信息，被采集者的年龄信息是指该音频信息的输入者的年龄信息。获取大量语料信息后，先将该语料信息按标注的地域信息进行分类。

S120对同一地域内的所述语料信息按年龄段进行分类；

具体地，将语料信息按地域信息进行分类后，在同一地域内，再将该地域内的语料信息按标注的被采集者的年龄信息进行分类。

S130根据同一地域同一年龄段内的所述语料信息，训练得到对应的语音识别模型；

具体地，将语料信息按地域和年龄进行分类后，根据每个地域内每个年龄段对应的语料信息，即可训练得到该地域该年龄段对应的语音识别模型。每个地域内的每一年龄段对应一个语音识别模型，通过该步骤即可得到多个语音识别模型。

S140根据不同地域内不同年龄段对应的语音识别模型，建立不同地域不同年龄段的语音识别模型库；

具体地，根据每个地域内每个年龄段对应的语音识别模型，即可形成不同地域不同年龄段的语音识别模型库。

S200采集用户输入的语音信息；

具体地，通过步骤S100至步骤S140即可得到不同地域不同年龄段的语音识别模型库，得到包括若干个语音识别模型的语音识别模型库后，当用户通过唤醒信号启动语音搜索功能后，通过麦克风采集用户输入的语音信息，然后判断用户输入的语音信息是否为普通话，如果不是，则获取用户的年龄信息和地域信息。

获取用户的年龄信息和地域信息后，先根据用户的地域信息在语音识别模型库中查找到与该地域信息对应的多个语音识别模型，然后根据用户的年龄信息，在这多个语音识别模型中查找到与用户的年龄信息匹配的语音识别模型，最后通过查找到的该匹配的语音识别模型对用户输入的语音信息进行识别，得到语音识别结果。

根据本发明提供的第三实施例，如图3所示，一种语音识别方法，包括：

S100建立不同地域不同年龄段的语音识别模型库；

S200采集用户输入的语音信息；

S310当所述用户输入的语音信息不为普通话时，提取所述语音信息中的语音特征；

具体地，当用户输入的语音信息不为普通话时，则不能使用现有的语音识别方法识别该用户输入的语音信息，本实施例的识别方法为先提取用户输入的语音信息中的语音特征，该语音特征可为音频声纹。

S320根据所述语音特征，识别所述用户的身份信息；

S330根据所述用户的身份信息，获取所述用户的年龄信息和地域信息；

具体地，提取出用户输入的语音信息中的音频声纹等语音特征后，可根据音频声纹等语音特征，识别出用户的身份信息。

用户在使用家教机等学习设备时一般需要先进行账号注册，在进行账号注册时，可获取用户的音频声纹、年龄信息和地域信息。当从用户输入的语音信息中提取出用户的音频声纹后，与学习设备上存储的用户注册时获取的音频声纹进行比对，当与某一音频声纹匹配时，即可根据该匹配的音频声纹识别出该用户的身份信息，然后根据用户的身份信息，获取该用户的年龄信息和地域信息。当在学习设备上查找不到与提取出的音频声纹匹配的音频声纹时，则证明该用户是新用户并未在该学习设备上进行注册，此时可要求用户先进行注册，并输入用户的年龄信息和地域信息。

具体地，获取到用户的年龄信息和地域信息后，先根据用户的地域信息在语音识别模型库中查找到与该地域信息对应的多个语音识别模型，然后根据用户的年龄信息，在这多个语音识别模型中查找到与用户的年龄信息匹配的语音识别模型，最后通过查找到的该匹配的语音识别模型对用户输入的语音信息进行识别，得到语音识别结果。

根据本发明提供的第四实施例，如图4所示，一种语音识别方法，包括：

S100建立不同地域不同年龄段的语音识别模型库；

S200采集用户输入的语音信息；

S400根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别；

S500获取用户输入的识别准确率；

S600当所述识别准确率低于预设阈值时，对所述匹配的语音识别模型进行标记；

S700当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新。

具体地，根据用户的年龄信息和地域信息，在语音识别模型库中查找匹配的语音识别模型对用户输入的语音信息进行语音识别后，还可输出语音识别结果，让用户判断该语音识别结果是否准确。例如，可将语音识别准确率分为5个等级，让用户选择该语音信息的语音识别准确率属于哪个级别，当用户输入的语音识别准确率低于预设阈值，对识别该语音信息的语音识别模型进行标记，对于同一个语音识别模型每标记一次，则标记次数加1，当识别该语音信息的语音识别模型的标记次数超过预设次数时，则证明识别该语音信息的语音识别模型的识别准确率太低，可能在训练时获取的语料信息不够准确，而导致语音识别准确率低，因此，需要对该语音识别模型进行更新。

优选地，如图5所示，S700当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新具体包括：

S710当所述匹配的语音识别模型的标记次数超过预设次数时，获取识别准确率低于预设阈值时的语音信息和对应的准确识别文本；

S720根据所述识别准确率低于预设阈值时的语音信息和对应的准确识别文本，对所述匹配的语音识别模型进行更新。

具体地，当语音识别模型被标记的次数超过预设次数，需要对该语音识别模型进行更新时，可获取在识别过程中，识别准确率低于预设阈值时的语音信息和对应的准确识别文本。

例如，当用户输入此次语音识别的准确率低于预设阈值时，学习设备可将此次用户输入的语音信息进行存储，并获取用户输入的准确识别文本，或者学习设备将该语音信息发送给服务器，由后台工作人员识别出该语音信息的准确识别文本，并发送给学习设备。

获取到识别准确率低于预设阈值时的语音信息和对应的准确识别文本后，即可根据该语音信息和对应的准确识别文本，对识别该语音信息的语音识别模型进行训练更新，以提高语音识别的准确率。

本实施例中，当语音识别模型库中的某一语音识别模型的识别准确率较低时，对该语音识别模型进行更新，以提高该语音识别模型的语音识别准确率。

根据本发明提供的第五实施例，如图6所示，一种语音识别方法，包括：

S110获取大量语料信息，并将所述语料信息按地域进行分类；

S120对同一地域内的所述语料信息按年龄段进行分类；

S200采集用户输入的语音信息；

S500获取用户输入的识别准确率；

优选地，S700当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新具体包括：

本实施例中的各个步骤的具体描述已经在上述对应的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本发明提供的第六实施例，如图7所示，一种语音识别方法，包括：

S100建立不同地域不同年龄段的语音识别模型库；

S200采集用户输入的语音信息；

S320根据所述语音特征，识别所述用户的身份信息；

S500获取用户输入的识别准确率；

根据本发明提供的第七实施例，如图8所示，一种语音识别系统，包括：

模型库建立模块100，用于建立不同地域不同年龄段的语音识别模型库；

语音信息采集模块200，用于采集用户输入的语音信息；

年龄及地域获取模块300，用于当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息；

语音识别模块400，用于根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别。

根据本发明提供的第八实施例，如图9所示，一种语音识别系统，包括：

语音信息采集模块200，用于采集用户输入的语音信息；

优选地，所述模型库建立模块100包括：

语料信息获取单元110，用于获取大量语料信息；

语料信息分类单元120，用于将所述语料信息按地域进行分类，并对同一地域内的所述语料信息按年龄段进行分类；

识别模型训练单元130，用于根据同一地域同一年龄段内的所述语料信息，训练得到对应的语音识别模型；

模型库建立单元140，用于根据不同地域内不同年龄段对应的语音识别模型，建立不同地域不同年龄段的语音识别模型库。

优选地，所述年龄及地域获取模块300包括：

语音特征提取单元310，用于当所述用户输入的语音信息不为普通话时，提取所述语音信息中的语音特征；

身份信息识别单元320，用于根据所述语音特征，识别所述用户的身份信息；

年龄及地域获取单元330，用于根据所述用户的身份信息，获取所述用户的年龄信息和地域信息。

优选地，语音识别系统还包括：

准确率获取模块500，用于获取用户输入的识别准确率；

标记模块600，用于当所述识别准确率低于预设阈值时，对所述匹配的语音识别模型进行标记；

更新模块700，用于当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新。

优选地，所述更新模块700包括：

语音及文本获取单元710，用于当所述匹配的语音识别模型的标记次数超过预设次数时，获取识别准确率低于预设阈值时的语音信息和对应的准确识别文本；

更新单元720，用于根据所述识别准确率低于预设阈值时的语音信息和对应的准确识别文本，对所述匹配的语音识别模型进行更新。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

建立不同地域不同年龄段的语音识别模型库；

采集用户输入的语音信息；

2.根据权利要求1所述的一种语音识别方法，其特征在于，所述建立不同地域不同年龄段的语音识别模型库具体包括：

获取大量语料信息，并将所述语料信息按地域进行分类；

对同一地域内的所述语料信息按年龄段进行分类；

3.根据权利要求1所述的一种语音识别方法，其特征在于，所述当所述用户输入的语音信息不为普通话时，获取所述用户的年龄信息和地域信息具体包括：

根据所述语音特征，识别所述用户的身份信息；

4.根据权利要求1-3任一项所述的一种语音识别方法，其特征在于，所述根据所述用户的年龄信息和地域信息，在所述语音识别模型库中查找匹配的语音识别模型对所述语音信息进行识别之后还包括：

获取用户输入的识别准确率；

5.根据权利要求4所述的一种语音识别方法，其特征在于，当所述匹配的语音识别模型的标记次数超过预设次数时，对所述匹配的语音识别模型进行更新具体包括：

6.一种语音识别系统，其特征在于，包括：

语音信息采集模块，用于采集用户输入的语音信息；

7.根据权利要求6所述的一种语音识别系统，其特征在于，所述模型库建立模块包括：

语料信息获取单元，用于获取大量语料信息；

8.根据权利要求6所述的一种语音识别系统，其特征在于，所述年龄及地域获取模块包括：

9.根据权利要求6-8任一项所述的一种语音识别系统，其特征在于，还包括：

准确率获取模块，用于获取用户输入的识别准确率；

10.根据权利要求9所述的一种语音识别系统，其特征在于，所述更新模块包括：