CN111583905A

CN111583905A - 一种语音识别转化方法及系统

Info

Publication number: CN111583905A
Application number: CN202010439672.8A
Authority: CN
Inventors: 杨彦; 罗文华; 马芳
Original assignee: Yancheng Institute of Industry Technology
Current assignee: Hefei Wisdom Dragon Machinery Design Co ltd; Shenzhen Aikebei Electronics Co ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-08-25
Anticipated expiration: 2039-04-29
Also published as: CN110070853A; CN111583905B; CN110070853B

Abstract

本发明提供了一种语音识别转化方法及系统，所述方法包括如下步骤：获取待识别的语音数据；根据多个语系数据库，识别所述语音数据所对应的语系；根据所述语系，从多个语系数据库中获取与所述语音数据对应的所述语系数据库；所述语系数据库，包括多个语种数据子库；从多个所述语种数据子库中获取与所述语音数据对应的语种；根据文本转换数据库，将所述语音数据转换为所述语种对应的文本数据；提取所述文本数据的关键词数据；获取所述语音数据中所述关键词数据对应的关键词语音数据，并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。

Description

一种语音识别转化方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别转化方法及系统。

背景技术

随着科学技术的不断发展，语音识别技术已经融入到了人们生活的方方面面。例如，人们在不方便手动输入文字时，通过将语音数据输入电子设备，电子设备对语音数据进行自动转换为文本数据。

但目前，传统的语音识别技术需要人工设置语音转换的语种，并不能够实现将语音数据转化为与语音数据具有相同语种的文本数据。因此，急需一种语音识别转化方法及系统。

发明内容

为解决上述技术问题，本发明提供一种语音识别转化方法及系统，用以实现对语音数据的语种的自动识别，转化为与语音数据具有相同语种的文本数据。

本发明实施例中提供了一种语音识别转化方法，所述方法包括如下步骤：

S101、获取待识别的语音数据；

S102、根据多个语系数据库，识别所述语音数据所对应的语系；

S103、根据所述语系，从多个语系数据库中获取与所述语音数据对应的所述语系数据库；所述语系数据库，包括多个语种数据子库；

S104、从多个所述语种数据子库中获取与所述语音数据对应的语种；

S105、根据文本转换数据库，将所述语音数据转换为所述语种对应的文本数据；

S106、提取所述文本数据的关键词数据；

S107、获取所述语音数据中所述关键词数据对应的关键词语音数据，并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。

在一个实施例中，多个所述语系数据库，包括印欧语系数据库，闪含语系数据库，阿尔泰语系数据库，乌拉尔语系数据库，高加索语系数据库，汉藏语系数据库和德拉维达语系数据库。

在一个实施例中，所述步骤S101、获取待识别的语音数据之后，所述方法包括：用于对所述语音数据进行预处理；具体步骤包括：

检测获取所述语音数据中的静音区间；

根据所述静音区间，对所述语音数据进行过滤处理，获取过滤处理后的语音数据。

在一个实施例中，所述步骤S102、根据多个语系数据库，识别所述语音数据所对应的语系；具体步骤包括：

获取所述语音数据的语系数据；具体包括：

将所述语音数据根据语音时长均等的分为两段子语音数据，并分别提取所述两段子语音数据的音频特征，形成两个语音频特征矩阵；并通过以下公式(1)，获取语系数据：

其中F为语系数据，(Y₁Y₂…Y_n)为第一段语音音频特征矩阵，(y₁y₂…y_n)为第二段语音音频特征矩阵；

并将所述语系数据与多个所述语系数据库内预设的语系阈值数据进行比对，获取所述语音数据的所对应的语系；

所述语系阈值数据，包括所述印欧语系数据库对应的印欧语系阈值数据、所述闪含语系数据库对应的闪含语系阈值数据、所述阿尔泰语系数据库对应的阿尔泰语系阈值数据、所述乌拉尔语系数据库对应的乌拉尔语系阈值数据、所述高加索语系数据库对应的高加索语系阈值数据、所述汉藏语系数据库对应的汉藏语系阈值数据和所述德拉维达语系数据库对应的德拉维达语系阈值数据。

在一个实施例中，所述步骤S102之后，所述方法还包括：

判断对所述语音数据的语系识别是否成功；

若识别成功，执行所述步骤S103；

若识别失败，则根据所述语系数据和所述语系阈值数据，计算所述语音数据的与所述语系阈值数据的语系类间距离数据；

获取所述语系类间距离中的最小值数据，并将所述最小值数据对应的语系作为所述语音数据的语系；

所述语系类间距离，包括所述语系数据与所述印欧语系阈值数据之间的印欧语系类间距离数据、所述语系数据与所述闪含语系阈值数据之间的闪含语系类间数据、所述语系数据与所述阿尔泰语系阈值数据之间的阿尔泰语系类间数据、所述语系数据与所述乌拉尔语系阈值数据之间的乌拉尔语系类间数据、所述语系数据与所述高加索语系阈值数据之间的高加索语系类间数据、所述语系数据与所述汉藏语系阈值数据之间的汉藏语系类间数据和所述语系数据与所述德拉维达语系阈值数据之间的德拉维达语系类间距离。

在一个实施例中，所述S106、提取所述文本数据的关键词数据；具体步骤包括：

对所述文本数据进行分词处理，获取多个词组；具体包括如下步骤：

建立分词模型；其具体步骤如下所示S201-S203：

S201将所述文本数据中的第一个字标注为B，

S202提取所述文本数据中标注为B的后一个字，并标注为C，同时提取所述文本数据中中C所对应的字的所有前一个字去重后组成集合D，利用公式(2)判断所述标注为B的字是否是词语的结束字段；

其中，P₁,P₂为中间函数，length(D)为集合D中间的字的个数，P(B)为出现标注为B所对应的字的概率，P(C)为出现标注为C所对应的字的概率，length(all)为文本总长度，P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率，若最终B＝B则，标注B不变，若B＝E则将所述标注为B改为标注为E；

S203判断所述C是否为最后一个字，若是，则将所述标注C改为标注E，分词结束；若不是，则将所述标注为C改为标注为B，重复步骤S202和S203；

对所述文本数据分词的步骤为：

将文本数据的开始阶段和所有标注为E的字段后面增加切割线，则任意两个切割线之间为一个词组，提取所有词组，形成词组向量F1，对所述词组向量F1去除重复值，形成相应的词组集合F2，则所述集合F2中的词组则为分词处理后获取的词组，F2中含有词组个数为N个；

提取所述词组中的关键词数据；具体步骤包括：

首先利用公式(3)计算集合F2中每个词组的关键得分；

其中，Q_i为F2中第i个词组的得分，e为自然常数，lenght(F2_i)为F2中第i个词组的长度，P(F2_i)为F2中第i个词组的长度在向量F1中出现的次数，i＝1、2、3……n；

利用公式(4)确定关键词数据；

gjc＝find(max(Q₁,Q₂,Q₃……Q_N))

(4)

其中，gjc为最终得到的关键词，find(A)为寻找出A的值所对应的关键词，max()求取最大值；则gjc所对应的词则为确定的关键词数据。

一种语音识别转换系统，包括获取模块、语系识别模块、数据库选择模块、语种识别模块、文本转换模块、关键词提取模块和所述数据库更新模块；其中，所述获取模块，用于获取待识别的语音数据；

所述语系识别模块，用于根据多个语系数据库，识别与所述语音数据所对应的语系；

所述数据库选择模块，用于根据所述语系，从多个语系数据库中获取与所述语音数据对应的所述语系数据库；所述语系数据库，包括多个语种数据子库；

所述语种识别模块，用于从多个所述语种数据子库中获取与所述语音数据对应的语种；

所述文本转换模块，用于根据文本转换数据库，将所述语音数据转换为所述语种对应的文本数据；

所述关键词提取模块，用于提取所述文本数据的关键词数据；

所述数据库更新模块，用于获取所述语音数据中所述关键词数据对应的关键词语音数据，并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。

在一个实施例中，所述文本转换数据库，包括信息类别识别单元、第一存储区和第二存储区；

所述信息类别识别单元，用于将所述关键词语音数据向所述第一存储区传输，还用于将所述关键词数据向所述第二存储区传输；所述第一存储区，用于对所述关键词语音数据通过第一加密算法运算后进行存储；所述第二存储区，用于对所述关键词数据通过第二加密算法运算后进行存储；所述第一存储区中还存储有所述关键词语音数据对应的所述关键词数据的存储地址；

所述第一加密算法或者所述第二加密算法，包括等值加密算法、对称加密算法中的一种或多种。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供一种语音识别转化方法的结构示意图；

图2为本发明所提供一种语音识别转化系统的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种语音识别转化方法，如图1所示，方法包括如下步骤：

S101、获取待识别的语音数据；

S102、根据多个语系数据库，识别语音数据所对应的语系；

S103、根据语系，从多个语系数据库中获取与语音数据对应的语系数据库；语系数据库，包括多个语种数据子库；

S104、从多个语种数据子库中获取与语音数据对应的语种；

S105、根据文本转换数据库，将语音数据转换为语种对应的文本数据；

S106、提取文本数据的关键词数据；

S107、获取语音数据中关键词数据对应的关键词语音数据，并将关键词数据和关键词语音数据存储到文本转换数据库中。

上述方法的工作原理在于：通过多个语系数据库，获取待识别的语音数据所对应的语系；根据语系，选择与语音数据相对应的语系数据库，语系数据库中存储有多个语种数据子库；通过多个语种数据子库，获取待识别的语音数据的语种；并根据文本转换数据库，将语音数据转换为该语种所对应的文本数据；

提取文本数据中的关键词数据，并在语音数据中获取关键词数据所对应的关键词语音数据向文本转换数据库传输进行存储。

上述方法的有益效果在于：通过多个语系数据库，实现了对语音数据的语系的获取；通过语系数据库中的多个语种数据子库，实现了对语音数据的语种的获取；并根据文本转换数据库，实现了将语音数据按照语种转换为文本数据；从而实现了语音识别转化的功能；上述方法通过语种的识别，将所获取的语音数据转化为与语音数据相同语种的文本数据，从而实现了将语音数据转化为文本数据；并且通过多个语系数据库以及语系数据库中的多个语种数据子库，实现了对不同语种的语音数据的转化。并且提取所生成的文本数据中的关键词数据，获取语音数据中关键词数据对应的关键词语音数据，将关键词语音数据和关键词数据向文本转换数据库传输进行存储，从而实现了对文本转换数据库的更新，进一步地提高了以后语音识别转换的效率；解决了传统技术中语音转化时需要人工设置语音转换语种的不便，能够实现对语音数据的语种的自动识别，转化为与语音数据具有相同语种的文本数据。

在一个实施例中，多个语系数据库，包括印欧语系数据库，闪含语系数据库，阿尔泰语系数据库，乌拉尔语系数据库，高加索语系数据库，汉藏语系数据库和德拉维达语系数据库。上述技术方案中按照世界七大语系设置了七个语系语系数据库，从而实现了对语音数据的语系的识别。

在一个实施例中，步骤S101、获取待识别的语音数据之后，方法包括：用于对语音数据进行预处理；具体步骤包括：

检测获取语音数据中的静音区间；

根据静音区间，对语音数据进行过滤处理，获取过滤处理后的语音数据。上述技术方案中通过检测静音区间，过滤处理了语音数据中的静音部分，减少了后续步骤工作所需的时间，提高了工作效率。

在一个实施例中，步骤S102、根据多个语系数据库，识别语音数据所对应的语系；具体步骤包括：

获取语音数据的语系数据；具体包括：将语音数据根据语音时长均等的分为两段子语音数据，并分别提取两段子语音数据的音频特征，形成两个语音频特征矩阵；并通过以下公式(1)，获取语系数据：

并将语系数据与多个语系数据库内预设的语系阈值数据进行比对，获取语音数据的所对应的语系；

语系阈值数据，包括印欧语系数据库对应的印欧语系阈值数据、闪含语系数据库对应的闪含语系阈值数据、阿尔泰语系数据库对应的阿尔泰语系阈值数据、乌拉尔语系数据库对应的乌拉尔语系阈值数据、高加索语系数据库对应的高加索语系阈值数据、汉藏语系数据库对应的汉藏语系阈值数据和德拉维达语系数据库对应的德拉维达语系阈值数据。上述技术方案中通过获取语音数据的语系数据，并将语系数据与预设的多个语系数据库所对应的语系阈值数据进行比对，当语系数据在某一个语系数据库所对应的语系阈值数据范围内时，则判定语音数据为该语系数据库所对应的语系，从而实现了对语音数据语种的识别。

例如：所获取的语音数据的语系数据为3.45；印欧语系数据库对应的印欧语系阈值数据为1-2、闪含语系数据库对应的闪含语系阈值数据为3-4、阿尔泰语系数据库对应的阿尔泰语系阈值数据为5-6、乌拉尔语系数据库对应的乌拉尔语系阈值数据为7-8、高加索语系数据库对应的高加索语系阈值数据为9-10、汉藏语系数据库对应的汉藏语系阈值数据为11-12和德拉维达语系数据库对应的德拉维达语系阈值数据为13-14；则判定该语音数据的语系为闪含语系。

在一个实施例中，步骤S102之后，方法还包括：

判断对语音数据的语系识别是否成功；

若识别成功，执行步骤S103；

若识别失败，则根据语系数据和语系阈值数据，计算语音数据的与语系阈值数据的语系类间距离数据；

获取语系类间距离中的最小值数据，并将最小值数据对应的语系作为语音数据的语系；

语系类间距离，包括语系数据与印欧语系阈值数据之间的印欧语系类间距离数据、语系数据与闪含语系阈值数据之间的闪含语系类间数据、语系数据与阿尔泰语系阈值数据之间的阿尔泰语系类间数据、语系数据与乌拉尔语系阈值数据之间的乌拉尔语系类间数据、语系数据与高加索语系阈值数据之间的高加索语系类间数据、语系数据与汉藏语系阈值数据之间的汉藏语系类间数据和语系数据与德拉维达语系阈值数据之间的德拉维达语系类间距离。上述技术方案中对语音数据的语系识别是否成功进行了判断，当语系识别成功后，执行后续步骤；当语系识别失败后，则计算语系数据与多个语系阈值数据之间的多个语系类间距离数据，语系类间距离中的最小值数据作为语音数据的语系，从而实现了对所有语音数据语系的准确识别。

例如：所获取的语音数据的语系数据为4.65；印欧语系阈值数据为1-2、闪含语系阈值数据为3-4、阿尔泰语系阈值数据为5-6、乌拉尔语系阈值数据为7-8、高加索语系阈值数据为9-10、汉藏语系阈值数据为11-12和德拉维达语系阈值数据为13-14；语音数据的语系数据4.65不在任何一个语系阈值数据中，则识别失败；

通过计算获取语系数据3.45与印欧语系阈值数据1-2之间的印欧语系类间距离数据为2.65、语系数据与闪含语系阈值数据3-4之间的闪含语系类间数据为0.65、语系数据与阿尔泰语系阈值数据5-6之间的阿尔泰语系类间数据0.35、语系数据与乌拉尔语系阈值数据7-8之间的乌拉尔语系类间数据2.35、语系数据与高加索语系阈值数据9-10之间的高加索语系类间数据4.35、语系数据与汉藏语系阈值数据11-12之间的汉藏语系类间数据6.35和语系数据与德拉维达语系阈值数据13-14之间的德拉维达语系类间距离8.35；语系类间距离中的最小值数据为阿尔泰语系类间数据0.35，则认定该语音数据的语系为阿尔泰语系。

在一个实施例中，S106、提取文本数据的关键词数据；具体步骤包括：

对文本数据进行分词处理，获取多个词组；具体包括如下步骤：

建立分词模型；其具体步骤如下所示S201-S203：

S201、将文本数据中的第一个字标注为B，

S202、提取文本数据中标注为B的后一个字，并标注为C，同时提取文本数据中中C所对应的字的所有前一个字去重后组成集合D，利用公式(2)判断标注为B的字是否是词语的结束字段；

其中，P₁,P₂为中间函数，length(D)为集合D中间的字的个数，P(B)为出现标注为B所对应的字的概率，P(C)为出现标注为C所对应的字的概率，length(all)为文本总长度，P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率，若最终B＝B则，标注B不变，若B＝E则将标注为B改为标注为E；利用公式(2)，可以在不借助额外的样本数据库的情况下，将所述文本数据进行分词，且对分词进行处理时，在考虑第j个字的时候仅仅需要判断第j+1个字的情况，使判断计算量大幅度减小。

S203、判断C是否为最后一个字，若是，则将标注C改为标注E，分词结束；若不是，则将标注为C改为标注为B，重复步骤S202和S203；

对文本数据分词的步骤为：

将文本数据的开始阶段和所有标注为E的字段后面增加切割线，则任意两个切割线之间为一个词组，提取所有词组，形成词组向量F1，对词组向量F1去除重复值，形成相应的词组集合F2，则集合F2中的词组则为分词处理后获取的词组，F2中含有词组个数为N个；

提取词组中的关键词数据；具体步骤包括：

首先利用公式(3)计算集合F2中每个词组的关键得分；

其中，Q_i为F2中第i个词组的得分，e为自然常数，lenght(F2_i)为F2中第i个词组的长度，P(F2_i)为F2中第i个词组的长度在向量F1中出现的次数，i＝1、2、3……n；利用公式(3)在求解关键词数据的时候，并不仅仅是对词组进行出现次数最多的情况确认为关键词数据，而且充分的考虑了词组长短，避免了一些单独的语气助词成为关键词数据。

利用公式(4)确定关键词数据；

gjc＝find(max(Q₁,Q₂,Q₃……Q_N))

(4)

其中，gjc为最终得到的关键词，find(A)为寻找出A的值所对应的关键词，max()求取最大值；则gjc所对应的词则为确定的关键词数据。通过上述技术方案确定的关键词数据，实现了文本数据不借助任何外界样本数据库的情况下，利用少量的计算获取关键词数据，从而有效地提高了获取关键词数据的效率；上述技术方案中通过公式(2)、(3)和(4)，实现了对文本数据中的关键词数据的获取，并通过步骤S107将关键词数据和关键词语音数据向文本转换数据库传输，从而实现了对文本转换数据库的自动更新，进一步提高了步骤S105的文本转换效率。

一种语音识别转换系统，如图2所示，包括获取模块21、语系识别模块22、数据库选择模块23、语种识别模块24、文本转换模块25、关键词提取模块26和数据库更新模块27；其中，

获取模块21，用于获取待识别的语音数据；

语系识别模块22，用于根据多个语系数据库，识别与语音数据所对应的语系；

数据库选择模块23，用于根据语系，从多个语系数据库中获取与语音数据对应的语系数据库；语系数据库，包括多个语种数据子库；

语种识别模块24，用于从多个语种数据子库中获取与语音数据对应的语种；

文本转换模块25，用于根据文本转换数据库，将语音数据转换为语种对应的文本数据；

关键词提取模块26，用于提取文本数据的关键词数据；

数据库更新模块27，用于获取语音数据中关键词数据对应的关键词语音数据，并将关键词数据和关键词语音数据存储到文本转换数据库中。

上述系统的工作原理在于：获取模块21将语音数据向语系识别模块22传输；语系识别模块22根据多个语系数据库获取语音数据所对应的语系，并向数据库选择模块23传输；数据库选择模块23，用于根据语系从多个语系数据库中获取语音数据所对应的语系数据库；语种识别模块24根据语系数据库中多个语种数据子库，获取语音数据所对应的语种；文本转换模块25，用于根据文本转换数据库，按照所获取的语种将语音数据转换为文本数据；

关键词提取模块26，用于提取文本数据中的关键词数据；数据库更新模块24，用于根据关键词数据从语音数据中获取与关键词数据相对应的关键词语音数据，并将关键词数据和关键词语音数据向文本转换数据库传输进行存储。

上述系统的有益效果在于：通过语系识别模块，实现了对语音数据的语系的获取；通过数据库选择模块和语种识别模块，实现了对语音数据的语种的获取；并通过文本转换模块根据文本转换数据库，实现了将语音数据按照语种转换为文本数据；从而实现了语音识别转化的功能；上述系统通过语种的识别，将所获取的语音数据转化为与语音数据相同语种的文本数据，从而实现了将语音数据转化为文本数据；并且通过多个语系数据库以及语系数据库中的多个语种数据子库，实现了对不同语种的语音数据的转化。通过关键词提取模块，提取所生成的文本数据中的关键词数据；通过数据库更新模块，获取语音数据中关键词数据对应的关键词语音数据，将关键词语音数据和关键词数据向文本转换数据库传输进行存储，从而实现了对文本转换数据库的更新，进一步地提高了系统的音识别转换的效率；解决了传统技术中语音转化时需要人工设置语音转换语种的不便，从而实现了系统对语音数据的语种的自动识别，转化为与语音数据具有相同语种的文本数据。

在一个实施例中，文本转换数据库，包括信息类别识别单元、第一存储区和第二存储区；

信息类别识别单元，用于将关键词语音数据向第一存储区传输，还用于将关键词数据向第二存储区传输；第一存储区，用于对关键词语音数据通过第一加密算法运算后进行存储；第二存储区，用于对关键词数据通过第二加密算法运算后进行存储；第一存储区中还存储有关键词语音数据对应的关键词数据的存储地址；

第一加密算法或者第二加密算法，包括等值加密算法、对称加密算法中的一种或多种。上述技术方案中通过信息类别识别单元将关键词语音数据和关键词数据分别向第一存储区和第二存储区传输进行存储，并且第一存储区和第二存储区分别采用第一加密算法和第二加密算法对所存储的数据进行加密处理，有效地提高了文本转换数据库的存储数据的安全性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。