CN116612746A

CN116612746A - 一种基于人工智能在声学库中进行语音编码识别的系统

Info

Publication number: CN116612746A
Application number: CN202310868995.2A
Authority: CN
Inventors: 史博林
Original assignee: Beijing Huaixin Iot Technology Co ltd
Current assignee: Beijing Huaixin Iot Technology Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-18
Anticipated expiration: 2043-07-17
Also published as: CN116612746B

Abstract

本发明提出了一种基于人工智能在声学库中进行语音编码识别的系统：获取目标数据，并截取当前的音频的编码数据，通过编码检测算法，将目标音频编码截取出来，作为检索的目标编码信息；将检索的目标编码信息上传，通过特征算法将目标编码的特征提取出来，存入声学库中；在声学库中建构特征模型和标准模型，将标准模型与特征模型进行对比，形成差异参数，获取的目标特征再次导入特征模型内，通过特征码率检测算法对差异参数进行检测，获取目标编码中的特征码率，并通过特征算法获取其相应的特征值；将目标编码中的特征码率和特征值与声学库中的标准模型进行比对，将差异参数作为导引与特征值进行匹配后与标准模型进行比对，通过比对后获取波动曲线的绝对值。

Description

一种基于人工智能在声学库中进行语音编码识别的系统

技术领域

本发明属于语音识别领域，特别涉及一种基于人工智能在声学库中进行语音编码识别的系统。

背景技术

目前，语音识别技术是通过机器的识别和理解过程将人发出的声音、字节或短语转换成相应的文字或符号，或者给出响应的一种信息技术。随着信息技术的飞速发展，语音识别技术已经广泛应用于人们的日常生活中。例如，使用终端设备时，采用语音识别技术可以通过输入语音的方式方便地在终端设备中输入信息。

语音识别技术的本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果输出。现有的语音识别技术采用的识别方法有多种，例如模型匹配法、概率模型法等。目前业界普遍采用的是概率模型法语音识别技术。概率模型法语音识别技术，是通过云端对大量的不同用户输入的语音进行声学训练，而得到一个通用的声学模型，根据所述通用的声学模型及语音模型将待识别的语音信号解码为文本输出。这种识别方法，主要是针对非特定人而言，其可对大部分人的语音进行识别，但是，由于其是通用的声学模型，当用户发音不够标准，或者带有地方口音时，这种通用的声学模型便无法准确的进行匹配计算，从而导致其识别结果准确度降低，不利于特定用户，尤其是发音不标准，有地方口音的用户进行使用。

人工智能（AI）技术在声学数据库中进行语音编码识别的系统是一种非常受欢迎的技术，它可以实现自动编码和识别，无需人工干预，并且具有以下优点：自动化程度高：通过人工智能技术，可以自动完成语音编码识别的全过程，无需人工干预。数据质量高：在声学数据库中进行语音编码识别，可以有效地提高数据的质量和可靠性。可扩展性强：人工智能技术可以根据需要不断扩大数据库规模和算法模型，从而提高语音编码识别的准确率和效率。因此，基于人工智能在声学库中进行语音编码识别的系统是一种非常重要的技术，它可以大大提高语音编码识别的效率和准确性，为语音识别领域的发展和应用提供了有力的支持。

因此，现在亟需一种基于人工智能在声学库中进行语音编码识别的系统。

发明内容

本发明提出一种基于人工智能在声学库中进行语音编码识别的系统，在声学数据中进行语音编码识别还需要解决如何使用人工智能技术对声学模型和语言模型进行联合训练，以实现更高的识别精度和更快的计算速度的问题。

本发明的技术方案是这样实现的：一种基于人工智能在声学库中进行语音编码识别的系统，包括：

获取目标数据，并截取当前的音频的编码数据，通过编码检测算法，将目标音频编码截取出来，作为检索的目标编码信息；

将检索的目标编码信息上传，通过特征算法将目标编码的特征提取出来，存入声学库中；

在声学库中建构特征模型和标准模型，将标准模型与特征模型进行对比，形成差异参数，将获取的目标特征再次导入特征模型内，通过特征码率检测算法对参数进行检测，获取编码中的特征码率，并通过特征算法获取其相应的特征值；

将解析编码中的特征码率的特征值与声学库中的标准模型进行比对，将差异参数作为导引与特征值进行匹配后与标准模型进行比对，通过比获取的波动曲线的绝对值；

将波动曲线的绝对值进行分列展示，并按相似度拟合曲线从高到低进行排列，然后将识别匹配度输出后，进行审核选定后对语音编码进行识别。

作为一优选的实施方式，在获取目标数据，并截取当前的音频的编码数据时，使用训练数据集，对抓取数据的模块进行训练，以提取目标音频数据中的特征，并将其存储在抓取模型中。

作为一优选的实施方式，在完成音频数据抓取后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据。

作为一优选的实施方式，在进行预测处理后通过测试集对模型进行评估，评估模型的性能和预测准确性，根据测试评估结果，对预测数据进行应用和调整。

作为一优选的实施方式，在声学库中建构标准模型是将数据收集和清理语音编码数据，包括音频数据的来源、格式、尺寸信息，通过分析目标数据中的特征，以建立标准模型。

作为一优选的实施方式，在构建标准模型后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据，重复预测处理生成编码数据操作对标准模型进行训练。

作为一优选的实施方式，其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。

采用了上述技术方案后，本发明的有益效果是：可以提高语音编码的识别精度、减少语音编码的时间和资源占用。具体来说，基于人工智能技术的声码器可以通过对大量音频数据进行学习，学习到每个语音信号的特征，并可以通过这些特征来识别不同的语音信号。这样，在编码过程中，就可以根据特征来选择最相关的语音信号进行编码，从而提高语音编码的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于人工智能在声学库中进行语音编码识别的系统，在声学数据中进行语音编码识别还需要解决如何使用人工智能技术对声学模型和语言模型进行联合训练，以实现更高的识别精度和更快的计算速度的问题。

该系统的工作原理和工作流程如下：首先获取目标数据，并截取当前的音频的编码数据，通过编码检测算法，将目标音频编码截取出来，作为检索的目标编码信息；在这一步骤中，系统会获取需要识别的声音数据，并通过编码检测算法将其编码截取出来作为检索的目标编码信息。

将检索的目标编码信息上传，通过特征算法将目标编码的特征提取出来，存入声学库中；系统会将目标编码信息上传到声学库中，并通过特征算法将其特征提取出来，并存入声学库中。

在声学库中建构特征模型和标准模型，将标准模型与特征模型进行对比，形成差异参数，将获取的目标特征再次导入特征模型内，通过特征码率检测算法对参数进行检测，获取编码中的特征码率，并通过特征算法获取其相应的特征值；在这一步骤中，系统会在声学库中建构特征模型和标准模型，并将标准模型与特征模型进行对比，形成差异参数。然后将获取的目标特征再次导入特征模型内，并通过特征码率检测算法对参数进行检测，获取编码中的特征码率，并通过特征算法获取其相应的特征值。

将解析编码中的特征码率的特征值与声学库中的标准模型进行比对，将差异参数作为导引与特征值进行匹配后与标准模型进行比对，通过比获取的波动曲线的绝对值；在这一步骤中，系统会将解析编码中的特征码率的特征值与声学库中的标准模型进行比对，将差异参数作为导引与特征值进行匹配后与标准模型进行比对，通过比获取的波动曲线的绝对值。

将波动曲线的绝对值进行分列展示，并按相似度拟合曲线从高到低进行排列，然后将识别匹配度输出后，进行审核选定后对语音编码进行识别。在这一步骤中，系统会将波动曲线的绝对值进行分列展示，并按相似度拟合曲线从高到低进行排列。然后将识别匹配度输出后，进行审核选定后对语音编码进行识别。

在获取目标数据，并截取当前的音频的编码数据时，使用训练数据集，对抓取数据的模块进行训练，以提取目标音频数据中的特征，并将其存储在抓取模型中。在获取目标数据并截取当前音频的编码数据时，通常使用抓取数据的模块来训练一个抓取模型，以提取目标音频数据中的特征并将其存储在抓取模型中。具体来说，这个过程是通过爬虫程序来获取目标数据，并将其存储在远程服务器上。然后，使用训练好的抓取模型来截取当前音频的编码数据，并使用该模型来提取目标音频数据中的特征。最后，将提取的特征存储在抓取模型中，这样就可以利用这个模型自动完成对音频数据的截取和编码任务。

在完成音频数据抓取后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据。在完成音频数据抓取后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据。通常来说，这个过程是通过计算机程序来实现的，具体步骤可能包括网络爬虫程序、音频数据存储库、模型训练平台等。这个过程需要训练一个用于预测处理新收集到的音频数据的模型，并使用该模型来生成新的编码数据。

在进行预测处理后通过测试集对模型进行评估，评估模型的性能和预测准确性，根据测试评估结果，对预测数据进行应用和调整。在进行预测处理后，可以通过构建测试集对模型进行评估，评估模型的性能和预测准确性。测试集可以是由多个音频数据组成的组合，也可以是单独的音频数据。评估模型的性能和预测准确性需要通过对大量数据的处理和分析，并通过得出的评估结果来确定模型的性能和预测精度。根据测试评估结果，可以对预测数据进行应用和调整，以提高模型的性能和精度。这可以通过修改模型参数、调整训练集和测试集等方式实现。例如，可以通过增加数据样本的数量、减小训练集的大小等方式来提高模型的性能和精度。

在声学库中建构标准模型是将数据收集和清理语音编码数据，包括音频数据的来源、格式、尺寸信息，通过分析目标数据中的特征，以建立标准模型。将目标数据的来源、格式和尺寸等信息收集和清理后，通过分析这些信息来建立标准模型。标准模型的建立可以帮助我们更好地理解数据，从而提高模型的准确性和泛化能力。

其中的标准模型构建采用的步骤为数据收集和清理：首先需要从各种渠道（例如网络爬虫、数据中心、外部服务器等）获取目标数据，并将其转换为能够用于模型训练的格式。同时，还需要对数据进行去重、缩放、归一化等预处理，以确保数据的完整性和一致性。特征提取：在对数据进行收集和处理后，需要通过分析这些特征来提取数据中能够代表目标数据的特征。特征提取的步骤可能包括短时能量谱、音高、基音周期等。标准模型建立：通过对提取的特征进行分析和比较，并结合训练数据集和预测数据集的特点，最终确立标准模型。标准模型可能包括一个简单的线性回归模型，也可能包括一个神经网络模型。需要注意的是，在建构标准模型过程中，可能需要采用多种方法和技术来收集和清理数据，以确保数据的质量和一致性。

在构建标准模型后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据，重复预测处理生成编码数据操作对标准模型进行训练。在构建标准模型后，可以使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据。这是因为标准模型建立后，其内部的参数和结构已经被训练好，可以用于对新数据进行预测处理。通过不断重复预测处理生成编码数据操作，训练好的模型可以提高对新数据的预测精度，从而生成更具有普遍意义的编码数据。

其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。短时分析是指对音频数据进行一段时间内的分析，主要用于识别语音信号中的不同声音特征。短时分析的方法包括时域分析和频域分析。时域分析通常采用循环频率估计算法来提取时间序列数据，而频域分析则是通过计算每个音频信号的能量谱，以识别音频信号中的不同声音特征。能量谱是指在音频信号中能量分布的描述，它可以用来反映音频信号的强度和变化趋势。能量谱可以通过计算每个音频信号的能量，并将其分配到不同的频率段上。基音周期是指音频信号中固定的基音周期，它是由语音信号的频率特性和时间特性所决定的。基音周期通常被用于识别基音频率为基音周期的音段。声学频率数据是指音频信号中固定的声学频率，它是由音频信号的频谱特征所决定的。短时分析、能量谱和声学频率数据是常用的特征提取方法，它们可以用于识别不同的声音特征，并为标准模型提供输入数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于，包括：

2.如权利要求1所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：在获取目标数据，并截取当前的音频的编码数据时，使用训练数据集，对抓取数据的模块进行训练，以提取目标音频数据中的特征，并将其存储在抓取模型中。

3.如权利要求2所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：在完成音频数据抓取后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据。

4.如权利要求3所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：在进行预测处理后通过测试集对模型进行评估，评估模型的性能和预测准确性，根据测试评估结果，对预测数据进行应用和调整。

5.如权利要求1所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：在声学库中建构标准模型是将数据收集和清理语音编码数据，包括音频数据的来源、格式、尺寸信息，通过分析目标数据中的特征，以建立标准模型。

6.如权利要求5所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：在构建标准模型后，使用训练好的模型对新收集到的音频数据进行预测处理，以生成新的编码数据，重复预测处理操作，生成编码数据对标准模型进行训练。

7.如权利要求5所述的一种基于人工智能在声学库中进行语音编码识别的系统，其特征在于：其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。