CN116612746A - 一种基于人工智能在声学库中进行语音编码识别的系统 - Google Patents
一种基于人工智能在声学库中进行语音编码识别的系统 Download PDFInfo
- Publication number
- CN116612746A CN116612746A CN202310868995.2A CN202310868995A CN116612746A CN 116612746 A CN116612746 A CN 116612746A CN 202310868995 A CN202310868995 A CN 202310868995A CN 116612746 A CN116612746 A CN 116612746A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- target
- feature
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 23
- 230000005477 standard model Effects 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013481 data capture Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于人工智能在声学库中进行语音编码识别的系统:获取目标数据,并截取当前的音频的编码数据,通过编码检测算法,将目标音频编码截取出来,作为检索的目标编码信息;将检索的目标编码信息上传,通过特征算法将目标编码的特征提取出来,存入声学库中;在声学库中建构特征模型和标准模型,将标准模型与特征模型进行对比,形成差异参数,获取的目标特征再次导入特征模型内,通过特征码率检测算法对差异参数进行检测,获取目标编码中的特征码率,并通过特征算法获取其相应的特征值;将目标编码中的特征码率和特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比对后获取波动曲线的绝对值。
Description
技术领域
本发明属于语音识别领域,特别涉及一种基于人工智能在声学库中进行语音编码识别的系统。
背景技术
目前,语音识别技术是通过机器的识别和理解过程将人发出的声音、字节或短语转换成相应的文字或符号,或者给出响应的一种信息技术。随着信息技术的飞速发展,语音识别技术已经广泛应用于人们的日常生活中。例如,使用终端设备时,采用语音识别技术可以通过输入语音的方式方便地在终端设备中输入信息。
语音识别技术的本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果输出。现有的语音识别技术采用的识别方法有多种,例如模型匹配法、概率模型法等。目前业界普遍采用的是概率模型法语音识别技术。概率模型法语音识别技术,是通过云端对大量的不同用户输入的语音进行声学训练,而得到一个通用的声学模型,根据所述通用的声学模型及语音模型将待识别的语音信号解码为文本输出。这种识别方法,主要是针对非特定人而言,其可对大部分人的语音进行识别,但是,由于其是通用的声学模型,当用户发音不够标准,或者带有地方口音时,这种通用的声学模型便无法准确的进行匹配计算,从而导致其识别结果准确度降低,不利于特定用户,尤其是发音不标准,有地方口音的用户进行使用。
人工智能(AI)技术在声学数据库中进行语音编码识别的系统是一种非常受欢迎的技术,它可以实现自动编码和识别,无需人工干预,并且具有以下优点: 自动化程度高:通过人工智能技术,可以自动完成语音编码识别的全过程,无需人工干预。 数据质量高:在声学数据库中进行语音编码识别,可以有效地提高数据的质量和可靠性。 可扩展性强:人工智能技术可以根据需要不断扩大数据库规模和算法模型,从而提高语音编码识别的准确率和效率。 因此,基于人工智能在声学库中进行语音编码识别的系统是一种非常重要的技术,它可以大大提高语音编码识别的效率和准确性,为语音识别领域的发展和应用提供了有力的支持。
因此,现在亟需一种基于人工智能在声学库中进行语音编码识别的系统。
发明内容
本发明提出一种基于人工智能在声学库中进行语音编码识别的系统,在声学数据中进行语音编码识别还需要解决如何使用人工智能技术对声学模型和语言模型进行联合训练,以实现更高的识别精度和更快的计算速度的问题。
本发明的技术方案是这样实现的:一种基于人工智能在声学库中进行语音编码识别的系统,包括:
获取目标数据,并截取当前的音频的编码数据,通过编码检测算法,将目标音频编码截取出来,作为检索的目标编码信息;
将检索的目标编码信息上传,通过特征算法将目标编码的特征提取出来,存入声学库中;
在声学库中建构特征模型和标准模型,将标准模型与特征模型进行对比,形成差异参数,将获取的目标特征再次导入特征模型内,通过特征码率检测算法对参数进行检测,获取编码中的特征码率,并通过特征算法获取其相应的特征值;
将解析编码中的特征码率的特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比获取的波动曲线的绝对值;
将波动曲线的绝对值进行分列展示,并按相似度拟合曲线从高到低进行排列,然后将识别匹配度输出后,进行审核选定后对语音编码进行识别。
作为一优选的实施方式,在获取目标数据,并截取当前的音频的编码数据时,使用训练数据集,对抓取数据的模块进行训练,以提取目标音频数据中的特征,并将其存储在抓取模型中。
作为一优选的实施方式,在完成音频数据抓取后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据。
作为一优选的实施方式,在进行预测处理后通过测试集对模型进行评估,评估模型的性能和预测准确性,根据测试评估结果,对预测数据进行应用和调整。
作为一优选的实施方式,在声学库中建构标准模型是将数据收集和清理语音编码数据,包括音频数据的来源、格式、尺寸信息,通过分析目标数据中的特征,以建立标准模型。
作为一优选的实施方式,在构建标准模型后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据,重复预测处理生成编码数据操作对标准模型进行训练。
作为一优选的实施方式,其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。
采用了上述技术方案后,本发明的有益效果是:可以提高语音编码的识别精度、减少语音编码的时间和资源占用。 具体来说,基于人工智能技术的声码器可以通过对大量音频数据进行学习,学习到每个语音信号的特征,并可以通过这些特征来识别不同的语音信号。这样,在编码过程中,就可以根据特征来选择最相关的语音信号进行编码,从而提高语音编码的识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种基于人工智能在声学库中进行语音编码识别的系统,在声学数据中进行语音编码识别还需要解决如何使用人工智能技术对声学模型和语言模型进行联合训练,以实现更高的识别精度和更快的计算速度的问题。
本发明的技术方案是这样实现的:一种基于人工智能在声学库中进行语音编码识别的系统,包括:
获取目标数据,并截取当前的音频的编码数据,通过编码检测算法,将目标音频编码截取出来,作为检索的目标编码信息;
将检索的目标编码信息上传,通过特征算法将目标编码的特征提取出来,存入声学库中;
在声学库中建构特征模型和标准模型,将标准模型与特征模型进行对比,形成差异参数,将获取的目标特征再次导入特征模型内,通过特征码率检测算法对参数进行检测,获取编码中的特征码率,并通过特征算法获取其相应的特征值;
将解析编码中的特征码率的特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比获取的波动曲线的绝对值;
将波动曲线的绝对值进行分列展示,并按相似度拟合曲线从高到低进行排列,然后将识别匹配度输出后,进行审核选定后对语音编码进行识别。
该系统的工作原理和工作流程如下:首先获取目标数据,并截取当前的音频的编码数据,通过编码检测算法,将目标音频编码截取出来,作为检索的目标编码信息;在这一步骤中,系统会获取需要识别的声音数据,并通过编码检测算法将其编码截取出来作为检索的目标编码信息。
将检索的目标编码信息上传,通过特征算法将目标编码的特征提取出来,存入声学库中;系统会将目标编码信息上传到声学库中,并通过特征算法将其特征提取出来,并存入声学库中。
在声学库中建构特征模型和标准模型,将标准模型与特征模型进行对比,形成差异参数,将获取的目标特征再次导入特征模型内,通过特征码率检测算法对参数进行检测,获取编码中的特征码率,并通过特征算法获取其相应的特征值;在这一步骤中,系统会在声学库中建构特征模型和标准模型,并将标准模型与特征模型进行对比,形成差异参数。然后将获取的目标特征再次导入特征模型内,并通过特征码率检测算法对参数进行检测,获取编码中的特征码率,并通过特征算法获取其相应的特征值。
将解析编码中的特征码率的特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比获取的波动曲线的绝对值;在这一步骤中,系统会将解析编码中的特征码率的特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比获取的波动曲线的绝对值。
将波动曲线的绝对值进行分列展示,并按相似度拟合曲线从高到低进行排列,然后将识别匹配度输出后,进行审核选定后对语音编码进行识别。在这一步骤中,系统会将波动曲线的绝对值进行分列展示,并按相似度拟合曲线从高到低进行排列。然后将识别匹配度输出后,进行审核选定后对语音编码进行识别。
在获取目标数据,并截取当前的音频的编码数据时,使用训练数据集,对抓取数据的模块进行训练,以提取目标音频数据中的特征,并将其存储在抓取模型中。在获取目标数据并截取当前音频的编码数据时,通常使用抓取数据的模块来训练一个抓取模型,以提取目标音频数据中的特征并将其存储在抓取模型中。 具体来说,这个过程是通过爬虫程序来获取目标数据,并将其存储在远程服务器上。然后,使用训练好的抓取模型来截取当前音频的编码数据,并使用该模型来提取目标音频数据中的特征。最后,将提取的特征存储在抓取模型中,这样就可以利用这个模型自动完成对音频数据的截取和编码任务。
在完成音频数据抓取后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据。在完成音频数据抓取后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据。 通常来说,这个过程是通过计算机程序来实现的,具体步骤可能包括网络爬虫程序、音频数据存储库、模型训练平台等。这个过程需要训练一个用于预测处理新收集到的音频数据的模型,并使用该模型来生成新的编码数据。
在进行预测处理后通过测试集对模型进行评估,评估模型的性能和预测准确性,根据测试评估结果,对预测数据进行应用和调整。在进行预测处理后,可以通过构建测试集对模型进行评估,评估模型的性能和预测准确性。测试集可以是由多个音频数据组成的组合,也可以是单独的音频数据。评估模型的性能和预测准确性需要通过对大量数据的处理和分析,并通过得出的评估结果来确定模型的性能和预测精度。 根据测试评估结果,可以对预测数据进行应用和调整,以提高模型的性能和精度。这可以通过修改模型参数、调整训练集和测试集等方式实现。例如,可以通过增加数据样本的数量、减小训练集的大小等方式来提高模型的性能和精度。
在声学库中建构标准模型是将数据收集和清理语音编码数据,包括音频数据的来源、格式、尺寸信息,通过分析目标数据中的特征,以建立标准模型。将目标数据的来源、格式和尺寸等信息收集和清理后,通过分析这些信息来建立标准模型。标准模型的建立可以帮助我们更好地理解数据,从而提高模型的准确性和泛化能力。
其中的标准模型构建采用的步骤为数据收集和清理:首先需要从各种渠道(例如网络爬虫、数据中心、外部服务器等)获取目标数据,并将其转换为能够用于模型训练的格式。同 时,还需要对数据进行去重、缩放、归一化等预处理,以确保数据的完整性和一致性。特征提取:在对数据进行收集和处理后,需要通过分析这些特征来提取数据中能够代表目标数据的特征。特征提取的步骤可能包括短时能量谱、音高、基音周期等。 标准模型建立:通过对提取的特征进行分析和比较,并结合训练数据集和预测数据集的特点,最终确立标准模型。标准模型可能包括一个简单的线性回归模型,也可能包括一个神经网络模型。 需要注意的是,在建构标准模型过程中,可能需要采用多种方法和技术来收集和清理数据,以确保数据的质量和一致性。
在构建标准模型后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据,重复预测处理生成编码数据操作对标准模型进行训练。在构建标准模型后,可以使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据。这是因为标准模型建立后,其内部的参数和结构已经被训练好,可以用于对新数据进行预测处理。通过不断重复预测处理生成编码数据操作,训练好的模型可以提高对新数据的预测精度,从而生成更具有普遍意义的编码数据。
其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。短时分析是指对音频数据进行一段时间内的分析,主要用于识别语音信号中的不同声音特征。短时分析的方法包括时域分析和频域分析。时域分析通常采用循环频率估计算法来提取时间序列数据,而频域分析则是通过计算每个音频信号的能量谱,以识别音频信号中的不同声音特征。能量谱是指在音频信号中能量分布的描述,它可以用来反映音频信号的强度和变化趋势。能量谱可以通过计算每个音频信号的能量,并将其分配到不同的频率段上。 基音周期是指音频信号中固定的基音周期,它是由语音信号的频率特性和时间特性所决定的。基音周期通常被用于识别基音频率为基音周期的音段。 声学频率数据是指音频信号中固定的声学频率,它是由音频信号的频谱特征所决定的。短时分析、能量谱和声学频率数据是常用的特征提取方法,它们可以用于识别不同的声音特征,并为标准模型提供输入数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于,包括:
获取目标数据,并截取当前的音频的编码数据,通过编码检测算法,将目标音频编码截取出来,作为检索的目标编码信息;
将检索的目标编码信息上传,通过特征算法将目标编码的特征提取出来,存入声学库中;
在声学库中建构特征模型和标准模型,将标准模型与特征模型进行对比,形成差异参数,将获取的目标特征再次导入特征模型内,通过特征码率检测算法对参数进行检测,获取编码中的特征码率,并通过特征算法获取其相应的特征值;
将解析编码中的特征码率的特征值与声学库中的标准模型进行比对,将差异参数作为导引与特征值进行匹配后与标准模型进行比对,通过比获取的波动曲线的绝对值;
将波动曲线的绝对值进行分列展示,并按相似度拟合曲线从高到低进行排列,然后将识别匹配度输出后,进行审核选定后对语音编码进行识别。
2.如权利要求1所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:在获取目标数据,并截取当前的音频的编码数据时,使用训练数据集,对抓取数据的模块进行训练,以提取目标音频数据中的特征,并将其存储在抓取模型中。
3.如权利要求2所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:在完成音频数据抓取后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据。
4.如权利要求3所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:在进行预测处理后通过测试集对模型进行评估,评估模型的性能和预测准确性,根据测试评估结果,对预测数据进行应用和调整。
5.如权利要求1所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:在声学库中建构标准模型是将数据收集和清理语音编码数据,包括音频数据的来源、格式、尺寸信息,通过分析目标数据中的特征,以建立标准模型。
6.如权利要求5所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:在构建标准模型后,使用训练好的模型对新收集到的音频数据进行预测处理,以生成新的编码数据,重复预测处理操作,生成编码数据对标准模型进行训练。
7.如权利要求5所述的一种基于人工智能在声学库中进行语音编码识别的系统,其特征在于:其中分析目标数据中的特征包括短时分析、能量谱、声学频率数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868995.2A CN116612746B (zh) | 2023-07-17 | 2023-07-17 | 一种基于人工智能在声学库中进行语音编码识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868995.2A CN116612746B (zh) | 2023-07-17 | 2023-07-17 | 一种基于人工智能在声学库中进行语音编码识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612746A true CN116612746A (zh) | 2023-08-18 |
CN116612746B CN116612746B (zh) | 2023-10-03 |
Family
ID=87676730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310868995.2A Active CN116612746B (zh) | 2023-07-17 | 2023-07-17 | 一种基于人工智能在声学库中进行语音编码识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612746B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001356792A (ja) * | 2000-04-24 | 2001-12-26 | Lucent Technol Inc | 自動音声認識実行方法および装置 |
CN102237085A (zh) * | 2010-04-26 | 2011-11-09 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN105845132A (zh) * | 2016-03-22 | 2016-08-10 | 宁波大学 | 一种基于编码参数统计特性的aac录音文件来源识别方法 |
CN112185352A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 语音识别方法、装置及电子设备 |
CN116129863A (zh) * | 2022-11-24 | 2023-05-16 | 马上消费金融股份有限公司 | 语音合成模型的训练方法、语音合成方法及相关装置 |
-
2023
- 2023-07-17 CN CN202310868995.2A patent/CN116612746B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001356792A (ja) * | 2000-04-24 | 2001-12-26 | Lucent Technol Inc | 自動音声認識実行方法および装置 |
CN102237085A (zh) * | 2010-04-26 | 2011-11-09 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN105845132A (zh) * | 2016-03-22 | 2016-08-10 | 宁波大学 | 一种基于编码参数统计特性的aac录音文件来源识别方法 |
CN112185352A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 语音识别方法、装置及电子设备 |
CN116129863A (zh) * | 2022-11-24 | 2023-05-16 | 马上消费金融股份有限公司 | 语音合成模型的训练方法、语音合成方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116612746B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105957531B (zh) | 基于云平台的演讲内容提取方法及装置 | |
CN105895078A (zh) | 动态选择语音模型的语音识别方法及装置 | |
CN110647656B (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
CN107871499A (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
CN110797032A (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN110534091A (zh) | 一种基于微服务器及智能语音识别的人车交互方法 | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
CN112035700B (zh) | 一种基于cnn的语音深度哈希学习方法及系统 | |
CN116580706B (zh) | 一种基于人工智能的语音识别方法 | |
CN113421585A (zh) | 一种音频指纹库生成方法及装置 | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
CN117524259A (zh) | 音频处理方法及系统 | |
CN116612746B (zh) | 一种基于人工智能在声学库中进行语音编码识别方法 | |
Xie et al. | Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification | |
Mane et al. | Identification & Detection System for Animals from their Vocalization | |
Diez Gaspon et al. | Deep learning for natural sound classification | |
Chit et al. | Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation | |
CN113129926A (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 | |
Aurchana et al. | Musical instruments sound classification using GMM | |
CN117409761B (zh) | 基于频率调制的人声合成方法、装置、设备及存储介质 | |
Bora et al. | Speaker identification for biometric access control using hybrid features | |
Dat et al. | Generalized Gaussian distribution Kullback-Leibler kernel for robust sound event recognition | |
Merzougui et al. | Diagnosing Spasmodic Dysphonia with the Power of AI | |
CN117877510A (zh) | 语音自动化测试的方法、装置、电子设备及存储介质 | |
CN118155623A (zh) | 基于人工智能的语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |