CN116682414B - 一种基于大数据的方言语音识别系统 - Google Patents
一种基于大数据的方言语音识别系统 Download PDFInfo
- Publication number
- CN116682414B CN116682414B CN202310663719.2A CN202310663719A CN116682414B CN 116682414 B CN116682414 B CN 116682414B CN 202310663719 A CN202310663719 A CN 202310663719A CN 116682414 B CN116682414 B CN 116682414B
- Authority
- CN
- China
- Prior art keywords
- dialect
- voice
- data
- recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 241001672694 Citrus reticulata Species 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于大数据的方言语音识别系统,涉及语音识别技术领域,解决了现有技术针对每个语音指令匹配对应的语音特征,影响方言识别效率,降低了智能终端控制体验的技术问题;本发明基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别;本发明设计了一种通用可靠的方言识别系统,不需要提前录制语音数据,提升用户体验;本发明根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;本发明通过对若干多源语音数据的分析,确定最贴合的目标特征组,通过目标特征组实现的方言识别应用范围更广,识别的内容更加丰富。
Description
技术领域
本发明属于语音识别领域,涉及基于大数据的方言语音识别技术,具体是一种基于大数据的方言语音识别系统。
背景技术
很多智能终端中均引入了语音控制技术,但大多智能设备仅能识别普通话,对于方言区的用户来说并不实用。各种方言之间存在一定相似度,但在语言层面上通常存在较大差异,因此开发出能够进行方言识别的语音识别系统非常重要。
目前的方言识别系统进行方言识别时,需要用户录入语音指令以及对应的操作指令;之后在获取语音信息之后,提取语音信息中的语音指令,进而根据语音指令匹配发出对应的操作指令。现有技术需要进行信息提前录入,以及根据预先设置的至少一个语音特征来识别语音指令;增加操作难度,同时针对单个语音指令进行匹配难以完成连续语音的识别,影响方言识别效率,进而导致智能设备的控制效果不好。
本发明提出了一种基于大数据的方言语音识别系统,以解决上述问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了一种基于大数据的方言语音识别系统,用于解决现有技术针对每个语音指令匹配对应的语音特征,影响方言识别效率,降低了智能终端控制体验的技术问题。
为实现上述目的,本发明的第一方面提供了一种基于大数据的方言语音识别系统,包括中枢控制模块,以及与之相连接的数据交互模块;数据交互模块分别与数据库和语音采集设备相连接;中枢控制模块通过数据库提取若干多源语音数据;按照方言类型对若干多源语音数据进行归类,获取若干方言组;之后获取若干语音特征,组合若干语音特征获取若干语音特征组;以及通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;中枢控制模块通过语音采集设备采集实时语音数据;基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别。
现有技术在进行方言识别时,需要预先录制语音指令以及对应的操作指令,对语音指令和操作指令进行处理关联后备用。在用户通过语音进行控制时采集语音数据,从语音数据中提取语音指令,根据语音指令匹配对应的控制指令。这种方式不仅需要提前进行数据录制,影响用户体验;而且在没有相对应的语音指令时即无法进行控制,限制了该方言识别方法的应用领域。
本发明根据记载或者已知的方言类型设置若干语音特征组,并通过大量的多源语音数据验证各语音特征组的效果,选择效果最好的一个作为目标特征组,并将验证过程中该目标特征组对应的人工智能模型标记为方言识别模型。之后通过语音采集设备采集实时语音数据,按照目标特征组对其进行特征提取,结合方言识别模型可确定对应的方言类型,结合相匹配的语音转换模型将实时语音数据转换成普通话,便于后续的控制。
本发明中的中枢控制模块与数据交互模块通信和/或电气连接;数据交互模块分别与数据库和语音采集设备通信和/或电气连接;数据库用于存储多源语音数据和若干语音特征;语音采集设备用于采集用户的实时语音数据。中枢控制模块主要负责数据处理工作,数据交互模块则负责采集数据;数据库可设置在后端或者云存储器中;数据处理过程均可在云服务器中进行。语音采集设备可集成在智能终端中,用于实时采集用户的实时语音数据。本发明的多源语音数据通过大数据技术获取,是通过大数据技术从互联网或者第三方数据库中获取的各种方言对应的语音数据集。
本发明中的语言转换模型将方言语音数据转换为普通话语音数据,每种类型的方言数据均对应一个语言转换模型,该语言转换模型也是基于人工智能模型构建的。具体构建方式可参考公开号为CN112509555A的中国发明专利申请,该发明专利申请公开了一种方言语音识别方法、装置、介质及电子设备。该方法包括:获取待识别方言语音;将待识别方言语音输入编码模型得到与待识别方言语音对应的待识别低维序列,编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,将待识别低维序列进行解码,得到与待识别方言语音对应的文本,能够在一定程度上增加方言语音识别的准确性。
优选的,所述按照方言类型对多源语音数据进行归类,包括:根据方言类型对多源语音数据进行划分,获取若干数据组;验证若干数据组中多源语音数据的数量大于数量阈值;是,则将若干数据组标记为若干方言组,并与方言类型进行关联;否,则对数据组进行数据补充。
本发明根据预先设置的方言类型对多源语音数据进行划分,这样可获取包含同种方言语音数据的若干数据组。之后,需要对若干数据组进行验证,这里主要进行数量验证,只有语音数据的数量足够时才能挖掘出该种方言与其他方言之间语音特征的区别。当某方言对应数据组的语音数据数量不满足要求时,则对其进行补充。在另外一些优选的实施例中,在数量验证的基础上还可以进行质量验证,如语音数据内容是否有效,语音数据是否足够长等。需要说明的是,本发明中方言类型根据记载的方言区或者方言区中的地方方言设置。
优选的,所述组合若干语音特征获取若干语音特征组,包括:在效率和精度的基础上预先设置语音特征组对应语音特征的数量范围;将若干语音特征划分为主特征和次特征;在数量范围的限定下对次特征进行排列组合,获取若干次特征组;将若干次特征组与主特征整合,获取若干语音特征组。
本发明中的主特征和次特征按照方言识别过程各自对应的权重进行划分。主特征包括基频特征、能量特征和时长特征;基频特征主要包括基音频率及其均值、变化范围、变化率和均方差;能量特征主要包括短时平均能量、短时能量变化率、短时平均振幅、振幅平均变化率和短时最大振幅;时长特征主要包括语速和短时平均过零率。次特征包括基频构造、共振峰构造、MFCC系数或者Mel频谱能量动态系数;基频构造包括基频轨迹曲线的最大值、整个曲线的基频平均值、变化范围以及基音频率的1/4分位点、3/4分位点、1/3分位点和2/3分位点;共振峰构造包括第一共振峰频率、第二共振峰频率、第三共振峰频率的最大值、平均值、动态变化范围、1/4分位点、3/4分位点、1/3分位点和2/3分位点;MFCC系数包括1-12阶的MFCC系数;Mel频谱能量动态系数包括12个等间隔的频带上的频谱能量动态系数。
在效率和精度的双重考虑下设置语音特征组对应语音特征的数量范围。效率的限制主要是避免数量范围过大,如某语音特征组的语音特征数量为10000,则明显会降低数据处理效率。精度的限制主要是避免数量范围过小,如某语音特征组的语音特征数量为1,则该语音特征组显然难以区分出各种方言。一般来说,可将语音特征组对应语音特征的数量范围设置为3-50。
本发明中可从基频特征、能量特征和时长特征中各选择一个具有代表性的语音特征作为主特征,然后对次特征进行排列组合获取若干次特征组。将著特征与次特征组整合起来获取语音特征组。在另外一些优选的实施例中,可以将基频特征、能量特征和时长特征中所有的特征均为主特征;或者不区分主特征与次特征,对所有语音特征进行排列组合获取若干语音特征组。
优选的,所述通过若干方言组验证若干语音特征组对应的方言识别效率,包括:为若干方言组中若干多源语音数据设置方言标签,基于若干语音特征组依次提取多源语音数据的语音特征;将每条多源语音数据对应的语音特征整合成标准输入数据,将对应的方言标签整合成标准输出数据;通过同一语音特征组对应的标准输入数据和标准输出数据训练人工智能模型,根据识别时长和人工智能模型的识别精度获取对应语音特征组的方言识别系数。
每条多源语音数据均需要设置方言标签,也就是需要明确其所属的方言类型。然后基于若干语音特征组依次提取多源语音数据的语音特征,在每个语音特征组之下,均包括若干组语音特征(数量与多源语音数据相同),这若干组语音特征作为该语音特征组下的标准输入数据,而将方言标签作为标准输出数据;通过标准输入数据和标准输出数据来训练人工智能模型,在训练完成之后对其进行验证,在验证过程中提取方言的识别时长和识别精度,两个参数结合可获取对应的方言识别系数。该方言识别系数与语音特征组相关联。
优选的,所述根据方言识别系数筛选出至少一个语音特征组,包括:判断语音特征组的方言识别系数是否大于设定的方言识别阈值;是,则判断语音特征组符合要求;否,则判断语音特征组不符合要求;从符合要求的语音特征组中选择识别时长最短和/或识别精度最高的语音特征组作为目标特征组。
本发明将若干语音特征组的方言识别系数与方言识别阈值进行比较,提取符合要求的语音特征组。从符合要求的语音特征组中提取识别时长最短的语音特征组作为目标特征组,则对应训练的人工智能模型作为方言识别模型。或者提取识别精度最高的语音特征组作为目标特征组。或者将识别时长最短的语音特征组和识别精度最高的语音特征组均提取出来作为目标特征组;其中一个目标特征组用于方言识别,另外一个用于对识别结果进行验证。
优选的,所述基于目标特征组对实时语音数据进行语音特征提取,包括:在采集到实时语音数据之后,提取目标特征组中的若干语音特征;按照提取的若干语音特征从实时语音数据中提取数据,整合成方言特征组。
本发明在获取实时语音数据之后,根据确定的目标特征组提取实时语音数据的若干语音特征,获取方言特征组。将方言特征组输入至方言识别模型即可确定对应的方言类型,进而通过与该方言类型相匹配的语言转换模型将实时语音数据转换成普通话。
优选的,所述根据方言特征组确定实时语音数据对应的方言类型,包括:在目标特征组的筛选过程中,将目标特征组对应的人工智能模型标记为方言识别模型;将获取的方言特征组输入至方言识别模型,获取对应的方言标签;根据方言标签确定方言类型。
与现有技术相比,本发明的有益效果是:
1.本发明基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别;本发明设计了一种通用可靠的方言识别系统,不需要提前录制语音数据,提升用户体验。
2.本发明按照方言类型对若干多源语音数据进行归类,获取若干方言组;通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;本发明通过对若干多源语音数据的分析,确定最贴合的目标特征组,通过目标特征组实现的方言识别应用范围更广,识别的内容更加丰富。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的工作步骤示意图;
图2为本发明的系统原理示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-图2,本发明第一方面实施例提供了一种基于大数据的方言语音识别系统,包括中枢控制模块,以及与之相连接的数据交互模块;数据交互模块分别与数据库和语音采集设备相连接;中枢控制模块通过数据库提取若干多源语音数据;按照方言类型对若干多源语音数据进行归类,获取若干方言组;之后获取若干语音特征,组合若干语音特征获取若干语音特征组;以及通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;中枢控制模块通过语音采集设备采集实时语音数据;基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别。
本实施例的第一步是中枢控制模块通过数据库提取若干多源语音数据;按照方言类型对若干多源语音数据进行归类,获取若干方言组;之后获取若干语音特征,组合若干语音特征获取若干语音特征组。
对若干多源语音数据进行预判断,按照方言类型对其进行划分,可得到若干数据组。当数据组对应的多源语音数据的数量满足模型训练要求时,则标记为方言组;否则,通过各种途径对方言组进行数据补充。
将目前语音识别常用的语音特征集合起来,根据现有研究将语音特征分为主特征和次特征,也就是现有方言识别技术占比较大的语音特征划分至主特征,将占比较小的语音特征划分至次特征,则可以获取两组特征。
在语音特征组中,主特征为必选,次特征根据排列组合的方式来选择,保证主特征与次特征结合之后得到的语音特征组中语音特征的数量在设定的数据范围之内。在另外一些优选的实施例中,可以对主特征和次特征进行混合后排列组合,获取若干语音特征组。
本实施例的第二步是通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组。
确定了若干语音特征组,则根据每个语音特征组均对若干多源语音数据进行特征提取,则每个语音特征组均对应一组标准输入数据和标准输出数据。将标准输入数据和标准输出数据划分为训练数据和验证数据,通过训练数据对人工智能模型进行训练,通过验证数据来验证训练得到的人工智能模型的方言识别时长和识别精度,这样获取该语音特征组对应的方言识别系数。方言识别系数的具体获取方式如下:将识别时长和识别精度分别标记为SS和SJ,通过公式FSX=α×SS×exp(SJ)计算获取方言识别系数FSX。
重复上述过程,每个语音特征组均对应一个方言识别系数,结合方言识别阈值进行筛选,获取符合要求的若干语音特征组。选择符合要求的若干语音特征组中的识别时长最短的作为目标特征组,该目标特征组对应的方言识别过程能够保证最佳的识别效率。或选择符合要求的若干语音特征组中的识别精度最高的作为目标特征组,该目标特征组对应的方言识别过程能够保证最高的识别精度。还可以用识别时长最短和识别精度最高的目标特征组相互验证方言识别结果。
本实施例的第三步是中枢控制模块通过语音采集设备采集实时语音数据;基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别。
在获取实时语音数据之后,根据确定的目标特征组提取实时语音数据对应的若干语音特征,将其整合之后输入至方言识别模型中获取对应的方言标签。根据方言标签可确定方言类型,进而调用对应的语言转换模型,完成将实时语音信息翻译成普通话的过程,当然也可以直接输出文本,以便进行后续的控制。需要说明的是,本实施例中的若干多源语音数据均对应一个方言标签,方言标签用数字表示,如01、02、……、99,每个方言标签均与一种方言类型相对应。
上述公式中的部分数据是去除量纲取其数值计算,公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式;公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。
本发明的工作原理:提取若干多源语音数据;按照方言类型对若干多源语音数据进行归类,获取若干方言组;之后获取若干语音特征,组合若干语音特征获取若干语音特征组。通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组。采集实时语音数据;基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (6)
1.一种基于大数据的方言语音识别系统,包括中枢控制模块,以及与之相连接的数据交互模块;数据交互模块分别与数据库和语音采集设备相连接;其特征在于:
中枢控制模块通过数据库提取若干多源语音数据;按照方言类型对若干多源语音数据进行归类,获取若干方言组;之后获取若干语音特征,组合若干语音特征获取若干语音特征组;以及,
通过若干方言组验证若干语音特征组对应的方言识别效率,获取方言识别系数;根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;其中,通过公式FSX=α×SS×exp(SJ)计算获取方言识别系数FSX,SS为识别时长,SJ为识别精度;
中枢控制模块通过语音采集设备采集实时语音数据;基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别;其中,语言转换模型将方言语音数据转换为普通话语音数据;
所述组合若干语音特征获取若干语音特征组,包括:
在效率和精度的基础上预先设置语音特征组对应语音特征的数量范围;将若干语音特征划分为主特征和次特征;其中,主特征和次特征按照方言识别过程各自对应的权重进行划分;
在数量范围的限定下对次特征进行排列组合,获取若干次特征组;将若干次特征组与主特征整合,获取若干语音特征组;
所述通过若干方言组验证若干语音特征组对应的方言识别效率,包括:
为若干方言组中若干多源语音数据设置方言标签,基于若干语音特征组依次提取多源语音数据的语音特征;将每条多源语音数据对应的语音特征整合成标准输入数据,将对应的方言标签整合成标准输出数据;
通过同一语音特征组对应的标准输入数据和标准输出数据训练人工智能模型,根据识别时长和人工智能模型的识别精度获取对应语音特征组的方言识别系数;其中,人工智能模型包括BP神经网络模型或者RBF神经网络模型。
2.根据权利要求1所述的一种基于大数据的方言语音识别系统,其特征在于,所述按照方言类型对多源语音数据进行归类,包括:
根据方言类型对多源语音数据进行划分,获取若干数据组;其中,方言类型根据记载的方言区或者方言区中的地方方言设置;
验证若干数据组中多源语音数据的数量大于数量阈值;是,则将若干数据组标记为若干方言组,并与方言类型进行关联;否,则对数据组进行数据补充。
3.根据权利要求1所述的一种基于大数据的方言语音识别系统,其特征在于,所述根据方言识别系数筛选出至少一个语音特征组,包括:
判断语音特征组的方言识别系数是否大于设定的方言识别阈值;是,则判断语音特征组符合要求;否,则判断语音特征组不符合要求;
从符合要求的语音特征组中选择识别时长最短和/或识别精度最高的语音特征组作为目标特征组。
4.根据权利要求3所述的一种基于大数据的方言语音识别系统,其特征在于,所述基于目标特征组对实时语音数据进行语音特征提取,包括:
在采集到实时语音数据之后,提取目标特征组中的若干语音特征;
按照提取的若干语音特征从实时语音数据中提取数据,整合成方言特征组。
5.根据权利要求4所述的一种基于大数据的方言语音识别系统,其特征在于,所述根据方言特征组确定实时语音数据对应的方言类型,包括:
在目标特征组的筛选过程中,将目标特征组对应的人工智能模型标记为方言识别模型;
将获取的方言特征组输入至方言识别模型,获取对应的方言标签;根据方言标签确定方言类型;其中,方言标签与方言类型一一对应。
6.根据权利要求1所述的一种基于大数据的方言语音识别系统,其特征在于,所述中枢控制模块与所述数据交互模块通信和/或电气连接;所述数据交互模块分别与数据库和语音采集设备通信和/或电气连接;
所述数据库用于存储多源语音数据和若干语音特征;所述语音采集设备用于采集用户的实时语音数据;其中,多源语音数据通过大数据技术获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663719.2A CN116682414B (zh) | 2023-06-06 | 2023-06-06 | 一种基于大数据的方言语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663719.2A CN116682414B (zh) | 2023-06-06 | 2023-06-06 | 一种基于大数据的方言语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116682414A CN116682414A (zh) | 2023-09-01 |
CN116682414B true CN116682414B (zh) | 2024-01-30 |
Family
ID=87780552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310663719.2A Active CN116682414B (zh) | 2023-06-06 | 2023-06-06 | 一种基于大数据的方言语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682414B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN107305773A (zh) * | 2016-04-15 | 2017-10-31 | 美特科技(苏州)有限公司 | 语音情绪辨识方法 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
CN110444229A (zh) * | 2019-06-17 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 |
CN110782891A (zh) * | 2019-10-10 | 2020-02-11 | 珠海格力电器股份有限公司 | 一种音频处理方法、装置、计算设备及存储介质 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
CN112633414A (zh) * | 2021-01-06 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 特征选择优化方法、设备和可读存储介质 |
CN113571095A (zh) * | 2021-06-17 | 2021-10-29 | 南京邮电大学 | 基于嵌套深度神经网络的语音情感识别方法和系统 |
CN114863905A (zh) * | 2022-06-07 | 2022-08-05 | 平安科技(深圳)有限公司 | 语音类别获取方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466666B2 (ja) * | 2007-03-14 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
-
2023
- 2023-06-06 CN CN202310663719.2A patent/CN116682414B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN107305773A (zh) * | 2016-04-15 | 2017-10-31 | 美特科技(苏州)有限公司 | 语音情绪辨识方法 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
CN110444229A (zh) * | 2019-06-17 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 |
CN110782891A (zh) * | 2019-10-10 | 2020-02-11 | 珠海格力电器股份有限公司 | 一种音频处理方法、装置、计算设备及存储介质 |
CN112633414A (zh) * | 2021-01-06 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 特征选择优化方法、设备和可读存储介质 |
CN113571095A (zh) * | 2021-06-17 | 2021-10-29 | 南京邮电大学 | 基于嵌套深度神经网络的语音情感识别方法和系统 |
CN114863905A (zh) * | 2022-06-07 | 2022-08-05 | 平安科技(深圳)有限公司 | 语音类别获取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116682414A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN101447185B (zh) | 一种基于内容的音频快速分类方法 | |
CN110717018A (zh) | 一种基于知识图谱的工业设备故障维修问答系统 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN107256392A (zh) | 一种联合图像、语音的全面情绪识别方法 | |
CN106504772B (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
US20220138193A1 (en) | Conversion method and systems from natural language to structured query language | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN105336342A (zh) | 语音识别结果评价方法及系统 | |
CN110176228A (zh) | 一种小语料语音识别方法及系统 | |
CN104347071B (zh) | 生成口语考试参考答案的方法及系统 | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN116206496A (zh) | 一种基于人工智能的英语口语练习分析比对系统 | |
CN116597461A (zh) | 基于人工智能的题目知识点关联方法及系统 | |
CN109344248B (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 | |
CN113837907A (zh) | 一种英语教学人机互动系统及其方法 | |
CN116682414B (zh) | 一种基于大数据的方言语音识别系统 | |
CN110895936A (zh) | 基于家用电器的语音处理方法和装置 | |
CN112992156B (zh) | 一种基于声纹认证的配电网调度身份认证系统 | |
CN116631451B (zh) | 一种语音情感识别系统及方法 | |
CN114064873A (zh) | 保险领域faq知识库构建方法、装置及电子设备 | |
CN113555022A (zh) | 基于语音的同人识别方法、装置、设备及存储介质 | |
CN116343751B (zh) | 基于语音翻译的音频分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |