CN117935789A - 语音识别方法及系统、设备、存储介质 - Google Patents
语音识别方法及系统、设备、存储介质 Download PDFInfo
- Publication number
- CN117935789A CN117935789A CN202410071729.1A CN202410071729A CN117935789A CN 117935789 A CN117935789 A CN 117935789A CN 202410071729 A CN202410071729 A CN 202410071729A CN 117935789 A CN117935789 A CN 117935789A
- Authority
- CN
- China
- Prior art keywords
- sound source
- source data
- voice
- preset
- quality analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000004458 analytical method Methods 0.000 claims abstract description 133
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000007499 fusion processing Methods 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 31
- 230000008569 process Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开了一种语音识别方法及系统、设备、存储介质,语音识别方法应用于语音识别系统包括的电子设备,语音识别系统还包括麦克风阵列,麦克风阵列包括多个麦克风,方法包括:通过多个麦克风,获取与各个麦克风对应的多个声源数据;获取各个声源数据对应的语音特征,将各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取各个声源数据对应的匹配语音特征;对各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据;根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。能够对不同麦克风采集的声源数据进行语音质量分析,并根据结果进行语音特征的融合处理,通过融合语音特征进行语音识别,提高语音识别处理的准确性。
Description
技术领域
本申请实施例涉及语音处理技术领域,涉及但不限于一种语音识别方法及系统、设备、存储介质。
背景技术
语音识别技术是一种通过分析和理解语音信号来进行文字转换的技术。它是人工智能领域的重要分支,也是实现人机交互、智能语音助手等应用的关键技术。为实现精度较高的语音识别处理,通常会采用分布于不同区域的麦克风构建麦克风阵列来进行音频数据的可靠采集。这种方案虽然能够一定程度地提升音频数据的采集质量,但由于不同的麦克风存在分布差异,导致它们采集到的音频数据存在一定的时延性且音频质量可能存在差异。
相关技术方案中,往往通过噪声检测的方式选取麦克风阵列采集到的音频数据中音频质量符合要求的音频数据进行语音识别,然而,这种方法可能由于单一音频数据的部分时段质量较差,影响整体的识别准确性,或是直接使用所有音频数据进行语音识别,导致语音识别模型的输入维度较高,处理效率降低。
发明内容
有鉴于此,本申请实施例提供的语音识别方法及系统、设备、存储介质,能够通过多个麦克风采集声源数据,提取语音特征与预设特征比对,获取匹配语音特征。再分析这些特征的语音质量,确定满足质量要求的目标声源数据。通过融合这些目标声源数据的特征,与预设语音识别网络模型结合,得出语音识别结果。本申请实施例提供的语音识别方法及系统、设备、存储介质是这样实现的:
本申请实施例提供的语音识别方法,所述方法应用于语音识别系统包括的电子设备,所述语音识别系统还包括麦克风阵列,所述麦克风阵列包括多个麦克风,所述方法包括:
通过所述多个麦克风,获取与各个麦克风对应的多个声源数据;
获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征;
对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据;
根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;
根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
在一些实施例中,所述预设语音特征是根据历史时间段获取的不同人群的语音数据进行语音特征提取,并根据提取得到的不同人群的语音特征确定的预设语音特征,其中,所述不同人群包括不同年龄段或不同性别的人群。
在一些实施例中,所述语音质量分析包括噪声分析和相似度分析,所述语音质量分析结果包括噪声评估结果和特征相似度;
所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,包括:
根据所述各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定所述各个声源数据对应的特征匹配时段;
在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据;
对各个备选声源数据对应的匹配语音特征进行相似度分析,获取所述各个备选声源数据相互之间的特征相似度,确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。
在一些实施例中,所述在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据,包括:
根据所述各个声源数据对应的匹配语音特征与所述预设语音特征的相似度、所述各个声源数据对应的匹配语音特征的总时长以及所述各个声源数据对应的噪声评估结果,确定所述各个声源数据对应的不同特征匹配时段的综合语音质量;
确定所述各个声源数据对应的特征匹配时段的总时长满足预设时长要求,且综合语音质量满足预设质量要求的声源数据为备选声源数据。
在一些实施例中,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率;
在所述预期语音识别准确率符合预设的准确率条件的情况下,根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
在一些实施例中,所述根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率,包括:
根据所述各个目标声源数据对应的语音质量分析结果,确定所述各个目标声源数据的预期识别准确率;
根据目标声源数据的数量、预期识别准确率大于预设阈值的目标声源数据的数量以及所述各个目标声源数据的识别准确率的平均值,获取所述预期语音识别准确率。
在一些实施例中,所述预设的准确率条件包括预设的准确率阈值,在所述预期语音识别准确率大于所述预设的准确率阈值的情况下,确定所述预期语音识别准确率符合所述预设的准确率条件。
在一些实施例中,所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,包括:
确定所述各个声源数据对应的特征匹配时段中满足预设特征质量要求的特征匹配时段为可靠匹配时段;
根据所述各个声源数据对应的可靠匹配时段的数量、不同的可靠匹配时段的时长和综合语音质量,获取所述各个声源数据对应的可靠匹配时段的语音质量评估值;
根据所述各个声源数据对应的特征匹配时段的数量、所述各个声源数据对应的不同的特征匹配时段的综合语音质量的均值、匹配语音特征的总时长、与所述预设语音特征的相似度、可靠匹配时段的语音质量评估值,确定所述各个声源数据对应的语音质量分析结果。
在一些实施例中,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据不同的目标声源数据对应的语音质量分析结果,确定不同的目标声源数据的匹配语音特征的融合权重值;
根据所述各个目标声源数据对应的匹配语音特征的融合权重值对匹配语音特征进行融合处理,获取所述融合语音特征。
本申请实施例提供的语音识别系统,所述系统包括电子设备和麦克风阵列,所述麦克风阵列包括多个麦克风,包括:
声源数据获取单元,用于通过所述多个麦克风,获取与各个麦克风对应的多个声源数据;
语音特征比对单元,用于获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征;
语音质量分析单元,用于对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据;
语音识别单元,用于根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
本申请实施例提供的计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例所述的方法。
本申请实施例提供的计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的所述的方法。
本申请实施例所提供的语音方法、系统、计算机设备和计算机可读存储介质,通过多个麦克风,能够获取与各个麦克风对应的多个声源数据;对于每个声源数据,获取其语音特征,然后与预设语音特征进行相似度比对,确定各个声源数据中与预设语音特征的相似度高于预设相似度比对阈值的部分语音特征为匹配语音特征;接下来,根据对各个声源数据进行语音质量分析的结果来确定目标声源数据,其中,目标声源数据是多个声源数据中语音质量分析结果符合预设质量要求的声源数据,这样实现了声源数据的筛选,获得了质量较高的目标声源数据,提高了后续语音识别的准确性;根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,并根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果,降低了进行识别处理的声源数据的数据量,提高了处理效率。
这样,能够对不同麦克风采集的声源数据进行语音质量分析,并根据结果进行语音特征的融合处理,通过融合语音特征进行语音识别,提高语音识别处理的准确性和效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的语音识别系统的一种结构示意图;
图2为本申请实施例提供的语音识别方法的一种流程图示;
图3为本申请实施例提供的语音识别方法的另一种流程图示;
图4为本申请实施例提供的语音识别方法的又一种流程图示;
图5为本申请实施例提供的语音识别系统的另一种结构示意图;
图6为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
语音识别技术是当前人工智能领域中的一项关键技术,它通过对语音信号进行深入分析和理解,实现将语音转换为文字的功能。这一技术的应用场景十分广泛,包括人机交互、智能语音助手、语音搜索等。为了实现高精度的语音识别,通常会采用分布于不同区域的麦克风构建麦克风阵列,这样能够更可靠地采集音频数据。
虽然通过麦克风阵列采集音频数据的方案能在一定程度上提升音频数据的采集质量,但同时也必须面对一个问题:不同的麦克风之间存在分布差异,导致它们采集到的音频数据存在时延性,并且不同的麦克风之间采集音频数据的音频质量可能也有所不同。这种差异将会影响到后续对音频数据进行语音识别的准确性和处理效率。
在相关的技术方案中,通常会采用噪声检测的方式来筛选出多个音频数据中音频质量符合要求的音频数据进行语音识别。然而,这种方法仍然存在一些问题。如果仅依赖单一音频数据,一旦其部分时段的音频质量较差,就会影响到整体的识别准确性。而如果直接使用所有音频数据进行语音识别,会导致语音识别模型的输入维度过高,从而降低处理效率,同时由于各个音频数据间的差异也会影响语音识别的准确性。
有鉴于此,本申请实施例提供一种语音识别方法,该方法应用于语音识别系统包括的电子设备。
请参阅1,图1为本申请实施例提供的语音识别系统的一种结构示意图。如图1所示,本申请实施例提供的语音识别方法,应用于语音识别系统100包括的电子设备101,语音识别系统还包括麦克风阵列102,其中麦克风阵列102包括多个麦克风,电子设备101连接麦克风阵列102,连接方式可以是有线连接,也可以是无线连接,在此不作限定。
电子设备101可包括但不限于手机、可穿戴设备(如智能手表、智能手环、智能眼镜等)、平板电脑,笔记本电脑、车载终端、PC(Personal Computer,个人计算机)等。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。
麦克风阵列102可以是多个麦克风按照一定规则排列组成的阵列,例如线性阵列、圆形阵列等。每个麦克风可以是一个独立的硬件设备,也可以是一个集成在电子设备中的麦克风模块。
在本申请实施例提供的语音识别方法中,电子设备101可以通过麦克风阵列102接收来自不同麦克风的声源数据。这些声源数据经过麦克风阵列102的采集和处理后,被转换为数字信号,然后传输到电子设备101中。在电子设备101中,处理器可以通过本申请实施例提供的方法对声源数据进行语音识别处理,得到语音识别结果,
下面将结合说明书附图,对本申请实施例提供的语音识别方法进行说明。
请参阅图2,图2为本申请实施例提供的语音识别方法的一种流程图示。如图2所示,该方法可以包括以下步骤201至步骤205。
步骤201,通过多个麦克风,获取与各个麦克风对应的多个声源数据。
在本申请实施例中,通过所述多个麦克风,获取与各个麦克风对应的多个声源数据。
在一些实施例中,在通过多个麦克风,获取与各个麦克风对应的多个声源数据前,所述方法该包括:对麦克风阵列中的不同麦克风的位置进行标定。
需要说明的是,标定的目的是为了确保每个麦克风都能准确地捕捉到声源的位置和方向,从而在后续的语音识别过程中能够更准确地定位和分离各个声源。通过对麦克风的位置进行标定,能够获取每个麦克风相对于参考坐标系的位置和方向,以及麦克风之间的相对位置关系。
标定可以通过手动方式进行,例如使用激光测距仪等工具测量每个麦克风的位置和方向,也可以通过自动方式进行,例如使用机器学习和人工智能算法进行自动标定,在此不作限定。
在一些实施例中,所述对麦克风阵列中的不同麦克风的位置进行标定后,所述方法还包括:确定每个麦克风对应的通道。需要说明的是,通道是指音频信号传输的路径或路径组,用于将音频信号从信号源传输到处理设备或系统。在麦克风阵列中,每个麦克风都可以对应一个或多个通道,通道的确定取决于阵列的配置和信号处理的算法。通过确定每个麦克风对应的通道,可以实现对声源数据的准确采集和处理,从而提高语音识别的准确性和可靠性。
在一些实施例中,可以根据麦克风位置标定的结果,确定每个麦克风所对应的通道。通常,通过计算声源数据在不同麦克风之间的时间差或相位差,可以推断出信号源的相对位置,从而确定通道。
根据通道定位的结果,将每个通道的音频数据与其对应的麦克风信号,即采集的声源数据匹配起来,以便后续的特征提取和语音识别。
需要说明的是,在一些实施例中,在通过麦克风阵列的多个麦克风,获取与各个麦克风对应的声源数据的过程中,需要对各个声源数据进行预处理,以提高声源数据的质量,进而提高后续根据多个声源数据进行语音识别的准确率。
在一些实施例中,由于多个麦克风的位置存在差异,相应的接收到的声源数据的时间同样存在差异,也就是不同麦克风通道采集的声源数据间存在时间延迟,虽然该时间延迟对于人耳差距较小,但是对于计算机设备仍会影响后续的语音识别的准确性。
因此,在通过多个麦克风,获取与各个麦克风对应的多个声源数据后,可以通过对不同麦克风通道获取的声源数据进行数据校准处理,使得校准后的多个声源数据在时序对齐。将每个通道的音频数据进行对齐,通常是通过对齐通道之间的时间延迟来完成。这样能够确保不同通道的声源数据在时间上保持同步,以提高本申请提供的方法的语音识别的准确性。
步骤202,获取各个声源数据对应的语音特征,将各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取各个声源数据对应的匹配语音特征。
在本申请实施例中,获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征。
需要说明的是,在一些实施例中,在获取各个声源数据的语音特征前,本申请提供的语音识别方法还包括,对多个声源数据进行预处理,所述预处理可以包括去除直流分量、降噪处理、频带滤波、声音增强以及预加重,下面将对各种预处理的流程进行说明。去除直流分量:通过直流阻塞滤波器,从声源数据中去除直流分量(即频率为0Hz的分量),以避免直流分量对后续处理和识别的影响。
降噪处理:使用降噪算法对各个声源数据进行处理,以减少噪声对语音信号的影响。常用的降噪算法包括维纳滤波器、谱减法、时域音频处理等。这些算法可以根据噪声的特性和预设的参数,将噪声分量尽可能地减少,提高语音信号的清晰度。
频带滤波:通过对各个声源数据进行频带滤波,可以强调或抑制特定频率范围内的信号。常见的频带滤波方法包括高通滤波、低通滤波、带通滤波、带阻滤波等。这样的滤波操作可以根据应用需求和环境特点,增强语音信号的重要频率部分,减少不需要的频率成分,实际的频率范围可以根据多次采集声源数据,并根据声源数据的音频特征进行确定。
声音增强:通过声音增强技术,可以增加各个声源数据的幅度、改善语音的清晰度和可理解性。声音增强可以应用于整个声源数据或特定的频段,以提高语音信号在高噪声环境中的可辨识度。
预加重:在声源数据中,高频部分的能量相对于低频部分来说较低。通过预加重,可以提高高频部分的能量,以平衡信号在不同频率上的能量分布,从而增加语音的清晰度。
可以理解的是对多个声源数据进行预处理,提高了声源数据的数据质量,在实际应用中,预处理可以根据多个声源数据的原始情况进行选取,在此不作限定。
在一些实施例中,所述预设语音特征是根据历史时间段获取的不同人群的语音数据进行语音特征提取,并根据提取得到的不同人群的语音特征确定的预设语音特征,其中,所述不同人群包括不同年龄段或不同性别的人群。
通过对不同人群进行语音数据的采集,并进行语音特征提取得到的预设语音特征,能够更加全面地涵盖不同人群的语音特点。这样通过预设语音特征与各个声源数据对应的语音特征进行相似度比对,获取的各个声源数据对应的匹配语音特征就包含了各个声源数据中人声部分的语音特征,能够在一定程度上滤除麦克风采集到的声源数据中的部分环境噪声,以提高语音识别的准确性。
在一些实施例中,预设语音特征是根据历史时间段获取的多个目标用户的语音数据进行语音特征提取,并根据提取到的多个目标用户的语音特征确定的包含多个目标用户的语音特征的预设语音特征,其中,目标用户为后续语音识别方法中,多个麦克风获取的声源数据对应的用户。
可以理解的是,在语音处理领域,对于不同用户的声音,在许多方面,例如音调、音色、语速等方面存在差异,而同一用户在不同时段的语音特征往往变换较小。可以通过对声源数据进行特征提取,与预先获得的包含多个目标用户的语音特征的预设语音特征进行相似度比对,以确定产生当前的声源数据的目标用户。这样,在一些实施例中,本申请提供的语音识别方法能够将根据预设语音特征,从多个声源数据中得到与目标用户的语音特征相似度高于目标阈值的匹配语音特征。实现在诸如多人会议等场景下,对指定的目标用户进行语音识别,或是对不同的目标用户进行语音识别,并将语音识别结果根据目标用户的不同进行划分,以得到每个目标用户分别对应的部分语音识别结果。
在一些实施例中,各个声源数据对应的语音特征和预设语音特征包括梅尔频率倒谱系数或梅尔频谱图的表现形式。
需要说明的是,梅尔频率倒谱系数(MFCC):这是一种描述语音信号的参数化表示,基于人耳对声音的感知特性。它通过将语音信号转换为倒谱系数来提取其特征,从而能够更准确地表示语音信号的细节和结构。MFCC广泛应用于语音识别、语音合成等领域。梅尔频谱图:这是一种将语音信号转换为频谱图的方法,其中横轴表示时间,纵轴表示频率。通过将语音信号分解为不同频率的分量,并绘制出这些分量的幅度随时间变化的图形,可以更直观地展示语音信号的特性。梅尔频谱图在语音分析和语音识别中也有着广泛的应用。
通过上述两者特征形式,系统可以更全面地描述语音信号的特性,从而提高语音识别的准确性和可靠性。而在实际应用中,预设声音特征的特征形式和提取方法需要根据具体的应用场景和需求进行优化和调整,以获得最佳的性能表现,在此不作限定。
在一些实施例中,获取各个声源数据对应的语音特征,包括:对各个通道的声源数据进行分帧、加窗、傅里叶变换、能量谱计算、梅尔滤波器组计算、梅尔频率倒谱系数(MFCC)计算、动态特征提取以及特征归一化等系列处理。
下面将分步骤,说明对各个声源数据进行特征提取,得到语音特征的过程:
分帧:将每个通道的声源数据分成多个小时间段的音频帧。通常,每个帧的长度为10-30毫秒,可以采用重叠窗口的方式将连续帧之间的信息衔接起来,常见的重叠率为50%。
加窗:对每个音频帧应用窗函数,通常使用汉宁窗或汉明窗等。窗函数的作用是减少帧边缘产生的突变,以减少频谱泄露。
傅里叶变换:对加窗后的音频帧进行傅里叶变换,将时域信号转换为频域信号。常见的频域表示方法有短时傅里叶变换(STFT)或快速傅里叶变换(FFT)。
能量谱计算:计算每个音频帧的频谱能量,可以通过将频域信号的幅度平方来得到。通常,计算能量谱时会取对数,以对幅度取对数后的数值范围进行约束。
梅尔滤波器组计算:将能量谱映射到梅尔刻度上,通常使用一组梅尔滤波器进行映射。梅尔滤波器组是一组三角形滤波器,根据梅尔刻度的频率间隔来确定。
梅尔频率倒谱系数(MFCC)计算:通过对每个梅尔滤波器输出的能量取对数,然后进行离散余弦变换(DCT)得到MFCC系数。通常,只取部分MFCC系数作为最终的特征表示,常见的取值范围是10-13个系数。
动态特征提取:除了MFCC之外,还可以计算一些动态特征,如一阶差分系数和二阶差分系数,用于捕捉语音信号的动态变化。
特征归一化:对提取的语音特征进行归一化处理,例如通过均值归一化或者标准化,以减小不同声源数据对应的语音特征之间的幅度差异,以提高后续根据融合语音特征进行语音识别的准确性。
步骤203,对各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据。
在本申请实施例中,对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据。
对各个声源数据所对应的匹配语音特征进行语音质量分析,有助于保障后续处理的准确性。根据语音质量分析的结果,能够筛选出符合预设质量要求的声源数据,即目标声源数据。这些目标声源数据是多个声源数据中语音质量较高的部分声源数据,能够为后续的语音识别和语音增强提供更加优质的识别处理基础。
步骤204,根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
在本申请实施例中,根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
在一些实施例中,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据不同的目标声源数据对应的语音质量分析结果,确定不同的目标声源数据的匹配语音特征的融合权重值;
根据所述各个目标声源数据对应的匹配语音特征的融合权重值对匹配语音特征进行融合处理,获取所述融合语音特征。
在通过不同声源数据对应的语音质量分析结果,确定不同的目标声源数据对应的匹配语音特征的融合权重值的过程中,可以给质量较高的目标声源数据相应地分配较高的融合权重,这样,可以得到一个更加全面和可靠的融合语音特征表示,从而更好地适应不同场景和用户需求。在应用中,融合语音特征可以用于后续的语音识别和分类任务,从而提高语音识别的准确性和可靠性。
需要说明的是,在一些实施例中,语音质量分析结果可以是通过数值进行量化表示,各个目标声源数据对应的匹配语音特征的融合权重值,可以通过其对应的语音质量分析结果的数值在所有语音质量分析结果的总数值中的占比进行确定,也可以通过更复杂的计算方法,例如设置不同的质量结果数值区间,为不同的语音质量分析结果对应的匹配语音特征赋予阶梯式的融合权重值,具体方式在此不作限定。
步骤205,根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
在本申请实施例中,根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
需要说明的是,根据语音是被网络模型的差异,语音识别结果可以是文本形式,也可以是网络特征序列的形式。在一些实施例中,在获取网络特征序列形式的语音识别结果后,所述方法还包括:对语音识别结果进行解码处理和后处理。解码处理是将识别结果进行解码,转换成文本形式,后处理可以包括错误纠正、语法分析等操作,以提高识别的准确性。
将网络特征序列形式的语音识别结果进行解码处理和后处理,包括如下步骤:
特征映射:使用训练好的语音识别模型(例如CTC、Attention或Transformer等),将特征序列映射到潜在的词汇或音素序列。
解码:通过在输出序列上进行解码操作,将识别网络的输出转化为可读性更好的文本序列。常见的解码方法有维特比算法、束搜索等。
解码结果转换:将解码得到的音素或词汇序列转化为真实的文本序列。这涉及到从音素序列到拼音或字母序列的转换,或从词汇序列到最终的文本序列的转换。这可以通过使用语言模型和词典来完成。
错误纠正:对解码得到的文本序列进行错误纠正操作,以提高识别结果的准确性和可理解性。这可以通过后处理算法,例如语言模型重打分、拼写纠错等来实现。
语法分析:根据语法规则和语言模型,对解码得到的文本序列进行语法分析,确保生成的文本符合语法要求。
结果平滑化:通过使用平滑化算法,如语言模型重打分、短时上下文等,对解码结果进行平滑化处理,以提供更连贯和自然的识别结果。
输出结果:根据最终的解码和后处理结果,生成对应的识别文本作为输出结果,完成整个语音识别任务。
在一些实施例中,构建所述预先设置的语音识别网络模型,包括:
根据不同历史的融合语音特征,构建特征训练数据集;
构建一个语音识别网络,通过将所述特征训练数据集输入到识别网络中,进行前向传播,产生识别网络的输出数据;
对所述输出数据进行解码操作,将识别网络的输出数据转化为的文本序列,对解码得到的文本序列进行后处理得到解码结果,根据所述解码结果,生成对应的识别文本作为语音识别结果。
通过实施上述技术方案,能够获取与各个麦克风对应的多个声源数据;对于每个声源数据,获取其语音特征,然后与预设语音特征进行相似度比对,确定各个声源数据中与预设语音特征的相似度高于预设相似度比对阈值的部分语音特征为匹配语音特征;根据对各个声源数据进行语音质量分析的结果来确定目标声源数据,实现了声源数据的筛选,获得了质量较高的目标声源数据,提高了后续语音识别的准确性;根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,并根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
本申请提供的语音识别方法,通过不同声源数据的语音质量分析结果,进行目标声源数据的确定,缓解了因未考虑不同声源的语音质量差异导致的语音识别结果不够准确的情况,实现了从语音质量的角度对声源数据的筛选,提升了语音识别结果的准确性和可靠性。根据目标声源数据对应的语音质量分析结果,获取融合语音特征,综合考虑不同的目标声源数据的语音质量,避免单一数据来源导致的语音识别结果不够可靠,使得语音识别结果的准确率得到进一步提升。
下面将结合说明书附图,对本申请提供的语音识别方法中,对各个声源数据对应的匹配语音特征进行语音质量分析,并确定目标声源数据的步骤进行说明。
请参阅图3,图3为本申请实施例提供的语音识别方法的另一种流程图示。如图3所示,该方法可以包括以下步骤301至步骤307。
步骤301,通过多个麦克风,获取与各个麦克风对应的多个声源数据。
步骤302,获取各个声源数据对应的语音特征,将各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取各个声源数据对应的匹配语音特征。
步骤301至步骤302与上述说明中的步骤201至步骤202相近,在此不再赘述。
步骤303,根据各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定各个声源数据对应的特征匹配时段。
在一些实施例中,所述语音质量分析包括噪声分析和相似度分析,所述语音质量分析结果包括噪声评估结果和特征相似度;
所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,包括:
根据所述各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定所述各个声源数据对应的特征匹配时段;
在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据;
对各个备选声源数据对应的匹配语音特征进行相似度分析,获取所述各个备选声源数据相互之间的特征相似度,确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。
需要说明的是,为确定各个声源数据对应的特征匹配时段,首先需要将各个声源数据对应的语音特征与预设语音特征进行匹配,得到各个声源数据对应的匹配语音特征,该步骤已经在之间步骤中进行说明,在此不再赘述。在确定了各个声源数据对应的匹配语音特征后,再根据各个声源数据对应的匹配语音特征在各自语音特征中的分布情况确定特征匹配时段。
可以理解的是,在一些实施例中,各个声源数据对应的匹配语音特征并非完整的一段特征,而是多个不连续的匹配语音特征,这是由于麦克风采集的声源数据包括了用户的声音,而用户并不总是处于发声状态,此时需要记录各个声源数据对应的所有的匹配语音特征以及相应的特征匹配时段。
在一些实施例中,在根据各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定各个声源数据对应的特征匹配时段前,所述方法还包括:根据不同麦克风通道的时延请情况,对各个声源数据库对应的语音特征进行对齐处理,在对齐处理之后,再根据匹配语音特征在语音特征中的分布情况确定特征匹配时段,这样能够使得不同声源数据的同一时段的音频内容相同,在比对相似度的情况下提高比对结果的准确性和可靠性,从而进一步提高语音识别的准确性和可靠性。
步骤304,在各个声源数据对应的特征匹配时段,对各个声源数据进行噪声分析,根据各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据。
在一些实施例中,根据所述各个声源数据对应的匹配语音特征与所述预设语音特征的相似度、所述各个声源数据对应的匹配语音特征的总时长以及所述各个声源数据对应的噪声评估结果,确定所述各个声源数据对应的不同特征匹配时段的综合语音质量;
确定所述各个声源数据对应的特征匹配时段的总时长满足预设时长要求,且综合语音质量满足预设质量要求的声源数据为备选声源数据。
根据预审语音特征的不同,各个声源数据对应的匹配语音特征与所述预设语音特征的相似度越高,表示该部分匹配语音特征与人声的普遍语音特征或是指定目标用户的语音特征越接近,因此其可靠性也就越高。
此外,在对各个声源数据对应的不同特征匹配时段的综合语音质量还需考虑匹配语音特征的总时长。在一般情况下,语音数据越长,其蕴含的数据量也就越多,因此可以将各个声源数据对应的匹配语音特征的总时长作为综合语音质量的评判标准。
在一些实施中,为了更准确的对各个声源数据对应的不同特征匹配时段的综合语音质量进行评估,可以根据各个声源数据对应的不同匹配语音特征与所述预设语音特征的相似度、各个声源数据对应的不同匹配语音特征的时长以及对应的特征匹配时段噪声评估结果,确定所述各个声源数据对应的不同特征匹配时段的综合语音质量。
为了更直观地展示各个声源数据在不同特征匹配时段的综合语音质量,可以采用预先设置的评价标准,对影响综合语音质量的各个因素进行评估,并将结果以数值的形式呈现。通过这样的评价过程,可以得到一个量化的语音质量指标,用以衡量不同声源数据在不同特征匹配时段的综合语音质量。这样的数值表示的综合语音质量更易于分析和比较,有助于准确地筛选出高质量的备选声源数据。
通过上述综合评估和筛选过程,可以从多个声源数据中选出较优的备选数据,再进一步确定目标声源数据,从而提高语音识别的准确性和可靠性。同时也可以根据实际应用的需求进行调整和优化,以适应不同的场景和环境,在此不作限定。
步骤305,对各个备选声源数据对应的匹配语音特征进行相似度分析,获取各个备选声源数据相互之间的特征相似度,确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。
在一些实施例中,由于各个麦克风的位置差异、各个麦克风的硬件差异以及其他影响采集声源数据的外界因素,同一麦克风阵列下的不同麦克风获取的声源数据仍可能存在较大差异。
因此,为了确保后续语音识别的准确性和可靠性,还需要对备选声源数据进行进一步的筛选,通过对各个备选声源数据对应的匹配语音特征进行相似度分析,获取各个备选声源数据相互之间的特征相似度。确定特征相似度较高的备选声源数据为目标声源数据。
步骤306,根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
步骤307,根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
步骤306至步骤307与上述说明中的步骤204至步骤205相近,在此不再赘述。
通过实施上述技术方案,对各个声源数据对应的匹配语音特征进行语音质量分析,确定目标声源数据,通过结合多种因素的综合评估和筛选,能够更加全面地评估声源数据的语音质量,提高了语音识别的准确性和可靠性。同时减少了用于语音识别的声源数据的数据量,提高了语音识别的处理效率。
下面将结合说明书附图,对本申请提供的语音识别方法中,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,进行说明。
请参阅图4,图4为本申请实施例提供的语音识别方法的又一种流程图示。如图4所示,该方法可以包括以下步骤401至步骤406。
步骤401,通过多个麦克风,获取与各个麦克风对应的多个声源数据。
步骤402,获取各个声源数据对应的语音特征,将各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取各个声源数据对应的匹配语音特征。
需要说明的是,步骤401至步骤402与上述说明中的步骤101至步骤102相近,在此不再赘述。
步骤403,对各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据。
在一些实施例中,所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,包括:
确定所述各个声源数据对应的特征匹配时段中满足预设特征质量要求的特征匹配时段为可靠匹配时段;
根据所述各个声源数据对应的可靠匹配时段的数量、不同的可靠匹配时段的时长和语音质量,获取所述各个声源数据对应的可靠匹配时段的语音质量评估值;
根据所述各个声源数据对应的特征匹配时段的数量、所述各个声源数据对应的不同的特征匹配时段的综合语音质量的均值、匹配语音特征的总时长、与所述预设语音特征的相似度、可靠匹配时段的语音质量评估值,确定所述各个声源数据对应的语音质量分析结果。
需要说明的是,预设特征质量要求可以是预设的特征时长要求,确保筛选出的特征匹配时段具有足够的时长,从而包含足够的信息进行准确的特征匹配。此外,预设特征质量要求也可以是与预设语音特征的相似度之间的预设阈值要求,通过比较不同特征匹配时段的匹配语音特征与预设语音特征的相似度,确保筛选出的可靠匹配时段具有较高的相似度,从而提高语音识别的准确性,在此不作限定。不同的可靠匹配时段的语音质量可以是根据噪声识别结果得到的噪声干扰评估情况,也可以是时长等评估指标,在此不作限定。
综合影响各个声源数据的语音质量的因素,能够更加客观和准确地确定各个声源数据对应的语音质量分析结果,有助于筛选出高质量的声源数据,还可以为后续的语音识别提供更加可靠的数据来源。
步骤404,根据目标声源数据的数目、各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率。
在一些实施例中,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率;
在所述预期语音识别准确率符合预设的准确率条件的情况下,根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
进一步地,在一些实施例中,所述根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率,包括:
根据所述各个目标声源数据对应的语音质量分析结果,确定所述各个目标声源数据的预期识别准确率;
根据目标声源数据的数量、预期识别准确率大于预设阈值的目标声源数据的数量以及所述各个目标声源数据的识别准确率的平均值,获取所述预期语音识别准确率。
进一步地,在一些实施例中,所述预设的准确率条件包括预设的准确率阈值,在所述预期语音识别准确率大于所述预设的准确率阈值的情况下,确定所述预期语音识别准确率符合所述预设的准确率条件。
通过根据目标声源数据的数目、各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率的方式,能够在获取融合语音特征及进行语音识别前,对语音识别准确率进行初步预测,这样只有当预期的语音识别准确率符合预设的准确率条件时,才会进行后续的特征融合处理,在一些应用场景中,在预期语音识别准确率不符合要求的情况下,提醒用户通过麦克风阵列重写采集声源数据,避免了不必要的语音识别所需时间,提高了处理效率。
步骤405,在预期语音识别准确率符合预设的准确率条件的情况下,根据各个目标声源数据对应的语音质量分析结果,对各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
步骤406,根据融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
通过实施上述技术方案,在根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征前,获取预期语音识别准确率。能够及时发现并排除低质量的声源数据可能造成的语音识别结果出错的情况,可以用于各种需要高质量语音识别的场合,如语音助手、智能客服、语音搜索等,提醒用户重新录入声源数据。
应该理解的是,虽然上述各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于前述的实施例,本申请实施例提供一种语音识别系统,该装置包括所包括的各模块、以及各模块所包括的各单元,可以通过处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图5为本申请实施例提供的语音识别系统的另一种结构示意图,如图5所示,所述语音识别系统100包括声源数据获取单元501、语音特征比对单元502、语音质量分析单元503和语音识别单元504。
需要说明的是,上述各个单元可以是语音识别系统100包括的电子设备101包括的部分组成单元,即这些单元可以集成在电子设备101中,实现语音识别的功能。
声源数据获取单元501,用于通过所述多个麦克风,获取与各个麦克风对应的多个声源数据;
语音特征比对单元502,用于获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征;
语音质量分析单元503,用于对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据;
语音识别单元504,用于根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
在一些实施例中,所述语音质量分析包括噪声分析和相似度分析,所述语音质量分析结果包括噪声评估结果和特征相似度,语音质量分析单元503,还用于根据所述各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定所述各个声源数据对应的特征匹配时段;在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据;对各个备选声源数据对应的匹配语音特征进行相似度分析,获取所述各个备选声源数据相互之间的特征相似度,确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。
在一些实施例中,语音质量分析单元503,还用于根据所述各个声源数据对应的匹配语音特征与所述预设语音特征的相似度、所述各个声源数据对应的匹配语音特征的总时长以及所述各个声源数据对应的噪声评估结果,确定所述各个声源数据对应的不同特征匹配时段的综合语音质量;确定所述各个声源数据对应的特征匹配时段的总时长满足预设时长要求,且综合语音质量满足预设质量要求的声源数据为备选声源数据。
在一些实施例中,语音识别单元504,还用于根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率;在所述预期语音识别准确率符合预设的准确率条件的情况下,根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
在一些实施例中,语音识别单元504,还用于根据所述各个目标声源数据对应的语音质量分析结果,确定所述各个目标声源数据的预期识别准确率;根据目标声源数据的数量、预期识别准确率大于预设阈值的目标声源数据的数量以及所述各个目标声源数据的识别准确率的平均值,获取所述预期语音识别准确率。
在一些实施例中,语音识别单元504,还用于确定所述各个声源数据对应的特征匹配时段中满足预设特征质量要求的特征匹配时段为可靠匹配时段;根据所述各个声源数据对应的可靠匹配时段的数量、不同的可靠匹配时段的时长和语音质量,获取所述各个声源数据对应的可靠匹配时段的语音质量评估值;根据所述各个声源数据对应的特征匹配时段的数量、所述各个声源数据对应的不同的特征匹配时段的综合语音质量的均值、匹配语音特征的总时长、与所述预设语音特征的相似度、可靠匹配时段的语音质量评估值,确定所述各个声源数据对应的语音质量分析结果。
在一些实施例中,语音识别单元504,还用于根据不同的目标声源数据对应的语音质量分析结果,确定不同的目标声源数据的匹配语音特征的融合权重值;根据所述各个目标声源数据对应的匹配语音特征的融合权重值对匹配语音特征进行融合处理,获取所述融合语音特征。
以上装置类实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中图5所示的语音识别系统对各个模块单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。
本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例提供的方法中的步骤。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的语音识别系统可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成上述系统的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如对象A和/或对象B,可以表示:单独存在对象A,同时存在对象A和对象B,单独存在对象B这三种情况。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能模块可以全部集成在一个处理单元中,也可以是各模块分别单独作为一个单元,也可以两个或两个以上模块集成在一个单元中;上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种语音识别方法,其特征在于,所述方法应用于语音识别系统包括的电子设备,所述语音识别系统还包括麦克风阵列,所述麦克风阵列包括多个麦克风,所述方法包括:
通过所述多个麦克风,获取与各个麦克风对应的多个声源数据;
获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征;
对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据;
根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;
根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预设语音特征是根据历史时间段获取的不同人群的语音数据进行语音特征提取,并根据提取得到的不同人群的语音特征确定的预设语音特征,其中,所述不同人群包括不同年龄段或不同性别的人群。
3.根据权利要求1所述的方法,其特征在于,所述语音质量分析包括噪声分析和相似度分析,所述语音质量分析结果包括噪声评估结果和特征相似度;
所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,包括:
根据所述各个声源数据对应的匹配语音特征在语音特征中的分布情况,确定所述各个声源数据对应的特征匹配时段;
在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据;
对各个备选声源数据对应的匹配语音特征进行相似度分析,获取所述各个备选声源数据相互之间的特征相似度,确定特征相似度符合预设的相似度要求的备选声源数据为目标声源数据。
4.根据权利要求3所述的方法,其特征在于,所述在所述各个声源数据对应的特征匹配时段,对所述各个声源数据进行噪声分析,根据所述各个声源数据的噪声评估结果,确定噪声评估结果符合预设的噪声评估要求的至少两个声源数据为备选声源数据,包括:
根据所述各个声源数据对应的匹配语音特征与所述预设语音特征的相似度、所述各个声源数据对应的匹配语音特征的总时长以及所述各个声源数据对应的噪声评估结果,确定所述各个声源数据对应的不同特征匹配时段的综合语音质量;
确定所述各个声源数据对应的特征匹配时段的总时长满足预设时长要求,且综合语音质量满足预设质量要求的声源数据为备选声源数据。
5.根据权利要求1所述的方法,其特征在于,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率;
在所述预期语音识别准确率符合预设的准确率条件的情况下,根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征。
6.根据权利要求5所述的方法,其特征在于,所述根据目标声源数据的数目、所述各个目标声源数据对应的语音质量分析结果,获取预期语音识别准确率,包括:
根据所述各个目标声源数据对应的语音质量分析结果,确定所述各个目标声源数据的预期识别准确率;
根据目标声源数据的数量、预期识别准确率大于预设阈值的目标声源数据的数量以及所述各个目标声源数据的识别准确率的平均值,获取所述预期语音识别准确率。
7.根据权利要求5所述的方法,其特征在于,所述预设的准确率条件包括预设的准确率阈值,在所述预期语音识别准确率大于所述预设的准确率阈值的情况下,确定所述预期语音识别准确率符合所述预设的准确率条件。
8.根据权利要求1所述的方法,其特征在于,所述对所述各个声源数据对应的匹配语音特征进行语音质量分析,包括:
确定所述各个声源数据对应的特征匹配时段中满足预设特征质量要求的特征匹配时段为可靠匹配时段;
根据所述各个声源数据对应的可靠匹配时段的数量、不同的可靠匹配时段的时长和语音质量,获取所述各个声源数据对应的可靠匹配时段的语音质量评估值;
根据所述各个声源数据对应的特征匹配时段的数量、所述各个声源数据对应的不同的特征匹配时段的综合语音质量的均值、匹配语音特征的总时长、与所述预设语音特征的相似度、可靠匹配时段的语音质量评估值,确定所述各个声源数据对应的语音质量分析结果。
9.根据权利要求1所述的方法,其特征在于,所述根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征,包括:
根据不同的目标声源数据对应的语音质量分析结果,确定不同的目标声源数据的匹配语音特征的融合权重值;
根据所述各个目标声源数据对应的匹配语音特征的融合权重值对匹配语音特征进行融合处理,获取所述融合语音特征。
10.一种语音识别系统,所述系统包括电子设备和麦克风阵列,所述麦克风阵列包括多个麦克风,包括:
声源数据获取单元,用于通过所述多个麦克风,获取与各个麦克风对应的多个声源数据;
语音特征比对单元,用于获取各个声源数据对应的语音特征,将所述各个声源数据对应的语音特征分别与预设语音特征进行相似度比对,获取所述各个声源数据对应的匹配语音特征,其中,所述各个声源数据对应的匹配语音特征为所述各个声源数据中与所述预设语音特征的相似度高于预设相似度比对阈值的部分语音特征;
语音质量分析单元,用于对所述各个声源数据对应的匹配语音特征进行语音质量分析,根据语音质量分析结果,确定目标声源数据,其中,所述目标声源数据为所述多个声源数据中语音质量分析结果符合预设质量要求的至少部分声源数据;
语音识别单元,用于根据各个目标声源数据对应的语音质量分析结果,对所述各个目标声源数据对应的匹配语音特征进行融合处理,获取融合语音特征;根据所述融合语音特征以及预先设置的语音识别网络模型,获取语音识别结果。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071729.1A CN117935789A (zh) | 2024-01-17 | 2024-01-17 | 语音识别方法及系统、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071729.1A CN117935789A (zh) | 2024-01-17 | 2024-01-17 | 语音识别方法及系统、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935789A true CN117935789A (zh) | 2024-04-26 |
Family
ID=90766014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410071729.1A Pending CN117935789A (zh) | 2024-01-17 | 2024-01-17 | 语音识别方法及系统、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935789A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506767A (zh) * | 2024-07-16 | 2024-08-16 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180190280A1 (en) * | 2016-12-29 | 2018-07-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice recognition method and apparatus |
CN110907895A (zh) * | 2019-12-05 | 2020-03-24 | 重庆商勤科技有限公司 | 噪声监测识别定位方法、系统及计算机可读存储介质 |
JP2021144248A (ja) * | 2020-08-27 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 音声データ処理方法、装置及びスマート車両 |
CN114627889A (zh) * | 2022-03-09 | 2022-06-14 | 平安国际智慧城市科技股份有限公司 | 多声源声音信号处理方法及装置、存储介质和电子设备 |
CN117153186A (zh) * | 2022-08-05 | 2023-12-01 | 深圳Tcl新技术有限公司 | 声音信号处理方法、装置、电子设备和存储介质 |
-
2024
- 2024-01-17 CN CN202410071729.1A patent/CN117935789A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180190280A1 (en) * | 2016-12-29 | 2018-07-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice recognition method and apparatus |
CN110907895A (zh) * | 2019-12-05 | 2020-03-24 | 重庆商勤科技有限公司 | 噪声监测识别定位方法、系统及计算机可读存储介质 |
JP2021144248A (ja) * | 2020-08-27 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 音声データ処理方法、装置及びスマート車両 |
CN114627889A (zh) * | 2022-03-09 | 2022-06-14 | 平安国际智慧城市科技股份有限公司 | 多声源声音信号处理方法及装置、存储介质和电子设备 |
CN117153186A (zh) * | 2022-08-05 | 2023-12-01 | 深圳Tcl新技术有限公司 | 声音信号处理方法、装置、电子设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506767A (zh) * | 2024-07-16 | 2024-08-16 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
Deshwal et al. | Feature extraction methods in language identification: a survey | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
CN112750446B (zh) | 语音转换方法、装置和系统及存储介质 | |
US20110218803A1 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
WO2020034628A1 (zh) | 口音识别方法、装置、计算机装置及存储介质 | |
Farouk et al. | Application of wavelets in speech processing | |
CN117935789A (zh) | 语音识别方法及系统、设备、存储介质 | |
US10014007B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
Venkatesan et al. | Binaural classification-based speech segregation and robust speaker recognition system | |
Kadyan et al. | Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation | |
Hafen et al. | Speech information retrieval: a review | |
Chi et al. | Spectro-temporal modulation energy based mask for robust speaker identification | |
Balasubramanian et al. | Estimation of ideal binary mask for audio-visual monaural speech enhancement | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
Kupryjanow et al. | Real-time speech signal segmentation methods | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Chougule et al. | Filter bank based cepstral features for speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |