CN111341321A - 一种基于Matlab的语谱图生成及显示方法和装置 - Google Patents
一种基于Matlab的语谱图生成及显示方法和装置 Download PDFInfo
- Publication number
- CN111341321A CN111341321A CN202010129497.2A CN202010129497A CN111341321A CN 111341321 A CN111341321 A CN 111341321A CN 202010129497 A CN202010129497 A CN 202010129497A CN 111341321 A CN111341321 A CN 111341321A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- dimensional
- matlab
- generating
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000009432 framing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了一种基于Matlab的语谱图生成及显示方法和装置,包括:对采集到的语音信号进行预处理;对预处理后的语音信号进行Matlab参数配置,生成二维语谱图;对二维语谱图进行坐标点信息提取;根据坐标点信息进行Matlab动态建模,生成三维语谱图并显示。本申请中提供的基于Matlab的语谱图生成及显示方法,对语音信号进行预处理之后,利用Matlab生成二维语谱图,然后提取二维语谱图的坐标点信息进行动态建模,得到三维语谱图,能够直观准确的体现出语音信号的声纹特征,提高了语音鉴定的准确率和效率,解决了生成准确体现声纹特征的语谱图,以提高声纹鉴定的准确率和效率的技术问题。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种基于Matlab的语谱图生成及显示方法和相关装置。
背景技术
常规的同一说话人的声纹同一性检验方法是将语音显示为语谱图,把声纹特性在图形上显示出来,再将生成的语谱图与预设的语谱图进行声纹特征比对,从而进行身份验证。因此,如何生成准确体现声纹特征的语谱图,以提高声纹鉴定的准确率和效率,是本领域技术人员亟待解决的技术问题。
发明内容
本申请提供了一种基于Matlab的语谱图生成及显示方法和相关装置,用于解决生成准确体现声纹特征的语谱图,以提高声纹鉴定的准确率和效率的技术问题。
有鉴于此,本申请第一方面提供了一种基于Matlab的语谱图生成及显示方法,包括:
对采集到的语音信号进行预处理;
对预处理后的所述语音信号进行Matlab参数配置,生成二维语谱图;
对所述二维语谱图进行坐标点信息提取;
根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
可选地,所述对采集到的语音信号进行预处理,包括:
对采集到的语音信号信号依次进行归一化处理、预加重处理、分帧处理和加窗处理。
可选地,所述对采集到的语音信号依次进行归一化处理、预加重处理、分帧处理和加窗处理,包括:
对采集到的语音信号进行归一化处理,使得所述语音信号的幅值范围投影到负一到正一之间;
采用一阶高通滤波器对归一化处理后的所述语音信号进行预加重处理;
对预加重后的所述语音信号进行分帧处理和加窗处理,所述加窗处理的窗函数为汉明窗。
可选地,所述对所述二维语谱图进行坐标点信息提取,包括:
将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。
可选地,所述根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示,包括:
利用各个所述三维顶点建立对应的三维网格模型,生成三维语谱图并在Matlab的figure窗口显示。
本申请第二方面提供了一种基于Matlab的语谱图生成及显示装置,包括:
预处理单元,用于对采集到的语音信号进行预处理;
二维语谱单元,用于对预处理后的所述语音信号进行Matlab参数配置,生成二维语谱图;
坐标提取单元,用于对所述二维语谱图进行坐标点信息提取;
三维语谱单元,用于根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
可选地,所述预处理单元具体用于;
对采集到的语音信号信号依次进行归一化处理、预加重处理、分帧处理和加窗处理。
可选地,所述预处理单元具体用于:
对采集到的语音信号进行归一化处理,使得所述语音信号的幅值范围投影到负一到正一之间;
采用一阶高通滤波器对归一化处理后的所述语音信号进行预加重处理;
对预加重后的所述语音信号进行分帧处理和加窗处理,所述加窗处理的窗函数为汉明窗。
可选地,所述坐标提取单元具体用于:
将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。
可选地,所述三维语谱单元具体用于:
利用各个所述三维顶点建立对应的三维网格模型,生成三维语谱图并在Matlab的figure窗口显示。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中提供了一种基于Matlab的语谱图生成及显示方法,包括:对采集到的语音信号进行预处理;对预处理后的语音信号进行Matlab参数配置,生成二维语谱图;对二维语谱图进行坐标点信息提取;根据坐标点信息进行Matlab动态建模,生成三维语谱图并显示。本申请中提供的基于Matlab的语谱图生成及显示方法,对语音信号进行预处理之后,利用Matlab生成二维语谱图,然后提取二维语谱图的坐标点信息进行动态建模,得到三维语谱图,能够直观准确的体现出语音信号的声纹特征,提高了语音鉴定的准确率和效率,解决了生成准确体现声纹特征的语谱图,以提高声纹鉴定的准确率和效率的技术问题。
附图说明
图1为本申请实施例中提供的一种基于Matlab的语谱图生成及显示方法的一个流程示意图;
图2为本申请实施例中提供的一种基于Matlab的语谱图生成及显示装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供了一种基于Matlab的语谱图生成及显示方法的一个实施例,包括:
步骤101、对采集到的语音信号进行预处理。
需要说明的是,采集到语音信号之后,首先对语音信号进行预处理,预处理可以包括依次进行归一化处理、预加重处理、分帧处理和加窗处理。对语音信号进行归一化处理可以减少不同样本之间的差异,并且使得语音信号的幅值范围投影到[-1,+1]之间,采用预加重技术提高语音信号的高频成分,使得语音信号从低频到高频变得相对平坦,可以采用一阶高通滤波器提升高频分量。然后对归一化和预加重后的语音信号进行分帧加窗处理,采用一定长度的窗函数乘以语音信号得到每帧加窗后的信号,窗函数可以是汉明窗、汉宁窗或矩形窗。
步骤102、对预处理后的语音信号进行Matlab参数配置,生成二维语谱图。
需要说明的是,本申请实施例中对语音信号的Matlab参数配置数量和类型不做具体限定,配置的参数可以包括信号带宽、动态范围、采样范围、衰减、高频提升系数、加窗类型。生成的二维语谱图可以是通过傅里叶变换得到的语音信号图形数据。
步骤103、对二维语谱图进行坐标点信息提取。
需要说明的是,二维语谱图的坐标点信息可以包括时间、信息、频率信息和音强信息。将二维语谱图的各个像素点转换为对应的三维顶点作为坐标点信息。
步骤104、根据坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
需要说明的是,在提取二维语谱图的坐标点信息之后,可以利用坐标点信息在Matlab中进行动态建模,生成三维语谱图,并在Matlab的figure窗口显示三维语谱图。
本申请实施例中提供了一种基于Matlab的语谱图生成及显示方法,包括:对采集到的语音信号进行预处理;对预处理后的语音信号进行Matlab参数配置,生成二维语谱图;对二维语谱图进行坐标点信息提取;根据坐标点信息进行Matlab动态建模,生成三维语谱图并显示。本申请中提供的基于Matlab的语谱图生成及显示方法,对语音信号进行预处理之后,利用Matlab生成二维语谱图,然后提取二维语谱图的坐标点信息进行动态建模,得到三维语谱图,能够直观准确的体现出语音信号的声纹特征,提高了语音鉴定的准确率和效率,解决了生成准确体现声纹特征的语谱图,以提高声纹鉴定的准确率和效率的技术问题。
为了便于理解,请参阅图2,本申请中提供了一种基于Matlab的语谱图生成及显示装置的实施例,包括:
预处理单元,用于对采集到的语音信号进行预处理;
二维语谱单元,用于对预处理后的语音信号进行Matlab参数配置,生成二维语谱图;
坐标提取单元,用于对二维语谱图进行坐标点信息提取;
三维语谱单元,用于根据坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
进一步地,预处理单元具体用于;
对采集到的语音信号信号依次进行归一化处理、预加重处理、分帧处理和加窗处理。
进一步地,预处理单元具体用于:
对采集到的语音信号进行归一化处理,使得所述语音信号的幅值范围投影到负一到正一之间;
采用一阶高通滤波器对归一化处理后的所述语音信号进行预加重处理;
对预加重后的所述语音信号进行分帧处理和加窗处理,所述加窗处理的窗函数为汉明窗。
进一步地,坐标提取单元具体用于:
将二维语谱图的各个像素点转换为对应的三维顶点作为坐标点信息。
进一步地,三维语谱单元具体用于:
利用各个三维顶点建立对应的三维网格模型,生成三维语谱图并在Matlab的figure窗口显示。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于Matlab的语谱图生成及显示方法,其特征在于,包括:
对采集到的语音信号进行预处理;
对预处理后的所述语音信号进行Matlab参数配置,生成二维语谱图;
对所述二维语谱图进行坐标点信息提取;
根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
2.根据权利要求1所述的基于Matlab的语谱图生成及显示方法,其特征在于,所述对采集到的语音信号进行预处理,包括:
对采集到的语音信号信号依次进行归一化处理、预加重处理、分帧处理和加窗处理。
3.根据权利要求2所述的基于Matlab的语谱图生成及显示方法,其特征在于,所述对采集到的语音信号依次进行归一化处理、预加重处理、分帧处理和加窗处理,包括:
对采集到的语音信号进行归一化处理,使得所述语音信号的幅值范围投影到负一到正一之间;
采用一阶高通滤波器对归一化处理后的所述语音信号进行预加重处理;
对预加重后的所述语音信号进行分帧处理和加窗处理,所述加窗处理的窗函数为汉明窗。
4.根据权利要求1所述的基于Matlab的语谱图生成及显示方法,其特征在于,所述对所述二维语谱图进行坐标点信息提取,包括:
将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。
5.根据权利要求4所述的基于Matlab的语谱图生成及显示方法,其特征在于,所述根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示,包括:
利用各个所述三维顶点建立对应的三维网格模型,生成三维语谱图并在Matlab的figure窗口显示。
6.一种基于Matlab的语谱图生成及显示装置,其特征在于,包括:
预处理单元,用于对采集到的语音信号进行预处理;
二维语谱单元,用于对预处理后的所述语音信号进行Matlab参数配置,生成二维语谱图;
坐标提取单元,用于对所述二维语谱图进行坐标点信息提取;
三维语谱单元,用于根据所述坐标点信息进行Matlab动态建模,生成三维语谱图并显示。
7.根据权利要求6所述的基于Matlab的语谱图生成及显示装置,其特征在于,所述预处理单元具体用于;
对采集到的语音信号信号依次进行归一化处理、预加重处理、分帧处理和加窗处理。
8.根据权利要求7所述的基于Matlab的语谱图生成及显示装置,其特征在于,所述预处理单元具体用于:
对采集到的语音信号进行归一化处理,使得所述语音信号的幅值范围投影到负一到正一之间;
采用一阶高通滤波器对归一化处理后的所述语音信号进行预加重处理;
对预加重后的所述语音信号进行分帧处理和加窗处理,所述加窗处理的窗函数为汉明窗。
9.根据权利要求6所述的基于Matlab的语谱图生成及显示装置,其特征在于,所述坐标提取单元具体用于:
将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。
10.根据权利要求9所述的基于Matlab的语谱图生成及显示装置,其特征在于,所述三维语谱单元具体用于:
利用各个所述三维顶点建立对应的三维网格模型,生成三维语谱图并在Matlab的figure窗口显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129497.2A CN111341321A (zh) | 2020-02-28 | 2020-02-28 | 一种基于Matlab的语谱图生成及显示方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129497.2A CN111341321A (zh) | 2020-02-28 | 2020-02-28 | 一种基于Matlab的语谱图生成及显示方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111341321A true CN111341321A (zh) | 2020-06-26 |
Family
ID=71187240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129497.2A Pending CN111341321A (zh) | 2020-02-28 | 2020-02-28 | 一种基于Matlab的语谱图生成及显示方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341321A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420072A (zh) * | 2021-01-25 | 2021-02-26 | 北京远鉴信息技术有限公司 | 一种语谱图的生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
-
2020
- 2020-02-28 CN CN202010129497.2A patent/CN111341321A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420072A (zh) * | 2021-01-25 | 2021-02-26 | 北京远鉴信息技术有限公司 | 一种语谱图的生成方法、装置、电子设备及存储介质 |
CN112420072B (zh) * | 2021-01-25 | 2021-04-27 | 北京远鉴信息技术有限公司 | 一种语谱图的生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
US20150081287A1 (en) | Adaptive noise reduction for high noise environments | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN109979466B (zh) | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN109256138A (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN110689885B (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
CN110428835B (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
JP7184236B2 (ja) | 声紋を認識する方法、装置、設備、および記憶媒体 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
CN113178204A (zh) | 一种单通道降噪的低功耗方法、装置及存储介质 | |
CN109448733A (zh) | 一种语谱图生成方法、系统及相关装置 | |
CN111863014A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
WO2021127990A1 (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
CN111462736B (zh) | 基于语音的图像生成方法、装置和电子设备 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
CN111341321A (zh) | 一种基于Matlab的语谱图生成及显示方法和装置 | |
CN110890098B (zh) | 盲信号分离方法、装置和电子设备 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN111816208A (zh) | 一种语音分离质量评估方法、装置及计算机存储介质 | |
WO2021051533A1 (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |