CN108717854A - 基于优化gfcc特征参数的说话人识别方法 - Google Patents
基于优化gfcc特征参数的说话人识别方法 Download PDFInfo
- Publication number
- CN108717854A CN108717854A CN201810434414.3A CN201810434414A CN108717854A CN 108717854 A CN108717854 A CN 108717854A CN 201810434414 A CN201810434414 A CN 201810434414A CN 108717854 A CN108717854 A CN 108717854A
- Authority
- CN
- China
- Prior art keywords
- noise reduction
- optimization
- characteristic parameters
- reduction process
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000011946 reduction process Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于优化GFCC特征参数的说话人识别方法,它涉及语音识别技术领域;它的方法如下:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;本发明能提高处理数据速度与识别率,节省时间,同时数据库全面;在使用时能实现快速筛选与过滤,效率高。
Description
技术领域
本发明属于语音识别技术领域,具体涉及基于优化GFCC特征参数的说话人识别方法。
背景技术
语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中,语音是第一属性,人类的语言首先是以语音的形式形成,世界上有无文字的语言,但没有无语音的语言,语音在语言中起决定性的支撑作用。
语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。
语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术,其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识 别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中,根据语音识别引擎所基于的数学模型,从训练数据中统计地得到声学模型(acoustic model,AM)和词汇表(lexicon)。在识别阶段中,语音识别引擎使用声学模型和词汇表对输入的语音进 行处理,得到语音识别结果。例如,从输入声音的声波图进行特征提 取以获得特征向量,然后根据声学模型得到音素序列,最后从词汇表中定位与音素序列匹配度较高的单词,甚至是句子。
现有的语音识别时其速度慢,且不能实现优化,导致数据库不全的现象。
发明内容
为解决上述背景技术中所提到的现有的语音识别时其速度慢,且不能实现优化,导致数据库不全的现象的问题;本发明的目的在于提供基于优化GFCC特征参数的说话人识别方法。
本发明的基于优化GFCC特征参数的说话人识别方法,它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
作为优选,所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
作为优选,所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
作为优选,所述降噪处理模块采用二次降噪方式进行降噪。
与现有技术相比,本发明的有益效果为:
一、能提高处理数据速度与识别率,节省时间,同时数据库全面;
二、在使用时能实现快速筛选与过滤,效率高。
具体实施方式:
本具体实施方式采用以下技术方案:它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
进一步的,所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
进一步的,所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
进一步的,所述降噪处理模块采用二次降噪方式进行降噪。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.基于优化GFCC特征参数的说话人识别方法,其特征在于:它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
2.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
3.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
4.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述降噪处理模块采用二次降噪方式进行降噪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810434414.3A CN108717854A (zh) | 2018-05-08 | 2018-05-08 | 基于优化gfcc特征参数的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810434414.3A CN108717854A (zh) | 2018-05-08 | 2018-05-08 | 基于优化gfcc特征参数的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108717854A true CN108717854A (zh) | 2018-10-30 |
Family
ID=63899560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810434414.3A Pending CN108717854A (zh) | 2018-05-08 | 2018-05-08 | 基于优化gfcc特征参数的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717854A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN113257226A (zh) * | 2021-03-28 | 2021-08-13 | 昆明理工大学 | 一种基于gfcc的改进特征参数的语种识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010266488A (ja) * | 2009-05-12 | 2010-11-25 | Raytron:Kk | 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105529026A (zh) * | 2014-10-17 | 2016-04-27 | 现代自动车株式会社 | 语音识别装置和语音识别方法 |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎系统中的稀疏谱特征提取方法 |
-
2018
- 2018-05-08 CN CN201810434414.3A patent/CN108717854A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010266488A (ja) * | 2009-05-12 | 2010-11-25 | Raytron:Kk | 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN105529026A (zh) * | 2014-10-17 | 2016-04-27 | 现代自动车株式会社 | 语音识别装置和语音识别方法 |
CN105096941A (zh) * | 2015-09-02 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN107293302A (zh) * | 2017-06-27 | 2017-10-24 | 苏州大学 | 一种用于语音测谎系统中的稀疏谱特征提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN113257226A (zh) * | 2021-03-28 | 2021-08-13 | 昆明理工大学 | 一种基于gfcc的改进特征参数的语种识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105304080B (zh) | 语音合成装置及方法 | |
CN107564511B (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN110675854B (zh) | 一种中英文混合语音识别方法及装置 | |
CN105261246B (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN112233646B (zh) | 基于神经网络的语音克隆方法、系统、设备及存储介质 | |
CN107369440A (zh) | 一种针对短语音的说话人识别模型的训练方法及装置 | |
CN101551947A (zh) | 辅助口语语言学习的计算机系统 | |
KR20070098094A (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN106803422A (zh) | 一种基于长短时记忆网络的语言模型重估方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN109493658A (zh) | 情景化人机对话式口语交互学习方法 | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
CN108628836A (zh) | 采用人工智能bp神经网络算法进行语音翻译的机器人 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN110415725A (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN108717854A (zh) | 基于优化gfcc特征参数的说话人识别方法 | |
CN106971721A (zh) | 一种基于嵌入式移动设备的地方口音语音识别系统 | |
CN109859746B (zh) | 一种基于tts的语音识别语料库生成方法及系统 | |
Wang | [Retracted] Research on Open Oral English Scoring System Based on Neural Network | |
CN110491372A (zh) | 一种反馈信息生成方法、装置、存储介质和智能设备 | |
Venkatagiri | Speech recognition technology applications in communication disorders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181030 |
|
WD01 | Invention patent application deemed withdrawn after publication |