CN108717854A - 基于优化gfcc特征参数的说话人识别方法 - Google Patents

基于优化gfcc特征参数的说话人识别方法 Download PDF

Info

Publication number
CN108717854A
CN108717854A CN201810434414.3A CN201810434414A CN108717854A CN 108717854 A CN108717854 A CN 108717854A CN 201810434414 A CN201810434414 A CN 201810434414A CN 108717854 A CN108717854 A CN 108717854A
Authority
CN
China
Prior art keywords
noise reduction
optimization
characteristic parameters
reduction process
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810434414.3A
Other languages
English (en)
Inventor
兰朝凤
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201810434414.3A priority Critical patent/CN108717854A/zh
Publication of CN108717854A publication Critical patent/CN108717854A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于优化GFCC特征参数的说话人识别方法,它涉及语音识别技术领域;它的方法如下:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;本发明能提高处理数据速度与识别率,节省时间,同时数据库全面;在使用时能实现快速筛选与过滤,效率高。

Description

基于优化GFCC特征参数的说话人识别方法
技术领域
本发明属于语音识别技术领域,具体涉及基于优化GFCC特征参数的说话人识别方法。
背景技术
语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中,语音是第一属性,人类的语言首先是以语音的形式形成,世界上有无文字的语言,但没有无语音的语言,语音在语言中起决定性的支撑作用。
语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式。
语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术,其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识 别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中,根据语音识别引擎所基于的数学模型,从训练数据中统计地得到声学模型(acoustic model,AM)和词汇表(lexicon)。在识别阶段中,语音识别引擎使用声学模型和词汇表对输入的语音进 行处理,得到语音识别结果。例如,从输入声音的声波图进行特征提 取以获得特征向量,然后根据声学模型得到音素序列,最后从词汇表中定位与音素序列匹配度较高的单词,甚至是句子。
现有的语音识别时其速度慢,且不能实现优化,导致数据库不全的现象。
发明内容
为解决上述背景技术中所提到的现有的语音识别时其速度慢,且不能实现优化,导致数据库不全的现象的问题;本发明的目的在于提供基于优化GFCC特征参数的说话人识别方法。
本发明的基于优化GFCC特征参数的说话人识别方法,它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
作为优选,所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
作为优选,所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
作为优选,所述降噪处理模块采用二次降噪方式进行降噪。
与现有技术相比,本发明的有益效果为:
一、能提高处理数据速度与识别率,节省时间,同时数据库全面;
二、在使用时能实现快速筛选与过滤,效率高。
具体实施方式:
本具体实施方式采用以下技术方案:它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
进一步的,所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
进一步的,所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
进一步的,所述降噪处理模块采用二次降噪方式进行降噪。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.基于优化GFCC特征参数的说话人识别方法,其特征在于:它的方法如下:
步骤一:将语音识别器与安装在计算机内部的降噪处理模块连接,同时降噪处理模块与字符串记模块连接,其计算机内安装有处理器、存储器、输出器;
步骤二:根据输入的声音经过降噪处理模块进行初处理,同时处理后,通过GFCC特征参数进行识别并采用小波包进行优化,然后使用深度学习进行建模;
步骤三:根据建模后在人说话后进行数据采集,并产生相关的音标、单词、声调以及语速,其经过分析模块进行分析,将分析结果进行输出并存储;
步骤四:将数据进行汇总并进行标记,其标记出相同的部分,将相同的部分进行筛选、优化;
步骤五:将优化与筛选的数据进行整合成数据库,并经过验证后存储数据。
2.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述步骤四中标记的方法是通过单独的标记方式,同时在单独标记时通过标记器进行标记。
3.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。
4.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法,其特征在于:所述降噪处理模块采用二次降噪方式进行降噪。
CN201810434414.3A 2018-05-08 2018-05-08 基于优化gfcc特征参数的说话人识别方法 Pending CN108717854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810434414.3A CN108717854A (zh) 2018-05-08 2018-05-08 基于优化gfcc特征参数的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810434414.3A CN108717854A (zh) 2018-05-08 2018-05-08 基于优化gfcc特征参数的说话人识别方法

Publications (1)

Publication Number Publication Date
CN108717854A true CN108717854A (zh) 2018-10-30

Family

ID=63899560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810434414.3A Pending CN108717854A (zh) 2018-05-08 2018-05-08 基于优化gfcc特征参数的说话人识别方法

Country Status (1)

Country Link
CN (1) CN108717854A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN113257226A (zh) * 2021-03-28 2021-08-13 昆明理工大学 一种基于gfcc的改进特征参数的语种识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266488A (ja) * 2009-05-12 2010-11-25 Raytron:Kk 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN107293302A (zh) * 2017-06-27 2017-10-24 苏州大学 一种用于语音测谎系统中的稀疏谱特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266488A (ja) * 2009-05-12 2010-11-25 Raytron:Kk 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN107293302A (zh) * 2017-06-27 2017-10-24 苏州大学 一种用于语音测谎系统中的稀疏谱特征提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN113257226A (zh) * 2021-03-28 2021-08-13 昆明理工大学 一种基于gfcc的改进特征参数的语种识别方法

Similar Documents

Publication Publication Date Title
CN105304080B (zh) 语音合成装置及方法
CN107564511B (zh) 电子装置、语音合成方法和计算机可读存储介质
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN107657017A (zh) 用于提供语音服务的方法和装置
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN112233646B (zh) 基于神经网络的语音克隆方法、系统、设备及存储介质
CN107369440A (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN101551947A (zh) 辅助口语语言学习的计算机系统
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN109493658A (zh) 情景化人机对话式口语交互学习方法
CN109102800A (zh) 一种确定歌词显示数据的方法和装置
CN108628836A (zh) 采用人工智能bp神经网络算法进行语音翻译的机器人
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
Zhao et al. End-to-end-based Tibetan multitask speech recognition
CN110415725A (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN108717854A (zh) 基于优化gfcc特征参数的说话人识别方法
CN106971721A (zh) 一种基于嵌入式移动设备的地方口音语音识别系统
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
Wang [Retracted] Research on Open Oral English Scoring System Based on Neural Network
CN110491372A (zh) 一种反馈信息生成方法、装置、存储介质和智能设备
Venkatagiri Speech recognition technology applications in communication disorders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181030

WD01 Invention patent application deemed withdrawn after publication