CN106710589B - 基于人工智能的语音特征提取方法及装置 - Google Patents

基于人工智能的语音特征提取方法及装置 Download PDF

Info

Publication number
CN106710589B
CN106710589B CN201611239071.2A CN201611239071A CN106710589B CN 106710589 B CN106710589 B CN 106710589B CN 201611239071 A CN201611239071 A CN 201611239071A CN 106710589 B CN106710589 B CN 106710589B
Authority
CN
China
Prior art keywords
layer
convolution
voice
identified
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611239071.2A
Other languages
English (en)
Other versions
CN106710589A (zh
Inventor
李超
李先刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611239071.2A priority Critical patent/CN106710589B/zh
Publication of CN106710589A publication Critical patent/CN106710589A/zh
Priority to US15/850,873 priority patent/US10621971B2/en
Application granted granted Critical
Publication of CN106710589B publication Critical patent/CN106710589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于人工智能的语音特征提取方法及装置,其中,方法包括:对待识别语音进行频谱分析,得到待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对语谱图进行特征提取,得到待识别语音的语音特征。本发明中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。

Description

基于人工智能的语音特征提取方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的语音特征提取方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。
随着语音搜索业务的不断普及,越来越多的人开始使用自己的语音来搜索所需要的信息,语音搜索的比例逐年提高。在基于语音搜索的过程,首先需要对语音进行识别,然后基于识别结果进行搜索。目前,多采用神经网络对语音进行识别。
但是,现有基于声学模型的语音识别中,在声学模型中并没有设置专门的特征提取层(layers),而是使用全连接(Full Connect,简称FC)层进行语音的特征提取,导致现有的语音识别的准确率较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的语音特征提取方法,用于解决现有基于神经网络的语音识别中,由于没有设置专门的特征提取层,而是使用FC层进行语音特征的提取,导致现有的语音识别的准确率较差的问题。
本发明的第二个目的在于提出一种基于人工智能的语音特征提取装置。
本发明的第三个目的在于提出另一种基于人工智能的语音特征提取装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的语音特征提取方法,包括:
对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
本发明实施例的基于人工智能的语音特征提取方法,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,进而利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征,从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用,进而克服现有技术中由于声学模型中并没有设置专门的特征提取层,使得语音识别准确率较差的问题。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的语音特征提取装置,包括:
语谱图获取模块,用于对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
特征提取模块,用于利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
本发明实施例的基于人工智能的语音特征提取装置,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,进而利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征,从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用,进而克服现有技术中由于声学模型中并没有设置专门的特征提取层,使得语音识别准确率较差的问题。
为达上述目的,本发明第三方面实施例提出了另一种基于人工智能的语音特征提取装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:对待识别语音进行频谱分析,得到所述待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的语音特征提取方法,所述方法包括:
对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的语音特征提取方法,所述方法包括:
对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于人工智能的语音特征提取方法的流程示意图;
图2为本发明实施例提供的待识别语音的语谱图;
图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的流程示意图;
图4为本发明实施例提供的第一个卷积模块的结构示意图;
图5为本发明实施例提供的第二个卷积模块的结构示意图;
图6为本发明实施例提供的第三个卷积模块的结构示意图;
图7为本发明实施例提供的第四个卷积模块的结构示意图;
图8为本发明实施例提供的一种Inception卷积结构的应用示意图;
图9为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图;
图10为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的语音特征提取方法及装置。
图1为本发明实施例提供的一种基于人工智能的语音特征提取方法的流程示意图。该基于人工智能的语音特征提取方法包括以下步骤:
S101、对待识别语音进行频谱分析,得到待识别语音的语谱图。
具体地,按照预设的周期对待识别语音进行采样,得到该待识别语音的各语音帧。本实施例中,预先设置有滤波器组,每个滤波器组中预设个数的滤波器,为不同的滤波器设置不同的滤波频率。进一步地,利用包括预设个数的滤波器的滤波器组,对每个语音帧进行滤波,由于滤波器组中每个滤波器的滤波不同,经过滤波器组对语音帧进行滤波后,可以得到每个语音帧所包括的各频谱分量。
进一步地,在获取到每个语音帧的各频谱分量后,针对每个语音帧进行快速傅里叶变换,得到各语音帧的频谱值,通过该频谱值可以表征出该语音帧的短时平均能量。然后利用得到的各语音帧的频谱值生成待识别语音的语谱图。其中,待识别语音的语谱图的横坐标为语音帧所对应的时间,语谱图的纵坐标为语音帧所含的频率分量,语谱图的坐标点值为频谱值。
例如,可以预设10ms作为一个采样的周期,每10ms形成一个语音帧。设置一个包括40个滤波器的滤波器组,通过滤波器组每个10ms的语音帧进行滤波,得到每个语音帧的filter bank特征。由于滤波器组包括40个滤波器,则经过滤波器组后每个语音帧可以提取出一个40个filter-bank特征,那么一段连续的待识别语音就可以根据提取到的40个filter-bank特征,形成一个2纬的图像格式,即形成一张待识别语音的语谱图,如图2所示。
S102、利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
本实施例中,为了能够提高语音识别的准确性,可以在声学识别模型中可以增加一个图像识别算法中的Inception卷积结构,利用该Inception卷积结构对待识别语音的语谱图进行识别,以得到待识别语音的语音特征。具体地,Inception卷积结构中包括多个卷积模块,每个卷积模块中包括多个卷积层和一个池化层。其中,池化层用于在时域和/或频域进行降采样。由于生成语谱图时按照预设的周期对待识别语音进行采样,也就是说,在形成语谱图时已经在时域对待识别语音进行了一次降采样,本实施例中,各池化层在时域上的总降采样率小于在频域上的总降采样率。
在时域上的总降采样率是根据对待识别语音进行语音分类时的粒度确定的。例如,语音分类时的粒度可以音素粒度和字粒度等。不同的分类粒度在Inception卷积结构中设置的总降采样率不同。例如,以音素为粒度时,Inception卷积结构中时域的总降采样率优选为1/4。而以字为粒度时,Inception卷积结构中时域的总降采样率优选为1/8。
进一步地,Inception卷积结构中,后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。例如,Inception卷积结构中包括4个卷积模块,则第2个卷积模块中滤波器的个数为第1个卷积模块中滤波器的整数倍,第3个卷积模块的滤波器的个数为第2个卷积模块中滤波器的整数倍,第4个卷积模块的滤波器的个数为第3个卷积模块中滤波器的整数倍。例如,当第1个卷积模块中滤波器的个数为64时,则第2个卷积模块中滤波器的个数为128。以此类推,第3个卷积模块中滤波器的个数为256,第4个卷积模块中滤波器的个数为512。
进一步地,当为每个卷积模块确定出滤波器的个数后,可以按照每个卷积模块中设置的滤波器的个数,构建该卷积模块的卷积有向无环(Directed Acyclic Graph,简称DAG)图,然后按照构建的DAG图连接每个卷积模块所包括的各层。
将Inception卷积结构中每个卷积模块中各层按照DAG图连接后,可以依次对卷积模型进行连接,利用连接完成的Inception卷积结构对语谱图进行语音特征提取。
本实施例提供的基于人工智能的语音特征提取方法,通过对待识别语音进行频谱分析,得到待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对语谱图进行特征提取,得到待识别语音的语音特征。本实施例中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,进而利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征,从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用,进而克服现有技术中由于声学模型中并没有设置专门的特征提取层,使得语音识别准确率较差的问题。
图3为本发明实施例提供的另一种基于人工智能的语音特征提取方法的流程示意图。该另一种基于人工智能的语音特征提取方法包括以下步骤:
S201、预先对Inception卷积结构所包括的卷积模块进行设置。
本实施例中,预先设置一个Inception卷积结构,该Inception卷积结构可以包括多个卷积模块,每个卷积模块包括一个分路层、多个卷积核不同的卷积层、一个池化层和一个特征拼接层。预先可以为每个卷积模块设置不同个数的滤波器,以及每个卷积模块所包括的每个卷积层的卷积核、池化层的尺寸和卷积步长进行设置。
其中,池化层用于在语谱图在时域和/或频域进行降采样。由于生成语谱图时按照预设的周期对待识别语音进行采样,也就是说,在形成语谱图时已经在时域对待识别语音进行了一次降采样,本实施例中,各池化层在时域上的总降采样率小于在频域上的总降采样率。
优选地,Inception卷积结构包括4个卷积模块。第一个卷积模块和第二个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、池化层和特征拼接层,其中,1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层,池化层的尺度为2*2,卷积步长为1。
第三个卷积模块和第四个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、池化层和特征拼接层,其中,所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层,所述池化层的尺度(scale)为2*2,卷积步长(stride)为1*1。
将第一个卷积模块中滤波器的个数设置成64,将第二个卷积模块中滤波器的个数设置成128,将第三个卷积模块中滤波器的个数设置成256,将第四个卷积模块中滤波器的个数设置成512。
进一步地,为每个卷积模块中池化层在时域以及频域的降采样率进行设置。第一个卷积模块中的池化层在时域和频域上都做1/2的降采样。第二个卷积模块中的池化层在时域和频域上都做1/2的降采样。第三个卷积模块中的池化层频域上都做1/2的降采样。第四个卷积模块中的池化层在频域上做1/2的降采样。本实施例中,各池化层在时域上的总降采样率小于在频域上的总降采样率。
S202、对经过设置的Inception卷积结构进行训练。
经过上述设置后,可以采用大量的样本语谱图对设置的Inception卷积结构进行训练,以得到一个稳定的Inception卷积结构。
图4为本发明实施例提供的第一个卷积模块的结构示意图。图4中,第一个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为16的卷积层,图4中分别标记为conv16_1×1_1、conv16_1×1_2、conv16_1×1_3,conv16_1×1_4;1个卷积核为3*3的滤波器个数为16的卷积层,图4中标记为conv16_3×3;1个卷积核为5*1和卷积核为1*5的滤波器个数为16的卷积层,图4中分别标记为conv16_5×1、conv16_1×5;其中,该1个卷积核为5*1滤波器个数为16的卷积层和卷积核为1*5的滤波器个数为16的卷积层,就可以构成1个5*5的滤波器个数为16的卷积层。进一步地,第一个卷积模块还包括1个池化层和1个特征拼接层。其中,该池化层的尺寸为2*2,卷积步长为1*1,图4中标记为pooling_2×2_1×1。第一个卷积模块中的池化层在时域和频域上都做1/2的降采样。
分路层将接收到的输入分路成4路。图4中,第1路经过1个卷积核为1*1的卷积层,然后经过卷积核为3*3的卷积层,输入到特征拼接层;第2路经过1个卷积核为1*1的卷积层,然后经过卷积核为5*1的卷积层,再经过一个1*5的卷积层,输入到特征拼接层;第3路经过1个卷积核为1*1的卷积层,输入到特征拼接层;第4路经过1个池化层,再经过1个卷积核为1*1的卷积层,输入到特征拼接。
图5为本发明实施例提供的第二个卷积模块的结构示意图。图5中,第二个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为32的卷积层、图5中分别标记为conv32_1×1_1、conv32_1×1_2、conv32_1×1_3,conv32_1×1_4;1个卷积核为3*3的滤波器个数为32的卷积层,图5中标记为conv32_3×3;1个卷积核为5*1和卷积核为1*5的滤波器为32的卷积层,图5中分别标记为conv32_5×1、conv32_1×5;其中,该1个卷积核为5*1滤波器个数为32的卷积层和卷积核为1*5的滤波器个数为32的卷积层,就可以构成1个5*5的滤波器个数为32的卷积层。进一步地,第二个卷积模块还包括1个池化层和1个特征拼接层。其中,该池化层的尺寸为2*2,卷积步长为1*1,图5中标记为pooling_2×2_1×1。第二个卷积模块中的池化层在时域和频域上都做1/2的降采样。
分路层将接收到的输入分路成4路。图5中,第1路经过1个卷积核为1*1的卷积层,然后经过卷积核为3*3的卷积层,输入到特征拼接层;第2路经过1个卷积核为1*1的卷积层,然后经过卷积核为5*1的卷积层,再经过一个1*5的卷积层,输入到特征拼接层;第3路经过1个卷积核为1*1的卷积层,输入到特征拼接层;第4路经过1个池化层,再经过1个卷积核为1*1的卷积层,输入到特征拼接层。
图6为本发明实施例提供的第三个卷积模块的结构示意图。图6中,第三个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为64的卷积层,图6中分别标记为conv64_1×1_1、conv64_1×1_2、conv64_1×1_3,conv64_1×1_4;1个卷积核为3*3的滤波器个数为64的卷积层,图6中标记为conv64_3×3;1个卷积核为7*1和卷积核为1*7的滤波器个数为64的卷积层,图6中分别标记为conv64_7×1、conv64_1×7;其中,该1个卷积核为7*1滤波器个数为64的卷积层和卷积核为1*7的滤波器个数为64的卷积层,就可以构成1个7*7的滤波器个数为64的卷积层。进一步地,第三个卷积模块还包括1个池化层和1个特征拼接层。其中,该池化层的尺寸为2*2,卷积步长为1*1,图6中标记为pooling_2×2_1×1。第三个卷积模块中的池化层只在频域上做1/2的降采样。
分路层将接收到的输入分路成4路。图6中,第1路经过1个卷积核为1*1的卷积层,然后经过卷积核为3*3的卷积层,输入到特征拼接层;第2路经过1个卷积核为1*1的卷积层,然后经过卷积核为7*1的卷积层,再经过一个1*7的卷积层,输入到特征拼接层;第3路经过1个卷积核为1*1的卷积层,输入到特征拼接层;第4路经过1个池化层,再经过1个卷积核为1*1的卷积层,输入到特征拼接层。
图7为本发明实施例提供的第四个卷积模块的结构示意图。图7中,第四个卷积模块包括1个分路层、4个卷积核为1*1的滤波器个数为128的卷积层,图7中分别标记为conv128_1×1_1、conv128_1×1_2、conv128_1×1_3,conv128_1×1_4;1个卷积核为3*3的滤波器个数为128的卷积层,图7中标记为conv128_3×3;1个卷积核为7*1和卷积核为1*7的滤波器个数为128的卷积层,图7中分别标记为conv128_7×1、conv128_1×7;其中,该1个卷积核为7*1滤波器个数为128的卷积层和卷积核为1*7的滤波器个数为128的卷积层,就可以构成1个7*7的滤波器个数为128的卷积层。进一步地,第四个卷积模块还包括1个池化层和1个特征拼接层。其中,该池化层的尺寸为2*2,卷积步长为1*1,图7中标记为pooling_2×2_1×1。第四个卷积模块中的池化层只在频域上做1/2的降采样。
分路层将接收到的输入分路成4路。图7中,第1路经过1个卷积核为1*1的卷积层,然后经过卷积核为3*3的卷积层,输入到特征拼接层,第2路经过1个卷积核为1*1的卷积层,然后经过卷积核为7*1的卷积层,再经过一个1*7的卷积层,输入到特征拼接层;第3路经过1个卷积核为1*1的卷积层,输入到特征拼接层;第4路经过1个池化层,再经过1个卷积核为1*1的卷积层,输入到特征拼接层。
可选地,第三个卷积模块卷积核为7*1和卷积核为1*7的滤波器个数为64的卷积层,以及第四个卷积模块中卷积核为7*1和卷积核为1*7的滤波器个数为128的卷积层,可以将卷积核设置为5*1和1*5。上述对Inception卷积结构中各预先设置的参数不能作为限制本发明的条件。
进一步地,第一个卷积模块的特征拼接层的输出输入到第二个卷积模块的分路层,第二卷积模块的特征拼接层的输出输入到第三个卷积模块的分路层,第三卷积模块的特征拼接层的输出输入到第四个卷积模块的分路层。
S203、对待识别语音进行频谱分析,得到待识别语音的语谱图。
关于语谱图的获取过程,可参见上述实施例中相关内容的记载,此处不再赘述。
S204、利用Inception卷积结构对语谱图进行特征提取,得到待识别语音的语音特征。
在获取到待识别语音的语谱图后,将该语谱图输入到Inception卷积结构,该Inception卷积结构可以对语谱图进行识别,从该语谱图中提取待识别语音的语音特征。
S205、将提取到的语音特征输入全连接层进行语音分类处理。
在提取出语音特征后,可以将语音特征输入到下一层即FC层,通过该FC层对语音特征进行非线性映射,对待识别语音进行分类处理,识别出待识别语音对应的类型。
图8为本发明实施例提供的一种Inception卷积结构的应用示意图。如图8所示,输入层将语谱图输入到第一个卷积模块的分路层,经过卷积层处理后进入特征拼接层,第一个卷积特征模块中的特征拼接层的输出输入到第二个卷积模块的分路层,以此类推第二卷积模块的特征拼接层的输出输入到第三个卷积模块的分路层,第三卷积模块的特征拼接层的输出输入到第四个卷积模块的分路层。第四个卷积模块的特征拼接层的输出输入到全连接层进行语音分类处理,然后经过输出层最后输出待识别语音对应的类型。
本实施例提供的Inception卷积结构中使用了4次池化层(pooling)进行降采样,但是在时域上降采样的次数通常比频域上少,例如,第一个卷积模块和第二个卷积模块在时域上分别降了1次,将时域将为采样周期的1/4。例如,语音识别中通常采用10ms为帧移,即采样周期是10ms,因此,经过时域的降采样之后,采样周期变大到40ms。而在频域上降了4次,频率将为采样频率的1/16。在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的,例如以音素为建模单元的声学模型中,总共1/4的时域降采样是合适的,在以字为建模单元的模型中,1/8是合适的。
本实施例提供的基于人工智能的语音特征提取方法,通过对待识别语音进行频谱分析,得到待识别语音的语谱图,利用图像识别算法中的Inception卷积结构,对语谱图进行特征提取,得到待识别语音的语音特征。本实施例中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,进而利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征,从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用,进而克服现有技术中由于声学模型中并没有设置专门的特征提取层,使得语音识别准确率较差的问题。
图9为本发明实施例提供的一种基于人工智能的语音特征提取装置的结构示意图。该基于人工智能的语音特征提取装置包括:语谱图获取模块11和特征提取模块12。
其中,语谱图获取模块11,用于对待识别语音进行频谱分析,得到所述待识别语音的语谱图。
特征提取模块12,用于利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征。
进一步地,语谱图获取模块11,具体用于对所述待识别语音所包括的各语音帧进行快速傅里叶变换,得到各语音帧的频谱值,利用各语音帧的频谱值,生成所述待识别语音的所述语谱图;所述语谱图的横坐标为所述语音帧所对应的时间,所述语谱图的纵坐标为所述语音帧所含的频率分量,所述语谱图的坐标点值为所述频谱值。
进一步地,所述基于人工智能的语音特征提取装置还包括:采样模块13。
采样模块13,用于按照预设的周期对所述待识别语音进行采样,得到各语音帧,利用包括预设个数的滤波器的滤波器组,对每个语音帧进行滤波,得到每个语音帧所包括的各频谱分量。
进一步地,Inception卷积结构包括多个卷积模块,每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层;所述池化层用于在时域和/或频域进行降采样;各池化层在时域上的总降采样率小于在频域上的总降采样率。
进一步地,在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。
进一步地,所述Inception卷积结构中,后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。
进一步地,所述Inception卷积结构包括4个卷积模块,其中,所述第一个卷积模块和第二个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层,所述池化层的尺度为2*2,卷积步长为1*1;
所述第三个卷积模块和第四个卷积模块中均包括:一个所述分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层,所述池化层的尺度为2*2,卷积步长为1*1。
进一步地,所述基于人工智能的语音特征提取装置还包括:预设模块14和训练模块15。
预设模块14,用于预先对所述Inception卷积结构中所包括的各卷积模块进行设置。
训练模块15,用于对经过设置的Inception卷积结构进行训练。
进一步地,所述基于人工智能的语音特征提取装置还包括:分类处理模块16。
分类处理模块16,用于将提取到的语音特征输入全连接层进行语音分类处理。
本实施例中,通过对待识别语音进行频谱分析,将连续的待识别语音转换成语谱图进行表示,由于Inception卷积结构为可以精准识别图像特征的有效的图像识别方式,进而利用Inception卷积结构对语谱图进行识别,提取出待识别语音较为准确的语音特征,进而可以提高语音识别的准确率。由于Inception卷积结构可以提取语音特征,从而可以在声学模型中可以将Inception卷积结构作为单独的语音特征提取层使用,进而克服现有技术中由于声学模型中并没有设置专门的特征提取层,使得语音识别准确率较差的问题。
图10为本发明实施例提供的另一种基于人工智能的语音特征提取装置的结构示意图。该基于人工智能的语音特征提取装置包括:
通信接口21、存储器22、处理器23及存储在存储器22上并可在处理器22上运行的计算机程序。
处理器23执行所述程序时实现如权利要求1-9中任一所述的基于人工智能的语音特征提取方法。
通信接口21,用于存储器22和处理器23之间的通信。
存储器22,用于存放可在处理器23上运行的计算机程序。
存储器22可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器23,用于执行所述程序时实现上述实施例所述的基于人工智能的语音特征提取方法。
如果通信接口21、存储器22和处理器23独立实现,则通信接口21、存储器22和处理器23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口21、存储器22和处理器23集成在一块芯片上实现,则通信接口21、存储器22和处理器23可以通过内部接口完成相互间的通信。
处理器23可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种基于人工智能的语音特征提取方法,其特征在于,所述语音特征用于进行语音识别,包括:
对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征;
其中,所述Inception卷积结构包括多个卷积模块,每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层;所述池化层用于在时域和/或频域进行降采样;各池化层在时域上的总降采样率小于在频域上的总降采样率,其中,在形成所述语谱图时在时域已对所述待识别语音进行了一次降采样;
其中,所述Inception卷积结构包括4个卷积模块,其中,所述第一个卷积模块和第二个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层,所述池化层的尺度为2*2,卷积步长为1*1;
所述第三个卷积模块和第四个卷积模块中均包括:一个所述分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层,所述池化层的尺度为2*2,卷积步长为1*1。
2.根据权利要求1所述的基于人工智能的语音特征提取方法,其特征在于,所述对待识别语音进行频谱分析,得到所述待识别语音的语谱图,包括:
对所述待识别语音所包括的各语音帧进行快速傅里叶变换,得到各语音帧的频谱值;
利用各语音帧的频谱值,生成所述待识别语音的所述语谱图;所述语谱图的横坐标为所述语音帧所对应的时间,所述语谱图的纵坐标为所述语音帧所含的频率分量,所述语谱图的坐标点值为所述频谱值。
3.根据权利要求1所述的基于人工智能的语音特征提取方法,其特征在于,在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。
4.根据权利要求1所述的基于人工智能的语音特征提取方法,其特征在于,所述Inception卷积结构中,后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。
5.根据权利要求1-4任一项所述的基于人工智能的语音特征提取方法,其特征在于,所述利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取之前,还包括:
预先对所述Inception卷积结构中所包括的各卷积模块进行设置;
对经过设置的Inception卷积结构进行训练。
6.根据权利要求1-4任一项所述的基于人工智能的语音特征提取方法,其特征在于,所述利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征之后,还包括:
将提取到的语音特征输入全连接层进行语音分类处理。
7.一种基于人工智能的语音特征提取装置,其特征在于,包括:
语谱图获取模块,用于对待识别语音进行频谱分析,得到所述待识别语音的语谱图;
特征提取模块,用于利用图像识别算法中的Inception卷积结构,对所述语谱图进行特征提取,得到所述待识别语音的语音特征;
其中,所述Inception卷积结构包括多个卷积模块,每个卷积模块包括一个分路层、多个卷积层、一个池化层和特征拼接层;所述池化层用于在时域和/或频域进行降采样;各池化层在时域上的总降采样率小于在频域上的总降采样率,其中,在形成所述语谱图时在时域已对所述待识别语音进行了一次降采样;
其中,所述Inception卷积结构包括4个卷积模块,其中,所述第一个卷积模块和第二个卷积模块中均包括:一个分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为5*1的卷积层和1个卷积核为1*5的卷积层构成一个卷积核5*5的卷积层,所述池化层的尺度为2*2,卷积步长为1*1;
所述第三个卷积模块和第四个卷积模块中均包括:一个所述分路层、4个卷积核为1*1的卷积层、1个卷积核为3*3的卷积层和1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层、所述池化层和所述特征拼接层,其中,所述1个卷积核为7*1的卷积层和1个卷积核为1*7的卷积层构成一个卷积核7*7的卷积层,所述池化层的尺度为2*2,卷积步长为1*1。
8.根据权利要求7所述的基于人工智能的语音特征提取装置,其特征在于,所述语谱图获取模块,具体用于对所述待识别语音所包括的各语音帧进行快速傅里叶变换,得到各语音帧的频谱值,利用各语音帧的频谱值,生成所述待识别语音的所述语谱图;所述语谱图的横坐标为所述语音帧所对应的时间,所述语谱图的纵坐标为所述语音帧所含的频率分量,所述语谱图的坐标点值为所述频谱值。
9.根据权利要求7所述的基于人工智能的语音特征提取装置,其特征在于,在时域上的总降采样率是根据对所述待识别语音进行语音分类时的粒度确定的。
10.根据权利要求7所述的基于人工智能的语音特征提取方法,其特征在于,所述Inception卷积结构中,后一个卷积模块中过滤器的个数为前一个卷积模块中过滤器的整数倍。
11.根据权利要求7-10任一项所述的基于人工智能的语音特征提取装置,其特征在于,还包括:
预设模块,用于预先对所述Inception卷积结构中所包括的各卷积模块进行设置;
训练模块,用于对经过设置的Inception卷积结构进行训练。
12.根据权利要求7-10任一项所述的基于人工智能的语音特征提取装置,其特征在于,还包括:
分类处理模块,用于将提取到的语音特征输入全连接层进行语音分类处理。
13.一种基于人工智能的语音特征提取装置,其特征在于,存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的基于人工智能的语音特征提取方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的基于人工智能的语音特征提取方法。
CN201611239071.2A 2016-12-28 2016-12-28 基于人工智能的语音特征提取方法及装置 Active CN106710589B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611239071.2A CN106710589B (zh) 2016-12-28 2016-12-28 基于人工智能的语音特征提取方法及装置
US15/850,873 US10621971B2 (en) 2016-12-28 2017-12-21 Method and device for extracting speech feature based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611239071.2A CN106710589B (zh) 2016-12-28 2016-12-28 基于人工智能的语音特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN106710589A CN106710589A (zh) 2017-05-24
CN106710589B true CN106710589B (zh) 2019-07-30

Family

ID=58903688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611239071.2A Active CN106710589B (zh) 2016-12-28 2016-12-28 基于人工智能的语音特征提取方法及装置

Country Status (2)

Country Link
US (1) US10621971B2 (zh)
CN (1) CN106710589B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887225B (zh) * 2017-03-21 2020-04-07 百度在线网络技术(北京)有限公司 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN107221326B (zh) * 2017-05-16 2021-05-28 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107393554B (zh) * 2017-06-20 2020-07-10 武汉大学 一种声场景分类中融合类间标准差的特征提取方法
CN107393526B (zh) * 2017-07-19 2024-01-02 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN107688808B (zh) * 2017-08-07 2021-07-06 电子科技大学 一种快速的自然场景文本检测方法
CN107680601B (zh) * 2017-10-18 2019-02-01 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
US10354644B1 (en) * 2018-01-15 2019-07-16 Gyrfalcon Technology Inc. System and method for encoding data in a voice recognition integrated circuit solution
CN108303624A (zh) * 2018-01-31 2018-07-20 舒天才 一种基于声音信号分析的开关柜局部放电检测方法
CN108630226A (zh) * 2018-05-08 2018-10-09 上海极歌企业管理咨询中心(有限合伙) 无人停车库运维安全的人工智能检测方法及装置
CN108847251B (zh) * 2018-07-04 2022-12-02 武汉斗鱼网络科技有限公司 一种语音去重方法、装置、服务器及存储介质
CN108985231B (zh) * 2018-07-12 2021-08-13 广州麦仑信息科技有限公司 一种基于多尺度卷积核的掌静脉特征提取方法
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN111261141A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种语音识别方法以及语音识别装置
CN109858618B (zh) * 2019-03-07 2020-04-14 电子科技大学 一种卷积神经单元块、构成的神经网络及图像分类方法
CN111667819B (zh) * 2019-03-08 2023-09-01 北京京东尚科信息技术有限公司 基于crnn的语音识别方法、系统、存储介质及电子设备
CN109859772B (zh) * 2019-03-22 2023-03-28 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110992941A (zh) * 2019-10-22 2020-04-10 国网天津静海供电有限公司 一种基于语谱图的电网调度语音识别方法及装置
CN111048071B (zh) * 2019-11-11 2023-05-30 京东科技信息技术有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN110930392A (zh) * 2019-11-26 2020-03-27 北京华医共享医疗科技有限公司 基于GoogLeNet网络模型实现医学影像辅助诊断的方法、装置、设备及存储介质
CN110930985B (zh) * 2019-12-05 2024-02-06 携程计算机技术(上海)有限公司 电话语音识别模型、方法、系统、设备及介质
CN111144310A (zh) * 2019-12-27 2020-05-12 创新奇智(青岛)科技有限公司 一种基于多层信息融合的人脸检测方法及系统
CN112634928B (zh) * 2020-12-08 2023-09-29 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备
CN112786019A (zh) * 2021-01-04 2021-05-11 中国人民解放军32050部队 一种通过图像识别方式实现语音转写系统及方法
CN113506581B (zh) * 2021-07-08 2024-04-05 京东科技控股股份有限公司 一种语音增强方法和装置
CN113963718B (zh) * 2021-10-26 2024-04-16 合肥工业大学 一种基于深度学习的语音会话分割方法
CN113806586B (zh) * 2021-11-18 2022-03-15 腾讯科技(深圳)有限公司 数据处理方法、计算机设备以及可读存储介质
CN114333908B (zh) * 2021-12-29 2022-09-30 广州方硅信息技术有限公司 在线音频分类方法、装置及计算机设备
CN114694187A (zh) * 2022-03-25 2022-07-01 上海大学 一种基于频谱的指纹纹理特征提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
US10460747B2 (en) * 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Going Deeper with Convolutions;Christian Szegedy 等;《2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20150612
SPEAKER IDENTIFICATION AND CLUSTERING USING CONVOLUTIONAL NEURAL NETWORKS;Yanick Lukic 等;《2016 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING》;20160916
基于深层神经网络的音频特征提取及场景识别研究;王乃峰;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160215

Also Published As

Publication number Publication date
US20180182377A1 (en) 2018-06-28
US10621971B2 (en) 2020-04-14
CN106710589A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106710589B (zh) 基于人工智能的语音特征提取方法及装置
CN108597492B (zh) 语音合成方法和装置
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
CN106782501A (zh) 基于人工智能的语音特征提取方法和装置
CN106920545A (zh) 基于人工智能的语音特征提取方法和装置
CN103765506B (zh) 使用听觉注意线索进行音调/语调识别的方法
CN106887225A (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN110335584A (zh) 神经网络生成建模以变换语音发音和增强训练数据
US20160063991A1 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
CN105976812A (zh) 一种语音识别方法及其设备
WO2014085204A1 (en) Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
Weißkirchen et al. Recognition of emotional speech with convolutional neural networks by means of spectral estimates
CN109192192A (zh) 一种语种识别方法、装置、翻译机、介质和设备
Passricha et al. A comparative analysis of pooling strategies for convolutional neural network based Hindi ASR
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN102810311A (zh) 说话人估计方法和说话人估计设备
CN116153296A (zh) 一种基于持续学习模型的语音唤醒方法、装置及存储介质
Xie et al. KD-CLDNN: Lightweight automatic recognition model based on bird vocalization
CN105161096B (zh) 基于垃圾模型的语音识别处理方法及装置
Sekkate et al. A statistical feature extraction for deep speech emotion recognition in a bilingual scenario
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
KR102508550B1 (ko) 음악 구간 검출 장치 및 방법
CN110226201A (zh) 利用周期指示的声音识别

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant