CN107564513B - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN107564513B
CN107564513B CN201610509783.5A CN201610509783A CN107564513B CN 107564513 B CN107564513 B CN 107564513B CN 201610509783 A CN201610509783 A CN 201610509783A CN 107564513 B CN107564513 B CN 107564513B
Authority
CN
China
Prior art keywords
training data
feature vector
clustering
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610509783.5A
Other languages
English (en)
Other versions
CN107564513A (zh
Inventor
薛少飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610509783.5A priority Critical patent/CN107564513B/zh
Priority to US15/638,157 priority patent/US10891944B2/en
Priority to EP17821286.6A priority patent/EP3479377B1/en
Priority to JP2018560023A priority patent/JP7008638B2/ja
Priority to PCT/US2017/040090 priority patent/WO2018005858A1/en
Publication of CN107564513A publication Critical patent/CN107564513A/zh
Application granted granted Critical
Publication of CN107564513B publication Critical patent/CN107564513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种语音识别方法及装置,其中的方法包括:针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,用于对语音识别模型的自适应调整。本发明可提高语音识别自适应的准确性和处理效率。

Description

语音识别方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置。
背景技术
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别是一门交叉学科,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术已经或即将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音识别声学模型自适应是一种提高语音识别准确率的重要技术,在个性化语音识别等领域有着重要应用,它通常是通过自适应数据对原有声学模型进行一定程度的改进来实现性能提升。比较流行的是基于特征矢量的自适应方法,通过将特征矢量(如i-Vector)补偿输入到声学模型来提高语音识别的准确率。在现有技术中,需要使用较多数据才能估计出性能较好的特征矢量,当数据很少时估计出的特征矢量不能带来明显的语音识别性能提升。然而,对于一些语音识别应用场景,用户往往仅给出很短的语音(例如用户仅给出“查找附近酒店”的很短的一句话),这给语音识别自适应提出了更高的要求。
发明内容
本发明解决的技术问题之一是提供一种语音识别方法及装置,可提高语音识别自适应的准确度和处理效率。
根据本发明一方面的一个实施例,提供了一种语音识别方法,包括:针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,用于对语音识别模型的自适应调整。
可选的,在得到聚类训练数据特征矢量之后,还包括:将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型。
可选的,在所述针对训练数据特征矢量进行聚类处理之后、所述得到聚类训练数据特征矢量之前,还包括:对聚到同一类的训练数据特征矢量进行加权平均处理。
可选的,所述利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算,包括:计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。
可选的,在进行插值计算过程中,设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
可选的,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。
根据本发明另一方面的一个实施例,提供了一种语音识别装置,包括:聚类单元,用于针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;插值单元,用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;自适应调整单元,用于将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,对语音识别模型进行自适应调整。
可选的,所述装置还包括:模型自适应单元,用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型。
可选的,所述装置还包括:加权单元,用于对聚到同一类的训练数据特征矢量进行加权平均处理。
可选的,所述插值单元具体用于,计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。
可选的,所述插值单元还用于设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
可选的,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。
可见,相对于现有语音识别方案,特别是语音识别自适应方案,本发明实施例在训练阶段,对训练数据特征矢量进行了聚类处理,由此可以减少训练数据特征矢量的数量,提高准确度,而且,在将聚类训练数据特征矢量用于建模时,由于聚类后矢量维度减小,从而减小了模型复杂度。继而,在识别阶段,将聚类训练数据特征矢量用于对待识别数据特征矢量进行插值计算,由于训练数据相对丰富,准确性较高,因此,这种方式特别适用于待识别数据较少(例如,用户提供的语音较短)的情况,通过较为准确的训练数据对待识别数据进行补偿,从而得到更为准确的语音识别结果。而且,由于模型复杂度降低,因此在识别过程中,可提高识别效率。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明实施例的语音识别方法的流程图;
图2是根据本发明实施例的说话人自适应系统架构示意图;
图3为根据本发明实施例的语音识别装置结构示意图。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
首先对本发明实施例中的专业术语说明如下。
语音识别,将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
插值法,又称“内插法”,是利用函数f(x)在某区间中已知的若干点的函数值,作出适当的特定函数,在区间的其他点上用这特定函数的值作为函数f(x)的近似值,这种方法称为插值法。如果这特定函数是多项式,就称它为插值多项式。
说话人自适应,是用一定的新目标说话人的语音数据,即自适应数据来尽量提高声学模型对该目标说话人的建模准确度。
i-vector,在说话人自适应中,每一个说话人所拥有的一个能够在不同说话人间被区分开的矢量。
下面结合附图对本发明的技术方案作进一步详细描述。
图1是根据本发明实施例的语音识别自适应优化方法的流程图。本实施例的方法主要包括如下步骤:
S101:针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;
S102:利用聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;
S103:将经过插值计算后的待识别数据特征矢量输入到语音识别模型,对语音识别模型进行自适应调整。
本发明实施例中,在训练阶段,主要是对特征矢量进行聚类处理,在识别阶段,从聚类训练特征矢量中选取数个特征矢量按照预先设置的算法对待识别特征矢量进行插值计算。
相对于现有语音识别方案,特别是语音识别自适应方案,本发明实施例在训练阶段,对训练数据特征矢量进行了聚类处理,由此可以减少训练数据特征矢量的数量,提高准确度,而且,在将聚类训练数据特征矢量用于建模时,由于聚类后矢量维度减小,从而减小了模型复杂度。继而,在识别阶段,将聚类训练数据特征矢量用于对待识别数据特征矢量进行插值计算,由于训练数据相对丰富,准确性较高,因此,这种方式特别适用于待识别数据较少(例如,用户提供的语音较短)的情况,通过较为准确的训练数据对待识别数据进行补偿,从而得到更为准确的语音识别结果。而且,由于模型复杂度降低,因此在识别过程中,可提高识别效率。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法可分为划分法、层次法、密度算法、图论聚类法、网格算法、模型算法等,具体的算法例如K-MEANS、K-MEDOIDS、Clara、Clarans等。
插值计算处理,即插值法或内差法。本发明实施例中,采用聚类训练特征矢量对待识别(测试)特征矢量进行插值计算,也即,根据聚类训练特征矢量,近似求解待识别特征矢量。
语音识别声学模型自适应是一种提高语音识别准确率的重要技术,包括:说话人自适应、方言(口音)自适应、噪声自适应、场景自适应等。在个性化语音识别等领域有着重要应用,它通常是通过利用自适应数据对原有声学模型进行一定程度的改进来实现性能提升的。当用于自适应的数据很少时,自适应的效果将会变得不明显,本发明提出一种基于聚类和插值的自适应方法,以实现快速有效的声学模型自适应。
本发明实施例提供的语音识别方案,可以用于整体语音识别,也可以用于语音识别中的说话人自适应识别、方言(口音)自适应识别、噪声自适应识别、场景自适应识别。
例如,在整体语音识别过程中,数据特征矢量是指包含了语音、噪音、场景影响、方言影响的整体语音处理得到的数据特征矢量,其中的数据一般是指语音特征数据。对于说话人自适应识别,数据特征矢量是指声纹特征矢量,该声纹特征矢量是将语音特征数据考虑其对应说话人提取到的。再如,方言(口音)自适应识别中,数据特征矢量是指各类方言特征矢量。噪声自适应识别中,数据特征矢量是指各级噪声特征矢量。场景自适应识别中,数据特征矢量是指场景信息特征矢量。
在训练阶段,如何实现特征矢量的聚类,在识别阶段,如何利用聚类训练特征矢量对待识别特征矢量进行插值处理,是本发明实施例较为关注的问题。
下面以说话人自适应识别对本发明实施例提供的语音识别方案进行示例性说明。
说话人自适应是用一定的新目标说话人的语音数据,即自适应数据来尽量提高声学模型对该目标说话人的建模准确度。它通过将说话人相关的语音特征变换为说话人无关的语音特征或将说话人无关的声学模型变换为说话人相关的声学模型来使待测目标说话人的语音特征与其声学模型更加匹配,从而得到更好的识别效果。
每一个说话人拥有一个能够在不同说话人间被区分开的矢量表示,称之为i-vector。一般对说话人和信道分别建模两个相互独立的空间:说话人空间和信道空间。说话人空间由本征音(Eigenvoice)矩阵V表示,信道空间由本征信道(Eigenchannel)矩阵U表示,对两者的建模估计可以帮助进行有效的说话人确认研究。然而,实际中JFA方法很难严格区分出一段语音数据中包含的说话人和信道信息。针对这一特点,总变化因子分析技术被提出,它只使用一个被称之为总变化空间的单独空间,来表示说话人和信道的联合信息。变化因子由总变化矩阵定义,总变化矩阵由总变化协方差矩阵中最大特征值对应的特征向量构成。在变化因子方法中,不区分GMM超向量空间中说话人和信道分别的影响。假设给定一段语音数据,则表示说话人和信道的总变化空间的GMM均值超向量可以用如下公式表示:
M=m+Tw
其中,m是UBM的均值超矢量,用来表示与说话人和信道无关的信息,T是一个CF×R维的低阶总变化矩阵,C是GMM高斯数目,F是声学特征维数,R是总变化矩阵中包含的特征矢量个数,矢量w为总变化因子(Total Variability Factors)矢量,服从标准正态分布N(0,I),其中每一个元素代表一维总变化因子,称矢量w为identity vector,简称i-Vector。
将语音特征数据与其对应说话人提取到的声纹特征矢量(包括但不限于i-Vector)拼接作为输入特征训练DNN,识别时同样将待测数据与相应说话人声纹特征矢量一起输入DNN进行解码识别。
在现有技术中,需要使用较多数据才能估计出性能较好的说话人声纹特征矢量(如i-vector),用于说话人自适应,当数据很少时估计出的声纹特征矢量不能带来明显的语音识别性能提升。由此带来两个缺点:1、当训练数据中没有说话人信息或数据时长很短不足以估计出准确的声纹特征矢量时,无法使用这部分数据进行说话人自适应训练;2、在线语音识别中由于能够用于估计声纹特征矢量的数据过少,说话人自适应不能取得明显的效果。
针对以上缺点,本发明实施例提出一种基于说话人聚类插值的快速有效说话人自适应方法。
参见图2,为本发明实施例说话人自适应系统示意图。系统分为训练阶段和识别阶段(识别阶段也称测试阶段)。下面从说话人自适应识别的各个环节进行详细介绍。
(1)首先对训练语音提取声纹信息,声纹特征矢量包括但不限于i-vector、说话人编码等。
(2)对上述步骤中提取的声纹特征矢量进行无监督聚类,聚类方法包括但不限于k-means、分层聚类等,被聚到一类的声纹特征矢量被认为来自同一个“说话人”。
(3)对聚到同一类的所有声纹特征矢量进行加权平均得到该“说话人”类别的声纹特征矢量。
(4)将上一步骤中得到的声纹特征矢量用于语音识别声学模型的自适应训练,得到说话人相关模型。
通过以上四个步骤完成训练过程。
下面是识别阶段或测试阶段。
(5)识别(或测试)时,首先提取待识别数据声纹特征矢量stest,然后计算与所有训练集声纹特征矢量的余弦距离strain,i,选择余弦距离最大的N(例如5)个训练集声纹特征矢量strain,i,与stest进行插值,得到新的待识别数据声纹特征矢量
Figure BDA0001037325160000091
用于识别。插值采用如下公式:
Figure BDA0001037325160000092
其中α是可调参数,用于根据待识别数据量调整插值比例,α为1表示完全采用待识别数据声纹特征矢量,α为0表示完全采用训练数据集插值出的声纹特征矢量。
可见,在进行插值计算过程中,设置插值可调参数,通过调整所述可调参数的数值,设置聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
(6)将新的待识别数据声纹特征矢量
Figure BDA0001037325160000101
输入到说话人相关模型进行模型自适应调整。
上面通过图2说明了说话人自适应识别,实际上,本发明方案还可用于方言自适应识别、噪声自适应识别、场景自适应识别等。
例如,对于方言自适应识别,在训练阶段,需要训练出预定类型的方言数据,得到方言特征矢量,并经过聚类处理后,得到聚类训练方言特征矢量;在识别阶段,将聚类后训练方言特征矢量用于待识别方言特征矢量进行插值计算,然后将插值计算后的特征矢量输入到模型中,进行模型自适应调整。
同理,对于噪声自适应识别,可以在训练阶段,针对不同大小噪声进行分段(分级),即进行聚类处理,然后在识别阶段,利用聚类训练噪声特征矢量对待识别噪声特征矢量进行插值计算,将插值计算后的特征矢量输入到模型中,进行模型自适应调整。
对于场景信息识别,在训练阶段,一般需要用户输入或提交场景信息,对于场景信息预先设定参考模板,将各个输入的场景信息进行聚类,得到聚类训练场景信息特征矢量,在识别阶段,将聚类训练场景信息特征矢量用于对待识别场景信息特征矢量进行插值计算,插值计算后的特征矢量输入到模型中,进行模型自适应调整。
当然,对于整体的语音识别,可以综合考虑上述的说话人识别、方言识别、噪声识别、场景信息识别。具体的,在训练阶段,输入的训练数据特征包括了上述声纹特征、方言特征、噪声特、场景信息特征,在进行数据特征矢量生成时,按照各类特征分别生成对应的特征矢量,并分别进行聚类处理,得到各类聚类训练特征矢量;在识别阶段,将各类聚类训练特征矢量分别对对应的待识别特征矢量进行插值计算,然后将插值计算得到的各类特征矢量在各自对应的模型中进行匹配,进行模型自适应调整。
本发明实施例提供一种与上述方法相对应的一种语音识别自适应优化装置。参见图3,该装置包括:
聚类单元301,用于针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;
插值单元302,用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算;
自适应调整单元303,用于将经过插值计算后的待识别数据特征矢量输入到语音识别模型,对语音识别模型进行自适应调整。
可选的,所述装置还包括:
模型自适应单元304,用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型。
可选的,所述装置还包括:
加权单元305,用于对聚到同一类的训练数据特征矢量进行加权平均处理。
可选的,所述插值单元302具体用于,计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。
可选的,所述插值单元302还用于设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
可选的,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (8)

1.一种语音识别方法,其特征在于,包括:
针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;
将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型;
利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算,其中包括:
计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;
选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算;
将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,用于对语音识别模型的自适应调整。
2.如权利要求1所述的方法,其特征在于,在所述针对训练数据特征矢量进行聚类处理之后、所述得到聚类训练数据特征矢量之前,还包括:
对聚到同一类的训练数据特征矢量进行加权平均处理。
3.如权利要求1所述的方法,其特征在于,在进行插值计算过程中,设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
4.如权利要求1至3任一项所述的方法,其特征在于,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。
5.一种语音识别装置,其特征在于,包括:
聚类单元,用于针对训练数据特征矢量进行聚类处理,得到聚类训练数据特征矢量;
模型自适应单元,用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练,得到语音识别模型;
插值单元,用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算,所述插值单元具体用于:
计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离;选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算;
自适应调整单元,用于将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型,对语音识别模型进行自适应调整。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
加权单元,用于对聚到同一类的训练数据特征矢量进行加权平均处理。
7.如权利要求6所述的装置,其特征在于,所述插值单元还用于设置插值可调参数,通过调整所述可调参数的数值,设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。
8.如权利要求5至7任一项所述的装置,其特征在于,所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。
CN201610509783.5A 2016-06-30 2016-06-30 语音识别方法及装置 Active CN107564513B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610509783.5A CN107564513B (zh) 2016-06-30 2016-06-30 语音识别方法及装置
US15/638,157 US10891944B2 (en) 2016-06-30 2017-06-29 Adaptive and compensatory speech recognition methods and devices
EP17821286.6A EP3479377B1 (en) 2016-06-30 2017-06-29 Speech recognition
JP2018560023A JP7008638B2 (ja) 2016-06-30 2017-06-29 音声認識
PCT/US2017/040090 WO2018005858A1 (en) 2016-06-30 2017-06-29 Speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610509783.5A CN107564513B (zh) 2016-06-30 2016-06-30 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN107564513A CN107564513A (zh) 2018-01-09
CN107564513B true CN107564513B (zh) 2020-09-08

Family

ID=60787711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610509783.5A Active CN107564513B (zh) 2016-06-30 2016-06-30 语音识别方法及装置

Country Status (5)

Country Link
US (1) US10891944B2 (zh)
EP (1) EP3479377B1 (zh)
JP (1) JP7008638B2 (zh)
CN (1) CN107564513B (zh)
WO (1) WO2018005858A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297807B (zh) * 2016-08-05 2019-03-01 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
JP6787770B2 (ja) * 2016-12-14 2020-11-18 東京都公立大学法人 言語記憶方法及び言語対話システム
KR102640423B1 (ko) * 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
EP3553773B1 (en) 2018-04-12 2020-06-03 Spotify AB Training and testing utterance-based frameworks
EP3786945B1 (en) 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN108847222B (zh) * 2018-06-19 2020-09-08 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN110176243B (zh) * 2018-08-10 2023-10-31 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN110875039B (zh) * 2018-08-30 2023-12-01 阿里巴巴集团控股有限公司 语音识别方法和设备
KR102637339B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109065035A (zh) * 2018-09-06 2018-12-21 珠海格力电器股份有限公司 信息交互方法及装置
US11087144B2 (en) * 2018-10-10 2021-08-10 Harman International Industries, Incorporated System and method for determining vehicle data set familiarity
EP3640934B1 (en) * 2018-10-19 2021-12-29 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11238845B2 (en) * 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
CN110491368B (zh) * 2019-07-23 2023-06-16 平安科技(深圳)有限公司 基于方言背景的语音识别方法、装置、计算机设备和存储介质
CN110931016A (zh) * 2019-11-15 2020-03-27 深圳供电局有限公司 一种离线质检用语音识别方法及系统
CN117476038A (zh) * 2020-05-21 2024-01-30 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
KR102546327B1 (ko) * 2020-12-31 2023-06-20 주식회사 포스코디엑스 클러스터링 기법을 이용하여 얼굴이미지를 비교하는 에지 디바이스 및 이를 포함한 얼굴인증 시스템
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895477A (en) * 1996-09-09 1999-04-20 Design Intelligence, Inc. Design engine for automatic layout of content
JP2888781B2 (ja) * 1995-09-19 1999-05-10 株式会社エイ・ティ・アール音声翻訳通信研究所 話者適応化装置及び音声認識装置
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
CN101510424A (zh) * 2009-03-12 2009-08-19 孟智平 基于语音基元的语音编码与合成方法及系统
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN102314595A (zh) * 2010-06-17 2012-01-11 微软公司 用于改善话音识别的rgb/深度相机
CN103219008A (zh) * 2013-05-16 2013-07-24 清华大学 基于基状态矢量加权的短语音说话人识别方法
CN104572631A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US7571095B2 (en) * 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US8612203B2 (en) * 2005-06-17 2013-12-17 National Research Council Of Canada Statistical machine translation adapted to context
US7813926B2 (en) 2006-03-16 2010-10-12 Microsoft Corporation Training system for a speech recognition application
JP2008197463A (ja) * 2007-02-14 2008-08-28 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
US8825481B2 (en) 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech
US20130300939A1 (en) * 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US9208777B2 (en) * 2013-01-25 2015-12-08 Microsoft Technology Licensing, Llc Feature space transformation for personalization using generalized i-vector clustering
US9761220B2 (en) * 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2888781B2 (ja) * 1995-09-19 1999-05-10 株式会社エイ・ティ・アール音声翻訳通信研究所 話者適応化装置及び音声認識装置
US5895477A (en) * 1996-09-09 1999-04-20 Design Intelligence, Inc. Design engine for automatic layout of content
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
CN101510424A (zh) * 2009-03-12 2009-08-19 孟智平 基于语音基元的语音编码与合成方法及系统
CN102314595A (zh) * 2010-06-17 2012-01-11 微软公司 用于改善话音识别的rgb/深度相机
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
CN103219008A (zh) * 2013-05-16 2013-07-24 清华大学 基于基状态矢量加权的短语音说话人识别方法
CN104572631A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"cluster adaptive training of average voice models";Vincent Wan等;《2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140509;全文 *
"Improving speaker recognition performance in the domain adaptation challenge using deep neural networks";Daniel Garcia-Romero等;《IEEE》;20150402;全文 *

Also Published As

Publication number Publication date
EP3479377A1 (en) 2019-05-08
US10891944B2 (en) 2021-01-12
EP3479377A4 (en) 2020-02-19
EP3479377B1 (en) 2023-12-06
JP2019525214A (ja) 2019-09-05
JP7008638B2 (ja) 2022-01-25
CN107564513A (zh) 2018-01-09
WO2018005858A1 (en) 2018-01-04
US20180005628A1 (en) 2018-01-04

Similar Documents

Publication Publication Date Title
CN107564513B (zh) 语音识别方法及装置
CN108962237B (zh) 混合语音识别方法、装置及计算机可读存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
KR102191306B1 (ko) 음성 감정 인식 시스템 및 방법
US20150199960A1 (en) I-Vector Based Clustering Training Data in Speech Recognition
KR20190001280A (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
JPWO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
CN113223536B (zh) 声纹识别方法、装置及终端设备
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN113674733A (zh) 用于说话时间估计的方法和设备
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
KR20150042674A (ko) 환경 변화에 강인한 멀티모달 사용자 인식
Cipli et al. Multi-class acoustic event classification of hydrophone data
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1249272

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211112

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited