CN103971675B - 自动语音识别方法和系统 - Google Patents

自动语音识别方法和系统 Download PDF

Info

Publication number
CN103971675B
CN103971675B CN201310033201.7A CN201310033201A CN103971675B CN 103971675 B CN103971675 B CN 103971675B CN 201310033201 A CN201310033201 A CN 201310033201A CN 103971675 B CN103971675 B CN 103971675B
Authority
CN
China
Prior art keywords
word
classification
language model
language material
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310033201.7A
Other languages
English (en)
Other versions
CN103971675A (zh
Inventor
饶丰
卢鲤
陈波
岳帅
张翔
王尔玉
谢达东
李露
陆读羚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310033201.7A priority Critical patent/CN103971675B/zh
Priority to TW102132754A priority patent/TWI536364B/zh
Priority to JP2015554021A priority patent/JP2016512609A/ja
Priority to SG11201505402RA priority patent/SG11201505402RA/en
Priority to PCT/CN2013/086707 priority patent/WO2014117555A1/en
Priority to CA2899537A priority patent/CA2899537C/en
Priority to US14/108,223 priority patent/US9697821B2/en
Publication of CN103971675A publication Critical patent/CN103971675A/zh
Application granted granted Critical
Publication of CN103971675B publication Critical patent/CN103971675B/zh
Priority to JP2016232328A priority patent/JP6436494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种自动语音识别方法和系统,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行训练得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。利用本发明,可以提高对生僻词语的语音的识别准确率。

Description

自动语音识别方法和系统
技术领域
本申请涉及自动语音识别(ASR,AutomaticSpeechRecognition)技术领域,尤其涉及一种自动语音识别方法和系统。
背景技术
自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括声学模型训练、语言模型训练、解码资源构建、以及解码四个过程。图1为现有自动语音识别系统的一种主要处理流程的示意图。参见图1,主要处理过程包括:
步骤101和102,需要根据声学原料进行声学模型训练得到声学模型,以及根据生语料进行语言模型训练得到语言模型。
所述声学模型是语音识别系统中最为重要的部分之一,目前的主流语音识别系统多采用隐马尔科夫模型(HMM,HiddenMarkovModel)进行建模,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。
所述语言模型主要构建为字符串s的概率分布p(s),反映了字符串s作为一个句子出现的概率。假设w为字符串s中的每个词,则:
p(s)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wk|w1w2..wk-1)
步骤103,依据所述声学模型和语言模型,以及预设的词典,构建相应的解码资源。所述解码资源为加权优先转换机(WFST,weightedfinitestatetransducer)网络。
步骤104、将语音输入到解码器,解码器依据所构建的解码资源对所述语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。
但是,现有的语音识别技术多基于普适性的语音识别应用,即针对常用说话识别来进行模型搭建,这种情况下,语言模型的训练语料主要根据数据采集以及实际用户的输入,虽然从某种程度上较好地反映了用户的说话习惯,针对日常用语往往有较好的识别效果;但是,由于语言模型的训练语料中关于生僻词语较少出现,例如医药名和地名等,不能形成有效的概率统计模型,语言模型中生僻词语对应字符串的概率值非常低,因此当需要识别用户说出的较为生僻的词语的时候,往往会发生数据偏移问题,即识别出的字符串不是用户说出的词语,也就是说对于生僻词语的语音的识别准确率较低,难以取得较好的识别结果。
发明内容
有鉴于此,本发明的主要目的在于提供一种自动语音识别方法和系统,以提高对生僻词语的语音的识别准确率。
本发明的一种技术方案是这样实现的:
一种自动语音识别方法,包括:
对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;
依据声学模型和所述插值语言模型构建解码资源;
依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。
一种自动语音识别系统,包括:
分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
加权合并模块,用于依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;
资源构建模块,用于依据声学模型和所述插值语言模型构建解码资源;
解码器,用于依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。
与现有技术相比,本发明的上述技术方案对生语料进行语料分类计算和训练,得到一个以上对应的分类语言模型,从而使得生僻词语可以被分类到某一个或某几个分类语言模板中,然后依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,即生僻程度越高,则对应的加权值越高,将加权插值处理后的分类语言模型合并,得到插值语言模型。这样在插值语言模板中,生僻词语所对应的字符串的概率值就会相应提高,从而减少与常用词语对应字符串的概率值的差距,后续解码过程中,当需要识别用户说出的较为生僻的词语的时候,由于生僻词语对应的字符串的概率值显著提高,因此会降低发生数据偏移的几率,提高了对于生僻词语的语音的识别准确率。
本发明的再一种技术方案是这样实现的:
一种自动语音识别方法,包括:
根据生语料进行语言模型训练计算,得到主语言模型;
对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
依据声学模型和所述主语言模型构建主解码资源,依据所述各分类语言模型构建对应的分类解码资源;
依据所述主解码资源对输入的语音进行解码,输出概率值l(w)排在前n名的n个字符串;
依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
一种自动语音识别系统,包括:
主语言模型训练模块,用于根据生语料进行语言模型训练计算,得到主语言模型;
分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
主资源构建模块,用于依据声学模型和所述主语言模型构建主解码资源;
分类资源构建模块,用于依据所述各分类语言模型构建对应的分类解码资源;
第一解码器,用于依据所述主解码资源对输入的语音进行解码,输出概率值l(w)排在前n名的n个字符串;
第二解码器,用于依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
与现有技术相比,本发明的上述方案对生语料进行语料分类计算和训练,得到一个以上对应的分类语言模型,从而使得生僻词语可以被分类到某一个或某几个分类语言模型中,而生僻词语在其所属的最相关的分类语言模型中的概率值n(w)是较高的;在对输入语音进行解码时,先利用主语言模型所构建的主解码资源进行一次解码,输出的概率值l(w)排在前n的n个字符串,生僻词语对应的字符串虽然在主语言模型中的概率值l(w)往往不是最高的,但是通常能够排在前n名;接下来,再对该n个字符串分别根据每个分类语言模型对应的分类解码资源进行二次解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),该复合概率p(w)可以修正生僻词语的过低概率值l(w),因此按照该复合概率p(w)的高低输出的字符串作为所述输入语音的识别结果,可以降低生僻词语的语音发生数据偏移的几率,提高了对于生僻词语的语音的识别准确率。
由于本发明的技术方案没有对原始的生语料提出特殊要求,以生僻词出现频率较少的生语料为基础进行训练即可达到本发明的发明目的,因此能够在不影响普通用户日常使用的情况下,满足了某些特殊用户对生僻词语的语音识别需求。
附图说明
图1为现有自动语音识别系统的一种主要处理流程的示意图;
图2为本发明所述自动语音识别方法的一种处理流程图;
图3为本发明所述自动语音识别方法的又一种处理流程图;
图4为本发明所述对生语料进行语料分类计算,得到一个以上不同类别的分类语料的具体处理流程图;
图5为本发明所述一种语音识别系统的一种组成示意图;
图6为本发明所述又一种语音识别系统的一种组成示意图;
图7为所述图5和图6中所述的分类处理模块的一种组成示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明
图2为本发明所述自动语音识别方法的一种处理流程图。参见图2,该流程包括:
步骤201、对生语料进行语料分类计算,得到一个以上不同类别的分类语料。例如,所述分类语料可以分为人名类、地名类、计算机术语类、医药术语类等等。例如“板蓝根”属于医药术语类的词。一个词也有可能属于多个分类。
步骤202、针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型。
步骤203、依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,即生僻程度越高,则对应的加权值越高,并将加权插值处理后的分类语言模型合并,得到插值语言模型。这样在插值语言模板中,生僻词语所对应的字符串的概率值就会相应提高,从而减少与常用词语对应字符串的概率值的差距,提高生僻词的语音被识别的几率。
步骤204、依据声学模型和所述插值语言模型构建解码资源。此处假设声学模型已经训练好,本发明可以直接利用现有的声学模型。另外,本领域技术人员知道,在构建解码资源的过程中,还需要词典的参与,来构建解码资源。
步骤205、依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。
图3为本发明所述自动语音识别方法的又一种处理流程图。参见图3,该流程包括:
步骤301、根据生语料进行语言模型训练计算,得到主语言模型。此处的语言模型训练为现有的常规语言模型训练。
步骤302、对生语料进行语料分类计算,得到一个以上不同类别的分类语料。
步骤303、针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型。
步骤304~305、依据声学模型和所述主语言模型构建主解码资源,依据所述各分类语言模型构建对应的分类解码资源。所述主解码资源用于在第一次解码时使用,所述分类解码资源用于在第二次解码时使用。
步骤306、依据所述主解码资源对输入的语音进行解码,即第一次解码,输出概率值l(w)排在前n名的n个字符串。所述概率值l(w)为语音对应的字符串在主语言模型中的概率值。
步骤307、依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w)。假设此处有m个分类语言模型,则会得到n×m个概率值n(w)。然后,将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到n×m个复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
在所述步骤201和步骤302中,所述对生语料进行语料分类计算,得到一个以上不同类别的分类语料的具体方法如图4所示,具体包括:
步骤401、根据生语料,计算词与词之间的亲和度矩阵。
所述生语料是一种训练文本。本发明通过建立词的亲和度矩阵(也称为词共现矩阵)来描述词之间的语义关系。在人的认知层面上,一个词总是与其它词有关联,而不是孤立存在的。这种关联用一种激活效应可以表示,例如,听到“医生”这个词,马上会联想到“患者”或者“护士”;听到“猫”这个词,立刻会联想到“狗”;听到“男孩”,反应出“女孩”;“喝”联想到“水”。
因此在该步骤401中,首先要计算每个词与另一个词的词共现度。具体包括:
对生语料进行分析,根据公式计算每个词与另一个词的词共现度,并据此构建词与词的词共现矩阵;其中,所述fij为词i在词j前出现的次数,dij为词i和词j的平均距离,fi为词i的词频,fj为词j的词频。
根据所述词共现矩阵,以及公式Aij=sqrt(ΣOR(wafik,wafjk)ΣOR(wafki,wafkj)),计算词与词之间的亲和度,并据此构建词与词之间的亲和度矩阵。
所述的亲和度,被定义为两个词入链与入链的重叠部分、出链与出链的重叠部分的几何平均值。显然词亲和度矩阵是一个对称矩阵,即无向的网络。按亲和度大小排序,排在前面的词基本都是同义、近义或非常相关的词。在亲和度网络中,两结点间的边的亲和度越强,说明他们越相关;如果强度很弱甚至两结点不存在边,则表明它们几乎不相关。通过计算Aij,可以构建一个词与词之间的协方差矩阵,该协方差矩阵就是亲和度矩阵,该亲和度矩阵中,由于是按亲和度排序,对于亲和度很小的部分可以忽略,因此该亲和度矩阵的维度相比原始的生语料的词特征向量的维度会小很多。
步骤402、利用词频-逆向文件频率(TF-IDF,termfrequency–inversedocumentfrequency)方法从生语料中提取词特征。
本发明文本分类中主要应用的模型是文本的向量空间模型(VSM,VectorSpaceModel)。向量空间模型的基本思想是以文本的特征向量<W1,W2,W3,…,Wn>来表示文本,其中Wi为第i个特征项的权重。因此基于向量空间模型的分类中关键一步就是如何从文本中提取反映类别的有效特征。在本步骤402中,本发明采用TF-IDF方法从生语料中提取词特征,用TF-IDF特征来表示w的权重。
在一份给定的文件里,词频(TF,termfrequency)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。逆向文件频率(IDF,inversedocumentfrequency)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于保留文档中较为特别的词语,过滤常用词。因此通过这种TF-IDF的方式,可以从生语料中提取出较生僻的词语的词特征。
步骤403、根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理。
在本步骤403中,所述降维方法可以有多种。但是在一种优选实施方式中,可以采用主成分分析(PCA,PrincipalComponentsAnalysis)降维方法来实现。由于在步骤402中所提取出的词特征向量的维度较高,例如此处假设为N维,而步骤401所述的亲和度矩阵的维度较少,例如此处假设为M维,N远大于M。那么经过降维处理后,所述N维的词特征向量的维度则被降为M维。即通过降维处理,可以降低噪声数据的影响,降低时间复杂度和空间复杂度等,可以将那些亲和度小的词与词的组合过滤掉。
步骤404、将降维处理后的词特征输入分类器进行训练,输出一个以上不同类别的分类语料。
分类器是一种计算机程序,可以自动将输入的数据分到已知的类别。本步骤404中,所述分类器可以采用现有的某种分类器。例如在一种优选实施方式中,所述分类器为支持向量机(SVM,SupportVectorMachine)分类器。经过测试,本发明在20个类的分类效果能够达到92%的准确率。
当然,除了图4所述的对生语料进行语料分类计算的方法,本发明还可以采用其它现有的语料分类计算方法对生语料进行分类。但是,图4所述的方法的准确率更高,速度更快。
与上述方法相对应,本发明还公开了语音识别系统,用于执行上述的方法。
图5为本发明所述一种语音识别系统的一种组成示意图。参见图5,该系统包括:
分类处理模块501,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料。
分类语言模型训练模块502,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
加权合并模块503,用于依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,即生僻程度越高,则对应的加权值越高,将加权插值处理后的分类语言模型合并,得到插值语言模型。
资源构建模块504,用于依据声学模型和所述插值语言模型构建解码资源。
解码器505,用于依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。
图6为本发明所述又一种语音识别系统的一种组成示意图。参见图6,该系统包括:
主语言模型训练模块601,用于根据生语料进行语言模型训练计算,得到主语言模型。此处的语言模型训练为现有的常规语言模型训练。
分类处理模块602,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料。
分类语言模型训练模块603,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型。
主资源构建模块604,用于依据声学模型和所述主语言模型构建主解码资源。
分类资源构建模块605,用于依据所述各分类语言模型构建对应的分类解码资源。
第一解码器606,用于依据所述主解码资源对输入的语音进行解码,输出概率值l(w)排在前n名的n个字符串;
第二解码器607,用于依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
图7为所述图5和图6中所述的分类处理模块的一种组成示意图。参见图7,所述分类处理模块具体包括:
亲和度矩阵模块701,用于根据生语料,计算词与词之间的亲和度矩阵。具体的计算方法请参考上述步骤401至步骤404。
特征提取模块702,用于利用TF-IDF方法从生语料中提取词特征。
降维模块703,用于根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理。在一种优选实施方式中,所述降维模块为PCA降维模块。
分类器704,用于对降维处理后的词特征进行训练,输出一个以上不同类别的分类语料。在一种优选实施方式中,所述分类器为SVM分类器。
本发明所述的语音识别方法和系统可以应用在垂直领域的语音识别、语音关键字的识别,以及语音问答系统等技术领域中。而且可以支持多平台,包括嵌入式平台和PC平台。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种自动语音识别方法,其特征在于,包括:
对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;
依据声学模型和所述插值语言模型构建解码资源;
依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果;
其中,所述对生语料进行语料分类计算,得到一个以上不同类别的分类语料,具体包括:
根据生语料,计算词与词之间的亲和度矩阵;
利用词频-逆向文件频率TF-IDF方法从生语料中提取词特征;
根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理;
将降维处理后的词特征输入分类器进行训练,输出一个以上不同类别的分类语料。
2.根据权利要求1所述的方法,其特征在于,所述根据生语料,计算词与词之间的亲和度矩阵,具体包括:
对生语料进行分析,根据公式计算每个词与另一个词的词共现度,并据此构建词与词的词共现矩阵;其中,所述fij为词i在词j前出现的次数,dij为词i和词j的平均距离,fi为词i的词频,fj为词j的词频;
根据所述词共现矩阵,以及公式Aij=sqrt(∑OR(wafik,wafjk)∑OR(wafki,wafkj)),计算词与词之间的亲和度,并据此构建词与词之间的亲和度矩阵;其中,wafik为词i与词k的词共现度,wafjk为词j与词k的词共现度,wafki为词k与词i的词共现度,wafkj为词k与词j的词共现度。
3.根据权利要求1所述的方法,其特征在于,所述降维方法为主成分分析PCA降维方法。
4.根据权利要求1所述的方法,其特征在于,所述分类器为支持向量机SVM分类器。
5.一种自动语音识别方法,其特征在于,包括:
根据生语料进行语言模型训练计算,得到主语言模型;
对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
依据声学模型和所述主语言模型构建主解码资源,依据所述各分类语言模型构建对应的分类解码资源;
依据所述主解码资源对输入的语音进行解码,输出概率值l(w)排在前n名的n个字符串;
依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
6.根据权利要求5所述的方法,其特征在于,所述对生语料进行语料分类计算,得到一个以上不同类别的分类语料,具体包括:
根据生语料,计算词与词之间的亲和度矩阵;
利用TF-IDF方法从生语料中提取词特征;
根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理;
将降维处理后的词特征输入分类器进行训练,输出一个以上不同类别的分类预料分类语料。
7.根据权利要求6所述的方法,其特征在于,所述根据生语料,计算词与词之间的亲和度矩阵,具体包括:
对生语料进行分析,根据公式计算每个词与另一个词的词共现度,并据此构建词与词的词共现矩阵;其中,所述fij为词i在词j前出现的次数,dij为词i和词j的平均距离,fi为词i的词频,fj为词j的词频;
根据所述词共现矩阵,以及公式Aij=sqrt(∑OR(wafik,wafjk)∑OR(wafki,wafkj)),计算词与词之间的亲和度,并据此计算词与词之间的亲和度矩阵;其中,wafik为词i与词k的词共现度,wafjk为词j与词k的词共现度,wafki为词k与词i的词共现度,wafkj为词k与词j的词共现度。
8.根据权利要求6所述的方法,其特征在于,所述降维方法为PCA降维方法。
9.根据权利要求6所述的方法,其特征在于,所述分类器为SVM分类器。
10.一种自动语音识别系统,其特征在于,包括:
分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
加权合并模块,用于依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;
资源构建模块,用于依据声学模型和所述插值语言模型构建解码资源;
解码器,用于依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果;
其中,所述分类处理模块具体包括:
亲和度矩阵模块,用于根据生语料,计算词与词之间的亲和度矩阵;
特征提取模块,用于利用TF-IDF方法从生语料中提取词特征;
降维模块,用于根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理;
分类器,用于对降维处理后的词特征进行训练,输出一个以上不同类别的分类语料。
11.根据权利要求10所述的系统,其特征在于,所述降维模块为PCA降维模块。
12.根据权利要求10所述的系统,其特征在于,所述分类器为SVM分类器。
13.一种自动语音识别系统,其特征在于,包括:
主语言模型训练模块,用于根据生语料进行语言模型训练计算,得到主语言模型;
分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;
分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;
主资源构建模块,用于依据声学模型和所述主语言模型构建主解码资源;
分类资源构建模块,用于依据所述各分类语言模型构建对应的分类解码资源;
第一解码器,用于依据所述主解码资源对输入的语音进行解码,输出概率值l(w)排在前n名的n个字符串;
第二解码器,用于依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述n个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n(w);将每个字符串在每个分类语言模型中的概率值n(w)乘以该字符串在主语言模型中的概率值l(w)得到复合概率p(w),输出复合概率p(w)最高的字符串作为所述输入语音的识别结果。
14.根据权利要求13所述的系统,其特征在于,所述分类处理模块具体包括:
亲和度矩阵模块,用于根据生语料,计算词与词之间的亲和度矩阵;
特征提取模块,用于利用TF-IDF方法从生语料中提取词特征;
降维模块,用于根据所述亲和度矩阵,利用降维方法对所提取出的词特征进行降维处理;
分类器,用于对降维处理后的词特征进行训练,输出一个以上不同类别的分类语料。
15.根据权利要求14所述的系统,其特征在于,所述降维模块为PCA降维模块。
16.根据权利要求14所述的系统,其特征在于,所述分类器为SVM分类器。
CN201310033201.7A 2013-01-29 2013-01-29 自动语音识别方法和系统 Active CN103971675B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201310033201.7A CN103971675B (zh) 2013-01-29 2013-01-29 自动语音识别方法和系统
TW102132754A TWI536364B (zh) 2013-01-29 2013-09-11 自動語音識別方法和系統
SG11201505402RA SG11201505402RA (en) 2013-01-29 2013-11-07 Method and system for automatic speech recognition
PCT/CN2013/086707 WO2014117555A1 (en) 2013-01-29 2013-11-07 Method and system for automatic speech recognition
JP2015554021A JP2016512609A (ja) 2013-01-29 2013-11-07 自動音声認識のための方法およびシステム
CA2899537A CA2899537C (en) 2013-01-29 2013-11-07 Method and system for automatic speech recognition
US14/108,223 US9697821B2 (en) 2013-01-29 2013-12-16 Method and system for building a topic specific language model for use in automatic speech recognition
JP2016232328A JP6436494B2 (ja) 2013-01-29 2016-11-30 自動音声認識のための方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310033201.7A CN103971675B (zh) 2013-01-29 2013-01-29 自动语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN103971675A CN103971675A (zh) 2014-08-06
CN103971675B true CN103971675B (zh) 2016-03-02

Family

ID=51241094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310033201.7A Active CN103971675B (zh) 2013-01-29 2013-01-29 自动语音识别方法和系统

Country Status (6)

Country Link
JP (2) JP2016512609A (zh)
CN (1) CN103971675B (zh)
CA (1) CA2899537C (zh)
SG (1) SG11201505402RA (zh)
TW (1) TWI536364B (zh)
WO (1) WO2014117555A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310086A (zh) * 2019-06-06 2019-10-08 安徽淘云科技有限公司 辅助背诵提醒方法、设备和存储介质
US11830498B2 (en) 2021-03-30 2023-11-28 Wistron Corp. Voice recognition system and voice recognition method

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105304084B (zh) * 2015-11-13 2020-04-24 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
CN106202045B (zh) * 2016-07-08 2019-04-02 成都之达科技有限公司 基于车联网的专项语音识别方法
CN108288467B (zh) * 2017-06-07 2020-07-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN110019832B (zh) * 2017-09-29 2023-02-24 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
TWI714078B (zh) * 2019-05-07 2020-12-21 國立高雄大學 基於深度學習之大數據分析平台排程系統及方法
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
CN111540343B (zh) * 2020-03-17 2021-02-05 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
CN113178190A (zh) * 2021-05-14 2021-07-27 山东浪潮科学研究院有限公司 一种基于元学习提高生僻字识别的端到端自动语音识别算法
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템
KR102648689B1 (ko) * 2023-05-26 2024-03-18 주식회사 액션파워 텍스트 오류를 검출하는 방법
KR102616598B1 (ko) * 2023-05-30 2023-12-22 주식회사 엘솔루 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941079A (zh) * 2005-09-27 2007-04-04 通用汽车公司 语音识别方法和系统
CN102439542A (zh) * 2009-03-30 2012-05-02 触摸式有限公司 电子设备的文本输入系统及文本输入方法
CN102800314A (zh) * 2012-07-17 2012-11-28 广东外语外贸大学 具有反馈指导的英语句子识别与评价系统及其方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2938866B1 (ja) * 1998-08-28 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP3547350B2 (ja) * 1999-09-28 2004-07-28 Kddi株式会社 連続音声認識装置
JP4067776B2 (ja) * 2001-03-13 2008-03-26 三菱電機株式会社 言語モデル構成装置及び音声認識装置
JP4034602B2 (ja) * 2002-06-17 2008-01-16 富士通株式会社 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法
KR101478146B1 (ko) * 2011-12-15 2015-01-02 한국전자통신연구원 화자 그룹 기반 음성인식 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941079A (zh) * 2005-09-27 2007-04-04 通用汽车公司 语音识别方法和系统
CN102439542A (zh) * 2009-03-30 2012-05-02 触摸式有限公司 电子设备的文本输入系统及文本输入方法
CN102800314A (zh) * 2012-07-17 2012-11-28 广东外语外贸大学 具有反馈指导的英语句子识别与评价系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310086A (zh) * 2019-06-06 2019-10-08 安徽淘云科技有限公司 辅助背诵提醒方法、设备和存储介质
US11830498B2 (en) 2021-03-30 2023-11-28 Wistron Corp. Voice recognition system and voice recognition method

Also Published As

Publication number Publication date
JP2017049612A (ja) 2017-03-09
WO2014117555A1 (en) 2014-08-07
CA2899537A1 (en) 2014-08-07
JP6436494B2 (ja) 2018-12-12
SG11201505402RA (en) 2015-08-28
CN103971675A (zh) 2014-08-06
TW201430832A (zh) 2014-08-01
CA2899537C (en) 2018-08-07
TWI536364B (zh) 2016-06-01
JP2016512609A (ja) 2016-04-28

Similar Documents

Publication Publication Date Title
CN103971675B (zh) 自动语音识别方法和系统
US9697821B2 (en) Method and system for building a topic specific language model for use in automatic speech recognition
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN103971686B (zh) 自动语音识别方法和系统
CN105786798B (zh) 一种人机交互中自然语言意图理解方法
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
CN104166462B (zh) 一种文字的输入方法和系统
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN109410914A (zh) 一种赣方言语音和方言点识别方法
CN110767218A (zh) 端到端语音识别方法、系统、装置及其存储介质
CN103578471A (zh) 语音辨识方法及其电子装置
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112562640B (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
CN106570112A (zh) 基于改进的蚁群算法实现文本聚类
CN107093422A (zh) 一种语音识别方法和语音识别系统
CN105869622B (zh) 中文热词检测方法和装置
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN112885338A (zh) 语音识别方法、设备、计算机可读存储介质及程序产品
CN104199811A (zh) 短句解析模型建立方法及系统
CN117131182A (zh) 一种基于ai的对话回复生成方法及系统
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
CN110265003B (zh) 一种识别广播信号中语音关键字的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200827

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.