CN106297800B - 一种自适应的语音识别的方法和设备 - Google Patents
一种自适应的语音识别的方法和设备 Download PDFInfo
- Publication number
- CN106297800B CN106297800B CN201610651850.7A CN201610651850A CN106297800B CN 106297800 B CN106297800 B CN 106297800B CN 201610651850 A CN201610651850 A CN 201610651850A CN 106297800 B CN106297800 B CN 106297800B
- Authority
- CN
- China
- Prior art keywords
- sentence
- language model
- recognized
- topic
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000003044 adaptive effect Effects 0.000 claims abstract description 20
- 238000012937 correction Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 230000006978 adaptation Effects 0.000 description 36
- 230000000875 corresponding effect Effects 0.000 description 24
- 230000004927 fusion Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000013518 transcription Methods 0.000 description 10
- 230000035897 transcription Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 239000003973 paint Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005507 spraying Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种自适应的语音识别的方法和设备。所述方法,1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;2)通过所述语言模型识别所述待识别语句。根据所述方法,还包括:3)修正所识别的所述待识别语句,以用于下一个待识别语句。本发明可以针对每一句语音进行在线式地的语言模型自适应,这样的自适应方式更为灵活和精细;并且,由于对每一句语音都有相应的语言模型进行识别,因而能够得到更好的识别性能。
Description
技术领域
本发明涉及信号处理,尤其涉及语音识别技术。
背景技术
近年来,语音识别技术取得了长足的进展,在许多领域中获得了实际应用,包括用于人机对话和智能助理(如苹果公司的Siri,微软公司的Cortana)、用于文字输入(如讯飞语音输入法)、以及用于语音文件的转写等。其中,对于语音文件的转写(即将一个语音文件的语音内容全部转写为相应的文本)在当前有着广泛而迫切的需求,尤其是针对大段语音的语音文件的转写,例如广播电视节目的音频、演讲/会议/课程录音、法庭庭审录音等需要进行当场或事后的转写以得到对应的文本,从而用于字幕生成、文件存档和检索等。诸如上述语音文件的转写,往往要求获得高准确度的文本,因而目前大多数语音文件的转写采用的是人工转写的方式,即人工收听音频内容并录入相应的文字。显然,这种方式效率很低,且需要耗费大量的人力和物力。
为此,有研究者尝试将语音识别技术用于上述语音文件的转写,即采用语音识别系统对上述语音文件进行自动识别以得到语音对应的文本。但是,由于受到环境噪音、口音差异、说话风格差异、主题偏差、未登录词等因素的影响,语音识别中的错误难以避免,导致采用自动语音识别技术产生的转写文本可用性不高。
如前文所述,主题偏差是影响面向语音文件转写的语音识别性能的重要因素之一。为解决上述由主题偏差而带来的语音识别性能下降的问题,在现有技术中通常会采用自适应的语言模型来识别语音中的文本。这里的自适应指的是采用语料(即所采用的语言文本的集合)来更新语言模型。
在采用自适应的语言模型进行语音识别的方法中,根据进行自适应所采用的语料是否是正在进行识别的语音文本,可以分为“离线自适应”和“在线自适应”两种。这里“离线自适应”指的是,在进行语音识别之前,采用附加资源的语料进行自适应过程,以获得语言模型。相对地,“在线自适应”指的是,利用识别中所得到的语音文本进行语言模型的自适应,并利用这样的语言模型来识别语音文本。可以看出,“在线自适应”采用的是通过待识别语音而生成的语言模型,其相较于“离线自适应”更有针对性。
在上述“在线自适应”的方法中,根据语言模型自适应的过程中是否采用了语音的正确文本进行监督,又可以被分为“有监督在线自适应”和“无监督在线自适应”这两种。而现有技术在采用在线自适应的语言模型进行语音识别时,往往采用的是“无监督在线自适应”,即直接利用语音识别的结果进行语言模型自适应,而不采用语音的正确文本来监督模型自适应过程。这是由于,普遍认为与“无监督在线自适应”相对应的“有监督在线自适应”的方法是将语音识别的正确语句作为自适应的语料从而获得语言模型,然而在已经获取正确文本后,没有再采用所获得的语言模型进行语音识别的必要性。尽管“有监督在线自适应”可以提高语言模型自适应的效果,然而由于现有的“有监督在线自适应”方法实用性不高,所以当前现有技术主要采用的是“无监督在线自适应”的语音识别方法。
上述“无监督在线自适应”的方法大体包括以下两个识别步骤:首先,对语音进行一次识别,利用识别的结果进行自适应以得到语言模型;然后,利用所得到的语言模型重新识别语音或者进行词网格重估(re-scoring),从而得到优化的语音识别结果。
可以看出,现有技术所采用的“无监督在线自适应”仍然难以保证将所识别的语音文件准确无误地转写为文本结果。为解决这一问题,一些研究者在完成语音识别之后引入了人工修正,从而通过人为地判断和修改确保可以得到正确的文本。然而,上述方法总体来说效率仍然较低,特别是当语音识别错误较多时,会导致人工修正的工作量非常大,便利性较差。
综上所述,上述现有技术中存在以下缺陷:
一、“离线自适应”的方法,其不能利用待识别语句本身而生成语言模型,其针对性相对较差;
二、现有的“有监督在线自适应”的识别方法,其无法实现在未获取语音正确文本的情况下自适应出用于语音识别的语言模型,欠缺实用性;
三、“无监督在线自适应”的方法,其无法保证所采用的自适应语料的正确性,导致自适应效果不理想;
四、现有的在完成语音识别之后引入人工修正的方法,其会使得人工的工作量非常大,影响效率。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种自适应的语音识别的方法,包括:
1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;
2)通过所述语言模型识别所述待识别语句。
优选地,根据所述的方法,其中,步骤1)包括:
1-1)确定所述已识别语句的主题;
1-2)利用所述主题来生成用于所述待识别语句的语言模型。
优选地,根据所述的方法,其中,步骤1-1)包括:
1-1-1)设置大量主题;
1-1-2)根据所述已识别语句,从所述大量主题中选取困惑度低的一个或多个主题作为所述已识别语句的主题。
优选地,根据所述的方法,其中,步骤1-2)包括:
1-2-1)根据所述主题,确定相应的主题语言模型;
1-2-2)融合所述主题语言模型与背景语言模型,以生成用于所述待识别语句的语言模型;
其中,所述背景语言模型为通过大量语料训练得出的模型。
优选地,根据所述的方法,其中,步骤1-2-2)包括:
对所述主题语言模型以及所述背景语言模型的概率进行线性插值。
优选地,根据所述的方法,其中所述已识别语句为所述待识别语句之前的一个语句。
优选地,根据所述的方法,其中还包括:
3)修正所识别的所述待识别语句,以用于下一个待识别语句。
优选地,根据所述的方法,其中还包括:
以候选的方式提供所述待识别语句的识别结果,以用于人工修正。
并且,本发明还提供了一种自适应的语音识别的设备,包括:
用于针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型的装置;
用于通过所述语言模型识别所述待识别语句的装置。
优选地,根据所述设备,其中还包括:
用于修正所识别的所述待识别语句,以用于下一个待识别语句的装置。
与现有技术相比,本发明的优点在于:
一、相较于“离线自适应”的方法,本发明利用与待识别语句相邻的已识别语句更新语音识别语言模型,具有更好的针对性;
二、并且,相较于现有的“有监督在线自适应”的识别方法,本发明采用的是通过相邻的已识别语句来更新语言模型,解决了该现有技术欠缺实用性的问题;
三、相较于“无监督在线自适应”的方法,本发明利用了已校准的已识别语句对应的文本,从而保证了自适应文本的准确性,提高了语言模型自适应的效果;
四、出于类似的原因,相较于现有的在完成语音识别之后引入人工修正的方法,本发明的语言模型是基于已识别语句的正确文本,其准确度更好,因而大大降低了人工修正的工作量。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明的实施例的利用相邻修正文本进行语言模型自适应的语音识别的流程图。
图2是根据本发明的一个实施例的语言模型自适应过程的示意图。
图3是根据本发明的一个实施例的用于用户修正而显示在屏幕上的识别结果的候选列表的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明。
发明人发现,现有的大多数语音识别系统中的语言模型采用通用的语言模型,他们采用综合了各种主题的通用领域语料来训练语言模型。然而,发明人认为转写语音文件的场景(例如一次演讲/会议/课程的录音、一段广播电视节目音频、一次法庭庭审录音等)通常都是围绕一个特定的领域或主题。并且,由于语音中的用词习惯、词语搭配在不同领域或主题间差别非常明显,而采用通用领域语料训练得到的模型来识别这些专业领域或主题的语音,是无法预知语音的领域和主题的,所以这种方法往往难以获得令人满意的识别效果。
如果能够利用待识别语音其本身作为语料来自适应出语言模型,并利用这一语言模型进行语音识别,就可以克服上述由于无法预知语音主题而造成的缺陷。然而,现有技术中所采用的方法,即“无监督在线自适应”,其是先完成了一次语音识别,再用语音识别所获得的语料来训练语言模型,并采用得到的语言模型进行第二次语音识别或校正。可以想到,如果第一次语音识别的准确度不高,那么进行第二次语音识别也难以很大程度地提升识别效果。
针对这种情况,发明人认为,如果在自适应语言模型的时候使用的是准确的语句文本,就可以克服上述“无监督在线自适应”中所存在的问题。然而,这又回到了“有监督在线自适应”所存在的问题,如果已经取得了语音的正确文本,那么就没有必要再对语音语句进行识别了。
为此,发明人进行了研究,发现对于一段包含多个语句的语音而言,在一定范围内相邻的邻近语句在主题上具有相关性。尤其是针对例如新闻报道、演讲、会议、法庭庭审录音等场景下的语音,这些语音中的一个语句与其之前或之后的若干语句往往围绕相同的主题,并且在语义上是连贯的。这种情况对于需要进行语音文件转写的语音来说,非常普遍。例如,在一段测试语音中有这样连续的两句“如果已经做好了喷漆的准备”、“那么需要找到制造商所提供的油漆编码”,从第一句中的主题词“喷漆”可以看出是关于油漆、喷漆的句子,后一句中就出现了与油漆相关的词,如“制造商”、“油漆编码”等。
因此,发明人认为如果可以逐句地识别一段语音中的各个句子,利用已经识别的句子作为语料进行语言模型自适应,并采用自适应获得的语言模型对与语料相邻的语句进行识别,应该能够大大改进识别效果。
并且,发明人认为还可以进一步引入人工修正,在每识别一个句子后,通过人为地修改保证句子的正确性,从而生成能够提供更优识别效果的语言模型。由此,经过人工修正的结果被用于生成更加针对相邻待识别语句的语言模型,利用语言模型的便利性降低了在识别下一个语句时的人工工作量。
基于上述思路,本发明提出了一种利用相邻修正文本进行基于主题的语言模型自适应的语音识别系统及方法。图1示意性地示出了根据本发明的利用相邻修正文本进行语言模型自适应的语音识别的方法。
参考图1,根据本发明的一个实施例,进行自适应语音识别的方法,包括:
1.针对每一个待识别语句,利用存在于该句之前的语句的正确文本(例如通过用户修正而获得的文本),来预测待识别语句的主题。
如前文所述,在本发明中,可以根据已识别语句的正确文本中所存在的主题,而预测待识别语句的主题。可以根据需要而建立主题集合,并判断主题集合中的哪些主题可以与已识别语句的正确文本中的内容相匹配。
为了进行这样的匹配,可以建立主题模型,并利用主题模型判断已识别语句的内容能够被匹配到哪个或哪些主题。
建立主题模型的方法包括:(1)首先,收集涉及多种领域和主题的大量文本。(2)然后,对文本进行主题聚类,例如将文本分为K类,使得每个主题聚类对应于一个主题。
这里进行主题聚类的方法可采用已有的技术,例如基于LSA(latent semanticanalysis,潜语义分析)、PLSA(probabilistic latent semantic analysis,概率潜语义分析)、LDA(Latent Dirichlet Allocation,隐狄里克雷分布)等。其中,采用LSA、PLSA进行主题聚类的复杂度较低,易于实现。相对地,采用LDA进行主题聚类的好处在于:LDA为主题加入了Dirichlet先验分布,使其在数学上更加完备,从而能够在实际应用中针对不同的训练数据有选择性地调整先验参数,防止模型过拟合;并且,LDA在训练过程中采用Gibbs算法来进行采样,比其它使用EM算法进行采样的效果更好。
此外,在进行上述主题聚类时,还应当指定训练主题数目K。K的取值可以从几十到几千、几万不等,K的取值可参考训练语料的大小。针对大数量的训练语料,可以相应的设置较大的K的取值(例如,可以K取值为100)。这是由于大数量的训练语料可以覆盖更广的主题类型,并且越多的聚类数目越能够实现常规文本聚类所不能达到的细粒度分类效果,从而使得待识别语句可以被匹配到更精确的主题。
通过例如上述步骤(1)和(2)而建立的主题模型也可以是预先建立好的,或者说用于预测语句主题的各种主题可以是预先确定好的,而不必每次都执行上述步骤。
如前文所述,建立好的主题模型确立了许多个主题,而这些主题将被用于预测待识别语句的主题。发明人认为在一段完整连贯的语音中,通常相邻语句间存在一定的关联性,因此可以认为与待识别语句相邻的一个或多个已识别语句的主题,其应当也与待识别语句的主题相关联,因而可以利用已识别语句的主题来确定待识别语句的主题分布。例如,直接将已识别语句的主题作为待识别语句的主题。
对于在待识别语句之前存在多个已识别语句的情况,还需要考虑选择哪个或哪些已识别语句来确定待识别语句的主题分布。为此,发明人进行了测试实验,实验结果显示在选取最邻近待识别语句的1个已识别语句进行主题推断时,可以获得平均最高的识别准确率。
下面将具体介绍如何利用与待识别语句相邻的已识别语句来推断待识别语句的主题分布。
根据本发明的一个实施例,采用计算困惑度(perplexity)的方法来推断待识别语句的主题,这里的困惑度用于衡量模型和真实概率分布之间的差异,可以例如是交叉熵的变形。根据这种困惑度的方法,还需要针对通过主题模型而确定的主题聚类建立主题语言模型(即针对各个主题训练出的语言模型),训练所述主题语言模型的方法可以是任意恰当的现有技术,例如n-gram方法。
在已经确定主题语言模型、以及与待识别语句相邻的已识别语句的情况下,所述推断待识别语句的主题的方法包括:(3)确定已识别语句在各个主题语言模型下的困惑度;(4)选取其中对应困惑度最低的一个或多个主题。
例如,采用n-gram方式(n=3)来建立与各个主题相对应的主题语言模型,并利用以下公式计算各个主题语言模型下与待识别语句相邻的已识别语句的困惑度:
对于已识别语句而言,如果其在一个主题语言模型下的困惑度越小,则说明该主题语言模型能更好地描述该已识别语句的主题。
由于所预测出的主题分布可能很广,并且各个主题对应的语言模型能够确切地描述语料的程度可能有高有低。为了归纳总结以便操作和管理,还可以选取主题分布中困惑度低(即能更确切描述待识别语句)的多个主题进行融合。发明人通过实验发现,选取困惑度最低的3-5个主题所对应的主题语言模型进行融合时可以获得最好的语言模型融合效果,进行语言模型融合的过程将在后述步骤2中详细介绍。
根据本发明的其他实施例,还可以采用其他方式来推断待识别语句的主题分布。例如,采用LDA的方法来推断待识别语句的主题分布。与采用困惑度的方法不同的是,采用LDA的方法不需要针对各个主题聚类训练出主题语言模型便可以确定语料中的主题。具体地,根据本发明的一个实施例,采用LDA推断待识别语句的主题的方法,包括:对选取的已识别语句进行Gibbs采样,从而得到该文本的主题分布。与前文所述计算困惑度的方法相类似地,也可以针对LDA所推测出的各个主题进行融合。这种采用LDA的方法的好处在于推断的速度快,但是相对于计算困惑度的方法而言,其推断主题的准确性相对较差。
应当理解,上述两个实施例仅用于解释本发明,在本发明中还可以采用其他用于衡量模型质量的方法,来预测待识别语句的主题。
2.利用得到的待识别语句的主题进行语言模型自适应。
如前文所述,发明人认为可以采用与待识别语句相邻的已识别语句作为语料来自适应语言模型,以采用所获得的语言模型识别待识别语句。然而,在上述步骤1中获得待识别语句的主题的数目往往只有几个,将其对应的语料作为训练语言模型的语料,可能会导致语料数量不足、难以很好地刻划所有词的出现情况,因而这样的方法只适合重点强调一些领域相关的词。
为此,发明人认为,可以进一步将综合了各种领域和主题的语料而训练出的语言模型(即背景语言模型)同与待识别语句的主题相对应的语言模型(即主题语言模型)融合起来,这样既能保留背景语言模型中与领域相关性不大的通用词的信息,也能强调与领域相关的词。应当理解的是,如果在上述步骤1中采用困惑度的方法,则可以直接将与主题对应的主题语言模型用于融合;如果在上述步骤1中没有建立主题语言模型,例如采用的是LDA方法来预测待识别语句的主题分布,那么在此步骤2中还应当针对步骤1中获得的各个主题而训练主题语言模型,以用于模型融合。
融合背景语言模型和主题语言模型的一种方法是,对背景语言模型与主题语言模型进行插值,从而获得可以更加准确地描述待识别语句的语言的概率分布情况。
图2示出了训练并融合语言模型的过程。参考图2可以看出,可利用语料训练获得主题语言模型以及背景语言模型,并且在获得这两类模型后可以对他们进行融合。
下面将具体解释对主题语言模型以及背景语言模型的概率进行线性插值以融合该两类模型的过程。其中,在进行插值时可以采用以下公式:
其中,K为主题推断中推断出来的主题数;w代表任意一个词;h代表w之前的历史;pb(w|h)为对于背景语言模型而言,在条件h下词w出现的条件概率;为对于全部K个主题中第i个主题的语言模型而言,在条件h下词w出现的条件概率;αi为每个主题语言模型的融合系数;PP为对应模型的困惑度,其中脚标b表示针对背景语言模型,脚标ti和tj分别表示针对第i个和第j个主题的语言模型;p(w|h)为对插值融合后的模型而言,在条件h下词w出现的条件概率。
在具体实施插值融合时,对词典中的每个w和任意n-1(n为所采用的n-gram中n的数值,如采用3-gram时n=3)个词组成的词串h,按上述公式计算相应的概率值。
上面介绍了对语言模型进行融合的过程,其中所采用的背景语言模型以及主题语言模型可以是预先训练好的。而在没有获得背景语言模型以及主题语言模型的情况下,还应当首先训练出这两类语言模型。例如,在步骤1中采用LDA方法来预测待识别语句的主题分布,那么在进行步骤2时还需要训练主题语言模型。
在本发明中,训练语言模型的方法可以是任意恰当的现有技术,比如,可以通过计算训练语料中语言的概率分布,来建立背景语言模型。可以采用的现有技术包括n-gram语言模型、最大熵模型、隐马尔可夫模型或者是LSTM(Long-Short Term Memory,长短期记忆人工神经网络)等。
以采用n-gram语言模型训练背景语言模型为例,可以采用HTK作为n-gram方法的训练工具,参考HTK的使用文档、运行HTK程序来训练语料文本,从而生成背景语言模型。以训练主题的语言模型为例,假设在上述步骤1中获得了100个主题聚类,可以利用HTK针对该100个主题分别训练与各个主题对应的n-gram模型。这里n-gram中的表示n元语言模型,即在确定当前词的概率时,除去当前词以外,还需要考虑在当前词之前的n-1个词,即一共考虑n个词。
在获得了如图2所示的背景语言模型以及各个主题的语言模型之后,可以通过上述融合获得新的语言模型的方法进行语言模型的自适应。例如,采用n-gram语言模型训练语言模型,使用HTK的LMerge程序进行语言模型自适应。该方法包括:首先将背景语言模型输入LMerge程序,并且选择各个主题的语言模型及各个语言模型的融合权重,利用LMerge程序输出自适应的语言模型。
3.采用语音识别模块,加载新的自适应后的语言模型进行语音识别,得到识别结果。
在通过上述步骤1和2获得了自适应的语言模型后,可以将获得的自适应语言模型加载到自动语音识别模块,以进行语音识别。通过语音识别模块能够从音频信号的采样样本中提取声学特征,将所提取的声学特征映射到每一个音素,利用词表将音素的组合对应到相应发音的文字,从而利用语言模型确定具体使用的是哪个文字。
为了构建这样的自动语音识别模块,可以采用以下现有技术:通过例如MFCC、短时能量及其一阶、和二阶差分的技术来提取声学特征;采用带调三音子的HMM模型来构建声学模型,以将所提取的声学特征映射到各个音素;通过例如3-gram来产生语言模型;将词表规模设置为120K;以及采用基于令牌传递的深度优先搜索算法来进行解码。
4.将识别结果显示在屏幕上,采用交互模块接收用户的修正,在修正完成后,保存修正后的识别结果并切换到下一句。
如前文所述,发明人认为可以在识别每一个句子时进一步引入人工修正,从而确保在下一个待识别语句可以生成准确度更好的语言模型。因此,在本发明中还可以提供方便人工修正的交互方式(或交互界面),使得可以人为地对语音识别结果进行确认和修改,最终得到正确文本。
发明人认为,将例如通过上述步骤3而获得的识别结果提供给用户以用于修正,需要将识别结果设置为恰当的形式。为了将更简单的操作界面提供给用户从而方便用户修改,可以将识别结果设置为与语音对应的直接文本。相对地,也可以将识别结果设置为通过语音识别的中间结果而生成的N-best结果(即N个可能的文本)、或者候选列表等,从而以适当增加操作界面复杂度为代价,而达到能够将不同的修正方式结合起来以获得高修正效率。
根据本发明的一个实施例,将识别结果以语音识别而产生的直接文本的形式提供给观众。用户可以采用键盘和鼠标等输入装置来编辑该文本,例如:光标定位字词、删除字词、和通过键盘插入字词等。
根据本发明的另一个实施例,将识别结果以候选列表的形式提供给观众。图3示出了以候选列表形式而将识别结果提供给用户以进行修正的一个示例。如图3所示,识别结果以候选列表的形式显示在电脑屏幕上,所显示的候选列表包含若干列,每列中的文字为具有竞争关系的候选字(例如具有类似发音的“情”与“清”,以及“节”与“洁”),所有列的第一个字组成的句子为语音识别系统的默认识别结果。用户可以将默认识别结果以及候选列表所示出的文字作为参考,对识别结果进行修正操作,例如删除字词、插入字词以及候选选择等。以图3所示出的为例,所有列的第一个文字组成了“老保持工作台的情节与成绩”,通过理解语句所期望表达的含义,可以人为地在文本框中输入“要”和“整齐”,并且点击候选列表中的“清洁”,从而将这句话修改为“要保持工作台的清洁与整齐”。
这里,用于生成上述文字的候选列表的方法,可以采用现有技术,例如在专利ZL201010269306.9(一种交互式语音识别系统和方法)中所描述的方法,根据“候选生成与错误修正模块”从词网格生成候选列表。
在完成诸如上述修改后,保存修正后的识别结果,并切换到下一句进行识别。
总结上述实施例可以看出,本发明具有以下优点:
首先,本发明采用用户的历史修正信息来预测待识别语句的主题,属于有监督的方法,其可以满足高识别准确度的要求;
并且,根据预测出的待识别语句的主题模型进行自适应,由于预先训练好了各个语言模型(包括背景语言模型以及各个主题的语言模型),因而在自适应时不需要再收集语言模型的训练语料(可以采用预先训练好的背景语言模型),可以实现实时地自适应。
而且,由于针对每一个语句单独生成了针对该语句的自适应语言模型,因而可以对当前待识别语句的文本进行更精确的描述,从而提高了语音识别的正确率。这样针对每一句语音进行在线式地的语言模型自适应的方案,在语音识别时相较于其他技术更为灵活和精细。
在此基础上,由用户进行修正不仅进一步完善了识别出的文本,还可以将由用户修正过的语句用于后续语音语句的识别,从而为后续识别过程中的语言模型自适应提供帮助。
此外,根据本发明的实施例,还提供了便于用户在修正语音文本时进行交互的方案,使得用户能够快捷地修改语音识别的错误。
测试实例
上述步骤1-4介绍了根据本发明的方法,下面以一个具体的测试实例来讲解本发明的完整过程。
在一段关于汽车维修的语音中,有这样连续的两句话:“是否达到了车辆碰撞修复标准”,“车辆是可以进行喷漆的”。发明人针对这段语音进行了测试,从而对比现有技术与本发明的效果。
在不采用语言模型自适应的情况下,通过现有技术(通用语言模型)而直接获得的识别结果是:“是否达到了车辆碰撞修复标准”,“车辆匙可以进行攻击的”。
相比之下,根据本发明的方法,针对这段关于汽车维修的语音进行如下处理:
假设当前正在识别的句子(待识别语句)是“车辆是可以进行喷漆的”,首先获取存在于待识别语句之前并且经过用户修正的句子的文本(相邻修正文本,或语料),即“是否达到了车辆碰撞修复标准”。预先设置了100个主题,利用相邻修正文本分别针对各个主题计算困惑度,在这100个主题中编号为58、16、和72的这三个主题的困惑度最小,它们的困惑度分别为390.9、595.1、680.8。根据这些困惑度以及前文所述进行插值融合所采用的公式,可以计算出这三个主题分别的融合系数为0.60、0.17、0.12,从而利用与编号为58、16、72的主题所对应的语言模型、和计算出的融合系数、和背景语言模型进行插值,得到自适应的语言模型。使用自适应的语言模型对当前这句进行识别,得到“车辆是可以进行喷漆的”。
可以看出,在未经过人工修正的情况下,本发明已经能够识别出正确的语句,相比于现有技术所识别出的“车辆匙可以进行攻击的”,本发明的方法在识别准确率上有了很大的提升。
所得到的识别结果“车辆是可以进行喷漆的”,可以由用户进一步确认结果的正确性。在用户确认正确后,继续识别下一句,并在识别下一个语句时,根据“车辆是可以进行喷漆的”进行主题推断、语言模型自适应、识别、用户修正,循环往复,直到识别任务结束。
可以看出,根据本发明所提出的方法可以实现持续地针对每一句语音进行在线式地的语言模型自适应,这样的自适应方式更为灵活和精细。由于,对每一句语音都有相应的语言模型进行识别,因而能够得到更好的识别性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种自适应的语音识别的方法,包括:
1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;
2)通过所述语言模型识别所述待识别语句;
其中,步骤1)包括:
1-1)确定所述已识别语句的主题;
1-2)利用所述主题来生成用于所述待识别语句的语言模型。
2.根据权利要求1所述的方法,其中,步骤1-1)包括:
1-1-1)设置大量主题;
1-1-2)根据所述已识别语句,从所述大量主题中选取困惑度低的一个或多个主题作为所述已识别语句的主题。
3.根据权利要求1所述的方法,其中,步骤1-2)包括:
1-2-1)根据所述主题,确定相应的主题语言模型;
1-2-2)融合所述主题语言模型与背景语言模型,以生成用于所述待识别语句的语言模型;
其中,所述背景语言模型为通过大量语料训练得出的模型。
4.根据权利要求3所述的方法,其中,步骤1-2-2)包括:
对所述主题语言模型以及所述背景语言模型的概率进行线性插值。
5.根据权利要求1-4中任意一项所述的方法,其中所述已识别语句为所述待识别语句之前的一个或多个语句。
6.根据权利要求1-4中任意一项所述的方法,其中还包括:
3)修正所识别的所述待识别语句,以用于下一个待识别语句。
7.根据权利要求6所述的方法,其中还包括:
以候选的方式提供所述待识别语句的识别结果,以用于人工修正。
8.一种自适应的语音识别的设备,包括:
用于针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型的装置,该装置被配置为:确定所述已识别语句的主题;并利用所述主题来生成用于所述待识别语句的语言模型;
用于通过所述语言模型识别所述待识别语句的装置。
9.根据权利要求8所述的设备,其中还包括:
用于修正所识别的所述待识别语句,以用于下一个待识别语句的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610651850.7A CN106297800B (zh) | 2016-08-10 | 2016-08-10 | 一种自适应的语音识别的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610651850.7A CN106297800B (zh) | 2016-08-10 | 2016-08-10 | 一种自适应的语音识别的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297800A CN106297800A (zh) | 2017-01-04 |
CN106297800B true CN106297800B (zh) | 2021-07-23 |
Family
ID=57667983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610651850.7A Active CN106297800B (zh) | 2016-08-10 | 2016-08-10 | 一种自适应的语音识别的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297800B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538286A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及计算机 |
CN109213466B (zh) * | 2017-06-30 | 2022-03-25 | 北京国双科技有限公司 | 庭审信息的显示方法及装置 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN109062951B (zh) * | 2018-06-22 | 2021-04-06 | 厦门快商通信息技术有限公司 | 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 |
CN108959488B (zh) * | 2018-06-22 | 2021-12-07 | 创新先进技术有限公司 | 维护问答模型的方法及装置 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
US10957307B2 (en) | 2019-03-28 | 2021-03-23 | Microsoft Technology Licensing, Llc | Modular language model adaptation |
CN111767712A (zh) * | 2019-04-02 | 2020-10-13 | 北京地平线机器人技术研发有限公司 | 基于语言模型的业务数据筛选方法和装置、介质、设备 |
CN111754987A (zh) * | 2020-06-23 | 2020-10-09 | 国投(宁夏)大数据产业发展有限公司 | 一种大数据分析语音识别方法 |
CN112017655B (zh) * | 2020-07-25 | 2024-06-14 | 云开智能(深圳)有限公司 | 一种智能语音收录回放方法及其系统 |
CN114580378A (zh) * | 2020-12-01 | 2022-06-03 | 广州视源电子科技股份有限公司 | 一种语句生成模型的训练方法、语句生成方法、装置、设备及介质 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN113129865A (zh) * | 2021-03-05 | 2021-07-16 | 联通(广东)产业互联网有限公司 | 通信语音转写AI connector中间元件的处理方法和装置 |
CN114328798B (zh) * | 2021-11-09 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010100853A1 (ja) * | 2009-03-04 | 2010-09-10 | 日本電気株式会社 | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102623010B (zh) * | 2012-02-29 | 2015-09-02 | 北京百度网讯科技有限公司 | 一种建立语言模型的方法、语音识别的方法及其装置 |
CN105489221B (zh) * | 2015-12-02 | 2019-06-14 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
-
2016
- 2016-08-10 CN CN201610651850.7A patent/CN106297800B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106297800A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US10665231B1 (en) | Real time machine learning-based indication of whether audio quality is suitable for transcription | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US8548808B2 (en) | Speech understanding apparatus using multiple language models and multiple language understanding models | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
US20180286385A1 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
US20110313769A1 (en) | Method and System for Automatically Detecting Morphemes in a Task Classification System Using Lattices | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
AU2012388796B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
Bazzi et al. | A multi-class approach for modelling out-of-vocabulary words | |
CN115116428B (zh) | 韵律边界标注方法、装置、设备、介质及程序产品 | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
Yoon et al. | Off-Topic Spoken Response Detection with Word Embeddings. | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
Ilyes et al. | Statistical parametric speech synthesis for Arabic language using ANN | |
Dharmani et al. | Performance evaluation of ASR for isolated words in Sindhi Language | |
Jia et al. | Language model adaptation based on correction information for interactive speech transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |