CN101923854A - 一种交互式语音识别系统和方法 - Google Patents
一种交互式语音识别系统和方法 Download PDFInfo
- Publication number
- CN101923854A CN101923854A CN2010102693069A CN201010269306A CN101923854A CN 101923854 A CN101923854 A CN 101923854A CN 2010102693069 A CN2010102693069 A CN 2010102693069A CN 201010269306 A CN201010269306 A CN 201010269306A CN 101923854 A CN101923854 A CN 101923854A
- Authority
- CN
- China
- Prior art keywords
- module
- adaptation
- acoustic model
- speech
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种交互式语音识别系统和方法。
背景技术
目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,面向真实场景的大词汇量连续语音识别系统的性能远远无法满足实际应用要求。
在已有的语音识别系统中,已经出现了一些交互技术,主要是错误纠正技术,即在一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方式,包括单词重新发音(re-speaking),单词拼写(spelling),键盘输入、手写输入等。近期语音识别系统中主要采用候选选择修正技术,系统对每个单词给出多个候选,并提供相应的交互界面,允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该系统针对无噪声的朗读语音,可以达到实时应用并能够修正大部分识别错误。总的来说,现有语音识别系统中的交互技术多数集中在对识别结果的修正上,缺乏利用多种交互手段,以及利用交互信息进行自动学习的相关系统。
在语音识别技术中,存在一种识别中的自动学习技术,称作模型自适应技术。模型自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一种估计某种声学信号对应某个发音的概率的模型。声学模型自适应,主要是说话人自适应,即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等),对基础声学模型进行调整,以得到更适合当前说话人的模型。按照自适应训练过程有无监督,自适应可以分为:(1)有监督自适应:自适应训练过程中训练语音的内容对于系统是已知的;(2)无监督自适应:自适应训练过程中训练语音的内容对于系统是未知的,需要由系统通过识别获得。显然,有监督自适应由于语音与文本信息是已知的,因此对声学模型的自适应训练更为可靠,其性能要远远优于无监督自适应,特别是在发音不够标准的情况下。但由于很难在识别的同时获得准确的文本信息,因此现有语音识别系统中的声学模型自适应都以无监督自适应为主。
语音识别系统中的语言模型是一种估计某种发音对应某个具体字或词的概率的模型。语言模型自适应的基本思想是,根据不断变化的应用环境,不断调整语言模型中各种语言现象出现的概率,以适应不同应用环境各自的特征。与声学模型自适应类似,可根据语料的可靠性将语言模型自适应分为有监督与无监督自适应,前者采用的为可靠的文本,而后者则动态的将系统识别结果作为自适应语料。显然,有监督自适应的效果要优于无监督自适应,但由于一般的语音识别应用在识别过程中很难得到标准答案,因此绝大多数系统都采用无监督自适应。
另外,对于同时存在多个说话人的语音,如广播语音和会议语音,语音识别系统在做语音识别和自适应时还需要对说话人进行分割和跟踪,以保证自适应在同一个说话人的语音上完成。现有的语音识别系统都是通过系统自动识别来对说话人进行分割和跟踪,这种识别不但消耗了大量的计算资源,而且其结果也不是很准确,错误的结果很可能导致系统性能的恶化。
发明内容
本发明的目的在于提供一种交互式语音识别系统和方法。通过交互的方式,使得语音识别系统输出的候选越来越准确。
为实现本发明的目的而提供的一种交互式语音识别系统,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
所述系统,包括:
声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。
在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
所述固定长的音频的长度值为3秒。
所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
当自适应结束后,所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
为实现本发明的目的,还提供一种交互式语音识别方法,所述方法,包括下列步骤:
步骤100.在语音识别开始前,通过交互模块输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型;
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对所述语音语句进行识别,并输出中间识别结果,发送给候选生成与错误修正模块;
步骤400.所述候选生成与错误修正模块对所述中间识别结果进行处理生成候选集;
步骤500.用户通过交互模块选择候选或者输入正确数据来纠正识别错误得到最终识别结果,并输出最终识别结果。
所述方法,包括:
步骤100’.根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型。
在步骤200中,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
在步骤200中,通过输入特定人的姓名,所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。
在识别过程中当待识别对象发生切换时,通过交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
在步骤300中,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
所述固定长的音频的长度值为3秒。
所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
所述步骤600中,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
所述步骤600中,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
本发明的有益效果是:
1.本发明的交互式语音识别系统和方法,通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并采用交互方式选择候选或从终端输入正确数据来修正识别错误;
2.本发明的交互式语音识别系统和方法,根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确;
3.本发明的交互式语音识别系统和方法,是对当前大词汇量连续语音识别在实际应用中的发展和创新,具有重要的商业价值和产业应用前景。同时,对语音识别在其他方向(如实时字幕生成,图书馆音频资料整理等)的应用具有实际的借鉴意义。
附图说明
图1是本发明的交互式语音识别系统的结构示意图;
图2是本发明中对语音语句进行提取的示意图;
图3是本发明中声学模型和语言模型选择及开启识别服务的示意图;
图4是本发明中字候选生成的示意图;
图5是采用本发明的系统和方法的识别错误修正示意图;
图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图;
图7是本发明的交互式语音识别方法的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种交互式语音识别系统和方法进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的一种交互式语音识别系统和方法。其核心是通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并通过选择候选或从系统输入的方式来修正识别错误。同时,还可针对当前语音的特点给出一点的指导信息,使系统根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确。这就相当于把无监督的自适应变成了有监督的自适应,把非特定人的语音识别变成了准特定人的语音识别。
下面结合上述目标详细介绍本发明的交互式语音识别系统,图1是本发明的交互式语音识别系统的结构示意图,如图1所示,所述系统1,主要包括六个模块:声学模型和语言模型选择模块11、语音语句提取模块12、语音识别模块13、候选生成与错误修正模块14,声学模型和语言模型自适应模块15和交互模块16,其中:
所述声学模型和语言模型选择模块11,用于根据输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
在大多数语音识别应用场合中,语音识别的对象是比较固定的,且语音内容涉及的领域也是比较单一的,如使用语音识别对某一关于经济领域的会议进行会议记录,该会议中的识别对象会议参加者是比较固定的,并且会议语音内容基本都是有关经济领域的话题。因此在本发明的交互式语音识别系统中,采用声学模型和语言模型选择的方法为每个识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。
所述语音语句提取模块12,用于将输入的整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来;
图2是本发明中对语音语句进行提取的示意图,如图2所示,在大词汇量连续语音识别中,一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前,需要采用某种方法将整段语音切分成若干个语音语句,然后再将每一个语音语句提取出来进行识别。
所述语音识别模块13,用于为每个待识别对象开启一个识别线程,对语音语句提取模块12提取后得到的语音语句进行识别;
图3是本发明中声学模型和语言模型选择及开启识别服务的示意图,如图3所示,识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与识别对象对应的声学模型和语言模型。在开启所有识别线程之后,语音识别模块就对经语音语句提取模块提取后得到的语音语句进行识别,并输出识别结果。在该模块中,语音识别输出的识别结果为词网格,词网格是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。在语音识别模块中,对于每个识别对象的语音语句都用与之对应的识别线程进行识别。
所述候选生成与错误修正模块14,用于根据汉语的语言特点,对所述语音识别模块13生成的汉语词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选;以及对于每处识别错误,从对应候选列中查找正确的字来修正识别错误,或者通过输入正确的字来修正识别错误。
图4是本发明中字候选生成的示意图,图5是采用本发明的系统和方法的识别错误修正示意图,如图4和图5所示,在交互式语音识别系统中,候选生成是非常重要的一个环节,因为供选择的候选的质量直接影响着整个系统的性能和工作效率。在该模块中,根据汉语的语言特点,采用了一种基于字候选的汉语候选生成方法。该方法首先对语音识别模块生成的汉语词网格中的弧对齐生成一个对齐网络;然后,对该对齐网络按字切分得到字候选。使用该方法生成的候选满足以下三个性质:(1)具有竞争关系的字候选排列在同一字候选列中;(2)字候选列的排列顺序和他们识别的先后时间一致;(3)每个字候选列中的字候选按照他们在词网格中的得分从大到小排列。在系统中,候选生成和错误修正模块除了提供候选生成的功能外,还提供了错误修正的功能。对于每处识别错误,先从对应候选列中查找正确的字,如果正确的字出现在候选列中,可通过选择正确候选字来修正识别错误,如果正确的字未出现在候选列中,则可通过输入正确的字来修正识别错误。因此,修正后的识别结果不包含任何错误。
所述声学模型和语言模型自适应模块15,用于利用修正性的交互信息,对所述声学模型和语言模型进行有监督自适应。
图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图,如图6所示,在自动语音识别中,尽管有监督声学模型和语言模型自适应的效果要好于无监督自适应,但是大多数系统采用的自适应都为无监督自适应,这主要是因为有监督自适应的已知语料相对比较难获得。不同于自动语音识别,在本发明的交互式语音识别系统中,系统对所有语音语句识别生成的识别结果都会经过修正,将识别结果中的错误修正过来。因此,在交互式语音识别系统中,利用修正性的交互信息,可以对系统中的声学模型和语言模型进行有监督自适应。声学模型和语言模型自适应模块就是利用交互信息对声学模型和语言模型进行有监督自适应。
在该模块中,首先为每个识别对象收集经语音语句提取模块提取后的语音语句,以及收集对该语音语句识别并经修正后的识别结果。然后,利用收集到的语音语料和对应的修正后识别结果,为每个识别对象所对应的声学模型作有监督声学模型自适应。
所述交互模块16,用于将用户的输入信息发送给所述声学模型和语言模型选择模块11,以及向用户反馈所述字候选生成和错误修正模块14的识别结果。
如图1所示,在语音识别开始前,通过交互模块16向系统输入能反映待识别对象发音特点的信息,如性别、地域口音等信息,和输入待识别对象将主要讨论的主题信息,如政治、经济、科技等信息;所述声学模型和语言模型选择模块11根据输入信息为每个待识别对象选择最匹配的声学模型和语言模型。对于特定的识别对象,可以通过向系统输入该对象的姓名,根据姓名为该对象选择特定的声学模型。在为每个待识别对象选择最匹配的声学模型和语言模型之后,所述语音识别模块13根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程。在语音识别过程中,语音信号经语音语句提取模块11转化为语句送至语音识别模块13,语音识别模块13生成识别中间结果词网格,所述字候选生成和错误修正模块14对识别中间结果词网格进行处理生成候选,通过选择候选或终端输入来纠正识别错误得到最终识别结果。同时,所述声学模型和语言模型自适应模块15利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
相应于本发明的交互式语音识别系统,还提供一种交互式语音识别方法,图7是本发明的交互式语音识别方法的步骤流程图,如图7所示,所述方法,包括下列步骤:
步骤100’.系统根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型;
如图3所示,作为一种可实施方式,本发明的交互式语音识别系统根据待识别对象的性别和地域口音预先训练多个声学模型(如北方男声声学模型、北方女声声学模型、南方男声声学模型、南方女声声学模型等)以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型(如有关政治主题的语言模型、有关经济主题的语言模型、有关科技主题的语言模型、有关体育主题的语言模型等)和一个通用语言模型。
步骤100.在语音识别开始前,输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型,并为每个待识别对象开启一个识别线程;
在语音识别开始前,针对发言者比较固定和语音内容比较单一的应用环境,向系统输入所有待发言者的地域口音和性别信息以及将要谈论的领域信息,系统根据输入的信息为每个待发言者选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。否则,对于发言者不够稳定和语音内容涉及领域比较多变的应用环境,系统将为每个发言者都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
较佳地,系统还可以为某些特定的人训练一个特定人声学模型,通过向系统输入特定人的姓名,系统根据姓名为该特定人选择与之对应的特定人声学模型。在选择完声学模型和语言模型后,系统为每个待发言者开启一个识别线程,识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与发言者对应的声学模型和语言模型。在识别过程中,对每个发言者的语音语句都用与之对应的识别线程进行识别。
当在识别过程中当发言者发生切换时,向系统指示所切换到的当前发言者,系统根据指导信息将提取到语音语句送到与当前发言者所对应的识别线程进行识别。
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块生成识别中间结果词网格,发送给候选生成与错误修正模块;
如图2所示,在大词汇量连续语音识别中,一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前,需要采用某种方法将整段语音切分成若干个语音语句,然后再将每一个语音语句提取出来进行识别。作为一种可实施方式,在本发明的方法中,发言者的语音输入既可以是事先录好的音频文件输入,又可以是实时的语音输入。对于音频文件输入,本发明直接采用端点检测方法对输入的音频文件进行端点检测提取所有的语音语句;对于实时的语音输入,本发明实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
在一些实时应用中,要求对实时输入的语音进行实时的识别,这就要求系统能够对实时输入的语音实时地提取语音语句。因此,为了能够满足实时地提取语音语句,本发明采用分段采集和缓冲池的方法,即每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。然而,音频固定长度的设定问题成了关键,长度过长使得端点检测等待时间过长而影响实时性,长度过短使得端点检测做了过多的无用检测从而降低系统资源的利用率。本发明设定的长度值为3秒,因为根据实验的统计大部分一句话都在3秒钟内。
步骤400.所述候选生成与错误修正模块对所述中间结果词网格进行处理生成候选集;
如图4所示,作为一种可实施方式,本发明采用一种基于字候选的汉语候选生成方法来生成字候选。该方法首先对语音识别模块生成的中间结果词网格中的弧对齐生成一个对齐网络;然后,对该对齐网络按字切分得到字候选。图4(a)表示为汉语词网格,词网格是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示,其中每条弧都可用一个五元组{S,F,W,A,L}来表示,其中S表示弧的起始时间,F表示弧的结束时间,W表示弧上对应的词假设,A表示弧的声学概率得分,L表示弧的语言概率得分。将满足以下两个条件的弧对齐为一类:(1)弧上对应词假设的最后一个汉字存在语音相似。(2)弧之间存在时间重叠。图4(b)为对图4(a)中的汉语词网格对齐后得到的对齐网络,图中每类词假设中的最后一个汉字都具有语音相似性,且对应弧都具有时间重叠性。在得到对齐网络的基础上,对对齐网络按字切分。首先从第一类开始切分,当某一类中的词假设由多个汉字组成时,则将倒数第二个汉字切分到前一类,倒数第三个汉字切分到前前一类,按该方式切分下去直到剩下最后一个汉字。图4(c)为图4(b)中的对齐网络按字切分得到的字候选。在得到的字候选中,每个字都具有语音相似性。
步骤500.用户通过交互模块选择候选或者输入来纠正识别错误得到最终识别结果,并输出识别文本。
如图5所示,在交互式语音识别系统中,首先通过选择候选集中的字候选来修正识别错误,如图5所示,通过选择“的”来修正识别错误“得”。在通过选择字候选修正识别错误后,对于那些不能通过选择字候选进行修正的识别错误,可输入正确的字来修正识别错误,如在图5中通过输入“方”来修正识别错误“防”。最后得到完全正确的识别结果。
较佳地,所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
如图6所示,在交互式语音识别系统中,发言者的语音经语音语句提取模块提取后得到的语音语句一路经语音识别模块—候选生成与错误修正模块得到最终识别结果,另一路与对应的最终识别结果一起供系统进行声学模型和语言模型自适应。作为一种可实施方式,在本发明的交互式语音识别系统中,系统为每个发言者收集经语音语句提取模块提取后的语音语句,以及对该语音语句识别并经修正后的识别结果;然后,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应。同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。对于在线的声学模型和语言模型自适应,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。无论是在线自适应还是离线自适应,系统都将保留自适应后的声学模型并与对应的识别对象姓名建立对应关系,当以后再出现该识别对象时只需输入识别对象姓名就可以选择该自适应后的声学模型。
下面以使用本发明中的交互式语音识别系统对会议进行会议记录为例详细说明本发明。例如某次会议有4个会议参加者,其中:王某,男性,北方人;刘某,女性,北方人;谢某,男性,南方人;张某,女性,南方人。此次会议的主题是有关经济领域的一个研讨会。使用本发明中的交互式语音识别系统对本次会议进行会议记录。
目前系统具有5个声学模型(北方男性声学模型,北方女性声学模型,南方男性声学模型,南方女性声学模型,以及一个通用声学模型)和4个语言模型(有关政治领域语言模型,有关经济领域语言模型,有关科技领域语言模型,以及一个通用语言模型)。在会议开始前,向系统输入4个会议参加者的信息(如,王某,男,北方口音)和本次会议主题领域经济,系统根据输入的信息为王某选择北方男性声学模型,为刘某选择北方女性声学模型,为谢某选择南方男性声学模型,为张某选择南方女性声学模型,并且为所有参加者都选择有关经济领域语言模型。在选择完模型后,系统为每个会议参加者开启一个识别线程,等待识别。
在会议中,王某首先进行了发言,系统启动北方男性声学模型对应的线程接受语音进行识别。王某的第一句话为“大家上午好”,系统分别采集了三段音频,系统对该三段音频进行端点检测,在第二段中检测到了这句话的语音起始点,在第三段中检测到了这句话的语音结束点。系统根据检测到起始点和结束点提取该句语音语句,提取到的语音语句一方面送给王某对应的识别线程进行识别,一方面保存到系统中。王某对应的识别线程对该语音语句识别后生成汉语词网格,系统采用字候选生成方法对该词网格生成候选集如下:
大 家 商 务 好
打 架 上 午
加 晌
通过选择第二列字候选中的“上”,和第三列字候选中的“午”来修正识别错误,最终得到正确识别结果。对于得到的最终识别结果一方面输出得到会议记录,一方面保存到系统中。
在会议中,王某发言结束后,谢某进行了发言,立即通过交互模块向系统指示当前发言人为谢某。此后,系统对谢某的发言提取到的语音语句会发送到谢某所对应的识别线程进行识别。同样,系统一方面输出最终识别结果得到会议记录,一方面保存谢某的语音语句和对应最终识别结果。
在会议中,当系统为王某保存的语音语句超过一定量时,系统利用王某的语音语句和对应的最终识别结果对王某所对应的北方男性声学模型做有监督自适应。并为自适应后得到的北方男性声学模型开启识别线程,同时关闭王某先前对应的识别线程。此后,王某的语音语句都由新开启的识别线程识别。
在会议中,当系统为所有会议参加者保存的最终识别结果(以句为单位)超过一定量时,系统利用保存的所有参加者的识别结果对有关经济领域语言模型做有监督自适应。利用自适应得到的语言模型为所有会议参加者开启新的识别线程,关闭先前的识别线程。
此外,也可以在会议结束后再为所有会议参加者做声学模型有监督自适应,为有关经济领域语言模型做有监督自适应。
最后,保存王某、刘某、谢某、张某的自适应后声学模型,并分别与他们的姓名建立对应关系。
本发明的有益效果在于:
1.本发明的交互式语音识别系统和方法,通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并采用交互方式选择候选或从终端输入正确数据来修正识别错误;
2.本发明的交互式语音识别系统和方法,根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确;
3.本发明的交互式语音识别系统和方法,是对当前大词汇量连续语音识别在实际应用中的发展和创新,具有重要的商业价值和产业应用前景。同时,对语音识别在其他方向(如实时字幕生成,图书馆音频资料整理等)的应用具有实际的借鉴意义。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。
Claims (25)
1.一种交互式语音识别系统,其特征在于,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
2.根据权利要求1所述的交互式语音识别系统,其特征在于,所述系统,包括:
声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
3.根据权利要求1所述的交互式语音识别系统,其特征在于,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
4.根据权利要求1所述的交互式语音识别系统,其特征在于,对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。
5.根据权利要求1所述的交互式语音识别系统,其特征在于,在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
6.根据权利要求1所述的交互式语音识别系统,其特征在于,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
7.根据权利要求6所述的交互式语音识别系统,其特征在于,对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
8.根据权利要求7所述的交互式语音识别系统,其特征在于,所述固定长的音频的长度值为3秒。
9.根据权利要求1所述的交互式语音识别系统,其特征在于,所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
10.根据权利要求9所述的交互式语音识别系统,其特征在于,所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
11.根据权利要求2所述的交互式语音识别系统,其特征在于,所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
12.根据权利要求2所述的交互式语音识别系统,其特征在于,当自适应结束后,所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
13.一种交互式语音识别方法,其特征在于,所述方法,包括下列步骤:
步骤100.在语音识别开始前,通过交互模块输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型;
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对所述语音语句进行识别,并输出中间识别结果,发送给候选生成与错误修正模块;
步骤400.所述候选生成与错误修正模块对所述中间识别结果进行处理生成候选集;
步骤500.用户通过交互模块选择候选或者输入正确数据来纠正识别错误得到最终识别结果,并输出最终识别结果。
14.根据权利要求13所述的交互式语音识别方法,其特征在于,所述方法,包括:
步骤100’.根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型。
15.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤200中,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
16.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤200中,通过输入特定人的姓名,所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。
17.根据权利要求13所述的交互式语音识别方法,其特征在于,在识别过程中当待识别对象发生切换时,通过交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
18.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤300中,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
19.根据权利要求18所述的交互式语音识别方法,其特征在于,对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
20.根据权利要求19所述的交互式语音识别方法,其特征在于,所述固定长的音频的长度值为3秒。
21.根据权利要求13所述的交互式语音识别方法,其特征在于,所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
22.根据权利要求21所述的交互式语音识别方法,其特征在于,所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
23.根据权利要求13所述的交互式语音识别方法,其特征在于,所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
24.根据权利要求23所述的交互式语音识别方法,其特征在于,所述步骤600中,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
25.根据权利要求23所述的交互式语音识别方法,其特征在于,所述步骤600中,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102693069A CN101923854B (zh) | 2010-08-31 | 2010-08-31 | 一种交互式语音识别系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102693069A CN101923854B (zh) | 2010-08-31 | 2010-08-31 | 一种交互式语音识别系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101923854A true CN101923854A (zh) | 2010-12-22 |
CN101923854B CN101923854B (zh) | 2012-03-28 |
Family
ID=43338740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102693069A Active CN101923854B (zh) | 2010-08-31 | 2010-08-31 | 一种交互式语音识别系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101923854B (zh) |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324233A (zh) * | 2011-08-03 | 2012-01-18 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN103035243A (zh) * | 2012-12-18 | 2013-04-10 | 中国科学院自动化研究所 | 长语音连续识别及识别结果实时反馈方法和系统 |
CN103165129A (zh) * | 2011-12-13 | 2013-06-19 | 北京百度网讯科技有限公司 | 一种优化语音识别声学模型的方法及系统 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN103543929A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种语音识别及输入方法和装置 |
CN103594086A (zh) * | 2013-10-25 | 2014-02-19 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统、装置及方法 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
WO2014101717A1 (zh) * | 2012-12-28 | 2014-07-03 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN104011735A (zh) * | 2011-12-26 | 2014-08-27 | 英特尔公司 | 基于车辆的对乘员音频和可视输入的确定 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
WO2014180218A1 (zh) * | 2013-05-07 | 2014-11-13 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN104221078A (zh) * | 2012-04-09 | 2014-12-17 | 歌乐株式会社 | 声音识别服务器综合装置以及声音识别服务器综合方法 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
CN104538032A (zh) * | 2014-12-19 | 2015-04-22 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
CN105027198A (zh) * | 2013-02-25 | 2015-11-04 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105469801A (zh) * | 2014-09-11 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN105957531A (zh) * | 2016-04-25 | 2016-09-21 | 上海交通大学 | 基于云平台的演讲内容提取方法及装置 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106548774A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 语音识别的设备和方法以及训练变换参数的设备和方法 |
CN103956169B (zh) * | 2014-04-17 | 2017-07-21 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN106992007A (zh) * | 2017-03-28 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 基于语音识别打分系统的数据处理方法和装置 |
CN107210036A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议词语云 |
CN107240398A (zh) * | 2017-07-04 | 2017-10-10 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN107316639A (zh) * | 2017-05-19 | 2017-11-03 | 北京新美互通科技有限公司 | 一种基于语音识别的信息输入方法及装置,电子设备 |
CN107704549A (zh) * | 2017-09-26 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 语音搜索方法、装置及计算机设备 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN108335692A (zh) * | 2018-03-21 | 2018-07-27 | 上海木爷机器人技术有限公司 | 一种语音切换方法、服务器及系统 |
CN108399912A (zh) * | 2018-03-21 | 2018-08-14 | 上海木爷机器人技术有限公司 | 一种机器人的语音切换方法、服务器及系统 |
CN108470563A (zh) * | 2018-03-21 | 2018-08-31 | 上海木爷机器人技术有限公司 | 一种语音交互中的语音切换方法、服务器及系统 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN109036379A (zh) * | 2018-09-06 | 2018-12-18 | 百度时代网络技术(北京)有限公司 | 语音识别方法、设备及存储介质 |
CN109243461A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN110060687A (zh) * | 2016-09-05 | 2019-07-26 | 北京金山软件有限公司 | 一种语音信息转换、信息生成方法及装置 |
CN110379415A (zh) * | 2019-07-24 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
CN110427459A (zh) * | 2019-08-05 | 2019-11-08 | 苏州思必驰信息科技有限公司 | 语音识别网络的可视化生成方法、系统及平台 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
CN110689881A (zh) * | 2018-06-20 | 2020-01-14 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN110808049A (zh) * | 2018-07-18 | 2020-02-18 | 深圳市北科瑞声科技股份有限公司 | 语音标注文本修正方法、计算机设备和存储介质 |
CN111292746A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种基于人机交互的语音输入转换系统 |
CN111415653A (zh) * | 2018-12-18 | 2020-07-14 | 百度在线网络技术(北京)有限公司 | 用于识别语音的方法和装置 |
CN111599363A (zh) * | 2019-02-01 | 2020-08-28 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
CN111883133A (zh) * | 2020-07-20 | 2020-11-03 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN111883101A (zh) * | 2020-07-13 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN111986656A (zh) * | 2020-08-31 | 2020-11-24 | 上海松鼠课堂人工智能科技有限公司 | 教学视频自动字幕处理方法与系统 |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN112863531A (zh) * | 2021-01-12 | 2021-05-28 | 蒋亦韬 | 通过计算机识别后重新生成进行语音音频增强的方法 |
CN113223500A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、训练语音识别模型的方法及对应装置 |
CN113299283A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 语音识别方法、系统、装置及介质 |
CN113763925A (zh) * | 2021-05-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
US11842726B2 (en) | 2021-02-26 | 2023-12-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device and storage medium for speech recognition |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173266B1 (en) * | 1997-05-06 | 2001-01-09 | Speechworks International, Inc. | System and method for developing interactive speech applications |
EP0925578B1 (de) * | 1996-09-03 | 2002-03-27 | Siemens Aktiengesellschaft | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
CN1811697A (zh) * | 2005-01-27 | 2006-08-02 | 台达电子工业股份有限公司 | 手持随身装置的语音输入方法及系统 |
CN1867966A (zh) * | 2003-10-03 | 2006-11-22 | 旭化成株式会社 | 数据处理单元和数据处理单元控制程序 |
CN101253548A (zh) * | 2005-08-31 | 2008-08-27 | 微软公司 | 将语音引擎训练结合入交互式用户教学系统 |
-
2010
- 2010-08-31 CN CN2010102693069A patent/CN101923854B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0925578B1 (de) * | 1996-09-03 | 2002-03-27 | Siemens Aktiengesellschaft | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
US6173266B1 (en) * | 1997-05-06 | 2001-01-09 | Speechworks International, Inc. | System and method for developing interactive speech applications |
JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
CN1867966A (zh) * | 2003-10-03 | 2006-11-22 | 旭化成株式会社 | 数据处理单元和数据处理单元控制程序 |
CN1811697A (zh) * | 2005-01-27 | 2006-08-02 | 台达电子工业股份有限公司 | 手持随身装置的语音输入方法及系统 |
CN101253548A (zh) * | 2005-08-31 | 2008-08-27 | 微软公司 | 将语音引擎训练结合入交互式用户教学系统 |
Non-Patent Citations (1)
Title |
---|
《JCPC 2009 JOINT CONF. ON PERVASIVE COMPUTING》 20091231 LI XH ET AL Candidate generation for interactive Chinese speech recognition 583-587 1-25 , 2 * |
Cited By (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324233A (zh) * | 2011-08-03 | 2012-01-18 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN102324233B (zh) * | 2011-08-03 | 2014-05-07 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
CN103165129B (zh) * | 2011-12-13 | 2015-07-01 | 北京百度网讯科技有限公司 | 一种优化语音识别声学模型的方法及系统 |
CN103165129A (zh) * | 2011-12-13 | 2013-06-19 | 北京百度网讯科技有限公司 | 一种优化语音识别声学模型的方法及系统 |
CN104011735A (zh) * | 2011-12-26 | 2014-08-27 | 英特尔公司 | 基于车辆的对乘员音频和可视输入的确定 |
US9524718B2 (en) | 2012-04-09 | 2016-12-20 | Clarion Co., Ltd. | Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method |
CN104221078B (zh) * | 2012-04-09 | 2016-11-02 | 歌乐株式会社 | 声音识别服务器综合装置以及声音识别服务器综合方法 |
CN104221078A (zh) * | 2012-04-09 | 2014-12-17 | 歌乐株式会社 | 声音识别服务器综合装置以及声音识别服务器综合方法 |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
CN104508739B (zh) * | 2012-06-21 | 2017-11-07 | 谷歌公司 | 动态语言模型 |
CN103543929A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种语音识别及输入方法和装置 |
CN103543929B (zh) * | 2012-07-12 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别及输入方法和装置 |
CN102915731A (zh) * | 2012-10-10 | 2013-02-06 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
CN103871403B (zh) * | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
CN103035243A (zh) * | 2012-12-18 | 2013-04-10 | 中国科学院自动化研究所 | 长语音连续识别及识别结果实时反馈方法和系统 |
WO2014101717A1 (zh) * | 2012-12-28 | 2014-07-03 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
US9564127B2 (en) | 2012-12-28 | 2017-02-07 | Iflytek Co., Ltd. | Speech recognition method and system based on user personalized information |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
CN105027198A (zh) * | 2013-02-25 | 2015-11-04 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
WO2014180218A1 (zh) * | 2013-05-07 | 2014-11-13 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN103474069B (zh) * | 2013-09-12 | 2016-03-30 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN103594086A (zh) * | 2013-10-25 | 2014-02-19 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统、装置及方法 |
CN103594086B (zh) * | 2013-10-25 | 2016-08-17 | 海菲曼(天津)科技有限公司 | 语音处理系统、装置及方法 |
CN103956169B (zh) * | 2014-04-17 | 2017-07-21 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN104036774B (zh) * | 2014-06-20 | 2018-03-06 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN105469801B (zh) * | 2014-09-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
CN105469801A (zh) * | 2014-09-11 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
CN104464736B (zh) * | 2014-12-15 | 2018-02-02 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN104538032A (zh) * | 2014-12-19 | 2015-04-22 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
CN104538032B (zh) * | 2014-12-19 | 2018-02-06 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
CN107210036B (zh) * | 2015-02-03 | 2021-02-26 | 杜比实验室特许公司 | 会议词语云 |
CN107210036A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议词语云 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105206267B (zh) * | 2015-09-09 | 2019-04-02 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN106548774A (zh) * | 2015-09-18 | 2017-03-29 | 三星电子株式会社 | 语音识别的设备和方法以及训练变换参数的设备和方法 |
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN105957531A (zh) * | 2016-04-25 | 2016-09-21 | 上海交通大学 | 基于云平台的演讲内容提取方法及装置 |
WO2017215122A1 (zh) * | 2016-06-16 | 2017-12-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法、装置和存储介质 |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
US10847146B2 (en) | 2016-06-16 | 2020-11-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Multiple voice recognition model switching method and apparatus, and storage medium |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN110060687A (zh) * | 2016-09-05 | 2019-07-26 | 北京金山软件有限公司 | 一种语音信息转换、信息生成方法及装置 |
CN106992007B (zh) * | 2017-03-28 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于语音识别打分系统的数据处理方法和装置 |
CN106992007A (zh) * | 2017-03-28 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 基于语音识别打分系统的数据处理方法和装置 |
CN107316639A (zh) * | 2017-05-19 | 2017-11-03 | 北京新美互通科技有限公司 | 一种基于语音识别的信息输入方法及装置,电子设备 |
CN107240398B (zh) * | 2017-07-04 | 2020-11-17 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN107240398A (zh) * | 2017-07-04 | 2017-10-10 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN107704549A (zh) * | 2017-09-26 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 语音搜索方法、装置及计算机设备 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN108335692A (zh) * | 2018-03-21 | 2018-07-27 | 上海木爷机器人技术有限公司 | 一种语音切换方法、服务器及系统 |
CN108399912A (zh) * | 2018-03-21 | 2018-08-14 | 上海木爷机器人技术有限公司 | 一种机器人的语音切换方法、服务器及系统 |
CN108470563A (zh) * | 2018-03-21 | 2018-08-31 | 上海木爷机器人技术有限公司 | 一种语音交互中的语音切换方法、服务器及系统 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN108597502A (zh) * | 2018-04-27 | 2018-09-28 | 上海适享文化传播有限公司 | 基于对抗训练的领域语音识别训练方法 |
CN110556097B (zh) * | 2018-06-01 | 2023-10-13 | 声音猎手公司 | 定制声学模型 |
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
US11830472B2 (en) | 2018-06-01 | 2023-11-28 | Soundhound Ai Ip, Llc | Training a device specific acoustic model |
CN110689881A (zh) * | 2018-06-20 | 2020-01-14 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN110808049A (zh) * | 2018-07-18 | 2020-02-18 | 深圳市北科瑞声科技股份有限公司 | 语音标注文本修正方法、计算机设备和存储介质 |
CN110808049B (zh) * | 2018-07-18 | 2022-04-26 | 深圳市北科瑞声科技股份有限公司 | 语音标注文本修正方法、计算机设备和存储介质 |
CN109036379A (zh) * | 2018-09-06 | 2018-12-18 | 百度时代网络技术(北京)有限公司 | 语音识别方法、设备及存储介质 |
CN109243461A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109243461B (zh) * | 2018-09-21 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN111415653A (zh) * | 2018-12-18 | 2020-07-14 | 百度在线网络技术(北京)有限公司 | 用于识别语音的方法和装置 |
CN111415653B (zh) * | 2018-12-18 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 用于识别语音的方法和装置 |
CN111599363A (zh) * | 2019-02-01 | 2020-08-28 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111599363B (zh) * | 2019-02-01 | 2023-03-31 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
CN110379415B (zh) * | 2019-07-24 | 2022-02-18 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
CN110379415A (zh) * | 2019-07-24 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 领域自适应声学模型的训练方法 |
CN110427459A (zh) * | 2019-08-05 | 2019-11-08 | 苏州思必驰信息科技有限公司 | 语音识别网络的可视化生成方法、系统及平台 |
CN110427459B (zh) * | 2019-08-05 | 2021-09-17 | 思必驰科技股份有限公司 | 语音识别网络的可视化生成方法、系统及平台 |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN112530417B (zh) * | 2019-08-29 | 2024-01-26 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN110491383B (zh) * | 2019-09-25 | 2022-02-18 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN111292746A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种基于人机交互的语音输入转换系统 |
CN111883101A (zh) * | 2020-07-13 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN111883101B (zh) * | 2020-07-13 | 2024-02-23 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN111883133B (zh) * | 2020-07-20 | 2023-08-29 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN111883133A (zh) * | 2020-07-20 | 2020-11-03 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN111986656A (zh) * | 2020-08-31 | 2020-11-24 | 上海松鼠课堂人工智能科技有限公司 | 教学视频自动字幕处理方法与系统 |
CN112863531A (zh) * | 2021-01-12 | 2021-05-28 | 蒋亦韬 | 通过计算机识别后重新生成进行语音音频增强的方法 |
US11842726B2 (en) | 2021-02-26 | 2023-12-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device and storage medium for speech recognition |
CN113223500A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、训练语音识别模型的方法及对应装置 |
CN113299283A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 语音识别方法、系统、装置及介质 |
CN113299283B (zh) * | 2021-04-28 | 2023-03-10 | 上海淇玥信息技术有限公司 | 语音识别方法、系统、装置及介质 |
CN113763925A (zh) * | 2021-05-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN113763925B (zh) * | 2021-05-26 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101923854B (zh) | 2012-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101923854B (zh) | 一种交互式语音识别系统和方法 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
CN107665708B (zh) | 智能语音交互方法及系统 | |
CN105096941B (zh) | 语音识别方法以及装置 | |
US8532994B2 (en) | Speech recognition using a personal vocabulary and language model | |
CN105405439B (zh) | 语音播放方法及装置 | |
JP6462651B2 (ja) | 音声翻訳装置、音声翻訳方法及びプログラム | |
CN100536532C (zh) | 自动加配字幕的方法和系统 | |
CN102122506B (zh) | 一种语音识别的方法 | |
Landini et al. | Analysis of the but diarization system for voxconverse challenge | |
CN109243460A (zh) | 一种自动生成基于地方方言的讯或询问笔录的方法 | |
CN110070855A (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN103377651A (zh) | 语音自动合成装置及方法 | |
Ando et al. | Real-time transcription system for simultaneous subtitling of Japanese broadcast news programs | |
WO2023184942A1 (zh) | 语音交互方法、装置及电器 | |
CN111128175B (zh) | 口语对话管理方法及系统 | |
Lanchantin et al. | The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
Yamasaki et al. | Transcribing And Aligning Conversational Speech: A Hybrid Pipeline Applied To French Conversations | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
Yang et al. | Essence knowledge distillation for speech recognition | |
CN107180629B (zh) | 一种语音采集识别方法与系统 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
CN114372476A (zh) | 语义截断检测方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |