CN101923854B - 一种交互式语音识别系统和方法 - Google Patents

一种交互式语音识别系统和方法 Download PDF

Info

Publication number
CN101923854B
CN101923854B CN2010102693069A CN201010269306A CN101923854B CN 101923854 B CN101923854 B CN 101923854B CN 2010102693069 A CN2010102693069 A CN 2010102693069A CN 201010269306 A CN201010269306 A CN 201010269306A CN 101923854 B CN101923854 B CN 101923854B
Authority
CN
China
Prior art keywords
acoustic model
module
speech
interactive
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102693069A
Other languages
English (en)
Other versions
CN101923854A (zh
Inventor
李新辉
王向东
钱跃良
林守勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2010102693069A priority Critical patent/CN101923854B/zh
Publication of CN101923854A publication Critical patent/CN101923854A/zh
Application granted granted Critical
Publication of CN101923854B publication Critical patent/CN101923854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。

Description

一种交互式语音识别系统和方法
技术领域
本发明涉及语音识别技术领域,特别是涉及一种交互式语音识别系统和方法。
背景技术
目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,面向真实场景的大词汇量连续语音识别系统的性能远远无法满足实际应用要求。
在已有的语音识别系统中,已经出现了一些交互技术,主要是错误纠正技术,即在一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方式,包括单词重新发音(re-speaking),单词拼写(spelling),键盘输入、手写输入等。近期语音识别系统中主要采用候选选择修正技术,系统对每个单词给出多个候选,并提供相应的交互界面,允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该系统针对无噪声的朗读语音,可以达到实时应用并能够修正大部分识别错误。总的来说,现有语音识别系统中的交互技术多数集中在对识别结果的修正上,缺乏利用多种交互手段,以及利用交互信息进行自动学习的相关系统。
在语音识别技术中,存在一种识别中的自动学习技术,称作模型自适应技术。模型自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一种估计某种声学信号对应某个发音的概率的模型。声学模型自适应,主要是说话人自适应,即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等),对基础声学模型进行调整,以得到更适合当前说话人的模型。按照自适应训练过程有无监督,自适应可以分为:(1)有监督自适应:自适应训练过程中训练语音的内容对于系统是已知的;(2)无监督自适应:自适应训练过程中训练语音的内容对于系统是未知的,需要由系统通过识别获得。显然,有监督自适应由于语音与文本信息是已知的,因此对声学模型的自适应训练更为可靠,其性能要远远优于无监督自适应,特别是在发音不够标准的情况下。但由于很难在识别的同时获得准确的文本信息,因此现有语音识别系统中的声学模型自适应都以无监督自适应为主。
语音识别系统中的语言模型是一种估计某种发音对应某个具体字或词的概率的模型。语言模型自适应的基本思想是,根据不断变化的应用环境,不断调整语言模型中各种语言现象出现的概率,以适应不同应用环境各自的特征。与声学模型自适应类似,可根据语料的可靠性将语言模型自适应分为有监督与无监督自适应,前者采用的为可靠的文本,而后者则动态的将系统识别结果作为自适应语料。显然,有监督自适应的效果要优于无监督自适应,但由于一般的语音识别应用在识别过程中很难得到标准答案,因此绝大多数系统都采用无监督自适应。
另外,对于同时存在多个说话人的语音,如广播语音和会议语音,语音识别系统在做语音识别和自适应时还需要对说话人进行分割和跟踪,以保证自适应在同一个说话人的语音上完成。现有的语音识别系统都是通过系统自动识别来对说话人进行分割和跟踪,这种识别不但消耗了大量的计算资源,而且其结果也不是很准确,错误的结果很可能导致系统性能的恶化。
发明内容
本发明的目的在于提供一种交互式语音识别系统和方法。通过交互的方式,使得语音识别系统输出的候选越来越准确。
为实现本发明的目的而提供的一种交互式语音识别系统,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
所述系统,包括:
声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。
在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
所述固定长的音频的长度值为3秒。
所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
当自适应结束后,所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
为实现本发明的目的,还提供一种交互式语音识别方法,所述方法,包括下列步骤:
步骤100.在语音识别开始前,通过交互模块输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型;
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对所述语音语句进行识别,并输出中间识别结果,发送给候选生成与错误修正模块;
步骤400.所述候选生成与错误修正模块对所述中间识别结果进行处理生成候选集;
步骤500.用户通过交互模块选择候选或者输入正确数据来纠正识别错误得到最终识别结果,并输出最终识别结果。
所述方法,包括:
步骤100’.根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型。
在步骤200中,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
在步骤200中,通过输入特定人的姓名,所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。
在识别过程中当待识别对象发生切换时,通过交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
在步骤300中,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
所述固定长的音频的长度值为3秒。
所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
所述步骤600中,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
所述步骤600中,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
本发明的有益效果是:
1.本发明的交互式语音识别系统和方法,通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并采用交互方式选择候选或从终端输入正确数据来修正识别错误;
2.本发明的交互式语音识别系统和方法,根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确;
3.本发明的交互式语音识别系统和方法,是对当前大词汇量连续语音识别在实际应用中的发展和创新,具有重要的商业价值和产业应用前景。同时,对语音识别在其他方向(如实时字幕生成,图书馆音频资料整理等)的应用具有实际的借鉴意义。
附图说明
图1是本发明的交互式语音识别系统的结构示意图;
图2是本发明中对语音语句进行提取的示意图;
图3是本发明中声学模型和语言模型选择及开启识别服务的示意图;
图4是本发明中字候选生成的示意图;
图5是采用本发明的系统和方法的识别错误修正示意图;
图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图;
图7是本发明的交互式语音识别方法的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种交互式语音识别系统和方法进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的一种交互式语音识别系统和方法。其核心是通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并通过选择候选或从系统输入的方式来修正识别错误。同时,还可针对当前语音的特点给出一点的指导信息,使系统根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确。这就相当于把无监督的自适应变成了有监督的自适应,把非特定人的语音识别变成了准特定人的语音识别。
下面结合上述目标详细介绍本发明的交互式语音识别系统,图1是本发明的交互式语音识别系统的结构示意图,如图1所示,所述系统1,主要包括六个模块:声学模型和语言模型选择模块11、语音语句提取模块12、语音识别模块13、候选生成与错误修正模块14,声学模型和语言模型自适应模块15和交互模块16,其中:
所述声学模型和语言模型选择模块11,用于根据输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
在大多数语音识别应用场合中,语音识别的对象是比较固定的,且语音内容涉及的领域也是比较单一的,如使用语音识别对某一关于经济领域的会议进行会议记录,该会议中的识别对象会议参加者是比较固定的,并且会议语音内容基本都是有关经济领域的话题。因此在本发明的交互式语音识别系统中,采用声学模型和语言模型选择的方法为每个识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。
所述语音语句提取模块12,用于将输入的整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来;
图2是本发明中对语音语句进行提取的示意图,如图2所示,在大词汇量连续语音识别中,一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前,需要采用某种方法将整段语音切分成若干个语音语句,然后再将每一个语音语句提取出来进行识别。
所述语音识别模块13,用于为每个待识别对象开启一个识别线程,对语音语句提取模块12提取后得到的语音语句进行识别;
图3是本发明中声学模型和语言模型选择及开启识别服务的示意图,如图3所示,识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与识别对象对应的声学模型和语言模型。在开启所有识别线程之后,语音识别模块就对经语音语句提取模块提取后得到的语音语句进行识别,并输出识别结果。在该模块中,语音识别输出的识别结果为词网格,词网格是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。在语音识别模块中,对于每个识别对象的语音语句都用与之对应的识别线程进行识别。
所述候选生成与错误修正模块14,用于根据汉语的语言特点,对所述语音识别模块13生成的汉语词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选;以及对于每处识别错误,从对应候选列中查找正确的字来修正识别错误,或者通过输入正确的字来修正识别错误。
图4是本发明中字候选生成的示意图,图5是采用本发明的系统和方法的识别错误修正示意图,如图4和图5所示,在交互式语音识别系统中,候选生成是非常重要的一个环节,因为供选择的候选的质量直接影响着整个系统的性能和工作效率。在该模块中,根据汉语的语言特点,采用了一种基于字候选的汉语候选生成方法。该方法首先对语音识别模块生成的汉语词网格中的弧对齐生成一个对齐网络;然后,对该对齐网络按字切分得到字候选。使用该方法生成的候选满足以下三个性质:(1)具有竞争关系的字候选排列在同一字候选列中;(2)字候选列的排列顺序和他们识别的先后时间一致;(3)每个字候选列中的字候选按照他们在词网格中的得分从大到小排列。在系统中,候选生成和错误修正模块除了提供候选生成的功能外,还提供了错误修正的功能。对于每处识别错误,先从对应候选列中查找正确的字,如果正确的字出现在候选列中,可通过选择正确候选字来修正识别错误,如果正确的字未出现在候选列中,则可通过输入正确的字来修正识别错误。因此,修正后的识别结果不包含任何错误。
所述声学模型和语言模型自适应模块15,用于利用修正性的交互信息,对所述声学模型和语言模型进行有监督自适应。
图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图,如图6所示,在自动语音识别中,尽管有监督声学模型和语言模型自适应的效果要好于无监督自适应,但是大多数系统采用的自适应都为无监督自适应,这主要是因为有监督自适应的已知语料相对比较难获得。不同于自动语音识别,在本发明的交互式语音识别系统中,系统对所有语音语句识别生成的识别结果都会经过修正,将识别结果中的错误修正过来。因此,在交互式语音识别系统中,利用修正性的交互信息,可以对系统中的声学模型和语言模型进行有监督自适应。声学模型和语言模型自适应模块就是利用交互信息对声学模型和语言模型进行有监督自适应。
在该模块中,首先为每个识别对象收集经语音语句提取模块提取后的语音语句,以及收集对该语音语句识别并经修正后的识别结果。然后,利用收集到的语音语料和对应的修正后识别结果,为每个识别对象所对应的声学模型作有监督声学模型自适应。
所述交互模块16,用于将用户的输入信息发送给所述声学模型和语言模型选择模块11,以及向用户反馈所述字候选生成和错误修正模块14的识别结果。
如图1所示,在语音识别开始前,通过交互模块16向系统输入能反映待识别对象发音特点的信息,如性别、地域口音等信息,和输入待识别对象将主要讨论的主题信息,如政治、经济、科技等信息;所述声学模型和语言模型选择模块11根据输入信息为每个待识别对象选择最匹配的声学模型和语言模型。对于特定的识别对象,可以通过向系统输入该对象的姓名,根据姓名为该对象选择特定的声学模型。在为每个待识别对象选择最匹配的声学模型和语言模型之后,所述语音识别模块13根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程。在语音识别过程中,语音信号经语音语句提取模块11转化为语句送至语音识别模块13,语音识别模块13生成识别中间结果词网格,所述字候选生成和错误修正模块14对识别中间结果词网格进行处理生成候选,通过选择候选或终端输入来纠正识别错误得到最终识别结果。同时,所述声学模型和语言模型自适应模块15利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
相应于本发明的交互式语音识别系统,还提供一种交互式语音识别方法,图7是本发明的交互式语音识别方法的步骤流程图,如图7所示,所述方法,包括下列步骤:
步骤100’.系统根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型;
如图3所示,作为一种可实施方式,本发明的交互式语音识别系统根据待识别对象的性别和地域口音预先训练多个声学模型(如北方男声声学模型、北方女声声学模型、南方男声声学模型、南方女声声学模型等)以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型(如有关政治主题的语言模型、有关经济主题的语言模型、有关科技主题的语言模型、有关体育主题的语言模型等)和一个通用语言模型。
步骤100.在语音识别开始前,输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型,并为每个待识别对象开启一个识别线程;
在语音识别开始前,针对发言者比较固定和语音内容比较单一的应用环境,向系统输入所有待发言者的地域口音和性别信息以及将要谈论的领域信息,系统根据输入的信息为每个待发言者选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。否则,对于发言者不够稳定和语音内容涉及领域比较多变的应用环境,系统将为每个发言者都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
较佳地,系统还可以为某些特定的人训练一个特定人声学模型,通过向系统输入特定人的姓名,系统根据姓名为该特定人选择与之对应的特定人声学模型。在选择完声学模型和语言模型后,系统为每个待发言者开启一个识别线程,识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与发言者对应的声学模型和语言模型。在识别过程中,对每个发言者的语音语句都用与之对应的识别线程进行识别。
当在识别过程中当发言者发生切换时,向系统指示所切换到的当前发言者,系统根据指导信息将提取到语音语句送到与当前发言者所对应的识别线程进行识别。
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块生成识别中间结果词网格,发送给候选生成与错误修正模块;
如图2所示,在大词汇量连续语音识别中,一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前,需要采用某种方法将整段语音切分成若干个语音语句,然后再将每一个语音语句提取出来进行识别。作为一种可实施方式,在本发明的方法中,发言者的语音输入既可以是事先录好的音频文件输入,又可以是实时的语音输入。对于音频文件输入,本发明直接采用端点检测方法对输入的音频文件进行端点检测提取所有的语音语句;对于实时的语音输入,本发明实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
在一些实时应用中,要求对实时输入的语音进行实时的识别,这就要求系统能够对实时输入的语音实时地提取语音语句。因此,为了能够满足实时地提取语音语句,本发明采用分段采集和缓冲池的方法,即每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。然而,音频固定长度的设定问题成了关键,长度过长使得端点检测等待时间过长而影响实时性,长度过短使得端点检测做了过多的无用检测从而降低系统资源的利用率。本发明设定的长度值为3秒,因为根据实验的统计大部分一句话都在3秒钟内。
步骤400.所述候选生成与错误修正模块对所述中间结果词网格进行处理生成候选集;
如图4所示,作为一种可实施方式,本发明采用一种基于字候选的汉语候选生成方法来生成字候选。该方法首先对语音识别模块生成的中间结果词网格中的弧对齐生成一个对齐网络;然后,对该对齐网络按字切分得到字候选。图4(a)表示为汉语词网格,词网格是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示,其中每条弧都可用一个五元组{S,F,W,A,L}来表示,其中S表示弧的起始时间,F表示弧的结束时间,W表示弧上对应的词假设,A表示弧的声学概率得分,L表示弧的语言概率得分。将满足以下两个条件的弧对齐为一类:(1)弧上对应词假设的最后一个汉字存在语音相似。(2)弧之间存在时间重叠。图4(b)为对图4(a)中的汉语词网格对齐后得到的对齐网络,图中每类词假设中的最后一个汉字都具有语音相似性,且对应弧都具有时间重叠性。在得到对齐网络的基础上,对对齐网络按字切分。首先从第一类开始切分,当某一类中的词假设由多个汉字组成时,则将倒数第二个汉字切分到前一类,倒数第三个汉字切分到前前一类,按该方式切分下去直到剩下最后一个汉字。图4(c)为图4(b)中的对齐网络按字切分得到的字候选。在得到的字候选中,每个字都具有语音相似性。
步骤500.用户通过交互模块选择候选或者输入来纠正识别错误得到最终识别结果,并输出识别文本。
如图5所示,在交互式语音识别系统中,首先通过选择候选集中的字候选来修正识别错误,如图5所示,通过选择“的”来修正识别错误“得”。在通过选择字候选修正识别错误后,对于那些不能通过选择字候选进行修正的识别错误,可输入正确的字来修正识别错误,如在图5中通过输入“方”来修正识别错误“防”。最后得到完全正确的识别结果。
较佳地,所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
如图6所示,在交互式语音识别系统中,发言者的语音经语音语句提取模块提取后得到的语音语句一路经语音识别模块—候选生成与错误修正模块得到最终识别结果,另一路与对应的最终识别结果一起供系统进行声学模型和语言模型自适应。作为一种可实施方式,在本发明的交互式语音识别系统中,系统为每个发言者收集经语音语句提取模块提取后的语音语句,以及对该语音语句识别并经修正后的识别结果;然后,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应。同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。对于在线的声学模型和语言模型自适应,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。无论是在线自适应还是离线自适应,系统都将保留自适应后的声学模型并与对应的识别对象姓名建立对应关系,当以后再出现该识别对象时只需输入识别对象姓名就可以选择该自适应后的声学模型。
下面以使用本发明中的交互式语音识别系统对会议进行会议记录为例详细说明本发明。例如某次会议有4个会议参加者,其中:王某,男性,北方人;刘某,女性,北方人;谢某,男性,南方人;张某,女性,南方人。此次会议的主题是有关经济领域的一个研讨会。使用本发明中的交互式语音识别系统对本次会议进行会议记录。
目前系统具有5个声学模型(北方男性声学模型,北方女性声学模型,南方男性声学模型,南方女性声学模型,以及一个通用声学模型)和4个语言模型(有关政治领域语言模型,有关经济领域语言模型,有关科技领域语言模型,以及一个通用语言模型)。在会议开始前,向系统输入4个会议参加者的信息(如,王某,男,北方口音)和本次会议主题领域经济,系统根据输入的信息为王某选择北方男性声学模型,为刘某选择北方女性声学模型,为谢某选择南方男性声学模型,为张某选择南方女性声学模型,并且为所有参加者都选择有关经济领域语言模型。在选择完模型后,系统为每个会议参加者开启一个识别线程,等待识别。
在会议中,王某首先进行了发言,系统启动北方男性声学模型对应的线程接受语音进行识别。王某的第一句话为“大家上午好”,系统分别采集了三段音频,系统对该三段音频进行端点检测,在第二段中检测到了这句话的语音起始点,在第三段中检测到了这句话的语音结束点。系统根据检测到起始点和结束点提取该句语音语句,提取到的语音语句一方面送给王某对应的识别线程进行识别,一方面保存到系统中。王某对应的识别线程对该语音语句识别后生成汉语词网格,系统采用字候选生成方法对该词网格生成候选集如下:
大  家  商  务  好
打  架  上  午
加  晌
通过选择第二列字候选中的“上”,和第三列字候选中的“午”来修正识别错误,最终得到正确识别结果。对于得到的最终识别结果一方面输出得到会议记录,一方面保存到系统中。
在会议中,王某发言结束后,谢某进行了发言,立即通过交互模块向系统指示当前发言人为谢某。此后,系统对谢某的发言提取到的语音语句会发送到谢某所对应的识别线程进行识别。同样,系统一方面输出最终识别结果得到会议记录,一方面保存谢某的语音语句和对应最终识别结果。
在会议中,当系统为王某保存的语音语句超过一定量时,系统利用王某的语音语句和对应的最终识别结果对王某所对应的北方男性声学模型做有监督自适应。并为自适应后得到的北方男性声学模型开启识别线程,同时关闭王某先前对应的识别线程。此后,王某的语音语句都由新开启的识别线程识别。
在会议中,当系统为所有会议参加者保存的最终识别结果(以句为单位)超过一定量时,系统利用保存的所有参加者的识别结果对有关经济领域语言模型做有监督自适应。利用自适应得到的语言模型为所有会议参加者开启新的识别线程,关闭先前的识别线程。
此外,也可以在会议结束后再为所有会议参加者做声学模型有监督自适应,为有关经济领域语言模型做有监督自适应。
最后,保存王某、刘某、谢某、张某的自适应后声学模型,并分别与他们的姓名建立对应关系。
本发明的有益效果在于:
1.本发明的交互式语音识别系统和方法,通过应用大词汇量连续语音识别技术,对说话人语音进行识别并给出识别候选,并采用交互方式选择候选或从终端输入正确数据来修正识别错误;
2.本发明的交互式语音识别系统和方法,根据指导信息和交互信息对声学模型和语言模型进行选择和自适应,使得模型更加接近当前说话人的发音特点和语音内容,从而使系统输出的候选越来越准确;
3.本发明的交互式语音识别系统和方法,是对当前大词汇量连续语音识别在实际应用中的发展和创新,具有重要的商业价值和产业应用前景。同时,对语音识别在其他方向(如实时字幕生成,图书馆音频资料整理等)的应用具有实际的借鉴意义。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。

Claims (25)

1.一种交互式语音识别系统,其特征在于,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述候选生成与错误修正模块,用于根据汉语的语言特点,对所述中间识别结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述候选生成与错误修正模块的识别结果。
2.根据权利要求1所述的交互式语音识别系统,其特征在于,所述系统,包括:
声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
3.根据权利要求1所述的交互式语音识别系统,其特征在于,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
4.根据权利要求1所述的交互式语音识别系统,其特征在于,对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。
5.根据权利要求1所述的交互式语音识别系统,其特征在于,在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
6.根据权利要求1所述的交互式语音识别系统,其特征在于,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
7.根据权利要求6所述的交互式语音识别系统,其特征在于,对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
8.根据权利要求7所述的交互式语音识别系统,其特征在于,所述固定长的音频的长度值为3秒。
9.根据权利要求1所述的交互式语音识别系统,其特征在于,所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
10.根据权利要求9所述的交互式语音识别系统,其特征在于,所述候选生成与错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
11.根据权利要求2所述的交互式语音识别系统,其特征在于,所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
12.根据权利要求2所述的交互式语音识别系统,其特征在于,当自适应结束后,所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
13.一种交互式语音识别方法,其特征在于,所述方法,包括下列步骤:
步骤100.在语音识别开始前,通过交互模块输入能反映待识别对象发音特点的信息和将主要讨论的主题信息;
步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型;
步骤300.在语音识别过程中,语音信号经语音语句提取模块转化为语音语句送至语音识别模块,语音识别模块根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对所述语音语句进行识别,并输出中间识别结果,发送给候选生成与错误修正模块;
步骤400.所述候选生成与错误修正模块对所述中间识别结果进行处理生成候选集;
步骤500.用户通过交互模块选择候选或者输入正确数据来纠正识别错误得到最终识别结果,并输出最终识别结果。
14.根据权利要求13所述的交互式语音识别方法,其特征在于,所述方法,包括:
步骤100’.根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型;并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型。
15.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤200中,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
16.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤200中,通过输入特定人的姓名,所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。
17.根据权利要求13所述的交互式语音识别方法,其特征在于,在识别过程中当待识别对象发生切换时,通过交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
18.根据权利要求13所述的交互式语音识别方法,其特征在于,在步骤300中,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
19.根据权利要求18所述的交互式语音识别方法,其特征在于,对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
20.根据权利要求19所述的交互式语音识别方法,其特征在于,所述固定长的音频的长度值为3秒。
21.根据权利要求13所述的交互式语音识别方法,其特征在于,所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
22.根据权利要求21所述的交互式语音识别方法,其特征在于,所述候选生成与错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
23.根据权利要求13所述的交互式语音识别方法,其特征在于,所述方法,还包括步骤:
步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
24.根据权利要求23所述的交互式语音识别方法,其特征在于,所述步骤600中,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
25.根据权利要求23所述的交互式语音识别方法,其特征在于,所述步骤600中,当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。
CN2010102693069A 2010-08-31 2010-08-31 一种交互式语音识别系统和方法 Active CN101923854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102693069A CN101923854B (zh) 2010-08-31 2010-08-31 一种交互式语音识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102693069A CN101923854B (zh) 2010-08-31 2010-08-31 一种交互式语音识别系统和方法

Publications (2)

Publication Number Publication Date
CN101923854A CN101923854A (zh) 2010-12-22
CN101923854B true CN101923854B (zh) 2012-03-28

Family

ID=43338740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102693069A Active CN101923854B (zh) 2010-08-31 2010-08-31 一种交互式语音识别系统和方法

Country Status (1)

Country Link
CN (1) CN101923854B (zh)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324233B (zh) * 2011-08-03 2014-05-07 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
CN103165129B (zh) * 2011-12-13 2015-07-01 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
BR112014015844A8 (pt) * 2011-12-26 2017-07-04 Intel Corp determinação das entradas de áudio e visuais de ocupantes baseada em veículo
JP5957269B2 (ja) 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
CN103543929B (zh) * 2012-07-12 2016-12-21 百度在线网络技术(北京)有限公司 一种语音识别及输入方法和装置
CN102915731B (zh) * 2012-10-10 2019-02-05 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103035243B (zh) * 2012-12-18 2014-12-24 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
CN103247291B (zh) * 2013-05-07 2016-01-13 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
CN103594086B (zh) * 2013-10-25 2016-08-17 海菲曼(天津)科技有限公司 语音处理系统、装置及方法
CN103956169B (zh) * 2014-04-17 2017-07-21 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN105469801B (zh) * 2014-09-11 2019-07-12 阿里巴巴集团控股有限公司 一种修复输入语音的方法及其装置
CN104464736B (zh) * 2014-12-15 2018-02-02 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN104538032B (zh) * 2014-12-19 2018-02-06 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
WO2016126768A2 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Conference word cloud
CN105206267B (zh) * 2015-09-09 2019-04-02 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
CN105845133A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN105957531B (zh) * 2016-04-25 2019-12-31 上海交通大学 基于云平台的演讲内容提取方法及装置
CN105957516B (zh) 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN106297800B (zh) * 2016-08-10 2021-07-23 中国科学院计算技术研究所 一种自适应的语音识别的方法和设备
CN110060687A (zh) * 2016-09-05 2019-07-26 北京金山软件有限公司 一种语音信息转换、信息生成方法及装置
CN106992007B (zh) * 2017-03-28 2020-07-28 百度在线网络技术(北京)有限公司 基于语音识别打分系统的数据处理方法和装置
CN107316639A (zh) * 2017-05-19 2017-11-03 北京新美互通科技有限公司 一种基于语音识别的信息输入方法及装置,电子设备
CN107240398B (zh) * 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
CN107704549A (zh) * 2017-09-26 2018-02-16 百度在线网络技术(北京)有限公司 语音搜索方法、装置及计算机设备
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN108470563B (zh) * 2018-03-21 2020-11-03 江苏木盟智能科技有限公司 一种语音交互中的语音切换方法、服务器及系统
CN108335692B (zh) * 2018-03-21 2021-03-05 上海智蕙林医疗科技有限公司 一种语音切换方法、服务器及系统
CN108399912B (zh) * 2018-03-21 2020-11-03 江苏木盟智能科技有限公司 一种机器人的语音切换方法、服务器及系统
CN108600773B (zh) * 2018-04-25 2021-08-10 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN108597502A (zh) * 2018-04-27 2018-09-28 上海适享文化传播有限公司 基于对抗训练的领域语音识别训练方法
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
CN110689881B (zh) * 2018-06-20 2022-07-12 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN109036379B (zh) * 2018-09-06 2021-06-11 百度时代网络技术(北京)有限公司 语音识别方法、设备及存储介质
CN109243461B (zh) * 2018-09-21 2020-04-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111599363B (zh) * 2019-02-01 2023-03-31 浙江大学 一种语音识别的方法及其装置
CN111611769A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种多种语言模型的文本转换方法及装置
CN110379415B (zh) * 2019-07-24 2022-02-18 出门问问(苏州)信息科技有限公司 领域自适应声学模型的训练方法
CN110427459B (zh) * 2019-08-05 2021-09-17 思必驰科技股份有限公司 语音识别网络的可视化生成方法、系统及平台
CN112530417B (zh) * 2019-08-29 2024-01-26 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN110491383B (zh) * 2019-09-25 2022-02-18 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器
CN111292746A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的语音输入转换系统
CN111883101B (zh) * 2020-07-13 2024-02-23 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质
CN111883133B (zh) * 2020-07-20 2023-08-29 深圳乐信软件技术有限公司 客服语音识别方法、装置、服务器及存储介质
CN111986656B (zh) * 2020-08-31 2021-07-30 上海松鼠课堂人工智能科技有限公司 教学视频自动字幕处理方法与系统
CN112863531A (zh) * 2021-01-12 2021-05-28 蒋亦韬 通过计算机识别后重新生成进行语音音频增强的方法
CN112767924A (zh) 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113223500B (zh) * 2021-04-12 2022-02-25 北京百度网讯科技有限公司 语音识别方法、训练语音识别模型的方法及对应装置
CN113299283B (zh) * 2021-04-28 2023-03-10 上海淇玥信息技术有限公司 语音识别方法、系统、装置及介质
CN113763925B (zh) * 2021-05-26 2024-03-12 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
EP0925578B1 (de) * 1996-09-03 2002-03-27 Siemens Aktiengesellschaft Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
CN1811697A (zh) * 2005-01-27 2006-08-02 台达电子工业股份有限公司 手持随身装置的语音输入方法及系统
CN1867966A (zh) * 2003-10-03 2006-11-22 旭化成株式会社 数据处理单元和数据处理单元控制程序
CN101253548A (zh) * 2005-08-31 2008-08-27 微软公司 将语音引擎训练结合入交互式用户教学系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0925578B1 (de) * 1996-09-03 2002-03-27 Siemens Aktiengesellschaft Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
CN1867966A (zh) * 2003-10-03 2006-11-22 旭化成株式会社 数据处理单元和数据处理单元控制程序
CN1811697A (zh) * 2005-01-27 2006-08-02 台达电子工业股份有限公司 手持随身装置的语音输入方法及系统
CN101253548A (zh) * 2005-08-31 2008-08-27 微软公司 将语音引擎训练结合入交互式用户教学系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2002-366187A 2002.12.20
LI XH ET AL.Candidate generation for interactive Chinese speech recognition.《JCPC 2009 JOINT CONF. ON PERVASIVE COMPUTING》.2009,583-587. *

Also Published As

Publication number Publication date
CN101923854A (zh) 2010-12-22

Similar Documents

Publication Publication Date Title
CN101923854B (zh) 一种交互式语音识别系统和方法
CN107437415B (zh) 一种智能语音交互方法及系统
CN107665708B (zh) 智能语音交互方法及系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN102122506B (zh) 一种语音识别的方法
CN100536532C (zh) 自动加配字幕的方法和系统
CN110992932B (zh) 一种自学习的语音控制方法、系统及存储介质
CN109243460A (zh) 一种自动生成基于地方方言的讯或询问笔录的方法
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
Ando et al. Real-time transcription system for simultaneous subtitling of Japanese broadcast news programs
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
WO2023184942A1 (zh) 语音交互方法、装置及电器
CN111128175B (zh) 口语对话管理方法及系统
Lanchantin et al. The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge
CN110853669A (zh) 音频识别方法、装置及设备
Lebourdais et al. Overlaps and gender analysis in the context of broadcast media
CN109961789A (zh) 一种基于视频及语音交互服务设备
Yamasaki et al. Transcribing And Aligning Conversational Speech: A Hybrid Pipeline Applied To French Conversations
CN107180629B (zh) 一种语音采集识别方法与系统
Yang et al. Essence knowledge distillation for speech recognition
CN111402887A (zh) 一种语音转义文字的方法及装置
CN114372476A (zh) 语义截断检测方法、装置、设备和计算机可读存储介质
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及系统
CN106971734A (zh) 一种可根据模型的提取频率训练识别模型的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant