CN103514878A - 声学建模方法及装置和语音识别方法及装置 - Google Patents

声学建模方法及装置和语音识别方法及装置 Download PDF

Info

Publication number
CN103514878A
CN103514878A CN201210217938.XA CN201210217938A CN103514878A CN 103514878 A CN103514878 A CN 103514878A CN 201210217938 A CN201210217938 A CN 201210217938A CN 103514878 A CN103514878 A CN 103514878A
Authority
CN
China
Prior art keywords
standard
language material
uproar
segment
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210217938.XA
Other languages
English (en)
Inventor
苏丹
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210217938.XA priority Critical patent/CN103514878A/zh
Publication of CN103514878A publication Critical patent/CN103514878A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。本发明还提供一种用于噪声环境下的语音输入的声学建模装置以及用于噪声环境下的语音输入及搜索系统的语音识别方法和装置。本发明可以提高噪声环境下语音识别的准确度和效率。

Description

声学建模方法及装置和语音识别方法及装置
技术领域
本发明涉及一种用于噪声环境下的语音识别技术,特别是涉及用于噪声环境下的语音输入的声学建模方法及装置、语音识别方法及装置。
背景技术
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪声、传输信道等等。为了提高语音识别系统的性能,其解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的声学模型,从而提高声学模型的自适应性。
目前,现有的语音识别系统的适应性较差,主要体现在对环境依赖性强,即在单一噪声环境下采集到的语音数据经过训练后只能在这种环境下应用,否则系统性能将急剧下降。
另外,还提出有采用对噪声的特性进行估计,例如噪声谱估计等,去除语音数据的噪声信号的方法。但这种方法对复杂的噪声环境下的语音数据的识别效果不佳。
目前,现有的语音识别系统对安静环境下的语音数据的识别性能较佳,但对噪声环境下的语音数据的识别性能则明显下降。对于语音输入及搜索系统,其输入的语音噪声情况复杂多变,且由于语音输入及搜索等任务需要实时对语音进行识别,现有的语音识别方法难以实现良好的识别效果。
发明内容
本发明的发明人鉴于上述现有技术问题而完成了本发明。本发明的目的在于,提供一种适用于语音输入或语音搜索系统的可有效地提高噪声环境下的语音识别性能的声学建模方法及装置。
为了解决上述技术问题,本发明采用了如下技术手段。
本发明的一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。
另外,在所述声学建模方法中,在所述使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤之前还包括:采集各种噪声环境下的非标准语料来构成非标准语料集合;通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段;以及将所述非语音段拼接为纯噪声段。
另外,在所述声学建模方法中,所述纯噪声段是预先录制的非语音段。
另外,在所述声学建模方法中,所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的步骤进一步包括:从所述标准语料集合中随机选取标准语料并取得其时长;在所述纯噪声段中随机截取与所述时长相等的噪声片段;以及将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料。
另外,在所述声学建模方法中,在所述将所述非语音段拼接为纯噪声段的步骤之前还包括从所有的所述非语音段中筛选出持续时间超过预定阈值且平稳的非语音段的步骤。
另外,在所述声学建模方法中,所述非标准语料集合的所述非标准语料仅是仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。
另外,在所述声学建模方法中,所述纯噪声段使用一个所述非语音段重复拼接而成。
另外,在所述声学建模方法中,所述纯噪声段使用多个所述非语音段连续拼接而成。
另外,在所述声学建模方法中,在所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。
本发明的另一种方式是用于噪声环境下的语音输入的声学建模装置,包括:用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元;以及用于通过使用所述加噪语料进行声学模型训练来建立加噪语料的声学模型的单元。
另外,在所述声学建模装置中,在所述用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元之前还包括:用于采集各种噪声环境下的非标准语料来构成非标准语料集合的单元;用于通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段的单元;以及用于将所述非语音段拼接为纯噪声段的单元。
另外,在所述声学建模装置中,所述纯噪声段是预先录制的非语音段。
另外,在所述声学建模装置中,在用于所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的单元中进一步包括:用于从所述标准语料集合中随机选取标准语料并取得其时长的单元;用于在所述纯噪声段中随机截取与所述时长相等的噪声片段的单元;以及用于将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料的单元。
另外,在所述声学建模装置中,在所述用于将所述非语音段拼接为纯噪声段的单元之前还包括:用于从所有的所述非语音段中筛选出持续时间超过预定阈值且平稳的非语音段的单元。
另外,在所述声学建模装置中,所述非标准语料集合的所述非标准语料仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。
另外,在所述声学建模装置中,所述纯噪声段使用一个所述非语音段重复拼接而成。
另外,在所述声学建模装置中,所述纯噪声段使用多个所述非语音段连续拼接而成。
另外,在所述声学建模装置中,在所述用于使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。
本发明的又一种方式是用于噪声环境下的语音输入及搜索系统的语音识别方法,其中使用通过所述声学建模方法所建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别;以及
将语音识别结果作为文本语料在搜索系统中进行搜索。
另外,在所述语音识别方法中,所述语音识别步骤进一步包括:接收用户输入的语音信息;从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息的背景噪声相匹配的声学模型;以及使用所选择的声学模型对所述语音信息进行语音识别。
另外,在所述语音识别方法中,所述用于搜索的步骤进一步包括:根据所述语音识别结果在所述搜索系统的文本语料中搜索相关的信息;以及输出搜索结果。
本发明的又一种方式是用于噪声环境下的语音输入及搜索系统的语音识别装置,包括用于通过使用所述声学建模装置建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别的单元;以及用于将语音识别结果作为文本语料在搜索系统中进行搜索的单元。
另外,在所述语音识别装置中,所述用于语音识别的单元进一步包括:用于接收用户输入的语音信息的单元;用于从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息相匹配的声学模型的单元;以及用于使用所选择的声学模型对所述语音信息进行语音识别的单元。
另外,在所述语音识别装置中,所述用于搜索的单元进一步包括:用于根据所述语音识别结果在所述搜索系统的文本语料中搜索相关的信息的单元;以及输出搜索结果的单元。
根据本发明,由于利用了真实噪声环境中采集到的噪声数据结合标准语料对语音识别模型进行训练和建模,如此获得的声学模型在噪声环境下的语音数据的识别性能显著提高,从而有效地提高了语音识别系统的鲁棒性,而且在语音识别阶段没有增加任何额外的成本。
附图说明
图1是表示本发明的实施方式1涉及的声学建模装置的结构示意图。
图2是表示本发明的实施方式1涉及的声学建模方法的流程图。
图3是表示本发明的实施方式2涉及的语音识别装置的结构示意图。
图4是表示本发明的实施方式2涉及的语音识别方法的流程图。
具体实施方式
下面,结合附图对本发明进行详细描述。
<实施方式1>
图1是表示本发明的实施方式1涉及的声学建模装置的结构示意图。
如图1所示,声学建模装置100包括采集单元101、检截单元102、筛选单元103、拼接单元104、加噪处理单元105以及建模单元106。
采集单元101用于采集大量的各种噪声环境下的非标准语料以构成非标准语料集合。在此,非标准语料是指在实际工作中采集到的各种噪声环境下的语音数据。例如,在大学讲堂中录制的演讲片段;在交通工具中录制的一段对话;在街道上随机录制的语音数据等。该非标准语料是单纯的语音数据,其包括作为背景的噪声部分和作为主体的语音部分。非标准语料集合是指大量的上述非标准语料的集合。在非标准语料集合中,按频率或噪声环境的不同来划分非标准语料,构成多个非标准语料库。例如,在按噪声环境来分类时,可分为交通工具噪声、建筑施工噪声、社会生活噪声(在此,指人们在商业交易、体育比赛、游行集会、娱乐场所等各种社会活动中产生的喧闹声以及各种家电的嘈杂声)等。
检截单元102用于对非标准语料进行语音端点检测,并截取该非标准语料的非语音段。在此,非语音段是指某一带噪语音数据中的非语音部分的噪声段。检测并截取非语音段的目的是在获取该非标准语料的背景噪声。通常背景噪声的强度、频率与语音段是不同的,通过检测非标准语料中声音的强度或频率的突变可以判断出非标准语料中语音端点位置,例如检测出语音前后端点,将语音部分截除后剩下的就是背景噪声段。
筛选单元103用于从所有的非语音段中筛选出持续时间超过预定阈值且平稳的非语音段。例如选取持续时间超过30秒的非语音段。
拼接单元104用于将筛选出的非语音段拼接为纯噪声段。该纯噪声段可以使用一个非语音段重复拼接而成。例如,在使用非语音段A时,将其拼接成如AAA这样的纯噪声段。另外,也可以使用多个非语音段连续拼接而成。例如使用非语音段A、B、C时,可拼接成如ABC或CBA这样的纯噪声段。在进行拼接之前可以对截取的纯噪音段按照环境、频率或者强度进行分类。例如分为交通噪声、工业噪声、建筑施工噪声以及社会生活噪声。交通噪声主要指的是机动车辆、飞机、火车和轮船等交通工具在运行时发出的噪声。这些噪声的噪声源是流动的,干扰范围大。工业噪声主要指工业生产劳动中产生的噪声。主要来自机器和高速运转设备。建筑施工噪声主要指建筑施工现场产生的噪声。在施工中要大量使用各种动力机械,要进行挖掘、打洞、搅拌,要频繁地运输材料和构件,从而产生大量噪声。社会生活噪声主要指人们在商业交易、体育比赛、游行集会、娱乐场所等各种社会活动中产生的喧闹声,以及收录机、电视机、洗衣机等各种家电的嘈杂声,这类噪声一般在80分贝以下。如洗衣机、缝纫机噪声为50--80分贝,电风扇的噪声为30~65分贝,空调机、电视机为70分贝。经过分类之后可以把同类噪声进行拼接处理。
加噪处理单元105用于使用纯噪声段对在安静环境下的标准语料集合中的标准语料进行加噪处理以形成加噪语料。在此,标准语料是指在安静环境下采集到的语音数据,标准语料集合是指大量的上述语音数据的集合。该标准语料集合中的各标准语料是与预定文本数据一一对应的语音数据。例如,在标准语料集合中,若存在文本“今天天气真好”,同时也存在与该文本相对应的语音。通将文本和对应的标准语音输入到建模单元中可以构建出对应的声学模型。
另外,加噪处理单元105进一步包括选取单元201、截取单元202、合成单元203。其中,选取单元201用于从标准语料集合中随机选取标准语料并取得其时长。截取单元202用于在纯噪声段中随机截取与选取出的标准语料的时长相等的噪声片段。合成单元203用于将截取出的噪声片段与选取出的标准语料进行信号叠加从而形成加噪语料。
建模单元106用于通过使用加噪语料进行声学模型训练来建立加噪语料的声学模型。具体训练方法是将加噪后的标准语音与该标准语音对应的文本数据输入到建模单元106,建模单元106通过现有的语音识别建模方法对比加噪的标准语音与文本数据可以构建出适合于该噪声环境的声学模型。同样的标准语音可以分别与不同的纯噪声段叠加获得不同的加噪语音输入到建模单元106后获得不同噪声环境下的声学模型。
下面参照图1及图2具体说明声学建模的方法。
首先,在步骤S01中,采集单元101采集了大量的实际工作中各种噪声环境下的非标准语料,构成非标准语料集合。并且,按照频率或噪声环境的不同划分非标准语料而构成多个非标准语料库。
接着,在步骤S02中,检截单元102从某一个非标准语料库中选择非标准语料,并对其进行语音端点检测,然后截取该非标准语料的非语音段。
然后,在步骤S03中,筛选单元103从所截取的所有非语音段中预先筛选出持续时间超过预定阈值且平稳的非语音段。
接着,在步骤S04中,拼接单元104将在步骤S03中筛选出的非语音段拼接为纯噪声段。
之后,加噪处理单元105使用在步骤S04中拼接成的纯噪声段,对在安静环境下的标准语料集合中的标准语料进行加噪处理以形成加噪语料。在此,标准语料可以按种类进行划分。
具体而言,首先在步骤S05中,选取单元201从标准语料集合中随机选取标准语料并取得其时长。接着,在步骤S06中,截取单元202在步骤S04中所拼接成的纯噪声段中随机截取与在步骤S05中所选取出的标准语料的时长相等的噪声片段。然后,在步骤S07中,合成单元203将在步骤S06中截取出的噪声片段与在步骤S05中所选取出的标准语料进行信号叠加,形成经加噪处理的标准语料即加噪语料。
最后,在步骤S08中,建模单元106使用在步骤S07中形成的加噪语料进行声学模型训练,从而与标准语料的文本数据对应地建立加噪语料的声学模型。并且,将加噪语料的声学模型按照非标准语料的分类而建立不同的模型库。例如,非标准语料库中按照背景噪声的类型分类为交通噪声、工业噪声、建筑施工噪声以及社会生活噪声。在对交通噪声的非标准语料库进行建模时截取该交通噪声非标准语料库中的交通背景噪声与标准语音合成为加噪语音,然后对加噪标准语料进行训练获得适用于交通噪声的声学模型。然后可以用该声学模型对分类为交通噪声的非标准语料库中的语音信息识别为文本信息。
根据本实施方式,由于利用了实际工作中收集到的噪声数据,所以对噪声环境下的语音数据的识别性能有显著的提高,从而有效地提高语音系统应用的鲁棒性,且在识别阶段没有增加任何额外的成本。
<变形例>
在实施方式1中,具体说明了利用检截单元102、筛选单元103、拼接单元104制成了纯噪声段,但本发明不限于此,该纯噪声段也可以是预先录制的纯噪声段。
另外,在实施方式1中,说明了声学建模装置100由采集单元101、检截单元102、筛选单元103、拼接单元104、加噪处理单元105以及建模单元106构成的例子。但是,本发明不限于此,在使用预先录制的纯噪声段的情况下,声学建模装置100包括加噪处理单元105和建模单元106。
另外,在实施方式1中,具体说明了利用筛选单元103筛选出持续时间超过预定阈值且平稳的非语音段,但本发明不限于此,也可以根据需要而省略筛选单元103。在这种情况下,拼接单元104直接将由检截单元102所截取的非语音段拼接为纯噪声段。
另外,在实施方式1中,使用步骤S05至S07具体说明了加噪处理步骤。在该加噪处理步骤中,可以根据非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定纯噪声段对在安静环境下的标准语料集合中的标准语料进行加噪处理时的加噪信号强度。例如,假设非标准语料中的非语音段的频率为30dB,语音段的频率为80dB,安静环境下的标准语料的频率为50dB。在这种情况下,非标准语料中的非语音段与语音段的信号强度比为3:8。当将非语音段与安静环境下的标准语料进行合成时,由于非语音段与标准语料的信号强度比是3:5,所以根据非语音段与语音段的信号强度比值3:8来调整加噪信号的强度。也就是说,为了将非语音段与标准语料的信号强度调整为3:8,提高安静环境下的标准语料的信号强度,或者降低非标准语料中的非语音段的信号强度。这样合成获得的加噪标准语料更加符合实际情况。
<实施方式2>
本实施方式2是将实施方式1的声学建模方法及装置应用于语音输入及搜索系统的例子。
图3是表示本发明的实施方式2涉及的语音识别装置200的结构示意图。
如图3所示,语音识别装置200包括接收单元201、选择单元202、声学建模装置100、识别单元203、搜索单元204以及输出单元205。
语音识别装置200是用于噪声环境下的语音输入及搜索系统的语音识别装置。并且,该语音识别装置200通过利用声学建模装置100所建立的加噪语料的声学模型进行语音识别。
接收单元201接收用户输入的语音信息。
在声学建模装置100的建模单元106中包含多个加噪语料的声学模型库。
选择单元202根据接收单元201接收到的信息,从建模单元106中的某一个加噪语料的声学模型库中选择与该信息相匹配的声学模型。
识别单元203使用被选择单元202选择出的声学模型对非标准语料或用户输入的语音信息进行语音识别。
搜索单元204将识别单元203识别出的结果作为文本语料在搜索系统中进行搜索。
输出单元205输出搜索单元204的搜索结果。
图4是表示本发明的实施方式2涉及的语音识别方法的流程图。
下面,结合图3及图4来具体说明本发明的语音识别方法。
本实施方式涉及的语音识别方法主要是使用通过采用实施方式1的声学建模方法建立的加噪语料的声学模型进行语音识别,具体步骤如下。例如,将语音识别装置200应用于路况信息语音搜索系统。在此,假设用户向语音识别装置200输入了“搜索目前长安街的路况”这一语音信息。
首先,在步骤S11中,接收单元201从外部接收用户输入的“搜索目前长安街的路况”这一语音信息。
接着,在步骤S12中,选择单元202根据用户说话时的背景噪声判断用户处于交通工具中,则从声学建模装置100的建模单元106中选择与交通工具相匹配的声学模型。
然后,在步骤S13中,识别单元203使用在步骤S12中选择出的加噪语料的声学模型对用户输入的语音信息进行语音识别。也就是说,识别单元203将用户输入的“搜索目前长安街的路况”这一语音信息识别成“搜索目前长安街的路况”这样的文本数据。
接着,在步骤S14中,搜索单元204将“搜索目前长安街的路况”这一文本数据作为文本语料在搜索系统中搜索相关的信息。
最后,在步骤S15中,输出单元205输出与搜索单元204的搜索结果。
在本实施方式中,具体说明了将语音识别装置200应用于路况信息语音搜索系统的例子,但本发明不限于此,也可以应用于其他与语音输入或语音搜索相关的系统。
需要理解的是,上述的实施方式仅是示例,但本发明并不局限于上述特定实施方式,本领域技术人员可以在所附权利要求的范围内做出各种变形或修改。

Claims (24)

1.一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:
使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及
通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。
2.根据权利要求1所述的声学建模方法,其中在所述使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤之前还包括:
采集各种噪声环境下的非标准语料来构成非标准语料集合;
通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段;以及
将所述非语音段拼接为纯噪声段。
3.根据权利要求1所述的声学建模方法,其中所述纯噪声段是预先录制的非语音段。
4.根据权利要求1所述的声学建模方法,其中所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的步骤进一步包括:
从所述标准语料集合中随机选取标准语料并取得其时长;
在所述纯噪声段中随机截取与所述时长相等的噪声片段;以及
将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料。
5.根据权利要求2所述的声学建模方法,其中在所述将所述非语音段拼接为纯噪声段的步骤之前还包括从所有的所述非语音段中筛选出持续时间超过预定阈值且平稳的非语音段的步骤。
6.根据权利要求2-4中任一项所述的声学建模方法,其中所述非标准语料集合的所述非标准语料仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。
7.根据权利要求2-4中任一项所述的声学建模方法,其中所述纯噪声段使用一个所述非语音段重复拼接而成。
8.根据权利要求2-4中任一项所述的声学建模方法,其中所述纯噪声段使用多个所述非语音段连续拼接而成。
9.根据权利要求2-4中任一项所述的声学建模方法,其中在所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。
10.一种用于噪声环境下的语音输入的声学建模装置,包括:
用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元;以及
用于通过使用所述加噪语料进行声学模型训练来建立加噪语料的声学模型的单元。
11.根据权利要求10所述的声学建模装置,其中在所述用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元之前还包括:
用于采集各种噪声环境下的非标准语料来构成非标准语料集合的单元;
用于通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段的单元;以及
用于将所述非语音段拼接为纯噪声段的单元。
12.根据权利要求10所述的声学建模装置,其中所述纯噪声段是录制制成的非语音段。
13.根据权利要求10所述的声学建模装置,其中在用于所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的单元中进一步包括:
用于从所述标准语料集合中随机选取标准语料并取得其时长的单元;
用于在所述纯噪声段中随机截取与所述时长相等的噪声片段的单元;以及
用于将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料的单元。
14.根据权利要求11所述的声学建模装置,其中在所述用于将所述非语音段拼接为纯噪声段的单元之前还包括:用于从所有的所述非语音段中筛选出时长超过预定阈值且平稳的非语音段的单元。
15.根据权利要求11-13中任一项所述的声学建模装置,其中所述非标准语料集合的所述非标准语料仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。
16.根据权利要求11-13中任一项所述的声学建模装置,其中所述纯噪声段使用一个所述非语音段重复拼接而成。
17.根据权利要求11-13中任一项所述的声学建模装置,其中所述纯噪声段使用多个所述非语音段连续拼接而成。
18.根据权利要求11-13中任一项所述的声学建模装置,其中在所述用于使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。
19.一种用于噪声环境下的语音输入及搜索系统的语音识别方法,其中使用通过权利要求1-9中任一项所述的声学建模方法所建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别;以及
将语音识别结果作为文本语料在搜索系统中进行搜索。
20.根据权利要求19所述的语音识别方法,其中所述语音识别步骤进一步包括:
接收用户输入的语音信息;
从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息相匹配的声学模型;以及
使用所选择的声学模型对所述语音信息进行语音识别。
21.根据权利要求19所述的语音识别方法,其中用于搜索的步骤进一步包括:
根据所述语音识别结果在所述搜索系统的文本语料中搜索相关的信息;以及
输出搜索结果。
22.一种用于噪声环境下的语音输入及搜索系统的语音识别装置,包括用于通过使用权利要求10-18中任一项所述的声学建模装置建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别的单元;以及
用于将语音识别结果作为文本语料在搜索系统中进行搜索的单元。
23.根据权利要求22所述的语音识别装置,其中所述用于语音识别的单元进一步包括:
用于接收用户输入的语音信息的单元;
用于从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息的背景噪声相匹配的声学模型的单元;以及
用于使用所选择的声学模型对所述语音信息进行语音识别的单元。
24.根据权利要求22所述的语音识别装置,其中用于搜索的单元进一步包括:
用于根据所述语音识别结果在所述搜索系统的文本语料中搜索相关的信息的单元;以及
输出搜索结果的单元。
CN201210217938.XA 2012-06-27 2012-06-27 声学建模方法及装置和语音识别方法及装置 Pending CN103514878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210217938.XA CN103514878A (zh) 2012-06-27 2012-06-27 声学建模方法及装置和语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210217938.XA CN103514878A (zh) 2012-06-27 2012-06-27 声学建模方法及装置和语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN103514878A true CN103514878A (zh) 2014-01-15

Family

ID=49897505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210217938.XA Pending CN103514878A (zh) 2012-06-27 2012-06-27 声学建模方法及装置和语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN103514878A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106816154A (zh) * 2016-12-15 2017-06-09 北京青笋科技有限公司 一种具有智能降噪功能的灯具语音识别控制方法
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
CN108492821A (zh) * 2018-03-27 2018-09-04 华南理工大学 一种减弱语音识别中说话人影响的方法
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN109147780A (zh) * 2018-08-15 2019-01-04 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN109817199A (zh) * 2019-01-03 2019-05-28 珠海市黑鲸软件有限公司 一种风扇语音控制系统的语音识别方法
CN110021292A (zh) * 2019-04-23 2019-07-16 四川长虹空调有限公司 语音处理方法、装置及智能家居设备
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110310623A (zh) * 2017-09-20 2019-10-08 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN110544469A (zh) * 2019-09-04 2019-12-06 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111081232A (zh) * 2018-10-18 2020-04-28 柯尼卡美能达株式会社 图像形成装置、语音识别装置以及计算机可读记录介质
CN111104546A (zh) * 2019-12-03 2020-05-05 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN111210810A (zh) * 2019-12-17 2020-05-29 秒针信息技术有限公司 模型训练方法和装置
CN111210811A (zh) * 2019-12-31 2020-05-29 深圳市瑞讯云技术有限公司 一种基音混合方法及装置
CN112116926A (zh) * 2019-06-19 2020-12-22 北京猎户星空科技有限公司 音频数据的处理方法及装置、模型训练方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296607A (zh) * 1998-02-04 2001-05-23 夸尔柯姆股份有限公司 用于经噪声补偿的话音识别的系统和方法
CN1595497A (zh) * 2003-09-12 2005-03-16 古井贞熙 语音模型的噪声适应系统及方法,语音识别的噪声适应程序
US20050143997A1 (en) * 2000-10-10 2005-06-30 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
CN1296607C (zh) * 2003-03-28 2007-01-24 上海江迪数码科技有限公司 内燃机废气净化消声器
CN1983388A (zh) * 2005-12-14 2007-06-20 中国科学院自动化研究所 一种基于dsp的语音识别及优化方法
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN101894561A (zh) * 2010-07-01 2010-11-24 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296607A (zh) * 1998-02-04 2001-05-23 夸尔柯姆股份有限公司 用于经噪声补偿的话音识别的系统和方法
US20050143997A1 (en) * 2000-10-10 2005-06-30 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
CN1296607C (zh) * 2003-03-28 2007-01-24 上海江迪数码科技有限公司 内燃机废气净化消声器
CN1595497A (zh) * 2003-09-12 2005-03-16 古井贞熙 语音模型的噪声适应系统及方法,语音识别的噪声适应程序
CN1983388A (zh) * 2005-12-14 2007-06-20 中国科学院自动化研究所 一种基于dsp的语音识别及优化方法
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN101894561A (zh) * 2010-07-01 2010-11-24 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106816154A (zh) * 2016-12-15 2017-06-09 北京青笋科技有限公司 一种具有智能降噪功能的灯具语音识别控制方法
CN110310623A (zh) * 2017-09-20 2019-10-08 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN110310623B (zh) * 2017-09-20 2021-12-28 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US11087741B2 (en) 2018-02-01 2021-08-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and storage medium for processing far-field environmental noise
CN108492821A (zh) * 2018-03-27 2018-09-04 华南理工大学 一种减弱语音识别中说话人影响的方法
CN108492821B (zh) * 2018-03-27 2021-10-22 华南理工大学 一种减弱语音识别中说话人影响的方法
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN109147780B (zh) * 2018-08-15 2023-03-03 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN109147780A (zh) * 2018-08-15 2019-01-04 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN111081232A (zh) * 2018-10-18 2020-04-28 柯尼卡美能达株式会社 图像形成装置、语音识别装置以及计算机可读记录介质
CN109817199A (zh) * 2019-01-03 2019-05-28 珠海市黑鲸软件有限公司 一种风扇语音控制系统的语音识别方法
CN110021292A (zh) * 2019-04-23 2019-07-16 四川长虹空调有限公司 语音处理方法、装置及智能家居设备
WO2020215666A1 (zh) * 2019-04-23 2020-10-29 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN112116926A (zh) * 2019-06-19 2020-12-22 北京猎户星空科技有限公司 音频数据的处理方法及装置、模型训练方法及装置
CN110544469B (zh) * 2019-09-04 2022-04-19 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置
CN110544469A (zh) * 2019-09-04 2019-12-06 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置
WO2021047201A1 (zh) * 2019-09-12 2021-03-18 上海依图信息技术有限公司 一种语音识别方法及装置
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111104546B (zh) * 2019-12-03 2021-08-27 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN111104546A (zh) * 2019-12-03 2020-05-05 珠海格力电器股份有限公司 一种构建语料库的方法、装置、计算设备及存储介质
CN111210810A (zh) * 2019-12-17 2020-05-29 秒针信息技术有限公司 模型训练方法和装置
CN111210811A (zh) * 2019-12-31 2020-05-29 深圳市瑞讯云技术有限公司 一种基音混合方法及装置
CN111210811B (zh) * 2019-12-31 2022-10-04 深圳市瑞讯云技术有限公司 一种基音混合方法及装置

Similar Documents

Publication Publication Date Title
CN103514878A (zh) 声学建模方法及装置和语音识别方法及装置
CN108172224B (zh) 基于机器学习的防御无声指令控制语音助手的方法
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
CN101430882B (zh) 一种抑制风噪声的方法及装置
US11152016B2 (en) Autonomous intelligent radio
CN105355201A (zh) 基于场景的语音服务处理方法、装置和终端设备
CN104954555A (zh) 一种音量调节方法及系统
CN111883166B (zh) 一种语音信号处理方法、装置、设备以及存储介质
US11488617B2 (en) Method and apparatus for sound processing
CN103646649A (zh) 一种高效的语音检测方法
CN104036786A (zh) 一种语音降噪的方法及装置
CN105788592A (zh) 一种音频分类方法及装置
CN107554456A (zh) 车载语音控制系统及其控制方法
CN109087660A (zh) 用于回声消除的方法、装置、设备以及计算机可读存储介质
CN101952884A (zh) 响应于目标说话人话音识别对麦克风信号进行自适应滤波的电子设备和方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN105872205A (zh) 一种信息处理方法及装置
CN111341343B (zh) 一种用于异常声音检测的在线更新系统和方法
Cristani et al. On-line adaptive background modelling for audio surveillance
CN109997186A (zh) 一种用于分类声环境的设备和方法
CN105635418A (zh) 一种截取铃声的方法及装置
Alamdari et al. A real-time smartphone app for unsupervised noise classification in realistic audio environments
CN108922267A (zh) 一种用于智慧教室的智能语音系统
CN112017636B (zh) 基于车辆的用户发音模拟方法、系统、设备及存储介质
CN113692618B (zh) 一种语音命令识别的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115

RJ01 Rejection of invention patent application after publication