CN1770263A

CN1770263A - 语音识别系统以及方法

Info

Publication number: CN1770263A
Application number: CNA2004100871352A
Authority: CN
Inventors: 邵晓慧; 邱全成
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 2004-11-01
Filing date: 2004-11-01
Publication date: 2006-05-10
Anticipated expiration: 2024-11-01
Also published as: CN100458914C

Abstract

一种语音识别系统以及方法，应用在数据处理装置中，该系统包括：存储单元、取样频率设定模块、音频声波信号转换模块、分析模块、计算模块、判断模块以及音频处理模块；本发明主要通过存储单元将原声音频与录入音频储存，接着根据预设的数值设定取样频率值，分别将该原声音频与录入音频转换为声波信号并分析取样频率的最大音量值后，分别计算出该原声音频与录入音频的绝对值，再通过比较该原声音频与录入音频绝对值以决定识别的结果；通过该语音识别系统以及方法，可根据使用者的特性调整音频，提高语音识别的准确度，还可根据需求设定语音播放的速度与频率。

Description

语音识别系统以及方法

技术领域

本发明是关于一种语音识别系统以及方法，特别是关于一种应用于数据处理装置的语音识别系统与方法。

背景技术

随着电子信息产业发展的日新月异，各种功能强大且价格低廉的消费性电子信息产品纷纷问世。例如，为了能进一步与使用外语的人进行沟通，大量具有语言学习功能的数据处理装置如雨后春笋一般出现在消费市场中。通过如计算机或电子辞典等数据处理装置进行语言学习的过程中，如何能够提供给学习者几乎与真人相同的学习环境，达到无须通过与真人的互动，仅通过与该数据处理装置间的互动即可达到语文学习的功效，已成为研发者必须面对的问题。

台湾公告第308666号专利是一种「智能型汉语语音学习系统及其方法」，是通过机器先检测使用者输入的学习例句语音信号的特征参数，再经过辨认输入的学习例句的语音及计算的辨认结果与学习例句比较的符合率的辨认装置，以及通过使用者学习例句的语音以训练使用者的语音模型并更新其中数据的训练装置。经过一组学习例句的训练后，该使用者的语音模型几乎已涵盖所有本身的语音特性，使在正式上线使用时，能有效的根据该语音模型内的语音特性辨认使用者的输入信号。

上述语音学习与识别系统及方法是现今语音识别系统常用的技术。然而它却存在着相当大的缺点，也就是使用者必须先根据接近预定的标准速度与音量朗读例句，借以建立使用者的语音特征，降低系统识别错误的机会，同时养成用清晰稳定的朗读方式输入语音的习惯。这种语音特征建立及识别的方式要求使用者迁就机器的识别习惯，不但欠缺人性化，对于反应较慢的使用者来说，则必须反复多次的尝试才能求得较佳的识别效果。此外，若使用者变更则必须重新建立使用者特征否则无法进行识别。

总而言之，现有的语言识别至今仍存在两个主要的问题，一方面是学习者无法自行决定取样的频率，换言之，即无法自行决定音频分辨率的高低，高分辨率固然可以让学习者学习到更准确的发音，但相对的也会造成辨别成功率降低的困扰。另一方面现行的语言学习系统中的语言识别功能，并无法供学习者根据自身的需求做声音的播放速度以及播放频率的改变，欠缺个性化的语音识别功能，无法让学习者在接近自身发音特性的环境下做语言的学习，对于学习效率提高而言是一种阻碍。

综上所述，如何能够提供一种更具有使用者个性化的语音识别系统以及方法，成为目前急待解决的课题。

发明内容

为克服上述现有技术的缺点，本发明的主要目的在于提供一种可根据需求设定音频取样频率的语音识别系统以及方法。

本发明的另一目的在于提供一种可根据需求设定语音播放速度与频率的语音识别系统以及方法。

为达以上所述及其它目的，本发明的语音识别系统包括：存储单元，用于储存至少包括原声音频、录入音频以及识别标准等数据；取样频率设定模块，用于依据预设的数值设定原声音频与录入音频取样频率值；音频声波信号转换模块，用于将该原声音频与录入音频转换为声波信号；分析模块，用于分析该原声音频与录入音频取样频率的最大音量值；计算模块，用于分别计算出该原声音频与录入音频的绝对值；判断模块，用于根据该识别标准比较该原声音频与录入音频绝对值以决定识别的结果；以及音频处理模块，设定语音播放的速度与频率等音频特性。

通过该语音识别系统执行语音识别的方法是：提供存储单元，用于储存至少包括原声音频、录入音频以及识别标准数据；提供音频处理模块，设定语音播放的速度与频率等音频特性；提供取样频率设定模块，用于依据预设的数值设定原声音频与录入音频取样频率值；提供音频声波信号转换模块，用于将该原声音频与录入音频转换为声波信号；提供分析模块，用于分析该原声音频与录入音频取样频率的最大音量值；提供计算模块，用于分别计算出该原声音频与录入音频的绝对值；以及提供判断模块，用于依据该识别标准，比较该原声音频与录入音频绝对值以决定识别的结果。

与现有的语音识别技术比较，本发明的语音识别系统以及方法可根据需求设定音频取样频率，还可根据需求设定语音播放的速度与频率，让学习者在接近自身发音特性的环境下进行语言的学习，能够有效提高语言学习的效率。

附图说明

图1是本发明的语音识别系统的基本结构图；以及

图2是本发明的语音识别的流程图。

具体实施方式

实施例

以下通过特定的具体实施例说明本发明的实施方式。

图1是本发明的语音识别系统1的基本结构图，该系统包括：存储单元11、取样频率设定模块12、音频声波信号转换模块13、分析模块14、计算模块15、判断模块16以及音频处理模块17。

在本实施例中，本发明的语音识别系统1应用在个人计算机2中，特别是用于提供该个人计算机2语言发音学习的功能。此外，该个人计算机2包括用于输入音频数据的输入单元22，例如是麦克风。此外，该个人计算机2实际上还包括其它用于执行数据运算的软、硬及/或韧体，为突出本案的技术特征，仅显示与本发明的语音识别系统1以及方法相关部分。此外，该个人计算机2也可换成如电子辞典、个人数字助理、移动电话等支持语音输出入功能的数据处理装置。

该存储单元11用于储存至少包括原声音频、录入音频以及预设识别标准等数据。在本实施例中，该存储单元11是硬盘装置。除了用于储存该原声音频、录入音频以及识别标准等数据外，还可用于储存该个人计算机2在执行本发明的语音识别系统1时产生的数据。

该取样频率设定模块12用于根据预设的数值，设定原声音频与录入音频取样频率值。由于将模拟音频信号转换为数字音频信号的过程中必须先确定取样频率，作为模拟音频转换为数字音频的过程中每秒取样次数的依据。

一般来说，声音播出时的品质通常只能达到取样频率的一半，因此须采取双倍取样率才能将原音准确重现。正常情况下，一般人的听力极限约为20KHz，所以高品质的取样应为其两倍以上，当声音来源为音乐时，由于它所横跨的频率变化极为宽广，通常以44.1KHz的频率为CD音乐取样率的标准；但是若以语音为主，由于人说话的语音大约为10KHz，因此加倍采样，只取22KHz即可。取样率越高，所记录下来的音质就越清晰；当然，越高的取样所记录下来的数据就会越大。在本实施例中，本发明的语音识别系统1用于语音识别，所以取样频率可以是22KHz。其中，关于取样分辨率的部分则可根据使用者的需求设定八位、十六位或更高，然由于取样分辨率与本发明的技术内容无直接关联，所以不予赘述。

该音频声波信号转换模块13用于根据该取样频率设定模块12所设定的取样频率值，将该原声音频与录入音频转换为声波信号。在本实施例中，该音频声波信号转换模块13利用个人计算机上常用的数字声音文件(digital audio file)格式「.WAV」。在将该原声音频与录入音频转换为声波信号的过程中，可依据该取样频率设定模块12设定的不同的取样频率(44kHz、22kHz或11kHz)与位数(8位或16位)及单声/立体声等。需特别说明，该音频声波信号转换模块13也可利用其它的音频声波信号转换格式，如「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」等格式。

该分析模块14用于分析该原声音频与录入音频取样频率的最大音量值。由于模拟音频信号在进入该个人计算机2前是一种连续性的信号，所谓的连续性号是指时间上的连续，通过该输入单元22将模拟音频信号传到该个人计算机2中，也就是数字化的过程。原来连续性的模拟音频信号，经过数字化的处理后，变成一种不连续的信号，这些转换后的声波信号只在某些固定的时间刻度上有值，该分析模块14即是用于分析该时间刻度上的值。在本实施例中，该时间刻度上的值可以是伏特(volt)或分贝(decibel；dB)。

该计算模块15用于分别计算出该原声音频与录入音频的绝对值。在本实施例中，该绝对值的计算是依据该原声音频与录入音频的每一时间刻度上的值，也就是将每一时间刻度除以该时间刻度上的伏特或分贝值作为该绝对值。

该判断模块16用于依据该识别标准，比较该原声音频与录入音频绝对值以决定识别的结果。在本实施例中，该识别标准可例如是比较该计算模块15计算出的原声音频每一时间刻度的绝对值以及录入音频每一时间刻度的绝对值的相似程度，更具体来说，是以该原声音频绝对值与录入音频绝对值的差值，除以该原声音频的绝对值并求其相似度百分比。接着，进一步在求出所有时间刻度的相似度百分比后，再求出所有时间刻度相似度百分比的总平均值。若本发明的语音识别系统1是应用在语言学习软件的发音准确度鉴别功能中，则该总平均值则可作为鉴别的依据。

该音频处理模块17用于设定语音播放速度与频率等音频特性。在本实施例中，该音频处理模块17可通过诸如时序变化的方式，加快或放慢该原声音频数据的速度，借以符合不同使用者的说话速度。另一方面，该原声音频音调的高低与振动的快慢成正比，若在相同时间内振动较快者则其频率较高，音调也会相对提高。因此，通过变更该原声音频数据的频率即可变更该原声音频数据的音调，例如趋近于女声或男声，同样的可符合不同使用者的说话音调。

请参阅图2，它是本发明的语音识别方法步骤的流程图。

在步骤S201中，提供存储单元11以储存至少包括原声音频、录入音频以及预设识别标准等数据。接着进行步骤S202。

在步骤S202中，该音频处理模块17用于设定语音播放的速度与频率等音频特性。在本实施例中，该音频处理模块17可通过诸如时序变化的方式，加快或放慢该原声音频数据的速度。另一方面，还可变更该原声音频数据的频率即可变更该原声音频数据的音调。接着进行步骤S203。

在步骤S203中，提供取样频率设定模块12，依据预设的数值设定原声音频与录入音频取样频率值。在本实施例中，本发明的语音识别系统1是用于语音识别，所以取样频率可取22KHz。接着进行步骤S204。

在步骤S204中，提供音频声波信号转换模块13，依据该取样频率设定模块12所设定的取样频率值，将该原声音频与录入音频转换为声波信号。在本实施例中，该音频声波信号转换模块13是利用个人计算机上常用的数字声音文件格式「.WAV」。接着进行步骤S205。

在步骤S205中，提供该分析模块14，分析该原声音频与录入音频取样频率的最大音量值。在本实施例中，该时间刻度上的值可以是伏特(volt)或分贝(decibel；dB)。接着进行步骤S206。

在步骤S206中，提供该计算模块15，分别计算出该原声音频与录入音频的绝对值。在本实施例中，该绝对值的计算是依据该原声音频与录入音频的每一时间刻度上的值，也就是将每一时间刻度除以该时间刻度上的伏特或分贝值作为该绝对值。接着进行步骤S207。

在步骤S207中，提供该判断模块16，依据该识别标准比较该原声音频与录入音频绝对值决定识别的结果。在本实施例中，该识别标准可例如是比较该计算模块15所计算出的原声音频每一时间刻度的绝对值以及录入音频每一时间刻度的绝对值的相似程度，具体来说，即是以该原声音频绝对值与录入音频绝对值的差值除以该原声音频的绝对值并求其相似度百分比。接着，进一步在求出所有时间刻度的相似度百分比后，再求出所有时间刻度相似度百分比的总平均值。

综上所述，本发明的语音识别系统以及方法除了可根据需求设定音频取样频率外，还可根据需求设定语音播放的速度与频率。让学习者在接近自身发音特性的环境下进行语言学习，进而有效提高语言学习的效率。

Claims

1.一种语音识别系统，应用在数据处理装置中，其特征在于，该系统包括：

存储单元，用于储存至少包括原声音频、录入音频以及识别标准等数据；

取样频率设定模块，用于依据预设的数值设定原声音频与录入音频取样频率值；

音频声波信号转换模块，用于将该原声音频与录入音频转换为声波信号；

分析模块，用于分析该原声音频与录入音频取样频率的最大音量值；

计算模块，用于分别计算出该原声音频与录入音频的绝对值；

判断模块，用于根据该识别标准比较该原声音频与录入音频绝对值以决定识别的结果；以及

音频处理模块，设定语音播放的速度与频率等音频特性。

2.如权利要求1所述的系统，其特征在于，该取样频率是44.1KHz及22KHz其中之一。

3.如权利要求1所述的系统，其特征在于，该音频声波信号转换模块的音频声波信号转换格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一种格式。

4.如权利要求1所述的系统，其特征在于，该音量值是声波信号时间刻度上的值是伏特及分贝其中之一。

5.如权利要求1所述的系统，其特征在于，该绝对值的计算是依据该原声音频与录入音频的每一时间刻度上的值。

6.如权利要求1所述的系统，其特征在于，该识别标准是比较该计算模块计算出的原声音频每一时间刻度的绝对值以及录入音频每一时间刻度的绝对值的相似程度。

7.如权利要求6所述的系统，其特征在于，该绝对值的相似程度是以该原声音频绝对值与录入音频绝对值的差值除以该原声音频的绝对值后所得到的值。

8.如权利要求6所述的系统，其特征在于，该判断模块在求出所有时间刻度的相似程度后，再求出所有时间刻度相似程度的总平均值。

9.如权利要求1所述的系统，其特征在于，该音频处理模块是通过时序变化的方式，调整该原声音频数据的速度。

10.如权利要求1所述的系统，其特征在于，该音频处理模块是通过变更该原声音频数据的频率来变更该原声音频数据的音调。

11.一种语音识别方法，应用在数据处理装置中，其特征在于，该方法包括：

提供存储单元，用于储存至少包括原声音频、录入音频以及识别标准数据；

提供音频处理模块，设定语音播放的速度与频率等音频特性；

提供取样频率设定模块，用于依据预设的数值设定原声音频与录入音频取样频率值；

提供音频声波信号转换模块，用于将该原声音频与录入音频转换为声波信号；

提供分析模块，用于分析该原声音频与录入音频取样频率的最大音量值；

提供计算模块，用于分别计算出该原声音频与录入音频的绝对值；以及

提供判断模块，用于依据该识别标准，比较该原声音频与录入音频绝对值以决定识别的结果。

12.如权利要求11所述的方法，其特征在于，该取样频率是44.1KHz及22KHz其中之一。

13.如权利要求11所述的方法，其特征在于，该音频声波信号转换模块的音频声波信号转换格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一种格式。

14.如权利要求11所述的方法，其特征在于，该音量值是声波信号时间刻度上的值是伏特及分贝其中之一。

15.如权利要求11所述的方法，其特征在于，该绝对值的计算是依据该原声音频与录入音频的每一时间刻度上的值。

16.如权利要求11所述的方法，其特征在于，该识别标准是比较该计算模块所计算出的原声音频每一时间刻度的绝对值以及录入音频每一时间刻度的绝对值的相似程度。

17.如权利要求16所述的方法，其特征在于，该绝对值的相似程度是以该原声音频绝对值与录入音频绝对值的差值除以该原声音频的绝对值后所得到的值。

18.如权利要求16所述的方法，其特征在于，该判断模块在求出所有时间刻度的相似程度后，再求出所有时间刻度相似程度的总平均值。

19.如权利要求11所述的方法，其特征在于，该音频处理模块是通过时序变化的方式，调整该原声音频数据的速度。

20.如权利要求11所述的方法，其特征在于，该音频处理模块是通过变更该原声音频数据的频率来变更该原声音频数据的音调。