CN104658549A

CN104658549A - 用于识别语音的预处理装置及其方法

Info

Publication number: CN104658549A
Application number: CN201410392228.XA
Authority: CN
Inventors: 权珉湖
Original assignee: Hyundai Mobis Co Ltd
Current assignee: Hyundai Mobis Co Ltd
Priority date: 2013-11-15
Filing date: 2014-08-11
Publication date: 2015-05-27
Anticipated expiration: 2034-08-11
Also published as: CN104658549B; EP2874148B1; KR20150056276A; US20150142430A1; KR102238979B1; EP2874148A1; US9437217B2

Abstract

本发明涉及一种用于识别语音的预处理装置及其方法，所述装置包括：末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。根据本发明，在识别语音时考虑用户的声响预处理语音信号，使得末端静音区间保持一定，从而提高语音识别性能。

Description

用于识别语音的预处理装置及其方法

技术领域

本发明涉及一种用于识别语音的预处理装置及其方法，尤其涉及识别语音时考虑用户的声响预处理语音信号，使得末端静音区间(TrailingSilence)保持一定，以提高语音识别性能的用于识别语音的预处理装置及其方法。

背景技术

现在随着电子装置的智能化发展，越来越多地通过语音对装置进行控制。

为了控制上述利用语音的装置，需要识别语音并理解语言，因此对语音识别传感器或语音识别装置的研究增多。

例如，现在随着出台关于禁止车辆行驶过程中收看数字多媒体广播(DMB)或操作导航仪的道路交通法修正案，对导航仪的语音识别功能的关注度进一步上升。

识别语音需大量消耗装置资源(即CPU或存储器资源)。从而如导航仪等资源并不充分的便携装置，为了尽可能降低装置的资源消耗，并且为了确保正确的信号处理，需要进行处理使得能够准确地检测到可能的语音输入区间。

现有语音识别装置(或者语音识别引擎)为能够准确地检测到上述语音识别区间而采用的一种处理方法是包含末端静音(Trailing Silence)区间的方法。

在此，所述末端静音区间指输出用于告知用户开始输入用于识别的语音的开始音(例如：嘟嘟(BEEP)音)至实际输入语音信号的时间，或者音节与音节之间的无音区间。

例如，启动语音识别时，当用户为了正常的信号处理而按语音识别装置(例：导航仪)的语音识别启动键时，所述语音识别装置输出语音识别开始音(例：嘟嘟(BEEP)音)。因此，用户听到所述开始音后输入语音(或是语音命令)，所述语音识别装置处理所述开始音输出后输入的语音信号，以分析语音(或是语音命令)。

所以，利用如上述方式(即，输出开始音后输入语音的方式)执行语音识别时，若如图1中的(b)所示地在所述开始音输出之前先输入语音，或者如图1中的(c)所示地在输出所述开始音后经过特定时间时输入语音，那么所述语音识别装置不能正确执行信号处理，无法准确地识别语音。即有语音识别率降低的问题。

换言之，利用如上所述的方式(即，输出开始音后输入语音的方式)执行语音识别时，如图1中的(a)所示，需要根据所述语音识别装置输入包含适当长度的末端静音区间的语音信号。但是当所述末端静音区间因用户的声响而变长或变短时，与包括适当长度的末端静音区间的情况相比，具有语音识别率降低的问题。

本发明的背景技术公开在韩国授权专利10-0714721号(授权日：2007年04月27日，语音区间检测方法及其装置)。

发明内容

技术问题

本发明为了解决上述问题，目的在于提供一种识别语音时考虑用户的声响预处理语音信号，使得末端静音(Trailing Silence)区间保持一定，以提高语音识别性能的用于识别语音的预处理装置及其方法。

技术方案

根据本发明的一个侧面，本发明提供一种用于识别语音的预处理装置，其包括：末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。

本发明的特征在于，所述末端静音区间是输出语音识别开始音后，从通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。

本发明的另一特征在于，所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

本发明的又一特征在于，所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

本发明的又一特征在于，所述末端静音区间调整部在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。

根据本发明的另一侧面，本发明提供一种用于识别语音的预处理方法，其特征在于，包括：接收语音信号的步骤；检测包含在所述语音信号中的末端静音区间的长度的步骤；以及按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。

本发明的另一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

本发明的又一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

本发明的又一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。

本发明的特征在于，所述末端静音区间是输出语音识别开始音后，至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。

技术效果

根据本发明，在识别语音时考虑用户的声响预处理语音信号，使得末端静音区间保持一定，从而提高语音识别性能。

附图说明

图1为说明现有语音识别装置中包含在接收到的语音信号中的末端静音区间的长度所对应的语音识别率的示意图；

图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图；

图3为说明本发明的一个实施例的用于识别语音的预处理方法的流程图；

图4为上述图3中说明末端静音区间的调整方法的语音信号的示意图；

图5为显示本发明的一个实施例的调整包含在语音信号中的末端静音区间长度的情况和没有调整时的情况的语音识别率比较表格。

附图标记说明

MIC : 语音输入部 110 : 模数转换部(AD转换部)

120 : 末端静音区间预处理部 121 : 末端静音区间检测部

122 : 末端静音区间调整部 123 : 基准末端静音区间存储部

130 : 信号预处理部 140 : 语音识别部

具体实施方式

以下，参考附图说明本发明的用于识别语音的预处理装置及其方法的一个实施例。

此过程中，附图所示的线条的宽度或构成要素的大小等，为了说明的明确性和便利性有可能放大显示。另外，后述的用语是考虑到本发明的功能而定义的用语，根据使用者、运营者的意图和惯例可有所不同。所以对这些用语的定义应以本说明书全篇内容为准。

图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图。

如图2所示，本发明的一个实施例的语音识别装置包括语音输入部MIC、模数转换部(AD转换部)110、末端静音区间预处理部120、信号预处理部130以及语音识别部140。

所述语音输入部MIC是用于接收用户的语音的构成要素，例如相当于麦克风。

所述模数转换部110将从所述语音输入部MIC输出的用户语音信号转换为易于处理的数字信号。

所述末端静音区间预处理部120包括：检测包含在所述语音信号中的末端静音区间(时间)的长度的末端静音区间检测部121，存储基准末端静音区间(时间)长度的基准末端静音区间存储部123，按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的末端静音区间调整部122。

因此，所述末端静音区间预处理部120从变换为所述数字信号的用户的语音信号中检测末端静音区间(时间)，并将包含在所述语音信号中的所述末端静音区间调整成基准末端静音区间的长度。

例如，当从所述语音信号中检测的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号中的末端静音区间的长度，以调整成基准末端静音区间的长度。相反，当从所述语音信号中检测的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

这时，所述末端静音区间预处理部120可利用如微处理器或者数字信号处理器等一种控制构件实现，以软件方式处理所述末端静音区间的调整。

在此，所述末端静音区间是从输出语音识别开始音(嘟嘟(BEEP)音)后至通过所述语音输入部MIC检测到的语音信号中输入有实际的用户语音的时间的区间，考虑到便利性，本实施例中将所述末端静音区间假设为100ms进行说明。这时，所述实际用户的语音输入的点是语音信号中预先设定的临界值(Threshold Level)以上的点。

所述信号预处理部130接收所述末端静音区间经过预处理后的语音信号，以执行信号预处理。

即，对所述语音信号执行消除噪音及自动增益调节等识别语音所需的信号预处理作业。

所述语音识别部140识别经过所述信号预处理后的语音信号。

即，识别相应于所述语音信号的命令的含义。换言之判断相当于所述语音的命令。

另外，在本实施例中省略与本发明的技术主题无直接关联的所述信号预处理部130及所述语音识别部140的具体说明。

图3为说明本发明的一个实施例的用于语音识别的预处理方法的流程图，图4为所述图3中说明末端静音区间的调整方法的语音信号的示意图。

以下，参考图3和图4说明包含在所述语音信号中的末端静音区间的长度调整方法。

在步骤S101中，所述末端静音区间预处理部120接收变换为所述数字信号的语音信号。

并且在步骤S102中，检测包含在所述语音信号中的末端静音区间的长度。

这时，包含在所述语音信号的末端静音区间的长度可能如图4中的(a)所示，短于基准末端静音区间的长度(例如：100ms)，或可能如图4中的(b)所示，长于基准末端静音区间的长度。

因此当如图4中的(a)所示，从语音信号中检测的末端静音区间的长度短(例如：20ms)的情况下，在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如：100ms)增加末端静音区间的长度(例如：80ms)，以进行调整。

同样，当如图4中的(b)所示，从语音信号检测的末端静音区间的长度长(例如：200ms)的情况下，在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如：100ms)去除末端静音区间的部分长度(例如：100ms)。

这时，所述末端静音区间的调整部分是语音信号开始的初始部分。

如上所述，通过末端静音区间预处理部120，按照基准末端静音区间的长度调整包含在语音信号中的末端静音区间的长度，从而能够提高语音识别率。

图5为显示比较本发明的一个实施例的调整包含在语音信号中的末端静音区间的长度的情况与未调整时的情况的语音识别率比较表格。

如图5所示，当包含在语音信号中的末端静音区间的长度比基准末端静音区间的长度(例如：100ms)短(例如：20ms)或长(例如：200ms)时，语音识别率为90％，处于低水平，但是当利用本发明的方法，按照基准末端静音区间的长度(例如：100ms)调整包含在语音信号中的末端静音区间的长度时，可以确认到语音识别率提高到95％。

以上，参考附图所示的实施例对本发明做了说明，但这只是例子，本发明所属领域的普通技术人员应该理解，可以由此实现多种变更及均等的其他实施例。因此，本发明的技术保护范围应以本发明的技术方案的范围为准。

Claims

1.一种用于识别语音的预处理装置，其特征在于，包括：

末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；

基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及

末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。

2.根据权利要求1所述的用于识别语音的预处理装置，其特征在于：

所述末端静音区间是输出语音识别开始音后，至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。

3.根据权利要求1所述的用于识别语音的预处理装置，其特征在于：

所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

4.根据权利要求3所述的用于识别语音的预处理装置，其特征在于：

所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

5.根据权利要求1所述的用于识别语音的预处理装置，其特征在于：

所述末端静音区间调整部在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。

6.一种用于识别语音的预处理方法，其特征在于，包括：

接收语音信号的步骤；

检测包含在所述语音信号中的末端静音区间的长度的步骤；以及

按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。

7.根据权利要求6所述的用于识别语音的预处理方法，其特征在于：

所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

8.根据权利要求7所述的用于识别语音的预处理方法，其特征在于：

所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。

9.根据权利要求6所述的用于识别语音的预处理方法，其特征在于：

所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。

10.根据权利要求6所述的用于识别语音的预处理方法，其特征在于：