CN101023469A - 数字滤波方法和装置 - Google Patents

数字滤波方法和装置 Download PDF

Info

Publication number
CN101023469A
CN101023469A CNA2005800254929A CN200580025492A CN101023469A CN 101023469 A CN101023469 A CN 101023469A CN A2005800254929 A CNA2005800254929 A CN A2005800254929A CN 200580025492 A CN200580025492 A CN 200580025492A CN 101023469 A CN101023469 A CN 101023469A
Authority
CN
China
Prior art keywords
data
value
waveform
division arithmetic
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800254929A
Other languages
English (en)
Other versions
CN101023469B (zh
Inventor
赤松则男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokushima NUC
Original Assignee
University of Tokushima NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokushima NUC filed Critical University of Tokushima NUC
Publication of CN101023469A publication Critical patent/CN101023469A/zh
Application granted granted Critical
Publication of CN101023469B publication Critical patent/CN101023469B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明所要解决的技术问题是仅通过整数运算就可检测出辅音部和元音部。为根据所输入的声音信号来进行声音识别,从声音信号中抽出特征量的数字滤波装置包括:振幅计算部(22),求出所输入的声音信号的振幅,来量化振幅;除法运算值运算部(24),对于由振幅计算部(22)量化后的各点的数据,相加相邻的预定范围的数据的振幅值,并将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;比较部(26),对各数据,比较由除法运算值运算部(24)计算出的除法运算值和由振幅计算部(22)计算出的振幅值,输出比较结果的真伪;和变换部(28),根据比较部的输出,将振幅波形变换为凹凸波形。由此,可以通过整数的相加和比较运算来抽出特征量,可以极其简单、高速、低价地进行运算处理。

Description

数字滤波方法和装置
技术领域
本发明涉及有关对模拟信号进行数字处理的数字滤波器的数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质与进行记录的设备,例如,涉及除了声音识别和助听器等声音的再现之外还可用于图像处理等的数字滤波方法等。
背景技术
将声音作为数据取得,处理该数据而识别所说话的内容的声音识别装置已经实用化。例如,在通过说话来进行文章输入的应用程序和通过说话来进行操作的车载导航器等中内置了声音识别引擎。
一般,声音识别中采用了从输入声音信号中抽出良好表示其特征的少数参数(称作声音特征量),将其与预先登记的模型的特征量相对照,而将最接近的模型作为识别结果的方法。该方法中,声音特征量起到的作用很重要,用于以更少的参数个数来更高精度地表示声音的特征的各种研究正在进行中。
作为在声音识别中使用的代表性的特征矢量,普遍知道可通过带通滤波器或傅立叶变换求出的功率谱和通过LPC(线性预测)分析求出的对数倒频谱(cepstrum)系数等。将通过特征矢量抽出单元抽出的特征矢量的时间序列发送到图案对照单元中,来加以识别(例如参考专利文献1)。
但是,在这种方法中,由于用于进行图案对照时的特征量抽出的处理运算极其复杂,要求很高的处理能力。结果,有用于声音识别的结构变复杂、处理时间也变长的问题。
另一方面,随着便携电话的普及和便携电子终端的小型化,作为这种设备中的用于输入输出的接口,声音识别技术引人注目。最近,使用了隐藏马尔可夫模型(HMM:Hidden Markov model)的关键字捕捉(spotting)和连续声音识别等、对说话者的发声方式没有限制的自然说话识别用的研究和开发盛行。
另一方面,用于听觉不好的人的助听器和再现声音的扬声器等中,处理声音波形,使得声音容易听取的技术也引人关注。在向这种便携型设备的应用中,要求是尽可能简单的算法,且可以进行高速处理的声音识别技术。但是,还没有开发出在可实用的水平上简化用于声音识别的运算处理的助听器。
并不限于声音识别,在模拟信号的分析处理中,一般多数在频谱分析等中使用傅立叶变换。但是,由于实现傅立叶变换和反傅立叶变换运算复杂,且处理量多,要求很高的处理能力,所以有实现它的硬件电路结构也变得复杂、价格高的问题。
专利文献1:特开2003-271190号公报。
发明内容
本发明是为解决这种问题而作出的。本发明的主要目的是提供一种数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质和进行记录的设备,通过在波形信号处理中简化运算,使处理高速且低负担,由此可容易进行安装和组装。
为了实现上述目的,本发明的第1方面的数字滤波方法,根据所输入的信号波形来抽出特征量,其特征在于,包括:将信号波形作为输入信号输入,对信号波形进行量化而取得量化数据,并存储到存储器单元中的步骤;在量化数据中,通过将与任意点相邻的预定范围预先设置为相加区间以及/或者预先设置相加区间中包含的数据个数,由此对存储单元中存储的量化数据的每一点,将相加区间中包含的所有量化数据的数据值相加,来求出加法运算值,用数据个数除加法运算值来求出除法运算值,进一步根据需要通过减法运算将该点的量化数据的数据值和除法运算值之差计算为减法运算值,并输出除法运算值和减法运算值的步骤;重复步骤来对每个量化数据进行除法运算值和减法运算值的运算,并根据分别输出的各除法运算值和减法运算值,进行所输入的信号波形的数字滤波的步骤。
本发明的第2方面的数字滤波方法中,设置预定的范围,使得相加区间相对于任意点大致对称。
本发明的第3方面的数字滤波方法中,进行数字滤波的步骤包含:根据减法运算值进行高通滤波的步骤;和根据除法运算值进行低通滤波的步骤。
本发明的第4方面的数字滤波方法中,进行数字滤波的步骤包含如下的步骤:比较各点数据的数据值和各除法运算值,并根据比较结果的真伪来变换为凹凸波形。由此,可以通过整数的相加和比较运算来抽出特征量,通过极其简化,可以高速、价格低廉地进行运算处理。
本发明的第5方面的数字滤波方法中,通过整数运算来进行加法运算、减法运算、除法运算。由此,排除了浮点运算,可以仅通过固定小数点运算来进行运算,可以高速且低负担地进行运算处理。
本发明的第6方面的数字滤波方法中,预定范围的应相加的数据的个数为2的幂。由此,在除法运算时可以进行位移运算,可以进一步简化运算处理,还可提供高速化。
本发明的第7方面的数字滤波方法中,通过位移运算来进行用预定范围的相加的数据的个数除的除法运算。由此,在除法运算时可以进行位移运算,可以进一步简化运算处理,还可提供高速化。
本发明的第8方面的数字滤波方法中,在除法运算值的运算步骤中,为了对各个数据求出除法运算值,保持相加了预定范围的数据的数据值的加法运算值,在求出下一个的数据的加法运算值时,从所保持的加法运算值中减去不需要的数据值,并且加上需要的数据值,由此计算加法运算值。由此,在各除法运算值运算中求出加法运算值时,可以利用对前次的数据计算出的加法运算值,通过需要数据的替换而变为希望的加法运算值,可以大幅度简化加法运算,并可进一步使运算处理高速化。
本发明的第9方面的数字滤波方法中,在以k点为中心的前后n的区间N(=2n)中的除法运算值αk表现为
【式3】
α k = ( Σ i = k + 1 n + k x i ) + ( Σ i = k - n k - 1 x i ) N .
时,在除法运算值的运算步骤中,使用其前面位置即(k-1)点的除法运算值αk-1,按照
【式4】
αk=αk-1+(xk-1+xn+k-xk-xk-1-n)/N
计算除法运算值αk
本发明的第10方面的数字滤波方法中,N=64或256。
本发明的第11方面的数字滤波方法中,特征量是,设N=256,参考凹凸波形,从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度。
本发明的第12方面的数字滤波方法中,特征量是,设N=256,参考凹凸波形,在从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形的面积。
本发明的第13方面的数字滤波方法中,特征量是,设N=256,参考凹凸波形,从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形的分散值。
本发明的第14方面的数字滤波方法中,特征量是,设N=256,参考凹凸波形,将从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形规格化到0~1,与在凸宽度上生成的正弦波的类似性。
本发明的第15方面的数字滤波方法中,特征量是,设N=64,在三个周期的凹凸波形中存在的凸的数目。
本发明的第16方面的数字滤波方法中,所输入的信号波形是声音信号。
本发明的第17方面的数字滤波方法中,所输入的信号波形是电磁波。
本发明的第18方面的数字滤波方法中,所输入的信号波形是生物体信息。
本发明的第19方面的数字滤波方法,为根据所输入的声音信号来进行声音识别,从声音信号抽出特征量,其特征在于,包括:输入声音信号,并对输入信号的振幅进行量化的步骤;对于量化后的各点的数据,相加相邻的预定范围的数据的振幅值,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值的步骤;比较各点的数据的振幅值和各除法运算值,并根据比较结果的真伪,变换为凹凸波形的步骤;从凹凸波形中抽出特征量来进行声音识别的步骤。由此,可以通过整数的相加和比较运算来进行特征量的抽出,通过极其简化,高速、价格低廉地进行实现运算处理。
本发明的第20方面的数字滤波方法中,进一步包括如下的步骤:为进行元音识别,参考元音部分的一个周期波形即音调,来抽出假定为元音波形稳定的区间。
本发明的第21方面的数字滤波方法中,在元音波形的稳定区间的抽出步骤中,以位于所有音调数的约三分之二的位置的音调为中心抽出前后一个周期。
本发明的第22方面的数字滤波方法中,元音识别是根据从两个元音的组合得到的特征量来进行。
本发明的第23方面的数字滤波方法中,元音识别是通过根据离散沃罗诺伊图求出边界线,并以该边界线为基准,通过投票方式来进行的,的离散沃罗诺伊图是将通过2个元音的组合得到的特征量匹配而得的。
本发明的第24方面的数字滤波方法中,对于识别后的声音,若可识别辅音部,就增大音量,若在辅音部后可识别元音,就从元音部起预定时间内解除音量放大。由此,可以在听觉上听到为声音输出变大,声音的识别变得容易,另一方面,由于并非总是听到大音量的声音,所以由大音量造成的不舒服变得极少。尤其,由于在紧接着辅音部之后表现的元音部分的音量大,所以通过辅音和紧接着辅音之后的元音可以容易识别出声音。这时,通过一个周期到几个周期的短时间的波形来识别出元音部。若基于听觉和脑功能的短时间的声音识别完成,则由于其后元音继续,所以在该期间可以减小声音的输出信号,在再次输入辅音时,变大声音输出而可使声音识别变得容易。
本发明的第25方面的数字滤波装置中,根据所输入的信号波形来抽出特征量,其特征在于,包括:振幅计算部,求出所输入的信号波形的振幅,对振幅进行量化;除法运算值运算部,对于由振幅计算部量化后的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;减法运算单元,对于各数据,通过减法运算求出由除法运算值运算部计算出的除法运算值和由振幅计算部计算出的振幅值之差;存储器单元,保持加法运算值、减法运算值、除法运算值中的至少某一个。
本发明的第26方面的数字滤波装置中,比较部,对于各数据,比较由除法运算值运算部计算出的除法运算值和由振幅计算部计算出的振幅值,输出比较结果的真伪;变换部,根据比较部的输出,将信号波形变换为凹凸波形。由此,可以通过整数的相加和比较运算来抽出特征量,通过极其简化,可高速、低价地进行运算处理。
本发明的第27方面的数字滤波装置中,除法运算值运算部将预定范围的应相加的数据个数设为2的幂,并通过位移运算来进行用预定范围的相加的数据的个数除的除法运算。
本发明的第28方面的数字滤波装置中,除法运算值运算部为了对各个数据求出除法运算值,预先保持相加了预定范围的数据的振幅值的加法运算值,在求出下一个数据的加法运算值时,从所保持的加法运算值中减去不需要的振幅值,并且加上需要的振幅值,由此来计算加法运算值。由此,减少了计算量,可以实现处理的减轻和高速化。
本发明的第29方面的数字滤波装置中,所输入的信号波形是声音信号。
本发明的第30方面的数字滤波装置中,所输入的信号波形是电磁波。
本发明的第31方面的数字滤波装置中,所输入的信号波形是生物体信号。
本发明的第32方面的数字滤波装置中,为根据所输入的声音信号来进行声音识别,从声音信号中抽出特征量,其特征在于,包括:振幅计算部,求出所输入的声音信号的振幅,对振幅进行量化;除法运算值运算部,对于由振幅计算部量化了的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;比较部,对于各数据,比较由除法运算值运算部计算出的除法运算值和由振幅计算部计算出的振幅值,输出比较结果的真伪;变换部,根据比较部的输出,将声音信号变换为凹凸波形。由此,可以通过整数的相加和比较运算来抽出特征量,通过极其简化,可以高速、低价地进行运算处理。
本发明的第33方面的数字滤波程序中,根据所输入的信号波形,抽出特征量,其特征在于,使计算机实现下述功能:输入信号波形,对输入信号的振幅进行量化;对于量化后的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;计算各点的数据的振幅值和各除法运算值之差;将计算出的加法运算值、减法运算值和除法运算值中至少某一个保持到存储器单元中,并且根据这些加法运算值、减法运算值、除法运算值中的至少某一个值,进行所输入的信号波形的数字滤波。由此,可以通过整数的加法运算和比较运算来抽出特征量,通过极其简化,可高速、低价地进行运算处理。
本发明的第34方面的可由计算机读取的记录介质或所记录的设备存储了上述程序。记录介质包含CD-ROM、CD-R、CD-RW和软盘、磁带、MO、DVD-ROM、DVD-RAM、DVD-R、DVD+R、DVD-RW、DVD+RW、Blue-ray、HD DVD(AOD)等的磁盘、光盘、光磁盘、半导体存储器和其他可存储程序的介质。此外,程序除了存储在上述记录介质上来进行分配之外,还包含通过互联网等网络线路通过下载来分发的方式。进一步,记录的设备中包含通用或专用设备,所述通用或专用设备中上述程序以能够以软件和固件(firmware)等方式执行的状态安装。另外,上述程序中包含的各处理和功能可通过可由计算机执行的程序软件来执行,也可通过预定的门阵列(FPGA、ASIC)等的硬件、或程/软件和实现硬件的一部分要素的部分硬件模块混合的形式来实现各部分的处理。
发明效果
根据本发明的数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质和所记录的设备,可以通过整数的加法运算和比较运算来抽出特征量,可以大幅度减少信号波形处理中的运算处理量来实现高速化。尤其,在CPU或存储量被限制、有限的运算处理能力的便携型电子设备中,可以实现可安装的低负担的波形信号处理。
附图说明
图1是表示本发明的一实施方式的声音识别装置的电子线摄像部的结构的框图;
图2是表示对振幅波形的N个数据求出除法运算值αk的情况的说明图;
图3是表示所输入的声音波形及其音调(pitch)信息的说明图;
图4是表示稳定的三个周期的元音波形的曲线;
图5是表示设N=256而从图4中抽出的一个周期的凹凸波形的曲线;
图6是表示设N=64而从图4中抽出的一个周期的凹凸波形的曲线;
图7是表示凸部分的/e/音素波形和所生成的正弦波的波形的曲线;
图8是表示凸部分的/o/音素波形和所生成的正弦波的波形的曲线;
图9是表示与有意识说话中使用的/i/和/u/有关的特征分布的曲线;
图10是表示与有意识说话中使用的/e/和/o/有关的特征分布的曲线;
图11是表示本发明的实施例2的听觉辅助装置的结构的框图;
图12是表示声音信号处理方法的步骤的流程图;
图13是表示与声音的最低频率对应的波形的曲线;
图14是表示与声音的最高频率对应的波形的曲线;
图15是表示低音通过滤波电路的电路图;
图16是表示图15的L-R电路的频率特性的曲线;
图17是表示高音通过滤波电路的电路图;
图18是表示图17的C-R电路的频率特性的曲线;
图19是表示2路方式的扬声器系统的网络滤波器的电路图;
图20是表示相加了图17的高音通过滤波器和图16的低音通过滤波器的输出的电路的框图;
图21是表示本发明的实施方式的无相位偏移用滤波器的框图;
图22是表示从头部前叶采集的脑电波的频谱波形的曲线;
图23是表示通过天线来接收2.4GHz频带的电磁波的反射波,并进行A/D变换的信号波形的曲线;
图24是表示对图23所示的电磁波的信号波形实施数字滤波、并实施了数字积分的波形的曲线;
图25是表示本发明的一实施方式的数字滤波方法的步骤的流程图。
具体实施方式
下面,根据附图来说明本发明的实施方式。下面的实施方式示例了使本发明的技术思想具体化的数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质和进行记录的设备,本发明中数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质和进行记录的设备并不限于下面的内容。另外,本说明书的权利要求范围所示的部件不由实施方式的部件中特定的内容来决定。尤其,只要是实施方式中记载的构成部件的尺寸、材料、形状及其相对配置等没有进行特别特定的记载,则不过是单纯的说明例,而不是将本发明的范围仅限于此的含义。另外,为了使说明明确,有时夸张了各附图所示的部件的大小和位置关系等。进一步,在下面的说明中,同一名称、符号表示相同或相同材质的部件,适当省略详细说明。进一步,构成本发明的各要素也可以采取用同一部件构成多个要素、并由一个部件兼用多个要素的方式,相反,还可以由多个部件分担一各部件的功能来实现。
本说明书中,数字滤波装置和与其相连的操作、控制、输入输出、显示、其他处理等用的计算机、打印机、外部存储装置等其他外围设备的连接,通过例如IEEE1394、RS-232x、RS-422、RS-423、RS-485、USB等串行连接、并行连接或10BASE-T、100BASE-TX、1000BASE-T等网络来电连接并进行通信。连接并不限于使用了有线的物理连接,也可以是利用了IEEE802.1x、OFDM方式等的无线LAN和Bluetooth等的电波、红外线、光通信等的无线连接等。进一步,用于进行作为信号波形处理的对象的信号波形数据和处理后的数据的保存、和设置的保存等的记录介质,可以使用存储卡和磁盘、光盘、磁光盘、半导体存储器等。
在现在采用了傅立叶变换等的图像处理系统的匹配和声音的实时分析和合成、热传导、应用力学、电磁场的解法这样的工学领域中,本发明的数字滤波方法可以作为代替傅立叶变换的数字滤波来使用。尤其,由于可仅通过四则运算进行处理,而不用进行在傅立叶变换等数字信号处理中必须的浮点运算这样的复杂、高级运算,所以不需要高级处理能力,可用比较便宜的LSI等来实现,且由于负担低,所以可进行高速处理,还可适用于实时处理。
进行数字滤波的数字滤波装置包括:对所输入的输入信号的信号波形进行量化的量化单元;可存储量化数据的存储器单元;对任意的量化数据,将与对象点相邻的预定范围预先设定为相加区间,或/且预先设置相加区间中包含的数据个数的设置单元;对存储单元中存储的量化数据的每个点,将相加区间中包含的所有量化数据的数据值相加,来求出加法运算值,并用数据个数除加法运算值,求出除法运算值,并进一步根据需要,通过减法运算将该点的量化数据的数据值和除法运算值之差计算为减法运算值,并输出这些除法运算值和减法运算值的运算单元。量化单元可以由例如求出输入信号的信号波形的振幅,并量化振幅的振幅计算部构成。另外,存储器单元可以使用除了保持量化数据之外还可保持加法运算值、减法运算值、除法运算值中的至少某一个的存储器。进一步,运算部由除法运算值运算部和减法运算单元构成,所述除法运算值运算部对由振幅计算部量化的各点的数据,将相邻的预定范围的数据的振幅值相加,并将其除以相加的数据的个数来求出以该数据为中心的除法运算值;所述减法运算单元通过减法运算来求出对各数据由除法运算值运算部计算出的除法运算值和由振幅计算部计算出的振幅值之差。使用这样得到的除法运算值和减法运算值,来进行各种数字滤波处理。
根据图25的流程图来说明数字滤波步骤的一例。首先,在步骤S1中输入输入信号的信号波形。接着,在步骤S2中对该信号波形进行量化。当然还可根据需要来进行抽样和编码处理。将量化后的离散的各量化数据在步骤S3中存储到存储器中。
接着,在步骤S4中决定滤波处理点。这里,滤波处理对量化数据的各点全部依次进行。例如,通过递增处理等,依次切换进行滤波处理的对象点,同时,计算各点的加法运算值、除法运算值、减法运算值等。若在步骤S4中决定了滤波处理点,则根据所设置的滤波处理条件来进行滤波处理。关于用于进行滤波处理的条件的设置,最好在信号波形的输入之前预先由设置单元进行设置。作为应设置的项目有将量化数据的数据值相加的范围,即,与滤波处理点相邻的一定范围的相加区间、和/或相加区间中包含的数据个数。在图25的例子中,在步骤S5调用相加区间的设置,并基于此,在步骤S6算出相加区间中的所有量化数据的数据值的加法运算值S,另一方面,在步骤S7算出相加区间中包含的数据个数N。另外,由于在量化数据的抽样周期(或抽样频率)已知的情况下,利用相加区间来唯一决定数据个数,所以不需要每次进行计算,仅将N作为预定值调用就可以。相反,在数据个数N和抽样周期决定了的情况下,由于相加区间唯一决定,所以这时将相加区间单单作为规定值调用就可以。在任何一种情况下,都可根据预先由设置单元设置的滤波处理条件,取得运算所需的信息。
若这样计算加法运算值S和相加区间的数据个数N,则在步骤S8中可以用数据个数N除加法运算值S来算出除法运算值A。进一步,根据需要,在步骤S9,从滤波处理点的数据值中减去(或相反)除法运算值A,来算出减法运算值B。并且,在步骤S10中将除法运算值A和/或减法运算值B作为滤波处理的结果输出。若这样计算一个滤波处理点中的滤波处理值,则将滤波处理值暂时存储到存储器中,并回到步骤S11,改变滤波处理点后,重复上述的运算。最终使用对所有的量化数据得到的滤波处理值,进行希望的数据滤波处理。根据使用本发明的用途,适当选择该数据滤波处理。
图1作为本发明的一实施方式,表示将数字滤波装置适用于声音识别装置的例子的框图。图1(a)所示的声音识别装置100包括扩音器10、噪声去除装置12、特征量抽出部14、类似度计算部16、标准模型词典20和判断处理部18。
图1(a)中,通过扩音器输入说话者发出的声音,并通过A/D(模拟/数字)变换器变换为数字电信号(数字声音信号),但是除了直接输入声音数据之外,还可以是从与网络相连的外部设备输入声音数据的方式。
将从扩音器10取得的声音输入到噪声去除装置12中,这里,以10ms左右的周期进行帧分析,去除周围环境的噪声和扩音器与传送路径具有的传送特性噪声。之后,通过特征量抽出部14来抽出在声音识别中使用的特征量。并且,由类似度计算部16算出与预先在标准模型词典20上登记的多个单词的特征量之间的类似度。由判断处理部18判断该类似度是否比某个阈值大,若大,则将该单词作为识别结果输出。这些特征量抽出部14、类似度计算部16、判断处理部18等各种运算处理部件由微处理器(MPU)和CPU、LSI、FPGA和ASIC等叫做门阵列的逻辑电路,或中央运算装置等硬件和软件,或者它们的混合来实现。另外,各构成要素可以不一定与图1所示的结构相同,其功能实质上相同的结构或一个要素具有图1所示的构成中的多个要素的功能的结构,包含在本发明中。
作为特征量,一般使用对数倒频谱系数,通过对数的变换处理来求出对数频谱,并通过进行反傅立叶变换或反余弦变换来算出来抽出。但是,该方法中,需要向频率频谱变换等的运算,处理量负担大,所以本实施方式中采取从振幅波形中抽出各元音(5个元音)的特征的方式。通过从振幅波形中抽出特征,可以节约用于向频率频谱等的变换的运算,运算次数也是比较少的计算量就可以。使用所得到的特征量来按照离散沃罗诺伊图(Voronoi图)分割区域,算出不同分类的边界坐标来决定基于最小二乘法的识别边界线。
作为标准模型,有将多个识别对象词汇中每个识别对象词汇的特征量的时间序列以概率的变化来表现的称作隐藏马尔可夫模块(HMM)的方法。所谓HMM是预先使HMM模块学习由个人差异形成的音韵和单词特征量的时间序列,并捕捉输入声音与模型在概率值上有多接近来加以识别的方法。作为标准模型,可以将每多个识别对象词汇的时间序列中代表性的特征量的时间序列作为模型,也可采用进一步通过在时间上或频率上对特征量的时间序列进行规格化(压缩扩展)来得到的特征量的规格化时间序列。例如,作为在时间轴上规格化为任意长度的方法有DP匹配(动态计划法),可以根据预先决定的对应规则,来对时间特征量的时间序列进行规格化。
本实施方式中,如上所述可以使用任一种情况下的标准模块。但是,在产生任意一种标准模型的情况下,都需要预先准备用于制作标准模型的多个声音数据,对输入声音的振幅进行同样的处理,并变换为凹凸波形后进行登记。
(特征量抽出部)
如图1(b)所示,特征量抽出部14具有振幅计算部22、除法运算值运算部24、比较部26和变换部28。振幅计算部22根据输入波形的振幅波形来进行量化。在除法运算值运算部24中,对量化后的数据求出各点的除法运算值。这里,如图2(a)所示,对于以抽样点为中心的N个数据,求出除法运算值。即,对于以抽样点k为中心,之前的n(=N/2)个数据和之后的n个数据,相加振幅值并除以N。具体而言,设N=2×n,按照下面的式5计算由xk的前后n点的抽样值得到的除法运算值αk
[式5]
α k = ( Σ i = k + 1 n + k x i ) + ( Σ i = k - n k - 1 x i ) N
这里,下标k是现在参考的抽样点。Xk表示k点中的振幅值。N表示用于算出阈值的幅,该阈值用于算出凹凸波形。这里,通过设N为2的幂,在进行除法运算时,若为2进制,则可以利用位移(bit shift)运算,使除法运算值运算部24的运算简单,所以是有选的。
在比较部26,对如上在除法运算值运算部24中对各点得到的除法运算值与振幅值进行比较。具体而言,比较各点的振幅值Xk及其除法运算值αk,并按照下面的式6输出比较结果。
[式6]
B k = a ( &alpha; k < x k ) b ( &alpha; k > x k ) .
这样,比较部26对振幅波形的各点来计算除法运算值,并根据输出k点的抽样值(振幅值)比各除法运算值大或小而得到的信号。作为比较结果,若xk为除法运算值以上,则比较部26输出a,若为除法运算值以下,则比较部26输出b。在变换部28中以凹凸状的波形输出该结果。例如,若设a=1,b=0,则振幅波形能够以或是波谷或是波峰(0或1)的凹凸波形来表现。该凹凸波形在计算除法运算值后的N个区域中,表现为xk为除法运算值以上即波形为凸形,或xk为除法运算值以下即为凹形。由此,若使N的值变化,则可以很粗或很细地表现原始振幅波形的凹凸,通过使N作为参数变化,可以抽出多个特征量。这样,通过仅以凹凸来简化表现振幅波形的特征,可以抽出需要的特征量,并可以适用于声音识别模型。尤其,对于仅以凹凸表现的特征量,在不太高级的信息处理功能中可以实现从声音波形中分割(Segmentation)出辅音部和元音部。另外,在根据所识别出的声音来对声音输出施加处理的情况下,也可以以实用的时间间隔使声音输出的大小变化。
进一步,在除法运算值的运算中,在求出振幅波形的加法运算值时,可以利用接近位置的运算值来简化运算。即,为了对某个数据求出除法运算值,而预先保持相加了N(=2n)个数据的振幅值的加法运算值。这时,除法运算值αk可以按照下面的式7进行计算。
[式7]
&alpha; k = &Sigma; i = k - n k - 1 x i + &Sigma; i = k + 1 n + k x i N
= &Sigma; i = k - n k - 2 x i + x k - 1 + &Sigma; i = k + 1 n + k - 1 x i + x n + k N
这里,除法运算值αk可以按照下面的式8变形。
[式8]
&alpha; k = &Sigma; i = k - n k - 2 x i + &Sigma; i = k + 1 n + k - 1 x i N + x k - 1 + x n + k N .
另一方面,由于除法运算值αk用上面的式5来表示,所以还可以镖市为式9。
[式9]
&alpha; k = &Sigma; i = k - n k - 1 x i + &Sigma; i = k + 1 n + k x i N .
因此,若将k置换为k-1,则对于k-1即k前一个数据的除法运算值αk-1可以按照下面的式10表示。
[式10]
&alpha; k - 1 = x k - 1 - n + &Sigma; i = k - n k - 2 x i + &Sigma; i = k n + k - 1 x i N .
进一步,若变形αk-1,则如下面式11。
[式11]
&alpha; k - 1 - x k - 1 - n N - x k N = &Sigma; i = k - n k - 2 x i + &Sigma; i = k + 1 n + k - 1 x i N .
若在上述式11中代入αk-1来求出除法运算值αk,则如下面的式12。
[式12]
&alpha; k = &Sigma; i = k - n k - 2 x i + &Sigma; i = k + 1 n + k - 1 x i N + x k - 1 + x n + k N .
进一步,若重新表示αk-1,则如式13。
[式13]
&alpha; k - 1 - x k - 1 - n N - x k N = &Sigma; i = k - n k - 2 x i + &Sigma; i = k + 1 n + k - 1 x i N .
若整理上述式12、式13,则如下面的式14。
[式14]
&alpha; k = &alpha; k - 1 + x k - 1 + x n + k N - x k + x k - 1 - n N
= &alpha; k - 1 + x k - 1 + x n + k - x k - x k - 1 - n N
从式14中,可以使用其前一级算出的除法运算值αk-1来容易计算除法运算值αk。即,若求出αk-1,则在作为式14的第二项的下面的式15中
[式15]
αk=αk-1+(xk-1+xn+k-xk-xk-1-n)/N
通过与αk-1相加,可以求出除法运算值αk。由此,可以依次求出αk+1、αk+2、...、αk+n。若用图来表示上述运算,则如图2(b)。如该图所示,可以看出在算出αk和αk-1时的数据上有公共区域。因此,若对于这些公共区域的数据,在一次计算中终止运算,并将该运算结果存储到存储器等存储单元中,则可以用于下一运算,所以整体的计算时间缩短。如上所述,通过简化运算,并进一步还减少运算量,可以使运算处理的负担极低,得到通过非常简单的运算来求出所有的除法运算值αk的算法。由此,可以从声音波形中高速且简单地求出用于声音识别的特征抽出,实用性极高。
实施例1
接着,作为实施例1,图3~图10表示使用了通过计算机模拟来抽出的特征量的元音识别实验的结果。
(声音数据)
在实施例1中,作为从声音数据中抽出特征量的特征量抽出部14,使用了生成声音的特征、并组合模拟处理部和数字处理部来制作的专用集成电路(IC)。所谓声音的特征,是指在用波形表现声音时一般在正区域和负区域中为非对称的情况、和从声带送出的压力基于脉冲信号的发生、衰减的情况。若考虑这些方面来用电压值测量从扩音器10得到的声音信号,则同时在一定时间内保持正负电力值的最大,同时检测出直到检测出下一正负电压值为止的时间,并检测出音调(pitch)。通过使用该IC,可以检测出声音波形和音调。图3表示通过IC取得的声音波形和音调信息。
使用从5个元音得到的2个元音的组合,以投票形式进行分类。并且,根据声音的振幅波形来进行对识别有效的特征的抽出和分析。实施例1中,从1名成年男性中取得67个音素的17组声音数据。抽样频率是81.92kHz。进一步,关于声音,取得自然说话和有意识说话的数据,自然说话是不管一天中的时间而产生的声音,有意识说话是在夜晚等安静的时间段清楚发出音素的声音。作为声音的长度,以自然说话的约1.5倍的长度取得有意识说话的音调数。
(元音波形抽出和预处理)
为了进行元音识别,参考从IC得到的音调,从音素数据中抽出假定为元音稳定的区间。因此,以位于全部音调个数的2/3的位置上的音调为中心抽出前后一个周期,将全部三个周期的信号作为稳定的元音波形用于抽出特征。并且,根据所抽出的三个周期的元音波形生成凹凸波形。这里,图4表示从原始振幅波形即假设为稳定的三个周期的元音波形,图5表示设N=256而从图4中抽出的一个周期的凹凸波形,图6表示设N=64而从图4中抽出的一个周期的凹凸波形。这些图中,设上述式6的a=0.8、b=0.2。比较图5和图6,可知N小的图6为细的凹凸波形,很细地抽出振幅波形的波峰波谷的情况,以及N大的图5很粗地抽出振幅波形的波峰波谷的情况。实施例1中,如上所述,使用将N设置为256和64这两个所得到的凹凸波形来进行识别实验。另外,作为N的值虽然以经验决定作为生成凹凸波形的宽度即256和64,但是当然也可以为除此之外的值。
使用这样得到的振幅波形和凹凸波形在时间轴上抽出元音的特征量。主要从一个周期的波形中抽出特征量。对于该一个周期的波形,从作为三个周期的波形的起点的点开始计算类似度(欧几里德距离),并选择距离接近的2个周期。并且,选择时间上早存在的波形。这是因为为了进行比中心靠后的元音波形的抽出,认为位于前半部分的元音波形是比位于后半部分的元音波形更具有元音特征的波形。从这样选择出的一个周期的波形部分和三个周期的凹凸波形中抽出特征。接着,描述用于识别元音的特征量。抽出的特征量的数目全部是5个。用于识别元音的提案系统决定为是想要根据从5个元音内的2个元音的各组合选出的元音的投票数来决定的元音。为了识别应从2个元音的组合中选择的元音,按每个组合用于识别各2个元音的特征不同。认为通过按每个组合来选择容易识别2个元音的特征量,可以得到比较高的识别率。抽出的5个特征量如下。
(1)参考256个凹凸波形,从元音波形的一个周期的起始开始搜索而得到的最初凸部分的宽度;
(2)参考256个凹凸波形,在从元音波形的一个周期的起始开始搜索而得到的最初凸部分的宽度上存在的振幅波形的面积;
(3)参考256个凹凸波形,在从元音波形的一个周期的起始开始搜索而得到的最初凸部分的宽度上存在的振幅波形的分散值;
(4)参考256个凹凸波形,将从元音波形的一个周期的起始开始搜索而得到的最初凸部分的宽度上存在的振幅波形规格化为0~1,此时与在凸幅上产生的正弦波的类似性;
(5)在3个周期的64凹凸波形上存在的凸的数量。
这里详细描述特征量4。首先,为了抽出特征量4,生成正弦波。该正弦波进行如下的处理。
(1)将凸形区间的振幅值规格化为0~1。检测出该振幅值的最大值的位置。
(2)从起点到最大值位置生成0~π/2的正弦波。从最大位置到终点生成π/2到π的正弦波。
图7和图8表示通过正弦波得到的波形和振幅波形的例子。图7是凸部分的/e/音素波形和所生成的正弦波,图8是凸部分的/o/音素波形和所生成的正弦波。特征量4从这两个波形依次在4个点上计算角度,并将该差的总和作为特征量。这些特征量的大半部分由在一个周期的起始存在的凸形部分的特征量构成。该部分在元音波形(稳定波形)中最有变化,认为表现出了各元音的特征。位于该开始部分的凸部分是从一个周期的256个凹凸波形中检测出,是在接着凹幅最大的位置出现的凸部分。
(元音识别实验)
接着,使用所抽出的特征量来使用离散沃罗诺伊图和最小二乘法来进行元音的识别。所谓离散沃罗诺伊图是表示在空间中配置的多个基点的势力范围的图。离散沃罗诺伊图使基点存在的空间离散化,按照各象素接近于哪个基点来分割空间。本实施例中使用的离散沃罗诺伊图使用逐次添加法。其是通过将基点一个接一个地追加到离散的空间,高效生成新的沃罗诺伊区域,由此高速制作离散沃罗诺伊图的方法。本实施例中使用的离散沃罗诺伊区域是5160×5160的区域,与各基点的对应使用所得到的基点的最大值来均匀分割0到最大值。
(元音识别算法)
识别算法通过2个元音的组合(5C2)进行。并且,使用适用于各组合的特征量来选择元音,并通过从所有组合得到的投票数来决定识别的元音。表1表示适用于该各个组合的特征量(为识别而使用)。
[表1]
表1:用于识别的特征量的组合
    /a/-/i/     /a/-/u/     /a/-/e/     /a/-/o/     /i/-/u/
    1-2     1-2     1-2     1-2     1-5
    /i/-/e/   /i/-/o/   /u/-/e/ /u/-/o/   /e/-/o/
    1-2   1-2   1-4 1-2   3-4
这里,在表示用于识别的特征量的组合的表1中,上段的/a/-/i/等表示各元音的组合,下段的1-2等表示所使用的特征量的序号(1)和(2)。进行这些2个元音的识别的特征的选择是调查从所有数据抽出的特征量的分布,在基于目视确认了特征量分布后,以经验来决定。进一步,用于进行元音的识别的特征量的数目是2个,这是因为认为若使用单一的特征量来进行识别,则由于成为简单的阈值处理,所以处理时间很少就可以了,但是由于即使是同一元音,分布也很广,对于边界附近的数据,若以单一的特征进行识别,则容易产生误识别。此外,其目的是通过使用2个特征量,使得基于目测容易进行数据分布的确认,以及可以进行非线性的识别,而不是直线的阈值处理,且运算次数尽可能少。
本方法中,元音识别求出基于离散沃罗诺伊图的2类元音的组合的边界线。匹配所得到的特征量,分为沃罗诺伊区域。并且,实现基于同一分类的区域的综合,得到2类之间的边界部分的坐标。并且,对由该坐标构成的边界线,通过最小二乘法来算出边界线的函数。使用该边界线的函数,通过2类间的投票方式来进行元音的识别。设为仅在选择出的元音的投票数单独存在最多的情况下识别为该元音。在最多的投票数相等地出现在多个元音上的情况下删除。这里,对于/i/和/u/之外的组合的识别,原样使用所抽出的特征量。但是,对于/i/和/u/的识别,通过取特征量1的常用对数(commonlogarithm)来变换数值。这是因为对于特征量5,特征量1的值的标量大,容易使用最小二乘法来求出边界线的函数。作为比较实验,进行使用了马哈诺比斯(maharanobis)距离的识别试验。其根据马哈诺比斯距离,来从各组合选择元音。马哈诺比斯距离表示从各组的中心考虑了分散的距离。本实施例中抽出的元音的特征是分布有偏向的特征量。因此,认为基于马哈诺比斯距离的识别有效。基于有意识说话的各元音数据个数是188个,基于自然说话的各元音数据是178个。使用适用于各识别的特征量,并根据沃罗诺伊图和马哈诺比斯距离得到的、基于自然说话的识别结果和基于有意识说话的识别结果表示于表2和表3。表2表示使用了离散沃罗诺伊图的基于自然说话和有意识说话的单独第一候选的识别率,表3表示基于马哈诺比斯距离的自然说话和有意识说话的单独第一候选的识别率。
[表2]
表2:使用了离散沃罗诺伊图的基于自然说话和有意识说话的基于单独第一候选的识别率
                      自然说话                     有意识说话
/a/ /i/  /u/  /e/  /o/ 平均  /a/  /i/  /u/  /e/  /o/ 平均
99.4 91.5  94.9  91.5  90.4 93.5  98.9  97.3  97.8  98.9  98.4 98.2
[表3]
表3:基于马哈诺比斯距离的自然说话和有意识说话的单独第一候选的识别率
                     自然说话                       有意识说话
/a/ /i/ /u/  /e/  /o/  平均  /a/ /i/ /u/  /e/  /o/  平均
95.2 91.4 82.4  98.4  88.2  91.1  98.4 97.3 90.4  100.0  90.9  95.4
如上所述,通过使用离散沃罗诺伊图求出边界线,识别率比使用马哈诺比斯距离进行的识别试验高。通过从离散沃罗诺伊图中可以导出明确的边界线,来提高了识别率,可得到良好的结果。如表3所示,从使用了马哈诺比斯距离的识别结果来看,自然说话和有意识说话两者中/u/和/e/的识别结果都比其他元音低。这是因为/i/和/u/、/e/和/o/的抽出特征超过边界而存在。具有在该边界附近存在的特征的元音,基于马哈诺比斯距离考虑分散而得到边界,但认为不能进行正确的识别。作为该理由,考虑不可以从现在使用的数据计算出正确的与各元音有关的分散的情况,或认为通过使用音压数据在类似的元音的特征分布状态中有偏向的情况等。
这里,图9和图10表示用于有意识说话的特征分布。图9表示与/i/和/u/有关的特征分布,图10表示与/e/和/o/有关的特征分布。从该结果可以看出有意识说话的结果比自然说话好。我们认为这是由于有意识地发声,出现很多元音部分的一个周期波形(音调),可以抽出稳定的元音波形。通过这样进行有意识说话,可以得到比较良好的识别结果。进一步,由于仅通过简单的运算来进行特征量的抽出和基于马哈诺比斯距离的识别,所以认为可以通过小规模的硬件结构来实现。但是,在识别精度上,不及使用了离散沃罗诺伊图的识别精度。因此,若可适当进行离散沃罗诺伊空间的设置,则认为可以构筑使用了离散沃罗诺伊图的小规模硬件。这样,通过使用本实施例1,认为得到了比较良好的识别精度。另外,通过保持势力图,而不用求出边界线,将特征量与该势力图对照,还可进行元音的确定。
如上所述,通过本实施例可以实现用于移动设备的声音识别系统。尤其是为了用于小型硬件,基于比较简单的运算,进行从元音的振幅波形抽出特征量、以及5个元音的识别,验证了其有效性。
进一步,通过进行基于除法运算值等的特征量的标量的规格化,可以用更小的空间来使用离散沃罗诺伊图,可以减少运算时间。另外,还可适用于可进行更明确地识别的特征抽出。例如,可以使用在对识别边界线进行2分类时使用的方法即SVM。另外,由于元音波形的每一个周期也有不同,所以通过特确假定为稳定的元音波形、和对元音调查从声音的开始到终止的音调宽度的改变等,并作为标准模型来登记,可以进一步改善对识别有效的特征的抽出和运算时间。
实施例2
(助听功能)
进一步,本发明作为声音信号处理的预处理具有较宽的应用范围,不仅用于所输入的声音信号的识别,还可进行声音输出时的处理,例如,将声音加工为更容易听取的形式。根据该应用,作为加工为更容易听取声音的助听功能,可以用于助听器等中。
现有的助听器中,单纯地将所检测出的声音信号全部放大来增大音量。但是,若增加从助听器输出的音量,由于还可以大声听到目标声音之外的噪声,所以耳朵中进入嗡嗡的声音,引起头痛障碍等伴随不快感。另外,由于小的扬声器中声音被分裂,导致音质劣化。进一步,若变大音量,则耗电量变大,长时间的使用很困难。进一步,还有耳机扬声器的口径变大,重量也增加,助听器整体的形状也变大的缺点。
与此相对,应用本发明的声音信号的特征量抽出功能,可以将声音中难以听取的成分加工为容易听取。即,将声音分为元音和辅音,相对于元音音量较大,容易听取,辅音往往时间短,音量也小,是相当难以听取的部分。因此,若强调辅音的部分,则可以变得容易听取。为从所检测出的声音信号中区别元音和辅音,可以使用上述的声音识别技术。这时,不需要具体的发音识别,只要能够区别元音和辅音就充分,所以可以使精度更高,且可以进一步简化处理。由此,区分辅音和元音,并且在再现前加工声音信号。
这里,作为在再现中大致实时调整音量的算法,在难以听取、时间也短的辅音部分时,增大音量,除此之外的部分设为通常的音量。由于在紧接着辅音部分之后表示的元音部分的音量一般很大,所以可通过辅音及紧接其后的元音来识别出声音。这时,元音部以1个周期到几个周期的短时间波形,完成声音识别。若基于听觉和脑功能的短时间声音识别完成,则之后元音继续,在该期间,声音的输出信号变得非常小。并且,若再次输入辅音,同样变大声音输出。通过该操作,可以在听觉上变大声音输出,由于并非总是听到大音量的声音,所以不快感极少。另外,也可以根据需要进行调整,使得元音的音量降低。
上述的声音信号处理算法中重要的方面是,在辅音输入的时刻,使声音输出从声音的输出通常或降低的状态增加的处理。现有系统中,声音识别本身的处理量多,若进一步加上这种音量变化的处理,则声音的辅音检测所需的时间和处理量增加,不容易实际使用。与此相对,在本发明的算法中,可以仅通过整数运算来检测出辅音部分和元音部分,所以可以通过非常短时间的简单的信号处理来检测出辅音。即,由于可以抑制为可进行高速处理的运算处理量,所以使得容易组装或安装到助听器或便携电话这种便携型电气设备等小型系统中。尤其通过准备进行专用的处理的IC,进行上述的数字信号处理,在便携设备具有的不太高级的信号处理功能中也可实现从声音波形中分割出(Segmentaion)辅音部分和元音部分,而可以以实用的处理速度来使声音输出的大小变化。这样,根据本实施例2,由于可以仅通过整数型运算来高速且简单执行,而不使用需要很长处理时间和大规模集成电路的浮点运算,所以实用价值高。另外,声音信号的处理通常使用DSP(Digital SignalProcessor,即数字信号处理器)等,但是若进行浮点数运算,则需要很长时间,且集成电路的规模也增大,所以很难装载到便携电话等中。与此相对,以上的算法可以仅通过整数型运算和位移运算来高速处理,以小规模的集成电路即可实现将其组装为电路。可以装载到便携设备或助听器等小型装置中的这一点在实用时是很大的优点。
进一步,还可以调整为对应于助听器使用者的频率特性。通过将从助听器的扬声器输出的声音的频率特性调整为与使用者耳朵的听觉特性相吻合,还可以对很难听到的频率进行校正,根据使用者,使其以容易听到的适当的声音来听取。
这样,根据本发明,可以实现容易听取声音的高性能的便携型助听器。尤其是,由于小型的助听器还受到可使用的电池大小的限制,需要小耗电量,所以如本发明,运算处理量少、需要的耗电量也很少就可以了的数字滤波方法是很理想的。
另外,本发明还可容易进行向助听器之外的便携设备的安装。即,在便携电话或PHS等具有再现声音的扬声器的设备中,通过使用上述的处理,能够更容易听取通话内容。尤其是,便携电话对小型、轻量化和要连续驱动时间的长时间化的要求强烈,由此,要求高性能,所以如本发明,能够以低消耗功率来清楚再现声音的优秀的功能非常有实用性。另外,与上述相同,通过将再现设置调整为与便携电话的使用者相应的频率特性,可实现根据使用者能够以最佳状态听声音的便携电话。由此,即使是不使用助听器的人也可容易听取便携电话的声音,可以很方便地使用。尤其,通常的便携电话中,从扬声器输出的声音等的输出也很小,且面向有正常听觉特性的使用者来制造,所以有时对听觉特性降低的老年人来说很难使用,但是利用本发明可以实现容易听取声音的面向老年人和年长者的便携电话。
(声音信号的数字滤波)
这里,说明将使用本发明的实施方式的数字滤波来容易听取声音的方法适用于听觉辅助装置的一例。图11作为助听装置的一例表示了助听器的框图。图11(a)所示的助听装置200具有声音输入部10A、A/D(模拟/数字)变换器12A、凹凸波形变换部14A、声音成分抽出部16A、强调处理部18A和声音输出部20A。作为声音输入部10A可以使用扩音器或声音输入端子等。尤其在作为助听器使用的情况下,将由扩音器输入的声音信号通过A/D变换器12A变换为数字声音信号后送到声音成分抽出部16A。但是,还可适当采用直接从声音输入部10A输入数字的声音数据的方式、或从与网络连接的外部设备输入声音数据的方式。将从扩音器取得的声音信号输入到模拟滤波器等噪声去除装置中,这里,以10ms左右的周期来进行帧分析,去除周围环境的噪声、扩音器和传送路径具有的传送特性噪声。之后,通过A/D变换器12A来变换为数字声音信号后,通过凹凸波形变换部14A来进行量化后,变换为凹凸波形。进一步,由声音成分抽出部16A从该凹凸波形中抽出对应于人的声音的声音成分,强调处理部18A将其过校正为强调声音波形后,从声音输出部20A输出。声音输出部20A是扬声器或声音输出端子等。凹凸波形变换部14A、声音成分抽出部16A、强调处理部18A等各种运算处理部件,通过微处理器(MPU)、CPU、LSI、FPGA或ASIC等称作门阵列的逻辑电路或中央运算处理装置等硬件、软件或这些的混合来实现。各构成要素可以不必然与图11所示的结构相同,其功能实质上相同或一个要素具有图11所示的结构中的多个要素的功能也包含在本发明中。
接着,根据图12的流程图来说明在图11所示的助听器中使用数字滤波而使声音容易听取的步骤的一例。如图12所示,在声音输入部10中取得了声音波形信号后,声音成分抽出部16抽出人的声音成分,并进一步由强调处理部18强调凹凸波形来生成强调声音波形,声音输出部20根据该强调声音波形输出校正后的声音。下面,参考图13~图14来说明凹凸波形变换部14和声音成分抽出部16从声音信号波形中抽出声音成分的步骤。图13~图14分别表示所取得的声音信号波形。图13表示对应于声音最低的频率的波形,其周期是T1。另一方面,图14表示对应于声音最高的频率的波形,其周期是T2。人声音中包含的频率成分,即使是男性其最低频率f1(=1/T1)通常也到100Hz,几乎没有100Hz以下的频率成分。这时,周期T1是1/100Hz=0.01秒=10ms。并且,该一个周期的正或负半周期是其1/2,即10ms/2=5ms。因此,若以5ms(0.005秒)左右的宽度(窗)来设置抽样周期,则声音信号波形的抽样还可与声音的最低频率T1相对应地进行抽样。本实施方式中,考虑频率为100Hz附近的情况下的余量,来设置为6ms。换而言之,可以区分出半波长比6ms长的成分为不是人的声音的成分(即噪声),由此,可以从声音信号中抽出相当于人的声音(的低音区域)的成分。
例如,在以与音乐用CD相同的音质来进行抽样的情况下,需要f=44.1kHz,即需要在1秒内取得44100个样本。在以该周期来进行抽样的情况下,由0.6ms的区间(窗)取得的抽样数为44100样本×0.006ms=264.6抽样。因此,在通过以上的方法来进行抽样的情况下,可以设置为N=264.6。这里,如上所述,若将N设置为2的幂,则可以进行位移运算,可以通过不使用浮点运算的整数型运算来高速且低负担地处理。这里若设N=2n,N=28=256,则可以实现与上述大致相等的设置。这时,采用n=8。从上判断,在低音的情况下,通过采用n=8,能够应付低频率的抽样即声音信号取得。
同样,对于高频率f2(=1/T2),可以采用n=1、2、3中之一。由此,可以判断为比人的高频成分还高的频率成分是不为人的声音的噪声。结果,可以截出人的声音不包含的低频和高频而可以仅抽出人的声音。在该例子中,分为声音信号的高频信号、中频信号、低频信号,对低频设置为n=8,对中频设置为n=5或6,对高频设置为n=1、2、3中之一。分别在高频、中频、低频中,将n的值设置为某一个是根据所使用的环境或用户的听力特性等来设置的。另外,除了用高频、中频、低频三个来划分之外,根据用途或用户等,还可适当采取仅利用高频和低频两个的方法或区分为4个以上的方法。
如上所述,对于所取得的声音信号,使n的值在高频、中频、低频三个中分别变化,而可以作为包含人的声音的声音信号来分别抽出高频信号、中频信号、低频信号。就是说,通过在抽样时使n的值变化,可以仅抽出包含在人声音中的成分。换而言之,在以上的步骤中,从声音信号波形中截出低音和高音来抽出人的声音的成分,并对其进行数字处理而作成凹凸波形。由于这样得到的凹凸图案包含人的声音成分,所以进行用于使其清楚的校正。
实施例3
(带助听功能的便携电话)
另外,还可以将助听器功能组装到便携电话等便携电气设备中。这种带助听功能的便携电话可以通过例如切换便携电话的动作模式来作为助听器使用。由此,由于可以以与使用便携电话相同的姿势即将电话机放在耳根的状态来用作助听器,所以减小了使用时的不自然,周围的人也很难注意到使用了助听器,而可以缓和使用时的抗拒感。尤其是近年来,便携电话普及,不管年龄和男女,使用便携电话的情况作为通常的行为模式固定的结果,对于将便携电话贴在耳朵上的行为,周围的人不表示出特别的反应,而作为很平常的行为来认识。另一方面,取出特殊形状的助听器来放在耳朵上通常很不自然,饶舌者多少表示出变化,不管是助听器的使用者还是周围的人都容易陷入特殊的心理状态,有可能妨碍自然的对话。鉴于这种状态,通过将助听器组装到便携电话中,将便携电话放在耳朵上,外部不能判断是作为助听器来使用,可以湮没在最普通的日常风景中,助听器的使用者的心理压力减轻。
另外,通过使助听器与便携电话一体,有很多的优点。例如,由于可以将便携电话的扬声器共用作助听器的扬声器,所以不需要携带助听器专用的耳机。由于可以以携带便携电话的感觉一直携带助听器,所以专门携带助听器的感觉减小,可以减轻使用助听器的抗拒感。进一步,在不使用助听器时,不需要附在身体上,所以使用者的身体负担减轻。进一步,还可将具有助听器功能的集成电路组装到便携电话的数字处理集成电路上,不需要单个制作助听器专用的集成电路,与分别具有助听器和便携电话的情况相比,可以将成本抑制为低成本。进一步,近年来,由于开发用于便携电话的可长期使用的充电式电池,可以使用这些最新的电池,所以不用担心助听器的电源供给不充分。进一步,由于不受电池限制,可以以最新的便携电话为基础来制作主体,所以在功能、设计上可以采用最新的便携电话模型,便利性高,可以低成本制作。尤其是,若制作助听器专用的模具,则价格很高,通过与便携电话兼用,还可以节约模具。
这时,最好在便携电话上设置2个以上的扩音器等集音器,一个用于使用者通话,另一个用于收集周围的声音。
进一步,如助听功能等那样,除了在声音信号的再现侧进行容易听取的处理之外,还可在声音信号的输入侧进行同样的处理。例如,在便携电话中,不仅在扬声器中,在扩音器侧也使用本发明,若在向通话对方发送的声音信号上实施如上所述的辅音强调处理,则不仅是便携电话的使用者,而且通话端的对方都可容易听到通话内容。另外,不仅是电话,在TV或收音机、TV电话、TV会议系统等通过扬声器或耳机来再现声音的设备中也可同样适用。
实施例4
(外语的再现)
进一步,在英语对话等的外语的发音、听取中也可使用本发明。例如,在英语的情况下,通过强调振幅波形的波峰波谷,可以更容易听取。由此,可以同时适用于翻译用的扩音器或扬声器等通信系统或外语学习教材磁带、CD、DVD等的再现装置等中,进行更容易听取外语的发音的处理。
这样,若使用本发明的算法,可以高速进行声音信号的特征抽出,所以可以进行实时的声音信号处理。结果,可以实现声音识别、高质量助听器、包含很多声音数据的CD的高音质化等。
实施例5
(数字滤波电路)
本发明并不限于如上那样的声音信号的处理,还可适用于其他模拟波形。即,可以通过将模拟波形变换为凹凸波形这样的一种数字化来容易进行DSP等的处理。例如,本发明实施方式的数字滤波方法可以适用于数字滤波电路。数字滤波电路是不通过模拟元件,而是在离散的时刻通过A/D变换器对于作为时间函数提供的连续量的变换进行数字化,并通过数字信号处理电路来进行数值运算的电路。本发明还可适用于对如图像等那样作为二维空间坐标函数而提供的量、如地震波或激光器等那样作为空间坐标和时间坐标两者的函数提供的量的数字滤波器中的某一个。尤其根据本实施例5,可以实现没有相位偏移的数字滤波电路。
实施例6
(对扬声器的适用例)
接着,根据图15~图21来说明将本发明的数字滤波适用于扬声器的实施例6。
可听频率大概是20Hz到20kHz,仅一个扬声器不能在整个频带中良好地输出声音。因此,通常使用多个扬声器来覆盖可听频带。将其称作多路方式的扬声器系统,将该低音专用扬声器称作低音喇叭,将中音专用的扬声器称作中音扬声器,将高音专用的扬声器称作高音喇叭。将使用了低音喇叭、中音扬声器和高音喇叭的扬声器系统称作3路方式。同样,将使用两种扬声器的扬声器·系统称作两路方式,将使用4种扬声器的扬声器系统称作4路方式。
为了简化说明,考察2路方式的扬声器系统。在2路方式的扬声器系统中,使用高音专用的扬声器和低音专用的扬声器。另一方面,通常的放大器在可听频率的整个频带中,几乎可以以平坦的特性来输出声音信号。因此,为将扬声器的输出信号送到高音专用扬声器和低音专用扬声器,需要将声音信号分割为高音频带和低音频带。为分割信号使用滤波器。为驱动多个扬声器而使用称作网络滤波器的频率分割器。在通常的多路方式的音箱内内置网络滤波器。通过网络滤波器分割为高频带的信号和低频带的信号,将高音信号送到高音专用扬声器中,将低音信号送到低音专用扬声器中,在空间上进行声音波形的合成。通常的扬声器系统的网络滤波器由线圈(L)、电容器(电容C)和电阻(R)构成。
图15表示使用线圈(L)和电阻(R)构成的低音通过滤波电路。图15所示的电路称作L-R电路,图16表示其频率特性。若输入信号的频率变化,则输出信号的振幅和相位同时变化。图16(a)表示在频率变大时,振幅衰减的现象。将振幅降低为约70%的频率fT称作截断频率(cut off频率)。
图16(b)表示在频率变高时,相位变化的现象。若频率充分高,则输出信号相对输入信号延迟90度的相位。截断频率fT中产生45度的相位延迟。在包含多个频率成分的音乐信号中,由于相位延迟依赖于频率,所以通过滤波器后的波形产生相位失真。若一旦发生通过该L-R滤波器产生的相位失真,则即使进行修复也不能恢复到原来的状态,所以将该滤波器称作非可逆滤波器。在多路方式的扬声器系统中,作为驱动低音专用扬声器的信号需要图16(a)所示的振幅特性,但是如图16(b)所示,由于附随产生依赖于频率的相位误差,所以作为包含多个频率的声音信号的滤波器,通常的模拟滤波器不好。但是,由于不存在代替此的滤波器,所以现状是不得不加以使用。此外,需要添加相位补偿电路,有复杂且价格昂贵的问题。
与此相对,在使用适用本发明的低通滤波器和高通滤波的无相位偏移滤波器中,虽然发生了振幅的衰减,但是相位变化完全没有发生,所以对音频来说,可以构成理想的滤波器。
若使用图15所示的L-R电路,则截断了信号的高频成分,而将其输入到低音专用的扬声器中。由于低音专用的扬声器口径大,振动惯性也大,不能跟踪高频来使锥型纸自由运动,若从中输出高音,则为听着不好的音质。因此,使高频成分衰减而仅将低音输入到低音专用扬声器中。另一方面,使用图17所示的C-R电路来构成高音通过滤波器,并将其输出输入到高音专用的扬声器中。图18表示C-R滤波器的频率特性。图18(a)表示的信号的振幅特性表示仅高频率通过C-R滤波器。图18(b)所示的相位特性在频率充分低的的频带中为90度左右的相位前移,但是若频率变高,则表示相位前移接近于0度。由于输入信号的低频成分衰减,所以即使将该滤波器的输出输入到高音专用扬声器,也不会破坏扬声器。
图15所示的L-R电路称作模拟积分电路,图17所示的C-R电路也称作模拟微分电路。在模拟的微分/积分电路中,得到了信号的振幅依赖于频率而衰减的特性,但是同时有相位也依赖于频率而变化的缺点。另外,信号的分割还有使用频道分离器的方法,但是在该方法中依然产生相位的频率依赖性。
与此相对,在适用数字微分/积分的滤波器中,信号的振幅依赖于频率衰减,但是不存在相位依赖于频率而变化的特性,所以作为音频用滤波器可以发挥理想的特性。
图19表示2路方式的扬声器系统的网络滤波器。在该图中,将C-R电路的输出输入到高音专用的扬声器中,将L-R电路的输出输入到低音专用的扬声器中。由此,分割为低音和高音,作为综合的频率特性可以将信号的振幅调整为几乎平坦。但是,由相位的延迟和前移产生的相位失真不能修复。因此,在用于通常的扬声器系统的网络滤波器中,产生相位失真,其成为音质劣化的原因之一。即,由于使用模拟微分/积分电路的网络滤波器具有非可逆性,所以只要使用它,就不能避免瞬态现象和由相位失真造成的音质劣化。
与此相对,本发明的无相位偏移滤波器是可逆滤波器,也不会发生瞬态现象,所以即使使用该滤波器也不会有使音质劣化的因素。
下面详细说明上述可逆性和非可逆性。图20表示使用C-R电路的高音通过滤波器和使用L-R电路的低音通过滤波器的输出相加。加法运算中,是高音通过滤波器的输出和低音通过滤波器的输出的单纯相加,即使使用模拟加法器也可得到加法运算结果,但是即使使用数字的单纯加法运算也可得到加法运算结果。上述模拟滤波器的加法运算结果与原来的输入信号不同。其原因在于通过滤波器时发生相位差,以及在于瞬态现象。因此,若将用于通常的扬声器系统的网络滤波器的输出波形相加后与原来的输入波形相比较,则彼此不同,变为非可逆性。它是扬声器系统的音质劣化的原因之一。
接着,根据图21,验证本发明的实施例6的无相位偏移用滤波器的可逆性。将使用该图所示的高通滤波器的高音通过部的输出信号送到高音专用扬声器中,将使用低通滤波器的低音通过部的输出信号送到低音专用扬声器中,从而构成多路的扬声器系统。为了验证可逆性,将高通滤波器的输出和低通滤波器的输出的相加。加法运算中,作为高通滤波器的输出和低通滤波的输出的单纯的加法运算,即使使用模拟加法器也可得到相算结果,但是即使使用数字的单纯加法运算也可得到相加结果。由于上述的相加结果与原始的输入信号完全一致,所以保证可逆性。即,将声音信号分割为低频成分和高频成分,但是由于不会发生相位失真,也不会发生瞬态现象,所以若合成分割后的信号,则与分割前的信号完全一致。该可逆性在音频装置中,在声音再现性方面极其重要。图21中,高通滤波器相当于减法运算值,低通滤波器相当于除法运算值。
这样,在多路方式的扬声器系统中,若使用本发明的高通滤波器来构成高音频带通过部(高通滤波器),并将其输出输入到高音专用扬声器中,使用数字积分来构成低音频带通过部(低通滤波器),通过将其输出输入到低音专用扬声器中,构成网络滤波器,则由于可以避免模拟滤波器具有的所有音质劣化的因素,所以可以使用音频装置来享受音乐。
实施例7
(对脑电波测量的适用例)
接着,根据图22来说明将本发明的数字滤波适用于脑电波测量的实施例7。图22表示从头部前叶采样的脑电波的频谱波形。在该图中,由细线表示的曲线是没有对所采样的脑电波进行任何处理而通过傅立叶变换求出的频谱。另外,在脑电波采样时,利用双T桥式滤波器来实施60Hz的哼声(hum)滤波,作为电磁波,从电源混入了60Hz及其作为其高次谐波的120Hz和180Hz的噪声。对于脑电波的源信号,若设N=16来实施数字滤波,求出数字积分,则得到图22中的用粗线表示的频谱。若对脑电波的源信号实施高通滤波,则得到图22的波状线所示的频谱。该图中,由粗线所示的数字积分的频谱完全去除了来自电源的噪声,还显著检测出位于10Hz附近的α波。
另一方面,若将现有的滤波器用于脑电波,则由于脑电波的相位变化,失去了有关相位的信息。与此相对,若施加本实施例7的数字滤波,则可以完全确保相位,且可以完全去除来自电源的哼声噪声,可以非常好地采集信号,并进行处理。在使用多个电极来描绘脑电位图时,需要保持多个脑电波信号的相位来去除噪声,所以数字滤波最佳,现有的模拟和数字滤波器因该目的而不适用。因此,数字滤波器很合适去除脑电波形、心电波形和肌电波形等的身体信号的测量时所混入的噪声,若用于心电波测量装置、脑电波测量装置和肌电波测量装置等的身体测量装置的滤波器,则可以有效利用该无相位偏移的滤波特性。
实施例8
(电磁波的接收)
根据图23~图24来说明将本发明的数字滤波适用于电磁波的接收的实施例8。图23表示发出2.4GHz频带的电磁波、用天线接收其反射波并进行A/D变换后的信号波形。在为了从信号波形测量目标物体的振动状态而使用的CT(Computerized Tomography)等装置中,噪声的去除是为提高精度所需的处理。通常的噪声去除使用滤波器,但是在频率高、频率改变的情况下,很难设置合适的滤波器参数。
与此相对,若对图23所示的电磁波的信号波形实施数字滤波,并实施数字积分,则变为图24所示的波形。如该图所示,通过数字滤波完全去除图23中包含的噪声成分。且,若严格比较图23的波形和图24的波形,则完全不会发生两者的相位差异。在现有的模拟滤波器和数字滤波器中,若使用这些滤波器,则比必然伴随信号的相位变化,成为后续处理中发生误差的原因。与此相对,若实施有关实施例8的数字滤波,则可以完全去除噪声成分,而不伴随相位的变化,所以其有效性高。尤其,若对使用RF(RadioFrequency,即无线电频率)信号来测量的CT和MRI等的测量中,施加具有无相位偏移特性的数字滤波,则滤波特性良好,在后续的信号处理中不发生相位误差,所以认为数字滤波是极其有效的方法。
产业上的可利用性
本发明的数字滤波方法、数字滤波装置、数字滤波程序和可由计算机读取的记录介质和进行记录的设备,可以很好地适用于声音识别等声音信号的预处理或后处理,例如,作为个人自适应型的声音识别系统可以适用于便携电话等移动设备中。另外,并不限于声音识别中,在扬声器的再现质量提高、脑电波测量、电波的接收等中,也可以实现高质量、低负担的信号处理。

Claims (34)

1、一种数字滤波方法,根据所输入的信号波形来抽出特征量,其特征在于,包括:
将信号波形作为输入信号输入,对信号波形进行量化而取得量化数据,并存储到存储器单元中的步骤;
在所述量化数据中,通过将与任意点相邻的预定范围预先设置为相加区间以及/或者预先设置相加区间中包含的数据个数,由此对所述存储单元中存储的量化数据的每一点,将相加区间中包含的所有量化数据的数据值相加,来求出加法运算值,用数据个数除所述加法运算值来求出除法运算值,进一步根据需要通过减法运算将该点的量化数据的数据值和所述除法运算值之差计算为减法运算值,并输出所述除法运算值和减法运算值的步骤;
重复所述步骤来对每个量化数据进行所述除法运算值和减法运算值的运算,并根据分别输出的各除法运算值和减法运算值,进行所输入的信号波形的数字滤波的步骤。
2、根据权利要求1所述的数字滤波方法,其特征在于,设置预定的范围,使得所述相加区间相对于任意点大致对称。
3、根据权利要求1或2所述的数字滤波方法,其特征在于,进行所述数字滤波的步骤包含:
根据所述减法运算值进行高通滤波的步骤;和
根据所述除法运算值进行低通滤波的步骤。
4、根据权利要求1-3中之一所述的数字滤波方法,其特征在于,进行所述数字滤波的步骤包含如下的步骤:比较各点数据的数据值和各除法运算值,并根据比较结果的真伪来变换为凹凸波形。
5、根据权利要求1-4中之一所述的数字滤波方法,其特征在于,通过整数运算来进行加法运算、减法运算、除法运算。
6、根据权利要求1-5中之一所述的数字滤波方法,其特征在于,所述预定范围的应相加的数据的个数为2的幂。
7、根据权利要求6所述的数字滤波方法,其特征在于,通过位移运算来进行用所述预定范围的相加的数据的个数除的除法运算。
8、根据权利要求1-7中之一所述的数字滤波方法,其特征在于,在所述除法运算值的运算步骤中,为了对各个数据求出除法运算值,保持相加了预定范围的数据的数据值的加法运算值,在求出下一个的数据的加法运算值时,从所保持的加法运算值中减去不需要的数据值,并且加上需要的数据值,由此计算加法运算值。
9、根据权利要求8所述的数字滤波方法,其特征在于,在以k点为中心的前后n的区间N(=2n)中的除法运算值αk表现为
【式1】
&alpha; k = ( &Sigma; i = k + 1 n + k x i ) + ( &Sigma; i = k - n k - 1 x i ) N
时,在除法运算值的运算步骤中,使用其前面位置即(k-1)点的除法运算值αk-1,按照
【式2】
&alpha; k = &alpha; k - 1 + ( x k - 1 + x n + k - x k - x k - 1 - n ) / N
计算除法运算值αk
10、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,N=64或256。
11、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,特征量是,设N=256,参考凹凸波形,从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度。
12、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,特征量是,设N=256,参考凹凸波形,在从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形的面积。
13、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,特征量是,设N=256,参考凹凸波形,从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形的分散值。
14、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,特征量是,设N=256,参考凹凸波形,将从元音波形的一个周期的起始起搜索得到的最初凸部分的宽度中所存在的振幅波形规格化到0~1,与在凸宽度上生成的正弦波的类似性。
15、根据权利要求1-9中之一所述的数字滤波方法,其特征在于,特征量是,设N=64,在三个周期的凹凸波形中存在的凸的数目。
16、根据权利要求1-15中之一所述的数字滤波方法,其特征在于,所输入的信号波形是声音信号。
17、根据权利要求1-15中之一所述的数字滤波方法,其特征在于,所输入的信号波形是电磁波。
18、根据权利要求1-15中之一所述的数字滤波方法,其特征在于,所输入的信号波形是生物体信息。
19、一种数字滤波方法,为根据所输入的声音信号来进行声音识别,从声音信号抽出特征量,其特征在于,包括:
输入声音信号,并对输入信号的振幅进行量化的步骤;
对于量化后的各点的数据,相加相邻的预定范围的数据的振幅值,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值的步骤;
比较各点的数据的振幅值和各除法运算值,并根据比较结果的真伪,变换为凹凸波形的步骤;
从所述凹凸波形中抽出特征量来进行声音识别的步骤。
20、根据权利要求19所述的数字滤波方法,其特征在于,进一步包括如下的步骤:为进行元音识别,参考元音部分的一个周期波形即音调,来抽出假定为元音波形稳定的区间。
21、根据权利要求20所述的数字滤波方法,其特征在于,在所述元音波形的稳定区间的抽出步骤中,以位于所有音调数的约三分之二的位置的音调为中心抽出前后一个周期。
22、根据权利要求20或21所述的数字滤波方法,其特征在于,所述元音识别是根据从两个元音的组合得到的特征量来进行。
23、根据权利要求20-22中之一所述的数字滤波方法,其特征在于,所述元音识别是通过根据离散沃罗诺伊图求出边界线,并以该边界线为基准,通过投票方式来进行的,所述的离散沃罗诺伊图是将通过2个元音的组合得到的特征量匹配而得的。
24、根据权利要求19-23中之一所述的数字滤波方法,其特征在于,对于识别后的声音,若可识别辅音部,就增大音量,若在辅音部后可识别元音,就从元音部起预定时间内解除音量放大。
25、一种数字滤波装置,根据所输入的信号波形来抽出特征量,其特征在于,包括:
振幅计算部,求出所输入的信号波形的振幅,对所述振幅进行量化;
除法运算值运算部,对于由所述振幅计算部量化后的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;
减法运算单元,对于各数据,通过减法运算求出由所述除法运算值运算部计算出的除法运算值和由所述振幅计算部计算出的振幅值之差;
存储器单元,保持加法运算值、减法运算值、除法运算值中的至少某一个。
26、根据权利要求25所述的数字滤波装置,其特征在于,进一步具有:
比较部,对于各数据,比较由所述除法运算值运算部计算出的除法运算值和由所述振幅计算部计算出的振幅值,输出比较结果的真伪;
变换部,根据所述比较部的输出,将信号波形变换为凹凸波形。
27、根据权利要求25或26所述的数字滤波装置,其特征在于,
所述除法运算值运算部将预定范围的应相加的数据个数设为2的幂,并通过位移运算来进行用所述预定范围的相加的数据的个数除的除法运算。
28、根据权利要求25-27中之一所述的数字滤波装置,其特征在于,
所述除法运算值运算部为了对各个数据求出除法运算值,预先保持相加了预定范围的数据的振幅值的加法运算值,在求出下一个数据的加法运算值时,从所保持的加法运算值中减去不需要的振幅值,并且加上需要的振幅值,由此来计算加法运算值。
29、根据权利要求25-28中之一所述的数字滤波装置,其特征在于,所输入的信号波形是声音信号。
30、根据权利要求25-28中之一所述的数字滤波装置,其特征在于,所输入的信号波形是电磁波。
31、根据权利要求25-28中之一所述的数字滤波装置,其特征在于,所输入的信号波形是生物体信号。
32、一种数字滤波装置,为根据所输入的声音信号来进行声音识别,从声音信号中抽出特征量,其特征在于,包括:
振幅计算部,求出所输入的声音信号的振幅,对所述振幅进行量化;
除法运算值运算部,对于由所述振幅计算部量化了的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;
比较部,对于各数据,比较由所述除法运算值运算部计算出的除法运算值和由所述振幅计算部计算出的振幅值,输出比较结果的真伪;
变换部,根据所述比较部的输出,将声音信号变换为凹凸波形。
33、一种数字滤波程序,根据所输入的信号波形,抽出特征量,其特征在于,使计算机实现下述功能:
输入信号波形,对输入信号的振幅进行量化;
对于量化后的各点的数据,将相邻的预定范围的数据的振幅值相加,将其除以相加的数据的个数,来求出以该数据为中心的除法运算值;
计算各点的数据的振幅值和各除法运算值之差;
将计算出的加法运算值、减法运算值和除法运算值中至少某一个保持到存储器单元中,并且根据这些加法运算值、减法运算值、除法运算值中的至少某一个值,进行所输入的信号波形的数字滤波。
34、一种可由计算机读取的记录介质或可进行记录的设备,其特征在于,记录了权利要求33所述的程序。
CN2005800254929A 2004-07-28 2005-07-20 数字滤波方法和装置 Expired - Fee Related CN101023469B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP220022/2004 2004-07-28
JP2004220022 2004-07-28
PCT/JP2005/013334 WO2006011405A1 (ja) 2004-07-28 2005-07-20 デジタルフィルタリング方法及び装置

Publications (2)

Publication Number Publication Date
CN101023469A true CN101023469A (zh) 2007-08-22
CN101023469B CN101023469B (zh) 2011-08-31

Family

ID=35786155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800254929A Expired - Fee Related CN101023469B (zh) 2004-07-28 2005-07-20 数字滤波方法和装置

Country Status (5)

Country Link
US (1) US7890323B2 (zh)
EP (1) EP1791113A4 (zh)
JP (1) JP4150798B2 (zh)
CN (1) CN101023469B (zh)
WO (1) WO2006011405A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222507A (zh) * 2011-06-07 2011-10-19 中国科学院声学研究所 一种适用于汉语语言的听力损失补偿方法及设备
CN102355230A (zh) * 2011-07-05 2012-02-15 中兴通讯股份有限公司 一种数字滤波装置及其方法
CN112958840A (zh) * 2021-02-10 2021-06-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 精密零件加工削力信号自动分段方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023469B (zh) 2004-07-28 2011-08-31 日本福年株式会社 数字滤波方法和装置
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
IL176788A0 (en) * 2006-07-11 2006-12-10 Elta Systems Ltd Electronic circuitry and method for determination of amplitudes of received signals
JP5030150B2 (ja) * 2007-03-20 2012-09-19 独立行政法人産業技術総合研究所 筋電位信号による音声認識装置
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
JP5291983B2 (ja) * 2008-05-12 2013-09-18 浜松ホトニクス株式会社 テラヘルツ波周波数分解イメージング装置
TR201810466T4 (tr) * 2008-08-05 2018-08-27 Fraunhofer Ges Forschung Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.
JP4636343B2 (ja) * 2008-09-02 2011-02-23 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
JP5141542B2 (ja) * 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法
US10158898B2 (en) 2012-07-26 2018-12-18 Comcast Cable Communications, Llc Customized options for consumption of content
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
JP6389348B1 (ja) * 2018-03-23 2018-09-12 株式会社アセンド 音声データ最適化システム
JP6386690B1 (ja) * 2018-06-27 2018-09-05 株式会社アセンド 音声データ最適化システム
US20200137224A1 (en) * 2018-10-31 2020-04-30 International Business Machines Corporation Comprehensive log derivation using a cognitive system
CN111274910B (zh) * 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备
US11386530B2 (en) * 2020-02-26 2022-07-12 Flir Systems Ab Digital filter for turbulence reduction and gas detection in thermal images
CN111402916B (zh) * 2020-03-24 2023-08-04 青岛罗博智慧教育技术有限公司 一种语音增强系统、方法及手写板

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3727218A (en) * 1971-01-29 1973-04-10 Hughes Aircraft Co Digital radar detector system
US4028496A (en) 1976-08-17 1977-06-07 Bell Telephone Laboratories, Incorporated Digital speech detector
JPH06140856A (ja) 1992-10-26 1994-05-20 Sony Corp 音声信号処理装置
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
JP2000152394A (ja) * 1998-11-13 2000-05-30 Matsushita Electric Ind Co Ltd 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
US7123659B2 (en) * 2000-03-23 2006-10-17 Matsushita Electric Industrial Co., Ltd. Digital reception apparatus for removing distortion from received signals
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP4221537B2 (ja) 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
JP3803311B2 (ja) * 2001-08-08 2006-08-02 日本電信電話株式会社 音声処理方法及びその方法を使用した装置及びそのプログラム
EP1288911B1 (en) * 2001-08-08 2005-06-29 Nippon Telegraph and Telephone Corporation Emphasis detection for automatic speech summary
JP4282260B2 (ja) * 2001-11-20 2009-06-17 株式会社リコー エコーキャンセラ
JP2003271190A (ja) 2002-03-15 2003-09-25 Matsushita Electric Ind Co Ltd 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
JP2005013334A (ja) 2003-06-24 2005-01-20 Murofushi:Kk 食品類茹で装置用給水バルブ
CN101023469B (zh) 2004-07-28 2011-08-31 日本福年株式会社 数字滤波方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222507A (zh) * 2011-06-07 2011-10-19 中国科学院声学研究所 一种适用于汉语语言的听力损失补偿方法及设备
CN102355230A (zh) * 2011-07-05 2012-02-15 中兴通讯股份有限公司 一种数字滤波装置及其方法
CN102355230B (zh) * 2011-07-05 2016-06-22 中兴通讯股份有限公司 一种数字滤波装置及其方法
CN112958840A (zh) * 2021-02-10 2021-06-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 精密零件加工削力信号自动分段方法
CN112958840B (zh) * 2021-02-10 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 精密零件加工削力信号自动分段方法

Also Published As

Publication number Publication date
US7890323B2 (en) 2011-02-15
WO2006011405A1 (ja) 2006-02-02
EP1791113A4 (en) 2008-05-21
EP1791113A1 (en) 2007-05-30
US20090192794A1 (en) 2009-07-30
CN101023469B (zh) 2011-08-31
JPWO2006011405A1 (ja) 2008-07-31
JP4150798B2 (ja) 2008-09-17

Similar Documents

Publication Publication Date Title
CN101023469B (zh) 数字滤波方法和装置
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
US20160314781A1 (en) Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
US20170084266A1 (en) Voice synthesis apparatus and method for synthesizing voice
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN108257605B (zh) 多通道录音方法、装置及电子设备
JP4150795B2 (ja) 聴覚補助装置、音声信号処理方法、音声処理プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
CN101290766A (zh) 安多藏语语音音节切分的方法
CN108461081A (zh) 语音控制的方法、装置、设备和存储介质
CN111868823A (zh) 一种声源分离方法、装置及设备
Eklund Data augmentation techniques for robust audio analysis
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN114863905A (zh) 语音类别获取方法、装置、电子设备和存储介质
Zouhir et al. A bio-inspired feature extraction for robust speech recognition
CN116386589A (zh) 一种基于智能手机加速度传感器的深度学习语音重建方法
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
CN114302301A (zh) 频响校正方法及相关产品
CN105943077A (zh) 一种听诊器
Gupta et al. Morse wavelet transform-based features for voice liveness detection
CN117014761B (zh) 交互式脑控耳机控制方法及装置、脑控耳机、存储介质
Chakraborty et al. An automatic speaker recognition system
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker
Shen et al. Solfeggio Teaching Method Based on MIDI Technology in the Background of Digital Music Teaching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110831

Termination date: 20160720