CN1442802A

CN1442802A - 信息识别装置与信息识别方法

Info

Publication number: CN1442802A
Application number: CN03106781A
Authority: CN
Inventors: 真鍋宏幸; 平岩明; 杉村利明
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2002-02-28
Filing date: 2003-02-28
Publication date: 2003-09-17
Anticipated expiration: 2023-02-28
Also published as: DE60302478D1; JP2003255994A; DE60302478T2; CN1235167C; US20030163306A1; EP1341159B1; US7480616B2; EP1341159A1; JP3908965B2

Abstract

借助于活动量信息提取装置从肌电信号中提取涉及肌肉活动量的信息，并且借助于活动量信息识别装置，使用涉及一名说话者的肌肉活动量的信息，来进行信息识别。在说话者的肌肉活动量与说话者所发出的音素之间，存在规定的对应关系，因此，通过使用涉及肌肉活动量的信息来进行信息识别，就能以高识别率来识别一段发音的内容。

Description

信息识别装置与信息识别方法

技术领域

本发明涉及一种信息识别装置与信息识别方法，其中，使用在讲话时说话者的肌肉的肌电信号来识别所说的内容。

背景技术

信息识别装置先前早已为人们所熟知，由此，使用发生讲话动作的人的口周肌的运动等所产生的、与声音无关的肌电信号来识别发音的内容。这样一来，用不着说话者所产生的声音，仅从口或舌等的运动就能实现信息识别。这在嘈杂的环境中或者在需要保持安静的地方是十分有用的。

在这样一种信息识别装置中，根据肌电信号进行信息识别的方法例如包括：如同Noboru Sugie等人在题为《使用语音合成器从口周肌活动来进行元音鉴别以及元音产生》的论文[见美国电气与电子工程师学会(IEEE)生物医学工程汇刊，第32卷，第7期，1985年，第485-490页]中所发表的一种信息识别方法那样，通过令肌电信号通过一个带通滤波器，并对跨过阈值的次数进行计数，来鉴别5个元音(a，i，u，e，0)；如同在日本专利公开第H.7-181888号中所公开的那样，借助于神经网络来处理通过对口周肌的肌电信号进行快速付里叶变换(FFT)处理而获得的功率谱，对来自说话者的不仅是元音而且还有辅音进行检测的方法；或者如同在日本专利公开第H.6-12483号中所公开的那样，使用阈值将肌电信号的幅度转换为二进制形式，并使用神经网络对其进行处理。

发明内容

然而，上述信息识别方法存在这样的问题，即，不可能显著地提高发音内容的识别率。

考虑到上述问题，本发明的一个目标就是提供一种具有高识别率的信息识别装置与信息识别方法。

根据本发明的一种信息识别装置在说话者讲话时使用说话者的肌肉的肌电信号来识别发音的内容，这种装置包括：肌电信号采集装置，用于采集所述肌电信号；活动量信息提取装置，用于从所述肌电信号中提取涉及所述肌肉的活动量的信息；以及信息识别装置，它使用涉及所述肌肉活动量的信息来识别所述发音的内容。

根据本发明的一种信息识别方法在说话者讲话时通过使用说话者的肌肉的肌电信号来识别发音的内容，这种方法包括：一个肌电信号采集步骤，用于采集所述肌电信号；一个活动量信息提取步骤，用于从所述肌电信号中提取涉及所述肌肉的活动量的信息；以及一个信息识别步骤，使用涉及肌肉活动量的所述信息来识别所述发音的内容。

采用根据本发明的信息识别装置或信息识别方法，从肌电信号中提取涉及肌肉活动量的信息，并使用涉及说话者的肌肉活动量的信息来进行信息识别。由于在说话者的肌肉活动量与说话者所发出的音素之间存在一种规定的对应关系，所以通过使用涉及肌肉活动量的信息来进行信息识别，就能以高的识别率来识别一段发音的内容。

最好是，在所述信息识别装置中，所述活动量信息提取装置获得所述肌电信号的均方根值、整流后的平均值以及积分平均值中至少之一，作为涉及所述肌肉活动量的信息。

同样，最好是，在所述信息识别方法中的所述活动量信息提取步骤，获得所述肌电信号的均方根值、整流后的平均值以及积分平均值中至少之一，作为涉及肌肉活动量的所述信息。

由于肌电信号的均方根值、整流后的平均值以及积分平均值与肌肉活动量高度相关，所以，通过获取均方根值、整流后的平均值以及积分平均值作为涉及肌肉活动量的信息，就能适当地进行发音内容的识别。同样，从肌电信号中获得这些平均值的计算负荷与通常对肌电信号的FFT处理中所涉及的计算负荷相比要低很多。

此外，最好是，在所述的信息识别装置中，所述信息识别装置借助于一个神经网络来识别所述发音的内容，上述神经网络输入涉及所述肌肉活动量的信息。

同样，最好是，在所述的信息识别方法中的所述信息识别步骤，借助于一个神经网络来识别所述发音的内容，上述神经网络输入涉及所述肌肉活动量的信息。

这样，通过使用一个神经网络来进行信息识别(该神经网络输入涉及肌肉活动量的信息)，就能方便地识别一段发音的内容。

所述信息识别装置还可以包括一个数据库，在其中，各音素与涉及一名说话者在发出相关音素时的肌肉活动量的信息相关联，并且，所述信息识别装置通过使用由所述活动量信息提取装置所提取的涉及肌肉活动量的信息，查找所述数据库，可以获取由所述说话者所发出的一个音素。

同样，在所述信息识别方法中的所述信息识别步骤中，通过使用由所述活动量信息提取步骤所提取的涉及肌肉活动量的信息，查找一个将各音素与涉及一名说话者在发出相关音素时的肌肉活动量的信息相关联的数据库，就能获取由所述说话者所发出的一个音素。

这样，通过使用涉及肌肉活动量的信息，查找一个将各音素与涉及在发出相关音素时的肌肉活动量的信息相关联的数据库，就能容易地获取由说话者所发出的音素，并方便地识别发音内容。

此外，最好是，所述的信息识别装置还包括：音频信息采集装置，它采集涉及所述发音所产生的声音的信息；音频信息识别装置，它使用涉及所述声音的信息，来识别所述发音的内容；以及学习装置，它进行与由所述信息识别装置进行的信息识别有关的学习，在学习过程中，使用由所述活动量信息提取装置所提取的涉及肌肉活动量的信息，以及由所述音频信息识别装置所识别的、构成教学数据的发音内容，而且，通过使用由所述活动量信息提取装置所提取的涉及肌肉活动量的信息，参照所述学习的结果，所述信息识别装置识别所述发音的内容。

同样，最好是，所述信息识别方法还包括：一个音频信息采集步骤，采集涉及所述发音所产生的声音的信息；一个音频信息识别步骤，使用涉及所述声音的信息，来识别所述发音的内容；以及一个学习步骤，进行与在所述信息识别步骤中的信息识别有关的学习，在学习过程中，使用由所述活动量信息提取步骤所提取的涉及肌肉活动量的信息，以及由所述音频信息识别步骤所识别的、构成教学数据的发音内容，而且，在所述信息识别步骤中，通过使用由所述活动量信息提取步骤所提取的涉及肌肉活动量的信息，参照所述学习的结果，就能识别所述发音的内容。

借助于这样的学习，就能实现适于说话者的信息识别，并且识别率甚至还可以进一步地提高。同样，由于使用在发音时所产生的声音，通过信息识别来产生教学数据，所以就能使用自由发音来进行学习而不要求说话者知道，同时在学习过程中说话者的负荷因而得以减轻。

通过在下文中给出的详细说明以及诸附图，将使读者更充分地理解本发明，给出这些附图仅仅是为了说明，并且不应被认为是用来限定本发明。

通过在下文中给出的详细说明将使本发明的更大应用范围变得明显。然而，应当理解，对专业人士来说，从详细说明中可以明显得出处于本发明的实质和范围之内的各种改变和修改，因此，在表示本发明的各优选实施例时，详细的说明以及各具体实例仅仅是为了说明而给出的。

附图说明

图1是一份方框图，表示根据第一实施例的信息识别装置；

图2A和2B这两份图说明在图1的活动量信息提取装置中，用时间窗口对肌电信号进行开窗处理的方法；

图3A和3B这两份图说明一种方法，用以在图1的活动量信息提取装置中，从已提取的肌电信号中获取涉及肌肉活动量的信息；

图4说明当不说话以及当发“a”，“i”，“u”，“e”和“o”音时，涉及3种口周肌的肌肉活动量的信息；

图5是一份图，表示在图1的活动量信息识别装置中的神经网络；

图6是表示用以在第一实施例中进行涉及信息识别的学习的一个过程的流程图；

图7是表示在第一实施例中使用无声发音来进行信息识别的一个过程的流程图；

图8是一份方框图，表示根据第二实施例的信息识别装置；以及

图9是一份表格，表示图8中的音素/活动量信息数据库的一个实例。

具体实施方式

下面，将参照诸附图，对根据本发明的信息识别装置的优选实施例进行详细说明。

图1是一份方框图，表示根据第一实施例的信息识别装置。根据本实施例的信息识别装置100是这样一种信息识别装置，它能识别进行无声的说话动作即不产生声音的说话动作的说话者的发音内容，并且包括：肌电信号采集装置11，它从一名说话者那里获取肌电信号；活动量信息提取装置12，它从肌电信号中提取涉及肌肉活动量的信息；活动量信息识别装置(对应于信息识别装置)16，它使用涉及肌肉活动量的信息，对一名说话者的发音内容进行信息识别；识别结果显示装置17，它显示信息识别的结果；以及一个学习部分33，它进行与在活动量信息识别装置16中进行的信息识别有关的学习。

肌电信号采集装置11获取说话者进行发音动作时因口周肌(发音器官)的活动而产生的肌电信号的波动等，并放大所获得的肌电信号。为了以高精度来进行信息识别，希望获得多块口周肌的肌电信号。用这种方法获得的肌电信号的一个实例示于图2A。水平轴为时间，垂直轴为肌电信号的电位。

回到图1，活动量信息提取装置12用规定的时间窗口为由肌电信号采集装置11放大的肌电信号开窗，并从每一个时间窗口中的肌电信号中提取涉及肌肉活动量的信息。

具体地说，首先，如图2A和2B所示，由规定长度的主时间窗口40、41、42等为肌电信号采集装置11所获得的肌电信号50顺序地开窗。这些主时间窗口40、41、42被假定为具有相同的时间长度，并且在每一个实例中，这些主时间窗口40、41、42的起始时间都被相继延迟一段规定的时间，例如在每一个实例中都延迟主时间窗口的时间长度的一半。此外，在需要时，主时间窗口41等各自还可以进一步地划分为任何所需数目的辅助时间窗口43、44、45。元音的识别可以主要地使用主时间窗口40、41、42等来进行，而辅音的识别则可以使用辅助时间窗口43、44、45等来进行。

接下来，如图3A和3B所示，计算肌电信号的均方根值(RMS)，作为涉及各主时间窗口41等或辅助时间窗口43等有关的肌肉活动量的信息。均方根值由下列表达式给出定义，式中e(t)为肌电信号(EMG)的电位。

RMS = \sqrt{\frac{1}{2 T} {&Integral;}_{- T}^{T} e^{2} (t + τ) dτ} - - - (1)

可以被使用的、与肌肉活动量相关的其它数量是由公式(2)表示的肌电信号的整流后的平均值(ARV)，或者是由公式(3)表示的肌电信号的积分平均值(IEMG)等，所有这些都可以在组合方式下使用。

ARV = {&Integral;}_{- \infty}^{+ \infty} h (τ) | e (t + τ) | dτ - - - (2)

其中，

{&Integral;}_{- \infty}^{+ \infty} h (τ) dτ = 0

IEMG = {&Integral;}_{T}^{T + ΔT} | e (t + τ) | dτ - - - (3)

现在来说明以这种方式从肌电信号中提取涉及肌肉活动量的信息的理由。

当一名说话者发出音素(例如各元音或各辅音)时，对每一个音素来说，说话者的各口周肌的活动量是不同的。图4表示，当说话者分别发出“a”，“i”，“u”，“e”和“o”时，以及当处于松弛状态即不说话时，分别代表一名说话者的3种口周肌的肌肉活动量的所获取肌电信号的均方根值被分别描绘在X轴、Y轴和Z轴上的结果。

如从图4中所看出的那样，当不讲话和当发出“a”，“i”，“u”，“e”和“o”时，各肌肉活动量的大小互相不同；还可以看出，各肌肉活动量与各音素之间存在一种规定的对应关系。通过从肌电信号中提取涉及各肌肉活动量的信息，并获得与涉及这些肌肉活动量的信息相对应的各音素，就能容易地实现具有高识别率的信息识别。

接下来，回到图1，活动量信息识别装置16通过使用以这种方式获得的涉及肌肉活动量的信息，获取说话者发出的各音素，来识别说话者的发音的内容。

具体地说，如图5所示，通过3层结构的神经网络70来实现信息识别。具体地说，被送往输入层71的有输入信息，例如，由活动量信息提取装置12所获得的各肌肉的活动量相关的均方根值。输出层72被构成为一个对各音素(例如像“a”，“i”，“u”，“…”和“n”那样的元音和辅音)作出响应的单元。神经网络70使用规定的识别参数，根据被输入到输入层71的涉及肌肉活动量的信息来识别所关心的发音中的各音素，并把这些元素输出到输出层72。由此来识别发音的内容。

对于在神经网络70中的各项识别参数来说，可以采用事先已经准备的各项通用的识别参数，或者由待说明的学习部分33产生的、适于说话者的各项识别参数等。

回到图1，识别结果显示装置17借助于显示器或扬声器等，向说话者显示由活动量信息识别装置16所识别的识别结果，或者把它们传送到诸如文字处理程序那样的应用程序，或者通过通信装置等把它们发送到另一方等。

学习部分33包括音频信息采集装置14、音频信息识别装置15和学习装置13。在说话者发出声音的时候也就是说话者进行出声的讲话时，音频信息采集装置14获得所产生的一个音频信号，并通过对所获得的音频信号进行频谱分析和/或对数倒频谱分析等来获得音频信息。

音频信息识别装置15通过使用音频信息采集装置14所获得的音频信息进行语音识别而获得说话者的发音内容，并利用该内容提供与说话者的发音内容相对应的教学数据。对音频信息识别装置15中的语音识别方法并没有特殊的限制，例如可以用到使用频谱包络等的隐藏的马尔柯夫模型或者DP匹配方法等。

学习装置13获得由活动量信息提取装置12所提取的涉及肌肉活动量的信息，并获得由音频信息识别装置15所获得的讲话内容作为教学数据，进行涉及由活动量信息识别装置16所进行的信息识别的学习，从而产生用于这种信息识别的识别参数。

更具体地说，如同在本实施例中，若活动量信息识别装置16使用了神经网络70(见图5)，并对神经网络70采用向后传导法，则构成涉及肌肉活动量的信息的肌电信号的均方根值等就被提供给输入层71，而由输出层72的音频信息识别装置15识别出来的各发音内容可以音素“a”，“i”，“u”，“…”，和“n”的形式输出；这样一来，就生成了适用于每个说话者的识别参数。

接下来，将对信息识别装置100的操作进行说明，同时也将对根据本实施例的信息识别方法进行说明。

首先，将参照图6来说明涉及信息识别的学习过程。

首先，信息识别装置100在说话者进行随意发声讲话时，获得说话者肌肉的肌电信号，并在讲话所产生的声音的基础上获得音频信息(步骤101)。

接下来，肌电信号被用规定的时间窗口开窗，与每个时间窗口中的肌肉活动量相关的信息被提取出来，与此同时，通过对音频信息进行语音识别，发音的内容被提取出来(步骤102)。

接下来，在涉及肌肉活动量的信息和组成教学数据的讲话内容的基础上，通过活动量识别装置16执行与信息识别相关的学习来产生用于信息识别的识别参数(步骤103)。

然后，活动量信息识别装置16获取识别参数(步骤104)。

再接下来，参照图7，将说明针对说话者的无声发音进行信息识别的步骤。

首先，信息识别装置100在说话者进行无声发音时，获得说话者的肌电信号(步骤201)。

接下来，肌电信号被用规定的时间窗口开窗，与每个时间窗口中的肌肉活动量相关的信息被提取出来(步骤202)。

再接下来，借助于神经网络70，使用在上述学习过程中所获得的各项识别参数等，并使用涉及肌肉活动量的信息，通过进行信息识别来识别发音的内容(步骤203)。

识别的结果被输出到屏幕，或者通过声音来输出，或者被发送到某一应用程序例如文字处理程序之中(步骤204)。

这样，采用根据本实施例的信息识别装置和信息识别方法，涉及肌肉活动量的信息从肌电信号中被提取出来，而且通过使用涉及说话者的肌肉活动量的信息来进行信息识别。由于在说话者的肌肉活动量与说话者发出的音素之间存在规定的对应关系，所以通过使用涉及肌肉活动量的信息进行信息识别，就能以很高的识别率来实现对发音内容的识别。

此外，由于肌电信号的均方根值、整流后的平均值和积分平均值与肌肉活动量高度相关，所以，通过获取作为涉及肌肉活动量的信息的均方根值、整流后的平均值和积分平均值，就能对发音内容进行适当的识别。而且，从肌电信号获得这些平均值的计算负荷比使用FFT处理的传统处理方法的计算负荷要低得多。

此外，通过使用神经网络来进行信息识别，就能适当地识别发音的内容，上述神经网络输入涉及肌肉活动量的信息。

此外，通过学习来实现适合于说话者的信息识别甚至可以导致更高识别率的获得。由于在学习中，通过使用发音时的声音的语音识别来产生教学数据，也就是在不要求说话者知道的情况下，使用自由讲话的形式来进行学习，所以学习过程中说话者的负担就减轻了。

应当注意的是，即使是在不进行上述学习的情况下，通过事先设置活动量信息识别装置16有关的通用识别参数，也可以以同样的方式实现信息识别。此外，最好是，为了实现具有高识别率的信息识别，应该获取涉及大量肌肉的活动量的信息。

接下来，参照图8，对根据第二实施例的信息识别装置200进行说明。本实施例的信息识别装置200与第一实施例的信息识别装置100的差别在于配置了一个音素/活动量信息数据库(数据库)30。音素/活动量信息数据库30存储着各音素以及涉及这些音素被发音时的肌肉活动量的信息，其中肌肉活动量与被考虑的各音素相关联。因此，活动量信息识别装置16根据由活动量信息提取装置12所提取的涉及肌肉活动量的信息，查找音素/活动量信息数据库30，来识别发音内容，而不是通过使用神经网络70来识别。

在这个音素/活动量信息数据库30中，事先存储着典型的通用数据，上述数据将各音素与涉及发出相关音素时的肌肉活动量的信息相关联，但是，如果需要，基于学习装置13的学习结果的数据可以跟一名说话者相匹配。

在这样一种音素/活动量信息数据库30的一个实例中，例如根据图4等，对每一个音素来说，涉及发出每个音素时的各肌肉活动量的信息的幅度的概率分布被找到，同时，涉及这些肌肉活动量的信息的幅度的概率分布，以与每一个音素相关的方式被存储在该数据库之中。若使用这样的数据库，则活动量信息识别装置16通过使用由活动量信息提取装置12所提取的肌肉活动量的幅度分布来查找数据库，从中获取具有最接近于所述分布的概率分布的一个音素，就能识别一段发音的内容。

同样，作为音素/活动量信息数据库30的另一个实例，还可以考虑例如一份表格，在其中，各音素都跟发出音素时的肌肉活动量的幅度有关，如图9所示。这份表格表明，当由一名典型的日本人来进行每一个音素的发音时，每一块口周肌的活动程度按照5个等级的评估结果。即使当使用这样一个数据库时，活动量信息识别装置16通过使用由活动量信息提取装置12所提取的肌肉活动量的幅度来查找这份表格，从中获取其肌肉活动量的图形为最接近的各音素，来识别一段发音的内容。

这样，在本实施例中，使用已获得的涉及肌肉活动的信息，通过查找一个数据库(在其中，各音素与涉及发出相关音素时的肌肉活动的信息被联系在一起)，就能容易地获得一名说话者所发出的各音素，并且适当地识别一段发音的内容。

要注意的是，若这样一个音素/活动量信息数据库30事先已被建立，则对每一名说话者来说，即使不需要进行涉及信息识别的学习，也能实现具有一定识别率水平的信息识别。此外，通过进行如同在第一实施例中那样的学习，通过进一步地令这个音素/活动量信息数据库30适应于每一名说话者，就能以较高的识别率进行信息识别。要注意的是，为了进行具有高识别率的信息识别，希望能获得涉及大量肌肉的肌肉活动量的信息。

要注意的是，根据本发明的信息识别装置并不局限于上述各实施例，并且可以采取各种经过修改的形式。

例如，虽然在上述各实施例中，通过使用说话者的音频信息，学习部分33获得了作为教学数据的发音内容，但是，对此没有什么限制，并且，例如对说话者来说，通过提供诸如键盘那样的输入设备，就有可能直接地输入发音的内容。

要注意的是，虽然上述各实施例中的信息识别装置100、200适于对无声发音进行信息识别，但是，它们也当然适于进行有声识别，即对有声发音的信息识别。

如上所述，使用根据本发明的信息识别装置以及信息识别方法，通过从肌电信号中提取涉及肌肉活动量的信息，就能使用涉及一名说话者的肌肉活动量的信息，来进行信息识别。由于在一名说话者的肌肉活动量与由该说话者所发出的各音素之间存在规定的对应关系，所以就能通过使用涉及肌肉活动量的信息进行信息识别，以高识别率来实现发音内容的识别。

从经过这样说明的本发明中，显而易见，本发明可以用许多方式加以改变。这样的改变不被认为是背离了本发明的实质和范围，并且，应将所有这些对专业人士来说是显而易见的修改都纳入所附权利要求书的范围内。

于2002年2月28日提交的日本专利申请第2002-54235号在此用作参考。

Claims

1.一种信息识别设备，当说话者讲话时使用说话者的肌肉的肌电信号来识别一段发音的内容，该设备包括：

肌电信号采集装置，用于采集所述肌电信号；

活动量信息提取装置，用于从所述肌电信号中提取涉及所述肌肉的活动量的信息；以及

信息识别装置，它使用涉及所述肌肉活动量的信息来识别所述发音的内容。

2.根据权利要求1所述的信息识别设备，其中，所述活动量信息提取装置获得所述肌电信号的均方根值、整流后的平均值以及积分平均值中至少之一，作为涉及所述肌肉活动量的信息。

3.根据权利要求1或2所述的信息识别设备，其中，所述信息识别装置借助于一个神经网络来识别所述发音的内容，所述神经网络输入涉及所述肌肉活动量的信息。

4.根据权利要求1或2所述的信息识别设备，还包括一个数据库，在其中，各音素与涉及一名说话者发出相关音素时的肌肉活动量的信息相关联；以及

其中，所述信息识别装置通过使用由所述活动量信息提取装置所提取的涉及肌肉活动量的信息查找所述数据库，来获取由所述说话者所发出的一个音素。

5.根据权利要求1至4中任何一项所述的信息识别设备，还包括：

音频信息采集装置，它采集涉及所述发音所产生的声音的信息；

音频信息识别装置，它使用涉及所述声音的信息，来识别所述发音的内容；以及

学习装置，它进行与所述信息识别装置所进行的信息识别有关的学习，在学习过程中，使用涉及由所述活动量信息提取装置所提取的涉及肌肉活动量的信息，以及由所述音频信息识别装置所识别的、构成教学数据的发音内容，

其中，所述信息识别装置通过参照学习的结果，使用涉及由所述活动量信息提取装置所提取的涉及肌肉活动量的信息，来识别所述发音的内容。

6.一种信息识别方法，当说话者在讲话时，通过使用说话者的肌肉的肌电信号来识别一段发音的内容，该方法包括：

肌电信号采集步骤，用于采集所述肌电信号；

活动量信息提取步骤，用于从所述肌电信号中提取涉及所述肌肉的活动量的信息；以及

信息识别步骤，使用涉及肌肉活动量的所述信息来识别所述发音的内容。