CN102959618B

CN102959618B - 声音识别装置

Info

Publication number: CN102959618B
Application number: CN201080067715.9A
Authority: CN
Inventors: 大沢政信; 野木和行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2015-08-05
Anticipated expiration: 2030-06-28
Also published as: DE112010005706B4; US20120330655A1; WO2012001730A1; DE112010005706T5; JPWO2012001730A1; CN102959618A; JP5301037B2; US8990092B2

Abstract

本发明的声音识别装置包括：声音识别部(3)，该声音识别部(3)对输入声音进行声音识别；声音识别词典(4)，该声音识别词典(4)登记对输入声音进行声音识别而得到的词语；响应用声音数据存放部(6)，该响应用声音数据存放部(6)对登记于声音识别词典(4)中的词语的录音声音数据进行存放；对话控制部(7)，该对话控制部(7)在声音识别部(3)对登记于声音识别词典(4)中的词语进行声音识别时，从响应用声音数据存放部(6)获取与该词语相对应的录音声音数据；重放用噪音降低部(8)，该重放用噪音降低部(8)对由对话控制部(7)从响应用声音数据存放部(6)获取的录音声音数据中所包含的噪音进行降低处理；振幅调整部(9)，该振幅调整部(9)将由重放用噪音降低部(8)降低噪音后的录音声音数据的振幅调整为规定的声音水平的振幅；及声音重放部(10)，该声音重放部(10)重放振幅调整部(9)所输出的重放对象的录音声音数据。

Description

声音识别装置

技术领域

本发明涉及从所输入的声音数据中去除噪音分量并进行振幅调整、从而实现声音识别率的提高的声音识别装置。

背景技术

以往，公开了各种提供未包含噪音的、对用户而言易于听清的声音的技术。例如，在专利文献1中，利用在噪音去除部中存储的加权即将停止之前的噪音去除参数，从声音与稳定的噪音混杂的信号中仅取出声音信号，进行数字编码。此外，在专利文献2中，构成为：在从扬声器输出的声音或音响难以听清时，利用者操作调整部，使声音或音响的特征发生变化，使其易于与噪音等区别开来。此外，在专利文献3中，在重放声音时，判定基于声源参数而计算出的能量值，根据该判定值来选择预定的增益，按照所选择的增益来修正声音数据的重放音量。

现有技术文献

专利文献

专利文献1：日本专利特开平5－219176号公报

专利文献2：日本专利特开平7－262490号公报

专利文献3：日本专利特开平11－265200号公报

发明内容

由于现有的声音识别及声音重放如以上那样构成，因此，在高噪音下进行输入声音的登记的情况下，对重叠有噪音的声音执行振幅的调整，存在重放的响应声音与固定响应声音相比为较小的声音的问题。

本发明是为了解决上述那样的问题而完成的，其目的在于提供一种能从输入声音中去除噪音、并输出将振幅标准化后的声音的声音识别装置。

本发明所涉及的声音识别装置包括：声音识别部，该声音识别部对输入声音进行声音识别；声音识别词典，该声音识别词典登记对输入声音进行声音识别而得到的词语；响应用声音数据存放部，该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放；对话控制部，该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时，从所述响应用声音数据存放部获取与该词语相对应的录音声音数据；重放用噪音降低部，该重放用噪音降低部对由所述对话控制部从所述响应用声音数据存放部获取的录音声音数据中所包含的噪音进行降低处理；振幅调整部，该振幅调整部将由所述重放用噪音降低部降低噪音后的所述录音声音数据的振幅调整为规定的声音水平的振幅；及声音重放部，该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。

此外，声音识别装置包括：声音识别部，该声音识别部对输入声音进行声音识别；声音识别词典，该声音识别词典登记对输入声音进行声音识别而得到的词语；响应用声音数据存放部，该响应用声音数据存放部对登记于所述声音识别词典中的词语的录音声音数据进行存放；对话控制部，该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时，从所述响应用声音数据存放部获取与该词语相对应的录音声音数据；重放用噪音降低部，该重放用噪音降低部对作为所述录音声音数据而存放于所述响应用声音数据存放部的输入声音中所包含的噪音进行降低处理；振幅调整部，该振幅调整部将由所述对话控制部从所述响应用声音数据存放部获取的所述录音声音数据的振幅调整为规定的声音水平的振幅；及声音重放部，该声音重放部重放所述振幅调整部所输出的重放对象的录音声音数据。

根据本发明，能生成对用户而言易于听清的声音。

附图说明

图1是表示实施方式1所涉及的声音识别装置的结构的框图。

图2是表示实施方式1的声音识别装置中的向声音识别词典进行登记的登记示例的图。

图3是表示实施方式1的声音识别装置中的向响应用声音数据存放部进行登记的登记示例的图。

图4是表示实施方式1的声音识别装置中的振幅调整的说明图。

图5是表示实施方式1所涉及的声音识别装置的动作的流程图。

图6是表示实施方式1所涉及的声音识别装置的动作的流程图。

图7是表示实施方式2所涉及的声音识别装置的结构的框图。

图8是表示实施方式2所涉及的声音识别装置的动作的流程图。

图9是表示实施方式2所涉及的声音识别装置的动作的流程图。

图10是表示实施方式3所涉及的声音识别装置的结构的框图。

图11是表示实施方式3所涉及的声音识别装置的动作的流程图。

图12是表示实施方式4所涉及的声音识别装置的结构的框图。

具体实施方式

以下，为了更详细地说明本发明，按照附图说明用于实施本发明的方式。

实施方式1

图1是表示实施方式1所涉及的声音识别装置的结构的框图。

实施方式1的声音识别装置1包括声音输入部2、声音识别部3、声音识别词典4、声音录音部5、响应用声音数据存放部6、对话控制部7、重放用噪音降低部8、输出振幅调整部(振幅调整部)9、及声音重放部10。

声音输入部2接收用户所发出的声音的输入，输出声音数据。在向声音识别词典4进行登记的登记处理中，声音识别部3对从声音输入部2输入的声音数据进行识别，使声音识别结果与固有ID相对应地登记到声音识别词典4中。声音识别例如利用下述的专利文献1所揭示的隐马尔可夫模型(HiddenMarkov Model)来进行。图2是表示实施方式1的声音识别装置中的向声音识别词典4进行登记的登记示例的图。此处，声音识别结果例如是音素序列等。此外，在基于用户的发声来调出录音声音数据的处理中，声音识别部3对从声音输入部2输入的声音数据进行识别，参照声音识别词典4，获取与识别出的词语相对应的ID。另外，词语(word)不仅包含日语或外语中使用的单词，还包含数字、字母、标号等的组合(例如，型号)等。

[参考文献1]

古井贞熙“声音信息处理”第5章

声音识别词典4将声音识别部3的声音识别结果与固有ID一起进行存储。声音录音部5对从声音输入部2输入的声音数据进行录音，并登记到响应用声音数据存放部6中。录音声音数据的登记是附加与声音识别部3所附加对应的ID相同的ID来进行的。响应用声音数据存放部6将录音声音数据与固有ID一起进行存储。图3是表示实施方式1所涉及的声音识别装置中的向响应用声音数据存放部6进行登记的登记示例的图。

对话控制部7在用户说出与登记于声音识别词典4的声音数据相同的内容的情况下，从声音识别部3获取与发声内容相同的声音识别结果的ID，从响应用声音数据存放部6获取与该ID相同ID的录音声音数据。重放用噪音降低部8将从对话控制部7输入的录音声音数据中的噪音去除。作为噪音去除方法，可应用例如参考文献1(P126)及参考文献2所揭示的谱减法等。对重放用的声音数据进行噪音去除处理，以成为在人的听觉上不会感到不自然的声音。

[参考文献2]

S.F，Boll.“使用谱减法来抑制语音中的噪音(Suppression of acousticnoise in speech using spectral subtraction),”IEEE Trans.Acoust.Speech SignalProcess.,vol.ASSP-27,no.2,pp.113-120,1979.)

输出振幅调整部9将由重放用噪音降低部8去除噪音后的录音声音数据的振幅调整为规定的声音水平的振幅。振幅调整的具体例如图4所示。图4的示例中，进行振幅调整，使得去除噪音后的录音声音数据的振幅的最大值与固定响应声音数据的振幅的最大值相一致。声音重放部10对进行振幅调整后的录音声音数据进行重放，输出响应声音。

接下来，对声音识别装置1的动作进行说明。图5及图6是表示实施方式1所涉及的声音识别装置的动作的流程图。另外，将声音识别装置1的动作分成图5所示的将声音数据登记于声音识别词典4和响应用声音数据存放部6中的处理、和图6所示的基于用户的发声来调出录音声音数据的处理，以进行说明。

首先，在图5所示的将声音数据登记于声音识别词典4和响应用声音数据存放部6的处理中，若用户在可录音的状态下发声，则声音输入部2将用户的声音进行AD转换，例如以PCM(Pulse Code Modulation：脉冲编码调制)的格式进行获取，并将其作为声音数据进行输出(步骤ST1)。声音识别部3对步骤ST1中从声音输入部2输入的声音数据进行识别，生成声音识别结果，并且，使所生成的声音识别结果与固有ID相对应(步骤ST2)。声音识别例如是利用隐马尔可夫模型来进行的。此外，声音识别部3将所生成的声音识别结果和ID登记到声音识别词典4中(步骤ST3)。

另一方面，声音录音部5对步骤ST1中从声音输入部2输入的声音数据进行录音(步骤ST4)，对录音声音数据附加与步骤ST3中登记于声音识别词典4时的ID相同的ID，并登记于响应用声音数据存放部6(步骤ST5)。

接下来，参照图6，对基于用户的发声来调出录音声音数据的处理进行说明。此处，对用户说出与登记于声音识别词典4的声音相同的内容、执行命令或调出录音声音数据的情况进行说明。

若用户发声，则声音输入部2获取声音，以作为声音数据进行输出(步骤ST11)。声音识别部3对步骤ST11中从声音输入部2输入的声音数据进行识别，从声音识别词典4获取与识别出的词语相对应的ID，将所获取的ID输出到对话控制部7(步骤ST12)。声音识别例如是利用隐马尔可夫模型来进行的。

对话控制部7参照响应用声音数据存放部6，获取具有与步骤ST12中输入的ID相同的ID的录音声音数据，并输出到重放用噪音降低部8(步骤ST13)。重放用噪音降低部8基于谱减法等噪音去除方式等，对步骤ST13中输入的录音声音数据去除噪音以使得在人的听觉上不会感到不自然，并输出到输出振幅调整部9(步骤ST14)。输出振幅调整部9对步骤ST14中输入的去除噪音后的录音声音数据进行振幅调整，并输出到声音重放部10(步骤ST15)。声音重放部10对步骤ST15中输入的录音声音数据进行重放(步骤ST16)。

如上所述，根据该实施方式1，由于构成为在利用重放用噪音降低部8降低录音声音数据的噪音之后，利用输出振幅调整部9将振幅调整为规定的声音水平的振幅，因此，能使得由声音重放部10重放的响应声音的大小与固定响应声音相同，从而能重放出对用户而言容易听清的声音。

实施方式2

图7是表示实施方式2所涉及的声音识别装置的结构的框图。

该实施方式2的声音识别装置1A设置成对实施方式1中示出的声音识别装置1追加识别用噪音降低部11。以下，对于与实施方式1所涉及的声音识别装置的结构要素相同或相当的部分标注与实施方式1中使用的标号相同的标号，并省略或者简化说明。

识别用噪音降低部11配置在声音输入部2与声音识别部3之间，对从声音输入部2输入的声音数据实施噪音去除处理。作为噪音去除方法，可应用例如参考文献1及参考文献2所揭示的谱减法等。对识别用的声音数据进行噪音去除处理，以提高声音识别部3的识别率。

接下来，实施方式2的声音识别装置1A中，以将声音数据登记于声音识别词典4的动作、及基于用户的发声来调出录音声音数据的处理为中心进行说明。图8及图9是表示实施方式2所涉及的声音识别装置的动作的流程图。以下，对于与实施方式1的声音识别装置相同的步骤标注与图5及图6中使用的标号相同的标号，并省略或者简化说明。

首先，参照图8，对将声音数据登记于声音识别词典4的处理进行说明。若将作为步骤ST1由声音输入部2所获取的声音数据输出，则识别用噪音降低部11基于谱减法等噪音去除方式等，对该声音数据进行噪音去除处理以成为适合声音识别的声音，并输出到声音识别部3(步骤ST21)。声音识别部3对步骤ST21中输入的去除噪音后的声音数据进行识别，生成声音识别结果，并且，使所生成的声音识别结果与固有ID相对应(步骤ST22)。声音识别例如是利用隐马尔可夫模型来进行的。此外，声音识别部3将所生成的声音识别结果和ID登记到声音识别词典4中(步骤ST3)。另外，将声音数据登记于响应用声音数据存放部6的处理与实施方式1相同。

接下来，参照图9，对基于用户的发声来调出录音声音数据的处理进行说明。此处，对用户说出与登记于声音识别词典4的声音相同的内容、执行命令或调出录音声音数据的情况进行说明。

若将作为步骤ST11由声音输入部2所获取的声音数据输出，则识别用噪音降低部11基于谱减法等噪音去除方式等，对该声音数据进行噪音去除处理以成为适合声音识别的声音，并输出到声音识别部3(步骤ST23)。声音识别部3对步骤ST23中输入的去除噪音后的声音数据进行识别，从声音识别词典4获取与识别出的词语相对应的ID，将所获取的ID输出到对话控制部7(步骤ST24)。声音识别例如是利用隐马尔可夫模型来进行的。之后的处理与实施方式1相同。

如上所述，根据该实施方式2，由于构成为包括在进行声音识别前进行噪音去除处理的识别用噪音降低部11，因此，能避免因对声音数据双重地施加识别用的噪音降低处理和重放用的噪音降低处理而导致音质变差，并能力图提高识别率。

实施方式3

图10是表示实施方式3所涉及的声音识别装置的结构的框图。在该实施方式3中，将实施方式1的声音识别装置1的重放用噪音降低部8配置在声音输入部2与声音录音部5之间。对于与实施方式1的声音识别装置的结构要素相同或相当的部分标注与实施方式1中使用的标号相同的标号，并省略或者简化说明。

如图10所示，在对声音数据进行录音之前去除噪音的情况下，对从对话控制部7输出的录音声音数据不进行噪音去除处理。这是为了防止对重放用的录音声音数据进行双重的噪音去除处理。

接下来，对实施方式3的声音识别装置1B中将声音数据登记于响应用声音数据存放部6的动作进行说明。图11是表示实施方式3所涉及的声音识别装置的动作的流程图。对于与实施方式1的声音识别装置1相同的步骤标注与图5中使用的标号相同的标号，并省略或者简化说明。

若作为步骤ST1由声音输入部2输出声音数据，则重放用噪音降低部8基于谱减法等噪音去除方式等，对该声音数据去除噪音以使得在人的听觉上不会感到不自然，并输出到声音录音部5(步骤ST31)。声音录音部5对步骤ST31中从重放用噪音降低部8输入的去除噪音后的声音数据进行录音(步骤ST32)，对录音声音数据附加与步骤ST3中登记于声音识别词典4时的ID相同的ID，并登记于响应用声音数据存放部6(步骤ST5)。

另外，将声音数据登记于声音识别词典4的处理与实施方式1相同。此外，基于用户的发声来调出录音声音数据的处理省略了实施方式1的图6的流程图中ST14的从录音声音数据中去除噪音的处理。具体而言，将对话控制部7所获取的录音声音数据输出到输出振幅调整部9，输出振幅调整部9对该录音声音数据进行振幅的调整，并输出到声音重放部10。

如上所述，根据该实施方式3，由于构成为将重放用噪声降低部8设置在声音输入部2与声音录音部5之间，将实施噪音降低处理后的录音声音数据登记于响应用声音数据存放部6，因此，无需每次在重放录音声音数据时都实施噪音降低处理，能削减处理量。

实施方式4

图12是表示实施方式4所涉及的声音识别装置的结构的框图。

在该实施方式4的声音识别装置1C中，将实施方式2示出的声音识别装置1A的重放用噪音降低部8配置在声音输入部2与声音录音部5之间。实施方式4的声音识别装置1C的结构要素与实施方式2相同，省略其说明。

此外，该实施方式4的声音识别装置1C的动作中，将声音数据登记于声音识别词典4的处理与实施方式2相同，将声音数据登记于响应用声音数据存放部6的处理及基于用户的发声来调出录音声音数据的处理与实施方式3相同。

如上所述，根据该实施方式4，由于构成为将重放用噪声降低部8设置在声音输入部2与声音录音部5之间，将实施噪音降低处理后的录音声音数据登记于响应用声音数据存放部6，因此，无需每次在重放录音声音数据时都实施噪音降低处理，能削减处理量。

此外，由于构成为将识别用噪音降低部11设置在声音输入部2与声音识别部3之间，并将实施噪音降低处理后的声音数据登记于声音识别词典4，因此，能力图提高对声音数据的识别率。

另外，在实施方式1至实施方式4中，示出对重放用及识别用噪音降低处理例如使用谱减法等相同方式的结构，但即使在使用相同方式的情况下，通过调整参数，也能进行分别适于重放用或识别用的噪音去除。

工业上的实用性

由于本发明所涉及的声音识别装置能重放出不包含噪音而与固定响应声音数据的振幅相近的声音，因此，适用于导航装置等，可用于提供用户易于听清的声音。

Claims

1.一种声音识别装置，其特征在于，包括：

声音输入部，该声音输入部输入用户所发出的声音；

识别用噪音降低部，该识别用噪音降低部对由所述声音输入部所输入的声音数据进行用于声音识别的噪音降低处理；

声音识别部，该声音识别部对由所述识别用噪音降低部降低噪音后的声音数据进行识别；

声音识别词典，该声音识别词典登记由所述声音识别部所输出的词语；

重放用噪音降低部，该重放用噪音降低部对由所述声音输入部所输入的声音数据进行用于重放的噪音降低处理；

响应用声音数据存放部，该响应用声音数据存放部对由所述重放用噪音降低部降低噪音后的录音声音数据进行存储；

对话控制部，该对话控制部在所述声音识别部对登记于所述声音识别词典中的词语进行声音识别时，从所述响应用声音数据存放部获取与该词语相对应的录音声音数据；

振幅调整部，该振幅调整部将由所述对话控制部从所述响应用声音数据存放部获取的所述录音声音数据的振幅调整为规定的声音水平的振幅；以及

声音重放部，该声音重放部重放由所述振幅调整部输出的重放对象的录音声音数据，

进行分别与用于重放的噪音降低处理或用于识别的噪音降低处理相适应的噪音去除。