CN108630202A

CN108630202A - 语音识别装置、语音识别方法以及语音识别程序

Info

Publication number: CN108630202A
Application number: CN201710767713.4A
Authority: CN
Inventors: 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-21
Filing date: 2017-08-31
Publication date: 2018-10-09
Anticipated expiration: 2037-08-31
Also published as: US20180275951A1; CN108630202B; JP2018156044A; US10579327B2; JP6553111B2

Abstract

本发明涉及语音识别装置、语音识别方法以及语音识别程序。实施方式涉及的语音识别装置具备取得部、调整部和识别部。取得部收集语音，取得语音信号。调整部将阈值调整为比输入语音信号的音量等级低的值并进行登记。识别部读取所登记的阈值，将该阈值与输入语音信号进行比较，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入，在输入语音信号的音量等级大于等于阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理。由此，提供能够基于与用户的交互式调整指示，取得用户期望范围内的语音的语音识别装置。

Description

语音识别装置、语音识别方法以及语音识别程序

本申请以日本专利申请2017-054907(申请日：03/21/2017)为在先申请而享有优先权。本申请通过参照该申请而包括同申请的全部内容。

技术领域

本发明的实施方式涉及语音识别装置、语音识别方法以及语音识别程序。

背景技术

语音识别装置具有用话筒(microphone)收录作为对象的说话者的语音并进行识别，使其识别结果文本化(文字化)的功能。但是，根据环境，难以区分背景中的噪声及语音。尤其在收录多人的语音的情况下，根据与话筒的距离和/或方向，会产生难以取得语音的状况。另外，在室内或会议等中，即使是一个人的语音有时也会包含由于回声而不适合进行语音识别的声音。然而，如果为了切实地取得语音而取音量小的语音，则会变得更难以与噪声区分。

发明内容

如上所述，在现有的语音识别装置中，存在难以根据环境适当地设定相对于用于语音识别的音量的阈值这一问题。

本发明所要解决的问题在于，提供能够基于与用户的交互式调整指示，取得用户期望范围内的语音的语音识别装置、语音识别方法以及语音识别程序。

实施方式涉及的语音识别装置具备取得部、调整部和识别部。取得部收集语音，取得语音信号。调整部根据调整指示输入，将阈值调整为比输入语音信号的音量等级(level)低的值并进行登记。识别部根据识别指示输入，读取所登记的阈值，将该阈值与输入语音信号进行比较，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入，在输入语音信号的音量等级大于等于阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理。

根据上述构成的语音识别装置，能够基于与用户的交互式调整指示，取得用户期望范围内的语音。

附图说明

图1是表示第1实施方式涉及的语音识别装置的构成的框图。

图2是表示第1实施方式涉及的语音识别装置的处理流程的流程图。

图3是表示第2实施方式涉及的语音识别装置的处理流程的流程图。

图4A是表示第2实施方式涉及的语音识别装置的具体例的概念图。

图4B是表示第2实施方式涉及的语音识别装置的具体例的概念图。

图5是表示第3实施方式涉及的语音识别装置的处理流程的流程图。

图6是表示第4实施方式涉及的语音识别装置的处理流程的流程图。

图7是表示第4实施方式涉及的语音识别装置的显示例的概念图。

图8是表示第5实施方式涉及的语音识别装置的处理流程的流程图。

图9是表示具有与第5实施方式涉及的语音识别装置一起使用而有用的混响消除功能的声学处理装置的构成的框图。

图10是表示通过计算机装置实现第1～第5实施方式涉及的语音识别装置时的构成的框图。

标号说明

100：语音识别装置 101：话筒

102：变换器 103：信号处理器

104：指示输入装置 105：显示装置

200：声学处理装置 201：存储部

202：推定部 203：消除部

301：CPU 302：ROM

303：RAM 304：输入输出I/F

305：通信I/F 306：总线

具体实施方式

在语音识别处理中，例如利用设定与从收录点的距离相应的阈值的方法，能够使得将音量小于阈值的语音信号删掉，并在输入了阈值以上的音量的语音信号的情况下，对该语音进行识别处理。但是，阈值的设定对环境敏感，因而未必总是能设定为适当的值。于是，提供能够基于与用户的交互式调整指示，在用户期望范围内取得语音的语音识别装置。

下面，参照附图，对实施方式的语音识别装置进行说明。

(第1实施方式)

图1是表示第1实施方式涉及的语音识别装置100的构成的框图。该语音识别装置将由话筒101收集的语音信号通过变换器102变换为数字信号后，输入到信号处理器103。该信号处理器103根据来自指示输入装置104的指示，将语音信号与基于各条件的阈值进行比较，删掉小于阈值的信号成分后，进行语音信号的语音识别，变换为文本数据，使显示装置105进行显示。

关于上述构成的语音识别装置100，参照图2，对其语音识别处理进行说明。

图2是表示上述信号处理器103中的语音识别处理的流程的流程图。在本实施方式涉及的语音识别处理中，包括调整处理过程和识别处理过程。

在调整处理过程中，等待来自指示输入装置104的调整指示输入(步骤S11)，在有调整指示输入的情况下设定调整区间(步骤S12)，截取该调整区间的语音信号(步骤S13)，将阈值调整为比输入语音信号的音量等级低的值并进行登记(步骤S14)。在识别处理过程中，等待来自指示输入装置104的识别指示输入(步骤S15)，在有识别指示输入的情况下读取所登记的阈值(步骤S16)，将该阈值与输入语音信号进行比较(步骤S17)，判断输入语音信号的音量等级是否超出阈值(步骤S18)。在此，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入(步骤S19)，返回步骤S18等待下一个识别指示输入。在输入语音信号的音量等级超过阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理(步骤S20)，变换为文本数据(步骤S21)，使显示装置105进行显示(步骤S22)。

根据上述的语音识别处理，对于根据调整指示输入所设定的调整区间的输入语音信号，调整并登记阈值，因此，能够排除音量小于该阈值的噪声和/或对象者以外的谈话的信号，收录以阈值以上的音量输入的识别对象的说话者的语音信号并执行语音识别。

此外，在上述实施方式中，在阈值调整时以调整指示输入为触发来设定调整区间，但也可以为，在该输入操作时播放提示“请说点什么以便调整阈值。”，在提示通知后设定调整区间，对于该调整区间的输入语音信号调整阈值。另外，也可以取代调整指示输入而利用触发字。即，也可以检测识别对象的说话者说出的预先所设定的触发字，对于该触发字或者继触发字之后的语音信号调整阈值。例如，预先登记昵称(爱称)“AAA”作为触发字，在输入了“AAA，打开电视”的语音信号的情况下，对“AAA”做出反应并启动调整处理，根据“打开电视”的语音信号来调整阈值。

作为上述实施方式中的音量等级，可以使用输入语音信号的每个预定时间区间的功率，也可以使用其他各种指标。例如，也可以在非语音区间内预先求取背景噪声的功率，使用输入语音信号的功率与背景噪声的功率之比作为音量等级。如此，具有即使在话筒的灵敏度和/或放大器的增益变更的情况下也无需重新调整阈值这一效果。另外，除此之外也可以组合使用表示输入语音的周期性的指标等表示语音符合程度的指标。在使用组合了多个指标的向量的情况下，也可以使用比对预先在混合高斯分布等中学习到的语音模型与向量而获得的似然度作为音量等级。由此，具有会减少将音量大的噪声截取为语音的错误的效果。

(第2实施方式)

接着，对第2实施方式涉及的语音识别装置进行说明。此外，本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成，因而此处省略其构成的说明。

图3是表示本实施方式涉及的语音识别处理的流程的流程图，图4A及图4B是具体例。此外，在图3中，对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示，此处对不同部分进行说明。

本实施方式具备重新调整处理过程。即，在步骤S22中，文本数据被显示装置105进行了显示时，用户查看该显示内容，在存在不希望使其识别的语音的识别结果的情况下，通过指示输入装置103指示重新调整处理(步骤S23)。在该重新调整处理中，等待指定并删除不希望使其识别的语音的识别结果的指示输入(步骤S24)，若收到该删除指示，则提高阈值至该语音不被检测出的等级为止(步骤S25)。由此，在语音识别处理中，仅拾取识别对象的说话者的语音信号供给到语音识别处理。

图4A及图4B中表示具体例。在此，假定如图4A所示那样布置的员工旅游策划成员A、B、C以朝向语音识别装置的话筒M的方式举行会议时，拾取了邻近的非策划成员D的说话声的情况。

会议内容如图4B所示那样被语音识别并显示为文本。此时，邻近的非策划成员D的说话声也被进行文本显示。由于无需进行该非策划成员D的语音识别，因此，指示重新调整处理，指定非策划成员D的文本部分并指示删除。由此，将会提高阈值至非策划成员D的语音不被检测出的等级为止，在之后的谈话中忽视D的声音。

(第3实施方式)

接着，对第3实施方式涉及的语音识别装置进行说明。此外，本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成，因而此处省略其构成的说明。

图5是表示本实施方式涉及的语音识别处理的流程的流程图。此外，在图5中，对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示，此处对不同部分进行说明。

本实施方式在调整处理过程中，在步骤S13的处理后，准备并登记两个阈值(第1阈值t1、第2阈值t2，t1<t2)(步骤S26)。在此，在步骤S15中有识别指示输入的情况下，读取第2阈值t2(步骤S27)，将第2阈值t2与输入语音信号进行比较(步骤S28)，在输入语音信号的音量等级高于第2阈值t2的情况下，移至步骤S20的语音识别处理。

再者，在本实施方式中，在步骤S29中输入语音信号的音量等级不超过第2阈值t2的情况下，进行阈值重新调整。

具体而言是，首先，读取第1阈值t1(步骤S30)，将第1阈值t1与输入语音信号进行比较(步骤S31)，在输入语音信号的音量等级超过第1阈值t1的情况下，进行语音识别处理(步骤S33)。判断该语音识别处理是否为第一次(步骤S34)，是第一次的情况下，指示重新输入语音(步骤S35)，并在语音信号被重新输入的情况下(步骤S36)，返回步骤S30，进行与第1阈值t1的比较。在步骤S34的语音识别处理是第二次且识别结果与第一次的内容相同的情况下，判断为“由于说话声小未能录入故重新说了一遍”，降低第2阈值t2并重新登记(步骤S37)，移至步骤S28的比较处理。在步骤S32中音量等级不超过第1阈值t1的情况下，移至步骤S19的输入语音信号废弃，结束一系列的处理。

此外，在步骤S37中降低了第2阈值t2的情况下，也可以从以往的识别结果中检测阈值以上的结果并输出。

(第4实施方式)

接着，对第4实施方式涉及的语音识别装置进行说明。此外，本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成，因而此处省略其构成的说明。

图6是表示本实施方式涉及的语音识别处理的流程的流程图，图7是显示例。此外，在图6中，对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示，此处对不同部分进行说明。

本实施方式在阈值的调整·登记处理(步骤S14)中，计测输入语音信号的音量(步骤S141)，在显示装置105中显示如图7所示的表示音量等级的声级计(levelmeter)及阈值(步骤S142)，将阈值调整为用户通过指示输入装置104所指定的值(步骤S143)。

如此，根据本实施方式，显示语音特征量的声级计及阈值，使用户能够调整阈值。

(第5实施方式)

接着，对第5实施方式涉及的语音识别装置进行说明。此外，本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成，因而此处省略其构成的说明。

图8是表示本实施方式涉及的语音识别处理的流程的流程图。此外，在图8中，对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示，此处对不同部分进行说明。

本实施方式在阈值的调整·登记处理(步骤S14)中，提取输入语音信号的特征量(步骤S144)，根据该特征量推定话筒101与说话者之间的距离(步骤S145)，将阈值调整为获取预定距离范围内的说话者的语音信号的值(步骤S146)。由此，(1)能够仅识别离话筒101近的说话者的说话声。再者，推定说话者的说话声的大小并调整阈值(步骤S147)。由此，(2)能够推定说话者的说话声的大小并判断是否进行识别，因此使得不识别近处的说话者的窃窃私语。

在此，作为上述语音信号的特征量，可以利用混响声。即，着眼于直达声与混响声的比率根据距离而不同这一情况，能够通过一起使用用于消除混响的声学处理装置(从收录的语音信号减去弹回的语音信号)并计测混响声的音量来推定距离。

上述用于消除混响的声学处理装置的具体构成表示在图9中。图9所示的声学处理装置200具备存储部201、推定部202和消除部203。存储部201存储参照信号，该参照信号表示对于第1处理区间所包含的第1观测信号完成了混响消除后的信号。推定部202使用第2处理区间所包含的第2观测信号和上述存储部201所存储的参照信号，推定混响消除滤波器的滤波系数。该滤波系数的推定基于与通过远离声源的话筒进行声音收集的状况相适的模型来进行。该模型例如是表示将通过对延迟输入的声学信号适用混响消除滤波器从而消除了混响的信号与上述声学信号相加所获得的观测信号的模型。消除部203使用第2观测信号、参照信号、具有所推定的滤波系数的混响消除滤波器，求取表示从第2观测信号中消除了混响的信号的输出信号。

上述构成的声学处理装置基于相对于通过远离声源的话筒进行声音收集的状况，与其物理现象相适的模型，利用使滤波系数保持稳定的方法，推定混响消除滤波器，使用推定出的滤波器来进行混响消除处理。由此，混响消除处理的精度提高，能够有效使用混响声作为用于语音识别的特征量。

如上所述，根据第1至第5实施方式，能够提高语音识别处理的精度。

接着，使用图10，对第1至第5实施方式涉及的语音识别装置的硬件结构进行说明。图10是表示第1至第5实施方式涉及的语音识别装置的硬件结构例的框图。

第1至第5实施方式涉及的语音识别装置具备：CPU(Central Processing Unit)301等控制装置；ROM(Read Only Memory)302和/或RAM(Random Access Memory)303等存储装置；连接有话筒101、操作输入装置104、显示装置105的输入输出I/F304；连接于网络进行通信的通信I/F305；以及连接各部的总线306。

由第1至第5实施方式涉及的语音识别装置执行的程序预先装载在ROM302等中来提供。

由第1至第5实施方式涉及的语音识别装置执行的程序也可以构成为，用可安装形式或可执行形式的文件，记录在CD-ROM(Compact Disk Read Only Memory)、软盘(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等计算机可读取的记录介质中，作为计算机程序产品来提供。

再者，也可以构成为将由第1至第5实施方式涉及的语音识别装置执行的程序保存在与互联网等网络连接的计算机上，通过经由网络下载来提供。另外，也可以构成为将由第1至第5实施方式涉及的语音识别装置执行的程序经由互联网等网络来提供或发布。

由第1至第5实施方式涉及的语音识别装置执行的程序能够使计算机作为上述的语音识别装置的各部发挥功能。该计算机为，CPU301能够从计算机可读取的存储介质中将程序读取到主存储装置上，由此执行该程序。

根据上述至少一个实施方式的语音识别装置，通过具备现有技术没有的、实施方式中的共通特征，能够基于与用户的交互式调整指示，取得用户期望范围内的语音。

虽然对本发明的几个实施方式进行了说明，但是这些实施方式是作为例子提出的，并非旨在限定发明的范围。这些实施方式能够以其他各种方式实施，在不偏离发明宗旨的范围内，可以进行各种省略、替换、变更。这些实施方式和/或其变形包含在发明的范围和/或宗旨中，并且，包含在技术方案所记载的发明和其等同的范围内。

Claims

1.一种语音识别装置，具备：

取得部，其收集语音，取得语音信号；

调整部，其根据调整指示输入，将阈值调整为比输入语音信号的音量等级低的值并进行登记；以及

识别部，其根据识别指示输入，读取所登记的阈值，将该阈值与输入语音信号进行比较，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入，在输入语音信号的音量等级大于等于阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理。

2.根据权利要求1所述的语音识别装置，

还具备重新调整部，该重新调整部对所述阈值进行重新调整，以使得废弃根据所述识别部的识别处理结果指定为不需要的部分的语音信号。

3.根据权利要求1所述的语音识别装置，

所述调整部准备并登记第1阈值t1和第2阈值t2，在此，t1<t2，

所述识别部读取第2阈值t2，将第2阈值t2与输入语音信号进行比较，在输入语音信号的音量等级高于第2阈值t2的情况下，移至语音识别处理，

还具备重新调整部，该重新调整部在输入语音信号的音量等级不超过第2阈值t2的情况下，进行所述第2阈值t2的重新调整，

所述重新调整部读取第1阈值t1并将其与输入语音信号进行比较，在输入语音信号的音量等级超过第1阈值t1的情况下，进行语音识别处理，并促使重新输入语音信号，再次将重新输入的语音信号与第1阈值t1进行比较，在重新输入的语音信号的音量等级超过所述第1阈值t1的情况下，进行语音识别处理，在第二次的语音识别结果与第一次的语音识别结果相同的情况下，降低第2阈值t2并重新登记，在输入语音信号、重新输入语音信号的音量等级不超过第1阈值的情况下，废弃该语音信号。

4.根据权利要求1所述的语音识别装置，

所述调整部计测所述输入语音信号的音量，向用户提示该音量等级及阈值，将阈值调整为用户指定的值。

5.根据权利要求1所述的语音识别装置，

所述调整部提取所述输入语音信号的特征量，根据该特征量来推定所述取得部与说话者之间的距离，将阈值调整为获取预定距离范围内的说话者的语音信号的值。

6.根据权利要求5所述的语音识别装置，

所述取得部与说话者之间的距离基于直达声与混响声的比率来推定。

7.一种语音识别装置，具备：

取得部，其取得多个语音；以及

识别部，其根据在用户进行指示的期间中所取得的所述语音的等级，对所述多个语音中的至少一个进行识别。

8.根据权利要求7所述的语音识别装置，还具备：

提示部，其提示所述语音的识别结果；以及

设定部，其根据所述识别结果中与用户指示的部分相当的语音的等级，设定作为所述识别的对象的语音。

9.一种语音识别装置，具备：

取得部，其取得多个语音；

输出部，其输出促使用户发声的内容；以及

识别部，其根据所述用户发出的语音等级，对所述多个语音中的至少一个进行识别。

10.根据权利要求9所述的语音识别装置，还具备：

提示部，其提示所述语音的识别结果；以及

11.一种语音识别方法，包括：

收集语音，取得语音信号；

根据调整指示，将阈值调整为比输入语音信号的音量等级低的值并进行登记；

根据识别指示，读取所登记的阈值，将该阈值与输入语音信号进行比较，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入，在输入语音信号的音量等级大于等于阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理。

12.一种语音识别程序，是用于使计算机执行语音识别处理的语音识别程序，包括：

取得步骤，收集语音，取得语音信号；

调整步骤，根据调整指示输入，将阈值调整为比输入语音信号的音量等级低的值并进行登记；以及

识别步骤，根据识别指示输入，读取所登记的阈值，将该阈值与输入语音信号进行比较，在输入语音信号的音量等级小于阈值的情况下，废弃语音信号的输入，在输入语音信号的音量等级大于等于阈值的情况下，将输入语音信号作为识别对象的说话者的语音信号，执行识别处理。