CN101331538A

CN101331538A - 声音识别装置

Info

Publication number: CN101331538A
Application number: CNA2006800475146A
Authority: CN
Inventors: 岩宫亮; 冈田玲子
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-12-14
Filing date: 2006-09-13
Publication date: 2008-12-24
Also published as: US20090222265A1; US8090582B2; JP4846735B2; WO2007069377A1; DE112006002989T5; JPWO2007069377A1

Abstract

本发明提供的声音识别装置(10)，具有：进行声音识别的声音识别单元(12)；以及控制与声音识别单元相对应的声音输入接收、并进行根据声音识别单元而得到的声音识别结果的识别的控制单元(13)。于是，该声音识别装置还具有：根据控制单元规定声音接收的结束的暂停时间来控制声音接收，并且检测环境状态的环境状态检测单元(18)，以及根据环境状态检测单元所检测出的环境状态来变更暂停时间的输入暂停时间控制单元(16)。

Description

声音识别装置

技术领域

本发明涉及识别输入声音并输出根据该识别结果的识别的声音识别装置，尤其涉及搭载于车辆等的移动体且根据输入声音进行引导的声音识别装置。

背景技术

一般已知识别输入声音并进行根据该识别结果的识别的声音识别装置，例如，为了避免起由于驾驶员引起的按键操作的危险性，将声音识别装置搭载于车辆等的移动体上，并根据声音进行引导。在这种声音识别装置中，包括识别输入声音的声音识别部，由于在声音识别部中要识别输入声音，所以必须辨别输入声音与噪声等的外部干扰。

而且，当在声音识别装置中进行声音识别之时，若即使经过预定的时间(暂停时间)还没有来自用户的发声时，则使其暂停，在这种声音识别装置中，例如当用户根据来自声音识别装置的发声信号来进行声音输入时，一般当考虑在用户听到发声信号后至发声最初的一个词汇的时间、比到发声以后的词汇为止所要的时间来得长时，直到发声最初的一个词汇为止的时间就花得较长，往往在发声最初的一个词汇之前就暂停了。

因此，以往在车辆用的声音识别装置中，根据车速及齿轮位置等的行驶条件，自动调整噪声与声音的辨别基准电平，在从低速至高速的整个车速范围内能够确实地辨别(识别)输入声音(例如，参照专利文献1)。

另外，为了防止在发声最初的一个词汇前已经暂停，将暂停时间设置为可变，特别是使直到发声最初的一个词汇为止的暂停时间变长(例如，参照专利文献2)。

专利文献1：特开昭和57-30913号公报(第2页～第3页，第3图～第4图)

专利文献2：特开昭和58-50598号公报(第2页，第1图～第2图)

由于以往的声音识别装置具有如上述的构成，所以专利文献1所述的发明只是根据行驶条件调整噪声与声音的辨别基准电平而已，而并不进行暂停，如果加长用户进行声音输入的时间，就极可能增大同时输入噪声与声音的概率，例如，即使调整噪声与声音的辨别基准电平，也难以高精度地辩别噪声与声音，导致声音识别率降低的问题。

另一方面，专利文献2所述的发明在将直到发音最初的一个词汇为止的暂停时间加长时，因此同时输入噪声与声音的时间相应地加长，例如在噪声环境下，存在因噪声而不能正确识别声音的问题。

发明内容

本发明正是为了解决上述的问题而设计的，其目的在于提供一种能经常高精度地识别输入声音的声音识别装置。

本发明的声音识别装置，其特征在于，具有：进行声音识别的声音识别单元；以及控制对声音识别单元进行的声音输入接收，并进行根据用声音识别单元得到的声音识别结果的识别的控制单元。于是，该声音识别装置还具有：根据控制单元规定声音接收的结束的暂停时间来控制声音接收，并且检测出环境状态的环境状态检测单元18；以及根据利用环境状态检测单元检测出的环境状态来变更暂停时间的暂停时间控制单元。

根据本发明，由于其构成为根据环境状态来变更暂停时间，所以具有能按照环境状态来经常设定适当的暂停时间，能降低作为误识别的概率，并且具有经常高精度地识别输入声音的效果。

附图说明

图1是示出本发明的实施形态1的声音识别装置的一个例子的框图。

图2为说明图1所示的声音识别装置中所使用的第1至第3的暂停时间用的图。

图3为说明图1所示的声音识别装置的动作用的流程图。

图4是示出本发明的实施形态2的声音识别装置的一个例子框图。

图5为说明图4所示的声音识别装置的动作用的流程图。

图6示出图4所示的声音识别装置中所使用的判定表的一个例子。

图7是示出本发明的实施形态3的声音识别装置的一个例子的框图。

图8为说明图7所示的声音识别装置的动作用的流程图。

图9示出图7所示的声音识别装置中所使用的对话难易度表的一个例子。

具体实施方式

下面为了更详细地说明本发明，根据附图说明实施本发明用的最佳形态。

实施形态1

图1是示出本发明的实施形态1的声音识别装置的一个例子的框图，图示的声音识别装置10例如是搭载于车辆等的移动体上的装置。声音识别装置具有：麦克风等的声音输入单元11、声音识别单元12、控制单元13、发声开关14、输入再开控制单元15、输入暂停时间控制单元16、输出单元17、以及环境状态检测单元18，环境状态检测单元18内装有例如麦克风18a。

当用户使用声音识别装置10之时，开通(按下)发声开关14。通过这样，控制单元13将声音识别单元12设置为能够动作的状态(即为能够接收声音输入的状态)。如果用户从声音输入单元11输入声音，则用声音识别单元12识别输入声音并将该识别结果送到控制单元13。然后，控制单元13将识别结果作为识别内容送到输出单元17，同时将根据识别结果的识别(引导等)等送到输出单元17，且输出单元17输出识别内容/引导。

用图示的声音识别装置10通过环境状态检测单元18取入周围环境中的噪声来作为环境噪声，且该环境噪声被送到控制单元13中。然后，如下所述，输入暂停时间控制单元16根据环境噪声来调整停止声音输入接收的暂停时间。另外，输入再开控制单元15如下所述，在声音输入暂停之后，根据环境噪声来控制是否再开始声音输入的接收。

这里来说明上述的暂停时间，如图2所示，暂停时间包括第1至第3暂停时间T1至T3，第1暂停时间T1规定为从输入声音接收的开始直到发声开始为止的时间，同样地，第2暂停时间T2规定为从输入声音接收的开始直到发声结束为止的时间，并且T1＜T2。另外，第3暂停时间T3规定为用户的发声结束以后的时间，如果控制单元13经过第3暂停时间T3，则结束声音输入的接收。

另外，如果控制单元13从声音输入接收开始直到发声开始为止的时间点t1经过第1暂停时间T1，则结束声音输入的接收，如果从声音输入接收开始直到发声结束为止的时间点t2经过第2暂停时间T2，则结束声音输入的接收。

下面说明动作。

参照图1至图3，现在若开通(ON)声音识别装置10，则控制单元13使声音输入接收的自动再开成为关断(OFF)(即，将输入再开控制单元15设置为OFF(初始状态：步骤ST1))，判定声音输入接收的自动再开是否为ON(步骤ST2)。这里因为输入再开控制单元15为OFF，所以接着控制单元13判定发声开关14是否被按下(步骤ST3)，并待机到发声开关14被按下为止。如果发声开关14被按下，则利用控制单元13开始声音输入的接收(步骤ST4)。

从环境状态检测单元18将环境噪声送到控制单元13，输入暂停时间控制单元16在控制单元13的控制下，判定环境噪声的电平(噪声电平)是否在规定值以上(步骤ST5)。于是，如果噪声电平在规定值以上，则判断为输入声音易受环境噪声的影响，即识别率下降，输入暂停时间控制单元16将第1至第3暂停时间T1至T3分别缩短从第1至第3的规定时间起预先规定的第1至第3的时间(步骤ST6)。如果第1至第3的暂停时间T1至T3被缩短，则用控制单元13继续将声音输入接收自动再开设置为OFF(步骤ST7)。

接着，利用输入暂停时间控制单元16判定从声音输入的接收开始起是否经过了第1暂停时间T1(步骤ST8)。如果利用输入暂停时间控制单元16判定为过了第1暂停时间T1，则控制单元13结束声音输入的接收，并返回步骤ST2。另一方面，如果没有经过第1暂停时间T1，则控制单元13判定发声是否开始了，若发声未开始，就返回步骤ST8。

如果开始发声，则用输入暂停时间控制单元16来判定从声音输入的接收开始起是否经过了第2暂停时间T2(步骤ST10)。如果利用输入暂停时间控制单元16判为经过了第2暂停时间T2，则控制单元13结束声音输入的接收，并返回步骤ST2。另一方面，如果尚未经过第2暂停时间T2，则控制单元13判定发声是否结束了，若发声未结束，就返回步骤ST10继续进行处理，若发声结束就结束处理。

在步骤ST5中，如果噪声电平未达到规定值，则输入暂停时间控制单元16将第1至第3的暂停时间T1至T3分别只加长预先规定的时间(步骤ST12)。如果第1至第3的暂停时间T1至T3被加长，则利用控制单元13将声音输入接收自动再开设置为ON(将输入再开控制单元15设置为ON：步骤ST13)，并且进到步骤ST8。

如果输入再开控制单元15为ON，则输入再开控制单元15在暂停后根据噪声电平来控制是否进行再开声音输入的接收。即，在噪声电平为达到规定值之时，输入再开控制单元15自动地(即，即使未按下是开关14)再开始声音输入的接收。

如上所述，根据实施形态1，由于其构成为，即如果噪声电平在规定值以上、即环境噪声高时，则缩短第1至第3的暂停时间T1至T3，因此，设定根据噪声电平的暂停时间的结果，就是具有降低噪声与声音同时输入的概率，降低误识别的概率，并且能够经常高精度地识别输入声音的效果。

根据实施形态1，由于其构成为，即如果噪声电平未达到规定值、即环境噪声低时，将声音输入接收自动再开设置为ON，因此，在暂停后自动地再开始声音输入的接收的结果，就是具有用户能够省略按下发声开关14等的操作的效果。

实施形态2

图4是示出本发明实施形态2的声音识别装置的一个例子的框图，在图4中，对与图1所示的声音识别装置相同的构成要素，标注相同的参照标号。在图示的声音识别装置20中，因为控制单元和输入暂停时间控制单元与图1所示的控制单元13以及输入暂停时间控制单元16的动作不同，故这里分别标注标号21和22。另外，在图4中环境状态检测单元23具有：车速传感器23a、GPS天线/接收机23b、3维(3D)罗盘23c、齿轮位置传感器23d、以及地图数据库(地图DB)23e。

在图4中，车速传感器23a检测车辆速度，并输出车辆速度检测信号。另外，GPS用户接收信号以使GPS天线/接收机23b得到GPS信号，3D罗盘23c输出表示车辆的位置及行驶方向的罗盘检测信号。另一方面，利用齿轮位置传感器23d检测出车辆的齿轮位置(传导的齿轮位置)。

环境状态检测单元23利用GPS信号求出车辆的当前位置，并且根据需要、按照罗盘检测信号来修正当前位置，从而得到车辆当前位置。然后，利用环境状态检测单元23并根据车辆当前位置来检索地图DB23e，从地图上得到车辆所处的道路类别及地域类别(例如，表示都市部分或是郊外部分的类别)以作为车辆当前位置信息。

另外，环境状态检测单元23根据车辆速度检测信号及齿轮位置检测信号得到车辆行驶状态以作为行驶状态信息。然后，将这些车辆当前位置信息以及行驶状态信息给与控制单元21，输入暂停时间控制单元22如后所述，根据车辆当前位置信息以及行驶状态信息，调整第1至第3的暂停时间T1至T3。

下面说明动作。

参照图4与图5，如果声音识别装置为ON，则控制单元21将声音输入接收的自动再开设置为OFF(步骤ST14)，判定声音输入接收的自动再开是否为ON(步骤ST15)。这里，由于输入再开控制单元15为OFF，所以控制单元21判定发声开关14是否被按下(步骤ST16)，并待机到发声开关14被按下为止。如果发声开关14被按下时，则利用控制单元21开始声音输入的接收(步骤ST17)。

接着，输入暂停时间控制单元22在控制单元21的控制下，进行下面的条件判定(步骤ST18)。参照图6，图6是示出设置于控制单元21中的判定表的一个例子，在图示的例子中，判定表有多个项目编号，对应于项目编号，作为条件设定有：“当前位置是目的地附近吗？”、“速度不足60km/h”、“速度在60km/h以上”、“道路类别为狭窄街道”、以及“地域类别为住宅地”等的条件，对各项目编号规定了第1至第3的暂停时间(ms)，同时规定自动再开(声音接收自动再开)的“ON”或“OFF”。

输入暂停时间控制单元22比较并参照上述的车辆当前位置信息以及行驶状态信息所表示的车辆当前位置以及车辆行驶状态与判定表，判断在判定表中相应的项目编号是否存在，如果存在相应的项目编号，则设定与该相应的项目编号对应的第1至第3的暂停时间T1至T3(步骤ST19)。另外，输入再开控制单元15设定与相应的项目编号对应的声音输入接收的自动再开(步骤ST20)。

如图6所示，第1至第3的暂停时间T1至T3与自动再开设定因条件而不同，根据车辆当前位置信息以及行驶状态信息，设定第1至第3的暂停时间T1至T3和自动再开ON或OFF。另外，如果项目编号1至99内有2个以上的条件同时成立，则设定用项目编号100所示的第1至第3的暂停时间T1至T3与自动再开。

通过这样，在设定第1至第3的暂停时间T1至T3与自动再开之后，利用输入暂停时间控制单元22判定从声音输入的接收开始起是否过了第1暂停时间T1(步骤ST21)。如果利用输入暂停时间控制单元22判定为经过了第1暂停时间T1，则控制单元21结束声音输入的接收，并返回步骤ST15。另一方面，若未经过第1暂停时间T1，则控制单元21判定发声是否开始(步骤ST22)，若发声未开始就返回步骤ST21。

如果开始发声，则利用输入暂停时间控制单元22判定从声音输入的接收开始起是否经过了第2暂停时间T2(步骤ST23)。如果利用输入暂停时间控制单元22判定为经过了第2暂停时间T2，则控制单元21就结束声音输入的接收，并返回步骤ST15。另一方面，若未经过第2暂停时间T2，则控制单元21判定发声是否结束(步骤ST24)，若发声未结束，则返回步骤ST23继续进行处理，若发声结束则结束处理。

如上所述，根据实施形态2，由于其构成为，即根据车辆当前位置及车辆行驶状态来设定第1至第3的暂停时间T1至T3，因此具有降低因车辆的当前位置以及行驶状态而引起的噪声与声音一起输入的概率，降低误识别的概率，并且经常高精度地识别输入声音的效果。

根据实施形态2，由于其构成为，即根据车辆当前位置以及车辆行驶状态来决定是否进行声音输入接收的自动再开，因此根据车辆的当前位置以及行驶状态而自动地再开暂停后声音输入接收，其结果是具有用户能省略按下发声开关14等的操作的效果。

实施形态3

图7上示出本发明实施形态3的声音识别装置的一个例子的框图，在图7中，对与图1所示的声音识别装置相同的构成要素，标注相同的标号。在图示的声音识别装置30中，由于控制单元、输入暂停时间控制单元以及输入再开控制单元与图1所示的控制单元13、输入暂停时间控制单元16以及输入再开控制单元15的动作是不同的，故这里分别标注标号31、32和33。另外，在图7中，环境状态检测单元34具备对话内容DB34a。

在该对话内容DB34a中存储声音识别装置30与用户进行对话用的对话内容，环境状态检测单元34根据车辆环境状态将存储在对话内容DB34a中的对话内容(例如，质问事项)送到控制单元31中，控制单元31从输出单元17输出该质问事项。然后，在控制单元31的控制下，输入暂停时间控制单元32根据后述的以难易程度调整第1至第3的暂停时间T1至T3。另外，在控制单元31的控制下，输入再开控制单元33根据对话难易度将输入接收的自动再开设置为ON或OFF。

下面说明动作。

参照图7与图8，如果声音识别装置为ON，控制单元31将声音输入接收的自动再开为OFF(步骤ST25)，并判定声音输入接收的自动再开是否为ON(步骤ST26)。这里，由于输入再开控制单元33为OFF，所以接着控制单元31判定发声开关14是否被按下(步骤ST27)，并且待机直到发声开关14被按下为止。如果发声开关14被按下，则由控制单元31开始声音输入的接收(步骤ST28)。

其后，控制单元31从输出单元17输出对话内容DB34a中存储的质问事项。对话内容DB34a中存储着例如图9所示的对话难易度表，在该对话难易度表中设定与对话内容(质问事项)相对的对话难易度(分值)。控制单元31参照对话难易度表，取得按对话内容的难易度(分值)，从而进行分值判定(步骤ST29)。

现在，若分值为不足20，则输入暂停时间控制单元32只将第1至第3的暂停时间T1至T3分别从第1至第3的规定时间起缩短预定的第1至第3的时间(步骤ST30)。另外，用控制单元31继续将声音输入接收自动再开设置为OFF(步骤ST31)。接着，利用输入暂停时间控制单元32判定从声音输入接收开始起是否经过了第1暂停时间T1(步骤ST32)。

如果利用输入暂停时间控制单元32判定为经过了第1暂停时间T1，则控制单元31结束声音输入的接收，并返回步骤ST26。另一方面，若尚未经过第1暂停时间T1，则控制单元31判定发声是否开始(步骤ST33)，若发声尚未开始，则返回步骤ST32。

如果开始发声，则利用输入暂停时间控制单元32判定从声音输入接收开始起是否经过了第2暂停时间T2(步骤ST34)。如果利用输入暂停时间控制单元32判定为经过了第2暂停时间T2，则控制单元31结束声音输入的接收，并返回步骤ST26。另一方面，若尚未经过第2暂停时间T2，则控制单元31判定发声是否结束(步骤ST35)，若发声尚未结束，则返回步骤ST34继续进行处理，若发声结束，则结束处理。

在步骤ST29中若分值在20以上且不足30，则输入暂停时间控制单元32将第1至第3的暂停时间T1至T3分别作为第1至第3的规定时间，并前进到步骤ST32。

另一方面，在步骤ST29中，若分值在30以上时，输入暂停时间控制单元32使第1至第3的暂停时间T1至T3分别比第1至第3的规定时间只加长预定的第1至第3的时间(步骤ST36)。另外，控制单元31将声音输入接收自动再开设置为ON(步骤ST37)。此后前进到步骤ST32。如果输入再开控制单元33为ON，则输入再开控制单元33在暂停后根据分值，控制声音输入的接收是否再开。即，若分值在30以上，则输入再开控制单元33自动地再开始声音输入的接收。

如上所述，根据实施形态3，由于其构成为，即在对话内容的难易度高时，加长第1至第3的暂停时间T1至T3，所以用户能具有裕度来进行发声，并且能提高发声的受理率。结果能够缓和对用户的操作负荷及精神压力。

根据实施形态3，由于其构成为根据对话的难易度将声音输入接收自动再开设置为ON，所以在暂停后自动再开声音输入的接收的结果是具有能使用户省略按下发声开关14等的操作的效果。

工业上的实用性

如上所述，本发明的声音识别装置适用于提供能高精度识别输入声音的声音识别装置中。

Claims

1.一种声音识别装置，其特征在于，包括：

进行声音识别的声音识别单元；

根据规定对所述声音识别单元的声音输入的接收的结束的暂停时间来控制对该声音输入的接收，并根据用该声音识别单元所得到的声音识别结果来进行识别的控制单元；

检测环境状态的环境状态检测单元；以及

根据利用该环境状态检测单元所检测出的环境状态来变更所述暂停时间的暂停时间控制单元。

2.如权利要求1所述的声音识别装置，其特征在于，

暂停时间包括：

规定从声音接收开始到发声开始为止的第1暂停时间；

规定从所述声音接收开始到发声结束的第2暂停时间；以及

规定所述发声结束后的时间的第3暂停时间。

3.如权利要求1所述的声音识别装置，其特征在于，还具有：

在对声音输入的接收暂停之后，根据利用环境状态检测单元所检测出的环境状态来决定是否再开始对所述声音输入的接收的接收再开控制单元。

4.如权利要求3所述的声音识别装置，其特征在于，

环境状态检测单元检测周围环境中的噪声电平以作为所述环境状态，

暂停控制单元当所述噪声电平在规定值以上时就缩短暂停时间，

再开控制单元当所述噪声电平未达规定值时允许再次开始对声音输入的接收。

5.如权利要求3所述的声音识别装置，其特征在于，

环境状态检测单元至少检测出表示移动体的当前位置的当前位置信息和表示移动体的行驶状态的行驶状态信息中的一个并作为环境状态，

暂停控制单元比较预先设定的判定条件与所述环境状态，从而变更暂停时间，

再开控制单元比较所述判定条件与所述环境状态，从而决定是否允许再次开始对声音输入的接收。

6.如权利要求5所述的声音识别装置，其特征在于，

当前位置信息包含表示移动体的当前位置以及所述移动体所行驶的道路类别和地域类别。

7.如权利要求5所述的声音识别装置，其特征在于，

行驶状态信息中至少包含移动体的行驶速度与该移动体的变速箱中的齿轮位置。

8.如权利要求3所述的声音识别装置，其特征在于，

环境状态检测单元中具有规定对话内容与每个该对话内容的难易程度的对话难易度表，

所述环境状态检测单元根据所述对话难易度表来得到与所述对话内容相对应的难易度，

暂停控制单元根据所述环境状态检测单元所得到的难易度来变更暂停时间，

再开控制单元根据所述难易度来决定是否允许再次开始对声音输入的接收。