JP2003308079A

JP2003308079A - 音声入力装置

Info

Publication number: JP2003308079A
Application number: JP2002111760A
Authority: JP
Inventors: Kenji Ono; 健二小野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2002-04-15
Filing date: 2002-04-15
Publication date: 2003-10-31

Abstract

(57)【要約】【課題】音声による機器の操作命令（音声命令）の発
話とそれ以外の発話とを確実に区別する。【解決手段】発話者の発話音声を集音するとともに、
集音音声から発話と発話との間の無音声時間を計時し、
計時された無音声時間に基づいて音声による機器の操作
命令（音声命令）の発話かまたは音声命令以外の発話か
を判定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声入力装置に関
し、特に、操作性を改善したものである。

【０００２】

【従来の技術】発話者を撮像してその画像を処理し、画
像に基づいて発話の有無を判定し、発話有りと判定され
たときはマイクロフォン（以下、マイクという）からの
入力信号を音声認識処理することによって、発話者によ
るトークスイッチ操作を不要にした音声認識装置が知ら
れている（例えば特開平１１−３５２９８７号公報参
照）。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た音声認識装置では、発話者の撮像画像の外観形状に基
づいて発話の有無を判断しているので、同乗者との会話
や紛らわしい動作に対して発話有りと誤認する可能性が
ある上に、発話者を撮像するための撮像装置と撮像画像
を処理するための画像処理装置が必要となり、音声認識
装置のコストが増大するという問題がある。

【０００４】本発明の目的は、特別の装置を用いず、ま
たトークスイッチングの操作をせずに、音声による機器
の操作命令（以下、音声命令またはコマンドという）の
発話とそれ以外の発話とを確実に区別することにある。

【０００５】

【課題を解決するための手段】（１）請求項１の発明
は、発話者の発話音声を集音する集音手段と、前記集音
手段による集音音声から発話と発話との間の無音声時間
を計時する計時手段と、前記計時手段により計時された
無音声時間に基づいて、音声による機器の操作命令（音
声命令またはコマンド）の発話か、または音声命令以外
の発話かを判定する判定手段とを備え、音声命令により
機器を操作する。（２）請求項２の音声入力装置は、前記集音手段によ
る集音音声に基づいて発話者を特定する特定手段を備
え、前記判定手段によって、前記特定手段による特定結
果と前記計時手段による計時結果とにより、発話者の異
なる発話と発話との間の無音声時間に基づいて音声命令
の発話かそれ以外の発話かを判定するようにしたもので
ある。（３）請求項３の音声入力装置は、前記集音手段を発
話予定者の数だけ用意してそれぞれ発話予定者の近くに
設置し、前記特定手段によって発話音声を集音した前記
集音手段の別により発話者を特定するようにしたもので
ある。（４）請求項４の音声入力装置は車両に搭載される音
声入力装置であって、前記集音手段を乗員の数だけ用意
してそれぞれ車室内の各シートの近くに設置するととも
に、発話音声を集音した前記集音手段の別により発話者
を特定する特定手段を備え、前記判定手段によって、前
記特定手段による特定結果と前記計時手段による計時結
果とにより、発話者の異なる発話と発話との間の無音声
時間に基づいて音声命令の発話かそれ以外の発話かを判
定するようにしたものである。（５）請求項５の音声入力装置は、前記判定手段によ
って、発話者の着座位置と発話者の異なる発話と発話と
の間の無音声時間とに基づいて、音声命令の発話かそれ
以外の発話かを判定するようにしたものである。

【０００６】

【発明の効果】（１）請求項１の発明によれば、撮像
装置や画像処理装置のような高価な装置を用いずに、ま
たトークスイッチの操作がなくても、音声命令の発話と
それ以外の発話とを正しく区別することができる。（２）請求項２の発明によれば、発話者が特定される
ので音声命令の発話とそれ以外の発話とをさらに正しく
区別することができる。（３）請求項３および請求項４の発明によれば、発話
者を特定するための音声分析装置のような高価な装置を
用いずに、また、紛らわしい音質の発話者がいても正確
に発話者を特定することができ、音声命令の発話とそれ
以外の発話とをさらに正しく区別することができる。（４）請求項５の発明によれば、車室内の通常の会話
では、運転者と助手席乗員との間では会話の頻度が高
く、運転者と後席乗員との間では会話の頻度が低いとい
う傾向があり、発話者の着座位置を考慮することによっ
て音声命令の発話とそれ以外の発話とをさらに正しく区
別することができる。

【０００７】

【発明の実施の形態】車両に搭載して乗員の音声を入力
する一実施の形態を説明する。図１は一実施の形態の構
成を示す。車両の運転席シート、助手席シート、後席右
シートおよび後席左シートの近くにそれぞれマイク１〜
４を設置し、各座席に着座する乗員からの音声を各マイ
ク１〜４から集音する。入力ソース判定部５は、マイク
１〜４により集音した音声の発話者を特定する。発話分
離部６は、発話者が異なる発話は個別の発話として分離
し、同じ発話者からの発話でも複数の発話が連続する場
合はコマンド処理のために発話を分離する。発話間隔時
間計測部７は、発話分離部６で分離された発話の中に複
数の発話がある場合に発話間隔時間を計測する。

【０００８】コマンド／会話判定部８は、入力ソース判
定部５により特定された発話者と、発話間隔時間計測部
７により計測された発話間隔時間とに基づいて、コマン
ドかコマンド以外の会話かを判定する。コマンド制御部
９は、コマンド／会話判定部８でコマンドと判定された
場合に、そのコマンドにしたがって車載機器１０を操作
するとともに、操作内容提示部１１へ操作内容を出力
し、利用者に対して実行されたコマンドの内容を表示デ
ィスプレイ１２に表示するとともにスピーカー１３によ
り放送する。

【０００９】図２はコマンド／会話判定処理を示すフロ
ーチャートである。このフローチャートにより、一実施
の形態の動作を説明する。ステップ１において、車室内
の各座席に設けられたマイク１〜４のいずれかから「発
話１」の集音が検出されるとステップ２へ進む。ステッ
プ２では、「発話１」以前の、発話と発話との間の無音
声時間が規定時間Ｔ１（例えば５秒）以上か否かを確認
する。「発話１」以前の無音声時間が規定時間Ｔ１未満
の場合はステップ３へ進み、「発話１」はそれ以前の発
話に対する会話または独り言と判定してコマンドは実行
しない。

【００１０】一方、「発話１」以前の無音声時間が規定
時間Ｔ１以上の場合はステップ４へ進み、その無音声時
間が規定時間Ｔ２（＞Ｔ１で例えば１０秒）以上か否か
を確認する。「発話１」以前の無音声時間が規定時間Ｔ
２以上の場合はステップ５ヘ進み、「発話１」の発話者
が運転者か否かを確認する。「発話１」の発話者が運転
者の場合はステップ６へ進み、この車両の乗員は運転者
１名と判断して「発話１」をコマンドと判定する。な
お、「発話１」の発話者が運転者でない場合はステップ
７へ進む。

【００１１】「発話１」以前の無音声時間が規定時間Ｔ
１以上かつ規定時間Ｔ２未満の場合は、ステップ７で、
「発話１」以降の無音声時間が規定時間Ｔ３（例えば７
秒）以上か否かを確認する。「発話１」以降の無音声時
間が規定時間Ｔ３以上の場合はステップ８へ進み、「発
話１」の発話後、Ｔ３時間以上次の発話が検出されない
から「発話１」をコマンドと判定する。

【００１２】一方、「発話１」以降の無音声時間が規定
時間Ｔ３未満の場合はステップ９へ進み、次の「発話
２」を検出する。「発話１」の発話後、Ｔ３時間以内に
次の「発話２」があった場合は、ステップ１０で、「発
話２」の発話者が「発話１」の発話者と同一か否かを確
認する。「発話１」と「発話２」の発話者が同一でない
場合はステップ１１へ進み、乗員どうしの会話であると
判定する。

【００１３】「発話１」と「発話２」の発話者が同一の
場合はステップ１２へ進み、「発話２」が規定時間Ｔ４
（例えば４秒）以上継続中か否かを確認する。「発話
２」の継続時間がＴ４時間未満の場合はステップ１４へ
進み、「発話２」は「発話１」の繰り返し、もしくは言
い直しと判断して「発話２」をコマンドと判定する。

【００１４】しかし、「発話２」の継続時間がＴ４時間
以上の場合はステップ１３へ進み、「発話２」はコマン
ド以外の独り言、あるいは歌などであると判断し、「発
話１」をコマンドと判定する。

【００１５】以上の発話パターン〜に対するコマン
ド／会話判定を整理すると、Ｔ１時間以上無音声が続
いた後に（発話者Ａ）の「発話１」があり、その後Ｔ３
時間以上無音声が続いた場合は、「発話１」をコマンド
と判定する。

【００１６】（発話者Ａ）の「発話１」以前の無音声
時間がＴ１時間未満の場合は、「発話１」をコマンド以
外の会話または独り言と判定する。

【００１７】Ｔ１時間以上無音声が続いた後に（発話
者Ａ）の「発話１」があり、その後Ｔ３時間未満に（発
話者Ｂ）の「発話２」があった場合は、「発話１」およ
び「発話２」をコマンド以外の会話と判定する。

【００１８】Ｔ２時間以上無音声が続いた後に（運転
者）の「発話１」があった場合は、「発話１」をコマン
ドと判定する。

【００１９】Ｔ１時間以上無音声が続いた後に（発話
者Ａ）の「発話１」があり、その後（発話者Ａ）の「発
話２」がＴ４時間以上継続している場合は、「発話１」
をコマンドと判定する。

【００２０】Ｔ１時間以上無音声が続いた後に（発話
者Ａ）の「発話１」があり、さらにその後、Ｔ４時間未
満の（発話者Ａ）の「発話１」があった場合は、「発話
２」をコマンドと判定する。

【００２１】以上説明したように一実施の形態によれ
ば、撮像装置や画像処理装置のような高価な装置を用い
ずに、またトークスイッチの操作がなくても、音声命令
の発話とそれ以外の発話とを正しく区別することができ
る。

【００２２】また、車室内の各シートの近くにそれぞれ
マイクを設置して発話音声を集音することによって発話
者を特定するための音声分析装置のような高価な装置を
用いずに、また、紛らわしい音質の発話者がいても正確
に発話者とその着座位置を特定することができ、音声命
令の発話とそれ以外の発話とをさらに正しく区別するこ
とができる。

【００２３】特許請求の範囲の構成要素と一実施の形態
の構成要素との対応関係は次の通りである。すなわち、
マイク１〜４が集音手段を、発話間隔時間計測部７が計
時手段を、コマンド／会話判定部８が判定手段を、入力
ソース判定部５が特定手段をそれぞれ構成する。なお、
本発明の特徴的な機能を損なわない限り、各構成要素は
上記構成に限定されるものではない。

【００２４】なお、上述した一実施の形態では車両に搭
載して乗員の音声を入力する装置を例に上げて説明した
が、本願発明の音声入力装置は車両用に限定されるもの
ではない。

【００２５】なお、上述した一実施の形態では車室内の
各座席にマイク１〜４を設置して発話者を特定する例を
示したが、乗員の数、すなわち発話が予定される人員の
数よりも少ない集音マイクを設置し、それらのマイクに
よる集音音声を分析して発話者を特定するようにしても
よい。

【図面の簡単な説明】

【図１】一実施の形態の構成を示す図である。

【図２】一実施の形態のコマンド／会話判定処理を示
すフローチャートである。

【符号の説明】

１〜４マイク５入力ソース判定部６発話分離部７発話間隔時間計測部８コマンド／会話判定部９コマンド制御部１０車載機器１１操作内容提示部１２表示ディスプレイ１３スピーカー

Claims

【特許請求の範囲】

【請求項１】発話者の発話音声を集音する集音手段と、前記集音手段による集音音声から発話と発話との間の無
音声時間を計時する計時手段と、前記計時手段により計時された無音声時間に基づいて、
音声による機器の操作命令（以下、音声命令またはコマ
ンドという）の発話か、または音声命令以外の発話かを
判定する判定手段とを備え、音声命令により機器を操作することを特徴とする音声入
力装置。
【請求項２】請求項１に記載の音声入力装置において、前記集音手段による集音音声に基づいて発話者を特定す
る特定手段を備え、前記判定手段は、前記特定手段による特定結果と前記計
時手段による計時結果とにより、発話者の異なる発話と
発話との間の無音声時間に基づいて音声命令の発話かそ
れ以外の発話かを判定することを特徴とする音声入力装
置。
【請求項３】請求項２に記載の音声入力装置において、前記集音手段を発話予定者の数だけ用意してそれぞれ発
話予定者の近くに設置し、前記特定手段は発話音声を集
音した前記集音手段の別により発話者を特定することを
特徴とする音声入力装置。
【請求項４】請求項１に記載の音声入力装置は車両に搭
載される音声入力装置であって、前記集音手段を乗員の数だけ用意してそれぞれ車室内の
各シートの近くに設置するとともに、発話音声を集音し
た前記集音手段の別により発話者を特定する特定手段を
備え、前記判定手段は、前記特定手段による特定結果と前記計
時手段による計時結果とにより、発話者の異なる発話と
発話との間の無音声時間に基づいて音声命令の発話かそ
れ以外の発話かを判定することを特徴とする音声入力装
置。
【請求項５】請求項４に記載の音声入力装置において、前記判定手段は、発話者の着座位置と発話者の異なる発
話と発話との間の無音声時間とに基づいて、音声命令の
発話かそれ以外の発話かを判定することを特徴とする音
声入力装置。