JP2017219746A

JP2017219746A - 音声出力制御装置および音声出力制御プログラム

Info

Publication number: JP2017219746A
Application number: JP2016114957A
Authority: JP
Inventors: 武弘重田; Takehiro Shigeta; 博紀坂下; Hiroki Sakashita
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-06-09
Filing date: 2016-06-09
Publication date: 2017-12-14

Abstract

【課題】本発明は、ユーザが意図しない制御対象機器の音声操作を防ぐことを目的とする。【解決手段】本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。【選択図】図１

Description

この発明は、ユーザの発話音声によって音声出力制御を行う技術に関する。

ナビゲーション装置は、表示に加えて音声により経路案内を行うことが一般的である。また、冷蔵庫などの家電製品も、近年では音声出力機能を備えたものがあり、音声によりユーザにサービスを提供することが可能である。そして、こうした機器の音声出力制御を、ユーザの発話音声によって行うことが求められている。

機器の音声制御をユーザの発話音声により行う技術として、特許文献１には、被操作機器から音声を出力している間に、ユーザの発話音声を認識し、発話音声で指示された被操作機器の操作を実行する技術が開示されている。例えば、テレビが被操作機器である場合、ユーザが「うるさい」と発話すると、テレビの音量を下げる制御が行われる。

また、特許文献２には、ユーザの発話を認識して音声メッセージの再生制御を行う音声ガイドシステムが開示されている。特許文献２の段落００２９によると、この音声ガイドシステムでは、例えば、ユーザが「もう１回」と発話すると、音声メッセージを再度再生し、ユーザが「遅い」と発話すると、音声メッセージの再生速度を速くする。

特開２０００−３３９１３１号公報特開２００７−１０４０７１号公報

特許文献１，２の技術によれば、ユーザの発話音声により機器の音声出力制御を行うことが可能である。しかし、いずれの技術も、機器の出力音声とユーザの発話音声以外に音声が存在しない環境下での使用を想定しており、ユーザの発話が、機器の出力音声に向けられたものであると容易に判断できる状況での使用に限られる。例えば、車両に搭載されたナビゲーション装置の出力音声をユーザの発話音声によって制御する場合、音声出力制御装置は、ユーザの発話音声がナビゲーション装置に対してのものか、搭乗者間の会話であるかが分からないため、搭乗者間の会話を認識してユーザが意図しない音声操作を行ってしまうという問題があった。

本発明は、上述の問題に鑑みてなされたものであり、ユーザが意図しない制御対象機器の音声操作を防ぐことを目的とする。

本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。

本発明の音声出力制御プログラムは、音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、コンピュータに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、抽出した制御表現のうち制御音声に由来する制御表現に対応する音声出力制御を行わせる。

本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。従って、ユーザが音声による音声出力制御を意図している場合にのみ、音声出力制御を行うことが出来る。

本発明の音声出力制御プログラムは、音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、コンピュータに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、抽出した制御表現のうち制御音声に由来する制御表現に対応する音声出力制御を行わせる。従って、ユーザが音声による音声出力制御を意図している場合にのみ、音声出力制御を行うことが出来る。

実施の形態１に係る音声出力制御装置の構成を示すブロック図である。実施の形態１に係る音声出力制御装置の動作を示すフローチャートである。実施の形態２に係るナビゲーション装置の構成を示すブロック図である。実施の形態２に係るナビゲーション装置による音声出力制御処理の全体動作を示すフローチャートである。音声出力制御装置のハードウェア構成を示す図である。音声出力制御装置のハードウェア構成を示す図である。

＜Ａ．実施の形態１＞
＜Ａ−１．構成＞
図１は、実施の形態１に係る音声出力制御装置１０１の構成を示すブロック図である。制御対象機器２１は、音声出力機能を有している。音声出力制御装置１０１は、制御対象機器２１と接続され、制御対象機器２１の音声出力を制御する。なお、図１では制御対象機器２１を音声出力制御装置１０１と別の構成として示しているが、制御対象機器２１は音声出力制御装置１０１と一体となっていても良い。

音声出力制御装置１０１は、制御表現抽出部１１、制御判断部１２、および音声出力制御部１３を備えている。

制御表現抽出部１１は、ユーザの発話音声から、制御対象機器２１の音声出力制御に対応する制御表現を抽出する。制御判断部１２は、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、ユーザの発話音声が制御対象機器２１の音声出力制御を行うための制御音声であるか否かを判断する。音声出力制御部１３は、制御表現抽出部１１で抽出された制御表現のうち、制御音声に由来する制御表現に対応する制御対象機器２１の音声出力制御を行う。以上の構成によれば、ユーザの発話音声が制御音声である場合にのみ音声出力制御が行われるため、ユーザが制御対象機器２１に対してではない発話を誤認識して音声出力制御を行うことを防ぐことができる。

＜Ａ−２．動作＞
図２は、音声出力制御装置１０１の動作を示すフローチャートである。以下、図２に沿って音声出力制御装置１０１の動作を説明する。まず、制御表現抽出部１１は、ユーザの発話音声から、制御対象機器２１の音声出力制御に対応する制御表現を抽出する（ステップＳ１１）。次に、制御判断部１２は、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する（ステップＳ１２）。発話音声が制御音声でなければ、音声出力制御装置１０１は処理を終了する。一方、発話音声が制御音声であれば、音声出力制御部１３が、制御音声から抽出された制御表現に対応する制御対象機器２１の音声出力制御を行う（ステップＳ１３）。以上の動作によれば、ユーザの発話音声が制御音声である場合にのみ音声出力制御が行われるため、ユーザが制御対象機器２１に対してではない発話を誤認識して音声出力制御を行うことを防ぐことができる。

＜Ｂ．実施の形態２＞
＜Ｂ−１．構成＞
実施の形態２では、本発明の音声出力制御装置を車両に搭載されたナビゲーション装置とし、制御対象機器が音声出力制御装置に内蔵された例を説明する。但し、本発明の音声出力制御装置は、車載に限定されるものではなく、ナビゲーション装置でなくても良い。

図３は、実施の形態２に係るナビゲーション装置１０２の構成を示すブロック図である。ナビゲーション装置１０２は、実施の形態１の音声出力制御装置１０１の構成に加えて、音声取得部１４、音声認識部１５、ユーザ情報認識部１６、音声作成部２２、およびスピーカ２３を備えている。

音声作成部２２は、ナビゲーション装置１０２の出力音声を作成している。音声作成部２２の作成音声は、スピーカ２３から出力される。図３では、スピーカ２３をナビゲーション装置１０２の構成要素として示しているが、スピーカ２３はナビゲーション装置１０２に接続されたナビゲーション装置１０２とは別の構成であっても良い。以下、いずれの場合であっても、スピーカ２３から出力される音声をナビゲーション装置１０２の出力音声という。

音声取得部１４は、例えばマイクにより構成され、ユーザの発話音声を取得する。

音声認識部１５は、音声取得部１４が取得したユーザの発話音声を文字列に変換する。

制御表現抽出部１１は、ユーザの発話音声の文字列から、制御表現を抽出する。ここで、制御表現とは、ナビゲーション装置１０２の出力音を操作するための表現である。例えば、「うるさい」という表現は、音量を小さくする操作と対応付けられた制御表現であり、「もっとゆっくり」という表現は、再生速度を遅くする操作と対応付けられた制御表現である。このような、各種の音声出力制御と制御表現との対応関係が、予め制御表現抽出部１１に保有されている。

ユーザ情報認識部１６は、ナビゲーション装置１０２を音声操作しようとするユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかをユーザ情報として取得する。ユーザ情報のうちユーザが聴覚で知覚する情報とは、例えばナビゲーション装置１０２の出力音声、周りの人物の会話、背景雑音などの環境音、およびナビゲーション装置１０２以外の車両に搭載された他機器の出力音に関する情報であり、これらの音の音量、速度、音源方向、認識結果文字列、言語、方言のいずれかを少なくとも含む。これらのユーザ情報を、ユーザ情報認識部１６は車室内に設けられたマイクの集音音声から取得する。このとき、マイクはユーザに聞こえている音を集音することが好ましいため、ユーザの近傍、例えばハンドルまたはダッシュボードなどに設置される。

ユーザ情報のうちユーザが視覚で知覚する情報には、ナビゲーション装置１０２の図３に図示しないディスプレイの表示情報、およびナビゲーション装置１０２以外の車両に搭載された他機器の表示情報が含まれる。すなわち、ユーザ情報認識部１６は、ナビゲーション装置１０２の表示情報をユーザ情報として取得する他、ナビゲーション装置１０２以外の車両に搭載された他機器と接続され、当該他機器の表示情報をユーザ情報として取得する。

ユーザ情報のうちユーザの挙動情報は、ユーザの顔の向き、視線の向き、手の動きなどのジェスチャー、口の開度または目の開度などの表情、制御対象機器であるナビゲーション装置１０２に対するユーザの操作情報のいずれかを少なくとも含む。ユーザ情報認識部１６は操作情報以外の挙動情報を車室内に設けられたカメラの撮影画像から取得する。このとき、カメラはユーザの近傍、例えばハンドルまたはダッシュボードなどに設置される。また、ユーザ情報認識部１６は、ユーザの操作情報を入力部１７から取得する。入力部１７はナビゲーション装置１０２の入力インタフェースであり、例えば、ナビゲーション装置１０２のディスプレイ（図３に図示せず）がタッチパネルを備える場合には、タッチパネルが入力部１７を構成する。

制御判断部１２は、ユーザの発話音声が、ナビゲーション装置１０２の出力音声を制御するための制御音声であるか否かをユーザ情報に基づき判断する。この制御音声判断処理の詳細は、後述する。

音声出力制御部１３は、制御判断部１２でユーザの発話音声を制御音声と判断した場合に、制御表現抽出部１１で制御音声から抽出された制御表現に対応する音声出力制御を、音声作成部２２に対して実施する。

＜Ｂ−２．全体動作＞
図４は、ナビゲーション装置１０２による音声出力制御処理の全体動作を示すフローチャートである。以下、図４に沿ってナビゲーション装置１０２の音声出力制御処理を説明する。

スピーカ２３からナビゲーション装置１０２の音声出力が行われると（ステップＳ２１でＹｅｓ）、ユーザ情報認識部１６はユーザ情報の認識を行う（ステップＳ２２）。次に、ナビゲーション装置１０２は音声取得部１４がユーザの発話音声を取得したか否かを判断する（ステップＳ２３）。音声取得部１４がユーザの発話音声を取得していなければ、再びステップＳ２２に戻ってユーザ情報の認識を行う。

音声取得部１４がユーザの発話音声を取得すると、音声認識部１５がユーザの発話音声を文字列に変換する（ステップＳ２４）。次に、制御表現抽出部１１がユーザの発話音声に制御表現が含まれるか判断する（ステップＳ２５）。ここで、制御表現抽出部１１は、自身が保有する制御表現リストを参照し、ユーザの発話音声の文字列が制御表現と一致するかを判断する。ユーザの発話音声に制御表現が含まれない場合、音声出力制御処理は終了する。ユーザの発話音声に制御表現が含まれる場合、制御判断部１２は、ユーザの発話音声が制御音声か否かを判断する（ステップＳ２６）。ユーザの発話音声に制御表現が含まれる場合であっても、その発話音声は同乗者との会話である可能性があるため、ユーザの発話音声が、ナビゲーション装置１０２の出力音声を制御するための音声、すなわち制御音声であるか否かをここで判断する。この制御音声判断処理の詳細は、後述する。

ユーザの発話音声が制御音声である場合、音声出力制御部１３が音声作成部２２に対して、ステップＳ２５で抽出した制御表現に対応する音声出力制御を実行する（ステップＳ２７）。この音声出力制御の詳細は、後述する。以上で、音声出力制御処理を終了する。

なお、図４のフローチャートでは、ナビゲーション装置１０２の音声出力をトリガとしてユーザ情報認識部１６がユーザ情報を認識したが、ユーザ情報の認識は、ナビゲーション装置１０２の音声出力とは別に一定期間等随時に行われていても良い。

＜Ｂ−３．制御音声判断処理＞
次に、図４のステップＳ２６における制御判断部１２による制御音声判断処理を具体例で説明する。

制御判断部１２は、ユーザ情報認識部１６からユーザ情報を取得し、当該ユーザ情報に基づき、ユーザの発話音声が制御音声であるか否かを判断する。例えば、ユーザの発話音声が「うるさい」、「静かに」、「音が大きい」、「音量を小さくして」等、音量の調節を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の音量、背景雑音の音量、周囲の会話の音量、等のユーザ情報を用いて制御音声判断を行う。具体的には、発話音声に含まれる制御表現が「うるさい」等の音量を下げる操作を指示するものであり、ナビゲーション装置１０２の音量が周囲の会話の音量または背景雑音の音量よりも大きい場合に、制御判断部１２はユーザがナビゲーション装置１０２の音量に関して「うるさい」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、発話音声に含まれる制御表現が「音が小さい」等の音量を上げる操作を指示するものであり、ナビゲーション装置１０２の音量が周囲の会話の音量または背景雑音の音量よりも小さい場合に、制御判断部１２はユーザがナビゲーション装置１０２の音量に関して「音が小さい」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「速い」、「もっとゆっくり」、「遅すぎる」、「速めに」等、再生速度の調節を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の再生速度、周囲の会話の速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、発話音声に含まれる制御表現が「速い」等の発話速度を遅くする操作を指示するものであり、ナビゲーション装置１０２の再生速度が周囲の会話の速度よりも速い場合に、制御判断部１２はユーザがナビゲーション装置１０２の出力音声に関して「速い」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、発話音声に含まれる制御表現が「遅すぎる」等の再生速度を上げる操作を指示するものであり、ナビゲーション装置１０２の再生速度が周囲の会話の速度よりも遅い場合に、制御判断部１２はユーザがナビゲーション装置１０２の出力音声に関して「遅すぎる」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「もう１回」、「繰り返して」等、再生済みの音声のリピート再生を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の音量または再生速度、周囲の会話の音量または発話速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、ナビゲーション装置１０２の音量が周囲の会話の音量よりも小さく、ナビゲーション装置１０２の再生速度が周囲の会話の発話速度よりも速い場合に、ユーザはナビゲーション装置１０２の出力音声が小さく速くて聞き取りにくかったことから、ナビゲーション装置１０２の出力音声に関して「もう１回」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、制御判断部１２は、ナビゲーション装置１０２または他装置の表示情報をユーザ情報として用いて、制御音声判断を行うこともできる。例えば、ナビゲーション装置１０２の表示画面（図３に図示せず）に、何らかの警告画面が表示されている場合に、ユーザは警告内容に関する音声情報のリピート再生を指示しているものと判断し、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「最初から」、「頭から聞きたい」等、再生中の音声の頭出し再生を指示する制御表現を含む場合、制御判断部１２は、再生済みの音声のリピート再生を指示する制御表現の場合と同様に、制御音声判断を行う。

ユーザの発話音声が、「英語で」、「フランス語で喋って」等、音声の言語の変更を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の再生言語、および車両内の他装置の再生言語、等のユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「英語で」等の再生言語を英語に変更することを指示する制御表現を含む場合、ナビゲーション装置１０２の再生言語が日本語で、車両内の他装置の再生言語が英語である場合には、ユーザは他装置ではなくナビゲーション装置１０２に対して、再生言語の変更を指示していると考えることができる。従って、制御判断部１２は、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「男声で」、「女性の声で」等、音声の性別の変更を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の出力音声の性別、ナビゲーション装置１０２の表示情報、車両内の他装置の出力音声の性別、他装置の表示情報、等のユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「男声で」等の音声の性別を男性に変更することを指示する制御表現を含む場合、ナビゲーション装置１０２の出力音声が男声で、車両内の他装置の出力音声が女声である場合には、ユーザはナビゲーション装置ではなく他装置に対して、出力音声の性別の変更を指示していると考えることができる。従って、制御判断部１２は、ユーザの発話音声を制御音声とは判断しない。また、ナビゲーション装置１０２に女性のキャラクターが表示されている場合には、ユーザはナビゲーション装置１０２のキャラクターを男性に変更し、出力音声を男声に変更することを希望していると考えることができる。従って、制御判断部１２は、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「もっとハッキリ」、「丁寧に話して」等、音声の明瞭度の向上を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の音量または再生速度、周囲の会話の音量または発話速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、ナビゲーション装置１０２の音量が周囲の会話の音量よりも小さく、ナビゲーション装置１０２の再生速度が周囲の会話の発話速度よりも速い場合に、ユーザはナビゲーション装置１０２の出力音声が小さく速くて聞き取りにくかったことから、ナビゲーション装置１０２の出力音声に関して発話したものと判断し、ユーザの発話音声を制御音声と判断する。

ユーザの発話音声が、「関西弁で」、「東北弁で喋って」等、音声の方言の変更を指示する制御表現を含む場合、制御判断部１２は、ナビゲーション装置１０２の出力音声の方言、車両内の他装置の表示情報などのユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「関西弁で」という、音声を関西弁に変更するよう指示する制御表現を含む場合、ナビゲーション装置１０２の出力音声が標準語であればユーザの発話音声を制御音声と判断し、ナビゲーション装置１０２の出力音声が既に関西弁であれば、ユーザの発話音声を制御音声と判断しない。また、車両内の他装置が関西地方の案内表示を行っている場合には、ユーザの発話音声は当該他装置に対してのものであると判断し、制御音声とは判断しない。

以上、音量の調節、再生速度の調節など、様々な変更を指示する制御表現に対する制御音声判断について説明したが、ユーザはこれらの制御表現を組み合わせて操作を指示することも可能である。例えば、ユーザが「関西弁で頭からもう１回喋って」と発話した場合には、制御判断部１２は、上記で説明した音声の方言の変更を指示する制御表現に対する制御音声判断と、再生済みの音声のリピート再生を指示する制御表現に対する制御音声判断とを組み合わせて、制御音声判断を行う。

また、上記の制御音声判断は、制御表現に応じて異なるユーザ情報を用いて行われた。しかし、制御判断部１２は、全ての制御表現に対して、以下に示すユーザの挙動情報から制御音声判断を行うことも出来る。例えば、制御判断部１２は、ユーザの顔が横または後ろに向いている場合に、ユーザが同乗者の方向を向いて発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。また、制御判断部１２は、ユーザの表情が豊かである場合に、ユーザが同乗者に対して発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。また、制御判断部１２は、ユーザの手の動きが大きい、すなわち単位時間あたりの手の移動量が大きい場合に、ユーザが同乗者に対して発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。このように、制御判断部１２は、ユーザの挙動情報を用いてユーザの発話音声が同乗者に対しての発話か否かを判別し、制御音声判断を行うことができる。ユーザの挙動情報の他の例は、ユーザの操作情報である。具体的には、ユーザがナビゲーション装置１０２に対して操作を入力しながら発話した場合、あるいは発話の直近にナビゲーション装置１０２に対して操作を入力していた場合に、制御判断部１２は、ユーザの発話音声を制御音声と判断する。これら、ユーザの挙動情報に基づく制御音声判断は、上記で説明した制御表現毎の制御音声判断に組み合わせることが可能である。

＜Ｂ−４．音声出力制御処理＞
制御判断部１２がユーザの発話音声を制御音声と判断した場合、音声出力制御部１３は、当該制御音声に含まれる制御表現に対応する音声出力制御を音声作成部２２に実施する。以下、各制御表現に対応する音声出力制御について説明する。

音量の調節を指示する制御表現の例として、ユーザが「うるさい」と発話した場合、音声出力制御部１３は、音量を小さくするよう音声作成部２２に指示する。音声作成部２２は、音声出力制御部１３の指示に従い音量を小さくして音声を作成することにより、ナビゲーション装置１０２の出力音声の音量が小さく変更される。

再生速度の調節を指示する制御表現の例として、ユーザが「速い」と発話した場合、音声出力制御部１３は、再生速度を遅くするよう音声作成部２２に指示する。音声作成部２２は、音声出力制御部１３の指示に従い再生速度を遅くした音声を作成することにより、ナビゲーション装置１０２の出力音声の再生速度が遅く変更される。

再生済みの音声のリピート再生を指示する制御表現の例として、ユーザが「もう１回」と発話した場合、音声出力制御部１３は、再生済みの音声を再び再生するよう音声作成部２２に指示する。音声作成部２２は、音声出力制御部１３の指示に従い再生済みの音声を再び再生する。

再生中の音声の頭出し再生を指示する制御表現の例として、ユーザが「最初から」と発話した場合、音声出力制御部１３は、再生中の音声を頭から再生するよう音声作成部２２に指示する。音声作成部２２は、音声出力制御部１３の指示に従い再生中の音声を頭から再生する。

音声の言語の変更を指示する制御表現の例として、ユーザが「英語で」と発話した場合、音声出力制御部１３は、音声作成部２２から出力音声の文字列を取得し、当該文字列を英語に翻訳して音声作成部２２に出力する。音声作成部２２は、英語に翻訳された文字列の音声を作成する。これにより、ナビゲーション装置１０２の出力音声が英語に変更される。

音声の性別の変更を指示する制御表現の例として、ユーザが「男声で」と発話した場合、音声出力制御部１３は、男声の音声を作成するよう音声作成部２２に指示する。音声作成部２２は、音声出力制御部１３の指示に従い男声の音声を作成する。これにより、ナビゲーション装置１０２の出力音声の性別が男性に変更される。

音声の明瞭度の向上を指示する制御表現の例として、ユーザが「もっとハッキリ」と発話した場合、音声出力制御部１３は、音声作成部２２に対して、音量を大きく、速度を遅くするように指示する。音声作成部２２は、音声出力制御部１３の指示に従い音量を大きく、再生速度を遅くした音声を作成する。これにより、ナビゲーション装置１０２の出力音声の音量が大きく、再生速度が遅くなり、聞き取りやすくなる。あるいは、音声出力制御部１３は、音声作成部２２から出力音声の文字列を取得し、当該文字列を同じ意味のより平易な文字列に変換して音声作成部２２に出力する。この場合、音声作成部２２は音声出力制御部１３から取得した文字列の音声を作成する。これにより、ナビゲーション装置１０２は、既に再生した音声情報を平易な文言で再度再生する。

音声の方言の変更を指示する制御表現の例として、ユーザが「関西弁で」と発話した場合、音声出力制御部１３は、音声作成部２２から出力音声の文字列を取得し、当該文字列を関西弁に変換して音声作成部２２に出力する。音声作成部２２は、音声出力制御部１３から取得した文字列の音声を作成する。これにより、ナビゲーション装置１０２の出力音声が関西弁に変更される。

＜Ｃ．ハードウェア構成＞
上述した制御表現抽出部１１、制御判断部１２、音声出力制御部１３、音声取得部１４、音声認識部１５、ユーザ情報認識部１６、音声作成部２２は、図５に示す処理回路２０１により実現される。すなわち、処理回路２０１は、制御表現抽出部１１、制御判断部１２、音声出力制御部１３、音声取得部１４、音声認識部１５、ユーザ情報認識部１６、音声作成部２２を備える。処理回路２０１には、専用のハードウェアが適用されても良いし、メモリに格納されるプログラムを実行するプロセッサが適用されても良い。プロセッサは、例えば中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）等である。

処理回路２０１が専用のハードウェアである場合、処理回路２０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたものが該当する。音声出力制御部１３等の各部の機能それぞれは、複数の処理回路２０１で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。

処理回路２０１がプロセッサである場合、音声出力制御部１３等の機能は、ソフトウェア等（ソフトウェア、ファームウェアまたはソフトウェアとファームウェア）との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリに格納される。図６に示すように、処理回路２０１に適用されるプロセッサ２０２は、メモリ２０３に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。

すなわち、音声出力制御装置１０１は、処理回路２０１により実行されるときに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出するステップと、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断するステップと、制御音声から抽出された制御表現に対応する音声出力制御を行うステップと、が結果的に実行されることになるプログラムを格納するためのメモリ２０３を備える。換言すれば、このプログラムは、音声出力制御部１３等の手順や方法をコンピュータに実行させるものであるともいえる。ここで、メモリ２０３には、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Electrically Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disk）及びそのドライブ装置の少なくともいずれか１つが含まれる。

以上、音声出力制御部１３等の各機能が、ハードウェア及びソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声出力制御部１３等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば、音声出力制御部１３については専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ２０２としての処理回路２０１がメモリ２０３に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

以上のように、処理回路は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

１１制御表現抽出部、１２制御判断部、１３音声出力制御部、１４音声取得部、１５音声認識部、１６ユーザ情報認識部、１７入力部、２１制御対象機器、２２音声作成部、２３スピーカ、１０１音声出力制御装置、１０２ナビゲーション装置、２０１処理回路、２０２プロセッサ、２０３メモリ。

Claims

ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、
ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、前記発話音声が前記制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、
前記制御表現抽出部で抽出された制御表現のうち、前記制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える、
音声出力制御装置。
前記ユーザ情報は、ユーザが聞く音の音量、速度、音源方向、言語、および方言のいずれかを少なくとも含む、
請求項１に記載の音声出力制御装置。
前記ユーザの挙動情報は、前記ユーザの顔の向き、視線の向き、ジェスチャー、表情、前記制御対象機器に対するユーザの操作情報のいずれかを少なくとも含む、
請求項１または２に記載の音声出力制御装置。
音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、
コンピュータに、
ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、
ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、前記発話音声が前記制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、
抽出した制御表現のうち、前記制御音声に由来する制御表現に対応する音声出力制御を行わせる、
音声出力制御プログラム。