JP2017219746A - 音声出力制御装置および音声出力制御プログラム - Google Patents
音声出力制御装置および音声出力制御プログラム Download PDFInfo
- Publication number
- JP2017219746A JP2017219746A JP2016114957A JP2016114957A JP2017219746A JP 2017219746 A JP2017219746 A JP 2017219746A JP 2016114957 A JP2016114957 A JP 2016114957A JP 2016114957 A JP2016114957 A JP 2016114957A JP 2017219746 A JP2017219746 A JP 2017219746A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- control
- user
- output control
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】本発明は、ユーザが意図しない制御対象機器の音声操作を防ぐことを目的とする。【解決手段】本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。【選択図】図1
Description
この発明は、ユーザの発話音声によって音声出力制御を行う技術に関する。
ナビゲーション装置は、表示に加えて音声により経路案内を行うことが一般的である。また、冷蔵庫などの家電製品も、近年では音声出力機能を備えたものがあり、音声によりユーザにサービスを提供することが可能である。そして、こうした機器の音声出力制御を、ユーザの発話音声によって行うことが求められている。
機器の音声制御をユーザの発話音声により行う技術として、特許文献1には、被操作機器から音声を出力している間に、ユーザの発話音声を認識し、発話音声で指示された被操作機器の操作を実行する技術が開示されている。例えば、テレビが被操作機器である場合、ユーザが「うるさい」と発話すると、テレビの音量を下げる制御が行われる。
また、特許文献2には、ユーザの発話を認識して音声メッセージの再生制御を行う音声ガイドシステムが開示されている。特許文献2の段落0029によると、この音声ガイドシステムでは、例えば、ユーザが「もう1回」と発話すると、音声メッセージを再度再生し、ユーザが「遅い」と発話すると、音声メッセージの再生速度を速くする。
特許文献1,2の技術によれば、ユーザの発話音声により機器の音声出力制御を行うことが可能である。しかし、いずれの技術も、機器の出力音声とユーザの発話音声以外に音声が存在しない環境下での使用を想定しており、ユーザの発話が、機器の出力音声に向けられたものであると容易に判断できる状況での使用に限られる。例えば、車両に搭載されたナビゲーション装置の出力音声をユーザの発話音声によって制御する場合、音声出力制御装置は、ユーザの発話音声がナビゲーション装置に対してのものか、搭乗者間の会話であるかが分からないため、搭乗者間の会話を認識してユーザが意図しない音声操作を行ってしまうという問題があった。
本発明は、上述の問題に鑑みてなされたものであり、ユーザが意図しない制御対象機器の音声操作を防ぐことを目的とする。
本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。
本発明の音声出力制御プログラムは、音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、コンピュータに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、抽出した制御表現のうち制御音声に由来する制御表現に対応する音声出力制御を行わせる。
本発明の音声出力制御装置は、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、制御表現抽出部で抽出された制御表現のうち、制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える。従って、ユーザが音声による音声出力制御を意図している場合にのみ、音声出力制御を行うことが出来る。
本発明の音声出力制御プログラムは、音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、コンピュータに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、抽出した制御表現のうち制御音声に由来する制御表現に対応する音声出力制御を行わせる。従って、ユーザが音声による音声出力制御を意図している場合にのみ、音声出力制御を行うことが出来る。
<A.実施の形態1>
<A−1.構成>
図1は、実施の形態1に係る音声出力制御装置101の構成を示すブロック図である。制御対象機器21は、音声出力機能を有している。音声出力制御装置101は、制御対象機器21と接続され、制御対象機器21の音声出力を制御する。なお、図1では制御対象機器21を音声出力制御装置101と別の構成として示しているが、制御対象機器21は音声出力制御装置101と一体となっていても良い。
<A−1.構成>
図1は、実施の形態1に係る音声出力制御装置101の構成を示すブロック図である。制御対象機器21は、音声出力機能を有している。音声出力制御装置101は、制御対象機器21と接続され、制御対象機器21の音声出力を制御する。なお、図1では制御対象機器21を音声出力制御装置101と別の構成として示しているが、制御対象機器21は音声出力制御装置101と一体となっていても良い。
音声出力制御装置101は、制御表現抽出部11、制御判断部12、および音声出力制御部13を備えている。
制御表現抽出部11は、ユーザの発話音声から、制御対象機器21の音声出力制御に対応する制御表現を抽出する。制御判断部12は、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、ユーザの発話音声が制御対象機器21の音声出力制御を行うための制御音声であるか否かを判断する。音声出力制御部13は、制御表現抽出部11で抽出された制御表現のうち、制御音声に由来する制御表現に対応する制御対象機器21の音声出力制御を行う。以上の構成によれば、ユーザの発話音声が制御音声である場合にのみ音声出力制御が行われるため、ユーザが制御対象機器21に対してではない発話を誤認識して音声出力制御を行うことを防ぐことができる。
<A−2.動作>
図2は、音声出力制御装置101の動作を示すフローチャートである。以下、図2に沿って音声出力制御装置101の動作を説明する。まず、制御表現抽出部11は、ユーザの発話音声から、制御対象機器21の音声出力制御に対応する制御表現を抽出する(ステップS11)。次に、制御判断部12は、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する(ステップS12)。発話音声が制御音声でなければ、音声出力制御装置101は処理を終了する。一方、発話音声が制御音声であれば、音声出力制御部13が、制御音声から抽出された制御表現に対応する制御対象機器21の音声出力制御を行う(ステップS13)。以上の動作によれば、ユーザの発話音声が制御音声である場合にのみ音声出力制御が行われるため、ユーザが制御対象機器21に対してではない発話を誤認識して音声出力制御を行うことを防ぐことができる。
図2は、音声出力制御装置101の動作を示すフローチャートである。以下、図2に沿って音声出力制御装置101の動作を説明する。まず、制御表現抽出部11は、ユーザの発話音声から、制御対象機器21の音声出力制御に対応する制御表現を抽出する(ステップS11)。次に、制御判断部12は、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する(ステップS12)。発話音声が制御音声でなければ、音声出力制御装置101は処理を終了する。一方、発話音声が制御音声であれば、音声出力制御部13が、制御音声から抽出された制御表現に対応する制御対象機器21の音声出力制御を行う(ステップS13)。以上の動作によれば、ユーザの発話音声が制御音声である場合にのみ音声出力制御が行われるため、ユーザが制御対象機器21に対してではない発話を誤認識して音声出力制御を行うことを防ぐことができる。
<B.実施の形態2>
<B−1.構成>
実施の形態2では、本発明の音声出力制御装置を車両に搭載されたナビゲーション装置とし、制御対象機器が音声出力制御装置に内蔵された例を説明する。但し、本発明の音声出力制御装置は、車載に限定されるものではなく、ナビゲーション装置でなくても良い。
<B−1.構成>
実施の形態2では、本発明の音声出力制御装置を車両に搭載されたナビゲーション装置とし、制御対象機器が音声出力制御装置に内蔵された例を説明する。但し、本発明の音声出力制御装置は、車載に限定されるものではなく、ナビゲーション装置でなくても良い。
図3は、実施の形態2に係るナビゲーション装置102の構成を示すブロック図である。ナビゲーション装置102は、実施の形態1の音声出力制御装置101の構成に加えて、音声取得部14、音声認識部15、ユーザ情報認識部16、音声作成部22、およびスピーカ23を備えている。
音声作成部22は、ナビゲーション装置102の出力音声を作成している。音声作成部22の作成音声は、スピーカ23から出力される。図3では、スピーカ23をナビゲーション装置102の構成要素として示しているが、スピーカ23はナビゲーション装置102に接続されたナビゲーション装置102とは別の構成であっても良い。以下、いずれの場合であっても、スピーカ23から出力される音声をナビゲーション装置102の出力音声という。
音声取得部14は、例えばマイクにより構成され、ユーザの発話音声を取得する。
音声認識部15は、音声取得部14が取得したユーザの発話音声を文字列に変換する。
制御表現抽出部11は、ユーザの発話音声の文字列から、制御表現を抽出する。ここで、制御表現とは、ナビゲーション装置102の出力音を操作するための表現である。例えば、「うるさい」という表現は、音量を小さくする操作と対応付けられた制御表現であり、「もっとゆっくり」という表現は、再生速度を遅くする操作と対応付けられた制御表現である。このような、各種の音声出力制御と制御表現との対応関係が、予め制御表現抽出部11に保有されている。
ユーザ情報認識部16は、ナビゲーション装置102を音声操作しようとするユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかをユーザ情報として取得する。ユーザ情報のうちユーザが聴覚で知覚する情報とは、例えばナビゲーション装置102の出力音声、周りの人物の会話、背景雑音などの環境音、およびナビゲーション装置102以外の車両に搭載された他機器の出力音に関する情報であり、これらの音の音量、速度、音源方向、認識結果文字列、言語、方言のいずれかを少なくとも含む。これらのユーザ情報を、ユーザ情報認識部16は車室内に設けられたマイクの集音音声から取得する。このとき、マイクはユーザに聞こえている音を集音することが好ましいため、ユーザの近傍、例えばハンドルまたはダッシュボードなどに設置される。
ユーザ情報のうちユーザが視覚で知覚する情報には、ナビゲーション装置102の図3に図示しないディスプレイの表示情報、およびナビゲーション装置102以外の車両に搭載された他機器の表示情報が含まれる。すなわち、ユーザ情報認識部16は、ナビゲーション装置102の表示情報をユーザ情報として取得する他、ナビゲーション装置102以外の車両に搭載された他機器と接続され、当該他機器の表示情報をユーザ情報として取得する。
ユーザ情報のうちユーザの挙動情報は、ユーザの顔の向き、視線の向き、手の動きなどのジェスチャー、口の開度または目の開度などの表情、制御対象機器であるナビゲーション装置102に対するユーザの操作情報のいずれかを少なくとも含む。ユーザ情報認識部16は操作情報以外の挙動情報を車室内に設けられたカメラの撮影画像から取得する。このとき、カメラはユーザの近傍、例えばハンドルまたはダッシュボードなどに設置される。また、ユーザ情報認識部16は、ユーザの操作情報を入力部17から取得する。入力部17はナビゲーション装置102の入力インタフェースであり、例えば、ナビゲーション装置102のディスプレイ(図3に図示せず)がタッチパネルを備える場合には、タッチパネルが入力部17を構成する。
制御判断部12は、ユーザの発話音声が、ナビゲーション装置102の出力音声を制御するための制御音声であるか否かをユーザ情報に基づき判断する。この制御音声判断処理の詳細は、後述する。
音声出力制御部13は、制御判断部12でユーザの発話音声を制御音声と判断した場合に、制御表現抽出部11で制御音声から抽出された制御表現に対応する音声出力制御を、音声作成部22に対して実施する。
<B−2.全体動作>
図4は、ナビゲーション装置102による音声出力制御処理の全体動作を示すフローチャートである。以下、図4に沿ってナビゲーション装置102の音声出力制御処理を説明する。
図4は、ナビゲーション装置102による音声出力制御処理の全体動作を示すフローチャートである。以下、図4に沿ってナビゲーション装置102の音声出力制御処理を説明する。
スピーカ23からナビゲーション装置102の音声出力が行われると(ステップS21でYes)、ユーザ情報認識部16はユーザ情報の認識を行う(ステップS22)。次に、ナビゲーション装置102は音声取得部14がユーザの発話音声を取得したか否かを判断する(ステップS23)。音声取得部14がユーザの発話音声を取得していなければ、再びステップS22に戻ってユーザ情報の認識を行う。
音声取得部14がユーザの発話音声を取得すると、音声認識部15がユーザの発話音声を文字列に変換する(ステップS24)。次に、制御表現抽出部11がユーザの発話音声に制御表現が含まれるか判断する(ステップS25)。ここで、制御表現抽出部11は、自身が保有する制御表現リストを参照し、ユーザの発話音声の文字列が制御表現と一致するかを判断する。ユーザの発話音声に制御表現が含まれない場合、音声出力制御処理は終了する。ユーザの発話音声に制御表現が含まれる場合、制御判断部12は、ユーザの発話音声が制御音声か否かを判断する(ステップS26)。ユーザの発話音声に制御表現が含まれる場合であっても、その発話音声は同乗者との会話である可能性があるため、ユーザの発話音声が、ナビゲーション装置102の出力音声を制御するための音声、すなわち制御音声であるか否かをここで判断する。この制御音声判断処理の詳細は、後述する。
ユーザの発話音声が制御音声である場合、音声出力制御部13が音声作成部22に対して、ステップS25で抽出した制御表現に対応する音声出力制御を実行する(ステップS27)。この音声出力制御の詳細は、後述する。以上で、音声出力制御処理を終了する。
なお、図4のフローチャートでは、ナビゲーション装置102の音声出力をトリガとしてユーザ情報認識部16がユーザ情報を認識したが、ユーザ情報の認識は、ナビゲーション装置102の音声出力とは別に一定期間等随時に行われていても良い。
<B−3.制御音声判断処理>
次に、図4のステップS26における制御判断部12による制御音声判断処理を具体例で説明する。
次に、図4のステップS26における制御判断部12による制御音声判断処理を具体例で説明する。
制御判断部12は、ユーザ情報認識部16からユーザ情報を取得し、当該ユーザ情報に基づき、ユーザの発話音声が制御音声であるか否かを判断する。例えば、ユーザの発話音声が「うるさい」、「静かに」、「音が大きい」、「音量を小さくして」等、音量の調節を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の音量、背景雑音の音量、周囲の会話の音量、等のユーザ情報を用いて制御音声判断を行う。具体的には、発話音声に含まれる制御表現が「うるさい」等の音量を下げる操作を指示するものであり、ナビゲーション装置102の音量が周囲の会話の音量または背景雑音の音量よりも大きい場合に、制御判断部12はユーザがナビゲーション装置102の音量に関して「うるさい」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、発話音声に含まれる制御表現が「音が小さい」等の音量を上げる操作を指示するものであり、ナビゲーション装置102の音量が周囲の会話の音量または背景雑音の音量よりも小さい場合に、制御判断部12はユーザがナビゲーション装置102の音量に関して「音が小さい」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「速い」、「もっとゆっくり」、「遅すぎる」、「速めに」等、再生速度の調節を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の再生速度、周囲の会話の速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、発話音声に含まれる制御表現が「速い」等の発話速度を遅くする操作を指示するものであり、ナビゲーション装置102の再生速度が周囲の会話の速度よりも速い場合に、制御判断部12はユーザがナビゲーション装置102の出力音声に関して「速い」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、発話音声に含まれる制御表現が「遅すぎる」等の再生速度を上げる操作を指示するものであり、ナビゲーション装置102の再生速度が周囲の会話の速度よりも遅い場合に、制御判断部12はユーザがナビゲーション装置102の出力音声に関して「遅すぎる」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「もう1回」、「繰り返して」等、再生済みの音声のリピート再生を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の音量または再生速度、周囲の会話の音量または発話速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、ナビゲーション装置102の音量が周囲の会話の音量よりも小さく、ナビゲーション装置102の再生速度が周囲の会話の発話速度よりも速い場合に、ユーザはナビゲーション装置102の出力音声が小さく速くて聞き取りにくかったことから、ナビゲーション装置102の出力音声に関して「もう1回」と発話したものと判断し、ユーザの発話音声を制御音声と判断する。また、制御判断部12は、ナビゲーション装置102または他装置の表示情報をユーザ情報として用いて、制御音声判断を行うこともできる。例えば、ナビゲーション装置102の表示画面(図3に図示せず)に、何らかの警告画面が表示されている場合に、ユーザは警告内容に関する音声情報のリピート再生を指示しているものと判断し、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「最初から」、「頭から聞きたい」等、再生中の音声の頭出し再生を指示する制御表現を含む場合、制御判断部12は、再生済みの音声のリピート再生を指示する制御表現の場合と同様に、制御音声判断を行う。
ユーザの発話音声が、「英語で」、「フランス語で喋って」等、音声の言語の変更を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の再生言語、および車両内の他装置の再生言語、等のユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「英語で」等の再生言語を英語に変更することを指示する制御表現を含む場合、ナビゲーション装置102の再生言語が日本語で、車両内の他装置の再生言語が英語である場合には、ユーザは他装置ではなくナビゲーション装置102に対して、再生言語の変更を指示していると考えることができる。従って、制御判断部12は、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「男声で」、「女性の声で」等、音声の性別の変更を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の出力音声の性別、ナビゲーション装置102の表示情報、車両内の他装置の出力音声の性別、他装置の表示情報、等のユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「男声で」等の音声の性別を男性に変更することを指示する制御表現を含む場合、ナビゲーション装置102の出力音声が男声で、車両内の他装置の出力音声が女声である場合には、ユーザはナビゲーション装置ではなく他装置に対して、出力音声の性別の変更を指示していると考えることができる。従って、制御判断部12は、ユーザの発話音声を制御音声とは判断しない。また、ナビゲーション装置102に女性のキャラクターが表示されている場合には、ユーザはナビゲーション装置102のキャラクターを男性に変更し、出力音声を男声に変更することを希望していると考えることができる。従って、制御判断部12は、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「もっとハッキリ」、「丁寧に話して」等、音声の明瞭度の向上を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の音量または再生速度、周囲の会話の音量または発話速度、等のユーザ情報を用いて制御音声判断を行う。具体的には、ナビゲーション装置102の音量が周囲の会話の音量よりも小さく、ナビゲーション装置102の再生速度が周囲の会話の発話速度よりも速い場合に、ユーザはナビゲーション装置102の出力音声が小さく速くて聞き取りにくかったことから、ナビゲーション装置102の出力音声に関して発話したものと判断し、ユーザの発話音声を制御音声と判断する。
ユーザの発話音声が、「関西弁で」、「東北弁で喋って」等、音声の方言の変更を指示する制御表現を含む場合、制御判断部12は、ナビゲーション装置102の出力音声の方言、車両内の他装置の表示情報などのユーザ情報を用いて制御音声判断を行う。具体的には、ユーザの発話音声が「関西弁で」という、音声を関西弁に変更するよう指示する制御表現を含む場合、ナビゲーション装置102の出力音声が標準語であればユーザの発話音声を制御音声と判断し、ナビゲーション装置102の出力音声が既に関西弁であれば、ユーザの発話音声を制御音声と判断しない。また、車両内の他装置が関西地方の案内表示を行っている場合には、ユーザの発話音声は当該他装置に対してのものであると判断し、制御音声とは判断しない。
以上、音量の調節、再生速度の調節など、様々な変更を指示する制御表現に対する制御音声判断について説明したが、ユーザはこれらの制御表現を組み合わせて操作を指示することも可能である。例えば、ユーザが「関西弁で頭からもう1回喋って」と発話した場合には、制御判断部12は、上記で説明した音声の方言の変更を指示する制御表現に対する制御音声判断と、再生済みの音声のリピート再生を指示する制御表現に対する制御音声判断とを組み合わせて、制御音声判断を行う。
また、上記の制御音声判断は、制御表現に応じて異なるユーザ情報を用いて行われた。しかし、制御判断部12は、全ての制御表現に対して、以下に示すユーザの挙動情報から制御音声判断を行うことも出来る。例えば、制御判断部12は、ユーザの顔が横または後ろに向いている場合に、ユーザが同乗者の方向を向いて発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。また、制御判断部12は、ユーザの表情が豊かである場合に、ユーザが同乗者に対して発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。また、制御判断部12は、ユーザの手の動きが大きい、すなわち単位時間あたりの手の移動量が大きい場合に、ユーザが同乗者に対して発話していると判断し、ユーザの発話音声を制御音声ではないと判断する。このように、制御判断部12は、ユーザの挙動情報を用いてユーザの発話音声が同乗者に対しての発話か否かを判別し、制御音声判断を行うことができる。ユーザの挙動情報の他の例は、ユーザの操作情報である。具体的には、ユーザがナビゲーション装置102に対して操作を入力しながら発話した場合、あるいは発話の直近にナビゲーション装置102に対して操作を入力していた場合に、制御判断部12は、ユーザの発話音声を制御音声と判断する。これら、ユーザの挙動情報に基づく制御音声判断は、上記で説明した制御表現毎の制御音声判断に組み合わせることが可能である。
<B−4.音声出力制御処理>
制御判断部12がユーザの発話音声を制御音声と判断した場合、音声出力制御部13は、当該制御音声に含まれる制御表現に対応する音声出力制御を音声作成部22に実施する。以下、各制御表現に対応する音声出力制御について説明する。
制御判断部12がユーザの発話音声を制御音声と判断した場合、音声出力制御部13は、当該制御音声に含まれる制御表現に対応する音声出力制御を音声作成部22に実施する。以下、各制御表現に対応する音声出力制御について説明する。
音量の調節を指示する制御表現の例として、ユーザが「うるさい」と発話した場合、音声出力制御部13は、音量を小さくするよう音声作成部22に指示する。音声作成部22は、音声出力制御部13の指示に従い音量を小さくして音声を作成することにより、ナビゲーション装置102の出力音声の音量が小さく変更される。
再生速度の調節を指示する制御表現の例として、ユーザが「速い」と発話した場合、音声出力制御部13は、再生速度を遅くするよう音声作成部22に指示する。音声作成部22は、音声出力制御部13の指示に従い再生速度を遅くした音声を作成することにより、ナビゲーション装置102の出力音声の再生速度が遅く変更される。
再生済みの音声のリピート再生を指示する制御表現の例として、ユーザが「もう1回」と発話した場合、音声出力制御部13は、再生済みの音声を再び再生するよう音声作成部22に指示する。音声作成部22は、音声出力制御部13の指示に従い再生済みの音声を再び再生する。
再生中の音声の頭出し再生を指示する制御表現の例として、ユーザが「最初から」と発話した場合、音声出力制御部13は、再生中の音声を頭から再生するよう音声作成部22に指示する。音声作成部22は、音声出力制御部13の指示に従い再生中の音声を頭から再生する。
音声の言語の変更を指示する制御表現の例として、ユーザが「英語で」と発話した場合、音声出力制御部13は、音声作成部22から出力音声の文字列を取得し、当該文字列を英語に翻訳して音声作成部22に出力する。音声作成部22は、英語に翻訳された文字列の音声を作成する。これにより、ナビゲーション装置102の出力音声が英語に変更される。
音声の性別の変更を指示する制御表現の例として、ユーザが「男声で」と発話した場合、音声出力制御部13は、男声の音声を作成するよう音声作成部22に指示する。音声作成部22は、音声出力制御部13の指示に従い男声の音声を作成する。これにより、ナビゲーション装置102の出力音声の性別が男性に変更される。
音声の明瞭度の向上を指示する制御表現の例として、ユーザが「もっとハッキリ」と発話した場合、音声出力制御部13は、音声作成部22に対して、音量を大きく、速度を遅くするように指示する。音声作成部22は、音声出力制御部13の指示に従い音量を大きく、再生速度を遅くした音声を作成する。これにより、ナビゲーション装置102の出力音声の音量が大きく、再生速度が遅くなり、聞き取りやすくなる。あるいは、音声出力制御部13は、音声作成部22から出力音声の文字列を取得し、当該文字列を同じ意味のより平易な文字列に変換して音声作成部22に出力する。この場合、音声作成部22は音声出力制御部13から取得した文字列の音声を作成する。これにより、ナビゲーション装置102は、既に再生した音声情報を平易な文言で再度再生する。
音声の方言の変更を指示する制御表現の例として、ユーザが「関西弁で」と発話した場合、音声出力制御部13は、音声作成部22から出力音声の文字列を取得し、当該文字列を関西弁に変換して音声作成部22に出力する。音声作成部22は、音声出力制御部13から取得した文字列の音声を作成する。これにより、ナビゲーション装置102の出力音声が関西弁に変更される。
<C.ハードウェア構成>
上述した制御表現抽出部11、制御判断部12、音声出力制御部13、音声取得部14、音声認識部15、ユーザ情報認識部16、音声作成部22は、図5に示す処理回路201により実現される。すなわち、処理回路201は、制御表現抽出部11、制御判断部12、音声出力制御部13、音声取得部14、音声認識部15、ユーザ情報認識部16、音声作成部22を備える。処理回路201には、専用のハードウェアが適用されても良いし、メモリに格納されるプログラムを実行するプロセッサが適用されても良い。プロセッサは、例えば中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。
上述した制御表現抽出部11、制御判断部12、音声出力制御部13、音声取得部14、音声認識部15、ユーザ情報認識部16、音声作成部22は、図5に示す処理回路201により実現される。すなわち、処理回路201は、制御表現抽出部11、制御判断部12、音声出力制御部13、音声取得部14、音声認識部15、ユーザ情報認識部16、音声作成部22を備える。処理回路201には、専用のハードウェアが適用されても良いし、メモリに格納されるプログラムを実行するプロセッサが適用されても良い。プロセッサは、例えば中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。
処理回路201が専用のハードウェアである場合、処理回路201は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。音声出力制御部13等の各部の機能それぞれは、複数の処理回路201で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。
処理回路201がプロセッサである場合、音声出力制御部13等の機能は、ソフトウェア等(ソフトウェア、ファームウェアまたはソフトウェアとファームウェア)との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリに格納される。図6に示すように、処理回路201に適用されるプロセッサ202は、メモリ203に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。
すなわち、音声出力制御装置101は、処理回路201により実行されるときに、ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出するステップと、ユーザが視覚または聴覚で知覚する情報又はユーザの挙動情報を含むユーザ情報に基づき、発話音声が制御対象機器の音声出力制御を行うための制御音声であるか否かを判断するステップと、制御音声から抽出された制御表現に対応する音声出力制御を行うステップと、が結果的に実行されることになるプログラムを格納するためのメモリ203を備える。換言すれば、このプログラムは、音声出力制御部13等の手順や方法をコンピュータに実行させるものであるともいえる。ここで、メモリ203には、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Electrically Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)及びそのドライブ装置の少なくともいずれか1つが含まれる。
以上、音声出力制御部13等の各機能が、ハードウェア及びソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声出力制御部13等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば、音声出力制御部13については専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ202としての処理回路201がメモリ203に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、処理回路は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。
11 制御表現抽出部、12 制御判断部、13 音声出力制御部、14 音声取得部、15 音声認識部、16 ユーザ情報認識部、17 入力部、21 制御対象機器、22 音声作成部、23 スピーカ、101 音声出力制御装置、102 ナビゲーション装置、201 処理回路、202 プロセッサ、203 メモリ。
Claims (4)
- ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出する制御表現抽出部と、
ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、前記発話音声が前記制御対象機器の音声出力制御を行うための制御音声であるか否かを判断する制御判断部と、
前記制御表現抽出部で抽出された制御表現のうち、前記制御音声に由来する制御表現に対応する音声出力制御を行う音声出力制御部と、を備える、
音声出力制御装置。 - 前記ユーザ情報は、ユーザが聞く音の音量、速度、音源方向、言語、および方言のいずれかを少なくとも含む、
請求項1に記載の音声出力制御装置。 - 前記ユーザの挙動情報は、前記ユーザの顔の向き、視線の向き、ジェスチャー、表情、前記制御対象機器に対するユーザの操作情報のいずれかを少なくとも含む、
請求項1または2に記載の音声出力制御装置。 - 音声操作により制御対象機器の音声出力制御を行うための音声出力制御プログラムであって、
コンピュータに、
ユーザの発話音声から、制御対象機器の音声出力制御に対応する制御表現を抽出させ、
ユーザが視覚で知覚する情報、聴覚で知覚する情報、およびユーザの挙動情報の少なくともいずれかを含むユーザ情報に基づき、前記発話音声が前記制御対象機器の音声出力制御を行うための制御音声であるか否かを判断させ、
抽出した制御表現のうち、前記制御音声に由来する制御表現に対応する音声出力制御を行わせる、
音声出力制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016114957A JP2017219746A (ja) | 2016-06-09 | 2016-06-09 | 音声出力制御装置および音声出力制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016114957A JP2017219746A (ja) | 2016-06-09 | 2016-06-09 | 音声出力制御装置および音声出力制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017219746A true JP2017219746A (ja) | 2017-12-14 |
Family
ID=60656143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016114957A Pending JP2017219746A (ja) | 2016-06-09 | 2016-06-09 | 音声出力制御装置および音声出力制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017219746A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069129A (zh) * | 2018-01-24 | 2019-07-30 | 株式会社日立制作所 | 确定系统和确定方法 |
JP2020130861A (ja) * | 2019-02-25 | 2020-08-31 | Toto株式会社 | トイレ用音声案内装置 |
WO2021149441A1 (ja) * | 2020-01-20 | 2021-07-29 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
JP2023117120A (ja) * | 2022-02-10 | 2023-08-23 | フジテック株式会社 | エレベータ用の音声認識システム |
-
2016
- 2016-06-09 JP JP2016114957A patent/JP2017219746A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069129A (zh) * | 2018-01-24 | 2019-07-30 | 株式会社日立制作所 | 确定系统和确定方法 |
CN110069129B (zh) * | 2018-01-24 | 2022-08-05 | 株式会社日立制作所 | 确定系统和确定方法 |
JP2020130861A (ja) * | 2019-02-25 | 2020-08-31 | Toto株式会社 | トイレ用音声案内装置 |
WO2021149441A1 (ja) * | 2020-01-20 | 2021-07-29 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
JP2023117120A (ja) * | 2022-02-10 | 2023-08-23 | フジテック株式会社 | エレベータ用の音声認識システム |
JP7349072B2 (ja) | 2022-02-10 | 2023-09-22 | フジテック株式会社 | エレベータ用の音声認識システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101034524B1 (ko) | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 | |
CN106462383B (zh) | 具有定向接口的免提装置 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP4131978B2 (ja) | 音声認識機器制御装置 | |
JP6725006B2 (ja) | 制御装置および機器制御システム | |
JP2017219746A (ja) | 音声出力制御装置および音声出力制御プログラム | |
KR20240025720A (ko) | 개인화된 실시간 오디오 프로세싱 | |
US11170774B2 (en) | Virtual assistant device | |
US10303436B2 (en) | Assistive apparatus having accelerometer-based accessibility | |
CN114902688B (zh) | 内容流处理方法和装置、计算机系统和介质 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
WO2018034059A1 (ja) | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム | |
WO2003107327A1 (en) | Controlling an apparatus based on speech | |
JP7065964B2 (ja) | 音場制御装置および音場制御方法 | |
JP7225642B2 (ja) | コミュニケーションロボット、制御方法及び制御プログラム | |
US20220358903A1 (en) | Real-Time Accent Conversion Model | |
JP7010193B2 (ja) | 対話装置および対話装置の制御プログラム | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
JPWO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP7474548B2 (ja) | オーディオデータの再生の制御 | |
JP2019020475A (ja) | 音声認識装置、音声認識方法 | |
KR102018110B1 (ko) | 음성파일 생성방법 및 장치 | |
WO2019187543A1 (ja) | 情報処理装置および情報処理方法 | |
JP2016114622A (ja) | 音声再生機器の制御装置 | |
JP2009080298A (ja) | 補聴装置 |