JP2018005722A - 音声操作装置及び制御方法 - Google Patents

音声操作装置及び制御方法 Download PDF

Info

Publication number
JP2018005722A
JP2018005722A JP2016134210A JP2016134210A JP2018005722A JP 2018005722 A JP2018005722 A JP 2018005722A JP 2016134210 A JP2016134210 A JP 2016134210A JP 2016134210 A JP2016134210 A JP 2016134210A JP 2018005722 A JP2018005722 A JP 2018005722A
Authority
JP
Japan
Prior art keywords
voice
control
control target
name
illustration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016134210A
Other languages
English (en)
Inventor
大太郎 山▲崎▼
Hirotaro Yamazaki
大太郎 山▲崎▼
睦雄 田辺
Mutsuo Tanabe
睦雄 田辺
英一郎 田口
Eiichiro Taguchi
英一郎 田口
祐介 窪
Yusuke Kubo
祐介 窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2016134210A priority Critical patent/JP2018005722A/ja
Publication of JP2018005722A publication Critical patent/JP2018005722A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識を用いた操作形態の利便性を向上する。
【解決手段】音声操作装置は、イラスト画像を制御対象に対応付けて、制御対象の操作画面に表示する表示手段と、イラスト画像で表された物象の名称と物象の数量とを組合せた入力音声を音声認識すると共に、イラスト画像に対応付けられた制御対象を音声認識された物象の名称から特定し、特定した制御対象の制御量を音声認識された数量に対応する量に基づいて変更する処理手段と、を備える。
【選択図】図2

Description

本発明は、音声操作装置及び制御方法に関する。
従来から、音声入力を入力インターフェースに用いる車載用の入力装置が知られている。車載用の入力装置は、例えば、AVN機(車載用オーディオ・ビジュアル・ナビゲーション一体機)の一部を構成する。入力装置は、例えば、マイクロフォン等を介して受け付けた乗員等の音声入力に対して音声認識処理を行い、受け付けた音声入力の指示内容を特定する。AVN機は、例えば、入力装置で特定された音声入力の指示内容を操作入力として受け付けると共に、受け付けた指示内容に沿ってAVN機の操作制御を行う。AVN機の操作制御は、例えば、アプリケーションプログラム(以下、アプリとも称す)の実行により提供される。
例えば、ナビゲーションアプリが機能し、目的地への指示入力を待っている状態では、AVN機は、受け付けた音声入力の指示内容に沿って表示デバイスに表示される地図画面の切替を行う。また、例えば、オーディオアプリが機能し、再生対象の楽曲の指示入力を待っている状態では、AVN機は、受け付けた音声入力の指示内容に沿って再生対象の楽曲を選択し、選択した楽曲の再生を行う。AVN機が搭載される車両においては、例えば、乗員の発声指示によるAVN機の操作が行えるため、車両走行中の安全性を高めることが可能になる。
なお、本明細書で説明する技術に関連する技術が記載されている先行技術文献としては、以下の特許文献が存在している。
特開2014−164325号公報
ところで、音声入力を用いた入力インターフェースにおいては、例えば、音声入力を行う操作者(以下、ユーザとも称す)は、操作対象への命令指示の単語や文章を予め学習することが求められる。また、楽曲の選択といった操作においては、ユーザは、例えば、選択対象について長い発音を求められる場合があり、曲名を正確に発音することが求められる傾向にあった。このため、音声入力機能を備えていても、ユーザは音声認識処理を難易度が高いものと捉える傾向があり、音声入力機能の使用を敬遠する傾向にあった。本発明は、音声認識を用いた操作形態の利便性を向上することにある。
開示の技術の一側面は、音声操作装置によって例示される。すなわち、音声操作装置は、イラスト画像を制御対象に対応付けて、制御対象の操作画面に表示する表示手段と、イラスト画像で表された物象の名称と物象の数量とを組合せた入力音声を音声認識すると共に、イラスト画像に対応付けられた制御対象を音声認識された物象の名称から特定し、特定した制御対象の制御量を音声認識された数量に対応する量に基づいて変更する処理手段と、を備えることを特徴とする。
本音声操作装置によれば、音声認識を用いた操作形態の利便性が向上できる。
音声操作装置のハードウェア構成の一例を示す図である。 音声入力により音量の増加減を調節する音声操作の一例を説明する図である。 音声入力により楽曲選択時の表示リストの送り・戻しを行う音声操作の一例を説明する図である。 音声入力により、車内に配置されたスピーカ群について音場制御を行う音声操作の一例を説明する図である。 本実施形態の音声操作装処理の一例を示すフローチャートである。
以下、図面を参照して、一実施形態に係る音声操作装置について説明する。以下の実施形態の構成は例示であり、本音声操作装置は実施形態の構成には限定されない。
<1.装置構成>
図1は、本実施形態の音声入力を入力インターフェースに用いる車載用の入力装置のハードウェア構成の一例を示す構成図である。音声入力を入力インターフェースに用いる車載用の入力装置10(以下、音声操作装置10とも称す)は、AVN機(車載用オーディオ・ビジュアル・ナビゲーション一体機)の一部を構成する。
本実施形態に係る音声操作装置10は、例えば、音量や温度、照明の明るさといった制御量の変更を音声入力による操作可能な制御対象とする。そして、音声操作装置10は、例えば、制御対象の制御量の可変方向を発声音の短い簡易な単語として受け付ける。また、音声操作装置10は、制御量を可変する制御幅を単位ステップに対する乗数(数量)として受け付ける。音声操作装置10は、上記単語と上記数量とを組合せた言葉を制御対象への操作指示として受け付ける。なお、音声操作装置10の表示デバイス14上には、上記単語を名称とする挿絵(イラスト)画像が制御対象に対する操作画面と共に表示される。
例えば、AVN機においてオーディオアプリが機能し、音声操作装置10の表示デバイス14上には、音量を制御対象とし該音量の増減を可変するための操作画面が表示されるとする。本実施形態に係る音声操作装置10においては、表示デバイス14に表示される操作画面には、例えば、音量の増加方向を示すイラスト画像、および、音量の減少方向を示すイラスト画像が表示される。
ここで、各イラスト画像は、制御対象の内容(音量)とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物事のイメージ画像である。つまり、各イラスト画像は、制御対象の制御内容とは直接的な関係を連想しない事象を示すイラストである。このようなイラスト画像として、例えば、「ぞう」や「ぶどう」といった生物、「太陽」や「地球」といった無生物、「青」や「赤」といった色彩等が例示できる。
本実施形態に係る音声操作装置10は、例えば、ユーザの音声入力から、操作画面に表示されたイラスト画像で表された物事の名称と、名称に組合せられた数量とを音声認識により識別する。そして、音声操作装置10は、操作画面に表示されたイラスト画像の名称から制御量の操作方向を特定し、名称と組合せられた数量から制御幅を特定する。音声操作装置10は、特定された制御量の操作方向および制御幅に沿って、例えば、操作画面に表示された制御対象の操作を行う。
本実施形態に係る音声操作装置10では、イラスト画像の名称(発声音の短い簡便な単語)が使用されるため、単純な発声により制御対象の操作方向が指定できる。音声入力を行うユーザは、長い発音を求められることはない。また、本実施形態に係る音声操作装置10では、名称と数量とを組合せることでユーザの所望する制御対象を所望の量だけ変更することができる。本実施形態に係る音声操作装置10によれば、音声認識を用いた操作形態の利便性が向上できる。
本実施形態に係る音声操作装置10は、図1に例示のように、接続バス17によって相互に接続されたCPU(Central Processing Unit)11、主記憶装置12、補助記憶装
置13、表示デバイス14、通信IF(Interface)15、入出力IF16を備える。な
お、表示デバイス14は、例えば、表示デバイス14面に重畳させて接触させた操作指の接触位置を検出するタッチセンサ等のデバイスを備え、タッチパネルとして機能するとしてもよい。表示デバイス14は、タッチパネルとして機能することで、例えば、表示デバイス14に表示されたボタンやスライドスイッチ等の表示部品に対する接触操作を受けることが可能になる。なお、表示部品は、グラフィックユーザインターフェース(GUI)部品とも呼ばれる。以下では、表示デバイス14は、タッチパネル機能を有するとして説明する。
CPU11は、音声操作装置10全体の制御を行う中央処理演算装置である。CPU11はプロセッサとも呼ばれる。ただし、CPU11は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のCPU11がマルチコア構成であってもよい。CPU11は、補助記憶装置13に記憶されたプログラムを主記憶装置12の作業領域に実行可能に展開し、プログラムの実行を通じて周辺機器の制御を行うことで所定の目的に合致した機能を提供する。
主記憶装置12は、CPU11がプログラムやデータをキャッシュしたり、作業領域を展開したりする記憶媒体である。主記憶装置12は、例えば、フラッシュメモリ、RAM(Random Access Memory)やROM(Read Only Memory)を含む。補助記憶装置13は、CPU11により実行されるプログラムや、動作の設定情報などを記憶する記憶媒体である。補助記憶装置13は、例えば、HDD(Hard-disk Drive)やSSD(Solid State Drive)、EPROM(Erasable Programmable ROM)、フラッシュメモリ、USBメモリ
、SD(Secure Digital)メモリカード等である。通信IF15は、音声操作装置10に接続するネットワークとのインターフェースである。入出力IF16は、音声操作装置10に接続するセンサや装置との間でデータの入出力を行うインターフェースである。
音声操作装置10は、例えば、入出力IF16を介し、マイクロフォン16a、スピーカ16b等に接続する。マイクロフォン16aは、AVN機を搭載する車両の、乗員等の発声する音声が入力される入力デバイスである。マイクロフォン16aから入力された情報は、接続バス17を介してCPU11に通知される。スピーカ16bは、CPU11等で処理されたデータが出力される出力デバイスである。スピーカ16bには、1以上の複数のスピーカが含まれ得る。なお、上記の構成要素はそれぞれ複数に設けられてもよいし、一部の構成要素を設けないようにしてもよい。また、上記の構成要素は、AVN機の構成要素に含まれるとしてもよい。
表示デバイス14は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、EL(Electroluminescence)パネル、有機ELパネル等である。なお
、タッチパネルとして機能する表示デバイス14では、操作指等の接触位置は、例えば、左上角部を原点とし、表示デバイス14の左右方向をX軸、上下方向をY軸とした(X,Y)の2次元座標として表される。タッチパネルとして機能する表示デバイス14は、例えば、ユーザの接触操作が可能なように表示デバイス14面を露出するようにして車両の
センターコンソール等に収容される。
音声操作装置10では、CPU11のプログラムの実行により、音声認識部21、操作処理部22の処理が提供される。但し、上記各処理部の少なくとも一部の処理がDigital Signal Processor(DSP)、Application Specific Integrated Circuit(ASIC)等によって提供されてもよい。また、上記各処理部の少なくとも一部が、Field-Programmable Gate Array(FPGA)等の専用large scale integration(LSI)、その他のデジタル回路であって
もよい。また、上記各処理部の少なくとも一部にアナログ回路を含むとしてもよい。音声操作装置10は、上記各処理部が参照し、或いは、管理するデータの格納先として補助記憶装置13に音声認識辞書DB201、部品管理DB202を備える。
音声認識部21は、入出力IF16を介し、マイクロフォン16aに入力されたユーザの発声音声を音声データとして受け付ける。マイクロフォン16aに入力された発声音声には、AVN機が提供するナビゲーション機能、オーディオ機能等についての操作指示が含まれる。音声認識部21は、例えば、音声認識辞書DB201を参照し、マイクロフォン16aに入力された音声に対して音声認識処理を行う。音声認識処理では、音声認識辞書DB201に予め登録された音響モデルや、音声データに対応した言葉(文章、単語等の文字列)とのマッチングが行われる。音声認識処理の結果、マイクロフォン16aに入力された音声の中のユーザの発声指示に合致する言葉が特定される。音声認識部21は、音声データから特定した言葉を操作処理の対象データとして操作処理部22に引き渡す。
操作処理部22は、部品管理DB202を参照し、音声認識部21から引き渡された対象データに対応する表示部品(GUI部品)を特定する。操作処理部22は、上記対象データに対応する表示部品が部品管理DB202に登録されている場合には、該表示部品に関連付けられた制御対象をさらに特定する。操作処理部22は、音声認識部21から引き渡された対象データの示す情報に基づいて、特定した表示部品に関連付けされた制御対象の制御量を操作する。
例えば、AVN機においてオーディオアプリが機能し、表示デバイス14上には、音量を制御対象とし該音量の増減を可変するための操作画面が表示されているとする。表示デバイス14に表示された操作画面には、音量の増減を可変するためのスライド操作が可能な表示部品や、短押しや長押しによるボタン操作が可能な表示部品が表示されている。上記表示部品には、操作対象となる制御量、及び、該制御量を操作するためのアプリ機能(アプリ名)等が関連付けられている。上記表示部品に関連付けられた各種情報は、部品管理DB202に予め登録されている。
操作処理部22は、例えば、表示デバイス14に表示された上記表示部品への操作指示が対象データに含まれる場合には、部品管理DB202から上記表示部品に関連付けられたアプリ機能を特定する。操作処理部22は、例えば、特定したアプリ機能に対し、対象データに含まれる制御量(操作量)を引き渡す。操作処理部22により、例えば、音量の増減を可変する表示部品が操作され、ユーザの発声指示に対応した音量の増加操作、或いは、減少操作が可能になる。
<2.音声操作例>
(ケース1)
図2は、音声入力により音量の増加減を調節する音声操作の一例を説明する図である。図2に示すように、音声操作装置10の表示デバイス14上には、オーディオアプリを機能させたAVN機から提供された、上記音量を調節するための操作画面Z1が表示される。操作画面Z1において、表示部品Z4−Z13は、音量を制御するためのボタン操作が可能な表示部品である。音声操作装置10は、例えば、表示部品Z4−Z13のそれぞれ
の領域内への短押しによる接触操作を検知し、接触操作が検知された表示部品に対応する制御量へ音量を増加減する。なお、図2に例示の表示部品は、音量の最大値を「MAX(表示部品Z13)」とし、同音量の最小値を「Mute(表示部品Z4)」とする一例である。また、音量の最大値と最小値との間は、「Vol1(表示部品Z5)」から「Vol8(表示部品Z12)」に至る8段階の制御幅で区分けされる一例である。
図2に示すように、本実施形態に係る音声操作装置10においては、制御対象(図2では、音量)の操作画面内に、制御対象とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物象のイラスト画像Z2、Z3が表示される。イラスト画像Z2,Z3として、例えば、「クジラ」や「スイカ」といった動植物、「富士山」や「月」といった地形や天体惑星、「黒」や「白」といった色彩等のイメージ画像が例示できる。イラスト画像Z2、Z3として、例えば、「クマ」、「キリン」、「ゾウ」といった動物や、「リンゴ」、「ブドウ」、「イチゴ」といった果物等のように、高齢者や子供が親近感を思える単語名称のイメージ画像を用いることが好ましい。上記単語名称を用いる場合には、車両に搭乗する高齢者や子供に対し、音声入力操作への親しみ易さを持たせることが期待される。
なお、操作画面内に表示されるイラスト画像は、制御対象とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物事のイメージ画像であれば、静止画像であってもよく、動画像であってもよい。また、イラスト画像の表示形態は、例えば、静止画像が音声操作の受付期間中に動きを伴うアニメーション画像となり、受け付けた音声操作の操作完了と共に静止画像の状態に戻るとしてもよい。音声操作の受付期間中の他の表示態様として、例えば、イラスト画像の表示箇所の明るさを明滅(ブリンク)させたり、イラスト画像の表示色の濃淡を一定周期で変化させるとしてもよい。
本実施形態に係る音声操作装置10においては、イラスト画像Z2、Z3は、例えば、制御量の増加減、送りや戻し、UPやDOWNといった制御方向を示す端部側に表示される。図2の例では、音声操作装置10は、最大値の音量になる表示部品Z13(「MAX」)側、および、最小値の音量になる表示部品Z4(Mute)側のそれぞれに、音量の増加方向を示すイラスト画像Z2、音量の減少方向を示すイラスト画像Z3を表示する。なお、図2は、制御対象(音量)の制御方向(増加方向)を表すイラスト画像Z2として動物「ゾウ」のイメージ画像を用い、制御方向(減少方向)を表すイラスト画像Z3として動物「ネズミ」のイメージ画像を用いた一例である。
図2に例示のように、例えば、制御対象の制御方向が双方向である場合には、イラスト画像として、対向関係で表現可能な具体的な物象を一対に組合せて表示することが好ましい。例えば、体の大きさやサイズの大小関係を有する動植物、強弱関係にある動物、濃淡関にある色彩等が例示できる。制御対象の制御方向が双方向である場合には、対向関係で表現可能な具体的な物象のイラスト画像を組合せて表示することで、増加減、送りや戻し、UPやDOWNといった制御量の制御方向をイメージし易くなることが期待される。
体の大きさやサイズの大小関係を有する動植物の例として、例えば、「ゾウとネズミ」、「クジラとメダカ」、「スイカとイチゴ」等が例示できる。強弱関係にある動物例として、例えば、「ネコとネズミ」、「ライオンとウサギ」、「シャチとサンマ」等が例示できる。濃淡関係にある色彩例として、例えば、「黒と白」等が例示できる。その他、大小関係の事象として、例えば、「太陽と地球」、「地球と月」、「富士山と**山(**山は、例えば、ユーザが居住する地区の低山)」、「海と沼」等が例示できる。また、他の対向関係として、例えば、「ホットコーヒーとアイスコーヒー」等が例示される。
図2において、本実施形態に係る音声操作装置10では、音声入力の操作指示は、例え
ば、「イラスト画像の名称+数量」との組合せによって簡略化される。音声操作装置10は、例えば、「ゾウ3匹」との音声入力を受け付けた場合には、現在の音量レベル(例えば、「Vol3」)から3段階高い音量レベル(例えば、「Vol6」)に引き上げる。また、「ネズミ2匹」との音声入力を受け付けた場合には、現在の音量レベル(例えば、「Vol6」)から2段階低い音量レベル(例えば、「Vol4」)に引き下げる。
音声操作装置10は、操作画面に表示されたイラスト画像Z2,Z3についての名称と数量とを組合せた、簡略化された音声指示を受け付けることで、発声するユーザの所望する制御対象を所望の量だけ変更することができる。このため、音声操作装置10では、音声認識を用いた操作形態の利便性が向上できる。
(ケース2)
図3は、音声入力により楽曲選択時の表示リストの送り・戻しを行う音声操作の一例を説明する図である。図3に示すように、音声操作装置10の表示デバイス14上には、オーディオアプリを機能させたAVN機から提供された、楽曲選択時の表示リストの送り・戻しを行うための操作画面Z14が表示される。操作画面Z14の領域Z17には、例えば、楽曲名1−4の、4曲についての楽曲名がリスト形式により表示されている。なお、操作画面Z14に表示される楽曲は、例えば、AVN機の利用可能な記録媒体に記憶された楽曲である。AVN機の利用可能な記録媒体には、HDDやSSD、フラッシュメモリ、USBメモリ、SDメモリカード等が含まれる。また、操作画面Z14に表示される楽曲は、例えば、AVN機の外部入力インターフェースを介して接続されたiPod(登録商標)に記録された楽曲であってもよい。
図2を用いて説明したように、制御対象である表示リストの送り・戻しの操作画面Z14には、制御対象とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物象のイラスト画像Z15、Z16が表示される。操作画面Z14に表示されるイラスト画像Z15、Z16は、対向関係で表現可能な具体的な物象の名称であり、一対に組合せて表示される。音声操作装置10においては、例えば、ユーザの発声する「イラスト画像の名称+数量」との組合せによって簡略化された音声操作を用いて、上記表示リストの送り・戻し操作が行われる。
図3においては、表示リストの送り方向側にはイラスト画像Z15が表示され、戻し方向側にはイラスト画像Z16が表示されている。例えば、操作画面Z14のイラスト画像Z15には「ゾウ」が表示され、イラスト画像Z16には「ネズミ」が表示されていると想定する。
ここで、ユーザの視聴する楽曲には、例えば、楽曲名としてイラスト画像Z15、Z16の名称と重複する単語が使用される場合が想定される。例えば、イラスト画像Z15として「ゾウ」が用いられ、楽曲名に「ぞう」を含む「ぞうさんの歌」等が存在する場合では、音声入力される音声「ゾウ」は重複することになる。音声操作装置10では、例えば、名称「ゾウ」を音声認識した場合、音声操作による指示なのか、リスト表示された楽曲名を呼称した発声なのか区分けが困難になる。このため、楽曲名を読み上げた発声を音声操作による指示と誤認識してしまい、例えば、視聴中の楽曲を中断して送り操作を行うといった誤操作が生じる虞があった。
音声操作装置10は、例えば、操作画面Z14に表示される楽曲名称が、イラスト画像Z15、Z16の名称と重複する場合には、イラスト画像の名称が楽曲名称とは重複しない単語となるように、イラスト画像の表示切替を行う。図3の例では、音声操作装置10は、例えば、イラスト画像Z15として表示された「ゾウ」のイメージ画像を「くじら」のイラスト画像に変更する。なお、制御対象である表示リストの送り・戻し操作は、制御
方向が双方向である。このため、音声操作装置10は、「ゾウ」と一対となって用いられる「ネズミ」のイラスト画像Z16を、「くじら」と相対的な大小関係により組合せられる「メダカ」のイメージ画像に変更する。操作画面Z14に表示されるイラスト画像Z15、Z16は、「ゾウとネズミ」が関連付けられた相対的な大小関係を保持した状態で「くじらとメダカ」のイメージ画像に切り替えられる。
具体的には、音声操作装置10は、例えば、AVN機から提供された楽曲群について、イラスト画像Z15、Z16の名称を検索キーとして検索を行う。AVN機から提供された楽曲群は、例えば、音声操作装置10の主記憶装置12の所定の領域に一時的に格納されている。音声操作装置10は、上記楽曲群の名称にイラスト画像Z15、Z16の名称となる単語(文字、文字列)が含まれる場合には、例えば、部品管理DB202に予め格納された、上記楽曲群の名称とは重複しない名称を有する他のイラスト画像を取得し、操作画面Z14上に表示する。
音声操作装置10は、リスト表示される楽曲名と重複する名称のイラスト画像が表示された場合であっても、上記楽曲の名称とは重複しない名称の他のイラスト画像に切り替えることが可能になる。音声操作装置10では、誤認識による音声操作の発生が抑制可能になる。
なお、図3においては、例えば、「くじら3匹」との音声入力を受け付けた場合には、現在の楽曲名に対して3行後の楽曲名が表示されるよう、リスト単位で送り操作が行われる。また、例えば、「メダカ2匹」との音声入力を受け付けた場合には、現在の楽曲名に対して2行前の楽曲名が表示されるよう、リスト単位で戻し操作が行われる。但し、表示リストの送り・戻し操作は、例えば、一つの画面に表示可能な楽曲数を単位として(図3の例では4曲)、画面単位毎の送り・戻し操作が行われるとしてもよい。
(ケース3)
(ケース1)、(ケース2)の音声操作例では、制御対象の制御方向が一軸の双方向の場合を説明した。本実施形態に係る音声操作装置10においては、制御対象が多軸の場合であっても適用が可能である。次に、制御対象の制御方向が2軸である場合の音声操作例を説明する。
図4は、音声入力により、車内に配置されたスピーカ群について音場(視聴位置における音場のバランス)制御を行う音声操作の一例を説明する図である。スピーカ群は、例えば、車内の、運転席前部側、運転席後部側、助手席前部側、助手席後部側のそれぞれの計4か所に配置される。音場制御においては、例えば、乗員が着座する運転席、運転席後部席、助手席、助手席後部席のそれぞれの着座位置における相対的な音場のバランスが制御される。音場制御により、例えば、車内に配置されたスピーカ群によって提供される、上記各着座位置における音響空間の臨場感や強弱といった音場バランスが調節される。
図4に示すように、音声操作装置10の表示デバイス14上には、オーディオアプリを機能させたAVN機から提供された、音場制御を行うための操作画面Z18が表示される。操作画面Z1には、例えば、スピーカ群の配置位置を示すアイコン画像Z19−Z22が表示される。アイコン画像Z19は、運転席前部側に配置されたスピーカを表し、アイコン画像Z20は、運転席後部側に配置されたスピーカを表す。同様にして、アイコン画像Z21は、助手席前部側に配置されたスピーカを表し、アイコン画像Z22は、助手席後部側に配置されたスピーカを表す。
図4の領域Z27に示すように、車内に配置されたスピーカ群によって提供される音響空間(音場)は、例えば、車両の前後方向、左右方向の2軸を用いた平面空間で表すこと
が可能である。本実施形態の音声操作装置10では、音場制御の対象となる平面空間の各軸が、イラスト画像Z23、Z24、Z25、Z26を用いて表示される。なお、音場制御の対象となる平面空間の左右方向の軸となるイラスト画像Z23、Z24は、相対的に対向関係になる一対の名称を有する。同様にして、音場制御の対象となる平面空間の前後方向の軸となるイラスト画像Z25、Z26は、相対的に対向関係になる一対の名称を有する。
図4の例では、音場制御の対象となる平面空間の左右方向の軸となるイラスト画像Z23は「青ぶどう」の名称を有し、イラスト画像Z24は「赤ぶどう」の名称を有する。なお、イラスト画像Z23、Z24が表示された音場制御の対象となる平面空間の左右方向の軸は、車内空間の左右方向の中心位置を原点とし、左右のそれぞれの方向に5段階に区分けされた座標を有する。
同様にして、図4においては、音場制御の対象となる平面空間の前後方向の軸となるイラスト画像Z25は「赤りんご」の名称を有し、イラスト画像Z26は「青りんご」の名称を有する。また、イラスト画像Z25、Z26が表示された音場制御の対象となる平面空間の前後方向の軸は、車内空間の前後方向の中心位置を原点とし、前後のそれぞれの方向に3段階に区分けされた座標を有する。
音声操作装置10は、例えば、音場制御を行うユーザが発声した、「赤りんご3個」、「青ぶどう3個」との音声入力を連続して受け付ける。そして、音声操作装置10は、音声入力で指定された座標位置(Z28)の音響空間に対し、スピーカ群の提供する音場バランスが最適となるように調節する。なお、音場制御を実行するAVN機のアプリにおいては、予め座標位置毎に最適化した音場バランスデータに基づいてスピーカ群の音声出力制御が行われる。
図4で説明したように、音声操作装置10においては、制御対象の制御方向が多軸の場合であっても、各軸の制御方向を相対的な対向関係にある一対の名称を有するイラスト画像の組合せで表すことができる。そして、各軸の名称と共に発声される各軸の制御幅を示す数量に基づいて、多軸の制御対象についての操作を行うことが可能になる。本実施形態に係る音声操作装置10によれば、制御対象が多軸の場合であっても、イラスト画像の有する名称の適宜な組合せに基づいて、制御操作を行うことができる。
<3.処理フロー>
以下、図5を参照し、本実施形態に係る音声操作装置10の音声操作処理を説明する。図5は、音声操作処理の一例を示すフローチャートである。本実施形態の音声操作装置10は、例えば、CPU11等が補助記憶装置13に記憶された各種プログラムや各種データを読み出して実行することで、図5に例示の音声操作処理を提供する。なお、音声操作装置10のCPU11等は、音声認識辞書DB201、部品管理DB202を参照し、図5に例示の音声操作処理を実行する。図5に例示の音声操作処理は、主に、音声認識部21、操作処理部22により行われる。
図5のフローチャートにおいて、処理の開始は、音声入力を受け付けるための操作のときが例示できる。音声操作装置10は、例えば、表示デバイス14上に、オーディオアプリを機能させたAVN機から提供された、操作画面を表示する。音声操作装置10は、例えば、部品管理DB202を参照し、操作画面に対応付けられた操作可能な制御対象(音量、リストの表示送り・戻し、音響バランス等)を特定する。また、音声操作装置10は、部品管理DB202を参照し、操作画面に対応付けられた、制御対象の制御方向(増加減、送り・戻し、多軸の音響バランス等)へ表示するイラスト画像の描画データを取得する。イラスト画像の描画データは、該イラスト画像の表示位置を示す座標情報と共に予め
部品管理DB202に登録される。音声操作装置10は、部品管理DB202から取得した描画データおよび座標情報に基づいて、制御対象の操作画面と共に取得したイラスト画像を表示デバイス14上に表示する。そして、音声操作装置10は、例えば、マイクロフォン16aを介して入力されるユーザの発声する音声指示を入力インターフェースとして機能させるための操作入力を受け付ける。音声入力を受け付けるための操作入力として、例えば、センターコンソール等に配置されたハードウェア部品である音声入力ボタン等の押下操作が例示できる。なお、上記音声入力ボタンは、例えば、表示デバイス14上に表示された操作画面内のGUI部品であってもよい。音声操作装置10は、例えば、表示デバイス14上に表示された上記GUI部品に重畳して接触させたユーザの接触操作を、タッチパネル機能を介して検知すればよい。
図5に例示のフローチャートにおいて、音声操作装置10は、上記の音声入力ボタンの押下操作、或いは、GUI部品への接触操作の検知と共に、例えば、マイクロフォン16aを介して入力されるユーザの発声音声を入力音声として受け付ける(S1)。マイクロフォン16aを介して入力された入力音声は、音声認識部21を実行するCPU11等に音声データとして受け付けられる。
音声操作装置10は、補助記憶装置13に格納された音声認識辞書DB201を参照し、S1の処理で受け付けた音声データに対応する言葉(文章、単語等の文字列)を特定する(S2)。音声データに対応する言葉の特定は、マイクロフォン16aを介して受け付けた音声データと音声認識辞書DB201に予め登録された音響モデルや辞書とのマッチングにより行われる。音声操作装置10は、音声データから特定された言葉を対象データとして、操作処理部22を実行するCPU11等に引き渡す。
音声操作装置10は、部品管理DB202を参照し、S2の処理から引き渡された対象データと、部品管理DB202に予め登録されたイラスト画像の名称との照合を行う。そして、音声操作装置10は、対象データに上記イラスト画像の名称と該イラスト画像で表された物象への数量が含まれているかを判定する(S3)。
音声操作装置10は、対象データに記イラスト画像の名称と該イラスト画像で表された物象への数量が含まれている場合には(S3,Yes)、S5の処理に移行する。一方、音声操作装置10は、対象データに記イラスト画像の名称と該イラスト画像で表された物象への数量が含まれている場合には(S3,No)、S4の処理に移行する。
S4の処理では、音声操作装置10は、音声操作の終了操作、或いは、所定時間の経過(タイムアウト)を検出したかを判定する。音声操作の終了操作は、例えば、押下された音声入力ボタンの解放、音声操作終了と関連付けられたGUI部品への接触操作等が例示される。また、所定時間の経過は、例えば、音声入力を受け付けるための操作を検知してからの時間経過に対する閾値との比較等が例示できる。所定時間の経過を判定するための閾値は、実験的に音声操作装置10を機能させ、音声入力についての操作指示期間を計測し、該計測した計測値に基づいて予め設定することが可能である。
音声操作装置10は、音声操作の終了操作、或いは、所定時間の経過(タイムアウト)が検出された場合には(S4,Yes)、図5の処理を終了する。一方、音声操作装置10は、音声操作の終了操作、或いは、所定時間の経過(タイムアウト)を検出しない場合には(S4,No)、S1の処理に移行し、図5の処理を継続する。
S5の処理では、音声操作装置10は、部品管理DB202を参照し、イラスト画像の名称に対応する制御対象、制御方向を特定する。そして、音声操作装置10は、特定された制御対象について、イラスト画像の名称に対応する制御方向、および、イラスト画像で
表された物象への数量に沿って、制御対象の制御量を操作する。S5の処理により、例えば、図2を用いて説明した音量の増加・減少操作を行うことができる。また、例えば、図3を用いて説明した表示リストの送り・戻し操作を行うことができる。また、例えば、図4を用いて説明した2軸の制御方向を有する音場制御操作を行うことができる。音声操作装置10は、S5の処理の実行後、図5の処理を終了する。
以上の処理により、音声操作装置10は、操作画面に表示されたイラスト画像についての名称と数量とを組合せた、簡略化された音声指示を受け付けることができる。そして、音声操作装置10は、音声指示に沿って、所望する制御対象を所望の量だけ変更することができる。本実施形態の音声操作装置10によれば、音声認識を用いた操作形態の利便性が向上できる。
音声操作装置10は、制御対象とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物事のイメージ画像、例えば、「クジラ」や「スイカ」といった動植物、「富士山」や「月」といった地形や天体惑星、「黒」や「白」といった色彩等のイメージ画像をイラスト画像として表示できる。本実施形態の音声操作装置10によれば、車両に搭乗する高齢者や子供に対し、音声入力操作への親しみ易さを持たせることができる。
また、音声操作装置10は、例えば、操作画面に表示される楽曲名称が、イラスト画像の名称と重複する場合には、イラスト画像の名称が楽曲名称とは重複しない単語となるように、イラスト画像を変更することができる。本実施形態の音声操作装置10によれば、例えば、操作画面に表示される楽曲名称とイラスト画像の名称との重複による誤操作を抑制できる。
また、音声操作装置10は、例えば、制御対象の制御方向が双方向である場合には、イラスト画像として、対向関係で表現可能な具体的な物象を一対に組合せて表示することができる。例えば、音声操作装置10は、体の大きさやサイズの大小関係を有する動植物、強弱関係にある動物、濃淡関にある色彩等をイラスト画像として表示できる。本実施形態の音声操作装置10によれば、対向関係にある一対の物象のイラスト画像を用いることで、増加減、送りや戻し、UPやDOWNといった制御量の操作方向をイメージし易くすることができる。
また、音声操作装置10は、例えば、制御対象の制御方向が多軸の場合であっても、各軸の制御方向を相対的な対向関係にある一対の名称を有するイラスト画像の組合せで表すことができる。そして、音声操作装置10は、各軸の名称と共に発声される各軸の制御幅を示す数量に基づいて、多軸の制御対象についての操作を行うことができる。本実施形態の音声操作装置10によれば、制御対象の制御方向が多軸の場合であっても、イラスト画像の有する名称の適宜な組合せに基づいて、制御操作を行うことができる。
音声操作装置10が表示するイラスト画像には、制御対象の制御内容とは無関係な、発声音の短い簡便な文字や用語の画像が含まれるとしてもよい。例えば、「A」と「Z」、「あ」と「お」、「山」と「海」といった文字をイラスト画像として、制御対象の操作画面に表示するとしてもよい。図2を用いて説明した例では、音声操作装置10は、例えば、イラスト画像Z2として、文字「A」が記述されたイラスト画像を表示すると共に、イラスト画像Z3として、文字「Z」が記述されたイラスト画像を表示すればよい。
音声操作装置10は、例えば、「A3」との音声入力を受け付けた場合には、現在の音量レベル3段階高い音量レベルに引き上げるとし、「Z2」との音声入力を受け付けた場合には、現在の音量レベルから2段階低い音量レベルに引き下げることができる。音声操作装置10は、発声音の短い簡便な文字や用語と数量との組合せに基づいて、該文字や用
語を記述したイラスト画像に関連付けられた制御対象を制御することができる。
<4.変形形態>
本実施形態に係る音声操作装置10が提供する音声操作処理は、例えば、車内の空調温度の調節、車内照明の明度の調節を行う電装制御に適用するとしてもよい。制御対象とは無関係な、発声音の短い簡便な単語を名称に持つ具体性を有する物事のイラスト画像名称と数量とを組合せた、簡略化された音声指示により、車内の空調温度や車内照明の明度を調節することができる。変形形態の音声操作装置10によれば、車内の電装制御を操作対象とする場合であっても、音声認識を用いた操作形態の利便性が向上できる。
10 音声操作装置
11 CPU
12 主記憶装置
13 補助記憶装置
14 表示デバイス
15 通信IF
16 入出力IF
16a マイクロフォン
16b スピーカ
17 接続バス
21 音声認識部
22 操作処理部
201 音声認識辞書DB
202 部品管理DB

Claims (10)

  1. イラスト画像を制御対象に対応付けて、前記制御対象の操作画面に表示する表示手段と、
    前記イラスト画像で表された物象の名称と前記物象の数量とを組合せた入力音声を音声認識すると共に、前記イラスト画像に対応付けられた制御対象を前記音声認識された物象の名称から特定し、特定した制御対象の制御量を前記音声認識された数量に対応する量に基づいて変更する処理手段と、を備えることを特徴とする音声操作装置。
  2. 前記表示手段は、前記制御対象の制御方向が双方向である場合には、対向関係にある物象のイラスト画像を一対に組合せて前記制御対象の操作画面に表示し、
    前記処理手段は、前記一対に組合せられたイラスト画像で表された物象の名称と前記物象の数量とを組合せた入力音声の音声認識結果に基づいて、制御対象の制御量を変更する、請求項1に記載の音声操作装置。
  3. 前記表示手段は、大小関係によって対向関係にある物象のイラスト画像を一対に組合せて前記制御対象の操作画面に表示する、請求項2に記載の音声操作装置。
  4. 前記表示手段は、強弱関係によって対向関係にある物象のイラスト画像を一対に組合せて前記制御対象の操作画面に表示する、請求項2に記載の音声操作装置。
  5. 前記表示手段は、色彩の濃淡関係によって対向関係にある物象のイラスト画像を一対に組合せて前記制御対象の操作画面に表示する、請求項2に記載の音声操作装置。
  6. 前記処理手段は、相互に独立した2次元の制御方向を有する制御対象の制御量を変更する、請求項1または2に記載の音声操作装置。
  7. 前記処理手段は、前記制御対象の操作画面内に、前記イラスト画像で表された物象の名称が文字列として表示される場合には、表示済みの前記イラスト画像を前記文字列とは重複しない名称のイラスト画像に変更する、請求項1または2に記載の音声操作装置。
  8. 音声操作装置のコンピュータが、
    イラスト画像を制御対象に対応付けて、前記制御対象の操作画面に表示する表示ステップと、
    前記イラスト画像で表された物象の名称と前記物象の数量とを組合せた入力音声を音声認識すると共に、前記イラスト画像に対応付けられた制御対象を前記音声認識された物象の名称から特定し、特定した制御対象の制御量を前記音声認識された数量に対応する量に基づいて変更する処理ステップと、
    を実行する制御方法。
  9. 制御対象の制御内容とは無関係な文字または用語の何れか一つを前記制御対象に対応付けて、前記制御対象の操作画面に表示する表示手段と、
    前記文字または用語の何れか一つと前記物象の数量とを組合せた入力音声を音声認識すると共に、前記文字または用語の何れか一つに対応付けられた制御対象を前記音声認識された文字または用語の何れか一つから特定し、特定した制御対象の制御量を前記音声認識された数量に対応する量に基づいて変更する処理手段と、を備えることを特徴とする音声操作装置。
  10. 音声操作装置のコンピュータが、
    制御対象の制御内容とは無関係な文字または用語の何れか一つを前記制御対象に対応付
    けて、前記制御対象の操作画面に表示する表示ステップと、
    前記文字または用語の何れか一つと前記物象の数量とを組合せた入力音声を音声認識すると共に、前記文字または用語の何れか一つに対応付けられた制御対象を前記音声認識された文字または用語の何れか一つから特定し、特定した制御対象の制御量を前記音声認識された数量に対応する量に基づいて変更する処理ステップと、
    を実行する制御方法。
JP2016134210A 2016-07-06 2016-07-06 音声操作装置及び制御方法 Pending JP2018005722A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016134210A JP2018005722A (ja) 2016-07-06 2016-07-06 音声操作装置及び制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016134210A JP2018005722A (ja) 2016-07-06 2016-07-06 音声操作装置及び制御方法

Publications (1)

Publication Number Publication Date
JP2018005722A true JP2018005722A (ja) 2018-01-11

Family

ID=60949265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016134210A Pending JP2018005722A (ja) 2016-07-06 2016-07-06 音声操作装置及び制御方法

Country Status (1)

Country Link
JP (1) JP2018005722A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3300822A2 (de) 2006-04-10 2018-04-04 Franz Haimer Maschinenbau KG Auszugssicherung von werkzeugen aus werkzeughaltern mit einer werkzeugaufnahme

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3300822A2 (de) 2006-04-10 2018-04-04 Franz Haimer Maschinenbau KG Auszugssicherung von werkzeugen aus werkzeughaltern mit einer werkzeugaufnahme

Similar Documents

Publication Publication Date Title
US10481858B2 (en) Generating personalized audio content based on mood
US10777193B2 (en) System and device for selecting speech recognition model
US9093070B2 (en) Method and mobile device for executing a preset control command based on a recognized sound and its input direction
KR102536097B1 (ko) 디스플레이를 제어하는 전자 장치 및 방법
CN105283356B (zh) 应用程序控制方法以及信息终端
JP5916888B2 (ja) 直接的文法アクセス
JP5463922B2 (ja) 車載機
KR20100076998A (ko) 정보 입력 및 표시를 위한 운전자 보조 시스템의 멀티모달 사용자 인터페이스
CN105027062A (zh) 信息处理装置
US9389755B2 (en) Input apparatus, input method, and input program
JP5637131B2 (ja) 音声認識装置
WO2021068903A1 (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
JP2017090613A (ja) 音声認識制御システム
CN110992927B (zh) 音频生成方法、装置、计算机可读存储介质及计算设备
US20100229116A1 (en) Control aparatus
TW201512968A (zh) 以語音辨識來發生事件裝置及方法
Lee et al. Linking the detection response task and the attend algorithm through assessment of human–machine interface workload
JP6522009B2 (ja) 音声認識システム
CN112614507B (zh) 检测噪声的方法和装置
JP4483450B2 (ja) 音声案内装置、音声案内方法およびナビゲーション装置
JP2018005722A (ja) 音声操作装置及び制御方法
JP2010281572A (ja) 車載装置および車載装置の制御方法
CN111125424B (zh) 提取歌曲核心歌词的方法、装置、设备及存储介质
JP2021018551A (ja) 情報装置、自動設定方法及び自動設定プログラム
CN111028823A (zh) 音频生成方法、装置、计算机可读存储介质及计算设备