JP2005189846A

JP2005189846A - 音声制御スクリーンシステム

Info

Publication number: JP2005189846A
Application number: JP2004348007A
Authority: JP
Inventors: Sadahiko Sano; 佐野禎彦; Tetsuya Tatara; 多々良哲也; Tatsuhiko Uchiyama; 内山辰彦; Tadahiko Miyamoto; 宮本忠彦; Kenichi Kamoshita; 鴨下賢一; Mayumi Tachibana; 立花真由美; Shinji Tashiro; 田代眞二; Tomohiro Sakurai; 桜井智洋; Hisashi Sukegawa; 助川尚志
Original assignee: IHM KK; Shizuoka Prefecture
Current assignee: IHM KK; Shizuoka Prefecture
Priority date: 2003-12-05
Filing date: 2004-12-01
Publication date: 2005-07-14

Abstract

【課題】支援者が要支援者に説明する内容を音声に同期させて、理解しやすい視覚情報で呈示し、要支援者も自らの音声で視覚情報を呈示することで、要支援者への理解支援と表意意欲の喚起を行う。
【解決手段】音声制御スクリーンシステム２００は、コンピュータである演算処理装置１、ディスプレイである表示装置２、入力装置である端末３を含む。この音声制御スクリーンシステム２００は、支援者１０と要支援者１１の間の意思疎通を補助するためのシステムである。演算処理装置１は、支援者１０又は要支援者１１により音声送信部２０又は音声送信部２１を介して発信された音声信号を音声受信部３０又は音声受信部３１で受信した後音声認識部４２で認識し、認識結果から認識辞書５３に符合する画像・音声・文字オブジェクトをストーリーデータベース５５から検索して、これらのオブジェクトを表示装置２に出力する。
【選択図】図８

Description

本発明は、音声言語の理解に障害を有した要支援者とその支援者との間で意思疎通を円滑にはかるための支援システムとそのソフトウエアに関するものである。

医療機関や養護学校や福祉施設では、支援者があらかじめ説明する内容を紙に描いた絵シンボルやかなカードで用意しておき、スケジュール内容や作業手順を可視化して、要支援者に提示する方法が一般的である。また、最近ではコンピュータ上に登録した可視化素材をプレゼンテーションソフトウエアで再生する支援方法も普及し始めている。聴覚障害者を対象にした同様の支援では、話者の講話内容を別の支援者が復唱し、音声認識で字幕表示する方法が開発されている（特許文献１参照）。
特開２００２−２６８６６７

しかしながら、上述の手法では、支援者が多くのカードを準備することは困難で、想定外のカードまで手元に準備するわけにはいかず、予定内の範囲で説明をまとめざるを得ない。さらに要支援者にとって動きのある表現や感情及び物事の性質といった抽象的な概念を理解することは絵カードレベルでは困難である。例えば抽象概念が形成されていない重度の知的障害や自閉症者の場合、「走る」という意味の静止画を見せるより実際の動画を見せた方が走る動作を習得しやすい。

また、支援者がプレゼンテーションソフトウエアを使用する場合でも、動画を扱えるといったメリットは加わるが、あらかじめ用意したシナリオに沿って説明を進めていくことしかできない。

一方、要支援者の側から見ると、事前準備されたシナリオに沿って話を理解することは問題ないものの、支援者側からの一方的な展開であり、本人の関与によって状況が変化することは考えにくい。そのような状況下では、平常時から音声言語主体の説明に興味を持ちにくい要支援者にとって、表意意欲の上がらない結果となる。

そこで本発明者らは、こうした課題に共通した支援技術として音声認識技術に着目した。近年の音声認識技術は、大語彙言語モデル、耐雑音性、不特定話者対応、話者属性別音響モデル、話者認証、キーワードスポッティング、分散処理といったコア技術を確立しており、携帯電話やカーナビへの移植が進んでいる。本発明者らは、上述の問題点をワイヤレス音声認識技術で解決し、支援者が要支援者のコンディションに応じた柔軟な対応を可能にすることと要支援者の理解度向上だけでなく、表意意欲を引き出すことにあり、その支援システムとソフトウエアを提供することを可能にした音声制御スクリーンシステムを開発し、既に特許出願に及んでいる（特願２００３−４０６６３１）。

しかしながら、現在の音声認識技術は騒音に弱く、実際の騒音下で学習された音響モデルでなければ十分な性能を発揮しない。また通常、誤認識した結果は外部から修正を加えない限り、自律的に学習して認識率を上げていくことはできない。さらに、不特定話者対応といえども、平均的な音響特徴から大きくはずれた話者や、障害により音声が不明瞭な話者には音声認識技術は大きな障壁となっている等、改善の余地があった。

請求項１記載の音声制御スクリーンは、支援者と要支援者又は要支援者と要支援者の意思疎通を補助するための音声制御スクリーンシステムであって、マイクを通して入力された音声を認識し、文字情報に変換して画像及び音声を出力する演算処理装置と、前記文字情報及び画像及び音声を表示再生する表示装置とを備え、前記演算処理装置は、無線による該音声を受信する音声受信部と該音声受信部から入力された音声を認識辞書と照合して認識するための音声認識部と前記表示装置に出力する出力部とを有することを特徴として成るものである。
この発明によれば、支援者と要支援者又は要支援者と要支援者が意思疎通を図りながら、画像又は音声又は文字を、事前に表示順序を規定することなく、任意の該音声を認識辞書及び画面制御辞書と照合して逐次検索され、当該画像及び音声及び文字が表示及び変更される。

また請求項２記載の音声制御スクリーンは前記要件に加え、前記表示装置に表示される画像は、前記音声認識部で認識した音声命令語により、端末に触れることなく、該音声を画面制御辞書と照合して逐次表示処理又は非表示処理又は表示位置調整処理又は表示サイズ調整処理又は表示履歴再生処理又は認識辞書切替処理のいずれか又はこれらを組み合わせた処理を行えるようにしたことを特徴として成るものである。
この発明によれば、支援者は、話の構成や要支援者の状況を随時考えながら、画面の表示状態を制御することができる。

更にまた請求項３記載の音声制御スクリーンは前記要件に加え、前記認識辞書に登録されるかな表記は、支援者又は要支援者が登録時に画像及び音声にリンクした文字情報として入力されるコードであるが、実際の発音は必ずしもかな表記と同じ発音にはならないため、前記音声認識部で最尤となる発音に近似したかな表記になるようコンバータを用いて併記する処理を行えるようにしたことを特徴として成るものである。
この発明によれば、支援者と要支援者はかな表記のような正確な発音でなくても、日常の話し言葉で音声を認識させることができる。

更にまた請求項４記載の音声制御スクリーンは前記要件に加え、前記音声認識部が、該音声受信部に入力された音声に環境騒音が混入することにより認識率が低下することを防ぐため、あらかじめ周囲の騒音レベルに応じて混入する騒音レベルが騒音と見なされない閾値まで該音声レベル全体を引き下げることにより、認識率の低下を防止したことをとして成るものである。
この発明によれば、音声認識という入力手段において、最も大きな障壁となっている騒音対策として、騒音下で低下する長母音を含む単語に対して、長母音を削除した単語を自動併記することと、騒音により発話区間感度の検出が困難になることを入力音声レベル全体を引き下げることで解決することができる。

更にまた請求項５記載の音声制御スクリーンは前記要件に加え、前記認識辞書部は、必ずしも発話者の意図した文字情報が最尤とならずに誤認識する場合もあるため、誤認識をキャンセルした際、誤認識した文字情報を一時的に認識辞書からはずし、第２尤度であった文字情報を繰り上げて、誤認識の繰りかえしを防止したことを特徴として成るものである。
この発明によれば、音声認識という入力手段において、もうひとつの障壁となっている話者の標準からはずれた音響特性や障害による不明瞭音声に対して、話者自身の音声を事前に辞書数だけ識別可能となるよう事前登録することで、実行時に照合可能とすることができる。

更にまた請求項６記載の音声制御スクリーンは前記要件に加え、前記認識辞書部は、前記音声認識部及び認識辞書部及び画面制御辞書部は音声不明瞭な要支援者であっても、本人の発話録音データとの照合により、少語彙での認識処理が可能な音声認識部を有することを特徴として成るものである。
この発明によれば、音声不明瞭な要支援者であっても明瞭な要支援者と同様に支援者との対話により、自らの音声で表示内容を変えていくことで表意意欲を上げることができる。
そしてこれら各請求項記載の発明の構成を手段として、前記課題の解決が図られる。

本発明によると、以上説明した通り、支援者が音声に同期させて、絵カード等の非電子媒体では不可能な動画像・音声を要支援者に呈示することで、要支援者の注意を引きつけながら、説明に対する理解の補助を行うができる。また、本発明は、要支援者が自らの音声により視聴覚環境をダイナミックに変化させることで、表意意欲を喚起することができる。

以下本発明を実施するための最良の形態について、二種の実施例に基づいて説明するものであるが、これらの実施例に対して、本発明の技術的思想の範囲内において適宜変更を加えることも可能である。

図１は、本発明に関する音声制御スクリーンシステム１００の概略構成図である。音声制御スクリーンシステム１００は、コンピュータである演算処理装置１、ディスプレイである表示装置２、キーボードなどの端末３を含む。この音声制御スクリーンシステム１００は、支援者１０と要支援者（高齢者や知的障害者、聴覚障害者など）１１の間の意思疎通を補助するためのシステムである。
演算処理装置１は、支援者１０により音声送信部２０を介して発信された音声信号を音声受信部３０で受信した後、音声認識部４０で認識し、認識結果から認識辞書５０に符合する画像・音声・文字オブジェクトをオブジェクトデータベース６０から検索して、これらのオブジェクトを表示装置２に出力する。

要支援者１１により音声送信部２１を介して発信された音声信号を音声受信部３１で受信した後、音声認識部４１で認識し、認識結果から認識辞書５１に符合する画像・音声・文字オブジェクトをオブジェクトデータベース６０から検索して、これらのオブジェクトを表示装置２に出力する。

演算処理装置１は、音声認識部４０、音声認識部４１、認識辞書５０、認識辞書５１及びオブジェクトデータベース６０を備える。音声認識部４０は支援者１０の音声を認識し、音声認識部４１は要支援者１１の音声を認識する。
認識辞書５０は音声認識部４０で認識した結果を参照する。
認識辞書５１は音声認識部４１で認識した結果を参照する。
オブジェクトデータベース６０は認識辞書５０又は認識辞書５１と符合するデータを備える。

音声認識部４０及び音声認識部４１は、それぞれ支援者及び要支援者の音響特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準音響モデル又は独自に作成したカスタム音響モデルを選択できる。

認識辞書５０及び認識辞書５１は、それぞれ支援者及び要支援者の語彙特性において、例えば成人用、高齢者用、子ども用といった属性別の標準認識辞書又は独自に作成したカスタム認識辞書を選択できる。

認識辞書５０及び認識辞書５１は、図２に示す例のように、認識語彙のよみ、再生画像ファイル名、再生音声ファイル名、表記文字を記述する。

オブジェクトデータベース６０は、認識辞書５０又は認識辞書５１に記述されたファイルを格納する。

表示装置２は、前記演算処理装置１のオブジェクトデータベース６０に格納されたファイルを再生表示する。

表示装置２に表示されたオブジェクトは、図３に示す画面制御辞書５２に記述された命令に従い、図４に示す移動方向指定、移動量指定、移動軌跡指定、拡大率指定、再生指定、点滅指定、停止指定、消去指定といった処理のいずれか又はこれらを組み合わせた処理が支援者１０及び要支援者１１の音声によって可能である。

支援者１０が要支援者１１に音声制御でオブジェクトを表示し、説明する過程を図５に示すフローチャートに従って説明する。
支援者１０は、あらかじめ想定した語彙を記述した認識辞書５０とオブジェクトを保存したオブジェクトデータベース６０から、要支援者１１のコンディション（発達段階や覚醒度や注意力）に応じて、音声により、逐次オブジェクトを表示再生する（ステップＳ１〜Ｓ７）。
さらに支援者１０の音声により、画面制御辞書５２に記述された命令に従い、オブジェクトの表示をキャンセルしたり、前に戻したり、最初に戻って再確認できる。表示画面は単一画面からｍ×ｎの分割画面まで、音声により逐次切り替えが可能である（ステップＳ９〜１１）。
表示された内容はログとしてデータ保存できる（ステップＳ８）。
この用途は、例えば、外出先の経由地や目的地、交通手段や必要金額を事前確認したり、点呼による顔写真表示で、要支援者の出欠を確認したり、３択・４択形式のクイズにおいて、随時選択肢の画像を音声で表示させながら問題を作ることができる。

ここで前記の具体例を図６により説明する。養護学校内のパーティーでジェンガという積み木崩しゲームを行う際に、誰がどういう順で行い、結果がどうなるかということは事前に予測ができない。パーティー用オブジェクト１３０に参加メンバーの顔画像と成功・失敗を表す○×画像を登録しておく。分割画面表示設定を２列１行にしておき、パーティーの進行状況にあわせて支援者が、「たくやくん」「まる」と発話すると、表示装置２に画面１３１が、「まいさん」「ばつ」と発話すると、表示画面２に画面１３２が表示される。この画像による状況説明により、音声言語や弱視、難聴といった要支援者に状況を理解する支援を行うことが可能となる。

支援者１０と要支援者１１が対話形式でストーリーを作っていく過程を図５に示すフローチャートに従って説明する。
支援者１０及び要支援者１１は、任意に想起した語彙を認識辞書５０及び認識辞書５１とオブジェクトを保存したオブジェクトデータベース６０から、ストーリーの展開に応じて音声により、逐次オブジェクトを表示再生する（ステップＳ１〜Ｓ７）。
支援者１０はストーリーの構成をイメージしながら、要支援者１１が表意意欲を持続できるようコントロールする。表示画面は多様なオブジェクトが混在するため、あらかじめ設定された表示原点からの移動・拡大縮小・表示非表示切り替えを支援者１０及び要支援者１１の音声でコントロールする（ステップＳ９〜１１）。
表示された内容はログとしてデータ保存できる（ステップＳ８）。
なお、支援者１０及び要支援者１１は、それぞれ１名とは限らず、交替で参加することも想定される。

ここで前記の具体例を図７を用いて説明する。昔話のさるかに話を例にあげる。基本的なキャラクターや背景シーンは事前にさるかにオブジェクト１３３に登録しておく。支援者が「さるのいえ」と発話すると、表示装置２に画面１３４が表示される。ここから要支援者に対してストーリーに対する関心を高めながら要支援者といっしょに登場キャラクターを考えていく。「くりがかくれる」というと栗が灰に隠れ、「うすがかくれる」というと臼が屋根に隠れ、画面１３５が表示される。このような発話は支援者、要支援者どちらからも起こりえる。次に、「くりがはじける」というと栗がはじけ、要支援者に「栗がはじけると猿はどうなるかな？」と尋ねたりして「さるがおどろく」と言えば、猿が飛び回る画面１３６が表示される。これにより、要支援者も意欲を持ってストーリーづくりに参加することができる。

本発明の音声制御スクリーンシステム１００は、各部を実現するための機能を含む音声制御方法、その各手順をコンピュータに実行させるための音声制御スクリーンプログラム、音声制御スクリーンプログラムを記録したコンピュータの読み取り可能な記録媒体、音声制御スクリーンプログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、プラズマディスプレイ等の表示装置、等により提供されることができる。また、人間の音声による制御方法以外の代替手段、例えば会話補助機の出力音声による制御方法を含む。

続いて本発明を実施するための形態を異ならせた実施例について説明をする。
なおこの実施例２で示す音声制御スクリーンシステム２００は、基本構成を上述した実施例１で示した音声制御スクリーンシステム１００の構成と同様にするものであり、以下の説明にあっては相違個所についてのみ説明を行うものとする。
図８は、本発明に関する音声制御スクリーンシステム２００の概略構成図である。音声制御スクリーンシステム２００は、コンピュータである演算処理装置１、ディスプレイである表示装置２、キーボードなどの端末３を含む。この音声制御スクリーンシステム２００は、支援者１０と要支援者（自閉症者や知的障害者、聴覚障害者など）１１の間の意思疎通を補助するためのシステムである。
演算処理装置１は、支援者１０により音声送信部２０を介して発信された音声信号を音声受信部３０で受信した後、音声認識部４２で認識し、認識結果から認識辞書５１に符合するオブジェクト（文字、静止画、連続静止画、動画、音声）をストーリーデータベース６０から検索して、これらのオブジェクトを表示装置２に出力する。

要支援者１１により音声送信部２１を介して発信された音声信号を音声受信部３１で受信した後、音声認識部４０で認識し、認識結果から認識辞書５３に符合する画像・音声・文字オブジェクトをストーリーデータベース５５から検索して、これらのオブジェクトを出力部５６を介して表示装置２に出力する。

演算処理装置１は、音声認識部４２、認識辞書５３、画面制御辞書５４及びストーリーデータベース５５を備える。
音声認識部４２は各種音響モデル４３を照合することにより、支援者１０又は要支援者１１の音声を認識する。
認識辞書５３は音声認識部４２で認識した結果を参照する。
画面制御辞書５４は音声認識５５は認識辞書５３と符合するオブジェクトを備える。

音声認識部４２は、それぞれ支援者及び要支援者の音響特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準音響モデル又は独自に作成したカスタム音響モデル（各種音響モデル４３）を選択できる。

認識辞書５３は、それぞれ支援者及び要支援者の語彙特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準認識辞書又は独自に作成したカスタム認識辞書を選択できる。

認識辞書５３は、図９に示す例のように、音声認識用のよみ、再生画像ファイル名、再生音声ファイル名、表記文字を記述する。

ストーリーデータベース５５は、認識辞書５３に記述された再生画像ファイル及び再生音声ファイルを格納する。

表示装置２は、前記演算処理装置１のストーリーデータベース５５に格納されたファイルを再生表示する。

表示装置２に表示されたオブジェクトに対して、図１０に示す画面制御辞書５２に記述された制御機能に従い、図１１に示す履歴表示、拡大、辞書表示、画面分割設定、ストーリー切替、シーン切替といった処理のいずれか又はこれらを組み合わせた処理が支援者１０及び要支援者１１の音声によって可能である。

本発明の音声制御スクリーンシステム２００は、ストーリーボード作成モジュールと主表示モジュールに大別される。
ここで前記ストーリーボードとは、ひとつのストーリーボードがひとつのファイルで、表示が予測されるオブジェクトとその表示順序・表示位置・音声認識用のよみ、併記文字、出現・消去方法、付属音声などの各種情報を記述したものである。
ストーリーボード作成モジュールは、表示が予測されるオブジェクトに適正な表示位置を登録し、音声認識用のよみや併記文字、出現・消去方法、付属音声を付与する。
一方、前記主表示モジュールは前述のように、音声による画面制御とストーリーの自在実行を行う。

ここで前記ストーリーデータベース５５に格納されるストーリーボードファイル６１の構造の一例を図１２に示す。ひとつのストーリーボードファイル６１には、ひとつのシングルシーン６２と複数のユーザシーン６３を登録できる。
シングルシーン６２は、ひとつのオブジェクトを画面全体に表示していくもので、オブジェクトを順送り表示するモードとランダムに表示するモードがある。いずれの場合も分割画面指定により、随時履歴表示が可能である。
ユーザシーン６３は、支援者がオブジェクトの配置位置や組み合わせを自由に指定できるもので、画面内の表示位置を指定したフィールド６４の分割表示を指定し、オブジェクトをランダムに表示するモードとフィールド６４内にひとつずつランダムに表示するモードがある。
ユーザシーン６３内のフィールド６４は、フィールド内のオブジェクト６５の表示位置・サイズ・出現消去方法を指定したもので、分割表示設定も可能である。各シーンに登録されるオブジェクトは、表示可能なオブジェクトの併記文字、出現消去方法、付属音声を指定したものである。

支援者１０がストーリーボード作成モジュールにより、ストーリーボードファイル６１を作成する過程を図１３、１４、１５、１６、１７、１８、１９に従って説明する。支援者１０は、初期メニュー６６より「ストーリーボード作成」を選択する。

まず、シングルシーンの作成方法を説明する。
開かれたストーリーボード作成画面７０のシングルシーン編集領域７４にあらかじめデジタルカメラ６７やビデオカメラ６９で記録されたオブジェクト６８をストーリーボード作成画面７１のように読み込む。表示属性として、ストーリーボード作成画面７２のように画面表示順設定７５、併記文字表示設定７６、履歴再生表示画面設定７７、音声認識用よみ・併記表示用文字設定７８、オブジェクト出現・消去方法設定７９、付属再生音声設定８０の各設定を行う。

ここで、画面表示手順設定７５は、オブジェクトの表示順序を自動設定にするか該音声に従いランダム設定にするかを指定する。No. タイトル表示設定７６は、オブジェクトに併記する表記文字の表示位置の指定と履歴表示の通し番号を同時に表示するか否かを指定する。履歴再生表示画面設定７７は、履歴表示の際の画面の分割パターンを指定する。音声認識用よみ・併記表示用文字設定７８は、オブジェクトを音声認識で表示させるためのひらがなとオブジェクトに併記する文字（かな漢字、カタカナ、英字、数字等）を指定する。オブジェクト出現・消去方法設定７９は、オブジェクト表示する際の出現方法として、上下左右からの移動、中心からの上下左右ワイプ等を選択し、消去方法についても同様の選択を行う。付属再生音声設定８０は、オブジェクト表示する際の同期再生音声の指定を行う。設定完了後、登録ボタン８１を押すと、ストーリーボード作成画面７３のように登録されたオブジェクト６８がプレビュー表示エリア８２にプレビューされる。

次に、ユーザシーンの作成方法を説明する。ストーリーボード作成画面８３のフィールド編集領域８６にフィールド８７をドラッグする。ドラッグにより表示位置・サイズが確定し、フィールド分割画面設定８８によりフィールド内の同時表示数が決定する。
ストーリーボード作成画面８４のようにフィールド８７に登録するオブジェクトをオブジェクト編集領域８９に読み込み、表示属性として、音声認識用よみ・併記表示用文字設定９０、オブジェクト出現・消去方法設定９１、付属再生音声設定９２の各設定を行う。
登録ボタン９３を押すと、ストーリーボード作成画面８５のように登録されたオブジェクトがプレビュー表示エリア９４にプレビューされる。

ここで、フィールド８７は分割表示設定された同一ファールド内に何回でも同じオブジェクトを表示できるモードと１回だけ表示できるモードがあり、後者は２回目の発話でオブジェクトを色枠で囲うことにより、強調表示することができる。また、オブジェクトと同様フィールド全体に対して、併記文字用文字設定や出現・消去方法設定機能を有する。フィールド８７内のオブジェクトの属性として設定される前記音声認識用よみ・併記表示用文字設定９０、オブジェクト出現・消去方法設定９１、付属再生音声設定９２の意味は、前記音声認識用よみ・併記表示用文字設定７８、オブジェクト出現・消去方法設定７９、付属再生音声設定８０と同様である。

次に支援者１０が、前述の手順に従って作成されたストーリーボードファイル６１を主表示モジュールに読み込み、開始するまでの過程を図２０、２１、２２、２３に従って説明する。
支援者１０は、初期メニュー６６より「主表示」を選択する。
開かれた主表示画面１０４の設定ボタン１２３を選択し、表示属性選択画面１０１に入る。

各種情報を表示する状態行設定１０５、入力方法設定１０６、辞書表示設定１０７、タイマー設定１０８、出力音量設定１０９、画面動作設定１１０、読み込みストーリーボードファイル指定１１１を確認・調整し、コマンド変更設定１１３を選択する。
ここで、主表示画面１０４は表示装置２にそのまま出力されるため、支援者に必用最低限度の情報を呈示するためのタスクバーを最上部に、音声以外の方法でストーリーを進行する場合を想定して、キーボード入力エリアを最下部にそれぞれ配置する。状態行設定１０５は、前記タスクバーが要支援者にとって過度な視覚刺激になる場合、色分けのみのライン表示や非表示に設定することもできる。入力方法設定１０６は、音声認識とキーボード等の端末３からの入力のどちらか一方あるいは併用を指定する。辞書表示設定１０７はストーリー進行中待機状態となっているオブジェクトに付与された音声認識用よみの一覧表の表示位置、文字サイズ及び表示順序を指定する。タイマー設定１０８は、ストーリー実行中の合計タイマーバーと割込みタイマー画面の総時間や表示方法、アラーム音の有無を指定する。出力音量設定１０９はストーリー実行中に音声オブジェクトやオブジェクトに付属設定された音声の音量を指定する。画面動作設定１１０は、オブジェクト出現時の速度、マウスポインタの表示・非表示、強調表示用色枠の枠太さを指定する。読み込みストーリーボードファイル指定１１１は、起動後直ちにストーリーを開始できるようにストーリーボードファイルの名称・保存場所とストーリー切替え時に必用な音声認識用よみを指定する。

コマンド変更設定に入り、コマンド変更設定画面１０２が表示されたら、基本コマンド１１４、補助コマンド１１５、分割画面数値１１６を確認・調整し、音声認識調整設定１１２を選択する。

ここで、基本コマンド１１４は、ストーリーを進行する上で基本となる開始、履歴再生、取り消し、モード切替、次、前、辞書表示、シーン切替の各画面制御機能に対応する音声認識よみを指定する。補助コマンド１１５は、ストーリーを進行する上で補助的な自動再生・自動停止、オブジェクト拡大、オブジェクト一時非表示、割込みタイマー画面表示、ストーリー切替、画面分割数変更、プログラム一時非表示の各画面制御機能に対応する音声認識用よみを指定する。分割画面数値１１６は履歴再生時や分割表示モードにおいて、表示するオブジェクトの配列を縦横の画面数で指定する。

音声認識調整設定に入り、音声認識調整画面１０３が表示されたら、発話区間感度（入力レベル）設定１１７、入力カットレベル設定１１８、辞書スポッティング設定１１９、辞書コンバータ設定１２０、認識率設定１２１、辞書スポッティング効果率設定１２２を確認・調整し、設定を選択すると表示属性選択画面１０１に戻る。

ここで、発話区間感度設定１１７は、音声受信部３０または音声受信部３１から音声認識部４２に入力された音声データを音声認識の対象とするか否かの判定を音量の閾値レベルによって指定する。入力カットレベル設定１１８は、音声入力レベルに対して１bit 単位でカットレベルを指定することにより、騒音下でも音声に対する相対的な騒音レベル全体を下げることができる。辞書スポッティング設定１１９は、オブジェクトに付与された音声認識用よみに相当する音声データの前後に音声があっても認識するか否かを指定する。辞書コンバータ設定１２０は、実際の発音に近似させた音声認識用よみを認識辞書５３または画面制御辞書５４に併記するか否かの指定を行う。認識率設定１２１は、音声認識部４２で行われる尤度判定の際、棄却する確率強度を指定する。辞書スポッティング効果率設定１２２は、音声認識部４２で行われるスポッティング認識尤度判定の際、棄却する確率強度を指定する。

表示属性選択画面１０１の設定（開始）を選択すると、読み込みストーリーボードファイル指定１１１に記述されたストーリーボードファイル６１を読み込んで、表示開始画面１０４が表示される。
表示開始画面１０４には前述の各種設定値を参照して、ストーリーボードファイル名１２４、シーン種別（シングルシーン／ユーザシーン）１２５、音声認識入力レベルインジケータ１２６、音声認識待機／実行インジケータ１２７、キーボード入力エリア１２９が表示される。終了時には終了ボタン１２８を選択する。

支援者１０が要支援者１１に音声でオブジェクトを表示し、説明する過程を図２４に示すフローチャートに従って説明する。支援者１０は、ストーリーボードファイル指定１１１で読み込まれたストーリーボードから記述される認識辞書５３とオブジェクトを保存したストーリーデータベース６０から、要支援者１１のコンディション（発達段階や覚醒度や注意力）に応じて、音声により、逐次オブジェクトを表示再生する（ステップＳ１〜Ｓ７）。
さらに支援者１０の音声により、画面制御辞書５４に記述された制御機能に従い、オブジェクトの表示をキャンセルしたり、前に戻したり、最初に戻って再確認できる。表示画面は単一画面からｍ×ｎの分割画面まで、音声により逐次切り替えが可能である（ステップＳ９〜１１）。表示された内容はログとしてデータ保存できる（ステップＳ８）。
また、音声認識で誤認識が生じた場合、繰り返し発話しても、同一オブジェクトが表示されることを防ぐため、認識結果が誤りであった場合、基本コマンド１１４の「キャンセル命令」により、認識辞書５３から一時的に誤認識したよみをはずし、次発話完了後に再度認識辞書５３を復元する（ステップＳ１２〜Ｓ１３）。
この用途は、例えば、外出先の経由地や目的地、交通手段や必要金額を事前確認したり、作業手順の説明で道具や動作を確認したり、グループ分けで顔画像を意図したグループエリアに表示したり、随時選択肢の画像を音声で表示させることができる。

ここで前記の具体例を図２５を用いて説明する。陶芸の作業工程を順序だてて説明する際、使用する道具や材料の画像オブジェクトと作業時の動きを模したアニメーションオブジェクトをストーリーボードファイル１３７としてストーリーデータベース５５に登録しておく。作業学習時に、支援者が「ねんど」と発話すれば粘土の画像が、「ろくろ」と発話すれば「ろくろ」の画像が表示され、「かまにいれる」と発話すると釜のふたが開いて成形した粘土を釜に入れるアニメーションが画面１３８のように表示される。全体の作業工程を振り返るため、「りすと」と発話すると、１発話目からの表示履歴が画面１３９のように表示される。

支援者１０と要支援者１１が対話形式でストーリーを作っていく過程を図２４に示すフローチャートに従って説明する。支援者１０及び要支援者１１は、任意に想起した語彙を認識辞書５０とオブジェクトを保存したストーリーデータベース６０から、ストーリーの展開に応じて音声により、逐次オブジェクトを表示再生する（ステップＳ１〜Ｓ７）。
支援者１０はストーリーの構成をイメージしながら、要支援者１１が表意意欲を持続できるようコントロールする。表示画面は多様なオブジェクトが混在するため、分割画面設定・強調表示設定・表示非表示切り替え設定を支援者１０及び要支援者１１の音声でコントロールする（ステップＳ９〜１１）。表示された履歴はログとしてデータ保存できる（ステップＳ８）。
また、音声認識で誤認識が生じた場合、繰り返し発話しても、同一オブジェクトが表示されることを防ぐため、認識結果が誤りであった場合、基本コマンド１１４の「キャンセル命令」により、認識辞書５３から一時的に誤認識したよみをはずし、次発話完了後に再度認識辞書５３を復元する（ステップＳ１２〜Ｓ１３）。
なお、支援者１０及び要支援者１１は、それぞれ１名とは限らず、交替で参加することも想定される。

ここで前記の具体例を図２６を用いて説明する。要支援者のグループ分けを自分たちの意志で行う際、メンバーの顔画像とグループのシンボル画像をストーリーボードファイル１４０としてストーリーデータベース５５に登録しておく。支援者が「いっぱんのぐるーぷ」と発話すると、１班のグループフィールドがロックされ、その表示エリアに「まいさん」「たくやくん」「かなさん」などと発話された顔画像が画面１４１のように表示される。次に、「にはんのぐるーぷ」と発話すると、２班のグループフィールドがロックされ、その表示エリアに「けんたくん」「かずやくん」「ゆみさん」などと発話された顔画像が画面１４２のように表示される。

図２７は、被験者による呈示動画に対する注視率（呈示時間に対する注視時間の比）変化の実験結果を示す図である。１０名の年長自閉症児に対して定期的に行った集団作業療法で本発明の音声制御スクリーンシステム２００を使用し、任意に抽出した３名の３回（全１０回）にわたる変化を記録した。約２ヶ月おきに記録した結果では、作業課題（うちわづくり、おべんとうづくり、ケーキづくり）に違いがあるものの、平均的に８０％以上の画面注視率を保っている。
自閉症児に対する場合、音声や模範動作による指示では注意をひくことができず、誘目性の高いデジタル画像に集中させることで予告作業内容を理解させることができる。
また、支援者にとっても音声が自閉症児に対する呈示開始合図としてのトリガーにもなり、キーボードやマウス入力操作に対する負担を軽減させることができる。

図２８は、騒音環境下における音声制御スクリーンシステム２００の辞書コンバータによる長母音削除単語の併記効果を示した図である。音声認識の被験者経験のない成人女性が等価騒音７５ｄB の人工騒音環境下で６２単語（うち長母音を含むのは３３単語）の読み上げを２回ずつ行い、２回のいずれかで認識した単語の比率を認識率とした。この結果、８７％から９１％への上昇が認められた。

図２９は、騒音環境下における音声制御スクリーンシステム２００の入力カットレベル調整による認識率上昇効果を示した図である。音声認識の被験者経験のない男性が等価騒音４０ｄB と７５ｄB の人工騒音環境下で４２単語（辞書コンバータを使用せず）の読み上げを２回ずつ行い、２回のいずれかで認識した単語の比率を認識率とした。この結果、等価騒音４０dBでは０bit （カットなし）が、等価騒音７５dBでは３bit （１／８）がそれぞれ認識率１００％に達し、騒音環境下でも入力カットレベルの調整により、高認識率の維持が可能である。

本発明の音声制御スクリーンシステム２００は、各部を実現するための機能を含む音声制御方法、その各手順をコンピュータに実行させるための音声制御スクリーンプログラム、音声制御スクリーンプログラムを記録したコンピュータの読み取り可能な記録媒体、音声制御スクリーンプログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、プラズマディスプレイ等の表示装置、ワイヤレスマイク等により提供されることができる。また、人間の音声による制御方法以外の代替手段、例えば会話補助機の合成音声による制御方法を含む。

本発明に関する音声制御スクリーンシステムの概略構成図である。認識辞書及び認識辞書のフォーマットである。画面制御辞書のフォーマットである。音声制御により変更できるオブジェクトのイメージ図である。音声制御スクリーンシステムの操作手順を示すフローチャートである。本発明の実施例１に関する説明型の事例である。本発明の実施例１に関する対話型の事例である。本発明に関する音声制御スクリーンシステムの概略構成図である。認識辞書のフォーマットである。画面制御辞書のフォーマットである。音声制御により変更できるオブジェクト・画面のイメージ図である。ストーリーボードファイルの構成図である。ストーリーボードファイルシングルシーンの作成開始状態イメージ図である。ストーリーボードファイルシングルシーンのオブジェクト読み込みイメージ図である。ストーリーボードファイルシングルシーンのオブジェクト表示属性選択イメージ図である。ストーリーボードファイルシングルシーンのオブジェクト登録イメージ図である。ストーリーボードファイルユーザシーンのフィールド設定イメージ図である。ストーリーボードファイルユーザシーンのフィールド内オブジェクト表示属性設定イメージ図である。ストーリーボードファイルユーザシーンのフィールド内オブジェクト登録イメージ図である。主表示モジュールの表示設定イメージである。主表示モジュールのコマンド設定イメージである。主表示モジュールの音声認識設定イメージである。主表示モジュールの表示開始画面イメージである。音声制御スクリーンシステムの操作手順を示すフローチャートである。本発明の実施例２に関する説明型の事例である。本発明の実施例２に関する対話型の事例である。要支援者の画面注視率実験結果である。音声認識辞書コンバータの利用効果実験結果である。入力レベルカットによる音声認識率比較実験結果である。

符号の説明

１演算処理装置
２表示装置
３端末
１０支援者
１１要支援者
２０音声送信部（支援者用）
２１音声送信部（要支援者用）
３０音声受信部（支援者用）
３１音声受信部（要支援者用）
４０音声認識部（支援者用）
４１音声認識部（支援者用）
４２音声認識部
４３各種音響モデル
５０認識辞書（支援者用）
５１認識辞書（要支援者用）
５２画面制御辞書
５３認識辞書
５４画面制御辞書
５５ストーリーデータベース
５６出力部
６０オブジェクトデータベース
６１ストーリーボードファイル
６２シングルシーン
６３ユーザシーン
６４フィールド
６５オブジェクト
６６初期メニュー
６７デジタルカメラ
６８オブジェクト（動画）
６９ビデオカメラ
７０ストーリーボード作成画面（シングルシーン開始）
７１ストーリーボード作成画面（オブジェクト読み込み）
７２ストーリーボード作成画面（オブジェクト属性設定）
７３ストーリーボード作成画面（オブジェクト登録）
７４ストーリーボードシングルシーン編集領域
７５ストーリーボード画面表示手順設定
７６ストーリーボード併記文字表示設定
７７ストーリーボード履歴再生表示画面設定
７８ストーリーボードオブジェクト音声認識用よみ・併記表示用文字設定
７９ストーリーボードオブジェクト出現・消去方法設定
８０ストーリーボードオブジェクト付属再生音声設定
８１ストーリーボードオブジェクト登録ボタン
８２ストーリーボードオブジェクトプレビュー表示エリア
８３ストーリーボード作成画面（ユーザシーン開始）
８４ストーリーボード作成画面（フィールド内オブジェクト属性設定）
８５ストーリーボード作成画面（フィールド内オブジェクト登録）
８６ストーリーボードフィールド編集領域
８７ストーリーボードフィールド
８８ストーリーボードフィールド分割画面設定
８９ストーリーボードオブジェクト編集領域
９０ストーリーボードフィールド内オブジェクト音声認識用よみ・併記表示用文字設定
９１ストーリーボードフィールド内オブジェクト出現・消去方法設定
９２ストーリーボードフィールド内オブジェクト付属再生音声設定
９３ストーリーボードフィールド内オブジェクト登録ボタン
９４ストーリーボードフィールド内オブジェクトプレビュー表示エリア
１００音声制御スクリーンシステム
１０１主表示表示属性選択画面
１０２主表示コマンド設定画面
１０３主表示音声認識設定画面
１０４主表示開始画面
１０５主表示状態行設定
１０６主表示入力方法設定
１０７主表示辞書表示設定
１０８主表示タイマー設定
１０９主表示出力音量設定
１１０主表示画面動作設定
１１１主表示読み込みストーリーボードファイル指定
１１２主表示音声認識調整設定
１１３主表示コマンド変更設定
１１４主表示基本コマンド
１１５主表示補助コマンド
１１６主表示分割画面数値
１１７主表示音声認識発話区間感度設定
１１８主表示音声認識入力カットレベル設定
１１９主表示音声認識辞書スポッティング設定
１２０主表示音声認識辞書コンバータ設定
１２１主表示音声認識認識率設定
１２２主表示音声認識辞書スポッティング効果率設定
１２３主表示設定ボタン
１２４主表示ストーリーボードファイル名
１２５主表示ストーリーボードシーン種別名
１２６主表示音声認識入力レベルインジケータ
１２７主表示音声認識待機／実行インジケータ
１２８主表示終了ボタン
１２９主表示キーボード入力エリア
１３０実施例１のパーティー用オブジェクト
１３１実施例１のパーティー表示画面例
１３２実施例１のパーティー表示画面例
１３３実施例１のさるかに話用オブジェクト
１３４実施例１のさるかに話表示画面例
１３５実施例１のさるかに話表示画面例
１３６実施例１のさるかに話表示画面例
１３７実施例２の陶芸用ストーリーボード
１３８実施例２の陶芸表示画面例
１３９実施例２の陶芸表示画面例
１４０実施例２のグループ分けストーリーボード
１４１実施例２のグループ分け画面表示例
１４２実施例２のグループ分け画面表示例
２００音声制御スクリーンシステム

Claims

支援者と要支援者又は要支援者と要支援者の意思疎通を補助するための音声制御スクリーンシステムであって、マイクを通して入力された音声を認識し、文字情報に変換して画像及び音声を出力する演算処理装置と、前記文字情報及び画像及び音声を表示再生する表示装置とを備え、前記演算処理装置は、無線による該音声を受信する音声受信部と該音声受信部から入力された音声を認識辞書と照合して認識するための音声認識部と前記表示装置に出力する出力部とを有することを特徴とする音声制御スクリーンシステム。
前記表示装置に表示される画像は、前記音声認識部で認識した音声命令語により、端末に触れることなく、該音声を画面制御辞書と照合して逐次表示処理又は非表示処理又は表示位置調整処理又は表示サイズ調整処理又は表示履歴再生処理又は認識辞書切替処理のいずれか又はこれらを組み合わせた処理を行えるようにしたことを特徴とする請求項１記載の音声制御スクリーンシステム。
前記認識辞書に登録されるかな表記は、支援者又は要支援者が登録時に画像及び音声にリンクした文字情報として入力されるコードであるが、実際の発音は必ずしもかな表記と同じ発音にはならないため、前記音声認識部で最尤となる発音に近似したかな表記コンバータを用いて併記する処理を行えるようにしたことを特徴とする請求項１または２記載の音声制御スクリーンシステム。
前記音声認識部が、該音声受信部に入力された音声に環境騒音が混入することにより認識率が低下することを防ぐため、あらかじめ周囲の騒音レベルに応じて混入する騒音レベルが騒音と見なされない閾値まで該音声レベル全体を引き下げることにより、認識率の低下を防止したことを特徴とする請求項１、２または３記載の音声制御スクリーンシステム。
前記認識辞書部は、必ずしも発話者の意図したかな表記が最尤とならずに誤認識する場合もあるため、誤認識をキャンセルした際、誤認識したかな表記を一時的に認識辞書からはずし、第２尤度であったかな表記を最尤として、誤認識の繰りかえしを防止したことを特徴とする請求項１、２、３または４記載の音声制御スクリーンシステム。
前記音声認識部及び認識辞書部及び画面制御辞書部は音声不明瞭な要支援者であっても、本人の発話録音データとの照合により、少語彙での認識処理が可能な音声認識部を有することを特徴とする請求項１、２、３または４記載の音声制御スクリーンシステム。