JP2005189846A - 音声制御スクリーンシステム - Google Patents

音声制御スクリーンシステム Download PDF

Info

Publication number
JP2005189846A
JP2005189846A JP2004348007A JP2004348007A JP2005189846A JP 2005189846 A JP2005189846 A JP 2005189846A JP 2004348007 A JP2004348007 A JP 2004348007A JP 2004348007 A JP2004348007 A JP 2004348007A JP 2005189846 A JP2005189846 A JP 2005189846A
Authority
JP
Japan
Prior art keywords
voice
recognition
display
supporter
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004348007A
Other languages
English (en)
Inventor
Sadahiko Sano
佐野禎彦
Tetsuya Tatara
多々良哲也
Tatsuhiko Uchiyama
内山辰彦
Tadahiko Miyamoto
宮本忠彦
Kenichi Kamoshita
鴨下賢一
Mayumi Tachibana
立花真由美
Shinji Tashiro
田代眞二
Tomohiro Sakurai
桜井智洋
Hisashi Sukegawa
助川尚志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IHM KK
Shizuoka Prefecture
Original Assignee
IHM KK
Shizuoka Prefecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IHM KK, Shizuoka Prefecture filed Critical IHM KK
Priority to JP2004348007A priority Critical patent/JP2005189846A/ja
Publication of JP2005189846A publication Critical patent/JP2005189846A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】支援者が要支援者に説明する内容を音声に同期させて、理解しやすい視覚情報で呈示し、要支援者も自らの音声で視覚情報を呈示することで、要支援者への理解支援と表意意欲の喚起を行う。
【解決手段】音声制御スクリーンシステム200は、コンピュータである演算処理装置1、ディスプレイである表示装置2、入力装置である端末3を含む。この音声制御スクリーンシステム200は、支援者10と要支援者11の間の意思疎通を補助するためのシステムである。演算処理装置1は、支援者10又は要支援者11により音声送信部20又は音声送信部21を介して発信された音声信号を音声受信部30又は音声受信部31で受信した後音声認識部42で認識し、認識結果から認識辞書53に符合する画像・音声・文字オブジェクトをストーリーデータベース55から検索して、これらのオブジェクトを表示装置2に出力する。
【選択図】 図8

Description

本発明は、音声言語の理解に障害を有した要支援者とその支援者との間で意思疎通を円滑にはかるための支援システムとそのソフトウエアに関するものである。
医療機関や養護学校や福祉施設では、支援者があらかじめ説明する内容を紙に描いた絵シンボルやかなカードで用意しておき、スケジュール内容や作業手順を可視化して、要支援者に提示する方法が一般的である。また、最近ではコンピュータ上に登録した可視化素材をプレゼンテーションソフトウエアで再生する支援方法も普及し始めている。聴覚障害者を対象にした同様の支援では、話者の講話内容を別の支援者が復唱し、音声認識で字幕表示する方法が開発されている(特許文献1参照)。
特開2002−268667
しかしながら、上述の手法では、支援者が多くのカードを準備することは困難で、想定外のカードまで手元に準備するわけにはいかず、予定内の範囲で説明をまとめざるを得ない。さらに要支援者にとって動きのある表現や感情及び物事の性質といった抽象的な概念を理解することは絵カードレベルでは困難である。例えば抽象概念が形成されていない重度の知的障害や自閉症者の場合、「走る」という意味の静止画を見せるより実際の動画を見せた方が走る動作を習得しやすい。
また、支援者がプレゼンテーションソフトウエアを使用する場合でも、動画を扱えるといったメリットは加わるが、あらかじめ用意したシナリオに沿って説明を進めていくことしかできない。
一方、要支援者の側から見ると、事前準備されたシナリオに沿って話を理解することは問題ないものの、支援者側からの一方的な展開であり、本人の関与によって状況が変化することは考えにくい。そのような状況下では、平常時から音声言語主体の説明に興味を持ちにくい要支援者にとって、表意意欲の上がらない結果となる。
そこで本発明者らは、こうした課題に共通した支援技術として音声認識技術に着目した。近年の音声認識技術は、大語彙言語モデル、耐雑音性、不特定話者対応、話者属性別音響モデル、話者認証、キーワードスポッティング、分散処理といったコア技術を確立しており、携帯電話やカーナビへの移植が進んでいる。本発明者らは、上述の問題点をワイヤレス音声認識技術で解決し、支援者が要支援者のコンディションに応じた柔軟な対応を可能にすることと要支援者の理解度向上だけでなく、表意意欲を引き出すことにあり、その支援システムとソフトウエアを提供することを可能にした音声制御スクリーンシステムを開発し、既に特許出願に及んでいる(特願2003−406631)。
しかしながら、現在の音声認識技術は騒音に弱く、実際の騒音下で学習された音響モデルでなければ十分な性能を発揮しない。また通常、誤認識した結果は外部から修正を加えない限り、自律的に学習して認識率を上げていくことはできない。さらに、不特定話者対応といえども、平均的な音響特徴から大きくはずれた話者や、障害により音声が不明瞭な話者には音声認識技術は大きな障壁となっている等、改善の余地があった。
請求項1記載の音声制御スクリーンは、支援者と要支援者又は要支援者と要支援者の意思疎通を補助するための音声制御スクリーンシステムであって、マイクを通して入力された音声を認識し、文字情報に変換して画像及び音声を出力する演算処理装置と、前記文字情報及び画像及び音声を表示再生する表示装置とを備え、前記演算処理装置は、無線による該音声を受信する音声受信部と該音声受信部から入力された音声を認識辞書と照合して認識するための音声認識部と前記表示装置に出力する出力部とを有することを特徴として成るものである。
この発明によれば、支援者と要支援者又は要支援者と要支援者が意思疎通を図りながら、画像又は音声又は文字を、事前に表示順序を規定することなく、任意の該音声を認識辞書及び画面制御辞書と照合して逐次検索され、当該画像及び音声及び文字が表示及び変更される。
また請求項2記載の音声制御スクリーンは前記要件に加え、前記表示装置に表示される画像は、前記音声認識部で認識した音声命令語により、端末に触れることなく、該音声を画面制御辞書と照合して逐次表示処理又は非表示処理又は表示位置調整処理又は表示サイズ調整処理又は表示履歴再生処理又は認識辞書切替処理のいずれか又はこれらを組み合わせた処理を行えるようにしたことを特徴として成るものである。
この発明によれば、支援者は、話の構成や要支援者の状況を随時考えながら、画面の表示状態を制御することができる。
更にまた請求項3記載の音声制御スクリーンは前記要件に加え、前記認識辞書に登録されるかな表記は、支援者又は要支援者が登録時に画像及び音声にリンクした文字情報として入力されるコードであるが、実際の発音は必ずしもかな表記と同じ発音にはならないため、前記音声認識部で最尤となる発音に近似したかな表記になるようコンバータを用いて併記する処理を行えるようにしたことを特徴として成るものである。
この発明によれば、支援者と要支援者はかな表記のような正確な発音でなくても、日常の話し言葉で音声を認識させることができる。
更にまた請求項4記載の音声制御スクリーンは前記要件に加え、前記音声認識部が、該音声受信部に入力された音声に環境騒音が混入することにより認識率が低下することを防ぐため、あらかじめ周囲の騒音レベルに応じて混入する騒音レベルが騒音と見なされない閾値まで該音声レベル全体を引き下げることにより、認識率の低下を防止したことをとして成るものである。
この発明によれば、音声認識という入力手段において、最も大きな障壁となっている騒音対策として、騒音下で低下する長母音を含む単語に対して、長母音を削除した単語を自動併記することと、騒音により発話区間感度の検出が困難になることを入力音声レベル全体を引き下げることで解決することができる。
更にまた請求項5記載の音声制御スクリーンは前記要件に加え、前記認識辞書部は、必ずしも発話者の意図した文字情報が最尤とならずに誤認識する場合もあるため、誤認識をキャンセルした際、誤認識した文字情報を一時的に認識辞書からはずし、第2尤度であった文字情報を繰り上げて、誤認識の繰りかえしを防止したことを特徴として成るものである。
この発明によれば、音声認識という入力手段において、もうひとつの障壁となっている話者の標準からはずれた音響特性や障害による不明瞭音声に対して、話者自身の音声を事前に辞書数だけ識別可能となるよう事前登録することで、実行時に照合可能とすることができる。
更にまた請求項6記載の音声制御スクリーンは前記要件に加え、前記認識辞書部は、前記音声認識部及び認識辞書部及び画面制御辞書部は音声不明瞭な要支援者であっても、本人の発話録音データとの照合により、少語彙での認識処理が可能な音声認識部を有することを特徴として成るものである。
この発明によれば、音声不明瞭な要支援者であっても明瞭な要支援者と同様に支援者との対話により、自らの音声で表示内容を変えていくことで表意意欲を上げることができる。
そしてこれら各請求項記載の発明の構成を手段として、前記課題の解決が図られる。
本発明によると、以上説明した通り、支援者が音声に同期させて、絵カード等の非電子媒体では不可能な動画像・音声を要支援者に呈示することで、要支援者の注意を引きつけながら、説明に対する理解の補助を行うができる。また、本発明は、要支援者が自らの音声により視聴覚環境をダイナミックに変化させることで、表意意欲を喚起することができる。
以下本発明を実施するための最良の形態について、二種の実施例に基づいて説明するものであるが、これらの実施例に対して、本発明の技術的思想の範囲内において適宜変更を加えることも可能である。
図1は、本発明に関する音声制御スクリーンシステム100の概略構成図である。音声制御スクリーンシステム100は、コンピュータである演算処理装置1、ディスプレイである表示装置2、キーボードなどの端末3を含む。この音声制御スクリーンシステム100は、支援者10と要支援者(高齢者や知的障害者、聴覚障害者など)11の間の意思疎通を補助するためのシステムである。
演算処理装置1は、支援者10により音声送信部20を介して発信された音声信号を音声受信部30で受信した後、音声認識部40で認識し、認識結果から認識辞書50に符合する画像・音声・文字オブジェクトをオブジェクトデータベース60から検索して、これらのオブジェクトを表示装置2に出力する。
要支援者11により音声送信部21を介して発信された音声信号を音声受信部31で受信した後、音声認識部41で認識し、認識結果から認識辞書51に符合する画像・音声・文字オブジェクトをオブジェクトデータベース60から検索して、これらのオブジェクトを表示装置2に出力する。
演算処理装置1は、音声認識部40、音声認識部41、認識辞書50、認識辞書51及びオブジェクトデータベース60を備える。音声認識部40は支援者10の音声を認識し、音声認識部41は要支援者11の音声を認識する。
認識辞書50は音声認識部40で認識した結果を参照する。
認識辞書51は音声認識部41で認識した結果を参照する。
オブジェクトデータベース60は認識辞書50又は認識辞書51と符合するデータを備える。
音声認識部40及び音声認識部41は、それぞれ支援者及び要支援者の音響特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準音響モデル又は独自に作成したカスタム音響モデルを選択できる。
認識辞書50及び認識辞書51は、それぞれ支援者及び要支援者の語彙特性において、例えば成人用、高齢者用、子ども用といった属性別の標準認識辞書又は独自に作成したカスタム認識辞書を選択できる。
認識辞書50及び認識辞書51は、図2に示す例のように、認識語彙のよみ、再生画像ファイル名、再生音声ファイル名、表記文字を記述する。
オブジェクトデータベース60は、認識辞書50又は認識辞書51に記述されたファイルを格納する。
表示装置2は、前記演算処理装置1のオブジェクトデータベース60に格納されたファイルを再生表示する。
表示装置2に表示されたオブジェクトは、図3に示す画面制御辞書52に記述された命令に従い、図4に示す移動方向指定、移動量指定、移動軌跡指定、拡大率指定、再生指定、点滅指定、停止指定、消去指定といった処理のいずれか又はこれらを組み合わせた処理が支援者10及び要支援者11の音声によって可能である。
支援者10が要支援者11に音声制御でオブジェクトを表示し、説明する過程を図5に示すフローチャートに従って説明する。
支援者10は、あらかじめ想定した語彙を記述した認識辞書50とオブジェクトを保存したオブジェクトデータベース60から、要支援者11のコンディション(発達段階や覚醒度や注意力)に応じて、音声により、逐次オブジェクトを表示再生する(ステップS1〜S7)。
さらに支援者10の音声により、画面制御辞書52に記述された命令に従い、オブジェクトの表示をキャンセルしたり、前に戻したり、最初に戻って再確認できる。表示画面は単一画面からm×nの分割画面まで、音声により逐次切り替えが可能である(ステップS9〜11)。
表示された内容はログとしてデータ保存できる(ステップS8)。
この用途は、例えば、外出先の経由地や目的地、交通手段や必要金額を事前確認したり、点呼による顔写真表示で、要支援者の出欠を確認したり、3択・4択形式のクイズにおいて、随時選択肢の画像を音声で表示させながら問題を作ることができる。
ここで前記の具体例を図6により説明する。養護学校内のパーティーでジェンガという積み木崩しゲームを行う際に、誰がどういう順で行い、結果がどうなるかということは事前に予測ができない。パーティー用オブジェクト130に参加メンバーの顔画像と成功・失敗を表す○×画像を登録しておく。分割画面表示設定を2列1行にしておき、パーティーの進行状況にあわせて支援者が、「たくやくん」「まる」と発話すると、表示装置2に画面131が、「まいさん」「ばつ」と発話すると、表示画面2に画面132が表示される。この画像による状況説明により、音声言語や弱視、難聴といった要支援者に状況を理解する支援を行うことが可能となる。
支援者10と要支援者11が対話形式でストーリーを作っていく過程を図5に示すフローチャートに従って説明する。
支援者10及び要支援者11は、任意に想起した語彙を認識辞書50及び認識辞書51とオブジェクトを保存したオブジェクトデータベース60から、ストーリーの展開に応じて音声により、逐次オブジェクトを表示再生する(ステップS1〜S7)。
支援者10はストーリーの構成をイメージしながら、要支援者11が表意意欲を持続できるようコントロールする。表示画面は多様なオブジェクトが混在するため、あらかじめ設定された表示原点からの移動・拡大縮小・表示非表示切り替えを支援者10及び要支援者11の音声でコントロールする(ステップS9〜11)。
表示された内容はログとしてデータ保存できる(ステップS8)。
なお、支援者10及び要支援者11は、それぞれ1名とは限らず、交替で参加することも想定される。
ここで前記の具体例を図7を用いて説明する。昔話のさるかに話を例にあげる。基本的なキャラクターや背景シーンは事前にさるかにオブジェクト133に登録しておく。支援者が「さるのいえ」と発話すると、表示装置2に画面134が表示される。ここから要支援者に対してストーリーに対する関心を高めながら要支援者といっしょに登場キャラクターを考えていく。「くりがかくれる」というと栗が灰に隠れ、「うすがかくれる」というと臼が屋根に隠れ、画面135が表示される。このような発話は支援者、要支援者どちらからも起こりえる。次に、「くりがはじける」というと栗がはじけ、要支援者に「栗がはじけると猿はどうなるかな?」と尋ねたりして「さるがおどろく」と言えば、猿が飛び回る画面136が表示される。これにより、要支援者も意欲を持ってストーリーづくりに参加することができる。
本発明の音声制御スクリーンシステム100は、各部を実現するための機能を含む音声制御方法、その各手順をコンピュータに実行させるための音声制御スクリーンプログラム、音声制御スクリーンプログラムを記録したコンピュータの読み取り可能な記録媒体、音声制御スクリーンプログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、プラズマディスプレイ等の表示装置、等により提供されることができる。また、人間の音声による制御方法以外の代替手段、例えば会話補助機の出力音声による制御方法を含む。
続いて本発明を実施するための形態を異ならせた実施例について説明をする。
なおこの実施例2で示す音声制御スクリーンシステム200は、基本構成を上述した実施例1で示した音声制御スクリーンシステム100の構成と同様にするものであり、以下の説明にあっては相違個所についてのみ説明を行うものとする。
図8は、本発明に関する音声制御スクリーンシステム200の概略構成図である。音声制御スクリーンシステム200は、コンピュータである演算処理装置1、ディスプレイである表示装置2、キーボードなどの端末3を含む。この音声制御スクリーンシステム200は、支援者10と要支援者(自閉症者や知的障害者、聴覚障害者など)11の間の意思疎通を補助するためのシステムである。
演算処理装置1は、支援者10により音声送信部20を介して発信された音声信号を音声受信部30で受信した後、音声認識部42で認識し、認識結果から認識辞書51に符合するオブジェクト(文字、静止画、連続静止画、動画、音声)をストーリーデータベース60から検索して、これらのオブジェクトを表示装置2に出力する。
要支援者11により音声送信部21を介して発信された音声信号を音声受信部31で受信した後、音声認識部40で認識し、認識結果から認識辞書53に符合する画像・音声・文字オブジェクトをストーリーデータベース55から検索して、これらのオブジェクトを出力部56を介して表示装置2に出力する。
演算処理装置1は、音声認識部42、認識辞書53、画面制御辞書54及びストーリーデータベース55を備える。
音声認識部42は各種音響モデル43を照合することにより、支援者10又は要支援者11の音声を認識する。
認識辞書53は音声認識部42で認識した結果を参照する。
画面制御辞書54は音声認識55は認識辞書53と符合するオブジェクトを備える。
音声認識部42は、それぞれ支援者及び要支援者の音響特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準音響モデル又は独自に作成したカスタム音響モデル(各種音響モデル43)を選択できる。
認識辞書53は、それぞれ支援者及び要支援者の語彙特性において、例えば成人男性用、成人女性用、高齢者用、子ども用といった属性別の標準認識辞書又は独自に作成したカスタム認識辞書を選択できる。
認識辞書53は、図9に示す例のように、音声認識用のよみ、再生画像ファイル名、再生音声ファイル名、表記文字を記述する。
ストーリーデータベース55は、認識辞書53に記述された再生画像ファイル及び再生音声ファイルを格納する。
表示装置2は、前記演算処理装置1のストーリーデータベース55に格納されたファイルを再生表示する。
表示装置2に表示されたオブジェクトに対して、図10に示す画面制御辞書52に記述された制御機能に従い、図11に示す履歴表示、拡大、辞書表示、画面分割設定、ストーリー切替、シーン切替といった処理のいずれか又はこれらを組み合わせた処理が支援者10及び要支援者11の音声によって可能である。
本発明の音声制御スクリーンシステム200は、ストーリーボード作成モジュールと主表示モジュールに大別される。
ここで前記ストーリーボードとは、ひとつのストーリーボードがひとつのファイルで、表示が予測されるオブジェクトとその表示順序・表示位置・音声認識用のよみ、併記文字、出現・消去方法、付属音声などの各種情報を記述したものである。
ストーリーボード作成モジュールは、表示が予測されるオブジェクトに適正な表示位置を登録し、音声認識用のよみや併記文字、出現・消去方法、付属音声を付与する。
一方、 前記主表示モジュールは前述のように、音声による画面制御とストーリーの自在実行を行う。
ここで前記ストーリーデータベース55に格納されるストーリーボードファイル61の構造の一例を図12に示す。ひとつのストーリーボードファイル61には、ひとつのシングルシーン62と複数のユーザシーン63を登録できる。
シングルシーン62は、ひとつのオブジェクトを画面全体に表示していくもので、オブジェクトを順送り表示するモードとランダムに表示するモードがある。いずれの場合も分割画面指定により、随時履歴表示が可能である。
ユーザシーン63は、支援者がオブジェクトの配置位置や組み合わせを自由に指定できるもので、画面内の表示位置を指定したフィールド64の分割表示を指定し、オブジェクトをランダムに表示するモードとフィールド64内にひとつずつランダムに表示するモードがある。
ユーザシーン63内のフィールド64は、フィールド内のオブジェクト65の表示位置・サイズ・出現消去方法を指定したもので、分割表示設定も可能である。各シーンに登録されるオブジェクトは、表示可能なオブジェクトの併記文字、出現消去方法、付属音声を指定したものである。
支援者10がストーリーボード作成モジュールにより、ストーリーボードファイル61を作成する過程を図13、14、15、16、17、18、19に従って説明する。支援者10は、初期メニュー66より「ストーリーボード作成」を選択する。
まず、シングルシーンの作成方法を説明する。
開かれたストーリーボード作成画面70のシングルシーン編集領域74にあらかじめデジタルカメラ67やビデオカメラ69で記録されたオブジェクト68をストーリーボード作成画面71のように読み込む。表示属性として、ストーリーボード作成画面72のように画面表示順設定75、併記文字表示設定76、履歴再生表示画面設定77、音声認識用よみ・併記表示用文字設定78、オブジェクト出現・消去方法設定79、付属再生音声設定80の各設定を行う。
ここで、画面表示手順設定75は、オブジェクトの表示順序を自動設定にするか該音声に従いランダム設定にするかを指定する。No. タイトル表示設定76は、オブジェクトに併記する表記文字の表示位置の指定と履歴表示の通し番号を同時に表示するか否かを指定する。履歴再生表示画面設定77は、履歴表示の際の画面の分割パターンを指定する。音声認識用よみ・併記表示用文字設定78は、オブジェクトを音声認識で表示させるためのひらがなとオブジェクトに併記する文字(かな漢字、カタカナ、英字、数字等)を指定する。オブジェクト出現・消去方法設定79は、オブジェクト表示する際の出現方法として、上下左右からの移動、中心からの上下左右ワイプ等を選択し、消去方法についても同様の選択を行う。付属再生音声設定80は、オブジェクト表示する際の同期再生音声の指定を行う。設定完了後、登録ボタン81を押すと、ストーリーボード作成画面73のように登録されたオブジェクト68がプレビュー表示エリア82にプレビューされる。
次に、ユーザシーンの作成方法を説明する。ストーリーボード作成画面83のフィールド編集領域86にフィールド87をドラッグする。ドラッグにより表示位置・サイズが確定し、フィールド分割画面設定88によりフィールド内の同時表示数が決定する。
ストーリーボード作成画面84のようにフィールド87に登録するオブジェクトをオブジェクト編集領域89に読み込み、表示属性として、音声認識用よみ・併記表示用文字設定90、オブジェクト出現・消去方法設定91、付属再生音声設定92の各設定を行う。
登録ボタン93を押すと、ストーリーボード作成画面85のように登録されたオブジェクトがプレビュー表示エリア94にプレビューされる。
ここで、フィールド87は分割表示設定された同一ファールド内に何回でも同じオブジェクトを表示できるモードと1回だけ表示できるモードがあり、後者は2回目の発話でオブジェクトを色枠で囲うことにより、強調表示することができる。また、オブジェクトと同様フィールド全体に対して、併記文字用文字設定や出現・消去方法設定機能を有する。フィールド87内のオブジェクトの属性として設定される前記音声認識用よみ・併記表示用文字設定90、オブジェクト出現・消去方法設定91、付属再生音声設定92の意味は、前記音声認識用よみ・併記表示用文字設定78、オブジェクト出現・消去方法設定79、付属再生音声設定80と同様である。
次に支援者10が、前述の手順に従って作成されたストーリーボードファイル61を主表示モジュールに読み込み、開始するまでの過程を図20、21、22、23に従って説明する。
支援者10は、初期メニュー66より「主表示」を選択する。
開かれた主表示画面104の設定ボタン123を選択し、表示属性選択画面101に入る。
各種情報を表示する状態行設定105、入力方法設定106、辞書表示設定107、タイマー設定108、出力音量設定109、画面動作設定110、読み込みストーリーボードファイル指定111を確認・調整し、コマンド変更設定113を選択する。
ここで、主表示画面104は表示装置2にそのまま出力されるため、支援者に必用最低限度の情報を呈示するためのタスクバーを最上部に、音声以外の方法でストーリーを進行する場合を想定して、キーボード入力エリアを最下部にそれぞれ配置する。状態行設定105は、前記タスクバーが要支援者にとって過度な視覚刺激になる場合、色分けのみのライン表示や非表示に設定することもできる。入力方法設定106は、音声認識とキーボード等の端末3からの入力のどちらか一方あるいは併用を指定する。辞書表示設定107はストーリー進行中待機状態となっているオブジェクトに付与された音声認識用よみの一覧表の表示位置、文字サイズ及び表示順序を指定する。タイマー設定108は、ストーリー実行中の合計タイマーバーと割込みタイマー画面の総時間や表示方法、アラーム音の有無を指定する。出力音量設定109はストーリー実行中に音声オブジェクトやオブジェクトに付属設定された音声の音量を指定する。画面動作設定110は、オブジェクト出現時の速度、マウスポインタの表示・非表示、強調表示用色枠の枠太さを指定する。読み込みストーリーボードファイル指定111は、起動後直ちにストーリーを開始できるようにストーリーボードファイルの名称・保存場所とストーリー切替え時に必用な音声認識用よみを指定する。
コマンド変更設定に入り、コマンド変更設定画面102が表示されたら、基本コマンド114、補助コマンド115、分割画面数値116を確認・調整し、音声認識調整設定112を選択する。
ここで、基本コマンド114は、ストーリーを進行する上で基本となる開始、履歴再生、取り消し、モード切替、次、前、辞書表示、シーン切替の各画面制御機能に対応する音声認識よみを指定する。補助コマンド115は、ストーリーを進行する上で補助的な自動再生・自動停止、オブジェクト拡大、オブジェクト一時非表示、割込みタイマー画面表示、ストーリー切替、画面分割数変更、プログラム一時非表示の各画面制御機能に対応する音声認識用よみを指定する。分割画面数値116は履歴再生時や分割表示モードにおいて、表示するオブジェクトの配列を縦横の画面数で指定する。
音声認識調整設定に入り、音声認識調整画面103が表示されたら、発話区間感度(入力レベル)設定117、入力カットレベル設定118、辞書スポッティング設定119、辞書コンバータ設定120、認識率設定121、辞書スポッティング効果率設定122を確認・調整し、設定を選択すると表示属性選択画面101に戻る。
ここで、発話区間感度設定117は、音声受信部30または音声受信部31から音声認識部42に入力された音声データを音声認識の対象とするか否かの判定を音量の閾値レベルによって指定する。入力カットレベル設定118は、音声入力レベルに対して1bit 単位でカットレベルを指定することにより、騒音下でも音声に対する相対的な騒音レベル全体を下げることができる。辞書スポッティング設定119は、オブジェクトに付与された音声認識用よみに相当する音声データの前後に音声があっても認識するか否かを指定する。辞書コンバータ設定120は、実際の発音に近似させた音声認識用よみを認識辞書53または画面制御辞書54に併記するか否かの指定を行う。認識率設定121は、音声認識部42で行われる尤度判定の際、棄却する確率強度を指定する。辞書スポッティング効果率設定122は、音声認識部42で行われるスポッティング認識尤度判定の際、棄却する確率強度を指定する。
表示属性選択画面101の設定(開始)を選択すると、読み込みストーリーボードファイル指定111に記述されたストーリーボードファイル61を読み込んで、表示開始画面104が表示される。
表示開始画面104には前述の各種設定値を参照して、ストーリーボードファイル名124、シーン種別(シングルシーン/ユーザシーン)125、音声認識入力レベルインジケータ126、音声認識待機/実行インジケータ127、キーボード入力エリア129が表示される。終了時には終了ボタン128を選択する。
支援者10が要支援者11に音声でオブジェクトを表示し、説明する過程を図24に示すフローチャートに従って説明する。支援者10は、ストーリーボードファイル指定111で読み込まれたストーリーボードから記述される認識辞書53とオブジェクトを保存したストーリーデータベース60から、要支援者11のコンディション(発達段階や覚醒度や注意力)に応じて、音声により、逐次オブジェクトを表示再生する(ステップS1〜S7)。
さらに支援者10の音声により、画面制御辞書54に記述された制御機能に従い、オブジェクトの表示をキャンセルしたり、前に戻したり、最初に戻って再確認できる。表示画面は単一画面からm×nの分割画面まで、音声により逐次切り替えが可能である(ステップS9〜11)。表示された内容はログとしてデータ保存できる(ステップS8)。
また、音声認識で誤認識が生じた場合、繰り返し発話しても、同一オブジェクトが表示されることを防ぐため、認識結果が誤りであった場合、基本コマンド114の「キャンセル命令」により、認識辞書53から一時的に誤認識したよみをはずし、次発話完了後に再度認識辞書53を復元する(ステップS12〜S13)。
この用途は、例えば、外出先の経由地や目的地、交通手段や必要金額を事前確認したり、作業手順の説明で道具や動作を確認したり、グループ分けで顔画像を意図したグループエリアに表示したり、随時選択肢の画像を音声で表示させることができる。
ここで前記の具体例を図25を用いて説明する。陶芸の作業工程を順序だてて説明する際、使用する道具や材料の画像オブジェクトと作業時の動きを模したアニメーションオブジェクトをストーリーボードファイル137としてストーリーデータベース55に登録しておく。作業学習時に、支援者が「ねんど」と発話すれば粘土の画像が、「ろくろ」と発話すれば「ろくろ」の画像が表示され、「かまにいれる」と発話すると釜のふたが開いて成形した粘土を釜に入れるアニメーションが画面138のように表示される。全体の作業工程を振り返るため、「りすと」と発話すると、1発話目からの表示履歴が画面139のように表示される。
支援者10と要支援者11が対話形式でストーリーを作っていく過程を図24に示すフローチャートに従って説明する。支援者10及び要支援者11は、任意に想起した語彙を認識辞書50とオブジェクトを保存したストーリーデータベース60から、ストーリーの展開に応じて音声により、逐次オブジェクトを表示再生する(ステップS1〜S7)。
支援者10はストーリーの構成をイメージしながら、要支援者11が表意意欲を持続できるようコントロールする。表示画面は多様なオブジェクトが混在するため、分割画面設定・強調表示設定・表示非表示切り替え設定を支援者10及び要支援者11の音声でコントロールする(ステップS9〜11)。表示された履歴はログとしてデータ保存できる(ステップS8)。
また、音声認識で誤認識が生じた場合、繰り返し発話しても、同一オブジェクトが表示されることを防ぐため、認識結果が誤りであった場合、基本コマンド114の「キャンセル命令」により、認識辞書53から一時的に誤認識したよみをはずし、次発話完了後に再度認識辞書53を復元する(ステップS12〜S13)。
なお、支援者10及び要支援者11は、それぞれ1名とは限らず、交替で参加することも想定される。
ここで前記の具体例を図26を用いて説明する。要支援者のグループ分けを自分たちの意志で行う際、メンバーの顔画像とグループのシンボル画像をストーリーボードファイル140としてストーリーデータベース55に登録しておく。支援者が「いっぱんのぐるーぷ」と発話すると、1班のグループフィールドがロックされ、その表示エリアに「まいさん」「たくやくん」「かなさん」などと発話された顔画像が画面141のように表示される。次に、「にはんのぐるーぷ」と発話すると、2班のグループフィールドがロックされ、その表示エリアに「けんたくん」「かずやくん」「ゆみさん」などと発話された顔画像が画面142のように表示される。
図27は、被験者による呈示動画に対する注視率(呈示時間に対する注視時間の比)変化の実験結果を示す図である。10名の年長自閉症児に対して定期的に行った集団作業療法で本発明の音声制御スクリーンシステム200を使用し、任意に抽出した3名の3回(全10回)にわたる変化を記録した。約2ヶ月おきに記録した結果では、作業課題(うちわづくり、おべんとうづくり、ケーキづくり)に違いがあるものの、平均的に80%以上の画面注視率を保っている。
自閉症児に対する場合、音声や模範動作による指示では注意をひくことができず、誘目性の高いデジタル画像に集中させることで予告作業内容を理解させることができる。
また、支援者にとっても音声が自閉症児に対する呈示開始合図としてのトリガーにもなり、キーボードやマウス入力操作に対する負担を軽減させることができる。
図28は、騒音環境下における音声制御スクリーンシステム200の辞書コンバータによる長母音削除単語の併記効果を示した図である。音声認識の被験者経験のない成人女性が等価騒音75dB の人工騒音環境下で62単語(うち長母音を含むのは33単語)の読み上げを2回ずつ行い、2回のいずれかで認識した単語の比率を認識率とした。この結果、87%から91%への上昇が認められた。
図29は、騒音環境下における音声制御スクリーンシステム200の入力カットレベル調整による認識率上昇効果を示した図である。音声認識の被験者経験のない男性が等価騒音40dB と75dB の人工騒音環境下で42単語(辞書コンバータを使用せず)の読み上げを2回ずつ行い、2回のいずれかで認識した単語の比率を認識率とした。この結果、等価騒音40dBでは0bit (カットなし)が、等価騒音75dBでは3bit (1/8)がそれぞれ認識率100%に達し、騒音環境下でも入力カットレベルの調整により、高認識率の維持が可能である。
本発明の音声制御スクリーンシステム200は、各部を実現するための機能を含む音声制御方法、その各手順をコンピュータに実行させるための音声制御スクリーンプログラム、音声制御スクリーンプログラムを記録したコンピュータの読み取り可能な記録媒体、音声制御スクリーンプログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、プラズマディスプレイ等の表示装置、ワイヤレスマイク等により提供されることができる。また、人間の音声による制御方法以外の代替手段、例えば会話補助機の合成音声による制御方法を含む。
本発明に関する音声制御スクリーンシステムの概略構成図である。 認識辞書及び認識辞書のフォーマットである。 画面制御辞書のフォーマットである。 音声制御により変更できるオブジェクトのイメージ図である。 音声制御スクリーンシステムの操作手順を示すフローチャートである。 本発明の実施例1に関する説明型の事例である。 本発明の実施例1に関する対話型の事例である。 本発明に関する音声制御スクリーンシステムの概略構成図である。 認識辞書のフォーマットである。 画面制御辞書のフォーマットである。 音声制御により変更できるオブジェクト・画面のイメージ図である。 ストーリーボードファイルの構成図である。 ストーリーボードファイルシングルシーンの作成開始状態イメージ図である。 ストーリーボードファイルシングルシーンのオブジェクト読み込みイメージ図である。 ストーリーボードファイルシングルシーンのオブジェクト表示属性選択イメージ図である。 ストーリーボードファイルシングルシーンのオブジェクト登録イメージ図である。 ストーリーボードファイルユーザシーンのフィールド設定イメージ図である。 ストーリーボードファイルユーザシーンのフィールド内オブジェクト表示属性設定イメージ図である。 ストーリーボードファイルユーザシーンのフィールド内オブジェクト登録イメージ図である。 主表示モジュールの表示設定イメージである。 主表示モジュールのコマンド設定イメージである。 主表示モジュールの音声認識設定イメージである。 主表示モジュールの表示開始画面イメージである。 音声制御スクリーンシステムの操作手順を示すフローチャートである。 本発明の実施例2に関する説明型の事例である。 本発明の実施例2に関する対話型の事例である。 要支援者の画面注視率実験結果である。 音声認識辞書コンバータの利用効果実験結果である。 入力レベルカットによる音声認識率比較実験結果である。
符号の説明
1 演算処理装置
2 表示装置
3 端末
10 支援者
11 要支援者
20 音声送信部(支援者用)
21 音声送信部(要支援者用)
30 音声受信部(支援者用)
31 音声受信部(要支援者用)
40 音声認識部(支援者用)
41 音声認識部(支援者用)
42 音声認識部
43 各種音響モデル
50 認識辞書(支援者用)
51 認識辞書(要支援者用)
52 画面制御辞書
53 認識辞書
54 画面制御辞書
55 ストーリーデータベース
56 出力部
60 オブジェクトデータベース
61 ストーリーボードファイル
62 シングルシーン
63 ユーザシーン
64 フィールド
65 オブジェクト
66 初期メニュー
67 デジタルカメラ
68 オブジェクト(動画)
69 ビデオカメラ
70 ストーリーボード作成画面(シングルシーン開始)
71 ストーリーボード作成画面(オブジェクト読み込み)
72 ストーリーボード作成画面(オブジェクト属性設定)
73 ストーリーボード作成画面(オブジェクト登録)
74 ストーリーボードシングルシーン編集領域
75 ストーリーボード画面表示手順設定
76 ストーリーボード併記文字表示設定
77 ストーリーボード履歴再生表示画面設定
78 ストーリーボードオブジェクト音声認識用よみ・併記表示用文字設定
79 ストーリーボードオブジェクト出現・消去方法設定
80 ストーリーボードオブジェクト付属再生音声設定
81 ストーリーボードオブジェクト登録ボタン
82 ストーリーボードオブジェクトプレビュー表示エリア
83 ストーリーボード作成画面(ユーザシーン開始)
84 ストーリーボード作成画面(フィールド内オブジェクト属性設定)
85 ストーリーボード作成画面(フィールド内オブジェクト登録)
86 ストーリーボードフィールド編集領域
87 ストーリーボードフィールド
88 ストーリーボードフィールド分割画面設定
89 ストーリーボードオブジェクト編集領域
90 ストーリーボードフィールド内オブジェクト音声認識用よみ・併記表示用文字設定
91 ストーリーボードフィールド内オブジェクト出現・消去方法設定
92 ストーリーボードフィールド内オブジェクト付属再生音声設定
93 ストーリーボードフィールド内オブジェクト登録ボタン
94 ストーリーボードフィールド内オブジェクトプレビュー表示エリア
100 音声制御スクリーンシステム
101 主表示表示属性選択画面
102 主表示コマンド設定画面
103 主表示音声認識設定画面
104 主表示開始画面
105 主表示状態行設定
106 主表示入力方法設定
107 主表示辞書表示設定
108 主表示タイマー設定
109 主表示出力音量設定
110 主表示画面動作設定
111 主表示読み込みストーリーボードファイル指定
112 主表示音声認識調整設定
113 主表示コマンド変更設定
114 主表示基本コマンド
115 主表示補助コマンド
116 主表示分割画面数値
117 主表示音声認識発話区間感度設定
118 主表示音声認識入力カットレベル設定
119 主表示音声認識辞書スポッティング設定
120 主表示音声認識辞書コンバータ設定
121 主表示音声認識認識率設定
122 主表示音声認識辞書スポッティング効果率設定
123 主表示設定ボタン
124 主表示ストーリーボードファイル名
125 主表示ストーリーボードシーン種別名
126 主表示音声認識入力レベルインジケータ
127 主表示音声認識待機/実行インジケータ
128 主表示終了ボタン
129 主表示キーボード入力エリア
130 実施例1のパーティー用オブジェクト
131 実施例1のパーティー表示画面例
132 実施例1のパーティー表示画面例
133 実施例1のさるかに話用オブジェクト
134 実施例1のさるかに話表示画面例
135 実施例1のさるかに話表示画面例
136 実施例1のさるかに話表示画面例
137 実施例2の陶芸用ストーリーボード
138 実施例2の陶芸表示画面例
139 実施例2の陶芸表示画面例
140 実施例2のグループ分けストーリーボード
141 実施例2のグループ分け画面表示例
142 実施例2のグループ分け画面表示例
200 音声制御スクリーンシステム

Claims (6)

  1. 支援者と要支援者又は要支援者と要支援者の意思疎通を補助するための音声制御スクリーンシステムであって、マイクを通して入力された音声を認識し、文字情報に変換して画像及び音声を出力する演算処理装置と、前記文字情報及び画像及び音声を表示再生する表示装置とを備え、前記演算処理装置は、無線による該音声を受信する音声受信部と該音声受信部から入力された音声を認識辞書と照合して認識するための音声認識部と前記表示装置に出力する出力部とを有することを特徴とする音声制御スクリーンシステム。
  2. 前記表示装置に表示される画像は、前記音声認識部で認識した音声命令語により、端末に触れることなく、該音声を画面制御辞書と照合して逐次表示処理又は非表示処理又は表示位置調整処理又は表示サイズ調整処理又は表示履歴再生処理又は認識辞書切替処理のいずれか又はこれらを組み合わせた処理を行えるようにしたことを特徴とする請求項1記載の音声制御スクリーンシステム。
  3. 前記認識辞書に登録されるかな表記は、支援者又は要支援者が登録時に画像及び音声にリンクした文字情報として入力されるコードであるが、実際の発音は必ずしもかな表記と同じ発音にはならないため、前記音声認識部で最尤となる発音に近似したかな表記コンバータを用いて併記する処理を行えるようにしたことを特徴とする請求項1または2記載の音声制御スクリーンシステム。
  4. 前記音声認識部が、該音声受信部に入力された音声に環境騒音が混入することにより認識率が低下することを防ぐため、あらかじめ周囲の騒音レベルに応じて混入する騒音レベルが騒音と見なされない閾値まで該音声レベル全体を引き下げることにより、認識率の低下を防止したことを特徴とする請求項1、2または3記載の音声制御スクリーンシステム。
  5. 前記認識辞書部は、必ずしも発話者の意図したかな表記が最尤とならずに誤認識する場合もあるため、誤認識をキャンセルした際、誤認識したかな表記を一時的に認識辞書からはずし、第2尤度であったかな表記を最尤として、誤認識の繰りかえしを防止したことを特徴とする請求項1、2、3または4記載の音声制御スクリーンシステム。
  6. 前記音声認識部及び認識辞書部及び画面制御辞書部は音声不明瞭な要支援者であっても、本人の発話録音データとの照合により、少語彙での認識処理が可能な音声認識部を有することを特徴とする請求項1、2、3または4記載の音声制御スクリーンシステム。
JP2004348007A 2003-12-05 2004-12-01 音声制御スクリーンシステム Pending JP2005189846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004348007A JP2005189846A (ja) 2003-12-05 2004-12-01 音声制御スクリーンシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003406631 2003-12-05
JP2004348007A JP2005189846A (ja) 2003-12-05 2004-12-01 音声制御スクリーンシステム

Publications (1)

Publication Number Publication Date
JP2005189846A true JP2005189846A (ja) 2005-07-14

Family

ID=34797618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004348007A Pending JP2005189846A (ja) 2003-12-05 2004-12-01 音声制御スクリーンシステム

Country Status (1)

Country Link
JP (1) JP2005189846A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145748A (ja) * 2010-01-12 2011-07-28 Denso Corp 車載機
JP2013195685A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 言語モデル作成プログラム、言語モデル作成装置及び音声認識装置
CN112820314A (zh) * 2021-01-11 2021-05-18 润联软件系统(深圳)有限公司 一种智能语音控制大屏显示方法、系统及其相关组件
JPWO2022113311A1 (ja) * 2020-11-27 2022-06-02
CN114945103A (zh) * 2022-05-13 2022-08-26 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145748A (ja) * 2010-01-12 2011-07-28 Denso Corp 車載機
US8538756B2 (en) 2010-01-12 2013-09-17 Denso Corporation In-vehicle device and method for modifying display mode of icon indicated on the same
JP2013195685A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 言語モデル作成プログラム、言語モデル作成装置及び音声認識装置
JPWO2022113311A1 (ja) * 2020-11-27 2022-06-02
WO2022113311A1 (ja) * 2020-11-27 2022-06-02 三菱電機株式会社 検査作業支援装置、検査作業支援方法、及び情報処理システム
JP7274059B2 (ja) 2020-11-27 2023-05-15 三菱電機株式会社 検査作業支援方法及び情報処理システム
CN112820314A (zh) * 2021-01-11 2021-05-18 润联软件系统(深圳)有限公司 一种智能语音控制大屏显示方法、系统及其相关组件
CN114945103A (zh) * 2022-05-13 2022-08-26 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法

Similar Documents

Publication Publication Date Title
US6377925B1 (en) Electronic translator for assisting communications
US6564186B1 (en) Method of displaying information to a user in multiple windows
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
JP3125746B2 (ja) 人物像対話装置及び人物像対話プログラムを記録した記録媒体
US20120276504A1 (en) Talking Teacher Visualization for Language Learning
WO2018093806A1 (en) Embodied dialog and embodied speech authoring tools for use with an expressive social robot
US20090254826A1 (en) Portable Communications Device
US20140349259A1 (en) Device, method, and graphical user interface for a group reading environment
JP5553609B2 (ja) 部分イメージを活用した言語学習コンテンツ提供システム
US20140315163A1 (en) Device, method, and graphical user interface for a group reading environment
US20130332859A1 (en) Method and user interface for creating an animated communication
JP6176041B2 (ja) 情報処理装置及びプログラム
US20120088211A1 (en) Method And System For Acquisition Of Literacy
WO2018043112A1 (ja) 情報提示装置、および情報提示方法
JP2002344915A (ja) コミュニケーション把握装置、および、その方法
Sindoni Multimodality and Translanguaging in Video Interactions
Gibson " And the wind wheezing through that organ once in a while": Voice, narrative, film
JP2005189846A (ja) 音声制御スクリーンシステム
JPWO2020026799A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2001249924A (ja) 対話型自動説明装置および対話型自動説明方法およびこの方法の実行プログラムを記録した記録媒体
JP4649082B2 (ja) スピーチ中に機能を自動で制御する方法及びシステム
JP2004325905A (ja) 外国語学習装置および外国語学習プログラム
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
JP2005024815A (ja) 言語学習システムとその装置、方法、プログラム、及びこのプログラムを記録する記録媒体
JP2960029B2 (ja) 発表支援装置