JP4761568B2

JP4761568B2 - 会話支援装置

Info

Publication number: JP4761568B2
Application number: JP2006516828A
Authority: JP
Inventors: 貴司吉峰
Original assignee: 貴司吉峰
Priority date: 2004-05-12
Filing date: 2004-05-12
Publication date: 2011-08-31
Anticipated expiration: 2024-05-12
Also published as: CN100592749C; US7702506B2; WO2005109830A1; US20060204033A1; CN1943212A; JPWO2005109830A1; EP1746807A1

Description

本発明は、例えば障害者との会話を支援する会話支援装置及び会話支援方法に関する。

従来から、障害者との会話、あるいは外国人との会話を支援する技術が提案されている。例えば、ビデオカメラで撮影した話者の唇の動き等の画像を画像解析し、これに対応した文字情報や音声情報に変換して表示部やスピーカ等に出力するという技術がある（例えば、日本国特許庁が発行する公開特許公報−特開２００４−１５２５０号公報（段落［００１７］、図１）参照。）。

また、話者の話す言語を所定の言語に翻訳して、その翻訳された言語をモニター等に文字列で呈示するという技術もある（例えば、同じく公開特許公報−特開２００３−３４５３７９号公報（段落［００１３］、図１）参照。）。

実際に、話者と聴者とが向き合って話す場合に、例えば上記特許文献１の装置を用いた場合に、さらに効率よく画像処理や音声処理等がなされることが望まれる。特に、特許文献１には、具体的な読唇処理の手法は記載されていない。したがって、このままでは、この特許文献１に係る装置は実現不可能である。

また、例えば、特許文献１の装置では、画像解析の制御キーが話者によって押されることにより、カメラが活性状態となり、活性状態となってから画像解析処理が開始されるようになっている。したがって、話者は話すごとに当該制御キーを押さなければならず不便である。

以上のような事情に鑑み、本発明の目的は、効率よくスムーズに会話することができる会話支援装置及び会話支援方法を提供することにある。

上記目的を達成するため、本発明に係る会話支援装置は、第１の利用者及び第２の利用者を撮像する手段と、前記撮像された前記第１の利用者の第１の画像情報を前記第２の利用者が理解可能な第１の情報に変換する第１の変換手段と、前記撮像された前記第２の利用者の第２の画像情報を前記第１の利用者が理解可能な第２の情報に変換する第２の変換手段と、第１の表示面を有し、前記変換された前記第１の情報を前記第１の表示面に表示する第１の表示手段と、前記第１の表示面とは異なる角度に配置可能な第２の表示面を有し、前記変換された前記第２の情報を前記第２の表示面に表示する第２の表示手段とを具備する。

本発明では、第１の表示面と第２の表示面とが異なる角度に配置可能であるので、第１の利用者が第２の表示面を見ながら、また、第２の利用者が第１の表示面を見ながら効率よくスムーズに会話することができる。また、第１の表示面と第２の表示面とが備えられることにより、例えば第２及び第１の利用者が対面して会話することができる。

本発明において、第１の利用者は、健常者または聴覚障害者である。第１の利用者が健常者である場合、第２の利用者は聴覚障害者である。第１の利用者が聴覚障害者である場合、第２の利用者は健常者または聴覚障害者である。

一方、本発明に係る会話支援装置は、外国人との会話を支援することも可能である。この場合、例えば、第１の利用者が第１の言語を話す人である場合、第２の利用者が第１の言語とは異なる第２の言語を話す人である。

本発明の一の形態によれば、前記第１の利用者の声音を集音する手段と、前記集音された声音を前記第１の情報に変換する第３の変換手段とをさらに具備する。これにより、例えば言葉を話すことができる話者であれば、撮像した画像情報を用いなくても、当該話者の声音の情報のみを用いて第１の情報に変換処理することができる。あるいは、画像解析処理と声音解析処理と両方行われるようにしてもよい。これにより、第１の利用者が第２の利用者に伝えようとしている内容の認識精度を向上させることができる。本発明では、同様に第２の利用者の声音を集音する手段も設けるようにしてもよい。

本発明においては、例えば、集音された第１の利用者の声音の音声パターンと、第１の情報のパターンとを対応付けて記憶する手段を用意しておくようにすればよい。これにより、第３の変換手段が、当該声音情報を解析して上記音声パターンを決定し、その音声パターンに対応する第１の情報のパターンを抽出することによって変換処理が可能となる。第２の利用者の声音も同様に処理することができる。

本発明の一の形態によれば、前記第１の変換手段は、前記第１の画像情報を、前記第１の情報として文字情報及び手話情報のうちいずれか一方に変換する手段を有する。これにより、例えば第２の利用者が聴覚障害者である場合に、当該第２の利用者は文字情報や手話情報を第１の表示面で見ることで会話が可能となる。第２の変換手段も同様に、第２の利用者の画像情報を第２の情報として文字情報及び手話情報のうちいずれか一方に変換する手段を有していてもよい。これにより、第１の利用者が聴覚障害者であってもよく、両者が聴覚障害者である場合であっても効率よく会話することができる。

本発明の一の形態によれば、前記第１の変換手段は、前記第１の画像情報を、前記第１の情報として音声情報に変換する手段を有し、当該会話支援装置は、前記変換された音声情報を出力する手段をさらに具備する。これにより、例えば第１の利用者が健常者である場合はもちろんのこと、第１の利用者が聴覚障害者である場合に、当該聴覚障害者と、視覚障害者（第２の利用者）との会話を成立させることができる。また、第２の変換手段も同様に、第２の利用者の画像情報を、第２の情報として音声情報に変換する手段を有し、当該会話支援装置は、変換された音声情報を出力する手段をさらに具備してもよい。

本発明の一の形態によれば、前記第１の表示手段は、前記第１の表示面に前記第２の情報を表示する手段を有する。これにより、第２の利用者は、第１の表示面を見て第２の情報を自ら確認することができる。例えば第２の変換手段によって変換ミスがないかどうかを確認することができる。また、第２の表示手段も、前記第２の表示面に前記第１の情報を表示する手段を有していてもよい。特に、本発明の一の形態によれば、前記第１の表示手段は、前記第２の表示手段が前記第２の情報を表示するタイミングとほぼ同期して該第２の情報を表示する手段を有していれば、会話がよりスムーズに進行する。

本発明の一の形態によれば、前記第１の変換手段が、前記第１の画像情報を文字情報及び手話情報に変換する場合、前記第１の表示手段は、前記第１の変換手段で変換された前記手話情報を前記第１の表示面に表示し、前記第２の表示手段は、前記第１の表示手段が前記手話情報を表示するタイミングとほぼ同期して、前記第１の変換手段で変換された前記文字情報を表示する手段を有する。本発明では、第１の利用者が第２の利用者に伝えようとする内容を、第２の利用者が見る第１の表示面に手話情報として表示され、第１の利用者が見る第２の表示面には文字情報で表示される。これにより、第１の利用者は、自分が伝えようとしている内容を画面を見ながら確認できる。特に、変換ミス等がないかを確認することができる。

本発明の一の形態によれば、前記第１の利用者の声音の音圧レベルまたは騒音レベルを計測する手段と、前記音圧レベルまたは騒音レベルの閾値を設定する手段と、前記測定された音圧レベルまたは騒音レベルが前記閾値以上である場合に、前記第３の変換手段による変換処理を実行する手段とをさらに具備する。これにより、例えば第１の利用者が閾値以上の音圧レベルまたは騒音レベルで話を開始すれば、自動的に音声認識を開始することができる。したがって、従来のように、話し始めるたびに画像解析や音声認識の制御キーのようなものを押す必要がなくなり、会話をスムーズにすることができる。また、本発明では、上記第３の変換手段に代えて、または、第３の変換手段とともに、第１の変換手段による変換処理を実行するようにしてもよい。

本発明の一の形態によれば、人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記文字情報とを対応付けて記憶する手段をさらに具備し、前記撮像手段は、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、前記第１の変換手段は、前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、比較の結果、該各画像パターンのうち前記撮像された口唇画像情報に対応する一の画像パターンを選択する手段と、選択された前記一の画像パターンに対応する前記文字情報を抽出する手段とを有する。人とは、第１の利用者自身であってもよいし、第１の利用者とは別人であってもよい。また、第２の利用者とは別人であってもよい。以下、同様である。本発明においては、第１の変換手段は、いわゆるパターンマッチングにより撮像された口唇画像情報に対応する画像パターンを選択する。もちろん第２の変換手段が、このような第１の変換手段と同様の手段を有するようにしてもよい。

本発明の一の形態によれば、前記記憶手段は、複数の人ごとに、前記画像パターンと前記文字情報とを対応付けて記憶する手段と、前記各人の口唇の形状パターンを記憶する手段とを有し、当該会話支援装置は、前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段とをさらに具備する。本発明では、最も類似する一の形状パターンを選択したら、第１及び第２の利用者の会話を開始し、選択された一の形状パターンを基に上記パターンマッチングを行うことができる。これにより、より高精度に利用者の画像認識を行うことができ、また、より高精度に変化処理を行うことができる。したがって変換処理の変換ミス等の発生率を低減することができる。

本発明の一の形態によれば、前記人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記手話情報とを対応付けて記憶する手段をさらに具備し、前記撮像手段は、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、前記第１の変換手段は、前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、比較の結果、前記撮像された口唇画像情報に対応する該各画像パターンのうち一の画像パターンを選択する手段と、選択された前記一の画像パターンに対応する前記手話情報を抽出する手段とを有する。もちろん第２の変換手段が、このような第１の変換手段と同様の手段を有するようにしてもよい。さらに、本発明では、前記記憶手段は、複数の人ごとに、前記画像パターンと前記手話情報とを対応付けて記憶する手段と、前記各人の口唇の形状パターンを記憶する手段とを有し、当該会話支援装置は、前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段とをさらに具備するようにしてもよい。

本発明の一の形態によれば、前記人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記音声情報とを対応付けて記憶する手段をさらに具備し、前記撮像手段は、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、前記第１の変換手段は、前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、比較の結果、前記撮像された口唇画像情報に対応する該各画像パターンのうち一の画像パターンを選択する手段と、選択された前記一の画像パターンに対応する前記音声情報を抽出する手段とを有する。もちろん第２の変換手段が、このような第１の変換手段と同様の手段を有するようにしてもよい。さらに、本発明では、前記記憶手段は、複数の人ごとに、前記画像パターンと前記手話情報とを対応付けて記憶する手段と、前記各人の口唇の形状パターンを記憶する手段とを有し、当該会話支援装置は、前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段とをさらに具備ようにしてもよい。

本発明の一の形態によれば、前記第１の表示手段は、第１の端部を有し前記第１の表示面が配置される第１の部分を有し、前記第２の表示手段は、第２の端部を有し前記第２の表示面が配置され、前記第１の表示面に対し前記第２の表示面をねじることができるように、かつ、前記第１の部分に対し折りたたみできるように、前記第１の端部と前記第２の端部とが接続された第２の部分を有する。このような構成により、第１の利用者と第２の利用者との配置が問われない。

本発明の一の形態によれば、前記第１の情報を記憶する手段と、前記第１の情報を記憶する手段と、前記記憶された第１の情報を前記第１の表示面に再生する手段と、前記記憶された第１の情報をトリックプレイ操作する手段とをさらに具備する。トリックプレイとは、早送り、巻戻し、スロー再生、２倍速再生等のことであり、通常の画像の再生とは異なる表示手法をいう。これにより、例えば第２の利用者が見逃した情報を巻戻しする等して再生することができる。また、会話支援装置は、第２の情報を記憶する手段と、第２の表示手段により前記第１の情報をトリックプレイで表示させるために、記憶された第２の情報にトリックプレイ操作を行う手段とをさらに具備するようにしてもよい。

本発明に係る会話支援方法は、第１の利用者及び第２の利用者を撮像するステップと、前記撮像された前記第１の利用者の画像情報を前記第２の利用者が理解可能な第１の情報に変換するステップと、前記撮像された前記第２の利用者の画像情報を前記第１の利用者が理解可能な第２の情報に変換するステップと、前記変換された前記第１の情報を前記第１の表示面に表示するステップと、前記変換された前記第２の情報を、前記第１の表示面とは異なる角度に配置可能な第２の表示面を表示するステップとを具備する。

本発明では、第１の表示面と第２の表示面とが異なる角度に配置可能であるので、第１の利用者が第２の表示面を見ながら、また、第２の利用者が第１の表示面を見ながら効率よくスムーズに会話することができる。

以上のように、本発明によれば、効率よくスムーズに会話することができる。

以下、本発明の実施の形態を図面に基づき説明する。

図１は、本発明の一実施の形態に係る会話支援装置を示す斜視図である。図２は、この会話支援装置１の構成を示すブロック図である。

会話支援装置１は、第１の本体２０と、第２の本体３０とで構成されている。会話支援装置１は、例えばＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）程度の大きさを有する。第１の本体２０には、第１の表示部２２が設けられ、第２の本体３０にも同様に第２の表示部３２が設けられている。第１の表示部２２は、例えば液晶や、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）等が用いられる。第２の表示部３２も第１の表示部２２の構成と同様である。第１の本体２０の一端部２ｂ及び第２の本体３０の一端部３ｂにはカメラ２１及び３１それぞれが設けられている。カメラ２１及び３１はそれぞれ撮像する範囲を調節できるように、矢印Ｂの方向に回動可能に構成されている。カメラ２１及び３１は動画を撮像可能な機能を有している。また、第１の本体２０には、操作ボタン群２４が設けられ、利用者により例えば「記録」ボタンが押されると、例えば会話支援装置１は、カメラ２１等で撮像された画像を記憶する。

また、会話支援装置１は、メインプロセッサ３、サブプロセッサ５及び６、ＲＡＭ４及び７、主記憶部８、マイクロフォン２３、音圧レベル判定部９、画像／音声再生処理部１３、スピーカ３３、時刻生成部１８を有する。

メインプロセッサ３は、会話支援装置１を全体的に統括して制御し、また、サブプロセッサ５及び６のデータ処理のスケジュール管理を行う。サブプロセッサ５は、第１の本体２０でのデータ処理を行い、サブプロセッサ６は、第２の本体３０でのデータ処理を行う。各サブプロセッサ５及び６は独立してデータを処理することができるようになっている。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４は、例えばメインプロセッサ３及びサブプロセッサ５の作業領域となり、ＲＡＭ７は、サブプロセッサ６の作業領域となる。

カメラ２１及び３１から取得されるそれぞれの画像フレームには、カメラ２１及び３１のどちらで撮像されたかを識別可能なようにカメラＩＤが付される。さらに、例えば、撮像された画像フレームには、該フレームごとに、かつ、取得された時間順に固有のシーケンスＩＤが付され、さらにタイムスタンプが付される。タイムスタンプは時刻生成部１８により生成される。これにより、メインプロセッサ３、サブプロセッサ５及び６は、取得した画像フレームがどちらのカメラで撮像されたかを認識でき、また各画像フレームの順番やフレームごとの撮像時刻を把握することができる。また、カメラ２１及び３１で取得される画像フレームのフレームレートは例えば５〜２０フレーム／秒とすることができる。

また、マイクロフォンで取得される音声情報についても同様に、例えば所定の時間ごとにタイムスタンプが付される。この場合の所定の時間とは、上記フレームレートに合わせることが好ましい。

図３は、主記憶部８に記憶されたソフトウェアを示す図である。主記憶部８は、例えばハードディスクや半導体メモリ等を用いることができる。主記憶部８は、画像解析プログラム１１、音声解析プログラム１２、画像／音声データベース１７を格納している。画像解析プログラム１１は、カメラ２１で撮像された利用者の画像、特に口唇の動きを解析し文字情報または音声情報に変換する読唇機能、カメラ３１で撮像された例えば利用者が行う手話の画像を解析し文字情報または音声情報に変換する手話画像解析機能等を有する。第２の本体３０は、カメラ２１で撮像された画像情報が変換された文字情報を表示する。また、第１の本体２０は、カメラ３１で撮像された手話の画像情報が変換された文字情報を表示する。画像解析プログラム１１は、上記利用者の画像を文字情報に変換するだけでなく手話情報に変換したり、手話の画像を音声情報に変換したりすることも可能となっている。

音声解析プログラム１２は、マイクロフォン２３で集音された利用者である話者の声音を解析し文字情報等に変換するプログラムである。第２の本体３０は、当該変換された文字情報を表示する。音声解析プログラム１２は、当該文字情報だけでなく、手話情報に変換することも可能となっている。

図４は、予め記憶された画像／音声データベース１７の一例を示す図である。このデータベース１７は、具体的には、人の口唇の画像パターン２５、音響パターン２６、文字情報２７、手話情報２８がそれぞれ対応づけられたテーブルである。

口唇の画像パターン２５は、例えば人が「あ」と発声したときの口唇やその口唇の近傍の画像である。口唇の画像だけでなく、その口唇の近傍の画像、例えば口唇の周囲のしわ等の情報をも用いることで、より高精度な画像認識が可能となる。例えば「え」という言葉と、「い」という言葉では、そのしわのより方が異なるからである。また、口唇画像パターン２５は、１文字ごとではなく単語ごとに記憶されていることが好ましい。

音響パターン２６は、例えば人が発声したときの単語、語彙、あるいはセンテンスごとの音響特性である。音響特性とは、例えば周波数、音圧、ある単語と単語との時間間隔、ある語彙やセンテンスの総時間間隔等である。

文字情報２７は例えばテキスト情報である。手話情報２８は、手話画像のパターンであり、例えば指文字または手話単語ごとに当該手話の画像パターンが記憶されている。

図５は、図１に示す音圧レベル判定部９の構成を示すブロック図である。音圧レベル判定部９は、閾値設定部１５及び比較部１６を有する。音圧レベル判定部９は、例えばマイクロフォン２３から入力された利用者の声音の音圧レベルが、閾値設定部１５で設定された閾値以上になったと比較部１６によって判断された場合に、カメラ２１等から取り込まれる画像の解析を開始するための機能である。この場合、利用者が操作ボタン２４を操作することで、閾値を設定できるようにしてもよい。また、音圧レベル判定部９は、音圧レベルではなく、騒音レベルで判定するようにしてもよい。

図６は、第１の本体２０と第２の本体３０との接続部分を示す拡大図である。第１の本体２０と第２の本体３０とは、それぞれの他端部２ａと３ｂとで接続機構１０により接続されている。接続機構１０は、軸部１０ａ及び１０ｂを有している。軸部１０ｂによって、第１の本体２０と第２の本体３０とが図１に示すようにＡの方向に折りたたみ可能になっている。折りたたみの角度は、第１の表示部２２及び第２の表示部３２の表示面同士が対面するように、また当該表示面同士が互いに逆方向に向くような角度が可能である。すなわち角度Ａが３６０度となるように、第１の本体２０と第２の本体３０とが接続機構１０によって接続されている。また、軸部１０ａによって、第１の表示部２２の表示面に対し第２の表示部３２の表示面がねじれるようになっている。つまり、Ｘ軸を軸として第１の本体２０と第２の本体３０とが回動するようになっている。例えば、一方の表示部に対して他方の表示部が例えば２７０度回動する。このように、折りたたみ及びねじれが可能に構成されることで、会話する２人の位置が限定されなくなる。例えば２人が対面しても話すこともできるし、横に並んで話すこともできる。

以上のように構成された会話支援装置１の動作について説明する。図７は、その動作を示すフローチャートである。

例えば、健常者と聴覚障害者とが会話する場合について説明する。健常者は第１の表示部２２を見ながら、聴覚障害者は第２の表示部３２を見ながら会話する。

まず、会話支援装置１の図示しない電源が投入されると、カメラ２１は健常者の画像の撮像を開始し、カメラ３１は聴覚障害者の撮像を開始する（ステップ７０１）。この場合、撮像される動画像は、ＲＡＭ４等に所定の時間分、または所定の容量分記憶するようにすることができる。また、このときＲＡＭ４等に保存されていく画像フレームを、古い順に削除していくようにしてもよい。あるいは当該画像フレームを順に主記憶部８に保存するようにしてもよい。

撮像が開始されると、メインプロセッサ３、またはサブプロセッサ５等は、カメラ２１による撮像画像をリアルタイムで第２の表示部３２に表示し、さらに、カメラ３１による撮像画像をリアルタイムで第１の表示部２２に表示する（ステップ７０２）。この場合、メインプロセッサ３の監視の下、サブプロセッサ５が第２の表示部３２の表示を担当し、サブプロセッサ６が第１の表示部２２の表示を担当するようにしてもよい。

撮像を開始すると、会話支援装置１は、健常者または聴覚障害者の声音の入力待ち状態となる（ステップ７０３）。入力があった場合（ステップ７０４のＹＥＳ）、音圧レベル判定部９により、入力された声音の音圧レベルが閾値以上か否かが判定される（ステップ７０５）。入力された音声の音圧レベルが閾値以上である場合には、メインプロセッサ３は、画像解析プログラム１１及び音声解析プログラム１２を用いて、カメラ２１等で撮像される画像の解析処理及びマイクロフォン２３で取得される音声の解析処理を開始する。この場合、メインプロセッサ３の解析処理命令により、各サブプロセッサ５及び６が分担して解析処理を行う。この場合、例えば、サブプロセッサ５が画像解析を行うようにし、サブプロセッサ６が音声解析を行うようにすればよい。

このように解析処理された後は、メインプロセッサ３等は、所定の時間だけステップ７０５のＹＥＳの状態を保持する。すなわち、最初に健常者が話した言葉が途切れたりしても、そのままステップ７０６を実行し続ける。所定の時間とは、例えば１秒、あるいは数秒程度である。

画像解析プログラム１１により、特に健常者の口唇の画像解析が行われる。具体的には、人間の口の位置は顔の下部と決まっているため、このことを予め会話支援装置１が把握しておけば、健常者の顔全体をスキャンし顔の輪郭を抽出することで口唇の位置を把握することができる。画像解析処理のフローを図８に示す。カメラ２１で取得し続けている健常者の口唇の画像と、主記憶部８に記憶された各口唇画像パターン２５とを随時比較していく（ステップ８０１）。そして、対応する口唇画像パターンを選択し（ステップ８０２）、選択された画像パターンを抽出する（ステップ８０３）。

ここで、画像解析の手法としては、具体的には、白黒で２値化された数値のマトリクスで画像を認識する。より詳しくは、例えば、２値化された画像情報の、各画素の数値が一致する数が最も多い画像フレームを、撮像した口唇の画像に対応する一の口唇画像パターンとみなして扱えばよい。口唇の形状や手の形状（手の形状を撮像する場合は、手話の画像を解析する場合）のみを把握すればよいので、最低限このような２値化データで足りる。これにより主記憶部８またはＲＡＭ４等の節約にもなる。

サブプロセッサ５等は、抽出された一の画像パターンを基に、この一の画像パターンに対応する手話情報２８を抽出して、第２の表示部３２に表示する（ステップ７０７）。このとき第２の表示部３２の表示例を図９に示す。この例では、例えば「こんにちは」という情報が手話の画像で表示されている。さらに、サブプロセッサ５等は、抽出された一の画像パターンを基に、この一の画像パターンに対応する文字情報２７を抽出して、図に示すように第２の表示部３２に表示するようにしてもよい。聴覚障害者は、第２の表示部３２を見ることにより、その内容を理解することができる。

また、音声解析プログラム１２により、健常者が発声する音声の解析が行われる。具体的には、例えばマイクロフォン２３で取得し続けている声音情報と、主記憶部８に記憶された音響パターン２６とを随時比較していく。そして、対応する音響パターン２６を選択し、選択された音響パターンを抽出する。この音声の解析処理は、例えば隠れマルコフモデルを用いることによって行われる。抽出された音響パターンに対応する手話情報または文字情報を抽出し、これを第２の表示部３２に表示する。また、音声解析処理では、取得した音に含まれる雑音の除去、ひずみの補正等も行われる。

上記ステップ８０２では、例えば、音声解析プログラム１２による音声解析処理と同期して処理が行われる。具体的には、例えば取得された画像フレームと同じタイムスタンプが付された部分の音声データの解析が行われ、画像解析処理によってステップ７０７で抽出された手話情報と、音声解析処理によってステップ７０７で抽出された手話情報とが一致するか否かが判断される。ここで、一致しない場合は、再度の画像解析処理または音声解析処理が行われる。あるいは、一般的に音声認識の方が認識率が高いので、音声解析処理で抽出された方を優先して用いてもよい。このように、画像と音声とにより解析処理が行われることにより、健常者の話す内容の認識精度が向上する。

また、ステップ７０７において、サブプロセッサ６等は、サブプロセッサ５が第２の表示部３２に、抽出された手話情報または文字情報を表示する時間とほぼ同期して、当該手話情報または文字情報を第１の表示部２２に表示するようにしてもよい。これにより、健常者は、第１の表示部２２を見ながら自身が話した内容について、変換ミス等がないか等を確認することができる。

一方、聴覚障害者が話す場合、サブプロセッサ６等は、カメラ３１で取得された聴覚障害者が行っている手話の画像を解析処理し、その手話画像に対応する手話情報２８を抽出し、さらにその手話情報に対応する音響パターン２６を抽出する。そして、この音響パターン２６を基に音声情報に変換し、スピーカ３３に出力する。あるいは、サブプロセッサ６等は、上記抽出された手話情報２８に対応する文字情報２７を抽出し、これを第１の表示部２２に表示する。

以上のように、本実施の形態では、健常者が第１の表示部２２を見ながら、聴覚障害者が第２の表示部３２を見ながら、会話することができる。したがって両者は、効率よくスムーズに会話することができる。

本実施の形態では、音圧レベル判定部９を設ける構成としたので、従来のように、話し始めるたびに画像解析や音声認識の制御キーのようなものを押す必要がなくなり、会話をスムーズにすることができる。

次に、本発明の他の実施の形態について説明する。この実施の形態において、上記実施の形態に係る会話支援装置１の部材、機能、動作と同様なものについては、その説明を簡略または省略し、異なる点を中心に説明する。

図１０は、例えば複数の人の口唇の形状パターンと、それらの人ごとの変換テーブルのＩＤとが対応付けられたテーブルを示す。このテーブル４０は、例えば主記憶部８（図２参照）に記憶されていればよい。図１１に変換テーブルを示す。この変換テーブル４５は、図４で示した口唇の画像パターン２５と文字情報２７との対応関係と同様なものである。また、この変換テーブル４５は、当該複数の人のうちのある１人（例えば、変換テーブルＩＤ＝７）の固有の変換テーブルである。なお、図１１では、一文字ずつの対応関係を示しているが、図４で説明したように、もちろん単語、語彙、センテンスごとの変換テーブルであってもかまわない。複数の人とは、例えば５人、１０人、２０人、あるいはそれ以上であってもよい。

図１０に示す口唇形状パターンは、例えば、撮像されたものが予めデフォルトで記憶されていてもよいし、利用者が収集しても記憶してもかまわない。また、口唇形状パターンは、口が閉じられた状態（何も発声していない状態）でもよいし、ある言葉「あ」とか、「こんにちは」とか何らかの言葉を発声している状態であってもよい。「あ」なら、静止画でよいし、「こんにちは」なら動画とすればよい。

図１２は、本実施の形態に係る会話支援装置の動作の一部を示すフローチャートである。

この会話支援装置を用いて会話する前に、まず、初期設定を行う。この初期設定の動作について図１２を参照しながら説明する。例えば、会話する者が健常者と聴覚障害者である場合、健常者の口唇をカメラ２１等で撮像する（ステップ２０１）。この場合、例えば操作ボタン群２４に「初期設定」ボタンを設け、健常者により初期設定ボタンが押されることによって初期設定が開始されるようにしてもよい。また、健常者は、口が閉じられた状態（何も発声していない状態）でもよいし、ある言葉「あ」とか、「こんにちは」とか何らかの言葉を発声している状態をカメラ２１で撮像するようにしてもよい。

メインプロセッサ３、サブプロセッサ５または６等は、撮像された健常者の口唇をＲＡＭ４等に記憶し、上記画像解析プログラム１１を用いて、健常者の口唇の形状と、主記憶部８に記憶された上記複数の人ごとの口唇形状パターンとを比較していく（ステップ２０２）。そして、上記複数の人ごとの口唇形状パターンのうち、健常者の口唇の形状と最も類似する一の形状パターンを選択する（ステップ２０３）。具体的には、例えば、白黒で２値化された画像情報の、各画素の数値が一致する数が最も多い画像フレームを選択すればよい。ステップ２０３の後、メインプロセッサ３等は、選択された形状パターンに係る変換テーブル４５を抽出する（ステップ２０４）。その後は、メインプロセッサ３等はテーブル４０を参照しながら図７で示した動作を行えばよい。これにより、より高精度に利用者の画像認識を行うことができる、また、より高精度に手話情報等への変換処理を行うことができる。したがって、変換処理の変換ミス等の発生率を低減することができ、スムーズに会話することができる。

本発明は以上説明した実施の形態には限定されるものではなく、種々の変形が可能である。

例えば、上記の実施の形態では、健常者と聴覚障害者との会話を例に示したが、例えば日本人と外国人との会話であってもよい。また、本実施の形態によれば、聴覚障害者と視覚障害者との会話を成立させることができる。この場合、視覚障害者の発声した音を、文字情報または手話情報に変換して表示部に表示すれば、聴覚障害者がそれを見て理解することができる。一方、聴覚障害者が行う手話情報を音声情報に変換して、スピーカ３３で出力すれば、視覚障害者はその出力された音声を聞くことにより会話することができる。

上記実施の形態では、健常者が話した内容が図９に示したように第２の表示部３２に手話情報または文字情報として表示される例を示した。しかし、手話情報等の代わりに、または手話情報等に加えて、健常者の口唇の動画像が第２の表示部３２に表示されるようにしてもよい。この場合、第２の本体３０で表示される口唇の画像はアニメーション画像に変換されて表示されてもよい。

会話支援装置１は、図１で示した形態に限られない。例えば図１３に示すような会話支援装置を用いるようにしてもよい。この会話支援装置５０は、例えばラップトップ型のコンピュータ程度の大きさである。この会話支援装置５０は、第１の本体６０と第２の本体７０とが接続部５１で接続され、任意の角度Ｃで折りたたみ可能に構成されている。そして第１の本体６０及び第２の本体７０にそれぞれ任意の角度Ｄで回動可能な脚部６９及び７９が設けられている。これらの脚部６９及び７０に、例えば図示しない操作ボタン、スピーカ、またはマイクロフォン等が装備されるようにしてもよい。符号６１及び７１はカメラであり、符号６２及び７２は表示部（表示パネル）である。これにより、例えば健常者３４と、聴覚障害者３５とが会話することができる。

上記実施の形態では、健常者が最初に発声して音圧レベル判定部９により、入力された音の音圧レベルを判定する例を説明したが、聴覚障害者が最初に発声した音の音圧レベルを判定するようにしてもよい。聴覚障害者が話すときの発声音は、聞き手にとってはわかりにくい場合もある。しかし、聴覚障害者が何らかの言葉を発声しさえすれば、その音圧レベルを判定することにより、そのときに聴覚障害者が行っている手話の画像の解析処理を開始することができる。

利用者が操作ボタン群２４を操作することにより、表示部２０等に表示される画像や、スピーカから出力される音声等のトリックプレイ操作を行うことができる構成としてもよい。トリックプレイ操作とは、例えば早送り、巻戻し等である。例えば、画像の早送りの場合、ＲＡＭ上のデータに格納された画像フレームをシーケンス番号の小さい順番に、３，６，９，・・・等のように間欠的に表示部に表示させるようにすればよい。このようなトリックプレイは、画像／音声再生処理部１３（図２参照）で行うことができる。

図１１で示した変換テーブル４５は、口唇画像パターンと文字情報との変換テーブルであった。しかし、口唇画像パターンと手話情報との変換テーブル、または、口唇画像パターンと音声情報との変換テーブルであってもよい。

図１２においては、利用者が会話を始める前に初期設定が行われる例を説明した。しかし、初期設定しなくても、会話の開始された直後から、図１２に示すような動作が行われるようにしてもよい。

上記実施の形態では、第１の本体２０のみにマイクロフォン２３が設けられる構成とした。しかし、マイクロフォンが第２の本体３０にも設けられるようにしてもよい。また、第２の本体３０のみにスピーカ３３が設けられるようにしたが、第１の本体２０にも設けられていてもかまわない。

サブプロセッサの数は２つに限られず、１つであってもよいし、３つ以上であってもよい。

［図１］本発明の一実施の形態に係る会話支援装置を示す斜視図である。
［図２］会話支援装置の構成を示すブロック図である。
［図３］主記憶部８に記憶されたソフトウェアを示す図である。
［図４］画像／音声データベースの一例を示す図である。
［図５］音圧レベル判定部の構成を示すブロック図である。
［図６］第１の本体と第２の本体との接続部分を示す拡大図である。
［図７］会話支援装置の動作を示すフローチャートである。
［図８］図７に示すステップ７０６の画像解析処理のフローチャートである。
［図９］変換処理後の第２の表示部３２に表示される画像の一例を示す図である。
［図１０］複数の人の口唇の形状パターンと、それらの人ごとの変換テーブルのＩＤとが対応付けられたテーブルを示す図である。
［図１１］変換テーブルを示す図である。
［図１２］他の実施の形態に係る会話支援装置の動作の一部（初期設定）を示すフローチャートである。
［図１３］本発明のさらに別の実施の形態に係る会話支援装置を示す側面図である。

符号の説明

１，５０…会話支援装置
２ａ，３ａ…他端部
３…メインプロセッサ
４，７…ＲＡＭ
５，６…サブプロセッサ
８…主記憶部
９…音圧レベル判定部
１１…画像解析プログラム
１２…音声解析プログラム
１３…音声再生処理部
１４、３３…スピーカ
１５…閾値設定部
１６…比較部
１７…画像／音声データベース
２０，６０…第１の本体
２１、３１、６１、７１…カメラ
２３…マイクロフォン
２５…口唇画像パターン
２６…音響パターン
２７…文字情報
２８…手話情報
３０，７０…第２の本体

Claims

第１の利用者を撮像する第１のカメラを搭載し、第１の表示面を有する第１の本体と、
第２の利用者を撮像する第２のカメラを搭載し、第２の表示面を有する第２の本体と、
前記第１の本体及び前記第２の本体のうちいずれか一方に設けられたスピーカと、
前記第１の表示面と前記第２の表示面とを異なる角度に配置できるように前記第１の本体と前記第２の本体とを接続する接続機構と、
前記第１のカメラで撮像された前記第１の利用者の第１の画像情報の画像フレームと、前記第２のカメラで撮像された前記第２の利用者の第２の画像情報の画像フレームとにそれぞれカメラＩＤを付すことにより前記第１の画像情報と前記第２の画像情報とを識別し、前記第１の画像情報を文字情報及び手話情報のうち少なくとも一方である第１の情報に変換し、第２の画像情報を音声情報である第２の情報に変換し、変換された前記第１の情報を前記第２の表示面に表示させ、変換された前記第２の情報を前記スピーカに出力させる制御手段であって、前記第１の画像情報の処理を担当する第１のサブプロセッサと、前記第２の画像情報の処理を担当する第２のサブプロセッサと、前記第１及び第２のサブプロセッサによる処理の監視を行うメインプロセッサとを有する制御手段と
を具備することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
前記第１の利用者の声音を集音する手段をさらに具備し、
前記制御手段は、前記集音された声音を前記第１の情報に変換することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
前記第１の表示面は、前記第２の表示面が前記第１の情報を表示するタイミングとほぼ同期して該第１の情報を表示することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
前記制御手段が、前記第１の画像情報を文字情報及び手話情報の両方に変換する場合、
前記第１の表示面は、前記制御手段で変換された前記手話情報を表示し、
前記第２の表示面は、前記第１の表示面が前記手話情報を表示するタイミングとほぼ同期して、前記制御手段で変換された前記文字情報を表示することを特徴とする会話支援装置。
請求項２に記載の会話支援装置であって、
前記第１の利用者の声音の音圧レベルまたは騒音レベルを計測する手段と、
前記音圧レベルまたは騒音レベルの閾値を設定する手段と、
前記測定された音圧レベルまたは騒音レベルが前記閾値以上である場合に、前記制御手段による変換処理を実行する手段と
をさらに具備することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記文字情報とを対応付けて記憶する手段をさらに具備し、
前記第１のカメラは、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、
前記制御手段は、
前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、
比較の結果、該各画像パターンのうち前記撮像された口唇画像情報に対応する一の画像パターンを選択する手段と、
選択された前記一の画像パターンに対応する前記文字情報を抽出する手段と
を有することを特徴とする会話支援装置。
請求項６に記載の会話支援装置であって、
前記記憶手段は、
複数の人ごとに、前記画像パターンと前記文字情報とを対応付けて記憶する手段と、
前記各人の口唇の形状パターンを記憶する手段とを有し、
当該会話支援装置は、
前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、
比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段と
をさらに具備することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記手話情報とを対応付けて記憶する手段をさらに具備し、
前記第１のカメラは、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、
前記制御手段は、
前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、
比較の結果、前記撮像された口唇画像情報に対応する該各画像パターンのうち一の画像パターンを選択する手段と、
選択された前記一の画像パターンに対応する前記手話情報を抽出する手段と
を有することを特徴とする会話支援装置。
請求項８に記載の会話支援装置であって、
前記記憶手段は、
複数の人ごとに、前記画像パターンと前記手話情報とを対応付けて記憶する手段と、
前記各人の口唇の形状パターンを記憶する手段とを有し、
当該会話支援装置は、
前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、
比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段と
をさらに具備することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
人が発声したときの該人の口唇の複数の画像パターンと、該人が発声したときの音に対応する前記音声情報とを対応付けて記憶する手段をさらに具備し、
前記第１のカメラは、前記第１の画像情報として第１の利用者の口唇の画像を撮像し、
前記制御手段は、
前記撮像された口唇画像情報と、前記各画像パターンとを比較する手段と、
比較の結果、前記撮像された口唇画像情報に対応する該各画像パターンのうち一の画像パターンを選択する手段と、
選択された前記一の画像パターンに対応する前記音声情報を抽出する手段と
を有することを特徴とする会話支援装置。
請求項１０に記載の会話支援装置であって、
前記記憶手段は、
複数の人ごとに、前記画像パターンと前記手話情報とを対応付けて記憶する手段と、
前記各人の口唇の形状パターンを記憶する手段とを有し、
当該会話支援装置は、
前記撮像された口唇画像情報と、前記各形状パターンを比較する手段と、
比較の結果、前記各形状パターンのうち、前記撮像された口唇画像情報に最も類似する一の形状パターンを選択する手段と
をさらに具備することを特徴とする会話支援装置。
請求項１に記載の会話支援装置であって、
前記接続機構は、前記第１の本体と前記第２の本体とをねじることができるように、かつ、折りたたみできるように、該第１及び第２の本体を接続することを特徴とする会話支援装置。
第１の利用者を撮像する第１のカメラを搭載し、第１の表示面を有する第１の本体と、
第２の利用者を撮像する第２のカメラを搭載し、第２の表示面を有する第２の本体と、
前記第１の表示面と前記第２の表示面とを異なる角度に配置できるように前記第１の本体と前記第２の本体とを接続する接続機構と、
前記第１のカメラで撮像された前記第１の利用者の第１の画像情報の画像フレームと、前記第２のカメラで撮像された前記第２の利用者の第２の画像情報の画像フレームとにそれぞれカメラＩＤを付すことにより前記第１の画像情報と前記第２の画像情報とを識別し、前記第１の画像情報を第１の言語を表す第１の文字情報に変換し、第２の画像情報を前記第１の言語とは異なる第２の言語を表す第２の文字情報に変換し、変換された前記第１の文字情報及び前記第２の文字情報を、前記第２の表示面及び前記第１の表示面にそれぞれ表示させる制御手段であって、前記第１の画像情報の処理を担当する第１のサブプロセッサと、前記第２の画像情報の処理を担当する第２のサブプロセッサと、前記第１及び第２のサブプロセッサによる処理の監視を行うメインプロセッサとを有する制御手段と
を具備することを特徴とする会話支援装置。