JP2006330624A

JP2006330624A - 音声可視化装置、音声可視化方法及び音声可視化プログラム

Info

Publication number: JP2006330624A
Application number: JP2005157817A
Authority: JP
Inventors: Haruyoshi Suzuki; 春良鈴木
Original assignee: Fujifilm Holdings Corp
Current assignee: Fujifilm Holdings Corp
Priority date: 2005-05-30
Filing date: 2005-05-30
Publication date: 2006-12-07

Abstract

【課題】周囲で生じた音を視覚的に分かりやすく伝える。
【解決手段】周囲において発生した物音、サイレン音、警報音、発話等がマイク３によって集音されると、集音された音声が音声入力部１０に入力される。音声認識部１４は、集音された音声に該当する音認識情報を検索するようデータベース１６に照会する（Ｓ１）。音声認識部１４は、データベース１６の検索した音認識情報を参照し、マイク３から入力した音声信号と音認識情報とを照合することによって特定の音を認識する（Ｓ２）。音声認識部１４が特定の音を認識すると、音声可視化部１５は、音声認識部１４の認識した音に対して定義された可視化情報をデータベース１６から抽出して表示用メモリーバッファ１７に出力する（Ｓ３）。
【選択図】図２

Description

本発明は音声の可視化に係り、特に音声を視覚的に認識させる技術に関する。

従来、音声を視覚的に表示する技術が様々開発されている。例えば特許文献１によると、映像遅延部は、カメラに入力された映像を遅延した遅延映像データを出力する。第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換する。第２音声認識部は、第２音声入力部４に入力された第２復唱者による第２言語の内容を認識して第２可視言語データに変換する。レイアウト設定部は、第１及び第２音声認識部からの第１及び第２言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、表示映像を生成し、文字映像表示部に表示する。
特開２００３−３４５３７９号公報

ところで、緊急通報、防災情報などは、通常サイレンやベル音などの音声で注意喚起がなされる。しかしながら、聴覚障害者は、これらの音を聞くことができないため、視覚的に注意喚起をすることが望ましいといえる。この点、特許文献１では、復唱した音声をそのまま文字にして表示するだけであり、一見して音声内容を把握することが困難である。更には、このようなシステムでは復唱するための仲介者が必要でもあり、いつ発生するともわからない緊急通報などには不向きである。本発明はこのような問題点に鑑みてなされたもので、周囲で生じた音を視覚的に分かりやすく伝えることを目的とする。

上述の課題を解決するため、本願発明に係る音声可視化装置は、特定の音声を表象した情報である可視化情報を記憶するデータベースと、音声を入力する音声入力部と、音声入力部に入力された音声から特定の音声を認識する音声認識部と、音声認識部の認識した特定の音声を表象する可視化情報をデータベースから抽出して出力する可視化情報出力部と、を備える。

また、上述の課題を解決するため、本願発明に係る音声可視化方法は、特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、音声を入力するステップと、入力された音声から特定の音声を認識するステップと、認識した特定の音声を表象する可視化情報をデータベースから抽出して出力するステップと、を含む。

また、上述の課題を解決するため、本願発明に係る音声可視化プログラムは、特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、音声を入力するステップと、入力された音声から特定の音声を認識するステップと、認識した特定の音声を表象する可視化情報をデータベースから抽出して出力するステップと、をコンピュータに実行させる。

これらの発明によると、特定の音声が認識されると、認識された特定の音声を表象する可視化情報がデータベースから抽出されて出力される。このため、聴覚障害者は、周囲で生じた音声を可視化情報によって視覚的に即座に認識できる。

以下、添付した図面を参照し本発明の好ましい実施の形態を説明する。

＜第１実施形態＞
図１は本発明の好ましい実施形態にかかる音声可視化装置１００の概略構成図である。音声可視化装置１００は、好ましくは、通信端末１とともに使用されるセットトップボックス型の装置であるが、通信端末１と一体構成することも可能である。

通信端末１は、同等の構成を有する他の通信端末１’とネットワーク５経由で接続されており、カメラ２及びマイク３から入力した映像と音声を互いにＭＰＥＧ４方式などでリアルタイム送受信することで、映像と音声を用いたリアルタイム相互通話を可能にするセットトップボックス型の装置である。通信端末１は、聴覚障害者の手話コミュニケーションに好適に使用される。

音声可視化装置１００は、マイク３等から音声信号を入力する音声入力部１０、音声入力部１０に入力された音声から特定の音を認識する音声認識部１４、音声認識部１４の認識した音を表象する可視化情報（好ましくはアイコン）を出力する音声可視化部１５を備えている。

音声入力部１０は、マイク３の他、通信端末１が受信・復号化した音声、放送信号入力部１１から入力された放送信号中の音声を入力してもよい。通信端末１が受信した音声あるいはマイク３から入力された音声はスピーカ７によって再生されることもできる。

音声可視化装置１００は、放送信号入力部１１、チューナ１２、出力切替部１３を備えている。チューナ１２では、図示しない受信アンテナ等から放送信号入力部１１に入力された放送信号を復調する処理が行なわれる。チューナ１２は、復調した放送信号から番組映像信号と番組音声信号を分離する。番組映像信号は出力切替部１３に、番組音声信号は音声入力部１０に送られる。番組映像信号、番組音声信号は任意のテレビ番組の映像及び音声を内容とする。

出力切替部１３は、チューナ１２から番組映像信号を入力する他、通信端末１からの映像信号を入力する。通信端末１からの映像信号には、カメラ２から取得された映像あるいは通信端末１’から受信した映像が含まれる。出力切替部１３は、信号合成器１９への出力信号を、チューナ１２からの番組映像信号又は通信端末１からの映像信号のいずれか一方に切り替える。この切り替えは、たとえばユーザのリモコン操作などによって行われる。

信号合成器１９は、映像信号生成部１８からの可視化情報の映像信号と出力切替部１３からの映像信号とを合成した合成信号を表示装置８に出力する。表示装置８は、テレビ受像機、ＬＣＤなどのパソコン用モニタなどで構成される。なお、信号合成器１９は、出力切替部１３から映像信号が供給されなければ、可視化情報の映像信号のみを表示装置８に出力してもよい。

音声可視化装置１００はデータベース１６を備えており、データベース１６には、音声認識部１４が特定の音を認識するための情報である音認識情報が記憶されている。音認識情報は、消防車のサイレン音、パトカーのサイレン音、叫び声、家人の呼び声などの各種音声のパターン、音の騒音レベル（例えば７０ｄＢ以上）を含む。ユーザが所望の音をマイクに入力することで所望の音の音認識情報をデータベース１６に登録できるようにしてもよい。データベース１６は、ネットワーク６を介してデータセンタ４０と接続されており、データセンタ４０から音認識情報及び可視化情報を配信することでその記憶内容を適宜更新することもできる。

音認識情報によって認識される音の各々には、その音を表象した情報である可視化情報が定義されており、可視化情報はデータベース１６に記憶されている。可視化情報は、具体的には、アイコン、テキストデータ、グラフィックデータなど、表示装置８に表示する内容を規定する情報である。可視化情報の表象する内容は任意である。例えば、パトカーのサイレン音の可視化情報はパトカーを表すアイコン、家人の呼びかけに対応する可視化情報は家族を示すアイコンや「家族が呼んでいます」などといった短い文字列など、音声内容を視覚的に即座に認識できる内容とする。

音声認識部１４は、データベース１６を参照し、音声入力部１０に入力された音声信号と音認識情報とを照合することによって特定の音を認識する。例えば、音声認識部１４は、入力信号と各音声パターンとを比較する演算回路を有しており、入力信号とデータベース１６に記憶された音声パターンとを照合し、入力信号に一致する音声パターンを特定することによって特定の音を認識する。あるいは、音声認識部１４は、音声のレベルを測定するデシベル測定器を有しており、入力信号とデータベース１６に記憶された騒音レベルとを照合し、入力信号の騒音レベルを特定することによって特定の大音量の音声（爆発音や衝突音など）を認識する。

音声認識部１４が特定の音を認識すると、音声可視化部１５は、音声認識部１４の認識した音に対して定義された可視化情報をデータベース１６から抽出して表示用メモリーバッファ１７に送る。表示用メモリーバッファ１７には可視化情報が蓄積される。

映像信号生成部１８は、表示用メモリーバッファ１７に蓄積された可視化情報に基づき、可視化情報を表示する映像信号である可視化情報表示信号を生成する。映像信号生成部１８は、可視化情報表示信号を信号合成器１９に出力する。

発光制御回路２０は、音声認識部１４の制御によって、通信端末１の外面に設けられたフラッシュランプ３０の発光・点滅・点灯の制御を行う。音声認識部１４は、特定の音を認識すると、発光制御回路２０に対し、フラッシュランプ３０を点滅させる制御信号を通信端末１に出力するよう指令する。これによって、聴覚障害者は所定の音が発生した事を目に見える形で認識することができる。

以下、図２のフローチャートに従い、音声可視化装置１００の具体的な動作及び使用態様を説明する。通信端末１及び音声可視化装置１００は、聴覚に障害のあるユーザによって使用され、聴覚障害者は、周囲の音声を聴覚で認識することはできないか著しく困難であるものとする。通信端末１は、相手方の通信端末１’からいつ着信があるか分からないため、常時電源がオンにされてスタンバイ状態にされている。音声可視化装置１００も常時電源がオンにされてスタンバイ状態にされている。

通信端末１及び音声可視化装置１００のスタンバイ時、周囲において発生した物音、サイレン音、警報音、発話等がマイク３によって集音されると、集音された音声が音声入力部１０に入力される。音声認識部１４は、集音された音声に該当する音認識情報を検索するようデータベース１６に照会する（Ｓ１）。

音声認識部１４は、データベース１６の検索した音認識情報を参照し、マイク３から入力した音声信号と音認識情報とを照合することによって特定の音を認識・検知する（Ｓ２）。このとき、音声認識部１４の制御によってフラッシュランプ３０が点滅し、聴覚障害者などのユーザは周囲で何か物音があったことを即座に知ることができる。

音声認識部１４が特定の音を認識・検知すると、音声可視化部１５は、音声認識部１４の認識した音に対して定義された可視化情報をデータベース１６から抽出して表示用メモリーバッファ１７に出力する（Ｓ３）。

映像信号生成部１８は、表示用メモリーバッファ１７に蓄積された可視化情報に基づき、可視化情報表示信号を生成して信号合成器１９に出力する（Ｓ４）。

信号合成器１９は、映像信号生成部１８からの可視化情報表示信号と出力切替部１３からの映像信号とを合成し、この合成信号を表示装置８に出力する（Ｓ５）。聴覚障害者などのユーザは、表示装置８に表示された可視化情報を見て、周囲で生じた音の具体的内容を即座に知ることができる。表示装置８の電源がオフになっていても、フラッシュランプ３０が点滅したことに応じてオンにすれば可視化情報を見ることができる。

なお、出力切替部１３の出力信号が入力２側に切り替えられていた場合、相手方の通信端末１’から受信した映像やカメラ２で撮像した映像とともに可視化情報が表示装置８に表示される。出力切替部１３の出力信号が入力１側に切り替えられていた場合、テレビ番組映像とともに可視化情報が表示装置８に表示される。聴覚障害者は、相手方との通話中あるいはテレビ番組の視聴中に、表示装置８に表示された可視化情報を見て、周囲にどのような音が発生しているかを一目瞭然で知ることができる。

以上Ｓ１〜Ｓ５の動作は、音声がマイク３によって集音される度に繰り返される。Ｓ１〜Ｓ５を各種電子機器で動作させる方法及びＳ１〜Ｓ５をコンピュータに実行させるプログラムも本発明に含めることができる。

＜第２実施形態＞
音声可視化装置１００は、放送信号入力部１１から分離した番組音声信号の音声を可視化することも可能である。具体的には、テレビ番組音声に含まれる特定の音と関連した音認識情報及びその特定の音の可視化情報をデータベース１６に記憶しておく。番組放送開始前に音認識情報及び可視化情報をデータセンタ４０から配信してもよい。音声認識部１４は、番組音声信号が入力されると、テレビ番組音声中の特定の音、例えばある役者の発する特定のセリフ、番組のキーポイントとなる出演者の発言などを認識する。音声可視化部１５、映像信号生成部１８、信号合成器１９の動作は上記と同様であるため説明は省略する。出力切替部１３の出力信号が入力１側の映像信号に切り替えられていた場合、表示装置８には、可視化情報（例えばセリフのテキストや役者のアイコンなど）が番組映像と合成されて表示される。このように、可視化情報によってテレビ番組の概略が即座に把握でき、聴覚障害者でもテレビ番組をより一層楽しむ事が可能となる。

＜第３実施形態＞
音声可視化装置１００は、相手方の通信端末１’から受信した音声を可視化することも可能である。具体的には、相手方から受信する音声に含まれると想定される特定の音の音認識情報及びその音の可視化情報をデータベース１６に記憶しておく。音声認識部１４は、通信端末１の受信した音声信号を入力すると、相手方の通信端末１’のユーザの発する特定の音声、例えば「もしもし」、「聞こえていますか」などを認識する。音声可視化部１５、映像信号生成部１８、信号合成器１９の動作は上記と同様である。出力切替部１３の出力信号が入力２側の映像信号に切り替えられていた場合、表示装置８には、相手ユーザの発話の可視化情報（例えばその発話内容のテキスト）が相手方から受信した映像と合成されて表示される。こうすると、相手方が健常者などで、発話によって聴覚障害者と会話を試みようとしている場合、相手方の発話内容の可視化情報によって相手方の発話内容の概略が把握でき便利である。

＜第４実施形態＞
音声可視化装置１００と信号合成器１９は別体としてもよい。また、音声可視化装置１００は、放送信号入力部１１、チューナ１２、出力切替部１３を備えていなくてもよい。

例えば、図３のように、テレビ９が、テレビ画面９ａ、スピーカ９ｂ、放送信号入力部１１、チューナ１２、出力切替部１３を備えており、信号合成器１９はテレビ９及び音声可視化装置１００と別体であるとする。チューナ１２から出力された番組音声信号はスピーカ９ｂに送られる。

信号合成器１９は、チューナ１２から出力された番組映像信号と映像信号生成部１８から出力された可視化情報の映像信号とを合成するか、又は通信端末１から出力された映像信号と映像信号生成部１８から出力された可視化情報の映像信号とを合成し、出力切替部１３に出力する。

出力切替部１３は、チューナ１２、通信端末１、映像信号生成部１８、信号合成器１９から映像信号を入力し、テレビ画面９ａへの出力信号を、チューナ１２、通信端末１、映像信号生成部１８、信号合成器１９からの映像信号のいずれかに切り替える。各ブロックの有するその他の機能は第１実施形態と同様とする。

こうすれば、音声可視化装置１００に放送信号入力部１１、チューナ１２、出力切替部１３、信号合成器１９を設ける必要はない。

音声可視化装置のブロック図音声可視化装置の動作の流れを示すフローチャート音声可視化装置の他の形態を示すブロック図

符号の説明

１０：音声入力部、１４：音声認識部、１５：音声可視化部、１６：データベース、１７：表示用メモリーバッファ、１８：映像信号生成部、１９：信号合成器

Claims

特定の音声を表象した情報である可視化情報を記憶するデータベースと、
音声を入力する音声入力部と、
前記音声入力部に入力された音声から特定の音声を認識する音声認識部と、
前記音声認識部の認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力する可視化情報出力部と、
を備える音声可視化装置。
特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、
音声を入力するステップと、
入力された音声から特定の音声を認識するステップと、
認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力するステップと、
を含む音声可視化方法。
特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、
音声を入力するステップと、
入力された音声から特定の音声を認識するステップと、
認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力するステップと、
をコンピュータに実行させる音声可視化プログラム。