JP2006330624A - 音声可視化装置、音声可視化方法及び音声可視化プログラム - Google Patents

音声可視化装置、音声可視化方法及び音声可視化プログラム Download PDF

Info

Publication number
JP2006330624A
JP2006330624A JP2005157817A JP2005157817A JP2006330624A JP 2006330624 A JP2006330624 A JP 2006330624A JP 2005157817 A JP2005157817 A JP 2005157817A JP 2005157817 A JP2005157817 A JP 2005157817A JP 2006330624 A JP2006330624 A JP 2006330624A
Authority
JP
Japan
Prior art keywords
sound
voice
visualization
information
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005157817A
Other languages
English (en)
Inventor
Haruyoshi Suzuki
春良 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fujifilm Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Holdings Corp filed Critical Fujifilm Holdings Corp
Priority to JP2005157817A priority Critical patent/JP2006330624A/ja
Publication of JP2006330624A publication Critical patent/JP2006330624A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】周囲で生じた音を視覚的に分かりやすく伝える。
【解決手段】周囲において発生した物音、サイレン音、警報音、発話等がマイク3によって集音されると、集音された音声が音声入力部10に入力される。音声認識部14は、集音された音声に該当する音認識情報を検索するようデータベース16に照会する(S1)。音声認識部14は、データベース16の検索した音認識情報を参照し、マイク3から入力した音声信号と音認識情報とを照合することによって特定の音を認識する(S2)。音声認識部14が特定の音を認識すると、音声可視化部15は、音声認識部14の認識した音に対して定義された可視化情報をデータベース16から抽出して表示用メモリーバッファ17に出力する(S3)。
【選択図】 図2

Description

本発明は音声の可視化に係り、特に音声を視覚的に認識させる技術に関する。
従来、音声を視覚的に表示する技術が様々開発されている。例えば特許文献1によると、映像遅延部は、カメラに入力された映像を遅延した遅延映像データを出力する。第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換する。第2音声認識部は、第2音声入力部4に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換する。レイアウト設定部は、第1及び第2音声認識部からの第1及び第2言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、表示映像を生成し、文字映像表示部に表示する。
特開2003−345379号公報
ところで、緊急通報、防災情報などは、通常サイレンやベル音などの音声で注意喚起がなされる。しかしながら、聴覚障害者は、これらの音を聞くことができないため、視覚的に注意喚起をすることが望ましいといえる。この点、特許文献1では、復唱した音声をそのまま文字にして表示するだけであり、一見して音声内容を把握することが困難である。更には、このようなシステムでは復唱するための仲介者が必要でもあり、いつ発生するともわからない緊急通報などには不向きである。本発明はこのような問題点に鑑みてなされたもので、周囲で生じた音を視覚的に分かりやすく伝えることを目的とする。
上述の課題を解決するため、本願発明に係る音声可視化装置は、特定の音声を表象した情報である可視化情報を記憶するデータベースと、音声を入力する音声入力部と、音声入力部に入力された音声から特定の音声を認識する音声認識部と、音声認識部の認識した特定の音声を表象する可視化情報をデータベースから抽出して出力する可視化情報出力部と、を備える。
また、上述の課題を解決するため、本願発明に係る音声可視化方法は、特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、音声を入力するステップと、入力された音声から特定の音声を認識するステップと、認識した特定の音声を表象する可視化情報をデータベースから抽出して出力するステップと、を含む。
また、上述の課題を解決するため、本願発明に係る音声可視化プログラムは、特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、音声を入力するステップと、入力された音声から特定の音声を認識するステップと、認識した特定の音声を表象する可視化情報をデータベースから抽出して出力するステップと、をコンピュータに実行させる。
これらの発明によると、特定の音声が認識されると、認識された特定の音声を表象する可視化情報がデータベースから抽出されて出力される。このため、聴覚障害者は、周囲で生じた音声を可視化情報によって視覚的に即座に認識できる。
以下、添付した図面を参照し本発明の好ましい実施の形態を説明する。
<第1実施形態>
図1は本発明の好ましい実施形態にかかる音声可視化装置100の概略構成図である。音声可視化装置100は、好ましくは、通信端末1とともに使用されるセットトップボックス型の装置であるが、通信端末1と一体構成することも可能である。
通信端末1は、同等の構成を有する他の通信端末1’とネットワーク5経由で接続されており、カメラ2及びマイク3から入力した映像と音声を互いにMPEG4方式などでリアルタイム送受信することで、映像と音声を用いたリアルタイム相互通話を可能にするセットトップボックス型の装置である。通信端末1は、聴覚障害者の手話コミュニケーションに好適に使用される。
音声可視化装置100は、マイク3等から音声信号を入力する音声入力部10、音声入力部10に入力された音声から特定の音を認識する音声認識部14、音声認識部14の認識した音を表象する可視化情報(好ましくはアイコン)を出力する音声可視化部15を備えている。
音声入力部10は、マイク3の他、通信端末1が受信・復号化した音声、放送信号入力部11から入力された放送信号中の音声を入力してもよい。通信端末1が受信した音声あるいはマイク3から入力された音声はスピーカ7によって再生されることもできる。
音声可視化装置100は、放送信号入力部11、チューナ12、出力切替部13を備えている。チューナ12では、図示しない受信アンテナ等から放送信号入力部11に入力された放送信号を復調する処理が行なわれる。チューナ12は、復調した放送信号から番組映像信号と番組音声信号を分離する。番組映像信号は出力切替部13に、番組音声信号は音声入力部10に送られる。番組映像信号、番組音声信号は任意のテレビ番組の映像及び音声を内容とする。
出力切替部13は、チューナ12から番組映像信号を入力する他、通信端末1からの映像信号を入力する。通信端末1からの映像信号には、カメラ2から取得された映像あるいは通信端末1’から受信した映像が含まれる。出力切替部13は、信号合成器19への出力信号を、チューナ12からの番組映像信号又は通信端末1からの映像信号のいずれか一方に切り替える。この切り替えは、たとえばユーザのリモコン操作などによって行われる。
信号合成器19は、映像信号生成部18からの可視化情報の映像信号と出力切替部13からの映像信号とを合成した合成信号を表示装置8に出力する。表示装置8は、テレビ受像機、LCDなどのパソコン用モニタなどで構成される。なお、信号合成器19は、出力切替部13から映像信号が供給されなければ、可視化情報の映像信号のみを表示装置8に出力してもよい。
音声可視化装置100はデータベース16を備えており、データベース16には、音声認識部14が特定の音を認識するための情報である音認識情報が記憶されている。音認識情報は、消防車のサイレン音、パトカーのサイレン音、叫び声、家人の呼び声などの各種音声のパターン、音の騒音レベル(例えば70dB以上)を含む。ユーザが所望の音をマイクに入力することで所望の音の音認識情報をデータベース16に登録できるようにしてもよい。データベース16は、ネットワーク6を介してデータセンタ40と接続されており、データセンタ40から音認識情報及び可視化情報を配信することでその記憶内容を適宜更新することもできる。
音認識情報によって認識される音の各々には、その音を表象した情報である可視化情報が定義されており、可視化情報はデータベース16に記憶されている。可視化情報は、具体的には、アイコン、テキストデータ、グラフィックデータなど、表示装置8に表示する内容を規定する情報である。可視化情報の表象する内容は任意である。例えば、パトカーのサイレン音の可視化情報はパトカーを表すアイコン、家人の呼びかけに対応する可視化情報は家族を示すアイコンや「家族が呼んでいます」などといった短い文字列など、音声内容を視覚的に即座に認識できる内容とする。
音声認識部14は、データベース16を参照し、音声入力部10に入力された音声信号と音認識情報とを照合することによって特定の音を認識する。例えば、音声認識部14は、入力信号と各音声パターンとを比較する演算回路を有しており、入力信号とデータベース16に記憶された音声パターンとを照合し、入力信号に一致する音声パターンを特定することによって特定の音を認識する。あるいは、音声認識部14は、音声のレベルを測定するデシベル測定器を有しており、入力信号とデータベース16に記憶された騒音レベルとを照合し、入力信号の騒音レベルを特定することによって特定の大音量の音声(爆発音や衝突音など)を認識する。
音声認識部14が特定の音を認識すると、音声可視化部15は、音声認識部14の認識した音に対して定義された可視化情報をデータベース16から抽出して表示用メモリーバッファ17に送る。表示用メモリーバッファ17には可視化情報が蓄積される。
映像信号生成部18は、表示用メモリーバッファ17に蓄積された可視化情報に基づき、可視化情報を表示する映像信号である可視化情報表示信号を生成する。映像信号生成部18は、可視化情報表示信号を信号合成器19に出力する。
発光制御回路20は、音声認識部14の制御によって、通信端末1の外面に設けられたフラッシュランプ30の発光・点滅・点灯の制御を行う。音声認識部14は、特定の音を認識すると、発光制御回路20に対し、フラッシュランプ30を点滅させる制御信号を通信端末1に出力するよう指令する。これによって、聴覚障害者は所定の音が発生した事を目に見える形で認識することができる。
以下、図2のフローチャートに従い、音声可視化装置100の具体的な動作及び使用態様を説明する。通信端末1及び音声可視化装置100は、聴覚に障害のあるユーザによって使用され、聴覚障害者は、周囲の音声を聴覚で認識することはできないか著しく困難であるものとする。通信端末1は、相手方の通信端末1’からいつ着信があるか分からないため、常時電源がオンにされてスタンバイ状態にされている。音声可視化装置100も常時電源がオンにされてスタンバイ状態にされている。
通信端末1及び音声可視化装置100のスタンバイ時、周囲において発生した物音、サイレン音、警報音、発話等がマイク3によって集音されると、集音された音声が音声入力部10に入力される。音声認識部14は、集音された音声に該当する音認識情報を検索するようデータベース16に照会する(S1)。
音声認識部14は、データベース16の検索した音認識情報を参照し、マイク3から入力した音声信号と音認識情報とを照合することによって特定の音を認識・検知する(S2)。このとき、音声認識部14の制御によってフラッシュランプ30が点滅し、聴覚障害者などのユーザは周囲で何か物音があったことを即座に知ることができる。
音声認識部14が特定の音を認識・検知すると、音声可視化部15は、音声認識部14の認識した音に対して定義された可視化情報をデータベース16から抽出して表示用メモリーバッファ17に出力する(S3)。
映像信号生成部18は、表示用メモリーバッファ17に蓄積された可視化情報に基づき、可視化情報表示信号を生成して信号合成器19に出力する(S4)。
信号合成器19は、映像信号生成部18からの可視化情報表示信号と出力切替部13からの映像信号とを合成し、この合成信号を表示装置8に出力する(S5)。聴覚障害者などのユーザは、表示装置8に表示された可視化情報を見て、周囲で生じた音の具体的内容を即座に知ることができる。表示装置8の電源がオフになっていても、フラッシュランプ30が点滅したことに応じてオンにすれば可視化情報を見ることができる。
なお、出力切替部13の出力信号が入力2側に切り替えられていた場合、相手方の通信端末1’から受信した映像やカメラ2で撮像した映像とともに可視化情報が表示装置8に表示される。出力切替部13の出力信号が入力1側に切り替えられていた場合、テレビ番組映像とともに可視化情報が表示装置8に表示される。聴覚障害者は、相手方との通話中あるいはテレビ番組の視聴中に、表示装置8に表示された可視化情報を見て、周囲にどのような音が発生しているかを一目瞭然で知ることができる。
以上S1〜S5の動作は、音声がマイク3によって集音される度に繰り返される。S1〜S5を各種電子機器で動作させる方法及びS1〜S5をコンピュータに実行させるプログラムも本発明に含めることができる。
<第2実施形態>
音声可視化装置100は、放送信号入力部11から分離した番組音声信号の音声を可視化することも可能である。具体的には、テレビ番組音声に含まれる特定の音と関連した音認識情報及びその特定の音の可視化情報をデータベース16に記憶しておく。番組放送開始前に音認識情報及び可視化情報をデータセンタ40から配信してもよい。音声認識部14は、番組音声信号が入力されると、テレビ番組音声中の特定の音、例えばある役者の発する特定のセリフ、番組のキーポイントとなる出演者の発言などを認識する。音声可視化部15、映像信号生成部18、信号合成器19の動作は上記と同様であるため説明は省略する。出力切替部13の出力信号が入力1側の映像信号に切り替えられていた場合、表示装置8には、可視化情報(例えばセリフのテキストや役者のアイコンなど)が番組映像と合成されて表示される。このように、可視化情報によってテレビ番組の概略が即座に把握でき、聴覚障害者でもテレビ番組をより一層楽しむ事が可能となる。
<第3実施形態>
音声可視化装置100は、相手方の通信端末1’から受信した音声を可視化することも可能である。具体的には、相手方から受信する音声に含まれると想定される特定の音の音認識情報及びその音の可視化情報をデータベース16に記憶しておく。音声認識部14は、通信端末1の受信した音声信号を入力すると、相手方の通信端末1’のユーザの発する特定の音声、例えば「もしもし」、「聞こえていますか」などを認識する。音声可視化部15、映像信号生成部18、信号合成器19の動作は上記と同様である。出力切替部13の出力信号が入力2側の映像信号に切り替えられていた場合、表示装置8には、相手ユーザの発話の可視化情報(例えばその発話内容のテキスト)が相手方から受信した映像と合成されて表示される。こうすると、相手方が健常者などで、発話によって聴覚障害者と会話を試みようとしている場合、相手方の発話内容の可視化情報によって相手方の発話内容の概略が把握でき便利である。
<第4実施形態>
音声可視化装置100と信号合成器19は別体としてもよい。また、音声可視化装置100は、放送信号入力部11、チューナ12、出力切替部13を備えていなくてもよい。
例えば、図3のように、テレビ9が、テレビ画面9a、スピーカ9b、放送信号入力部11、チューナ12、出力切替部13を備えており、信号合成器19はテレビ9及び音声可視化装置100と別体であるとする。チューナ12から出力された番組音声信号はスピーカ9bに送られる。
信号合成器19は、チューナ12から出力された番組映像信号と映像信号生成部18から出力された可視化情報の映像信号とを合成するか、又は通信端末1から出力された映像信号と映像信号生成部18から出力された可視化情報の映像信号とを合成し、出力切替部13に出力する。
出力切替部13は、チューナ12、通信端末1、映像信号生成部18、信号合成器19から映像信号を入力し、テレビ画面9aへの出力信号を、チューナ12、通信端末1、映像信号生成部18、信号合成器19からの映像信号のいずれかに切り替える。各ブロックの有するその他の機能は第1実施形態と同様とする。
こうすれば、音声可視化装置100に放送信号入力部11、チューナ12、出力切替部13、信号合成器19を設ける必要はない。
音声可視化装置のブロック図 音声可視化装置の動作の流れを示すフローチャート 音声可視化装置の他の形態を示すブロック図
符号の説明
10:音声入力部、14:音声認識部、15:音声可視化部、16:データベース、17:表示用メモリーバッファ、18:映像信号生成部、19:信号合成器

Claims (3)

  1. 特定の音声を表象した情報である可視化情報を記憶するデータベースと、
    音声を入力する音声入力部と、
    前記音声入力部に入力された音声から特定の音声を認識する音声認識部と、
    前記音声認識部の認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力する可視化情報出力部と、
    を備える音声可視化装置。
  2. 特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、
    音声を入力するステップと、
    入力された音声から特定の音声を認識するステップと、
    認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力するステップと、
    を含む音声可視化方法。
  3. 特定の音声を表象した情報である可視化情報をデータベースに記憶するステップと、
    音声を入力するステップと、
    入力された音声から特定の音声を認識するステップと、
    認識した特定の音声を表象する可視化情報を前記データベースから抽出して出力するステップと、
    をコンピュータに実行させる音声可視化プログラム。
JP2005157817A 2005-05-30 2005-05-30 音声可視化装置、音声可視化方法及び音声可視化プログラム Pending JP2006330624A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005157817A JP2006330624A (ja) 2005-05-30 2005-05-30 音声可視化装置、音声可視化方法及び音声可視化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005157817A JP2006330624A (ja) 2005-05-30 2005-05-30 音声可視化装置、音声可視化方法及び音声可視化プログラム

Publications (1)

Publication Number Publication Date
JP2006330624A true JP2006330624A (ja) 2006-12-07

Family

ID=37552332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005157817A Pending JP2006330624A (ja) 2005-05-30 2005-05-30 音声可視化装置、音声可視化方法及び音声可視化プログラム

Country Status (1)

Country Link
JP (1) JP2006330624A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065640A (zh) * 2012-12-27 2013-04-24 上海华勤通讯技术有限公司 语音信息可视化的实现方法
JP2015025902A (ja) * 2013-07-25 2015-02-05 株式会社Nttドコモ 通信端末、プログラム
US10237669B2 (en) 2015-10-07 2019-03-19 Samsung Electronics Co., Ltd. Electronic device and music visualization method thereof

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065640A (zh) * 2012-12-27 2013-04-24 上海华勤通讯技术有限公司 语音信息可视化的实现方法
JP2015025902A (ja) * 2013-07-25 2015-02-05 株式会社Nttドコモ 通信端末、プログラム
US10237669B2 (en) 2015-10-07 2019-03-19 Samsung Electronics Co., Ltd. Electronic device and music visualization method thereof
US10645506B2 (en) 2015-10-07 2020-05-05 Samsung Electronics Co., Ltd. Electronic device and music visualization method thereof
US11128970B2 (en) 2015-10-07 2021-09-21 Samsung Electronics Co., Ltd. Electronic device and music visualization method thereof
US11812232B2 (en) 2015-10-07 2023-11-07 Samsung Electronics Co., Ltd. Electronic device and music visualization method thereof

Similar Documents

Publication Publication Date Title
JP6179834B1 (ja) テレビ会議装置
JP7230394B2 (ja) テレビ会議装置及びテレビ会議プログラム
JP6364054B2 (ja) 光出力システム
US20180181366A1 (en) Modification of distracting sounds
JP2010166324A (ja) 携帯端末、音声合成方法、及び音声合成用プログラム
JP2006330624A (ja) 音声可視化装置、音声可視化方法及び音声可視化プログラム
JP2006033817A (ja) 携帯端末機のデータ伝送および出力装置、並びにその方法
US7403895B2 (en) Control system outputting received speech with display of a predetermined effect or image corresponding to its ambient noise power spectrum
JP4359246B2 (ja) 出力方法およびそれを利用した通信装置
JP5723162B2 (ja) 移動通信系システム
JP2021190762A (ja) 映像処理装置、テレビ受信機、及びプログラム
JP2007193792A (ja) 音声案内システム
CN117014539B (zh) 音量调节方法及电子设备
WO2023084933A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6766981B2 (ja) 放送システム、端末装置、放送方法、端末装置の動作方法、および、プログラム
JP6446571B2 (ja) 光出力システム
JP2007184728A (ja) 携帯情報端末装置
JP4307792B2 (ja) 通信システムおよび通信サービス方法
JP3598509B2 (ja) 端末装置およびその制御方法
JP2002015391A (ja) 報知システム及びそのための携帯端末機
CN117337571A (zh) 视频输出方法和视频输出装置
JP4396540B2 (ja) 携帯電話装置
KR100752599B1 (ko) 휴대단말 수신음의 저음대역 복원 방법
JPH07191599A (ja) 映像機器
JP2020045037A (ja) 音再生装置、音再生方法、音再生プログラム、及び記憶媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070115