JP6447636B2 - ウェアラブルデバイス、表示制御方法、及び表示制御プログラム - Google Patents

ウェアラブルデバイス、表示制御方法、及び表示制御プログラム Download PDF

Info

Publication number
JP6447636B2
JP6447636B2 JP2016558497A JP2016558497A JP6447636B2 JP 6447636 B2 JP6447636 B2 JP 6447636B2 JP 2016558497 A JP2016558497 A JP 2016558497A JP 2016558497 A JP2016558497 A JP 2016558497A JP 6447636 B2 JP6447636 B2 JP 6447636B2
Authority
JP
Japan
Prior art keywords
display
sound
wearable device
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016558497A
Other languages
English (en)
Other versions
JPWO2016075780A1 (ja
Inventor
麻実子 手島
麻実子 手島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2016075780A1 publication Critical patent/JPWO2016075780A1/ja
Application granted granted Critical
Publication of JP6447636B2 publication Critical patent/JP6447636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Eyeglasses (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

開示の技術は、ウェアラブルデバイス、表示制御方法、及び表示制御プログラムに関する。
近年、情報処理装置の小型化及び軽量化に伴い、身につけて持ち運ぶことができるウェアラブルデバイスの開発が進められている。
ウェアラブルデバイスの一例としては、例えば頭部に装着し、表示装置から出力された画像を眼鏡部に設けられたハーフミラーに投影することで、視野に入る景色に画像を重ねて表示するヘッドマウントディスプレイが開示されている。
特開平11−136598号公報
ウェアラブルデバイスは体に装着されることから、その存在を意識せず、生活の様々な場面で利用することが可能である。また、ウェアラブルデバイスの操作も、装着位置に応じた操作方法が取り入れられるため、ウェアラブルデバイスは体に何らかの障がいを有する障がい者のコミュニケーションツールとして適した装置である。
しかしながら、従来のウェアラブルデバイスでは、健常者の利用を前提としたものが多く、例えば、聴覚障がい者の積極的な利用を促すための機能が実現されているとは言い難い状況である。
一つの側面として、開示の技術は、音の発生方向の把握を支援するための装置を提供することを目的とする。
一つの態様では、開示の技術のウェアラブルデバイスは、マイクと、ディスプレイと、マイクで収音した音を解析して、音の発生方向を特定し、特定した発生方向を示す情報をディスプレイに表示する制御を行う制御部と、を備える。
一つの側面として、開示の技術は、音の発生方向の把握を支援するための装置を提供することができる。
第1実施形態に係るデバイスの一例を示す図である。 第1実施形態に係るデバイスの機能を例示する機能ブロック図である。 人の声を示すアイコンの一例を示す図である。 ドアチャイムの音を示すアイコンの一例を示す図である。 着信音を示すアイコンの一例を示す図である。 サイレンの音を示すアイコンの一例を示す図である。 車両のクラクションを示すアイコンの一例を示す図である。 雷鳴の音を示すアイコンの一例を示す図である。 車両の走行音を示すアイコンの一例を示す図である。 注意を要する音を示すアイコンの一例を示す図である。 ユーザが登録した音を示すアイコンの一例を示す図である。 音声認識部の機能を例示する機能ブロック図である。 第1実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 音声認識処理の流れの一例を示すフローチャートである。 字幕の表示例を示す図である。 字幕の表示例を示す図である。 状況通知処理の流れの一例を示すフローチャートである。 音声種類特定処理の流れの一例を示すフローチャートである。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 字幕の表示例を示す図である。 第2実施形態に係るデバイスの一例を示す図である。 第2実施形態に係るデバイスの機能を例示する機能ブロック図である。 第2実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 状況通知処理の流れの一例を示すフローチャートである。 字幕の表示例を示す図である。 アイコンの表示例を示す図である。 第3実施形態に係るデバイスの一例を示す図である。 第3実施形態に係るデバイスの機能を例示する機能ブロック図である。 発話処理の流れの一例を示すフローチャートである。 第4実施形態に係るデバイスの一例を示す図である。 デバイスと情報処理装置との接続形態の一例を示す図である。 第4実施形態に係るデバイスの機能を例示する機能ブロック図である。 情報処理装置の機能を例示する機能ブロック図である。 第4実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 情報処理装置をコンピュータで実現する場合の構成の一例を示す図である。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。
(第1実施形態)
図1は、第1実施形態に係るウェアラブルデバイスの一例を示す図である。
図1に示すように、ウェアラブルデバイス10は、眼鏡の形状を模した眼鏡型端末であり、処理装置20、マイク22、及びプロジェクタ24を含む。なお、以降では、ウェアラブルデバイス10を単にデバイス10と表記する場合がある。
マイク22は、例えばデバイス10の左右両方のテンプル18の部分に各々内蔵され、デバイス10の周囲の音を収音する。マイク22の各々は、あらゆる方向で発生する音を収音することができるように、例えば全指向性マイクが用いられる。なお、全指向性マイクは無指向性マイクとも称される場合がある。
プロジェクタ24は、例えばデバイス10のフレームのうち、左右の透明部材(例えばレンズ)19の上方に位置する部分に各々内蔵され、画像を表示する。具体的には、プロジェクタ24は赤、緑、青の半導体レーザ及び鏡を含み、光の3原色の半導体レーザの各々から照射されるレーザ光を鏡で反射させ、各々のレーザ光を瞳孔を通じて網膜上で2次元状に走査させることで、画像を表示する。
なお、プロジェクタ24で用いられるレーザ光の強度は約150nWであり、これは「レーザ製品の放射安全基準」を定めたJIS(International Organization for Standardization) C 6802におけるクラス1の条件を満たす強度である。なお、JIS C 6802におけるクラス1とは、100秒間レーザ光を瞬きなしで見続けても網膜に損傷を生じないとの条件を満たす安全基準であり、レーザ光の照射に関して特別な安全対策が不要なレベルとなっている。
こうした網膜走査型のプロジェクタ24は、画像の表示に透過型ディスプレイを用いる場合と比較して、目に与える負担が少なく、且つ、より鮮明な画像を表示することができる。ここで透過型ディスプレイとは、例えば透明部材19に重ねて設けられる透明のディスプレイであり、ディスプレイの向こう側の景色に、ディスプレイの画像を重ね合わせて表示することができる構造を有する。透過型ディスプレイとしては、例えば液晶、又は有機EL(Electroluminescence)等を用いたものが知られている。
なお、第1実施形態に係るプロジェクタ24を網膜走査型として説明したが、プロジェクタ24は網膜投影型であってもよい。網膜投影型とは、画素毎にレーザ素子を配置し、表示の対象である画像中の画素に対応した各々のレーザ素子から瞳孔を通じて網膜にレーザ光を照射することで、網膜上に画像を投影する方式である。また、プロジェクタ24の替わりに透過型ディスプレイを用いてもよい。なお、プロジェクタ24は、ユーザの網膜にレーザを照射して、ユーザの視野上の位置に画像を表示することから、開示の技術のディスプレイにはユーザの網膜も含めることができる。
一方、処理装置20は、例えばデバイス10のテンプル18に内蔵され、マイク22による収音処理、及びプロジェクタ24による表示処理を実行する。なお、図1では処理装置20がデバイス10の左側のテンプル18に内蔵される例を示したが、処理装置20の配置場所に制限はなく、例えば処理装置20を分割し、デバイス10の複数の場所に分散して配置するようにしてもよい。
図2は、図1に示した第1実施形態に係るデバイス10の機能を示す機能ブロック図である。
デバイス10は、入力部26、出力部28、及び制御部30を含む。
入力部26には、複数のマイク22で収音された音を表す電気信号が各々入力される。そして、入力部26は、入力された各々の電気信号を増幅し、デジタルの音声信号へ変換して制御部30へ出力する。この際、入力部26は、音を表す電気信号を意識的に遅延させることなく制御部30へ出力する。なお、以降では音を表すデジタルの音声信号を、単に音声信号と称す。
制御部30は、入力部26を制御して、音声信号のサンプリングタイミングを指示する。また、制御部30は、例えば音源位置特定部32及び音声認識部34を含み、入力部26から通知される音声信号を用いて、音の発生方向を特定すると共に、音声信号が表す音の種類を識別する。更に、制御部30は、音の種類が人の声である場合、音声信号からどのような言葉が発せられたかを解析して、発話内容を文字に変換する処理を実行する。そして、制御部30は、後述する出力部28を制御して、音の発生方向を示す情報を音の種類と共に表示させる。
音源位置特定部32は、複数の音声信号に基づいてデバイス10を基準とした音の発生方向を特定する。具体的には、音源位置特定部32は、デバイス10に内蔵される2つのマイク22の各々から入力される音声信号の入力タイミングのずれ、又は音声信号の大きさの差から音の入射方向を算出し、音の発生方向を特定する。なお、ここでは一例として、音源位置特定部32は、デバイス10に内蔵される2つのマイク22の各々から入力される音声信号の入力タイミングのずれから音声の入射方向を算出するものとして説明する。
また、音源位置特定部32は、音声信号を音声認識部34へ出力して、音の種類及び発話内容の解析を音声認識部34へ依頼し、音声認識部34から解析結果を取得する。
音声認識部34は、音源位置特定部32から入力された音声信号を用いて、音の種類及び発話内容の解析を行う。ここで音の種類とは、発せられた音が何の音かを表す情報であり、例えば人の声、車両の走行音、及びインターフォンの呼び出し音等、具体的な種類を表すものである。
そして、制御部30は、プロジェクタ24の表示領域のうち、音源位置特定部32で特定した音の発生方向を示す情報を、音声認識部34で識別した音の種類を示すアイコン及び発話内容の少なくとも一方と表示するよう出力部28を制御する。
出力部28は、プロジェクタ24を用いて、音源位置特定部32で特定した音の発生方向を示す情報を、アイコン及び発話内容の少なくとも一方と表示する。
なお、図3A〜図3Iに、音声認識部34で識別する音の種類を示すアイコン(ピクトグラムともいう)の一例を示す。図3Aは人の声、図3Bはドアチャイムの音、図3Cは携帯電話等の着信音、図3Dはサイレン、図3Eは車両のクラクション、図3Fは雷鳴、図3Gは車両の走行音を表すアイコンの一例である。また、図3Hはユーザの死角から発せられる何らかの注意を要する音を表すアイコンの一例であり、図3Iはユーザが事前に登録した音の種類を表すアイコンの一例である。
図3Iで示すアイコンのように、デバイス10のユーザ(以降、単に「ユーザ」と称す)は、音の種類に対して、形、色、及び大きさを自分でカスタマイズしたアイコンを出力部28に登録することができる。
なお、出力部28で表示可能なアイコンは、図3A〜図3Iに示すアイコンに限定されないことは言うまでもない。出力部28は、音声認識部34において識別可能な音の種類に対応したアイコンを表示することができる。
また、図3Hに示したアイコンはユーザに注意を促すアイコンであることから、特にアラートマークという。アラートマークは、ユーザに注意を促すことができればどのようなデザインであってもよいが、例えば図3Hに示すように、三角形の縁を黒で囲い、内部に警告の種別(図3Hの例では感嘆符)を示すものが使用される。
次に、図4を用いて音声認識部34の動作について説明する。
図4に示すように、音声認識部34は、例えば音響分析部40、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を含む。
音響分析部40は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音の大きさを示す音響スペクトルの時系列データを取得する。
認識デコーダ部42は、音響分析部40で取得した音響スペクトルの時系列データから、音声信号で表される音の種類を特定すると共に、音声信号で表される音の種類が人の声である場合、音声信号から発話内容を認識して文字に変換する機能を有する。その際認識デコーダ部42は、音響モデル部44、辞書46、及び言語モデル部48と連携して処理を進める。
音響モデル部44は、辞書46に予め登録される音の様々な種類の音響スペクトルと、音響分析部40で取得した音響スペクトル(認識対象スペクトル)と、の特徴量を比較して、辞書46の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部44は、選択した音響スペクトルに対応する音の種類を、認識対象スペクトルで表される音の種類とする。
更に、音響モデル部44は、認識デコーダ部42の指示に基づいて、認識対象スペクトルの音の種類が人の声である場合、認識対象スペクトルに対して発話音を割り当てる。具体的には、音響モデル部44は、辞書46に予め登録される発話音を表す音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書46の中から認識対象スペクトルと最も類似する発話音の音響スペクトルを選択する。
一方、言語モデル部48は、認識デコーダ部42の指示に基づいて、音響モデル部44によって得られた認識対象スペクトルに対応する発話音の並びを、違和感のない自然な文章に変換する。例えば辞書46に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を判断して自然な文章に変換する。
なお、音響モデル部44及び言語モデル部48に用いられる言語処理モデルに制限はなく、例えば隠れマルコフモデル等の公知の言語処理モデルを適用することができる。
次に、デバイス10の各機能部をコンピュータで実現する場合の構成図を図5に示す。
コンピュータ200は、CPU202、メモリ204、及び不揮発性の記憶部206を含む。CPU202、メモリ204、及び不揮発性の記憶部206は、バス208を介して互いに接続される。また、コンピュータ200は、マイク22及びプロジェクタ24を備え、マイク22及びプロジェクタ24はバス208に接続される。また、コンピュータ200は、記録媒体に対して読み書きするためのI/O210を備え、I/O210もバス208に接続される。なお、記憶部206はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。
記憶部206には、コンピュータ200を図2に示すデバイス10の各機能部として機能させるための表示制御プログラム220が記憶される。記憶部206に記憶される表示制御プログラム220は、入力プロセス222、音源位置特定プロセス224、音声認識プロセス226、及び出力プロセス228を含む。
CPU202は、表示制御プログラム220を記憶部206から読み出してメモリ204に展開し、表示制御プログラム220が有する各プロセスを実行する。
CPU202が、表示制御プログラム220を記憶部206から読み出してメモリ204に展開し、表示制御プログラム220を実行することで、コンピュータ200が図2に示すデバイス10の各機能部として動作する。具体的には、CPU202が入力プロセス222を実行することで、コンピュータ200が図2に示す入力部26として動作する。また、CPU202が音源位置特定プロセス224を実行することで、コンピュータ200が図2に示す音源位置特定部32として動作する。また、CPU202が音声認識プロセス226を実行することで、コンピュータ200が図2に示す音声認識部34として動作する。また、CPU202が出力プロセス228を実行することで、コンピュータ200が図2に示す出力部28として動作する。なお、CPU202が音源位置特定プロセス224及び音声認識プロセス226を実行することで、コンピュータ200が図2に示す制御部30として動作する。
また、CPU202が、辞書格納領域240に含まれる辞書データをメモリ204に展開することで、コンピュータ200が図4に示す辞書46を含む。
なお、デバイス10の各機能部は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、第1実施形態に係るデバイス10の作用について説明する。第1実施形態に係るデバイス10は、デバイス10の起動後に音声字幕化処理を実行する。音声字幕化処理とは、発話者の発話内容を文字に変換(字幕化)し、字幕化された文字を表示するようにプロジェクタ24から網膜にレーザを照射することで、発話者の発話内容を視野と重ねて表示する処理である。
図6は、第1実施形態に係るデバイス10の音声字幕化処理の流れの一例を示すフローチャートである。
まず、ステップS10において、入力部26は、字幕化開始指示を受け付けたか否かを判定する。字幕化開始指示は、例えばデバイス10に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合、すなわち字幕化開始指示を受け付けていない場合には、字幕化開始指示を受け付けるまでステップS10の処理を繰り返す。一方、肯定判定の場合、すなわち字幕化開始指示を受け付けた場合には、ステップS20へ移行する。
ステップS20において、入力部26は、左右各々のテンプル18に内蔵されたマイク22を通じて、デバイス10の周囲で発生する音の収音を行う。そして、入力部26は、何らかの音が発生したか否かを判定し、否定判定の場合には、何らかの音が収音されるまでステップS20の処理を繰り返す。一方、肯定判定の場合には、各々のマイク22で収音した各々の音の音声信号を音源位置特定部32に出力して、ステップS30へ移行する。
なお、何らかの音が発生したか否かの判定方法としては、例えば少なくとも一方のマイク22で収音した音が予め定めた音声レベル以上である場合に、何らかの音が発生したと判定する方法等が用いられるが、これに限定されるものではない。
ステップS30において、音源位置特定部32は、入力部26から通知された各々の音声信号の到達時間のずれから、デバイス10に対する音の入射角を算出する。例えば、音源位置特定部32は、マイク22の各々から入力される音声信号の入力タイミングのずれの組み合わせに対して、デバイス10の位置を原点とした3次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出する。なお、音源位置特定部32は、マイク22の各々から入力される音声信号の大きさの差に対して、デバイス10の位置を原点とした3次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出してもよい。
なお、音声信号の到達時間のずれの組み合わせ、又は音声信号の大きさの差の組み合わせに対応する入射角は、デバイス10の実機による実験や、デバイス10の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、入射角算出テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
このように、音源位置特定部32は、音声信号の到達時間のずれから音の発生方向を特定するため、各々のマイク22の間隔をできるだけ離した方が、音の発生方向を精度よく特定することができる。従って、デバイス10における各々のマイク22の位置を、デバイス10の高さ方向、前後方向、及び左右方向の各々の方向にずらして配置することが好ましい。ここで、デバイス10の高さ方向とは、デバイス10を頭部に装着した際における上下方向をいい、デバイス10の前後方向とは、透明部材19における光の入射面と直交する方向をいう。また、デバイス10の左右方向とは、デバイス10の高さ方向及び前後方向とそれぞれ直交する方向をいう。
そして、音源位置特定部32は、音声認識部34に音声信号を通知すると共に、音声認識部34に音声信号で表される発話内容の字幕化を指示する。
ステップS40において、音声認識部34は音声認識処理を実行して、音声信号で表される発話内容を字幕化する。
図7は、ステップS40の処理で実行される音声認識処理の流れの一例を示すフローチャートである。
まず、ステップS400において、音響分析部40は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音の大きさを示す音響スペクトルの時系列データを取得する。
次に、ステップS401において、認識デコーダ部42は、ステップS400の処理で取得した音響スペクトル、すなわち認識対象スペクトルの時系列データを音響モデル部44に通知する。そして、認識デコーダ部42は、認識対象スペクトルに対応する音の種類を特定するよう、音響モデル部44に指示する。なお、音響モデル部44における音の種類の特定方法については後ほど説明する。認識デコーダ部42は、音響モデル部44において特定された認識対象スペクトルに対応する音の種類が人の声か否かを判定し、否定判定の場合には音声字幕化処理を終了する。一方、肯定判定の場合にはステップS402に移行する。
ステップS402において、認識デコーダ部42は、人の声と特定された認識対象スペクトルに発話音を割り当てるよう、音響モデル部44に指示する。
音響モデル部44は、辞書46に予め登録される発話音を表す音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書46の中から認識対象スペクトルに最も類似する発話音の音響スペクトルを選択する。こうして、音響モデル部44は認識対象スペクトルに発話音を割り当て、割り当て結果を認識デコーダ部42に通知する。
ステップS404において、音響モデル部44から発話音の割り当て結果が通知されると、認識デコーダ部42は、発話音の割り当て結果を言語モデル部48に通知する。そして、認識デコーダ部42は、発話音の割り当て結果を、違和感のない自然な文章に変換するよう、言語モデル部48に指示する。
言語モデル部48は、例えば辞書46に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を確率的に判断して自然な文章に変換する。こうして、言語モデル部48は、認識対象スペクトルに対応する発話音の並びを違和感のない自然な文章に変換し、変換結果を認識デコーダ部42に通知する。
ステップS406において、認識デコーダ部42は、ステップS404の処理で字幕化された発話者の発話内容を、音源位置特定部32に通知する。
以上、ステップS400〜S406の各処理によって、図6に示すステップS40における音声認識処理が実行される。
そして、図6に示すステップS50において、音源位置特定部32は、ステップS30の処理で特定した音の発生方向を示す情報と、ステップS40の処理で取得した字幕化された発話内容と、を表示するように出力部28に指示する。
出力部28は、音源位置特定部32から表示指示を受け付けると、字幕化された発話内容がどの方向から発せられたかを示す情報を字幕に付加して、ユーザの視野に表示する。
そして、ステップS60において、入力部26は、字幕化終了指示を受け付けたか否かを判定する。字幕化終了指示は、例えば字幕化開始指示と同様に、デバイス10に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合にはステップS20へ移行し、引き続きステップS20〜S60の処理を繰り返すことで音声字幕化処理を継続する。一方、肯定判定の場合には、図6に示す音声字幕化処理を終了する。
なお、出力部28では、表示してから所定時間経過した字幕を消す、又は新しい字幕を表示するタイミングで以前表示した字幕を消去する等の処理を行うことで、字幕の表示を更新する。
図8は、図6に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。
図8に示すように、ユーザの視野には、透明部材19を通して見える景色にプロジェクタ24から照射される字幕が重ねられた画像が表示される。この際、例えば字幕の先頭には、「右」又は「左」等の字幕に対応する発話の発生方向を示す文字が表示される。図8に示す例では、右方向から「聴覚障がい者用のウェアラブルデバイスって知ってる?」との発話が発せられ、左方向から「聞いたことある!」との発話が発せられたことを示す。
従って、ユーザは人物82が「聴覚障がい者用のウェアラブルデバイスって知ってる?」と発し、人物84が「聞いたことある!」と発したものと推測することができる。
なお、図8の例では、発話の発生方向を文字で示したが、例えば右方向から聞こえる発話に対応する字幕の先頭には「←」、左方向から聞こえる発話に対応する字幕の先頭には「→」のように、発話の発生方向を記号で示すようにしてもよい。更に発話の発生方向を図形で表す形態や、文字、記号、及び図形のうち少なくとも1つを組み合わせた形態で示してもよいことは言うまでもない。
また、図6のステップS50において、音源位置特定部32は、ステップS30の処理で特定した音の発生方向に、ステップS40の処理で取得した、字幕化された発話内容を表示するように出力部28に指示してもよい。この場合、発話の発生方向に発話に対応する字幕が表示される。
具体的には、図9に示すように、出力部28は字幕に対応する発話がどの方向から発せられたのかを吹き出しで表示する。この場合、図8のように字幕の先頭に発話の発生方向を表示する場合と比較して、ユーザは誰の発話であるか把握しやすくなる。
また、音声認識部34で、発話者の音響スペクトルの特徴を記憶し、記憶した音響スペクトルと、認識対象スペクトルと、を比較することで発話者を特定し、発話者毎に字幕の色を変えて表示してもよい。また、男性の声と女性の声とでは、声に含まれる周波数成分が異なることを利用して発話者の性別を判定し、例えば男性の声と判定される場合には黒の字幕、女性の声と判定される場合には赤の字幕というように、字幕の色を変えて表示してもよい。更に、発話の発生方向に応じて、字幕の色を変えて表示してもよいし、また、発話の発生方向に応じて、字幕の文字のフォントを変えて表示してもよい。
また、音声認識部34で、認識対象スペクトルから音の音量を算出し、音の音量に応じて字幕の文字サイズを変えるようにしてもよい。例えば、音の音量が大きくなるに従って、当該音に対応する字幕の文字サイズを大きくすることで、ユーザは視覚的に音の音量を把握することができる。
また、図6のステップS10及びステップS60の処理で説明したように、ユーザは自身の判断により、音声字幕化処理の開始及び終了をデバイス10に指示することができる。従って、会議中は音声字幕化処理を開始させ、作業に集中したい時は音声字幕化処理を終了させる等、ユーザの状況に応じて音声字幕化処理の動作を切り替えることができ、不必要な会話が字幕としてユーザの視野に表示される煩わしさを軽減することができる。
更に、デバイス10の音声字幕化処理はユーザ周辺にいる他者の発話内容だけでなく、ユーザ自身の発話内容も字幕化できることができる。この場合、ユーザの音響スペクトルを予め辞書46に登録しておき、音声認識部34で認識対象スペクトルとユーザの音響スペクトルとの類似度を判定することで、発話者がユーザか否か判定することができる。
ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なり、例えば図8に示すように、視野の下部に設けられた領域81に表示される。聴覚障がい者は自身の発声を確認し難いため、聴覚障がい者によって発せられる言葉のイントネーションや発音が健常者の発声と異なる場合あり、意図する内容が相手に伝わらない可能性が考えられる。
しかし、デバイス10ではユーザが発した言葉を字幕化して領域81に表示することができるため、ユーザが発した言葉が相手にどのように聞こえているか目で確認することができる。従って、ユーザは、より正しい発音に近づけるようにトレーニングすることができる。また、ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なる位置に表示されるため、自身が発した発話内容が確認しやすくなる。
なお、ユーザは、例えば自身が発した発話内容の確認が不要な場合には、デバイス10の設定により、ユーザの発話内容を表す字幕を領域81に表示しないようにすることができる。ユーザの発話内容を表す字幕を表示しないことで、ユーザの視野に表示される字幕の数を抑制することができる。
更に、第1実施形態に係るデバイス10は、デバイス10の起動後に状況通知処理を実行する。状況通知処理とは、ユーザの周囲で発生する音の種類及び発生方向をユーザに通知する処理である。なお、ユーザの周囲で発生する音は、ユーザに何らかの状況を通知する情報であることから、ユーザに対する「呼びかけ」と捉えることができる。
図10は、第1実施形態に係るデバイス10の状況通知処理の流れの一例を示すフローチャートである。
ステップS20及びステップS30では、図6に示す音声字幕化処理におけるステップS20及びステップS30の処理と同様の処理を行う。ただし、状況通知処理の場合、ステップS30において、音源位置特定部32は音声認識部34に音声信号で表される発話内容の字幕化を指示する替わりに、音声信号で表される音の種類の特定を指示する。
ステップS42において、音声認識部34は音声種類特定処理を実行して、音声信号で表される音の種類を特定する。
図11は、ステップS42の処理で実行される音声種類特定処理の流れの一例を示すフローチャートである。
まず、ステップS400では、図7に示すステップS400の処理と同様の処理を行い、認識対象スペクトルの時系列データを取得する。
次に、ステップS408において、認識デコーダ部42は、ステップS400の処理で取得した認識対象スペクトルの時系列データを音響モデル部44に出力する。そして、認識デコーダ部42は、認識対象スペクトルに音の種類を特定するよう、音響モデル部44に指示する。
音響モデル部44は、辞書46に予め登録される音の様々な種類の音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書46の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部44は、選択した音響スペクトルに対応する音の種類を、認識対象スペクトルで表される音の種類として特定し、特定結果を認識デコーダ部42に通知する。音響スペクトルの特徴量と認識対象スペクトルの特徴量の類似度は、例えば両者の特徴量が類似するに従って値が大きくなる数値で表され、例えば当該数値が予め定めた閾値以上の場合に、両者の特徴量が類似すると判定される。
そして、特定結果を受け付けた認識デコーダ部42は、音の種類を音源位置特定部32に通知する。
以上、ステップS400及びステップS408の各処理によって、図10に示すステップS42における音声種類特定処理が実行される。
そして、図10に示すステップS52において、音源位置特定部32は、ステップS30の処理で特定した音の発生方向を示す情報と、ステップS42の処理で特定した音の種類を示すアイコンと、を表示するように出力部28に指示する。
出力部28は、音源位置特定部32から表示指示を受け付けると、指定された音の種類に対応するアイコンを、例えばメモリ204の予め定めた領域から取得する。そして、出力部28は、アイコンで示される音の種類がどの方向から発せられたかを示す情報をアイコンに付加して、ユーザの視野に表示する。
そして、ステップS62において、入力部26は、デバイス10の電源がオフされたか否かを判定する。電源のオンオフ状態は、例えばデバイス10に設けられた図示しないボタン等が操作されることで取得することができる。否定判定の場合にはステップS20へ移行し、引き続きステップS20〜S62の処理を繰り返すことで状況通知処理を継続する。一方、肯定判定の場合には、図10に示す状況通知処理を終了する。
なお、出力部28では、表示してから所定時間経過したアイコンを消す、又は新しいアイコンを表示するタイミングで以前表示したアイコンを消去する等の処理を行うことで、アイコンの表示を更新する。
図12は、図10に示す状況通知処理を実行した際の、ユーザの視野に表示されるアイコンの例を示した図である。なお、図12では説明の便宜上、一例としてユーザの視野の範囲を楕円形で示している。
図12に示すように、ユーザの右後方から車両の走行音が聞こえる場合には、出力部28は、例えば視野の上方といった予め定めた位置に、図3Gで示した車両の走行音を表すアイコン70と共に、音の発生方向を示す「右後」の文字を表示する。これにより、ユーザは例えば左側によける等の行動をとることができる。
また、図10のステップS52において、音源位置特定部32は、ステップS30の処理で特定した音の発生方向に、ステップS42の処理で特定した音の種類を示すアイコンを表示するように出力部28に指示してもよい。この場合、音の発生方向に音の種類に対応したアイコンが表示される。
具体的には、図13に示すように、視野上方を「前」、視野下方を「後」、視野右方を「右」、及び視野左方を「左」に割り当て、ユーザの右後方から車両の走行音が聞こえる場合には、出力部28は視野の右下に車両の走行音を表すアイコン72を表示する。この場合、音の発生方向とアイコンの表示位置とが関連付けられるため、図12に示したように音の発生方向を文字等で表示する場合と比較して、音の発生方向が視覚的に把握しやすくなる。
なお、図13において音の発生方向を示す「前」、「後」、「右」、及び「左」の各文字は、視野に重ねて表示するようにしてもよい。
また、前後左右の方向を図13のように割り当てた際に、例えば何らかの音がユーザの上から聞こえる場合には、アイコンの色を、音の発生源がユーザの上下方向に位置することを表す色に変更した上で、視野に重ねて表示する。ここでは一例として、音の発生源がユーザの上下方向に位置することを表す色を緑として説明するが、音の発生源がユーザの上下方向に位置することを表す色として認識できる色であればよく、緑に限定されないことは言うまでもない。
図14は、例えば立体交差等で車両の走行音がユーザの上方から聞こえる際のアイコンの表示例を示した図である。この場合、図14に示すように、図3Gで示される緑のアイコン74を視野の中央部に表示することで、上方から車両の走行音が聞こえることをユーザに通知する。仮に、車両の走行音がユーザの左前上方から聞こえる場合には、アイコン74が視野の左上に表示される。
また、車両の走行音がユーザの下方から聞こえる場合には、図14に示すように図3Gで示されるアイコン74を視野の中央部に表示した上で、アイコン74の明度、色相、及び彩度の少なくとも1つを変えることで、音の発生源がユーザの下方にあることを表す。具体的には、音の発生源がユーザの下方にある場合には、例えばアイコン74の明度、色相、及び彩度の少なくとも1つを音の発生源がユーザの上方にある場合と相違させる。
また、ユーザの指示により、図14における方向の割り当てを変更するようにしてもよい。図15は視野上方を「上」、視野下方を「下」、視野右方を「右」、及び視野左方を「左」に割り当てた際のアイコンの表示例を示す図である。図15に示す方向の割り当てにおいて、車両の走行音がユーザの上方から聞こえる場合には、出力部28は視野の上方に図3Gで示すアイコン76を表示する。
なお、音の発生方向を図15のように割り当てた際、何らかの音がユーザの前又は後から聞こえる場合には、対応するアイコンを視野の中央部に重ねて表示する。そして、音の発生源がユーザの前にあるのか後ろにあるのかに応じて、アイコンの明度、色相、及び彩度の少なくとも1つを変化させる。
また、音声認識部34で、認識対象スペクトルから音の音量を算出し、音の音量に応じてアイコンの表示サイズを変更するようにしてもよい。例えば、音の音量が大きくなるに従って、前記音の種類に対応するアイコンの表示サイズを大きくすることで、ユーザはアイコンに対応する音の種類が発する音の音量を視覚的に把握することができる。
図16は、音の音量に応じてアイコンの表示サイズを変化させる例について説明する図である。
図13及び図16は共にユーザの右後方から車両の走行音が聞こえることを表している。しかし、図16に示す状況通知の場合、図16に示すアイコン78の表示サイズが図13に示すアイコン72の表示サイズより大きいことから、図13に示す状況よりも、ユーザに車両が接近していることをユーザに通知することができる。
以上の説明では、音の種類が同じであれば音の発生方向の相違に関わらず同じアイコンを表示する例を示したが、音の発生方向毎にアイコンを変えて表示するようにしてもよい。
例えば、音の種類が車両の走行音である場合を例に説明すると、音源位置特定部32から車両の走行音が前方から聞こえると通知された場合、出力部28は、図3Gの替わりに図17Aに示すような、車両を前方から見たアイコン60を表示する。一方、音源位置特定部32から車両の走行音が後方から聞こえると通知された場合、出力部28は、図17Bに示すような、車両を後方から見たアイコン62を表示する。
また、出力部28は、音の発生方向に応じて、アイコンの色を変えて表示するようにしてもよい。
例えば、音の種類が車両の走行音である場合を例に説明すると、音源位置特定部32から車両の走行音が前方から聞こえると通知された場合、出力部28は、図3Gに示すアイコンの色を例えば黄にして表示する。一方、音源位置特定部32から車両の走行音が後方から聞こえると通知された場合、出力部28は、図3Gに示すアイコンの色を例えば青にして表示する。
このように、音の種類が同じであっても、音の発生方向に応じて異なるアイコンを表示する、又は、アイコンの色を変更して表示することで、ユーザに音の発生方向をより正確に通知することができる。
なお、図10に示した状況通知処理では、ステップS42の処理で音声種類特定処理を実行して音の種類を特定するが、ステップS42の音声種類特定処理を省略してもよい。この場合、音の種類に対応するアイコンは表示されないが、音声種類特定処理を実行する場合と比べて、音の発生方向をより早くユーザに表示することができる。
また、状況通知処理は、図6に示した音声字幕化処理と異なり、デバイス10の起動に伴って実行される。従って、例えば不意に呼びかけられた場合であっても、ユーザへの通知が可能である。また、音声認識部34において音の種類を人の声と認識した場合に、音声字幕化処理を開始させる等の連携処理を行ってもよい。
なお、状況通知処理では、デバイス10がユーザ自身の声を人の声と認識し、例えば、図3Aに示すアイコンを表示しないように設定することができる。ユーザ自身の声に対して状況通知処理を行わないように設定することで、ユーザは他者からの呼びかけに気づきやすくなる。
更に、状況通知処理では、ユーザに音の種類を通知する方法としてアイコンを利用したが、アイコンの替わりに文字を表示する形態、又はアイコンと文字を併用して表示する形態としてもよい。
このように、聴覚障がい者が第1実施形態に係るデバイス10に搭載された音声字幕化処理を実行することで、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の発話内容を把握することができる。従って、周囲の人と気軽にコミュニケーションをとることができる。
また、第1実施形態に係るデバイス10に搭載された状況通知処理を実行することで、周囲で聞こえる音が発生する方向を視覚化することができる。従って、デバイス10を利用する聴覚障がい者は、生活の中で発生する様々な音にいち早く気づくことが可能となり、素早い状況判断を行うことができる。
なお、辞書46に複数の国の言語の発話音に対する音響スペクトル及び単語を登録すると共に、言語モデル部48に複数の国の言語に関する言語処理モデルを備えることで、外国人の発話内容も認識することができる。この際、外国人の発話内容をユーザの母国語に翻訳してから表示するようにしてもよい。
(第1実施形態の変形例)
第1実施形態では、デバイス10の音声字幕化処理及び状況通知処理により、字幕及びアイコン等を用いた音に対応する情報の表示態様について説明したが、本変形例では、更に音に対応する情報の表示順を表す例について説明する。
図18は、デバイス10の音声字幕化処理において、字幕の表示順を表す処理を追加したフローチャートの一例である。
図18に示す音声字幕化処理のフローチャートにおいて、図6に示す音声字幕化処理のフローチャートとの相違点は、ステップS50で音の発生方向に字幕を表示するようにした点と、ステップS22〜S28、及びステップS54の各処理が追加された点である。
ステップS54において、音源位置特定部32は、ステップS50の処理で出力部28に表示を指示した字幕に対してタイマを起動する。この際、音源位置特定部32は、所定時間経過後に例えば音源位置特定部32に通知がくるようにタイマを設定した上で、字幕毎にタイマを起動する。なお、タイマは例えばCPU202に内蔵されるタイマ機能を利用することができる。
そして、ステップS20の判定処理で音声入力がないと判定された、所謂音声待ち状態において、音源位置特定部32はステップS22〜S28の処理を実行する。
まず、ステップS22において、音源位置特定部32は、出力部28に表示を指示した字幕があるか否かを判定し、否定判定の場合にはステップS20へ移行する。また、肯定判定の場合にはステップS24へ移行する。
ステップS24において、音源位置特定部32は、表示を指示した各々の字幕に対して、字幕の輝度を所定値下げて表示するように、出力部28に指示する。
更に、ステップS26において、音源位置特定部32は、ステップS54の処理で起動した各々のタイマのうち、所定時間経過を通知するタイマがあるか否かを判定する。そして、否定判定の場合にはステップS20へ移行し、肯定判定の場合にはステップS28へ移行する。
ステップS28において、音源位置特定部32は、ステップS26の処理で所定時間経過を通知するタイマに対応した字幕を消去するように、出力部28に指示する。
図19は、図18に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。
図19では、「聴覚障がい者用のウェアラブルデバイスって知ってる?」の字幕の輝度が「聞いたことある」の字幕の輝度より低く表示される例を示している。このように、図18に示す音声字幕化処理においてステップS24の処理が繰り返し実行されることで、発話時期が古い字幕ほど字幕の輝度が低く表示されるため、ユーザは字幕の表示順を把握することができる。
なお、字幕の表示順を表す方法として字幕の輝度を変化させる以外に、例えば字幕のぼかしの度合いを変化させるようにしてもよい。具体的には、例えば発話時期が古い字幕ほど字幕のぼかし度合いを高め、字幕の鮮鋭度を低下させるようにしてもよい。また、字幕に字幕の表示順を表す番号を表示してもよい。
こうした音に対応する情報の表示順を表す処理は、表示順を表す対象を字幕からアイコンに置き換えることで、図10に示す状況通知処理にも適用することができる。
例えば、ステップS52の処理の後、アイコン毎にタイマを起動する。そして、ステップS20の処理で否定判定となった場合の音声待ち状態において、表示中の各アイコンに対して図18に示すステップS22〜S28の各処理を実施することで、アイコンの表示順に応じてアイコンの輝度を変化させることができる。
このように、本変形例に係るデバイス10は、字幕及びアイコンの視認性を変化させることで音に対応する情報のうち、どの情報が最近表示された情報かをユーザに通知することができる。従って、ユーザは会話の流れや周囲の状況変化の流れを理解することができる。また、所定時間経過した字幕及びアイコンは消去されるため、視野に表示される字幕及びアイコンの数が制限されて状況が把握しやすくなる。
(第2実施形態)
第1実施形態では、各々のマイク22から得られる音声信号の到達時間のずれから音の発生方向を特定し、音の発生方向を示す情報を表示するデバイス10について説明した。第2実施形態では、更にユーザの視線の方向を検知し、視線の方向と、特定した音の発生方向と、を組み合わせて、音の発生方向を示す情報を表示するデバイスについて説明する。
図20は、第2実施形態に係るウェアラブルデバイスの一例を示す図である。
図20に示すように、ウェアラブルデバイス12(以降、デバイス12と称す)は、第1実施形態に係るデバイス10の左右2箇所のパッドクリングス部に、更に眼電位センサ21を各々内蔵した眼鏡型端末である。すなわち、デバイス12は眼電位センサ21を内蔵する点以外は、デバイス10と同じ構造を有する。
人間の眼球は、角膜が正、網膜が負に帯電しているため、眼球を動かすと眼球周辺における皮膚の電位が変化する。眼電位センサ21は、パッドクリングス部周辺の皮膚に生じる電位差から、デバイス12を装着した際のユーザの眼球運動を計測し、ユーザの視線の方向を検知するセンサである。
なお、第2実施形態では、眼球運動の計測法として眼電位センサ21を用いる例を示したが、これは装置構成が比較的単純であるため低価格であり、メンテナンスも比較的容易であるためである。しかし、眼球運動の計測法は眼電位センサ21による方法に限定されない。例えばサーチコイル法、強膜反射法、角膜反射法、Video-oculography法等、眼球運動に関する公知の計測法を用いることができる。
また、デバイス12は2つの眼電位センサ21を内蔵しているが、眼電位センサ21の数に制限はない。また、眼球周辺に発生する電位差を計測できる位置であれば、眼電位センサ21の設置場所にも制限はない。例えば右の透明部材19と左の透明部材19とをつなぐ眉間部に眼電位センサ21を設けてもよく、透明部材19を取り囲むフレームに、眼電位センサ21を設けてもよい。
図21は、図20に示したデバイス12の機能を示す機能ブロック図である。図20に示すデバイス12の機能ブロック図において、図2に示した第1実施形態に係るデバイス10の機能ブロック図との相違点は、視線検知部36が追加された点である。
視線検知部36は、眼電位センサ21で取得した電位差の情報から、ユーザの視線がどちらの方向に向いているかを検知して、音源位置特定部32に通知する。
次に、デバイス12の各機能部をコンピュータで実現する場合の構成図を図22に示す。
図22に示すコンピュータ200Aの構成図において、図5に示した第1実施形態に係るコンピュータ200の構成図との相違点は、表示制御プログラム220Aに視線検知プロセス230が追加された点と、バス208に眼電位センサ21が接続された点である。
CPU202が、表示制御プログラム220Aを記憶部206から読み出してメモリ204に展開し、表示制御プログラム220Aを実行することで、コンピュータ200Aが図21に示すデバイス12の各機能部として動作する。そして、CPU202が視線検知プロセス230を実行することで、コンピュータ200Aが図21に示す視線検知部36として動作する。
なお、デバイス12の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、第2実施形態に係るデバイス12の作用について説明する。第2実施形態に係るデバイス12は、デバイス12の起動後に音声字幕化処理を実行する。
図23は、デバイス12の音声字幕化処理の流れの一例を示すフローチャートである。 図23に示すフローチャートにおいて、図6に示した第1実施形態に係る音声字幕化処理のフローチャートとの相違点は、ステップS44が追加され、ステップS50をステップS56の処理で置き換えた点である。
ステップS44において、視線検知部36は、眼電位センサ21で取得した電位差の情報から、ユーザの視線が向いている方向を検知する。具体的には、視線検知部36は、各々の眼電位センサ21から得られる電位差の組み合わせに対して、デバイス12の位置を原点とした3次元座標空間における視線の角度を対応させた視線算出テーブルを参照して、ユーザの視線の方向を算出する。
なお、電位差の組み合わせに対応する視線の角度は、デバイス12の実機による実験や、デバイス12の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、視線算出テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
そして、視線検知部36は、算出した視線の方向を音源位置特定部32に通知する。
ステップS56において、音源位置特定部32は、ステップS30の処理で特定した音の発生方向を、ステップS44の処理で検知したユーザの視線の方向によって補正し、補正した音の発生方向に、ステップS40の処理で取得した字幕を表示する。
例えば、音の発生方向がユーザの正面から見て右方向であり、且つ、ユーザの視線もユーザの正面から見て右方向である場合、ユーザの視線がユーザの正面方向にある場合に比べて、視野の中央部から近い位置に字幕を表示する
ユーザの視野の中心はユーザの視線の方向によって変化する。このため、音声信号の到達時間のずれから特定した音の発生方向に対応する位置に字幕を表示するだけでは、字幕の表示位置と音の発生方向との間のずれがユーザに知覚されてしまう場合があるためである。
このようにデバイス12は、第1実施形態に係るデバイス10に比べて、字幕に対応した発話が何れの発話者から発せられたかを、ユーザの視野内に精度よく表示することができる。
なお、第1実施形態では、ステップS10における字幕化開始指示の有無、及びステップS60における字幕化終了指示の有無を、例えばデバイス10に設けられた図示しないボタン等が操作されたかに基づいて判定した。
しかし、デバイス12には眼電位センサ21が備えられているため、例えば、連続してまばたきを3回する等の特定のアイサインによって、音声字幕化処理の開始及び終了を切り替えるようにしてもよい。この場合、手で音声字幕化処理の開始及び停止を切り替える操作をするよりも操作性が向上する。
一方、デバイス12は、デバイス12の起動後に状況通知処理を実行する。
図24は、デバイス12の状況通知処理の流れの一例を示すフローチャートである。図24に示すフローチャートにおいて、図10に示した第1実施形態に係る状況通知処理のフローチャートとの相違点は、ステップS44が追加され、ステップS52をステップS58の処理で置き換えた点である。
ステップS44では、図23で説明した音声字幕化処理におけるステップS44と同様の処理によって、ユーザの視線の方向を検知する。
ステップS58では、表示位置の補正対象を字幕からアイコンに置き換えた上で、図23で説明した音声字幕化処理におけるステップS56の処理を行うことにより、ステップS44の処理で検知したユーザの視線の方向によって、アイコンの表示位置を補正する。
このようにデバイス12は、ユーザの視線の方向を考慮して、音の発生源の位置をユーザの視野内に精度よく表示することができる。
また、デバイス12は眼電位センサ21によってユーザの視線の方向を検知することができるため、ユーザの視線の方向から推定されるユーザの視野に、音の発生源が含まれるか否かを判断することができる。なお、デバイス12は、ユーザの視線の方向を中心とした予め定めた領域をユーザの視野と推定する。
従って、デバイス12は、ユーザの視野に音の発生源が含まれるか否かによって、アイコン及び字幕の表示形態を変えるようにしてもよい。
例えば音声字幕化処理において、図9に示す会話の場面でユーザの視線が左方向に移動し、図25に示すようにユーザの視野から人物82がはずれた状況について説明する。
この場合、ユーザの視野に存在する人物、例えば人物84から発せられた発話内容を表す字幕は吹き出しで表示される。一方、ユーザの視野からはずれた人物、例えば人物82から発せられた発話内容を表す字幕は、例えば視野の上方に吹き出しなしで表示される。これは、ユーザの視野に字幕に対応する発話内容を発した人物が存在しないため、ユーザの視野内に存在する人物に比べて、吹き出しを用いて誰が発した発話内容であるかを示す必要性が低いためである。
次に、状況通知処理において音の発生源がユーザの視野に含まれる状況、例えば走行音を伴って移動する車両がユーザの視野に含まれる状況での、アイコンの表示形態の一例について説明する。
この場合、例えば図26に示すように、出力部28は、移動する車両に図3Gで示すアイコンの輪郭をより太くしたアイコン66を重ねて表示する。このようにアイコンを表示することで、ユーザは視野に映る物体から、アイコンで表される音の種類が発せられているか否かを判断することができ、必要な行動をとることができる。
なお、アイコンで表される音の種類を発する物体がユーザの視野に含まれるか否かを表示するための形態は、図3A〜図3Iに示すアイコンの輪郭の太さを変える方法に限定されない。例えば、音の発生源がユーザの視野に含まれるか否かによって、アイコンの色を変えたり、点滅表示を行ったり等、音の発生源がユーザの視野に含まれるか否かを視覚的に区別することができる表示形態であれば、何れの方法を用いてもよい。
なお、第1実施形態に係るデバイス10において示唆した内容は、第2実施形態に係るデバイス12にも適用できることは言うまでもない。
(第3実施形態)
聴覚障がい者は口頭で自分の意思を伝える場合もあるが、既に述べたように、聴覚障がい者は自身の発声を確認し難いため、正しい発音を習得することが困難な場合が多く、意図する内容が相手に伝わらない可能性が考えられる。こうした傾向は、とりわけ先天的な聴覚障がい者や幼児期に聴力が低下した人に多く見られる。
そこで、第3実施形態では、ユーザが作成した文章を音に変換して周囲の人に出力する、所謂発話機能を備えたデバイスについて説明する。
図27は、第3実施形態に係るウェアラブルデバイスの一例を示す図である。
図27に示すように、ウェアラブルデバイス14(以降、デバイス14と称す)は、第2実施形態に係るデバイス12のテンプル18に、更にスピーカ23を内蔵した眼鏡型端末である。図27に示すデバイス14には左右のテンプル18にスピーカ23が各々内蔵されているが、これは一例であり、デバイス14に内蔵されるスピーカ23の位置及び数に制限はない。
図28は、図27に示したデバイス14の機能を示す機能ブロック図である。図28に示すデバイス14の機能ブロック図において図21に示した第2実施形態に係るデバイス12の機能ブロック図との相違点は、出力部28にスピーカ23が接続される点と、出力部28と視線検知部36とが直接接続される点である。
視線検知部36は、例えばユーザから特定のアイサインによって発話機能の開始指示を受け付けると、ユーザの視野内に、例えばアルファベット等の文字が1つずつ異なる位置に並んだ文字盤を表示するように出力部28へ指示する。そして、視線検知部36は、眼電位センサ21で計測される電位差からユーザが文字盤のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。そして、視線検知部36は、ユーザが指定したタイミングでユーザが選択した文字の並びによって表される文章を出力部28に通知する。
出力部28は、視線検知部36から通知された文章を、前記文章を読み上げる音に変換して、前記文章を読み上げる音をスピーカ23から出力する。
なお、デバイス14の各機能部をコンピュータで実現する場合の構成は、図22に示すデバイス12の各機能部をコンピュータで実現する場合の構成図におけるバス208に、更にスピーカ23を接続した形態となる。
次に、第3実施形態に係るデバイス14の作用について説明する。第3実施形態に係るデバイス14は、デバイス14の起動後に発話処理を実行する。
図29は、デバイス14の発話処理の流れの一例を示すフローチャートである。
まず、ステップS100において、視線検知部36は、眼電位センサ21からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部36は、取得した電位差の変化状況が、発話開始指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話開始指示が通知されたか否かを判定する。そして、否定判定の場合にはステップS100の処理を繰り返し実行して、ユーザからの発話開始指示を待つ。一方、肯定判定の場合には、視線検知部36は出力部28に文字盤の表示を指示し、ステップS110へ移行する。
なお、発話開始指示のアイサインに対応する電位差の変化に関する情報は、例えばメモリ204の予め定めた領域に予め記憶しておけばよい。
ステップS110において、出力部28は、視線検知部36から文字盤表示の指示を受けると、プロジェクタ24を用いてユーザの視野内に文字盤を表示する。文字盤には、例えば文字、英数字、及び記号等が表示され、出力部28は、視線検知部36から文字盤の表示内容を切り替える指示を受け付けることにより、文字盤の表示内容を切り替える。なお、ユーザは文字盤に最初に表示される文字の種類を予め設定することが可能であり、例えば英語を使用するユーザは英語で用いられる文字を、日本語を使用するユーザは日本語で用いられる文字を、文字盤に表示することができる。
ステップS120において、視線検知部36は、眼電位センサ21で計測される電位差からユーザが文字盤上のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。具体的には、例えば視線検知部36は、眼電位センサ21で計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、を予め対応づける文字変換テーブルを参照して、ユーザが選択した文字を特定する。
なお、眼電位センサ21によって計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、の対応関係は、デバイス14の実機による実験や、デバイス14の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、文字変換テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
次にステップS130において、視線検知部36は、ステップS120の処理で特定したユーザが選択した文字を、例えばメモリ204の予め定めた領域に記憶する。
ステップS140において、視線検知部36は、眼電位センサ21からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部36は、取得した電位差の変化状況が、発話終了指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話終了指示が通知されたか否かを判定する。そして、否定判定の場合にはS120に移行し、ステップS120〜S140の処理を繰り返し実行する。ステップS120〜S140の処理が繰り返し実行されることで、ステップS120の処理で特定したユーザが選択した文字が、ステップS130の処理によってメモリ204に順次記憶され、ユーザが伝えたい文章が生成される。
一方、肯定判定の場合にはステップS150へ移行する。
ステップS150において、出力部28は、ステップS110の処理で表示した文字盤の表示を停止する。
そして、ステップS160において、出力部28は、ステップS130の処理でメモリ204の予め定めた領域に記憶した文章を、前記文章を読み上げる音に変換して、前記文章を読み上げる音をスピーカ23から出力する。なお、出力する音の合成には、公知の音声合成技術の何れを適用してもよい。
この際、文章の内容及び文脈から音のトーンを変化させてもよい。具体的には、文章が緊急を伝える内容であれば、ユーザが予め登録した通常時の発声速度及び音程の高さよりも、速い発声速度で、且つ、高い音程でスピーカ23から音を出力する。この場合、状況にあった発話が可能となり、表現力豊かなコミュニケーションを実現することができる。
また、マイク22で周囲の音を収音し、収音した音の音響スペクトルから周囲に伝わりやすい周波数成分を解析し、解析した周波数成分を含む音で文章を読み上げるようにしてもよい。この場合、スピーカ23から発せられる音が聞き取りやすくなる。
以上、ステップS100〜S160の処理により、発話機能が実現される。
なお、予めユーザの声紋をメモリ204に記憶しておけば、出力部28は公知の音声合成技術を利用してユーザの声で音を合成することができるため、より自然な会話が実現できる。
また、図29におけるステップS120の処理の後、ユーザがこれまでに選択した文字の並びから文章の文脈を解析し、文章の文脈からユーザが選択すると思われる単語の候補を先回りして表示するようにしてもよい。こうした単語の表示方法を、「予測表示」と言う場合がある。
具体的には、言語モデル部48は、ステップS120の処理で特定された文字と、ステップS130の処理でメモリ204の予め定めた領域に記憶される、これまでユーザに選択された文字の並びの情報と、を取得する。そして、言語モデル部48は、文字の並びに対して形態素解析等を実行することで文章の文脈を把握し、統計モデルに従って、例えば辞書46に予め登録される単語の中から、特定された文字で始まる文章の文脈の流れに沿った単語の候補を選択する。そして、出力部28は、言語モデル部48で選択された複数の単語の候補をユーザの視野に表示して、ユーザの文字選択に係る操作性を向上させる。
このようにデバイス14は、ユーザが眼球の動きを利用して作成した文章を音に変換することができるため、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の意思を相手に伝えることができる。
なお、第1実施形態に係るデバイス10及び第2実施形態に係るデバイス12において示唆した内容は、第3実施形態に係るデバイス14にも適用できることは言うまでもない。
(第4実施形態)
第1実施形態〜第3実施形態では、デバイス10、12、及び14に内蔵される処理装置20で、これまで説明した音声字幕化処理、状況通知処理、及び発話処理を実行する形態について説明した。
第4実施形態では、デバイス10、12、及び14で実行される処理の一部を、クラウドサービスを利用して実行する形態について説明する。なお、クラウドサービスとは、ネットワークを介してコンピュータ等の情報処理装置の処理能力を提供するサービスである。
図30は、第4実施形態に係るウェアラブルデバイスの一例を示す図である。
図30に示すように、ウェアラブルデバイス16(以降、デバイス16と称す)は、第3実施形態に係るデバイス14に対して、更に通信装置25を内蔵した眼鏡型端末である。なお、デバイス16における通信装置25の設置場所は一例であり、テンプル18の位置に制限されない。
通信装置25は、例えばインターネット等のネットワークに接続するためのインターフェースを含み、図31に示すようにデバイス16と、ネットワーク50に接続される情報処理装置52と、の間でデータを送受信する装置である。
なお、通信装置25で用いられる通信規格に制限はなく、例えばLTE(Long Term Evolution)、WiFi(The Standard for Wireless Fidelity)、ブルートゥース等、様々な通信規格を使用することができる。しかし、デバイス16は移動を前提としたウェアラブルデバイスであることから、通信装置25は無線でネットワーク50に接続できることが好ましい。従って、ここでは一例として、通信装置25のネットワーク50への接続形態は、無線であるものとして説明を行う。また、情報処理装置52は複数のコンピュータ等を含むものであってもよい。
図32は、図30に示したデバイス16の機能を示す機能ブロック図である。図32に示すデバイス16の機能ブロック図において、図28に示した第3実施形態に係るデバイス14の機能ブロック図との相違点は、音声認識部34が音響分析部40で置き換えられると共に、無線通信部38が追加され、音響分析部40に接続された点である。
また、図33は、情報処理装置52の機能を示す機能ブロック図であり、情報処理装置52は、認識デコーダ部42、音響モデル部44、辞書46、言語モデル部48、及び通信部54を含む。なお、通信部54は、ネットワーク50に接続してデバイス16との間でデータを送受信するための機能を有する。また、通信部54のネットワーク50への接続形態は、有線又は無線の何れの形態であってもよい。
このように、第4実施形態では、デバイス10、12、及び14に含まれる音声認識部34の構成要素のうち、音響分析部40をデバイス16に残し、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を情報処理装置52に移行する。そして、音響分析部40と、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48と、を無線通信部38及び通信部54で接続し、ネットワーク50を介して音声認識部34として機能させるクラウドサービスを利用した形態をとる。
次に、デバイス16の各機能部をコンピュータで実現する場合の構成図を図34に示す。
図34に示すコンピュータ200Bの構成図において、第3実施形態で説明したデバイス14の各機能部をコンピュータで実現する場合の構成との相違点は、新たにバス208に無線通信IF(Interface)27が接続された点である。また、表示制御プログラム220Bに無線通信プロセス232が追加され、音声認識プロセス226が音響分析プロセス225に置き換えられた点も、第3実施形態と異なる。
CPU202が、表示制御プログラム220Bを記憶部206から読み出してメモリ204に展開し、表示制御プログラム220Bを実行することで、コンピュータ200Bが図32に示すデバイス16の各機能部として動作する。そして、CPU202が無線通信プロセス232を実行することで、コンピュータ200Bが図32に示す無線通信部38として動作する。また、CPU202が音響分析プロセス225を実行することで、コンピュータ200Bが図32に示す音響分析部40として動作する。
なお、デバイス16の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、情報処理装置52をコンピュータで実現する場合の構成図を図35に示す。
コンピュータ300は、CPU302、メモリ304、及び不揮発性の記憶部306を含む。CPU302、メモリ304、及び不揮発性の記憶部306は、バス308を介して互いに接続される。また、コンピュータ300は、通信IF29及びI/O310を備え、通信IF29及びI/O310はバス308に接続される。なお、記憶部306はHDDやフラッシュメモリ等によって実現できる。
記憶部306には、コンピュータ300を図33に示す情報処理装置52の各機能部として機能させるための音声認識プログラム320が記憶される。記憶部306に記憶される音声認識プログラム320は、通信プロセス322、認識デコーダプロセス324、音響モデルプロセス326、及び言語モデルプロセス328を含む。
CPU302は、音声認識プログラム320を記憶部306から読み出してメモリ304に展開し、音声認識プログラム320が有する各プロセスを実行する。
CPU302が、音声認識プログラム320を記憶部306から読み出してメモリ304に展開し、音声認識プログラム320を実行することで、コンピュータ300が図33に示す情報処理装置52の各機能部として動作する。具体的には、CPU302が通信プロセス322を実行することで、コンピュータ300が図33に示す通信部54として動作する。また、CPU302が認識デコーダプロセス324を実行することで、コンピュータ300が図33に示す認識デコーダ部42として動作する。また、CPU302が音響モデルプロセス326を実行することで、コンピュータ300が図33に示す音響モデル部44として動作する。また、CPU302が言語モデルプロセス328を実行することで、コンピュータ300が図33に示す言語モデル部48として動作する。
また、CPU302が、辞書格納領域240に含まれる辞書データをメモリ304に展開することで、コンピュータ300が図33に示す辞書46を含む。
なお、情報処理装置52の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
なお、デバイス16が音声認識処理、音声種類特定処理、及び発話処理を情報処理装置52と連携して実行する点以外は、デバイス16における音声字幕化処理、状況通知処理、及び発話処理の流れは、これまで説明した各処理の流れと同じになる。
例えば、デバイス16は、図7に示した音声認識処理のうち、音響分析部40でステップS400の処理を実行し、取得した音響スペクトルの時系列データを無線通信部38に通知する。無線通信部38は、音響分析部40から受け付けた音響スペクトルの時系列データを、無線通信IF27を経由してネットワーク50上の情報処理装置52へ送信する。
情報処理装置52は音響スペクトルの時系列データを受信すると、図7に示した音声認識処理のうち、ステップS401〜S406の処理を行う。この際、ステップS406において、認識デコーダ部42は、ステップS404の処理で字幕化された発話者の発話内容を通信部54へ通知する。そして、通信部54は字幕化された発話者の発話内容を、通信IF29を経由してデバイス16の音源位置特定部32に送信する。
同様に、デバイス16は、図11に示した音声種類特定処理のうち、音響分析部40でステップS400の処理を実行し、取得した音響スペクトルの時系列データを情報処理装置52に送信する。情報処理装置52は音響スペクトルの時系列データを受信すると、図11に示した音声種類特定処理のうち、ステップS408の処理を実行し、音響スペクトルから特定した音の種類をデバイス16に送信する。
また、デバイス16は発話処理において予測表示を実行する際、図29のステップS120の処理で特定した文字と、ステップS130の処理でメモリ204に記憶した、これまでユーザが選択した文字の並びの情報と、を情報処理装置52に送信する。そして、情報処理装置52の言語モデル部48で、特定した文字及びこれまでの文字の並びの情報から文脈の流れに沿った単語の候補を選択し、選択した単語の候補をデバイス16に送信すればよい。
このようにデバイス16がクラウドサービスを利用して音声認識を行う理由は、デバイス16で処理するデータ処理量をデバイス10、12、及び14で処理するデータ処理量より低減させるためである。
デバイス16等に代表されるウェアラブルデバイスは、体に装着して使用することを前提としているため、潜在的なニーズとして、できるだけ軽量且つ小型にすることが求められる。従って、デバイスに内蔵するCPU202及びメモリ204等の部品はできるだけ軽量且つ小型の部品が使用される傾向にある。しかし、部品は軽量且つ小型になるに従って、処理能力及び記憶容量等の性能が低下する場合が多く、デバイス単体で実現できる性能が制限される場合がある。
従って、図33に示すように、情報処理装置52に認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を持たせることで、デバイス16でのデータ処理量を低減し、デバイス16の軽量且つ小型化を実現することができる。
更に、情報処理装置52の処理性能、重量及び大きさ等の仕様に対する制限はないことから、情報処理装置52には、デバイス16に内蔵可能なCPU202及びメモリ204等の部品より高性能の部品を用いることができる。従って、デバイス10、12、及び14に比べて、辞書46に登録できる音響スペクトル及び単語の量が増加すると共に、高速な音声認識が可能となる。結果として、マイク22で収音した音の種類及び音の発生方向の特定に係る時間が短縮されることから、デバイス16はデバイス10、12、及び14に比べて、アイコン及び字幕を表示するまでの時間を短縮することができる。また、デバイス16はデバイス10、12、及び14に比べて、音の種類及び音の発生方向の特定精度を向上させることができる。
また、情報処理装置52で複数のデバイス16の音声認識処理を実行するようにすれば、例えば情報処理装置52の辞書46に登録される音響スペクトル及び単語等を更新することで、複数のデバイス16が利用する辞書46を一括して更新することができる。
なお、第4実施形態では音声認識部34の構成要素のうち、音響分析部40をデバイス16に残す例を示したが、デバイス16に残す機能部と情報処理装置52に移行する機能部をどのように分けるかについての制限はない。
このように、各実施形態に係るデバイス10、12、14、及び16(以降、単に「デバイス」と称す)は、音声字幕化処理及び発話処理を通して、聴覚障がい者に周囲の人とコミュニケーションをとる機能を提供することができる。また、各実施形態に係るデバイスは、状況通知処理を通して聴覚障がい者に周囲の状況を把握する機能を提供することができる。
以上、各実施形態を用いて開示の技術を説明したが、開示の技術は各々の実施形態に記載の範囲には限定されない。開示の技術の要旨を逸脱しない範囲で各々の実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も開示の技術の技術的範囲に含まれる。例えば、開示の技術の要旨を逸脱しない範囲で処理の順序を変更してもよい。
また、各実施形態では、表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320が記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されるものではない。開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、コンピュータ読取可能な記録媒体に記録されている形態で提供することも可能である。例えば、開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、CD−ROM、DVD−ROM、及びUSBメモリ等の可搬型記録媒体に記録されている形態で提供することも可能である。また、開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、フラッシュメモリ等の半導体メモリ等に記録されている形態で提供することも可能である。
なお、各実施形態に係るデバイスに、ユーザ周辺の画像を撮影するカメラを取り付けてもよい。この場合、公知の画像認識処理を用いてカメラで撮影した画像から人物及び車両等、音の発生源になりうると考えられる予め定めた物体の位置を検知する。そして、カメラの画像から検知した物体の位置と、音声信号の到達時間のずれから特定した音の発生方向の情報と組み合わせることで、音の発生源の位置を特定することができる。
このように、音声信号の到達時間のずれから特定した音の発生方向を物体の位置に合わせて修正することができるため、単に音声信号の到達時間のずれから音の発生方向を特定する場合と比較して、音の発生源の位置を精度よく特定することができる。

Claims (11)

  1. マイクと、
    ディスプレイと、
    該マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を示す情報を前記ディスプレイに表示する制御を行う制御部と、
    視線を検知する視線検知部と、
    を含むウェアラブルデバイスであって、
    前記制御部は、前記音の発生源が前記ウェアラブルデバイスの装着者の視線の方向に応 じた視野内に含まれるか否かに応じて、前記発生方向を示す情報を異なる形態で前記ディ スプレイに表示することを特徴とするウェアラブルデバイス。
  2. マイクと、
    ディスプレイと、
    該マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を 示す情報を前記ディスプレイに表示する制御を行う制御部と、
    を含むウェアラブルデバイスであって、
    前記制御部は、
    前記発生方向を示す情報を、前記ディスプレイにおける、前記発生方向に対応する位置 に表示し、
    互いに異なる発生方向のそれぞれに対応する前記ディスプレイにおける位置が同じであ る場合、当該異なる発生方向に応じて前記ディスプレイ上の同じ位置に異なるマークを表 示する又は前記ディスプレイ上の同じ位置に同じマークを異なる態様で表示することを特 徴とするウェアラブルデバイス。
  3. 前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
    ことを特徴とする請求項1又は請求項2に記載のウェアラブルデバイス。
  4. 前記情報の表示は、呼びかけに対応する所定のアイコン又は文字の表示である、
    ことを特徴とする請求項1〜請求項3の何れかに記載のウェアラブルデバイス。
  5. 前記制御部は、前記発生方向を示す情報を、前記ディスプレイにおける、前記発生方向に対応する位置に表示する、
    ことを特徴とする請求項1に記載のウェアラブルデバイス。
  6. 前記制御部は、前記ウェアラブルデバイスが装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
    ことを特徴とする請求項1〜請求項5の何れかに記載のウェアラブルデバイス。
  7. 前記制御部は、前記発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
    ことを特徴とする請求項1〜請求項6の何れかに記載のウェアラブルデバイス。
  8. コンピュータが、
    マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を示す情報をウェアラブルデバイスに備えられたディスプレイに表示し、
    前記ウェアラブルデバイスに備えられた視線検知部に視線を検知させ、前記音の発生源 が前記ウェアラブルデバイスの装着者の視線の方向に応じた視野内に含まれるか否かに応 じて、前記発生方向を示す情報を異なる形態で前記ディスプレイに表示する、
    処理を実行することを特徴とする表示制御方法。
  9. コンピュータが、
    マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を示 す情報を、ウェアラブルデバイスに備えられたディスプレイにおける、前記発生方向に対 応する位置に表示し、
    互いに異なる発生方向のそれぞれに対応する前記ディスプレイにおける位置が同じであ る場合、当該異なる発生方向に応じて前記ディスプレイ上の同じ位置に異なるマークを表 示する又は前記ディスプレイ上の同じ位置に同じマークを異なる態様で表示する、
    処理を実行することを特徴とする表示制御方法。
  10. マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を示す情報をウェアラブルデバイスに備えられたディスプレイに表示し、
    前記ウェアラブルデバイスに備えられた視線検知部に視線を検知させ、前記音の発生源 が前記ウェアラブルデバイスの装着者の視線の方向に応じた視野内に含まれるか否かに応 じて、前記発生方向を示す情報を異なる形態で前記ディスプレイに表示する、
    処理をコンピュータに実行させることを特徴とする表示制御プログラム。
  11. コンピュータが、
    マイクで収音した音を解析して、該音の発生方向を特定し、特定した前記発生方向を示 す情報を、ウェアラブルデバイスに備えられたディスプレイにおける、前記発生方向に対 応する位置に表示し、
    互いに異なる発生方向のそれぞれに対応する前記ディスプレイにおける位置が同じであ る場合、当該異なる発生方向に応じて前記ディスプレイ上の同じ位置に異なるマークを表 示する又は前記ディスプレイ上の同じ位置に同じマークを異なる態様で表示する、
    処理を実行することを特徴とする表示制御方法。
JP2016558497A 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム Active JP6447636B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/079998 WO2016075780A1 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2016075780A1 JPWO2016075780A1 (ja) 2017-10-26
JP6447636B2 true JP6447636B2 (ja) 2019-01-09

Family

ID=55953893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016558497A Active JP6447636B2 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

Country Status (4)

Country Link
US (1) US20170243520A1 (ja)
EP (1) EP3220374A4 (ja)
JP (1) JP6447636B2 (ja)
WO (1) WO2016075780A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200135150A1 (en) * 2017-04-26 2020-04-30 Sony Corporation Information processing device, information processing method, and program
JP2019057047A (ja) 2017-09-20 2019-04-11 株式会社東芝 表示制御システム、表示制御方法及びプログラム
JP7175101B2 (ja) * 2018-05-10 2022-11-18 日本放送協会 音声特性処理装置、音声認識装置およびプログラム
CN108762494B (zh) * 2018-05-16 2021-06-29 北京小米移动软件有限公司 显示信息的方法、装置及存储介质
US11468904B2 (en) * 2019-12-18 2022-10-11 Audio Analytic Ltd Computer apparatus and method implementing sound detection with an image capture system
JP2023106649A (ja) * 2020-06-15 2023-08-02 ソニーグループ株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US11610356B2 (en) * 2020-07-28 2023-03-21 Samsung Electronics Co., Ltd. Method and electronic device for providing sign language
WO2023058451A1 (ja) * 2021-10-04 2023-04-13 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
US11857877B2 (en) * 2021-12-23 2024-01-02 Ati Technologies Ulc Automatic in-game subtitles and closed captions
CN114550430A (zh) * 2022-04-27 2022-05-27 北京亮亮视野科技有限公司 基于ar技术的文字提醒方法和装置
WO2024018472A1 (en) * 2022-07-21 2024-01-25 IDESOL Solutions LLP System and method for non-touchscreen based interoperability of master and slave devices

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099418A (ja) * 2003-09-25 2005-04-14 Casio Comput Co Ltd オブジェクト表示装置およびプログラム
JP5286667B2 (ja) * 2006-02-22 2013-09-11 コニカミノルタ株式会社 映像表示装置、及び映像表示方法
JP2007334149A (ja) * 2006-06-16 2007-12-27 Akira Hata 聴覚障害者用ヘッドマウントディスプレイ装置
JP2010048851A (ja) * 2008-08-19 2010-03-04 Olympus Imaging Corp 表示装置および表示方法
DE102010027277B4 (de) * 2010-07-15 2016-11-17 Siemens Healthcare Gmbh Verfahren und Vorrichtung zur Aufzeichnung bzw. Auswertung und Darstellung von medizinischen Abbildungsdatensätzen
JP5666219B2 (ja) * 2010-09-10 2015-02-12 ソフトバンクモバイル株式会社 眼鏡型表示装置及び翻訳システム
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
WO2013064914A1 (en) * 2011-10-31 2013-05-10 Sony Ericsson Mobile Communications Ab Amplifying audio-visual data based on user's head orientation
US8970452B2 (en) * 2011-11-02 2015-03-03 Google Inc. Imaging method
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9129430B2 (en) * 2013-06-25 2015-09-08 Microsoft Technology Licensing, Llc Indicating out-of-view augmented reality images

Also Published As

Publication number Publication date
WO2016075780A1 (ja) 2016-05-19
JPWO2016075780A1 (ja) 2017-10-26
US20170243520A1 (en) 2017-08-24
EP3220374A1 (en) 2017-09-20
EP3220374A4 (en) 2018-07-18

Similar Documents

Publication Publication Date Title
JP6447636B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP6555272B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP6551417B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US10747315B2 (en) Communication and control system and method
US8909530B2 (en) Apparatus, method, and computer readable medium for expedited text reading using staged OCR technique
CN107003823B (zh) 头戴式显示装置及其操作方法
JP2008139762A (ja) プレゼンテーション支援装置および方法並びにプログラム
KR20160017593A (ko) 글라스형 웨어러블 디바이스를 이용한 탈출경로 제공방법 및 프로그램
JP2016126188A (ja) 音声情報表示装置
JP2016194612A (ja) 視覚認識支援装置および視覚認識支援プログラム
KR20160007341A (ko) 글라스형 웨어러블 디바이스의 버스도착 알림방법 및 이를 이용한 글라스형 웨어러블 디바이스용 프로그램
KR102242719B1 (ko) 스마트 안경 추적 방법과 장치, 및 스마트 안경과 저장 매체
KR20160015142A (ko) 글라스형 웨어러블 디바이스를 이용한 긴급시 비상연락방법 및 프로그램
KR101728707B1 (ko) 글라스형 웨어러블 디바이스를 이용한 실내 전자기기 제어방법 및 제어프로그램
US10643636B2 (en) Information processing apparatus, information processing method, and program
JP2017037212A (ja) 音声認識装置、制御方法、及び、コンピュータープログラム
KR101455830B1 (ko) 안경 및 그 제어방법
KR20160025203A (ko) 글라스형 웨어러블 디바이스를 이용한 당구코칭 시스템 및 방법
US20240119684A1 (en) Display control apparatus, display control method, and program
JP2020160004A (ja) 車両用ナビゲーション装置
CN118020046A (zh) 信息处理设备、信息处理方法和程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R150 Certificate of patent or registration of utility model

Ref document number: 6447636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150