JP2024107476A - 音声伝達補償装置、音声伝達補償方法、及びプログラム - Google Patents
音声伝達補償装置、音声伝達補償方法、及びプログラム Download PDFInfo
- Publication number
- JP2024107476A JP2024107476A JP2024097941A JP2024097941A JP2024107476A JP 2024107476 A JP2024107476 A JP 2024107476A JP 2024097941 A JP2024097941 A JP 2024097941A JP 2024097941 A JP2024097941 A JP 2024097941A JP 2024107476 A JP2024107476 A JP 2024107476A
- Authority
- JP
- Japan
- Prior art keywords
- vibration
- user
- signal
- unit
- vibration signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 230000000638 stimulation Effects 0.000 claims abstract description 3
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 7
- 230000000737 periodic effect Effects 0.000 description 23
- 238000002474 experimental method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 210000001260 vocal cord Anatomy 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 208000016354 hearing loss disease Diseases 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/16—Transforming into a non-visible representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/60—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
- H04R25/604—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F11/00—Methods or devices for treatment of the ears or hearing sense; Non-electric hearing aids; Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense; Protective devices for the ears, carried on the body or in the hand
- A61F11/04—Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense
- A61F11/045—Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense using mechanical stimulation of nerves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Neurology (AREA)
- Biophysics (AREA)
- Physiology (AREA)
- Psychology (AREA)
- Heart & Thoracic Surgery (AREA)
- Vascular Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Neurosurgery (AREA)
- Telephone Function (AREA)
Abstract
【課題】ユーザの訓練も大掛かりな装置も必要とせずに、触覚情報を音声聴取に活用することによる音声聴取支援を実現する。【解決手段】ユーザが聴取する音声の弁別を支援する音声伝達補償装置において、音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与えることにより、振動刺激と音声の聴覚入力とをユーザにおいて統合させる呈示部とを備える。【選択図】図3
Description
本発明は、ユーザに対して音声の伝達を補償することで、聴取した音声の弁別を支援する技術に関連するものである。
騒音環境下や聴覚障がい下では、高音やエネルギーの小さい音が人の聴覚から入力されにくくなる。これにより、特に子音の弁別が難しくなり、結果として音声全体の明瞭な聞き取り、そして音声内容の理解を阻害している。
音声の伝達を補償する従来技術として、非特許文献1にはタクチュアルボコーダが開示されている。非特許文献1に開示されたタクチュアルボコーダは、音声入力を複数の帯域に分割し、それぞれの帯域に割り当てた触振動子を振動させることで、聴覚障がい者に話し言葉を触覚により伝達する。
また、非特許文献2には、音声の聴覚入力とともに発話運動に関連した触覚刺激を人為的操作により与えることで、錯覚を生じさせ、聞こえ方を変化させる現象が開示されている。
吉川雅博. (1988) 触振動覚による聴覚障害児の音声知覚と振動器の役割, 聴能言語学研究, 5, 22-28.
Gick, B., & Derrick, D. (2009). Aero-tactile integration in speech perception. Nature, 462(7272), 502.
非特許文献1に開示されたタクチュアルボコーダでは、その利用のために、ユーザとなる聴覚障がい者が振動と音声との対応付けを覚える等の訓練が必要であった。そのため、装置単独では聴取支援の利用に至っていない。
非特許文献2に開示された発話運動に関連した触覚刺激が音声の聴覚入力と統合されるという現象を利用することで、訓練なしでより効果的な聴取支援につなげることが可能となる。しかし、本現象で効果が確認されていた触覚刺激は、空気噴射を発生させるボンベや皮膚を伸ばす力学提示装置等の大掛かりな装置が必要なもののみであり、実用には不向きであった。
本発明は上記の点に鑑みてなされたものであり、ユーザの訓練も大掛かりな装置も必要とせずに、触覚情報を音声聴取に活用することによる音声聴取支援を実現することを可能とする技術を提供することを目的とする。
開示の技術によれば、ユーザが聴取する音声の弁別を支援する音声伝達補償装置であって、
音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、
前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、
前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与えることにより、振動刺激と音声の聴覚入力とをユーザにおいて統合させる呈示部と
を備える音声伝達補償装置が提供される。
音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、
前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、
前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与えることにより、振動刺激と音声の聴覚入力とをユーザにおいて統合させる呈示部と
を備える音声伝達補償装置が提供される。
開示の技術によれば、ユーザの訓練も大掛かりな装置も必要とせずに、触覚情報を音声聴取に活用することによる音声聴取支援を実現することを可能とする技術が提供される。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
(実験について)
本実施の形態に係る技術は、発話運動に関連したバイブレーション(振動)刺激と音声の聴覚入力とをユーザにおいて統合するという現象を利用している。つまり、発話と聴取の関わりによる錯覚現象を基に、音声を伝達することが可能な刺激を触覚としてユーザに呈示することで、聴取支援を行う。まず、上記の現象の根拠となる実験の内容とその結果を説明する。
本実施の形態に係る技術は、発話運動に関連したバイブレーション(振動)刺激と音声の聴覚入力とをユーザにおいて統合するという現象を利用している。つまり、発話と聴取の関わりによる錯覚現象を基に、音声を伝達することが可能な刺激を触覚としてユーザに呈示することで、聴取支援を行う。まず、上記の現象の根拠となる実験の内容とその結果を説明する。
本実験では、10名の対象者に対し、雑音で聞き取りにくくした「ば」及び「ぱ」という音声を聞かせるとともに、様々な長さの振動を手の甲に呈示した。
図1は、「ば」(ba)についての実験結果を示している。図1に示すとおり、200msの時間長の振動を与えたときに、音声が「ば」に聞き取りやすいことが分かった。図2は、「ぱ」(pa)についての実験結果を示している。図2に示すとおり、6.25~12.5msの時間長の振動を与えたときに、音声が「ぱ」に聞き取りやすいことが分かった。
また、実験により、振動開始のタイミングについては、50ms程度の遅延は許容して同様の効果が得られることが分かった。
以下では、音声を聞き、振動の呈示を受ける者を「ユーザ」と呼ぶ。本実施の形態では、ユーザの聴覚からユーザに入力される音声情報が、ユーザにおいて騒音や聴覚障がいによって欠落する場合でも、ユーザの触覚から振動を入力し、残存する聴覚情報との統合を生じさせることで、ユーザが会話等における音声を明瞭に聞き取ることを可能としている。
本実施の形態では、音声伝達補償装置がユーザに対して振動の呈示を行う。なお「ユーザに振動を呈示する」を、「ユーザに振動を与える」、「ユーザに振動を入力する」等と言い換えてもよい。
以下、実施例1、実施例2、変形例により、本実施の形態に係る音声伝達補償装置の構成と動作を詳細に説明する。
(実施例1)
まず、実施例1を説明する。実施例1では、ユーザが会話等におけるリアルタイム音声の聴取を行っているときに、音声伝達補償装置100によりユーザに振動を呈示することで、騒音環境下や聴覚障がい下であっても、ユーザが「ば/ぱ」等の音声を弁別し易くするようにしている。なお、実施例1(及び実施例2)では、有声破裂音/b/,/d/,/g/と無声破裂音/p/,/t/,/k/の弁別を例にして説明している。
まず、実施例1を説明する。実施例1では、ユーザが会話等におけるリアルタイム音声の聴取を行っているときに、音声伝達補償装置100によりユーザに振動を呈示することで、騒音環境下や聴覚障がい下であっても、ユーザが「ば/ぱ」等の音声を弁別し易くするようにしている。なお、実施例1(及び実施例2)では、有声破裂音/b/,/d/,/g/と無声破裂音/p/,/t/,/k/の弁別を例にして説明している。
<装置構成例>
図3に、実施例1における音声伝達補償装置100の構成図を示す。図3に示すように、実施例1における音声伝達補償装置100は、分析部110、変換部120、及び呈示部130を備える。
図3に、実施例1における音声伝達補償装置100の構成図を示す。図3に示すように、実施例1における音声伝達補償装置100は、分析部110、変換部120、及び呈示部130を備える。
音声伝達補償装置100は、例えば、振動素子(バイブレータ)を備えるスマートフォン等であってもよいし、その他の装置であってもよい。
各部の処理内容については後述する動作説明においてフローチャートを参照して説明することとし、ここでは各部の入力と出力を説明する。
分析部110は、音声信号を入力とし、入力された音声信号に含まれる破裂波形の開始時刻から、周期的な波形の開始時刻までの時間長が所定の時間(ここでは例として25msとする。以下同様)以上か未満かの情報を出力する。
なお、破裂波形とは、発声者の調音器官が閉鎖後に急に解放を行うことで生じる破裂の音声波形部分を指す。また、破裂音とは、破裂部(破裂波形の部分)及びその他の音声部分を含む子音(/b/,/p/,/d/,/t/等)全体を指す。
変換部120は、上記時間長が25ms以上か未満かの情報を入力とし、振動信号を出力する。呈示部130は、振動信号を入力とし、振動を出力する。
<音声伝達補償装置100の動作例>
次に、実施例1における音声伝達補償装置100の動作例を説明する。まず、概要を説明する。音声伝達補償装置100においては、まず、分析部110に、ユーザが聞いている音声信号が入力され、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する。
次に、実施例1における音声伝達補償装置100の動作例を説明する。まず、概要を説明する。音声伝達補償装置100においては、まず、分析部110に、ユーザが聞いている音声信号が入力され、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する。
次に、変換部120が、分析部110から出力された音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する。続いて、呈示部130が、変換部120から出力された振動信号を入力し、当該振動信号に基づいて、上記時間長の振動をユーザに与える。
実施例1において、特定の種類の音は破裂音であり、分析部110は、当該破裂音における破裂波形の開始時刻から周期的な波形の開始時刻までの時間長が所定の閾値以上か否かを示す情報を、音響的特徴として出力することとしている。
以下、実施例1における音声伝達補償装置100の動作例を、図4のフローチャートの手順に沿って詳細に説明する。また、適宜、音声波形を示す図5を参照する。
ば/ぱ等の破裂音の音声信号の波形である図5に示すとおり、当該音声信号に含まれる破裂音は、破裂波形から開始し、一定時間後に周期的な波形が開始するという性質を有している。分析部110の処理はこのような性質に基づいている。
図4のS101において、音声信号が入力された分析部110は、当該音声信号の波形から破裂波形を検出し、破裂波形の開始時刻t1を記録する。
開始時刻の取得方法は、特定の方法に限定されないが、例えば、一般的に破裂子音の検出に用いられるスペクトルのローカルピークを検出する方法、あるいは、50msから100msの無音区間後に出現する5msから40msのバースト波形を検出する方法を用いることができる。
S102において、分析部110は、破裂波形直後の、周期的な波形を検出し、周期的な波形の開始時刻t2を記録する。
S103において、分析部110は、破裂波形の開始から周期的な波形が開始するまでの時間長t2―t1=Tを算出する。TはVoice Onset Timeと呼ばれる。S101~S103におけるt1、t2、Tの具体例は図5に示すとおりである。
S104において、分析部110は、Tと所定の閾値との大小関係を比較する。所定の閾値として、弁別したい2つの音を識別可能とする値を事前に実験等で求め、分析部110に設定しておくものとする。ここでは、例えば「b」と「p」を弁別することを想定して、所定の閾値を25msとする。
分析部110は、Tが所定の閾値(25ms)未満であると判定すれば、S105において0を出力し、Tが所定の閾値(25ms)以上であると判定すれば、S108において1を出力する。分析部110から出力された0又は1は、変換部120に入力される。
破裂波形の一定時間後に開始する周期的な波形は声帯振動を示し、有声破裂音では破裂から声帯振動の開始までの時間が短く、無声破裂音では長いという特徴がある。そのため、分析部110の出力が0のときは、入力された音声信号(破裂音)は「b」に該当し、分析部110の出力が1のときは、入力された音声信号(破裂音)は「p」に該当すると判断できる。なお、所定の閾値を25msとすることは一例であり、個人差等を考慮して25ms以外の値を設定することとしてもよい。0又は1の値についてもTが所定の閾値未満であるか否かを表す情報であればよく、これに限るものではない。
変換部120に対して分析部110から0が入力された場合、S106において、変換部120は、一音節の時間長程度(例:200ms±50%)の振動刺激を呈示するための振動信号を生成し、出力する。出力された振動信号は呈示部130に入力される。
変換部120に対して分析部110から1が入力された場合、S109において、変換部120は、ユーザ(人)が振動を感じられる最短周期程度(例:10ms±50%)の時間長の振動刺激を呈示するための振動信号を生成し、出力する。出力された振動信号は呈示部130に入力される。
振動信号により振動を呈示する時間長、振動信号の種類は、呈示部130を実装する装置(例:スマートフォンの振動素子)に応じて決めることとしてもよい。また、200ms及び10msは、前述した実験に基づく一例であり、個人差等を考慮して、これら以外の値を個人に適した値として設定することとしてもよい。
呈示部130は振動素子(振動子と称してもよい)を含む。S107、S110のそれぞれにおいて、振動信号が入力された呈示部130は、当該振動信号に基づいて、振動素子を駆動させることにより、ユーザに振動を呈示する。
呈示部130は、例えばスマートフォン等に含まれる振動素子及びそれを駆動する機能からなる機能部であり、当該振動素子を駆動させることで振動を呈示する。振動を呈示するユーザの身体部位は例えば手等であるが、これに限るものではない。音声の破裂部から振動の呈示までに、50msまでの遅延であれば本現象の効果は保持され、ユーザにおいてリアルタイムの音声と振動の統合が生じることが保証される。なお、許容される遅延が「50ms」であることは一例である。図5には、200msの振動呈示の例が示されている。
上述した実施例1に係る技術により、ユーザの訓練も大掛かりな装置も必要とせず、触覚情報(振動)を音声聴取に活用することで、騒音環境下や聴覚障がい下であっても、紛らわしい音の弁別を可能とするように音声聴取を支援することができる。
(実施例2)
実施例1では、ユーザが会話等におけるリアルタイム音声の聴取を行う場合を例にして説明したが、本発明に係る技術の適用先はこれに限るものではない。例えば、ニュース等の録音された音声の聴取においても、本発明に係る技術を適用できる。
実施例1では、ユーザが会話等におけるリアルタイム音声の聴取を行う場合を例にして説明したが、本発明に係る技術の適用先はこれに限るものではない。例えば、ニュース等の録音された音声の聴取においても、本発明に係る技術を適用できる。
ニュース等の録音された音声の聴取に本発明を適用する例を実施例2として説明する。実施例2では、音声信号における破裂波形の生じる時刻と、その破裂波形に対応する音響的特徴(実施例1で説明した0又は1)を対応付けて記憶することで、再生される音声と振動とを同期させ、ユーザに振動を遅延なく呈示し、音声聴取を支援することとしている。
<装置構成例>
図6に、実施例2における音声伝達補償装置200の構成図を示す。図6に示すように、実施例2における音声伝達補償装置200は、分析部210、記憶部220、再生司令部230、変換部240、及び呈示部250を備える。
図6に、実施例2における音声伝達補償装置200の構成図を示す。図6に示すように、実施例2における音声伝達補償装置200は、分析部210、記憶部220、再生司令部230、変換部240、及び呈示部250を備える。
実施例1と同様、音声伝達補償装置200は、例えば、振動素子(バイブレータ)を備えるスマートフォン等であってもよいし、その他の端末であってもよい。
各部の処理内容については後述する動作説明においてフローチャートを参照して説明することとし、ここでは各部の入力と出力を説明する。
分析部210は、音声信号を入力とし、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、その開始(破裂波形kの開始時刻)から周期的な波形が開始するまでの時間長Tkが所定の時間(ここでは例として25msとする。以下同様)以上か未満かの情報とを出力する。ここでは、破裂部が存在する時刻t1_kを破裂波形kの開始時刻としているが、破裂部が存在する時刻は、当該開始時刻以外の時刻であってもよい。
kは、音声信号に含まれる破裂波形の時系列順での出現個数を示す番号(k=0,1,2,…,N。Nは全破裂波形の数)である。なお、N=0である場合は、破裂波形は存在しない。本実施の形態では、破裂波形が存在することを想定するので、N≧1である。
記憶部220は、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、その開始(破裂波形kの開始時刻)から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報とを入力とする。また、記憶部220は、再生司令も入力とする。記憶部220は、再生司令に基づき、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、その開始(破裂波形kの開始時刻)から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報とを出力する。
変換部240は、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、その開始(破裂波形kの開始時刻)から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報とを入力とし、各時刻t1_kにおいて、振動信号を出力する。
呈示部250は、振動信号を入力とし、振動を出力する。再生司令部230は、音声信号の再生開始情報を入力とし、再生司令を出力する。
<音声伝達補償装置200の動作例>
次に、実施例2における音声伝達補償装置200の動作例を、図7のフローチャートの手順に沿って説明する。実施例2における振動呈示のための基本的な処理内容は実施例1での処理内容と同じなので、適宜、図4のフローチャート、及び図5を参照する。なお、実施例2における「時刻」は、録音された音声の始まりを0とした相対的な時刻である。
次に、実施例2における音声伝達補償装置200の動作例を、図7のフローチャートの手順に沿って説明する。実施例2における振動呈示のための基本的な処理内容は実施例1での処理内容と同じなので、適宜、図4のフローチャート、及び図5を参照する。なお、実施例2における「時刻」は、録音された音声の始まりを0とした相対的な時刻である。
S201において、録音された音声の音声信号が入力された分析部210は、音声信号の音響的特徴を分析する。実施例1で説明したとおり、音声に含まれる破裂音は、破裂波形から開始し、一定時間後に周期的な波形が開始するという性質を有している。分析部210の処理はこのような性質に基づいている。実施例2における音響的特徴とは、実施例1と同じく、破裂音における破裂波形の開始時刻から周期的な波形の開始時刻までの時間長が所定の閾値以上か否かを示す情報である。
S201において、より詳細には、破裂波形毎に、図4のS101~S103、S104、S105、S108と同様の処理を行う。ただし、実施例2では、得られた情報を記憶部220に記憶する(図7のS202)。具体的には下記のとおりである。以下、便宜上、図4に示したステップ番号を使用する。
分析部210は、対象の音声信号に含まれる全ての破裂波形とその直後の周期的な波形について時間長Tkを計算するものであり、k毎に、下記のS101~S103、S104、S105、S108を実行する。つまり、下記の処理は、k=1,2,…,Nのそれぞれについて実行される。
S101において、分析部210は、音声信号の波形から破裂波形を検出し、破裂波形の開始時刻t1_kを記録し、出力する。出力された開始時刻t1_kは記憶部220に記憶される。開始時刻の取得方法は、実施例1で説明したとおりである。
S102において、分析部210は、破裂波形直後の、周期的な波形を検出し、周期的な波形の開始時刻t2_kを記録する。
S103において、分析部210は、破裂波形の開始から周期的な波形が開始するまでの時間長t2_k-t1_k=Tkを算出する。
S104において、分析部210は、Tkと所定の閾値との大小関係を比較する。所定の閾値として、弁別したい2つの音を識別可能とする値を事前に実験等で求め、分析部210に設定しておくものとする。ここでは、実施例1と同じく、例えば「b」と「p」を弁別することを想定して、所定の閾値を25msとする。
分析部210は、Tkが所定の閾値(25ms)未満であると判定すれば、S105において0を出力し、Tkが所定の閾値(25ms)以上であると判定すれば、S108において1を出力する。分析部210から出力された0又は1は、記憶部220に記憶される。これにより、記憶部220には、破裂波形k毎に、その開始時刻t1_kと、0又は1とが対応付けて記憶されることになる。
実施例1で説明したとおり、周期的な波形は声帯振動を示し、有声破裂音では破裂から声帯振動の開始までの時間が短く、無声破裂音では長いという特徴がある。そのため、分析部210の出力が0のときは、音声信号(破裂音)は「b」に該当し、分析部210の出力が1のときは、音声信号(破裂音)は「p」に該当すると判断できる。なお、所定の閾値を25msとすることは一例であり、個人差等を考慮して設定すると好適である。
図7のS203において、再生司令部230が再生開始情報を受信する。この再生開始情報は、例えば、上述した処理により記憶部220に格納された情報の元の音声信号の再生が開始されたことを示す情報である。
再生開始情報を受信した再生司令部230は、再生司令を記憶部220に出力する。再生司令を受けた記憶部220は、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、破裂部から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報とを出力する。出力されたこれらの情報は変換部240に入力される。なお、変換部240が再生司令を受信し、それに応じて記憶部220から、各k(k=1~N)についての、破裂部が存在する時刻t1_kと、破裂部から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報とを読み出すこととしてもよい。
図7のS204において、変換部240は、各k(k=1~N)について、その時刻t1_kに、実施例1でのS106、S109と同様にして振動信号を生成し、出力する。振動信号は呈示部250に入力される。具体的には下記のとおりである。
変換部240は、再生開始からの時刻t1_kにおいて、「破裂部から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報」が0であることを検知すると、一音節の時間長程度(例:200ms±50%)の振動刺激を呈示するための振動信号を生成し、出力する。出力された振動信号は呈示部250に入力される。
変換部240は、再生開始からの時刻t1_kにおいて、「破裂部から周期的な波形が開始するまでの時間長Tkが25ms以上か未満かの情報」が1であることを検知すると、予め定められた所定の時間長の振動刺激を呈示するための振動信号、例えば、ユーザ(人)が振動を感じられる最短周期程度(例:10ms±50%)の時間長の振動刺激を呈示するための振動信号を生成し、出力する。出力された振動信号は呈示部250に入力される。
振動信号により振動を呈示する時間長、振動信号の種類は、呈示部250を実装する装置(例:スマートフォンの振動素子)に応じて決めることとしてもよい。また、200ms及び10msは、前述した実験に基づく一例であり、個人差等を考慮して、200ms及び10msとは異なる値を個人に適した値として設定することとしてもよい。
呈示部250は、例えばスマートフォン等に含まれる振動素子及びそれを駆動する機能からなる機能部であり、S205において、当該振動素子を駆動させることで振動を呈示する。振動を呈示するユーザの身体部位は例えば手等であるが、これに限るものではない。音声の破裂部から振動の呈示までに、50msまでの遅延であれば本現象の効果は保持され、ユーザにおいてリアルタイムの音声と振動の統合が生じることが保証される。なお、「50ms」は一例である。
上述した実施例2に係る技術によっても、ユーザの訓練も大掛かりな装置も必要とせず、触覚情報(振動)を音声聴取に活用することで、騒音環境下や聴覚障がい下であっても、紛らわしい音の弁別を可能とするように音声聴取を支援することができる。
(変形例)
実施例1、実施例2では、人の発話時の声帯振動に着目し、有声破裂音/b/,/d/,/g/と無声破裂音/p/,/t/,/k/の弁別を例にして説明したが、これに限るものではない。例えば、鼻音/n/,/m/や摩擦音/s/,/z/等においても、本発明に係る技術を適用し、鼻音/n/,/m/の弁別、摩擦音/s/,/z/の弁別等を支援することができる。つまり、鼻音/n/,/m/や摩擦音/s/,/z/等において、実施例1,2と同様に発話時に生じる皮膚感覚を模した振動をユーザに与えることで、音の弁別を支援できる。皮膚感覚を模した振動時間については、適宜実験等により事前に定めればよい。
実施例1、実施例2では、人の発話時の声帯振動に着目し、有声破裂音/b/,/d/,/g/と無声破裂音/p/,/t/,/k/の弁別を例にして説明したが、これに限るものではない。例えば、鼻音/n/,/m/や摩擦音/s/,/z/等においても、本発明に係る技術を適用し、鼻音/n/,/m/の弁別、摩擦音/s/,/z/の弁別等を支援することができる。つまり、鼻音/n/,/m/や摩擦音/s/,/z/等において、実施例1,2と同様に発話時に生じる皮膚感覚を模した振動をユーザに与えることで、音の弁別を支援できる。皮膚感覚を模した振動時間については、適宜実験等により事前に定めればよい。
(ハードウェア構成例)
本実施の形態における音声伝達補償装置はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、スマートフォン等を含む。
本実施の形態における音声伝達補償装置はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、スマートフォン等を含む。
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図8は、上記コンピュータのハードウェア構成例を示す図である。図8のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。
本実施の形態における入力装置1007は、例えば、音声信号を入力するマイクである。また、入力装置1007が、様々な操作指示を入力するためのタッチパネルを有していてもよい。本実施の形態の出力装置1008は、振動を出力する。
(実施の形態のまとめ)
本明細書には、少なくとも下記の各項に記載した音声伝達補償装置、音声伝達補償方法、及びプログラムが記載されている。
(第1項)
ユーザが聴取する音声の弁別を支援する音声伝達補償装置であって、
音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、
前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、
前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与える呈示部と
を備える音声伝達補償装置。
(第2項)
前記特定の種類の音は破裂音であり、前記分析部は、当該破裂音における破裂波形の開始時刻から周期的な波形の開始時刻までの時間長が所定の閾値以上か否かを示す情報を、前記音響的特徴として出力する
第1項に記載の音声伝達補償装置。
(第3項)
前記音声伝達補償装置は、記憶部を備え、
前記分析部は、前記特定の種類の音を検出した時刻毎に、当該時刻と、当該時刻の音声信号から得られた音響的特徴とを前記記憶部に格納し、
前記変換部は、前記記憶部から読み出した各時刻において、当該時刻における音響的特徴に対応する振動信号を生成し、出力する
第1項又は第2項に記載の音声伝達補償装置。
(第4項)
ユーザが聴取する音声の弁別を支援する音声伝達補償装置が実行する音声伝達補償方法であって、
入力された音声信号における特定の種類の音の音響的特徴を分析する分析ステップと、
前記分析ステップで得られた前記音響的特徴に対応する時間長の振動信号を生成する変換ステップと、
前記変換ステップにより得られた振動信号に基づいて、前記時間長の振動をユーザに与える呈示ステップと
を備える音声伝達補償方法。
(第5項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の音声伝達補償装置における各部として機能させるためのプログラム。
本明細書には、少なくとも下記の各項に記載した音声伝達補償装置、音声伝達補償方法、及びプログラムが記載されている。
(第1項)
ユーザが聴取する音声の弁別を支援する音声伝達補償装置であって、
音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、
前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、
前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与える呈示部と
を備える音声伝達補償装置。
(第2項)
前記特定の種類の音は破裂音であり、前記分析部は、当該破裂音における破裂波形の開始時刻から周期的な波形の開始時刻までの時間長が所定の閾値以上か否かを示す情報を、前記音響的特徴として出力する
第1項に記載の音声伝達補償装置。
(第3項)
前記音声伝達補償装置は、記憶部を備え、
前記分析部は、前記特定の種類の音を検出した時刻毎に、当該時刻と、当該時刻の音声信号から得られた音響的特徴とを前記記憶部に格納し、
前記変換部は、前記記憶部から読み出した各時刻において、当該時刻における音響的特徴に対応する振動信号を生成し、出力する
第1項又は第2項に記載の音声伝達補償装置。
(第4項)
ユーザが聴取する音声の弁別を支援する音声伝達補償装置が実行する音声伝達補償方法であって、
入力された音声信号における特定の種類の音の音響的特徴を分析する分析ステップと、
前記分析ステップで得られた前記音響的特徴に対応する時間長の振動信号を生成する変換ステップと、
前記変換ステップにより得られた振動信号に基づいて、前記時間長の振動をユーザに与える呈示ステップと
を備える音声伝達補償方法。
(第5項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の音声伝達補償装置における各部として機能させるためのプログラム。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100、200 音声伝達補償装置
110、210 分析部
120、240 変換部
130、250 呈示部
220 記憶部
230 再生司令部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
110、210 分析部
120、240 変換部
130、250 呈示部
220 記憶部
230 再生司令部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
Claims (3)
- ユーザが聴取する音声の弁別を支援する音声伝達補償装置であって、
音声信号を入力し、当該音声信号における特定の種類の音の音響的特徴を分析し、当該音響的特徴を出力する分析部と、
前記分析部から出力された前記音響的特徴を入力し、当該音響的特徴に対応する時間長の振動信号を生成し、出力する変換部と、
前記変換部から出力された振動信号を入力し、当該振動信号に基づいて、前記時間長の振動をユーザに与えることにより、振動刺激と音声の聴覚入力とをユーザにおいて統合させる呈示部と
を備える音声伝達補償装置。 - ユーザが聴取する音声の弁別を支援する音声伝達補償装置が実行する音声伝達補償方法であって、
入力された音声信号における特定の種類の音の音響的特徴を分析する分析ステップと、
前記分析ステップで得られた前記音響的特徴に対応する時間長の振動信号を生成する変換ステップと、
前記変換ステップにより得られた振動信号に基づいて、前記時間長の振動をユーザに与えることにより、振動刺激と音声の聴覚入力とをユーザにおいて統合させる呈示ステップと
を備える音声伝達補償方法。 - コンピュータを、請求項1に記載の音声伝達補償装置における各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024097941A JP2024107476A (ja) | 2020-04-30 | 2024-06-18 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022518553A JP7548304B2 (ja) | 2020-04-30 | 2020-04-30 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
PCT/JP2020/018306 WO2021220480A1 (ja) | 2020-04-30 | 2020-04-30 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
JP2024097941A JP2024107476A (ja) | 2020-04-30 | 2024-06-18 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022518553A Division JP7548304B2 (ja) | 2020-04-30 | 2020-04-30 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024107476A true JP2024107476A (ja) | 2024-08-08 |
Family
ID=78331888
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022518553A Active JP7548304B2 (ja) | 2020-04-30 | 2020-04-30 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
JP2024097941A Pending JP2024107476A (ja) | 2020-04-30 | 2024-06-18 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022518553A Active JP7548304B2 (ja) | 2020-04-30 | 2020-04-30 | 音声伝達補償装置、音声伝達補償方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11806213B2 (ja) |
JP (2) | JP7548304B2 (ja) |
WO (1) | WO2021220480A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11352876A (ja) * | 1998-06-08 | 1999-12-24 | Yamatake Corp | 発声発音練習用集音装置および発声発音練習装置 |
US7457741B2 (en) * | 2004-03-30 | 2008-11-25 | National Institute of Advnaced Industrial Science and Technology | Device for transmitting speech information |
JP4012970B2 (ja) * | 2004-03-31 | 2007-11-28 | 独立行政法人産業技術総合研究所 | 音声情報伝達装置 |
US10222864B2 (en) * | 2017-04-17 | 2019-03-05 | Facebook, Inc. | Machine translation of consonant-vowel pairs and syllabic units to haptic sequences for transmission via haptic device |
JP7476598B2 (ja) * | 2020-03-24 | 2024-05-01 | 株式会社Jvcケンウッド | 情報出力装置、情報出力方法及び情報出力プログラム |
-
2020
- 2020-04-30 WO PCT/JP2020/018306 patent/WO2021220480A1/ja active Application Filing
- 2020-04-30 JP JP2022518553A patent/JP7548304B2/ja active Active
- 2020-04-30 US US17/921,243 patent/US11806213B2/en active Active
-
2024
- 2024-06-18 JP JP2024097941A patent/JP2024107476A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021220480A1 (ja) | 2021-11-04 |
JP7548304B2 (ja) | 2024-09-10 |
JPWO2021220480A1 (ja) | 2021-11-04 |
US11806213B2 (en) | 2023-11-07 |
US20230157894A1 (en) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
Janse | Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech | |
St. Louis et al. | Cluttering updated | |
Wingfield | Speech perception and the comprehension of spoken language in adult aging | |
JP2016535305A (ja) | 自閉症における言語処理向上のための装置 | |
Vojtech et al. | The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech | |
Bicevskis et al. | Visual-tactile integration in speech perception: Evidence for modality neutral speech primitives | |
JP7548304B2 (ja) | 音声伝達補償装置、音声伝達補償方法、及びプログラム | |
Summers et al. | Effects of the rate of formant-frequency variation on the grouping of formants in speech perception | |
Franich | Internal and contextual cues to tone perception in Medʉmba | |
Marino et al. | Conversing using WhatsHap: A phoneme based vibrotactile messaging platform | |
JP6918471B2 (ja) | 対話補助システムの制御方法、対話補助システム、及び、プログラム | |
JP5054477B2 (ja) | 補聴装置 | |
Stachurski et al. | Stream segregation of concurrent speech and the verbal transformation effect: Influence of fundamental frequency and lateralization cues | |
KR20190121534A (ko) | 시간차 반복 청취를 위한 이용한 외국어 학습 컨텐츠 생성 방법 및 장치 | |
JPS5879400A (ja) | 補聴器 | |
JP2000276190A (ja) | 発声を必要としない音声通話装置 | |
Jeyalakshmi et al. | Development of Speech Recognition System for Hearing Impaired in Native language | |
US20230038118A1 (en) | Correction method of synthesized speech set for hearing aid | |
Jeyalakshmi et al. | Development of speech recognition system in native language for hearing impaired | |
Patel | Prosody conveys information in severely impaired speech | |
Tomaru et al. | Role of labeling mediation in speech perception: Evidence from a voiced stop continuum perceived in different surrounding sound contexts | |
KR20210085777A (ko) | 말듣기 효율 향상을 위한 화속조절출력 방법 | |
Novak et al. | Audio dilation in real time speech communication | |
Kagomiya et al. | Perception of Japanese Prosodical Phonemes through use of a Bone-conducted Ultrasonic Hearing-aid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240618 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |