JP2015228002A - 複数者間干渉音声雑音を回避した音声入力処理装置 - Google Patents
複数者間干渉音声雑音を回避した音声入力処理装置 Download PDFInfo
- Publication number
- JP2015228002A JP2015228002A JP2014114463A JP2014114463A JP2015228002A JP 2015228002 A JP2015228002 A JP 2015228002A JP 2014114463 A JP2014114463 A JP 2014114463A JP 2014114463 A JP2014114463 A JP 2014114463A JP 2015228002 A JP2015228002 A JP 2015228002A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- voice
- speech
- breathing
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 94
- 238000000034 method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 230000035945 sensitivity Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 10
- 230000029058 respiratory gaseous exchange Effects 0.000 description 7
- 230000003434 inspiratory effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
また、携帯電話などでは、多数の人のいる空間(たとえば、列車内や会議場など)では、うるさいので、使用しないように電源を切っておくか、マナーとして、その空間を出て使用するようになっている。また、相互の発話音が、互いの入力装置に入ってしまい意図しない情報漏えいや騒音になる危険もある。
音声入力による文字や符号、図形への変換装置においても、隣同士の音声の混入は不要な雑音になって、変換結果に誤りが生じ、又、情報漏えいに繋がり、このような場合には、オフィスのような複数者が同居する空間では不都合な状態となる。
このような不都合は避ける必要があった。以下、上記のように、複数者による音声が相互への騒音となり、騒音を回避する必要がある音声処理を複数者間干渉音声雑音回避音声入力処理と呼ぶことにする。すなわち、携帯電話や音声入力により文字変換装置のような複数者が使用する環境では、音声入力処理は、このような処理を行わないと上記の不都合が生じて使えない環境として、使われないか、マナーとして使用が規制される。
音声処理装置は、電話機能や音声文字変換機能自体は、機能として有益なものであるが、複数話者の間では、騒音となって使いにくいものであった。しかしながら、今後、これらの装置を複数話者の間で騒音とならずに規制なく自由に使用できるようにすることは、極めて歓迎すべきことである。
又、本出願人が先に出願した特許文献2のものがある。
特許文献2において、発明者は極微小音領域において、音圧の閾値により、呼吸音を除去する装置を提案した。しかしながら、閾値によっては、極微小音領域より音圧の大きな呼吸音が減衰するその裾野に極微小音領域の音圧と同じ程度の呼吸音領域が残存し、呼吸音の完全な除去は難しいことが分かった。かつ、残存部がその後の処理に影響を与える欠点があることが分かった。その後の処理に利用するための発話音と呼吸音の識別も行っていないので、その後の処理は両者を区別して行うことができない欠点がある。
呼吸音域が除かれた時間域は無音区間になり、特に音種の識別がないので、データは順番に格納され、メモリの容量の低減を図ることはできない欠点がある。
そして、その後の処理に利用するための発話音と呼吸音の識別も行っていない点は、特許文献1においても同様な欠点となっている。
音を入力するマイクロフォンと、マイクロフォンに入力される音声の発話音の音圧が呼吸音と同程度または、それより小さい音圧領域において、マイクロフォンに入力された音声データ内で、呼吸音か発話音かの音種を判別する呼吸音・発話音判別手段と、判別に基づき、発話音を選択する音声信号選択手段と、
音声信号選択手段の電気信号出力を受けて、所望の音声信号処理を行う音声信号処理手段と、これらを制御する制御手段とを有する。
以下詳述する。
音を入力するマイクロフォンと、前記マイクロフォンに入力される音声の発話音の音圧が呼吸音と同程度または、それより小さい音圧領域において、前記マイクロフォンに入力された音声データ内で、前記呼吸音か前記発話音かの音種を判別する呼吸音・発話音判別手段と、前記判別に基づき、前記発話音を選択する音声信号選択手段と、
前記音声信号選択手段の電気信号出力を受けて、所望の音声信号処理を行う音声信号処理手段と、これらを制御する制御手段とを有し、
前記マイクロフォンにおいて、音声入力する場合に複数話者間では相互に干渉雑音となるため使用上の不都合があったが、前記発話音の音圧が前記呼吸音と同程度または、それより小さい音圧で前記音声入力をおこなわせ、前記干渉雑音を回避し、
前記発話音の音圧が小さいことで、前記発話音の音圧に比べ、前記呼吸音が相対的に不都合となったことに対して、前記呼吸音・発話音判別手段は、前記呼吸音か前記発話音を判別し、もって、前記音声信号選択手段が、前記発話音を選択して、前記発話音を前記音声信号処理手段が処理を行うことを特徴とする。
前記呼吸音・発話音判別手段は、前記音データの同じ音種の連続した複数のデータ集団を特定し、前記音声信号選択手段は、前記データ集団ごとの音種を識別可能とする音種識別手段と、前記音種識別に基づいて、前記発話音を選択する信号選択器を有することを特徴とする。
前記音種識別手段は、前記データ集団に識別可能な音種識別符号を付与する音種識別符号付与手段と、さらに、前記データ集団と音種識別符号を関連づけて格納するためのメモリとを備えているか、又は、前記データ集団は音種が識別可能なように音種ごとに区別して格納されるメモリを備えていることを特徴とする。
前記音声信号選択手段は、入力された前記発話音の音圧強度を前記呼吸音を略通常発話の音圧強度に増幅するものであることを特徴とする。
前記発話音を前記呼吸音を上回る略通常発話の音圧強度で前記マイクロフォンから入力する場合に対応するために、前記マイクロフォンの感度又は前記マイクロフォンに繋がるように設けた増幅器の感度を低感度状態に切り替え、前記呼吸音・発話音判別手段、前記音声信号選択手段を介さずに前記音声信号処理手段の処理を行うことを可能とする切替手段を有することを特徴とする。
前記発話音の音圧が呼吸音と同程度または、それより小さい音圧領域に対応しようとしているとき、又は、前記切替手段が前記低感度状態でない状態にある場合、前記マイクロフォンから入力した前記音の音圧が前記呼吸音の音圧を上回る場合に、意図しない混入雑音があったとして区別することを特徴とする。
前記マイクロフォンは、口先直前に配置または、口先とその外部との間で隔絶するための音遮蔽カバーに覆われて配置されることを特徴とする。
前記音声信号処理手段は、携帯電話又は音声入力文字・符号・図形変換装置であることを特徴とする。
発話音の音圧が呼吸音と同程度または、それより小さい領域において、音声入力を行うので、相互の雑音となることが回避でき、微小音になったことで不要かつ邪魔となった呼吸音と必要な発話音を判別、発話音と呼吸音のいずれか(普通は発話音)を選択してこれにより音声入力処理を行わせたので、他人の発話音に影響されず自らの発話音又は呼吸音のみで音声信号処理手段の本来の処理が可能となり、これらが複数話者の環境で使用可能となる。
呼吸音は、呼吸している本人が気にして聞こうとしないと感じない程度なので、少し離れた(隣の)他人には聞こえない。このような状態の音圧レベルならば、他人からの干渉を受けず又は他人に干渉(うるさがられる)を与えずに音声入力を行える。
雑音とならない代わりに、発話音の音圧を小さい状態で入力したのであるから、これと同程度又はそれより大きな呼吸音がマイクロフォンで拾われる。装置の中では発話音のみ(呼吸音は医療機器の場合のみあり)を処理或いは、増幅して処理しなければならない。そのためには、呼吸音と発話音の判別が必要となる。呼吸音と発話音の判別の方法は、多くの手段があるが、一例では、音圧の閾値で判別する、或いは、特許文献1等で知られている非発話音と発話音を区別するためにフラクタル次元数(数学的理論に基づた計算処理を行う)を計算する手法などを用いることができる。呼吸音と発話音の判別に基づいて発話音のみ選択的に複数者間干渉音声雑音を回避の音声信号処理手段において処理が必要になる。それにより、従来、複数話者の間では相互干渉雑音となるため使用できなかった装置の機能が複数話者の環境でもできるということが新たに実現可能となった。因みに、特許文献1には、非発話音と発話音を区別するためにフラクタル次元数(数学的理論に基づた計算処理を行う)を計算する手法が示されている。特許文献1は、非発話を特定して、その結果、非発話音中の溜息を判別し、これを検出して運転士の集中力の低下を検出するものである。
以下、本発明の複数者間干渉音声雑音を回避した音声入力処理装置を実施例に沿って説明する。
マイクロフォン(特に都合がよいのは、単一指向性のマイクロフォン)を話者の口先又は特別の場合は、口腔内、又は口の周りに閉じた閉区間に設置して発話する。2−Bに示すように、通常会話の発話音圧は60dB程度で行われている。これに対して、人間が呼吸をしているときの呼吸音圧は、10〜20dBと言われている。通常会話の発話音圧では、呼吸音圧が極めて小さいので気にならず、又、音圧での区別が容易である。
通常会話の音圧から、どんどん音圧を下げてゆく(小さい声にしてゆく)と、微小発話音として示したように発話音圧が呼吸音とほぼ同じかやや大きい程度になり、他人の耳には聞こえない。そして音圧のみでの両者の区別は難しくなる。ここでの区別は、カオス解析などの数学的アプローチの手段が従来行われるが、計算処理が複雑で重たい処理である。
処理を簡単にする手段として、発話音と呼吸音の空気の流れの揺らぎを含む特性の違いに基づいて区別することが提案できる。
たまたま、他人の大きな発話などが入った場合は、これが邪魔になる。
本願は、微小発話音、極微小発話音を対象にして音声入力を行うことで、複数話者のいる環境で相互の雑音を回避することで、通常は使用が制限されていたものを使用可能とした複数者間干渉音声雑音を回避した音声入力処理装置である。
2−Aには上に述べたことが表にして示している。
横軸に時間をとって、縦軸に音声の強度(音圧)変化を概念的(実際の波形ではなく、波形の存在する範囲を枠囲で)に示している。
3−Aは、音声入力した音の波形を示す。波形を示すデータは、図1の呼吸音・発話音判別手段において、吸気音、呼気音、発話音に判別される。波形を示すデータを判別してゆくには、マイクロフォンからのアナログデータを直接処理する場合と、一旦、AD変換器で処理して、デジタルデータにしたのち処理、又は、一旦メモリに記憶したあとに処理など種々の形態がとれる。データとしては、複数のデータを処理してゆくと、無音区間、または、吸気音、呼気音、発話音のうち、他の種別の音に変わる(特に音種の変化の間には無音区間を挟むことが多い)ので、一つの種別の音域の始端データと終端データが検出されるので、始端データと終端データの間のデータ集団が、一つの種別の音域(音種集団)となる。
3−Bは、判別された音種により、発話音のみ選択したものである。
更に、3−Cでは、発話音のみ選択した中で、発話音のみ増幅(音圧を大きくした)したものである。
このようにして、他人への雑音とならない微小音、極微小音でマイクロフォンから音声入力したことで、呼吸音が邪魔になる小さな発話音だったにも関わらず、装置内では、発話音のみが(増幅されて)、音声信号処理手段に入力され、その処理が行われる。
しかして、複数話者のいる環境でも、携帯電話や、音声文字変換装置などの複数者間干渉音声雑音が気になっていた音声信号処理手段の本来の機能が使用制限無く実現される。
1−Aには、複数者間干渉音声雑音を回避した音声入力処理装置の構成、1−Bには、その処理フローの一例を示す。
1−Aには、マイクロフォン110と呼吸音・発話音判別手段120と音声信号選択手段130と音声信号処理手段140とこれらを制御する制御手段150を示している。
マイクロフォン110で音を拾う。音データは、呼吸音・発話音判別手段120において、呼吸音(呼気音、吸気音)と発話音に判別される。勿論、この音の間には無音区間があることは当然である。呼吸音・発話音判別手段120において、入力されたアナログの音データを直接に判別してもよいが、一旦、AD変換器122にてAD変換し、これをディジタル処理で判断するか、一旦、一時メモリ123に格納した後、読みだして判別してもよい。アナログ処理では、AD変換器122と一時メモリ123は、処理の前には必要ではないことは当然である。その代り、アナログ処理後にAD変換することが必要になる。一般的には、判別手段121は、最初にAD変換器122と一時メモリ123を介してからディジタル処理で判別する方が処理が容易である。
音圧の強度から閾値で判別する場合は、アナログ処理でも可能だが、これも含め、他の判別ではディジタル処理の方が容易である。
判別手段121をディジタル処理で行う構成の例としては、音圧の閾値(この場合はディジタル値)での判別以外に、以下のようなことが可能であり、特許文献1等に示されている。これは、フラクタル次元の分析などを行うものである。尚、フーリエ周波数スペクトル分析(FFT処理)も利用できる。
制御手段150は、すくなくとも、これらの呼吸音・発話音判別手段120、音声信号選択手段130、音声信号処理手段140を制御するものである。
呼吸音より小さい極微小音声を取得する場合は、口先又は特別の場合は口腔内又は、口の周りに閉じた閉区間に設置され、周囲からの音を拾わないように単一指向性のマイクロフォンが好都合である。口腔内又は、口の周りに閉じた閉区間では単一指向性のマイクロフォンでなくとも使用できる。
<音声の特性>
・ 発話は呼気(空気の流れは外向き)の始めからが多い。呼気の途中から始まるのは意図的な場合以外は極めて少ない。
呼気の最初のパターンが現われたら、そこから呼気と次の吸気の区間までは、呼吸音と判断できる。呼気の最初のパターンが現われずに発話になった場合は、発話区間になる。
・ 吸気(空気の流れは内向き)では発話しない。(吸気で発話する言語は世界中で1つ)
・ 呼吸音は、空気の流れが1方向であり、発話に比べ揺らぎがなく、また、時間的長さや繰り返し周期もほぼ一定している。発話は、時間的長さは発話文の長さに依存する。
・ 呼吸音の音圧は、同一個人ではいつも同じような呼吸をしていることで、発話音に比べてばらつきが少ない。
・ 鼻からの呼気では発話しない。
・ 発話音は500Hz以上の成分が多い。呼吸音は500Hz以下の成分が多い。
マイクロフォン110から音入力がなされる。音入力の後には、
1) 呼吸音・発話音判別がなされ、音種集団も確定する。
2) 音声信号(発話音信号)が選択される。増幅可能。
3) 音声信号処理手段に入力され、その本来の機能で処理される。
尚、音種の判別においては、
音圧を閾値で判別することが可能な場合は、閾値1より大きいかを判断する。閾値1は、呼吸音と極微小音の間の音圧値に設定される。例えば、図2の2−Bを参照すると、10dB周辺が適当である。この値は、図3の音声入力の測定値を実際に測定し、呼吸音と発話音の間の適度な値に設定してもよい。音圧が閾値1より小さい場合は、極微小発話音と判断する。音圧が閾値1より大きい場合は、2)音圧が閾値2より大きいかを判断する。閾値2は、呼吸音と通常発話音の間の音圧値に設定される。例えば30dB等が適当である。
音圧が閾値2より小さい場合は、呼吸音と微小発話音は、閾値のみでは判断できない。
この場合は、フラクタル分析、フーリエ周波数スペクトル分析や、前記の<音声の特性>を参照にして判断が可能となる。
音圧が閾値2より大きい場合は、通常発話音が混入したと判断され、「適正レベルで再度入力してください」という指示を出す。時間の進行に沿って、音声入力に対してこの判断処理を繰り返し行う。
図4は、本発明の複数者間干渉音声雑音を回避した音声入力処理装置に使用する音声信号選択手段の他の実施態様と処理フローの一実施態様を示す図である。4−Aには、図1の
音声信号選択手段130を示している。図1の例では、一つの構成であり、呼吸音・発話音判別手段120の結果そのもので、選択を行ってしまえば可能である。しかしながら、一旦、メモリに格納するなど後から選択する場合は、特に、選択のための仕掛けあると好都合である。このように図1とは別の実施態様として、4−Bの構成があげられる。
4−Bにおいて、音声信号選択手段130は、音種識別手段1300と信号選択器1350を備えている。
呼吸音・発話音判別手段120において、データ集団の音種が判別されると、音種識別手段1300において、各データ集団の音種識別が可能にされメモリに格納される。一方、音種識別に基づいて、発話音又は呼吸音を選択することが可能となる。信号選択器1350は、データ集団の音データをこれに関連づいた音種識別を介して予め定められた音種のデータを選択するものである。信号選択器1350からの選択後データは、この予定の音種のデータのみが出力され、次の音声信号処理手段に送られる。
4−Cの動作フローでは、
(1) 音種集団毎に音種識別してメモリに格納する。
(2) 音種識別に基づいて信号選択、データが出力される。
尚、4−A、4−Bにおいて、音声信号選択手段130、信号選択器1350に含ませてよい選択機能以外の処理機能例を挙げると、以下のようなことが可能である。
1)残す。
2)送信する。
3)受信側が認識できるように小さい音を増幅する。
例えば、入力された発話音又は呼吸音の音圧強度は、微小音域、極微小音域では、通常の発話に比べ、音圧が極めて小さいので、前記呼吸音を上回るほぼ通常発話の音圧強度に音声信号選択手段130、信号選択器1350において増幅しておき他に伝送する、或いは、他に伝送後に増幅するなども可能であり、使用上好都合である。実際に、伝送された受信側では、ほぼ通常発話音の音圧で聞くなどの行動が必要だからである。すなわち、微小音域、極微小音域では聞き取りにくいし、周りから得る雑音の方が大きいなどと不都合になるため、そのままでは使われないためである。
4) フィルタをかける。
図5は、本発明の複数者間干渉音声雑音を回避した音声入力処理装置に使用される音種識別手段の具体的実施態様を示す図である。
5−Aにおいて、音種識別手段1300は、呼吸音・発話音判別器120において呼吸音と発話音が判別されたことを受けて、各音種集団毎に音種識別符号付与器1310Aにより音種識別符号を与え、メモリ1320の中のデータメモリ1321に音種識別符号メモリ1322に互いのデータを関連付け(ひもづけ)て格納する。したがって、データメモリ1321の各データ集団は、これに関連した音種識別符号により音種がわかるので、信号選択器1350により選択的に処理される。
5−Bにおいては、音種識別手段1300は、呼吸音・発話音判別器120において呼吸音と発話音が判別されたことを受けて、各音種集団毎に音種別データ振分器1310Bにより、音種別に分けたメモリ、この図では、発話音データメモリ1323、呼吸音データメモリ1324、必要なら無音データメモリ1325に各々格納される。信号選択器1350において、処理を行う場合に、必要な音種集団を順番に読みだし、呼び出した音種集団の始めと終わりの時間位置を音種集団データのデータに付属させて格納しておけば、これによって、データを処理して初期の時間的順番と位置を保持したまま出力できる。この場合には、各音種集団に音種識別符号を与えないが、区別したメモリに格納することで音種識別符号を与えて、これで識別することと同じ機能を果たしている。
尚、無音データメモリ1325において、「必要なら」としたのは、発話音データと呼吸音データに音の並びの時間的な位置(アドレス)が与えれば、空いた時間範囲は無音区間なので、特に無音データを格納しなくてもよい。また、無音区間の時間位置だけメモリに格納してもよい。同様に、呼吸音データが後で不要な場合は、メモリに格納しなくてもよいことは勿論である。
横軸に時間をとって、縦軸に音声の強度変化を概念的(実際の波形ではなく、波形の存在する範囲を枠囲で)に示している。
6−Aは、音声入力した音の波形を示す。波形を示すデータは、図1の呼吸音・発話音判別手段において、吸気音、呼気音、発話音を判別される。波形を示すデータを判別してゆくには、マイクロフォンからのアナログデータを直接処理する場合と、一旦、AD変換器で処理して、デジタルデータにしたのち処理、又は、一旦メモリに記憶したあとに処理など種々の形態がとれる。データとしては、複数のデータを処理してゆくと、無音区間、または、吸気音、呼気音、発話音のうち、他の種別の音に変わるので、一つの種別の音域の始端データと終端データが検出されるので、始端データと終端データの間のデータ集団が、一つの種別の音域(音種集団)となる。したがって、この各音種集団に吸気音、呼気音、発話音、(或いは無音)を示す識別符号を付与するか、又は、各音種ごとに区別して保存などの音種識別をすることが可能となる。例えば、6−Bでは、識別符号を付与する例である。
6−Bは、識別符号として、各音種集団の始端データと終端データに吸気音、呼気音、発話音、(或いは無音)のいずれかであることを示す識別符号(たとえば、この例では、Ks:呼気音の始端、Ke:呼気音の終端、Bs:呼気音の始端、Be:呼気音の終端、Hs:発話音の始端、He:発話音の終端を示す)を各データ集団に付与した状態を示す。
各データ集団のデータは、これらの識別符号に関連づいた状態でメモリに格納される。
6−Aでは、発話音の強度より大きな強度の吸気音と呼気音がある例で書いてある。
発話音がない場合は、吸気音と呼気音を繰り返す。発話音がある場合は、通常は、呼気音のところに発話音がなされ、呼気音の場合より時間幅が長く発話音がなされる。発話音は話す言葉の内容により長さが異なり、息継ぎをしてから追加発話がなされる場合も多いことは周知のことである。
6−Cにおいては、識別符号をもとに選択的に発話音のみを選択していることを示す例である。このように発話音のみを選択して、出力することができる。尚、逆に、発話音ではなく、吸気音と呼気音を処理することも可能である。この応用は、医療分野などで、吸気音と呼気音のみを選択的に処理して、肺や気管の状態を観測することである。
また、発話音の音圧が呼吸音と同程度または、それより小さい音圧領域に対応しようとしているとき、又は、切替手段が低感度状態でない状態にある場合、マイクロフォンから入力した音の音圧が呼吸音の音圧を上回る場合は、周りから意図しない混入雑音(例えば、隣の人の大きな声が入った)があったとして区別することが好ましい。
また、マイクロフォンは、口先直前に配置または、口先とその外部との間で隔絶するための音遮蔽カバーに覆われて配置されることが外部からの雑音混入を避けるために好ましい。
そして、口先直前に配置または、口先とその外部との間で隔絶するための音遮蔽カバーに覆われて配置された状態で使う場合に対して、部屋内で単独の作業を行うなどで、通常発話の音圧で入力したい場合には、例えば、前記マイクロフォンを上記の配置状態以外の配置(例えば、マイクロフォンを口先から離した状態や、音遮蔽カバーを外した状態、或いは、スイッチ切替による等価的配置状態以外状態)に応じて、切替手段を切り替えると好都合である。以上の切替手段の例は、どれにも可能だが、一例を図1の1−Aに切替手段160として示す。
120 呼吸音・発話音判別手段
121 判別手段
122 AD変換器
123 一時メモリ
130 音声信号選択手段
1300 音種識別手段
1310A 音種識別符号付与器
1310B 音種別データ振分器
1320 メモリ
1321 データメモリ
1322 音種識別符号メモリ
1323 発話音データメモリ
1324 呼吸音データメモリ
1325 無音データメモリ
1350 信号選択器
140 音声信号処理手段
150 制御手段
160 切替手段
Claims (9)
- 音を入力するマイクロフォンと、前記マイクロフォンに入力される音声の発話音の音圧が呼吸音と同程度または、それより小さい音圧領域において、前記マイクロフォンに入力された音声データ内で、前記呼吸音か前記発話音かの音種を判別する呼吸音・発話音判別手段と、前記判別に基づき、前記発話音を選択する音声信号選択手段と、
前記音声信号選択手段の電気信号出力を受けて、所望の音声信号処理を行う音声信号処理手段と、これらを制御する制御手段とを有し、
前記マイクロフォンにおいて、音声入力する場合に複数話者間では相互に干渉雑音となるため使用上の不都合があったが、前記発話音の音圧が前記呼吸音と同程度または、それより小さい音圧で前記音声入力をおこなわせ、前記干渉雑音を回避し、
前記発話音の音圧が小さいことで、前記発話音の音圧に比べ、前記呼吸音が相対的に不都合となったことに対して、前記呼吸音・発話音判別手段は、前記呼吸音か前記発話音を判別し、もって、前記音声信号選択手段が、前記発話音を選択して、前記発話音を前記音声信号処理手段が処理を行うことを特徴とする複数者間干渉音声雑音を回避した音声入力処理装置。 - 前記呼吸音・発話音判別手段は、前記音データの同じ音種の連続した複数のデータ集団を特定し、前記音声信号選択手段は、前記データ集団ごとの音種を識別可能とする音種識別手段と、前記音種識別に基づいて、前記発話音を選択する信号選択器を有することを特徴とする請求項1記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記音種識別手段は、前記データ集団に識別可能な音種識別符号を付与する音種識別符号付与手段と、さらに、前記データ集団と音種識別符号を関連づけて格納するためのメモリとを備えているか、又は、前記データ集団は音種が識別可能なように音種ごとに区別して格納されるメモリを備えていることを特徴とする請求項1又は請求項2記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記音声信号選択手段は、入力された前記発話音の音圧強度を前記呼吸音を略通常発話の音圧強度に増幅するものであることを特徴とする請求項1から請求項3のいずれか1つに記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記発話音を前記呼吸音を上回る略通常発話の音圧強度で前記マイクロフォンから入力する場合に対応するために、前記マイクロフォンの感度又は前記マイクロフォンに繋がるように設けた増幅器の感度を低感度状態に切り替え、前記呼吸音・発話音判別手段、前記音声信号選択手段を介さずに前記音声信号処理手段の処理を行うことを可能とする切替手段を有することを特徴とする請求項1から請求項4のいずれか1つに記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記発話音の音圧が呼吸音と同程度または、それより小さい音圧領域に対応しようとしているとき、又は、前記切替手段が前記低感度状態でない状態にある場合、前記マイクロフォンから入力した前記音の音圧が前記呼吸音の音圧を上回る場合に、意図しない混入雑音があったとして区別することを特徴とする請求項1から請求項5のいずれか1つに記載の
複数者間干渉音声雑音を回避した音声入力処理装置。 - 前記マイクロフォンは、口先直前に配置または、口先とその外部との間で隔絶するための音遮蔽カバーに覆われて配置されることを特徴とする請求項1から請求項6のいずれか1つに記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記マイクロフォンを請求項6に記載する配置状態と前記配置状態以外の配置に応じて、前記切替手段を切り替えることを特徴とする請求項7記載の複数者間干渉音声雑音を回避した音声入力処理装置。
- 前記音声信号処理手段は、携帯電話又は音声入力文字・符号・図形変換装置であることを特徴とする請求項1から請求項8のいずれか1つに記載の複数者間干渉音声雑音を回避した音声入力処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114463A JP6519102B2 (ja) | 2014-06-03 | 2014-06-03 | 複数者間干渉音声雑音を回避した音声入力処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114463A JP6519102B2 (ja) | 2014-06-03 | 2014-06-03 | 複数者間干渉音声雑音を回避した音声入力処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015228002A true JP2015228002A (ja) | 2015-12-17 |
JP6519102B2 JP6519102B2 (ja) | 2019-05-29 |
Family
ID=54885487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014114463A Active JP6519102B2 (ja) | 2014-06-03 | 2014-06-03 | 複数者間干渉音声雑音を回避した音声入力処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6519102B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292286A (zh) * | 2017-07-14 | 2017-10-24 | 中国科学院苏州生物医学工程技术研究所 | 基于机器学习的呼吸音鉴别方法及系统 |
JP2019023674A (ja) * | 2017-07-24 | 2019-02-14 | 株式会社システック | 過大音混入対応音声入力装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07312795A (ja) * | 1994-05-18 | 1995-11-28 | Nagano Japan Radio Co | 音声信号処理方法及び装置 |
JP2000148198A (ja) * | 1998-11-17 | 2000-05-26 | Olympus Optical Co Ltd | 音声入力装置 |
JP2005203981A (ja) * | 2004-01-14 | 2005-07-28 | Fujitsu Ltd | 音響信号処理装置および音響信号処理方法 |
JP2007094002A (ja) * | 2005-09-29 | 2007-04-12 | Konami Digital Entertainment:Kk | 音声情報処理装置、音声情報処理方法、ならびに、プログラム |
JP2007264567A (ja) * | 2006-03-30 | 2007-10-11 | Railway Technical Res Inst | 音声中の非発話音声の判別処理方法 |
JP2014063018A (ja) * | 2012-09-21 | 2014-04-10 | Systec:Kk | 極微小音声入力装置 |
-
2014
- 2014-06-03 JP JP2014114463A patent/JP6519102B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07312795A (ja) * | 1994-05-18 | 1995-11-28 | Nagano Japan Radio Co | 音声信号処理方法及び装置 |
JP2000148198A (ja) * | 1998-11-17 | 2000-05-26 | Olympus Optical Co Ltd | 音声入力装置 |
JP2005203981A (ja) * | 2004-01-14 | 2005-07-28 | Fujitsu Ltd | 音響信号処理装置および音響信号処理方法 |
JP2007094002A (ja) * | 2005-09-29 | 2007-04-12 | Konami Digital Entertainment:Kk | 音声情報処理装置、音声情報処理方法、ならびに、プログラム |
JP2007264567A (ja) * | 2006-03-30 | 2007-10-11 | Railway Technical Res Inst | 音声中の非発話音声の判別処理方法 |
JP2014063018A (ja) * | 2012-09-21 | 2014-04-10 | Systec:Kk | 極微小音声入力装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292286A (zh) * | 2017-07-14 | 2017-10-24 | 中国科学院苏州生物医学工程技术研究所 | 基于机器学习的呼吸音鉴别方法及系统 |
CN107292286B (zh) * | 2017-07-14 | 2021-10-22 | 中国科学院苏州生物医学工程技术研究所 | 基于机器学习的呼吸音鉴别方法及系统 |
JP2019023674A (ja) * | 2017-07-24 | 2019-02-14 | 株式会社システック | 過大音混入対応音声入力装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6519102B2 (ja) | 2019-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5740575B2 (ja) | 音声処理装置および音声処理方法 | |
CN105247885B (zh) | 主动噪声降低耳机以及操作主动噪声降低耳机的方法 | |
CN104871556B (zh) | 主动噪声降低耳机 | |
CN104871557B (zh) | 在anr耳机中同时提供音频和环境声音 | |
JP6055108B2 (ja) | バイノーラルテレプレゼンス | |
CN105052170B (zh) | 减小在anr耳机中的闭塞效应 | |
KR102513461B1 (ko) | 헤드폰 시스템 | |
EP2439961B1 (en) | Hearing aid, hearing assistance system, walking detection method, and hearing assistance method | |
JP2016533529A (ja) | 周囲環境からの会話のプライバシー保護 | |
JP2014174255A (ja) | 信号処理装置、信号処理方法及び記憶媒体 | |
KR20150018727A (ko) | 청각 기기의 저전력 운용 방법 및 장치 | |
US11516599B2 (en) | Personal hearing device, external acoustic processing device and associated computer program product | |
JP2017507602A (ja) | 遠隔会議における知覚的に連続的な混合 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
KR102577901B1 (ko) | 오디오 신호 처리 장치 및 방법 | |
WO2008015800A1 (fr) | procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole | |
WO2016033006A1 (en) | A mask that provides privacy in telephone communications conducted in public | |
JP2015228002A (ja) | 複数者間干渉音声雑音を回避した音声入力処理装置 | |
JP6061069B2 (ja) | 極微小音声入力装置 | |
KR102350890B1 (ko) | 휴대용 청력검사장치 | |
JP2015213278A (ja) | 会話音声レベル通知システム及び会話音声レベル通知方法 | |
US20210076134A1 (en) | Method for operating a hearing device, and hearing device | |
JP2013540379A (ja) | プライバシー及び個人使用のための背景音除去 | |
US20100094619A1 (en) | Audio frequency remapping | |
JP2019023674A (ja) | 過大音混入対応音声入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180626 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190115 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6519102 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |