JP2021022883A - 音声増幅装置及びプログラム - Google Patents
音声増幅装置及びプログラム Download PDFInfo
- Publication number
- JP2021022883A JP2021022883A JP2019139211A JP2019139211A JP2021022883A JP 2021022883 A JP2021022883 A JP 2021022883A JP 2019139211 A JP2019139211 A JP 2019139211A JP 2019139211 A JP2019139211 A JP 2019139211A JP 2021022883 A JP2021022883 A JP 2021022883A
- Authority
- JP
- Japan
- Prior art keywords
- sound amplifier
- voice
- unit
- amplification
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ユーザの音声を話し相手に伝わりやすくすると共に、ユーザのストレスを低減させる音声増幅装置を提供する。【解決手段】音声増幅装置1は、音声マイク40と環境マイク50と制御部と増幅部とスピーカ70と、を有する。音声マイクはユーザの音声を音声電気信号に変換し、環境マイクはユーザ周辺の環境音響を環境音電気信号に変換する。制御部は、解析部と、検出部と、設定部と、を有する。解析部は、音声電気信号の周波数スペクトル及び環境音響電気信号の周波数スペクトルを解析する。検出部は、ユーザのストレスをストレス指数として検出する。設定部は音声電気信号の周波数スペクトルと環境音響電気信号の周波数スペクトルとストレス指数とに基づいて増幅パラメータを設定する。増幅部は、増幅パラメータに基づいて入力された音声電気信号を増幅する。スピーカは、増幅された音声電気信号に対応する音声を出力する。【選択図】図1
Description
本発明は、音声増幅装置及びプログラムに関する。
雑音環境下において音声を強調する技術がある。特許文献1には、音声の明瞭性に影響を与えるフォルマント帯域のSN比を改善するように音声の周波数のスペクトルを制御することで、様々な特定を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映させる音声強調装置が記載されている。
しかし、ユーザの音声が増幅された場合であっても、話し相手に音声が伝わらない場合もある。このような場合、ユーザのストレスとなっていた。特許文献1の技術では、ユーザがストレスを感じても、音声の増幅には何ら反映されないため、音声が伝われない状態は継続し、ユーザのストレスは低減されない問題があった。
本発明は、かかる事情を鑑みてなされたものであり、ユーザの音声を話し相手に伝わりやすくすると共に、ユーザのストレスを低減させる技術を提供することを目的とする。
本発明の一態様によれば、音声増幅装置であって、音声マイクと、環境マイクと、制御部と、増幅部と、スピーカと、を有し、前記音声マイクは、ユーザの音声を音声電気信号に変換し、前記環境マイクは、ユーザ周辺の環境音響を環境音電気信号に変換し、前記制御部は、解析部と、検出部と、設定部と、を有し、前記解析部は、前記音声電気信号の周波数スペクトルである第1周波数スペクトル及び前記環境音響電気信号の周波数スペクトルである第2周波数スペクトルを解析し、前記検出部は、ユーザのストレスをストレス指数として検出し、前記設定部は、前記第1周波数スペクトルと前記第2周波数スペクトルと前記ストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定し、前記増幅部は、前記増幅パラメータに基づいて、入力された前記音声電気信号を増幅し、前記スピーカは、前記増幅された音声電気信号に対応する音声を出力する、音声増幅装置が提供される。
本発明の一態様に係る音声増幅装置では、ユーザの音声を話し相手に伝わりやすくすると共に、ユーザのストレスを低減させる技術を提供することができる。
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事
特に、本明細書において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、0又は1で構成される2進数のビット集合体として信号値の高低によって表され、広義の回路上で通信・演算が実行されうる。
特に、本明細書において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、0又は1で構成される2進数のビット集合体として信号値の高低によって表され、広義の回路上で通信・演算が実行されうる。
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.音声増幅装置1の概要
図1は、音声増幅装置1の外観の一例を示す図である。音声増幅装置1は、音声マイク40、環境マイク50、スピーカ70を備える。本実施形態では、音声増幅装置1は、ウェアラブルデバイスであって、眼鏡のように両耳の上に掛ける形態である。但し、他の例として、首掛けヘッドホンのように首に掛ける形態であってもよい。音声マイク40は、ユーザの音声を取得する。環境マイク50は、ユーザの周辺の環境音を取得する。スピーカ70は、音声を出力する。なお、音声マイク40、環境マイク50、スピーカ70の数及び配置位置は図1に示した態様に限られない。
図1は、音声増幅装置1の外観の一例を示す図である。音声増幅装置1は、音声マイク40、環境マイク50、スピーカ70を備える。本実施形態では、音声増幅装置1は、ウェアラブルデバイスであって、眼鏡のように両耳の上に掛ける形態である。但し、他の例として、首掛けヘッドホンのように首に掛ける形態であってもよい。音声マイク40は、ユーザの音声を取得する。環境マイク50は、ユーザの周辺の環境音を取得する。スピーカ70は、音声を出力する。なお、音声マイク40、環境マイク50、スピーカ70の数及び配置位置は図1に示した態様に限られない。
音声増幅装置1は、周囲の環境音に含まれるノイズを分析し、ユーザーの音声と干渉しにくい周波数帯において、ユーザーの音声を表す音声データを増幅する。これにより、音声増幅装置1のスピーカ70から出力されるユーザの音声は、ノイズの多い環境下でも声が通りやすくなるように拡張される。ユーザは、音声増幅装置1を用いることにより、騒がしい環境に行くと周りの音と自分の声の周波数帯が干渉し、声が伝わりづらくなる問題を解決することができる。
図2に示すように、音声増幅装置1は、制御部10、通信部20、記憶部30、音声マイク40、環境マイク50、増幅部60、スピーカ70、生体情報計測部80を備える。
<通信部20>
通信部20は、他の機能部材又は他の音声増幅装置と有線又は無線によりデータ通信可能に構成される。本実施形態では、通信部20は、所定の範囲に存在する他のユーザの音声増幅装置と通信し、他のユーザの音声増幅装置に設定された増幅周波数帯域に関するパラメータを取得可能に構成される。ここで、増幅周波数帯域については後述する。
通信部20は、他の機能部材又は他の音声増幅装置と有線又は無線によりデータ通信可能に構成される。本実施形態では、通信部20は、所定の範囲に存在する他のユーザの音声増幅装置と通信し、他のユーザの音声増幅装置に設定された増幅周波数帯域に関するパラメータを取得可能に構成される。ここで、増幅周波数帯域については後述する。
<音声マイク40及び環境マイク50>
音声マイク40は、ユーザーの音声を収集するものであり、ユーザの音声を音声電気信号に変換する。環境マイク50は、ユーザーの周辺の環境音を収集するものであり、環境音を電気信号に変換する。
音声マイク40は、ユーザーの音声を収集するものであり、ユーザの音声を音声電気信号に変換する。環境マイク50は、ユーザーの周辺の環境音を収集するものであり、環境音を電気信号に変換する。
<増幅部60>
増幅部60は、増幅パラメータに基づいて、入力された音声電気信号を増幅する。ここで、増幅パラメータは、増幅周波数帯域と増幅率とを含むパラメータである。本実施形態における増幅周波数帯域は、ユーザーの音声に対応する音声電気信号に含まれる周波数のうち、増幅部60が増幅する周波数帯域を表す。また、増幅率は、増幅部60により増幅される度合いを表す。
増幅部60は、増幅パラメータに基づいて、入力された音声電気信号を増幅する。ここで、増幅パラメータは、増幅周波数帯域と増幅率とを含むパラメータである。本実施形態における増幅周波数帯域は、ユーザーの音声に対応する音声電気信号に含まれる周波数のうち、増幅部60が増幅する周波数帯域を表す。また、増幅率は、増幅部60により増幅される度合いを表す。
<スピーカ70>
スピーカ70は、増幅部60により増幅された音声電気信号に対応する音声を出力する。なお、スピーカ70は、増幅部60により増幅されていない音声電気信号に対応する音声を出力することもできる。
スピーカ70は、増幅部60により増幅された音声電気信号に対応する音声を出力する。なお、スピーカ70は、増幅部60により増幅されていない音声電気信号に対応する音声を出力することもできる。
<生体情報計測部80>
生体情報計測部80は、ユーザーの脈拍、脳波、表情、筋電位、発汗、体温、血圧のうち、少なくとも1つ以上の生体情報を計測する。生体情報計測部80は、音声増幅装置1と一体型のセンサーでもよく、音声増幅装置1と別に設けられたセンサーでもよい。また、生体情報計測部80は、ウェアラブル端末に実装されるバイタルデータ収集機能により実現されてもよい。この場合、ウェアラブル端末と生体情報計測部80がデータ通信可能に構成され、ウェアラブル端末により収集されたバイタルデータが音声増幅装置1に送信される。さらに、任意のカメラを用いて画像処理により発汗等を計測することもできる。
生体情報計測部80は、ユーザーの脈拍、脳波、表情、筋電位、発汗、体温、血圧のうち、少なくとも1つ以上の生体情報を計測する。生体情報計測部80は、音声増幅装置1と一体型のセンサーでもよく、音声増幅装置1と別に設けられたセンサーでもよい。また、生体情報計測部80は、ウェアラブル端末に実装されるバイタルデータ収集機能により実現されてもよい。この場合、ウェアラブル端末と生体情報計測部80がデータ通信可能に構成され、ウェアラブル端末により収集されたバイタルデータが音声増幅装置1に送信される。さらに、任意のカメラを用いて画像処理により発汗等を計測することもできる。
<制御部10>
制御部10は、解析部101、検出部102、設定部103、認識部104、モード制御部105を備える。
制御部10は、解析部101、検出部102、設定部103、認識部104、モード制御部105を備える。
<解析部101>
解析部101は、音声電気信号の周波数スペクトルである第1周波数スペクトル及び環境音電気信号の周波数スペクトルである第2周波数スペクトルを解析する。解析部101は、例えばケプストラム解析を利用して第1周波数スペクトル及び第2周波数スペクトルを解析する。具体的には、解析部101は、第1周波数スペクトルに含まれるピークの周期性を特定することにより、音声に含まれる倍音f0を推定する。また、解析部101は、第2周波数スペクトルのうち、比較的空いている周波数帯域を特定する。
解析部101は、音声電気信号の周波数スペクトルである第1周波数スペクトル及び環境音電気信号の周波数スペクトルである第2周波数スペクトルを解析する。解析部101は、例えばケプストラム解析を利用して第1周波数スペクトル及び第2周波数スペクトルを解析する。具体的には、解析部101は、第1周波数スペクトルに含まれるピークの周期性を特定することにより、音声に含まれる倍音f0を推定する。また、解析部101は、第2周波数スペクトルのうち、比較的空いている周波数帯域を特定する。
ここで、解析部101は、第2周波数スペクトルを構成する周波数帯域のうち、突発的なノイズであるか、定常的な環境音であるかを推定することが好ましい。そして、第2周波数スペクトルを構成する周波数帯域のうち、定常的な環境音に対応する周波数帯域を避けて音声電気信号を増幅することが好ましい。これにより、定常的な環境音との干渉を低減させ、ユーザーの音声を効率的に増幅することができる。
<検出部102>
検出部102は、ユーザのストレスをストレス指数として検出する。ここで、ストレス指数とは、予め定められた指数であって、ユーザーの感じているストレスの度合いを表すものである。ストレス指数の定め方は任意であり、絶対値で表してもよく、割合で表してもよい。
検出部102は、ユーザのストレスをストレス指数として検出する。ここで、ストレス指数とは、予め定められた指数であって、ユーザーの感じているストレスの度合いを表すものである。ストレス指数の定め方は任意であり、絶対値で表してもよく、割合で表してもよい。
検出部102は、ユーザの音声の周波数スペクトルに含まれるスペクトルピークの時間的繰り返しから、ストレス指数を検出してもよい。具体的には、環境音の存在下でユーザーが話している場合に、環境音が大きいために他の人物に声が届かないと、ユーザーは話の内容を何回も繰り返すことがある。このとき、特定の単語やフレーズが繰り返されると、ユーザの音声の周波数スペクトルに含まれるスペクトルピークが周期的に現れる。以上より、検出部102は、ユーザの音声の周波数スペクトルに含まれるスペクトルピークの時間的繰り返しが観測されると、ユーザーが特定の単語やフレーズを繰り返し伝えようとしていると判断し、ストレス指数が大きく算出される。本実施形態では、時間的繰り返しの回数又は頻度が多いほど、高いストレス指数が検出される。
なお、繰り返されるスペクトルピークの形状が同一、類似又は相似である場合に限られず、異なるスペクトルピークを1組のスペクトルピークとして扱うことも可能である。これは、ユーザーが、特定の意味を表す単語を発声し、続いて同じ意味の単語を別の表現で発声した場合、最初の発声ではうまく相手に伝わらなかったので、異なる言い回しになった場合を想定している。かかる処理は、予め特定の単語又はフレーズに対応するスペクトルピークの形状と、異なる表現に対応するスペクトルピークの形状と、を対応付けて記憶することにより実現される。
さらに、検出部102は、スペクトル分布から声色を推定し、声色の特徴からストレス指数を検出してもよい。具体的には、声色の特徴が緊張状態を表す場合、高いストレス指数が検出される。一方、声色の特徴が緩和状態を表す場合、低いストレス指数が検出される。また、音声の大きさ等を考慮してストレス指数を検出してもよい。
<設定部103>
設定部103は、第1周波数スペクトルと第2周波数スペクトルとストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定する。本実施形態では、第1周波数スペクトルと第2周波数スペクトルを解析し、第2周波数スペクトルの周波数帯域のうち、比較的空いている周波数帯域か、第1周波数スペクトルと近い強度の周波数帯域を増幅周波数帯域として設定する。また、ストレス指数が大きいほど、増幅率を高く設定する。
設定部103は、第1周波数スペクトルと第2周波数スペクトルとストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定する。本実施形態では、第1周波数スペクトルと第2周波数スペクトルを解析し、第2周波数スペクトルの周波数帯域のうち、比較的空いている周波数帯域か、第1周波数スペクトルと近い強度の周波数帯域を増幅周波数帯域として設定する。また、ストレス指数が大きいほど、増幅率を高く設定する。
また、設定部103は、解析部101による解析結果に基づいて、増幅周波数帯域を設定してもよい。例えば、設定部103、第1周波数スペクトルのうち、低周波数側からm個(m:自然数)のピーク位置を含む周波数を増幅周波数帯域として設定してもよい。また、設定部103は、第1周波数スペクトルのうち、レベルが最大となる周波数からレベルが高い順にn個(n:自然数)のピーク位置を含む周波数を増幅周波数帯域として設定してもよい。
さらに、設定部103は、ストレス指数が予め定められた閾値を超えた場合、増幅率をさらに大きく設定してもよい。かかる処理により、音声が増幅された後であっても環境音によっては相手に伝わりにくい場合があり、このときに受けるストレスが閾値を超えた場合には、ユーザーの音声をさらに増幅させることができる。
さらに、設定部103は、解析部101により求められた音声電気信号の基本周波数に対して、整数倍の周波数を含む範囲で増幅周波数帯域を設定してもよい。
さらに、設定部103は、通信部20により取得されたパラメータをもとに、他の音声増幅装置に設定された増幅周波数帯域を避けて自装置(音声増幅装置1)の増幅周波数帯域を設定してもよい。
さらに、音声に含まれる倍音f0を推定し、f1,f2,・・・,fn(n:自然数)を求め、環境音とf1,f2,・・・,fnのスペクトルの大小関係を比較してもよい。そして、音声スペクトルの方が大きい順にn番目までを選択し、選択された周波数ピークを中心に、増幅帯域の幅を決定してもよい。
さらに、音声に含まれるf0の整数倍の倍音を増幅してもよい。例えば、f0が200Hzの場合、400,600,800,1000,1200HZを増幅してもよい。
<認識部104>
認識部104は、音声電気信号からユーザが発する言葉を認識する。そして、検出部102は、認識部104が認識した言葉を含む同義語の繰り返し、又は繰り返しを意味するキーワードの検出から、ストレス指数を検出する。これにより、スペクトルピークの形状が異なる場合であっても、ユーザーが同じような内容を伝えようと繰り返し話をしている場合には、大きいストレス指数を検出することができる。
認識部104は、音声電気信号からユーザが発する言葉を認識する。そして、検出部102は、認識部104が認識した言葉を含む同義語の繰り返し、又は繰り返しを意味するキーワードの検出から、ストレス指数を検出する。これにより、スペクトルピークの形状が異なる場合であっても、ユーザーが同じような内容を伝えようと繰り返し話をしている場合には、大きいストレス指数を検出することができる。
<モード制御部105>
モード制御部105は、音声増幅装置1を通常モードと低電力モードに切り替え可能に構成される。ここで、通常モードとは、音声増幅装置1の種々の機能を発揮できる状態である。また、低電力モードとは、種々の機能を制限し、消費電力を低減させた状態である。
モード制御部105は、音声増幅装置1を通常モードと低電力モードに切り替え可能に構成される。ここで、通常モードとは、音声増幅装置1の種々の機能を発揮できる状態である。また、低電力モードとは、種々の機能を制限し、消費電力を低減させた状態である。
環境音が小さい場合には、音声増幅装置1は低電力モードとなっていることが好ましい。そして、音声増幅装置1は、低電力モードにおいても環境マイク50から環境音を取得し、環境音が所定値より大きくなった場合には、モード制御部105により音声増幅装置1のモードが低電力モードから通常モードに切り替えられる。
また、モード制御部105は、所定の条件が満たされた場合、音声増幅装置1を低電力モードから通常モードに変更してもよい。ここで、所定の条件が満たされた場合とは、例えば、喉の筋電に所定の変化があった場合、又は、ユーザの口が開かれたと判定された場合である。すなわち、音声増幅装置1のユーザーが今から話始める直前に、音声増幅装置1のモードを低電力モードから通常モードに切り替えることにより、スムーズな音声増幅が可能になる。
<記憶部30>
記憶部30は、種々のプログラム及びデータを記憶するものであり、例えばメモリ、ハードディスク、SSD等により構成される。本実施形態では、記憶部30は、ユーザーデータ及びプログラムを記憶する。ここで、ユーザーデータは、ユーザーの氏名、ユーザーID、電子メールアドレス、ストレスの感じやすさ等を対応付けたデータである。プログラムは、制御部10による処理を規定するものである。
記憶部30は、種々のプログラム及びデータを記憶するものであり、例えばメモリ、ハードディスク、SSD等により構成される。本実施形態では、記憶部30は、ユーザーデータ及びプログラムを記憶する。ここで、ユーザーデータは、ユーザーの氏名、ユーザーID、電子メールアドレス、ストレスの感じやすさ等を対応付けたデータである。プログラムは、制御部10による処理を規定するものである。
ここで、音声増幅装置1を構成する各構成要素は、ソフトウェアによって実現してもよく、ハードウェアによって実現してもよい。ソフトウェアによって実現する場合、CPUがプログラムを実行することによって各種機能を実現することができる。プログラムは、内蔵の記憶部に格納してもよく、コンピュータ読み取り可能な非一時的な記録媒体に格納してもよい。また、外部の記憶部に格納されたプログラムを読み出し、いわゆるクラウドコンピューティングにより実現してもよい。ハードウェアによって実現する場合、ASIC、FPGA、又はDRPなどの種々の回路によって実現することができる。本実施形態においては、様々な情報やこれを包含する概念を取り扱うが、これらは、0又は1で構成される2進数のビット集合体として信号値の高低によって表され、上記のソフトウェア又はハードウェアの態様によって通信や演算が実行され得るものである。
2.音声増幅装置1の処理
次に、図3及び図4を用いて、音声増幅装置1による処理について説明する。
次に、図3及び図4を用いて、音声増幅装置1による処理について説明する。
図3に示すように、A11において、音声マイク40により、ユーザーの音声が取得される。そして、A12において、解析部101により、音声電気信号の周波数スペクトルである第1周波数スペクトルが解析される。
A21において、環境マイク50により、ユーザーの周囲の環境音が取得される。そして、A22において、解析部101により、環境音響電気信号の周波数スペクトルである第2周波数スペクトルが解析される。
A31において、検出部102により、ユーザーの感じているストレスの度合いを表すストレス指数が検出される。
このとき、検出部102は、ユーザの音声の周波数スペクトルに含まれるスペクトルピークの時間的繰り返しから、ストレス指数を検出してもよい。また、検出部102は、スペクトル分布から声色を推定し、声色の特徴から前記ストレス指数を検出してもよい。また、検出部102は、認識部104認が認識した言葉を含む同義語の繰り返し、又は繰り返しを意味するキーワードの検出から、ストレス指数を検出してもよい。さらに、検出部102は、生体情報計測部80が計測した脈拍、脳波、表情、筋電位、発汗、体温、血圧のうち、少なくとも1つ以上の生体情報に基づいて、ストレス指数を検出してもよい。
ここで、A11,A12と、A21,A22と、A31の処理は、任意の順で実行されてもよく、同時に実行されてもよい。
ここで、図3の例では、A4が実行される時点において、A31で検出したストレス指数が予め定められた閾値以下である場合について説明する。
A4において、設定部103により、第1周波数スペクトルと第2周波数スペクトルとストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータが設定される。
ここで、図4Aに示すように、増幅周波数帯域は、環境音と元の音声の周波数スペクトルのうち、増幅後の音声が環境音に埋もれないような範囲に設定される。
また、設定部103は、解析部101により求められた音声電気信号の基本周波数に対して、整数倍の周波数を含む範囲で増幅周波数帯域を設定してもよい。これにより、複数の倍音を含む複合音のうち、本来存在しない周波数に対応する基本周波数(f0)の音が知覚されるミッシング・ファンダメンタル(missing fundamental)現象を発生させることができる。これにより、相手の脳に低周波の音を知覚させることができ、環境音に阻害されずにユーザーの音声が伝わりやすくなる。
次に、A5において、増幅部60により、増幅パラメータに基づいて、入力された音声電気信号が増幅される。
そして、A6において、スピーカ70により、増幅された音声電気信号に対応する音声が出力される。
ユーザーが音声増幅装置1を利用して増幅された音声で会話をしていた場合でも、環境音によっては相手に音声が伝わりにくい場合がある。そこで、本実施形態では、環境マイク50は、所定のタイミング(一定間隔、ランダムなタイミング、又は常に)で環境音を取得している。そして、ストレス指数が予め定められた閾値以下である状態が続く場合、A4において設定された増幅パラメータが維持される(A72)。一方、ストレス指数が予め定められた閾値を超えた場合、ユーザーの会話が相手に届きづらいと推定されるので、A71において、A4で設定された増幅率をさらに増大させる。
そして、A8において、増幅後の増幅率で音声が出力される。ここで、A8における処理は、設定部103、増幅部60及びスピーカ70により実現される。これにより、図4Bに示すように、さらに増幅された音声は、環境音に負けない強度となる。なお、図4A及び図4Bはあくまで模式図であり、実際のスペクトルを表すものではないことに留意されたい。
3.その他の実施形態
(3−1)他の音声増幅装置との連携
次に、他の音声増幅装置との連携について説明する。本実施形態では、音声増幅装置1の通信部20は、所定の範囲に存在する他のユーザの音声増幅装置と通信し、他のユーザの音声増幅装置に設定された増幅周波数帯域に関するパラメータを取得する。そして、設定部103は、通信部20により取得されたパラメータをもとに、他のユーザの音声増幅装置に設定された増幅周波数帯域を避けて自装置(音声増幅装置1)の増幅周波数帯域を設定する。これにより、他のユーザーの音声増幅装置により増幅された他のユーザーの音声と、音声増幅装置1により増幅されたユーザーの音声の干渉を低減することができる。
(3−1)他の音声増幅装置との連携
次に、他の音声増幅装置との連携について説明する。本実施形態では、音声増幅装置1の通信部20は、所定の範囲に存在する他のユーザの音声増幅装置と通信し、他のユーザの音声増幅装置に設定された増幅周波数帯域に関するパラメータを取得する。そして、設定部103は、通信部20により取得されたパラメータをもとに、他のユーザの音声増幅装置に設定された増幅周波数帯域を避けて自装置(音声増幅装置1)の増幅周波数帯域を設定する。これにより、他のユーザーの音声増幅装置により増幅された他のユーザーの音声と、音声増幅装置1により増幅されたユーザーの音声の干渉を低減することができる。
(3−2)低減力モードと通常モードの切替
所定の条件が満たされた場合、モード制御部105により、音声増幅装置1を低電力モードから通常モードに切り替えられる構成としてもよい。ここで、所定の条件は、喉の筋電に所定の変化があった場合、又は、ユーザの口が開かれたと判定された場合であってもよい。これにより、通常は低減力モードで電力の消費を抑えつつ、ユーザーが発話する直前で、自動的に通常モードに切り替えることが可能になる。
所定の条件が満たされた場合、モード制御部105により、音声増幅装置1を低電力モードから通常モードに切り替えられる構成としてもよい。ここで、所定の条件は、喉の筋電に所定の変化があった場合、又は、ユーザの口が開かれたと判定された場合であってもよい。これにより、通常は低減力モードで電力の消費を抑えつつ、ユーザーが発話する直前で、自動的に通常モードに切り替えることが可能になる。
(3−3)フィードバック
増幅された音声がスピーカ70から出力されているときに、スピーカ70から出力されている音声の状態をユーザーにフィードバックさせてもよい。ここで、音声の状態は、例えば、増幅の度合い、ストレス指数等である。また、フィードバックの手法は特に限定されず、振動、音、光、匂い、画像等のユーザーが知覚可能な態様であればよい。これにより、ユーザが発話状況を認識し、自信の会話が相手に伝わっていることを確認可能となり安心できる。
増幅された音声がスピーカ70から出力されているときに、スピーカ70から出力されている音声の状態をユーザーにフィードバックさせてもよい。ここで、音声の状態は、例えば、増幅の度合い、ストレス指数等である。また、フィードバックの手法は特に限定されず、振動、音、光、匂い、画像等のユーザーが知覚可能な態様であればよい。これにより、ユーザが発話状況を認識し、自信の会話が相手に伝わっていることを確認可能となり安心できる。
4.その他
本発明に係る音声増幅装置1は、以下の態様でも実施可能である。
本発明に係る音声増幅装置1は、以下の態様でも実施可能である。
コンピュータを、音声増幅装置として機能させ、
前記音声増幅装置は、音声マイクと、環境マイクと、制御部と、増幅部と、スピーカと、を有し、
前記音声マイクは、ユーザの音声を音声電気信号に変換し、
前記環境マイクは、ユーザ周辺の環境音響を環境音電気信号に変換し、
前記制御部は、解析部と、検出部と、設定部と、を有し、
前記解析部は、前記音声電気信号の周波数スペクトルである第1周波数スペクトル及び前記環境音響電気信号の周波数スペクトルである第2周波数スペクトルを解析し、
前記検出部は、ユーザのストレスをストレス指数として検出し、
前記設定部は、前記第1周波数スペクトルと前記第2周波数スペクトルと前記ストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定し、
前記増幅部は、前記増幅パラメータに基づいて、入力された前記音声電気信号を増幅し、
前記スピーカは、前記増幅された前記音声電気信号に対応する音声を出力する、
プログラム。
前記音声増幅装置は、音声マイクと、環境マイクと、制御部と、増幅部と、スピーカと、を有し、
前記音声マイクは、ユーザの音声を音声電気信号に変換し、
前記環境マイクは、ユーザ周辺の環境音響を環境音電気信号に変換し、
前記制御部は、解析部と、検出部と、設定部と、を有し、
前記解析部は、前記音声電気信号の周波数スペクトルである第1周波数スペクトル及び前記環境音響電気信号の周波数スペクトルである第2周波数スペクトルを解析し、
前記検出部は、ユーザのストレスをストレス指数として検出し、
前記設定部は、前記第1周波数スペクトルと前記第2周波数スペクトルと前記ストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定し、
前記増幅部は、前記増幅パラメータに基づいて、入力された前記音声電気信号を増幅し、
前記スピーカは、前記増幅された前記音声電気信号に対応する音声を出力する、
プログラム。
また、上述のプログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として提供してもよい。
さらに、本発明に係る音声増幅装置1は、以下の態様でも実施可能である。
・音声に含まれるf0の非整数倍の倍音を増幅してもよい。例えば、f0が100Hzの場合、220,330,440,550HZを増幅してもよい。これにより、元の音声と声色が異なることになるが、会話の内容を相手に伝えるという目的を達成することができる。
・環境音から環境を推定し、環境に応じて増幅周波数帯域と増幅率とを含む増幅パラメータを設定する。例えば、ユーザーが車を運転中の場合、予めエンジン等の定常的に発生する環境音に含まれる周波数帯域を避けて音声を増幅してもよい。
・音声に含まれるf0の非整数倍の倍音を増幅してもよい。例えば、f0が100Hzの場合、220,330,440,550HZを増幅してもよい。これにより、元の音声と声色が異なることになるが、会話の内容を相手に伝えるという目的を達成することができる。
・環境音から環境を推定し、環境に応じて増幅周波数帯域と増幅率とを含む増幅パラメータを設定する。例えば、ユーザーが車を運転中の場合、予めエンジン等の定常的に発生する環境音に含まれる周波数帯域を避けて音声を増幅してもよい。
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
また、上述した実施形態及び変形例は任意に組み合わせて実施することができる。
1 :音声増幅装置
10 :制御部
20 :通信部
30 :記憶部
40 :音声マイク
50 :環境マイク
60 :増幅部
70 :スピーカ
80 :生体情報計測部
101 :解析部
102 :検出部
103 :設定部
104 :認識部
105 :モード制御部
10 :制御部
20 :通信部
30 :記憶部
40 :音声マイク
50 :環境マイク
60 :増幅部
70 :スピーカ
80 :生体情報計測部
101 :解析部
102 :検出部
103 :設定部
104 :認識部
105 :モード制御部
Claims (13)
- 音声増幅装置であって、
音声マイクと、環境マイクと、制御部と、増幅部と、スピーカと、を有し、
前記音声マイクは、ユーザの音声を音声電気信号に変換し、
前記環境マイクは、ユーザ周辺の環境音響を環境音電気信号に変換し、
前記制御部は、解析部と、検出部と、設定部と、を有し、
前記解析部は、前記音声電気信号の周波数スペクトルである第1周波数スペクトル及び前記環境音響電気信号の周波数スペクトルである第2周波数スペクトルを解析し、
前記検出部は、ユーザのストレスをストレス指数として検出し、
前記設定部は、前記第1周波数スペクトルと前記第2周波数スペクトルと前記ストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定し、
前記増幅部は、前記増幅パラメータに基づいて、入力された前記音声電気信号を増幅し、
前記スピーカは、前記増幅された音声電気信号に対応する音声を出力する、
音声増幅装置。 - 請求項1に記載の音声増幅装置において、
前記検出部は、前記ユーザの音声の周波数スペクトルに含まれるスペクトルピークの時間的繰り返しから、前記ストレス指数を検出する、
音声増幅装置。 - 請求項1又は請求項2に記載の音声増幅装置において、
前記検出部は、前記スペクトル分布から声色を推定し、前記声色の特徴から前記ストレス指数を検出する、
音声増幅装置。 - 請求項1〜請求項3の何れか1項に記載の音声増幅装置において、
前記制御部は、認識部を更に有し、
前記認識部は、前記音声電気信号からユーザが発する言葉を認識し、
前記検出部は、前記認識部が認識した言葉を含む同義語の繰り返し、又は繰り返しを意味するキーワードの検出から、前記ストレス指数を検出する、
音声増幅装置。 - 請求項1〜請求項4の何れか1項に記載の音声増幅装置において、
前記音声増幅装置は、生体情報計測部を更に有し、
前記生体情報計測部は、脈拍、脳波、表情、筋電位、発汗、体温、血圧のうち、少なくとも1つ以上の生体情報を計測し、
前記検出部は、前記生体情報に基づいて、前記ストレス指数を検出する、
音声増幅装置。 - 請求項1〜請求項5の何れか1項に記載の音声増幅装置において、
前記設定部は、前記解析部による解析結果に基づいて、前記増幅周波数帯域を設定する、
音声増幅装置。 - 請求項1〜請求項6の何れか1項に記載の音声増幅装置において、
前記設定部は、前記ストレス指数が予め定められた閾値を超えた場合、前記増幅率をさらに大きく設定する、
音声増幅装置。 - 請求項1〜請求項7の何れか1項に記載の音声増幅装置において、
前記設定部は、前記解析部により求められた前記音声電気信号の基本周波数に対して、整数倍の周波数を含む範囲で増幅周波数帯域を設定可能に構成される、
音声増幅装置。 - 請求項1〜請求項8の何れか1項に記載の音声増幅装置において、
前記音声増幅装置は、通信部を有し、
前記通信部は、所定の範囲に存在する他のユーザの音声増幅装置と通信し、
前記他のユーザの音声増幅装置に設定された増幅周波数帯域に関するパラメータを取得し、
前記設定部は、前記取得したパラメータをもとに、前記他のユーザの音声増幅装置に設定された前記増幅周波数帯域を避けて自装置の増幅周波数帯域を設定する、
音声増幅装置。 - 請求項1〜請求項9の何れか1項に記載の音声増幅装置において、
前記制御部は、モード制御部を更に有し、
所定の条件が満たされた場合、前記モード制御部は、前記音声増幅装置を低電力モードから通常モードに変更する、
音声増幅装置。 - 請求項10に記載の音声増幅装置において、
前記所定の条件が満たされた場合とは、喉の筋電に所定の変化があった場合、又は、ユーザの口が開かれたと判定された場合である、
音声増幅装置。 - 請求項1〜請求項11の何れか1項に記載の音声増幅装置において、
前記音声増幅装置は、ウェアラブルデバイスである、
音声増幅装置。 - コンピュータを、音声増幅装置として機能させ、
前記音声増幅装置は、音声マイクと、環境マイクと、制御部と、増幅部と、スピーカと、を有し、
前記音声マイクは、ユーザの音声を音声電気信号に変換し、
前記環境マイクは、ユーザ周辺の環境音響を環境音電気信号に変換し、
前記制御部は、解析部と、検出部と、設定部と、を有し、
前記解析部は、前記音声電気信号の周波数スペクトルである第1周波数スペクトル及び前記環境音響電気信号の周波数スペクトルである第2周波数スペクトルを解析し、
前記検出部は、ユーザのストレスをストレス指数として検出し、
前記設定部は、前記第1周波数スペクトルと前記第2周波数スペクトルと前記ストレス指数とに基づいて、増幅周波数帯域と増幅率とを含む増幅パラメータを設定し、
前記増幅部は、前記増幅パラメータに基づいて、入力された前記音声電気信号を増幅し、
前記スピーカは、前記増幅された前記音声電気信号に対応する音声を出力する、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139211A JP2021022883A (ja) | 2019-07-29 | 2019-07-29 | 音声増幅装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019139211A JP2021022883A (ja) | 2019-07-29 | 2019-07-29 | 音声増幅装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021022883A true JP2021022883A (ja) | 2021-02-18 |
Family
ID=74574880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019139211A Pending JP2021022883A (ja) | 2019-07-29 | 2019-07-29 | 音声増幅装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021022883A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023013019A1 (ja) * | 2021-08-06 | 2023-02-09 | 日本電信電話株式会社 | 発話フィードバック装置、発話フィードバック方法、プログラム |
-
2019
- 2019-07-29 JP JP2019139211A patent/JP2021022883A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023013019A1 (ja) * | 2021-08-06 | 2023-02-09 | 日本電信電話株式会社 | 発話フィードバック装置、発話フィードバック方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11412333B2 (en) | Interactive system for hearing devices | |
US10433075B2 (en) | Low latency audio enhancement | |
KR102658445B1 (ko) | 음성 정동 변조 | |
KR101810806B1 (ko) | 컴퓨팅 디바이스의 음성 인식 프로세스의 제어 | |
US10339930B2 (en) | Voice interaction apparatus and automatic interaction method using voice interaction apparatus | |
JP5256119B2 (ja) | 補聴器並びに補聴器に用いられる補聴処理方法及び集積回路 | |
US20150168996A1 (en) | In-ear wearable computer | |
US9336795B1 (en) | Speech therapy system and method with loudness alerts | |
CN113949956B (zh) | 降噪处理方法、装置、电子设备、耳机及存储介质 | |
WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
US11842725B2 (en) | Detection of speech | |
WO2017108142A1 (en) | Linguistic model selection for adaptive automatic speech recognition | |
Dekens et al. | Body conducted speech enhancement by equalization and signal fusion | |
JPWO2008007616A1 (ja) | 無音声発声の入力警告装置と方法並びにプログラム | |
US11290802B1 (en) | Voice detection using hearable devices | |
JP2021022883A (ja) | 音声増幅装置及びプログラム | |
US11711647B1 (en) | Voice detection using ear-based devices | |
GB2526980A (en) | Sensor input recognition | |
CN115314804A (zh) | 佩戴检测方法、可穿戴设备及存储介质 | |
US10848855B2 (en) | Method, electronic device and recording medium for compensating in-ear audio signal | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP2019110447A (ja) | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム | |
US11710475B2 (en) | Methods and apparatus for obtaining biometric data | |
US20220366928A1 (en) | Audio device and operation method thereof | |
CN110166863B (zh) | 一种入耳式语音装置 |