JP6936709B2 - 音声検知システム及び音声検知方法 - Google Patents

音声検知システム及び音声検知方法 Download PDF

Info

Publication number
JP6936709B2
JP6936709B2 JP2017220862A JP2017220862A JP6936709B2 JP 6936709 B2 JP6936709 B2 JP 6936709B2 JP 2017220862 A JP2017220862 A JP 2017220862A JP 2017220862 A JP2017220862 A JP 2017220862A JP 6936709 B2 JP6936709 B2 JP 6936709B2
Authority
JP
Japan
Prior art keywords
sound
pressure level
sound pressure
voice
equivalent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017220862A
Other languages
English (en)
Other versions
JP2019090962A (ja
Inventor
崇 増田
崇 増田
隆士 松尾
隆士 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimizu Corp
Original Assignee
Shimizu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimizu Corp filed Critical Shimizu Corp
Priority to JP2017220862A priority Critical patent/JP6936709B2/ja
Publication of JP2019090962A publication Critical patent/JP2019090962A/ja
Application granted granted Critical
Publication of JP6936709B2 publication Critical patent/JP6936709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、例えば、オフィス内におけるコミュニケーションの活性度を計測する際に用い得る音声検知システム及び音声検知方法に関する。
ある空間内に人が居るかコミュニケーションが活発に行われているかを判定する手段として、音声を検知することは有効な方法である。このような音声検知方法が確立されていれば、例えば、オフィス内のコミュニケーション活性度の計測を行ったり、或いは、公共施設などの交流ペースの活用度を計測したり、といったことが可能となる。
業務に適したオフィス環境が提供されているかを知る尺度として、例えば、特許文献1(特開2016−115003号公報)には、複数の種類の業務が各ユーザによってそれぞれ遂行されるように構成される施設におけるオフィス活動を分析するオフィス活動分析システムにおいて、対話などによる現場の音をセンサーであるマイクによって集音して、マイクで集音した音の音圧レベルがある値を超える場合や音圧レベルが変動する場合に会話が行われていると判断する技術が開示されている。
特開2016−115003号公報
しかしながら、特許文献1記載の従来技術で利用される、会話が行われている場合の音圧レベルの値や変動幅は、マイクと音源である人との位置関係や暗騒音を含む周囲の状況により異なり、精度高く音声の有無を検知することが難しい、という問題があった。また、従来技術では、音声以外の音が混入して音圧レベルが上昇したり、変動したりすることに対することが考慮されておらず、高い精度で音声の有無を検知することが困難である、という問題があった。
一方、高度な信号処理技術や人工知能等を用いて収録した音の特徴から音声が含まれるか判定する方法が考えられるが、データ処理量が多く計測装置や判定を行うシステムが複雑かつ高価になる、という問題が発生する。
また、これまで、広い空間内や建物内各所の多点で簡便に音声を検知する方法については、提案がなされていなかった。
この発明は、上記のような問題を解決するものであって、本発明に係る音声検知システムは、所定空間における音を集音する集音部と、前記集音部で集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出する算出部と、中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、前記集音部で集音された音に、音声が含まれていると判定する判定部と、を有することを特徴とする。
また、本発明に係る音声検知システムは、前記判定部における判定結果を履歴として記録する記録部をさらに有することを特徴とする。
また、本発明に係る音声検知方法は、所定空間における音を集音する集音ステップと、前記集音ステップで集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出する算出ステップと、前記算出ステップで算出された中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、前記集音ステップで集音された音に、音声が含まれていると判定する判定ステップと、を有することを特徴とする。
また、本発明に係る音声検知方法は、前記判定ステップにおける判定結果を履歴として記録する記録ステップをさらに有することを特徴とする。
本発明に係る音声検知システム及び音声検知方法は、集音部で集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)とを算出し、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)からA特性等価音圧レベル(LAeq)を引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれていると判定するものであり、このような本発明に係る音声検知システム及び音声検知方法によれば、音圧レベルの値や変動幅を用いることなく、高い精度で音声の有無を検知することが可能となる。
また、本発明に係る音声検知システム及び音声検知方法は、高度な信号処理技術や人工知能等を用い、音声が含まれているかを判定することのではなく、安価で簡便な装置構成で検知を行うものであり、広い空間内や建物内各所の多点で簡便に音声を検知することが可能となる。
本発明の実施形態に係る音声検知システム1のブロック図と使用形態とを示している。 本発明の実施形態に係る音声検知システム1の設定時間間隔毎の処理アルゴリズムのフローチャートを示す図である。 打合スペースにおける会話の有無に応じた音圧レベルの周波数特性を示す図である。 打合スペースにおける会話の有無に応じたLdiffの度数分布を示す図である。 閾値LTの設定値と判定精度の関係を示す図である。 本発明の他の実施形態に係る音声検知システム1のブロック図を示している。 本発明の他の実施形態に係る音声検知システム1のブロック図を示している。
以下、本発明の実施の形態を図面を参照しつつ説明する。図1は本発明の実施形態に係る音声検知システム1のブロック図と使用形態とを示している。本発明の実施形態に係る音声検知システム1は、特定の空間で集音された音に、音声(人の発する声)が含まれているか否かを判定することで、例えば、オフィス内におけるコミュニケーションの活性度を計測することなどに利用されるものである。そして、本発明は、比較的簡単に測定・分析できる音圧レベルを用いて、音声を検知するシステム・方法を提供するものである。
本発明に係る音声検知システム・音声検知方法では、予め設定された時間間隔幅(タイムスロット)におけるA特性等価音圧レベル(LAeqともいう)及び中心周波数500Hzのオクターブバンド等価音圧レベル(L500eqともいう)の測定結果から、測定した音に音声が含まれているか否かを判定するようにしている。
本発明の実施形態に係る音声検知システム1は、例えば、オフィス内の打合スペースにおける音を集音する集音部2と、この集音部2で集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)とを算出する算出部4と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)からA特性等価音圧レベル(LAeq)を引いた差分が予め設定された閾値以上である場合、集音部2で集音された音に、音声が含まれていると判定する判定部6と、この判定部6における判定結果を履歴として記録する記録部8と、を有している。
集音部2はマイクロホンから構成することができる。また、算出部4は、特性等価音圧レベル(LAeq)及び中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)について、それぞれ指定した時間間隔幅の等価音圧レベルを算出する機能を有する。
本実施形態では、ブロック図における集音部2及び算出部4として、オクターブ分析機能を持った騒音計10(音圧レベル計)を用いるようにしたが、集音部2や算出部4としては他の機器を利用することも可能である。
また、本実施形態では、判定部6と記録部8としては、パーソナルコンピューターなどの汎用の情報処理装置20を用いるようにしたが、判定部6と記録部8についても他の機器を利用するようにしてもよい。
さて、算出部4から情報処理装置20により構成される判定部6に対しては算出されたA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンドの等価音圧レベル(L500eq)とがデータ通信(有線又は無線のいすれでも可)により送信される。
判定部6では、A特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)との差Ldiff(式(1))が設定した閾値LT以上となった場合に、A特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を測定した時間範囲に音声が含まれていると判定する。すなわち、式(2)の不等式が成り立つときに、音声が含まれていると判定する。
diff=L500eq−LAeq (1)
diff≧ LT (2)
情報処理装置20の記録部8(例えば、ハードディスク等)には、判定部6による判定結果(音声を含む、又は、音声を含まない、のいずれかの判定結果)が履歴として保存される。
次に、以上のように構成される本発明の実施形態に係る音声検知システム1の処理について説明する。図2は本発明の実施形態に係る音声検知システム1の設定時間間隔毎の処理アルゴリズムのフローチャートを示す図である。
図2に示すフローチャートにおいて、ステップS100で処理が開始され、ステップS110 で処理が終了するまでに、ステップS101乃至ステップS104までは騒音計10によって実行され、ステップS105乃至ステップS109までは情報処理装置20によって実行されことが想定されている。
また、図2に示すフローチャートは、予め設定された時間間隔幅(タイムスロット)1つに対する処理を示すものであり、設定時間より長い時間にわたって音声検知を行う場合、図2に示すフローチャートが複数回繰り返して実行されることとなる。
図2に示すフローチャートにおいて、ステップS100で処理が開始されると、続いて、ステップS101に進み、騒音計10の集音部2によって、設定時間間隔幅の集音データを取得する。
ステップS102では、取得された集音データに対して設定された時間間隔幅の中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を算出する。
次のステップS103では、騒音計10の機能により、集音データに対して、A特性重み付け補正を実行する。このようなA特性重み付け補正については、騒音計10に内蔵される周知の回路によって実行され得るものである。
ステップS104では、ステップS103でA特性重み付け補正された集音データに対して設定時間間隔幅のA特性等価音圧レベル(LAeq)を算出する。
続いて、情報処理装置20がA特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を受信すると、ステップS105では、
diff=L500eq−LAeq (1)
の演算が実行され、ステップS106では、
diff≧ LT (2)
の真否が判定される。
ステップS106の判定結果がYESであるときには、ステップS107に進み、当該時間間隔幅における検知結果は「音声含む」とし、ステップS109で「音声含む」の検知結果を履歴として記録部8に記録する。
一方、ステップS106の判定結果がNOであるときには、ステップS108に進み、当該時間間隔幅における検知結果は「音声含まない」とし、ステップS109で「音声含まない」の検知結果を履歴として記録部8に記録する。
次に上記のような本発明に係る音声検知システム・音声検知方法の技術的根拠を示す。
図3に、オフィス内の打合スペースにおいて会話が行われていた場合と会話が行われていない場合の音圧レベルの周波数特性を示す。図3の周波数特性の測定は1分間オクターブバンド等価音圧レベルを連続測定した。全測定サンプルは5622サンプル、その内会話が行われていた場合は1406サンプル、会話が行われていない場合は4216サンプルであった。図3には、打合スペースで会話が行われていた場合と会話が行われていない場合それぞれにおける測定結果の平均値と平均値±標準偏差を示す。なお、各周波数における音圧レベルはA特性により重み付けされた値である。
図3からは、等価音圧レベルを測定した1分間に会話が行われている場合、即ち音声が含まれている場合は500Hzオクターブバンド音圧レベルが卓越した周波数特性であることがわかる。一方、会話が行われていない場合、即ち音声が含まれていない場合はこのような特徴は示されていない。以上の測定結果は、音声は500Hzオクターブバンドに主な周波数成分を持つことを示している。
逆に言えば、測定した音の周波数特性において500Hzオクターブバンド音圧レベルが卓越している場合、その測定した音には音声が含まれている可能性が高いことを示唆する。
ここで、A特性音圧レベルと500Hzオクターブバンド音圧レベルの関係を考える。仮に、測定した音が500Hzオクターブバンドにのみ周波数成分を持つとすると、A特性音圧レベルの定義からその差Ldiffは3.2dBとなる。
実際には、音声は500Hzオクターブバンド以外の帯域にも周波数成分を持つため、A特性音圧レベルとLdiffがちょうど3.2dBとなることはないが、Ldiffが3.2dBに近いほど測定した音の500Hzオクターブバンド音圧レベルが卓越していることを意味する。
図3に示した測定結果から Ldiffを算出し、打合スペースにおいて会話が行われていた場合と会話が行われていない場合それぞれにおけるLdiffの度数分布を図4に示す。
図4から、会話が行われている場合は、会話が行われていない場合と比較してLdiffが大きい、即ちLdiffが3.2dBに近いことが示されている。
diffから測定した音に音声が含まれていると判定する閾値LTの設定値により、判定精度が変化する。図5に、閾値LTの設定値と判定精度の関係を示す。
ここで示した測定例では、閾値LTを−1dBに設定した場合に、会話が行われていること及び会話が行われていないことの判定精度が共に90%程度であった。
閾値LTを大きい値に設定すると、測定した音に音声が含まれているにも関わらず音声が含まれていないと誤判定する確率が高くなる。一方で、閾値LTを小さい値に設定すると、測定した音に音声が含まれていないにも関わらず音声が含まれていると誤判定する確率が高くなる。閾値LTは音声以外の周囲の騒音等の影響を加味して設定する必要がある。
ここで示した測定例では、1分間の等価音圧レベルを測定しているが、等価音圧レベルの測定時間は1分間に限定されるものではない。等価音圧レベルの測定時間は必要な音声検出頻度により設定するが、一般的には10秒間から10分間程度と設定することが適当である。なお、等価音圧レベルの測定時間を長く設定した場合、測定時間内の短い時間にのみ音声が含まれる場合は音声が含まれないものと判定されることがある。
上記のような、技術的な根拠により、本発明に係る音声検知システム・音声検知方法は音声検出を行うものであり、原理的にみても、複雑なデータ処理等が不要なことが明白である。
以上、本発明に係る音声検知システム1は、集音部2で集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)とを算出し、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)からA特性等価音圧レベル(LAeq)を引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれていると判定するものであり、このような本発明に係る音声検知システム1によれば、音圧レベルの値や変動幅を用いることなく、高い精度で音声の有無を検知することが可能となる。
また、本発明に係る音声検知システム1は、高度な信号処理技術や人工知能等を用い、音声が含まれているかを判定することのではなく、安価で簡便な装置構成で検知を行うものであり、広い空間内や建物内各所の多点で簡便に音声を検知することが可能となる。
次に、本発明の他の実施形態について説明する。図6は本発明の他の実施形態に係る音声検知システム1のブロック図を示している。
先の実施形態では、集音部2及び算出部4として、オクターブ分析機能を持った騒音計10(音圧レベル計)を用いるようにしたが、本実施形態では、集音部2としてはMEMSマイクロホンなどのようなマイクロホン30を用い、算出部4としてはワンボードマイクロコンピューターなどの通信機能付きマイクロコンピューター40を用いる構成としている。そして、通信機能付きマイクロコンピューター40で算出されたA特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を、情報処理装置20側に有線又は無線で送信するようにしている。
このような実施形態によれば、マイクロホン30と通信機能付きマイクロコンピューター40とから、ブロック図における集音部2及び算出部4を安価に構成するとことができ、集音部2及び算出部4を多数のポイントに設置することが可能となる。一方、1台の情報処理装置20によって、多数のポイントにおける集音部2及び算出部4からのA特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を受信する構成とすれば、判定部6と記録部8も安価に構成することができるようになる。これにより、広い空間内や建物内各所の多点で簡便に音声を検知するシステムを構成することが可能となる。
次に、本発明の他の実施形態について説明する。図7は本発明の他の実施形態に係る音声検知システム1のブロック図を示している。
本実施形態では、ブロック図における集音部2、算出部4、判定部6と記録部8の全ての機能を、一般に普及しているタブレット型端末50によって賄うよう構成としている。集音部2としては、タブレット型端末50に内蔵されるマイクロホンを用いる。また、算出部4、判定部6はタブレット型端末50上で動作するアプリケーションソフトウエアによって実行される。また、記録部8にはタブレット型端末50内蔵のメモリ(不図示)が当てられる。
このような実施形態によれば、広く安価に普及しているタブレット型端末50を本発明に係る音声検知システム1として用いることができ、簡単にシステムを構成することが可能となる。
なお、本実施形態では、ブロック図における集音部2、算出部4、判定部6と記録部8の全てを、タブレット型端末50によって機能させる構成としたが、タブレット型端末50に代え、スマートホンなどの情報端末も用いることが可能である。
以上、本発明に係る音声検知システム及び音声検知方法は、集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)とを算出し、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)からA特性等価音圧レベル(LAeq)を引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれていると判定するものであり、このような本発明に係る音声検知システム及び音声検知方法によれば、音圧レベルの値や変動幅を用いることなく、高い精度で音声の有無を検知することが可能となる。
また、本発明に係る音声検知システム及び音声検知方法は、高度な信号処理技術や人工知能等を用い、音声が含まれているかを判定することのではなく、安価で簡便な装置構成で検知を行うものであり、広い空間内や建物内各所の多点で簡便に音声を検知することが可能となる。
1・・・音声検知システム
2・・・集音部
4・・・算出部
6・・・判定部
8・・・記録部
10・・・騒音計
20・・・情報処理装置
30・・・マイクロホン
40・・・通信機能付きマイクロコンピューター
50・・・タブレット型端末

Claims (4)

  1. 所定空間における音を集音する集音部と、
    前記集音部で集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出する算出部と、
    中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、前記集音部で集音された音に、音声が含まれていると判定する判定部と、を有することを特徴とする音声検知システム。
  2. 前記判定部における判定結果を履歴として記録する記録部をさらに有することを特徴とする請求項1に記載の音声検知システム。
  3. 所定空間における音を集音する集音ステップと、
    前記集音ステップで集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出する算出ステップと、
    前記算出ステップで算出された中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、前記集音ステップで集音された音に、音声が含まれていると判定する判定ステップと、を有することを特徴とする音声検知方法。
  4. 前記判定ステップにおける判定結果を履歴として記録する記録ステップをさらに有することを特徴とする請求項3に記載の音声検知方法。
JP2017220862A 2017-11-16 2017-11-16 音声検知システム及び音声検知方法 Active JP6936709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017220862A JP6936709B2 (ja) 2017-11-16 2017-11-16 音声検知システム及び音声検知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017220862A JP6936709B2 (ja) 2017-11-16 2017-11-16 音声検知システム及び音声検知方法

Publications (2)

Publication Number Publication Date
JP2019090962A JP2019090962A (ja) 2019-06-13
JP6936709B2 true JP6936709B2 (ja) 2021-09-22

Family

ID=66836314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017220862A Active JP6936709B2 (ja) 2017-11-16 2017-11-16 音声検知システム及び音声検知方法

Country Status (1)

Country Link
JP (1) JP6936709B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7162470B2 (ja) * 2018-08-21 2022-10-28 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04251299A (ja) * 1991-01-09 1992-09-07 Sanyo Electric Co Ltd 音声区間検出方法
JPH04303900A (ja) * 1991-03-29 1992-10-27 Nagano Japan Radio Co 音声検出装置

Also Published As

Publication number Publication date
JP2019090962A (ja) 2019-06-13

Similar Documents

Publication Publication Date Title
US10412518B2 (en) Blocked microphone detection
CN102077274B (zh) 多麦克风语音活动检测器
US9959886B2 (en) Spectral comb voice activity detection
JP5716595B2 (ja) 音声補正装置、音声補正方法及び音声補正プログラム
US8666693B2 (en) Low average velocity pedestrial motion identification
US9632179B2 (en) Estimating a baseline of a proximity sensor
US11215500B2 (en) Environmental and aggregate acoustic dosimetry
US11818554B2 (en) Headset playback acoustic dosimetry
JP6936709B2 (ja) 音声検知システム及び音声検知方法
KR20170091455A (ko) 모바일 기기를 이용한 층간소음 측정 시스템
CN112116927A (zh) 实时检测音频信号中的语音活动
US20110254688A1 (en) User state recognition in a wireless communication system
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
JP6994922B2 (ja) 会話認識記録システム
JP5553112B2 (ja) 携帯端末装置及び携帯端末装置制御方法
EP3182729B1 (en) Hearing aid system and a method of operating a hearing aid system
KR102146893B1 (ko) 음파 통신을 이용하는 차량 개폐 시스템 및 그의 제어방법
EP3757958A1 (en) Evaluating movement of a subject
KR102389619B1 (ko) 후천적 청각장애인을 위한 의사소통 보조 시스템 및 방법
CN116156401B (zh) 基于大数据监测的助听设备智能检测方法、系统和介质
KR20110115519A (ko) 무선 통신 시스템에서의 사용자 상태 인식 방법 및 장치
CN114745626A (zh) 一种用于无线耳机的出入耳检测方法、无线耳机及存储介质
JP2021081646A (ja) 音声認識システム
JP2021032919A (ja) 発話区間推定方法
EP2683083A1 (en) Estimation of the baseline of a proximity sensor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210827

R150 Certificate of patent or registration of utility model

Ref document number: 6936709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150