JP2020201370A - 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置 - Google Patents

話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置 Download PDF

Info

Publication number
JP2020201370A
JP2020201370A JP2019107707A JP2019107707A JP2020201370A JP 2020201370 A JP2020201370 A JP 2020201370A JP 2019107707 A JP2019107707 A JP 2019107707A JP 2019107707 A JP2019107707 A JP 2019107707A JP 2020201370 A JP2020201370 A JP 2020201370A
Authority
JP
Japan
Prior art keywords
acquired
physical quantity
sound
microphones
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019107707A
Other languages
English (en)
Inventor
晃 釜野
Akira Kamano
晃 釜野
洋平 岸
Yohei Kishi
洋平 岸
千里 塩田
Chisato Shioda
千里 塩田
鈴木 政直
Masanao Suzuki
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019107707A priority Critical patent/JP2020201370A/ja
Priority to US16/889,837 priority patent/US20200389724A1/en
Publication of JP2020201370A publication Critical patent/JP2020201370A/ja
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/222Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only  for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Abstract

【課題】高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とすることを目的とする。【解決手段】基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得される物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定し、取得された物理量と設定された閾値とを比較する。当該比較により、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。【選択図】図9

Description

本発明は、話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置に関する。
話者が存在する方向である話者方向に基づいて、翻訳元言語及び翻訳先言語を切り替えることで、ハンズフリーで音声翻訳を実現するウェアラブルな音声翻訳システムが存在する。当該音声翻訳システムでは、話者方向の判定精度が低いと適切な翻訳ができなくなるため、話者方向の判定精度のさらなる向上が望まれている。
特開2018―40982号公報
本発明は、1つの側面として、話者方向を適切に判定することを可能とすることを目的とする。
1つの実施形態では、複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。
1つの側面として、話者方向を適切に判定することを可能とする。
第1〜第4実施形態の話者方向判定装置を例示する機能ブロック図である。 第1〜第4実施形態の話者方向判定装置のハードウェア構成図を例示する概念図である。 第1実施形態の話者方向判定部を例示するブロック図である。 話者方向判定装置の筐体の基準姿勢に対する傾斜を説明する概念図である。 話者方向の判定境界を説明する概念図である。 話者方向の判定境界を説明する概念図である。 基準モデルを例示する概念図である。 推定位相差と雑音レベルとの対応関係を例示する概念図である。 推定位相差と音の入射角との対応関係を例示する概念図である。 補正モデルを例示する概念図である。 基準モデル及び補正モデルを例示する概念図である。 話者方向判定部のハードウェア構成を例示するブロック図である。 第1実施形態の話者方向判定処理の流れを例示するフローチャートである。 第2実施形態の話者方向判定部を例示するブロック図である。 第3実施形態の話者方向判定部を例示するブロック図である。 第3実施形態の話者方向判定処理の流れを例示するフローチャートである。 第4実施形態の話者方向判定部を例示するブロック図である。 基準モデル及び補正モデルを例示する概念図である。 第4実施形態の話者方向判定処理の流れを例示するフローチャートである。 第4実施形態の話者方向判定処理の流れを例示するフローチャートである。 話者方向判定処理の正解率を例示する概念図である。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に、話者方向判定装置10の機能ブロック図を例示する。話者方向判定装置10は、話者方向判定部20及び音声翻訳部40を含む。話者方向判定部20は、話者が存在する方向である話者方向を判定する。音声翻訳部40は、話者方向判定部20から話者方向の判定結果を受け取り、受け取った話者方向の判定結果に基づいて、翻訳元言語と翻訳先言語とを決定し、翻訳を行う。
例えば、音声翻訳部40は、話者方向が話者方向判定装置10の筐体の前方である場合、第1言語から第2言語への翻訳を行い、話者方向が話者方向判定装置10の筐体の上方である場合、第2言語から第1言語への翻訳を行う。第1言語は、例えば、英語であってよく、第2言語は、例えば、日本語であってよい。
図2に、話者方向判定装置10のハードウェア構成図を例示する。話者方向判定装置10は、略直方体の筐体11、筐体11を装着者が装着した際に通常上面となる面に配置された第1マイクロフォンM01(以下、マイクロフォンをマイクという。)、及び、筐体11を装着者が装着した際に通常前面となる面に配置された第2マイクM02を含む。矢印FRは筐体11を装着者が装着した際の前方を表し、矢印UPは筐体11を装着者が装着した際の上方を表す。
角度0°、90°、及び−90°は、音の入射角の角度を例示する。例えば、音の入射角が90°及び−90°である場合、音の入射方向は筐体の前面に平行であり、音の入射角が0°である場合、音の入射方向は筐体の前面と直交する。
図3に、話者方向判定部20Aを例示する。話者方向判定部20Aは、第1音取得部21、第2音取得部22、第1時間周波数変換部23、第2時間周波数変換部24、位相差推定部25、傾斜取得部26、及び雑音レベル推定部27を含む。話者方向判定部20Aは、判定境界補正部28、モデル補正部29及び方向判定部31を含む。第1音取得部21は、第1マイクM01で検出された音から変換された時間領域の音信号を取得し、第2音検出部22は、第2マイクM02で検出された音から変換された時間領域の音信号を取得する。
話者方向判定部20Aに含まれる各部は、例えば、ワイヤードロジックによるハードウェア回路として各々別個の回路として形成されてもよい。話者方向判定部20Aに含まれる各部は、その各部に対応する回路が集積された一つの集積回路として実装されてもよい。なお、集積回路は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路であればよい。また、話者方向判定装置20Aの各部は、話者方向判定装置20Aのプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
第1時間周波数変換部23は、第1音取得部21で取得された時間領域の音信号を周波数領域の音信号に変換する。時間領域の音信号から周波数領域の音信号への変換は、例えば、Fast Fourier Transformation(FFT)であってよい。第2時間周波数変換部24は、第2音取得部22で取得された時間領域の音信号を周波数領域の音信号に変換する。
物理量取得部の一例である位相差推定部25は、第1時間周波数変換部23で変換された周波数領域の音信号と、第2時間周波数変換部24で変換された周波数領域の音信号との位相差を推定する。物理量の一例である位相差とは、周波数領域における音源からマイクまでの音の到達時間差であり、音信号を複素数で表現した場合の偏角である。
位相差dp(k)は、例えば、(1)式で推定される。dp(k)は、第1時間周波数変換部23で変換された、k(k=0,1,…,K−1)番目の周波数帯域の周波数領域の音信号と、第2時間周波数変換部24で変換された、k番目の周波数帯域の周波数領域の音信号と、の位相差である。Kは、例えば、256であってよい。
dp(k)=θ(k)−θ(k)
=arg(z(k))−arg(z(k))
=arg(z(k)/z(k)) …(1)
θ(k)は、第1時間周波数変換部23で変換された、k番目の周波数帯域の音信号の位相スペクトルであり、θ(k)は、第2時間周波数変換部24で変換された、k番目の周波数帯域の音信号の位相スペクトルであり、例えば、(2)式で算出される。
θ(k)=arg(z(k))=atan(Im(k)/Re(k))
θ(k)=arg(z(k))=atan(Im(k)/Re(k))
…(2)
(3)式に例示するように、z(k)は、第1時間周波数変換部23で変換された、k番目の周波数帯域の周波数領域の音信号を複素数で表現し、Re(k)は複素数の実部であり、Im(k)は複素数の虚部である。z(k)は、第2時間周波数変換部24で変換された、k番目の周波数帯域の周波数領域の音信号を複素数で表現し、Re(k)は複素数の実部であり、Im(k)は複素数の虚部である。
(k)=Re(k)+iIm(k)
(k)=Re(k)+iIm(k) …(3)
傾き情報取得部の一例である傾斜取得部26は、話者方向判定装置10の筐体11に配置されている傾斜検知センサ、例えば、加速度センサなどから、話者方向判定装置10の筐体11の基準姿勢に対する傾斜を表す値を取得する。図4に例示するように、話者方向判定装置10の前後方向の測定加速度がaであり、話者方向判定装置10の上下方向の測定加速度がaである場合、話者方向判定装置10の基準姿勢に対する傾斜は、θ=tan−1(a/a)である。基準姿勢の方向は、重力加速度の方向であるとする。
加速度センサは、2軸以上で、直流成分がカットされていないタイプを使用する。加速度センサに代えて、ジャイロセンサまたは地磁気センサを使用してもよい。なお、話者方向判定装置10を装着するユーザの体型によって異なる、当該ユーザに装着された際の話者方向判定装置10の筐体11の傾斜を測定し、予め記録しておいてもよい。
判定境界補正部28は、傾斜取得部26が取得した話者方向判定装置10の筐体11の基準姿勢に対する傾斜を表す値に基づいて、閾値の一例である話者方向の判定境界を補正する。図5Aに例示するように、話者方向判定装置10の筐体11が基準姿勢に対して傾斜していない場合と、図5Bに例示するように、話者方向判定装置10の筐体11が基準姿勢に対して傾斜している場合と、では、話者方向の判定境界が異なるためである。
図6に、話者方向を判定する際に使用する基準モデルを例示する。基準モデルは、筐体11が基準姿勢の状態での複数のマイクへの音の入射角と筐体が基準姿勢の状態で取得される推定位相差との対応関係を表す。推定位相差は物理量の一例である。図6において、縦軸は音の入射角[°]を表し、横軸は推定位相差[rad]を表す。基準モデルは、音の入射角が推定位相差に正比例することを表す、正の傾きをもつ直線である。
筐体11が基準姿勢に対して傾斜していない場合、判定境界は、例えば、音の入射角がA00である場合の基準モデルの推定位相差DB00であり、推定位相差がDB00以下である場合、話者方向は上方であると判定される。一方、推定位相差がDB00より大きい場合、話者方向は前方であると判定される。
筐体11が基準姿勢に対して傾斜している場合、判定境界は、基準姿勢に対する傾斜に対応する音の入射角A01である場合の基準モデルの推定位相差DB01に補正される。推定位相差がDB01以下である場合、話者方向は上方であると判定され、推定位相差がDB01より大きい場合、話者方向は前方であると判定される。筐体11の基準姿勢に対する傾斜が大きくなるに従って、補正後の判定境界は、補正前の判定境界から離れた値となる。
雑音情報取得部の一例である雑音レベル推定部27は、第1音取得部21及び第2音取得部22で取得された音に含まれる雑音のレベルである雑音レベルを推定する。雑音レベルは雑音情報の一例である。雑音レベルの推定は既存の手法で行うことができる。雑音レベルは、非発話区間の音圧の平均であってよい。雑音レベルは、時間領域の音信号で算出してもよいし、平均は、算術平均、幾何平均、調和平均または移動平均の何れかであってよい。
モデル生成部及び閾値設定部の一例であるモデル補正部29は、推定された雑音レベルに基づいて、基準モデルを補正し、補正モデルを生成する。周囲の雑音レベルが大きくなると、図7に例示するように、音の推定位相差は0[rad]に近付く。したがって、話者方向判定装置10の筐体11の基準姿勢に対する傾斜だけに基づいて判定境界を補正すると、話者方向の判定精度が低下する。
図8は、推定位相差と音の入射角との関係を表すグラフである。図8の縦軸は推定位相差[rad]を表し、横軸は音の入射角[°]を表す。線N0は雑音レベルが0[dBA]である場合、線N1は雑音レベルが50[dBA]である場合、線N2は雑音レベルが55[dBA]である場合、線N3は雑音レベルが60[dBA]である場合、線N4は雑音レベルが65[dBA]である場合を表す。
図8によれば、雑音レベルが0[dBA]である場合位相差が−2[rad]となる音の入射角と、雑音レベルが65[dBA]である場合位相差が−2[rad]となる音の入射角と、では、略20[°]の差異が存在する。
周囲に定常雑音が存在する場合、(4)式に示すように、位相スペクトルθt1(k)及びθt2(k)には雑音の成分z(k)が含まれる。
θt1(k)=arg(z(k)+z(k))
θt2(k)=arg(z(k)+z(k)) …(4)
(5)式に示す位相差において、(6)式に示すように、雑音の成分z(k)が∞に近付くと、位相差は0に近付く。
θt1(k)−θt2(k)
=arg(z(k)+z(k))−arg(z(k)+z(k))
=arg((z(k)+z(k))/(z(k)+z(k)) …(5)
即ち、周囲の定常雑音の雑音レベルが大きくなると対象音の位相差が埋もれてしまい、音の位相差が定常雑音の位相差に近付く。
モデル補正部29は、雑音レベル推定部27で推定された雑音レベルに基づいて、判定境界の補正量を調整する。詳細には、雑音レベルが大きくなるに従って、判定境界が補正前の判定境界により近付くように調整する。
図6で例示したように、話者方向判定装置10の筐体11の基準姿勢に対する傾斜に基づいて、判定境界がDB00からDB01に補正される。図9に例示するように、雑音レベルが大きくなるに従って、不動点FPを基準として、モデルの傾きが大きくなるように、矢印C01で示すように基準モデルを回転することで、補正モデルを生成する。不動点FPは、経験的に決定されてよい。モデルの傾きが大きくなるほど、モデルにおいて、筐体11の基準姿勢に対する傾斜に対応する音の入射角に対応する推定位相差である判定境界DB02は、補正後の判定境界DB01から元の判定境界DB00により近付く。
(7)式は、補正モデルを例示する。
φ=f(α(np)*ap+(1−α(np))*pz)…(7)
φは音の入射角であり、α()は、雑音レベルに依存する制御パラメータを算出する関数であり、npは雑音レベルであり、apは推定位相差であり、pzは不動点FPの推定位相差である。
図10に、基準モデルOMの一例を示す。点FPは不動点を表す。不動点FPの推定位相差pz、基準モデルOMを表す関数f(ap)及び雑音レベルに依存する制御パラメータα(np)を(8)式に例示する。
pz=0.0
f(ap)=9.0*ap+40.0
α(np)=0.156*np−7.8 …(8)
apは推定位相差であり、詳細には、上限周波数帯域から下限周波数帯域までの推定位相差の平均値であってよい。npは雑音レベルであり、不動点FPの推定位相差値pzは、事前に設定しておくことができる。関数f()及びα()は、統計的に回帰して導出することで事前に定めておく。関数f()及びα()は、線形関数、三角関数、または機械学習の何れかを使用して導出することができる。また、基準モデルのデータをテーブルなどに予め記憶しておいてもよい。
雑音レベルnp=60[dBA]である場合、α(60)=0.156*60−7.8=1.56であり、補正モデルAMを表す関数fd(ap)は(9)式で表される。
fd(ap)
=9.0*α(np)*ap+9.0*(1−α(np))*pz+40.0
=9.0*1.56*ap+40.0
=14.04*ap+40.0 …(9)
即ち、補正モデルAMは、傾きが基準モデルOMより大きく(14.04>9.0)、かつ、推定位相差apが0である場合、音の入射角が基準モデルOMと同じ(40.0[°])モデルとなる。
話者方向判定装置10の筐体11の基準姿勢に対する傾斜がθ[°]である場合に、基準モデルOMの判定境界Th(θ)は、(10)式で表される。
Th(θ)=f−1(f(Th)−θ) …(10)
Thは話者方向判定装置10の筐体11が基準姿勢の状態である場合の判定境界である。Th=0.0である場合、Th(θ)=−0.11θであり、話者方向判定装置10の筐体11の基準姿勢に対する傾斜が−10[°]である場合、Th(−10)=1.1[rad]となる。
話者方向判定装置10の筐体11の基準姿勢に対する傾斜がθ[°]である場合に、補正モデルAMの判定境界Thd(θ)は、(11)式で表される。
Thd(θ)=fd−1(fd(Thd)−θ) …(10)
Thdは話者方向判定装置10の筐体11が基準姿勢の状態である場合の判定境界である。Thd=0.0である場合、Thd(θ)=−0.07θであり、話者方向判定装置10の筐体11の基準姿勢に対する傾斜が−10[°]である場合、Thd(−10)=0.71[rad]となる。したがって、補正モデルAMによれば、基準モデルOMで筐体11の基準姿勢に対する傾斜に基づいて補正された判定境界1.1[rad]から、筐体11の傾斜に基づいて補正される前の判定境界0.0[rad]に近付く。
判定部の一例である方向判定部31は、モデル補正部29で設定された判定境界、即ち、補正モデルにおいて筐体11の基準姿勢に対する傾斜に対応する推定位相差と、位相差推定部25で推定された位相差と、を比較することで、話者方向を判定する。なお、基準姿勢の方向は上述した重力加速度の方向に限定されず、所定の方向であってもよい。所定の方向は、例えば、ユーザが装着した際の筐体の通常の状態の姿勢での筐体の縦方向の中心線に沿った方向であってよく、事前計測によって定められてもよい。所定の方向は、例えば、重力加速度の方向との角度差によって規定されてもよい。
図11に、話者方向判定部20Aのハードウェア構成を例示する。話者方向判定部20Aは、ハードウェアであるプロセッサの一例であるCPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、及び、外部インタフェース54を含む。
CPU51、一次記憶部52、二次記憶部53、及び外部インタフェース54は、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、話者方向判定処理をCPU51に実行させるための話者方向判定プログラムなどのプログラムを記憶している。データ格納領域53Bは、例えば、特定のユーザが筐体11を装着した場合の筐体11の基準姿勢に対する傾斜の値、基準モデルのデータ、話者方向判定処理において一時的に生成される中間データ、などを記憶する。
CPU51は、プログラム格納領域53Aから話者方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、話者方向判定プログラムをロードして実行することで、図3の第1音取得部21、第2音取得部22、第1時間周波数変換部23、第2時間周波数変換部24、位相差推定部25、傾斜取得部26、及び、雑音レベル推定部27として動作する。CPU51は、また、判定境界補正部28、モデル補正部29、方向判定部31として動作する。
なお、話者方向判定プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部52に展開されてもよい。
外部インタフェース54には、外部装置が接続され、外部インタフェース54は、外部装置とCPU51との間の各種情報の送受信を司る。外部インタフェース54には、例えば、第1マイクM01及び第2マイクM02が接続されている。
次に、話者方向判定装置10の作用の概要について説明する。話者方向判定装置10の作用の流れの概要を図12に例示する。例えば、ユーザが話者方向判定装置10の電源を投入すると、CPU51は、ステップ101で、1フレーム分の音信号を読み込む。詳細には、第1マイクM01から取得された音に対応する1フレーム分の時間領域の音信号(以下、第1音信号という。)と、第2マイクM02から取得された音に対応する1フレーム分の時間領域の音信号(以下、第2音信号という。)と、を読み込む。1フレームは、サンプリング周波数が16[kHz]である場合、例えば、32[m秒]であってよい。
CPU51は、ステップ102で、ステップ101で読み込んだ音信号の各々に時間周波数変換を施す。CPU51は、ステップ103で、周波数領域の音信号に変換された第1音信号と第2音信号との位相差を推定する。CPU51は、ステップ104で、第1音信号及び第2音信号の少なくとも一方の雑音レベルを使用して基準モデルを補正して、補正モデルを生成する。
CPU51は、ステップ105で、ステップ104で生成した補正モデルに、話者方向判定装置10の筐体11の基準姿勢に対応する傾斜を適用することで補正した値を、判定境界として設定する。CPU51は、ステップ106で、推定位相差が判定境界以下であるか否か判定する。ステップ106の判定が肯定された場合、即ち、推定位相差が判定境界以下である場合、話者が上方に存在すると判定し、CPU51は、ステップ108に進む。CPU51は、ステップ108で、音信号を第2言語から第1言語へ翻訳する処理に振り分け、ステップ110に進む。
ステップ106の判定が否定された場合、即ち、推定位相差が判定境界より大きい場合、話者が前方に存在すると判定し、ステップ109に進む。CPU51は、ステップ109で、音信号を第1言語から第2言語へ翻訳する処理に振り分け、ステップ110に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第2言語から第1言語へ翻訳され、例えば、スピーカから音声として出力される。
CPU51は、ステップ110で、音源方向判定装置10の話者方向判定機能が、例えば、ユーザの操作によりオフされたか否か判定する。ステップ110の判定が否定された場合、即ち、話者方向判定機能がオンである場合、CPU51は、ステップ101に戻り、次のフレームの音信号を読み込み、話者方向判定処理を継続する。ステップ110の判定が否定された場合、即ち、話者方向判定機能がオフである場合、CPU51は、話者方向判定処理を終了する。
本実施形態では、話者方向を適切に判定することを可能とすることを目的とする。複数のマイクで取得した音に対応する周波数領域の音信号の位相差と閾値とを比較することで話者方向を判定する場合、話者方向を適切に判定するために、話者方向判定装置の筐体の基準姿勢に対する傾きに基づいて、閾値を調整する技術が考えられる。しかしながら、発明者らは、高雑音環境下では、位相差が雑音に影響され小さくなるため、話者方向を適切に判定することができない場合がある、ことに想到した。
これに対し、本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。
本実施形態では、高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とする。
[第2実施形態]
第2実施形態では、雑音レベルに代えて、信号対雑音比(以下、SNRという。)を使用して、モデルを補正する点で、第1実施形態と相違する。SNRは雑音情報の一例である。第1実施形態と同様の構成及び作用については、説明を省略する。
図13に、第2実施形態の話者方向判定部20Bを例示する。雑音レベル推定部27に代えて、SNR推定部27Dが存在する点で、第1実施形態の話者方向判定部20Aと相違する。SNRは、例えば、(11)式で算出される。
SNR=vp−np …(11)
vpは、発話区間の音圧レベルであり、npは雑音レベルである。
(12)式は、補正モデルを例示する。α2()は、SNRに依存する制御パラメータであり、線形関数、三角関数、または機械学習などで統計的に回帰して、事前に導出される。α2()は、予め、テーブルなどに記憶されていてもよい。
φ=f(α2(SNR)*ap+(1−α2(SNR))*pz)…(12)
第2実施形態では、SNRが小さくなるに従って、判定境界が筐体11の基準姿勢に対する傾斜に応じて補正された判定境界から、補正前の判定境界により近付くように、補正モデルを生成する。SNRが小さいということは、雑音レベルが大きいということだからである。
本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。
本実施形態では、高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とする。
[第3実施形態]
第3実施形態では、補正モデルを生成することで補正した判定境界を設定する代わりに、推定位相差を補正する点で第1実施形態及び第2実施形態と異なる。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
図14に第3実施形態の話者方向判定部20Cを例示する。図14の話者方向判定部20Cは、モデル補正部29及び判定境界補正部28に代えて、位相差補正部30を含む点で、第1実施形態及び第2実施形態の話者方向判定部と相違する。
位相差補正部30は、モデル生成部、閾値設定部、及び物理量生成部の一例であり、補正位相差apaを、(13)式に例示するように、算出する。
apa=α(np)*ap+(1−α(np))*pz−Th(θ)+Th
…(13)
本実施形態では、補正位相差apaと、判定境界、即ち、基準モデルで、発話方向判定装置10の筐体11の基準姿勢に対する傾斜に対応する推定位相差、と、を比較することで、話者方向を判定する。
図15に、第3実施形態の話者方向判定処理の流れを例示する。図15では、図12のステップ104のモデル補正及びステップ105の判定境界補正に代えて、ステップ104Dの位相差補正を含む点で、第1及び第2実施形態と相違する。CPU51は、ステップ104Dで、例えば、(13)式を使用して、雑音レベルnp及び話者方向判定装置10の筐体11の基準姿勢に対する傾斜に基づいて補正した推定位相差を算出する。なお、雑音レベルに代えて、信号対雑音比を使用して、推定位相差を補正してもよい。
本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得される物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。基準モデルにおいて取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量である基準閾値との関係が、取得された物理量と設定された閾値との関係と同様になるように、取得された物理量を補正して補正物理量を生成する。生成された補正物理量と基準閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。
本実施形態では、高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とする。
[第4実施形態]
第4実施形態では、推定位相差を使用して話者方向を判定する代わりに、推定音圧差を使用して話者方向を判定する点で、第1実施形態と相違する。第1〜第3実施形態と同様の構成及び作用については、説明を省略する。
図16に第4実施形態の話者方向判定装置20Dを例示する。図16の話者方向判定装置20Dは、位相差推定部25の代わりに音圧差推定部25Dを有する点で、第1実施形態と相違する。なお、第2及び第3の実施形態において、位相差推定部を音圧差推定部と置き換えるようにしてもよい。第3実施形態に、第4実施形態を適用する場合、位相差補正部が音圧差補正部と置き換えられる。
物理量取得部の一例である音圧差推定部25Dは、(14)式に例示するように、k(k=0,1,…,K−1)番目の周波数帯域の推定音圧差dpo(k)を算出する。Kは、例えば、256であってよい。推定音圧差は、物理量の一例である。推定音圧差dpo(k)は、例えば、第1マイクで取得した音に対応する周波数領域の音信号の音圧パワーP(k)と第2マイクで取得した音に対応する周波数領域の音信号の音圧パワーP(k)との差である。
dpo(k)=P(k)−P(k)
=10log10(|z(k)|)−10log10(|z(k)|
=10log10(|z(k)|/|z(k)|)…(14)
(k)=10log10(Re(k)+Im(k)
=10log10(|z(k)|
(k)=10log10(Re(k)+Im(k)
=10log10(|z(k)|
(15)式に例示するように、z(k)は、第1時間周波数変換部23で変換された、k番目の周波数帯域の音信号を複素数で表現し、Re(k)は複素数の実部であり、Im(k)は複素数の虚部である。z(k)は、第2時間周波数変換部24で変換された、k番目の周波数帯域の音信号を複素数で表現し、Re(k)は複素数の実部であり、Im(k)は複素数の虚部である。
(k)=Re(k)+iIm(k)
(k)=Re(k)+iIm(k)…(15)
第4実施形態では、第1〜第3実施形態の推定位相差dp(k)を推定音圧差dpo(k)で置き換える。なお、第1〜第3実施形態における音の入射角と推定位相差との関係を表すモデルは、図17に例示する音の入射角と推定音圧差との関係を表すモデルに置き換えられる。
周囲に定常雑音が存在する場合、(16)式で例示するように、パワースペクトルPt1(k)及びPt2(k)には雑音の成分z(k)が含まれる。
t1(k)=10log10(|z(k)+z(k)|
t2(k)=10log10(|z(k)+z(k)|)…(16)
したがって、(17)式で例示するように、推定音圧差にも雑音の成分z(k)が含まれる。
t1(k)−Pt2(k)
=10log10(|z(k)+z(k)|)−
10log10(|z(k)+z(k)|
=10log10(|z(k)+z(k)|/|z(k)+z(k)|
…(17)
(17)式において、雑音の成分z(k)が∞に近付くと、(18)式に示すように、音圧差は0に近付く。
即ち、周囲の定常雑音が大きいと対象音の音圧差が埋もれてしまい、音の推定音圧差が定常雑音の音圧差に近付く。
基準モデルがφ=f(apo)である場合の、補正モデルφを(19)式に例示する。
φ=f(α(np)*apo+(1−α(np))*poz)…(19)
apoは推定音圧差であり、pozは不動点の推定音圧差である。推定音圧差apoは、上限周波数帯域から下限周波数帯域までの音圧差の平均値であってよいし、不動点の音圧差pozは、例えば、0であってよい。f()及びα()は、統計的に回帰して導出することで事前に定めておく。f()及びα()は、線形関数、三角関数、または機械学習の何れかを使用して導出することができる。
図18に、第4実施形態の話者方向判定処理の流れの一例を示す。ステップ103Eで音圧差を推定し、ステップ106Eで音圧差を使用して話者方向を判定している点で、図12に例示した第1実施形態の話者方向判定処理の流れと相違する。
CPU51は、ステップ103Eで、例えば、(14)式を使用して音圧差を推定し、ステップ106Eで、音圧差が判定境界以下であるか否か判定する。ステップ106の判定が肯定された場合、CPU51は、ステップ108に進み、ステップ106の判定が否定された場合、CPU51は、ステップ109に進む。
また、第1及び第2実施形態において、位相差推定部に加えて、音圧差推定部を含むようにしてもよいし、さらに、第3実施形態において、位相差補正部に加えて、音圧差補正部を含むようにしてもよい。この場合、位相差及び音圧差の両方を使用して話者方向の判定を行う。
図19に、第1及び第2実施形態において、発話方向判定部が位相差推定部に加えて、音圧差推定部を含む場合の話者方向判定処理の流れの一例を示す。図19では、図12のステップ103の位相差算出に加えて、ステップ103Eの音圧差算出を含み、ステップ106の位相差による話者方向判定に加えて、ステップ106Eの音圧差による話者方向判定を含む。
CPU51は、ステップ103Eで音圧差を推定し、ステップ103で位相差を推定する。CPU51は、ステップ106Eで、ステップ103Eで推定した音圧差がステップ104で生成した音の入射角と推定音圧差との関係を表す補正モデルに話者方向判定装置10の筐体11の傾斜を適用して求めた音圧差の判定境界以下であるか否か判定する。
ステップ106Eの判定が肯定された場合、CPU51は、ステップ106に進む。CPU51は、ステップ106で、ステップ103で推定した位相差がステップ104で生成した音の入射角と推定位相差との関係を表す補正モデルに話者方向判定装置10の筐体11の傾斜を適用して求めた位相差の判定境界以下であるか否か判定する。
ステップ106の判定が肯定された場合、即ち、話者方向が上方であると判定された場合、CPU51は、ステップ110に進む。ステップ106Eの判定が否定された場合、または、ステップ106の判定が否定された場合、即ち、話者方向が前方であると判定された場合、CPU51は、ステップ109に進む。
推定位相差及び推定音圧差を組み合わせることで、何れかが適切に推定できない場合であっても、話者方向を適切に判定することが可能となる。図19の処理は一例であり、推定位相差及び推定音圧差の判定には様々な組み合わせがあり得る。例えば、ステップ106Eの前にステップ106の判定が行われてもよい。
本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。
本実施形態では、高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とする。
なお、マイクが2つである場合について説明したが、本実施形態はこれに限定されず、マイクは3つ以上であってもよい。例えば、話者方向判定装置は球形であってよく、マイクは、球面上に相互に等間隔に配置されていてもよい。また、話者方向判定結果が翻訳に利用される例について説明したが、本実施形態はこれに限定されない。例えば、議事録生成において、話者方向判定結果に基づいて話者を判定することで議事録を生成してもよい。
なお、図12、図15、図18、及び図19のフローチャートは例示であり、処理の順序などは適宜変更することができる。
[比較例]
図20に、判定境界を変更しない場合、及び、話者方向判定装置の筐体の基準姿勢に対する傾斜に基づいて判定境界を変更する場合の、話者方向判定処理の正解率を例示する。また、図20に、話者方向判定装置の筐体の基準姿勢に対する傾斜及び雑音情報に基づいて判定境界を変更する場合の、話者方向判定処理の正解率を例示する。この例では、定常雑音が50[dBA]及び60[dBA]であり、話者方向判定装置の基準姿勢に対する傾斜は40[°]である。
判定境界を変更しない場合、図20の左端に例示するように、話者方向判定の正解率は63.1[%]である。話者方向判定装置の筐体の基準姿勢に対する傾斜に基づいて判定境界を変更する場合の話者方向判定の正解率は、図20の中央に例示するように、76.6[%]である。一方、話者方向判定装置の筐体の基準姿勢に対する傾斜及び雑音情報に基づいて判定境界を変更する場合の話者方向判定の正解率は、図20の右端に例示するように、88.1[%]であり、判定境界を変更しない場合と比較して、正解率が25%向上している。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
(付記2)
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
(付記3)
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記1または付記2のプログラム。
(付記4)
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記1〜付記3の何れかのプログラム。
(付記5)
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
(付記6)
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
(付記7)
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記5または付記6の話者方向判定方法。
(付記8)
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記5〜付記7の何れかの話者方向判定方法。
(付記9)
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。
(付記10)
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記基準モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値との関係と同様になるように、前記物理量取得部で取得された前記物理量を補正して補正物理量を生成する物理量生成部と、
前記物理量生成部で生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。
(付記11)
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
前記モデル生成部は、前記雑音情報取得部で取得した雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記9または付記10の話者方向判定装置。
(付記12)
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記9〜付記11の何れかの話者方向判定装置。
10 話者方向判定装置
20 話者方向判定部
20 子機
25 位相差推定部
26 傾斜取得部
27 雑音レベル推定部
29 モデル補正部
31 方向判定部
51 CPU
52 一次記憶部
53 二次記憶部
M01 第1マイク
M02 第2マイク

Claims (8)

  1. 複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
    前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
    取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
    話者方向判定処理をコンピュータに実行させるプログラム。
  2. 複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
    前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
    前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
    生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
    話者方向判定処理をコンピュータに実行させるプログラム。
  3. 前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
    取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
    請求項1または請求項2に記載のプログラム。
  4. 前記雑音情報は、雑音レベルまたは信号対雑音比である、
    請求項1〜請求項3の何れか1項に記載のプログラム。
  5. コンピュータが、
    複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
    前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
    取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
    話者方向判定方法。
  6. コンピュータが、
    複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
    前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
    前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
    生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
    話者方向判定方法。
  7. 複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
    前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
    前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
    を含む話者方向判定装置。
  8. 複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
    前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも1つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
    前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
    前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
    前記基準モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値との関係と同様になるように、前記物理量取得部で取得された前記物理量を補正して補正物理量を生成する物理量生成部と、
    前記物理量生成部で生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
    を含む話者方向判定装置。
JP2019107707A 2019-06-10 2019-06-10 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置 Ceased JP2020201370A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019107707A JP2020201370A (ja) 2019-06-10 2019-06-10 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置
US16/889,837 US20200389724A1 (en) 2019-06-10 2020-06-02 Storage medium, speaker direction determination method, and speaker direction determination apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019107707A JP2020201370A (ja) 2019-06-10 2019-06-10 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置

Publications (1)

Publication Number Publication Date
JP2020201370A true JP2020201370A (ja) 2020-12-17

Family

ID=73651835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019107707A Ceased JP2020201370A (ja) 2019-06-10 2019-06-10 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置

Country Status (2)

Country Link
US (1) US20200389724A1 (ja)
JP (1) JP2020201370A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325127A (ja) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音源検出方法、音源分離方法、およびこれらを実施する装置
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
JP2015226104A (ja) * 2014-05-26 2015-12-14 キヤノン株式会社 音源分離装置および音源分離方法
JP2019087986A (ja) * 2017-09-14 2019-06-06 富士通株式会社 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325127A (ja) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音源検出方法、音源分離方法、およびこれらを実施する装置
JP2009296232A (ja) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd 音入力装置、音入力方法およびプログラム
JP2015226104A (ja) * 2014-05-26 2015-12-14 キヤノン株式会社 音源分離装置および音源分離方法
JP2019087986A (ja) * 2017-09-14 2019-06-06 富士通株式会社 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム

Also Published As

Publication number Publication date
US20200389724A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
US10230346B2 (en) Acoustic voice activity detection
US8503686B2 (en) Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8194881B2 (en) Detection and suppression of wind noise in microphone signals
WO2020025951A1 (en) Detection of replay attack
US20230000420A1 (en) On-ear detection
CN104737446A (zh) 基于距离的自动增益控制和邻近效应补偿
CA2798282A1 (en) Wind suppression/replacement component for use with electronic systems
CN106898360A (zh) 音频信号处理方法、装置和电子设备
US20110188681A1 (en) Method for adaptively matching microphones of a hearing system as well as a hearing system
US20220068298A1 (en) Wearable mixed sensor array for self-voice capture
US11057721B2 (en) Own voice detection in hearing instrument devices
WO2020035180A1 (en) Method of operating an ear level audio system and an ear level audio system
JP5459220B2 (ja) 発話音声検出装置
JP2020201370A (ja) 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置
JP2009089133A (ja) 放収音装置
US11470429B2 (en) Method of operating an ear level audio system and an ear level audio system
WO2017171864A1 (en) Acoustic environment understanding in machine-human speech communication
JP2016046769A (ja) 集音装置
JP2015155982A (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP7106120B2 (ja) 音声対話装置および音声対話システム
JP2020197565A (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP2021081696A (ja) 収音装置、収音方法及び収音プログラム
CN116312622A (zh) 一种异音检测方法、装置和系统
WO2022200755A1 (en) Methods and apparatus for obtaining biometric data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230126

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230206

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230206

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

AA92 Notification that decision to refuse application was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971092

Effective date: 20230228