JP7243105B2 - 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム - Google Patents

音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム Download PDF

Info

Publication number
JP7243105B2
JP7243105B2 JP2018181307A JP2018181307A JP7243105B2 JP 7243105 B2 JP7243105 B2 JP 7243105B2 JP 2018181307 A JP2018181307 A JP 2018181307A JP 2018181307 A JP2018181307 A JP 2018181307A JP 7243105 B2 JP7243105 B2 JP 7243105B2
Authority
JP
Japan
Prior art keywords
sound
microphone
path
sound source
flat surface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018181307A
Other languages
English (en)
Other versions
JP2020053841A (ja
Inventor
千里 塩田
信之 鷲尾
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018181307A priority Critical patent/JP7243105B2/ja
Priority to US16/558,360 priority patent/US10880643B2/en
Publication of JP2020053841A publication Critical patent/JP2020053841A/ja
Application granted granted Critical
Publication of JP7243105B2 publication Critical patent/JP7243105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Description

本発明は、音源方向判定装置、音源方向判定方法、及び音源方向判定プログラムに関する。
第1指向性マイクロフォンを第1方向に沿って伝搬する音を検出するように配置し、第2指向性マイクロフォンを第1方向に交差する第2方向に沿って伝搬する音を検出するように配置することで、音源方向を判定する音源方向判定装置が存在する。この音源方向判定装置では、第1指向性マイクロフォンが検出した音の音圧の大きさが第2指向性マイクロフォンで検出した音の音圧の大きさよりも大きい場合、音が第1方向に沿って伝搬した音であると判定する。一方、第2指向性マイクロフォンが検出した音の音圧の大きさが第1指向性マイクロフォンで検出した音の音圧の大きさよりも大きい場合、音が第2方向に沿って伝搬した音であると判定する。
特開2018-40982号公報
渡邊ら、"指向性マイクロホンを用いた音源位置推定に関する基礎的検討"、[online]、[平成30年9月13日検索]、インターネット(URL:http://www.cit.nihon-u.ac.jp/kouendata/No.41/2_denki/2-008.pdf) 山本貢平、「回折計算の方法」、騒音制御、日本、1997年、Vol. 21、No. 3、頁143~147
しかしながら、指向性マイクロフォンは、無指向性マイクロフォンよりもサイズが大きく、価格も高いため、無指向性マイクロフォンを使用した場合よりも、音源方向判定装置のサイズが大きくなり、価格が高くなる、という問題がある。
本発明は、1つの側面として、情報処理端末の筐体と当該情報処理端末の装着者との間の隙間の大きさに拘わらず、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを目的とする。
1つの実施形態では、音源方向判定装置は、第1音道及び第2音道が内部に設けられたマイク設置部を有する。第1音道は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬される。第2音道は、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬される。音源方向判定装置は、第1音道の他端部または第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、第2音道の他端部または第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、合成音を出力するスピーカと、をさらに有する。更新部は、スピーカから合成音が出力されている際に第1マイクロフォン及び第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新する。判定部は、スピーカから合成音が出力されていない場合に、第1マイクロフォンで取得された音の所定の周波数成分の音圧と第2マイクロフォンで取得された音の所定の周波数成分の音圧との相違と、基準閾値との比較に基づいて、音源が存在する方向を判定する。
1つの側面として、情報処理端末の筐体と当該情報処理端末の装着者との間の隙間の大きさに拘わらず、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
第1~第3実施形態に係る情報処理端末の一例を示すブロック図である。 第1~第3実施形態に係る情報処理端末の外観の一例を示す概念図である。 第1~第3実施形態に係る情報処理端末の外観の一例を示す概念図である。 第1及び第2実施形態に係る図2Aの切断線3-3に沿った断面図である。 第1及び第2実施形態の音の回折を説明するための概念図である。 第1及び第2実施形態の音の回折を説明するための概念図である。 平坦面の面積が異なる場合の第1マイクロフォンの音圧と第2マイクロフォンの音圧との音圧差を例示する表である。 第1~第3実施形態の音の回折を説明するための概念図である。 第1~第3実施形態の音の回折を説明するための概念図である。 周波数軸に沿った回折による音圧の低下を説明するためのグラフである。 第1~第3実施形態の音源方向判定装置の一例を示すブロック図である。 第1及び第2実施形態の音の回折を説明するための概念図である。 第1及び第2実施形態の音の回折を説明するための概念図である。 音源方向判定の閾値を説明するための概念図である。 第1及び第2実施形態の合成音の回折を説明するための概念図である。 第1及び第2実施形態の合成音の回折を説明するための概念図である。 基準閾値の更新を説明するための概念図である。 基準閾値の更新を説明するための概念図である。 基準閾値の更新を説明するための概念図である。 第1~第3実施形態に係る情報処理端末のハードウェアの一例を示すブロック図である。 第1及び第3実施形態に係る音源方向判定処理の流れの一例を示すフローチャートである。 第1及び第2実施形態の合成音の回折を説明するための概念図である。 第1及び第2実施形態の合成音及び妨害音の回折を説明するための概念図である。 妨害音が存在しない場合の合成音及び第1マイクロフォンの収音の周波数スペクトルの一例を示す概念図である。 妨害音が存在する場合の合成音及び第1マイクロフォンの収音の周波数スペクトルの一例を示す概念図である。 妨害音、合成音及び、妨害音及び第1マイクロフォンの収音の周波数スペクトルの類似度の関係の一例を示す概念図である。 第2及び第3実施形態に係る音源方向判定処理の流れの一例を示すフローチャートである。 第3実施形態に係る図2Aの切断線3-3に沿った断面図である。 関連技術に係る指向性マイクロフォンを使用した音源方向判定装置の一例を示す概念図である。 指向性マイクロフォンの大きさと無指向性マイクロフォンの大きさとを比較するための例示的な表である。 関連技術に係る無指向性マイクロフォンを使用した音源方向判定装置の一例を示す概念図である。 関連技術に係る無指向性マイクロフォンを使用した音源方向判定装置の一例を示す概念図である。 関連技術における音圧差と本実施形態における音圧差との比較の一例を示す表である。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に、情報処理端末1の要部機能を例示する。情報処理端末1は、音源方向判定装置10及び音声翻訳装置16を含む。
音源方向判定装置10は、第1マイクロフォン11、第2マイクロフォン(以下、「マイクロフォン」を「マイク」ともいう。)12、判定部13、更新部14、及びスピーカ15を含む。音声翻訳装置16は、第1翻訳部16A、及び第2翻訳部16Bを含む。
第1マイク11及び第2マイク12の各々は、無指向性マイクロフォンであって、全方位の音を取得する。判定部13は、第1マイク11及び第2マイク12で取得された音の音源が存在する方向(以下、音源方向という。)を判定する。
更新部14は、判定部13が音源方向を判定する際に使用する基準閾値を更新する。音声翻訳装置16は、判定部13によって判定された音源方向に基づいて、第1マイク11または第2マイク12で取得された音源方向から伝搬する音に対応する音声信号によって表される言語を所定の言語に翻訳する。
詳細には、判定部13によって音源が、例えば、上方である第1方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第1翻訳部16Aが第1言語(例えば、英語)に翻訳する。判定部13によって、音源が、例えば、前方である第2方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第2翻訳部16Bが第2言語(例えば、日本語)に翻訳する。スピーカ15は、第1翻訳部16Aまたは第2翻訳部16Bによって翻訳された言語、及び、音声ガイダンスなどを合成音で出力する。
図2A及び図2Bに、音源方向判定装置10及び音声翻訳装置16を含む情報処理端末1の外観を例示する。情報処理端末1は、例えば、ユーザのシャツの胸ポケットの上縁部から、情報処理端末1の上端中央部に留めたクリップで下げて、または、ユーザの首から、情報処理端末1の上端中央部に留めたストラップで下げて使用することが想定される。図2Aは、情報処理端末1の筐体18の上面を例示する。筐体18は、マイク設置部の一例である。第1平坦面の一例である筐体18の上面は、音源方向判定装置10を胸ポケットの上縁部にクリップで留めた際に、上方を向く面、即ち、ユーザの口に最も近い面である。
筐体18の上面には、第1音道の一端部に備えられた第1開口部の一例である開口部11Oが存在する。第1音道の他端部には、第1マイク11が設置されている。以下、図において矢印FRは、情報処理端末1の前方を表す。筐体18の上面の前後方向の長さは、例えば、1[cm]である。
図2Bは、情報処理端末1の筐体18の前面を例示する。第2平坦面の一例である前面は、例えば、情報処理端末1を胸ポケットの上縁部にクリップで留めた際に、ユーザが対話する対話相手に対向する面である。
筐体18の前面には、第2音道の一端部に備えられた開口部12Oが存在する。第2音道の他端部には、第2マイク12が設置されている。以下、図において矢印UPは、情報処理端末1の上方を表す。筐体18の前面には、スピーカ15も配置されている。筐体18の前面の大きさは、例えば、一般的な名刺と同程度の大きさである。
音源方向判定装置10は、上方に音源が存在すると判定した音をユーザによって発話された音声であると判定して、第1言語に翻訳してスピーカ15から音声で出力するように、音声翻訳装置16の第1翻訳部16Aに当該音に対応する音声信号を送信する。また、音源方向判定装置10は、前方に音源が存在すると判定した音を対話相手によって発話された音声であると判定する。音源方向判定装置10は、第2言語に翻訳してスピーカ15から音声で出力するように、音声翻訳装置16の第2翻訳部16Bに当該音に対応する音声信号を送信する。
図3は、図2Aの切断線3-3に沿った断面図を表す。第2音道12Rの一端部は、筐体18の前面に開口した開口部12Oを備え、第2マイク12は、第2音道の他端部に設置されている。なお、図3では、第2マイク12が、第2音道12Rの他端部に設置されている例を示しているが、本実施形態はこれに限定されない。第2マイク12は、第2音道12Rの他端部近傍で第2音道12Rを形成する側壁に設置されていてもよい。この場合、第2マイク12と他端部との間の距離は所定長さ以下であり、所定長さは、例えば、0.5[mm]であってよい。
第1音道11Rの一端部は、筐体18の上面に開口した開口部11Oを備え、第1マイク11は、第1音道の他端部に設置されている。なお、図3では、第1マイク11が、第1音道11Rの他端部に設置されている例を示しているが、本実施形態はこれに限定されない。第1マイク11は、第1音道11Rの他端部近傍で第1音道11Rを形成する側壁に設置されていてもよい。この場合、第1マイク11と他端部との間の距離は所定長さ以下であり、所定長さは、例えば、0.5[mm]であってよい。第1音道11Rは途中に屈曲部11Kを有する。屈曲部11Kは第2回折部の一例である。
図4Aに、音源が情報処理端末1の前方に存在する場合を例示する。筐体18の前面の面積が所定値より大きい場合、第2マイク12は、開口部12Oを通って、直接届く音に加え、筐体18の前面で反射し、第3回折部の一例である開口部12Oで回折した音を取得する。
図4Bに、音源が情報処理端末1の上方に存在する場合を例示する。音は、第2マイク12に直接には届かず、第2マイク12は、開口部12Oで回折した音を取得する。したがって、第2マイク12で取得される音の音圧は、音源が前方に存在する場合の方が、音源が上方に存在する場合よりも大きい。
図5に、音源が情報処理端末1の前方に存在する場合、及び、上方に存在する場合の、第2マイク12で取得される音圧を例示する。情報処理端末1の前面の面積が所定値以下の大きさの一例である2[平方cm]である場合、音源が情報処理端末1の前方に存在する音の音圧は-26[dBov]である。また、音源が情報処理端末1の上方に存在する音の音圧は-29[dBov]である。したがって、情報処理端末1の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は3[dB]である。
一方、情報処理端末1の前面の面積が所定値より大きい大きさの一例である63[平方cm]である場合、音源が情報処理端末1の前方に存在する音の音圧は-24[dBov]である。また、音源が情報処理端末1の上方に存在する音の音圧は-30[dBov]である。したがって、情報処理端末1の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は、6[dB]である。
即ち、情報処理端末1の前面の面積が2[平方cm]の場合よりも、63[平方cm]の場合の方が音源の方向による音圧差が大きく、音源の方向の判定が容易となる。前面の面積が所定値より大きい場合、音源が情報処理端末1の前方に存在する音の反射が十分に行われるためである。
所定値とは、例えば、音道の断面積の1000倍であってよい。即ち、第2マイク12のマイク穴の直径が、例えば、0.5[mm]であり、第2音道12Rが、第2マイク12のマイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有している場合、約785[平方mm]より大きい面積であってよい。なお、例えば、第2音道12Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。また、第2音道は、例えば、矩形の断面を有していてもよい。
第2音道12Rの一端部から他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第2音道12Rは、筐体18の前面と直交していてもよいし、第2音道12Rと筐体18の前面とは90[度]以外の角度で交差していてもよい。
図6A及び図6Bで、音源が情報処理端末1の上方に存在する場合と、前方に存在する場合の、第1マイク11で取得される音圧を説明する。図6Aに、音源が情報処理端末1の上方に存在する場合を例示する。
筐体18の上面の前後方向の長さは短く、上面の面積は所定値以下であるため、音源が情報処理端末1の上方にある場合、図4Aに例示する音の反射及び回折による音の取得が期待できない。そこで、第1音道11Rには屈曲部11Kを設けている。第1音道11Rは、屈曲部11Kを有するため、上方からの音は、第1マイク11には直接届かず、第1音道11Rの屈曲部11Kで回折し、第1マイク11で取得される。
図6Bに、音源が情報処理端末1の前方に存在する場合を例示する。音は、第1回折部の一例である開口部11Oで回折し、さらに、屈曲部11Kで回折して、第1マイク11で取得される。
図7に、音源が情報処理端末1の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が情報処理端末1の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を例示する。実線は、音源が情報処理端末1の上方に存在する場合に第1マイク11で取得される音の音圧[dB]を表し、破線は、音源が情報処理端末1の前方に存在する場合に第1マイク11で取得される音の音圧[dB]を表す。
即ち、実線と破線との間の上下方向の距離が、音源が情報処理端末1の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が情報処理端末1の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を表す。図7のグラフの横軸は周波数[Hz]であり、音圧差は、周波数が低いほど小さく、周波数が高いほど大きい傾向を有する。即ち、回折の回数が1回である、音源が情報処理端末1の上方に存在する場合と、回折の回数が2回である音源が情報処理端末1の前方に存在する場合と、の音圧差は、周波数が高いほど顕著となる。
回折による減音量R[dB]は、例えば、(1)式で表される。
Figure 0007243105000001

Nは、フレネル数であり、(2)式で表される。
N=δ/(λ/2)
=δ・f/165 …(2)
δは、回折経路と直接経路との経路差[m]であり、λは音の波長[m]であり、fは音の周波数[Hz]であり、音速(=λ×f)を330[m/s]とした場合である。即ち、図7のグラフにも表されるように、周波数fが高いほど、回折による減音量Rは大きくなる傾向を有する。したがって、本実施形態では、音源の方向を判定する際に、音の高域成分の音圧差を使用する。
第1音道11Rは、第1マイク11のマイク穴の直径が0.5[mm]である場合、マイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有していてもよい。なお、例えば、第1音道11Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。
第1音道11Rは、一端部から屈曲部11Kに向かって徐々に直径が小さくなり、屈曲部11Kから他端部まで同じ直径を有していてもよい。また、第1音道11Rは、例えば、矩形の断面を有していてもよい。
第1音道11Rの一端部から屈曲部11Kまでの長さ、及び、屈曲部11Kから他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第1音道11Rの一端部から屈曲部11Kまでは、筐体18の上面と直交していてもよいし、第1音道11Rと筐体18の上面とは90[度]以外の角度で交差していてもよい。また、第1音道11Rの屈曲部11Kから他端部までは、一端部から屈曲部11Kまでと直交していてもよいし、90[度]以外の角度で交差していてもよい。
また、第1マイク11は第1音道11Rを形成する側壁と第1音道11Rの他端部とで包囲され、第1音道11Rの他端部と側壁との間に空隙はなく、開口部11Oにつながる向きだけが開放されている。また、第2マイク12は第2音道12Rを形成する側壁と第2音道12Rの他端部とで包囲され、第2音道12Rの他端部と側壁との間に空隙はなく、開口部12Oにつながる向きだけが開放されている。なお、筐体18の上面と前面とは直交している。しかしながら、本実施形態は筐体18の上面と前面とが直交されている例に限定されず、筐体18の上面と前面とは、90[度]以外の角度で交差していてもよい。
図8を使用して、第1実施形態の判定部13で行われる音源方向判定処理の概要を例示する。図3に例示するように設置された第1マイク11で取得された音に対応する音信号を、時間周波数変換部13Aが時間周波数変換する。同様に、図3に例示するように設置された第2マイク12で取得された音に対応する音信号を、時間周波数変換部13Bが時間周波数変換する。時間周波数変換には、例えば、Fast Fourier Transformation(FFT)を使用する。
上記したように、第1マイク11で取得された音の音圧と、第2マイク12で取得された音の音圧との音圧差は、高域成分で顕著に現れる。したがって、高域音圧差算出部13Cは、所定の周波数より高い周波数における周波数帯域毎の音圧差の平均値を、高域音圧差として算出する。音源方向判定部13Dは、高域音圧差算出部13Cで算出された高域音圧差に基づいて、音源の位置を判定する。
詳細には、高域音圧差算出部13Cは、第1マイク11で取得された音に対応する音信号のスペクトルパワーpow1[bin]を(3)式で、第2マイク12で取得された音に対応する音信号のスペクトルパワーpow2[bin]を(4)式で、算出する。
pow1[bin]=re1[bin]2+im1[bin]2 …(3)
pow2[bin]=re2[bin]2+im2[bin]2 …(4)
bin=0, …, F-1であり、Fは周波数帯域数であり、例えば、256であってよい。re1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
re2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
次に、(5)式で、高域音圧差d_powを算出する。
Figure 0007243105000002

高域音圧差d_powは、第1音圧と第2音圧との相違の一例であり、スペクトルパワーpow1[i]の対数から、スペクトルパワーpow2[i]の対数を減算した値の平均値である。sは、高域の下限周波数帯域数であり、例えば、96であってよい。音信号のサンプリング周波数が16[kHz]であり、s=96である場合、高域とは3000[Hz]~8[kHz]である。
音源方向判定部13Dは、高域音圧差d_powと基準閾値とを比較し、高域音圧差d_powよりも大きい場合、音源は筐体18の上面に対向する位置、即ち、上方にあると判定する。また、高域音圧差d_powが基準閾値以下である場合、音源は筐体18の前面に対向する位置、即ち、前方にあると判定される。
なお、高域音圧差d_powを取得する際に、(5)式において、筐体18の前面に開口部12Oを有する第2マイク12のスペクトルパワーを基準にしている。しかしながら、(6)式に例示するように、筐体18の上面に開口部11Oを有する第1マイク11のスペクトルパワーを基準として高域音圧差d_powを取得する場合、判定結果は異なる。
Figure 0007243105000003
高域音圧差d_powと基準閾値とを比較し、高域音圧差d_powが基準閾値よりも大きい場合、音源は筐体18の前面に対向する位置、即ち、前方に存在すると判定される。また、高域音圧差d_powが基準閾値以下である場合、音源は筐体18の上面に対向する位置、即ち、上方に存在すると判定される。
なお、高域音圧差を取得する(5)式及び(6)式は例示であり、本実施形態はこれに限定されない。また、第1マイク11で取得された音の高域成分の音圧、及び、第2マイク12で取得された音の高域成分の音圧の相違である高域音圧差を使用する例について説明したが、本実施形態はこの例に限定されない。
第1マイク11で取得された音の所定の周波数成分の音圧、及び、第2マイク12で取得された音の所定の周波数成分の音圧の相違を、高域音圧差に代えて使用してもよい。所定の周波数成分とは、高域成分であってよいが、音源の方向によって、第1マイク11と第2マイク12との間で音圧差が顕著に現れる周波数成分であればよい。
閾値更新部14は、基準閾値を更新する。装着者の身体と端末との間の隙間の大きさによって、音圧差に差が生じるため、音源方向の判定に一定の閾値を使用すると音源方向を誤る場合がある。装着者の姿勢などによって、装着者の身体と端末との間の隙間の大きさは変化する。
閾値更新部14は、合成音再生時の収音の音圧差に基づいて基準閾値を更新する。合成音出力制御部14Aがスピーカ15から合成音を出力するように制御している場合、高域音圧差算出部13Cで算出された高域音圧差は、音源方向判定部13Dに出力されず、基準閾値更新部14Bに出力される。
基準閾値更新部14Bは、合成音再生時の収音の音圧差が大きいほど、大きい値となるように基準閾値を更新する。詳細には、例えば、(7)式に例示するように、初期閾値THに、合成音区間の平均音圧差dxから合成音再生時の音圧差最小値DX_MINを減算した値に補正係数αを乗算した値を加算することで、基準閾値を更新する。補正係数は、スピーカ15及び第1マイク11及び第2マイク12の位置などにより変動し、予め実験的に定めることができる。初期閾値THは、例えば、0.0[dB]、音圧差最小値DX_MINは、例えば、3.0[dB]、補正係数αは、例えば、0.75であってよい。
基準閾値=TH+(dX-DX_MIN)*α...(7)
なお、上記計算を事前に行い、合成音区間の平均音圧差に対応する基準閾値を、予めテーブルに記憶しておいてもよい。
図9Aに例示するように、情報処理端末1と装着者の身体UBとの間に隙間が存在すると、上方からの音の一部分が隙間を通り、第1マイク11の音圧が小さくなる。即ち、図9Bに例示するように、情報処理端末1と装着者の身体UBとの間に隙間が存在しない場合と比較して、第1マイク11と第2マイク12との音圧差が小さくなる。したがって、隙間が存在する場合の上方からの音の音圧差は、隙間が存在しない場合の前方からの音の音圧差に近付く。
図10に、情報処理端末1と装着者の身体UBとの間に隙間が存在する場合及び存在しない場合の第1マイク11と第2マイク22との音圧差を例示する。左から、隙間が存在せず音源が上方である場合NU、隙間が存在せず音源が前方である場合NF、隙間が存在し音源が上方である場合GU、隙間が存在し音源が前方である場合GFの音圧差を例示する。
閾値をTH_CH1とした場合、隙間が存在し音源が上方であるGUの音圧差は、TH_CH1より小さく、前方の音であると判定される。一方、閾値をTH_C1より小さいTH_C2とした場合、隙間が存在せず音源が前方であるNFの音圧差は、TH_C2より大きく、上方の音であると判定される。即ち、情報処理端末1と装着者の身体UBとの間の隙間の大きさにより、第1マイク11の音の音圧が変化するため、音源方向の判定を誤る可能性が生じる。
本実施形態では、情報処理端末1と装着者の身体UBとの間の隙間の大きさにより、音源方向の判定を誤ることがないよう、合成音再生時の収音を利用して、基準閾値を更新する。情報処理端末1は、ガイダンス及び翻訳結果の通知など、頻繁に合成音を再生することが想定される。
図11A及び図11Bに例示するように、合成音再生時、スピーカ15から再生される合成音は、筐体18を回り込んで第1マイク11及び第2マイク12に収音される。合成音再生時の収音についても、非合成音の収音と同様に、図11Aに例示する隙間が存在する場合より、図11Bに例示する隙間が存在しない場合のほうが、第1マイク11と第2マイク12との音圧差が大きくなる。
5種類の合成音再生時の収音で隙間が存在する場合の音圧差と隙間が存在しない場合の音圧差とを測定した結果、隙間が存在する場合と存在しない場合とで、合成音再生時の収音の音圧差に、3[dB]~5[dB]の明らかな差があることが確認された。即ち、合成音再生時の収音の音圧差で、隙間の大きさを判定することができる。
したがって、本実施形態では、図12に例示するように、例えば、(7)式を使用して、合成音区間の平均音圧差dxが大きいほど、大きくなるように基準閾値を更新する。即ち、情報処理端末1と装着者の身体UBとの間に隙間が存在する場合、合成音区間の平均音圧差dxが小さくなり、発話区間の平均音圧差も小さくなるので、基準閾値を小さくする。また、情報処理端末1と装着者の身体UBとの間に隙間が存在しない場合、合成音区間の平均音圧差dxが大きくなり、発話区間の平均音圧差も大きくなるので、基準閾値を大きくする。
図13に、合成音区間の平均音圧差に基づいて更新させた基準閾値TH_Pを例示する。図14に例示するように、基準閾値をTH_C1に固定した場合、隙間が存在し音源が上方である場合に、音源が前方であると判定し、基準閾値をTH_C2に固定した場合、隙間が存在せず音源が前方である場合に、音源が上方であると判定する。しかしながら、基準閾値TH_Pを合成音区間の平均音圧差に基づいて変化させることで、隙間の大きさが変化したとしても、音源の方向を適切に判定することができる。
図15に、情報処理端末1のハードウェア構成を例示する。情報処理端末1は、ハードウェアであるプロセッサの一例であるCentral Processing Unit (CPU)51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54を含む。情報処理端末1は、また、第1マイク11、第2マイク12、及びスピーカ15を含む。
CPU51、一次記憶部52、二次記憶部53、外部インターフェイス54、第1マイク11、第2マイク12、及びスピーカ15は、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、音源方向判定処理をCPU51に実行させるための音源方向判定プログラム、音源方向判定処理の判定結果に基づいて、音声翻訳処理をCPU51に実行させるための音声翻訳プログラムなどのプログラムを記憶している。データ格納領域53Bは、第1マイク11及び第2マイク12から取得された音に対応する音信号、音源方向判定処理及び音声翻訳処理において一時的に生成される中間データ、などを記憶する。
CPU51は、プログラム格納領域53Aから音源方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、音源方向判定プログラムを実行することで、図1の判定部13及び更新部14として動作する。CPU51は、プログラム格納領域53Aから音声翻訳プログラムを読み出して一次記憶部52に展開する。CPU51は、音声翻訳プログラムを実行することで、図1の第1翻訳部16A及び第2翻訳部16Bとして動作する。なお、音源方向判定プログラム及び音声翻訳プログラムなどのプログラムは、Digital Versatile Disc (DVD)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部52に展開されてもよい。
外部インターフェイス54には、外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。例えば、スピーカ15は、情報処理端末1に含まれず、外部インターフェイス54を介して接続される外部装置であってもよい。
次に、情報処理端末1の作用の概略について説明する。情報処理端末1の作用の概略を図16に例示する。例えば、ユーザが情報処理端末1の電源を投入すると、CPU51は、ステップ101で、1フレーム分の音信号を読み込む。詳細には、第1マイク11から取得された音に対応する1フレーム分の音信号(以下、第1音信号という。)と、第2マイク12から取得された音に対応する1フレーム分の音信号(以下、第2音信号という。)と、を読み込む。1フレームは、サンプリング周波数が16[kHz]である場合、例えば、32[m秒]であってよい。
CPU51は、ステップ102で、ステップ101で読み込んだ音信号の各々に時間周波数変換を施す。CPU51は、ステップ103で、(3)式及び(4)式を使用して、時間周波数変換を施した音信号の各々のスペクトルパワーを算出し、(5)式を使用して、高域音圧差d_powを算出する。
CPU51は、ステップ104で、ステップ101で読み込んだ音信号が合成音区間の音信号であるか否か判定する。合成音は、CPU51の制御で出力されるため、CPU51は、自身が合成音を出力中であるか否か判定すればよい。
ステップ104の判定が肯定された場合、CPU51は、ステップ105で、高域音圧差d_powを累積加算し、ステップ101に戻る。ステップ104の判定が否定された場合、CPU51は、ステップ108で、1つ前のフレームが合成音区間であったか否か判定する。
ステップ108の判定が肯定された場合、CPU51は、ステップ109で、ステップ107で算出した高域音圧差d_powの累積加算を、累積加算した合成音区間のフレーム数で除算することで、音圧差平均値dxを算出する。CPU51は、音圧差平均値dxを使用して、例えば、(7)式により、基準閾値を更新し、ステップ110に進む。ステップ108の判定が否定された場合、基準閾値を更新せず、CPU51は、ステップ110に進む。
CPU51は、ステップ110で、ステップ101で読み込まれた音信号が発話区間の音信号であるか否か判定する。発話区間であるか否かの判定には、既存の発話区間判定技術を使用することができる。
ステップ110の判定が否定された場合、CPU51は、ステップ101に戻る。ステップ110の判定が肯定された場合、CPU51は、ステップ111で、ステップ103で算出した高域音圧差d_powとステップ109で更新した基準閾値とを比較する。高域音圧差d_powが基準閾値より大きい場合、音源が情報処理端末1の上方に存在すると判定し、CPU51は、ステップ112に進む。CPU51は、ステップ112で、音信号を第2言語から第1言語へ翻訳する処理に振り分け、ステップ114に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第2言語から第1言語へ翻訳され、例えば、スピーカ15から音声として出力される。
ステップ111で、高域音圧差d_powが基準閾値以下であると判定された場合、CPU51は、音源が情報処理端末1の前方に存在すると判定する。CPU51は、ステップ113で、音信号を第1言語から第2言語へ翻訳する処理に振り分け、ステップ114に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第1言語から第2言語へ翻訳され、例えば、スピーカ15から音声として出力される。
CPU51は、ステップ114で、情報処理端末1の音源方向判定機能が、例えば、ユーザの操作によりオフされたか否か判定する。ステップ114の判定が否定された場合、即ち、音源方向判定機能がオンである場合、CPU51は、ステップ101に進み、次のフレームの音信号を読み込み、音源方向判定処理を継続する。ステップ114の判定が否定された場合、即ち、音源方向判定機能がオフである場合、CPU51は、音源方向判定処理を終了する。
なお、音声翻訳装置14が、音源方向判定装置10と共に情報処理端末1の筐体18内に含まれている場合について例示したが、本実施形態はこれに限定されない。例えば、音声翻訳装置14は、情報処理端末1の筐体18の外部に存在し、音源方向判定装置10と有線接続または無線接続を介して接続されていてもよい。
なお、ステップ111で、高域音圧差d_powが基準閾値より大きい場合、音源が情報処理端末1の上方に存在すると判定し、高域音圧差d_powが基準閾値以下である場合、音源が情報処理端末1の前方に存在すると判定する例について説明した。しかしながら、本実施形態はこれに限定されない。
例えば、高域音圧差d_powが基準閾値+DTより大きい場合、音源が情報処理端末1の上方に存在すると判定し、高域音圧差d_powが基準閾値-DTより小さい場合、音源が情報処理端末1の前方に存在すると判定してもよい。この場合、高域音圧差d_powが、基準閾値+DT以下であり、かつ、基準閾値-DT以上である場合、音源の方向を判定しない。DTは、例えば、0.5[dB]であってよい。これにより、音源の方向が誤って判定される虞をさらに低減することが可能となる。
本実施形態では、音源方向判定装置は、第1音道及び第2音道が内部に設けられたマイク設置部を有する。第1音道は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬される。第2音道は、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬される。音源方向判定装置は、第1音道の他端部または第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、第2音道の他端部または第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、合成音を出力するスピーカと、をさらに有する。更新部は、スピーカから合成音が出力されている際に第1マイクロフォン及び第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新する。判定部は、スピーカから合成音が出力されていない場合に、第1マイクロフォンで取得された音の所定の周波数成分の音圧と第2マイクロフォンで取得された音の所定の周波数成分の音圧との相違と、基準閾値との比較に基づいて、音源が存在する方向を判定する。
本実施形態では、上記により、無指向性マイクロフォンを使用した音源方向判定の精度を、情報処理端末と装着者の身体との間の隙間の大きさに拘わらず、向上させることを可能とする。
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。
第2実施形態では、妨害音の影響が少ないフレームの合成音の音圧差を使用して、基準閾値を更新する。合成音区間に、合成音以外の音、即ち、妨害音が存在すると、合成音の音圧差を適切に取得することができず、基準閾値を適切に更新することができない。妨害音は、例えば、対話相手の発話による音である。
図17Aに例示するように、第1マイク11及び第2マイク12は、スピーカ15から出力される合成音SSを収音する。図17Bに例示するように、合成音SSが再生されている間に、前方からの妨害音FNが存在すると、第2マイク12の音圧が大きくなり、第1マイク11と第2マイク12との音圧差は小さくなる。
したがって、合成音区間の第1マイク11と第2マイク12との音圧差を使用して、基準閾値を更新しても、適切な基準閾値を取得することができない場合がある。
図18A及び図18Bに、第1マイク11の収音の周波数スペクトルを破線で例示し、合成音の周波数スペクトルを実線で例示する。図18Aは、妨害音が存在しない場合であり、図18Bは妨害音が存在する場合である。妨害音が存在しない場合、妨害音が存在する場合と比較して、収音と合成音とは類似度が高い。
図19の一番上の図は妨害音の周波数スペクトルを表し、二番目の図は合成音の周波数スペクトルを表し、一番下の図は第1マイク11の収音と合成音との類似度を表す。妨害音が少ないフレームNSでは、収音と合成音との類似度が高い。本実施形態では、第1マイク11及び第2マイク12の収音の各々と合成音との類似度が高いフレームNSを使用して、基準閾値を更新する。
図8の基準閾値更新部14Bは、合成音出力制御部14Aが出力を制御している合成音と第1マイク11の収音との類似度d1、及び当該合成音と第2マイク12の収音との類似度d2は、第1マイク11の収音、第2マイクの収音及び合成音の周波数スペクトルを使用して算出することができる。ここでは、周波数スペクトルから算出されるスペクトルパワーを使用して、例えば、(8)式で算出する。
Figure 0007243105000004
res[bin]は、合成音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、ims[bin]は、合成音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。合成音のデータは、データ格納領域53Bに記録されており、合成音出力制御部14Bで出力が制御されている合成音のフレームに対応するデータが使用される。
類似度d1及びd2は、全周波数帯域、即ち、i=0~255を使用して算出する。しかしながら、例えば、直流周波数成分など、低周波成分を除外した周波数帯域を使用して算出するようにしてもよい。類似度d1及びd2の算出には、(9)式に例示するように、内積を使用してもよい。
Figure 0007243105000005
類似度d1及びd2の算出には、(10)式に例示するように、共分散を使用してもよい。
Figure 0007243105000006
次に、情報処理端末1に含まれる音源方向判定装置10の作用の概略について説明する。音源方向判定装置10の作用の概略を図20に例示する。図20は、ステップ105及びステップ106が含まれている点で、図16のフローチャートと相違する。
CPU51は、ステップ105で、例えば、(8)式を使用して、第1マイク11の収音と合成音との類似度d1及び、第2マイク12の収音と合成音との類似度d2を算出する。CPU51は、ステップ106で、類似度d1及びd2が双方とも所定の類似度閾値を超えるか否か判定する。類似度閾値は、例えば、0.6であってよい。
ステップ106の判定が肯定された場合、CPU51は、ステップ107に進み、ステップ106の判定が否定された場合、CPU51は、ステップ101に戻る。
本実施形態では、更新部は、スピーカから出力される合成音と、合成音がスピーカから出力されている際に第1マイクロフォン及び第2マイクロフォンの各々で取得される音と、の類似度の各々を算出する。類似度の各々が類似度閾値を超える場合に、スピーカから合成音が出力されている際に第1マイクロフォン及び第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新する。
本実施形態では、妨害音の影響を低減することで、基準閾値を適切に更新することができる。したがって、情報処理端末の筐体と当該情報処理端末の装着者との間の隙間の大きさに拘わらず、無指向性マイクロフォンを使用した音源方向判定の精度をさらに向上させることを可能とする。
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
図21に、図2Aの切断線3-3に沿った断面図を例示する。第2実施形態では、第1実施形態と同様に、情報処理端末1Aの筐体18Aの上面の面積は所定値以下であり、情報処理端末1Aの筐体18Aの前面の面積は所定値より大きい。
第3実施形態では、第1音道11ARは、開口部11AOに音を回折する第1回折部の一例である回折部を有し、かつ、途中に、音を回折する屈曲部11AKである第2回折部の一例である回折部を有する。また、第2音道12ARは、第2開口部12AOに音を回折する第3回折部の一例である回折部を有し、途中に、音を回折する屈曲部12AKである第4回折部の一例である回折部を有する。
情報処理端末1Aの筐体18Aの前面は、第1実施形態及び第2実施形態と同様に所定値より大きい面積を有するが、第1実施形態及び第2実施形態と異なり、第2音道12ARは、途中に、回折部である屈曲部12AKを有している。
本実施形態では、上記構成により、回折による所定の周波数成分(例えば、高域成分)の減音を利用して、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。したがって、情報処理端末の筐体と当該情報処理端末の装着者との間の隙間の大きさに拘わらず、無指向性マイクロフォンを使用した音源方向判定の精度をさらに向上させることを可能とする。
なお、本実施形態では、音源方向が判定された音信号は、音源方向によって、音声翻訳装置16で、第1言語から第2言語または第2言語から第1言語に翻訳される例について説明したが、本実施形態はこれに限定されない。音声翻訳装置16は、例えば、第1翻訳部16Aまたは第2翻訳部16Bの何れか一方だけを含んでいてもよい。
また、情報処理端末1は、音声翻訳装置16に代えて、会議支援装置などを含んでいてもよい。なお、図16及び図20におけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。
[関連技術]
次に、関連技術について説明する。関連技術では、図22に例示するように、指向性マイク11Xの指向11XOR及び指向性マイク12Xの指向12XORを交差させるように、2つの指向性マイクを配置する。例えば、指向11XORを上方に向け、指向12XORを前方に向ける。
この構成により、指向性マイク11X及び指向性マイク12Xが取得した音の音圧差を使用して、音源の方向を判定することが可能である。即ち、指向性マイク11Xで取得した音の音圧が指向性マイク12Xで取得した音の音圧より大きい場合、音源は上方に存在し、指向性マイク12Xで取得した音の音圧が指向性マイク11Xで取得した音の音圧より大きい場合、音源は前方に存在する。
しかしながら、指向性マイクは、図23に例示するように、無指向性マイクよりも大きいため、指向性マイクを使用した場合、音源方向判定装置を小型化することが困難である。図23の例では、指向性マイクの体積は226[立方mm]であり、無指向性マイクの体積は11[立方mm]である。即ち、指向性マイクの体積は、無指向性マイクの体積の約20倍である。また、指向性マイクは無指向性マイクよりも高価であるため、音源方向判定装置の価格を低減することも困難となる。
しかしながら、図22に例示した音源方向判定装置の指向性マイクを単に無指向性マイクで置き替えることで、音源方向を精度よく判定することが可能な音源方向判定装置を実現することは困難である。図24Aに例示するように、無指向性マイク11Yが音を取得することができる範囲11YORと、無指向性マイク12Yが音を取得することができる範囲12YORと、はほぼ重複する。したがって、無指向性マイク11Y及び12Yが取得した音の音圧差に、音源方向を精度よく判定することができる程度の有意な差が生じないためである。
図24Bに、筐体18Yの上面に第1マイク11Yを設置し、前面に第2マイク12Yを設置した、第1~第3実施形態と同様に、前後方向の幅が1[cm]程度であり、前面が名刺程度の大きさである、関連技術の情報処理端末1Yを例示する。第1マイク11Y及び第2マイク12Yは、無指向性マイクである。関連技術の情報処理端末1Yの音源方向判定装置10Yの音圧差と第1実施形態の音源方向判定装置10の音圧差とを図25に例示する。音源が情報処理端末の上方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、2.9[dB]であり、第1実施形態では、7.2[dB]である。
音源が情報処理端末の前方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、-2.9[dB]であり、第1実施形態では、-4.2[dB]である。即ち、音源が情報処理端末の上方にある場合、第1実施形態で算出される音圧差は、関連技術より4.3[dB]大きく、音源が情報処理端末の前方にある場合、第1実施形態で算出される音圧差は、関連技術より1.3[dB]小さい。
したがって、本実施形態では図16のステップ111の判定で、誤った判定結果を得る可能性を低減することができる。したがって、本実施形態によれば、情報処理端末の筐体と当該情報処理端末の装着者との間の隙間の大きさに拘わらず、無指向性マイクロフォンを使用した音源方向判定の精度をさらに向上させることを可能とする。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部または前記第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
合成音を出力するスピーカと、
前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新する更新部と、
前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の所定の周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記所定の周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する判定部と、
を含む、
音源方向判定装置。
(付記2)
前記更新部は、前記スピーカから出力される前記合成音と、前記合成音がスピーカから出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得される音と、の類似度の各々が類似度閾値を超える場合に、前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、前記基準閾値を更新する、
付記1の音源方向判定装置。
(付記3)
前記所定の周波数成分は高域成分である、
付記1または付記2の音源方向判定装置。
(付記4)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は所定値以下であり、前記第2平坦面の面積は前記所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有する、
付記1~付記3の何れかの音源方向判定装置。
(付記5)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は所定値以下であり、前記第2平坦面の面積は前記所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、かつ、途中に、音を回折する屈曲部である第4回折部を有する、
付記1~付記3の何れかの音源方向判定装置。
(付記6)
前記音圧の相違は、前記第1マイクロフォンの音圧のパワーの対数から、前記第2マイクロフォンの音圧のパワーの対数を減算した値の平均値であり、
前記平均値が前記基準閾値よりも大きい場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記平均値が前記基準閾値以下である場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記1~付記5の何れかの音源方向判定装置。
(付記7)
前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
付記1~付記6の何れかの音源方向判定装置。
(付記8)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部または前記第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
合成音を出力するスピーカと、
コンピュータと、
を含む音源方向判定装置の前記コンピュータが、
前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新し、
前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の所定の周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記所定の周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する、
音源方向判定方法。
(付記9)
前記スピーカから出力される前記合成音と、前記合成音がスピーカから出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得される音と、の類似度の各々が類似度閾値を超える場合に、前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、前記基準閾値を更新する、
付記8の音源方向判定方法。
(付記10)
前記所定の周波数成分は高域成分である、
付記8または付記9の音源方向判定方法。
(付記11)
前記音圧の相違は、前記第1マイクロフォンの音圧のパワーの対数から、前記第2マイクロフォンの音圧のパワーの対数を減算した値の平均値であり、
前記平均値が前記基準閾値よりも大きい場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記平均値が前記基準閾値以下である場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記8~付記10の何れかの音源方向判定方法。
(付記12)
前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
付記8~付記11の何れかの音源方向判定方法。
(付記13)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部または前記第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
合成音を出力するスピーカと、
コンピュータと、
を含む音源方向判定装置の前記コンピュータに、
前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新し、
前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の所定の周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記所定の周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する、
音源方向判定処理を実行させるためのプログラム。
(付記14)
前記スピーカから出力される前記合成音と、前記合成音がスピーカから出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得される音と、の類似度の各々が類似度閾値を超える場合に、前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の所定の周波数成分の音圧の相違が大きくなるに従って大きくなるよう、前記基準閾値を更新する、
付記13のプログラム。
(付記15)
前記所定の周波数成分は高域成分である、
付記13または付記14のプログラム。
(付記16)
前記音圧の相違は、前記第1マイクロフォンの音圧のパワーの対数から、前記第2マイクロフォンの音圧のパワーの対数を減算した値の平均値であり、
前記平均値が前記基準閾値よりも大きい場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記平均値が前記基準閾値以下である場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記13~付記15の何れかのプログラム。
(付記17)
前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
付記13~付記16の何れかのプログラム。
1 情報処理端末
10 音源方向判定装置
11 第1マイクロフォン
11R 第1音道
11O 第1開口部
11K 屈曲部
12 第2マイクロフォン
12R 第2音道
12O 第2開口部
13 判定部
14 更新部
15 スピーカ
16 音声翻訳装置
51 CPU
52 一次記憶部
53 二次記憶部

Claims (8)

  1. 第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
    前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
    前記第2音道の他端部または前記第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
    合成音を出力するスピーカと、
    前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の高域周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新する更新部と、
    前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の高域周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記高域周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する判定部と、
    を含む、
    音源方向判定装置。
  2. 前記更新部は、前記スピーカから出力される前記合成音と、前記合成音がスピーカから出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得される音と、の類似度の各々が類似度閾値を超える場合に、前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の高域周波数成分の音圧の相違が大きくなるに従って大きくなるよう、前記基準閾値を更新する、
    請求項1に記載の音源方向判定装置。
  3. 前記第1平坦面と前記第2平坦面とは直交し、
    前記第1平坦面の面積は所定値以下であり、前記第2平坦面の面積は前記所定値より大きく、
    前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
    前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、
    前記所定値は、第2音道の断面積の約1000倍である、
    請求項1または請求項2に記載の音源方向判定装置。
  4. 前記第1平坦面と前記第2平坦面とは直交し、
    前記第1平坦面の面積は所定値以下であり、前記第2平坦面の面積は前記所定値より大きく、
    前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
    前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、かつ、途中に、音を回折する屈曲部である第4回折部を有し、
    前記所定値は、第2音道の断面積の約1000倍である、
    請求項1または請求項2に記載の音源方向判定装置。
  5. 前記音圧の相違は、前記第1マイクロフォンの音圧のパワーの対数から、前記第2マイクロフォンの音圧のパワーの対数を減算した値の平均値であり、
    前記平均値が前記基準閾値よりも大きい場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
    前記平均値が前記基準閾値以下である場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
    請求項1~請求項4の何れか1項に記載の音源方向判定装置。
  6. 前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
    請求項1~請求項5の何れか1項に記載の音源方向判定装置。
  7. 第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
    前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
    前記第2音道の他端部または前記第2音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
    合成音を出力するスピーカと、
    コンピュータと、
    を含む音源方向判定装置の前記コンピュータが、
    前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の高域周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新し、
    前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の高域周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記高域周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する、
    音源方向判定方法。
  8. 第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
    前記第1音道の他端部または前記第1音道の他端部近傍に設置された無指向性の第1マイクロフォンと、
    前記第2音道の他端部または前記第音道の他端部近傍に設置された無指向性の第2マイクロフォンと、
    合成音を出力するスピーカと、
    コンピュータと、
    を含む音源方向判定装置の前記コンピュータに、
    前記スピーカから前記合成音が出力されている際に前記第1マイクロフォン及び前記第2マイクロフォンの各々で取得された音の高域周波数成分の音圧の相違が大きくなるに従って大きくなるよう、基準閾値を更新し、
    前記スピーカから前記合成音が出力されていない場合に、前記第1マイクロフォンで取得された音の高域周波数成分の音圧と、前記第2マイクロフォンで取得された前記音の前記高域周波数成分の音圧と、の相違と、前記基準閾値との比較に基づいて、音源が存在する方向を判定する、
    音源方向判定処理を実行させるためのプログラム。
JP2018181307A 2018-09-27 2018-09-27 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム Active JP7243105B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018181307A JP7243105B2 (ja) 2018-09-27 2018-09-27 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム
US16/558,360 US10880643B2 (en) 2018-09-27 2019-09-03 Sound-source-direction determining apparatus, sound-source-direction determining method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018181307A JP7243105B2 (ja) 2018-09-27 2018-09-27 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム

Publications (2)

Publication Number Publication Date
JP2020053841A JP2020053841A (ja) 2020-04-02
JP7243105B2 true JP7243105B2 (ja) 2023-03-22

Family

ID=69946807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018181307A Active JP7243105B2 (ja) 2018-09-27 2018-09-27 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム

Country Status (2)

Country Link
US (1) US10880643B2 (ja)
JP (1) JP7243105B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022154308A (ja) * 2021-03-30 2022-10-13 パナソニックIpマネジメント株式会社 通話補助装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081239A (ja) 2016-11-17 2018-05-24 富士通株式会社 音声処理方法、音声処理装置、及び音声処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002135642A (ja) 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
EP1691344B1 (en) 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
JP5772447B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
US8724840B2 (en) * 2012-03-22 2014-05-13 Robert Bosch Gmbh Offset acoustic channel for microphone systems
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
JP6759898B2 (ja) 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US10249283B2 (en) * 2017-08-04 2019-04-02 Cirrus Logic, Inc. Tone and howl suppression in an ANC system
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081239A (ja) 2016-11-17 2018-05-24 富士通株式会社 音声処理方法、音声処理装置、及び音声処理プログラム

Also Published As

Publication number Publication date
JP2020053841A (ja) 2020-04-02
US10880643B2 (en) 2020-12-29
US20200107119A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
JP5519689B2 (ja) 音響処理装置、音響処理方法及び補聴器
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
KR101606966B1 (ko) 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
JP4897666B2 (ja) 音声妨害を検出および除去する方法および装置
WO2016027680A1 (ja) 音声処理装置、音声処理方法、並びにプログラム
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
JP5740572B2 (ja) 補聴器、信号処理方法及びプログラム
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US20130282372A1 (en) Systems and methods for audio signal processing
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
US9460731B2 (en) Noise estimation apparatus, noise estimation method, and noise estimation program
US20080312918A1 (en) Voice performance evaluation system and method for long-distance voice recognition
US8149728B2 (en) System and method for evaluating performance of microphone for long-distance speech recognition in robot
US20150088497A1 (en) Speech processing apparatus, speech processing method, and speech processing program
JP7243105B2 (ja) 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム
JP7020283B2 (ja) 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム
JP2005303574A (ja) 音声認識ヘッドセット
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
WO2022141364A1 (zh) 生成音频的方法和系统
US10609479B2 (en) Device and method for determining a sound source direction
JP2016024231A (ja) 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム
Rahmani et al. A dual microphone coherence based method for speech enhancement in headsets.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230206

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R150 Certificate of patent or registration of utility model

Ref document number: 7243105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150