JP2020197565A - 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 - Google Patents

話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 Download PDF

Info

Publication number
JP2020197565A
JP2020197565A JP2019102058A JP2019102058A JP2020197565A JP 2020197565 A JP2020197565 A JP 2020197565A JP 2019102058 A JP2019102058 A JP 2019102058A JP 2019102058 A JP2019102058 A JP 2019102058A JP 2020197565 A JP2020197565 A JP 2020197565A
Authority
JP
Japan
Prior art keywords
speaker
phase difference
calculated
regions
representative value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019102058A
Other languages
English (en)
Other versions
JP7226107B2 (ja
Inventor
智佳子 松本
Chikako Matsumoto
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019102058A priority Critical patent/JP7226107B2/ja
Priority to US16/884,106 priority patent/US11227625B2/en
Publication of JP2020197565A publication Critical patent/JP2020197565A/ja
Application granted granted Critical
Publication of JP7226107B2 publication Critical patent/JP7226107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】高雑音環境下において、話者が存在する方向の判定精度を向上させることを目的とする。【解決手段】複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定する。複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。【選択図】図4

Description

本発明は、話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置に関する。
複数のマイクロフォンを含むマイクアレイを使用して、発声データから、発話者が存在する方向である話者方向を判定する技術が存在する。しかしながら、マイクアレイを使用して話者方向を判定しようとする際に、対象話者の発声ではない音である雑音が多く存在すると、話者方向を適切に判定することが困難となる。
話者方向が適切に判定されていないと、マイクアレイを備えたウェアラブル端末などで、話者方向によって実行する処理を切り替える場合に、適切な処理への切り替えが行われない。例えば、翻訳元の言語及び翻訳先の言語を話者方向によって話者を判定して切り替える場合、話者方向が適切に判定されていないと、適切な翻訳が実行されない。したがって、高雑音環境下においても話者方向判定精度を向上させる技術が求められている。
特開2017−125893号公報 特許5387459号公報
話者方向を判定する際に、位相差、即ち、音の到達時間差を使用することが考えられる。例えば、端末の筐体の上面部及び前面部にマイクロフォン(以下、マイクという。)が存在する場合、筐体前方からの音は、上面部のマイクロフォンより先に前面部のマイクに到達する。一方、筐体上方からの音は、前面部のマイクロフォンより先に上面部のマイクに到達する。
筐体前方からの音であるか、筐体上方からの音であるかは、予め設定されている音の入射角及び位相差のモデルと、判定境界と、により判定する。しかしながら、高雑音環境下では、音に対応する周波数領域の音信号の位相差に雑音の位相差が混入するため、話者方向を適切に判定することが困難となる。
本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを目的とする。
1つの実施形態では、複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定する。複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを可能とする。
話者方向判定装置を含む翻訳システムを例示するブロック図である。 第1実施形態の話者方向判定装置を例示するブロック図である。 第1実施形態の話者領域を例示する概念図である。 位相差領域に含まれる位相差を例示する概念図である。 位相差領域の位相差数を例示する概念図である。 第1〜第4実施形態の話者方向判定装置のハードウェア構成を例示するブロック図である。 第1実施形態の話者方向判定処理の流れを例示するフローチャートである。 第2実施形態の話者方向判定装置を例示するブロック図である。 話者方向判定装置を含む翻訳システムの外観を例示する概念図である。 話者領域を例示する概念図である。 位相差領域に含まれる位相差を例示する概念図である。 位相差領域毎の位相差数の時間平均値を例示する概念図である。 話者領域を例示する概念図である。 第2実施形態の話者方向判定処理の流れを例示するフローチャートである。 位相差領域毎の位相差数の時間平均値を例示する概念図である。 第3実施形態の話者方向判定装置を例示するブロック図である。 第3実施形態の補正係数を例示する概念図である。 第3実施形態の話者方向判定処理の流れを例示するフローチャートである。 第4実施形態の話者方向判定装置を例示するブロック図である。 第4実施形態の補正係数を例示する概念図である。 第4実施形態の位相差数取得処理の流れを例示するフローチャートである。 話者方向判定結果を例示する概念図である。 位相差領域に含まれる位相差を例示する概念図である。 位相差領域に含まれる位相差を例示する概念図である。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。第1実施形態では、話者の各々に対応する話者領域を設定し、話者領域の各々に対応する位相差領域の各々に含まれる位相差数の代表値を比較することで、話者が存在する方向である話者方向を判定する。
図1に、翻訳システム1を例示する。翻訳システム1は、話者方向判定装置10A、音声認識装置70及び翻訳装置60を含む。話者方向判定装置10Aは、話者方向判定結果を、音声認識装置70に送信し、話者方向判定結果を受信した音声認識装置70は、判定された話者方向に基づいて、音信号が話者P01の発話であるか、話者P02の発話であるかを判定する。話者P01の発話である場合、音声認識装置60は、音信号に対して第1言語の音声認識を行い、音声認識結果を翻訳装置60に送信する。話者P02の発話である場合、音声認識装置60は、音信号に対して第2言語の音声認識を行い、音声認識結果を翻訳装置60に送信する。
翻訳装置60は、受信した音声認識結果を使用して、話者P01の発話である場合、第1言語から第2言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。翻訳装置60は、受信した音声認識結果を使用して、話者P02の発話である場合、第2言語から第1言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。
図2に、話者方向判定装置10Aを例示する。話者方向判定装置10Aは、第1音受付部11、第2音受付部12、第1時間周波数変換部13、第2時間周波数変換部14、位相差算出部15、位相差領域設定部16、位相差数取得部17、位相差数平均値算出部18、及び、方向判定部22を含む。
第1音受付部11は、第1マイクロフォン(以下、マイクロフォンをマイクと呼ぶ。)で検出された音のアナログ信号から変換された時間領域の音のデジタル信号(以下、音のデジタル信号を音信号と呼ぶ。)を受け付け、第2音受付部12は、第2マイクで検出された音のアナログ信号から変換された時間領域の音信号を受け付ける。第1時間周波数変換部13は、例えば、FFT(Fast Fourier Transformation)を使用して第1音受付部11で受け付けた時間領域の音信号を周波数領域の音信号に変換し、第2時間周波数変換部14は、第2音受付部12で受け付けた時間領域の音信号を周波数領域の音信号に変換する。
位相差算出部15は、第1時間周波数変換部13で周波数領域に変換された音信号と、第2時間周波数変換部14で周波数領域に変換された音信号と、の位相差を時間周波数変換の周波数帯域毎に算出する。
設定部の一例である位相差領域設定部16は、話者の各々に対応する話者領域及び話者領域の各々に対応する位相差領域を設定する。話者領域は、対応する話者の位置、移動範囲などに応じて予め決定されている。本実施形態では、話者P01に対応する話者領域E01及び話者P02に対応する話者領域E02を設定し、話者P01に対応する位相差領域A01及び話者P02に対応する位相差領域A02を設定する。
図3に、話者P01が存在する領域である話者領域E01及び話者P02が存在する領域である話者領域E02を例示する。話者方向判定装置10Aを含む翻訳システム1の筐体1Aの前面には、第1マイクM01及び第2マイクM02が近接して配置されている。図3は、筐体1Aを上方から見た図である。
話者領域E01及びE02は、第1マイクM01及び第2マイクM02を含むマイクアレイを基点として各々異なる方向に設定される。本実施形態では、話者領域E01の基点に接する頂点の角度と話者領域E02の基点に接する頂点の角度とが略等しい例について説明する。なお、図3に例示する話者領域E01及びE02の面積は一例であり、面積は、図3の例示より大きくてもよいし、小さくてもよい。
図4は、話者領域E01及びE02が図3に例示するように設定された場合の位相差領域を例示する。図4の位相差領域A01は図3の話者領域E01に対応し、図4の位相差領域A02は図3の話者領域E02に対応する。
図2の位相差数取得部17は、図4の位相差領域A01に含まれる位相差の数である位相差数を取得し、位相差領域A02に含まれる位相差の数である位相差数を取得する。図4に、所定の時刻において、位相差領域A01及び位相差領域A02の各々に含まれる位相差を例示する。図4の縦軸は位相差[rad]を表し、横軸は周波数[Hz]を表す。図4において、位相差は丸で表される。図4の例では、位相差領域A02の位相差数が、位相差領域A01の位相差数より多い。
代表値算出部の一例である位相差数平均値算出部18は、位相差領域A01の位相差数の時間平均値、及び、位相差領域A02の位相差数の時間平均値を算出する。位相差数の時間平均値は、位相差数の代表値の一例である。FFTの対象フレームtの対象位相差領域の位相差数の時間平均値AvrNは、例えば、(4)式を使用して算出される。
AvrN=(1.0−γ)×AvrNt−1+γ×N …(4)
γは、忘却係数(γ<1.0)であり、AvrNt−1は、対象フレームtの1つ前のフレームt−1における位相差数の時間平均値であり、Nは対象フレームtにおいて対象位相差領域に含まれる位相差数である。なお、代表値は時間平均値に限定されず、対象フレームの前後の所定数フレームの位相差数の平均値であってもよいし、対象フレームの前後の所定数フレームの位相差数の中間値であってもよい。
判定部の一例である方向判定部22は、位相差領域A01の位相差数の時間平均値と位相差領域A02の位相差数の時間平均値とを比較することで話者方向を判定する。即ち、位相差数の時間平均値が大きい方の位相差領域側に話者が存在することを判定する。
図5は、位相差領域A01の位相差数の時間平均値及び位相差領域A02の位相差数の時間平均値を例示する。図5の縦軸は位相差数の時間平均値を表し、横軸は時間[s]を表す。図5において、実線は位相差領域A01の位相差数の時間平均値を表し、破線は位相差領域A02の位相差数の時間平均値を表す。
例えば、時間T01では、位相差領域A02の位相差数の時間平均値が位相差領域A01の位相差数の時間平均値より大きい。したがって、方向判定部22は、話者P02が発話していると判定する。
話者方向判定装置10Aは、一例として、図6に示すように、CPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、外部インタフェース54、第1マイクM01及び第2マイクM02を含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶部52、二次記憶部53、外部インタフェース54、第1マイクM01及び第2マイクM02は、バス59を介して相互に接続されている。
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、話者方向判定プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、位相差領域に関する情報、及び、話者方向判定プログラムを実行している間に生成される中間データなどを記憶する。
CPU51は、プログラム格納領域53Aから話者方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、話者方向判定プログラムをロードして実行することで、図2の第1音受付部11、第2音受付部12、第1時間周波数変換部13、及び、第2時間周波数変換部14として動作する。CPU51は、また、位相差算出部15、位相差領域設定部16、位相差数取得部17、位相差数平均値算出部18、及び、方向判定部22として動作する。
なお、話者方向判定プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部52に展開されてもよい。また、話者方向判定プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部52に展開されてもよい。
外部インタフェース54には外部装置が接続され、外部インタフェース54は、外部装置とCPU51との間の各種情報の送受信を司る。第1マイクM01及び第2マイクM02は、外部インタフェース54を介して、外部装置として、話者方向判定装置10Aと接続されている。第1マイクM01及び第2マイクM02は音を検出する。
話者方向判定装置10Aのみが筐体1Aに含まれ、話者方向判定結果は、外部インタフェース54を介して有線または無線の通信により、音声認識装置70に送信されてもよい。話者方向判定装置10Aを含む翻訳システム1は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。
次に、話者方向判定処理の作用の概要について説明する。図7は、話者方向判定処理の流れを例示する。
CPU51は、ステップ101で、第1マイクM01及び第2マイクM02の各々で検出された音に対応する時間領域の音信号を取得する。CPU51は、ステップ102で、取得された時間領域の音信号の各々を周波数領域の音信号に変換する。変換は、例えば、Fourier Frequency Transformation(FFT)で行われる。
CPU51は、ステップ103で、周波数領域の音信号の周波数帯域毎の位相差を算出する。CPU51は、ステップ104で、予め設定されている、話者毎の話者領域の各々に対応する位相差領域の各々に含まれる位相差数を取得する。CPU51は、例えば、話者P01の位相差領域A01に含まれる位相差数及び話者P02の位相差領域A02に含まれる位相差数を取得する。
CPU51は、ステップ105で、位相差領域の各々の位相差数の時間平均値を算出する。詳細には、CPU51は、例えば、位相差領域A01の位相差数の時間平均値及び位相差領域A02の位相差数の時間平均値を算出する。
CPU51は、ステップ107で、位相差領域の各々の位相差数の時間平均値を比較する。CPU51は、例えば、位相差領域A01の位相差数の時間平均値と位相差領域A02の位相差数の時間平均値とを比較する。
位相差領域A01の位相差数の時間平均値が位相差領域A02の位相差数の時間平均値以上である場合、CPU51は、ステップ108に進み、話者方向が位相差領域A01側であると判定する。位相差領域A01が話者P01に対応付けられている場合、CPU51は、話者P01が発話していることを判定し、話者方向判定処理を終了する。
ステップ107の判定が否定された場合、即ち、位相差領域A01の位相差数の時間平均値が位相差領域A02の位相差数時間平均値より小さい場合、CPU51は、ステップ110に進む。CPU51は、ステップ110で、話者方向が位相差領域A02側であると判定する。位相差領域A02が話者P02に対応付けられている場合、CPU51は、話者P02が発話していることを判定し、話者方向判定処理を終了する。
なお、本実施形態は、2つのマイクに限定されない。3つ以上のマイクを使用してもよい。また、本実施形態は、2つの位相差領域に限定されない。3つ以上の位相差領域を設定してもよい。
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。
[第2実施形態]
以下、図面を参照して第2実施形態の一例を詳細に説明する。第1実施形態と同様の構成及び作用については、説明を省略する。
第2実施形態では、複数の位相差領域の大きさが相互に異なる点が、第1実施形態と異なる。図8に例示する話者方向判定装置10Bは、補正係数算出部19及び位相差数平均値補正部21を含む点で、図2に例示した第1実施形態の話者方向判定装置10Aと異なる。
第2実施形態では、図9に例示するように、第1マイクM11は、話者方向判定装置を含む翻訳システム1Dの筐体11Dの上面に配置され、第2マイクM12は、翻訳システム1Dの前面に配置されている。
図10に例示するように、翻訳システム1Dを、筐体11Dの背面が話者側を向くように胸元に装着した話者P11が、話者P11より身長が低い話者P12Aと対話する場合が想定される。また、話者P11が、話者P11より身長が高い話者P12Bと対話する場合も想定される。
このような場合、図10に例示するように、話者P11が存在する第1話者領域E11よりも、話者P12A及び話者P12Bの両方に対応することができる第2話者領域E12は、広く設定される。一方、第1話者領域E11は、話者方向判定装置10Bを含む翻訳システム1Dの装着位置と話者P11の口の位置とに基づいて、比較的狭く設定することができる。
図11は、図10に例示するように話者領域が設定された場合の位相差領域を例示する。図11の位相差領域A11は、図10の話者領域E11に対応し、図11の位相差領域A12は図10の話者領域E12に対応する。図10に例示するように、話者領域E11が狭く話者領域E12が広いため、話者領域E11に対応する位相差領域A11が狭く、話者領域E12に対応する位相差領域A12が広く設定される。
第2位相差領域A12が第1位相差領域A11よりも広いため、図11に例示するように、位相差領域A12に含まれる位相差数が位相差領域A11に含まれる位相差数よりも多くなる傾向が生じる。位相差領域が広いと、雑音の位相差もより多く含まれるためである。図11の縦軸は位相差[rad]を表し、横軸は周波数[Hz]を表す。図11において、位相差は丸で表されている。
図12の下図に、第1位相差領域A11の位相差数の時間平均値を実線で例示し、第2位相差領域A12の位相差数の時間平均値を破線で例示する。図12の下図の縦軸は位相差数の平均値を表し、横軸は時間[s]を表す。
図12の上図に例示する話者P11の発話時間である時間T02であっても、図12の下図に例示するように、第1位相差領域A11の位相差数の時間平均値は、第2位相差領域A12の位相差数の時間平均値よりも小さい。この結果、単に、第1位相差領域A11の位相差数の時間平均値と第2位相差領域A12の位相差数の時間平均値とを比較した場合、話者方向が適切に判定されず、話者P11の発話が話者P12の発話であると誤認識される虞が生じる。
第2実施形態では、誤認識を防止するために、広い方の位相差領域である第2位相差領域A12を基準として、補正係数を算出し、算出した補正係数で狭い方の位相差領域である第2位相差領域の位相差数の時間平均値を補正する。補正係数算出部19は、例えば、話者領域の中心角の角度に基づいて、補正係数を算出する。即ち、補正係数は、話者領域各々の面積比から算出される。
図13に例示するように、第1話者領域E11の基点に接する頂点の角度がθ[°]であり、第2話者領域E12の基点に接する頂点の角度がθ[°]である場合、補正係数αは、例えば、(5)式を使用して算出される。
α=(πr×θ/360)/(πr×θ/360)=θ/θ…(5)
ここでは、第1話者領域E11及び第2話者領域E12の各々が、半径rの円に含まれる扇形であると仮定する。位相差数平均値補正部21は、狭い方の位相差領域である第1位相差領域A11の位相差数の時間平均値に補正係数αを乗算する。
次に、話者方向判定処理の作用の概要について説明する。図14では、図7のステップ107、ステップ108、及びステップ110がステップ107D、ステップ108D、及びステップ110Dと置き替えられている。CPU51は、ステップ107Dで、第1位相差領域A11の位相差数の時間平均値に補正係数αを乗算した値が、第2位相差領域A12の位相差数の時間平均値以上であるか否か判定する。ステップ107Dの判定が肯定された場合、CPU51は、ステップ108Dに進み、話者方向が第1位相差領域A11側であると判定し、話者方向判定処理を終了する。
ステップ107Dの判定が否定された場合、即ち、第1位相差領域A11の位相差数の時間平均値に補正係数αを乗算した値が、第2位相差領域A12の位相差数の時間平均値より小さい場合、CPU51は、ステップ110Dに進む。CPU51は、ステップ110Dで、話者方向が第2位相差領域A12側であると判定し、話者方向判定処理を終了する。
補正係数αを適用することで、図15の下図に例示するように、図15の上図に例示する、話者P11の発話時間である時間T02において、第1位相差領域A11の位相差数の時間平均値が第2位相差領域A12の位相差数の時間平均値よりも大きくなる。これにより、時間T02において、話者P11が発話していることが適切に判定される。
なお、狭い方の位相差領域である第1位相差領域A11の位相差数の時間平均値に補正係数を乗算する例について説明したが、本実施形態はこれに限定されない。例えば、広い方の位相差領域である第2位相差領域A12の位相差数の時間平均値を補正係数で除算するようにしてもよい。また、補正係数α1Dを(6)式で算出して、広い方の位相差領域である第2位相差領域A12の位相差数の時間平均値に乗算するようにしてもよい。
α1D=(πr×θ/360)/(πr×θ/360)=θ/θ…(6)
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域の各々に対応する複数の位相差領域の各々に基づいて、複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対する話者領域の方向を話者の存在方向であると判定する。
本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、話者の存在方向を判定する。
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の話者領域の大きさが相違する場合であっても、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
[第3実施形態]
以下、図面を参照して第3実施形態の一例を詳細に説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
第3実施形態では、補正係数を位相差数の時間平均値に基づいて算出する点で、第2実施形態と異なる。図16に例示する話者方向判定装置10Cは、補正係数算出部19に代えて、補正係数算出部19Dを含み、位相差数平均値補正部21に代えて、位相差数平均値補正部21Dを含む点で、図8に例示した第2実施形態の話者方向判定装置10Bと異なる。
補正係数算出部19Dは、例えば、図17に例示するように、(7)式で、補正係数αを算出する。avgは、広い方の位相差領域の位相差数の時間平均値であり、C、C、H、及びHは所定の定数である。
α=C(≧1.0) (avg≦Hである場合)
α=C(>C) (avg≧H(>H)である場合)
α=C+(C−C)×(avg−H)/(H−H
(H<avg<Hである場合) …(7)
図17の横軸は広い方の位相差領域の位相差数の時間平均値を表し、縦軸は補正係数αを表す。
次に、話者方向判定処理の作用の概要について説明する。図18では、補正係数αを算出するステップ106がステップ105の後に追加され、ステップ107D、ステップ108D、及びステップ110Dがステップ107E、ステップ108E、及びステップ110Eと各々置き替えられている点で、図14と異なる。ステップ106では、例えば、(7)式を使用して、補正係数αを算出する。
ステップ107Eでは、狭い方の話者領域に対応する位相差領域である第1位相差領域A21の位相差数の時間平均値に補正係数αを乗算した値が、第2位相差領域A22の位相差数の時間平均値以上であるか否か判定する。ステップ107Eの判定が肯定された場合、CPU51は、ステップ108Eで、話者方向が第1位相差領域A21側であると判定し、話者方向判定処理を終了する。
ステップ107Eの判定が否定された場合、即ち、第1位相差領域A21の位相差数の時間平均値に補正係数αを乗算した値が、第2位相差領域A22の位相差数の時間平均値より小さい場合、CPU51は、ステップ110Eに進む。CPU51は、ステップ110Eで、話者方向が第2位相差領域A22側であると判定し、話者方向判定処理を終了する。
なお、本実施形態では、広い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、話者領域の面積の差による位相差数の差を緩衝する補正係数を算出する。本実施形態では、算出した補正係数を狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用する。しかしながら、本実施形態はこれに限定されない。狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、面積の差による位相差数の差を緩衝する補正係数を算出し、算出した補正係数を広い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用するようにしてもよい。
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。補正係数は、複数の位相差領域の何れか1つの位相差領域の代表値に基づいて決定される。補正係数は、補正係数の決定に使用した代表値が大きくなるに従って大きくなるように定められる、
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の話者領域の大きさが相違する場合であっても、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
また、本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の代表値に基づいて決定される。補正係数が、位相差数の時間平均値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。
[第4実施形態]
以下、図面を参照して第4実施形態の一例を詳細に説明する。第1実施形態、第2実施形態、及び第3実施形態と同様の構成及び作用については、説明を省略する。
第4実施形態では、信号対雑音比(以下、SNR(Signal to Noise Ratio)と呼ぶ。)が所定値より大きい周波数帯域の位相差を計数する点で、第1実施形態、第2実施形態、及び第3実施形態と異なる。また、補正係数を定常雑音モデル推定値に基づいて算出する点で、第2実施形態、及び第3実施形態と異なる。
第4実施形態の話者方向判定装置10Dは、図19に例示するように、SNR算出部20を含む。話者方向判定装置10Dは、位相差数取得部17及び位相差数平均値補正部21Dに代えて、位相差数取得部17E及び位相差数平均値補正部21Eを有する点で、話者方向判定装置10Cと異なる。
SNR算出部20は、複数のマイクの何れかで取得した音に対応する周波数領域の音信号の周波数帯域毎の定常雑音モデルを推定する。定常雑音モデルの推定には、例えば、特許文献2に記されているような既存の技術を適用することができる。位相差数取得部17Eは、周波数領域の音信号の周波数帯域毎のSNRを算出する。SNRは、例えば、周波数帯域毎の音圧の振幅を、対応する定常雑音モデルで除算することで算出することができる。
位相差数取得部17Eは、算出したSNRが所定値より大きい場合に、位相差領域の各々の当該周波数帯域に存在する位相差を計数する。例えば、第1位相差領域の当該周波数帯域に存在する位相差を計数し、第2位相差領域の当該周波数帯域に存在する位相差を計数する。即ち、SNRが所定値以下である場合には、当該周波数帯域の位相差を計数しない。
補正係数算出部19Eは、図20に例示するように、例えば、(8)式で、補正係数αを算出する。cnmは、広い方の話者領域に対応する位相差領域である第2位相差領域の定常雑音モデル推定値[dBA]であり、D、D、J、及びJは所定の定数である。
α=D(≧1.0) (cnm≦Jである場合)
α=D(>D) (cnm≧J(>J)である場合)
α=D+(D−D)×(cnm−J)/(J−J
(J<cnm<Jである場合) …(8)
図20の横軸は、定常雑音モデル推定値[dBA]を表し、縦軸は補正係数αを表す。補正係数αは、狭い方の話者領域に対応する位相差領域である第1位相差領域の位相差数の時間平均値を補正するために、当該時間平均値に乗算される。
次に、話者方向判定処理の作用の概要について説明する。ここでは、第1〜第3実施形態と異なる位相差数取得処理について説明する。図21に、位相差数取得処理の流れを例示する。CPU51は、ステップ121で、変数i、N1及びN2に0をセットする。変数iは、周波数帯域数をカウントし、N1は第1位相差領域の位相差数を計数し、N2は第2位相差領域の位相差数を計数するために使用される。
CPU51は、ステップ122で、変数iの値がFFTフレーム数、即ち、周波数帯域数の最大値より小さいか否か判定する。ステップ122の判定が肯定された場合、CPU51は、ステップ123で、i番目の周波数帯域の定常雑音モデルを推定し、ステップ124で、i番目の周波数帯域のSNRを算出する。
CPU51は、ステップ125で、SNRが所定値より大きいか否か判定する。ステップ125の判定が肯定された場合、CPU51は、ステップ126で、i番目の周波数帯域の位相差が第1位相差領域内に存在するか否か判定する。ステップ126の判定が肯定された場合、CPU51は、ステップ127で、変数N1の値に1を加算して、ステップ130に進む。
ステップ126の判定が否定された場合、CPU51は、ステップ128で、i番目の周波数帯域の位相差が第2位相差領域内に存在するか否か判定する。ステップ128の判定が肯定された場合、CPU51は、ステップ129で、変数N2の値に1を加算して、ステップ130に進む。ステップ128の判定が否定された場合も、CPU51は、ステップ130に進む。
CPU51は、ステップ130で、変数iに1を加算して、ステップ122に戻る。ステップ122の判定が否定された場合、即ち、変数iの値がFFTフレーム数以上である場合、CPU51は位相差数取得処理を終了する。
なお、本実施形態では、(8)式を使用して補正係数を算出する例について説明した。しかしながら、例えば、本実施形態で、第2及び第3実施形態で説明した補正係数を使用してもよいし、(8)式を使用して算出した補正係数を第2または第3実施形態で説明した例に使用してもよい。また、第1実施形態で説明した例と同様に、本実施形態で、補正係数を使用しなくてもよい。
なお、本実施形態では、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて補正係数を算出し、狭い方の話者領域に対応する位相差領域の代表値に適用する例について説明しているが、本実施形態はこれに限定されない。例えば、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。または、狭い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
本実施形態では、複数の位相差領域の大きさが相違する場合には、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値が大きくなるに従って大きくなるように定められる。また、本実施形態では、複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の位相差領域の大きさが相違する場合であっても、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。本実施形態では、複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。即ち、雑音レベルが高い周波数帯域の位相差を計数しないため、話者が存在する方向の判定精度を向上させることができる。
図7、図14、図18及び図21のフローチャートは例示であり、処理の順序は適宜変更してもよい。
なお、話者方向判定結果を使用して翻訳を行う翻訳システムの例について説明したが、本実施形態はこれに限定されない。例えば、議事録生成システムにおいて、話者方向に基づいて、発話している話者を判定するために使用されてもよい。
[比較例]
図22に、2つの話者領域の大きさが異なる場合、即ち、2つの位相差領域の大きさが異なる場合の話者方向判定の正解率を例示する。広い方の位相差領域の話者方向判定の正解率は、第1実施形態のように、補正係数を使用しない場合、90.1[%]であり、第2及び第3実施形態のように、補正係数を使用する場合、100.0[%]に向上する。
狭い方の位相差領域の話者方向判定の正解率は、補正係数を使用しない場合、59.8[%]であり、第2実施形態のように、位相差領域の面積比などに基づいて算出される固定された補正係数を使用する場合、59.8[%]に向上する。また、狭い方の位相差領域の話者方向判定の正解率は、第3実施形態のように、位相差領域の位相差数の時間平均値などに基づいて算出される変動する補正係数を使用する場合、81.0[%]に向上する。
関連技術では、音の下限周波数帯域から上限周波数帯域までの位相差の平均値を使用している。したがって、図23に例示するように、丸で表す雑音の位相差が、三角で表す発話の位相差と混在してしまい、位相差の平均値が影響を受け、話者方向を適切に判定することが困難となる場合がある。一方、本実施形態では、図24に例示するように、例えば、第1位相差領域A41及び第2位相差領域A42のような複数の位相差領域の各々の位相差数の時間平均値を比較する。したがって、雑音の位相差が存在したとしても、両方の位相差領域に同様な影響を及ぼすため、話者方向を適切に判定することができ、話者方向の判定精度を向上させることができる。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
(付記2)
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記1のプログラム。
(付記3)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記2のプログラム。
(付記4)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記2のプログラム。
(付記5)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記2のプログラム。
(付記6)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記1〜付記5の何れかのプログラム。
(付記7)
前記代表値は時間平均値である、
付記1〜付記6の何れかのプログラム。
(付記8)
コンピュータが、
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定方法。
(付記9)
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記8の話者方向判定方法。
(付記10)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記9の話者方向判定方法。
(付記11)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記9の話者方向判定方法。
(付記12)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記9の話者方向判定方法。
(付記13)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記8〜付記12の何れかの話者方向判定方法。
(付記14)
前記代表値は時間平均値である、
付記8〜付記13の何れかの話者方向判定方法。
(付記15)
複数のマイクロフォンを含むマイクアレイと、
複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
を含む、話者方向判定装置。
(付記16)
前記判定部は、前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記15の話者方向判定装置。
(付記17)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記16の話者方向判定装置。
(付記18)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記16の話者方向判定装置。
(付記19)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記16の話者方向判定装置。
(付記20)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記15〜付記19の何れかの話者方向判定装置。
10A 話者方向判定装置
15 位相差算出部
16 位相差領域設定部
17 位相差数取得部
18 位相差数平均値算出部
22 方向判定部
51 CPU
52 一次記憶部
53 二次記憶部
M01 第1マイク
M02 第2マイク

Claims (9)

  1. 複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
    算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
    算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
    話者方向判定処理をコンピュータに実行させるプログラム。
  2. 前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
    請求項1に記載のプログラム。
  3. 前記補正係数は、前記複数の話者領域各々の面積比から算出される、
    請求項2に記載のプログラム。
  4. 前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
    請求項2に記載のプログラム。
  5. 前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
    請求項2に記載のプログラム。
  6. 前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
    請求項1〜請求項5の何れか1項に記載のプログラム。
  7. 前記代表値は時間平均値である、
    請求項1〜請求項6の何れか1項に記載のプログラム。
  8. コンピュータが、
    複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
    算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
    算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
    話者方向判定方法。
  9. 複数のマイクロフォンを含むマイクアレイと、
    複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
    前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
    前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
    前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
    を含む、話者方向判定装置。
JP2019102058A 2019-05-31 2019-05-31 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 Active JP7226107B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019102058A JP7226107B2 (ja) 2019-05-31 2019-05-31 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
US16/884,106 US11227625B2 (en) 2019-05-31 2020-05-27 Storage medium, speaker direction determination method, and speaker direction determination device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019102058A JP7226107B2 (ja) 2019-05-31 2019-05-31 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置

Publications (2)

Publication Number Publication Date
JP2020197565A true JP2020197565A (ja) 2020-12-10
JP7226107B2 JP7226107B2 (ja) 2023-02-21

Family

ID=73550776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019102058A Active JP7226107B2 (ja) 2019-05-31 2019-05-31 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置

Country Status (2)

Country Link
US (1) US11227625B2 (ja)
JP (1) JP7226107B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006254226A (ja) * 2005-03-11 2006-09-21 Toshiba Corp 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2014168188A (ja) * 2013-02-28 2014-09-11 Fujitsu Ltd マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
JP2017125893A (ja) * 2016-01-12 2017-07-20 富士通株式会社 音源検出装置、音源検出方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3353724B2 (ja) 1998-11-11 2002-12-03 三菱マテリアル株式会社 無線通信装置、無線通信システム、及び通信制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006254226A (ja) * 2005-03-11 2006-09-21 Toshiba Corp 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2014168188A (ja) * 2013-02-28 2014-09-11 Fujitsu Ltd マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
JP2017125893A (ja) * 2016-01-12 2017-07-20 富士通株式会社 音源検出装置、音源検出方法、及びプログラム

Also Published As

Publication number Publication date
JP7226107B2 (ja) 2023-02-21
US11227625B2 (en) 2022-01-18
US20200381008A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
JP6020258B2 (ja) マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
JP2017067862A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
US10679641B2 (en) Noise suppression device and noise suppressing method
KR20080013734A (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
JP2014137414A (ja) 雑音抑圧装置、方法、及びプログラム
CN112272848A (zh) 使用间隙置信度的背景噪声估计
WO2021150816A1 (en) Method and apparatus for wind noise attenuation
US8856001B2 (en) Speech sound detection apparatus
CN113613112B (zh) 抑制麦克风的风噪的方法和电子装置
US9691372B2 (en) Noise suppression device, noise suppression method, and non-transitory computer-readable recording medium storing program for noise suppression
JP2020197565A (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP5772591B2 (ja) 音声信号処理装置
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP2017011541A (ja) 音声処理装置、プログラム、及び通話装置
JP2012149906A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP5494492B2 (ja) 信号補正装置
US10706870B2 (en) Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium
US10531189B2 (en) Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
JP5970985B2 (ja) 音声信号処理装置、方法及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
US20200389724A1 (en) Storage medium, speaker direction determination method, and speaker direction determination apparatus
JP6361360B2 (ja) 残響判定装置及びプログラム
US20220139367A1 (en) Information processing device and control method
JP2011205324A (ja) 音声処理装置、音声処理方法およびプログラム
CN115691532A (zh) 风噪声污染范围估算方法及抑制方法、装置、介质、终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7226107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150