JP2017067948A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2017067948A
JP2017067948A JP2015191879A JP2015191879A JP2017067948A JP 2017067948 A JP2017067948 A JP 2017067948A JP 2015191879 A JP2015191879 A JP 2015191879A JP 2015191879 A JP2015191879 A JP 2015191879A JP 2017067948 A JP2017067948 A JP 2017067948A
Authority
JP
Japan
Prior art keywords
transfer function
unit
utterance
feature amount
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015191879A
Other languages
English (en)
Other versions
JP6606784B2 (ja
Inventor
武志 水本
Takeshi Mizumoto
武志 水本
圭佑 中村
Keisuke Nakamura
圭佑 中村
一博 中臺
Kazuhiro Nakadai
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015191879A priority Critical patent/JP6606784B2/ja
Priority to US15/247,467 priority patent/US10063966B2/en
Publication of JP2017067948A publication Critical patent/JP2017067948A/ja
Application granted granted Critical
Publication of JP6606784B2 publication Critical patent/JP6606784B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/02Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
    • G01S3/74Multi-channel systems specially adapted for direction-finding, i.e. having a single antenna system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

【課題】音声信号のみから伝達関数を求めて音声信号の処理を行うことができる音声処理装置および音声処理方法を提供する。【解決手段】音声処理装置1は、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部17、を備える。【選択図】図2

Description

本発明は、音声処理装置および音声処理方法に関する。
近年、複数の話者の音声を話者毎に分離する音源分離、話者の位置を定位する音源定位をする技術が、車両、ロボット、議事録作成装置等の分野において提案されている。マイクロホンアレイを用いて音源定位や音源分離をする場合には、観測される音源とマイクロホンアレイとの間の伝達関数を幾何的に計算したり、特定の信号を計測したりして事前情報として求めておく必要がある。ここで、利用者が目的に応じてマイクロホンアレイを自作する場合など、事前に求めるべき伝達関数情報を得ることが難しい場合がある。このため、音源分離や音源定位を行う装置の使用にあたっては、改善が望まれている。
伝達関数を推定する技術として、例えば特許文献1には、オンライン状態でマイクロホンから所定の信号し、それをマイクロホンで受信して動的に伝達関数を推定することが開示されている。
特開2010−181448号公報
しかしながら、特許文献1に記載の技術では、伝達関数を推定するに当たって、スピーカ等から既知の音声信号を出力する必要があり、話者が発話した実際の音声信号のみから伝達関数を求めることができなかった。すなわち、特許文献1に記載の技術では、音源の位置、音源の数、マイクロホンの位置、各マイクロホンと音源との位置関係が未知である音響信号から伝達関数を求めることができなかった。
本発明は、上記の問題点に鑑みてなされたものであって、音声信号のみから伝達関数を求めて音声信号の処理を行うことができる音声処理装置および音声処理方法を提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音声処理装置は、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部、を備える。
(2)また、本発明の一態様に係る音声処理装置は、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出する発話区間検出部と、前記発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部と、前記発話信号を用いて特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された前記特徴量をクラスタに分類することで音源数を推定するクラスタリング部と、を更に備え、前記代表伝達関数推定部は、前記伝達関数推定部によって推定された前記伝達関数と、前記クラスタリング部によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定するようにしてもよい。
(3)また、本発明の一態様に係る音声処理装置において、前記伝達関数推定部は、前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記伝達関数を推定するようにしてもよい。
(4)また、本発明の一態様に係る音声処理装置において、前記特徴量算出部は、前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記特徴量を算出するようにしてもよい。
(5)また、本発明の一態様に係る音声処理装置において、前記特徴量は、前記代表チャネルの前記発話信号と、前記残りのチャネルの前記発話信号との位相差に基づく値であるようにしてもよい。
(6)また、本発明の一態様に係る音声処理装置において、前記クラスタリング部は、
統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定するようにしてもよい。
(7)また、本発明の一態様に係る音声処理装置において、前記代表伝達関数推定部は、前記クラスタリング部によって求められた前記クラスタそれぞれの中心を算出し、各クラスタに含まれる前記特徴量について、算出した前記クラスタそれぞれの中心と前記特徴量との距離を算出し、算出した距離の総和と算出した距離それぞれを用いて重み付け値を算出し、前記クラスタに含まれる前記特徴量に対応する伝達関数と、算出した重み付け値を用いて、前記クラスタの中心における伝達関数を音源までの伝達関数として推定するようにしてもよい。
(8)上記目的を達成するため、本発明の一態様に係る音声処理方法は、音響信号取得部に、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を取得させる音響信号取得手順と、発話区間検出部に、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出させる発話区間検出手順と、伝達関数推定部に、前記発話区間検出手順によって検出された発話区間の発話信号を用いて伝達関数を推定させる伝達関数推定手順と、特徴量算出部に、前記発話信号を用いて特徴量を算出させる特徴量算出手順と、クラスタリング部に、前記特徴量算出手順によって算出された前記特徴量をクラスタに分類することで音源数を推定させるクラスタリング手順と、代表伝達関数推定部に、前記伝達関数推定手順によって推定された前記伝達関数と、前記クラスタリング手順によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定させるクラスタリング手順と、を含む。
上述した(1)、(2)または(8)の構成によれば、配置が未知のマイクロホンアレイを用いて集音された音源数も未知の音響信号から、音源に対する伝達関数を推定することができる。このように推定された伝達関数を音源分離、音源定位に用いることができる。この結果、(1)、(2)または(8)の構成によれば、事前に音響信号を発して伝達関数を推定する必要がないので、装置を駆動させるのに事前の準備を省略することができる。
上述した(3)の構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の伝達関数を推定することができ、この推定された伝達関数を用いて音源に対する伝達関数を推定することができる。
上述した(4)または(5)の構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。また、(5)の構成によれば、マイクロホン間の位相差を用いることによって事前に伝達関数を完全に求めていない状態でも、伝達関数を推定することができる。
上述した(6)の構成によれば、クラスタの数、すなわち音源数を精度良く推定することができる。
上述した(7)の構成によれば、空間クラスタリングをすることによって、想定される話者の位置において幅を持たせた伝達関数を推定することができる。
本発明の概要を示す図である。 本実施形態に係る音声処理装置の概略構成を示すブロック図である。 本実施形態に係る取得された音響信号の例を示す図である。 本実施形態に係る発話区間の例を示す図である。 本実施形態に係る時間領域から周波数領域への変換について説明する図である。 本実施形態に係る空間特徴量の例と、空間クラスタリングの例を示す図である。 本実施形態に係る話者数の推定方法を示す図である。 図6の第2のクラスタにおけるクラスタ中心と各空間特徴量との距離の例を示す図である。 本実施形態に係る代表伝達関数DBに格納される情報の例を示す図である。 本実施形態に係る音声処理装置の処理のフローチャートである。
[発明の概要]
まず、本発明の概要を説明する。
図1は、本発明の概要を示す図である。図1に示すように、本発明では、少なくとも2つ以上のマイクロホン201によって構成されるマイクロホンアレイ2を用いて、Mチェネル(Mは2以上の整数、マイクロホン201の数と一致)の音響信号録音部3が、音響信号を録音する。録音時、マイクロホン201の位置関係は未知であり、話者SPの位置も未知であり、話者の人数も未知であり、各マイクロホン201と話者SPとの位置関係も未知である。このような条件で録音されたMチャネルの音響信号を、音声処理装置1が取得する。音声処理装置1は、取得したMチャネルの音響信号から、発話区間を検出する。そして、音声処理装置1は、発話区間に含まれる音響信号の特徴量に基づいて、同じ方向から来ていると推定される音響信号に分類する。音声処理装置1は、分類した方向の音響信号毎に伝達関数を推定し、推定した伝達関数を用いて、音源分離処理、音源定位処理を行う。音声処理装置1は、定位された音源の信号を用いて、伝達関数の推定を、伝達関数が収束するまで繰り返す。この処理によって、本発明によれば、音源の位置、音源の数、マイクロホン201の位置、各マイクロホン201と音源(話者SP)との位置関係が未知である音響信号から、方向毎の音声信号を抽出することができる。また、マイクロホンアレイ2の位置とマイクロホン201の位置は、例えば会議における1セッションの間、固定されているものとする。なお、1セッションとは、例えば1つの会議全体に含まれる会話である。また、本発明において、複数のチャネルの音響信号が得られればよいので、マイクロホンアレイ2におけるマイクロホン201の数は2つ以上であればよい。
以下、図面を参照しながら本発明の実施形態について説明する。
まず、音声処理装置1の構成について説明する。
図2は、本実施形態に係る音声処理装置1の概略構成を示すブロック図である。図2に示すように、音声処理装置1は、音響信号取得部11、発話推定部12、変換部13、伝達関数推定部14、特徴量算出部15、クラスタリング部16、代表伝達関数推定部17、伝達関数DB18、音源定位部19、発話認識部20、および出力部21を備えている。
音響信号取得部11は、Mチャネルの音響信号を取得し、取得したMチャネルの音響信号を発話推定部12に出力する。なお、本実施形態において、収音される音響信号は、例えば会議室で行われる会議を録音したものである。このため、話者の移動は殆どないものとする。
発話推定部12は、発話区間推定部121を備える。
発話推定部12は、音響信号取得部11が出力したMチャネルの音響信号の中から、例えば1セッションの音響信号を抽出する。発話区間推定部121は、抽出された1セッションの音響信号から発話区間を検出し、検出した発話区間毎の音声信号を変換部13に出力する。なお、1セッションは、例えば1つの会議等で交わされた会話である。発話区間推定部121は、Mチャネルの音響信号の中から、例えば所定の閾値以上の信号が含まれているN個(Nは0以上の整数)の区間を発話区間として検出する。または、発話区間推定部121は、ゼロクロス法、GMM法等を用いて発話区間を検出してもよい。ゼロクロス法とは、一定のレベルを越える振幅について零交差数が一定数を越えたとき時刻を音声始端とし、値が一定以下になったときに音声の終端としてそこで入力を区切って1発話分であると検出する手法である。また、GMM(ガウス混合分布モデル;Gaussian mixture model)法とは、音声と非音声のGMMを定義し、入力短時間フレームごとに特徴量を算出し、算出した特徴量から各GMMの尤度計算を行い、音声GMMと非音声GMMの尤度比から、音声区間の開始・終了を判別する手法である。
変換部13は、発話推定部12が出力した発話区間毎の音声信号を、短時間フーリエ変換を行って周波数領域の信号に変換し、変換した発話区間毎の音声信号を伝達関数推定部14と特徴量算出部15と音源定位部19に出力する。
伝達関数推定部14は、変換部13が出力した発話区間毎の音声信号の1つを選択し、選択した音響信号を基準として発話区間毎のN個の伝達関数を推定する。なお、伝達関数の推定方法については、後述する。伝達関数推定部14は、推定した発話区間毎のN個の伝達関数を代表伝達関数推定部17に出力する。
特徴量算出部15は、変換部13が出力した発話区間毎のMチャネルの音響信号の中から1つを代表チャネルとして選択する。特徴量算出部15は、選択したチャネルを基準と他のチャネルとのサンプル差を空間特徴量として算出し、算出した空間音響特徴量をクラスタリング部16に出力する。なお、空間特徴量の算出方法については、後述する。
クラスタリング部16は、特徴量算出部15が出力した特徴量をM−1次元の空間に展開し、特徴量を分類することで音源数(話者数)を推定する。クラスタリング部16は、分類した結果を代表伝達関数推定部17に出力する。すなわち、本実施形態では、特徴量算出部15とクラスタリング部16が、1つのチャネルを基準として、音源の位置を推定している。なお、クラスタリングの処理については、後述する。
代表伝達関数推定部17は、クラスタリング部16によって推定されたクラスタ毎の中心を求め、クラスタ毎に中心と各特徴量との距離を算出する。代表伝達関数推定部17は、伝達関数推定部14が出力した発話区間毎のN個の伝達関数を用いて、クラスタの中心からの距離も考慮して重み付けを行って、伝達関数を統合してクラスタを代表する伝達関数を決定する。すなわち、代表伝達関数推定部17は、特徴量算出部15とクラスタリング部16によって推定された音源の位置の伝達関数を推定している。代表伝達関数推定部17は、決定した代表伝達関数を、伝達関数DB18に記憶させ、さらに音源定位部19に出力する。なお、代表伝達関数の推定、決定方法については、後述する。
伝達関数DB18には、方向毎に推定された伝達関数が格納されている。
音源定位部19は、代表伝達関数推定部17が出力した代表伝達関数を用いて、変換部13が出力したMチャネルの音響信号に対して音源定位処理を行う。なお、音源定位部19は、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部19は、算出した空間スペクトルに基づいて音源毎の音源方向を推定する。ただし、本実施形態において、推定される方位は、マイクロホン201の位置、マイクロホン201の配置、および音源の位置が未知であるため、例えばクラスタリング処理によって、音源がP個(Pは0以上の整数)と判別された場合、音源毎の方位は第1の方向、・・・、第Pの方向である。なお、音源方向の推定方法については、後述する。音源定位部19は、音源定位した定位結果を、発話推定部12と発話認識部20に出力する。
発話認識部20は、音源定位部19が出力した定位結果に対して、特徴量を算出する。発話認識部20は、算出した特徴量と自部に記憶されている音声認識モデルを用いて音声認識処理を行う。発話認識部20は、算出した特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。発話認識部20は、音源毎の発話内容として認識結果を示すテキストデータを出力部21に出力する。
出力部21は、発話認識部20が出力した認識結果を、外部装置(不図示)に出力する。なお、出力部21は、例えば画像表示部、スピーカ等であってもよい。
<取得される音響信号、発話区間>
次に、取得される音響信号と発話区間について説明する。
図3は、本実施形態に係る取得された音響信号の例を示す図である。図4は、本実施形態に係る発話区間の例を示す図である。図3および図4において、横軸は時刻、縦軸はマイクロホン数である。
図3に示す例では、音響信号取得部11が、M個のマイクロホン201を用いて収音したMチャネルの音響信号を示している。
図4に示す例では、発話推定部12が、Mチャネルの音響信号から、N個(1、・・・、n、・・・N、Nは1以上の整数、nは1〜Nの間の整数)の発話区間を検出し、検出した順に発話ID(識別子)を付与した例である。
<周波数領域への変換>
次に、変換部13によって行われる時間領域から周波数領域への変換について説明する。
図5は、本実施形態に係る時間領域から周波数領域への変換について説明する図である。
図5に示すように、変換部13は、発話区間毎に、短時間フーリエ変換を行うことで、時間領域から周波数領域へ変換を行う。例えば、n番目の発話かつm(mは、1〜Mの間の整数)チャネル目の短時間フーリエ変換後の信号X[n]m(ω,f)とすると、n番目の1〜Mチャネルの短時間フーリエ変換後の信号X[n](ω,f)は、次式(1)のように表される。なお、ωは周波数であり、fはフレーム(インデックス)である。
Figure 2017067948
式(1)において、[・]は、転置行列を表す。また、fは、1以上Fn以下の値である。
<伝達関数の推定>
次に、代表伝達関数推定部17が行う伝達関数の推定方法について説明する。
ここで、m番目のマイクロホン201の周波数領域の信号をX(ω,f)とし、周波数領域における音響信号(Sound source signal)をS(ω,f)とし、方向ψの伝達関数をA(ω,ψ)とすると、次式(2)の関係が成り立つ。
Figure 2017067948
式(2)より、伝達関数A(ω,ψ)は、次式(3)のように表される。
Figure 2017067948
なお、式(2)、(3)において、S(ω)、方向ψは未知であるため、これらの情報を用いて、伝達関数を算出することができない。
このため、本実施形態では、代表伝達関数推定部17は、N個の発話区間の中から1つの発話区間を逐次選択し、選択した発話区間においてMチャネルの周波数領域の信号X(ω,f)のうち1つを代表チャネルとして選択する。以下、1チャネル目を代表チャネルとして選択する例を説明するが、選択するチャネルは、2〜Mのうちのいずれか1つのチャネルであればよい。
これにより、伝達関数A(ω,ψ)は、次式(4)のように表される。
Figure 2017067948
ここで、複数のマイクロホン201が取得した信号は、マイクロホン201の配置と音源との距離関係に応じて、時間差が生じる。これにより他のチャネルの信号が、基準チャネルの信号より前の時刻に存在する場合、伝達関数は、負の時刻にピークを有することになる。このため、本実施形態では、全てのチャネルの信号が、基準チャネルに対して正の時刻になるように、基準チャネルX(ω,f)をX (ω,f)を用いて、所定のサンプル数Tサンプル分だけシフトして、時刻tにおける信号をX[t](t+T)とする。なお、X (ω,f)は、伝達関数A(ω,ψ)を正の時間にシフトする値である。
このX (ω,f)とX(ω,f)、Fフレームを使用して、その回帰モデルは、次式(5)であると定義する。
Figure 2017067948
式(5)において、左辺をX[1:F]とし、右辺の第1項をΩ[1:F]とし、右辺の第2項を数A(ω,ψ)とする。なお、Ω[1:F]は、独立変数である。
式(5)より、A(ω,ψ)は、次式(6)のように表される。
Figure 2017067948
式(6)には、マイクロホン201の位置が含まれていないが、室内の音響特性(room−acoustics)が含まれている。
なお、この手法において、十分なフレーム数を確保することで、よりロバストなものとなる。
発話区間がN個である場合、発話区間毎に伝達関数が推定される。発話区間nにおける伝達関数A[n](ω)は、次式(7)のように表される。
Figure 2017067948
上述したように、本実施形態では、従来のようにスピーカから発した既知の音源の信号を用いるのではなく、取得された実際の音響信号を用いて伝達関数を推定している。
<空間特徴量の算出>
次に、特徴量算出部15が行う音響特徴量の算出方法について説明する。
特徴量算出部15は、代表伝達関数推定部17と同じ1つのチャネルを選択する。本実施形態では、1チャネル目を選択するとして以下の説明を行う。
特徴量算出部15は、変換部13が出力した周波数領域の信号に対して、発話区間毎に選択された1チャネルと他のチャネルとのサンプル差τを算出する。ここで、n番目の発話区間におけるサンプル差τ[n]は、次式(8)のようにM−1次元のベクトルで表される。
Figure 2017067948
また、1チャネルとmチャネルとのn番目の発話区間のサンプル差τ[n]mは、次式(9)のように表される。本実施形態では、このサンプル差を空間特徴量という。
Figure 2017067948
式(9)において、argmaxは、関数値が最大となるような定義域の値を選択する関数である。また、[・]は、[・]の複素共役である。なお、このように、基準チャネルを設けて、空間特徴量を算出する手法を、本実施形態ではマルチチャネルGCC−PHAT(Generalized Cross−Correlation methods with Phase Transform)法という。なお、GCC−PHAT法とは、周波数領域の計算によって2つの音声波形の相互相関関数を求める方法である。この空間特徴量は、方向の情報である。
<空間クラスタリング>
次に、クラスタリング部16が行う空間クラスタリング方法について説明する。
図6は、本実施形態に係る空間特徴量の例と、空間クラスタリングの例を示す図である。また、空間特徴量のM−1次元空間であり、図6に示した例では、Mが4の例である。また、図6に示す例は、発話区間がN=16、すなわち空間特徴量が16個(τ[1]〜τ[16])である場合に、16個の空間特徴量に対して周知の手法を用いてクラスタリング処理を行った結果である。なお、クラスタリング部16は、例えば凝縮型クラスタリングの手法を用いて、クラスタに分類する。なお、話者数が既知の場合、クラスタリング部16は、例えばk−means法等を用いてクラスタリング処理を行うようにしてもよい。
図6に示す例では、空間特徴量τ[1]、τ[3]、τ[6]、τ[8]、τ[12]、τ[15]が第1のクラスタCに分類され、空間特徴量τ[2]、τ[7]、τ[9]、τ[11]、τ[13]が第2のクラスタCに分類され、空間特徴量τ[4]、τ[5]、τ[10]、τ[14]、τ[16]が第1のクラスタCに分類される。クラスタリング部16によって分類されているのは、位置を表す情報である空間特徴量(サンプル差)であるので、これらを分類した結果は、サンプル差に応じた音源の位置に対応する。
次に、クラスタリング部16が行うクラスタ数、すなわち話者数の推定方法について説明する。
ここで、クラスタ間の距離を、クラスタ中心間の距離であると定義する。クラスタiとクラスタj(i,jは互いに異なる1以上の整数)との距離は、次式(10)のように表される。
Figure 2017067948
図7は、本実施形態に係る話者数の推定方法を示す図である。図7において、縦軸は統合されたクラスタ数、横軸はクラスタ間の距離Δijである。本実施形態では、サンプル差である距離Δijを増加させていったときに、クラスタ間の距離Δijに何個のクラスタが含まれるかを確認することで、クラスタ数を推定する。
図7に示す例では、クラスタ間の距離Δijが0のときクラスタ数も0である。クラスタ間の距離Δijが0の場合、図6に示した例では空間特徴量が16個、それぞれの空間特徴量の距離が無いので、統合されたクラスタ数が0となる。その後、クラスタ間の距離Δijの増加に伴ってクラスタ数が増加し、その後、クラスタ間の距離Δijの増加に伴ってクラスタ数がピークになる。その後、クラスタ間の距離Δijの増加に伴ってピーク後に統合されたクラスタ数が減少していく。統合されたクラスタ数は0に収束していくが、Δijにおいて0から離れた位置に統合されたクラスタ数のピークがあることが分かっている。この理由は、同じ話者の信号は、同じようなサンプル差であるため、凝縮型クラスタリングを行うと、統合されやすい。図7におけるピークは、話者の空間特徴量が凝縮された距離を示している。一方、異なる話者の発話は、空間的に離れているため、距離が増加していき、第1の話者と他の話者のクラスタと結合される距離Δcにおいてピークpが発生する。さらに距離が増加すると、例えば話者が3人の場合、全ての空間特徴量が1つのクラスタに結合してピークpが発生する。
本実施形態では、クラスタリング部16が、第1の話者と他の話者のクラスタと結合する前、すなわち距離Δcにおいてピークpがある前の領域zにおけるクラスタ数Cを話者数Cとして決定する。図6に示した例は、C=3の例である。
<代表伝達関数の算出>
次に、代表伝達関数推定部17が行う代表伝達関数の算出方法について説明する。
図8は、図6の第2のクラスタCにおけるクラスタの中心(以下、クラスタ中心ともいう)τと各空間特徴量との距離dの例を示す図である。
伝達関数推定部14によって推定された伝達関数のうち、クラスタに含まれる伝達関数は、そのクラスタとみなせる方向から来た音源に対する伝達関数である。代表伝達関数推定部17は、これらの伝達関数を用いて、クラスタに対する伝達関数を代表伝達関数として決定する。
まず、代表伝達関数推定部17は、クラスタ数を決定後、各クラスタの中心τを、次式(11)を用いて求める。
Figure 2017067948
次に、代表伝達関数推定部17は、各空間特徴量とクラスタ中心との距離d[n]を、次式(12)を用いて発話区間毎に算出する。
Figure 2017067948
ここで、クラスタ中心の例と、クラスタ中心と各空間特徴量との距離の例を説明する。
図8に示す例では、空間特徴量τ[2]とクラスタ中心τとの距離がd[2]であり、空間特徴量τ[7]とクラスタ中心τとの距離がd[7]であり、空間特徴量τ[9]とクラスタ中心τとの距離がd[9]であり、空間特徴量τ[11]とクラスタ中心τとの距離がd[11]であり、空間特徴量τ[13]とクラスタ中心τとの距離がd[13]である。クラスタ中心τに近い空間特徴量τほど、信頼できるサンプルであると言える。このため、本実施形態では、クラスタ中心の伝達関数を求めて、音源に対する伝達関数であるとする。
次に、代表伝達関数推定部17は、次式(13)を用いて、クラスタ毎に距離の総和Dを求める。
Figure 2017067948
次に、代表伝達関数推定部17は、伝達関数推定部14によって推定された伝達関数A[n](ω)を用いて、さらに算出したクラスタ中心からの距離を考慮して重み付けを行って、以下のように伝達関数を統合して代表伝達関数を決定する。
本実施形態では、重み付け値を次式(14)のように定義する。
Figure 2017067948
次に、代表伝達関数推定部17は、算出した重み付け値を用いて、周波数領域(F)と時間領域(T)のクラスタ毎の代表伝達関数AmCを、次式(15)、次式(16)を用いて求める。なお、用いる伝達関数は、各クラスタに分類された空間特徴量に対応付けられている推定された伝達関数である。ここで空間特徴量は、発話区間毎であるため、1つのクラスタに例えば5つの空間特徴量が含まれる場合、伝達関数は、この5つの空間特徴量、すなわち発話区間それぞれに対応する5つの伝達関数である。
なお、本実施形態では、求めたクラスタ毎の中心を音源の位置であるとし、クラスタ中心の方向における伝達関数を、音源方向の伝達関数としている。
Figure 2017067948
Figure 2017067948
次に、代表伝達関数推定部17は、求めた周波数領域と時間領域それぞれの伝達関数を位相と振幅とに、次式(17)、式(18)のように分解する。
Figure 2017067948
Figure 2017067948
式(17)、式(18)より、代表伝達関数AmC(ω)は、次式(19)のように表される。
Figure 2017067948
<伝達関数DBの構築>
次に、代表伝達関数推定部17が行う代表伝達関数の推定について説明する。
図9は、本実施形態に係る伝達関数DB18に格納される情報の例を示す図である。図9に示した例では、第1の方向a1[deg]に第1の方向から来る音の伝達特性が伝達関数として格納され、第2の方向a2[deg]に第2の方向から来る音の伝達特性が伝達関数として格納され、第3の方向a3[deg]に第3の方向から来る音の伝達特性が伝達関数として格納されている。
しかしながら、前述したように、マイクロホン201の位置、マイクロホン201の配置、マイクロホン201と音源との位置関係が未知であるため、この方向は、音声処理装置1における座標系での方向である。このため、各クラスタと伝達関数との関連付けはできる。しかしながら、各クラスタが物理的に、どの方向から来た音を表しているのかを推定する必要がある。
代表伝達関数推定部17は、クラスタリングされた各方向に対して、実際の方向とは無関係な角度を擬似的に付与する。擬似的な方向とは、例えば図6において、クラスタCの方向を第1の方向、クラスタCの方向を第2の方向、クラスタCの方向を第3の方向である。これにより、代表伝達関数推定部17は、図9に示したように、1クラスタが1方向となる伝達関数のデータベースを構築し、構築した伝達関数のデータベースを伝達関数DB18に格納する。
<音源定位>
次に、音源定位部19が行う処理について説明する。
音源定位部19は、変換部13が出力した音声信号に対して、伝達関数DB18に格納されている伝達関数を用いて、代表伝達関数推定部17が出力した方向毎にMUSIC(MUtiple SIgnal Classification)スペクトルを計算する。
次に、音源定位部19は、代表伝達関数推定部17が出力した方向毎に、スケールが0から1の間の値になるようにMUSICスペクトルに対して正規化を行う。
次に、音源定位部19は、発話推定部12での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。この閾値を用いて、音源定位部19は、ラフな音源定位を行う。
次に、音源定位部19は、定位した結果から、単独音源について音声が存在している存在区間を切り出す。
発話推定部12は、音源定位部19によって音源定位され、閾値によって音が存在する区間が切り出された単独音源の音声信号を用いて、再び発話区間を推定する。これにより、1回目の発話区間検出より、発話区間の検出精度が向上する。音声処理装置1は、伝達関数が収束するまで、各部の処理を繰り返す。この繰り返し処理によって、徐々に音源定位結果に合致するような伝達関数を音声処理装置1が求めていくことができる。
なお、音声処理装置1は、伝達関数が収束するまでの処理をオフラインで行い、伝達関数が就職した後は、オンライン処理するようにしてもよい。また、作成された伝達関数を、音源分離装置(不図示)等に出力するようにしてもよく、音声処理装置1を音源分離装置が備えていてもよい。
<音声処理装置1の処理手順>
次に、音声処理装置1の処理手順について説明する。図10は、本実施形態に係る音声処理装置1の処理のフローチャートである。なお、音声処理装置1は、以下の処理をオフラインで行う。
(ステップS1)発話推定部12は、音響信号取得部11が出力したMチャネルの音響信号の中から、例えば1セッションの音響信号を抽出し、抽出した1セッションの音響信号から音が存在する存在区間を発話区間として検出する。
(ステップS2)音声処理装置1は、ステップS3〜ステップS15の処理を、伝達関数が収束するまで繰り返して行う。
(ステップS3)伝達関数推定部14および特徴量算出部15は、変換部13が出力した発話区間毎の音声信号の1つを選択し、選択した音響信号を基準として発話区間毎に、ステップS3〜ステップS5の処理を行う。ここでは、発話区間がN個あるとして説明する。
(ステップS4)伝達関数推定部14は、ステップS3で選択した発話区間において、1つのチャネル(例えば1チャネル)の信号を基準として、伝達関数を推定する。
(ステップS5)特徴量算出部15は、ステップS3で選択された発話区間において、1つのチャネル(例えば1チャネル)の信号を基準として、他のチャネルの信号とのサンプル差を空間特徴量として算出する。なお、このサンプル差は、チャンネル間の信号の位相差である。
(ステップS6)伝達関数推定部14および特徴量算出部15は、全ての発話区間に対してステップS3〜ステップS5の処理が終了した後、ステップS7の処理に進める。
(ステップS7)クラスタリング部16は、特徴量算出部15が出力した特徴量をM−1次元の空間に展開し、特徴量を凝縮型クラスタリングの手法を用いて分類することで音源数(話者数)を推定する。
(ステップS8)代表伝達関数推定部17は、ステップS7によって推定されたクラスタの中から1つのクラスタを選択し、クラスタ毎にステップS9の処理を行う。
(ステップS9)代表伝達関数推定部17は、クラスタリング部16によって推定されたクラスタ毎の中心を求め、クラスタ毎に中心と各特徴量との距離を算出する。続けて、代表伝達関数推定部17は、式(11)〜式(19)と、伝達関数推定部14が出力した発話区間毎のN個の伝達関数を用いて、クラスタの中心からの距離も考慮して重み付けを行って、伝達関数を統合してクラスタを代表する伝達関数(代表伝達関数)を決定する。
(ステップS10)代表伝達関数推定部17は、全てのクラスタに対してステップS9の処理が終了した後、ステップS11の処理に進める。
(ステップS11)代表伝達関数推定部17は、クラスタリングされた各方向に対して、実際の方向とは無関係な角度を擬似的に付与する。これにより、代表伝達関数推定部17は、1クラスタが1方向となる伝達関数のデータベースを構築し、構築した伝達関数のデータベースを伝達関数DB18に格納する。
(ステップS12)音源定位部19は、変換部13が出力した音声信号に対して、伝達関数DB18に格納されている伝達関数を用いて、代表伝達関数推定部17が出力した方向毎にMUSICスペクトルを計算する。
(ステップS13)音源定位部19は、代表伝達関数推定部17が出力した方向毎に、スケールが0から1の間の値になるようにMUSICスペクトルに対して正規化を行うことで、MUSICスペクトルを修正する。
(ステップS14)音源定位部19は、発話推定部12での発話区間の検出と合うように音が存在するか否かを判別する閾値を決定する。
(ステップS15)音源定位部19は、ステップS14で決定した閾値を用いて、音源定位を行う。続けて、音源定位部19は、定位した結果から、単独音源について音声が存在している存在区間を切り出す。
以後、発話推定部12は、音源定位部19によって音源定位され、閾値によって音が存在する区間が切り出された単独音源の音声信号を発話区間の信号として用いて、ステップS2〜ステップS15の処理を、伝達関数が収束するまで繰り返す。
(ステップS16)音声処理装置1は、伝達関数が収束した場合、処理を終了する。
なお、本実施形態では、1セッションが会議全体の例を説明したが、これに限られない。1セッションは、会議における1区切りがつくまでの会話、所定の時間の中に含まれる会話であってもよい。ここで、所定の時間とは、上述したクラスタリング処理や代表伝達関数の推定が行える発話を含む時間である。そして、音声処理装置1は、1セッションにおいて、伝達関数を求めて音源定位を行って、以後、推定した伝達関数を用いてオンライン処理を行うようにしてもよい。
なお、本実施形態では、音源定位部19が、MUSIC法を用いてMUSICスペクトルを算出する例を説明したが、これに限られない。音源定位部19は、伝達関数を用いる他の手法を用いて音源定位を行うようにしてもよい。
以上のように、本実施形態の音声処理装置1は、配置が未知であるマイクロホンアレイ2を用いて収音された複数のチャネル(1〜M)を有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部17、を備える。
また、本実施形態の音声処理装置1は、複数のチャネルを有する音響信号から複数の発話区間を検出する発話区間検出部(発話推定部12、発話区間推定部121)と、発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部14と、発話信号を用いて特徴量τを算出する特徴量算出部15と、特徴量算出部によって算出された特徴量をクラスタに分類することで音源数を推定するクラスタリング部16と、を更に備え、代表伝達関数推定部17は、伝達関数推定部によって推定された伝達関数と、クラスタリング部によって推定された音源数に基づいて、クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数(代表伝達関数)それぞれとして推定する。
この構成によれば、配置が未知のマイクロホンアレイを用いて集音された音源数も未知の音響信号から、音源に対する伝達関数を推定することができる。このように推定された伝達関数を音源分離、音源定位に用いることができる。この結果、この構成によれば、事前に音響信号を発して伝達関数を推定する必要がないので、装置を駆動させるのに事前の準備を省略することができる。
以上のように、本実施形態の音声処理装置1において、伝達関数推定部14は、発話信号に含まれる複数のチャネルのうちの1つを代表チャネル(例えば1チャネル)として選択し、選択した代表チャネルの発話信号と残りのチャネル(例えば2〜Mチャネル)の発話信号を用いて、伝達関数を推定する。
この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の伝達関数を推定することができ、この推定された伝達関数を用いて音源に対する伝達関数を推定することができる。
以上のように、本実施形態の音声処理装置1において、特徴量算出部15は、発話信号に含まれる複数のチャネルのうちの1つを代表チャネル(例えば1チャネル)として選択し、選択した代表チャネルの発話信号と残りのチャネル(例えば2〜Mチャネル)の発話信号を用いて、特徴量τを算出する。
この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。
以上のように、本実施形態の音声処理装置1において、特徴量τは、代表チャネル(例えば1チャネル)の発話信号と、残りのチャネル(例えば2〜Mチャネル)の前記発話信号との位相差に基づく値である。
この構成によれば、代表チャネルの音響信号を用いることで、発話区間毎の特徴量を算出することができ、この算出された特徴量を用いて音源に対する伝達関数を推定することができる。また、この構成によれば、マイクロホン201間の位相差を用いることによって事前に伝達関数を完全に求めていない状態でも、伝達関数を推定することができる。
以上のように、本実施形態の音声処理装置1において、クラスタリング部16は、統合されたクラスタの数が収束するクラスタ間の距離Δに基づいて、クラスタの数を決定する。
この構成によれば、クラスタの数、すなわち音源数を精度良く推定することができる。
以上のように、本実施形態の音声処理装置1において、代表伝達関数推定部17は、クラスタリング部16によって求められたクラスタそれぞれの中心τを算出し、各クラスタに含まれる特徴量τについて、算出したクラスタそれぞれの中心と特徴量との距離d[n]を算出し、算出した距離の総和Dと算出した距離それぞれを用いて重み付け値を算出し、クラスタに含まれる特徴量に対応する伝達関数と、算出した重み付け値を用いて、クラスタの中心における伝達関数を音源までの伝達関数として推定する。
この構成によれば、空間クラスタリングをすることによって、想定される話者の位置において幅を持たせた伝達関数を推定することができる。
なお、本発明における音声処理装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより伝達関数の推定、音源定位、音声認識等の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…音声処理装置、11…音響信号取得部、12…発話推定部、121…発話区間推定部、13…変換部、14…伝達関数推定部、15…特徴量算出部、16…クラスタリング部、17…代表伝達関数推定部、18…伝達関数DB、19…音源定位部、20…発話認識部、21…出力部、191…方位推定部

Claims (8)

  1. 配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を用いて、音源に対する伝達関数を推定する代表伝達関数推定部、
    を備える音声処理装置。
  2. 前記複数のチャネルを有する前記音響信号から複数の発話区間を検出する発話区間検出部と、
    前記発話区間検出部によって検出された発話区間の発話信号を用いて伝達関数を推定する伝達関数推定部と、
    前記発話信号を用いて特徴量を算出する特徴量算出部と、
    前記特徴量算出部によって算出された前記特徴量をクラスタに分類することで音源数を推定するクラスタリング部と、
    を更に備え、
    前記代表伝達関数推定部は、
    前記伝達関数推定部によって推定された前記伝達関数と、前記クラスタリング部によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定する、請求項1に記載の音声処理装置。
  3. 前記伝達関数推定部は、
    前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記伝達関数を推定する、請求項2に記載の音声処理装置。
  4. 前記特徴量算出部は、
    前記発話信号に含まれる複数のチャネルのうちの1つを代表チャネルとして選択し、選択した前記代表チャネルの前記発話信号と残りのチャネルの前記発話信号を用いて、前記特徴量を算出する、請求項2または請求項3のいずれか1項に記載の音声処理装置。
  5. 前記特徴量は、
    前記代表チャネルの前記発話信号と、前記残りのチャネルの前記発話信号との位相差に基づく値である、請求項4に記載の音声処理装置。
  6. 前記クラスタリング部は、
    統合されたクラスタの数が収束する前記クラスタ間の距離に基づいて、前記クラスタの数を決定する、請求項2から請求項5のいずれか1項に記載の音声処理装置。
  7. 前記代表伝達関数推定部は、
    前記クラスタリング部によって求められた前記クラスタそれぞれの中心を算出し、
    各クラスタに含まれる前記特徴量について、算出した前記クラスタそれぞれの中心と前記特徴量との距離を算出し、算出した距離の総和と算出した距離それぞれを用いて重み付け値を算出し、前記クラスタに含まれる前記特徴量に対応する伝達関数と、算出した重み付け値を用いて、前記クラスタの中心における伝達関数を音源までの伝達関数として推定する、請求項2から請求項6のいずれか1項に記載の音声処理装置。
  8. 音響信号取得部に、配置が未知であるマイクロホンアレイを用いて収音された複数のチャネルを有する音源数が未知である音響信号を取得させる音響信号取得手順と、
    発話区間検出部に、前記複数のチャネルを有する前記音響信号から複数の発話区間を検出させる発話区間検出手順と、
    伝達関数推定部に、前記発話区間検出手順によって検出された発話区間の発話信号を用いて伝達関数を推定させる伝達関数推定手順と、
    特徴量算出部に、前記発話信号を用いて特徴量を算出させる特徴量算出手順と、
    クラスタリング部に、前記特徴量算出手順によって算出された前記特徴量をクラスタに分類することで音源数を推定させるクラスタリング手順と、
    代表伝達関数推定部に、前記伝達関数推定手順によって推定された前記伝達関数と、前記クラスタリング手順によって推定された音源数に基づいて、前記クラスタそれぞれまでの伝達関数それぞれを音源に対する伝達関数それぞれとして推定させるクラスタリング手順と、
    を含む音声処理方法。
JP2015191879A 2015-09-29 2015-09-29 音声処理装置および音声処理方法 Active JP6606784B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015191879A JP6606784B2 (ja) 2015-09-29 2015-09-29 音声処理装置および音声処理方法
US15/247,467 US10063966B2 (en) 2015-09-29 2016-08-25 Speech-processing apparatus and speech-processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015191879A JP6606784B2 (ja) 2015-09-29 2015-09-29 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP2017067948A true JP2017067948A (ja) 2017-04-06
JP6606784B2 JP6606784B2 (ja) 2019-11-20

Family

ID=58406579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015191879A Active JP6606784B2 (ja) 2015-09-29 2015-09-29 音声処理装置および音声処理方法

Country Status (2)

Country Link
US (1) US10063966B2 (ja)
JP (1) JP6606784B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049414A (ja) * 2017-09-07 2019-03-28 本田技研工業株式会社 音響処理装置、音響処理方法及びプログラム
JP2021103324A (ja) * 2020-05-21 2021-07-15 北京百度網訊科技有限公司 モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510987B (zh) * 2018-03-26 2020-10-23 北京小米移动软件有限公司 语音处理方法及装置
US10743107B1 (en) * 2019-04-30 2020-08-11 Microsoft Technology Licensing, Llc Synchronization of audio signals from distributed devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006148453A (ja) * 2004-11-18 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2011164467A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> モデル推定装置、音源分離装置、それらの方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5338040B2 (ja) * 2007-06-04 2013-11-13 ヤマハ株式会社 音声会議装置
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
JP2009116025A (ja) * 2007-11-06 2009-05-28 Fujitsu Ten Ltd 適応フィルタ算出方法および音場生成装置
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2063419B1 (en) * 2007-11-21 2012-04-18 Nuance Communications, Inc. Speaker localization
JP2010181448A (ja) 2009-02-03 2010-08-19 Fujitsu Ten Ltd 音響調整装置及び音響調整方法
JP5604275B2 (ja) * 2010-12-02 2014-10-08 富士通テン株式会社 相関低減方法、音声信号変換装置および音響再生装置
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
JP6078461B2 (ja) * 2013-12-18 2017-02-08 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
KR101673579B1 (ko) * 2014-04-30 2016-11-07 광주과학기술원 이동체의 위치감지장치, 이동체의 위치감지방법, 조명장치, 공조장치, 보안장치, 및 주차장관리장치
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
US9992570B2 (en) * 2016-06-01 2018-06-05 Google Llc Auralization for multi-microphone devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006148453A (ja) * 2004-11-18 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2011164467A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> モデル推定装置、音源分離装置、それらの方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
小林和則 他, 日本音響学会2005年秋季研究発表会 講演論文集, JPN6018043785, 20 September 2005 (2005-09-20), pages 615 - 616, ISSN: 0003914490 *
石橋孝昭 他: ""ブラインド信号分離における原信号数の推定"", 第52回システム制御情報学会 研究発表講演会 講演論文集, JPN6018043781, 16 May 2008 (2008-05-16), pages 347 - 348, ISSN: 0003914488 *
石橋孝昭 他: ""ブラインド信号分離における非定常高騒音環境下でのリアルタイム発話区間検出"", 第50回システム制御情報学会 研究発表講演会 講演論文集, JPN6018043784, 10 May 2006 (2006-05-10), ISSN: 0003914489 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049414A (ja) * 2017-09-07 2019-03-28 本田技研工業株式会社 音響処理装置、音響処理方法及びプログラム
JP2021103324A (ja) * 2020-05-21 2021-07-15 北京百度網訊科技有限公司 モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品
JP7152550B2 (ja) 2020-05-21 2022-10-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品

Also Published As

Publication number Publication date
US20170092287A1 (en) 2017-03-30
US10063966B2 (en) 2018-08-28
JP6606784B2 (ja) 2019-11-20

Similar Documents

Publication Publication Date Title
US10901063B2 (en) Localization algorithm for sound sources with known statistics
US10127922B2 (en) Sound source identification apparatus and sound source identification method
EP2530484B1 (en) Sound source localization apparatus and method
JP5724125B2 (ja) 音源定位装置
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US20160180852A1 (en) Speaker identification using spatial information
JP6606784B2 (ja) 音声処理装置および音声処理方法
US11869481B2 (en) Speech signal recognition method and device
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
JP2018040848A (ja) 音響処理装置および音響処理方法
JP6487650B2 (ja) 音声認識装置及びプログラム
JP2010145836A (ja) 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
Pasha et al. Blind speaker counting in highly reverberant environments by clustering coherence features
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
He et al. Mask-based blind source separation and MVDR beamforming in ASR
JP2020043456A (ja) 音響処理装置、音響処理方法およびプログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Van Den Broeck et al. Noise robust footstep location estimation using a wireless acoustic sensor network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191002

R150 Certificate of patent or registration of utility model

Ref document number: 6606784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150