JP6543848B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents
音声処理装置、音声処理方法及びプログラム Download PDFInfo
- Publication number
- JP6543848B2 JP6543848B2 JP2017065932A JP2017065932A JP6543848B2 JP 6543848 B2 JP6543848 B2 JP 6543848B2 JP 2017065932 A JP2017065932 A JP 2017065932A JP 2017065932 A JP2017065932 A JP 2017065932A JP 6543848 B2 JP6543848 B2 JP 6543848B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- speaker
- unit
- speech
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 80
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000000926 separation method Methods 0.000 claims description 70
- 230000004807 localization Effects 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 50
- 238000001514 detection method Methods 0.000 claims description 37
- 230000005236 sound signal Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 description 30
- 230000006870 function Effects 0.000 description 24
- 238000012546 transfer Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 14
- 238000003384 imaging method Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Stereophonic System (AREA)
Description
上述した(2)の構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。
上述した(3)の構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。
上述した(4)の構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。
上述した(5)の構成によれば、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理装置1の構成例を示すブロック図である。
音声処理装置1は、収音部11、音源定位部121、音源分離部122、発話区間検出部125、話者同定データ記憶部126、話者同定部127及び音声認識部13を含んで構成される。
話者同定部127は、発話区間情報を参照して音源毎の発話区間を特定し、さらに単一発話区間情報を参照して、特定した発話区間のうち単一発話区間を特定する。話者同定部127は、音源毎の音源別信号のうち、その音源について特定した単一発話区間内の音源別信号について話者同定を行う。話者同定部127は、話者同定を行う際、フレーム毎に音源別信号について音響特徴量を算出する。音響特徴量は、例えば、MFCC(Mel−frequency Cepstrum Coefficients;メル周波数ケプストラム係数)である。話者同定部127は、話者同定データ記憶部126に記憶された話者同定データを参照して算出した音響特徴量について、登録話者毎に尤度を算出する。話者同定部127は、算出した尤度が最も高く、かつ、所定の尤度の閾値よりも高い登録話者を、その音源別信号に係る音源としての話者であると判定する。話者同定部127は、算出した最高の尤度が所定の閾値以下であるとき、その話者がいずれの登録話者とも異なる新たな話者として判定してもよい。話者同定部127は、新たな話者として判定した音源の音響特徴量を用いて音響モデルを生成し、生成した音響モデルを新たな話者を示す話者識別情報と対応付けて話者同定データに追加する。
また、話者同定部127は、ある話者の発話区間が単一発話区間と複数発話区間を含むとき、その単一発話区間について同定された話者を、その発話区間全体の話者として判定してもよい。
話者同定部127は、発話区間毎に音源別信号と、その音源別信号について同定された話者を示す話者情報とを対応付けて音声認識部13に出力する。
次に、本実施形態における音源定位と話者同定との関係について説明する。
音源定位部121は、収音部11が収音したNチャネルの音響信号を用いて最大M個の音源のそれぞれについて、その方向を定める。言い換えれば、音源定位部121は、音源定位処理の過程で音響環境における音源を最大M個検出する。音源分離部122は、Nチャネルの音響信号について音源分離処理を行って、検出された各音源から到来した音源成分を示す音源別信号を取得する。話者が発話している状況下では、特定された音源の方向が各話者の方向となる。図2に示す例では、音源定位部121は、時刻t11から時刻t12までの区間、時刻t21から時刻t22までの区間、時刻t31から時刻t32までの区間のそれぞれにおいて検出された話者id:1、2、3の方向がθ1、θ2、θ3となる。時刻t11から時刻t21までの区間A、時刻t12から時刻t31までの区間C、時刻t22から時刻t32までの区間Eにおいて検出される話者の数が1名となる。即ち、区間A、区間C、区間Eがそれぞれ単一発話区間となる。これらの単一発話区間において、話者同定部127は、音響特徴量に基づく話者同定を行う。単一発話区間では、その話者の音源別信号に他の音源からの成分が混入することや、音源分離による音声成分の歪みが抑制されるので、話者同定部127は、その話者を正確に同定することができる。他方、時刻t21から時刻t12までの区間B、時刻t31から時刻t22までの区間Dのそれぞれにおいて検出される話者の数が2名となる。即ち、区間B、区間Dがそれぞれ複数発話区間となる。複数発話区間では、その話者の音源別信号に他の音源からの成分が混入するので、話者を誤判定する可能性が高くなる。話者同定部127は、複数発話区間において音響特徴量に基づく話者同定を行わないので、話者同定精度の低下を避けることができる。
音響特徴量は、一般に発話内容を構成する音素によって依存する。そのため、ある1名の話者による音源別信号について、1名の登録話者の話者モデルを用いて算出される尤度が発話内容の変化に応じて変動する。1回の話者同定を行う単位区間を長くすることで尤度の変動を抑制することも考えられるが、例えば、各1個の単位区間が1個の発話区間よりも長くなると話者交代に追従できなくなる。
従って、話者の方向が短期間に著しく変化しないことを考慮して、話者同定精度を向上させることができる。同一の話者として推定する期間である推定期間の大きさは、例えば、音源定位により検出される方向の許容誤差範囲を人間が歩行などの日常動作により通過する時間と同等であればよい。
同様にして、話者同定部127は、区間B、Dにおいて方向θ2に定位された音源である話者を、単一発話区間である区間Cにおいて判定された話者id:2であると特定することができる。話者同定部127は、区間Eにおいて方向θ3に定位された音源である話者を、単一発話区間である区間Cにおいて判定された話者id:3であると特定することができる。従って、区間A、Bにおいて方向θ1に、区間D、Eにおいて方向θ3に定位された音源は、いずれも同一であると判定される。
次に、音源定位処理の例として、MUSIC法を用いた音源定位処理について説明する。
音源定位部121は、収音部11から入力される各チャネルの音響信号について、フレーム単位で離散フーリエ変換を行い、周波数領域に変換された変換係数を算出する。音源定位部121は、チャネル毎の変換係数を要素とする入力ベクトルxを周波数毎に生成する。音源定位部121は、入力ベクトルに基づいて、式(1)に示すスペクトル相関行列Rspを算出する。
音源定位部121は、スペクトル相関行列Rspについて式(2)を満たす固有値λiと固有ベクトルeiを算出する。
音源定位部121は、自部に設定された伝達関数ベクトルd(θ)と、固有ベクトルeiに基づいて(3)に示す空間スペクトルP(θ)を算出する。伝達関数ベクトルd(θ)は、音源方向θに設置された音源から各チャネルのマイクロフォンまでの伝達関数を要素とするベクトルである。
音源定位部121は、選択した周波数帯域kにおける周波数毎に算出した固有値λiのうち最大となる最大固有値λmax(k)の平方根で空間スペクトルPk(θ)を周波数帯域k間で重み付け加算して、式(4)に示す拡張空間スペクトルPext(θ)を算出する。
次に、音源分離処理の例として、GHDSS法を用いた音源分離処理について説明する。
GHDSS法は、コスト関数J(W)が減少するように分離行列Wを適応的に算出し、算出した分離行列Wを入力ベクトルxに乗算して得られる出力ベクトルyを音源毎の成分を示す音源別信号の変換係数として定める手法である。コスト関数J(W)は、式(5)に示すように分離尖鋭度(Separation Sharpness)JSS(W)と幾何制約度(Geometric Constraint)JGC(W)との重み付き和となる。
分離尖鋭度JSS(W)は、式(6)に示す指標値である。
即ち、分離尖鋭度JSS(W)は、ある音源の成分に他の音源の成分が混入する度合いを示す指標値である。
幾何制約度JGC(W)は、式(7)に示す指標値である。
音源分離部122は、式(9)に示すようにステップサイズμSS、μGCによる複素勾配J’SS(Wt)、J’GC(Wt)の重み付け和を現時刻tにおける分離行列Wt+1から差し引いて、次の時刻t+1における分離行列Wt+1を算出する。
音源分離部122は、周波数毎に得られる出力ベクトルyのチャネル毎の要素値である変換係数について逆離散フーリエ変換を行って、時間領域の音源別信号を生成する。音源分離部122は、音源毎の音源別信号を発話区間検出部125と話者同定部127に出力する。
次に、発話区間検出の例について説明する。発話区間検出部125は、音源毎の音源別信号についてフレーム毎にパワーが所定のパワーの閾値を超える有音区間であるか否かを判定する。発話区間検出部125は、有音区間であると判定されたフレーム内のゼロクロス点の数を計数する。ゼロクロス点とは、サンプル毎の信号値がゼロを跨ぐ点を意味する。即ち、ゼロクロス点の数は、信号値が負値から正値に、又は正値から負値に変化する頻度である。発話区間検出部125は、ゼロクロス点の数が所定の範囲内(例えば、1秒当たり200〜500個)であるフレームを発話区間として判定し、それ以外のフレームを非発話区間として判定する。
次に、本実施形態に係る話者同定処理について説明する。図3は、本実施形態に係る話者同定処理の例を示す図である。ここで、話者同定データとして、予めidmax名分の登録話者jの話者モデルが記憶されていることを前提とする。
(ステップS102)音源定位部121は、収音部11からのNチャネルの音響信号について音源定位処理を行って最大M個の音源のそれぞれの方向を推定する。その後、ステップS104の処理に進む。
(ステップS104)発話区間検出部125は、音源定位部121が検出した音源毎の方向を示す音源定位情報に基づいて、話者数として音源数idthを判定する。その後、ステップS106の処理に進む。
(ステップS106)発話区間検出部125は、判定した音源数idthが1であるか否かを判定する。1と判定されるとき(ステップS106 YES)、ステップS108の処理に進む。1ではないと判定されるとき(ステップS106 NO)、その後、ステップS102の処理に戻る。
(ステップS110)話者同定部127は、各登録話者を示すインデックスiの初期値として1を設定する。その後、ステップS112に進む。
(ステップS112)話者同定部127は、登録話者iの話者モデルを参照して、音響特徴量f(id)から尤度を算出する。その後、ステップS114に進む。
(ステップS114)話者同定部127は、尤度の算出対象の登録話者iとして次の未算出の登録話者i+1に変更する(i←i+1)。その後、ステップS116に進む。
(ステップS116)発話区間検出部125は、iが登録話者数idmax未満であるか否かを判定する。即ち、全ての登録話者について尤度が算出されたか否かを判定する。iが登録話者数idmax未満であると判定されるとき(ステップS116 YES)、ステップS112の処理に戻る。iが登録話者数idmaxに達したと判定されるとき(ステップS116 NO)、ステップS118の処理に進む。
(ステップS122)話者同定部127は、算出した音響特徴量f(id)を用いて、登録話者iの話者モデルM[f(i)]を更新する。その後、図3の処理を終了する。
(ステップS126)話者同定部127は、算出した音響特徴量f(id)を用いて、その話者idmaxの話者モデルM[f(idmax)]を生成し、生成した話者モデルM[f(idmax)]を話者同定データ記憶部126に記憶(登録)する。その後、図3の処理を終了する。
この構成によれば、他の話者による発話音声の成分が混在しない話者数が単一である発話区間における音源別信号に基づいて話者が同定される。また、話者数が単一である発話区間では、音源分離による発話音声の成分に対する歪が生じない。そのため、話者が正確に同定される。
この構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。
この構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。
この構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。
次に、本発明の第2の実施形態について説明する。以下の説明では、主に第1の実施形態との差異点について説明する。第1の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図4は、本実施形態に係る音声処理装置1の構成例を示すブロック図である。
音声処理装置1は、収音部11、音源定位部121、音源分離部122、発話区間検出部125、話者同定データ記憶部126、話者同定部127、画像処理部128、音声認識部13及び撮像部14を含んで構成される。
なお、話者同定部127は、音源定位部121が検出した話者の方向に加え、人物方向情報が示す人物の方向が、所定の範囲内に分布している方向を同一の話者として推定してもよい。これにより、同一の話者との推定の確度が高くなる。
この構成により、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。
また、音声処理装置1は、専用の装置であってもよいし、他の機能を主とする装置の一部として構成されてもよい。例えば、音声処理装置1は、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、などの携帯端末装置その他の電子機器の一部として実現されてもよい。
Claims (7)
- 複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部と、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部と、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出部と、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定部と、
を備える音声処理装置。 - 前記発話区間検出部は、
前記音源定位部が方向を定めた音源の個数が1個である区間から前記単一発話区間を検出する
請求項1に記載の音声処理装置。 - 前記話者同定部は、
前記音源定位部が定めた音源の方向が前記単一発話区間において特定した音源の方向から所定範囲内となる前記発話区間の話者を、前記単一発話区間の話者と同一と推定する
請求項1又は請求項2に記載の音声処理装置。 - 撮像された画像に基づいて話者の方向を定める画像処理部を備え、
前記話者同定部は、
前記音源定位部が定めた音源毎の方向から前記画像処理部が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が1個である区間から前記単一発話区間を検出する
請求項1から請求項3のいずれか一項に記載の音声処理装置。 - 前記音源別信号に音声認識処理を行う音声認識部を備え、
前記音声認識部は、
前記話者同定部が定めた話者毎に発話内容を示す発話情報を提供する
請求項1から請求項4のいずれか一項に記載の音声処理装置。 - 音声処理装置における音声処理方法であって、
複数チャネルの音声信号に基づいて各音源の方向を定める音源定位過程と、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離過程と、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出過程と、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定過程と、
を有する音声処理方法。 - 音声処理装置のコンピュータに、
複数チャネルの音声信号に基づいて各音源の方向を定める音源定位手順、
前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離手順、
前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出手順、
前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定手順、
を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065932A JP6543848B2 (ja) | 2017-03-29 | 2017-03-29 | 音声処理装置、音声処理方法及びプログラム |
US15/934,372 US10748544B2 (en) | 2017-03-29 | 2018-03-23 | Voice processing device, voice processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065932A JP6543848B2 (ja) | 2017-03-29 | 2017-03-29 | 音声処理装置、音声処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018169473A JP2018169473A (ja) | 2018-11-01 |
JP6543848B2 true JP6543848B2 (ja) | 2019-07-17 |
Family
ID=63671813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017065932A Active JP6543848B2 (ja) | 2017-03-29 | 2017-03-29 | 音声処理装置、音声処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10748544B2 (ja) |
JP (1) | JP6543848B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN110491411B (zh) * | 2019-09-25 | 2022-05-17 | 上海依图信息技术有限公司 | 结合麦克风声源角度和语音特征相似度分离说话人的方法 |
JP2021105688A (ja) * | 2019-12-27 | 2021-07-26 | 株式会社イトーキ | 会議支援装置 |
CN113012700B (zh) * | 2021-01-29 | 2023-12-26 | 深圳壹秘科技有限公司 | 语音信号处理方法、装置、系统及计算机可读存储介质 |
US20230283950A1 (en) * | 2022-03-07 | 2023-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Sound Event Localization and Detection |
CN116030815B (zh) * | 2023-03-30 | 2023-06-20 | 北京建筑大学 | 一种基于声源位置的语音分割聚类方法和装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7710654B2 (en) * | 2003-05-12 | 2010-05-04 | Elbit Systems Ltd. | Method and system for improving audiovisual communication |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US20070129942A1 (en) * | 2005-12-01 | 2007-06-07 | Ban Oliver K | Visualization and annotation of the content of a recorded business meeting via a computer display |
JP4565162B2 (ja) * | 2006-03-03 | 2010-10-20 | 独立行政法人産業技術総合研究所 | 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム |
US8887068B2 (en) * | 2009-07-31 | 2014-11-11 | Verizon Patent And Licensing Inc. | Methods and systems for visually chronicling a conference session |
US8477921B2 (en) * | 2010-06-30 | 2013-07-02 | International Business Machines Corporation | Managing participation in a teleconference by monitoring for use of an unrelated term used by a participant |
JP5706782B2 (ja) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
CN103891271B (zh) * | 2011-10-18 | 2017-10-20 | 统一有限责任两合公司 | 用于提供在会议中产生的数据的方法和设备 |
US9495350B2 (en) * | 2012-09-14 | 2016-11-15 | Avaya Inc. | System and method for determining expertise through speech analytics |
US9736609B2 (en) * | 2013-02-07 | 2017-08-15 | Qualcomm Incorporated | Determining renderers for spherical harmonic coefficients |
US9154678B2 (en) * | 2013-12-11 | 2015-10-06 | Apple Inc. | Cover glass arrangement for an electronic device |
JP6210239B2 (ja) * | 2015-04-20 | 2017-10-11 | 本田技研工業株式会社 | 会話解析装置、会話解析方法及びプログラム |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
JP6703420B2 (ja) * | 2016-03-09 | 2020-06-03 | 本田技研工業株式会社 | 会話解析装置、会話解析方法およびプログラム |
-
2017
- 2017-03-29 JP JP2017065932A patent/JP6543848B2/ja active Active
-
2018
- 2018-03-23 US US15/934,372 patent/US10748544B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10748544B2 (en) | 2020-08-18 |
JP2018169473A (ja) | 2018-11-01 |
US20180286411A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6938784B2 (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
US10839822B2 (en) | Multi-channel speech separation | |
JP6169910B2 (ja) | 音声処理装置 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6454916B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
US9858949B2 (en) | Acoustic processing apparatus and acoustic processing method | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP7564117B2 (ja) | キューのクラスター化を使用した音声強化 | |
JP2018031909A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
JP2015019124A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
WO2019171457A1 (ja) | 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体 | |
US10002623B2 (en) | Speech-processing apparatus and speech-processing method | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP7079189B2 (ja) | 音源方向推定装置、音源方向推定方法及びそのプログラム | |
JP2007127891A (ja) | 発話主体同定装置及びコンピュータプログラム | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
CN110675890B (zh) | 声音信号处理装置以及声音信号处理方法 | |
JP5672175B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
JP2015022357A (ja) | 情報処理システム、情報処理方法および情報処理装置 | |
Venkatesan et al. | Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6543848 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |