JP6543848B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP6543848B2
JP6543848B2 JP2017065932A JP2017065932A JP6543848B2 JP 6543848 B2 JP6543848 B2 JP 6543848B2 JP 2017065932 A JP2017065932 A JP 2017065932A JP 2017065932 A JP2017065932 A JP 2017065932A JP 6543848 B2 JP6543848 B2 JP 6543848B2
Authority
JP
Japan
Prior art keywords
sound source
speaker
unit
speech
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017065932A
Other languages
English (en)
Other versions
JP2018169473A (ja
Inventor
一博 中臺
一博 中臺
智幸 佐畑
智幸 佐畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2017065932A priority Critical patent/JP6543848B2/ja
Priority to US15/934,372 priority patent/US10748544B2/en
Publication of JP2018169473A publication Critical patent/JP2018169473A/ja
Application granted granted Critical
Publication of JP6543848B2 publication Critical patent/JP6543848B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。
従来から、収音した音声信号に基づいて発話している話者を同定する話者同定技術が提案している。話者同定技術は、会話や会議などのように複数の話者のうち、いずれの話者が発話しているかを特定する状況で利用されることがある。複数の話者が同時に発話している状況のもとで収音された1チャネルの音声信号には、各話者の音声の特徴が重畳しているので、話者同定に失敗することがある。
そのため、音源分離技術を用いて、話者毎に分離された成分を示す音源別信号を用いて話者同定を行うことが考えられる。例えば、特許文献1に記載の音源分離技術が利用可能である。特許文献1には、複数チャネルの入力信号に基づき音源方向を推定し、推定した音源方向に係る伝達関数に基づいて分離行列を算出する音源分離装置について記載されている。この音源分離装置は、算出した分離行列を、チャネル毎の入力信号を要素とする入力信号ベクトルに乗算して出力信号を要素とする出力信号ベクトルを算出する。算出された出力信号ベクトルの各要素が音源毎の音声を示す。
特開2012−042953号公報
しかしながら、音源分離技術は、出力が初期の入力や処理に用いられる各種のパラメータに依存する不良設定問題である。そのため、収音された音声信号から話者毎の発話による成分に完全に分離されるとは限らない。また、音源分離により得られる出力において発話音声の歪やSN(Signal−to−Noise)比の低下が生じる。従って、複数の話者が同時に発話している区間では、依然として話者同定に失敗する可能性が残される。
本発明は上記の点に鑑みてなされたものであり、本発明の課題は、より正確に話者を同定することができる音声処理装置、音声処理方法及びプログラムを提供することである。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部と、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部と、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出部と、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定部と、を備える音声処理装置である。
(2)本発明の他の態様は、(1)の音声処理装置であって、前記発話区間検出部は、前記音源定位部が方向を定めた音源の個数が1個である区間から前記単一発話区間を検出する。
(3)本発明の他の態様は、(1)又は(2)の音声処理装置であって、前記話者同定部は、前記音源定位部が定めた音源の方向が前記単一発話区間において特定した音源の方向から所定範囲内となる前記発話区間の話者を、前記単一発話区間の話者と同一と推定する。
(4)本発明の他の態様は、(1)から(3)のいずれかの音声処理装置であって、撮像された画像に基づいて話者の方向を定める画像処理部を備え、前記話者同定部は、前記音源定位部が定めた音源毎の方向から前記画像処理部が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が1個である区間から前記単一発話区間を検出する。
(5)本発明の他の態様は、(1)から(4)のいずれかの音声処理装置であって、前記音源別信号に音声認識処理を行う音声認識部を備え、前記音声認識部は、前記話者同定部が定めた話者毎に発話内容を示す発話情報を提供する。
(6)本発明の他の態様は、音声処理装置における音声処理方法であって、音声処理装置における音声処理方法であって、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位過程と、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離過程と、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出過程と、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定過程と、を有する音声処理方法である。
(7)本発明の他の態様は、音声処理装置のコンピュータに、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位手順、前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離手順、前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出手順、前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定手順、を実行させるためのプログラムである。
上述した(1)、(6)又は(7)の構成によれば、他の話者による発話音声の成分が混在しない話者数が単一である発話区間における音源別信号に基づいて話者が同定される。また、話者数が単一である発話区間では、音源分離による発話音声の成分に対する歪が生じない。そのため、話者が正確に同定される。
上述した(2)の構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。
上述した(3)の構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。
上述した(4)の構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。
上述した(5)の構成によれば、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。
第1の実施形態に係る音声処理装置の構成例を示すブロック図である。 話者の方向と発話区間との関係の例を示す図である。 第1の実施形態に係る話者同定処理の例を示す図である。 第2の実施形態に係る音声処理装置の構成例を示すブロック図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理装置1の構成例を示すブロック図である。
音声処理装置1は、収音部11、音源定位部121、音源分離部122、発話区間検出部125、話者同定データ記憶部126、話者同定部127及び音声認識部13を含んで構成される。
収音部11は、N(Nは2以上の整数)チャネルの音響信号を収音し、収音した音響信号を音源定位部121に出力する。収音部11は、例えば、N個のマイクロフォンを備え、それらが互いに異なる位置に配置されてなるマイクロフォンアレイである。個々のマイクロフォンは、1チャネルの音響信号を収録する。収音部11は、収音した音響信号を無線で送信してもよいし、有線で送信してもよい。収音部11の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部11は、音声処理装置1と一体化されていてもよいし、別体であってもよい。
音源定位部121は、収音部11から入力されるNチャネルの音響信号について、所定の長さ(例えば、50ms)のフレーム毎に音源定位処理を行って最大M(Mは、1以上であってNより小さい整数)個の音源のそれぞれの方向を推定する。音源定位処理は、例えば、MUSIC法(Multiple Signal Classification)である。MUSIC法は、後述するように方向間の強度分布を示す空間スペクトルとしてMUSICスペクトルを算出し、算出したMUSICスペクトルが極大となる方向を音源方向として定める手法である。音源定位部121が検出する音源の数は、0個からM個までのいずれかとなる。音源定位部121は、その区間において推定した音源方向を示す音源定位情報とNチャネルの音響信号とを音源分離部122に出力する。音源定位部121は、その区間における音源定位情報を発話区間検出部125と話者同定部127に出力する。
音源分離部122は、音源定位部121から入力された音源定位情報が示す音源方向毎の伝達関数を用いて、Nチャネルの音響信号について音源分離処理を行う。音源分離部122は、音源分離処理として、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。音源分離部122は、予め設定された方向毎の伝達関数のセットから音源定位情報が示す音源方向に係る伝達関数を特定し、特定した伝達関数に基づいて分離行列の初期値(以下、初期分離行列)を算出する。音源分離部122は、伝達関数と分離行列から算出される所定のコスト関数が減少するように分離行列を適応的に算出する。音源分離部122は、各チャネルの音響信号を要素とする入力信号ベクトルに、算出した分離行列を乗算して出力信号ベクトルを算出する。算出された出力信号ベクトルの要素が、各音源の音源別信号に相当する。音源分離部122は、音源毎の音源別信号を発話区間検出部125と話者同定部127に出力する。
発話区間検出部125は、音源定位部121から入力された音源定位情報と音源分離部122から入力部から入力された音源別信号に基づいて話者数が1名である発話区間を検出する。以下、話者数が1名である発話区間を単一話者発話区間と呼ぶ。ここで、発話区間検出部125は、各音源の音源別信号についてフレーム毎に発話区間検出を行う。発話区間検出は、VAD(Voice Activity Detection)と呼ばれる。発話区間検出部125は、検出した発話区間のうち、検出された音源として話者の数が1個である区間を単一話者発話区間として判定する。発話区間検出部125は、音源及びフレーム毎にその音源及び期間が発話区間であるか否かを示す発話区間情報と、フレーム毎にそのフレームが単一話者発話区間であるか否かを示す単一発話区間情報を生成する。発話区間検出部125は、生成した発話区間情報と単一発話区間情報を話者同定部127に出力する。
話者同定データ記憶部126には、話者同定に用いる話者同定データを記憶させておく。話者同定データは、例えば、予め登録した話者毎の発話音声の特徴を示す音響モデルを含んで構成される。音響モデルは、例えば、GMM(Gaussian Mixture Model;混合ガウス分布モデル)である。なお、以下の説明では、登録した話者を登録話者と呼ぶ。話者毎の音響モデルを話者モデルと呼ぶ。
話者同定部127には、音源分離部122から音源毎の音源別信号が入力され、発話区間検出部125から発話区間情報と単一発話区間情報が入力される。
話者同定部127は、発話区間情報を参照して音源毎の発話区間を特定し、さらに単一発話区間情報を参照して、特定した発話区間のうち単一発話区間を特定する。話者同定部127は、音源毎の音源別信号のうち、その音源について特定した単一発話区間内の音源別信号について話者同定を行う。話者同定部127は、話者同定を行う際、フレーム毎に音源別信号について音響特徴量を算出する。音響特徴量は、例えば、MFCC(Mel−frequency Cepstrum Coefficients;メル周波数ケプストラム係数)である。話者同定部127は、話者同定データ記憶部126に記憶された話者同定データを参照して算出した音響特徴量について、登録話者毎に尤度を算出する。話者同定部127は、算出した尤度が最も高く、かつ、所定の尤度の閾値よりも高い登録話者を、その音源別信号に係る音源としての話者であると判定する。話者同定部127は、算出した最高の尤度が所定の閾値以下であるとき、その話者がいずれの登録話者とも異なる新たな話者として判定してもよい。話者同定部127は、新たな話者として判定した音源の音響特徴量を用いて音響モデルを生成し、生成した音響モデルを新たな話者を示す話者識別情報と対応付けて話者同定データに追加する。
なお、各1個の単一発話区間は、1個の発話区間の一部となり、その発話区間の全体を占めないことがある。そのままでは、その発話区間の残りの区間内の話者が特定されない。この残りの区間は、複数の音源が検出される区間に相当する。以下の説明では、この残りの区間を複数発話区間と呼ぶ。他方、話者の方向は短時間の間に大きく変動しない。そこで、話者同定部127は、音源定位部121から入力される音源定位情報を参照し、単一発話区間において、その音源である話者の方向を特定してもよい。話者同定部127は、複数発話区間における複数の話者のうち、その方向が単一発話区間において特定した方向から所定範囲内にある話者を単一発話区間における話者と同一の話者であると判定する。
また、話者同定部127は、ある話者の発話区間が単一発話区間と複数発話区間を含むとき、その単一発話区間について同定された話者を、その発話区間全体の話者として判定してもよい。
話者同定部127は、発話区間毎に音源別信号と、その音源別信号について同定された話者を示す話者情報とを対応付けて音声認識部13に出力する。
音声認識部13には、話者同定部127から発話区間毎に音源別信号と話者情報を対応付けて入力される。音声認識部13は、話者同定部127から入力される発話区間毎の音源別信号について音声認識処理を行い、認識結果となる発話内容を示す発話データを生成する。ここで、音声認識部13は、音源別信号についてフレーム毎に音響特徴量を算出し、算出した音響特徴量について予め設定された音響モデルを用いて可能性がある音素列毎に第1の尤度を算出し、第1の尤度の降順に所定の個数の音素列の候補を定める。音響モデルは、例えば、隠れマルコフモデル(Hidden Markov Model;HMM)である。音声認識部13は、音素列の候補毎に所定の言語モデルを用いて、定めた音素列の候補に対応する発話内容を示す文の候補に第2尤度を算出する。言語モデルは、例えば、nグラム(n−gram)である。音声認識部13は、第1尤度と第2尤度とを合成して得られる総合尤度を文の候補毎に算出し、総合尤度が最も高い文の候補を発話内容として定める。
音声認識部13は、発話区間毎に定めた発話内容を示す発話データを、その発話区間の話者情報が示す話者毎に時刻順に集約してもよい。音声認識部13は、例えば、集約した発話データを音声処理装置1に備えられたデータ記憶部(図示せず)に記憶する。時刻順に記憶された話者毎の発話データは、議事録として形成される。音声認識部13は、音声処理装置1に接続された表示部(図示せず)に話者毎の発話内容を示すテキストを表示させてもよいし、音声処理装置1とは別個の機器に無線又は有線で出力してもよい。
(音源定位と話者同定との関係)
次に、本実施形態における音源定位と話者同定との関係について説明する。
音源定位部121は、収音部11が収音したNチャネルの音響信号を用いて最大M個の音源のそれぞれについて、その方向を定める。言い換えれば、音源定位部121は、音源定位処理の過程で音響環境における音源を最大M個検出する。音源分離部122は、Nチャネルの音響信号について音源分離処理を行って、検出された各音源から到来した音源成分を示す音源別信号を取得する。話者が発話している状況下では、特定された音源の方向が各話者の方向となる。図2に示す例では、音源定位部121は、時刻t11から時刻t12までの区間、時刻t21から時刻t22までの区間、時刻t31から時刻t32までの区間のそれぞれにおいて検出された話者id:1、2、3の方向がθ、θ、θとなる。時刻t11から時刻t21までの区間A、時刻t12から時刻t31までの区間C、時刻t22から時刻t32までの区間Eにおいて検出される話者の数が1名となる。即ち、区間A、区間C、区間Eがそれぞれ単一発話区間となる。これらの単一発話区間において、話者同定部127は、音響特徴量に基づく話者同定を行う。単一発話区間では、その話者の音源別信号に他の音源からの成分が混入することや、音源分離による音声成分の歪みが抑制されるので、話者同定部127は、その話者を正確に同定することができる。他方、時刻t21から時刻t12までの区間B、時刻t31から時刻t22までの区間Dのそれぞれにおいて検出される話者の数が2名となる。即ち、区間B、区間Dがそれぞれ複数発話区間となる。複数発話区間では、その話者の音源別信号に他の音源からの成分が混入するので、話者を誤判定する可能性が高くなる。話者同定部127は、複数発話区間において音響特徴量に基づく話者同定を行わないので、話者同定精度の低下を避けることができる。
(方向に基づく話者同定)
音響特徴量は、一般に発話内容を構成する音素によって依存する。そのため、ある1名の話者による音源別信号について、1名の登録話者の話者モデルを用いて算出される尤度が発話内容の変化に応じて変動する。1回の話者同定を行う単位区間を長くすることで尤度の変動を抑制することも考えられるが、例えば、各1個の単位区間が1個の発話区間よりも長くなると話者交代に追従できなくなる。
そこで、話者同定部127は、さらに音源定位部121が検出した話者の方向として、所定の範囲Δθ内に分布している方向が検出された発話区間の話者を同一の話者として推定してもよい。図2に示す例では、区間Aと区間Bにおいて検出された話者の方向θは区間Dと区間Eにおいて検出された話者の方向θと互いに近似し、区間Cにおいて検出された方向θから離れている。この場合には、話者同定部127は、方向θに検出される話者と方向θに検出される話者を同一の話者であると推定する。より具体的には、話者同定部127は、方向θが検出される区間Aにおける話者と方向θが検出される区間Eにおける話者が同一であると推定し、方向θが検出される区間Cにおける話者とは異なると推定する。
従って、話者の方向が短期間に著しく変化しないことを考慮して、話者同定精度を向上させることができる。同一の話者として推定する期間である推定期間の大きさは、例えば、音源定位により検出される方向の許容誤差範囲を人間が歩行などの日常動作により通過する時間と同等であればよい。
図2に示す例では、音源分離により方向θに定位された話者id:1の発話区間は、区間Aと区間Bに跨る。この区間Bは、話者id:2の発話区間と重複する複数発話区間である。そこで、話者同定部127は、区間Bにおいて方向θに定位された音源である話者を、単一発話区間である区間Aにおいて判定された話者id:1であると特定することができる。
同様にして、話者同定部127は、区間B、Dにおいて方向θに定位された音源である話者を、単一発話区間である区間Cにおいて判定された話者id:2であると特定することができる。話者同定部127は、区間Eにおいて方向θに定位された音源である話者を、単一発話区間である区間Cにおいて判定された話者id:3であると特定することができる。従って、区間A、Bにおいて方向θに、区間D、Eにおいて方向θに定位された音源は、いずれも同一であると判定される。
なお、話者同定部127は、話者同定データを参照して、同一の話者であると推定した発話区間に含まれる単一発話区間内の音響特徴量に基づいて尤度を算出してもよい。図2に示す例では、話者同定部127は、単一発話区間である区間Aと区間Eにおいて算出された音響特徴量の時系列に基づいて尤度を算出する。そして、話者同定部127は、算出される尤度が最大となる登録話者を、その同一の話者として判定してもよい。これにより、話者同定部127は、同一と推定された話者を登録話者のいずれの話者であるかを、より高い精度で特定することができる。
(音源定位処理)
次に、音源定位処理の例として、MUSIC法を用いた音源定位処理について説明する。
音源定位部121は、収音部11から入力される各チャネルの音響信号について、フレーム単位で離散フーリエ変換を行い、周波数領域に変換された変換係数を算出する。音源定位部121は、チャネル毎の変換係数を要素とする入力ベクトルxを周波数毎に生成する。音源定位部121は、入力ベクトルに基づいて、式(1)に示すスペクトル相関行列Rspを算出する。
Figure 0006543848
式(1)において、*は、複素共役転置演算子を示す。E(…)は、…の期待値を示す。
音源定位部121は、スペクトル相関行列Rspについて式(2)を満たす固有値λと固有ベクトルeを算出する。
Figure 0006543848
インデックスiは、1以上N以下の整数である。また、インデックスiの順序は、固有値λの降順である。
音源定位部121は、自部に設定された伝達関数ベクトルd(θ)と、固有ベクトルeに基づいて(3)に示す空間スペクトルP(θ)を算出する。伝達関数ベクトルd(θ)は、音源方向θに設置された音源から各チャネルのマイクロフォンまでの伝達関数を要素とするベクトルである。
Figure 0006543848
式(3)において、|…|は、…絶対値を示す。Mは、検出可能とする最大音源個数を示す、予め設定されたN未満の正の整数値である。Kは、音源定位部121が保持する固有ベクトルeの数である。Mは、N以下の正の整数値である。即ち、固有ベクトルe(N+1≦i≦K)は、有意な音源以外の成分、例えば、雑音成分に係るベクトル値である。従って、空間スペクトルP(θ)は、音源から到来した成分の、有意な音源以外の成分に対する割合を示す。
音源定位部121は、各チャネルの音響信号に基づいて周波数帯域毎にS/N比(signal−to−noise ratio;信号雑音比)を算出し、算出したS/N比が予め設定した閾値よりも高い周波数帯域kを選択する。
音源定位部121は、選択した周波数帯域kにおける周波数毎に算出した固有値λのうち最大となる最大固有値λmax(k)の平方根で空間スペクトルP(θ)を周波数帯域k間で重み付け加算して、式(4)に示す拡張空間スペクトルPext(θ)を算出する。
Figure 0006543848
式(4)において、Ωは、周波数帯域のセットを示す。|Ω|は、そのセットにおける周波数帯域の個数を示す。従って、拡張空間スペクトルPext(θ)は、相対的に雑音成分が少なく、空間スペクトルP(θ)の値が大きい周波数帯域の特性が反映される。この拡張空間スペクトルPext(θ)が、上述した空間スペクトルに相当する。
音源定位部121は、拡張空間スペクトルPext(θ)が、設定された音源検出パラメータとして与えられる閾値以上であって、方向間でピーク値(極大値)をとる方向θを選択する。選択された方向θが音源方向として推定される。言い換えれば、選択された方向θに所在する音源が検出される。音源定位部121は、拡張空間スペクトルPext(θ)のピーク値のうち、最大値から多くともM番目に大きいピーク値まで選択し、選択したピーク値に各々対応する音源方向θを選択する。音源定位部121は、選択した音源方向を示す音源定位情報を音源分離部122、発話区間検出部125及び話者同定部127に出力する。
なお、音源定位部121が音源毎の方向を推定する際、MUSIC法に代え、他の手法、例えば、WDS−BF(weighted delay and sum beam forming;重み付き遅延和ビームフォーミング)法を用いてもよい。
(音源分離処理)
次に、音源分離処理の例として、GHDSS法を用いた音源分離処理について説明する。
GHDSS法は、コスト関数J(W)が減少するように分離行列Wを適応的に算出し、算出した分離行列Wを入力ベクトルxに乗算して得られる出力ベクトルyを音源毎の成分を示す音源別信号の変換係数として定める手法である。コスト関数J(W)は、式(5)に示すように分離尖鋭度(Separation Sharpness)JSS(W)と幾何制約度(Geometric Constraint)JGC(W)との重み付き和となる。
Figure 0006543848
αは、分離尖鋭度JSS(W)のコスト関数J(W)への寄与の度合いを示す重み係数を示す。
分離尖鋭度JSS(W)は、式(6)に示す指標値である。
Figure 0006543848
|…|は、フロベニウスノルムを示す。フロベニウスノルムは、行列の各要素値の二乗和である。diag(…)は、行列…の対角要素の総和を示す。
即ち、分離尖鋭度JSS(W)は、ある音源の成分に他の音源の成分が混入する度合いを示す指標値である。
幾何制約度JGC(W)は、式(7)に示す指標値である。
Figure 0006543848
式(7)において、Iは単位行列を示す。即ち、幾何制約度JGC(W)は、出力となる音源別信号と音源から発されたもとの音源信号との誤差の度合いを表す指標値である。これにより音源間での分離精度と音源のスペクトルの推定精度の両者の向上が図られる。
音源分離部122は、予め設定された伝達関数のセットから、音源定位部121から入力された音源定位情報が示す各音源の音源方向に対応する伝達関数を抽出し、抽出した伝達関数を要素として、音源及びチャネル間で統合して伝達関数行列Dを生成する。ここで、各行、各列が、それぞれチャネル、音源(音源方向)に対応する。音源分離部122は、生成した伝達関数行列Dに基づいて、式(8)に示す初期分離行列Winitを算出する。
Figure 0006543848
式(8)において、[…]−1は、行列[…]の逆行列を示す。従って、DDが、その非対角要素がすべてゼロである対角行列である場合、初期分離行列Winitは、伝達関数行列Dの疑似逆行列である。
音源分離部122は、式(9)に示すようにステップサイズμSS、μGCによる複素勾配J’SS(W)、J’GC(W)の重み付け和を現時刻tにおける分離行列Wt+1から差し引いて、次の時刻t+1における分離行列Wt+1を算出する。
Figure 0006543848
式(9)における差し引かれる成分μSSJ’SS(W)+μGCJ’GC(W)が更新量ΔWに相当する。複素勾配J’SS(W)は、分離尖鋭度JSSを入力ベクトルxで微分して導出される。複素勾配J’GC(W)は、幾何制約度JGCを入力ベクトルxで微分して導出される。
そして、音源分離部122は、算出した分離行列Wt+1を入力ベクトルxに乗算して出力ベクトルyを算出する。ここで、音源分離部122は、収束したと判定するときに得られる分離行列Wt+1を、入力ベクトルxに乗算して出力ベクトルyを算出してもよい。音源分離部122は、例えば、更新量ΔWのフロベニウスノルムが所定の閾値以下になったときに、分離行列Wt+1が収束したと判定する。もしくは、音源分離部122は、更新量ΔWのフロベニウスノルムに対する分離行列Wt+1のフロベニウスノルムに対する比が所定の比の閾値以下になったとき、分離行列Wt+1が収束したと判定してもよい。
音源分離部122は、周波数毎に得られる出力ベクトルyのチャネル毎の要素値である変換係数について逆離散フーリエ変換を行って、時間領域の音源別信号を生成する。音源分離部122は、音源毎の音源別信号を発話区間検出部125と話者同定部127に出力する。
(発話区間検出)
次に、発話区間検出の例について説明する。発話区間検出部125は、音源毎の音源別信号についてフレーム毎にパワーが所定のパワーの閾値を超える有音区間であるか否かを判定する。発話区間検出部125は、有音区間であると判定されたフレーム内のゼロクロス点の数を計数する。ゼロクロス点とは、サンプル毎の信号値がゼロを跨ぐ点を意味する。即ち、ゼロクロス点の数は、信号値が負値から正値に、又は正値から負値に変化する頻度である。発話区間検出部125は、ゼロクロス点の数が所定の範囲内(例えば、1秒当たり200〜500個)であるフレームを発話区間として判定し、それ以外のフレームを非発話区間として判定する。
(話者同定処理)
次に、本実施形態に係る話者同定処理について説明する。図3は、本実施形態に係る話者同定処理の例を示す図である。ここで、話者同定データとして、予めidmax名分の登録話者jの話者モデルが記憶されていることを前提とする。
(ステップS102)音源定位部121は、収音部11からのNチャネルの音響信号について音源定位処理を行って最大M個の音源のそれぞれの方向を推定する。その後、ステップS104の処理に進む。
(ステップS104)発話区間検出部125は、音源定位部121が検出した音源毎の方向を示す音源定位情報に基づいて、話者数として音源数idthを判定する。その後、ステップS106の処理に進む。
(ステップS106)発話区間検出部125は、判定した音源数idthが1であるか否かを判定する。1と判定されるとき(ステップS106 YES)、ステップS108の処理に進む。1ではないと判定されるとき(ステップS106 NO)、その後、ステップS102の処理に戻る。
(ステップS108)話者同定部127は、単一発話区間において検出された音源として話者idの音源別信号について音響特徴量f(id)を算出する。その後、ステップS110に進む。
(ステップS110)話者同定部127は、各登録話者を示すインデックスiの初期値として1を設定する。その後、ステップS112に進む。
(ステップS112)話者同定部127は、登録話者iの話者モデルを参照して、音響特徴量f(id)から尤度を算出する。その後、ステップS114に進む。
(ステップS114)話者同定部127は、尤度の算出対象の登録話者iとして次の未算出の登録話者i+1に変更する(i←i+1)。その後、ステップS116に進む。
(ステップS116)発話区間検出部125は、iが登録話者数idmax未満であるか否かを判定する。即ち、全ての登録話者について尤度が算出されたか否かを判定する。iが登録話者数idmax未満であると判定されるとき(ステップS116 YES)、ステップS112の処理に戻る。iが登録話者数idmaxに達したと判定されるとき(ステップS116 NO)、ステップS118の処理に進む。
(ステップS118)話者同定部127は、算出した尤度が最も高く、かつその尤度が所定の尤度の閾値よりも高い登録話者iが存在するか否かを判定する。存在すると判定するとき(ステップS118 YES)、ステップS120の処理に進む。存在しないと判定するとき(ステップS118 NO)、ステップS124の処理に進む。
(ステップS120)話者同定部127は、その登録話者iを、その時点で発話している話者Spk(id)として判定する。その後、ステップS122の処理に進む。
(ステップS122)話者同定部127は、算出した音響特徴量f(id)を用いて、登録話者iの話者モデルM[f(i)]を更新する。その後、図3の処理を終了する。
(ステップS124)話者同定部127は、その時点で発話している話者Spk(id)を新たな話者idmax(idmax←idmax+1)として判定する。その後、ステップS126の処理に進む。
(ステップS126)話者同定部127は、算出した音響特徴量f(id)を用いて、その話者idmaxの話者モデルM[f(idmax)]を生成し、生成した話者モデルM[f(idmax)]を話者同定データ記憶部126に記憶(登録)する。その後、図3の処理を終了する。
話者同定部127は、話者モデルとしてGMMを生成又は更新する際、その話者について尤度が最大化されるように構成パラメータを算出する(学習)。GMMは、フレーム毎に算出された音響特徴量に対する出力確率を、複数(例えば、256個の正規分布)のガウス関数を重みづけ加算して算出するための統計モデルである。つまり、GMMは、混合重み係数、平均値及び共分散行列といった統計量を構成パラメータとして表される。混合重み係数は、基底毎の出力確率に対する寄与の度合いを示す。平均値と共分散行列は、個々の基底の原点とその原点の周りの音響特徴量の分布を示す。尤度は、その時点までの所定の期間内の出力確率の総和に相当する。
GMMを更新する際には、話者同定部127は、もとの更新前の話者idのGMM M[f(id)]に対して、話者idの音響特徴量f(id)を用いて、最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)による更新処理を行ってもよい。また、新たな話者idmaxのGMM M[f(idmax)]を生成する際も、話者同定部127は、尤度を最大とする話者i_maxのGMM M[f(i_max)]に対して、話者idの音響特徴量f(id)を用いてMLLRによる更新処理を行ってもよい。これにより、比較的少量の音響特徴量のサンプルを用いて高速にGMMの更新又は生成を行うことができる。
以上に説明したように、本実施形態に係る音声処理装置1は、複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部121と、複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部122を備える。また、音声処理装置1は、音源別信号から話者数が単一である発話区間を検出する発話区間検出部125と、検出された発話区間における音源別信号に基づいて話者を同定する話者同定部127を備える。
この構成によれば、他の話者による発話音声の成分が混在しない話者数が単一である発話区間における音源別信号に基づいて話者が同定される。また、話者数が単一である発話区間では、音源分離による発話音声の成分に対する歪が生じない。そのため、話者が正確に同定される。
また、発話区間検出部125は、音源定位部121が方向を定めた音源の個数が1個である区間から話者数が単一である話者を同定する発話区間を検出する。
この構成によれば、複数の話者が存在する状況であっても発話状態の変化に応じて発話中の話者が単一である区間が同定される。そのため、正確に話者を同定できる区間としてより多くの区間が話者同定に用いられる。
また、話者同定部127は、音源定位部121が定めた音源の方向が所定範囲内となる発話区間の話者を同一と推定する。
この構成によれば、短時間に話者の方向が著しく変化しないことを考慮して、話者同定を行うことができる。そのため、話者をより正確に同定することができる。
また、音声処理装置1は、音源別信号に音声認識処理を行う音声認識部13を備え、音声認識部13は、話者同定部127が定めた話者毎に発話内容を示す発話情報を提供する。
この構成によれば、正確に同定された話者毎に発話音声の発話内容を示す発話情報が提供される。そのため、発話内容を話者毎に編集する作業が省力化される。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、主に第1の実施形態との差異点について説明する。第1の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図4は、本実施形態に係る音声処理装置1の構成例を示すブロック図である。
音声処理装置1は、収音部11、音源定位部121、音源分離部122、発話区間検出部125、話者同定データ記憶部126、話者同定部127、画像処理部128、音声認識部13及び撮像部14を含んで構成される。
撮像部14は、周囲の所定の視野内に所在する物体の画像を所定の時間(例えば、1/30s)毎に撮像する。撮像部14は、例えば、音声処理装置1をなす携帯端末装置に内蔵されたカメラである。撮像部14は、撮像した周囲の物体の画像を示す画像信号を画像処理部128に出力する。
画像処理部128は、撮像部14から入力される画像信号について画像認識処理を行って、人物が表されている部位を特定する。画像処理部128は、例えば、画像信号について画素値の空間変化量が所定の変化量よりも大きい輪郭を抽出し、輪郭を外縁とする個々の物体が表れている物体領域を特定する。画像処理部128は、特定した物体領域について所定の画像認識処理を用いて表されている物体が人物の顔面であるか否かを判定する。画像処理部128は、例えば、各物体領域をさらに区分した領域毎に画像特徴量として例えば、HOG(Histograms of Gradient)特徴量を算出する。画像処理部128は、物体領域内で算出したHOG特徴量について画像認識方式として、例えば、Adaboostを用いて、その物体領域に表される物体が人物であるか否かを判定する。Adaboostでは、事前学習により予め算出した人物の顔面のHOG特徴量と、物体領域内で算出した物体のHOG特徴量に基づいて、所定の識別値を算出する。識別値は、その物体が人物であることの確度を示す関数値であればよい。そして、画像処理部128は、算出した識別値に基づいて物体領域に表されている物体が人物であることの確度が、所定の確度の閾値以上であるとき、その物体が人物であると判定する。画像処理部128は、その確度が、確度の閾値未満であるとき、その物体が人物ではないと判定する。
画像処理部128は、人物が表されている物体領域の物体領域の代表点として、例えば、重心点を算出する。そして、画像処理部128は、代表点の画像内の座標に基づいて、画像を基準とする画像座標系による人物の方向を算出する。画像処理部128は、算出した画像座標系による人物の方向を、収音部11のマイクロフォン配置を基準とする収音座標系による人物の方向に変換する。画像座標系では、画像の中心点が撮像部14の光学軸の方向に相当し、画像の左右両端もしくは上下両端が、それぞれ水平方向の視野の両端、垂直方向の視野の両端に相当する。画像処理部128は、変換した人物の方向を示す人物方向情報を発話区間検出部125に出力する。
話者同定部127は、画像処理部128から入力された人物方向情報を参照し、人物の方向が、音源定位部121が検出した音源の方向から所定の範囲内にある音源の方向を話者の方向として選択し、音源定位部121が検出した音源の方向からその範囲外となる音源方向を棄却してもよい。話者同定部127は、そして、話者同定部127は、選択した方向に係る音源である話者の数が1名である単一発話区間を特定する。話者同定部127は、上述したように単一発話区間内の音源別信号について音響特徴量に基づく話者同定処理を行う。これにより、音源として話者が実在しない方向から到来する音源の成分に基づく話者同定処理が回避される。また、そのような音源は話者による発話音声以外の音源に相当するので、新たな話者として誤登録することを回避することができる。
なお、話者同定部127は、音源定位部121が検出した話者の方向に加え、人物方向情報が示す人物の方向が、所定の範囲内に分布している方向を同一の話者として推定してもよい。これにより、同一の話者との推定の確度が高くなる。
以上に説明したように、本実施形態に係る音声処理装置1は、撮像された画像に基づいて話者の方向を定める画像処理部128を備える。話者同定部127は、音源定位部121が定めた方向から画像処理部128が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が1個である区間から発話区間を検出する。
この構成により、話者が実在する方向に存在する発話中の話者が単一である区間が話者同定に用いられる。そのため、話者以外の他の音源が話者同定に用いられることによる同定誤りを避けることができる。
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上述した実施形態及び変形例における収音部11及び撮像部14が、音声処理装置1のその他の機能部と一体化されている場合を前提としたが、これには限られない。収音部11及び撮像部14の一方又は双方は、各種のデータを無線又は有線で入出力可能であれば、音声処理装置1のその他の機能部と必ずしも一体化されていなくてもよい。
また、音声処理装置1は、専用の装置であってもよいし、他の機能を主とする装置の一部として構成されてもよい。例えば、音声処理装置1は、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、などの携帯端末装置その他の電子機器の一部として実現されてもよい。
上述した実施形態及び変形例における音声処理装置1の一部、例えば、音源定位部121、音源分離部122、発話区間検出部125、話者同定部127、画像処理部128及び音声認識部13の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1…音声処理装置、11…収音部、13…音声認識部、14…撮像部、121…音源定位部、122…音源分離部、125…発話区間検出部、126…話者同定データ記憶部、127…話者同定部、128…画像処理部

Claims (7)

  1. 複数チャネルの音声信号に基づいて各音源の方向を定める音源定位部と、
    前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離部と、
    前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出部と、
    前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定部と、
    を備える音声処理装置。
  2. 前記発話区間検出部は、
    前記音源定位部が方向を定めた音源の個数が1個である区間から前記単一発話区間を検出する
    請求項1に記載の音声処理装置。
  3. 前記話者同定部は、
    前記音源定位部が定めた音源の方向が前記単一発話区間において特定した音源の方向から所定範囲内となる前記発話区間の話者を、前記単一発話区間の話者と同一と推定する
    請求項1又は請求項2に記載の音声処理装置。
  4. 撮像された画像に基づいて話者の方向を定める画像処理部を備え、
    前記話者同定部は、
    前記音源定位部が定めた音源毎の方向から前記画像処理部が定めた話者の方向が所定範囲内にある音源を選択し、選択した音源の数が1個である区間から前記単一発話区間を検出する
    請求項1から請求項3のいずれか一項に記載の音声処理装置。
  5. 前記音源別信号に音声認識処理を行う音声認識部を備え、
    前記音声認識部は、
    前記話者同定部が定めた話者毎に発話内容を示す発話情報を提供する
    請求項1から請求項4のいずれか一項に記載の音声処理装置。
  6. 音声処理装置における音声処理方法であって、
    複数チャネルの音声信号に基づいて各音源の方向を定める音源定位過程と、
    前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離過程と、
    前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出過程と、
    前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定過程と、
    を有する音声処理方法。
  7. 音声処理装置のコンピュータに、
    複数チャネルの音声信号に基づいて各音源の方向を定める音源定位手順、
    前記複数チャネルの音声信号から、前記各音源の成分を示す音源別信号に分離する音源分離手順、
    前記音源別信号から発話区間を検出し、前記発話区間のうち話者数が単一である発話区間を単一発話区間として検出する発話区間検出手順、
    前記単一発話区間における前記音源別信号に基づいて話者を同定する話者同定手順、
    を実行させるためのプログラム。
JP2017065932A 2017-03-29 2017-03-29 音声処理装置、音声処理方法及びプログラム Active JP6543848B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017065932A JP6543848B2 (ja) 2017-03-29 2017-03-29 音声処理装置、音声処理方法及びプログラム
US15/934,372 US10748544B2 (en) 2017-03-29 2018-03-23 Voice processing device, voice processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017065932A JP6543848B2 (ja) 2017-03-29 2017-03-29 音声処理装置、音声処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018169473A JP2018169473A (ja) 2018-11-01
JP6543848B2 true JP6543848B2 (ja) 2019-07-17

Family

ID=63671813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017065932A Active JP6543848B2 (ja) 2017-03-29 2017-03-29 音声処理装置、音声処理方法及びプログラム

Country Status (2)

Country Link
US (1) US10748544B2 (ja)
JP (1) JP6543848B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN110491411B (zh) * 2019-09-25 2022-05-17 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置
CN113012700B (zh) * 2021-01-29 2023-12-26 深圳壹秘科技有限公司 语音信号处理方法、装置、系统及计算机可读存储介质
US20230283950A1 (en) * 2022-03-07 2023-09-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Sound Event Localization and Detection
CN116030815B (zh) * 2023-03-30 2023-06-20 北京建筑大学 一种基于声源位置的语音分割聚类方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7710654B2 (en) * 2003-05-12 2010-05-04 Elbit Systems Ltd. Method and system for improving audiovisual communication
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20070129942A1 (en) * 2005-12-01 2007-06-07 Ban Oliver K Visualization and annotation of the content of a recorded business meeting via a computer display
JP4565162B2 (ja) * 2006-03-03 2010-10-20 独立行政法人産業技術総合研究所 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
US8887068B2 (en) * 2009-07-31 2014-11-11 Verizon Patent And Licensing Inc. Methods and systems for visually chronicling a conference session
US8477921B2 (en) * 2010-06-30 2013-07-02 International Business Machines Corporation Managing participation in a teleconference by monitoring for use of an unrelated term used by a participant
JP5706782B2 (ja) 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
CN103891271B (zh) * 2011-10-18 2017-10-20 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
US9495350B2 (en) * 2012-09-14 2016-11-15 Avaya Inc. System and method for determining expertise through speech analytics
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9154678B2 (en) * 2013-12-11 2015-10-06 Apple Inc. Cover glass arrangement for an electronic device
JP6210239B2 (ja) * 2015-04-20 2017-10-11 本田技研工業株式会社 会話解析装置、会話解析方法及びプログラム
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム

Also Published As

Publication number Publication date
US10748544B2 (en) 2020-08-18
JP2018169473A (ja) 2018-11-01
US20180286411A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6938784B2 (ja) オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US10839822B2 (en) Multi-channel speech separation
JP6169910B2 (ja) 音声処理装置
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6454916B2 (ja) 音声処理装置、音声処理方法及びプログラム
US9858949B2 (en) Acoustic processing apparatus and acoustic processing method
JP6501259B2 (ja) 音声処理装置及び音声処理方法
JP7564117B2 (ja) キューのクラスター化を使用した音声強化
JP2018031909A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP6532021B2 (ja) 音声処理装置及び音声処理方法
JP2015019124A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
WO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
US10002623B2 (en) Speech-processing apparatus and speech-processing method
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
Poorjam et al. A parametric approach for classification of distortions in pathological voices
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP7079189B2 (ja) 音源方向推定装置、音源方向推定方法及びそのプログラム
JP2007127891A (ja) 発話主体同定装置及びコンピュータプログラム
US11996086B2 (en) Estimation device, estimation method, and estimation program
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法
JP5672175B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
JP2015022357A (ja) 情報処理システム、情報処理方法および情報処理装置
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190528

R150 Certificate of patent or registration of utility model

Ref document number: 6543848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150