JP6501259B2 - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
JP6501259B2
JP6501259B2 JP2015154215A JP2015154215A JP6501259B2 JP 6501259 B2 JP6501259 B2 JP 6501259B2 JP 2015154215 A JP2015154215 A JP 2015154215A JP 2015154215 A JP2015154215 A JP 2015154215A JP 6501259 B2 JP6501259 B2 JP 6501259B2
Authority
JP
Japan
Prior art keywords
speech
sound source
section
likelihood
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015154215A
Other languages
English (en)
Other versions
JP2017032857A (ja
Inventor
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015154215A priority Critical patent/JP6501259B2/ja
Priority to US15/193,481 priority patent/US10622008B2/en
Publication of JP2017032857A publication Critical patent/JP2017032857A/ja
Application granted granted Critical
Publication of JP6501259B2 publication Critical patent/JP6501259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Description

本発明は、音声処理装置及び音声処理方法に関する。
従来から、複数の音源から発された混合音を、音源毎の音に分離する音源分離技術が提案されている。音源分離技術には、入力された音響信号のスペクトルパワーと所定の閾値をフレーム毎に比較することにより、当該フレームが音声または非音声の区間であるかを判定するものがある。例えば、特許文献1には、話者音源から出力された発話区間を検出し、発話区間を検出した場合、分離行列を最適化し、最適化した分離行列を用いて混合音から話者音源からの音と雑音源からの音を分離する音声信号処理装置について記載されている。
特開2005−227512号公報
特許文献1に記載の音声信号処理装置は、話者音源からの音と雑音源からの音を分離する前の段階において、発話区間を検出する。分離された話者音源からの音について音声認識処理を行うと、分離された話者音源からの音に、非音声の区間が処理対象となる区間に含まれるために、音声認識精度が低下することがあった。
本発明は上記の点に鑑みてなされたものであり、音声認識精度を向上させる区間を選択することができる音声処理装置及び音声処理方法を提供する。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、(1)複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出部と、前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定部と、前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出部と、前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出部と、を備える音声処理装置である。
(2)本発明の他の態様は、(1)の音声処理装置であって、前記第1尤度と前記第2尤度からなる尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含み、前記第2区間検出部は、前記第2区間から、フレーム毎の前記第1尤度と前記第2尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する。
(3)本発明の他の態様は、(2)の音声処理装置であって、前記第2区間検出部は、前記ベクトル空間における前記音声領域の識別境界に基づいて、前記音声区間を検出し、前記識別境界は、少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められたことを特徴とする。
(4)本発明の他の態様は、(3)の音声処理装置であって、前記識別境界は、前記ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音声であると推定される確率が所定の確率である部分であることを特徴とする。
(5)本発明の他の態様は、(3)の音声処理装置であって、前記識別境界は、前記音声区間内の音声信号に基づく前記尤度ベクトルからなる第1の群と、音源の種類が非音声である非音声区間内の音声信号に基づく前記尤度ベクトルからなる第2の群との間の乖離をより大きくし、前記第1の群内の前記尤度ベクトル間の乖離と、前記第2の群内の前記尤度ベクトルの乖離を、それぞれ小さくするように定められたことを特徴とする。
(6)本発明の他の態様は、(1)から(5)のいずれかの音声処理装置であって、前前記複数チャネルの音声信号に基づいて前記空間スペクトルを算出し、前記空間スペクトルに基づいて音源方向を定める音源定位部と、前記第1区間内の複数のチャネルの音声信号から、前記音源方向からの伝達関数に基づいて音源毎の音声信号を分離する音源分離部とを備える。
(7)本発明の他の態様は、(6)の音声処理装置であって、前記音源定位部は、多重信号分類法またはビームフォーミング法を用いて前記空間スペクトルを算出する。
(8)本発明の他の態様は、音声処理装置における音声処理方法であって、複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出ステップと、前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定ステップと、前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出ステップと、前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出ステップと、を有する音声処理方法である。
上述した(1)、(8)の構成によれば、音源が存在する可能性が高い空間スペクトルが高い空間であって、パワーが高い区間内の音声信号から、音源の種類が音声である第1尤度と非音声である第2尤度から当該区間が音声区間であるか否かを正確に判定することができる。そのため、音声区間であると判定された区間内の音声信号を音声認識処理の対象とすることで、音声認識精度が向上する。
上述した(2)の構成によれば、単純な第1尤度と第2尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。
上述した(3)の構成によれば、尤度ベクトルが音声領域に属すか否かを簡素な処理で判定することができるので、計算量やハードウェア規模が過大になることが回避される。
上述した(4)の構成によれば、その所定の確率よりも音源の種類が音源であると推定される確率が高い領域を音声領域として、尤度ベクトルに基づく音声区間の検出に用いることができる。
上述した(5)の構成によれば、識別境界は、第1の群内の尤度ベクトルと第2の群内の尤度ベクトルとが極力混在しないようにベクトル区間を音声領域と非音声領域とを区分することができる。そのため、尤度ベクトルに基づく音声区間の検出精度が向上する。
上述した(6)の構成によれば、第1区間の検出に用いられる空間スペクトルが音源定位に用いられ、音源定位により定めた音源方向に関する情報が音源分離に用いられる。そのため、複数チャネルの音声信号から音声区間の判定対象の音源別音声信号を取得するまでの過程で得られる空間スペクトルなどの情報が音声区間の判定に活用されるので、システム規模が過大になることが避けられる。
上述した(7)の構成によれば、多重信号分類法またはビームフォーミング法により算出されたスペクトルのパワーを第1区間の検出に用いることができるので、システム規模が過大になることが避けられる。
第1の実施形態に係る音声処理システムの構成を示すブロック図である。 音源別音声信号の一例を示す図である。 音声特徴量の一例を示す図である。 判定対象区間の一例を示す例である。 第1の実施形態に係る音声処理を示すフローチャートである。 第1の実施形態に係る検証結果の一例を示す表である。 第1の実施形態に係る検証結果の他の例を示す表である。 第2の実施形態に係る音声処理システムの構成を示すブロック図である。 識別境界の一例を示す図である。 識別境界の他の例を示す図である。 第2の実施形態に係る検証結果の一例を示す表である。 第2の実施形態に係る検証結果の他の例を示す表である。 第2の実施形態に係る検証結果のさらに他の例を示す表である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10、入力部11、及び出力部12を含んで構成される。
音声処理装置10は、入力部11から入力されたP(Pは、2以上の整数)チャネルの音声信号について空間スペクトルのパワーを算出し、算出したパワーが所定のパワーよりも大きい第1区間を検出する。音声処理装置10は、検出した第1区間内の音声信号に基づいて発話状態を判定し、第1区間が属する発話区間における平均パワーよりもパワーが大きい第2区間を検出する。音声処理装置10は、検出した第2区間内の音声信号について、音源の種類が音声であるか否かを判定する。音声処理装置10は、音声であると判定された音声区間内の音音声信号について音声認識処理を行って得られた発話内容を示す発話データを出力部12に出力する。
入力部11には、Pチャネルの音声信号が入力され、入力された音声信号を音声処理装置10に出力する。入力部11は、例えば、P個の電気音響変換素子(マイクロホン)をそれぞれ異なる位置に配列したマイクロホンアレイである。入力部11は、収録した音声信号を無線で音声処理装置10に送信してもよいし、有線で送信してもよい。入力部11の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。入力部11は、音声処理装置10と一体化されていてもよいし、別体であってもよい。なお、入力部11は、他の機器からの音声信号が入力されるデータ入力インタフェースであってもよい。
出力部12は、音声処理装置10から入力された発話データを出力する。出力部12は、例えば、文字、図形、画像などを表示するディスプレイ装置である。ディスプレイ装置は、発話データが示す発話内容の情報を、テキスト、画像など視認可能な形態で表示できる。なお、出力部12は、他の機器に発話データを出力するデータ出力インタフェースであってもよい。出力部12は、入力部11と一体に構成されたデータ入出力インタフェースであってもよい。
音声処理装置10は、音源定位部101、第1区間検出部102、音源分離部103、特徴量抽出部104、尤度算出部105、記憶部106、発話状態判定部107、第2区間検出部108及び音声認識部109を含んで構成される。
音源定位部101は、入力部11から入力されたPチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム(例えば、50ms)毎に定める(音源定位)。音源定位部101は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部101は、空間スペクトルに基づいて音源毎の音源方向を定める。音源定位については、後述する。音源定位部101は、定めた音源毎の音源方向を示す音源方向情報とPチャネルの音声信号を第1区間検出部102に出力する。
第1区間検出部102には、音源定位部101から音源方向情報とPチャネルの音声信号が入力される。第1区間検出部102は、音源方向情報が示す音源方向について、音源毎に空間スペクトルのパワーが、所定のパワーの閾値よりも高い区間を第1区間として検出する。第1区間検出部102は、入力された音源方向情報とPチャネルの音声信号から、検出した第1区間内の音源方向情報とPチャネルの音声信号をそれぞれ抽出する。第1区間検出部102は、抽出した音源方向情報とPチャネル音声信号をそれぞれ音源分離部103に出力する。
音源分離部103には、第1区間検出部102から音源方向情報とPチャネルの音声信号が入力される。音源分離部103は、Pチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音声信号である音源別音声信号に分離する。音源分離部103は、音源別音声信号に分離する際、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。以下、フレームfにおける音源kの音源別音声信号S(f)と表す。音源分離部103は、分離した音源毎の音源別音声信号を特徴量抽出部104に出力する。
特徴量抽出部104は、音源分離部103から入力された音源毎の音源別音声信号について所定の長さのフレーム毎に音声特徴量を算出する。音声特徴量は、例えば、MFCC(Mel−frequency Cepstrum coefficients、メル周波数ケプストラム係数)、MFLS(Mel−frequency Log Spectrum、メル周波数対数スペクトル)、等である。特徴量抽出部104は、音源及びフレーム毎に算出した音声特徴量と音源別音声信号を尤度算出部105に出力する。
尤度算出部105は、特徴量抽出部104から入力された音源k及びフレームf毎の音声特徴量X(f)について、当該音声特徴量に係る音声信号が示す音源の種別が音声である尤度p(X(f)|λ)(以下、第1尤度、と呼ぶ)と当該音声特徴量に係る音声信号が示す音源の種別が非音声である尤度p(X(f)|λ)(以下、第2尤度、と呼ぶ)を算出する。第1尤度p(X(f)|λ)、第2尤度p(X(f)|λ)の算出において、尤度算出部105は、予め記憶部106に記憶させておいた音響モデルを用いる。音響モデルは、例えば、GMM(Gaussian Mixture Model、混合ガウス分布モデル)である。尤度算出部105は、音源及びフレーム毎に算出した第1尤度p(X(f)|λ)と第2尤度p(X(f)|λ)を示す尤度情報と音源別音声信号を対応付けて記憶部106に記憶し、当該音源別音声信号を発話状態判定部107に出力する。
発話状態判定部107は、尤度算出部105から入力された音源別音声信号が示す音源の発話状態を判定する。この段階では、音源別音声信号が示す音源が人間の発話を示す音声であるか、それ以外の種別の音源である非音声であるかが決定されていない。そのため、以下の説明では、発話とは、必ずしも言語情報の伝達のために音声を発することに限らず、人間もしくは音声合成装置が音を発すること又は発された音を意味する。発話状態判定部107は、音源及びフレーム毎の音源別音声信号に基づいて、各音源における発話の有無を判定する。発話状態判定部107は、例えば、パワーが、所定のパワーの閾値以上である場合、当該フレームの音源別音声信号の発話状態として発話中と判定し、パワーが所定のパワーの閾値未満である場合、当該フレームの音源別音声信号の発話状態として発話なしと判定する。なお、発話状態判定部107は、パワーが所定のパワーの閾値以上であるフレームについて、さらに零交差数が所定の零交差数の範囲(例えば、200〜500Hz)である場合、発話状態が発話中と判定し、零交差数が所定の零交差数の範囲外である場合、発話状態が発話なしと判定してもよい。
発話状態判定部107は、発話なしと判定されたフレームの直後のフレームにおいて発話中と判定された場合、その直後のフレームの発話状態として発話開始と判定する。そして、発話状態判定部107は、発話中と判定されたフレームの直後のフレームにおいて発話なしと判定された場合、その発話中と判定されたフレームの発話状態として発話終了と判定する。発話状態判定部107は、発話開始と判定されたフレームから次に発話終了と判定されたフレームまでの発話中と判定されたフレームからなる区間を1つの発話区間と判定する。発話状態判定部107は、フレーム毎の発話状態を示す発話状態情報を第2区間検出部108に出力する。
第2区間検出部108は、発話状態判定部107から入力された発話状態情報を参照して、記憶部106から読み出した音源及びフレーム毎の音源別音声信号から、その時点のフレームが属する発話区間内における平均パワーを音源毎に算出する。第2区間検出部108は、第2区間として、発話区間のうちパワーが算出した平均パワーよりも高いフレームについて、フレーム毎の第1尤度p(X(f)|λ)と第2尤度p(X(f)|λ)に基づいて音声区間であるか非音声区間であるかを判定する。第2区間検出部108は、非音声区間であると判定したフレームを棄却し、音声区間であると判定したフレームの音声特徴量を音声認識部109に出力する。ここで、音声区間とは、音源の種類が音声、つまり特定の音素を有する音である区間を意味し、非音声区間とは、音源の種類が音声以外の音、例えば、楽音、効果音、機械の動作音、等である区間を意味する。
音声認識部109は、第2区間検出部108から入力されたフレームの音声特徴量と予め記憶部106に記憶された音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデルと言語モデルを含む。音響モデルは、音声特徴量から1つまたは複数の音素からなる音素列を定めるために用いられる。音響モデルは、例えば、HMM(Hidden Markov Model、隠れマルコフモデル)である。言語モデルは、音素列から構成される語句を定めるために用いられる。言語モデルは、例えば、n−グラム(n−gram)である。音声認識部109は、入力された音声特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部109は、音源毎の発話内容として認識結果を示すテキストデータを出力部12に出力する。
(音源定位)
次に、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い音源方向ψを定める手法である。記憶部106には、予め所定の間隔(例えば、5°)で分布した音源方向ψ毎の伝達関数を記憶させておく。音源定位部101は、音源から各チャネルp(pは、1以上P以下の整数)に対応するマイクロホンまでの伝達関数D[p](ω)を要素とする伝達関数ベクトル[D(ψ)]を音源方向ψ毎に生成する。
音源定位部101は、各チャネルpの音響信号x(t)(tは、時刻)を所定のサンプル数からなるフレーム毎に周波数領域に変換することによって変換係数x(ω)を算出する。音源定位部101は、算出した変換係数を要素として含む入力ベクトル[x(ω)]から式(1)に示す入力相関行列[Rxx]を算出する。
式(1)において、E[…]は、…の期待値を示す。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。
音源定位部101は、入力相関行列[Rxx]の固有値δ及び固有ベクトル[e]を算出する。入力相関行列[Rxx]、固有値δ、及び固有ベクトル[e]は、式(2)に示す関係を有する。
式(2)において、iは、1以上P以下の整数である。インデックスiの順序は、固有値δの降順である。
音源定位部101は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[e]に基づいて、式(3)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
式(3)において、Kは、検出可能な音源の最大個数(例えば、2)である。Kは、Pよりも小さい予め定めた自然数である。
音源定位部101は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
なお、音源定位部101は、MUSIC法に代えて、その他の手法を用いて音源位置を算出してもよい。例えば、重み付き遅延和ビームフォーミング(WDS−BF:Weighted Delay and Sum Beam Forming)法が利用可能である。WDS−BF法は、式(4)に示すように各チャネルpの全帯域の音響信号x(t)の遅延和の二乗値を空間スペクトルのパワーPext(ψ)として算出し、空間スペクトルのパワーPext(ψ)が極大となる音源方向ψを探索する手法である。
式(4)において[D(ψ)]の各要素が示す伝達関数は、音源から各チャネルp(pは、1以上P以下の整数)に対応するマイクロホンまでの位相の遅延による寄与を示し、減衰が無視されている。つまり、各チャネルの伝達関数の絶対値が1である。[x(t)]は、その時点における各チャネルpの音響信号x(t)の信号値を要素とするベクトルである。
(音源分離)
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。分離行列[V(ω)]は、音源定位部101から入力されたPチャネルの音声信号[x(ω)]に乗じることによって、Kチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。ここで、[…]は、行列又はベクトルの転置を示す。
分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(5)、(6)のように表される。
式(5)、(6)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音声信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音声信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。また、式(6)において、[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
図2は、音源分離部103で分離された音源別音声信号の一例を示す図である。図2は、発話開始フレームf から発話終了フレームf までの発話区間における音源kの音源別音声信号S(f)の信号値の時間変化を示す。この波形は、音源kの方向への空間スペクトルのパワーが所定のパワーよりも高い第1区間内の波形であり、他の音源として他人の発話による成分が分離されていることを示す。
図3は、特徴量抽出部104で算出された音声特徴量の一例を示す図である。図3は、発話開始フレームf から発話終了フレームf までの発話区間における音源別音声信号S(f)についてフレーム毎に算出したMFCCの時間変化を濃淡で示す。図3において、高次の信号値ほど上方に表され、暗い部分よりも明るい部分の方が、信号値が大きいことを示す。算出された音響特徴量は、尤度算出部105において音源別音声信号が示す音源の種類が音声もしくは非音声である尤度を算出するために用いられる。
(尤度算出)
次に、尤度算出の一手法としてGMMを用いる処理について説明する。
GMMは、入力された音声特徴量に対する出力確率を複数の正規分布を基底として重みづけ加算することにより求めるための音響モデルの一種である。GMMのモデル変数として、混合重み係数(mixture weight)Cim、平均値(mean)[μim]、及び共分散行列(covariance matrix)[Σim]を含む。ここで、mは個々の基底、iはその時点における発話状態を示す。モデル変数は、クラス毎に与えられる。尤度は、フレーム毎の出力確率を累算することにより算出される。累算とは、線形領域で順次乗算すること、対数領域で順次加算することの両者を含む。尤度の算出において、尤度算出部105は、累算した出力確率を、出力確率の累算に係るフレーム数で正規化してもよい。
本実施形態では、音源の種類が音声であるか非音声であるかが既知であるフレーム毎の音声特徴量について、GMMを用いて第1尤度と、第2尤度がそれぞれ増加するように(最大化)モデル変数を予め定めておく。
(音声区間、非音声区間の判定)
次に、音声区間であるか、非音声区間であるかを判定する手法について説明する。
第2区間検出部108は、例えば、式(7)を用いて音源k毎にフレームf毎の音源別音声信号S(f)から発話状態情報が示す発話区間内における平均パワーP’を算出する。
式(7)において、|S(f)|は、音源kのフレームfにおける音源別音声信号のパワーである。
その後、第2区間検出部108は、パワーが平均パワーP’以下のフレームを非音声区間であると判定する。第2区間検出部108は、パワーが平均パワーP’よりも大きいフレームを、第1尤度p(X(f)|λ)と第2尤度p(X(f)|λ)を用いて音声区間であるか、非音声区間であるかを判定するための第2区間に属するフレームであると判定する。音声区間であるか非音声区間であるかの判定手法には、例えば、累積尤度法と、多数決法がある。
累積尤度法では、第2区間検出部108は、第2区間内のフレームf間においてフレーム毎の第1尤度p(X(f)|λ)を順次乗じて音声に係る累積尤度p’(X|λ)(以下、第1累積尤度、と呼ぶ)を算出する。また、第2区間検出部108は、第2区間内のフレームf間においてフレーム毎の第2尤度p(X(f)|λ)を順次乗じて非音声に係る累積尤度p’(X|λ)(以下、第2累積尤度、と呼ぶ)を算出する。第1累積尤度p’(X|λ)、第2累積尤度p’(X|λ)は、それぞれ式(8)、(9)で表される。
第2区間検出部108は、第1累積尤度p’(X|λ)が第2累積尤度p’(X|λ)よりも高いとき、第2区間が音声区間であると判定し、第1累積尤度p’(X|λ)が第2累積尤度p’(X|λ)以下であるとき、第2区間が非音声区間であると判定する。
多数決法では、第2区間検出部108は、第2区間内のフレームのうち、第1尤度p(X(f)|λ)が第2尤度p(X(f)|λ)よりも高いフレームの個数を計数する。第2区間検出部108は、計数した個数の比率が所定の比率(例えば、0.5)を超えるとき、第2区間が音声区間であると判定する。
具体的には、第2区間検出部108は、フレームf毎に識別値π(X(f))を式(10)に従って定める。
第2区間検出部108は、式(11)に示すように、定めた識別値π(X(f))を第2区間内で累積し、累積して得られた累積値を第2区間のフレーム数f −f +1で除算して、比率π’を算出する。
そして、第2区間検出部108は、比率π’が0.5より大きいとき、第2区間が音声であると判定し、それ以外の場合、第2区間が非音声区間であると判定する。
図4は、第2区間検出部108により判定された第2区間の一例を示す例である。図4に示す2個の枠が、それぞれ図2に示す音源別音声信号について第2区間検出部108が判定した第2区間a1、a2を表す。発話区間内における平均パワー以下のフレームが棄却されるので、音源別音声信号として各種のノイズよりも音源の成分が主となる部分が判定対象となる。そのため、第2区間検出部108は、音源別音声信号の音源が音声であるか非音声であるかの判定を精度よく行うことができる。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音源定位部101は、入力部11からのPチャネルの音声信号に基づいて方向毎のパワーを示す空間スペクトルを算出する。音源定位部101は、算出した空間スペクトルに基づいて音源毎の音源方向を定める。その後、ステップS102に進む。
(ステップS102)第1区間検出部102は、フレーム毎の空間スペクトルのパワーが、所定のパワーの閾値よりも高い区間を第1区間に属するフレームとして検出する。その後、ステップS103に進む。但し、第1区間として検出されないフレームについては、次のフレームについてステップS103の処理を行う。
(ステップS103)音源分離部103は、第1区間内のPチャネルの音声信号を音源毎の音源方向に基づいて音源毎の音源別音声信号に分離する。その後、ステップS104に進む。
(ステップS104)特徴量抽出部104は、音源毎の音源別音声信号についてフレーム毎に所定の種類の音声特徴量を算出する。その後、ステップS105に進む。
(ステップS105)尤度算出部105は、音源k及びフレームf毎の音声特徴量X(f)について、音源の種別が音声である第1尤度p(X(f)|λ)、音源の種別が非音声である第2尤度p(X(f)|λ)を算出する。その後、ステップS106に進む。
(ステップS106)発話状態判定部107は、音源及びフレーム毎の音源別音声信号のパワーを算出し、当該フレームにおける発話状態が発話中である発話区間であるか、発話なしである非発話区間であるかを判定する。発話状態判定部107は、この判定に基づいて当該フレームが発話終了フレームであるか否かを判定する。発話終了フレームと判定する場合には(ステップS106 YES)、ステップS107に進む。発話終了フレームと判定しない場合には(ステップS106 NO)、ステップS102に進み、処理対象のフレームを次のフレームに変更する。
(ステップS107)第2区間検出部108は、発話区間のうちパワーが算出した平均パワーよりも高いフレームについて、フレーム毎の第1尤度p(X(f)|λ)と第2尤度p(X(f)|λ)に基づいて音声区間であるか非音声区間であるかを判定する。その後、ステップS108に進む。
(ステップS108)音声認識部109は、音声区間と判定された一連のフレームの音声特徴量について音声認識処理を行い、音源毎の発話内容として認識結果を示すテキストデータを出力部12に出力する。その後、図5に示す処理を終了する。
なお、第2区間検出部108は、第1累積尤度p’(X|λ)と第2累積尤度p’ (X|λ)を用いて、次の判定を行ってもよい。
(i)p’(X|λ)がα・p’(X|λ)よりも高い場合、第2区間が音声区間であると判定する。
(ii)p’(X|λ)がα−1・p’(X|λ)よりも低い場合、第2区間が非音声区間であると判定する。
(iii)p’(X|λ)がα−1・p’(X|λ)以上であって、α・p’ (X|λ)以下である場合、音声区間と非音声区間のどちらにも属しないその他の区間であると判定する。ここで、αは、1よりも大きい所定の実数、例えば、1.5である。その他の区間内の音声信号は、音声と非音声との中間の特性を有するため音声とも非音声とも判定されないことがある。
また、第2区間検出部108は、比率π’を用いて、次の判定を行ってもよい。
(i)比率π’が0.5+βよりも高い場合、第2区間が音声区間であると判定する。
(ii)比率π’が0.5−βよりも低い場合、第2区間が非音声区間であると判定する。
(iii)比率π’が0.5−β以上であって、0.5+β以下である場合、その他の区間であると判定する。ここで、αは、0よりも大きく0.5よりも小さい所定の実数、例えば、0.1である。
(評価実験)
次に、本実施形態に係る音声処理装置10について行った評価実験について説明する。
評価実験は、次の条件で行われた。音声信号の標本化周波数:16000[Hz]、チャネル数P:8、1フレーム内のサンプル数(FFT点数):512、シフト長:160、室内の残響時間RT20:1.0[s]
収音部11は、人型ロボットの頭部に設置されたマイクロホンアレイである。収音部11が備える8個のマイクロホンは、当該ロボットの頭頂部を中心とする円上に等間隔で配置される。音源として、判定対象となる目的音源と雑音源の両者が用いられた。目的音源は、当該ロボットの正面から1.5m離れた位置に設置されたのに対し、複数個の雑音源はロボットの正面以外の方向に設置された。各試行において目的音源と雑音源の両者に音を発生させた。各試行では、複数個の雑音源から雑音を発生させる雑音源がランダムに選択された。目的音源のコンテンツとして、824個の音声、990個の非音声(楽音、効果音など)、及び1161個のその他の音源が用いられた。各試行では、計2975個のコンテンツのいずれかがランダムに選択された。各試行において、音声処理装置10に目的音源の種類が音声、非音声又はその他のいずれであるかを判定させた。検証結果の集計において、音声、非音声、その他と判定された回数を音源の種類別に計数した。なお、検証結果の比較のため、第2区間検出部108において第1区間に属するフレームのうち、音源別音声信号のパワーが平均パワー以下であるフレームを棄却する処理を省略して、音声処理装置10に目的音源の種類を判定させた(二階層区間検出なし)。
(検証結果)
図6、7は、それぞれ検証結果の例を示す表である。図6に示す検証結果は、二階層区間検出なしについて、目的音源の種類毎に判定された回数を示す。図7は、本実施形態に係る音声処理について、目的音源の種類毎に判定された回数を示す。図6、7ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。例えば、図6の第2行は、目的音源の種類が音声である場合、全827回のうち音源の種類が音声、非音声、その他と判定された回数が、それぞれ799、20、8回であることを示す。図6に示す二階層区間検出なしの結果より、音声、非音声、その他の区間が正しく判定された正解率は81.68%となった。これに対して、図7に示す本実施形態の検証結果より、正解率は91.39%となった。図6、7に示す結果は、本実施形態のように第1区間の検出と、第1区間からパワーが平均パワーよりも高い区間を第2区間として判定対象区間を絞り込む二階層区間検出により、音声区間、非音声区間、その他の区間のいずれであるかを、より正確に判定できることを示す。正確に音声区間と判定された区間内の音声特徴量を用いて音声認識処理を行うことで、認識精度を向上させることができる。
以上、説明したように本実施形態に係る音声処理装置10は、複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出部102を備える。音声処理装置10は、第1区間内の音声信号に基づいて発話状態を判定する発話状態判定部107と、第1区間内の音声信号に係る音源の種類が音声である第1尤度と音源の種類が非音声である第2尤度とを算出する尤度算出部105を備える。また、音声処理装置10は、発話区間の平均パワーよりもパワーが大きい第2区間内の第1尤度と第2尤度に基づいて第2区間が音声区間であるか否かを判定する第2区間検出部108を備える。
この構成によれば、音源が存在する可能性が高い空間スペクトルが高い空間であって、パワーが高い区間内の音声信号から、音源の種類が音声である第1尤度と非音声である第2尤度から当該区間が音声区間であるか否かを正確に判定することができる。そのため、音声区間であると判定された区間内の音声信号を音声認識処理の対象とすることで、音声認識精度が向上する。
また、音声処理装置10は、複数チャネルの音声信号に基づいて空間スペクトルを算出し、空間スペクトルに基づいて音源方向を定める音源定位部101と、第1区間内の複数のチャネルの音声信号から、音源方向からの伝達特性に基づいて音源毎の音声信号を分離する音源分離部103を備える。
この構成により、第1区間の検出に用いられる空間スペクトルが音源定位に用いられ、音源定位により定めた音源方向に関する情報が音源分離に用いられる。そのため、複数チャネルの音声信号から音声区間の判定対象の音源別音声信号を取得するまでの過程で得られる空間スペクトルなどの情報が音声区間の判定に活用されるので、システム規模が過大になることが避けられる。
また、音源定位部101は、多重信号分類法またはビームフォーミング法を用いて空間スペクトルを算出する。
この構成により、第1区間検出部102は、多重信号分類法またはビームフォーミング法により算出されたスペクトルのパワーを第1区間の検出に用いることができるので、システム規模が過大になることが避けられる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。以下の説明では、第1の実施形態と同一の構成について同一の符号を付して、その説明を援用する。
図8は、本実施形態に係る音声処理システム1Aの構成を示すブロック図である。
音声処理システム1Aは、音声処理システム1(図1)において音声処理装置10(図1)に代えて音声処理装置10Aを備える。音声処理装置10Aは、音声処理装置10において第2区間検出部108に代えて第2区間検出部108Aを備える。
第2区間検出部108Aは、第2区間検出部108と同様に、発話区間のうちパワーが平均パワーよりも高いフレームを第2区間に属するフレームとして特定する。第2区間検出部108Aは、特定したフレームについて算出された第1尤度p(X(f)|λ)と、第2尤度p(X(f)|λ)とを要素として含む尤度ベクトルを形成する。第2区間検出部108Aは、記憶部106に予め記憶させておいた領域データを参照し、形成した尤度ベクトルが音声領域に属するフレームを音声区間として判定し、当該尤度ベクトルが非音声領域に属するフレームを非音声区間として判定する。領域データは、尤度ベクトルのベクトル空間のうち音声に対応付けられた音声領域と、当該ベクトル空間のうち非音声に対応付けられた非音声領域を含むデータである。より具体的には、領域データは、音声領域と非音声領域の識別境界を示す。なお、第2区間検出部108Aは、第2区間検出部108と同様に、発話区間のうちパワーが平均パワー以下であるフレームを非音声区間として判定する。
(領域データ)
音声処理装置10Aは、領域データ生成部(図示せず)をさらに備えてもよい。領域データ生成部は、事前学習により音声区間であるフレームの尤度ベクトルの分布と、非音声区間であるフレームの尤度ベクトルの分布に基づいて音声領域とその他領域の間の識別境界を予め定める。領域データ生成部は、定めた識別境界を示す領域データを記憶部106に記憶する。
以下の説明では、音声区間に属するフレームの尤度ベクトル、非音声区間に属するフレームの尤度ベクトルをそれぞれ音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルと呼ぶ。図9に示す例では、音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルが、それぞれ○印、△印で表され、識別境界は、直線で表されている。識別境界が直線である場合には、その特性は直線の傾きαと切片βで表される。
尤度ベクトルの分布から識別境界を求める手法として、例えば、LR(Logistic Regression、ロジスティック回帰)、LDA(Linear Discriminant Analysis、線形判別分析)などが利用可能である。
LRは、各クラスの事後確率p(λ|φ(x))が尤度ベクトルのロジスティックシグモイド関数σ([w][φ(x)])であることを仮定してパラメータ[w]を定めることにより識別境界を定める手法である。ここで、x=p(X(f)|λ)(nは、1、2)である。また、ロジスティックシグモイド関数σ(y)は、式(12)で表される関数である。
ロジスティックシグモイド関数σ(y)は、yの増加に伴い単調増加する関数である。ロジスティックシグモイド関数σ(y)の最大値、最小値は、それぞれ1、0である。y=0であるとき、σ(y)=0.5である。[φ(x)]は、定数1と各クラスの尤度である第1尤度p(X(f)|λ)、第2尤度p(X(f)|λ)を要素として含む特徴ベクトル[1,p(X(f)|λ),p(X(f)|λ)]を示す。パラメータ[w]は、特徴ベクトル[φ(x)]の各要素に乗じられる重み係数を要素とする重みベクトル[w]を示す。従って、yは、各クラスの尤度に、当該クラスに係る重み係数を乗じて得られた乗算値とバイアス値wとの総和をとることによって算出される。
即ち、領域データ生成部は、LRにおいて各クラスについてフレーム毎に得られた尤度ベクトルの分布について式(12)に示すロジスティックシグモイド関数σ(y)について回帰分析を行うことによりパラメータ[w]を算出する。パラメータ[w]の算出において、例えば、ニュートン・ラフソン法(Newton−Raphson Algorithm)が利用可能である。尤度ベクトルのベクトル空間が音声領域と非音声領域の2つの領域からなるとき、この2つの領域の識別境界は、例えば、σ(y)=0.5、即ち、[w][φ(x)]=0となる尤度ベクトルの集合で与えられる。識別境界となる直線の方程式は、例えば、式(13)で表される。式(13)に示す例では、傾きαは、−w/w、切片βは、−w/wと与えられる。
次に、LDAを用いた手法について説明する。領域データ生成部は、音源の種類として音声に係る尤度ベクトルからなる第1の群と、音源の種類として非音声に係る尤度ベクトルからなる第2の群との間の群間の乖離を算出する。また、領域データ生成部は、第1の群内の尤度ベクトル間における群内の乖離と、第2の群内の尤度ベクトル間における群内の乖離とを算出する。そして、領域データ生成部は、仮に定めた第1の群と第2の群とを区分する識別境界について、群間の乖離をより大きく(最大化)し、第1の群内の乖離と、第2の群内の乖離をそれぞれ、より小さく(最小化)するように識別境界を与えるパラメータ[w]を順次更新する。群間の乖離の指標として、例えば、群間平方和が利用可能である。群間平方和は、複数の群のうち2つの群からなる各対のノルムの対間にわたる総和である。各対のノルム(距離の二乗値)は、一方の群内の尤度ベクトルの平均値から他方の群内の尤度ベクトルの平均値の差分ベクトルについての各成分の二乗値の総和(平方和)である。本実施形態では、群の数は2個であるので、群間平方和は、第1の群内の平均値から第2の群内の平均値の二乗値(距離の二乗値)である。群内の乖離の指標として、例えば、群内平方和が利用可能である。群内平方和は、群内の尤度ベクトルのそれぞれと群内の尤度ベクトルの平均値との差分ベクトルについてのノルムの群内の総和である。領域データ生成部は、算出されたパラメータ[w]から傾きαは、切片βを定める。
そして、領域データ生成部は、音声領域と非音声領域の識別境界を与える領域として、パラメータ[w]を示す領域データを生成する。なお、領域データ生成部は、領域データとしてバイアス値w、傾きα及び切片βを示すデータを生成してもよい。
なお、第2区間検出部108Aは、第1尤度p(X(f)|λ)が、第2尤度p(X(f)|λ)よりも大きいフレームを発話区間と判定し、それ以外の場合に非発話区間と判定することも考えられる(図10参照)。しかしながら、音声区間において、必ずしも第1尤度p(X(f)|λ)が第2尤度p(X(f)|λ)よりも大きいとは限らない。非音声区間において、第1尤度p(X(f)|λ)が第2尤度p(X(f)|λ)以下になるとは限らない。その一因として、音声特徴量に基づいて算出される尤度の分布が、音声と非音声との間で完全に独立でも排他的でもないことが挙げられる。
これに対し、本実施形態では、第2区間検出部108Aは、学習により予め生成された領域データを参照して、尤度ベクトルが音声領域と非音声領域のいずれに属するかを判定することにより、対象フレームが音声区間であるか非音声区間であるかを判定する。そのため、単純な尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。
なお、領域データ生成部は、必ずしも音声処理装置10Aに備えられていなくてもよく、音声処理装置10Aの外部に設置されてもよい。
(評価実験)
次に、本実施形態に係る音声処理装置10Aについて行った評価実験について説明する。実験の条件は、第1の実施形態で述べた評価実験と同様である。但し、本実施形態では、目的音源のコンテンツとして、824個の音声、990個の非音声が用いられた。また、各試行において音声処理装置10Aに目的音源の種類が音声又は非音声のいずれであるかを判定させた。また、比較のために、音源の判定においてLRを用いて生成した領域データを用いた場合(LR)、LDAを用いて生成した領域データを用いた場合(LDA)、第1の実施形態に示す多数決法を用いた場合(多数決)のそれぞれについて実験結果を集計した。
(検証結果)
図11、12、13は、検証結果の例を示す表である。図11、12、13は、LR、LDA、多数決のそれぞれについて判定された目的音源の種類毎の回数を示す。図11、12、13ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。図11の第2行は、目的音源の種類が音声である場合、全824回のうち音源の種類が音声、非音声と判定された回数が、それぞれ789、35回であることを示す。図11の第3行は、目的音源の種類が非音声である場合、全1161回のうち音源の種類が音声、非音声と判定された回数が、それぞれ23、1138回であることを示す。図13に示す多数決の結果と比較すると、LRでは、正しく音声、非音声と判定された回数がそれぞれ2、1回多い。
図12の第2行は、目的音源の種類が音声である場合、全824回のうち音源の種類が音声、非音声と判定された回数が、それぞれ810、14回であることを示す。図11の第3行は、目的音源の種類が非音声である場合、全1161回のうち音源の種類が音声、非音声と判定された回数が、それぞれ203、958回であることを示す。図13に示す多数決の結果と比較すると、LDAでは、正しく音声と判定された回数が1回多いが、正しく非音声と判定された回数が179回減る。その一因として、領域データの生成により音声領域と非音声領域の識別境界を定める際、音声領域と非音声領域とが互いに排他的であることを仮定したことが考えられる。以下の変形例で説明するように、その他の領域も用いることで、音声領域と非音声領域とが互いに排他的であるものとして扱われなくなるので識別精度の低下を抑えることができる。
(変形例)
次に、本実施形態の変形例について説明する。領域データ生成部は、音声領域とその他領域、その他領域と非音声領域、それぞれの識別境界を示す領域データを生成してもよい。領域データ生成部は、音声領域とその他領域の識別境界として、LRを用いた手法において、σ(y)が0.5より大きく1よりも小さい所定の実数(例えば、0.6)を与えるパラメータ[w]を定めてもよい。領域データ生成部は、当該識別境界として、LDAを用いた手法において、仮に定めた識別境界により区分された音声領域に含まれる音声に係る尤度ベクトルと、その他領域に含まれるその他の音源に係る尤度ベクトルとの群間平方和を算出する。領域データ生成部は、当該音声領域に含まれる音声に係る尤度ベクトル、その他領域に含まれるその他の音源に係る尤度ベクトルそれぞれの群内平方和を算出する。そして、領域データ生成部は、与えられた尤度ベクトルについて群間平方和をより大きくし、かつ、群内平方和をより小さくするパラメータ[w]を探索する処理を行う。
領域データ生成部は、その他領域と非音声領域の識別境界として、LRを用いた手法において、σ(y)が0.5より小さく0よりも大きい所定の実数(例えば、0.4)を与えるパラメータ[w]を定めてもよい。領域データ生成部は、当該識別境界として、LDAを用いた手法において、その他領域に含まれるその他の音源に係る尤度ベクトルと、非音声領域に含まれる非音声に係る尤度ベクトルとの群間平方和を算出する。領域データ生成部は、当該その他領域に含まれるその他の音源に係る尤度ベクトル、非音声領域に含まれる非音声に係る尤度ベクトルそれぞれの群内平方和を算出する。そして、領域データ生成部は、与えられた尤度ベクトルについて群間平方和をより大きくし、かつ、群内平方和をより小さくするパラメータ[w]を探索する処理を行う。探索においてパラメータ[w]の変化の度合いが、所定の変化の度合いの閾値よりも小さくなったとき、領域データ生成部は、パラメータ[w]が収束したと判定して探索を終了する。その後、領域データ生成部は、生成した領域データを記憶部106に記憶する。
本変形例では、第2区間検出部108Aは、フレーム毎に形成した尤度ベクトルが記憶部106に記憶した領域データが示す音声領域、その他領域、非音声領域のいずれの領域に属するかを判定する。音声領域に属すると判定するとき、第2区間検出部108Aは、当該フレームが音声区間に属すると判定する。その他領域に属すると判定するとき、第2区間検出部108Aは、当該フレームがその他の区間に属すると判定する。非音声領域に属すると判定するとき、第2区間検出部108Aは、当該フレームが非音声区間に属すると判定する。
なお、本実施形態もしくは上述の変形例において、LDAを用いた手法を用いて識別境界を求める際に算出される、複数の尤度ベクトル間の乖離の度合いの指標は、上述したものに限らない。領域データ算出部は、例えば、平方和に代えて絶対差分和(SAD:Sum of Absolute Differences)を用いてもよいし、距離に代えてマハラノビス汎距離を用いてもよい。
以上、説明したように本実施形態に係る音声処理装置10Aで用いられる尤度ベクトルは、音源の種類が音声である第1尤度と音源の種類が非音声である第2尤度からなる。尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含む。また、第2区間検出部108Aは、第1区間検出部102が検出した第1区間から、フレーム毎の第1尤度と第2尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する。
この構成により、単純な第1尤度と第2尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。
また、第2区間検出部108Aは、尤度ベクトルのベクトル空間における音声領域の識別境界に基づいて音声区間を検出し、識別境界として少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められたものが用いられる。
この構成により、第2区間検出部108Aは、尤度ベクトルが音声領域に属すか否かを簡素な処理で判定することができるので、計算量やハードウェア規模が過大になることが回避される。
また、識別境界は、ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音源であると推定される確率が所定の確率である部分である。
このことにより、第2区間検出部108Aは、その所定の確率よりも音源の種類が音源であると推定される確率が高い領域を音声領域として、尤度ベクトルに基づく音声区間の検出に用いることができる。
また、識別境界は、音声区間内の音声信号に基づく尤度ベクトルからなる第1の群と、音源の種類が非音声である非音声区間内の音声信号に基づく尤度ベクトルからなる第2の群との間の乖離をより大きくし、第1の群内の尤度ベクトル間の乖離と、第2の群内の尤度ベクトルの乖離を、それぞれ小さくするように定められたものである。
このことにより、識別境界は、第1の群内の尤度ベクトルと第2の群内の尤度ベクトルとが極力混在しないようにベクトル区間を音声領域と非音声領域とを区分することができる。そのため、第2区間検出部108Aによる尤度ベクトルに基づく音声区間の検出精度が向上する。
以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置10、10Aは、さらに出力制御部(図示せず)を備えてもよい。出力制御部は、第2区間検出部108、108Aが、発話区間からその他の区間を検出するとき、再度の発話を促すための情報を示す出力データを出力部12に出力する。出力データは、当該情報を視認可能に表す画像データでもよいし、当該情報を示す音声データであってもよい。当該情報は、例えば、「もう少しはっきりと話して下さい」などのメッセージを含む。そのため、ユーザによる発話が音声であるか否か明確に判定できないときに、再度の発話が促される。そのため、音声認識処理の対象となる音声データを確実に取得することができる。
なお、上述した実施形態における音声処理装置10、10Aの一部、例えば、音源定位部101、第1区間検出部102、音源分離部103、特徴量抽出部104、尤度算出部105、発話状態判定部107、第2区間検出部108、108A及び音声認識部109をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10、10Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置10、10Aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10、10Aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、1A…音声処理システム、10、10A…音声処理装置、101…音源定位部、102…第1区間検出部、103…音源分離部、104…特徴量抽出部、105…尤度算出部、106…記憶部、107…発話状態判定部、108、108A…第2区間検出部、109…音声認識部、11…入力部、12…出力部

Claims (8)

  1. 複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出部と、
    前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定部と、
    前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出部と、
    前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出部と、
    を備える音声処理装置。
  2. 前記第1尤度と前記第2尤度からなる尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含み、
    前記第2区間検出部は、
    前記第2区間から、フレーム毎の前記第1尤度と前記第2尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する
    請求項1に記載の音声処理装置。
  3. 前記第2区間検出部は、
    前記ベクトル空間における前記音声領域の識別境界に基づいて、前記音声区間を検出し、
    前記識別境界は、少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められた請求項2に記載の音声処理装置。
  4. 前記識別境界は、前記ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音声であると推定される確率が所定の確率である部分である請求項3に記載の音声処理装置。
  5. 前記識別境界は、前記音声区間内の音声信号に基づく前記尤度ベクトルからなる第1の群と、音源の種類が非音声である非音声区間内の音声信号に基づく前記尤度ベクトルからなる第2の群との間の乖離をより大きくし、前記第1の群内の前記尤度ベクトル間の乖離と、前記第2の群内の前記尤度ベクトル間の乖離を、それぞれ小さくするように定められた請求項3に記載の音声処理装置。
  6. 前記複数チャネルの音声信号に基づいて前記空間スペクトルを算出し、前記空間スペクトルに基づいて音源方向を定める音源定位部と、
    前記第1区間内の複数のチャネルの音声信号から、前記音源方向からの伝達特性に基づいて音源毎の音声信号を分離する音源分離部と
    を備える請求項1から請求項5のいずれか一項に記載の音声処理装置。
  7. 前記音源定位部は、多重信号分類法またはビームフォーミング法を用いて前記空間スペクトルを算出する請求項6に記載の音声処理装置。
  8. 音声処理装置における音声処理方法であって、
    複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出ステップと、
    前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定ステップと、
    前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出ステップと、
    前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出ステップと、
    を有する音声処理方法。
JP2015154215A 2015-08-04 2015-08-04 音声処理装置及び音声処理方法 Active JP6501259B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015154215A JP6501259B2 (ja) 2015-08-04 2015-08-04 音声処理装置及び音声処理方法
US15/193,481 US10622008B2 (en) 2015-08-04 2016-06-27 Audio processing apparatus and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015154215A JP6501259B2 (ja) 2015-08-04 2015-08-04 音声処理装置及び音声処理方法

Publications (2)

Publication Number Publication Date
JP2017032857A JP2017032857A (ja) 2017-02-09
JP6501259B2 true JP6501259B2 (ja) 2019-04-17

Family

ID=57987899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015154215A Active JP6501259B2 (ja) 2015-08-04 2015-08-04 音声処理装置及び音声処理方法

Country Status (2)

Country Link
US (1) US10622008B2 (ja)
JP (1) JP6501259B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
CN107527616A (zh) * 2017-09-29 2017-12-29 上海与德通讯技术有限公司 智能识别方法及机器人
JP7075064B2 (ja) * 2018-03-09 2022-05-25 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム
JP7079189B2 (ja) * 2018-03-29 2022-06-01 パナソニックホールディングス株式会社 音源方向推定装置、音源方向推定方法及びそのプログラム
JP7248478B2 (ja) 2019-03-28 2023-03-29 本田技研工業株式会社 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法
CN112562649B (zh) * 2020-12-07 2024-01-30 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质

Family Cites Families (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6567771B2 (en) * 2000-08-29 2003-05-20 International Business Machines Corporation Weighted pair-wise scatter to improve linear discriminant analysis
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
US7305132B2 (en) * 2003-11-19 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Classification in likelihood spaces
JP2005227512A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
CN101107505A (zh) * 2005-01-26 2008-01-16 松下电器产业株式会社 语音编码装置和语音编码方法
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
EP2063418A4 (en) * 2006-09-15 2010-12-15 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
US8208643B2 (en) * 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
JP5046211B2 (ja) * 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8249870B2 (en) * 2008-11-12 2012-08-21 Massachusetts Institute Of Technology Semi-automatic speech transcription
JP5326533B2 (ja) * 2008-12-09 2013-10-30 富士通株式会社 音声加工装置及び音声加工方法
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
JP5411936B2 (ja) * 2009-07-21 2014-02-12 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
CN102792373B (zh) * 2010-03-09 2014-05-07 三菱电机株式会社 噪音抑制装置
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US20110307079A1 (en) * 2010-04-29 2011-12-15 Board Of Trustees Of Michigan State University, The Multiscale intra-cortical neural interface system
DE102010026381A1 (de) * 2010-07-07 2012-01-12 Siemens Medical Instruments Pte. Ltd. Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US8942975B2 (en) * 2010-11-10 2015-01-27 Broadcom Corporation Noise suppression in a Mel-filtered spectral domain
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
JP5974901B2 (ja) * 2011-02-01 2016-08-23 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
US8918197B2 (en) * 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
JP5289517B2 (ja) * 2011-07-28 2013-09-11 株式会社半導体理工学研究センター センサネットワークシステムとその通信方法
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP5810946B2 (ja) * 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
US9754608B2 (en) * 2012-03-06 2017-09-05 Nippon Telegraph And Telephone Corporation Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
WO2013138633A1 (en) * 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
JP6024180B2 (ja) * 2012-04-27 2016-11-09 富士通株式会社 音声認識装置、音声認識方法、及びプログラム
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US20160240210A1 (en) * 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
US9443532B2 (en) * 2012-07-23 2016-09-13 Qsound Labs, Inc. Noise reduction using direction-of-arrival information
CN104885149B (zh) * 2012-09-24 2017-11-17 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法
DK3537437T3 (da) * 2013-03-04 2021-05-31 Voiceage Evs Llc Anordning og fremgangsmåde til reduktion af kvantiseringsstøj i en tidsdomæneafkoder
US11393461B2 (en) * 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
CN104080024B (zh) * 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
WO2015037969A1 (ko) * 2013-09-16 2015-03-19 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
JP6176055B2 (ja) * 2013-10-21 2017-08-09 富士通株式会社 音声検索装置及び音声検索方法
US20160267924A1 (en) * 2013-10-22 2016-09-15 Nec Corporation Speech detection device, speech detection method, and medium
US9916844B2 (en) * 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
JP2015222847A (ja) * 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN104143335B (zh) * 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
TWI566242B (zh) * 2015-01-26 2017-01-11 宏碁股份有限公司 語音辨識裝置及語音辨識方法
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
US20170140750A1 (en) * 2015-11-17 2017-05-18 Le Holdings (Beijing) Co., Ltd. Method and device for speech recognition
US10275690B2 (en) * 2016-04-21 2019-04-30 Sas Institute Inc. Machine learning predictive labeling system

Also Published As

Publication number Publication date
US20170040030A1 (en) 2017-02-09
JP2017032857A (ja) 2017-02-09
US10622008B2 (en) 2020-04-14

Similar Documents

Publication Publication Date Title
JP6501259B2 (ja) 音声処理装置及び音声処理方法
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
JP6501260B2 (ja) 音響処理装置及び音響処理方法
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
Papadopoulos et al. Long-term SNR estimation of speech signals in known and unknown channel conditions
JP6532021B2 (ja) 音声処理装置及び音声処理方法
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
Van Segbroeck et al. Rapid language identification
Agrawal et al. Prosodic feature based text dependent speaker recognition using machine learning algorithms
Park et al. Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
JP6487650B2 (ja) 音声認識装置及びプログラム
JP2009020460A (ja) 音声処理装置およびプログラム
Poorjam et al. A parametric approach for classification of distortions in pathological voices
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
Grewal et al. Isolated word recognition system for English language
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP5083951B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190313

R150 Certificate of patent or registration of utility model

Ref document number: 6501259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150