JP4807261B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP4807261B2
JP4807261B2 JP2007001059A JP2007001059A JP4807261B2 JP 4807261 B2 JP4807261 B2 JP 4807261B2 JP 2007001059 A JP2007001059 A JP 2007001059A JP 2007001059 A JP2007001059 A JP 2007001059A JP 4807261 B2 JP4807261 B2 JP 4807261B2
Authority
JP
Japan
Prior art keywords
index value
input
unit
voice
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007001059A
Other languages
English (en)
Other versions
JP2008170505A (ja
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007001059A priority Critical patent/JP4807261B2/ja
Publication of JP2008170505A publication Critical patent/JP2008170505A/ja
Application granted granted Critical
Publication of JP4807261B2 publication Critical patent/JP4807261B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、利用者が発声した音声(以下「入力音声」という)を処理する技術に関し、特に、音声の特徴量を含む登録情報(辞書)の作成または更新、および登録情報内の特徴量と入力音声の特徴量との照合に関する。
発声者の正当性を認証する技術(話者認証)や複数の登録者のなかから発声者を特定する技術(話者識別)が従来から提案されている。話者認証や話者識別においては登録と照合とが実行される。登録の段階では入力音声から抽出された特徴量に基づいて登録情報が作成され、照合の段階では入力音声の特徴量と登録情報の特徴量とが照合される(例えば非特許文献1や非特許文献2)。
松井知子,「HMMによる話者認識」,電子情報通信学会技術研究報告,電子情報通信学会,1996年1月,SP95−111 p.17−24 早川昭二 外2名,「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」,電子情報通信学会論文誌,電子情報通信学会,1997年9月,A Vol.J80−1 No.9 p.1360−1367
しかし、登録時や照合時の入力音声が特徴量の抽出に適さない場合もある。例えば入力音声の時間長が短い場合には特徴量の適正な抽出が困難となる。また、入力音声が充分な時間長であっても、入力音声内の音素の個数が極端に少ない場合には、やはり特徴量の抽出の精度や情報量が低下する。特徴量が正確に抽出されない場合、登録情報は発声者の音声に固有な特徴から乖離した内容となるから、登録情報を利用した照合の精度が低下するという問題がある。以上の事情に鑑みて、本発明は、発声者の音声の特性を忠実に反映した登録情報を生成するという課題の解決をひとつの目的とする。
以上の課題を解決するために、本発明の第1の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定する判定手段と、判定手段が入力音声を適切と判定した場合に、入力音声の特徴量に基づいて、記憶手段への登録情報の格納または記憶手段内の登録情報の更新を実行する管理手段と、判定手段が入力音声を不適切と判定した場合に音素数の不足を報知する報知手段とを具備する。以上の構成によれば、判定手段が適切と判定した入力音声の特徴量が登録情報に反映されるから、入力音声の適否に拘わらず記憶手段の記憶の内容が変更される構成と比較して、利用者の音声の固有の特徴を忠実に反映した登録情報(辞書)を記憶手段に作成することが可能である。また、入力音声が不適切であることを報知手段が利用者に報知することで発声の改善が促進されるという利点がある。
本発明の第2の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、入力音声が照合のための音声として適切か否かを音素数指標値に基づいて判定する判定手段と、判定手段が適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する比較手段を具備する。以上の態様によれば、判定手段が適切と判定した入力音声について照合手段による照合が実行されるから、入力音声の適否に拘わらず入力音声が照合に利用される構成と比較して照合の精度が向上する。また、判定手段が入力音声を不適切と判定した場合に音素数の不足を報知する報知手段を具備する構成によれば、入力音声が不適切であることを報知手段が利用者に報知することで発声の改善が促進されるという利点がある。
以上の各態様に係る音声処理装置において、指標算定手段は、例えば、入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、音量と変化度とに応じた変化指標値を算定する算定手段と、変化指標値が閾値を越える回数を音素数指標値として計数する計数手段とを含む。以上の態様によれば、入力音声の音量と変化度とに基づいて音素数指標値が算定されるから、音量および変化度の一方のみに基づいて音素数指標値が算定される構成と比較して、入力音声の特性(音素数)を忠実に反映した音素数指標値を算定することが可能となる。また、音量と変化度との乗算に基づいて変化指標値が算定される態様によれば、無声音や雑音の影響を低減しながら入力音声の適否を高精度に判定することができる。
本発明の好適な態様においては、判定手段が入力音声を適切と判定した場合に限って入力音声から特徴量が抽出され、当該特徴量に基づいて管理手段が登録情報の格納または更新を実行する。もっとも、入力音声から特徴量を抽出する処理の有無と判定処理による判定の結果との関係は本発明において不問である。すなわち、入力音声の適否に拘わらず特徴量が抽出される構成であっても、管理手段による登録情報の格納または更新の有無が入力音声の適否に応じて決定されれば、利用者の音声の特徴を忠実に反映した登録情報が作成されるという本発明の所期の効果は奏される。ただし、入力音声が適切である場合に限って特徴量を抽出する構成においては、入力音声が不適切である場合に特徴量の抽出が省略されるから、入力音声の適否に拘わらず特徴量を抽出する構成と比較して、特徴量の抽出のための負荷が軽減されるという利点がある。
以上の各態様に係る音声処理装置は、登録情報を作成または更新する方法や特徴量を照合する方法としても特定される。例えば、本発明のひとつの態様に係る音声処理装置は、入力音声に含まれる音素の個数の指標値である音素数指標値を算定し、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定し、入力音声を適切と判定した場合に入力音声の特徴量に基づいて登録情報を作成または更新する。以上の方法によっても、本発明に係る音声処理装置と同様の作用および効果が奏される。
本発明に係る音声処理装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定する判定処理と、判定処理で入力音声を適切と判定した場合に入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、判定処理で入力音声を不適切と判定した場合に音素数の不足を報知する報知処理とを実行させる。
また、第2の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、入力音声が照合のための音声として適切か否かを音素数指標値に基づいて判定する判定処理と、判定処理で入力音声を適切と判定した場合に、入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する比較処理を実行させる。
以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
また、本発明のもうひとつの態様は、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する装置である。本態様に係る音声処理装置は、入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、音量と変化度とに応じた変化指標値を算定する算定手段と、変化指標値が閾値を越える回数を音素数指標値として計数する計数手段とを具備する。
<A:音声処理装置の構成および動作>
図1は、本発明のひとつの形態に係る音声処理装置の構成を示すブロック図である。音声処理装置100は、利用者が発声した音声の特徴量に基づいて当該利用者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音声処理装置100は、登録部10と照合部30と記憶装置50とを具備する。登録部10と照合部30とは、演算処理装置(CPU)がプログラムを実行することで実現される。なお、図1では登録部10と照合部30とを個別に図示したが、登録部10と照合部30とはひとつの演算処理装置によっても実現される。登録部10および照合部30の各々には収音機器62と入力装置64と出力装置66とが接続される。
記憶装置50は、話者認証に使用される辞書Dを記憶する。図2は、辞書Dの構成を示す概念図である。図2に示すように、辞書Dは、各々が別個の利用者に対応する複数の登録情報Rを含む。ひとつの登録情報Rは、各利用者に固有の識別情報Id(Id_1,Id_2,……)と利用者の音声の特徴を示す特徴量CA(CA_1,CA_2,……)とを含む。特徴量CAは、利用者に固有の数値である。本形態における特徴量CAは、利用者が発声した音声のケプストラムの時系列的なベクトル列である。図1の登録部10は、登録情報Rを生成して記憶装置50に格納する。
収音機器(例えばマイクロホン)62は、利用者が発声した入力音声VINの波形を示す音声信号SINを生成する。入力装置64は、利用者が操作する複数の操作子を含む。利用者は、入力装置64を適宜に操作することで、例えば自身の識別情報Idや音声処理装置100に対する各種の指示を入力する。出力装置66は、登録部10や照合部30による制御のもとに各種の情報を出力する。例えば登録部10や照合部30が指示した画像を表示する表示機器、または登録部10や照合部30が指示した音声を出力する放音装置(スピーカやヘッドホン)が出力装置66として好適に採用される。
照合部30は、登録情報Rを利用して話者認証を実行する手段である。特徴抽出部33は、特徴量CAと同種の特徴量CB(したがって本形態ではケプストラム)を音声信号SINから抽出する。選択部34は、入力装置64から入力された識別情報Idを含む登録情報Rを辞書Dのなかから選択する。比較部35は、特徴抽出部33が抽出した特徴量CBと選択部34が選択した登録情報R内の特徴量CAとを比較(照合)する。さらに詳述すると、比較部35は、特徴量CAと特徴量CBとの類似度(例えば距離や尤度)を算定するとともに類似度の大小に応じて利用者の正当性を認証する。比較部35による認証の結果は出力装置66に出力される。
次に、登録部10の具体的な構成および動作を説明する。利用者は、登録情報Rの作成に際して収音機器62に向けて発声する。この発生に伴なって生成された音声信号SINは図1の分割部112に入力される。分割部112は、音声信号SINを所定の時間長(例えば数十ミリ秒)のフレームに区分して順次に出力する。各フレームは時間軸上で相互に重なり合うように設定される。区間検出部114は、音声信号SINのうち実際に利用者が発声した区間(以下「発話区間」という)を検出する。例えば、区間検出部114は、音声信号SINの振幅(音量)が閾値を上回る区間を発話区間として検出する。発話区間に属するフレームの音声信号SINのみが選択的に区間検出部114を通過して指標算定部122および判定部124に出力される。
指標算定部122は、音声信号SINに基づいて音素数指標値Nを算定する。音素数指標値Nは、入力音声VINの発話区間に含まれる音素の個数の指標となる数値である。すなわち、入力音声VINに含まれる音素の個数が多いほど音素数指標値Nが増加するという傾向がある。
判定部124は、発話区間内の入力音声VINが特徴量CAの抽出(登録情報Rの作成)のための音声として適切か否かを判定する手段である。入力音声VIN(発話区間)内の音素の個数が少な過ぎると、特徴量CAが利用者の音声の特徴から乖離する場合や特徴量CAを抽出できない場合がある。そこで、本形態の判定部124は、指標算定部122が算定した音素数指標値Nに基づいて入力音声VINの適否を判定する。すなわち、判定部124は、音素数指標値Nが所定の閾値NTHを上回る場合(すなわち発話区間内の音素数が多い場合)には入力音声VINを適切と判定し、音素数指標値Nが閾値NTHを下回る場合(すなわち発話区間内の音素数が少ない場合)には入力音声VINを不適切と判定する。換言すると、判定部124は、利用者の音声の固有の特徴が充分に反映された特徴量CAを抽出し得る程度の個数の音素が入力音声VINに含まれるか否かを音素数指標値Nに基づいて判定する手段である。
特徴抽出部13は、判定部124が入力音声VINを適切と判定した場合に入力音声VINの特徴量CAを抽出する。判定部124が入力音声VINを不適切と判定した場合、特徴抽出部13は特徴量CAの抽出を実行しない。本形態の特徴量CAはケプストラムであるから、FFT(Fast Fourier Transform)処理などの周波数分析を含む各種の演算を実行する手段が特徴抽出部13として好適に採用される。管理部14は、特徴抽出部13が抽出した特徴量CAと入力装置64から入力された識別情報Idとに基づいて登録情報Rを作成して記憶装置50に格納する手段である。したがって、判定部124が適切と判定した入力音声VINの特徴量CAのみが登録情報Rに反映され、判定部124が不適切と判定した入力音声VINは登録情報Rに影響しない。
報知部15は、判定部124が入力音声VINを不適切と判定した場合にその旨を出力装置66から利用者に報知する手段である。すなわち、報知部15は、入力音声VINが不適切であることが音声や画像として出力装置66から利用者に報知されるように、出力装置66に対して音声信号や映像信号を出力する。さらに詳述すると、音素数の不足を通知するメッセージ(例えば「発声する文字数が足りません」といった文章)や多数の音素の発声を促すメッセージ(例えば「発声する文字数を増やして下さい」といった文章)が利用者に報知される。
図3は、指標算定部122の具体的な構成を示すブロック図である。また、図4は、図3の各部にて算定される数値が経時的に変化する様子を示すタイミングチャートである。図4においては、発話区間内の音声信号SIN(入力音声VIN)が併記されている。
図3に示すように、指標算定部122は、音量特定部21と変化度特定部23と算定部25と平滑化部27と計数部29とを含む。音量特定部21は、入力音声VINの音量Vをフレームごとに特定する手段である。例えばひとつのフレーム内における音声信号SINの強度の平均値が音量Vとして算定される。図4に示すように音量Vはフレームごとに刻々と変化する。
図3の変化度特定部23は、音量特定部21が算定した音量Vに基づいて変化度DVをフレームごとに算定する手段である。変化度DVは、相前後するフレーム間の音量の変化の程度を示す数値である。本形態の変化度特定部23は、音量Vの対数値を時間軸上の各フレームの時点にて微分した数値を変化度DVとして算定する。図4に示すように、変化度DVは、音量Vが急激に増大または減少する時点で瞬間的に変化する。
図3の算定部25は、音量Vと変化度DVとに応じた変化指標値A0を各フレームについて算定する手段である。本形態の算定部25は、ひとつのフレームにおける音量Vと変化度DVとの乗算値を変化指標値A0として算定する。平滑化部27は、変化指標値A0の時間軸上における微細な増減を平滑化する手段である。図4の部分aに示すように、変化度DV(さらに変化指標値A0)は、音量Vの急激な変動や音声信号SINの雑音などに起因して、短期間で複数回にわたって変動する場合がある。平滑化部27は、部分aのような不安定な変動を抑制する。
図3の計数部29は、発話区間内において変化指標値A0が所定の閾値ATHを上回る回数を音素数指標値Nとして計数する。本願発明者による試験によれば、変化度DVには、音素の先頭の時点にて瞬間的に増大するという傾向がある。したがって、入力音声VINの発話区間内の音素数が多いほど、変化指標値A0が閾値ATHを上回る回数は増加する。すなわち、音素数指標値Nは、発話区間内の音素の個数を反映した数値となる。
以上に説明したように、本形態においては、音素数指標値Nが閾値NTHを上回る入力音声VINの特徴量CAを含む登録情報Rのみが記憶装置50に格納される。すなわち、音素数の少ない入力音声VINは登録情報Rに反映されない。したがって、利用者の音声の固有の特徴を忠実に反映した辞書Dを作成することが可能である。また、入力音声VINが不適切である場合には出力装置66からの報知によって利用者に発声の改善(音素数の増加)が促されるから、以後の発声における音素数の不足の頻度が減少する。したがって、利用者の音声の固有の特徴を反映した特徴量CAを効率的に算定する(さらには利用者の音声の固有の特徴を忠実に反映した辞書Dを作成する)ことが可能となる。
また、本形態においては、入力音声VINの音量Vと変化度DVとに基づいて音素数指標値Nが算定されるから、音量Vおよび変化度DVの何れかに基づいて音素数指標値Nを算定する構成と比較して、入力音声VINに実際に含まれる音素数を忠実に音素数指標値Nに反映させることができる。本形態においては特に、音量Vと変化度DVとの乗算に基づいて音素数指標値Nが算定されるから、登録情報Rの作成に好適な入力音声VINを高精度に選別することが可能となる。さらに詳述すると以下の通りである。
無声音(無声子音)は有声音(有声子音や母音)と比較して特徴量(CA,CB)の高精度な抽出や照合が困難である。したがって、無声音を豊富に含む入力音声VINは不適切と判定される(すなわち音素数指標値Nが小さい数値となる)ことが望ましい。ここで、変化度DVは、無声音および有声音の何れであっても音素の先頭の時点で急激に増加するから、例えば変化度DVが所定値を上回る回数を音素数指標値Nとして算定する構成においては、入力音声VINが無声音を豊富に含む場合であっても音素数指標値Nは大きい数値となる。すなわち、無声音を豊富に含む入力音声VINが適切と判定される。
一方、本形態においては、変化度DVに音量Vを乗算した変化指標値A0に基づいて音素数指標値Nが算定される。無声音は有声音と比較して音量Vが小さいから、入力音声VINのうち無声音の区間における変化指標値A0は、閾値ATHを下回る程度に抑制される。したがって、入力音声VINが無声音を豊富に含む場合の音素数指標値Nは小さい数値となる。すなわち、本形態によれば、有声音の音素を豊富に含む入力音声VINのみが適切と判定されるから、利用者の音声の固有の特徴を忠実に反映した辞書Dを作成することが可能である。
また、音声信号SINに発生した雑音の影響で変化度DVが瞬間的に増加する場合がある。本形態においては変化度DVに音量Vが乗算されることで、音量Vの小さいフレームに発生した雑音が低減される(すなわち変化指標値A0から雑音が排除される)。したがって、雑音の影響を低減しながら入力音声VINの適否を判定できるという利点もある。
<B:変形例>
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)音声処理装置100は、音声信号SINに基づいて発声者を識別する話者識別にも利用される。話者識別を実行する場合、照合部30の比較部35は、特徴抽出部33が抽出した特徴量CBを辞書Dの各登録情報Rの特徴量CAと比較し、特徴量CBに最も類似する特徴量CAを探索する。そして、比較部35は、ここで探索した特徴量CAに対応する識別情報Idを記憶装置50から取得して出力装置66に出力する。すなわち、事前に登録情報Rを作成した複数の利用者のなかから実際に入力音声VINを発声した利用者が識別される。
音声処理装置100においては、以上の形態について説明したように音素数指標値Nが閾値NTHを上回る入力音声VINのみが登録情報Rに反映されるから、利用者の音声の固有の特徴を忠実に反映した辞書Dが作成される。したがって、入力音声VINの適否に拘わらず入力音声VINが登録情報Rに反映される構成と比較して高い精度で利用者を識別することが可能となる。
(2)指標算定部122が音素数指標値Nを算定する方法は適宜に変更される。例えば、音量Vが所定値を上回る回数を音素数指標値Nとして算定する構成や、変化度DVが所定値を上回る回数を音素数指標値Nとして算定する構成も採用される。また、変化度特定部23が変化度DVを算定する方法は任意である。例えば、以上の形態では音量Vの対数値の微分値を変化度DVとした構成を例示したが、音量Vの微分値を変化度DVとした構成や、相前後するフレーム間の音量Vの差分値(変化量)を変化度DVとした構成も採用される。すなわち、変化度DVは、フレーム間の音量の変化に応じた数値であれば足りる。
算定部25による演算の内容は乗算に限定されない。例えば、音量Vおよび変化度DVの各々を個別に重み付けしたうえで加算することで変化指標値A0を算定する構成も採用される。すなわち、変化指標値A0は、音量Vおよび変化量DVに応じて変化する数値であれば足りる。また、図3の平滑化部27は適宜に省略される。
以上に説明したように、本発明の好適な態様に係る音声処理装置100の指標算定部122は、入力音声VINに含まれる音素の個数を反映した音素数指標値Nを算定する手段であれば足り、具体的な演算の内容や演算に使用される変数の如何は不問である。したがって、音素数指標値Nの数値が入力音声VINの音素の個数に厳密に合致している必要はない。すなわち、音素数指標値Nは、入力音声VINの音素の個数に応じて変動する数値であれば足りる。例えば、ひとつの音韻はひとつまたは複数の音素を含む(すなわち音韻数は音素数を反映する)から、入力音声VINの音韻の個数が音素数指標値Nとして算定される構成も採用される。
(3)以上の形態においては、特徴抽出部13による特徴量CAの抽出の有無が入力音声VINの適否に応じて制御される構成を例示したが、管理部14の動作(記憶装置50に対する登録情報Rの格納)の有無を入力音声VINの適否に応じて制御する構成としてもよい。すなわち、管理部14は、判定部124が入力音声VINを適切と判定した場合に登録情報Rを記憶装置50に格納し、判定部124が入力音声VINを不適切と判定した場合には記憶装置50に対する登録情報Rの格納を停止する。したがって、特徴抽出部13は、入力音声VINの適否に拘わらず(すなわち判定部124による判定から独立して)入力音声VINから特徴量CAを抽出する手段であってもよい。以上に説明したように、本発明の好適な態様においては、入力音声VINの特徴量CAに応じた登録情報Rを記憶装置50に格納する処理の有無が入力音声VINの適否に応じて制御される構成であれば足り、特徴量CAの抽出の有無と入力音声VINの適否との関係は不問である。
(4)以上の形態においては、登録情報Rの作成に使用される音声として入力音声VINが適切か否かを判定する構成を例示したが、この構成に代えて、またはこの構成とともに、照合時(話者認証や話者識別が実際に実行されるとき)の入力音声VINが適切か否かを音素数指標値Nに基づいて判定する構成を採用してもよい。図5に示すように、本変形例に係る照合部30は、特徴抽出部33と選択部34と比較部35とに加え、図1の登録部10と同様に分割部112と区間検出部114と指標算定部122と判定部124と報知部15とを具備する。
判定部124は、入力音声VINが照合のための音声として適切か否かを音素数指標値Nに基づいて判定する。さらに詳述すると、判定部124は、音素数指標値Nが閾値NTHを上回る場合(すなわち入力音声VINの音素数が多い場合)に入力音声VINを適切と判定し、音素数指標値Nが閾値NTHを下回る場合(すなわち入力音声VINの音素数が少ない場合)に入力音声VINを不適切と判定する。なお、指標算定部122による音素数指標値Nの算定の手順は以上の形態と同様である。
特徴抽出部33は、判定部124が入力音声VINを適切と判定した場合に入力音声VINの特徴量CBを抽出し、判定部124が入力音声VINを不適切と判定した場合には特徴量CBの抽出を実行しない。報知部15は、判定部124が入力音声VINを不適切と判定した場合にその旨を出力装置66から利用者に報知する。以上の構成によれば、入力音声VINが不適切と判定された場合に特徴量CBの抽出が実行されないから、入力音声VINの適否に拘わらず特徴量CBが抽出される構成と比較して特徴抽出部33の負荷が軽減されるという利点がある。
(5)以上の形態においては登録情報Rを新規に作成する場合を例示したが、既に作成された登録情報Rを更新する場合にも以上の形態を適用することが可能である。すなわち、登録部10の管理部14は、入力装置64から入力された識別情報Idを含む登録情報Rを辞書Dから検索し、特徴抽出部13が新たに抽出した特徴量CAに基づいて当該登録情報R内の特徴量CAを更新する。
本発明の実施の形態に係る音声処理装置の構成を示すブロック図である。 辞書の構成を示す概念図である。 指標算定部の具体的な構成を示すブロック図である。 音量Vおよび変化度DVが経時的に変化する様子を示すタイミングチャートである。 変形例に係る照合部の構成を示すブロック図である。
符号の説明
100……音声処理装置、10……登録部、112……分割部、114……区間検出部、122……指標算定部、124……判定部、13……特徴抽出部、14……管理部、15……報知部、30……照合部、33……特徴抽出部、34……選択部、35……比較部、50……記憶装置、62……収音機器、64……入力装置、66……出力装置。

Claims (4)

  1. 音声の特徴量を含む登録情報を記憶する記憶手段と、
    入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、
    前記入力音声が照合のための音声として適切か否かを前記音素数指標値に基づいて判定する判定手段と、
    前記判定手段が前記入力音声を適切と判定した場合に、前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する比較手段
    を具備する音声処理装置。
  2. 前記判定手段が前記入力音声を不適切と判定した場合に音素数の不足を報知する報知手段
    を具備する請求項1の音声処理装置。
  3. 前記指標算定手段は、
    前記入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、
    相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、
    前記音量と前記変化度との乗算値に基づいて変化指標値を算定する算定手段と、
    前記変化指標値が閾値を超える回数を前記音素数指標値として計数する計数手段と
    を含む請求項1または請求項2の音声処理装置。
  4. 音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
    入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、
    前記入力音声が照合のための音声として適切か否かを前記音素数指標値に基づいて判定する判定処理と、
    前記判定処理で前記入力音声を適切と判定した場合に、前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する比較処理
    を実行させるためのプログラム。
JP2007001059A 2007-01-09 2007-01-09 音声処理装置およびプログラム Expired - Fee Related JP4807261B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007001059A JP4807261B2 (ja) 2007-01-09 2007-01-09 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007001059A JP4807261B2 (ja) 2007-01-09 2007-01-09 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008170505A JP2008170505A (ja) 2008-07-24
JP4807261B2 true JP4807261B2 (ja) 2011-11-02

Family

ID=39698682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007001059A Expired - Fee Related JP4807261B2 (ja) 2007-01-09 2007-01-09 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4807261B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100960A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 認証装置および認証方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63292197A (ja) * 1987-05-25 1988-11-29 株式会社東芝 音声認識装置における語彙登録支援装置
JP3006790B2 (ja) * 1988-10-20 2000-02-07 日本電気株式会社 音声符号化復号化方法及びその装置
JPH0352058A (ja) * 1989-07-20 1991-03-06 Fujitsu Ltd 音声入力の文書処理装置
JP3961616B2 (ja) * 1996-05-22 2007-08-22 ヤマハ株式会社 話速変換方法および話速変換機能付補聴器
JP3039453B2 (ja) * 1997-06-06 2000-05-08 日本電気株式会社 音声認識装置
JPH11242582A (ja) * 1998-02-25 1999-09-07 Sharp Corp 文字入力装置及び文字入力プログラムを記録した記録媒体
JP2005173008A (ja) * 2003-12-09 2005-06-30 Canon Inc 音声解析処理およびそれを用いた音声処理装置および媒体
JP4699016B2 (ja) * 2004-12-13 2011-06-08 三菱電機株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2008170505A (ja) 2008-07-24

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
EP3314606B1 (en) Language model speech endpointing
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
Ferrer et al. Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US20160071520A1 (en) Speaker indexing device and speaker indexing method
US8473282B2 (en) Sound processing device and program
US8069039B2 (en) Sound signal processing apparatus and program
CN110222841A (zh) 基于间距损失函数的神经网络训练方法和装置
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP2009020460A (ja) 音声処理装置およびプログラム
Kaushik et al. Automatic detection and removal of disfluencies from spontaneous speech
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP2011053569A (ja) 音響処理装置およびプログラム
JP4807261B2 (ja) 音声処理装置およびプログラム
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
Lykartsis et al. Prediction of dialogue success with spectral and rhythm acoustic features using dnns and svms
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP2006010739A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110719

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110801

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4807261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees