JP4881625B2 - 音声検出装置及び音声検出プログラム - Google Patents

音声検出装置及び音声検出プログラム Download PDF

Info

Publication number
JP4881625B2
JP4881625B2 JP2006027174A JP2006027174A JP4881625B2 JP 4881625 B2 JP4881625 B2 JP 4881625B2 JP 2006027174 A JP2006027174 A JP 2006027174A JP 2006027174 A JP2006027174 A JP 2006027174A JP 4881625 B2 JP4881625 B2 JP 4881625B2
Authority
JP
Japan
Prior art keywords
speech
voice
mora
word
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006027174A
Other languages
English (en)
Other versions
JP2007206524A (ja
Inventor
直樹 関根
圭祐 吉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2006027174A priority Critical patent/JP4881625B2/ja
Publication of JP2007206524A publication Critical patent/JP2007206524A/ja
Application granted granted Critical
Publication of JP4881625B2 publication Critical patent/JP4881625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声動作型音声記録装置等の前処理として入力信号中の音声区間を検出する音声検出装置及び音声検出プログラムに関する。
近年、様々な機器を音声によって操作したり、入力手段としてキーボードなどの代わりに音声を用いる音声認識の技術が用いられている。音声認識は、入力信号から音声区間を抽出し、抽出された音声区間の入力信号から音声の特徴量(ケプストラム等)を計算し、予め用意してある標準パターンと比較した上で、類似度の高いものを算出するという仕組みで動いている。ここで、入力信号から実際に人の音声が含まれる音声区間の検出に失敗すると、標準パターンにマッチせず、誤認識を引き起こす原因になる。特に、促音や撥音の音量は、誤検出しやすい。
この問題に対し、音声認識結果の類似度(累積尤度)を検証し、誤った終端だと判断した場合、音声区間の検出を継続させる方法が知られている(例えば、特許文献1参照)。
特開2001−242879号公報
ところが、「キットカット」、「ハンバーグセット」といった促音又は撥音を複数含む語彙を発声すると、「ッ」や「ン」の音声がユーザに無音すなわち非音声となるため「キッ/トカッ/ト」、「ハン/バーグセッ/ト」のように複数に切れてしまい、特許文献1に記載されたものでは、その度に認識結果の類似度を検証し、音声区間の検出を継続しなければならない。そのため、複数回の検証時間を要するため、音声認識のリアルタイム性が損なわれ、安定した音声区間の検出が得られ難いという問題が生じる。
本発明は上記事情に鑑みてなされたものであって、その目的は、検証時間を短くして音声認識のリアルタイム性を保持し、安定した音声区間の検出を行うことができる音声認識装置及び音声認識プログラムを提供することにある。
本発明は、取り込まれた入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求め、この音声分析手段で求められた音声の特徴ベクトルを用いて音声の始端及び終端を検出し、音声区間の始端が検出されてから終端が検出されるまでの間、算出された特徴ベクトルと予め各単語の標準モデルの各状態と認識単位とを関連付けて格納する標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出し、音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら検出された終端は非音声区間を終端と誤検出されたものと判定する音声検出装置において、促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算するとともに検出された始端と終端から音声区間の継続時間を計算し、終端を誤検出したと判断された場合、算出された音声継続時間を部分単語のモーラ数で割ることにより1モーラ当たりの時間長を算出し、算出された完全単語のモーラ数に1モーラ当たりの時間長を掛けることにより完全単語の継続発音長を推定し、検出された始端から継続発音長が経過した位置として検出すべき音声区間の終端を計算するものである。
本発明によると、検証時間を短くして音声認識のリアルタイム性を保持し、安定した音声区間の検出を行うことができる音声認識装置及び音声認識プログラムを提供できる。
以下、本発明の各実施の形態について図面を参照して説明する。
(第1の実施の形態)
図1は本発明の第1の実施形態に係る音声検出装置100の構成を示している。図1の音声検出装置100は、計算処理を実行するCPU11、制御プログラムを記憶するROM12、情報を記憶するRAM13、音声を検出しその音声を認識するめの各種制御プログラムや各種データを記憶するHDD14、音声入力デバイスを含む入出力デバイス15で構成される。
HDD14には、詳細は後述する音声入力制御プログラム、音声分析制御プログラム、音声検出制御プログラム、音声認識制御プログラム、音声区間検証プログラム、モーラ数計算制御プログラム、音声継続時間計算制御プログラム、フィードバック制御プログラム等が記憶されている。CPU11がこれら制御プログラムをHDD14から読み出し、RAM13を用いて実行することにより、音声検出装置100は、音声入力機能、音声分析機能、音声検出機能、音声認識機能、音声区間検出機能、モーラ数計算機能、音声継続時間計算機能、フィードバック機能等を実現できるようになっている。
また、HDD14は、標準モデル記憶部14a、単語テーブル記憶部14bが記憶されている。図2は、標準モデル記憶部14aの一例を示す図である。図2に示すように、認識対象となる単語の標準モデルの各状態と認識単位である所定数(例えば、35)に分割された音素とを関連付けた形で記憶されている。図3は単語テーブル記憶部14bに記憶される単語テーブルの一例を示す図である。図3に示すように、部分単語と完全単語が関連付けられた形で記憶されている。例えば、部分単語「き」、「きっとか」と対応して完全単語「きっとかっと」が記憶されている。
次に、音声検出装置100で音声を検出し音声を認識するための処理について説明する。図4は、当該処理の要部を示すフローチャートである。
先ず、入出力デバイス15からある一定時間(以下、フレームと称する。)のアナログの音声信号が入力されると、その入力されたアナログ信号がディジタル信号に変換され、ディジタル化された音声信号が得られる(ST11,音声入力手段)。続いて、ディジタル化された音声信号により、1フレーム毎に音響分析が行われ、音響分析の結果得られた音声の特徴ベクトルが得られる(ST12,音声分析手段)。そして、ステップST12で算出された音声の特徴ベクトルの少なくとも一つにより、入力信号が音声であるか非音声であるかが判定され、非音声から音声への判定が変化する時刻が音声の始端、逆に音声から非音声へ判定が変化する時刻が終端と決定され、音声の始端位置及び終端位置(すなわち、音声区間)が検出される(ST13,音声検出手段)。このように検出された音声の始端位置及び終端位置はRAM13に記憶される。
次に、前記始端位置が決定されると、検出された音声の始端位置及び終端位置により音声区間であるか否かが判断され(ST14)、音声区間でないと判断されると(ST14でNO)、ステップST11へ戻る。一方、音声区間中であると判断されると(ST14でYES)、1フレーム毎に詳細は後述する音声認識が実行され(ST15,音声認識手段)、終端位置が検出されたか否かが判断される(ST16)。終端位置が検出されたと判断されると(ST16でYES)、現フレームでの累積尤度をもとに区間検出の検証を行い(ST17,音声区間検証手段)、区間検証を継続するか、あるいは終了するかといった区間検証が正しいか否かの判定が行われる(ST18)。
終端位置が誤検知と判断され(ST18でNO)、すなわち、区間検証の継続指示が出た場合、モーラ数が計算され(ST19,モーラ数計算手段)、音声の継続時間が計算される(ST20,音声継続時間計算手段)。そして、このように計算されたモーラ数及び継続時間に基づいて、正確な終端位置が算出され、その算出された正確な音声の終端位置がRAM13に保存される。このようにRAM13に保存された終端位置は音声検出処理を行う際に参照されるため、正確な終端位置としてフィードバックされることとなる(ST21,フィードバック手段)。尚、算出された正確な音声の終端位置を再度音声検出処理によって処理する際に参照されるため本手段をフィードバック手段と名付けているが、処理自体は正確な終端位置をRAMに記憶するまでであるので、終端位置計算手段としてもよい。
以下では、上記音声認識処理(ST15)、音声区間検証処理(ST17)、モーラ数計算処理(ST19)、音声継続時間計算処理(ST20)、フィードバック処理(ST21)についてそれぞれ説明する。
先ず、音声認識処理について説明する。音声認識の手法についてはいかなるものについても対応可能であるが、本実施の形態では、HMM(Hidden Markov Model)を用いた方法を用いて説明する。HMMを用いた方法とは、音声信号を表すモデルの状態系列を複数個用意しておき、入力信号がどのモデルから生成されたのかを求めるものである。具体的には、ある状態から別の状態に遷移するときに、次にどの状態に遷移するのが、一番尤度が高いかを求め、その尤度を状態が遷移する(自己遷移も含む)毎に累積させることによって、最終的に累積尤度がもっとも大きいものが認識結果となる方法である。認識の単位としては、単語毎や音素毎といった方法がある。説明上、上記図2で説明したように、音声を音素に分けたものを認識単位とし、音素毎の累積尤度を求める方法をとるが、これに限らない。
音声認識処理は、前記音声検出処理で音声区間の始端が検出されてから終端が検出されるまでの間実行され、前記音声分析処理で算出された音声の特徴ベクトルに基づいて、現フレームでの累積尤度及びその累積尤度に対応する音素を認識する。具体的には、1フレーム毎に入力音声の特徴ベクトルと所定数(例えば35個)の音素の特徴ベクトルをマッチングさせ、それぞれの音素との尤度を求める。また、前フレームでの累積尤度に、現フレームで算出された尤度を足し合わせることによって、累積尤度を更新する。また、標準モデル記憶部14aに格納されている各状態とそれに対応する音素とが関連付けられた標準モデルをもとに、現フレームの音声は、どの単語のどの状態である可能性が高いかということを判定する。
次に音声区間検証処理について説明する。前記音声認識処理で算出された累積尤度及び音素により終端を正常に検出したか、あるいは誤検出したかを出力する。前記音声検出処理によって終端が検出された後、認識された単語、または、検出された終端が音声区間の途中の状態であるために部分的な単語になっている単語(以下、部分単語)に対する累積尤度を大きい順に並び替える。並び替えた結果、最大尤度となる単語あるいは部分単語の中に、促音や撥音を最終音素とする部分単語が含まれていたら、検出された終端は促音のユーザな無音すなわち非音声区間を終端と誤検出されたものと判定する。
上記図3を例にとれば、発話が完全単語である「きっとかっと」であり、「き/」の発声後で終端が検出された場合、音声区間検証処理は、音声認識処理の認識結果候補中から、部分単語の中に促音が含まれる「きっ」を見つけ、終端が誤検知されたと判定する。
従来の音声検出装置100では、音声検出処理へ終端の継続指示が出されるが、「きっとか/」で再度終端が検出され、再度累積尤度の計算を行い、音声区間検証処理による判断を仰がなければならず計算時間を要するが、本実施の形態の音声検出装置100は音声区間検証処理で誤検知と判定した後、モーラ数計算処理で計算するモーラ数と音声継続時間計算処理で計算する継続時間を用いて、正確な終端位置を計算する。なお、図4ではモーラ数計算処理でモーラ数の計算を行った後音声継続時間計算処理で継続時間を計算する場合で説明しているが、処理の順序は逆でもよい。
モーラ数計算処理について説明する。上記音声区間検証処理で誤検知と判定された「き/」に対し、音声区間検証処理で用いた部分単語と部分単語を含む認識単語すなわち完全単語からモーラ数を算出する。本実施の形態では、部分単語として考えられる「き/」でモーラ数1、それを含む完全単語として「きっとかっと」のモーラ数6となり、これらがモーラ数計算処理の出力となる。なお、日本語を仮名書きしたとき音声学で言う拗音の構成要素である「ぁ」,「ぃ」,「ぅ」,「ぇ」,「ぉ」,「ゃ」,「ゅ」,「ょ」といった小さい仮名(「っ」を除く)以外のすべての仮名は、全て基本的に同じ長さで発音される。このひとつの単位がモーラと呼ばれる。具体的な計算方法の一例について、図5を参照して説明する。
図5は、モーラ数計算処理の具体例を示すサブフローチャートである。図5に示すように、先ず、部分単語の文字数A1が計算され(ST31)、部分単語に含まれる音声学で言う拗音の構成要素である「ぁ」,「ぃ」,「ぅ」,「ぇ」,「ぉ」,「ゃ」,「ゅ」,「ょ」の文字数B1が計算される(ST32)。そして、文字数A1の計算結果から文字数B1の計算結果が引かれ、部分単語のモーラ数が計算される(ST33)。続いて、完全単語の文字数A2が計算され(ST34)、完全単語に含まれる音声学で言う拗音の構成要素である「ぁ」,「ぃ」,「ぅ」,「ぇ」,「ぉ」,「ゃ」,「ゅ」,「ょ」の文字数B2が計算される(ST35)。そして、文字数A2の計算結果から文字数B2の計算結果が引かれ、完全単語のモーラ数が計算される(ST36)。このように計算された部分単語及び完全単語のモーラ数はRAM13に保存され、フィードバック処理で用いられる。
次に音声継続時間計算処理について説明する。音声継続時間計算処理は、誤検知と判定された「き/」までの音声に対し、継続時間を算出する。既に音声検出処理において始端位置と誤った終端位置は確定しているため、説明上、始端位置をs(ms)、終端位置をe(ms)と表記すれば、「き/」までの継続時間は(e-s)msと考えられる。このように計算された計算結果である継続時間(e-s)msは、RAM13に保存され、フィードバック処理で用いられる。具体的な計算方法の一例について、図6を参照して説明する。
図6は、音声継続時間計算処理の具体例を示すフローチャートである。図6に示すように、先ず、音声検出処理で求められた始端位置が変数sに代入され(ST41)、終端位置が変数eに代入される(ST42)。そして、音声継続時間がe-sにより求められる(ST43)。
次にフィードバック処理について説明する。フィードバック処理は、モーラ数計算処理で計算されたモーラ数と音声継続時間計算処理で計算された継続時間を元に、終端位置を推定する処理を行う。すなわち、音声継続時間計算処理で計算された継続時間長をモーラ数計算処理で計算された部分単語のモーラ数で割ることにより、1モーラ当たりに要した時間長を算出する。続いて、モーラ数計算処理により計算された完全単語のモーラ数に、1モーラ当たりに要した時間長を掛けることにより、完全単語の継続発話長を推定することが出来る。本実施の形態においては、「き/」に要した時間が(e-s)ms、モーラ数1により、1モーラ当たり(e-s)msの時間を要し、完全単語である「きっとかっと」がモーラ数6であることにより、実際は6×(e−s)ms時間、発話の長さがあると推測出来る。従って、正しい終端位置は{6×(e−s)+s}msであると推測できる。更に、フィードバック処理は、このように計算された正しい終端位置を、音声検出処理で検出されてRAM13に保存された終端位置に保存し、算出した正確な終端位置を音声検出処理にフィードバックさせる。
図6は、フィードバック部の処理を示すフローチャートである。図6に示すように、音声継続時間を部分単語のモーラ数で割り1モーラあたりの継続時間が求められ(ST51)、この1モーラあたりの継続時間に完全単語のモーラ数が乗算されることにより発話の長さが求められる(ST52)。そして、始端位置に発話の長さが加算され正しい終端位置が求められる(ST53)。このようにした求められた正確な終端位置は、音声検出処理で検出されてRAM13に保存された終端位置に保存される。
そして、音声検出処理はフィードバック処理によりRAM13に保存された正しいと推測される終端位置に基づき音声区間を再度切り出し、音声認識処理は再度切り出した音声区間により音声認識を行うことができる。その結果、音声認識処理により、ユーザにより発話された「きっとかっと」を正確に、かつ従来法よりも計算時間を短縮することで認識が可能になる。
なお、モーラ数計算処理により完全単語が見つかっていれば既に音声認識を行わずともいいと判断されがちだが、本来音声でない信号が、モーラ数が少ない部分単語にマッチしてしまう現象はよく起こるものであり、例えば、金属音が誤って「き」にマッチしてしまった場合完全単語である「きっとかっと」を、そのまま認識結果として信じてしまうと誤認識になる。音声検出装置100においても、フィードバック処理で算出される終端位置は誤りとなるが、再度音声認識を行うことで「きっとかっと」でないと判明し、誤認識を防ぐことが可能となる。
(第2の実施の形態)
次に、第2の実施の形態について述べる。この第2の実施の形態における音声検出装置は、HDD14にさらに単語テーブル記憶部14cが設けられている点及びモーラ数計算処理及びフィードバック処理が複数の候補を計算するようになっている点を除いて同様であるため、以下では、上記点を中心に説明する。
図8は単語テーブル記憶部14cに記憶される単語テーブルを示す図である。図8に示すように、当該単語テーブルは部分単語と完全単語が関連付けられた形で記憶されているが、1つの部分単語に対して複数の完全単語が記憶されている。例えば、図8に示すように、部分単語「は」に関連付けられて「はんばーぐ」、「はんばーぐせっと」が記憶されている。なお以下では、標準モデル記憶部14aに登録されている認識単語に「ハンバーグ」及び「ハンバーグセット」が含まれる場合を考える。
以下では、ユーザの発話が「はんばーぐ」であり、「は/」の発声後で終端位置が検出された場合で説明する。音声区間検証処理により、音声認識処理の認識結果候補中から、部分単語の中に撥音が含まれる「はん」を見つけ、終端位置が誤検知されたと判定する。
このように終端位置が誤検知されると、モーラ数計算処理は、誤検知と判定された「は/」に対し、音声区間検証処理で用いた部分単語と部分単語を含む認識単語すなわち完全単語からモーラ数を計算する。本実施の形態では、部分単語として考えられる「は/」でモーラ数1、それを含む完全単語として「はんばーぐ」のモーラ数5であるが、更に完全単語の候補として「はんばーぐセット」が想定されるため、当該完全単語のモーラ数8も、モーラ数として計算される。これらモーラ数5、モーラ数8はRAM13に保存される。具体的な計算方法の一例について図9を参照して説明する。
図9は、モーラ数計算処理を示すフローチャートである。なお、ステップST61からST63は上記ST31からST33と,ST67からST69はST34からST36と同様な処理であるため、これらの処理については説明を省略する。
部分単語のモーラ数が計算されると(ST61からST63)、図8で説明した単語テーブル記憶部14cの単語テーブルを参照することにより、完全単語の候補有りか否かが判断される(ST64)。完全単語の候補がなければ(ST64でNO)処理を終了する。一方、完全単語の候補有りと判断されると(ST64でYES)、完全単語の候補数Cが変数Nに代入される(ST65)。そして、変数Cが0である否かが判断される(ST66)。変数Cが0でなければ(ST66でNO)、完全単語のモーラ数が計算され(ST67からST69)、変数Cがデクリメントされる(ST70)。そして、ステップST66の処理へ戻る。ステップST66で変数Cが0であると(ST66でYES)、候補となる全ての完全単語のモーラ数が計算されたことになるため処理を終了する。これら計算した部分単語及び複数の完全単語のモーラ数は、RAM13に記憶されフィードバック処理で用いられる。
フィードバック処理は、RAM13に記憶された候補となる複数の完全単語のモーラ数とともに、音声継続時間計算処理(ST20)により計算された継続時間を元に、終端位置を推定する処理を行う。音声継続時間計算処理により計算された継続時間長を、モーラ数計算処理で計算された部分単語のモーラ数で割ることにより、1モーラ当たりに要した時間長が算出される。モーラ数計算処理で計算された完全単語のモーラ数に、1モーラ当たりに要した時間長を掛けることにより、完全単語の継続発話長を推定することが出来る。
ただし、本実施の形態では完全単語が複数存在するため、複数個の完全単語の継続発話長を計算する。実際、本実施の形態において、「は/」に要した時間が(e-s)ms、モーラ数1により、1モーラ当たり(e-s)msの時間を要し、完全単語である「はんばーぐ」についてはモーラ数5であることにより、実際は5×(e-s)ms時間、発話の長さがあると推測出来る。一方、完全単語のもう一つの候補である「はんばーぐせっと」については、モーラ数7であるから、実際は7×(e-s)ms時間、発話の長さがあると推測出来る。従って、正しい終端位置の候補として、e1={5×(e-s)+s}ms及びe2={7×(e-s)+s}msの2つが算出される。その算出された2つの音声の終端位置はRAM13に保存される。具体的な計算方法の一例を、図10を参照して説明する。
図10は、フィードバック処理の具体例を示すフローチャートである。なお、ステップST81,ST83,ST84の処理は、上記ステップST51,ST52,ST53とそれぞれ同様である。1モーラあたりの継続時間を求めると(ST81)、完全単語の候補有りか否かが判断され(ST82)、完全単語の候補有りと判断されると(ST82でYES)、発話の長さが計算され(ST83)、正しい終端位置が計算される(ST84)。このように正しいと推定される終端位置が計算されると、ステップST82の判断が再び行われる。これにより、複数の完全単語の候補について終端位置が計算される。そして、計算された終端位置e1、e2は、RAM13に保存される。
そして、音声検出処理はフィードバック処理によりRAM13に保存された複数の正しいと推測される終端位置ごとに音声区間を切り出し、音声認識処理は切り出した音声区間によりそれぞれ音声認識を行うことができる。
音声認識処理では、終端位置の候補e1及びe2それぞれで音声認識を行う。始端位置sから終端位置e1ではユーザ発声の「はんばーぐ」を認識結果として得られるが、始端位置sから終端位置e1ではユーザ発声に「セット」が含まれないため、認識結果が「はんばーぐセット」にはならない。
したがって、この第2の実施の形態の音声検出装置によると、部分単語から推測される完全単語が複数個ある場合でも、撥音が含まれた「はんばーぐ」を正確に検出することができ、かつ従来の音声検出よりも計算時間を短縮することが出来る。
上述した実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、CD−ROM等プログラムを記憶でき、かつ、装置が読取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように、予めインストールやダウンロードにより得る機能は装置内部のオペレーティングシステム(OS)等と協同してその機能を実現させるものであっても良い。
また、本発明は、上述した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化でき、また、実施の形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を変形できるものである。
本発明の第1の実施の形態における音声掲出装置を示すブロック図。 同実施の形態における標準単語モデルを示す図。 同実施の形態における単語テーブルを示す図。 同実施の形態における処理を示すフローチャート。 同実施の形態におけるモーラ数計算処理を示すフローチャート。 同実施の形態における音声継続時間計算処理を示すフローチャート。 同実施の形態におけるフィードバック処理を示すフローチャート。 本発明の第2の実施の形態における単語テーブルを示す図。 同実施の形態におけるモーラ数計算処理を示すフローチャート。 同実施の形態におけるフィードバック処理を示すフローチャート。
符号の説明
11…CPU、12…ROM、13…RAM、14…HDD、14a…標準モデル記憶部、14b,14c…単語テーブル記憶部、ST19…モーラ数計算手段,ST20…音声継続時間計算手段,ST21…フィードバック手段

Claims (4)

  1. 音声入力手段によって取り込まれた入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求める音声分析手段で求められた音声の特徴ベクトルを用いて音声の始端及び終端を検出する音声検出手段と、
    この音声検出手段で音声区間の始端が検出されてから終端が検出されるまでの間、前記音声分析手段で算出された特徴ベクトルと予め各単語の標準モデルの各状態と認識単位とを関連付けて格納した標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出する音声認識手段と、
    前記音声検出手段で音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら前記検出された終端は非音声区間を終端と誤検出されたものと判定する音声区間検証手段とを備えた音声検出装置において、
    促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算するモーラ数計算手段と、
    前記音声検出手段で検出された始端と終端から音声区間の継続時間である音声継続時間を計算する音声継続時間計算手段と、
    前記音声区間検証手段で終端を誤検出したと判断された場合、前記音声継続時間算出手段から算出された音声継続時間を前記モーラ数計算手段から算出された部分単語のモーラ数で割ることにより1モーラ当たりの時間長を算出し、前記モーラ数計算手段から算出された前記完全単語のモーラ数に前記1モーラ当たりの時間長を掛けることにより前記完全単語の継続発音長を推定し、前記音声検出手段で検出された始端から前記継続発音長が経過した位置として前記完全単語に関する前記音声検出手段が検出すべき前記音声区間の終端を計算するフィードバック手段とを備えたことを特徴とする音声検出装置。
  2. 前記モーラ数計算手段は、複数の完全単語のモーラ数を計算し、
    前記フィードバック手段は、前記モーラ数計算手段から算出された前記複数の完全単語のそれぞれのモーラ数に前記1モーラ当たりの時間長を掛けることにより前記複数の継続発音長を推定し、前記音声検出手段で検出された始端から前記複数の継続発音長がそれぞれ経過した位置として前記音声検出手段が検出すべき音声区間の終端の候補を複数計算することを特徴とする請求項1に記載の音声検出装置。
  3. コンピュータに、
    入力信号を一定時間ごとに音響分析して音声の特徴ベクトルを求めさせる音声分析機能で求めさせた音声の特徴ベクトルを用いて音声の始端及び終端を検出させる音声検出機能と、
    この音声検出機能で音声区間の始端が検出されてから終端が検出されるまでの間、前記音声分析機能で算出された特徴ベクトルと、予め各単語の標準モデルの各状態と認識単位とを関連付けて格納した標準モデル記憶手段に格納してある標準モデルとから累積尤度を算出させる音声認識機能と、
    前記音声検出機能で音声区間の終端が検出されたときに、最大尤度となる単語又は部分単語の中に促音又は撥音を最終の認識単位とする部分単語が含まれていたら前記検出された終端は非音声区間を終端と誤検出されたものと判定させる音声区間検証機能と、
    促音又は撥音を最終の認識単位とする最大尤度の部分単語及び該当部分単語を含む完全単語についてモーラ数を計算させるモーラ数計算機能と、
    前記音声検出機能で検出させた始端と終端から音声区間の継続時間である音声継続時間を計算させる音声継続時間計算機能と、
    前記音声区間検証機能で終端を誤検出したと判断させた場合、前記音声継続時間算出手段から算出された音声継続時間を前記モーラ数計算機能で算出させた部分単語のモーラ数で割ることにより1モーラ当たりの時間長を算出し、前記モーラ数計算機能から算出された前記完全単語のモーラ数に前記1モーラ当たりの時間長を掛けることにより前記完全単語の継続発音長を推定し、前記音声検出機能で検出された始端から前記継続発音長が経過した位置として前記完全単語に関する前記音声検出手段が検出すべき前記音声区間の終端を計算させるフィードバック機能とを実現させる音声検出プログラム。
  4. 前記モーラ数計算機能、複数の完全単語のモーラ数を計算するものとし
    前記フィードバック機能を、前記モーラ数計算から算出された前記複数の完全単語のそれぞれのモーラ数に前記1モーラ当たりの時間長を掛けることにより前記複数の継続発音長を推定し、前記音声検出機能で検出された始端から前記複数の継続発音長がそれぞれ経過した位置として前記音声検出機能が検出すべき音声区間の終端の候補を複数計算するものとする請求項3に記載の音声検出プログラム。
JP2006027174A 2006-02-03 2006-02-03 音声検出装置及び音声検出プログラム Active JP4881625B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006027174A JP4881625B2 (ja) 2006-02-03 2006-02-03 音声検出装置及び音声検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006027174A JP4881625B2 (ja) 2006-02-03 2006-02-03 音声検出装置及び音声検出プログラム

Publications (2)

Publication Number Publication Date
JP2007206524A JP2007206524A (ja) 2007-08-16
JP4881625B2 true JP4881625B2 (ja) 2012-02-22

Family

ID=38486036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006027174A Active JP4881625B2 (ja) 2006-02-03 2006-02-03 音声検出装置及び音声検出プログラム

Country Status (1)

Country Link
JP (1) JP4881625B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60129796A (ja) * 1983-12-17 1985-07-11 電子計算機基本技術研究組合 音声入力装置
JPS60198596A (ja) * 1984-03-21 1985-10-08 電子計算機基本技術研究組合 音声入力装置
JPH07281692A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声認識装置
JPH10133678A (ja) * 1996-10-30 1998-05-22 Matsushita Electric Ind Co Ltd 音声再生装置

Also Published As

Publication number Publication date
JP2007206524A (ja) 2007-08-16

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP5739718B2 (ja) 対話装置
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP3803029B2 (ja) 音声認識装置
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP4986028B2 (ja) 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP4440502B2 (ja) 話者認証システム及び方法
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP4881625B2 (ja) 音声検出装置及び音声検出プログラム
JP2009116075A (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP3615088B2 (ja) 音声認識方法及び装置
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP4655184B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2975542B2 (ja) 音声認識装置
JP4236502B2 (ja) 音声認識装置
JP2000099070A (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
JP2005091504A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Ref document number: 4881625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3