JP3789246B2

JP3789246B2 - 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体

Info

Publication number: JP3789246B2
Application number: JP04730299A
Authority: JP
Inventors: 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-02-25
Filing date: 1999-02-25
Publication date: 2006-06-21
Anticipated expiration: 2019-02-25
Also published as: US6317711B1; JP2000250565A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【０００２】
【従来の技術】
一般的に音声認識装置は、先ず入力音声を特徴ベクトルの時系列である特徴パターンに変換し、その特徴パターンの一部の情報（通常はパワー）を用いて音声区間を決定し、その区間内の音声パターンを予め格納された音響モデルと比較して認識結果を得ている。
近年、不要語「えー」、「あのー」等が付加されている入力音声に対する音声認識の有効な手法として、ワードスポッティングという手法が実用化された。この手法は、発話の最初から終わりまでを逐次認識するのではなく、発話の中の一部のキーワードだけを抜き出して認識するという方式を用いているため、原理的には音声区間を決定する必要はない。しかし、実用に際しては、認識のタイミングを決定したり、あるいは認識範囲を限定するために音声区間を決定する必要がでてくる場合がある。また、入力された音声全体に対してこの手法を適用するには処理の負担が大きく、高速に認識結果を出すのは困難である。
【０００３】
この音声区間抽出方法には種々の方法がとられている。例えば、特開平１−２４４４９７号公報（以下、従来技術１という）には、音声の入力開始直後における入力信号の短時間の音声パワーの平均値を求め、この平均値と予め定められた定数をもとに音声区間を決定する技術が示されている。
【０００４】
また、特開平９−５０２８８号公報（以下、従来技術２という）には、入力された音声が予め定められた閾値よりも大きくなったところを音声区間の開始とし、閾値よりも小さくなったところを音声区間の終端と考えて、これにより有音区間を検出する技術が示されている。
【０００５】
【発明が解決しようとする課題】
しかしながら、従来技術１のような手法では、図１１で示したような音声の入力開始直後に比較的大きなノイズ（例えば、音声入力開始を指示するキーの押下された状態から戻るときの音を拾ったときのノイズ）がある場合には、平均値が大きくなるため音声の始端の子音（図１１のＡの部分）や終端の撥音（図１１のＢの部分）が検出できなくなる恐れがでてくる。
【０００６】
また、従来技術２の方法においても入力開始直後に生じるノイズを除去することはできない。
【０００７】
このような問題点を解決するために本発明では、音声入力開始の直後に比較的大きなノイズがあっても、適切な音声認識を行うための音声区間を検出することができる音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体を提供することを目的としている。
【０００８】
【課題を解決するための手段】
本発明の請求項１の音声区間検出装置は、入力信号における音声区間検出装置において、入力信号の音声パワーを求める音声パワー演算部と、該音声パワーの中での最小値を求める最小値検出部と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー（Ｐ）を求める正規化パワー計算部と、該正規化パワー（Ｐ）が予め定められた第１の閾値（ｐｔｈ１）以上になる時点を音声区間の始端候補（ＩＳ）とする始端候補判定部と、該始端候補（ＩＳ）以降第２の閾値時点（Ｌｔｈ１）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より大きくなったとき、該始端候補（ＩＳ）を音声区間の始端として確定する始端確定部と、を有することを特徴とするものである。
【０００９】
また、本発明の請求項２の音声区間検出装置は、請求項１記載の音声区間検出装置において、前記正規化パワー（Ｐ）が第４の閾値（ｐｔｈ４）以下になる時点を音声区間の終端候補（ＩＥ）とする終端候補判定部と、該終端候補（ＩＥ）以降第５の閾値時点（Ｌｔｈ２）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より小さいとき、該終端候補（ＩＥ）を音声区間の終端として確定する終端確定部と、を有することを特徴とするものである。
【００１０】
また、本発明の請求項３の音声区間検出方法は、入力信号における音声区間検出方法において、入力信号の音声パワーを求める工程と、該音声パワーの中での最小値を求める工程と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー（Ｐ）を求める工程と、該正規化パワー（Ｐ）が予め定められた第１の閾値（ｐｔｈ１）以上になる時点を音声区間の始端候補（ＩＳ）とする工程と、該始端候補（ＩＳ）以降第２の閾値時点（Ｌｔｈ１）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より大きくなったとき、該始端候補（ＩＳ）を音声区間の始端として確定する工程と、を有することを特徴とするものである。
【００１１】
また、本発明の請求項４の音声区間検出方法は、請求項３記載の音声区間検出方法において、前記正規化パワーが第４の閾値（ｐｔｈ４）以下になる時点を音声区間の終端候補（ＩＥ）とする工程と、該終端候補（ＩＥ）以降第５の閾値時点（Ｌｔｈ２）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より小さいとき、該終端候補（ＩＥ）を音声区間の終端として確定する工程と、を有することを特徴とするものである。
【００１２】
また、本発明の請求項５の音声認識装置は、音声を入力する音声入力部と、入力信号から音声区間を検出する請求項１または２記載の音声区間検出装置と、前記音声区間検出装置により検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う音声認識部とを備えることを特徴とするものである。
【００１３】
また、本発明の請求項６の音声認識方法は、音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とするものである。
また、本発明の請求項７の音声認識方法は、音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部に所定数の子音のフレームおよび後部に所定数の撥音のフレームをそれぞれ付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とするものである。
【００１４】
また、本発明の請求項８の記録媒体は、コンピュータが読み取り可能な記録媒体であって、コンピュータに、音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを実行させるためのプログラムを記録したことを特徴とするものである。
【００１５】
【発明の実施の形態】
以下、本発明の実施の形態における構成および動作原理について図面を用いて説明する。図１は、本発明の音声認識装置の構成例を示す図であり、図中、１は音声入力部、２は特徴抽出部、３は音声区間検出部、４は照合部、５は単語辞書である。
【００１６】
音声入力部１は、マイクロフォンによって入力された音声信号をＡ／Ｄ変換器（Analog to Digital Converter）によってディジタル信号へ変換する。特徴抽出部２は、音声のディジタル信号を音声特徴ベクトルの時系列に変換する。この変換方法には既存の各種の手法が利用できるが、ここではサンプリング周波数を８ｋＨｚとし、１０ｍｓごとに音声パワーと１０次のＬＰＣ（Linear Predictive Codeing）メルケプストラムを求めるようにして特徴ベクトルを生成する。
【００１７】
音声区間検出部３は、特徴抽出部２で得た入力が終了した時点までの音声パワーの中で最小値を検出し、音声パワーと最小値から正規化パワーを計算し、正規化パワーと予め定められた閾値とを比較して音声区間を検出する。照合部４は、検出された音声区間の内部の入力音声の特徴ベクトル列と単語辞書５に格納された単語の標準パターンとの照合を行って、各単語候補のスコアを計算し、認識結果を得る。なお、単語に限定せず文章であっても同様に認識することができる。単語辞書５は、認識用の複数の単語音声の特徴ベクトル等の情報がラベル付けされ、標準パターンとして格納されている。
【００１８】
以下、音声区間検出部３について、図２〜図７を参照して詳細に説明する。図２〜図６は、入力された音声を特徴ベクトルの時系列に変換し、この特徴ベクトル列のうち音声パワーをフレーム単位で時系列のはじめから順次後ろへとフレームを進めながら実行する処理を示すフローチャートである。この実行に先だって、次の設定値をそれぞれメモリ領域へ初期値として格納しておく。
・音声パワーの最小値（ｐｍｉｎ）を無限大に設定する。
・フレーム番号（ｉ）を最初のフレーム番号（ゼロ）に設定する。
・状態番号（ｓｔａｔｅ）を１に設定する。
【００１９】
ステップＳ１０：現在までに入力された音声パワーの最小値（ｐｍｉｎ）とフレームｉの音声パワーとを比較して、フレームｉの音声パワーの方が小さければ、ｐｍｉｎへフレームｉの音声パワーを格納する（現在までの最小値がｐｍｉｎへ格納される）。
ステップＳ２０：フレームｉの音声パワーと上記最小値（ｐｍｉｎ）とを用いて正規化パワーを求め、領域Ｐへ格納する。ここで正規化は、フレームｉの音声パワーから最小値（ｐｍｉｎ）を減算して求めるが、フレームｉの音声パワーと最小値（ｐｍｉｎ）との比によって求めても良い。
【００２０】
ステップＳ３０：状態番号（ｓｔａｔｅ）が１のときは、ステップＳ３１へ分岐し、そうでなければステップＳ４０へ移る。この状態番号の１は、音声区間検出部３が音声区間の始端の候補であるかどうかを判定する状態であることを示している。
ステップＳ４０：状態番号（ｓｔａｔｅ）が２のときは、ステップＳ４１へ分岐し、そうでなければステップＳ５０へ移る。この状態番号の２は、音声区間検出部３が音声区間の始端であることを決定する状態であることを示している。
ステップＳ５０：状態番号（ｓｔａｔｅ）が３のときは、ステップＳ５１へ分岐し、そうでなければステップＳ６１へ移る。この状態番号の３は、音声区間検出部３が音声区間の終端の候補であるかどうかを判定する状態であることを示している。
【００２１】
（１）音声区間始端候補の判定
ステップＳ３１：前の音声区間の終端のフレームから現フレームｉまでの経過のフレーム数が閾値Ｌｔｈ３以上になったときは、音声入力がすでになくなったものとして、音声区間検出部３の処理を終了して、照合部４へ移る。まだ、Ｌｔｈ３に満たないときにはステップＳ３２へ進む。ここで閾値Ｌｔｈ３は、認識対象が単語の場合には０.３秒程度、文章の場合は１秒程度の長さに対応したフレーム数に設定すれば良い。
【００２２】
ステップＳ３２：正規化パワー（Ｐ）が閾値ｐｔｈ１より大きいかを判定する。大きい場合には、ステップＳ３３へ分岐し、小さければ音声入力がないとして次のフレームを入力するためにこの処理を終了する。ここで閾値ｐｔｈ１は、“ｓ”や“ｈ”等の子音の平均音声パワー程度として設定する。
【００２３】
ステップＳ３３：正規化パワー（Ｐ）が閾値ｐｔｈ１より大きいときには、このフレームｉを音声区間の始端の候補とし、フレーム番号ｉを領域ＩＳへ格納する（ＩＳ←ｉ）。
ステップＳ３４：正規化パワー（Ｐ）を領域（ＰＰ）へ累積する（ＰＰ←ＰＰ＋Ｐ）。
ステップＳ３５：状態番号（ｓｔａｔｅ）を２に設定する。これにより始端候補ＩＳが本物かどうかチェックする段階へと移る。このあと次のフレームの入力のためにこの処理を終了する。
【００２４】
（２）音声区間始端の確定
ステップＳ４１：正規化パワー（Ｐ）が閾値ｐｔｈ２より大きいかを判定する。大きい場合はステップＳ４２へ、そうでなければステップＳ４３へ分岐する。ステップＳ４２：正規化パワー（Ｐ）を領域ＰＰへ累積し、ステップＳ４５へ移る（ＰＰ←ＰＰ＋Ｐ）。
ステップＳ４３：正規化パワー（Ｐ）が閾値ｐｔｈ１より小さいかを判定する。小さいときにはステップＳ４４へ、そうでないときにはステップＳ４５へ分岐する。
【００２５】
ステップＳ４４：累積パワー（ＰＰ）をゼロクリアする。
ステップＳ４５：始端候補のフレームＩＳから値Ｌｔｈ１フレーム分経過したときは、ステップＳ４６へ、そうでなければステップＳ４７へ分岐する。
ステップＳ４６：始端候補が見つかってから値Ｌｔｈ１フレーム経過後でも確定しないときには、この候補は単なるノイズということにして、候補をキャンセルし、次のフレームを入力するためにこの処理を終了する。（これは状態番号を１へ戻すことで実行する）。
【００２６】
ステップＳ４７：累積パワー（ＰＰ）が閾値ｐｔｈ３より大きいかを判定する。大きいときにはステップＳ４８へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで閾値ｐｔｈ３は、母音の平均音声パワーの３倍程度に設定すれば良い。
【００２７】
ステップＳ４８：先に求めた音声区間の始端の候補ＩＳを始端として確定する。次に終端を見つけるために状態番号（ｓｔａｔｅ）を３に設定し、次のフレームを入力するためにこの処理を終了する。
【００２８】
（３）音声区間終端候補の判定
ステップＳ５１：正規化パワー（Ｐ）が閾値ｐｔｈ４より小さいかを判定する。小さいときにはステップＳ５２へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで閾値ｐｔｈ４は母音の平均音声パワー程度に設定すれば良い。
【００２９】
ステップＳ５２：現フレームｉを音声区間の終端の候補として領域ＩＥへ格納する。
ステップＳ５３：終端候補を確定するためのチェック段階へ移るために、状態番号（ｓｔａｔｅ）を４に設定する。
ステップＳ５４：累積パワー（ＰＰ）をゼロクリアし、次のフレームを入力するためにこの処理を終了する。
【００３０】
（４）音声区間の終端の確定
ステップＳ６１：正規化パワー（Ｐ）が閾値ｐｔｈ２より大きいかを判定する。大きいときにはステップＳ６２へ、そうでないときにはステップＳ６３へ分岐する。
ステップＳ６２：正規化パワー（Ｐ）を領域ＰＰへ累積し、ステップＳ６５へ移る（ＰＰ←ＰＰ＋Ｐ）。
【００３１】
ステップＳ６３：正規化パワー（Ｐ）が閾値ｐｔｈ１より小さいかを判定する。小さいときにはステップＳ６４へ、そうでないときにはステップＳ６５へ分岐する。
ステップＳ６４：累積パワー（ＰＰ）をゼロクリアする。
ステップＳ６５：累積パワー（ＰＰ）が閾値ｐｔｈ３より大きいかを判定する。大きいときにはステップＳ６６へ、そうでないときにはステップＳ６７へ分岐する。
ステップＳ６６：累積パワー（ＰＰ）がまだ大きいときには終端になっていないと思われるので、候補を選びなおす。状態番号（ｓｔａｔｅ）を３へ戻し、次のフレームを入力するためにこの処理を終了する。
【００３２】
ステップＳ６７：終端候補ＩＥから値Ｌｔｈ２フレーム経過したときには、ステップＳ６８へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで値Ｌｔｈ２は０.３５秒程度の長さに対応するフレーム数を設定すれば良い。
【００３３】
ステップＳ６８：音声区間終端の候補ＩＥが終端として確定したので、状態番号（ｓｔａｔｅ）を１へ戻して、次のフレームの入力のためにこの処理を終了し、次の音声区間を検出させる。
【００３４】
図７は、この音声区間検出部３によって処理される過程における状態番号の変化の例を示す図である。この例では、結果として、２つの音声区間が検出されている。
【００３５】
本発明の音声認識装置は、上記のように音声区間検出部３で音声区間が検出された後、この区間についてのみ、ワードスポッティングによる音声認識を行う。例えば、「ＮＴの９８です。」と音声入力部１から入力するとき、音声認識開始のボタンを押下したときに、ボタンを離したときの音が先頭にあらわれて図８のような波形となり、２つの区間（区間１と区間２）が検出される。これらの区間についてそれぞれ照合部４で単語辞書５に登録された単語と照合されて、単語「ＮＴ」と「９８」とが認識される。
【００３６】
また、騒音が大きいときには音声パワーの大きさで騒音と子音や撥音を識別することが難しくなる。このような場合には、音声区間検出部３の閾値ｐｔｈ１の値を大きくすることによって、少なくとも発話中の母音だけを検出できる。このとき閾値ｐｔｈ１は母音の平均音声パワーの大きさ程度にすれば良い。この結果、検出される音声区間は図９の区間１のように発話区間よりも短いものとなる。このような場合、図９の区間２のように、検出された区間の前に子音（例えば、子音“ｈ”）のフレーム数、区間の後ろに撥音（例えば、撥音“ｎ”）のフレーム数程度を付加することで発話区間を正しい音声区間として扱うことができる。
【００３７】
また、このようにして最初に検出された音声区間の前後に所定のフレームを付加したときに、騒音が比較的小さく最初に検出した音声区間が正しかったときには、ワードスポッティングのための対象領域が多少増えるがスポッティングそのものの精度には影響は与えない。
【００３８】
図１０は、図１の音声認識装置のハードウェア構成例を示しており、例えばパーソナルコンピュータ等で実現される。音声は入力手段１１により入力され、音声認識結果は出力手段１２へ出力される。メモリ１４に記憶された本発明の機能を実現するプログラムをＣＰＵ１３で実行することにより全体の制御が行われる。また、メモリ１４はプログラムの実行中に使用される作業領域としても利用される。記憶手段１５は、音声認識のための単語辞書、本発明の機能を実現するプログラム、および作業領域等に用いられる。媒体駆動装置１６は、本発明の機能を実現するプログラムを記憶した記録媒体を装着して読み込み、メモリ１４または記憶手段１５へ格納するのに用いられる。
【００３９】
なお、記録媒体としては半導体媒体（例えば、ＲＯＭ，ＩＣメモリカード等）、光媒体（例えば、ＤＶＤ−ＲＯＭ，ＭＯ，ＭＤ，ＣＤ−Ｒ等）、磁気媒体（例えば、磁気テープ、フレキシブルディスク等）のいずれであってもよい。
【００４０】
また、本発明の機能を実現するプログラムは、媒体の形で提供されるのみならず、通信によって提供されるものであっても良い。
【００４１】
【発明の効果】
以上説明したように、本発明によれば、音声認識開始ボタンの押下等による突発性のノイズが音声入力の開始直後にある場合でも正しい音声区間（発話区間）を含む音声区間を検出することができる。
【００４２】
また、騒音と音声パワーの小さい子音や撥音とが音声パワーの値だけでは分離しにくいような場合であっても正確な音声区間が検出でき、正確な音声認識が可能となる。
【００４３】
また、本発明によれば、正しい発話区間を含む区間を検出することができるため、その区間内部をスポッティングすることで正確な認識結果を求めることができる。また、この区間だけを対象として認識するため認識処理の負担を軽減でき、音声認識の処理をより高速化することができる。
【図面の簡単な説明】
【図１】本発明の音声認識装置に関する全体構成図である。
【図２】本発明の音声区間検出部の処理の流れを説明するためのフローチャートである。
【図３】本発明の音声区間検出部の処理（音声区間始端候補の判定）の流れを説明するためのフローチャートである。
【図４】本発明の音声区間検出部の処理（音声区間始端の確定）の流れを説明するためのフローチャートである。
【図５】本発明の音声区間検出部の処理（音声区間終端候補の判定）の流れを説明するためのフローチャートである。
【図６】本発明の音声区間検出部の処理（音声区間の終端の確定）の流れを説明するためのフローチャートである。
【図７】本発明の音声区間検出部の処理状況を説明するための図である。
【図８】本発明の音声区間検出部とワードスポッティングによる音声認識の処理状況を説明するための図である。
【図９】本発明の音声区間検出部で音声区間の前後に所定のフレームを付加する処理を説明するための図である。
【図１０】本発明の音声認識装置を構成するハードウェア構成の一例を説明するための図である。
【図１１】従来の音声区間の検出例を説明するための図である。
【符号の説明】
１…音声入力部、２…特徴抽出部、３…音声区間検出部、４…照合部、５…単語辞書、１１…入力手段、１２…出力手段、１３…ＣＰＵ、１４…メモリ、１５…記憶手段、１６…媒体駆動装置。

Claims

入力信号における音声区間検出装置において、入力信号の音声パワーを求める音声パワー演算部と、該音声パワーの中での最小値を求める最小値検出部と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー（Ｐ）を求める正規化パワー計算部と、該正規化パワー（Ｐ）が予め定められた第１の閾値（ｐｔｈ１）以上になる時点を音声区間の始端候補（ＩＳ）とする始端候補判定部と、該始端候補（ＩＳ）以降第２の閾値時点（Ｌｔｈ１）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より大きくなったとき、該始端候補（ＩＳ）を音声区間の始端として確定する始端確定部と、を有することを特徴とする音声区間検出装置。
請求項１記載の音声区間検出装置において、前記正規化パワー（Ｐ）が第４の閾値（ｐｔｈ４）以下になる時点を音声区間の終端候補（ＩＥ）とする終端候補判定部と、該終端候補（ＩＥ）以降第５の閾値時点（Ｌｔｈ２）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より小さいとき、該終端候補（ＩＥ）を音声区間の終端として確定する終端確定部と、を有することを特徴とする音声区間検出装置。
入力信号における音声区間検出方法において、入力信号の音声パワーを求める工程と、該音声パワーの中での最小値を求める工程と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー（Ｐ）を求める工程と、該正規化パワー（Ｐ）が予め定められた第１の閾値（ｐｔｈ１）以上になる時点を音声区間の始端候補（ＩＳ）とする工程と、該始端候補（ＩＳ）以降第２の閾値時点（Ｌｔｈ１）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より大きくなったとき、該始端候補（ＩＳ）を音声区間の始端として確定する工程と、を有することを特徴とする音声区間検出方法。
請求項３記載の音声区間検出方法において、前記正規化パワーが第４の閾値（ｐｔｈ４）以下になる時点を音声区間の終端候補（ＩＥ）とする工程と、該終端候補（ＩＥ）以降第５の閾値時点（Ｌｔｈ２）までの正規化パワー（Ｐ）の累積値（ＰＰ）が第３の閾値（ｐｔｈ３）より小さいとき、該終端候補（ＩＥ）を音声区間の終端として確定する工程と、を有することを特徴とする音声区間検出方法。
音声を入力する音声入力部と、入力信号から音声区間を検出する請求項１または２記載の音声区間検出装置と、前記音声区間検出装置により検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う音声認識部とを備えることを特徴とする音声認識装置。
音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とする音声認識方法。
音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部に所定数の子音のフレームおよび後部に所定数の撥音のフレームをそれぞれ付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とする音声認識方法。
コンピュータが読み取り可能な記録媒体であって、コンピュータに、音声を入力する工程と、入力信号から請求項３または４記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを実行させるためのプログラムを記録したことを特徴とする記録媒体。