JP3789246B2 - 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 - Google Patents
音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 Download PDFInfo
- Publication number
- JP3789246B2 JP3789246B2 JP04730299A JP4730299A JP3789246B2 JP 3789246 B2 JP3789246 B2 JP 3789246B2 JP 04730299 A JP04730299 A JP 04730299A JP 4730299 A JP4730299 A JP 4730299A JP 3789246 B2 JP3789246 B2 JP 3789246B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- power
- candidate
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000001514 detection method Methods 0.000 title claims description 46
- 101150038337 PTH1 gene Proteins 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 101100031571 Danio rerio pth4 gene Proteins 0.000 claims description 6
- 239000005871 repellent Substances 0.000 claims description 5
- 230000002940 repellent Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 101100085152 Methanocaldococcus jannaschii (strain ATCC 43067 / DSM 2661 / JAL-1 / JCM 10045 / NBRC 100440) pth gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150102700 pth2 gene Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
一般的に音声認識装置は、先ず入力音声を特徴ベクトルの時系列である特徴パターンに変換し、その特徴パターンの一部の情報(通常はパワー)を用いて音声区間を決定し、その区間内の音声パターンを予め格納された音響モデルと比較して認識結果を得ている。
近年、不要語「えー」、「あのー」等が付加されている入力音声に対する音声認識の有効な手法として、ワードスポッティングという手法が実用化された。この手法は、発話の最初から終わりまでを逐次認識するのではなく、発話の中の一部のキーワードだけを抜き出して認識するという方式を用いているため、原理的には音声区間を決定する必要はない。しかし、実用に際しては、認識のタイミングを決定したり、あるいは認識範囲を限定するために音声区間を決定する必要がでてくる場合がある。また、入力された音声全体に対してこの手法を適用するには処理の負担が大きく、高速に認識結果を出すのは困難である。
【0003】
この音声区間抽出方法には種々の方法がとられている。例えば、特開平1−244497号公報(以下、従来技術1という)には、音声の入力開始直後における入力信号の短時間の音声パワーの平均値を求め、この平均値と予め定められた定数をもとに音声区間を決定する技術が示されている。
【0004】
また、特開平9−50288号公報(以下、従来技術2という)には、入力された音声が予め定められた閾値よりも大きくなったところを音声区間の開始とし、閾値よりも小さくなったところを音声区間の終端と考えて、これにより有音区間を検出する技術が示されている。
【0005】
【発明が解決しようとする課題】
しかしながら、従来技術1のような手法では、図11で示したような音声の入力開始直後に比較的大きなノイズ(例えば、音声入力開始を指示するキーの押下された状態から戻るときの音を拾ったときのノイズ)がある場合には、平均値が大きくなるため音声の始端の子音(図11のAの部分)や終端の撥音(図11のBの部分)が検出できなくなる恐れがでてくる。
【0006】
また、従来技術2の方法においても入力開始直後に生じるノイズを除去することはできない。
【0007】
このような問題点を解決するために本発明では、音声入力開始の直後に比較的大きなノイズがあっても、適切な音声認識を行うための音声区間を検出することができる音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体を提供することを目的としている。
【0008】
【課題を解決するための手段】
本発明の請求項1の音声区間検出装置は、入力信号における音声区間検出装置において、入力信号の音声パワーを求める音声パワー演算部と、該音声パワーの中での最小値を求める最小値検出部と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー(P)を求める正規化パワー計算部と、該正規化パワー(P)が予め定められた第1の閾値(pth1)以上になる時点を音声区間の始端候補(IS)とする始端候補判定部と、該始端候補(IS)以降第2の閾値時点(Lth1)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より大きくなったとき、該始端候補(IS)を音声区間の始端として確定する始端確定部と、を有することを特徴とするものである。
【0009】
また、本発明の請求項2の音声区間検出装置は、請求項1記載の音声区間検出装置において、前記正規化パワー(P)が第4の閾値(pth4)以下になる時点を音声区間の終端候補(IE)とする終端候補判定部と、該終端候補(IE)以降第5の閾値時点(Lth2)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より小さいとき、該終端候補(IE)を音声区間の終端として確定する終端確定部と、を有することを特徴とするものである。
【0010】
また、本発明の請求項3の音声区間検出方法は、入力信号における音声区間検出方法において、入力信号の音声パワーを求める工程と、該音声パワーの中での最小値を求める工程と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー(P)を求める工程と、該正規化パワー(P)が予め定められた第1の閾値(pth1)以上になる時点を音声区間の始端候補(IS)とする工程と、該始端候補(IS)以降第2の閾値時点(Lth1)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より大きくなったとき、該始端候補(IS)を音声区間の始端として確定する工程と、を有することを特徴とするものである。
【0011】
また、本発明の請求項4の音声区間検出方法は、請求項3記載の音声区間検出方法において、前記正規化パワーが第4の閾値(pth4)以下になる時点を音声区間の終端候補(IE)とする工程と、該終端候補(IE)以降第5の閾値時点(Lth2)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より小さいとき、該終端候補(IE)を音声区間の終端として確定する工程と、を有することを特徴とするものである。
【0012】
また、本発明の請求項5の音声認識装置は、音声を入力する音声入力部と、入力信号から音声区間を検出する請求項1または2記載の音声区間検出装置と、前記音声区間検出装置により検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う音声認識部とを備えることを特徴とするものである。
【0013】
また、本発明の請求項6の音声認識方法は、音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とするものである。
また、本発明の請求項7の音声認識方法は、音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部に所定数の子音のフレームおよび後部に所定数の撥音のフレームをそれぞれ付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とするものである。
【0014】
また、本発明の請求項8の記録媒体は、コンピュータが読み取り可能な記録媒体であって、コンピュータに、音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを実行させるためのプログラムを記録したことを特徴とするものである。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態における構成および動作原理について図面を用いて説明する。図1は、本発明の音声認識装置の構成例を示す図であり、図中、1は音声入力部、2は特徴抽出部、3は音声区間検出部、4は照合部、5は単語辞書である。
【0016】
音声入力部1は、マイクロフォンによって入力された音声信号をA/D変換器(Analog to Digital Converter)によってディジタル信号へ変換する。特徴抽出部2は、音声のディジタル信号を音声特徴ベクトルの時系列に変換する。この変換方法には既存の各種の手法が利用できるが、ここではサンプリング周波数を8kHzとし、10msごとに音声パワーと10次のLPC(Linear Predictive Codeing)メルケプストラムを求めるようにして特徴ベクトルを生成する。
【0017】
音声区間検出部3は、特徴抽出部2で得た入力が終了した時点までの音声パワーの中で最小値を検出し、音声パワーと最小値から正規化パワーを計算し、正規化パワーと予め定められた閾値とを比較して音声区間を検出する。照合部4は、検出された音声区間の内部の入力音声の特徴ベクトル列と単語辞書5に格納された単語の標準パターンとの照合を行って、各単語候補のスコアを計算し、認識結果を得る。なお、単語に限定せず文章であっても同様に認識することができる。単語辞書5は、認識用の複数の単語音声の特徴ベクトル等の情報がラベル付けされ、標準パターンとして格納されている。
【0018】
以下、音声区間検出部3について、図2〜図7を参照して詳細に説明する。図2〜図6は、入力された音声を特徴ベクトルの時系列に変換し、この特徴ベクトル列のうち音声パワーをフレーム単位で時系列のはじめから順次後ろへとフレームを進めながら実行する処理を示すフローチャートである。この実行に先だって、次の設定値をそれぞれメモリ領域へ初期値として格納しておく。
・音声パワーの最小値(pmin)を無限大に設定する。
・フレーム番号(i)を最初のフレーム番号(ゼロ)に設定する。
・状態番号(state)を1に設定する。
【0019】
ステップS10:現在までに入力された音声パワーの最小値(pmin)とフレームiの音声パワーとを比較して、フレームiの音声パワーの方が小さければ、pminへフレームiの音声パワーを格納する(現在までの最小値がpminへ格納される)。
ステップS20:フレームiの音声パワーと上記最小値(pmin)とを用いて正規化パワーを求め、領域Pへ格納する。ここで正規化は、フレームiの音声パワーから最小値(pmin)を減算して求めるが、フレームiの音声パワーと最小値(pmin)との比によって求めても良い。
【0020】
ステップS30:状態番号(state)が1のときは、ステップS31へ分岐し、そうでなければステップS40へ移る。この状態番号の1は、音声区間検出部3が音声区間の始端の候補であるかどうかを判定する状態であることを示している。
ステップS40:状態番号(state)が2のときは、ステップS41へ分岐し、そうでなければステップS50へ移る。この状態番号の2は、音声区間検出部3が音声区間の始端であることを決定する状態であることを示している。
ステップS50:状態番号(state)が3のときは、ステップS51へ分岐し、そうでなければステップS61へ移る。この状態番号の3は、音声区間検出部3が音声区間の終端の候補であるかどうかを判定する状態であることを示している。
【0021】
(1)音声区間始端候補の判定
ステップS31:前の音声区間の終端のフレームから現フレームiまでの経過のフレーム数が閾値Lth3以上になったときは、音声入力がすでになくなったものとして、音声区間検出部3の処理を終了して、照合部4へ移る。まだ、Lth3に満たないときにはステップS32へ進む。ここで閾値Lth3は、認識対象が単語の場合には0.3秒程度、文章の場合は1秒程度の長さに対応したフレーム数に設定すれば良い。
【0022】
ステップS32:正規化パワー(P)が閾値pth1より大きいかを判定する。大きい場合には、ステップS33へ分岐し、小さければ音声入力がないとして次のフレームを入力するためにこの処理を終了する。ここで閾値pth1は、“s”や“h”等の子音の平均音声パワー程度として設定する。
【0023】
ステップS33:正規化パワー(P)が閾値pth1より大きいときには、このフレームiを音声区間の始端の候補とし、フレーム番号iを領域ISへ格納する(IS←i)。
ステップS34:正規化パワー(P)を領域(PP)へ累積する(PP←PP+P)。
ステップS35:状態番号(state)を2に設定する。これにより始端候補ISが本物かどうかチェックする段階へと移る。このあと次のフレームの入力のためにこの処理を終了する。
【0024】
(2)音声区間始端の確定
ステップS41:正規化パワー(P)が閾値pth2より大きいかを判定する。大きい場合はステップS42へ、そうでなければステップS43へ分岐する。ステップS42:正規化パワー(P)を領域PPへ累積し、ステップS45へ移る(PP←PP+P)。
ステップS43:正規化パワー(P)が閾値pth1より小さいかを判定する。小さいときにはステップS44へ、そうでないときにはステップS45へ分岐する。
【0025】
ステップS44:累積パワー(PP)をゼロクリアする。
ステップS45:始端候補のフレームISから値Lth1フレーム分経過したときは、ステップS46へ、そうでなければステップS47へ分岐する。
ステップS46:始端候補が見つかってから値Lth1フレーム経過後でも確定しないときには、この候補は単なるノイズということにして、候補をキャンセルし、次のフレームを入力するためにこの処理を終了する。(これは状態番号を1へ戻すことで実行する)。
【0026】
ステップS47:累積パワー(PP)が閾値pth3より大きいかを判定する。大きいときにはステップS48へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで閾値pth3は、母音の平均音声パワーの3倍程度に設定すれば良い。
【0027】
ステップS48:先に求めた音声区間の始端の候補ISを始端として確定する。次に終端を見つけるために状態番号(state)を3に設定し、次のフレームを入力するためにこの処理を終了する。
【0028】
(3)音声区間終端候補の判定
ステップS51:正規化パワー(P)が閾値pth4より小さいかを判定する。小さいときにはステップS52へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで閾値pth4は母音の平均音声パワー程度に設定すれば良い。
【0029】
ステップS52:現フレームiを音声区間の終端の候補として領域IEへ格納する。
ステップS53:終端候補を確定するためのチェック段階へ移るために、状態番号(state)を4に設定する。
ステップS54:累積パワー(PP)をゼロクリアし、次のフレームを入力するためにこの処理を終了する。
【0030】
(4)音声区間の終端の確定
ステップS61:正規化パワー(P)が閾値pth2より大きいかを判定する。大きいときにはステップS62へ、そうでないときにはステップS63へ分岐する。
ステップS62:正規化パワー(P)を領域PPへ累積し、ステップS65へ移る(PP←PP+P)。
【0031】
ステップS63:正規化パワー(P)が閾値pth1より小さいかを判定する。小さいときにはステップS64へ、そうでないときにはステップS65へ分岐する。
ステップS64:累積パワー(PP)をゼロクリアする。
ステップS65:累積パワー(PP)が閾値pth3より大きいかを判定する。大きいときにはステップS66へ、そうでないときにはステップS67へ分岐する。
ステップS66:累積パワー(PP)がまだ大きいときには終端になっていないと思われるので、候補を選びなおす。状態番号(state)を3へ戻し、次のフレームを入力するためにこの処理を終了する。
【0032】
ステップS67:終端候補IEから値Lth2フレーム経過したときには、ステップS68へ、そうでなければ次のフレームを入力するためにこの処理を終了する。ここで値Lth2は0.35秒程度の長さに対応するフレーム数を設定すれば良い。
【0033】
ステップS68:音声区間終端の候補IEが終端として確定したので、状態番号(state)を1へ戻して、次のフレームの入力のためにこの処理を終了し、次の音声区間を検出させる。
【0034】
図7は、この音声区間検出部3によって処理される過程における状態番号の変化の例を示す図である。この例では、結果として、2つの音声区間が検出されている。
【0035】
本発明の音声認識装置は、上記のように音声区間検出部3で音声区間が検出された後、この区間についてのみ、ワードスポッティングによる音声認識を行う。例えば、「NTの98です。」と音声入力部1から入力するとき、音声認識開始のボタンを押下したときに、ボタンを離したときの音が先頭にあらわれて図8のような波形となり、2つの区間(区間1と区間2)が検出される。これらの区間についてそれぞれ照合部4で単語辞書5に登録された単語と照合されて、単語「NT」と「98」とが認識される。
【0036】
また、騒音が大きいときには音声パワーの大きさで騒音と子音や撥音を識別することが難しくなる。このような場合には、音声区間検出部3の閾値pth1の値を大きくすることによって、少なくとも発話中の母音だけを検出できる。このとき閾値pth1は母音の平均音声パワーの大きさ程度にすれば良い。この結果、検出される音声区間は図9の区間1のように発話区間よりも短いものとなる。このような場合、図9の区間2のように、検出された区間の前に子音(例えば、子音“h”)のフレーム数、区間の後ろに撥音(例えば、撥音“n”)のフレーム数程度を付加することで発話区間を正しい音声区間として扱うことができる。
【0037】
また、このようにして最初に検出された音声区間の前後に所定のフレームを付加したときに、騒音が比較的小さく最初に検出した音声区間が正しかったときには、ワードスポッティングのための対象領域が多少増えるがスポッティングそのものの精度には影響は与えない。
【0038】
図10は、図1の音声認識装置のハードウェア構成例を示しており、例えばパーソナルコンピュータ等で実現される。音声は入力手段11により入力され、音声認識結果は出力手段12へ出力される。メモリ14に記憶された本発明の機能を実現するプログラムをCPU13で実行することにより全体の制御が行われる。また、メモリ14はプログラムの実行中に使用される作業領域としても利用される。記憶手段15は、音声認識のための単語辞書、本発明の機能を実現するプログラム、および作業領域等に用いられる。媒体駆動装置16は、本発明の機能を実現するプログラムを記憶した記録媒体を装着して読み込み、メモリ14または記憶手段15へ格納するのに用いられる。
【0039】
なお、記録媒体としては半導体媒体(例えば、ROM,ICメモリカード等)、光媒体(例えば、DVD−ROM,MO,MD,CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
【0040】
また、本発明の機能を実現するプログラムは、媒体の形で提供されるのみならず、通信によって提供されるものであっても良い。
【0041】
【発明の効果】
以上説明したように、本発明によれば、音声認識開始ボタンの押下等による突発性のノイズが音声入力の開始直後にある場合でも正しい音声区間(発話区間)を含む音声区間を検出することができる。
【0042】
また、騒音と音声パワーの小さい子音や撥音とが音声パワーの値だけでは分離しにくいような場合であっても正確な音声区間が検出でき、正確な音声認識が可能となる。
【0043】
また、本発明によれば、正しい発話区間を含む区間を検出することができるため、その区間内部をスポッティングすることで正確な認識結果を求めることができる。また、この区間だけを対象として認識するため認識処理の負担を軽減でき、音声認識の処理をより高速化することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置に関する全体構成図である。
【図2】本発明の音声区間検出部の処理の流れを説明するためのフローチャートである。
【図3】本発明の音声区間検出部の処理(音声区間始端候補の判定)の流れを説明するためのフローチャートである。
【図4】本発明の音声区間検出部の処理(音声区間始端の確定)の流れを説明するためのフローチャートである。
【図5】本発明の音声区間検出部の処理(音声区間終端候補の判定)の流れを説明するためのフローチャートである。
【図6】本発明の音声区間検出部の処理(音声区間の終端の確定)の流れを説明するためのフローチャートである。
【図7】本発明の音声区間検出部の処理状況を説明するための図である。
【図8】本発明の音声区間検出部とワードスポッティングによる音声認識の処理状況を説明するための図である。
【図9】本発明の音声区間検出部で音声区間の前後に所定のフレームを付加する処理を説明するための図である。
【図10】本発明の音声認識装置を構成するハードウェア構成の一例を説明するための図である。
【図11】従来の音声区間の検出例を説明するための図である。
【符号の説明】
1…音声入力部、2…特徴抽出部、3…音声区間検出部、4…照合部、5…単語辞書、11…入力手段、12…出力手段、13…CPU、14…メモリ、15…記憶手段、16…媒体駆動装置。
Claims (8)
- 入力信号における音声区間検出装置において、入力信号の音声パワーを求める音声パワー演算部と、該音声パワーの中での最小値を求める最小値検出部と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー(P)を求める正規化パワー計算部と、該正規化パワー(P)が予め定められた第1の閾値(pth1)以上になる時点を音声区間の始端候補(IS)とする始端候補判定部と、該始端候補(IS)以降第2の閾値時点(Lth1)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より大きくなったとき、該始端候補(IS)を音声区間の始端として確定する始端確定部と、を有することを特徴とする音声区間検出装置。
- 請求項1記載の音声区間検出装置において、前記正規化パワー(P)が第4の閾値(pth4)以下になる時点を音声区間の終端候補(IE)とする終端候補判定部と、該終端候補(IE)以降第5の閾値時点(Lth2)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より小さいとき、該終端候補(IE)を音声区間の終端として確定する終端確定部と、を有することを特徴とする音声区間検出装置。
- 入力信号における音声区間検出方法において、入力信号の音声パワーを求める工程と、該音声パワーの中での最小値を求める工程と、該音声パワーと該最小値とを減算若しくは除算することにより正規化パワー(P)を求める工程と、該正規化パワー(P)が予め定められた第1の閾値(pth1)以上になる時点を音声区間の始端候補(IS)とする工程と、該始端候補(IS)以降第2の閾値時点(Lth1)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より大きくなったとき、該始端候補(IS)を音声区間の始端として確定する工程と、を有することを特徴とする音声区間検出方法。
- 請求項3記載の音声区間検出方法において、前記正規化パワーが第4の閾値(pth4)以下になる時点を音声区間の終端候補(IE)とする工程と、該終端候補(IE)以降第5の閾値時点(Lth2)までの正規化パワー(P)の累積値(PP)が第3の閾値(pth3)より小さいとき、該終端候補(IE)を音声区間の終端として確定する工程と、を有することを特徴とする音声区間検出方法。
- 音声を入力する音声入力部と、入力信号から音声区間を検出する請求項1または2記載の音声区間検出装置と、前記音声区間検出装置により検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う音声認識部とを備えることを特徴とする音声認識装置。
- 音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とする音声認識方法。
- 音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部に所定数の子音のフレームおよび後部に所定数の撥音のフレームをそれぞれ付加した区間を認識対象として音声照合を行う工程とを備えることを特徴とする音声認識方法。
- コンピュータが読み取り可能な記録媒体であって、コンピュータに、音声を入力する工程と、入力信号から請求項3または4記載の音声区間検出方法により音声区間を検出する工程と、検出された音声区間の前部および後部にそれぞれ所定のフレームを付加した区間を認識対象として音声照合を行う工程とを実行させるためのプログラムを記録したことを特徴とする記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04730299A JP3789246B2 (ja) | 1999-02-25 | 1999-02-25 | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
US09/503,750 US6317711B1 (en) | 1999-02-25 | 2000-02-14 | Speech segment detection and word recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04730299A JP3789246B2 (ja) | 1999-02-25 | 1999-02-25 | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000250565A JP2000250565A (ja) | 2000-09-14 |
JP3789246B2 true JP3789246B2 (ja) | 2006-06-21 |
Family
ID=12771502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04730299A Expired - Fee Related JP3789246B2 (ja) | 1999-02-25 | 1999-02-25 | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6317711B1 (ja) |
JP (1) | JP3789246B2 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19939102C1 (de) * | 1999-08-18 | 2000-10-26 | Siemens Ag | Verfahren und Anordnung zum Erkennen von Sprache |
US7380213B2 (en) * | 2001-12-28 | 2008-05-27 | Kimberly-Clark Worldwide, Inc. | User interface for reporting event-based production information in product manufacturing |
US7184955B2 (en) * | 2002-03-25 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | System and method for indexing videos based on speaker distinction |
US20030229491A1 (en) * | 2002-06-06 | 2003-12-11 | International Business Machines Corporation | Single sound fragment processing |
US20050165604A1 (en) * | 2002-06-12 | 2005-07-28 | Toshiyuki Hanazawa | Speech recognizing method and device thereof |
JP4265908B2 (ja) * | 2002-12-12 | 2009-05-20 | アルパイン株式会社 | 音声認識装置及び音声認識性能改善方法 |
US7336282B2 (en) * | 2003-09-11 | 2008-02-26 | Ricoh Company, Ltd. | System, recording medium and program for inputting operation condition of instrument |
JP4220449B2 (ja) * | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
KR101437830B1 (ko) * | 2007-11-13 | 2014-11-03 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
EP2291844A2 (en) * | 2008-06-09 | 2011-03-09 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating a summary of an audio/visual data stream |
ES2371619B1 (es) | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
JP5575977B2 (ja) | 2010-04-22 | 2014-08-20 | クゥアルコム・インコーポレイテッド | ボイスアクティビティ検出 |
DE102010033117A1 (de) * | 2010-08-02 | 2012-02-02 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
CN109119096B (zh) * | 2012-12-25 | 2021-01-22 | 中兴通讯股份有限公司 | 一种vad判决中当前激活音保持帧数的修正方法及装置 |
CN109584868B (zh) | 2013-05-20 | 2022-12-13 | 英特尔公司 | 用于虚拟个人助理系统的自然人-计算机交互 |
US8719032B1 (en) * | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
JP6724290B2 (ja) * | 2015-03-31 | 2020-07-15 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
JP6565549B2 (ja) * | 2015-09-29 | 2019-08-28 | ヤマハ株式会社 | 音響解析装置 |
US10515632B2 (en) | 2016-11-15 | 2019-12-24 | At&T Intellectual Property I, L.P. | Asynchronous virtual assistant |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01244497A (ja) | 1988-03-25 | 1989-09-28 | Toshiba Corp | 音声区間検出回路 |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
JP3523382B2 (ja) | 1995-08-10 | 2004-04-26 | 株式会社リコー | 音声認識装置及び音声認識方法 |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
-
1999
- 1999-02-25 JP JP04730299A patent/JP3789246B2/ja not_active Expired - Fee Related
-
2000
- 2000-02-14 US US09/503,750 patent/US6317711B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000250565A (ja) | 2000-09-14 |
US6317711B1 (en) | 2001-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3789246B2 (ja) | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 | |
EP1701338B1 (en) | Speech recognition method | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
JPH0470640B2 (ja) | ||
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JPH11184491A (ja) | 音声認識装置 | |
JP3578587B2 (ja) | 音声認識装置および音声認識方法 | |
JPS6138479B2 (ja) | ||
JP3171107B2 (ja) | 音声認識装置 | |
JPH10187181A (ja) | 音声認識装置 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
JP4479191B2 (ja) | 音声認識装置、音声認識方法及び音声認識処理プログラム | |
JPH0997095A (ja) | 音声認識装置 | |
Leandro et al. | Low cost speaker dependent isolated word speech preselection system using static phoneme pattern recognition. | |
JP3357752B2 (ja) | パターンマッチング装置 | |
JP2707552B2 (ja) | 単語音声認識装置 | |
JP2008170505A (ja) | 音声処理装置およびプログラム | |
KR20200114019A (ko) | 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치 | |
Pandit et al. | Selection of speaker independent feature for a speaker verification system | |
JPH0816186A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110407 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |