JP4911034B2 - 音声判別システム、音声判別方法及び音声判別用プログラム - Google Patents

音声判別システム、音声判別方法及び音声判別用プログラム Download PDF

Info

Publication number
JP4911034B2
JP4911034B2 JP2007540929A JP2007540929A JP4911034B2 JP 4911034 B2 JP4911034 B2 JP 4911034B2 JP 2007540929 A JP2007540929 A JP 2007540929A JP 2007540929 A JP2007540929 A JP 2007540929A JP 4911034 B2 JP4911034 B2 JP 4911034B2
Authority
JP
Japan
Prior art keywords
speech
acoustic signal
score
vowel
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007540929A
Other languages
English (en)
Other versions
JPWO2007046267A1 (ja
Inventor
真 寺尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007540929A priority Critical patent/JP4911034B2/ja
Publication of JPWO2007046267A1 publication Critical patent/JPWO2007046267A1/ja
Application granted granted Critical
Publication of JP4911034B2 publication Critical patent/JP4911034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

本発明は音声判別システム、音声判別方法及び音声判別用プログラムに関し、特に音響信号中の音声と非音声判別に用いる音声判別システム、音声判別方法及び音声判別用プログラムに関する。
この種の従来の音声判別システムとして例えば特許文献1には、図8に示すような構成が開示されている。図8を参照すると、この従来の音声判別システムは、音響信号入力手段810と、特徴量抽出手段821と、音響スコア計算手段824と、尤度比計算手段822と、音声判別手段823と、音声モデル記憶手段831と、非音声モデル記憶手段832と、を備えて構成されている。図8の従来の音声判別システムの動作について概説する。
音響信号入力手段810によって入力された音響信号から、特徴量抽出手段821によって特徴量が分析される。特徴量としては、LPC(Linear Predictive Coefficient:線形予測係数)分析に基づくケプストラムとその一次時間微分が用いられる。ケプストラムは、音響信号の周波数領域での性質、すなわち対数スペクトル包絡の形状を表現した特徴量である。特徴量の分析は、例えば32msec毎にブロック化されたフレームに対して行われる。
音響スコア計算手段824は、特徴量抽出手段821で求められた特徴量に対して、
・音声モデル記憶手段831に記憶された音声モデルに対する尤度、及び、
・非音声モデル記憶手段832に記憶された非音声モデルに対する尤度、
をそれぞれ計算する。
なお、音声モデルは音声の信号を用いて、非音声モデルは非音声の信号を用いて、予め学習しておく。これらのモデルとしては、例えば、HMM(Hidden Markov Model)を用いる。
尤度比計算手段822は、音響スコア計算手段824で得られた音声モデルの尤度と非音声モデルの尤度の比を計算する。
音声判別手段823は、尤度比計算手段822で計算された尤度の比が、所定のしきい値を超えた区間が、予め定められた時間継続した場合に、その区間を音声であると判別する。
この従来の音声判別システムでは、音響信号の周波数領域の性質を表現したケプストラムを特徴量とした音声と非音声のモデルを用意し、フレーム単位で両者の尤度を比較しているため、雑音にある程度頑健な音声判別が可能となる。
なお、特許文献2には、周期性のある定常信号と白色雑音的な定常雑音信号を区別して定常雑音信号区間を正確に検出する音声復号化装置として、サブフレーム内での音声信号の周期を分析して周期性が強い信号は定常母音等である(雑音ではない)可能性が高いので、定常雑音区間ではないと判断するようにした構成が開示されている。この特許文献2では、ピッチ履歴分析器は、適応符号帳から入力されたピッチ周期のサブフレーム間でのばらつきを分析し、信号の母音らしさを検知して音声であるかどうかを判定している。すなわち、特許文献2において、サブフレーム内での音声信号の周期は母音の音声波形の周期(3乃至10msec)に対応している。また、特許文献3には、音声データから音響パラメータ(例えば18次元のLPCケプストラム、零交差数、パワー等)を抽出し、音響パラメータと、母音標準パターン格納部に格納されている母音標準パターンとに基づき母音の検出を行い、認識結果に基づいて母音、子音の順で辞書・文法格納部を探索しながら、仮説を生成し、各仮説毎に子音のスコア(尤度)を求め、各スコアに基づいて文字の選択を行い文字列データを生成する構成が開示されている。
特開平10−254476号公報 特開2002−236495号公報 特開平06−266387号公報 古井貞熙著、「ディジタル音声処理」、東海大学出版会、1985年、第40頁 貴家仁志著、「ディジタル信号処理」、昭晃堂、1997年、第96-99頁
図8を参照して説明した上記従来の音声判別システムにおいては、例えば、時間的に局所的な分析で音声に近い特徴量が得られるような雑音、すなわち局所的には音声と同じような性質を示す雑音に対して、該雑音を音声であると誤判別してしまう、という問題点を有している。このような問題が生じる理由を以下に説明する。
従来の音声判別システムにおいて、音声モデルや非音声モデルの特徴量として用いられるケプストラムなどの特徴量は、一般に、音素や音節などの音声の構成単位より短い時間長で分析される。例えば、数十msec程度ごとにブロック化された短時間のフレームの分析によって特徴量が得られる。すなわち、ケプストラムなどの特徴量は、音響信号中の時間的に、局所的な性質を表しているといえる。
しかしながら、雑音の中には、局所的な分析の結果、音声から得られる特徴量に非常に近い特徴量が得られるような雑音も多数存在する。例えば、雑音を局所的に切り出して分析すると、音声である音素/a/や音素/s/などに近い特徴量が得られることはよくあることである。
その結果、フレーム単位で音声と非音声との尤度を比較する従来の音声判別システムでは、局所的な分析で音声に近い特徴量が得られる雑音が音声であると誤判別されてしまうことになる。
特許文献2には、母音が持つ信号波形レベルでの周期性を検出する構成が開示されているが、この方法も1つの母音が持っている局所的な特徴によって音声を判別しているため、局所的に音声に近い特徴を示す雑音が音声であると誤判別されてしまう問題があることに変わりはない。また、母音らしさを音響モデルから導出するという特許文献3には、音声と同じような性質を示す雑音に対して、該雑音を音声であると誤判別してしまうという課題の認識は記載されていない。
したがって、本発明は、上記課題に鑑みて創案されたものであって、その主たる目的は、時間的に局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる音声判別システム及び方法並びにコンピュータプログラムを提供することにある。
本願で開示される発明は、前記課題を解決するため、概略以下の通りの構成とされる。
本発明に係るシステム(装置)は、音声の音響モデルを記憶した音声モデル記憶手段と、前記音響モデルを参照することで、入力された音響信号の各時刻に対して母音らしさを表す母音スコアを計算する母音スコア計算手段と、前記母音スコアの時間的な規則性を分析する時間規則性分析手段と、前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、を備えている。
本発明に係るシステム(装置)は、音声の音響モデルを記憶した音声モデル記憶手段と、前記音響モデルを参照することで入力された音響信号の各時刻に対してサブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算手段と、前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析手段と、前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、を備えている。
本発明に係る方法は、音声判別装置が、音声モデル記憶手段に記憶された音響モデルを参照し、入力された音響信号の各時刻に対して母音らしさを表す母音スコアを計算する工程と、
前記音声判別装置が、前記母音スコアの時間的な規則性を分析する工程と、
前記音声判別装置が、前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む。
本発明に係る方法は、音声判別装置が、音声モデル記憶手段に記憶された音響モデルを参照して、入力された音響信号の各時刻に対してサブワード境界らしさを表すサブワード境界スコアを計算する工程と、
前記音声判別装置が、前記サブワード境界スコアの時間的な規則性を分析する工程と、
前記音声判別装置が、前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む。
本発明に係るコンピュータプログラムは、音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対して母音らしさを表す母音スコアを計算する母音スコア計算処理と、
前記母音スコアの時間的な規則性を分析する時間規則性分析処理と、
前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラムよりなる。
本発明に係るコンピュータプログラムは、音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対してサブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算処理と、
前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析処理と、
前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラムよりなる。
本発明によれば、音声の言語的な特徴に基づく周期性、すなわち音節構造の周期性を分析することで、時間的に局所的な分析では、音声に近い特徴量が得られるような雑音に対して、正しく非音声であると判別することを可能としている。
本発明の第1の実施例の構成を示す図である。 本発明の第1の実施例の動作を示す流れ図である。 本発明の第1の実施例において「こんにちは」という音声に対する母音スコアの時系列のグラフを模式的に示す図である。 本発明の第2の実施例の構成を示す図である。 本発明の第2の実施例の動作を示す流れ図である。 本発明の第2の実施例において「こんにちは」という音声に対する音節境界スコアの時系列のグラフを模式的に示す図である。 本発明の第3の実施例の構成を示すブロック図である。 従来の音声判別システムの構成を示す図である。
符号の説明
110 音響信号入力手段
120 データ処理装置
121 特徴量抽出手段
122 時間規則性分析手段
123 音声判別手段
124 母音スコア計算手段
130 記憶装置
131 音声モデル記憶手段
410 音響信号入力手段
420 データ処理装置
421 特徴量抽出手段
422 時間規則性分析手段
423 音声判別手段
424 サブワード境界スコア計算手段
430 記憶装置
431 音声モデル記憶手段
710 入力装置
720 データ処理装置
730 記憶装置
731 音声モデル記憶部
740 出力装置
750 音声判別用プログラム
810 音響信号入力手段
821 特徴量抽出手段
822 尤度比計算手段
823 音声判別手段
824 音響スコア計算手段
831 音声モデル記憶手段
832 非音声モデル記憶手段
上記した本発明についてさらに詳細に説明すべく、添付図面を参照して説明する。なお、以下の説明で括弧内の参照番号は、あくまで発明の構成の把握を容易化するためのものであり、本発明を限定するためのものでないことは勿論である。
本発明の第1の音声判別システムは、母音や母音を含む音素などの音響モデルを記憶する音声モデル記憶手段(図1の131)と、音響モデルを参照することで入力音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する母音スコア計算手段(図1の124)と、母音スコアの時系列データから時間的な規則性を分析する時間規則性分析手段(図1の122)と、母音スコアの時系列データの時間的な規則性の有無に基づいて入力音響信号が音声であるか非音声であるかを判別する音声判別手段(図1の123)と、を備えている。
音声判別手段(図1の123)では、母音スコアが時間的な規則性を有する場合には、入力音響信号が音声であると判別し、母音スコアが時間的な規則性を有しない場合には、非音声であると判別する。かかる構成により、時間的に局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる。
また、本発明の第2の音声判別システムは、前記した本発明の第1の音声判別システムの構成における音声モデル記憶手段(図1の131)に、音素や音節などサブワード単位の音響モデルを記憶しておき、前記本発明の第1の音声判別システムの構成における、母音スコア計算手段(図1の124)の代わりに、サブワード単位の音響モデルを参照することで、入力音響信号の各時刻に対して、サブワード境界らしさ(音素境界らしさ又は音節境界らしさ)を表すサブワード境界スコアを計算するサブワード境界スコア計算手段(図4の424)とを備えている。その他の構成は、前記本発明の第1の音声判別システムの構成と同様である。サブワード境界スコアの時系列が時間的な規則性を有する場合には、入力音響信号が音声であると判別し、サブワード境界スコアの時系列が時間的な規則性を有しない場合には、非音声であると判別する。かかる構成により、時間的に局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる。
上記したように、本発明においては、音声の音響モデルを用いることで、母音らしさを表す母音スコア、又は、サブワード境界らしさを表すサブワード境界スコアの時系列を求め、求められたスコアの時系列が時間的な規則性(周期性)を有する場合に、入力音響信号は音声であると判別し、時間的な規則性を有しない場合には、入力音響信号は非音声であると判別する。
一般に、音声信号では、音素や音節などのサブワードが時間的な規則性を伴って現れる、という性質がある。
すなわち、音声信号では、音素や音節などのサブワードが次々に変化しており、その変化の時間間隔は、数十msecから数百msec程度の範囲におさまっているのが一般的である。
一方、雑音等の非音声信号では、時間的に局所的な分析によって音素や音節などに近い特徴量が得られることはあっても、数十msecから数百msecの時間間隔で様々なサブワードに近い信号が次々に現れるということはほとんどない。
従って、様々なサブワードが時間的な規則性を伴って次々に現れるという性質は、音声信号に特有の性質であるといえる。
本発明では、このような音声信号に特有の性質を捉えるために、音声の言語的な特徴に基づく周期性(規則性)を分析する。すなわち、母音らしさを表す母音スコア、又は、サブワード境界らしさを表すサブワード境界スコアの時系列データに、時間的な規則性が存在するか否か判定し、時間的な規則性を有する場合に音声であるものと判別している。
非音声信号では、母音スコアやサブワード境界スコアが時間的な規則性を有していることは少ないため、時間的に局所的な分析によって音声に近い特徴量が得られる雑音でも正しく非音声であると判別できる。
なお、様々なサブワードが時間的な規則性を伴って次々に現れるという音声信号特有の性質を正しく捉えるためには、母音スコアやサブワード境界スコアを精度よく求めることが必要とされる。本発明においては、音素や音節などの音声の音響モデルを用いているため、これらのスコアを精度よく計算することが可能である。以下、実施例に即して説明する。
図1は、本発明の第1の実施例を示すブロック図である。図1を参照すると、本発明の第1の実施例は、音響信号入力手段110と、データ処理装置120と、情報を記憶する記憶装置130とを備えている。
記憶装置130は、音声モデル記憶手段131を備えている。音声モデル記憶手段131には、母音や母音を含む音素などの音響モデルが記憶されている。
データ処理装置120は、特徴量抽出手段121と、母音スコア計算手段124と、時間規則性分析手段122と、音声判別手段123とを備えている。
特徴量抽出手段121は、音響信号入力手段110から入力された音響信号を分析し、特徴量の時系列を抽出する。
母音スコア計算手段124は、音声モデル記憶手段131に記憶された音響モデルを参照することで、特徴量抽出手段121により抽出された各時刻の特徴量に対して母音スコアを計算する。
時間規則性分析手段122は、母音スコア計算手段124によって得られた母音スコアの時間的な規則性を分析する。
音声判別手段123は、母音スコアの時間的な規則性の有無に基づいて入力音響信号が音声であるか非音声であるかを判別する。
なお、データ処理装置120における、各手段(特徴量抽出手段121と、母音スコア計算手段124と、時間規則性分析手段122と、音声判別手段123)は、データ処理装置120(コンピュータ)上で実行されるプログラムによりその機能・処理を実現するようにしてもよいことは勿論である(第3の実施例参照)。
図2は、本発明の第1の実施例の処理手順を説明するためのフローチャートである。図1及び図2のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。
まず、音響信号入力手段110によって、システムに音響信号が入力される(図2のステップA1)。
音響信号入力手段110は、マイクなどによってリアルタイムに音声を入力しても良いし、予めハードディスクやテープ等の記憶媒体に記録しておいた音響信号を入力しても良い。
特徴量抽出手段121は、入力された音響信号を分析し、音響信号のスペクトル形状を表現するための特徴量の時系列を抽出する(図2のステップA2)。
特徴量は、「フレーム」と呼ばれる時間単位ごとに分析される。1つのフレームの長さは、例えば数十msec程度である。
また、特徴量としては、例えばMFCC(Mel-scale Frequency Cepstral Coefficients)等を用いてもよい。MFCCは、人間の聴覚特性を考慮した上で対数周波数スペクトルの包絡を表現した特徴量で、音声認識などでよく用いられている。
音声モデル記憶手段131には、母音や母音を含む音素などの音響モデルが記憶されている。音声モデル記憶手段131に記憶される音響モデルは、例えば、音声認識の分野でよく用いられているモデルであるHMM(Hidden Markov Model)やGMM(Gaussian Mixture Model)であり、予め音声信号によって母音や母音を含む音素を学習しておく。
母音スコア計算手段124は、音声モデル記憶手段131に記憶されている音響モデルを参照して、特徴量抽出手段121により抽出された各時刻の特徴量(特徴量の時系列)に対して母音スコアを計算する(図2のステップA3)。
ここで、母音スコアとは、入力音響信号の母音らしさを表した尺度である。この母音スコアは、母音や母音を含む音素の音響モデルを用いることで、以下のような方法で求めることができる。
すなわち、音声モデル記憶手段131に記憶されている音響モデルが母音のモデルであれば、特徴量に対する母音モデルの尤度をそのまま母音のスコアとすることができる。
また、音声モデル記憶手段131に記憶されている音響モデルが音素のモデルであれば、/a/, /i/, /u/, /e/, /o/といった母音に相当するモデルの尤度を足し合わせた値を母音のスコアとすることもできる。
音声モデル記憶手段131に記憶されている音響モデルが子音などの母音以外の音素を含んでいる場合には、次式(1)のように計算される母音の事後確率を母音のスコアとすることもできる。
Figure 0004911034
…(1)
上式(1)において、
xは特徴量、
qは音素、
P(x|q)は音素qのモデルの尤度、
P(q|x)は音素qの事後確率
をそれぞれ表している。
また、
S_allは音声モデル記憶手段131に記憶されている全ての音素の集合を表し、
S_vowelはS_allの中に含まれる母音の集合を表す。
従って、上式(1)の右辺の分母は、全ての音素モデルの尤度の総和であり、右辺の分子は母音を表す音素モデルの尤度の総和である。
上式(1)にしたがって母音の事後確率を計算することで、正規化された母音のスコアを得ることができる。
以上のように計算された母音スコアの時系列は、入力音響信号の各時刻がどれだけ母音らしい信号であるかを表していると考えることができる。
図3は、「こんにちは」(/k/o/N/n/i/ch/i/w/a/)という音声に対して求められた母音スコアの時系列を示したグラフである。図3において、横軸は時間、縦軸は母音スコアである。図3の実線が母音スコアの時系列を表しており、破線で囲んだ矩形領域は母音の区間を表している。
一般的に、音声には、母音がほぼ一定の時間間隔で規則的に現れるという性質があるため、音声に対する母音スコアの時系列も、図3のように時間的な規則性を持った構造となる。
一方、非音声では、母音らしい区間が規則的に現れることはめったにないため、非音声に対する母音スコアの時系列が、図3のように時間的な規則性を持つことはほとんどない。
次に、時間規則性分析手段122は、母音スコア計算手段124によって求められた母音スコアの時間的な規則性を分析する(図2のステップA4)。この分析には、例えば、自己相関分析を用いることができる。すなわち、母音スコアの時系列を自己相関分析した結果得られる自己相関関数におけるピークの有無、及びピークの位置を調べることによって、母音スコアに時間的な周期性があるか否か、及び、周期性がある場合にはその周期の値を求めることができる。なお、自己相関分析の詳細については、非特許文献1が参照される。
また、母音スコアの時間的な規則性を分析する他の方法として、離散フーリエ変換(Discrete Fourier Transform)を利用しても良い。母音スコアの時系列を離散フーリエ変換することで、母音スコアに時間的な周期性があるか否か、及び、周期性がある場合にはその周期の値を求めることができる。なお、離散フーリエ変換の詳細については例えば非特許文献2が参照される。
これらの自己相関分析や離散フーリエ変換による分析を行うときの窓幅は、音声信号において母音が数回以上現れるような時間長に対して行う必要がある。
母音が数回以上現れるような長さで母音スコアの時間的な規則性を分析することで、母音がほぼ一定の時間間隔で規則的に現れるという音声に特有の性質を抽出することができるためである。
従って、好ましくは、自己相関分析や離散フーリエ変換を行うときの窓幅は、例えば100msec以上程度とされる。
音声判別手段123は、母音スコアの時間的な規則性の有無に基づいて入力音響信号が音声であるか非音声であるかを判別する。
すなわち、母音スコアに時間的な周期性があるか否かを判定し(図2のステップA5)、 周期性がある場合には、入力音響信号が音声である可能性が高いと判別し、
周期性がない場合には、入力音響信号が非音声であると判別する(図2のステップA8)。
また、母音スコアに時間的な周期性が認められた場合には、さらに、その周期が所定の範囲内におさまっているか否かを判定する(図2のステップA6)。判定の結果、周期が所定の範囲内におさまっている場合には、入力音響信号が音声であると判別し(図2のステップA7)、周期が所定の範囲内におさまっていない場合には、入力音響信号が非音声であると判別する(図2のステップA8)。
なお、周期が所定の範囲内におさまっているか否かの判定(図2のステップA6)を省略して、母音スコアに時間的な周期性があるか否かの判定(図2のステップA5)のみで、音声と非音声とを判別することも可能である。
なお、図2のステップA6において、音声であると判別する母音スコアの時間周期の範囲は、音声における一般的な音節の周期に相当している。従って、音声であると判別する母音スコアの時間周期の範囲としては、例えば、50msecから300msecとする。
次に、本実施例の作用効果について説明する。
本実施例では、音響信号の母音らしさを表す母音スコアが時間的な規則性を有する場合に、入力音響信号が音声であると判別し、時間的な規則性を有しない場合には、非音声であると判別している。
このため、時間的に局所的な分析では音声に近い特徴量が得られるような雑音について、正しく非音声であると判別することができる。
一般に、音声信号には、母音がほぼ一定の時間間隔で規則的に現れるという性質があるが、非音声信号では、時間的に局所的な分析では音声に近い特徴量が得られるような雑音であっても、母音に近い特徴を持つ区間が音声信号のように時間的な規則性を伴って現れることはほとんどない。
本実施例では、母音スコアの時間的な規則性の有無を判定し、時間的な規則性を有する場合に、音声であると判別しているため、このような音声に特有の性質を捉えることができる。
従って、本実施例によって、局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる。
なお、前記特許文献2と、本実施例との相違点について説明しておく。前記特許文献2においては、サブフレーム内での信号の周期を分析することで定常雑音区間であるか判定し、周期性の強い信号は定常母音等である可能性が高く、定常雑音区間でないと判断しているが、このサブフレーム内での信号の周期は声帯振動に起因する3〜10msec程度に対応している。特許文献2においては、母音のもつ信号波形レベルの周期性をとらえているだけであるため、母音らしい音であることはわかる。しかしながら、特許文献2では、局所的に音声に近い特徴量が得られるような雑音を正しく非音声であると判別することはできない。
これに対して、本発明の第1の実施例では、母音スコアの周期性(例えば、図3において母音o、i、i、aの周期は100〜200msec程度である)に基づき、入力音響信号が音声であるか非音声であるかを判別している。本発明によれば、意味のある音声が有している音節構造を周期としてとらえる。音声では子音と母音が繰り返し出現し、母音らしさを時系列で表すと、その時系列には、音節の変化に対応する周期性があらわれる。このように、本実施例においては、音声の言語的な特徴に基づく周期性を検出することで、信号レベルでは音声らしいが実際には音声ではないという場合であっても、精度よく、音声・非音声を判別することができる。
次に、本発明の第2の実施例について説明する。図4は、本発明の第2の実施例の構成を示す図である。図4を参照すると、本発明の第2の実施例は、音響信号入力手段410と、データ処理装置420と、情報を記憶する記憶装置430とを備えている。
記憶装置430は、音声モデル記憶手段431を備えている。
音声モデル記憶手段431には、音素や音節などのサブワード単位の音響モデルが記憶されている。
データ処理装置420は、特徴量抽出手段421と、サブワード境界スコア計算手段424と、時間規則性分析手段422と、音声判別手段423とを備えている。これらのうち、特徴量抽出手段421、時間規則性分析手段422、音声判別手段423は、それぞれ図1の特徴量抽出手段121、時間規則性分析手段122、音声判別手段123と同一である。
サブワード境界スコア計算手段424は、音声モデル記憶手段431に記憶された音響モデル、及び特徴量抽出手段421により抽出された特徴量を参照することで、各時刻に対してサブワード境界スコアを計算する。
なお、データ処理装置420における各手段(特徴量抽出手段421と、サブワード境界スコア計算手段424と、時間規則性分析手段422と、音声判別手段423)は、データ処理装置420上で実行されるプログラムによりその機能・処理を実現するようにしてもよいことは勿論である。
図5は、本発明の第2の実施例の動作を説明するためのフローチャートである。図4及び図5のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。
前記第1の実施例では、母音スコア計算手段124によって入力音響信号に対して母音スコアの時系列を計算していた。
本実施例では、母音スコア計算手段124によって母音スコアの時系列を計算する代わりに、サブワード境界スコア計算手段424によって、入力音響信号に対するサブワード境界スコアの時系列を計算している点が、前記第1の実施例と相違している。
すなわち、図5のステップB1〜B2の処理内容は、図2のステップA1〜A2の処理内容と同一であり、また、図5のステップB4〜B8の処理内容は、図2のステップA4〜A8の処理内容と同一であるため、説明を省略する。
まず、前記第1の実施例と同様に、音響信号入力手段410によってシステムに音響信号が入力され、特徴量抽出手段421は入力音響信号を分析して特徴量の時系列を抽出する。
次に、サブワード境界スコア計算手段424は、抽出された特徴量と音声モデル記憶手段431に記憶されている音響モデルとを参照して、入力音響信号に対するサブワード境界スコアを求める(図5のステップB3)。
ここで、サブワード境界スコアとは、入力音響信号中において、音素又は音節などの音声を構成するサブワード単位の境界が存在するか否かを表した尺度である。
すなわち、ある時刻でサブワード境界スコアが高いということは、当該ある時刻よりも前の区間の音響信号がある音素や音節に近い信号であり、当該ある時刻よりも後の区間の音響信号が他の音素や音節に近い信号である、ということを表している。
このような性質を持つサブワード境界スコアは、音素や音節などのサブワード単位の音響モデルを用いることで、以下のような方法で求めることができる。
まず始めに、音声モデル記憶手段431に記憶されている音素や音節などのサブワード単位の音響モデルによって、各時刻tにおける特徴量x_tに対する各サブワードqのモデルの尤度P(x_t|q)を計算する。
次に、各時刻で、全てのサブワード音響モデルの尤度の時間差分の自乗和D(t)を、式(2)のように計算する。
Figure 0004911034
…(2)
S_allは、音声モデル記憶手段431に記憶されている全ての音素の集合を表す。
式(2)から分かるように、D(t)は各時刻での各サブワードモデルの尤度の変化の大きさを表している量なので、サブワード境界スコアとして用いることができる。
すなわち、D(t)が大きいということは、その前後の音響信号があるサブワードから他のサブワードに変化したことを表しているためである。
ここでは、各サブワードの尤度P(x_t|q)の時間差分の和をサブワード境界スコアとしているが、各サブワードの事後確率P(q|x_t)を求めて事後確率の時間差分の和をサブワード境界スコアとしても良い。
各サブワードの事後確率は、上式(1)と同様の計算によって求めることができる。
事後確率の時間差分を用いることで、正規化されたサブワード境界スコアを得ることができる。
なお、音声モデル記憶手段431に記憶されている音響モデルの単位と、サブワード境界スコア計算手段424が計算するサブワード境界スコアの単位とは必ずしも同一である必要はない。すなわち、例えば、音声モデル記憶手段431に音素の音響モデルを記憶し、サブワード境界スコア計算手段424では母音からの遷移のみを考慮することで音節の境界スコアを計算してもよい。
以上のように計算されたサブワード境界スコアの時系列は、入力音響信号の各時刻がどれだけ音素又は音節などのサブワードの境界らしいかを表していると考えることができる。
図6は、「こんにちは」(/k/o/N/n/i/ch/i/w/a/)という音声に対して求められた音節境界スコア、すなわち音節境界らしさの時系列を示したグラフである。図6において、横軸は時間、縦軸は音節境界スコアである。図6の実線が音節境界スコアの時系列を表し、縦の破線(点線)は音節の境界を表している。
一般的に、音声には、音素や音節などのサブワードがほぼ一定の時間間隔で規則的に現れるという性質があるため、音声に対するサブワード境界スコアの時系列は図6のように時間的な規則性を持った構造となる。
一方、非音声では、音素や音節に近い信号が音声のように時間的な規則性を伴って次々と現れることはほとんどないため、非音声に対するサブワード境界スコアの時系列が時間的な規則性を持つことはほとんどない。
このようにして求められたサブワード境界スコアの時系列に対して、時間規則性分析手段422、及び音声判別手段423は、前記第1の実施例と同様に動作し、入力音響信号が音声であるか非音声であるかを判別する。
次に、本実施例の作用効果について説明する。
本実施例では、音素や音節の境界らしさを表すサブワード境界スコアが時間的な規則性を有する場合に入力音響信号が音声であると判別し、時間的な規則性を有しない場合に非音声であると判別しているため、時間的に局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる。
前述したように、一般に、音声信号には、音素や音節などのサブワードがほぼ一定の時間間隔で規則的に現れるという性質があるが、非音声信号では、時間的に局所的な分析では音声に近い特徴量が得られるような雑音であっても、音素や音節に近い信号が時間的に規則的に現れることはほとんどない。
本実施例では、サブワード境界スコアの時間的な規則性の有無を判定し、時間的な規則性を有する場合に音声であると判別しているため、このような音声に特有の性質を捉えることができる。
従って、本実施例によって、局所的な分析では音声に近い特徴量が得られるような雑音でも正しく非音声であると判別することができる。
次に、本発明の第3の実施例について説明する。図7は、本発明の第3の実施例の構成を示すブロック図である。図7を参照すると、本発明の第3の実施例は、プログラム制御により動作するデータ処理装置720と、入力装置710と、記憶装置730と、出力装置740とから構成されている。
音声判別用プログラム750は、記憶媒体又は伝送媒体を介したダウンロード等により、データ処理装置720に読み込まれ、データ処理装置720の動作を制御し、記憶装置730に音声モデル記憶部731を生成する。
データ処理装置720は、音声判別用プログラム750の制御により、前記第1の実施例におけるデータ処理装置120、又は、前記第2の実施例におけるデータ処理装置420による処理と同一の処理を実行する。
本発明によれば、様々な入力音響信号の中から音声を判別して音声認識を行う音声認識装置や、音声認識装置をコンピュータに実現するためのプログラム、といった用途に適用できる。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみに制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (11)

  1. 音声の音響モデルを記憶した音声モデル記憶手段と、
    前記音響モデルを参照することで、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する母音スコア計算手段と、
    前記母音スコアの時間的な規則性を分析する時間規則性分析手段と、
    前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、
    を備えたことを特徴とする音声判別システム。
  2. 音声の音響モデルを記憶した音声モデル記憶手段と、
    前記音響モデルを参照することで入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算手段と、
    前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析手段と、
    前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、
    を備えたことを特徴とする音声判別システム。
  3. データ処理装置が、音声モデル記憶手段に記憶された音響モデルを参照し、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する工程と、
    前記データ処理装置が、前記母音スコアの時間的な規則性を分析する工程と、
    前記データ処理装置が、前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
    を含む、ことを特徴とする音声判別方法。
  4. データ処理装置が、音声モデル記憶手段に記憶された音響モデルを参照して、入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算する工程と、
    前記データ処理装置が、前記サブワード境界スコアの時間的な規則性を分析する工程と、
    前記データ処理装置が、前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
    を含む、ことを特徴とする音声判別方法。
  5. 音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する母音スコア計算処理と、
    前記母音スコアの時間的な規則性を分析する時間規則性分析処理と、
    前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
    をコンピュータに実行させるプログラム。
  6. 音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算処理と、
    前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析処理と、
    前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
    をコンピュータに実行させるプログラム。
  7. 音響信号を入力する手段と、
    入力音響信号に対して音声の言語的な特徴に基づく周期性を分析し、様々なサブワードが時間的な規則性を伴って次々に現れるという音声信号に特有の性質を有するか否かを判定し、前記入力音響信号が音声であるか非音声であるかを判別する手段と、
    を備えたことを特徴とする音声判別装置。
  8. 前記入力音響信号が音声であるか非音声であるかを判別する手段は、前記入力音響信号より求めた、母音らしさを表す母音スコア、又は、サブワード境界らしさを表すサブワード境界スコアの時系列データに、時間的な規則性が存在するか否か判定し、時間的な規則性を有する場合に音声であるものと判別する、ことを特徴とする請求項7記載の音声判別装置。
  9. 母音や母音を含む音素の音響モデルを少なくとも記憶した記憶手段と、
    音響信号を入力する音響信号入力手段と、
    前記音響信号入力手段からの入力音響信号を分析し、特徴量の時系列を抽出する特徴量抽出手段と、
    前記記憶手段に記憶された音響モデルを参照し、前記特徴量抽出手段により抽出された特徴量の時系列に対して、入力音響信号の母音らしさを表した尺度である母音スコアの時系列を計算する母音スコア計算手段と、
    前記母音スコア計算手段によって得られた母音スコアの時系列に対して時間的な規則性を分析する時間規則性分析手段と、
    前記母音スコアの時系列に時間的な規則性があるか否かを判定し、時間的な規則性がある場合には、前記入力音響信号が音声である可能性が高いと判別し、時間的な規則性がない場合には、入力音響信号が非音声であると判別する音声判別手段と、
    を備えている、ことを特徴とする音声判別装置。
  10. 音声を構成するサブワード単位の音響モデルを記憶した記憶手段と、
    音響信号を入力する音響信号入力手段と、
    前記音響信号入力手段からの入力音響信号を分析し、特徴量の時系列を抽出する特徴量抽出手段と、
    前記記憶手段に記憶された音響モデルを参照し、前記特徴量抽出手段により抽出された特徴量の時系列に対して、入力音響信号中においてサブワード単位の境界らしさを表した尺度であるサブワード境界スコアの時系列を計算するサブワード境界スコア計算手段と、
    前記サブワード境界スコア計算手段によって得られたサブワード境界スコアの時系列に対して時間的な規則性を分析する時間規則性分析手段と、
    前記サブワード境界スコアの時系列に時間的な規則性があるか否かを判定し、時間的な規則性がある場合には、前記入力音響信号が音声である可能性が高いと判別し、時間的な規則性がない場合には、入力音響信号が非音声であると判別する音声判別手段と、
    を備えている、ことを特徴とする音声判別装置。
  11. 前記音声判別手段は、前記スコアの時系列に時間的な規則性、すなわち周期性が認められた場合には、前記周期が予め定められた所定の範囲内におさまっているか否か判定し、前記周期が前記所定の範囲内におさまっている場合には、入力音響信号は音声であると判別し、前記周期が前記所定の範囲内におさまっていない場合には、入力音響信号は非音声であると判別する、ことを特徴とする請求項9又は10記載の音声判別装置。
JP2007540929A 2005-10-20 2006-10-10 音声判別システム、音声判別方法及び音声判別用プログラム Active JP4911034B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007540929A JP4911034B2 (ja) 2005-10-20 2006-10-10 音声判別システム、音声判別方法及び音声判別用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005305625 2005-10-20
JP2005305625 2005-10-20
JP2007540929A JP4911034B2 (ja) 2005-10-20 2006-10-10 音声判別システム、音声判別方法及び音声判別用プログラム
PCT/JP2006/320199 WO2007046267A1 (ja) 2005-10-20 2006-10-10 音声判別システム、音声判別方法及び音声判別用プログラム

Publications (2)

Publication Number Publication Date
JPWO2007046267A1 JPWO2007046267A1 (ja) 2009-04-23
JP4911034B2 true JP4911034B2 (ja) 2012-04-04

Family

ID=37962363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007540929A Active JP4911034B2 (ja) 2005-10-20 2006-10-10 音声判別システム、音声判別方法及び音声判別用プログラム

Country Status (4)

Country Link
US (1) US8175868B2 (ja)
JP (1) JP4911034B2 (ja)
CN (3) CN101292283B (ja)
WO (1) WO2007046267A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242465A (ja) * 2012-05-22 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1851756B1 (en) * 2005-02-17 2008-07-02 Loquendo S.p.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
JP4986028B2 (ja) * 2007-01-19 2012-07-25 Kddi株式会社 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
US8694308B2 (en) * 2007-11-27 2014-04-08 Nec Corporation System, method and program for voice detection
US8077836B2 (en) * 2008-07-30 2011-12-13 At&T Intellectual Property, I, L.P. Transparent voice registration and verification method and system
CN101359472B (zh) * 2008-09-26 2011-07-20 炬力集成电路设计有限公司 一种人声判别的方法和装置
JP5157852B2 (ja) * 2008-11-28 2013-03-06 富士通株式会社 音声信号処理評価プログラム、音声信号処理評価装置
JP4754651B2 (ja) * 2009-12-22 2011-08-24 アレクセイ・ビノグラドフ 信号検出方法、信号検出装置、及び、信号検出プログラム
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
JP5725028B2 (ja) * 2010-08-10 2015-05-27 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
CN107633843B (zh) * 2017-09-08 2021-01-19 深圳大学 识别人国籍的方法及装置
CN107610691B (zh) * 2017-09-08 2021-07-06 深圳大学 英语元音发声纠错方法及装置
JP6996185B2 (ja) 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP6725186B2 (ja) * 2018-02-20 2020-07-15 三菱電機株式会社 学習装置、音声区間検出装置および音声区間検出方法
JP7095756B2 (ja) * 2018-06-29 2022-07-05 日本電気株式会社 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム
CN110097874A (zh) * 2019-05-16 2019-08-06 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6217800A (ja) * 1985-07-16 1987-01-26 シャープ株式会社 音声区間判定方式
JPH05173592A (ja) * 1991-12-25 1993-07-13 Matsushita Electric Ind Co Ltd 音声/非音声判別方法および判別装置
JP2797861B2 (ja) * 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US4920568A (en) 1985-07-16 1990-04-24 Sharp Kabushiki Kaisha Method of distinguishing voice from noise
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
JPH06266387A (ja) 1993-03-12 1994-09-22 Nippon Hoso Kyokai <Nhk> 音声認識方式
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
JP3105465B2 (ja) 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
US6285979B1 (en) * 1998-03-27 2001-09-04 Avr Communications Ltd. Phoneme analyzer
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
EP1339041B1 (en) 2000-11-30 2009-07-01 Panasonic Corporation Audio decoder and audio decoding method
JP3806344B2 (ja) 2000-11-30 2006-08-09 松下電器産業株式会社 定常雑音区間検出装置及び定常雑音区間検出方法
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20060004567A1 (en) * 2002-11-27 2006-01-05 Visual Pronunciation Software Limited Method, system and software for teaching pronunciation
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6217800A (ja) * 1985-07-16 1987-01-26 シャープ株式会社 音声区間判定方式
JPH05173592A (ja) * 1991-12-25 1993-07-13 Matsushita Electric Ind Co Ltd 音声/非音声判別方法および判別装置
JP2797861B2 (ja) * 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242465A (ja) * 2012-05-22 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Also Published As

Publication number Publication date
CN102222498A (zh) 2011-10-19
CN101292283A (zh) 2008-10-22
WO2007046267A1 (ja) 2007-04-26
CN102222498B (zh) 2013-05-01
US20090138260A1 (en) 2009-05-28
CN101292283B (zh) 2012-08-08
CN102222499B (zh) 2012-11-07
CN102222499A (zh) 2011-10-19
US8175868B2 (en) 2012-05-08
JPWO2007046267A1 (ja) 2009-04-23

Similar Documents

Publication Publication Date Title
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US7647224B2 (en) Apparatus, method, and computer program product for speech recognition
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
US6553342B1 (en) Tone based speech recognition
EP2048655A1 (en) Context sensitive multi-stage speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2011180308A (ja) 音声認識装置及び記録媒体
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP4479191B2 (ja) 音声認識装置、音声認識方法及び音声認識処理プログラム
JP4749990B2 (ja) 音声認識装置
JP2006010739A (ja) 音声認識装置
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
JP5158877B2 (ja) 音声認識方法および装置
Takahashi et al. Isolated word recognition using pitch pattern information
Sangwan Feature Extraction for Speaker Recognition: A Systematic Study
Li et al. A detection method of lip-smack in spontaneous speech
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Roy et al. Bangla Speech Denoising and Identification using Deep Neural Network
JPS63161499A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120102

R150 Certificate of patent or registration of utility model

Ref document number: 4911034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3