JP4213608B2 - 音声波形情報分析装置及びその前処理装置 - Google Patents

音声波形情報分析装置及びその前処理装置 Download PDF

Info

Publication number
JP4213608B2
JP4213608B2 JP2004064447A JP2004064447A JP4213608B2 JP 4213608 B2 JP4213608 B2 JP 4213608B2 JP 2004064447 A JP2004064447 A JP 2004064447A JP 2004064447 A JP2004064447 A JP 2004064447A JP 4213608 B2 JP4213608 B2 JP 4213608B2
Authority
JP
Japan
Prior art keywords
speech
pattern
waveform information
speech waveform
symbol string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004064447A
Other languages
English (en)
Other versions
JP2005250388A (ja
Inventor
和幸 芦村
ニック・キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, ATR Advanced Telecommunications Research Institute International, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2004064447A priority Critical patent/JP4213608B2/ja
Publication of JP2005250388A publication Critical patent/JP2005250388A/ja
Application granted granted Critical
Publication of JP4213608B2 publication Critical patent/JP4213608B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は対話音声データの分析技術に関し、特に、日常会話等からなる大量の音声データを分析するための前処理として、会話から同種の音声パターンを自動的に抽出するための装置、並びにそうした装置を利用して音声データの分析を行なうための装置に関する。
人は、日常会話において、文字には現れない情報(パラ言語情報)を韻律や声質等によって示すことにより、同じ言葉を意図又は態度に応じた様々な意味に使い分けている(非特許文献1を参照されたい。)。人は、そうしたパラ言語情報を容易に理解できるが、コンピュータによる自然言語処理ではそうした情報の解釈は容易ではない。そのためには、発話様式と、意図又は態度との関係を解明する必要がある。
近年、対話音声データ分析に対する音声認識技術の応用が試みられている。しかし、対話データ中には、語彙辞書や言語モデルに登録されていない音声パターンが多く含まれ、認識精度低下の一因となっている。
対策として、書き起こしテキストに基づいて語彙を辞書や言語モデルに追加することが考えられる。しかし、対話の内容は話者や状況により異なるため、収録データを単に増やすだけでは、網羅的な語彙セットを得られる保証はない。また、対話音声においては、長音や促音の混入、音素の欠落等の発話変形が多く見られ、認識に適した発音情報を書き起こしテキストにより常に表現できるとは限らない。
例えば、従来、発話テンポは一発話ごとに継続時間長をモーラ数で割ったものとして規定されてきたが、長音や促音の混入があった場合、モーラ数を規定することが困難となる。
キャンベル他、「声質、韻律の第4次元」、ICPhS2003予稿集、pp.2414−2420、2003年(Campbell et al.,"Voice Quality,the 4th prosodic dimension",Proc ICPhS 2003,pp.2414−2420(2003)) デリーヌ他、「可変長シーケンスによる言語モデル化:理論的定式化及びマルチグラムの評価」、ICASSP95予稿集、pp.169−172、1995年(Deligne et al.,"LANGUAGE MODELING BY VARIABLE LENGTH SEQUENCES:THEORETICAL FORMULATION AND EVALUATION OF MULTIGRAMS",Proc. ICASSP 95,pp.169−172(1995))
既に述べたように、発話のうち、韻律又は声質により表されている情報を処理するためには、発話様式と、発話者の意図又は態度との関係を解明する必要がある。そのためには、大規模自然音声対話データベースの収集と分析とが必要不可欠である。しかし、大規模自然音声対話データベースのテキスト書き起こしを全て人手で行なうのは、量的にも質的にも困難である。したがって、テキスト情報に依存せずに、大規模自然音声対話データベースを分析できる手法が望まれている。例えば、自然音声対話中に現れる同種の表現を自動的に収集する手法があれば便利である。
そうした分析は、例えば発話のテンポの検出等に利用できるであろう。また、韻律や声質等情報は、会話において最もよく利用されるが、会話以外においても利用されることがある。したがって、分析の対象は音声対話データベースには限定されない。
それゆえに本発明の目的は、テキスト情報に依存せずに、音声波形情報の分析を可能とする装置を提供することである。
この発明の他の目的は、テキスト情報に依存せずに、音声波形情報中に現れる同種の音声パターンを自動的に収集し、それらの分析を可能とする装置を提供することである。
本発明の第1の局面に係る音声波形情報分析の前処理装置は、音声波形情報を分析するに先立ち、音声波形情報に対する前処理を行なうための、音声波形情報分析の前処理装置であって、音声波形情報に対し所定の音声波形判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、判別後のシンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、音声波形情報中での出現個所を特定するための出現個所特定手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、出現個所特定手段により特定された出現個所とともにシンボル列パターン記録したパターンデータベースを作成するための手段とを含む。
好ましくは、音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む。
さらに好ましくは、音声認識手段は、音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む。
さらに好ましくは、シンボル列パターン抽出手段は、認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む。
前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含んでもよく、音響モデルは音声波形情報の話者に対する話者適応がされたものであってもよい。
本発明の第2の局面に係る音声波形情報分析装置は、音声波形情報に対し音声波形の判別処理を行ない、判別後のシンボル列を出力するための音声波形判別手段と、判別後の音声波形シンボル列中に複数回現れる、所定の範囲のシンボル数のシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形、音声波形情報中での出現個所を特定するためのシンボル列パターン出現個所特定手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、パターンデータベースを参照し、当該シンボル列パターンに対応する音声波形に対し、予め定める統計分析を行なうための統計分析手段とを含む。
音声波形判別手段は、音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含んでもよい。
好ましくは、音声認識手段は、音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む。
より好ましくは、シンボル列パターン抽出手段は、認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む。
前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含んでもよい。音響モデルは、音声波形情報の話者に対する話者適応がされたものであってもよい。
好ましくは、シンボル列パターン出現個所特定手段は、シンボル列パターン抽出手段により抽出されたシンボル列パターンごとに、当該シンボル列パターンの、判別後の音声波形シンボル列中での発話開始時刻と発話終了時刻とによりシンボル列パターンの出現個所を特定するための手段を含む。
さらに好ましくは、統計分析手段は、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、パターンデータベースに記録された出現個所に対応する音声波形の継続時間長の偏差値を算出するための手段を含む。
以下では、本発明の一実施の形態として、大規模自然音声対話データベースの中から、テキスト情報に依存せずに同種の音声パターンを自動的に収集し、統計的処理により発話のテンポを検出する装置について述べる。なお、統計的処理は、ここで述べるテンポの算出に限らず、例えば基本周波数、音のエネルギー(パワー)、及び声質等に対するものでもよい。
図1に、本実施の形態に係る発話テンポ検出装置20のブロック図を示す。図1を参照して、この発話テンポ検出装置20は、予め話者非依存の音声データで学習を済ませていた基本HMM(隠れマルコフモデル)31に対し、特定話者の音素バランス文の読上げ音声からなる学習用音声30を用いてHMM学習部32により話者適応を行なうことにより得られるHMM36を用いて、同じ話者による日常会話の音声波形情報からなる音声試料38を分析し、特にその発話テンポを検出してテンポ情報40を出力するための装置である。
音声試料38としてはある特定の話者の自然対話音声からなる音声波形情報であればどのようなものでもよい。分析の目的によっては、対話の相手は、話者との関係がどのようなものであるかを特定できる者(父母、配偶者、子供、親戚、友人、他人等)であることが望ましい。音声試料38は予め各発話に分割し、それぞれ開始時間及び終了時間を付与しておく。
発話テンポ検出装置20は、HMM36を用いた音声認識により、音声試料38の各発話の音素認識を行なって認識後音素文字列62を出力するための音素認識部60を含む。すなわち、図2を参照して、音素認識部60により、音声試料38の音声データの音響特徴量に基づいて、音声波形90、92、94、96等を認識後音素文字列62に対応付ける。
認識後音素文字列62はテキスト形式であるが、後に述べるようにこれらの音素文字列は音声信号パターンの特徴を反映する単なるシンボル列として取り扱い、発話内容のテキスト情報としては扱わない。したがって、認識結果文字列と書き起こしテキストとの対応関係に基づく音声認識精度についてはここではそれほど問題とはしない。したがって、HMM36は音声試料38の話者に適応させたものである必要はない。もっとも、HMM36を音声試料38の話者に適応させることで認識精度が高まり、発話テンポ検出装置20の性能が向上することは分かっている。
なお、本実施の形態では音素文字列によって音声波形を音素文字列に変換しているが、本発明はそのような実施の形態には限定されない。音声波形を判別して所定のシンボルに変換するような機能を持つものであれば、どのようなものでも音素認識部60に代えて使用することができる。
図1を参照して、発話テンポ検出装置20はさらに、マルチグラム・パッケージを用いて認識後音素文字列62中に含まれる同種の音素列のパターンを抽出しパターン辞書68を作成するためのパターン抽出部64を含む。マルチグラム・パッケージの詳細については非特許文献2を参照されたいが、簡単にいえば、入力文字列テキストに含まれる文字列パターンの中から、指定した長さより短く、指定した頻度よりも多く出現するものを可変長で抽出した上で、それらの出現確率をEM(Expectation−Maximization)アルゴリズムに基づいて計算するツールキットである。
図2を参照して、パターン抽出部64の機能について説明する。図2に示されるように、音声試料38中の音声データに、互いに類似した音声波形90、92、94及び96が存在したものとする。これらは、音素認識部60により音素文字列110、112、114及び116として認識されたものとする。すると、これら音素文字列は、互いに類似したものとなり、多くの場合には互いに一致したものとなると思われる。パターン抽出部64は、全対話分の認識後音素文字列62にこのように繰返し現れる可変長の音素文字列パターンのうち、5音素〜10音素の範囲の長さに相当するものを類似音声パターンとして抽出し、パターン辞書68に書出す機能を有する。
図1を参照して、発話テンポ検出装置20はさらに、パターン辞書68を用い、パターン抽出部64により抽出された類似音声パターンの中で、同じ音声パターンに対応する音声区間同士の出現個所を音声試料38の対話データ全体にわたって特定し、統合することにより、類似音声パターンのグループを作り、各グループを代表する音素文字列と、その出現件数及び出現確率と、各グループを構成する音素文字列に対応する発話の開始・終了時刻とをまとめたパターンDB(データベース)72を作成するためのパターン統合部70と、パターンDB72に格納された各グループを構成する発話の音声パターン継続時間に基づき、音声試料38の対話における話者の発話テンポを算出しテンポ情報40を出力するためのテンポ算出部74とを含む。パターンDB72の作成までが分析の前処理に相当する。パターンDB72を作成することにより、この情報を利用した種々の音声分析を行なうことができる。
図3に、パターンDB72の構成を示す。図3を参照して、パターンDB72は、各擬似音声パターンに属する発話ごとの出現個所の記述140、142、144、…、146を含む。例えば出現個所の記述140は、音声試料38内における音素文字列「○○○○○」の出現件数及び出現確率、およびそれに対応する発話ごとに、その開始時間と終了時間とをリストしたものである。パターンDB72を参照することにより、ある類似音声パターンについて、音声試料38に現れる対応する発話の継続時間長をいずれも算出することができる。
テンポ算出部74は、以下のようにして音声試料38に含まれる発話のテンポを算出する。対話音声は多様な発話形式を含む。そのため、同一のテキスト情報を伝達する音声セグメントであっても、長音化等発話変形の影響により、従来のモーラ・テンポ(=発話継続長/モーラ数)では発話テンポを規定することが困難であると考えられる。そこで、本実施の形態では、テンポ算出部74は、同一の類似音声グループに割り振られた音声セグメント同士に着目し、発話テンポの指標として、音声パターンの継続時間長の偏差値を求める。
すなわち、テンポ算出部74は、パターンDB72に含まれる、類似音声パターン全ての継続時間長に基づき、各音声パターンの継続時間長の、このグループにおける偏差値を求める。テンポ算出部74は、この作業をパターンDB72に含まれる全ての類似音声パターンのグループに対して行なう。これにより、音声試料38中に見出される全ての類似音声パターンのグループについて、各類似音声パターンの平均的継続時間長を基準としたテンポの変化を見ることができる。
図1〜図3に示す発話テンポ検出装置20は以下のように動作する。まず、音声試料38を準備しておく必要がある。音声試料38については、発話ごとに分割してその開始・終了時間を付与しておく。
音声試料38と同じ話者について、音素バランス文の読上音声からなる学習用音声30を準備する。予め話者非依存の音声データで学習を済ませていた基本HMM31に対し、学習用音声30を用いた話者適応を行なうことでHMM36を準備する。この適応により、音素認識部60による音声試料38の音素認識精度が向上する。
音声試料38及びHMM36が準備されると、音素認識部60が音声試料38に対して音素認識を行ない、認識後音素文字列62を出力する。パターン抽出部64は、認識後音素文字列62を、その意味を無視して単なるシンボル列として取り扱い、全対話分の認識後音素文字列62に繰返し現れる可変長パターンのうち、5音素〜10音素の範囲の長さに相当するものを類似音声パターンとして抽出する。検出された類似音声パターンにはその開始時刻及び終了時刻が付与されパターン統合部70に与えられる。
パターン統合部70は、パターン抽出部64により抽出された類似音声パターンの中で、同じ音声パターンに対応する音声区間同士を音声試料38の対話データ全体にわたって統合する。この処理により、類似音声パターンごとのグループが作成され、各グループを代表する音素文字列と、各グループを構成する発話の開始・終了時刻とをまとめたパターンDB72(図3参照)が作成される。
テンポ算出部74は、パターンDB72に格納された類似音声パターンのグループごとに、そこに属する音素文字列に対応する音声パターンの継続時間長の偏差値を求め、テンポ情報40として出力する。この偏差値は、各類似音声パターンについて、平均と比較した速さ(テンポ)を示すものとなる。すなわち、本実施の形態では、類似音声パターンについて計算された偏差値が大きいほど、その部分での発話テンポは遅いと考えられる。
実際に上記した発話テンポ検出装置20をコンピュータ上で動作するプログラムにより実現して実験した。その結果を図4に示す。
図4において、従来の方法で算出したモーラ・テンポを線160により示す。本実施の形態に係る装置により算出した偏差値を「p」の字で示す。なお、図4は20分程度の対話データのうち、対話開始から423.139秒〜428.362秒の間に行なわれた発話を分析した結果を示す。
図4から明らかなように、一発話内の発話テンポの変化に着目した場合、従来のモーラ・テンポは一定値となるのに対し、本実施の形態に係る発話テンポ検出装置20によれば、大部分のサンプルにおいて発話テンポの滑らかな推移を示す出力を得ることができた。これは、上記したように音素認識によって得た音素文字列を、発話の音響特徴量の時系列パターンをインデクシングするための単なるシンボルとして捉え、このシンボルを用いて元の音響特徴量を処理する、という方法が有効であることを示す。なお、ときおり偏差値50以上の外れ値が見られるが、これらは句末音の引き伸ばし等に対応していると考えられる。
以上のように本実施の形態に係る発話テンポ検出装置20によれば、テキスト情報に依存せず、対話を構成する大量の音声情報のみからその中に繰返し出現する類似音声パターンを自動抽出することができる。そのように自動抽出した類似音声パターンの発話の開始・終了時間に基づき、対話中の発話テンポの推移を検出することができる。したがって、大規模音声対話データベースから、テキスト情報に依存せずに、テキスト情報以外の韻律又は声質等の情報を抽出し処理する基本的な枠組みを提供することができる。
なお、上記した実施の形態では音素認識により得られた音素文字列を使用して、類似音声パターンの分類を行なった。しかし、本発明はそのような実施の形態には限定されず、音声認識により、同種の音声パターンをコンピュータで処理可能な同種のシンボル列に変換するようなものであれば、どのような認識方法を用いてもよい。例えば単語単位、モーラ単位等の音声認識を用いてもよい。
また、パターンDB72の形式も図3に示すものには限定されない。類似音声パターンに対応する発話ごとに、その継続時間長が算出可能な形式であれば、どのような形式のファイルを用いてもよい。
さらに、上記した実施の形態では、分析の内容をテンポの推移の検出としたが、本実施の形態に係る前処理は、他の分析の前処理として実施することもできる。すなわち、音声波形情報中の類似したパターンをまとめて処理するような場合には、上記した方法による前処理が有効である。処理対象の情報としては、基本周波数、音のエネルギー、又は声質を挙げることができる。また、同じシンボル列に対応する音声波形の出現個所を特定することで、同じ音素列からなる種々の音声を対比することができる。例えばテンポ等の推移に限らず、種々の出現個所における音声の使用方法とそれらの持つ種々の音声的特徴とを統計的に処理して、人間による発話の様式を多様な形で分析することが可能になる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る発話テンポ検出装置20のブロック図である。 図1に示す音素認識部60の機能を説明するための模式図である。 図1に示すパターンDB72の構成を説明するための模式図である。 本実施の形態の装置により行なった発話テンポ分析の結果を示すグラフである。
符号の説明
20 発話テンポ検出装置、30 学習用音声、32 HMM学習部、36 HMM,38 音声試料、40 テンポ情報、60 音素認識部、62 認識後音素文字列、64 パターン抽出部、68 パターン辞書、70 パターン統合部、72 パターンDB、74 テンポ算出部

Claims (14)

  1. 音声波形情報を分析するに先立ち、前記音声波形情報に対する前処理を行なうための、音声波形情報分析の前処理装置であって、
    前記音声波形情報に対し所定の音声波形判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、
    前記判別後のシンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、
    前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での出現個所を特定するための出現個所特定手段と
    前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段とを含む、音声波形情報分析の前処理装置。
  2. 前記音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む、請求項1に記載の音声波形情報分析の前処理装置。
  3. 前記音声認識手段は、前記音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む、請求項2に記載の音声波形情報分析の前処理装置。
  4. 前記シンボル列パターン抽出手段は、前記認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む、請求項3に記載の音声波形情報分析の前処理装置。
  5. 前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含む、請求項2に記載の音声波形情報分析の前処理装置。
  6. 前記音響モデルによる音声認識手段は、前記音声波形情報の話者に対する話者適応がされた音響モデルを用いて、前記音声波形情報に対する音声認識を行なうための手段を含む、請求項5に記載の音声波形情報分析の前処理装置。
  7. 音声波形情報に対し音声波形の判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、
    前記判別後の音声波形シンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、
    前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での出現個所を特定するためのシンボル列パターン出現個所特定手段と、
    前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段と、
    前記シンボル列パターン抽出手段により抽出されたシンボル列パターンごとに、前記パターンデータベースを参照し、当該シンボル列パターン対応する音声波形に対し、予め定める統計分析を行なうための統計分析手段とを含む、音声波形情報分析装置。
  8. 前記音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む、請求項7に記載の音声波形情報分析装置。
  9. 前記音声認識手段は、前記音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む、請求項8に記載の音声波形情報分析装置。
  10. 前記シンボル列パターン抽出手段は、前記認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む、請求項7に記載の音声波形情報分析装置。
  11. 前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含む、請求項8に記載の音声波形情報分析装置。
  12. 前記音響モデルによる音声認識手段は、前記音声波形情報の話者に対する話者適応がされた音響モデルを用いて、前記音声波形情報に対する音声認識を行なうための手段を含む、請求項11に記載の音声波形情報分析装置。
  13. 前記シンボル列パターン出現個所特定手段は、前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での発話開始時刻と発話終了時刻とにより前記シンボル列パターンの出現個所を特定するための手段を含む、請求項7〜請求項12のいずれかに記載の音声波形情報分析装置。
  14. 前記統計分析手段は、前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記パターンデータベース記録された出現個所に対応する音声波形の継続時間長の偏差値を算出するための手段を含む、請求項13に記載の音声波形情報分析装置。
JP2004064447A 2004-03-08 2004-03-08 音声波形情報分析装置及びその前処理装置 Expired - Fee Related JP4213608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004064447A JP4213608B2 (ja) 2004-03-08 2004-03-08 音声波形情報分析装置及びその前処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004064447A JP4213608B2 (ja) 2004-03-08 2004-03-08 音声波形情報分析装置及びその前処理装置

Publications (2)

Publication Number Publication Date
JP2005250388A JP2005250388A (ja) 2005-09-15
JP4213608B2 true JP4213608B2 (ja) 2009-01-21

Family

ID=35030891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004064447A Expired - Fee Related JP4213608B2 (ja) 2004-03-08 2004-03-08 音声波形情報分析装置及びその前処理装置

Country Status (1)

Country Link
JP (1) JP4213608B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4567606B2 (ja) * 2006-01-05 2010-10-20 富士通株式会社 音声データの聞き出し部分特定処理プログラムおよび処理装置

Also Published As

Publication number Publication date
JP2005250388A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JPH09500223A (ja) 多言語音声認識システム
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP5007401B2 (ja) 発音評定装置、およびプログラム
Nadungodage et al. Continuous sinhala speech recognizer
JP2017009842A (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP4811993B2 (ja) 音声処理装置、およびプログラム
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
CN111402887A (zh) 一种语音转义文字的方法及装置
JP4213608B2 (ja) 音声波形情報分析装置及びその前処理装置
Rahul et al. Design of Manipuri keywords spotting system using HMM
Mankala et al. Automatic speech processing using HTK for Telugu language
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
JP5028599B2 (ja) 音声処理装置、およびプログラム
Bassan et al. An experimental study of continuous automatic speech recognition system using MFCC with Reference to Punjabi
Wang et al. Automatic language recognition with tonal and non-tonal language pre-classification

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees