JPH11311994A - 情報処理装置および方法、並びに提供媒体 - Google Patents

情報処理装置および方法、並びに提供媒体

Info

Publication number
JPH11311994A
JPH11311994A JP10120542A JP12054298A JPH11311994A JP H11311994 A JPH11311994 A JP H11311994A JP 10120542 A JP10120542 A JP 10120542A JP 12054298 A JP12054298 A JP 12054298A JP H11311994 A JPH11311994 A JP H11311994A
Authority
JP
Japan
Prior art keywords
recognition result
normalized
duration
continuation time
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10120542A
Other languages
English (en)
Inventor
Masanori Omote
雅則 表
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10120542A priority Critical patent/JPH11311994A/ja
Publication of JPH11311994A publication Critical patent/JPH11311994A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識率をより向上させる。 【解決手段】 特徴抽出部12は、マイク11を介して
入力された音声信号から特徴ベクトルを抽出し、照合部
16に出力する。照合部16は、音韻モデル記憶部13
の音韻モデル、辞書記憶部14の辞書、文法記憶部15
の文法を参照して、少なくとも1つ以上の認識結果候補
を生成し、ワードグラフとして認識結果記憶部17に記
憶させる。正規化継続時間計算部18は、認識結果候補
を構成している個々の単語の継続時間長と、各単語の継
続時間長の合計との比を表す正規化継続時間長を算出
し、ワードグラフの対応するアーク情報に付加する。認
識結果制御部20は、認識結果候補を構成する数字の正
規化継続時間長と、継続時間閾値記憶部19に記憶され
てる閾値を比較し、比較結果に対応して、認識結果候補
の受理または棄却を制御する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに提供媒体に関し、特に、入力された音声
信号の認識結果候補を構成する単語の正規化継続時間長
に基づいて、認識結果候補の受理または棄却を制御する
ことにより、認識率をより向上するようにした、情報処
理装置および方法、並びに提供媒体に関する。
【0002】
【従来の技術】図18は、従来の音声認識装置の構成例
を示すブロック図を示している。この例においては、ユ
ーザが発話した音声は、例えばマイク等の入力部102
に入力され、特徴抽出部103に供給される。特徴抽出
部103は、入力部102より入力された音声信号をA
/D変換するとともに、A/D変換された音声信号から
特徴量(特徴ベクトル)を抽出し、照合部104に出力
する。照合部104は、辞書記憶部106に記憶されて
る辞書(文法辞書)に従って、音響モデルを組み合わせ
ながら、特徴抽出部103で抽出された特徴量との照合
を行うようになされている。照合の結果(認識結果)
は、結果提示部107に供給され、結果提示部107
は、例えば、モニタ等の表示装置に結果を表示したり、
または、音声を用いて結果をユーザに提示するようにな
されている。
【0003】このような従来の音声認識装置において
は、音韻を単位とする隠れマルコフモデル(HMM(Hi
dden Markov Model))法に従って、状態遷移確率およ
びシンボル出力確率を用いて照合が行われる。また、そ
の他の照合の方式としては、状態継続時間を考慮するた
めに、状態継続確率を導入して計算する方式が知られて
いる。この方式では、単語の継続時間長を考慮した単位
が音韻モデルの状態とされることになる。この方式の一
例は、例えば、特開平8−248983号に開示されて
いる。このように、発話の継続時間長を考慮する認識方
式は、継続時間制御と称する。
【0004】入力音声として数字(数字列)を対称とす
る数字列音声認識は、例えば電話番号の認識などに用い
られている。電話番号の認識では、数字を単位とする音
響モデル(例えば、数字の1の場合、/ichi/)を
用いたり、数字を単位とする場合より小さい単位の音響
モデル(例えば、数字の1の場合、/i/と/chi
/)を接続することにより数字を構成する認識方式が広
く採用されている。これらの方法において、発話の継続
時間長の制御は一般には用いられていないが、継続時間
長制御を用いる場合、認識時に参照する継続時間長デー
タベースは、絶対時間を示す固定値が用いられる。
【0005】
【発明が解決しようとする課題】しかしながら、継続時
間長を固定値としている数字列音声認識装置において
は、話者が早く発話したり遅く発話したりすると、認識
の精度が低下してしまう課題があった。
【0006】そこで、発話速度に対応して、設定されて
いる継続時間長の値を更新することも考えられるが、こ
の分の処理が必要となる課題があった。
【0007】本発明はこのような状況に鑑みてなされた
ものであり、入力された音声信号の認識結果候補を構成
する単語の正規化継続時間長をそれぞれ算出し、その正
規化継続時間長に基づいて認識結果候補の受理または棄
却を制御することにより、より高精度な認識を行うこと
ができるようにするものである。
【0008】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、音声信号を入力する入力手段と、入力手段に
より入力された音声信号を認識し、少なくとも1つ以上
の認識結果候補を生成する生成手段と、生成手段により
生成された認識結果候補を構成している個々の単語の継
続時間長と、各単語の継続時間長の合計との比を表す正
規化継続時間長を算出する算出手段と、算出手段により
算出された正規化継続時間長に基づいて、認識結果候補
の受理または棄却を制御する制御手段とを備えることを
特徴とする。
【0009】請求項4に記載の情報処理方法は、音声信
号を入力する入力ステップと、入力ステップで入力され
た音声信号を認識し、少なくとも1つ以上の認識結果候
補を生成する生成ステップと、生成ステップで生成され
た認識結果候補を構成している個々の単語の継続時間長
と、各単語の継続時間長の合計との比を表す正規化継続
時間長を算出する算出ステップと、算出ステップで算出
された正規化継続時間長に基づいて、認識結果候補の受
理または棄却を制御する制御ステップとを含むことを特
徴とする。
【0010】請求項5に記載の提供媒体は、音声信号を
入力する入力ステップと、入力ステップで入力された音
声信号を認識し、少なくとも1つ以上の認識結果候補を
生成する生成ステップと、生成ステップで生成された認
識結果候補を構成している個々の単語の継続時間長と、
各単語の継続時間長の合計との比を表す正規化継続時間
長を算出する算出ステップと、算出ステップで算出され
た正規化継続時間長に基づいて、認識結果候補の受理ま
たは棄却を制御する制御ステップとを含む処理を情報処
理装置に実行させるコンピュータが読み取り可能なプロ
グラムを提供することを特徴とする。
【0011】請求項1に記載の情報処理装置、請求項4
に記載の情報処理方法、および請求項5に記載の提供媒
体においては、入力された音声信号から少なくとも1つ
以上の認識結果候補が生成され、認識結果候補を構成し
ている個々の単語の継続時間長と、各単語の継続時間長
の合計との比を表す正規化継続時間長が算出され、算出
された正規化継続時間長に基づいて、認識結果候補の受
理または棄却が制御される。
【0012】
【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
【0013】請求項1に記載の情報処理装置は、音声信
号を入力する入力手段(例えば、図1のマイク11)
と、入力手段により入力された音声信号を認識し、少な
くとも1つ以上の認識結果候補を生成する生成手段(例
えば、図1の照合部16)と、生成手段により生成され
た認識結果候補を構成している個々の単語の継続時間長
と、各単語の継続時間長の合計との比を表す正規化継続
時間長を算出する算出手段(例えば、図1の正規化継続
時間計算部18)と、算出手段により算出された正規化
継続時間長に基づいて、認識結果候補の受理または棄却
を制御する制御手段(例えば、図1の認識結果制御部2
0)とを備えることを特徴とする。
【0014】請求項3に記載の情報処理装置は、0乃至
9までの数字のそれぞれの正規化継続時間の閾値を記憶
する記憶手段(例えば、図1の継続時間閾値記憶部1
9)をさらに備え、制御手段は、認識結果候補を構成す
る数字の正規化継続時間と、記憶手段により記憶された
閾値を比較することにより、認識結果候補の受理または
棄却を制御することを特徴とする。
【0015】図1は、本発明の情報処理装置を適用し
た、音声認識装置の一実施の形態の構成例を示すブロッ
ク図である。この例において、マイク11は、ユーザが
発話した音声を音声信号として特徴抽出部12に入力す
る。特徴抽出部12は、マイク11より供給された音声
信号をA/D変換するとともに、A/D変換された音声
信号から特徴ベクトルを抽出し、照合部16に出力する
ようになされている。本実施の形態において、特徴抽出
部12は、特徴抽出方法として38次元のMFCC(Mel Fr
equency Cepstralm Coefficients)分析を行い、特徴ベ
クトルの時系列を10.67msec単位で構成(出力)するよ
うになされている。なお、MFCC分析の代わりに、LPC(L
inear Predictive Coding)分析や、所定のフィルタバ
ンクを用いて、特徴ベクトルを抽出するようにしてもよ
い。
【0016】音韻モデル記憶部13は、left to right
型HMMにより表現された音韻モデル(またはテンプレ
ート)を記憶している。辞書記憶部14は、音モデル記
憶部13に記憶されている音韻モデルを接続するための
単語辞書を記憶し、文法記憶部15は、単語列の制約と
しての文法を記憶している。照合部16は、特徴抽出部
12より供給される特徴ベクトルの時系列に対して、音
韻モデル13に記憶されている音韻モデル、辞書記憶部
14に記憶されている単語辞書、および文法記憶部15
に記憶されている文法に従って、音声認識を実行し、複
数の認識結果候補を、認識結果記憶部17に出力するよ
うになされている。
【0017】認識結果記憶部17は、照合部16より供
給された認識結果候補を一時的に記憶するようになされ
ている。正規化継続時間計算部18は、認識結果記憶部
17に記憶されている認識結果候補を構成する個々の単
語(本発明の実施の形態の場合、0乃至9までの数字)
の正規化継続時間(対応する数字の継続時間長と、発話
された数字列の合計の継続時間長(発話時間)の比)を
それぞれ算出するようになされている。
【0018】継続時間閾値記憶部19は、各数字の正規
化継続時間長に対応する閾値を記憶している(この点の
詳細については、図15を参照して後述する)。認識結
果制御部20は、認識結果記憶部17に記憶されている
認識結果候補を構成する個々の単語の正規化継続時間長
と、継続時間閾値記憶部19に記憶されている継続時間
長の閾値を順次比較し、認識結果候補の受理または棄却
を制御するようになされている。結果表示部21は、認
識結果制御部20により受理された最終結果を、例えば
モニタ等により構成される結果表示部21に表示させる
ようになされている。
【0019】次に、図2と図3のフローチャートを参照
して、その動作を説明する。まず、ステップS1におい
て、特徴抽出部12は、マイク11より供給された音声
信号から特徴ベクトル時系列を抽出し、照合部16に出
力する。ステップS2において、照合部16は、辞書記
憶部14に記憶されている辞書および文法記憶部15に
記憶されている文法に基づいて音韻モデル記憶部13に
記憶されている音韻モデルを接続した候補モデル列と、
特徴抽出部12より供給された特徴ベクトル時系列との
照合を行い、認識結果候補(以下、適宜、単に候補と称
する)を、複数の経路で表したワードグラフとして認識
結果記憶部17に出力する。
【0020】ステップS3において、認識結果記憶部1
7は、照合部16より供給された候補(ワードグラフ)
を、各候補に含まれる数字の発話開始時刻および終了時
刻と、照合時のスコアと合わせて記憶する。なお、本実
施の形態においては、「C.H.Lee, F.K.Soong and K.K.
Paliwal "Automatic Speech and Speaker Recognition
Advance Topics", Kluwer Academic Publishers, pp.38
5-411, 1996」に開示されている方法に従って、ワード
グラフが作成される。
【0021】図4は、ワードグラフの構成例を示してい
る。このワードグラフは、ノード情報と、アーク情報と
により構成されており、認識結果(いまの場合、所定の
数字)、その照合スコア、および、正規化継続時間計算
部18により算出された正規化継続時間長がアーク情報
に対応付けれられて認識結果記憶部17に記憶される。
照合スコアとしては、ワードに対応する部分のHMMが
出力した確率値の対数が用いられている。そして、候補
(各経路)を構成する各数字のスコアの合計が、その候
補のスコアとなる。なお、本実施の形態においては、複
数の認識結果候補をワードグラフ形式で用いるようにし
たが、複数の認識結果候補を並列に記述するような構成
にしてもよい。
【0022】続いて、ステップS4において、正規化継
続時間計算部18は、認識結果記憶部17に記憶された
認識結果候補の先頭からi番目の数字に対応する正規化
継続時間長を、以下の式に従って算出する。
【数1】
【0023】式(1)において、Nは、認識結果候補に
含まれる数字の数、diは、i番目の数字の継続時間長
をそれぞれ示している。正規化継続時間計算部18は、
認識結果候補を構成している個々の数字の正規化継続時
間長をそれぞれ算出し、認識結果記憶部17に出力す
る。
【0024】ステップS5に進み、認識結果記憶部17
は、正規化継続時間計算部18により算出された、個々
の数字の正規化継続時間を、ワードグラフの対応するア
ーク情報に付加して記憶する。なお、ワードグラフのア
ーク情報に、式(1)に従って算出された正規化継続時
間長を付加するようにしたが、継続時間長そのものを付
加するようにしても良い。
【0025】ステップS6において、識別結果制御部2
0は、認識結果記憶部17に記憶されているワードグラ
フの候補のうち、最もよい(高い)スコアの候補に注目
し、ステップS7において、注目している候補を構成し
ている個々の数字の正規化継続時間長と、継続時間閾値
記憶部19に記憶されている正規化継続時間長の閾値と
をそれぞれ比較する。
【0026】本発明の実施の形態においては、所定の数
字列データベースに登録されている数字0乃至9の正規
化継続時間長を算出し、算出された各数字の正規化継続
時間長に対応して、それぞれの数字の正規化継続時間長
の閾値が決定されている。
【0027】図5乃至14は、それぞれ、数字列データ
ベースの数字0乃至9に対応する正規化継続時間長の出
現頻度の分布を示している。各図において、横軸は正規
化継続時間長を示し、縦軸は出現頻度を示している。例
えば、図5の、数字0の場合の正規化継続時間長の出現
頻度の分布は、約0.7乃至1.5の範囲であることが
わかる。これに対応して、数字0の正規化継続時間長の
閾値(下限)は、0.7とされる。このようにして、図
5乃至14に示されている各数字の正規化継続時間長の
分布に従って、各数字の正規化継続時間長の閾値をそれ
ぞれ定めると、図15に示すようになる。そして、これ
らの閾値が、継続時間長閾値記憶部19に記憶されてい
る。なお、これらの閾値を、話速に対応して動的に変更
するようにしてもよい。
【0028】続いて、ステップS8において、ステップ
S7における比較の結果、候補を構成する各数字の正規
化継続時間が全て閾値以上であるか否かが判定され、候
補を構成する各数字のうち1つでも正規化継続時間が閾
値以下の数字が存在すると判定された場合、ステップS
9に進む。ステップS9で、識別結果記憶部17に記憶
されているワードグラフに他の候補があるか否かが判定
され、他に候補がないと判定された場合、ステップS1
0に進み、認識結果が無いものとされ、終了される。
【0029】ステップS9において、ワードグラフに他
の候補があると判定された場合、ステップS11に進
み、次に良い(高い)スコアの候補が注目され、ステッ
プS7に戻り、以降の処理が実行される。ステップS8
において、候補を構成する各数字の正規化継続時間が全
て閾値以上であると判定された場合、ステップS12に
進み、認識結果制御部20は、その候補を最終結果とし
て、結果表示部21に表示させる。
【0030】このように、条件を満たす(それを構成す
る全ての数字の正規化継続時間長が閾値以上である)候
補が出るか、または、全ての候補が無くなるまで、ステ
ップS7乃至S12までの処理が繰り返されることにな
る。
【0031】図16は、本発明の実施の形態において得
られた認識結果(認識率)例を示している。この例にお
いては、合計8人の話者が1乃至6桁の連続数字を発話
した場合のそれぞれの認識率を示しており、太い実線
は、8人の話者の認識率の平均を表している。同図の横
軸は、各数字に定めれられた正規化継続時間長の閾値を
1としたときの割合であり、この割合が0であるとき、
正規化継続時間長の制限がないことを示す(即ち、従来
の認識率を表す)。このときの認識率の違いを図17に
示す。同図に示されている認識率の8話者平均を見る
と、従来の場合(85.94)と本発明を適用した場合
(92.65)を比較すると、本発明を適用した場合の
ほうが、認識率がより高く(+6.71)なることがわ
かる。
【0032】なお、以上の実施の形態においては、数字
列を認識する場合を示したが、勿論、他の単語を認識す
る場合にも適用することができる。
【0033】また、上記各種の処理を行うコンピュータ
プログラムをユーザに提供する提供媒体としては、磁気
ディスク、CD-ROM、固体メモリなどの記録媒体の他、ネ
ットワーク、衛星などの通信媒体を利用することができ
る。
【0034】
【発明の効果】以上の如く、請求項1に記載の情報処理
装置、請求項4に記載の情報処理方法、および請求項5
に記載の提供媒体においては、入力された音声信号から
少なくとも1つ以上の認識結果候補を生成し、認識結果
候補を構成している個々の単語の継続時間長と、各単語
の継続時間長の合計との比を表す正規化継続時間長を算
出し、算出された正規化継続時間長に基づいて、認識結
果候補の受理または棄却を制御するようにしたので、例
えば、連続発話された数字列を認識する際に、認識率を
より向上させることができる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
【図2】図1の音声認識装置の処理を説明するフローチ
ャートである。
【図3】図2に続くフローチャートである。
【図4】ワードグラフを説明する図である。
【図5】正規化継続時間長の分布例(0の場合)を示す
図である。
【図6】正規化継続時間長の分布例(1の場合)を示す
図である。
【図7】正規化継続時間長の分布例(2の場合)を示す
図である。
【図8】正規化継続時間長の分布例(3の場合)を示す
図である。
【図9】正規化継続時間長の分布例(4の場合)を示す
図である。
【図10】正規化継続時間長の分布例(5の場合)を示
す図である。
【図11】正規化継続時間長の分布例(6の場合)を示
す図である。
【図12】正規化継続時間長の分布例(7の場合)を示
す図である。
【図13】正規化継続時間長の分布例(8の場合)を示
す図である。
【図14】正規化継続時間長の分布例(9の場合)を示
す図である。
【図15】継続時間閾値記憶部に記憶されている閾値の
例を示す図である。
【図16】認識率の例を示す図である。
【図17】従来の場合と本発明を適用した場合の認識率
の比較を示す図である。
【図18】従来の音声認識装置の構成例を示すブロック
図である。
【符号の説明】
11 マイク, 12 特徴抽出部, 13 音韻モデ
ル記憶部, 14 辞書記憶部, 15 文法記憶部,
16 照合部, 17 認識結果記憶部,18 正規
化継続時間計算部, 19 継続時間閾値記憶部, 2
0 認識結果制御部, 結果表示部21

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を入力する入力手段と、 前記入力手段により入力された前記音声信号を認識し、
    少なくとも1つ以上の認識結果候補を生成する生成手段
    と、 前記生成手段により生成された前記認識結果候補を構成
    している個々の単語の継続時間長と前記各単語の継続時
    間長の合計との比を表す正規化継続時間長を算出する算
    出手段と、 前記算出手段により算出された前記正規化継続時間長に
    基づいて、前記認識結果候補の受理または棄却を制御す
    る制御手段とを備えることを特徴とする情報処理装置。
  2. 【請求項2】 前記音声信号は、連続発話された所定桁
    数の数字列に対応する音声信号であり、 前記単語は、0乃至9までのいずれかの数字であること
    を特徴とする請求項1に記載の情報処理装置。
  3. 【請求項3】 数字0乃至9のそれぞれに対応する正規
    化継続時間長の閾値を記憶する記憶手段をさらに備え、 前記制御手段は、前記認識結果候補を構成する数字の前
    記正規化継続時間長と、前記記憶手段に記憶されてい
    る、前記数字の正規化継続時間長に対応する閾値とを比
    較し、比較結果に対応して前記認識結果候補の受理また
    は棄却を制御することを特徴とする請求項2に記載の情
    報処理装置。
  4. 【請求項4】 音声信号を入力する入力ステップと、 前記入力ステップで入力された前記音声信号を認識し、
    少なくとも1つ以上の認識結果候補を生成する生成ステ
    ップと、 前記生成ステップで生成された前記認識結果候補を構成
    している個々の単語の継続時間長と、前記各単語の継続
    時間長の合計との比を表す正規化継続時間長を算出する
    算出ステップと、 前記算出ステップで算出された前記正規化継続時間長に
    基づいて、前記認識結果候補の受理または棄却を制御す
    る制御ステップとを含むことを特徴とする情報処理方
    法。
  5. 【請求項5】 音声信号を入力する入力ステップと、 前記入力ステップで入力された前記音声信号を認識し、
    少なくとも1つ以上の認識結果候補を生成する生成ステ
    ップと、 前記生成ステップで生成された前記認識結果候補を構成
    している個々の単語の継続時間長と前記各単語の継続時
    間長の合計の比を表す正規化継続時間長を算出する算出
    ステップと、 前記算出ステップで算出された前記正規化継続時間長に
    基づいて、前記認識結果候補の受理または棄却を制御す
    る制御ステップとを含む処理を情報処理装置に実行させ
    るコンピュータが読み取り可能なプログラムを提供する
    ことを特徴とする提供媒体。
JP10120542A 1998-04-30 1998-04-30 情報処理装置および方法、並びに提供媒体 Withdrawn JPH11311994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10120542A JPH11311994A (ja) 1998-04-30 1998-04-30 情報処理装置および方法、並びに提供媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10120542A JPH11311994A (ja) 1998-04-30 1998-04-30 情報処理装置および方法、並びに提供媒体

Publications (1)

Publication Number Publication Date
JPH11311994A true JPH11311994A (ja) 1999-11-09

Family

ID=14788882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10120542A Withdrawn JPH11311994A (ja) 1998-04-30 1998-04-30 情報処理装置および方法、並びに提供媒体

Country Status (1)

Country Link
JP (1) JPH11311994A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682909B1 (ko) 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
JP2007536562A (ja) * 2004-01-12 2007-12-13 ヴォイス シグナル テクノロジーズ インコーポレーティッド 自動音声認識チャンネルの正規化
JP5583301B1 (ja) * 2013-11-29 2014-09-03 三菱電機株式会社 音声認識装置
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
WO2015098109A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
CN106297803A (zh) * 2016-10-12 2017-01-04 安徽徽云信息科技有限公司 一种计算机语音识别系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007536562A (ja) * 2004-01-12 2007-12-13 ヴォイス シグナル テクノロジーズ インコーポレーティッド 自動音声認識チャンネルの正規化
KR100682909B1 (ko) 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
US7684986B2 (en) 2004-12-23 2010-03-23 Samsung Electronics Co., Ltd. Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
JP5583301B1 (ja) * 2013-11-29 2014-09-03 三菱電機株式会社 音声認識装置
WO2015098109A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
JPWO2015098109A1 (ja) * 2013-12-26 2017-03-23 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
US9767795B2 (en) 2013-12-26 2017-09-19 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing device, speech recognition processing method and display device
CN106297803A (zh) * 2016-10-12 2017-01-04 安徽徽云信息科技有限公司 一种计算机语音识别系统

Similar Documents

Publication Publication Date Title
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
KR100679044B1 (ko) 사용자 적응형 음성 인식 방법 및 장치
US8972243B1 (en) Parse information encoding in a finite state transducer
US5865626A (en) Multi-dialect speech recognition method and apparatus
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH1097276A (ja) 音声認識方法及び装置並びに記憶媒体
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Boite et al. A new approach towards keyword spotting.
JP3535292B2 (ja) 音声認識システム
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JPH08123470A (ja) 音声認識装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPH08241096A (ja) 音声認識方法
JP2976795B2 (ja) 話者適応化方式
EP1369847B1 (en) Speech recognition method and system
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3357752B2 (ja) パターンマッチング装置
JP3841342B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705