JP2002268671A - 音声認識方法及び装置及び記憶媒体 - Google Patents

音声認識方法及び装置及び記憶媒体

Info

Publication number
JP2002268671A
JP2002268671A JP2001067222A JP2001067222A JP2002268671A JP 2002268671 A JP2002268671 A JP 2002268671A JP 2001067222 A JP2001067222 A JP 2001067222A JP 2001067222 A JP2001067222 A JP 2001067222A JP 2002268671 A JP2002268671 A JP 2002268671A
Authority
JP
Japan
Prior art keywords
recognition
speech
partial
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001067222A
Other languages
English (en)
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001067222A priority Critical patent/JP2002268671A/ja
Publication of JP2002268671A publication Critical patent/JP2002268671A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声認識対象となる語彙数を効果的に減少さ
せ、確実性の高い音声認識を実現する。 【解決手段】ステップS201〜S203により、入力
された音声信号から音声特徴量を抽出し、音声特徴量に
基づいて入力された音声信号を複数の部分音声信号に分
割する。ステップS207では、ステップS203で得
られた部分音声信号毎に音声認識を行なうが、この音声
認識において、部分音声信号毎に用いる対象語彙、すな
わち認識辞書を変更する(ステップS213)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法及び
その装置、及び、その音声認識方法を実施するプログラ
ムと、該プログラムを記憶した、コンピュータにより読
み取り可能な記憶媒体に関するものである。
【0002】
【従来の技術】近年、音声信号を文、単語、音素などの
文字系列に変換する音声認識装置が開発されている。
【0003】また、インターネットや電子メールの普及
に伴い、雑誌、電車の中吊り広告、食品の包装など様々
な場面で企業や個人のホームページのURLやメールア
ドレスが記載されていることが多い。そして、これらの
アドレスへコンピュータ等を用いてアクセスする場合に
は、その記載されたURL或いはメールアドレスの文字
列を人が読み取り、これをキーボードを用いてタイピン
グするのが一般的である。
【0004】
【発明が解決しようとする課題】しかしながら、例え
ば、携帯電話、PDA、ノートブックコンピュータなど
の携帯端末を持って電車に乗っている際に、中吊り広告
に書かれているURLに対応するページをブラウジング
しようとすると、URLの文字を1文字ずつ入力するこ
とはユーザに対して負担が大きい。特に携帯電話からの
キー入力は、キー数の制限等から非常に操作が煩わし
い。
【0005】このような課題に対処するために、上述の
ような音声認識を利用し、音声によってURLやメール
アドレスを入力できるようにすることが挙げられる。し
かしながら、世の中に存在するURLやメールアドレス
の全てを音声認識の対象とする場合、語彙数が膨大にな
るため、実用に耐え得る音声認識性能を得ることは困難
である。
【0006】本発明は上記の課題に鑑みてなされたもの
であり、音声認識対象となる語彙数を効果的に減少させ
て確実性の高い音声認識を実現することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声認識方法は以下のような工程を備える。
即ち、入力された音声信号を複数の部分音声信号に分割
する分割手段と、前記分割手段によって得られた部分音
声信号毎に音声認識を行なう認識手段と、前記認識手段
における部分音声信号毎の音声認識において、認識に用
いる対象語彙を変更する変更手段とを備える。
【0008】また、上記目的を達成するために本発明の
音声認識装置は以下のような構成を備える。即ち、入力
された音声信号を複数の部分音声信号に分割する分割工
程と、前記分割工程によって得られた部分音声信号毎に
音声認識を行なう認識工程と、前記認識工程における部
分音声信号毎の音声認識において、認識に用いる対象語
彙を変更する変更工程とを備える。
【0009】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0010】<第1実施形態> [音声認識装置の概要]図1は、第1実施形態1に係る
音声認識装置の構成を示すブロック図である。図1にお
いて、101はCPUで、ROM102に記憶された制
御プログラム或いは外部記憶装置104からRAM10
3にロードされた制御プログラムに従って、本実施形態
の音声認識装置における各種制御を行う。ROM102
は各種パラメータやCPU101が実行する制御プログ
ラムなどを格納している。RAM103は、CPU10
1による各種制御の実行時に作業領域を提供するととも
に、CPU101により実行される制御プログラムを記
憶する。
【0011】104は外部記憶装置であり、ハードディ
スク、フロッピー(登録商標)ディスク、CD−RO
M、DVD−ROM、メモリカード等のいずれか一つ或
いは複数で構成される。例えば、外部記憶装置104と
してハードディスクを用いた場合には、CD−ROMや
フロッピーディスク等からインストールされた各種プロ
グラムが記憶されることになる。
【0012】105は利用者の音声を取得するためのマ
イクロフォンなどの音響入力装置である。106はキー
ボード、マウス、ペン、スイッチ、タッチパネルなどの
補助入力装置であり、音声認識結果の正誤判断、音声入
力時の単語区切り時点の設定、音声認識結果の修正、複
数候補の音声認識結果の選択などを行う。107は液晶
やCRT等の表示部で、CPU101の制御により音声
認識結果、URLに対応するページ等の各種データの表
示を行う。108はスピーカ等の補助出力装置であり、
音声認識結果の確認等ディスプレイ以外の出力形態によ
ってシステムからの応答を行う。109は上記各部を接
続するバスである。
【0013】図2は、本実施形態による音声認識処理の
動作概要を説明する流れ図である。本実施形態の音声認
識処理においては、まず、発声された音声信号をその特
徴量に基づいて部分音声に分割する。そして、部分音声
毎に順次認識処理を実行していき、部分音声の認識結果
に応じて次の部分音声の認識に用いる音声認識辞書を変
更していく。なお、以下に示す各機能は、CPU101
がROM102或いはRAM103に格納された制御プ
ログラムを実行することにより実現される。
【0014】まず、ステップS201において音声入力
を行なう。ここでは、マイクロフォンなどの音響入力装
置105から利用者の音声の取りこみを行う。次にステ
ップS202において、ステップS201で入力された音声
入力について音声特徴量の抽出を行なう。この処理は、
入力音声の部分音声への分割や、部分音声の認識を行う
際に必要となる特徴量を抽出するものであり、例えば、
パワー、零交差回数、ケプストラム等の音声の特徴量を
上記入力音声から計算する。
【0015】ステップS203では、音声特徴量抽出部
202によって抽出された音声特徴量を用いて、発声さ
れた音声(入力音声)をN個の部分音声S(1), S(2),
... ,S(N)に分割する。このステップS203における
部分音声分割処理の手順については後述する。ここで
は、N個の部分音声に分割されたものとして以下の説明
を行なう。
【0016】ステップS204では、初期音声認識辞書
を設定する。ここでは、N個の部分音声のうちの、時系
列的に最後の最後の部分音声S(N)を認識するのに用いる
音声認識辞書を認識辞書セット209から選択し、後述
の部分音声認識処理(ステップS207)で用いる音声
認識辞書208に設定する。なお、本実施形態では、こ
の最終の部分音声に対応する認識辞書は予め決められて
いるとする。
【0017】ステップS205では、カウンタiを部分
音声の分割数Nに設定(i=N)する。ステップS20
6では、カウンタiが1以上であるか否かを判断する。
ここで、iが1以上であれば、ステップS207に進
み、i番目の部分音声S(i)に対する音声特徴量を入力と
して、音声認識辞書208および音響モデル210を用
いた音声認識を行う。最初の処理では、i=Nとなって
おり、部分音声S(N)の音声認識が行われることになり、
このとき音声認識辞書208はステップS204で初期
設定されたものである。
【0018】次に、ステップS211では、ステップS
207の部分音声認識処理から出力される部分音声S(i)
に対する音声認識結果の確定を行う。続く、ステップS
212では、カウンタiから1を減じる。そしてステッ
プS213において、音声認識辞書の再設定を行なう。
この音声認識辞書再設定処理では、ステップS211に
おける認識結果確定処理において確定された音声認識結
果に基づいて、次の部分音声S(i)を認識する際に用いる
音声認識辞書を認識辞書セット209から選択し、音声
認識辞書208に設定する。そして、処理をステップS
206に戻し、上記処理を繰り返す。
【0019】一方、ステップS206においてi≧1で
ないと判定された場合はステップS214へ進む。この
場合、全ての部分音声について認識処理を終えているこ
とになるので、S(1), S(2), ..., S(N)の順に部分音声
の認識結果を出力する。
【0020】[部分音声への分割処理(1)]図3は、
www.tokkyo.co.jp(ダブリューダブリューダブリュー_
トッキョ_シーオー_ジェーピー)という音声を4つの
部分音声、S(1)(ダブリューダブリュー)、S(2)(トッ
キョ)、S(3)(シーオー)、S(4)(ジェーピー)に分割
した様子を示す概念図である。入力音声から、S(1)、 S
(2)、 S(3)、 S(4)の部分音声区間を決定するいくつか
の方法を次に説明する。
【0021】図4は、入力音声を一定数(n=N)の部
分音声に分割するための簡単なアルゴリズムのフローチ
ャートである。このアルゴリズムは、音声波形のパワー
を音声特徴量として利用し、所定のパワーの閾値Pを連
続して超えた時間長が所定の継続時間長Dを超えた区間
を部分音声と判定する。
【0022】ステップS301において、時刻に関する
カウンタt、継続時間長に関するカウンタd、検出部分
音声数に関するカウンタnをそれぞれ0に設定する。次
にステップS302において、時刻tにおける音声波形
のパワーP(t)が所定のパワーの閾値Pより大きいか否
かを判定する。大きい場合は音声区間であると判定し、
ステップS303でカウンタdに1を加え、更にステッ
プS304でカウンタtに1を加えてステップ302に
戻る。
【0023】一方、ステップS302でP(t)が閾値P
以下の場合は、非音声区間であると判定し、ステップS
305へ進む。ステップS305では、dが所定の継続
時間長Dより大きいか否かを判定する。ここでdがD以
下の場合は部分音声の終了点ではないとし、ステップS
304へ進み、カウンタtに1を加えてステップS30
2に戻る。一方、ステップS305においてdがDより
大きい場合は、当該位置が部分音声の終了点であると判
定し、ステップS306に進む。ステップS306では
カウンタnに1を加えるとともに、カウンタdを0に設
定する。次に、ステップS307において、nが所定の
部分音声数Nと等しければ処理を終了し、等しくない場
合はステップS304へ進む。なお、図4のステップS
302でP(t)が閾値Pより大きいと判定される継続時
間長が所定の制限時間以上となる、すなわち入力信号レ
ベルが大きすぎる場合、もしくは、閾値P以下と判定さ
れた継続時間長が所定の制限時間以上となる、すなわち
入力信号レベルが小さすぎる場合は、タイムアウトとし
て図4の処理を終了するという処理を含めてもよい。ま
た、これら2種類の制限時間の設定値は異なっていても
よいものとする。
【0024】[部分音声への分割処理(2)]図5は、
入力音声を所定の数(N1≦n≦N2)の部分音声に分
割するためのアルゴリズムによるフローチャートであ
る。このアルゴリズムは、図4のアルゴリズムと基本的
には同じであるが、分割数が一意に決まっていないた
め、分割数がN1以上かつ非音声区間の継続時間が一定
長K以上となった場合に分割処理を終了する処理が含ま
れている。
【0025】ステップS401において、時刻に関する
カウンタt、継続時間長に関するカウンタd、検出部分
音声数に関するカウンタn、分割処理終了のための継続
時間長に関するカウンタkをそれぞれ0に設定する。次
にステップS402において、時刻tにおける音声波形
のパワーP(t)が所定のパワーの閾値Pより大きいか否
かを判定する。大きい場合は音声区間であると判定し、
ステップS403でカウンタdに1を加え、カウンタk
を0に設定する。そしてステップS404でカウンタt
に1を加え、ステップS402に戻る。
【0026】一方、ステップS402でP(t)がP以下
と判定された場合は、非音声区間であると判定し、ステ
ップS405に進む。ステップS405では、カウンタ
dが所定の継続時間長Dより大きいか否かを判定する。
カウンタdがDより大きい場合は、部分音声の終了点で
あると判定し、ステップS406において部分音声区間
を数えるカウンタnに1を加え、dを0に設定する。次
に、ステップS407において、nが所定の最大部分音
声数N2と等しければ処理を終了する。nがN2と等し
くない場合はステップS404へ進み、カウンタtに1
を加え、ステップS402に戻る。
【0027】ステップS405においてdがD以下の場
合は部分音声の終了点ではないと判定しステップS40
8に進む。ステップS408では、カウンタkに1を加
える。次に、ステップS409に進み、kが分割処理終
了のための所定の継続時間長Kより大きく、かつnが最
小部分音声数N1以上であれば処理を終了する。この条
件を満たさない場合は、分割処理は終了していないと判
定し、ステップS404へ進む。なお、nが最小部分音
声数N1より小さくても、図5のステップS402でP
(t)が閾値Pより大きいと判定される継続時間長が所定
の制限時間以上となる、すなわち入力信号レベルが大き
すぎる場合、もしくは、閾値P以下と判定された継続時
間長が所定の制限時間以上となる、すなわち入力信号レ
ベルが小さすぎる場合は、タイムアウトとして図5の処
理を終了するという処理を含めてもよい。また、これら
2種類の制限時間の設定値は異なっていてもよいものと
する。
【0028】以上の様な手順により、入力音声をN個
の、またはN2〜N1個の部分音声に分割することがで
きる。
【0029】[音声認識辞書の再設定について]次に、
ステップS213における音声認識辞書の再設定につい
て詳しく説明する。
【0030】図6は、インターネットのURLを音声認
識する際に用いる音声認識辞書セットの一例を示す図で
ある。4つの列の項目は、それぞれ、単語ID601、
表記602、発音603、次の部分音声の認識に用いる
辞書ID604を表す。例として、www.tokkyo.co.jp
(ダブリューダブリューダブリュー トッキョ シーオ
ー ジェーピー)という音声を4つの部分音声S(1)(ダ
ブリューダブリュー)、S(2)(トッキョ)、S(3)(シー
オー)、S(4)(ジェーピー)に分割された場合の、ステ
ップS213における辞書の設定の流れを説明する。
【0031】まず、図2のステップS204における、
初期音声認識辞書の設定では、図6の音声認識辞書1を
用いるように設定される。ここで、部分音声S(4)の認識
結果が単語ID“000001”の“jp”であるとステップS
211において確定されたとする。この場合、ステップ
S213において、この確定された単語の4列目、すな
わち辞書ID604を参照すると、“2”が設定されて
いるので、次の部分音声の認識に用いる辞書が音声認識
辞書2であることが分かる。そこで、ステップS213
では、辞書セット209から音声認識辞書2を選び、音
声認識辞書208に設定する。
【0032】こうして、次の部分音声S(3)の認識は音声
認識辞書2を用いて行われることになる。そしてその認
識結果が単語ID“000001”の“co”であると確定され
た場合、上記と同様に、この単語の辞書IDを参照して
次の部分音声S(2)を処理するための辞書を選ぶ。ここで
は、辞書ID“3”が登録されており、部分音声S(2)を
認識する際に用いる辞書は音声認識辞書3であることが
分かる。
【0033】以下、同様の手順を繰り返すことによっ
て、S(4)、 S(3)、 S(2)、 S(1)の順に認識辞書を認識
結果に応じて変更しながら、音声認識を実行する。4列
目に辞書IDがない認識辞書(図6では音声認識辞書1
000、1001)はこれ以降単語がつながらない、す
なわち、先頭の部分音声であることを示す。
【0034】以上のようにして、語彙数が制限された適
切な辞書を切換えて用いるので、音声認識の信頼性が向
上する。すなわち、複数の部分音声信号の認識に用いる
対象語彙が階層構造を有している場合に、上位階層の対
象語彙を含む部分音声信号から順に、これに対応する認
識辞書を用いて音声認識を行なうので、対象語彙を効果
的に絞り込むとともに、適切な認識辞書を用いて音声認
識を行なえる。特に、上記実施形態が認識対象とするU
RL(後述のメールアドレスも同様)においては、複数
の部分音声信号について、時系列的に後ろから順に音声
認識を行なうことにより、上位階層の対象語彙を含む部
分音声信号から順に処理を行なえることになる。
【0035】なお、上記実施形態において、音声認識辞
書は、アプリケーションサービスプロバイダなどのサー
ビス提供者、利用者などによって用意される。また、単
語に対する読みは、人手もしくは、テキスト音声規則合
成などで用いられる読み付け処理などを用いて自動で付
与することができる。また、単語に対する読みは、例え
ば、wwwの場合、ダブリューダブリューダブリューとダ
ブリュースリーなど複数を与えてもよい。
【0036】[メールアドレスの音声認識について]上
記実施形態ではインターネットのURLを音声認識の対
象としていたが、認識辞書を変更することによって、同
様の手順で電子メールのアドレスを音声認識により入力
することが可能となる。図7は、入力音声(ヤマダバツ
バツ トッキョ シーオー ジェーピー)を部分音声に
分割した結果を示す概念図である。部分音声への分割
は、上記実施形態と同じアルゴリズムを用いることによ
り実現できる。
【0037】図8は、電子メールアドレス用の音声認識
辞書セットの一例を示す図である。ここで、音声認識辞
書1000はtokkyo.co.jpというドメインに属している
アカウント名のリストであり、音声認識辞書1001is
yo.co.jpというドメインに属しているアカウント名のリ
ストである。この結果、ドメインを規定しない場合の認
識対象アカウント名は莫大な数になるのに対して、本実
施形態を用いることにより、認識対象アカウント名を大
きく減らせるため、高い認識性能を得ることが可能とな
る。
【0038】[マニュアル操作信号を用いた部分音声分
割処理の例]上記実施形態では、入力音声の特徴量のう
ちのパワーを用いて部分音声区間の検出を行なった。し
かしながら、部分音声への分割は、このような特徴量を
利用したものに限られない。更に、以下に説明するよう
に、音声入力時における操作入力によって明示的に分割
位置を指示するようにししてもよい。
【0039】図9は、発声された音声信号を利用者によ
るボタン押下情報を用いて部分音声に分割し、音声認識
を行なう処理の動作概要を説明する流れ図である。基本
的な流れは図2と同様である。すなわち、ステップS6
01〜S607、S611〜S614、608〜610
はそれぞれ図2のステップS201〜S207、S21
1〜S214及び208〜210に対応する。但し、図
9では、ステップS603における部分音声への分割処
理において、ボタン押下検出部615で検出されたボタ
ン押下タイミングが用いられる。
【0040】図10はボタン押下情報を用いて音声信号
を分割する処理の概念を示す図である。図10におい
て、上段は利用者が発声した入力音声信号、下段は利用
者によって押下されたボタン押下のタイミングを示す。
ここで、ボタン押下は、発声と同時に行ってもよいし、
一旦音声を入力した後、スピーカーなどの補助出力装置
108から入力音声を確認しながらボタンを押下しても
よい。このように、ボタン押下検出部615により、利
用者が部分音声の区切りとしてボタンを押下したタイミ
ングを検出し、このタイミング情報をもとに、音声入力
部601で取りこまれる入力音声を部分音声に分割す
る。なお、このとき、ボタン押下の時間間隔が所定時間
以上ある場合に、当該ボタン押下を部分音声の区切りと
するような条件を加えてもよい。
【0041】なお、図9を参照して説明した上記実施形
態では、ボタン押下のイベント情報を用いて入力音声を
部分音声に分割しているが、イベント情報としては、ボ
タン以外に、キーボード、マウス、ペンなどの手段を用
いてもよいことは明らかである。
【0042】[音声認識を利用した部分音声分割処理の
例]入力音声の部分音声への分割に関して、上記実施形
態では部分音声への分割処理として、図4または図5の
アルゴリズムに示されるように、波形のパワーを音声特
徴量として用いて分割を行う方法(ステップS20
3)、マニュアル操作による分割位置の指示による方法
(ステップS603)説明したが、更に、音声認識手法
に基づいて分割することも可能である。以下、音声認識
を利用した入力音声の部分音声への分割について説明す
る。
【0043】図11は、音声認識手法を用いて入力音声
を部分音声に分割する処理を説明する図である。音声特
徴量としては、例えば、LPCケプストラム、デルタL
PCケプストラム、パワー、デルタパワーを用いる。こ
の音声特徴量の時系列の入力に対して、音声認識部50
0では、部分音声検出用認識辞書501と音響モデル5
02を用いて認識を行う。この際に、認識結果と共に、
認識辞書に記述されている単語もしくは音素もしくは音
素を構成する状態系列の時間情報を保持する。次に、部
分音声区間算出部503において、音声認識部500で
保持された時間情報を参照することによって、入力音声
を部分音声に分割する。
【0044】図12は、音声認識手法を用いて入力音声
を部分音声に分割する際に用いる部分音声検出用認識辞
書501のデータ例を示す図である。3つの列の項目
は、それぞれ、単語列ID1201、表記1202、発
音状態系列1203を表す。例えば、URL41はwww.
tokkyo.co.jpのように4つの単語(w1〜w4)からU
RLが構成され、かつドット(.)の部分をt1(例え
ば「ドット」)と発音される発声を認識するための単語
列のエントリである。URL42は、URL41と同様
に4つの単語からURLが構成されるが、ドット(.)
の部分はt2(例えば「テン」)と発音される発声を認
識するための単語列のエントリである。また、URL3
1は、www.xxxx.comのように3つの単語からURLが構
成され、かつドット(.)の部分をt1(例えば「ドッ
ト」)と発音される発声を認識するための単語列のエン
トリである。ここで、w1、w2、w3…は、wwwやtok
kyoといった単語ではなく、可能性のある単語を全て受
け付けるガーベッジモデルなどの音響モデルに対応させ
た表記である。また、w1、w2、w3…は別々の音響
モデルでもよいし、同一のモデルでもよい。
【0045】図13は、図12に示した単語列IDに対
する発音状態系列を1単語1状態の隠れマルコフモデル
として表現したモデル連鎖の例を示す。ここで、sとe
は開始ノード、終了ノードを表す。なお、音声認識を行
う場合、これらの状態系列の先頭と終了部分に無音モデ
ルを挿入する。
【0046】図14は、図12、図13に示した音声認
識方法を用いて、音声認識部500によって入力音声を
認識した場合に得られる状態系列の時間情報を表す図で
ある。3つの列の項目は、それぞれ、開始フレーム(時
間)、終了フレーム(時間)、図13に示される発音状
態名を表す。部分音声区間算出部503では、この結果
を利用して、入力音声を部分音声に分割する。
【0047】図15は、図14の認識結果を用いた場合
の、入力音声(ダブリューダブリューダブリュートッキ
ョシーオージェーピー)を部分音声に分割した結果を示
す概念図である。入力音声信号の第1フレームから第4
フレームが無音の区間(sil)である。状態w1とし
て検出された第5から第19フレームは図15のS(1)の
区間を決定している。このように、部分音声区間算出部
503では、音声認識部500の認識結果(図14)を
用いて入力音声を部分音声へ分割し、得られた部分音声
を用いてステップS204(S604)以降の音声認識
処理を行なう。
【0048】図16は、音声認識手法を用いて入力音声
を部分音声に分割する際に用いる区切り用単語(t1)
を複数状態の隠れマルコフモデルで表現したモデル連鎖
の例を表す。この例の中段では、t1の部分をd-o-Q-t-
o(ドット)という音素モデルの連鎖で表現している。
また、下段は、更に1つの音素を複数(3状態)のモデ
ル連鎖で表現した例である。
【0049】図17は、音声認識手法を用いて入力音声
を部分音声に分割する際に用いる区切り用単語(t1)
の開始及び最終状態に、状態スキップ付きの無音モデル
(sil)を挿入した場合のモデル連鎖の例である。この
ような構造とすることで、w1とt1、t1とw2など
の間にポーズ(無音)を挿入しても、しなくても認識す
ることが可能となる。
【0050】以上説明した本実施形態によれば、世の中
に存在するURLやメールアドレスを音声で精度良く入
力することが可能になる。
【0051】[他の実施形態]図6、図8で示した音声
認識辞書は尤度や確率付きにしてもよい。この際、尤度
は、ヒット数、利用者のプリファレンス、GPSなどか
ら得られる利用者の位置情報等に基づいて与える。この
場合、単語iに対する入力音声の音響尤度La(i)と、尤
度付きの音声認識辞書から得られる単語iの言語尤度Lw
(i)の和、La(i)+Lw(i)の値が最も大きいものを認識結果
とする。ここで、言語尤度Lw(i)に対して、任意の値の
重みkを乗じたLa(i)+k・Lw(i)の値を用いてもよいとす
る。このように、言語知識や事前知識を利用することに
よって、より高精度に音声認識を行うことが可能とな
る。
【0052】また、図2、図9で示した実施形態では、
音声認識辞書再設定部で、1つ前の認識結果に基づいて
次回の音声認識辞書を決定していたが、過去の複数単語
の認識結果に基づいて次回の音声認識辞書を決定するよ
うにしてもよい。この場合、複数単語に接続可能な語彙
を認識対象とする音声認識辞書が必要となる。1つ前の
認識結果に基づいて次回の音声認識辞書を決定する場
合、例えば、"ac"という単語の前には世界の大学名が接
続可能となるが、2つ前の認識結果が"ac.jp"である場
合、日本の大学名のみを認識対象語彙とすればよいこと
から、音声認識性能を向上させることが可能となる。
【0053】また、図2、図9に示した実施形態におい
て、音声認識辞書に含まれる単語制約の元に音声認識を
行っていたが、音素や音節の音声認識を行い、認識結果
とマッチする単語を音声認識辞書の中から選択するとい
う方法で認識を行ってもよい。例えば、"トッキョ"とい
う発声を音節認識した結果、"トッキュ"という結果が得
られたとする。この場合、音声認識辞書に含まれる単語
に対してカタカナ表記でDPマッチングを取ることによ
って、"トッキョ"が最も近いと判定された場合、"tokky
o"を正しく入力することが可能となる。単語制約の元で
の音声認識を行う場合と比べて、音素や音節認識は、認
識単語数が多い場合に、CPU負荷やメモリを節約でき
るとう効果がある。
【0054】更に、上記実施形態では、URLやメール
アドレス中の“tokkyo”を“トッキョ”とう読みで登録
しているが、アルファベットの綴り“ティーオーケーケ
ーワイオー”といった形態で登録しておいてもよい。
【0055】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPUやMP
U)が記憶媒体に格納されたプログラムコードを読出し実
行することによっても達成される。この場合、記憶媒体
から読出されたプログラムコード自体が前述した実施形
態の機能を実現することになり、そのプログラムコード
を記憶した記憶媒体は本発明を構成することになる。こ
のようなプログラムコードを供給するための記憶媒体と
しては、例えば、フロッピディスク、ハードディスク、
光ディスク、光磁気ディスク、CD-ROM、CD-R、 DVD、
磁気テープ、不揮発性のメモリカード、 ROMなどを用い
ることができる。
【0056】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレー
ティングシステム)などが実際の処理の一部または全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれる。
【0057】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれる。
【0058】
【発明の効果】以上説明したように、本発明によれば、
音声認識対象となる語彙数を効果的に減少させることが
でき、確実性の高い音声認識を実現することができる。
【図面の簡単な説明】
【図1】実施形態に係る音声認識装置のハードウェア構
成を示したブロック図である。
【図2】実施形態に係る音声認識装置が実装されている
システム、サービスもしくは製品において、入力手段と
して音声のみを用いた場合の音声認識処理の概要を説明
する流れ図である。
【図3】入力音声(URL)を部分音声に分割した結果
を示す概念図である。
【図4】入力音声を一定数(n=N)の部分音声に分割
するアルゴリズムの一例を示すフローチャートである。
【図5】入力音声を所定範囲数(N1<=n<=N2)
の部分音声に分割するアルゴリズムの一例を示すフロー
チャートである。
【図6】インターネットのURLを音声認識する際に用
いる音声認識辞書の一例を示す図である。
【図7】入力音声(メールアドレス)を部分音声に分割
した結果を示す概念図である。
【図8】電子メールアドレスを音声認識する際に用いる
音声認識辞書の一例を示す図である。
【図9】実施形態に係る音声認識装置が実装されている
システム、サービスもしくは製品において、入力手段と
して音声とボタンを併用した場合の音声認識処理の概要
を説明する流れ図である。
【図10】音声とボタンを併用して入力音声を部分音声
に分割した結果を示す概念図である。
【図11】音声認識手法を用いて入力音声を部分音声に
分割する概略構成を示したブロック図である。
【図12】音声認識手法を用いて入力音声を部分音声に
分割する際に用いる部分音声検出用認識辞書の一例を示
す図である。
【図13】音声認識手法を用いて入力音声を部分音声に
分割する際に用いる1単語を1状態の隠れマルコフモデ
ルで表現したモデル連鎖の例を示す図である。
【図14】音声認識手法を用いて入力音声を部分音声に
分割した結果の一例を示す図である。
【図15】図14の認識結果を用いて入力音声を部分音
声に分割した結果を示す概念図である。
【図16】音声認識手法を用いて入力音声を部分音声に
分割する際に用いる区切り用単語(t1)を複数状態の
隠れマルコフモデルで表現したモデル連鎖の例を示す図
である。
【図17】音声認識手法を用いて入力音声を部分音声に
分割する際に用いる区切り用単語(t1)の開始及び最終状
態に、状態スキップ付きの無音モデル(sil)を挿入した
場合のモデル連鎖の例を示す図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 571G 15/28 15/24

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号を複数の部分音声信
    号に分割する分割手段と、 前記分割手段によって得られた部分音声信号毎に音声認
    識を行なう認識手段と、 前記認識手段における部分音声信号毎の音声認識におい
    て、認識に用いる対象語彙を変更する変更手段とを備え
    ることを特徴とする音声認識装置。
  2. 【請求項2】 前記複数の部分音声信号の認識に用いる
    対象語彙は階層構造を有し、 前記認識手段は、上位階層の対象語彙が用いられる部分
    音声信号から順に音声認識を行なうことを特徴とする請
    求項1に記載の音声認識装置。
  3. 【請求項3】 前記認識手段は、前記複数の部分音声信
    号について、時系列的に後ろから順に音声認識を行なう
    ことを特徴とする請求項1に記載の音声認識装置。
  4. 【請求項4】 入力された音声信号から特徴量を抽出す
    る抽出手段を更に備え、 前記分割手段は、前記抽出手段で抽出された特徴量に基
    づいて前記音声信号を部分音声信号へ分割することを特
    徴とする請求項1に記載の音声認識装置。
  5. 【請求項5】 前記分割手段は、前記音声信号のパワー
    レベルが所定期間にわたって所定値を越える部分を抽出
    することにより音声信号を分割することを特徴とする請
    求項4に記載の音声認識装置。
  6. 【請求項6】 前記分割手段は、音声入力時における所
    定の操作信号の入力タイミングに基づいて前記音声信号
    を分割することを特徴とする請求項1に記載の音声認識
    装置。
  7. 【請求項7】 前記分割手段は、前記抽出手段で抽出さ
    れた特徴量に基づいて音声認識処理を実行し、認識され
    た各単語の発声時間長に基づいて該音声信号を分割する
    ことを特徴とする請求項4に記載の音声認識装置。
  8. 【請求項8】 前記分割手段の音声認識処理において、
    単語の区切りを表す単語の開始及び終了に状態スキップ
    付きの無音モデルが挿入されることを特徴とする請求項
    7に記載の音声認識装置。
  9. 【請求項9】 前記変更手段は、部分音声信号毎に前記
    認識手段が用いる認識辞書を変更することを特徴とする
    請求項1に記載の音声認識装置。
  10. 【請求項10】 前記認識辞書は、各認識パターン毎に
    次に使用すべき認識辞書を指定する指定情報を含み、 前記変更手段は、前記認識手段によって認識された認識
    パターンに対応する前記指定情報に従って次の部分音声
    の認識に用いる認識辞書を決定することを特徴とする請
    求項9に記載の音声認識装置。
  11. 【請求項11】 入力された音声信号を複数の部分音声
    信号に分割する分割工程と、 前記分割工程によって得られた部分音声信号毎に音声認
    識を行なう認識工程と、 前記認識工程における部分音声信号毎の音声認識におい
    て、認識に用いる対象語彙を変更する変更工程とを備え
    ることを特徴とする音声認識方法。
  12. 【請求項12】 前記複数の部分音声信号の認識に用い
    る対象語彙は階層構造を有し、 前記認識工程は、上位階層の対象語彙が用いられる部分
    音声信号から順に音声認識を行なうことを特徴とする請
    求項11に記載の音声認識方法。
  13. 【請求項13】 前記認識工程は、前記複数の部分音声
    信号について、時系列的に後ろから順に音声認識を行な
    うことを特徴とする請求項11に記載の音声認識方法。
  14. 【請求項14】 入力された音声信号から特徴量を抽出
    する抽出工程を更に備え、 前記分割工程は、前記抽出工程で抽出された特徴量に基
    づいて前記音声信号を部分音声信号へ分割することを特
    徴とする請求項11に記載の音声認識方法。
  15. 【請求項15】 前記分割工程は、前記音声信号のパワ
    ーレベルが所定期間にわたって所定値を越える部分を抽
    出することにより音声信号を分割することを特徴とする
    請求項14に記載の音声認識方法。
  16. 【請求項16】 前記分割工程は、音声入力時における
    所定の操作信号の入力タイミングに基づいて前記音声信
    号を分割することを特徴とする請求項11に記載の音声
    認識方法。
  17. 【請求項17】 前記分割工程は、前記抽出工程で抽出
    された特徴量に基づいて音声認識処理を実行し、認識さ
    れた各単語の発声時間長に基づいて該音声信号を分割す
    ることを特徴とする請求項14に記載の音声認識方法。
  18. 【請求項18】 前記分割工程の音声認識処理におい
    て、単語の区切りを表す単語の開始及び終了に状態スキ
    ップ付きの無音モデルが挿入されることを特徴とする請
    求項17に記載の音声認識方法。
  19. 【請求項19】 前記変更工程は、部分音声信号毎に前
    記認識工程が用いる認識辞書を変更することを特徴とす
    る請求項11に記載の音声認識方法。
  20. 【請求項20】 前記認識辞書は、各認識パターン毎に
    次に使用すべき認識辞書を指定する指定情報を含み、 前記変更工程は、前記認識工程によって認識された認識
    パターンに対応する前記指定情報に従って次の部分音声
    の認識に用いる認識辞書を決定することを特徴とする請
    求項19に記載の音声認識方法。
  21. 【請求項21】 請求項11乃至20のいずれかに記載
    の音声認識方法をコンピュータによって実現するための
    プログラム。
  22. 【請求項22】 請求項11乃至20のいずれかに記載
    の音声認識方法をコンピュータによって実現するための
    プログラムを格納する記憶媒体。
JP2001067222A 2001-03-09 2001-03-09 音声認識方法及び装置及び記憶媒体 Withdrawn JP2002268671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001067222A JP2002268671A (ja) 2001-03-09 2001-03-09 音声認識方法及び装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001067222A JP2002268671A (ja) 2001-03-09 2001-03-09 音声認識方法及び装置及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2002268671A true JP2002268671A (ja) 2002-09-20

Family

ID=18925604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067222A Withdrawn JP2002268671A (ja) 2001-03-09 2001-03-09 音声認識方法及び装置及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2002268671A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763927A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 语音识别的方法、装置、计算机设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763927A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 语音识别的方法、装置、计算机设备及可读存储介质
CN113763927B (zh) * 2021-05-13 2024-03-08 腾讯科技(深圳)有限公司 语音识别的方法、装置、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US5949961A (en) Word syllabification in speech synthesis system
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US20050187768A1 (en) Dynamic N-best algorithm to reduce recognition errors
JP3581881B2 (ja) 音声補完方法、装置および記録媒体
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2008046538A (ja) テキスト音声合成を支援するシステム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2662112B2 (ja) 発声された単語のモデル化方法および装置
US20040006469A1 (en) Apparatus and method for updating lexicon
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2002268671A (ja) 音声認識方法及び装置及び記憶媒体
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513