JP2002041081A

JP2002041081A - 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Info

Publication number: JP2002041081A
Application number: JP2000228916A
Authority: JP
Inventors: Hiroyuki Kanza; 浩幸勘座; Akira Tsuruta; 彰鶴田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-07-28
Filing date: 2000-07-28
Publication date: 2002-02-08
Anticipated expiration: 2020-07-28
Also published as: JP3639776B2

Abstract

(57)【要約】【課題】低コストで高い認識精度が得られる音声認識
用辞書を作成する。【解決手段】テキスト解析部２は入力文字列を単語に
分割して総ての分かち候補を求める。読み付与部３は、
総ての分かち候補の単語に対して総ての読みを付与す
る。語彙作成部５は、総ての分かち候補,総ての読み,総
ての連接単語を考慮して発声単位/読みのペアを作成し
て語彙記憶部６に登録する。こうして、１つの入力文字
列情報から、当該文字列中の何れの部分文字列を発声し
ても認識できる音声認識用辞書を作成する。したがっ
て、ホームページのタイトルが「首相官邸のトップペー
ジ」の場合に、「首相官邸のトップページ」や「首相官邸」
や「官邸のトップページ」と発声しても首相官邸のホーム
ページを呼び出すことが可能な高認識精度な音声認識用
辞書を、低コストで得ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、不特定話者を対
象とした音声認識装置に用いられる辞書を作成する音声
認識用辞書作成装置および音声認識用辞書作成方法、作
成された辞書を用いた音声認識装置、この音声認識装置
を搭載した携帯端末器、並びに、辞書作成処理プログラ
ムを記録したプログラム記録媒体に関する。

【０００２】

【従来の技術】従来より、漢字仮名混じり文を含む文字
列情報から音声認識用辞書を作成する方法として、上記
文字列情報の形態素解析を行ってその表記の読みを求
め、得られた読みを登録する方法がある。ウエブ・ブラ
ウザにおいて、音声認識結果に基づいてウエブぺージを
表示するアプリケーションがあるが、その場合に使用す
る音声認識用辞書に、上記ウエブページを呼び出す際に
ユーザが発声する単語を予め登録する場合などに上記辞
書作成方法が適用される。例えば、「首相官邸」という単
語を首相官邸のＵＲＬ(ユニフォーム・リソース・ロケー
ション)と関連付けて記憶することによって、「首相官
邸」とユーザが発声すれば首相官邸のホームページを表
示することができる。これは、「首相官邸」という表記か
ら「しゅしょうかんてい」という読みを求めて音声認識用
辞書に登録することで実現している。

【０００３】また、大量の学習用テキストデータベース
から連接関係を抽出して、統計的連接情報を求めて音声
認識用辞書(言語モデル)を作成する方法がある。例え
ば、特開平１１‐２５９０８８号公報に記載された音声
認識装置においては、形態素解析プログラム等を用いて
文字列情報を各単語(形態素)に自動的に区切り、区切ら
れた各単語間の統計的連鎖関係、具体的にはバイグラム
やトライグラム等を計算しておく。また、同じ表記の漢
字であって複数の読み方がある場合には、複数の読み夫
々の頻度を求めておく。そして、音声が入力されると、
認識文候補を生成し、抽出された特徴パラメータを用い
て言語モデルから計算される各認識文候補の尤度に、各
認識文候補の単語系列を構成する各単語に上記統計的連
鎖関係の確率値と読みの頻度を組み合わせて言語尤度を
算出する。そして、この言語尤度に基づいて認識結果を
得ている。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の音声認識用辞書作成方法においては、以下のような
問題がある。すなわち、先ず、上記文字列情報の形態素
解析から得られた表記の読みを登録する辞書作成方法の
場合には、文字列情報と発声される連接単語を表す発声
単位とが必ずしも一致するとは限らないという問題があ
る。以下、上述した音声認識結果を用いてブラウザによ
ってホームページを表示する場合を例に説明する。上記
ホームページの情報には、ＵＲＬやタイトルがある。Ｕ
ＲＬはホームページの在りかを表す情報であって、「htt
p://www.kantei.go.jp」のごとく表記される。また、タ
イトルはブラウザによって決まった位置に表示されるペ
ージのタイトルであって、「首相官邸トップページ」のよ
うな漢字仮名交じりやアルファベット等の文字情報であ
る。

【０００５】上記タイトル「首相官邸トップページ」に当
該辞書作成方法を適用して、上記タイトルから認識語彙
を自動的に生成する場合には、タイトル「首相官邸トッ
プページ」の形態素解析を行い、単語「首相官邸トップペ
ージ」の読みを特定することによって実現できる。

【０００６】ところが、当該辞書作成方法を適用した場
合には、タイトル「首相官邸トップページ」をそのまま読
み「しゅしょうかんていとっぷぺーじ」に変換して登録す
るだけであるため認識語彙は「首相官邸トップページ」と
なり、上記タイトル「首相官邸トップページ」の部分文字
列「首相官邸」を切り出して認識語彙にすることはできな
い。したがって、例えば「首相官邸」という部分発声がな
された場合には、上述のようにして作成された音声認識
用辞書を用いて入力音声「首相官邸」を認識することはで
きないことになる。

【０００７】仮に、上記ホームページのタイトルからキ
ーワードとなる部分文字列を切り出して認識語彙を作成
するにしても、部分文字列のあらゆる組み合わせや部分
文字列間の発声確率等が考慮されないために、実用的な
音声認識用の辞書を作成することができないという問題
がある。

【０００８】次に、上記統計的連接情報を求めて音声認
識用辞書を作成する辞書作成方法の場合には、各単語間
の区切り統計的隣接関係を用いて入力音声を認識するた
めに上述のような問題は発生しない。また、複数の読み
方がある単語の夫々の読みの頻度も含めて認識文候補の
出現確率が算出される点で、より実用的な音声認識用辞
書を作成することができる可能性はある。

【０００９】しかしながら、単に出現確率を用いるだけ
では、タイトルの前部分の表記と後ろ部分の表記とでは
前者の方が発声される確率は高い(例えばタイトル「首相
官邸のトップページ」の場合は「首相官邸」の方が「トップ
ページ」よりも発声される確率が高い)といった考慮がさ
れず、所望の認識結果が得られる確率が低いという問題
がある。

【００１０】また、「ホームページ」や「ようこそ」等の特
定の語彙は単独では発声されないと考えられる。ところ
が、それに対する考慮もされていないため、別の発声が
「ホームページ」という語彙に誤認識されてしまう可能性
がある。

【００１１】さらに、このような大量の学習テキストデ
ータベースから音声認識用辞書(言語モデル)を作成する
辞書作成方法は、ディクテーションのような数万語の語
彙を認識する用途にはよいが、高速のＣＰＵ(中央演算
処理装置)と大量の記憶容量が必要であるというコスト
上の問題と、非常に多数の語彙の中から正しいものを見
つけ出すのは困難であるという認識性能上の問題とがあ
る。

【００１２】そこで、この発明の目的は、低コストで高
い認識精度が得られる音声認識用辞書作成装置および音
声認識用辞書作成方法、作成された辞書を用いた音声認
識装置、この音声認識装置を搭載した携帯端末器、並び
に、辞書作成処理プログラムを記録したプログラム記録
媒体を提供することにある。

【００１３】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明の音声認識用辞書作成装置は、入力され
た文字列情報を解析して構成単語に分割し,総ての分割
候補を出力する解析手段と、上記分割された各構成単語
に読みを付与し,総ての読み候補を出力する読み付与手
段と、上記解析手段によって得られた総ての分割候補お
よび上記読み付与手段によって得られた総ての読み候補
に基づいて,読みが付与された１つの単語または連接単
語で成る１つの発声単位または単語の組み合わせが異な
る複数の発声単位を認識語彙として生成する語彙作成手
段と、上記生成された各認識語彙を音声認識用辞書とし
て記憶する語彙記憶手段を備えたことを特徴としてい
る。

【００１４】上記構成によれば、一つの文字列情報から
得られた総ての分割候補および総ての読み候補に基づい
て、語彙作成手段によって、読みが付与された１つ又は
複数の発声単位が生成される。したがって、こうして生
成された発声単位を認識語彙として登録することによっ
て、与えられた文字列情報から、発声の可能性がある発
声単位を認識語彙とする音声認識用辞書が生成される。
すなわち、利用者が、予め設定された文字列中のどの部
分文字列を発声しても正しく認識できる音声認識装置を
実現可能な音声認識用辞書が作成されるのである。

【００１５】また、上記第１の発明の音声認識用辞書作
成装置は、上記解析手段を,上記分割された構成単語の
列でなる各解析候補に,上記入力文字列の解析結果とし
ての確からしさを表す解析尤度を付与するように成し、
上記読み付与手段を,上記各解析候補を構成する単語に
付与されている読みの列に,上記入力文字列の読みとし
ての確からしさを表す読み尤度を付与するように成し、
上記語彙作成手段によって生成された各発声単位が存在
する解析候補の上記解析尤度,上記各発声単位が存在す
る解析候補の上記読み尤度,上記各発声単位を構成する
先頭単語の上記入力文字列中における出現順序を表す単
語出現順序,上記各発声単位のモーラ数,上記各発声単位
を構成する単語のうちで入力される総ての文字列情報中
に最も少なく出現する単語の出現頻度を表す単語出現頻
度,キーワード辞書照合結果の少なくとも一つを用いて,
上記生成された各発声単位の発声確率を計算する発声確
率算出手段を備えて、上記語彙作成手段を,上記各発声
単位でなる認識語彙を,上記算出された発声確率を付与
して上記語彙記憶手段に記憶させるように成すことが望
ましい。

【００１６】上記構成によれば、上記語彙記憶手段に
は、上記各発声単位でなる認識語彙に解析尤度,読み尤
度,単語出現順序,モーラ数,単語出現頻度およびキーワ
ード辞書照合結果の少なくとも一つを用いて算出された
発声確率が付与されて登録されている。したがって、上
記音声認識用辞書中に、上記解析手段による誤解析の結
果生成された認識語彙や発声されない認識語彙が登録さ
れていても、このような不要な認識語彙の発声確率が小
さく設定されて、高い認識精度を呈する音声認識装置を
実現できる音声認識用辞書が作成される。

【００１７】また、上記第１の発明の音声認識用辞書作
成装置は、文字列情報を含むコンテンツを取り込む取り
込み手段と、辞書作成に必要な文字列情報を抽出するた
めの抽出条件が格納された抽出条件格納手段と、上記抽
出条件を参照して,上記取り込まれたコンテンツにおけ
る文字列情報の中から辞書作成に必要な文字列情報を抽
出して上記解析手段に送出する文字列情報抽出手段を備
えることが望ましい。

【００１８】上記構成によれば、抽出条件格納手段にコ
ンテンツの特徴を利用した抽出条件を格納しておくこと
によって、コンテンツ情報から自動的に上記音声認識用
辞書が作成される。

【００１９】また、上記第１の発明の音声認識用辞書作
成装置は、上記取り込み手段を、上記コンテンツとし
て、ウエブ・ブラウザによって表示されているウエブペ
ージの情報を取り込むように成すことが望ましい。

【００２０】上記構成によれば、上記抽出条件格納手段
に、例えば、「＜title＞タグが存在する場合は＜title
＞と＜/title＞とで囲まれた文字列を抽出する」を格納
しておくことによって、ウエブページのタイトル「＜tit
le＞首相官邸のトップページ＜/title＞」から文字列「首
相官邸のトップページ」が抽出される。そして、上記文
字列「首相官邸のトップページ」に基づいて、上述のよう
にして自動的に音声認識用辞書が作成される。

【００２１】また、上記第１の発明の音声認識用辞書作
成装置は、上記取り込手段を、上記コンテンツとして、
文字情報化されたテレビ番組の情報を取り込むように成
すことが望ましい。

【００２２】上記構成によれば、上記抽出条件格納手段
に、例えば、「番組名というタグが付いている文字列を
抽出する」を格納しておくことによって、タグ「番組名」
に該当する文字列「ＮＨＫニュースおはよう日本」が抽出
される。そして、上記文字列「ＮＨＫニュースおはよう
日本」に基づいて、上述のようにして自動的に音声認識
用辞書が作成される。

【００２３】また、上記第１の発明の音声認識用辞書作
成装置は、上記語彙作成手段によって生成された各発声
単位間の音響的な類似度を計算する類似度算出手段を備
え、上記語彙作成手段は、上記各認識語彙に付与する発
声確率を上記算出された類似度に応じて変更するように
成すことが望ましい。

【００２４】上記構成によれば、上記語彙作成手段によ
って生成された発声単位「首相(しゅしょう)」と発声単位
「主張(しゅちょう)」との類似度が所定値よりも高く、両
発声単位が音響的に類似している場合には、例えば、発
声確率の値が高く入力文字列中において中心的な役割を
果す発声単位「首相」の発声確率の値が更に高められる一
方、そうでない発声単位「主張」の発声確率の値が更に低
められる。こうすることによって、中心的な役割を果す
発声「首相」が「主張」と誤認識されて、例えば、目的とす
る「首相官邸のトップページ」のホームページではなく、
「司法省の主張」のホームページが表示されてしまうこと
が防止される。

【００２５】また、第２の発明の音声認識用辞書作成方
法は、入力された文字列情報を解析して構成単語に分割
し,総ての分割候補を出力するステップと、上記分割さ
れた各構成単語に読みを付与し,総ての読み候補を出力
するステップと、上記単語分割の結果得られた総ての分
割候補および上記読み付与の結果得られた総ての読み候
補に基づいて,読みが付与された１つの単語または連接
単語で成る１つの発声単位または単語の組み合わせが異
なる複数の発声単位を認識語彙として生成するステップ
と、上記生成された各認識語彙を音声認識用辞書として
記憶するステップを備えたことを特徴としている。

【００２６】上記構成によれば、上記第１の発明の場合
と同様に、読みが付与された１つまたは複数の発声単位
が生成される。したがって、こうして生成された発声単
位を認識語彙として登録することによって、与えられた
文字列情報から、発声の可能性がある発声単位を認識語
彙とする音声認識用辞書が生成される。すなわち、予め
設定された文字列の部分文字列を発声しても正しく認識
できる音声認識装置を実現可能な音声認識用辞書が作成
されるのである。

【００２７】また、第３の発明は、入力された音声を,
辞書に登録されている認識語彙との照合を行って認識す
る音声認識装置であって、上記辞書として、上記第１の
発明の音声認識用辞書作成装置によって作成された音声
認識用辞書を用いることを特徴としている。

【００２８】上記構成によれば、与えられた文字列情報
から生成された発声の可能性がある発声単位を認識語彙
とする音声認識用辞書との照合を行って、入力音声が認
識される。したがって、予め設定された文字列の部分文
字列を発声しても正しく認識される。

【００２９】また、上記第３の発明の音声認識装置は、
上記辞書を,上記コンテンツとしてウエブページの情報
を取り込む音声認識用辞書作成装置によって作成された
音声認識用辞書と成し、認識結果に応じたウエブページ
を表示するウエブページ表示手段と、上記認識結果に基
づいて,上記ウエブページ表示手段の表示内容を切換え
制御する制御手段を備えることが望ましい。

【００３０】上記構成によれば、上記ウエブページの情
報から自動的に作成された音声認識用辞書が用いられて
いるので、ウエブページのタイトル等が正しく認識され
る。したがって、制御手段によって、認識結果に基づい
てウエブページ表示手段の表示内容が切換え制御される
ことによって、上記ウエブページ表示手段に認識結果に
応じたウエブページが正しく表示される。

【００３１】また、上記第３の発明の音声認識装置は、
上記辞書を,上記コンテンツとしてテレビ番組の情報を
取り込む音声認識用辞書作成装置によって作成された音
声認識用辞書と成し、認識結果に応じたテレビ番組を表
示するテレビ表示手段と、認識結果に応じたテレビ番組
を録画する録画手段と、上記録画手段によって録画され
たテレビ番組を再生する再生手段と、上記認識結果に基
づいて,上記テレビ表示手段・録画手段および再生手段を
制御して,表示チャンネルの切換え・録画条件の設定ある
いは録画番組の再生を行う制御手段を備えることが望ま
しい。

【００３２】上記構成によれば、上記テレビ番組の情報
から自動的に作成された音声認識用辞書が用いられてい
るので、テレビ番組名等が正確に認識される。したがっ
て、制御手段によって、認識結果に基づいてテレビ表示
手段,録画手段および再生手段が制御されることによっ
て、表示チャンネルの切換え,録画条件の設定あるいは
録画番組の再生が正しく行われる。

【００３３】また、上記第３の発明の音声認識装置は、
特定の文字列情報の解析結果によらずに得られた認識語
彙が登録された補助辞書と、上記辞書および補助辞書と
の照合を行う照合手段と、上記照合手段によって,上記
認識結果として上記補助辞書に登録された認識語彙が選
択された場合,上記辞書を作成する際に上記音声認識用
辞書作成装置に入力された文字列情報に関連する文字情
報の中から当該認識結果に該当する文字列を検索する検
索手段と、上記検索された複数の文字列の中から,上記
辞書に登録する文字列を選択する選択手段を備えること
が望ましい。

【００３４】上記構成によれば、上記第１の発明の音声
認識用辞書作成装置によって作成された辞書に登録され
ていない語彙を発声した場合でも、その語彙が正しく認
識される。さらに、認識結果として、上記辞書に登録さ
れた認識語彙ではなく、上記第１の発明の音声認識用辞
書作成装置によらずに作成された補助辞書に登録された
認識語彙が選択された場合には、検索手段によって、上
記音声認識用辞書作成装置に入力された例えばウエブペ
ージのタイトルに関連するウエブページ情報の中から、
当該認識結果に該当する文字列が検索される。そして、
選択手段によって、上記検索された複数の文字列の中か
ら上記辞書に登録する文字列が選択される。したがっ
て、その語彙を上記辞書に登録することによって、上記
辞書の認識語彙数が増加して認識速度が向上される。

【００３５】また、第４の発明は、入力された音声を,
辞書に登録されている認識語彙との照合を行って認識す
る音声認識装置であって、上記第１の発明の音声認識用
辞書作成装置を搭載し、上記音声認識用辞書作成装置に
よって作成された音声認識用辞書を,上記辞書として用
いることを特徴としている。

【００３６】上記構成によれば、搭載されている音声認
識用辞書作成装置に文字列情報を入力することによっ
て、この文字列情報から発声の可能性がある発声単位が
生成され、この発声単位を認識語彙とする音声認識用辞
書が作成される。したがって、この音声認識用辞書との
照合を行って入力音声を認識することによって、予め設
定された文字列の部分文字列を発声しても正しく認識さ
れる。

【００３７】また、第５の発明の携帯端末器は、上記第
３,第４の発明の音声認識装置を搭載したことを特徴と
している。

【００３８】携帯端末器においては、操作指示を行う場
合にはキー操作よりも発声による方が操作性はよい。上
記構成によれば、予め設定された文字列中のどの部分文
字列を発声しても正しく認識できる音声認識用辞書を用
いた音声認識装置が搭載されている。したがって、出先
等において操作指示を行うための文言を予め決められて
いる通りに正確に発声しなくとも、例えばホームページ
の呼び出し等の操作が正しく行われる。

【００３９】また、第６の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における解析手
段,読み付与手段,語彙作成手段および語彙記憶手段とし
て機能させる辞書作成処理プログラムが記録されている
ことを特徴としている。

【００４０】上記構成によれば、上記第１の発明の場合
と同様に、読みが付与された１つまたは複数の発声単位
が生成される。したがって、こうして生成された発声単
位を認識語彙として登録することによって、予め設定さ
れた文字列の部分文字列を発声しても正しく認識できる
音声認識装置を実現可能な音声認識用辞書が作成される
のである。

【００４１】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。＜第１実施の形態＞図１は、本実施の形態の音声認識用
辞書作成装置におけるブロック図である。解析処理部１
に文字列情報が入力されると、テキスト解析部２によっ
て入力文字列の言語が解析されて形態素に分割される。
その際に、複数の分割候補が存在する場合は、その総て
の分割候補が出力される。そして、読み付与部３によっ
て、上記分割された形態素の読みが付与される。その際
に、複数の読み方が存在する場合には、その総ての読み
が出力される。解析辞書メモリ４には、上記テキスト解
析部２がテキスト解析を行う際に必要な解析辞書を含む
言語データ等が格納されている。

【００４２】語彙作成部５は、上記テキスト解析部２に
よるテキスト解析結果と読み付与部３による読み付与結
果を元に、音声認識を行うために必要な音声認識用辞書
を作成する。語彙記憶部６は、語彙作成部５によって作
成された音声認識用辞書を記憶する。そして、この音声
認識用辞書は音声認識時に使用される。

【００４３】図２は、上記構成を有する音声認識用辞書
作成装置の各部によって実行される辞書作成処理動作の
フローチャートである。以下、図２のフローチャートに
従って、解析処理部１に「浦和市大久保」という文字列情
報が入力された場合を例に、本音声認識用辞書作成装置
の動作を説明する。ここで、テキスト解析部２に対する
文字列情報(テキスト)の入力は、ＷＷＷ(World Wide We
b)等のネットワークからの入力や受信された文字放送に
よる入力であってもよいし、キーボードやペン等の文入
力手段からの入力あるいは音声認識装置からの認識結果
の入力でもよいし、ＯＣＲ(光学式文字読取り装置)等の
文字認識装置からの入力であっても構わない。

【００４４】ステップＳ1で、上記テキスト解析部２に
よって文字列情報「浦和市大久保」が取り込まれる。ステ
ップＳ2で、さらに、入力文字列「浦和市大久保」が、解
析辞書メモリ４に格納されている解析辞書を参照して形
態素(単語)に分割されるテキスト解析が行われる。その
結果、単語列「浦和(名詞)」,「市(接尾語)」,「大久保(名
詞)」と、単語列「浦和(名詞)」,「市大(名詞)」,「久保(名
詞)」との２つの分かち候補が得られる。尚、図３に、テ
キスト解析部２の出力結果の一例を示す。

【００４５】ステップＳ3で、上記読み付与部３によっ
て、各単語に読みが付与されて、図４に示すような読み
付与結果が得られる。ここで、各単語の読みは、解析辞
書メモリ４に格納されている解析辞書を参照して付与さ
れる。尚、複数の読み方が存在する単語には総ての読み
が付与される。図４においては、文字「市」には、読み
「し」と読み「いち」との２つの読みが付与されている。以
下、語彙作成部５に処理が移行する。

【００４６】ステップＳ4で、上記テキスト解析部２に
よって得られた分かち候補の数が変数ｋにセットされ
る。上記入力文字列「浦和市大久保」の場合は、図３に示
すように「浦和/市/大久保」と「浦和/市大/久保」との２通
り分かち候補が存在するので、変数ｋに「２」がセットさ
れる。ステップＳ5で、分かち候補番号ｍに初期値「１」
がセットされる。ステップＳ6で、ｍ番目の分かち候補
を構成する総単語数が変数Ｎmにセットされる。上記入
力文字列「浦和市大久保」の場合は、１番目の分かち候補
「浦和/市/大久保」は、「浦和(名詞)」,「市(接尾語)」およ
び「大久保(名詞)」の３単語であるから、変数Ｎ1に「３」
がセットされる。

【００４７】ステップＳ7で、語彙として登録する発声
単位を構成する二つ目以降の単語数ｊが、「０」に初期化
される。ステップＳ8で、発声単位の位置(先頭単語の番
号)ｉが、「１」に初期化される。ステップＳ9で、(ｉ＋
ｊ)の値が総単語数Ｎm以下であるか否かが判別される。
その結果、総単語数Ｎm以下である場合にはステップＳ1
0に進む一方、総単語数Ｎmより大きい場合にはステップ
Ｓ13に進む。ステップＳ10で、発声単位を構成する単語
Ｗi,…,Ｗi+jと、対応する読みＹi(１),…,Ｙi(１＋ｐ
i),…,Ｙi+j(１),…,Ｙi+j(１＋ｐi+j)(但し、ｐi+j：
単語Ｗi+jの二つ目以降の読みの数)とが、語彙記憶部６
に登録される。したがって、１つの単語Ｗiに対する読
みが「Ｙi(１),Ｙi(２),…」のごとく複数ある場合には総
ての読みが登録される。

【００４８】ステップＳ11で、上記発声単位の位置ｉの
値がインクリメントされる。ステップＳ12で、発声単位
の位置ｉが総単語数Ｎm以下であるか否かが判別され
る。その結果、総単語数Ｎm以下である場合にはステッ
プＳ9に戻って次の位置に在る発声単位の登録に移行す
る。一方、総単語数Ｎmより大きい場合にはステップＳ1
3に進む。ステップＳ13で、発声単位を構成する二つ目
以降の単語数ｊがインクリメントされる。ステップＳ14
で、上記単語数ｊが総単語数Ｎmより小さいか否かが判
別される。その結果、総単語数Ｎmより小さい場合には
ステップＳ8に戻って二つ目以降の単語数が１つ多い発
声単位の登録に移行する。一方、単語数Ｎm以上である
場合にはステップＳ15に進む。ステップＳ15で、分かち
候補番号ｍがインクリメントされる。ステップＳ16で、
分かち候補番号ｍが分かち候補の数ｋ以下であるか否か
が判別される。その結果、分かち候補数ｋ以下である場
合にはステップＳ6に戻って次の分かち候補に対する処
理に移行する。一方、分かち候補数ｋより大きい場合に
は、総ての分かち候補に関する処理が終了したと判断さ
れて辞書作成処理動作を終了する。

【００４９】以上の結果、上記文字列情報「浦和市大久
保」に対して上述のような辞書作成処理動作が行われた
場合には、語彙記憶部６へは次のように登録が行われ
る。すなわち、１番目の分かち候補「浦和/市/大久保」に
対して、先ず、発声単位の二つ目以降の単語数ｊが「０」
である場合には、発声単位の位置ｉが小さい順に、発声
単位/読みのペア「浦和/うらわ」,「市/し」,「大久保/おお
くぼ」が登録される。次に、発声単位の上記単語数ｊが
「１」である場合は、発声単位の位置ｉが小さい順に、発
声単位/読みのペア「浦和市/うらわし」,「市大久保/しお
おくぼ」が登録される。次に、発声単位の上記単語数ｊ
が「２」である場合には、発声単位/読みのペア「浦和市大
久保/うらわしおおくぼ」が登録される。

【００５０】さらに、２番目の分かち候補「浦和/市大/
久保」に対して、先ず、発声単位の上記単語数ｊが「０」
である場合は、発声単位の位置ｉが小さい順に、発声単
位/読みのペア「浦和/うらわ」,「市大/しだい」,「久保/く
ぼ」が登録される。その際に、他の発声単位/読みのペア
「市大/いちだい」も登録される。次に、発声単位の上記
単語数ｊが「１」である場合には、発声単位/読みのペア
「浦和市大/うらわしだい」,「市大久保/しだいくぼ」と、
他の発声単位/読みのペア「浦和市大/うらわいちだい」,
「市大久保/いちだいくぼ」とが登録される。次に、発声
単位の上記単語数ｊが「２」である場合には、発声単語/
読みのペア「浦和市大久保/うらわしだいくぼ」と、他の
発声単位/読みのペア「浦和市大久保/うらわいちだいく
ぼ」とが登録される。

【００５１】その結果、上記語彙記憶部６には、図５に
示すように認識語彙が登録されて音声認識用辞書が作成
されることになる。

【００５２】以上のように、本実施の形態においては、
テキスト解析部２によって、入力文字列が形態素(単語)
に分割されて、総ての分かち候補が求められる。さら
に、読み付与部３によって、総ての分かち候補の単語に
対して読みが付与される。その場合、複数の読み方が存
在する単語には総ての読みが付与される。そして、語彙
作成部５によって、総ての分かち候補,総ての読み候補,
総ての連接単語の組み合せを考慮して発声単位/読みの
ペアを作成し、語彙記憶部６に登録するようにしてい
る。

【００５３】すなわち、本実施の形態によれば、入力文
字列情報から複数の発声単位の語彙を生成することがで
きる。したがって、１つの入力文字列情報から、当該文
字列中の何れの部分文字列を発声しても認識できる音声
認識用辞書を作成することが可能となるのである。

【００５４】例えば、ウエブ上でホームページの呼び出
しを音声によって行う場合に、テキスト解析部２にホー
ムページのタイトルを入力し、上述の手順によって音声
認識用辞書を作成することによって、上記タイトルと発
声が完全に一致しなくてもホームページの呼び出しを行
うことができるのである。例えば、ホームページのタイ
トルが「首相官邸のトップページ」である場合、「首相官
邸のトップページ」と発声しても、「首相官邸」と発声し
ても、あるいは、「官邸のトップページ」と発声しても、
首相官邸のホームページを呼び出すことが可能な音声認
識用辞書を得ることができるのである。

【００５５】同様に、テレビのチャンネル切換をテレビ
番組名の発声によって行う場合に、テキスト解析部２に
電子テレビ番組表の番組名を入力し、上述の手順によっ
て音声認識用辞書を作成することによって、例えば、番
組名が「ＮＨＫニュースおはよう日本」である場合に、
「ＮＨＫニュース」と発声しても、「おはよう日本」と発声
しても、所定の時間になるとテレビのチャンネルを自動
的に「ＮＨＫ」に切り換えることが可能な音声認識用辞書
を得ることができるのである。

【００５６】尚、説明を簡単にするため、文字列「ＮＨ
Ｋニュース」,「おはよう日本」を一つの単語として音声認
識用辞書に登録する場合を例に説明を行っている。しか
しながら、「ＮＨＫ」と「ニュース」や「おはよう」と「日本」
を独立した単語として記憶して、これらの単語が連続す
るという情報を別途記憶することによって、連続音声認
識用の辞書作成も同様の方法で実現することができる。

【００５７】＜第２実施の形態＞上記第１実施の形態に
よれば、テキスト解析の結果得られる連接単語の組合せ
だけの発声単位が得られるが、これらの発声単位の中に
は誤解析も含まれる。したがって、得られた発声単位の
総てを同等に扱うことは不要な語彙を多く含み、認識率
を低下させる原因になり得る。本実施の形態は、このよ
うな場合に対処するものである。

【００５８】図６は、本実施の形態の音声認識用辞書作
成装置におけるブロック図である。解析処理部１１に文
字列情報が入力されると、テキスト解析部１２によって
入力文字列が形態素に分割される。その際に、複数の分
割候補が存在する場合には、その総ての分割候補に確か
らしさの度合いを表す解析尤度が付与されて出力され
る。そして、読み付与部１３によって、上記分割された
形態素の読みが付与される。その際に、複数の読み方が
存在する場合には、その総ての読みに確からしさの度合
いを表す読み尤度が付与されて出力される。解析辞書メ
モリ１４には、上記第１実施の形態の場合と同様に、テ
キスト解析部１２がテキスト解析を行う際や読み付与部
１３が読み付与を行う際に必要な解析辞書を含む言語デ
ータ等が格納されている。

【００５９】語彙作成部１５は、テキスト解析部１２に
よるテキスト解析結果と、読み付与部１３による読み付
与結果と、発声確率計算部１６による発声確率とを基
に、音声認識を行うために必要な音声認識用辞書を作成
する。発声確率計算部１６は、テキスト解析部１２が出
力する解析尤度、読み付与部１３が出力する読み尤度、
単語出現順序、モーラ数、単語出現頻度、キーワード辞
書照合の少なくとも一つを用いて、語彙作成部１５によ
って各分かち候補から得られた発声単位の発声確率を算
出する。語彙記憶部１７は、語彙作成部１５によって作
成された音声認識用辞書を記憶する。そして、この音声
認識用辞書は音声認識時に使用される。

【００６０】図７に、テキスト解析部１２の出力結果の
一例を示す。また、図８に、読み付与部１３の出力結果
の一例を示す。また、図９に、語彙作成部１５の出力結
果の一例を示す。

【００６１】以下、本実施の形態における特徴である発
声確率計算部１６の動作について詳細に述べる。この発
声確率計算部１６では、上述したように、テキスト解析
部１２による解析尤度ＫＳ、読み付与部１３による読み
尤度ＹＳ、単語出現順序、モーラ数、単語出現頻度、キ
ーワード辞書照合の少なくとも一つを用いて、各発声単
位の発声確率を算出する。

【００６２】先ず、上記テキスト解析部１２によって得
られる解析尤度ＫＳから上記発声確率を求める場合につ
いて説明する。上記解析尤度ＫＳは、入力文字列を解析
して得られた結果(形態素分割結果)がどの程度確からし
いかを図る指標になる。上記第１実施の形態の場合と同
じ入力文字列「浦和市大久保」を例に上げて説明する。

【００６３】上記テキスト解析部１２によって、１番目
の解析候補(分かち候補)「浦和/市/大久保」の解析尤度が
ＫＳ(１)と得られ、２番目の解析候補「浦和/市大/久保」
の解析尤度がＫＳ(２)と得られたとする。また、ｉ番目
の解析候補に含まれる構成単語を組み合わせて得られる
発声単位の数をＮ(i)とする。但し、同じ発声単位が複
数の解析候補に含まれている場合には、最も解析尤度の
高い解析候補の発声単位を数えることとする。上記入力
文字列「浦和市大久保」の場合であれば、構成単語が「浦
和」だけで成る発声単位は、１番目,２番目の両解析候補
に含まれるために、解析尤度の高い解析候補の方だけで
数えるのである。

【００６４】一つの解析候補における構成単語の全組み
合わせ(つまり全発声単位)は、均等の確率で発生するも
のとする。そうすると、ｉ番目の解析候補における発声
単位ｗの発声確率Ｐ１(ｗ)は式(１)で表現できる。但
し、式(１)中におけるＭは解析候補数である。

【００６５】式(１)における右辺の分母は、入力文字列
に固有の値であるから「Ａ」と置くことができる。また、
一般的に、入力文字列「浦和市大久保」は、固有名詞「浦
和」と接尾語「市」と固有名詞「大久保」である可能性の方
が、固有名詞「浦和」と一般名詞「市大」と固有名詞「久保」
である可能性よりも高いと判断され、両解析尤度の大小
関係はＫＳ(１)＞ＫＳ(２)となる。したがって、「浦和
市」と発声される確率ＫＳ(１)/Ａと、「久保」と発声される確率ＫＳ(２)/Ａとでは、前者の方が高くなる。

【００６６】以上のようにして、各解析候補の解析尤度
ＫＳに基づいて、各解析候補から得られる発声単位の発
声確率を求めることができるのである。

【００６７】次に、上記読み付与部１３によって得られ
る読み尤度ＹＳから上記発声確率を求める場合について
説明する。上記入力文字列「浦和市大久保」の場合を例に
上げて説明する。上記解析尤度が付与された総ての解析
候補に対して、読み付与部１３によって、１番目の解析
候補「浦和(うらわ)/市(し)/大久保(おおくぼ)」の読み尤
度がＹＳ(１)、２番目の解析候補「浦和(うらわ)/市大
(しだい)/久保(くぼ)」の読み尤度がＹＳ(２)、３番目の
解析候補「浦和(うらわ)/市大(いちだい)/久保(くぼ)」の
読み尤度がＹＳ(３)と計算されたとする。

【００６８】また、ｉ番目の解析候補に含まれる構成単
語を組み合わせて得られる発声単位の数をＮ(i)とす
る。但し、同じ発声単位が複数の解析候補に含まれてい
る場合には、最も解析尤度の高い解析候補の発声単位を
数えることとする。

【００６９】一つの解析候補における構成単語の全組合
せは、均等の確率で発生するものとする。そうすると、
ｉ番目の解析候補における発声単位ｗの発声確率Ｐ２
(ｗ)は式(２)で表現できる。但し、式(２)中におけるＭ
は解析候補数である。

【００７０】式(２)における右辺の分母は、入力文字列
に固有の値であるから「Ｂ」と置くことができる。また、
各読み尤度の大小関係はＹＳ(１)＞ＹＳ(２)＞ＹＳ(３)
であるとする。そうすると、「うらわしおおくぼ」と発声
される確率ＹＳ(１)/Ｂと「うらわしだいくぼ」と発声される確率ＹＳ(２)/Ｂとでは、前者の方が高くなる。

【００７１】以上のようにして、各解析候補の読み尤度
ＹＳに基づいて、各解析候補から得られる発声単位の発
声確率を求めることができるのである。

【００７２】次に、上記単語出現順序から上記発声確率
を求める場合について説明する。ここで、単語出現順序
ｉを変数とする関数ｈ(i)を定義する。関数ｈ(i)は、文
字列表記の先頭部分にある単語ほど発声単位となる確率
が高いという経験則に基づいて、単語出現順序ｉが増加
するに従って値が減少する関数である。

【００７３】例えば電子番組データの番組名に記載され
ている文字列「水戸黄門/五十三次世直し旅・品川」を例
に説明する。単語出現順序がｉ番目である単語を先頭に
含む発声単位の個数をＮ(i)とする。

【００７４】同じ単語を先頭に含む全発声単位は均等の
確率で発生するものとする。すなわち、単語「水戸」で始
まる発声単位「水戸」,「水戸黄門」,「水戸黄門五十三次」の
発声確率は総て等確率になる。そうすると、単語出現順
序がｉ番目である単語を先頭に含む発声単位ｗの発声確
率Ｐ３(ｗ)は式(３)で表現できる。但し、式(３)中にお
けるＭは単語出現順序数(単語数)である。

【００７５】式(３)における右辺の分母は、解析候補に
固有の値であるから「Ｃ」と置くことができる。また、上
記文字列「水戸黄門/五十三次世直し旅・品川」に対する
テキスト解析部１２によるテキスト解析の結果、単語出
現順序ｉ＝１は「水戸」、ｉ＝２は「黄門」、ｉ＝３は「五
十三次」、ｉ＝４は「世直し」、ｉ＝５は「旅」、ｉ＝６は
「品川」となる。さらに、関数ｈ(i)の定義に基づいて、
単語出現順序ｉ＝１,３,６における関数ｈ(i)の値の大
小関係はｈ(１)＞ｈ(３)＞ｈ(６)となる。そのために、
発声単位「水戸黄門」,「五十三次世直し旅」,「品川」に関し
て、発声単位「品川」よりも発声単位「五十三次世直し
旅」、発声単位「五十三次世直し旅」よりも発声単位「水戸
黄門」の方が、発声確率は高くなる。したがって、「みと
こうもん」と発声される確率ｈ(１)/Ｃと「ごじゅうさんつぎ」と発声される確率ｈ(３)/Ｃと「しながわ」と発声される確率ｈ(６)/Ｃとでは、「みとこうもん」の発声確率が一番高くなる。

【００７６】以上のようにして、入力文字列を構成する
各単語の単語出現順序に基づいて、得られる発声単位の
発声確率を求めることができるのである。

【００７７】次に、上記モーラ数から上記発声確率を求
める場合について説明する。発声単位の発声確率は、あ
るモーラ数をピークとして発声単位のモーラ数が大きく
なるほど低くなる。逆に、モーラ数が小さくなっても低
くなる。そこで、図１０に概念図を示すような発声単位
のモーラ数ｉと発声確率との関係を表す関数ｍ(i)を定
義する。

【００７８】電子番組データの番組名に記載されている
文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」を例に
説明する。この番組名を発声する際に「サスペンス傑作
劇場津軽竜飛岬風の殺意」とそのまま発声するケースは
稀であり、「サスペンス傑作劇場」や「サスペンス」あるい
は「津軽竜飛岬風の殺意」等の発声単位で発声される可能
性が高いと考えられる。また、「傑作」や「劇場」ではモー
ラ数が少な過ぎて発声確率は低いと考えられる。

【００７９】同じモーラ数を呈する全発声単位は均等の
確率で発生するものとする。また、モーラ数がｉである
発声単位の個数をＮ(i)とする。そうすると、モーラ数
がｉである発声単位ｗの発声確率Ｐ４(ｗ)は式(４)で表
現できる。但し、式(４)中におけるＭは最大モーラ数で
ある。

【００８０】式(４)における右辺の分母は、解析候補に
固有の値であるから「Ｄ」と置くことができる。また、上
記文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」に対
するテキスト解析部１２によるテキスト解析の結果、発
声単位「サスペンス傑作劇場津軽竜飛岬風の殺意」のモー
ラ数は２４、発声単位「サスペンス劇場」のモーラ数は９
となる。さらに、関数ｍ(i)の定義に基づいて、モーラ
数ｉ＝２４,９における関数ｍ(i)の値の大小関係はｍ
(９)＞ｍ(２４)となる。したがって、「さすぺんすげき
じょうつがるたっぴみさきかぜのさつい」と発声される
確率ｍ(２４)/Ｄと「さすぺんすげきじょう」と発声される確率ｍ(９)/Ｄとでは、後者の方が高くなる。

【００８１】以上のようにして、入力文字列から得られ
る発声単位のモーラ数に基づいて、発声単位の発声確率
を求めることができるのである。

【００８２】次に、上記単語出現頻度から上記発声確率
を求める場合について説明する。ここで、テキスト解析
部１２に順次入力される総ての文字列情報で成る文字列
情報群中における出現回数ｉを変数とする関数ｆ(i)を
定義する。この関数ｆ(i)は、上記文字列情報群の中に
出現する回数が多い単語は他の単語と区別するための単
語となり難いという性質を利用しており、上記文字列情
報群中における出現回数ｉが増加するに従って値が減少
する関数である。

【００８３】例えば、ホームページのタイトル「大蔵省
ホームページ」を例に説明する。単語「ホームページ」や
単語「ようこそ」等は、他のホームページのタイトルにも
頻繁に出現するので、ホームページの呼び出し用の認識
語彙としてこれらの単語を含む発声単位の発声確率は低
くなる。

【００８４】上記文字列情報群中において同じ出現回数
を呈する単語を含む全発声単位は均等の確率で発生する
ものとする。また、上記文字列情報群中での出現回数が
ｉである単語を含む発声単位の個数をＮ(i)とする。そ
うすると、発声単位ｗを構成する単語のうちで上記文字
列情報群中での出現回数が最少である単語の出現回数が
ｉである当該発声単位ｗの発声確率Ｐ５(ｗ)は式(５)で
表現できる。但し、式(５)中におけるＭは最大出現回数
である。

【００８５】式(５)における右辺の分母は、上記文字列
情報群に固有の値であるから「Ｅ」と置くことができる。
また、例えば、上記文字列情報群中に、「大蔵省」という
単語を含む発声単位が１回含まれる一方、「ホームペー
ジ」という単語を含む発声単位が５回含まれるとする
と、関数ｆ(i)の定義に基づく単語出現頻度ｉ＝１,５に
おける関数ｆ(i)の値の大小関係はｆ(１)＞ｆ(５)とな
る。したがって、「おおくらしょう」と発声される確率ｆ(１)/Ｅと「ほーむぺーじ」と発声される確率ｆ(５)/Ｅとでは、前者の方が高くなる。

【００８６】以上のようにして、上記文字列情報群中に
おける単語出現頻度に基づいて、発声単位の発声確率を
求めることができるのである。

【００８７】具体的には、例えば、上記文字列情報群と
して５つのホームページのタイトルがある場合、先ず、
１番目のタイトルが入力された場合に、当該タイトルの
文字列中における単語出現頻度ｉ₁に基づいて発声単位
Ｗの発声確率Ｐ５(ｗ)を求める。次に、２番目のタイト
ルが入力された場合は、同一発声単位Ｗに関して、１番
目のタイトルと２番目のタイトルとの文字列中における
単語出現頻度ｉ₂に基づいて、発声確率Ｐ５(ｗ)を計算
し直す。以下同じ動作を繰り返し、最後に５番目のタイ
トルが入力された場合は、同一発声単位Ｗに関して、１
番目〜５番目のタイトルの全文字列中における単語出現
頻度ｉ_tに基づいて、発声確率Ｐ５(ｗ)を計算し直し、
最終的な発声単位Ｗの発声確率Ｐ５(ｗ)を得るのであ
る。

【００８８】最後に、上記キーワード辞書照合から上記
発声確率を求める場合について説明する。この場合、予
め確率値が付与されたキーワードを登録したキーワード
辞書を作成しておく。例えば、単語「ニュース」には高い
確率値を付与してキーワード辞書に登録しておく。逆
に、単語「番組」や単語「ホームページ」は冗長で在っても
無くてもよく、低い確率値を付与して登録しておく。
尚、キーワード辞書に登録されていない単語にはデフォ
ルトの確率値が与えられる。

【００８９】こうすることによって、「にゅーす」と発声
される確率と「ばんぐみ」と発声される確率とでは、前者
の方が高くなる。ここで、確率値「０」を付与してキーワ
ード辞書に登録することは、認識語彙から削除すること
と同等の役割を果たす。

【００９０】以上のようにして、キーワード辞書照合に
基づいて、発声単位の発声確率を求めることができるの
である。

【００９１】以上述べた「解析尤度」,「読み尤度」,「単語
出現順序」,「モーラ数」,「単語出現頻度」,「キーワード辞
書照合」の６種類の項目の何れ一つを用いて求めた発声
確率を組み合わせて、発声単位の発声確率とすることが
できる。一例として、式(６)のような計算式によって発
声単位の発声確率を求めることができる。すなわち、解析尤度を用いて求めた発声確率をＰ１読み尤度を用いて求めた発声確率をＰ２単語出現順序を用いて求めた発声確率をＰ３モーラ数を用いて求めた発声確率をＰ４単語出現頻度を用いて求めた発声確率をＰ５キーワード辞書照合を用いて求めた発声確率をＰ６とすると、ここで、ｍi：重み係数

【００９２】以上のようにして、各発声単位毎に算出さ
れた発声確率ＷＳは、図９に示すように、語彙作成部１
５によって上記第１実施の形態と同様にして作成された
認識語彙(発声単位)に付与されて、語彙記憶部１７に登
録されるのである。

【００９３】以上のように、本実施の形態においては、
テキスト解析部１２は、複数の分割候補が存在する場合
には総ての分割候補に解析尤度ＫＳを付与して出力す
る。また、読み付与部１３は、複数の読み方が存在する
場合には総ての読みに読み尤度ＹＳを付与して出力す
る。さらに、発声確率計算部１６によって、上記解析尤
度ＫＳおよび読み尤度ＹＳ、単語出現順序、モーラ数、
単語出現頻度、キーワード辞書照合の少なくとも一つを
用いて、得られる発声単位の発声確率を算出する。そし
て、得られた発声確率ＷＳを認識語彙に付与して語彙記
憶部１７に登録するようにしている。

【００９４】したがって、本実施の形態によれば、上記
第１実施の形態によって作成された音声認識用辞書に登
録されている認識語彙中における誤解析による認識語彙
や実際には発声されない認識語彙の発声確率を低くする
ことができ、高い認識精度を得ることができる音声認識
用辞書を作成することができる。

【００９５】尚、上記関数ｈ(i),ｍ(i),ｆ(i)およびキ
ーワード辞書の格納場所は特に限定するものではない
が、例えば発生確率計算部１６の内部メモリに格納して
あるものとする。また、説明を簡単にするために、発声
確率計算部１６を語彙作成部１５とは別ブロックに構成
して、語彙作成部１５で得られた発声単位に関して発声
確率を算出するようにしている。しかしながら、発声確
率計算部を語彙作成部と同一ブロックに構成して、図２
のフローチャートにおける上記ステップＳ4以降に、発
声確率算出動作を組み込んでも差し支えない。

【００９６】＜第３実施の形態＞本実施の形態は、上記
第２実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置に
関するものである。図１１は、図６に示す音声認識用辞
書作成装置を搭載した音声認識装置のブロック図であ
る。音声認識用辞書作成装置２１を構成するテキスト解
析部２３,読み付与部２４,解析辞書メモリ２５,語彙作
成部２６,発声確率計算部２７および語彙記憶部２８
は、上記第２の実施の形態における上記テキスト解析部
１２,読み付与部１３,解析辞書メモリ１４,語彙作成部
１５,発声確率計算部１６および語彙記憶部１７と同じ
構成を有している。そして、語彙記憶部２８には、図９
に示すように、発声確率が付与された認識語彙が格納さ
れている。

【００９７】一方、音声認識装置２２は、音響分析部２
９,尤度計算部３０,音響モデル格納部３１および照合部
３２で構成され、マイクに入力された音声を語彙記憶部
２８に格納された認識語彙情報(音声認識用辞書)を用い
て認識する。

【００９８】上記音響分析部２９は、マイクから入力さ
れた音声のアナログ波形をディジタル波形に変換し、２
０msec〜４０msec程度の短い時間間隔(フレーム)毎に周
波数分析し、スペクトルを表すパラメータのベクトル系
列に変換する。周波数分析にはＬＰＣ(線形予測分析)メ
ルケプストラム等が用いられる。

【００９９】上記尤度計算部３０は、音響分析部２９か
らの入力音声のパラメータベクトルを用いて、音響モデ
ル格納部３１に格納されたＨＭＭ(隠れマルコフモデル)
等の音韻毎の音響モデルの尤度を計算する。こうして、
各音韻の尤度を求めるのである。照合部３２は、求めら
れた各音韻の尤度と語彙記憶部２８に登録されている総
ての認識語彙との照合を行ない、全認識語彙のスコアを
算出する。その場合における各認識語彙のスコアは、当
該認識語彙の音韻系列に尤度計算部３０で求められた各
音韻の尤度を当て嵌めて得た音響尤度と、当該認識語彙
に付与されて語彙記憶部２８に記憶されている発声確率
である言語尤度とを組み合わせて算出する。例えば、認
識語彙Ｗの音響尤度をｐ(W)とし言語尤度をｑ(W)とする
と、認識語彙Ｗのスコアscore(W)を、 score(W)＝α・ｐ(W)＋β・ｑ(W) 但し、α,β：定数によって求めるのである。

【０１００】こうして、上記語彙記憶部２８に登録され
ている総ての認識語彙についてスコアを算出し、上位所
定値以上のスコアを呈する認識語彙でなる認識候補を認
識結果として出力するのである。

【０１０１】以上のように、本実施の形態においては、
音声認識装置は、上記第２実施の形態の音声認識用辞書
作成装置によって作成された音声認識用辞書が格納され
た語彙記憶部２８を有している。そして、照合部３２に
よって、尤度計算部３０で求められた各音韻の尤度と語
彙記憶部２８に登録されている総ての認識語彙の音韻系
列との照合を行ない、音韻の尤度に基づく音響尤度と上
記発声確率である言語尤度とを組み合わせて、全認識語
彙のスコアを算出するようにしている。

【０１０２】したがって、本実施の形態によれば、上記
第１実施の形態の場合と同様に、ホームページの呼び出
しやテレビのチャンネル切換を音声によって行う場合
に、登録されたホームページタイトルや番組名を完全に
発声しなくてもホームページの呼び出しやチャンネルの
切換を行うことができる。その際に、上記発声確率(言
語尤度)に基づくスコアの高い認識語彙を音声認識結果
とすることによって、上記入力文字列情報の誤解析によ
って得られた認識語彙や実際には発声されない認識語彙
に誤認識される確率を低減することができる。したがっ
て、高い認識性能を有する音声認識装置を実現すること
ができるのである。

【０１０３】尚、上記実施の形態においては、上記音声
認識装置２２は音声認識用辞書作成装置２１を搭載して
いる。しかしながら、この発明の音声認識装置は、少な
くとも上記音声認識用辞書作成装置によって作成された
語彙記憶部２８が搭載されていればよく、テキスト解析
部２３,読み付与部２４,解析辞書メモリ２５,語彙作成
部２６および発声確率計算部２７は、音声認識装置２２
とは独立して設けても差し支えない。

【０１０４】＜第４実施の形態＞本実施の形態は、上記
第２実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置の
他の例に関するものであり、上記音声認識用辞書作成装
置に入力する文字列情報をコンテンツから抽出するもの
である。

【０１０５】図１２は、図６に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置４１を構成するテキスト解析部４
３,読み付与部４４,解析辞書メモリ４５,語彙作成部４
６,発声確率計算部４７および語彙記憶部４８、音声認
識装置４２を構成する音響分析部４９,尤度計算部５０,
音響モデル格納部５１および照合部５２は、上記第３の
実施の形態におけるテキスト解析部２３,読み付与部２
４,解析辞書メモリ２５,語彙作成部２６,発声確率計算
部２７,語彙記憶部２８,音響分析部２９,尤度計算部３
０,音響モデル格納部３１および照合部３２と同じ構成
を有している。そして、語彙記憶部４８には、図９に示
すように、発声確率が付与された認識語彙が格納されて
いる。

【０１０６】取り込み部５３は、外部からの文字列情報
を含むコンテンツを取り込む。上記コンテンツは、放送
によって送信されてくる情報を受信機で受信して取り込
んでもよいし、インターネットで配信される情報を通信
ネットワーク経由で取り込んでもよいし、光磁気ディス
ク,磁気テープ,ハードディスクおよびＩＣ(集積回路)カ
ード等の固定的にデータを記録する媒体から取り込んで
もよい。文字列情報抽出部５４は、取り込み部５３で取
り込まれたコンテンツの中から音声認識用辞書の作成に
使用する文字列情報を抽出する。そして、抽出された文
字列情報は、音声認識用辞書作成装置４１のテキスト解
析部４３に送出される。

【０１０７】抽出条件格納部５５には、上記コンテンツ
に含まれるタグ情報が如何なるタグ情報である場合に文
字列情報を抽出するかという抽出条件が格納されてい
る。そして、文字列情報抽出部５４は、抽出条件格納部
５５に格納されている上記抽出条件を参照して、上記音
声認識用辞書の作成に用いる文字列情報を抽出するので
ある。

【０１０８】図１３は、上記取り込み部５３および文字
列情報抽出部５４によって行われる文字列情報抽出処理
動作のフローチャートである。以下、図１３に従って、
文字列情報抽出動作について説明する。ステップＳ21
で、上記取り込み部５３によって、上記コンテンツが取
り込まれる。以下、文字列情報抽出部５４による処理に
移行する。ステップＳ22で、上記取り込まれたコンテン
ツの先頭文字が読み出される。ステップＳ23で、上記読
み出された文字は空(つまりコンテンツは最後)であるか
否かが判別される。その結果、最後であれば文字列情報
抽出処理動作を終了する。一方、最後でなければステッ
プＳ24に進む。ステップＳ24で、受け取った文字がタグ
情報であるか否かが判別される。その結果、タグ情報で
なければステップＳ25に進む。一方、タグ情報であれば
ステップＳ26に進む。ステップＳ25で、上記コンテンツ
における次の文字が読み出された後、ステップＳ23に戻
って次の文字の処理に移行する。ステップＳ26で、抽出
条件格納部５５の抽出条件が参照されて、上記抽出条件
を満たすか否かが判別される。その結果、満たす場合に
はステップＳ27に進む一方、満たさない場合には上記ス
テップＳ25に戻って次の文字の処理に移行する。ステッ
プＳ27で、上記抽出条件を満たす文字列が抽出されて、
テキスト解析部４３に送出される。そうした後、上記ス
テップＳ25に戻って次の文字の処理に移行する。以下、
ステップＳ23〜ステップＳ27の処理を繰り返し、上記ス
テップＳ23においてコンテンツは最後であると判別され
と文字列情報抽出処理動作を終了するのである。

【０１０９】例えば、上記コンテンツがＨＴＭＬ(ハイ
パーテキスト・マークアップ言語)ファイルであり、抽出
条件格納部５５に抽出条件「＜title＞タグが存在する
場合は＜title＞と＜/title＞とで囲まれた文字列を抽
出する」が格納されているとすると、入力されたコンテ
ンツ(ＨＴＭＬファイル)中に、＜title＞首相官邸のトップページ＜/title＞なる記述
があると、文字列「首相官邸のトップページ」が抽出され
るのである。

【０１１０】こうして、文字列情報を含むコンテンツか
ら上記文字列情報抽出部５４によって自動的に抽出され
た文字列に対して、音声認識用辞書作成装置４１によっ
て図２に例示するような辞書作成処理を行うことによっ
て、語彙記憶部４８に、音声によるホームページ呼び出
しに最適な音声認識用辞書が作成・登録されるのであ
る。したがって、音声認識装置４２に対して、首相官邸
のホームページのタイトル「首相官邸のトップページ」を
完全に発声しても、部分的に「首相官邸」や「官邸のトッ
プページ」と発声しても正しく認識され、首相官邸のホ
ームページを呼び出すことができるのである。

【０１１１】その際に、上記音声認識用辞書作成装置４
１には、発声確率計算部４７が搭載されており、語彙記
憶部４８には発声確率が付与された認識語彙が登録され
ている。したがって、文字列情報抽出部５４で抽出され
た文字列に対する誤解析の結果生成された認識語彙や現
実には発声されないような認識語彙の発声確率を低くし
て、高い認識精度を得ることができるのである。

【０１１２】＜第５実施の形態＞本実施の形態は、上記
第４実施の形態に示す音声認識装置において、音声認識
用辞書作成装置に入力する文字列情報が抽出されるコン
テンツを、ウエブページ情報に限定したものである。

【０１１３】図１４は、図６に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置６１を構成するテキスト解析部６
３,読み付与部６４,解析辞書メモリ６５,語彙作成部６
６,発声確率計算部６７および語彙記憶部６８、音声認
識装置６２を構成する音響分析部６９,尤度計算部７０,
音響モデル格納部７１および照合部７２は、上記第３の
実施の形態におけるテキスト解析部２３,読み付与部２
４,解析辞書メモリ２５,語彙作成部２６,発声確率計算
部２７,語彙記憶部２８,音響分析部２９,尤度計算部３
０,音響モデル格納部３１および照合部３２と同じ構成
を有している。そして、語彙記憶部６８には、図９に示
すように、発声確率が付与された認識語彙が格納されて
いる。

【０１１４】また、文字列情報抽出部７４および抽出条
件格納部７５は、上記第４実施の形態における文字列情
報抽出部５４および抽出条件格納部５５と同じ構成を有
している。そして、文字列情報抽出部７４によって抽出
された文字列情報は、音声認識用辞書作成装置６１のテ
キスト解析部６３に出力される。

【０１１５】ウエブページ情報取り込み部７３は、上記
コンテンツとしてのウエブページ情報を取り込んで、先
頭文字から順次文字列情報抽出部７４に送出する。以
後、文字列情報抽出部７４によって、抽出条件格納部７
５に格納されている抽出条件に適合する文字列情報が抽
出される。

【０１１６】一方、制御部７６は、上記音声認識装置６
２による音声認識結果に基づいて、ウエブページの表示
制御を行う。そして、ウエブページ表示部７７は、制御
部７６の指示に従ってウエブページを表示するのであ
る。

【０１１７】図１５は、上記ウエブページ情報取り込み
部７３によって取り込まれるウエブページ情報の一例を
示す。ウエブページの情報は、ＨＴＭＬ等の言語で記述
されている。そして、抽出条件格納部７５に抽出条件
「＜title＞タグが存在する場合は＜title＞と＜/title
＞とで囲まれた文字列を抽出する」が格納されていると
すると、文字列情報抽出部７４は、基本的には図１３の
フローチャートと同じ文字列情報の抽出動作を行う。す
なわち、ウエブページ情報に記述されている文字列を先
頭から見ていき、＜title＞タグを見つけると、＜title
＞と＜/title＞とで挟まれた文字列「鈴木一郎のホーム
ページ」を抽出するのである。

【０１１８】こうして、ウエブページ情報から上記文字
列情報抽出部７４によって自動的に抽出された文字列に
対して、音声認識用辞書作成装置６１によって図２に例
示するような辞書作成処理を行うことによって、語彙記
憶部６８に、音声によるホームページ呼び出しに最適な
発声確率付き認識語彙が登録された音声認識用辞書が作
成されるのである。その際に、上記文字列「鈴木一郎の
ホームページ」から作成された発声単位「鈴木」,「一郎」,
「鈴木一郎」,「鈴木一郎のホームページ」,「一郎のホーム
ページ」には、図１６に示すように当該ホームページの
ＵＲＬ(http://www.suzuki.xxx.jp等)が付与されて語彙
記憶部６８に登録するようにしている。

【０１１９】したがって、上記音声認識装置６２に対し
て「鈴木一郎」と発声された場合は、音響分析部６９で入
力音声がベクトル系列に変換され、尤度計算部７０で上
記ベクトル系列に基づいて各音韻の尤度が算出され、照
合部７２で語彙記憶部６８の語彙との照合を行って「鈴
木一郎」という語彙として認識されると共に、認識語彙
「鈴木一郎」に付与されているＵＲＬ(http://www.suzuk
i.xxx.jp)が得られるのである。

【０１２０】そうすると、上記制御部７６は、得られた
ＵＲＬに基づいて「鈴木一郎のホームページ」にアクセス
して「鈴木一郎のホームページ」のウエブページ情報を取
得し、ウエブページ表示部７７に当該ウエブページの表
示を指示して表示させるのである。

【０１２１】すなわち、本実施の形態によれば、ウエブ
ページの情報から自動的に発声確率付きの発声単位を生
成して適切な音声認識用辞書を作成することができる。
つまり、図１５のようなウエブページから図ｌ６に示す
ような音声認識用辞書を自動的に作成することができ
る。したがって、ウエブページのタイトル「鈴木一郎の
ホームページ」を完全に発声しても、部分的に「鈴木」や
「鈴木一郎」や「一郎のホームページ」と発声しても正しく
認識し、「鈴木一郎のホームページ」のウエブページ情報
を取得してウエブページ表示部７７に表示することがで
きるのである。

【０１２２】上記ブラウザのブックマークやお気に入り
等でホームページをブラウザに登録した場合、利用者が
見て判断する情報としてタイトルを利用する場合があ
る。その場合のタイトルは、飽くまでも見るための情報
であって発声するための文字列情報ではないため、極端
に長いタイトルが与えられる場合がある。そのような場
合でも、＜title＞タグで囲まれた文字列を抽出して上
述した方法で音声認識用辞書を作成することによって、
より短い発声で上記ブックマークやお気に入りに登録し
たホームページを呼び出すことが可能になるのである。

【０１２３】尚、本実施の形態においては、上記＜titl
e＞タグを用いる場合を例に説明したが、＜title＞タグ
以外にも文字フォントを変更するタグ等、用途に応じた
抽出条件を抽出条件格納部７５に格納しておくができ
る。そうすることによって、様々な用途に応じた音声認
識用辞書を作成することが可能になる。

【０１２４】また、上記抽出条件格納部７５に、上記発
声確率の変更条件を格納することも可能である。その場
合の発声確率の変更条件は、例えば、「ＵＲＬの表記を
基にタイトルから発声確率の高い発声単位を選ぶ」であ
る。具体的には、「ＵＲＬ中に含まれる読みに関するア
ルファベット表記と、テキスト解析部６３および読み付
与部６４によるテキスト解析および読み付与の結果から
得られた読みの表記(アルファベット表記)の一致具合を
調べ、一致する単語があればその単語(読み方)を含む発
声単位の発声確率を高くする」のである。例えば、タイ
トル「朝日新聞のホームページ」とそのＵＲＬ「http://ww
w.asahi.com」とを例に取ると、ＵＲＬ中に含まれる読み
に関するアルファベット表記「asahi」とテキスト解析お
よび読み付与の結果得られた単語「朝日」の読みの表記「a
sahi」とが同一である。したがって、単語「朝日」を含む
発声単位の発声確率を高く設定することができる。こう
して、タイトル「朝日新聞のホームページ」に関する高い
認識精度を可能にする音声認識用辞書を簡単に作成する
ことが可能になるのである。

【０１２５】＜第６実施の形態＞本実施の形態は、上記
第４実施の形態に示す音声認識装置において、音声認識
用辞書作成装置に入力する文字列情報が抽出されるコン
テンツを、テレビ番組情報に限定したものである。

【０１２６】図１７は、図６に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置８１を構成するテキスト解析部８
３,読み付与部８４,解析辞書メモリ８５,語彙作成部８
６,発声確率計算部８７および語彙記憶部８８、音声認
識装置８２を構成する音響分析部８９,尤度計算部９０,
音響モデル格納部９１および照合部９２は、上記第３の
実施の形態におけるテキスト解析部２３,読み付与部２
４,解析辞書メモリ２５,語彙作成部２６,発声確率計算
部２７,語彙記憶部２８,音響分析部２９,尤度計算部３
０,音響モデル格納部３１および照合部３２と同じ構成
を有している。そして、語彙記憶部８８には、図９に示
すように、発声確率が付与された認識語彙が格納されて
いる。

【０１２７】また、文字列情報抽出部９４および抽出条
件格納部９５は、上記第４実施の形態における文字列情
報抽出部５４および抽出条件格納部５５と同じ構成を有
している。そして、文字列情報抽出部９４によって抽出
された文字列情報は、音声認識用辞書作成装置８１のテ
キスト解析部８３に出力される。

【０１２８】テレビ番組情報取り込み部９３は、上記コ
ンテンツとしてのテレビ番組情報を取り込んで、先頭文
字から順次文字列情報抽出部９４に送出する。上記テレ
ビ番組情報の取り込みは、１日分あるいは１週間分等の
まとまった電子番組データを取り込むことによって行
う。尚、この電子番組データの取り込みは、文字放送受
信機で受信して取り込んでもよいし、インターネット等
のネットワーク経由で取り込んでもよい。また、光磁気
ディスク等の記録メディアから取り込んでも差し支えな
い。そうした後、文字列情報抽出部９４によって、抽出
条件格納部９５に格納されている抽出条件に適合する文
字列情報が抽出される。

【０１２９】一方、制御部９６は、上記音声認識装置８
２による音声認識結果に基づいて、テレビの表示や録画
・再生を制御する。そして、テレビ表示部９７は、制御
部９６の指示に従ってテレビの映像を表示する。録画部
９８は、制御部９６の指示に従ってテレビ番組を録画す
る。再生部９９は、制御部９６の指示に従って録画部９
８で録画されたテレビ番組を再生する。

【０１３０】テレビ番組表には、番組の日時,チャンネ
ル,番組名等の情報が、決められた形式に従って記載さ
れている。したがって、上記５実施の形態と同様にし
て、テレビ番組表の中から番組名等の特定項目の文字列
を抽出することによって、音声認識用辞書を作成するこ
とができる。

【０１３１】図１８は、上記テレビ番組情報取り込み部
９３によって取り込まれるテレビ番組情報の一例を示
す。抽出条件格納部９５には、抽出条件「番組名という
タグが付いている文字列を抽出する」が格納されている
ものとする。そうすると、文字列情報抽出部９４は、基
本的には図１３のフローチャートと同じ文字列情報の抽
出動作を行う。すなわち、テレビ番組情報に記述されて
いる文字列を先頭から見ていき、タグ「番組名」を見つけ
ると、そのタグ「番組名」に該当する文字列「ＮＨＫニュ
ースおはよう日本」を抽出するのである。

【０１３２】こうして、テレビ番組情報から上記文字列
情報抽出部９４によって自動的に抽出された文字列に対
して、音声認識用辞書作成装置８１によって図２に例示
するような辞書作成処理を行うことによって、語彙記憶
部８８に、音声によるテレビ番組表示に最適な発声確率
付き認識語彙が登録された音声認識用辞書が作成される
のである。その際に、上記文字列「ＮＨＫニュースおは
よう日本」から作成された発声単位「ＮＨＫ」,「ニュー
ス」,「ＮＨＫニュース」,「おはよう日本」,「ＮＨＫニュー
スおはよう」には、図１９に示すように当該番組のチャ
ンネル情報(「ＮＨＫ総合」等),日付情報および時刻情報
等が付与されて語彙記憶部８８に登録するようにしてい
る。

【０１３３】したがって、上記音声認識装置８２に対し
て「ＮＨＫニュース」と発声された場合は、音響分析部８
９で入力音声がベクトル系列に変換され、尤度計算部９
０で上記ベクトル系列に基づいて各音韻の尤度が算出さ
れ、照合部９２で語彙記憶部８８の語彙との照合を行っ
て「ＮＨＫニュース」という語彙として認識されると共
に、認識語彙「ＮＨＫニュース」に付与されているチャン
ネル情報(ＮＨＫ総合),日付情報(５月５日)および時刻
情報(５:００〜８:１５)が得られるのである。

【０１３４】そうすると、上記制御部９６は、得られた
チャンネル情報,日付情報および時刻情報に基づいて、
テレビ表示部９７にテレビの表示を指示して、５月５日
の午前５時に「ＮＨＫニュースおはよう日本」を表示させ
るのである。

【０１３５】すなわち、本実施の形態によれば、テレビ
番組情報から自動的に発声確率付きの発声単位を生成し
て適切な音声認識用辞書を作成することができる。つま
り、図１８に示すようなテレビ番組情報から図ｌ９に示
すような音声認識用辞書を自動的に作成することができ
る。したがって、テレビ番組の番組名「ＮＨＫニュース
おはよう日本」を完全に発声しても、部分的に「ＮＨＫ」
や「おはよう日本」や「ＮＨＫニュースおはよう」と発声し
ても正しく認識し、テレビ番組「ＮＨＫニュースおはよ
う日本」のチャンネル情報,日付情報および時刻情報を取
得してテレビ表示部９７に表示することができるのであ
る。

【０１３６】尚、本実施の形態においては、上記番組名
タグを用いる場合を例に上げて説明したが、用途に応じ
て様々な抽出条件を抽出条件格納部９５に格納しておく
ができる。例えば、録画を予約する場合は、現在の日付
及び時間よりも先の番組が認識対象になるはずであるか
ら、抽出条件格納部９５に「日付が本日以降(または、時
間が現在時刻以降)の番組名を抽出する」等の抽出条件を
格納しておくことも可能である。

【０１３７】＜第７実施の形態＞本実施の形態は、上記
第６実施の形態の利用例に関し、音声リモコンによって
情報家電機器を制御するシステムに関するものである。
この情報家電機器音声リモコン制御システムは、図２０
に示すような構成を有している。音声リモコン１０１
は、マイク１０２,スピーカー１０３およびリモコン制
御部１０４で構成される。そして、マイク１０２に音声
が入力されると、リモコン制御部１０４によって、入力
音声が通信回線１０５を経由して音声認識装置１０６に
送出される。スピーカー１０３は、通信回線１０５を経
由して音声認識装置１０６から送出されてくる認識結果
等を音声で出力し、認識結果の確認等に用いられる。
尚、通信回線１０５には、例えば赤外線等を用いる。

【０１３８】音声認識装置１０６は、図１７に示す音声
認識用辞書作成装置を搭載した音声認識装置の構成から
制御部９６,テレビ表示部９７,録画部９８および再生部
９９を削除した構成を有している。そして、通信回線１
０５から音響分析部(図示せず)に入力された音声を認識
し、認識結果を通信回線１０７を経由して情報家電機器
１０８に送出する。その場合に、音声認識用辞書作成装
置のテレビ番組情報取り込み部(図示せず)に入力される
テレビ番組情報は、通信回線１０７を経由して情報家電
機器１０８から入力される。尚、通信回線１０７は、上
述のごとく音声認識装置１０６と情報家電機器１０８と
を繋ぐネットワークであり、有線や無線のＬＡＮ(ロー
カル・エリア・ネットワーク)等のネットワークである。
具体的には、音声認識装置１０６をパーソナルコンピュ
ータ、情報家電機器１０８をテレビと考えることができ
る。尚、本実施例においては、音声認識装置１０６と情
報家電機器１０８とを通信回線１０７で繋ぐ構成にして
いるが、音声認識装置１０６を情報家電機器１０８内に
組み込んでも一向に構わない。

【０１３９】上記情報家電機器１０８は、上記通信回線
１０７からの情報に基づいて各種制御を行う機器制御部
１０９と、映像や音楽等の当該機器の出力情報となるメ
イン情報を記憶するメイン情報メモリ１１０と、映像の
番組名や音楽のタイトル名等の上記メイン情報に関わる
サブ情報を記憶するサブ情報メモリ１１１と、ディスプ
レイやスピーカー等を有して上記メイン情報を出力する
メイン情報出力部１１２を搭載している。

【０１４０】通信回線１１３は、上記情報家電機器１０
８と屋外の情報提供センター１１４とを繋ぐネットワー
クであり、電話回線やケーブルテレビ回線等のネットワ
ークおよびデジタル放送網である。情報提供センター１
１４は、プロバイダーや放送局に相当するものであり、
情報家電機器１０８に対して通信回線１１３を介してメ
イン情報を提供する。この情報提供センター１１４は、
情報家電機器１０８に送出すべきメイン情報を記憶する
メイン情報メモリ１１５と、メイン情報に関わるサブ情
報を記憶するサブ情報メモリ１１６と、各メモリ１１
５,１１６に対する各種情報の記憶や読み出しおよび読
み出し情報の通信回線１１３への送出等の制御を行う制
御部１１７を有している。

【０１４１】上記構成を有する情報家電機器音声リモコ
ン制御システムにおいては、音声リモコン(ワイヤレス
マイク)１０１に入力された音声によってメイン情報を
選択して、最寄の情報家電機器１０８で再生することが
できる。以下、家庭において音声リモコン１０１に向か
って、例えば「ＮＨＫニュース」と発声してテレビ画面に
「ＮＨＫニュース」を出力させる場合を例に、本情報家電
機器音声リモコン制御システムの動作を、具体的に説明
する。

【０１４２】上記情報提供センター１１４が提供するメ
イン情報としてのテレビ映像情報およびサブ情報として
のテレビ番組情報は、通信回線１１３を経由して情報家
電機器１０８に取り込まれ、機器制御部１０９によって
テレビ番組情報がサブ情報メモリ１１１に格納される。
そして、機器制御部１０９は、サブ情報メモリ１１１の
記憶内容(テレビ番組情報)を通信回線１０７を経由して
音声認識装置１０６に送出する。

【０１４３】上記音声認識装置１０６は、受け取ったテ
レビ番組情報を上記音声認識用辞書作成装置のテレビ番
組情報取り込み部に取り込んで、図１７の説明で述べた
ようにして文字列情報の抽出と音声認識用辞書の作成を
行う。その結果、作成された音声認識用辞書には、図１
９に示すようなテレビ番組指定用の認識語彙が発声確率
とチャンネル情報,日付情報,時刻情報とが付与されて登
録される。

【０１４４】この状態で、上記音声リモコン１０１のマ
イク１０２に対して「ＮＨＫニュース」と発声されると、
入力された音声は通信回線１０５を経由して音声認識装
置１０６の音響分析部に取り込まれ、上述のようにし
て、ベクトル系列への変換,各音韻の尤度算出および上
記音声認識用辞書との照合が行われ、「ＮＨＫニュース」
という語彙として認識されると共に、認識語彙「ＮＨＫ
ニュース」に付与されているチャンネル情報,日付情報お
よび時刻情報が得られる。そして、これらの情報をコマ
ンドとして通信回線１０７を経由して情報家電機器１０
８に送信するのである。

【０１４５】そうすると、上記情報家電機器１０８の機
器制御部１０９は、受信したコマンドをサブ情報メモリ
１１１の内容と照合して解釈し、上記日付情報および時
刻情報による日付および時刻になると、上記チャンネル
情報によるＮＨＫ総合の映像情報がメイン情報出力部１
１２に出力されるのである。尚、受信したコマンドが録
画コマンドである場合には、上記映像情報がメイン情報
メモリ１１０に格納される。また、受信したコマンドが
再生コマンドである場合には、メイン情報メモリ１１０
に格納された上記映像情報が読み出されて、メイン情報
出力部１１２に出力される。

【０１４６】このように、本実施の形態によれば、上記
音声認識装置１０６の音響分析部に対する音声入力を、
音声リモコン１０１から赤外線等の通信回線１０５を経
由して行うようにしている。したがって、情報家電機器
音声制御システムの操作性を多いに向上できるのであ
る。

【０１４７】尚、図２０に示す情報家電機器音声リモコ
ン制御システムは、上記音声認識装置１０６は図１７に
示す音声認識装置であって、サブ情報としてテレビ番組
情報が入力される場合を例に説明している。しかしなが
ら、この発明はこれに限定されるものではなく、音声認
識装置１０６を図１４に示す音声認識装置とし、サブ情
報としてウエブページ情報を用いてもよい。あるいは、
音声認識装置１０６を図１２に示す音声認識装置とし、
サブ情報として一般のコンテンツ情報を用いてもよい。

【０１４８】＜第８実施の形態＞上記各実施の形態によ
れば、テキスト解析の結果得られる単語の組合せが異な
る複数の連接単語で成る発声単位は、各発声単位間の音
響的な類似度には何ら考慮することなく、認識語彙とし
てそのまま音声認識用辞書に登録している。したがっ
て、ホームページのタイトルに「首相官邸のトップペー
ジ」と「司法省の主張」とがある場合に、発声「首相…」が
「主張…」と誤認識されて「司法省の主張」のホームページ
が表示されてしまう場合がある。本実施の形態は、この
ような場合に対処するものである。

【０１４９】図２１は、図６に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置１２１を構成するテキスト解析部１
２３,読み付与部１２４,解析辞書メモリ１２５,発声確
率計算部１２７および語彙記憶部１２８、音声認識装置
１２２を構成する音響分析部１２９,尤度計算部１３０,
音響モデル格納部１３１および照合部１３２は、上記第
３の実施の形態におけるテキスト解析部２３,読み付与
部２４,解析辞書メモリ２５,発声確率計算部２７,語彙
記憶部２８,音響分析部２９,尤度計算部３０,音響モデ
ル格納部３１および照合部３２と同じ構成を有してい
る。そして、語彙記憶部１２８には、図９に示すよう
に、発声確率が付与された認識語彙が格納されている。

【０１５０】類似度計算部１３３は、語彙作成部１２６
によって上記第３の実施の形態における語彙作成部２６
と同様にして作成された任意の２つの発声単位の音響的
な類似度を計算する。その結果、例えば発声単位「首相
(しゅしょう)」と発声単位「主張(しゅちょう)」との方
が、発声単位「首相(しゅしょう)」と発声単位「官邸(かん
てい)」よりも音響的に類似していることが分る。尚、上
記類似度の計算には様々な方法があるが、例えば一致す
る音素が幾つ存在するかに基づいて計算することで実現
できる。

【０１５１】そして、語彙作成部１２６は、上記発声確
率計算部１２７で計算された各発声単位の発声確率値
を、類似計算部１３３による類似度の計算結果を用いて
変更するのである。

【０１５２】ここで、ホームページのタイトルに「首相
官邸のトップページ」と「司法省の主張」とがあるとす
る。テキスト解析部１２３から語彙作成部１２６までに
よる一連の処理によって、発声単位「首相(しゅしょ
う)」,「官邸(かんてい)」,「司法省(しほうしょう)」,「主張
(しゅちょう)」等が発声確率と共に求められる。その場
合、発声単位「首相」と発声単位「主張」との発声確率を比
べると、前者の方が高い値が付与されることは、上記第
２実施の形態で述べた通りである。しかしながら、発声
単位「主張」もそれなりの発声確率を有しているため、そ
のまま語彙記憶部１２８に登録して音声認識用辞書とす
ると、発声「首相」が「主張」と誤認識されて「司法省の主
張」のホームページが表示されてしまう恐れが多分にあ
る。

【０１５３】そこで、上記語彙作成部１２６は、類似度
計算部１３３による類似度に基づいて、音響的に類似し
た２つの発声単位を検索する。そして、一方の発声単位
がホームページタイトルにおいて中心的な役割を果た
し、他方の発声単位がそうでない場合には、中心的な発
声単位の発声確率を更に上げ、そうでない方の発声単位
の発声確率を更に下げるのである。その場合、該当発声
単位が中心的な役割を果たすか否かは、発声確率計算部
１２７で与えられた確率値の大小で判断することができ
る。尚、その際に、発声確率値を如何様に変更するか
は、特に規定するものではない。例えば、発声確率値の
値に応じて変更量を設定してもよいし、類似度に基づい
て変更量を設定してもよい。また、中心的にな役割を果
たしていない発声単位の発声確率値を「０」に変更するこ
とも可能である。

【０１５４】以上のように、本実施の形態においては、
語彙作成部１２６によって生成された任意の２つの発声
単位の類似度を類似度計算部１３３で計算し、音響的に
類似した２つの発声単位が存在する場合には、語彙作成
部１２６は、音響的に類似した２つの発声単位のうち中
心的な役割でない発声単位の確率を低くするようにして
いる。したがって、本実施の形態によれば、上記中心的
な役割を果たす発声単位を発声した際に、上記中心的な
役割を果たしていない発声単位に誤認識されることを防
止することができる。すなわち、本実施の形態によれ
ば、さらに認識性能の高い音声認識装置を構築すること
ができるのである。

【０１５５】＜第９実施の形態＞上記各実施の形態にお
いては、語彙記憶部６,１７,２８,４８,６８,８８,１２
８には、住所録やウエブページ情報やテレビ番組情報か
ら生成された発声単位が認識用の語彙として登録されて
いる。したがって、語彙記憶部６,１７,２８,４８,６
８,８８,１２８は、登録されている住所やホームページ
のタイトルや番組名が発声された場合には高い認識率を
示す。ところが、ユーザは、常に語彙記憶部６,１７,２
８,４８,６８,８８,１２８に登録されている住所やタイ
トル名や番組名を発声するとは限らない。したがって、
登録されていない住所やタイトル名や番組名が発声され
た場合の認識精度が、極端に低下するという問題が生ず
ることになる。本実施の形態は、このような場合に対処
するものである。

【０１５６】図２２は、本実施の形態における音声認識
装置のブロック図である。音声認識装置１４１を構成す
る音響分析部１４２,尤度計算部１４３,音響モデル格納
部１４４および第１語彙記憶部１４６は、上記第３の実
施の形態における音声認識装置２２を構成する音響分析
部２９,尤度計算部３０,音響モデル格納部３１および語
彙記憶部２８と同じ構成を有している。そして、第１語
彙記憶部１４６には、図１６に示すように、発声確率が
付与されたホームページタイトル用の認識語彙が格納さ
れているものとする。

【０１５７】第２語彙記憶部１４７は、上述した各音声
認識用辞書作成装置によって特定のテキストに基づいて
作成されるのではなく、固定した一般的な語彙が登録さ
れた音声認識用辞書であり、第１語彙記憶部１４６と同
様に照合部１４５によって照合される。つまり、第２語
彙記憶部１４７は、第１語彙記憶部１４６は利用者が選
択した語彙だけを登録しているのに対して、固定された
一般的な語彙が登録されている点において異なるのであ
る。

【０１５８】上記照合部１４５は、第１語彙記憶部１４
６および第２語彙記憶部１４７の語彙との照合を行い、
第１語彙記憶部１４６に登録されている語彙が認識語彙
であると判断した場合は、その語彙および当該語彙に付
与されているサブ情報(ＵＲＬ)を認識結果として出力す
る。一方、第２語彙記憶部１４７に登録されている語彙
が認識語彙であると判断した場合は、その語彙を認識結
果として検索部１４８に送出する。そうすると、検索部
１４８は、照合部１４５から受け取った認識結果に対応
する文字列情報を、第１語彙記憶部１４６に登録されて
いる語彙が住所録から生成された発声単位である場合に
は住所録から、ウエブページ情報から生成された発声単
位である場合にはウエブページ情報から、テレビ番組情
報から生成された発声単位である場合にはテレビ番組情
報から検索する。選択部１４９は、検索部１４８が受け
取った語彙(上記認識結果)と上記検索された文字列情報
との中から、利用者が第１語彙記憶部１４６に登録する
語彙情報と付与情報とを選択して第１語彙記憶部１４６
に登録するためのものである。

【０１５９】以下、上記第１語彙記憶部１４６に登録さ
れている語彙はウエブページ情報から生成された発声単
位である場合を例に、本実施の形態における音声認識装
置の動作について説明する。その場合、本音声認識装置
においては、第１語彙記憶部１４６に登録されている語
彙を発声することで、認識結果に応じたウエブページを
表示することができる。第１語彙記憶部１４６には、少
なくとも認識語彙/読み方のペアと当該認識語彙に関す
る文字列情報(ＵＲＬ)とが対応付けられて登録されてい
る。その場合、登録されている認識語彙は、上記第５実
施の形態で述べた方法によって作成されたものでもよい
し、利用者が自分で入力したものでもよい。何れして
も、利用者がよく見るウエブページに限定して、それに
関する認識語彙を登録したものが第１語彙記憶部１４６
である。

【０１６０】ところで、利用者が発声する語彙は常に第
１語彙記憶部１４６にあるものだけであるとは限らな
い。そこで第１語彙記憶部１４６には無い語彙を発声し
た場合でも認識結果が得られるように、第２語彙記憶部
１４７が設けられている。この第２語彙記憶部１４７に
は、利用者が登録した認識語彙だけではなく、一般に使
用される任意の語彙が記憶されている。第１語彙記憶部
１４６の登録内容が可変で一般にある範囲に限定された
少数であるのに対して、第２語彙記憶部１４７の登録内
容は固定で一般にある程度広い範囲にわたって大量であ
る。

【０１６１】上記照合部１４５は、認識時において第１
語彙記憶部１４６の登録内容と照合するか第２語彙記憶
部１５７の登録内容と照合するかを判断する。その方法
に付いては特に限定するものではなく、例えば、先ず第
１語彙記憶部１４６と照合を行い、認識尤度が十分高く
ない場合に第２語彙記憶部１４７との照合を行う方法で
もよいし、第１語彙記憶部１４６と第２語彙記憶部１４
７との両方で照合を行い、認識尤度の高い認識候補を認
識結果とする方法でもよい。

【０１６２】ここで、上記第１語彙記憶部１４６に図１
６に示すような認識語彙/読み/発声確率/ＵＲＬの組が
登録されている場合に、使用者が「佐藤」と発声したとす
る。その場合、第１記憶部１４６には読み「satou」は存
在しないので、発声「佐藤」は認識されない。その場合に
は、第２語彙記憶部１４７との照合で「佐藤」という語彙
が認識されることになる。こうして得られた認識結果
「佐藤」は、検索部１４８に送出される。そして、検索部
１４８によって、キーワード「佐藤」でウエブページの検
索が行われる。尚、このウエブページの検索は、インタ
ーネットで普及している検索エンジンを用いることで実
現できる。検索エンジンは、与えられたキーワードか
ら、それに関連するウエブページのＵＲＬを探し出すプ
ログラムである。一般に、探し出されるＵＲＬは複数個
あり、検索エンジンはそれらを利用者に提示する。そし
て、選択部１４９は、利用者によって、検索部１４８に
よる検索結果の中から所望の「佐藤さんのホームページ」
のＵＲＬが選択されると、認識語彙「佐藤/satou」と「佐
藤さんのホームページ」のＵＲＬとを関連付けて第１語
彙記憶部１４６に登録するのである。

【０１６３】こうして、上記第１語彙記憶部１４６に認
識語彙「佐藤/satou」と「佐藤さんのホームページ」のＵＲ
Ｌとが登録されると、以降は検索や選択を行うことな
く、「佐藤」と発声すれば直ちに所望のウエブページ「佐
藤さんのホームページ」を見ることができるようになる
のである。また、第１語彙記憶部１４６に対する新たな
認識語彙の登録も、文字を入力したりすることなく、発
声と選択部１４９による選択だけで簡単に行うことがで
きるのである。

【０１６４】上記各実施の形態における音声認識用辞書
作成装置で作成された音声認識用辞書を用いる音声認識
装置は、携帯電話や電子手帳等の携帯端末器に搭載する
ことが有効である。すなわち、このような携帯端末器に
おいては、操作指示を行う場合にはキー操作よりも発声
による方が操作性がよい。ところが、出先等においては
操作指示を行うための文言を予め決められている通りに
正確に発声するのは困難であり、そのような場合に対処
するための音声認識用辞書を利用者が作成するのは更に
困難である。

【０１６５】上記各実施の形態における音声認識用辞書
作成装置によれば、一つの入力文字列から、総ての分割
候補,総ての読み候補,総ての連接単語の組み合わせを考
慮して、複数の発声単位でなる認識用語彙を自動的に生
成できるため、予め設定された文字列の部分文字列を発
声しても正しく認識できる音声認識用辞書を非常に簡単
に作成することができる。したがって、このような音声
認識用辞書を用いる音声認識装置を搭載することは、携
帯端末器用の音声合成装置として非常に有効なのであ
る。

【０１６６】ところで、上記各実施の形態における上記
テキスト解析部,読み付与部,語彙作成部,語彙記憶部,発
声確率計算部,取り込み部,文字列情報抽出部および類似
度計算部による上記解析手段,読み付与手段,語彙作成手
段,語彙記憶手段,発声確率算出手段,取り込み手段,文字
列情報抽出手段及び類似度算出手段としての機能は、プ
ログラム記録媒体に記録された辞書作成処理プログラム
によって実現される。上記実施の形態における上記プロ
グラム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)でな
るプログラムメディアである。あるいは、外部補助記憶
装置に装着されて読み出されるプログラムメディアであ
ってもよい。尚、何れの場合においても、上記プログラ
ムメディアから辞書作成処理プログラムを読み出すプロ
グラム読み出し手段は、上記プログラムメディアに直接
アクセスして読み出す構成を有していてもよいし、ＲＡ
Ｍ(ランダム・アクセス・メモリ)に設けられたプログラム
記憶エリア(図示せず)にダウンロードし、上記プログラ
ム記憶エリアにアクセスして読み出す構成を有していて
もよい。尚、上記プログラムメディアからＲＡＭの上記
プログラム記憶エリアにダウンロードするためのダウン
ロードプログラムは、予め本体装置に格納されているも
のとする。

【０１６７】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタルビデオディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【０１６８】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有していれば、上記プログ
ラムメディアは、通信ネットワークからのダウンロード
等によって流動的にプログラムを坦持する媒体であって
も差し支えない。尚、その場合における上記通信ネット
ワークからダウンロードするためのダウンロードプログ
ラムは、予め本体装置に格納されているものとする。あ
るいは、別の記録媒体からインストールされるものとす
る。

【０１６９】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【０１７０】

【発明の効果】以上より明らかなように、第１の発明の
音声認識用辞書作成装置は、一つの文字列情報から解析
手段によって得られた総ての分割候補および読み付与手
段によて得られた総ての読み候補に基づいて、語彙作成
手段によって、読みが付与された１つまたは複数の発声
単位を生成し、生成された発声単位を認識語彙として語
彙記憶手段によって登録するので、与えられた文字列情
報から、発声の可能性がある発声単位を認識語彙とする
音声認識用辞書を生成できる。したがって、利用者が、
予め設定された文字列中のどの部分文字列を発声しても
正しく認識するための音声認識用辞書を、低コストで作
成することができる。

【０１７１】また、上記第１の発明の音声認識用辞書作
成装置は、発声確率算出手段によって、解析尤度,読み
尤度,単語出現順序,モーラ数,単語出現頻度及びキーワ
ード辞書照合結果の少なくとも一つを用いて上記生成さ
れた各発声単位の発声確率を計算し、上記語彙作成手段
によって、上記各発声単位でなる認識語彙を、上記発声
確率を付与して上記語彙記憶手段に記憶させれば、上記
音声認識用辞書中に、上記解析手段による誤解析の結果
生成された認識語彙や実際には発声されない認識語彙が
登録されていても、このような不要な認識語彙の発声確
率を小さく設定して、高い認識精度を実現できる音声認
識用辞書を作成できる。

【０１７２】また、上記第１の発明の音声認識用辞書作
成装置は、文字列情報を含むコンテンツを取り込む取り
込み手段と、辞書作成に必要な文字列情報の抽出条件が
格納された抽出条件格納手段と、上記抽出条件を参照し
て上記コンテンツから文字列情報を抽出して上記解析手
段に送出する文字列情報抽出手段を備えれば、上記コン
テンツ情報から自動的に上記音声認識用辞書を作成する
ことができる。

【０１７３】また、上記第１の発明の音声認識用辞書作
成装置は、上記取り込み手段を、上記コンテンツとして
ウエブページの情報を取り込むように成せば、上記抽出
条件格納手段に、例えば、「＜title＞タグが存在する場
合は＜title＞と＜/title＞とで囲まれた文字列を抽出
する」を格納しておくことによって、ウエブページのタ
イトル「＜title＞首相官邸のトップページ＜/title＞」
から文字列「首相官邸のトップページ」を抽出して上記音
声認識用辞書を自動的に作成できる。

【０１７４】また、上記第１の発明の音声認識用辞書作
成装置は、上記取り込手段を、上記コンテンツとしてテ
レビ番組の情報を取り込むように成せば、上記抽出条件
格納手段に、例えば、「番組名というタグが付いている
文字列を抽出する」を格納しておくことによって、タグ
「番組名」に該当する文字列「ＮＨＫニュースおはよう日
本」を抽出して上記音声認識用辞書を自動的に作成でき
る。

【０１７５】また、上記第１の発明の音声認識用辞書作
成装置は、上記語彙作成手段で生成された各発声単位間
の音響的な類似度を計算する類似度算出手段を備え、上
記語彙作成手段によって、上記各認識語彙に付与する発
声確率を上記類似度に応じて変更するように成せば、発
声単位「首相(しゅしょう)」と発声単位「主張(しゅちょ
う)」とが音響的に類似している場合には、例えば、上記
発声確率の値が高くて入力文字列中において中心的な役
割を果している発声単位「首相」の発声確率の値を更に高
める一方、そうでない発声単位「主張」の発声確率の値を
更に低めることによって、中心的な役割を果す発声「首
相」が「主張」と誤認識されることを防止できる。

【０１７６】また、第２の発明の音声認識用辞書作成方
法は、入力された文字列情報を解析して構成単語に分割
し、総ての分割候補を出力するステップと、上記分割さ
れた各構成単語に読みを付与して総ての読み候補を出力
するステップと、上記総ての分割候補および読み候補に
基づいて、読みが付与された１つまたは複数の発声単位
を認識語彙として生成するステップと、上記生成された
各認識語彙を音声認識用辞書として記憶するステップを
備えたので、上記第１の発明の場合と同様に、与えられ
た文字列情報から、発声の可能性がある発声単位を認識
語彙とする音声認識用辞書を生成できる。したがって、
予め設定された文字列中のどの部分文字列を発声しても
正しく認識するための音声認識用辞書を作成することが
できる。

【０１７７】また、第３の発明の音声認識装置は、照合
用の辞書として、上記第１の発明の音声認識用辞書作成
装置によって作成された音声認識用辞書を用いるので、
与えられた文字列情報から生成された発声の可能性があ
る発声単位を認識語彙とする音声認識用辞書を用いるこ
とによって、予め設定された文字列の部分文字列を発声
しても正しく認識することができる。

【０１７８】また、上記第３の発明の音声認識装置は、
上記ウエブページの情報を取り込む音声認識用辞書作成
装置によって作成された音声認識用辞書を上記辞書とし
て用い、制御手段によって、認識結果に基づいてウエブ
ページ表示手段の表示内容を切換え制御して、上記認識
結果に応じたウエブページを表示するようにすれば、発
声内容に応じたウエブページを正しく表示することがで
きる。

【０１７９】また、上記第３の発明の音声認識装置は、
上記文字情報化されたテレビ番組の情報を取り込む音声
認識用辞書作成装置によって作成された音声認識用辞書
を上記辞書として用い、制御手段によって、認識結果に
基づいてテレビ表示手段,録画手段および再生手段を制
御するようにすれば、発声内容に応じて表示チャンネル
の切換え,録画条件の設定または録画番組の再生を正し
く行うことができる。

【０１８０】また、上記第３の発明の音声認識装置は、
上記第１の発明の音声認識用辞書作成装置によらずに作
成された補助辞書を備えて、照合手段によって上記辞書
および補助辞書との照合を行うようにすれば、上記辞書
に登録されていない語彙を発声した場合でも、その語彙
を正しく認識することができる。さらに、上記照合の結
果、認識結果として、上記補助辞書の認識語彙が選択さ
れた場合には、検索手段によって、上記音声認識用辞書
作成装置に入力された例えばウエブページのタイトルに
関連するウエブページ情報の中から当該認識結果に該当
する文字列を検索し、選択手段によって、上記検索され
た複数の文字列の中から上記辞書に登録する文字列を選
択すれば、その文字列を上記辞書に登録することによっ
て認識語彙を増やすことができ、認識速度を向上できる
のである。

【０１８１】また、第４の発明の音声認識装置は、上記
第１の発明の音声認識用辞書作成装置を搭載し、上記音
声認識用辞書作成装置によって作成された音声認識用辞
書を上記照合用の辞書として用いるので、上記搭載され
た音声認識用辞書作成装置に文字列情報を入力すること
によって、予め設定された文字列中のどの部分文字列を
発声しても正しく認識するための音声認識用辞書を自動
的に作成できる。したがって、高い認識精度を得ること
ができる。

【０１８２】また、第５の発明の携帯端末器は、上記第
３,第４の発明の音声認識装置を搭載したので、出先等
において、操作指示を行うための文言を予め決められて
いる通りに正確に発声しなくとも、例えばホームページ
の音声呼び出し等を正しく行うことができる。

【０１８３】また、第６の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における解析手
段,読み付与手段,語彙作成手段および語彙記憶手段とし
て機能させる辞書作成処理プログラムが記録されている
ので、上記第１の発明の場合と同様に、読みが付与され
た１つまたは複数の発声単位を生成し、認識語彙として
登録することができる。したがって、予め設定された文
字列中のどの部分文字列を発声しても正しく認識するた
めの音声認識用辞書を作成することができる。

【図面の簡単な説明】

【図１】この発明の音声認識用辞書作成装置における
ブロック図である。

【図２】図１に示す音声認識用辞書作成装置によって
実行される辞書作成処理動作のフローチャートである。

【図３】図１におけるテキスト解析部の出力結果の一
例を示す図である。

【図４】図４における読み付与部による読み付与結果
の一例をを示す図である。

【図５】図１に示す語彙記憶部に作成される音声認識
用辞書の一例を示す図である。

【図６】図１とは異なる音声認識用辞書作成装置にお
けるブロック図である。

【図７】図６におけるテキスト解析部の出力結果の一
例を示す図である。

【図８】図６における読み付与部の出力結果の一例を
示す図である。

【図９】図６における語彙作成部の出力結果の一例を
示す図である。

【図１０】モーラ数ｉを変数とする関数ｍ(i)の概念
を示す図である。

【図１１】図６に示す音声認識用辞書作成装置を搭載
した音声認識装置のブロック図である。

【図１２】音声認識用辞書作成装置を搭載した図１１
とは異なる音声認識装置のブロック図である。

【図１３】図１２における取り込み部および文字列情
報抽出部によって行われる文字列情報抽出処理動作のフ
ローチャートである。

【図１４】音声認識用辞書作成装置を搭載した図１１
および図１２とは異なる音声認識装置のブロック図であ
る。

【図１５】ウエブページ情報の一例を示す図である。

【図１６】図１４における語彙記憶部に作成される音
声認識用辞書の一例を示す概念図である。

【図１７】音声認識用辞書作成装置を搭載した図１
１,図１２および図１４とは異なる音声認識装置のブロ
ック図である。

【図１８】テレビ番組情報の一例を示す図である。

【図１９】図１７における語彙記憶部に作成される音
声認識用辞書の一例を示す概念図である。

【図２０】情報家電機器音声リモコン制御システムの
ブロック図である。

【図２１】音声認識用辞書作成装置を搭載した図１
１,図１２,図１４および図１７とは異なる音声認識装置
のブロック図である。

【図２２】音声認識装置のブロック図である。

【符号の説明】

１,１１…解析処理部、２,１２,２３,４３,６３,８３,１２３…テキスト解析
部、３,１３,２４,４４,６４,８４,１２４…読み付与部、４,１４,２５,４５,６５,８５,１２５…解析辞書メモ
リ、５,１５,２６,４６,６６,８６,１２６…語彙作成部、６,１７,２８,４８,６８,８８,１２８…語彙記憶部、１６,２７,４７,６７,８７,１２７…発声確率計算部、２１,４１,６１,８１,１２１…音声認識用辞書作成装
置、２２,４２,６２,８２,１０６,１２２,１４１…音声認識
装置、２９,４９,６９,８９,１２９,１４２…音響分析部３０,５０,７０,９０,１３０,１４３…尤度計算部、３１,５１,７１,９１,１３１,１４４…音響モデル格納
部、３２,５２,７２,９２,１３２,１４５…照合部、５３…取り込み部、５４,７４,９４…文字列情報抽出部、５５,７５,９５…抽出条件格納部、７３…ウエブページ情報取り込み部、７６,９６,１１７…制御部、７７…ウエブページ表示部、９３…テレビ番組情報取り込み部、９７…テレビ表示部、９８…録画部、９９…再生部、１０１…音声リモコン、１０２…マイク、１０３…スピーカー、１０４…リモコン制御部、１０５,１０７,１１３…通信回線、１０８…情報家電機器、１０９…機器制御部、１１０,１１５…メイン情報メモリ、１１１,１１６…サブ情報メモリ、１１２…メイン情報出力部、１１４…情報提供センター、１３３…類似度計算部、１４６…第１語彙記憶部、１４７…第２語彙記憶部、１４８…検索部、１４９…選択部。

Claims

【特許請求の範囲】

【請求項１】入力された文字列情報を解析して構成単
語に分割し、総ての分割候補を出力する解析手段と、上記分割された各構成単語に読みを付与し、総ての読み
候補を出力する読み付与手段と、上記解析手段によって得られた総ての分割候補および上
記読み付与手段によって得られた総ての読み候補に基づ
いて、読みが付与された１つの単語または連接単語で成
る１つの発声単位または単語の組み合わせが異なる複数
の発声単位を認識語彙として生成する語彙作成手段と、上記生成された各認識語彙を音声認識用辞書として記憶
する語彙記憶手段を備えたことを特徴とする音声認識用
辞書作成装置。
【請求項２】請求項１に記載の音声認識用辞書作成装
置において、上記解析手段は、上記分割された構成単語の列でなる各
解析候補に、上記入力文字列の解析結果としての確から
しさを表す解析尤度を付与するようになっており、上記読み付与手段は、上記各解析候補を構成する単語に
付与されている読みの列に、上記入力文字列の読みとし
ての確からしさを表す読み尤度を付与するようになって
おり、上記語彙作成手段によって生成された各発声単位が存在
する解析候補の上記解析尤度、上記各発声単位が存在す
る解析候補の上記読み尤度、上記各発声単位を構成する
先頭単語の上記入力文字列中における出現順序を表す単
語出現順序、上記各発声単位のモーラ数、上記各発声単
位を構成する単語のうちで入力される総ての文字列情報
中に最も少なく出現する単語の出現頻度を表す単語出現
頻度、キーワード辞書照合結果の少なくとも一つを用い
て、上記生成された各発声単位の発声確率を計算する発
声確率算出手段を備えて、上記語彙作成手段は、上記各発声単位でなる認識語彙
を、上記算出された発声確率を付与して上記語彙記憶手
段に記憶させるようになっていることを特徴とする音声
認識用辞書作成装置。
【請求項３】請求項１あるいは請求項２に記載の音声
認識用辞書作成装置において、文字列情報を含むコンテンツを取り込む取り込み手段
と、辞書作成に必要な文字列情報を抽出するための抽出条件
が格納された抽出条件格納手段と、上記抽出条件を参照して、上記取り込まれたコンテンツ
における文字列情報の中から辞書作成に必要な文字列情
報を抽出して上記解析手段に送出する文字列情報抽出手
段を備えたことを特徴とする音声認識用辞書作成装置。
【請求項４】請求項３に記載の音声認識用辞書作成装
置において、上記取り込み手段は、上記コンテンツとして、ウエブ・
ブラウザによって表示されているウエブページの情報を
取り込むようになっていることを特徴とする音声認識用
辞書作成装置。
【請求項５】請求項３に記載の音声認識用辞書作成装
置において、上記取り込手段は、上記コンテンツとして、文字情報化
されたテレビ番組の情報を取り込むようになっているこ
とを特徴とする音声認識用辞書作成装置。
【請求項６】請求項２に記載の音声認識用辞書作成装
置において、上記語彙作成手段によって生成された各発声単位間の音
響的な類似度を計算する類似度算出手段を備えて、上記語彙作成手段は、上記各認識語彙に付与する発声確
率を、上記算出された類似度に応じて変更するようにな
っていることを特徴とする音声認識用辞書作成装置。
【請求項７】入力された文字列情報を解析して構成単
語に分割し、総ての分割候補を出力するステップと、上記分割された各構成単語に読みを付与し、総ての読み
候補を出力するステップと、上記単語分割の結果得られた総ての分割候補および上記
読み付与の結果得られた総ての読み候補に基づいて、読
みが付与された１つの単語または連接単語で成る１つの
発声単位または単語の組み合わせが異なる複数の発声単
位を認識語彙として生成するステップと、上記生成された各認識語彙を音声認識用辞書として記憶
するステップを備えたことを特徴とする音声認識用辞書
作成方法。
【請求項８】入力された音声を、辞書に登録されてい
る認識語彙との照合を行って認識する音声認識装置であ
って、上記辞書として、請求項１乃至請求項６の何れか一つに
記載の音声認識用辞書作成装置によって作成された音声
認識用辞書を用いることを特徴とする音声認識装置。
【請求項９】請求項８に記載された音声認識装置であ
って、上記辞書は、請求項４に記載の音声認識用辞書作成装置
によって作成された音声認識用辞書であり、認識結果に応じたウエブページを表示するウエブページ
表示手段と、上記認識結果に基づいて、上記ウエブページ表示手段の
表示内容を切換え制御する制御手段を備えたことを特徴
とする音声認識装置。
【請求項１０】請求項８に記載された音声認識装置で
あって、上記辞書は、請求項５に記載の音声認識用辞書作成装置
によって作成された音声認識用辞書であり、認識結果に応じたテレビ番組を表示するテレビ表示手段
と、認識結果に応じたテレビ番組を録画する録画手段と、上記録画手段によって録画されたテレビ番組を再生する
再生手段と、上記認識結果に基づいて、上記テレビ表示手段,録画手
段および再生手段を制御して、表示チャンネルの切換
え,録画条件の設定あるいは録画番組の再生を行う制御
手段を備えたことを特徴とする音声認識装置。
【請求項１１】請求項８に記載された音声認識装置に
おいて、特定の文字列情報の解析結果によらずに得られた認識語
彙が登録された補助辞書と、上記辞書および補助辞書との照合を行う照合手段と、上記照合手段によって、上記認識結果として上記補助辞
書に登録された認識語彙が選択された場合、上記辞書を
作成する際に上記音声認識用辞書作成装置に入力された
文字列情報に関連する文字情報の中から当該認識結果に
該当する文字列を検索する検索手段と、上記検索された複数の文字列の中から、上記辞書に登録
する文字列を選択する選択手段を備えたことを特徴とす
る音声認識装置。
【請求項１２】入力された音声を、辞書に登録されて
いる認識語彙との照合を行って認識する音声認識装置で
あって、請求項１乃至請求項６のいずれか一つに記載の音声認識
用辞書作成装置を搭載し、上記音声認識用辞書作成装置によって作成された音声認
識用辞書を、上記辞書として用いることを特徴とする音
声認識装置。
【請求項１３】請求項８乃至請求項１２の何れか一つ
に記載された音声認識装置を搭載したことを特徴とする
携帯端末器。
【請求項１４】コンピュータを、請求項１における解析手段,読み付与手段,語彙作成手段
および語彙記憶手段として機能させる辞書作成処理プロ
グラムが記録されたことを特徴とするコンピュータ読出
し可能なプログラム記録媒体。