JP2002041081A - 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 - Google Patents

音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Info

Publication number
JP2002041081A
JP2002041081A JP2000228916A JP2000228916A JP2002041081A JP 2002041081 A JP2002041081 A JP 2002041081A JP 2000228916 A JP2000228916 A JP 2000228916A JP 2000228916 A JP2000228916 A JP 2000228916A JP 2002041081 A JP2002041081 A JP 2002041081A
Authority
JP
Japan
Prior art keywords
dictionary
unit
speech recognition
utterance
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000228916A
Other languages
English (en)
Other versions
JP3639776B2 (ja
JP2002041081A5 (ja
Inventor
Hiroyuki Kanza
浩幸 勘座
Akira Tsuruta
彰 鶴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000228916A priority Critical patent/JP3639776B2/ja
Publication of JP2002041081A publication Critical patent/JP2002041081A/ja
Publication of JP2002041081A5 publication Critical patent/JP2002041081A5/ja
Application granted granted Critical
Publication of JP3639776B2 publication Critical patent/JP3639776B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 低コストで高い認識精度が得られる音声認識
用辞書を作成する。 【解決手段】 テキスト解析部2は入力文字列を単語に
分割して総ての分かち候補を求める。読み付与部3は、
総ての分かち候補の単語に対して総ての読みを付与す
る。語彙作成部5は、総ての分かち候補,総ての読み,総
ての連接単語を考慮して発声単位/読みのペアを作成し
て語彙記憶部6に登録する。こうして、1つの入力文字
列情報から、当該文字列中の何れの部分文字列を発声し
ても認識できる音声認識用辞書を作成する。したがっ
て、ホームページのタイトルが「首相官邸のトップペー
ジ」の場合に、「首相官邸のトップページ」や「首相官邸」
や「官邸のトップページ」と発声しても首相官邸のホーム
ページを呼び出すことが可能な高認識精度な音声認識用
辞書を、低コストで得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、不特定話者を対
象とした音声認識装置に用いられる辞書を作成する音声
認識用辞書作成装置および音声認識用辞書作成方法、作
成された辞書を用いた音声認識装置、この音声認識装置
を搭載した携帯端末器、並びに、辞書作成処理プログラ
ムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】従来より、漢字仮名混じり文を含む文字
列情報から音声認識用辞書を作成する方法として、上記
文字列情報の形態素解析を行ってその表記の読みを求
め、得られた読みを登録する方法がある。ウエブ・ブラ
ウザにおいて、音声認識結果に基づいてウエブぺージを
表示するアプリケーションがあるが、その場合に使用す
る音声認識用辞書に、上記ウエブページを呼び出す際に
ユーザが発声する単語を予め登録する場合などに上記辞
書作成方法が適用される。例えば、「首相官邸」という単
語を首相官邸のURL(ユニフォーム・リソース・ロケー
ション)と関連付けて記憶することによって、「首相官
邸」とユーザが発声すれば首相官邸のホームページを表
示することができる。これは、「首相官邸」という表記か
ら「しゅしょうかんてい」という読みを求めて音声認識用
辞書に登録することで実現している。
【0003】また、大量の学習用テキストデータベース
から連接関係を抽出して、統計的連接情報を求めて音声
認識用辞書(言語モデル)を作成する方法がある。例え
ば、特開平11‐259088号公報に記載された音声
認識装置においては、形態素解析プログラム等を用いて
文字列情報を各単語(形態素)に自動的に区切り、区切ら
れた各単語間の統計的連鎖関係、具体的にはバイグラム
やトライグラム等を計算しておく。また、同じ表記の漢
字であって複数の読み方がある場合には、複数の読み夫
々の頻度を求めておく。そして、音声が入力されると、
認識文候補を生成し、抽出された特徴パラメータを用い
て言語モデルから計算される各認識文候補の尤度に、各
認識文候補の単語系列を構成する各単語に上記統計的連
鎖関係の確率値と読みの頻度を組み合わせて言語尤度を
算出する。そして、この言語尤度に基づいて認識結果を
得ている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識用辞書作成方法においては、以下のような
問題がある。すなわち、先ず、上記文字列情報の形態素
解析から得られた表記の読みを登録する辞書作成方法の
場合には、文字列情報と発声される連接単語を表す発声
単位とが必ずしも一致するとは限らないという問題があ
る。以下、上述した音声認識結果を用いてブラウザによ
ってホームページを表示する場合を例に説明する。上記
ホームページの情報には、URLやタイトルがある。U
RLはホームページの在りかを表す情報であって、「htt
p://www.kantei.go.jp」のごとく表記される。また、タ
イトルはブラウザによって決まった位置に表示されるペ
ージのタイトルであって、「首相官邸トップページ」のよ
うな漢字仮名交じりやアルファベット等の文字情報であ
る。
【0005】上記タイトル「首相官邸トップページ」に当
該辞書作成方法を適用して、上記タイトルから認識語彙
を自動的に生成する場合には、タイトル「首相官邸トッ
プページ」の形態素解析を行い、単語「首相官邸トップペ
ージ」の読みを特定することによって実現できる。
【0006】ところが、当該辞書作成方法を適用した場
合には、タイトル「首相官邸トップページ」をそのまま読
み「しゅしょうかんていとっぷぺーじ」に変換して登録す
るだけであるため認識語彙は「首相官邸トップページ」と
なり、上記タイトル「首相官邸トップページ」の部分文字
列「首相官邸」を切り出して認識語彙にすることはできな
い。したがって、例えば「首相官邸」という部分発声がな
された場合には、上述のようにして作成された音声認識
用辞書を用いて入力音声「首相官邸」を認識することはで
きないことになる。
【0007】仮に、上記ホームページのタイトルからキ
ーワードとなる部分文字列を切り出して認識語彙を作成
するにしても、部分文字列のあらゆる組み合わせや部分
文字列間の発声確率等が考慮されないために、実用的な
音声認識用の辞書を作成することができないという問題
がある。
【0008】次に、上記統計的連接情報を求めて音声認
識用辞書を作成する辞書作成方法の場合には、各単語間
の区切り統計的隣接関係を用いて入力音声を認識するた
めに上述のような問題は発生しない。また、複数の読み
方がある単語の夫々の読みの頻度も含めて認識文候補の
出現確率が算出される点で、より実用的な音声認識用辞
書を作成することができる可能性はある。
【0009】しかしながら、単に出現確率を用いるだけ
では、タイトルの前部分の表記と後ろ部分の表記とでは
前者の方が発声される確率は高い(例えばタイトル「首相
官邸のトップページ」の場合は「首相官邸」の方が「トップ
ページ」よりも発声される確率が高い)といった考慮がさ
れず、所望の認識結果が得られる確率が低いという問題
がある。
【0010】また、「ホームページ」や「ようこそ」等の特
定の語彙は単独では発声されないと考えられる。ところ
が、それに対する考慮もされていないため、別の発声が
「ホームページ」という語彙に誤認識されてしまう可能性
がある。
【0011】さらに、このような大量の学習テキストデ
ータベースから音声認識用辞書(言語モデル)を作成する
辞書作成方法は、ディクテーションのような数万語の語
彙を認識する用途にはよいが、高速のCPU(中央演算
処理装置)と大量の記憶容量が必要であるというコスト
上の問題と、非常に多数の語彙の中から正しいものを見
つけ出すのは困難であるという認識性能上の問題とがあ
る。
【0012】そこで、この発明の目的は、低コストで高
い認識精度が得られる音声認識用辞書作成装置および音
声認識用辞書作成方法、作成された辞書を用いた音声認
識装置、この音声認識装置を搭載した携帯端末器、並び
に、辞書作成処理プログラムを記録したプログラム記録
媒体を提供することにある。
【0013】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明の音声認識用辞書作成装置は、入力され
た文字列情報を解析して構成単語に分割し,総ての分割
候補を出力する解析手段と、上記分割された各構成単語
に読みを付与し,総ての読み候補を出力する読み付与手
段と、上記解析手段によって得られた総ての分割候補お
よび上記読み付与手段によって得られた総ての読み候補
に基づいて,読みが付与された1つの単語または連接単
語で成る1つの発声単位または単語の組み合わせが異な
る複数の発声単位を認識語彙として生成する語彙作成手
段と、上記生成された各認識語彙を音声認識用辞書とし
て記憶する語彙記憶手段を備えたことを特徴としてい
る。
【0014】上記構成によれば、一つの文字列情報から
得られた総ての分割候補および総ての読み候補に基づい
て、語彙作成手段によって、読みが付与された1つ又は
複数の発声単位が生成される。したがって、こうして生
成された発声単位を認識語彙として登録することによっ
て、与えられた文字列情報から、発声の可能性がある発
声単位を認識語彙とする音声認識用辞書が生成される。
すなわち、利用者が、予め設定された文字列中のどの部
分文字列を発声しても正しく認識できる音声認識装置を
実現可能な音声認識用辞書が作成されるのである。
【0015】また、上記第1の発明の音声認識用辞書作
成装置は、上記解析手段を,上記分割された構成単語の
列でなる各解析候補に,上記入力文字列の解析結果とし
ての確からしさを表す解析尤度を付与するように成し、
上記読み付与手段を,上記各解析候補を構成する単語に
付与されている読みの列に,上記入力文字列の読みとし
ての確からしさを表す読み尤度を付与するように成し、
上記語彙作成手段によって生成された各発声単位が存在
する解析候補の上記解析尤度,上記各発声単位が存在す
る解析候補の上記読み尤度,上記各発声単位を構成する
先頭単語の上記入力文字列中における出現順序を表す単
語出現順序,上記各発声単位のモーラ数,上記各発声単位
を構成する単語のうちで入力される総ての文字列情報中
に最も少なく出現する単語の出現頻度を表す単語出現頻
度,キーワード辞書照合結果の少なくとも一つを用いて,
上記生成された各発声単位の発声確率を計算する発声確
率算出手段を備えて、上記語彙作成手段を,上記各発声
単位でなる認識語彙を,上記算出された発声確率を付与
して上記語彙記憶手段に記憶させるように成すことが望
ましい。
【0016】上記構成によれば、上記語彙記憶手段に
は、上記各発声単位でなる認識語彙に解析尤度,読み尤
度,単語出現順序,モーラ数,単語出現頻度およびキーワ
ード辞書照合結果の少なくとも一つを用いて算出された
発声確率が付与されて登録されている。したがって、上
記音声認識用辞書中に、上記解析手段による誤解析の結
果生成された認識語彙や発声されない認識語彙が登録さ
れていても、このような不要な認識語彙の発声確率が小
さく設定されて、高い認識精度を呈する音声認識装置を
実現できる音声認識用辞書が作成される。
【0017】また、上記第1の発明の音声認識用辞書作
成装置は、文字列情報を含むコンテンツを取り込む取り
込み手段と、辞書作成に必要な文字列情報を抽出するた
めの抽出条件が格納された抽出条件格納手段と、上記抽
出条件を参照して,上記取り込まれたコンテンツにおけ
る文字列情報の中から辞書作成に必要な文字列情報を抽
出して上記解析手段に送出する文字列情報抽出手段を備
えることが望ましい。
【0018】上記構成によれば、抽出条件格納手段にコ
ンテンツの特徴を利用した抽出条件を格納しておくこと
によって、コンテンツ情報から自動的に上記音声認識用
辞書が作成される。
【0019】また、上記第1の発明の音声認識用辞書作
成装置は、上記取り込み手段を、上記コンテンツとし
て、ウエブ・ブラウザによって表示されているウエブペ
ージの情報を取り込むように成すことが望ましい。
【0020】上記構成によれば、上記抽出条件格納手段
に、例えば、「<title>タグが存在する場合は<title
>と</title>とで囲まれた文字列を抽出する」を格納
しておくことによって、ウエブページのタイトル「<tit
le>首相官邸のトップページ</title>」から文字列「首
相官邸のトップページ」が抽出される。そして、上記文
字列「首相官邸のトップページ」に基づいて、上述のよう
にして自動的に音声認識用辞書が作成される。
【0021】また、上記第1の発明の音声認識用辞書作
成装置は、上記取り込手段を、上記コンテンツとして、
文字情報化されたテレビ番組の情報を取り込むように成
すことが望ましい。
【0022】上記構成によれば、上記抽出条件格納手段
に、例えば、「番組名というタグが付いている文字列を
抽出する」を格納しておくことによって、タグ「番組名」
に該当する文字列「NHKニュースおはよう日本」が抽出
される。そして、上記文字列「NHKニュースおはよう
日本」に基づいて、上述のようにして自動的に音声認識
用辞書が作成される。
【0023】また、上記第1の発明の音声認識用辞書作
成装置は、上記語彙作成手段によって生成された各発声
単位間の音響的な類似度を計算する類似度算出手段を備
え、上記語彙作成手段は、上記各認識語彙に付与する発
声確率を上記算出された類似度に応じて変更するように
成すことが望ましい。
【0024】上記構成によれば、上記語彙作成手段によ
って生成された発声単位「首相(しゅしょう)」と発声単位
「主張(しゅちょう)」との類似度が所定値よりも高く、両
発声単位が音響的に類似している場合には、例えば、発
声確率の値が高く入力文字列中において中心的な役割を
果す発声単位「首相」の発声確率の値が更に高められる一
方、そうでない発声単位「主張」の発声確率の値が更に低
められる。こうすることによって、中心的な役割を果す
発声「首相」が「主張」と誤認識されて、例えば、目的とす
る「首相官邸のトップページ」のホームページではなく、
「司法省の主張」のホームページが表示されてしまうこと
が防止される。
【0025】また、第2の発明の音声認識用辞書作成方
法は、入力された文字列情報を解析して構成単語に分割
し,総ての分割候補を出力するステップと、上記分割さ
れた各構成単語に読みを付与し,総ての読み候補を出力
するステップと、上記単語分割の結果得られた総ての分
割候補および上記読み付与の結果得られた総ての読み候
補に基づいて,読みが付与された1つの単語または連接
単語で成る1つの発声単位または単語の組み合わせが異
なる複数の発声単位を認識語彙として生成するステップ
と、上記生成された各認識語彙を音声認識用辞書として
記憶するステップを備えたことを特徴としている。
【0026】上記構成によれば、上記第1の発明の場合
と同様に、読みが付与された1つまたは複数の発声単位
が生成される。したがって、こうして生成された発声単
位を認識語彙として登録することによって、与えられた
文字列情報から、発声の可能性がある発声単位を認識語
彙とする音声認識用辞書が生成される。すなわち、予め
設定された文字列の部分文字列を発声しても正しく認識
できる音声認識装置を実現可能な音声認識用辞書が作成
されるのである。
【0027】また、第3の発明は、入力された音声を,
辞書に登録されている認識語彙との照合を行って認識す
る音声認識装置であって、上記辞書として、上記第1の
発明の音声認識用辞書作成装置によって作成された音声
認識用辞書を用いることを特徴としている。
【0028】上記構成によれば、与えられた文字列情報
から生成された発声の可能性がある発声単位を認識語彙
とする音声認識用辞書との照合を行って、入力音声が認
識される。したがって、予め設定された文字列の部分文
字列を発声しても正しく認識される。
【0029】また、上記第3の発明の音声認識装置は、
上記辞書を,上記コンテンツとしてウエブページの情報
を取り込む音声認識用辞書作成装置によって作成された
音声認識用辞書と成し、認識結果に応じたウエブページ
を表示するウエブページ表示手段と、上記認識結果に基
づいて,上記ウエブページ表示手段の表示内容を切換え
制御する制御手段を備えることが望ましい。
【0030】上記構成によれば、上記ウエブページの情
報から自動的に作成された音声認識用辞書が用いられて
いるので、ウエブページのタイトル等が正しく認識され
る。したがって、制御手段によって、認識結果に基づい
てウエブページ表示手段の表示内容が切換え制御される
ことによって、上記ウエブページ表示手段に認識結果に
応じたウエブページが正しく表示される。
【0031】また、上記第3の発明の音声認識装置は、
上記辞書を,上記コンテンツとしてテレビ番組の情報を
取り込む音声認識用辞書作成装置によって作成された音
声認識用辞書と成し、認識結果に応じたテレビ番組を表
示するテレビ表示手段と、認識結果に応じたテレビ番組
を録画する録画手段と、上記録画手段によって録画され
たテレビ番組を再生する再生手段と、上記認識結果に基
づいて,上記テレビ表示手段・録画手段および再生手段を
制御して,表示チャンネルの切換え・録画条件の設定ある
いは録画番組の再生を行う制御手段を備えることが望ま
しい。
【0032】上記構成によれば、上記テレビ番組の情報
から自動的に作成された音声認識用辞書が用いられてい
るので、テレビ番組名等が正確に認識される。したがっ
て、制御手段によって、認識結果に基づいてテレビ表示
手段,録画手段および再生手段が制御されることによっ
て、表示チャンネルの切換え,録画条件の設定あるいは
録画番組の再生が正しく行われる。
【0033】また、上記第3の発明の音声認識装置は、
特定の文字列情報の解析結果によらずに得られた認識語
彙が登録された補助辞書と、上記辞書および補助辞書と
の照合を行う照合手段と、上記照合手段によって,上記
認識結果として上記補助辞書に登録された認識語彙が選
択された場合,上記辞書を作成する際に上記音声認識用
辞書作成装置に入力された文字列情報に関連する文字情
報の中から当該認識結果に該当する文字列を検索する検
索手段と、上記検索された複数の文字列の中から,上記
辞書に登録する文字列を選択する選択手段を備えること
が望ましい。
【0034】上記構成によれば、上記第1の発明の音声
認識用辞書作成装置によって作成された辞書に登録され
ていない語彙を発声した場合でも、その語彙が正しく認
識される。さらに、認識結果として、上記辞書に登録さ
れた認識語彙ではなく、上記第1の発明の音声認識用辞
書作成装置によらずに作成された補助辞書に登録された
認識語彙が選択された場合には、検索手段によって、上
記音声認識用辞書作成装置に入力された例えばウエブペ
ージのタイトルに関連するウエブページ情報の中から、
当該認識結果に該当する文字列が検索される。そして、
選択手段によって、上記検索された複数の文字列の中か
ら上記辞書に登録する文字列が選択される。したがっ
て、その語彙を上記辞書に登録することによって、上記
辞書の認識語彙数が増加して認識速度が向上される。
【0035】また、第4の発明は、入力された音声を,
辞書に登録されている認識語彙との照合を行って認識す
る音声認識装置であって、上記第1の発明の音声認識用
辞書作成装置を搭載し、上記音声認識用辞書作成装置に
よって作成された音声認識用辞書を,上記辞書として用
いることを特徴としている。
【0036】上記構成によれば、搭載されている音声認
識用辞書作成装置に文字列情報を入力することによっ
て、この文字列情報から発声の可能性がある発声単位が
生成され、この発声単位を認識語彙とする音声認識用辞
書が作成される。したがって、この音声認識用辞書との
照合を行って入力音声を認識することによって、予め設
定された文字列の部分文字列を発声しても正しく認識さ
れる。
【0037】また、第5の発明の携帯端末器は、上記第
3,第4の発明の音声認識装置を搭載したことを特徴と
している。
【0038】携帯端末器においては、操作指示を行う場
合にはキー操作よりも発声による方が操作性はよい。上
記構成によれば、予め設定された文字列中のどの部分文
字列を発声しても正しく認識できる音声認識用辞書を用
いた音声認識装置が搭載されている。したがって、出先
等において操作指示を行うための文言を予め決められて
いる通りに正確に発声しなくとも、例えばホームページ
の呼び出し等の操作が正しく行われる。
【0039】また、第6の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における解析手
段,読み付与手段,語彙作成手段および語彙記憶手段とし
て機能させる辞書作成処理プログラムが記録されている
ことを特徴としている。
【0040】上記構成によれば、上記第1の発明の場合
と同様に、読みが付与された1つまたは複数の発声単位
が生成される。したがって、こうして生成された発声単
位を認識語彙として登録することによって、予め設定さ
れた文字列の部分文字列を発声しても正しく認識できる
音声認識装置を実現可能な音声認識用辞書が作成される
のである。
【0041】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態の音声認識用
辞書作成装置におけるブロック図である。解析処理部1
に文字列情報が入力されると、テキスト解析部2によっ
て入力文字列の言語が解析されて形態素に分割される。
その際に、複数の分割候補が存在する場合は、その総て
の分割候補が出力される。そして、読み付与部3によっ
て、上記分割された形態素の読みが付与される。その際
に、複数の読み方が存在する場合には、その総ての読み
が出力される。解析辞書メモリ4には、上記テキスト解
析部2がテキスト解析を行う際に必要な解析辞書を含む
言語データ等が格納されている。
【0042】語彙作成部5は、上記テキスト解析部2に
よるテキスト解析結果と読み付与部3による読み付与結
果を元に、音声認識を行うために必要な音声認識用辞書
を作成する。語彙記憶部6は、語彙作成部5によって作
成された音声認識用辞書を記憶する。そして、この音声
認識用辞書は音声認識時に使用される。
【0043】図2は、上記構成を有する音声認識用辞書
作成装置の各部によって実行される辞書作成処理動作の
フローチャートである。以下、図2のフローチャートに
従って、解析処理部1に「浦和市大久保」という文字列情
報が入力された場合を例に、本音声認識用辞書作成装置
の動作を説明する。ここで、テキスト解析部2に対する
文字列情報(テキスト)の入力は、WWW(World Wide We
b)等のネットワークからの入力や受信された文字放送に
よる入力であってもよいし、キーボードやペン等の文入
力手段からの入力あるいは音声認識装置からの認識結果
の入力でもよいし、OCR(光学式文字読取り装置)等の
文字認識装置からの入力であっても構わない。
【0044】ステップS1で、上記テキスト解析部2に
よって文字列情報「浦和市大久保」が取り込まれる。ステ
ップS2で、さらに、入力文字列「浦和市大久保」が、解
析辞書メモリ4に格納されている解析辞書を参照して形
態素(単語)に分割されるテキスト解析が行われる。その
結果、単語列「浦和(名詞)」,「市(接尾語)」,「大久保(名
詞)」と、単語列「浦和(名詞)」,「市大(名詞)」,「久保(名
詞)」との2つの分かち候補が得られる。尚、図3に、テ
キスト解析部2の出力結果の一例を示す。
【0045】ステップS3で、上記読み付与部3によっ
て、各単語に読みが付与されて、図4に示すような読み
付与結果が得られる。ここで、各単語の読みは、解析辞
書メモリ4に格納されている解析辞書を参照して付与さ
れる。尚、複数の読み方が存在する単語には総ての読み
が付与される。図4においては、文字「市」には、読み
「し」と読み「いち」との2つの読みが付与されている。以
下、語彙作成部5に処理が移行する。
【0046】ステップS4で、上記テキスト解析部2に
よって得られた分かち候補の数が変数kにセットされ
る。上記入力文字列「浦和市大久保」の場合は、図3に示
すように「浦和/市/大久保」と「浦和/市大/久保」との2通
り分かち候補が存在するので、変数kに「2」がセットさ
れる。ステップS5で、分かち候補番号mに初期値「1」
がセットされる。ステップS6で、m番目の分かち候補
を構成する総単語数が変数Nmにセットされる。上記入
力文字列「浦和市大久保」の場合は、1番目の分かち候補
「浦和/市/大久保」は、「浦和(名詞)」,「市(接尾語)」およ
び「大久保(名詞)」の3単語であるから、変数N1に「3」
がセットされる。
【0047】ステップS7で、語彙として登録する発声
単位を構成する二つ目以降の単語数jが、「0」に初期化
される。ステップS8で、発声単位の位置(先頭単語の番
号)iが、「1」に初期化される。ステップS9で、(i+
j)の値が総単語数Nm以下であるか否かが判別される。
その結果、総単語数Nm以下である場合にはステップS1
0に進む一方、総単語数Nmより大きい場合にはステップ
S13に進む。ステップS10で、発声単位を構成する単語
Wi,…,Wi+jと、対応する読みYi(1),…,Yi(1+p
i),…,Yi+j(1),…,Yi+j(1+pi+j)(但し、pi+j:
単語Wi+jの二つ目以降の読みの数)とが、語彙記憶部6
に登録される。したがって、1つの単語Wiに対する読
みが「Yi(1),Yi(2),…」のごとく複数ある場合には総
ての読みが登録される。
【0048】ステップS11で、上記発声単位の位置iの
値がインクリメントされる。ステップS12で、発声単位
の位置iが総単語数Nm以下であるか否かが判別され
る。その結果、総単語数Nm以下である場合にはステッ
プS9に戻って次の位置に在る発声単位の登録に移行す
る。一方、総単語数Nmより大きい場合にはステップS1
3に進む。ステップS13で、発声単位を構成する二つ目
以降の単語数jがインクリメントされる。ステップS14
で、上記単語数jが総単語数Nmより小さいか否かが判
別される。その結果、総単語数Nmより小さい場合には
ステップS8に戻って二つ目以降の単語数が1つ多い発
声単位の登録に移行する。一方、単語数Nm以上である
場合にはステップS15に進む。ステップS15で、分かち
候補番号mがインクリメントされる。ステップS16で、
分かち候補番号mが分かち候補の数k以下であるか否か
が判別される。その結果、分かち候補数k以下である場
合にはステップS6に戻って次の分かち候補に対する処
理に移行する。一方、分かち候補数kより大きい場合に
は、総ての分かち候補に関する処理が終了したと判断さ
れて辞書作成処理動作を終了する。
【0049】以上の結果、上記文字列情報「浦和市大久
保」に対して上述のような辞書作成処理動作が行われた
場合には、語彙記憶部6へは次のように登録が行われ
る。すなわち、1番目の分かち候補「浦和/市/大久保」に
対して、先ず、発声単位の二つ目以降の単語数jが「0」
である場合には、発声単位の位置iが小さい順に、発声
単位/読みのペア「浦和/うらわ」,「市/し」,「大久保/おお
くぼ」が登録される。次に、発声単位の上記単語数jが
「1」である場合は、発声単位の位置iが小さい順に、発
声単位/読みのペア「浦和市/うらわし」,「市大久保/しお
おくぼ」が登録される。次に、発声単位の上記単語数j
が「2」である場合には、発声単位/読みのペア「浦和市大
久保/うらわしおおくぼ」が登録される。
【0050】さらに、2番目の分かち候補「浦和/市大/
久保」に対して、先ず、発声単位の上記単語数jが「0」
である場合は、発声単位の位置iが小さい順に、発声単
位/読みのペア「浦和/うらわ」,「市大/しだい」,「久保/く
ぼ」が登録される。その際に、他の発声単位/読みのペア
「市大/いちだい」も登録される。次に、発声単位の上記
単語数jが「1」である場合には、発声単位/読みのペア
「浦和市大/うらわしだい」,「市大久保/しだいくぼ」と、
他の発声単位/読みのペア「浦和市大/うらわいちだい」,
「市大久保/いちだいくぼ」とが登録される。次に、発声
単位の上記単語数jが「2」である場合には、発声単語/
読みのペア「浦和市大久保/うらわしだいくぼ」と、他の
発声単位/読みのペア「浦和市大久保/うらわいちだいく
ぼ」とが登録される。
【0051】その結果、上記語彙記憶部6には、図5に
示すように認識語彙が登録されて音声認識用辞書が作成
されることになる。
【0052】以上のように、本実施の形態においては、
テキスト解析部2によって、入力文字列が形態素(単語)
に分割されて、総ての分かち候補が求められる。さら
に、読み付与部3によって、総ての分かち候補の単語に
対して読みが付与される。その場合、複数の読み方が存
在する単語には総ての読みが付与される。そして、語彙
作成部5によって、総ての分かち候補,総ての読み候補,
総ての連接単語の組み合せを考慮して発声単位/読みの
ペアを作成し、語彙記憶部6に登録するようにしてい
る。
【0053】すなわち、本実施の形態によれば、入力文
字列情報から複数の発声単位の語彙を生成することがで
きる。したがって、1つの入力文字列情報から、当該文
字列中の何れの部分文字列を発声しても認識できる音声
認識用辞書を作成することが可能となるのである。
【0054】例えば、ウエブ上でホームページの呼び出
しを音声によって行う場合に、テキスト解析部2にホー
ムページのタイトルを入力し、上述の手順によって音声
認識用辞書を作成することによって、上記タイトルと発
声が完全に一致しなくてもホームページの呼び出しを行
うことができるのである。例えば、ホームページのタイ
トルが「首相官邸のトップページ」である場合、「首相官
邸のトップページ」と発声しても、「首相官邸」と発声し
ても、あるいは、「官邸のトップページ」と発声しても、
首相官邸のホームページを呼び出すことが可能な音声認
識用辞書を得ることができるのである。
【0055】同様に、テレビのチャンネル切換をテレビ
番組名の発声によって行う場合に、テキスト解析部2に
電子テレビ番組表の番組名を入力し、上述の手順によっ
て音声認識用辞書を作成することによって、例えば、番
組名が「NHKニュースおはよう日本」である場合に、
「NHKニュース」と発声しても、「おはよう日本」と発声
しても、所定の時間になるとテレビのチャンネルを自動
的に「NHK」に切り換えることが可能な音声認識用辞書
を得ることができるのである。
【0056】尚、説明を簡単にするため、文字列「NH
Kニュース」,「おはよう日本」を一つの単語として音声認
識用辞書に登録する場合を例に説明を行っている。しか
しながら、「NHK」と「ニュース」や「おはよう」と「日本」
を独立した単語として記憶して、これらの単語が連続す
るという情報を別途記憶することによって、連続音声認
識用の辞書作成も同様の方法で実現することができる。
【0057】<第2実施の形態>上記第1実施の形態に
よれば、テキスト解析の結果得られる連接単語の組合せ
だけの発声単位が得られるが、これらの発声単位の中に
は誤解析も含まれる。したがって、得られた発声単位の
総てを同等に扱うことは不要な語彙を多く含み、認識率
を低下させる原因になり得る。本実施の形態は、このよ
うな場合に対処するものである。
【0058】図6は、本実施の形態の音声認識用辞書作
成装置におけるブロック図である。解析処理部11に文
字列情報が入力されると、テキスト解析部12によって
入力文字列が形態素に分割される。その際に、複数の分
割候補が存在する場合には、その総ての分割候補に確か
らしさの度合いを表す解析尤度が付与されて出力され
る。そして、読み付与部13によって、上記分割された
形態素の読みが付与される。その際に、複数の読み方が
存在する場合には、その総ての読みに確からしさの度合
いを表す読み尤度が付与されて出力される。解析辞書メ
モリ14には、上記第1実施の形態の場合と同様に、テ
キスト解析部12がテキスト解析を行う際や読み付与部
13が読み付与を行う際に必要な解析辞書を含む言語デ
ータ等が格納されている。
【0059】語彙作成部15は、テキスト解析部12に
よるテキスト解析結果と、読み付与部13による読み付
与結果と、発声確率計算部16による発声確率とを基
に、音声認識を行うために必要な音声認識用辞書を作成
する。発声確率計算部16は、テキスト解析部12が出
力する解析尤度、読み付与部13が出力する読み尤度、
単語出現順序、モーラ数、単語出現頻度、キーワード辞
書照合の少なくとも一つを用いて、語彙作成部15によ
って各分かち候補から得られた発声単位の発声確率を算
出する。語彙記憶部17は、語彙作成部15によって作
成された音声認識用辞書を記憶する。そして、この音声
認識用辞書は音声認識時に使用される。
【0060】図7に、テキスト解析部12の出力結果の
一例を示す。また、図8に、読み付与部13の出力結果
の一例を示す。また、図9に、語彙作成部15の出力結
果の一例を示す。
【0061】以下、本実施の形態における特徴である発
声確率計算部16の動作について詳細に述べる。この発
声確率計算部16では、上述したように、テキスト解析
部12による解析尤度KS、読み付与部13による読み
尤度YS、単語出現順序、モーラ数、単語出現頻度、キ
ーワード辞書照合の少なくとも一つを用いて、各発声単
位の発声確率を算出する。
【0062】先ず、上記テキスト解析部12によって得
られる解析尤度KSから上記発声確率を求める場合につ
いて説明する。上記解析尤度KSは、入力文字列を解析
して得られた結果(形態素分割結果)がどの程度確からし
いかを図る指標になる。上記第1実施の形態の場合と同
じ入力文字列「浦和市大久保」を例に上げて説明する。
【0063】上記テキスト解析部12によって、1番目
の解析候補(分かち候補)「浦和/市/大久保」の解析尤度が
KS(1)と得られ、2番目の解析候補「浦和/市大/久保」
の解析尤度がKS(2)と得られたとする。また、i番目
の解析候補に含まれる構成単語を組み合わせて得られる
発声単位の数をN(i)とする。但し、同じ発声単位が複
数の解析候補に含まれている場合には、最も解析尤度の
高い解析候補の発声単位を数えることとする。上記入力
文字列「浦和市大久保」の場合であれば、構成単語が「浦
和」だけで成る発声単位は、1番目,2番目の両解析候補
に含まれるために、解析尤度の高い解析候補の方だけで
数えるのである。
【0064】一つの解析候補における構成単語の全組み
合わせ(つまり全発声単位)は、均等の確率で発生するも
のとする。そうすると、i番目の解析候補における発声
単位wの発声確率P1(w)は式(1)で表現できる。但
し、式(1)中におけるMは解析候補数である。
【0065】式(1)における右辺の分母は、入力文字列
に固有の値であるから「A」と置くことができる。また、
一般的に、入力文字列「浦和市大久保」は、固有名詞「浦
和」と接尾語「市」と固有名詞「大久保」である可能性の方
が、固有名詞「浦和」と一般名詞「市大」と固有名詞「久保」
である可能性よりも高いと判断され、両解析尤度の大小
関係はKS(1)>KS(2)となる。したがって、「浦和
市」と発声される確率 KS(1)/A と、「久保」と発声される確率 KS(2)/A とでは、前者の方が高くなる。
【0066】以上のようにして、各解析候補の解析尤度
KSに基づいて、各解析候補から得られる発声単位の発
声確率を求めることができるのである。
【0067】次に、上記読み付与部13によって得られ
る読み尤度YSから上記発声確率を求める場合について
説明する。上記入力文字列「浦和市大久保」の場合を例に
上げて説明する。上記解析尤度が付与された総ての解析
候補に対して、読み付与部13によって、1番目の解析
候補「浦和(うらわ)/市(し)/大久保(おおくぼ)」の読み尤
度がYS(1)、2番目の解析候補「浦和(うらわ)/市大
(しだい)/久保(くぼ)」の読み尤度がYS(2)、3番目の
解析候補「浦和(うらわ)/市大(いちだい)/久保(くぼ)」の
読み尤度がYS(3)と計算されたとする。
【0068】また、i番目の解析候補に含まれる構成単
語を組み合わせて得られる発声単位の数をN(i)とす
る。但し、同じ発声単位が複数の解析候補に含まれてい
る場合には、最も解析尤度の高い解析候補の発声単位を
数えることとする。
【0069】一つの解析候補における構成単語の全組合
せは、均等の確率で発生するものとする。そうすると、
i番目の解析候補における発声単位wの発声確率P2
(w)は式(2)で表現できる。但し、式(2)中におけるM
は解析候補数である。
【0070】式(2)における右辺の分母は、入力文字列
に固有の値であるから「B」と置くことができる。また、
各読み尤度の大小関係はYS(1)>YS(2)>YS(3)
であるとする。そうすると、「うらわしおおくぼ」と発声
される確率 YS(1)/B と「うらわしだいくぼ」と発声される確率 YS(2)/B とでは、前者の方が高くなる。
【0071】以上のようにして、各解析候補の読み尤度
YSに基づいて、各解析候補から得られる発声単位の発
声確率を求めることができるのである。
【0072】次に、上記単語出現順序から上記発声確率
を求める場合について説明する。ここで、単語出現順序
iを変数とする関数h(i)を定義する。関数h(i)は、文
字列表記の先頭部分にある単語ほど発声単位となる確率
が高いという経験則に基づいて、単語出現順序iが増加
するに従って値が減少する関数である。
【0073】例えば電子番組データの番組名に記載され
ている文字列「水戸黄門/五十三次世直し旅・品川」を例
に説明する。単語出現順序がi番目である単語を先頭に
含む発声単位の個数をN(i)とする。
【0074】同じ単語を先頭に含む全発声単位は均等の
確率で発生するものとする。すなわち、単語「水戸」で始
まる発声単位「水戸」,「水戸黄門」,「水戸黄門五十三次」の
発声確率は総て等確率になる。そうすると、単語出現順
序がi番目である単語を先頭に含む発声単位wの発声確
率P3(w)は式(3)で表現できる。但し、式(3)中にお
けるMは単語出現順序数(単語数)である。
【0075】式(3)における右辺の分母は、解析候補に
固有の値であるから「C」と置くことができる。また、上
記文字列「水戸黄門/五十三次世直し旅・品川」に対する
テキスト解析部12によるテキスト解析の結果、単語出
現順序i=1は「水戸」、i=2は「黄門」、i=3は「五
十三次」、i=4は「世直し」、i=5は「旅」、i=6は
「品川」となる。さらに、関数h(i)の定義に基づいて、
単語出現順序i=1,3,6における関数h(i)の値の大
小関係はh(1)>h(3)>h(6)となる。そのために、
発声単位「水戸黄門」,「五十三次世直し旅」,「品川」に関し
て、発声単位「品川」よりも発声単位「五十三次世直し
旅」、発声単位「五十三次世直し旅」よりも発声単位「水戸
黄門」の方が、発声確率は高くなる。したがって、「みと
こうもん」と発声される確率 h(1)/C と「ごじゅうさんつぎ」と発声される確率 h(3)/C と「しながわ」と発声される確率 h(6)/C とでは、「みとこうもん」の発声確率が一番高くなる。
【0076】以上のようにして、入力文字列を構成する
各単語の単語出現順序に基づいて、得られる発声単位の
発声確率を求めることができるのである。
【0077】次に、上記モーラ数から上記発声確率を求
める場合について説明する。発声単位の発声確率は、あ
るモーラ数をピークとして発声単位のモーラ数が大きく
なるほど低くなる。逆に、モーラ数が小さくなっても低
くなる。そこで、図10に概念図を示すような発声単位
のモーラ数iと発声確率との関係を表す関数m(i)を定
義する。
【0078】電子番組データの番組名に記載されている
文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」を例に
説明する。この番組名を発声する際に「サスペンス傑作
劇場津軽竜飛岬風の殺意」とそのまま発声するケースは
稀であり、「サスペンス傑作劇場」や「サスペンス」あるい
は「津軽竜飛岬風の殺意」等の発声単位で発声される可能
性が高いと考えられる。また、「傑作」や「劇場」ではモー
ラ数が少な過ぎて発声確率は低いと考えられる。
【0079】同じモーラ数を呈する全発声単位は均等の
確率で発生するものとする。また、モーラ数がiである
発声単位の個数をN(i)とする。そうすると、モーラ数
がiである発声単位wの発声確率P4(w)は式(4)で表
現できる。但し、式(4)中におけるMは最大モーラ数で
ある。
【0080】式(4)における右辺の分母は、解析候補に
固有の値であるから「D」と置くことができる。また、上
記文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」に対
するテキスト解析部12によるテキスト解析の結果、発
声単位「サスペンス傑作劇場津軽竜飛岬風の殺意」のモー
ラ数は24、発声単位「サスペンス劇場」のモーラ数は9
となる。さらに、関数m(i)の定義に基づいて、モーラ
数i=24,9における関数m(i)の値の大小関係はm
(9)>m(24)となる。したがって、「さすぺんすげき
じょうつがるたっぴみさきかぜのさつい」と発声される
確率 m(24)/D と「さすぺんすげきじょう」と発声される確率 m(9)/D とでは、後者の方が高くなる。
【0081】以上のようにして、入力文字列から得られ
る発声単位のモーラ数に基づいて、発声単位の発声確率
を求めることができるのである。
【0082】次に、上記単語出現頻度から上記発声確率
を求める場合について説明する。ここで、テキスト解析
部12に順次入力される総ての文字列情報で成る文字列
情報群中における出現回数iを変数とする関数f(i)を
定義する。この関数f(i)は、上記文字列情報群の中に
出現する回数が多い単語は他の単語と区別するための単
語となり難いという性質を利用しており、上記文字列情
報群中における出現回数iが増加するに従って値が減少
する関数である。
【0083】例えば、ホームページのタイトル「大蔵省
ホームページ」を例に説明する。単語「ホームページ」や
単語「ようこそ」等は、他のホームページのタイトルにも
頻繁に出現するので、ホームページの呼び出し用の認識
語彙としてこれらの単語を含む発声単位の発声確率は低
くなる。
【0084】上記文字列情報群中において同じ出現回数
を呈する単語を含む全発声単位は均等の確率で発生する
ものとする。また、上記文字列情報群中での出現回数が
iである単語を含む発声単位の個数をN(i)とする。そ
うすると、発声単位wを構成する単語のうちで上記文字
列情報群中での出現回数が最少である単語の出現回数が
iである当該発声単位wの発声確率P5(w)は式(5)で
表現できる。但し、式(5)中におけるMは最大出現回数
である。
【0085】式(5)における右辺の分母は、上記文字列
情報群に固有の値であるから「E」と置くことができる。
また、例えば、上記文字列情報群中に、「大蔵省」という
単語を含む発声単位が1回含まれる一方、「ホームペー
ジ」という単語を含む発声単位が5回含まれるとする
と、関数f(i)の定義に基づく単語出現頻度i=1,5に
おける関数f(i)の値の大小関係はf(1)>f(5)とな
る。したがって、「おおくらしょう」と発声される確率 f(1)/E と「ほーむぺーじ」と発声される確率 f(5)/E とでは、前者の方が高くなる。
【0086】以上のようにして、上記文字列情報群中に
おける単語出現頻度に基づいて、発声単位の発声確率を
求めることができるのである。
【0087】具体的には、例えば、上記文字列情報群と
して5つのホームページのタイトルがある場合、先ず、
1番目のタイトルが入力された場合に、当該タイトルの
文字列中における単語出現頻度i1に基づいて発声単位
Wの発声確率P5(w)を求める。次に、2番目のタイト
ルが入力された場合は、同一発声単位Wに関して、1番
目のタイトルと2番目のタイトルとの文字列中における
単語出現頻度i2に基づいて、発声確率P5(w)を計算
し直す。以下同じ動作を繰り返し、最後に5番目のタイ
トルが入力された場合は、同一発声単位Wに関して、1
番目〜5番目のタイトルの全文字列中における単語出現
頻度itに基づいて、発声確率P5(w)を計算し直し、
最終的な発声単位Wの発声確率P5(w)を得るのであ
る。
【0088】最後に、上記キーワード辞書照合から上記
発声確率を求める場合について説明する。この場合、予
め確率値が付与されたキーワードを登録したキーワード
辞書を作成しておく。例えば、単語「ニュース」には高い
確率値を付与してキーワード辞書に登録しておく。逆
に、単語「番組」や単語「ホームページ」は冗長で在っても
無くてもよく、低い確率値を付与して登録しておく。
尚、キーワード辞書に登録されていない単語にはデフォ
ルトの確率値が与えられる。
【0089】こうすることによって、「にゅーす」と発声
される確率と「ばんぐみ」と発声される確率とでは、前者
の方が高くなる。ここで、確率値「0」を付与してキーワ
ード辞書に登録することは、認識語彙から削除すること
と同等の役割を果たす。
【0090】以上のようにして、キーワード辞書照合に
基づいて、発声単位の発声確率を求めることができるの
である。
【0091】以上述べた「解析尤度」,「読み尤度」,「単語
出現順序」,「モーラ数」,「単語出現頻度」,「キーワード辞
書照合」の6種類の項目の何れ一つを用いて求めた発声
確率を組み合わせて、発声単位の発声確率とすることが
できる。一例として、式(6)のような計算式によって発
声単位の発声確率を求めることができる。すなわち、 解析尤度を用いて求めた発声確率をP1 読み尤度を用いて求めた発声確率をP2 単語出現順序を用いて求めた発声確率をP3 モーラ数を用いて求めた発声確率をP4 単語出現頻度を用いて求めた発声確率をP5 キーワード辞書照合を用いて求めた発声確率をP6 とすると、 ここで、mi:重み係数
【0092】以上のようにして、各発声単位毎に算出さ
れた発声確率WSは、図9に示すように、語彙作成部1
5によって上記第1実施の形態と同様にして作成された
認識語彙(発声単位)に付与されて、語彙記憶部17に登
録されるのである。
【0093】以上のように、本実施の形態においては、
テキスト解析部12は、複数の分割候補が存在する場合
には総ての分割候補に解析尤度KSを付与して出力す
る。また、読み付与部13は、複数の読み方が存在する
場合には総ての読みに読み尤度YSを付与して出力す
る。さらに、発声確率計算部16によって、上記解析尤
度KSおよび読み尤度YS、単語出現順序、モーラ数、
単語出現頻度、キーワード辞書照合の少なくとも一つを
用いて、得られる発声単位の発声確率を算出する。そし
て、得られた発声確率WSを認識語彙に付与して語彙記
憶部17に登録するようにしている。
【0094】したがって、本実施の形態によれば、上記
第1実施の形態によって作成された音声認識用辞書に登
録されている認識語彙中における誤解析による認識語彙
や実際には発声されない認識語彙の発声確率を低くする
ことができ、高い認識精度を得ることができる音声認識
用辞書を作成することができる。
【0095】尚、上記関数h(i),m(i),f(i)およびキ
ーワード辞書の格納場所は特に限定するものではない
が、例えば発生確率計算部16の内部メモリに格納して
あるものとする。また、説明を簡単にするために、発声
確率計算部16を語彙作成部15とは別ブロックに構成
して、語彙作成部15で得られた発声単位に関して発声
確率を算出するようにしている。しかしながら、発声確
率計算部を語彙作成部と同一ブロックに構成して、図2
のフローチャートにおける上記ステップS4以降に、発
声確率算出動作を組み込んでも差し支えない。
【0096】<第3実施の形態>本実施の形態は、上記
第2実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置に
関するものである。図11は、図6に示す音声認識用辞
書作成装置を搭載した音声認識装置のブロック図であ
る。音声認識用辞書作成装置21を構成するテキスト解
析部23,読み付与部24,解析辞書メモリ25,語彙作
成部26,発声確率計算部27および語彙記憶部28
は、上記第2の実施の形態における上記テキスト解析部
12,読み付与部13,解析辞書メモリ14,語彙作成部
15,発声確率計算部16および語彙記憶部17と同じ
構成を有している。そして、語彙記憶部28には、図9
に示すように、発声確率が付与された認識語彙が格納さ
れている。
【0097】一方、音声認識装置22は、音響分析部2
9,尤度計算部30,音響モデル格納部31および照合部
32で構成され、マイクに入力された音声を語彙記憶部
28に格納された認識語彙情報(音声認識用辞書)を用い
て認識する。
【0098】上記音響分析部29は、マイクから入力さ
れた音声のアナログ波形をディジタル波形に変換し、2
0msec〜40msec程度の短い時間間隔(フレーム)毎に周
波数分析し、スペクトルを表すパラメータのベクトル系
列に変換する。周波数分析にはLPC(線形予測分析)メ
ルケプストラム等が用いられる。
【0099】上記尤度計算部30は、音響分析部29か
らの入力音声のパラメータベクトルを用いて、音響モデ
ル格納部31に格納されたHMM(隠れマルコフモデル)
等の音韻毎の音響モデルの尤度を計算する。こうして、
各音韻の尤度を求めるのである。照合部32は、求めら
れた各音韻の尤度と語彙記憶部28に登録されている総
ての認識語彙との照合を行ない、全認識語彙のスコアを
算出する。その場合における各認識語彙のスコアは、当
該認識語彙の音韻系列に尤度計算部30で求められた各
音韻の尤度を当て嵌めて得た音響尤度と、当該認識語彙
に付与されて語彙記憶部28に記憶されている発声確率
である言語尤度とを組み合わせて算出する。例えば、認
識語彙Wの音響尤度をp(W)とし言語尤度をq(W)とする
と、認識語彙Wのスコアscore(W)を、 score(W)=α・p(W)+β・q(W) 但し、α,β:定数 によって求めるのである。
【0100】こうして、上記語彙記憶部28に登録され
ている総ての認識語彙についてスコアを算出し、上位所
定値以上のスコアを呈する認識語彙でなる認識候補を認
識結果として出力するのである。
【0101】以上のように、本実施の形態においては、
音声認識装置は、上記第2実施の形態の音声認識用辞書
作成装置によって作成された音声認識用辞書が格納され
た語彙記憶部28を有している。そして、照合部32に
よって、尤度計算部30で求められた各音韻の尤度と語
彙記憶部28に登録されている総ての認識語彙の音韻系
列との照合を行ない、音韻の尤度に基づく音響尤度と上
記発声確率である言語尤度とを組み合わせて、全認識語
彙のスコアを算出するようにしている。
【0102】したがって、本実施の形態によれば、上記
第1実施の形態の場合と同様に、ホームページの呼び出
しやテレビのチャンネル切換を音声によって行う場合
に、登録されたホームページタイトルや番組名を完全に
発声しなくてもホームページの呼び出しやチャンネルの
切換を行うことができる。その際に、上記発声確率(言
語尤度)に基づくスコアの高い認識語彙を音声認識結果
とすることによって、上記入力文字列情報の誤解析によ
って得られた認識語彙や実際には発声されない認識語彙
に誤認識される確率を低減することができる。したがっ
て、高い認識性能を有する音声認識装置を実現すること
ができるのである。
【0103】尚、上記実施の形態においては、上記音声
認識装置22は音声認識用辞書作成装置21を搭載して
いる。しかしながら、この発明の音声認識装置は、少な
くとも上記音声認識用辞書作成装置によって作成された
語彙記憶部28が搭載されていればよく、テキスト解析
部23,読み付与部24,解析辞書メモリ25,語彙作成
部26および発声確率計算部27は、音声認識装置22
とは独立して設けても差し支えない。
【0104】<第4実施の形態>本実施の形態は、上記
第2実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置の
他の例に関するものであり、上記音声認識用辞書作成装
置に入力する文字列情報をコンテンツから抽出するもの
である。
【0105】図12は、図6に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置41を構成するテキスト解析部4
3,読み付与部44,解析辞書メモリ45,語彙作成部4
6,発声確率計算部47および語彙記憶部48、音声認
識装置42を構成する音響分析部49,尤度計算部50,
音響モデル格納部51および照合部52は、上記第3の
実施の形態におけるテキスト解析部23,読み付与部2
4,解析辞書メモリ25,語彙作成部26,発声確率計算
部27,語彙記憶部28,音響分析部29,尤度計算部3
0,音響モデル格納部31および照合部32と同じ構成
を有している。そして、語彙記憶部48には、図9に示
すように、発声確率が付与された認識語彙が格納されて
いる。
【0106】取り込み部53は、外部からの文字列情報
を含むコンテンツを取り込む。上記コンテンツは、放送
によって送信されてくる情報を受信機で受信して取り込
んでもよいし、インターネットで配信される情報を通信
ネットワーク経由で取り込んでもよいし、光磁気ディス
ク,磁気テープ,ハードディスクおよびIC(集積回路)カ
ード等の固定的にデータを記録する媒体から取り込んで
もよい。文字列情報抽出部54は、取り込み部53で取
り込まれたコンテンツの中から音声認識用辞書の作成に
使用する文字列情報を抽出する。そして、抽出された文
字列情報は、音声認識用辞書作成装置41のテキスト解
析部43に送出される。
【0107】抽出条件格納部55には、上記コンテンツ
に含まれるタグ情報が如何なるタグ情報である場合に文
字列情報を抽出するかという抽出条件が格納されてい
る。そして、文字列情報抽出部54は、抽出条件格納部
55に格納されている上記抽出条件を参照して、上記音
声認識用辞書の作成に用いる文字列情報を抽出するので
ある。
【0108】図13は、上記取り込み部53および文字
列情報抽出部54によって行われる文字列情報抽出処理
動作のフローチャートである。以下、図13に従って、
文字列情報抽出動作について説明する。ステップS21
で、上記取り込み部53によって、上記コンテンツが取
り込まれる。以下、文字列情報抽出部54による処理に
移行する。ステップS22で、上記取り込まれたコンテン
ツの先頭文字が読み出される。ステップS23で、上記読
み出された文字は空(つまりコンテンツは最後)であるか
否かが判別される。その結果、最後であれば文字列情報
抽出処理動作を終了する。一方、最後でなければステッ
プS24に進む。ステップS24で、受け取った文字がタグ
情報であるか否かが判別される。その結果、タグ情報で
なければステップS25に進む。一方、タグ情報であれば
ステップS26に進む。ステップS25で、上記コンテンツ
における次の文字が読み出された後、ステップS23に戻
って次の文字の処理に移行する。ステップS26で、抽出
条件格納部55の抽出条件が参照されて、上記抽出条件
を満たすか否かが判別される。その結果、満たす場合に
はステップS27に進む一方、満たさない場合には上記ス
テップS25に戻って次の文字の処理に移行する。ステッ
プS27で、上記抽出条件を満たす文字列が抽出されて、
テキスト解析部43に送出される。そうした後、上記ス
テップS25に戻って次の文字の処理に移行する。以下、
ステップS23〜ステップS27の処理を繰り返し、上記ス
テップS23においてコンテンツは最後であると判別され
と文字列情報抽出処理動作を終了するのである。
【0109】例えば、上記コンテンツがHTML(ハイ
パーテキスト・マークアップ言語)ファイルであり、抽出
条件格納部55に抽出条件「<title>タグが存在する
場合は<title>と</title>とで囲まれた文字列を抽
出する」が格納されているとすると、入力されたコンテ
ンツ(HTMLファイル)中に、 <title>首相官邸のトップページ</title>なる記述
があると、文字列「首相官邸のトップページ」が抽出され
るのである。
【0110】こうして、文字列情報を含むコンテンツか
ら上記文字列情報抽出部54によって自動的に抽出され
た文字列に対して、音声認識用辞書作成装置41によっ
て図2に例示するような辞書作成処理を行うことによっ
て、語彙記憶部48に、音声によるホームページ呼び出
しに最適な音声認識用辞書が作成・登録されるのであ
る。したがって、音声認識装置42に対して、首相官邸
のホームページのタイトル「首相官邸のトップページ」を
完全に発声しても、部分的に「首相官邸」や「官邸のトッ
プページ」と発声しても正しく認識され、首相官邸のホ
ームページを呼び出すことができるのである。
【0111】その際に、上記音声認識用辞書作成装置4
1には、発声確率計算部47が搭載されており、語彙記
憶部48には発声確率が付与された認識語彙が登録され
ている。したがって、文字列情報抽出部54で抽出され
た文字列に対する誤解析の結果生成された認識語彙や現
実には発声されないような認識語彙の発声確率を低くし
て、高い認識精度を得ることができるのである。
【0112】<第5実施の形態>本実施の形態は、上記
第4実施の形態に示す音声認識装置において、音声認識
用辞書作成装置に入力する文字列情報が抽出されるコン
テンツを、ウエブページ情報に限定したものである。
【0113】図14は、図6に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置61を構成するテキスト解析部6
3,読み付与部64,解析辞書メモリ65,語彙作成部6
6,発声確率計算部67および語彙記憶部68、音声認
識装置62を構成する音響分析部69,尤度計算部70,
音響モデル格納部71および照合部72は、上記第3の
実施の形態におけるテキスト解析部23,読み付与部2
4,解析辞書メモリ25,語彙作成部26,発声確率計算
部27,語彙記憶部28,音響分析部29,尤度計算部3
0,音響モデル格納部31および照合部32と同じ構成
を有している。そして、語彙記憶部68には、図9に示
すように、発声確率が付与された認識語彙が格納されて
いる。
【0114】また、文字列情報抽出部74および抽出条
件格納部75は、上記第4実施の形態における文字列情
報抽出部54および抽出条件格納部55と同じ構成を有
している。そして、文字列情報抽出部74によって抽出
された文字列情報は、音声認識用辞書作成装置61のテ
キスト解析部63に出力される。
【0115】ウエブページ情報取り込み部73は、上記
コンテンツとしてのウエブページ情報を取り込んで、先
頭文字から順次文字列情報抽出部74に送出する。以
後、文字列情報抽出部74によって、抽出条件格納部7
5に格納されている抽出条件に適合する文字列情報が抽
出される。
【0116】一方、制御部76は、上記音声認識装置6
2による音声認識結果に基づいて、ウエブページの表示
制御を行う。そして、ウエブページ表示部77は、制御
部76の指示に従ってウエブページを表示するのであ
る。
【0117】図15は、上記ウエブページ情報取り込み
部73によって取り込まれるウエブページ情報の一例を
示す。ウエブページの情報は、HTML等の言語で記述
されている。そして、抽出条件格納部75に抽出条件
「<title>タグが存在する場合は<title>と</title
>とで囲まれた文字列を抽出する」が格納されていると
すると、文字列情報抽出部74は、基本的には図13の
フローチャートと同じ文字列情報の抽出動作を行う。す
なわち、ウエブページ情報に記述されている文字列を先
頭から見ていき、<title>タグを見つけると、<title
>と</title>とで挟まれた文字列「鈴木一郎のホーム
ページ」を抽出するのである。
【0118】こうして、ウエブページ情報から上記文字
列情報抽出部74によって自動的に抽出された文字列に
対して、音声認識用辞書作成装置61によって図2に例
示するような辞書作成処理を行うことによって、語彙記
憶部68に、音声によるホームページ呼び出しに最適な
発声確率付き認識語彙が登録された音声認識用辞書が作
成されるのである。その際に、上記文字列「鈴木一郎の
ホームページ」から作成された発声単位「鈴木」,「一郎」,
「鈴木一郎」,「鈴木一郎のホームページ」,「一郎のホーム
ページ」には、図16に示すように当該ホームページの
URL(http://www.suzuki.xxx.jp等)が付与されて語彙
記憶部68に登録するようにしている。
【0119】したがって、上記音声認識装置62に対し
て「鈴木一郎」と発声された場合は、音響分析部69で入
力音声がベクトル系列に変換され、尤度計算部70で上
記ベクトル系列に基づいて各音韻の尤度が算出され、照
合部72で語彙記憶部68の語彙との照合を行って「鈴
木一郎」という語彙として認識されると共に、認識語彙
「鈴木一郎」に付与されているURL(http://www.suzuk
i.xxx.jp)が得られるのである。
【0120】そうすると、上記制御部76は、得られた
URLに基づいて「鈴木一郎のホームページ」にアクセス
して「鈴木一郎のホームページ」のウエブページ情報を取
得し、ウエブページ表示部77に当該ウエブページの表
示を指示して表示させるのである。
【0121】すなわち、本実施の形態によれば、ウエブ
ページの情報から自動的に発声確率付きの発声単位を生
成して適切な音声認識用辞書を作成することができる。
つまり、図15のようなウエブページから図l6に示す
ような音声認識用辞書を自動的に作成することができ
る。したがって、ウエブページのタイトル「鈴木一郎の
ホームページ」を完全に発声しても、部分的に「鈴木」や
「鈴木一郎」や「一郎のホームページ」と発声しても正しく
認識し、「鈴木一郎のホームページ」のウエブページ情報
を取得してウエブページ表示部77に表示することがで
きるのである。
【0122】上記ブラウザのブックマークやお気に入り
等でホームページをブラウザに登録した場合、利用者が
見て判断する情報としてタイトルを利用する場合があ
る。その場合のタイトルは、飽くまでも見るための情報
であって発声するための文字列情報ではないため、極端
に長いタイトルが与えられる場合がある。そのような場
合でも、<title>タグで囲まれた文字列を抽出して上
述した方法で音声認識用辞書を作成することによって、
より短い発声で上記ブックマークやお気に入りに登録し
たホームページを呼び出すことが可能になるのである。
【0123】尚、本実施の形態においては、上記<titl
e>タグを用いる場合を例に説明したが、<title>タグ
以外にも文字フォントを変更するタグ等、用途に応じた
抽出条件を抽出条件格納部75に格納しておくができ
る。そうすることによって、様々な用途に応じた音声認
識用辞書を作成することが可能になる。
【0124】また、上記抽出条件格納部75に、上記発
声確率の変更条件を格納することも可能である。その場
合の発声確率の変更条件は、例えば、「URLの表記を
基にタイトルから発声確率の高い発声単位を選ぶ」であ
る。具体的には、「URL中に含まれる読みに関するア
ルファベット表記と、テキスト解析部63および読み付
与部64によるテキスト解析および読み付与の結果から
得られた読みの表記(アルファベット表記)の一致具合を
調べ、一致する単語があればその単語(読み方)を含む発
声単位の発声確率を高くする」のである。例えば、タイ
トル「朝日新聞のホームページ」とそのURL「http://ww
w.asahi.com」とを例に取ると、URL中に含まれる読み
に関するアルファベット表記「asahi」とテキスト解析お
よび読み付与の結果得られた単語「朝日」の読みの表記「a
sahi」とが同一である。したがって、単語「朝日」を含む
発声単位の発声確率を高く設定することができる。こう
して、タイトル「朝日新聞のホームページ」に関する高い
認識精度を可能にする音声認識用辞書を簡単に作成する
ことが可能になるのである。
【0125】<第6実施の形態>本実施の形態は、上記
第4実施の形態に示す音声認識装置において、音声認識
用辞書作成装置に入力する文字列情報が抽出されるコン
テンツを、テレビ番組情報に限定したものである。
【0126】図17は、図6に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置81を構成するテキスト解析部8
3,読み付与部84,解析辞書メモリ85,語彙作成部8
6,発声確率計算部87および語彙記憶部88、音声認
識装置82を構成する音響分析部89,尤度計算部90,
音響モデル格納部91および照合部92は、上記第3の
実施の形態におけるテキスト解析部23,読み付与部2
4,解析辞書メモリ25,語彙作成部26,発声確率計算
部27,語彙記憶部28,音響分析部29,尤度計算部3
0,音響モデル格納部31および照合部32と同じ構成
を有している。そして、語彙記憶部88には、図9に示
すように、発声確率が付与された認識語彙が格納されて
いる。
【0127】また、文字列情報抽出部94および抽出条
件格納部95は、上記第4実施の形態における文字列情
報抽出部54および抽出条件格納部55と同じ構成を有
している。そして、文字列情報抽出部94によって抽出
された文字列情報は、音声認識用辞書作成装置81のテ
キスト解析部83に出力される。
【0128】テレビ番組情報取り込み部93は、上記コ
ンテンツとしてのテレビ番組情報を取り込んで、先頭文
字から順次文字列情報抽出部94に送出する。上記テレ
ビ番組情報の取り込みは、1日分あるいは1週間分等の
まとまった電子番組データを取り込むことによって行
う。尚、この電子番組データの取り込みは、文字放送受
信機で受信して取り込んでもよいし、インターネット等
のネットワーク経由で取り込んでもよい。また、光磁気
ディスク等の記録メディアから取り込んでも差し支えな
い。そうした後、文字列情報抽出部94によって、抽出
条件格納部95に格納されている抽出条件に適合する文
字列情報が抽出される。
【0129】一方、制御部96は、上記音声認識装置8
2による音声認識結果に基づいて、テレビの表示や録画
・再生を制御する。そして、テレビ表示部97は、制御
部96の指示に従ってテレビの映像を表示する。録画部
98は、制御部96の指示に従ってテレビ番組を録画す
る。再生部99は、制御部96の指示に従って録画部9
8で録画されたテレビ番組を再生する。
【0130】テレビ番組表には、番組の日時,チャンネ
ル,番組名等の情報が、決められた形式に従って記載さ
れている。したがって、上記5実施の形態と同様にし
て、テレビ番組表の中から番組名等の特定項目の文字列
を抽出することによって、音声認識用辞書を作成するこ
とができる。
【0131】図18は、上記テレビ番組情報取り込み部
93によって取り込まれるテレビ番組情報の一例を示
す。抽出条件格納部95には、抽出条件「番組名という
タグが付いている文字列を抽出する」が格納されている
ものとする。そうすると、文字列情報抽出部94は、基
本的には図13のフローチャートと同じ文字列情報の抽
出動作を行う。すなわち、テレビ番組情報に記述されて
いる文字列を先頭から見ていき、タグ「番組名」を見つけ
ると、そのタグ「番組名」に該当する文字列「NHKニュ
ースおはよう日本」を抽出するのである。
【0132】こうして、テレビ番組情報から上記文字列
情報抽出部94によって自動的に抽出された文字列に対
して、音声認識用辞書作成装置81によって図2に例示
するような辞書作成処理を行うことによって、語彙記憶
部88に、音声によるテレビ番組表示に最適な発声確率
付き認識語彙が登録された音声認識用辞書が作成される
のである。その際に、上記文字列「NHKニュースおは
よう日本」から作成された発声単位「NHK」,「ニュー
ス」,「NHKニュース」,「おはよう日本」,「NHKニュー
スおはよう」には、図19に示すように当該番組のチャ
ンネル情報(「NHK総合」等),日付情報および時刻情報
等が付与されて語彙記憶部88に登録するようにしてい
る。
【0133】したがって、上記音声認識装置82に対し
て「NHKニュース」と発声された場合は、音響分析部8
9で入力音声がベクトル系列に変換され、尤度計算部9
0で上記ベクトル系列に基づいて各音韻の尤度が算出さ
れ、照合部92で語彙記憶部88の語彙との照合を行っ
て「NHKニュース」という語彙として認識されると共
に、認識語彙「NHKニュース」に付与されているチャン
ネル情報(NHK総合),日付情報(5月5日)および時刻
情報(5:00〜8:15)が得られるのである。
【0134】そうすると、上記制御部96は、得られた
チャンネル情報,日付情報および時刻情報に基づいて、
テレビ表示部97にテレビの表示を指示して、5月5日
の午前5時に「NHKニュースおはよう日本」を表示させ
るのである。
【0135】すなわち、本実施の形態によれば、テレビ
番組情報から自動的に発声確率付きの発声単位を生成し
て適切な音声認識用辞書を作成することができる。つま
り、図18に示すようなテレビ番組情報から図l9に示
すような音声認識用辞書を自動的に作成することができ
る。したがって、テレビ番組の番組名「NHKニュース
おはよう日本」を完全に発声しても、部分的に「NHK」
や「おはよう日本」や「NHKニュースおはよう」と発声し
ても正しく認識し、テレビ番組「NHKニュースおはよ
う日本」のチャンネル情報,日付情報および時刻情報を取
得してテレビ表示部97に表示することができるのであ
る。
【0136】尚、本実施の形態においては、上記番組名
タグを用いる場合を例に上げて説明したが、用途に応じ
て様々な抽出条件を抽出条件格納部95に格納しておく
ができる。例えば、録画を予約する場合は、現在の日付
及び時間よりも先の番組が認識対象になるはずであるか
ら、抽出条件格納部95に「日付が本日以降(または、時
間が現在時刻以降)の番組名を抽出する」等の抽出条件を
格納しておくことも可能である。
【0137】<第7実施の形態>本実施の形態は、上記
第6実施の形態の利用例に関し、音声リモコンによって
情報家電機器を制御するシステムに関するものである。
この情報家電機器音声リモコン制御システムは、図20
に示すような構成を有している。音声リモコン101
は、マイク102,スピーカー103およびリモコン制
御部104で構成される。そして、マイク102に音声
が入力されると、リモコン制御部104によって、入力
音声が通信回線105を経由して音声認識装置106に
送出される。スピーカー103は、通信回線105を経
由して音声認識装置106から送出されてくる認識結果
等を音声で出力し、認識結果の確認等に用いられる。
尚、通信回線105には、例えば赤外線等を用いる。
【0138】音声認識装置106は、図17に示す音声
認識用辞書作成装置を搭載した音声認識装置の構成から
制御部96,テレビ表示部97,録画部98および再生部
99を削除した構成を有している。そして、通信回線1
05から音響分析部(図示せず)に入力された音声を認識
し、認識結果を通信回線107を経由して情報家電機器
108に送出する。その場合に、音声認識用辞書作成装
置のテレビ番組情報取り込み部(図示せず)に入力される
テレビ番組情報は、通信回線107を経由して情報家電
機器108から入力される。尚、通信回線107は、上
述のごとく音声認識装置106と情報家電機器108と
を繋ぐネットワークであり、有線や無線のLAN(ロー
カル・エリア・ネットワーク)等のネットワークである。
具体的には、音声認識装置106をパーソナルコンピュ
ータ、情報家電機器108をテレビと考えることができ
る。尚、本実施例においては、音声認識装置106と情
報家電機器108とを通信回線107で繋ぐ構成にして
いるが、音声認識装置106を情報家電機器108内に
組み込んでも一向に構わない。
【0139】上記情報家電機器108は、上記通信回線
107からの情報に基づいて各種制御を行う機器制御部
109と、映像や音楽等の当該機器の出力情報となるメ
イン情報を記憶するメイン情報メモリ110と、映像の
番組名や音楽のタイトル名等の上記メイン情報に関わる
サブ情報を記憶するサブ情報メモリ111と、ディスプ
レイやスピーカー等を有して上記メイン情報を出力する
メイン情報出力部112を搭載している。
【0140】通信回線113は、上記情報家電機器10
8と屋外の情報提供センター114とを繋ぐネットワー
クであり、電話回線やケーブルテレビ回線等のネットワ
ークおよびデジタル放送網である。情報提供センター1
14は、プロバイダーや放送局に相当するものであり、
情報家電機器108に対して通信回線113を介してメ
イン情報を提供する。この情報提供センター114は、
情報家電機器108に送出すべきメイン情報を記憶する
メイン情報メモリ115と、メイン情報に関わるサブ情
報を記憶するサブ情報メモリ116と、各メモリ11
5,116に対する各種情報の記憶や読み出しおよび読
み出し情報の通信回線113への送出等の制御を行う制
御部117を有している。
【0141】上記構成を有する情報家電機器音声リモコ
ン制御システムにおいては、音声リモコン(ワイヤレス
マイク)101に入力された音声によってメイン情報を
選択して、最寄の情報家電機器108で再生することが
できる。以下、家庭において音声リモコン101に向か
って、例えば「NHKニュース」と発声してテレビ画面に
「NHKニュース」を出力させる場合を例に、本情報家電
機器音声リモコン制御システムの動作を、具体的に説明
する。
【0142】上記情報提供センター114が提供するメ
イン情報としてのテレビ映像情報およびサブ情報として
のテレビ番組情報は、通信回線113を経由して情報家
電機器108に取り込まれ、機器制御部109によって
テレビ番組情報がサブ情報メモリ111に格納される。
そして、機器制御部109は、サブ情報メモリ111の
記憶内容(テレビ番組情報)を通信回線107を経由して
音声認識装置106に送出する。
【0143】上記音声認識装置106は、受け取ったテ
レビ番組情報を上記音声認識用辞書作成装置のテレビ番
組情報取り込み部に取り込んで、図17の説明で述べた
ようにして文字列情報の抽出と音声認識用辞書の作成を
行う。その結果、作成された音声認識用辞書には、図1
9に示すようなテレビ番組指定用の認識語彙が発声確率
とチャンネル情報,日付情報,時刻情報とが付与されて登
録される。
【0144】この状態で、上記音声リモコン101のマ
イク102に対して「NHKニュース」と発声されると、
入力された音声は通信回線105を経由して音声認識装
置106の音響分析部に取り込まれ、上述のようにし
て、ベクトル系列への変換,各音韻の尤度算出および上
記音声認識用辞書との照合が行われ、「NHKニュース」
という語彙として認識されると共に、認識語彙「NHK
ニュース」に付与されているチャンネル情報,日付情報お
よび時刻情報が得られる。そして、これらの情報をコマ
ンドとして通信回線107を経由して情報家電機器10
8に送信するのである。
【0145】そうすると、上記情報家電機器108の機
器制御部109は、受信したコマンドをサブ情報メモリ
111の内容と照合して解釈し、上記日付情報および時
刻情報による日付および時刻になると、上記チャンネル
情報によるNHK総合の映像情報がメイン情報出力部1
12に出力されるのである。尚、受信したコマンドが録
画コマンドである場合には、上記映像情報がメイン情報
メモリ110に格納される。また、受信したコマンドが
再生コマンドである場合には、メイン情報メモリ110
に格納された上記映像情報が読み出されて、メイン情報
出力部112に出力される。
【0146】このように、本実施の形態によれば、上記
音声認識装置106の音響分析部に対する音声入力を、
音声リモコン101から赤外線等の通信回線105を経
由して行うようにしている。したがって、情報家電機器
音声制御システムの操作性を多いに向上できるのであ
る。
【0147】尚、図20に示す情報家電機器音声リモコ
ン制御システムは、上記音声認識装置106は図17に
示す音声認識装置であって、サブ情報としてテレビ番組
情報が入力される場合を例に説明している。しかしなが
ら、この発明はこれに限定されるものではなく、音声認
識装置106を図14に示す音声認識装置とし、サブ情
報としてウエブページ情報を用いてもよい。あるいは、
音声認識装置106を図12に示す音声認識装置とし、
サブ情報として一般のコンテンツ情報を用いてもよい。
【0148】<第8実施の形態>上記各実施の形態によ
れば、テキスト解析の結果得られる単語の組合せが異な
る複数の連接単語で成る発声単位は、各発声単位間の音
響的な類似度には何ら考慮することなく、認識語彙とし
てそのまま音声認識用辞書に登録している。したがっ
て、ホームページのタイトルに「首相官邸のトップペー
ジ」と「司法省の主張」とがある場合に、発声「首相…」が
「主張…」と誤認識されて「司法省の主張」のホームページ
が表示されてしまう場合がある。本実施の形態は、この
ような場合に対処するものである。
【0149】図21は、図6に示す音声認識用辞書作成
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置121を構成するテキスト解析部1
23,読み付与部124,解析辞書メモリ125,発声確
率計算部127および語彙記憶部128、音声認識装置
122を構成する音響分析部129,尤度計算部130,
音響モデル格納部131および照合部132は、上記第
3の実施の形態におけるテキスト解析部23,読み付与
部24,解析辞書メモリ25,発声確率計算部27,語彙
記憶部28,音響分析部29,尤度計算部30,音響モデ
ル格納部31および照合部32と同じ構成を有してい
る。そして、語彙記憶部128には、図9に示すよう
に、発声確率が付与された認識語彙が格納されている。
【0150】類似度計算部133は、語彙作成部126
によって上記第3の実施の形態における語彙作成部26
と同様にして作成された任意の2つの発声単位の音響的
な類似度を計算する。その結果、例えば発声単位「首相
(しゅしょう)」と発声単位「主張(しゅちょう)」との方
が、発声単位「首相(しゅしょう)」と発声単位「官邸(かん
てい)」よりも音響的に類似していることが分る。尚、上
記類似度の計算には様々な方法があるが、例えば一致す
る音素が幾つ存在するかに基づいて計算することで実現
できる。
【0151】そして、語彙作成部126は、上記発声確
率計算部127で計算された各発声単位の発声確率値
を、類似計算部133による類似度の計算結果を用いて
変更するのである。
【0152】ここで、ホームページのタイトルに「首相
官邸のトップページ」と「司法省の主張」とがあるとす
る。テキスト解析部123から語彙作成部126までに
よる一連の処理によって、発声単位「首相(しゅしょ
う)」,「官邸(かんてい)」,「司法省(しほうしょう)」,「主張
(しゅちょう)」等が発声確率と共に求められる。その場
合、発声単位「首相」と発声単位「主張」との発声確率を比
べると、前者の方が高い値が付与されることは、上記第
2実施の形態で述べた通りである。しかしながら、発声
単位「主張」もそれなりの発声確率を有しているため、そ
のまま語彙記憶部128に登録して音声認識用辞書とす
ると、発声「首相」が「主張」と誤認識されて「司法省の主
張」のホームページが表示されてしまう恐れが多分にあ
る。
【0153】そこで、上記語彙作成部126は、類似度
計算部133による類似度に基づいて、音響的に類似し
た2つの発声単位を検索する。そして、一方の発声単位
がホームページタイトルにおいて中心的な役割を果た
し、他方の発声単位がそうでない場合には、中心的な発
声単位の発声確率を更に上げ、そうでない方の発声単位
の発声確率を更に下げるのである。その場合、該当発声
単位が中心的な役割を果たすか否かは、発声確率計算部
127で与えられた確率値の大小で判断することができ
る。尚、その際に、発声確率値を如何様に変更するか
は、特に規定するものではない。例えば、発声確率値の
値に応じて変更量を設定してもよいし、類似度に基づい
て変更量を設定してもよい。また、中心的にな役割を果
たしていない発声単位の発声確率値を「0」に変更するこ
とも可能である。
【0154】以上のように、本実施の形態においては、
語彙作成部126によって生成された任意の2つの発声
単位の類似度を類似度計算部133で計算し、音響的に
類似した2つの発声単位が存在する場合には、語彙作成
部126は、音響的に類似した2つの発声単位のうち中
心的な役割でない発声単位の確率を低くするようにして
いる。したがって、本実施の形態によれば、上記中心的
な役割を果たす発声単位を発声した際に、上記中心的な
役割を果たしていない発声単位に誤認識されることを防
止することができる。すなわち、本実施の形態によれ
ば、さらに認識性能の高い音声認識装置を構築すること
ができるのである。
【0155】<第9実施の形態>上記各実施の形態にお
いては、語彙記憶部6,17,28,48,68,88,12
8には、住所録やウエブページ情報やテレビ番組情報か
ら生成された発声単位が認識用の語彙として登録されて
いる。したがって、語彙記憶部6,17,28,48,6
8,88,128は、登録されている住所やホームページ
のタイトルや番組名が発声された場合には高い認識率を
示す。ところが、ユーザは、常に語彙記憶部6,17,2
8,48,68,88,128に登録されている住所やタイ
トル名や番組名を発声するとは限らない。したがって、
登録されていない住所やタイトル名や番組名が発声され
た場合の認識精度が、極端に低下するという問題が生ず
ることになる。本実施の形態は、このような場合に対処
するものである。
【0156】図22は、本実施の形態における音声認識
装置のブロック図である。音声認識装置141を構成す
る音響分析部142,尤度計算部143,音響モデル格納
部144および第1語彙記憶部146は、上記第3の実
施の形態における音声認識装置22を構成する音響分析
部29,尤度計算部30,音響モデル格納部31および語
彙記憶部28と同じ構成を有している。そして、第1語
彙記憶部146には、図16に示すように、発声確率が
付与されたホームページタイトル用の認識語彙が格納さ
れているものとする。
【0157】第2語彙記憶部147は、上述した各音声
認識用辞書作成装置によって特定のテキストに基づいて
作成されるのではなく、固定した一般的な語彙が登録さ
れた音声認識用辞書であり、第1語彙記憶部146と同
様に照合部145によって照合される。つまり、第2語
彙記憶部147は、第1語彙記憶部146は利用者が選
択した語彙だけを登録しているのに対して、固定された
一般的な語彙が登録されている点において異なるのであ
る。
【0158】上記照合部145は、第1語彙記憶部14
6および第2語彙記憶部147の語彙との照合を行い、
第1語彙記憶部146に登録されている語彙が認識語彙
であると判断した場合は、その語彙および当該語彙に付
与されているサブ情報(URL)を認識結果として出力す
る。一方、第2語彙記憶部147に登録されている語彙
が認識語彙であると判断した場合は、その語彙を認識結
果として検索部148に送出する。そうすると、検索部
148は、照合部145から受け取った認識結果に対応
する文字列情報を、第1語彙記憶部146に登録されて
いる語彙が住所録から生成された発声単位である場合に
は住所録から、ウエブページ情報から生成された発声単
位である場合にはウエブページ情報から、テレビ番組情
報から生成された発声単位である場合にはテレビ番組情
報から検索する。選択部149は、検索部148が受け
取った語彙(上記認識結果)と上記検索された文字列情報
との中から、利用者が第1語彙記憶部146に登録する
語彙情報と付与情報とを選択して第1語彙記憶部146
に登録するためのものである。
【0159】以下、上記第1語彙記憶部146に登録さ
れている語彙はウエブページ情報から生成された発声単
位である場合を例に、本実施の形態における音声認識装
置の動作について説明する。その場合、本音声認識装置
においては、第1語彙記憶部146に登録されている語
彙を発声することで、認識結果に応じたウエブページを
表示することができる。第1語彙記憶部146には、少
なくとも認識語彙/読み方のペアと当該認識語彙に関す
る文字列情報(URL)とが対応付けられて登録されてい
る。その場合、登録されている認識語彙は、上記第5実
施の形態で述べた方法によって作成されたものでもよい
し、利用者が自分で入力したものでもよい。何れして
も、利用者がよく見るウエブページに限定して、それに
関する認識語彙を登録したものが第1語彙記憶部146
である。
【0160】ところで、利用者が発声する語彙は常に第
1語彙記憶部146にあるものだけであるとは限らな
い。そこで第1語彙記憶部146には無い語彙を発声し
た場合でも認識結果が得られるように、第2語彙記憶部
147が設けられている。この第2語彙記憶部147に
は、利用者が登録した認識語彙だけではなく、一般に使
用される任意の語彙が記憶されている。第1語彙記憶部
146の登録内容が可変で一般にある範囲に限定された
少数であるのに対して、第2語彙記憶部147の登録内
容は固定で一般にある程度広い範囲にわたって大量であ
る。
【0161】上記照合部145は、認識時において第1
語彙記憶部146の登録内容と照合するか第2語彙記憶
部157の登録内容と照合するかを判断する。その方法
に付いては特に限定するものではなく、例えば、先ず第
1語彙記憶部146と照合を行い、認識尤度が十分高く
ない場合に第2語彙記憶部147との照合を行う方法で
もよいし、第1語彙記憶部146と第2語彙記憶部14
7との両方で照合を行い、認識尤度の高い認識候補を認
識結果とする方法でもよい。
【0162】ここで、上記第1語彙記憶部146に図1
6に示すような認識語彙/読み/発声確率/URLの組が
登録されている場合に、使用者が「佐藤」と発声したとす
る。その場合、第1記憶部146には読み「satou」は存
在しないので、発声「佐藤」は認識されない。その場合に
は、第2語彙記憶部147との照合で「佐藤」という語彙
が認識されることになる。こうして得られた認識結果
「佐藤」は、検索部148に送出される。そして、検索部
148によって、キーワード「佐藤」でウエブページの検
索が行われる。尚、このウエブページの検索は、インタ
ーネットで普及している検索エンジンを用いることで実
現できる。検索エンジンは、与えられたキーワードか
ら、それに関連するウエブページのURLを探し出すプ
ログラムである。一般に、探し出されるURLは複数個
あり、検索エンジンはそれらを利用者に提示する。そし
て、選択部149は、利用者によって、検索部148に
よる検索結果の中から所望の「佐藤さんのホームページ」
のURLが選択されると、認識語彙「佐藤/satou」と「佐
藤さんのホームページ」のURLとを関連付けて第1語
彙記憶部146に登録するのである。
【0163】こうして、上記第1語彙記憶部146に認
識語彙「佐藤/satou」と「佐藤さんのホームページ」のUR
Lとが登録されると、以降は検索や選択を行うことな
く、「佐藤」と発声すれば直ちに所望のウエブページ「佐
藤さんのホームページ」を見ることができるようになる
のである。また、第1語彙記憶部146に対する新たな
認識語彙の登録も、文字を入力したりすることなく、発
声と選択部149による選択だけで簡単に行うことがで
きるのである。
【0164】上記各実施の形態における音声認識用辞書
作成装置で作成された音声認識用辞書を用いる音声認識
装置は、携帯電話や電子手帳等の携帯端末器に搭載する
ことが有効である。すなわち、このような携帯端末器に
おいては、操作指示を行う場合にはキー操作よりも発声
による方が操作性がよい。ところが、出先等においては
操作指示を行うための文言を予め決められている通りに
正確に発声するのは困難であり、そのような場合に対処
するための音声認識用辞書を利用者が作成するのは更に
困難である。
【0165】上記各実施の形態における音声認識用辞書
作成装置によれば、一つの入力文字列から、総ての分割
候補,総ての読み候補,総ての連接単語の組み合わせを考
慮して、複数の発声単位でなる認識用語彙を自動的に生
成できるため、予め設定された文字列の部分文字列を発
声しても正しく認識できる音声認識用辞書を非常に簡単
に作成することができる。したがって、このような音声
認識用辞書を用いる音声認識装置を搭載することは、携
帯端末器用の音声合成装置として非常に有効なのであ
る。
【0166】ところで、上記各実施の形態における上記
テキスト解析部,読み付与部,語彙作成部,語彙記憶部,発
声確率計算部,取り込み部,文字列情報抽出部および類似
度計算部による上記解析手段,読み付与手段,語彙作成手
段,語彙記憶手段,発声確率算出手段,取り込み手段,文字
列情報抽出手段及び類似度算出手段としての機能は、プ
ログラム記録媒体に記録された辞書作成処理プログラム
によって実現される。上記実施の形態における上記プロ
グラム記録媒体は、ROM(リード・オンリ・メモリ)でな
るプログラムメディアである。あるいは、外部補助記憶
装置に装着されて読み出されるプログラムメディアであ
ってもよい。尚、何れの場合においても、上記プログラ
ムメディアから辞書作成処理プログラムを読み出すプロ
グラム読み出し手段は、上記プログラムメディアに直接
アクセスして読み出す構成を有していてもよいし、RA
M(ランダム・アクセス・メモリ)に設けられたプログラム
記憶エリア(図示せず)にダウンロードし、上記プログラ
ム記憶エリアにアクセスして読み出す構成を有していて
もよい。尚、上記プログラムメディアからRAMの上記
プログラム記憶エリアにダウンロードするためのダウン
ロードプログラムは、予め本体装置に格納されているも
のとする。
【0167】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0168】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有していれば、上記プログ
ラムメディアは、通信ネットワークからのダウンロード
等によって流動的にプログラムを坦持する媒体であって
も差し支えない。尚、その場合における上記通信ネット
ワークからダウンロードするためのダウンロードプログ
ラムは、予め本体装置に格納されているものとする。あ
るいは、別の記録媒体からインストールされるものとす
る。
【0169】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0170】
【発明の効果】以上より明らかなように、第1の発明の
音声認識用辞書作成装置は、一つの文字列情報から解析
手段によって得られた総ての分割候補および読み付与手
段によて得られた総ての読み候補に基づいて、語彙作成
手段によって、読みが付与された1つまたは複数の発声
単位を生成し、生成された発声単位を認識語彙として語
彙記憶手段によって登録するので、与えられた文字列情
報から、発声の可能性がある発声単位を認識語彙とする
音声認識用辞書を生成できる。したがって、利用者が、
予め設定された文字列中のどの部分文字列を発声しても
正しく認識するための音声認識用辞書を、低コストで作
成することができる。
【0171】また、上記第1の発明の音声認識用辞書作
成装置は、発声確率算出手段によって、解析尤度,読み
尤度,単語出現順序,モーラ数,単語出現頻度及びキーワ
ード辞書照合結果の少なくとも一つを用いて上記生成さ
れた各発声単位の発声確率を計算し、上記語彙作成手段
によって、上記各発声単位でなる認識語彙を、上記発声
確率を付与して上記語彙記憶手段に記憶させれば、上記
音声認識用辞書中に、上記解析手段による誤解析の結果
生成された認識語彙や実際には発声されない認識語彙が
登録されていても、このような不要な認識語彙の発声確
率を小さく設定して、高い認識精度を実現できる音声認
識用辞書を作成できる。
【0172】また、上記第1の発明の音声認識用辞書作
成装置は、文字列情報を含むコンテンツを取り込む取り
込み手段と、辞書作成に必要な文字列情報の抽出条件が
格納された抽出条件格納手段と、上記抽出条件を参照し
て上記コンテンツから文字列情報を抽出して上記解析手
段に送出する文字列情報抽出手段を備えれば、上記コン
テンツ情報から自動的に上記音声認識用辞書を作成する
ことができる。
【0173】また、上記第1の発明の音声認識用辞書作
成装置は、上記取り込み手段を、上記コンテンツとして
ウエブページの情報を取り込むように成せば、上記抽出
条件格納手段に、例えば、「<title>タグが存在する場
合は<title>と</title>とで囲まれた文字列を抽出
する」を格納しておくことによって、ウエブページのタ
イトル「<title>首相官邸のトップページ</title>」
から文字列「首相官邸のトップページ」を抽出して上記音
声認識用辞書を自動的に作成できる。
【0174】また、上記第1の発明の音声認識用辞書作
成装置は、上記取り込手段を、上記コンテンツとしてテ
レビ番組の情報を取り込むように成せば、上記抽出条件
格納手段に、例えば、「番組名というタグが付いている
文字列を抽出する」を格納しておくことによって、タグ
「番組名」に該当する文字列「NHKニュースおはよう日
本」を抽出して上記音声認識用辞書を自動的に作成でき
る。
【0175】また、上記第1の発明の音声認識用辞書作
成装置は、上記語彙作成手段で生成された各発声単位間
の音響的な類似度を計算する類似度算出手段を備え、上
記語彙作成手段によって、上記各認識語彙に付与する発
声確率を上記類似度に応じて変更するように成せば、発
声単位「首相(しゅしょう)」と発声単位「主張(しゅちょ
う)」とが音響的に類似している場合には、例えば、上記
発声確率の値が高くて入力文字列中において中心的な役
割を果している発声単位「首相」の発声確率の値を更に高
める一方、そうでない発声単位「主張」の発声確率の値を
更に低めることによって、中心的な役割を果す発声「首
相」が「主張」と誤認識されることを防止できる。
【0176】また、第2の発明の音声認識用辞書作成方
法は、入力された文字列情報を解析して構成単語に分割
し、総ての分割候補を出力するステップと、上記分割さ
れた各構成単語に読みを付与して総ての読み候補を出力
するステップと、上記総ての分割候補および読み候補に
基づいて、読みが付与された1つまたは複数の発声単位
を認識語彙として生成するステップと、上記生成された
各認識語彙を音声認識用辞書として記憶するステップを
備えたので、上記第1の発明の場合と同様に、与えられ
た文字列情報から、発声の可能性がある発声単位を認識
語彙とする音声認識用辞書を生成できる。したがって、
予め設定された文字列中のどの部分文字列を発声しても
正しく認識するための音声認識用辞書を作成することが
できる。
【0177】また、第3の発明の音声認識装置は、照合
用の辞書として、上記第1の発明の音声認識用辞書作成
装置によって作成された音声認識用辞書を用いるので、
与えられた文字列情報から生成された発声の可能性があ
る発声単位を認識語彙とする音声認識用辞書を用いるこ
とによって、予め設定された文字列の部分文字列を発声
しても正しく認識することができる。
【0178】また、上記第3の発明の音声認識装置は、
上記ウエブページの情報を取り込む音声認識用辞書作成
装置によって作成された音声認識用辞書を上記辞書とし
て用い、制御手段によって、認識結果に基づいてウエブ
ページ表示手段の表示内容を切換え制御して、上記認識
結果に応じたウエブページを表示するようにすれば、発
声内容に応じたウエブページを正しく表示することがで
きる。
【0179】また、上記第3の発明の音声認識装置は、
上記文字情報化されたテレビ番組の情報を取り込む音声
認識用辞書作成装置によって作成された音声認識用辞書
を上記辞書として用い、制御手段によって、認識結果に
基づいてテレビ表示手段,録画手段および再生手段を制
御するようにすれば、発声内容に応じて表示チャンネル
の切換え,録画条件の設定または録画番組の再生を正し
く行うことができる。
【0180】また、上記第3の発明の音声認識装置は、
上記第1の発明の音声認識用辞書作成装置によらずに作
成された補助辞書を備えて、照合手段によって上記辞書
および補助辞書との照合を行うようにすれば、上記辞書
に登録されていない語彙を発声した場合でも、その語彙
を正しく認識することができる。さらに、上記照合の結
果、認識結果として、上記補助辞書の認識語彙が選択さ
れた場合には、検索手段によって、上記音声認識用辞書
作成装置に入力された例えばウエブページのタイトルに
関連するウエブページ情報の中から当該認識結果に該当
する文字列を検索し、選択手段によって、上記検索され
た複数の文字列の中から上記辞書に登録する文字列を選
択すれば、その文字列を上記辞書に登録することによっ
て認識語彙を増やすことができ、認識速度を向上できる
のである。
【0181】また、第4の発明の音声認識装置は、上記
第1の発明の音声認識用辞書作成装置を搭載し、上記音
声認識用辞書作成装置によって作成された音声認識用辞
書を上記照合用の辞書として用いるので、上記搭載され
た音声認識用辞書作成装置に文字列情報を入力すること
によって、予め設定された文字列中のどの部分文字列を
発声しても正しく認識するための音声認識用辞書を自動
的に作成できる。したがって、高い認識精度を得ること
ができる。
【0182】また、第5の発明の携帯端末器は、上記第
3,第4の発明の音声認識装置を搭載したので、出先等
において、操作指示を行うための文言を予め決められて
いる通りに正確に発声しなくとも、例えばホームページ
の音声呼び出し等を正しく行うことができる。
【0183】また、第6の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における解析手
段,読み付与手段,語彙作成手段および語彙記憶手段とし
て機能させる辞書作成処理プログラムが記録されている
ので、上記第1の発明の場合と同様に、読みが付与され
た1つまたは複数の発声単位を生成し、認識語彙として
登録することができる。したがって、予め設定された文
字列中のどの部分文字列を発声しても正しく認識するた
めの音声認識用辞書を作成することができる。
【図面の簡単な説明】
【図1】 この発明の音声認識用辞書作成装置における
ブロック図である。
【図2】 図1に示す音声認識用辞書作成装置によって
実行される辞書作成処理動作のフローチャートである。
【図3】 図1におけるテキスト解析部の出力結果の一
例を示す図である。
【図4】 図4における読み付与部による読み付与結果
の一例をを示す図である。
【図5】 図1に示す語彙記憶部に作成される音声認識
用辞書の一例を示す図である。
【図6】 図1とは異なる音声認識用辞書作成装置にお
けるブロック図である。
【図7】 図6におけるテキスト解析部の出力結果の一
例を示す図である。
【図8】 図6における読み付与部の出力結果の一例を
示す図である。
【図9】 図6における語彙作成部の出力結果の一例を
示す図である。
【図10】 モーラ数iを変数とする関数m(i)の概念
を示す図である。
【図11】 図6に示す音声認識用辞書作成装置を搭載
した音声認識装置のブロック図である。
【図12】 音声認識用辞書作成装置を搭載した図11
とは異なる音声認識装置のブロック図である。
【図13】 図12における取り込み部および文字列情
報抽出部によって行われる文字列情報抽出処理動作のフ
ローチャートである。
【図14】 音声認識用辞書作成装置を搭載した図11
および図12とは異なる音声認識装置のブロック図であ
る。
【図15】 ウエブページ情報の一例を示す図である。
【図16】 図14における語彙記憶部に作成される音
声認識用辞書の一例を示す概念図である。
【図17】 音声認識用辞書作成装置を搭載した図1
1,図12および図14とは異なる音声認識装置のブロ
ック図である。
【図18】 テレビ番組情報の一例を示す図である。
【図19】 図17における語彙記憶部に作成される音
声認識用辞書の一例を示す概念図である。
【図20】 情報家電機器音声リモコン制御システムの
ブロック図である。
【図21】 音声認識用辞書作成装置を搭載した図1
1,図12,図14および図17とは異なる音声認識装置
のブロック図である。
【図22】 音声認識装置のブロック図である。
【符号の説明】
1,11…解析処理部、 2,12,23,43,63,83,123…テキスト解析
部、 3,13,24,44,64,84,124…読み付与部、 4,14,25,45,65,85,125…解析辞書メモ
リ、 5,15,26,46,66,86,126…語彙作成部、 6,17,28,48,68,88,128…語彙記憶部、 16,27,47,67,87,127…発声確率計算部、 21,41,61,81,121…音声認識用辞書作成装
置、 22,42,62,82,106,122,141…音声認識
装置、 29,49,69,89,129,142…音響分析部 30,50,70,90,130,143…尤度計算部、 31,51,71,91,131,144…音響モデル格納
部、 32,52,72,92,132,145…照合部、 53…取り込み部、 54,74,94…文字列情報抽出部、 55,75,95…抽出条件格納部、 73…ウエブページ情報取り込み部、 76,96,117…制御部、 77…ウエブページ表示部、 93…テレビ番組情報取り込み部、 97…テレビ表示部、 98…録画部、 99…再生部、 101…音声リモコン、 102…マイク、 103…スピーカー、 104…リモコン制御部、 105,107,113…通信回線、 108…情報家電機器、 109…機器制御部、 110,115…メイン情報メモリ、 111,116…サブ情報メモリ、 112…メイン情報出力部、 114…情報提供センター、 133…類似度計算部、 146…第1語彙記憶部、 147…第2語彙記憶部、 148…検索部、 149…選択部。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力された文字列情報を解析して構成単
    語に分割し、総ての分割候補を出力する解析手段と、 上記分割された各構成単語に読みを付与し、総ての読み
    候補を出力する読み付与手段と、 上記解析手段によって得られた総ての分割候補および上
    記読み付与手段によって得られた総ての読み候補に基づ
    いて、読みが付与された1つの単語または連接単語で成
    る1つの発声単位または単語の組み合わせが異なる複数
    の発声単位を認識語彙として生成する語彙作成手段と、 上記生成された各認識語彙を音声認識用辞書として記憶
    する語彙記憶手段を備えたことを特徴とする音声認識用
    辞書作成装置。
  2. 【請求項2】 請求項1に記載の音声認識用辞書作成装
    置において、 上記解析手段は、上記分割された構成単語の列でなる各
    解析候補に、上記入力文字列の解析結果としての確から
    しさを表す解析尤度を付与するようになっており、 上記読み付与手段は、上記各解析候補を構成する単語に
    付与されている読みの列に、上記入力文字列の読みとし
    ての確からしさを表す読み尤度を付与するようになって
    おり、 上記語彙作成手段によって生成された各発声単位が存在
    する解析候補の上記解析尤度、上記各発声単位が存在す
    る解析候補の上記読み尤度、上記各発声単位を構成する
    先頭単語の上記入力文字列中における出現順序を表す単
    語出現順序、上記各発声単位のモーラ数、上記各発声単
    位を構成する単語のうちで入力される総ての文字列情報
    中に最も少なく出現する単語の出現頻度を表す単語出現
    頻度、キーワード辞書照合結果の少なくとも一つを用い
    て、上記生成された各発声単位の発声確率を計算する発
    声確率算出手段を備えて、 上記語彙作成手段は、上記各発声単位でなる認識語彙
    を、上記算出された発声確率を付与して上記語彙記憶手
    段に記憶させるようになっていることを特徴とする音声
    認識用辞書作成装置。
  3. 【請求項3】 請求項1あるいは請求項2に記載の音声
    認識用辞書作成装置において、 文字列情報を含むコンテンツを取り込む取り込み手段
    と、 辞書作成に必要な文字列情報を抽出するための抽出条件
    が格納された抽出条件格納手段と、 上記抽出条件を参照して、上記取り込まれたコンテンツ
    における文字列情報の中から辞書作成に必要な文字列情
    報を抽出して上記解析手段に送出する文字列情報抽出手
    段を備えたことを特徴とする音声認識用辞書作成装置。
  4. 【請求項4】 請求項3に記載の音声認識用辞書作成装
    置において、 上記取り込み手段は、上記コンテンツとして、ウエブ・
    ブラウザによって表示されているウエブページの情報を
    取り込むようになっていることを特徴とする音声認識用
    辞書作成装置。
  5. 【請求項5】 請求項3に記載の音声認識用辞書作成装
    置において、 上記取り込手段は、上記コンテンツとして、文字情報化
    されたテレビ番組の情報を取り込むようになっているこ
    とを特徴とする音声認識用辞書作成装置。
  6. 【請求項6】 請求項2に記載の音声認識用辞書作成装
    置において、 上記語彙作成手段によって生成された各発声単位間の音
    響的な類似度を計算する類似度算出手段を備えて、 上記語彙作成手段は、上記各認識語彙に付与する発声確
    率を、上記算出された類似度に応じて変更するようにな
    っていることを特徴とする音声認識用辞書作成装置。
  7. 【請求項7】 入力された文字列情報を解析して構成単
    語に分割し、総ての分割候補を出力するステップと、 上記分割された各構成単語に読みを付与し、総ての読み
    候補を出力するステップと、 上記単語分割の結果得られた総ての分割候補および上記
    読み付与の結果得られた総ての読み候補に基づいて、読
    みが付与された1つの単語または連接単語で成る1つの
    発声単位または単語の組み合わせが異なる複数の発声単
    位を認識語彙として生成するステップと、 上記生成された各認識語彙を音声認識用辞書として記憶
    するステップを備えたことを特徴とする音声認識用辞書
    作成方法。
  8. 【請求項8】 入力された音声を、辞書に登録されてい
    る認識語彙との照合を行って認識する音声認識装置であ
    って、 上記辞書として、請求項1乃至請求項6の何れか一つに
    記載の音声認識用辞書作成装置によって作成された音声
    認識用辞書を用いることを特徴とする音声認識装置。
  9. 【請求項9】 請求項8に記載された音声認識装置であ
    って、 上記辞書は、請求項4に記載の音声認識用辞書作成装置
    によって作成された音声認識用辞書であり、 認識結果に応じたウエブページを表示するウエブページ
    表示手段と、 上記認識結果に基づいて、上記ウエブページ表示手段の
    表示内容を切換え制御する制御手段を備えたことを特徴
    とする音声認識装置。
  10. 【請求項10】 請求項8に記載された音声認識装置で
    あって、 上記辞書は、請求項5に記載の音声認識用辞書作成装置
    によって作成された音声認識用辞書であり、 認識結果に応じたテレビ番組を表示するテレビ表示手段
    と、 認識結果に応じたテレビ番組を録画する録画手段と、 上記録画手段によって録画されたテレビ番組を再生する
    再生手段と、 上記認識結果に基づいて、上記テレビ表示手段,録画手
    段および再生手段を制御して、表示チャンネルの切換
    え,録画条件の設定あるいは録画番組の再生を行う制御
    手段を備えたことを特徴とする音声認識装置。
  11. 【請求項11】 請求項8に記載された音声認識装置に
    おいて、 特定の文字列情報の解析結果によらずに得られた認識語
    彙が登録された補助辞書と、 上記辞書および補助辞書との照合を行う照合手段と、 上記照合手段によって、上記認識結果として上記補助辞
    書に登録された認識語彙が選択された場合、上記辞書を
    作成する際に上記音声認識用辞書作成装置に入力された
    文字列情報に関連する文字情報の中から当該認識結果に
    該当する文字列を検索する検索手段と、 上記検索された複数の文字列の中から、上記辞書に登録
    する文字列を選択する選択手段を備えたことを特徴とす
    る音声認識装置。
  12. 【請求項12】 入力された音声を、辞書に登録されて
    いる認識語彙との照合を行って認識する音声認識装置で
    あって、 請求項1乃至請求項6のいずれか一つに記載の音声認識
    用辞書作成装置を搭載し、 上記音声認識用辞書作成装置によって作成された音声認
    識用辞書を、上記辞書として用いることを特徴とする音
    声認識装置。
  13. 【請求項13】 請求項8乃至請求項12の何れか一つ
    に記載された音声認識装置を搭載したことを特徴とする
    携帯端末器。
  14. 【請求項14】 コンピュータを、 請求項1における解析手段,読み付与手段,語彙作成手段
    および語彙記憶手段として機能させる辞書作成処理プロ
    グラムが記録されたことを特徴とするコンピュータ読出
    し可能なプログラム記録媒体。
JP2000228916A 2000-07-28 2000-07-28 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 Expired - Fee Related JP3639776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000228916A JP3639776B2 (ja) 2000-07-28 2000-07-28 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000228916A JP3639776B2 (ja) 2000-07-28 2000-07-28 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Publications (3)

Publication Number Publication Date
JP2002041081A true JP2002041081A (ja) 2002-02-08
JP2002041081A5 JP2002041081A5 (ja) 2004-08-12
JP3639776B2 JP3639776B2 (ja) 2005-04-20

Family

ID=18722123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000228916A Expired - Fee Related JP3639776B2 (ja) 2000-07-28 2000-07-28 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3639776B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
WO2006049249A1 (ja) * 2004-11-08 2006-05-11 Matsushita Electric Industrial Co., Ltd. ディジタル映像再生装置
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
JP2007225952A (ja) * 2006-02-24 2007-09-06 Casio Comput Co Ltd 画像処理装置および画像処理のプログラム
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法
JP2009217006A (ja) * 2008-03-11 2009-09-24 Nippon Hoso Kyokai <Nhk> 辞書修正装置、システム、およびコンピュータプログラム
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2010072578A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 対話文生成装置及び方法
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
US9082404B2 (en) 2011-10-12 2015-07-14 Fujitsu Limited Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
CN112243524A (zh) * 2019-03-20 2021-01-19 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195793A (ja) * 1997-09-17 1999-04-09 Toshiba Corp 音声入力解釈装置及び音声入力解釈方法
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法
JPH11282491A (ja) * 1998-03-30 1999-10-15 Denso Corp 音声認識装置及びナビゲーションシステム
JP2000207394A (ja) * 1999-01-14 2000-07-28 Ai Soft Kk 未知語読み導出装置および未知語読み導出方法並びに記録媒体
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195793A (ja) * 1997-09-17 1999-04-09 Toshiba Corp 音声入力解釈装置及び音声入力解釈方法
JPH11250063A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 検索装置及び検索方法
JPH11282491A (ja) * 1998-03-30 1999-10-15 Denso Corp 音声認識装置及びナビゲーションシステム
JP2000207394A (ja) * 1999-01-14 2000-07-28 Ai Soft Kk 未知語読み導出装置および未知語読み導出方法並びに記録媒体
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4581290B2 (ja) * 2001-05-16 2010-11-17 パナソニック株式会社 音声認識装置および音声認識方法
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
WO2006049249A1 (ja) * 2004-11-08 2006-05-11 Matsushita Electric Industrial Co., Ltd. ディジタル映像再生装置
US7953602B2 (en) 2004-11-08 2011-05-31 Panasonic Corporation Digital video reproducing apparatus for recognizing and reproducing a digital video content
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
JP2007225952A (ja) * 2006-02-24 2007-09-06 Casio Comput Co Ltd 画像処理装置および画像処理のプログラム
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法
JP2009217006A (ja) * 2008-03-11 2009-09-24 Nippon Hoso Kyokai <Nhk> 辞書修正装置、システム、およびコンピュータプログラム
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2010072578A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 対話文生成装置及び方法
US8856010B2 (en) 2008-09-22 2014-10-07 Kabushiki Kaisha Toshiba Apparatus and method for dialogue generation in response to received text
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
US9082404B2 (en) 2011-10-12 2015-07-14 Fujitsu Limited Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
CN112243524A (zh) * 2019-03-20 2021-01-19 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法
CN112243524B (zh) * 2019-03-20 2023-08-04 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法

Also Published As

Publication number Publication date
JP3639776B2 (ja) 2005-04-20

Similar Documents

Publication Publication Date Title
JP3724649B2 (ja) 音声認識用辞書作成装置および音声認識装置
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
JP3639776B2 (ja) 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
US8620658B2 (en) Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
EP2259252B1 (en) Speech recognition method for selecting a combination of list elements via a speech input
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
JP3716870B2 (ja) 音声認識装置および音声認識方法
Reddy et al. A model and a system for machine recognition of speech
US8380505B2 (en) System for recognizing speech for searching a database
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP3955880B2 (ja) 音声認識装置
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JPH0916602A (ja) 翻訳装置および翻訳方法
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
Bai et al. Syllable-based Chinese text/spoken document retrieval using text/speech queries
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP2010175708A (ja) 音声認識検索システム及び音声認識検索方法
JP3758241B2 (ja) 音声情報検索装置
JP2002099294A (ja) 情報処理装置
JP2003186495A (ja) 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP2002041277A (ja) 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体
Schulz et al. A spoken language front-end for a multilingual music data base

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100121

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110121

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees