JP2002297177A - 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 - Google Patents
音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体Info
- Publication number
- JP2002297177A JP2002297177A JP2001096169A JP2001096169A JP2002297177A JP 2002297177 A JP2002297177 A JP 2002297177A JP 2001096169 A JP2001096169 A JP 2001096169A JP 2001096169 A JP2001096169 A JP 2001096169A JP 2002297177 A JP2002297177 A JP 2002297177A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- character string
- link
- dictionary
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
を作成する。 【解決手段】 テキスト解析部2は、ハイパーテキスト
文書に対して形態素解析処理を行い入力文字列から単語
を分割し、各単語がリンク情報であるか否かを判別す
る。リンク先文字列抽出部7は、リンク情報に基づいて
リンク先の文字列を抽出してテキスト解析部2に返す。
その結果、読み付与部3および語彙作成部5は、リンク
先のファイルの文字列に対しても読み付与および音声認
識用辞書作成を行うことになる。すなわち、ハイパーテ
キスト文書による一つのファイルを指定するだけで、そ
のファイル上の文字列は元より、当該ファイルから張ら
れているリンク先のファイルの文字列をも音声認識用辞
書作成の対象とする。したがって、関連する語彙を一度
に沢山音声認識用辞書に登録することができる。
Description
いられる辞書を作成する音声認識用辞書作成装置および
音声認識用辞書作成方法、作成された辞書を用いた音声
認識装置、この音声認識装置を搭載した携帯端末器、並
びに、辞書作成処理プログラムを記録したプログラム記
録媒体に関する。
(World Wide Web)ブラウザを用いてHTML(ハイパ
ーテキスト・マークアップ言語)のようなハイパーテキス
トを表示する技術が進展してきている。一方、音声認識
技術が、統計処理技術の確立や、演算速度の高速化およ
び記憶装置の低価格化等のハードウェアの進展によっ
て、実用的なレベルになりつつある。このような状況の
下で、ハイパーテキストと音声認識とを融合した技術が
出現してきている。
作成する技術として、特開2000‐215023号公
報に開示された「ページ記述言語表示装置」がある。この
公報によれば、音声認識処理手段による音声認識結果に
基づいて、HTML等で記述された文字列の中からリン
ク文字列とリンク先情報とで成るリンク情報を取得す
る。そして、リンク文字列解析手段によって、上記リン
ク文字列を解析して発音情報を生成し、上記リンク文字
列と発音情報とリンク先情報とを対応付けて記憶手段に
記憶する。こうして、音声認識辞書を生成するようにし
ている。
やページ記述言語データの切り換えを音声操作によって
行うことができ、利用者がWWWブラウザによって表示
されているリンク文字列を発声すれば、音声認識の結果
得られたリンク文字列に対応するリンク情報を表示する
ことができるのである。
開2000‐215023号公報に開示された「ページ
記述言語表示装置」には、以下のような問題がある。す
なわち、辞書作成の対象が、HTML等で記述された文
字列の中に出現するリンク文字列そのものに限定されて
しまい、リンク先にある文字列や、そのリンク先から更
に辿ることができるリンク先にある文字列は辞書作成の
対象とはならない。したがって、WWWブラウザによっ
て表示されている文字列は音声認識語彙に成り得るが、
WWWブラウザによって表示されていないリンク先にあ
る文字列は音声認識語彙にならないことになる。そのた
めに、上記「ページ記述言語表示装置」では、小規模な音
声認識用辞書しか作成することができない。
て、リンク文字列をクリックする代りにリンク文字列を
発声してリンク先を表示するという用途に対してはこれ
で十分であるが、リンク先に書かれている内容を発声し
てリンク先の情報を直接呼び出すという用途には使用で
きないという問題がある。
MLで記述されたハイパーテキストを例に説明する。こ
の例においては、都道府県‐市‐区町村の階層構造をH
TMLで記述している。WWWブラウザによって最初の
ファイル131が表示されている際に文字列「大阪府」を
選択すると、ファイル132に表示内容が切り換る。さ
らに、ファイル132から「大阪市」を選択すると、ファ
イル133に表示内容が切り換る。
3号公報に開示された「ページ記述言語表示装置」によれ
ば、ファイル131が表示されている場合に、「大阪
府」,「奈良県」等のファイル131中のリンク文字列が
音声認識語彙になっているので、「大阪府」や「奈良県」と
発声することによって、表示内容をファイル132やフ
ァイル134に切り換えることができる。
ブラウザによって表示されている文字列しか認識できな
いため、ファイル131の内容が表示されている場合に
「大阪市」や「阿倍野区」と発声しても認識することができ
ず、ファイル133に表示内容を切り換えることはでき
ないのである。
ストにおける文字列からリンク先を2つ先以上辿って音
声認識用辞書を作成できる音声認識用辞書作成装置およ
び音声認識用辞書作成方法、作成された辞書を用いた音
声認識装置、この音声認識装置を搭載した携帯端末器、
並びに、辞書作成処理プログラムを記録したプログラム
記録媒体を提供することにある。
め、第1の発明は、テキスト解析手段によって文字列情
報を解析して構成単語に分割し,この分割された各構成
単語に読み付与手段によって読みを付与し,上記解析手
段および読み付与手段による処理結果に基づいて語彙作
成手段によって音声認識語彙を生成し,この生成された
音声認識語彙を音声認識用辞書として語彙記憶手段に記
憶する音声認識用辞書作成装置において、上記テキスト
解析手段による解析の結果リンク情報であると判定され
た構成単語におけるリンク先の文字列を抽出し,上記テ
キスト解析手段に送出するリンク先文字列抽出手段を備
えたことを特徴としている。
におけるファイル中の文字列情報がテキスト解析手段に
よって解析されて構成単語に分割される。その際に、リ
ンク情報であると判定された構成単語のリンク先の文字
列が、リンク先文字列抽出手段によって抽出されて上記
テキスト解析手段に送出される。そして、上記抽出され
たリンク先文字列が解析されて構成単語に分割される。
さらに、読み付与手段によって読みが付与され、上記構
成単語と読みとに基づいて語彙作成手段によって音声認
識語彙が生成されて音声認識用辞書として語彙記憶手段
に記憶される。こうして、上記ハイパーテキスト文書に
おける表層ファイルの単語みならず、表層ファイルの単
語にリンクされたリンク先ファイル中の単語にも基づい
て音声認識用辞書が作成されるのである。
声認識用辞書作成装置において、上記リンク先文字列抽
出手段が上記リンク情報に基づいて辿ったリンクのリン
ク元情報を管理して、上記リンク先文字列抽出手段が次
に辿るリンク先を制御するリンク制御手段を備えたこと
を特徴としている。
抽出手段が辿ったリンクのリンク元情報がリンク制御手
段によって管理されている。したがって、リンク先ファ
イルの文字列に対する上記テキスト解析手段,読み付与
手段,語彙作成手段および語彙記憶手段による処理が終
了すると、リンク制御手段による制御の下に、上記テキ
スト解析手段による抽出処理が、リンク元ファイルの未
処理文字列に戻される。こうして、上記ハイパーテキス
ト文書における総てのファイル中の総ての文字列に基づ
いて音声認識用辞書が作成される。
声認識用辞書作成装置において、上記リンク先文字列抽
出手段が辿るリンク先文字列の階層数の上限値を記憶す
るリンク上限記憶部を備えて、上記リンク制御手段は、
上記上限値を越えないように上記リンク先文字列抽出手
段が辿るリンク先を制御することを特徴としている。
抽出手段がリンク先を辿ろうとすると、上記リンク制御
手段によってリンク上限記憶部に記憶されたリンク先文
字列の階層数の上限値が参照される。そして、上記リン
ク先文字列抽出手段が辿るリンク先文字列の階層数が、
上記上限値を越えないように制御される。こうして、次
々とリンク先を辿って処理が終了しなくなったり、不必
要なリンクまで辿ることが防止される。さらに、ある階
層レベルまでのリンク先ファイルを対象とした音声認識
用辞書を作成することが可能になる。
識用辞書作成装置において、リンク先のファイルの記憶
場所がリンク元のファイルの記憶場所と同一か否かを判
定するファイル記憶場所判定手段を備えて、上記リンク
制御手段は、上記ファイル記憶場所判定手段による判定
結果に基づいて、リンク先ファイルの記憶場所とリンク
元ファイルの記憶場所とが異ならないように上記リンク
先文字列抽出手段が辿るリンク先を制御することを特徴
としている。
抽出手段がリンク先を辿ろうとすると、上記リンク制御
手段によってファイル記憶場所判定手段による判定結果
が参照される。そして、リンク先ファイルの記憶場所が
リンク元ファイルの記憶場所と異ならないように、上記
リンク先文字列抽出手段が辿るリンク先ファイルが制御
される。こうして、次々とリンク先を辿って処理が終了
しなくなったり、不必要なリンクまで辿ることが防止さ
れる。さらに、ある階層レベルまでのリンク先ファイル
を対象とした音声認識用辞書を作成することが可能にな
る。
辞書に登録されている認識語彙との照合を行って認識す
る音声認識装置であって、上記辞書として、上記第1の
発明の音声認識用辞書作成装置によって作成された音声
認識用辞書を搭載していることを特徴としている。
用辞書を作成した際に用いたハイパーテキスト文書の表
層ファイルに記述された単語の発声は元より、上記表層
ファイルの単語にリンクされたリンク先ファイルに記述
された単語が発声されても、高い認識率で認識される。
声認識装置において、識別子が含まれた上記文字列情報
から生成された音声認識語彙と上記識別子とを対応付け
て記憶する識別子記憶手段と、音声認識の結果得られた
語彙に基づいて上記識別子記憶手段を参照し,上記語彙
と同一の音声認識語彙に対応付けられた識別子を出力す
る識別子出力手段を備えたことを特徴としている。
書のリンク先ファイルに記述された単語が発声されると
高い認識率で認識され、認識語彙が識別子出力手段に送
出される。そして、識別子出力手段によって識別子記憶
手段が参照され、上記語彙と同一の音声認識語彙に対応
付けられた識別子が出力される。こうして、音声認識結
果として、認識語彙に代ってこの認識語彙対応付けられ
ている識別子が出力される。
声認識装置において、識別子に対応した機器の操作手順
を記憶する操作手順記憶手段と、上記識別子出力手段か
らの識別子に基づいて上記操作手順記憶手段を参照し,
当該識別子に対応した機器の操作手順に従って上記機器
の操作を実行する操作手順実行手段を備えたことを特徴
としている。
書のリンク先ファイルに記述された単語が発声されると
高い認識率で認識され、認識語彙に対応する識別子が出
力される。そうすると、操作手順実行手段によって操作
手順記憶手段が参照されて、当該識別子に対応した機器
の操作手順に従って機器の操作が実行される。こうし
て、ハイパーテキスト文書の下層ファイルに記述された
単語の発声によって、上記機器の操作が簡単に指示可能
となる。
声認識装置において、上記操作手順実行手段による操作
実行の対象となる機器はテレビジョン装置であり、上記
識別子はテレビ番組のインデックスであり、上記識別子
に対応した機器の操作手順は,上記インデックスに対応
するテレビ番組の上記テレビジョン装置による表示手順
であることを特徴としている。
書のリンク先ファイルに記述された単語が発声されると
高い認識率で認識され、認識語彙に対応するテレビ番組
のインデックスが出力される。そうすると、操作手順実
行手段によって、当該インデックスに対応したテレビジ
ョン装置の操作手順に従って、当該インデックスに対応
するテレビ番組が自動的に表示される。
声認識装置において、上記操作手順実行手段による操作
実行の対象となる機器はビデオ装置であり、上記識別子
はテレビ番組のインデックスであり、上記識別子に対応
した機器の操作手順は,上記インデックスに対応するテ
レビ番組の上記ビデオ装置への録画予約手順であること
を特徴としている。
書のリンク先ファイルに記述された単語が発声されると
高い認識率で認識され、認識語彙に対応するテレビ番組
のインデックスが出力される。そうすると、操作手順実
行手段によって、当該インデックスに対応したビデオ装
置の操作手順に従って、当該インデックスに対応するテ
レビ番組の録画予約が自動的に行われる。
1の発明の音声認識用辞書作成装置と、上記音声認識用
辞書作成装置で作成された音声認識用辞書を用いる音声
認識装置を搭載したことを特徴としている。
成装置によって、ハイパーテキスト文書を用いて音声認
識用辞書が作成されると、本形態端末器に向って発声さ
れた上記ハイパーテキスト文書のリンク先ファイルに記
述された単語が高い認識率で認識される。
2の発明の音声認識装置を搭載したことを特徴としてい
る。
発声されたハイパーテキスト文書のリンク先ファイルに
記述された単語が、上記音声認識用辞書作成装置によっ
て上記ハイパーテキスト文書を用いて作成された音声認
識用辞書が用いられて、高い認識率で認識される。
て構成単語に分割し,上記分割された各構成単語に読み
を付与し,上記解析処理および読み付与処理の結果に基
づいて音声認識語彙を生成し,この生成された音声認識
語彙を音声認識用辞書として記憶する音声認識用辞書作
成方法において、上記解析処理の結果リンク情報である
と判定された構成単語におけるリンク先の文字列を抽出
し、上記抽出されたリンク先の文字列情報に対しても上
記解析,単語分割,読み付与,音声認識語彙生成および音
声認識語彙記憶を行うことを特徴としている。
と同様に、ハイパーテキスト文書におけるファイルに記
述された文字列情報が解析された際に、リンク情報であ
ると判定されると、その構成単語のリンク先の文字列が
抽出される。そして、抽出された上記リンク先文字列が
解析されて構成単語に分割され、読みが付与され、上記
構成単語と読みとに基づいて音声認識語彙が生成され、
音声認識用辞書として記憶される。こうして、上記ハイ
パーテキスト文書における表層ファイルの単語みなら
ず、表層ファイルの単語にリンクされたリンク先ファイ
ル中の単語にも基づいて音声認識用辞書が作成されるの
である。
は、コンピュータを、上記第1の発明におけるテキスト
解析手段,読み付与手段,語彙作成手段およびリンク先文
字列抽出手段として機能させる辞書作成処理プログラム
が記録されていることを特徴としている。
と同様に、ハイパーテキスト文書におけるファイルに記
述された文字列情報が解析された際に、リンク情報であ
ると判定されると、その構成単語のリンク先の文字列が
抽出される。こうして、上記ハイパーテキスト文書にお
ける表層ファイルの単語みならず、表層ファイルの単語
にリンクされたリンク先ファイル中の単語にも基づいて
音声認識用辞書が作成されるのである。
態により詳細に説明する。
の音声認識用辞書作成装置におけるブロック図である。
解析処理部1に文字列情報が入力されると、テキスト解
析部2によって入力文字列の言語が解析されて形態素に
分割される。その際に、複数の分割候補がある場合に
は、夫々の分割候補にはその分割候補の可能性の度合い
を表す尤度が付与されて総ての分割候補が出力される。
よって分割された形態素に読み方を付与する。複数の読
み方が存在する場合には、夫々の読み方にはその読み方
の可能性の度合いを表す尤度が付与されて総ての読み方
が出力される。解析辞書メモリ4には、テキスト解析部
2がテキスト解析を行う際に必要な単語表記,読み,品詞
等の言語データが格納されている。
よるテキスト解析結果と読み付与部3による読み付与結
果を元に、音声認識を行うために必要な音声認識用辞書
を作成する。語彙記憶部6は、語彙作成部5によって作
成された音声認識用辞書を記憶する。そして、この音声
認識用辞書は音声認識時に使用される。
に存在するリンク情報で指定されているリンク先の文字
列を抽出し、抽出結果をテキスト解析部2に送出するよ
うになっている。したがって、テキスト解析部2では、
上記入力文字列中に存在するリンク情報で指定されたリ
ンク先の文字列をもテキスト解析の対象とするのであ
る。
記述言語を例に、リンク先文字抽出部7の機能について
説明する。上記リンク情報とは、図2に例示するような
記述をさし、リンク先8とリンク文字列9とで構成され
ている。リンク先8には、URL(ユニフォーム・リソー
ス・ロケーション)に代表されるアドレス情報が記載され
ている。このアドレスにあるファイルに、リンク先文字
抽出部7が抽出する文字列が含まれているのである。図
2においては、10,11がリンク先のファイルであ
る。また、リンク文字列9は上記WWWブラウザによっ
て表示されている文字列である。
示し、リンク文字列9をクリックすることによって、リ
ンク先に記述されているHTML文書を表示することが
できるのであるが、本実施の形態においては、上記WW
Wブラウザとは無関係に、リンクで関連づけられたハイ
パーテキスト文書(例えばHTML文書)から音声認識用
辞書を作成するのである。尚、リンク先文字列抽出部7
によって行われるリンク情報で指定されているURLの
情報を取得する方法については、上記WWWブラウザが
取得する方法と同じであるため、ここでは述べない。
成装置による音声認識用辞書作成処理動作について、図
3のフローチャートに従って説明する。ハイパーテキス
ト文書の最初のファイルに記述されている文字列情報が
テキスト解析部2およびリンク先文字列抽出部7に取り
込まれる。そうすると、ステップS1で、テキスト解析
部2によって、入力された文字列情報に対して形態素解
析処理が行われ、予め解析辞書メモリ4に格納されてい
る単語辞書との照合によって単語単位に分割される。
尚、上記単語辞書には、単語表記,読み,品詞等の情報が
記憶されている。ステップS2で、上記分割された単語
がリンク情報を表す単語であるか否かが判別される。こ
のリンク情報であるか否かは、例えばHTMLであれば
「<」,「A」,「HREF」,「>」という文字列で構成される
か否かで判定できる。尚、図15に示すファイル131
の場合には、「<A HREF="oosakafu,htm">」の部分がリ
ンク情報と判定されることになる。その結果、上記リン
ク情報を表す単語であればステップS3に進み、そうで
なければステップS5に進む。
列抽出部7によって、上記リンク情報に基づいてリンク
先の文字列が抽出される。図15に示すファイル131
の場合には、「oosakafu.htm」がリンク先を示しているた
め、このリンク先のファイルの文字列「大阪市」(ファイ
ル132参照)が抽出されるのである。こうして抽出さ
れた文字列は、テキスト解析部2に送出される。ステッ
プS4で、テキスト解析部2によって、上記リンク先の
ファイルから抽出された文字列に関して、ステップS1
と同様にして形態素解析処理が行われて単語単位に分割
される。
て、上記テキスト解析部2によって分割された単語の夫
々に読みが付与される。尚、上記読みは、上記単語辞書
に登録されている読みが用いられる。その際に、読み方
の可能性が複数ある場合には複数付与される。図15に
示すファイル131の場合には、リンク情報ではない
「都道府県」,「リスト」等の単語に「とどうふけん」,「りす
と」の読みが付与される。さらに、本実施の形態におい
ては、上記リンク先の文字列で成る単語「大阪市」,「堺
市」等にも「おおさかし」,「さかいし」の読みが付与される
のである。
によって、上記読み付与部3によって付与された読みに
基づいて音声認識用辞書が作成される。すなわち、「都
道府県」の読み情報「とどうふけん」に基づいて、「t o d
o o f u k e ng」と言う音声認識処理時に認識可能な音
素表記が生成されるのである。さらに、本実施の形態に
おいては、上記リンク情報に基づくリンク先の単語「大
阪市」,「堺市」の読み「おおさかし」,「さかいし」に基づい
て、音素表記「o o s a k a sh i」,「s a k a i shi」が生
成されるのである。
によって、上記形態素解析処理の結果得られた単語表記
「都道府県」と上記ステップS6において生成された音素
表記「t o d o o f u k e ng」との対「都道府県:t o d
o o f u k e ng」が、語彙記憶部6に記憶された音声認
識用辞書に追加登録される。さらに、本実施の形態にお
いては、上記リンク先の単語についても「大阪市:o o s
a k a sh i」,「堺市:s a k a i sh i」のごとく追加登
録される。尚、語彙記憶部6としては、フラッシュメモ
リやハードディスク等の一般的に広く使用されている記
憶装置が用いられる。ステップS8で、テキスト解析部
2に対する入力文字列が終りか否かが判別される。その
結果、終りでなければ上記ステップS1に戻って次の文
字列の解析に移行し、終りであれば音声認識用辞書作成
処理動作を終了する。
声認識用辞書作成装置は、リンク先文字列抽出部7を有
している。そして、HTML文書等のハイパーテキスト
文書に対するテキスト解析部2による形態素解析処理の
結果入力文字列から分割された単語がリンク情報である
場合には、リンク先文字列抽出部7によって、上記リン
ク情報に基づいてリンク先の文字列を抽出し、テキスト
解析部2に返すようになっている。したがって、以後、
読み付与部3および語彙作成部5によって、ハイパーテ
キスト文書における最初のファイルの文字列と同様に、
上記リンク先のファイルの文字列に対しても読み付与お
よび音声認識用辞書の作成(音素表記の生成)が行われる
のである。
ーテキスト文書による一つのファイルを指定するだけ
で、そのファイル上の文字列は元より、当該ファイルか
ら張られているリンク先のファイルの文字列をも音声認
識用辞書作成の対象とすることができる。したがって、
関連する語彙を一度に沢山音声認識用辞書に登録するこ
とができるのである。
パーテキスト文書によるファイルから張られているリン
クリンクを順次辿る際に、その辿るリンクの制御を行う
ものに関する。
成装置におけるブロック図である。図4において、テキ
スト解析部22,読み付与部23,解析辞書メモリ24,
語彙作成部25,語彙記憶部26およびリンク先文字列
抽出部27は、上記第1実施の形態において図1に示す
テキスト解析部2,読み付与部3,解析辞書メモリ4,語
彙作成部5,語彙記憶部6およびリンク先文字列抽出部
7と同様である。
8を有している。このリンク制御部28は、リンク先文
字列抽出部27が上記リンク先の文字列を抽出するため
にリンクを順次辿る際に、リンク先文字列抽出部27が
辿るリンク先を制御するのである。
成装置による音声認識用辞書作成処理動作について、図
5のフローチャートに従って説明する。
す上記第1実施の形態の音声認識用辞書作成処理動作に
おけるステップS1〜ステップS3の場合と同様にして、
入力された文字列情報の単語分割、上記分割単語がリン
ク情報であるか否かの判別、リンク情報である場合のリ
ンク先文字列の抽出が行われる。その場合、リンク元の
ファイルの未処理の文字列は、RAM(ランダム・アクセ
ス・メモリ)(図示せず)等に設定された作業領域に待避さ
れる。そうした後に、上記ステップS11に戻って、上記
抽出されたリンク先文字列に対する形態素解析処理に移
行する。その際に、上記リンク先文字列にリンク情報が
ある場合には、さらにそのリンク文字列に張られたリン
ク先の文字列が抽出されて、形態素解析処理が行われ
る。こうして、ステップS12においてリンク情報である
と判別される毎に、リンク制御部28の制御の下にリン
クを辿って行くのである。その際に、リンク制御部28
は、リンク元を記憶/管理するようになっている。した
がって、リンク先文字列抽出部27を制御して、繰り返
してリンクを辿ったり遡ったりすることができるのであ
る。そして、ステップS12においてリンク情報は無いと
判別されるとステップS14に進む。
す音声認識用辞書作成処理動作におけるステップS5〜
ステップS7の場合と同様にして、読みの付与、読みに
基づく音声認識用辞書の作成(音素表記の生成)、音声認
識用辞書の語彙記憶部26への格納が行われる。
入力文字列が終りであるか否かが判別される。その結
果、終りでなければ上記ステップS11に戻って、当該フ
ァイルにおける次の文字列の解析に移行し、終りであれ
ばステップS18に進む。ステップS18で、リンク制御部
28によって、リンク元の記憶内容に基づいて当該ファ
イルのリンク元があるか否かが判別される。その結果、
リンク元があればステップS19に進み、無ければ音声認
識用辞書作成処理動作を終了する。
よって、リンク先文字列抽出部27が制御されてリンク
元に遡り、上記待避されているリンク元ファイルの未処
理の文字列が読み出される。そうした後、上記ステップ
S11に戻って、読み出されたリンク元の文字列の解析に
移行する。こうして、ハイパーテキスト文書における最
初のファイルに出現する総ての文字列と総てのリンク情
報に基づく総てのリンクファイルに関する総ての文字列
との処理が終了するまでステップS11〜ステップS19の
処理が繰り返される。そして、上記ステップS17におい
て入力文字列は終りであると判別され、且つ、ステップ
S18においてリンク元が無いと判別されると、最初のフ
ァイルの最後の文字列に対する処理が終了したことにな
る、すなわち、辿れるリンクを総て辿って総てのファイ
ルの総ての文字列を用いて音声認識用辞書が作成された
ことになる。したがって、音声認識用辞書作成処理動作
を終了するのである。
ル131の場合を例に説明すると、先ずファイル131
に関する文字列が解析される。ここで、単語「大阪府」は
リンク文字列であるのでファイル132に文字列解析が
移行する。さらに、ファイル132の中における単語
「大阪市」はリンク文字列であるのでファイル133に文
字列解析が移行する。そして、ファイル133に関する
総ての文字列の解析が終了すれば、リンク元のファイル
であるファイル132に関する文字列の解析に戻って、
単語「大阪市」の続きの文字列の解析に移行する。そし
て、ファイル132に関する総ての文字列の解析が終了
すれば、リンク元のファイルであるファイル131に関
する文字列の解析に戻って、単語「大阪府」の続きの文字
列の解析に移行する。そして、ファイル131に関する
文字列の解析が終了すれば、文字列もリンク元も無いの
で、音声認識用辞書作成処理を終了するのである。尚、
ファイル132に戻って単語「大阪市」の続きの文字列解
析を行う際に単語「堺市」はリンク情報であるので、その
場合には単語「堺市」のリンク先のファイルに移行するこ
とになる。
上記リンク先文字列抽出部27におけるリンクの辿り方
を制御するリンク制御部28を設けている。したがっ
て、ハイパーテキスト文書による最初のファイルに張ら
れたリンクを順次辿って、総てのリンク先のファイルに
記述されている総ての文字列から自動的に音声認識用辞
書を作成することができるのである。
おいては、上記リンク制御部28による制御の下に、リ
ンク先文字列抽出部27は、ハイパーテキスト文書によ
る最初のファイルに張られたリンクを総て辿って、総て
のリンク先のファイルに記述されている文字列に関して
形態素解析処理を行うようにしている。したがって、大
規模なハイパーテキスト文書の場合には不必要なリンク
まで辿ることになり、音声認識処理用辞書の作成に無駄
な時間が浪費されたり、作成された音声認識処理用辞書
に無意味な語彙が登録される場合が生ずる。本実施の形
態は、不必要なリンクまで辿ることを防止するものに関
する。
成装置におけるブロック図である。図6において、テキ
スト解析部32,読み付与部33,解析辞書メモリ34,
語彙作成部35,語彙記憶部36およびリンク先文字列
抽出部37は、上記第1実施の形態において図1に示す
テキスト解析部2,読み付与部3,解析辞書メモリ4,語
彙作成部5,語彙記憶部6およびリンク先文字列抽出部
7と同様である。
部39を有している。このリンク上限記憶部39には、
リンク先文字列抽出部37がリンクを辿る際におけるフ
ァイル階層の上限値が記憶されている。そして、リンク
制御部38は、リンク上限記憶部39に記憶されたファ
イル階層の上限値を越えないようにリンク先文字列抽出
部37の動作を制御するのである。
成装置による音声認識用辞書作成処理動作について、図
7のフローチャートに従って説明する。ここで、リンク
上限記憶部39にはファイル階層の上限値「M」が記憶さ
れているものとする。
よって、リンク先のファイル階層を数えるために上記R
AM等に設定された変数記憶領域の変数Nが「1」に初期
化される。
す上記第2実施の形態の音声認識用辞書作成処理動作に
おけるステップS11,ステップS12の場合と同様にし
て、入力された文字列情報の単語分割、上記分割単語が
リンク情報であるか否かの判別が行われる。そして、上
記リンク情報であればステップS24に進み、そうでなけ
ればステップS27に進む。
よって、辿るリンクの階層が一つ増えるのでNの値がイ
ンクリメントされる。ステップS25で、リンク制御部3
8によって、Nの値が上記上限値Mよりも大きいか否か
が判別される。その結果、N>MであればステップS32
に進み、N≦MであればステップS26に進む。ステップ
S26で、図5に示す音声認識用辞書作成処理動作におけ
るステップS13の場合と同様にして、リンク先文字列の
抽出が行われる。そうした後に、上記ステップS22に戻
って、上記抽出されたリンク先文字列に対する形態素解
析処理に移行する。
す音声認識用辞書作成処理動作におけるステップS14〜
ステップS18の場合と同様にして、読みの付与、読みに
基づく音声認識用辞書の作成(音素表記の生成)、音声認
識用辞書の語彙記憶部36への格納、入力文字列が終り
であるか否かの判別、終りの場合のリンク元有無の判別
が行われる。その結果、リンク元があればステップS32
に進み、無ければ音声認識用辞書作成処理動作を終了す
る。
よって、リンク元の階層に戻るためNの値がデクリメン
トされる。ステップS33で、上記待避されているN階層
のファイルにおける未処理の文字列が読み出される。そ
うした後、上記ステップS22に戻って、読み出されたリ
ンク元の文字列の解析に移行する。こうして、最初のフ
ァイルに出現する総ての文字列とM階層までのリンクフ
ァイルに関する総ての文字列との処理が終了するまでス
テップS22〜ステップS33の処理が繰り返される。そし
て、上記ステップS30において入力文字列は終りである
と判別され、且つ、ステップS31においてリンク元が無
いと判別されると、音声認識用辞書作成処理動作を終了
するのである。
ル131の場合を例に説明する。ここで、リンク上限記
憶部39に格納されるファイル階層の上限値は「2」であ
るとする。これは、リンクを3階層以上辿らないことを
意味する。先ず、ファイル131に関する文字列が解析
される。この場合、変数Nは「1」である。そして、ファ
イル132の文字列解析に移行すると変数Nは「2」とな
る。さらに、ファイル132の中におけるリンク文字列
「大阪市」のリンク先の文字列を抽出しようとすると、変
数Nは「3」となって上記上限値を越えるので変数Nの値
は「2」に戻される。そして、ファイル132に関する文
字列の解析処理が続行されるのである。尚、ファイル1
32中のリンク文字列「堺市」のリンク先の文字列を抽出
しようとする場合も同様である。
リンクを辿る際におけるファイル階層の上限値を記憶す
るリンク上限記憶部39を設けている。そして、リンク
制御部38がリンク先文字列抽出部37の動作を制御す
る際には、リンク上限記憶部39に記憶された上記上限
値を越えないようにしている。したがって、大規模なハ
イパーテキスト文書の場合に、リンク先を次々と辿って
行くことで処理が終了しなくなることを防止できる。
すると共に、ある階層レベルまでのリンク先のファイル
を対象とした音声認識用辞書を作成することができる。
したがって、例えば、図15に例示するHTML文書に
基づいて、「都道府県」と「市」との名称のみの音声認識用
辞書や、「都道府県」と「市」と「町」との名称を含む音声認
識用辞書等を作成することができるのである。
おいては、リンクを辿る際におけるファイル階層の上限
値を定めて、処理が終了しなくなったり、不必要なリン
クまで辿ることを防止している。本実施の形態は、リン
ク先ファイルがリンク元ファイルと同一の場所に格納さ
れていない場合には、リンクを辿らないようにするもの
に関する。
成装置におけるブロック図である。図8において、テキ
スト解析部42,読み付与部43,解析辞書メモリ44,
語彙作成部45,語彙記憶部46およびリンク先文字列
抽出部47は、上記第1実施の形態において図1に示す
テキスト解析部2,読み付与部3,解析辞書メモリ4,語
彙作成部5,語彙記憶部6およびリンク先文字列抽出部
7と同様である。
所判定部49を有している。このファイル記憶場所判定
部49は、リンク先ファイルとリンク元ファイルとが同
一の場所に格納されている否かを判定する。ここで、上
記同一の場所とは、例えば同一のマシンや同一のディレ
クトリ等を意味する。そして、リンク制御部48は、フ
ァイル記憶場所判定部49による判定結果に応じて、リ
ンク先を辿るか否かを判定するのである。したがって、
リンク元ファイルとリンク先ファイルとが異なるマシン
や異なるディレクトリにある場合は、リンク先を辿らな
いようにリンク先文字列抽出部47を制御できるのであ
る。
成装置による音声認識用辞書作成処理動作について、図
9のフローチャートに従って説明する。ここで、上記R
AM等には、文字列解析の対象となるファイルが記憶さ
れているマシンやディレクトリ等の場所を登録するファ
イル記憶場所登録領域が設定されている。
す上記第2実施の形態の音声認識用辞書作成処理動作に
おけるステップS11,ステップS12の場合と同様にし
て、入力された文字列情報の単語分割、上記分割単語が
リンク情報であるか否かの判別が行われる。そして、上
記リンク情報であればステップS43に進み、そうでなけ
ればステップS45に進む。
よって、リンク元のファイル(現在のファイル)の記憶場
所がファイル記憶場所判定部49に送出される。そし
て、ファイル記憶場所判定部49によって、上記ファイ
ル記憶場所登録領域が参照されて、リンク先ファイルの
記憶場所とリンク元ファイルの記憶場所とが同一である
か否かが判定される。その結果、同一であればステップ
S44に進み、異なればステップS50に進む。ステップS
44で、図5に示す音声認識用辞書作成処理動作における
ステップS13の場合と同様にして、リンク先文字列の抽
出が行われる。そうした後に、上記ステップS41に戻っ
て、上記抽出されたリンク先文字列に対する形態素解析
処理に移行する。
す音声認識用辞書作成処理動作におけるステップS14〜
ステップS19の場合と同様にして、読みの付与、読みに
基づく音声認識用辞書の作成(音素表記の生成)、音声認
識用辞書の語彙記憶部46への格納、入力文字列が終り
であるか否かの判別、終りである場合のリンク元有無の
判別、リンク元ファイルの未処理文字列の読み出されが
行われる。そうした後に、上記ステップS41に戻って、
読み出されたリンク元の文字列の解析に移行する。こう
して、最初のファイルに出現する総ての文字列と最初の
ファイルと同じ場所に記憶された総てのリンクファイル
に関する総ての文字列との処理が終了するまで、ステッ
プS41〜ステップS50の処理が繰り返される。そして、
上記ステップS48において入力文字列は終りであると判
別され、且つ、ステップS49においてリンク元が無いと
判別されると、音声認識用辞書作成処理動作を終了する
のである。
ル131を例に説明する。尚、ファイルの記憶場所とし
て、市レベル以上のファイルを「high_level」、区町村レ
ベル以下のファイルを「low_level」なる2つのディレク
トリに分けて記憶しているものとする。
「大阪府」のリンク先ファイル132とは、「high_level」
という共通の場所に記憶されている。そのため、リンク
先ファイル132に関する文字列の抽出が行われる。次
に、ファイル132とリンク文字列「大阪市」のリンク先
ファイル133とは、「high_leve1」と「1ow_leve1」との
異なる場所に記憶されている。そのために、リンク先フ
ァイル133に関する文字列の抽出は行わないのであ
る。
リンク先ファイルとリンク元ファイルとが同一の場所に
格納されている否かを判定するファイル記憶場所判定部
49を設けている。そして、リンク制御部48がリンク
先文字列抽出部47の動作を制御する際には、ファイル
記憶場所判定部49の判定結果に基づいて、リンク元フ
ァイルとリンク先ファイルとが異なる場所に記憶されて
いる場合にはリンク先を辿らないようにしている。した
がって、リンク先を次々と辿って行くことで処理が終了
しなくなることを防止できる。
すると共に、ある階層レベルまでのリンク先のファイル
を対象とした音声認識用辞書を作成することができる。
したがって、例えば、図15に例示するHTML文書に
基づいて、「都道府県」と「市」との名称のみの音声認識用
辞書や、「都道府県」と「市」と「町」との名称を含む音声認
識用辞書等を作成することができるるのである。
第1実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置に
関するものである。図10は、図1に示す音声認識用辞
書作成装置を搭載した音声認識装置のブロック図であ
る。音声認識用辞書作成装置51を構成するテキスト解
析部53,読み付与部54,解析辞書メモリ55,語彙作
成部56,語彙記憶部57およびリンク先文字列抽出部
58は、図1に示す上記第1の実施の形態におけるテキ
スト解析部2,読み付与部3,解析辞書メモリ4,語彙作
成部5,語彙記憶部6およびリンク先文字列抽出部7と
同様である。
9,尤度計算部60,音響モデル格納部61および照合部
62で構成される。そして、第1の実施の形態で述べた
方法によって予め作成されて語彙記憶部57に記憶され
た音声認識用辞書(認識語彙情報)を用いて、マイクに入
力された音声を認識するのである。
れた音声のアナログ波形をディジタル波形に変換し、例
えば20msec〜40msec程度の短い時間間隔(フレーム)
毎に周波数分析し、スペクトルを表すパラメータのベク
トル系列に変換する。周波数分析にはLPC(線形予測
分析)メルケプストラム等が用いられる。
らの入力音声のパラメータベクトルを用いて、音響モデ
ル格納部61に格納されたHMM(隠れマルコフモデル)
等の音韻毎の音響モデルの尤度を計算する。こうして、
各音韻の尤度を求めるのである。照合部62は、求めら
れた各音韻の尤度と語彙記憶部57に登録されている総
ての認識語彙(単語)との照合を行ない、全認識語彙のス
コアを算出する。そして、上位所定値以上のスコアを呈
する認識語彙でなる認識候補を認識結果として出力する
のである。
音声認識装置52は、上記第1実施の形態の音声認識用
辞書作成装置によって作成された音声認識用辞書が格納
された語彙記憶部57を有している。そして、照合部6
2によって、尤度計算部60で求められた各音韻の尤度
と語彙記憶部57に登録されている総ての認識語彙の音
韻系列との照合を行ない、全認識語彙のスコアを算出す
るようにしている。
音声認識用辞書作成装置51による音声認識用辞書作成
時に用いたハイパーテキスト文書上の単語を発声して音
声認識装置52で音声認識する場合に、最初のファイル
上の単語は元より、リンク先ファイル上の単語に対して
も、高い認識率を得ることができるのである。
おいては、上記第1実施の形態における音声認識用辞書
作成装置を搭載するようにしている。しかしながら、こ
の発明の音声認識装置は、少なくとも上記音声認識用辞
書作成装置によって作成された音声認識用辞書(音声認
識語彙)が搭載されていればよく、テキスト解析部53,
読み付与部54,解析辞書メモリ55,語彙作成部26お
よびリンク先文字列抽出部58は、音声認識装置52と
は独立して設けても差し支えない。
第1実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置の
他の例に関するものであり、上記音声認識装置による認
識結果に応じた識別子を出力するものである。
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置71を構成するテキスト解析部7
3,読み付与部74,解析辞書メモリ75,語彙作成部7
6,語彙記憶部77およびリンク先文字列抽出部78、
音声認識装置72を構成する音響分析部79,尤度計算
部80,音響モデル格納部81および照合部82は、上
記第5の実施の形態におけるテキスト解析部53,読み
付与部54,解析辞書メモリ55,語彙作成部56,語彙
記憶部57,リンク先文字列抽出部58,音響分析部5
9,尤度計算部60,音響モデル格納部61および照合部
62と同様である。
に記憶された音声認識語彙に関連付けられた識別子を記
憶している。識別子出力部84は、音声認識装置72の
認識結果に基づいて識別子記憶部83に記憶された識別
子から一つを選択して出力する。以下、この識別子につ
いて、図12に示すハイパーテキスト文書を用いて音声
認識用辞書を作成する場合を例に説明する。
字列ファイルを示す。電子番組表本体(最初のファイル)
85には、番組タイトル,放送日時,放送局,番組内容に
関するホームページのURLが記載されている。ある番
組のホームページ86には、その番組に関する詳細な情
報が記載されている。
1は、上記第5の実施の形態における音声認識用辞書作
成装置の場合と同様にして、電子番組表本体85に記述
された文字列を解析して音声認識用辞書を作成して語彙
記憶部57に記憶する。その結果、電子番組表本体85
に記述された「朝」,「ニュース」,「洋画」,「劇場」等の単語
が音声認識用辞書に登録される。また、リンク先の番組
ホームページ56に記述されている文字列から「ゴール
デン」,「GTO」等の単語が音声認識用辞書に登録され
る。
を用いてテレビ番組を指定したり予約したりする場合に
は、音声認識結果としての単語と番組との対応をとる必
要がある。そのために利用するのが識別子(図12に示
す例の場合では番組ID番号)である。つまり、識別子
記憶部83には、番組ID「001」が音声認識用辞書に
登録された音声認識語彙「朝」,「ニュース」等に対応付け
られ、番組ID「002」が音声認識語彙「洋画」,「劇場」,
「ゴールデン」,「GTO」等に対応付けられて記憶される
のである。
列にはリンク元のリンク文字列の場合と同じ識別子を対
応付ける点である。例えば、番組IDが記述されたファ
イルのリンク先にある単語「ゴールデン」,「GTO」に対
しては、リンク元の番組ID「002」が対応付けるの
である。このような対応付けは、音声認識用辞書作成装
置71のリンク先文字列抽出部78の機能により、リン
ク先の番組ホームページ56に記述されている単語が音
声認識用辞書に登録されることによって、始めて実現可
能になるのである。
した音声認識装置では、「朝のニュース」と発声した場合
に、音声認識装置72によって「朝」,「ニュース」等の単
語が認識され、認識結果が識別子出力部84に送出され
る。そうすると、識別子出力部84は、識別子記憶部8
3から、認識結果「朝」,「ニュース」等に対応付けられて
いる識別子番組ID「001」を出力する。同様に、リン
ク先のファイルに記述されている文字列「ゴールデン洋
画劇場」,「GTO」を発声した場合にも、音声認識結果
「ゴールデン」,「洋画劇場」,「GTO」等が得られ、識別子
出力部84によって、認識結果「ゴールデン」,「洋画劇
場」,「GTO」等に対応付けられている識別子番組ID
「002」を出力するのである。
記第5の実施の形態における構成に加えて、語彙記憶部
57に記憶された音声認識語彙に関連付けられた識別子
を記憶する識別子記憶部83と、音声認識装置72の認
識結果に基づいて識別子記憶部83に記憶された識別子
を選択して出力する識別子出力部84を備えている。し
たがって、あるハイパーテキスト文書を用いて作成した
音声認識用辞書を語彙記憶部77に記憶し、上記音声認
識用辞書の音声認識語彙に関連付けた識別子を識別子記
憶部83に記憶しておくことによって、ユーザが当該ハ
イパーテキスト文書における下層ファイルに記述された
単語を発声しても、その単語に対応付けられた識別子を
出力することができる。
ーテキスト文書に記述された単語を発声して情報処理の
指示を行う場合に、単語の発声に自由度を持たせてより
使い易い情報処理装置を構築可能するのである。
タから番組選択する場合を例に説明したが、リンク情報
を含む文字列情報であれば何にでも適用できる。特に、
テレビ番組のように定期的に更新されるディジタル情報
の場合には、その都度更新後の電子テレビ番組データか
ら自動的に音声認識用辞書を作成できるため、手間を掛
けずに一定の認識率を確保でき、且つ、ユーザの自由な
発声にも対応できるため有効である。新聞記事やロード
ショーの情報等を音声で呼び出す用途にも、本音声認識
装置は適用可能である。
第1実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置の
他の例に関するものであり、上記出力された識別子に応
じた操作手順を実行するものである。
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置91を構成するテキスト解析部9
3,読み付与部94,解析辞書メモリ95,語彙作成部9
6,語彙記憶部97およびリンク先文字列抽出部98、
音声認識装置92を構成する音響分析部99,尤度計算
部100,音響モデル格納部101および照合部102
は、上記第5の実施の形態におけるテキスト解析部5
3,読み付与部54,解析辞書メモリ55,語彙作成部5
6,語彙記憶部57,リンク先文字列抽出部58,音響分
析部59,尤度計算部60,音響モデル格納部61および
照合部62と同様である。また、識別子記憶部103お
よび識別子出力部104は、上記第6の実施の形態にお
ける識別子記憶部83および識別子出力部84と同様で
ある。
順が、上記識別子記憶部103に記憶された識別子に対
応付けられて記憶されている。操作手順実行部106
は、識別子出力部104から受け取った識別子に基づい
て、操作手順記憶部105を参照して装置の操作手順を
得、上記装置の操作を実行する。
実行部106の動作に付いて、図12に示す電子番組デ
ータが記述された文字列ファイルを用いて音声認識用辞
書を作成した場合を例に説明する。
番組IDに対応付けられて、その番組が既に録画されて
いる場合にはビデオレコーダを操作して当該番組を再生
する手順、当該番組が未録画であって放送日時以前であ
る場合にはビデオレコーダを操作して当該番組を録画す
る手順、当該番組が未録画であって放送日時以後である
場合にはその旨を表示あるいは音声出力する手順、当該
番組が未録画であって放送日時以前である場合には放送
日時にテレビジョンをオンして選局する手順等を記憶し
ておく。
と、識別子出力部104から音声認識結果「洋画劇場」に
応じた識別子として番組ID「002」が操作手順実行部
106に送出される。そうすると、操作手順実行部10
6は、操作手順記憶部103を参照し、ビデオレコーダ
やテレビジョンを操作して、番組ID「002」に対応す
る12月23日21:00時にフジテレビで放送の「洋画
劇場」の録画再生や録画や放映等を実行するのである。
声を発声することによって機器の操作を自動的に実行す
るに際してユーザの発声に自由度を与え、使い易い情報
処理装置を提供することができるのである。
第1実施の形態における音声認識用辞書作成装置によっ
て作成された音声認識用辞書を搭載した音声認識装置の
他の例に関するものであり、上記出力された識別子に応
じた操作手順を実行するものである。
装置を搭載した音声認識装置のブロック図である。音声
認識用辞書作成装置111を構成するテキスト解析部1
13,読み付与部114,解析辞書メモリ115,語彙作
成部116,語彙記憶部117およびリンク先文字列抽
出部118、音声認識装置112を構成する音響分析部
119,尤度計算部120,音響モデル格納部121およ
び照合部122は、上記第5の実施の形態におけるテキ
スト解析部53,読み付与部54,解析辞書メモリ55,
語彙作成部56,語彙記憶部57,リンク先文字列抽出部
58,音響分析部59,尤度計算部60,音響モデル格納
部61及び照合部62と同様である。また、識別子記憶
部123,識別子出力部124,操作手順記憶部125お
よび操作手順実行部126は、上記第7の実施の形態に
おける識別子記憶部103,識別子出力部104,操作手
順記憶部105および操作手順実行部106と同様であ
る。
するチューナーを備えており、上記操作手順実行部12
6の指示に従ってCRT(陰極線管)や液晶等のディスプ
レイに指定されたチャンネルの映像を表示する。録画部
128は、操作手順実行部126の指示に従って、テレ
ビ表示部127で受信したテレビ番組をビデオテープや
ハードディスク等の記録媒体に録画する。再生部129
は、操作手順実行部126の指示に従って、録画部12
8で録画されたテレビ番組を再生してテレビ表示部12
7等のディスプレイに表示する。
成を備えることによって、ハイパーテキスト文書でなる
電子番組表に記述された番組名やその内容に拘る単語を
発声することによって、テレビ番組の表示や録画の設定
や録画映像の再生を自動的に行うことができる。その際
に、ユーザは、番組名を正確に発声しなくとも、リンク
先ファイルに記述してある「出演者名」や「料理名」等の番
組の内容を表す単語を発声しても上記操作を行うことが
できるのである。
における音声認識装置は、上記第1実施の形態における
音声認識用辞書作成装置あるいはこの音声認識用辞書作
成装置によって作成された音声認識用辞書を搭載してい
るが、上記第2実施の形態〜第4実施の形態における音
声認識用辞書作成装置あるいはこの音声認識用辞書作成
装置によって作成された音声認識用辞書を搭載しても差
し支えない。
作成装置で作成された音声認識用辞書を用いる音声認識
装置は、携帯電話や電子手帳等の携帯端末器に搭載する
ことが有効である。すなわち、このような携帯端末器に
おいては、操作指示を行う場合にはキー操作よりも発声
による方が操作性がよい。ところが、出先等においては
操作指示を行うための文言を予め決められている通りに
正確に発声するのは困難であり、そのような場合に対処
するための音声認識用辞書を利用者が作成するのは更に
困難である。
作成装置によれば、例えば、ハイパーテキスト文書化さ
れた電子テレビ番組表に基づいて音声認識用辞書を作成
し、音声によって録画予約を指示する場合を想定する
と、上記電子テレビ番組表の表層ファイルにリンクされ
た「番組ホームページ」のファイルに記述された単語をも
音声認識用辞書に登録することができる。したがって、
操作者が「放送日」を忘れてしまっても、上記「番組ホー
ムページ」のファイルに記述された「ゲスト名」等を発声
することによって、所望のテレビ番組を自動的に録画予
約することができるのである。したがって、このような
音声認識用辞書を用いる音声認識装置を搭載すること
は、携帯端末器用の音声合成装置として非常に有効なの
である。
テキスト解析部,読み付与部,語彙作成部,語彙記憶部,リ
ンク先文字列抽出部,リンク制御部およびファイル記憶
場所判定部による上記解析手段,読み付与手段,語彙作成
手段,語彙記憶手段,リンク先文字列抽出手段,リンク制
御手段およびファイル記憶場所判定手段としての機能
は、プログラム記録媒体に記録された辞書作成処理プロ
グラムによって実現される。上記実施の形態における上
記プログラム記録媒体は、ROM(リード・オンリ・メモ
リ)でなるプログラムメディアである。あるいは、外部
補助記憶装置に装着されて読み出されるプログラムメデ
ィアであってもよい。尚、何れの場合においても、上記
プログラムメディアから辞書作成処理プログラムを読み
出すプログラム読み出し手段は、上記プログラムメディ
アに直接アクセスして読み出す構成を有していてもよい
し、RAMに設けられたプログラム記憶エリア(図示せ
ず)にダウンロードし、上記プログラム記憶エリアにア
クセスして読み出す構成を有していてもよい。尚、上記
プログラムメディアからRAMの上記プログラム記憶エ
リアにダウンロードするためのダウンロードプログラム
は、予め本体装置に格納されているものとする。
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
用辞書作成装置は、モデムを備えてインターネットを含
む通信ネットワークと接続可能な構成を有していれば、
上記プログラムメディアは、通信ネットワークからのダ
ウンロード等によって流動的にプログラムを坦持する媒
体であっても差し支えない。尚、その場合における上記
通信ネットワークからダウンロードするためのダウンロ
ードプログラムは、予め本体装置に格納されているもの
とする。あるいは、別の記録媒体からインストールされ
るものとする。
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
音声認識用辞書作成装置は、テキスト解析手段,読み付
与手段,語彙作成手段および語彙記憶手段を有すると共
に、上記テキスト解析手段によってリンク情報であると
判定された構成単語におけるリンク先の文字列を抽出し
て、上記テキスト解析手段に送出するリンク先文字列抽
出手段を有するので、ハイパーテキスト文書における表
層ファイルに記述された単語は元より、表層ファイルの
単語にリンクされたリンク先ファイルに記述された単語
をも用いて音声認識用辞書を作成することができる。
一つのファイルを指定するだけで、そのファイルから張
られているリンク先のファイルの文字列も音声認識辞書
作成の対象とすることができるのである。
は、リンク制御手段によって、リンク元情報を管理し
て、上記リンク先文字列抽出手段が次に辿るリンク先を
制御するので、リンク先ファイルの文字列に対する上記
テキスト解析手段,読み付与手段,語彙作成手段および語
彙記憶手段による処理が終了すると、リンク元ファイル
の未処理文字列に対する処理に戻ることができる。した
がって、上記ハイパーテキスト文書における総てのファ
イルに記述された総ての文字列に基づいて音声認識用辞
書を作成することができる。
は、上記リンク制御手段によって、リンク上限記憶部に
記憶されたリンク先文字列の階層数の上限値を越えない
ように上記リンク先文字列抽出手段が辿るリンク先を制
御するので、次々とリンク先を辿って処理が終了しなく
なったり、不必要なリンクまで辿ることを防止すること
ができる。さらに、ある階層レベルまでのリンク先ファ
イルを対象とした音声認識用辞書を作成することができ
る。
は、上記リンク制御手段によって、ファイル記憶場所判
定手段による判定結果に基づいて、リンク先ファイルの
記憶場所がリンク元ファイルの記憶場所と同一になるよ
うに上記リンク先文字列抽出手段が辿るリンク先を制御
するので、次々とリンク先を辿って処理が終了しなくな
ったり、不必要なリンクまで辿ることを防止することが
できる。さらに、ある階層レベルまでのリンク先ファイ
ルを対象とした音声認識用辞書を作成することができ
る。
された音声を、上記第1の発明の音声認識用辞書作成装
置によって作成された音声認識用辞書との照合を行って
認識するので、搭載している音声認識用辞書を作成した
際に用いたハイパーテキスト文書の表層ファイルに記述
された単語の発声は元より、上記表層ファイルの単語に
リンクされたリンク先ファイルに記述された単語が発声
された場合にも、高い認識率で入力音声を認識すること
ができる。
出力手段によって、認識語彙に基づいて識別子記憶手段
を参照して、上記認識語彙と同一の音声認識語彙に対応
付けられた識別子を出力するので、音声認識結果とし
て、認識語彙に代って上記識別子を出力することができ
る。したがって、この識別子に対応付けられた処理を、
ハイパーテキスト文書のリンク先ファイルに記述された
単語を発声して実行させることが可能になる。
順実行手段によって、上記識別子出力手段からの識別子
に基づいて操作手順記憶手段を参照して、当該識別子に
対応した機器の操作手順に従って上記機器の操作を実行
するので、ハイパーテキスト文書の下層ファイルに記述
された単語の発声によって、上記機器の操作を簡単に指
示することができる。
別子をテレビ番組の「インデックス」とし、上記識別子に
対応した機器の操作手順を「上記インデックスに対応す
るテレビ番組のテレビジョン装置による表示手順」とし
たので、ハイパーテキスト文書の下層ファイルに記述さ
れた単語の発声によって、自動的に当該テレビ番組の映
像を表示することができる。
た電子テレビ番組表に基づいて、音声認識用辞書を作成
しておくことによって、上記電子テレビ番組表の表層フ
ァイルに記述された「番組名」,「放送局名」および「放送日
時情報」等を発声することによって、所望のテレビ番組
を自動的に表示することができる。さらに、この実施例
によれば、操作者が「放送日」を忘れてしまっても、上記
表層ファイルにリンクされた「番組ホームページ」のファ
イルに記述された「ゲスト名」等を発声することによっ
て、所望のテレビ番組を自動的に表示することができる
のである。
別子をテレビ番組の「インデックス」とし、上記識別子に
対応した機器の操作手順を「上記インデックスに対応す
るテレビ番組のビデオ装置への録画予約手順」としたの
で、ハイパーテキスト文書の下層ファイルに記述された
単語の発声によって、自動的に当該テレビ番組の録画予
約を行うことができる。
た電子テレビ番組表に基づいて、音声認識用辞書を作成
しておくことによって、操作者が「放送日」を忘れてしま
っても、上記電子テレビ番組表の表層ファイルにリンク
された「番組ホームページ」のファイルに記述された「料
理名」等を発声することによって、所望のテレビ番組を
自動的に録画予約することができるのである。
1の発明の音声認識用辞書作成装置と、上記音声認識用
辞書作成装置で作成された音声認識用辞書を用いる音声
認識装置を搭載したので、予め上記音声認識用辞書作成
装置によってハイパーテキスト文書を用いて音声認識用
辞書を作成しておけば、本形態端末器に向って上記ハイ
パーテキスト文書のリンク先ファイルに記述された単語
を発声しても高い認識率で認識することができる。
2の発明の音声認識装置を搭載したので、本形態端末器
に向ってハイパーテキスト文書のリンク先ファイルに記
述された単語を発声しても、高い認識率で認識すること
ができる。
法は、文字列情報を解析し、構成単語に分割し、読みを
付与し、音声認識語彙を作成し、音声認識語彙を記憶す
ると共に、上記文字列情報の解析によってリンク情報で
あると判定された構成単語におけるリンク先の文字列を
抽出し、上記抽出されたリンク先の文字列情報に対して
も上記解析,単語分割,読み付与,音声認識語彙生成およ
び音声認識語彙記憶を行うので、ハイパーテキスト文書
における表層ファイルに記述された単語は元より、表層
ファイルの単語にリンクされたリンク先ファイルに記述
された単語をも用いて音声認識用辞書を作成することが
できる。
は、コンピュータを、上記第1の発明におけるテキスト
解析手段,読み付与手段,語彙作成手段およびリンク先文
字列抽出手段として機能させる辞書作成処理プログラム
が記録されているので、上記第1の発明の場合と同様
に、ハイパーテキスト文書における表層ファイルに記述
された単語は元より、表層ファイルの単語にリンクされ
たリンク先ファイルに記述された単語をも用いて音声認
識用辞書を作成することができる。
ブロック図である。
声認識用辞書作成処理動作のフローチャートである。
ロック図である。
声認識用辞書作成処理動作のフローチャートである。
成装置のブロック図である。
声認識用辞書作成処理動作のフローチャートである。
辞書作成装置のブロック図である。
声認識用辞書作成処理動作のフローチャートである。
した音声認識装置のブロック図である。
図である。
ルの一例を示す図である。
置のブロック図である。
声認識装置のブロック図である。
書の一例を示す図である。
解析部、 3,23,33,43,54,74,94,114…読み付与
部、 4,24,34,44,55,75,95,115…解析辞書
メモリ、 5,25,35,45,56,76,96,116…語彙作成
部、 6,26,36,46,57,77,97,117…語彙記憶
部、 7,27,37,47,58,78,98,118…リンク先
文字列抽出部、 8…リンク先、 9…リンク文字列、 10,11…リンク先ファイル、 28,38,48…リンク制御部、 39…リンク上限記憶部、 49…ファイル記憶場所判定部、 51,71,91,111…音声認識用辞書作成装置、 52,72,92,112…音声認識装置、 59,79,99,119…音響分析部、 60,80,100,120…尤度計算部、 61,81,101,121…音響モデル格納部、 62,82,102,122…照合部、 83,103,123…識別子記憶部、 84,104,124…識別子出力部、 85…電子番組表本体、 86…ホームページ、 105,125…操作手順記憶部、 106,126…操作手順実行部、 127…テレビ表示部、 128…録画部、 129…再生部。
Claims (13)
- 【請求項1】 テキスト解析手段によって文字列情報を
解析して構成単語に分割し、この分割された各構成単語
に読み付与手段によって読みを付与し、上記解析手段お
よび読み付与手段による処理結果に基づいて語彙作成手
段によって音声認識語彙を生成し、この生成された音声
認識語彙を音声認識用辞書として語彙記憶手段に記憶す
る音声認識用辞書作成装置において、 上記テキスト解析手段による解析の結果リンク情報であ
ると判定された構成単語におけるリンク先の文字列を抽
出し、上記テキスト解析手段に送出するリンク先文字列
抽出手段を備えたことを特徴とする音声認識用辞書作成
装置。 - 【請求項2】 請求項1記載の音声認識用辞書作成装置
において、 上記リンク先文字列抽出手段が上記リンク情報に基づい
て辿ったリンクのリンク元情報を管理して、上記リンク
先文字列抽出手段が次に辿るリンク先を制御するリンク
制御手段を備えたことを特徴とする音声認識用辞書作成
装置。 - 【請求項3】 請求項2に記載の音声認識用辞書作成装
置において、 上記リンク先文字列抽出手段が辿るリンク先文字列の階
層数の上限値を記憶するリンク上限記憶部を備えて、 上記リンク制御手段は、上記上限値を越えないように上
記リンク先文字列抽出手段が辿るリンク先を制御するこ
とを特徴とする音声認識用辞書作成装置。 - 【請求項4】 請求項2に記載の音声認識用辞書作成装
置において、 リンク先のファイルの記憶場所がリンク元のファイルの
記憶場所と同一か否かを判定するファイル記憶場所判定
手段を備えて、 上記リンク制御手段は、上記ファイル記憶場所判定手段
による判定結果に基づいて、リンク先ファイルの記憶場
所とリンク元ファイルの記憶場所とが異ならないように
上記リンク先文字列抽出手段が辿るリンク先を制御する
ことを特徴とする音声認識用辞書作成装置。 - 【請求項5】 入力された音声を、辞書に登録されてい
る認識語彙との照合を行って認識する音声認識装置であ
って、 上記辞書として、請求項1乃至請求項4の何れか一つに
記載の音声認識用辞書作成装置によって作成された音声
認識用辞書を搭載していることを特徴とする音声認識装
置。 - 【請求項6】 請求項5に記載の音声認識装置におい
て、 識別子が含まれた上記文字列情報から生成された音声認
識語彙と上記識別子とを対応付けて記憶する識別子記憶
手段と、 音声認識の結果得られた語彙に基づいて上記識別子記憶
手段を参照し、上記語彙と同一の音声認識語彙に対応付
けられた識別子を出力する識別子出力手段を備えたこと
を特徴とする音声認識装置。 - 【請求項7】 請求項6に記載の音声認識装置におい
て、 識別子に対応した機器の操作手順を記憶する操作手順記
憶手段と、 上記識別子出力手段からの識別子に基づいて上記操作手
順記憶手段を参照し、当該識別子に対応した機器の操作
手順に従って上記機器の操作を実行する操作手順実行手
段を備えたことを特徴とする音声認識装置。 - 【請求項8】 請求項7に記載の音声認識装置におい
て、 上記操作手順実行手段による操作実行の対象となる機器
はテレビジョン装置であり、 上記識別子は、テレビ番組のインデックスであり、 上記識別子に対応した機器の操作手順は、上記インデッ
クスに対応するテレビ番組の上記テレビジョン装置によ
る表示手順であることを特徴とする音声認識装置。 - 【請求項9】 請求項7に記載の音声認識装置におい
て、 上記操作手順実行手段による操作実行の対象となる機器
はビデオ装置であり、 上記識別子は、テレビ番組のインデックスであり、 上記識別子に対応した機器の操作手順は、上記インデッ
クスに対応するテレビ番組の上記ビデオ装置への録画予
約手順であることを特徴とする音声認識装置。 - 【請求項10】 請求項1乃至請求項4の何れか一つに
記載の音声認識用辞書作成装置と、 上記音声認識用辞書作成装置で作成された音声認識用辞
書を用いる音声認識装置を搭載したことを特徴とする携
帯端末器。 - 【請求項11】 請求項5乃至請求項9の何れか一つに
記載の音声認識装置を搭載したことを特徴とする携帯端
末器。 - 【請求項12】 文字列情報を解析して構成単語に分割
し、上記分割された各構成単語に読みを付与し、上記解
析処理および読み付与処理の結果に基づいて音声認識語
彙を生成し、この生成された音声認識語彙を音声認識用
辞書として記憶する音声認識用辞書作成方法において、 上記解析処理の結果リンク情報であると判定された構成
単語におけるリンク先の文字列を抽出し、 上記抽出されたリンク先の文字列情報に対しても上記解
析,単語分割,読み付与,音声認識語彙生成および音声認
識語彙記憶を行うことを特徴とする音声認識用辞書作成
方法。 - 【請求項13】 コンピュータを、 請求項1におけるテキスト解析手段,読み付与手段,語彙
作成手段およびリンク先文字列抽出手段として機能させ
る辞書作成処理プログラムが記録されたことを特徴とす
るコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001096169A JP2002297177A (ja) | 2001-03-29 | 2001-03-29 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001096169A JP2002297177A (ja) | 2001-03-29 | 2001-03-29 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002297177A true JP2002297177A (ja) | 2002-10-11 |
JP2002297177A5 JP2002297177A5 (ja) | 2005-07-28 |
Family
ID=18950119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001096169A Pending JP2002297177A (ja) | 2001-03-29 | 2001-03-29 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002297177A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005099741A (ja) * | 2003-09-02 | 2005-04-14 | Gf:Kk | 音声辞書作成装置、音声辞書作成方法、及びプログラム |
JP2010055259A (ja) * | 2008-08-27 | 2010-03-11 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理プログラム及び画像処理方法 |
WO2016080535A1 (ja) * | 2014-11-20 | 2016-05-26 | ヤマハ株式会社 | 情報送信装置、情報送信方法、案内システム及び通信システム |
-
2001
- 2001-03-29 JP JP2001096169A patent/JP2002297177A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005099741A (ja) * | 2003-09-02 | 2005-04-14 | Gf:Kk | 音声辞書作成装置、音声辞書作成方法、及びプログラム |
JP4515186B2 (ja) * | 2003-09-02 | 2010-07-28 | 株式会社ジー・エフグループ | 音声辞書作成装置、音声辞書作成方法、及びプログラム |
JP2010055259A (ja) * | 2008-08-27 | 2010-03-11 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理プログラム及び画像処理方法 |
US9093074B2 (en) | 2008-08-27 | 2015-07-28 | Konica Minolta Business Technologies, Inc. | Image processing apparatus, image processing program and image processing method |
WO2016080535A1 (ja) * | 2014-11-20 | 2016-05-26 | ヤマハ株式会社 | 情報送信装置、情報送信方法、案内システム及び通信システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2280331C (en) | Web-based platform for interactive voice response (ivr) | |
US8666743B2 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
CN1280782C (zh) | 给用户提供声音反馈的可扩展语音识别系统 | |
KR100735820B1 (ko) | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 | |
CN102549652B (zh) | 信息检索装置 | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
EP2207165B1 (en) | Information processing apparatus and text-to-speech method | |
US20090326953A1 (en) | Method of accessing cultural resources or digital contents, such as text, video, audio and web pages by voice recognition with any type of programmable device without the use of the hands or any physical apparatus. | |
JPH10207685A (ja) | ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法 | |
JP3799280B2 (ja) | 対話システムおよびその制御方法 | |
CN112802446B (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
US20020082841A1 (en) | Method and device for processing of speech information | |
JP3639776B2 (ja) | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 | |
JPH06208389A (ja) | 情報処理方法及び装置 | |
CN113113024B (zh) | 语音识别方法、装置、电子设备和存储介质 | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 | |
KR20060100646A (ko) | 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템 | |
JPH07219590A (ja) | 音声情報検索装置及び方法 | |
US20030055642A1 (en) | Voice recognition apparatus and method | |
JP2002297177A (ja) | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 | |
KR20050041749A (ko) | 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템 | |
JP2022161353A (ja) | 情報出力システム、サーバ装置および情報出力方法 | |
JP2009116107A (ja) | 情報処理装置及び方法 | |
JP2005322148A (ja) | ブラウザ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070313 |