JP2003115929A

JP2003115929A - 音声入力システムおよび音声ポータルサーバおよび音声入力端末

Info

Publication number: JP2003115929A
Application number: JP2001306787A
Authority: JP
Inventors: Soshiro Kuzunuki; 壮四郎葛貫; Shinya Otsuji; 信也大辻; Michio Morioka; 道雄森岡; Tadashi Kamiwaki; 正上脇; Mariko Okude; 真理子奥出
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-10-02
Filing date: 2001-10-02
Publication date: 2003-04-18
Anticipated expiration: 2021-10-02
Also published as: EP1300828A2; US20040199394A1; US6944593B2; JP3997459B2; US7058579B2; US20050149332A1; EP1300828A3; US20030074200A1; US20030074199A1; US7299186B2

Abstract

(57)【要約】【課題】ＰＤＡ，携帯電話などの移動端末や家庭電
話，ＴＶ，ＰＣなどの固定端末から音声でネットにアク
セスし、地図情報，音楽情報，番組情報，電話情報など
を提供するプロバイダからサービスを受ける音声入力シ
ステムを提供する。【解決手段】音声入出力手段とアクセス状況表示手段
とを備えた音声入力端末１０，３０と、音声を取り込み
テキストとして認識する音声認識手段と認識されたテキ
ストをコマンドテキスト辞書と照合しコマンドテキスト
とオブジェクトテキストとに分離するコマンド変換手段
と分離されたテキストに基づいて各種情報を提供するプ
ロバイダにアクセスしてサービスを受けこのサービスを
音声入力端末に出力する対話制御手段とを備えた音声ポ
ータルサーバ５０と、音声ポータルサーバから受信した
コマンドテキストおよびオブジェクトテキストに基づき
情報を検索しその結果を音声ポータルサーバにサービス
するプロバイダ６０とからなる音声入力システム。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声入力システ
ム，音声ポータルサーバ，音声入力端末に係り、特に、
ＰＤＡ(Personal Digital Assistants)，携帯電話，車
載ナビゲーションなどの移動端末装置からまたは家庭電
話，ＴＶ，ＰＣなどの家庭(固定)端末から音声でネット
ワークにアクセスし、地図情報，音楽情報，ＴＶ番組情
報，電話情報などを提供する情報提供サービスプロバイ
ダから情報やサービスを受ける音声入力システムに関す
る。

【０００２】

【従来の技術】特開平１１−１４３４９３号公報は、入
力された音声を音声言語理解装置によりデータベース言
語の中間言語に変換して単語を検索するシステムを記載
している。

【０００３】特開２０００−５７４９０号公報は、認識
辞書を切り替えながら入力された音声の認識性能を向上
させる方法を記載している。

【０００４】特開２００１−３４２９２号公報は、ワー
ドスポッティングという技術で辞書にある言葉を切り出
し、要求キーワードを認識して話題を確定し、その話題
用の認識辞書を用いて音声を認識させ、認識性能を向上
させる方法を記載している。

【０００５】

【発明が解決しようとする課題】特開平１１−１４３４
９３号公報の技術は、識別誤りが最小になるように文章
データをそれに対応する中間言語に変換する隠れマルコ
フモデルを学習する方法である。この方式では、統計的
処理に基づく学習であるから、いろいろな分野に同時に
サービスしようとすると、分野ごとに学習する必要があ
り、処理に多くの時間がかかり、認識性能が下がる。ま
た、長い文章と短い文章とが混在する実際の対話を考慮
した音声入力システムにはなっていない。さらに、認識
文字列の一部に誤りがあった場合についての配慮がな
い。

【０００６】特開２０００−５７４９０号公報の技術
は、認識結果に応じて対応辞書を切り替えて認識性能を
向上させるナビゲーションの発明であるが、音声を連続
入力できない。また、認識文字列の一部に誤りがあった
場合についての配慮がない。

【０００７】特開２００１−３４２９２号公報の技術
は、認識結果に応じて話題を切り出し辞書を切り替えて
認識性能を上げる発明である。しかし、上記２つの従来
技術と同様に、認識文字列の一部に誤りがあった場合に
ついての配慮がない。

【０００８】本発明の目的は、ＰＤＡ，携帯電話などの
移動端末や家庭電話(HomeＴＥＬ)，ＴＶ，ＰＣなどの固
定端末から音声でネットにアクセスし、地図情報，音楽
情報，番組情報，電話情報などを提供するプロバイダか
らサービスを受ける音声入力システムおよび音声ポータ
ルサーバおよび音声入力端末を提供することである。

【０００９】

【課題を解決するための手段】本発明は、上記目的を達
成するために、音声入出力手段とＷｅｂブラウザと外部
システムへのアクセス状況および検索結果を表示する表
示手段とを備えた音声入力端末と、音声入力端末からの
音声を取り込みテキストとして認識する音声認識手段
と、認識されたテキストをコマンドテキスト辞書と照合
しコマンドテキストとオブジェクトテキストとに分離す
るコマンド変換手段と、分離されたコマンドテキストと
オブジェクトテキストとに基づいて各種情報を提供する
アプリケーションサービスプロバイダにアクセスしてサ
ービスを受けこのサービスを音声入力端末に出力する対
話制御手段とを備えた音声ポータルサーバと、音声ポー
タルサーバから受信したコマンドテキストおよびオブジ
ェクトテキストに基づいて情報を検索する情報検索手段
を備え検索結果を音声ポータルサーバにサービスするア
プリケーションサービスプロバイダとからなる音声入力
システムを提案する。

【００１０】アプリケーションサービスプロバイダの情
報検索手段は、入力されたオブジェクトテキストをｎ文
字ごとに切り出し予め作成してあるｎ文字ＩＮＤＥＸに
基づいて情報検索する手段とすることができる。

【００１１】アプリケーションサービスプロバイダは、
地図情報をサービスするナビゲーション情報アプリケー
ションサービスプロバイダ，音楽情報をサービスする音
楽情報アプリケーションサービスプロバイダ，ＴＶ番
組，ＣＳ番組，ＣＡＴＶ番組の少なくとも１つの情報を
サービスする番組情報アプリケーションサービスプロバ
イダ，電話情報をサービスする電話情報アプリケーショ
ンサービスプロバイダなどとする。

【００１２】本発明においては、音声入力端末から入力
された音声を音声ポータルサーバで認識してコマンドと
オブジェクトとのテキストに分離し、分離されたテキス
トに基づき、アプリケーションサービスプロバイダにあ
る情報をあいまい検索し、オブジェクトテキストに一部
認識誤りがあっても、意図する情報を音声入力端末に提
供できる。

【００１３】本発明は、また、音声を入出力する手段と
外部システムとのアクセス状況を表示する手段とを備え
た音声入力端末と、各種情報を提供するアプリケーショ
ンサービスプロバイダと、入力された音声に基づいて音
声入力端末とアプリケーションサービスプロバイダとの
対話を制御する音声ポータルサーバとからなる音声入力
システムにおいて、音声ポータルサーバは、音声入力端
末からの音声を取り込みテキストとして認識する音声認
識手段と、認識されたテキストをコマンドテキスト辞書
と照合しコマンドテキストとオブジェクトテキストとに
分離するコマンド変換手段と、分離されたコマンドテキ
ストとオブジェクトテキストとをアプリケーションサー
ビスプロバイダに送りアプリケーションサービスプロバ
イダで検索された情報を音声入力端末に出力する対話制
御手段とを備えた音声ポータルサーバを提案する。

【００１４】音声認識手段は、連続音声認識手段と、単
語音声認識手段と、入力された音声の特徴量をしきい値
として２つの認識手段の認識結果の一方を選択して出力
する認識総合評価手段とを備える。

【００１５】音声の特徴量は、発話時間，認識文字列長
のいずれを採用してもよい。

【００１６】音声ポータルサーバの音声認識エンジンを
長い文章に適した連続音声認識エンジンとコマンドのよ
うな短い文章に適した単語音声認識エンジンの２つで構
成し、総合的に評価しているため、音声対話の認識性能
が向上する。

【００１７】本発明は、さらに、音声ポータルサーバお
よび各種情報を提供するアプリケーションサービスプロ
バイダにアクセスしサービスを受ける音声入力端末にお
いて、音声入出力手段と、Ｗｅｂブラウザと、外部シス
テムへのアクセス状況および検索結果を表示する表示手
段とを備えている。

【００１８】音声入力端末は、ＰＤＡ，携帯電話，車載
ナビゲーションのいずれかに組み込まれている携帯音声
入力端末と、家庭電話，ＴＶ，ＰＣのいずれかに組み込
まれている家庭音声入力端末とに分類できる。

【００１９】アプリケーションサービスプロバイダ(Ａ
ＳＰ)として、ナビゲーション情報ＡＳＰ，音楽情報Ａ
ＳＰ，番組情報ＡＳＰ，電話情報ＡＳＰを設けたので、
ＰＤＡ，MobileＴＥＬ，MobileCarＰＣなどの移動する
音声入力端末や、家庭電話，ＴＶ，ＰＣなどの家庭の音
声入力端末にも、それぞれの必要に応じて、最適な情報
をサービスできる。

【００２０】

【発明の実施の形態】次に、図１〜図２８を参照して、
本発明による音声入力システム，音声ポータルサーバ，
音声入力端末の実施形態を説明する。

【００２１】図１は、本発明による音声入力システムの
実施形態の全体構成を示すブロック図である。

【００２２】本実施形態では、音声入力端末装置として
は、移動端末１０と家庭(固定)端末３０とを使用でき
る。移動端末１０としては、ＰＤＡ１０ａ，携帯電話１
０ｂ，車載端末１０ｃなどがある。家庭(固定)端末３０
としては、家庭内での利用を想定した固定電話３０ａ，
情報家電としてのテレビシステムＴＶ３０ｂ，パーソナ
ルコンピュータＰＣ３０ｃなどがある。移動端末１０ａ
〜１０ｃは、無線基地局２０を介してインターネット網
４０に接続され、家庭端末３０ａ〜３０ｃは、インター
ネット網４０に直接接続されている。

【００２３】音声対話全体を制御する音声ポータル５０
および各種アプリケーションサービスプロバイダ(ＡＳ
Ｐ)６０も、インターネット網４０に接続されている。

【００２４】ＡＳＰとしては、地図情報をサービスする
ナビゲーション情報ＡＳＰ６０ａ，音楽情報ＡＳＰ６０
ｂ，ＴＶ番組情報ＡＳＰ６０ｃ，電話情報ＡＳＰ６０ｄ
などがある。

【００２５】音声入力端末１０ａ〜１０ｃ，３０ａ〜３
０ｃのいずれかから、音声ポータルサーバ５０に接続す
ると、音声のガイダンスやメニュー表示が音声入力端末
に出力され、対応する音声を入力すると、音声はインタ
ーネット網４０を介して音声ポータルサーバ５０に転送
される。

【００２６】音声ポータルサーバ５０は、音声を認識
し、音声の内容をコマンドや検索対象物であるオブジェ
クトとしてコマンド変換処理し、コマンドの内容に対応
したＡＳＰ６０に転送する。

【００２７】ＡＳＰ６０では、対応するデータベースを
検索し、音声ポータルサーバ５０を経由して、音声を入
力してきた音声入力端末に検索結果を出力する。

【００２８】以上に説明したように、音声入力システム
は、キーボード(ＫＢ)を利用しにくい環境にある移動端
末やキーボード操作に慣れていない家庭での端末に主に
利用され、入力を容易にする。

【００２９】本実施形態においては、音声入力システム
の全体構成として、サーバ群をインターネットに接続し
てある。

【００３０】サーバ群をイントラネットやホームネット
に接続しても、これらのネットワーク内では、効果は変
わらない。各種ＡＳＰ群を近くに置き、これらのＡＳＰ
群では意図するデータをサービスできないときのみイン
ターネットのサーバ群に接続するいわゆるキャッシュサ
ーバとして設置してもよい。

【００３１】なお、ＡＳＰサーバ群には、図１に示した
以外の情報サービス、例えば、株価情報，取引先情報，
顧客情報，商品情報などが存在してもよい。

【００３２】音声ポータルサーバ５０は、個人情報を管
理し、個人の特性に応じたサービスをすることも可能で
ある。

【００３３】図２〜図４は、移動端末の構成を示す図で
あり、図５〜図７は、家庭(固定)端末の構成を示す図で
ある。各端末の基幹部分は、ほぼ同じように構成されて
いる。

【００３４】図２は、本発明による音声入力端末である
ＰＤＡの実施形態の構成を示すブロック図である。ＰＤ
Ａ１０ａは、無線基地局２０と通信するアンテナ１０ａ
１と、無線通信するための通信手段１０ａ２とを含んで
いる。通信手段１０ａ２は、Voice Over IP(VoIP)技術
などにより、音声とデータとを同時に送受信できる。処
理装置およびＷｅｂブラウザ１０ａ３は、各構成部およ
び周辺装置と接続され、端末全体を制御する。周辺装置
としては、音声入力用のマイクMIC１０ａ４，タッチパ
ネルとして構成する座標入力装置(タブレット)ＴＢ１０
ａ５，液晶ディスプレイＬＣＤ１０ａ６，スピーカＳＰ
１０ａ７がある。

【００３５】ＰＤＡ１０ａは、移動端末にとって重要な
位置検出手段１０ａ８を備えており、ＧＰＳ(Global Po
sitioning System)１０ａ９に接続されている。

【００３６】ＰＤＡ１０ａの操作は、タッチパネルと音
声でなされる。その処理結果はディスプレイに表示さ
れ、次の操作の待ち状態となる。

【００３７】図３は、本発明による音声入力端末である
MobileＴＥＬの構成を示すブロック図である。構成要素
は、図２のＰＤＡ１０ａと同じである。しかし、一般
に、価格を抑えるため、液晶ディスプレイＬＣＤ１０ｂ
６のサイズやカラー表示性能が異なる。一方、携帯電話
用各種応用ソフトが追加されている。

【００３８】図４は、本発明による音声入力端末である
MobileCarＰＣの構成を示すブロック図である。構成要
素は、基本的には、図２のＰＤＡ１０ａと同じである。
しかし、車載用に適した液晶ディスプレイＬＣＤ１０ｃ
６や車載用応用ソフトが、図２のＰＤＡ１０ａとは異な
る。また、図示していないが、車載の各種センサと接続
され、車両に関する情報を表示してもよい。

【００３９】図５は、本発明による音声入力端末である
家庭電話の構成を示すブロック図である。図２のＰＤＡ
１０ａとの違いは、無線基地局２０との通信用アンテナ
１０ａ１，位置検出手段１０ａ８，ＧＰＳ１０ａ９が無
いことである。

【００４０】図６は、本発明による音声入力端末である
ＴＶの構成を示すブロック図である。図５の固定電話家
庭電話３０ａとは、テレビ装置ＴＶ３０ｂ１０，ＴＶ制
御手段３０ｂ８，カメラＣＭ３０ｃ９が異なっている。
ＴＶ制御手段３０ｂ８は、ＴＶ番組を予約したり、チャ
ンネルを設定したりするための手段であり、一般に、セ
ットトップボックスと呼ばれる。

【００４１】カメラＣＭ３０ｃ９は、通信相手に会話用
映像を送ったり、室内を画像で監視したりすることに用
いる。

【００４２】図７は、本発明による音声入力端末である
ＰＣの構成を示すブロック図である。図６のテレビシス
テムＴＶ３０ｂと異なるのは、ＴＶ制御手段が無いこと
である。ＰＣの操作は、タッチパネルまたは音声でなさ
れる。図示しないが、キーボードを接続し、ＰＣを操作
してもよい。

【００４３】なお、図６および図７に示したカメラＣＭ
３０ｃ９は、図２〜図５の音声入力端末に装備してもよ
い。

【００４４】図８は、本発明による音声ポータルサーバ
５０の実施形態の構成を示すブロック図である。本発明
の特徴的な部分である音声ポータルサーバ５０は、イン
ターネット網４０と通信する通信手段５０１と、音声ポ
ータルサーバ５０全体を処理する処理装置５０２と、音
声データVinを取り込み認識辞書５０４を用いてテキス
トデータVtext１に認識出力する音声認識手段５０３
と、認識された音声Vtext１をコマンドテキスト辞書５
０６を用いてコマンドとオブジェクトVtext２に変換す
るコマンド変換手段５０５と、音声入力端末や各種情報
ＡＳＰとの対話を制御する対話制御手段５０７と、対話
制御手段の音声テキストVtext３により音声を合成する
音声合成手段５０８と、Ｗｅｂブラウザ５０９とからな
る。

【００４５】図９は、本発明による音声ポータルサーバ
５０の音声認識手段５０３の構成を示すブロック図であ
る。本実施形態では、音声認識手段が２つの認識エンジ
ンを備えていることが特徴である。すなわち、音声認識
手段５０３は、比較的長い音声を認識させる連続音声認
識エンジン５０３ａとコマンドのような比較的短い音声
を認識する単語音声認識エンジン５０３ｂで構成され
る。

【００４６】連続音声認識エンジン５０３ａは、連続音
声認識辞書５０４ａを用いて音声を認識し、単語音声認
識辞エンジン５０３ｂは、単語音声認識辞書５０４ｂを
用いて音声を認識する。

【００４７】各認識エンジンの認識結果は、認識総合的
評価手段５０３ｃで総合的に評価される。一般に、連続
音声認識エンジンは、単語間の遷移確率モデルを用いて
認識する方式を用いるため、コマンドのような短い単語
が入力されると、前後の単語知識を利用できないため、
誤認識が多くなる。

【００４８】そこで、認識総合評価手段で、どちらの認
識エンジンの出力が正しいかを総合的に判断することが
必要になる。

【００４９】認識総合的評価手段５０３ｃの動作を図１
０〜図１３を用いて具体例で説明する。

【００５０】図１０〜図１１は、２つの認識エンジンの
認識結果を音声の発話時間を用いて切り替える例を示し
ている。認識総合的評価手段５０３ｃは、発話時間評価
において、音声データVinをしきい値と比較し、短けれ
ばＳ側に、長ければＬ側に切り替える。

【００５１】図１０は、本発明による音声ポータルサー
バ５０の音声認識手段の動作を説明する図であり、発話
時間が比較的短い“はい。”という音声が入力されたと
きの状態を説明する図である。この場合は、Ｓ側に切り
替えられて、認識総合評価手段の出力Vtext１は、“は
い。”の文字列が出力される。ここで、しきい値は、単
語音声認識辞書の最大発話時間を選んでおく。

【００５２】図１１は、本発明による音声ポータルサー
バ５０の音声認識手段の動作を説明する図であり、発話
時間が比較的長い“日立神田に目的地を設定する。”と
いう音声発話データが入力されたときの状態を示す図で
ある。この場合は、Ｌ側に切り替えられて、認識総合評
価手段の出力Vtext１は、“日立神田に目的地を設定す
る。”の文字列が出力される。

【００５３】図１２〜図１３は、発話時間を評価するの
ではなく、認識エンジンの結果の文字列長をしきい値と
評価する例である。

【００５４】図１２は、本発明による音声ポータルサー
バ５０の音声認識手段の動作を説明する図である。発話
時間が比較的短い“はい。”という音声が入力されたと
きの状態を説明する図である。この場合は、Ｓ側に切り
替えられて、認識総合評価手段の出力Vtext１は、“は
い。”の文字列が出力される。

【００５５】図１３は、本発明による音声ポータルサー
バ５０の音声認識手段の動作を説明する図である。発話
時間が比較的長い“日立神田に目的地を設定する。”と
いう音声発話データが入力されたときの状態を示す図で
ある。この場合は、Ｌ側に切り替えられて、認識総合評
価手段の出力Vtext１は、“日立神田に目的地を設定す
る。”の文字列が出力される。

【００５６】なお、認識エンジンでは、余りにも辞書と
かけ離れた音声が入力されると“認識不能を示す文字列
＝“？”を出力するようにしている。この場合において
も、しきい値を適当な値(例：コマンド文字列の最大長)
を選んでおくことにより、最適な文字列が出力され、全
体の認識性能が改善される。

【００５７】以上の２つの方式で説明したように、音声
発話データが“はい。”というコマンドであっても、連
続音声認識エンジンのみの場合、“肺。”という文字が
出力されてしまう問題を解決できる。

【００５８】図１４は、本発明による音声ポータルサー
バ５０のコマンド変換手段５０５の構成を示すブロック
図である。音声認識手段５０３の文字列Vtext１がコマ
ンド変換手段に入力されると、コマンド文字列検索５０
５ａにおいて、コマンドテキスト辞書５０６を用いて、
コマンド文字列が含まれるかどうかを処理する。

【００５９】図１５は、本発明による音声コマンドテキ
スト辞書の例を示す図である。コマンドテキスト辞書５
０６では、コマンドＩＤ、コマンド名１〜コマンド名５
まであり、同一コマンドＩＤでは、どれが入力されても
よいようになっている。例えば、“目的地設定。”と
“行く。”の文字列は同一コマンドＩＤ＝Ｄ０１として
判断される。

【００６０】図１５のコマンドテキスト文字は、各情報
ＡＳＰにあわせたコマンド(ＮＯ１〜ＮＯ８)，音声対話
用のコマンド(ＮＯ９〜ＮＯ１０)，画面操作用のコマン
ド(ＮＯ１１〜ＮＯ２２)に大別できる。

【００６１】コマンド文字列検索は、完全一致を前提と
しいるが、図２３〜図２４で後述するように、一部認識
誤りを含んでいても検索できるようにしてもよい。

【００６２】コマンド文字列検索５０５ａ処理後は、コ
マンド以外の文字列であるオブジェクトを抽出するオブ
ジェクト抽出５０５ｂを実行する。この処理は、各情報
ＡＳＰに送出するコマンドと検索対象文字列であるオブ
ジェクトとを抽出する処理である。

【００６３】図１６は、本発明による音声ポータルサー
バ５０のコマンド変換手段５０５の動作を説明する図で
ある。音声認識手段の結果Vtext１が、“日立神田に目
的地を設定する。”であるとすると、コマンド文字列検
索５０５ａでは、コマンドテキスト辞書５０６を参照し
てコマンド文字列が“目的地を設定する。”と判断し、
コマンドＩＤ＝Ｄ０１と理解する。

【００６４】次に、オブジェクト抽出５０５ｂでは、コ
マンド文字列以外のがオブジェクトと判断し、オブジェ
クト“日立神田に。”が抽出される。したがって、オブ
ジェクト抽出手段５０５ｂの結果Vtext２は、“コマン
ドＩＤ=Ｄ０１、オブジェクト＝日立神田に。”として
出力される。

【００６５】なお、オブジェクト抽出手段５０５ｂで
は、処理を簡単にするため、コマンド文字列以外の全て
の文字列をオブジェクトにしたが、形態素解析を実行
し、“日立神田に。”の“に”を省いて抽出するように
してもよい。

【００６６】図１７は、本発明による音声ポータルサー
バ５０の対話制御手段５０７の構成を示すブロック図で
ある。対話制御手段５０７は、全体を制御する対話処理
手段５０７ａと、音声対話の基本対話ルール５０７ｂ
と、音声入力端末とのインタフェースである端末データ
制御手段５０７ｃと、各情報ＡＳＰとのインタフェース
であるＡＳＰ制御手段５０７ｄと、音声合成制御手段５
０７ｅとで構成される。

【００６７】基本対話ルール５０７ｂは、各情報ＡＳＰ
で共通に使用されるルールを格納するものであり、各情
報ＡＳＰの特有の対話ルールは、各情報ＡＳＰからダウ
ンロードされる。

【００６８】まず、音声認識手段５０５からの出力であ
るVtext２が入力されると、対話処理手段５０７ａで、
コマンドＩＤを判断し、どの情報ＡＳＰに対応するかを
判断し、対応する情報ＡＳＰにコマンドＩＤおよびオブ
ジェクトをASPDataOutとして送信する。

【００６９】次に、対応した情報ＡＳＰからの検索結果
が、ASPDataInとしてＡＳＰ制御手段５０７ｂに入力さ
れたら、端末制御５０７ｃは、その検索を要求した音声
入力端末に対して、TdataOutを出力する。音声入力端末
では、その検索結果のデータが表示される。

【００７０】さらに、文字列により音声合成出力する場
合は、音声合成制御手段５０７ｅから、Vtext３として
音声列を出力し、音声合成手段５０８で合成した音声Ｖ
outを音声入力端末に送り、スピーカから音を出す。

【００７１】なお、音声入力端末からの音ではないデー
タ入力がある場合は、TdataInとして受け付ける。

【００７２】また、対話制御手段５０７は、音声対話用
VoiceＸＭＬブラウザで構成してもよい。

【００７３】次に、図１８〜図２１により、各情報ＡＳ
Ｐの詳細な構成を説明する。

【００７４】図１８は、本発明によるナビゲーション情
報ＡＳＰの構成を示すブロック図である。ナビゲーショ
ン情報ＡＳＰは、地図情報や経路探索情報をサービスす
るプロバイダであり、インターネットとのインタフェー
ス６０ａ１００と、あいまい検索手段６０ａ２００と、
経路探索手段６０ａ５００と、対話ルール処理手段６０
ａ７００とからなる。各手段は、各々辞書を参照して要
求を処理する。

【００７５】あいまい検索手段６０ａ２００は、行き先
情報であるランドマーク情報のデータベースランドマー
クＤＢ６０ａ３００と、あいまい検索するためのランド
マークＩＮＤＥＸ６０ａ４００辞書とを参照する。詳細
な動作については、後述する。

【００７６】経路探索手段６０ａ５００は、地図データ
であるMapDB６０ａ６００を参照して現在地から、目的
地までの経路を探索する。この経路探索は、一般になさ
れている経路探索処理であるので、詳細な説明を省略す
る。

【００７７】対話ルール処理手段６０ａ７００は、各情
報ＡＳＰごとに特有の対話ルールを処理する手段であ
り、対話ルール６０ｂ８００は、音声ポータルサーバ５
０の基本対話以外のルールとして利用される。

【００７８】図１９は、本発明による音楽情報ＡＳＰの
構成を示すブロック図である。図１８のＡＳＰと比較す
ると、音楽情報ＡＳＰには、経路探索手段に相当するも
のが無く、コンテンツが、音楽ＤＢ６０ｂ３００，音楽
ＩＮＤＥＸ６０ｂ４００，音楽用対話ルール６０ｂ８０
０となっている。

【００７９】図２０は、本発明によるＴＶ番組情報ＡＳ
Ｐの構成を示すブロック図である。図１９のＡＳＰと
は、コンテンツの内容が異なるだけである。コンテンツ
としては、ＴＶ番組ＤＢ６０ｃ３００，番組ＩＮＤＥＸ
６０ｃ４００，番組用対話ルール６０ｃ８００がある。

【００８０】なお、本明細書で、ＴＶ番組とは、ＴＶ番
組，ＣＳ番組，ＣＡＴＶ番組の少なくとも１つの情報を
意味する。

【００８１】図２１は、本発明による電話情報ＡＳＰの
構成を示すブロック図である。図１９のＡＳＰとは、コ
ンテンツが異なり、電話ＤＢ６０ｄ３００，電話ＩＮＤ
ＥＸ６０ｄ４００，電話用対話ルール６０ｄ８００を備
えている。

【００８２】図２２は、本発明による音声操作メニュー
画面の一例を示す図である。音声メニューには、各情報
ＡＳＰに応じて音声メニューアイコンが用意されてい
る。ナビゲーション情報ＡＳＰに関するものには、“目
的地設定。”，“目的地検索。”，“経由地設定。”，
“現在地表示。”がある。

【００８３】音楽情報ＡＳＰに関するものには、“音楽
検索。”がある。番組情報ＡＳＰに関するものには、
“番組検索。”、“番組予約。”がある。電話情報ＡＳ
Ｐに関すものには、“電話検索。”がある。

【００８４】本発明では、項目を音声メニューから入力
する方法と、対象物も含めてすべて音声で入力する方法
も許している。例えば、目的地検索の例では、メニュー
を押さずに、“日立神田に目的地を設定する。”と直接
音声入力してもよい。

【００８５】図２３は、本発明による各種情報ＡＳＰの
あいまい検索手段６０ａ２００の構成を示すブロック図
である。他のあいまい検索手段６０ｂ２００，６０ｃ２
００，６０ｄ２００の構成も、あいまい検索手段６０ａ
２００と同様である。

【００８６】図２３において、あいまい検索手段６０ａ
２００は、検索エンジン６０ａ１００と、２文字ＩＮＤ
ＥＸ生成６０ａ２２０とからなる。検索エンジン６０ａ
１００および２文字ＩＮＤＥＸ生成６０ａ２２０は、ラ
ンドマークＤＢａ３００およびランドマークＩＮＤＥＸ
６０ａ４００を参照しながら検索処理する。

【００８７】ランドマークＤＢは、数百万件の膨大なデ
ータを保有しているので、ランドマークＩＮＤＥＸは、
２文字ＩＮＤＥＸ生成処理により、予め作成しておく必
要がある。本発明においては、この２文字ＩＮＤＥＸ生
成処理により、高速でかつあいまい検索がなされるのが
特徴である。ここで、あいまい検索とは、検索語句の意
味があいまいではなく、文字列の一部の誤り(一部文字
列追加、一部文字列欠損、文字列順不同、一部文字列誤
り)があっても、入力された語句を検索できることを意
味している。

【００８８】図２４は、本発明による各種情報ＡＳＰの
あいまい検索の手順の一例を示す図である。例として、
“日立神田に。”に目的地設定をする場合を示す。

【００８９】まず、“日立神田に。”の検索キーワード
６０ａ２００ｋｅｙが入力されると、２文字ごとに切出
処理６０ａ２１１をする。

【００９０】次に、２文字ごとにランドマークＩＮＤＥ
Ｘ検索６０ａ２１２をする。

【００９１】ランドマークＩＮＤＥＸ検索６０ａ２１２
からランドマークＤＢを検索し、ヒットするＤＢのレコ
ードを抽出する。

【００９２】抽出したレコードのうち、ヒット文字数の
多いものの順にソーティングし出力処理６０ａ２１４
し、検索結果としてリスト６０ａ２００ｒｅｓを出力す
る。

【００９３】以上のように、２文字ごとのＩＮＤＥＸ検
索するので、高速検索とあいまい検索の両方の特徴をも
つ。

【００９４】ここで、“日立神田に。”の“に。”が検
索オブジェクトにあってもランドマークＤＢに該当する
ものがなければ、無視される。一方、“神田日立に。”
と入力されても、関係するものがヒットする。

【００９５】このため、思いついた地名やランドマーク
を入力できる効果がある。

【００９６】なお、複数の検索結果を音声入力端末に出
力し、どの検索対象物を選択するかを音声指示し、選択
することもできる。

【００９７】本実施形態では、図２３〜図２４に図示し
たように、２文字ＩＮＤＥＸ生成処理により、検索する
例を示したが、３文字ＩＮＤＥＸや４文字ＩＮＤＥＸ生
成でもよい。

【００９８】特に、数字やアルファベットが多い情報を
もつ場合、３文字ＩＮＤＥＸや４文字ＩＮＤＥＸ生成の
方が、２文字ＩＮＤＥＸ処理よりも、不要な検索出力が
少なくなるという効果がある。

【００９９】図２５〜図２８を用いて、音声入力端末，
音声ポータルサーバ５０，情報ＡＳＰ６０間の具体的な
通信手順を説明する。

【０１００】図２５は、本発明による音声入力端末と音
声ポータルサーバとナビゲーション情報ＡＳＰとの間の
通信手順を示す図である。ここでは、音声入力端末Mobi
leＰＣ１０ｃ，音声ポータルサーバ５０，ナビゲーショ
ン情報ＡＳＰ６０ａ間の通信手順を示すが、他の情報Ａ
ＳＰ間との通信手順もほぼ同様である。

【０１０１】まず、音声入力端末MobileＰＣ１０ｃから
音声ポータルサーバ５０に接続要求が出されると、音声
ポータルサーバ５０から、音声により“ご用件を入力く
ださい。”と音声入力端末MobileＰＣ１０ｃに音声出力
する。同時に、図２１の音声メニューも表示される。

【０１０２】次に、音声入力端末MobileＰＣ１０ｃで
は、音声で“日立神田に目的地を設定する。”と直接音
声入力する。

【０１０３】音声ポータルサーバ５０では、これを認識
し、対応して“日立神田に目的地を設定しますか？。”
と音声応答する。

【０１０４】ここで、“はい。”または“いいえ。”の
コマンド用の音声を入力する。

【０１０５】ここでは、“はい。”が入力されると、音
声ポータルサーバ５０は、“検索中です。”の音声応答
を音声入力端末MobileＰＣ１０ｃに返すとともに、ナビ
ゲーション情報ＡＳＰ６０ａに対し、コマンドＩＤ“Ｄ
０１。”、オブジェクト“日立神田に。”のデータを送
信し、検索結果を返してもらう。ここでは、検索結果数
(２件)と内容(ＸＸＸ，ＹＹＹ)を返す。

【０１０６】そこで、音声ポータルサーバ５０は、この
検索結果から“結果が２件あります。何番にしますか
？”と音声応答する。同時に、音声入力端末MobileＰＣ
１０ｃのディスプレイには、検索結果の内容表示がされ
る。

【０１０７】次に、音声で“１番。”と音声指示する
と、音声ポータルサーバ５０は音声を認識し、対応する
音声“目的地を１番に設定します。”を出力する。

【０１０８】さらに、音声入力端末MobileＰＣ１０ｃに
現在位置を要求し、現在位置情報を得て、この情報を元
に、ナビゲーション情報ＡＳＰ６０ａに対して、経路探
索コマンドとそのパラメータとを送信する。

【０１０９】音声ポータルサーバ５０は、ナビゲーショ
ン情報ＡＳＰから、探索結果である経路情報および地図
情報を得て、音声入力端末MobileＰＣ１０ｃに出力する
とともに、音声“安全運転でどうぞ。”と音声応答す
る。

【０１１０】ここで、上記通信手順で、“いいえ。”が
入力されると、図示していないが、“ご用件を入力くだ
さい。”に再度戻るようになっている。

【０１１１】複数ある検索結果を選択する場合、音声で
選択する例を示したが、タッチパネルを備えているの
で、タッチパネルで選択してもよい。この場合、検索結
果の内容とタッチパネルの座標との対応は、予め決めて
おかなければならない。

【０１１２】図２５において、音声入力端末としてMobi
leＰＣ１０ｃを用いたが、ＰＤＡ１０ａ、MobileＴＥＬ
１０ｂとナビゲーション情報ＡＳＰ間でやり取りしても
よい。この場合、人間ナビゲーションシステムになる。
すなわち、自分の音声入力端末の現在位置がわかるの
で、現在位置情報を表示したり、行きたいランドマーク
を検索したりできる。

【０１１３】図２６は、本発明による音声入力端末と音
声ポータルサーバと音楽情報ＡＳＰとの間の通信手順を
示す図である。音声入力端末MobileＰＣ１０ｃが、音声
ポータルサーバ５０を介して音楽情報ＡＳＰ６０ｂから
音楽のコンテンツサービスを受ける通信手順である。

【０１１４】まず、音声入力端末MobileＰＣ１０ｃから
音声ポータルサーバ５０に接続要求が出されると、音声
ポータルサーバ５０から、音声により“ご用件を入力く
ださい。”と音声入力端末MobileＰＣ１０ｃに音声出力
する。同時に、図２１の音声メニューも表示される。

【０１１５】次に、音声入力端末MobileＰＣ１０ｃで
は、音声で“Mariah Careyの曲を聴きたい。”と直接音
声入力する。

【０１１６】音声ポータルサーバ５０では、その音声を
認識し、対応して“Mariah Careyの曲を検索しますか
？。”と音声応答がある。

【０１１７】ここで、“はい。”または“いいえ。”の
コマンド用の音声を入力する。

【０１１８】ここでは、“はい。”が入力されると、音
声ポータルサーバ５０は、“検索中です。”の音声応答
を音声入力端末MobileＰＣ１０ｃに返すとともに、音楽
情報ＡＳＰ６０ｂに対し、コマンドＩＤ“M01。”、オ
ブジェクト“Mariah Careyの。”のデータを送信し、検
索結果を返してもらう。

【０１１９】ここでは、検索結果数(３件)と内容(ＸＸ
Ｘ，ＹＹＹ、ZZZ)を返す。

【０１２０】そこで、音声ポータルサーバ５０は、この
検索結果から“結果が３件あります。何番にしますか
？。”と音声応答する。同時に、音声入力端末MobileＰ
Ｃ１０ｃのディスプレイには、検索結果の内容表示がさ
れている。

【０１２１】次に、音声で“３番。”と音声指示する
と、音声ポータルサーバ５０はこれを認識し、対応する
音声“音楽を３番に設定します。”と出力する。同時
に、３番の音楽のダウンロードを音楽情報ＡＳＰに指示
する。

【０１２２】これにより、“お楽しみください。”の音
声応答と対応した音楽コンテンツが音声入力端末Mobile
ＰＣ１０ｃにダウンロードされる。

【０１２３】もし、検索結果が１件しか無い時のとき、
ＯＫかどうかの音声応答を待って、ダウンロードが開始
する。

【０１２４】図２７は、本発明による音声入力端末と音
声ポータルサーバとＴＶ番組情報ＡＳＰとの間の通信手
順を示す図である。音声入力端末ＴＶ３０ｂ、ＰＣ３０
ｃが、音声ポータルサーバ５０を介して番組情報ＡＳＰ
６０ｃからＴＶ番組のコンテンツサービスを受ける通信
手順である。

【０１２５】まず、音声入力端末から音声ポータルサー
バ５０に接続要求が出されると、音声ポータルサーバ５
０から、音声により“ご用件を入力ください。”と音声
入力端末に音声出力する。同時に、図２１の音声メニュ
ーも表示される。

【０１２６】次に、音声入力端末では、音声で“天気予
報の番組を見たい。”と直接音声入力する。

【０１２７】音声ポータルサーバ５０では、これを認識
し、対応して“天気予報の番組を検索しますか？。”と
音声応答がある。

【０１２８】ここで、“はい。”または“いいえ。”の
コマンド用の音声を入力する。

【０１２９】ここでは、“はい。”が入力されると、音
声ポータルサーバ５０は、“検索中です。”という音声
応答を音声入力端末に返すとともに、番組情報ＡＳＰ６
０ｃに対し、コマンドＩＤ“T01”、オブジェクト“天
気予報の。”のデータを送信し、検索結果を返してもら
う。

【０１３０】ここでは、検索結果数(２件)と内容(ＸＸ
Ｘ，ＹＹＹ)を返す。

【０１３１】そこで、音声ポータルサーバ５０は、この
検索結果から“結果が２件あります。何番にしますか
？”と音声応答する。同時に、音声入力端末のディスプ
レイには、検索結果の内容表示がされる。

【０１３２】次に、音声で“１番。”と音声指示する
と、音声ポータルサーバ５０はこれを認識し、対応する
音声“番組を１番に設定します。”を出力する。

【０１３３】その結果、ＴＶ番組に対応したチャンネル
が設定されて、天気予報サービスを見ることができる。

【０１３４】もし、複数の番組がなければ、ＯＫかどう
かの音声応答を待ってチャンネルを設定する。

【０１３５】ここで、もし、天気予報サービスが放送さ
れていないときは、チャンネルを予約できる。この場合
は、音声ポータルサーバ５０から、予約するかどうかの
案内があり、それに答えると、予約が終了する。

【０１３６】なお、毎週見ているＴＶ番組については、
毎週予約などもできる。

【０１３７】図２８は、本発明による音声入力端末と音
声ポータルサーバと電話情報ＡＳＰとの間の通信手順を
示す図である。音声入力端末家庭電話３０ａ，MobileＴ
ＥＬ１０ｂが、音声ポータルサーバ５０を介して、電話
情報ＡＳＰ６０ｄから電話情報のコンテンツサービスを
受ける通信手順である。

【０１３８】まず、音声入力端末から音声ポータルサー
バ５０に接続要求が出されると、音声ポータルサーバ５
０から、音声により“ご用件を入力ください。”と音声
入力端末に音声出力する。同時に、図２１の音声メニュ
ーも表示される。

【０１３９】次に、音声入力端末では、音声で“日立太
郎さんに電話をしたい。”と直接音声入力する。

【０１４０】音声ポータルサーバ５０では、これを認識
し、対応して“日立太郎さん電話をかけますか？。”と
音声応答する。

【０１４１】ここで、“はい。”または“いいえ。”の
コマンド用の音声を入力する。

【０１４２】ここでは、“はい。”が入力されると、音
声ポータルサーバ５０は、“検索中です。”の音声応答
を音声入力端末に返すとともに、電話情報ＡＳＰ６０ｄ
に対し、コマンドＩＤ“P01。”、オブジェクト“日立
太郎さんに。”のデータを送信し、検索結果を返しても
らう。

【０１４３】ここでは、検索結果数(２件)と内容(ＸＸ
Ｘ，ＹＹＹ)を返す。

【０１４４】そこで、音声ポータルサーバ５０は、この
検索結果から“結果が２件あります。何番にしますか
？。”と音声応答する。同時に、音声入力端末のディス
プレイには、検索結果の内容表示がされている。

【０１４５】次に、音声で“１番。”と音声指示する
と、音声ポータルサーバ５０はこれを認識し、対応する
音声“電話を１番にかけます。”と出力する。

【０１４６】具体的には、日立太郎さんの電話に電話を
かけて、相手がでたら対話できる。もし、検索結果が一
人だけならば、ＯＫかどうかの音声応答を待って電話を
かける。

【０１４７】

【発明の効果】本発明によれば、音声入力端末から入力
された音声を音声ポータルサーバで認識してコマンドと
オブジェクトとのテキストに分離し、分離されたテキス
トに基づき、アプリケーションサービスプロバイダにあ
る情報をあいまい検索し、オブジェクトテキストに一部
認識誤りがあっても、意図する情報を音声入力端末に提
供できる。

【０１４８】また、音声ポータルサーバの音声認識エン
ジンを長い文章に適した連続音声認識エンジンとコマン
ドのような短い文章に適した単語音声認識エンジンの２
つで構成し、総合的に評価しているため、音声対話の認
識性能が向上する。

【０１４９】さらに、アプリケーションサービスプロバ
イダ(ＡＳＰ)として、ナビゲーション情報ＡＳＰ，音楽
情報ＡＳＰ，番組情報ＡＳＰ，電話情報ＡＳＰを設けた
ので、ＰＤＡ，MobileＴＥＬ，MobileCarＰＣなどの移
動する音声入力端末や、家庭電話，ＴＶ，ＰＣなどの家
庭の音声入力端末にも、それぞれの必要に応じて、最適
な情報をサービスできる。

【図面の簡単な説明】

【図１】本発明による音声入力システムの実施形態の全
体構成を示すブロック図である。

【図２】本発明による音声入力端末であるＰＤＡの実施
形態の構成を示すブロック図である。

【図３】本発明による音声入力端末であるMobileＴＥＬ
の構成を示すブロック図である。

【図４】本発明による音声入力端末であるMobileCarＰ
Ｃの構成を示すブロック図である。

【図５】本発明による音声入力端末である家庭電話の構
成を示すブロック図である。

【図６】本発明による音声入力端末であるＴＶの構成を
示すブロック図である。

【図７】本発明による音声入力端末であるＰＣの構成を
示すブロック図である。

【図８】本発明による音声ポータルサーバの実施形態の
構成を示すブロック図である。

【図９】本発明による音声ポータルサーバの音声認識手
段の構成を示すブロック図である。

【図１０】本発明による音声ポータルサーバの音声認識
手段の動作を説明する図である。

【図１１】本発明による音声ポータルサーバの音声認識
手段の動作を説明する図である。

【図１２】本発明による音声ポータルサーバの音声認識
手段の動作を説明する図である。

【図１３】本発明による音声ポータルサーバの音声認識
手段の動作を説明する図である。

【図１４】本発明による音声ポータルサーバのコマンド
変換手段の構成を示すブロック図である。

【図１５】本発明による音声コマンドテキスト辞書の例
を示す図である。

【図１６】本発明による音声ポータルサーバのコマンド
変換手段の動作を説明する図である。

【図１７】本発明による音声ポータルサーバの対話制御
手段の構成を示すブロック図である。

【図１８】本発明によるナビゲーション情報ＡＳＰの構
成を示すブロック図である。

【図１９】本発明による音楽情報ＡＳＰの構成を示すブ
ロック図である。

【図２０】本発明によるＴＶ番組情報ＡＳＰの構成を示
すブロック図である。

【図２１】本発明による電話情報ＡＳＰの構成を示すブ
ロック図である。

【図２２】本発明による音声操作メニュー画面の一例を
示す図である。

【図２３】本発明による各種情報ＡＳＰのあいまい検索
手段の構成を示すブロック図である。

【図２４】本発明による各種情報ＡＳＰのあいまい検索
の手順の一例を示す図である。

【図２５】本発明による音声入力端末と音声ポータルサ
ーバとナビゲーション情報ＡＳＰとの間の通信手順を示
す図である。

【図２６】本発明による音声入力端末と音声ポータルサ
ーバと音楽情報ＡＳＰとの間の通信手順を示す図であ
る。

【図２７】本発明による音声入力端末と音声ポータルサ
ーバとＴＶ番組情報ＡＳＰとの間の通信手順を示す図で
ある。

【図２８】本発明による音声入力端末と音声ポータルサ
ーバと電話情報ＡＳＰとの間の通信手順を示す図であ
る。

【符号の説明】

１０携帯端末１０ａＰＤＡ１０ｂ MobileＴＥＬ１０ｃ MobileCarＰＣ２０無線基地局３０家庭端末３０ａ家庭電話HomeＴＥＬ３０ｂＴＶ３０ｃＰＣ４０インターネット網５０音声ポータルサーバ５０１通信手段５０２処理装置５０３音声認識手段５０３ａ連続音声認識５０３ｂ単語音声認識５０３ｃ認識総合評価５０４認識辞書５０４ａ連続音声認識辞書５０４ｂ単語音声認識辞書５０５コマンド変換手段５０５ａコマンド文字列検索５０５ｂオブジェクト抽出５０６コマンドテキスト辞書５０７対話制御手段５０７ａ対話処理手段５０７ｂ基本対話ルール５０７ｃ端末データ制御５０７ｄＡＳＰ制御手段５０７ｅ音声合成制御５０８音声合成手段５０９Ｗｅｂブラウザ６０情報ＡＳＰ６０ａナビゲーション情報ＡＳＰ６０ｂ音楽情報ＡＳＰ６０ｃ番組情報ＡＳＰ６０ｄ電話情報ＡＳＰ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｈ０４Ｍ 3/42 Ｐ 15/28 ＱＨ０４Ｍ 3/42 Ｒ 3/50 Ａ 11/08 3/50 Ｇ１０Ｌ 3/00 ５７１Ｆ 11/08 ５５１Ａ (72)発明者森岡道雄茨城県日立市大みか町七丁目１番１号株式会社日立製作所日立研究所内 (72)発明者上脇正茨城県日立市大みか町七丁目１番１号株式会社日立製作所日立研究所内 (72)発明者奥出真理子茨城県日立市大みか町七丁目１番１号株式会社日立製作所日立研究所内Ｆターム(参考） 5B075 KK07 ND06 ND12 ND14 ND16 NK06 PP14 5D015 KK02 LL01 5K015 AA07 AB00 GA00 GA02 5K024 AA71 AA76 BB01 CC00 5K101 KK16 KK18 LL00 NN08 NN21

Claims

【特許請求の範囲】

【請求項１】音声入出力手段とＷｅｂブラウザと外部
システムへのアクセス状況および検索結果を表示する表
示手段とを備えた音声入力端末と、前記音声入力端末からの音声を取り込みテキストとして
認識する音声認識手段と、認識されたテキストをコマン
ドテキスト辞書と照合しコマンドテキストとオブジェク
トテキストとに分離するコマンド変換手段と、分離され
たコマンドテキストとオブジェクトテキストとに基づい
て各種情報を提供するアプリケーションサービスプロバ
イダにアクセスしてサービスを受けこのサービスを前記
音声入力端末に出力する対話制御手段とを備えた音声ポ
ータルサーバと、前記音声ポータルサーバから受信したコマンドテキスト
およびオブジェクトテキストに基づいて情報を検索する
情報検索手段を備え検索結果を前記音声ポータルサーバ
にサービスするアプリケーションサービスプロバイダと
からなる音声入力システム。
【請求項２】請求項１に記載の音声入力システムにお
いて、前記アプリケーションサービスプロバイダの情報検索手
段が、入力されたオブジェクトテキストをｎ文字ごとに
切り出し予め作成してあるｎ文字ＩＮＤＥＸに基づいて
情報検索する手段であることを特徴とする音声入力シス
テム。
【請求項３】請求項１または２に記載の音声入力シス
テムにおいて、前記アプリケーションサービスプロバイダが、地図情報
をサービスするナビゲーション情報アプリケーションサ
ービスプロバイダであることを特徴とする音声入力シス
テム。
【請求項４】請求項１ないし３のいずれか一項に記載
の音声入力システムにおいて、前記アプリケーションサービスプロバイダが、音楽情報
をサービスする音楽情報アプリケーションサービスプロ
バイダであることを特徴とする音声入力システム。
【請求項５】請求項１ないし４のいずれか一項に記載
の音声入力システムにおいて、前記アプリケーションサービスプロバイダが、ＴＶ番
組，ＣＳ番組，ＣＡＴＶ番組の少なくとも１つの情報を
サービスする番組情報アプリケーションサービスプロバ
イダであることを特徴とする音声入力システム。
【請求項６】請求項１ないし５のいずれか一項に記載
の音声入力システムにおいて、前記アプリケーションサービスプロバイダが、電話情報
をサービスする電話情報アプリケーションサービスプロ
バイダであることを特徴とする音声入力システム。
【請求項７】音声を入出力する手段と外部システムと
のアクセス状況を表示する手段とを備えた音声入力端末
と、各種情報を提供するアプリケーションサービスプロ
バイダと、入力された音声に基づいて前記音声入力端末
とアプリケーションサービスプロバイダとの対話を制御
する音声ポータルサーバとからなる音声入力システムに
おいて、前記音声ポータルサーバは、前記音声入力端末からの音
声を取り込みテキストとして認識する音声認識手段と、
認識されたテキストをコマンドテキスト辞書と照合しコ
マンドテキストとオブジェクトテキストとに分離するコ
マンド変換手段と、分離されたコマンドテキストとオブ
ジェクトテキストとを前記アプリケーションサービスプ
ロバイダに送り前記アプリケーションサービスプロバイ
ダで検索された情報を音声入力端末に出力する対話制御
手段とを備えたことを特徴とする音声ポータルサーバ。
【請求項８】請求項７に記載の音声ポータルサーバに
おいて、前記音声認識手段が、連続音声認識手段と、単語音声認
識手段と、入力された音声の特徴量をしきい値として前
記２つの認識手段の認識結果の一方を選択して出力する
認識総合評価手段とを備えたことを特徴とする音声ポー
タルサーバ。
【請求項９】請求項８に記載の音声ポータルサーバに
おいて、前記音声の特徴量が、発話時間であることを特徴とする
音声ポータルサーバ。
【請求項１０】請求項８に記載の音声ポータルサーバ
において、前記音声の特徴量が、認識文字列長であることを特徴と
する音声ポータルサーバ。
【請求項１１】音声ポータルサーバおよび各種情報を
提供するアプリケーションサービスプロバイダにアクセ
スしサービスを受ける音声入力端末において、音声入出力手段と、Ｗｅｂブラウザと、外部システムへ
のアクセス状況および検索結果を表示する表示手段とを
備えたことを特徴とする音声入力端末。
【請求項１２】請求項１１に記載の音声入力端末にお
いて、ＰＤＡ，携帯電話，車載ナビゲーションのいずれかに組
み込まれていることを特徴する携帯音声入力端末。
【請求項１３】請求項１１に記載の音声入力端末にお
いて、家庭電話，ＴＶ，ＰＣのいずれかに組み込まれているこ
とを特徴する家庭音声入力端末。