JP2004515859A

JP2004515859A - インターネット・アクセス用分散型音声認識

Info

Publication number: JP2004515859A
Application number: JP2002548614A
Authority: JP
Inventors: ディーフリードマン，シオドア
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-12-08
Filing date: 2001-12-05
Publication date: 2004-05-27
Also published as: WO2002046959A3; CN1235387C; CN1476714A; EP1364521A2; KR20020077422A; WO2002046959A2; US20020072916A1

Abstract

検索サーバは、情報源に対してユーザ・アドレスを提供し、該ユーザによる該情報源へのアクセスを可能にする。ユーザは、検索サーバにリクエストを送信し、該検索サーバは該リクエストに対応する情報源のアドレス（ＵＲＬ）を識別する。このリクエストは、口頭の要求でもよく、口頭の要求に対応するモデル・データでもよい。また、該検索サーバは、音声認識システムを含んでいてもよい。その後、該検索サーバは、そのユーザのアドレスを該リクエストに応答するための「返信先アドレス（ｒｅｐｌｙ−ｔｏａｄｄｒｅｓｓ）」として用い、該リクエストを識別された情報源へ伝達する。このユーザ・アドレスは、該ユーザが最初のリクエストを送信するのに用いた装置のアドレスでもよく、該ユーザに関連する別の装置のアドレスでもよい。

Description

【０００１】
本発明は、通信分野に係り、特に口頭の命令によるインターネット・アクセスを提供することに関する。
【０００２】
音声認識システムは、話された言葉やフレーズをテキスト文字列に変換する。音声認識システムは、「ローカル」にあっても、「リモート」にあってもよく、及び／又は、「一体化」されていてもよく、「分散」されていてもよい。リモート・システムは、ユーザのローカル・サイトに構成要素を有すると共に、音声認識システムの大部分はリモート・サイトに設けることが多い。したがって、リモートという語と分散型という語は交換可能に用いられる場合が多い。同様に、オフィス環境におけるネットワークなどのローカル・ネットワークは、アプリケーション・サーバと、サーバをユーザ局に提供するファイル・サーバとを含み得る。このようなアプリケーション・サーバによって提供されるアプリケーションは、音声認識アプリケーションのように完全にアプリケーション・サーバ上に常駐するものであって、通常は「分散型」と考えられる。これを開示するために、「分散型」という語は最も広い概念として用いられ、口頭の命令からのテキスト文字列が備えられたアプリケーション内に統合されていないあらゆる音声認識システムを包含する。一般的に、このような分散型音声認識システムは、音声入力制御アプリケーションから話されたフレーズ又はそれをエンコードしたものを受信し、対応するテキスト文字列を適切なアプリケーション・プログラムへルーティングするために該制御アプリケーションに返す。
【０００３】
図１は、従来の汎用音声認識システム１００を示す。この音声認識システム１００は、コントローラ１１０と、音声認識器１２０と、辞書１２５とを有する。コントローラ１１０は、音声モデラ１１２と、テキスト・プロセッサ１１４とを有する。ユーザがマイク１０１へ向かって話すと、音声認識モデラ１１２は入力された声をモデル・データへエンコードする。このモデル・データは、音声認識を実行するのに用いられる特定のスキームに基づく。このモデル・データは、例えば、各音素又は音素群に対するシンボルを含んでもよく、音声認識器１２０は、このシンボルと、該シンボルとテキストとの間のマッピングを提供する辞書１２５とに基づいて、語又はフレーズを認識するように構成される。
【０００４】
テキスト・プロセッサ１１４は、音声認識器１２０からのテキストを処理し、該テキストへの応答として適切なアクションを決定する。例えば、テキストが「ＧｏＴｏＷｏｒｄ（ワードへ行け）」であれば、コントローラ１１０は特定のワード・プロセッサ・アプリケーション１４０を起動させるのに適したコマンドをシステムに提供する。その後、「ＢｅｇｉｎＤｉｃｔａｔｉｏｎ（口述筆記を始めろ）」というテキスト文字列が、「ＥｎｄＤｉｃｔａｔｉｏｎ（口述筆記を止めろ）」というテキスト文字列が音声認識器１２０から受信されるまで、コントローラに、すべての後続テキスト文字列を処理せずにアプリケーション１４０へ渡すようにさせてもよい。
【０００５】
音声認識器１２０は、テキストを音声に関連付ける様々な技術のいずれを用いてもよい。語彙が少ないシステムにおいては、例えば、認識器１２０は、単に、モデル・データが音声モデラからのモデル・データと最もよく一致するテキストを選択するだけでもよい。語彙の多いシステムにおいては、認識器１２０は、音声モデラからのモデル・データとかなり一致する実行可能な代替案の中から選択するのに、文法に基づいた規則などの補助情報を用いてもよい。音声をテキストへ変換する技術は、本分野ではよく知られている。音声認識器から提供されるテキストは、話されたフレーズの直接翻訳である必要はないことに注意。例えば、話されたフレーズ「Ｊｏｅへ電話」は、辞書１２５から「１−９１４−５５５−４３２１」というテキスト文字列をもたらしてもよい。分散型音声認識システムにおいて、音声認識器１２０及び辞書１２５の一部又は全部は、音声モデラ１１２及びテキスト・プロセッサ１１４とは別のアプリケーションであってもよい。例えば、ユーザの音声を認識器１２０へ伝達するのに必要な帯域幅を最小化するために、音声認識器１２０及び辞書１２５は、リモート・インターネット・サイトに配置され、音声モデラ１１２はローカル・サイトに配置されてもよい。
【０００６】
ここに参考文献として組み込まれる、ＩｃｈｉｒｏＨａｔａｎｏにより１９９９年８月２５日に出願された欧州特許出願ＥＰ０９８２６７２Ａ２「ＩＮＦＯＲＭＡＴＩＯＮＲＥＴＲＩＥＶＡＬＳＹＳＴＥＭＷＩＴＨＡＳＥＡＲＣＨＡＳＳＩＳＴＳＥＲＶＥＲ」は、インターネット・サイトなどの複数の情報サーバのそれぞれにアクセスするための識別子のリストを備えた情報取得システムについて開示している。この各情報サーバに関連付けられた識別子リストは、「発音」識別子などのサーバを識別するための様々な手段を含む。ユーザの話したフレーズが特定の情報サーバの発音識別子に対応する場合、該情報サーバの場所（例えば、ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｅｒ））が取得される。このＵＲＬは、次いで、このＵＲＬに位置する情報サーバから情報を取り出すアプリケーションへ提供される。Ｓｐｒｉｄｇｅ，Ｉｎｃ．から出ているｍｙＳｐｅｅｃｈアプリケーションなどの市販のアプリケーションは、インターネット利用可能電話機を通じたモバイル・ウェブ・アクセスを目標とした同様の能力を提供する。
【０００７】
図２は、特にインターネット・ウェブ・サイトへのアクセスを容易にするように構成された特殊目的音声処理システムの実施形態の一例を示す。ＵＲＬ検索サーバ２２０は、インターネット２５０を通じて、ユーザ局２３０から入力を受信する。このユーザ局２３０からの入力は、マイク２０１からの入力に対応するモデル・データと、検索サーバ２２０が該ユーザ入力の処理の結果を方向付けるのに用いる「返信先（ｒｅｐｌｙ−ｔｏ）」アドレスと、を含む。このアプリケーションにおいて、ユーザ入力の処理の結果は、「見つかりませんでした（ｎｏｔ−ｆｏｕｎｄ）」というメッセージか、或いは、ユーザ入力に対応するサイトのＵＲＬを含むメッセージのいずれかである。ユーザ局２３０は、提供されたＵＲＬを用いて、情報源２１０と、情報源２１０がユーザにメッセージを返信するのに用いる前述の「返信先」アドレスとへメッセージを送る。通常、この情報源２１０からのメッセージは、ウェブ・ページである。ユーザ局２３０が携帯装置の場合、通常、ＷＡＰ（ＷｉｒｅｌｅｓｓＡｃｃｅｓｓＰｒｏｔｏｃｏｌ）が用いられることに注意。情報源２１０からのＷＡＰメッセージは、ＷＭＬ（ＷｉｒｅｌｅｓｓＭａｒｋｕｐＬａｎｇｕａｇｅ）を用いてエンコードされた「ｄｅｃｋ」からの「カード」群である。
【０００８】
本発明の目的は、音声認識システムを通じたインターネット・アクセスの効率を向上させることである。本発明の別の目的は、携帯装置を通じたインターネット・アクセスの効率を向上させることである。本発明の別の目的は、インターネット・アクセスの応答時間を向上させることである。
【０００９】
上記及び他の目的は、ユーザが情報源にアクセスできるように、ユーザ・アドレスを該情報源へ提供する検索サーバを提供することによって実現される。ユーザは、検索サーバへリクエストを送り、検索サーバは該リクエストに対応する情報源のアドレス（ＵＲＬ）を識別する。リクエストは、口頭によるリクエストでもよく、口頭によるリクエストに対応したモデル・データでもよい。検索サーバは、音声認識システムを含んでもよい。その後、検索サーバは、リクエストを、ユーザ・アドレスをこのリクエストに応答するための「返信先アドレス（ｒｅｐｌｙ−ｔｏａｄｄｒｅｓｓ）」として用いて、識別された情報源へ伝達する。このユーザ・アドレスは、ユーザが最初のリクエストを伝達するのに用いた装置のアドレスでもよく、ユーザに関係ある別の装置のアドレスでもよい。
【００１０】
本発明を、添付図面を参照して、例示的に、より詳細に説明する。図面を通じて、同じ参照番号は同様の又は対応する特徴又は機能を示す。
【００１１】
図３Ａ及び３Ｂは、本発明に係る検索システム３００、３００’の一例のブロック図を示す。理解を容易にするために、送信器、受信器、モデムなどのシステム３００、３００’の各構成要素間での通信を実行する従来の手段は図示していない。しかし、それらは当業者には明らかである。
【００１２】
図３Ａの例において、ユーザは、ユーザ局３３０からＵＲＬ検索サーバ３２０へリクエストを送る。検索サーバ３２０は、このユーザ・リクエストに対応した単一のＵＲＬを決定するように構成される。したがって、これは、ユーザが特定の所定のウェブ・サイトへアクセスするためのリクエストとして、「ＧｅｔＳｔｏｃｋＰｒｉｃｅｓ（株価の取得）」などのキーワード又はフレーズを用いる音声認識システムにおいて用いられるのに特によく適する。話されたフレーズは、マイク２０１を通じて、ユーザ局３３０へ入力される。ユーザ局３３０は、携帯電話でもよく、パームトップ機器でもよく、ポータブル・コンピュータでもよく、セットトップ・ボックスでもよく、インターネット２５０などの広域ネットワークへのアクセスを提供することが可能なあらゆる他の装置であってもよい。ネットワーク２５０へのアクセスは、（図示しない）１又は複数のゲートウェイを通じて行われ得る。
【００１３】
音声認識実施形態において、ユーザ局は、話されたリクエストをサーバ３２０へ伝達するのにより少ない帯域幅で済むように、話されたフレーズをモデル・データへエンコードすることが好ましい。サーバ３２０は、音声認識器１２０と、必要に応じて該モデル・データをＵＲＬロケータ３２２が用いる形式へ変換する辞書１２５と、を有する。例えば、前述のｍｙＳｐｅｅｃｈアプリケーションにおいて、ユーザは、例えば、
「ＧｅｔＳｔｏｃｋＰｒｉｃｅｓ」，ｈｔｔｐ：／／ｗｗｗ．ｓｔｏｃｋｓｏｎｌｉｎｅ／ｕｓｅｒｐａｇｅ３／
などのテキスト文字列と対応するＵＲＬとを入力することによって、ユーザが将来アクセスすることが予想される情報源２１０それぞれについてアプリケーション・データベース３２５をセットアップする。前述の欧州特許出願ＥＰ０９８２６７２Ａ２において、データベースは、各ＵＲＬに対応するフレーズの音声学のテキスト・エンコーディングを含む。
【００１４】
この発明は音声認識によく適するが、音声認識器１２０が検索サーバ３２０に配置された分散型音声認識についても、ユーザ局がリクエストをＵＲＬ場所１２２へ直接提供し得ることに注意。このリクエストは、例えば、ユーザによって入力されたテキスト文字列でもよく、ユーザ局３３０の音声認識器の出力でもよい。
【００１５】
例えば従来通りのＴＣＰ／ＩＰリクエストなどのユーザからのリクエストは、該リクエストの発信元３３０のアドレス、及び／又は、明示的な「返信先（ｒｅｐｌｙ−ｔｏ）」アドレスを有する。従来の検索サーバは、このアドレスを用いて、識別された情報源ＵＲＬをユーザ局３３０へ返信する。
【００１６】
本発明によれば、検索サーバ３２０は、リクエストを直接識別された情報源２１０へ伝達する。このリクエストは、ユーザ局３３０のアドレスを、該リクエストの発信元として、及び／又は、明示的な「返信先（ｒｅｐｌｙ−ｔｏ）」アドレスとして、識別する。このように、情報源２１０がリクエストに応答するとき、返答はユーザ局３３０へ直接送られる。必要に応じてそれ以降情報源２１０へ直接アクセスするために、配置されたＵＲＬもユーザ局３３０へ送られてもよい。
【００１７】
サーバ３２０から送られる特定のリクエストは、ウェブ・サイトへアクセスするための固定的リクエストであってもよく、或いは、好ましい実施形態においては、データベース３２５に含まれ得る各フレーズに対応したリクエスト形式であってもよい。例えば、リクエストには、そのＵＲＬのウェブ・ページをダウンロードする従来通りのリクエストもあれば、例えば、オプションの選択や、検索リクエストなどを通じて該ウェブ・サイト内の情報にアクセスするサブコマンドもある。ＵＲＬに対応したフレーズに加えて、好ましい実施形態におけるデータベース３２５は、は、記録されたフレーズに関連する他の情報も許容するように構成される。例えば、数、文字などのいくつかのフレーズ、又は、「次」、「戻る」、「ホーム」などの特定のキーワードを、データベース３２５及びサーバ３２０に定義し、対応するコマンド又は文字列が最後に参照したＵＲＬの情報源２１０へ直接伝達されるようにしてもよい。
【００１８】
図３Ｂは、本発明の代替的実施形態を示す。ここでは、ユーザに関連する２以上の局３３０ａ、３３０ｂが存在する。例えば、ユーザ局３３０ａ及びマイク２１０は携帯電話であり、ユーザ局３３０ｂはカーナビゲーション・システムであってもよい。好ましい実施形態において、ユーザ局３３０ａは、他方のユーザ局３３０ｂのアドレスを、ユーザ・リクエストの発信元、又は明示的な「返信先（ｒｅｐｌｙ−ｔｏ）」アドレスとして提供する。参照を容易にするために、「発信元アドレス」という語は、以下、明示／黙示の返信先アドレスを含むものとして用いられる。ＵＲＬサーバ３２０は、この第二のユーザ局３３０ｂの発信元アドレスを、配置された情報源２１０へのリクエストの発信元アドレスとして用いる。この実施形態は、特に、音声入力用に構成されていない装置３３０ｂ、及び／又は、ダウンロードされたウェブ・ページ又はＷＡＰｄｅｃｋｓを受信するように構成されていない装置３３０ａによく適している。例えば、ユーザは、データベース３２５における「ＳｈｏｗＤｏｗｎｔｏｗｎ（ダウンタウンを示せ）」という文字列を特定の地図の対応するＵＲＬアドレスでエンコードしてもよい。ユーザは、局３３０ａがＵＲＬ検索サーバ３２０への後続のリクエストに局３３０ｂのアドレスを含ませるように、局３３０ａを構成する。ユーザが「ＳｈｏｗＤｏｗｎｔｏｗｎ」というフレーズを話すと、局３３０ａはこのフレーズに対応するモデル・データを、局３３０ｂのアドレスと共に、検索サーバ３２０へ送信する。その後、検索サーバ３２０は、局３３０ｂのアドレスを含む特定の地図に対するリクエストを対応する情報源２１０へ伝達し、情報源２１０はこのマップを局３３０ｂへ伝達する。ユーザは、「拡大（ｚｏｏｍｉｎ）」、「縮小（ｚｏｏｍｏｕｔ）」、「北へパン（ｐａｎｎｏｒｔｈ）」などのフレーズをデータベース３２５へエンコードし、検索サーバ３２０が、対応するコマンドがあたかも局３３０ｂから発せられたかのうように、該コマンドを情報源２１０へ伝達してもよい。
【００１９】
ユーザ局３３０ａがサーバ３２０へのリクエストに局３３０ｂのアドレスを含ませるように局３３０ａを構成する代わりに、データベース３２５を特定のフレーズに対して予め定められた発信元ＵＲＬ用のフィールドを含むように構成することも可能である。例えば、「ＳｈｏｗＤｏｗｎｔｏｗｎＭａｐＩｎＣａｒ（ダウンタウンの地図を車に示せ）」というフレーズは、データベース３２５の「目標ＵＲＬ」フィールドにおける地図のアドレスに対応し得ると共に、「発信元ＵＲＬ」フィールドにおけるユーザのカーナビゲーション・システムのＵＲＬアドレスに対応し得る。本発明の原理の利便性を向上させる上記及び他のオプションは当業者には明らかである。
【００２０】
図４は、図３の検索サーバ３２０において実施されるかもしれない、本発明に係る検索システムのフロー図の一例を示す。図４の例示的フロー図は、排他的であることが意図されたものではなく、当業者には明らかなように、代替的処理スキームも上述のオプション及び特徴を実行するのに用いられ得る。
【００２１】
４１０において、声入力に対応したモデル・データが受信され、４２０において、このモデル・データは音声認識器を通じて、テキスト文字列へ変換される。このモデル・データを含むメッセージは、発信元ＵＲＬの識別を含む。ループ４３０〜４５０は、図３のサーバ３２０のデータベース３２５のところで既に述べたように、モデル・データを記録されたデータ・フレーズと比較する。４３５において、モデル・データが記録されたデータ・フレーズに対応する場合、対応する目標ＵＲＬが、４４０において、取得される。前述のように、対応するコマンド又はテキスト文字列などの他の情報が更に取得されてもよい。４７０において、リクエストが目標ＵＲＬへ伝達される。このリクエストには、４１０で受信された発信元アドレスが含まれる。よって、目標ＵＲＬは、前述のように、元の発信元アドレスへ直接返答することができる。モデル・データが記録されたデータ・フレーズのいずれとも一致しない場合、４６０において、ユーザに通知される。
【００２２】
以上は単に本発明の原理を説明したに過ぎない。したがって、当業者は、ここに明示的に説明又は図示されてはいないが、本発明の原理を実施し、よって以下の請求項の意図及び範囲内にある様々な変形例を考案することができることは明らかである。
【図面の簡単な説明】
【図１】
従来の汎用音声認識システムの一例を示すブロック図である。
【図２】
音声認識システムを含む従来の検索システムの一例を示すブロック図である。
【図３Ａ】
本発明に係る検索システムの一例を示すブロック図である。
【図３Ｂ】
本発明に係る検索システムの一例を示すブロック図である。
【図４】
本発明に係る検索システムのフロー図の一例である。

Claims

発信元装置から目標識別子及び発信元アドレスを受信するように構成された受信器と、
前記目標識別子に対応した目標アドレスを識別するように構成された目標ロケータと、
前記目標アドレスへリクエストを伝達するように構成された送信器と、を有する検索装置であって、
前記リクエストは、前記検索装置の送信器からのリクエストへの返答の意図された受信者として前記発信元アドレスを含むことを特徴とする検索装置。
請求項１記載の検索装置であって、
前記目標識別子は声フレーズに対応し、
前記検索装置は、更に、
前記目標識別子を処理し、前記目標アドレスを識別するのに用いられる前記目標ロケータへ入力を提供する音声認識器を有することを特徴とする検索装置。
請求項１記載の検索装置であって、
前記発信元アドレスは、前記発信元装置のうちの１つに対応し、
宛先装置は、前記発信元装置とは異なる、ことを特徴とする検索装置。
請求項１記載の検索装置であって、
前記送信器及び受信器は、インターネット接続を通じて通信するように構成されることを特徴とする検索装置。
請求項４記載の検索装置であって、
前記発信元アドレス及び目標アドレスは、ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｅｒ）であることを特徴とする検索装置。
請求項１記載の検索装置であって、
前記受信器は、更に、前記発信元装置からの後続の入力を受信するように構成され、
前記目標ロケータは、更に、前記テキスト文字列を前記目標アドレスへ伝達するように構成される、ことを特徴とする検索装置。
請求項６記載の検索装置であって、
前記後続の入力は声フレーズに対応し、
前記目標ロケータは、更に、前記後続の入力を処理して、前記テキスト文字列を提供する音声認識器を有する、ことを特徴とする検索装置。
ユーザ入力を受信し、
発信元アドレスと前記ユーザ入力に対応する目標識別子とをロケータ装置へ送信し、
前記目標識別子に対応する目標発信元へ直接リクエストを開始することなく、該目標発信元からの返答を受信する、ように構成されたアプリケーションを有するユーザ装置。
請求項８記載のユーザ装置であって、
前記アプリケーションは、前記ロケータ装置への送信、及び前記目標発信元からの受信、をインターネット接続を通じて行うことを特徴とするユーザ装置。
請求項８記載のユーザ装置であって、
前記ユーザ入力は声フレーズに対応し、
前記アプリケーションは、更に、前記声フレーズを処理して、前記目標識別子を提供するように構成される、ことを特徴とするユーザ装置。
ユーザへサービスを提供する方法であり、
前記ユーザから目標識別子と関連するアドレスとを受信する工程と、
前記目標識別子に対応する目標アドレスを識別する工程と、
前記目標アドレスへリクエストを送信する工程と、を有する方法であって、
前記リクエストは、前記関連アドレスを該リクエストへの返答の意図された受信者として含むことを特徴とする方法。
請求項１１記載の方法であって、
前記目標識別子は声フレーズに対応し、
前記方法は、更に、前記目標識別子を処理して、前記目標アドレスを識別するのに用いられる検索アイテムを提供する工程を有することを特徴とする方法。
請求項１１記載の方法であって、
前記関連アドレスは、ユーザからの前記目標識別子の発信元装置のうちの１つに対応し、
宛先装置は前記発信元装置とは異なる、ことを特徴とする方法。
請求項１１記載の方法であって、
前記受信及び送信工程は、インターネット接続を通じてそれぞれ実行されることを特徴とする方法。
請求項１４記載の方法であって、
前記発信元アドレス及び目標アドレスは、ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｅｒ）であることを特徴とする方法。
請求項１１記載の方法であって、
ユーザから後続の入力を受信する工程と、
該後続の入力に対応するテキスト文字列を識別する工程と、
該テキスト文字列を前記目標アドレスへ送信する工程と、を更に有することを特徴とする方法。