JP2003502752A

JP2003502752A - 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法

Info

Publication number: JP2003502752A
Application number: JP2001503600A
Authority: JP
Inventors: デーウルリヒ，メインハルト; テレン，エリク; ベスリンク，シュテファン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-06-09
Filing date: 2000-05-30
Publication date: 2003-01-21
Also published as: EP1192530A1; WO2000077607A1; AU5399300A

Abstract

(57)【要約】本方法は、クライアント（２）のユーザが通信ネットワークにおいて音声入力を通じて所定の情報部分を求めることを可能にする。このため、クライアント（２）は、音声入力を可能にする個人用の情報部分をサーバ（６）からダウンロードし、音声判別器（８）が、発せられた音声入力から認識結果を生成し、認識結果を利用して、データ・ファイル（５）において情報部分に対するリンク（４４-４６，４８）が決定され、情報部分に対して、認結果と相関関係を有するワード（４１-４３，４７）が割り当てられる。さらに、通信ネットワーク（４）内の音声ナビゲーションに関して個人用の情報部分（２７）において音声入力機能を実行するための方法に関し、クライアント（１）を通じてサーバ（６）から登録の情報部分（１９）がダウンロードされ、登録の情報部分（１９）を利用して所定のワード（４１-４３）に対してユーザが特定するリンク（４６）が割り当てられ、ユーザ識別子（ＩＤｎ）に関する割当がデータ・ファイル（５）に伝送され、およびユーザ識別子（ＩＤｎ）と、個人用の情報部分（２７）に各々結合されることが可能な音声判別器（８）のアドレスがクライアント（１）に伝送される。

Description

【発明の詳細な説明】

【０００１】本発明は、音声ナビゲーション方法および通信ネットワークにおける音声ナビ
ゲーションのための個人用の情報部分(information unit)における音声入力機能
を実行する方法に関する。

【０００２】ネットワークを介する情報配信はますます複雑化している。そして、インター
ネットは通信ネットワークとして増大する重要性を獲得している。インターネッ
トからの情報にアクセスするためには、情報を簡易に発見する各自の支援手段を
利用することが重要である。

【０００３】人間の最も一般的な通信の手段は音声である。しかしながら、コンピュータを
利用して通信用の入力媒体として音声を利用するには、いくつかの問題がある。
音声認識を実行するプログラムは、後述する音声判別器において、一方において
理解するための語彙に、他方において話者の発音に対して合わせられる。申し分
のない認識結果を得るためには、手間のかかる訓練が必要である。音声認識のた
めの基礎は、非常に能力の高いコンピュータである。この前提条件は、複数のユ
ーザが複数の情報部分を利用する多くのコンピュータでは満たされない。局所的
な音声認識システムは、その人によって使用される語彙の上述したような手間の
かかる訓練を実行する必要のある者に対してだけ構築されるのが一般的である。

【０００４】ＤＥ４４４０５９８Ｃ１は、喋った言葉で制御されるハイパーテキスト・ナビ
ゲーション・システムを開示する。局所的な音声判別器に関し、語彙(lexicon)
と、ハイパーテキスト書類のハイパーリンクの聴覚的な音声認識を支援する確立
モデルとが割り当てられるためには、ブラウザ(browser)またはビューア(viewer
)の制御を可能にすることである。このシステムは、認識されるべきリンクに音
声認識が行われる間にリンク(link)の発音を許容し、これらのリンクが事前に知
られることなしに行われる。このため、ハイパーテキスト書類は、音声判別器を
適合させるために必要な付加的なデータを含む。これらの付加的なデータは、呼
び出しユーザ・システムにおいて生成され、またはプロバイダによってハイパー
テキスト書類に割り当てられ、およびユーザ・システムによって抽出される際に
同時に送信される。

【０００５】ＤＥ１９７０７９７３Ａ１は、ネットワーク・システム特にインターネットに
おけるコンピュータにおいて、音声入力により機能を実行する方法を開示してい
る。このため、ユーザのコンピュータは音声認識処理を実行するための局所的な
音声判別器を含み、そのパラメータは、それぞれのサービス・プロバイダによっ
て定められ、ユーザが要求する場合にサービス・プロバイダからユーザへ伝送さ
れる。

【０００６】そのような局所的な音声認識システムは、能力の高いコンピュータを要し、語
彙に関する柔軟性は制限される。その柔軟性を増加させるには伝送されるべきデ
ータ数を増加することになる。なぜなら、局所的な音声判別器を局部コンピュー
タに調整するために必要なパラメータが伝送されるべきだからである。しかしな
がら、限定された伝送容量を有する一方で多数のデータを伝送することは、多く
の時間を犠牲にする。

【０００７】したがって、本発明は、情報部分に対して、予め定められたウェブ・サイトへ
の音声ナビゲーションを可能にすることを目的とする。

【０００８】本発明によりこの目的は達成され、クライアントはサーバから音声入力を可能
にする個人用の情報部分をダウンロードし、発せられた音声入力からの認識結果
を音声判別器が生成し、その認識結果を利用してデータ・ファイル内でリンクが
決定され、そのリンクは認識結果に関連する言葉（ワード）に割り当てられる。

【０００９】多くの場合にブラウザまたはビューアを表すユーザ・プログラムは、クライア
ントにおいて実行され、情報部分を示しおよび表示する。呼び出し側のクライア
ントは、通信ネットワークの各自の接続を通じて、サービス・プロバイダのサー
バに接続され、サーバは例えばインターネットにアクセスすることを可能にする
。ＩＰアドレスまたはユニバーサル資源ロケータ(URL: Universal Resource Loc
ator)をキー入力することによって、情報部分が求められる。要求する情報の更
なる可能性は、リンクまたはハイパーリンクによって提供される。これらのリン
クは様々な性質を有し、テキスト以外の部分に下線が付与されるであろう。マウ
スを利用してこのリンクをクリックすることによって、そのリンクと共に情報部
分が求められる。情報部分を表示したり、情報部分に基づいて更なる情報部分を
求めて表示させることは、ナビゲーション(navigation)と呼ばれる。情報部分の
形式の情報は、サービス・プロバイダおよびインターネット上の会社によって提
供され、アクセス可能になる。特にホーム・ページと呼ばれる個人用の情報部分
もこれまでにインターネット上に提供されている。ホーム・ページのそれぞれの
所有者または作者は、そのホーム・ページに興味のある情報を置いておく。多く
の場合そのようなホーム・ページは、人物や、例えば写真のような趣味に関する
詳細が含まれている。さらに、ホーム・ページの所有者は、そのホーム・ページ
への訪問者に閲覧させる重要なリンクを示すこともしばしばある。会社もまたホ
ーム・ページを作成し、それらをインターネット上でアクセス可能にし、多くの
場合はウェブ・サイトの最初のページがホーム・ページと呼ばれ、そこからユー
ザは企業の特定する他のウェブ・ページにナビゲーション（航行）することが可
能である。

【００１０】クライアントは個人用の情報部分をサーバからダウンロードし、サーバは通信
ネットワークを介してクライアントに接続される。この情報部分は、ブラウザを
利用することによってユーザに示される。ユーザは、例えば示された情報によっ
て、音声入力を与えるよう要求される。この音声入力は、音声認識サーバへ伝送
され、音声認識処理を実行する音声判別器に供給される。音声判別器により生成
された認識結果は、クライアントに返送される。クライアントは、認識結果をデ
ータ・ファイルに送信する。データ・ファイルは、データ・ファイル・サーバ上
にあり、発声された音声に関連するリンクがそこで決定される。発声した音声は
、リンクが割り当てられているワードに対応する。

【００１１】本発明の更なる実施例では、個人用の情報部分がユーザ識別子を包含する。ユ
ーザにより発せられた音声入力から音声判別器が生成した認識結果は、ユーザ識
別氏と共にデータ・ファイルに送信される。データ・ファイルにおいて、認識結
果およびユーザ識別子を利用してリンクが決定される。データ・ファイルは、ワ
ード又はユーザ識別子に対するリンクの割当を含む。それぞれのユーザ識別子に
対する割当からのワードと認識結果との間に相関関係が存在する場合には、割り
当てられたリンクがクライアントに送信される。

【００１２】決定されたリンクは、ユーザが各自自身のリンクを求めるように、クライアン
トに直接的に送信可能である。データ・ファイル・サーバにとって決定されたリ
ンクを作動させること、および接続された情報部分にとってクライアントに配信
および提示されることは、きわめて有利である。

【００１３】本発明の更なる実施例では、個人用の情報部分に、インターネット上の音声認
識サーバのアドレスを提供することが有利である。このアドレスは、個人用の情
報部分が求められた際にクライアントに送信される。ユーザによって発せられた
音声入力は、通信ネットワークを介して音声認識サーバ上の音声判別器に送信さ
れ、音声判別器は音声認識を実行する。音声判別器によって生成された認識結果
はクライアントに送信される。そのような音声判別器の高い計算能力が有利であ
るのは、認識結果が音声認識サーバで生成される場合である。これらの音声判別
器は、専門化されおよび特別に仕立てられた語彙を有し、話者に依存しない音声
認識が可能である。このことは、より高い認識率をもたらし、認識結果が一層迅
速に利用可能になることを達成する。

【００１４】更なる実施例では、コンピュータにおいて音声認識を局所的に実行することが
提供される。限定された語彙および充分に能力の高いコンピュータを利用する簡
易なアプリケーションに対して、音声認識がクライアント上で局所的に実行され
る。その結果、遠隔している音声判別器に送信を行う必要がなく、送信エラーが
減少する。さらに、本発明は、局所的な音声判別器を利用することなしに、ホー
ム・ページに関する音声入力機能を実行することを目的とする。

【００１５】局所的な音声判別器を利用することなしに、ホーム・ページで音声入力機能を
実行する目的は、次のようにして達成される。クライアントを通じてサーバから
登録の情報部分がダウンロードされ、登録の情報部分を利用して所定のワードに
対してユーザが特定するリンクが割り当てられ、ユーザ識別子に関する割当がデ
ータ・ファイルに伝送され、およびユーザ識別子と、個人用の情報部分に各々結
合されることが可能な音声判別器のアドレスとがクライアントに伝送される。

【００１６】自身のホーム・ページで音声入力機能を実行することを希望するユーザは、サ
ーバから登録の情報部分をダウンロードする。この登録の情報部分において、各
自のリンクは、そのユーザによって定められたワードに割り当てられる。割当は
キーボードおよび／またはマウスを利用して行われる。そうすると、ユーザは、
インターネット上のそれぞれの情報に接続されるリンクを、自身の考えによって
割り当てる。個人用のリンクに対するこのようなユーザの特定するワードの割当
は、データ・ファイルに伝送される。データ・ファイルは、ユーザ識別子に関連
するその割当を格納する。ユーザ識別子および音声判別器が設けられている音声
認識サーバのアドレスは、クライアントに伝送される。このユーザ識別子および
音声判別器のアドレスは、クライアントのユーザによって個人用の情報部分に結
合され、そのユーザは個人用の情報部分の所有者／作者でもあり得る。各自のユ
ーザ識別子に関してデータ・ファイル・サーバに割当を格納し、そのユーザ識別
子を個人用の情報部分に結合することによって、個人用の情報部分における音声
入力機能が実行される。ホーム・ページの作者は、そのホーム・ページへの訪問
者が、各自の所定のワードを発声し、作者により割り当てられた情報部分にリン
クを介して、音声入力によって到着することを可能にし、要求するクライアント
において訪問者が局所的な音声認識プログラムを実行することを要しない。

【００１７】本発明の更なる実施例において、音声判別器は所定のワードだけを認識するわ
けではない。音声判別器はユーザに依存しないワード(user-independent word)
をも認識する。サービス・プロバイダは、各自のユーザに依存しないリンクを、
ユーザに依存しないワードに割り当てる。音声判別器が、ユーザに依存しないワ
ードに関連する発声音から認識結果を生成する際は常に、ユーザに依存しないワ
ードに対してサービス・プロバイダが割り当てたところのユーザに依存しないリ
ンクがクライアントに返信される。ユーザに依存しないリンクをクライアントに
返信せずに、ユーザに依存しないリンクに結合された情報部分をクライアントに
直接的に送信することも可能である。

【００１８】本発明の好適実施例では、登録の情報部分が求められる場合、および音声入力
が可能な個人用の情報部分が求められる場合に、それぞれの要求するクライアン
トでソフトウエア・モジュールが実行されるか否かの検査が行われる。このソフ
トウエア・モジュールは特徴の抽出を実行する。例えばマイクロフォンのような
入力媒体を利用してソフトウエア・モジュールに提供され、電気信号として利用
可能な音声入力データは、このソフトウエア・モジュールによって量子化され、
特性ベクトルに割り当てられる成分を生成するそれぞれの分析に委ねられる。そ
の後これらの特徴ベクトルは、結合された判別器へ伝送される。さらにソフトウ
エア・モジュールは、特性ベクトルの送信、認識結果の受信、ユーザ識別子およ
び認識結果のデータ・ファイル・サーバへの送信、およびリンクの受信に関する
処理を行う。ソフトウエア・モジュールが利用可能でない場合は、要求された情
報部分が格納されているサーバからダウンロードされる。

【００１９】自身のホーム・ページを有しておらず、その結果ユーザ識別子と音声判別器の
アドレスとをホーム・ページに結合させることができないクライアントのユーザ
に関し、これらのユーザに対して、個別のユーザ識別子と音声判別器のアドレス
との両者を含む情報部分を送信する。この情報部分は、クライアントで実行され
るブラウザによって示され、ユーザが音声入力を通じてリンクを介してその情報
部分を求めることを可能にし、そのリンクは、各自の所定のワードに割り当てら
れたものであり、サービス・プロバイダによってユーザに依存しないワードに割
り当てられたものである。

【００２０】割当がユーザ識別子とともに格納されているデータ・ファイルと音声判別器と
が１つのサーバ上に位置する場合は有利である。これが有利であるのは、認識結
果が再度クライアントへそしてそこからデータ・ファイル・サーバへ送信される
必要がなく、認識結果がデータ・ファイルの共通サーバへ直接的に送信されるこ
とである。各自のユーザ識別子は、特性ベクトルと共に共通のサーバへ伝送され
る。これは、遅延を抑制し、同時に誤りの確率ひいては生じ得る送信エラーを最
小化する。

【００２１】さらに、本発明の目的は、音声入力データを特性ベクトルに割り当てるソフト
ウエア・モジュールを利用することによって達成される。このソフトウエア・モ
ジュールは、特性ベクトルを、アドレスで規定される音声判別器に送信する。音
声判別器により生成された認識結果は、このソフトウエア・モジュールから受信
され、ユーザ識別子とともにデータ・ファイルに送信される。決定されたリンク
は、ソフトウエア・モジュールから受信され、そのリンクを有する情報部分が、
要求するクライアントのユーザに提供される。

【００２２】本発明の好適実施例では、ソフトウエア・モジュールが操作要素を利用するこ
とによって起動される。例えばボタンとして表現される操作要素による起動は、
音声入力データの録音を開始するであろう。

【００２３】また、本発明の目的は、上述したソフトウエア・モジュールが実行されるコン
ピュータによって達成される。

【００２４】本発明のこれらおよび他の形態は、以下に説明する実施例を通じて一層明白と
なるであろう。

【００２５】図１は、本発明による方法を実行するために必要な要素が表現されている構造
を示す。本発明による方法を実行するために、複数のクライアント１，２と、１
つの音声認識サーバ３と、１つのサーバ６と、１つのデータ・ファイル・サーバ
５が配置される。これらのコンピュータはデータ・ネットワーク４を介して接続
される。通信ネットワーク４は、インターネットにより、およびイントラネット
および／またはエクストラネットにより実現され得る。個々の通信ネットワーク
４は、それらの通信ネットワークにアクセスする限定されたユーザ・グループを
有する点のみが異なるのが一般的である。

【００２６】クライアント１，２はコンピュータであり、そこで実行されるブラウザによっ
て、ユーザはそこから情報部分を求め、これは以後ホーム・ページおよび／また
はウエブ・ページとして言及される。企業によってインターネット上に設けられ
た情報部分は、ウェブ・サイトと記される。そのようなウェブ・サイトの入力情
報部分および個人の情報部分は、ホーム・ページと記される。ウェブ・サイトは
、所属が同じであるウェブ・ページの集合を意味するものとする。音声認識サー
バ３は、音声認識プログラムが実行される能力の高いコンピュータである。音声
認識コンピュータ３は、その構造が音声認識用に最適化されている特定用途語彙
を有する。データ・ファイル・サーバ５もコンピュータであり、これはインター
ネット４に接続される。割当は、インターネット４に接続されたデータ・ファイ
ル・サーバ５に格納される。

【００２７】図２は、所定の情報部分への音声ナビゲーションに必要なシステムを示す。情
報部分２７を表示させるブラウザ２０は、クライアント２において実行される。
本実施例で使用されるホーム・ページ２７のような情報部分は、ＨＴＭＬページ
（ハイパーテキスト・マークアップ言語）としてサーバ６に格納される。クライ
アント２は、ホーム・ページ２７が格納されているサーバ６へのリンクを利用し
てインターネット４を介する接続を設定する。このリンクはハイパーリンクとも
呼ばれる。表示されるテキストに加えて図形記号、音響および／または映像デー
タを包含することが可能なホーム・ページ２７は、サーバ６からダウンロードさ
れる。クライアント２は、音声入力用の入力媒体として使用されるマイクロフォ
ン２２を有する。アナログ信号として利用可能な音声入力データは、音響部２３
によってディジタル信号に変換され、ソフトウエア・モジュール２１が利用可能
なものになる。音声入力データは、ソフトウエア・モジュール２１によって解析
され、特性ベクトル(feature vector)に割り当てられる。クライアント２は、イ
ンターネット４を介してデータ・ファイル・サーバ５に接続される。データ・フ
ァイル・サーバ５は、ユーザ識別子ＩＤ１ないしＩＤｎにおける割当２５-２６
を格納する。各割当２５-２６は、各自のリンクに割り当てられた少なくとも１
つのワードを含む。クライアント２は、更にインターネット４を介して音声認識
サーバ３に接続される。接続２８，２９の各々は、サーバ６からデータ・ファイ
ル・サーバ５へ、および音声認識サーバ３からデータ・ファイル・サーバ５への
可能な直接接続を表現する。決定されたリンクは、接続２８のようなものを介し
てデータ・ファイル・サーバ５からサーバ６へ直接的に伝送される。接続２９を
介して音声判別器８からデータ・ファイル・サーバ５へ認識結果を直接的に伝送
することも可能である。クライアント２は、特性ベクトルに加えてユーザ識別子
ＩＤｎを音声判別器８に伝送する。

【００２８】図３は、音声ナビゲーションが行われる各ステップを示す。ステップ３０にお
いて（ホーム・ページのロード）(LHP: Load Home Page)、クライアント２のユ
ーザは、例えばサーバ６から音声入力を可能にするホーム・ページ２７をダウン
ロードする。ユーザは、ホーム・ページ２７を呼び出した訪問者でもあり得る。
ステップ３１（チェック）において、クライアント２は特徴抽出のためにソフト
ウエア・モジュール２１が適合するか否かを検査する。ソフトウエア・モジュー
ル２１が利用可能である場合、ステップ３２（ソフトウエア・モジュールのロー
ド）(LSM: Load Software Module)において、インターネット４を通じてサーバ
６からクライアント２上にロードされる。個人用ホーム・ページ２７がブラウザ
２０によって示され後に、ユーザはステップ３３（音声入力）(SI: Speech Inpu
t)において音声入力を開始する。この音声入力は、ソフトウエア・モジュール２
０を利用して、ステップ３４において（特性ベクトルの抽出）(EFV: Extract in
to Feature Vector)、特性ベクトルに細分される。ステップ３５において（特性
ベクトルの音声判別器への送信）(TMSR: TransMit Feature vectors to the Spe
ech Recognizer)、特性ベクトルは音声認識サーバ３へ伝送される。音声判別器
８は、音声認識サーバ３のアドレスによって定められ、そのアドレスはホーム・
ページ２７がロードされる場合にクライアントに通知される。ステップ３６（認
識結果の生成）(CRR: Create Recognition Result)において、音声判別器８は、
ユーザにより発せられた音声入力から生じる伝送された特性ベクトルから、認識
結果を生成する。認識結果は、ステップ３７（認識結果のクライアントへの伝送
）(TRRC: Transmit Recognition Result to the Client)において、クライアン
ト２へ返送される。ステップ３８において（ユーザ識別子および認識結果の送信
）(TIDRR: Transmit User Identifier and Recognition Result)、認識結果は、
ホーム・ページ２７がダウンロードされたときにクライアント２へ伝送されたユ
ーザ識別子ＩＤｎと共にデータ・ファイル・サーバ５へ伝送される。ステップ３
９において（ファイル・サーバにおける探索）(SFS: Search on File Server)、
ユーザ識別子ＩＤｎおよび認識結果を利用してリンクが探索される。探索される
リンクは、所定の割り当てられたワードとユーザ識別子ＩＤ１−ＩＤｎである。
そして、ユーザにより発せられた音声入力は、所定のワードの１つに対応する。
ステップ４０において（リンクの送信）(TL: Transmit Link)、決定されたリン
クはクライアント２へ伝送される。そのリンクを利用して、リンクに接続された
ウェブ・サイトまたはホーム・ページ２７がロードされ、ブラウザ２０によって
クライアント２上に表示される。

【００２９】音声記録を開始するために、ユーザは自身のマウスまたはキーボードを利用し
てボタン２４を作動させ、音声入力を発声する。この音声入力は上述したように
特性ベクトルに細分される。特性ベクトルは、インターネット４上でソフトウエ
ア・モジュール２１から定められた音声判別器８へ送信される。音声判別器８は
、特性ベクトルを受信し、音声認識プログラムを利用して認識結果を生成する。

【００３０】図４は、個人用ホームページ２７における音声入力機能を実行するために必要
なものを表現する。この方法に関して、ホーム・ページ２７の作者として表現さ
れるクライアント１のユーザは、所定のワード４１−４３に対するリンク４４−
４６の割り当て２５-２６を実行する。クライアント１は、サーバ６から登録除
法部分１９をダウンロードする。登録の情報部分を利用することによって、その
作者は、それぞれのリンク４４−４６を所定のワード４１−４３に割り当てる。
割当２５-２６は別々である。各自の所定のワードは、音声判別器８にとって既
知であり、後の音声入力の関連付け(correlation)の際に認識される。個々の割
当２５-２６は、クライアント１からデータ・ファイル・サーバ５へ伝送され、
割当２５-２６はユーザ識別子ＩＤ１−ＩＤｎと共にそこに格納される。データ
・ファイル・サーバ５は、作者の割当２５-２６が格納された際に、クライアン
ト１へ夫々のユーザ識別子ＩＤ１−ＩＤｎを伝送する。さらに、クライアント１
は、音声判別器８が備えられている音声認識サーバ３のアドレスを受信する。作
者は、音声判別器８のアドレスとユーザ識別子ＩＤｎとを自身のホーム・ページ
２７を利用して組み合わせる。これは例えば、音声判別器およびユーザ識別子Ｉ
Ｄｎのアドレスが、タグまたはＨＴＭＬコードにおける付加的な情報を利用して
同時に送信すれば可能である。割当は例えばキーボードを通じてそのリンクでキ
ーを押すことにより行うことができる。あるいは、マウスを利用してタグ・ボッ
クスを選択することにより、多数の所定のワードの中から、各自のリンクが割り
当てられている所定数のワードを選択することが可能である。所定のワードを確
認するために、作者は音声入力を通じて、割り当てたワードを入力することが可
能である。これらのワードは音声判別器８に伝送され認識される。認識結果はク
ライアント１に返信される。

【００３１】音声判別器は、所定のワード４１−４３だけでなく、ユーザに依存しないワー
ド４７をも認識する。ホーム・ページ２７の作者は、リンク４４−４６を所定の
ワード４１−４３に割り当てる。他方、例えば音声判別器８またはサーバ６のサ
ービス・プロバイダは、リンク４８をユーザに依存しないワード４７に割り当て
る。このユーザに依存しない割当に関し、音声判別器８はこれらのユーザに依存
しないワード４７を認識することが必要である。音声判別器８により認識される
ワード４１−４３，４７は、音声判別器８のプロバイダによって定められる。

【００３２】クライアントのユーザがホーム・ページ２７を所有せず、ホーム・ページ２７
を作成することも望まない場合は、それにもかかわらずユーザは、音声入力を介
して所定の情報へ航行することが可能である。このため、ユーザは登録の情報部
分１９の割当を行い、これはその後データ・ファイル・サーバ５へ伝送され、ユ
ーザ識別子ＩＤｎの下に格納される。データ・ファイル・サーバ５から伝送され
るものはデータ・ファイルであり、これは、ブラウザ２０によって表示可能であ
り、データ・ファイルはユーザ識別子ＩＤｎおよび音声判別器のアドレスを包含
する。ユーザがこのデータ・ファイルを求める場合は、そのユーザにより又はサ
ービス・プロバイダにより決定されたウェブ・ページへ、各音声入力と共に航行
することが可能である。

【００３３】作者のホーム・ページが格納されるサーバ６において、最も簡単に格納され得
るものは、割当２５-２６を有するデータ・ファイル５であり、音声判別器８を
そこに配置することも可能である。その配置は図示していない。そのような場合
、ユーザ識別子ＩＤｎを有する特性ベクトルは、クライアント２からその単独の
サーバ６へ送信される。音声判別器８によって生成された認識結果は、ユーザ識
別子ＩＤｎと共にデータ・ファイル５のサーバ６へ直接的に伝送され、その認識
結果およびユーザ識別子ＩＤｎに対するリンクがそのファイルにおいて決定され
る。このリンクは、クライアント２へ送信されるか、あるいは、そのリンクに結
合したウェブ・サイトがクライアント２に送信される。

【００３４】図５は、個人用ホーム・ページにおける音声入力機能を実行するための処理手
順を示す。ステップ５０において（登録ウェブ・サイトのロード）(LRWS: Load
Register Web Site)、ホーム・ページ２７の作者はサーバ６から登録の情報部分
１９をダウンロードする。ステップ５３において（リンクに対するワードの割当
）(AWL: Assign Words to Links)、それぞれの個々のリンク４４４−４６が作者
によって所定のワード４１−４３に割り当てられる。ステップ５４において（割
当のファイル・サーバへの送信）(SAFS: Send Assignments to File Server)、
作者によって与えられた割当がファイル・サーバ５に送信される。ステップ５５
において（ユーザ識別子およびアドレスの受信）(RIDAD: Receiver user Identi
fier and ADdress)、作者の割当が格納された場合においてユーザ識別子ＩＤｎ
が、付加的な音声判別器８のアドレスであるようにして、ファイル・サーバ５か
らクライアント２へ送信される。ステップ５６において（ユーザ識別子およびア
ドレスとホーム・ページとの結合）(CIDADHP: Connect user Identifier and Ad
dress with Home Page)、作者は、ユーザ識別子およびアドレスを自身のホーム
・ページ２７に結びつける。音声入力機能が実行されるこのホーム・ページは、
サーバ６に格納される。このホーム・ページはユーザにより抽出され、そのユー
ザは、音声入力に関する上述した手法で所定のホーム・ページまたはウェブ・サ
イトへ航行することが可能である。

【００３５】音声対応ホーム・ページ２７の作者は、登録の情報部分１９に以下のリンクを
所定のワードに割り当てる：「趣味→www.sport.de」；「本→www.books.de」；
「勉強→www.uni.de」。この割当は、クライアント１からデータ・ファイル・サ
ーバ５へ伝送される。クライアント１のユーザが登録されるのは、その人が個々
のユーザ識別子ＩＤｎを受信し、その人の割当２５-２６がデータ・ファイル・
サーバ５に格納される場合である。クライアント１に送信されるものは、例えば
、Ｅメール形式における、音声判別器のアドレスと共にその人に許可されたユー
ザ識別子である。音声対応ホーム・ページ２７の作者は、ユーザ識別子ＩＤｎお
よび音声判別器８のアドレスの両者をその人の個人用ホーム・ページ２７に結合
する。その後このホーム・ページは例えばサーバ６に格納される。作者によって
割り当てられたワード４１−４３に加えて、サービス・プロバイダは、ユーザに
依存しないワード４７をユーザに依存しないリンク４８に結合する；例えば、「
政治→www.politics.de」または「電話帳→www.number.de」である。クライアン
ト２のユーザは、作者の個人用ホーム・ページ２７にアクセスする。これはブラ
ウザ２０によってクライアント２に示される。マウスのクリックを通じて、ユー
ザはボタン２４を作動させ、音声入力を与える。ユーザにより話されたワード「
本」は、ソフトウエア・モジュール２１によって特性ベクトルに細分され、それ
らは送信されたアドレスから判明する音声判別器８へ送られる。認識結果は音声
入力「本」から生成され、クライアント２に返送される。認識結果はユーザ識別
子ＩＤｎと共にデータ・ファイル５に送信され、そこではリンクwww.books.deが
、作者のユーザ識別子ＩＤｎおよび認識結果に基づいて定められる。このリンク
はクライアント２へ送信され、クライアント２によって起動される。リンクwww.
books.deに結合されたウェブ・サイトは、その後クライアント２で表示される。
クライアント２が「政治」と発音すると、ウェブ・サイトwww.politics.deが表
示される。クライアント２のユーザが第２の作者の個人用ホーム・ページを求め
、その２次的な作者がワード「本」をwww.bookworm.deに結合している場合であ
って、「本」が発音されると、ウェブ・サイトwww.bookworm.deが表示される。
他方、ユーザに依存しないワード「政治」の音声入力に関しては、第１作者の個
人用ホーム・ページ２７のようにして同一のウェブ・サイトが求められる。

【００３６】音声入力機能が企業のウェブ・サイトのホーム・ページで実行される場合は、
作者は総てのウェブ・サイトからのウェブ・ページにリンクを割り当てる。その
結果、各言語について企業のそれぞれの部分的な範囲のウェブ・ページに達する
ことが可能になる。音声判別器は、所定のワードを通じて企業の語彙に合わせら
れる。その特定の語彙は例えば製品名を含み、興味を持った製品名またはブラン
ド名を発音することによって、そのような音声対応の企業ホーム・ページへの訪
問者にはその人のクライアント上で関連するウェブ・ページが示されるようにす
る。

【００３７】ユーザに依存しないワードは、商業的な業務を利用して関連する関係者に結合
されることが可能であり、ユーザに依存しないワードが発音された場合に、関連
する関係者のウェブ・ページが自動的に求められ又は起動するようにすることが
可能である。このリンクは、音声判別器のプロバイダによって行われ、そのプロ
バイダは、そのユーザに依存しないワードが唯一の関係者に譲渡され又は貸し渡
しされていることを管理しなければならない。関係者のウェブ・ページは複数の
ワードにリンクされていてもよく、例えば、どれも同じウェブ・ページが求めら
れるようなテーマに属する暗示的なものにリンクさせることも可能である。ユー
ザに依存しないワードは、関係者に対して一時的に発行されるようにすることも
可能である。さらに、異なる言語で認識される発音を通じて、そのようなウェブ
・ページを求める又は起動することが可能である。

【００３８】そのような機能を保障するために、音声判別器における異なる言語において、
それぞれのワードや発声された音声、またはワード夫々の発音が、音声判別器の
プロバイダによって知られている。音声対応のウェブ・サイトのユーザは、それ
ぞれの音声入力を行い得る。それは音声判別器によって認識され、生成される認
識結果は、要求しているクライアントに返送される。認識結果はユーザ識別子と
共に適切なデータ・ファイルへ送信され、割り当てられるリンクが決定され、ク
ライアントへ返送されるか、あるいは、そのリンクに結合されるウェブ・ページ
がクライアントに送信される。

【図面の簡単な説明】

【図１】図１は、本発明による方法を実行する構造を示す。

【図２】図２は、ホームページの音声ナビゲーションのためのブロック図を示す。

【図３】図３は、音声ナビゲーションの処理手順を示す。

【図４】図４は、ホームページにおける音声入力機能を実行するためのブロック図であ
る。

【図５】図５は、音声入力機能を実行するための処理手順を示す。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１３年７月１６日（２００１．７．１６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】発明の名称

【補正方法】変更

【補正の内容】

【発明の名称】通信ネットワークにおける音声ナビゲーションおよび情報
部分における音声入力機能を実行するための方法

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００１

【補正方法】変更

【補正の内容】

【０００１】本発明は、音声ナビゲーション方法および通信ネットワーク
における音声ナビゲーションのための情報部分(information unit)における音声
入力機能を実行する方法に関する。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/10 Ｇ１０Ｌ 3/00 ５３１Ｋ 15/28 ５５１Ａ５５１Ｐ (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者テレン，エリクオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６ (72)発明者ベスリンク，シュテファンオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６Ｆターム(参考） 5D015 AA03 KK01 5E501 AA02 AB15 AC33 AC42 BA05 BA13 CA03 CB15 EA21 【要約の続き】とが可能な音声判別器（８）のアドレスがクライアント（１）に伝送される。

Claims

【特許請求の範囲】

【請求項１】通信ネットワークにおける音声ナビゲーションのための方法
であって：音声入力を可能にする個人用の情報部分をクライアントがサーバからダウンロ
ードし、音声判別器が、発せられた音声入力から認識結果を生成し、認識結果を利用して、データ・ファイル内の情報部分に対して決定されるリン
クが、前記認結果と相関関係を有するワードに割り当てられることを特徴とする通信ネットワークにおける音声ナビゲーションのための方法
。
【請求項２】複数の音声入力を通じてリンクを作動させることが可能であ
り、および／または異なる言語における複数の音声入力を通じてリンクを作動さ
せることが可能であることを特徴とする請求項１記載の方法。
【請求項３】前記個人用の情報部分がユーザ識別子を含み、前記リンクが
前記認識結果と前記データ・ファイル内の前記ユーザ識別子を利用して決定され
、前記リンクが、前記認識結果と相関関係を有するワードに割り当てられ、前記
ユーザ識別子にも割り当てられることを特徴とする請求項１記載の方法。
【請求項４】決定されたリンクが、その呼出時および出力時に前記クライ
アントに返信されることを特徴とする請求項１又は３記載の方法。
【請求項５】決定されたリンクに結合された前記情報部分が、出力要求す
る前記クライアントに送信されることを特徴とする請求項１又は３記載の方法。
【請求項６】前記個人用の情報部分が音声判別器のアドレスを含み、前記
通信ネットワークを通じて結合される音声認識サーバにおいて前記音声認識が実
行されることを特徴とする請求項１記載の方法。
【請求項７】前記音声認識が前記クライアントにおいて局所的に実行され
ることを特徴とする請求項１記載の方法。
【請求項８】前記音声判別器が、所定のワードに加えて、サービス・プロ
バイダによってリンクが割り当てられるところのユーザに依存しないワードをも
認識し、前記ユーザに依存しないワードと相関関係を有する音声入力およびそれ
らから生成される認識結果については、ユーザに依存しないリンクが、ユーザ識
別子に依存しないで決定されることを特徴とする請求項１又は３記載の方法。
【請求項９】前記個人用の情報部分が要求されると、要求するクライアン
トにソフトウエア・モジュールが存在するか否かの検査が行われ、前記ソフトウ
エア・モジュールは、前記音声入力の特徴抽出ためおよび前記音声判別器への送
信のために必要であり、存在しなかった場合はそのソフトウエア・モジュールは
前記サーバからダウンロードされることを特徴とする請求項１記載の方法。
【請求項１０】前記音声判別器によって認識されることが可能な自然言語
における少なくとも１つの表現を利用して、リンクに関して割り当てられた情報
部分を作動させる権限を、少なくとも暫定的に関係する関係者に与えることを特
徴とする請求項１記載の方法。
【請求項１１】通信ネットワーク内の音声ナビゲーションに関して個人用
の情報部分において音声入力機能を実行するための方法であって；クライアントを通じてサーバから登録の情報部分がダウンロードされ、登録の
情報部分を利用して所定のワードに対してユーザが特定するリンクが割り当てら
れ、ユーザ識別子に関する割当がデータ・ファイルに伝送され、およびユーザ識別子と、個人用の情報部分に各々結合されることが可能な音声判別器
のアドレスとが前記クライアントに伝送されることを特徴とする方法。
【請求項１２】少なくとも１つのワードがリンクに結合され、その割当は
、ユーザの各々が登録時に受信する各自のユーザ識別子と共にデータ・ファイル
内に格納されることを特徴とする請求項１１記載の方法。
【請求項１３】割当の後に、ユーザ識別子および音声判別器のアドレスを
含む情報部分が、個人用の情報部分を有しないユーザに送信され、前記ユーザは
、その情報部分を利用して、割り当てられた情報部分を音声入力によって求める
ことが可能になることを特徴とする請求項１，８又は１１記載の方法。
【請求項１４】前記登録の情報部分、前記個人用の情報部分、音声判別器
およびデータ・ファイルが、通信ネットワークを介して接続される１つ又は複数
のサーバに格納されることを特徴とする請求項１又は１１記載の方法。
【請求項１５】請求項１記載の方法を実行するためのソフトウエア・モジ
ュール。
【請求項１６】操作要素を利用することによって起動することを特徴とす
る請求項１５記載のソフトウエア・モジュール。
【請求項１７】請求項１５記載のソフトウエア・モジュールが実行される
ところのコンピュータ。