JP2003502752A - 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法 - Google Patents

通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法

Info

Publication number
JP2003502752A
JP2003502752A JP2001503600A JP2001503600A JP2003502752A JP 2003502752 A JP2003502752 A JP 2003502752A JP 2001503600 A JP2001503600 A JP 2001503600A JP 2001503600 A JP2001503600 A JP 2001503600A JP 2003502752 A JP2003502752 A JP 2003502752A
Authority
JP
Japan
Prior art keywords
voice
client
user
link
information part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001503600A
Other languages
English (en)
Inventor
デー ウルリヒ,メインハルト
テレン,エリク
ベスリンク,シュテファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE19930407A external-priority patent/DE19930407A1/de
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003502752A publication Critical patent/JP2003502752A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 本方法は、クライアント(2)のユーザが通信ネットワークにおいて音声入力を通じて所定の情報部分を求めることを可能にする。このため、クライアント(2)は、音声入力を可能にする個人用の情報部分をサーバ(6)からダウンロードし、音声判別器(8)が、発せられた音声入力から認識結果を生成し、認識結果を利用して、データ・ファイル(5)において情報部分に対するリンク(44-46,48)が決定され、情報部分に対して、認結果と相関関係を有するワード(41-43,47)が割り当てられる。さらに、通信ネットワーク(4)内の音声ナビゲーションに関して個人用の情報部分(27)において音声入力機能を実行するための方法に関し、クライアント(1)を通じてサーバ(6)から登録の情報部分(19)がダウンロードされ、登録の情報部分(19)を利用して所定のワード(41-43)に対してユーザが特定するリンク(46)が割り当てられ、ユーザ識別子(IDn)に関する割当がデータ・ファイル(5)に伝送され、およびユーザ識別子(IDn)と、個人用の情報部分(27)に各々結合されることが可能な音声判別器(8)のアドレスがクライアント(1)に伝送される。

Description

【発明の詳細な説明】
【0001】 本発明は、音声ナビゲーション方法および通信ネットワークにおける音声ナビ
ゲーションのための個人用の情報部分(information unit)における音声入力機能
を実行する方法に関する。
【0002】 ネットワークを介する情報配信はますます複雑化している。そして、インター
ネットは通信ネットワークとして増大する重要性を獲得している。インターネッ
トからの情報にアクセスするためには、情報を簡易に発見する各自の支援手段を
利用することが重要である。
【0003】 人間の最も一般的な通信の手段は音声である。しかしながら、コンピュータを
利用して通信用の入力媒体として音声を利用するには、いくつかの問題がある。
音声認識を実行するプログラムは、後述する音声判別器において、一方において
理解するための語彙に、他方において話者の発音に対して合わせられる。申し分
のない認識結果を得るためには、手間のかかる訓練が必要である。音声認識のた
めの基礎は、非常に能力の高いコンピュータである。この前提条件は、複数のユ
ーザが複数の情報部分を利用する多くのコンピュータでは満たされない。局所的
な音声認識システムは、その人によって使用される語彙の上述したような手間の
かかる訓練を実行する必要のある者に対してだけ構築されるのが一般的である。
【0004】 DE4440598C1は、喋った言葉で制御されるハイパーテキスト・ナビ
ゲーション・システムを開示する。局所的な音声判別器に関し、語彙(lexicon)
と、ハイパーテキスト書類のハイパーリンクの聴覚的な音声認識を支援する確立
モデルとが割り当てられるためには、ブラウザ(browser)またはビューア(viewer
)の制御を可能にすることである。このシステムは、認識されるべきリンクに音
声認識が行われる間にリンク(link)の発音を許容し、これらのリンクが事前に知
られることなしに行われる。このため、ハイパーテキスト書類は、音声判別器を
適合させるために必要な付加的なデータを含む。これらの付加的なデータは、呼
び出しユーザ・システムにおいて生成され、またはプロバイダによってハイパー
テキスト書類に割り当てられ、およびユーザ・システムによって抽出される際に
同時に送信される。
【0005】 DE19707973A1は、ネットワーク・システム特にインターネットに
おけるコンピュータにおいて、音声入力により機能を実行する方法を開示してい
る。このため、ユーザのコンピュータは音声認識処理を実行するための局所的な
音声判別器を含み、そのパラメータは、それぞれのサービス・プロバイダによっ
て定められ、ユーザが要求する場合にサービス・プロバイダからユーザへ伝送さ
れる。
【0006】 そのような局所的な音声認識システムは、能力の高いコンピュータを要し、語
彙に関する柔軟性は制限される。その柔軟性を増加させるには伝送されるべきデ
ータ数を増加することになる。なぜなら、局所的な音声判別器を局部コンピュー
タに調整するために必要なパラメータが伝送されるべきだからである。しかしな
がら、限定された伝送容量を有する一方で多数のデータを伝送することは、多く
の時間を犠牲にする。
【0007】 したがって、本発明は、情報部分に対して、予め定められたウェブ・サイトへ
の音声ナビゲーションを可能にすることを目的とする。
【0008】 本発明によりこの目的は達成され、クライアントはサーバから音声入力を可能
にする個人用の情報部分をダウンロードし、発せられた音声入力からの認識結果
を音声判別器が生成し、その認識結果を利用してデータ・ファイル内でリンクが
決定され、そのリンクは認識結果に関連する言葉(ワード)に割り当てられる。
【0009】 多くの場合にブラウザまたはビューアを表すユーザ・プログラムは、クライア
ントにおいて実行され、情報部分を示しおよび表示する。呼び出し側のクライア
ントは、通信ネットワークの各自の接続を通じて、サービス・プロバイダのサー
バに接続され、サーバは例えばインターネットにアクセスすることを可能にする
。IPアドレスまたはユニバーサル資源ロケータ(URL: Universal Resource Loc
ator)をキー入力することによって、情報部分が求められる。要求する情報の更
なる可能性は、リンクまたはハイパーリンクによって提供される。これらのリン
クは様々な性質を有し、テキスト以外の部分に下線が付与されるであろう。マウ
スを利用してこのリンクをクリックすることによって、そのリンクと共に情報部
分が求められる。情報部分を表示したり、情報部分に基づいて更なる情報部分を
求めて表示させることは、ナビゲーション(navigation)と呼ばれる。情報部分の
形式の情報は、サービス・プロバイダおよびインターネット上の会社によって提
供され、アクセス可能になる。特にホーム・ページと呼ばれる個人用の情報部分
もこれまでにインターネット上に提供されている。ホーム・ページのそれぞれの
所有者または作者は、そのホーム・ページに興味のある情報を置いておく。多く
の場合そのようなホーム・ページは、人物や、例えば写真のような趣味に関する
詳細が含まれている。さらに、ホーム・ページの所有者は、そのホーム・ページ
への訪問者に閲覧させる重要なリンクを示すこともしばしばある。会社もまたホ
ーム・ページを作成し、それらをインターネット上でアクセス可能にし、多くの
場合はウェブ・サイトの最初のページがホーム・ページと呼ばれ、そこからユー
ザは企業の特定する他のウェブ・ページにナビゲーション(航行)することが可
能である。
【0010】 クライアントは個人用の情報部分をサーバからダウンロードし、サーバは通信
ネットワークを介してクライアントに接続される。この情報部分は、ブラウザを
利用することによってユーザに示される。ユーザは、例えば示された情報によっ
て、音声入力を与えるよう要求される。この音声入力は、音声認識サーバへ伝送
され、音声認識処理を実行する音声判別器に供給される。音声判別器により生成
された認識結果は、クライアントに返送される。クライアントは、認識結果をデ
ータ・ファイルに送信する。データ・ファイルは、データ・ファイル・サーバ上
にあり、発声された音声に関連するリンクがそこで決定される。発声した音声は
、リンクが割り当てられているワードに対応する。
【0011】 本発明の更なる実施例では、個人用の情報部分がユーザ識別子を包含する。ユ
ーザにより発せられた音声入力から音声判別器が生成した認識結果は、ユーザ識
別氏と共にデータ・ファイルに送信される。データ・ファイルにおいて、認識結
果およびユーザ識別子を利用してリンクが決定される。データ・ファイルは、ワ
ード又はユーザ識別子に対するリンクの割当を含む。それぞれのユーザ識別子に
対する割当からのワードと認識結果との間に相関関係が存在する場合には、割り
当てられたリンクがクライアントに送信される。
【0012】 決定されたリンクは、ユーザが各自自身のリンクを求めるように、クライアン
トに直接的に送信可能である。データ・ファイル・サーバにとって決定されたリ
ンクを作動させること、および接続された情報部分にとってクライアントに配信
および提示されることは、きわめて有利である。
【0013】 本発明の更なる実施例では、個人用の情報部分に、インターネット上の音声認
識サーバのアドレスを提供することが有利である。このアドレスは、個人用の情
報部分が求められた際にクライアントに送信される。ユーザによって発せられた
音声入力は、通信ネットワークを介して音声認識サーバ上の音声判別器に送信さ
れ、音声判別器は音声認識を実行する。音声判別器によって生成された認識結果
はクライアントに送信される。そのような音声判別器の高い計算能力が有利であ
るのは、認識結果が音声認識サーバで生成される場合である。これらの音声判別
器は、専門化されおよび特別に仕立てられた語彙を有し、話者に依存しない音声
認識が可能である。このことは、より高い認識率をもたらし、認識結果が一層迅
速に利用可能になることを達成する。
【0014】 更なる実施例では、コンピュータにおいて音声認識を局所的に実行することが
提供される。限定された語彙および充分に能力の高いコンピュータを利用する簡
易なアプリケーションに対して、音声認識がクライアント上で局所的に実行され
る。その結果、遠隔している音声判別器に送信を行う必要がなく、送信エラーが
減少する。さらに、本発明は、局所的な音声判別器を利用することなしに、ホー
ム・ページに関する音声入力機能を実行することを目的とする。
【0015】 局所的な音声判別器を利用することなしに、ホーム・ページで音声入力機能を
実行する目的は、次のようにして達成される。クライアントを通じてサーバから
登録の情報部分がダウンロードされ、登録の情報部分を利用して所定のワードに
対してユーザが特定するリンクが割り当てられ、ユーザ識別子に関する割当がデ
ータ・ファイルに伝送され、およびユーザ識別子と、個人用の情報部分に各々結
合されることが可能な音声判別器のアドレスとがクライアントに伝送される。
【0016】 自身のホーム・ページで音声入力機能を実行することを希望するユーザは、サ
ーバから登録の情報部分をダウンロードする。この登録の情報部分において、各
自のリンクは、そのユーザによって定められたワードに割り当てられる。割当は
キーボードおよび/またはマウスを利用して行われる。そうすると、ユーザは、
インターネット上のそれぞれの情報に接続されるリンクを、自身の考えによって
割り当てる。個人用のリンクに対するこのようなユーザの特定するワードの割当
は、データ・ファイルに伝送される。データ・ファイルは、ユーザ識別子に関連
するその割当を格納する。ユーザ識別子および音声判別器が設けられている音声
認識サーバのアドレスは、クライアントに伝送される。このユーザ識別子および
音声判別器のアドレスは、クライアントのユーザによって個人用の情報部分に結
合され、そのユーザは個人用の情報部分の所有者/作者でもあり得る。各自のユ
ーザ識別子に関してデータ・ファイル・サーバに割当を格納し、そのユーザ識別
子を個人用の情報部分に結合することによって、個人用の情報部分における音声
入力機能が実行される。ホーム・ページの作者は、そのホーム・ページへの訪問
者が、各自の所定のワードを発声し、作者により割り当てられた情報部分にリン
クを介して、音声入力によって到着することを可能にし、要求するクライアント
において訪問者が局所的な音声認識プログラムを実行することを要しない。
【0017】 本発明の更なる実施例において、音声判別器は所定のワードだけを認識するわ
けではない。音声判別器はユーザに依存しないワード(user-independent word)
をも認識する。サービス・プロバイダは、各自のユーザに依存しないリンクを、
ユーザに依存しないワードに割り当てる。音声判別器が、ユーザに依存しないワ
ードに関連する発声音から認識結果を生成する際は常に、ユーザに依存しないワ
ードに対してサービス・プロバイダが割り当てたところのユーザに依存しないリ
ンクがクライアントに返信される。ユーザに依存しないリンクをクライアントに
返信せずに、ユーザに依存しないリンクに結合された情報部分をクライアントに
直接的に送信することも可能である。
【0018】 本発明の好適実施例では、登録の情報部分が求められる場合、および音声入力
が可能な個人用の情報部分が求められる場合に、それぞれの要求するクライアン
トでソフトウエア・モジュールが実行されるか否かの検査が行われる。このソフ
トウエア・モジュールは特徴の抽出を実行する。例えばマイクロフォンのような
入力媒体を利用してソフトウエア・モジュールに提供され、電気信号として利用
可能な音声入力データは、このソフトウエア・モジュールによって量子化され、
特性ベクトルに割り当てられる成分を生成するそれぞれの分析に委ねられる。そ
の後これらの特徴ベクトルは、結合された判別器へ伝送される。さらにソフトウ
エア・モジュールは、特性ベクトルの送信、認識結果の受信、ユーザ識別子およ
び認識結果のデータ・ファイル・サーバへの送信、およびリンクの受信に関する
処理を行う。ソフトウエア・モジュールが利用可能でない場合は、要求された情
報部分が格納されているサーバからダウンロードされる。
【0019】 自身のホーム・ページを有しておらず、その結果ユーザ識別子と音声判別器の
アドレスとをホーム・ページに結合させることができないクライアントのユーザ
に関し、これらのユーザに対して、個別のユーザ識別子と音声判別器のアドレス
との両者を含む情報部分を送信する。この情報部分は、クライアントで実行され
るブラウザによって示され、ユーザが音声入力を通じてリンクを介してその情報
部分を求めることを可能にし、そのリンクは、各自の所定のワードに割り当てら
れたものであり、サービス・プロバイダによってユーザに依存しないワードに割
り当てられたものである。
【0020】 割当がユーザ識別子とともに格納されているデータ・ファイルと音声判別器と
が1つのサーバ上に位置する場合は有利である。これが有利であるのは、認識結
果が再度クライアントへそしてそこからデータ・ファイル・サーバへ送信される
必要がなく、認識結果がデータ・ファイルの共通サーバへ直接的に送信されるこ
とである。各自のユーザ識別子は、特性ベクトルと共に共通のサーバへ伝送され
る。これは、遅延を抑制し、同時に誤りの確率ひいては生じ得る送信エラーを最
小化する。
【0021】 さらに、本発明の目的は、音声入力データを特性ベクトルに割り当てるソフト
ウエア・モジュールを利用することによって達成される。このソフトウエア・モ
ジュールは、特性ベクトルを、アドレスで規定される音声判別器に送信する。音
声判別器により生成された認識結果は、このソフトウエア・モジュールから受信
され、ユーザ識別子とともにデータ・ファイルに送信される。決定されたリンク
は、ソフトウエア・モジュールから受信され、そのリンクを有する情報部分が、
要求するクライアントのユーザに提供される。
【0022】 本発明の好適実施例では、ソフトウエア・モジュールが操作要素を利用するこ
とによって起動される。例えばボタンとして表現される操作要素による起動は、
音声入力データの録音を開始するであろう。
【0023】 また、本発明の目的は、上述したソフトウエア・モジュールが実行されるコン
ピュータによって達成される。
【0024】 本発明のこれらおよび他の形態は、以下に説明する実施例を通じて一層明白と
なるであろう。
【0025】 図1は、本発明による方法を実行するために必要な要素が表現されている構造
を示す。本発明による方法を実行するために、複数のクライアント1,2と、1
つの音声認識サーバ3と、1つのサーバ6と、1つのデータ・ファイル・サーバ
5が配置される。これらのコンピュータはデータ・ネットワーク4を介して接続
される。通信ネットワーク4は、インターネットにより、およびイントラネット
および/またはエクストラネットにより実現され得る。個々の通信ネットワーク
4は、それらの通信ネットワークにアクセスする限定されたユーザ・グループを
有する点のみが異なるのが一般的である。
【0026】 クライアント1,2はコンピュータであり、そこで実行されるブラウザによっ
て、ユーザはそこから情報部分を求め、これは以後ホーム・ページおよび/また
はウエブ・ページとして言及される。企業によってインターネット上に設けられ
た情報部分は、ウェブ・サイトと記される。そのようなウェブ・サイトの入力情
報部分および個人の情報部分は、ホーム・ページと記される。ウェブ・サイトは
、所属が同じであるウェブ・ページの集合を意味するものとする。音声認識サー
バ3は、音声認識プログラムが実行される能力の高いコンピュータである。音声
認識コンピュータ3は、その構造が音声認識用に最適化されている特定用途語彙
を有する。データ・ファイル・サーバ5もコンピュータであり、これはインター
ネット4に接続される。割当は、インターネット4に接続されたデータ・ファイ
ル・サーバ5に格納される。
【0027】 図2は、所定の情報部分への音声ナビゲーションに必要なシステムを示す。情
報部分27を表示させるブラウザ20は、クライアント2において実行される。
本実施例で使用されるホーム・ページ27のような情報部分は、HTMLページ
(ハイパーテキスト・マークアップ言語)としてサーバ6に格納される。クライ
アント2は、ホーム・ページ27が格納されているサーバ6へのリンクを利用し
てインターネット4を介する接続を設定する。このリンクはハイパーリンクとも
呼ばれる。表示されるテキストに加えて図形記号、音響および/または映像デー
タを包含することが可能なホーム・ページ27は、サーバ6からダウンロードさ
れる。クライアント2は、音声入力用の入力媒体として使用されるマイクロフォ
ン22を有する。アナログ信号として利用可能な音声入力データは、音響部23
によってディジタル信号に変換され、ソフトウエア・モジュール21が利用可能
なものになる。音声入力データは、ソフトウエア・モジュール21によって解析
され、特性ベクトル(feature vector)に割り当てられる。クライアント2は、イ
ンターネット4を介してデータ・ファイル・サーバ5に接続される。データ・フ
ァイル・サーバ5は、ユーザ識別子ID1ないしIDnにおける割当25-26
を格納する。各割当25-26は、各自のリンクに割り当てられた少なくとも1
つのワードを含む。クライアント2は、更にインターネット4を介して音声認識
サーバ3に接続される。接続28,29の各々は、サーバ6からデータ・ファイ
ル・サーバ5へ、および音声認識サーバ3からデータ・ファイル・サーバ5への
可能な直接接続を表現する。決定されたリンクは、接続28のようなものを介し
てデータ・ファイル・サーバ5からサーバ6へ直接的に伝送される。接続29を
介して音声判別器8からデータ・ファイル・サーバ5へ認識結果を直接的に伝送
することも可能である。クライアント2は、特性ベクトルに加えてユーザ識別子
IDnを音声判別器8に伝送する。
【0028】 図3は、音声ナビゲーションが行われる各ステップを示す。ステップ30にお
いて(ホーム・ページのロード)(LHP: Load Home Page)、クライアント2のユ
ーザは、例えばサーバ6から音声入力を可能にするホーム・ページ27をダウン
ロードする。ユーザは、ホーム・ページ27を呼び出した訪問者でもあり得る。
ステップ31(チェック)において、クライアント2は特徴抽出のためにソフト
ウエア・モジュール21が適合するか否かを検査する。ソフトウエア・モジュー
ル21が利用可能である場合、ステップ32(ソフトウエア・モジュールのロー
ド)(LSM: Load Software Module)において、インターネット4を通じてサーバ
6からクライアント2上にロードされる。個人用ホーム・ページ27がブラウザ
20によって示され後に、ユーザはステップ33(音声入力)(SI: Speech Inpu
t)において音声入力を開始する。この音声入力は、ソフトウエア・モジュール2
0を利用して、ステップ34において(特性ベクトルの抽出)(EFV: Extract in
to Feature Vector)、特性ベクトルに細分される。ステップ35において(特性
ベクトルの音声判別器への送信)(TMSR: TransMit Feature vectors to the Spe
ech Recognizer)、特性ベクトルは音声認識サーバ3へ伝送される。音声判別器
8は、音声認識サーバ3のアドレスによって定められ、そのアドレスはホーム・
ページ27がロードされる場合にクライアントに通知される。ステップ36(認
識結果の生成)(CRR: Create Recognition Result)において、音声判別器8は、
ユーザにより発せられた音声入力から生じる伝送された特性ベクトルから、認識
結果を生成する。認識結果は、ステップ37(認識結果のクライアントへの伝送
)(TRRC: Transmit Recognition Result to the Client)において、クライアン
ト2へ返送される。ステップ38において(ユーザ識別子および認識結果の送信
)(TIDRR: Transmit User Identifier and Recognition Result)、認識結果は、
ホーム・ページ27がダウンロードされたときにクライアント2へ伝送されたユ
ーザ識別子IDnと共にデータ・ファイル・サーバ5へ伝送される。ステップ3
9において(ファイル・サーバにおける探索)(SFS: Search on File Server)、
ユーザ識別子IDnおよび認識結果を利用してリンクが探索される。探索される
リンクは、所定の割り当てられたワードとユーザ識別子ID1−IDnである。
そして、ユーザにより発せられた音声入力は、所定のワードの1つに対応する。
ステップ40において(リンクの送信)(TL: Transmit Link)、決定されたリン
クはクライアント2へ伝送される。そのリンクを利用して、リンクに接続された
ウェブ・サイトまたはホーム・ページ27がロードされ、ブラウザ20によって
クライアント2上に表示される。
【0029】 音声記録を開始するために、ユーザは自身のマウスまたはキーボードを利用し
てボタン24を作動させ、音声入力を発声する。この音声入力は上述したように
特性ベクトルに細分される。特性ベクトルは、インターネット4上でソフトウエ
ア・モジュール21から定められた音声判別器8へ送信される。音声判別器8は
、特性ベクトルを受信し、音声認識プログラムを利用して認識結果を生成する。
【0030】 図4は、個人用ホームページ27における音声入力機能を実行するために必要
なものを表現する。この方法に関して、ホーム・ページ27の作者として表現さ
れるクライアント1のユーザは、所定のワード41−43に対するリンク44−
46の割り当て25-26を実行する。クライアント1は、サーバ6から登録除
法部分19をダウンロードする。登録の情報部分を利用することによって、その
作者は、それぞれのリンク44−46を所定のワード41−43に割り当てる。
割当25-26は別々である。各自の所定のワードは、音声判別器8にとって既
知であり、後の音声入力の関連付け(correlation)の際に認識される。個々の割
当25-26は、クライアント1からデータ・ファイル・サーバ5へ伝送され、
割当25-26はユーザ識別子ID1−IDnと共にそこに格納される。データ
・ファイル・サーバ5は、作者の割当25-26が格納された際に、クライアン
ト1へ夫々のユーザ識別子ID1−IDnを伝送する。さらに、クライアント1
は、音声判別器8が備えられている音声認識サーバ3のアドレスを受信する。作
者は、音声判別器8のアドレスとユーザ識別子IDnとを自身のホーム・ページ
27を利用して組み合わせる。これは例えば、音声判別器およびユーザ識別子I
Dnのアドレスが、タグまたはHTMLコードにおける付加的な情報を利用して
同時に送信すれば可能である。割当は例えばキーボードを通じてそのリンクでキ
ーを押すことにより行うことができる。あるいは、マウスを利用してタグ・ボッ
クスを選択することにより、多数の所定のワードの中から、各自のリンクが割り
当てられている所定数のワードを選択することが可能である。所定のワードを確
認するために、作者は音声入力を通じて、割り当てたワードを入力することが可
能である。これらのワードは音声判別器8に伝送され認識される。認識結果はク
ライアント1に返信される。
【0031】 音声判別器は、所定のワード41−43だけでなく、ユーザに依存しないワー
ド47をも認識する。ホーム・ページ27の作者は、リンク44−46を所定の
ワード41−43に割り当てる。他方、例えば音声判別器8またはサーバ6のサ
ービス・プロバイダは、リンク48をユーザに依存しないワード47に割り当て
る。このユーザに依存しない割当に関し、音声判別器8はこれらのユーザに依存
しないワード47を認識することが必要である。音声判別器8により認識される
ワード41−43,47は、音声判別器8のプロバイダによって定められる。
【0032】 クライアントのユーザがホーム・ページ27を所有せず、ホーム・ページ27
を作成することも望まない場合は、それにもかかわらずユーザは、音声入力を介
して所定の情報へ航行することが可能である。このため、ユーザは登録の情報部
分19の割当を行い、これはその後データ・ファイル・サーバ5へ伝送され、ユ
ーザ識別子IDnの下に格納される。データ・ファイル・サーバ5から伝送され
るものはデータ・ファイルであり、これは、ブラウザ20によって表示可能であ
り、データ・ファイルはユーザ識別子IDnおよび音声判別器のアドレスを包含
する。ユーザがこのデータ・ファイルを求める場合は、そのユーザにより又はサ
ービス・プロバイダにより決定されたウェブ・ページへ、各音声入力と共に航行
することが可能である。
【0033】 作者のホーム・ページが格納されるサーバ6において、最も簡単に格納され得
るものは、割当25-26を有するデータ・ファイル5であり、音声判別器8を
そこに配置することも可能である。その配置は図示していない。そのような場合
、ユーザ識別子IDnを有する特性ベクトルは、クライアント2からその単独の
サーバ6へ送信される。音声判別器8によって生成された認識結果は、ユーザ識
別子IDnと共にデータ・ファイル5のサーバ6へ直接的に伝送され、その認識
結果およびユーザ識別子IDnに対するリンクがそのファイルにおいて決定され
る。このリンクは、クライアント2へ送信されるか、あるいは、そのリンクに結
合したウェブ・サイトがクライアント2に送信される。
【0034】 図5は、個人用ホーム・ページにおける音声入力機能を実行するための処理手
順を示す。ステップ50において(登録ウェブ・サイトのロード)(LRWS: Load
Register Web Site)、ホーム・ページ27の作者はサーバ6から登録の情報部分
19をダウンロードする。ステップ53において(リンクに対するワードの割当
)(AWL: Assign Words to Links)、それぞれの個々のリンク444−46が作者
によって所定のワード41−43に割り当てられる。ステップ54において(割
当のファイル・サーバへの送信)(SAFS: Send Assignments to File Server)、
作者によって与えられた割当がファイル・サーバ5に送信される。ステップ55
において(ユーザ識別子およびアドレスの受信)(RIDAD: Receiver user Identi
fier and ADdress)、作者の割当が格納された場合においてユーザ識別子IDn
が、付加的な音声判別器8のアドレスであるようにして、ファイル・サーバ5か
らクライアント2へ送信される。ステップ56において(ユーザ識別子およびア
ドレスとホーム・ページとの結合)(CIDADHP: Connect user Identifier and Ad
dress with Home Page)、作者は、ユーザ識別子およびアドレスを自身のホーム
・ページ27に結びつける。音声入力機能が実行されるこのホーム・ページは、
サーバ6に格納される。このホーム・ページはユーザにより抽出され、そのユー
ザは、音声入力に関する上述した手法で所定のホーム・ページまたはウェブ・サ
イトへ航行することが可能である。
【0035】 音声対応ホーム・ページ27の作者は、登録の情報部分19に以下のリンクを
所定のワードに割り当てる:「趣味→www.sport.de」;「本→www.books.de」;
「勉強→www.uni.de」。この割当は、クライアント1からデータ・ファイル・サ
ーバ5へ伝送される。クライアント1のユーザが登録されるのは、その人が個々
のユーザ識別子IDnを受信し、その人の割当25-26がデータ・ファイル・
サーバ5に格納される場合である。クライアント1に送信されるものは、例えば
、Eメール形式における、音声判別器のアドレスと共にその人に許可されたユー
ザ識別子である。音声対応ホーム・ページ27の作者は、ユーザ識別子IDnお
よび音声判別器8のアドレスの両者をその人の個人用ホーム・ページ27に結合
する。その後このホーム・ページは例えばサーバ6に格納される。作者によって
割り当てられたワード41−43に加えて、サービス・プロバイダは、ユーザに
依存しないワード47をユーザに依存しないリンク48に結合する;例えば、「
政治→www.politics.de」または「電話帳→www.number.de」である。クライアン
ト2のユーザは、作者の個人用ホーム・ページ27にアクセスする。これはブラ
ウザ20によってクライアント2に示される。マウスのクリックを通じて、ユー
ザはボタン24を作動させ、音声入力を与える。ユーザにより話されたワード「
本」は、ソフトウエア・モジュール21によって特性ベクトルに細分され、それ
らは送信されたアドレスから判明する音声判別器8へ送られる。認識結果は音声
入力「本」から生成され、クライアント2に返送される。認識結果はユーザ識別
子IDnと共にデータ・ファイル5に送信され、そこではリンクwww.books.deが
、作者のユーザ識別子IDnおよび認識結果に基づいて定められる。このリンク
はクライアント2へ送信され、クライアント2によって起動される。リンクwww.
books.deに結合されたウェブ・サイトは、その後クライアント2で表示される。
クライアント2が「政治」と発音すると、ウェブ・サイトwww.politics.deが表
示される。クライアント2のユーザが第2の作者の個人用ホーム・ページを求め
、その2次的な作者がワード「本」をwww.bookworm.deに結合している場合であ
って、「本」が発音されると、ウェブ・サイトwww.bookworm.deが表示される。
他方、ユーザに依存しないワード「政治」の音声入力に関しては、第1作者の個
人用ホーム・ページ27のようにして同一のウェブ・サイトが求められる。
【0036】 音声入力機能が企業のウェブ・サイトのホーム・ページで実行される場合は、
作者は総てのウェブ・サイトからのウェブ・ページにリンクを割り当てる。その
結果、各言語について企業のそれぞれの部分的な範囲のウェブ・ページに達する
ことが可能になる。音声判別器は、所定のワードを通じて企業の語彙に合わせら
れる。その特定の語彙は例えば製品名を含み、興味を持った製品名またはブラン
ド名を発音することによって、そのような音声対応の企業ホーム・ページへの訪
問者にはその人のクライアント上で関連するウェブ・ページが示されるようにす
る。
【0037】 ユーザに依存しないワードは、商業的な業務を利用して関連する関係者に結合
されることが可能であり、ユーザに依存しないワードが発音された場合に、関連
する関係者のウェブ・ページが自動的に求められ又は起動するようにすることが
可能である。このリンクは、音声判別器のプロバイダによって行われ、そのプロ
バイダは、そのユーザに依存しないワードが唯一の関係者に譲渡され又は貸し渡
しされていることを管理しなければならない。関係者のウェブ・ページは複数の
ワードにリンクされていてもよく、例えば、どれも同じウェブ・ページが求めら
れるようなテーマに属する暗示的なものにリンクさせることも可能である。ユー
ザに依存しないワードは、関係者に対して一時的に発行されるようにすることも
可能である。さらに、異なる言語で認識される発音を通じて、そのようなウェブ
・ページを求める又は起動することが可能である。
【0038】 そのような機能を保障するために、音声判別器における異なる言語において、
それぞれのワードや発声された音声、またはワード夫々の発音が、音声判別器の
プロバイダによって知られている。音声対応のウェブ・サイトのユーザは、それ
ぞれの音声入力を行い得る。それは音声判別器によって認識され、生成される認
識結果は、要求しているクライアントに返送される。認識結果はユーザ識別子と
共に適切なデータ・ファイルへ送信され、割り当てられるリンクが決定され、ク
ライアントへ返送されるか、あるいは、そのリンクに結合されるウェブ・ページ
がクライアントに送信される。
【図面の簡単な説明】
【図1】 図1は、本発明による方法を実行する構造を示す。
【図2】 図2は、ホームページの音声ナビゲーションのためのブロック図を示す。
【図3】 図3は、音声ナビゲーションの処理手順を示す。
【図4】 図4は、ホームページにおける音声入力機能を実行するためのブロック図であ
る。
【図5】 図5は、音声入力機能を実行するための処理手順を示す。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年7月16日(2001.7.16)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】発明の名称
【補正方法】変更
【補正の内容】
【発明の名称】 通信ネットワークにおける音声ナビゲーションおよび情報
部分における音声入力機能を実行するための方法
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】 本発明は、音声ナビゲーション方法および通信ネットワーク
における音声ナビゲーションのための情報部分(information unit)における音声
入力機能を実行する方法に関する。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/10 G10L 3/00 531K 15/28 551A 551P (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,CA,C H,CN,CR,CU,CZ,DE,DK,DM,DZ ,EE,ES,FI,GB,GD,GE,GH,GM, HR,HU,ID,IL,IN,IS,JP,KE,K G,KP,KR,KZ,LC,LK,LR,LS,LT ,LU,LV,MA,MD,MG,MK,MN,MW, MX,NO,NZ,PL,PT,RO,RU,SD,S E,SG,SI,SK,SL,TJ,TM,TR,TT ,TZ,UA,UG,UZ,VN,YU,ZA,ZW (72)発明者 テレン,エリク オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 (72)発明者 ベスリンク,シュテファン オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 Fターム(参考) 5D015 AA03 KK01 5E501 AA02 AB15 AC33 AC42 BA05 BA13 CA03 CB15 EA21 【要約の続き】 とが可能な音声判別器(8)のアドレスがクライアント (1)に伝送される。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 通信ネットワークにおける音声ナビゲーションのための方法
    であって: 音声入力を可能にする個人用の情報部分をクライアントがサーバからダウンロ
    ードし、 音声判別器が、発せられた音声入力から認識結果を生成し、 認識結果を利用して、データ・ファイル内の情報部分に対して決定されるリン
    クが、前記認結果と相関関係を有するワードに割り当てられる ことを特徴とする通信ネットワークにおける音声ナビゲーションのための方法
  2. 【請求項2】 複数の音声入力を通じてリンクを作動させることが可能であ
    り、および/または異なる言語における複数の音声入力を通じてリンクを作動さ
    せることが可能であることを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記個人用の情報部分がユーザ識別子を含み、前記リンクが
    前記認識結果と前記データ・ファイル内の前記ユーザ識別子を利用して決定され
    、前記リンクが、前記認識結果と相関関係を有するワードに割り当てられ、前記
    ユーザ識別子にも割り当てられることを特徴とする請求項1記載の方法。
  4. 【請求項4】 決定されたリンクが、その呼出時および出力時に前記クライ
    アントに返信されることを特徴とする請求項1又は3記載の方法。
  5. 【請求項5】 決定されたリンクに結合された前記情報部分が、出力要求す
    る前記クライアントに送信されることを特徴とする請求項1又は3記載の方法。
  6. 【請求項6】 前記個人用の情報部分が音声判別器のアドレスを含み、前記
    通信ネットワークを通じて結合される音声認識サーバにおいて前記音声認識が実
    行されることを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記音声認識が前記クライアントにおいて局所的に実行され
    ることを特徴とする請求項1記載の方法。
  8. 【請求項8】 前記音声判別器が、所定のワードに加えて、サービス・プロ
    バイダによってリンクが割り当てられるところのユーザに依存しないワードをも
    認識し、前記ユーザに依存しないワードと相関関係を有する音声入力およびそれ
    らから生成される認識結果については、ユーザに依存しないリンクが、ユーザ識
    別子に依存しないで決定されることを特徴とする請求項1又は3記載の方法。
  9. 【請求項9】 前記個人用の情報部分が要求されると、要求するクライアン
    トにソフトウエア・モジュールが存在するか否かの検査が行われ、前記ソフトウ
    エア・モジュールは、前記音声入力の特徴抽出ためおよび前記音声判別器への送
    信のために必要であり、存在しなかった場合はそのソフトウエア・モジュールは
    前記サーバからダウンロードされることを特徴とする請求項1記載の方法。
  10. 【請求項10】 前記音声判別器によって認識されることが可能な自然言語
    における少なくとも1つの表現を利用して、リンクに関して割り当てられた情報
    部分を作動させる権限を、少なくとも暫定的に関係する関係者に与えることを特
    徴とする請求項1記載の方法。
  11. 【請求項11】 通信ネットワーク内の音声ナビゲーションに関して個人用
    の情報部分において音声入力機能を実行するための方法であって; クライアントを通じてサーバから登録の情報部分がダウンロードされ、登録の
    情報部分を利用して所定のワードに対してユーザが特定するリンクが割り当てら
    れ、ユーザ識別子に関する割当がデータ・ファイルに伝送され、および ユーザ識別子と、個人用の情報部分に各々結合されることが可能な音声判別器
    のアドレスとが前記クライアントに伝送される ことを特徴とする方法。
  12. 【請求項12】 少なくとも1つのワードがリンクに結合され、その割当は
    、ユーザの各々が登録時に受信する各自のユーザ識別子と共にデータ・ファイル
    内に格納されることを特徴とする請求項11記載の方法。
  13. 【請求項13】 割当の後に、ユーザ識別子および音声判別器のアドレスを
    含む情報部分が、個人用の情報部分を有しないユーザに送信され、前記ユーザは
    、その情報部分を利用して、割り当てられた情報部分を音声入力によって求める
    ことが可能になることを特徴とする請求項1,8又は11記載の方法。
  14. 【請求項14】 前記登録の情報部分、前記個人用の情報部分、音声判別器
    およびデータ・ファイルが、通信ネットワークを介して接続される1つ又は複数
    のサーバに格納されることを特徴とする請求項1又は11記載の方法。
  15. 【請求項15】 請求項1記載の方法を実行するためのソフトウエア・モジ
    ュール。
  16. 【請求項16】 操作要素を利用することによって起動することを特徴とす
    る請求項15記載のソフトウエア・モジュール。
  17. 【請求項17】 請求項15記載のソフトウエア・モジュールが実行される
    ところのコンピュータ。
JP2001503600A 1999-06-09 2000-05-30 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法 Pending JP2003502752A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE19926213 1999-06-09
DE19926213.6 1999-06-09
DE19930407.6 1999-07-02
DE19930407A DE19930407A1 (de) 1999-06-09 1999-07-02 Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
PCT/EP2000/004989 WO2000077607A1 (en) 1999-06-09 2000-05-30 Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units.

Publications (1)

Publication Number Publication Date
JP2003502752A true JP2003502752A (ja) 2003-01-21

Family

ID=26053703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001503600A Pending JP2003502752A (ja) 1999-06-09 2000-05-30 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法

Country Status (4)

Country Link
EP (1) EP1192530A1 (ja)
JP (1) JP2003502752A (ja)
AU (1) AU5399300A (ja)
WO (1) WO2000077607A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network

Also Published As

Publication number Publication date
EP1192530A1 (en) 2002-04-03
WO2000077607A1 (en) 2000-12-21
AU5399300A (en) 2001-01-02

Similar Documents

Publication Publication Date Title
CN1204513C (zh) 在不同语言的发言者之间执行语言翻译的设备和方法
JP4597383B2 (ja) 音声認識方法
US20150170257A1 (en) System and method utilizing voice search to locate a product in stores from a phone
US6157705A (en) Voice control of a server
US6192338B1 (en) Natural language knowledge servers as network resources
CN1151488C (zh) 通过一般分层对象进行有效语音导航的结构框架
JP3519015B2 (ja) ネットワーク話し言葉語彙システム
US6941273B1 (en) Telephony-data application interface apparatus and method for multi-modal access to data applications
US6922670B2 (en) User support apparatus and system using agents
US6400806B1 (en) System and method for providing and using universally accessible voice and speech data files
US8204956B2 (en) Computer-implemented voice application indexing web site
WO2009149340A1 (en) A system and method utilizing voice search to locate a procuct in stores from a phone
JP2002539481A (ja) 複数の音声認識器を用いる方法
US20010014861A1 (en) Voice internet service system
US20020072916A1 (en) Distributed speech recognition for internet access
US20050102147A1 (en) Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units
CA2462009A1 (en) System and method for providing rules-based directory assistance automation
US6751649B1 (en) Server for searching for information in a network of databases
WO2001039178A1 (en) Referencing web pages by categories for voice navigation
JP2003502752A (ja) 通信ネットワークにおける音声ナビゲーションおよび情報部分における音声入力機能を実行するための方法
CN109040324A (zh) 车载数据服务推广方法、装置及计算机可读存储介质
US20020065710A1 (en) Server with help function, control method for server and system having server, storage medium storing program realizing such method
JP2003005778A (ja) 音声認識ポータルシステム
EP1112542A1 (en) User-profile-driven mapping of hyperlinks onto urls
EP1196868A1 (en) User-profile driven mapping of speech onto urls

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707