JPH1078952A - 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 - Google Patents

音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置

Info

Publication number
JPH1078952A
JPH1078952A JP8199319A JP19931996A JPH1078952A JP H1078952 A JPH1078952 A JP H1078952A JP 8199319 A JP8199319 A JP 8199319A JP 19931996 A JP19931996 A JP 19931996A JP H1078952 A JPH1078952 A JP H1078952A
Authority
JP
Japan
Prior art keywords
information
link
speech synthesis
character string
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8199319A
Other languages
English (en)
Inventor
Atsushi Noguchi
敦史 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP8199319A priority Critical patent/JPH1078952A/ja
Priority to KR1019970021304A priority patent/KR100287093B1/ko
Priority to US08/902,559 priority patent/US5983184A/en
Publication of JPH1078952A publication Critical patent/JPH1078952A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 非視覚ユーザが自由かつ容易にハイパー・テ
キストをコントロールすることを可能にする。 【解決手段】 インターネット上のハイパー・テキスト
を、音声合成プログラムが読み上げる。システムは、こ
の読み上げと同期して、現在読み上げが行われている場
所に最も関連のあるリンク・キーワードにフォーカスの
当てられる。「リンク先へのジャンプ」を指示する入力
(音声入力またはキー入力)を行えば、フォーカスの当
たっているリンク・キーワードのリンク先にジャンブす
ることが可能となる。リンク・キーワードのみの読み上
げ等を指示することもできる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声合成に関するも
のであり、より詳しくは、ハイパーテキスト形式の文章
に含まれる文字列を検出し、その文字列の種類に従った
音声属性で音声合成を行う方法と、読み上げの対象とな
る文章に含まれる文字列の種類を判別し、その文字列の
種類に従って、音声合成を制御する方法に関する。
【0002】
【従来の技術】従来の音声合成プログラム(あるいは音
声合成装置)は、テキスト・ファイルか、その音声合成
プログラムが処理可能な形で記述された音声属性をもつ
テキスト・ファイルを入力として、読み上げを行ってい
る。
【0003】例えば、音声合成プログラム「ProTALKER/
2」(「ProTALKER」はIBM社の商標)の場合、テキストに
「テキスト埋込みコマンド/音声属性」と呼ばれる文字
列を埋込むことによって、読み上げに際しての音声属性
のコントロールを行っている。
【0004】この埋込みコマンドの埋め込まれたテキス
トが、「最初は普通の読み方をします。[*S9]ここか
ら速くなります。[*P9]声が高くなりました。[*S0P
0]声が低くゆっくりになりました。[*Y0]ロボット喋
りです。[*S=P=Y=]普通の読みかたに戻りました。[*
F1]こちらは、電話番号案内です。[*M1]田中幸一さ
んの電話番号を調べてください。」であるとする。
【0005】このテキストを受領した音声合成装置
は、"[*"を音声属性を指示する埋込みコマンドの先頭
として認識し、"]"を埋込みコマンドの終了と認識す
る。このため、上記テキストは、最初、音声コマンドの
指定がないため、デフォルトで読み上げを行い、次に、
[*S9]という埋込みコマンドを検出し、読み上げの速
度を9に設定する。次に、[*P9]を検出することによ
り、高さを9に設定し、[*S0P0]の検出により、速度を
0、高さを0に設定する。さらに、[*Y0]の検出によっ
て、抑揚を0に、また、[*S=P=Y=]の検出によって、速
度、高さ、抑揚を通常に再設定する。その後、[*F1]
の検出によって、女性の声によって読み上げを行い、
[*M1]の検出によって男性の声により読み上げを行う
といった形式で読み上げが行われる。
【0006】なお、この埋込みコマンドは、[*<属性
記号1><設定値1><属性記号2><設定値2>・・・
・]といった形式で、1つのコマンドの中に複数の属性
の変更を入れることも可能である。
【0007】各音声属性を指示する埋込みコマンドの内
容は以下の通りである。
【0008】●発話速度(スピード)の変更 コマンドの置かれた時点からのスピードを変更する。 設定記号 S 設定値 0(遅い)〜 9(速い)の10段
階。(通常は5)
【0009】●声の高さ(ピッチ)の変更 コマンドの置かれた時点からのピッチを変更する。 設定記号 P 設定値 0(低い)〜 9(高い)の10段
階。(通常は2)
【0010】●声の大きさ(ゲイン)の変更 コマンドの置かれた時点からのゲインを変更する。 設定記号 G 設定値 0(小)〜 9(大)の10段階。
(通常は9)
【0011】●抑揚の大きさの変更 コマンドの置かれた時点からの抑揚の大きさを設定す
る。 設定記号 Y 設定値 0(抑揚なし)〜 9(抑揚最
大)の10段階。
【0012】●男性の声 コマンドの置かれた時点からの男声に切り替える。 設定記号 M 設定値 1
【0013】●女性の声 コマンドの置かれた時点からの女声に切り替える。 設定記号 F 設定値 1
【0014】従来技術においては、このようなテキスト
属性情報を持つデータ・ファイルをテキスト属性(スタ
イル、フォント、下線等)を含むテキスト・ファイルか
ら合成する技術が存在する。
【0015】例えば、特開平6−223070号公報に
は、入力されたテキスト・ファイルのテキスト属性(ス
タイル、フォント、下線等)をテキスト・音声属性変換
テーブルを使用して、音声属性(速度、音量等)に変換
し、音声属性の埋込みコマンドを有するスピーチ・コマ
ンドを作成する方法が開示されている。
【0016】また、特開平6−44247号公報には、
入力されたテキスト・ファイルのテキスト制御信号を制
御信号・音声合成信号変換テーブルを参照して、音声属
性を有する音声合成制御信号に変換する方法が開示され
ている。
【0017】これらの技術によって、テキスト属性の違
いを音声属性の違いとして、読み上げさせることが可能
となり、一般的にフォントや色の違いとして画面に表示
されるテキスト属性の違いを、音声合成プログラム(文
章読み上げプログラム)を通して、音声属性の違い(音声
の大小、高低、抑揚、速度の違いなど)として、読み分
けさせることが可能となる。
【0018】この一方、視覚障害者等、表示画面に表示
された視覚情報を使用せず、操作を行う者(以下「非視
覚ユーザ」という)も、Webブラウザ等のハイパー・
テキストを扱うプログラムを使用したいという要求が存
在する。
【0019】しかし、従来のハイパー・テキストを扱う
プログラム(オンライン・ヘルプのビューワーや、We
bブラウザ)は、すべてテキスト・データは画面に表示
するのみで、テキスト・データを音声で読み上げるプロ
グラムはない。
【0020】また、インターネットのWWW(Worl
d Wide Web)のHTMLは音声データも扱う
ことができるが、あらかじめ音声データを用意しておく
必要がある。音声データの形式も、AU、WAV、RA
など数種類があり、それぞれに応じて、ソフトウェアや
ハードウェアを用意しなけらばならない。この音声デー
タは、テキスト・データよりもサイズが大きくなる傾向
があり、転送時間を余計に必要とするという不利益も存
在する。さらに、音声データ自体、あまり普及している
とは言えず、HTMLの大半のデータが文章データとし
て提供されている。これを音声として読み上げること
で、WWWのデータを音声を通して入手できれば便利で
ある。
【0021】また、単に現在表示画面に表示されている
情報の読み上げを行うのみではなく、この読み上げが行
われている音声情報に従って、非視覚ユーザが容易にか
つ自由にネットサーフィンを行いたいという要求も存在
する。
【0022】これに関連して、特開昭63−23149
3号公報には、入力文の各見出しの先頭に見出しコード
を付設入力しておき、音声合成において早送り、逆戻し
する際、見出し項目の内容のみを合成する方法が開示さ
れている。
【0023】また、特開平3−236099号公報に
は、複数フレ−ズの解析結果を格納しておき、文中の読
み上げ位置を指定する制御コマンドに応じて解析結果を
合成手段に出力して音声を出力させることにより、読上
げ位置を的確に表示可能にする方法が開示されている。
【0024】
【発明が解決しようとする課題】本発明の目的は、テキ
ストに含まれる一定の特徴を有する文字列の種類を選別
し、その種類に対応したコントロールを行いながら音声
合成を行うシステムを提供することにある。
【0025】本発明の更に他の目的は、非視覚ユーザが
自由かつ容易にハイパーテキストをコントロールするこ
とを可能にするシステムを提供することにある。
【0026】
【課題を解決するための手段】上記の「テキスト属性/
音声属性変換」の方法を応用することで、テキストに含
まれる特殊文字列を識別可能に読み上げさせることが可
能となる。本発明の一態様によれば、インターネットの
www等のハイパー・テキストを、音声合成プログラム
が読み上げている位置をシステムが認識する。この文章
の読み上げと同期して、現在読み上げが行われている場
所に最も関連のあるリンク・キーワードにフォーカスの
当てられる。
【0027】あるキーワードを読み始めてから次のキー
ワードを読み始めるまでの間は、フォーカスがそのキー
ワードに当たっているので、この間に「リンク先へのジ
ャンプ」を指示する入力を行えば、リンク・キーワード
の指定が可能となり、そのキーワードのリンク先にジャ
ンブすることが可能となる。
【0028】リンク属性を持つ単語(リンク・キーワー
ド)は、音声属性の違いとして読み分けさせることや、
リンクキーワドを示す音(音声を含む)を挿入することに
よって、他の文字列と識別が可能となるので、画面を見
ずに音声を聞きながら、簡単な操作で、リンク先へジャ
ンプし、ハイパー・テキストの読み上げを続行させるこ
とが可能となる。この技術により、視覚障害者などの非
視覚ユーザも容易にインターネットを利用することが可
能となる。
【0029】本発明の一態様においては、(a)リンク
・キーワードを特定する情報とリンク・キーワードが存
在するハイパーテキスト中の位置情報を管理する文字列
リストを作成する段階と、(b)リンク・キーワードに
音声属性を関連付け、ハイパーテキストを変換すること
により音声合成入力情報を作成する段階と、(c)音声
合成入力情報に基づいて音声合成を行う段階と、(d)
音声合成を行っている位置に対応するハイパーテキスト
中の位置に関連した音声合成ポインタ情報を取得する段
階と、(e)音声合成ポインタ情報に対応するハイパー
テキスト中の位置情報を文字列リストから探索すること
により対応するリンク・キーワードを特定する段階と、
(f)リンク先への移動を指示するユーザ入力を検出す
る段階と、(g)ユーザ入力の検出に応答して、特定さ
れたリンク・キーワードに対応するリンク先情報に基づ
いてリンク先にアクセスする段階と、を含む各々がリン
ク先情報に対応付けられている複数のリンク・キーワー
ドを含むハイパーテキストを制御する方法が提供され
る。
【0030】ここで「リンク・キーワードを特定する情
報」とは、図6に示すポインタ301のように、そのハ
イパーテキストにおいて何番目に存在する文字列である
かを示す情報、図6の位置情報303のように特殊文字
列の位置情報、特殊文字列の名称等特殊文字列を特定す
るに足る情報であればよい。また、「ハイパーテキス
ト」は、好適には、ハイパーテキストに含まれる1テキ
ストであるが、一定の深さを有するハイパーテキスト集
合で有ってもよい。「リンク・キーワードが存在するハ
イパーテキスト中の位置情報」は、先頭から何文字目、
先頭から何ブロック目、何番目のキーワード等、リンク
・キーワードの位置を認識可能な情報であればよい。
「文字列リスト」は、本発明の好適な実施例において示
したテーブルの形式である必要はなく、システムがリン
ク・キーワードを特定でき、リンク・キーワードの位置
を認識できればテーブル形式でなくともよい。
【0031】「音声合成入力情報」は、本発明の好適な
実施例における埋込みコマンド・ファイルに対応する概
念であるが、音声合成を行うに適した形式のファイルで
あれば、何等音声属性情報を埋め込んでいないものも含
む。「音声合成を行っている位置に対応するハイパーテ
キスト中の位置」とは、現在音声合成を行っている正確
な位置を示す情報である必要はなく、或る程度の誤差の
ある情報であってもよい。「音声合成を行っている位置
に対応するハイパーテキスト中の位置に関連した音声合
成ポインタ情報」とは、埋込みコマンドに埋め込まれた
位置情報から取得することも可能であるが、音声合成の
処理(中間処理を含む)を行った文字数等の情報量を計
測し、音声合成ポインタを導出することも可能である。
【0032】「対応するリンク・キーワードを特定す
る」とは、本発明の好適な実施例における現在音声合成
を行っている直前のリンク・キーワード(存在しない場
合は、最先のリンク・キーワード)に対応する概念であ
るが、現在音声合成を行っている直後のリンク・キーワ
ード(存在しない場合は、最後のリンク・キーワード)
といったように設計段階で変更可能な事項である。「リ
ンク先への移動を指示するユーザ入力」とは、予め割り
当てられたキーボード上のキーを押すことや、ポインテ
ィングデバイスによって、ボタンアイコンをクリックす
ることや、プルダウンメニューから選択することによる
入力のみならず、ユーザの音声による入力等を含むもの
である。「リンク先情報に基づいてリンク先にアクセス
する」とは、HTML解析部がデータ入出力制御部に送
出するコマンドの形式でデータ入出力制御部へリンクの
指示を与えることや、ユーザ入力部が、リンク・キーワ
ードを指定したことを示す情報の形式で、HTML解析
部にリンク先へのアクセスを指示することもできる。
【0033】本発明の他の一態様においては、(a)H
TMLファイルをWebサーバから受領する段階と、
(b)リンク・キーワードを特定する情報とリンク・キ
ーワードが存在するHTMLファイル中の位置情報とリ
ンク先情報を管理する文字列リストを作成する段階と、
(c)HTMLファイルに含まれるリンク・キーワード
の開始タグと終了タグを音声属性情報に変換し、リンク
・キーワードが存在するHTMLファイル中の位置情報
とともに音声属性埋込みコマンドとしてリンク・キーワ
ードに関連付けることにより、音声属性埋込みコマンド
・ファイルを作成する段階と、(d)音声属性埋込みコ
マンド・ファイルに基づいて音声合成を行う段階と、
(e)音声合成を行っている位置に対応するHTMLフ
ァイル中の位置に関連した音声合成ポインタ情報をリン
ク・キーワードに関連付けられた位置情報に基づいて取
得する段階と、(f)音声合成ポインタ情報に対応する
HTMLファイル中の位置情報を文字列リストから探索
することにより対応するリンク先情報を特定する段階
と、(g)リンク先への移動を指示するユーザ入力を検
出する段階と、(h)ユーザ入力の検出に応答して、特
定されたリンク先情報に基づいてリンク先にアクセスす
る段階と、を含む各々がリンク先情報に対応付けられて
いる複数のリンク・キーワードを含むWebサーバから
受領したHTMLファイルを制御する方法が提供され
る。
【0034】本発明の他の一態様においては、(a)複
数の特殊文字列を特定する情報と複数の特殊文字列が存
在する文章中の位置情報を管理する文字列リストを作成
する段階と、(b)複数の特殊文字列の各々に音声属性
を関連付け、文章を変換することにより音声合成入力情
報を作成する段階と、(c)音声合成入力情報に基づい
て音声合成を行う段階と、(d)音声合成を行っている
位置に対応する文章中の位置に関連した音声合成ポイン
タ情報を取得する段階と、(e)音声合成ポインタ情報
に対応する文章中の位置情報を文字列リストから探索す
ることにより、音声合成を行っている位置に対応する特
殊文字列を特定する段階と、(f)音声合成位置の変更
を指示するユーザ入力を検出する段階と、(g)ユーザ
入力の検出に応答して、文字列リストから音声合成を行
っている位置に対応する特定文字列に隣接する特殊文字
列の位置情報を取得する段階と、(h)隣接する特殊文
字列の位置情報に対応した位置の音声合成を行う段階
と、を含む複数の特殊文字列を含む文章の音声合成を行
う方法が提供される。
【0035】本発明の他の一態様においては、(a)リ
ンク・キーワードを特定する情報とリンク・キーワード
が存在するハイパーテキスト中の位置情報を管理する文
字列リストと、(b)リンク・キーワードに音声属性を
関連付け、ハイパーテキストを変換することにより音声
合成入力情報を作成する手段と、(c)音声合成入力情
報に基づいて音声合成を行う手段と、(d)音声合成を
行っている位置に対応するハイパーテキスト中の位置に
関連した音声合成ポインタ情報を取得する手段と、
(e)音声合成ポインタ情報に対応するハイパーテキス
ト中の位置情報を文字列リストから探索することにより
対応するリンク・キーワードを特定する手段と、(f)
リンク先への移動を指示するユーザ入力を検出する手段
と、(g)ユーザ入力の検出に応答して、特定されたリ
ンク・キーワードに対応するリンク先情報に基づいてリ
ンク先にアクセスする手段と、を含む各々がリンク先情
報に対応付けられている複数のリンク・キーワードを含
むハイパーテキストを制御する装置が提供される。
【0036】ここで、「リンク・キーワードに音声属性
を関連付け」とは、本発明の好適な実施例における音声
合成埋込みコマンドに対応するものであるが、実施例に
おいて説明した文字列の挿入等を含む概念である。
【0037】本発明の他の一態様においては、(a)H
TMLファイルをWebサーバから受領する通信制御部
と、(b)リンク・キーワードを特定する情報とリンク
・キーワードが存在するHTMLファイル中の位置情報
とリンク先情報を管理する文字列リストを作成する手段
と、(c)HTMLファイルに含まれるリンク・キーワ
ードの開始タグと終了タグを音声属性情報に変換し、リ
ンク・キーワードが存在するHTMLファイル中の位置
情報とともに音声属性埋込みコマンドとしてリンク・キ
ーワードに関連付けることにより、音声属性埋込みコマ
ンド・ファイルを作成する手段と、(d)音声属性埋込
みコマンド・ファイルに基づいて音声合成を行う音声合
成部と、(e)音声合成を行っている位置に対応するH
TMLファイル中の位置に関連した音声合成ポインタ情
報をリンク・キーワードに関連付けられた位置情報に基
づいて取得する手段と、(f)音声合成ポインタ情報に
対応するHTMLファイル中の位置情報を文字列リスト
から探索することにより対応するリンク先情報を特定す
る手段と、(g)リンク先への移動を指示するユーザ入
力を検出するユーザ入力部と、(h)ユーザ入力の検出
に応答して、特定されたリンク先情報に基づいてリンク
先にアクセスする手段と、を含む各々がリンク先情報に
対応付けられている複数のリンク・キーワードを含むW
ebサーバから受領したHTMLファイルを制御する装
置が提供される。
【0038】本発明の他の一態様においては、(a)記
複数の特殊文字列を特定する情報と複数の特殊文字列が
存在する文章中の位置情報を管理する文字列リストを作
成する手段と、(b)複数の特殊文字列の各々に音声属
性を関連付け、文章を変換することにより音声合成入力
情報を作成する手段と、(c)音声合成入力情報に基づ
いて音声合成を行う手段と、(d)音声合成を行ってい
る位置に対応する文章中の位置に関連した音声合成ポイ
ンタ情報を取得する手段と、(e)音声合成ポインタ情
報に対応する文章中の位置情報を文字列リストから探索
することにより、音声合成を行っている位置に対応する
特殊文字列を特定する手段と、(f)音声合成位置の変
更を指示するユーザ入力を検出する手段と、(g)ユー
ザ入力の検出に応答して、文字列リストから音声合成を
行っている位置に対応する特定文字列に隣接する特殊文
字列の位置情報を取得する手段と、(h)隣接する特殊
文字列の位置情報に対応した位置の音声合成を行う手段
と、を含む複数の特殊文字列を含む文章の音声合成を行
う装置が提供される。
【0039】本発明の他の一態様においては、(a)リ
ンク・キーワードを特定する情報とリンク・キーワード
が存在するハイパーテキスト中の位置情報を管理する文
字列リストを作成することをデータ処理システムに指示
するプログラムコード手段と、(b)リンク・キーワー
ドに音声属性を関連付け、ハイパーテキストを変換する
ことにより音声合成入力情報を作成することをデータ処
理システムに指示するプログラムコード手段と、(c)
音声合成入力情報に基づいて音声合成を行うことをデー
タ処理システムに指示するプログラムコード手段と、
(d)音声合成を行っている位置に対応するハイパーテ
キスト中の位置に関連した音声合成ポインタ情報を取得
することをデータ処理システムに指示するプログラムコ
ード手段と、(e)音声合成ポインタ情報に対応するハ
イパーテキスト中の位置情報を記文字列リストから探索
することにより対応するリンク・キーワードを特定する
ことをデータ処理システムに指示するプログラムコード
手段と、(f)リンク先への移動を指示するユーザ入力
を検出することをデータ処理システムに指示するプログ
ラムコード手段と、(g)ユーザ入力の検出に応答し
て、特定されたリンク・キーワードに対応するリンク先
情報に基づいてリンク先にアクセスすることをデータ処
理システムに指示するプログラムコード手段と、を含む
データ処理システムが管理する記憶域において管理され
ている、各々がリンク先情報に対応付けられている複数
のリンク・キーワードを含むハイパーテキストを制御す
るためのプログラムを格納する記憶媒体が提供される。
【0040】本発明の他の一態様においては、(a)H
TMLファイルをWebサーバから受領することをデー
タ処理システムに指示するプログラムコード手段と、
(b)リンク・キーワードを特定する情報とリンク・キ
ーワードが存在するHTMLファイル中の位置情報とリ
ンク先情報を管理する文字列リストを作成することをデ
ータ処理システムに指示するプログラムコード手段と、
(c)HTMLファイルに含まれるリンク・キーワード
の開始タグと終了タグを音声属性情報に変換し、リンク
・キーワードが存在するHTMLファイル中の位置情報
とともに音声属性埋込みコマンドとしてリンク・キーワ
ードに関連付けることにより、音声属性埋込みコマンド
・ファイルを作成することをデータ処理システムに指示
するプログラムコード手段と、(d)音声属性埋込みコ
マンド・ファイルに基づいて音声合成を行うことをデー
タ処理システムに指示するプログラムコード手段と、
(e)音声合成を行っている位置に対応するHTMLフ
ァイル中の位置に関連した音声合成ポインタ情報をリン
ク・キーワードに関連付けられた位置情報に基づいて取
得することをデータ処理システムに指示するプログラム
コード手段と、(f)音声合成ポインタ情報に対応する
記HTMLファイル中の位置情報を文字列リストから探
索することにより対応するリンク先情報を特定すること
をデータ処理システムに指示するプログラムコード手段
と、(g)リンク先への移動を指示するユーザ入力を検
出することをデータ処理システムに指示するプログラム
コード手段と、(h)ユーザ入力の検出に応答して、特
定されたリンク先情報に基づいてリンク先にアクセスす
ることを記データ処理システムに指示するプログラムコ
ード手段と、を含むデータ処理システムが管理する記憶
域において管理されている、各々がリンク先情報に対応
付けられている複数のリンク・キーワードを含むWeb
サーバから受領したHTMLファイルを制御するための
プログラムを格納する記憶媒体が提供される。
【0041】本発明の他の一態様においては、(a)複
数の特殊文字列を特定する情報と複数の特殊文字列が存
在する文章中の位置情報を管理する文字列リストを作成
することをデータ処理システムに指示するプログラムコ
ード手段と、(b)複数の特殊文字列の各々に音声属性
を関連付け、文章を変換することにより音声合成入力情
報を作成することをデータ処理システムに指示するプロ
グラムコード手段と、(c)音声合成入力情報に基づい
て音声合成を行うことをデータ処理システムに指示する
プログラムコード手段と、(d)音声合成を行っている
位置に対応する文章中の位置に関連した音声合成ポイン
タ情報を取得することを記データ処理システムに指示す
るプログラムコード手段と、(e)音声合成ポインタ情
報に対応する文章中の位置情報を文字列リストから探索
することにより、音声合成を行っている位置に対応する
特殊文字列を特定することをデータ処理システムに指示
するプログラムコード手段と、(f)音声合成位置の変
更を指示するユーザ入力を検出することをデータ処理シ
ステムに指示するプログラムコード手段と、(g)ユー
ザ入力の検出に応答して、文字列リストから音声合成を
行っている位置に対応する特定文字列に隣接する特殊文
字列の位置情報を取得することをデータ処理システムに
指示するプログラムコード手段と、(h)隣接する特殊
文字列の位置情報に対応した位置の音声合成を行うこと
をデータ処理システムに指示するプログラムコード手段
と、を含むデータ処理システムが管理する記憶域におい
て管理されている、複数の特殊文字列を含む文章の音声
合成を行うためのプログラムを格納する記憶媒体が提供
される。
【0042】
【実施例】以下、図面を参照して本発明の実施例を説明
する。図1を参照すると、本発明の音声合成システムを
実施するためのハードウェア構成の概観図が示されてい
る。音声合成システム100は、中央処理装置(CP
U)1とメモリ4とを含んでいる。CPU1とメモリ4
は、バス2を介して、補助記憶装置としてのハードディ
スク装置13とを接続してある。フロッピーディスク装
置(またはMO、CD−ROM等の駆動装置)20はフ
ロッピーディスクコントローラ19を介してバス2へ接
続されている。
【0043】フロッピーディスク装置(またはMO、C
D−ROM等の駆動装置)20には、フロッピーディス
ク(またはMO、CD−ROM等の媒体)が挿入され、
このフロッピーディスク等やハードディスク装置13、
ROM14には、オペレーティングシステムと協働して
CPU等に命令を与え、本発明を実施するためのコンピ
ュータ・プログラムのコードを記録することができ、メ
モリ4にロードされることによって実行される。このコ
ンピュータ・プログラムのコードは圧縮し、または、複
数に分割して、複数の媒体に記録することもできる。
【0044】音声合成システム100は更に、ユーザ・
インターフェース・ハードウェアを備えたシステムとす
ることができ、ユーザ・インターフェース・ハードウェ
アとしては、例えば、入力をするためのポインティング
・デバイス(マウス、ジョイスティック等)7またはキ
ーボード6や、視覚データをユーザに提示するためのデ
ィスプレイ12がある。また、パラレルポート16を介
してプリンタを接続することや、シリアルポート15を
介してモデムを接続することが可能であり、シリアルポ
ート15およびモデムまたは通信アダプタ18を介して
他のコンピュータ等と通信を行うことが可能である。
【0045】スピーカ23は、オーディオ・コントロー
ラ21によってD/A(デジタル/アナログ変換)変換
しされた音声信号を、アンプ22を介して受領し、音声
として出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込むことを可能にしている。
【0046】このように、本発明は、通常のパーソナル
コンピュータ(PC)、やワークステーションやこれら
の組合せによって実施可能であることを容易に理解でき
るであろう。ただし、これらの構成要素は例示であり、
その全ての構成成要素が本発明の必須の構成要素となる
わけではない。特に、本発明は、非視覚ユーザをサポー
トするための発明であるため、ユーザに対し視覚的表示
を行うために必要なVGA8、VRAM9、DAC/L
CDC10、表示装置11、CRT12等の構成要素は
必須ではない。また、後述するように音声によってシス
テムに対し指示を与える入力を与えることも可能である
ため、キーボード6、マウス7、キーボード/マウスコ
ントローラ5も必須の構成要素ではない。
【0047】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、PC−DOS(IBMの商標)、MS−
DOS(マイクロソフトの登録商標)などのキャラクタ
・ベース環境でも実現可能であり、特定のオペレーティ
ング・システム環境に限定されるものではない。
【0048】また、図1は、スタンド・アロン環境のシ
ステムを示しているが、クライアント/サーバ・システ
ムとして本発明を実現し、クライアント・マシンは、サ
ーバ・マシンに対して、イーサネット、トークン・リン
グなどでLAN接続し、クライアント・マシン側には、
後述するユーザ入力部と、サーバ・マシン側から音声デ
ータを受領し、それを再生するための合成器及びスピー
カのみを配置し、その他の機能をサーバ・マシン側に配
置してもよい。このように、サーバ・マシン側とクライ
アント・マシン側にどのような機能を配置するかは設計
に際し自由に変更できる事項であり、複数のマシンを組
合せ、それらにどのような機能を配分し、実施するか等
の種々の変更は本発明の思想に包含される概念である。
【0049】B.システム構成 次に、図2のブロック図を参照して、本発明のシステム
構成について説明する。本発明の好適な実施例において
は、大別して、通信制御部110、Webブラウザ部1
20、及び音声合成部150によって構成される。これ
らの構成部分は、夫々別々に図1に示すハードウエア構
成によって実現することも、共通のハードウエアによっ
て実現することもできる。
【0050】この通信制御部110は、Webサーバ等
の他のコンピュータとの通信を制御する。この詳しい機
能については後述する。
【0051】Webブラウザ部120は、データ入出力
制御部121、HTML関連ファイル格納部123、H
TML解析部125、ユーザ入力部127、フォーカス
制御部129、文字列リスト131、表示部133及び
変換表135、及びフォーカス・ポインタ139によっ
て構成されている。
【0052】この入出力制御部121は、URLを指定
する情報を基にWebサーバ60にアクセスし、Web
サーバ60からHTML(Hyper Text Markup Languae)
ファイルを受領することを通信制御部110に指示す
る。
【0053】HTML関連ファイル格納部123は、通
信制御部110、データ入出力制御部121によって受
領されたHTMLファイルや、画像ファイル等のHTM
L関連ファイルを格納する。HTML解析部125は、
HTMLファイルを解析し、さらに受領すべきファイル
が存在するか否かの判断や、文字列リスト131や、埋
込みコマンド・ファイル141の作成を行う。
【0054】フォーカス制御部129は、音声合成部1
50から現在読み上げが行われている位置情報(音声ポ
インタ情報171)や、文字列リスト131の情報等を
受領し、現在フォーカスを当てるべき文字列を特定す
る。表示部133は、HTMLファイルの内容や、現在
のフォーカスの当たってる文字列の表示等を行う。変換
表135は、HTMLファイルのキーワードを読み上げ
に際しての音声属性を指示する埋込みコマンドに変換す
るためのテーブルである。
【0055】この一方、音声合成部150は、音声合成
制御部151、言語解析部153、文法規則保持部15
5、読みアクセント辞書157、読み付与部159、ア
クセント付与部161、パラメータ生成部163、音声
合成部165、音声発生部167、音声合成ポインタ格
納部169、音声ファイル格納部171及び音声合成ジ
ャンプ・ポインタ格納部173によって構成されてい
る。
【0056】音声合成制御部151は、Webブラウザ
部120から渡された埋め込みコマンドを含む文章(埋
込みコマンド・ファイル)を言語解析部153に渡す。
言語解析部153は、音声合成制御部151から渡され
た文字列を、読み・アクセント辞書157及び文法規則
保持部155に格納されている文法規則を参照し、形態
素解析を行い、入力された文章を適切な形態素単位に切
り分ける。
【0057】文法規則格納部155は、言語解析部15
3における形態素解析に参照される文法規則を格納す
る。読み・アクセント辞書157は、漢字かな混じり文
字列に対応する「品詞」、「読み」及び「アクセント」
を格納する。
【0058】読み付与部159は、言語解析部153に
よって切り分けられた個々の形態素に対し、読み・アク
セント辞書157に格納された読み情報から、その形態
素の読みを決定する。アクセント付与部161は、言語
解析部153によって切り分けられた個々の形態素に対
し、読み・アクセント辞書157に格納されたアクセン
ト情報から、その形態素のアクセントを決定する。
【0059】パラメータ生成部163は、読み付与部1
59によって決定された読みと、アクセント付与部16
1によって決定されたアクセントに応じて、現在指定さ
れている「速さ」「ピッチ」「音量」「抑揚」「性別」
等のパラメータで音声合成を行うための音声パラメータ
を生成する。ここで、「現在指示されているパラメー
タ」とは、現在音声合成を行っている文字列の前に音声
属性示す音声コマンドが埋め込まれている場合、その音
声属性を採用し、このような音声コマンドがない場合
は、システムに予め設定されているデフォルトの音声属
性値が採用されることを意味するものである。
【0060】音声合成器165は、パラメータ生成部1
43によって生成された音声パラメータに従って音声信
号を生成する。本発明の好適な実施例においては、図1
のオーディオ・コントローラによってD/A(デジタル
/アナログ変換)変換等が行われることにより、実施さ
れる。音声発生部167は、音声合成器145によって
生成された音声信号に応じて音声を発生させる。本発明
の好適な実施例においては、図1のアンプ22およびス
ピーカ23によって実施される。
【0061】以上図2に示す核機能ブロックを説明した
が、これらの機能ブロックは、論理的機能ブロックであ
り、各々1つのまとまりを持ったハードウエアやソフト
ウエアによって実現されることを意味するのではなく、
複合し、または共通したハードウエアやソフトウエアに
よって実現可能である。
【0062】C.データ・フロー 次に、「B.システム構成」において説明した各機能ブ
ロック間で、どのようにデータの受渡しが行われている
かを説明する。
【0063】C1.HTML関連ファイルの受領 通信制御部110は、図3に示すようにWebサーバ6
0との通信を制御する。図3においては、まず、ユーザ
入力部127において入力されたURLを指定する情報
を入出力制御部121を介して受領し、この情報を基に
Webサーバ60にアクセスし、Webサーバ60から
HTML(Hyper Text Markup Languae)ファイルを受領
する。
【0064】通信制御部110によって受領されたHT
MLファイルは、HTML関連ファイル格納部123に
格納される。HTMLファイルは、さらにHTML解析
部125で解析される。HTML解析部125では、H
TMLファイルを解析し、画像ファイル等、さらに受領
すべきファイルが存在するか否か判断し、さらに受領す
べきファイルが存在すると判断された場合は、受領すべ
きファイル名を特定し、データ入力制御部121にリク
エストする。データ入出力制御部121は、通信制御部
110を介して再び、Webサーバ60にアクセスし、
Webサーバ60からHTML関連ファイルを受領す
る。受領したHTML関連ファイルは、HTML関連フ
ァイル格納部123に格納される。
【0065】C2.文字列リストの作成 図4は、本発明の好適な実施例において使用されるHT
MLファイルのサンプルである。本発明の好適な実施例
においては、このHTMLファイルを入力として、埋込
みコマンドを含む文章を作成する。図に示すように、テ
キスト形式のHTMLファイルは、<TITLE>, <H1>, <H2
>, <H3>, <H4>, <H5>, <H6>のタグを含んでいる。
【0066】HTMLファイルのサンプルを用いて埋込
みコマンド・ファイルと文字列リストの作成手順につい
て説明する。図4は、本発明の好適な実施例において、
HTMLファイルのサンプルとして用いられるファイル
の内容を示す図である。図4のHTMLファイルは、表
示部133で加工が行われ、ユーザに対しては図5に示
すようなグラフィカルな映像として提供される。このH
TMLのタグは、開始タグ<XXXX>で始まり終了タグ</XX
XX>で終わっている。従って、システムは、各タグをそ
の種類を認識しつつ、その抽出を行うことができる。
【0067】ポインタ301は有効なタグに対して割り
ふられる番号である。本発明の好適な実施例において
は、「<html><TITLE>」等の重複したタグが存在する場
合は、最後に存在するタグが有効となり、それ以前のタ
グは無視される。従って、例えば、「<H1>大和の写真</
H1><IMG SRC="yamato.gif"><H2>これがH2<I>イタリッ
ク</I>です」の入力の場合、「</H1><IMG SRC="yamato.
gif">」のタグが無視される。但し、例えば、「<A HREF
="THAT.HTM"><I>これもリンク・キーワード</I>です</A
>」のように、リンク・キーワードのタグと他のタグが
重複している場合は、リンク・キーワードのタグは無視
されず、文字列のないリストが形成される。
【0068】位置情報303は、有効なタグに対応する
文字列の開始位置を示すものである。また、「<A HREF
="THAT.HTM">これも<I>リンク・キーワード</I>です</A
>」の入力の場合、「<A HREF="THAT.HTM">」を検出し、
リンク・キーワードに対応する文字列であることを示す
リンク・キーワードフラグを1に、リンク・キーワード
の先頭を示す文字列であることを示すリンク・キーワー
ドヘッドフラグを1にセットする。さらに、リンク・キ
ーワードの先頭を示す文字列に対応して、リンク先情報
がセットされる。本発明の好適な実施例においては、こ
の文字列リストはHTML解析部125により生成され
る。
【0069】本発明の好適な実施例における文字列リス
トにおいては、図6に示す情報を管理しているが、これ
らの情報のすべてが本発明の必須の構成要素であるわけ
ではない。文字列リスト131は、リンク・キーワード
に対応する文字列が存在する位置情報を管理するもので
あり、リンク・キーワードに対応する文字列が存在する
位置情報が管理されているのであれば本発明は動作可能
になる。
【0070】C3.埋込みコマンド・ファイルの作成 次に、埋込みコマンド・ファイルの作成手順について説
明する。本発明の好適な実施例における埋込みコマンド
は、HTML解析部125において、以下の2工程を経
て作成される。
【0071】C3−1.一時ファイルの作成 図4で示したHTMLファイルは、一度、次の表1に示
す形式に変換される。HTMLファイルから、「<html
>」や「<IMG SRC="yamato.gif">」等の不要な情報が除
外され、有効な開始タグが、テキスト属性/音声属性変
換テーブル(変換表143)に基づいて、音声属性情報
に変換される。また、終了タグは、対応する開始タグで
変更された音声属性をデフォルト値に戻す埋込みコマン
ドに変換される。
【0072】本発明の好適な実施例においては、変換表
143を用いて、変換を行っているが、変換表というテ
ーブルを用いずとも、変換プログラムの内部ロジックで
変換を行うことも可能である。
【0073】表1に、テキスト属性/音声属性変換テー
ブルの一実施例を示す。
【表1】 (テキスト属性) (音声属性) デフォルト S5P2G8Y5 (速度5、高さ2、音量8、抑揚5) TITLE (タイトル) S5P1G8Y6 (速度5、高さ1、音量8、抑揚6) H1 (見出し1) S5P3G8Y5 (速度5、高さ3、音量8、抑揚5) H2 (見出し2) S5P4G8Y5 (速度5、高さ4、音量8、抑揚5) H3 (見出し3) S5P5G8Y5 (速度5、高さ5、音量8、抑揚5) H4 (見出し4) S5P6G8Y5 (速度5、高さ6、音量8、抑揚5) H5 (見出し5) S5P7G8Y5 (速度5、高さ7、音量8、抑揚5) H6 (見出し6) S5P8G8Y5 (速度5、高さ8、音量8、抑揚5) I (イタリック) S3 (速度3) B (ボールド) G9 (音量9) A HREF=(リンク・キーワード) S1 (速度1)
【0074】このテーブルは、固定的なものであって
も、ユーザによって変更可能なものであってもよい。ま
た、同一のテキスト属性が連続して出現する場合は、同
じ音声属性は割りふられ、ユーザは判別不能(切り分け
不能)となることが考えられるので、同一のテキスト属
性が連続して出現する場合は、相異なる音声属性を交互
に割りふることや、切り分けを示すために一定時間の間
隔をもって読み上げを行ったり、何らかの音声を挿入す
ることも可能である。
【0075】表2は、一時ファイルの一実施例である。
この一時ファイルは、図7のフローチャートの手順に従
って作成することができる。このファイルにおいては、
デフォルトの音声属性に対して変更が発生した音声属性
のみを埋込みコマンドとして挿入している。しかし、"
[*S5P1G8Y6]これがタイトル[*S5P1G8Y6]"のように表1
に示す音声コマンド全てを埋込みコマンドとすることも
可能である。
【0076】
【表2】 [*P1Y6]これがタイトル[*P2Y5] [*P3]大和の写真[*P2] [*P4]これがH2[*Y8]イタリック[*Y5]です[*P2] [*P6]これがH4[*Y8]イタリック[*Y5]です[*P2] [*P8]これがH6[*Y8]イタリック[*Y5]です[*P2] [*S1]これがリンク・キーワードです[*S5] これはリンク・キーワードではありません [*S1]これも[*Y8]リンク・キーワード[*Y5]です[*S5] [*P7] [*S1]HTTP[*S5]はその名が示す通り、 [*S1]HTML[*S5]の転送プロトコルであり、 [*S1]WWW[*S5]で用いられる。 [*P2]
【0077】C3−2.最終ファイル 一時ファイルの連続する埋め込みコマンドを整理する。
この場合、同種の音声属性が存在する場合、最後の音声
属性を有効にする。また、連番を各埋め込みコマンドに
埋込み位置(順番)情報として、"D1","D2",...を挿入す
る。この埋込み位置情報は、図6の文字列ファイル13
1のポインタに対応している。最終的に、表3に示す形
式で音声合成部に渡されることとなる。
【0078】
【表3】 [*P1Y6D1]これがタイトル [*P3Y5D2]大和の写真 [*P4D3]これがH2 [*Y8D4]イタリック [*Y5D5]です [*P6D6]これがH4 [*Y8D7]イタリック [*Y5D8]です [*P8D9]これがH6 [*Y8D10]イタリック [*Y5D11]です [*S1P2D12]これがリンク・キーワードです [*S5D13]これはリンク・キーワードではありません [*S1D14]これも [*Y8D15]リンク・キーワード [*Y5D16]です [*S1P7D17]HTTP [*S5D18]はその名が示す通り、 [*S1D19]HTML [*S5D20]の転送プロトコルであり、 [*S1D21]WWW [*S5D22]で用いられる。 [*P2D23]
【0079】但し、ここで示すような音声属性の種類を
示す記号と、その音声属性値をセットとして音声コマン
ドに埋め込む態様は、単なる一実施例にすぎず、音声合
成部150の音声合成制御部151がそれが音声コマン
ドであるということと、音声コマンドに埋め込まれた音
声属性の種類とその音声属性値の値およびそのような音
声属性の変更を行う文章中の個所を判断できる態様で埋
め込めばよい。例えば、音声コマンド中例えば最初の1
バイトは「性別」、2バイト目は「速さ」等音声属性値
の配置を固定的にし、音声合成制御部151は、その配
置に従って、音声属性の種類を判別してもよい。
【0080】また、埋込みコマンドはそのコマンドに含
まれる音声属性を有効にする文字列の先頭に埋め込むこ
とが好ましいが、この音声属性を有効にする文字列の文
章中の位置が分かれば、その文字列の先頭に埋め込む必
要はない。この場合、音声コマンドに、その音声コマン
ドに埋め込まれた音声属性を有効にする文字列の文章中
の位置を埋め込んでおき、音声合成を行う際に、音声合
成制御部151は、音声コマンドに埋め込まれた音声属
性を有効にする文字列の文章中の位置にきたとき、その
音声コマンドの音声属性を有効にすることもできる。
【0081】さらに、本発明の好適な実施例において
は、埋込みコマンドが埋め込まれた文章を2段階に分け
て作成しているが、一時ファイルの段階で、位置情報を
埋め込んでおき、これを最終ファイルとして使用するこ
とも、1つの変換工程でHTMLファイルを埋込みコマ
ンドの埋め込まれた最終ファイルに変換することも可能
である。また、文字列リストと埋込みコマンドの埋め込
まれた文章を同一の工程で作成することも可能である。
【0082】C4−1.音声合成 言語解析部153は、音声合成制御部151から渡され
た文字列を、読み・アクセント辞書157及び文法規則
保持部155に格納されている文法規則を参照し、形態
素解析を行い、入力された文章を適切な形態素単位に切
り分ける。この切り分けの単位は、埋込みコマンドが埋
め込まれた単位で行ってもよいが、本発明の好適な実施
例においては、埋込みコマンドを無視した文字列を用い
て形態素解析が行われる。
【0083】従って、たとえば、「[*S1P7D17]HTTP
[*S5D18]はその名が示す通り、」の文字列が入力された
場合、「HTTP/ハ/ソノナガ/シメス/トオリ」で
はなく、「HTTPワ/ソノナガ/シメス/トオリ」と
いった文字単位で音声合成がなされる。
【0084】かかる場合、「[*S1P7D17]HTTP/[*S5
D18]ワ/ソノナガ/シメス/トオリ」といった形式でパ
ラメータ生成部163へデータを渡すことも「[*S1P7D1
7]HTTPワ/[*S5D18]ソノナガ/シメス/トオリ」と
いった文字単位でデータを渡すことも種々設計段階で変
更することができる。
【0085】本発明の好適な実施例においては、デフォ
ルトの音声属性の埋込みコマンドを、音声属性の変更の
終了後に挿入しているが、音声属性の変更のある文字列
にのみ埋込みコマンドを挿入し、音声属性の変更が終了
するが箇所に、音声属性の変更の終了を示す特殊な文字
または記号等を挿入し、パラメータ生成部163がこれ
を検出し、自動的にデフォルトの音声属性のパラメータ
を生成するようにしても本発明は実施可能である。かか
る場合、パラメータ生成部163は、読み付与部159
によって決定された読みと、アクセント付与部161に
よって決定されたアクセントに応じて、現在指定されて
いる「速さ」「ピッチ」「音量」「抑揚」「性別」等の
パラメータで音声合成を行うための音声パラメータを生
成する。ここで、「現在指示されているパラメータ」と
は、現在音声合成を行っている文字列の前に音声属性示
す音声コマンドが埋め込まれている場合、その音声属性
を採用し、このような音声コマンドがない場合は、シス
テムに予め設定されているデフォルトの音声属性値が採
用される。
【0086】音声合成器165は、パラメータ生成部1
63によって生成された音声パラメータに従って音声信
号を生成する。本発明の好適な実施例においては、図1
のオーディオ・コントローラによってD/A(デジタル
/アナログ変換)変換等が行われることにより、実施さ
れる。音声発生部167は、音声合成器165によって
生成された音声信号に応じて音声を発生させる。本発明
の好適な実施例においては、図1のアンプ22およびス
ピーカ23によって実施される。このようにテキストに
含まれる特殊文字列の種類に応じた音声合成を行うた
め、ユーザは、視覚を用いず、聴覚のみでその特殊文字
列の種類を認識しつつ、テキストの内容を把握すること
ができる。
【0087】本発明の好適な実施例においては、特殊文
字列の種類を音声属性の変更によって表現しているが、
音声属性の変更に因ずとも、特殊文字列の種類を非視覚
ユーザに認識させることは可能である。表4は、本発明
の埋込みコマンドの埋め込まれた文章の一実施例を示す
ものである。ここでは、実際のリンク・キーワードの直
前に「リンク・キーワード」という文字列を挿入するこ
とによって、リンク・キーワードの位置を非視覚ユーザ
に認識可能にしている。なお、この表おける「FM1」な
る音声属性コマンドは、現在男性の声によって読み上げ
が行われている場合、女性の声に変更し、現在女性の声
によって読み上げが行われている場合、男性の声に変更
することを指示するコマンドである。このコマンドによ
って、もともとHTMLファイルに存在する「リンク・
キーワード」という文字列なのか、挿入された「リンク
・キーワード」の文字列であるのか、両者を明確に区別
することができる。
【0088】
【表4】 [*D1]これがタイトル [*D2]大和の写真 [*D3]これがH2 [*D4]イタリック [*D5]です [*D6]これがH4 [*D7]イタリック [*D8]です [*D9]これがH6 [*D10]イタリック [*D11]です [*S1FM1D12]リンク・キーワード [*D12]これがリンク・キーワードです [*S5FM1D13]これはリンク・キーワードではありません [*S1FM1D14]リンク・キーワード [*D14]これも [*D15]リンク・キーワード [*D16]です [*S1FM1D17]リンク・キーワード [*D17]HTTP [*S5FM1D18]はその名が示す通り、 [*S1FM1D19]リンク・キーワード [*D19]HTML [*S5FM1D20]の転送プロトコルであり、 [*S1FM1D21]リンク・キーワード [*D21]WWW [*S5FM1D22]で用いられる。
【0089】C4−2.特殊文字列フォーカス同期機能 本発明の好適な実施例においては、Webブラウザ部1
20のフォーカス制御部129が、現在読み上げが行わ
れている箇所を知ることができる。具体的には、パラメ
ータ生成部163は、読み及びアクセントの付与され、
形態素単位に分割された音声情報ファイル171を管理
しており、その各形態素単位に前述の位置情報が関連付
けられている。パラメータ生成部163は先入れ先出し
方式で形態素単位の音声ファイルを合成器165に送出
する。この時パラメータ生成部163は、形態素単位の
音声ファイルに関連付けられた位置情報を音声合成ポイ
ンタ169として格納する。Webブラウザ部120の
フォーカス制御部129は、音声合成部150の音声合
成制御部151を介してこの音声合成ポインタの情報を
取得することができる。
【0090】この一連の流れを前述の埋込みコマンド・
ファイルを用いて説明すると、例えば、"[*D17]HTT
P[*S5D18]はその名が示す通り、"の文字列ブロックの
場合、読み付与部159及びアクセント付与部161に
おいて読み及びアクセントが付与された以下の音声情報
がパラメータ生成部163に渡される。
【0091】"[*D17]HTTPワ、[*S5D18]ソノナガ、
シメス、トオリ、"(アクセント記号は、ここでは省
略)
【0092】パラメーター生成部163は、これに埋込
みコマンドの音声属性に従ったパラメータを設定したウ
エブ形式のファイルに変換し、その情報を音声ファイル
171に格納する。格納される音声ファイルは観念的に
以下のように表現できる。
【0093】"[*D17]HTTPワ、[*D18]ソノナガ、[*D
18]シメス、[*D18]トオリ、"
【0094】ここで例えば、「ソノナガ、」を読むとき
パラメータ生成部163は、音声合成器165にこの音
声ファイルを渡すと同時に、音声合成ポインタ169の
内容を"D"の値(すなわち18)を音声合成ポインター
169にセットする。なお、この位置情報は、形態素単
位で保持する必要はなく、また、"[*D17]HTTP[*D1
8]ワ、ソノナガ、シメス、トオリ、"等形態素単位を分
割して埋め込むことも可能である。
【0095】フォーカス制御部129は、この音声合成
ポインタ169の情報を音声合成制御部151を介して
受領する。フォーカス制御部129は、この情報をもと
に文字列リストを参照し、ポインタ301が18である
エントリを探索し、現在100文字目の「はその名が示
す通り、」という文字列の読み上げを行っていることを
認識することができる。
【0096】フォーカス制御部129は、この文字列リ
ストの位置情報を表示部に伝達し、反転表示等現在読み
上げが行われている箇所をユーザが認識できる形式で表
示させる。反転表示は音声合成と同期して表示するため
に、遅延時間を挿入する等の制御を行うことも可能であ
る。
【0097】C4−3.リンク機能 本発明によれば、現在読み上げが行われている箇所に関
連したリンク・キーワードを特定し、そのキーワードの
選択が有った場合、そのキーワードに対応したリンク先
へジャンプする。具体的には、フォーカス制御部129
は、音声合成ポインタ169と文字列リスト131のポ
インタ情報、リンク・ヘッド・フラグ情報を比較して、
現在読み上げが行われている箇所に対応するリンク先3
11情報を特定する。例えば、現在読み上げを行ってい
る箇所を示す音声合成ポインタが「16」であった場
合、フォーカス制御部129は、この値以下でリンク・
ヘッド・フラグが1である最も大きな値のポインタを選
択する。
【0098】この例においては「14」が選択される。
フォーカス制御部129は、このポインタの情報をフォ
ーカス・ポインタ139に格納する。このポインタ情報
はリンク先を特定するために格納されるものであるた
め、"THAT.HTM"等、直接リンク先情報を格納す
ることも可能である。なお、本発明の好適な実施例にお
いては、フォーカス制御部129は、音声合成ポインタ
の値以下でリンク・ヘッド・フラグが1である最も大き
な値のポインタを選択しフォーカス・ポインタとして格
納するが、これに該当するポインタが存在しない場合は
リンク・ヘッド・フラグが1の最も小さな値を有してい
るポインタをフォーカス・ポインタとして格納する。
【0099】このような読み上げが行われている間に
「リンク先へのジャンプ」を示すキー入力が検出された
場合、このフォーカス・ポインタに対応するリンク先情
報を特定することができるため、公知のハイパーテキス
トにリンク手法を用いて、そのキーワードのリンク先に
ジャンブすることが可能となる。これにより、非視覚ユ
ーザが音声を聞きながら、簡単なキー操作だけで、リン
ク先へジャンプし、ハイパー・テキストの読み上げを続
行させることが可能となる。なお、本発明の好適な実施
例においては、このようなユーザ入力の検出に応答して
埋込みコマンド・ファイル141、音声ファイル171
等の各種ファイルを格納するバッファの内容がクリアさ
れ、またフォーカス・ポインタ139、音声合成ポイン
タ169、音声ジャンプ・ポインタ173等の各種情報
が初期設定される。
【0100】C4−4.その他の機能 本発明の好適な実施例においてはさらに、以下の様な機
能を持つキーをキーボード上に割り当てることで、リン
ク・キーワードの移動と選択が自在に行える。
【0101】キー1 : フォーカスのあるリンク・キーワ
ードの読み上げ キー2 : フォーカスのあるリンク・キーワードからの読
み上げ キー3 : リンク先へのジャンプ キー4 : リンク・キーワード前方移動 キー5 : リンク・キーワード後方移動 キー6 : プレイ キー7 : ストップ キー8 : ポーズ キー9 : 早送り キー10: 巻き戻し キー11: フォーカスのあるリンク・キーワードのみの読
み上げ
【0102】ここでキー6乃至キー10は公知の手法を
用いることによって実現可能であり、キー3のリンク先
へのジャンプは、既に説明を行っているためる説明は省
略する。キー1乃至5及び11について説明する。
【0103】キー1が押された場合は、ユーザ入力部1
27はこれを検出し、この情報をフォーカス制御部12
9に伝達する。フォーカス制御部129はこれに応答し
て、フォーカス・ポインタ139に格納されているポイ
ンタ情報を取得する。更にフォーカス制御部129は、
文字列リスト131を参照することにより読み上げを行
うべき文字列の特定を行う。例えば、フォーカス・ポイ
ンタの内容が「14」であった場合、リンク・フラグを
参照しこれに連続するリンク・フラグ1の文字列であっ
て、リンク・ヘッド・フラグが1でない「14」乃至
「16」が読み上げを行うべき文字列であると認識す
る。
【0104】フォーカス制御部129は、音声合成制御
部151に位置情報が14乃至16の文字列の音声合成
を行うことを指示する。音声合成制御部151は、この
音声合成を行うべき位置情報の開始位置と終了位置を音
声ジャンプ・ポインタ173として一時的に格納する。
1つのリンク先に対応する文字列は連続して存在するも
のであるため、開始位置と終了位置ではなく開始位置と
文字列も個数を格納してもよい。さらに、文字列の個数
や終了位置は文字列リストのリンク・フラグとリンク・
ヘッド・フラグを参照することにより判断可能な情報で
あるため、開始位置のみを格納してもよい。
【0105】その後、音声合成制御部151はこの位置
情報を有する音声ファイルが残存しているか否かを音声
合成ファイル格納部171の内容からチェックし、残存
している場合は、これに該当する音声ファイルを抽出し
(該当する音声ファイル以外を音声ファイル格納部17
1から破棄してもよい)、位置情報が14乃至16の音
声ファイルのみを合成器165に伝達する。該当する音
声ファイルが存在していない場合は、音声ファイル格納
部の情報をクリアし、埋込みコマンド・ファイルから該
当する埋込みコマンドを抽出し、音声合成を行うことに
より指定されたリンク・キーワードの読み上げを行う。
【0106】キー2が押された場合もキー1が押された
場合とほぼ同様な手順で制御が行われる。キー2が押さ
れた場合も、ユーザ入力部127がこれを検出し、この
情報をフォーカス制御部129に伝達する。フォーカス
制御部129はこれに応答して、フォーカス・ポインタ
139に格納されているポインタ情報を取得する。更に
フォーカス制御部129は、文字列リスト131を参照
することにより読み上げを行うべき文字列の特定を行
う。例えば、フォーカス・ポインタの内容が「14」で
あった場合、「14」乃至「9999」(本発明の好適
な実施例においては「9999」文章の最後を示すこと
している)が読み上げを行うべき文字列であると認識す
る。
【0107】フォーカス制御部129は、音声合成制御
部151に位置情報が14乃至9999の文字列の音声
合成を行うことを指示する。音声合成制御部151は、
この音声合成を行うべき位置情報の開始位置と終了位置
を音声ジャンプ・ポインタ173として一時的に格納す
る。その後、音声合成制御部151はこの14の位置情
報を有する音声ファイルが残存しているか否かを音声合
成ファイル格納部171の内容からチェックし、残存し
ている場合は、これに該当しない音声ファイルを無視
(または音声ファイル格納部から破棄)し、位置情報が
14以降の音声ファイルを合成器165に伝達する。該
当する音声ファイルが存在していない場合は、音声ファ
イル格納部の情報を一旦クリアし、埋込みコマンド・フ
ァイルから位置情報14以降の埋込みコマンドを音声合
成を行うことにより指定されたリンク・キーワードから
の読み上げを行う。
【0108】キー4が押された場合もキー2が押された
場合とほぼ同様な手順で制御が行われる。キー4が押さ
れた場合も、ユーザ入力部127がこれを検出し、この
情報をフォーカス制御部129に伝達する。フォーカス
制御部129はこれに応答して、フォーカス・ポインタ
139に格納されているポインタ情報を取得する。更に
フォーカス制御部129は、文字列リスト131を参照
し、リンク・ヘッド・フラグが1であり、フォーカス・
ポインタよりも小さいもののうち最大のものを探索す
る。例えば、フォーカス・ポインタの内容が「14」で
あった場合、「12」がこれに該当すると判断される。
【0109】フォーカス制御部129は、音声合成制御
部151に位置情報が12乃至9999の文字列の音声
合成を行うことを指示する。音声合成制御部151は、
この音声合成を行うべき位置情報の開始位置と終了位置
を音声ジャンプ・ポインタ173として一時的に格納す
る。その後、音声合成制御部151は、この12の位置
情報を有する音声ファイルが残存しているか否かを音声
合成ファイル格納部171の内容からチェックし、残存
している場合は、これに該当しない音声ファイルを無視
(または音声ファイル格納部から破棄)し、位置情報が
12以降の音声ファイルを合成器165に伝達する。該
当する音声ファイルが存在していない場合は、音声ファ
イル格納部の情報を一旦クリアし、埋込みコマンド・フ
ァイルから位置情報12以降の埋込みコマンドを音声合
成を行うことにより指定されたリンク・キーワードから
の読み上げを行う。
【0110】キー5が押された場合は、フォーカス制御
部129が、文字列リスト131から、リンク・ヘッド
・フラグが1であり、フォーカス・ポインタよりも大き
いもののうち最小のものを探索することを除き、キー4
で説明したものと同様な処理がなされる。
【0111】キー11が押された場合も、ユーザ入力部
127がこれを検出し、この情報をフォーカス制御部1
29に伝達する。フォーカス制御部129はこれに応答
して、文字列リスト131を参照することにより読み上
げを行うべき文字列の特定を行う。すなわちリンク・フ
ラグが1の文字列をすべて抽出する。
【0112】本発明の好適な実施例においては、リンク
・ヘッド・フラグが1である文字列に連続する文字列で
あってリンク・フラグ1で、リンク・ヘッド・フラグが
1でない文字列はまとまりのあるリンク・キーワードと
判断される。まとまりのあるリンク・キーワード間には
一定時間読み上げの行われない無音時間を形成させるた
めに一定長さのブランク等の読み上げの間隔を指示する
文字列または、コマンド等が挿入される。
【0113】フォーカス制御部129は、新たに埋込み
コマンド・ファイルを作成し、音声合成制御部151に
現在保持している音声ファイルをクリアし、新たな埋込
みコマンド・ファイルの音声合成を行うことを指示す
る。但し、新たな埋込みコマンドを作成しなくても音声
合成部150で現在保持している埋込みコマンド・ファ
イルから、音声合成を行うべき文字列を抽出し音声合成
を行うことによっても動作可能である。
【0114】以上説明したキー入力によるリンク・キー
ワードのコントロールを公知の音声認識手法を用いて音
声入力によるによるリンク・キーワードのコントロール
に代替することも可能である。かかる場合、図2のユー
ザ入力部127に加えて音声認識部を設け上記キー入力
に代わる「リンク・キーワード」,「ジャンプ」等のユ
ーザの肉声による入力を受領しこれを識別し、その識別
されたシュついに対応した指示をフォーカス制御部12
9に指示する。このようなユーザの肉声を入力とする場
合、ユーザ入力を受付けるための時間が設定され、その
間は、音声合成が中断されることが望ましいが、ユーザ
がヘッドホンとマイクロフォンを用いる等、音声出力が
音声入力へ影響を及ぼさない環境であれば、音声入力と
音声出力を同時に行うことも可能である。
【0115】
【発明の効果】以上説明したように、本発明によれば、
非視覚ユーザが、文章の内容を音声として聞きながら、
音声属性の違いにより内容を理解することが可能とな
り、ハイパーテキストに対応した適切なオペレーション
を行うことができる。
【0116】テキスト属性を持つデータ・ファイル、あ
るいはハイパー・テキストのデータがあり、音声合成プ
ログラムを通して、その内容を理解したい場合に利用す
る。視覚障害者や、画面を見ることのできない状況で、
これらの文章の内容を音声として聞きながら、音声属性
の違いにより内容を理解することが可能となる。インタ
ーネットのWWWの大半のデータが文章データとして提
供されている。これを音声として読み上げることで、W
WWのかなりの部分のデータを音声を通して入手が可能
となる。
【0117】
【図面の簡単な説明】
【図1】 ハードウェア構成を示すブロック図である。
【図2】 処理要素のブロック図である。
【図3】 本発明のWebブラウザとWebサーバとの
通信手順を示す図である。
【図4】 本発明で変換されるHTMLファイルの一実
施例を示す図である。
【図5】 本発明のWebブラウザのユーザインターフ
ェースを示す図である。
【図6】 本発明の文字列リストの一実施例を示す図で
ある。
【図7】 本発明の埋め込みコマンドを含む文章を作成
する手順を示すフローチャートである。
【0118】
【符号の説明】
100 音声合成システム 120 Webブラウザ部 121 データ入出力制御部 123 HTML関連ファイル格納部 125 HTML解析部 127 ユーザ入力部 129 フォーカス制御部 131 文字列リスト 133 表示部 135 変換表 139 フォーカス・ポインタ 141 埋込みコマンド・ファイル 150 音声合成部 151 音声合成制御部 153 言語解析部 155 文法規則保持部 157 読みアクセント辞書 159 読み付与部 161 アクセント付与部 163 パラメータ生成部 165 音声合成部 167 音声発生部 169 音声合成ポインタ 171 音声ファイル格納部 173 音声ジャンプ・ポインタ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 5/02 G10L 5/02 J G06F 15/20 568Z

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】各々がリンク先情報に対応付けられている
    複数のリンク・キーワードを含むハイパーテキストを制
    御する方法であって、 (a)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記ハイパーテキスト中の
    位置情報を管理する文字列リストを作成する段階と、 (b)前記ハイパーテキストを変換することにより音声
    合成入力情報を作成する段階と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    段階と、 (d)音声合成を行っている位置に対応する前記ハイパ
    ーテキスト中の位置に関連した音声合成ポインタ情報を
    取得する段階と、 (e)前記音声合成ポインタ情報に対応する前記ハイパ
    ーテキスト中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク・キーワードを特定する段
    階と、 (f)リンク先への移動を指示するユーザ入力を検出す
    る段階と、 (g)前記ユーザ入力の検出に応答して、前記特定され
    たリンク・キーワードに対応するリンク先情報に基づい
    てリンク先にアクセスする段階と、 を含む方法。
  2. 【請求項2】各々がリンク先情報に対応付けられている
    複数のリンク・キーワードを含むWebサーバから受領
    したHTML(Hyper Text Markup Languae)ファイルを
    制御する方法であって、 (a)HTMLファイルをWebサーバから受領する段
    階と、 (b)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記HTMLファイル中の
    位置情報とリンク先情報を管理する文字列リストを作成
    する段階と、 (c)前記HTMLファイルに含まれるリンク・キーワ
    ードの開始タグと終了タグを音声属性情報に変換し、前
    記リンク・キーワードが存在する前記HTMLファイル
    中の位置情報とともに音声属性埋込みコマンドとして前
    記リンク・キーワードに関連付けることにより、音声属
    性埋込みコマンド・ファイルを作成する段階と、 (d)前記音声属性埋込みコマンド・ファイルに基づい
    て音声合成を行う段階と、 (e)音声合成を行っている位置に対応する前記HTM
    Lファイル中の位置に関連した音声合成ポインタ情報を
    前記リンク・キーワードに関連付けられた位置情報に基
    づいて取得する段階と、 (f)前記音声合成ポインタ情報に対応する前記HTM
    Lファイル中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク先情報を特定する段階と、 (g)リンク先への移動を指示するユーザ入力を検出す
    る段階と、 (h)前記ユーザ入力の検出に応答して、前記特定され
    たリンク先情報に基づいてリンク先にアクセスする段階
    と、 を含む方法。
  3. 【請求項3】複数の特殊文字列を含む文章の音声合成を
    行う方法であって、 (a)前記複数の特殊文字列を特定する情報と前記複数
    の特殊文字列が存在する前記文章中の位置情報を管理す
    る文字列リストを作成する段階と、 (b)前記複数の特殊文字列の各々に音声属性を関連付
    け、前記文章を変換することにより音声合成入力情報を
    作成する段階と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    段階と、 (d)音声合成を行っている位置に対応する前記文章中
    の位置に関連した音声合成ポインタ情報を取得する段階
    と、 (e)前記音声合成ポインタ情報に対応する前記文章中
    の位置情報を前記文字列リストから探索することによ
    り、音声合成を行っている位置に対応する特殊文字列を
    特定する段階と、 (f)音声合成位置の変更を指示するユーザ入力を検出
    する段階と、 (g)前記ユーザ入力の検出に応答して、前記文字列リ
    ストから前記音声合成を行っている位置に対応する特定
    文字列に隣接する特殊文字列の位置情報を取得する段階
    と、 (h)前記隣接する特殊文字列の位置情報に対応した位
    置の音声合成を行う段階と、 を含む方法。
  4. 【請求項4】各々がリンク先情報に対応付けられている
    複数のリンク・キーワードを含むハイパーテキストを制
    御する装置であって、 (a)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記ハイパーテキスト中の
    位置情報を管理する文字列リストと、 (b)前記リンク・キーワードに音声属性を関連付け、
    前記ハイパーテキストを変換することにより音声合成入
    力情報を作成する手段と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    手段と、 (d)音声合成を行っている位置に対応する前記ハイパ
    ーテキスト中の位置に関連した音声合成ポインタ情報を
    取得する手段と、 (e)前記音声合成ポインタ情報に対応する前記ハイパ
    ーテキスト中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク・キーワードを特定する手
    段と、 (f)リンク先への移動を指示するユーザ入力を検出す
    る手段と、 (g)前記ユーザ入力の検出に応答して、前記特定され
    たリンク・キーワードに対応するリンク先情報に基づい
    てリンク先にアクセスする手段と、 を含む装置。
  5. 【請求項5】各々がリンク先情報に対応付けられている
    複数のリンク・キーワードを含むWebサーバから受領
    したHTMLファイルを制御する装置であって、 (a)HTMLファイルをWebサーバから受領する通
    信制御部と、 (b)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記HTMLファイル中の
    位置情報とリンク先情報を管理する文字列リストを作成
    する手段と、 (c)前記HTMLファイルに含まれるリンク・キーワ
    ードの開始タグと終了タグを音声属性情報に変換し、前
    記リンク・キーワードが存在する前記HTMLファイル
    中の位置情報とともに音声属性埋込みコマンドとして前
    記リンク・キーワードに関連付けることにより、音声属
    性埋込みコマンド・ファイルを作成する手段と、 (d)前記音声属性埋込みコマンド・ファイルに基づい
    て音声合成を行う音声合成部と、 (e)音声合成を行っている位置に対応する前記HTM
    Lファイル中の位置に関連した音声合成ポインタ情報を
    前記リンク・キーワードに関連付けられた位置情報に基
    づいて取得する手段と、 (f)前記音声合成ポインタ情報に対応する前記HTM
    Lファイル中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク先情報を特定する手段と、 (g)リンク先への移動を指示するユーザ入力を検出す
    るユーザ入力部と、 (h)前記ユーザ入力の検出に応答して、前記特定され
    たリンク先情報に基づいてリンク先にアクセスする手段
    と、 を含む装置。
  6. 【請求項6】複数の特殊文字列を含む文章の音声合成を
    行う装置であって、 (a)前記複数の特殊文字列を特定する情報と前記複数
    の特殊文字列が存在する前記文章中の位置情報を管理す
    る文字列リストを作成する手段と、 (b)前記複数の特殊文字列の各々に音声属性を関連付
    け、前記文章を変換することにより音声合成入力情報を
    作成する手段と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    手段と、 (d)音声合成を行っている位置に対応する前記文章中
    の位置に関連した音声合成ポインタ情報を取得する手段
    と、 (e)前記音声合成ポインタ情報に対応する前記文章中
    の位置情報を前記文字列リストから探索することによ
    り、音声合成を行っている位置に対応する特殊文字列を
    特定する手段と、 (f)音声合成位置の変更を指示するユーザ入力を検出
    する手段と、 (g)前記ユーザ入力の検出に応答して、前記文字列リ
    ストから前記音声合成を行っている位置に対応する特定
    文字列に隣接する特殊文字列の位置情報を取得する手段
    と、 (h)前記隣接する特殊文字列の位置情報に対応した位
    置の音声合成を行う手段と、 を含む装置。
  7. 【請求項7】データ処理システムが管理する記憶域にお
    いて管理されている、各々がリンク先情報に対応付けら
    れている複数のリンク・キーワードを含むハイパーテキ
    ストを制御するためのプログラムを格納する記憶媒体で
    あって、 該プログラムは、 (a)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記ハイパーテキスト中の
    位置情報を管理する文字列リストを作成することを前記
    データ処理システムに指示するプログラムコード手段
    と、 (b)前記リンク・キーワードに音声属性を関連付け、
    前記ハイパーテキストを変換することにより音声合成入
    力情報を作成することを前記データ処理システムに指示
    するプログラムコード手段と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    ことを前記データ処理システムに指示するプログラムコ
    ード手段と、 (d)音声合成を行っている位置に対応する前記ハイパ
    ーテキスト中の位置に関連した音声合成ポインタ情報を
    取得することを前記データ処理システムに指示するプロ
    グラムコード手段と、 (e)前記音声合成ポインタ情報に対応する前記ハイパ
    ーテキスト中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク・キーワードを特定するこ
    とを前記データ処理システムに指示するプログラムコー
    ド手段と、 (f)リンク先への移動を指示するユーザ入力を検出す
    ることを前記データ処理システムに指示するプログラム
    コード手段と、 (g)前記ユーザ入力の検出に応答して、前記特定され
    たリンク・キーワードに対応するリンク先情報に基づい
    てリンク先にアクセスすることを前記データ処理システ
    ムに指示するプログラムコード手段と、 を含む記憶媒体。
  8. 【請求項8】データ処理システムが管理する記憶域にお
    いて管理されている、各々がリンク先情報に対応付けら
    れている複数のリンク・キーワードを含むWebサーバ
    から受領したHTMLファイルを制御するためのプログ
    ラムを格納する記憶媒体であって、 該プログラムは、 (a)HTMLファイルをWebサーバから受領するこ
    とを前記データ処理システムに指示するプログラムコー
    ド手段と、 (b)前記リンク・キーワードを特定する情報と前記リ
    ンク・キーワードが存在する前記HTMLファイル中の
    位置情報とリンク先情報を管理する文字列リストを作成
    することを前記データ処理システムに指示するプログラ
    ムコード手段と、 (c)前記HTMLファイルに含まれるリンク・キーワ
    ードの開始タグと終了タグを音声属性情報に変換し、前
    記リンク・キーワードが存在する前記HTMLファイル
    中の位置情報とともに音声属性埋込みコマンドとして前
    記リンク・キーワードに関連付けることにより、音声属
    性埋込みコマンド・ファイルを作成することを前記デー
    タ処理システムに指示するプログラムコード手段と、 (d)前記音声属性埋込みコマンド・ファイルに基づい
    て音声合成を行うことを前記データ処理システムに指示
    するプログラムコード手段と、 (e)音声合成を行っている位置に対応する前記HTM
    Lファイル中の位置に関連した音声合成ポインタ情報を
    前記リンク・キーワードに関連付けられた位置情報に基
    づいて取得することを前記データ処理システムに指示す
    るプログラムコード手段と、 (f)前記音声合成ポインタ情報に対応する前記HTM
    Lファイル中の位置情報を前記文字列リストから探索す
    ることにより対応するリンク先情報を特定することを前
    記データ処理システムに指示するプログラムコード手段
    と、 (g)リンク先への移動を指示するユーザ入力を検出す
    ることを前記データ処理システムに指示するプログラム
    コード手段と、 (h)前記ユーザ入力の検出に応答して、前記特定され
    たリンク先情報に基づいてリンク先にアクセスすること
    を前記データ処理システムに指示するプログラムコード
    手段と、 を含む記憶媒体。
  9. 【請求項9】データ処理システムが管理する記憶域にお
    いて管理されている、複数の特殊文字列を含む文章の音
    声合成を行うためのプログラムを格納する記憶媒体であ
    って、 該プログラムは、 (a)前記複数の特殊文字列を特定する情報と前記複数
    の特殊文字列が存在する前記文章中の位置情報を管理す
    る文字列リストを作成することを前記データ処理システ
    ムに指示するプログラムコード手段と、 (b)前記複数の特殊文字列の各々に音声属性を関連付
    け、前記文章を変換することにより音声合成入力情報を
    作成することを前記データ処理システムに指示するプロ
    グラムコード手段と、 (c)前記音声合成入力情報に基づいて音声合成を行う
    ことを前記データ処理システムに指示するプログラムコ
    ード手段と、 (d)音声合成を行っている位置に対応する前記文章中
    の位置に関連した音声合成ポインタ情報を取得すること
    を前記データ処理システムに指示するプログラムコード
    手段と、 (e)前記音声合成ポインタ情報に対応する前記文章中
    の位置情報を前記文字列リストから探索することによ
    り、音声合成を行っている位置に対応する特殊文字列を
    特定することを前記データ処理システムに指示するプロ
    グラムコード手段と、 (f)音声合成位置の変更を指示するユーザ入力を検出
    することを前記データ処理システムに指示するプログラ
    ムコード手段と、 (g)前記ユーザ入力の検出に応答して、前記文字列リ
    ストから前記音声合成を行っている位置に対応する特定
    文字列に隣接する特殊文字列の位置情報を取得すること
    を前記データ処理システムに指示するプログラムコード
    手段と、 (h)前記隣接する特殊文字列の位置情報に対応した位
    置の音声合成を行うことを前記データ処理システムに指
    示するプログラムコード手段と、 を含む記憶媒体。
JP8199319A 1996-07-29 1996-07-29 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 Pending JPH1078952A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP8199319A JPH1078952A (ja) 1996-07-29 1996-07-29 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
KR1019970021304A KR100287093B1 (ko) 1996-07-29 1997-05-28 음성 합성 방법, 음성 합성 장치, 하이퍼 텍스트의 제어 방법 및 제어 장치
US08/902,559 US5983184A (en) 1996-07-29 1997-07-29 Hyper text control through voice synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8199319A JPH1078952A (ja) 1996-07-29 1996-07-29 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置

Publications (1)

Publication Number Publication Date
JPH1078952A true JPH1078952A (ja) 1998-03-24

Family

ID=16405831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8199319A Pending JPH1078952A (ja) 1996-07-29 1996-07-29 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置

Country Status (3)

Country Link
US (1) US5983184A (ja)
JP (1) JPH1078952A (ja)
KR (1) KR100287093B1 (ja)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137596A (ja) * 1998-10-06 2000-05-16 Lucent Technol Inc 対話型音声応答システム
JP2001013978A (ja) * 1999-06-29 2001-01-19 Sharp Corp 情報選択装置、情報選択方法及び記録媒体
WO2001077810A1 (en) * 2000-04-06 2001-10-18 Sl2 Co., Ltd. Processing system using voice in internet environment
JP2002169750A (ja) * 2000-11-30 2002-06-14 Nec Corp ブラウザ搭載装置
JP2002527800A (ja) * 1998-10-02 2002-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話ブラウザおよび会話システム
JP2002342212A (ja) * 2001-04-27 2002-11-29 Internatl Business Mach Corp <Ibm> 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2002366194A (ja) * 2001-05-30 2002-12-20 Nokia Corp ハイパーサウンドドキュメント
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
JP2006134178A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> ウェブコンテンツ閲覧装置、ウェブコンテンツ閲覧装置の制御方法及びプログラム
JP2006172294A (ja) * 2004-12-17 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音声ブラウザ装置、音声ブラウザ方法およびプログラム
KR100695357B1 (ko) * 1998-04-20 2007-03-16 소니 가부시끼 가이샤 문자 정보 복사 시스템, 기록 장치 및 기록 방법
JP2008287538A (ja) * 2007-05-18 2008-11-27 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換装置、コンテンツ変換方法およびコンテンツ変換プログラム
JP2013228755A (ja) * 2008-08-21 2013-11-07 Yamaha Corp コンテンツ再生装置およびコンテンツ再生プログラム
JP2015528918A (ja) * 2012-06-29 2015-10-01 アップル インコーポレイテッド 文書の音声作動式ナビゲーション及びブラウジングのための機器、方法、及びユーザインターフェース
WO2016151761A1 (ja) * 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
AU7356100A (en) * 1999-09-10 2001-04-10 Everypath, Inc. Method for converting two-dimensional data into a canonical representation
US6873693B1 (en) 1999-09-13 2005-03-29 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US6964012B1 (en) 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
WO2001039011A2 (en) * 1999-11-24 2001-05-31 Visual Data Corporation Method for manipulating a live audio media stream
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
US6711714B1 (en) 2000-02-02 2004-03-23 Siemens Corporate Research, Inc. Linearization of framesets for audibly rendering frames
EP1122636A3 (en) * 2000-02-03 2007-11-14 Siemens Corporate Research, Inc. System and method for analysis, description and voice-driven interactive input to html forms
JP2001293247A (ja) * 2000-02-07 2001-10-23 Sony Computer Entertainment Inc ゲーム制御方法
US6539406B1 (en) * 2000-02-17 2003-03-25 Conectron, Inc. Method and apparatus to create virtual back space on an electronic document page, or an electronic document element contained therein, and to access, manipulate and transfer information thereon
WO2001065814A1 (en) * 2000-02-29 2001-09-07 Multitude, Inc. Apparatus and method for providing voice-enabled services for web pages
US20030023446A1 (en) * 2000-03-17 2003-01-30 Susanna Merenyi On line oral text reader system
GB2361556A (en) * 2000-04-19 2001-10-24 Roundpoint Inc Text-to-speech browser
US7673241B2 (en) * 2002-06-26 2010-03-02 Siebel Systems, Inc. User interface for multi-media communication for the visually disabled
KR20020058386A (ko) * 2000-12-29 2002-07-12 장영건 검색하는 웹 문서의 구조와 요소 객체의 특징을 음색으로자동 표현하는 음성 브라우저
US7028262B2 (en) * 2000-12-29 2006-04-11 International Business Machines Corporation Method and system for designing a theme and associating it with a collaboration space user interface
US7581230B2 (en) 2001-02-06 2009-08-25 Siebel Systems, Inc. Adaptive communication application programming interface
US7228495B2 (en) 2001-02-27 2007-06-05 International Business Machines Corporation Method and system for providing an index to linked sites on a web page for individuals with visual disabilities
US20020122053A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and apparatus for presenting non-displayed text in Web pages
US20020124056A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and apparatus for modifying a web page
US20020124020A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Extracting textual equivalents of multimedia content stored in multimedia files
US20020124025A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporataion Scanning and outputting textual information in web page images
EP1377955A2 (en) * 2001-03-15 2004-01-07 International Business Machines Corporation Method and system for accessing interactive multimedia information or services from braille documents
US20020143817A1 (en) * 2001-03-29 2002-10-03 International Business Machines Corporation Presentation of salient features in a page to a visually impaired user
US7315616B2 (en) * 2001-03-31 2008-01-01 Siebel Systems, Inc. System and method for maintaining real-time agent information for multi-channel communication queuing
US7103171B1 (en) * 2001-06-29 2006-09-05 Siebel Systems, Inc. System and method for multi-channel communication queuing using routing and escalation rules
US8091042B2 (en) 2001-11-15 2012-01-03 Siebel Systems, Inc. Apparatus and method for displaying selectable icons in a toolbar for a user interface
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
GB2387927B (en) * 2001-12-20 2005-07-13 Canon Kk Control apparatus
AU2003262199A1 (en) * 2002-04-17 2003-10-27 Cbt (Technology) Limited Accessibility of computer based training systems for the visually impaired
US20040128136A1 (en) * 2002-09-20 2004-07-01 Irani Pourang Polad Internet voice browser
JP2006509223A (ja) * 2002-10-16 2006-03-16 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 使用者の視覚障害の特徴的症状及び再生嗜好によるビジュアル・コンテンツ適応変換方法及びシステム
US9165478B2 (en) * 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US20050129196A1 (en) * 2003-12-15 2005-06-16 International Business Machines Corporation Voice document with embedded tags
US8001479B2 (en) * 2004-02-03 2011-08-16 Ronald Mark Katsuranis System and methods to access computer files and position and control application window(s) on a graphical user interface
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4743686B2 (ja) * 2005-01-19 2011-08-10 京セラ株式会社 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
WO2007138944A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
US9471333B2 (en) * 2006-11-03 2016-10-18 Conceptual Speech, Llc Contextual speech-recognition user-interface driven system and method
US7765496B2 (en) * 2006-12-29 2010-07-27 International Business Machines Corporation System and method for improving the navigation of complex visualizations for the visually impaired
US20090100340A1 (en) * 2007-10-10 2009-04-16 Microsoft Corporation Associative interface for personalizing voice data access
US8984165B2 (en) * 2008-10-08 2015-03-17 Red Hat, Inc. Data transformation
US8374881B2 (en) 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US11393451B1 (en) * 2017-03-29 2022-07-19 Amazon Technologies, Inc. Linked content in voice user interface
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US20210375301A1 (en) * 2020-05-28 2021-12-02 Jonathan Geddes Eyewear including diarization

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100695357B1 (ko) * 1998-04-20 2007-03-16 소니 가부시끼 가이샤 문자 정보 복사 시스템, 기록 장치 및 기록 방법
JP2002527800A (ja) * 1998-10-02 2002-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話ブラウザおよび会話システム
JP2003525477A (ja) * 1998-10-02 2003-08-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 汎用階層オブジェクトを介する効率的なボイス・ナビゲーションのための構造スケルトン
JP2000137596A (ja) * 1998-10-06 2000-05-16 Lucent Technol Inc 対話型音声応答システム
JP2001013978A (ja) * 1999-06-29 2001-01-19 Sharp Corp 情報選択装置、情報選択方法及び記録媒体
WO2001077810A1 (en) * 2000-04-06 2001-10-18 Sl2 Co., Ltd. Processing system using voice in internet environment
JP2002169750A (ja) * 2000-11-30 2002-06-14 Nec Corp ブラウザ搭載装置
JP2002342212A (ja) * 2001-04-27 2002-11-29 Internatl Business Mach Corp <Ibm> 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2002366194A (ja) * 2001-05-30 2002-12-20 Nokia Corp ハイパーサウンドドキュメント
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US7487093B2 (en) 2002-04-02 2009-02-03 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
JP2006134178A (ja) * 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> ウェブコンテンツ閲覧装置、ウェブコンテンツ閲覧装置の制御方法及びプログラム
JP2006172294A (ja) * 2004-12-17 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音声ブラウザ装置、音声ブラウザ方法およびプログラム
JP4577885B2 (ja) * 2004-12-17 2010-11-10 日本電信電話株式会社 音声ブラウザ装置、ウェブコンテンツ読み上げ方法およびプログラム
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2008287538A (ja) * 2007-05-18 2008-11-27 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換装置、コンテンツ変換方法およびコンテンツ変換プログラム
JP4598800B2 (ja) * 2007-05-18 2010-12-15 日本電信電話株式会社 コンテンツ変換装置、コンテンツ変換方法およびコンテンツ変換プログラム
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
JP2013228755A (ja) * 2008-08-21 2013-11-07 Yamaha Corp コンテンツ再生装置およびコンテンツ再生プログラム
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
JP2015528918A (ja) * 2012-06-29 2015-10-01 アップル インコーポレイテッド 文書の音声作動式ナビゲーション及びブラウジングのための機器、方法、及びユーザインターフェース
JP2017162501A (ja) * 2012-06-29 2017-09-14 アップル インコーポレイテッド 文書のブラウジング方法、ポータブル電子機器、情報処理装置及びプログラム
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
WO2016151761A1 (ja) * 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
JPWO2016151761A1 (ja) * 2015-03-24 2017-06-15 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
US10373606B2 (en) 2015-03-24 2019-08-06 Kabushiki Kaisha Toshiba Transliteration support device, transliteration support method, and computer program product
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Also Published As

Publication number Publication date
KR980010743A (ko) 1998-04-30
KR100287093B1 (ko) 2001-04-16
US5983184A (en) 1999-11-09

Similar Documents

Publication Publication Date Title
JPH1078952A (ja) 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP4225703B2 (ja) 情報アクセス方法、情報アクセスシステムおよびプログラム
TWI488174B (zh) 自動地建立文字資料與音訊資料間之映射
US6985864B2 (en) Electronic document processing apparatus and method for forming summary text and speech read-out
US6286014B1 (en) Method and apparatus for acquiring a file to be linked
US20120239405A1 (en) System and method for generating audio content
JP2014519058A (ja) テキストデータとオーディオデータとの間のマッピングの自動作成
JP2001014319A (ja) ハイパーテキストアクセス装置
JP3789614B2 (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP2002197118A (ja) 情報アクセス方法、情報アクセスシステムおよび記録媒体
US20040066914A1 (en) Systems and methods for providing a user-friendly computing environment for the hearing impaired
JP3537753B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2000112610A (ja) コンテンツ表示選択システム及びコンテンツ記録媒体
JP3707872B2 (ja) 音声出力装置及びその方法
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
JPH09325787A (ja) 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
JP4110938B2 (ja) Webブラウザ制御方法及び装置
JP3668583B2 (ja) 音声合成装置及びその方法
WO2021161908A1 (ja) 情報処理装置及び情報処理方法
JP2002229578A (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001109762A (ja) 文書処理方法及び装置並びに記録媒体
JP3093498B2 (ja) 文書読み上げ装置
WO2023132140A1 (ja) プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体
JPH11272673A (ja) 文書処理方法および文書処理装置ならびに文書処理のためのコンピュータプログラムを記録した記録媒体