JP2003263307A - ハイパーテキスト音声制御方法、その装置およびプログラム - Google Patents

ハイパーテキスト音声制御方法、その装置およびプログラム

Info

Publication number
JP2003263307A
JP2003263307A JP2002341461A JP2002341461A JP2003263307A JP 2003263307 A JP2003263307 A JP 2003263307A JP 2002341461 A JP2002341461 A JP 2002341461A JP 2002341461 A JP2002341461 A JP 2002341461A JP 2003263307 A JP2003263307 A JP 2003263307A
Authority
JP
Japan
Prior art keywords
phonetic
hypertext
word
command
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002341461A
Other languages
English (en)
Inventor
Hideaki Iwamoto
秀明 岩本
Tetsuo Amakasu
哲郎 甘粕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002341461A priority Critical patent/JP2003263307A/ja
Publication of JP2003263307A publication Critical patent/JP2003263307A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 ハイパーテキストにおける音声化の記述を容
易にするとともに、プロキシの負荷を軽減し、音声認識
の対象範囲を広げ、音声合成によって音声認識結果を確
認することができるハイパーテキスト音声制御方法、そ
の装置およびプログラムを提供することを目的とするも
のである。 【解決手段】 ハイパーテキストの中継において、コマ
ンド部分を抽出し、付随するテキスト部と、音声認識部
の動作を指示する動作指示情報と、音声認識された音声
認識対象語に対応するコマンドを実行することを示すコ
マンドとを付け、テキスト部を分析して発音表記を導出
し、音声認識対象語を特定し、ユーザの発声によって、
該当する音声認識対象語に対応するコマンドを実行する
ものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ハイパーテキスト
アクセスシステムに係わり、特に、ハイパーテキスト表
示装置を、音声によって制御するハイパーテキスト音声
制御方法、その装置およびプログラムに関する。
【0002】
【従来の技術】近年、インターネット等のコンピュータ
ネットワークを介し、HTMLやSGML、XML等で
記述されたハイパーテキストに基づいて、ハイパーテキ
スト表示装置によって、ネットワーク上で提供されてい
るハイパーテキストの要求、受信、表示という動作を実
現するWWWという枠組みが一般に普及している。
【0003】このWWWの普及に伴い、音声による制御
が可能なハイパーテキスト表示装置が知られている。
【0004】発音表記とコマンドとの組を、ユーザ端末
装置が抽出し、ユーザの発話を認識して得られた発音表
記に対応するコマンドを実行することが知られている
(たとえば、特許文献1参照)。
【0005】つまり、ハイパーテキストから、発音表記
とその発音表記に対応するコマンドとを取り出し、この
取り出された発音表記に基づいて、音声認識処理し、こ
の認識された発音表記に対応するコマンドを実行する。
【0006】また、プロキシと呼ばれるハイパーテキス
ト中継装置に、付加機能を持たせることによって、新た
なサービスを提供することができる。
【0007】ハイパーテキストをプロキシが中継する際
に、リンク中の名詞を、音声認識対象語として特定し、
この特定された音声認識対象語の発音表記とコマンドと
の組みを、そのハイパーテキストに挿入するハイパーテ
キスト中継方法および装置がある(たとえば、特許文献
2参照)。
【0008】つまり、音声認識対象語とコマンドとの組
を、ハイパーテキストに追加し、これを、センタサーバ
から、ユーザ端末装置側に中継する。
【0009】
【特許文献1】特開平10−222342号公報
【特許文献2】特開平10−154063号公報
【0010】
【発明が解決しようとする課題】しかし、上記従来例で
は、発音表記とコマンドとの組みからなる音声コマンド
を、ハイパーテキストに手作業で記述することは困難で
ある。
【0011】また、上記従来例では、音声認識対象語を
特定する処理が、計算量を多く必要とするので、上記プ
ロキシを介して、一般のハイパーテキストを音声で制御
すると、プロキシを利用する端末が複数台、存在してい
る場合、プロキシに負荷がかかりすぎるという問題があ
る。
【0012】さらに、上記従来例では、音声認識結果に
基づいてコマンドを実行する場合、そのコマンドが実行
されてみなければ、その音声認識結果が正しいか否かが
分からないという問題がある。特に、コマンドが互いに
異なるが、上記各コマンドとそれぞれ組みになっている
発音表記が互いに同一であるときに、コマンドを実行し
ている間に、音声合成によって発音表記を読み上げた場
合、認識結果が正しいか否かがユーザにはわからないま
まであるという問題がある。
【0013】また、上記従来例では、リンク中の全ての
名詞を音声認識対象語とするので、リンクが多くなる
と、音声認識対象語が増え、認識誤りが増えるという問
題がある。
【0014】さらに、上記従来例では、リンクが多くな
ると、重複する音声認識対象語も多く発生し、ユーザが
意図しないコマンドを実行するケースが多くなるという
問題がある。
【0015】そして、上記従来例では、ユーザに音声認
識対象語を知らせる手段がなく、ユーザは何をしゃべれ
ばよいのかわからないという問題がある。
【0016】本発明は、ハイパーテキストにおける音声
化の記述を容易にするとともに、プロキシの負荷を軽減
し、音声認識の対象範囲を広げ、音声合成によって音声
認識結果を確認することができるハイパーテキスト音声
制御方法、その装置およびプログラムを提供することを
目的とするものである。
【0017】また、本発明は、音声認識の精度を高め、
重複語に起因する誤ったコマンドの実行を減らし、ユー
ザに音声認識対象語を通知することができるハイパーテ
キスト音声制御方法、その装置およびプログラムを提供
することを目的とするものである。
【0018】
【課題を解決するための手段】本発明は、ハイパーテキ
ストの中継において、コマンド部分を抽出し、付随する
テキスト部と、音声認識部の動作を指示する動作指示情
報と、音声認識された音声認識対象語に対応するコマン
ドを実行することを示すコマンドとを付け、テキスト部
を分析して発音表記を導出し、音声認識対象語を特定
し、ユーザの発声によって、該当する音声認識対象語に
対応するコマンドを実行するものであり、これによっ
て、認識対象語彙がテキスト内に限定されるので、認識
対象語彙が不特定な場合よりも、単語認識率が向上し、
ハイパーテキストの内容に応じた制御が可能になる。
【0019】また、本発明は、プロキシを、ユーザの端
末へ導入し、プロキシを導入したユーザのみが、そのプ
ロキシを使うことによって、プロキシにかかる負荷を解
消し、また、リンクを代表する名詞句を、リンクから1
つ選択し、この選択された名詞句を音声認識対象語とす
ることによって、音声認識対象語の語彙数を絞り、音声
認識誤りやコマンド実行誤りを減らし、さらに、ユーザ
端末の画面上で、選択した音声認識対象語を点滅、強
調、印付け等を行い、ユーザに音声認識対象語を通知す
る。
【0020】
【発明の実施の形態および実施例】図1は、本発明の第
1の実施例であるハイパーテキスト音声制御装置1を、
中継装置(プロキシ)2とともに示すブロック図であ
る。
【0021】ハイパーテキスト音声制御装置1は、ユー
ザ端末内に設けられ、ハイパーテキスト表示装置10
と、形態素解析装置30と、発音表記導出手段40と、
音声認識対象語特定手段50と、バッファ蓄積手段60
と、バッファ70と、音声認識装置80と、コマンド取
り出し手段90と、音声合成制御手段100と、音声合
成装置110とを有する。
【0022】形態素解析装置30は、テキストを単語分
割し、品詞を付与する装置である。
【0023】発音表記導出手段40は、音声認識対象語
の中から、発音表記を導出する手段である。
【0024】音声認識対象語特定手段50は、形態素解
析装置30が出力した品詞の中から、名詞を取り出し、
この取り出された名詞に加えて、テキスト中で隣接する
名詞列を、音声認識対象語として特定する手段である。
【0025】バッファ蓄積手段60は、テキストとコマ
ンドとの組みが記述されたハイパーテキストを、ハイパ
ーテキスト表示装置10から読み込み、発音表記導出手
段40によって導出された発音表記と、発音表記を導出
した元のテキストと、そのテキストと組みになっていた
コマンドと、レコード番号とを組みにして、バッファ7
0ヘ蓄積させる手段である。
【0026】音声認識装置80は、バッファ70に蓄積
されている発音表記に基づいて、音声認識を行う装置で
ある。
【0027】コマンド取り出し手段90は、音声認識さ
れた発音表記に基づいて、その発音表記と組みになって
いるコマンドを、バッファ70から取り出す手段であ
る。
【0028】音声合成制御手段100は、音声認識装置
80が音声認識した発音表記に基づいて、その発音表記
と組みになっているテキストをバッファ70から取り出
し、音声合成装置110を用いて、そのテキストを読み
上げる手段である。
【0029】また、中継装置(プロキシ)2は、ハイパ
ーテキスト中継手段120と、リンク部抽出手段130
と、音声コマンド書式変換手段140とによって構成さ
れている。
【0030】ハイパーテキスト中継手段120は、ネッ
トワーク上のハイパーテキストを取得し、この取得した
ハイパーテキストのリンク情報に基づいて、コマンドを
求め、テキストとコマンドとの組みを音声コマンドと
し、この音声コマンドを、そのハイパーテキストに挿入
して中継する手段である。
【0031】次に、ハイパーテキスト音声制御装置1の
動作について説明する。
【0032】図2は、ハイパーテキスト音声制御装置1
の動作を、中継装置2の動作とともに示すフローチャー
トである。
【0033】まず、中継装置(プロキシ)2は、ネット
ワークからハイパーテキストを取得し、テキストとコマ
ンドとの組みを、そのハイパーテキストに書式変換して
中継する(S1)。
【0034】次に、ユーザ端末内に設けられているハイ
パーテキスト音声制御装置1の動作について説明する。
【0035】テキストとコマンドとの組み(音声コマン
ド)が記述されているハイパーテキストを、ハイパーテ
キスト表示装置10が読み込み、テキストとコマンドと
の組み(音声コマンド)をハイパーテキスト表示装置1
0から受信する(S2)。
【0036】そして、形態素解析装置30が、テキスト
の単語を解析し、名詞を取り出し、この取り出された名
詞に加えて、テキスト中で隣接する名詞列も音声認識対
象語として特定し、音声認識対象語の発音表記を導出
し、テキストに読みを振り(S3)、各単語から音声認
識対象語を特定する(S4)。音声認識対象語の発音表
記と、この発音表記を導いた元のテキストとコマンドと
の組みをバッファ70ヘ蓄積する(S5)。
【0037】バッファ70に蓄積されている発音表記に
基づいて、音声認識装置80が音声認識し、音声認識さ
れた発音表記と組みになっているコマンドを、コマンド
取り出し手段90が、バッファ70から取り出し(S
6)、ハイパーテキスト表示装置10へ送信する(S
7)。そのコマンドを実行している間、音声認識された
発音表記と組みになっているテキストを、バッファ70
から取り出し、音声合成制御手段100が、音声合成装
置110に、そのテキストを読み上げさせる(S8)。
【0038】次に、以下のリンク情報がハイパーテキス
トに記述されている場合における上記実施例の動作につ
いて、具体的に説明する。
【0039】<A HREF='''useful/tetsuduki/kou
teki.html'''>公的手続きの仕方</A> <A HREF='''useful/tetsuduki/telephone.htm
l'''>電話申し込みの手続き</A> [ステップS1]ステップS1では、上記ハイパーテキ
ストを、ネットワークから取得する際、中継装置2にお
けるハイパーテキスト中継手段120が、以下のよう
に、テキストとコマンドとの組みを、ハイパーテキスト
に書式変換し、この書式変換されたハイパーテキストを
中継する。
【0040】上記書式変換の対象になるテキストは、リ
ンクに付随するテキスト部分であり、このリンクで示さ
れるリンク先アドレスに、閲覧情報を要求し、閲覧情報
を受信し、表示するコマンドを対応付ける。
【0041】なお、「戻る」や「スクロール」等のブラ
ウザの操作コマンドを、端末側のプログラムで保持する
ようにしてもよい。
【0042】ハイパーテキスト中のテキスト情報の内容
を乱さない位置、たとえば、bodyタグの最後(</
body>の直前)に、appletタグが、上記音声
コマンドを挿入する。なお、「body」は、表示画面
の色、文字、背景画像等の表示形式の指定子である。
【0043】……… <applet code=“vcweb.class”mayscript width=0 h
eight=0> ……… <param name=“link”value=” ……… 公的手続きの仕方|@window.open('useful/tetsuduki/k
outeki.html','_self'); 電話申し込みの手続き|@window.open('useful/tetsudu
ki/ telephone.html','_self'); ……… ”> ……… </applet> ……… 上記において、テキストは、 「公的手続きの仕方」 「電話申し込みの手続き」であり、コマンドは、それぞ
れ、 |@window.open('useful/tetsuduki/kouteki.html','_s
elf')、 |@window.open('useful/tetsuduki/ telephone.htm
l','_self') である。
【0044】ただし、ハイパーテキスト表示装置によっ
ては、以下の行 <applet code=“vcweb.class”mayscript width=0 h
eight=0>、 が、下記のようになる。つまり、 <applet code=“vcweb.class”archive=“vcweb.ja
r”mayscript width=0height=0> になる。
【0045】次に、図2に示すステップS2に先立ち、
テキストとコマンドとを対応付けながら抽出するための
処理として、中継装置2において、ハイパーテキストか
らリンク部を取り出し、リンクのラベルになっているテ
キストと、リンク先のURLへ移動するコマンドとを、
リンク毎に、対応づける。
【0046】[ステップS2]ステップS2では、ハイ
パーテキスト表示装置10が、上記ハイパーテキストを
読み込んだときに、バッファ蓄積手段60が、以下のよ
うなテキストとコマンドとの組みを蓄積する。
【0047】テキスト:「公的手続きの仕方」、 コマンド:@window.open('useful/tetsuduki/kouteki.h
tml','_self')、 テキスト:「電話申し込みの手続き」、 コマンド:@window.open('useful/tetsuduki/ telephon
e.html','_self')、 [ステップS3]ステップS3では、テキスト「公的手
続きの仕方」、「電話申し込みの手続き」について、形
態素解析装置30が単語解析し、以下のように名詞を取
り出す。つまり、形態素解析部30が、テキストにおけ
る単語毎に、品詞を特定し抽出し、一例として、名詞部
分を抽出する。
【0048】また、名詞に限らず、予め決められた品詞
を認識対象語の候補にするようにしてもよい。たとえ
ば、名詞以外の自立語(動詞等)を、認識対象語の候補
するようにしてもよい。
【0049】公的&手続き&(の)&仕方、電話&申し
込み&(の)&手続き、ここで、&は、単語の区切りで
あることを示し、( )内は、非名詞であることを示
す。
【0050】上記形態素解析の結果に基づいて、音声認
識対象語特定手段50が、以下のように音声認識対象語
を特定する。
【0051】公的、手続き、公的&手続き、仕方、電
話、申し込み、電話&申し込み、手続き。
【0052】なお、音声認識対象語特定手段50の役割
として、互いに隣接する認識対象語が出現したときに、
その複合語も認識対象にする。ただし、「公的手続きの
仕方」における「の」等、音声認識対象としない品詞を
除く。
【0053】上記「公的」と「手続き」とは、テキスト
中に隣接して表われるので、「公的手続き」も音声認識
対象語に含める。また、「電話」と「申し込み」とは、
テキスト中に隣接して表われるので、「電話申し込み」
も音声認識対象語に含める。
【0054】[ステップS4]ステップS4では、発音
表記導出手段40が、単語と発音表記とが対になって記
録されている単語発音テーブルを使用し、音声認識対象
語に対応する発音表記を、以下のように決定し、導出す
る。
【0055】こーてき、てつづき、こーてきてつづき、
しかた、でんわ、もーしこみ、でんわもーしこみ、てつ
づき。
【0056】[ステップS5]ステップS5では、上記
発音表記に対して、発音表記と、その発音表記を導出し
た元のテキストと、そのテキストと組みになっていたコ
マンドとを、バッファ蓄積手段60が、以下のように組
みにして、バッファ70へ蓄積する。
【0057】 発音表記:こーてき、てつづき、こーてきてつづき、し
かた、 テキスト:「公的手続きの仕方」、 コマンド: @window.open('useful/tetsuduki/kouteki.
html','_self')、 発音表記:でんわ、もーしこみ、でんわもーしこみ、て
つづき、 テキスト:「電話申し込みの手続き」、 コマンド:@window.open('useful/tetsuduki/ telephon
e.html','_self')。
【0058】[ステップS6]ステップS6では、バッ
ファ70に蓄積されている発音表記に基づいて、音声認
識装置80が、音声認識を行う。ここでは、発音表記
「こーてきてつづき」を認識したとする。
【0059】上記音声認識の結果である「こーてきてつ
づき」と組みになっているコマンドを、コマンド取り出
し手段90が、バッファ70から取り出す。ここでは、
以下のコマンドが取り出される。
【0060】コマンド: @window.open('useful/tetsu
duki/kouteki.html','_self')。
【0061】[ステップS7]ステップS7では、コマ
ンド取り出し手段90が、上記コマンドを、ハイパーテ
キスト表示装置10へ送信する。この場合、ハイパーテ
キスト表示装置10は、URL「useful/tetsuduki/kou
teki.html」を表示する。つまり、URL「useful/tets
uduki/kouteki.html」を表示する場合、リンク先use
ful/tetsuduki/kouteki.htm
lに、データ要求信号を送信し、このリンク先から、H
TML言語でハイパーテキストが記載されているデータ
ファイルkouteki.htm1を受信し、このハイ
パーテキストの本来のコマンドに従ったテキストの表示
を行う。
【0062】[ステップS8]ステップS7において、
ハイパーテキスト表示装置10がURL「useful/tetsu
duki/kouteki.html」をデータ要求信号を送信し、ステ
ップS8では、音声合成制御手段100が、上記音声認
識結果「こーてきてつづき」と組みになっているテキス
ト「公的手続きの仕方」を、バッファ70から取り出
し、音声合成装置110を用いて、このテキストの読み
上げを実行する。
【0063】なお、上記「このテキストの読み上げを実
行する」に求められている発音表記と、予め蓄えられた
問い合わせテキストテンプレート「〜ですね」とを結合
し、「こーてきてつづきのしかた ですね」という問い
合わせテキストを生成し、この生成されたテキストに基
づいて、音声合成手段で「こーてきてつづきのしかたで
すね」という問い合わせテキストに基づいた音声を合成
し、再生する。
【0064】ところで、従来技術においては、たとえ
ば、ステップS5で例として挙げた2つのコマンド コマンド: @window.open('useful/tetsuduki/kouteki.
html','_self')、 コマンド:@window.open('useful/tetsuduki/ telephon
e.html','_self') のように、複数のコマンドに跨って、同一の認識対象語
彙(手続き)の発音表記がある場合、上記2つのコマン
ドのうちで、1つのコマンドを特定することができない
という問題がある。
【0065】つまり、従来例では、ステップS5で例と
して挙げられた2つのコマンドにおける発音表記「てつ
づき」と、コマンドとの組みがハイパーテキストに記述
されている場合、発音表記を導き出した元のテキストに
関する情報がないので、発音表記「てつづき」を読み上
げ、ユーザに認識結果の確認を行わせても、実行しよう
としているコマンドが「公的手続きの仕方」に関連した
コマンドであるのか、または「電話申し込みの手続き」
に関連したコマンドであるのかがわからないままである
という問題がある。
【0066】この従来の問題に対応する策として、上記
実施例では、コマンド間で同一の発音表記の有無を確認
し、このような発音表記の語彙を特定する。
【0067】つまり、上記実施例では、上記特定され
た発音表記の語彙を、音声認識対象語から除外し、発音
表記が重複しない語彙を残す。
【0068】また、上記実施例では、発音表記が重複
する語彙を残し、発話者の音声を音声認識部が、発音表
記の重複する語彙を認識した場合(たとえば、「てつづ
き」を認識した場合)、各コマンドから、少なくとも1
語づつ選び(たとえば「こーてき」、「でんわ」を選
び)、この選ばれた語に、予め蓄えられた選択問い合わ
せ文テンプレート「〜、〜どちらにしますか?」を結合
させる.すなわち、「こーてき、でんわ、どちらにしま
すか」という選択問い合わせ文を生成し、これに基づい
て音声合成部で「こーてき、でんわ、どちらにします
か」という音声信号を合成し、再生する。上記のように
することによって、ユーザに、「こーてき」、「でん
わ」のいずれかを選択させることを促す。
【0069】なお、上記実施例において、発音表記が
重複する語彙にかかるコマンドについて、各コマンドに
対応するテキストの発音表記を求め、これらに基づい
て、音声合成部で音声信号を合成し、再生することによ
って、ユーザに、どちらかの語を選択させるようにして
もよい。
【0070】上記実施例によれば、端末側の内部で、発
音表記を導出した元のテキストを参照することができ、
発音表記「てつづき」を導出した元のテキスト「公的手
続きの仕方」を読み上げることによって、ユーザに、認
識結果を確認させることができる。
【0071】つまり、ユーザが、「電話申し込みの手続
き」の「手続き」のつもりで発話し、ハイパーテキスト
音声制御装置1が「公的手続きの仕方」を読み上げれ
ば、「手続き」という語は「公的手続きの仕方」と結び
付き、「電話申し込みの手続き」と結び付いたコマンド
を実行するためには、「電話申し込み」等の他の語を発
話しなければならないことを、ユーザが理解できる。
【0072】また、上記実施例を、プログラムの発明と
して把握することができる。すなわち、上記実施例は、
コマンドと上記コマンドの制御対象テキストとの組を含
むハイパーテキストの表示を、音声で制御するハイパー
テキスト音声制御手順をコンピュータに実行させるプロ
グラムにおいて、上記ハイパーテキストを構成する上記
制御対象テキストを、形態素解析装置が、形態素解析
し、各単語別に品詞を検出する品詞検出手順と、単語と
発音表記とを対応づけて、バッファ蓄積手段に格納され
ている単語発音表記テーブルに記録する単語発音表記テ
ーブル作成手順と、所定の品詞の単語を、当該コマンド
の音声認識対象語であると定め、上記単語発音表記テー
ブルを用い、上記音声認識対象語に対応する発音表記を
定め、音声信号が、上記発音表記に該当することを、音
声認識装置が確認する発音表記確認手順と、上記音声信
号が上記発音表記に該当する場合、対応するコマンドを
実行するコマンド実行手順とをコンピュータに実行させ
るプログラムの例である。
【0073】この場合、上記ハイパーテキストが、コマ
ンドと上記コマンドの制御対象テキストとの組を複数含
む場合に、上記複数のコマンド間に共通な発音表記を検
出する共通発音表記検出手順と、上記共通な発音表記を
除外する共通発音表記除外手順とをコンピュータに実行
させる。
【0074】また、上記ハイパーテキストが、コマンド
と上記コマンドの制御対象テキストとの組を複数含む場
合に、上記複数のコマンド間に共通する発音表記と、上
記複数のコマンド間に共通しない発音表記とを検出する
発音表記検出手順と、上記音声信号が、上記共通する発
音表記であると認識した場合に、上記共通する発音表記
に、上記共通しない発音表記を表示する発音表記表示手
順とをコンピュータに実行させる。
【0075】上記プログラムをCD、DVD、HD、半
導体メモリ等の記録媒体に格納し、この記録媒体、また
は通信回線から、上記プログラムをインストールし、こ
のインストールされたプログラムをCPU等の処理制御
手段で実行することによって、上記実施例を実現するよ
うにしてもよい。
【0076】上記実施例によれば、音声制御可能なハイ
パーテキストを人手で作成する際、任意のテキストを記
述しさえすれば足り、発音表記を記述する必要がないの
で、ハイパーテキストの作成作業が容易である。
【0077】また、テキストとコマンドとの組みを自動
的に追加して記述するプロキシを介して、一般のハイパ
ーテキストを、音声によって制御する場合、計算量を多
く必要とする音声認識対象語を特定する処理を、プロキ
シ上ではなく、プロキシを利用する端末側で行うので、
プロキシにかかる負荷を軽減することができる。
【0078】さらに、名詞を音声認識対象語とするだけ
でなく、元のテキスト中で隣接する名詞列をも音声認識
対象語にするので、複合名詞等の音声入力に対応するこ
とができる。
【0079】そして、識別結果に基づいてコマンドが実
行されるときに、コマンドと組みになったテキストを、
音声合成装置が音声を合成し、再生するので、その音声
認識結果が正しいか否かを、ユーザが確認できる。特
に、コマンドが異なるが、このコマンドと組みになって
いる発音表記が同一である場合に、端末側の内部で発音
表記を導出した元のテキストを参照することができるの
で、そのテキストを音声合成装置が音声を合成し、再生
すれば、その音声認識結果が正しいか否かを、ユーザが
確認できる。
【0080】つまり、上記実施例によれば、ハイパーテ
キストにおける音声化の記述が容易であり、プロキシの
負荷を軽減し、音声認識の対象範囲を広げることがで
き、音声合成によって音声認識の結果を確認することが
できる。
【0081】すなわち、WWW上に存在する一般のハイ
パーテキストには、発音表記とコマンドとの組みが記述
されることはないが、上記実施例によれば、WWW上に
存在する一般のハイパーテキストでも、音声によって制
御することができる。
【0082】次に、本発明の第2の実施例であるハイパ
ーテキスト音声制御装置200について説明する。
【0083】図3は、本発明の第2の実施例であるハイ
パーテキスト音声制御装置200を示すブロック図であ
る。
【0084】ハイパーテキスト音声制御装置200は、
ユーザ端末内に設けられ、ハイパーテキスト中継装置
(プロキシ)300を具備し、つまり、ハイパーテキス
ト表示装置210と、音声認識制御装置220と、音声
認識装置230と、ハイパーテキスト中継装置300と
を有する。
【0085】ハイパーテキスト中継装置300は、ハイ
パーテキスト中継手段310と、ハイパーテキスト編集
手段320と、音声認識対象語選択手段310と、形態
素解析装置340とを有する。
【0086】ハイパーテキスト中継手段310は、ネッ
トワーク上のハイパーテキストを取得し、この取得した
ハイパーテキストのリンク情報に基づいて、コマンドを
求め、テキストとコマンドとの組みを音声コマンドと
し、この音声コマンドを、そのハイパーテキストに挿入
して中継する手段である。
【0087】音声認識対象語選択手段330は、形態素
解析装置340が出力した品詞の中から、名詞を取り出
し、この取り出された名詞に加えて、テキスト中で隣接
する名詞列を、音声認識対象語として選択する手段であ
る。
【0088】形態素解析装置340は、テキストを単語
分割し、また、品詞を付与する装置である。
【0089】次に、ハイパーテキスト音声制御装置20
0の動作について説明する。
【0090】図4は、ハイパーテキスト音声制御装置2
00の動作を示すフローチャートである。
【0091】まず、ハイパーテキスト表示装置210に
よって、ハイパーテキストを要求し(S11)、ハイパ
ーテキストには、以下に示すリンク情報が記述されてい
るとする。
【0092】 <A HREF=“set.html”>電話の申し込みと設置</A> <A HREF=“move.html”>移転の手続き</A> <A HREF=“change.html”>回線種類の変更手続き</A
> <A HREF=“service.html”>料金明細内訳サービス</
A> ハイパーテキスト表示装置210から要求された上記ハ
イパーテキストを、ハイパーテキスト中継手段310
が、ネットワークから取得し、ハイパーテキスト編集手
段320が、上記ハイパーテキストから上記リンク情報
を特定し、以下に示すリンクテキストを抽出する(S1
2)。
【0093】「電話の申し込みと設置」 「移転の手続き」 「回線種類の変更手続き」 「料金明細内訳サービス」音声認識対象語選択手段33
0が、上記リンクテキストのそれぞれを、以下のように
形態素解析する(S13)。
【0094】 「電話&(の)&申し込み&(と)設置」 「移転&(の)&手続き」 「回線&種類&(の)&変更&手続き」 「料金&明細&内訳&サービス」ここで、「&」は、単
語の区切りであることを示し、( )内は、機能語であ
ることを示す。
【0095】上記形態素結果に基づいて、以下に示すよ
うに、機能語を含まない名詞句を選別する。
【0096】 「電話、申し込み、設置」 「移転、手続き」 「回線&種類、変更&手続き」 「料金&明細&内訳&サービス」上記名詞句のそれぞれ
の単語数を、形態素解析装置340が、数え上げ、最も
単語数の多い名詞句を選定する(S15)。単語数が同
一である名詞句については、上記リンクテキストにおい
て、より先頭に位置する名詞句を優先する。
【0097】 [電話]「電話&(の)&申し込み&(と)設置」 [移転]「移転&(の)&手続き」 [回線&種類]「回線&種類&(の)&変更&手続き」 [料金&明細&内訳&サービス]「料金&明細&内訳&
サービス」上記選定された名詞句から、各名詞句に対す
る単語数に関する以下の基準に従って、1つの名詞句を
特定する(S14)。
【0098】(1)1単語の場合 この名詞から次の名詞までを認識語とする。
【0099】(2)2〜3単語の場合 名詞句をそのまま認識語とする。
【0100】(3)4単語以上の場合 名詞句の先頭から3単語からなる名詞句を認識語とす
る。
【0101】上記基準に基づいて、最終的に認識語とし
て特定された名詞句は、以下の通りである(S15)。
【0102】 「電話の申し込み」(基準1より) 「移転の手続き」(基準1より) 「回線種類」(基準2より) 「料金明細内訳」(基準3より) 上記リンクテキストに対する上記名詞句を、音声認識対
象語選択手段330が取得し、上記リンク情報に基づい
て、ハイパーテキスト編集手段320が、以下の音声コ
マンドを生成する(S16)。
【0103】 電話の申し込み|@window.open(‘set.html’,‘sel
f’) 移転の手続き|@window.open(‘move.html’,‘self’) 回線種類|@window.open(‘change.html’,‘self’) 料金明細内訳|@window.open(‘service.html’,‘sel
f’) ただし、音声コマンドの形式は、以下の通りである。
【0104】音声認識対象語|音声認識対象語が認識さ
れたときのコマンド。
【0105】生成した上記音声コマンドを音声認識制御
装置であるアプレットのパラメータとして、以下の記述
を、上記ハイパーテキスト中のbodyタグの最後(<
/body>の直前))に挿入する。
【0106】ハイパーテキスト表示装置210は、上記
記述が挿入されたハイパーテキストを読み込むと、上記
を音声コマンドに基づいて、音声認識装置230に音声
認識対象語を設定し、音声認識を実行させ、ハイパーテ
キスト表示装置210に対応するコマンドを指示する。
【0107】ハイパーテキスト編集手段320では、さ
らに、上記リンク情報を以下のように書き換える。
【0108】 <A HREF=“set.html”><span id=blink>電話の申し込み
</span>と設置</A> <A HREF=“move.html”><span id=blink>移転の手続き<
/span></A> <A HREF=“change.html”><span id=blink>回線種類</s
pan>の変更手続き</A> <A HREF=“service.html”><span id=blink>料金明細内
訳</span>サービス</A> また、図5に示すスクリプトをハイパーテキストに挿入
する(S17)。このスクリプトは、音声認識した対象
語を点滅するために使用するものである。
【0109】図5は、上記第2の実施例において、ハイ
パーテキストに挿入されるスクリプトの例を示す図であ
る。
【0110】さらに、bodyタグの属性に onload=disp( ) を挿入する(S18)。
【0111】以上の編集を、ハイパーテキスト編集手段
320が行い、ハイパーテキスト中継装置300が、上
記編集済みハイパーテキストを、ハイパーテキスト表示
装置210へ送信する(S19)。
【0112】ハイパーテキスト表示装置210は、sp
anタグによって、音声認識対象語を点滅させ、また、
リンクのどの部分が音声認識対象語であるかを、ユーザ
に知らせることができる。
【0113】つまり、上記第2の実施例は、上記リンク
テキスト中の名詞句に含まれている単語数によって互い
に異なる基準に従って、上記リンクテキスト中の名詞句
から、認識語を決定し、この決定された認識語を、他の
語と異なる形態で表示するものである。
【0114】
【発明の効果】本発明によれば、ハイパーテキストにお
ける音声化の記述が容易であり、プロキシの負荷を軽減
し、音声認識の対象範囲を広げることができ、音声合成
によって音声認識の結果を確認することができるという
効果を奏する。
【0115】また、本発明によれば、プロキシの負荷を
軽減することができ、また、音声認識誤りやコマンド実
行誤りを減らすことができ、さらに、ユーザに音声認識
対象語を通知することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例であるハイパーテキスト音声
制御装置1を、中継装置2とともに示すブロック図であ
る。
【図2】ハイパーテキスト音声制御装置1の動作を、中
継装置2の動作とともに示すフローチャートである。
【図3】本発明の第2の実施例であるハイパーテキスト
音声制御装置200を示すブロック図である。
【図4】ハイパーテキスト音声制御装置200の動作を
示すフローチャートである。
【図5】上記第2の実施例において、ハイパーテキスト
に挿入されるスクリプトの例を示す図である。
【符号の説明】
10…ハイパーテキスト表示装置、 20…受信手段、 30…形態素解析装置、 40…発音表記導出手段、 50…音声認識対象語特定手段、 60…バッファ蓄積手段、 70…バッファ、 80…音声認識装置、 100…音声合成制御手段、 120…音声合成装置、 130…ハイパーテキスト中継手段、 140…リンク部抽出手段、 150…音声コマンド書式変換手段、 200…ハイパーテキスト音声制御装置、 210…ハイパーテキスト表示装置、 220…音声認識制御装置、 230…音声認識装置、 300…ハイパーテキスト中継装置、 310…ハイパーテキスト中継手段、 320…ハイパーテキスト編集手段、 330…音声認識対象語特定手段、 340…形態素解析装置。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/18 G10L 3/00 571H 15/28 537A Fターム(参考) 5B082 HA05 HA08 5B091 AA15 BA02 CA02 CB12 5D015 AA04 BB01 KK03

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 コマンドと上記コマンドの制御対象テキ
    ストとの組を含むハイパーテキストの表示を、音声で制
    御するハイパーテキスト音声制御装置において、 上記ハイパーテキストを構成する上記制御対象テキスト
    を、形態素解析し、各単語別に品詞を検出する品詞検出
    手段と;単語と発音表記とを対応づけて記録してある単
    語発音表記テーブルと;所定の品詞の単語を、当該コマ
    ンドの音声認識対象語であると定め、上記単語発音表記
    テーブルを用い、上記音声認識対象語に対応する発音表
    記を定め、音声信号が、上記発音表記に該当することを
    確認する発音表記確認手段と;上記音声信号が上記発音
    表記に該当する場合、対応するコマンドを実行するコマ
    ンド実行手段と;を有することを特徴とするハイパーテ
    キスト音声制御装置。
  2. 【請求項2】 請求項1において、上記ハイパーテキス
    トが、コマンドと上記コマンドの制御対象テキストとの
    組を複数含む場合に、上記複数のコマンド間に共通な発
    音表記を検出する共通発音表記検出手段と;上記共通な
    発音表記を除外する共通発音表記除外手段と;を有する
    ことを特徴とするハイパーテキスト音声制御装置。
  3. 【請求項3】 請求項1において、 上記ハイパーテキストが、コマンドと上記コマンドの制
    御対象テキストとの組を複数含む場合に、上記複数のコ
    マンド間に共通する発音表記と、上記複数のコマンド間
    に共通しない発音表記とを検出する発音表記検出手段
    と;上記音声信号が、上記共通する発音表記であると認
    識した場合に、上記共通する発音表記に、上記共通しな
    い発音表記を表示する発音表記表示手段と;を有するこ
    とを特徴とするハイパーテキスト音声制御装置。
  4. 【請求項4】 請求項1において、 上記リンクテキスト中の名詞句に含まれている単語数に
    よって互いに異なる基準に従って、上記リンクテキスト
    中の名詞句から、認識語を決定し、この決定された認識
    語を、他の語と異なる形態で表示することを特徴とする
    ハイパーテキスト音声制御装置。
  5. 【請求項5】 コマンドと上記コマンドの制御対象テキ
    ストとの組を含むハイパーテキストの表示を、音声で制
    御するハイパーテキスト音声制御方法において、 上記ハイパーテキストを構成する上記制御対象テキスト
    を、形態素解析し、各単語別に品詞を検出する品詞検出
    段階と;単語と発音表記とを対応づけて単語発音表記テ
    ーブルに記録する単語発音表記テーブル作成段階と;所
    定の品詞の単語を、当該コマンドの音声認識対象語であ
    ると定め、上記単語発音表記テーブルを用い、上記音声
    認識対象語に対応する発音表記を定め、音声信号が、上
    記発音表記に該当することを確認する発音表記確認段階
    と;上記音声信号が上記発音表記に該当する場合、対応
    するコマンドを実行するコマンド実行段階と;を有する
    ことを特徴とするハイパーテキスト音声制御方法。
  6. 【請求項6】 請求項5において、 上記ハイパーテキストが、コマンドと上記コマンドの制
    御対象テキストとの組を複数含む場合に、上記複数のコ
    マンド間に共通な発音表記を検出する共通発音表記検出
    段階と;上記共通な発音表記を除外する共通発音表記除
    外段階と;を有することを特徴とするハイパーテキスト
    音声制御方法。
  7. 【請求項7】 請求項5において、 上記ハイパーテキストが、コマンドと上記コマンドの制
    御対象テキストとの組を複数含む場合に、上記複数のコ
    マンド間に共通する発音表記と、上記複数のコマンド間
    に共通しない発音表記とを検出する発音表記検出段階
    と;上記音声信号が、上記共通する発音表記であると認
    識した場合に、上記共通する発音表記に、上記共通しな
    い発音表記を表示する発音表記表示段階と;を有するこ
    とを特徴とするハイパーテキスト音声制御方法。
  8. 【請求項8】 請求項5において、 上記リンクテキスト中の名詞句に含まれている単語数に
    よって互いに異なる基準に従って、上記リンクテキスト
    中の名詞句から、認識語を決定し、この決定された認識
    語を、他の語と異なる形態で表示することを特徴とする
    ハイパーテキスト音声制御方法。
  9. 【請求項9】 コマンドと上記コマンドの制御対象テキ
    ストとの組を含むハイパーテキストの表示を、音声で制
    御するハイパーテキスト音声制御手順をコンピュータに
    実行させるプログラムにおいて、 上記ハイパーテキストを構成する上記制御対象テキスト
    を、形態素解析装置が形態素解析し、各単語別に品詞を
    検出する品詞検出手順と;単語と発音表記とを対応づけ
    て、バッファ蓄積手段に格納されている単語発音表記テ
    ーブルに記録する単語発音表記テーブル作成手順と;所
    定の品詞の単語を、当該コマンドの音声認識対象語であ
    ると定め、上記単語発音表記テーブルを用い、上記音声
    認識対象語に対応する発音表記を定め、音声信号が、上
    記発音表記に該当することを、音声認識装置が確認する
    発音表記確認手順と;上記音声信号が上記発音表記に該
    当する場合、対応するコマンドを実行するコマンド実行
    手順と;をコンピュータに実行させるプログラム。
  10. 【請求項10】 請求項9において、 上記ハイパーテキストが、コマンドと上記コマンドの制
    御対象テキストとの組を複数含む場合に、上記複数のコ
    マンド間に共通な発音表記を検出する共通発音表記検出
    手順と;上記共通な発音表記を除外する共通発音表記除
    外手順と;をコンピュータに実行させるプログラム。
  11. 【請求項11】 請求項9において、 上記ハイパーテキストが、コマンドと上記コマンドの制
    御対象テキストとの組を複数含む場合に、上記複数のコ
    マンド間に共通する発音表記と、上記複数のコマンド間
    に共通しない発音表記とを検出する発音表記検出手順
    と;上記音声信号が、上記共通する発音表記であると認
    識した場合に、上記共通する発音表記に、上記共通しな
    い発音表記を表示する発音表記表示手順と;をコンピュ
    ータに実行させるプログラム。
  12. 【請求項12】 請求項9において、 上記リンクテキスト中の名詞句に含まれている単語数に
    よって互いに異なる基準に従って、上記リンクテキスト
    中の名詞句から、認識語を決定し、この決定された認識
    語を、他の語と異なる形態で表示する手順をコンピュー
    タに実行させるプログラム。
JP2002341461A 2001-11-29 2002-11-25 ハイパーテキスト音声制御方法、その装置およびプログラム Pending JP2003263307A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002341461A JP2003263307A (ja) 2001-11-29 2002-11-25 ハイパーテキスト音声制御方法、その装置およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-364889 2001-11-29
JP2001364889 2001-11-29
JP2002341461A JP2003263307A (ja) 2001-11-29 2002-11-25 ハイパーテキスト音声制御方法、その装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2003263307A true JP2003263307A (ja) 2003-09-19

Family

ID=29217697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002341461A Pending JP2003263307A (ja) 2001-11-29 2002-11-25 ハイパーテキスト音声制御方法、その装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2003263307A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008186201A (ja) * 2007-01-29 2008-08-14 Nec Soft Ltd リバースプロキシサーバ、その制御方法及びプログラム
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP7367750B2 (ja) 2018-02-19 2023-10-24 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008186201A (ja) * 2007-01-29 2008-08-14 Nec Soft Ltd リバースプロキシサーバ、その制御方法及びプログラム
JP4652350B2 (ja) * 2007-01-29 2011-03-16 Necソフト株式会社 リバースプロキシサーバ、その制御方法及びプログラム
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP7367750B2 (ja) 2018-02-19 2023-10-24 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
US20230281382A1 (en) Insertion of standard text in transcription
US6801897B2 (en) Method of providing concise forms of natural commands
US7315811B2 (en) System and method for accented modification of a language model
EP1330816B1 (en) Language independent voice-based user interface
US7904291B2 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
TWI488174B (zh) 自動地建立文字資料與音訊資料間之映射
US20070198245A1 (en) Apparatus, method, and computer program product for supporting in communication through translation between different languages
US20080077387A1 (en) Machine translation apparatus, method, and computer program product
US6286014B1 (en) Method and apparatus for acquiring a file to be linked
JP2000137596A (ja) 対話型音声応答システム
JP2011100169A (ja) インターネットページのハイパーリンクを作動させる音声認識方法
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2002125047A5 (ja)
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9196251B2 (en) Contextual conversion platform for generating prioritized replacement text for spoken content output
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP4587165B2 (ja) 情報処理装置及びその制御方法
JP2006030326A (ja) 音声合成装置
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP2003263307A (ja) ハイパーテキスト音声制御方法、その装置およびプログラム
JP2003029779A (ja) 自動通訳システム及びその方法並びにプログラム
US7353175B2 (en) Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user
CN112927677A (zh) 语音合成方法和装置
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム