JP3279684B2 - 音声インタフェース・ビルダ・システム - Google Patents

音声インタフェース・ビルダ・システム

Info

Publication number
JP3279684B2
JP3279684B2 JP30674592A JP30674592A JP3279684B2 JP 3279684 B2 JP3279684 B2 JP 3279684B2 JP 30674592 A JP30674592 A JP 30674592A JP 30674592 A JP30674592 A JP 30674592A JP 3279684 B2 JP3279684 B2 JP 3279684B2
Authority
JP
Japan
Prior art keywords
voice
function
input
recognition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30674592A
Other languages
English (en)
Other versions
JPH06161704A (ja
Inventor
熹 市川
義典 北原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP30674592A priority Critical patent/JP3279684B2/ja
Publication of JPH06161704A publication Critical patent/JPH06161704A/ja
Application granted granted Critical
Publication of JP3279684B2 publication Critical patent/JP3279684B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)
  • Digital Computer Display Output (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】音声合成、音声認識、音声アノテ
ーションなどの音声情報を利用したマン・マシン・イン
タフェースをユーザが自ら作成するアプリケーション・
システムの中に構成するための開発支援システムに関す
る。
【0002】
【従来の技術】例えば、(1)ネクスト社のNextS
tep(Next Inc. 「Interface Builder」 NeXT System
Reference Manual,Chapter 8, 1989)では、音声イン
タフェースをユーザが構成するためのツールとして「サ
ウンド ウィンドウ」と「サウンド インスペクタ」の
2つを用意している。
【0003】「サウンド ウィンドウ」は各種アプリケ
ーションに用いる音声や音楽などの素材を格納しておく
場所である。「フィールド ウィンドウ」の中に示され
ている「サウンド アイコン」をダブルクリックするこ
とにより「サウンド ウィンドウ」を開く。「サウンド
ウィンドウ」の中にあるいくつかの「サウンド素材ア
イコン」から任意の一つを選び、アプリケーション上に
定義した「ボタン」の上に「マウス」によって持って行
くことにより、その「サウンド素材 アイコン」の持つ
音とその「ボタン」を対応つけることができる。
【0004】「サウンド インスペクタ」は、ディスク
上に録音されている音を再生したり、新たに録音するた
めのものである。また、波形を表示しており、簡単な編
集(コピー、つなぎあわせ、削除など)も可能にしてい
る。ただし、システムで用意している音はタイトルが灰
色で表示されており、編集は許されていない。「ディレ
クトリ ウィンドウ」より「サウンド ファィル アイ
コン」を「サウンドウィンドウ」の中に持って行くこと
により新たに「サウンド素材 アイコン」を設定し、そ
れをダブル・クリックすると「サウンド インスペク
タ」が開かれる。「サウンド インスペクタ」の中には
「再生」「停止」「録音」「ポーズ」などテープレコー
ダと類似のボタンが表示されており、例えば「再生ボタ
ン」をクリックするとその音が再生される。表示波形の
下には再生音のレベルも表示されている。「ポーズ」を
クリックすると再度クリックするまで録音は中断され
る。
【0005】ほかの従来技術の事例として、(2)サイ
ディス社のボイスステーション(Robert T. Nicholson,
「Integrating Voice in the Office World」BYTE Maga
zine, 1983,12)の例がある。このシステムは編集可能
な文書に音声の注釈をつけることが可能である。文書に
おいて、音声の注釈を付した個所にスピーカを抽象化し
たアイコンを表示し、このアイコンをクリックすると音
声注釈を処理するウインドウが開かれる。このウィンド
ウは、上述の「サウンドインスペクタ」とほぼ同じよう
な機能を持たせている(ほかに「巻き戻し」、「速送
り」機能がある)。
【0006】
【発明が解決しようとする課題】しかしながら、前述の
(2)では音声インタフェース機能はくくり付けであ
り、ユーザが任意の音声インタフェースを必要に応じて
作る機能はない。また、(1)では、ユーザがアプリケ
ーションに音を出す機能を付けるための道具を提供して
いるものの、その機能はテープレコーダ的機能である音
声注釈や効果音の付与の範囲に留まっており、音声認識
や音声合成、音声対話等の機能は全くない。
【0007】これらの従来技術は、ユーザのアプリケー
ションが予め定められた手順に従って音声出力等を順次
行うための、一種の静的な編集技術に留まっている。ダ
イナミックに処理を行う処理手順そのものとしてのアプ
リケーション・システムの中で、その処理手順の一部と
してダイナミックに機能する音声インタフェースを実現
するための開発支援技術とはなっていない。
【0008】本発明の目的は、音声注釈や効果音の付与
機能のみならず、音声認識や音声合成、音声対話機能を
持つ音声インタフェースをユーザが自由に設計し、ダイ
ナミックに処理を行う処理手順そのものとしてのアプリ
ケーション・システムの中に、その処理手順の一部とし
て音声インタフェース機能を実現できる手段を提供する
ことにある。
【0009】
【課題を解決するための手段】本発明は、音声処理のた
めのメニューとして、音声合成機能、音声認識機能、及
び音声対話機能のうち少なくとも1つを含む複数の音声
機能を表示し、その音声機能の複数の操作内容を視覚的
に表示する表示手段と、表示されたメニューの中から必
要な音声機能を選択指示し、表示された複数の操作内容
の中から必要な操作を選択指示する入力手段と、選択指
示された音声機能及び操作に応じて、音声処理を行うア
プリケーション・プログラムを作成する情報処理手段と
を備えたものである。
【0010】具体的には、本発明の音声インタフェース
・ビルダ・システムでは、マルチウィンドウ表示手段を
備え、マルチウィンドウ表示手段を制御して音声インタ
フェースの処理内容や処理手順(音声アノテーション、
音声合成、音声入力(音声コマンド)、音声対話)を視
覚的に表現した複数のウィンドウを作成し、かつこれら
のウィンドウを階層的に、あるいはユーザの指定による
リンク関係が分かるように表示しながら、 I.外部機能 ユーザが自からのアプリケーション・シ
ステム開発時に、そのプログラムの中に各種音声インタ
フェース機能を付与するためのツール、 II.内部機能 ユーザから見え無い各種の音声処理機
能、 に関する以下に述べる多くの機能の全て、またはその一
部を用意し、それらの選択、組合せ、パラメータの指定
などによりアプリケーション・システムを開発、あるい
は、さらに実行する手段を備えた(開発と実行手段は別
々のシステムであっても良い。この場合、外部機能と内
部機能はその必要のある機能のみを備えていても良
い)。なお、(デフォルト)とあるのは、ユーザが特に
選択を指示しない場合に設定される機能の例を示してい
る。また、実施例では幾つかの共通処理は一つの機能に
まとめている。
【0011】以下、本発明の実施例に関係する項目を中
心に列挙する。 I.外部機能(ユーザから見える機能) 1.音声出力機能 1.1.出力内容 以下の各種の音声のタイプの出力を選択できる手段を備
えた。
【0012】(1)予め録音してある音声(効果音を含
む) (録音編集) (2)ユーザが録音した音声(効果音を含む) (録
音編集) (3)ユーザが指定した仕様に基づき作成した効果音
(合成効果音) (4)ユーザが指定した文字列から合成した男声文章音
声 (規則合成) (5)ユーザが指定した文字列から合成した女声文章音
声 (規則合成) (6)ユーザが指定した文字列から合成した男声文書
(多量複数文章)音声 (規則合成) (7)ユーザが指定した文字列から合成した女声文書
(多量複数文章)音声 (規則合成) (8)意味情報から文章を生成し、合成した男声音声
(概念合成) (9)意味情報から文章を生成し、合成した女声音声
(概念合成) 1.2.部分音色変更機能 出力音声の一部、例えば括弧の中の部分の音色を変更、
あるいは削除する手段を備えた。(2)−(5) は複
数条件同時設定可能とした。
【0013】(1)全体一定音色(デフォルト) (2)指定字種記号音色変更(音色ユーザ指定) (3)指定条件範囲音色変更(音色ユーザ指定) (4)指定字種記号部分音声出力削除 (5)指定条件範囲部分音声出力削除 1.3.音声作成タイミング 出力すべき音声を作成する時期として次の二種から選択
する手段を備えた。
【0014】(1)事前(デフォルト) (2)オンライン 出力すべきデータが変化するような場合には音声出力時
にその時の状況に併せた音声を生成する必要が生じる 1.4.記録メディア ハイファイ音楽の出力なども可能にするため音質に見合
った記録メディアを選択できる手段を備えた。
【0015】(1)ハードディスク(デフォルト) (2)CD (3)LVD 1.5.編集機能 必要に応じて出力すべき音声を自由に編集できる手段を
備えた。
【0016】(1)入れ替え (2)削除 (3)挿入 (4)接続 (5)分割 1.6.出力単位 たとえば、あるウィンドウ内に複数の音声注釈が付され
ている様な場合、一つづつ出力するか、複数個をまとめ
て連続的に出力させるかなどを選択出来る手段を備え
た。
【0017】(1)単独(デフォルト) (2)指定個数連続 1.7.出力範囲 たとえば、複数個をまとめて連続的に出力させるような
場合、その全文を出力するか、その各々の一部分づつを
出力していくかを選択出来る手段を備えた。
【0018】(1)指定単位全長(デフォルト) (2)指定単位各頭部分のみ(長さ デフォルト値) (3)指定単位各頭部分のみ(長さ ユーザ指定) (4)指定部分のみ 1.8.出力タイミング 音声を何時出力するかを指定する手段を備えた。
【0019】(1)無条件(デフォルト) (2)ユーザ指定条件を満たした場合 (3)ユーザが出力指示を入力した場合 1.9.出力速度 発声速度を選択できる手段を備えた。
【0020】(1)普通(デフォルト) (2)早口(ユーザ指定) (3)遅口(ユーザ指定) 1.10.出力レベル 声の大きさを指定できる手段を備えた。
【0021】(1)一定(デフォルト) (2)一定(ユーザ指定) (3)フェードイン・フェードアウト(条件ユーザ指
定) 2.音声取り込み機能 2.1.帯域 要求音質の必要度に従い使用する周波数帯域を指定でき
る手段を備えた。
【0022】(1)一定(デフォルト) (2)ユーザ指定 2.2.サンプリング周波数 要求音質の必要度に従い使用するサンプリング周波数を
指定できる手段を備えた。必要性能が確保出来るよう
に、指定した周波数帯域により指定できるサンプリング
周波数範囲を自動的に制限する手段も併せ備えた。
【0023】(1)一定値(デフォルト) (2)ユーザ指定 2.3.音声切り出し条件 音声部分を取り込む判定条件を指定出来る手段を備え
た。
【0024】(1)一定値(デフォルト) (2)無条件 (3)ユーザ指定(パワー、継続時間、雑音レベル計測
等) 2.4.音声取り込みタイミング 音声部分を取り込むタイミング条件を指定出来る手段を
備えた。
【0025】(1)無条件(デフォルト) (2)ユーザ指定条件を満たした場合 (2.3.
(2)など) (3)ユーザが指示を入力した場合 2.5.音声取り込み終了タイミング 音声部分を取り込み終了タイミング条件を指定出来る手
段を備えた。
【0026】(1)取り込みメモリ領域がオーバーフロ
ー(デフォルト) (2)ユーザ指定条件を満たした場合 (2.3.
(2)など) (3)ユーザが指示を入力した場合 2.6.音声取り込み中断 ユーザが指示をした期間取り込みを中断出来る手段を備
えた。
【0027】 (1)ポーズ(ユーザが指示をした期間取り込み中断) 3.音声アノテーション(注釈)機能 3.1.注釈付与機能 注釈音声部分を取り込む判定条件など2.に示した各機
能の条件を指定できる手段を備えた。
【0028】(1)デフォルト条件 (2)ユーザ指定条件 3.2.注釈再生機能 再生する注釈音声の声の大きさなど1.に示した各機能
の条件を指定できる手段を備えた。
【0029】(1)デフォルト条件 (2)ユーザ指定条件 3.3.注釈位置表示・再生起動機能 注釈が付与されている部分の表示やその一時的表示のマ
スク、表示部分をクリックするなど注釈音声を再生する
方法の条件の指定手段を備えた。
【0030】(1)表示・デフォルト条件再生起動 (2)表示・ユーザ指定条件再生起動 (3)全注釈デフォルト条件再生起動 (4)全注釈ユーザ指定条件再生起動 (5)表示マスク 4.音声認識機能 4.1.認識内容 認識すべき音声の形式が何かを指定する手段を備えた。
【0031】(1)単独単語(デフォルト) (2)連続単語 (3)文章 4.2.話者登録/学習 話者の違いに対処する手法の選択を指定する手段を備え
た。
【0032】(1)認識単語音声登録(デフォルト) (2)話者学習 (3)不特定話者 4.3.認識カテゴリの登録機能 認識すべき言葉の内容の登録方法を指定する手段を備え
た。
【0033】(1)音声による登録(デフォルト) (2)文字列による登録 4.4.判定条件 認識のための判定条件を指定する手段を備えた。
【0034】(1)一定(デフォルト) (2)ユーザ指定 4.5.認識結果の出力 認識結果の出力形式を指定する手段を備えた。
【0035】(1)一位のみ(デフォルト) (2)ユーザ指定 4.6.登録カテゴリの評価機能 登録した認識すべき言葉の内容が、誤認識を生じやすい
ものとなっていないかどうかを判定する手段を備えた。
【0036】(1)音声登録単語の評価 (2)文字列登録単語の評価 5.言語・意味処理規定機能 5.1.文体選択機能 取り扱う文体を指定できる手段を備えた。
【0037】(1)書き言葉 (2)話し言葉 5.2.単語辞書登録機能 取り扱う単語の読み、品詞、接続情報、意味などを登録
できる手段を備えた。 (1)システム提供基本単語選択(デフォルト) (2)ユーザ登録 5.3.アクセント情報登録機能 取り扱う単語のアクセント情報を登録する手法の選択手
段を備えた。
【0038】(1)音声からの自動分析 音声を発声入力し、そのアクセントを自動分析し、登録
する機能 (2)メニュー/キー入力 6.音声理解 6.1.タスク設定機能 音声理解機能を利用するアプリケーションの世界を設定
する手段を備えた。
【0039】(1)メニュー選択 (2)ユーザ指定 6.2.語彙の設定 音声理解機能を利用するアプリケーションの世界で用い
る語彙を設定する手段を備えた。
【0040】 (1)システム提供基本単語選択(デフォルト) (2)ユーザ登録 6.3.理解結果の出力 理解結果を出力形式を設定する手段を備えた。
【0041】7.対話制御機能 7.1.対話主導権 対話進行の主導権を設定する手段を備えた。
【0042】(1)システム主導(デフォルト) (2)ユーザ主導 (3)主導権システム・ユーザ混在 7.2.対話推移設定機能 対話の順序の条件を設定する手段を備えた。
【0043】(1)固定順序 (2)動的制御 7.4.終了条件設定機能 対話の終了条件を設定する手段を備えた。
【0044】7.5.対話結果の出力 対話により得られた結果を利用するための出力形態など
を設定する手段を備えた。
【0045】8.電話機能(デフォルト) 8.1.発信メディア 相手を呼び出すための手段を選択する手段を備えた。
【0046】(1)マウス (2)キーボード (3)音声 8.2.音声発信機能 音声により相手を呼び出す形態を選択する手段を備え
た。
【0047】(1)電話帳リストからの選択(相手名) (2)電話番号入力 8.3.着信表示機能 電話がかかってきたことを示す手段を選択する手段を備
えた。
【0048】(1)呼出し音(デフォルト) (2)音声表示 (3)文字表示 8.4.通話開始機能 電話機能を利用開始する手段を選択する手段を備えた。
【0049】 (1)ハンドセット オンフック(デフォルト) (2)音声認識 9.音声メール(デフォルト) 9.1.着信情報報告メディア 音声メールが来ていることを示す手段を選択する手段を
備えた。
【0050】(1)呼出し音(デフォルト) (2)音声表示 (3)文字表示 9.2.着信情報音声報告機能 着信音声メールに関する情報の出力機能を選択する手段
を備えた。
【0051】 (1)着信メール件数報告機能(デフォルト) (2)着信メール標題・発信者報告機能 (3)着信時オンライン通報機能 9.3.着信メール選択メディア 着信音声メールを取り出す手段を選択する手段を備え
た。
【0052】(1)マウス (2)キーボード (3)音声 9.4.着信メール音声選択機能 着信音声メールを選択する手段を備えた。
【0053】(1)メール番号選択(デフォルト) (2)標題選択 (3)発信者選択 (4)全着信メール 9.5.本文音声出力機能 着信音声メールの出力範囲を選択する手段を備えた。
【0054】(1)全文(デフォルト) (2)先頭部分 10.話者確認機能 10.1.確認内容の形式 確認に用いる音声の形式が何かを指定する手段を備え
た。
【0055】(1)単独単語(デフォルト) (2)連続単語 (3)文章 10.2.確認内容の登録機能 確認に用いる音声の内容を登録する方法を指定する手段
を備えた。
【0056】(1)音声による登録(デフォルト) (2)文字列による登録 10.3.判定条件 確認のための判定条件を指定する手段を備えた。
【0057】(1)一定(デフォルト) (2)ユーザ指定 10.4.確認結果の出力 確認結果の出力形式を指定する手段を備えた。
【0058】(1)確認結果のみ(デフォルト) (2)確認結果と確認の程度 II.内部機能(ユーザから見え無い機能) 以上の機能を実現するために、さらに以下の各手段を備
えた。ただし、以下の機能は、マルチウィンドウ・シス
テムと、音声出力内容の試聴機能を用意する場合の音声
合成機能を除いて、音声インタフェース機能を付与する
段階では必ずしも必要ではない。従って、アプリケーシ
ョン・システムを開発だけ行い、その実行は別装置で行
う場合には、開発装置にはマルチウィンドウ・システム
と音声出力内容の試聴機能を用意する場合の音声合成機
能を除いて、これらの手段を省略することが出来る。
【0059】1.音声符号化・修飾機能 1.1.情報量圧縮機能(符号化、復号化) 1.2.速度変換 1.3.音質変換(男女声変換など) 2.言語処理機能 2.1.言語別処理機能 2.2.文字列音声記号変換機能 (規則合成用) (漢字・記号読み、など) 2.3.文章生成機能 (1)文型からの生成 (2)意味からの生成 3.音声規則合成機能 3.1.抑揚の付与 (1)アクセントの付与 (2)イントネーションの付与 (3)時間構造の付与 3.2.音韻情報合成制御信号の合成 3.3.音声波形の合成 4.単語音声認識機能 4.1.認識対象単語音声登録 4.2.認識(パタンマッチング)機能 4.3.不特定話者音声認識方式 4.4.話者学習機能 4.5.環境雑音対策機能 5.連続音韻認識機能 5.1.認識対象単語/文の記号列登録 5.2.連続音韻認識機能 5.3.不特定話者音声認識方式 5.4.話者学習機能 5.5.環境雑音対策機能 6.文章理解機能 6.1.タスク表現法 6.2.意味表現法 6.3.認識結果からの入力文の推定 6.4.意味の理解 7.通信機能 8.マルチウィンドウ・システム
【0060】
【作用】本発明の音声インタフェース・ビルダ・システ
ムでは、ユーザがアプリケーションを開発しながら、必
要に応じてそのアプリケーションシステムの任意の部分
に音声を用いたインタフェース機能を簡単な編集操作で
付与することが出来るようになる。すなわち、マウスな
どのポインティングツールを用いて、メニューに示され
ている様々な音声インタフェース機能の中から任意の機
能を選択しアプリケーションシステムの任意の部分に結
び付けたり、パラメータ値を設定し、その結果をコンパ
イルすることにより、容易に音声インタフェース機能を
付与することができる。
【0061】これにより、音声注釈や効果音の付与機能
のみならず、音声認識や音声合成、音声対話機能を持つ
音声インタフェースをユーザが自由に設計し、ダイナミ
ックに処理を行う処理手順そのものとしてのアプリケー
ションの中に、その処理手順の一部として音声インタフ
ェース機能を上に実現できる手段を提供することができ
る。
【0062】
【実施例】以下、図を用いて本発明の実施例を説明す
る。図1は、本発明の一実施例の構成図を示す。
【0063】図1に示す装置は、文字及び図形、画像な
どを表示する文字図形画像表示手段101と、この文字
図形画像表示手段101の画面を複数の部分領域(ウィ
ンドウ)に分割し、各ウィンドウを独立した表示手段と
して動作させ、かつ、各ウィンドウにはプルダウンメニ
ュウや、スイッチ、ボタン、ダイアログボックス、エン
トリボックスなどのグラフィック・ユーザ・インタフェ
ース(GUI)機能を動作せるマルチウィンドウ表示処
理手段102と、このマルチウインドウ表示処理手段1
02の画面における位置を入力する画面位置入力手段1
03と、文字を入力する文字入力手段104と、これら
の入力手段から入力されたデータをマルチウィンドウ表
示処理手段102経由で文字図形画像表示手段101に
表示しながらユーザのアプリケーション・システムの作
成を行なう情報処理手段105と、その情報処理に使用
する各種データ及びアプリケーション・システムを記憶
する情報処理用記憶手段106を備えている。
【0064】また、マイクロフォン131や電話器13
0、VTR134、CD、CVD(図示せず)などの音
声入力手段からの入力を選択する音声入力手段選択手段
108と、この音声入力手段選択手段108からのアナ
ログ音声信号を増幅し、周波数フィルタリングする入力
用フィルタリング手段109と、その入力用フィルタリ
ング手段109の出力信号をサンプリングし、ディジタ
ル量に変換するディジタル符号化手段114と、ディジ
タル量で表現された音声信号からアナログ音声信号に変
換する復号化手段115(各種の音声合成装置/方式を
含む)と、その復号化手段115の出力信号を増幅し、
周波数フィルタリングする出力用フィルタリング手段1
11と、スピーカ132や電話器(図示せず)などの音
声出力手段を選択する音声出力手段選択手段110と、
ディジタル量で表現された音声信号等を記憶する音声処
理用記憶手段118と、音声の入出力の制御と音声情報
処理を行なう音声処理手段119と、音声処理の条件を
記憶する音声処理条件記憶手段121と、アナログ音声
信号を増幅し、周波数フィルタリングする入力用フィル
タリング手段109の出力信号を分析して音声の大き
さ、有音・無音の判定結果を一定間隔で出力する有音無
音判定手段120と、複数の音声データの管理情報を記
憶する音声データ管理情報記憶手段127と、情報処理
手段105から音声処理用記憶手段118へのアクセス
と音声処理手段119から音声処理用記憶手段118へ
のアクセスの競合を防止するメモリアクセス競合防止手
段123、音声処理手段119へのアクセス手段12
4、音声処理手段119から情報処理手段119へのア
クセス手段125とからなるインタフェース部122
と、音声処理用記憶手段118内に音声再生条件を記憶
する音声再生条件記憶手段135を備えている。
【0065】また、各手段はデータ及びアドレス、コン
トロールラインからなる主バス128または音声バス1
29によって結合されている。なお、音声処理を行なう
手段をまとめて音声処理系136と呼ぶこととする。ま
た、情報処理手段105と音声処理手段119は一般の
マイクロプロセッサで構成されているものとする。
【0066】なお、音声情報を符号化したり、時間軸を
伸縮させたり、音質や音色を変換したり、文字列から抑
揚の付与された音声に変換したり、特定話者や不特定話
者の音声を認識して単語コードや文字列に変換したり、
話者認識や話者の音声の特徴を学習して適応的に認識し
たり、環境雑音を処理する、いわゆる音声処理の具体的
処理手法や、音声に関係の不快各種の自然言語処理につ
いては多くの公知例があり、製品も既に幾つも実現さ
れ、当業者に取って実現手法はあきらかであり、また本
発明の対象そのものでもなく、かえって煩雑になるので
記載を省くこととする。これらの処理は音声処理手段1
19の中で本実施例ではソフトウェアに拠り実現する。
もちろん各々専用ハードウェアで実施しても良い。
【0067】マルチウィンドウ表示処理手段102は、
文字図形画像表示101からなる実端末の画面より大き
な論理画面を持つ仮想的な端末と実端末の画面に表示さ
れるウィンドウを対応付けて制御することによって、マ
ルチウィンドウを実現する。具体的には、マルチウィン
ドウ表示処理手段102は、情報処理手段105の命令
によって仮想端末を生成し、論理的な仮想画面を編集す
る。そして、仮想画面の一部を視野として切り出し、実
端末である文字図形画像表示手段101の画面に窓(ウ
ィンドウ)として表示する。さらに、実端末の画面上で
のウィンドウの移動、大きさ変更、仮想平面上の視野移
動等の機能を持ち、仮想端末に対する操作者の前記表示
手段の画面における位置を入力する画面位置入力手段1
03(マウス等)あるいは文字を入力する文字入力手段
104(キーボード等)からの入力を情報処理手段10
5に渡す。情報処理手段105からは、仮想画面の構
成、大きさを自由に設定可能であり、文字、図形、画像
を混在させて表示させ、複数のウィンドウを同時に表示
させることが可能である。これらのマルチウィンドウ表
示処理やグラフィック・ユーザ・インタフェース(GU
I)機能についても、既に商品として一般に広く実現さ
れており、ここで改めてその細部を記述する必要はない
であろう。
【0068】以上に述べた本発明の一実施例にかかるシ
ステムにおいて、ユーザがアプリケーションを開発しな
がら、必要に応じてそのアプリケーションシステムの任
意の部分に音声を用いたインタフェース機能を簡単な編
集操作で付与する手段について以下詳細に説明する。以
下の実施例では、アプリケーション・プログラムの処理
手順をいわゆる構造化プログラミングの記述に向いたP
ADで記述しソースプログラムを自動生成するシステム
を用いて説明するが、プログラム処理手順の記述はフロ
ーチャート等の場合も同様である。なお、PADで記述
しソースプログラムを自動生成するシステムの例として
は日立製作所のワークステーション2050のSEWB
等があり、実用化されているので、ここではその内容の
説明は行わない(日立製作所 日立クリエイティブワー
クステーション マニュアル2050−3−608−1
0等参照)。ただし、以下では説明を簡単にするため上
記のマニュアルの仕様とは多少異なり、簡略化してい
る。
【0069】図2はPADを用いてプログラムを開発し
ている状態を示す文字図形画像表示手段101の画面の
一例を示す。編集領域201にアプリケーション・プロ
グラムの処理手順202の例の様に、シンボル領域20
3からPADシンボルをマウスで選択し編集しプログラ
ムを作成していく。次のPADシンボルを付加する位置
204は自動的に黒い領域で表示される。自動表示され
ているPADシンボル付加位置204での処理がない場
合は、操作領域205の削除コマンド206をマウスで
クリックすることにより次の位置にPADシンボル付加
位置204は移動する。後から追加する場合は挿入コマ
ンド207と挿入位置をクリックすることによりPAD
シンボル付加位置204が移動する。処理内容208は
PADの標準仕様にしたがって付加されたシンボルの中
に記述していく。
【0070】音声インタフェース機能は本実施例では図
3以下に説明するように、PADシンボルを付加するの
と同じような手順で行う。
【0071】図3に於いて、操作領域205の制御コマ
ンド301をクリックすると制御プルダウンメニュー3
02が現れる。メニューから音声IB(インタフェース
ビルダ)303を選択すると音声IB用カスケードメニ
ュー304が現れる。音声IB用カスケードメニュー3
04から環境設定メニュー305以外の音声機能メニュ
ーを選択クリックすると図6の例のようにPADシンボ
ル付加位置204に選択された音声機能が付加される。
【0072】環境設定メニュー305を選択すると、図
4に示すように音声の入出力条件を設定するための音声
入出力条件ダイアログボックス401が表示される。音
声入出力条件設定ダイアログボックス401には入出力
のサンプリング周波数や折り返し雑音防止等に用いる低
域フィルタや帯域フィルタの特性を指定するデータエン
トリボックスが用意されている。これらの値は予め音声
インタフェースビルダシステムでデフォルト値を与えて
おくと便利である。また、装置の側で固定されている場
合は指定できないよう薄い色で固定値を表示しておくと
よい。更に低域フィルタや帯域フィルタの帯域の上限側
の特性(H)の指定は折り返し雑音防止のためにサンプ
リング周波数の半分の値より高い値を指定できないよう
にしておくと良い。これらの音声入出力条件は一度指定
すると再指定するまで各音声機能に共通に働く様に構成
した。
【0073】また、環境設定メニュー305には、図が
煩雑になるため記載を省略しているが、使用する機器
(CD、VTR、CVDなど)の選択を行う項目なども
用意した。これらの各項目は対応する機器を接続してい
るハードウェアの論理番号等の設定も可能なように構成
されている。
【0074】なお、アプリケーションが実行中に音声の
入出力を中断させたい場合の処理については、実行中に
エスケープ・キーをおすことによって実現するよう、そ
の機能が本インタフェースのコンパイル時に自動的に組
み込まれるよう構成した。
【0075】(音声出力)次に図5以下を用いて音声出
力機能を組み込む場合を説明する。音声出力メニュー5
01を選択すると、PADシンボル付加位置204に図
6に示すように選択された音声機能(音声出力)が付加
されるとともに、図7に示すように音声出力機能選択ダ
イアログボックス701が表示される。音声出力機能選
択ダイアログボックス701には音声出力方式選択メニ
ューが表示される。
【0076】(既登録音再生出力)音声出力機能選択ダ
イアログボックス701から、図8に示すように「ライ
ブラリ」メニュー801を選択すると、ライブラリ選択
ダイアログボックス802が表示される。ライブラリ選
択ダイアログボックス802から例えば「挨拶 2」8
03を選択すると804の様にPAD図の所定の位置に
出力内容「挨拶 2」が表示される。ライブラリ選択ダ
イアログボックス802の「試聴」ボタン805をクリ
ックすると「挨拶 2」の音声を聞いて内容を確認でき
る(音声機能が付加されている装置でプログラム開発を
行っている場合に確認できる。音声機能がない場合は
「試聴」ボタン805は薄く表示され、クリックしても
機能しないように構成する)。出力内容が確定した場合
は出力内容確定「OK」ボタン806を、出力方式を変
更したい場合は「キャンセル」ボタン807をクリック
する。「キャンセル」ボタン807をクリックした場合
は図7の音声出力機能選択状態に戻り、出力内容確定
「OK」ボタン806をクリックした場合は図2のPA
Dによるプログラム作成状態に戻る。
【0077】図7において、図9の様に「ユーザ登録」
メニュー901を選択すると、ユーザ登録ダイアログボ
ックス902が表示される。既に登録されたものから選
択する場合はユーザ登録リストから選択すれば良い。選
択したものは「試聴」ボタン904をクリックすること
により聞くことができる(音声機能が付加されている装
置でプログラム開発を行っている場合に確認できる。音
声機能がない場合は「試聴」ボタン904は薄く表示さ
れ、クリックしても機能しないように構成する)。出力
方式を変更したい場合は「キャンセル」ボタン905を
クリックする。「キャンセル」ボタン905をクリック
した場合は図7の音声出力機能選択状態に戻り、出力内
容確定「OK」ボタン906をクリックした場合は図2
のPADによるプログラム作成状態に戻る。この視聴機
能は、他の音声出力方式を選択した場合も、同様に付与
する。以下、それらの場合についても同様なので、それ
ぞれでは詳しい説明は繰り返さない。
【0078】新規に登録する場合は「新規登録」メニュ
ー903をクリックすると新規登録ダイアログボックス
907が表示される。「標題」エントリボックス908
に例えば「ルート音」のような標題をに書き込む。次に
「開始」ボタン909をクリックし音響信号を外部より
取り込む。「終了」ボタン910をクリックすると取り
込みが終了する。「試聴」ボタン911をクリックする
と、取り込んだ音を聞くことができる(音声機能が付加
されている装置でプログラム開発を行っている場合。音
声機能がない場合は「試聴」ボタン911は薄く表示さ
れ、クリックしても機能しないように構成する)。登録
が確定した場合は登録内容確定「OK」ボタン912を
クリックすると、新規登録ダイアログボックス907は
消え、ユーザ登録ダイアログボックス902のユーザ登
録リストに新たに登録した標題が対か表示される。な
お、ユーザが登録したものもライブラリに合わせて表
示、選択できるように構成しても良い。
【0079】(録音再生)つぎに、アプリケーション・
プログラムが実行中に音声を録音したり再生する出力機
能の付加について説明する。
【0080】再び、図5の状態から説明しよう。図5の
状態で「録音・再生」メニューを選択すると、図10の
様な状態になり、録音か再生の機能を選択するためのカ
スケード・メニュー1001が表示される。「録音」を
選択すると、図11のように録音終了条件設定ダイアロ
グボックス1101が表示される。
【0081】録音開始は、アプリケーション・プログラ
ムが実行中にこの部分を起動した時点からとする。この
部分の前に録音開始可能なことを示す表示か音声出力を
行うようアプリケーション・プログラムを構成しておけ
ば良い。
【0082】録音終了条件としては、録音時間(=メモ
リ容量)か、音声休止時間一定以上か、キーボード等外
部からの信号によるかを選択し、録音時間(=メモリ容
量)か、音声休止時間の場合はそれぞれ判定条件の時間
等を設定する。音声休止状態の判定は雑音レベルと入力
との関係で行うのが普通である。これらの値は予め音声
インタフェースビルダシステムでデフォルト値を与えて
おくと便利である。録音終了条件の指定は、音声認識等
の音声入力機能や音声アノテーションの機能でも必要で
あり、同様に行うので、それぞれの項での説明は詳しく
は繰り返さない。
【0083】更に録音された音響信号のファイルに名前
を設定し、「OK」ボタンをクリックするとPADに録
音処理1102が付加される。ファイル名はアプリケー
ション・プログラム実行中に外部から指定できる様にも
構成されている。例えばファイル名の代わりに「”#0
01”−3」などと外部からの入力装置番号とその装置
からの何番目の入力かを指定する。具体的方法はベース
となるプログラム開発手順および処理手順(ここではP
ADにおけるもの)と同じようにしておく方がユーザに
とって便利であり、それに合わせて規定することは当業
者には容易である。
【0084】アプリケーション・プログラムが実行さ
れ、この状態になると、設定されていた条件にしたがっ
て録音入力が実行可能になる。
【0085】録音されているものを再生する場合は、図
12の様に再生条件設定ダイアログボックス1201に
条件を設定することによりPADに再生処理機能120
2が付加される。再生すべきファイル名も設定する。こ
こでも、ファイル名はアプリケーション・プログラム実
行中に外部から指定できる様にも構成されている。再生
条件の開始時間とは、この処理の状態になってから再生
が開始されるまでの時間遅れの指定を意味する。この値
も予め音声インタフェースビルダシステムでデフォルト
値を与えておくと便利である。また、図面が煩雑になる
ので記載を省略してあるが、再生速度の変更や、声質変
換の指定も再生条件設定の中に組み込んでいる。これら
の機能は次の規則合成出力機能にも用意したが、同様の
内容なので重複を避け、記述を省略する。
【0086】アプリケーション・プログラムが実行さ
れ、この状態になると、再生条件設定ダイアログボック
ス1201の条件にしたがって、指定された録音済みの
音声の再生が実行される。
【0087】音声出力のタイミング等の指定は、他の音
声出力方式選択の場合も必要であるが、同様に実現すれ
ば良いので詳しい説明は以下繰り返さない。
【0088】(規則合成出力)次に規則合成機能につい
て説明する。音声出力機能選択ダイアログボックス70
1から図13に示すように、「規則合成」メニュー13
01を選択すると、図14に示すように、合成出力すべ
き文章の入っているファイルを指定するファイル指定ダ
イアログボックス1401が表示され、PADに規則合
成機能1302(図13参照)が付加される。
【0089】ここで例えばファイル名を1402の様に
入力するとPADにファイル名が1403の様に表示さ
れる。そして、別途図15の様にあらかじめ作られてい
る文章ファイルが、図16の1601に示すように表示
され、同じ画面に再生範囲指定ダイアログボックス16
02が表示される。再生範囲指定ダイアログボックス1
602は全文を音声合成出力するのか、指定範囲を出力
するのかを選択できる。指定範囲の出力を選択した場
合、選択範囲の始点1603と終了点1604をマウス
等のポインティングデバイスで指定する。指定の順序は
どちらからでも良く、はさまれた範囲が出力の対象とな
る。指定位置を偶数個指定することにより、文頭より二
つづつの対で、対の数だけ複数個所の指定が可能であ
る。
【0090】再生範囲の指定を終了した時点でオプショ
ン1402を指定し、OKボタン1406をクリックす
ると、図17に示すように、オプションダイアログボッ
クス1701が表示される。合成音声の音色を女声2、
発声速度を標準等と指定しOKボタン1702をクリッ
クすると規則合成機能の付加が終了する。
【0091】煩雑になるため図17には記載を省略して
あるが、字種(漢字ひらがなや英数字など)や記号(カ
ッコなど)により声質を変えるよう指定できるように構
成した。また、図面が煩雑になるので表示を省略した
が、アプリケーション・システムが音声出力動作に入る
前に、事前に音声を合成しておき、出力までの応答時間
を短くするための指定や、出力の大きさを指定が出来る
ように構成している。
【0092】なおオプションの標準条件(デフォルト)
として予めシステムで男声1、発声速度標準等を決めて
おくことにより、オプション1405の指定を省略でき
るようにしておくと便利である。また、オプション14
05を指定した場合以降変更するまで指定条件を標準条
件に置き換えることも効果的である。また、オプション
条件を複数種指定できるようにし、それのどれかを選択
できる形式も便利である(オプションダイアログボック
スを複数個用意し、おのおのに異なった番号を付け、指
定のない場合は最初の番号とする等)。
【0093】規則合成に用いる単語辞書の追加機能やア
クセントの付与については、後述の音声理解の項の語彙
登録の部分と同様に行うので、その項で合わせて説明す
る。
【0094】なお、漢字仮名混じり文などからなる文章
の漢字などに読みを付与し、発音記号に変換したり、音
韻情報、アクセント、イントネーション、音韻などの時
間構造を求め合成器への合成制御信号を生成し、音声に
変換する等の処理は音声合成部で行うものであり、その
方法自体は様々な方法が既に実用化されており、また、
それ自体は本発明の対象ではなく、説明が煩雑になるの
でここでは記述を省略する。
【0095】(概念合成)次に概念合成機能について説
明する。この機能は、意味や概念を記述する方法、例え
ばリレーショナルデータベース(RDB)のような形式
で表現されている情報を、文章の形式に変換し、音声で
出力するものである。
【0096】音声出力機能選択ダイアログボックス70
1から図18に示すように、「概念合成」メニュー18
01を選択すると、PADに規則合成機能1802が付
加され、図19に示すように、合成出力すべき情報の入
っているファイルを指定するファイル指定ダイアログボ
ックス1901が表示される。
【0097】ここで例えばファイル名を1902の様に
入力すると、PADにファイル名が1903の様に表示
され、この例の場合は「天気予報」の文章が生成され、
合成出力可能となる。
【0098】リレーショナルデータベース(RDB)は
良く知られている技術で、データベース言語SQLとし
て国際規格ISO9075−1987や日本規格JIS
X3005−1987,アメリカ規格ANSI x.
3.135−1986等として規定されたものが在る。
例えば簡単な例で、この「天気予報」を示すと、図20
の様になる。
【0099】この「天気予報」の例で、文章を生成する
簡単な方法の例としては、「XX地方、午前中はXX、
午後はXX、夜はXXとなりましょう。」という枠組み
の中に順次RDBで示されている情報を埋め込んで行け
ば文章が生成できる。例えば、「北海道地方、午前中は
晴れ、午後は曇り、夜は雪となりましょう」という文章
が図20の表から生成される。
【0100】文章が生成されれば、そのあとの処理は規
則合成と同様に処理可能となる。もちろん、枠組みとな
る文章構造の情報等を積極的に利用すれば、規則合成の
場合必要な文章構造解析の処理は不要となり、むしろ精
度が上がる利点も在り、その性質を積極的に利用すべき
である。音質条件などについても、規則合成と同様にオ
プション指定1904等で行えば良い。
【0101】なお、様々な情報から文章を生成する技術
については、AI学会誌の1991年に3回にわたって
詳しい解説論文が掲載されており、そこに示されている
様々な手法が対象に応じて利用可能である。
【0102】また、種々の文生成法に必要な語彙の新規
登録については、各語彙の文法情報も必要であり、音声
理解の項での語彙登録と合わせて説明する。
【0103】(音声入力)次に図21以下を用いて音声
入力機能を組み込む場合を説明する。音声入力機能21
01を選択すると、PADシンボル付加位置2201に
図22に示すように選択された音声機能(音声入力)が
付加されるとともに、認識条件設定ダイアロボックス2
202が表示される。煩雑になるので同図にはその総て
を示さなかったが、話者条件、語彙登録法、判定条件
(判定域値レベル)、出力形式(コード形式か文字列
か、第何位までの候補を出すか、結果の確度を併せて出
力するか等)等を選定、又は入力する。これにより、例
えば、この後の各項の語彙登録法は、文字列によるもの
か音声によるものか等が決められる。
【0104】これらの条件の設定を終わり、「OK」ボ
タンをクリックすると図23に示すように音声入力機能
選択ダイアログボックス2301が表示される。音声出
力機能選択ダイアログボックス2301には音声入力方
式選択メニューが表示される。
【0105】(単語認識)図24の音声入力機能選択ダ
イアログボックス2301のメニューから単語認識項目
2401を選択するとPADシンボル付加位置に単語認
識2402と表示され、認識語彙テーブル選択ダイアロ
グボックス2403が出現する。図25に示すように、
認識語彙テーブル選択ダイアログボックス2403から
「語彙テーブル」2501を選択すると、既登録認識語
彙テーブル選択ダイアログボックス2502が表示され
る。この既登録認識語彙テーブル選択ダイアログボック
ス2502に表示されている既登録認識語彙リストから
例えば「#1数字」2502を選択すると、認識語彙テ
ーブル選択ダイアログボックス2403中の選択認識語
彙テーブル名表示領域2504に選択された認識語彙リ
スト「#1数字」が表示されると共に、PADシンボル
付加位置にも認識語彙リスト「#1数字」が表示され
る。選択を確定した場合は、認識語彙テーブル選択確定
「OK」ボタン2506をクリックするとPADへの単
語機能付加が終了し、表示されていた各ダイアログボッ
クス等が消える。
【0106】なお、既登録認識語彙テーブル選択ダイア
ログボックス2502に表示されている既登録認識語彙
リストから例えば「#1数字」2502を選択し、既登
録認識語彙テーブル「削除」ボタン2507をクリック
すると、「#1数字」2502を既登録認識語彙リスト
から削除することも出来る。
【0107】新規に認識語彙リストを登録するする場合
は、図26に示すように、認識語彙テーブル選択ダイア
ログボックス2403の「語彙新規登録」2601を選
択すると、認識語彙テーブル新規登録ダイアログボック
ス2602が表れる。この認識語彙テーブル新規登録ダ
イアログボックス2602には認識語彙テーブル番号入
力領域2603に未使用登録認識語彙リスト番号がデフ
ォルトとして表示されている。認識語彙テーブル名入力
領域2604に新規登録の認識語彙テーブル名をキーボ
ードから入力し、命名する。認識語彙番号入力領域26
05にそのテーブルに登録する語彙の番号を入力する。
初めは#1の値がデフォルト値戸して表示されており、
変更しない場合は特に入力する必要はない。
【0108】次に認識語彙登録入力領域2606に登録
する単語をキーボードで入力する。ここでは不特定話者
方式の例として説明するので、キーボードからの文字列
に従い文字単位の標準パタンの接続で単語の標準パタン
が自動的に作成されるよう構成した。これらは既に当業
者には公知であり、冗長となるのでここでは細かな記載
を省略する。例えば、具体的方法は文字単位の隠れマル
コフモデルを接続して任意の単語の隠れマルコフモデル
を作り出し統計的に認識する手法(HMM法)などを挙
げることが出来る。
【0109】もちろん、認識語彙登録入力領域2606
をボタンとして構成し、このボタンをクリックし、それ
と共に音声を入力、その音声を標準パタンとして登録す
る構成とすることによって特定話者方式とすることも可
能である。
【0110】新らたに語彙を登録すると、それ迄に登録
されている語彙との間で誤認識が生じやすいかどうかを
自動的に判定し、誤認識の可能性が高い場合は、警告2
609等を表示するよう構成した。登録が文字列の場合
は、文字列の一致の度合いで、音声の場合は作成した標
準パタンの間のパタンマッチングの程度で判定すること
が出来る。
【0111】この入力が終了し、認識語彙新規登録「O
K」ボタン2607をクリックすると認識語彙番号入力
領域2605の番号は自動的にインクリメントする。
【0112】既登録の語彙を削除する場合は、認識語彙
テーブル番号入力領域2603と認識語彙番号入力領域
2605に削除する単語の番号等を入力し、認識語彙
「削除」ボタン2608をクリックすることにより実現
されるよう構成した。
【0113】(文章認識)図24の音声入力機能選択ダ
イアログボックス2301のメニューから、図27に示
すように文章認識項目2701を選択すると、PADシ
ンボル付加位置に文章認識2702と表示され、文章認
識対象文リスト選択ダイアログボックス2703が出現
する。
【0114】図28に示すように、文章認識対象文リス
ト選択ダイアログボックス2703から「登録済み」2
801選択すると、既登録文章認識対象文リスト選択ダ
イアログボックス2802が表示される。この既登録文
章認識対象文リスト選択ダイアログボックス2802に
表示されている既登録文章認識対象文リストリストから
例えば「#1挨拶文」2803を選択すると、文章認識
対象文リスト選択ダイアログボックス2703の選択文
章認識対象文リスト名表示領域2804に選択された文
章認識対象文リスト「#1挨拶文」が表示されると共
に、PADシンボル付加位置にも文章認識対象文リスト
「#1挨拶文」が表示される。選択を確定した場合は、
文章認識対象文リスト選択確定「OK」ボタン2806
をクリックするとPADへの単語機能付加が終了し、表
示されていた各ダイアログボックス等が消える。
【0115】なお、既登録文章認識対象文リスト選択ダ
イアログボックス2802に表示されている既登録文章
認識対象文リストから例えば「#1挨拶文」2803を
選択し、既登録文章認識対象文リストの「削除」ボタン
2807をクリックすると、「#1挨拶文」2803を
既登録認識語彙リストから削除することも出来る。
【0116】新規に文章認識対象文リストを登録する場
合は、図29に示すように、文章認識対象文リスト選択
ダイアログボックス2703の「新規登録」2901を
選択すると、図30に示すように、文章構造定義領域3
001が表れる。
【0117】文章構造定義領域3001には、予め文章
始点ノード3002が表示されている。以下、文章構造
の定義の手順の例を説明する。
【0118】右側の選択ボックスから中間ノード指定メ
ニュー項目3003をクリックし、3004と示す位置
をクリックすると、この位置に中間ノードが表示され
る。次に文章始点ノード3002と中間ノード3004
を順にクリックするとアークで両者がつながれ、そこに
語彙群番号、例えば「#1」3009が表示される。ア
ークの向きを逆にしたい場合は、そのアークをクリック
後、右側の選択ボックスのアーク方向逆転指示メニュー
項目3012をクリックすると、矢印が逆になり、アー
クの方向が逆向きに定義される。文章の終わりを示す語
群には、中間ノードの代わりに、終端ノード指定メニュ
ー項目3005を用いれば良い。例えば、3007や3
006等に示したようにする。この例では、文章は30
06でも、3007でも終了が可能なことを示してい
る。
【0119】定義した部分を取り消す場合は、取り消し
たい部分をクリックし、引き続いて、操作「取消し」ボ
タン3010をクリックすれば良い。
【0120】このようにしてネットワーク構造で定義さ
れた文章は、システムの内部ではリスト構造で表現され
る。このような変換や、処理は現在の計算機システムで
は容易に実現されているものであり、ここで改めて説明
するまでもなかろう。
【0121】各アークの語彙群の内容を定義するために
は、そのアークをクリックし、選択ボックス内の語彙群
指定メニュー項目3008をクリックすると、語彙定義
ダイアログボックス3013が表れる。定義済みの単語
リストの後に語彙登録入力領域3014が表示される。
定義の仕方などは前述の単語認識における定義の場合な
どと同様である。これらには、語彙登録入力「取消し」
ボタン3015や、語彙登録入力終了「OK」ボタン3
016、既登録語彙「削除」ボタン3017等を用いれ
ば良い。
【0122】文章構造定義領域3001には文章リスト
番号入力領域3019があり、デフォルトとして新規登
録の新しい番号が示されている。既登録のものを修正す
る場合は、ここの番号を修正したい番号に変更すること
によって、その登録済みの文章構造が表示される。これ
により、修正、削除が可能である。文章リスト名入力領
域3020には、適当な文章リスト名を入力しておく
と、後の利用に便利である。
【0123】(音声理解)図24の音声入力機能選択ダ
イアログボックス2301のメニューから、図31に示
すように音声理解項目3101を選択すると、PADシ
ンボル付加位置に音声理解3102と表示され、音声理
解対象文リスト選択ダイアログボックス3103が出現
する。前述の文章認識の場合と異なる部分は重要語彙の
定義とそれらの語彙の意味的関係を記述する部分であ
る。
【0124】登録済のものを選択する手順や削除する手
順は、前述の文章認識の場合と同様なのでここではその
記述を省略する。
【0125】登録済のものを修正する場合、および新規
登録の場合も、前述の文章認識の場合と共通の手順を含
む。異なる部分は、語彙の定義とそれらの語彙の意味的
関係を記述する部分である。
【0126】先ず、語彙の意味的関係が既に定義されて
いて、それを修正する場合から説明し、次に、語彙の意
味的関係を定義する手順を説明後、重要語とその意味的
関係を関係付ける手順を説明する。
【0127】音声理解対象文リスト選択ダイアログボッ
クス3103から登録済みの項目を選択すると、図32
に示すように登録済み音声理解対象文処理ダイアログボ
ックス3201が表れる。ここで、登録済み音声理解対
象文用意味ネットワーク(対象アプリケーションの世界
の情報を示す)修正指示項目3202を選択すると、登
録済み音声理解対象文用意味ネットワーク選択ダイアロ
グボックス3203が表れる。ここから修正したい意味
ネットワーク、例えば「#1製品案内」3204を選択
すると、図33に示すように音声理解対象文用意味ネッ
トワーク構造定義領域3301が表れ、その中に「#1
製品案内」3204に関する意味ネットワークが表示さ
れる。ここには音声理解対象文用意味ネットワーク作成
メニュー項目3303も表示され、これを用いて意味ネ
ットワークを作成したり、修正を行う。意味ネットワー
クは、一般関係と具体関係とで概念間が関係付けられて
おり、具体関係については、図面が煩雑になるので省略
して簡単に書いてあるが、実際には「開発」「所在地」
「出発地」等概念間の関係を示す多数の項目を別途リス
トにして示し、それを選択出きるように構成した。
(尚、意味ネットワークに関しては、「概念ネットワー
クを用いた大語彙単語音声認識」電子情報通信学会論文
誌D−II Vol.J72−D−II No.8 pp.
1270−1275 1989.8などに詳しい。) 新規に意味ネットワークを登録する場合は、音声理解対
象文用意味ネットワーク構造定義領域3301には何も
ネットワークは示されておらず、新に音声理解対象文用
意味ネットワーク作成メニュー項目3303を用いて定
義していけば良い。
【0128】図34に意味ネットワークの例を示す。概
念関係定義領域3401と事実関係定義領域3402か
らなり、概念関係定義領域3401の意味ネットワーク
はいわば汎用の辞書に相当し、事実関係定義領域340
2はアプリケーションで使用者が用いる具体的意味関係
を定義する領域である。事実関係定義領域3402は複
数個用意する個とが出きるよう構成した。概念関係定義
領域3401の意味ネットワークは、使用頻度の高いも
のについては、予めデフォルトとして幾つか用意してお
くと良い。この場合は図32の「コピー」項目を選択
し、表れた登録済み音声理解対象文用意味ネットワーク
選択ダイアログボックス3203からコピーしたい意味
ネットワーク、例えば「#1製品案内」3204を選択
し、登録済み音声理解対象文用意味ネットワークの修正
の手順で登録することになる。
【0129】次に、語彙群が重要語の場合の意味関係の
指定方法を図30を用いて説明する。語彙定義ダイアロ
グボックス3013を用いて語彙を定義する時に、その
語彙群が重要な語である場合、重要語彙群指定領域30
18をクリックして入力音声を理解する上でキーワード
となるべきものであることを指定する。キーワード以外
の語は重要語の指定を行わない。
【0130】キーワードとなるべきものであることを指
定すると図34のような意味ネットワークが表れる。こ
こで、たとえば、「東京」をクリックすると#2の語彙
群は事実関係定義領域3402を介して電機メーカの所
在地としての意味付けがなされ、重要語彙群指定領域3
018には「電機メーカ所在地」と表示が変更される。
【0131】このように定義された文章を対象として入
力音声を認識した場合、入力音声に例えば「大阪」とい
うキーワードが認識されると、この「大阪」はある電機
メーカの所在地の意味で発声されたと理解し、図35の
ようにPADには理解結果が「電機メーカ所在地」であ
ることがわかるように表示される。キーワード以外の認
識された言葉の認識結果は無視される。これにより、キ
ーワードさえ含んでいれば発声者はかなり自由で自然に
発声することが出来る。このプログラムが実行されると
電機メーカ所在地と解釈されて、そのプログラムの中で
利用されることになる。
【0132】なお、先に述べた規則合成や概念合成の処
理に用いる語彙の新規登録も、音声理解の場合とほぼ同
様の手順で行う。その場合、単に文字列と重要度だけで
なく、その語のアクセント型や文法的情報(品詞や格関
係など)を合わせて入力するようフォーマットを構成し
ている点が異なり、それにとも内それらの情報を入力す
る手順が加わるが全体としての手順は音声理解の場合と
ほぼ同じであるのでここではその詳細までを記載する必
要はないであろう。
【0133】(対話理解)対話理解は、以上に説明して
きた音声理解と音声出力を利用してPADを用いてアプ
リケーション・プログラムを作るように任意の対話の流
れを構成し、それを一つのサブルーチンの様に構成した
ものを予め用意し、それを利用すれば良い。図36に示
すように「対話理解」の項3601を選択し、音声理解
と同じように、登録されている対話理解の種類のリスト
から必要なものを選択して、アプリケーション・プログ
ラムに3602のごとくつけ加える。この結果、例え
ば、図37に示すように、対話理解の結果が得られる。
この例ではアプリケーション・プログラムが実行される
と、対話の結果、電機メーカとその所在地の情報が得ら
れることとなる。
【0134】(話者認識)図38に示すように、音声I
B用カスケードメニューから「話者認識」を選択する
と、PADシンボル付加位置204に「話者認識」と表
示され、話者認識機能を付加する状態になる。
【0135】本実施例での話者認識は、特定話者の単語
認識の機能を利用するが、文章音声などを利用する方
法、それらの内容が予め決まっているものや、内容をと
わない方式の使用も当然ある。また、複数個の単語を用
いる方法もある。これらの機能を用意し、そのいずれか
を選択できるよう構成することも当然可能である。これ
らもメニューで選択できるように構成した(図は省
略)。選択を行わない場合は、単語を用いることをデフ
ォルトとして定義しておく。なお、ここではインタフェ
ースこの構成を問題にしているのであって、話者認識方
法自体を対象とするものではないので、その方法につい
ては記述を省く。
【0136】出力としては、その確度も併せて出力でき
るオプションを選択できるよう構成した。例えば、確度
が非常に高い場合は「1」を、全く可能性が無い場合は
「0」年、その程度により、その間の値を出力させる。
【0137】また、本実施例では、特定話者の単語認識
と同じ手順で機能を付加するので、ここでは説明を繰り
返さない。両者の違いは、予めシステム内部に設定して
ある認識判定閾値を単語認識より厳しく設定しておき、
同じ単語を発声しても、話者が異なるとリジェクトする
ように構成されている点、及び出力が認識単語を示して
いるのではなく、発声者を示していると解釈する点であ
る。これにより、登録単語の内容が一種の暗証コードと
なっていると共に、話者の違いも判定するので認識性能
を高く実現することが可能になる。
【0138】(電話)次に、図39以下を用いて通信機
能を利用する場合を説明する。まず最初に電話機能につ
いて述べる。制御プルダウンメニュー302から電話の
項目を選択すると、電話機能選択メニューボックス39
01が現れる。
【0139】電話発信する場合は、電話宛先選択メニュ
ー3902から相手を選択する事によって相手のアドレ
ス等が発信される。なお、図は煩雑となるので省略して
あるが名前と対で相手のアドレスを併せて表示してもも
ちろん良い。あるいは相手のアドレスを表示させる選択
項目を設けても良い。
【0140】表示の範囲に相手の名前が無い場合は
「次」ボタン3905をクリックすると、登録されてい
る次の数名の名前が表示される。登録されていない相手
に発信する場合は、新たに登録してから実行する方法
と、「宛先」をクリックしキーボードなどから直接相手
のアドレス等を入力し発信する場合がある。これらの選
択機能はマウスによるクリックの他に、既に説明した音
声機能自体を用いて音声で行ったり、あるいはキーボー
ドでも行えるよう構成しておくと便利である。この様な
機能は次に述べる音声メールでも同様であるばかりでな
く、他の機能の場合にもあてはまることは言うまでもな
い。
【0141】新たに登録する場合は、「宛先設定」項目
を選択し、新規宛先設定領域3904に相手の名前とア
ドレスなどを入力し、「OK」ボタンをクリックするこ
とにより実現される。
【0142】登録済の者を削除するのは、「削除」ボタ
ンをクリックしてから削除したい名前をクリックする。
【0143】電話の到着は、通常の電話のように呼び出
し音により通知されるので、本実施例では電話機能選択
メニューボックス3901の図には書いていないが、画
面に着信を知らせる表示や相手の情報を知らせる表示を
用意するとより便利である。
【0144】(音声メール)制御プルダウンメニュー3
02から音声メールの項目を選択すると、図40に示す
ように音声メール機能選択メニューボックス4002が
現れる。
【0145】音声メールを発信する場合や相手先の登
録、削除等は、電話発信と同様の手順としたので、ここ
ではその説明を省略する。
【0146】音声メールが到着している場合は、図には
省略してあるが、その旨を電話の場合と同様画面に表示
すると便利である。着信メール件数、メール標題、発信
者、等を表示するかどうかの選択も出来るように構成し
た。また、新規に到着した場合は直ちにその旨表示する
かどうかの選択も出来るようにした。
【0147】音声メールが到着している場合、制御プル
ダウンメニュー302から音声メールの項目を選択する
と、到着音声メール表示4007が表れる。表示されて
いる名前をクリックすると、その音声メールがマイクよ
り出力される。また、図が煩雑になるので、その表示を
省略しているが、各音声メールの先頭部分のみ出力して
聞くモードや、出力後そのメールを消去するか保存する
かを指定するオプション・ボタンも用意している。例え
ば、先頭部分のみ出力して聞くモードについては類似の
構成を後述の音声メモの項に示してある。
【0148】音声メールを発信する場合は発信の前に音
声メールを作成しておくと便利である。このために、
「編集」機能4003を選択し、図41に示すような編
集画面4101を表示し、操作領域4101により操作
をしながら音声メールを作成する。編集画面4101に
は音声の存在を示すバー4102が表示される。バーと
バーの間は音声の間の休止区間を示す。音声を入力した
り挿入するのには「挿入」を選択し、入力や挿入したい
位置、例えば4107などをクリックすると音声入力の
ための操作領域4105が現れる。「開始」をクリック
すると音声入力動作が始まり、「終了」をクリックする
と入力が終了する。「挿入」の他に「入力」を設けると
更に判り易いが、ここでは図面が煩雑になるので兼用形
式で説明した。
【0149】「消去」、「移動」、「複写」等をクリツ
クし、音声の存在を示すバーをクリックすると、その音
声に対しその操作がなされる。なお、「移動」の場合は
移動先の休止区間を指示することが必要である。又「試
聴」を選択すると編集されたメールを聞くことが出来
る。この場合聞きたい範囲を指示する機能も付けておく
と便利である。編集を集利用する場合は「OK」をクリ
ックする。
【0150】(音声メモ)次に音声メモ機能について説
明しする。図42に文書処理をしている状態を示す。
【0151】文書ファイル名称入力領域4201に対応
する文書が文書表示領域4202に示されており、この
任意の場所に音声でメモを付ける場合を例に説明する。
図43に示すように、操作領域の「音声メモ」コマンド
4301をクリックすると音声メモ関係機能プルダウン
・メニュー4302が表れる。
【0152】例えば位置4304に音声メモを付与した
い場合、音声メモ位置指定機能コマンド4303をクリ
ックし音声メモ位置表示4304をクリックすると、音
声メモ位置が4304の位置に表示されると共に、メモ
の入力が可能となる。
【0153】音声メモ内容を編集したい場合は、図44
に示すように、音声メモ編集機能コマンド項目4401
をクリックし、編集したい音声メモの位置表示をクリッ
クすると、音声メモ編集領域4402が表示される。音
声メモの編集は音声メールの場合と同様に行うよう構成
したので、ここでの説明は省略する。
【0154】記録済の音声メモを読む場合は、読みたい
音声メモの位置表示をクリックすれば良い。また、面内
の全ての音声メモや、ある範囲内の音声メモを連続的に
読み出したり、各音声メモの先頭だけを順次連続的に読
み出したりすることも音声メモ関係機能プルダウン・メ
ニュー4302内のコマンドを選択することによって可
能となる。範囲内の音声メモを連続的に読み出す場合
は、「指定範囲再生」をクリックし、先頭と最後の位置
表示をクリックすれば良い。
【0155】なお、読み出し中の音声メモの位置表示を
ブリンキング等させるよう構成し、何処のメモを出力し
ているか一目でわかるよう構成した。
【0156】音声メモの条件の設定は図45に示すよう
に、音声メモ条件設定機能コマンド4501をクリック
することにより、音声メモ条件設定ウィンドウ4502
を表示させ、必要な条件を入力すれば良い。標準的条件
は予めデフォルト値として設定しておくと便利である。
また、図面が狭いため図には記載を省略してあるが、メ
モ音声の最大長や、各音声メモの頭の部分を読みだす場
合の読み出し長さと間隔の置き方等も設定できるように
しておくと便利である。更に、音声メモを付ける文章そ
のものを処理する場合、音声メモの位置表示が目ざわり
になり、作業の望外にならないように、表示を見えなく
する(マスクする)機能を用意した。また、編集作業に
伴い自動的に音声メモの位置及び表示が移動するように
構成した。これは画面上の文字など文書構成要素の一番
位置的に近いものを検出し、それに付随して移動させる
ことによって容易に実現される。
【0157】実施例の説明の最初の部分で説明したよう
に、この実施例では、構造化プログラミングの記述法で
あるPADによりアプリケーシヨン・システムを記述
し、そのPADによる記述からソースプログラムを自動
的に生成する方式に本発明を組み合わせて実現した。そ
の手順の概要を図46に示す。すなわち、本発明の音声
インタフェース・ビルダの機能を、PADによるアプリ
ケーシヨン・システム記述法に組み込んだものとして構
成し、そのPAD記述システムを起動し、それを用いて
アプリケーシヨン・システムを記述し、その結果をC言
語のソースプログラムに変換生成する。この手順の例と
しては日立製作所のワークステーション2050のSE
WB等があり、実用化されているので、ここではその内
容の説明は行わない(日立製作所 日立クリエイティブ
ワークステーション マニュアル2050−3−608
−10等参照)。
【0158】図47はこのシステムから本発明の音声イ
ンタフェース・ビルダを呼び出す手順を示すPAD図で
ある。この手順に従い音声インタフェース・ビルダを呼
び出すと、更に個別の音声機能をアプリケーシヨン・シ
ステムに設定すのに用いる項目の選択が可能となる。こ
の手順を図48にPAD図として示す。以下同様に各個
別の機能ごとに上記の各項目でに述べた手順に従って処
理を実現できるよう構成することにより実現される。
【0159】
【発明の効果】本発明の音声インタフェース・ビルダー
・システムでは、ユーザがアプリケーションを開発しな
がら、必要に応じてそのアプリケーションシステムの任
意の部分に音声を用いたインタフェース機能を簡単な編
集操作で付与することが出来るようになった。すなわ
ち、マウスなどのポインティングツールを用いて、メニ
ューに示されている様々な音声インタフェース機能の中
から任意の機能を選択しアプリケーションシステムの任
意の部分に結び付けたり、パラメータ値を設定し、その
結果をコンパイルすることにより、容易に音声インタフ
ェース機能を付与することができた。
【0160】これにより、音声注釈や効果音の付与機能
のみならず、音声認識や音声合成、音声対話機能を持つ
音声インタフェースをユーザが自由に設計し、ダイナミ
ックに処理を行う処理手順そのものとしてのアプリケー
ションの中に、その処理手順の一部として音声インタフ
ェース機能を上に実現できる手段を提供することができ
た。
【図面の簡単な説明】
【図1】本発明の一実施例を説明する構成図である。
【図2】PADを用いたプログラム開発状態を説明する
ための画面を示す図である。
【図3】PADを用いた音声インタフェース機能付加手
順を説明するための画面を示す図である。
【図4】音声インタフェース機能の共通入出力環境条件
設定手順を説明するための画面を示す図である。
【図5】音声出力機能の種類選択手順を説明するための
第1の画面を示す図である。
【図6】音声出力機能の種類選択手順を説明するための
第2の画面を示す図である。
【図7】音声出力機能の種類選択手順を説明するための
第3の画面を示す図である。
【図8】ライブラリ利用音声の出力機能の設定手順を説
明するための画面を示す図である。
【図9】ライブラリにユーザが音声を登録する手順を説
明するための画面を示す図である。
【図10】録音再生機能の設定手順を説明するための画
面を示す図である。
【図11】録音条件の設定手順を説明するための画面を
示す図である。
【図12】再生条件の設定手順を説明するための画面を
示す図である。
【図13】音声規則合成の機能設定手順を説明するため
の画面を示す図である。
【図14】音声規則合成すべき文書ファイル指定手順を
説明するための画面を示す図である。
【図15】音声規則合成すべき文書ファイルの一例を説
明するための画面を示す図である。
【図16】文書ファイルの音声出力範囲指定手順を説明
するための画面を示す図である。
【図17】音声規則合成の出力音声の声質を指定する手
順を説明するための画面を示す図である。
【図18】音声概念合成の機能設定手順を説明するため
の画面を示す図である。
【図19】音声概念合成すべきデータベース指定手順を
説明するための画面を示す図である。
【図20】音声概念合成すべきデータベースの一例を説
明するための画面を示す図である。
【図21】音声入力機能の種類選択手順を説明するため
の第1の画面を示す図である。
【図22】音声入力機能の種類選択手順を説明するため
の第2の画面を示す図である。
【図23】音声入力機能の種類選択手順を説明するため
の第3の画面を示す図である。
【図24】単語認識機能の設定手順を説明するための画
面を示す図である。
【図25】単語認識の登録済み対象語彙の選択手順を説
明するための画面を示す図である。
【図26】単語認識の新規対象語彙の登録手順を説明す
るための画面を示す図である。
【図27】文章認識機能の設定手順を説明するための画
面を示す図である。
【図28】文章認識の登録済み対象文リストの選択手順
を説明するための画面を示す図である。
【図29】文章認識の新規対象文リストの登録手順を説
明するための画面を示す図である。
【図30】文章認識の新規対象文リストの文型及び語彙
の登録手順を説明するための画面を示す図である。
【図31】音声理解機能の設定手順を説明するための画
面を示す図である。
【図32】音声理解機能の出力指定PADを説明するた
めの画面を示す図である。
【図33】意味ネットワークの定義手順を説明するため
の図である。
【図34】意味ネットワークの例を説明するための図で
ある。
【図35】音声理解の出力結果の表示を説明するための
画面を示す図である。
【図36】対話理解機能の設定手順を説明するための画
面を示す図である。
【図37】対話理解の出力結果の表示を説明するための
画面を示す図である。
【図38】話者認識機能の設定手順を説明するための画
面を示す図である。
【図39】電話機能の手順を説明するための画面を示す
図である。
【図40】音声メールの手順を説明するための画面を示
す図である。
【図41】音声メールの音声編集手順を説明するための
画面を示す図である。
【図42】文書システムの画面を説明するための図であ
る。
【図43】音声メモ機能の設定手順を説明するための画
面を示す図である。
【図44】音声メモの音声編集機能を説明するための画
面を示す図である。
【図45】音声メモの条件設定機能を説明するための画
面を示す図である。
【図46】本発明の利用手順を説明するPAD図であ
る。
【図47】本発明の処理を起動する手順のPAD図であ
る。
【図48】本発明の各機能を設定する手順を説明するP
AD図である。
【符号の説明】
101…文字図形画像表示手段、102…マルチウィン
ドウ表示処理手段、103…画面位置入力手段、104
…文字入力手段、105…情報処理手段、106…情報
処理用記憶手段、108…音声入力手段選択手段、10
9…入力用フィルタリング手段、110…音声出力手段
選択手段、111…出力用フィルタリング手段、114
…デジタル符号化手段、115…複合化手段、118…
音声処理用記憶手段、119…音声処理手段、120…
有音無音判定手段、121…音声処理条件記憶手段、1
22…インタフェース部、123…メモリアクセス競合
防止手段、124…音声処理手段アクセス手段、125
…情報処理手段アクセス手段、127…音声データ管理
情報記憶手段、130…電話器、131…マイクロフォ
ン、132…スピーカ、134…VTR、135…音声
再生条件記憶手段、136…音声処理系、201…編集
領域、202…アプリケーション・プログラムの処理手
順の表示例、203…シンボル領域、204…PADシ
ンボル付加位置、205…操作領域、206…削除コマ
ンド、207…挿入コマンド、208…処理内容、30
1…制御コマンド、302…制御プルダウンメニュー、
303…音声IBメニュー、304…音声IB用カスケ
ードメニュー、305…環境設定メニュー、401…音
声入出力条件設定ダイアログボックス、501…音声出
力メニュー、701…音声出力機能選択ダイアログボッ
クス、801…ライブラリメニュー、802…ライブラ
リ選択ダイアログボックス、805…「試聴」ボタン、
806…出力内容確定「OK」ボタン、807…出力方
式変更用「キャンセル」ボタン、902…ユーザ登録ダ
イアログボックス、903…「新規登録」メニュー、9
04…「試聴」ボタン、905…「キャンセル」ボタ
ン、906…出力内容確定「OK」ボタン、907…新
規登録ダイアログボックス、908…新規登録「標題」
エントリボックス、909…新規登録「開始」ボタン、
910…新規登録「終了」ボタン、911…新規登録
「試聴」ボタン、912…新規登録内容確定「OK」ボ
タン、1001…「録音・再生」選択カスケード・メニ
ュー、1101…録音終了条件設定ダイアログボック
ス、1201…再生条件設定ダイアログボックス、13
01…「規則合成」メニュー、1302…規則合成機能
PAD表示、1401…文章ファイル指定ダイアログボ
ックス、1402…文章ファイル名入力領域、1403
…文章ファイル名PAD表示、1601…文章ファイル
表示ウィンドウ、1602…再生範囲指定ダイアログボ
ックス、1603…選択範囲始点、1604…選択範囲
終了点、1701…オプションダイアログボックス、1
702…OKボタン、1801…「概念合成」メニュ
ー、1802…規則合成機能PAD表示、1901…デ
ータファイル指定ダイアログボックス、1902…デー
タファイル名入力領域、1903…ファイル名PAD表
示、2101…音声入力メニュー、2301…音声入力
機能選択ダイアログボックス、2403…認識語彙テー
ブル選択ダイアログボックス、2404…認識語彙テー
ブル選択確定「OK」ボタン、2502…既登録認識語
彙テーブル選択ダイアログボックス、2504…選択認
識語彙テーブル名表示領域、2506…認識語彙テーブ
ル選択、2507…既登録認識語彙テーブル「削除」ボ
タン、2602…認識語彙テーブル新規登録ダイアログ
ボックス、2603…認識語彙テーブル番号入力領域、
2604…認識語彙テーブル名入力領域、2605…認
識語彙番号入力領域、2606…認識語彙登録入力領
域、2607…認識語彙新規登録「OK」ボタン、26
08…認識語彙「削除」ボタン、2703…文章認識対
象文リスト選択ダイアログボックス、2704…文章認
識対象文リスト選択確定「OK」ボタン、2802…既
登録文章認識対象文リスト選択ダイアログボックス、2
804…選択文章認識対象文リスト名表示領域、300
1…文章構造定義領域、3002…文章始点ノード、3
003…中間ノード指定メニュー項目、3005…終端
ノード指定メニュー項目、3008…語彙群指定メニュ
ー項目、3010…操作「取消し」ボタン、3011…
文章構造定義終了「OK」ボタン、3012…アーク方
向逆転指示メニュー項目、3013…語彙定義ダイアロ
グボックス、3014…語彙登録入力領域、3015…
語彙登録入力「取消し」ボタン、3016…語彙登録入
力終了「OK」ボタン、3017…既登録語彙「削除」
ボタン、3018…重要語彙群指定領域、3019…文
章リスト番号入力領域、3020…文章リスト名入力領
域、3103…音声理解対象文リスト選択ダイアログボ
ックス、3104…音声理解対象文リスト選択確定「O
K」ボタン、3201…登録済み音声理解対象文処理ダ
イアログボックス、3202…登録済み音声理解対象文
用意味ネットワーク修正指示項目、3203…登録済み
音声理解対象文用意味ネットワーク選択ダイアログボッ
クス、3301…音声理解対象文用意味ネットワーク構
造定義領域、3302…音声理解対象文用意味ネットワ
ーク名入力領域、3303…音声理解対象文用意味ネッ
トワーク作成メニュー項目、3401…概念関係定義領
域、3402…事実関係定義領域、3901…電話機能
選択メニューボックス、3902…電話宛先選択メニュ
ー、3904…新規宛先登録領域、4002…音声メー
ル機能選択メニューボックス、4003…音声メール編
集項目、4004…音声メール条件設定項目、4007
…到着音声メール表示、4201…文書ファイル名称入
力領域、4202…文書表示領域、4301…「音声メ
モ」コマンド、4302…音声メモ関係機能プルダウン
・メニュー、4303…音声メモ位置指定機能コマン
ド、4304…音声メモ位置表示、4401…音声メモ
編集機能コマンド、4402…音声メモ編集領域、45
01…音声メモ条件設定機能コマンド、4502…音声
メモ条件設定ウィンドウ、4504…音声メモ条件設定
OKボタン。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−44060(JP,A) 特開 平3−228125(JP,A) 特開 平4−170638(JP,A) 特開 平4−245374(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 3/16 G06F 3/00 G06F 9/06 G10L 13/00 - 19/00

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】音声処理のためのメニューとして、音声出
    力を行うためのライブラリ選択機能、ライブラリ登録機
    能、効果音合成機能、規則合成機能、及び概念合成機能
    を表示し、音声入力を行うためのメニューとして単語認
    識機能、文章認識機能、音声理解機能、対話理解機能を
    表示し、話者認識を行うための話者認識機能を表示し、
    録音再生のための録音再生機能を表示し、環境設定のた
    めの入出力条件を表示し、前記各機能の複数の操作内容
    を視覚的に表示する表示手段と、 表示されたメニューの中から必要な音声機能を選択指示
    し、表示された複数の操作内容の中から必要な操作を選
    択指示する入力手段と、 選択指示された音声機能及び操作に応じて、音声処理を
    行うアプリケーション・プログラムを作成する情報処理
    手段と、 を備えたことを特徴とする音声インタフェース・ビルダ
    ・システム。
  2. 【請求項2】前記情報処理手段は、前記表示手段及び前
    記入力手段を用いて対話的にアプリケーションプログラ
    ムをプログラミングする構造化プログラミング手段と、
    所定の言語を用いてソースプログラムを変換生成する手
    段と、該変換生成したソースプログラムをコンパイルす
    る手段を備えたことを特徴とする請求項1記載の音声イ
    ンタフェース・ビルダ・システム。
  3. 【請求項3】 プルダウン・メニュー、スイッチ、ボタ
    ン、ダイアログボックス、エントリボックスなどのグラ
    フィックス・インタフェース(GUI)を用い、音声処
    理メニューとして、音声出力を行うためのライブラリ選
    択機能、ライブラリ登録機能、効果音合成機能、規則合
    成機能、及び概念合成機能を表示し、音声入力を行うた
    めのメニューとして単語認識機能、文章認識機能、音声
    理解機能、対話理解機能を表示し、話者認識を行うため
    の話者認識機能を表示し、録音再生のための録音再生機
    能を表示し、環境設定のための入出力条件を表示し、前
    記各機能の複数の操作内容を文字および図形にて視覚的
    に表示する文字図形画像表示手段と、 該文字図形画像表示手段の画面を複数の部分領域(ウィ
    ンドウ)に分割し、ウィンドウを独立して動作させるマ
    ルチウィンドウ表示処理手段と、 前記文字図形画像表示手段のウィンドウ中に表示された
    メニューの中から必要な機能を選択指示し、表示された
    前記各機能の複数の操作内容から必要な操作を選択指示
    するための画像位置入力手段と、 選択指示された機能及び操作に応じて、パラメータ値を
    設定し、その結果をコンパイルして音声処理を行うアプ
    リケーション・プログラムを作成する情報処理手段と、
    を備えたことを特徴とする音声インタフェース・ビルダ
    ・システム。
  4. 【請求項4】 さらに音声入力手段と、該音声入力手段か
    らのアナログ音声信号を増幅し、周波数フィルタリング
    する入力用フィルタリング手段と、該入力用フィルタリ
    ング手段の出力信号をサンプリングしディジタル量に変
    換するディジタル符号化手段と、ディジタル量で表され
    ている音声信号をアナログ音声信号に変換する復号化手
    段と、該復号化手段の出力信号を増幅し、周波数フィル
    タリングする出力用フィルタリング手段と、該出力用フ
    ィルタリング手段の出力信号を出力する音声出力手段
    と、前記ディジタル符号化手段の出力信号を認識する音
    声認識手段と、文字を入力するための文字入力手段から
    の出力信号を音声に変換する音声合成手段と、前記ディ
    ジタル符号化手段の出力信号を記憶する音声処理用記憶
    手段と、該音声処理用記憶手段に記憶された音声信号と
    前記文字図形画像表示手段で表示されたデータとを対応
    付ける音声アノテーション(音声注釈)手段とを備え、 前記文字入力手段若しくは前記画像位置入力手段からの
    信号を解析して前記ウィンドウや前記音声機能を選択
    し、前記文字入力手段若しくは前記画像位置入力手段か
    らの信号を解析することにより音声合成機能の付加要求
    か、音声認識機能の付加要求か、話者認識機能の付加要
    求か、音声メール機能の付加要求か、アノテーション機
    能の付加要求かを判断し、 音声合成機能の付加要求であった場合は、前記音声合成
    手段を起動し、音声合成機能の設定条件の設定/変更メ
    ニューと、音声合成機能が付加されていることと、音声
    合成機能の設定条件の設定/変更が可能であることを前
    記文字図形画像表示装置に表示し、 音声認識機能の付加要求であった場合は、前記音声認識
    手段、あるいは前記音声認識手段と前記音声合成手段を
    起動し、音声認識機能の設定条件の設定/変更メニュー
    と、音声認識機能が付加されていることと、音声認識機
    能の設定条件の設定/変更が可能であることを前記文字
    図形画像表示手段に表示し、 話者認識機能の付加要求であった場合は、前記音声認識
    手段を起動し、話者認識機能の設定条件の設定/変更メ
    ニューと、話者認識機能が付加されていることと、話者
    認識機能の設定条件の設定/変更が可能であることを前
    記文字図形画像表示手段に表示し、 音声メール機能の付加要求であった場合は、前記音声合
    成手段を起動し、音声メール機能の設定条件の設定/変
    更メニューと、音声メール機能が付加されていること
    と、音声メール機能の設定条件の設定/変更が可能であ
    ることを前記文字図形画像表示手段に表示し、 音声アノテーション機能の付加要求であった場合は、前
    記音声アノテーション手段を起動し、音声アノテーショ
    ン機能の設定条件の設定/変更メニューと、音声アノテ
    ーション機能が付加されていることと、音声アノテーシ
    ョン機能の設定条件の設定/変更が可能であることを前
    記文字図形画像表示手段に表示する、ことを特徴とする
    請求項3記載の音声インタフェース・ビルダ・システ
    ム。
JP30674592A 1992-11-17 1992-11-17 音声インタフェース・ビルダ・システム Expired - Fee Related JP3279684B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30674592A JP3279684B2 (ja) 1992-11-17 1992-11-17 音声インタフェース・ビルダ・システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30674592A JP3279684B2 (ja) 1992-11-17 1992-11-17 音声インタフェース・ビルダ・システム

Publications (2)

Publication Number Publication Date
JPH06161704A JPH06161704A (ja) 1994-06-10
JP3279684B2 true JP3279684B2 (ja) 2002-04-30

Family

ID=17960803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30674592A Expired - Fee Related JP3279684B2 (ja) 1992-11-17 1992-11-17 音声インタフェース・ビルダ・システム

Country Status (1)

Country Link
JP (1) JP3279684B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412391B2 (en) 2004-11-26 2008-08-12 Canon Kabushiki Kaisha User interface design apparatus and method

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3727960B2 (ja) * 1994-09-14 2005-12-21 キヤノン株式会社 情報処理方法及び装置
GB9602431D0 (en) * 1996-02-07 1996-04-03 Philips Electronics Nv Interactive audio entertainment apparatus
US6199043B1 (en) 1997-06-24 2001-03-06 International Business Machines Corporation Conversation management in speech recognition interfaces
US6671745B1 (en) * 1998-03-23 2003-12-30 Microsoft Corporation Application program interfaces and structures in a resource limited operating system
KR20020068442A (ko) * 2001-02-21 2002-08-27 홍상필 음성제어구동 교육 컨텐츠 및 솔루션
JP2004246610A (ja) 2003-02-13 2004-09-02 Canon Inc 情報提供交換サービスシステム
CN101185115B (zh) 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
JP2006349787A (ja) * 2005-06-14 2006-12-28 Hitachi Information & Control Solutions Ltd 音声合成方法および装置
JP4891670B2 (ja) * 2006-06-29 2012-03-07 ピーアンドダブリューソリューションズ株式会社 パラメータの入力を受け付ける方法
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置
US20090150817A1 (en) * 2007-12-06 2009-06-11 Ati Technologies Ulc Method and Apparatus Utilizing Profiles to Reduce Software Complexity
JP5765874B2 (ja) * 2008-10-09 2015-08-19 アルパイン株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP6856498B2 (ja) * 2017-11-15 2021-04-07 株式会社東芝 支援システム、支援方法、プログラム、及び記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412391B2 (en) 2004-11-26 2008-08-12 Canon Kabushiki Kaisha User interface design apparatus and method

Also Published As

Publication number Publication date
JPH06161704A (ja) 1994-06-10

Similar Documents

Publication Publication Date Title
Arons Hyperspeech: Navigating in speech-only hypermedia
US5526407A (en) Method and apparatus for managing information
JP4651613B2 (ja) マルチメディアおよびテキストエディタを用いた音声起動メッセージ入力方法および装置
US5151998A (en) sound editing system using control line for altering specified characteristic of adjacent segment of the stored waveform
JP3279684B2 (ja) 音声インタフェース・ビルダ・システム
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
JP3725566B2 (ja) 音声認識インターフェース
US20040006481A1 (en) Fast transcription of speech
KR20060051151A (ko) 텍스트를 음성으로 변환하기 위한 시스템 및 방법
WO2007132690A1 (ja) 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JPH09185879A (ja) レコーディング・インデクシング方法
JPH05216618A (ja) 音声対話システム
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
JP2003255979A (ja) データ編集方法、データ編集装置、データ編集プログラム
JP4741406B2 (ja) ノンリニア編集装置およびそのプログラム
US11049490B2 (en) Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
JP3437617B2 (ja) 時系列データ記録再生装置
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
JP3936351B2 (ja) 音声応答サービス装置
JP2005215888A (ja) テキスト文の表示装置
JP2000081897A (ja) 音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置
JPH0549998B2 (ja)
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP3884970B2 (ja) 情報処理装置および情報処理方法
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees