JPH04233598A

JPH04233598A - テキスト−音声変換装置

Info

Publication number: JPH04233598A
Application number: JP3178982A
Authority: JP
Inventors: Joan C Bachenko; ジョアン　シィ　バチェンコ
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1990-06-28
Filing date: 1991-06-25
Publication date: 1992-08-21
Anticipated expiration: 2017-09-09
Also published as: EP0465058A3; EP0465058B1; DE69131549T2; CA2043667A1; DE69131549D1; EP0465058A2; JP3323519B2; CA2043667C; US5157759A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自由形成されたテキスト
の音声合成に係り、特に音声障害（聴覚障害又は言語障
害）を持つ人によって作成された自由形式テキストの音
声合成に関する。

【０００２】

【従来の技術】デュアルパーティ中継サービス（Ｄｕａ
ｌ　Ｐａｒｔｙ　Ｒｅｌａｙ　Ｓｅｒｖｉｃｅ）は音声
障害者とそのような障害を持たない人とのコミュニケー
ションを可能にするサービスである。ある番号をダイヤ
ルすることで、音声障害者はアテンダント（付き添い人
）と接続され、アテンダントが発呼者を被呼者に接続し
、会話を中継する。

【０００３】また、音声障害者からの入力呼は、ＴＤＤ
（Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｄｅｖｉｃｅ
　ｆｏｒ　ｔｈｅ　Ｄｅａｆ：聴覚障害者のための通信
装置）又はコンピュータ端末及びモデムのようなデジタ
ル装置を通して入力される。音声障害者がＴＤＤ（及び
同様の装置）を通してテキストを入力し、そのテキスト
が受信されアテンダントに表示される。別の接続を介し
て、アテンダントは表示されたテキスト語を非障害者側
へ発声して伝え、逆に非障害者側の発声された応答を聞
き、文字テキストメッセージで音声障害者側へ伝達する
。その文字テキストメッセージを音声障害者側は表示装
置で受信して読む。

【０００４】しかし、上記手順はプライバシーの点で問
題がある。また会話としてのテンポが遅くなり、めんど
うで、いわば高度に労働集約的である。そこでアテンダ
ントの介入を排除するか又は少なくともその介入を軽減
することが利用者にとっても電話会社にとっても非常に
有利となる。

【０００５】少なくともテキストから音声への変換は、
アテンダントの助けなしに行うことが可能である。例え
ば、ＡＴ＆Ｔ及びベルオペレーティングカンパニーの「
電話情報（ｔｅｌｅｐｈｏｎｅ　ｉｎｆｏｒｍａｔｉｏ
ｎ）」サービスがある。問い合わせに応答して、その電
話情報オペレータがデータベースにアクセスし、要望さ
れた番号を識別し、合成器を起動させる。しかしながら
、このような既知のテキスト−音声合成器は、「録音さ
れた（ｃａｎｎｅｄ）」音声だけを取り扱い、構文及び
語彙が予め固定されている。

【０００６】ＴＤＤユーザによって作成されたテキスト
を音声合成器へ入力し、その音声合成器によって発声語
を生成させ、音声障害を持たない人へ伝送することは原
理的には可能であるが、実際には容易でない。音声合成
器はテキストをそのまま正確に音声へ変換する。従って
、そのテキストは正確で、誤りがなく、正しく句読点が
付され、標準的な構文を有することが必要である。しか
しながら、聴覚障害者の文書言語（Ｗｒｉｔｔｅｎ　Ｌ
ａｎｇｕａｇｅ）は、望まれる英語（あるいは同様の観
点から他の言語）の構文から逸脱していることが多い。次に示す３つ文章は、異なる作者によって作成された聴
覚障害者の文書言語（ＷＬＤ：Ｗｒｉｔｔｅｎ　Ｌａｎ
ｇｕａｇｅ　ｏｆ　ｔｈｅｄｅａｆ）テキストである。Ｔｈｅｙ　ｔｅｎｄ　ｒｅｆｕｓｉｎｇ　ｔｏ　ｃｏｍ
ｍｕｎｉｃａｔｅ．Ｓｏｍｅ　ｐｅｏｐｌｅ　ｈａｖｅ
　ｓｔｒｏｎｇ　ｂａｓｅｄ　ｏｎ　ｋｎｏｗｌｅｄｇ
ｅｓ．Ｉ　ｈａｖｅ　ｍａｎｙ　ａｐｐｏｉｎｔｍｅｎ
ｔ　ｆｒｏｍ　ｍｙ　ｃｈｉｌｄｒｅｎｓ．

【０００７
】ＷＬＤの研究において、シャロー（Ｖ．Ｒ．Ｃｈａｒ
ｒｏｗ）は、１９７４年スタンフォード大学、社会科学
数理研究所（Ｉｎｓｔｉｔｕｔｅ　ｆｏｒ　Ｍａｔｈｅ
ｍａｔｉｃａｌ　Ｓｔｕｄｉｅｓ　ｉｎ　ｔｈｅ　Ｓｏ
ｃｉａｌ　Ｓｃｉｅｎｃｅ）での聴覚障害者の英語（Ｄ
ｅａｆ　Ｅｎｇｌｉｓｈ）テクニカルレポート２３６で
、ＷＬＤの変化は、体系的であり、規則に支配されてい
ると主張する。彼女は次のように書いている。「聴覚障
害者は、英語のある規則の内在化されたもの（他のもの
ではなく）に基づき、ある場合には英語とは根本的に異
なる規則を有するＡＳＬからの影響を受けつつ、種々の
異なる英語を構成している、と私は考える。これが「聴
覚障害者英語（Ｄｅａｆ　Ｅｎｇｌｉｓｈ）」の仮説で
ある。」

【０００８】ＷＬＤシンタクス試験はシャロー
の主張を支持している。ＷＬＤテキストの文章構成上の
変化は一見ランダムに見えるが、詳しくみると、その変
化が一貫していることが分かる。ＷＬＤは、特定され記
述され得る非標準的特徴の集合である。この結論を逸話
的に証明する次のような事実がある。即ち、標準的な英
語の話者は、ＷＬＤテキストを数多く読むとそのスタイ
ルに通常順応するという事実である。ひどく理解が困難
となるのは、文章が極端に簡潔であったり、語順が例外
的に自由であったり、語彙的選択が曖昧であったりする
場合のみである。

【０００９】

【発明が解決しようとする課題】要するに、デュアルパ
ーティ中継サービスで必要とされるものは、自由に生成
されたテキストを受容し合成する能力である。そして、
ＷＬＤの一貫性はこの言語スタイルのコンピュータによ
る分析が実現可能であることを示唆している。

【００１０】

【課題を解決するための手段】デュアルパーティ中継サ
ービスを強化すべく、本発明は自由形成テキストのテキ
スト−音声合成を提供する。特に、本発明は、自由に生
成された連鎖言語テキストを受容し、その連鎖言語を正
しい強勢及び正しいポーズを入れて合成するテキスト−
音声合成器を提供する。他の要素を組み合わせて、本発
明は、アテンダントを介在させることなく音声障害者に
より生成されたテキストを合成する拡張デュアルパーテ
ィ中継サービスを提供する。この合成は、音声障害社宅
内、地域電話中央局又は指定地域において行うことがで
きる。

【００１１】更に他の要素を組み合わせて、本発明は音
声−テキスト変換器を設けることで音声障害者との完全
自動双方向コミュニケーションを提供する。

【００１２】本発明の原理に従えば、音声障害者により
生成されたテキストをより分かりやすくするには、略語
を解釈し、誤り（スペルミス及び「ノイズ」）を正し、
音声障害者により共通に用いられる特殊用語を翻訳し、
非標準的な言語列又はフレーズを翻訳し、また一般的に
言えばテキストメッセージをより標準的な英語へ変換す
ることが必要である。加えて、ポーズを入れることで更
に分かりやすくなる。

【００１３】本発明の一実施例では、テキストはある決
められた数のワードを同時に分析するプロセッサへ入力
される。予め定義されたルールに基づき、信号は通常の
合成器へ印加され音声信号を生成する。

【００１４】

【実施例】図１は本発明の一実施例を示すブロック構成
図である。ブロック１０はインテリジェント分析器、ブ
ロック２０は合成器である。合成器２０は通常の合成器
であり、例えば「オリーブ−リーバーマン合成器」（オ
リーブ（Ｊ．Ｐ．Ｏｌｉｖｅ）及びリーバーマン（Ｍ．
Ｙ．Ｌｉｂｅｒｍａｎ）、１９８５年、テキスト−音声
…米国聴覚学会誌摘要、補遺１７８，Ｓ６）などである
。その入力２１は特殊命令によってときどき注釈された
テキストである。その出力２２はアナログ音声信号であ
る。

【００１５】インテリジェント分析器１０は、ワード検
出器１１、ワード格納器（ワードストア）１２、１３及
び１４、ルールベースプロセッサ１５から構成されてい
る。テキストはワード検出器１１に入力し、そこでワー
ド又はタームが識別される。一般に、ブランクスペース
、句読点又は行末が語の終わりを示している。句読点は
それ自身タームである。検出されたタームは、シフトレ
ジスタ式に直列接続されたワードストア１２、１３、及
び１４に入力する。図１では説明の都合で３個のワード
ストアだけが示されているが、勿論任意の個数のワード
ストアを用いることができる。各ワードストアに格納さ
れたタームはルールベースプロセッサ１５に入力する。

【００１６】プロセッサ１５の機能は、前記入力したタ
ームを分析し、修正し、構文的に正しい位置に強勢及び
ポーズを組込み、そしてその修正されたタームを合成器
２０に適切な時点で印加する。プロセッサ１５内で実行
されるルールは２つのクラスに分けることができる。即
ち、タームを識別し変化させるルールと関連する文章構
成上の情報を認識するシンタックスルールである。

【００１７】タームを識別し変化させるルールが影響を
与えるものは、略語の認識、ユーザの関係するコミュニ
ティによって使用される特殊な用語の認識、ワードスト
アの個数と等しい数（図１ではその数は３）のワードを
含むフレーズの認識、及びスペルミス、ミスタイプ及び
その他「ノイズ」の認識である。例えば“ＸＸＸＸＸ”
というノイズは共通のものであり、文字（この場合は５
文字）の削除を一般に表している。このようなワード修
正の他に、タームを識別し変化させるルールには、テキ
ストをより正確により分かりやすくするという明確化機
能がある。この機能には、ワード（例えば前置詞）を付
加してテキストをより標準的な英語構文にすることが含
まれる。

【００１８】タームを識別し変化さえるルールが適用さ
れた後、シンタックスルールが適用される。このルール
は、部分的シンタックス制約を加えることで、ポーズが
ワードストアに格納されている任意のワードの前にくる
べきか後にくるべきかを決定する。

【００１９】ポーズに関連して、入力タイミング及び処
理タイミングの問題を検討する必要がある。発話音声の
タイミングは明瞭性にとって非常に重要である。より正
確には、ワード郡の相対タイミングが重要である。タイ
ミングの情報はＴＤＤによって供給されるテキストから
は得られない。テキスト語の到達時間は発話音声の正し
いタイミングとは何等関係ないものである。

【００２０】更にプロセッサ１５内での処理タイミング
はアプリオリ（事前、先験的）には知られない。したが
って、プロセッサ１５の出力信号のタイミングは入力信
号のタイミングに追従しない。また、時間的に密に入力
するテキストは入力バッファを必要とするほどに長い処
理時間を必要とするという状況が生じ得る。また別の状
況では、テキストがスローで入力するためにプロセッサ
１５の処理にかなりの中断が生じる場合もある。いずれ
の状況も合成出力のタイミングの正確さに影響を与える
べきではない。

【００２１】このために、インテリジェント分析器１０
は、ワード検出器１１とワードストア１２との間にＦＩ
ＦＯメモリ１６、プロセッサ１５と合成器２０との間に
ＦＩＦＯメモリ１７をそれぞれ介在させている。ＦＩＦ
Ｏメモリ１６はワード検出器１１及びプロセッサ１５の
制御下で動作する。タームが検出されるとＦＩＦＯメモ
リ１６に格納され、ワードストア１４でタームの処理が
終了するとＦＩＦＯメモリ１６の最古のタームがワード
ストア１２へ入力する。

【００２２】ＦＩＦＯメモリ１７もプロセッサ１５の制
御下にあるが、若干異なったモードで動作する。ターム
がプロセッサ１５によって変更されるとＦＩＦＯメモリ
１７へ送り込まれる。変更されたタームは、プロセッサ
１５が音声におけるポーズが要求されると判断するまで
ＦＩＦＯメモリ１７へ入力され続ける。プロセッサ１５
がその判断をした時点で、ＦＩＦＯメモリ１７に整列さ
れた全てのタームは順番に引き出され、合成器２０へ送
出される。この方法によって、入力語の完全に任意のタ
イミングは自然発話のリズムと一致したタイミングに置
き換えられる。

【００２３】図１に示す構造は、本発明によるインテリ
ジェント分析器−合成器の機能を実行する異なった別個
のハードウエアを意図している。このような分析器−合
成器は、各市内電話中央局や地域局内に設けられ、又は
ある特定サービス（例えば受信者支払の８００番サービ
スや発信者支払の９００番サービス）と結合されても良
い。

【００２４】このようなハードウエアは、１つか又は非
常に少数の集積回路に組込まれた非常に小型の装置で実
現され得る。十分な低価格で実現すれば、図１のインテ
リジェント分析器−合成器は顧客の構内装置に含められ
るであろう。このような装置が図２に図示されており、
電話ネットワークに接続されたサブシステムが顧客の構
内に設けられている。図２のサブシステムは出力パスの
ためのインテリジェント分析器１０および合成器２０を
有し、入力パスのための音声−テキスト変換器３０を有
している。双方のパスとも電話ネットワークに接続され
、そのネットワークを通して加入者（図面左側）は他の
加入者（図面右側）に接続される。

【００２５】音声−テキスト変換器３０は、任意の話者
による無拘束な発話音声を認識し検出するほどの性能に
は達していないが、話者を特定すれば５０００語程度を
認識できるまでトレーニングできるシステムがある。話
者を特定しないシステムもあるが、認識できる語彙は更
に制限される。しかし、このシステムでも有用である。特定の相手（例えば、配偶者）と電話で「話す」時のよ
うな音声障害者がアテンダントの助けをまったく必要と
しない場合もあるからである。

【００２６】インテリジェント分析器−合成器を実施す
るための別のハードウエア形態もある。即ち、図１の構
造が、図１の全ての構成要素、少なくともインテリジェ
ント分析器１０内の全ての要素を統括するプログラム制
御プロセッサで実現されても良い。図３は、図１のハー
ドウエア実施例において実行される処理のフローチャー
トを示す。また、図４は、インテリジェント分析器１０
の全ての要素を統括するプログラム制御プロセッサで実
行される処理のフローチャートを示す。

【００２７】図３におけるステップ１００では、ワード
ストア１２に入力した各タームをデータ構造へ変換する
。即ち、そのタームのスペリング、そのタームが属する
音声部分、そのタームが略語であるかどうか等の関連す
る情報アイテムを生成する。なお、ワードストア１３及
び１４に格納されたタームは既にワードストア１２に格
納されていたものであるから、それらのデータ構造は既
にプロセッサ１５に格納されている。

【００２８】ステップ１００で生成されたデータ構造で
もって、次のステップ１１０はワード調整ルールを適用
する。ワード調整ルールの結果はデータ構造に格納され
る。次に、ステップ１２０において、シンタックスルー
ルが適用され、ポーズフラグ又は非強勢フラグが設定さ
れるべきか否かが決定される。この分析の結果もデータ
構造に格納される。そして、ステップ１３０において、
ワードストア１４の処理されたタームはＦＩＦＯメモリ
１７に格納される。

【００２９】ステップ１４０はＦＩＦＯメモリ１７の出
力を合成器２０へ送出することについての判断を実行す
る。ＦＩＦＯメモリ１７に格納されるたが「前ポーズ」
フラグを含むと判断されると、ＦＩＦＯメモリ１７を空
にして（格納情報は合成器２０へ送出される）、そのタ
ームがＦＩＦＯメモリ１７に格納される。「後ポーズ」
フラグを含むと判断されると、そのタームは最初に格納
され、その格納動作の後でＦＩＦＯメモリ１７は空にさ
れる。いずれのフラグも存在しないときは、そのターム
は単に格納される。いずれにしても、図３に示すように
、次のタームがＦＩＦＯメモリ１６から受信され、即ち
ワードストア１２にロードされ、処理はステップ１００
から続けられる。

【００３０】図４は、本発明によるインテリジェント分
析器がプログラム制御プロセッサによって実現されるプ
ロセスを示す。ステップ２００において、入力テキスト
列をメモリに格納し、入力テキスト列である変数＊ター
ミナル−ストリング＊を設定する。ステップ２１０にお
いて、＊ターミナル−ストリング＊の各タームは次に示
すフィールドを有するデータ構造へ変換される。

【００３１】スペリング＝　　ワードのスペリング、又
はワードの印字フォームであって、句読点等（？！，；
）を除いたもの。ただし、ピリオド（．）は句読点には
含めない。いくつかの共通ＴＤＤ語はピリオドで終わる
からである。

【００３２】カテゴリ＝　　　　ワードの第１文字が数
字（１２３４５６７８９０）ならばＮＵＭをカテゴリと
して返す。そうでないならば、そのタームのカテゴリは
そのタームの辞書的なカテゴリとなる。それは既知の英
語又はＴＤＤ方言語の音声要素（ｐａｒｔ　ｏｆ　ｓｐ
ｅｅｃｈ）に対応する。未知のワードはカテゴリＮＩＬ
に割り当てられる。

【００３３】特殊カテゴリ＝　　音声要素に加えて１以
上のワードクラスに属するタームが存在する。このフィ
ールドはこれら特殊カテゴリを識別している（下記参照
）。

【００３４】先行＝　　　　　　　　＊ターミナル−ス
トリング＊を構成するリスト内の先行ワード（もし存在
すれば）に対するポインタ、存在しなければＮＩＬ。

【００３５】後行＝　　　　　　　　もし存在すれば前
記リスト内の次のワードのポインタ、存在しなければＮ
ＩＬ。

【００３６】前ポーズ＝　　　　最初に空にされ（ＮＩ
Ｌ）、後で合成器により認識される適切な文字列によっ
て埋められる。

【００３７】後ポーズ＝　　　　最初に合成器により認
識される適切な文字列によって埋められ、後で空にされ
る（ＮＩＬ）。

【００３８】非強勢（デストレス）＝　　最初に空にさ
れ（ＮＩＬ）、後でそのワードに対する合成器のデフォ
ールト音声パラメータを変更するために埋められる。

【００３９】句読点＝　　　　　　ワードを終了させる
もの（；，！又は？）を含む。

【００４０】上記構造は単に例示しただけであり、他の
構造も勿論採用できる。

【００４１】上記データ構造の第３フィールドの特殊カ
テゴリは以下の事項からなる。

【００４２】

【００４３】図４において、ステップ２２０は、ステッ
プ２１０で生成されたリストの第１のタームを指し示す
変数＊ファースト−ターム＊を設定する。これは、ター
ムが合成器へ送られる最初のポイントのステージである
。この後に、ステップ２３０は第１のターム（＊ファー
スト−ターム＊によってポイントされる）の「前ポーズ
」フィールドを「真」に設定する。

【００４４】ステップ２４０では、ミススペル及びノイ
ズを識別するためのルールを適用することによって実際
の処理を開始する。ステップ２４０の処理は、スペルチ
ェックの方法が市販されている「ワードパーフェクト」
等の多くのワードプロセッサの方法から借用されたもの
であるという意味で、従来と異なった処理ではない。こ
れらワードプロセッサには、ワードが辞書に存在するか
否か、存在しない場合にはミススペルのタームに最も似
ている正しいスペルのワードはどれかを決定するメカニ
ズムが備わっている。例えば１９９０年６月１４日出願
の米国特許出願（エラー頻度を用いたスペル訂正方法）
に記載されているような最良マッチング手法を採用する
こともできる。テーブルにおいて正しいスペルのワード
が識別されると、ワードのカテゴリはその特殊カテゴリ
と共にそのテーブルから取り出される。

【００４５】続いて、ステップ２５０はワード変更処理
を行う。３語ウインドウを＊ターミナル−ストリング＊
のタームリストに沿ってスライドさせることにより、略
語及び通例用いられない短縮語を取り除き、テキストを
明確化しようとする。即ち、短縮された入力テキストを
正しいフルスペルのワードのテキストに置き換えようと
する。

【００４６】ステップ２５０は、少なくともシンタック
ス分析のために、ある２語及び３語表現を１語として機
能させるように短縮化する変換動作も行う。これらのル
ールはワードリストのワード数を変化させることがある
ために、変数＊ファースト−ターム＊の更新と共に、先
行リスト及び後行リストのスライスがしばしば実行され
る。これらのルールの少数のものは＊ファースト−ター
ム＊に先行するタームも参照する。以下に示す表は、略
語（表１）、通例用いない短縮語（表２）、２語表現（
表３）および３語表現（表４）の例である。

【００４７】

【表１】

【００４８】

【表２】

【００４９】

【表３】

【００５０】

【表４】

【００５１】ステップ２５０において実施されるルール
は、用途によってカスタマイズされ、蓄積された経験に
よって修正されても良い。次に示すのは、このようなル
ールの一例である（適用順に記載される）。

【００５２】ルール１−　　ターム１ターム２ターム３
からなる３語表現もし、（ターム１スペリング＋ターム２スペリング＋タ
ーム３スペリングが＊３語表現＊テーブル（表）に存在
しない（ｉｎ　ｆｏｕｎｄ））ならば、ターム３のスペ
リングを標準スペリングで置き換え（ＲＥＰＬＡＣＥ）
、その新しいスペリングに対するカテゴリ及び特殊カテ
ゴリを再計算し（ＲＥＣＯＮＰＵＴＥ）、ターム１及び
ターム２をタームリストから削除し（ＤＥＬＥＴＥ）、
タームリストを更新する（ＵＰＤＡＴＥ）。

【００５３】ルール２−　　２語表現　　ターム１ター
ム２もし、（ターム１スペリング＋ターム２スペリング
が＊２語表現＊テーブル（表）に存在しない）ならば、
ターム２のスペリングを標準スペリングで置き換え（Ｒ
ＥＰＬＡＣＥ）、その新しいスペリングに対するカテゴ
リ及び特殊カテゴリを再計算し（ＲＥＣＯＮＰＵＴＥ）
、ターム１をタームリストから削除し（ＤＥＬＥＴＥ）
、タームリストを更新する（ＵＰＤＡＴＥ）。

【００５４】ルール３−　　１語略語　　ターム１もし
、ターム１の特殊カテゴリが略語表に存在すれば、ター
ム１のスペリングを標準スペリングで置き換え（ＲＥＰ
ＬＡＣＥ）、その新しいスペリングに対するカテゴリ及
び特殊カテゴリを再計算し（ＲＥＣＯＮＰＵＴＥ）する
。

【００５５】ルール４−　　ターム１ターム２ターム３
（例）の明確化もし、ターム１のカテゴリが「ｎｕｍ」であり、ターム
２のスペリングが「ａｍ」であるならば、ターム１のス
ペリングを「ＡＭ」で置き換える（ＲＥＰＬＡＣＥ）。

【００５６】ステップ２５０に続いて、ステップ２６０
は、選択されたタームの前ポーズ、後ポーズ及びディス
トレスのフィールドに関して韻律の指示を音声合成器へ
付加するフレーズルールを導入することによってその処
理を行う。実行されるルールを次ぎに示す。

【００５７】ルール５−　　ディスコース−キー　　タ
ーム１ターム２ターム３（１）もし、ターム２の特殊カテゴリがｉｎｔｅｒｊｅ
ｃｔｉｏｎ＿１を含み、且つ、もし、ターム１の特殊カ
テゴリがｉｎｔｅｒｊｅｃｔｉｏｎ＿ｍｏｄを含むなら
ばターム１の前ポーズを「真」にセットし（ＳＥＴ）、
ターム２の後ポーズを「真」にセットする（ＳＥＴ）。それ以外のときは、ターム２の前ポーズを「真」にセッ
トし（ＳＥＴ）、ターム２の後ポーズを「真」にセット
する（ＳＥＴ）。（２）もし、ターム２の特殊カテゴリがｉｎｔｅｒｊｅ
ｃｔｉｏｎ＿２を含み、且つ、もし、ターム１の特殊カ
テゴリがｉｎｔｅｒｊｅｃｔｉｏｎ＿ｍｏｄを含むなら
ばターム１の前ポーズを「真」にセットし（ＳＥＴ）、
ターム２の後ポーズを「真」にセットする（ＳＥＴ）。（３）もし、（ターム１の先行フィールドがＮＵＬＬで
、ターム１の特殊カテゴリがｉｎｔｅｒｊｅｃｔｉｏｎ
＿１又はｉｎｔｅｒｊｅｃｔｉｏｎ＿２のいずれかを含
む）ならば、ターム１の後ポーズを「真」にセットする
（ＳＥＴ）。

【００５８】ルール６−　　接続詞　　ターム１ターム
２ターム３もし、ターム２の特殊カテゴリがｏｕｔｏｆ＿ａｎｄ＿
ｏｒ＿ｎｏｒを含み、且つ、もし、ターム１のスペリン
グがターム３のスペリングと一致しないか、又はターム
１のカテゴリがターム３のカテゴリと一致しないならば
ターム１の後ポーズを「真」にセットする（ＳＥＴ）。

【００５９】ルール７−　　主格代名詞（ｎｏｍｉｎａ
ｔｉｖｅ−ｐｒｏｎｏｕｎ）　　ターム１ターム２ター
ム３（１）もし、ターム３の特殊カテゴリがｎｏｍ＿ｐ
ｒｏｎｏｕｎ（主格代名詞）を含み、　　　　　　　　
　　　　　　　　且つ、ターム２の特殊カテゴリがａｕ
ｘ＿ｖｅｒｂ．１（助動詞１）を含　　　　　　　　　
　　　　　　　み、且つ、もし、ターム１のカテゴリが
ＷＨならば、ターム１の前ポーズを「真」にセットし（
ＳＥＴ）、それ以外では、ターム２の前ポーズを「真」
にセットする（ＳＥＴ）。（２）もし、ターム３の特殊カテゴリがｎｏｍ＿ｐｒｏ
ｎｏｕｎを含み、且つ、（ターム　　　　　　　　　　
　　　　　　２の特殊カテゴリがｐｒｅ＿ｎｐ＿１を含
むか、又はターム２のカテゴ　　　　　　　　　　　　
　　　　リ＝ＡＤＶ）ならば、且つ、もし、（ターム１
のカテゴリがＣＯＮＪ又はＰＲＥＰと等しくない（ＤＯ
ＥＳ　　ＮＯＴ）、且つ、ターム１スペリングが「ｔｈ
ａｔ’ｓ」「ｔｈａｔｓ」「ｉｔ’ｓ」「ｉｔｓ」を含
まない（ＤＯＥＳ　　ＮＯＴ）ならば、ターム２の前ポ
ーズを「真」にセットする（ＳＥＴ）。（３）もし、ターム２の特殊カテゴリがｎｏｍ＿ｐｒｏ
ｎｏｕｎを含み、且つ、もし、ターム１のカテゴリがＣ
ＯＮＪ又はＰＲＥＰと等しくない（ＤＯＥＳＮＯＴ）、
且つ、ターム１の特殊カテゴリが（ｓｕｂｏｒｄ＿１又
はｓｕｂｏｒｄ＿２又はｐｒｅ＿ｎｐ＿１又はａｕｘ＿
ｖｅｒｂ＿１）を含まない（ＤＯＥＳ　　ＮＯＴ）なら
ば、ターム２の前ポーズを「真」にセットする（ＳＥＴ
）。

【００６０】ルール８−　　ｔｈｅｒｅ−ｉｓ　　ター
ム１ターム２ターム３（１）もし、ターム３のワードスペリングが「ｔｈｅｒ
ｅ」であり、且つターム２　　　　　　　　　　　　　
　　　の特殊カテゴリがａｕｘ＿ｖｅｒｂ＿１を含むな
らば、且つ、もし、ターム１のカテゴリ＝ＷＨならば、
ターム１の前ポーズを「真」にセットする（ＳＥＴ）。（２）もし、ターム２のワードスペリングが「ｔｈｅｒ
ｅｓ」「ｔｈｅｒｅ’ｓ」「ｔｈａｔ’ｓ」「ｔｈａｔ
ｓ」又は「ｔｈｅｒｅ」であり、且つ、ターム３の特殊
カテ　　　　　　　　　　　　　　　　ゴリがａｕｘ＿
ｖｅｒｂ＿１を含むならば、且つ、もし、ターム１のカ
テゴリがＣＯＮＪ又はＰＲＥＰに等しくない（ＤＯＥＳ
　　ＮＯＴ）、又はターム１の特殊カテゴリがｓｕｂｏ
ｒｄ＿１、ｓｕｂｏｒｄ＿２又はｐｒｅ＿ｎｐ＿１を含
まない（ＤＯＥＳ　　ＮＯＴ）ならば、ターム２の前ポ
ーズを「真」にセットする（ＳＥＴ）。

【００６１】ルール９−　　従属接続詞（Ｓｕｂｏｒｄ
ｉｎａｔｉｎｇ−ｃｏｎｊ）　　ターム１ターム２ター
ム３（１）もし、ターム３の特殊カテゴリがｓｕｂｏｒ
ｄ＿１を含み、もし、ターム２のカテゴリがＮＵＭに等
しくなく（ＤＯＥＳＮＯＴ）、且つ、ターム３のスペリ
ングが「ｔｉｌｌ」、「ｔｉｌ」又は「ｕｎｔｉｌ」に
等しくなく（ＤＯＥＳ　　ＮＯＴ）もし、ターム２の特
殊カテゴリがｓｕｂｏｒｄ＿ｍｏｄを含み、又は（ＯＲ
）ターム２のカテゴリがＣＯＮＪに等しいならば、ター
ム１の後ポーズを「真」にセットし（ＳＥＴ）、それ以
外は、ターム２の後ポーズを「真」にセットする（ＳＥ
Ｔ）。（２）もし、ターム３の特殊カテゴリがｓｕｂｏｒｄ＿
２及びｓｕｂｏｒｄ＿ｍｏｄを含み、又はターム２のカ
テゴリがＣＯＮＪ又はＰＲＥＰと等しいならばターム１
の後ポーズを「真」にセットする（ＳＥＴ）。

【００６２】ルール１０−　　ファイナル−デストレス
　　ターム１ターム２もし、ターム１の特殊カテゴリがｄｅｓｔｒｅｓｓ＿ｐ
ｒｏｎｏｕｎｓ（非強勢代名詞）であり　　　　　　　
　　　（１）もし、ターム２の前ポーズが「真」ならば
、ターム１のデストレスを「しん」にセットし（ＳＥＴ
）（２）もし、ターム１の後ポーズが「真」ならば、ター
ム１のデストレスを「しん」にセットする（ＳＥＴ）。

【００６３】ルール１１−　　ファインド−ｇａ　　タ
ーム１（１）もし、ターム１の特殊カテゴリがｑ＿ｇｏ＿ａｈ
ｅａｄを含むならば、（ａ）ターム１のスペリングを「
ｇｏ　ａｈｅａｄ」へ置き換え（ＲＥＰＬＡＣＥ）、タ
ーム１の特殊カテゴリを０にセットし（ＳＥＴ）、（ｂ
）もし、ターム１の前がヌルでない（ＩＳ　　ＮＯＴ）
ならば、ターム１前の句読点を「？」にセットする（Ｓ
ＥＴ）。（２）もし、ターム１の特殊カテゴリがｇｏ＿ａｈｅａ
ｄ＿２を含むならば、ターム１のスペリングを「．ｇｏ
　ａｈｅａｄ」へ置き換え（ＲＥＰＬＡＣＥ）、ターム
１の特殊カテゴリを０にセットする（ＳＥＴ）。（３）もし、ターム１の特殊カテゴリがｇｏ＿ａｈｅａ
ｄ＿１を含むならば、ターム１のスペリングを「．ｇｏ
　ａｈｅａｄ　ｔｏ　ｓｔｏｐ　ｋｅｙｉｎｇ」へ置き
換え（ＲＥＰＬＡＣＥ）、ターム１の特殊カテゴリを０
にセットする（ＳＥＴ）。（４）もし、ターム１の特殊カテゴリがｓｔｏｐ＿ｋｅ
ｙｉｎｇを含むならば、ターム１のスペリングを「．ｓ
ｔｏｐ　ｋｅｙｉｎｇ」へ置き換え（ＲＥＰＬＡＣＥ）
、ターム１の特殊カテゴリを０にセットする（ＳＥＴ）
。

【００６４】最後に、ステップ２６０は最終発音列の出
力ファイルを生成する。次にようにタームリストが最初
から最後まで処理される。

【００６５】もし、前ポーズフィールド＝ＴＲＵＥ（真
）ならば、ポーズ制御列を書き込み、且つ、もし、デス
トレス＝ＴＲＵＥならば、デストレス制御列を書き込み
、スペリングフィールドの内容を書き込み、もし、後ポ
ーズ＝ＴＲＵＥならば、ポーズ制御列を書き込み、句読
点フィールドの内容を書き込む。

【００６６】

【発明の効果】以上詳細に説明したように、本発明によ
るテキスト−音声変換装置は、自由に生成された言語テ
キストを受容し、その言語を正しい強勢及び正しいポー
ズを入れて合成する。本発明により、例えばアテンダン
トを介在させることなく音声障害者により生成されたテ
キストを合成する拡張デュアルパーティ中継サービスを
提供することができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示すブロック構成図である
。

【図２】本発明を電話ネットワークに適用した概略的構
成図である。

【図３】図１のシステムにおける信号処理の一方法を示
すフローチャートである。

【図４】図１のシステムにおける信号処理の他の方法を
示すフローチャートである。

【符号の説明】

１０　　インテリジェント分析器１１　　ワード検出器１２、１３、１４　　ワードストア１５　　プロセッサ２０　　合成器

Claims

【特許請求の範囲】

【請求項１】　　自由形成テキストを音声信号へ変換す
る装置において、１つの自由形成テキスト信号に反応し
、前記テキスト信号における個々のワードを検出し、そ
れによって合成されるべきワード列を生成するワード検
出器と、前記ワード検出器により検出されたワードに反
応し、入力したワード列におけるＮ個（Ｎは整数）の隣
接ワードに関して前記ワード列における各ワードを分析
し、それによって分析されたワードの各々が属するカテ
ゴリを決定するカテゴライズ手段と、前記カテゴライズ
手段に反応し、前記カテゴライズ手段によってカテゴリ
分類され、そのカテゴリに基づいて選択されたワードの
前又は後ろにポーズ生成信号を挿入するシンタクス増強
手段と、を有することを特徴とするテキスト−音声変換
装置。
【請求項２】　　前記ワードはそれらのカテゴリ及び隣
接ワードのカテゴリに基づいて選択されることを特徴と
する請求項１記載の装置。
【請求項３】　　前記ワードはそれらのカテゴリ及び隣
接ワードのカテゴリに基づいて選択されることを特徴と
する請求項１記載の装置。
【請求項４】　　前記シンタクス増強手段は、非強勢生
成信号と前記カテゴライズ手段によってカテゴリ分類さ
れた選択ワードとを、前記選択ワードのカテゴリ及び該
選択ワードに隣接するワードのカテゴリに基づいて、結
合させることを特徴とする請求項１記載の装置。
【請求項５】　　前記カテゴライズ手段は、前記ワード
列のワードを分析するためのＮワードスライディングウ
インドウを形成するためにワードを通過させるＮワード
シフトレジスタを有することを特徴とする請求項１記載
の装置。
【請求項６】　　前記カテゴライズ手段は、前記ワード
列のワード分析を可能とするために該ワード列を通して
スライドするＮワードウインドウを生成するためのワー
ド格納手段及びワードアクセス手段を有することを特徴
とする請求項１記載の装置。
【請求項７】　　前記ワード検出器により検出されたワ
ード及び前記ポーズ生成信号に反応し、音声信号を生成
する音声合成器を更に有することを特徴とする請求項１
記載の装置。
【請求項８】　　前記ワード検出器により検出されたワ
ード、前記ポーズ生成信号及び前記非強勢信号に反応し
、音声信号を生成する音声合成器を更に有することを特
徴とする請求項１記載の装置。
【請求項９】　　前記ワード検出器と前記カテゴライズ
手段との間に、前記ワード検出器により検出されたワー
ドを格納するためのＦＩＦＯメモリを更に有することを
特徴とする請求項１記載の装置。
【請求項１０】　　前記ＦＩＦＯメモリは、前記ワード
検出器の制御下でワードを格納し、前記カテゴライズ手
段の制御下でワードを出力することを特徴とする請求項
９記載の装置。
【請求項１１】　　前記ワード検出器により検出された
前記ワードと前記シンタクス増強手段によって生成され
た前記ポーズ生成手段とを格納する出力ＦＩＦＯメモリ
を更に有することを特徴とする請求項１記載の装置。
【請求項１２】　　前記音声合成器の前に、前記ワード
検出器により検出された前記ワードと前記シンタクス増
強手段によって生成された前記ポーズ生成手段とを格納
する出力ＦＩＦＯメモリを更に有することを特徴とする
請求項７記載の装置。
【請求項１３】　　前記出力ＦＩＦＯメモリは前記ポー
ズ生成信号の制御下で前記合成器へ信号を送出すること
を特徴とする請求項１２記載の装置。
【請求項１４】　　前記音声合成器の出力信号を通信ネ
ットワークへ接続させ、音声信号を前記通信ネットとワ
ークへ送出することを特徴とする請求項７記載の装置。
【請求項１５】　　音声信号を受信し、受信された音声
信号をテキストへ変換するために、前記通信ネットワー
クへ接続された音声−テキスト変換器を更に有すること
を特徴とする請求項１４記載の装置。
【請求項１６】　　フルワードの省略形であるワードを
認識し、その省略形を対応するフルワードへ置き換える
ためのワード変更手段を前記カテゴライズ手段内に有す
ることを特徴とする請求項１記載の装置。
【請求項１７】　　ノイズワードであるワードを認識し
削除するためのワード変更手段を前記カテゴライズ手段
内に有することを特徴とする請求項１記載の装置。
【請求項１８】　　所定の分かりやすさを得るために必
要なワードの欠落を認識し、その欠落ワードを挿入する
ためのワード変更手段を前記カテゴライズ手段内に有す
ることを特徴とする請求項１記載の装置。
【請求項１９】　　ワードフレーズを認識し、各ワード
フレーズを単一ユニットとしてカテゴリ分類するための
ワード変更手段を前記カテゴライズ手段内に有すること
を特徴とする請求項１記載の装置。