JPH04233598A - テキスト−音声変換装置 - Google Patents

テキスト−音声変換装置

Info

Publication number
JPH04233598A
JPH04233598A JP3178982A JP17898291A JPH04233598A JP H04233598 A JPH04233598 A JP H04233598A JP 3178982 A JP3178982 A JP 3178982A JP 17898291 A JP17898291 A JP 17898291A JP H04233598 A JPH04233598 A JP H04233598A
Authority
JP
Japan
Prior art keywords
word
term
words
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3178982A
Other languages
English (en)
Other versions
JP3323519B2 (ja
Inventor
Joan C Bachenko
ジョアン シィ バチェンコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH04233598A publication Critical patent/JPH04233598A/ja
Application granted granted Critical
Publication of JP3323519B2 publication Critical patent/JP3323519B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自由形成されたテキスト
の音声合成に係り、特に音声障害(聴覚障害又は言語障
害)を持つ人によって作成された自由形式テキストの音
声合成に関する。
【0002】
【従来の技術】デュアルパーティ中継サービス(Dua
l Party Relay Service)は音声
障害者とそのような障害を持たない人とのコミュニケー
ションを可能にするサービスである。ある番号をダイヤ
ルすることで、音声障害者はアテンダント(付き添い人
)と接続され、アテンダントが発呼者を被呼者に接続し
、会話を中継する。
【0003】また、音声障害者からの入力呼は、TDD
(Telecommunication Device
 for the Deaf:聴覚障害者のための通信
装置)又はコンピュータ端末及びモデムのようなデジタ
ル装置を通して入力される。音声障害者がTDD(及び
同様の装置)を通してテキストを入力し、そのテキスト
が受信されアテンダントに表示される。別の接続を介し
て、アテンダントは表示されたテキスト語を非障害者側
へ発声して伝え、逆に非障害者側の発声された応答を聞
き、文字テキストメッセージで音声障害者側へ伝達する
。その文字テキストメッセージを音声障害者側は表示装
置で受信して読む。
【0004】しかし、上記手順はプライバシーの点で問
題がある。また会話としてのテンポが遅くなり、めんど
うで、いわば高度に労働集約的である。そこでアテンダ
ントの介入を排除するか又は少なくともその介入を軽減
することが利用者にとっても電話会社にとっても非常に
有利となる。
【0005】少なくともテキストから音声への変換は、
アテンダントの助けなしに行うことが可能である。例え
ば、AT&T及びベルオペレーティングカンパニーの「
電話情報(telephone informatio
n)」サービスがある。問い合わせに応答して、その電
話情報オペレータがデータベースにアクセスし、要望さ
れた番号を識別し、合成器を起動させる。しかしながら
、このような既知のテキスト−音声合成器は、「録音さ
れた(canned)」音声だけを取り扱い、構文及び
語彙が予め固定されている。
【0006】TDDユーザによって作成されたテキスト
を音声合成器へ入力し、その音声合成器によって発声語
を生成させ、音声障害を持たない人へ伝送することは原
理的には可能であるが、実際には容易でない。音声合成
器はテキストをそのまま正確に音声へ変換する。従って
、そのテキストは正確で、誤りがなく、正しく句読点が
付され、標準的な構文を有することが必要である。しか
しながら、聴覚障害者の文書言語(Written L
anguage)は、望まれる英語(あるいは同様の観
点から他の言語)の構文から逸脱していることが多い。 次に示す3つ文章は、異なる作者によって作成された聴
覚障害者の文書言語(WLD:Written Lan
guage of thedeaf)テキストである。 They tend refusing to com
municate.Some people have
 strong based on knowledg
es.I have many appointmen
t from my childrens.
【0007
】WLDの研究において、シャロー(V.R.Char
row)は、1974年スタンフォード大学、社会科学
数理研究所(Institute for Mathe
matical Studies in the So
cial Science)での聴覚障害者の英語(D
eaf English)テクニカルレポート236で
、WLDの変化は、体系的であり、規則に支配されてい
ると主張する。彼女は次のように書いている。「聴覚障
害者は、英語のある規則の内在化されたもの(他のもの
ではなく)に基づき、ある場合には英語とは根本的に異
なる規則を有するASLからの影響を受けつつ、種々の
異なる英語を構成している、と私は考える。これが「聴
覚障害者英語(Deaf English)」の仮説で
ある。」
【0008】WLDシンタクス試験はシャロー
の主張を支持している。WLDテキストの文章構成上の
変化は一見ランダムに見えるが、詳しくみると、その変
化が一貫していることが分かる。WLDは、特定され記
述され得る非標準的特徴の集合である。この結論を逸話
的に証明する次のような事実がある。即ち、標準的な英
語の話者は、WLDテキストを数多く読むとそのスタイ
ルに通常順応するという事実である。ひどく理解が困難
となるのは、文章が極端に簡潔であったり、語順が例外
的に自由であったり、語彙的選択が曖昧であったりする
場合のみである。
【0009】
【発明が解決しようとする課題】要するに、デュアルパ
ーティ中継サービスで必要とされるものは、自由に生成
されたテキストを受容し合成する能力である。そして、
WLDの一貫性はこの言語スタイルのコンピュータによ
る分析が実現可能であることを示唆している。
【0010】
【課題を解決するための手段】デュアルパーティ中継サ
ービスを強化すべく、本発明は自由形成テキストのテキ
スト−音声合成を提供する。特に、本発明は、自由に生
成された連鎖言語テキストを受容し、その連鎖言語を正
しい強勢及び正しいポーズを入れて合成するテキスト−
音声合成器を提供する。他の要素を組み合わせて、本発
明は、アテンダントを介在させることなく音声障害者に
より生成されたテキストを合成する拡張デュアルパーテ
ィ中継サービスを提供する。この合成は、音声障害社宅
内、地域電話中央局又は指定地域において行うことがで
きる。
【0011】更に他の要素を組み合わせて、本発明は音
声−テキスト変換器を設けることで音声障害者との完全
自動双方向コミュニケーションを提供する。
【0012】本発明の原理に従えば、音声障害者により
生成されたテキストをより分かりやすくするには、略語
を解釈し、誤り(スペルミス及び「ノイズ」)を正し、
音声障害者により共通に用いられる特殊用語を翻訳し、
非標準的な言語列又はフレーズを翻訳し、また一般的に
言えばテキストメッセージをより標準的な英語へ変換す
ることが必要である。加えて、ポーズを入れることで更
に分かりやすくなる。
【0013】本発明の一実施例では、テキストはある決
められた数のワードを同時に分析するプロセッサへ入力
される。予め定義されたルールに基づき、信号は通常の
合成器へ印加され音声信号を生成する。
【0014】
【実施例】図1は本発明の一実施例を示すブロック構成
図である。ブロック10はインテリジェント分析器、ブ
ロック20は合成器である。合成器20は通常の合成器
であり、例えば「オリーブ−リーバーマン合成器」(オ
リーブ(J.P.Olive)及びリーバーマン(M.
Y.Liberman)、1985年、テキスト−音声
…米国聴覚学会誌摘要、補遺178,S6)などである
。その入力21は特殊命令によってときどき注釈された
テキストである。その出力22はアナログ音声信号であ
る。
【0015】インテリジェント分析器10は、ワード検
出器11、ワード格納器(ワードストア)12、13及
び14、ルールベースプロセッサ15から構成されてい
る。テキストはワード検出器11に入力し、そこでワー
ド又はタームが識別される。一般に、ブランクスペース
、句読点又は行末が語の終わりを示している。句読点は
それ自身タームである。検出されたタームは、シフトレ
ジスタ式に直列接続されたワードストア12、13、及
び14に入力する。図1では説明の都合で3個のワード
ストアだけが示されているが、勿論任意の個数のワード
ストアを用いることができる。各ワードストアに格納さ
れたタームはルールベースプロセッサ15に入力する。
【0016】プロセッサ15の機能は、前記入力したタ
ームを分析し、修正し、構文的に正しい位置に強勢及び
ポーズを組込み、そしてその修正されたタームを合成器
20に適切な時点で印加する。プロセッサ15内で実行
されるルールは2つのクラスに分けることができる。即
ち、タームを識別し変化させるルールと関連する文章構
成上の情報を認識するシンタックスルールである。
【0017】タームを識別し変化させるルールが影響を
与えるものは、略語の認識、ユーザの関係するコミュニ
ティによって使用される特殊な用語の認識、ワードスト
アの個数と等しい数(図1ではその数は3)のワードを
含むフレーズの認識、及びスペルミス、ミスタイプ及び
その他「ノイズ」の認識である。例えば“XXXXX”
というノイズは共通のものであり、文字(この場合は5
文字)の削除を一般に表している。このようなワード修
正の他に、タームを識別し変化させるルールには、テキ
ストをより正確により分かりやすくするという明確化機
能がある。この機能には、ワード(例えば前置詞)を付
加してテキストをより標準的な英語構文にすることが含
まれる。
【0018】タームを識別し変化さえるルールが適用さ
れた後、シンタックスルールが適用される。このルール
は、部分的シンタックス制約を加えることで、ポーズが
ワードストアに格納されている任意のワードの前にくる
べきか後にくるべきかを決定する。
【0019】ポーズに関連して、入力タイミング及び処
理タイミングの問題を検討する必要がある。発話音声の
タイミングは明瞭性にとって非常に重要である。より正
確には、ワード郡の相対タイミングが重要である。タイ
ミングの情報はTDDによって供給されるテキストから
は得られない。テキスト語の到達時間は発話音声の正し
いタイミングとは何等関係ないものである。
【0020】更にプロセッサ15内での処理タイミング
はアプリオリ(事前、先験的)には知られない。したが
って、プロセッサ15の出力信号のタイミングは入力信
号のタイミングに追従しない。また、時間的に密に入力
するテキストは入力バッファを必要とするほどに長い処
理時間を必要とするという状況が生じ得る。また別の状
況では、テキストがスローで入力するためにプロセッサ
15の処理にかなりの中断が生じる場合もある。いずれ
の状況も合成出力のタイミングの正確さに影響を与える
べきではない。
【0021】このために、インテリジェント分析器10
は、ワード検出器11とワードストア12との間にFI
FOメモリ16、プロセッサ15と合成器20との間に
FIFOメモリ17をそれぞれ介在させている。FIF
Oメモリ16はワード検出器11及びプロセッサ15の
制御下で動作する。タームが検出されるとFIFOメモ
リ16に格納され、ワードストア14でタームの処理が
終了するとFIFOメモリ16の最古のタームがワード
ストア12へ入力する。
【0022】FIFOメモリ17もプロセッサ15の制
御下にあるが、若干異なったモードで動作する。ターム
がプロセッサ15によって変更されるとFIFOメモリ
17へ送り込まれる。変更されたタームは、プロセッサ
15が音声におけるポーズが要求されると判断するまで
FIFOメモリ17へ入力され続ける。プロセッサ15
がその判断をした時点で、FIFOメモリ17に整列さ
れた全てのタームは順番に引き出され、合成器20へ送
出される。この方法によって、入力語の完全に任意のタ
イミングは自然発話のリズムと一致したタイミングに置
き換えられる。
【0023】図1に示す構造は、本発明によるインテリ
ジェント分析器−合成器の機能を実行する異なった別個
のハードウエアを意図している。このような分析器−合
成器は、各市内電話中央局や地域局内に設けられ、又は
ある特定サービス(例えば受信者支払の800番サービ
スや発信者支払の900番サービス)と結合されても良
い。
【0024】このようなハードウエアは、1つか又は非
常に少数の集積回路に組込まれた非常に小型の装置で実
現され得る。十分な低価格で実現すれば、図1のインテ
リジェント分析器−合成器は顧客の構内装置に含められ
るであろう。このような装置が図2に図示されており、
電話ネットワークに接続されたサブシステムが顧客の構
内に設けられている。図2のサブシステムは出力パスの
ためのインテリジェント分析器10および合成器20を
有し、入力パスのための音声−テキスト変換器30を有
している。双方のパスとも電話ネットワークに接続され
、そのネットワークを通して加入者(図面左側)は他の
加入者(図面右側)に接続される。
【0025】音声−テキスト変換器30は、任意の話者
による無拘束な発話音声を認識し検出するほどの性能に
は達していないが、話者を特定すれば5000語程度を
認識できるまでトレーニングできるシステムがある。話
者を特定しないシステムもあるが、認識できる語彙は更
に制限される。しかし、このシステムでも有用である。 特定の相手(例えば、配偶者)と電話で「話す」時のよ
うな音声障害者がアテンダントの助けをまったく必要と
しない場合もあるからである。
【0026】インテリジェント分析器−合成器を実施す
るための別のハードウエア形態もある。即ち、図1の構
造が、図1の全ての構成要素、少なくともインテリジェ
ント分析器10内の全ての要素を統括するプログラム制
御プロセッサで実現されても良い。図3は、図1のハー
ドウエア実施例において実行される処理のフローチャー
トを示す。また、図4は、インテリジェント分析器10
の全ての要素を統括するプログラム制御プロセッサで実
行される処理のフローチャートを示す。
【0027】図3におけるステップ100では、ワード
ストア12に入力した各タームをデータ構造へ変換する
。即ち、そのタームのスペリング、そのタームが属する
音声部分、そのタームが略語であるかどうか等の関連す
る情報アイテムを生成する。なお、ワードストア13及
び14に格納されたタームは既にワードストア12に格
納されていたものであるから、それらのデータ構造は既
にプロセッサ15に格納されている。
【0028】ステップ100で生成されたデータ構造で
もって、次のステップ110はワード調整ルールを適用
する。ワード調整ルールの結果はデータ構造に格納され
る。次に、ステップ120において、シンタックスルー
ルが適用され、ポーズフラグ又は非強勢フラグが設定さ
れるべきか否かが決定される。この分析の結果もデータ
構造に格納される。そして、ステップ130において、
ワードストア14の処理されたタームはFIFOメモリ
17に格納される。
【0029】ステップ140はFIFOメモリ17の出
力を合成器20へ送出することについての判断を実行す
る。FIFOメモリ17に格納されるたが「前ポーズ」
フラグを含むと判断されると、FIFOメモリ17を空
にして(格納情報は合成器20へ送出される)、そのタ
ームがFIFOメモリ17に格納される。「後ポーズ」
フラグを含むと判断されると、そのタームは最初に格納
され、その格納動作の後でFIFOメモリ17は空にさ
れる。いずれのフラグも存在しないときは、そのターム
は単に格納される。いずれにしても、図3に示すように
、次のタームがFIFOメモリ16から受信され、即ち
ワードストア12にロードされ、処理はステップ100
から続けられる。
【0030】図4は、本発明によるインテリジェント分
析器がプログラム制御プロセッサによって実現されるプ
ロセスを示す。ステップ200において、入力テキスト
列をメモリに格納し、入力テキスト列である変数*ター
ミナル−ストリング*を設定する。ステップ210にお
いて、*ターミナル−ストリング*の各タームは次に示
すフィールドを有するデータ構造へ変換される。
【0031】スペリング=  ワードのスペリング、又
はワードの印字フォームであって、句読点等(?!,;
)を除いたもの。ただし、ピリオド(.)は句読点には
含めない。いくつかの共通TDD語はピリオドで終わる
からである。
【0032】カテゴリ=    ワードの第1文字が数
字(1234567890)ならばNUMをカテゴリと
して返す。そうでないならば、そのタームのカテゴリは
そのタームの辞書的なカテゴリとなる。それは既知の英
語又はTDD方言語の音声要素(part of sp
eech)に対応する。未知のワードはカテゴリNIL
に割り当てられる。
【0033】特殊カテゴリ=  音声要素に加えて1以
上のワードクラスに属するタームが存在する。このフィ
ールドはこれら特殊カテゴリを識別している(下記参照
)。
【0034】先行=        *ターミナル−ス
トリング*を構成するリスト内の先行ワード(もし存在
すれば)に対するポインタ、存在しなければNIL。
【0035】後行=        もし存在すれば前
記リスト内の次のワードのポインタ、存在しなければN
IL。
【0036】前ポーズ=    最初に空にされ(NI
L)、後で合成器により認識される適切な文字列によっ
て埋められる。
【0037】後ポーズ=    最初に合成器により認
識される適切な文字列によって埋められ、後で空にされ
る(NIL)。
【0038】非強勢(デストレス)=  最初に空にさ
れ(NIL)、後でそのワードに対する合成器のデフォ
ールト音声パラメータを変更するために埋められる。
【0039】句読点=      ワードを終了させる
もの(;,!又は?)を含む。
【0040】上記構造は単に例示しただけであり、他の
構造も勿論採用できる。
【0041】上記データ構造の第3フィールドの特殊カ
テゴリは以下の事項からなる。
【0042】
【0043】図4において、ステップ220は、ステッ
プ210で生成されたリストの第1のタームを指し示す
変数*ファースト−ターム*を設定する。これは、ター
ムが合成器へ送られる最初のポイントのステージである
。この後に、ステップ230は第1のターム(*ファー
スト−ターム*によってポイントされる)の「前ポーズ
」フィールドを「真」に設定する。
【0044】ステップ240では、ミススペル及びノイ
ズを識別するためのルールを適用することによって実際
の処理を開始する。ステップ240の処理は、スペルチ
ェックの方法が市販されている「ワードパーフェクト」
等の多くのワードプロセッサの方法から借用されたもの
であるという意味で、従来と異なった処理ではない。こ
れらワードプロセッサには、ワードが辞書に存在するか
否か、存在しない場合にはミススペルのタームに最も似
ている正しいスペルのワードはどれかを決定するメカニ
ズムが備わっている。例えば1990年6月14日出願
の米国特許出願(エラー頻度を用いたスペル訂正方法)
に記載されているような最良マッチング手法を採用する
こともできる。テーブルにおいて正しいスペルのワード
が識別されると、ワードのカテゴリはその特殊カテゴリ
と共にそのテーブルから取り出される。
【0045】続いて、ステップ250はワード変更処理
を行う。3語ウインドウを*ターミナル−ストリング*
のタームリストに沿ってスライドさせることにより、略
語及び通例用いられない短縮語を取り除き、テキストを
明確化しようとする。即ち、短縮された入力テキストを
正しいフルスペルのワードのテキストに置き換えようと
する。
【0046】ステップ250は、少なくともシンタック
ス分析のために、ある2語及び3語表現を1語として機
能させるように短縮化する変換動作も行う。これらのル
ールはワードリストのワード数を変化させることがある
ために、変数*ファースト−ターム*の更新と共に、先
行リスト及び後行リストのスライスがしばしば実行され
る。これらのルールの少数のものは*ファースト−ター
ム*に先行するタームも参照する。以下に示す表は、略
語(表1)、通例用いない短縮語(表2)、2語表現(
表3)および3語表現(表4)の例である。
【0047】
【表1】
【0048】
【表2】
【0049】
【表3】
【0050】
【表4】
【0051】ステップ250において実施されるルール
は、用途によってカスタマイズされ、蓄積された経験に
よって修正されても良い。次に示すのは、このようなル
ールの一例である(適用順に記載される)。
【0052】ルール1−  ターム1ターム2ターム3
からなる3語表現 もし、(ターム1スペリング+ターム2スペリング+タ
ーム3スペリングが*3語表現*テーブル(表)に存在
しない(in found))ならば、ターム3のスペ
リングを標準スペリングで置き換え(REPLACE)
、その新しいスペリングに対するカテゴリ及び特殊カテ
ゴリを再計算し(RECONPUTE)、ターム1及び
ターム2をタームリストから削除し(DELETE)、
タームリストを更新する(UPDATE)。
【0053】ルール2−  2語表現  ターム1ター
ム2もし、(ターム1スペリング+ターム2スペリング
が*2語表現*テーブル(表)に存在しない)ならば、
ターム2のスペリングを標準スペリングで置き換え(R
EPLACE)、その新しいスペリングに対するカテゴ
リ及び特殊カテゴリを再計算し(RECONPUTE)
、ターム1をタームリストから削除し(DELETE)
、タームリストを更新する(UPDATE)。
【0054】ルール3−  1語略語  ターム1もし
、ターム1の特殊カテゴリが略語表に存在すれば、ター
ム1のスペリングを標準スペリングで置き換え(REP
LACE)、その新しいスペリングに対するカテゴリ及
び特殊カテゴリを再計算し(RECONPUTE)する
【0055】ルール4−  ターム1ターム2ターム3
(例)の明確化 もし、ターム1のカテゴリが「num」であり、ターム
2のスペリングが「am」であるならば、ターム1のス
ペリングを「AM」で置き換える(REPLACE)。
【0056】ステップ250に続いて、ステップ260
は、選択されたタームの前ポーズ、後ポーズ及びディス
トレスのフィールドに関して韻律の指示を音声合成器へ
付加するフレーズルールを導入することによってその処
理を行う。実行されるルールを次ぎに示す。
【0057】ルール5−  ディスコース−キー  タ
ーム1ターム2ターム3 (1)もし、ターム2の特殊カテゴリがinterje
ction_1を含み、且つ、もし、ターム1の特殊カ
テゴリがinterjection_modを含むなら
ばターム1の前ポーズを「真」にセットし(SET)、
ターム2の後ポーズを「真」にセットする(SET)。 それ以外のときは、ターム2の前ポーズを「真」にセッ
トし(SET)、ターム2の後ポーズを「真」にセット
する(SET)。 (2)もし、ターム2の特殊カテゴリがinterje
ction_2を含み、且つ、もし、ターム1の特殊カ
テゴリがinterjection_modを含むなら
ばターム1の前ポーズを「真」にセットし(SET)、
ターム2の後ポーズを「真」にセットする(SET)。 (3)もし、(ターム1の先行フィールドがNULLで
、ターム1の特殊カテゴリがinterjection
_1又はinterjection_2のいずれかを含
む)ならば、ターム1の後ポーズを「真」にセットする
(SET)。
【0058】ルール6−  接続詞  ターム1ターム
2ターム3 もし、ターム2の特殊カテゴリがoutof_and_
or_norを含み、且つ、もし、ターム1のスペリン
グがターム3のスペリングと一致しないか、又はターム
1のカテゴリがターム3のカテゴリと一致しないならば
ターム1の後ポーズを「真」にセットする(SET)。
【0059】ルール7−  主格代名詞(nomina
tive−pronoun)  ターム1ターム2ター
ム3(1)もし、ターム3の特殊カテゴリがnom_p
ronoun(主格代名詞)を含み、        
        且つ、ターム2の特殊カテゴリがau
x_verb.1(助動詞1)を含         
       み、且つ、もし、ターム1のカテゴリが
WHならば、ターム1の前ポーズを「真」にセットし(
SET)、それ以外では、ターム2の前ポーズを「真」
にセットする(SET)。 (2)もし、ターム3の特殊カテゴリがnom_pro
nounを含み、且つ、(ターム          
      2の特殊カテゴリがpre_np_1を含
むか、又はターム2のカテゴ            
    リ=ADV)ならば、且つ、もし、(ターム1
のカテゴリがCONJ又はPREPと等しくない(DO
ES  NOT)、且つ、ターム1スペリングが「th
at’s」「thats」「it’s」「its」を含
まない(DOES  NOT)ならば、ターム2の前ポ
ーズを「真」にセットする(SET)。 (3)もし、ターム2の特殊カテゴリがnom_pro
nounを含み、且つ、もし、ターム1のカテゴリがC
ONJ又はPREPと等しくない(DOESNOT)、
且つ、ターム1の特殊カテゴリが(subord_1又
はsubord_2又はpre_np_1又はaux_
verb_1)を含まない(DOES  NOT)なら
ば、ターム2の前ポーズを「真」にセットする(SET
)。
【0060】ルール8−  there−is  ター
ム1ターム2ターム3 (1)もし、ターム3のワードスペリングが「ther
e」であり、且つターム2             
   の特殊カテゴリがaux_verb_1を含むな
らば、且つ、もし、ターム1のカテゴリ=WHならば、
ターム1の前ポーズを「真」にセットする(SET)。 (2)もし、ターム2のワードスペリングが「ther
es」「there’s」「that’s」「that
s」又は「there」であり、且つ、ターム3の特殊
カテ                ゴリがaux_
verb_1を含むならば、且つ、もし、ターム1のカ
テゴリがCONJ又はPREPに等しくない(DOES
  NOT)、又はターム1の特殊カテゴリがsubo
rd_1、subord_2又はpre_np_1を含
まない(DOES  NOT)ならば、ターム2の前ポ
ーズを「真」にセットする(SET)。
【0061】ルール9−  従属接続詞(Subord
inating−conj)  ターム1ターム2ター
ム3(1)もし、ターム3の特殊カテゴリがsubor
d_1を含み、もし、ターム2のカテゴリがNUMに等
しくなく(DOESNOT)、且つ、ターム3のスペリ
ングが「till」、「til」又は「until」に
等しくなく(DOES  NOT)もし、ターム2の特
殊カテゴリがsubord_modを含み、又は(OR
)ターム2のカテゴリがCONJに等しいならば、ター
ム1の後ポーズを「真」にセットし(SET)、それ以
外は、ターム2の後ポーズを「真」にセットする(SE
T)。 (2)もし、ターム3の特殊カテゴリがsubord_
2及びsubord_modを含み、又はターム2のカ
テゴリがCONJ又はPREPと等しいならばターム1
の後ポーズを「真」にセットする(SET)。
【0062】ルール10−  ファイナル−デストレス
  ターム1ターム2 もし、ターム1の特殊カテゴリがdestress_p
ronouns(非強勢代名詞)であり       
   (1)もし、ターム2の前ポーズが「真」ならば
、ターム1のデストレスを「しん」にセットし(SET
) (2)もし、ターム1の後ポーズが「真」ならば、ター
ム1のデストレスを「しん」にセットする(SET)。
【0063】ルール11−  ファインド−ga  タ
ーム1 (1)もし、ターム1の特殊カテゴリがq_go_ah
eadを含むならば、(a)ターム1のスペリングを「
go ahead」へ置き換え(REPLACE)、タ
ーム1の特殊カテゴリを0にセットし(SET)、(b
)もし、ターム1の前がヌルでない(IS  NOT)
ならば、ターム1前の句読点を「?」にセットする(S
ET)。 (2)もし、ターム1の特殊カテゴリがgo_ahea
d_2を含むならば、ターム1のスペリングを「.go
 ahead」へ置き換え(REPLACE)、ターム
1の特殊カテゴリを0にセットする(SET)。 (3)もし、ターム1の特殊カテゴリがgo_ahea
d_1を含むならば、ターム1のスペリングを「.go
 ahead to stop keying」へ置き
換え(REPLACE)、ターム1の特殊カテゴリを0
にセットする(SET)。 (4)もし、ターム1の特殊カテゴリがstop_ke
yingを含むならば、ターム1のスペリングを「.s
top keying」へ置き換え(REPLACE)
、ターム1の特殊カテゴリを0にセットする(SET)
【0064】最後に、ステップ260は最終発音列の出
力ファイルを生成する。次にようにタームリストが最初
から最後まで処理される。
【0065】もし、前ポーズフィールド=TRUE(真
)ならば、ポーズ制御列を書き込み、且つ、もし、デス
トレス=TRUEならば、デストレス制御列を書き込み
、スペリングフィールドの内容を書き込み、もし、後ポ
ーズ=TRUEならば、ポーズ制御列を書き込み、句読
点フィールドの内容を書き込む。
【0066】
【発明の効果】以上詳細に説明したように、本発明によ
るテキスト−音声変換装置は、自由に生成された言語テ
キストを受容し、その言語を正しい強勢及び正しいポー
ズを入れて合成する。本発明により、例えばアテンダン
トを介在させることなく音声障害者により生成されたテ
キストを合成する拡張デュアルパーティ中継サービスを
提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック構成図である
【図2】本発明を電話ネットワークに適用した概略的構
成図である。
【図3】図1のシステムにおける信号処理の一方法を示
すフローチャートである。
【図4】図1のシステムにおける信号処理の他の方法を
示すフローチャートである。
【符号の説明】
10  インテリジェント分析器 11  ワード検出器 12、13、14  ワードストア 15  プロセッサ 20  合成器

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】  自由形成テキストを音声信号へ変換す
    る装置において、1つの自由形成テキスト信号に反応し
    、前記テキスト信号における個々のワードを検出し、そ
    れによって合成されるべきワード列を生成するワード検
    出器と、前記ワード検出器により検出されたワードに反
    応し、入力したワード列におけるN個(Nは整数)の隣
    接ワードに関して前記ワード列における各ワードを分析
    し、それによって分析されたワードの各々が属するカテ
    ゴリを決定するカテゴライズ手段と、前記カテゴライズ
    手段に反応し、前記カテゴライズ手段によってカテゴリ
    分類され、そのカテゴリに基づいて選択されたワードの
    前又は後ろにポーズ生成信号を挿入するシンタクス増強
    手段と、を有することを特徴とするテキスト−音声変換
    装置。
  2. 【請求項2】  前記ワードはそれらのカテゴリ及び隣
    接ワードのカテゴリに基づいて選択されることを特徴と
    する請求項1記載の装置。
  3. 【請求項3】  前記ワードはそれらのカテゴリ及び隣
    接ワードのカテゴリに基づいて選択されることを特徴と
    する請求項1記載の装置。
  4. 【請求項4】  前記シンタクス増強手段は、非強勢生
    成信号と前記カテゴライズ手段によってカテゴリ分類さ
    れた選択ワードとを、前記選択ワードのカテゴリ及び該
    選択ワードに隣接するワードのカテゴリに基づいて、結
    合させることを特徴とする請求項1記載の装置。
  5. 【請求項5】  前記カテゴライズ手段は、前記ワード
    列のワードを分析するためのNワードスライディングウ
    インドウを形成するためにワードを通過させるNワード
    シフトレジスタを有することを特徴とする請求項1記載
    の装置。
  6. 【請求項6】  前記カテゴライズ手段は、前記ワード
    列のワード分析を可能とするために該ワード列を通して
    スライドするNワードウインドウを生成するためのワー
    ド格納手段及びワードアクセス手段を有することを特徴
    とする請求項1記載の装置。
  7. 【請求項7】  前記ワード検出器により検出されたワ
    ード及び前記ポーズ生成信号に反応し、音声信号を生成
    する音声合成器を更に有することを特徴とする請求項1
    記載の装置。
  8. 【請求項8】  前記ワード検出器により検出されたワ
    ード、前記ポーズ生成信号及び前記非強勢信号に反応し
    、音声信号を生成する音声合成器を更に有することを特
    徴とする請求項1記載の装置。
  9. 【請求項9】  前記ワード検出器と前記カテゴライズ
    手段との間に、前記ワード検出器により検出されたワー
    ドを格納するためのFIFOメモリを更に有することを
    特徴とする請求項1記載の装置。
  10. 【請求項10】  前記FIFOメモリは、前記ワード
    検出器の制御下でワードを格納し、前記カテゴライズ手
    段の制御下でワードを出力することを特徴とする請求項
    9記載の装置。
  11. 【請求項11】  前記ワード検出器により検出された
    前記ワードと前記シンタクス増強手段によって生成され
    た前記ポーズ生成手段とを格納する出力FIFOメモリ
    を更に有することを特徴とする請求項1記載の装置。
  12. 【請求項12】  前記音声合成器の前に、前記ワード
    検出器により検出された前記ワードと前記シンタクス増
    強手段によって生成された前記ポーズ生成手段とを格納
    する出力FIFOメモリを更に有することを特徴とする
    請求項7記載の装置。
  13. 【請求項13】  前記出力FIFOメモリは前記ポー
    ズ生成信号の制御下で前記合成器へ信号を送出すること
    を特徴とする請求項12記載の装置。
  14. 【請求項14】  前記音声合成器の出力信号を通信ネ
    ットワークへ接続させ、音声信号を前記通信ネットとワ
    ークへ送出することを特徴とする請求項7記載の装置。
  15. 【請求項15】  音声信号を受信し、受信された音声
    信号をテキストへ変換するために、前記通信ネットワー
    クへ接続された音声−テキスト変換器を更に有すること
    を特徴とする請求項14記載の装置。
  16. 【請求項16】  フルワードの省略形であるワードを
    認識し、その省略形を対応するフルワードへ置き換える
    ためのワード変更手段を前記カテゴライズ手段内に有す
    ることを特徴とする請求項1記載の装置。
  17. 【請求項17】  ノイズワードであるワードを認識し
    削除するためのワード変更手段を前記カテゴライズ手段
    内に有することを特徴とする請求項1記載の装置。
  18. 【請求項18】  所定の分かりやすさを得るために必
    要なワードの欠落を認識し、その欠落ワードを挿入する
    ためのワード変更手段を前記カテゴライズ手段内に有す
    ることを特徴とする請求項1記載の装置。
  19. 【請求項19】  ワードフレーズを認識し、各ワード
    フレーズを単一ユニットとしてカテゴリ分類するための
    ワード変更手段を前記カテゴライズ手段内に有すること
    を特徴とする請求項1記載の装置。
JP17898291A 1990-06-28 1991-06-25 テキスト−音声変換装置 Expired - Lifetime JP3323519B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US546127 1983-10-27
US07/546,127 US5157759A (en) 1990-06-28 1990-06-28 Written language parser system

Publications (2)

Publication Number Publication Date
JPH04233598A true JPH04233598A (ja) 1992-08-21
JP3323519B2 JP3323519B2 (ja) 2002-09-09

Family

ID=24178991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17898291A Expired - Lifetime JP3323519B2 (ja) 1990-06-28 1991-06-25 テキスト−音声変換装置

Country Status (5)

Country Link
US (1) US5157759A (ja)
EP (1) EP0465058B1 (ja)
JP (1) JP3323519B2 (ja)
CA (1) CA2043667C (ja)
DE (1) DE69131549T2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450470A (en) * 1990-12-13 1995-09-12 Dirad Technologies, Inc. Script generator and process for programming automated TDD telephone system application
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninkl Philips Electronics Nv Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
EP0598598B1 (en) * 1992-11-18 2000-02-02 Canon Information Systems, Inc. Text-to-speech processor, and parser for use in such a processor
US5835690A (en) * 1992-12-15 1998-11-10 Microsoft Corporation Header/footer text string parsing using callback routines for additional processing
US5613038A (en) * 1992-12-18 1997-03-18 International Business Machines Corporation Communications system for multiple individually addressed messages
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5787231A (en) * 1995-02-02 1998-07-28 International Business Machines Corporation Method and system for improving pronunciation in a voice control system
US5761640A (en) * 1995-12-18 1998-06-02 Nynex Science & Technology, Inc. Name and address processor
USD385276S (en) * 1996-01-26 1997-10-21 Griggs Robert L Portable language translating machine
US6029508A (en) 1996-03-25 2000-02-29 Snap-On Technologies, Inc. Remote portable display unit with wireless transceiver and engine analyzing system incorporating same
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
US6411696B1 (en) * 1996-12-31 2002-06-25 Intel Corporation System for finding a user with a preferred communication mechanism
US5987447A (en) * 1997-05-20 1999-11-16 Inventec Corporation Method and apparatus for searching sentences by analyzing words
US6801763B2 (en) * 1997-10-29 2004-10-05 Metro One Telecommunications, Inc. Technique for effectively communicating travel directions
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6735286B1 (en) * 1998-05-29 2004-05-11 Nortel Networks Limited Telephone system integrated text based communication processes, apparatus and systems
US6324689B1 (en) * 1998-09-30 2001-11-27 Compaq Computer Corporation Mechanism for re-writing an executable having mixed code and data
US6208968B1 (en) 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6400809B1 (en) * 1999-01-29 2002-06-04 Ameritech Corporation Method and system for text-to-speech conversion of caller information
US6377925B1 (en) 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
US7089541B2 (en) * 2001-11-30 2006-08-08 Sun Microsystems, Inc. Modular parser architecture with mini parsers
US7027986B2 (en) * 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
US8265931B2 (en) 2002-01-22 2012-09-11 At&T Intellectual Property Ii, L.P. Method and device for providing speech-to-text encoding and telephony service
US7558732B2 (en) * 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis
US7656861B2 (en) 2004-07-09 2010-02-02 Cisco Technology, Inc. Method and apparatus for interleaving text and media in a real-time transport session
TW200614010A (en) * 2004-10-28 2006-05-01 Xcome Technology Co Ltd Instant messenger system with transformation model and implementation method
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
US7792143B1 (en) * 2005-03-25 2010-09-07 Cisco Technology, Inc. Method and apparatus for interworking dissimilar text phone protocols over a packet switched network
US20070143410A1 (en) * 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US20090083035A1 (en) * 2007-09-25 2009-03-26 Ritchie Winson Huang Text pre-processing for text-to-speech generation
US8165881B2 (en) * 2008-08-29 2012-04-24 Honda Motor Co., Ltd. System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle
US20100057465A1 (en) * 2008-09-03 2010-03-04 David Michael Kirsch Variable text-to-speech for automotive application
US9300796B2 (en) * 2009-02-16 2016-03-29 Microsoft Technology Licensing, Llc Telecommunications device for the deaf (TDD) interface for interactive voice response (IVR) systems
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59185395A (ja) * 1983-04-06 1984-10-20 日本電気株式会社 音声応答装置
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置
JPH01231167A (ja) * 1988-03-11 1989-09-14 Fujitsu Ltd 日本語文章処理方式
JPH02129758A (ja) * 1988-11-09 1990-05-17 Fujitsu Ltd 日本語文推敲処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4872202A (en) * 1984-09-14 1989-10-03 Motorola, Inc. ASCII LPC-10 conversion
JPS61252596A (ja) * 1985-05-02 1986-11-10 株式会社日立製作所 文字音声通信方式及び装置
US4831654A (en) * 1985-09-09 1989-05-16 Wang Laboratories, Inc. Apparatus for making and editing dictionary entries in a text to speech conversion system
JPS63198154A (ja) * 1987-02-05 1988-08-16 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション つづり誤り訂正装置
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
US5060154A (en) * 1989-01-06 1991-10-22 Smith Corona Corporation Electronic typewriter or word processor with detection and/or correction of selected phrases
US4996707A (en) * 1989-02-09 1991-02-26 Berkeley Speech Technologies, Inc. Text-to-speech converter of a facsimile graphic image
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59185395A (ja) * 1983-04-06 1984-10-20 日本電気株式会社 音声応答装置
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置
JPH01231167A (ja) * 1988-03-11 1989-09-14 Fujitsu Ltd 日本語文章処理方式
JPH02129758A (ja) * 1988-11-09 1990-05-17 Fujitsu Ltd 日本語文推敲処理装置

Also Published As

Publication number Publication date
EP0465058A3 (en) 1995-03-22
EP0465058B1 (en) 1999-08-25
DE69131549T2 (de) 2000-07-13
CA2043667A1 (en) 1991-12-29
DE69131549D1 (de) 1999-09-30
EP0465058A2 (en) 1992-01-08
JP3323519B2 (ja) 2002-09-09
CA2043667C (en) 1996-02-13
US5157759A (en) 1992-10-20

Similar Documents

Publication Publication Date Title
JP3323519B2 (ja) テキスト−音声変換装置
CN113439301B (zh) 用于机器学习的方法和系统
US5283833A (en) Method and apparatus for speech processing using morphology and rhyming
US6249763B1 (en) Speech recognition apparatus and method
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
CN107705787A (zh) 一种语音识别方法及装置
EP0262938A1 (en) Language translation system
CN101154221A (zh) 执行输入语音翻译处理的装置
Elshafei et al. Techniques for high quality Arabic speech synthesis
Plüss et al. SDS-200: A Swiss German speech to standard German text corpus
Iida et al. Speech database design for a concatenative text-to-speech synthesis system for individuals with communication disorders
JPH07129594A (ja) 自動通訳システム
US20040012643A1 (en) Systems and methods for visually communicating the meaning of information to the hearing impaired
JP3059398B2 (ja) 自動通訳装置
Mertens et al. FONILEX manual
Wang et al. YINHE: a Mandarin Chinese version of the GALAXY system.
CN111652005B (zh) 汉语与乌尔都语同步互译系统及方法
JP2758851B2 (ja) 自動翻訳装置及び自動通訳装置
KR20150014235A (ko) 자동 통역 장치 및 방법
JP2003162524A (ja) 言語処理装置
JP3589972B2 (ja) 音声合成装置
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
JPH09237096A (ja) 漢字説明方法及び装置
Spiegel et al. Applying speech synthesis to user interfaces
JP2003131679A (ja) 話し言葉による音声出力装置及びソフトウェア

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080628

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090628

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100628

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110628

Year of fee payment: 9

EXPY Cancellation because of completion of term