JP2000067045A

JP2000067045A - テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2000067045A
Application number: JP10234498A
Authority: JP
Inventors: Yuji Wada; 祐司和田
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1998-08-20
Filing date: 1998-08-20
Publication date: 2000-03-03

Abstract

(57)【要約】【課題】マンマシンインターフェースにおいて、単調
なテキスト出力の繰り返しを排除して、自然な言語表現
を実現する。【解決手段】テキストの各要素ごとに代替要素が予め
定義された変換辞書を記憶する変換辞書記憶手段３０６
と、各要素ごとに区切られた入力テキストから変換辞書
３０６中の各要素に対応する代替要素に基づいて、入力
テキストの代替テキスト群を生成する出力テキスト候補
生成部（３０３、３０４、３０５）と、代替テキスト群
から出力すべき代替テキストを選択する出力テキスト選
択部（３０８、３０９）と、選択された代替テキストを
出力するテキスト出力部３１２とを具備し、入力テキス
トから該入力テキストと同等の意味を有する代替テキス
トへの変換を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト変換装置
およびテキスト変換プログラムを格納したコンピュータ
読み取り可能な記憶媒体に関し、特に、マンマシンイン
ターフェースにおいて、テキストを音声などで出力する
際に、入力テキストから同等の意味を有するテキストに
柔軟かつ効率的に変換することによって、単調なテキス
ト出力の繰り返しを排除して、自然な言語表現を実現す
るための技術に関する。

【０００２】

【従来の技術】近年、音声・文字・画像などのマルチメ
ディア技術の発達を背景として、ユーザーとコンピュー
タとの間のインターフェースであるマンマシンインター
フェース（Man Machine Interface,以下「ＭＭＩ」と称
する。）は、多様化している。特に、最近のＭＭＩにお
いては、ユーザーが認識し易く、誤る可能性の少ない、
操作性のよいインターフェース（入出力機能）を提供す
ることがシステム設計上で求められている。

【０００３】これらの要請に応えるため、コンピュータ
での処理結果であるテキストをそのままディスプレーや
プリンタなどに出力するのではなく、音声合成出力、手
書き文字入力、アイコン・メニューによる入力、グラフ
ィック出力などの人間にとって認識しやすい形態での入
出力を行う技術が一般化し、実用に供されている。

【０００４】しかしながら、従来のＭＭＩ技術には、以
下の問題点があった。すなわち、コンピュータ内部での
処理結果を出力するＭＭＩの出力系においては、同一の
意味内容のテキストを連続して出力すべき場合に、単一
のテキスト表現をそのまま繰り返して出力していた。か
かるテキストの繰り返し表現は、ユーザーに単調な印象
を与えてしまう。特に出力テキストから音声合成して音
声出力を行った場合には、通常多様な言い換え表現を用
いる対人間の会話などと比較して、この単調さは人間に
とって逆に極めて不自然な表現となり、ＭＭＩを著しく
低下させていた。

【０００５】

【発明が解決しようとする課題】以上のように、本発明
は、従来技術における、ＭＭＩにおいて、同等の意味内
容テキストを音声合成などにより出力する際に、単調な
繰り返し表現が行われていたために、ユーザーにとって
不自然な表現な表現がなされていたという問題点を解決
するためになされたものである。

【０００６】そして、その目的とするところは、ＭＭＩ
において、テキストを音声などで出力する際に、入力テ
キストから同等の意味を有するテキストに柔軟かつ効率
的に変換することによって、単調なテキスト出力の繰り
返し表現を排除して、ユーザーにとって自然な言語表現
を実現することを可能とするテキスト変換装置及びテキ
スト変換プログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することにある。

【０００７】また、他の目的は、入力テキスト中の要素
数とは異なる多様なテキストを出力候補とすることによ
って、より多様な代替表現を実現することにある。

【０００８】また、他の目的は、代替テキストを選択す
る際に、同等の意味内容の以前のテキスト出力の履歴を
考慮することによって、各処理についての一連のテキス
ト出力で繰り返しのない、より自然な代替表現を実現す
ることにある。

【０００９】また、他の目的は、代替テキストを選択す
る際に、テキストの各要素ごとに得点付けを行うことに
よって、より迅速・効率的に同等の意味を持つテキスト
のみへの変換を実現することにある。

【００１０】

【課題を解決するための手段】上記の課題を実現するた
めの本発明の特徴は、テキストの要素単位に代替要素が
定義された変換辞書を用いて、入力テキストと同等の意
味のテキストを動的に生成するインターフェースを提供
する点にある。

【００１１】かかる機能を実現するために、請求項１の
発明は、入力テキストから該入力テキストと同等の意味
を有する代替テキストへの変換を行うテキスト変換装置
であって、テキストの各要素ごとに代替要素が予め定義
された変換辞書を記憶する変換辞書記憶手段と、各要素
ごとに区切られた入力テキストから前記変換辞書中の前
記各要素に対応する前記代替要素に基づいて、前記入力
テキストの代替テキスト群を生成する出力テキスト候補
生成部と、前記代替テキスト群から出力すべき代替テキ
ストを選択する出力テキスト選択部と、前記選択された
代替テキストを出力するテキスト出力部とを具備するこ
とを特徴とする。

【００１２】上記構成によれば、テキストの各要素ごと
に代替要素を保持する変換辞書を用いて、入力テキスト
から同等の意味を有する代替テキストに柔軟かつ効率よ
く変換することが可能となる。このため、変換対象の文
を単位に代替要素を定義した場合に用にコンピュータ資
源を増大させることなく、効率よく、単調なテキスト出
力の繰り返し表現を排除することが可能となる。

【００１３】ここで、テキストとは、人間が読むことの
できる文字列を意味し、文を文節などの各要素に分割し
たものまたは文自体を単位とする。

【００１４】ここで、要素とは、文節または単語を意味
する。

【００１５】また、請求項２の発明は、前記変換辞書中
の前記代替要素は、前記テキストの各要素を含むテキス
トの文例である使用例および／または前記テキストの各
要素の同義語を含んで構成されることを特徴とする。

【００１６】上記構成によれば、入力テキスト中の要素
数とは異なる多様なテキストを出力候補のテキストとす
ることによって、より多様な代替テキストを生成するこ
とが可能となる。

【００１７】また、請求項３の発明は、前記出力テキス
ト候補生成部は、入力テキストの各要素に対応する前記
同義語に基づいて、前記入力テキストに対応する新たな
テキストパターンを生成することにより、変換辞書に定
義された一義的な代替テキストのみならず、同義語を用
いて入力テキストと同等の意味内容を有するテキストパ
ターンを代替テキストとして生成することが可能とな
る。

【００１８】また、請求項４の発明は、上記テキスト変
換装置は、さらに、以前に選択された代替テキストの履
歴を保持する出力テキスト履歴記憶手段を具備し、前記
出力テキスト選択部は、入力テキストに対応する前記出
力テキスト履歴記憶手段が保持する代替テキストの履歴
に含まれないテキストを優先的に選択することを特徴と
する。

【００１９】上記構成によれば、代替テキストを選択す
る際に、同等の意味内容の以前のテキスト出力の履歴を
考慮することが可能となる。これにより、各処理につい
ての一連のテキスト出力で繰り返しのないより自然な代
替表現を実現することが可能となる。

【００２０】また、請求項５の発明は、前記出力テキス
ト選択部は、前記代替テキスト群の各代替テキストにつ
いて、該代替テキストの各要素と入力テキストの各要素
との比較を行い、前記代替テキストの各要素が前記入力
テキストの各要素または該各要素の同義語と一致する場
合に前記代替テキストの各要素に対して得点を付与し、
前記各代替テキストごとに算出された前記得点の総和の
高い代替テキストを優先的に選択することを特徴とす
る。

【００２１】上記構成によれば、代替テキストを選択す
る際に、テキストの各要素ごとに得点付けを行うことに
よって、より迅速・効率的に同等の意味を持つテキスト
のみへの変換を行うことが可能となる。

【００２２】さらに、請求項６の発明（記録媒体）は、
入力テキストから該入力テキストと同等の意味を有する
代替テキストへの変換を行うテキスト変換プログラムを
格納したコンピュータ読み取り可能な記録媒体であっ
て、各要素ごとに区切られた入力テキストから、テキス
トの各要素ごとに予め定義され、前記各要素に対応する
代替要素に基づいて、前記入力テキストの代替テキスト
群を生成するステップと、前記代替テキスト群から出力
すべき代替テキストを選択するステップと、前記選択さ
れた代替テキストを出力するステップとを含むことを特
徴とする。

【００２３】上記構成によれば、テキストの各要素ごと
に代替要素を保持する変換辞書を用いて、入力テキスト
から同等の意味を有する代替テキストに変換することが
可能となる。このため、変換対象の文を単位に代替要素
を定義した場合に用にコンピュータ資源を増大させるこ
となく、効率よく、単調なテキスト出力の繰り返し表現
を排除することが可能となる。

【００２４】

【発明の実施の形態】以下、図面を用いて本発明の実施
形態を詳細に説明する。

【００２５】図２は、本実施形態のＭＭＩ中の位置づけ
の例を説明する図である。図２に示すように、本実施形
態に係るテキスト変換装置３は、コンピュータ内部処理
の結果データＳ１に基づきテキスト生成部２により生成
されたテキストＳ２の入力を受け、変換後のテキストＳ
３を出力する。この変換後のテキストＳ３は、そのまま
ディスプレーなどの出力装置に対してテキストとして出
力されてもよいが、さらに音声合成部４により音声デー
タＳ４などのマルチメディアデータに変換されて出力さ
れてもよい。いわば、本実施形態に係るテキスト変換装
置３は、コンピュータ上のマンマシンインターフェース
部１の中のテキスト変換インターフェースとして機能す
る。

【００２６】まず、本実施形態の構成を、図１を用いて
説明する。

【００２７】図１に示すように、本実施形態は、テキス
ト入力部３０１と、形態素解析部３０２と、使用例抽出
部３０３と、同義語検索部３０４と、テキスト作成部３
０５と、同義語・使用例辞書３０６と、変換テキスト保
存メモリ３０７と、変換テキスト得点付け部３０８と、
出力用変換テキスト選択部３０９と、乱数発生器３１０
と、出力用テキスト履歴キャッシュメモリ３１１と、テ
キスト出力部３１２とにより構成される。

【００２８】テキスト入力部３０１は任意のテキストの
入力を受け、入力テキストを形態素解析部３０２へ出力
する。

【００２９】形態素解析部３０２はテキスト入力部３０
１から入力される入力テキストを名詞・動詞・助詞など
各語ごとの形態素に分解して解析を行う。形態素解析部
３０２は、この解析の結果に基づき入力テキストを文節
ごとに切り出し、切り出したそれぞれを要素として変換
テキスト保存メモリ３０７へ蓄積する。同時に、形態素
解析された文節ごとに区切られたテキストを使用例抽出
部３０３と同義語検索部３０４の双方へ出力する。尚、
形態素解析部３０２により区切られたテキストのそれぞ
れは、以下において各要素として扱われる。

【００３０】尚、テキスト入力部３０１および形態素解
析部３０２とは、必ずしも本実施形態の内部に構成され
ることを要さず、図１中のテキスト生成部２などの本実
施形態の外部に実装されることも可能である。この場合
には、本実施形態に対して、文節ごとの区切りを付与さ
れた形式でテキストが入力される。

【００３１】変換テキスト保存メモリ３０７は本実施形
態で変換テキストを中間的に保持する記憶手段であり、
入力テキストの他、使用例抽出部３０３・同義語検索部
３０４・テキスト作成部３０５の各部が中間的に出力す
るテキストが入力テキストに対応づけて格納される。変
換テキスト保存メモリ３０７は、要求される処理速度や
データ量に応じてメモりやファイルなどに任意に配置さ
れる。変換テキスト保存メモリ３０７は、入力されたテ
キストを保存し、後述する変換テキスト得点付け部３０
８へ出力する。但し、保存されているテキスト中に、メ
モリに入力されたテキストと同じテキストが存在する場
合、重複して保管することはせず、入力されたテキスト
を破棄する。

【００３２】使用例抽出部３０３は入力された文節ごと
のテキスト（即ち、各要素）に対応する使用例を、同義
語・使用例辞書３０６から抽出する。ここで、使用例と
は、各要素ごとに定義されたテキスト文例をいい、通常
は当該要素を含むテキストの文例により構成される。抽
出された使用例は変換テキスト保存メモリ３０７に蓄積
される。但し、例外として、テキスト入力部３０１に入
力されたテキストの要素数自体が１である場合には、変
換テキスト保存メモリ３０７に対して使用例は抽出され
ず入力要素と後述する同義語のみが出力される。辞書３
０６に登録されている使用例は予め文節ごとに区切られ
ている。この区切りにより、形態素解析部３０２により
形態素解析する必要なしに変換テキスト保存メモリ３０
７に直接出力することが可能となる。

【００３３】同義語検索部３０４は形態素解析部３０２
から入力された文節ごとのテキストの同義語もしくは取
って代わることの可能な要素（以下、単に「同義語」と
称する）を同義語・使用例辞書３０６から抽出する。抽
出された同義語は変換テキスト保存メモリ３０７に蓄積
される。同義語検索部３０４は、同時に、入力されたテ
キストおよび抽出したテキストをテキスト作成部３０５
へ出力する。

【００３４】テキスト作成部３０５は入力されたテキス
トに基づいて、新たなテキストパターンを作成する。た
とえば、入力されたテキストの要素数が４であると仮定
する。これらの各要素を、入力テキストが構成されてい
る順に「要素１」「要素２」「要素３」「要素４」とす
る。一方、それぞれの要素の同義語の数を「要素１」は
２、「要素２」は３、「要素３」は１、「要素」は２で
あるとする。各同義語は、「要素１１」、「要素１２」
のように入力要素のラベルの後ろに番号をつけたものを
そのラベルとして付与される。テキスト作成部３０５
は、図３に示すように、「要素１」とその同義語を１列
目とし、「要素２」とその同義語を２列目とするよう
に、各要素とその同義語を対応づけて順に並べる。テキ
スト作成部３０５は、変換テキスト保存メモリ３０７か
ら入力テキストの各要素および対応する同義語を読み込
み、それぞれの要素にラベルを付与し、すべてのラベル
を横につなげることによって新たなテキストパターンを
生成する。図３の例の場合には、すべての組み合わせに
より作成されるテキスト数は全部で７２通りとなる。

【００３５】尚、以下では、入力テキスト自体・入力テ
キストの各要素・各要素に対応する同義語・各要素に対
応する使用例・テキスト作成部３０５により作成された
テキストパターンにより構成されるテキストの集合を、
代替テキスト群と称する。この代替テキスト群は、変換
テキスト保存メモリ３０７に出力・保存され、変換後の
出力テキストの候補とされる。

【００３６】同義語・使用例辞書３０６には、各要素ご
とに、各要素の読みと、各要素の同義語と、各要素の使
用例とが登録されている。１つの要素に対して同義語が
１つ又は複数個登録されている。加えて、当該要素が用
いられているテキスト文例が使用例として１つもしくは
複数個登録されている。テキスト文例は通常１つの文で
構成される。

【００３７】尚、これらの使用例として、各種の接続詞
や「えー」・「かなあ」などの冗長語を含んだテキスト
文例を登録しておいてもよい。これらの語を含んだ使用
例は、より自然な表現に近いテキストに変換することを
可能とする。

【００３８】図４に、同義語・使用例辞書３０６の内容
の一例を示す。図４に示すように、同義語・使用例辞書
３０６は、各要素に対して、当該要素には「０」、読み
には「１」、同義語には「２」、使用例には「３」のラ
ベルをそれぞれ付与する。「０」及び「１」のラベルは
要素に対して必ず１つ存在する。一方、「２」及び
「３」のラベルは必須ではなく、０個もしくは１個以上
存在すればよい。

【００３９】同義語・使用例辞書３０６は、漢字及び仮
名で入力されるテキストを取り扱うために要素の読みを
同時に対応づけて記憶するので、最終的にテキスト出力
部３１２から出力されるテキストを漢字または仮名のい
ずれの形式で任意に出力することができる。さらに、漢
字仮名変換辞書などの別の辞書を用いることなく、読み
の仮名を用いて各要素を５０音順にソートすることがで
きるので、辞書３０６の管理・編集を容易に行うことを
可能とする。

【００４０】また、ある要素に対応づけて登録された同
義語を用いて、新たな要素を辞書３０６の新たな項目と
して生成することができる。同時に各使用例についても
同義語の部分を交換することによって容易に新たな使用
例を作成することができる。

【００４１】使用例が各要素に対応づけて登録されてい
るので、単に各要素ごとに置き換えを行うのではなく、
要素数を増減した任意の代替テキストを柔軟に作成する
ことができる。尚、同義語と使用例とは、対応する要素
によりポイントされていれば、必ずしも同一のメモリ領
域やファイルに存在することを要しないことは言うまで
もない。

【００４２】変換テキスト得点付け部３０８は変換テキ
スト保存メモリ３０７に保存された代替テキストの各々
が出力すべきテキストであるかどうかを判断するため各
代替テキストに対する得点付けを行う。この得点付け
は、具体的には、１つの代替テキストに注目した場合、
すべての要素に対して、各要素が入力要素と一致する
か、入力要素の同義語の要素と一致するか、入力要素と
同義語の要素のいずれとも不一致であるかに従って行わ
れる。ある要素が入力要素のいずれかに一致した場合に
は、その変換テキストの得点をａ点加える。入力要素の
同義語の要素に一致した場合には、ｂ点加える。双方と
もに一致しない場合には、ｃ点引く。変換テキスト得点
付け部３０８は、変換テキスト保存メモリ３０７中のす
べての代替テキストに対して得点付けを行い、総得点ｄ
以上の代替テキストのみを変換テキスト得点付け部３０
８の出力とする。この総得点ｄは、各テキストの要素数
に応じて可変的に決定される。但し、当該テキストの要
素数が１の場合は、上記の得点付けにおいて必ず総得点
がｄを越えて出力候補として選択されてしまう。このた
め例外として、テキストの要素数が１である場合には、
入力テキストの要素数自体が１である場合を除いては得
点がｄを越えていても変換テキスト得点付け部３０８の
選択対象とはしない。これらの得点付けにより選択され
た出力候補の代替テキスト群は、出力用変換テキスト選
択部３０９に対して出力される。

【００４３】出力用テキスト履歴キャッシュメモリ３１
１はキャッシュ構造であり、ｅ個のテキストキャッシュ
により構成される。キャッシュ構造は、ファーストイン
・ファーストアウト（ＦＩＦＯ）型、ラストイン・ファ
ーストアウト（ＬＩＦＯ）型などの形式が任意に選択さ
れる。また、キャッシュメモリ３１１の配置場所は、変
換テキスト保存メモリと同様、任意に選択される。

【００４４】出力用変換テキスト選択部３０９は、変換
テキスト得点付け部３０８から出力される１つ以上の代
替テキストにより構成される代替テキスト群の中から１
つの代替テキストを選択し、変換後出力テキストとして
出力する。

【００４５】出力用変換テキスト選択部３０９の行う選
択処理の詳細を以下に説明する。ここでの選択は、具体
的には、変換テキスト得点付け部３０８で各テキストに
与えられた得点と、乱数発生器３１０で発生される乱数
と、出力用テキスト履歴キャッシュメモリ３１１にキャ
ッシュされているテキストとを用いて行われる。

【００４６】出力用変換テキスト選択部３０９は、最初
に、入力された代替テキスト群の中から最も得点の高い
代替テキストを探索し、出力候補とする。ここで、その
テキストが出力用テキスト履歴キャッシュメモリ３１１
に保存されていない場合には、この代替テキストが選択
され、出力用変換テキスト選択部３０９の出力テキスト
となる。一方、キャッシュメモリ３１１に保存されてい
る場合には、当該代替テキストを出力候補から外し、当
該テキストを除いたすべての代替テキストの中から乱数
発生器３１０から得られた乱数に従いいずれかの代替テ
キストをランダムに探索する。この探索された代替テキ
ストが、次の出力候補とされる。この次の出力候補が出
力用テキスト履歴キャッシュメモリに存在しない場合、
この出力候補が選択され、出力用変換テキスト選択部３
０９の出力とされる。一方、キャッシュメモリに存在し
た場合、その代替テキストを除いた残りの代替テキスト
群から再度乱数を用いて次の出力候補となる代替テキス
トを探索する。

【００４７】以上の手順を、キャッシュメモリに存在し
ないいずれかの代替テキストが選択するか、または入力
テキストがすべてなくなるまで繰り返し行う。与えられ
た代替テキスト群中のすべての代替テキストが処理さ
れ、これらの代替テキストのすべてがキャッシュメモリ
３０７に存在した場合には、１つの出力を得るために、
入力されたすべてのテキストから再度乱数によって１つ
の代替テキストを選択し、このテキストを出力用変換テ
キスト選択部３０９の出力とする。ここで選択された代
替テキストは、テキスト出力部３１２に対して出力され
るとともに、次の入力テキストについての出力用変換テ
キスト選択部３０９における選択処理に用いるべく出力
用テキスト履歴キャッシュメモリ３１１へ出力される。

【００４８】この出力用テキスト履歴キャッシュメモリ
３１１を、出力テキストの選択に用いることによって、
単に乱数により１つの出力テキストを選択する場合と比
較して、以前に出力したテキストを出力候補から除外す
ることで繰り返し表現を避けることが可能となる。

【００４９】テキスト出力部３１２は、出力用変換テキ
スト選択部３０９から入力される代替テキストを変換後
出力テキストとして、テキスト変換装置の外部に出力す
る。この出力先は、図２に示す音声合成部４に対してな
されてもよく、またディスプレーなどに直接なされても
よい。

【００５０】次に、図１１を用いて、本実施形態におけ
るハードウエア構成を説明する。本実施形態に係るテキ
スト変換装置の実施には、上述の機能を実現するプログ
ラムをロードすることで処理を実行可能とするコンピュ
ータシステムを用いる。このコンピュータシステムに
は、いわゆる汎用機、ワークステーション、ＰＣ、ＮＣ
（Network Computer）等が含まれる。本実施形態で用い
るコンピュータシステムのハードウエアは、図１１に示
すように、各種処理を行うＣＰＵ５０１と、プログラム
メモリ５０３・データメモリ５０４等のメモリと、ＦＤ
・ＣＤなどの外部記憶装置６０３と、キーボード・マウ
ス等の入力装置６０２と、ディスプレー・プリンタ・音
声応答装置等の出力装置６０１とを備える。コンピュー
タシステムの内部５と外部の入力装置６０２・出力装置
６０１・外部記憶装置６０３との間は、Ｉ／Ｏインター
フェース５０５により接続される。また内部のＣＰＵ５
０１、メモリ５０３・５０４、Ｉ／Ｏインターフェース
５０５はそれぞれバス５０２を介して相互に連動する。

【００５１】さらに、本実施形態を実施するためのコン
ピュータシステムは、単一のコンピュータであってもよ
く、またローカル又はリモートにネットワーク接続され
たサーバーマシンとクライアントマシンにより構成され
てもよい。例えば、本実施形態に係るテキスト変換装置
をサーバーマシンに配置し、図２に示す音声合成部４な
どユーザーとの直接のマンマシンインターフェース部分
は各クライアントマシンに配置して、各ユーザーに対す
る本実施形態の機能を並行的に提供することもできる。

【００５２】尚、上述したテキスト変換装置３を実現す
るためのプログラムは、各種記録媒体に保存することが
できる。この記録媒体を、上記ハードウエアを具備する
コンピュータシステムにより読み出し、記録媒体に保存
されたプログラムを実行することにより、本発明を実施
することができる。ここで記録媒体とは、外部記憶装置
６０３の他、例えばメモリカード・磁気ディスク・光デ
ィスク等プログラムを記録することができる装置全般を
含む。

【００５３】本実施形態は、上記のように構成されてい
る。以下にこの処理の流れを、図５乃至図１０を用いて
具体的に説明する。

【００５４】ここでは、「ではお客様のお名前を言って
ください」というテキストがテキスト入力部３０１に入
力された場合を仮定する。

【００５５】入力テキストは、形態素解析部３０２で文
節ごとに「では」「お客さまの」「名前を」「言ってく
ださい」の４つの要素に区切られる。この入力テキスト
は要素ごとに区切られたテキストとして、変換テキスト
保存メモリ３０７に格納される。この区切られた入力テ
キストは、同時に使用例抽出部３０３と同義語検索部３
０４とへ出力される。

【００５６】これらの４つの要素に対する同義語・使用
例辞書３０６中の定義内容が、図５の内容である場合の
例題とする。尚、以下の説明において、テキストの文節
（各要素）は空白によって区切られているものとする。

【００５７】入力された各要素について、図５の同義語
・使用例辞書３０６中の各要素に対応づけて記憶された
使用例が、使用例抽出部３０３により抽出される。この
抽出は、各要素の項目中の「３」のラベルの要素を検索
することにより行われる。抽出された使用例は、変換テ
キスト保存メモリ３０７に保存される。この時点での変
換テキスト保存メモリ３０７に保存されるテキストを、
図６に示す。図６に示すように、この時点の変換テキス
ト保存メモリ３０７中には、区切られた入力テキスト自
体、入力テキストの各要素、および各要素に対応する使
用例が保存されている。但し、同義語・使用例辞書３０
６中で「言って下さい」の項目に登録されている「名前
を言って下さい」は、「名前を」の項目に同様のものが
存在していて既に抽出されており、「言ってください」
の項目に登録されている「名前を言ってください」は重
複するテキストであるため破棄される。

【００５８】次に、入力された各要素について、図５の
同義語・使用例辞書３０６中の各要素の同義語の要素
が、同義語検索部３０４により抽出される。この抽出
は、各要素の項目中の「２」のラベルの要素を検索する
ことにより行われる。ここで抽出される要素は、「それ
では」、「お名前を」、「おっしゃってください」であ
る。ここで抽出された同義語は、変換テキスト保存メモ
リ３０７に追加保存される。尚、使用例抽出部３０３と
同義語検索部３０４との処理はシーケンスを保持して行
われることを要さず、いずれの処理を先に行ってもよ
く、同時並行的に処理を行ってもよい。

【００５９】次に、テキスト作成部３０５では、入力テ
キストの各要素と対応する同義語とから、新たなテキス
トパターンが作成される。この例題では、テキスト作成
部３０５に対して、「では」、「それでは」、「お客様
の」、「名前を」、「お名前を」、「言ってくださ
い」、「おっしゃってください」が入力される。

【００６０】図７（ａ）に示すように、まずこれらの入
力テキストの各要素が順序を変えることなく横に並べら
れる。次に、これらの入力テキストの各要素に対応する
同義語の要素が対応する入力各要素に対して縦に並べら
れる。この段階で、横に並ぶすべての要素を結合し、こ
の組み合わせに従い新たなテキストパターンが作成され
る。この例題の場合、得られるテキストは図７（ｂ）に
示す８つのパターンである。これらのパターンは、変換
テキスト保存メモリ３０７へ追加保存される。

【００６１】但し、図７（ｂ）のパターンのうち、「で
はお客さまの名前を言ってください。」と「ではお客さ
まのお名前をおっしゃってください。」とはそれぞれ入
力テキスト自体または使用例として既に同メモり３０７
に保存されているため、破棄される。図８に、テキスト
作成部３０５の処理の後の変換テキスト保存メモリ３０
７の内容を示す。この段階では、入力テキスト自体・入
力テキストの各要素・同義語・使用例・新たなテキスト
パターンがそれぞれ保存され、１つの代替テキスト群を
形成している。

【００６２】次に、変換テキスト得点付け部３０８によ
り、変換テキスト保存メモリ３０７に保存されている各
代替テキストに得点が付与される。ここで、例えば、ａ
＝３，ｂ＝２，ｃ＝５，ｄ＝要素数×２とした場合に
は、図８に示す各テキストは、図９に示すように得点付
けされる。尚、ａ、ｂ、ｃ、ｄの値は任意に決定される
が、ａ＝３ｚ，ｂ＝２ｚ，ｃ＝５ｚ，ｄ＝（要素数×
２）ｚ（但し、ｚは自然数とする）とした重み付けが望
ましい１態様である。

【００６３】図９に示す得点付けされた代替テキストの
うち、各代替テキストの得点が当該代替テキストの要素
数×２を越え、かつ当該代替テキストの要素数が２個以
上である代替テキストが出力候補として抽出される。抽
出された代替テキスト群は、出力変換テキスト選択部３
０９に出力される。

【００６４】図１０に、上述の条件に従いこの例題で抽
出される代替テキスト群を示す。

【００６５】最後に、出力用変換テキスト選択部３０９
で、図１０の代替テキスト群の中から、出力用テキスト
履歴キャッシュメモリ３１１を参照して、１つの代替テ
キストが変換後出力テキストとして選択される。この例
題では、まず、テキスト入力部３０１への入力テキスト
自体である得点１２点の「ではお客さまの名前を言って
ください」が、最高点を得た第１の出力候補テキストと
して検索される。

【００６６】このテキストが出力用テキスト履歴キャッ
シュメモリ３１１になければ、当該テキストが選択さ
れ、テキスト出力部３１２への出力は「ではお客さまの
名前を言ってください」となる。一方、履歴キャッシュ
メモリ３１１にこのテキストが存在する場合には出力候
補からは除外され、当該テキストを除いた１３個のテキ
ストからランダムに次の出力候補のテキストが探索され
る。

【００６７】この次の出力候補のテキストが履歴キャッ
シュメモリ３１１に存在しなければこの出力候補のテキ
ストが選択され、出力される。一方、履歴キャッシュメ
モリ３１１に存在する場合には、当該テキストを除いた
１２個のテキストから次の出力候補のテキストが探索さ
れる。

【００６８】これらの変換後出力テキストの選択処理
が、処理対象となるテキストが履歴キャッシュメモリ３
１１に存在しなくなるまで繰り返される。これらの選択
処理で出力候補とされたテキストのすべてが履歴キャッ
シュメモリ３１１に存在する場合には、この場合にも１
つの変換後出力テキストを出力すべく、再度、すべての
出力用変換テキスト選択部３０９に入力されたテキスト
中からランダムに変換後出力テキストが選択され、テキ
スト出力部３１２に対して出力される。テキスト出力部
３１２へ出力されたテキストはすべていったん出力用テ
キストキャッシュメモリ等に保持されて適宜利用されて
もよい。

【００６９】尚、上述した本実施形態のテキスト変換処
理の用途は、音声合成などに限定されず、あらゆるＭＭ
Ｉに応用可能であることは言うまでもない。また、本発
明は上述した実施形態に限定されるものではなく、本発
明の要旨を変更しない範囲内で種々の変形が可能であ
る。

【００７０】本実施形態によれば、以下のような効果が
得られる。

【００７１】即ち、テキストの各要素ごとに代替要素を
同義語・使用例辞書３０６に予め保持するので、入力テ
キストと同等の意味を持つテキストをこの辞書３０６に
基づき容易かつ効率よく作成することができる。

【００７２】この同義語・使用例辞書３０６には、各要
素についてのテキスト文例である使用例を併せて記憶し
ているので、入力テキストの要素数とは異なる要素数の
テキストを柔軟に作成することができる。

【００７３】また、単に辞書３０６に登録されたテキス
トだけではなく、入力各要素と対応する同義語の要素と
の入力された並びに従った組み合わせから新たなテキス
トパターンを作成するので、辞書３０６のデータ量を抑
制しつつ、効率よくテキストを作成することができる。

【００７４】出力テキストの選択の際には、出力候補と
なったテキストすべてに対して入力各要素と同義語の要
素に対して重み付けして得点を付与し、この得点に応じ
て優先的に変換後出力テキストの選択を行うので、作成
されたテキスト群から入力テキストと同等の意味を持つ
テキストを優先的に選択することができる。

【００７５】この出力テキストの選択においては、乱数
のみではなく、以前の出力履歴をキャッシュしてこの出
力履歴にないテキストを優先的に選択するので、単調な
繰り返し表現を排除することができる。

【００７６】同義語・使用例辞書３０６中には、テキス
トの各要素ごとに、要素・要素の読み・同義語・使用例
がラベル付けされて登録される。この辞書３０６に各要
素の読みを含むことにより、辞書構成において漢字仮名
変換辞書なしに５０音訓順に並べ変えることができ、辞
書の管理・編集が容易になる。

【００７７】また、使用例は要素ごとに区切った形で登
録されているので、１つの要素に対して同義語と使用例
との双方が登録されている場合に、同義語自体を新たな
登録要素として置き換えて動的に使用例の構成を行うこ
とができる。

【００７８】

【発明の効果】以上説明したように、本発明によれば、
以下に記載されるような効果を奏する。

【００７９】即ち、請求項１記載の本発明に係るテキス
ト変換装置および請求項６記載の本発明に係るテキスト
変換プログラムを格納した記録媒体は、マンマシンイン
ターフェースにおいて、テキストの各要素ごとに代替要
素を保持する変換辞書を用いて、入力テキストから同等
の意味を有する代替テキストに柔軟かつ効率的に変換す
る機能を提供する。このため、コンピュータ資源を増大
させることなく、単調なテキスト出力の繰り返し表現を
排除して、ユーザーにとって自然な言語表現を実現する
ことが可能となるという効果が得られる。

【００８０】また、請求項２に記載の本発明に係るテキ
スト変換装置は、テキストの各要素についての同義語や
使用例を含む変換辞書を用いて、入力テキスト中の要素
数とは異なる多様なテキストを生成する機能を有するの
で、入力テキストに対する、より多様な代替表現を実現
することが可能となる。

【００８１】また、請求項３に記載の本発明に係るテキ
スト変換装置は、単に辞書に登録されたテキストだけで
はなく、入力各要素と対応する同義語の要素との入力さ
れた並びに従った組み合わせから新たなテキストパター
ンを作成する機能を有するので、必要とするコンピュー
タ資源の量を抑制しつつ、効率よくテキストを作成する
ことが可能となる。

【００８２】また、請求項４に記載の本発明に係るテキ
スト変換装置は、出力テキスト履歴を保持し、代替テキ
ストを選択する際に、同等の意味内容の以前のテキスト
出力の履歴を参照する機能を有するので、コンピュータ
内部での各処理についての一連のテキスト出力において
繰り返しのないより自然な代替表現を実現することが可
能となる。

【００８３】また、請求項５に記載の本発明に係るテキ
スト変換装置は、代替テキストを選択する際に、テキス
トの各要素ごとに得点付けを行う機能を有するので、よ
り迅速・効率的に同等の意味を持つテキストのみへの変
換を実現することが可能となる。

【００８４】このように、本発明を用いれば、ユーザー
が認識し易い自然な言語表現による入出力インターフェ
ースを提供するので、ＭＭＩが著しく向上する。

【図面の簡単な説明】

【図１】本発明の実施形態に係るテキスト変換装置の機
能構成を示すブロック図である。

【図２】本発明に係るテキスト変換装置のマンマシンイ
ンターフェース内での他の機能との関係の一例を説明す
る図である。

【図３】テキストと各要素との関係を説明する図であ
る。

【図４】本発明の実施形態に係る変換辞書の内容の一例
を説明する図である。

【図５】本発明の実施形態に係る変換辞書の例題テキス
トに対応する内容の一例を説明する図である。

【図６】使用例抽出後の変換テキスト保存メモリ中のテ
キストの内容を説明する図である。

【図７】本発明の実施形態に係るテキスト作成部の作成
するテキストの内容を説明する図である。

【図８】本発明の実施形態に係るテキスト作成部におけ
る処理後の変換テキスト保存メモリ中のテキストの内容
を説明する図である。

【図９】図８に示すテキストに対し、変換テキスト得点
付け部により得点付けがなされた後の状態を説明する図
である。

【図１０】図９に示すテキストから抽出されたテキスト
の内容を説明する図である。

【図１１】本発明の実施形態に係るテキスト変換装置の
ハードウエア構成を説明する図である。

【符号の説明】

Ｓ１処理結果データＳ２テキストデータＳ３変換後テキストデータＳ４音声データ

Claims

【特許請求の範囲】

【請求項１】入力テキストから該入力テキストと同等
の意味を有する代替テキストへの変換を行うテキスト変
換装置であって、テキストの各要素ごとに代替要素が予め定義された変換
辞書を記憶する変換辞書記憶手段と、各要素ごとに区切られた入力テキストから前記変換辞書
中の前記各要素に対応する前記代替要素に基づいて、前
記入力テキストの代替テキスト群を生成する出力テキス
ト候補生成部と、前記代替テキスト群から出力すべき代替テキストを選択
する出力テキスト選択部と、前記選択された代替テキストを出力するテキスト出力部
とを具備することを特徴とするテキスト変換装置。
【請求項２】前記請求項１に記載のテキスト変換装置
において、前記変換辞書中の前記代替要素は、前記テキストの各要素を含むテキストの文例である使用
例および／または前記テキストの各要素の同義語を含ん
で構成されることを特徴とするテキスト変換装置。
【請求項３】前記請求項２に記載のテキスト変換装置
において、前記出力テキスト候補生成部は、入力テキストの各要素に対応する前記同義語に基づい
て、前記入力テキストに対応する新たなテキストパター
ンを生成することを特徴とするテキスト変換装置。
【請求項４】前記請求項１乃至３のいずれか記載のテ
キスト変換装置において、前記テキスト変換装置は、さらに、以前に選択された代替テキストの履歴を保持する出力テ
キスト履歴記憶手段を具備し、前記出力テキスト選択部は、入力テキストに対応する前
記出力テキスト履歴記憶手段が保持する代替テキストの
履歴に含まれないテキストを優先的に選択することを特
徴とするテキスト変換装置。
【請求項５】前記請求項２乃至４のいずれか記載のテ
キスト変換装置において、前記出力テキスト選択部は、前記代替テキスト群の各代替テキストについて、該代替
テキストの各要素と入力テキストの各要素との比較を行
い、前記代替テキストの各要素が前記入力テキストの各要素
または該各要素の同義語と一致する場合に前記代替テキ
ストの各要素に対して得点を付与し、前記各代替テキストごとに算出された前記得点の総和の
高い代替テキストを優先的に選択することを特徴とする
テキスト変換装置。
【請求項６】入力テキストから該入力テキストと同等
の意味を有する代替テキストへの変換を行うテキスト変
換プログラムを格納したコンピュータ読み取り可能な記
録媒体であって、各要素ごとに区切られた入力テキストから、テキストの
各要素ごとに予め定義され、前記各要素に対応する代替
要素に基づいて、前記入力テキストの代替テキスト群を
生成するステップと、前記代替テキスト群から出力すべき代替テキストを選択
するステップと、前記選択された代替テキストを出力するステップとを含
むことを特徴とするテキスト変換プログラムを格納した
コンピュータ読み取り可能な記録媒体。