JP2000067045A - テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体 - Google Patents

テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000067045A
JP2000067045A JP10234498A JP23449898A JP2000067045A JP 2000067045 A JP2000067045 A JP 2000067045A JP 10234498 A JP10234498 A JP 10234498A JP 23449898 A JP23449898 A JP 23449898A JP 2000067045 A JP2000067045 A JP 2000067045A
Authority
JP
Japan
Prior art keywords
text
alternative
output
input
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10234498A
Other languages
English (en)
Inventor
Yuji Wada
祐司 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP10234498A priority Critical patent/JP2000067045A/ja
Publication of JP2000067045A publication Critical patent/JP2000067045A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 マンマシンインターフェースにおいて、単調
なテキスト出力の繰り返しを排除して、自然な言語表現
を実現する。 【解決手段】 テキストの各要素ごとに代替要素が予め
定義された変換辞書を記憶する変換辞書記憶手段306
と、各要素ごとに区切られた入力テキストから変換辞書
306中の各要素に対応する代替要素に基づいて、入力
テキストの代替テキスト群を生成する出力テキスト候補
生成部(303、304、305)と、代替テキスト群
から出力すべき代替テキストを選択する出力テキスト選
択部(308、309)と、選択された代替テキストを
出力するテキスト出力部312とを具備し、入力テキス
トから該入力テキストと同等の意味を有する代替テキス
トへの変換を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト変換装置
およびテキスト変換プログラムを格納したコンピュータ
読み取り可能な記憶媒体に関し、特に、マンマシンイン
ターフェースにおいて、テキストを音声などで出力する
際に、入力テキストから同等の意味を有するテキストに
柔軟かつ効率的に変換することによって、単調なテキス
ト出力の繰り返しを排除して、自然な言語表現を実現す
るための技術に関する。
【0002】
【従来の技術】近年、音声・文字・画像などのマルチメ
ディア技術の発達を背景として、ユーザーとコンピュー
タとの間のインターフェースであるマンマシンインター
フェース(Man Machine Interface,以下「MMI」と称
する。)は、多様化している。特に、最近のMMIにお
いては、ユーザーが認識し易く、誤る可能性の少ない、
操作性のよいインターフェース(入出力機能)を提供す
ることがシステム設計上で求められている。
【0003】これらの要請に応えるため、コンピュータ
での処理結果であるテキストをそのままディスプレーや
プリンタなどに出力するのではなく、音声合成出力、手
書き文字入力、アイコン・メニューによる入力、グラフ
ィック出力などの人間にとって認識しやすい形態での入
出力を行う技術が一般化し、実用に供されている。
【0004】しかしながら、従来のMMI技術には、以
下の問題点があった。すなわち、コンピュータ内部での
処理結果を出力するMMIの出力系においては、同一の
意味内容のテキストを連続して出力すべき場合に、単一
のテキスト表現をそのまま繰り返して出力していた。か
かるテキストの繰り返し表現は、ユーザーに単調な印象
を与えてしまう。特に出力テキストから音声合成して音
声出力を行った場合には、通常多様な言い換え表現を用
いる対人間の会話などと比較して、この単調さは人間に
とって逆に極めて不自然な表現となり、MMIを著しく
低下させていた。
【0005】
【発明が解決しようとする課題】以上のように、本発明
は、従来技術における、MMIにおいて、同等の意味内
容テキストを音声合成などにより出力する際に、単調な
繰り返し表現が行われていたために、ユーザーにとって
不自然な表現な表現がなされていたという問題点を解決
するためになされたものである。
【0006】そして、その目的とするところは、MMI
において、テキストを音声などで出力する際に、入力テ
キストから同等の意味を有するテキストに柔軟かつ効率
的に変換することによって、単調なテキスト出力の繰り
返し表現を排除して、ユーザーにとって自然な言語表現
を実現することを可能とするテキスト変換装置及びテキ
スト変換プログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することにある。
【0007】また、他の目的は、入力テキスト中の要素
数とは異なる多様なテキストを出力候補とすることによ
って、より多様な代替表現を実現することにある。
【0008】また、他の目的は、代替テキストを選択す
る際に、同等の意味内容の以前のテキスト出力の履歴を
考慮することによって、各処理についての一連のテキス
ト出力で繰り返しのない、より自然な代替表現を実現す
ることにある。
【0009】また、他の目的は、代替テキストを選択す
る際に、テキストの各要素ごとに得点付けを行うことに
よって、より迅速・効率的に同等の意味を持つテキスト
のみへの変換を実現することにある。
【0010】
【課題を解決するための手段】上記の課題を実現するた
めの本発明の特徴は、テキストの要素単位に代替要素が
定義された変換辞書を用いて、入力テキストと同等の意
味のテキストを動的に生成するインターフェースを提供
する点にある。
【0011】かかる機能を実現するために、請求項1の
発明は、入力テキストから該入力テキストと同等の意味
を有する代替テキストへの変換を行うテキスト変換装置
であって、テキストの各要素ごとに代替要素が予め定義
された変換辞書を記憶する変換辞書記憶手段と、各要素
ごとに区切られた入力テキストから前記変換辞書中の前
記各要素に対応する前記代替要素に基づいて、前記入力
テキストの代替テキスト群を生成する出力テキスト候補
生成部と、前記代替テキスト群から出力すべき代替テキ
ストを選択する出力テキスト選択部と、前記選択された
代替テキストを出力するテキスト出力部とを具備するこ
とを特徴とする。
【0012】上記構成によれば、テキストの各要素ごと
に代替要素を保持する変換辞書を用いて、入力テキスト
から同等の意味を有する代替テキストに柔軟かつ効率よ
く変換することが可能となる。このため、変換対象の文
を単位に代替要素を定義した場合に用にコンピュータ資
源を増大させることなく、効率よく、単調なテキスト出
力の繰り返し表現を排除することが可能となる。
【0013】ここで、テキストとは、人間が読むことの
できる文字列を意味し、文を文節などの各要素に分割し
たものまたは文自体を単位とする。
【0014】ここで、要素とは、文節または単語を意味
する。
【0015】また、請求項2の発明は、前記変換辞書中
の前記代替要素は、前記テキストの各要素を含むテキス
トの文例である使用例および/または前記テキストの各
要素の同義語を含んで構成されることを特徴とする。
【0016】上記構成によれば、入力テキスト中の要素
数とは異なる多様なテキストを出力候補のテキストとす
ることによって、より多様な代替テキストを生成するこ
とが可能となる。
【0017】また、請求項3の発明は、前記出力テキス
ト候補生成部は、入力テキストの各要素に対応する前記
同義語に基づいて、前記入力テキストに対応する新たな
テキストパターンを生成することにより、変換辞書に定
義された一義的な代替テキストのみならず、同義語を用
いて入力テキストと同等の意味内容を有するテキストパ
ターンを代替テキストとして生成することが可能とな
る。
【0018】また、請求項4の発明は、上記テキスト変
換装置は、さらに、以前に選択された代替テキストの履
歴を保持する出力テキスト履歴記憶手段を具備し、前記
出力テキスト選択部は、入力テキストに対応する前記出
力テキスト履歴記憶手段が保持する代替テキストの履歴
に含まれないテキストを優先的に選択することを特徴と
する。
【0019】上記構成によれば、代替テキストを選択す
る際に、同等の意味内容の以前のテキスト出力の履歴を
考慮することが可能となる。これにより、各処理につい
ての一連のテキスト出力で繰り返しのないより自然な代
替表現を実現することが可能となる。
【0020】また、請求項5の発明は、前記出力テキス
ト選択部は、前記代替テキスト群の各代替テキストにつ
いて、該代替テキストの各要素と入力テキストの各要素
との比較を行い、前記代替テキストの各要素が前記入力
テキストの各要素または該各要素の同義語と一致する場
合に前記代替テキストの各要素に対して得点を付与し、
前記各代替テキストごとに算出された前記得点の総和の
高い代替テキストを優先的に選択することを特徴とす
る。
【0021】上記構成によれば、代替テキストを選択す
る際に、テキストの各要素ごとに得点付けを行うことに
よって、より迅速・効率的に同等の意味を持つテキスト
のみへの変換を行うことが可能となる。
【0022】さらに、請求項6の発明(記録媒体)は、
入力テキストから該入力テキストと同等の意味を有する
代替テキストへの変換を行うテキスト変換プログラムを
格納したコンピュータ読み取り可能な記録媒体であっ
て、各要素ごとに区切られた入力テキストから、テキス
トの各要素ごとに予め定義され、前記各要素に対応する
代替要素に基づいて、前記入力テキストの代替テキスト
群を生成するステップと、前記代替テキスト群から出力
すべき代替テキストを選択するステップと、前記選択さ
れた代替テキストを出力するステップとを含むことを特
徴とする。
【0023】上記構成によれば、テキストの各要素ごと
に代替要素を保持する変換辞書を用いて、入力テキスト
から同等の意味を有する代替テキストに変換することが
可能となる。このため、変換対象の文を単位に代替要素
を定義した場合に用にコンピュータ資源を増大させるこ
となく、効率よく、単調なテキスト出力の繰り返し表現
を排除することが可能となる。
【0024】
【発明の実施の形態】以下、図面を用いて本発明の実施
形態を詳細に説明する。
【0025】図2は、本実施形態のMMI中の位置づけ
の例を説明する図である。図2に示すように、本実施形
態に係るテキスト変換装置3は、コンピュータ内部処理
の結果データS1に基づきテキスト生成部2により生成
されたテキストS2の入力を受け、変換後のテキストS
3を出力する。この変換後のテキストS3は、そのまま
ディスプレーなどの出力装置に対してテキストとして出
力されてもよいが、さらに音声合成部4により音声デー
タS4などのマルチメディアデータに変換されて出力さ
れてもよい。いわば、本実施形態に係るテキスト変換装
置3は、コンピュータ上のマンマシンインターフェース
部1の中のテキスト変換インターフェースとして機能す
る。
【0026】まず、本実施形態の構成を、図1を用いて
説明する。
【0027】図1に示すように、本実施形態は、テキス
ト入力部301と、形態素解析部302と、使用例抽出
部303と、同義語検索部304と、テキスト作成部3
05と、同義語・使用例辞書306と、変換テキスト保
存メモリ307と、変換テキスト得点付け部308と、
出力用変換テキスト選択部309と、乱数発生器310
と、出力用テキスト履歴キャッシュメモリ311と、テ
キスト出力部312とにより構成される。
【0028】テキスト入力部301は任意のテキストの
入力を受け、入力テキストを形態素解析部302へ出力
する。
【0029】形態素解析部302はテキスト入力部30
1から入力される入力テキストを名詞・動詞・助詞など
各語ごとの形態素に分解して解析を行う。形態素解析部
302は、この解析の結果に基づき入力テキストを文節
ごとに切り出し、切り出したそれぞれを要素として変換
テキスト保存メモリ307へ蓄積する。同時に、形態素
解析された文節ごとに区切られたテキストを使用例抽出
部303と同義語検索部304の双方へ出力する。尚、
形態素解析部302により区切られたテキストのそれぞ
れは、以下において各要素として扱われる。
【0030】尚、テキスト入力部301および形態素解
析部302とは、必ずしも本実施形態の内部に構成され
ることを要さず、図1中のテキスト生成部2などの本実
施形態の外部に実装されることも可能である。この場合
には、本実施形態に対して、文節ごとの区切りを付与さ
れた形式でテキストが入力される。
【0031】変換テキスト保存メモリ307は本実施形
態で変換テキストを中間的に保持する記憶手段であり、
入力テキストの他、使用例抽出部303・同義語検索部
304・テキスト作成部305の各部が中間的に出力す
るテキストが入力テキストに対応づけて格納される。変
換テキスト保存メモリ307は、要求される処理速度や
データ量に応じてメモりやファイルなどに任意に配置さ
れる。変換テキスト保存メモリ307は、入力されたテ
キストを保存し、後述する変換テキスト得点付け部30
8へ出力する。但し、保存されているテキスト中に、メ
モリに入力されたテキストと同じテキストが存在する場
合、重複して保管することはせず、入力されたテキスト
を破棄する。
【0032】使用例抽出部303は入力された文節ごと
のテキスト(即ち、各要素)に対応する使用例を、同義
語・使用例辞書306から抽出する。ここで、使用例と
は、各要素ごとに定義されたテキスト文例をいい、通常
は当該要素を含むテキストの文例により構成される。抽
出された使用例は変換テキスト保存メモリ307に蓄積
される。但し、例外として、テキスト入力部301に入
力されたテキストの要素数自体が1である場合には、変
換テキスト保存メモリ307に対して使用例は抽出され
ず入力要素と後述する同義語のみが出力される。辞書3
06に登録されている使用例は予め文節ごとに区切られ
ている。この区切りにより、形態素解析部302により
形態素解析する必要なしに変換テキスト保存メモリ30
7に直接出力することが可能となる。
【0033】同義語検索部304は形態素解析部302
から入力された文節ごとのテキストの同義語もしくは取
って代わることの可能な要素(以下、単に「同義語」と
称する)を同義語・使用例辞書306から抽出する。抽
出された同義語は変換テキスト保存メモリ307に蓄積
される。同義語検索部304は、同時に、入力されたテ
キストおよび抽出したテキストをテキスト作成部305
へ出力する。
【0034】テキスト作成部305は入力されたテキス
トに基づいて、新たなテキストパターンを作成する。た
とえば、入力されたテキストの要素数が4であると仮定
する。これらの各要素を、入力テキストが構成されてい
る順に「要素1」「要素2」「要素3」「要素4」とす
る。一方、それぞれの要素の同義語の数を「要素1」は
2、「要素2」は3、「要素3」は1、「要素」は2で
あるとする。各同義語は、「要素11」、「要素12」
のように入力要素のラベルの後ろに番号をつけたものを
そのラベルとして付与される。テキスト作成部305
は、図3に示すように、「要素1」とその同義語を1列
目とし、「要素2」とその同義語を2列目とするよう
に、各要素とその同義語を対応づけて順に並べる。テキ
スト作成部305は、変換テキスト保存メモリ307か
ら入力テキストの各要素および対応する同義語を読み込
み、それぞれの要素にラベルを付与し、すべてのラベル
を横につなげることによって新たなテキストパターンを
生成する。図3の例の場合には、すべての組み合わせに
より作成されるテキスト数は全部で72通りとなる。
【0035】尚、以下では、入力テキスト自体・入力テ
キストの各要素・各要素に対応する同義語・各要素に対
応する使用例・テキスト作成部305により作成された
テキストパターンにより構成されるテキストの集合を、
代替テキスト群と称する。この代替テキスト群は、変換
テキスト保存メモリ307に出力・保存され、変換後の
出力テキストの候補とされる。
【0036】同義語・使用例辞書306には、各要素ご
とに、各要素の読みと、各要素の同義語と、各要素の使
用例とが登録されている。1つの要素に対して同義語が
1つ又は複数個登録されている。加えて、当該要素が用
いられているテキスト文例が使用例として1つもしくは
複数個登録されている。テキスト文例は通常1つの文で
構成される。
【0037】尚、これらの使用例として、各種の接続詞
や「えー」・「かなあ」などの冗長語を含んだテキスト
文例を登録しておいてもよい。これらの語を含んだ使用
例は、より自然な表現に近いテキストに変換することを
可能とする。
【0038】図4に、同義語・使用例辞書306の内容
の一例を示す。図4に示すように、同義語・使用例辞書
306は、各要素に対して、当該要素には「0」、読み
には「1」、同義語には「2」、使用例には「3」のラ
ベルをそれぞれ付与する。「0」及び「1」のラベルは
要素に対して必ず1つ存在する。一方、「2」及び
「3」のラベルは必須ではなく、0個もしくは1個以上
存在すればよい。
【0039】同義語・使用例辞書306は、漢字及び仮
名で入力されるテキストを取り扱うために要素の読みを
同時に対応づけて記憶するので、最終的にテキスト出力
部312から出力されるテキストを漢字または仮名のい
ずれの形式で任意に出力することができる。さらに、漢
字仮名変換辞書などの別の辞書を用いることなく、読み
の仮名を用いて各要素を50音順にソートすることがで
きるので、辞書306の管理・編集を容易に行うことを
可能とする。
【0040】また、ある要素に対応づけて登録された同
義語を用いて、新たな要素を辞書306の新たな項目と
して生成することができる。同時に各使用例についても
同義語の部分を交換することによって容易に新たな使用
例を作成することができる。
【0041】使用例が各要素に対応づけて登録されてい
るので、単に各要素ごとに置き換えを行うのではなく、
要素数を増減した任意の代替テキストを柔軟に作成する
ことができる。尚、同義語と使用例とは、対応する要素
によりポイントされていれば、必ずしも同一のメモリ領
域やファイルに存在することを要しないことは言うまで
もない。
【0042】変換テキスト得点付け部308は変換テキ
スト保存メモリ307に保存された代替テキストの各々
が出力すべきテキストであるかどうかを判断するため各
代替テキストに対する得点付けを行う。この得点付け
は、具体的には、1つの代替テキストに注目した場合、
すべての要素に対して、各要素が入力要素と一致する
か、入力要素の同義語の要素と一致するか、入力要素と
同義語の要素のいずれとも不一致であるかに従って行わ
れる。ある要素が入力要素のいずれかに一致した場合に
は、その変換テキストの得点をa点加える。入力要素の
同義語の要素に一致した場合には、b点加える。双方と
もに一致しない場合には、c点引く。変換テキスト得点
付け部308は、変換テキスト保存メモリ307中のす
べての代替テキストに対して得点付けを行い、総得点d
以上の代替テキストのみを変換テキスト得点付け部30
8の出力とする。この総得点dは、各テキストの要素数
に応じて可変的に決定される。但し、当該テキストの要
素数が1の場合は、上記の得点付けにおいて必ず総得点
がdを越えて出力候補として選択されてしまう。このた
め例外として、テキストの要素数が1である場合には、
入力テキストの要素数自体が1である場合を除いては得
点がdを越えていても変換テキスト得点付け部308の
選択対象とはしない。これらの得点付けにより選択され
た出力候補の代替テキスト群は、出力用変換テキスト選
択部309に対して出力される。
【0043】出力用テキスト履歴キャッシュメモリ31
1はキャッシュ構造であり、e個のテキストキャッシュ
により構成される。キャッシュ構造は、ファーストイン
・ファーストアウト(FIFO)型、ラストイン・ファ
ーストアウト(LIFO)型などの形式が任意に選択さ
れる。また、キャッシュメモリ311の配置場所は、変
換テキスト保存メモリと同様、任意に選択される。
【0044】出力用変換テキスト選択部309は、変換
テキスト得点付け部308から出力される1つ以上の代
替テキストにより構成される代替テキスト群の中から1
つの代替テキストを選択し、変換後出力テキストとして
出力する。
【0045】出力用変換テキスト選択部309の行う選
択処理の詳細を以下に説明する。ここでの選択は、具体
的には、変換テキスト得点付け部308で各テキストに
与えられた得点と、乱数発生器310で発生される乱数
と、出力用テキスト履歴キャッシュメモリ311にキャ
ッシュされているテキストとを用いて行われる。
【0046】出力用変換テキスト選択部309は、最初
に、入力された代替テキスト群の中から最も得点の高い
代替テキストを探索し、出力候補とする。ここで、その
テキストが出力用テキスト履歴キャッシュメモリ311
に保存されていない場合には、この代替テキストが選択
され、出力用変換テキスト選択部309の出力テキスト
となる。一方、キャッシュメモリ311に保存されてい
る場合には、当該代替テキストを出力候補から外し、当
該テキストを除いたすべての代替テキストの中から乱数
発生器310から得られた乱数に従いいずれかの代替テ
キストをランダムに探索する。この探索された代替テキ
ストが、次の出力候補とされる。この次の出力候補が出
力用テキスト履歴キャッシュメモリに存在しない場合、
この出力候補が選択され、出力用変換テキスト選択部3
09の出力とされる。一方、キャッシュメモリに存在し
た場合、その代替テキストを除いた残りの代替テキスト
群から再度乱数を用いて次の出力候補となる代替テキス
トを探索する。
【0047】以上の手順を、キャッシュメモリに存在し
ないいずれかの代替テキストが選択するか、または入力
テキストがすべてなくなるまで繰り返し行う。与えられ
た代替テキスト群中のすべての代替テキストが処理さ
れ、これらの代替テキストのすべてがキャッシュメモリ
307に存在した場合には、1つの出力を得るために、
入力されたすべてのテキストから再度乱数によって1つ
の代替テキストを選択し、このテキストを出力用変換テ
キスト選択部309の出力とする。ここで選択された代
替テキストは、テキスト出力部312に対して出力され
るとともに、次の入力テキストについての出力用変換テ
キスト選択部309における選択処理に用いるべく出力
用テキスト履歴キャッシュメモリ311へ出力される。
【0048】この出力用テキスト履歴キャッシュメモリ
311を、出力テキストの選択に用いることによって、
単に乱数により1つの出力テキストを選択する場合と比
較して、以前に出力したテキストを出力候補から除外す
ることで繰り返し表現を避けることが可能となる。
【0049】テキスト出力部312は、出力用変換テキ
スト選択部309から入力される代替テキストを変換後
出力テキストとして、テキスト変換装置の外部に出力す
る。この出力先は、図2に示す音声合成部4に対してな
されてもよく、またディスプレーなどに直接なされても
よい。
【0050】次に、図11を用いて、本実施形態におけ
るハードウエア構成を説明する。本実施形態に係るテキ
スト変換装置の実施には、上述の機能を実現するプログ
ラムをロードすることで処理を実行可能とするコンピュ
ータシステムを用いる。このコンピュータシステムに
は、いわゆる汎用機、ワークステーション、PC、NC
(Network Computer)等が含まれる。本実施形態で用い
るコンピュータシステムのハードウエアは、図11に示
すように、各種処理を行うCPU501と、プログラム
メモリ503・データメモリ504等のメモリと、FD
・CDなどの外部記憶装置603と、キーボード・マウ
ス等の入力装置602と、ディスプレー・プリンタ・音
声応答装置等の出力装置601とを備える。コンピュー
タシステムの内部5と外部の入力装置602・出力装置
601・外部記憶装置603との間は、I/Oインター
フェース505により接続される。また内部のCPU5
01、メモリ503・504、I/Oインターフェース
505はそれぞれバス502を介して相互に連動する。
【0051】さらに、本実施形態を実施するためのコン
ピュータシステムは、単一のコンピュータであってもよ
く、またローカル又はリモートにネットワーク接続され
たサーバーマシンとクライアントマシンにより構成され
てもよい。例えば、本実施形態に係るテキスト変換装置
をサーバーマシンに配置し、図2に示す音声合成部4な
どユーザーとの直接のマンマシンインターフェース部分
は各クライアントマシンに配置して、各ユーザーに対す
る本実施形態の機能を並行的に提供することもできる。
【0052】尚、上述したテキスト変換装置3を実現す
るためのプログラムは、各種記録媒体に保存することが
できる。この記録媒体を、上記ハードウエアを具備する
コンピュータシステムにより読み出し、記録媒体に保存
されたプログラムを実行することにより、本発明を実施
することができる。ここで記録媒体とは、外部記憶装置
603の他、例えばメモリカード・磁気ディスク・光デ
ィスク等プログラムを記録することができる装置全般を
含む。
【0053】本実施形態は、上記のように構成されてい
る。以下にこの処理の流れを、図5乃至図10を用いて
具体的に説明する。
【0054】ここでは、「ではお客様のお名前を言って
ください」というテキストがテキスト入力部301に入
力された場合を仮定する。
【0055】入力テキストは、形態素解析部302で文
節ごとに「では」「お客さまの」「名前を」「言ってく
ださい」の4つの要素に区切られる。この入力テキスト
は要素ごとに区切られたテキストとして、変換テキスト
保存メモリ307に格納される。この区切られた入力テ
キストは、同時に使用例抽出部303と同義語検索部3
04とへ出力される。
【0056】これらの4つの要素に対する同義語・使用
例辞書306中の定義内容が、図5の内容である場合の
例題とする。尚、以下の説明において、テキストの文節
(各要素)は空白によって区切られているものとする。
【0057】入力された各要素について、図5の同義語
・使用例辞書306中の各要素に対応づけて記憶された
使用例が、使用例抽出部303により抽出される。この
抽出は、各要素の項目中の「3」のラベルの要素を検索
することにより行われる。抽出された使用例は、変換テ
キスト保存メモリ307に保存される。この時点での変
換テキスト保存メモリ307に保存されるテキストを、
図6に示す。図6に示すように、この時点の変換テキス
ト保存メモリ307中には、区切られた入力テキスト自
体、入力テキストの各要素、および各要素に対応する使
用例が保存されている。但し、同義語・使用例辞書30
6中で「言って下さい」の項目に登録されている「名前
を言って下さい」は、「名前を」の項目に同様のものが
存在していて既に抽出されており、「言ってください」
の項目に登録されている「名前を言ってください」は重
複するテキストであるため破棄される。
【0058】次に、入力された各要素について、図5の
同義語・使用例辞書306中の各要素の同義語の要素
が、同義語検索部304により抽出される。この抽出
は、各要素の項目中の「2」のラベルの要素を検索する
ことにより行われる。ここで抽出される要素は、「それ
では」、「お名前を」、「おっしゃってください」であ
る。ここで抽出された同義語は、変換テキスト保存メモ
リ307に追加保存される。尚、使用例抽出部303と
同義語検索部304との処理はシーケンスを保持して行
われることを要さず、いずれの処理を先に行ってもよ
く、同時並行的に処理を行ってもよい。
【0059】次に、テキスト作成部305では、入力テ
キストの各要素と対応する同義語とから、新たなテキス
トパターンが作成される。この例題では、テキスト作成
部305に対して、「では」、「それでは」、「お客様
の」、「名前を」、「お名前を」、「言ってくださ
い」、「おっしゃってください」が入力される。
【0060】図7(a)に示すように、まずこれらの入
力テキストの各要素が順序を変えることなく横に並べら
れる。次に、これらの入力テキストの各要素に対応する
同義語の要素が対応する入力各要素に対して縦に並べら
れる。この段階で、横に並ぶすべての要素を結合し、こ
の組み合わせに従い新たなテキストパターンが作成され
る。この例題の場合、得られるテキストは図7(b)に
示す8つのパターンである。これらのパターンは、変換
テキスト保存メモリ307へ追加保存される。
【0061】但し、図7(b)のパターンのうち、「で
はお客さまの名前を言ってください。」と「ではお客さ
まのお名前をおっしゃってください。」とはそれぞれ入
力テキスト自体または使用例として既に同メモり307
に保存されているため、破棄される。図8に、テキスト
作成部305の処理の後の変換テキスト保存メモリ30
7の内容を示す。この段階では、入力テキスト自体・入
力テキストの各要素・同義語・使用例・新たなテキスト
パターンがそれぞれ保存され、1つの代替テキスト群を
形成している。
【0062】次に、変換テキスト得点付け部308によ
り、変換テキスト保存メモリ307に保存されている各
代替テキストに得点が付与される。ここで、例えば、a
=3,b=2,c=5,d=要素数×2とした場合に
は、図8に示す各テキストは、図9に示すように得点付
けされる。尚、a、b、c、dの値は任意に決定される
が、a=3z,b=2z,c=5z,d=(要素数×
2)z(但し、zは自然数とする)とした重み付けが望
ましい1態様である。
【0063】図9に示す得点付けされた代替テキストの
うち、各代替テキストの得点が当該代替テキストの要素
数×2を越え、かつ当該代替テキストの要素数が2個以
上である代替テキストが出力候補として抽出される。抽
出された代替テキスト群は、出力変換テキスト選択部3
09に出力される。
【0064】図10に、上述の条件に従いこの例題で抽
出される代替テキスト群を示す。
【0065】最後に、出力用変換テキスト選択部309
で、図10の代替テキスト群の中から、出力用テキスト
履歴キャッシュメモリ311を参照して、1つの代替テ
キストが変換後出力テキストとして選択される。この例
題では、まず、テキスト入力部301への入力テキスト
自体である得点12点の「ではお客さまの名前を言って
ください」が、最高点を得た第1の出力候補テキストと
して検索される。
【0066】このテキストが出力用テキスト履歴キャッ
シュメモリ311になければ、当該テキストが選択さ
れ、テキスト出力部312への出力は「ではお客さまの
名前を言ってください」となる。一方、履歴キャッシュ
メモリ311にこのテキストが存在する場合には出力候
補からは除外され、当該テキストを除いた13個のテキ
ストからランダムに次の出力候補のテキストが探索され
る。
【0067】この次の出力候補のテキストが履歴キャッ
シュメモリ311に存在しなければこの出力候補のテキ
ストが選択され、出力される。一方、履歴キャッシュメ
モリ311に存在する場合には、当該テキストを除いた
12個のテキストから次の出力候補のテキストが探索さ
れる。
【0068】これらの変換後出力テキストの選択処理
が、処理対象となるテキストが履歴キャッシュメモリ3
11に存在しなくなるまで繰り返される。これらの選択
処理で出力候補とされたテキストのすべてが履歴キャッ
シュメモリ311に存在する場合には、この場合にも1
つの変換後出力テキストを出力すべく、再度、すべての
出力用変換テキスト選択部309に入力されたテキスト
中からランダムに変換後出力テキストが選択され、テキ
スト出力部312に対して出力される。テキスト出力部
312へ出力されたテキストはすべていったん出力用テ
キストキャッシュメモリ等に保持されて適宜利用されて
もよい。
【0069】尚、上述した本実施形態のテキスト変換処
理の用途は、音声合成などに限定されず、あらゆるMM
Iに応用可能であることは言うまでもない。また、本発
明は上述した実施形態に限定されるものではなく、本発
明の要旨を変更しない範囲内で種々の変形が可能であ
る。
【0070】本実施形態によれば、以下のような効果が
得られる。
【0071】即ち、テキストの各要素ごとに代替要素を
同義語・使用例辞書306に予め保持するので、入力テ
キストと同等の意味を持つテキストをこの辞書306に
基づき容易かつ効率よく作成することができる。
【0072】この同義語・使用例辞書306には、各要
素についてのテキスト文例である使用例を併せて記憶し
ているので、入力テキストの要素数とは異なる要素数の
テキストを柔軟に作成することができる。
【0073】また、単に辞書306に登録されたテキス
トだけではなく、入力各要素と対応する同義語の要素と
の入力された並びに従った組み合わせから新たなテキス
トパターンを作成するので、辞書306のデータ量を抑
制しつつ、効率よくテキストを作成することができる。
【0074】出力テキストの選択の際には、出力候補と
なったテキストすべてに対して入力各要素と同義語の要
素に対して重み付けして得点を付与し、この得点に応じ
て優先的に変換後出力テキストの選択を行うので、作成
されたテキスト群から入力テキストと同等の意味を持つ
テキストを優先的に選択することができる。
【0075】この出力テキストの選択においては、乱数
のみではなく、以前の出力履歴をキャッシュしてこの出
力履歴にないテキストを優先的に選択するので、単調な
繰り返し表現を排除することができる。
【0076】同義語・使用例辞書306中には、テキス
トの各要素ごとに、要素・要素の読み・同義語・使用例
がラベル付けされて登録される。この辞書306に各要
素の読みを含むことにより、辞書構成において漢字仮名
変換辞書なしに50音訓順に並べ変えることができ、辞
書の管理・編集が容易になる。
【0077】また、使用例は要素ごとに区切った形で登
録されているので、1つの要素に対して同義語と使用例
との双方が登録されている場合に、同義語自体を新たな
登録要素として置き換えて動的に使用例の構成を行うこ
とができる。
【0078】
【発明の効果】以上説明したように、本発明によれば、
以下に記載されるような効果を奏する。
【0079】即ち、請求項1記載の本発明に係るテキス
ト変換装置および請求項6記載の本発明に係るテキスト
変換プログラムを格納した記録媒体は、マンマシンイン
ターフェースにおいて、テキストの各要素ごとに代替要
素を保持する変換辞書を用いて、入力テキストから同等
の意味を有する代替テキストに柔軟かつ効率的に変換す
る機能を提供する。このため、コンピュータ資源を増大
させることなく、単調なテキスト出力の繰り返し表現を
排除して、ユーザーにとって自然な言語表現を実現する
ことが可能となるという効果が得られる。
【0080】また、請求項2に記載の本発明に係るテキ
スト変換装置は、テキストの各要素についての同義語や
使用例を含む変換辞書を用いて、入力テキスト中の要素
数とは異なる多様なテキストを生成する機能を有するの
で、入力テキストに対する、より多様な代替表現を実現
することが可能となる。
【0081】また、請求項3に記載の本発明に係るテキ
スト変換装置は、単に辞書に登録されたテキストだけで
はなく、入力各要素と対応する同義語の要素との入力さ
れた並びに従った組み合わせから新たなテキストパター
ンを作成する機能を有するので、必要とするコンピュー
タ資源の量を抑制しつつ、効率よくテキストを作成する
ことが可能となる。
【0082】また、請求項4に記載の本発明に係るテキ
スト変換装置は、出力テキスト履歴を保持し、代替テキ
ストを選択する際に、同等の意味内容の以前のテキスト
出力の履歴を参照する機能を有するので、コンピュータ
内部での各処理についての一連のテキスト出力において
繰り返しのないより自然な代替表現を実現することが可
能となる。
【0083】また、請求項5に記載の本発明に係るテキ
スト変換装置は、代替テキストを選択する際に、テキス
トの各要素ごとに得点付けを行う機能を有するので、よ
り迅速・効率的に同等の意味を持つテキストのみへの変
換を実現することが可能となる。
【0084】このように、本発明を用いれば、ユーザー
が認識し易い自然な言語表現による入出力インターフェ
ースを提供するので、MMIが著しく向上する。
【図面の簡単な説明】
【図1】本発明の実施形態に係るテキスト変換装置の機
能構成を示すブロック図である。
【図2】本発明に係るテキスト変換装置のマンマシンイ
ンターフェース内での他の機能との関係の一例を説明す
る図である。
【図3】テキストと各要素との関係を説明する図であ
る。
【図4】本発明の実施形態に係る変換辞書の内容の一例
を説明する図である。
【図5】本発明の実施形態に係る変換辞書の例題テキス
トに対応する内容の一例を説明する図である。
【図6】使用例抽出後の変換テキスト保存メモリ中のテ
キストの内容を説明する図である。
【図7】本発明の実施形態に係るテキスト作成部の作成
するテキストの内容を説明する図である。
【図8】本発明の実施形態に係るテキスト作成部におけ
る処理後の変換テキスト保存メモリ中のテキストの内容
を説明する図である。
【図9】図8に示すテキストに対し、変換テキスト得点
付け部により得点付けがなされた後の状態を説明する図
である。
【図10】図9に示すテキストから抽出されたテキスト
の内容を説明する図である。
【図11】本発明の実施形態に係るテキスト変換装置の
ハードウエア構成を説明する図である。
【符号の説明】
S1 処理結果データ S2 テキストデータ S3 変換後テキストデータ S4 音声データ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力テキストから該入力テキストと同等
    の意味を有する代替テキストへの変換を行うテキスト変
    換装置であって、 テキストの各要素ごとに代替要素が予め定義された変換
    辞書を記憶する変換辞書記憶手段と、 各要素ごとに区切られた入力テキストから前記変換辞書
    中の前記各要素に対応する前記代替要素に基づいて、前
    記入力テキストの代替テキスト群を生成する出力テキス
    ト候補生成部と、 前記代替テキスト群から出力すべき代替テキストを選択
    する出力テキスト選択部と、 前記選択された代替テキストを出力するテキスト出力部
    とを具備することを特徴とするテキスト変換装置。
  2. 【請求項2】 前記請求項1に記載のテキスト変換装置
    において、 前記変換辞書中の前記代替要素は、 前記テキストの各要素を含むテキストの文例である使用
    例および/または前記テキストの各要素の同義語を含ん
    で構成されることを特徴とするテキスト変換装置。
  3. 【請求項3】 前記請求項2に記載のテキスト変換装置
    において、 前記出力テキスト候補生成部は、 入力テキストの各要素に対応する前記同義語に基づい
    て、前記入力テキストに対応する新たなテキストパター
    ンを生成することを特徴とするテキスト変換装置。
  4. 【請求項4】 前記請求項1乃至3のいずれか記載のテ
    キスト変換装置において、 前記テキスト変換装置は、さらに、 以前に選択された代替テキストの履歴を保持する出力テ
    キスト履歴記憶手段を具備し、 前記出力テキスト選択部は、入力テキストに対応する前
    記出力テキスト履歴記憶手段が保持する代替テキストの
    履歴に含まれないテキストを優先的に選択することを特
    徴とするテキスト変換装置。
  5. 【請求項5】 前記請求項2乃至4のいずれか記載のテ
    キスト変換装置において、 前記出力テキスト選択部は、 前記代替テキスト群の各代替テキストについて、該代替
    テキストの各要素と入力テキストの各要素との比較を行
    い、 前記代替テキストの各要素が前記入力テキストの各要素
    または該各要素の同義語と一致する場合に前記代替テキ
    ストの各要素に対して得点を付与し、 前記各代替テキストごとに算出された前記得点の総和の
    高い代替テキストを優先的に選択することを特徴とする
    テキスト変換装置。
  6. 【請求項6】 入力テキストから該入力テキストと同等
    の意味を有する代替テキストへの変換を行うテキスト変
    換プログラムを格納したコンピュータ読み取り可能な記
    録媒体であって、 各要素ごとに区切られた入力テキストから、テキストの
    各要素ごとに予め定義され、前記各要素に対応する代替
    要素に基づいて、前記入力テキストの代替テキスト群を
    生成するステップと、 前記代替テキスト群から出力すべき代替テキストを選択
    するステップと、 前記選択された代替テキストを出力するステップとを含
    むことを特徴とするテキスト変換プログラムを格納した
    コンピュータ読み取り可能な記録媒体。
JP10234498A 1998-08-20 1998-08-20 テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体 Pending JP2000067045A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10234498A JP2000067045A (ja) 1998-08-20 1998-08-20 テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10234498A JP2000067045A (ja) 1998-08-20 1998-08-20 テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000067045A true JP2000067045A (ja) 2000-03-03

Family

ID=16971978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10234498A Pending JP2000067045A (ja) 1998-08-20 1998-08-20 テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2000067045A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009279057A (ja) * 2008-05-20 2009-12-03 Olympus Corp 内視鏡装置およびプログラム
JP2022027882A (ja) * 2019-09-24 2022-02-14 株式会社ユピテル システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009279057A (ja) * 2008-05-20 2009-12-03 Olympus Corp 内視鏡装置およびプログラム
JP2022027882A (ja) * 2019-09-24 2022-02-14 株式会社ユピテル システム及びプログラム

Similar Documents

Publication Publication Date Title
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2007323671A (ja) 中国語テキストにおける単語分割
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP2001515616A (ja) 自動自然言語翻訳
JP3937741B2 (ja) 文書の標準化
JP2000067045A (ja) テキスト変換装置およびテキスト変換プログラムを格納したコンピュータ読み取り可能な記録媒体
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
KR19990015131A (ko) 영한 자동번역 시스템의 숙어 번역 방법
JP7302267B2 (ja) 検索プログラム、検索方法及び検索装置
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH10307823A (ja) 翻訳方法、翻訳装置及び翻訳プログラムを格納した 記録媒体
JPH09185629A (ja) 機械翻訳方法
JP4071657B2 (ja) テキスト処理装置
JP2819766B2 (ja) 外国語電子辞書検索方式
JPH03229367A (ja) テキストベース検索方式
JP2002297581A (ja) 文書作成支援装置およびその方法
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP3281361B2 (ja) 文書検索装置及び文書検索方法
JPH0916575A (ja) 発音辞書装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080629

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 8

Free format text: PAYMENT UNTIL: 20090629

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20100629

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20120629

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20120629

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130629

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130629

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140629

Year of fee payment: 13