JP3367198B2 - 文字属性を用いたテキスト処理装置 - Google Patents

文字属性を用いたテキスト処理装置

Info

Publication number
JP3367198B2
JP3367198B2 JP05262294A JP5262294A JP3367198B2 JP 3367198 B2 JP3367198 B2 JP 3367198B2 JP 05262294 A JP05262294 A JP 05262294A JP 5262294 A JP5262294 A JP 5262294A JP 3367198 B2 JP3367198 B2 JP 3367198B2
Authority
JP
Japan
Prior art keywords
character
text
character attribute
attribute
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05262294A
Other languages
English (en)
Other versions
JPH07239849A (ja
Inventor
和也 千葉
一樹 安松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP05262294A priority Critical patent/JP3367198B2/ja
Publication of JPH07239849A publication Critical patent/JPH07239849A/ja
Application granted granted Critical
Publication of JP3367198B2 publication Critical patent/JP3367198B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字属性を用いたテキ
スト処理装置に関し、特に、テキスト中のいくつかの文
字列に文字属性が設定されている文書中のテキストに対
して文字属性を用いて処理を行うテキスト処理装置に関
するものである。
【0002】
【従来の技術】従来、文書処理装置においては、キーボ
ード装置から入力された一連の文字列の一まとまりをテ
キストとして処理し、所望の文書を作成して、印刷など
の出力処理を行い、最終的な文書を得る。この場合、文
書としての形式を整えるため、書式等の設定を行い、ま
た、テキストの文字列に対しては、その文字列の各々の
文字に対し、その大きさ(ポイント),書体(明朝体,
ック体),表示位置(上つき,下つき)などの表示
形式を様々に変化させ、様々な表示形態の文書が作成可
能なように、各々の文字列の文字に対しては、文字属性
が付加される。
【0003】なお、このような文字属性は、文字の表示
様式を示すために、テキスト中の文字列の文字に付加す
る属性であり、例えば、文字形式に関する属性として
「ボールド体」、「イタリック体」、「上つき(肩文
字)」、「下つき(足文字)」、「下線」、「ストライ
クアウト(中線;削除を示す線)」などの文字表示の形
式を修飾する付属データである。ここでは、文字属性
は、更に、フォントの種類、文字の大きさも含めて文字
属性と称するものとする。
【0004】1つ種類の文書処理システムにおいて作成
された電子文書は、異なった種類の文書処理システムで
更に処理される場合が多いが、その場合、それぞれの文
書処理システムは、各々の文書処理システムで固有のテ
キストの表現形式(フォーマット)を用いていることが
一般的である。このため、テキストの表現形式が異なる
場合には、当該電子文書に対する処理が、異なる文書処
理システムで行えないことになる。
【0005】したがって、他の文書処理システムで処理
された電子文書を、自己の文書処理システムで扱う場
合、自己の文書処理システムで処理可能なテキストの表
現形式に変換する処理を行い、その後に、自己の文書処
理システムにおける処理が行なわれる。
【0006】これらの様々なテキストの表現形式(フォ
ーマット)の種類を、ここではテキストタイプあるいは
単にタイプと呼ぶことにする。このようなテキストのタ
イプの種類の例としては、Akaneファイルフォーマ
ット(富士ゼロックス社),Rich Text Fo
rmat(マイクロソフト社)などがある。
【0007】一般に、テキストのタイプが異なれば、設
定可能な文字属性は異なるので、異なるタイプの間のテ
キストの変換を行う場合、入力側のテキストのタイプに
おいて設定できた文字属性が、出力側のタイプにおいて
設定できないという場合が生じてしまうという問題があ
る。
【0008】これに対しては、異なるタイプの間のテキ
ストの変換を行う場合に、出力側のタイプにおいて設定
できない文字属性に対しては、出力側のタイプにおいて
設定できる別の文字属性に代替するように、予じめ入力
側の文字属性と出力側の文字属性との対応関係を定めて
おく方法(例えば「Interleaf社」のInte
rleaf File Conversionのような
方法)がある。
【0009】この方法においては、予め定められた入力
側と出力側の2つのテキストタイプの間ごとに、出力側
のタイプにおいて設定できない個々の文字属性につい
て、代替する文字属性を指定する記述(代替文字属性指
定記述)を作成しておく。そして、その記述に基づき、
文字属性のそれぞれについての代替を行うようにしてい
る。このような代替文字属性指定記述の一例を、図18
に示している。図18に示した代替文字属性指定記述
は、第1行目の記述により、文字属性「HP Fixe
d−spaced vector font」を文字属
性「Times」に代替することを指定しており、第2
行目では、文字属性「HP Variable−spa
ced arc font」を文字属性「Times」
に代替することを指定している。また、第3行目では、
文字属性「HP Fixed−spaced arc
font」を文字属性「Times」に代替することを
指定している。
【0010】
【発明が解決しようとする課題】ところで、上述したよ
うな変換方法によれば、入力側のテキストタイプの文字
属性と出力側のテキストタイプの文字属性との組の各々
の組ごとに、1対1の対応で代替文字属性指定記述を作
成する必要があり、相互変換を行いたいテキストタイプ
の文字属性の種類が多い場合にも、多くの数の全ての種
類の各々の文字属性に対して、完全に代替文字属性指定
記述を作成する必要がある。このため、その代替文字属
性指定記述の作成作業が煩雑であると共に、例えば、代
替文字属性指定記述が作成されていない文字属性が存在
すると、その文字属性に対しては、テキスト変換におい
て、文字属性の代替ができず、処理が進められないとい
う問題があった。
【0011】本発明は、上述のような問題を解決するた
めになされたものであり、したがって、本発明の目的
は、相互変換を行いたいテキストタイプの種類が多い場
合においても、多くの種類の代替する文字属性の指定記
述を完全に作成する必要の無いテキスト処理装置を提供
することにある。
【0012】本発明の他の目的は、ワードプロセッサ、
あるいは文書処理機能を持つワークステーション等で処
理される電子文書のテキストを対象とし、異なるテキス
トタイプの間のテキスト変換の際に、出力側のタイプに
おいて設定できない文字属性に対しては、出力側のタイ
プにおいて設定できる類似の別の文字属性を判別して代
替し、どのように異なるテキストタイプの間においても
テキストの変換を可能とするテキスト処理装置を提供す
ることにある。
【0013】また、本発明の別の目的は、ワードプロセ
ッサ、あるいは文書処理機能を持つワークステーション
等で処理される電子文書のテキストを対象とし、テキス
トの文字列中に文字属性が設定されている場合に、正確
に検索キーとしての文字属性を指定しなくても、類似の
別の文字属性を判別し、どのように異なるテキストタイ
プの間においても、文字属性を検索キーに用いた検索処
理が行えるテキスト処理装置を提供することにある。
【0014】
【課題を解決するための手段】上記のような目的を達成
するため、本発明においては、テキスト中のいくつかの
文字列に文字属性が設定されているテキストを処理する
テキスト処理装置において、文字属性情報を階層的に分
類した記述からなる文字属性分類表を格納する文字属性
情報格納手段(14)と、処理不可能な文字属性に対し
て、文字属性分類表を用いて処理可能な文字属性を判別
し、文字属性の異なるタイプのテキストに対する処理を
行うテキスト処理手段(12)とを備えることを特徴と
する。
【0015】このテキスト処理装置において、文字属性
情報格納手段(14)が格納する文字属性分類表(1
5)は、文字属性情報を分類した文字属性の上位の分類
名を含んでおり、分類名の指定により下位の文字属性情
報の全体の指定とすることを特徴とする。
【0016】また、テキスト処理装置において、テキス
ト処理手段は、テキスト中のいくつかの文字列に文字属
性が設定されているテキストをタイプの異なるテキスト
に変換するテキスト変換処理を行い、入力テキスト中の
ある文字列に設定された第1の文字属性が出力タイプに
おいて設定できない場合に、文字属性分類表を参照し
て、出力タイプにおいて設定できる第2の文字属性を選
択し、第1の文字属性を第2の文字属性に代替すること
を特徴とする。
【0017】ここでのテキスト処理装置において、テキ
スト処理手段は、テキスト中のいくつかの文字列に文字
属性が設定されているテキストを検索対象として、文字
列中のいくつかの文字または文字の並びの文字属性の指
定により、文字属性分類表を用いて文字属性を代替する
判別を行い、テキスト中の文字列に対する検索を行うこ
とを特徴とする。
【0018】また、テキスト処理装置において、テキス
ト処理手段は、テキスト中のいくつかの文字列に文字属
性が設定されているテキストを検索対象として、文字列
中のいくつかの文字または文字の並びの文字属性の分類
名の指定により、文字属性分類表を用いて文字属性を代
替する判別を行い、テキスト中の文字列に対する検索を
行うことを特徴とする。
【0019】
【作用】本発明のテキスト処理装置において、テキスト
中のいくつかの文字列に文字属性が設定されている文書
中のテキストを処理する場合に、文字属性を用いるテキ
ストの処理を行うため、ここでの文字属性情報格納手段
(14)は、文字属性情報を階層的に分類した記述から
なる文字属性分類表を格納しており、テキスト処理手段
(12)が、処理不可能な文字属性に対して、文字属性
分類表を用いて処理可能な文字属性を判別し、異なるタ
イプのテキストに対する処理を行う。これにより、どの
ようにタイプの異なるテキストに対しても、テキスト処
理が可能となる。
【0020】また、文字属性情報格納手段(14)が格
納する文字属性分類表(15)は、文字属性情報を階層
的に分類した記述と共に、文字属性情報を分類した文字
属性の上位の分類名を含んでおり、この分類名の指定に
よって、そのその分類名から下位の文字属性情報の全体
を指定することができる。このため、特定の文字属性を
指定する場合、その文字属性が不明確な場合において
は、文字属性情報の分類上の上位の分類名を指定するこ
とにより、当該不明確な文字属性の指定とすることがで
きる。
【0021】また、ここでのテキスト処理装置におい
て、タイプが異なるテキストの間のテキスト変換を行う
場合、テキスト処理手段は、テキスト中のいくつかの文
字列に文字属性が設定されているテキストを、異なるタ
イプのテキストに変換するテキスト変換処理を行い、入
力テキスト中のある文字列に設定された第1の文字属性
が出力タイプにおいて設定できない場合、文字属性情報
格納手段が格納する文字属性分類表を参照し、出力タイ
プにおいて設定できる第2の文字属性を判別して選択
し、第1の文字属性を第2の文字属性に代替する。これ
により、どのような異なるテキストタイプの間において
も、その相互変換が可能となる。
【0022】また、ここでのテキスト処理装置におい
て、文字属性を用いたテキスト検索を行う場合、テキス
ト処理手段は、テキスト中のいくつかの文字列に文字属
性が設定されているテキストを検索対象として、文字列
中のいくつかの文字または文字の並びの文字属性の指定
により、文字属性分類表を用いて、文字属性を代替する
判別を行い、テキスト中の文字列に対する検索を行う。
これにより、検索キーとしての文字属性を正確に指定し
なくても、その類似の文字属性を含めた文字属性の検索
が可能になる。また、タイプの異なるテキストに渡って
も、テキスト検索が可能となる。
【0023】更に、ここでのテキスト処理装置におい
て、文字属性を用いたテキスト検索を行う場合、文字属
性の分類名の指定を行うことができる。つまり、テキス
ト処理手段は、テキスト中のいくつかの文字列に文字属
性が設定されているテキストを検索対象として、文字列
中のいくつかの文字またはその並びの文字属性の分類名
の指定により、文字属性分類表を用いて文字属性を代替
する判別を行い、テキスト中の文字列に対する検索処理
を行う。これにより、検索キーとしての文字属性を正確
に指定しなくても、文字属性の分類名を指定するだけ
で、その類似の文字属性を含めた文字属性の検索が可能
になる。また、タイプの異なるテキストに渡っても、テ
キスト検索が可能となる。
【0024】
【実施例】以下、本発明の一実施例を図面を参照して具
体的に説明する。図1は、本発明の一実施例にかかるテ
キスト処理装置の全体の構成を示すブロック図である。
図1において、11は入力テキスト、12はテキスト処
理部、13は文字属性代替処理部、14は文字属性情報
格納部、15は文字属性分類表、16は出力テキストで
ある。
【0025】本実施例のテキスト処理装置では、文字属
性を用いるテキストの処理を行うため、文字属性情報格
納部14には、文字属性情報を階層的に分類した記述か
らなる文字属性分類表15が格納される。テキスト処理
部12は、テキスト中のいくつかの文字列に文字属性が
設定されているテキストを処理する。すなわち、入力さ
れた入力テキスト11に対して、文字属性をも含めた編
集処理,検索処理,変換処理などのテキスト処理を行
う。
【0026】その場合、テキストの文字列に設定されて
いる文字属性により、当該文字列に対する文字修飾の処
理や、文字属性による検索処理を行うが、その際、ここ
での文書処理システムにおいて処理不可能な文字属性に
対しては、文字属性情報格納部14に格納されている文
字属性分類表15を参照し、その記述内容にしたがっ
て、当該文書処理システムで処理可能な文字属性を判別
し、例えば、その文字属性への代替を行って、処理を継
続して行う。そして、出力テキスト16を出力する。こ
れにより、どのようにタイプの異なるテキストに対して
も、処理を停止することなく、テキストに対する処理を
行う。すなわち、この場合、どのように異なるタイプの
テキストが、入力テキスト11として与えられても、テ
キスト処理が可能となる。
【0027】図2は、文字属性情報格納部に格納される
文字属性分類表の一例を示す図である。文字属性分類表
20は、個々の文字属性24の情報を階層的に分類した
記述(データ構造)から構成されている。つまり、文字
属性24の各々の情報を階層的に分類して、各々の上位
となる組に各々の分類名21,22,23の情報を付与
したものとなっている。ここに示している文字属性分類
表20では、イタリック体,ボールド体,一重下線,二
重下線,赤色,青色,黄色,ストライクアウト(一重
線),ストライクアウト(二重線),肩文字,足文字の
それぞれの文字属性24の情報が第4階層となって分類
されており、その上位の第3階層の分類名23として、
斜体文字系,太文字系の2つの分類名が設けられてい
る。つまり、イタリック体に対しては斜体文字系,ボー
ルド体に対しては太文字系の2つの分類名が設けられて
いる。更に、上位の第2階層の分類名22としては、書
体,下線,文字色,ストライクアウトの4つの分類名が
設けられている。そして、最上位の第1階層の分類名2
1には、強調,削除,肩文字,足文字の4つの分類名が
設けられている。
【0028】このように、文字属性分類表20において
は、これらの各階層の個々の分類名21,22,23と
共に、個々の文字属性24の情報が、階層構造をなすデ
ータ構造で分類されており、上位階層の分類名21,2
2,23を1つを指定することにより、その下位に属す
る文字属性の情報の全てが指定できるデータ構造となっ
ている。
【0029】文字属性分類表20においては、各々の文
字属性の論理的意味を考慮して、文字属性が、その役割
に基づいて分類されている。すなわち、まず、第1階層
の分類(分類名21)で、強調,削除などの文字属性の
大ざっぱな役割に基づいて分類しており、次に、第2階
層の分類(分類名22)で細分化し、更に、第3階層の
分類(分類名23)へと、分類を更に細分化して、物理
的な共通の特徴を有する文字属性の情報をグループ化し
て分類している。
【0030】図3は、テキスト処理部が、テキスト処理
の一部で行う文字属性代替処理の処理フローを示すフロ
ーチャートである。この文字属性代替処理は、例えば、
テキスト処理の中で、タイプが異なるテキストの処理を
行う場合に起動されるが、処理不可能が文字属性が検出
されたときに、起動されるようにしておいても良い。こ
のようにして、タイプが異なるテキストの処理を行う場
合に、文字属性代替処理を起動して、文字属性を判別し
て代替する処理を行う。ここでの文字属性代替処理で
は、入力テキストの各々の文字属性から、出力テキスト
のタイプで使用できる文字属性を判別し、その文字属性
に代替する。この場合、その出力テキストタイプで設定
可能な文字属性の集合が予じめ設定されており、その文
字属性の集合の中の文字属性に代替する処理が行われ
る。
【0031】図3を参照して、文字属性代替処理を説明
する。処理が開始されると、まず、ステップ30におい
て、ワーク領域Aに、出力テキストタイプで設定できる
文字属性の集合を保持する。次に、ステップ31におい
て、入力テキストを順に読み込む。続いて、ステップ3
2において、読み込んだ入力テキストの中に文字属性が
設定されている文字列が見つかるか否かを判定する。こ
の判定ステップで、文字属性の設定されている文字列が
見つからないと、文字属性の代替は行わないので、処理
は終了とする。また、この判定ステップで文字属性の設
定されている文字列が見つかると、次のステップ33に
進み、その見つかった入力テキストの文字列の文字属性
をワーク変数xに代入する。
【0032】次に、ステップ34において、ワーク変数
xの文字属性がワーク領域Aの文字属性の集合に含まれ
ているか否かを判定する。ワーク変数xの文字属性がワ
ーク領域Aの文字属性の集合の中に含まれている場合に
は、入力テキストの文字属性は出力テキストにおいても
設定可能なものであり、その文字属性の代替は、特に行
わないので、次の文字属性に対する処理を行うため、ス
テップ31に戻る。
【0033】また、ステップ34の判定処理において、
ワーク変数xの文字属性がワーク領域Aの文字属性の集
合の中に含まれていないことが判定されると、この場合
において、入力テキストの文字属性を、出力テキストの
タイプで設定されている文字属性の中から、類似の文字
属性に代替する処理を行う。そのため、次のステップ3
5からの処理により、文字属性分類表に従って当該文字
属性を出力テキストタイプの中の文字属性に代替する処
理を行う。
【0034】ステップ35においては、ワーク変数xに
代入された文字属性に対し、その文字属性が分類されて
いる分類名の中で、ワーク領域Aに含まれる文字属性を
上から順番に捜す処理を行う。つまり、文字属性分類表
を参照し、代替すベき文字属性が分類されている同じ分
類名の中で、ワーク領域Aの文字属性の集合に含まれる
文字属性を上から順番に捜す処理を行う。そして、次
に、ステップ36において、該当する文字属性が捜し出
された否かを判定する。当該する文字属性が捜し出され
たことが判定できると、ステップ37に進み、入力テキ
ストの文字列に設定された文字属性を、捜し出された文
字属性に代替する処理を行う。そして、続いて、次の文
字属性の処理を行うため、ステップ31に戻る。
【0035】また、ステップ36の判定処理において、
該当の文字属性が捜し出されないことが判定されると、
更に、上位の分類名の中で、同じ分類名で分類されてい
る文字属性への代替を行うため、次に、ステップ38に
進み、当該分類名が第1階層の分類名であるか否かを判
定する。当該分類名が第1階層の分類名でないと判定で
きると、文字属性分類表の中に当該分類名より更に上位
の分類名があり、その上位の分類名と同じ分類名で分類
されている文字属性に代替できるので、次のステップ3
9に進み、更に1つ上位の階層の分類名において、同じ
分類名で分類されている文字属性の中で、ワーク領域A
に含まれる文字属性を上から順番に捜す処理を行う。そ
して、次にステップ36に戻り、同じく、該当する文字
属性が捜し出された否かを判定する。当該する文字属性
が捜し出されたことが判定できると、ステップ37に進
み、入力テキストの文字列に設定された文字属性を、捜
し出された文字属性に代替する処理を行う。そして、続
いて、次の文字属性の処理を行うため、ステップ31に
戻る。
【0036】また、ステップ38の判定処理において、
当該分類名が第1階層の分類名である場合には、当該分
類名が文字属性分類表の中の最上位の分類名であり、他
に代替できる文字属性が存在しないことなので、この場
合には、ステップ40に進み、当該入力テキストの文字
列に設定された文字属性を取り消す処理を行う。そし
て、続いて、次の文字属性の処理を行うため、ステップ
31に戻る。
【0037】このような一連の処理を行い、入力テキス
トの文字属性を出力テキストタイプで設定できる複数の
文字属性の中で、文字属性分類表に従って、できるだけ
類似した関係(階層構造で同じ分類名)で分類されてい
る文字属性への代替を行う。これにより、どのように異
なるタイプのテキストに対しても、文字属性を代替する
判別を行い、その判別に従い文字属性の代替を行い、そ
の代替された文字属性によってテキストの処理が可能と
なる。
【0038】次に、このような文字属性代替処理を伴う
テキスト処理を用いて、タイプの異なるテキストの間の
テキスト変換処理を行う場合について説明する。図4
は、テキスト変換処理の処理の流れを示すブロック図で
あり、図5は、テキスト変換処理により変換されるタイ
プの異なるテキストの変換前および変換後のテキストの
一例を説明する図である。
【0039】図4および図5を参照して、テキスト変換
処理を説明する。まず、全体の流れの概略から説明する
と、入力テキスト41が、文字属性代替処理部42に順
次に読み込まれて、文字属性代替処理部42が、入力テ
キスト41の文字列から文字属性の設定を見つけると、
その文字属性を、文字属性分類表43に基づいて、代替
の必要があれば(例えば対応する文字属性が存在しない
場合など)、これを判別して、他の文字属性への代替を
行い、中間テキスト44を出力する。出力された中間テ
キスト44は、文字コード変換処理部45に供給され、
更に、文字コード変換処理部45が、必要であれば(例
えばJISコード,ECUコードなど文字コードの体系
が異なる場合など)、文字コードの変換を行い、出力テ
キスト46を出力する。
【0040】図5には、テキスト中の特定の文字列の領
域に文字属性が設定されている状態が具体的に例示され
ている。図5において、51は入力テキスト、52は第
1の文字属性が設定された文字列、53は第2の文字属
性が設定された文字列、54は第1の文字属性、55は
第2の文字属性、56は入力テキストタイプにおいて設
定可能な文字属性の集合、57は変換された出力テキス
ト、58は出力テキストタイプにおいて設定可能な文字
属性の集合、59は第3の文字属性をそれぞれ示してい
る。
【0041】ここでのテキスト変換処理では、入力テキ
スト51が与えられ、更に、出力タイプが指定されるこ
とにより、テキスト変換処理に伴う文字属性代替処理で
は、文字列に設定された文字属性を、入力タイプにおい
て設定可能な文字属性の集合56の中の文字属性から、
出力タイプにおいて設定可能な文字属性の集合58の中
の文字属性への代替が行なわれる。この処理は、文字属
性代替処理部42が文字属性分類表43を参照して行
う。
【0042】具体的に説明する。文字属性代替処理部4
2は、まず、出力テキストタイプにおいて設定可能な文
字属性の集合58を読み込み保持する。図5に示すテキ
ストの例では、文字属性の集合{イタリック体,ボール
ド体,ストライクアウト(一重線)}が読み込まれ保持
される(ステップ30)。次に、入力テキスト51を順
次に読み込み(ステップ31)、文字属性が設定された
文字列52を見つけると、その文字属性が出力テキスト
タイプにおいて設定できるか否かを調べる(ステップ3
2〜ステップ34)。この例では、文字列52に設定さ
れた第1の文字属性54の「ストライクアウト(一重
線)」は、出力テキストタイプにおいて設定できるの
で、代替はせず、そのままの第1の文字属性54の「ス
トライクアウト(一重線)」にしておく。
【0043】更に、入力テキスト51を、読み進んでい
くと、第2の文字属性が設定された文字列53を見つけ
る。同じく、その文字属性が出力テキストタイプにおい
て設定できるか否かを調べる(ステップ32〜ステップ
34)。この例では、第2の文字属性55の「二重下
線」は、出力テキストタイプにおいて設定できない。こ
の場合、文字属性代替処理部42では、出力テキストタ
イプにおいて設定できる文字属性の集合58の中で、文
字属性分類表において最も近いところに分類されている
文字属性、つまり、なるべく下位の分類において同じ分
類に属する文字属性を選び出して、その文字属性に代替
する(ステップ35〜ステップ37)。
【0044】この例の場合、文字属性分類表43とし
て、図2に示した文字属性分類表20を用いるものとす
ると、文字属性の「二重下線」の最も近いところに分類
されている文字属性としては、当該文字属性の「二重下
線」が分類されている第2階層の分類名「下線」の分類
と同じ、第2階層の分類名「下線」の下に分類されてい
る文字属性「一重下線」が候補として得られる。しか
し、この文字属性「一重下線」は、出力テキストタイプ
において設定できる文字属性の集合58に含まれておら
ず、次に、近いところに分類されている文字属性を見つ
けることになる。
【0045】このため、次に、分類の範囲を更に1位だ
け上位として、当該文字属性の「二重下線」が分類され
ている第1階層の分類名「強調」の分類と同じ、第1階
層の分類名「強調」の下に分類されている文字属性
{「イタリック体」,「ボールド体」,「一重下線」,
「二重下線」,「赤色」,「青色」,「黄色」}が候補
として得られる。このため、これを上から順に捜して、
出力テキストタイプにおいて設定できる文字属性を捜す
(ステップ38〜ステップ39)。
【0046】この結果、当該文字属性の「二重下線」が
分類されている同じ第1階層の分類名「強調」の下に分
類されている文字属性「イタリック体」が見つかり、こ
の文字属性は出力テキストタイプにおいて設定できるの
で、入力テキストの第2の文字属性55の「二重下線」
は、出力テキスト57の文字列53の文字属性では、第
3の文字属性59の「イタリック体」に代替されること
になる(ステップ36〜ステップ37)。
【0047】なお、ここでは、同じ第1階層の分類の下
に、設定できるような文字属性がない場合には、代替は
わず、出力テキストにおいて、当該領域には文字属性
が設定されないようにしている(ステップ40)。これ
は、入力テキストの文字属性が、出力テキストにおい
て、論理的な役割の大きく異なる文字属性に代替される
ことを防ぐためである。
【0048】全ての入力テキストを読み込み、文字属性
の代替処理を終了すると、文字属性が出力タイプにおい
て設定できる適切なものに変更された中間テキスト44
が得られる。次に、中間テキスト44に対して、文字コ
ード変換処理部45により文字コードを変換する処理が
行われる。ここでの文字コードとは、各文字を符号化し
た表現形態のデータであり、JISコード,ASCII
コード,EUCコードなどを指している。入力のテキス
トタイプが定める文字コードと出力のテキストタイプが
定める文字コードが異なる場合、文字コード変換処理部
45は、文字コードの変換を行い、出力のテキストタイ
プが定める文字コードによって表現された、最終的な出
力テキスト46を出力する。
【0049】なお、ここでの説明では、入力テキスト4
1は、文字属性代替処理部42によって、文字列の文字
属性の代替を行った後に、文字コード変換処理部45に
よって、各々の文字の文字コードの変換を行うようにし
ているが、この2つの処理の順番は逆に行うような構成
であっても良い。
【0050】また、このテキスト変換処理においては、
相互変換を行いたいテキストタイプの種類が多い場合に
も、文字属性分類表は1つだけ用意すれば十分である。
この意味は、1つの文字属性分類表により、その文字属
性の代替の関係が一意に定まるからである。文字属性の
代替の関係を変更する場合には、その対応の文字属性分
類表を作成する必要がある。このためには、予め事前に
複数の文字属性分類表が用意されていても良い。
【0051】また、扱いたいテキストタイプを追加する
場合、追加するテキストタイプにおいて設定可能な文字
属性が全て追加前の文字属性分類表に含まれていれば、
何ら作業も不要である。そのまま当該文字属性分類表が
利用できる。また、もし、追加するテキストタイプにお
いて、設定可能な文字属性であって、追加前の文字属性
分類表に含まれていないものがあっても、その文字属性
を、文字属性分類表に追加するだけで良い。
【0052】例えば、図2で説明した文字属性分類表2
0に、「ゴシック体」の文字属性を追加する場合、第1
階層の分類(分類名21)を見ると、「ゴシック体」の
文字属性の役割から考慮して、分類名「強調」の分類の
下にあるのが適当であり、第2階層の分類(分類名2
2)では、分類名「書体」の下にあるのが適当であり、
更に、第3階層の分類(分類名23)では分類名「太文
字系」の下にあるのが適当である。このため、結局、分
類名「太文字系」の下に分類されている文字属性「ボー
ルド体」と同じ分類に分類される文字属性として、「ゴ
シック体」の文字属性を追加することになる。これによ
り、その後に行われるテキスト変換処理においては、出
力テキストタイプにおいて文字属性「ゴシック体」が使
用できず、文字属性「ボールド体」が設定可能な場合、
文字属性「ゴシック体」は、文字属性「ボールド体」に
代替されるようになる。
【0053】次に、文字属性代替処理を伴うテキスト処
理の更に別の処理の一例として、テキスト中の文字列に
文字属性が設定されている場合のテキスト検索処理につ
いて説明する。ここでのテキスト検索(文字列検索また
はパターンマッチングということもある)の処理とは、
検索対象テキストと呼ばれる文字列と、検索キー(キー
ワードまたはパターンということもある)と呼ばれる文
字列とを与え、検索キーが検索対象テキストの中に出現
するかどうかを判定し、更には、その出現位置の位置情
報を求める処理である。
【0054】図6は、本発明の他の実施例にかかるテキ
スト検索装置の要部の構成を示すブロック図である。図
6において、60はテキスト検索装置、61は検索対象
テキスト、62は検索キー、63は検索結果、64は文
字列照合処理部、65は文字属性分類表、66は文字比
較処理部、67は検索対象テキストの文字、68は検索
キーの文字、69は判定結果、70は文字属性代替処理
部である。
【0055】テキスト検索装置60は、検索対象テキス
ト61および検索キー62を入力として、検索結果63
を出力する。この検索結果63の出力形態としては、い
ろいろな態様が利用できる。例えば、検索キーが検索対
象テキストの中に出現するかどうかを示す態様や、検索
キーの検索対象テキストの中での出現位置を示す態様な
どがあるが、ここでは、検索結果63として、検索キー
が検索対象テキストの中に出現するかどうかを示す態様
のテキスト検索処理を一例として説明する。
【0056】テキスト検索装置60は、文字列照合処理
部64と文字比較処理部66とから構成される。文字列
照合処理部64は、検索対象テキスト61および検索キ
ー62の文字列を入力として、検索結果63を出力す
る。文字列照合を高速に行う方法としては、例えば、Ah
o-Corasick法(Aho, A. V. and Corasick, M. J. : Eff
icient string matching: An aid to bibliographic se
arch, Comm. ACM, Vol.18, No. 6, pp. 333-340 ,197
5. )などが知られており、この手法を文字列照合処理
部64に用いることができる。文字列照合処理部64
は、テキスト検索を行う方法であれば、例えば、Aho-Co
rasick法など、どのような方法を用いてもよく、本発明
の要部にかかる部分ではなく、公知であるので説明は省
略する。
【0057】ここでの文字列照合の処理において、Aho-
Corasick法などのテキスト検索を行う方法と異なる部分
は、文字属性が設定された文字の文字比較処理の部分だ
けである。従って、以下では、文字属性が設定された文
字の比較処理を中心に説明する。このような文字の比較
処理は、文字比較処理部66が行う。
【0058】文字比較処理部66は、検索対象テキスト
61の中から、その検索対象の文字67として、その文
字コード67aとその文字に設定された文字属性の集合
67bが与えられ、更に、検索キーの文字68として、
その文字コード68aとその文字に設定された文字属性
(分類名を含む)の集合68bが与えられることによっ
て、文字属性をも含めた文字比較処理が行われる。ここ
での文字比較処理においては、文字属性代替処理部70
が動作して、図2において説明した文字属性分類表20
と同様に、ここでの文字属性を分類し記述した文字属性
分類表65を参照して、その文字属性可能性の代替を判
別することにより、検索キーとして指定された文字(文
字属性)の条件に適合する文字を判定し、判定結果69
を出力する。判定結果69は一致または不一致のいづれ
かが出力される。
【0059】文字属性分類表65においては、前述した
文字属性分類表と同様に、第1階層となる分類名「強
調」および「削除」などの、文字属性の大ざっぱな役割
や、文字属性の見た目の類似度によって分類されている
態様が好ましい。これは、検索処理において、検索キー
に指定される文字属性は、その分類名による指定が可能
となるためである。このような分類名の指定によって、
検索キーの文字に対して複数の文字属性の指定が可能に
なり、検索処理を能率よく行える。
【0060】また、このような検索処理のための特性
(文字属性の一致判定の関係)を定める文字属性分類表
65の内容は可変である。これは、文字列の検索を行う
場合のその特徴に応じて、利用者が自由に文字属性分類
表を作成して使用できるようにするためである。
【0061】また、そのような文字属性分類表によっ
て、複数のテキストタイプの相違を考慮する必要がなく
なり、異なるタイプの検索対象テキストに対しても、一
連の操作でテキスト検索処理が可能になる。
【0062】次に、文字比較処理部66の文字比較の別
の処理の例について説明する。ここでの文字比較では、
文字属性の一致判定のみを行えば良いので、文字属性分
類表を参照することによって、特に、前述のような文字
属性の代替は行なわず、例えば、次のようなステップ
〜ステップの処理手順で進められる。 ステップ:検索対象テキスト中の文字67(文字コー
ド67aとそこに設定された文字属性の集合67b)お
よび検索キーの文字68(文字コード68aとそこに設
定された文字属性および分類名の集合68b)を入力す
る。 ステップ:検索対象の文字コード67aと検索キーの
文字コード68aとが異なれば、不一致を出力して終了
する。 ステップ:検索対象の文字コード67aと検索キーの
文字コード68aとが一致する場合、検索対象の文字属
性の集合67bの中のある文字属性について、一致する
文字属性が、検索キーの側の文字属性および分類名の集
合68bで指定される文字属性の中になく、かつ、その
文字属性が属する分類の分類名が(1つも)ないなら
ば、不一致を出力して終了する。 ステップ:また、検索キーの側の文字属性および分類
名の集合68bで指定される文字属性の中にある文字属
性について、一致する文字属性が、検索対象の文字属性
の集合67bの中にないならば、不一致を出力して終了
する。 ステップ:更に、検索キーの側の文字属性および分類
名の集合68bの中のある分類名について、分類名の指
す分類に属する文字属性が、検索対象の文字属性の集合
67bの中に(1つも)ないならば、不一致を出力して
終了する。 ステップ:そうでなければ、一致を出力して終了す
る。
【0063】次に、このような文字(文字属性)の検索
処理を、具体的な文字列の文字比較の中で説明する。図
7は、テキスト検索処理を行う検索対象テキストの一例
を説明する図であり、図8は、テキスト検索処理を行う
検索キーの一例を説明する図である。
【0064】図7において、75は検索対象テキストで
ある。検索対象テキスト75は、いくつかの文字列に文
字属性が設定されている。“No return”の文字列71
には、文字属性「ボールド体」が設定されており、“pr
isoner”の文字列72には、文字属性「イタリック体」
および「ストライクアウト(一重線)」が設定されてい
る。“This”の文字列73には、文字属性「イタリック
体」が設定されている。また、検索対象テキストのタイ
プとして、このテキストに設定可能な文字属性の集合7
4が与えられている。
【0065】図8において、検索キー80には“is”の
文字列81が指定され、更に、このの文字列81に指定
されている文字属性82は、分類名「強調」の指定によ
る文字属性の設定となっている。このような分類名「強
調」の指定による文字属性の内容は、具体的には、前述
したように、文字属性分類表65の記述によって与えら
れることになる。
【0066】検索対象テキスト(75:図7)と、検索
キー(80:図8)との指定によって、テキスト検索処
理を開始した場合の処理結果について説明する。検索対
象テキスト75の文字列の中には、検索キーとなっいる
“is”の文字列が何回か出現している。このうち、例え
ば、“prisoner”の文字列72中に出現する“is”の文
字列は、その文字属性として「イタリック体」および
「ストライクアウト(一重線)」の2つの文字属性が設
定されている。
【0067】ここで文字属性分類表(20:図2)を参
照することにより、この文字列の文字属性「イタリック
体」は分類名「強調」の分類に属すると判定でき、この
点では、一致と判定される。しかし、同時に、この文字
列には文字属性「ストライクアウト(一重線)」が設定
されている。この文字属性の「ストライクアウト(一重
線)」は、検索キーで指定する文字属性として分類名
「強調」の分類に属すると判定できないので、この文字
属性の判定によって、判定結果として、不一致が出力さ
れる。
【0068】また、“This”の文字列73の中に出現す
る“is”の文字列は、文字属性として「イタリック体」
が設定されている。文字属性の「イタリック体」は、文
字属性分類表(20:図2)を参照すると、分類名「強
調」の分類に属すると判定されるので、判定結果として
一致が出力される。したがって、この検索対象テキスト
70に対して、検索キー80による検索処理を行うと、
その処理において、一致と判定されるのは、“This”の
文字列73の中に出現する“is”の文字列だけである。
したがって、最終的な判定結果としては、一致と判定さ
れる文字列が存在したので、検索結果として「成功(検
索キーが検索対象テキストの中に出現している)」を出
力する。
【0069】このように、ここでの他の実施例にかかる
テキスト検索装置においては、文字列中のいくつかの文
字または文字の並びに、文字属性または文字属性の分類
名が設定されているような文字列を検索キーに用いるこ
とができる。ここでの文字属性の分類名とは、文字属性
分類表65において、各々の文字属性が階層的に分類さ
れた分類名であるので、1つの分類名の指定により、そ
の下位に分類されている複数の文字属性を指定すること
ができる。文字比較において、分類名と文字属性とを比
較することになった場合、該当の文字属性がその分類名
の指示する下位の分類に属すれば、一致と判定する。
【0070】図9〜図12は、文字属性をも含めて文字
の比較を行う文字比較処理の一連の処理フローを示すフ
ローチャートである。図9は、文字比較処理の全体の処
理フローを示し、図10は、第1の判定手続P1の処理
フローを示している。また、図11に、第2の判定手続
P2の処理フローを示し、図12に、第3の判定手続P
3の処理フローを示している。これらの判定手続P1〜
P3は、それぞれの処理の中で呼び出され、それぞれの
判定処理を行って、その結果を戻り値として呼び出され
た処理ルーチンに返す。
【0071】図9〜図12を参照して、テキスト検索処
理の一連の処理フローを説明する。まず、図9を参照す
る。ステップ90において、検索対象テキストからの文
字,文字属性の集合をワークメモリのそれぞれ変数x,
領域Aに代入する。次に、ステップ91において、検索
キーからの文字,文字属性の集合をワークメモリのそれ
ぞれ変数y,領域Xに代入する。次に、ステップ92に
おいて、文字(文字コード)の比較を行うため、代入し
た変数xと変数yとの文字が一致するか否かを判定す
る。一致しなければ、直ちに文字比較の判定結果では
「不一致」と判定できるので、ステップ101に進み、
「不一致」を出力して処理を終了とする。
【0072】ステップ92の判定において、変数xと変
数yとの文字が一致した場合、次に当該文字に設定され
ている文字属性の比較処理を行うため、次のステップ9
3に進み、領域Aに代入されている文字属性aについ
て、それぞれに第1の判定手続P1(a,X)を呼び出
す。そして、後述する第1の判定手続P1(a,X)か
らの判定結果が戻り値として返ってくると、次のステッ
プ94において、戻り値は全てtrueであるか否かを判定
する。戻り値は全てtrueでなければ、文字属性は一致し
ないので、この場合、文字比較の判定は、判定結果が
「不一致」と判定される。次に、ステップ101に進
み、「不一致」を出力して処理を終了とする。
【0073】ステップ94の判定において、戻り値は全
てtrueである場合、ステップ95およびステップ97の
判定を行う。このため、まず、ステップ95に進み、ワ
ークメモリの領域Xの中に文字属性があるか否かを判定
する。領域Xの中に文字属性があると判定される場合、
ステップ96に進み、領域Xの中の全ての文字属性bは
領域Aに含まれているか否かを判定する。この結果、含
まれていると判定できると、ステップ97に進み、ま
た、含まれていないと判定されると、文字属性の集合比
較で一致しないので、文字比較の判定は、判定結果が
「不一致」と判定される。このため、ステップ101に
進み、「不一致」を出力して処理を終了とする。
【0074】また、ステップ95の判定により、領域X
の中に文字属性があると判定されなかった場合には、分
類名による比較を行うため、ステップ97に進み、領域
Xの中に分類名があるか否かを判定する。また、ステッ
プ96の判定において、領域Xの中の全ての文字属性b
は領域Aに含まれていると判定される場合、領域Xの中
に更に判定手続を行っていない分類名があるか否かを確
認するため、同じく、ステップ97に進み、領域Xの中
に分類名があるか否かを判定する。この判定において、
領域Xの中に分類名がないと判定されると、文字属性だ
けの比較において一致と判定される。次に、ステップ1
00に進み、判定結果として「一致」を出力して、処理
を終了とする。
【0075】ステップ97において、領域Xの中に分類
名があると判定される場合は、分類名による文字属性の
比較を行うために、ステップ98に進み、領域Xに代入
されている全ての分類名lについて、それぞれに第3の
判定手続P3(A,l)を呼び出す。そして、後述する
第3の判定手続P3(A,l)からの判定結果が戻り値
として返ってくると、次のステップ99において、戻り
値は全てtrueであるか否かを判定する。戻り値は全てtr
ueでなければ、文字属性は一致しないので、この場合の
文字比較の判定は、判定結果が「不一致」と判定され
る。このため、ステップ101に進み、「不一致」を出
力して処理を終了とする。
【0076】ステップ99の判定において、戻り値は全
てtrueである場合、分類名の比較において、文字属性の
一致の判定が得られたことなので、ステップ100に進
み、判定結果「一致」を出力して、処理を終了とする。
このようにして、検索対象と検索キーとの文字属性の比
較を、文字属性およびその分類名の集合の比較により行
い、その判定結果を得て、「一致」または「不一致」を
出力する。
【0077】次に、図10を参照して、第1の判定手続
P1(a,X)の処理について説明する。前述したステ
ップ93の処理により、第1の判定手続P1(a,X)
が呼び出されると、この判定手続の処理においては、引
数として与えられた文字属性aと領域Xの集合に対し
て、まず、ステップ102において、集合Xの中に文字
属性aがあるか否かを判定する。集合Xの中に文字属性
aがある判定されると、ステップ107に進み、trueを
出力してリターンする。
【0078】また、ステップ102の判定において、集
合Xの中に文字属性aがあると判定できないと、続いて
ステップ103において、集合Xの中に分類名があるか
否か判定する。分類名がない場合、分類名による集合の
比較は行う必要がないので、ステップ107に進み、tr
ueを出力してリターンする。また、ステップ103の判
定で、分類名があると判定できると、分類名による文字
属性の比較を行うために、ステップ104に進み、領域
Xに代入されている全ての分類名lについて、それぞれ
に第2の判定手続P2(a,l)を呼び出す。そして、
後述する第2の判定手続P2(a,l)からの判定結果
が戻り値として返ってくると、次のステップ105にお
いて、戻り値は全てfalseであるか否かを判定する。こ
の判定で、戻り値が全てfalseであれば、ステップ10
6においてfalseを出力してリターンする。また、ステ
ップ105の判定において、戻り値は全てfalseと判定
できなければ、ステップ107に進み、trueを出力して
リターンする。この判定手続きにより、文字属性aに対
する一致比較の結果が得られる。
【0079】次に、図11を参照して、第2の判定手続
P2(a,l)の処理について説明する。前述したステ
ップ104の処理により、第2の判定手続P2(a,
1)が呼び出されると、この判定手続の処理では、引数
として与えられた文字属性aと分類名lに対して、ステ
ップ108において、文字属性分類表を参照して、分類
名lの分類に含まれる文字属性の集合Lを得る。そし
て、次のステップ109において、文字属性aは集合L
に属するか否かを判定する。文字属性aは集合Lに属す
ると判定できない場合には、ステップ110に進み、fa
lseを出力してリターンする。また、文字属性aが集合
Lに属する場合は、ステップ111に進み、trueを出力
してリターンする。この判定手続きにより、文字属性a
に対する分類名の一致比較の結果が得られる。
【0080】また、図12を参照して、第3の判定手続
P3(A,l)の処理について説明する。この処理は、
前述したステップ98の処理により呼び出される。第3
の判定手続P3(A,1)が呼び出されると、この判定
手続の処理では、引数として与えられた集合Aと分類名
lに対して、ステップ113において、文字属性分類表
を参照して、分類名lの分類に含まれる文字属性の集合
Lを得る。そして、次のステップ114において、集合
Lに属するある文字属性a′は集合Aに属するか否かを
判定する。すベての文字属性a′は集合Aに属すると判
定できない場合には、ステップ115に進み、falseを
出力してリターンする。また、ある文字属性a′が集合
Aに属する場合は、ステップ116に進み、trueを出力
してリターンする。つまり、ある文字属性a′が1つで
も集合Aに属すれば、trueを出力する。この判定手続き
により、分類名に対する文字属性の一致比較の結果が得
られる。
【0081】このようにして、テキスト検索処理におけ
る文字比較処理では、検索対象テキストの文字と検索キ
ーの文字に対して、文字(文字コード)の比較と共に、
当該文字に設定された文字属性について、その文字属性
または文字属性の分類名の指定によって、文字属性まで
含めた文字の相互間の比較処理が行われる。ここで指定
される分類名は、前述した文字属性分類表における分類
名であり、文字属性の論理的意味や役割によって個々の
文字属性が分類された集合を指示するものとなってい
る。
【0082】したがって、検索キー中の文字列のいくつ
かの文字またはその並びの文字属性の指定は、文字属性
だけでなく、文字属性分類表における文字属性の分類名
によって、検索条件とする複数の文字属性を設定でき
る。このため、文字属性分類表の分類体系における文字
属性の論理的意味や役割による分類名により、論理的に
体系化された検索すべき文字属性の複数を指定して、文
字検索を行うこともできる。このため、文字属性につい
て包括的な指定を行うこともできる。例えば、分類名
「下線」を指定することで、一重下線または二重下線の
両方を指定することができる。
【0083】次に、このようなテキスト検索処理を行う
場合に、検索キーとなる文字の文字属性の指定を、文字
属性分類表における分類名で指定する場合の操作例を説
明する。検索キーの文字属性の分類名の指定は、例え
ば、図13に示すように、検索文字の文字属性の入力用
のウィンドウ131を開き、その入力フィールド132
に、指定の分類名をキーボード操作により、タイプ入力
することにより行う。例えば、図13に示すウィンドウ
の入力例では、分類名の「強調」をタイプ入力してい
る。これにより、分類名「強調」の分類に属する全ての
文字属性が指定されたことと同じになる。また、更に下
位の分類名や、個別の文字属性をそれぞれに指定する場
合は、カンマで区切って、複数の分類名,文字属性を指
定する。
【0084】このようなタイプ入力によって、文字属性
または分類名を指定する場合、誤った分類名や文字属性
をタイプする場合があるので、検索キーの文字列と文字
属性および分類名の指定入力を効率よく行えない危惧が
ある。そこで、例えば、図14に示すように、ここで用
いる文字属性分類表と同様なレイアウトを有するメニュ
ー画面により、その文字属性および分類を指定するよう
にも変形できる。つまり、図14に示す検索キーの文字
属性設定ウィンドウ140では、メニュー画面により文
字属性の「イタリック体」が選択され、また、分類名の
「ストライクアウト」が選択されて、その指定がなされ
ている。このような文字属性分類表と同様なレイアウト
のメニュー画面のユーザインタフェースを用いることに
より、文字属性および分類名を選択する操作が簡易にな
り、効率よく文字属性の指定操作が行える。
【0085】したがって、この場合、検索対象テキスト
および検索キーに対して、そこで設定可能な文字属性の
集合やその種類について細かい知識がなくとも、正確に
文字属性および分類名の指定ができ、容易に検索条件の
指定ができる。更に、文字属性を階層的に分類している
文字属性分類表のレイアウト形式のメニューの表示によ
り、ユーザは文字属性分類表に対する情報をも得ること
ができる。
【0086】また、更に、このような文字属性設定ウィ
ンドウ140と同様な文字属性分類の設定ウィンドウを
用いて、個々のユーザが文字属性分類表を随時に必要に
応じて定義して使用できるようにも構成できる。テキス
ト検索処理では、前述したように、文字属性分類表の分
類体系に従って、この文字属性の一致比較が行なわれる
ので、定義が変更された文字属性分類表を用いることに
より、文字属性の一致比較の判定基準を、ユーザの意図
に沿うように変更することが可能になる。
【0087】また、文字属性を分類しておく文字属性分
類表を、テキスト検索処理における検索キーの指定が容
易に行えるような体系とすることにより、文字属性を含
むテキストの検索処理を、更に、効率よく行うことがで
きる。図15は、テキスト処理装置において用いられる
文字属性分類表の別の一例を示す図である。図15に示
す文字属性分類表151は、文字属性の論理的分類の大
部分を含むように構成された他の分類表の一例を示して
いる。文字属性分類表151においては、分類名が第1
階層から第4階層まで設けられ、論理的に体系付けられ
た分類体系となっている。例えば、文字属性分類表15
1では、第1階層の分類名が「強調」の分類であり、第
2階層の分類名が「書体」の分類であり、更に、第3階
層の分類名が「フォント(字体)」の分類である1つの
分類に属するように設定されている文字属性「modern/
ック」は、英語文の場合はmodern体の文字属性と
し、日本語文の場合はゴックの文字属性とする文字属
性である。このような分類表における各々の分類名の情
報は任意に設定でき、また、変更もできる。更に、また
分類体系も任意に変更できる。
【0088】図16は、テキスト処理装置において用い
られる文字属性分類表の更に別の一例を示す図である。
図16に示す文字属性分類表152においては、分類名
「削除」の分類を、第2階層の分類名「付加」の分類に
属する更に下位の第3階層の分類として設ける構造とし
ている。したがって、この文字属性分類表152を、図
4により説明したようなテキスト変換処理で用いると、
変換先のテキストのタイプにおいて、分類名「削除」に
属している文字属性「ストライクアウト(抹消線)」が
設定可能でない場合、同じ第3階層の分類の中で上から
順に該当する対応の分類が捜されて、その分類に属する
文字属性に代替される。したがって、その場合には、分
類名「下線」の分類に属する文字属性の中に1つに代替
される。具体的には、更に、下位の分類名「一重下線」
の分類に属する文字属性「(一重下線の)連続」に代替
される。
【0089】また、この文字属性分類表152において
は、「肩文字」と「足文字」との文字属性は、これらが
分類される分類先(分類名)が変更されている。つま
り、第2階層の分類名が「書体」の分類であり、第3階
層の分類名が「大きさ(サイズ)書体」の分類であり、
第4階層の分類名が「小」である分類に変更されてい
る。このように、「肩文字」と「足文字」との文字属性
の分類が変更された結果、この文字属性分類表152を
テキスト変換処理で用いると、変換先テキストのタイプ
において、「肩文字」または「足文字」の文字属性が設
定可能でない場合、これらの文字属性が「(文字サイズ
の)小」に代替される。つまり、フォントを小さくする
ことで、その文字属性が代替されるようになる。
【0090】また、同じく、この文字属性分類表152
によれば、文字属性「フィクスドピッチ」が、文字属性
「modern/ゴック」および文字属性「白ヌキ」と同じ
分類に属するように分類されている。このため、変換前
テキストのタイプにおいて分類名「逐語引用」で指定さ
れる文字属性「フィクスドピッチ」が、変換先テキスト
のタイプにおいて設定可能でない場合、文字属性「mode
rn/ゴック」に代替される代替指示となる。したがっ
て、変換後テキストタイプにおいて、「フィクスドピッ
チ」のフォントがない場合には、「modern/ゴック」
のフォントに置き換わる。このように、文字属性分類表
152は、フォント変換指示の記述としても用いられ
る。
【0091】次に、本実施例のテキスト処理装置で用い
るテキストを表現するデータ構造の他の一例について説
明する。ここでの処理対象とするテキストは、図5,図
7および図8にその一例を示したように、テキスト中の
任意の文字列(52,53など)に対して、その文字列
の文字属性(54,55,59など)を設定している形
式を有するデータ構造となっている。このようなデータ
構造では、文字列の文字コードと、そこに設定されてい
る文字属性のコードとをそれぞれ別に扱い、メモリ上で
は、文字列データおよび文字属性データを個別に管理す
ることになる。このための処理が複雑となり、メモリ領
域も多く必要とするが、例えば、次に説明するようなデ
ータ構造のテキストを用いることにより、文字列と、そ
れに設定されている文字属性とを一元的に扱うことがで
きる。このようなデータ構造のテキストにおいても、本
実施例による文字属性の処理を含むテキスト処理は同様
に実施できる。
【0092】図17は、テキストの文字列の間に文字属
性を示すタグを埋め込んだ形式のデータ構造の一例を説
明する図である。具体例により説明すると、このデータ
構造では、テキスト170の文字列の中に、文字属性を
示すタグ171,172,173,174が埋め込ま
れ、そのタグによりそれ以降の文字列に対し、タグが示
す文字属性に設定されたものとする形式のデータ構造で
ある。このデータ構造では、テキスト170の文字列を
順次にサーチし、最初に見つかるタグ(<ストライクア
ウト(一重線)>)171により、それ以降の文字列
は、当該タグ171の示す文字属性「ストライクアウト
(一重線)」が設定された状態とされる。また、次に見
つかるタグ(<default>)172により、それ以降の
文字列は、同じく当該タグ172の示すデフォルトの文
字属性が設定された状態となる。つまり、文字属性が何
も設定されていない状態の文字列に戻る。したがって、
ここでのデータ構造では、これにより、“want”の文字
列に文字属性「ストライクアウト(一重線)」が設定さ
れた状態となっている。
【0093】また、同様にして、次のタグ(<二重下
線)>)173により、それ以降の文字列は、タグ17
3の示す文字属性「二重下線」が設定された状態とさ
れ、続いて次のタグ(<default>)174により、そ
れ以降の文字列は文字属性が何も設定されていない状態
の文字列に戻る。このため、同じく、“kunaicho”の文
字列には文字属性「二重下線」が設定された状態となっ
ている。
【0094】図17に示す他のデータ構造による文字属
性が設定された文字列からなるテキストの例は、図5に
示したテキストの例に対応して示されている。つまり、
図17の変換前のテキスト170は、図5の変換前のテ
キスト50に対応しており、図17の変換後のテキスト
176は、図5の変換後のテキスト57に対応してい
る。この場合、図4に示すようなテキスト変換処理が行
なわれ時、文字属性を代替する判別の処理が行なわれ、
文字属性「二重下線」を示すタグ173が、文字属性
「イタリック体」を示すタグ177に変更されることに
なる。なお、ここでの175は変換前のテキスト170
の設定可能な文字属性の集合を示し、179は変換後の
テキスト176の設定可能な文字属性の集合を示してい
る。
【0095】また、テキスト変換処理により、変換前の
テキスト170(第1の変換後のテキスト176)が、
更に別のタイプのテキストに変換される場合、その変換
後のテキスト180のタイプにおいて、設定可能な文字
属性の集合181の中に文字属性「ストライクアウト
(一重線)」が含まれていない場合、文字属性「ストラ
イクアウト(一重線)」は取り消されることなる。した
がって、変換後のテキスト180においては、文字属性
「ストライクアウト(一重線)」の設定のためのタグ1
71およびタグ172が削除される。この結果、第1の
変換後のテキスト176(変換前のテキスト170)の
“want”の文字列178は、タグ171およびタグ17
2によって挾まれた状態から解消され、文字属性「スト
ライクアウト(一重線)」の設定が取消された状態とな
る。
【0096】
【発明の効果】以上に説明したように、本発明のテキス
ト処理装置によれば、テキスト中のいくつかの文字列に
文字属性が設定されている文書中のテキストを処理する
場合、処理不可能な文字属性に対して、文字属性分類表
を用いて処理可能な文字属性の判別を行い、タイプの異
なるテキストに対する処理を行う。これにより、どのよ
うに異なるタイプのテキストに対しても、テキスト処理
が可能となる。文字属性分類表は、文字属性情報を階層
的に分類した記述と共に文字属性情報を分類した文字属
性の上位の分類名を含んでおり、このような分類名の指
定により、その下位の文字属性情報の全体を指定するこ
とができる。このため、特定の文字属性を指定する場
合、その文字属性が不明確な場合には、文字属性情報の
分類上の上位の分類名を指定することにより、不明確な
文字属性の指定とすることができる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例にかかるテキスト処
理装置の全体の構成を示すブロック図、
【図2】 図2は文字属性情報格納部に格納される文字
属性分類表の一例を示す図、
【図3】 図3はテキスト処理部がテキスト処理の一部
で行う文字属性代替処理の処理フローを示すフローチャ
ート、
【図4】 図4はテキスト変換処理の処理の流れを示す
ブロック図、
【図5】 図5はテキスト変換処理により変換されるタ
イプの異なるテキストの変換前および変換後のテキスト
の一例を説明する図、
【図6】 図6は、本発明の他の実施例にかかるテキス
ト検索装置の要部の構成を示すブロック図
【図7】 図7はテキスト検索処理を行う検索対象テキ
ストの一例を説明する図、
【図8】 図8はテキスト検索処理を行う検索キーの文
字列の一例を説明する図、
【図9】 図9は文字比較処理の全体の処理フローを示
すフローチャート、
【図10】 図10は第1の判定手続P1(a,X)の
処理フローを示すフローチャート、
【図11】 図11は第2の判定手続P2(a,l)の
処理フローを示すフローチャート、
【図12】 図12は第3の判定手続P3(A,l)の
処理フローを示すフローチャート、
【図13】 図13は検索キーの文字の文字属性および
分類名の設定ウィンドウの一例を示す図、
【図14】 図14は検索キーの文字の文字属性および
分類名の設定ウィンドウの他の一例を示す図、
【図15】 図15はテキスト処理装置において用いら
れる文字属性分類表の別の一例を示す図、
【図16】 図16はテキスト処理装置において用いら
れる文字属性分類表の更に別の一例を示す図、
【図17】 図17は文字属性を有するテキストの別の
データ構造を説明する図、
【図18】 図18は従来の代替文字属性指定記述の一
例を示す図である。
【符号の説明】
11…入力テキスト、12…テキスト処理部、13…文
字属性代替処理部、14…文字属性情報格納部、15…
文字属性分類表、16出力テキスト、20…文字属性分
類表、21…第1階層の分類名、22…第2階層の分類
名、23…第3階層の分類名、24…文字属性、41…
入力テキスト、42…文字属性代替処理部、43…文字
属性分類表、44…中間テキスト、45…文字コード変
換処理部、46…出力テキスト、51…入力テキスト、
52,53…文字列、54…第1の文字属性、55…第
2の文字属性、56…文字属性の集合、57…出力テキ
スト、58…文字属性の集合、59…第3の文字属性、
60…テキスト検索装置、61…検索対象テキスト、6
2…検索キー、63…検索結果、64…文字列照合処理
部、65…文字属性分類表、66…文字比較処理部、6
7…検索対象テキストの文字、68…検索キーの文字、
69…判定結果、70…文字属性代替処理部、71,7
2,73…文字列、74…文字属性の集合、75…検索
対象テキスト、80…検索キー、81…文字列、82…
分類名「強調」、130…文字属性入力用ウィンドウ、
132…入力フィールド、140…文字属性設定ウィン
ドウ、151,152…文字属性分類表、170…変換
前テキスト、171,172,173,174,177
…タグ、175…設定可能な文字属性の集合、176…
第1の変換後のテキスト、178…文字列、179…設
定可能な文字属性の集合、181…設定可能な文字属性
の集合、180…変換後のテキスト。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/26 G06F 17/30

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】テキスト中のいくつかの文字列に文字属性
    が設定されているテキストを処理するテキスト処理装置
    において、 文字属性情報を階層的に分類した記述からなる文字属性
    分類表を格納する文字属性情報格納手段と、 処理不可能な文字属性に対して、文字属性分類表の記述
    を参照して当該処理不可能な文字属性の分類名より上位
    の分類名で分類されている文字属性を判別し、判別した
    文字属性に代替してタイプの異なるテキストに対する処
    理を行うテキスト処理手段とを備えることを特徴とする
    テキスト処理装置。
  2. 【請求項2】請求項1に記載のテキスト処理装置におい
    て、文字属性情報格納手段が格納する文字属性分類表
    は、文字属性情報を分類した文字属性の上位の分類名を
    含んでおり、分類名の指定により下位の文字属性情報の
    全体の指定とすることを特徴とするテキスト処理装置。
  3. 【請求項3】請求項1に記載のテキスト処理装置におい
    て、 テキスト処理手段は、テキスト中のいくつかの文字列に
    文字属性が設定されているテキストをタイプの異なるテ
    キストに変換するテキスト変換処理を行い、 入力テキスト中のある文字列に設定された第1の文字属
    性が出力タイプにおいて設定できない場合に、文字属性
    分類表の記述を参照して当該第1の文字属性の分類名よ
    り上位の分類名で分類されている文字属性を判別し、判
    別した文字属性から出力タイプにおいて設定できる第2
    の文字属性を選択し、第1の文字属性を第2の文字属性
    に代替することを特徴とするテキスト処理装置。
  4. 【請求項4】 請求項1に記載のテキスト処理装置にお
    いて、 テキスト処理手段は、テキスト中のいくつかの文字列に
    文字属性が設定されているテキストを検索対象として、 文字列中のいくつかの文字または文字の並びの文字属性
    の指定により、文字属性分類表を用いて文字属性情報の
    分類の階層関係から文字属性を代替する判別を行い、テ
    キスト中の文字列に対する検索を行うことを特徴とする
    テキスト処理装置。
  5. 【請求項5】請求項2に記載のテキスト処理装置におい
    て、 テキスト処理手段は、テキスト中のいくつかの文字列に
    文字属性が設定されているテキストを検索対象として、 文字列中のいくつかの文字または文字の並びの文字属性
    の分類名の指定により、文字属性分類表を用いて文字属
    性情報の分類の階層関係から文字属性を代替する判別を
    行い、テキスト中の文字列に対する検索を行うことを特
    徴とするテキスト処理装置。
  6. 【請求項6】テキスト中のいくつかの文字列に文字属性
    が設定されているテキストを処理するテキスト処理方法
    であって、 文字属性情報を階層的に分類した記述からなる文字属性
    分類表を格納し、 処理不可能な文字属性に対して、文字属性分類表の記述
    を参照して当該処理不可能な文字属性の分類名より上位
    の分類名で分類されている文字属性を判別し、判別した
    文字属性に代替してタイプの異なるテキストに対する処
    理を行うことを特徴とするテキスト処理方法。
  7. 【請求項7】文字属性が利用可能な第1のテキストタイ
    プのテキストを第2のテキストタイプのテキストに変換
    するテキスト変換装置であって、 文字属性情報を階層的に分類した文字属性分類表を格納
    する文字属性情報格納手段と、 第1のテキストタイプのテキスト中の文字列に設定され
    た第1の文字属性が第2のテキストタイプで利用可能な
    文字属性でない場合、前記文字属性分類表で第1の文字
    属性と同じ分類の上位の分類に属する第2のテキストタ
    イプで利用可能な文字属性を選択して、文字属性を代替
    する文字属性代替手段とを備えることを特徴とするテキ
    スト処理装置。
  8. 【請求項8】文字属性が利用可能な第1のテキストタイ
    プのテキストを第2のテキストタイプのテキストに変換
    するテキスト変換装置が実行するテキスト変換方法であ
    って、 文字属性情報を階層的に分類し、 第1のテキストタイプのテキスト中の文字列に設定され
    た第1の文字属性が第2のテキストタイプで利用可能な
    文字属性でない場合、前記文字属性の階層的な分類を参
    照して、第1の文字属性と同じ分類の上位の分類に属す
    る第2のテキストタイプで利用可能な文字属性を選択し
    て、文字属性を代替することを特徴とするテキスト変換
    方法。
JP05262294A 1994-02-28 1994-02-28 文字属性を用いたテキスト処理装置 Expired - Fee Related JP3367198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05262294A JP3367198B2 (ja) 1994-02-28 1994-02-28 文字属性を用いたテキスト処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05262294A JP3367198B2 (ja) 1994-02-28 1994-02-28 文字属性を用いたテキスト処理装置

Publications (2)

Publication Number Publication Date
JPH07239849A JPH07239849A (ja) 1995-09-12
JP3367198B2 true JP3367198B2 (ja) 2003-01-14

Family

ID=12919914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05262294A Expired - Fee Related JP3367198B2 (ja) 1994-02-28 1994-02-28 文字属性を用いたテキスト処理装置

Country Status (1)

Country Link
JP (1) JP3367198B2 (ja)

Also Published As

Publication number Publication date
JPH07239849A (ja) 1995-09-12

Similar Documents

Publication Publication Date Title
US5950187A (en) Document retrieving apparatus and method thereof for outputting result corresponding to highlight level of inputted retrieval key
US5802534A (en) Apparatus and method for editing text
US5745745A (en) Text search method and apparatus for structured documents
EP0423683B1 (en) Apparatus for automatically generating index
US8380650B2 (en) Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
US20050154690A1 (en) Document knowledge management apparatus and method
US5761666A (en) Document retrieval system
JP2000112993A (ja) 文書分類方法、記憶媒体、文書分類装置及び文書分類システム
JPH077408B2 (ja) 強調特性変更方法及びシステム
JP2002342117A (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
JPH07192020A (ja) 文書情報検索装置
JPH06259420A (ja) 文章編集支援装置
JPH0844771A (ja) 情報検索装置
JP3367198B2 (ja) 文字属性を用いたテキスト処理装置
JPH0612447A (ja) 要約文章作成装置
JP5648336B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH0744563A (ja) 多重文書処理システム及び方法
JPH06309365A (ja) 文書処理装置
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
JP2006344053A (ja) 特許明細書作成支援プログラム
JP3210842B2 (ja) 情報処理装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JPH0793345A (ja) 文書検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071108

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081108

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees