JP2002334070A - 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 - Google Patents

文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Info

Publication number
JP2002334070A
JP2002334070A JP2001140778A JP2001140778A JP2002334070A JP 2002334070 A JP2002334070 A JP 2002334070A JP 2001140778 A JP2001140778 A JP 2001140778A JP 2001140778 A JP2001140778 A JP 2001140778A JP 2002334070 A JP2002334070 A JP 2002334070A
Authority
JP
Japan
Prior art keywords
document processing
sentence
document
processing apparatus
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001140778A
Other languages
English (en)
Other versions
JP4843867B2 (ja
Inventor
Kenichiro Kobayashi
賢一郎 小林
Makoto Akaha
誠 赤羽
Tomoaki Nitsuta
朋晃 新田
Nobuhide Yamazaki
信英 山崎
Erika Kobayashi
恵理香 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001140778A priority Critical patent/JP4843867B2/ja
Priority to US10/143,279 priority patent/US7111011B2/en
Publication of JP2002334070A publication Critical patent/JP2002334070A/ja
Priority to US11/185,303 priority patent/US7315867B2/en
Priority to US12/005,924 priority patent/US7984076B2/en
Application granted granted Critical
Publication of JP4843867B2 publication Critical patent/JP4843867B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

(57)【要約】 【課題】 電子メールやHTML形式によるテキストデ
ータから、読み上げに適した部分を適切に切り出す。 【解決手段】 入力テキストのテキスト形式を判断し、
システムが処理容易な形式に変換する(S10)。ま
た、タグやヘッダ情報等で入力データがHTML形式や
電子メール形式であるかも判断される。次に、変換され
たデータを、所定の文字パターンの繰り返し等から判断
可能な、簡単なレベルでのブロック分割する(S2
0)。分割されたブロックには、その旨示すタグが付与
される。ブロック分割されたデータは、タグや文字パタ
ーン等に基づき解析され、構造化される(S30)。こ
こで、テキスト中の表も解析されセルが切り出される。
最後に、構造化されたデータに基づき階層化された木構
造データが作成される。そして、木構造データと対にな
った切り出しテンプレート等を用いて、文が切り出され
る(S40)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、電子化されたテ
キスト情報を、読み上げるのに適当なように切り出すよ
うにした文書処理装置、文書処理方法および文書処理プ
ログラム、ならびに、記録媒体に関する。
【0002】
【従来の技術】近年では、インターネットの普及などに
より、ネットワークを介して大量の電子化されたテキス
トデータが扱われる。特にインターネット上では、WW
W(World Wide Web)上のWebサイトや電子メールなど
により、電子化されたテキストデータが大量にやりとり
される。電子メールは、テキスト情報が中心である。一
方、Webサイトでは、主にHTML(Hyper Text Mark
up Language)を用いてテキストデータが記述される。
【0003】なお、HTMLでは、テキストデータによ
る文書中に、同じくテキストデータにより表現されるタ
グと称される符号を埋め込み、このタグにより、文書構
造を定義することができる。HTMLによって記述され
た文書を、対応するビューアソフトウェアに読み込ませ
ることで、文書の表示などに、タグによって定義された
文書構造に応じたレイアウトで文書の表示がなされる。
以下、HTML形式で記述された文書をHTML文書と
略称する。
【0004】
【発明が解決しようとする課題】このように、ネットワ
ーク上でやりとりされるテキストデータでも、電子メー
ルとHTML文書とではデータの形式が異なるため、そ
れぞれに対応したビューアを用意する必要があった。
【0005】また、上述のようにしてネットワークを介
して入手したテキストデータから、その文書の構造に基
づいて文を所定に切り出すことが必要とされる場合があ
る。例えば、文書を合成音声などを用いてみ上げる場
合、入手されたテキストデータから読み上げるべき部分
を自動的に切り出す必要がある。文書をディスクプレイ
などに表示させる場合でも、必要な部分の選択的な切り
出しが自動的に行われるようにすると、より使い易いも
のとなる。
【0006】従来では、上述のHTML文書から文を切
り出すには、単純に、タグ情報を取り除くだけの処理が
行われているに過ぎなかったという問題点があった。
【0007】一方、従来からの、テキストデータを表示
するようにされたビューワでは、電子メールなどのテキ
スト形式で表現される文書において、「*」や「−」な
どの記号を1行中で連続的に繰り返し用いたり、「|」
などの記号を用いることで、罫線などが表現されてい
た。このような記号を駆使することで、テキスト形式の
文書中に表を作成することができる。このような文書に
対して文の切り出しを行うと、従来では、単に罫線とし
て用いられている記号が文字列として切り出されるだけ
で、表としての判断ができなかったという問題点があっ
た。
【0008】また、テキストデータにおいて、「>」な
どの引用記号を用いて他者の文書を引用することが一般
的に行われる。例えば、電子メールにおいては、返信の
際に、返信元の電子メールの内容に対して各行頭に上述
の引用記号を付して、その文が返信元の文書からの引用
であることを示していた。
【0009】このような場合、従来でも、引用されてい
る部分のブロックを判定して引用部分とそうでない部分
とを、それぞれ異なる色で表示するようにされたものは
存在した。しかし、この場合でも、引用部分のテキスト
から文を抽出すると、文が「>」などの引用記号を含ん
だ形で切り出されてしまうという問題点があった。
【0010】さらに、近年では、電子メールの応用的な
利用方法として、所謂メールマガジンに代表されるよう
に、同じ情報を多数の送信先に同報的に送信するシステ
ムも普及している。このような場合、送信される電子メ
ールには、本文以外の情報である、広告やシグネチャな
どのまとまった部分が多く存在する場合が一般的であ
る。従来では、このようなテキストデータからこれら本
文以外の情報を取り除いた本文情報のみを取得すること
が難しいという問題点があった。
【0011】さらにまた、上述したように、HTML文
書においては、タグを用いて文書構造を定義し、対応す
るビューアでは、タグに対応した表示を行い文書構造が
表現される。これを利用して、タグを、表示を行う際の
視覚的機能、すなわち、レイアウトを指示する制御符号
として用いるのが一般的に行われ、HTML文書であっ
ても、タグからでは、そのタグに属するテキスト部分が
表なのか、見出しなどかなど、文書内での位置付けを把
握することができなかった。
【0012】そのため、従来のHTML文書を読み上げ
る読み上げ装置などでは、HTML文書中の読み上げた
い部分とそうでない部分とを、タグからだけでは判断す
ることができず、また、オペレータも、どの部分を読み
上げの対象にするかといった指定を行うことができない
という問題点があった。
【0013】したがって、この発明の目的は、電子メー
ルによるテキストデータやHTML形式によるテキスト
データから、読み上げに適した部分を適切に切り出すこ
とができるような文書処理装置、文書処理方法および文
書処理プログラム、ならびに、記録媒体を提供すること
にある。
【0014】また、この発明の他の目的は、電子メール
およびHTML形式による文書処理を、統一的に行うこ
とができるようにした文書処理装置、文書処理方法およ
び文書処理プログラム、ならびに、記録媒体を提供する
ことにある。
【0015】
【課題を解決するための手段】この発明は、上述した課
題を解決するために、電子化された文書データを処理す
る文書処理装置において、入力されたテキストデータ
を、テキストデータの構成に応じて所定にブロックに分
割するブロック分割手段と、ブロック分割手段により分
割されたブロックの文書構造をテキストデータの構成に
基づき解析して文単位に分割し、分割された文にテキス
トデータの構成に応じてタグ情報を付加して文を構造化
する文書構造化手段と、文書構造化手段によって構造化
された文に付与されたタグ情報に基づき文の切り出しを
制御する文切り出し手段とを有することを特徴とする文
書処理装置である。
【0016】また、この発明は、電子化された文書デー
タを処理する文書処理方法において、入力されたテキス
トデータを、テキストデータの構成に応じて所定にブロ
ックに分割するブロック分割のステップと、ブロック分
割のステップにより分割されたブロックの文書構造をテ
キストデータの構成に基づき解析して文単位に分割し、
分割された文にテキストデータの構成に応じてタグ情報
を付加して文を構造化する文書構造化のステップと、文
書構造化のステップによって構造化された文に付与され
たタグ情報に基づき文の切り出しを制御する文切り出し
のステップとを有することを特徴とする文書処理方法で
ある。
【0017】また、この発明は、電子化された文書デー
タを処理する文書処理方法をコンピュータ装置に実行さ
せる文書処理プログラムにおいて、入力されたテキスト
データを、テキストデータの構成に応じて所定にブロッ
クに分割するブロック分割のステップと、ブロック分割
のステップにより分割されたブロックの文書構造をテキ
ストデータの構成に基づき解析して文単位に分割し、分
割された文にテキストデータの構成に応じてタグ情報を
付加して文を構造化する文書構造化のステップと、文書
構造化のステップによって構造化された文に付与された
タグ情報に基づき文の切り出しを制御する文切り出しの
ステップとを有する文書処理方法をコンピュータ装置に
実行させることを特徴とする文書処理プログラムであ
る。
【0018】また、この発明は、電子化された文書デー
タを処理する文書処理方法をコンピュータ装置に実行さ
せる文書処理プログラムが記録された記録媒体におい
て、入力されたテキストデータを、テキストデータの構
成に応じて所定にブロックに分割するブロック分割のス
テップと、ブロック分割のステップにより分割されたブ
ロックの文書構造をテキストデータの構成に基づき解析
して文単位に分割し、分割された文にテキストデータの
構成に応じてタグ情報を付加して文を構造化する文書構
造化のステップと、文書構造化のステップによって構造
化された文に付与されたタグ情報に基づき文の切り出し
を制御する文切り出しのステップとを有する文書処理方
法をコンピュータ装置に実行させる文書処理プログラム
が記録されたことを特徴とする記録媒体である。
【0019】上述したように、この発明は、入力された
テキストデータを、テキストデータの構成に応じて所定
にブロックに分割し、分割されたブロックの文書構造を
テキストデータの構成に基づき解析して文単位に分割
し、分割された文にテキストデータの構成に応じてタグ
情報を付加して文を構造化して構造化された文に付与さ
れたタグ情報に基づき文の切り出しを制御するようにし
ているため、入力されたテキストデータからの文の切り
出しを容易に行うことができる。
【0020】
【発明の実施の形態】以下、この発明の実施の一形態
を、図面を参照しながら説明する。図1は、この発明に
よる文書処理の概略的な流れを示すフローチャートであ
る。入力された電子メールやHTML形式の文字情報
は、先ず、ステップS10でデータのタイプなどが調べ
られ、テキスト形式が判断され、この文書処理装置で処
理可能な形式に変換される。次に、ステップS20で、
文書が所定にブロックに分割され、次のステップS30
で引用部分や見出し部分、表、段落などが抽出され、文
書の構造化がなされる。そして、ステップS40で、構
造化された文書から文が所定に切り出される。
【0021】切り出された文を、例えば合成音声による
文読み上げ装置に入力することで、音声情報として出力
することができる。また、切り出された文の構造に対応
したアクションを起こすことも可能である。勿論、切り
出された文を単に表示装置に表示することもできる。な
お、文切り出しの際に、予め作成しておいたテンプレー
トを用いることで、効率よく切り出しを行うことができ
る。
【0022】図2は、この発明の実施の一形態による文
書処理装置300の機能を実現するための一例の機能ブ
ロック図を示す。制御部1は、この文書処理装置の全体
を制御する部分であり、装置的にはCPU(Central Pro
cessing Unit)であり、ソフトウェア的にはソフトウェ
ア全体の管理を行う部分である。
【0023】制御部1に接続された入力装置2から入力
された入力テキストデータは、文書データ4に格納され
る。文書データ4は、例えばハードディスクドライブ
(HDD)などの記憶媒体の所定領域である。制御部1
に接続された表示装置3は、入力装置2により入力され
たテキストデータや、この文書処理装置300で最終的
に切り出された文などが表示される。
【0024】なお、入力装置2は、キーボードであって
もよいし、音声によって入力されたテキスト情報をテキ
ストデータに変換して出力する音声入力装置であっても
よい。これに限らず、インターネットなどの外部のネッ
トワークとの通信インターフェイスを入力装置として用
い、外部のネットワークを介してテキストデータを得る
ようにしてもよい。さらに、対応する他の機器と接続す
るための所定のコネクタを入力装置として設け、外部の
機器からテキストデータを得るようにしてもよい。勿
論、フレキシブルディスク(FD)や光磁気ディスク
(MO:Magneto Optical Disk)、CD−ROM(Compac
t Disc-Read Only Memory)などの換装可能な記憶媒体か
らテキストデータを得るようにしてもよい。
【0025】テキスト判定部5は、上述した図1のフロ
ーチャートのステップS10に対応する処理を行う部分
である。テキスト判定部5は、処理系文字コード指定部
6、文字コード変換部7および文字種判断部8からな
り、入力テキストデータに対する、テキストのデータ形
式の判定や変換などが行われる。文字種判断部8では、
入力テキストデータのエンコード方法が判断される。処
理系文字コード指定部6では、この文書処理装置300
内で扱う文字コード(EUC、SJISなど)が指定さ
れる。
【0026】テキスト形式判定部5で上述のように処理
されたテキストデータは、文字変換バッファ9としてR
AM111などに溜め込まれる。文字変換バッファ9と
して溜め込まれたテキストデータは、制御部1によりブ
ロック分割部10に渡される。
【0027】ブロック分割部10は、文字変換バッファ
9から渡されたテキストデータに対し、上述の図1のフ
ローチャートのステップS20に対応する処理を行う。
ブロック分割部10は、仕切線判定部11、仕切線文字
登録部12、罫線文字判定部13、連続文字罫線文字登
録部14、連続文字回数指定部15、罫線文字登録部1
7、文字位置記憶部16、利用タグ判定部18および利
用タグ登録部19からなる。
【0028】仕切線判定部11では、仕切線文字登録部
12により登録された内容に基づき、テキストデータに
含まれる仕切線が抽出され、所定のタグが付与される。
罫線文字判定部13では、連続文字罫線文字登録部14
および罫線文字登録部17による登録内容、ならびに、
連続文字回数指定部15の指定内容に基づき、テキスト
データに含まれる罫線が抽出され、所定のタグが付与さ
れる。文字位置記憶部16では、元のテキストデータに
おける各行の位置情報を示すタグが行毎に付与される。
利用タグ判定部18では、利用タグ登録部19により登
録された内容に基づき、テキストデータに含まれる、利
用しないタグが抽出され、削除される。
【0029】このような処理を経てブロック分割されブ
ロック構造データとされたテキストデータは、例えばH
DDなどの記憶媒体の所定領域であるブロック構造デー
タ20に格納される。
【0030】文書構造化部21は、上述の図1のフロー
チャートのステップS30に対応する処理を行う。文書
構造化部12は、下線判定部22、下線文字登録部2
3、引用判定部24、引用文字登録部25、見出し判定
部26、見出し文字登録部27、表判定部28、正規表
現判定部29、正規表現登録部30、空白行判定部3
1、括弧判定部32、段落判定部33および英文判定部
34からなる。
【0031】下線判定部22では、下線文字登録部23
により登録された内容に基づき、テキストデータに含ま
れる下線が抽出され、所定のタグが付与される。引用判
定部24では、引用文字登録部により登録された内容に
基づき、テキストデータに含まれる引用部分が抽出さ
れ、所定のタグが付与される。見出し判定部26では、
見出し文字登録部27により登録された内容に基づき、
テキストデータに含まれる見出し部分が抽出され、所定
のタグが付与される。表判定部28は、テキストデータ
に含まれる表部分が抽出されると共に表構造が解析さ
れ、所定のタグが付与される。正規表現判定部29で
は、正規表現登録部30により登録された内容に基づ
き、テキストデータに含まれる正規表現を用いて抽出可
能な部分が検出され、所定のタグが付与される。空白判
定部では、テキストデータに含まれる空白部が抽出さ
れ、所定のタグが付与される。括弧判定部32では、テ
キストデータに含まれる括弧が判定され、所定のタグが
付与されると共に、後述する段落判定部33で判定され
た段落の、括弧位置に基づく補正が行われる。段落判定
部33は、文章情報中の段落分け可能な箇所が検出さ
れ、所定のタグが付与される。英文判定部34では、文
書中に含まれる英文で構成された文が抽出され、所定の
タグが付与されると共に、英文のハイフネーション処理
が行われる。
【0032】このような処理を経て構造毎に所定のタグ
が付与され、構造化され文構造化データとされたテキス
トデータは、例えばHDDなどの記憶媒体の所定領域で
ある文構造データ35に格納される。
【0033】文切り出し部36は、上述の図1のフロー
チャートのステップS40に対応する処理を行う。文切
り出し部36は、木構造部37、木構造データ38、タ
グ判別部39、タグアクションデータ40、助数詞テー
ブル41および文切り出しモード42からなる。
【0034】木構造化部37では、タグが所定に付与さ
れ文構造データ35に格納されたテキストデータが、木
構造データ38に変換される。タグ判別部39では、文
構造データ35に格納されたテキストデータに付与され
たタグに対して、タグアクションデータ40に登録され
ている、タグ毎に規定されているアクションが起こされ
る。助数詞テーブルは、例えば表中の文に対して、その
表において指定された助数詞を付して文を切り出す際に
参照される。文切り出しモード42により、文構造デー
タ35に格納されたテキストデータから文を切り出す際
に、文に付与されたタグに基づき切り出される文が指定
される。
【0035】また、この実施の一形態では、構造化され
たテキストデータから文を切り出す際に、文切り出しテ
ンプレート44に保存されているテンプレートを用いる
ことができる。テンプレートは、テンプレート登録部4
3で所定に登録され、文切り出しテンプレート44に保
存される。文切り出しテンプレート44は、例えばHD
Dなどの記憶媒体の所定領域である。テンプレート検索
モード46で指定された内容に基づき、テンプレート検
索部45で、保存されている文切り出しテンプレート4
4から適当なテンプレートが検索される。
【0036】図3は、上述した文書処理装置300を適
用可能なコンピュータ装置100の一例の構成を示す。
図3に示されるように、上述の文書処理装置300は、
一般的なコンピュータ装置100上で実現可能である。
バス101に対してCPU110、RAM(Random Acce
ss Memory)111、ROM(Read Only Memory)112お
よびグラフィック部116が接続される。CPU110
は、RAM111をワークメモリとして用い、所定のプ
ログラムに基づき、このコンピュータ装置100の全体
を制御する。RAM111は、上述した文字変換バッフ
ァ9としても用いられる。ROM112は、このコンピ
ュータ装置100の初期起動用のプログラムおよびデー
タなどが予め格納される。
【0037】また、CPU110において、プログラム
の指示に従い所定の表示制御信号が生成され、バス10
1を介してグラフィック部116に供給される。グラフ
ィック部116では、供給された表示制御信号に応じて
ディスプレイ130で表示可能な表示信号を生成する。
表示信号は、グラフィック部116から例えばCRT(C
athode Ray Tube)やLCD(Liquid Crystal Display)か
らなるディスプレイ130に供給され、所定の表示がな
される。
【0038】バス101には、さらに、I/O部11
3、ハードディスクドライブ(HDD)114および通
信I/F115が接続される。
【0039】I/O部113は、このコンピュータ装置
100と外部とのデータのやりとりを制御する。例えば
キーボード120やマウス121がI/O部113に接
続される。キーボード120から入力された文字情報
や、マウス121の移動情報およびボタン情報がI/O
部113に供給され、バス101を介して例えばCPU
110に供給される。
【0040】また、I/O部113にディスクドライブ
122を接続することができる。ディスクドライブ12
2は、CD−ROM(Compact Disc-ROM)を再生可能なC
D−ROMドライブであって、CD−ROMに記録され
たテキストデータを、このコンピュータ装置100に入
力することができる。勿論ディスクドライブ122は、
CD−ROMドライブに限らず、例えばフレキシブルデ
ィスクドライブやMO(Magneto-Optical Disk)ドライブ
であってもよい。
【0041】外部I/O123は、例えば所定の形式の
コネクタを有し、対応する形式のコネクタを有する他の
機器とケーブル接続することで、データ通信を行うこと
ができるようにされている。外部の機器で作成されたテ
キストデータを、この外部I/O123を介してコンピ
ュータ装置100に入力することができる。勿論、例え
ばこのコンピュータ装置100でテキストデータから最
終的に切り出された文を、この外部I/O123を介し
て外部に出力するようにもできる。外部I/O123
は、ケーブル接続に限らず、例えば赤外線信号によって
通信を行うようなインターフェイスとしてもよい。
【0042】HDD114は、例えば、上述した文書デ
ータ4、ブロック構造データ20、文構造データ35お
よび文切り出しテンプレート44の領域が設けられ、そ
れぞれのデータが格納される。また、上述の図2におけ
る各登録部において登録されるデータや各種テーブル
は、このHDD114に格納される。上述した文字変換
バッファ9として、HDD114を用いることも可能で
ある。さらに、HDD114には、このコンピュータ装
置100の基本的な制御システムであるOS(Operating
System)プログラムや、このコンピュータ装置100に
おいて上述した文書処理装置300を実現するためのプ
ログラムおよびデータなどが格納される。
【0043】通信I/F115は、このコンピュータ装
置100と、例えばインターネットといった外部のネッ
トワークと接続され、CPU110の指示に基づき、外
部のネットワークとの通信を制御する。ネットワークに
接続された他の機器で作成されたテキストデータを、こ
の通信I/F115を介してコンピュータ装置100に
入力することができる。勿論、このコンピュータ装置1
00でテキストデータから最終的に切り出された文を、
この通信I/F115を介して外部に送信することもで
きる。これに限らず、コンピュータ装置100におい
て、この実施の一形態による文書処理装置300を構成
するためのプログラムデータを、ネットワークから通信
I/F115を介して入手するようにしてもよい。
【0044】なお、図3では省略されているが、コンピ
ュータ装置100において、音声合成手段と音声出力手
段とをさらに設けることができる。音声合成手段では、
供給されたテキストデータに基づき、音声が合成され
る。合成された音声は、音声出力手段により音声として
出力される。これにより、このコンピュータ装置100
上で構成される文書処理装置300で処理され切り出さ
れた文を、音声として読み上げ処理を行うことができ
る。
【0045】このように構成されれたコンピュータ装置
100において、先ず、上述の文書処理装置00を構成
するためのプログラムをインストールする必要がある。
例えば、プログラムが記録されたCD−ROMを対応す
るディスクドライブ122に装填し、再生する。CD−
ROMから読み出されたプログラムデータが例えばHD
D114上に所定に展開および格納され、インストール
が完了される。インストール完了後に、コンピュータ装
置100に対する所定の装置により当該プログラムが起
動され、コンピュータ装置100上にこの実施の一形態
による文書処理装置300が構成される。
【0046】なお、プログラムは、CD−ROMやMO
のような記録媒体によって供給されるのに限らず、例え
ばネットワークに接続された他のコンピュータ装置など
から入手するようにしてもよい。通信I/F115の制
御によりネットワークから当該プログラムデータがダウ
ンロードされる。ダウンロードされたプログラムデータ
が例えば所定にHDD114上に展開および格納され、
インストールが完了される。勿論、これに限らず、外部
I/O123を介して外部の他の機器からプログラムデ
ータを入手するようにしてもよい。
【0047】以下、この発明の実施の一形態による文書
処理装置300の動作について、より詳細に説明する。
図4は、この実施の一形態による文書処理を概略的に示
すフローチャートである。図4は、上述した図1のフロ
ーチャートをより詳細に示し、対応するステップには同
一の符号を付している。先ず、ステップS10で、入力
された文字情報のテキスト形式が判別され、次のステッ
プS11で、文字情報で用いられている文字コードがこ
の文書処理装置300において内部的に処理可能な文字
コードに変換される。
【0048】内部的に処理可能となった文字情報は、ス
テップS20で、所定の単位のブロック毎に分割され、
ステップS21で、ブロック構造データとされたテキス
トデータが作成される。作成されたテキストデータは、
ブロック構造データ20に格納される。
【0049】ステップS30’では、ブロック構造とさ
れたデータに対してブロック内タグ処理し、テキストデ
ータの構造化処理を行う。なお、ステップS30’は、
上述した図1では、文書構造化として記されている。ス
テップS30’でブロック内のタグ処理がなされ、ステ
ップS31で括弧のチェック、ステップS32で英文チ
ェックおよびステップS33で文の分割処理がそれぞれ
なされ、構造化されたテキストデータが作成される(ス
テップS34)。作成された構造化テキストデータは、
文書構造化データ35に格納される。
【0050】最後に、文書構造化データ35に格納され
たテキストデータに対して、ステップS40で文の切り
出し処理が行われる。
【0051】図5は、上述したステップS10の、テキ
スト形式判別の処理をさらに詳細に示す一例のフローチ
ャートであって、テキスト形式判定部5において実行さ
れる。なお、図5中で、「A」、「B」で示されるフロ
ーは、図4の対応する記号へ処理が移行することを示
す。
【0052】先ず、このフローチャートの説明に先んじ
て、タグについて概略的に説明する。タグは、一般的に
は、範囲の開始および終了をそれぞれ示す一対の記号か
らなり、テキスト中に埋め込んで任意の範囲を指定する
ことができる。例えば、範囲の開始を示すタグは、予め
定義された文字列を記号「<」と「>」とで囲んで表現さ
れ(開始タグと称する)、終了を示すタグは、開始を示
すタグ中に記される文字列と同一の文字列が記号「</」
と「>」とで囲んで表現される(終了タグと称する)。
一対のタグによって指定された範囲に対して、記号
「<」と「>」(あるいは記号「</」と「>」)とで囲ま
れた文字列によって、任意の意味を持たせることが可能
である。また、タグ中に、所定のパラメータの記述を含
ませることができる。なお、タグに定義された意味によ
っては、開始のタグだけで用いられることもある。
【0053】図5において、最初のステップS100
で、入力されたテキストデータの文字種が判別される。
先ず、文字種判断部8で、入力テキストデータのエンコ
ード方法が判断される。例えば、入力された文字情報が
標準的なテキストデータに対して、Base64やUU
ENCODEといった、何らかのエンコード処理を施し
たものであるか否かが判断される。何らかのエンコード
処理が施されていれば、当該テキストデータに対して対
応するデコード処理が施される。
【0054】また、テキスト形式判定部5では、入力さ
れたテキストデータのコード体系が処理系文字コード指
定部6により指定された文字コード体系と一致するかど
うかの判別がなされる。若し、文字種判断部8で変換さ
れたテキストデータの文字コードが指定された文字コー
ドと異なる場合には、テキストデータが文字コード変換
部7に渡され、当該テキストデータが指定されたコード
体系のデータに変換される。
【0055】なお、処理系文字コード指定部6により、
処理系の文字コードの指定がなされていない場合は、与
えられたテキストデータのコード体系に従って処理が行
われる。
【0056】以下、ステップS101、S102および
S103で、タグによるテキストの分類が行われる。例
えば、テキスト形式判定部5において、ステップS10
0による、テキストデータの変換結果を受けたテキスト
形式判定部5により、変換結果の最初に、上述したよう
な、「< >」で囲まれたタグがあるかどうかが調べら
れ、タグがある場合には、そのタグのタイプが調べられ
る。その結果、そのタグがHTML形式を表すタグであ
る場合は、テキストデータの形式がHTML形式である
と判断され、XML(Extensible Markup Language)を表
すタグの場合は、XML形式であると判断される。
【0057】また、この文書処理装置300に固有の、
ブロック構造化されたデータであることを表すタグの場
合は、テキストデータの形式がブロック構造データであ
ると判断され、文書構造化されたデータであること表す
タグである場合は、文書構造データであると判断され
る。これらのタグについては、後述する。
【0058】さらに、テキスト形式判定部5において、
テキストデータが上述した各タグによって表現されてい
ないと判断された場合、各行に記号「:」が含まれるか
どうかが判断される。記号「:」が含まれる場合、各行
の最初の記号“:”の手前までをヘッダと解釈し、ヘッ
ダに「DATE」と「FROM」と「TO」とがあった場合は、当
該テキストデータが電子メール(E_Mail)による
ものであると解釈される。
【0059】このような考えに基づき、ステップS10
1で、当該テキストデータがブロック構造データである
かどうかが判断される。若し、当該テキストデータが、
この文書処理装置300において定義されるブロック構
造化処理が既に施されたブロック構造データであると判
断された場合は、図5中の「A」で示されるフローに従
い、上述した図4のフローチャートのうちブロック分割
を行うステップS20の処理を行わずに、処理はステッ
プS30’に移行する。
【0060】一方、ステップS101で、当該テキスト
データがブロック構造データではないと判断されれば、
処理はステップS102に移行する。ステップS102
では、当該テキストデータが文構造データであるかどう
かが判断される。若し、当該テキストデータが、この文
書処理装置300において定義される文構造化処理が既
に施された文構造データであると判断された場合は、図
5中の「B」で示されるフローに従い、上述した図4の
フローチャートのうちステップS30’のブロック内タ
グ処理〜ステップS34の文構造データの作成処理まで
を行わずに、処理はステップS40に移行する。
【0061】一方、ステップS102で、当該テキスト
データが文構造データではないと判断されれば、処理は
ステップS103に移行する。ステップS103では、
当該テキストデータが、テキスト中に例えばHTML形
式あるいはXML形式を表すタグが埋め込まれたタグ付
きテキストであるかどうかが判断される。若し、当該テ
キストデータがタグ付きテキストであると判断された場
合は、処理はステップS105に移行し、当該テキスト
データのテキスト形式が「タグ付きテキスト」に設定さ
れる。
【0062】上述のステップS103で、当該テキスト
データがタグ付きテキストでないと判断されれば、処理
はステップS104に移行する。ステップS104で
は、当該テキストデータが電子メールとして送信された
ものであるかどうかが判断される。若し、当該テキスト
データが電子メールによって送信されたものであると判
断されれば、処理はステップS107に移行し、当該テ
キストデータのテキスト形式が「電子メール形式」に設
定される。なお、電子メール形式のテキストデータは、
実体的にはプレーンテキストである。
【0063】一方、ステップS104で、当該テキスト
データが電子メールによって送信されたものでないと判
断されれば、処理はステップS106に移行され、当該
テキストデータのテキスト形式が「プレーンテキスト形
式」に設定される。
【0064】こうして、図5のフローチャートに従いテ
キスト形式が判別された当該テキストデータは、必要に
応じて、さらに文字コードの変換などの処理がなされ、
文字変換バッファ9に溜め込まれる。
【0065】次に、上述の図4のフローチャートにおけ
るステップS20の、ブロック分割処理について説明す
る。図6は、上述したステップS20の、ブロック分割
の処理をさらに詳細に示す一例のフローチャートであっ
て、ブロック分割部10において実行される。ブロック
分割部10では、文字変換バッファ9から入力されたテ
キストデータが電子メール形式やプレーンテキスト形式
のような、タグ無しのテキスト形式の場合に、文字種か
ら判断できる簡単なレベルでのブロック分割処理が行わ
れる。
【0066】ブロック分割部10において、上述の図5
のフローチャートによる処理がなされ、文字変換バッフ
ァ9に溜め込まれたテキストデータに対して、最初のス
テップS200で、当該テキストデータのテキスト形式
がプレーンテキスト形式であるかどうかが判別される。
【0067】若し、プレーンテキスト形式であると判別
されれば、処理はステップS201に移行する。ステッ
プS201では、罫線文字判定部13において、当該テ
キストデータに含まれる罫線文字が判別される。そし
て、ステップS202で判別された罫線文字が罫線を構
成しているかどうかが判断され、罫線を構成していると
判断されれば、ステップS203で、当該部分に罫線を
示すように定義された罫線タグが付与される。
【0068】図7は、罫線文字によるタグの付与の一例
の様子を概略的に示す。図7Aに一例が示されるように
文書中に罫線が含まれている場合、先ず、この罫線が罫
線文字で構成されているかどうかが調べられる。罫線文
字は、例えば日本語表記のような2バイト文字におい
て、罫線の一部を構成可能なようにされた一連の文字で
ある。
【0069】罫線文字が罫線文字登録部17により登録
される。図8は、罫線文字登録部17に罫線文字が登録
された一例の様子を示す。罫線文字登録部17におい
て、罫線文字が複数のパターンに分類されて登録され
る。この例では、Type=7、8および9の3タイプ
が登録されている。また、罫線文字登録部17により、
登録されている罫線文字に対する整合性情報も登録され
る。整合性情報は、例えば、タイプ毎の各々の罫線文字
について、行方向や列方向に連続的に現れた場合に、組
み合わせ可能な罫線文字の情報である。
【0070】なお、罫線文字および整合性情報は、デフ
ォルトのデータとして幾つかを予め登録しておいてもよ
い。この場合でも、登録されている罫線文字および整合
性情報は、罫線文字登録部17からユーザにより追加お
よび変更が可能なようにされている。
【0071】上述のように登録された罫線文字が参照さ
れ、テキストデータに含まれる罫線文字がこれらのタイ
プのうちどのタイプに相当するかが判別される。さら
に、行単位で調べていき、同タイプの罫線文字が連続的
に出現するかどうかが調べられる。罫線文字が所定数以
上、連続して現れているとされれば、罫線文字同士の整
合性がチェックされる。整合性に矛盾がなければ、罫線
文字が連続的に出現している範囲が一つのブロックであ
るとして判別される。このとき、例えば罫線文字の整合
性の情報に基づき、最後に来るべき罫線文字を判別する
こともできる。
【0072】なお、図7Aにおいて、「|重さ|長さ|
値段|」の行や「|10|20|30|」の行は、罫線
文字と非罫線文字とが混在しているが、このような場
合、例えば上下の行の罫線文字との関係(位置関係や整
合性)に基づき、一連の罫線文字のブロックに含まれる
かどうかを判別することができる。また、罫線文字の連
続回数は、連続文字回数指定部15で指定することがで
きる。例えば、連続文字回数指定部15には、罫線文字
毎の連続回数が予め登録されると共に、罫線文字毎の連
続回数をユーザが指定することもできるようにされる。
【0073】上述のようにして罫線文字によるブロック
が特定されたら、罫線によるブロック構造を示すタグ
(以下、罫線タグと称する)が当該ブロックの上下、す
なわち開始位置および終了位置に付与される。図7B
は、図7Aの文書に対して罫線タグが付与された様子を
示す。タグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK
>」は、この実施の一形態によるブロック構造を示すタ
グである。それぞれブロック構造の開始および終了を示
す。タグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK
>」は、パラメータ「type」によりブロックの種類が示
され、「type=0」でプレーンテキストによるブロックで
あることが表される。
【0074】この図7Bの例では、開始を示すタグ「<T
C_TSF_BLOCK>」に対してタイプを表すパラメータ「type
=7」が付加され、この一対のタグで囲まれた範囲がタイ
プ=7の罫線文字によるブロック構造であることが示さ
れる。
【0075】罫線によるブロックの判別の際には、上述
のように罫線文字による判別だけでなく、所定の文字に
より構成された罫線も判別される。図9は、文字罫線に
よる罫線についてタグを付与する一例の様子を示す。プ
レーンテキストで形成される文書においては、通常使用
される文字を利用して罫線を形成することが一般的に行
われる。罫線として利用される文字としては、例えば、
「+」、「−」、「*」、「=」などがある。これらの
文字が複数回繰り返されたり、組み合わされたりして、
罫線が表現可能である。また、罫線における縦線に限っ
て「|」が用いられる場合がある。図9Aの例では、
「+−」、「−」、「−+」および「|」が用いられて
罫線が構成され、表が形成されている。
【0076】なお、以下では、文字によって構成される
罫線を文字罫線と称し、文字罫線を構成可能な文字を文
字罫線文字と称する。
【0077】文字罫線の判別は、連続文字罫線文字登録
部14により登録された文字罫線文字が参照されて行わ
れる。図10は、連続文字罫線文字登録部14の一例の
登録内容を示す。このように、文字罫線文字と、その文
字罫線文字が最低何回、連続して現れたら罫線として判
別するかを示す最低回数とが対応付けられて登録されて
いる。例えば文字「−」は、2回以上連続して文書中に
現れた場合、文字罫線が構成されていると判別される。
【0078】なお、この連続文字罫線文字登録部14に
より、上述した文字罫線を登録してもよい。また、文字
罫線文字および最低連続回数は、予め登録しておいても
よい。この場合でも、登録内容は、連続文字罫線文字登
録部14からユーザにより追加、変更、削除を行うこと
ができる。
【0079】上述のようにして文字罫線文字によるブロ
ックが特定されたら、罫線タグが当該ブロックの上下、
すなわち開始位置および終了位置に付与される。図9B
は、図8Aの文書に対して罫線タグが付与された様子を
示す。ブロック構造を示すタグ「<TC_TSF_BLOCK>」およ
び「</TC_TSF_BLOCK>」において、パラメータ「type=1
0」が付加され、この一対のタグで囲まれた範囲がタイ
プ=10の文字罫線文字によるブロック構造であること
が示される。
【0080】図6の説明に戻り、ステップS201〜S
203の処理が終了されると、処理はステップS204
に移行する。ステップS204では、仕切り文字判定部
11において、当該テキストデータに含まれる仕切り線
文字が判別される。そして、ステップS205で判別さ
れた仕切り線文字が仕切り線を構成しているかどうかが
判断され、仕切り線を構成していると判断されれば、ス
テップS206で、当該部分に仕切り線を示すように定
義された仕切り線タグが付与される。
【0081】図11は、仕切り線文字による仕切り線に
ついてタグを付与する一例の様子を示す。プレーンテキ
ストで形成される文書においては、通常使用される文字
を利用して仕切り線を形成することが一般的に行われ
る。仕切り線として利用される文字としては、例えば、
「−」、「*」などがある。これらの文字が複数回繰り
返されたり、組み合わされたりして、仕切り線が表現可
能である。
【0082】仕切り線の判別は、仕切り線文字登録部1
2により登録された仕切り線文字が参照されて行われ
る。図12は、仕切り線文字登録部12の一例の登録内
容を示す。仕切り線は、仕切り線文字が1行において連
続的に繰り返されて現れ、しかもそれが1行で終了して
いる場合に、それが仕切り線であると判別される。な
お、仕切り線文字は、予め登録しておいてもよい。この
場合でも、登録内容は、仕切り線文字登録部13からユ
ーザにより追加、変更、削除を行うことができる。
【0083】上述のようにして仕切り線によるブロック
が特定されたら、仕切り線を示す仕切り線タグが当該仕
切り線のの上下の行に付与される。図11Bは、図11
Aの文書に対して仕切り線タグが付与された様子を示
す。ブロック構造を示すタグ「<TC_TSF_BLOCK>」および
「</TC_TSF_BLOCK>」において、パラメータ「type=1」
が付加され、この一対のタグで囲まれた範囲がタイプ=
1の仕切り線文字によるブロック構造であることが示さ
れる。
【0084】図6の説明に戻り、ステップS204〜S
206の処理が終了されると、処理はステップS207
に移行する。ステップS207では、図示されない空白
行判定部において、当該テキストデータに含まれる空白
行が判別される。そして、ステップS208で、空白行
と空白行とで挟まれた部分をブロック構造と定義するブ
ロックタグが当該部分に付与される。
【0085】図13は、空白行によりブロックタグを付
与する一例の様子を示す。図13Aのようなテキストが
あった場合、行単位でテキストを調べていって、行全体
が空白を示す文字で埋まっている空白行が判別される。
図13Aの例では、先頭行、中間行および末尾行が空白
行であると判別される。そして、空白行に挟まれた部分
がブロックであるとされ、図13Bに示されるように、
当該ブロックの開始と終了を示すタグ「<TC_TSF_BLOCK
>」および「</TC_TSF_BLOCK>」が付与される。このと
き、ブロック構造を示すタグ「<TC_TSF_BLOCK>」および
「</TC_TSF_BLOCK>」において、パラメータ「type=0」
が付加され、この一対のタグで囲まれた範囲がタイプ=
0の空白行で挟まれたブロック構造であることが示され
る。
【0086】ステップS207およびS208の処理が
終了されると、処理はステップS209に移行する。ス
テップS209では、正規表現判定部29において、当
該テキストデータに含まれる正規表現により示される部
分が判別される。なお、上述の図2の例では、正規表現
判定部29および正規表現登録部30は、ブロック分割
部10と文書構造化部21とで共有的に用いられる。ス
テップS210で、判別された部分が2次元の正規表現
で表されたブロックに適合しているかどうかが判断さ
れ、適合していると判断されれば、ステップS211で
当該部分に2次元の正規表現により表されるブロックで
あることを示すように定義された正規表現ブロックタグ
が付与される。
【0087】図14は、2次元の正規表現によるタグの
付与の一例の様子を概略的に示す。図14Aに一例が示
されるように、文書中に特定のパターンによって囲まれ
た部分がある場合、そのパターンが2次元の正規表現に
適合しているかどうかが調べられる。これは、正規表現
判定部29により、正規表現登録部30で登録された正
規表現パターンが参照されて行われる。
【0088】図15は、正規表現登録部30により登録
された一例の正規表現を示す。この情報は、通常の1次
元の正規表現により、ブロックの先頭パターンと終了パ
ターンがそれぞれ示され、それぞれのパターンの間に存
在し得る行数の最大値を表すデータと、2次元の正規表
現によるブロックであると判断された場合にそのブロッ
クにどのようなタグを付与するかを示すデータとから構
成される。なお、正規表現は、予め登録しておいてもよ
い。この場合でも、登録内容は、正規表現登録部30か
らユーザにより追加、変更、削除を行うことができる。
【0089】図15の例では、例えば「★(黒星印)」
が2つ連なった「★★」が連続的に繰り返されて現れる
行がテキストデータ中に存在し、その行から下へ5行以
内に、対応する終了パターンである「★★」が連続的に
繰り返されて現れる行が存在すれば、それぞれブロック
の開始行および終了行とされ、ブロック構造であること
を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK
>」がそれぞれ付与される。このとき、ブロック構造を
示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK
>」において、パラメータ「type=101」が付加され、こ
の一対のタグで囲まれた範囲がタイプ=101の2次元
の正規表現によるブロック構造であることが示される。
さらに、この例では、この2次元の正規表現によるブロ
ック構造がヘッダを表すものであるとされ、ブロック構
造を示すタグに対し、さらにパラメータ「tag=HEAD」が
付加される。
【0090】また、例えば記号「\」、「-」および
「+」、ならびに、アルファベット「A〜Z」の任意の組
み合わせが連続的に繰り返されて現れる行がテキストデ
ータ中に存在し、対応する終了パターンで終了していれ
ば、その行がブロック構造であると判断され、ブロック
構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_B
LOCK>」がそれぞれ付与される。このとき、ブロック構
造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLO
CK>」において、パラメータ「type=101」が付加され、
この一対のタグで囲まれた範囲がタイプ=101の2次
元の正規表現によるブロック構造であることが示され
る。さらに、この例では、この2次元の正規表現による
ブロック構造が仕切り線を表すものであるとされ、ブロ
ック構造を示すタグに対し、さらにパラメータ「tag=H
R」が付加される。このように、2次元の正規表現によ
るブロック構造が付与された一例の様子を図14Bに示
す。
【0091】正規表現登録部30によって登録されるデ
ータおよび正規表現判定部29は、汎用的に用いること
ができるので、上述したように、ブロック分割部10と
後述する文書構造化部21とで、共有的に、各種タグの
付与に利用可能である。そのため、ブロック構造データ
20に対応するタグと、文構造データ35に対応するタ
グとが判断され、記述されている正規表現の適応が行わ
れる。つまり、記述されているデータは、ブロック分割
部10と文構造化部21との何方のプロセスにおいて利
用されるものかということを付与すべきタグにより、自
動判別が行われる。
【0092】ステップS209〜S211の処理が終了
されると、処理はステップS212に移行する。ステッ
プS212では、処理すべき最後のテキストデータの処
理が終了したかどうかが判断される。若し、未処理のテ
キストデータが残っていると判断されれば、処理はステ
ップS200に戻される。処理すべきテキストデータの
処理が全て終了したと判断されれば、一連のブロック分
割処理が終了される。
【0093】なお、上述したステップS200で、当該
テキストデータのテキスト形式がプレーンテキスト形式
でないと判断されれば、処理はステップS210に移行
する。この場合、当該テキストデータのテキスト形式
は、タグ付きテキスト形式である。ステップS210で
は、利用タグ判定部18において、そのタグ付きテキス
ト形式のテキストデータ(以下、タグ付きテキスト)
に、この文書処理装置300で用いられない不要タグが
埋め込まれているかどうかが判定される。
【0094】当該テキストデータに埋め込まれているタ
グが検出され、ステップS211で、検出されたタグが
この文書処理装置300で文切り出しに利用されるかど
うかが判断される。若し、検出されたタグが利用されな
いものであると判断された場合には、処理はステップS
212に移行し、当該タグが削除される。当該タグと対
になるタグが存在するときには、それも削除される。不
要タグが削除されるか、または、ステップS211で検
出されたタグが利用されるものであると判断された場合
は、処理はステップS212に移行する。
【0095】図16は、タグ付きテキストから不要タグ
を削除する一例の様子を示す。図16Aに示されるよう
なタグ付きテキストにおいて、行毎にタグが検出され
る。そして、利用タグ判定部18において、検出された
タグが利用タグ登録部19で登録されたタグであるかど
うかが判断される。図17は、利用タグ登録部19で利
用タグが登録された一例の利用タグリストを示す。左欄
に利用されるタグが一覧され、右欄に利用されない、す
なわち削除されるタグが一覧されて示されている。この
図17の例では、対応する終了タグおよび介した具中に
含まれるパラメータが省略されている。なお、利用タグ
および削除タグは、予め登録しておいてもよい。この場
合でも、登録内容は、利用タグ登録部19からユーザに
より追加、変更、削除を行うことができる。
【0096】図16Aに示されるタグ付きテキストに対
して利用タグリストが参照され、削除されるべき不要タ
グが検出される。図17Aの例では、コメントを表すタ
グ「<!--」と他文書の参照を表すタグ「<A>」とが削除
タグとして登録されているので、これらのタグおよびそ
れぞれの終了タグが削除され、図16Bに一例が示され
るようなタグ付きテキストとされる。
【0097】なお、図6のフローチャートでは省略され
ているが、文字位置記憶部16により、オリジナルのテ
キストデータにおける各行毎の文字位置を示す文字位置
タグが付与される。図18は、この各行毎の文字位置を
示すタグが付与された一例の様子を示す。各行の先頭に
付与されたタグにより、その行の文字位置が示される。
「nn」を数値としたとき、「pos=nn」は、その行が含ま
れるブロック内においてその行の先頭がブロックの先頭
から何バイト目のデータであるかを示す。「top=nn」
は、その行が、その行の含まれるブロックの何行目であ
るかを示す。「left=nn」は、左から何文字目からのデ
ータであるかを示す。「right=nn」は、その行の末尾が
左から何バイト目のデータであるかを示す。また、図示
されていないが、「rows=nn」は、そのブロックに何行
のデータがあるかを示し、ブロック全体を示すタグ「<T
C_TSF_BLOCK>」の中の「cols=nn」は、そのブロック内
での1行あたりの最大文字数を示す。
【0098】以上のようにして、ブロック分割部10に
よるテキストデータのブロック構造化が行われる。ブロ
ック構造化されたテキストデータは、ブロック構造デー
タ20に格納される。このとき、テキストデータに対し
て、ブロック分割されたデータであることを表すこの文
書処理装置300に固有のタグ「<?TSF…?>」が付与さ
れる。ブロック構造化されたテキストデータを、例えば
ディスクドライブ122や外部I/O123などを介し
て外部の記憶装置に格納することもできる。
【0099】ここで、文字変換バッファ9に溜め込まれ
た入力テキストデータが、テキスト形式判定部5によ
り、プレーンテキスト形式以外のタグ付きのテキストと
判断された場合、当該入力テキストデータに対して上述
のタグタグ「<?TSF…?>」が付与され、ブロック構造化
されたテキストデータと同様に、ブロック構造データ2
0に格納される。
【0100】なお、このとき、この際、HTML形式な
どのタグ付き言語によるタグ「<!--…-->」といったコ
メント部分を取り除いた形で、ブロック構造データ20
に登録することも可能である。
【0101】なお、図6のフローチャートにおける処理
の順序は、上述の例に限定されない。図6のフローチャ
ートにおいて、処理は、罫線文字の判別を行うステップ
S201〜S203、仕切り文字の判別を行うステップ
S204〜S206、空白行によるブロック化を行うス
テップS207〜S208、ならびに、正規表現による
判別を行うステップS209〜S211の4つに分けら
れるが、この単位で順番の入れ替えが可能である。
【0102】次に、上述した図4のステップS30’の
処理に従い、ブロック構造データ20に対してブロック
内タグ処理がなされ、文書が構造化される。すなわち、
ブロック構造データ20を木構造化されたタグ付きテキ
ストに変換するために、制御部1により、ブロック構造
データ20が文書構造化部21に渡される。
【0103】図19は、文書構造化部21によりなされ
る、文書構造化の一例の処理を示すフローチャートであ
る。この図19のフローチャートにおける処理は、ブロ
ック構造データ20のブロック毎に行われる。また、各
ブロック内においては、各行毎に処理が行われる。
【0104】ステップS300で、下線判定部22にお
いて、ブロック構造データ20に下線文字が含まれてい
るかどうかが判別される。そして、ステップS301で
下線文字が対応していると判断された文字列に対して、
下線が付されていることを示す下線タグが付与される。
なお、下線文字は、当該文字の直上に表示されるべき文
字に対して下線として表示される文字であり、下線文字
を用いることで、下線文字の直上に表示されるべき文字
を強調することができる。
【0105】図20は、下線文字により強調された文字
列に下線による強調を示す下線タグを付与する一例の様
子を示す。図20Aに示されるように、ブロック構造デ
ータ20に対して下線文字が挿入され、「花見」の2文
字からなる文字列が強調表示されている。下線文字は、
例えば「 ̄」や「〜」などにより、下線文字により強調
したい文字列を含む行の直下の1行が用いられて挿入さ
れる。
【0106】下線文字の判別は、下線判定部22におい
て、下線文字登録部23により登録された下線文字が参
照されて行われる。図21は、下線文字登録部23によ
る一例の登録内容を示す。下線文字が所定回数以上連続
的に繰り返して現れた場合に、当該下線文字により下線
文字の直上に表示されるべき文字列に対する下線が表現
され、その文字列が強調表示されていると判別される。
なお、下線文字は、予め登録しておいてもよい。この場
合でも、登録内容は、下線文字登録部23からユーザに
より追加、変更、削除を行うことができる。
【0107】上述のようにして下線文字が特定された
ら、当該下線文字により強調される文字列に対して、図
20Bに一例が示されるように、下線による強調がなさ
れていることを示す下線タグ「<EM underline=" ̄">」
および「</EM>」が付与される。それと共に、当該下線
文字が記述されている行が削除または所定のコメントが
付けられ除外可能とされる。なお、下線タグにおいて、
パラメータ中の「" "」により囲まれた部分に記される
下線文字で下線による強調表示が行われることが示され
る。
【0108】ステップS300〜S302の処理が終了
されると、処理はステップS303に移行し、引用判定
部24において、ブロック構造データ20内の行の行頭
に引用文字が存在するかどうかが判別される。ステップ
S304で引用文字が行頭に付された行(文字列)が例
えば電子メールにおける引用行であるかどうかが判断さ
れ、引用行であると判断されれば、ステップS305
で、当該行の引用文字を取り除くと共に、当該行にどん
な引用文字が付されていたかを示す引用タグが付与され
る。
【0109】図22は、引用文字により他からの引用で
あることが示された文字列に対して引用タグを付与する
一例の様子を示す。この例では、記号「>」が引用文字
として用いられ、引用された行あるいは文字列の先頭に
この引用文字が挿入されている。
【0110】引用文字の判別は、引用判定部24におい
て、引用文字登録部25により登録された引用文字が参
照されて行われる。図23は、引用文字登録部25によ
る一例の登録内容を示す。登録された引用文字が2行以
上に渡り行頭に出現した場合に、その引用文字が行頭に
挿入された行が、例えば電子メールにおける引用部分で
あると判断される。引用部分であると判断された行は、
図22Bに一例が示されるように、引用文字が取り除か
れると共に、引用部分であることを示す引用タグ「<BLO
CKQUOTE header=">">」(および「</BLOCKQUOTE>」が
付与される。この引用タグは、引用部分であることが示
されると共に、パラメータ「header」によって、どのよ
うな引用文字によって引用されていたかが示される。す
なわち、引用文字として用いられた文字あるいは記号が
パラメータ「header=">"」の「""」に囲まれた部分に
記述される。
【0111】また、この実施の一形態では、図22Bに
示されるように、引用部分が特定されたら、特定された
引用部分は、引用タグで囲まれると共に、HTML形式
において段落を表すタグ「<P>」および「</P>」と、整
形済みテキストであることを表すタグ「<PRE>」および
「</PRE>」とで囲まれる。さらに、ブロック構造データ
20においてブロックを示すタグ「<TC_TSF_BLOCK>」お
よび「</TC_TSF_BLOCK>」が削除される。
【0112】なお、オリジナルのブロック構造データに
付されている引用文字に対して、引用文字であることを
示すタグを付与することも可能である。図24は、引用
文字に対してタグを付与する場合の例を示す。図24A
に示されるデータについて引用文字が検出され、図24
Bに一例が示されるように、引用文字そのものに対して
引用文字を表すタグ「<QUOTE>」および「</QUOTE>」が
付与される。
【0113】このとき、オリジナルデータにおける引用
文字の種類や引用文字の重複付与などに基づき、引用者
の違いや引用の深さなどの引用の属性を示すパラメータ
を、引用文字を表すタグに付加することができる。
【0114】また、上述では、引用文字を行頭に挿入さ
れている行が2行以上で、その部分を引用部分であると
判断したが、これはこの例に限定されない。例えば、指
定行数以上に渡り連続的に、引用文字が行頭に挿入され
ている場合に、その部分を引用部分であると判断するよ
うにもできる。指定行数は、ユーザにより指定されるも
のであってもいいし、予め決められた行数であってもよ
い。
【0115】さらに、入力されたブロック構造データ2
0内において、どこか一つのブロックで引用の利用が認
められた場合には、そのブロックを含み、他の全てのブ
ロックで、登録された引用文字で始まる行が連続してい
ない場合でも、全て引用部分であるとして判断すること
も可能である。これによれば、ブロック構造データ20
内の任意の位置で2行以上の引用部分が判別されれば、
1行のみの引用も引用部分と判断することができる。さ
らに、引用文字から始まっている行の連続状態に制限を
おかずに適合する場合は、すべて引用文字と判断するこ
とも可能である。
【0116】ステップS303〜ステップS305の処
理が終了されたら、処理はステップS306に移行す
る。ステップS306では、見出し判定部26により、
ブロック構造データ20に見出しが含まれているかどう
かが判別される。そして、ステップS307で見出し行
が判断され、ステップS308で、見出し行であること
を示すタグが付与される。
【0117】図25は、見出し行を検出しタグを付与す
る一例の様子を示す。図25Aに示されるように、ブロ
ック構造データ20中で、記号「◎(二重丸)」を見出
し文字として、その行が見出し行であることが表現され
ている。見出し文字の判別は、見出し判定部26におい
て、見出し文字登録部27により登録された見出し文字
が参照されて行われる。図26は、見出し文字登録部2
7による一例の登録内容を示す。ブロック内の行の先頭
に、登録された見出し文字と一致する文字が出現した場
合に、当該行が見出し行であると判別される。なお、見
出し文字は、予め登録しておいてもよい。この場合で
も、登録内容は、見出し文字登録部27からユーザによ
り追加、変更、削除を行うことができる。
【0118】上述のようにして見出し行が特定された
ら、図25Bに一例が示されるように、見出し行を表す
タグ「<HEAD>」および「</HEAD>」が見出し行に対して
付与される。なお、見出しを判断する場合に、見出し文
字に加えて、行末が「、」に代表される次の行への継続
文字で終了していない場合を条件とすることができる。
【0119】また、この実施の一形態では、図25Bに
示されるように、見出し行が特定されたら、見出し行が
含まれるブロックにおいて、特定された見出し行が見出
しを表すタグで囲まれると共に、見出し以外の行がHT
ML形式において段落を表すタグ「<P>」および「</P
>」と、整形済みテキストであることを表すタグ「<PRE
>」および「</PRE>」とで囲まれる。さらに、当該ブロ
ックにおいてブロックを示すタグ「<TC_TSF_BLOCK>」お
よび「</TC_TSF_BLOCK>」が削除される。
【0120】見出し判定部26では、ブロック内のある
行が、上述した文字位置タグにより保持されている文字
位置や1行の文字数に基づき、センタリングされた位置
にある文字列であるかどうかを判断し、判断結果に基づ
き見出しを判別することができる。図27は、センタリ
ングによる見出し判別の一例の様子を示す。図27Aに
示されるように、「問題」と記された文字列がセンタリ
ングされた位置にある文字列であると判断されれば、当
該文字列が含まれる行が見出し行であると判断され、図
27Bに示されるように、見出し行を表すタグが当該行
に付与される。
【0121】また、見出し判定部26では、ブロック内
のある行が、上述した文字位置タグにより保持されてい
る文字位置に基づき、同一ブロック内の他の行よりも開
始位置が手前であるかどうかを判断し、判断結果に基づ
き見出しを判別することができる。図28は、文字位置
による見出し判別の一例の様子を示す。図28Aに示さ
れるように、「問題」と記された文字列の開始位置がブ
ロック内の他の行の開始位置よりも手前であると判断さ
れれば、当該文字列が含まれる行が見出し行であると判
断され、図28Bに示されるように、見出し行を表すタ
グが当該行に付与される。
【0122】さらに、見出し判定部26では、ブロック
内のある行が隅付き括弧のような、特定の括弧で括られ
た文字列からなる行であるかどうかを判断し、判断結果
に基づき見出しを判別することができる。例えば、特定
の括弧の一対によって文字列が括られて1行が完結して
いるかどうかが判断される。図29は、括弧による見出
し判別の一例の様子を示す。図29Aに示されるよう
に、「問題」と記された文字列が隅付き括弧で括られて
いると判断されれば、当該文字列が含まれる行が見出し
行であると判断され、図29Bに示されるように、見出
し行を表すタグが当該行に付与される。
【0123】なお、見出し行であることを示す括弧は、
ユーザにより所定に登録が可能である。また、予め登録
しておいてもよい。この場合には、ユーザにより登録さ
れた括弧の追加、変更、削除を行うことができる。
【0124】さらにまた、見出し判定部26では、上述
した見出しの判定基準により見出し行と判断される行が
同一条件で連続される場合には、連続された各行を箇条
書きと判断して、タグの付与を行うことができる。図3
0は、この箇条書き判別の一例の様子を示す。図30A
に示されるようなブロックに対して、「1.」、
「2.」および「3.」を見出し文字として登録するこ
とで、これらの行が見出し行として判別される。見出し
行と判断される行が同一条件で連続的に出現しているた
め、箇条書きであると判別され、図30Bに一例が示さ
れるように、HTML形式において箇条書きを表すタグ
「<LI>」および「</LI>」が各行に付与される。
【0125】ステップS306〜S308の処理が終了
されると、処理はステップS309に移行し、表判定部
28において、ブロック構造データ20に表が含まれる
かどうかが判別される。ブロック構造データ20がタグ
付きテキストである場合には、例えばHTML形式であ
れば、HTML形式において表を表すタグ「<TABLE>」
および「</TABLE>」などがデータ20に付与されていれ
ば当該データ20に表が含まれていると判別され、その
タグがそのまま流用される。
【0126】一方、ブロック構造データ20がプレーン
テキスト形式である場合には、ステップS310で、上
述した図6のステップS201〜S203において罫線
文字判定部13により判別された罫線文字に従い、表を
構成する各セルが判別され、セルの切り出しが行われ
る。図31は、ブロック構造データ20に含まれる、罫
線文字で構成された一例の表を示す。ブロック構造デー
タ20では、この図31のような表に対して、上述の図
7に示したような、罫線文字を示すタグ「<TC_TSF_BLOC
K type=10>」および「</TC_TSF_BLOCK>」が付与されて
いる。このタグに基づき罫線文字を抽出し、用いられて
いる罫線文字の種類や罫線文字の表示位置の関係を解析
することで、表を構成するセルを切り出すことが可能で
ある。
【0127】例えば、罫線文字を示すタグで囲まれた全
行をスキャンして、罫線文字だけで構成された行と、罫
線文字(この場合は、縦の仕切り線)と通常の文字とが
繰り返されて出現する行とを抽出すると共に、スキャン
した部分が罫線文字で囲まれているかどうかを調べる。
罫線文字で囲まれているとされれば、その部分は、表で
あると考えることができる。さらに、各行において縦の
仕切り線が出現した位置を記憶しておくと共に、最大の
セル数を求める。縦の仕切り線の位置と、行方向の最大
セル数から、行方向におけるセルの結合を知ることがで
きる。このようにして、表の解析を行うことができる。
【0128】切り出されたセルには、ステップS311
で、例えばHTML形式に定められる表を示すタグが所
定に付与される。図32は、図31の表をセルに切り出
し表を示すタグを付与した例を示す。切り出されたセル
は、タグ「<TD>」および「</TD>」で囲まれて表現され
る。また、同一の行に並ぶセルは、タグ「<TR>」および
「</TR>」によって囲まれて表現される。
【0129】さらに、この図32の例では、各セル内の
表示がブロックとして表される。また、複数の行や列に
跨るセルに関しては、それぞれ何行、何列に跨るセルで
あるかを表すパラメータ「rowspan="nn"」、「colspan
="nn"」がタグ「<TD>」に付与される。図32の例で
は、図31において複数行を用いて構成されるセル
(「ソフト1」、「ソフト2」、「ソフト3」など)
は、複数行(この場合3行)に跨るセルとされ、タグ
「<TD rowspan="3">」が付与されている。
【0130】ステップS310およびS311の処理が
終了されると、処理はステップS312に移行し、正規
表現判定部29で、ブロック構造データ20に含まれる
正規表現の判定が行われる。この正規表現判定部29
は、図6にて上述したブロック分割部10の処理におけ
るステップS209〜S211で用いられたものが共通
して用いられる。ステップS313で、正規表現登録部
29において登録されているデータのうち、文書構造化
部21において処理されるべきタグに関する条件のみが
検索される。検索の結果、条件に適合したものに関して
は、ステップS314で、その範囲に対して指定された
タグが付与される。
【0131】図33は、ブロック構造データ20に対す
る正規表現判定の一例の様子を示す。図33Aは、上述
した図14Bと同一の内容であり、図6のステップS2
09〜S211の処理によりブロック構造化されている
データである。このブロック構造データ20に対して、
ステップS312〜S314の処理を行うことで、正規
表現によるブロックを表すタグ「<TC_TSF_BLOCK type=1
01 tag=HEAD>」および「</TC_TSF_BLOCK>」、ならび
に、タグ「<TC_TSF_BLOCK type=101 tag=HR>」および
「</TC_TSF_BLOCK>」が付与された部分に対して、図3
3Bに一例が示されるように、正規表現による仕切り線
を表すタグ「<HR>」および「</HR>」、ならびに、「<HE
AD>」および「</HEAD>」が付与される。
【0132】ステップS312〜S314におけるタグ
付与は、例えばこのように、ブロック分割部10におけ
る図14に示す正規表現によるブロック判定の結果を受
けてなされる。
【0133】ステップS312〜S314の処理が終了
されると、処理はステップS315に移行し、空白判定
部31において、それぞれのブロックにおける空白行に
よるブロックの分割の判定が行われる。図34は、空白
行によるブロック分割の判定の一例の様子を示す。
【0134】ここで、上述した図5のフローチャートに
基づき、当該ブロック構造データ20がプレーンテキス
ト形式の文書として判別されている場合には、ブロック
分割部10において、上述の図6のステップS207お
よびS208により既にブロック分割が行われている。
【0135】しかしながら、テキスト形式がタグ付きテ
キストであると判別されている場合には、例えば図34
Aに一例が示されているように、ブロック分割されたブ
ロック内において、空白行によるブロック分割をさらに
行うことができる可能性がある。そこで、ステップS3
16によりブロック内の空白行を判別し、空白行が存在
すると判別されれば、ステップS317で、当該ブロッ
クが判別された空白行を挟んで、それぞれのブロックに
分割され、分割されたそれぞれのブロックにブロックで
あることを示すタグが付与される。この例では、タグ
「<P>」および「</P>」、ならびに、タグ「<PRE>」およ
び「</PRE>」が当該ブロックに対してそれぞれ付与され
る。
【0136】ステップS315〜S317の処理が終了
されると、処理はステップS318に移行し、括弧判定
部32により、ブロック内およびブロック間での括弧の
整合性が判定される。図35は、括弧判定部32による
括弧の整合性の判定の一例の様子を示す。例えば図35
Aのように、一対の括弧が2つのブロックに跨って存在
する場合、ブロック内において括弧の整合性が取れてい
ないことになる。そこで、先ずステップS318でブロ
ック内にある括弧の対応が調べられ、ステップS319
で、括弧の整合性が取れているかどうかが判別される。
ブロック内の括弧の整合性が取れていないと判別された
場合には、処理はステップS320に移行し、当該ブロ
ックと隣接するブロックとの結合を行った場合の括弧の
整合性が調べられる。この結果、整合性が取れると判断
された場合には、当該ブロックおよび隣接するブロック
とが結合され、図35Bに一例が示されるように、2つ
のブロックが1つのブロックに再編成される。
【0137】ステップS318〜S320の処理が終了
されたら、処理はステップS321に移行し、段落判定
部33により、ブロック内の段落の判定がなされる。段
落判定部33では、ブロック内の文字列の開始位置が着
目される。そして、連続する行の開始位置が2種類ある
場合に、その開始位置が後ろにずれている方が段落の頭
の行であると判断され、ブロック分割が行われる。
【0138】なお、その行が段落である判定するずれ量
のしきい値を決めておき、予めHDD114などに記憶
させておく。行の開始位置のずれ量が予め記憶されてい
るしきい値を超えている場合に、その行を段落と判断し
ないようにする。
【0139】図36は、段落の判別によるブロック分割
の一例の様子を示す。ステップS321で、図36Aに
一例が示されるブロックに対して、行の開始位置が後ろ
にずれている行が判別される。次のステップS322
で、例えば当該行の開始位置のずれ量が上述のしきい値
以下であると判断され当該行が段落の区切りを形成して
いると判断されれば、ステップS323で、その部分に
段落を示すタグが付与される。図36Bに段落を示すタ
グが付与された様子を示す。この例では、段落を示すタ
グとして、タグ「<P>」および「</P>」、ならびに、タ
グ「<PRE>」および「</PRE>」が用いられ、段落により
分割されたブロックのそれぞれに対して付与される。
【0140】なお、段落の判別に、上述した文字位置記
憶部16により記憶された各行の位置情報を用いること
ができる。
【0141】ステップS321〜ステップS323の処
理が終了されると、処理はステップS324に移行し、
英文判定部34において英文の判別が行われる。ステッ
プS325で、ブロック内のある行が全てアルファベッ
ト文字列で記述されているかどうかが判別される。全て
アルファベットで記述されていれば、当該行が英文行で
あると判断される。
【0142】そして、英文行であると判断される行がブ
ロック内において連続的に出現する場合、ステップS3
26で、以下に示すような行末処理が英文処理として行
われる。すなわち、行末処理として、行末がハイフォン
「-」で終了している場合は、このハイフン「-」とそれ
に続く改行記号が削除され、行末の文字と次の英文行の
先頭文字とが接続され、一つの単語とされる。また、行
末がカンマ「,」やピリオド「.」といった区切り記号で
終了しておらず、且つ、アルファベットで終了していて
いる場合は、行末と次の英文行の先頭の単語との間に、
スペース「」が補われると共に、当該行の改行記号が削
除される。
【0143】上述のようにしてステップS300〜S3
26までの処理が終了したら、処理はステップS327
に移行し、例えば入力された文書データ4の全てについ
て、一連の処理が終了したかどうかが判断される。未だ
処理されていないブロックが存在すると判断されれば、
処理はステップS300に移行し、未処理のブロックに
対して一連の処理が行われる。
【0144】なお、図19のフローチャートにおける処
理の順序は、上述の例に限定されない。図19のフロー
チャートにおいて、処理は、ステップS300〜S30
2、ステップS303〜S305、ステップS306〜
S308、ステップS310およびS311、ステップ
S312〜S314、ステップS315〜S317、ス
テップS318〜S320、ステップS321〜S32
3、ならびに、ステップS324〜S326の各部分に
分けられるが、この単位で順番の入れ替えが可能であ
る。
【0145】入力された文書データ4の全てについて一
連の処理が終了されたと判断されれば、次に、英文判定
部34により英文と判断されず、ブロック内にタグが付
与されない形で改行記号が残っている行に関して、全て
繋ぎ合わされる。このとき、行頭、行末にある空白は、
文字列としては削除され、その行の開始文字位置、行の
文字数により空白の存在が示される。また、行の結合
は、次の行との結合をあらわすタグ「<pos …eol=1 or
0>」により表現される。このタグにおいて、「eol=1」
であれば、当該行が次の行と結合されることを示す。
【0146】さらに、文書構造化部21では、それぞれ
のブロックについて、「。(句点)」および「.(ピリ
オド)」をキーとした文の分割が行われる。図37は、
この、句点およびピリオドをキーとして行う文の分割の
一例の様子を示す。図37Aに示されるブロックに対し
て句点およびピリオドをキーとして文の分割処理がなさ
れ、図37Bに示されるように、それぞれの文に所定の
タグが付与される。
【0147】図37Aに示されるブロックに対して、句
点またはピリオド毎に文が分割される。分割された文の
それぞれは、タグ「<PRE>」および「</PRE>」が付与さ
れ、1文であることが示される。さらに、1文として示
された文中で改行されている場合には、上述したタグ
「<pos …eol=1>」により、改行の位置、すなわち行末
の位置と、その行が次の行に結合されることとが示され
る。
【0148】ここまでの処理で、文を最小とした単位で
のタグ付与による文書の構造化が完了され文構造データ
が生成される。以上の処理により、文に分割された各ブ
ロックに対して、この文書処理装置300のシステムに
おいて固有の、文構造データを示す文書形式宣言タグ
「<?SSF …?>」が付与される。
【0149】文書形式宣言タグ「<?SSF …?>」を付与さ
れた文構造データは、文構造データ35に格納される。
これに限らず、文構造データは、例えばディスクドライ
ブ122や外部I/O123を介し、この文書処理装置
300外の記憶媒体に格納してもよい。さらに、文構造
データは、通信I/F115を介して外部のネットワー
クに送信し、ネットワークに接続された別の記憶装置に
格納することもできる。
【0150】以上で、入力されたテキストは、その種類
が判別され、文字コードを統一にして文単位の処理が出
来るようにタグ付けされた構造化テキストに変換され
た。つまり、以上では、従来技術における、文単位には
処理出来ないが、プレーンテキスト形式からHTML形
式のようなタグ付きテキストに変換するフィルタに相当
する部分について述べた。以下では、変換された構造化
テキストを処理する方法、つまり従来のブラウザなどに
相当するような処理を行う部分について述べる。
【0151】この発明では、文単位に処理可能な文構造
データを、例えばデータに付与されたタグに基づき木構
造化し、木構造化された木構造データを用いて文の切り
出しを行う。このときに、タグの種類に応じて文を切り
出すかどうかを設定したテンプレートを用いることがで
きる。また、切り出された文に対してアプリケーション
がどのような処理を行うかを、タグの種類毎に設定した
アクションタグを用いることができる。
【0152】図38は、この実施の一形態による、木構
造化された文構造データからの文切り出し処理の一例の
フローチャートである。先ず、ステップS400で、文
構造データから木構造データが作成される。図39は、
木構造データの一例を概略的に示す。各データ200、
201、202および203は、上下(前後)の階層を
表す位置情報である「上の階層へのポインタ」および
「下の階層へのポインタ」と、同一階層内での前後のタ
グ付き情報に対する位置情報である「同一階層内の上へ
のポインタ」および「同一階層内への下へのポインタ」
と、実質的なデータの本体である「原ノードの文字列」
および「原オードの文字列」に付与されたタグを示す
「タグ情報」とからなる。
【0153】図39において、図の左側がより上位(前
方)の階層となっている。文の前後関係でいうとデータ
200、201、202の順であり、さらに、この順で
階層が構成されている。同一階層内でも上下(前後)関
係が定義され、例えば同一階層内でより先に現れる文が
上(前)とされる。データ201と203とは同一階層
のデータであり、データ201がより先に現れる。この
ような上下(前後)に基づき、木構造が形成される。な
お、木構造において、各データ200、201、202
および203は、それぞれノードと称される。
【0154】図38の説明に戻り、ステップS400で
は、文構造データに付与されたタグおよび文構造データ
の順番に基づき、文構造データが木構造化される。文切
り出し部36では、この木構造データ38を用いて文の
切り出しを行うことができると共に、木構造データ38
により、文の切り出しを行う際の次の文への移動に、階
層単位での移動と、同一階層内での文単位での移動を行
うことができる。
【0155】木構造データ38が作成されると、処理は
次のステップS401に移行する。上述したように、こ
の実施の一形態では、木構造化されたデータから文を切
り出す際に、テンプレートを用いることができる。テン
プレートは、テンプレート登録部36により例えばユー
ザの指示に基づき登録され、文切り出しテンプレート4
4に保存される。ステップS401では、既に登録され
ているテンプレートのうち、ステップS400で作成さ
れた木構造データ38に適用可能なテンプレートの検索
が行われる。テンプレートの検索は、対象としているデ
ータに付されたテキストIDに基づきなされる。なお、
テンプレートおよびテンプレートの検索については、後
述する。
【0156】次のステップS402で、検索されたテン
プレートを適用するかどうかが判断される。若し、例え
ばユーザの指示に基づきテンプレートを適用すると判断
されれば、処理はステップS411に移行する。ステッ
プS411以降の、テンプレート適応、作成の処理につ
いては、後述する。一方、テンプレートを適用しないと
判断されれば、処理はステップS403に移行する。
【0157】ステップS403では、切り出しモード4
2が参照される。切り出しモード42により、データ中
に付与されたタグに対して、そのタグに対応する文を切
り出すかどうかが指定される。図40は、文切り出しモ
ード42の一例を示す。このように、各タグに対応する
各項目について、文を切り出すかどうかをそれぞれ指定
することができる。この例では、「ON」の項目に対応
するタグが付与された文の切り出しを行い、「OFF」
の項目に対応するタグが付与された文の切り出しを行わ
ない。
【0158】文切り出しモード42は、ユーザの指示に
より指定され、例えばHDD114に格納される。ま
た、これに限らず、各項目の「ON/OFF」が設定さ
れた文切り出しモード42を、デフォルトの文切り出し
モード42として予めHDD114などに格納しておい
てもよい。
【0159】ステップS404では、逐行的にタグの探
索がなされ、切り出しモード42に基づき、探索された
タグが切り出し対象となるタグであるかどうかが判断さ
れる。若し、切り出し対象とされているタグでないと判
断されれば、処理はステップS409に移行される。
【0160】一方、ステップS404で探索されたタグ
が切り出し対象とされているタグであると判断されれ
ば、処理はステップS405に移行される。ステップS
405では、探索されたタグが表を示すタグであるかど
うかが判断される。若し、探索されたタグが表を示すタ
グではないと判断されれば、処理はステップS407に
移行する。一方、探索されたタグが表を示すタグである
と判断されれば、処理はステップS406に移行し、表
の処理が行われる。
【0161】上述したように、表の部分には、文構造化
部21により、各セル毎にタグが付与されている。その
ため、文切り出し部36において、木構造データ38か
ら行毎あるいは列毎に、セル単位での文の切り出しを行
うことができる。上述した図31および図32を参照し
て、タグ「<TD>」および「</TD>」によりセル単位での
文の切り出しを行うことができ、タグ「<TR>」および
「</TR>」に基づき、行毎あるいは列毎の切り出しが可
能である。このようにして、ステップS406における
表の処理が行われ、表からの文の切り出しが行われる。
【0162】また、この実施の一形態では、表から文の
切り出しを行う際に、助数詞テーブル41を参照し、切
り出された文に指定された助数詞を付与することが可能
である。図41は、助数詞テーブル41の一例を示す。
数助詞テーブル41には、このように、複数の数助詞が
それぞれ様々な形態で登録されている。助数詞テーブル
41は、予め所定の数助詞が登録され、例えばHDD1
14に格納される。また、数助詞テーブル41に対し
て、ユーザが数助詞を登録することも可能である。
【0163】表から文の切り出しを行うときには、上述
したように、データが木構造化され、各セルに対してタ
グが付与されている。そのため、例えば表の一番始めの
行あるいは一番始めの列において、助数詞テーブル41
に登録されている助数詞が存在し、且つ、それ以降の行
または列において、数字情報のみが記述されているよう
なセルが連続する場合は、助数詞テーブル41を参照し
て、数字部分に対応する行または列の助数詞を付与した
形で、セルから文を切り出すようにできる。セル中の文
(数字)に助数詞を付与するかどうかは、上述した文切
り出しモード42により指定することが可能である。
【0164】なお、上述では助数詞に関して説明した
が、これはこの例に限られない。例えば、表の一番始め
の行または列に記述されている文字列を付与した形で、
同様に各セルの切り出しを行うことも可能である。この
場合も同様に、文切り出しモード42において、一行目
あるいは一列目のセルの内容を付加するかどうかを設定
できる。
【0165】図38には明確に示されていないが、表の
処理以外にも、他のタグについても文切り出しモード4
2に基づく切り出し処理が行われる。
【0166】例えば、テキストを逐次切り出す際に、文
切り出しモード42において引用を切り出すという設定
がある場合は、文構造データにおいて引用を示すタグが
付与されている部分に関しても、文の切り出しが行われ
る。一方、文切り出しモード42において、引用を切り
出さないと設定されている場合には、引用部分を飛ばし
て文の切り出しを行ことが可能である。ここで、文切り
出しモード42において引用を切り出すと設定されてい
る場合に、引用を示すタグに収められた引用記号によ
り、どの種類の引用記号により引用されている部分であ
るかがタグ判別部39により判別される。
【0167】処理はステップS407に移行し、データ
中に、ユーザによって定義されたユーザタグが含まれて
いるかどうかが判断される。すなわち、この実施の一形
態では、ユーザがタグを定義することができると共に、
ユーザにより、既存のタグおよびユーザ定義のタグに所
定のアクションを定義することができる。ユーザにより
定義されたタグおよびユーザにより所定のアクションを
定義されたタグをユーザタグと称する。また、ユーザに
よりタグに定義されたアクションは、タグアクションデ
ータ40として登録される。タグアクションデータ40
は、例えばHDD114に格納される。
【0168】図42は、タグアクションデータ40の一
例を示す。このように、例えばHTML形式において既
存のタグ(この例では「<H>」、「<TABLE>」)に対し
て、所定のアクションを定義することができる。また、
ユーザにより独自のタグを定義し(この例では「<USER_
01>」、「<USER_02>」、「<USER_03>」、・・・)、定
義されたそれぞれのタグに所定のアクションを定義する
ことができる。
【0169】このようにアクションが定義されたタグ
を、一般の表示装置やテキスト読み上げ装置と組み合わ
せれば、指定されたタグに対して、そのタグに対応する
文を表示装置においては色を変える、ハイライトにす
る、下線を引くなどのアトリビュートの変更によって表
現できる。また、テキスト読み上げ装置においては、読
み上げる声の種類を変える、速度を変えるなどのアトリ
ビュートの変更が可能ある。
【0170】つまり、例として、対象になるタグを見出
しを表すタグに絞り込めば、文書中の見出しの部分に対
してだけ色をつけたり、見出しだけの読み上げを行った
り、見出しの部分の声を変えたりすることができるシス
テムを構築することが可能となる。
【0171】特に、見出しを表すタグ、引用を表すタ
グ、段落を表すタグは、文の構造上大きな意味を持って
いるため、表示装置やテキスト読み上げ装置において、
これらのタグに対応した文について所定のアクションを
設定することは、非常に有用である。
【0172】図38の説明に戻り、ステップS407で
は、タグ判別部39によってタグアクションデータ40
が参照され、タグアクションデータ40に登録されたタ
グが付与された文が判別される。若し、タグアクション
データ40に登録されたタグが付与された文が無いと判
断されれば、処理はステップS409に移行する。
【0173】一方、ステップS407でタグアクション
データ40に登録されたタグが付与された文があると判
断されれば、処理はステップS408に移行し、タグア
クションデータ40に登録されたタグが付与されている
と判断されたした文に対して、タグアクションデータ4
0に規定されたアクションが起こされる。
【0174】例えば、タグに表示のハイライトが定義さ
れている場合、当該タグが付与された文と、当該タグお
よび当該タグに対して定義されたアクションデータと
が、タグ判別部39から文切り出し部36を介して制御
部1に渡される。そして、これらのデータに基づき制御
部1により所定の表示制御信号が生成され、この表示制
御信号に基づく表示信号が表示装置3に供給される。こ
れにより、当該タグにより指定された文が表示装置3に
おいてハイライト表示される。
【0175】次のステップS409では、次の文も切り
出すかどうかが判断され、切り出さないとされた場合に
は、一連の処理が終了される。次の文も切り出す場合に
は、処理はステップS410に移行し、最後の文まで処
理が終了したかどうかが判断される。最後の文まで終了
したならば、一連の処理が終了される。一方、未だ処理
すべき文が残っていれば、処理はステップS402に戻
される。
【0176】なお、ステップS410で処理すべき文が
残っている場合に、図38において点線で示されるよう
に、ステップS404に処理を戻すようにしても良い。
【0177】以上のようにして、文切り出し部36にお
いて、文構造データに基づき木構造データ38が作成さ
れ、その木構造が探索されると共に、文の切り出しが行
われる。
【0178】次に、上述した文切り出しテンプレート4
4に保存されるテンプレートについて説明する。テンプ
レートは、木構造データ38と対をなすような形で構成
され、各ノードに対してそのノードの切り出しを行うか
どうかを指定するフラグ情報が記述される。この実施の
一形態では、文切り出し部36による文切り出しの際
に、この文切り出しテンプレートに保存されているテン
プレートを用い、テンプレートにおいて規定された文の
切り出し方法に従って文を切り出すことができる。
【0179】図43は、文切り出しテンプレート44に
保存されるテンプレートの一例の構造を示す。テンプレ
ートは、文に付与されたタグとタグの階層構造とが、タ
グをノードとして記述され、ノードのそれぞれに対して
切り出しを行うかどうかを示す符号が付されて成る。こ
のようなテンプレートは、例えば、木構造データ38に
基づき、木構造データ38中のタグ情報と、木構造デー
タ38中の各ノード間の位置関係を表す位置情報に基づ
き木構造を構成することで、作成することができる。
【0180】テンプレートにおいて、木構造の枝分かれ
の部分で「○(丸印)」で示されるのが切り出しの対象
となるノードであり、「×(バツ印)」で示されるのが
切り出しの対象外であるノードである。また、木構造に
おいてより上位のノードが優先的なノードである。この
ようなテンプレートは、テンプレート登録部43からユ
ーザにより登録することができる。また、予め作成し、
例えばHDD114などに格納させておいてもよい。
【0181】ここで、テンプレート登録部43によるテ
ンプレートの文切り出しテンプレート44への登録は、
当該テンプレートが適用されるデータをユニークに決定
できるIDと関連付けて行うことができる。図43で
は、このIDがテキストIDとして示されている。例え
ば当該テンプレートが適用されるテキストデータのファ
イル名やURL(Uniform Resource Locator)を、テキス
トIDとして用いることができる。こうすることで、入
力テキストに適用可能なテンプレートを容易に検索可能
となる。
【0182】また、例えば新聞のコラムなどのように、
文書の形態が各文書毎に類似している場合には、同一の
テンプレートを各文書に対して転用して用いることがで
きる。このような場合、各文書の文書ファイル名あるい
はURLが類似している可能性があり、最初に作成され
たテンプレートの元となった文書ファイルのファイル名
あるいはURLをテキストIDとして用いると、後述す
るあいまい検索を行うことで、各文書に適用可能なテン
プレートを容易に検索することができる。
【0183】これに限らず、例えばユーザにより指定さ
れたテンプレートを入力テキストに対して適用すること
も可能である。
【0184】テンプレート登録部43において、テンプ
レートにおける各ノードへのフラグ情報の指示は、表示
装置3による表示に基づき、入力装置2から行うことが
できる。このときのフラグ情報の指示方法としては、例
えば次の2つの方法が考えられる。
【0185】第1の方法は、図44に一例が示されるよ
うに、木構造データ38に基づき、表示装置3に対して
テキストのイメージでの表示に対する指示による設定方
法である。図44では、対象となっているテキストのイ
メージが木構造データ38に基づき2次元的に展開され
ている。図44に示されるように、入力装置2であるマ
ウス121の動きに応じて表示装置3の画面上を移動す
るカーソルといった所定の指示方法を用いて、切り出し
を行う部分を指定することができる。この例では、カー
ソル表示により指示されている文が、マウス121のボ
タン操作により非切り出し状態に変更されている。
【0186】第2の方法は、図45に一例が示されるよ
うに、木構造データ38に基づく木構造をそのまま表示
し、各ノードに対して指示を行うことで設定する方法で
ある。この場合でも、上述のカーソル表示を用い、ノー
ド上の、そのノードの文を切り出すかどうかを指示する
記号「○」および「×」をカーソルで指定し、マウス1
21のボタン操作を行うことで、切り出しおよび非切り
出し状態を切り換えることができる。図45の例では、
タグ「<SPAN>」が付与された文「メールの引用・・・」
が切り出し状態から非切り出し状態に切り換えられてい
る。
【0187】ここで、説明は、上述した図38のフロー
チャートに戻る。図38のフローチャートにおけるステ
ップS402において、テンプレートを適用させると判
断された場合には、処理はステップS411に移行す
る。ステップS411では、現在処理の対象となってい
るデータに適用可能なテンプレートが存在するかどうか
が判断される。例えば、テンプレート検索部45により
HDD114の所定の場所が調べられ、当該テンプレー
トが存在するかどうかが調べられる。
【0188】このとき、テンプレートが上述のようにフ
ァイル名やURLなどに関連付けられていれば、テンプ
レートは、制御部1の指示によりテンプレート検索部4
5で検証される。テンプレート検索部45では、テンプ
レート検索部モード46において文切り出しテンプレー
ト44に保存されたテンプレートのファイル名やURL
のあいまい検索を行うように設定されている場合、検索
文字に指定された文字列と、検索対象のファイル名やU
RLとが完全に一致していなくても、両者が一致したも
のと見なし、テンプレートの適応を行うことができる。
【0189】図46は、テンプレート検索モード46の
一例を示す。テンプレート検索モード46において、文
切り出しテンプレート44から適応させるテンプレート
を検索する際のテンプレート参照モードが指定される。
この図46の例では、テンプレートを検索する際に、テ
キストIDについてあいまい検索を行うかどうか、ま
た、あいまい検索を行う場合には、どの程度の精度で行
うかを指定することができる。同様に、検索された文切
り出しテンプレート44をデータに適応させる際に、あ
いまい適応を行うかどうか、また、あいまい適応を行う
場合には、どの程度の精度で行うかを指定することがで
きる。
【0190】なお、テンプレート検索モード46では、
テキストIDやテンプレートの検索あるいは適応条件の
設定の他に、図46に示されるように、テンプレートの
編集モード、テンプレートの自動保存を行うかどうか、
テンプレート検索の際の不一致通知などの設定がなされ
る。
【0191】図47は、テキストIDのあいまい検索の
一例を概略的に示す。入力装置1から入力されたテキス
トデータのテキストID400に対して、文切り出しテ
ンプレート44に保存されているテキストID401に
対応したテンプレートを検索することを考える。テンプ
レート検索モード46において、例えば前方一致などの
文字列検索による文字列参照が行われる。図47の例で
は、保存されているテキストID401の長さ49バイ
トの文字列のうち、40バイト分が入力されたテキスト
データのテキストID400と一致している。すなわ
ち、テキストID401の文字列の略82%がテキスト
ID400と一致しており、あいまい精度が82%であ
るとされる。
【0192】図46に示されるテンプレート検索モード
46では、テキストIDのあいまい検索の際のあいまい
精度が70%と設定されているので、テキストID40
0とテキストID401とが一致すると判断される。こ
の場合、ファイル名やURLが100%一致しない場合
でもテンプレートの適応を行う。
【0193】なお、テンプレート検索モード46におい
て、テキストIDのあいまい検索が「しない」に設定さ
れている場合は、入力テキストのテキストID400
と、保存されている文切り出しテンプレート44のテキ
ストID401とが100%一致した場合にのみ、テキ
ストID401に対応するテンプレートの適応を行う。
【0194】また、テンプレート検索部45では、テン
プレート検索モード46において、テンプレートのあい
まい適応をするかどうかの設定で、「する」に設定され
ている場合は、木構造データ38の階層の高いところか
ら、逐次適応が行われる。このとき、過不足のあるノー
ドは、吸収されて適応が行われる。ここで用いるあいま
い適応は、どのような方法を用いてもかまわない。例え
ば、用いられているタグの種類とノード位置や、同一種
類のタグの個数などをあいまい精度の判定基準として用
いることが考えられる。
【0195】一方、テンプレート検索モード46におい
て、テンプレートあいまい検索が「しない」に設定され
ている場合は、用いられるテンプレートとテンプレート
を適用しようとするデータの木構造とが一致した場合に
のみ、テンプレートの適応を行う。
【0196】以上のテンプレートの説明に基づき、上述
した図38におけるテンプレートに関する部分の処理に
ついて説明する。ステップS402でテンプレートの適
応を行うとされたら、処理はステップS411に移行
し、現在処理対象としているデータに適応可能なテンプ
レートが文切り出しテンプレート44に保存されている
かどうかが検索される。検索は、上述したように、あい
まい検索を用いることができる。
【0197】検索結果に基づき、若し、適応可能なテン
プレートが文切り出しテンプレート44に保存されてい
ると判断されれば、処理はステップS412に移行し、
検索されたテンプレートが処理対象のデータに適応され
る。このとき、上述したあいまい適応を用いることがで
きる。テンプレートの適応がなされると、処理はステッ
プS413に移行する。
【0198】一方、ステップS411で、検索結果に基
づき、適応可能なテンプレートが文切り出しテンプレー
ト44に保存されていないと判断されれば、処理はステ
ップS414に移行する。ステップS414では、テン
プレートが新たに作成される。例えば、現在処理対象と
されているデータの木構造データ38に基づき、上述し
た図44あるいは図45を用いて説明したような方法に
よって、新たなテンプレートが作成される。作成された
テンプレートは、文切り出しテンプレート44に保存す
ることができる。テンプレートが作成されると、処理は
ステップS413に移行する。
【0199】ステップS413では、処理対象のデータ
にテンプレートに基づく切り出し対象のノードがあるか
どうかが判断される。切り出し対象ノードがあると判断
されれば、処理はステップS403に移行され、文の切
り出し処理が行われる。一方、切り出し対象ノードが無
いと判断されれば、処理はステップS409に移行し、
次の文の切り出しを行うかどうかが判断される。
【0200】このようにして、テンプレートに従ってテ
キストの切り出す部分と、そうでない部分との指示を行
うことができる。また、テンプレートを検索する際にあ
いまい検索を用いて行っているので、テンプレートの保
存および再利用の際に、インターネットなどの配信によ
り刻々内容の変わるものに対しても追従してテンプレー
トの適応を行うことができる。
【0201】なお、上述では、この発明による文書処理
装置300が例えばパーソナルコンピュータ上で稼働す
るソフトウェアで実現されるように説明したが、これは
この例に限定されない。例えば、文書処理装置300
は、他の装置に組み込んで用いることもできる。一例と
して、ロボット型の装置に文書処理装置300と、テキ
スト情報に基づく合成音声を行い音声出力を得る手段と
を組み込むことで、電子メールやインターネットにおけ
るホームページ(Webサイト)上のテキストを、恰も
ロボット型の装置が読み上げているような効果を得るよ
うにできる。
【0202】また、このような場合、この発明による文
書処理装置300をコンピュータ制御が可能な所定の機
構部と組み合わせることで、タグアクションデータに応
じた動作を設定することも可能である。
【0203】さらに、インターネットなどのネットワー
ク上のサービスとして、この発明による文書処理装置3
00を用いることができる。すなわち、インターネット
上に公開されている、一般のホームページのテキストを
文に切り出して、アクセスしているパーソナルコンピュ
ータなどに送る。また、これを応用して、一般のホーム
ページ(Webサイト)から切り出したテキストに基づ
き音声合成を行い、得られた音声出力を携帯電話装置な
どに送信するサービスも考えられる。
【0204】さらにまた、ネットワークにおいて、図2
に示した構成を複数のサーバに分割して置き、これら複
数のサーバに分割された構成で統合的に処理するように
してもよい。このとき、入力装置2を例えば携帯電話装
置などにすることができる。
【0205】
【発明の効果】以上説明したように、この発明では、入
力されたテキストデータを、データ中に用いられている
文字のパターンなどに基づきブロック分割し、ブロック
分割された部分に、ブロック分割されたことを示すタグ
を付与する。さらに、ブロック分割されたデータを、ブ
ロック分割されたことを示すタグに基づき構造化した構
造化データに変換する。そして、構造化データを木構造
化して木構造化されたデータに対して文の切り出しを行
うようにしている。
【0206】そのため、この発明を用いることにより、
電子メールにおける引用記号を分離したテキストの抽出
や、例えば文字罫線によって表現された表といった、テ
キスト中の各項目の抽出などの、テキストデータのコン
トロールを行うことができるという効果がある。
【0207】また、この発明の実施の一形態によれば、
従来別々の処理系によって処理されていた、プレーンテ
キスト、タグ付きテキストおよび電子メール形式のテキ
ストを、一つの処理系で統一的に表現および処理するこ
とができるという効果がある。またそれにより、文書処
理のシステムをシンプルに構成することができる効果が
ある。
【0208】さらに、この発明の実施の一形態によれ
ば、従来、タグだけでは判断できないためにマニュアル
操作で行っていた、タグ付きテキストからの切り出した
い部分およびそうでない部分の指定を、容易に行うこと
ができるという効果がある。
【0209】さらにまた、この発明による構成を、テキ
スト音声合成による読み上げシステムの前処理として用
いることで、電子メールやインターネット上のホームペ
ージ(Webサイト)などの読み上げが容易に行われる
システムを実現することができるという効果がある。
【0210】このように、この発明を用いることで、テ
キスト処理全般にわたって様々な効果を期待することが
できる。
【図面の簡単な説明】
【図1】この発明による文書処理の概略的な流れを示す
フローチャートである。
【図2】この発明の実施の一形態による文書処理装置の
機能を実現するための一例の機能ブロック図である。
【図3】この発明の実施の一形態による文書処理装置を
適用可能なコンピュータ装置の一例の構成を示すブロッ
ク図である。
【図4】実施の一形態による文書処理を概略的に示すフ
ローチャートである。
【図5】テキスト形式判別の処理をさらに詳細に示す一
例のフローチャートである。
【図6】ブロック分割の処理をさらに詳細に示す一例の
フローチャートである。
【図7】罫線文字によるタグの付与の一例の様子を概略
的に示す略線図である。
【図8】罫線文字登録部に罫線文字が登録された一例の
様子を示す略線図である。
【図9】文字罫線による罫線についてタグを付与する一
例の様子を示す略線図である。
【図10】連続文字罫線文字登録部の一例の登録内容を
示す略線図である。
【図11】仕切り線文字による仕切り線についてタグを
付与する一例の様子を示す略線図である。
【図12】仕切り線文字登録部の一例の登録内容を示す
略線図である。
【図13】空白行によりブロックタグを付与する一例の
様子を示す略線図である。
【図14】2次元の正規表現によるタグの付与の一例の
様子を概略的に示す略線図である。
【図15】正規表現登録部により登録された一例の正規
表現を示す略線図である。
【図16】タグ付きテキストから不要タグを削除する一
例の様子を示す略線図である。
【図17】利用タグ登録部で利用タグが登録された一例
の利用タグリストを示す略線図である。
【図18】各行毎の文字位置を示すタグが付与された一
例の様子を示す略線図である。
【図19】文書構造化の一例の処理を示すフローチャー
トである。
【図20】下線文字により強調された文字列に下線によ
る強調を示す下線タグを付与する一例の様子を示す略線
図である。
【図21】下線文字登録部による一例の登録内容を示す
略線図である。
【図22】引用文字により他からの引用であることが示
された文字列に対して引用タグを付与する一例の様子を
示す略線図である。
【図23】引用文字登録部による一例の登録内容を示す
略線図である。
【図24】引用文字に対してタグを付与する場合の例を
示す略線図である。
【図25】見出し行を検出しタグを付与する一例の様子
を示す略線図である。
【図26】見出し文字登録部による一例の登録内容を示
す略線図である。
【図27】センタリングによる見出し判別の一例の様子
を示す略線図である。
【図28】文字位置による見出し判別の一例の様子を示
す略線図である。
【図29】括弧による見出し判別の一例の様子を示す略
線図である。
【図30】箇条書き判別の一例の様子を示す略線図であ
る。
【図31】罫線文字で構成された一例の表を示す略線図
である。
【図32】表をセルに切り出し表を示すタグを付与した
例を示す略線図である。
【図33】ブロック構造データに対する正規表現判定の
一例の様子を示す略線図である。
【図34】空白行によるブロック分割の判定の一例の様
子を示す略線図である。
【図35】括弧判定部による括弧の整合性の判定の一例
の様子を示す略線図である。
【図36】段落の判別によるブロック分割の一例の様子
を示す略線図である。
【図37】句点およびピリオドをキーとして行う文の分
割の一例の様子を示す略線図である。
【図38】実施の一形態による木構造化された文構造デ
ータからの文切り出し処理の一例のフローチャートであ
る。
【図39】木構造データの一例を概略的に示す略線図で
ある。
【図40】文切り出しモードの一例を示す略線図であ
る。
【図41】助数詞テーブルの一例を示す略線図である。
【図42】タグアクションデータの一例を示す略線図で
ある。
【図43】文切り出しテンプレートに保存されるテンプ
レートの一例の構造を示す略線図である。
【図44】テンプレートにおける各ノードへのフラグ情
報の指示方法を示す略線図である。
【図45】テンプレートにおける各ノードへのフラグ情
報の指示方法を示す略線図である。
【図46】テンプレート検索モードの一例を示す略線図
である。
【図47】テキストIDのあいまい検索の一例を概略的
に示す略線図である。
【符号の説明】
1・・・制御部、2・・・入力装置、3・・・表示装
置、5・・・テキスト形式判定部、9・・・文字変換バ
ッファ、10・・・ブロック分割部、20・・・ブロッ
ク構造データ、21・・・文書構造化部、35・・・文
構造データ、36・・・文切り出し部、37・・・木構
造化部、38・・・木構造データ、40・・・タグアク
ションデータ、44・・・文切り出しテンプレート
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成13年5月29日(2001.5.2
9)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図8】
【図10】
【図21】
【図1】
【図3】
【図12】
【図23】
【図2】
【図4】
【図7】
【図9】
【図42】
【図5】
【図26】
【図41】
【図44】
【図46】
【図6】
【図43】
【図45】
【図11】
【図13】
【図14】
【図16】
【図15】
【図17】
【図18】
【図40】
【図47】
【図19】
【図20】
【図22】
【図25】
【図27】
【図24】
【図28】
【図29】
【図30】
【図31】
【図33】
【図34】
【図35】
【図32】
【図36】
【図37】
【図39】
【図38】
【手続補正書】
【提出日】平成13年5月31日(2001.5.3
1)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0133
【補正方法】変更
【補正内容】
【0133】ステップS312〜S314の処理が終了
されると、処理はステップS315に移行し、空白
定部31において、それぞれのブロックにおける空白行
によるブロックの分割の判定が行われる。図34は、空
白行によるブロック分割の判定の一例の様子を示す。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0141
【補正方法】変更
【補正内容】
【0141】ステップS321〜ステップS323の処
理が終了されると、処理はステップS324に移行し、
英文判定部34において英文の判別が行われる。ステッ
プS325で、ブロック内のある行が全て英数記号文字
列で記述されているかどうかが判別される。全て英数文
字および記号で記述されていれば、当該行が英文行であ
ると判断される。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0142
【補正方法】変更
【補正内容】
【0142】そして、英文行であると判断される行がブ
ロック内において連続的に出現する場合、ステップS3
26で、以下に示すような行末処理が英文処理として行
われる。すなわち、行末処理として、行末がハイフォン
「-」で終了している場合は、このハイフン「-」とそれ
に続く改行記号が削除され、行末の文字と次の英文行の
先頭文字とが接続され、一つの単語とされる。また、行
末がカンマ「,」やピリオド「.」といった区切り記号で
終了しておらず、且つ、アルファベットで終了していて
いる場合は、行末と次の英文行の先頭の単語との間に、
スペース「」が補われると共に、当該行の改行記号が削
除される。行の結合は、次の行との結合をあらわすタグ
「<pos …eol=1 or 0>」により表現される。このタグに
おいて、「eol=1」であれば、当該行が次の行と結合さ
れることを示す。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0150
【補正方法】変更
【補正内容】
【0150】以上で、入力されたテキストは、その種類
が判別され、文字コードを統一にして文単位の処理が出
来るようにタグ付けされた構造化テキストに変換され
た。つまり、以上では、従来技術における、文単位には
処理出来ない、プレーンテキスト形式からHTML形式
のようなタグ付きテキストに変換するフィルタに相当す
る部分について述べた。以下では、変換された構造化テ
キストを処理する方法、つまり従来のブラウザなどに相
当するような処理を行う部分について述べる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0152
【補正方法】変更
【補正内容】
【0152】図38は、この実施の一形態による、木構
造化された文構造データからの文切り出し処理の一例の
フローチャートである。先ず、ステップS400で、文
構造データから木構造データが作成される。図39は、
木構造データの一例を概略的に示す。各データ200、
201、202および203は、上下(前後)の階層を
表す位置情報である「上の階層へのポインタ」および
「下の階層へのポインタ」と、同一階層内での前後のタ
グ付き情報に対する位置情報である「同一階層内の上へ
のポインタ」および「同一階層内への下へのポインタ」
と、実質的なデータの本体である「ノードの文字列」
および「現ノードの文字列」に付与されたタグを示す
「タグ情報」とからなる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 新田 朋晃 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 山崎 信英 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 小林 恵理香 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B009 NA05 QA06

Claims (89)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書データを処理する文書
    処理装置において、 入力されたテキストデータを、該テキストデータの構成
    に応じて所定にブロックに分割するブロック分割手段
    と、 上記ブロック分割手段により分割された上記ブロックの
    文書構造を上記テキストデータの構成に基づき解析して
    文単位に分割し、分割された上記文に上記テキストデー
    タの構成に応じてタグ情報を付加して上記文を構造化す
    る文書構造化手段と、 上記文書構造化手段によって上記構造化された上記文に
    付与された上記タグ情報に基づき上記文の切り出しを制
    御する文切り出し手段とを有することを特徴とする文書
    処理装置。
  2. 【請求項2】 請求項1に記載の文書処理装置におい
    て、 上記ブロック分割手段は、上記ブロック分割手段で分割
    されたブロックであることを示す所定のタグ情報を付与
    したブロック構造データを出力し、上記文構造化手段
    は、該ブロック構造データを処理の対象とすることを特
    徴とする文書処理装置。
  3. 【請求項3】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、外部で作成され、上記ブロック
    分割手段で分割されたブロックであることを示す所定の
    タグ情報が付与されたブロック構造データを処理の対象
    とすることが可能であることを特徴とする文書処理装
    置。
  4. 【請求項4】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記文書構造化手段により構造
    化されたことを示す所定のタグ情報を付与した文構造デ
    ータを出力し、上記文切り出し手段は、上記文構造デー
    タを処理の対象とすることを特徴とする文書処理装置。
  5. 【請求項5】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、外部で作成され、上記文書構造
    化手段により構造化されたことを示す所定のタグ情報を
    付与した文構造データを処理の対象とすることが可能で
    あることを特徴とする文書処理装置。
  6. 【請求項6】 請求項1に記載の文書処理装置において
    入力されたテキストデータのテキスト形式を判断するテ
    キスト形式判断手段をさらに有し、 上記テキスト形式判断手段から出力されたテキストデー
    タが上記ブロック分割手段に上記入力されるようにした
    ことを特徴とする文書処理装置。
  7. 【請求項7】 請求項1に記載の文書処理装置におい
    て、 入力されたテキストデータのエンコード形式を判断する
    文字種判断手段と、 上記文字種判断手段の判断結果に基づき、上記入力され
    たテキストデータの文字コード体系を所定の文字コード
    体系に変換する文字コード変換手段とを備えるテキスト
    形式判断手段をさらに有し、 上記テキスト形式判断手段により所定の文字コード体系
    に変換されたテキストデータが上記ブロック分割手段に
    上記入力されるようにしたことを特徴とする文書処理装
    置。
  8. 【請求項8】 請求項7に記載の文書処理装置におい
    て、 上記テキスト形式判断手段は、文字コード体系の指定を
    行う処理系文字コード指定手段をさらに有し、上記所定
    の文字コード体系の代わりに他の文字コード体系を選択
    可能としたことを特徴とする文書処理装置。
  9. 【請求項9】 請求項8に記載の文書処理装置におい
    て、 上記処理系文字コード指定手段による上記文字コード体
    系の指定が無い場合は、所定に与えられた文字コード体
    系に従って処理を行うことを特徴とする文書処理装置。
  10. 【請求項10】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、空行を上記ブロックの区
    切りとすることを特徴とする文書処理装置。
  11. 【請求項11】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、1行の文字数が共通な行
    の固まりを上記ブロックと判断することを特徴とする文
    書処理装置。
  12. 【請求項12】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、文字列の始まる位置が共
    通な行の固まりを上記ブロックと判断することを特徴と
    する文書処理装置。
  13. 【請求項13】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、予め指定された罫線の対
    象となる文字列により囲まれた固まりを上記ブロックと
    判断することを特徴とする文書処理装置。
  14. 【請求項14】 請求項13に記載の文書処理装置にお
    いて、 上記罫線の対象となる文字列をユーザが登録できる罫線
    文字登録手段をさらに有することを特徴とする文書処理
    装置。
  15. 【請求項15】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、予め指定された文字また
    は文字列の連続を罫線と判断し、該罫線により囲まれた
    固まりを上記ブロックと判断することを特徴とする文書
    処理装置。
  16. 【請求項16】 請求項15に記載の文書処理装置にお
    いて、 文字または文字列が連続した文字列が上記罫線と見なさ
    れる上記文字または文字列をユーザが登録できる連続文
    字罫線文字登録手段をさらに有することを特徴とする文
    書処理装置。
  17. 【請求項17】 請求項15に記載の文書処理装置にお
    いて、 上記文字または文字列が何回連続したら上記罫線と見な
    すかを判断するための連続回数を指定できる連続文字回
    数指定手段をさらに有ることを特徴とする文書処理装
    置。
  18. 【請求項18】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、予め指定された仕切り線
    の対象となる文字列により仕切られた区切りを上記ブロ
    ックの区切りと判断することを特徴とする文書処理装
    置。
  19. 【請求項19】 請求項18に記載の文書処理装置にお
    いて、 上記仕切り線の対象となる文字列をユーザが登録できる
    仕切り線文字登録手段をさらに有することを特徴とする
    文書処理装置。
  20. 【請求項20】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがテキスト形式の文
    書であると判断された場合に、オリジナルテキストの文
    字位置をタグ情報として保存することを特徴とする文書
    処理装置。
  21. 【請求項21】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがタグ付きテキスト
    形式の文書であると判断された場合に、コメントまたは
    ドキュメントタイプを示す機能タグにより指定された部
    分を上記ブロックと判断することを特徴とする文書処理
    装置。
  22. 【請求項22】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがタグ付きテキスト
    形式の文書であると判断された場合に、整形済みテキス
    トを表すタグ情報で囲まれた範囲に対して、上記テキス
    ト形式判断手段により上記入力されたテキストデータが
    テキスト形式と判断された場合と同様の処理を行うこと
    を特徴とする文書処理装置。
  23. 【請求項23】 請求項6または請求項7に記載の文書
    処理装置において、 上記ブロック分割手段は、上記テキスト形式判断手段に
    より上記入力されたテキストデータがタグ付きテキスト
    形式の文書であると判断された場合に、上記入力された
    テキストデータに付与されたタグ情報のうちどのタグ情
    報を、上記ブロック分割手段により該ブロック分割手段
    で分割されたブロックであることを示す所定のタグ情報
    を付与されて出力されたブロック構造データおよび/ま
    たは上記文書構造化手段により該文書構造化手段で構造
    化されたことを示す所定のタグ情報を付与されて出力さ
    れた文構造データのタグ情報として利用するかを判別
    し、不要なタグ情報の削除を行うことを特徴とする文書
    処理装置。
  24. 【請求項24】 請求項23に記載の文書処理装置にお
    いて、 所定のタグ付き言語によるコメント部分を取り除いた形
    で上記ブロック構造データに登録することを特徴とする
    文書処理装置。
  25. 【請求項25】 請求項23に記載の文書処理装置にお
    いて、 上記利用するタグ情報と上記不要なタグ情報を判断する
    ためのテーブルをユーザが登録可能としたことを特徴と
    する文書処理装置。
  26. 【請求項26】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、罫線として用いられる文字に基
    づき切り出されたブロックに対して、仕切り線として用
    いられる文字により区切られたセルを判別し、判別され
    た上記各セルから文を分割することを特徴とする文書処
    理装置。
  27. 【請求項27】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、罫線として用いられる文字によ
    り切り出されたブロックに対して、仕切り線として用い
    られる文字により区切られたセルを判別し、判別された
    上記各セルから文を分割すると共に、上記罫線として用
    いられる文字の文字列パターンをタグ情報として保存す
    ることを特徴とする文書処理装置。
  28. 【請求項28】 請求項27に記載の文書処理装置にお
    いて、 上記文書構造化手段は、上記判別された上記各セルに対
    し、表の項目や単位が書かれている上記セルと数字が書
    かれている上記セルとに、それぞれ別のタグ情報を付与
    することを特徴とする文書処理装置。
  29. 【請求項29】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内の上記テキスト
    データに対して所定の文字列により下線表現がなされて
    いると判断された場合、上記下線表現によって修飾され
    ている上記文字列に対して強調を表すタグ情報を付与す
    ることを特徴とする文書処理装置。
  30. 【請求項30】 請求項29に記載の文書処理装置にお
    いて、 上記下線表現を行う上記所定の文字列として任意の文字
    列を登録できる下線文字登録手段をさらに有することを
    特徴とする文書処理装置。
  31. 【請求項31】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内の上記テキスト
    データの行が引用を示す引用文字列により始まっている
    行である場合、上記行を引用行と判断し、該引用行と判
    断された行から上記引用文字列を取り除いた本来の文を
    分割することを特徴とする文書処理装置。
  32. 【請求項32】 請求項31に記載の文書処理装置にお
    いて、 上記文書構造化手段は、上記引用文字列を取り除いた本
    来の文に対して、引用文であることを示すタグ情報を付
    与して文を分割することを特徴とする文書処理装置。
  33. 【請求項33】 請求項31に記載の文書処理装置にお
    いて、 上記文書構造化手段は、上記引用文字列を取り除いた本
    来の文に対して上記引用文であることを示すタグ情報を
    付与する際に、上記タグ情報に対して引用属性を表すパ
    ラメータを付加して文を分割することを特徴とする文書
    処理装置。
  34. 【請求項34】 請求項31に記載の文書処理装置にお
    いて、 上記引用文字列として任意の文字列のユーザによる登録
    が可能な引用文字列登録手段をさらに有することを特徴
    とする文書処理装置。
  35. 【請求項35】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内の上記テキスト
    データの行が引用を示す引用文字列により始まっている
    行であることのみを条件に、該行を引用行と判断し、上
    記引用文字列に対して引用文字列であることを表すタグ
    情報を付与することを特徴とする文書処理装置。
  36. 【請求項36】 請求項1に記載の文書処理装置におい
    て、 引用を表す引用文字列として任意の文字列のユーザによ
    る登録が可能な引用文字列登録手段をさらに有し、 上記文書構造化手段は、上記ブロック内の上記テキスト
    データの各行の先頭からの文字列と、上記引用文字列登
    録手段に登録された上記引用文字列とを比較して、上記
    登録された上記引用文字列と同一の文字列が上記ブロッ
    ク内の上記テキストデータの2行以上にわたり出現した
    とされた場合には、上記ブロック内の上記テキストデー
    タ中の、上記引用文字列と同一の文字列が2行以上にわ
    たり出現した部分が電子メールによる引用部分であると
    判断され、上記部分から上記引用文字列と同一の文字列
    を取り除くと共に、該部分がどのような上記引用文字列
    によって引用されているかを示すタグ情報を付与するこ
    とを特徴とする文書処理装置。
  37. 【請求項37】 請求項36に記載の文書処理装置にお
    いて、 上記電子メールによる引用部分であると判断される、上
    記引用文字列と同一の文字列から始まる行が連続した行
    数は、ユーザにより指定できることを特徴とする文書処
    理装置。
  38. 【請求項38】 請求項1に記載の文書処理装置におい
    て、 入力された、ブロックに分割されたブロック構造データ
    内において、少なくとも一つのブロックに引用の利用が
    認められた場合には、上記引用の利用が認められた上記
    ブロックを含み、上記ブロック構造データの他の全ての
    上記ブロックで、上記引用の利用を上記認めるように定
    められた引用記号で始まる行が連続していない行であっ
    ても、全て上記引用として判断するようにしたことを特
    徴とする文書処理装置。
  39. 【請求項39】 請求項1に記載の文書処理装置におい
    て、 引用記号から始まっている行の連続状態に制限をおかず
    に適合する場合は、全て引用記号と判断すること特徴と
    する文書処理装置。
  40. 【請求項40】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内のテキストが見
    出しを表す見出し文字列であるかどうかを判断する見出
    し判定手段を備え、 上記見出し判定手段により上記ブロック内のテキストが
    見出しを表す見出し文字列であると判断された場合、該
    見出し文字列が含まれる行に見出し行であることを示す
    タグ情報を付与して文を分割することを特徴とする文書
    処理装置。
  41. 【請求項41】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段は、先頭に用いることで見出しを表
    現する見出し先頭文字列をキーとして、該見出し先頭文
    字から始まっており、行末が次の行への継続を示す所定
    の継続文字で終了していない場合に、上記見出し先頭文
    字列から始まる行を上記見出し行として判断することを
    特徴とする文書処理装置。
  42. 【請求項42】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段は、上記見出し先頭文字列として任
    意の文字列の登録が可能なことを特徴とする文書処理装
    置。
  43. 【請求項43】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段により処理される、先頭に用いるこ
    とで上記見出しを表現する見出し先頭文字列として任意
    の文字列の登録が可能な見出し判定文字登録手段をさら
    に有することを特徴とする文書処理装置。
  44. 【請求項44】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段は、上記ブロック内においてセンタ
    リングされている行を上記見出し行と判断して上記見出
    し行であることを示すタグ情報を付与することを特徴と
    する文書処理装置。
  45. 【請求項45】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段は、上記ブロック内で、他の行に比
    べて開始文字位置が前にある行を上記見出し行と判断し
    て、上記見出し行であることを示すタグ情報を付与する
    ことを特徴とする文書処理装置。
  46. 【請求項46】 請求項40に記載の文書処理装置にお
    いて、 上記見出し判定手段は、見出しを表す所定の括弧により
    括られている行を上記見出し行として判断することを特
    徴とする文書処理装置。
  47. 【請求項47】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内のテキストが見
    出しを表す見出し文字列であるかどうかを判断する見出
    し判定手段を備え、 上記見出し判定手段により上記ブロック内のテキストが
    上記見出し文字列と判断され、該見出し文字列を含む見
    出し行が連続する場合には、箇条書きがなされていると
    判断し、上記箇条書きがなされていると判断された行に
    対して上記箇条書きであることを示すタグ情報を付与し
    て文を分割することを特徴とする文書処理装置。
  48. 【請求項48】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック中の表を示すタグ
    情報が付与されている部分に対して上記表の各セルを切
    り出して、上記各セル毎に上記セルを表すタグ情報を付
    与する表判定手段を備えることを特徴とする文書処理装
    置。
  49. 【請求項49】 請求項48に記載の文書処理装置にお
    いて、 上記表判定手段は、上記各セルを切り出す際に、上記表
    中で上記切り出された上記セルが上記表中の何行文また
    は何列分のセルを利用しているかを表すタグ情報を付与
    し、各行または各列が均等に割り付けられていない上記
    表から上記各セルを切り出して上記セルを表すタグ情報
    を付与することを特徴とする文書処理装置。
  50. 【請求項50】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、二次元の文字列に対して正規表
    現と該正規表現に対応したタグ情報が記載されたパター
    ン情報を参照し、上記ブロック内の文字列が上記パター
    ン情報に記述された二次元の正規表現と対応している場
    合に、上記に次元の正規表現に基づく行の集まりに対し
    て上記パターン情報に上記二次元の正規表現に対応付け
    られて記述されているタグ情報を付与して分を切り出す
    正規表現判定手段を備えることを特徴とする文書処理装
    置。
  51. 【請求項51】 請求項50に記載の文書処理装置にお
    いて、 上記正規表現判定手段によって用いられる上記二次元の
    正規表現と該二次元の正規表現に対応したタグ情報とが
    記述された上記パターン情報として任意の文字列の登録
    が可能な正規表現登録手段をさらに有することを特徴と
    する文書処理装置。
  52. 【請求項52】 請求項50に記載の文書処理装置にお
    いて、 上記二次元の正規表現を、一次元での正規表現によるブ
    ロックの先頭および末端をそれぞれ示す2つの正規表現
    により表すことを特徴とする文書処理装置。
  53. 【請求項53】 請求項50に記載の文書処理装置にお
    いて、 上記二次元の正規表現を、一次元での正規表現によるブ
    ロックの先頭および末端をそれぞれ示す2つの正規表現
    と、該2つの正規表現の間に許される行数とによって表
    すことを特徴とする文書処理装置。
  54. 【請求項54】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、空白行判定部により上記ブロッ
    ク内に空白行がある場合、該空白行を文の境界と判断し
    て文を分割する空白行判定手段をさらに備えることを特
    徴とする文書処理装置。
  55. 【請求項55】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック内にある括弧の対
    応を検証し、該括弧の対応に不整合が生じている場合
    に、上記ブロックの前後の1または複数のブロックを参
    照し、上記括弧の整合性が取れれば、該括弧の整合性が
    取れた上記ブロック同士を一つのブロックに再構築して
    処理を行う括弧判定手段をさらに備えることを特徴とす
    る文書処理装置。
  56. 【請求項56】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック中の行の先頭文字
    の位置に基づき段落の切れ目を判断し、上記段落に相当
    する部分に対して上記段落を表すタグ情報を付与する段
    落判定手段をさらに備えることを特徴とする文書処理装
    置。
  57. 【請求項57】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック中の行の先頭文字
    の位置と上記行の一行中の文字数とに基づき段落の切れ
    目を判断し、上記段落に相当する部分に対して段落を表
    すタグを付与する段落判定手段をさらに備えることを特
    徴とする文書処理装置。
  58. 【請求項58】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記入力されたテキストデータ
    が所定の形式のタグ付きテキストであって、文の構造を
    指定するタグ情報が予め付与されている場合には、上記
    予め付与されているタグ情報をそのまま使うこと特徴と
    する文書処理装置。
  59. 【請求項59】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、上記ブロック中のテキストが英
    文であるかどうかを判断し、英文と判断された場合に、
    行末にハイフォンがある場合には当該行と当該行の次の
    行とをそのまま繋げ、行末に上記ハイフォンが無く、且
    つ、行末が区切り記号で無い場合、行末に空白を付与し
    て当該行と当該行の次の行とを繋げることにより文を分
    割する英文判定手段をさらに備えることを特徴とする文
    書処理装置。
  60. 【請求項60】 請求項1に記載の文書処理装置におい
    て、 上記文書構造化手段は、句点を文の区切りとして文を分
    割することを特徴とする文書処理装置。
  61. 【請求項61】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現することを特徴とする文書処理
    装置。
  62. 【請求項62】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れているタグ情報に基づき上記文の切り出しを制御する
    ことを特徴とする文書処理装置。
  63. 【請求項63】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れているタグ情報に基づき文書内の注目点の移動を制御
    することを特徴とする文書処理装置。
  64. 【請求項64】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、上記木構造に基づ
    き行単位に上記文の切り出しを行うことを特徴とする文
    書処理装置。
  65. 【請求項65】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、上記木構造に基づ
    き列単位に上記文の切り出しを行うことを特徴とする文
    書処理装置。
  66. 【請求項66】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、該表の一番目の行
    または列に数値単位を表す記号があり、且つ、対応する
    それ以降の行または列に数字情報があれば、上記数字情
    報に対して該数字情報がある行または列に対応する上記
    数値単位を付与し、上記数字情報に上記数値単位が付与
    された文を切り出すことを特徴とする文書処理装置。
  67. 【請求項67】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、該表の一番目の行
    または列に数値単位を表す記号があり、且つ、対応する
    それ以降の行または列に数字情報があれば、上記数字情
    報に対して該数字情報がある行または列に対応する上記
    数値単位を付与し、上記数字情報に上記数値単位が付与
    された文を切り出す旨を明示的に指示できることを特徴
    とする文書処理装置。
  68. 【請求項68】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、該表の一番目の行
    または列にある文を、それ以降の行または列にある文に
    対して付与した文を切り出すことを特徴とする文書処理
    装置。
  69. 【請求項69】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が表を表す場合に、該表の一番目の行
    または列にある文を、それ以降の行または列にある文に
    対して付与した文を切り出すことを明示的に指示できる
    ことを特徴とする文書処理装置。
  70. 【請求項70】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報が引用を表す場合に、該引用部分の切
    り出しを行うか否かを指定することができることを特徴
    とする文書処理装置。
  71. 【請求項71】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報のうち段落を表すタグ情報を用いるこ
    とにより、段落単位での文の切り出しができることを特
    徴とする文書処理装置。
  72. 【請求項72】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、上記木構造データに付与さ
    れた上記タグ情報のうち見出しを表すタグ情報を用いる
    ことにより、見出し単位での文の切り出しができること
    を特徴とする文書処理装置。
  73. 【請求項73】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記タグ情報に応じたアクショ
    ンを起こすタグ判別手段をさらに備え、 タグ判別手段により、タグ情報が付与されていると判断
    された上記文に対して、タグ情報と該タグ情報に対応し
    たアクションを示すアクションデータからなるタグアク
    ションデータに基づきタグ情報を判別して、上記タグア
    クションデータに規定された上記アクションを起こすこ
    とを特徴とする文書処理装置。
  74. 【請求項74】 請求項73に記載の文書処理装置にお
    いて、 上記タグアクションデータは、ユーザにより登録が可能
    なことを特徴とする文書処理装置。
  75. 【請求項75】 請求項1に記載の文書処理装置におい
    て、 上記文切り出し手段は、上記文書構造化手段により作成
    された上記タグ情報により上記構造化された上記文を木
    構造のデータとして表現し、該木構造データと対を成
    す、該木構造データの各ノード毎に文切り出し制御フラ
    グが付された文切り出しテンプレートを備え、 上記文切り出し手段は、上記文切り出しテンプレートに
    付された上記文切り出し制御フラグが文の切り出しを禁
    止することを示している場合に、該文切り出し制御フラ
    グに付随する上記文の切り出しを行わないことを特徴と
    する文書処理装置。
  76. 【請求項76】 請求項75に記載の文書処理装置にお
    いて、 上記文切り出しテンプレート中の上記文切り出し制御フ
    ラグによる文切り出しの制御を、ユーザが登録できるテ
    ンプレート登録手段をさらに有することを特徴とする文
    書処理装置。
  77. 【請求項77】 請求項76に記載の文書処理装置にお
    いて、 処理対象となっているテキストの上記木構造を表示する
    表示手段と、 上記表示手段の表示に対応してユーザが位置を指示でき
    る指示手段とをさらに有し、 上記テンプレート登録手段は、上記表示手段に表示され
    た上記木構造に対して上記指示手段により所定にマーク
    を付けることにより、上記文切り出し制御フラグを登録
    できることを特徴とする文書処理装置。
  78. 【請求項78】 請求項76に記載の文書処理装置にお
    いて、 上記テンプレート登録手段は、上記文切り出しテンプレ
    ートを作成する元となった上記入力されたテキストデー
    タを表すIDと関連付けて、該文切り出しテンプレート
    を登録することを特徴とする文書処理装置。
  79. 【請求項79】 請求項76に記載の文書処理装置にお
    いて、 上記テンプレート登録手段は、ユーザによって指定され
    た上記文切り出しテンプレートを用いることを特徴とす
    る文書処理装置。
  80. 【請求項80】 請求項76に記載の文書処理装置にお
    いて、 上記テンプレート登録手段により登録された上記文切り
    出しテンプレートを、検索条件に対して完全に一致して
    いなくても一致していると見なすあいまい検索により検
    索するテンプレート検索手段をさらに有し、 上記テンプレート検索手段で検索された上記文切り出し
    テンプレートを、上記木構造データに適応させるように
    したことを特徴とする文書処理装置。
  81. 【請求項81】 請求項76に記載の文書処理装置にお
    いて、 上記テンプレート登録手段により登録された上記文切り
    出しテンプレートを、検索条件に対して完全に一致して
    いるかどうかにより検索するテンプレート検索手段をさ
    らに有し、 上記テンプレート検索手段で検索された上記文切り出し
    テンプレートを、上記木構造データに適応させるように
    したことを特徴とする文書処理装置。
  82. 【請求項82】 請求項76に記載の文書処理装置にお
    いて、 処理対象となっているテキストの上記木構造に基づき2
    次元的に展開したテキストイメージを表示する表示手段
    と、 上記表示手段の表示に対応してユーザが位置を指示でき
    る指示手段とをさらに有し、 上記テンプレート登録手段は、上記表示手段に表示され
    た上記テキストイメージに対して上記指示手段により所
    定にマークを付けることにより、上記文切り出し制御フ
    ラグを登録できることを特徴とする文書処理装置。
  83. 【請求項83】 請求項76に記載の文書処理装置にお
    いて、 上記テンプレート登録手段は、上記文切り出しテンプレ
    ートを、URLまたはファイルと関連付けて保存するこ
    とができることを特徴とする文書処理装置。
  84. 【請求項84】 請求項76に記載の文書処理装置にお
    いて、 上記文切り出し手段の切り出し対象となっているテキス
    トと登録されている上記文切り出しテンプレートとの関
    連に基づき検索を行うテンプレート検索手段をさらに備
    え、 上記文切り出し手段は、テンプレート検索手段による検
    索結果に基づき、該テキストと該文切り出しテンプレー
    トとの間に所定の関連があるとされた場合は、該文切り
    出しテンプレートの適応を行うことを特徴とする文書処
    理装置。
  85. 【請求項85】 請求項76に記載の文書処理装置にお
    いて、 上記木構造データと上記文切り出しテンプレートとを照
    らし合わせて該切り出しテンプレートの該木構造データ
    への適応を行う際に、該木構造データの木構造の階層の
    高い側から逐次適応を行い、該文切り出しテンプレート
    のノードに対して過不足のある、木構造データのノード
    を吸収して適応を行うテンプレート検索手段をさらに備
    えることを特徴とする文書処理装置。
  86. 【請求項86】 請求項76に記載の文書処理装置にお
    いて、 上記木構造データと上記文切り出しテンプレートとを照
    らし合わせて該切り出しテンプレートの該木構造データ
    への適応を行う際に、該木構造データのノードと該文切
    り出しテンプレートのノードとが一致した場合にのみ文
    切り出しテンプレートの適応を行うテンプレート検索手
    段をさらに備えることを特徴とする文書処理装置。
  87. 【請求項87】 電子化された文書データを処理する文
    書処理方法において、 入力されたテキストデータを、該テキストデータの構成
    に応じて所定にブロックに分割するブロック分割のステ
    ップと、 上記ブロック分割のステップにより分割された上記ブロ
    ックの文書構造を上記テキストデータの構成に基づき解
    析して文単位に分割し、分割された上記文に上記テキス
    トデータの構成に応じてタグ情報を付加して上記文を構
    造化する文書構造化のステップと、 上記文書構造化のステップによって上記構造化された上
    記文に付与された上記タグ情報に基づき上記文の切り出
    しを制御する文切り出しのステップとを有することを特
    徴とする文書処理方法。
  88. 【請求項88】 電子化された文書データを処理する文
    書処理方法をコンピュータ装置に実行させる文書処理プ
    ログラムにおいて、 入力されたテキストデータを、該テキストデータの構成
    に応じて所定にブロックに分割するブロック分割のステ
    ップと、 上記ブロック分割のステップにより分割された上記ブロ
    ックの文書構造を上記テキストデータの構成に基づき解
    析して文単位に分割し、分割された上記文に上記テキス
    トデータの構成に応じてタグ情報を付加して上記文を構
    造化する文書構造化のステップと、 上記文書構造化のステップによって上記構造化された上
    記文に付与された上記タグ情報に基づき上記文の切り出
    しを制御する文切り出しのステップとを有する文書処理
    方法をコンピュータ装置に実行させることを特徴とする
    文書処理プログラム。
  89. 【請求項89】 電子化された文書データを処理する文
    書処理方法をコンピュータ装置に実行させる文書処理プ
    ログラムが記録された記録媒体において、 入力されたテキストデータを、該テキストデータの構成
    に応じて所定にブロックに分割するブロック分割のステ
    ップと、 上記ブロック分割のステップにより分割された上記ブロ
    ックの文書構造を上記テキストデータの構成に基づき解
    析して文単位に分割し、分割された上記文に上記テキス
    トデータの構成に応じてタグ情報を付加して上記文を構
    造化する文書構造化のステップと、 上記文書構造化のステップによって上記構造化された上
    記文に付与された上記タグ情報に基づき上記文の切り出
    しを制御する文切り出しのステップとを有する文書処理
    方法をコンピュータ装置に実行させる文書処理プログラ
    ムが記録されたことを特徴とする記録媒体。
JP2001140778A 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 Expired - Fee Related JP4843867B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001140778A JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US10/143,279 US7111011B2 (en) 2001-05-10 2002-05-10 Document processing apparatus, document processing method, document processing program and recording medium
US11/185,303 US7315867B2 (en) 2001-05-10 2005-07-20 Document processing apparatus, document processing method, document processing program, and recording medium
US12/005,924 US7984076B2 (en) 2001-05-10 2007-12-28 Document processing apparatus, document processing method, document processing program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001140778A JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Publications (2)

Publication Number Publication Date
JP2002334070A true JP2002334070A (ja) 2002-11-22
JP4843867B2 JP4843867B2 (ja) 2011-12-21

Family

ID=18987329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001140778A Expired - Fee Related JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Country Status (2)

Country Link
US (3) US7111011B2 (ja)
JP (1) JP4843867B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043695B2 (en) 2010-11-26 2015-05-26 International Business Machines Corporation Visualizing total order relation of nodes in a structured document
CN109948518A (zh) * 2019-03-18 2019-06-28 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
KR20210153408A (ko) * 2020-06-10 2021-12-17 김민규 블록체인을 사용하여 문서를 검증하기 위한 방법 및 장치

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002087112A2 (en) 2001-04-18 2002-10-31 Space Data Corporation Unmanned lighter-than-air safe termination and recovery methods
US7356390B2 (en) 1999-06-29 2008-04-08 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9908608B2 (en) 2001-04-18 2018-03-06 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9632503B2 (en) 2001-04-18 2017-04-25 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9643706B2 (en) 2001-04-18 2017-05-09 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
JP2004086846A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
US7421701B2 (en) * 2002-09-16 2008-09-02 International Business Machines Corporation System for facilitating transactions between thin-clients and message format service (MFS)-based information management system (IMS) applications
US20040054969A1 (en) * 2002-09-16 2004-03-18 International Business Machines Corporation System and method for generating web services definitions for MFS-based IMS applications
US20040103370A1 (en) * 2002-11-27 2004-05-27 International Business Machines Corporation System and method for rendering MFS XML documents for display
US7130893B2 (en) 2003-05-19 2006-10-31 International Business Machines Corporation System and method for representing MFS control blocks in XML for MFS-based IMS applications
US7546465B2 (en) * 2002-10-17 2009-06-09 At&T Intellectual Property I, L.P. Instant messaging private tags
US7539940B2 (en) * 2002-10-09 2009-05-26 Microsoft Corporation System and method for converting between text formatting or markup language formatting and outline structure
US7464268B2 (en) * 2002-10-17 2008-12-09 At&T Intellectual Property I, L.P. Customizable instant messaging private tags
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
US7337398B1 (en) * 2003-02-28 2008-02-26 Adobe Systems Incorporated Reconstitute tag-delimited tables in a graphics editing application
US7328219B2 (en) * 2003-03-03 2008-02-05 Raytheon Company System and method for processing electronic data from multiple data sources
US7657573B1 (en) * 2003-03-31 2010-02-02 Invensys Method and data structure for exchanging data
US20040242202A1 (en) * 2003-05-12 2004-12-02 Marko Torvinen System, apparatus, and method for automated handling of messages in terminals
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US7370280B2 (en) * 2003-09-23 2008-05-06 International Business Machines Corporation Apparatus, system, and method for defining a web services interface for MFS-based IMS applications
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7418508B2 (en) 2004-01-26 2008-08-26 International Machines Corporation System and method to facilitate XML enabled IMS transactions between a remote client and an IMS application program
US7617459B2 (en) * 2004-01-28 2009-11-10 International Business Machines Corporation Apparatus, system, and method for automatically generating a web interface for an MFS-based IMS application
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US20050240437A1 (en) * 2004-04-05 2005-10-27 Cunningham Robert H Information retrieval system and method thereof
US7558792B2 (en) * 2004-06-29 2009-07-07 Palo Alto Research Center Incorporated Automatic extraction of human-readable lists from structured documents
US7529731B2 (en) * 2004-06-29 2009-05-05 Xerox Corporation Automatic discovery of classification related to a category using an indexed document collection
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US8839097B2 (en) * 2004-11-15 2014-09-16 Ca, Inc. System and method for information encapsulation for providing multiple deliverable formats from one information source
US9122655B2 (en) * 2004-11-15 2015-09-01 International Business Machines Corporation Pre-translation testing of bi-directional language display
EP1669896A3 (en) * 2004-12-03 2007-03-28 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
US20060224682A1 (en) * 2005-04-04 2006-10-05 Inmon Data Systems, Inc. System and method of screening unstructured messages and communications
US20060224617A1 (en) * 2005-04-04 2006-10-05 Inmon Data Systems, Inc. Unstructured business metadata manager
US20060277259A1 (en) * 2005-06-07 2006-12-07 Microsoft Corporation Distributed sender reputations
JP4234698B2 (ja) * 2005-06-20 2009-03-04 富士通株式会社 構造化文書処理システム
US20070061402A1 (en) * 2005-09-15 2007-03-15 Microsoft Corporation Multipurpose internet mail extension (MIME) analysis
US20070100823A1 (en) * 2005-10-21 2007-05-03 Inmon Data Systems, Inc. Techniques for manipulating unstructured data using synonyms and alternate spellings prior to recasting as structured data
US20070106686A1 (en) * 2005-10-25 2007-05-10 Inmon Data Systems, Inc. Unstructured data editing through category comparison
TW200732927A (en) * 2006-02-23 2007-09-01 Accfast Technology Corp Design method and apparatus for user interface and recording media for storing descriptive program thereof
US7693831B2 (en) * 2006-03-23 2010-04-06 Microsoft Corporation Data processing through use of a context
WO2007108529A1 (ja) * 2006-03-23 2007-09-27 Nec Corporation 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US7805424B2 (en) * 2006-04-12 2010-09-28 Microsoft Corporation Querying nested documents embedded in compound XML documents
US8972839B2 (en) * 2006-10-02 2015-03-03 Adobe Systems Incorporated Media presentations including related content
US8005847B2 (en) * 2006-10-20 2011-08-23 Adobe Systems Incorporated Pattern-based file relationship inference
CN101192107A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于输入并显示字符串的方法和设备
US8155444B2 (en) * 2007-01-15 2012-04-10 Microsoft Corporation Image text to character information conversion
US7860872B2 (en) * 2007-01-29 2010-12-28 Nikip Technology Ltd. Automated media analysis and document management system
US7949670B2 (en) * 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
US8108770B2 (en) 2007-08-27 2012-01-31 Yahoo! Inc. Secure inter-module communication mechanism
US20090119415A1 (en) * 2007-11-02 2009-05-07 Chiang Chenhuei J System and method for representing mfs control blocks in xml for mfs-based ims applications
JP5091639B2 (ja) * 2007-11-21 2012-12-05 株式会社東芝 レポート検索装置、及びレポート検索方法
US20100005112A1 (en) * 2008-07-01 2010-01-07 Sap Ag Html file conversion
US8136037B2 (en) * 2008-07-15 2012-03-13 International Business Machines Corporation Assistant for manually proofreading text documents
US9600459B2 (en) * 2008-07-16 2017-03-21 International Business Machines Corporation Visual macro showing how some icon or object or text was constructed
US9274910B2 (en) * 2008-08-29 2016-03-01 Spirent Communications, Inc. Automatic test map generation for system verification test
US8126837B2 (en) * 2008-09-23 2012-02-28 Stollman Jeff Methods and apparatus related to document processing based on a document type
US8229971B2 (en) * 2008-09-29 2012-07-24 Efrem Meretab System and method for dynamically configuring content-driven relationships among data elements
US9626339B2 (en) 2009-07-20 2017-04-18 Mcap Research Llc User interface with navigation controls for the display or concealment of adjacent content
US8819028B2 (en) * 2009-12-14 2014-08-26 Hewlett-Packard Development Company, L.P. System and method for web content extraction
US8565474B2 (en) * 2010-03-10 2013-10-22 Microsoft Corporation Paragraph recognition in an optical character recognition (OCR) process
US20120290926A1 (en) * 2011-05-12 2012-11-15 Infinote Corporation Efficient document management and search
US9633012B1 (en) 2011-08-25 2017-04-25 Infotech International Llc Construction permit processing system and method
US9116895B1 (en) 2011-08-25 2015-08-25 Infotech International Llc Document processing system and method
US9785638B1 (en) 2011-08-25 2017-10-10 Infotech International Llc Document display system and method
JP5764039B2 (ja) * 2011-10-25 2015-08-12 株式会社沖データ 情報処理装置、画像形成装置、プログラム、情報処理システム、及び、情報処理方法
US11042513B2 (en) * 2012-01-03 2021-06-22 International Business Machines Corporation Extended tagging method and system
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9477645B2 (en) * 2013-03-13 2016-10-25 Sap Se Systems and methods of active text markup
CN104077273A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 一种对网页内容抽取的方法及装置
US9507520B2 (en) * 2013-12-16 2016-11-29 Microsoft Technology Licensing, Llc Touch-based reorganization of page element
KR102117433B1 (ko) * 2014-10-22 2020-06-02 후아웨이 테크놀러지 컴퍼니 리미티드 인터액티브 비디오 생성
MX2017008552A (es) 2014-12-24 2018-03-15 Space Data Corp Tecnicas para lanzamiento de globo/aeronave inteligente y ubicación de ventana de recuperacion.
US10207802B2 (en) 2014-12-24 2019-02-19 Space Data Corporation Breaking apart a platform upon pending collision
US10059421B2 (en) 2014-12-30 2018-08-28 Space Data Corporation Multifunctional balloon membrane
CN105353948A (zh) * 2015-09-25 2016-02-24 维沃移动通信有限公司 一种信息处理方法和装置
US10291599B2 (en) * 2016-07-20 2019-05-14 UScontracting, Inc. Systems, methods and apparatus for keystroke encryption
JP2018151854A (ja) * 2017-03-13 2018-09-27 富士ゼロックス株式会社 文書処理装置およびプログラム
CN108829648A (zh) * 2018-05-30 2018-11-16 北京小度信息科技有限公司 网页标记语言的转换方法及装置
JP7317561B2 (ja) 2019-04-19 2023-07-31 キヤノン株式会社 タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
CN110222331A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN114969843B (zh) * 2022-08-03 2022-11-01 确信信息股份有限公司 支持文档样式保护的签验章方法、系统、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05110805A (ja) * 1991-10-16 1993-04-30 Fuji Xerox Co Ltd ミクストモ―ド文書処理装置
JPH11353218A (ja) * 1998-06-09 1999-12-24 Fuji Electric Co Ltd 文書データのセキュリティ強化方式
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
US5438657A (en) * 1992-04-24 1995-08-01 Casio Computer Co., Ltd. Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document
JP3489219B2 (ja) * 1994-09-20 2004-01-19 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
US6247018B1 (en) * 1998-04-16 2001-06-12 Platinum Technology Ip, Inc. Method for processing a file to generate a database
US6424982B1 (en) * 1999-04-09 2002-07-23 Semio Corporation System and method for parsing a document using one or more break characters
US6343287B1 (en) * 1999-05-19 2002-01-29 Sun Microsystems, Inc. External data store link for a profile service
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
US20020143823A1 (en) * 2001-01-19 2002-10-03 Stevens Mark A. Conversion system for translating structured documents into multiple target formats
CA2340531C (en) * 2001-03-12 2006-10-10 Ibm Canada Limited-Ibm Canada Limitee Document retrieval system and search method using word set and character look-up tables
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05110805A (ja) * 1991-10-16 1993-04-30 Fuji Xerox Co Ltd ミクストモ―ド文書処理装置
JPH11353218A (ja) * 1998-06-09 1999-12-24 Fuji Electric Co Ltd 文書データのセキュリティ強化方式
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043695B2 (en) 2010-11-26 2015-05-26 International Business Machines Corporation Visualizing total order relation of nodes in a structured document
CN109948518A (zh) * 2019-03-18 2019-06-28 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP7139028B2 (ja) 2020-01-09 2022-09-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
KR20210153408A (ko) * 2020-06-10 2021-12-17 김민규 블록체인을 사용하여 문서를 검증하기 위한 방법 및 장치
KR102342542B1 (ko) * 2020-06-10 2021-12-22 김민규 블록체인을 사용하여 문서를 검증하기 위한 방법 및 장치

Also Published As

Publication number Publication date
US20080256120A1 (en) 2008-10-16
US7315867B2 (en) 2008-01-01
US7984076B2 (en) 2011-07-19
US20050251737A1 (en) 2005-11-10
JP4843867B2 (ja) 2011-12-21
US20030007397A1 (en) 2003-01-09
US7111011B2 (en) 2006-09-19

Similar Documents

Publication Publication Date Title
JP4843867B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US4821230A (en) Machine translation system
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JPH06250895A (ja) 構造化データベースシステム
KR100956087B1 (ko) 컴퓨터 판독 가능한 기록 매체, 문자 입력 편집 방법, 서버 장치, 및 서버
JP3691628B2 (ja) 文書情報管理システム
JP2002215519A (ja) ウェブページ生成方法およびシステム、ウェブページ生成プログラム、記録媒体
JPWO2006001392A1 (ja) 文書処理方法および装置
JPH10222510A (ja) 文書変換方法
JP4012047B2 (ja) 電子文書作成装置、電子文書作成方法およびその方法をコンピュータに実行させるプログラム
JPH0442704B2 (ja)
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP2000081999A (ja) 文書出力システム
JPH10283368A (ja) 情報処理装置及びその方法
JP2003223461A (ja) 知的労働者の知的創造支援のための検索システム
JPH1115826A (ja) 文書解析装置及び方法
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JP3039655B2 (ja) 文章処理装置及びその方法
JPH10269230A (ja) 文書情報管理システム
JP3809238B2 (ja) 文書処理方法及びその装置
JPH08339365A (ja) 文書作成装置及び文書作成方法
JPH08161336A (ja) 文書作成装置及びその項目管理方法
JPH09325957A (ja) テキスト印刷システム
JP2006235800A (ja) 電子文書への不可視情報付与システム及び付与方法
JPH05101039A (ja) 文書整形装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110810

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110926

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4843867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees