JP4843867B2 - 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 - Google Patents

文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 Download PDF

Info

Publication number
JP4843867B2
JP4843867B2 JP2001140778A JP2001140778A JP4843867B2 JP 4843867 B2 JP4843867 B2 JP 4843867B2 JP 2001140778 A JP2001140778 A JP 2001140778A JP 2001140778 A JP2001140778 A JP 2001140778A JP 4843867 B2 JP4843867 B2 JP 4843867B2
Authority
JP
Japan
Prior art keywords
document
sentence
text
data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001140778A
Other languages
English (en)
Other versions
JP2002334070A (ja
Inventor
賢一郎 小林
誠 赤羽
朋晃 新田
信英 山崎
恵理香 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001140778A priority Critical patent/JP4843867B2/ja
Priority to US10/143,279 priority patent/US7111011B2/en
Publication of JP2002334070A publication Critical patent/JP2002334070A/ja
Priority to US11/185,303 priority patent/US7315867B2/en
Priority to US12/005,924 priority patent/US7984076B2/en
Application granted granted Critical
Publication of JP4843867B2 publication Critical patent/JP4843867B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、電子化されたテキスト情報を、読み上げるのに適当なように切り出すようにした文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体に関する。
【0002】
【従来の技術】
近年では、インターネットの普及などにより、ネットワークを介して大量の電子化されたテキストデータが扱われる。特にインターネット上では、WWW(World Wide Web)上のWebサイトや電子メールなどにより、電子化されたテキストデータが大量にやりとりされる。電子メールは、テキスト情報が中心である。一方、Webサイトでは、主にHTML(Hyper Text Markup Language)を用いてテキストデータが記述される。
【0003】
なお、HTMLでは、テキストデータによる文書中に、同じくテキストデータにより表現されるタグと称される符号を埋め込み、このタグにより、文書構造を定義することができる。HTMLによって記述された文書を、対応するビューアソフトウェアに読み込ませることで、文書の表示などに、タグによって定義された文書構造に応じたレイアウトで文書の表示がなされる。以下、HTML形式で記述された文書をHTML文書と略称する。
【0004】
【発明が解決しようとする課題】
このように、ネットワーク上でやりとりされるテキストデータでも、電子メールとHTML文書とではデータの形式が異なるため、それぞれに対応したビューアを用意する必要があった。
【0005】
また、上述のようにしてネットワークを介して入手したテキストデータから、その文書の構造に基づいて文を所定に切り出すことが必要とされる場合がある。例えば、文書を合成音声などを用いてみ上げる場合、入手されたテキストデータから読み上げるべき部分を自動的に切り出す必要がある。文書をディスクプレイなどに表示させる場合でも、必要な部分の選択的な切り出しが自動的に行われるようにすると、より使い易いものとなる。
【0006】
従来では、上述のHTML文書から文を切り出すには、単純に、タグ情報を取り除くだけの処理が行われているに過ぎなかったという問題点があった。
【0007】
一方、従来からの、テキストデータを表示するようにされたビューワでは、電子メールなどのテキスト形式で表現される文書において、「*」や「−」などの記号を1行中で連続的に繰り返し用いたり、「|」などの記号を用いることで、罫線などが表現されていた。このような記号を駆使することで、テキスト形式の文書中に表を作成することができる。このような文書に対して文の切り出しを行うと、従来では、単に罫線として用いられている記号が文字列として切り出されるだけで、表としての判断ができなかったという問題点があった。
【0008】
また、テキストデータにおいて、「>」などの引用記号を用いて他者の文書を引用することが一般的に行われる。例えば、電子メールにおいては、返信の際に、返信元の電子メールの内容に対して各行頭に上述の引用記号を付して、その文が返信元の文書からの引用であることを示していた。
【0009】
このような場合、従来でも、引用されている部分のブロックを判定して引用部分とそうでない部分とを、それぞれ異なる色で表示するようにされたものは存在した。しかし、この場合でも、引用部分のテキストから文を抽出すると、文が「>」などの引用記号を含んだ形で切り出されてしまうという問題点があった。
【0010】
さらに、近年では、電子メールの応用的な利用方法として、所謂メールマガジンに代表されるように、同じ情報を多数の送信先に同報的に送信するシステムも普及している。このような場合、送信される電子メールには、本文以外の情報である、広告やシグネチャなどのまとまった部分が多く存在する場合が一般的である。従来では、このようなテキストデータからこれら本文以外の情報を取り除いた本文情報のみを取得することが難しいという問題点があった。
【0011】
さらにまた、上述したように、HTML文書においては、タグを用いて文書構造を定義し、対応するビューアでは、タグに対応した表示を行い文書構造が表現される。これを利用して、タグを、表示を行う際の視覚的機能、すなわち、レイアウトを指示する制御符号として用いるのが一般的に行われ、HTML文書であっても、タグからでは、そのタグに属するテキスト部分が表なのか、見出しなどかなど、文書内での位置付けを把握することができなかった。
【0012】
そのため、従来のHTML文書を読み上げる読み上げ装置などでは、HTML文書中の読み上げたい部分とそうでない部分とを、タグからだけでは判断することができず、また、オペレータも、どの部分を読み上げの対象にするかといった指定を行うことができないという問題点があった。
【0013】
したがって、この発明の目的は、電子メールによるテキストデータやHTML形式によるテキストデータから、読み上げに適した部分を適切に切り出すことができるような文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体を提供することにある。
【0014】
また、この発明の他の目的は、電子メールおよびHTML形式による文書処理を、統一的に行うことができるようにした文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体を提供することにある。
【0015】
【課題を解決するための手段】
この発明は、電子化された文書データを処理する文書処理装置において、入力されたテキストデータのエンコード形式を判断する文字種判断手段と、文字種判断手段の判断結果に基づき、入力されたテキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換手段とを備え、入力されたテキストデータのテキスト形式を判断し、文字コード変換手段により所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断手段と、テキスト形式判断手段から出力されたテキストデータを、テキストデータの構成に応じて所定のブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割手段と、ブロック分割手段から出力されたブロック構造データの文書構造をテキストデータの構成に基づき解析して文単位に分割し、分割された文に上記テキストデータの構成に応じてタグ情報を付加して文を構造化し、文構造データとして出力する文書構造化手段と、文書構造化手段から出力された文構造データのタグ情報に基づき文の切り出しを制御する文切り出し手段とを有し、ブロック分割手段は、テキスト形式判断手段によりテキストデータがテキスト形式の文書であると判断された場合には、所定の固まりをブロックと判断し、テキスト形式判断手段によりテキストデータがタグ付きテキスト形式の文書であると判断された場合には、テキストデータに付与されたタグ情報のうち、文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、文書構造化手段は、テキストデータがタグ付きテキスト形式の文書であって、文の構造を指定するタグ情報が予め付与されている場合には、予め付与されているタグ情報をそのまま使う文書処理装置である。
【0016】
電子化された文書データを処理する文書処理方法において、文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力されたテキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、文字種判断手段と文字コード変換手段とを備えるテキスト形式判断手段により、入力されたテキストデータのテキスト形式を判断し、文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、ブロック分割手段によって、テキスト形式判断のステップにより出力されたテキストデータを、テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、文書構造化手段によって、ブロック分割のステップにより出力されたブロック構造データの文書構造をテキストデータの構成に基づき解析して文単位に分割し、分割された文にテキストデータの構成に応じてタグ情報を付加して文を構造化し、文構造データとして出力する文書構造化のステップと、文切り出し手段によって、文書構造化のステップにより出力された文構造データのタグ情報に基づき文の切り出しを制御する文切り出しのステップとを有し、ブロック分割のステップにおいては、テキスト形式判断のステップによりテキストデータがテキスト形式の文書であると判断された場合には、所定の固まりをブロックと判断し、テキスト形式判断のステップによりテキストデータがタグ付きテキスト形式の文書であると判断された場合には、テキストデータに付与されたタグ情報のうち、文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、文書構造化のステップは、テキストデータがタグ付きテキスト形式の文書であって、タグ情報が予め付与されている場合には、予め付与されているタグ情報をそのまま使う文書処理方法である。
【0017】
電子化された文書データを処理する文書処理方法をコンピュータ装置に実行させる文書処理プログラムにおいて、文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力されたテキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、文字種判断手段と文字コード変換手段とを備えるテキスト形式判断手段により、入力されたテキストデータのテキスト形式を判断し、文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、ブロック分割手段によって、テキスト形式判断のステップにより出力されたテキストデータを、テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、文書構造化手段によって、ブロック分割のステップにより出力されたブロック構造データの文書構造をテキストデータの構成に基づき解析して文単位に分割し、分割された文にテキストデータの構成に応じてタグ情報を付加して文を構造化し、文構造データとして出力する文書構造化のステップと、文切り出し手段によって、文書構造化のステップにより出力された文構造データのタグ情報に基づき文の切り出しを制御する文切り出しのステップとを有し、ブロック分割のステップにおいては、テキスト形式判断のステップによりテキストデータがテキスト形式の文書であると判断された場合には、所定の固まりをブロックと判断し、テキスト形式判断のステップによりテキストデータがタグ付きテキスト形式の文書であると判断された場合には、テキストデータに付与されたタグ情報のうち、文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、文書構造化のステップは、テキストデータがタグ付きテキスト形式の文書であって、タグ情報が予め付与されている場合には、予め付与されているタグ情報をそのまま使う文書処理方法をコンピュータ装置に実行させる文書処理プログラムである。
【0018】
電子化された文書データを処理する文書処理方法をコンピュータ装置に実行させる文書処理プログラムが記録された記録媒体において、文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力されたテキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、文字種判断手段と文字コード変換手段とを備えるテキスト形式判断手段により、入力されたテキストデータのテキスト形式を判断し、文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、ブロック分割手段によって、テキスト形式判断のステップにより出力されたテキストデータを、テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、文書構造化手段によって、ブロック分割のステップにより出力されたブロック構造データの文書構造をテキストデータの構成に基づき解析して文単位に分割し、分割された文にテキストデータの構成に応じてタグ情報を付加して文を構造化し、文構造データとして出力する文書構造化のステップと、文切り出し手段によって、文書構造化のステップにより出力された文構造データのタグ情報に基づき文の切り出しを制御する文切り出しのステップとを有し、ブロック分割のステップにおいては、テキスト形式判断のステップによりテキストデータがテキスト形式の文書であると判断された場合には、所定の固まりをブロックと判断し、テキスト形式判断のステップによりテキストデータがタグ付きテキスト形式の文書であると判断された場合には、テキストデータに付与されたタグ情報のうち、文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、文書構造化のステップは、テキストデータがタグ付きテキスト形式の文書であって、タグ情報が予め付与されている場合には、予め付与されているタグ情報をそのまま使う文書処理方法をコンピュータ装置に実行させる文書処理プログラムが記録された記録媒体である。
【0019】
上述したように、この発明は、入力されたテキストデータを、テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックの文書構造をテキストデータの構成に基づき解析して文単位に分割し、分割された文にテキストデータの構成に応じてタグ情報を付加して文を構造化して構造化された文に付与されたタグ情報に基づき文の切り出しを制御するようにしているため、入力されたテキストデータからの文の切り出しを容易に行うことができる。
【0020】
【発明の実施の形態】
以下、この発明の実施の一形態を、図面を参照しながら説明する。図1は、この発明による文書処理の概略的な流れを示すフローチャートである。入力された電子メールやHTML形式の文字情報は、先ず、ステップS10でデータのタイプなどが調べられ、テキスト形式が判断され、この文書処理装置で処理可能な形式に変換される。次に、ステップS20で、文書が所定にブロックに分割され、次のステップS30で引用部分や見出し部分、表、段落などが抽出され、文書の構造化がなされる。そして、ステップS40で、構造化された文書から文が所定に切り出される。
【0021】
切り出された文を、例えば合成音声による文読み上げ装置に入力することで、音声情報として出力することができる。また、切り出された文の構造に対応したアクションを起こすことも可能である。勿論、切り出された文を単に表示装置に表示することもできる。なお、文切り出しの際に、予め作成しておいたテンプレートを用いることで、効率よく切り出しを行うことができる。
【0022】
図2は、この発明の実施の一形態による文書処理装置300の機能を実現するための一例の機能ブロック図を示す。制御部1は、この文書処理装置の全体を制御する部分であり、装置的にはCPU(Central Processing Unit)であり、ソフトウェア的にはソフトウェア全体の管理を行う部分である。
【0023】
制御部1に接続された入力装置2から入力された入力テキストデータは、文書データ4に格納される。文書データ4は、例えばハードディスクドライブ(HDD)などの記憶媒体の所定領域である。制御部1に接続された表示装置3は、入力装置2により入力されたテキストデータや、この文書処理装置300で最終的に切り出された文などが表示される。
【0024】
なお、入力装置2は、キーボードであってもよいし、音声によって入力されたテキスト情報をテキストデータに変換して出力する音声入力装置であってもよい。これに限らず、インターネットなどの外部のネットワークとの通信インターフェイスを入力装置として用い、外部のネットワークを介してテキストデータを得るようにしてもよい。さらに、対応する他の機器と接続するための所定のコネクタを入力装置として設け、外部の機器からテキストデータを得るようにしてもよい。勿論、フレキシブルディスク(FD)や光磁気ディスク(MO:Magneto Optical Disk)、CD−ROM(Compact Disc-Read Only Memory)などの換装可能な記憶媒体からテキストデータを得るようにしてもよい。
【0025】
テキスト判定部5は、上述した図1のフローチャートのステップS10に対応する処理を行う部分である。テキスト判定部5は、処理系文字コード指定部6、文字コード変換部7および文字種判断部8からなり、入力テキストデータに対する、テキストのデータ形式の判定や変換などが行われる。文字種判断部8では、入力テキストデータのエンコード方法が判断される。処理系文字コード指定部6では、この文書処理装置300内で扱う文字コード(EUC、SJISなど)が指定される。
【0026】
テキスト形式判定部5で上述のように処理されたテキストデータは、文字変換バッファ9としてRAM111などに溜め込まれる。文字変換バッファ9として溜め込まれたテキストデータは、制御部1によりブロック分割部10に渡される。
【0027】
ブロック分割部10は、文字変換バッファ9から渡されたテキストデータに対し、上述の図1のフローチャートのステップS20に対応する処理を行う。ブロック分割部10は、仕切線判定部11、仕切線文字登録部12、罫線文字判定部13、連続文字罫線文字登録部14、連続文字回数指定部15、罫線文字登録部17、文字位置記憶部16、利用タグ判定部18および利用タグ登録部19からなる。
【0028】
仕切線判定部11では、仕切線文字登録部12により登録された内容に基づき、テキストデータに含まれる仕切線が抽出され、所定のタグが付与される。罫線文字判定部13では、連続文字罫線文字登録部14および罫線文字登録部17による登録内容、ならびに、連続文字回数指定部15の指定内容に基づき、テキストデータに含まれる罫線が抽出され、所定のタグが付与される。文字位置記憶部16では、元のテキストデータにおける各行の位置情報を示すタグが行毎に付与される。利用タグ判定部18では、利用タグ登録部19により登録された内容に基づき、テキストデータに含まれる、利用しないタグが抽出され、削除される。
【0029】
このような処理を経てブロック分割されブロック構造データとされたテキストデータは、例えばHDDなどの記憶媒体の所定領域であるブロック構造データ20に格納される。
【0030】
文書構造化部21は、上述の図1のフローチャートのステップS30に対応する処理を行う。文書構造化部12は、下線判定部22、下線文字登録部23、引用判定部24、引用文字登録部25、見出し判定部26、見出し文字登録部27、表判定部28、正規表現判定部29、正規表現登録部30、空白行判定部31、括弧判定部32、段落判定部33および英文判定部34からなる。
【0031】
下線判定部22では、下線文字登録部23により登録された内容に基づき、テキストデータに含まれる下線が抽出され、所定のタグが付与される。引用判定部24では、引用文字登録部により登録された内容に基づき、テキストデータに含まれる引用部分が抽出され、所定のタグが付与される。見出し判定部26では、見出し文字登録部27により登録された内容に基づき、テキストデータに含まれる見出し部分が抽出され、所定のタグが付与される。表判定部28は、テキストデータに含まれる表部分が抽出されると共に表構造が解析され、所定のタグが付与される。正規表現判定部29では、正規表現登録部30により登録された内容に基づき、テキストデータに含まれる正規表現を用いて抽出可能な部分が検出され、所定のタグが付与される。空白判定部では、テキストデータに含まれる空白部が抽出され、所定のタグが付与される。括弧判定部32では、テキストデータに含まれる括弧が判定され、所定のタグが付与されると共に、後述する段落判定部33で判定された段落の、括弧位置に基づく補正が行われる。段落判定部33は、文章情報中の段落分け可能な箇所が検出され、所定のタグが付与される。英文判定部34では、文書中に含まれる英文で構成された文が抽出され、所定のタグが付与されると共に、英文のハイフネーション処理が行われる。
【0032】
このような処理を経て構造毎に所定のタグが付与され、構造化され文構造化データとされたテキストデータは、例えばHDDなどの記憶媒体の所定領域である文構造データ35に格納される。
【0033】
文切り出し部36は、上述の図1のフローチャートのステップS40に対応する処理を行う。文切り出し部36は、木構造部37、木構造データ38、タグ判別部39、タグアクションデータ40、助数詞テーブル41および文切り出しモード42からなる。
【0034】
木構造化部37では、タグが所定に付与され文構造データ35に格納されたテキストデータが、木構造データ38に変換される。タグ判別部39では、文構造データ35に格納されたテキストデータに付与されたタグに対して、タグアクションデータ40に登録されている、タグ毎に規定されているアクションが起こされる。助数詞テーブルは、例えば表中の文に対して、その表において指定された助数詞を付して文を切り出す際に参照される。文切り出しモード42により、文構造データ35に格納されたテキストデータから文を切り出す際に、文に付与されたタグに基づき切り出される文が指定される。
【0035】
また、この実施の一形態では、構造化されたテキストデータから文を切り出す際に、文切り出しテンプレート44に保存されているテンプレートを用いることができる。テンプレートは、テンプレート登録部43で所定に登録され、文切り出しテンプレート44に保存される。文切り出しテンプレート44は、例えばHDDなどの記憶媒体の所定領域である。テンプレート検索モード46で指定された内容に基づき、テンプレート検索部45で、保存されている文切り出しテンプレート44から適当なテンプレートが検索される。
【0036】
図3は、上述した文書処理装置300を適用可能なコンピュータ装置100の一例の構成を示す。図3に示されるように、上述の文書処理装置300は、一般的なコンピュータ装置100上で実現可能である。バス101に対してCPU110、RAM(Random Access Memory)111、ROM(Read Only Memory)112およびグラフィック部116が接続される。CPU110は、RAM111をワークメモリとして用い、所定のプログラムに基づき、このコンピュータ装置100の全体を制御する。RAM111は、上述した文字変換バッファ9としても用いられる。ROM112は、このコンピュータ装置100の初期起動用のプログラムおよびデータなどが予め格納される。
【0037】
また、CPU110において、プログラムの指示に従い所定の表示制御信号が生成され、バス101を介してグラフィック部116に供給される。グラフィック部116では、供給された表示制御信号に応じてディスプレイ130で表示可能な表示信号を生成する。表示信号は、グラフィック部116から例えばCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)からなるディスプレイ130に供給され、所定の表示がなされる。
【0038】
バス101には、さらに、I/O部113、ハードディスクドライブ(HDD)114および通信I/F115が接続される。
【0039】
I/O部113は、このコンピュータ装置100と外部とのデータのやりとりを制御する。例えばキーボード120やマウス121がI/O部113に接続される。キーボード120から入力された文字情報や、マウス121の移動情報およびボタン情報がI/O部113に供給され、バス101を介して例えばCPU110に供給される。
【0040】
また、I/O部113にディスクドライブ122を接続することができる。ディスクドライブ122は、CD−ROM(Compact Disc-ROM)を再生可能なCD−ROMドライブであって、CD−ROMに記録されたテキストデータを、このコンピュータ装置100に入力することができる。勿論ディスクドライブ122は、CD−ROMドライブに限らず、例えばフレキシブルディスクドライブやMO(Magneto-Optical Disk)ドライブであってもよい。
【0041】
外部I/O123は、例えば所定の形式のコネクタを有し、対応する形式のコネクタを有する他の機器とケーブル接続することで、データ通信を行うことができるようにされている。外部の機器で作成されたテキストデータを、この外部I/O123を介してコンピュータ装置100に入力することができる。勿論、例えばこのコンピュータ装置100でテキストデータから最終的に切り出された文を、この外部I/O123を介して外部に出力するようにもできる。外部I/O123は、ケーブル接続に限らず、例えば赤外線信号によって通信を行うようなインターフェイスとしてもよい。
【0042】
HDD114は、例えば、上述した文書データ4、ブロック構造データ20、文構造データ35および文切り出しテンプレート44の領域が設けられ、それぞれのデータが格納される。また、上述の図2における各登録部において登録されるデータや各種テーブルは、このHDD114に格納される。上述した文字変換バッファ9として、HDD114を用いることも可能である。さらに、HDD114には、このコンピュータ装置100の基本的な制御システムであるOS(Operating System)プログラムや、このコンピュータ装置100において上述した文書処理装置300を実現するためのプログラムおよびデータなどが格納される。
【0043】
通信I/F115は、このコンピュータ装置100と、例えばインターネットといった外部のネットワークと接続され、CPU110の指示に基づき、外部のネットワークとの通信を制御する。ネットワークに接続された他の機器で作成されたテキストデータを、この通信I/F115を介してコンピュータ装置100に入力することができる。勿論、このコンピュータ装置100でテキストデータから最終的に切り出された文を、この通信I/F115を介して外部に送信することもできる。これに限らず、コンピュータ装置100において、この実施の一形態による文書処理装置300を構成するためのプログラムデータを、ネットワークから通信I/F115を介して入手するようにしてもよい。
【0044】
なお、図3では省略されているが、コンピュータ装置100において、音声合成手段と音声出力手段とをさらに設けることができる。音声合成手段では、供給されたテキストデータに基づき、音声が合成される。合成された音声は、音声出力手段により音声として出力される。これにより、このコンピュータ装置100上で構成される文書処理装置300で処理され切り出された文を、音声として読み上げ処理を行うことができる。
【0045】
このように構成されれたコンピュータ装置100において、先ず、上述の文書処理装置00を構成するためのプログラムをインストールする必要がある。例えば、プログラムが記録されたCD−ROMを対応するディスクドライブ122に装填し、再生する。CD−ROMから読み出されたプログラムデータが例えばHDD114上に所定に展開および格納され、インストールが完了される。インストール完了後に、コンピュータ装置100に対する所定の装置により当該プログラムが起動され、コンピュータ装置100上にこの実施の一形態による文書処理装置300が構成される。
【0046】
なお、プログラムは、CD−ROMやMOのような記録媒体によって供給されるのに限らず、例えばネットワークに接続された他のコンピュータ装置などから入手するようにしてもよい。通信I/F115の制御によりネットワークから当該プログラムデータがダウンロードされる。ダウンロードされたプログラムデータが例えば所定にHDD114上に展開および格納され、インストールが完了される。勿論、これに限らず、外部I/O123を介して外部の他の機器からプログラムデータを入手するようにしてもよい。
【0047】
以下、この発明の実施の一形態による文書処理装置300の動作について、より詳細に説明する。図4は、この実施の一形態による文書処理を概略的に示すフローチャートである。図4は、上述した図1のフローチャートをより詳細に示し、対応するステップには同一の符号を付している。先ず、ステップS10で、入力された文字情報のテキスト形式が判別され、次のステップS11で、文字情報で用いられている文字コードがこの文書処理装置300において内部的に処理可能な文字コードに変換される。
【0048】
内部的に処理可能となった文字情報は、ステップS20で、所定の単位のブロック毎に分割され、ステップS21で、ブロック構造データとされたテキストデータが作成される。作成されたテキストデータは、ブロック構造データ20に格納される。
【0049】
ステップS30’では、ブロック構造とされたデータに対してブロック内タグ処理し、テキストデータの構造化処理を行う。なお、ステップS30’は、上述した図1では、文書構造化として記されている。ステップS30’でブロック内のタグ処理がなされ、ステップS31で括弧のチェック、ステップS32で英文チェックおよびステップS33で文の分割処理がそれぞれなされ、構造化されたテキストデータが作成される(ステップS34)。作成された構造化テキストデータは、文書構造化データ35に格納される。
【0050】
最後に、文書構造化データ35に格納されたテキストデータに対して、ステップS40で文の切り出し処理が行われる。
【0051】
図5は、上述したステップS10の、テキスト形式判別の処理をさらに詳細に示す一例のフローチャートであって、テキスト形式判定部5において実行される。なお、図5中で、「A」、「B」で示されるフローは、図4の対応する記号へ処理が移行することを示す。
【0052】
先ず、このフローチャートの説明に先んじて、タグについて概略的に説明する。タグは、一般的には、範囲の開始および終了をそれぞれ示す一対の記号からなり、テキスト中に埋め込んで任意の範囲を指定することができる。例えば、範囲の開始を示すタグは、予め定義された文字列を記号「<」と「>」とで囲んで表現され(開始タグと称する)、終了を示すタグは、開始を示すタグ中に記される文字列と同一の文字列が記号「</」と「>」とで囲んで表現される(終了タグと称する)。一対のタグによって指定された範囲に対して、記号「<」と「>」(あるいは記号「</」と「>」)とで囲まれた文字列によって、任意の意味を持たせることが可能である。また、タグ中に、所定のパラメータの記述を含ませることができる。なお、タグに定義された意味によっては、開始のタグだけで用いられることもある。
【0053】
図5において、最初のステップS100で、入力されたテキストデータの文字種が判別される。先ず、文字種判断部8で、入力テキストデータのエンコード方法が判断される。例えば、入力された文字情報が標準的なテキストデータに対して、Base64やUUENCODEといった、何らかのエンコード処理を施したものであるか否かが判断される。何らかのエンコード処理が施されていれば、当該テキストデータに対して対応するデコード処理が施される。
【0054】
また、テキスト形式判定部5では、入力されたテキストデータのコード体系が処理系文字コード指定部6により指定された文字コード体系と一致するかどうかの判別がなされる。若し、文字種判断部8で変換されたテキストデータの文字コードが指定された文字コードと異なる場合には、テキストデータが文字コード変換部7に渡され、当該テキストデータが指定されたコード体系のデータに変換される。
【0055】
なお、処理系文字コード指定部6により、処理系の文字コードの指定がなされていない場合は、与えられたテキストデータのコード体系に従って処理が行われる。
【0056】
以下、ステップS101、S102およびS103で、タグによるテキストの分類が行われる。例えば、テキスト形式判定部5において、ステップS100による、テキストデータの変換結果を受けたテキスト形式判定部5により、変換結果の最初に、上述したような、「< >」で囲まれたタグがあるかどうかが調べられ、タグがある場合には、そのタグのタイプが調べられる。その結果、そのタグがHTML形式を表すタグである場合は、テキストデータの形式がHTML形式であると判断され、XML(Extensible Markup Language)を表すタグの場合は、XML形式であると判断される。
【0057】
また、この文書処理装置300に固有の、ブロック構造化されたデータであることを表すタグの場合は、テキストデータの形式がブロック構造データであると判断され、文書構造化されたデータであること表すタグである場合は、文書構造データであると判断される。これらのタグについては、後述する。
【0058】
さらに、テキスト形式判定部5において、テキストデータが上述した各タグによって表現されていないと判断された場合、各行に記号「:」が含まれるかどうかが判断される。記号「:」が含まれる場合、各行の最初の記号“:”の手前までをヘッダと解釈し、ヘッダに「DATE」と「FROM」と「TO」とがあった場合は、当該テキストデータが電子メール(E_Mail)によるものであると解釈される。
【0059】
このような考えに基づき、ステップS101で、当該テキストデータがブロック構造データであるかどうかが判断される。若し、当該テキストデータが、この文書処理装置300において定義されるブロック構造化処理が既に施されたブロック構造データであると判断された場合は、図5中の「A」で示されるフローに従い、上述した図4のフローチャートのうちブロック分割を行うステップS20の処理を行わずに、処理はステップS30’に移行する。
【0060】
一方、ステップS101で、当該テキストデータがブロック構造データではないと判断されれば、処理はステップS102に移行する。ステップS102では、当該テキストデータが文構造データであるかどうかが判断される。若し、当該テキストデータが、この文書処理装置300において定義される文構造化処理が既に施された文構造データであると判断された場合は、図5中の「B」で示されるフローに従い、上述した図4のフローチャートのうちステップS30’のブロック内タグ処理〜ステップS34の文構造データの作成処理までを行わずに、処理はステップS40に移行する。
【0061】
一方、ステップS102で、当該テキストデータが文構造データではないと判断されれば、処理はステップS103に移行する。ステップS103では、当該テキストデータが、テキスト中に例えばHTML形式あるいはXML形式を表すタグが埋め込まれたタグ付きテキストであるかどうかが判断される。若し、当該テキストデータがタグ付きテキストであると判断された場合は、処理はステップS105に移行し、当該テキストデータのテキスト形式が「タグ付きテキスト」に設定される。
【0062】
上述のステップS103で、当該テキストデータがタグ付きテキストでないと判断されれば、処理はステップS104に移行する。ステップS104では、当該テキストデータが電子メールとして送信されたものであるかどうかが判断される。若し、当該テキストデータが電子メールによって送信されたものであると判断されれば、処理はステップS107に移行し、当該テキストデータのテキスト形式が「電子メール形式」に設定される。なお、電子メール形式のテキストデータは、実体的にはプレーンテキストである。
【0063】
一方、ステップS104で、当該テキストデータが電子メールによって送信されたものでないと判断されれば、処理はステップS106に移行され、当該テキストデータのテキスト形式が「プレーンテキスト形式」に設定される。
【0064】
こうして、図5のフローチャートに従いテキスト形式が判別された当該テキストデータは、必要に応じて、さらに文字コードの変換などの処理がなされ、文字変換バッファ9に溜め込まれる。
【0065】
次に、上述の図4のフローチャートにおけるステップS20の、ブロック分割処理について説明する。図6は、上述したステップS20の、ブロック分割の処理をさらに詳細に示す一例のフローチャートであって、ブロック分割部10において実行される。ブロック分割部10では、文字変換バッファ9から入力されたテキストデータが電子メール形式やプレーンテキスト形式のような、タグ無しのテキスト形式の場合に、文字種から判断できる簡単なレベルでのブロック分割処理が行われる。
【0066】
ブロック分割部10において、上述の図5のフローチャートによる処理がなされ、文字変換バッファ9に溜め込まれたテキストデータに対して、最初のステップS200で、当該テキストデータのテキスト形式がプレーンテキスト形式であるかどうかが判別される。
【0067】
若し、プレーンテキスト形式であると判別されれば、処理はステップS201に移行する。ステップS201では、罫線文字判定部13において、当該テキストデータに含まれる罫線文字が判別される。そして、ステップS202で判別された罫線文字が罫線を構成しているかどうかが判断され、罫線を構成していると判断されれば、ステップS203で、当該部分に罫線を示すように定義された罫線タグが付与される。
【0068】
図7は、罫線文字によるタグの付与の一例の様子を概略的に示す。図7Aに一例が示されるように文書中に罫線が含まれている場合、先ず、この罫線が罫線文字で構成されているかどうかが調べられる。罫線文字は、例えば日本語表記のような2バイト文字において、罫線の一部を構成可能なようにされた一連の文字である。
【0069】
罫線文字が罫線文字登録部17により登録される。図8は、罫線文字登録部17に罫線文字が登録された一例の様子を示す。罫線文字登録部17において、罫線文字が複数のパターンに分類されて登録される。この例では、Type=7、8および9の3タイプが登録されている。また、罫線文字登録部17により、登録されている罫線文字に対する整合性情報も登録される。整合性情報は、例えば、タイプ毎の各々の罫線文字について、行方向や列方向に連続的に現れた場合に、組み合わせ可能な罫線文字の情報である。
【0070】
なお、罫線文字および整合性情報は、デフォルトのデータとして幾つかを予め登録しておいてもよい。この場合でも、登録されている罫線文字および整合性情報は、罫線文字登録部17からユーザにより追加および変更が可能なようにされている。
【0071】
上述のように登録された罫線文字が参照され、テキストデータに含まれる罫線文字がこれらのタイプのうちどのタイプに相当するかが判別される。さらに、行単位で調べていき、同タイプの罫線文字が連続的に出現するかどうかが調べられる。罫線文字が所定数以上、連続して現れているとされれば、罫線文字同士の整合性がチェックされる。整合性に矛盾がなければ、罫線文字が連続的に出現している範囲が一つのブロックであるとして判別される。このとき、例えば罫線文字の整合性の情報に基づき、最後に来るべき罫線文字を判別することもできる。
【0072】
なお、図7Aにおいて、「|重さ|長さ|値段|」の行や「|10|20|30|」の行は、罫線文字と非罫線文字とが混在しているが、このような場合、例えば上下の行の罫線文字との関係(位置関係や整合性)に基づき、一連の罫線文字のブロックに含まれるかどうかを判別することができる。また、罫線文字の連続回数は、連続文字回数指定部15で指定することができる。例えば、連続文字回数指定部15には、罫線文字毎の連続回数が予め登録されると共に、罫線文字毎の連続回数をユーザが指定することもできるようにされる。
【0073】
上述のようにして罫線文字によるブロックが特定されたら、罫線によるブロック構造を示すタグ(以下、罫線タグと称する)が当該ブロックの上下、すなわち開始位置および終了位置に付与される。図7Bは、図7Aの文書に対して罫線タグが付与された様子を示す。タグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」は、この実施の一形態によるブロック構造を示すタグである。それぞれブロック構造の開始および終了を示す。タグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」は、パラメータ「type」によりブロックの種類が示され、「type=0」でプレーンテキストによるブロックであることが表される。
【0074】
この図7Bの例では、開始を示すタグ「<TC_TSF_BLOCK>」に対してタイプを表すパラメータ「type=7」が付加され、この一対のタグで囲まれた範囲がタイプ=7の罫線文字によるブロック構造であることが示される。
【0075】
罫線によるブロックの判別の際には、上述のように罫線文字による判別だけでなく、所定の文字により構成された罫線も判別される。図9は、文字罫線による罫線についてタグを付与する一例の様子を示す。プレーンテキストで形成される文書においては、通常使用される文字を利用して罫線を形成することが一般的に行われる。罫線として利用される文字としては、例えば、「+」、「−」、「*」、「=」などがある。これらの文字が複数回繰り返されたり、組み合わされたりして、罫線が表現可能である。また、罫線における縦線に限って「|」が用いられる場合がある。図9Aの例では、「+−」、「−」、「−+」および「|」が用いられて罫線が構成され、表が形成されている。
【0076】
なお、以下では、文字によって構成される罫線を文字罫線と称し、文字罫線を構成可能な文字を文字罫線文字と称する。
【0077】
文字罫線の判別は、連続文字罫線文字登録部14により登録された文字罫線文字が参照されて行われる。図10は、連続文字罫線文字登録部14の一例の登録内容を示す。このように、文字罫線文字と、その文字罫線文字が最低何回、連続して現れたら罫線として判別するかを示す最低回数とが対応付けられて登録されている。例えば文字「−」は、2回以上連続して文書中に現れた場合、文字罫線が構成されていると判別される。
【0078】
なお、この連続文字罫線文字登録部14により、上述した文字罫線を登録してもよい。また、文字罫線文字および最低連続回数は、予め登録しておいてもよい。この場合でも、登録内容は、連続文字罫線文字登録部14からユーザにより追加、変更、削除を行うことができる。
【0079】
上述のようにして文字罫線文字によるブロックが特定されたら、罫線タグが当該ブロックの上下、すなわち開始位置および終了位置に付与される。図9Bは、図8Aの文書に対して罫線タグが付与された様子を示す。ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」において、パラメータ「type=10」が付加され、この一対のタグで囲まれた範囲がタイプ=10の文字罫線文字によるブロック構造であることが示される。
【0080】
図6の説明に戻り、ステップS201〜S203の処理が終了されると、処理はステップS204に移行する。ステップS204では、仕切り文字判定部11において、当該テキストデータに含まれる仕切り線文字が判別される。そして、ステップS205で判別された仕切り線文字が仕切り線を構成しているかどうかが判断され、仕切り線を構成していると判断されれば、ステップS206で、当該部分に仕切り線を示すように定義された仕切り線タグが付与される。
【0081】
図11は、仕切り線文字による仕切り線についてタグを付与する一例の様子を示す。プレーンテキストで形成される文書においては、通常使用される文字を利用して仕切り線を形成することが一般的に行われる。仕切り線として利用される文字としては、例えば、「−」、「*」などがある。これらの文字が複数回繰り返されたり、組み合わされたりして、仕切り線が表現可能である。
【0082】
仕切り線の判別は、仕切り線文字登録部12により登録された仕切り線文字が参照されて行われる。図12は、仕切り線文字登録部12の一例の登録内容を示す。仕切り線は、仕切り線文字が1行において連続的に繰り返されて現れ、しかもそれが1行で終了している場合に、それが仕切り線であると判別される。なお、仕切り線文字は、予め登録しておいてもよい。この場合でも、登録内容は、仕切り線文字登録部13からユーザにより追加、変更、削除を行うことができる。
【0083】
上述のようにして仕切り線によるブロックが特定されたら、仕切り線を示す仕切り線タグが当該仕切り線のの上下の行に付与される。図11Bは、図11Aの文書に対して仕切り線タグが付与された様子を示す。ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」において、パラメータ「type=1」が付加され、この一対のタグで囲まれた範囲がタイプ=1の仕切り線文字によるブロック構造であることが示される。
【0084】
図6の説明に戻り、ステップS204〜S206の処理が終了されると、処理はステップS207に移行する。ステップS207では、図示されない空白行判定部において、当該テキストデータに含まれる空白行が判別される。そして、ステップS208で、空白行と空白行とで挟まれた部分をブロック構造と定義するブロックタグが当該部分に付与される。
【0085】
図13は、空白行によりブロックタグを付与する一例の様子を示す。図13Aのようなテキストがあった場合、行単位でテキストを調べていって、行全体が空白を示す文字で埋まっている空白行が判別される。図13Aの例では、先頭行、中間行および末尾行が空白行であると判別される。そして、空白行に挟まれた部分がブロックであるとされ、図13Bに示されるように、当該ブロックの開始と終了を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」が付与される。このとき、ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」において、パラメータ「type=0」が付加され、この一対のタグで囲まれた範囲がタイプ=0の空白行で挟まれたブロック構造であることが示される。
【0086】
ステップS207およびS208の処理が終了されると、処理はステップS209に移行する。ステップS209では、正規表現判定部29において、当該テキストデータに含まれる正規表現により示される部分が判別される。なお、上述の図2の例では、正規表現判定部29および正規表現登録部30は、ブロック分割部10と文書構造化部21とで共有的に用いられる。ステップS210で、判別された部分が2次元の正規表現で表されたブロックに適合しているかどうかが判断され、適合していると判断されれば、ステップS211で当該部分に2次元の正規表現により表されるブロックであることを示すように定義された正規表現ブロックタグが付与される。
【0087】
図14は、2次元の正規表現によるタグの付与の一例の様子を概略的に示す。
図14Aに一例が示されるように、文書中に特定のパターンによって囲まれた部分がある場合、そのパターンが2次元の正規表現に適合しているかどうかが調べられる。これは、正規表現判定部29により、正規表現登録部30で登録された正規表現パターンが参照されて行われる。
【0088】
図15は、正規表現登録部30により登録された一例の正規表現を示す。この情報は、通常の1次元の正規表現により、ブロックの先頭パターンと終了パターンがそれぞれ示され、それぞれのパターンの間に存在し得る行数の最大値を表すデータと、2次元の正規表現によるブロックであると判断された場合にそのブロックにどのようなタグを付与するかを示すデータとから構成される。なお、正規表現は、予め登録しておいてもよい。この場合でも、登録内容は、正規表現登録部30からユーザにより追加、変更、削除を行うことができる。
【0089】
図15の例では、例えば「★(黒星印)」が2つ連なった「★★」が連続的に繰り返されて現れる行がテキストデータ中に存在し、その行から下へ5行以内に、対応する終了パターンである「★★」が連続的に繰り返されて現れる行が存在すれば、それぞれブロックの開始行および終了行とされ、ブロック構造であることを示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」がそれぞれ付与される。このとき、ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」において、パラメータ「type=101」が付加され、この一対のタグで囲まれた範囲がタイプ=101の2次元の正規表現によるブロック構造であることが示される。さらに、この例では、この2次元の正規表現によるブロック構造がヘッダを表すものであるとされ、ブロック構造を示すタグに対し、さらにパラメータ「tag=HEAD」が付加される。
【0090】
また、例えば記号「\」、「-」および「+」、ならびに、アルファベット「A〜Z」の任意の組み合わせが連続的に繰り返されて現れる行がテキストデータ中に存在し、対応する終了パターンで終了していれば、その行がブロック構造であると判断され、ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」がそれぞれ付与される。このとき、ブロック構造を示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」において、パラメータ「type=101」が付加され、この一対のタグで囲まれた範囲がタイプ=101の2次元の正規表現によるブロック構造であることが示される。さらに、この例では、この2次元の正規表現によるブロック構造が仕切り線を表すものであるとされ、ブロック構造を示すタグに対し、さらにパラメータ「tag=HR」が付加される。このように、2次元の正規表現によるブロック構造が付与された一例の様子を図14Bに示す。
【0091】
正規表現登録部30によって登録されるデータおよび正規表現判定部29は、汎用的に用いることができるので、上述したように、ブロック分割部10と後述する文書構造化部21とで、共有的に、各種タグの付与に利用可能である。そのため、ブロック構造データ20に対応するタグと、文構造データ35に対応するタグとが判断され、記述されている正規表現の適応が行われる。つまり、記述されているデータは、ブロック分割部10と文構造化部21との何方のプロセスにおいて利用されるものかということを付与すべきタグにより、自動判別が行われる。
【0092】
ステップS209〜S211の処理が終了されると、処理はステップS212に移行する。ステップS212では、処理すべき最後のテキストデータの処理が終了したかどうかが判断される。若し、未処理のテキストデータが残っていると判断されれば、処理はステップS200に戻される。処理すべきテキストデータの処理が全て終了したと判断されれば、一連のブロック分割処理が終了される。
【0093】
なお、上述したステップS200で、当該テキストデータのテキスト形式がプレーンテキスト形式でないと判断されれば、処理はステップS210に移行する。この場合、当該テキストデータのテキスト形式は、タグ付きテキスト形式である。ステップS210では、利用タグ判定部18において、そのタグ付きテキスト形式のテキストデータ(以下、タグ付きテキスト)に、この文書処理装置300で用いられない不要タグが埋め込まれているかどうかが判定される。
【0094】
当該テキストデータに埋め込まれているタグが検出され、ステップS211で、検出されたタグがこの文書処理装置300で文切り出しに利用されるかどうかが判断される。若し、検出されたタグが利用されないものであると判断された場合には、処理はステップS212に移行し、当該タグが削除される。当該タグと対になるタグが存在するときには、それも削除される。不要タグが削除されるか、または、ステップS211で検出されたタグが利用されるものであると判断された場合は、処理はステップS212に移行する。
【0095】
図16は、タグ付きテキストから不要タグを削除する一例の様子を示す。図16Aに示されるようなタグ付きテキストにおいて、行毎にタグが検出される。そして、利用タグ判定部18において、検出されたタグが利用タグ登録部19で登録されたタグであるかどうかが判断される。図17は、利用タグ登録部19で利用タグが登録された一例の利用タグリストを示す。左欄に利用されるタグが一覧され、右欄に利用されない、すなわち削除されるタグが一覧されて示されている。この図17の例では、対応する終了タグおよび介した具中に含まれるパラメータが省略されている。なお、利用タグおよび削除タグは、予め登録しておいてもよい。この場合でも、登録内容は、利用タグ登録部19からユーザにより追加、変更、削除を行うことができる。
【0096】
図16Aに示されるタグ付きテキストに対して利用タグリストが参照され、削除されるべき不要タグが検出される。図17Aの例では、コメントを表すタグ「<!--」と他文書の参照を表すタグ「<A>」とが削除タグとして登録されているので、これらのタグおよびそれぞれの終了タグが削除され、図16Bに一例が示されるようなタグ付きテキストとされる。
【0097】
なお、図6のフローチャートでは省略されているが、文字位置記憶部16により、オリジナルのテキストデータにおける各行毎の文字位置を示す文字位置タグが付与される。図18は、この各行毎の文字位置を示すタグが付与された一例の様子を示す。各行の先頭に付与されたタグにより、その行の文字位置が示される。「nn」を数値としたとき、「pos=nn」は、その行が含まれるブロック内においてその行の先頭がブロックの先頭から何バイト目のデータであるかを示す。「top=nn」は、その行が、その行の含まれるブロックの何行目であるかを示す。「left=nn」は、左から何文字目からのデータであるかを示す。「right=nn」は、その行の末尾が左から何バイト目のデータであるかを示す。また、図示されていないが、「rows=nn」は、そのブロックに何行のデータがあるかを示し、ブロック全体を示すタグ「<TC_TSF_BLOCK>」の中の「cols=nn」は、そのブロック内での1行あたりの最大文字数を示す。
【0098】
以上のようにして、ブロック分割部10によるテキストデータのブロック構造化が行われる。ブロック構造化されたテキストデータは、ブロック構造データ20に格納される。このとき、テキストデータに対して、ブロック分割されたデータであることを表すこの文書処理装置300に固有のタグ「<?TSF…?>」が付与される。ブロック構造化されたテキストデータを、例えばディスクドライブ122や外部I/O123などを介して外部の記憶装置に格納することもできる。
【0099】
ここで、文字変換バッファ9に溜め込まれた入力テキストデータが、テキスト形式判定部5により、プレーンテキスト形式以外のタグ付きのテキストと判断された場合、当該入力テキストデータに対して上述のタグタグ「<?TSF…?>」が付与され、ブロック構造化されたテキストデータと同様に、ブロック構造データ20に格納される。
【0100】
なお、このとき、この際、HTML形式などのタグ付き言語によるタグ「<!--…-->」といったコメント部分を取り除いた形で、ブロック構造データ20に登録することも可能である。
【0101】
なお、図6のフローチャートにおける処理の順序は、上述の例に限定されない。図6のフローチャートにおいて、処理は、罫線文字の判別を行うステップS201〜S203、仕切り文字の判別を行うステップS204〜S206、空白行によるブロック化を行うステップS207〜S208、ならびに、正規表現による判別を行うステップS209〜S211の4つに分けられるが、この単位で順番の入れ替えが可能である。
【0102】
次に、上述した図4のステップS30’の処理に従い、ブロック構造データ20に対してブロック内タグ処理がなされ、文書が構造化される。すなわち、ブロック構造データ20を木構造化されたタグ付きテキストに変換するために、制御部1により、ブロック構造データ20が文書構造化部21に渡される。
【0103】
図19は、文書構造化部21によりなされる、文書構造化の一例の処理を示すフローチャートである。この図19のフローチャートにおける処理は、ブロック構造データ20のブロック毎に行われる。また、各ブロック内においては、各行毎に処理が行われる。
【0104】
ステップS300で、下線判定部22において、ブロック構造データ20に下線文字が含まれているかどうかが判別される。そして、ステップS301で下線文字が対応していると判断された文字列に対して、下線が付されていることを示す下線タグが付与される。なお、下線文字は、当該文字の直上に表示されるべき文字に対して下線として表示される文字であり、下線文字を用いることで、下線文字の直上に表示されるべき文字を強調することができる。
【0105】
図20は、下線文字により強調された文字列に下線による強調を示す下線タグを付与する一例の様子を示す。図20Aに示されるように、ブロック構造データ20に対して下線文字が挿入され、「花見」の2文字からなる文字列が強調表示されている。下線文字は、例えば「 ̄」や「〜」などにより、下線文字により強調したい文字列を含む行の直下の1行が用いられて挿入される。
【0106】
下線文字の判別は、下線判定部22において、下線文字登録部23により登録された下線文字が参照されて行われる。図21は、下線文字登録部23による一例の登録内容を示す。下線文字が所定回数以上連続的に繰り返して現れた場合に、当該下線文字により下線文字の直上に表示されるべき文字列に対する下線が表現され、その文字列が強調表示されていると判別される。なお、下線文字は、予め登録しておいてもよい。この場合でも、登録内容は、下線文字登録部23からユーザにより追加、変更、削除を行うことができる。
【0107】
上述のようにして下線文字が特定されたら、当該下線文字により強調される文字列に対して、図20Bに一例が示されるように、下線による強調がなされていることを示す下線タグ「<EM underline=" ̄">」および「</EM>」が付与される。それと共に、当該下線文字が記述されている行が削除または所定のコメントが付けられ除外可能とされる。なお、下線タグにおいて、パラメータ中の「" "」により囲まれた部分に記される下線文字で下線による強調表示が行われることが示される。
【0108】
ステップS300〜S302の処理が終了されると、処理はステップS303に移行し、引用判定部24において、ブロック構造データ20内の行の行頭に引用文字が存在するかどうかが判別される。ステップS304で引用文字が行頭に付された行(文字列)が例えば電子メールにおける引用行であるかどうかが判断され、引用行であると判断されれば、ステップS305で、当該行の引用文字を取り除くと共に、当該行にどんな引用文字が付されていたかを示す引用タグが付与される。
【0109】
図22は、引用文字により他からの引用であることが示された文字列に対して引用タグを付与する一例の様子を示す。この例では、記号「>」が引用文字として用いられ、引用された行あるいは文字列の先頭にこの引用文字が挿入されている。
【0110】
引用文字の判別は、引用判定部24において、引用文字登録部25により登録された引用文字が参照されて行われる。図23は、引用文字登録部25による一例の登録内容を示す。登録された引用文字が2行以上に渡り行頭に出現した場合に、その引用文字が行頭に挿入された行が、例えば電子メールにおける引用部分であると判断される。引用部分であると判断された行は、図22Bに一例が示されるように、引用文字が取り除かれると共に、引用部分であることを示す引用タグ「<BLOCKQUOTE header=">">」(および「</BLOCKQUOTE>」が付与される。この引用タグは、引用部分であることが示されると共に、パラメータ「header」によって、どのような引用文字によって引用されていたかが示される。すなわち、引用文字として用いられた文字あるいは記号がパラメータ「header=">"」の「" "」に囲まれた部分に記述される。
【0111】
また、この実施の一形態では、図22Bに示されるように、引用部分が特定されたら、特定された引用部分は、引用タグで囲まれると共に、HTML形式において段落を表すタグ「<P>」および「</P>」と、整形済みテキストであることを表すタグ「<PRE>」および「</PRE>」とで囲まれる。さらに、ブロック構造データ20においてブロックを示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」が削除される。
【0112】
なお、オリジナルのブロック構造データに付されている引用文字に対して、引用文字であることを示すタグを付与することも可能である。図24は、引用文字に対してタグを付与する場合の例を示す。図24Aに示されるデータについて引用文字が検出され、図24Bに一例が示されるように、引用文字そのものに対して引用文字を表すタグ「<QUOTE>」および「</QUOTE>」が付与される。
【0113】
このとき、オリジナルデータにおける引用文字の種類や引用文字の重複付与などに基づき、引用者の違いや引用の深さなどの引用の属性を示すパラメータを、引用文字を表すタグに付加することができる。
【0114】
また、上述では、引用文字を行頭に挿入されている行が2行以上で、その部分を引用部分であると判断したが、これはこの例に限定されない。例えば、指定行数以上に渡り連続的に、引用文字が行頭に挿入されている場合に、その部分を引用部分であると判断するようにもできる。指定行数は、ユーザにより指定されるものであってもいいし、予め決められた行数であってもよい。
【0115】
さらに、入力されたブロック構造データ20内において、どこか一つのブロックで引用の利用が認められた場合には、そのブロックを含み、他の全てのブロックで、登録された引用文字で始まる行が連続していない場合でも、全て引用部分であるとして判断することも可能である。これによれば、ブロック構造データ20内の任意の位置で2行以上の引用部分が判別されれば、1行のみの引用も引用部分と判断することができる。さらに、引用文字から始まっている行の連続状態に制限をおかずに適合する場合は、すべて引用文字と判断することも可能である。
【0116】
ステップS303〜ステップS305の処理が終了されたら、処理はステップS306に移行する。ステップS306では、見出し判定部26により、ブロック構造データ20に見出しが含まれているかどうかが判別される。そして、ステップS307で見出し行が判断され、ステップS308で、見出し行であることを示すタグが付与される。
【0117】
図25は、見出し行を検出しタグを付与する一例の様子を示す。図25Aに示されるように、ブロック構造データ20中で、記号「◎(二重丸)」を見出し文字として、その行が見出し行であることが表現されている。見出し文字の判別は、見出し判定部26において、見出し文字登録部27により登録された見出し文字が参照されて行われる。図26は、見出し文字登録部27による一例の登録内容を示す。ブロック内の行の先頭に、登録された見出し文字と一致する文字が出現した場合に、当該行が見出し行であると判別される。なお、見出し文字は、予め登録しておいてもよい。この場合でも、登録内容は、見出し文字登録部27からユーザにより追加、変更、削除を行うことができる。
【0118】
上述のようにして見出し行が特定されたら、図25Bに一例が示されるように、見出し行を表すタグ「<HEAD>」および「</HEAD>」が見出し行に対して付与される。なお、見出しを判断する場合に、見出し文字に加えて、行末が「、」に代表される次の行への継続文字で終了していない場合を条件とすることができる。
【0119】
また、この実施の一形態では、図25Bに示されるように、見出し行が特定されたら、見出し行が含まれるブロックにおいて、特定された見出し行が見出しを表すタグで囲まれると共に、見出し以外の行がHTML形式において段落を表すタグ「<P>」および「</P>」と、整形済みテキストであることを表すタグ「<PRE>」および「</PRE>」とで囲まれる。さらに、当該ブロックにおいてブロックを示すタグ「<TC_TSF_BLOCK>」および「</TC_TSF_BLOCK>」が削除される。
【0120】
見出し判定部26では、ブロック内のある行が、上述した文字位置タグにより保持されている文字位置や1行の文字数に基づき、センタリングされた位置にある文字列であるかどうかを判断し、判断結果に基づき見出しを判別することができる。図27は、センタリングによる見出し判別の一例の様子を示す。図27Aに示されるように、「問題」と記された文字列がセンタリングされた位置にある文字列であると判断されれば、当該文字列が含まれる行が見出し行であると判断され、図27Bに示されるように、見出し行を表すタグが当該行に付与される。
【0121】
また、見出し判定部26では、ブロック内のある行が、上述した文字位置タグにより保持されている文字位置に基づき、同一ブロック内の他の行よりも開始位置が手前であるかどうかを判断し、判断結果に基づき見出しを判別することができる。図28は、文字位置による見出し判別の一例の様子を示す。図28Aに示されるように、「問題」と記された文字列の開始位置がブロック内の他の行の開始位置よりも手前であると判断されれば、当該文字列が含まれる行が見出し行であると判断され、図28Bに示されるように、見出し行を表すタグが当該行に付与される。
【0122】
さらに、見出し判定部26では、ブロック内のある行が隅付き括弧のような、特定の括弧で括られた文字列からなる行であるかどうかを判断し、判断結果に基づき見出しを判別することができる。例えば、特定の括弧の一対によって文字列が括られて1行が完結しているかどうかが判断される。図29は、括弧による見出し判別の一例の様子を示す。図29Aに示されるように、「問題」と記された文字列が隅付き括弧で括られていると判断されれば、当該文字列が含まれる行が見出し行であると判断され、図29Bに示されるように、見出し行を表すタグが当該行に付与される。
【0123】
なお、見出し行であることを示す括弧は、ユーザにより所定に登録が可能である。また、予め登録しておいてもよい。この場合には、ユーザにより登録された括弧の追加、変更、削除を行うことができる。
【0124】
さらにまた、見出し判定部26では、上述した見出しの判定基準により見出し行と判断される行が同一条件で連続される場合には、連続された各行を箇条書きと判断して、タグの付与を行うことができる。図30は、この箇条書き判別の一例の様子を示す。図30Aに示されるようなブロックに対して、「1.」、「2.」および「3.」を見出し文字として登録することで、これらの行が見出し行として判別される。見出し行と判断される行が同一条件で連続的に出現しているため、箇条書きであると判別され、図30Bに一例が示されるように、HTML形式において箇条書きを表すタグ「<LI>」および「</LI>」が各行に付与される。
【0125】
ステップS306〜S308の処理が終了されると、処理はステップS309に移行し、表判定部28において、ブロック構造データ20に表が含まれるかどうかが判別される。ブロック構造データ20がタグ付きテキストである場合には、例えばHTML形式であれば、HTML形式において表を表すタグ「<TABLE>」および「</TABLE>」などがデータ20に付与されていれば当該データ20に表が含まれていると判別され、そのタグがそのまま流用される。
【0126】
一方、ブロック構造データ20がプレーンテキスト形式である場合には、ステップS310で、上述した図6のステップS201〜S203において罫線文字判定部13により判別された罫線文字に従い、表を構成する各セルが判別され、セルの切り出しが行われる。図31は、ブロック構造データ20に含まれる、罫線文字で構成された一例の表を示す。ブロック構造データ20では、この図31のような表に対して、上述の図7に示したような、罫線文字を示すタグ「<TC_TSF_BLOCK type=10>」および「</TC_TSF_BLOCK>」が付与されている。このタグに基づき罫線文字を抽出し、用いられている罫線文字の種類や罫線文字の表示位置の関係を解析することで、表を構成するセルを切り出すことが可能である。
【0127】
例えば、罫線文字を示すタグで囲まれた全行をスキャンして、罫線文字だけで構成された行と、罫線文字(この場合は、縦の仕切り線)と通常の文字とが繰り返されて出現する行とを抽出すると共に、スキャンした部分が罫線文字で囲まれているかどうかを調べる。罫線文字で囲まれているとされれば、その部分は、表であると考えることができる。さらに、各行において縦の仕切り線が出現した位置を記憶しておくと共に、最大のセル数を求める。縦の仕切り線の位置と、行方向の最大セル数から、行方向におけるセルの結合を知ることができる。このようにして、表の解析を行うことができる。
【0128】
切り出されたセルには、ステップS311で、例えばHTML形式に定められる表を示すタグが所定に付与される。図32は、図31の表をセルに切り出し表を示すタグを付与した例を示す。切り出されたセルは、タグ「<TD>」および「</TD>」で囲まれて表現される。また、同一の行に並ぶセルは、タグ「<TR>」および「</TR>」によって囲まれて表現される。
【0129】
さらに、この図32の例では、各セル内の表示がブロックとして表される。また、複数の行や列に跨るセルに関しては、それぞれ何行、何列に跨るセルであるかを表すパラメータ「rowspan="nn"」、「colspan="nn"」がタグ「<TD>」に付与される。図32の例では、図31において複数行を用いて構成されるセル(「ソフト1」、「ソフト2」、「ソフト3」など)は、複数行(この場合3行)に跨るセルとされ、タグ「<TD rowspan="3">」が付与されている。
【0130】
ステップS310およびS311の処理が終了されると、処理はステップS312に移行し、正規表現判定部29で、ブロック構造データ20に含まれる正規表現の判定が行われる。この正規表現判定部29は、図6にて上述したブロック分割部10の処理におけるステップS209〜S211で用いられたものが共通して用いられる。ステップS313で、正規表現登録部29において登録されているデータのうち、文書構造化部21において処理されるべきタグに関する条件のみが検索される。検索の結果、条件に適合したものに関しては、ステップS314で、その範囲に対して指定されたタグが付与される。
【0131】
図33は、ブロック構造データ20に対する正規表現判定の一例の様子を示す。図33Aは、上述した図14Bと同一の内容であり、図6のステップS209〜S211の処理によりブロック構造化されているデータである。このブロック構造データ20に対して、ステップS312〜S314の処理を行うことで、正規表現によるブロックを表すタグ「<TC_TSF_BLOCK type=101 tag=HEAD>」および「</TC_TSF_BLOCK>」、ならびに、タグ「<TC_TSF_BLOCK type=101 tag=HR>」および「</TC_TSF_BLOCK>」が付与された部分に対して、図33Bに一例が示されるように、正規表現による仕切り線を表すタグ「<HR>」および「</HR>」、ならびに、「<HEAD>」および「</HEAD>」が付与される。
【0132】
ステップS312〜S314におけるタグ付与は、例えばこのように、ブロック分割部10における図14に示す正規表現によるブロック判定の結果を受けてなされる。
【0133】
ステップS312〜S314の処理が終了されると、処理はステップS315に移行し、空白判定部31において、それぞれのブロックにおける空白行によるブロックの分割の判定が行われる。図34は、空白行によるブロック分割の判定の一例の様子を示す。
【0134】
ここで、上述した図5のフローチャートに基づき、当該ブロック構造データ20がプレーンテキスト形式の文書として判別されている場合には、ブロック分割部10において、上述の図6のステップS207およびS208により既にブロック分割が行われている。
【0135】
しかしながら、テキスト形式がタグ付きテキストであると判別されている場合には、例えば図34Aに一例が示されているように、ブロック分割されたブロック内において、空白行によるブロック分割をさらに行うことができる可能性がある。そこで、ステップS316によりブロック内の空白行を判別し、空白行が存在すると判別されれば、ステップS317で、当該ブロックが判別された空白行を挟んで、それぞれのブロックに分割され、分割されたそれぞれのブロックにブロックであることを示すタグが付与される。この例では、タグ「<P>」および「</P>」、ならびに、タグ「<PRE>」および「</PRE>」が当該ブロックに対してそれぞれ付与される。
【0136】
ステップS315〜S317の処理が終了されると、処理はステップS318に移行し、括弧判定部32により、ブロック内およびブロック間での括弧の整合性が判定される。図35は、括弧判定部32による括弧の整合性の判定の一例の様子を示す。例えば図35Aのように、一対の括弧が2つのブロックに跨って存在する場合、ブロック内において括弧の整合性が取れていないことになる。そこで、先ずステップS318でブロック内にある括弧の対応が調べられ、ステップS319で、括弧の整合性が取れているかどうかが判別される。ブロック内の括弧の整合性が取れていないと判別された場合には、処理はステップS320に移行し、当該ブロックと隣接するブロックとの結合を行った場合の括弧の整合性が調べられる。この結果、整合性が取れると判断された場合には、当該ブロックおよび隣接するブロックとが結合され、図35Bに一例が示されるように、2つのブロックが1つのブロックに再編成される。
【0137】
ステップS318〜S320の処理が終了されたら、処理はステップS321に移行し、段落判定部33により、ブロック内の段落の判定がなされる。段落判定部33では、ブロック内の文字列の開始位置が着目される。そして、連続する行の開始位置が2種類ある場合に、その開始位置が後ろにずれている方が段落の頭の行であると判断され、ブロック分割が行われる。
【0138】
なお、その行が段落である判定するずれ量のしきい値を決めておき、予めHDD114などに記憶させておく。行の開始位置のずれ量が予め記憶されているしきい値を超えている場合に、その行を段落と判断しないようにする。
【0139】
図36は、段落の判別によるブロック分割の一例の様子を示す。ステップS321で、図36Aに一例が示されるブロックに対して、行の開始位置が後ろにずれている行が判別される。次のステップS322で、例えば当該行の開始位置のずれ量が上述のしきい値以下であると判断され当該行が段落の区切りを形成していると判断されれば、ステップS323で、その部分に段落を示すタグが付与される。図36Bに段落を示すタグが付与された様子を示す。この例では、段落を示すタグとして、タグ「<P>」および「</P>」、ならびに、タグ「<PRE>」および「</PRE>」が用いられ、段落により分割されたブロックのそれぞれに対して付与される。
【0140】
なお、段落の判別に、上述した文字位置記憶部16により記憶された各行の位置情報を用いることができる。
【0141】
ステップS321〜ステップS323の処理が終了されると、処理はステップS324に移行し、英文判定部34において英文の判別が行われる。ステップS325で、ブロック内のある行が全て英数記号文字列で記述されているかどうかが判別される。全て英数文字および記号で記述されていれば、当該行が英文行であると判断される。
【0142】
そして、英文行であると判断される行がブロック内において連続的に出現する場合、ステップS326で、以下に示すような行末処理が英文処理として行われる。すなわち、行末処理として、行末がハイフォン「-」で終了している場合は、このハイフン「-」とそれに続く改行記号が削除され、行末の文字と次の英文行の先頭文字とが接続され、一つの単語とされる。また、行末がカンマ「,」やピリオド「.」といった区切り記号で終了しておらず、且つ、アルファベットで終了していている場合は、行末と次の英文行の先頭の単語との間に、スペース「」が補われると共に、当該行の改行記号が削除される。行の結合は、次の行との結合をあらわすタグ「 <pos eol=1 or 0> 」により表現される。このタグにおいて、「 eol=1 」であれば、当該行が次の行と結合されることを示す。
【0143】
上述のようにしてステップS300〜S326までの処理が終了したら、処理はステップS327に移行し、例えば入力された文書データ4の全てについて、一連の処理が終了したかどうかが判断される。未だ処理されていないブロックが存在すると判断されれば、処理はステップS300に移行し、未処理のブロックに対して一連の処理が行われる。
【0144】
なお、図19のフローチャートにおける処理の順序は、上述の例に限定されない。図19のフローチャートにおいて、処理は、ステップS300〜S302、ステップS303〜S305、ステップS306〜S308、ステップS310およびS311、ステップS312〜S314、ステップS315〜S317、ステップS318〜S320、ステップS321〜S323、ならびに、ステップS324〜S326の各部分に分けられるが、この単位で順番の入れ替えが可能である。
【0145】
入力された文書データ4の全てについて一連の処理が終了されたと判断されれば、次に、英文判定部34により英文と判断されず、ブロック内にタグが付与されない形で改行記号が残っている行に関して、全て繋ぎ合わされる。このとき、行頭、行末にある空白は、文字列としては削除され、その行の開始文字位置、行の文字数により空白の存在が示される。また、行の結合は、次の行との結合をあらわすタグ「<pos …eol=1 or 0>」により表現される。このタグにおいて、「eol=1」であれば、当該行が次の行と結合されることを示す。
【0146】
さらに、文書構造化部21では、それぞれのブロックについて、「。(句点)」および「.(ピリオド)」をキーとした文の分割が行われる。図37は、この、句点およびピリオドをキーとして行う文の分割の一例の様子を示す。図37Aに示されるブロックに対して句点およびピリオドをキーとして文の分割処理がなされ、図37Bに示されるように、それぞれの文に所定のタグが付与される。
【0147】
図37Aに示されるブロックに対して、句点またはピリオド毎に文が分割される。分割された文のそれぞれは、タグ「<PRE>」および「</PRE>」が付与され、1文であることが示される。さらに、1文として示された文中で改行されている場合には、上述したタグ「<pos …eol=1>」により、改行の位置、すなわち行末の位置と、その行が次の行に結合されることとが示される。
【0148】
ここまでの処理で、文を最小とした単位でのタグ付与による文書の構造化が完了され文構造データが生成される。以上の処理により、文に分割された各ブロックに対して、この文書処理装置300のシステムにおいて固有の、文構造データを示す文書形式宣言タグ「<?SSF …?>」が付与される。
【0149】
文書形式宣言タグ「<?SSF …?>」を付与された文構造データは、文構造データ35に格納される。これに限らず、文構造データは、例えばディスクドライブ122や外部I/O123を介し、この文書処理装置300外の記憶媒体に格納してもよい。さらに、文構造データは、通信I/F115を介して外部のネットワークに送信し、ネットワークに接続された別の記憶装置に格納することもできる。
【0150】
以上で、入力されたテキストは、その種類が判別され、文字コードを統一にして文単位の処理が出来るようにタグ付けされた構造化テキストに変換された。つまり、以上では、従来技術における、文単位には処理出来ない、プレーンテキスト形式からHTML形式のようなタグ付きテキストに変換するフィルタに相当する部分について述べた。以下では、変換された構造化テキストを処理する方法、つまり従来のブラウザなどに相当するような処理を行う部分について述べる。
【0151】
この発明では、文単位に処理可能な文構造データを、例えばデータに付与されたタグに基づき木構造化し、木構造化された木構造データを用いて文の切り出しを行う。このときに、タグの種類に応じて文を切り出すかどうかを設定したテンプレートを用いることができる。また、切り出された文に対してアプリケーションがどのような処理を行うかを、タグの種類毎に設定したアクションタグを用いることができる。
【0152】
図38は、この実施の一形態による、木構造化された文構造データからの文切り出し処理の一例のフローチャートである。先ず、ステップS400で、文構造データから木構造データが作成される。図39は、木構造データの一例を概略的に示す。各データ200、201、202および203は、上下(前後)の階層を表す位置情報である「上の階層へのポインタ」および「下の階層へのポインタ」と、同一階層内での前後のタグ付き情報に対する位置情報である「同一階層内の上へのポインタ」および「同一階層内への下へのポインタ」と、実質的なデータの本体である「ノードの文字列」および「現ノードの文字列」に付与されたタグを示す「タグ情報」とからなる。
【0153】
図39において、図の左側がより上位(前方)の階層となっている。文の前後関係でいうとデータ200、201、202の順であり、さらに、この順で階層が構成されている。同一階層内でも上下(前後)関係が定義され、例えば同一階層内でより先に現れる文が上(前)とされる。データ201と203とは同一階層のデータであり、データ201がより先に現れる。このような上下(前後)に基づき、木構造が形成される。なお、木構造において、各データ200、201、202および203は、それぞれノードと称される。
【0154】
図38の説明に戻り、ステップS400では、文構造データに付与されたタグおよび文構造データの順番に基づき、文構造データが木構造化される。文切り出し部36では、この木構造データ38を用いて文の切り出しを行うことができると共に、木構造データ38により、文の切り出しを行う際の次の文への移動に、階層単位での移動と、同一階層内での文単位での移動を行うことができる。
【0155】
木構造データ38が作成されると、処理は次のステップS401に移行する。上述したように、この実施の一形態では、木構造化されたデータから文を切り出す際に、テンプレートを用いることができる。テンプレートは、テンプレート登録部36により例えばユーザの指示に基づき登録され、文切り出しテンプレート44に保存される。ステップS401では、既に登録されているテンプレートのうち、ステップS400で作成された木構造データ38に適用可能なテンプレートの検索が行われる。テンプレートの検索は、対象としているデータに付されたテキストIDに基づきなされる。なお、テンプレートおよびテンプレートの検索については、後述する。
【0156】
次のステップS402で、検索されたテンプレートを適用するかどうかが判断される。若し、例えばユーザの指示に基づきテンプレートを適用すると判断されれば、処理はステップS411に移行する。ステップS411以降の、テンプレート適応、作成の処理については、後述する。一方、テンプレートを適用しないと判断されれば、処理はステップS403に移行する。
【0157】
ステップS403では、切り出しモード42が参照される。切り出しモード42により、データ中に付与されたタグに対して、そのタグに対応する文を切り出すかどうかが指定される。図40は、文切り出しモード42の一例を示す。このように、各タグに対応する各項目について、文を切り出すかどうかをそれぞれ指定することができる。この例では、「ON」の項目に対応するタグが付与された文の切り出しを行い、「OFF」の項目に対応するタグが付与された文の切り出しを行わない。
【0158】
文切り出しモード42は、ユーザの指示により指定され、例えばHDD114に格納される。また、これに限らず、各項目の「ON/OFF」が設定された文切り出しモード42を、デフォルトの文切り出しモード42として予めHDD114などに格納しておいてもよい。
【0159】
ステップS404では、逐行的にタグの探索がなされ、切り出しモード42に基づき、探索されたタグが切り出し対象となるタグであるかどうかが判断される。若し、切り出し対象とされているタグでないと判断されれば、処理はステップS409に移行される。
【0160】
一方、ステップS404で探索されたタグが切り出し対象とされているタグであると判断されれば、処理はステップS405に移行される。ステップS405では、探索されたタグが表を示すタグであるかどうかが判断される。若し、探索されたタグが表を示すタグではないと判断されれば、処理はステップS407に移行する。一方、探索されたタグが表を示すタグであると判断されれば、処理はステップS406に移行し、表の処理が行われる。
【0161】
上述したように、表の部分には、文構造化部21により、各セル毎にタグが付与されている。そのため、文切り出し部36において、木構造データ38から行毎あるいは列毎に、セル単位での文の切り出しを行うことができる。上述した図31および図32を参照して、タグ「<TD>」および「</TD>」によりセル単位での文の切り出しを行うことができ、タグ「<TR>」および「</TR>」に基づき、行毎あるいは列毎の切り出しが可能である。このようにして、ステップS406における表の処理が行われ、表からの文の切り出しが行われる。
【0162】
また、この実施の一形態では、表から文の切り出しを行う際に、助数詞テーブル41を参照し、切り出された文に指定された助数詞を付与することが可能である。図41は、助数詞テーブル41の一例を示す。数助詞テーブル41には、このように、複数の数助詞がそれぞれ様々な形態で登録されている。助数詞テーブル41は、予め所定の数助詞が登録され、例えばHDD114に格納される。また、数助詞テーブル41に対して、ユーザが数助詞を登録することも可能である。
【0163】
表から文の切り出しを行うときには、上述したように、データが木構造化され、各セルに対してタグが付与されている。そのため、例えば表の一番始めの行あるいは一番始めの列において、助数詞テーブル41に登録されている助数詞が存在し、且つ、それ以降の行または列において、数字情報のみが記述されているようなセルが連続する場合は、助数詞テーブル41を参照して、数字部分に対応する行または列の助数詞を付与した形で、セルから文を切り出すようにできる。セル中の文(数字)に助数詞を付与するかどうかは、上述した文切り出しモード42により指定することが可能である。
【0164】
なお、上述では助数詞に関して説明したが、これはこの例に限られない。例えば、表の一番始めの行または列に記述されている文字列を付与した形で、同様に各セルの切り出しを行うことも可能である。この場合も同様に、文切り出しモード42において、一行目あるいは一列目のセルの内容を付加するかどうかを設定できる。
【0165】
図38には明確に示されていないが、表の処理以外にも、他のタグについても文切り出しモード42に基づく切り出し処理が行われる。
【0166】
例えば、テキストを逐次切り出す際に、文切り出しモード42において引用を切り出すという設定がある場合は、文構造データにおいて引用を示すタグが付与されている部分に関しても、文の切り出しが行われる。一方、文切り出しモード42において、引用を切り出さないと設定されている場合には、引用部分を飛ばして文の切り出しを行ことが可能である。ここで、文切り出しモード42において引用を切り出すと設定されている場合に、引用を示すタグに収められた引用記号により、どの種類の引用記号により引用されている部分であるかがタグ判別部39により判別される。
【0167】
処理はステップS407に移行し、データ中に、ユーザによって定義されたユーザタグが含まれているかどうかが判断される。すなわち、この実施の一形態では、ユーザがタグを定義することができると共に、ユーザにより、既存のタグおよびユーザ定義のタグに所定のアクションを定義することができる。ユーザにより定義されたタグおよびユーザにより所定のアクションを定義されたタグをユーザタグと称する。また、ユーザによりタグに定義されたアクションは、タグアクションデータ40として登録される。タグアクションデータ40は、例えばHDD114に格納される。
【0168】
図42は、タグアクションデータ40の一例を示す。このように、例えばHTML形式において既存のタグ(この例では「<H>」、「<TABLE>」)に対して、所定のアクションを定義することができる。また、ユーザにより独自のタグを定義し(この例では「<USER_01>」、「<USER_02>」、「<USER_03>」、・・・)、定義されたそれぞれのタグに所定のアクションを定義することができる。
【0169】
このようにアクションが定義されたタグを、一般の表示装置やテキスト読み上げ装置と組み合わせれば、指定されたタグに対して、そのタグに対応する文を表示装置においては色を変える、ハイライトにする、下線を引くなどのアトリビュートの変更によって表現できる。また、テキスト読み上げ装置においては、読み上げる声の種類を変える、速度を変えるなどのアトリビュートの変更が可能ある。
【0170】
つまり、例として、対象になるタグを見出しを表すタグに絞り込めば、文書中の見出しの部分に対してだけ色をつけたり、見出しだけの読み上げを行ったり、見出しの部分の声を変えたりすることができるシステムを構築することが可能となる。
【0171】
特に、見出しを表すタグ、引用を表すタグ、段落を表すタグは、文の構造上大きな意味を持っているため、表示装置やテキスト読み上げ装置において、これらのタグに対応した文について所定のアクションを設定することは、非常に有用である。
【0172】
図38の説明に戻り、ステップS407では、タグ判別部39によってタグアクションデータ40が参照され、タグアクションデータ40に登録されたタグが付与された文が判別される。若し、タグアクションデータ40に登録されたタグが付与された文が無いと判断されれば、処理はステップS409に移行する。
【0173】
一方、ステップS407でタグアクションデータ40に登録されたタグが付与された文があると判断されれば、処理はステップS408に移行し、タグアクションデータ40に登録されたタグが付与されていると判断されたした文に対して、タグアクションデータ40に規定されたアクションが起こされる。
【0174】
例えば、タグに表示のハイライトが定義されている場合、当該タグが付与された文と、当該タグおよび当該タグに対して定義されたアクションデータとが、タグ判別部39から文切り出し部36を介して制御部1に渡される。そして、これらのデータに基づき制御部1により所定の表示制御信号が生成され、この表示制御信号に基づく表示信号が表示装置3に供給される。これにより、当該タグにより指定された文が表示装置3においてハイライト表示される。
【0175】
次のステップS409では、次の文も切り出すかどうかが判断され、切り出さないとされた場合には、一連の処理が終了される。次の文も切り出す場合には、処理はステップS410に移行し、最後の文まで処理が終了したかどうかが判断される。最後の文まで終了したならば、一連の処理が終了される。一方、未だ処理すべき文が残っていれば、処理はステップS402に戻される。
【0176】
なお、ステップS410で処理すべき文が残っている場合に、図38において点線で示されるように、ステップS404に処理を戻すようにしても良い。
【0177】
以上のようにして、文切り出し部36において、文構造データに基づき木構造データ38が作成され、その木構造が探索されると共に、文の切り出しが行われる。
【0178】
次に、上述した文切り出しテンプレート44に保存されるテンプレートについて説明する。テンプレートは、木構造データ38と対をなすような形で構成され、各ノードに対してそのノードの切り出しを行うかどうかを指定するフラグ情報が記述される。この実施の一形態では、文切り出し部36による文切り出しの際に、この文切り出しテンプレートに保存されているテンプレートを用い、テンプレートにおいて規定された文の切り出し方法に従って文を切り出すことができる。
【0179】
図43は、文切り出しテンプレート44に保存されるテンプレートの一例の構造を示す。テンプレートは、文に付与されたタグとタグの階層構造とが、タグをノードとして記述され、ノードのそれぞれに対して切り出しを行うかどうかを示す符号が付されて成る。このようなテンプレートは、例えば、木構造データ38に基づき、木構造データ38中のタグ情報と、木構造データ38中の各ノード間の位置関係を表す位置情報に基づき木構造を構成することで、作成することができる。
【0180】
テンプレートにおいて、木構造の枝分かれの部分で「○(丸印)」で示されるのが切り出しの対象となるノードであり、「×(バツ印)」で示されるのが切り出しの対象外であるノードである。また、木構造においてより上位のノードが優先的なノードである。このようなテンプレートは、テンプレート登録部43からユーザにより登録することができる。また、予め作成し、例えばHDD114などに格納させておいてもよい。
【0181】
ここで、テンプレート登録部43によるテンプレートの文切り出しテンプレート44への登録は、当該テンプレートが適用されるデータをユニークに決定できるIDと関連付けて行うことができる。図43では、このIDがテキストIDとして示されている。例えば当該テンプレートが適用されるテキストデータのファイル名やURL(Uniform Resource Locator)を、テキストIDとして用いることができる。こうすることで、入力テキストに適用可能なテンプレートを容易に検索可能となる。
【0182】
また、例えば新聞のコラムなどのように、文書の形態が各文書毎に類似している場合には、同一のテンプレートを各文書に対して転用して用いることができる。このような場合、各文書の文書ファイル名あるいはURLが類似している可能性があり、最初に作成されたテンプレートの元となった文書ファイルのファイル名あるいはURLをテキストIDとして用いると、後述するあいまい検索を行うことで、各文書に適用可能なテンプレートを容易に検索することができる。
【0183】
これに限らず、例えばユーザにより指定されたテンプレートを入力テキストに対して適用することも可能である。
【0184】
テンプレート登録部43において、テンプレートにおける各ノードへのフラグ情報の指示は、表示装置3による表示に基づき、入力装置2から行うことができる。このときのフラグ情報の指示方法としては、例えば次の2つの方法が考えられる。
【0185】
第1の方法は、図44に一例が示されるように、木構造データ38に基づき、表示装置3に対してテキストのイメージでの表示に対する指示による設定方法である。図44では、対象となっているテキストのイメージが木構造データ38に基づき2次元的に展開されている。図44に示されるように、入力装置2であるマウス121の動きに応じて表示装置3の画面上を移動するカーソルといった所定の指示方法を用いて、切り出しを行う部分を指定することができる。この例では、カーソル表示により指示されている文が、マウス121のボタン操作により非切り出し状態に変更されている。
【0186】
第2の方法は、図45に一例が示されるように、木構造データ38に基づく木構造をそのまま表示し、各ノードに対して指示を行うことで設定する方法である。この場合でも、上述のカーソル表示を用い、ノード上の、そのノードの文を切り出すかどうかを指示する記号「○」および「×」をカーソルで指定し、マウス121のボタン操作を行うことで、切り出しおよび非切り出し状態を切り換えることができる。図45の例では、タグ「<SPAN>」が付与された文「メールの引用・・・」が切り出し状態から非切り出し状態に切り換えられている。
【0187】
ここで、説明は、上述した図38のフローチャートに戻る。図38のフローチャートにおけるステップS402において、テンプレートを適用させると判断された場合には、処理はステップS411に移行する。ステップS411では、現在処理の対象となっているデータに適用可能なテンプレートが存在するかどうかが判断される。例えば、テンプレート検索部45によりHDD114の所定の場所が調べられ、当該テンプレートが存在するかどうかが調べられる。
【0188】
このとき、テンプレートが上述のようにファイル名やURLなどに関連付けられていれば、テンプレートは、制御部1の指示によりテンプレート検索部45で検証される。テンプレート検索部45では、テンプレート検索部モード46において文切り出しテンプレート44に保存されたテンプレートのファイル名やURLのあいまい検索を行うように設定されている場合、検索文字に指定された文字列と、検索対象のファイル名やURLとが完全に一致していなくても、両者が一致したものと見なし、テンプレートの適応を行うことができる。
【0189】
図46は、テンプレート検索モード46の一例を示す。テンプレート検索モード46において、文切り出しテンプレート44から適応させるテンプレートを検索する際のテンプレート参照モードが指定される。この図46の例では、テンプレートを検索する際に、テキストIDについてあいまい検索を行うかどうか、また、あいまい検索を行う場合には、どの程度の精度で行うかを指定することができる。同様に、検索された文切り出しテンプレート44をデータに適応させる際に、あいまい適応を行うかどうか、また、あいまい適応を行う場合には、どの程度の精度で行うかを指定することができる。
【0190】
なお、テンプレート検索モード46では、テキストIDやテンプレートの検索あるいは適応条件の設定の他に、図46に示されるように、テンプレートの編集モード、テンプレートの自動保存を行うかどうか、テンプレート検索の際の不一致通知などの設定がなされる。
【0191】
図47は、テキストIDのあいまい検索の一例を概略的に示す。入力装置1から入力されたテキストデータのテキストID400に対して、文切り出しテンプレート44に保存されているテキストID401に対応したテンプレートを検索することを考える。テンプレート検索モード46において、例えば前方一致などの文字列検索による文字列参照が行われる。図47の例では、保存されているテキストID401の長さ49バイトの文字列のうち、40バイト分が入力されたテキストデータのテキストID400と一致している。すなわち、テキストID401の文字列の略82%がテキストID400と一致しており、あいまい精度が82%であるとされる。
【0192】
図46に示されるテンプレート検索モード46では、テキストIDのあいまい検索の際のあいまい精度が70%と設定されているので、テキストID400とテキストID401とが一致すると判断される。この場合、ファイル名やURLが100%一致しない場合でもテンプレートの適応を行う。
【0193】
なお、テンプレート検索モード46において、テキストIDのあいまい検索が「しない」に設定されている場合は、入力テキストのテキストID400と、保存されている文切り出しテンプレート44のテキストID401とが100%一致した場合にのみ、テキストID401に対応するテンプレートの適応を行う。
【0194】
また、テンプレート検索部45では、テンプレート検索モード46において、テンプレートのあいまい適応をするかどうかの設定で、「する」に設定されている場合は、木構造データ38の階層の高いところから、逐次適応が行われる。このとき、過不足のあるノードは、吸収されて適応が行われる。ここで用いるあいまい適応は、どのような方法を用いてもかまわない。例えば、用いられているタグの種類とノード位置や、同一種類のタグの個数などをあいまい精度の判定基準として用いることが考えられる。
【0195】
一方、テンプレート検索モード46において、テンプレートあいまい検索が「しない」に設定されている場合は、用いられるテンプレートとテンプレートを適用しようとするデータの木構造とが一致した場合にのみ、テンプレートの適応を行う。
【0196】
以上のテンプレートの説明に基づき、上述した図38におけるテンプレートに関する部分の処理について説明する。ステップS402でテンプレートの適応を行うとされたら、処理はステップS411に移行し、現在処理対象としているデータに適応可能なテンプレートが文切り出しテンプレート44に保存されているかどうかが検索される。検索は、上述したように、あいまい検索を用いることができる。
【0197】
検索結果に基づき、若し、適応可能なテンプレートが文切り出しテンプレート44に保存されていると判断されれば、処理はステップS412に移行し、検索されたテンプレートが処理対象のデータに適応される。このとき、上述したあいまい適応を用いることができる。テンプレートの適応がなされると、処理はステップS413に移行する。
【0198】
一方、ステップS411で、検索結果に基づき、適応可能なテンプレートが文切り出しテンプレート44に保存されていないと判断されれば、処理はステップS414に移行する。ステップS414では、テンプレートが新たに作成される。例えば、現在処理対象とされているデータの木構造データ38に基づき、上述した図44あるいは図45を用いて説明したような方法によって、新たなテンプレートが作成される。作成されたテンプレートは、文切り出しテンプレート44に保存することができる。テンプレートが作成されると、処理はステップS413に移行する。
【0199】
ステップS413では、処理対象のデータにテンプレートに基づく切り出し対象のノードがあるかどうかが判断される。切り出し対象ノードがあると判断されれば、処理はステップS403に移行され、文の切り出し処理が行われる。一方、切り出し対象ノードが無いと判断されれば、処理はステップS409に移行し、次の文の切り出しを行うかどうかが判断される。
【0200】
このようにして、テンプレートに従ってテキストの切り出す部分と、そうでない部分との指示を行うことができる。また、テンプレートを検索する際にあいまい検索を用いて行っているので、テンプレートの保存および再利用の際に、インターネットなどの配信により刻々内容の変わるものに対しても追従してテンプレートの適応を行うことができる。
【0201】
なお、上述では、この発明による文書処理装置300が例えばパーソナルコンピュータ上で稼働するソフトウェアで実現されるように説明したが、これはこの例に限定されない。例えば、文書処理装置300は、他の装置に組み込んで用いることもできる。一例として、ロボット型の装置に文書処理装置300と、テキスト情報に基づく合成音声を行い音声出力を得る手段とを組み込むことで、電子メールやインターネットにおけるホームページ(Webサイト)上のテキストを、恰もロボット型の装置が読み上げているような効果を得るようにできる。
【0202】
また、このような場合、この発明による文書処理装置300をコンピュータ制御が可能な所定の機構部と組み合わせることで、タグアクションデータに応じた動作を設定することも可能である。
【0203】
さらに、インターネットなどのネットワーク上のサービスとして、この発明による文書処理装置300を用いることができる。すなわち、インターネット上に公開されている、一般のホームページのテキストを文に切り出して、アクセスしているパーソナルコンピュータなどに送る。また、これを応用して、一般のホームページ(Webサイト)から切り出したテキストに基づき音声合成を行い、得られた音声出力を携帯電話装置などに送信するサービスも考えられる。
【0204】
さらにまた、ネットワークにおいて、図2に示した構成を複数のサーバに分割して置き、これら複数のサーバに分割された構成で統合的に処理するようにしてもよい。このとき、入力装置2を例えば携帯電話装置などにすることができる。
【0205】
【発明の効果】
以上説明したように、この発明では、入力されたテキストデータを、データ中に用いられている文字のパターンなどに基づきブロック分割し、ブロック分割された部分に、ブロック分割されたことを示すタグを付与する。さらに、ブロック分割されたデータを、ブロック分割されたことを示すタグに基づき構造化した構造化データに変換する。そして、構造化データを木構造化して木構造化されたデータに対して文の切り出しを行うようにしている。
【0206】
そのため、この発明を用いることにより、電子メールにおける引用記号を分離したテキストの抽出や、例えば文字罫線によって表現された表といった、テキスト中の各項目の抽出などの、テキストデータのコントロールを行うことができるという効果がある。
【0207】
また、この発明の実施の一形態によれば、従来別々の処理系によって処理されていた、プレーンテキスト、タグ付きテキストおよび電子メール形式のテキストを、一つの処理系で統一的に表現および処理することができるという効果がある。またそれにより、文書処理のシステムをシンプルに構成することができる効果がある。
【0208】
さらに、この発明の実施の一形態によれば、従来、タグだけでは判断できないためにマニュアル操作で行っていた、タグ付きテキストからの切り出したい部分およびそうでない部分の指定を、容易に行うことができるという効果がある。
【0209】
さらにまた、この発明による構成を、テキスト音声合成による読み上げシステムの前処理として用いることで、電子メールやインターネット上のホームページ(Webサイト)などの読み上げが容易に行われるシステムを実現することができるという効果がある。
【0210】
このように、この発明を用いることで、テキスト処理全般にわたって様々な効果を期待することができる。
【図面の簡単な説明】
【図1】この発明による文書処理の概略的な流れを示すフローチャートである。
【図2】この発明の実施の一形態による文書処理装置の機能を実現するための一例の機能ブロック図である。
【図3】この発明の実施の一形態による文書処理装置を適用可能なコンピュータ装置の一例の構成を示すブロック図である。
【図4】実施の一形態による文書処理を概略的に示すフローチャートである。
【図5】テキスト形式判別の処理をさらに詳細に示す一例のフローチャートである。
【図6】ブロック分割の処理をさらに詳細に示す一例のフローチャートである。
【図7】罫線文字によるタグの付与の一例の様子を概略的に示す略線図である。
【図8】罫線文字登録部に罫線文字が登録された一例の様子を示す略線図である。
【図9】文字罫線による罫線についてタグを付与する一例の様子を示す略線図である。
【図10】連続文字罫線文字登録部の一例の登録内容を示す略線図である。
【図11】仕切り線文字による仕切り線についてタグを付与する一例の様子を示す略線図である。
【図12】仕切り線文字登録部の一例の登録内容を示す略線図である。
【図13】空白行によりブロックタグを付与する一例の様子を示す略線図である。
【図14】2次元の正規表現によるタグの付与の一例の様子を概略的に示す略線図である。
【図15】正規表現登録部により登録された一例の正規表現を示す略線図である。
【図16】タグ付きテキストから不要タグを削除する一例の様子を示す略線図である。
【図17】利用タグ登録部で利用タグが登録された一例の利用タグリストを示す略線図である。
【図18】各行毎の文字位置を示すタグが付与された一例の様子を示す略線図である。
【図19】文書構造化の一例の処理を示すフローチャートである。
【図20】下線文字により強調された文字列に下線による強調を示す下線タグを付与する一例の様子を示す略線図である。
【図21】下線文字登録部による一例の登録内容を示す略線図である。
【図22】引用文字により他からの引用であることが示された文字列に対して引用タグを付与する一例の様子を示す略線図である。
【図23】引用文字登録部による一例の登録内容を示す略線図である。
【図24】引用文字に対してタグを付与する場合の例を示す略線図である。
【図25】見出し行を検出しタグを付与する一例の様子を示す略線図である。
【図26】見出し文字登録部による一例の登録内容を示す略線図である。
【図27】センタリングによる見出し判別の一例の様子を示す略線図である。
【図28】文字位置による見出し判別の一例の様子を示す略線図である。
【図29】括弧による見出し判別の一例の様子を示す略線図である。
【図30】箇条書き判別の一例の様子を示す略線図である。
【図31】罫線文字で構成された一例の表を示す略線図である。
【図32】表をセルに切り出し表を示すタグを付与した例を示す略線図である。
【図33】ブロック構造データに対する正規表現判定の一例の様子を示す略線図である。
【図34】空白行によるブロック分割の判定の一例の様子を示す略線図である。
【図35】括弧判定部による括弧の整合性の判定の一例の様子を示す略線図である。
【図36】段落の判別によるブロック分割の一例の様子を示す略線図である。
【図37】句点およびピリオドをキーとして行う文の分割の一例の様子を示す略線図である。
【図38】実施の一形態による木構造化された文構造データからの文切り出し処理の一例のフローチャートである。
【図39】木構造データの一例を概略的に示す略線図である。
【図40】文切り出しモードの一例を示す略線図である。
【図41】助数詞テーブルの一例を示す略線図である。
【図42】タグアクションデータの一例を示す略線図である。
【図43】文切り出しテンプレートに保存されるテンプレートの一例の構造を示す略線図である。
【図44】テンプレートにおける各ノードへのフラグ情報の指示方法を示す略線図である。
【図45】テンプレートにおける各ノードへのフラグ情報の指示方法を示す略線図である。
【図46】テンプレート検索モードの一例を示す略線図である。
【図47】テキストIDのあいまい検索の一例を概略的に示す略線図である。
【符号の説明】
1・・・制御部、2・・・入力装置、3・・・表示装置、5・・・テキスト形式判定部、9・・・文字変換バッファ、10・・・ブロック分割部、20・・・ブロック構造データ、21・・・文書構造化部、35・・・文構造データ、36・・・文切り出し部、37・・・木構造化部、38・・・木構造データ、40・・・タグアクションデータ、44・・・文切り出しテンプレート

Claims (15)

  1. 電子化された文書データを処理する文書処理装置において、
    入力されたテキストデータのエンコード形式を判断する文字種判断手段と、上記文字種判断手段の判断結果に基づき、入力された上記テキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換手段とを備え、入力された上記テキストデータのテキスト形式を判断し、上記文字コード変換手段により所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断手段と、
    上記テキスト形式判断手段から出力された上記テキストデータを、該テキストデータの構成に応じて所定のブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割手段と、
    上記ブロック分割手段から出力された上記ブロック構造データの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化し、文構造データとして出力する文書構造化手段と、
    上記文書構造化手段から出力された上記文構造データの上記タグ情報に基づき上記文の切り出しを制御する文切り出し手段と
    有し、
    上記ブロック分割手段は、上記テキスト形式判断手段により上記テキストデータがテキスト形式の文書であると判断された場合には、所定の固まりを上記ブロックと判断し、上記テキスト形式判断手段により上記テキストデータがタグ付きテキスト形式の文書であると判断された場合には、上記テキストデータに付与されたタグ情報のうち、上記文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、
    上記文書構造化手段は、上記テキストデータが上記タグ付きテキスト形式の文書であって、文の構造を指定するタグ情報が予め付与されている場合には、上記予め付与されているタグ情報をそのまま使う
    文書処理装置。
  2. 請求項1に記載の文書処理装置において、
    上記テキスト形式判断手段は、文字コード体系の指定を行う処理系文字コード指定手段をさらに有し、上記所定の文字コード体系の代わりに他の文字コード体系を選択可能としたことを特徴とする文書処理装置。
  3. 請求項2に記載の文書処理装置において、
    上記処理系文字コード指定手段による上記文字コード体系の指定が無い場合は、所定に与えられた文字コード体系に従って処理を行うことを特徴とする文書処理装置。
  4. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、空白行と空白行とで挟まれた固まりである
    文書処理装置。
  5. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、1行の文字数が共通な行の固まりである
    文書処理装置。
  6. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、文字列の始まる位置が共通な行の固まりである
    文書処理装置。
  7. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、予め指定された罫線の対象となる文字列により囲まれた固まりである
    文書処理装置。
  8. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、予め指定された文字または文字列の連続からなる罫線により囲まれた固まりである
    文書処理装置。
  9. 請求項1に記載の文書処理装置において、
    上記所定の固まりは、予め指定された仕切り線の対象となる文字列により仕切られた固まりである
    文書処理装置。
  10. 請求項1に記載の文書処理装置において、
    上記ブロック分割手段は、上記テキスト形式判断手段により上記入力されたテキストデータがテキスト形式の文書であると判断された場合に、オリジナルテキストの文字位置をタグ情報として保存することを特徴とする文書処理装置。
  11. 請求項1に記載の文書処理装置において、
    上記文書構造化手段は、罫線として用いられる文字に基づき切り出されたブロックに対して、仕切り線として用いられる文字により区切られたセルを判別し、判別された上記各セルから文を分割することを特徴とする文書処理装置。
  12. 請求項1に記載の文書処理装置において、
    上記文切り出し手段は、上記文書構造化手段により作成された上記タグ情報により上記構造化された上記文を木構造のデータとして表現することを特徴とする文書処理装置。
  13. 電子化された文書データを処理する文書処理方法において、
    文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、
    上記文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力された上記テキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、
    上記文字種判断手段と上記文字コード変換手段とを備えるテキスト形式判断手段により、入力された上記テキストデータのテキスト形式を判断し、上記文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、
    ブロック分割手段によって、上記テキスト形式判断のステップにより出力された上記テキストデータを、該テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、
    文書構造化手段によって、上記ブロック分割のステップにより出力された上記ブロック構造データの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化し、文構造データとして出力する文書構造化のステップと、
    文切り出し手段によって、上記文書構造化のステップにより出力された上記文構造データの上記タグ情報に基づき上記文の切り出しを制御する文切り出しのステップと
    を有し、
    上記ブロック分割のステップにおいては、上記テキスト形式判断のステップにより上記テキストデータがテキスト形式の文書であると判断された場合には、所定の固まりを上記ブロックと判断し、
    上記テキスト形式判断のステップにより上記テキストデータがタグ付きテキスト形式の文書であると判断された場合には、上記テキストデータに付与されたタグ情報のうち、上記文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、
    上記文書構造化のステップは、上記テキストデータが上記タグ付きテキスト形式の文書であって、上記タグ情報が予め付与されている場合には、上記予め付与されているタグ情報をそのまま使う
    文書処理方法。
  14. 電子化された文書データを処理する文書処理方法をコンピュータ装置に実行させる文書処理プログラムにおいて、
    文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、
    上記文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力された上記テキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、
    上記文字種判断手段と上記文字コード変換手段とを備えるテキスト形式判断手段により、入力された上記テキストデータのテキスト形式を判断し、上記文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、
    ブロック分割手段によって、上記テキスト形式判断のステップにより出力された上記テキストデータを、該テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、
    文書構造化手段によって、上記ブロック分割のステップにより出力された上記ブロック構造データの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化し、文構造データとして出力する文書構造化のステップと、
    文切り出し手段によって、上記文書構造化のステップにより出力された上記文構造データの上記タグ情報に基づき上記文の切り出しを制御する文切り出しのステップと
    を有し、
    上記ブロック分割のステップにおいては、上記テキスト形式判断のステップにより上記テキストデータがテキスト形式の文書であると判断された場合には、所定の固まりを上記ブロックと判断し、上記テキスト形式判断のステップにより上記テキストデータがタグ付きテキスト形式の文書であると判断された場合には、上記テキストデータに付与されたタグ情報のうち、上記文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、
    上記文書構造化のステップは、上記テキストデータが上記タグ付きテキスト形式の文書であって、上記タグ情報が予め付与されている場合には、上記予め付与されているタグ情報をそのまま使う
    文書処理方法をコンピュータ装置に実行させる文書処理プログラム。
  15. 電子化された文書データを処理する文書処理方法をコンピュータ装置に実行させる文書処理プログラムが記録された記録媒体において、
    文字種判断手段によって、入力されたテキストデータのエンコード形式を判断する文字種判断のステップと、
    上記文字種判断のステップにおける判断結果に基づき、文字コード変換手段によって、入力された上記テキストデータの文字コード体系を所定の文字コード体系に変換する文字コード変換のステップと、
    上記文字種判断手段と上記文字コード変換手段とを備えるテキスト形式判断手段により、入力された上記テキストデータのテキスト形式を判断し、上記文字コード変換のステップにより所定の文字コード体系に変換されたテキストデータを出力するテキスト形式判断のステップと、
    ブロック分割手段によって、上記テキスト形式判断のステップにより出力された上記テキストデータを、該テキストデータの構成に応じて所定にブロックに分割し、分割されたブロックであることを示す所定のタグ情報を付与して、ブロック構造データとして出力するブロック分割のステップと、
    文書構造化手段によって、上記ブロック分割のステップにより出力された上記ブロック構造データの文書構造を上記テキストデータの構成に基づき解析して文単位に分割し、分割された上記文に上記テキストデータの構成に応じてタグ情報を付加して上記文を構造化し、文構造データとして出力する文書構造化のステップと、
    文切り出し手段によって、上記文書構造化のステップにより出力された上記文構造データの上記タグ情報に基づき上記文の切り出しを制御する文切り出しのステップと
    を有し、
    上記ブロック分割のステップにおいては、上記テキスト形式判断のステップにより上記テキストデータがテキスト形式の文書であると判断された場合には、所定の固まりを上記ブロックと判断し、上記テキスト形式判断のステップにより上記テキストデータがタグ付きテキスト形式の文書であると判断された場合には、上記テキストデータに付与されたタグ情報のうち、上記文切り出し手段による文切り出しに利用されない不要なタグ情報の削除を行い、
    上記文書構造化のステップは、上記テキストデータが上記タグ付きテキスト形式の文書であって、上記タグ情報が予め付与されている場合には、上記予め付与されているタグ情報をそのまま使う
    文書処理方法をコンピュータ装置に実行させる文書処理プログラムが記録された記録媒体。
JP2001140778A 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 Expired - Fee Related JP4843867B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001140778A JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US10/143,279 US7111011B2 (en) 2001-05-10 2002-05-10 Document processing apparatus, document processing method, document processing program and recording medium
US11/185,303 US7315867B2 (en) 2001-05-10 2005-07-20 Document processing apparatus, document processing method, document processing program, and recording medium
US12/005,924 US7984076B2 (en) 2001-05-10 2007-12-28 Document processing apparatus, document processing method, document processing program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001140778A JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Publications (2)

Publication Number Publication Date
JP2002334070A JP2002334070A (ja) 2002-11-22
JP4843867B2 true JP4843867B2 (ja) 2011-12-21

Family

ID=18987329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001140778A Expired - Fee Related JP4843867B2 (ja) 2001-05-10 2001-05-10 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Country Status (2)

Country Link
US (3) US7111011B2 (ja)
JP (1) JP4843867B2 (ja)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002087112A2 (en) 2001-04-18 2002-10-31 Space Data Corporation Unmanned lighter-than-air safe termination and recovery methods
US7356390B2 (en) 1999-06-29 2008-04-08 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9908608B2 (en) 2001-04-18 2018-03-06 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9643706B2 (en) 2001-04-18 2017-05-09 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
US9632503B2 (en) 2001-04-18 2017-04-25 Space Data Corporation Systems and applications of lighter-than-air (LTA) platforms
JP2004086846A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
US20040103370A1 (en) * 2002-11-27 2004-05-27 International Business Machines Corporation System and method for rendering MFS XML documents for display
US20040054969A1 (en) * 2002-09-16 2004-03-18 International Business Machines Corporation System and method for generating web services definitions for MFS-based IMS applications
US7130893B2 (en) 2003-05-19 2006-10-31 International Business Machines Corporation System and method for representing MFS control blocks in XML for MFS-based IMS applications
US7421701B2 (en) * 2002-09-16 2008-09-02 International Business Machines Corporation System for facilitating transactions between thin-clients and message format service (MFS)-based information management system (IMS) applications
US7546465B2 (en) * 2002-10-17 2009-06-09 At&T Intellectual Property I, L.P. Instant messaging private tags
US7539940B2 (en) * 2002-10-09 2009-05-26 Microsoft Corporation System and method for converting between text formatting or markup language formatting and outline structure
US7464268B2 (en) * 2002-10-17 2008-12-09 At&T Intellectual Property I, L.P. Customizable instant messaging private tags
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
US7337398B1 (en) * 2003-02-28 2008-02-26 Adobe Systems Incorporated Reconstitute tag-delimited tables in a graphics editing application
US7328219B2 (en) * 2003-03-03 2008-02-05 Raytheon Company System and method for processing electronic data from multiple data sources
US7657573B1 (en) * 2003-03-31 2010-02-02 Invensys Method and data structure for exchanging data
US20040242202A1 (en) * 2003-05-12 2004-12-02 Marko Torvinen System, apparatus, and method for automated handling of messages in terminals
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US7370280B2 (en) * 2003-09-23 2008-05-06 International Business Machines Corporation Apparatus, system, and method for defining a web services interface for MFS-based IMS applications
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7418508B2 (en) 2004-01-26 2008-08-26 International Machines Corporation System and method to facilitate XML enabled IMS transactions between a remote client and an IMS application program
US7617459B2 (en) 2004-01-28 2009-11-10 International Business Machines Corporation Apparatus, system, and method for automatically generating a web interface for an MFS-based IMS application
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US20050240437A1 (en) * 2004-04-05 2005-10-27 Cunningham Robert H Information retrieval system and method thereof
US7529731B2 (en) * 2004-06-29 2009-05-05 Xerox Corporation Automatic discovery of classification related to a category using an indexed document collection
US7558792B2 (en) * 2004-06-29 2009-07-07 Palo Alto Research Center Incorporated Automatic extraction of human-readable lists from structured documents
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US8839097B2 (en) * 2004-11-15 2014-09-16 Ca, Inc. System and method for information encapsulation for providing multiple deliverable formats from one information source
US9122655B2 (en) * 2004-11-15 2015-09-01 International Business Machines Corporation Pre-translation testing of bi-directional language display
EP1669896A3 (en) * 2004-12-03 2007-03-28 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
US20060224682A1 (en) * 2005-04-04 2006-10-05 Inmon Data Systems, Inc. System and method of screening unstructured messages and communications
US20060224617A1 (en) * 2005-04-04 2006-10-05 Inmon Data Systems, Inc. Unstructured business metadata manager
US20060277259A1 (en) * 2005-06-07 2006-12-07 Microsoft Corporation Distributed sender reputations
JP4234698B2 (ja) * 2005-06-20 2009-03-04 富士通株式会社 構造化文書処理システム
US20070061402A1 (en) * 2005-09-15 2007-03-15 Microsoft Corporation Multipurpose internet mail extension (MIME) analysis
US20070100823A1 (en) * 2005-10-21 2007-05-03 Inmon Data Systems, Inc. Techniques for manipulating unstructured data using synonyms and alternate spellings prior to recasting as structured data
US20070106686A1 (en) * 2005-10-25 2007-05-10 Inmon Data Systems, Inc. Unstructured data editing through category comparison
TW200732927A (en) * 2006-02-23 2007-09-01 Accfast Technology Corp Design method and apparatus for user interface and recording media for storing descriptive program thereof
US7693831B2 (en) * 2006-03-23 2010-04-06 Microsoft Corporation Data processing through use of a context
US8886661B2 (en) * 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
US7805424B2 (en) * 2006-04-12 2010-09-28 Microsoft Corporation Querying nested documents embedded in compound XML documents
US8972839B2 (en) * 2006-10-02 2015-03-03 Adobe Systems Incorporated Media presentations including related content
US8005847B2 (en) * 2006-10-20 2011-08-23 Adobe Systems Incorporated Pattern-based file relationship inference
CN101192107A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于输入并显示字符串的方法和设备
US8155444B2 (en) * 2007-01-15 2012-04-10 Microsoft Corporation Image text to character information conversion
US7860872B2 (en) * 2007-01-29 2010-12-28 Nikip Technology Ltd. Automated media analysis and document management system
US7949670B2 (en) * 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
US8108770B2 (en) 2007-08-27 2012-01-31 Yahoo! Inc. Secure inter-module communication mechanism
US20090119415A1 (en) * 2007-11-02 2009-05-07 Chiang Chenhuei J System and method for representing mfs control blocks in xml for mfs-based ims applications
JP5091639B2 (ja) * 2007-11-21 2012-12-05 株式会社東芝 レポート検索装置、及びレポート検索方法
US20100005112A1 (en) * 2008-07-01 2010-01-07 Sap Ag Html file conversion
US8136037B2 (en) * 2008-07-15 2012-03-13 International Business Machines Corporation Assistant for manually proofreading text documents
US9600459B2 (en) * 2008-07-16 2017-03-21 International Business Machines Corporation Visual macro showing how some icon or object or text was constructed
US9274910B2 (en) * 2008-08-29 2016-03-01 Spirent Communications, Inc. Automatic test map generation for system verification test
US8126837B2 (en) * 2008-09-23 2012-02-28 Stollman Jeff Methods and apparatus related to document processing based on a document type
US8229971B2 (en) 2008-09-29 2012-07-24 Efrem Meretab System and method for dynamically configuring content-driven relationships among data elements
US9626339B2 (en) * 2009-07-20 2017-04-18 Mcap Research Llc User interface with navigation controls for the display or concealment of adjacent content
WO2011072434A1 (en) * 2009-12-14 2011-06-23 Hewlett-Packard Development Company,L.P. System and method for web content extraction
US8565474B2 (en) * 2010-03-10 2013-10-22 Microsoft Corporation Paragraph recognition in an optical character recognition (OCR) process
JP5630863B2 (ja) 2010-11-26 2014-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 構造化文書に含まれるノードの全順序関係を、ログ情報に基づいて決定して可視化する方法、装置及びコンピュータプログラム
US20120290926A1 (en) * 2011-05-12 2012-11-15 Infinote Corporation Efficient document management and search
US9116895B1 (en) 2011-08-25 2015-08-25 Infotech International Llc Document processing system and method
US9785638B1 (en) 2011-08-25 2017-10-10 Infotech International Llc Document display system and method
US9633012B1 (en) 2011-08-25 2017-04-25 Infotech International Llc Construction permit processing system and method
JP5764039B2 (ja) * 2011-10-25 2015-08-12 株式会社沖データ 情報処理装置、画像形成装置、プログラム、情報処理システム、及び、情報処理方法
US11042513B2 (en) * 2012-01-03 2021-06-22 International Business Machines Corporation Extended tagging method and system
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9477645B2 (en) * 2013-03-13 2016-10-25 Sap Se Systems and methods of active text markup
CN104077273A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 一种对网页内容抽取的方法及装置
US9507520B2 (en) * 2013-12-16 2016-11-29 Microsoft Technology Licensing, Llc Touch-based reorganization of page element
EP3198381B1 (en) * 2014-10-22 2020-09-16 Huawei Technologies Co., Ltd. Interactive video generation
CA2972381A1 (en) 2014-12-24 2016-06-30 Space Data Corporation Techniques for intelligent balloon/airship launch and recovery window location
CA2972348C (en) 2014-12-24 2023-03-14 Space Data Corporation Breaking apart a platform upon pending collision
US10059421B2 (en) 2014-12-30 2018-08-28 Space Data Corporation Multifunctional balloon membrane
CN105353948A (zh) * 2015-09-25 2016-02-24 维沃移动通信有限公司 一种信息处理方法和装置
US10291599B2 (en) * 2016-07-20 2019-05-14 UScontracting, Inc. Systems, methods and apparatus for keystroke encryption
JP2018151854A (ja) * 2017-03-13 2018-09-27 富士ゼロックス株式会社 文書処理装置およびプログラム
CN108829648A (zh) * 2018-05-30 2018-11-16 北京小度信息科技有限公司 网页标记语言的转换方法及装置
CN109948518B (zh) * 2019-03-18 2023-06-09 武汉汉王大数据技术有限公司 一种基于神经网络的pdf文档内容文本段落聚合的方法
JP7317561B2 (ja) 2019-04-19 2023-07-31 キヤノン株式会社 タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
CN110222331B (zh) * 2019-04-26 2024-05-14 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN111241242B (zh) * 2020-01-09 2023-05-30 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质
KR102342542B1 (ko) * 2020-06-10 2021-12-22 김민규 블록체인을 사용하여 문서를 검증하기 위한 방법 및 장치
CN113807060A (zh) * 2021-09-24 2021-12-17 北京字跳网络技术有限公司 文档处理方法、装置、电子设备和计算机可读存储介质
CN114154479A (zh) * 2021-12-08 2022-03-08 重庆农村商业银行股份有限公司 一种段落解析方法、装置、设备及存储介质
US12282728B2 (en) * 2022-06-03 2025-04-22 Apple Inc. Automatic text recognition with layout preservation
CN114969843B (zh) * 2022-08-03 2022-11-01 确信信息股份有限公司 支持文档样式保护的签验章方法、系统、存储介质及设备
JP2024084554A (ja) * 2022-12-13 2024-06-25 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US12572557B2 (en) 2023-07-19 2026-03-10 Adp, Inc. Data digitization via custom integrated machine learning ensembles

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
JPH05110805A (ja) * 1991-10-16 1993-04-30 Fuji Xerox Co Ltd ミクストモ―ド文書処理装置
US5438657A (en) * 1992-04-24 1995-08-01 Casio Computer Co., Ltd. Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document
JP3489219B2 (ja) * 1994-09-20 2004-01-19 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
US6247018B1 (en) * 1998-04-16 2001-06-12 Platinum Technology Ip, Inc. Method for processing a file to generate a database
JPH11353218A (ja) * 1998-06-09 1999-12-24 Fuji Electric Co Ltd 文書データのセキュリティ強化方式
JP3829506B2 (ja) * 1998-11-27 2006-10-04 セイコーエプソン株式会社 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
US6424982B1 (en) * 1999-04-09 2002-07-23 Semio Corporation System and method for parsing a document using one or more break characters
US6343287B1 (en) * 1999-05-19 2002-01-29 Sun Microsystems, Inc. External data store link for a profile service
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
US20020143823A1 (en) * 2001-01-19 2002-10-03 Stevens Mark A. Conversion system for translating structured documents into multiple target formats
CA2340531C (en) * 2001-03-12 2006-10-10 Ibm Canada Limited-Ibm Canada Limitee Document retrieval system and search method using word set and character look-up tables
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム

Also Published As

Publication number Publication date
JP2002334070A (ja) 2002-11-22
US7984076B2 (en) 2011-07-19
US7111011B2 (en) 2006-09-19
US20030007397A1 (en) 2003-01-09
US7315867B2 (en) 2008-01-01
US20080256120A1 (en) 2008-10-16
US20050251737A1 (en) 2005-11-10

Similar Documents

Publication Publication Date Title
JP4843867B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US7085999B2 (en) Information processing system, proxy server, web page display method, storage medium, and program transmission apparatus
US8434014B1 (en) System and method for editing information
JP3824298B2 (ja) サーバ、ウェブコンテンツ編集装置、コンピュータを用いてこれらを実現するプログラム、及びそのウェブコンテンツ編集方法並びに提供方法
WO1998008168A1 (fr) Dispositif pour generer un texte original et son support de memoire programme
JP3691628B2 (ja) 文書情報管理システム
JP4794127B2 (ja) データ処理方法、データ処理プログラム、およびデータ処理装置
JP3212983B1 (ja) 部品説明書の作成支援方法、部品説明書の作成支援システム、及びコンピュータ読取可能な記録媒体
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
JP2002215519A (ja) ウェブページ生成方法およびシステム、ウェブページ生成プログラム、記録媒体
JPH10222510A (ja) 文書変換方法
JP4012047B2 (ja) 電子文書作成装置、電子文書作成方法およびその方法をコンピュータに実行させるプログラム
JP2001022734A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4566196B2 (ja) 文書処理方法および装置
JP4627530B2 (ja) 文書処理方法および装置
EP0897156A1 (en) Device and method for preparing original text and program storing medium for the same
JP2000076226A (ja) 文書データの編集システム
JP3448452B2 (ja) 文書情報管理システム
JP3802743B2 (ja) ツリー構造作成描画装置として動作するようにプログラムされたコンピュータ、コンピュータを用いてツリー構造を作成し描画するための方法、およびコンピュータをツリー構造作成描画装置として動作させるためのプログラムを記録したコンピュータ読取可能な記録媒体
JP3712320B2 (ja) 可変文書作成システム、可変文書出力装置及び可変原稿作成装置
JP2000081999A (ja) 文書出力システム
JP3537260B2 (ja) リンク付文書検索表示システム
JP2005056043A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2000137640A (ja) ハイパーテキスト自動作成装置及びハイパーテキスト自動作成処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3467161B2 (ja) 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110810

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110926

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4843867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees