JP2002032770A - 文書処理方法、文書処理システムおよび媒体 - Google Patents

文書処理方法、文書処理システムおよび媒体

Info

Publication number
JP2002032770A
JP2002032770A JP2000190335A JP2000190335A JP2002032770A JP 2002032770 A JP2002032770 A JP 2002032770A JP 2000190335 A JP2000190335 A JP 2000190335A JP 2000190335 A JP2000190335 A JP 2000190335A JP 2002032770 A JP2002032770 A JP 2002032770A
Authority
JP
Japan
Prior art keywords
connection
document
text block
document processing
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000190335A
Other languages
English (en)
Inventor
Francis Hurst Matthew
マシュー・フランシス・ハースト
Tetsuya Nasukawa
哲哉 那須川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000190335A priority Critical patent/JP2002032770A/ja
Priority to US09/891,080 priority patent/US7046847B2/en
Publication of JP2002032770A publication Critical patent/JP2002032770A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Abstract

(57)【要約】 【課題】 表、箇条書き、多段組等任意にレイアウトさ
れた文書から意味のあるテキストブロックを抽出する。 【解決手段】 空白等でレイアウトされた文書を入力
し、文書の空間座標で関連付けたシンボルを取得する。
シンボルから同一タイプのキャラクタの連続を抽出しト
ークンとスペースを生成する。列方向に連続したスペー
スからストリームを生成し、ストリームとトークンから
テキストブロックを生成する。テキストブロック間のリ
ンクを生成して、文書グラフとする。文書グラフ内のテ
キストブロック間の接続(リンク)の妥当性を言語モデ
ルを用いて評価し、接続が妥当な場合はそのテキストブ
ロックをマージする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多段組、表、箇条
書き、タイトル付け等任意にレイアウトされた文書から
意味のあるテキストブロックを抽出する文書処理方法、
システムおよび媒体に関する。本発明の技術はテキスト
マイニング処理、機械翻訳等自然言語文書処理の前処理
に適用し得る。
【0002】
【従来の技術】近年コンピュータネットワーク上で流通
する電子化された文書あるいはスキャナ等の読み取り装
置で電子化された文書が膨大に蓄積されており、これら
文書の活用が望まれている。蓄積されている文書の活用
方法の1つにテキストマイニング処理(文書の概要を自
動的に把握し、内容の経時的変化や傾向を把握等する文
書検索処理の一種)がある。また、機械翻訳の元データ
として活用される場合がある。
【0003】これら蓄積文書の活用を考慮すれば、文書
のレイアウトを解析する必要がある。一般に流通してい
る文書たとえばホームページにアップロードされる文書
等では人間が視覚により把握しやすいようにレイアウト
されている。また、スキャナ等により電子化された文書
データでは、原稿は紙媒体の文書であり、通常の印刷様
式に基づいてレイアウトされている。これらレイアウト
された文書には、文章の本体である段落のほかに、タイ
トル、ヘッダ、リスト、表等が含まれ、また段落も2段
組等多段で表示される場合が多い。さらに表の中には、
横書きの要素ばかりでなく、縦書き要素が含まれる場合
もある。このため、元文書のレイアウトを考慮しなけれ
ば満足な文書解析を自動的に行うことは困難である。
【0004】レイアウト解析の方法には、空間的な特徴
に着目する方法がある。たとえば空白に着目し、空白行
が挿入されている場合にはその後段は段落であると推定
できる。
【0005】
【発明が解決しようとする課題】ところが、これら空間
的な特徴により意味のあるテキストブロックを抽出する
には限界がある。たとえば段落要素(文章がページの纏
まった領域でタイプされているようなテキスト文書)の
場合と表中のテキストの場合を比較すれば、各々空白の
用い方が相違する。つまり行頭に空白文字(またはタブ
による空白)が表示されている時には段落の始めである
ことが認められるが、表中の空白は通常そのようには配
置されない。また、箇条書き等リスト表示される時には
行頭にインデントが付されたり、行間に空白行が挿入さ
れる。これら多様にレイアウトされたテキスト文書を一
元的に空白の有無のみで解析するのは困難である。
【0006】また、仮にレイアウトからテキストのブロ
ックが抽出されても、そのブロック内の文章(あるいは
単語の連なり)の意味上の評価が行われているわけでは
ない。このため、特に表や見出し、リスト等段要素のよ
うに纏まったテキスト文書として表示されていない要素
の場合にはブロックが分断され、その意味が正確に読み
取れない。
【0007】ところで、蓄積されている文書の高度な利
用(たとえばテキストマイニング)の場合には、文書の
内容を自動的に判別する必要があるが、内容的に重要な
メッセージは段落要素よりも表、リスト(箇条書き)等
に含められることが多い。従来、空間的な特徴に基づく
レイアウト解析の場合には、その解析の困難性から表、
リスト(箇条書き)等の要素の解析を断念していた(あ
るいは要素が断片化されるため、その後の利用が困難で
あった)。しかしながら、むしろ後の高度利用を考慮す
れば、これら表、リスト(箇条書き)等の要素にこそ重
要なメッセージが内包されている可能性が高く、後の意
味解析にまで適用し得る形態で抽出することが望まれ
る。
【0008】本発明の目的は、表、箇条書き、多段組等
任意にレイアウトされた文書から意味のあるテキストブ
ロックを抽出する技術を提供することにある。
【0009】
【課題を解決するための手段】本願の発明の概略を説明
すれば、以下の通りである。すなわち、本発明は、空白
文字等のスペースにより任意にレイアウトされた文書か
ら、たとえば単語に代表されるトークン、1つまたは連
続した空白文字からなるスペース、またはこれらの結合
等文書を構成するオブジェクトを生成する。オブジェク
トは文書の空間位置に関連付けて生成する。そしてオブ
ジェクト間の接続候補を生成する。オブジェクトと接続
候補はグラフ理論の点(ノード)と辺(弧)に対応付け
ることができる。各リンクの妥当性を言語モデル(たと
えばNグラムモデル)により判断し、接続候補(リン
ク)が妥当であると判断されればオブジェクトを結合す
る。
【0010】このように文書を処理することにより、様
々にレイアウトされた文書において意味のあるテキスト
ブロックを効率的に抽出することが可能になる。
【0011】オブジェクト間に生成される接続候補(リ
ンク)は、オブジェクトの右側(横書き文書の場合)の
他のオブジェクトあるいは次行(横書き文書の場合)の
それより左側に位置するオブジェクトとの間に生成でき
る。
【0012】オブジェクトの生成にあたっては、1行内
の複数トークンあるいはスペースを結合して初期テキス
トブロックを生成できる。この時、列方向に連続するス
ペースをストリームとして定義し、このストリームの文
書内空間位置の情報を利用できる。つまり、ストリーム
で分断されるトークンは結合されず、ストリームで分断
されないトークンは結合される。
【0013】トークンの生成は、文書内空間座標に対応
付けて1文字ずつキャラクタを取得し、このキャラクタ
のタイプ(アルファベット文字であるか、記号である
か、空白文字であるか等)を判断できる。タイプが同じ
キャラクタが連続する場合には1つのトークンとして記
録できる。空白が連続する場合にはスペースとして記録
できる。
【0014】オブジェクト間の接続妥当性は、初期テキ
ストブロックの接続妥当性で評価できる。また、この評
価は複数段階行える。まず、複数のオブジェクト間の全
ての接続候補(接続可能性)において、単一要素のサブ
クラスタ(単一の入出次数を有するオブジェクトの集
合)を生成できる。そして、この単一要素サブクラスタ
における接続妥当性を言語モデルを用いて評価できる。
接続が妥当であれば、この単一要素サブクラスタを構成
するオブジェクト(初期テキストブロック)を結合(マ
ージ)できる。次に、マージした後のテキストブロック
間の接続妥当性を同様の手法により評価できる。このよ
うにして効率的に全ての接続候補を評価することができ
る。なお、接続候補が単一の場合には、言語モデルを用
いた評価を行うことなくその接続候補の接続元および接
続先のオブジェクト(初期テキストブロック、マージし
たテキストブロック)を結合できる。
【0015】
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。ただし、本発明は多くの異
なる態様で実施することが可能であり、本実施の形態の
記載内容に限定して解釈すべきではない。なお、実施の
形態の全体を通して同じ要素には同じ番号を付するもの
とする。
【0016】以下の実施の形態では、主に方法またはシ
ステムについて説明するが、当業者であれば明らかなと
おり、本発明は方法、システムの他、コンピュータで使
用可能なプログラムが記録された媒体としても実施でき
る。したがって、本発明は、ハードウェアとしての実施
形態、ソフトウェアとしての実施形態またはソフトウェ
アとハードウェアとの組合せの実施形態をとることがで
きる。プログラムが記録された媒体としては、ハードデ
ィスク、CD−ROM、光記憶装置または磁気記憶装置
を含む任意のコンピュータ可読媒体を例示できる。
【0017】本発明の文書処理方法は、一般的なコンピ
ュータシステムを用いて実現できる。本発明のシステム
は、スタンドアロンのコンピュータシステムまたは複数
のコンピュータシステムで構成されたコンピュータネッ
トワークで実現できる。図1(a)はスタンドアロンの
コンピュータを構成の概略を示し、図1(b)は、コン
ピュータネットワークの場合を示す。
【0018】コンピュータシステムには、中央演算処理
装置1(CPU)、主記憶装置2(メインメモリ:RA
M)、不揮発性記憶装置3(ROM)等を有し、バス4
で相互に接続される。バス4には、その他コプロセッ
サ、画像アクセラレータ、キャッシュメモリ、入出力制
御装置(I/O)等が接続されてもよい。また、バス4
には、適当なインターフェイスを介して外部記憶装置
5、データ入力デバイス6、表示デバイス7、通信制御
装置8等が接続される。その他、一般的にコンピュータ
システムに備えられるハードウェア資源を備えることが
可能なことは言うまでもない。
【0019】外部記憶装置5は代表的にはハードディス
ク装置が例示できるが、これに限られず、光磁気記憶装
置、光記憶装置、フラッシュメモリ等半導体記憶装置も
含まれる。なお、データの読み出しのみに利用できるC
D−ROM等の読み出し専用記憶装置もデータあるいは
プログラムの読み出しに適用する場合には外部記憶装置
に含まれる。
【0020】データ入力デバイス6には、キーボード等
の入力装置、マウス9等ポインティングデバイスを備え
ることができる。データ入力デバイスにはスキャナ等の
画像読み取り装置、音声入力装置も含む。表示装置7と
しては、CRT、液晶表示装置、プラズマ表示装置が例
示できる。
【0021】複数のコンピュータシステムで本発明を実
現する場合、図1(b)に示すように、各コンピュータ
システムは、LAN、WAN等で接続されていてもよ
く、また、インターネットを介して接続されても良い。
これら接続に用いられる通信回線は、専用線、公衆回線
の何れでも良い。コンピュータシステムには、パーソナ
ルコンピュータ10、ワークステーション11、メイン
フレームコンピュータ12等各種のコンピュータが含ま
れる。
【0022】コンピュータシステムが複数接続されたコ
ンピュータネットワークにおいては、一部のプログラム
をユーザのコンピュータで、一部のプログラムをリモー
トコンピュータで分散的に処理を実行できる。また、プ
ログラムで利用されるデータは、それがどのコンピュー
タに記録されているかは問われない。つまり、データの
所在に関する情報(アドレス)が明らかである限り、デ
ータあるいはプログラムの格納場所はコンピュータネッ
トワーク上の任意の場所とすることができる。各ネット
ワークコンピュータ間の通信には公知の通信技術を適用
でき、たとえばTCP/IP、HTTP等のプロトコル
を用いることができる。また、各記憶装置に記録された
各ファイル(データあるいはプログラム)の存在箇所
(アドレス)は、DNS、URL等を用いて特定でき
る。なお、本明細書においてインターネットという用語
には、イントラネットおよびエクストラネットも含むも
のとする。インターネットへのアクセスという場合、イ
ントラネットやエクストラネットへのアクセスをも意味
する。コンピュータネットワークという用語には、公的
にアクセス可能なコンピュータネットワークと私的なア
クセスしか許可されないコンピュータネットワークとの
両方が含まれるものとする。
【0023】次に、本明細書で用いる用語を説明する。
特に言及した場合を除き、本明細書では以下の概念で用
語を用いる。
【0024】「オブジェクト」は、以下に説明するキャ
ラクタ、スペース、トークン、テキストブロック等文書
を構成する要素を総称する。
【0025】「シンボル」とは、空白文字を含むキャラ
クタのセットであり、「キャラクタ」とは、a,b,c等の
アルファベット文字、記号等の独立したシンボルセット
をいう。図3に示す網掛けの部分21の「N」「S」
「H」「R」「R」はキャラクタの例である。なお、漢字
等の2バイト文字もキャラクタに含む。
【0026】「スペース」とは1行内の空白文字あるい
はその連続したものをいう。図3に示す網掛けの部分2
2はスペースの例である。2バイトの空白文字も含む
が、1バイト空白文字の2文字分の連続と等価である。
【0027】「トークン」とは同一行内のキャラクタま
たはその連続したものをいう。図3に示す網掛けの部分
23の「Exercise」はトークンの例である。
【0028】「テキストブロック」とはトークンのセッ
トである。テキストブロックはトークンが含まれる最小
面積の方形で表され、左上及び右下の座標で文書中の位
置が記述できる。図4に示す網掛け部分24はテキスト
ブロックの例であり、9個のトークン「Number」「of」
「Securities」「Underlying」「Options」「Granted」
「(」「#」「)」が含まれる。なお、テキストブロック
にはスペースが含まれてもよい。
【0029】後に説明するようにキャラクタおよびスペ
ースはトークンの生成に用いられ、トークンはテキスト
ブロックの生成に用いられる。トークン、スペースおよ
びテキストブロックは、その位置座標と共にデータベー
スに記録され蓄積される。このように位置座標と共にト
ークン、スペースおよびテキストブロック(オブジェク
ト)をデータベースに記録するため、これらオブジェク
トの文書における実際の位置検索が速やかにできるよう
になる。
【0030】また、本明細書ではオブジェクトの抽象化
のために「グラフ」、「グラフセット」、「単一要素サ
ブクラスタ」および「複雑度」の概念を用いる。
【0031】「グラフ」とはノード(点)と弧(辺)の
セットである。図5(a)にグラフの一例を示す。ノード
25間は方向を持つ弧26で接続される。弧26の始点
はソースであり弧の終点はシンクである。
【0032】「グラフセット」とは、グラフのセットで
ある。図5(b)にグラフセットの一例を示す。
【0033】「単一要素サブクラスタ」とは、グラフの
部分グラフであり、各々のノードから出る弧の数(出次
数)およびノードに入る弧の数(入次数)が1のグラフ
である。図6に単一要素サブクラスタの一例を示す。矢
印の左側に示すグラフから単一要素サブクラスタを抽出
したものが矢印の右側に示されている。2つのノード2
7,28については入次数が1であるが、そのソースで
あるノード29の出次数が2であるからノード27,2
8が除外されて単一要素サブクラスタが構成される。
【0034】グラフセットあるいはグラフを構成するノ
ードに関連するリンク(ノードに入出する弧数)の度合
いは複雑度で表される。「複雑度」とは、ソース(ノー
ド)から出るリンク(弧)の数とシンク(ノード)に入
るリンク(弧)の数の和である。従って、単一要素サブ
クラスタの複雑度は2となる。また、あるグラフセット
における最大複雑度は、グラフセット内の全ての弧にお
ける最大複雑度である。
【0035】本発明では、これらグラフの概念を用いて
文書を表現する。各ノードがテキストブロックに対応
し、弧がテキストブロック間のリンク(接続関係)に対
応する。シンク(弧の終点となるノード)はソース(弧
の始点となるノード)からの接続可能性のあるテキスト
ブロックを表す。単一のテキストブロックから複数の弧
が出ている場合には、複数のテキストブロックへの接続
可能性を有することになる。
【0036】また、本発明ではテキストブロックと同様
にスペースをグループ化してストリームを生成する。
「ストリーム」とは、文書内の各行において上下に位置
する各ノードを相互に接続したスペース(ノード)で構
成されるグラフである。ストリームの長さは上下に延び
る空白行の行数で表される。図7にストリームの一例を
示す。図示するようにスペース30の上下の広がりによ
り長さ5のストリームが構成されている。
【0037】以下、本実施の形態の文書処理方法を説明
する。まず、前記したようなシステムに処理対象となる
文書を入力する。入力はたとえばスキャナ等の読み取り
装置で入力されるほか、既に電子化された文書データと
して入力される。ただし、電子化された文書であって
も、空白文字、タブ等でレイアウトされている文書であ
れば十分であり、高度に構造化されている必要はない。
図2は、本システムに入力される文書の一例を示す図で
ある。図2に示す文書は文字等のキャラクタで構成され
た単一ファイルである。ここで、文書とは、一対の座標
で各々独立に特定される文字、空白等シンボルの集合と
定義できる。図2において、左上の位置を(0,0)と
し、横方向(x方向)に1文字づつx座標指標が増加
し、下方向(y方向)に1行ずつy指標が増加するよう
に座標を定義付ける。たとえば上から6行目の左側に表
示されているテキスト「Name」の「N」の座標は(2,
5)である。また、文書の行数はyの最大値maxyであ
り、行内におけるシンボルの数はxの最大値maxxであ
る。このように座標に関連付けて1文字ずつデータベー
スに記録する。なお、次に説明するトークン生成処理と
連動して、各行ごとに行の初めから1文字ずつ右方向に
シンボルを読み取る方式により入力されてもよい。
【0038】図8は本実施の形態の処理の概要を示した
フローチャートである。文書データを入力後、初期化処
理を行い(ステップ31)、次に単一要素サブクラスタ
の結合処理を行う(ステップ32)。その後、ユニーク
なリンクを有するクラスタ間を結合し(ステップ3
3)、最後に残ったクラスタのリンクを評価してテキス
トブロックを生成する(ステップ34)。
【0039】初期化処理を説明する。初期化処理は、4
つのステップで行われる。第1のステップはトークン生
成ステップである。第2のステップはストリーム生成ス
テップである。第3のステップは初期テキストブロック
の生成ステップであり、第4のステップは初期リンクの
生成ステップである。
【0040】図9は、トークン生成ステップの一例を示
したフローチャートである。ステップ40から処理を開
始する。文書データの列方向の指標yに0を代入して初
期化し(ステップ41)、yが最大行数maxyより小
さいかを判断する(ステップ42)。ステップ42の判
断がnoなら処理を終了し(ステップ43)、それ以外
は以下の処理を行う。なお、図中「=」の記号は代入記
号であり、以下同様である。
【0041】文書データの行方向の指標xに0を代入し
てxを初期化し(ステップ44)、変数startにxを代
入する(ステップ45)。xが最大文字数maxxを超
えないかを判断し(ステップ46)、ステップ46の判
断がnoならyを1つ増加して(ステップ47)ステッ
プ42に戻り、次行の処理に進む。それ以外の場合には
以下の処理(y行内のキャラクタのトークン化)を行
う。
【0042】まず、変数Tに関数char_type(x,y)の戻り
値を代入する(ステップ48)。関数char_type(x,y)
は、座標(x、y)の位置にあるシンボルのキャラクタ
タイプを戻り値として返す関数である。本実施の形態で
は、アルファベット、数字、句読点、スペースをキャラ
クタタイプとして考慮する。ただし、日本語等英語以外
の言語を処理する時には漢字等他の文字を考慮してもよ
いことは勿論である。
【0043】次に、char_type(x,y)の戻り値と変数Tの
値が等しいかを判断する(ステップ49)。なお、図中
「==」の記号は両辺の値が等しいか否かを判断する記
号であり、以下同様である。最初のループでは前記判断
は「真(yes)」になるのでステップ50に進みxを
1つ増加する。xがmaxx以下であることを判断し
(ステップ51)、yesであればステップ49に戻
る。xが1つ増加するのでステップ49ではy行内の隣
接するシンボルのタイプを検査することになる。シンボ
ルタイプが同じ(ステップ49の判断がyes)の場合
にはxがmaxxを超えない範囲でステップ50、51
のループを繰り返し、タイプの異なるシンボルが検出さ
れるまでこのループが繰り返される。異なるタイプのシ
ンボルが検出されると(ステップ49の判断がno)ス
テップ52に進み、変数tokenにこれら同一タイプの連
続するシンボルの座標が入力される(ステップ52)。
なお、ステップ51でnoと判断された場合(行末まで
処理が進んだ場合)にもステップ52に進む(ステップ
51)。
【0044】次にキャラクタタイプがスペースであるか
を判断する(ステップ53)。スペースであるときには
変数tokenをスペースデータベースに追記し(ステップ
54)、スペースでない場合には変数tokenをトークン
データベースに追記する(ステップ55)。その後ステ
ップ45に進み、前記処理を繰り返す。
【0045】このようにして入力文書のトークン化処理
が行われる。なお、前記の通りトークン化と同時にスペ
ースの検出も行われる。図10は、トークン化処理が終
了した後の文書の一例を示す。たとえば0行目に着目す
れば、xが0〜25の範囲でスペースが検出され、1つ
のスペース(token)としてスペースデータベースに記
録される。xが26〜35の範囲の「i」「n」「d」
「i」「v」「i」「d」「u」「a」「l」が同一タ
イプのキャラクタなのでトークン「individua
l」が生成され、トークンデータベースに記録される。
なお、トークン生成の手法としてchar_type関数を用い
る例を示したが、その他個別キャラクタからトークンを
発生させる方法は種種存在し、上記の手法には限られな
い。
【0046】次に、ストリーム生成手法を説明する。ス
トリームはスペースデータベースを用いて計算される。
図11は、ストリームサイズの計算方法の一例を示した
フローチャートである。文書データの列方向の指標yに
0を代入して初期化し(ステップ56)、yが最大行数
maxyより小さいかを判断する(ステップ57)。ス
テップ57の判断がnoなら処理を終了し(ステップ5
8)、それ以外は以下の処理を行う。
【0047】y行に存在するスペースを変数Sに代入し
(ステップ59)、変数nにSの数|S|を代入する
(ステップ60)。なお、|O|はオブジェクトOの数
を示すスカラー値であり、以下同様である。また、変数
Sはベクトル量であり、ベクトルの各要素にスペース
(オブジェクト)が代入される。以下変数A、変数Tに
おいて同様である。
【0048】変数iに0を代入して初期化し(ステップ
61)、iがnより小さいかを判断する(ステップ6
2)。ステップ62の判断がyesなら変数spaceにi
番目のスペースS[i]を代入し(ステップ63)、変
数Aにy−1行目におけるスペースのうち、スペースS
[i]のx方向位置が一致するスペースを代入する(ス
テップ64)。そして変数space.aboveに、スペースA
のうち何れかのスペースs'の持つ上部スペース数の最大
値(max s'.avobe)に1を加えた数を代入する(ステッ
プ65)。ここで、変数s.aboveには、スペースsの上部
にあるスペース数が記録されている。つまり前記処理に
より、スペースspaceの上部に存在するスペース数とし
て、スペースspaceにx方向位置が一致するベクトル量
Aの要素s'のうち最大の上部スペース数(max s'.avob
e)に1を加えた数が代入される。space.aboveは、spac
eの上部に存在する連続したスペースの数(行数)を示
す。
【0049】その後、iに1を加えて(ステップ6
6)、ステップ62に戻る。このようにしてy行目に存
在する各スペース(S)の上部にあるスペース数が計算
される。この操作をmaxyまで繰り返す(ステップ6
7)。
【0050】上記手段により任意のスペース上にあるス
ペース数が計算でき、所定の閾値を超えた時にはこれを
ストリームと判断してストリームデータベースに記録で
きる。図12は、ストリームを計算した後の結果を示す
文書である。網掛けブロックで示したスペース68がス
トリームを構成する。
【0051】次に、初期テキストブロックの生成方法を
説明する。初期テキストブロックは、トークンデータベ
ース、スペースデータベースおよびストリームデータベ
ースを用いて計算される。図13は初期テキストブロッ
クの計算方法の一例を示したフローチャートである。文
書データの列方向の指標yに0を代入して初期化し(ス
テップ69)、yが最大行数maxyより小さいかを判
断する(ステップ70)。ステップ70の判断がnoな
ら処理を終了し(ステップ71)、それ以外は以下の処
理を行う。
【0052】y行に存在するトークンを変数Tに代入し
(ステップ72)、y行に存在するスペースを変数Sに
代入する(ステップ73)。そして変数nにTの数|T
|を代入する(ステップ74)。前記した通り、変数T
はベクトル量であり、ベクトルの各要素にトークン(オ
ブジェクト)が代入される。
【0053】変数iに0を代入して初期化し(ステップ
75)、iがnより小さいかを判断する(ステップ7
6)。ステップ76の判断がyesならiがn−1であ
るかを判断する(ステップ77)。つまり現在のi番目
のトークンがy行における最後のトークンであるかを判
断する。このステップ77の判断がnoであるときには
変数tにi番目のトークンT[i]を代入する(ステッ
プ78)。その後変数sにトークンtの右側に位置する
スペースを代入する(ステップ79)。そして、スペー
スs(トークンtの右側に位置する)がストリームに属
するかを判断する(ステップ80)。s.stream関数はス
ペースsがストリームに属する時には新値を戻す関数で
ある。
【0054】ステップ80の判断がyes(トークンt
の右側のスペースがストリームである)の場合には、ト
ークンtをテキストブロックデータベースに追加する
(ステップ81)。なお、ステップ77でyes(トー
クンがy行における最後のトークンである)と判断され
た時にはステップ81に進む。
【0055】一方ステップ80の判断がnoである時に
はスペースsの大きさ|s|があらかじめ定めた最大ス
ペース値(maxspace)より大きいかを判断し(ステップ
82)、ステップ82の判断がyesの時にはステップ
81に進んでトークンtをテキストブロックデータベー
スに追加する。ステップ82の判断がnoの時にはトー
クンt’としてi+1番目のトークンT[i+1]を代
入し、さらにトークンtとt’とをマージしてトークン
tとする。さらにトークンT[i]にトークンtを代入
し、スペース列Sからスペースsを削除し、nから1を
減じる(ステップ83)。つまり、ストリームでない空
白の両側に位置するトークンをマージする処理を行う。
その後ステップ76に進んで上記処理を繰り返す。
【0056】なお、テキストブロックデータベースにト
ークンが記録された後は、iを1増加し(ステップ8
4)、ステップに進んで上記処理を繰り返す。
【0057】そしてステップ76でnoと判断された時
(1行分のトークンのマージ処理が終了した時)にはy
を1増加し(ステップ85)、ステップ70に戻って処
理を繰り返す。
【0058】すなわち、上記処理により、ストリームま
たは行の終端が検出されるまでは1行内のトークンはマ
ージされる。このマージされたトークンが初期テキスト
ブロックとして、テキストブロックデータベースに記録
される。
【0059】図14は、初期的テキストブロックが生成
された段階の文書の例を示す図である。前記処理フロー
より明らかな通り、この段階でのテキストブロックは1
行内でのトークンのマージに止まるため、その深さは1
である。また、同図に示すように、たとえば「Employee
s」と「in」との間の領域86のようにストリームの一
部であるスペースが初期テキストブロックの間に残る。
また、たとえば領域87のように、ストリームでないス
ペースによってもトークンがマージされない場合があ
る。つまり、ステップ82の判断において最大スペース
値(maxspace)を越えた場合である。
【0060】次に、初期リンクの生成を行う。初期リン
クはの生成は、テキストブロックデータベースとスペー
スデータベースを用いて計算する。図15は初期リンク
生成の一例を示したフローチャートである。文書データ
の列方向の指標yに0を代入して初期化し(ステップ8
8)、yが最大行数maxyより小さいかを判断する
(ステップ89)。ステップ89の判断がnoなら処理
を終了し(ステップ90)、yesなら以下の処理を行
う。
【0061】y行に存在するテキストブロックを変数T
に代入し(ステップ91)、変数nextにy+1を代入す
る(ステップ92)。次にnext行が空であるかを判断し
(ステップ93)、空である場合には変数nextをさらに
1つ増加し(ステップ94)、空でない場合にはそのま
ま次のステップ95に進む。ステップ95ではnext行に
存在するテキストブロックを変数T’に代入する。そし
て変数nにTの数|T|を代入する(ステップ96)。
【0062】変数iに0を代入して初期化し(ステップ
97)、iがnより小さいかを判断する(ステップ9
8)。ステップ98の判断がyesなら、変数tにi番
目のテキストブロックT[i]を代入した後(ステップ
99)、iがn−1であるかを判断する(ステップ10
0)。つまり現在のi番目のテキストブロックがy行に
おける最後のテキストブロックであるかを判断する。こ
のステップ100の判断がnoであるときには、変数
t’にi+1番目のテキストブロックT[i+1]を代
入し(ステップ101)、tとt’との間のスペースを
sに代入する(ステップ102)。sがストリームであ
るか(s.stream==true)もしくはsの大きさ|s|が最
大リンクスペース(max link space)を超えているかを
判断し(ステップ103)、ステップ103の判断がn
oの時にはtとt’との間にリンクを生成する(ステッ
プ104)。つまりステップ99からステップ104ま
での処理により、同一行内の隣接するテキストブロック
間にストリームでないスペースが存在しかつそのスペー
スの大きさ(長さ)が最大リンクスペースより小さい時
には隣接テキストブロック間にリンクを形成する。
【0063】次に変数Lにtよりも左側に存在するT’
内の全てのテキストブロックを代入する(ステップ10
5)。そして、tとLを構成する各々のテキストブロッ
ク間にリンクを生成する(ステップ106)。つまり、
着目しているテキストブロックtの次行(次行が空行の
時にはその次の行)に存在し、tよりも左側に位置する
テキストブロックの全てにリンクを形成する。なお、ス
テップ100、103においてその判断がyes(着目
テキストブロックtに右隣接するテキストブロックがな
い、あるいはストリームまたはスペースが大きくてリン
クを張るのが妥当でない)と判断された時にはステップ
105に進む。
【0064】上記のようにリンクを形成した後iを1増
加し(ステップ107)、ステップ98に進んで上記処
理を繰り返す。そしてステップ98でnoと判断された
時(1行分のテキストブロックについてリンク形成処理
が終了した時)にはyを1増加し(ステップ108)、
ステップ89に戻って処理を繰り返す。
【0065】すなわち、上記処理により、初期テキスト
ブロック間のリンクが形成される。このリンク生成の判
断基準は、隣接テキストブロック間のスペースがストリ
ームでないこと、スペースが予め定めた最大リンクスペ
ースを越えないこと、リンクの終点となるテキストブロ
ック(シンク)の位置が、リンクの始点となるテキスト
ブロック(ソース)の次行左側に位置することである。
このような条件を満たせば自動的に初期リンクが生成さ
れる。初期リンクはリンクのソース、シンクとなるテキ
ストブロックの情報とともにデータベースに記録される
のは勿論である。
【0066】以上のようにして初期化処理が終了する。
図16は初期化処理のステップを擬似コードで表した図
である。なお、擬似コードを表す図において左側に示し
た数字は行番号であり、以下同様である。
【0067】文書データdocをトークン化関数tokenize
に入力し、トークンtokensおよびスペースspacesを得る
(行番号1)。また、文書データdocをストリーム関数s
teamに入力し、ストリームstreamsを得る(行番号
2)。tokens、spaces、streamsを初期テキストブロッ
ク生成関数get_initial_blocksに入力し、初期テキスト
ブロックとしてtext_blocksを得る(行番号3)。text_
blocksを初期リンク生成関数get_initial_linksに入力
し、初期リンクとしてlinksを得る(行番号4)。そし
て、初期テキストブロックtext_blocksおよび初期リン
クlinksを文書グラフdocument_graphとしてストアする
(行番号5)。文書グラフは、text_blocksをノード、l
inksを弧とするグラフセットである。
【0068】次に、単一要素サブクラスタの結合処理
(ステップ32)を説明する。図17は単一要素サブク
ラスタ結合処理の一例を示した擬似コードを示す図であ
り、図18はそのフローチャートである。
【0069】まず、cluster関数を用いて文書をクラス
タ化する(行番号1)。クラスタ化されたデータはclus
ter_setに格納される。文書のクラスタ化は前記した初
期化処理で生成したテキストブロックとリンクで表現さ
れる文書からグラフを取り出すことにより行う。リンク
で結合されているテキストブロックの集合が1つのグラ
フに対応する。
【0070】次にcluster_setに含まれるクラスタcの
全てについてsub-cluster関数を用いてサブクラスタ化
する。抽出されたサブクラスタはsub_cluster_setに格
納される(行番号2,3、ステップ109,110)。
サブクラスタ化は、クラスタから単一要素のサブクラス
タを抽出する作業である。たとえば各ノードにおける弧
(リンク)の入次数および出次数が1となる条件(単一
要素サブクラスタの定義)を満足するかをチェックしな
がら抽出できる。
【0071】次にsub_cluster_set に含まれるサブクラ
スタsの全てについて、各サブクラスタsに含まれるリ
ンクの妥当性を言語モデルを用いて評価する(行番号4
〜6、ステップ111〜113)。リンクの妥当性は、
リンクの始点(ソース)のテキストブロックとリンクの
終点(シンク)のテキストブロックとが、言語モデルに
おいて高い確率で出現する表現であるかを評価すること
により行う。言語モデルにはたとえばNグラムモデルを
用いることができる。ただしNグラムモデルに限らず、
その他のモデルであっても構わない。評価が妥当である
場合にはソースとシンクのテキストブロックがマージさ
れる(号番号6、ステップ114)。
【0072】次に、クラスタ結合処理(ステップ33)
を説明する。図19はクラスタ結合処理の一例を示した
擬似コードを示す図であり、図20はそのフローチャー
トである。クラスタの結合処理は複雑度の小さなものか
ら順に行う。
【0073】まず、複雑度に3を代入しておき(行番号
1)、最大複雑度を取得する(行番号2)。次に複雑度
が最大複雑度よりも小さいときには以下の処理を行う
(行番号3)。
【0074】cluster関数を用いて文書をクラスタ化し
(行番号5)、cluster_setに含まれるクラスタcの全
てについて、各クラスタcに含まれるリンクの複雑度を
チェックする(行番号6〜8、ステップ115〜11
6)。リンクの複雑度が現ループの複雑度より小さけれ
ば(行番号8、ステップ116)、リンクがユニークに
妥当であると評価できるかを判断する(行番号9、ステ
ップ117)。判断の結果yesであれがリンクのソー
スとなるテキストブロックとシンクとなるテキストブロ
ックをマージする(行番号9、ステップ118)。なお
リンクがユニークに妥当であるかどうかとは、唯一確か
なリンクしか存在しないことをいう。たとえば「numbe
r」「of」間のリンクと「of」「of」間のリンクが並存
する場合、言語モデルからは「of」「of」間のリンクは
ありえない。この場合、「of」「of」間のリンクが取り
去られ、「number」「of」間のリンクが選択される。そ
して「number」「of」がマージされて新たなテキストブ
ロック「number of」が生成される。
【0075】次に、クラスタ間の接続評価ステップ(ス
テップ34)を説明する。図21はクラスタ間接続評価
処理の一例を示した擬似コードを示す図であり、図22
はそのフローチャートである。この処理はクラスタの結
合処理(ステップ33)と類似している。ステップ33
では複数のリンクを評価した時に、唯一選択し得るリン
クが存在する時にはこのリンクを選択する処理を行っ
た。ここでは、複数のリンクが存在し、何れも選択可能
な時の処理を説明する。なお、ステップ33と同様な事
項の説明は省略する。
【0076】ステップ34では、cluster_setに含まれ
るクラスタcの全てについて、各クラスタcに含まれる
リンクの順位付けを行う(行番号7、ステップ11
9)。順位付けられたリンクordered_linksに含まれる
各リンクについて(行番号8、ステップ120)、リン
クの複雑度をチェックし(行番号9、ステップ12
1)、リンクの妥当性評価に有意な差があるかを判断す
る(行番号10、ステップ122)。リンクの妥当性評
価には、たとえば言語モデルによる出現確率を用いるこ
とができる。出現確率が高いほど接続妥当性は高くな
る。なおその他の妥当性評価および有意差の判定手法を
用いることができることは勿論である。前記判断の結果
yesであれがリンクのソースとなるテキストブロック
とシンクとなるテキストブロックをマージする(行番号
10、ステップ123)。なお、有意差が見られない時
にはリンクは並存したままである。
【0077】このようにして空白でレイアウトされた文
書から意味のあるテキストブロックを自動的に生成でき
る。図23は最終的な処理後の出力の一例を示した図で
ある。言語モデルにより妥当と判断された接続をマージ
して得られたテキストを含むテキストブロックが表示さ
れている。図示するように本実施の形態の処理によるテ
キストブロックは原文書の空間座標情報を維持したまま
出力される。つまり最終的なテキストブロックの位置
は、文書の位置座標で特定できる。たとえばテキストブ
ロックの左上の座標と右下の座標で位置が特定される。
このように原文書の空間情報が維持され、かつ、各テキ
ストブロック内のテキストは言語モデルで保証された意
味のある内容を含む。このため、本実施の形態の処理方
法を前処理手段として高度な自然言語処理(たとえばテ
キストマイニングや機械翻訳)を原文書の内容を欠落す
ることなく適用できる。さらに、本実施の形態の文書処
理方法は、空間的な位置情報とスペースを利用してテキ
ストブロックを生成するので、複雑なレイアウトを持つ
文書にも容易に適用することが可能である。このため、
適用の対象となる文書の範囲を広げ、より汎用的な文書
処理に供することができる。
【0078】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能である。
【0079】たとえば、入力文書には、前記実施の形態
で用いた表に限らず、2段組等の複数段表示文書、リス
ト、表題が付された文書、ダブルスペース文書、マルチ
カラムセルあるいはマルチロウセルを有する表文書、サ
ブセルを有する表文書、省略形のリストあるいは表等の
文書にも適用できる。適用可能な文書の例を図24の示
す。
【0080】また、日本語等縦書きを含む文書にも適用
できる。前記実施の形態では横書き文書を前提に説明し
たが、縦書き文書に適用するようにアルゴリズムを変更
することは容易である。また、横書きと縦書きが混在す
るような文書にも適用できる。
【0081】さらに1つのテキストが複数のテキストに
かかる場合や、複数のテキストが1つのテキストにかか
る場合のように文書間のかかり受けが複雑になる場合に
も本実施の形態を用いれば正確に把握できる。この場合
1つのオブジェクト(テキストブロック)に複数のリン
クが入る(または出る)状態で記録される。
【0082】また、前記実施の形態では、単一要素のサ
ブクラスタにおけるテキストブロック結合処理(ステッ
プ32)、クラスタ結合処理(ステップ33)、および
クラスタ間接続評価(ステップ34)の全てのステップ
を有する例を説明したが、ステップ32あるいはステッ
プ34については必須のステップではない。入力文書に
よっては単一要素サブクラスタが存在しない場合があ
り、また、唯一のリンク可能性が発見できない場合もあ
る。この場合、ステップ34のテキストブロックの接続
評価により、本実施の形態と同じ文書出力を得ることが
できる。ただし、ステップ32、33を入れることによ
り処理の効率化が図れる。
【0083】
【発明の効果】本願で開示される発明により、表、箇条
書き、多段組等任意にレイアウトされた文書から意味の
あるテキストブロックを抽出することができる。
【図面の簡単な説明】
【図1】(a)はスタンドアロンのコンピュータを構成
の概略を示し、(b)は、コンピュータネットワークの
場合を示す。
【図2】本システムに入力される文書の一例を示す図で
ある。
【図3】キャラクタ、スペース、トークンの例を示す図
である。
【図4】テキストブロックの例を示す図である。
【図5】(a)はグラフの一例を示し、(b)はにグラフセッ
トの一例を示す図である。
【図6】単一要素サブクラスタの一例を示す図である。
【図7】ストリームの一例を示す図である。
【図8】本発明の一実施の形態である処理の概要を示し
たフローチャートである。
【図9】トークン生成ステップの一例を示したフローチ
ャートである。
【図10】トークン化処理が終了した後の文書の一例を
示す図である。
【図11】ストリームサイズの計算方法の一例を示した
フローチャートである。
【図12】ストリームを計算した後の結果の一例を示す
図である。
【図13】初期テキストブロックの計算方法の一例を示
したフローチャートである。
【図14】初期的テキストブロックが生成された段階の
文書の一例を示す図である。
【図15】初期リンク生成の一例を示したフローチャー
トである。
【図16】初期化処理のステップを擬似コードで表した
図である。
【図17】単一要素サブクラスタ結合処理の一例を示し
た擬似コードを示す図である。
【図18】単一要素サブクラスタ結合処理の一例を示し
たフローチャートである。
【図19】クラスタ結合処理の一例を示した擬似コード
を示す図である。
【図20】クラスタ結合処理の一例を示したフローチャ
ートである。
【図21】クラスタ間接続評価処理の一例を示した擬似
コードを示す図である。
【図22】クラスタ間接続評価処理の一例を示したフロ
ーチャートである。
【図23】最終的な処理後の出力の一例を示した図であ
る。
【図24】入力文書のその他の例を示す表図である。
【符号の説明】
1…中央演算処理装置、2…主記憶装置、3…不揮発性
記憶装置、4…バス、5…外部記憶装置、6…データ入
力デバイス、7…表示デバイス(表示装置)、8…通信
制御装置、9…マウス、10…パーソナルコンピュー
タ、11…ワークステーション、12…メインフレーム
コンピュータ、25,27,29…ノード、26…弧、
T,t…テキストブロックまたはトークン、c…クラス
タ、maxx…最大文字数、maxy…最大行数、s…
サブクラスタまたはスペース。
フロントページの続き (72)発明者 マシュー・フランシス・ハースト 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 那須川 哲哉 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B009 NA01 5B050 BA16 CA07 GA08 5B075 ND26

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 文書処理システムにおいて空白文字また
    はタブその他のスペースで文字がレイアウトされている
    文書から意味のあるテキストブロックを抽出する文書処
    理方法であって、 前記文書から文字、記号、空白文字その他シンボルで構
    成されるオブジェクトを生成するステップと、 前記オブジェクト間の接続候補を生成するステップと、 前記接続候補の接続の妥当性を言語モデルを用いて評価
    するステップと、 を含む文書処理方法。
  2. 【請求項2】 前記接続候補の接続が妥当であると判断
    された場合には、前記接続候補の接続元および接続先の
    前記オブジェクトを結合するステップをさらに含む請求
    項1記載の文書処理方法。
  3. 【請求項3】 前記オブジェクトは、前記文書の空間位
    置を示す座標に関連付けられて生成される請求項1また
    は2記載の文書処理方法。
  4. 【請求項4】 前記オブジェクトの結合により前記テキ
    ストブロックが生成され、前記テキストブロックは、前
    記オブジェクトを含む最小面積の方形領域で定義され、
    前記文書における前記方形領域の対角2点の座標で位置
    が特定される請求項3記載の文書処理方法。
  5. 【請求項5】 前記オブジェクト間の接続候補は、接続
    元オブジェクトの右方に隣接するオブジェクトとの接
    続、または、前記接続元オブジェクトが存在する行の次
    行に存在し、前記接続元オブジェクトより左方に位置す
    る何れかのオブジェクトとの接続である請求項1〜4の
    何れか一項に記載の文書処理方法。
  6. 【請求項6】 前記言語モデルはnグラムモデルである
    請求項1〜5の何れか一項に記載の文書処理方法。
  7. 【請求項7】 前記オブジェクトの生成ステップには、 前記文書の空間座標に関連付けて、前記座標毎のシンボ
    ルを取得するステップと、 前記文書の1行内の前記シンボルのタイプを判断し、1
    つまたは連続する文字、記号その他のキャラクタで構成
    されるトークン、または、1つまたは連続する空白文字
    で構成されるスペースを生成するステップと、 前記スペースの上下方向の隣接関係を判断し、複数行に
    わたるスペースで構成されるストリームを生成するステ
    ップと、 前記トークンと前記ストリームとの位置関係を判断し、
    前記トークンまたは空白文字を含む初期テキストブロッ
    クを生成するステップと、 を含む請求項1〜6の何れか一項に記載の文書処理方
    法。
  8. 【請求項8】 前記トークンまたはスペースを生成する
    ステップにおいて、前記タイプが空白文字でないと判断
    され、前記行内において隣接するシンボルの前記タイプ
    が同じであると判断された場合には、前記シンボルを連
    続するキャラクタで構成される1つのトークンとして記
    録し、前記タイプが空白文字であると判断された場合に
    は前記シンボルを1つまたは連続するスペースとして記
    録し、 前記ストリームを生成するステップにおいて、前記スペ
    ースが異なる行において上または下の方向に隣接すると
    判断された時には前記スペースをストリームとして記録
    し、 前記オブジェクトの生成ステップにおいて、1行内の2
    つのトークンに挟まれたスペースがストリームでない場
    合には、前記2つのトークンとその間のスペースを初期
    テキストブロックとして結合する請求項7記載の文書処
    理方法。
  9. 【請求項9】 前記初期テキストブロックとその接続候
    補の全てとを生成するステップと、 前記初期テキストブロックおよび接続候補の全てから単
    一要素の初期テキストブロックおよび接続候補を抽出す
    るステップと、 前記単一要素の初期テキストブロックおよび接続候補の
    接続妥当性を言語モデルを用いて判断するステップと、 前記接続妥当性が妥当であると判断された時には、前記
    単一要素の初期テキストブロックを結合するステップ
    と、 を含む請求項7または8記載の文書処理方法。
  10. 【請求項10】 前記オブジェクト、初期テキストブロ
    ックまたはそれらが結合されたテキストブロックとの間
    に単一の接続候補のみが存在する時には、言語モデルを
    用いた接続妥当性を判断することなくこれらを結合する
    請求項1〜9の何れか一項に記載の文書処理方法。
  11. 【請求項11】 空白文字またはタブその他のスペース
    で文字がレイアウトされている文書から意味のあるテキ
    ストブロックを抽出する文書処理システムであって、 前記文書から文字、記号、空白文字その他シンボルで構
    成されるオブジェクトを生成する手段と、 前記オブジェクト間の接続候補を生成する手段と、 前記接続候補の接続の妥当性を言語モデルを用いて評価
    する手段と、 を含む文書処理システム。
  12. 【請求項12】 前記接続候補の接続が妥当であると判
    断された場合には、前記接続候補の接続元および接続先
    の前記オブジェクトを結合する手段をさらに含む請求項
    11記載の文書処理システム。
  13. 【請求項13】 前記オブジェクトは、前記文書の空間
    位置を示す座標に関連付けられて生成される請求項11
    または12記載の文書処理システム。
  14. 【請求項14】 前記オブジェクトの結合により前記テ
    キストブロックが生成され、前記テキストブロックは、
    前記オブジェクトを含む最小面積の方形領域で定義さ
    れ、前記文書における前記方形領域の対角2点の座標で
    位置が特定される請求項13記載の文書処理システム。
  15. 【請求項15】 前記オブジェクト間の接続候補は、接
    続元オブジェクトの右方に隣接するオブジェクトとの接
    続、または、前記接続元オブジェクトが存在する行の次
    行に存在し、前記接続元オブジェクトより左方に位置す
    る何れかのオブジェクトとの接続である請求項11〜1
    4の何れか一項に記載の文書処理システム。
  16. 【請求項16】 前記言語モデルはnグラムモデルであ
    る請求項11〜15の何れか一項に記載の文書処理シス
    テム。
  17. 【請求項17】 前記オブジェクトの生成手段には、 前記文書の空間座標に関連付けて、前記座標毎のシンボ
    ルを取得する手段と、 前記文書の1行内の前記シンボルのタイプを判断し、1
    つまたは連続する文字、記号その他のキャラクタで構成
    されるトークン、または、1つまたは連続する空白文字
    で構成されるスペースを生成する手段と、 前記スペースの上下方向の隣接関係を判断し、複数行に
    わたるスペースで構成されるストリームを生成する手段
    と、 前記トークンと前記ストリームとの位置関係を判断し、
    前記トークンおよび空白文字を含む初期テキストブロッ
    クを生成する手段と、 を含む請求項11〜16の何れか一項に記載の文書処理
    システム。
  18. 【請求項18】 前記トークンまたはスペースを生成す
    る手段において、前記タイプが空白文字でないと判断さ
    れ、前記行内において隣接するシンボルの前記タイプが
    同じであると判断された場合には、前記シンボルを連続
    するキャラクタで構成される1つのトークンとして記録
    し、前記タイプが空白文字であると判断された場合には
    前記シンボルを1つまたは連続するスペースとして記録
    し、 前記ストリームを生成する手段において、前記スペース
    が異なる行において上または下の方向に隣接すると判断
    された時には前記スペースをストリームとして記録し、 前記オブジェクトの生成手段において、1行内の2つの
    トークンに挟まれたスペースがストリームでない場合に
    は、前記2つのトークンとその間のスペースを初期テキ
    ストブロックとして結合する請求項17記載の文書処理
    システム。
  19. 【請求項19】 前記初期テキストブロックとその接続
    候補の全てとを生成する手段と、 前記初期テキストブロックおよび接続候補の全てから単
    一要素の初期テキストブロックおよび接続候補を抽出す
    る手段と、 前記単一要素の初期テキストブロックおよび接続候補の
    接続妥当性を言語モデルを用いて判断する手段と、 前記接続妥当性が妥当であると判断された時には、前記
    単一要素の初期テキストブロックを結合する手段と、 を含む請求項17および18記載の文書処理システム。
  20. 【請求項20】 前記オブジェクト、初期テキストブロ
    ックまたはそれらが結合されたテキストブロックとの間
    に単一の接続候補のみが存在する時には、言語モデルを
    用いた接続妥当性を判断することなくこれらを結合する
    請求項11〜19の何れか一項に記載の文書処理システ
    ム。
  21. 【請求項21】 空白文字またはタブその他のスペース
    で文字がレイアウトされている文書から意味のあるテキ
    ストブロックを抽出するプログラムが記録されたコンピ
    ュータ可読な記録媒体であって、前記プログラムは、 前記文書から文字、記号、空白文字その他のシンボルで
    構成されるオブジェクトを生成し、 前記オブジェクト間の接続候補を生成し、 前記接続候補の接続の妥当性を言語モデルを用いて評価
    し、 前記接続候補の接続が妥当であると判断された場合に
    は、前記接続候補の接続元および接続先の前記オブジェ
    クトを結合する手順をコンピュータに実行させるもので
    ある記録媒体。
JP2000190335A 2000-06-23 2000-06-23 文書処理方法、文書処理システムおよび媒体 Pending JP2002032770A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000190335A JP2002032770A (ja) 2000-06-23 2000-06-23 文書処理方法、文書処理システムおよび媒体
US09/891,080 US7046847B2 (en) 2000-06-23 2001-06-25 Document processing method, system and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000190335A JP2002032770A (ja) 2000-06-23 2000-06-23 文書処理方法、文書処理システムおよび媒体

Publications (1)

Publication Number Publication Date
JP2002032770A true JP2002032770A (ja) 2002-01-31

Family

ID=18689820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000190335A Pending JP2002032770A (ja) 2000-06-23 2000-06-23 文書処理方法、文書処理システムおよび媒体

Country Status (2)

Country Link
US (1) US7046847B2 (ja)
JP (1) JP2002032770A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8907889B2 (en) 2005-01-12 2014-12-09 Thinkoptics, Inc. Handheld vision based absolute pointing system
US8913003B2 (en) 2006-07-17 2014-12-16 Thinkoptics, Inc. Free-space multi-dimensional absolute pointer using a projection marker system
US9176598B2 (en) 2007-05-08 2015-11-03 Thinkoptics, Inc. Free-space multi-dimensional absolute pointer with improved performance

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524259A (ja) * 2000-02-22 2003-08-12 メタカルタ インコーポレイテッド 情報の空間符号化及び表示
US7296228B2 (en) * 2002-12-17 2007-11-13 International Business Machines Corporation Document editing by blocks and groups
TWI221989B (en) * 2002-12-24 2004-10-11 Ind Tech Res Inst Example-based concept-oriented data extraction method
AU2006263703A1 (en) * 2005-06-28 2007-01-04 Nokia Corporation User interface for geographic search
JP2009526327A (ja) 2006-02-10 2009-07-16 メタカータ・インコーポレーテッド メディアオブジェクトについての空間サムネイルおよびコンパニオンマップのためのシステムおよび方法
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US20080010273A1 (en) * 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
US20080065685A1 (en) * 2006-08-04 2008-03-13 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
US9721157B2 (en) * 2006-08-04 2017-08-01 Nokia Technologies Oy Systems and methods for obtaining and using information from map images
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
WO2008019348A2 (en) * 2006-08-04 2008-02-14 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
WO2008055234A2 (en) * 2006-10-31 2008-05-08 Metacarta, Inc. Systems and methods for predictive models using geographic text search
WO2009075689A2 (en) 2006-12-21 2009-06-18 Metacarta, Inc. Methods of systems of using geographic meta-metadata in information retrieval and document displays
CN107145584B (zh) * 2017-05-10 2020-06-19 西南科技大学 一种基于n-gram模型的简历解析方法
US20210248167A1 (en) * 2017-12-12 2021-08-12 Darvis Inc. System and method for generating data visualization and object detection
CN112434510B (zh) * 2020-11-24 2024-03-29 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01260589A (ja) * 1988-04-12 1989-10-17 Fujitsu Ltd 文字列抽出方式
JPH028976A (ja) * 1988-06-28 1990-01-12 Matsushita Electric Ind Co Ltd 文字認識装置
JPH02288991A (ja) * 1989-02-17 1990-11-28 Fuji Electric Co Ltd 文書処理装置
JPH05334490A (ja) * 1992-05-29 1993-12-17 Fuji Xerox Co Ltd 表認識装置
JPH06139404A (ja) * 1992-10-27 1994-05-20 Fuji Xerox Co Ltd 表認識装置
JPH06203020A (ja) * 1992-12-29 1994-07-22 Hitachi Ltd テキストフォーマット認識生成方法および装置
JPH11191135A (ja) * 1997-09-10 1999-07-13 Ricoh Co Ltd 文書画像の日本語英語判定方法、文書認識方法および記録媒体

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2158980B (en) * 1984-03-23 1989-01-05 Ricoh Kk Extraction of phonemic information
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
NL1000701C2 (nl) * 1995-06-30 1996-12-31 Oce Nederland Bv Inrichting en werkwijze voor het extraheren van artikelen uit een document.
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
JP4100746B2 (ja) * 1998-01-09 2008-06-11 キヤノン株式会社 画像処理装置及び方法
US6532302B2 (en) * 1998-04-08 2003-03-11 Canon Kabushiki Kaisha Multiple size reductions for image segmentation
US6360010B1 (en) * 1998-08-12 2002-03-19 Lucent Technologies, Inc. E-mail signature block segmentation
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US6711292B2 (en) * 1998-12-30 2004-03-23 Canon Kabushiki Kaisha Block selection of table features
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6792145B2 (en) * 2001-04-20 2004-09-14 Robert W. Gay Pattern recognition process for text document interpretation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01260589A (ja) * 1988-04-12 1989-10-17 Fujitsu Ltd 文字列抽出方式
JPH028976A (ja) * 1988-06-28 1990-01-12 Matsushita Electric Ind Co Ltd 文字認識装置
JPH02288991A (ja) * 1989-02-17 1990-11-28 Fuji Electric Co Ltd 文書処理装置
JPH05334490A (ja) * 1992-05-29 1993-12-17 Fuji Xerox Co Ltd 表認識装置
JPH06139404A (ja) * 1992-10-27 1994-05-20 Fuji Xerox Co Ltd 表認識装置
JPH06203020A (ja) * 1992-12-29 1994-07-22 Hitachi Ltd テキストフォーマット認識生成方法および装置
JPH11191135A (ja) * 1997-09-10 1999-07-13 Ricoh Co Ltd 文書画像の日本語英語判定方法、文書認識方法および記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8907889B2 (en) 2005-01-12 2014-12-09 Thinkoptics, Inc. Handheld vision based absolute pointing system
US8913003B2 (en) 2006-07-17 2014-12-16 Thinkoptics, Inc. Free-space multi-dimensional absolute pointer using a projection marker system
US9176598B2 (en) 2007-05-08 2015-11-03 Thinkoptics, Inc. Free-space multi-dimensional absolute pointer with improved performance

Also Published As

Publication number Publication date
US7046847B2 (en) 2006-05-16
US20020016796A1 (en) 2002-02-07

Similar Documents

Publication Publication Date Title
JP2002032770A (ja) 文書処理方法、文書処理システムおよび媒体
US9069855B2 (en) Modifying a hierarchical data structure according to a pseudo-rendering of a structured document by annotating and merging nodes
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP5031741B2 (ja) 文書視覚構造の文法的な解析
JP5576003B1 (ja) コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
US20120197908A1 (en) Method and apparatus for associating a table of contents and headings
Zheng et al. Template-independent news extraction based on visual consistency
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
JP2008191833A (ja) 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
CN110287784B (zh) 一种年报文本结构识别方法
US20050050086A1 (en) Apparatus and method for multimedia object retrieval
CN109165373B (zh) 一种数据处理方法及装置
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
CN114970543A (zh) 一种众包设计资源的语义分析方法
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
Zhang et al. A tag recommendation system based on contents
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Liu et al. Structured data extraction: wrapper generation
JP2011070529A (ja) 文書処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040428

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040727

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040730

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050315

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050420

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050520

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070306

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20070326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070326

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070807