JP2004086846A - 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体 - Google Patents

情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004086846A
JP2004086846A JP2003002981A JP2003002981A JP2004086846A JP 2004086846 A JP2004086846 A JP 2004086846A JP 2003002981 A JP2003002981 A JP 2003002981A JP 2003002981 A JP2003002981 A JP 2003002981A JP 2004086846 A JP2004086846 A JP 2004086846A
Authority
JP
Japan
Prior art keywords
division
information
document
pattern
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003002981A
Other languages
English (en)
Inventor
Tokuji Ikeno
池野 篤司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003002981A priority Critical patent/JP2004086846A/ja
Priority to US10/603,835 priority patent/US20040034836A1/en
Publication of JP2004086846A publication Critical patent/JP2004086846A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】メールマガジン等のような明確な構造情報を持っていない電子文書の各情報を、適切に分割する。
【解決手段】本発明では、入力された電子文書を、分割行に表れ得る所定の文字列を規定する分割パターンと照合して、複数の部分文書に分割する。その後、分割された各部分文書をそれぞれ、分類を特定し得る所定の文字列を規定する、分類情報が付与されているラベリングパターンと照合して、分類情報を付与することが好ましい。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体に関し、特に、複数の情報が記載されている電子文書内の情報を分割して分類しようとするものである。
【0002】
【従来の技術】
近年、インターネット等のネットワーク技術の普及により国内外の大量の電子文書へのアクセスが可能になり、大量の電子文書情報を分類する等の知的作業の自動化の必要性が高まってきている。
【0003】
昨今発展を見せている電子文書の入手方法の一つに、メールマガジン(メールによる雑誌・新聞に類したもの)があげられる。これは、購読希望者に複数の情報をまとめて一つの電子メールに記載して送るというものである。
【0004】
このような電子メールは、複数の情報を記載した電子文書と見なすことができ、その情報を分類するためには電子文書内の各情報を適切に分割してやる必要がある。
【0005】
【特許文献1】特開2000−285140号公報
特許文献1には、文書データの構造情報(HTMLのタグや文字のフォント情報など)を基に文書データを分割する手段や、文書要素(例えば単語)や要素付随情報(例えば品詞)を基に文書データを分割する手段を設けることにより、情報の分類の一助としている装置の例が示されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上記公報記載の装置では、メールマガジンのように明確な構造情報を持っていない電子文書には適用できないという問題がある。
【0007】
また、仮に、あるメールマガジンを適切に分割する情報を指定したとしても、複数のメールマガジンを受け取っている場合、各々が異なる種類の分割情報(分割パターン)を必要とする可能性が高く、メールマガジンの種類によっては、適切な分割パターンを選択して分割することができないという課題がある。
【0008】
さらに、受け取るメールマガジンが増加すれば、分割パターンの種類も増加するが、それらを人手で指定するのは手間がかかるという課題がある。
【0009】
そのため、メールマガジン等のような明確な構造情報を持っていない電子文書の各情報を、適切に分割できる情報区分装置等が望まれている。
【0010】
【課題を解決するための手段】
第1の本発明の情報区分装置は、入力された電子文書中の情報を区分するものであって、(1)分割行に表れ得る所定の文字列を規定する1又は複数の分割パターンを記憶している分割パターン記憶手段と、(2)入力された上記電子文書を上記分割パターン記憶手段に記憶されている上記分割パターンと照合して、上記電子文書を、複数の部分文書に分割する文書分割手段とを備えることを特徴とする。
【0011】
第2の本発明の情報区分方法は、入力された電子文書中の情報を区分するものであって、入力された上記電子文書を、分割行に表れ得る所定の文字列を規定する分割パターンと照合して、上記電子文書を、複数の部分文書に分割する文書分割工程を有することを特徴とする。
【0012】
第3の本発明の情報区分プログラムは、第2の本発明の情報区分方法の工程をコンピュータが処理し得るコードで記述したことを特徴とする。
【0013】
第4の本発明の記録媒体は、第3の本発明の情報区分プログラムを記録していることを特徴とする。
【0014】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体の第1の実施形態を図面を参照しながら詳述する。
【0015】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の情報区分装置の機能的構成を示すブロック図である。例えば、第1の実施形態の情報区分装置は、通信機能を有するパソコン等の情報処理装置に対し、CD−ROMやフロッピー(登録商標)ディスク等の記録媒体に記録されている情報区分プログラムをインストールすることで実現されるが、機能的には、図1で表すことができる。
【0016】
図1において、第1の実施形態の情報区分装置は、文書種類判別部1と、文書分割部2と、ラベリング部3と、判別パターンデータ記憶部4と、分割パターンデータ記憶部5と、ラベリングパターンデータ記憶部6とを有する。
【0017】
文書種類判別部1は、判別パターンデータ記憶部4の判別パターンデータを参照して、適用すべき分割パターンとラベリングパターンを決定するために、入力された電子文書(適宜、文書と呼ぶ)の種類を判別するものである。
【0018】
なお、この第1の実施形態では、複数の全く異なる情報が一つの電子文書内に含まれている電子文書(例えばニュースのメールマガジン)を入力対象としているものである。また、構造情報は持たないが、人間が簡単に認識できるように記号などの表層情報を用いて明示的に内容の区切りが記述されている電子文書を入力対象としているものである。
【0019】
文書分割部2は、文書種類判別部1の判別結果(すなわち、電子文書の種類)により決定された、分割パターンデータ記憶部5中の分割パターンデータを適用して、入力された電子文書を分割するものである。
【0020】
ラベリング部3は、文書種類判別部1の判別結果(すなわち、電子文書の種類)結果により決定された、ラベリングパターンデータ記憶部6中のラベリングパターンデータを適用して、文書分割部2により分割された入力文書の各部分に対してラベリングを行なうものである。
【0021】
判別パターンデータ記憶部4に記憶されている判別パターンデータは、文書種類判別部1が電子文書の種別を判別するためのデータの集合である。最も単純な形式の判別パターンとしては、特定の文字列(例えば、メールマガジンであれば、メールマガジンのタイトルやID番号)が挙げられる。
【0022】
図2は、判別パターンデータの一例を示している。各レコードは、文書種類と、その文書種類に適用する判別パターンとを含んでいる。図2に示すように、ある種類の電子文書に対し、複数の判別パターンデータが存在していても構わない。
【0023】
分割パターンデータ記憶部5に記憶されている分割パターンデータは、文書分割部2が電子文書を分割するためのデータであり、例えば、図3に示すような文書種類と分割パターンとを対応付けたデータである。図3の分割パターンは、正規表現で記載されているので、パターン中の記号「^」は「行頭」、「.」は「任意の一文字」、「*」は「直前の文字が0回以上出現する」ことを意味している。例えば、図3における「^====.*」は、「行頭から半角のイコール記号『=』が4回出現した後にある文字が0回以上出現する」というパターンを示していることになる。図3に示すように、ある種類の電子文書に対し、複数の分割パターンデータが存在していても構わない。また、電子文書の種類を問わずに適用する分割パターンデータを設けていても良い。
【0024】
ラベリングパターンデータ記憶部6に記憶されているラベリングパターンデータは、文書分割部2が分割した電子文書の各部分(各情報)に対して、ラベリング部3が分類情報を付与する(ラベリングを行なう)ためのデータであり、図4に示すような、文書種類と、ラベリングパターンと、ラベル名とを対応付けたデータの集合である。図4に示すラベリングパターンも、正規表現で記載されている。図4に示すように、ある種類の電子文書に対し、通常、複数のラベリングパターンデータが存在する。また、電子文書の種類を問わずに適用するラベリングパターンデータを設けていても良い。
【0025】
(A−2)第1の実施形態の動作
以下、第1の実施形態の情報区分装置の動作(情報区分方法)を、各構成要素1〜3毎の動作で説明する。
【0026】
まず、文書種類判別部1の動作を説明する。
【0027】
文書種類判別部1は、判別パターンデータ記憶部4に記憶されている各パターンデータを用いて、入力された電子文書内をパターンマッチさせることにより文書種類を判別する。なお、入力文書は、ネットワークを介して取り込んでも良く、記憶媒体から取り出しても良く、その入力方法は任意である。
【0028】
ここで、入力文書が図5に示すような電子文書であった場合には、図2における第1番目や第2番目のパターンデータの存在により、図5の電子文書は「ビジネスメールマガジン1」という種別であると判別される。
【0029】
なお、複数のパターンデータがマッチし、かつ、その判別結果が矛盾する場合には、多数決(マッチ数が多いもの)により決定したり、矛盾が生じる旨をユーザに通知するなどの機能を設けても良い。
【0030】
次に、文書分割部2の動作を説明する。
【0031】
文書分割部2は、上述したように、分割パターンデータ記憶部5に記憶されている、判別された文書種類の各分割パターンデータを用いて、入力された電子文書を複数の部分文書(情報)に分割する。
【0032】
図5の電子文書が、文書種類判別部1によって「ビジネスメールマガジン1」という種別と判別されたので、図3の第1番目及び第2番目の分割パターンが適用可能である。すなわち、(1)先頭から「−」(半角のハイフン)が一定数以上連続している、(2)先頭から「=」(半角の等号)が一定数以上連続している、の部分が分割パターンとなるので、その位置(行)で入力文書を部分文書(情報)に分割する。
【0033】
分割後の各部分文書は、データ全般を記憶している記憶装置上に元データとは別に記憶されることになる。なお、各部分文書の記憶部は、文書分割部2に含まれているように、図1では示している。
【0034】
また、分割に用いた分割パターンそのものは、(1)分割後の部分文書には含めない(分割パターンは削除される)、(2)分割位置の前後の部分文書のいずれかに含める、(3)分割位置の前後の両方の部分文書に含める(パターンは複製される)、のいずれかの方法を適用する。
【0035】
分割パターンの取扱いについて(2)の方法を適用した場合には、図5の入力文書は、図6に示すような5個の部分文書に分割される。
【0036】
次に、ラベリング部3の動作を説明する。
【0037】
ラベリング部3は、上述したように、ラベリングパターンデータ記憶部6に記憶されている、判別された文書種類の各ラベリングパターンデータを用いて、パターンがマッチした部分文書をラベリングする。
【0038】
図5(図6)の電子文書が文書種類判別部1によって「ビジネスメールマガジン1」という種別と判別されたので、図4の第1番目〜第4番目のラベリングパターンデータが利用され、その結果、部分文書1に対して「広告」、部分文書2に対して「タイトル」、部分文書3及び4に対して「記事本文」、部分文書5に対して「注釈」のようにラベリングされる。
【0039】
例えば、部分文書1には、「−−−PR−」というパターンが存在するので、図4の第2番目の行が適用され、「広告」とラベリングされる。これらのラベル情報は、各部分文書と組にして保持される。
【0040】
ラベル情報を有する部分文書の情報は、ユーザの操作等に応じて、表示出力されたり、印刷出力されたり、他へ送信されたりする。この際、ユーザは、例えば、記事本文だけを指定して出力させたりすることもできる。また、ラベル情報を有する部分文書の情報は、さらなる加工処理が実行されても良い。例えば、記事本文に対して要約作成処理を施すようにしても良い。
【0041】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、簡単なパターンによる分割パターンデータやラベリングパターンデータを用意するだけで、XMLやHTMLやSGML等で記述されたような明確な構造を持つ電子文書ではなくても、電子文書を分割して分類することができる。
【0042】
しかも、文書種類判別部を設けたので、複数の分割パターンを管理しておき、様々な種類の電子文書を対象に電子文書を分割して分類することができる。
【0043】
(B)第2の実施形態
次に、本発明による情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体の第2の実施形態を図面を参照しながら詳述する。
【0044】
(B−1)第2の実施形態の構成
図7は、第2の実施形態の情報区分装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には、同一符号を付して示している。
【0045】
第2の実施形態の情報区分装置は、第1の実施形態の構成に、分割パターン生成部7を付加した構成となっている。
【0046】
分割パターン生成部7は、入力された電子文書を基に分割パターンを生成するものである。分割パターン生成部7によって生成された分割パターンは、文書分類判別部1によって判別された文書種類に対応付けられ、分割パターンデータとして分割パターンデータ記憶部5に記憶される。
【0047】
分割パターン生成部7以外の部分は、第1の実施形態と同様の機能を担っているので、その説明は省略する。
【0048】
(B−2)第2の実施形態の動作
第1の実施形態と動作が異なるのは分割パターン生成部7の動作だけなので、以下では、その動作のみを、図8のフローチャートを参照しながら説明する。
【0049】
分割パターン生成部7は、入力文書が与えられると、入力文書を行ごとに分割する(ステップ801)。次に、先頭から所定番目(例えば30番目)の文字の全てが一致する行のグループを作ると共に、その行グループに属する行数も計数しておく(ステップ802)。
【0050】
例えば、上述した図5の電子文書が入力文書である場合、ステップ802の処理を終えた段階では、図9に示すような行グループが作成される。
【0051】
その後、分割パターン生成部7は、複数のメンバ(行)(ここでは2以上とする)を持つ行グループのみを選択してパターン記述を行う(ステップ803)。最も簡単なパターン記述法は文字列そのものであるが、必要に応じて正規表現などに書き改めるなどの手法を用いても良く、文書分割部2が理解できる形式を出力するものであれば特に手法は問わない。
【0052】
その後、分割パターン生成部7は、文書種類判別部1から、文書種類のデータを取り込んで分割パターンデータを完成させて分割パターンデータ記憶部5に登録する(ステップ804)。なお、文書種類のデータを含まない分割パターンデータを登録するようにしても良い。
【0053】
上述したステップ802の行一致を判別するための文字数や、ステップ803の登録に値するかを判別するためのメンバ(行)数は自由に設定しても良い。また、ステップ802において「先頭から複数文字」としているが、「末尾から」であっても良く、「先頭および末尾から」であっても良く、「先頭や末尾に関係なく」であっても良い。また、それらを自由に設定できる形式であっても良い。
【0054】
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様な効果を奏すると共に、さらに、自動的に分割パターンデータを生成して登録することができるという効果をも奏する。
【0055】
(C)他の実施形態
上記各実施形態においては、入力文書の分割を行った後に、各部分文書に対するラベリングを行うものを示したが、入力文書の分割及び分割された各部分文書に対するラベリングを並行して同時に行なっても良い。
【0056】
また、分割パターンデータをラベリングパターンデータの一部として用いるようにしても良い。
【0057】
上記各実施形態は、入力文書が横書き文書であるものを示したが、縦書き文書に対応できるようにしても良い。この場合、縦方向の行パターンを利用して、上記各実施形態と同様な処理を行うようにすれば良い。
【0058】
また、上記各実施形態では、文書種類判別部が入力文書の種類を自動判別するものを示したが、ユーザ等が入力文書の種類を入力するものであっても良い。また、全ての分割パターンやラベリングパターンを、文書種類に関係なく、登録しておき、入力文書の種類を特定することなく、部分文書への分割、及び、分割された部分文書へのラベリングを行うようにしても良い。さらに、ある種類の入力文書専用の情報区分装置として装置を構成しても良い。
【0059】
さらに、上記各実施形態の分割パターンは、その行が分割行であることを確定するものであったが、ある分割パターン(様子見分割パターン)に一致する行より所定行以内に、他の分割パターンに一致する行がないことを判明した場合に、分割行と確定するような分割パターン(様子見分割パターン)を設けるようにしても良い。
【0060】
【発明の効果】
以上のように、本発明によれば、メールマガジン等のような明確な構造情報を持っていない電子文書の各情報を、適切に分割することができる。
【図面の簡単な説明】
【図1】第1の実施形態の情報区分装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の判別パターンデータ例を示す説明図である。
【図3】第1の実施形態の分割パターンデータ例を示す説明図である。
【図4】第1の実施形態のラベリングパターンデータ例を示す説明図である。
【図5】第1の実施形態の動作説明に適用する入力文書例を示す説明図である。
【図6】図5の入力文書に対する文書分割処理後のデータを示す説明図である。
【図7】第2の実施形態の情報区分装置の機能的構成を示すブロック図である。
【図8】第2の実施形態の分割パターン生成部の動作を示すフローチャートである。
【図9】第2の実施形態の分割パターン生成時における入力文字のグループ化の説明図である。
【符号の説明】
1…文書種類判別部、2…文書分割部、3…ラベリング部、4…判別パターンデータ記憶部、5…分割パターンデータ記憶部、6…ラベリングパターンデータ記憶部、7…分割パターン生成部。

Claims (10)

  1. 入力された電子文書中の情報を区分する情報区分装置において、
    分割行に表れ得る所定の文字列を規定する1又は複数の分割パターンを記憶している分割パターン記憶手段と、
    入力された上記電子文書を上記分割パターン記憶手段に記憶されている上記分割パターンと照合して、上記電子文書を、複数の部分文書に分割する文書分割手段とを備える
    ことを特徴とする情報区分装置。
  2. 分類を特定し得る所定の文字列を規定する、分類情報が付与されている複数のラベリングパターンを記憶しているラベリングパターン記憶手段と、
    上記文書分割手段によって分割された上記各部分文書をそれぞれ、上記ラベリングパターン記憶手段に記憶されている上記ラベリングパターンと照合して、分類情報を付与するラベリング手段とをさらに備える
    ことを特徴とする請求項1に記載の情報区分装置。
  3. 入力された上記電子文書の種類を判別する文書種類判別手段をさらに備え、
    上記文書分割手段が、判別された文書種類用の上記分割パターンを用いて部分文書への分割を行うと共に、
    上記ラベリング手段が、判別された文書種類用の上記ラベリングパターンを用いて分類情報の付与を行う
    ことを特徴とする請求項2に記載の情報区分装置。
  4. 入力された上記電子文書における、同様な文字列を同様な位置に含む複数行の存在を認識して、上記分割パターンを生成し、上記分割パターン記憶手段に登録する分割パターン生成手段をさらに備えることを特徴とする請求項1〜3のいずれかに記載の情報区分装置。
  5. 入力された電子文書中の情報を区分する情報区分方法において、
    入力された上記電子文書を、分割行に表れ得る所定の文字列を規定する分割パターンと照合して、上記電子文書を、複数の部分文書に分割する文書分割工程を有する
    ことを特徴とする情報区分方法。
  6. 上記文書分割工程によって分割された上記各部分文書をそれぞれ、分類を特定し得る所定の文字列を規定する、分類情報が付与されているラベリングパターンと照合して、分類情報を付与するラベリング工程をさらに有することを特徴とする請求項5に記載の情報区分方法。
  7. 入力された上記電子文書の種類を判別する文書種類判別工程をさらに有し、
    上記文書分割工程が、判別された文書種類用の上記分割パターンを用いて部分文書への分割を行うと共に、
    上記ラベリング工程が、判別された文書種類用の上記ラベリングパターンを用いて分類情報の付与を行う
    ことを特徴とする請求項6に記載の情報区分方法。
  8. 入力された上記電子文書における、同様な文字列を同様な位置に含む複数行の存在を認識して、上記分割パターンを生成して登録する分割パターン生成工程をさらに有することを特徴とする請求項5〜7のいずれかに記載の情報区分方法。
  9. 請求項5〜7のいずれかに記載の情報区分方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする情報区分プログラム。
  10. 請求項9の情報区分プログラムを記録していることを特徴とする記録媒体。
JP2003002981A 2002-06-27 2003-01-09 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体 Pending JP2004086846A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003002981A JP2004086846A (ja) 2002-06-27 2003-01-09 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
US10/603,835 US20040034836A1 (en) 2002-06-27 2003-06-26 Information partitioning apparatus, information partitioning method, information partitioning program, and recording medium on which information partitioning program has been recorded

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002187698 2002-06-27
JP2003002981A JP2004086846A (ja) 2002-06-27 2003-01-09 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004086846A true JP2004086846A (ja) 2004-03-18

Family

ID=31719774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003002981A Pending JP2004086846A (ja) 2002-06-27 2003-01-09 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US20040034836A1 (ja)
JP (1) JP2004086846A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
DE102005047133A1 (de) * 2005-09-30 2007-04-12 Brainloop Ag Verfahren zur Verarbeitung von Dokumentdaten zum Schutz vor Zugriff
US8176414B1 (en) * 2005-09-30 2012-05-08 Google Inc. Document division method and system
WO2014196063A1 (ja) * 2013-06-06 2014-12-11 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
US11194956B2 (en) * 2018-04-30 2021-12-07 Patent Bots LLC Offline interactive natural language processing results

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530794A (en) * 1994-08-29 1996-06-25 Microsoft Corporation Method and system for handling text that includes paragraph delimiters of differing formats
US6105156A (en) * 1996-01-23 2000-08-15 Nec Corporation LSI tester for use in LSI fault analysis
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
JP3111931B2 (ja) * 1997-06-11 2000-11-27 日本電気株式会社 検査結果解析装置及び解析方法並びに解析プログラムを記録した記録媒体
US6857102B1 (en) * 1998-04-07 2005-02-15 Fuji Xerox Co., Ltd. Document re-authoring systems and methods for providing device-independent access to the world wide web
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US20030011631A1 (en) * 2000-03-01 2003-01-16 Erez Halahmi System and method for document division
US7137067B2 (en) * 2000-03-17 2006-11-14 Fujitsu Limited Device and method for presenting news information
JP2002351736A (ja) * 2001-03-23 2002-12-06 Matsushita Electric Ind Co Ltd 文書データ処理装置、サーバ装置、端末装置、及び文書データ処理システム
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体

Also Published As

Publication number Publication date
US20040034836A1 (en) 2004-02-19

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US7599952B2 (en) System and method for parsing unstructured data into structured data
CN108885611B (zh) 文档自动化
JP2008276766A (ja) フォーム自動埋込方法及び装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
US20080052619A1 (en) Spell Checking Documents with Marked Data Blocks
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN108664973A (zh) 文本处理方法和装置
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
JPH11184894A (ja) 論理要素抽出方法および記録媒体
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
JP2004086846A (ja) 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
JP2007535009A (ja) リレーショナルデータベースの超集合のためのデータ構造と管理システム
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
CN106528516A (zh) 分析报告建立方法
TW200409046A (en) Optical character recognition device, document searching system, and document searching program
CN106406949B (zh) 配置文件的处理方法及装置
JP2005141476A (ja) 文書管理装置、プログラムおよび記録媒体
JP4934819B2 (ja) 情報抽出装置、その方法及びプログラム
JPH0776957B2 (ja) 文書作成支援装置
CN111079375A (zh) 一种信息整理的方法、装置、计算机存储介质及终端
CN108536685A (zh) 信息处理装置
JP5167202B2 (ja) カナ氏名によるデータの名寄せ処理方法および名寄せ処理システム、ならびにそのためのプログラム
JP3210842B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080729