JP3571408B2 - 文書加工方法および装置 - Google Patents

文書加工方法および装置 Download PDF

Info

Publication number
JP3571408B2
JP3571408B2 JP10002895A JP10002895A JP3571408B2 JP 3571408 B2 JP3571408 B2 JP 3571408B2 JP 10002895 A JP10002895 A JP 10002895A JP 10002895 A JP10002895 A JP 10002895A JP 3571408 B2 JP3571408 B2 JP 3571408B2
Authority
JP
Japan
Prior art keywords
sentence
type
document
content type
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10002895A
Other languages
English (en)
Other versions
JPH08272826A (ja
Inventor
久雄 間瀬
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10002895A priority Critical patent/JP3571408B2/ja
Priority to US08/622,892 priority patent/US5978820A/en
Publication of JPH08272826A publication Critical patent/JPH08272826A/ja
Application granted granted Critical
Publication of JP3571408B2 publication Critical patent/JP3571408B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、文章情報を含む電子文書を要約文等に加工する文書加工方法および装置に関する。
【0002】
【従来の技術】
近年、電子化されたさまざまな種類の文章情報が行き来している。計算機ネットワークの整備の推進もあり、遠隔地から文章情報を入手することも容易になっている。これらの文章情報から必要な文章情報を取り出したり、文章情報を加工したりできることが必要である。そのためには、文章情報の選定や文章情報の加工作業では、文章を自動加工(要約)するシステムがあれば効果的である。
文章を自動加工するシステムとしては、情報処理学会誌Vol.30 No.10に記載の要約支援システムや、情報処理学会第38回全国大会6D−9記載の英文要約システムや、情報処理学会第46回全国大会7B−11に記載の日本語論説文自動抄録システムなどが報告されている。
【0003】
【発明が解決しようとする課題】
人間が文章の要約を作成する場合、その文章の構成や、分野などによって、その手法が異なると考える。例えば、新聞記事と特許明細書、科学技術論文では、明らかに、重要箇所の定義が異なる。また、同じ新聞記事でも、裁判の判決記事なのか、交通事故の記事なのか、為替記事なのかによっても、明らかに要約の方法は異なる。
上記のシステムは、いずれもある特定の構成あるいは分野に属する文章のみを対象としているため、それ以外のタイプの文章を要約する場合、精度的に問題が生じる。また、さまざまな構成あるいは分野の文章が入ってくる可能性があるような状況において文章加工をしたいような場合には、全く対処できない。
本発明の目的は、文章の構成の違いによって加工精度が低下しないための文章加工方法および装置を提供することにある。
本発明の他の目的、文章の分野/内容の違いによって加工精度が低下しないための文章加工方法および装置を提供することにある。
【0004】
【課題を解決するための手段】
上記目的を達成するため、本発明は、
入力装置と、出力装置と、処理装置と、記憶装置を備え、入力された電子文書を加工して加工文章を作成する文章加工方法において、
前記記憶装置に、単語辞書と、文法辞書と、複数の属性項目からなる文章属性データと、文章解析ルールと、複数の文章構成タイプ識別ルールと、複数の文章内容タイプ識別ルールと、複数の加工方法設定テーブルと、加工ルールを設定し、
前記処理装置は、
入力された電子文書を前記単語辞書と文法辞書と文章属性データと文章解析ルールに基づいて解析し、単語テーブルと文章テーブルからなる文章解析テーブルを生成し、前記複数の文章構成タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章構成タイプ識別ルールを抽出し、該抽出した識別ルールの文章構成タイプを前記入力された電子文書の文章構成タイプと推定し、前記複数の文章内容タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章内容タイプ識別ルールを抽出し、該抽出した識別ルールの文章内容タイプを前記入力された電子文書の文章内容タイプと推定し、前記複数の加工方法設定テーブルから前記推定した文章構成タイプと文章内容タイプの組に対応する加工方法設定テーブルを選択し、該選択した加工方法設定テーブルと前記加工ルールに基づき前記入力された電子文書を加工するようにしている。
また、前記処理装置は、前記加工された文章を前記出力装置により報知する際に、加工前の文章、前記推定された文章構成タイプ、前記推定された文章内容タイプ、前記選択された文章加工方法をユーザの指示に応じて出力装置により報知するようにしている。
また、前記処理装置は、前記記憶装置に前記文章構成タイプ識別ルールを設定するとき、前記出力装置に前記複数の属性項目からなる文章属性データまたは既に記憶装置に設定されている文章構成タイプ識別ルールを表示し、前記入力装置から入力される文章構成タイプを表わす識別子と各属性項目の属性値と前記属性項目とにより、文章構成タイプ識別ルールを生成または更新し、前記記憶装置に設定するようにしている。
また、前記処理装置は、前記記憶装置に前記文章内容タイプ識別ルールを設定するとき、前記出力装置に前記複数の属性項目からなる文章属性データおよび文章内容タイプ識別用の複数の属性項目からなる文章属性データ、または既に記憶装置に設定されている文章内容タイプ識別ルールを表示し、前記入力装置から入力される文章内容タイプを表わす識別子と各属性項目の属性値と前記属性項目とにより、文章内容タイプ識別ルールを生成または更新し、前記記憶装置に設定するようにしている。
また、前記処理装置は、前記推定した文章構成タイプあるいは前記推定した文章内容タイプに代えて、前記入力装置から入力指定された文章構成タイプあるいは文章内容タイプを用いるようにしている。
また、前記記憶装置に、デフォルトの文章構成タイプおよびデフォルトの文章内容タイプを予め設定すると共に、該デフォルトの文章構成タイプとデフォルトの文章内容タイプの一方あるいは両方を含む文章構成タイプと文章内容タイプの組に対応する加工方法設定テーブルを予め設定し、
前記処理装置は、前記文章構成タイプの推定の結果、タイプが推定できなかったと判断した場合、前記デフォルトの文章構成タイプをして文章構成タイプとし、前記文章内容タイプの推定の結果、タイプが推定できなかったと判断した場合、前記デフォルトの文章内容タイプをして文章内容タイプとするようにしている。
また、前記記憶装置に、デフォルトの文章構成タイプおよびデフォルトの文章内容タイプを予め設定すると共に、該デフォルトの文章構成タイプとデフォルトの文章内容タイプの一方あるいは両方を含む文章構成タイプと文章内容タイプの組に対応する加工方法設定テーブルを予め設定し、
前記処理装置は、入力装置により前記文章構成タイプの推定を省略することを指示された場合、前記デフォルトの文章構成タイプをして文章構成タイプとし、入力装置により前記文章内容タイプの推定を省略することを指示された場合、前記デフォルトの文章内容タイプをして文章内容タイプとするようにしている。
【0005】
【作用】
上記手段により、文章の構成や分野,内容に応じて適切な文章加工方法を選択することができるので、高精度の加工結果を得ることができる。
また、さまざまなタイプの文章が入り混じっている文章集合を連続的に加工する場合でも、仕分けなどの人的操作を介することなく、自動的に文章を連続加工することができる。
【0006】
【実施例】
本発明の実施例について、以下、図を用いて詳細に説明する。
図1は、本実施例の概要を示すブロック図である。
本実施例では、さまざまな構成・分野・内容の文章についてその要約を作成することを想定している。文章の要約は、文章の大まかな内容を効率良く理解するのに有効である。
入出力部1を介して文章を入力し、電子化された加工対象電子文書2として格納する。文章は日本語でもその他の言語でも構わない。文章解析部3では、加工対象電子文書2を自然言語解析する。すなわち、単語辞書4および文法辞書5を用いて文章を単語に分割し単語の属性情報を取得する。また、文章解析ルール6を参照して文章の特徴を解析する。これらの解析結果を文章解析テーブル7に格納する。
【0007】
文章構成タイプ推定処理部10では、文章解析テーブル7を参照して、その文章の構成タイプを推定する。ここで、文章構成タイプとは、文章の分野,内容にほとんど依存しない、文章の形式的構造の観点に基づいて識別されるものである。
例えば、特許明細書と新聞記事では、その書式や構成は全く異なるため、異なる文章構成タイプであると言える。その他にも、手紙文章や、科学技術論文、小説、依頼文、電報文章、議事録などさまざまな文章構成タイプがある。
人間は、これらの文章の違いを文章の内容をあまり理解しなくても識別することができる。また、人間は文章を要約するとき、その文章がどの文章構成タイプであるかによって要約方法を変えていると考える。
文章構成タイプ識別ルール獲得処理部8では、ある文章構成タイプを定義するための識別データを入出力部1を介して利用者から獲得する処理である。ここで獲得した識別データは、文章構成タイプ識別ルール9に格納する。
【0008】
文章内容タイプ推定処理部13では、文章解析テーブル7および文章構成タイプ推定処理部10で推定された文章構成タイプを参照して、その文章の内容タイプを推定する。
ここで、文章内容タイプとは、その文章の分野,内容に基づいて識別されるものである。文章構成タイプが新聞記事である場合、文章内容タイプとして、例えば、政治,経済,スポーツ,文化など、分野に基づく文章内容タイプ、また、判決記事,事故記事,円相場記事など、内容に基づく文章内容タイプがある。
人間は文章を要約するとき、その文章がどの文章内容タイプであるかによって要約方法を変えていると考える。
文章内容タイプ識別ルール獲得処理部11では、ある文章構成タイプに属するある文章内容タイプを定義するための識別データを入出力部1を介して利用者から獲得する処理である。ここで獲得した識別データは、文章内容タイプ識別ルール12に格納する。
【0009】
加工方法設定処理部16では、推定された文章構成タイプおよび文章内容タイプの組に対応する加工方法に関するデータを加工方法設定テーブル15から抽出して、チューニングする。
加工方法設定データ獲得処理部14では、ある文章構成タイプのある文章内容タイプに対応する加工方法を入出力部1を介して利用者から獲得する処理である。ここで獲得した加工方法は、加工方法設定テーブル15に格納する。
【0010】
加工文章作成処理部17では、設定された加工方法に基づいて、加工ルール18を参照して要約文章を作成し、加工文章19として格納する。加工文章19は、入出力部1を介して利用者に報知される。
【0011】
以下、図1をより詳しく説明する。
図2は、本実施例のハードウェア構成の概要を示した図である。加工対象電子文書2は、キーボード35から入力することによって取得することもできるし、LANなどの計算機ネットワーク45で連結された他の計算機からファイル転送し、ネットワーク接続装置40を介して取得することも可能である。もちろん、イメージスキャナおよび文字認識装置を用いて、紙面に書かれた文章を電子化したり、音声認識装置を用いて、音声で文章を入力したりしても良いし、ペン入力でも構わない。
利用者からのデータ入力は、キーボード35のほかにマウス30を用いることもできる。また、利用者への報知は、ディスプレイ50で行う。もちろん、テキスト情報であれば、音声出力装置を介して音声により報知することも可能である。
処理装置60は、記憶装置70からプログラムおよびデータをロードして処理を実行する。
記憶装置70は、プログラムおよびデータを記憶するエリアである。
すなわち、処理実行時の一時的なデータを格納するワーキングエリア71,加工対象電子文書格納エリア72,文章解析部格納エリア73,単語辞書格納エリア74,文法辞書格納エリア75,文章解析ルール格納エリア76,文章解析テーブル格納エリア77,文章構成タイプ推定処理部格納エリア78,文章内容タイプ推定処理部格納エリア79,加工方法設定データ獲得処理部格納エリア80,文章構成タイプ識別ルール獲得処理部格納エリア81,文章内容タイプ識別ルール獲得処理部格納エリア82,文章構成タイプ識別ルール格納エリア83,文章内容タイプ識別ルール格納エリア84,加工方法設定処理部格納エリア85,加工文章作成処理部格納エリア86,加工方法設定テーブル格納エリア87,加工ルール格納エリア88,加工文章格納エリア89からなる。
【0012】
図3は、本実施例の処理の流れの概要を示した図である。
ステップ101において、もし、文章構成タイプおよびその識別ルール,文章内容タイプおよびその識別ルール,それらに対応する文章加工方法を定義していない場合、あるいは、その定義情報を更新したい場合、定義したい情報に応じてステップ102〜ステップ104により、入出力部1を介して利用者からの定義データを獲得する。
後述するように、本実施例では、利用者からの定義データの獲得をグラフィカルな画面を利用したインタフェース(GUI)によって実現する。次に、加工対象電子文章2が存在する間、以下の処理を実行する。ここで、加工対象となる文章は、利用者が文章ファイル名を指定してもよいし、あるディレクトリにあるファイルを対象としても良い。
まず、文章解析処理(ステップ106)において、加工対象電子文書2を自然言語解析する。すなわち、単語辞書4および文法辞書5を用いて文章を単語に分割し単語の属性情報を取得する。また、文章解析ルール6を参照して文章の特徴を解析する。
次に、文章構成タイプ推定処理(ステップ107)において、その文章の構成タイプを推定する。
次に、文章内容タイプ推定処理(ステップ108)において、その文章の内容タイプを推定する。次に加工方法設定処理(ステップ109)において、文章の要約方法を規定するパラメータの値を設定する。
次に、加工文章作成処理(ステップ110)において、要約文章を作成する。
【0013】
図4は、本実施例における、文章の属性データの一例を表す図である。
文章の属性データとは、文章構成タイプおよび文章内容タイプを推定する際に必要な文章属性の集まりであり、図13に示すように、文章解析処理106で、その属性値を解析する。
図4では、属性の項目として、文章を構成する「文字数」,「単語数」,「段落数」,「文数」のほか,「一段落の平均文数」,「一文の平均単語数」,「一文の平均文字数」,「特定の文字列」,さらに、主張文,命令文,丁寧文,過去の事を述べた過去文,会話文,口語的な表現を含む口語文の「出現比率」からなる。これらの属性データは、あくまで一例であり、これ以外の属性データであっても良い。
文章解析処理106で算出されたこれらの属性の属性値と、文章構成タイプ識別ルール9および文章内容タイプ識別ルール12とを比較することにより、文章構成タイプおよび文章内容タイプを一意に決定する。
【0014】
図5は、文章構成タイプ識別ルールを定義/更新する際の画面例である。
本画面300は、図3のステップ101で、利用者が「文章構成タイプ識別ルールを更新する」を選択した場合、文章構成タイプ識別ルール獲得処理(ステップ102)においてディスプレイに表示する。
本画面300は、文章構成タイプの識別子の名称を入力するエリア301と、文章属性データの各属性の項目を表示するエリア302と、対応する属性値を入力するエリア303と、登録済の識別子を表示するエリア304と、入力した状態を文章構成タイプ識別ルールとして登録するボタン305、更新を取消し、終了するボタン306、ヘルプボタン307からなる。
利用者は、識別子の名称と各属性の属性値をキーボードから入力する。登録ボタン305が押されると、その時点で入力された識別子および属性値を読み取り、文章構成タイプ識別ルール9に格納する。もし、同じ識別子が既に登録されている場合は、警告のメッセージを出しても良い。利用者から画面に入力されたデータを記憶装置70に対応付けて格納する方法については、既に多数の実施例があるため、ここでは、深く言及しない。
なお、図5における「特定の文字列」とは、例えば、文書構成タイプ識別子を特許明細書とした場合、通常出現する「発明の名称」、「特許請求の範囲」等の文字列のことである。
【0015】
図6は、文章構成タイプ識別ルールを定義/更新する際の他の画面例である。
ここでは、「依頼メッセージ」という文章構成タイプを定義しており、図5の「新聞記事」とは、属性値の定義が全く異なっている。
【0016】
図7は、文章構成タイプ識別ルール9の構成の一例を示す図である。
一つの文章構成タイプ識別ルール9は、文章構成タイプ識別子200,属性を識別する属性項目コード201,属性項目名称202,属性値の型203,属性値の最大値204,属性値の最小値205,文字列情報を格納する文字列206の7つの部分からなり、文章構成タイプの数だけ生成される。
文章構成タイプ識別子200および最大値204,最小値205,文字列206に格納する値は、文章構成タイプ識別ルール獲得処理102(図5または図6)により獲得する。
文字列「以上」「より以上」の直前の数値を最小値205として認定し、文字列「以下」「未満」の直前の数値を最大値204として認定する。また、属性値の型203が文字列であるエリアに入力された文字列は、文字列206に格納する。
【0017】
図8は、文章内容タイプ識別ルール12を定義/更新する際の画面例である。
本画面400は、図3のステップ101で、利用者が「文章内容タイプ識別ルールを更新する」を選択した場合、文章内容タイプ識別ルール獲得処理(ステップ103)においてディスプレイに表示する。
本画面400は、文章構成タイプの識別子の名称を入力するエリア401と、文章内容タイプの識別子の名称を入力するエリア402と、文章属性データの各属性の項目を表示するエリア403と、対応する属性値を入力するエリア404と、登録済の識別子を表示するエリア408と、入力した状態を文章構成タイプ識別ルールとして登録するボタン409、更新を取消し、終了するボタン410、ヘルプボタン411からなる。
画面400は図5と似ているが、若干違いがある。本画面400では、文章構成タイプ,文章内容タイプ両方の識別子を入力するエリアがあること、本画面400にだけ存在する属性項目(405〜407)があることである。405〜407は文章内容タイプ識別用の文章属性データの属性項目であり、文章内容タイプを識別するための属性項目である。
文章の分野,内容を識別するには、文章の形式的な情報だけでは不可能であるため、本実施例では、特定の単語の出現状況を解析し、識別する。
属性項目「必ず出現する単語405」は、その分野,内容の文章に必ず現れる単語の集合である。属性項目「よく出現する単語406」は、その中の単語がその分野,内容の文章に少なくとも1種類は必ず出現する単語の集合である。「文章加工キーワード407」は、加工文章作成処理部17において、重要な部分か否かを判定するために用いるキーワードの集合である。
利用者は、2種類の識別子の名称と各属性の属性値をキーボードから入力する。登録ボタン409が押されると、その時点で入力された2種類の識別子および属性値を読み取り、文章内容タイプ識別ルール12に格納する。
もし、2種類とも同じ識別子が既に登録されている場合は、警告のメッセージを出しても良い。利用者から画面に入力されたデータを記憶装置70に対応付けて格納する方法については、既に多数の実施例があるため、ここでは、深く言及しない。
【0018】
図9は、文章内容タイプ識別ルール12の構成の一例を示す図である。
基本的には図7の文章構成タイプ識別ルール9の構成と同じであるが、文章内容タイプ識別子を格納する場所501があることと、属性項目201として、図8の属性項目405〜407に対応するデータを格納する場所が設けられていることが異なっている。
【0019】
図10は、加工方法設定テーブル15を定義/更新する際の画面例である。
本画面600は、図3のステップ101で、利用者が「文章加工方法を設定しなおす」を選択した場合、加工方法設定データ獲得処理(ステップ104)においてディスプレイに表示する。
本画面600は、文章構成タイプの識別子の名称を入力するエリア601と、文章内容タイプの識別子の名称を入力するエリア602と、要約設定の項目を表示するエリア603と、対応する設定値を選択入力するエリア604と、登録済の識別子を表示するエリア605と、入力した状態を加工方法設定テーブルに登録するボタン606、更新を取消し、終了するボタン607、ヘルプボタン608からなる。
本実施例における加工文章作成(要約作成)は、図10に示すように、要約方法を規定するパラメータを複数用意し、文章のどの部分を重要とみなすのか、どの部分を不要とみなすのかをパラメータの値を設定することにより、自由に定義できるようにしている。
この手法は、特願平5−119541あるいは、計測自動制御学会ヒューマンインタフェース部会第10回ヒューマンインタフェースシンポジウム論文集1242に記載されている。
【0020】
本実施例では、要約設定項目603として、8種類を定義している。すなわち、「文章の冒頭文」「段落の冒頭文」「事実を記述した文」「主張を記述した文」「命令を記述した文」「副詞」「接続詞」「文章加工キーワードを含む文」である。
ここで、「文章加工キーワードを含む文」とは、文章内容タイプ識別ルール獲得処理103での画面400(図8)で定義した文章加工キーワード407を1種類以上含む文を表す。設定項目603はこれ以外にも、上記論文集に記載してあるような、「冒頭の段落の文」や「文字数の制限」などの設定項目があっても良い。
また、本実施例では、文章のある部分が、これらの設定項目を満たすか否かを判定するためのルールとして加工ルール18を用意しており、これらを参照して、各設定項目を満たす部分を抽出する(後述)。
各設定項目603の設定値604としては、本実施例では、「抽出」「削除」「考慮せず」の3種類を定義している。「抽出」は、当該設定項目を満たす部分を要約文として抽出せよという指示であり、「削除」は、削除せよという指示であり、「考慮せず」とは、当該パラメータは無視して良いという指示である。利用者は、どれか一つの設定値を選択することが出来る。
【0021】
また、利用者は、文章構成タイプ識別子および文章内容タイプの識別子の少なくとも1つ以上を省略することができる。後述するが、文章構成タイプ推定処理部10および文章内容タイプ推定処理では、文章構成タイプおよび文章内容タイプが推定不可能な場合がある。そのため、推定できなかった場合に対応する加工方法をも設定する必要がある。
図11がその例である。図11では、文章構成タイプの識別子601は、定義されているが、文章内容タイプの識別子602は、定義されていない。そこで、図11の設定値604は、文章内容タイプが推定出来なかった「依頼メッセージ」の加工方法とみなされる。
利用者は、2種類の識別子の名称と各設定項目の設定値をマウスあるいはキーボードから入力する。登録ボタン606が押されると、その時点で入力された2種類の識別子および設定値を読み取り、加工方法設定テーブル15に格納する。
もし、2種類とも同じ識別子が既に登録されている場合は、警告のメッセージを出しても良い。利用者から画面に入力されたデータを記憶装置70に対応付けて格納する方法については、既に多数の実施例があるため、ここでは、深く言及しない。
【0022】
図12は、加工方法設定テーブルの構成の一例を示す図である。
ここでは、3種類の加工方法が記述されている。すなわち、文章構成タイプが新聞記事で文章内容タイプが為替1である場合、文章構成タイプが依頼メッセージで文章内容タイプが未定義(デフォルト)である場合、そして、共に未定義である場合である。また、設定値852の数値は、値0が図10の「抽出」,値1が図10の「削除」,値2が図10の「考慮せず」に対応している。
【0023】
図13以下では、加工対象電子文書2が入力されてから、加工文章19を格納するまでの処理およびデータの流れについて述べる。
図13は、文章解析部3で行う文章解析処理106の処理の概要を表すPAD図である。
まず、単語分割処理700では、単語辞書4,文法辞書5を参照して加工対象電子文書2を単語に分割し、各単語の品詞情報を単語辞書4から取得する。
単語分割処理700については、情報処理学会第44回全国大会講演論文集4P−7など公知例が多数あるので、ここでは深く言及しない。
次に、文章情報解析処理800では、単語分割処理結果700および文章解析ルール6を参照して、図4に記載した文章属性について解析する。
【0024】
図14は、加工対象電子文書2の一例を示す図である。これは、新聞記事であり、為替に関する文章である。
図15は、加工対象電子文書2の他の一例を示す図である。これは、電子メールのようなものであり、出張手配の依頼に関する文章である。
図16は、図14の文章に対して単語分割処理700を施した結果である。斜線「/」は、単語の境界を示す。
図17は、図15の文章に対して単語分割処理700を施した結果である。
単語分割処理700の結果は、図20(a)に示す文章解析テーブル7の中の単語テーブルに格納する。単語テーブルは、図20(a)に示すように、段落番号1001,文番号1002,単語番号1003,単語見出し1004,品詞1005からなる。
【0025】
図18は、単語分割処理700の直後に行う文章情報解析処理800で用いる文章解析ルール6の構成の一例を示す図である。
文章情報解析処理800では、図4に記載した文章属性について解析するが、文章解析ルール6には、図4の主張文,命令文,丁寧文などを識別するためのルールを予め定義している。本ルールは、属性を識別するコード201,属性の名称202,および文章解析ルール900からなる。文章解析ルール900は、どの単語がどの場所に出現するか,あるいはどんな品詞の単語がどの場所に出現するかなどを記述している。
ここで、文字列word,lastは、単語の出現箇所を限定するものであり、wordは、その文の任意の箇所を表し、lastは、その文の文末(句読点除く)を表す。また、文字列strsは、単語である必要がなく、その文字列がその文に含まれていれば良いことを表す。
従って、主張文の出現比率という属性に関するルール「word=”べき”」は、「文中に単語「べき」が含まれている文を主張文とみなす」というルールを記述しており、「strs=”と思う”」は、「文中に文字列「と思う」が含まれている文を主張文とみなす」というルールを記述している。さらに、命令文の出現比率に関するルール「last=下さい」は、「文末が「下さい」で終わる文を命令文とみなす」というルールを記述している。
文章情報解析処理800では、単語分割結果と文章解析ルール6を参照して各属性の値を算出し、その文章の特徴を解析する。
【0026】
図19は、その文章情報解析処理800の処理を表すPAD図である。
まず、カウンタ等の変数を初期化し(ステップ801)、文章解析ルール6をロードする(ステップ802)。次に、文章文字数をカウントし、図20(b)に示す文章解析テーブル7の文章テーブルの属性項目コード201のA01の属性値950にその値を格納する(ステップ803)。
次に、文章解析テーブル7の単語テーブル(図20(a))を参照して、文章の単語数をカウントし、文章解析テーブル7の文章テーブルの属性項目コードのA02の属性値にその値を格納する(ステップ804)。
同様にして、スペースで始まる文の数、すなわち文章の段落数をカウントし、文章解析テーブル7の文章テーブルの属性項目コードのA03の属性値にその値を格納する(ステップ805)。
同様にして、文章の文数をカウントし、文章解析テーブル7の文章テーブルの属性項目コードのA04の属性値にその値を格納する(ステップ806)。
さらに、文章の文数を文章の段落数で割った値、すなわち、一段落の平均文数を計算し、文章解析テーブル7の文章テーブルの属性項目コードのA05の属性値にその値を格納する(ステップ807)。
さらに、文章の単語数を文章の文数で割った値、すなわち、一文の平均単語数を計算し、文章解析テーブル7の文章テーブルの属性項目コードのA06の属性値にその値を格納する(ステップ808)。
さらに、文章の文字数を文章の文数で割った値、すなわち、一文の平均文字数を計算し、文章解析テーブル7の文章テーブルの属性項目コードのA07の属性値にその値を格納する(ステップ809)。
次に、すべての文について以下を実行する(ステップ810)。文章解析ルール6の各属性項目201について以下を実行する(ステップ811)。当該文が当該属性項目iに関する文章解析ルール900を一つでも満たすか否かを判別し(ステップ812)、満たす場合は、当該属性項目iに対応するカウンタ変数numofsents[i]の値を1増加する(ステップ813)。
ステップ810の後、文章解析ルール6の各属性項目iについて以下を実行する(ステップ814)。当該属性項目に対応する変数numofsents[i]の値を文数で割った値を計算し、文章解析テーブル7の文章テーブルに格納する(ステップ815)。
【0027】
文章情報解析処理800により、図20(b)の文章解析テーブル7の文章テーブルの属性値を得ることができる。
図20(b)は、図14の文章から文章解析処理によって得られた文章解析テーブル7の単語テーブルの一部と文章テーブルを示す図である。図18に示すように、単語「た」で終わる文は、過去文としており、図14の文章には、そのような文が8文中6文(75%)あるので、図20(b)の過去文の出現比率(A12)に数値75が格納される。以下同様である。
【0028】
図21は、図15の文章から文章解析処理によって得られた文章解析テーブル7の(a)単語テーブルの一部と(b)文章テーブルを示す図である。
【0029】
図22は、文章構成タイプ推定処理107の処理を表すPAD図である。
まず、文章構成タイプ識別ルール9に格納されている各識別ルールについて以下の処理を行う(ステップ1071)。文章解析テーブル7の文章テーブルに格納されたすべての属性値が、当該識別ルールの属性値を満たすか否かを判別し(ステップ1072)、満たす場合は、当該識別ルールの持つ文章構成タイプの識別子を当該文章の文章構成タイプとして認定し、文章構成タイプ推定処理107を終了する(ステップ1073)。
ステップ1071の後、ステップ1074に移るが、このステップに来るのは、文章構成タイプが推定できなかった場合のみである。そこで、ステップ1074では、文章構成タイプをデフォルト値とする。ここでは、その識別子を””(NULL)とする。
文章構成タイプ推定処理107により、図20の文章テーブルと図5〜図6の文章構成タイプ識別ルールを比較すると、図5の新聞記事の識別ルールは、図20の文章テーブルをすべて満たすので、図14の文章は、文章構成タイプが「新聞記事」であると認定される。
同様に、図21の文章テーブルと図5〜図6の文章構成タイプ識別ルールを比較すると、図5の新聞記事の識別ルールは、文章の文字数A01が満たされないため、不適当であるのに対し、図6の依頼メッセージの識別ルールは、図21の文章テーブルをすべて満たすので、図15の文章は、文章構成タイプが「依頼メッセージ」であると認定される。
なお、文章構成タイプ推定処理により推定された文章構成タイプに代えて、ユーザによりキーボード等の入力装置から入力された文章構成タイプを用いるようにしてもよい。
【0030】
図23は、文章内容タイプ推定処理108の処理を表すPAD図である。
まず、文章内容タイプ識別ルール12に格納された各識別ルールについて以下の処理を行う(ステップ1081)。
当該文章の文章構成タイプの識別子が当該識別ルールの持つ文章構成タイプの識別子に等しいか否かを判別し(ステップ1082)、等しい場合は、さらに、当該識別ルールの属性項目コードB01すなわち、「必ず出現する単語」として定義格納した単語のすべてが文章解析テーブルの単語テーブルの見出しに少なくとも1回以上存在するか否かを判別し(ステップ1083)、出現する場合は、さらに、当該識別ルールの属性項目コードB02すなわち「よく出現する単語」として定義格納された単語のうち少なくとも一つが文章解析テーブルの単語テーブルの見出しに少なくとも1回以上存在するか否かを判別し(ステップ1084)、出現する場合は、当該識別ルールの持つ文章構成タイプの識別子を当該文章の文章構成タイプとして認定し、また、当該識別ルールの持つ文章内容タイプの識別子を当該文章の文章内容タイプとして認定し、文章内容タイプ推定処理108を終了する(ステップ1085)。
ステップ1081の後、ステップ1086に移るが、このステップに来るのは、文章内容タイプが推定できなかった場合のみである。そこで、ステップ1086では、文章内容タイプをデフォルト値とする。ここでは、その識別子を””(NULL)とする。
【0031】
文章内容タイプ推定処理108により、図14の文章(図16の単語分割結果、図20の文章解析テーブルを持つ)と図9の文章内容タイプ識別ルールを比較すると、図9の新聞記事の為替1の識別ルールにおいて、図16より、図14の文章には、「必ず出現する単語」である「為替」「円」「ドル」の3種類の単語が存在することが分かり、さらに、「よく出現する単語」である「市場」「相場」「売り」「買い」のうち、「市場」「売り」などが存在することが分かるので、図20のテーブルをすべて満たすので、図14の文章は、文章構成タイプが「新聞記事」であり、文章内容タイプが「為替1」であると認定される。
同様に、図15の文章(図17の単語分割結果、図21の文章解析テーブルを持つ)と図9の文章内容タイプ識別ルールを比較すると、図15の文章は、文章構成タイプとして「依頼メッセージ」を持つので、図9の識別ルールの持つ文章構成タイプ「新聞記事」とは異なる。よって、図15の文章は、文章構成タイプが「依頼メッセージ」であり、文章内容タイプがデフォルトの文章内容タイプであると認定される。ここでは、その識別子を””(NULL)とする。
なお、文章内容タイプ推定処理により推定された文章内容タイプに代えて、ユーザによりキーボード等の入力装置から入力された文章内容タイプを用いるようにしてもよい。
【0032】
このように、文章構成タイプと文章内容タイプが決定すると、それに対応する文章加工方法が一意に決定する。
文章構成タイプと文章内容タイプの組合せには、両方とも特定の識別子が推定されている場合、いずれか一方の識別子が””(NULL)(すなわち、デフォルト値)である場合、両方の識別子が””(NULL)(すなわち、デフォルト値)である場合がある。
加工方法設定処理109では、加工方法設定テーブル15を参照して文章を加工(要約)するための要約設定項目603の値604を設定する。例えば、図14の文章は、文章構成タイプが新聞記事であり、文章内容タイプが為替1であるので、図12の文章構成タイプが新聞記事で文章内容タイプが為替1である加工方法設定テーブル15より、「「文章の冒頭文」を抽出し、「文章加工キーワードを含む文」を抽出し、「副詞」を削除し、「接続詞」を削除する」という設定となる。ここでは、「文章加工キーワード」は、図9より、「終値」「出来高」である。
一方、図15の文章は、文章構成タイプが依頼メッセージであり、文章内容タイプが””(デフォルト値)であるので、図12の文章構成タイプが依頼メッセージで文章内容タイプが””(デフォルト値)である加工方法設定テーブル15より「「命令を記述した文」を抽出し、「副詞」を削除し、「接続詞」を削除する」という設定となり、図14の文章と要約方法が異なることになる。
なお、ユーザによりキーボード等の入力装置から文章構成タイプの推定処理あるいは文章内容タイプの推定処理を省略する指示をしてもよく、この場合、文章構成タイプの推定処理の省略なら、文章構成タイプをデフォルトの文章構成タイプとし、文章内容タイプの推定処理の省略なら、文章内容タイプをデフォルトの文章内容タイプとして、以後の処理を行なう。
【0033】
図24は、加工ルール18の構成の一例を示す図である。
本実施例では、加工ルール18は、文章解析ルールとほぼ同じ構造をしている。すなわち、設定項目を識別するコード850、設定項目の名称851、文章加工ルール990からなる。文章加工ルール990は、文章解析ルール6と同じ形式である。ここで、partとは、単語の持つ品詞を参照することを示している。
【0034】
図25は、図14の文章に対する要約結果(加工文章19)である。文章の冒頭文および、文章加工キーワード「終値」「出来高」を含む文が要約文章として抽出されている。
図26は、図15の文章に対する要約結果(加工文章19)である。図24の加工ルールの「命令を記述した文」に関するルールを満たす文が要約文章として抽出されている。
加工結果である抽出された要約文章は、表示装置上に表示される。この場合、ユーザによるキーボード等の入力装置からの指示により、加工前の文章、推定された文章構成タイプ、推定された文章内容タイプ、選択された文章加工方法等を表示装置上に表示するようにしてもよい。
このように、本実施例では、文章の構成や分野,内容に応じて適切な文章加工方法を選択設定することができるので、文章の構成や分野,内容にあまり左右されずに高精度の加工結果を得ることができる。
【0035】
本実施例の変形例、拡張例について以下に説明する。
本実施例における文章構成タイプ識別ルール獲得処理(図5)において、各属性項目毎にその属性項目の重要度に比例した重みを定義できるようにする。
本実施例では、文章構成タイプ推定処理において、文章構成タイプ識別ルールのすべての属性値を満たす場合にその文章構成タイプを付与しているが、すべての属性値を満たすことがあまりない場合もある。そこで、各属性項目毎にその属性項目の重要度に比例した重みを定義できるようにし(図27)、文章構成タイプ推定処理において、文章構成タイプ識別ルールのある属性値を満たす場合に、その属性の持つ重みを加算し、満足する属性値の重みの合計を計算し、その合計が最大の文章構成タイプをその文章の文章構成タイプとする。
また、ある一定のしきい値より大きいものが一つもない場合、文章構成タイプが推定不可能であると判定する。
このようにすれば、すべての属性値を満たさなくてもよくなり、文章構成タイプが推定不可能となる文章が減少する。同様のことは、文章内容タイプ識別ルール獲得処理および文章内容タイプ推定処理の場合にも言える。
【0036】
【発明の効果】
本発明によれば、文章の構成や分野,内容に応じて適切な文章加工方法を選択することができるので、文章の構成や分野、内容にあまり左右されずに高精度の加工結果を得ることができる。
また、本発明によれば、さまざまなタイプの文章が入り混じっている文章集合を連続的に加工する場合でも、文章の仕分けなどの人的操作を介することなく、また、精度を低下させることなく、自動的に文章を連続加工することができる。
【図面の簡単な説明】
【図1】本実施例の概要を示すブロック図である。
【図2】本実施例のハードウェア構成の概要を示すブロック図である。
【図3】本実施例の処理の流れを示すPAD図である。
【図4】文章の属性データの一例を示す図である。
【図5】文章構成タイプ識別ルール生成/更新時の画面例を示す図である。
【図6】文章構成タイプ識別ルール生成/更新時の他の画面例を示す図である。
【図7】文章構成タイプ識別ルールの一例を示す図である。
【図8】文章内容タイプ識別ルール生成/更新時の画面例を示す図である。
【図9】文章内容タイプ識別ルールの一例を示す図である。
【図10】加工方法設定テーブル生成/更新時の画面例を示す図である。
【図11】加工方法設定テーブル生成/更新時の他の画面例を示す図である。
【図12】加工方法設定テーブルの一例を示す図である。
【図13】文章解析処理の流れを示すPAD図である。
【図14】加工対象電子文書の一例を示す図である。
【図15】加工対象電子文書の他の一例を示す図である。
【図16】単語分割処理の結果の一例を示す図である。
【図17】単語分割処理の結果の他の一例を示す図である。
【図18】文章解析ルールの一例を示す図である。
【図19】文章情報解析処理の流れを示すPAD図である。
【図20】文章解析テーブルの一例を示す図である。
【図21】文章解析テーブルの他の一例を示す図である。
【図22】文章構成タイプ推定処理の流れを示すPAD図である。
【図23】文章内容タイプ推定処理の流れを示すPAD図である。
【図24】加工ルールの一例を示す図である。
【図25】加工文章の一例を示す図である。
【図26】加工文章の他の一例を示す図である。
【図27】文章構成タイプ識別ルールの他の一例を示す図である。
【符号の説明】
1 入出力部
2 加工対象電子文書
3 文章解析部
4 単語辞書
5 文法辞書
6 文章解析ルール
7 文章解析テーブル
8 文章構成タイプ識別ルール獲得処理部
9 文章構成タイプ識別ルール
10 文章構成タイプ推定処理部
11 文章内容タイプ識別ルール獲得処理部
12 文章内容タイプ識別ルール
13 文章内容タイプ推定処理部
14 加工方法設定データ獲得処理部
15 加工方法設定テーブル
16 加工方法設定処理部
17 加工文章作成処理部
18 加工ルール
19 加工文章
30 マウス
35 キーボード
40 ネットワーク接続装置
45 計算機ネットワーク
50 ディスプレイ
60 処理装置
70 記憶装置

Claims (8)

  1. 入力装置と出力装置と処理装置と記憶装置を備えるデータ処理システムにより、入力された電子文書を加工して加工文章を作成する文章加工方法において、
    前記記憶装置に、単語辞書と、文法辞書と、複数の属性項目からなる文章属性データと、文章中の主張文、命令文等の文を識別するための文章解析ルールと、文章構成に関する複数の属性項目と属性値をそれぞれ有する複数の文章構成タイプ識別ルールと、該各文章構成タイプ識別ルールに文章内容タイプを指定するための(文章中に表れる)単語に関する複数の属性項目と属性値を付加した各文章構成タイプに属する複数の文章内容タイプ識別ルールと、文章構成タイプと文章内容タイプの組みの文章対応に該文章の加工方法を設定した複数の加工方法設定テーブルを設定し、
    前記処理装置は、
    前記入力装置により入力された電子文書を前記単語辞書と文法辞書と文章属性データと文章解析ルールに基づいて解析し、単語テーブルと前記文章属性データに属性値を設定した文章テーブルからなる文章解析テーブルを生成し、
    前記記憶装置に設定された複数の文章構成タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章構成タイプ識別ルールを抽出し、該抽出した識別ルールの文章構成タイプを前記入力された電子文書の文章構成タイプと推定し、
    前記記憶装置に設定された複数の文章内容タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章内容タイプ識別ルールを抽出し、該抽出した識別ルールの文章内容タイプを前記入力された電子文書の文章内容タイプと推定し、
    前記記憶装置に設定された複数の加工方法設定テーブルから前記推定した文章構成タイプと文章内容タイプの組に対応する加工方法設定テーブルを選択し、
    該選択した加工方法設定テーブルに基づき前記入力された電子文書を加工することを特徴とする文章加工方法。
  2. 請求項1記載の文書加工方法において、
    前記推定した文書構成タイプ及び前記推定した文書内容タイプを出力装置に出力することを特徴とする文書加工方法。
  3. 請求項1記載の文書加工方法において、
    前記文書構成タイプ及び前記文書内容タイプを、利用者の指示に基づいて、入力装置から入力することを特徴とする文書加工方法。
  4. 請求項1記載の文書加工方法において、
    前記文書構成タイプを推定できなかった場合及び前記文書内容タイプを推定できなかった場合、前記記憶装置に予め設定した文書構成タイプ及び文書内容タイプのデフォルト値を設定することを特徴とする文書加工方法。
  5. 入力された電子文書を加工して加工文章を作成する文章加工装置において、
    単語辞書と、文法辞書と、複数の属性項目からなる文章属性データと、文章中の主張文、命令文等の文を識別するための文章解析ルールと、文章構成に関する複数の属性項目と属性値をそれぞれ有する複数の文章構成タイプ識別ルールと、該各文章構成タイプ識別ルールに(文章中に表れる)文章内容タイプを指定するための単語に関する複数の属性項目と属性値を付加した各文章構成タイプに属する複数の文章内容タイプ識別ルールと、文章構成タイプと文章内容タイプの組みの文章対応に該文章の加工方法を設定した複数の加工方法設定テーブルを記憶する記憶手段と、
    入力手段と、出力手段と、
    前記入力手段により入力された電子文書を前記単語辞書と文法辞書と文章属性データと文章解析ルールに基づいて解析し、単語テーブルと前記文章属性データに属性値を設定した文章テーブルからなる文章解析テーブルを生成する手段と、
    前記記憶手段に設定された複数の文章構成タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章構成タイプ識別ルールを抽出し、該抽出した識別ルールの文章構成タイプを前記入力された電子文書の文章構成タイプと推定する手段と、、
    前記記憶手段に設定された複数の文章内容タイプ識別ルールを参照して、前記文章解析テーブルの内容と最も一致する文章内容タイプ識別ルールを抽出し、該抽出した識別ルールの文章内容タイプを前記入力された電子文書の文章内容タイプと推定する手段と、
    前記記憶手段に設定された複数の加工方法設定テーブルから前記推定した文章構成タイプと文章内容タイプの組に対応する加工方法設定テーブルを選択する選択手段と、
    該選択手段により選択された加工方法設定テーブルに基づき前記入力された電子文書を加工する手段を有することを特徴とする文章加工装置。
  6. 請求項5記載の文書加工装置において、
    前記文書構成タイプを推定する手段において推定した文書構成タイプ及び前記文書内容タイプを推定する手段において推定した文書内容タイプを前記出力手段に出力することを特徴とする文書加工装置。
  7. 請求項5記載の文書加工装置において、
    前記文書構成タイプを推定する手段において該文書構成タイプを利用者の指示に基づいて前記入力手段から入力し、前記文書内容タイプを推定する手段において該文書内容タイプを利用者の指示に基づいて前記入力手段から入力することを特徴とする文書加工装置。
  8. 請求項5記載の文書加工装置において、
    前記文書構成タイプを推定する手段で文書構成タイプを推定出来なかった場合及び前記文書内容タイプを推定する手段で文書内容タイプを推定出来なかった場合、前記記憶手段に予め記憶された文書構成タイプ及び文書内容タイプのデフォルト値を設定することを特徴とする文書加工装置。
JP10002895A 1995-03-31 1995-03-31 文書加工方法および装置 Expired - Fee Related JP3571408B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10002895A JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置
US08/622,892 US5978820A (en) 1995-03-31 1996-03-29 Text summarizing method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10002895A JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置

Publications (2)

Publication Number Publication Date
JPH08272826A JPH08272826A (ja) 1996-10-18
JP3571408B2 true JP3571408B2 (ja) 2004-09-29

Family

ID=14263088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10002895A Expired - Fee Related JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置

Country Status (2)

Country Link
US (1) US5978820A (ja)
JP (1) JP3571408B2 (ja)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
JPH10274997A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
WO1998048360A1 (en) * 1997-04-22 1998-10-29 Greg Hetherington Method and apparatus for processing free-format data
JP3605263B2 (ja) * 1997-06-27 2004-12-22 株式会社日立製作所 電子会議システム
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
AU2001290186A1 (en) * 2000-10-02 2002-04-15 Swiss Reinsurance Company On-line reinsurance capacity auction system and method
WO2002046960A2 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
US7178099B2 (en) * 2001-01-23 2007-02-13 Inxight Software, Inc. Meta-content analysis and annotation of email and other electronic documents
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
JP4630480B2 (ja) * 2001-03-19 2011-02-09 株式会社東芝 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US6990634B2 (en) * 2001-04-27 2006-01-24 The United States Of America As Represented By The National Security Agency Method of summarizing text by sentence extraction
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
JP2005524125A (ja) * 2001-10-12 2005-08-11 スイス リインシュアランス カンパニー 再保険をプレースするためのシステムおよび方法
KR100435442B1 (ko) * 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
US6904564B1 (en) 2002-01-14 2005-06-07 The United States Of America As Represented By The National Security Agency Method of summarizing text using just the text
US20040205463A1 (en) * 2002-01-22 2004-10-14 Darbie William P. Apparatus, program, and method for summarizing textual data
US7228507B2 (en) * 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US7549114B2 (en) * 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7487462B2 (en) * 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US20030210249A1 (en) * 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US10445795B2 (en) * 2003-07-31 2019-10-15 Swiss Reinsurance Company Ltd. Systems and methods for multi-level business processing
US8327255B2 (en) * 2003-08-07 2012-12-04 West Services, Inc. Computer program product containing electronic transcript and exhibit files and method for making the same
GB2405727A (en) * 2003-09-03 2005-03-09 Business Integrity Ltd Dynamic questionnaire generation
US8606602B2 (en) 2003-09-12 2013-12-10 Swiss Reinsurance Company Ltd. Systems and methods for automated transactions processing
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US20050114253A1 (en) * 2003-11-24 2005-05-26 Low James J.Iii Systems and methods for automated transactions processing
AU2005210527A1 (en) * 2004-02-03 2005-08-18 Swiss Reinsurance Company Computer-based transaction system and computer implemented method for transacting services between a service provider and a client
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US20060136824A1 (en) * 2004-11-12 2006-06-22 Bo-In Lin Process official and business documents in several languages for different national institutions
US7644350B2 (en) * 2005-02-18 2010-01-05 Ricoh Company, Ltd. Techniques for validating multimedia forms
US7890860B1 (en) * 2006-09-28 2011-02-15 Symantec Operating Corporation Method and apparatus for modifying textual messages
US9031947B2 (en) * 2007-03-27 2015-05-12 Invention Machine Corporation System and method for model element identification
US20080281922A1 (en) * 2007-05-09 2008-11-13 Microsoft Corporation Automatic generation of email previews and summaries
US20080281927A1 (en) * 2007-05-11 2008-11-13 Microsoft Corporation Summarization tool and method for a dialogue sequence
US8209617B2 (en) * 2007-05-11 2012-06-26 Microsoft Corporation Summarization of attached, linked or related materials
JP2009059242A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報処理装置およびプログラム
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
EP2406739A2 (en) * 2009-03-13 2012-01-18 Invention Machine Corporation System and method for knowledge research
EP2406738A4 (en) * 2009-03-13 2012-08-15 Invention Machine Corp SYSTEM AND METHOD FOR RESPONSE TO QUESTIONS THAT INVOLVE THE APPOSITION OF SEMANTIC MARKS ON TEXT DOCUMENTS AND USER QUESTIONS
JP2011118748A (ja) * 2009-12-04 2011-06-16 Toshiba Corp 情報配信システム、情報配信装置及び情報配信プログラム
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9037590B2 (en) * 2012-01-23 2015-05-19 Formcept Technologies and Solutions Pvt Ltd Advanced summarization based on intents
US9442909B2 (en) * 2012-10-11 2016-09-13 International Business Machines Corporation Real time term suggestion using text analytics
KR20150138742A (ko) * 2014-06-02 2015-12-10 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
US10387550B2 (en) 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
US10740573B2 (en) 2015-12-23 2020-08-11 Oath Inc. Method and system for automatic formality classification
US10832001B2 (en) * 2018-04-26 2020-11-10 Google Llc Machine learning to identify opinions in documents
US11294946B2 (en) * 2020-05-15 2022-04-05 Tata Consultancy Services Limited Methods and systems for generating textual summary from tabular data
CN111782803B (zh) * 2020-06-05 2024-06-18 京东科技控股股份有限公司 一种工单的处理方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS63214832A (ja) * 1987-03-02 1988-09-07 Nippon Telegr & Teleph Corp <Ntt> 通知文書処理装置
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
JPH0484366A (ja) * 1990-07-27 1992-03-17 Toshiba Corp 文書種別判別装置
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
US5442780A (en) * 1991-07-11 1995-08-15 Mitsubishi Denki Kabushiki Kaisha Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys
JPH05233706A (ja) * 1992-02-25 1993-09-10 Hitachi Ltd 文書分類保管システム
JP3515586B2 (ja) * 1992-10-16 2004-04-05 株式会社ジャストシステム 文書処理方法及び装置
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface

Also Published As

Publication number Publication date
US5978820A (en) 1999-11-02
JPH08272826A (ja) 1996-10-18

Similar Documents

Publication Publication Date Title
JP3571408B2 (ja) 文書加工方法および装置
US7464096B2 (en) Method and apparatus for information mining and filtering
US7840891B1 (en) Method and system for content extraction from forms
US5752021A (en) Document database management apparatus capable of conversion between retrieval formulae for different schemata
US7493252B1 (en) Method and system to analyze data
US9208140B2 (en) Rule based apparatus for modifying word annotations
US20190370274A1 (en) Analysis Method Using Graph Theory, Analysis Program, and Analysis System
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US20050160086A1 (en) Information extraction apparatus and method
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN112101003A (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
US20190026324A1 (en) Information Processing System and Information Processing Method
JP5226198B2 (ja) 規則帰納システムのためのxmlベースのアーキテクチャ
JP3743204B2 (ja) データ分析支援方法および装置
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
CN114970531A (zh) 基于即时通信消息的意图识别与命名实体提取方法及装置
CN113919352A (zh) 数据库敏感数据识别方法及装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees