JPH08272826A - 文書加工方法および装置 - Google Patents

文書加工方法および装置

Info

Publication number
JPH08272826A
JPH08272826A JP7100028A JP10002895A JPH08272826A JP H08272826 A JPH08272826 A JP H08272826A JP 7100028 A JP7100028 A JP 7100028A JP 10002895 A JP10002895 A JP 10002895A JP H08272826 A JPH08272826 A JP H08272826A
Authority
JP
Japan
Prior art keywords
sentence
type
text
content type
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7100028A
Other languages
English (en)
Other versions
JP3571408B2 (ja
Inventor
Hisao Mase
久雄 間瀬
Hiroshi Tsuji
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10002895A priority Critical patent/JP3571408B2/ja
Priority to US08/622,892 priority patent/US5978820A/en
Publication of JPH08272826A publication Critical patent/JPH08272826A/ja
Application granted granted Critical
Publication of JP3571408B2 publication Critical patent/JP3571408B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

(57)【要約】 【目的】 文章の構成、分野/内容の違いによって加工
精度が低下しないための文章加工方法および装置を提供
することにある。 【構成】 記憶装置に、単語辞書4と、文法辞書5と、複
数の属性項目からなる文章属性データと、文章解析ルー
ル6と、複数の文章構成タイプ識別ルール9と、複数の文
章内容タイプ識別ルール12と、複数の加工方法設定テー
ブル15と、加工ルール18を設定し、文章解析部3で、入
力電子文書を前記4、5、6と文章属性データに基づき解
析し、文章解析テーブル7を生成し、文章構成タイプ推
定処理部10で前記識別ルール9と文章解析テーブル7の内
容に基づき入力電子文書の文章構成タイプを推定し、同
様に文章構成タイプ推定処理部13で文章内容タイプを推
定し、加工方法設定処理部16で前記推定したタイプの組
に対応する加工方法設定テーブル15を選択し、該テーブ
ル15と加工ルール18に基づき入力電子文書を加工する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文章情報を含む電子文
書を要約文等に加工する文書加工方法および装置に関す
る。
【0002】
【従来の技術】近年、電子化されたさまざまな種類の文
章情報が行き来している。計算機ネットワークの整備の
推進もあり、遠隔地から文章情報を入手することも容易
になっている。これらの文章情報から必要な文章情報を
取り出したり、文章情報を加工したりできることが必要
である。そのためには、文章情報の選定や文章情報の加
工作業では、文章を自動加工(要約)するシステムがあ
れば効果的である。文章を自動加工するシステムとして
は、情報処理学会誌Vol.30 No.10に記載の
要約支援システムや、情報処理学会第38回全国大会6
D−9記載の英文要約システムや、情報処理学会第46
回全国大会7B−11に記載の日本語論説文自動抄録シ
ステムなどが報告されている。
【0003】
【発明が解決しようとする課題】人間が文章の要約を作
成する場合、その文章の構成や、分野などによって、そ
の手法が異なると考える。例えば、新聞記事と特許明細
書、科学技術論文では、明らかに、重要箇所の定義が異
なる。また、同じ新聞記事でも、裁判の判決記事なの
か、交通事故の記事なのか、為替記事なのかによって
も、明らかに要約の方法は異なる。上記のシステムは、
いずれもある特定の構成あるいは分野に属する文章のみ
を対象としているため、それ以外のタイプの文章を要約
する場合、精度的に問題が生じる。また、さまざまな構
成あるいは分野の文章が入ってくる可能性があるような
状況において文章加工をしたいような場合には、全く対
処できない。本発明の目的は、文章の構成の違いによっ
て加工精度が低下しないための文章加工方法および装置
を提供することにある。本発明の他の目的、文章の分野
/内容の違いによって加工精度が低下しないための文章
加工方法および装置を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、入力装置と、出力装置と、処理装置と、
記憶装置を備え、入力された電子文書を加工して加工文
章を作成する文章加工方法において、前記記憶装置に、
単語辞書と、文法辞書と、複数の属性項目からなる文章
属性データと、文章解析ルールと、複数の文章構成タイ
プ識別ルールと、複数の文章内容タイプ識別ルールと、
複数の加工方法設定テーブルと、加工ルールを設定し、
前記処理装置は、入力された電子文書を前記単語辞書と
文法辞書と文章属性データと文章解析ルールに基づいて
解析し、単語テーブルと文章テーブルからなる文章解析
テーブルを生成し、前記複数の文章構成タイプ識別ルー
ルを参照して、前記文章解析テーブルの内容と最も一致
する文章構成タイプ識別ルールを抽出し、該抽出した識
別ルールの文章構成タイプを前記入力された電子文書の
文章構成タイプと推定し、前記複数の文章内容タイプ識
別ルールを参照して、前記文章解析テーブルの内容と最
も一致する文章内容タイプ識別ルールを抽出し、該抽出
した識別ルールの文章内容タイプを前記入力された電子
文書の文章内容タイプと推定し、前記複数の加工方法設
定テーブルから前記推定した文章構成タイプと文章内容
タイプの組に対応する加工方法設定テーブルを選択し、
該選択した加工方法設定テーブルと前記加工ルールに基
づき前記入力された電子文書を加工するようにしてい
る。また、前記処理装置は、前記加工された文章を前記
出力装置により報知する際に、加工前の文章、前記推定
された文章構成タイプ、前記推定された文章内容タイ
プ、前記選択された文章加工方法をユーザの指示に応じ
て出力装置により報知するようにしている。また、前記
処理装置は、前記記憶装置に前記文章構成タイプ識別ル
ールを設定するとき、前記出力装置に前記複数の属性項
目からなる文章属性データまたは既に記憶装置に設定さ
れている文章構成タイプ識別ルールを表示し、前記入力
装置から入力される文章構成タイプを表わす識別子と各
属性項目の属性値と前記属性項目とにより、文章構成タ
イプ識別ルールを生成または更新し、前記記憶装置に設
定するようにしている。また、前記処理装置は、前記記
憶装置に前記文章内容タイプ識別ルールを設定すると
き、前記出力装置に前記複数の属性項目からなる文章属
性データおよび文章内容タイプ識別用の複数の属性項目
からなる文章属性データ、または既に記憶装置に設定さ
れている文章内容タイプ識別ルールを表示し、前記入力
装置から入力される文章内容タイプを表わす識別子と各
属性項目の属性値と前記属性項目とにより、文章内容タ
イプ識別ルールを生成または更新し、前記記憶装置に設
定するようにしている。また、前記処理装置は、前記推
定した文章構成タイプあるいは前記推定した文章内容タ
イプに代えて、前記入力装置から入力指定された文章構
成タイプあるいは文章内容タイプを用いるようにしてい
る。また、前記記憶装置に、デフォルトの文章構成タイ
プおよびデフォルトの文章内容タイプを予め設定すると
共に、該デフォルトの文章構成タイプとデフォルトの文
章内容タイプの一方あるいは両方を含む文章構成タイプ
と文章内容タイプの組に対応する加工方法設定テーブル
を予め設定し、前記処理装置は、前記文章構成タイプの
推定の結果、タイプが推定できなかったと判断した場
合、前記デフォルトの文章構成タイプをして文章構成タ
イプとし、前記文章内容タイプの推定の結果、タイプが
推定できなかったと判断した場合、前記デフォルトの文
章内容タイプをして文章内容タイプとするようにしてい
る。また、前記記憶装置に、デフォルトの文章構成タイ
プおよびデフォルトの文章内容タイプを予め設定すると
共に、該デフォルトの文章構成タイプとデフォルトの文
章内容タイプの一方あるいは両方を含む文章構成タイプ
と文章内容タイプの組に対応する加工方法設定テーブル
を予め設定し、前記処理装置は、入力装置により前記文
章構成タイプの推定を省略することを指示された場合、
前記デフォルトの文章構成タイプをして文章構成タイプ
とし、入力装置により前記文章内容タイプの推定を省略
することを指示された場合、前記デフォルトの文章内容
タイプをして文章内容タイプとするようにしている。
【0005】
【作用】上記手段により、文章の構成や分野,内容に応
じて適切な文章加工方法を選択することができるので、
高精度の加工結果を得ることができる。また、さまざま
なタイプの文章が入り混じっている文章集合を連続的に
加工する場合でも、仕分けなどの人的操作を介すること
なく、自動的に文章を連続加工することができる。
【0006】
【実施例】本発明の実施例について、以下、図を用いて
詳細に説明する。図1は、本実施例の概要を示すブロッ
ク図である。本実施例では、さまざまな構成・分野・内
容の文章についてその要約を作成することを想定してい
る。文章の要約は、文章の大まかな内容を効率良く理解
するのに有効である。入出力部1を介して文章を入力
し、電子化された加工対象電子文書2として格納する。
文章は日本語でもその他の言語でも構わない。文章解析
部3では、加工対象電子文書2を自然言語解析する。す
なわち、単語辞書4および文法辞書5を用いて文章を単
語に分割し単語の属性情報を取得する。また、文章解析
ルール6を参照して文章の特徴を解析する。これらの解
析結果を文章解析テーブル7に格納する。
【0007】文章構成タイプ推定処理部10では、文章
解析テーブル7を参照して、その文章の構成タイプを推
定する。ここで、文章構成タイプとは、文章の分野,内
容にほとんど依存しない、文章の形式的構造の観点に基
づいて識別されるものである。例えば、特許明細書と新
聞記事では、その書式や構成は全く異なるため、異なる
文章構成タイプであると言える。その他にも、手紙文章
や、科学技術論文、小説、依頼文、電報文章、議事録な
どさまざまな文章構成タイプがある。人間は、これらの
文章の違いを文章の内容をあまり理解しなくても識別す
ることができる。また、人間は文章を要約するとき、そ
の文章がどの文章構成タイプであるかによって要約方法
を変えていると考える。文章構成タイプ識別ルール獲得
処理部8では、ある文章構成タイプを定義するための識
別データを入出力部1を介して利用者から獲得する処理
である。ここで獲得した識別データは、文章構成タイプ
識別ルール9に格納する。
【0008】文章内容タイプ推定処理部13では、文章
解析テーブル7および文章構成タイプ推定処理部10で
推定された文章構成タイプを参照して、その文章の内容
タイプを推定する。ここで、文章内容タイプとは、その
文章の分野,内容に基づいて識別されるものである。文
章構成タイプが新聞記事である場合、文章内容タイプと
して、例えば、政治,経済,スポーツ,文化など、分野
に基づく文章内容タイプ、また、判決記事,事故記事,
円相場記事など、内容に基づく文章内容タイプがある。
人間は文章を要約するとき、その文章がどの文章内容タ
イプであるかによって要約方法を変えていると考える。
文章内容タイプ識別ルール獲得処理部11では、ある文
章構成タイプに属するある文章内容タイプを定義するた
めの識別データを入出力部1を介して利用者から獲得す
る処理である。ここで獲得した識別データは、文章内容
タイプ識別ルール12に格納する。
【0009】加工方法設定処理部16では、推定された
文章構成タイプおよび文章内容タイプの組に対応する加
工方法に関するデータを加工方法設定テーブル15から
抽出して、チューニングする。加工方法設定データ獲得
処理部14では、ある文章構成タイプのある文章内容タ
イプに対応する加工方法を入出力部1を介して利用者か
ら獲得する処理である。ここで獲得した加工方法は、加
工方法設定テーブル15に格納する。
【0010】加工文章作成処理部17では、設定された
加工方法に基づいて、加工ルール18を参照して要約文
章を作成し、加工文章19として格納する。加工文章1
9は、入出力部1を介して利用者に報知される。
【0011】以下、図1をより詳しく説明する。図2
は、本実施例のハードウェア構成の概要を示した図であ
る。加工対象電子文書2は、キーボード35から入力す
ることによって取得することもできるし、LANなどの
計算機ネットワーク45で連結された他の計算機からフ
ァイル転送し、ネットワーク接続装置40を介して取得
することも可能である。もちろん、イメージスキャナお
よび文字認識装置を用いて、紙面に書かれた文章を電子
化したり、音声認識装置を用いて、音声で文章を入力し
たりしても良いし、ペン入力でも構わない。利用者から
のデータ入力は、キーボード35のほかにマウス30を
用いることもできる。また、利用者への報知は、ディス
プレイ50で行う。もちろん、テキスト情報であれば、
音声出力装置を介して音声により報知することも可能で
ある。処理装置60は、記憶装置70からプログラムお
よびデータをロードして処理を実行する。記憶装置70
は、プログラムおよびデータを記憶するエリアである。
すなわち、処理実行時の一時的なデータを格納するワー
キングエリア71,加工対象電子文書格納エリア72,
文章解析部格納エリア73,単語辞書格納エリア74,
文法辞書格納エリア75,文章解析ルール格納エリア7
6,文章解析テーブル格納エリア77,文章構成タイプ
推定処理部格納エリア78,文章内容タイプ推定処理部
格納エリア79,加工方法設定データ獲得処理部格納エ
リア80,文章構成タイプ識別ルール獲得処理部格納エ
リア81,文章内容タイプ識別ルール獲得処理部格納エ
リア82,文章構成タイプ識別ルール格納エリア83,
文章内容タイプ識別ルール格納エリア84,加工方法設
定処理部格納エリア85,加工文章作成処理部格納エリ
ア86,加工方法設定テーブル格納エリア87,加工ル
ール格納エリア88,加工文章格納エリア89からな
る。
【0012】図3は、本実施例の処理の流れの概要を示
した図である。ステップ101において、もし、文章構
成タイプおよびその識別ルール,文章内容タイプおよび
その識別ルール,それらに対応する文章加工方法を定義
していない場合、あるいは、その定義情報を更新したい
場合、定義したい情報に応じてステップ102〜ステッ
プ104により、入出力部1を介して利用者からの定義
データを獲得する。後述するように、本実施例では、利
用者からの定義データの獲得をグラフィカルな画面を利
用したインタフェース(GUI)によって実現する。次
に、加工対象電子文章2が存在する間、以下の処理を実
行する。ここで、加工対象となる文章は、利用者が文章
ファイル名を指定してもよいし、あるディレクトリにあ
るファイルを対象としても良い。まず、文章解析処理
(ステップ106)において、加工対象電子文書2を自
然言語解析する。すなわち、単語辞書4および文法辞書
5を用いて文章を単語に分割し単語の属性情報を取得す
る。また、文章解析ルール6を参照して文章の特徴を解
析する。次に、文章構成タイプ推定処理(ステップ10
7)において、その文章の構成タイプを推定する。次
に、文章内容タイプ推定処理(ステップ108)におい
て、その文章の内容タイプを推定する。次に加工方法設
定処理(ステップ109)において、文章の要約方法を
規定するパラメータの値を設定する。次に、加工文章作
成処理(ステップ110)において、要約文章を作成す
る。
【0013】図4は、本実施例における、文章の属性デ
ータの一例を表す図である。文章の属性データとは、文
章構成タイプおよび文章内容タイプを推定する際に必要
な文章属性の集まりであり、図13に示すように、文章
解析処理106で、その属性値を解析する。図4では、
属性の項目として、文章を構成する「文字数」,「単語
数」,「段落数」,「文数」のほか,「一段落の平均文
数」,「一文の平均単語数」,「一文の平均文字数」,
「特定の文字列」,さらに、主張文,命令文,丁寧文,
過去の事を述べた過去文,会話文,口語的な表現を含む
口語文の「出現比率」からなる。これらの属性データ
は、あくまで一例であり、これ以外の属性データであっ
ても良い。文章解析処理106で算出されたこれらの属
性の属性値と、文章構成タイプ識別ルール9および文章
内容タイプ識別ルール12とを比較することにより、文
章構成タイプおよび文章内容タイプを一意に決定する。
【0014】図5は、文章構成タイプ識別ルールを定義
/更新する際の画面例である。本画面300は、図3の
ステップ101で、利用者が「文章構成タイプ識別ルー
ルを更新する」を選択した場合、文章構成タイプ識別ル
ール獲得処理(ステップ102)においてディスプレイ
に表示する。本画面300は、文章構成タイプの識別子
の名称を入力するエリア301と、文章属性データの各
属性の項目を表示するエリア302と、対応する属性値
を入力するエリア303と、登録済の識別子を表示する
エリア304と、入力した状態を文章構成タイプ識別ル
ールとして登録するボタン305、更新を取消し、終了
するボタン306、ヘルプボタン307からなる。利用
者は、識別子の名称と各属性の属性値をキーボードから
入力する。登録ボタン305が押されると、その時点で
入力された識別子および属性値を読み取り、文章構成タ
イプ識別ルール9に格納する。もし、同じ識別子が既に
登録されている場合は、警告のメッセージを出しても良
い。利用者から画面に入力されたデータを記憶装置70
に対応付けて格納する方法については、既に多数の実施
例があるため、ここでは、深く言及しない。なお、図5
における「特定の文字列」とは、例えば、文書構成タイ
プ識別子を特許明細書とした場合、通常出現する「発明
の名称」、「特許請求の範囲」等の文字列のことであ
る。
【0015】図6は、文章構成タイプ識別ルールを定義
/更新する際の他の画面例である。ここでは、「依頼メ
ッセージ」という文章構成タイプを定義しており、図5
の「新聞記事」とは、属性値の定義が全く異なってい
る。
【0016】図7は、文章構成タイプ識別ルール9の構
成の一例を示す図である。一つの文章構成タイプ識別ル
ール9は、文章構成タイプ識別子200,属性を識別す
る属性項目コード201,属性項目名称202,属性値
の型203,属性値の最大値204,属性値の最小値2
05,文字列情報を格納する文字列206の7つの部分
からなり、文章構成タイプの数だけ生成される。文章構
成タイプ識別子200および最大値204,最小値20
5,文字列206に格納する値は、文章構成タイプ識別
ルール獲得処理102(図5または図6)により獲得す
る。文字列「以上」「より以上」の直前の数値を最小値
205として認定し、文字列「以下」「未満」の直前の
数値を最大値204として認定する。また、属性値の型
203が文字列であるエリアに入力された文字列は、文
字列206に格納する。
【0017】図8は、文章内容タイプ識別ルール12を
定義/更新する際の画面例である。本画面400は、図
3のステップ101で、利用者が「文章内容タイプ識別
ルールを更新する」を選択した場合、文章内容タイプ識
別ルール獲得処理(ステップ103)においてディスプ
レイに表示する。本画面400は、文章構成タイプの識
別子の名称を入力するエリア401と、文章内容タイプ
の識別子の名称を入力するエリア402と、文章属性デ
ータの各属性の項目を表示するエリア403と、対応す
る属性値を入力するエリア404と、登録済の識別子を
表示するエリア408と、入力した状態を文章構成タイ
プ識別ルールとして登録するボタン409、更新を取消
し、終了するボタン410、ヘルプボタン411からな
る。画面400は図5と似ているが、若干違いがある。
本画面400では、文章構成タイプ,文章内容タイプ両
方の識別子を入力するエリアがあること、本画面400
にだけ存在する属性項目(405〜407)があること
である。405〜407は文章内容タイプ識別用の文章
属性データの属性項目であり、文章内容タイプを識別す
るための属性項目である。文章の分野,内容を識別する
には、文章の形式的な情報だけでは不可能であるため、
本実施例では、特定の単語の出現状況を解析し、識別す
る。属性項目「必ず出現する単語405」は、その分
野,内容の文章に必ず現れる単語の集合である。属性項
目「よく出現する単語406」は、その中の単語がその
分野,内容の文章に少なくとも1種類は必ず出現する単
語の集合である。「文章加工キーワード407」は、加
工文章作成処理部17において、重要な部分か否かを判
定するために用いるキーワードの集合である。利用者
は、2種類の識別子の名称と各属性の属性値をキーボー
ドから入力する。登録ボタン409が押されると、その
時点で入力された2種類の識別子および属性値を読み取
り、文章内容タイプ識別ルール12に格納する。もし、
2種類とも同じ識別子が既に登録されている場合は、警
告のメッセージを出しても良い。利用者から画面に入力
されたデータを記憶装置70に対応付けて格納する方法
については、既に多数の実施例があるため、ここでは、
深く言及しない。
【0018】図9は、文章内容タイプ識別ルール12の
構成の一例を示す図である。基本的には図7の文章構成
タイプ識別ルール9の構成と同じであるが、文章内容タ
イプ識別子を格納する場所501があることと、属性項
目201として、図8の属性項目405〜407に対応
するデータを格納する場所が設けられていることが異な
っている。
【0019】図10は、加工方法設定テーブル15を定
義/更新する際の画面例である。本画面600は、図3
のステップ101で、利用者が「文章加工方法を設定し
なおす」を選択した場合、加工方法設定データ獲得処理
(ステップ104)においてディスプレイに表示する。
本画面600は、文章構成タイプの識別子の名称を入力
するエリア601と、文章内容タイプの識別子の名称を
入力するエリア602と、要約設定の項目を表示するエ
リア603と、対応する設定値を選択入力するエリア6
04と、登録済の識別子を表示するエリア605と、入
力した状態を加工方法設定テーブルに登録するボタン6
06、更新を取消し、終了するボタン607、ヘルプボ
タン608からなる。本実施例における加工文章作成
(要約作成)は、図10に示すように、要約方法を規定
するパラメータを複数用意し、文章のどの部分を重要と
みなすのか、どの部分を不要とみなすのかをパラメータ
の値を設定することにより、自由に定義できるようにし
ている。この手法は、特願平5−119541あるい
は、計測自動制御学会ヒューマンインタフェース部会第
10回ヒューマンインタフェースシンポジウム論文集1
242に記載されている。
【0020】本実施例では、要約設定項目603とし
て、8種類を定義している。すなわち、「文章の冒頭
文」「段落の冒頭文」「事実を記述した文」「主張を記
述した文」「命令を記述した文」「副詞」「接続詞」
「文章加工キーワードを含む文」である。ここで、「文
章加工キーワードを含む文」とは、文章内容タイプ識別
ルール獲得処理103での画面400(図8)で定義し
た文章加工キーワード407を1種類以上含む文を表
す。設定項目603はこれ以外にも、上記論文集に記載
してあるような、「冒頭の段落の文」や「文字数の制
限」などの設定項目があっても良い。また、本実施例で
は、文章のある部分が、これらの設定項目を満たすか否
かを判定するためのルールとして加工ルール18を用意
しており、これらを参照して、各設定項目を満たす部分
を抽出する(後述)。各設定項目603の設定値604
としては、本実施例では、「抽出」「削除」「考慮せ
ず」の3種類を定義している。「抽出」は、当該設定項
目を満たす部分を要約文として抽出せよという指示であ
り、「削除」は、削除せよという指示であり、「考慮せ
ず」とは、当該パラメータは無視して良いという指示で
ある。利用者は、どれか一つの設定値を選択することが
出来る。
【0021】また、利用者は、文章構成タイプ識別子お
よび文章内容タイプの識別子の少なくとも1つ以上を省
略することができる。後述するが、文章構成タイプ推定
処理部10および文章内容タイプ推定処理では、文章構
成タイプおよび文章内容タイプが推定不可能な場合があ
る。そのため、推定できなかった場合に対応する加工方
法をも設定する必要がある。図11がその例である。図
11では、文章構成タイプの識別子601は、定義され
ているが、文章内容タイプの識別子602は、定義され
ていない。そこで、図11の設定値604は、文章内容
タイプが推定出来なかった「依頼メッセージ」の加工方
法とみなされる。利用者は、2種類の識別子の名称と各
設定項目の設定値をマウスあるいはキーボードから入力
する。登録ボタン606が押されると、その時点で入力
された2種類の識別子および設定値を読み取り、加工方
法設定テーブル15に格納する。もし、2種類とも同じ
識別子が既に登録されている場合は、警告のメッセージ
を出しても良い。利用者から画面に入力されたデータを
記憶装置70に対応付けて格納する方法については、既
に多数の実施例があるため、ここでは、深く言及しな
い。
【0022】図12は、加工方法設定テーブルの構成の
一例を示す図である。ここでは、3種類の加工方法が記
述されている。すなわち、文章構成タイプが新聞記事で
文章内容タイプが為替1である場合、文章構成タイプが
依頼メッセージで文章内容タイプが未定義(デフォル
ト)である場合、そして、共に未定義である場合であ
る。また、設定値852の数値は、値0が図10の「抽
出」,値1が図10の「削除」,値2が図10の「考慮
せず」に対応している。
【0023】図13以下では、加工対象電子文書2が入
力されてから、加工文章19を格納するまでの処理およ
びデータの流れについて述べる。図13は、文章解析部
3で行う文章解析処理106の処理の概要を表すPAD
図である。まず、単語分割処理700では、単語辞書
4,文法辞書5を参照して加工対象電子文書2を単語に
分割し、各単語の品詞情報を単語辞書4から取得する。
単語分割処理700については、情報処理学会第44回
全国大会講演論文集4P−7など公知例が多数あるの
で、ここでは深く言及しない。次に、文章情報解析処理
800では、単語分割処理結果700および文章解析ル
ール6を参照して、図4に記載した文章属性について解
析する。
【0024】図14は、加工対象電子文書2の一例を示
す図である。これは、新聞記事であり、為替に関する文
章である。図15は、加工対象電子文書2の他の一例を
示す図である。これは、電子メールのようなものであ
り、出張手配の依頼に関する文章である。図16は、図
14の文章に対して単語分割処理700を施した結果で
ある。斜線「/」は、単語の境界を示す。図17は、図
15の文章に対して単語分割処理700を施した結果で
ある。単語分割処理700の結果は、図20(a)に示
す文章解析テーブル7の中の単語テーブルに格納する。
単語テーブルは、図20(a)に示すように、段落番号
1001,文番号1002,単語番号1003,単語見
出し1004,品詞1005からなる。
【0025】図18は、単語分割処理700の直後に行
う文章情報解析処理800で用いる文章解析ルール6の
構成の一例を示す図である。文章情報解析処理800で
は、図4に記載した文章属性について解析するが、文章
解析ルール6には、図4の主張文,命令文,丁寧文など
を識別するためのルールを予め定義している。本ルール
は、属性を識別するコード201,属性の名称202,
および文章解析ルール900からなる。文章解析ルール
900は、どの単語がどの場所に出現するか,あるいは
どんな品詞の単語がどの場所に出現するかなどを記述し
ている。ここで、文字列word,lastは、単語の
出現箇所を限定するものであり、wordは、その文の
任意の箇所を表し、lastは、その文の文末(句読点
除く)を表す。また、文字列strsは、単語である必
要がなく、その文字列がその文に含まれていれば良いこ
とを表す。従って、主張文の出現比率という属性に関す
るルール「word=”べき”」は、「文中に単語「べ
き」が含まれている文を主張文とみなす」というルール
を記述しており、「strs=”と思う”」は、「文中
に文字列「と思う」が含まれている文を主張文とみな
す」というルールを記述している。さらに、命令文の出
現比率に関するルール「last=下さい」は、「文末
が「下さい」で終わる文を命令文とみなす」というルー
ルを記述している。文章情報解析処理800では、単語
分割結果と文章解析ルール6を参照して各属性の値を算
出し、その文章の特徴を解析する。
【0026】図19は、その文章情報解析処理800の
処理を表すPAD図である。まず、カウンタ等の変数を
初期化し(ステップ801)、文章解析ルール6をロー
ドする(ステップ802)。次に、文章文字数をカウン
トし、図20(b)に示す文章解析テーブル7の文章テ
ーブルの属性項目コード201のA01の属性値950
にその値を格納する(ステップ803)。次に、文章解
析テーブル7の単語テーブル(図20(a))を参照し
て、文章の単語数をカウントし、文章解析テーブル7の
文章テーブルの属性項目コードのA02の属性値にその
値を格納する(ステップ804)。同様にして、スペー
スで始まる文の数、すなわち文章の段落数をカウント
し、文章解析テーブル7の文章テーブルの属性項目コー
ドのA03の属性値にその値を格納する(ステップ80
5)。同様にして、文章の文数をカウントし、文章解析
テーブル7の文章テーブルの属性項目コードのA04の
属性値にその値を格納する(ステップ806)。さら
に、文章の文数を文章の段落数で割った値、すなわち、
一段落の平均文数を計算し、文章解析テーブル7の文章
テーブルの属性項目コードのA05の属性値にその値を
格納する(ステップ807)。さらに、文章の単語数を
文章の文数で割った値、すなわち、一文の平均単語数を
計算し、文章解析テーブル7の文章テーブルの属性項目
コードのA06の属性値にその値を格納する(ステップ
808)。さらに、文章の文字数を文章の文数で割った
値、すなわち、一文の平均文字数を計算し、文章解析テ
ーブル7の文章テーブルの属性項目コードのA07の属
性値にその値を格納する(ステップ809)。次に、す
べての文について以下を実行する(ステップ810)。
文章解析ルール6の各属性項目201について以下を実
行する(ステップ811)。当該文が当該属性項目iに
関する文章解析ルール900を一つでも満たすか否かを
判別し(ステップ812)、満たす場合は、当該属性項
目iに対応するカウンタ変数numofsents[i]の値を1増
加する(ステップ813)。ステップ810の後、文章
解析ルール6の各属性項目iについて以下を実行する
(ステップ814)。当該属性項目に対応する変数numo
fsents[i]の値を文数で割った値を計算し、文章解析テ
ーブル7の文章テーブルに格納する(ステップ81
5)。
【0027】文章情報解析処理800により、図20
(b)の文章解析テーブル7の文章テーブルの属性値を
得ることができる。図20(b)は、図14の文章から
文章解析処理によって得られた文章解析テーブル7の単
語テーブルの一部と文章テーブルを示す図である。図1
8に示すように、単語「た」で終わる文は、過去文とし
ており、図14の文章には、そのような文が8文中6文
(75%)あるので、図20(b)の過去文の出現比率
(A12)に数値75が格納される。以下同様である。
【0028】図21は、図15の文章から文章解析処理
によって得られた文章解析テーブル7の(a)単語テー
ブルの一部と(b)文章テーブルを示す図である。
【0029】図22は、文章構成タイプ推定処理107
の処理を表すPAD図である。まず、文章構成タイプ識
別ルール9に格納されている各識別ルールについて以下
の処理を行う(ステップ1071)。文章解析テーブル
7の文章テーブルに格納されたすべての属性値が、当該
識別ルールの属性値を満たすか否かを判別し(ステップ
1072)、満たす場合は、当該識別ルールの持つ文章
構成タイプの識別子を当該文章の文章構成タイプとして
認定し、文章構成タイプ推定処理107を終了する(ス
テップ1073)。ステップ1071の後、ステップ1
074に移るが、このステップに来るのは、文章構成タ
イプが推定できなかった場合のみである。そこで、ステ
ップ1074では、文章構成タイプをデフォルト値とす
る。ここでは、その識別子を””(NULL)とする。
文章構成タイプ推定処理107により、図20の文章テ
ーブルと図5〜図6の文章構成タイプ識別ルールを比較
すると、図5の新聞記事の識別ルールは、図20の文章
テーブルをすべて満たすので、図14の文章は、文章構
成タイプが「新聞記事」であると認定される。同様に、
図21の文章テーブルと図5〜図6の文章構成タイプ識
別ルールを比較すると、図5の新聞記事の識別ルール
は、文章の文字数A01が満たされないため、不適当で
あるのに対し、図6の依頼メッセージの識別ルールは、
図21の文章テーブルをすべて満たすので、図15の文
章は、文章構成タイプが「依頼メッセージ」であると認
定される。なお、文章構成タイプ推定処理により推定さ
れた文章構成タイプに代えて、ユーザによりキーボード
等の入力装置から入力された文章構成タイプを用いるよ
うにしてもよい。
【0030】図23は、文章内容タイプ推定処理108
の処理を表すPAD図である。まず、文章内容タイプ識
別ルール12に格納された各識別ルールについて以下の
処理を行う(ステップ1081)。当該文章の文章構成
タイプの識別子が当該識別ルールの持つ文章構成タイプ
の識別子に等しいか否かを判別し(ステップ108
2)、等しい場合は、さらに、当該識別ルールの属性項
目コードB01すなわち、「必ず出現する単語」として
定義格納した単語のすべてが文章解析テーブルの単語テ
ーブルの見出しに少なくとも1回以上存在するか否かを
判別し(ステップ1083)、出現する場合は、さら
に、当該識別ルールの属性項目コードB02すなわち
「よく出現する単語」として定義格納された単語のうち
少なくとも一つが文章解析テーブルの単語テーブルの見
出しに少なくとも1回以上存在するか否かを判別し(ス
テップ1084)、出現する場合は、当該識別ルールの
持つ文章構成タイプの識別子を当該文章の文章構成タイ
プとして認定し、また、当該識別ルールの持つ文章内容
タイプの識別子を当該文章の文章内容タイプとして認定
し、文章内容タイプ推定処理108を終了する(ステッ
プ1085)。ステップ1081の後、ステップ108
6に移るが、このステップに来るのは、文章内容タイプ
が推定できなかった場合のみである。そこで、ステップ
1086では、文章内容タイプをデフォルト値とする。
ここでは、その識別子を””(NULL)とする。
【0031】文章内容タイプ推定処理108により、図
14の文章(図16の単語分割結果、図20の文章解析
テーブルを持つ)と図9の文章内容タイプ識別ルールを
比較すると、図9の新聞記事の為替1の識別ルールにお
いて、図16より、図14の文章には、「必ず出現する
単語」である「為替」「円」「ドル」の3種類の単語が
存在することが分かり、さらに、「よく出現する単語」
である「市場」「相場」「売り」「買い」のうち、「市
場」「売り」などが存在することが分かるので、図20
のテーブルをすべて満たすので、図14の文章は、文章
構成タイプが「新聞記事」であり、文章内容タイプが
「為替1」であると認定される。同様に、図15の文章
(図17の単語分割結果、図21の文章解析テーブルを
持つ)と図9の文章内容タイプ識別ルールを比較する
と、図15の文章は、文章構成タイプとして「依頼メッ
セージ」を持つので、図9の識別ルールの持つ文章構成
タイプ「新聞記事」とは異なる。よって、図15の文章
は、文章構成タイプが「依頼メッセージ」であり、文章
内容タイプがデフォルトの文章内容タイプであると認定
される。ここでは、その識別子を””(NULL)とす
る。なお、文章内容タイプ推定処理により推定された文
章内容タイプに代えて、ユーザによりキーボード等の入
力装置から入力された文章内容タイプを用いるようにし
てもよい。
【0032】このように、文章構成タイプと文章内容タ
イプが決定すると、それに対応する文章加工方法が一意
に決定する。文章構成タイプと文章内容タイプの組合せ
には、両方とも特定の識別子が推定されている場合、い
ずれか一方の識別子が””(NULL)(すなわち、デ
フォルト値)である場合、両方の識別子が””(NUL
L)(すなわち、デフォルト値)である場合がある。加
工方法設定処理109では、加工方法設定テーブル15
を参照して文章を加工(要約)するための要約設定項目
603の値604を設定する。例えば、図14の文章
は、文章構成タイプが新聞記事であり、文章内容タイプ
が為替1であるので、図12の文章構成タイプが新聞記
事で文章内容タイプが為替1である加工方法設定テーブ
ル15より、「「文章の冒頭文」を抽出し、「文章加工
キーワードを含む文」を抽出し、「副詞」を削除し、
「接続詞」を削除する」という設定となる。ここでは、
「文章加工キーワード」は、図9より、「終値」「出来
高」である。一方、図15の文章は、文章構成タイプが
依頼メッセージであり、文章内容タイプが””(デフォ
ルト値)であるので、図12の文章構成タイプが依頼メ
ッセージで文章内容タイプが””(デフォルト値)であ
る加工方法設定テーブル15より「「命令を記述した
文」を抽出し、「副詞」を削除し、「接続詞」を削除す
る」という設定となり、図14の文章と要約方法が異な
ることになる。なお、ユーザによりキーボード等の入力
装置から文章構成タイプの推定処理あるいは文章内容タ
イプの推定処理を省略する指示をしてもよく、この場
合、文章構成タイプの推定処理の省略なら、文章構成タ
イプをデフォルトの文章構成タイプとし、文章内容タイ
プの推定処理の省略なら、文章内容タイプをデフォルト
の文章内容タイプとして、以後の処理を行なう。
【0033】図24は、加工ルール18の構成の一例を
示す図である。本実施例では、加工ルール18は、文章
解析ルールとほぼ同じ構造をしている。すなわち、設定
項目を識別するコード850、設定項目の名称851、
文章加工ルール990からなる。文章加工ルール990
は、文章解析ルール6と同じ形式である。ここで、pa
rtとは、単語の持つ品詞を参照することを示してい
る。
【0034】図25は、図14の文章に対する要約結果
(加工文章19)である。文章の冒頭文および、文章加
工キーワード「終値」「出来高」を含む文が要約文章と
して抽出されている。図26は、図15の文章に対する
要約結果(加工文章19)である。図24の加工ルール
の「命令を記述した文」に関するルールを満たす文が要
約文章として抽出されている。加工結果である抽出され
た要約文章は、表示装置上に表示される。この場合、ユ
ーザによるキーボード等の入力装置からの指示により、
加工前の文章、推定された文章構成タイプ、推定された
文章内容タイプ、選択された文章加工方法等を表示装置
上に表示するようにしてもよい。このように、本実施例
では、文章の構成や分野,内容に応じて適切な文章加工
方法を選択設定することができるので、文章の構成や分
野,内容にあまり左右されずに高精度の加工結果を得る
ことができる。
【0035】本実施例の変形例、拡張例について以下に
説明する。本実施例における文章構成タイプ識別ルール
獲得処理(図5)において、各属性項目毎にその属性項
目の重要度に比例した重みを定義できるようにする。本
実施例では、文章構成タイプ推定処理において、文章構
成タイプ識別ルールのすべての属性値を満たす場合にそ
の文章構成タイプを付与しているが、すべての属性値を
満たすことがあまりない場合もある。そこで、各属性項
目毎にその属性項目の重要度に比例した重みを定義でき
るようにし(図27)、文章構成タイプ推定処理におい
て、文章構成タイプ識別ルールのある属性値を満たす場
合に、その属性の持つ重みを加算し、満足する属性値の
重みの合計を計算し、その合計が最大の文章構成タイプ
をその文章の文章構成タイプとする。また、ある一定の
しきい値より大きいものが一つもない場合、文章構成タ
イプが推定不可能であると判定する。このようにすれ
ば、すべての属性値を満たさなくてもよくなり、文章構
成タイプが推定不可能となる文章が減少する。同様のこ
とは、文章内容タイプ識別ルール獲得処理および文章内
容タイプ推定処理の場合にも言える。
【0036】
【発明の効果】本発明によれば、文章の構成や分野,内
容に応じて適切な文章加工方法を選択することができる
ので、文章の構成や分野、内容にあまり左右されずに高
精度の加工結果を得ることができる。また、本発明によ
れば、さまざまなタイプの文章が入り混じっている文章
集合を連続的に加工する場合でも、文章の仕分けなどの
人的操作を介することなく、また、精度を低下させるこ
となく、自動的に文章を連続加工することができる。
【図面の簡単な説明】
【図1】本実施例の概要を示すブロック図である。
【図2】本実施例のハードウェア構成の概要を示すブロ
ック図である。
【図3】本実施例の処理の流れを示すPAD図である。
【図4】文章の属性データの一例を示す図である。
【図5】文章構成タイプ識別ルール生成/更新時の画面
例を示す図である。
【図6】文章構成タイプ識別ルール生成/更新時の他の
画面例を示す図である。
【図7】文章構成タイプ識別ルールの一例を示す図であ
る。
【図8】文章内容タイプ識別ルール生成/更新時の画面
例を示す図である。
【図9】文章内容タイプ識別ルールの一例を示す図であ
る。
【図10】加工方法設定テーブル生成/更新時の画面例
を示す図である。
【図11】加工方法設定テーブル生成/更新時の他の画
面例を示す図である。
【図12】加工方法設定テーブルの一例を示す図であ
る。
【図13】文章解析処理の流れを示すPAD図である。
【図14】加工対象電子文書の一例を示す図である。
【図15】加工対象電子文書の他の一例を示す図であ
る。
【図16】単語分割処理の結果の一例を示す図である。
【図17】単語分割処理の結果の他の一例を示す図であ
る。
【図18】文章解析ルールの一例を示す図である。
【図19】文章情報解析処理の流れを示すPAD図であ
る。
【図20】文章解析テーブルの一例を示す図である。
【図21】文章解析テーブルの他の一例を示す図であ
る。
【図22】文章構成タイプ推定処理の流れを示すPAD
図である。
【図23】文章内容タイプ推定処理の流れを示すPAD
図である。
【図24】加工ルールの一例を示す図である。
【図25】加工文章の一例を示す図である。
【図26】加工文章の他の一例を示す図である。
【図27】文章構成タイプ識別ルールの他の一例を示す
図である。
【符号の説明】
1 入出力部 2 加工対象電子文書 3 文章解析部 4 単語辞書 5 文法辞書 6 文章解析ルール 7 文章解析テーブル 8 文章構成タイプ識別ルール獲得処理部 9 文章構成タイプ識別ルール 10 文章構成タイプ推定処理部 11 文章内容タイプ識別ルール獲得処理部 12 文章内容タイプ識別ルール 13 文章内容タイプ推定処理部 14 加工方法設定データ獲得処理部 15 加工方法設定テーブル 16 加工方法設定処理部 17 加工文章作成処理部 18 加工ルール 19 加工文章 30 マウス 35 キーボード 40 ネットワーク接続装置 45 計算機ネットワーク 50 ディスプレイ 60 処理装置 70 記憶装置

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力装置と、出力装置と、処理装置と、
    記憶装置を備え、入力された電子文書を加工して加工文
    章を作成する文章加工方法において、 前記記憶装置に、単語辞書と、文法辞書と、複数の属性
    項目からなる文章属性データと、文章解析ルールと、複
    数の文章構成タイプ識別ルールと、複数の文章内容タイ
    プ識別ルールと、複数の加工方法設定テーブルと、加工
    ルールを設定し、 前記処理装置は、 入力された電子文書を前記単語辞書と文法辞書と文章属
    性データと文章解析ルールに基づいて解析し、単語テー
    ブルと文章テーブルからなる文章解析テーブルを生成
    し、 前記複数の文章構成タイプ識別ルールを参照して、前記
    文章解析テーブルの内 容と最も一致する文章構成タイプ識別ルールを抽出し、
    該抽出した識別ルールの文章構成タイプを前記入力され
    た電子文書の文章構成タイプと推定し、 前記複数の文章内容タイプ識別ルールを参照して、前記
    文章解析テーブルの内容と最も一致する文章内容タイプ
    識別ルールを抽出し、該抽出した識別ルールの文章内容
    タイプを前記入力された電子文書の文章内容タイプと推
    定し、 前記複数の加工方法設定テーブルから前記推定した文章
    構成タイプと文章内容タイプの組に対応する加工方法設
    定テーブルを選択し、 該選択した加工方法設定テーブルと前記加工ルールに基
    づき前記入力された電子文書を加工することを特徴とす
    る文章加工方法。
  2. 【請求項2】 請求項1記載の文書加工方法において、 前記処理装置は、前記加工された文章を前記出力装置に
    より報知する際に、加工前の文章、前記推定された文章
    構成タイプ、前記推定された文章内容タイプ、前記選択
    された文章加工方法をユーザの指示に応じて出力装置に
    より報知することを特徴とする文書加工方法。
  3. 【請求項3】 請求項1記載の文書加工方法において、 前記処理装置は、前記記憶装置に前記文章構成タイプ識
    別ルールを設定するとき、前記出力装置に前記複数の属
    性項目からなる文章属性データまたは既に記憶装置に設
    定されている文章構成タイプ識別ルールを表示し、前記
    入力装置から入力される文章構成タイプを表わす識別子
    と各属性項目の属性値と前記属性項目とにより、文章構
    成タイプ識別ルールを生成または更新し、前記記憶装置
    に設定することを特徴とする文書加工方法。
  4. 【請求項4】 請求項1記載の文書加工方法において、 前記処理装置は、前記記憶装置に前記文章内容タイプ識
    別ルールを設定するとき、前記出力装置に前記複数の属
    性項目からなる文章属性データおよび文章内容タイプ識
    別用の複数の属性項目からなる文章属性データ、または
    既に記憶装置に設定されている文章内容タイプ識別ルー
    ルを表示し、前記入力装置から入力される文章内容タイ
    プを表わす識別子と各属性項目の属性値と前記属性項目
    とにより、文章内容タイプ識別ルールを生成または更新
    し、前記記憶装置に設定することを特徴とする文書加工
    方法。
  5. 【請求項5】 請求項1記載の文書加工方法において、 前記処理装置は、前記推定した文章構成タイプあるいは
    前記推定した文章内容タイプに代えて、前記入力装置か
    ら入力指定された文章構成タイプあるいは文章内容タイ
    プを用いることを特徴とする文書加工方法。
  6. 【請求項6】 請求項1記載の文書加工方法において、 前記記憶装置に、デフォルトの文章構成タイプおよびデ
    フォルトの文章内容タイプを予め設定すると共に、該デ
    フォルトの文章構成タイプとデフォルトの文章内容タイ
    プの一方あるいは両方を含む文章構成タイプと文章内容
    タイプの組に対応する加工方法設定テーブルを予め設定
    し、 前記処理装置は、前記文章構成タイプの推定の結果、タ
    イプが推定できなかったと判断した場合、前記デフォル
    トの文章構成タイプをして文章構成タイプとし、前記文
    章内容タイプの推定の結果、タイプが推定できなかった
    と判断した場合、前記デフォルトの文章内容タイプをし
    て文章内容タイプとすることを特徴とする文書加工方
    法。
  7. 【請求項7】 請求項1または請求項5記載の文書加工
    方法において、 前記記憶装置に、デフォルトの文章構成タイプおよびデ
    フォルトの文章内容タイプを予め設定すると共に、該デ
    フォルトの文章構成タイプとデフォルトの文章内容タイ
    プの一方あるいは両方を含む文章構成タイプと文章内容
    タイプの組に対応する加工方法設定テーブルを予め設定
    し、 前記処理装置は、入力装置により前記文章構成タイプの
    推定を省略することを指示された場合、前記デフォルト
    の文章構成タイプをして文章構成タイプとし、入力装置
    により前記文章内容タイプの推定を省略することを指示
    された場合、前記デフォルトの文章内容タイプをして文
    章内容タイプとすることを特徴とする文書加工方法。
  8. 【請求項8】 入力装置と、出力装置と、処理装置と、
    記憶装置を備え、入力された電子文書を加工して加工文
    章を作成する文章加工装置において、 前記記憶装置に、単語辞書と、文法辞書と、複数の属性
    項目からなる文章属性データと、文章解析ルールと、複
    数の文章構成タイプ識別ルールと、複数の文章内容タイ
    プ識別ルールと、複数の加工方法設定テーブルと、加工
    ルールを設定し、 前記処理装置は、 入力された電子文書を前記単語辞書と文法辞書と文章属
    性データと文章解析ルールに基づいて解析し、単語テー
    ブルと文章テーブルからなる文章解析テーブルを生成す
    る文章解析部と、 前記複数の文章構成タイプ識別ルールを参照して、前記
    文章解析テーブルの内容と最も一致する文章構成タイプ
    識別ルールを抽出し、該抽出した識別ルールの文章構成
    タイプを前記入力された電子文書の文章構成タイプと推
    定する文章構成タイプ推定処理部と、 前記複数の文章内容タイプ識別ルールを参照して、前記
    文章解析テーブルの内容と最も一致する文章内容タイプ
    識別ルールを抽出し、該抽出した識別ルールの文章内容
    タイプを前記入力された電子文書の文章内容タイプと推
    定する文章内容タイプ推定処理部と、 前記複数の加工方法設定テーブルから前記推定した文章
    構成タイプと文章内容タイプの組に対応する加工方法設
    定テーブルを選択する加工方法設定設定処理部と、 該選択した加工方法設定テーブルと前記加工ルールに基
    づき前記入力された電子文書を加工する加工文章作成処
    理部を備えることを特徴とする文章加工装置。
  9. 【請求項9】 請求項8載の文書加工装置において、 前記処理装置は、前記加工された文章を前記出力装置に
    より報知する際に、加工前の文章、前記推定された文章
    構成タイプ、前記推定された文章内容タイプ、前記選択
    された文章加工方法をユーザの指示に応じて出力装置に
    より報知する手段を備えることを特徴とする文書加工装
    置。
  10. 【請求項10】 請求項8記載の文書加工装置におい
    て、 前記処理装置は、前記記憶装置に前記文章構成タイプ識
    別ルールを設定するとき、前記出力装置に前記複数の属
    性項目からなる文章属性データまたは既に記憶装置に設
    定されている文章構成タイプ識別ルールを表示し、前記
    入力装置から入力される文章構成タイプを表わす識別子
    と各属性項目の属性値と前記属性項目とにより、文章構
    成タイプ識別ルールを生成または更新し、前記記憶装置
    に設定する手段を備えることを特徴とする文書加工装
    置。
  11. 【請求項11】 請求項8記載の文書加工装置におい
    て、 前記処理装置は、前記記憶装置に前記文章内容タイプ識
    別ルールを設定するとき、前記出力装置に前記複数の属
    性項目からなる文章属性データおよび文章内容タイプ識
    別用の複数の属性項目からなる文章属性データ、または
    既に記憶装置に設定されている文章内容タイプ識別ルー
    ルを表示し、前記入力装置から入力される文章内容タイ
    プを表わす識別子と各属性項目の属性値と前記属性項目
    とにより、文章内容タイプ識別ルールを生成または更新
    し、前記記憶装置に設定する手段を備えることを特徴と
    する文書加工装置。
  12. 【請求項12】 請求項8記載の文書加工装置におい
    て、 前記処理装置は、前記推定した文章構成タイプあるいは
    前記推定した文章内容タイプに代えて、前記入力装置か
    ら入力指定された文章構成タイプあるいは文章内容タイ
    プを用いることを特徴とする文書加工装置。
  13. 【請求項13】 請求項8記載の文書加工装置におい
    て、 前記記憶装置に、デフォルトの文章構成タイプおよびデ
    フォルトの文章内容タイプを予め設定すると共に、該デ
    フォルトの文章構成タイプとデフォルトの文章内容タイ
    プの一方あるいは両方を含む文章構成タイプと文章内容
    タイプの組に対応する加工方法設定テーブルを予め設定
    し、 前記文章構成タイプ推定処理部は、前記文章構成タイプ
    の推定の結果、タイプが推定できなかったと判断した場
    合、前記デフォルトの文章構成タイプをして文章構成タ
    イプとし、前記文章内容タイプ推定処理部は、前記文章
    内容タイプの推定の結果、タイプが推定できなかったと
    判断した場合、前記デフォルトの文章内容タイプをして
    文章内容タイプとすることを特徴とする文書加工装置。
  14. 【請求項14】 請求項8または請求項12記載の文書
    加工装置において、 前記記憶装置に、デフォルトの文章構成タイプおよびデ
    フォルトの文章内容タイプを予め設定すると共に、該デ
    フォルトの文章構成タイプとデフォルトの文章内容タイ
    プの一方あるいは両方を含む文章構成タイプと文章内容
    タイプの組に対応する加工方法設定テーブルを予め設定
    し、 前記処理装置は、入力装置により前記文章構成タイプの
    推定を省略することを指示された場合、前記デフォルト
    の文章構成タイプをして文章構成タイプとし、入力装置
    により前記文章内容タイプの推定を省略することを指示
    された場合、前記デフォルトの文章内容タイプをして文
    章内容タイプとする手段を備えることを特徴とする文書
    加工装置。
JP10002895A 1995-03-31 1995-03-31 文書加工方法および装置 Expired - Fee Related JP3571408B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10002895A JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置
US08/622,892 US5978820A (en) 1995-03-31 1996-03-29 Text summarizing method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10002895A JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置

Publications (2)

Publication Number Publication Date
JPH08272826A true JPH08272826A (ja) 1996-10-18
JP3571408B2 JP3571408B2 (ja) 2004-09-29

Family

ID=14263088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10002895A Expired - Fee Related JP3571408B2 (ja) 1995-03-31 1995-03-31 文書加工方法および装置

Country Status (2)

Country Link
US (1) US5978820A (ja)
JP (1) JP3571408B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10274997A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
JP2009059242A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報処理装置およびプログラム
JP2011118748A (ja) * 2009-12-04 2011-06-16 Toshiba Corp 情報配信システム、情報配信装置及び情報配信プログラム

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
CA2329345A1 (en) * 1997-04-22 1998-10-29 Greg Hetherington Method and apparatus for processing free-format data
JP3605263B2 (ja) * 1997-06-27 2004-12-22 株式会社日立製作所 電子会議システム
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
JP2004511047A (ja) * 2000-10-02 2004-04-08 スイス リインシュアランス カンパニー オンライン再保険キャパシティオークションシステムおよび方法
WO2002046960A2 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
US7178099B2 (en) * 2001-01-23 2007-02-13 Inxight Software, Inc. Meta-content analysis and annotation of email and other electronic documents
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
JP4630480B2 (ja) * 2001-03-19 2011-02-09 株式会社東芝 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US6990634B2 (en) * 2001-04-27 2006-01-24 The United States Of America As Represented By The National Security Agency Method of summarizing text by sentence extraction
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
WO2003034299A2 (en) * 2001-10-12 2003-04-24 Swiss Reinsurance Company System and method for reinsurance placement
US6904564B1 (en) 2002-01-14 2005-06-07 The United States Of America As Represented By The National Security Agency Method of summarizing text using just the text
US20040205463A1 (en) * 2002-01-22 2004-10-14 Darbie William P. Apparatus, program, and method for summarizing textual data
US7487462B2 (en) * 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US7228507B2 (en) * 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US7549114B2 (en) * 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US20030210249A1 (en) * 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
CA2496567A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US10445795B2 (en) * 2003-07-31 2019-10-15 Swiss Reinsurance Company Ltd. Systems and methods for multi-level business processing
US8327255B2 (en) * 2003-08-07 2012-12-04 West Services, Inc. Computer program product containing electronic transcript and exhibit files and method for making the same
GB2405727A (en) * 2003-09-03 2005-03-09 Business Integrity Ltd Dynamic questionnaire generation
US8606602B2 (en) 2003-09-12 2013-12-10 Swiss Reinsurance Company Ltd. Systems and methods for automated transactions processing
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US20050114253A1 (en) * 2003-11-24 2005-05-26 Low James J.Iii Systems and methods for automated transactions processing
WO2005076168A1 (en) * 2004-02-03 2005-08-18 Swiss Reinsurance Company Computer-based transaction system and computer implemented method for transacting services between a service provider and a client
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US20060136824A1 (en) * 2004-11-12 2006-06-22 Bo-In Lin Process official and business documents in several languages for different national institutions
US7644350B2 (en) * 2005-02-18 2010-01-05 Ricoh Company, Ltd. Techniques for validating multimedia forms
US7890860B1 (en) * 2006-09-28 2011-02-15 Symantec Operating Corporation Method and apparatus for modifying textual messages
US9031947B2 (en) * 2007-03-27 2015-05-12 Invention Machine Corporation System and method for model element identification
US20080281922A1 (en) * 2007-05-09 2008-11-13 Microsoft Corporation Automatic generation of email previews and summaries
US20080281927A1 (en) * 2007-05-11 2008-11-13 Microsoft Corporation Summarization tool and method for a dialogue sequence
US8209617B2 (en) * 2007-05-11 2012-06-26 Microsoft Corporation Summarization of attached, linked or related materials
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
EP2406739A2 (en) * 2009-03-13 2012-01-18 Invention Machine Corporation System and method for knowledge research
KR20120009446A (ko) * 2009-03-13 2012-01-31 인벤션 머신 코포레이션 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9037590B2 (en) * 2012-01-23 2015-05-19 Formcept Technologies and Solutions Pvt Ltd Advanced summarization based on intents
US9442909B2 (en) * 2012-10-11 2016-09-13 International Business Machines Corporation Real time term suggestion using text analytics
KR20150138742A (ko) * 2014-06-02 2015-12-10 삼성전자주식회사 컨텐츠 처리 방법 및 그 전자 장치
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
WO2016171709A1 (en) * 2015-04-24 2016-10-27 Hewlett-Packard Development Company, L.P. Text restructuring
US10740573B2 (en) 2015-12-23 2020-08-11 Oath Inc. Method and system for automatic formality classification
US10832001B2 (en) * 2018-04-26 2020-11-10 Google Llc Machine learning to identify opinions in documents
US11294946B2 (en) * 2020-05-15 2022-04-05 Tata Consultancy Services Limited Methods and systems for generating textual summary from tabular data
CN111782803A (zh) * 2020-06-05 2020-10-16 京东数字科技控股有限公司 一种工单的处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS63214832A (ja) * 1987-03-02 1988-09-07 Nippon Telegr & Teleph Corp <Ntt> 通知文書処理装置
JPH0484366A (ja) * 1990-07-27 1992-03-17 Toshiba Corp 文書種別判別装置
JPH05233706A (ja) * 1992-02-25 1993-09-10 Hitachi Ltd 文書分類保管システム
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
US5442780A (en) * 1991-07-11 1995-08-15 Mitsubishi Denki Kabushiki Kaisha Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS63214832A (ja) * 1987-03-02 1988-09-07 Nippon Telegr & Teleph Corp <Ntt> 通知文書処理装置
JPH0484366A (ja) * 1990-07-27 1992-03-17 Toshiba Corp 文書種別判別装置
JPH05233706A (ja) * 1992-02-25 1993-09-10 Hitachi Ltd 文書分類保管システム
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
JPH10274997A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JPH1139306A (ja) * 1997-07-16 1999-02-12 Sony Corp 多言語情報の処理システムおよび処理方法
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
JP2009059242A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報処理装置およびプログラム
JP2011118748A (ja) * 2009-12-04 2011-06-16 Toshiba Corp 情報配信システム、情報配信装置及び情報配信プログラム

Also Published As

Publication number Publication date
JP3571408B2 (ja) 2004-09-29
US5978820A (en) 1999-11-02

Similar Documents

Publication Publication Date Title
JP3571408B2 (ja) 文書加工方法および装置
US7464096B2 (en) Method and apparatus for information mining and filtering
US7840891B1 (en) Method and system for content extraction from forms
JP3918531B2 (ja) 類似文書検索方法およびシステム
US7493252B1 (en) Method and system to analyze data
US5752021A (en) Document database management apparatus capable of conversion between retrieval formulae for different schemata
US9208140B2 (en) Rule based apparatus for modifying word annotations
CN111597351A (zh) 可视化文档图谱构建方法
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US7752196B2 (en) Information retrieving and storing system and method
US20050160086A1 (en) Information extraction apparatus and method
JP4671164B2 (ja) 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3489326B2 (ja) テーブル生成方法
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN111428503B (en) Identification processing method and processing device for homonymous characters
JP2885489B2 (ja) 文書内容検索装置
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP3470930B2 (ja) 自然語解析方法及び装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees