JPH07244663A - 文書情報要旨部分の抽出方法とその装置 - Google Patents

文書情報要旨部分の抽出方法とその装置

Info

Publication number
JPH07244663A
JPH07244663A JP6034805A JP3480594A JPH07244663A JP H07244663 A JPH07244663 A JP H07244663A JP 6034805 A JP6034805 A JP 6034805A JP 3480594 A JP3480594 A JP 3480594A JP H07244663 A JPH07244663 A JP H07244663A
Authority
JP
Japan
Prior art keywords
document
gist
information
position information
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6034805A
Other languages
English (en)
Inventor
Takashi Inoue
孝史 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6034805A priority Critical patent/JPH07244663A/ja
Publication of JPH07244663A publication Critical patent/JPH07244663A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 新聞記事や製品の紹介記事等の同一文書情報
に属する文書の要旨部分を容易に抽出できる方法を提供
する。 【構成】 同一文書情報に属する文書を多数無作為に集
め、それぞれの文書を構成単位文毎に区分し、単位文毎
に1から配列順に番号を付与し、多数の判定人に全ての
文書を読ませ、文書毎の要旨部分と判定した単位文の位
置を示す番号を指摘させ、それらの総員の指摘位置を文
書毎、位置番号毎に集計する。その後、位置番号毎に全
ての文書の分を集計し、その値を位置番号別に文書数で
割って平均値を出し、更に判定人の人数で割って評価値
を出す。その位置番号別の評価値を0.5と比較して大
きい値を有する位置番号をこの種類の文書情報に属する
文書の要旨部分の位置と決定し、同種類の文書の要旨は
この位置番号の単位文を抽出して出力することで足りる
ことになる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はオフィスにおける文書処
理技術に関し、特に文書の要旨部分の抽出に関する。
【0002】
【従来の技術】従来、文書情報からの要旨の抽出におい
て、自然言語処理技術を用いて文書情報を解析し、要旨
を抽出することが試みられている。
【0003】情報処理第30巻第10号1989年に掲
載の安原、小松、日比、加藤による「要約支援システム
COGITO」は、文書情報を文毎に意味解析して形態
素解析、構文解析、格解析により格フレームに変換し、
文毎の格フレームに対して文脈処理を行い、照応関係な
どを同定し、重要性評価規則を用いて要約部分を抽出し
ている。
【0004】
【発明が解決しようとする課題】上述した従来の要旨部
分抽出方法は、処理の極めて複雑な自然言語処理技術を
用いており、また、世界知識、辞書、が参照され、さら
に、重要性評価規則の構築が甚だ困難なことであると言
う欠点がある。
【0005】本発明の目的は、処理の複雑な自然言語処
理技術を用いるこことなく、文書情報から容易に要旨部
分を抽出できる文書情報要旨部分の抽出方法を提供する
ことである。
【0006】
【課題を解決するための手段】本発明の文書情報要旨部
分の抽出方法は、無作為に集めた同一種類の文書情報の
多数の文書のそれぞれの要旨を多数の人に選出させるス
テップと、前記多数の文書毎に選出された要旨が所在す
る文書内の位置を、文書を構成する単位文の所在位置で
代表させ、その位置の同定性の高い位置を検出するステ
ップを有し、同一種類の文書情報に属する文書の要旨
を、該文書の前記同定性の高い位置を検出するステップ
で検出された位置に該当する位置にある単位文を抽出し
て出力する処理である。
【0007】また、本発明の文書情報要旨部分の抽出方
法の一実施態様は、無作為に集めた要旨部分抽出の対象
となる、同一の文書種類に属する複数の文書を文書毎に
それらの文書を構成している単位文別に区分し、文書毎
にそれぞれの単位文に同一初期番号からの連番の位置情
報を付す区分ステップと、複数の人を判定人としてそれ
ぞれに同一の前記複数の文書情報を読ませ、判定人毎に
該文書毎の要旨を述べていると判定した要旨所在単位文
を選出して該要旨所在単位文の位置情報を文書毎に表示
させる要旨選択ステップと、前記複数の判定人によって
表示された前記複数の文書毎の要旨所在単位文の位置情
報を文書毎、かつ位置情報別に集計する集計ステップ
と、前記位置情報別の集計結果を数値処理して多数評価
を基に要旨所在単位文の所在位置を決定する評価ステッ
プと、前記評価ステップによって決定された単位文の位
置情報を要旨所在位置として固定する要旨所在位置固定
化ステップとを有し、要旨抽出対象の前記同一文書情報
に属する文書から、前記要旨所在位置固定化ステップで
固定された位置情報に対応する単位文を抽出することに
より要旨を出力する。
【0008】また、前記要旨選択ステップが、文書毎、
かつ位置情報別の設欄の該当欄にマークを記入するステ
ップであり、前記集計ステップが、文書毎に、かつ前記
位置情報別に設欄された欄毎の判定人別の前記マークを
集計した数値を前記カードと同様な設欄に記載するステ
ップであり、前記評価ステップの前記数値処理が、前記
位置情報別の集計結果をそれぞれ文書数で除算した平均
値を算出し、さらにそれらの平均値を判定人の人数で除
算して評価値を算出する処理であり、要旨所在位置固定
化ステップが、予め設定された数値である0.5より大
きい評価値の位置情報を格納するステップであるものも
本発明に含まれる。
【0009】また、本発明の文書情報要旨部分の抽出装
置は、無作為に集めた複数の同一種類に属する文書をそ
れぞれの文書毎に識別番号を付し、かつ該文書を構成し
ている単位文に区分して、前記単位文毎に初期番号を同
一とした連番の位置情報を記入する手段と、前記文書毎
に、かつ位置情報別にマークを記入されて入力された複
数のカードを集計して同一位置情報別に前記文書全数分
のマーク数を算出し、所定の参照数と比較して参照数よ
り大きい数値を有する位置情報を当該文書情報の種類の
共通の要旨抽出位置として登録する手段と、要旨抽出を
指示して入力された文書から、指示された文書情報の種
類の登録されている要旨抽出位置に対応する単位文を出
力する手段を有する。
【0010】また、本発明の文書情報要旨部分抽出装置
の一実施態様は、入力された複数の文書の各々に対し
て、該文書の識別番号と、該文書を構成している単位文
毎に初期番号を同一とする連番の位置情報を付記する手
段と、入力されたカードに記載されている所定のマーク
を読みとり、文書の識別番号毎、かつ、前記位置情報別
に読みとったマークの数を積算し、該積算値を文書数で
割って位置情報別平均値を算出し、該平均値を入力され
たカード数で割った数値を評価値として位置情報別に配
列された要旨所在表を出力する手段と、記憶装置と、前
記要旨所在表の位置情報別評価値を所定の参照値と比較
して該参照値より大きい評価値を有する位置情報を当該
文書情報の要旨抽出位置として前記記憶装置に登録する
手段と、要旨抽出を指示して入力された文書から、指示
された文書情報の種類の登録されている要旨抽出位置に
対応する単位文を抽出して出力する手段を有している。
【0011】
【作用】無作為に集めた同一種類の多数の文書をその文
書毎に構成単位文に区分し、各文書毎に単位文別に同一
の初期番号から連番の位置情報を付し、複数の判定人に
該文書の要旨と判定した単位文を選択して該単位文を代
表する連番位置情報別の欄にマークさせ、判定人全員の
マークを文書毎に、かつ位置情報別に集計し、その数値
をさらに連番位置情報別に集計し、その数値の大きい位
置情報に対応する単位文を要旨所在部分として決定し、
その位置情報を登録し、以後、同一種類の文書について
前記登録された連番位置の単位文を抽出することによ
り、該文書の要旨部分とすることができる。
【0012】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0013】図1は本発明の文書情報要旨部分の抽出方
法の一実施例が適用された文書情報要旨部分抽出装置の
処理を示すブロック図、図2は図1に示す要旨所在原票
1の記入例を示す図、図3は図1に示す要旨所在表変換
手順のフローチャート、図4は図1に示す要旨所在原票
1を集計した要旨所在集計表を示す図、図5は図1に示
す要旨所在表2の記入例を示す図、図6は図1に示す要
旨部分抽出部4の要旨所在位置登録のための手順のフロ
ーチャートである。
【0014】本実施例の文書情報要旨部分抽出装置は、
入力された文書に対して文書識別番号と、文書を構成し
ている単位文を区分して各単位文別に1から始まる連番
を記入して出力する区分部5と、要旨所在表変換部3
と、要旨部分抽出部4とからなる。要旨所在表変換部3
は、区分部5で記入された文書番号と、文書番号毎の文
書の単位文の文書内の位置を示す文番号との対応表にな
っている設欄に○印がマークされた要旨所在原票1が入
力されると、文書番号毎、分番号別に○印の数を集計し
て要旨所在集計表(図4)を作成し、さらに、文番号別
に全文書番号に亙って積算し、文書数で割った平均値を
算出し、さらに、文番号別平均値をそれぞれ入力された
要旨所在原票の数値で割って文番号別の評価値を算出し
て要旨所在表2を出力する。要旨部分抽出部4は、要旨
所在表2の各文番号別評価値としきい値0.5とを比較
して、0.5より大きい評価値に対応する文番号を当該
文書情報に属する文書の要旨位置情報として登録し、要
旨部分抽出のために入力された文書があると、指示され
た文書情報種類の要旨位置情報に対応する単位文を出力
する。
【0015】次に、本実施例では新聞記事の要旨部分の
抽出方法について説明する。
【0016】いま、それぞれ異なる新聞記事を無作為に
10件をサンプルし、文書1乃至文書10とし、それぞ
れの文書の構成単位文を区分して、第1文乃至第8文と
位置情報を付す。次に、20人を判定人として各判定人
に文書1から文書10を与えて読ませ、各判定人に文書
1乃至10毎にそれらの要旨と思われる単位文を選出し
て要旨所在原票1の該当位置情報欄に○印をマークさせ
る(ステップ11)。次に、20人のマーク済みの要旨
所在原票を集計して図4に示す要旨所在集計表を作成す
る(ステップ12)。さらに、要旨所在集計表の数値を
第1文乃至第8文別に集計しその値を文書数である10
で割り平均値を算出する(ステップ13)。次に、前記
平均値を判定人の人数で割って図5に示す要旨所在表2
を作成する(ステップ14)。
【0017】次に、要旨部分抽出方法を図6に示すフロ
ーチャートによって説明する。
【0018】まず、要旨所在表2から要旨部分と決定す
るためのしきい値を0.5に設定する(ステップ2
1)。文番号カウンタを0に設定する(ステップ2
2)。文番号「第1文」を読み込む(ステップ23)。
読み込む文番号が終了したかどうかを判定し、残ってな
ければ終了とし、読み込まれたものがあれば終了でない
ので、次の処理へ移行し(ステップ24)、文番号カウ
ンタを1インクレメントする(ステップ25)。その
後、要旨所在表2の該当文である第1文に対応する欄の
数値0.92を読み取り(ステップ26)、しきい値
0.5と比較し(ステップ27)、大きいので「第1
文」を登録し(ステップ28)、小さい場合はステップ
23へ戻る。また、要旨として「第1文」を登録した後
もステップ23へ戻り、次の文番号の読み込みを行う
(ステップ23)。以下同様にしてこの場合は、「第8
文」まで処理を反復し、結局「第1文」と「第5文」が
登録される。したがって、この新聞記事の種類に属する
文書情報の要旨は第1文と第5文を抽出することによっ
て得られることになる。
【0019】以上により新聞記事の要旨所在位置が登録
された後、新聞記事の例として下記の記事を要旨部分抽
出を指定して入力した場合について説明する。
【0020】第一文 「A銀行とB銀行は二日、来年四
月一日付で対等合併することになったと発表した。」 第2文 「新銀行名はC銀行。」 第3文 「頭取にはA銀行の山田頭取が就任する。」 第四文 「両銀行は十一月に合併契約を締結、来年一月
に株主総会を開き、承認を得る。」 第5文 「これにより資金量は10兆円と、都銀X位の
銀行が誕生する。」 この例では第5文までしかないが、上記の方法にしたが
って要旨を抽出すると、その要旨は第1文と第5文で次
のとおりになる。
【0021】「A銀行とB銀行は二日、来年四月一日付
で対等合併することになったと発表した。これにより資
金量は10兆円と、都銀X位の銀行が誕生する。」上記
のように文書情報の種類によって要旨部分の抽出のため
の単位文の位置を予め決めるための手順において、図1
に示す要旨所在変換手段3、および要旨部分抽出手段4
は、それぞれ、図3に示すフローチャートと図6に示す
フローチャートを機械処理する手段である。
【0022】
【発明の効果】以上説明したように本発明は、無作為に
集めた同一種類の文書情報多数について複数の判定人に
よりそれぞれの文書の要旨を示す単位文を予め区分した
位置別にマークさせその集計値を処理して、要旨を示す
単位文の位置を決定することにより、その後同一種類の
文書情報については前記の決定された位置の単位文を抽
出することで簡単に要旨をまとめられるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の文書情報要旨部分の抽出方法が適用さ
れた装置の一実施例の処理を示すブロック図である。
【図2】図1に示す要旨所在原票1の記入例を示す図で
ある。
【図3】図1に示す要旨所在表変換部3の集計ステップ
および評価ステップを含む要旨所在表2の作成手順を示
すフローチャートである。
【図4】図1に示す要旨所在原票1集計した要旨所在集
計表を示す図である。
【図5】図1に示す要旨所在表2の記入例を示す図であ
る。
【図6】図1に示す要旨部分抽出部4の要旨所在位置固
定化ステップを含む登録手順のフローチャートである。
【符号の説明】 1 要旨所在原票 2 要旨所在表 3 要旨所在表変換手段 4 要旨部分抽出手段
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成6年3月7日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項3
【補正方法】変更
【補正内容】

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書情報要旨部分の抽出方法であって、 無作為に集めた同一種類の文書情報の多数の文書のそれ
    ぞれの要旨を多数の人に選出させるステップと、 前記多数の文書毎に選出された要旨が所在する文書内の
    位置を、文書を構成する単位文の所在位置で代表させ、
    その位置の同定性の高い位置を検出するステップを有
    し、 同一種類の文書情報に属する文書の要旨を、該文書の前
    記同定性の高い位置を検出するステップで検出された位
    置に該当する位置にある単位文を抽出して出力する文書
    情報要旨部分の抽出方法。
  2. 【請求項2】 文書情報要旨部分の抽出方法であって、 無作為に集めた要旨部分抽出の対象となる、同一の文書
    種類に属する複数の文書を文書毎にそれらの文書を構成
    している単位文別に区分し、文書毎にそれぞれの単位文
    に同一初期番号からの連番の位置情報を付す区分ステッ
    プと、 複数の人を判定人として各判定人に同一の前記複数の文
    書情報を読ませ、判定人毎に該文書毎の要旨を述べてい
    ると判定した要旨所在単位文を選出して該要旨所在単位
    文の位置情報を文書毎に表示させる要旨選択ステップ
    と、 前記複数の判定人によって表示された前記複数の文書毎
    の要旨所在単位文の位置情報を文書毎、かつ位置情報別
    に集計する集計ステップと、 前記位置情報別の集計結果を数値処理して多数評価を基
    に要旨所在単位文の所在位置を決定する評価ステップ
    と、 前記評価ステップによって決定された単位文の位置情報
    を要旨所在位置として固定する要旨所在位置固定化ステ
    ップとを有し、 要旨抽出対象の前記同一文書情報に属する文書から、前
    記要旨所在位置固定化ステップで固定された位置情報に
    対応する単位文を抽出することにより要旨を出力する文
    書情報要旨部分の抽出方法。
  3. 【請求項3】 前記要旨選択ステップが、文書毎、かつ
    位置情報別に設欄されたカードの該当欄にマークを記入
    するステップであり、前記集計ステップが、文書毎に、
    かつ前記位置情報別に設欄された欄毎の判定人別の前記
    マークを集計した数値を前記カードと同様な設欄に記載
    するステップであり、前記評価ステップの前記数値処理
    が、前記位置情報別の集計結果をそれぞれ文書数で除算
    した平均値を算出し、さらにそれらの平均値を判定人の
    人数で除算して評価値を算出する処理であり、要旨所在
    位置固定化ステップが、予め設定された数値である0.
    5より大きい評価値の位置情報を格納するステップであ
    る請求項3記載の文書情報要旨部分の抽出方法。
  4. 【請求項4】 文書情報要旨部分の抽出装置であって、 無作為に集めた複数の同一種類に属する文書をそれぞれ
    の文書毎に識別番号を付し、かつ該文書を構成している
    単位文に区分して、前記単位文毎に初期番号を同一とし
    た連番の位置情報を記入する手段と、 前記文書毎に、かつ位置情報別にマークを記入されて入
    力された複数のカードを集計して同一位置情報別に前記
    文書全数分のマーク数を算出し、所定の参照数と比較し
    て参照数より大きい数値を有する位置情報を当該文書情
    報の種類の共通の要旨抽出位置として登録する手段と、 要旨抽出を指示して入力された文書から、指示された文
    書情報の種類の登録されている要旨抽出位置に対応する
    単位文を出力する手段を有する文書情報要旨部分の抽出
    装置。
  5. 【請求項5】 文書情報要旨部分の抽出装置であって、 入力された複数の文書の各々に対して、該文書の識別番
    号と、該文書を構成ししている単位文毎に初期番号を同
    一とする連番の位置情報を付記する手段と、 入力されたカードに記載されている所定のマークを読み
    とり、文書の識別番号毎、かつ、前記位置情報別に読み
    とったマークの数を積算し、該積算値を文書数で割って
    位置情報別平均値を算出し、該平均値をさらに入力され
    たカード数で割った数値を評価値として位置情報別に配
    列された要旨所在表を出力する手段と、 記憶装置と、 前記要旨所在表の位置情報別評価値を所定の参照値と比
    較して該参照値より大きい評価値を有する位置情報を当
    該文書情報の要旨抽出位置として前記記憶装置に登録す
    る手段と、 要旨抽出を指示して入力された文書から、指示された文
    書情報の種類の登録されている要旨抽出位置に対応する
    単位文を抽出して出力する手段を有する文書情報要旨部
    分の抽出装置。
JP6034805A 1994-03-04 1994-03-04 文書情報要旨部分の抽出方法とその装置 Pending JPH07244663A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6034805A JPH07244663A (ja) 1994-03-04 1994-03-04 文書情報要旨部分の抽出方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6034805A JPH07244663A (ja) 1994-03-04 1994-03-04 文書情報要旨部分の抽出方法とその装置

Publications (1)

Publication Number Publication Date
JPH07244663A true JPH07244663A (ja) 1995-09-19

Family

ID=12424446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6034805A Pending JPH07244663A (ja) 1994-03-04 1994-03-04 文書情報要旨部分の抽出方法とその装置

Country Status (1)

Country Link
JP (1) JPH07244663A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434526B1 (ko) * 1997-06-12 2004-09-04 삼성전자주식회사 문맥정보및지역적문서형태를이용한문장추출방법
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
US7120613B2 (en) 2002-02-22 2006-10-10 National Institute Of Information And Communications Technology Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method
CN100419733C (zh) * 2002-02-22 2008-09-17 独立行政法人情报通信研究机构 解决方案数据编辑处理及自动概括处理装置和方法
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置

Similar Documents

Publication Publication Date Title
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
US7080320B2 (en) Translation apparatus and method
US20030208502A1 (en) Method for determining a logical structure of a document
JP5216890B2 (ja) レシートデータ認識装置およびそのプログラム
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
JP2014137605A (ja) レシート定義データ作成装置およびそのプログラム
CN112966482A (zh) 一种报表生成方法、装置及设备
JP7290391B2 (ja) 情報処理装置及びプログラム
Doush et al. Detecting and recognizing tables in spreadsheets
JP6758448B1 (ja) 文書解析装置、文書解析方法及び文書解析プログラム
CN111144445A (zh) 印刷书刊书写格式的检错方法及系统、电子设备
CN112990110B (zh) 从研报中进行关键信息提取方法及相关设备
JP3360617B2 (ja) 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体
JPH07244663A (ja) 文書情報要旨部分の抽出方法とその装置
US5805881A (en) Method and apparatus for generating arbitrary output records in response to output designation of records
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
JP4160206B2 (ja) 文字認識装置を利用したデータベース登録方法
JP4501459B2 (ja) クロス表作成のためのプログラム及び方法及び装置
JP4356908B2 (ja) 財務諸表自動入力装置
JP2007257153A (ja) 文書データ読み上げ装置およびそのコンピュータプログラム
JP7021819B1 (ja) データ処理装置、データ処理方法及びプログラム
JP3109331B2 (ja) 帳票出力装置
Niemir et al. Monitoring and improvement of data quality in product catalogs using defined normalizers and validation patterns
JP3551445B2 (ja) 帳票処理装置
JP2019185142A (ja) 画像処理装置、画像処理方法、プログラム