JPH02181261A - 自動抄録生成装置 - Google Patents

自動抄録生成装置

Info

Publication number
JPH02181261A
JPH02181261A JP64000726A JP72689A JPH02181261A JP H02181261 A JPH02181261 A JP H02181261A JP 64000726 A JP64000726 A JP 64000726A JP 72689 A JP72689 A JP 72689A JP H02181261 A JPH02181261 A JP H02181261A
Authority
JP
Japan
Prior art keywords
important
sentence
words
sentences
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP64000726A
Other languages
English (en)
Inventor
Masaaki Nagata
昌明 永田
Atsuo Kawai
河合 敦夫
Haruo Kimoto
木本 晴夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP64000726A priority Critical patent/JPH02181261A/ja
Publication of JPH02181261A publication Critical patent/JPH02181261A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書データベース作成のために、データベース
に蓄積される文書に対して1重要な内容を簡潔に記述し
た抄録を原文から自動的に生成する装置に関する。
〔従来の技術〕
マニュアル、新聞記事、特許公報、技術文献など、大量
の文書を含むデータベースを作成する場合、文章の内容
の概略を迅速に把握できるように、原文の抄録を作成す
ることが必要である。従来、この種の抄録の作成には、
次のような方法が一般に用いられていた。
■ 何らかの文章の理解を行って、重要な文を決定する
方法 ■ 文と文との関係を解析し、重要な文を決定する方法 ■ キーワードの頻度を用いて、重要な文を決定する方
法 〔発明が解決しようとする課題〕 ■の方法では、物語文法や因果関係を利用することによ
り、深層レベルの文章の構造的な制約や事象間の関係を
解析し、これにより得られたデータ構造に対して、要約
規則を適用して重要な文を決定する。この方法では、世
界知識や推論規則など、対象に関する大量の知識と深い
解析を行って抄録を生成すること\なる。このため、世
界知識。
常識、言語的な制約、意図、内容の関連、因果関係など
、色々なレベルの要素に着目した抄録を生成できるとい
う利点がある。しかし、非常に多くの世界知識と深い推
論が必要であり、限られた狭い範囲の文章に対しては適
用可能であるが、必要とされる知識の量、知識の獲得方
法、推論方法、推論量などを考慮すると、現実の文章に
適用することは不可能に近い。
■の方法では、2つの文の連接関係(文と文の論理的な
関係)の解析を行い、文の連接関係ごとに与えた2つの
文の相対的な重要度の指標に基づいて、原文中の文を取
捨選択することにより抄録を生成する。2つの文の間の
連接関係は、接続詞と指示語、命題間の構成要素の概念
関係、動詞・名詞・形容詞が持つ推論規則、スクリプト
などから求める。このため、比較的短い文章に対して、
文と文の相対的重要度に関する規則から、推論による論
理的帰結として抄録を導くことができるという利点があ
る。しかし、この方法では、文と文の関係を必ず決定し
なければならないが、文と文の関係は、必ずしも統語的
な情報だけでは決定できない、従って、多くの知識と推
論を要する非常に深く微妙な判断を必要とし、必要な知
識量と推論量を考慮すると、実際の文章に適用すること
は難しい。また、局所的な又聞の関係により文の重要度
は、必ずしも、文章全体の中での大局的な内容的重要度
に結び付かないので、文章の全体の要旨を捉えた抄録を
作るのが難しいという問題点もある。
■の方法では、文章の頻度統計などにより記述内容の主
題や核となる重要語(キーワード)を予め求め、この重
要語を多く含む文を重要文(キーセンテンス)として抽
出することにより抄録を生成する。この方法は、文章の
大局的な解析により重要な内容を決定することができ、
また、各文には重要語の頻度に応じて、重要度を付与す
ることができるので、文章中から重要度の順に必要な数
だけ重要文を選ぶことができるという利点がある。
しかし、抄録の中に文章の主題の展開とは余り関係のな
い文が混じる。出力される抄録が互いに関連のない文の
羅列となり文章としてまとまりがない、などの欠点があ
った。
このように、■、■の方法では、大量の知識を用いて非
常に深い解析を行うことにより、非常に限られた狭い範
囲の短い文章に対する抄録を作ることは可能であるが、
必要な知識量や解析量から考えて、現実の文章に適用す
ることは不可能に近い。一方、■の方法は、広い範囲の
文章に対して適用可能であり、重要な文を決定するため
の実用的な方法であるが、文章の展開に関係のない文が
抽出される、抄録に文章としてのまとまりがない。
などの問題点があった。
本発明の目的は、上記従来の問題点を解決し、文章内容
の要点を述べた重要文を抽出すると共に、内容的にも構
成的にも文章としてのまとまりを持った抄録を生成でき
る自動抄録生成装置を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明の自動抄録生成装置
は1日本語の統語情報と意味情報を記憶した日本語辞書
、文章の構造に関する規則を記憶した文章構造規則辞書
、利用者が指定した重要語を記憶する重要諸辞書等の辞
書群と、入力原文について、前記文章構造規則辞書を用
いて題名、見出し、段落、文などの文章の構成要素を認
識し、構成要素間の関係を解析する文章構造解析部と。
前記文章構造解析部により認識された文章構成要素に対
し、前記日本語辞書を用いて形11A素解析を行い、機
能語の除去と名詞を抽出する名詞抽出部と、市記名詞抽
出部で抽出された名詞の語彙統計を行い、文章中の名詞
の使用状況を示す統計情報を得る語鷲統計部と、前記語
貧統計部で得られた統計情報と、前記重要語辞書から得
られる利用者が指定した重要語の情報から、文章中の重
要語を重要度付きで抽出する重要語抽出部と、前記文章
構造解析部により認識された文章構成要素について、前
記重要語抽出部で抽出された重要語の出現状況を調べ、
文章中の重要文を重要度付きで抽出する重要文抽出部と
、前記重要文抽出部で抽出された重要文中から、予め指
定された抄録の長さに応じて重要度の順に選択し、原文
中の順番に並べて抄録文とする抄録生成部とを備えてい
ることを特徴とする。
〔作 用〕
本発明の自動抄録生成装置では、日本語辞書を用いて機
能語を完全に除去し、一般名詞と固有名詞を対象として
、これらの頻度情報および位置情報から1文章の主題や
記述の核となる重要語を高精度に抽出できること、問題
の提起、結論などの、文章の展開を考慮しているので、
原文の文章展開が抄録に反映され、文章の主題の展開と
関係のない文が抄録に含まれることがないこと、利用者
用の重要語辞書を用意しているので、利用者が重要と思
っている内容に関する記述を抄録の中に含ませることが
できること、原文の文章の論理的な構造の解析を行って
いるので、文章の構造の情報から著者が重要と思ってい
る内容や強調したい内容に関する記述を抄録の中に含ま
せることができること、抄録を生成する際、各文に同じ
重要語群を含ませる、原文の文章構造を抄録に反映させ
るなどの処理を行っていること等により、内容的にも構
成的にも文章としてのまとまりを持った抄録を生成でき
る。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の一実施例のシステム構成図である。同
図において、1は磁気記憶装置等に文字コードで記録さ
れている文書データを読込む入力装置、2は生成された
抄録を磁気記憶装置等に出力する出力装置である。3は
抄録生成プログラムを実行するプロセッサ(CPU)、
4は抄録生成プログラムを格納するプログラムメモリ、
5は入力装置1により読込まれた文書データを格納する
文書メモリ、6は抄録生成プログラムを実行する際に使
用する作業メモリである。7は入力された文章の構造情
報を記憶する文章構造テーブル、8は文章から抽出した
名詞を格納する名詞テーブル、9は名詞の文章内の使用
度数を記憶する度数類名詞テーブル、10は文章構造の
情報と、利用者が指定した重要語の情報と、文章中の使
用度数の情報から選んだ重要語を格納する重要語テーブ
ル。
11は文章構造の情報と重要語の使用度数の情報から決
定した重要文を格納する重要文テーブル。
12は重要文を元の文書内の順番に並べて生成した抄録
を格納する抄録テーブルである。13は文章から名詞を
抽出する際に必要な統語情報と意味情報を格納した日本
語辞書、14は対象となる文書の構造に関する規則を格
納した文章構造規則辞書、15は利用者が指定した重要
語を格納した重要語辞書である。
第2図は本発明の一実施例の機罷ブロック図を示したも
ので、第1図のプロセッサ3は機能的に、文章構造解析
部31、名詞抽出部32、語彙統計部33、重要語抽出
部34、重要文抽出部35、抄録生成部36に分かれる
。以下、第2図にもとづいて説明する。
入力装置1は、処理対象となる文書ファイル16を文書
メモリ5に読み込む。
文章構造解析部31は1文書メモリ5の原文について1
文章構造規則辞書14に格納されている文章構造規則を
用いて1題名、著者、所属、見出し、段落、文などの原
文中の構成要素を認識し、これらの構成要素の間の関係
を解析して、結果を文章構造テーブル7に格納する。
名詞抽出部32は、文章構造解析部31により認識され
た文章構成要素に対して、日本語辞書13を用いて、形
態素解析と複合語(長単位名詞)の単位語(短単位名詞
)への分割を行い、名詞を抽出する。この際、特訓・数
詞・代名詞・形式名詞などの機能語的な役割を持った名
詞は除去して、一般名詞及び固有名詞のみを抽出し、名
詞テーブル8に格納する。
語彙統計部33は1名詞テーブル8に格納されている名
詞の語霊統計を行い、文章中の名詞の使用度数の降順の
リストを作成し、各単語について、使用度数の順位、使
用度数、累積使用率などを度数順名詞テーブル9に格納
する。この際、使用度数の順位ごとに、その使用度数を
持つ名詞の延べ語数、延べ語数の被覆率、異なり語数、
異なり語数の被覆率などに関しても計算し、度数順名詞
テーブル9に格納しておく、また1度数順名詞テーブル
9において、同じ使用度数を持つ名詞が複数ある場合に
は1題名または見出しに出現した名詞を前におき、それ
でも順番が決まらない場合は、原文中での最初の出現位
置が前にある方を前におく。
重要語抽呂部34は、度数順名詞テーブル9において、
テーブルの先頭から累積使用率が15%に達するまでの
語を最重要語、累積使用率25%以下の語を重要語とし
て抽出する。もし、抽出された重要語の数が異なり語総
数の5%を超える場合(異なり語被覆率が5%を超える
場合)には、度数順名詞テーブル9において、異なり語
数の被覆率が5%以下の語を重要語として抽出する。ま
た、度数順名詞テーブル9に重要語辞書15と照合する
単語がある場合には、同じ使用度数であれば、重要語辞
書15と照合した単語を優先的に重要語として選ぶ、こ
れは、利用者が重要と思う内容は利用者の価値観に依存
し、著者の言語表現の解析結果とは独立であるという性
質、及び、利用者が重要と思う重要語を含む文は利用者
が重要だと思っている内容に関する記述を述べているこ
とが多いという性質を利用するものである。抽出した最
重要語及び重要語は、位置情報や頻度情報と共に重要語
テーブル10に書き込む。
重要文抽出部35は、文書構造テーブル7及び重要語テ
ーブル10の情報に基づいて、次の基準により重要文を
選ぶ。
■ 最重要語が初めて出現する文 ■ 最重要語が最後に出現する文 ■ 最重要語を含み、段落の先頭にある文■ 最重要語
を含み、かつ、重要語が多く出現する文即ち1重要語を
含む文は文章の主題のある側面を記述しているという性
質、重要語を多く含む文は文章の中心的内容を述べてい
ることが多いという性質1重要語が初めて現れる文は主
題に関する問題を提起する文を含んでいることが多いと
いう性質、及び1重要語が最後に現れる文は主題に関す
る結論を含んでいることが多いという性質がある。また
、原文の題名や章節の見出しは、著者による読者への文
章読解の手助けであり、著者が重要と思っている、また
は、強調したい内容を示しているという性質、及び、章
、節、段落などの文章の論理的な構成要素は、内容的な
一つのまとまりを示しており、その先頭や最後には1重
要な内容が述べられることが多いという性質がある。■
〜■の基準は、これらの性質に基づいている1選択され
た重要文は、重要文の採用基準と共に重要文テーブル1
1に書き込む。
抄録生成部36は、重要文テーブル11の重要文の中か
ら、予め設定された抄録の分量に応じて必要な数の文を
、■■■■の順に(■については。
重要語が多い順に)選択し、これを原文中の順番に並べ
直して抄録として生成する。この際、原文の題名、著者
などは、そのまN抄録の中に入れる。
原文が章節構造を持っている場合には、これらをそのま
N抄録の文章構造として利用し、各節の中に抽出された
全ての重要文を一つの段落として挿入する。こうして出
来た抄録を抄録テーブル12に書き込む。
最後に、出力装置2は、抄録テーブル12の内容を抄録
ファイル17に格納する。
第3図(a)は、文書構造規則辞書14中の文章構造規
則の一例を示している。規則の第1行は、この例で処理
対象としている文書は、文書見出し部と文書本体部から
構成されていることを表している。同様に、第2行は、
文書見出し部は、題目、所属、著者から構成されること
を表している。第6行から第9行は、文書本体部は節の
繰り返しであり、節は節見出し部を持つ場合と持たない
場合があり、節水体部は段落の繰り返しであることを表
している。これらの規則により、入力文章の文章構造を
解析することができる。
第3図(b)は、重要語辞書15の一例を示している。
重要語辞書15には、利用者が重要だと思う単語につい
て、その字面、読み、品詞などの情報を格納する。
以下に具体例について説明する。こ\で、処理対象の文
W (fjK文)は以下の通りとする。なお、コノ内容
はrNTT施設J (Vol、 40. N(L 1゜
1988)に実際に掲載されたものである。
r        年頭にあたって 代表取締役社長 真藤 恒 皆さん、新年明けましておめでどうございます。
昨年は東証1部への上場や政府保有株式の2回目の放出
など、我が社としては民営化移行時以上に世間に注目さ
れた年でした。そうした中で自分たちの本分を見失わず
、経営の効率化や事業領域の拡大などを行ってきた結果
、業績のほうも順調に推移し、公益事業体として恥ずか
しくない1割配当を行うことができました。
これは、あなたたちが一致協力し、企業人として努力し
てきた結果です。−歩一歩着実に″民間企業″としての
体裁が整ってきているな、と私自身実感しており、社長
として、心から「ありがとう」と申し上げたいと思いま
す。
しかし、そうした社内の状況から世の中の動向に目を移
しますと、従来からのデータ通信やVAN、専用線、端
末機などの分野に加えて、昨年後半からは市外電話やポ
ケットベルの分野でも″競争″が始まっています、あな
たたちの本当の実力が試されるのは今からなのだ″とい
うことをしっかりと肝に銘じてほしいと思います。
この競争の世の中でNTTの傘の我々仲間にとって大切
なのは、まず、技術開発の力です。
NTTのように技術力をベースにして、精度の高い設備
を駆使してサービスを提供する仕事の場合には、競争の
ポイントを、まず、技術開発力に置かなくてはいけませ
ん。
技術力をベースにするということは、新しいサービスを
提供するための新しいシステムを考案する「開発の力」
と、それを最も効率的に据え付け、実際のサービスに最
も合理的に機能させる「運用技術の開発」を進めていく
ということでする。そのことがすべての基本になります
次に、総体的に健全で故障の少ない設備を構築し、′″
お客様に迷惑をかけない”ようにすることです。そのた
めには、サービスのあり方を日々新たに改良し、それが
何とはなしにお客様に分かって頂けるところまでもって
いってもらいたいと思います。
我々は技術的な観点からどれだけ実現可能なものであっ
ても、一般の人にとって必ずしも高い価値を持つとは限
らない、ということを認識しなくてはいけません、R&
Dに当てはめて言えば、私達は現在の社会のニーズを正
確に把握し、将来のニーズを正確に予測してR&Dを進
めなければいけません。その意味で、昨年7月にR&D
体制の見直しを行いましたが、今後とも人と組織の両面
から一層充実した開発体制を整える必要があります。
このような総合的な技術力を持つためには、その基礎と
なる基盤技術レベルの高さが必要なことはもちろんです
次に財政基盤の確立です。競争相手との競争の進展状況
を把握して、やはりこういうサービスの場合にはもう少
し値下げしなければいけないな、と思ったときにいつで
も値下げできるような財務体質の強さを持つことです。
競争というのは突き詰めると料金の″値下げ″競争なの
です。それが、非常に高度な技術を必要とするサービス
であれば、我々に「分」があるのは確かなのですが、現
在の収入の大部分は普通の電話からの料金で担っている
のが実情でする。したがって、料金競争を普通の電話料
金の分野で行うとして、仮に競争に勝ってシェアは取っ
ても、我々自身が赤字になることも考えられます。
ですから、私が皆さんにお願いしたいことは、今までの
仕事のやり方を更に物理的に改善し、より効率化を図っ
て、より安いサービスが提供できるように知恵を出して
もらいたいということでする。仕事のやり方を日々新し
く改良していく努力を、あなたたち−人ひとりが考えて
みんなが相談すれば、今までよりも仕事がしやすく、よ
り安くできます、−人ひとりが仕事をしやすいというこ
とは、安くできるということ\同じことなのです。これ
が皆さんにお願いしているASK活動そのものです。
単に経費を節約すればいNんだ、前例に従ってオートマ
チックに動けばいへんだ、という考えではダメです。現
場であろうが、技術系であろうが、業務系であろうが、
ASK活動で衆智を集め、合意に基づき実行して更に次
の段階に進歩させていく。この過程を繰り返していくこ
とが、進歩そのものです、このことは60年近く技術畑
で暮してきた私の生活そのものだと自信をもって申し上
げます。
昨年、私はあなたたちに「脚下照顧」という言葉を送り
ました0足下を見つめてほしい、つまりASK活動の原
点をみつけてほしい、という願いを込めてのことです。
ASK活動は、繰り返し繰り返しやっていけば、時とし
て失敗もあるでしよう、しかし、このASKの過程で出
てきた失敗は、自分で考えて実行した本人が一番先に見
つけます。この自分でまずいところを見出だすことがで
きれば、その欠点の修正方法は半ば本能的に分かります
、失敗を自分で見つける眼力が自分の実力の進歩そのも
のです0脚下照顧の力です、余り考えると臆病になりま
す。純粋に無心の態度で考えていれば、臆病になるどこ
ろが逆に勇気が出てきます、「千万人といえども吾往か
ん」という心境がこれでする。
今年は“本格的な競争時代″′が始まったということも
あって、お正月率々お説教しみてしまいましたが、あな
たたちが企業人として着実に進歩していることは歴然と
しています、私のもとに来た手紙も、画分と考え方が変
わってきたなと思いながら読ませてもらいました。今年
も失敗を恐れず、果敢に挑戦し、お客さまに喜ばれるサ
ービスに努めてほしいと思います。皆さんの健康と活躍
を祈っています。
」 この原文について、まず、文章構造解析部31が文書構
造規則辞#!14中の文章構造規則を用いて文章構造を
解析することにより、次のような結果が得られる。
文章構造  結果 (文書 (文書見出し部 (題名改″年頭に当たって″)) (所属(文パ代表取締役社長”)) (著者(文″真藤 恒”))) (文書本体部 (節 (節水体部 (段落 (文゛′皆さん新年明けましておめでどうございます。
′)) (段落 (文″昨年は東証一部への・・・・・・注目された年で
した。″) (文“そうした中で・・・・・・行うことできました。
′す)(段落 (文“これは、あなたたちが・・・結果です。″)傘串
申 中略 拳傘串 (段落 (文゛今年は″本格的な競争時代″・・・歴然としてい
ます n) (文“私のもとに来た手紙も・・・もらいました。′り
改″皆さんの健康と活躍を祈っています。”)))))
)次に1名詞抽出部31により名詞群が抽出され、開業
統計部33が該名詞群の語彙統計を行うことにより、次
のようなリストが作成される。
■皇藍監蟇来 延べ語数 258   異なり語数 174競  争 サービス 技  術 仕  事 ASK 自   分 活  動 失  敗 企  業 分  野 3.9% 7.0% 9.7% 15.5% 15.5% 15.5% 20.2% 20.2% 20.2% 30.6% 30.6% 0.6% 1.1% 1.7% 2.3% 2.9 % 3.4 % 4.0% 4.6% 5.2% 5.7% 6.3% 0.6% 1.1 % 1.7% 3.4% 5.2% l003% 23.6% ioo、o% 3.9% 7.0% 9.7 % 15.5 % 20.2% 30.6% 48.4% 100.0 % 次に、重要語抽出部34において、上記開業統計結果の
頻度情報、及び重要語辞書15に格納されている利用者
が指定した重要語の情報に基づいて、厳重要語1型要語
を抽出することにより、次のような結果が得られる。
里!凰皿星蟇果 (厳重要語 ((″競争” 10) (”サービス”8)(”技術″
7)(“ASK”  5)(“仕事” 5)(“”  
”  5) ))(重要語 ((″競争” 10) (”サービス” 8)(”技術
” 力(“ASK”  5)(“仕事”  5) (”
 ”  ’  5)(“失敗”  4) (“活動” 
 4) (“自分” 4)))次に、重要語抽出部35
において、上記重要語の抽出情報と、先の文章構造解析
結果の位置情報に基づいて原文より重要文を抽出するこ
とにより、以下の結果が得られる。
重   の 傘嘲嘲前半省略串串串 [文番号=8コ  文字数:98  キーワード数:1
初品キーワード=((競争1)) 終出キーワード:NIL 文中キーワード=((競争1)) しかし、そうした社内の状況から世の中の動向に目を移
しますと、従来からのデータ通信やVAN、専用線、端
末機などの分野に加えて、昨年後半からは市外電話やポ
ケットベルの分野でも″競争″が始まっています。
[文番号:11]  文字数=77  キーワード数:
4初出キーワード:((サービスl)(技術1)(仕事
1))終出キーワード:NIL 文中キーワード=((仕事1)(技術1)(サービス1
)(競争1)) NTTのように技術力をベースにして、精度の高い設備
を駆使してサービスを提供する仕事の場合には、競争の
ポイントを、まず、技術開発力に置かなくてはいけませ
ん。
[文番号=12]  文字数=108キーワード数:4
初出キーワード:NIL 終出キーワード:NIL 文中キーワード=((技術2)(サービス2)技術力を
ベースにするということは、新しいサービスを提供する
ための新しいシステムを考案する「開発の力」と、それ
を最も効率化に据え付け、実際のサービスに最も合理的
に機能させる「運用技術の開発」を進めていくというこ
とです。
[文番号:27]  文字数:40  キーワード数:
1初呂キーワード:NIL 終出キーワード:((仕事1)) 文中キーワード:((仕事1)) 一人ひとりが仕事をしやすいということは、安くできる
ということ\同じことなのです。
串拳傘後半省略申傘拳 最後に、抄録生成部36が上記重要文の情報に基づいて
、各文の重要度の高さや抄録自身の内容的なまとまりを
考慮しながら、予め与えられた抄録の長さに見合うよう
に、必要な数の重要文を選択し、これを原文中の順番に
従って並べ直すことにより、以下の抄録文が生成される
r        年頭にあたって 代表取締役社長 真藤 恒 そうした中で自分たちの本分を見失わず、経営の効率化
や事業領域の拡大などを行ってきた結果、業績のほうも
順調に推移し、公益事業体として恥ずかしくない1割配
当を行うことができました。−歩一歩着実に“民間企業
”としての体裁が整ってきているな、と私自身実感して
おり1社長として。
心から「ありがとう」と申し上げたいと思います。しか
し。
そうした社内の状況から世の中の動向に目を移しますと
、従来からのデータ通信がVAN、専用線、端末機など
の分野に加えて、昨年後半からは市外電話やポケットベ
ルの分野でも“競争″が始まっています、NTTのよう
に技術力をベースにして、精度の高い設備を駆使してサ
ービスを提供する仕事の場合には、競争のポイントを、
まず、技術開発力に置かなくてはいけません、技術力を
ベースにするということは、新しいサービスを提供する
ための新しいシステムを考案する「開発の力」と、それ
を最も効率的に据え付け、実際のサービスに最も合理的
に機能させる「運用技術の開発」を進めていくというこ
とです、−人ひとりが仕事をしやすいということは、安
くできるということへ同じことなのです、これが皆さん
にお願いしているASK活動そのものです、現場であろ
うが、技術系であろうが、業務系であろうが、ASK活
動で衆智を集め、合意に基づき実行して更に次の段階に
進歩させてい<、ASK活動は、繰り返し繰り返しやっ
ていけば、時として失敗もあるでしよう、しかし、この
ASKの過程で出てきた失敗は、自分で考えて実行した
本人が一番先に見つけます。失敗を自分で見つける眼力
が自分の実力の進歩そのものです、今年は゛本格的な競
争時代″が始まったということもあって、お正月早々お
説教しみてしまいましたが、あなたたちが企業人として
着実に進歩していることは歴然としています。今年も失
敗を恐れず、果敢に挑戦し、お客さまに喜ばれるサービ
スに努めてほしいと思います、」なお1本例における要
約の目標値、統計診断は以下の通りである。
[要約の目標値(しきい値)] 交圧縮率:  25.0% 文  数:I2 [統計診断] 原文→文数:48  文字数: 2232要約→文数=
13  文字数=799 〔発明の効果〕 以上説明したように、本発明によれば、原文の論理的構
造と単語の使用状況から著者が重要と思っている内容を
表現する重要語と、利用者が登録した重要語辞書から利
用者が重要と思っている内容を表現する重要語とを抽出
し、これらの重要語と原文の論理的な構造から、原文の
文章の展開に基づいて、内容の要点を述べた重要文を抽
出し、また、開業的な関連性を持った文を1M文の論理
的構造に従いながら抄録を生成することにより、著者が
強調している内容と利用者が興味を持つ内容を捉えなが
ら1文章の主題や記述の核となる重要語を高精度に抽出
でき、問題の提起や結論などの文章の展開を捉えながら
、文章内容の述べた重要文を抽出でき、また、文章とし
ての構成的及び内容的まとまりを持った抄録を生成でき
る効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例のシステム構成図、第2図は
本発明の一実施例の機能ブロック図、第3図は本発明で
用いられる文章構造規則辞書及び重要語辞書の一例を示
す図である。 1・・入力装置、 2・・・出力装置 3・・・プロセッサ(CP U)、 4・・・プログラムメモリ、  5・・・文書メモリ。 6・・・作業メモリ、  7・・・文章構造テーブル。 8・・・名詞テーブル、 9・・・度数順名詞テーブル
、10・・・重要語テーブル、 11・・・重要文テーブル、 13・・・日本語辞書、  1 15・・・重要語辞書、  3 32・・・名詞抽出部、 3 34・・・重要語抽出部 3 36・・・抄録生成部ゆ 12・・・抄録テーブル、 4・・・文章構造規則辞書。 1・・・文章構造解析部、 3・・・開業統計部、 5・・・重要語抽出部、 第2 図 (し) !#梓→i埼’l−っブえJ

Claims (1)

    【特許請求の範囲】
  1. (1)原文を入力し、その抄録を自動的に生成する装置
    において、 日本語の統語情報と意味情報を記憶した日本語辞書、文
    章の構造に関する規則を記憶した文章構造規則辞書、利
    用者が指定した重要語を記憶する重要諸辞書等の辞書群
    と、 入力原文について、前記文章構造規則辞書を用いて題名
    、見出し、段落、文などの文章の構成要素を認識し、構
    成要素間の関係を解析する文章構造解析部と、 前記文章構造解析部により認識された文章構成要素に対
    し、前記日本語辞書を用いて形態素解析を行い、機能語
    の除去と名詞を抽出する名詞抽出部と、 前記名詞抽出部で抽出された名詞の語彙統計を行い、文
    章中の名詞の使用状況を示す統計情報を得る語彙統計部
    と、 前記語彙統計部で得られた統計情報と、前記重要語辞書
    から得られる利用者が指定した重要語の情報から、文章
    中の重要語を重要度付きで抽出する重要語抽出部と、 前記文章構造解析部により認識された文章構成要素につ
    いて、前記重要語抽出部で抽出された重要語の出現状況
    を調べ、文章中の重要文を重要度付きで抽出する重要文
    抽出部と、 前記重要文抽出部で抽出された重要文中から、予め指定
    された抄録の長さに応じて重要度の順に選択し、原文中
    の順番に並べて抄録文とする抄録生成部と、 を備えていることを特徴とする自動抄録生成装置。
JP64000726A 1989-01-05 1989-01-05 自動抄録生成装置 Pending JPH02181261A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP64000726A JPH02181261A (ja) 1989-01-05 1989-01-05 自動抄録生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP64000726A JPH02181261A (ja) 1989-01-05 1989-01-05 自動抄録生成装置

Publications (1)

Publication Number Publication Date
JPH02181261A true JPH02181261A (ja) 1990-07-16

Family

ID=11481741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP64000726A Pending JPH02181261A (ja) 1989-01-05 1989-01-05 自動抄録生成装置

Country Status (1)

Country Link
JP (1) JPH02181261A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297677A (ja) * 1995-04-14 1996-11-12 Xerox Corp 主題の要約を生成する自動的な方法
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JPH11238064A (ja) * 1998-02-20 1999-08-31 Toshiba Corp データベース作成方法および情報記憶検索装置および記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297677A (ja) * 1995-04-14 1996-11-12 Xerox Corp 主題の要約を生成する自動的な方法
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JPH11238064A (ja) * 1998-02-20 1999-08-31 Toshiba Corp データベース作成方法および情報記憶検索装置および記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム

Similar Documents

Publication Publication Date Title
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
Potts et al. DynaSent: A dynamic benchmark for sentiment analysis
Liu et al. Unsupervised paraphrasing by simulated annealing
CN107832382A (zh) 基于文字生成视频的方法、装置、设备及存储介质
WO2003056451A1 (fr) Procede de generation de texte et generateur de texte
El-Assady et al. Interactive visual analysis of transcribed multi-party discourse
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
US20230163988A1 (en) Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant
Wijeratne et al. Natural language processing for government: Problems and potential
Stalin et al. Web based application for hindi question answering system
CN115033668A (zh) 故事脉络构建方法、装置、电子设备和存储介质
Yassin et al. SeerahBot: An Arabic chatbot about prophet’s biography
JPH02181261A (ja) 自動抄録生成装置
Behrooz et al. Remember that time? Telling interesting stories from past interactions
Kishore et al. Document Summarization in Malayalam with sentence framing
Sosea et al. Unsupervised extractive summarization of emotion triggers
Kaleem et al. Development of umair the urdu conversational agent for customer service
Aunimo Enhancing reliability and user experience in conversational agents
Calix et al. Affect corpus 2.0: an extension of a corpus for actor level emotion magnitude detection
KR19990047859A (ko) 도서 문헌 데이터베이스 검색을 위한 자연언어 대화 시스템
Hijjawi et al. A general evaluation framework for text based conversational agent
Chen et al. A large-scale chinese long-text extractive summarization corpus
Breuing et al. Harvesting wikipedia knowledge to identify topics in ongoing natural language dialogs
Zubair Khan et al. SeerahBot: An Arabic Chatbot about Prophet’s Biography
Hrešková et al. Haiku poetry generation using interactive evolution vs. poem models