JPH03244080A - 記事統合化処理装置 - Google Patents

記事統合化処理装置

Info

Publication number
JPH03244080A
JPH03244080A JP2041513A JP4151390A JPH03244080A JP H03244080 A JPH03244080 A JP H03244080A JP 2041513 A JP2041513 A JP 2041513A JP 4151390 A JP4151390 A JP 4151390A JP H03244080 A JPH03244080 A JP H03244080A
Authority
JP
Japan
Prior art keywords
article
integrated
sentence
heading
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2041513A
Other languages
English (en)
Other versions
JPH0782503B2 (ja
Inventor
Tamotsu Iwabuchi
岩淵 保
Minoru Aizawa
藍澤 実
Mikio Arai
荒井 幹夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Original Assignee
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEREMATEIIKU KOKUSAI KENKYUSHO KK filed Critical TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority to JP2041513A priority Critical patent/JPH0782503B2/ja
Publication of JPH03244080A publication Critical patent/JPH03244080A/ja
Publication of JPH0782503B2 publication Critical patent/JPH0782503B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書データベース装置に関するものであり、
同一のニュースソースから発生した複数の記事内容を統
合化して一つの記事としてもれのない情報を提供するも
のである。特に同一のニュースソースに基づいて書かれ
た複数の新聞の記事を一つの記事として統合化した情報
として読者に提供するシステムに利用する。
〔概要〕
本発明は、同一対象に対して記述された複数の記事内容
を統合整理して一つの統合化された記事として提供する
記事統合化処理装置において、抽出した見出しについて
は、情報量のもっとも多い見出しから順に同一内容の見
出しを棄却しながら採択し、また統合化文は最も情報量
の多い記事を基本記事として採択し、その基本記事の各
文について他の非採択記事の文とその情報量について比
較して情報量の多い方の文とを入れ替えて統合化文を作
威し、さらに作成した統合化文に含まれない内容の文を
非採択記事から抽出して付記することにより、 一つのニュースソースからの記事内容を情報についても
れがなく、複数の記事を読むことはなく包括的に提供で
きるようにするものである。
〔従来の技術〕
新聞あるいは雑誌などでは、一つのニュースソースにつ
いて、それぞれの記者がいろいろな角度観点から記事を
書く。このため、新聞社によって同一のニュースソース
に基づいて書かれた記事でも、その内容が異なっており
、正確に事態を把握するには複数の新聞を読むべきであ
るといわれている。
このため、ビジネスマンにおいては複数の新聞を取り寄
せて読むことが求められている。また、複数の新聞につ
いて依頼されたある主題で切り抜きを行い、これを契約
した読者に提供する業務が取立している。
〔発明が解決しようとする課題〕
しかし、−人で複数の新開を取り寄せてそこに記述され
た情報を検討することは時間および金銭の浪費となりや
すい問題があり、また契約して記事提供を受ける方法で
は個人としては負担が大きく、また切り抜きに人手がか
かる問題がある。
また、各新聞社では自社で提供する新聞の記事内容をデ
ータベース化して提供している。しかし、このデータベ
ースサービスは各新聞社はそれぞれが自社の記事につい
てのみを提供しているため、複数社の記事について検討
しようとすると、それぞれの社ごとにデータベースの提
供に関して契約を結ぶ必要があり、複数の記事を検討す
るには高額の費用および人手がかかる問題があった。
本発明は上述の課題を解決するものであり、複数の記事
から情報を落とすことなく一つの統合化された記事を自
動的に作成して提供することができる記事統合化システ
ムを提供することを目的とする。
〔課題を解決するための手段〕
本発明は、同一の対象について記述された複数の記事内
容をファイルに記憶し、このファイルに記憶された原記
事内容から、一つの統合化された記事を作成する記事統
合化処理装置において、上記ファイルから統合化しよう
とする記事の見出しを抽出する手段と、この抽出された
見出しの中から最も長い文字数の見出しを順に選択する
手段と、この選択された見出しに含まれる文字とすでに
採択された見出しに含まれる文字とを比較することによ
って同一内容である見出しを不採択とする見出し同一性
判断手段とを備えた統合化見出し処理手段を含むことを
特徴とする。
また、本発明の記事統合化処理装置は、上記ファイルか
ら統合化しようとする記事の本文を抽出する本文抽出手
段と、この抽出された複数の記事本文の情報量を比較し
てもっとも情報量が多くしかも内容が濃い記事本文を統
合化文の基本記事文として採択する基本記事決定手段と
、この採択された基本記事文の各文の情報量を同一内容
について記述した基本記事以外の他の記事本文と比較し
てより情報量の多い文を選択して基本記事の文と入れ替
える文人替手段と、選択された文全体を滑らかに整形す
る文整形手段とを備えた統合化本文処理手段を含むこと
を特徴とする。
さらに、本発明の記事統合化処理装置は、上述の統合化
見出し処理手段および統合化本文処理手段を含むことを
特徴とする。
上述の統合化見出し処理手段の見出し同一性判断手段は
、各見出し中の文字から数詞または独立の単語を切り出
す切出し手段と、数詞がある場合、同一の数詞がすでに
採択された見出し中にあるときにはその数詞を含む見出
しを不採択とする手段と、独立の単語がある場合、同一
の単語がすでに採択された見出し中にあるときにはその
見出しを不採択とする手段と、すでに採択された見出し
中の文字と比較して所定数以上の文字が一致している見
出しおよび不一致の文字数が所定数以下である見出しを
不採択とする手段とを含むことが好ましい。
また、統合化本文処理手段の基本記事決定手段は、最も
文字数の多い記事から重み付けを行う手段と、記事内に
含まれる重要語を抽出してこの重要語の最も多い記事か
ら重み付けを行う手段と、文字数および重要語数による
重み数を加算して重み数が最も多い記事を基本記事とし
て採択する手段とを備えることが好ましい。
また、統合化本文処理手段の文人替手段は、基本記事内
の各文中の数詞を切り出し、この切り出された数詞が含
まれる他の記事の文と比較し、長い方の文を統合化本文
として採択する手段と、重要語を切出し、この切り出さ
れた重要語が含まれる他の記事の文と比較し長い方の文
を統合化本文として採択する手段とを備えることが好ま
しい。
さらに、本発明の記事統合化処理装置には、統合化され
た記事本文から重要語および数詞を切り出す手段と、切
り出された重要語および数詞が全く存在しない文を原記
事文中から抽出して、上記統合化見出しおよび統合化文
に付加する手段とを0 備えたことを特徴とする。
〔作用〕
複数の記事は被統合化記事としてファイルに記憶されて
いる。
統合化記事の見出しは、まず全体の見出しを抽出し、情
報量の最も多い見出しから統合化記事の見出しとして採
択する。その際に、同一内容の見出しは棄却していき内
容の異なる見出しのみを採択していく。
統合化記事の本文の作成は次の手順で行う。まず、複数
の記事の中から文字数の量と重要な語がもっとも含まれ
ていると考えられる文を統合化文の基本記事として採択
する。そして、この採択された基本記事の各文単位で、
同一内容を記述した他の記事の文と比較して、より情報
量が多いと考えられる文を採択して、全体としての文を
整形して統合化文の本文を作成する。
さらに、上述の統合化本文に採択されなかった文で全く
内容が異なる文を抽出して特記事項として見出しおよび
統合化文に付記し、全体としての統合化記事を作成する
〔実施例〕
以下、本発明実施例を図面を参照して説明する。
第1図は本発明一実施例の記事統合化処理装置の構成を
示すブロック図である。この実施例では、複数の新聞記
事から一つの統合化記事を作成するシステムの例で説明
する。
この実施例の記事統合化処理装置は、大きく分けて4つ
の部分から構成されている。すなわち、統合化しようと
する原記事が記憶されたファイル装置1と、このファイ
ル装置1に記憶された原記事の見出しを処理して統合化
された見出しを作成する統合化見出し処理手段2と、フ
ァイル装置1内の原記事から統合化された統合化本文を
作成する統合化本文処理手段3と、作成された統合化見
出しおよび統合化本文に含まれていない重要な情報を抽
出して本文に付記する特記事項処理手段4とから構成さ
れており、原新聞記事から統合化された統合化記事5を
作成する。
次に各手段の動作について説明する。
1 2 ファイル装置1には原記事ファイル11が設けられてお
り、この原記事ファイル11には統合化しようする一つ
の対象についての複数の新聞社から提供される原記事が
格納されている。
すなわち、それぞれの新聞において一つのニュースソー
スに基づいて書いた記事が抽出され、これが原記事ファ
イル11に格納される。この記事の格納は通常の文字認
識処理によって行い、認識された記事からその内容にし
たがって記事内容を分類し、統合化処理のために同一の
ニュースに係わる記事を指定しておく。
次に統合化見出し処理手段2での統合化見出し作成処理
について説明する。
この統合化見出し処理手段2は、原記事ファイルll内
の統合化しようとする複数の社にわたる新聞記事の原記
事から見出しのみを抽出する見出し抽出手段21と、抽
出された見出しをまず文字数の多い順から選択していく
見出し選択手段22と、この見出し選択手段22で選択
された見出しについて、すでに採択された見出しと同一
内容のものがあるか否かを判断し、すでに採択された見
出しと同一内容のものであるときは統合化見出しには不
採択として棄却する見出し同一性判断手段23とを備え
ており、抽出した見出しから最終的に同一内容の見出し
を除いて統合化記事の見出しを決定する。
次に見出し同一性判断手段23の動作を第2図にその動
作フローチャートを挙げて説明する。この見出し同一性
判断手段23は、文字数の多い順序で選択されていく見
出しについて、一つ一つの見出しについてすでに採択さ
れた見出しと同一内容のものがあるときは、その見出し
は不要のものとして棄却して統合化見出しとしては不採
択とする処理である。
すなわち、第2図に示すように、統合化見出しとして選
択された見出しに数詞があるか否かを判断する(ステッ
プ521)。そして数詞が含まれている場合には、数詞
を切り出すくステップ522)。
この数詞の切り出しは、少数点であれば一緒に切り出し
、アラビア数字なら、漢数字も共に切り出し、漢数字で
あれば、アラビア数字も共に切り出3 ■4 し、数字−字のときは、訳語とともに二語で切出す。そ
して、採択済みの残り見出しに同一数詞が切り出されて
いれば同一内容のものとして、この見出しを統合化見出
しとしては不採択として棄却する(ステップS23.2
6)。さらに、採択済みの残り見出しと文字を比較し、
7文字以上が一致している場合または不一致の文字が2
文字以下の場合も同一内容のものとして不採択として棄
却する(ステップS24.26)。
また選択された見出し中に数詞がないときは、ひら仮名
で囲まれたかな、漢字で構成されている単語を切り出す
(ステップ328)。この単語の切り出しでは、2文字
以上を単語として切り出し、また、文頭、交尾の単語は
片側がひら仮名の所で切り出し、さらに見出し中のスペ
ース、特殊符号はひら仮名として扱う。そして、この切
り出された単語をすでに採択済みの残りの見出しの単語
と比較し、残り見出しに同一の切り出し単語があるとき
は、同一の内容として不採択として棄却するくステップ
S23.26〉。さらに、採択済みの残り見出しとその
文字を比較して、7文字以上が一致している場合または
不一致の文字が2文字以下の場合も同一内容のものとし
て不採択として棄却する(ステップS24.26)。
このようにして、文字数の多い見出しから統合化見出し
を採択しながら同一内容の見出しを棄却していき統合化
見出しを決定する(ステップ525)。
この統合化見出し作成処理の具体例を挙げて説明する。
次の見出しは、1989年7月26日の号に掲載された
株式会社日立製作所が開発した高速文書検索システムに
関す゛る各新聞社の原文記事の見出しを抽出したもので
ある。
電波新聞 1年間の新聞記事1.5秒で捜し出す 文書検索システム開発 8立が超高速型 朝日新聞 1年分の新聞から1.5秒で探したい記事日立製作所 
超高速検索のシステム開発5 6 2年後めど製品化 日経産業新聞 WSで素早く文書検索 日立低コストシステム試作 日本経済新聞 日立 ↑、5秒で必要文書検索 WS採用システム試作 電気新聞 全ての言葉を検索 日立 超高速文書検索システム 日本工業新聞 一年分の記事を1.5秒で 日立が高速検索システム 読売新聞 新聞記事1年分1.5秒で検索 日立が新システム 日刊工業新聞 一年分の新聞記事わずか1.5秒で検索この見出しをま
ず、文字数が最も多い日刊工業新聞の「−年分の新聞記
事わずか1.5秒で検索」を統合化見出しの最初のもの
として選択し採択する。次に文字数の多い見出しの「日
立製作所 超高速検索のシステム開発」を選択して、単
語を切り出しても、先の見出しには同一の単語がないた
め、統合化見出しとして採択する。次の文字数の多い見
出しは「1年間の新聞記事1.5秒で捜し出す」である
が、この見出しには「1年」と「15」の数詞が切り出
され、この数詞は先に採択された最初の見出し中に同一
の語があるため同一内容のものとして棄却する。このよ
うにして、「1年」、rl、5」の数詞が含まれる後の
見出しはすべて棄却される。
また、電気新聞の「日立 超高速文書検索システム」の
見出しは第二番目に採択された見出しと7文字以上が同
一であるため、これも棄却される。
このようにして、上述の見出しから、見出し同一性判断
手段23にて、統合化見出しとして、別紙に示す統合化
見出しに示すように8つの統合化見出しが採択され、決
定される。
次に統合化本文処理手段3の動作を第3図ない7 8 し第5図に基づいて説明する。
統合化本文処理手段3は、第1図に示すように、原記事
ファイル11から、見出しを除いた記事本文を抽出する
本文抽出手段31と、この本文抽出手段31で抽出され
た各記事本文について、その文字数と各記事本文から抽
出される重要語の数とに基づいて重み付けを行い、この
重み付けから、最も重み付は数の大きい記事本文を基本
記事本文として決定する基本記事決定手段32と、この
基本記事決定手段32で決定された基本記事の各文につ
いて、同一の内容について記述する他の記事本文の文と
比較して、より情報量の多く内容の濃い文の方を選択し
て統合化本文として採択する文人替手段33と、全体の
文を整形して、文章として滑らかにする文整形手段34
とを備えており、統合化記事5の統合化本文を作成する
まず、基本記事決定手段32の動作を第3図のフローチ
ャートに基づいて説明する。
記事本文を統合化する際にまず、どの記事を基にして統
合化本文を作成するかを決定する必要があり、これを基
本記事決定手段32において判断する。この基本記事決
定判断の基本的な考えは情報量が多くしかも内容の濃い
記事を基本記事として抽出することである。
まず、原文記事ファイル11から統合化しようとする記
事の本文のみを本文抽出手段31によって抽出する(ス
テップ531)。抽出した記事本文の文字数をカウント
し、文字数の多い記事本文から記事数の連番、すなわち
、重み付は数をふる。(ステップ532)。次に記事本
文内の重要語数を計算する(ステップ533)。この重
要語とは、助詞「は」、「には」、「とは」および文頭
より読点「、」の前の漢字かな文字列で構成されている
単語のことを指す。ここで、この助詞の前の単語を重要
語とするのは、この単語はその文章の主題を構成してお
り、「は」、「には」、「とは」を使う単語がその文が
記述しようとする概念に最も対応するものと考えられる
ため、このような単語を抽出してその表出頻度をカウン
トすることにより、内容の豊富さを知ることができるか
らである。
9 0 そこで、この重要語の数にしたがって重要語数の多い記
事から重み付けを行って記事数の連番をふる(ステップ
534)。そして、文字数の重み付は数と重要語数によ
る重み付は数を加算して最も重み付は数の大きい記事本
文を基本記事本文として採択する(ステップ535)。
具体例を挙げて説明する。
上述の統合見出しを作成した日立製作所が開発した高速
文書検索システムに関しての各新聞社の記事本文につい
て、文字数と重要語との重み付けを行ったら下記の表の
とおりになった。
(以下本頁余白) 表 したがって、この例では、電波新聞での記事本文を基本
記事として採択する。
次に文人替手段33による処理動作を第4図に示す。こ
の文人替手段33による処理は、同一内容を表す文章に
ついて、より情報量の多い文を統合化本文として採択す
るための処理であって、基本記事より同一内容について
情報量の多い文が他の記事にあった場合、基本記事の文
と入れ替えるための処理である。
1 2 まず、基本記事を文単位で切り出し、一つ一つの文を読
み込む(ステップS41.42)。次に突内に数詞が含
まれているか否かを判断しくステップ543) 、数詞
を切り出す(ステップ544)。さらに突内に重要語が
あるか否かを判断しくステップ545) 、重要語があ
る場合には重要語を切り出しくステップ346)、この
切り出された重要語と数詞とが全て含まれる補完文を他
の記事本文から探すくステップ547)。この補完文ど
基本記事本文との長さを比較しくステップ348)、補
完文の方が長い場合は、基本記事本文と入れ替えて統合
化本文の文として採択する(ステップ549)。このと
き、補完文がすでに統合化本文として採択済みであると
きは次候補文と比較し、基本記事本文より文字数が多い
補完文と入れ替える。
重要語がない場合には、切り出された数詞がすべて含ま
れる補完文を他の記事本文から探しくステップ50)、
この補完文と基本記事本文と文字数を比較し長い方の文
を統合化本文として採択する(ステップS48.49)
基本記事本文中に数詞がなく、重要語がある場合には、
重要語を切り出し、その語が含まれている補完文を他の
記事本文から探す(ステップS51.52.53)。そ
して、ステップS48.49によって基本記事文より長
い補完文があれば補完文を統合化本文として採択する。
重要語がないときは基本記事本文を統合化本文として採
択する(ステップ554)。
このように基本記事本文のすべての文について文単位で
同一内容の文があるかを検討して、もっとも情報量の多
いと考えられる文を統合化本文として採択する。
具体例を挙げて説明する。
上述の日立製作所の開発した高速文書検索システムの記
事は、基本記事として電波新聞のものが採択された。
その基本記事本文の第↓番目の文章は、「日立製作所は
、膨大な文書情報から自由な言葉による検索を実用化す
る超高速文書検索システムを開発したと、二十五日発表
した。」 3 4 である。
この文章から数詞として「二十五」が切り出され、重要
語として「日立製作所」が切り出される。
この二つの文字と同一の補完文を他社の記事から抽出し
、その語数を比較すると、日刊工業新聞の「日立製作所
はく社長三田勝茂氏)二十五日、ワープなどで作成され
た電子化文書を、本文中にでているどの言葉でも検索す
ることができる超高速文書検索システム(写真)を開発
したと発表した。」の方が文字数が多いことが分かった
。このため、この日刊工業新聞の補完文を統合化本文と
して採択して、基本記事本文と入れ替える。
このように、文人替手段33において基本記事本文の各
文を他の記事の補完文と比較して情報量の多い文を統合
化本文として取り込む。
上述の記事例では、7つの文について補完文との入れ替
えが行われた。
次に文整形手段34の処理動作について第5図にフロー
チャートを示して説明する。
上述の文人替手段33で、基本記事本文を他の記事の補
完文と入れ替えため、コンテキストの異なる文章が統合
化本文に混在し、同一内容の文章が統合化本文内に存在
する結果となる。このため、統合化本文の文章全体を滑
らかにするための文章整形を行う必要がある。
この文章整形は、まず、統合化本文の最初の行から、読
点単位で、言葉列を切り出す(ステップ561)。次に
切り出された言葉列を、ひら仮名、特殊記号、スペース
で囲まれた漢字、カタ仮名、数詞の単語を切り出すくス
テップ562)。ただし1文字であれば無視する。そし
て、次行より、読点単位でステップS42で切り出され
た単語の全てが入っているとき、読点単位でその言葉列
を削除して文を詰め合わせる〈ステップ563)。
この具体例を上述の日立製作所が開発した高速文書検索
システムの記事で説明する。
基本記事本文となった電波新聞には、 「約−万文字からなる一般的な技術文書の場合、二号五
千件を約五秒で検索できる。」 の文がある。この文は文人替手段33で補完文と対5 6 比しても、この数詞が含まれる文章は先に採択されてお
り、次候補となる文はないため、補完文との入れ替えは
されず統合化本文に残る。しかし、その前の統合化本文
で日刊工業新聞の補完文から入れ替えた文章は、 r同システムは最大読み出し速度が毎秒二十Mハイ)R
AMディスク、毎秒十Mハイドの集合型磁気ディスク装
置、毎秒−・六Mビン)のビットザーチプロセッサー、
毎秒二十Mバイトの文字列ザーチプロセッサーで、構成
、等価的に毎秒百Mバイトのシステム検索速度を達成、
約−万秒の一般的な技術文書の場合、二号目子件を五秒
で検索できる。特許情報・文献情報サービス、雑誌・新
聞などの記事情報管理などに利用できる。」であり、上
述の同一単語のすべてが入っている言葉列があり、同一
内容の文章なので、基本記事本文にあった文章を削除す
る。
このような処理によって、別紙に記載する統合化本文が
作成される。
次に特記事項の付記について説明する。
上述の統合化本文に採択されなかった他の記事文中には
基本記事文とは異なる情報が含まれることがある。これ
らの統合化本文に欠けた情報を統合化本文中ム 容の異なる文を基本記事以外の記事から抽出する処理が
必要である。この処理を特記事項処理手段4によって行
う。
この特記事項処理手段4での処理を第6図に示す。
まず統合化本文より重要語および数詞を切り出すくステ
ップ571)。この重要語および数詞の切り出しは、統
合化本文処理手段3で行った重要語および数詞の切り出
しと同じ基準で行う。
そして切り出された重要語および数詞が全く存在しない
文を、原記事文より抽出し、これを新聞社ごとに特記事
項として統合化見出しおよび統合化本文に付記する(ス
テップ572)。
上述の日立製作所が開発した高速文書検索システムにつ
いての記事では、特記事項として例えば朝日新聞からは 7 8 ■「日立では、最初に文字、次いで単語、文書と次々に
三段階のふるいにかけてデータをチエツクし、目的の文
章を探し出す方式を採用、時間を短縮した。たとえば「
情報の商品化が進む」という文章の場合、この文章をま
ず「情」 「報」 「の」とひとつひとつの文字に分解
した一覧表で探し、さらに「情報、商品化  」と助詞
などを省いた「凝縮文」で点検して、候補をしぼりこむ
。」 ■「日立の新開発の方式なら、記憶させる際に人手が少
なくてすみ、さらに検索も簡単にできる。」■「スピー
ドも従来方式と同じか、それ以上の速さで検索できる、
と同社ではいっている。」■「日立では「入力する時に
はキーワードとして不要な単語と思っていた言葉が、互
生後、千年後に重要な言葉になることも考えられる。」
の4つの文章が特記事項として抽出された。
上述の統合化本文中では重要語として、「長三田」 「
二五」 「日立製作所」 「−年」 「七千二百万」 
「−・五」 「五百」 「超高速検索」 「−千三百」
 「同義語」 「て三段」 「−千」 「第一段」「シ
ステム」 「第二段」 「第三」 「三方目子」「ば−
次」 「目子」 「、二次」 「子方」 「約10倍」
 「集合磁気ディスク装置」 「今回」 「二十」「高
速多重文字列照合方式」 「秒+MJr−,J「六」 
「秒百Mu  r−万」 「を五秒」 「同システム」
 「約五秒」 「三七」が抽出されている。
このため、朝日新聞の上述の特記事項文の重要語として
抽出される「日立」は、統合化本文の重要語としては切
り出されておらず、また「互生」「千年」も抽出されて
いないため、上述の■の文章に係わる情報は統合化本文
にはないと判断される。
このようにして、統合化見出し、統合化本文、新聞紙別
特記事項からなる統合記事が作成されて読者に提供され
、読者は情報もれのない記事が一つの統合化された記事
を読むことによって複数の新聞からの情報を居ながらに
して得ることができる。
9 0 〔発明の効果〕 上述のように、本発明は、自動的に複数の新聞社の記事
をまとめて情報のもれがない統合化された記事として読
者に提供できるので、読者は複数の書き手による評論を
網羅的につかむことができ、正確な情報を知ることがで
きる。
また、読者自身がすべての新聞などに当たることなく一
つのニュースソースに係わる情報を知ることが可能であ
るため、そのための労力および費用を低減化することが
できる。
(以下本頁余白) 別紙 (作成された統合化記事の例) 統合化見出し 朝日 一年分の新聞から1.5秒で探したい記事朝日 日立製作所 超高速検索のシステム開発朝日 「見出し登録不要」好きな言葉で 日産 日立低コストシステム試作 日経 WS採用システム試作 日産 WSで素早く文書検索 直冗 日立が新システム 朝日 二年後めど製品化 1 2 統合化文 日立製作所は(社長三田勝茂氏)二十五日、ワープロな
どで作成された電子化文書を、本文中に出ているどの言
葉でも検索することができる超高速文書検索システム(
写真)を開発したと発表した。
−平文の新聞記事約七千二百万文字を同システムで約−
・五秒で検索できる。
今回のフルテキストサーチ法による超高速検索は同中央
研究所が開発した次の技術の組合せにより実現したもの
で、システムとしては総合的に約五百倍のスピードアッ
プとなった。
同義語、異表記語など記述語の中に表現の食い違いが存
在する場合に、−千三百の異表記変換ルールに基づき自
動的に検索する方式や、文章の助詞部分や繰り返し語を
切り落とした文章で検索する階層型プリサーチ方式など
を組合わさせ、全体的に検索の効率化を実現している。
あらかじめ文書の本文から自動的に作成・情報圧縮して
おいた文字成分表と本文の中から助詞や接続詞などの附
属語を削除するとともに、繰り返される単語を排除した
凝縮本文を用いて三段階の検索を行って検索速度を上げ
る階層型サーチ方式などの独自の方式を取り入れて、フ
ルテキストサーチ法の欠点を克服、実用化にこぎつけた
もの。
今回開発したシステムは端末からある言葉を入力すると
同義語、異表記語を最大−子種類まで自動的に作成して
、第一段階の検索をする。
その次に文章から助詞や接続詞を除いた圧縮文で第二段
階選抜に入る。こうして絞り込むことで最終的な選抜を
簡単にした。
第三段階は本文ザーチで直接検索。
元データが三方目子件あれば一次検索で目子件に、二次
検索で五百件に絞り込める。この後、最終的な検索をす
る。
集合磁気ディスク装置、N台の小型同装置を並列に並べ
文書データを並列かつ独立に読み出すことにより文書デ
ータの読み出し速度をN倍化。今回は十二台並べて約十
倍の高速化を図った。
高速多重文字照合方式、最大−千語の同義語や異表記語
を一括して文書データの一回の走査で、探3 4 索、照会するもので、専用プロセッサー化し、毎秒二十
Mバイトの照合速度を実現。
同システムは最大読み出し速度が毎秒二十Mハイ)RA
Mディスク、毎秒十Mハイドの集合型磁気ディスク装置
、毎秒−・六Mビットのビットザーチプロセッサー、毎
秒二十Mバイトの文字列サーチプロセッサーで、構成、
等測的に毎秒百Mバイトのシステム検索速度を達成、約
−万字の一般的な技術文書の場合、三方目子件を五秒で
検索できる。特許情報・文献情報サービス、雑誌・新聞
などの記事情報管理などに利用できる。
なお、二十七日の情報処理学会でこの内容について発表
追加事項 「日刊工業」 それぞれの文書にインデックスを付ける作業が必要であ
った従来の検索方式とは異なり、文書の内容を直接参照
することでどんな言葉でも自由に指定して検索できるよ
うにした新方式。
「日産」 二年以内に商品化する計画 「日産」 データを収納するのは五・二五インチサイズの固定ディ
スク装置(HDD)。これを複数台並列に接続する。
「朝日」 日立では、最初に文字、次いで単語、文章と次々に三段
階のふるいにかけてデータをチエツクし、目的の文章を
探し出す方式を採用、時間を短縮化した。たとえば「情
報の商品化が進む」という文章の場合、この文章をまず
「情」 「報」 「の」とひとつひとつの文字に分解し
た一覧表で探し、さらに「情報、商品化  」と助詞な
どを省いた「凝縮文」で点検して、候補をしぼりこむ。
「朝日」 日立の新開発の方式なら、記憶させる際に人手が少なく
てすみ、さらに検索も簡単にできる。
「朝日」 スピードも従来方式と同じか、それ以上の速さで5 6 検索できる、と同社ではいっている。
「朝日」 日立では「入力する時にはキーワードとして不要な単語
と思っていた言葉が、互生後、千年後に重要な言葉にな
ることも考えられる。
「電気」 それぞれの文書にインデックスを付ける作業が必要であ
った従来の検索方式とは異なり、文書の内容を直接参照
することによって、どんな言葉でも自由に指定して検索
できる新しい方式を採用している。
「電気」 同社では今後二年ぐらいの間に商品化のメトをつけたい
としている。
「日経」 二年以内に商品化し、発売する。
「日経」 データは固定ディスク装置(HDD)に収納する。
「読売」 これまでの方法では、それぞれの記事に付けた索引くイ
ンデックス語をもとに検索しなければならなかったが、
新方式は、索引を使わず、ユーザーが指定する任意のキ
ーワードを複数組み合わせることで、希望の記事部分を
素早く読み出せるしくみだという。
「読売」 日立は二手後の商品化を目指している。
1日本工業」 二手後の商品化をめざしており、価格は未定。
7 8
【図面の簡単な説明】
第1図は本発明−実施例全体構成図。 第2図は実施例統合化見出し処理手段の見出し同一性判
断手段を説明するフローチャート。 第3図は実施例統合化本文処理手段の基本記事決定手段
を説明するフローチャート。 第4図は実施例統合化本文処理手段の文人替手段を説明
するフローチャート。 第5図は実施例統合化本文処理手段の文整形手段を説明
するフローチャート。 第6図は実施例特記事項処理手段を説明するフローチャ
ート。 1・・・ファイル装置、2・・・統合化見出し処理手段
、3・・・統合化本文処理手段、4・・・特記事項処理
手段。

Claims (1)

  1. 【特許請求の範囲】 1、同一の対象について記述された複数の記事内容をフ
    ァイルに記憶し、このファイルに記憶された原記事内容
    から、一つの統合化された記事を作成する記事統合化処
    理装置において、 上記ファイルから統合化しようとする記事の見出しを抽
    出する手段と、 この抽出された見出しの中から最も長い文字数の見出し
    を順に選択する手段と、 この選択された見出しに含まれる文字とすでに採択され
    た見出しに含まれる文字とを比較することによって同一
    内容である見出しを不採択とする見出し同一性判断手段
    と を備えた統合化見出し処理手段を含むことを特徴とする
    記事統合化処理装置。 2、見出し同一性判断手段は、 各見出し中の文字から数詞または独立の単語を切り出す
    切出し手段と、 数詞がある場合、同一の数詞がすでに採択された見出し
    中にあるときにはその数詞を含む見出しを不採択とする
    手段と、 独立の単語がある場合、同一の単語がすでに採択された
    見出し中にあるときにはその見出しを不採択とする手段
    と、 すでに採択された見出し中の文字と比較して所定数以上
    の文字が一致している見出しおよび不一致の文字数が所
    定数以下である見出しを不採択とする手段と を含む請求項1記載の記事統合化処理装置。 3、同一の対象について記述された複数の記事内容をフ
    ァイルに記憶し、このファイルに記憶された原記事内容
    から、一つの統合化された記事を作成する記事統合化処
    理装置において、 上記ファイルから統合化しようとする記事の本文を抽出
    する本文抽出手段と、 この抽出された複数の記事本文の情報量を比較してもっ
    とも情報量が多くしかも内容が濃い記事本文を統合化文
    の基本記事文として採択する基本記事決定手段と、 この採択された基本記事文の各文の情報量を同一内容に
    ついて記述した基本記事以外の他の記事本文と比較して
    より情報量の多い文を選択して基本記事の文と入れ替え
    る文入替手段と、 選択された文全体を滑らかに整形する文整形手段と を備えた統合化本文処理手段を含むことを特徴とする記
    事統合化処理装置。 4、基本記事決定手段は、 最も文字数の多い記事から重み付けを行う手段と、 記事内に含まれる重要語を抽出してこの重要語の最も多
    い記事から重み付けを行う手段と、文字数および重要語
    数による重み数を加算して重み数が最も多い記事を基本
    記事として採択する手段と を備える請求項3記載の記事統合化処理装置。 5、文入替手段は、 基本記事内の各文中の数詞を切り出し、この切り出され
    た数詞が含まれる他の記事の文と比較し、長い方の文を
    統合化本文として採択する手段と、重要語を切り出し、
    この切り出された重要語が含まれる他の記事の文と比較
    し長い方の文を統合化本文として採択する手段と を備える請求項4または5のいずれか記載の記事統合化
    処理装置。 6、第1項または第2項記載の統合化見出し処理手段お
    よび第3項ないし第5項いずれか記載の統合化文処理手
    段を含む記事統合化処理装置。 7、第1項または第2項記載の統合化見出し処理手段お
    よび第3項ないし第5項いずれか記載の統合化文処理手
    段を含む記事統合化処理装置において、 統合化された記事本文から重要語および数詞を切り出す
    手段と、 切り出された重要語および数詞が全く存在しない文を原
    記事文中から抽出して、上記統合化見出しおよび統合化
    文に付加する手段と を備えたことを特徴とする記事統合化処理装置。
JP2041513A 1990-02-22 1990-02-22 記事統合化処理装置 Expired - Lifetime JPH0782503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2041513A JPH0782503B2 (ja) 1990-02-22 1990-02-22 記事統合化処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2041513A JPH0782503B2 (ja) 1990-02-22 1990-02-22 記事統合化処理装置

Publications (2)

Publication Number Publication Date
JPH03244080A true JPH03244080A (ja) 1991-10-30
JPH0782503B2 JPH0782503B2 (ja) 1995-09-06

Family

ID=12610458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2041513A Expired - Lifetime JPH0782503B2 (ja) 1990-02-22 1990-02-22 記事統合化処理装置

Country Status (1)

Country Link
JP (1) JPH0782503B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235151A (ja) * 1995-02-22 1996-09-13 Canon Inc 情報収集方法及び装置
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235151A (ja) * 1995-02-22 1996-09-13 Canon Inc 情報収集方法及び装置
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置

Also Published As

Publication number Publication date
JPH0782503B2 (ja) 1995-09-06

Similar Documents

Publication Publication Date Title
US5926811A (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5953718A (en) Research mode for a knowledge base search and retrieval system
KR100572797B1 (ko) 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체
US8346795B2 (en) System and method for guiding entity-based searching
JP3160201B2 (ja) 情報検索方法、情報検索装置
US8855998B2 (en) Parsing culturally diverse names
US6523030B1 (en) Sort system for merging database entries
US20150347385A1 (en) Systems and Methods for Determining Lexical Associations Among Words in a Corpus
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
WO2002080036A1 (en) Method of finding answers to questions
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN114911917A (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JPH03244080A (ja) 記事統合化処理装置
JP2002183195A (ja) 概念検索方式
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
Bryer et al. Analysis of Clustering Algorithms to Clean and Normalize Early Modern European Book Titles
EP0592402B1 (en) A text management system
JPH04215181A (ja) 情報検索処理方式および検索ファイル作成装置
Solanki et al. SummaGen: Next-Generation Seq-to-Seq Model for Summarizing Unstructured Text
Zunde Automatic indexing
CN116414939A (zh) 基于多维度数据的文章生成方法