JPH0484366A - 文書種別判別装置 - Google Patents

文書種別判別装置

Info

Publication number
JPH0484366A
JPH0484366A JP2197865A JP19786590A JPH0484366A JP H0484366 A JPH0484366 A JP H0484366A JP 2197865 A JP2197865 A JP 2197865A JP 19786590 A JP19786590 A JP 19786590A JP H0484366 A JPH0484366 A JP H0484366A
Authority
JP
Japan
Prior art keywords
document
type
keyword
discriminated
discriminating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2197865A
Other languages
English (en)
Inventor
Nobuo Yamazaki
山崎 伸夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2197865A priority Critical patent/JPH0484366A/ja
Publication of JPH0484366A publication Critical patent/JPH0484366A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的] (産業上の利用分野) 本発明は、例えば新聞記事などの文書を、例えば「社会
」 「経済」 「スポーツ」などといった種別に判別分
類する文書種別判別装置に関する。
(従来の技術) 例えば新聞社では、集まった記事を新聞制作システムに
入力し、電子化された記事により編集や整理保管(デー
タベース)などを行う。
ところで新聞では、記事の編集および整理保管を「社会
」 「経済」 「スポーツ」などといったジャンル別に
行うことが一般的である。このため従来は、記事の入力
に際して記者または編集者′などか記事を一旦読み、内
容からジャンルを判別する。
そして入力の際に、記事とともにその記事のジャンルを
示す種別記号を入力し、以降はこの種別記号に基づいて
ジャンルごとの各種処理がなされる。
ここで、新聞の記事は全国各地からかつジャンルの区別
なく集まるものであり、膨大な量となるが、この膨大な
量の記事を紙面掲載/非掲載に拘らず全て読み、ジャン
ル分けする必要かあり、非常に多くの時間および労力を
要していた。また、このようにシステムに入力されたま
でに多くの時間を要することから、速報性か損なわれる
おそれがあった。
(発明か解決しようとする課題) 以上のように従来は、記事などの文書を種別(例えばジ
ャンル)分けする作業は人手によっており、非常に多く
の時間と労力を要していた。
本発明はこのような事情を考慮してなされたものであり
、その目的とするところは、人手を介すること無くかつ
短時間で、自動的に文書の種別を判定することができる
文書種別判別装置を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明は、予め登録されたキーワードを記憶する記憶手
段と、種別判別の対象となる文書中の語句と前記記憶手
段に記憶されたキーワードとを照合する照合手段とを備
え、この照合手段による照合結果に基づき、前記文書の
種別を判別し、さらに必要に応して、例えば種別を示す
情報を文書に付加して、あるいは種別に応した配信先に
文書を出力するようにした。
(作 用) このような手段を講したことにより、予め記憶手段に登
録されたキーワードと種別判別の対象となる文書中の語
句とか照合され、この照合結果に基づいて前記文書の種
別か判別される。
従って、種別の判別か人手を介すること無く自動的に行
われる。
(実施例) 以下、図面を参照して本発明の一実施例につき説明する
第1図は本実施例に係る文書種別判別装置の構成を示す
ブロック図である。図中、1か文書種別判別装置であり
、入力処理部11、バッファメモリ12、照合手段とし
てのキーワード判定部13、記憶手段としてのキーワー
ドメモリ]4、判別手段としての種別判定部15および
出力処理部16から構成されている。
ここで入力処理部11は、例えば文書作成装置から転送
されたテキストデータを受けてバッファメモリ12に格
納する。さらに入力処理部11は、文書が入力された旨
をキーワード判定部13に通知するとともに、入力され
た文書データから語句の切出しおよび切出した語句を照
合に適した形に処理する前処理等を行った後、キーワー
ド判定部13に与える。
キーワードメモリ14は、予め登録された、種別判別の
基準となるキーワードの情報(以下、キーワード情報と
称する)が格納されている。ここでキーワードは、例え
ば新聞記事の種別判別を行う場合の、「政治」なる種別
を例にとると、「議会」 「委員会j 「予算」 「意
見」などの語句や政治家の氏名等の語句である。このよ
うな語句が、「政治」 「経済」 「スポーツ」などの
各種別ニ対応付けて多数登録されている。
キーワード判定部13は、バッフ7メモリ12に格納さ
れたテキストデータとキーワードメモリ14に格納され
たキーワード情報との照合処理を行い、照合結果を種別
判定部15に通知する。種別判定部15は通知された照
合結果に基づいてバッファメモリ12に格納されている
テキストデータが示す文書の種別を判定し、その種別を
示す種別情報を出力処理部16に与える。出力処理部1
6は、バッファメモリ12からテキストデータを読出し
、与えられた種別情報に基づいて外部への出力処理を行
う。
次に以上のように構成された文書種別判別装置1の動作
をキーワード判定部13の処理手順を中心に説明する。
まず、種別識別の対象となるテキストデータか入力され
ると、入力処理部]1はこのテキストデータをバッファ
メモリ12に一旦格納するとともに、文書が人力された
旨をキーワード判定部13へと通知する。
これに応じてキーワード判定部]3は処理を開始し、ま
ず第2図に示すようにステップaにおいて、照合処理が
終了したか否かの判断を行う。ここで照合処理が終了し
ていなければ、キーワード判定部コ3は処理をステップ
aからステップbに移行し、照合処理を行う。この照合
処理は具体的には、入力処理部11で切出されて与えら
れる語句を1つ取込み、この語句かキーワードメモリ1
4内に記憶されているキーワードのいずれかに一致する
か否かを判定することにより行われる。
こののち、キーワード判定部13はステップCにおいて
、ステップbでの照合処理で一致しなかった場合、キー
ワード判定部13はステップa移行の処理を繰り返して
次の語句についての照合処理を行う。また、ステップb
ての照合処理で一致した場合、キーワード判定部13は
処理をステップCからステップdに移行する。そしてキ
ーワード判定部13はステップdにおいて、一致したキ
ーワードの種別を判定したのち、ステップeにおいて、
種別毎の一致回数、すなわち一致頻度の積算を行う。こ
ののち、キーワード判定部13はステップa移行の処理
を繰り返して次の語句についての照合処理を行う。
以上のように入力処理部11で切出された各語句につい
てのキーワードとの照合が順次行われ、1文書のすべて
の語句についての照合が終了すると、キーワード判定部
13は処理をステップaからステップfに移行し、この
ステップfにおいて、積算された頻度の情報を照合結果
として種別判定部15へと通知する。こののち、キーワ
ード判定部13は処理を終了する。
種別判定部15は、以上のようにキーワード判定部13
から通知された照合結果に基づいて、例えば一致頻度の
大小に基づいて判定を行ういわゆる多数決論理によって
種別の判定を行い、この判定した種別を示す種別情報を
出力処理部16へと与える。これに応じて出力処理部1
6は、バッファメモリ12からテキストデータを読出し
、このテキストデータに種別判定部15から与えられた
種別情報を例えばヘッダとして付加し、外部へ出力する
。なお種別判定部ユ5から種別の判別が不能である旨か
通知された場合、出力処理部16はその旨を示す警報語
句を文書の冒頭に付加するなどの処理を行う。また出力
処理部16は、複数設置された配信先端末20a、20
b・・・、20n(例えば新聞社を例示すると、「政治
部」 「経済部」 「スポーツ部」などの各セクション
に設置されている)のうちのいずれかに、種別判定部1
5から与えられた種別情報に基づいて自動的に配信する
。このように出力処理部16は、種別情報付加手段およ
び配信手段の機能を有する。
かくして本実施例によれば、種別判別の対象となる文書
中の語句を、予め登録されたキーワードと照合し、その
一致頻度から自動的に種別が判別され、種別情報がテキ
ストデータに付加されるとともに、種別に応じた配信先
へと自動配信される。
従って、種別の判別および配信が自動的に行われ、例え
ば新聞社などにおいて膨大な量の記事を読んで種別の判
別を行うという作業を行わなくて済み、かつ短時間で処
理される。また、勘違いによる種別の誤判別や種別情報
の入力ミスなどか生じることも防止できる。
なお、本発明は上記実施例に限定されるものではない。
例えば上記実施例では、一致頻度による多数決論理によ
り種別判別を行うようにしているが、ファジー理論など
の他の手法により判定を行うことも可能である。すなわ
ち例えば、キーワードとともに、「・・・が問題となっ
ている」 「・・・が重要課題」 「・・の問題」等の
重要度判定語句を登録し、この重要度判定語句との関連
を調べる(例えば重要度判定語句の付近に現れる語句が
キーワードであるか否かを調べる)ことにより判定精度
を向上させるようにしても良い。また上記実施例では、
テキストデータに種別情報を付加するようにしているか
、上記実施例のように配信を行う等の処理を行う場合等
には付加しなくても良い。さらに、上記実施例では種別
に応じて配信を行うものとなっているが、例えば種別ご
とにメモリに格納して保管管理したり、あるいは単一の
メモリに順次格納して任意に取り出せるようにしたりす
るなどすれば、配信は行なわなくても良い。このほか、
本発明の要旨を逸脱しない範囲で種々の変形実施が可能
である。
[発明の効果] 本発明によれば、予め登録されたキーワードを記憶する
記憶手段と、種別判別の対象となる文書中の語句と前記
記憶手段に記憶されたキーワードとを照合する照合手段
とを備え、この照合手段による照合結果に基づき、前記
文書の種別を判別し、さらに必要に応じて、例えば種別
を示す情報を文書に付加して、あるいは種別に応じた配
信先に文書を出力するようにしたので、人手を介するこ
と無くかつ短時間で、自動的に文書の種別を判定するこ
とができる文書種別判別装置となる。
【図面の簡単な説明】
図は本発明の第1の実施例に係る文書種別判別装置を説
明する図であり、第1図は構成を示すブロック図、第2
図は第1図中のキーワード判定部13の処理手順を示す
フローチャートである。 1・・・文書種別判別装置、11・・・入力処理部、1
2・・・バッファメモリ、13・・−キーワード判定部
、14・・・キーワードメモリ、15・・・種別判定部
、6・・・出力処理部。

Claims (3)

    【特許請求の範囲】
  1. (1)予め登録されたキーワードを記憶する記憶手段と
    、 種別判別の対象となる文書中の語句と前記記憶手段に記
    憶されたキーワードとを照合する照合手段と、 この照合手段による照合結果に基づき、前記文書の種別
    を判別する判別手段とを具備したことを特徴とする文書
    種別判別装置。
  2. (2)判別手段により判別された種別を示す情報を文書
    に付加して出力する種別情報付加手段を有することを特
    徴とする請求項(1)記載の文書種別判別装置。
  3. (3)判別手段により判別された種別に応じた配信先に
    文書を出力する配信手段を有することを特徴とする請求
    項(1)記載の文書種別判別装置。
JP2197865A 1990-07-27 1990-07-27 文書種別判別装置 Pending JPH0484366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2197865A JPH0484366A (ja) 1990-07-27 1990-07-27 文書種別判別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2197865A JPH0484366A (ja) 1990-07-27 1990-07-27 文書種別判別装置

Publications (1)

Publication Number Publication Date
JPH0484366A true JPH0484366A (ja) 1992-03-17

Family

ID=16381621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2197865A Pending JPH0484366A (ja) 1990-07-27 1990-07-27 文書種別判別装置

Country Status (1)

Country Link
JP (1) JPH0484366A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH08272826A (ja) * 1995-03-31 1996-10-18 Hitachi Ltd 文書加工方法および装置
JP2001202466A (ja) * 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
US6408323B1 (en) 1997-06-03 2002-06-18 Justsystem Corporation Job execution managing apparatus and computer-readable recording medium with program recorded therein for making a computer function as a job execution managing apparatus
JP2007272333A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd Webページ分類プログラム、Webページ分類装置およびWebページ分類方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH08272826A (ja) * 1995-03-31 1996-10-18 Hitachi Ltd 文書加工方法および装置
US6408323B1 (en) 1997-06-03 2002-06-18 Justsystem Corporation Job execution managing apparatus and computer-readable recording medium with program recorded therein for making a computer function as a job execution managing apparatus
JP2001202466A (ja) * 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
JP2007272333A (ja) * 2006-03-30 2007-10-18 Fujitsu Ltd Webページ分類プログラム、Webページ分類装置およびWebページ分類方法

Similar Documents

Publication Publication Date Title
Boenninghoff et al. Explainable authorship verification in social media via attention-based similarity learning
US8170969B2 (en) Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
US6397205B1 (en) Document categorization and evaluation via cross-entrophy
CN1701324B (zh) 用于分类文档的系统,方法和软件
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
Zhai et al. ATLAS: a probabilistic algorithm for high dimensional similarity search
CN110457302A (zh) 一种结构化数据智能清洗方法
KR870011552A (ko) 문서 등록 방식
US11775549B2 (en) Method and system for document indexing and retrieval
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN114663067A (zh) 一种职位匹配方法、系统、设备及介质
JPH0484366A (ja) 文書種別判別装置
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
JP2003505770A (ja) アドレスの自動読出しのための辞書の形成および/または更新のための方法
Kalaivani et al. The effect of stop word removal and stemming in datapreprocessing
CN115408995A (zh) 一种项目电子文档的结构化解析方法及系统
JP3602084B2 (ja) データベース管理装置
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理系统
CN113254583A (zh) 一种基于语义向量的文档标记方法、装置及介质
JPH06274550A (ja) 名刺管理システム
JPH09146932A (ja) 文書管理システム
JP2004206468A (ja) 文書管理システム及び文書管理プログラム
JP2003132332A (ja) 学習データ作成支援装置
US20030221160A1 (en) Determination of a semantic snapshot