JPH1115854A - Document processing method, its device and recording medium - Google Patents

Document processing method, its device and recording medium

Info

Publication number
JPH1115854A
JPH1115854A JP9181818A JP18181897A JPH1115854A JP H1115854 A JPH1115854 A JP H1115854A JP 9181818 A JP9181818 A JP 9181818A JP 18181897 A JP18181897 A JP 18181897A JP H1115854 A JPH1115854 A JP H1115854A
Authority
JP
Japan
Prior art keywords
document
keyword
importance
extracted
knowledge data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9181818A
Other languages
Japanese (ja)
Inventor
Yoshinobu Senoo
吉紳 妹尾
Masazumi Kitamura
正純 北村
Fujiki Fujii
藤樹 藤居
Atou Go
亜棟 呉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP9181818A priority Critical patent/JPH1115854A/en
Publication of JPH1115854A publication Critical patent/JPH1115854A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a document processor capable of changing knowledge data following a change in user's interesting object and executing precise judgement. SOLUTION: A keyword extraction part 12 extracts a keyword and its importance from an applied document and stores the extraced contents in a storage part 13 together with the preparation time of the document. A document information/keyword set extraction part 15 extracts a keyword and its importance in a document existing in an object section specified by optional time on a time base applied by a time key input means 14 front the storage part 13, generates knowledge data in the object section based on the extracted keyword and importance and stores the generated data in a document information storing part 16 in the object section. When an unknown document is applied, an evaluation part 17 compares a keyword and importance extracted from the unknown document with knowledge data stored in the storage part 16 to evaluate the unknown document.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書処理方法及び
装置並びに記録媒体に関するもので、より具体的には、
与えられた文書からキーワードを抽出し、その文書の特
徴を求めて評価基準となる知識データを生成したり、そ
の生成した知識データに基づいて未知の文書を評価し、
知識データに対する一致度などを求めることにより、ユ
ーザーの興味のあるものか否かや内容の推定を行うこと
のできる文書処理を行うものに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing method and apparatus, and a recording medium.
A keyword is extracted from a given document, and the characteristics of the document are obtained to generate knowledge data serving as an evaluation criterion, or an unknown document is evaluated based on the generated knowledge data.
The present invention relates to a document processing apparatus capable of estimating a content of a user by determining a degree of coincidence with knowledge data or the like and estimating the content.

【0002】[0002]

【従来の技術】従来、文書特徴量を用いた文書処理は一
般化しており、例えば、文書検索の分野においては、問
合わせ式と文書との一致度を計算する尺度として、問合
わせキーワードの文書中での出現頻度(キーワードの重
要度を表わす)やキーワードの出現する文書数(キーワ
ード弁別能力を表わす)を用いている。これにより、多
数の文書から目的とする内容が記載された文書を抽出し
たり、新規の未知文書があるカテゴリーに属する文書で
あるか否かのおおよその判断ができるようになってい
る。
2. Description of the Related Art Conventionally, document processing using document features has been generalized. For example, in the field of document retrieval, a document of a query keyword is used as a scale for calculating the degree of matching between a query formula and a document. The appearance frequency (indicating the importance of the keyword) and the number of documents in which the keyword appears (indicating the keyword discrimination ability) are used. This makes it possible to extract a document in which desired contents are described from a large number of documents, and to roughly determine whether or not a new unknown document belongs to a certain category.

【0003】[0003]

【発明が解決しようとする課題】ところで、新規文書の
内容が、ユーザーにとって興味のある文書であるか否か
などを判断することは、例えば電子メール文書等におい
て多数のメールが届くような場合にその電子メールの内
容を予めコンピュータ側で解析しユーザーにとって興味
のある(見る)必要のある文書であるか否かを判断する
ことができると、メールを見るか否かの判断の指標とな
り、効率よくメールに対する処理ができて好ましい。
By the way, whether or not the content of a new document is a document of interest to a user is determined, for example, when a large number of mails arrive in an electronic mail document or the like. If the contents of the e-mail can be analyzed on the computer side in advance to determine whether or not the document is of interest (view) to the user, it becomes an index for determining whether or not to view the e-mail. This is preferable because mail can be processed well.

【0004】そこで、精度よく判断する必要があるが、
上記した判断の精度は、比較基準となる知識データの良
否が大きな要因となる。そして、ユーザーにとって見る
必要がある/興味の有する文書は、時間の経過とともに
変化するのが通常である。したがって、ある時期で有効
に判断できた知識も、時間経過とともに有効に判断でき
なくなるおそれがある。したがって、知識データをメン
テナンスして常にユーザーにとって適した状態にするこ
とが必要であるが、個々のユーザーで興味は異なるの
で、実際に個々のユーザーに合わせてメンテナンスをす
ることは煩雑で、実用に供し得ない。
Therefore, it is necessary to judge with high accuracy.
The accuracy of the above-mentioned judgment is largely determined by the quality of the knowledge data serving as the comparison standard. And, the documents that the user needs to view / interest usually change over time. Therefore, knowledge that can be effectively determined at a certain time may not be able to be effectively determined over time. Therefore, it is necessary to maintain knowledge data so that it is always suitable for the user, but since individual users have different interests, it is cumbersome to actually perform maintenance for each user, and it is not practical. I can't offer it.

【0005】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、従来の文書特徴量に加え、時間的要素を加味するこ
とにより、ユーザーの興味対象等が変化してもそれに追
従して知識データを変更し、精度のよい判断を行うこと
ができ、また、ユーザーの興味対象やその逆が時間とと
もにどのように推移していったかを検出することのでき
る文書処理方法及び装置並びに記録媒体を提供すること
にある。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-described background, and has as its object to solve the above-described problems and to provide a user with a time element in addition to the conventional document feature amount. Even if the interests of the user change, the knowledge data can be changed to follow the changes and accurate judgments can be made, and how the interests of the user and vice versa have changed over time. An object of the present invention is to provide a document processing method and apparatus and a recording medium that can be detected.

【0006】[0006]

【課題を解決するための手段】上記した目的を達成する
ため、本発明に係る文書処理方法では、まず第1の発明
(第1の実施の形態で実現されている)として、与えら
れた文書中からキーワードを抽出し、前記文書内での前
記キーワードの重要度を算出し、前記抽出されたキーワ
ード及び重要度と、前記与えられた文書の作成時間情報
を含むデータを第1記憶手段に格納する。ここまでの工
程は、実施の形態では図3に示すフローにより実現され
る。次いで、時間軸上の任意の時刻を入力することによ
り設定される対象区間に基づいて前記第1記憶手段をア
クセスし、前記第1記憶手段に格納されたデータのう
ち、前記文書の作成時間が前記対象区間内に存在する文
書についてのキーワードと重要度を抽出するとともに、
その抽出したキーワードと重要度に基づいてその対象区
間における知識データを生成し、その生成された前記対
象区間内での知識データを第2記憶手段に格納すること
ができる(請求項1)。ここまでの工程は実施の形態で
は図4に示すフローにより実現される。
In order to achieve the above object, in a document processing method according to the present invention, a document given as a first invention (implemented in the first embodiment) is provided. A keyword is extracted from the keyword, the importance of the keyword in the document is calculated, and data including the extracted keyword and importance and the creation time information of the given document is stored in the first storage unit. I do. The steps up to this point are realized by the flow shown in FIG. 3 in the embodiment. Next, the first storage unit is accessed based on a target section set by inputting an arbitrary time on a time axis, and the time of creation of the document is set in the data stored in the first storage unit. While extracting the keyword and importance for the document existing in the target section,
Knowledge data in the target section can be generated based on the extracted keywords and importance, and the generated knowledge data in the target section can be stored in the second storage means (claim 1). The steps so far are realized by the flow shown in FIG. 4 in the embodiment.

【0007】上記の方法を前提とし、未知の文書が与え
られた場合に、その未知の文書からキーワード及び重要
度を抽出し、前記抽出した未知の文書のキーワードと重
要度を前記第2記憶手段に格納された知識データと比較
し、前記文書に対する評価を行うようにしてもよい(請
求項2)。この工程は、実施の形態では、図7により実
現されている。
On the premise of the above method, when an unknown document is given, keywords and importance are extracted from the unknown document, and the keywords and importance of the extracted unknown document are stored in the second storage means. The document may be evaluated by comparing it with the knowledge data stored in the document (claim 2). This step is realized by the embodiment in FIG.

【0008】前記文書を与えるに際し、カテゴリーを関
連付けて入力し、前記第1記憶手段に格納するデータを
前記カテゴリーごとに分けて格納し、かつ、前記カテゴ
リーごとに前記知識データを生成するとともに、前記第
2記憶手段にカテゴリーごとに格納するようにしてもよ
い(請求項3)。
In providing the document, a category is input in association with a category, data to be stored in the first storage unit is divided and stored for each category, and the knowledge data is generated for each category. The information may be stored in the second storage means for each category (claim 3).

【0009】未知の文書が与えられた場合に、その未知
の文書からキーワード及び重要度を抽出し、その抽出し
たキーワード及び重要度と、前記第2記憶手段に格納さ
れたカテゴリーごとの知識データとを比較し、各カテゴ
リーに対する一致度を求め、かつ、前記求めた各カテゴ
リーに対する一致度に基づいて未知の文書を分類するよ
うにしてもよい(請求項4)。
When an unknown document is given, keywords and importance are extracted from the unknown document, and the extracted keywords and importance and the knowledge data for each category stored in the second storage unit are extracted. May be compared to determine the degree of coincidence for each category, and unknown documents may be classified based on the degree of coincidence for each category determined (claim 4).

【0010】そして、上記した各方法を実施するために
適した第1の発明としては、例えば与えられた文書中か
らキーワードを抽出するとともに、前記文書内での前記
キーワードの重要度を算出するキーワード抽出手段と、
前記キーワード抽出手段で抽出されたキーワードと、前
記与えられた文書の作成時間情報を含むデータを記憶す
る第1記憶手段(実施の形態では、「文書情報とキーワ
ード集合の記憶部13」に対応)と、時間軸上の任意の
時刻を入力する時間キー入力手段と、前記第1記憶手段
に格納されたデータのうち、前記文書の作成時間が前記
時間キー入力手段から与えられる時刻により特定される
前記対象区間内に存在する文書についてのキーワードと
重要度を抽出するとともに、その抽出したキーワードと
重要度に基づいてその対象区間における知識データを生
成する生成手段と、その生成手段(実施の形態では、
「文書情報とキーワード集合の抽出部15」に対応)に
より生成された前記対象区間内での知識データを記憶す
る第2記憶手段(実施の形態では「対象区間内での文書
情報記憶部16」に対応)とを備えて構成することがで
きる(請求項8)。
[0010] A first invention suitable for carrying out each of the above-mentioned methods is, for example, a method of extracting a keyword from a given document and calculating the importance of the keyword in the document. Extraction means;
First storage means for storing data including the keyword extracted by the keyword extraction means and the creation time information of the given document (corresponding to “storage section 13 of document information and keyword set” in the embodiment) A time key input unit for inputting an arbitrary time on a time axis, and a time specified by the time key input unit from the data stored in the first storage unit. Generating means for extracting a keyword and importance of a document existing in the target section and generating knowledge data in the target section based on the extracted keyword and importance; and a generating means (in the embodiment, ,
The second storage means (in the embodiment, the "document information storage unit 16 in the target section") that stores the knowledge data in the target section generated by the "document information and keyword set extraction unit 15" (Corresponding to (1)) (claim 8).

【0011】また、未知の文書が与えられた場合に、そ
の未知の文書から抽出されたキーワード及び重要度と、
前記第2記憶手段に格納された知識データとを比較し、
前記文書に対する評価を行う評価手段をさらに備えるよ
うに構成してもよい(請求項9)。
Further, when an unknown document is given, a keyword and importance extracted from the unknown document,
Comparing with the knowledge data stored in the second storage means,
It may be configured to further include an evaluation means for evaluating the document (claim 9).

【0012】また、前記文書を与えるに際し、カテゴリ
ーを関連付けて入力するようにし、前記第1記憶手段に
格納するデータは、前記カテゴリーごとに分けて格納す
るようにし、前記生成手段では、前記カテゴリーごとに
前記知識データを生成し、前記第2記憶手段にカテゴリ
ーごとに格納するように構成してもよい(請求項1
0)。
When the document is given, a category is input in association with the document, the data stored in the first storage unit is stored separately for each category, and the generation unit stores the data for each category. The knowledge data may be generated and stored in the second storage means for each category.
0).

【0013】さらにまた、未知の文書が与えられた場合
に、その未知の文書から抽出されたキーワード及び重要
度と、前記第2記憶手段に格納されたカテゴリーごとの
知識データとを比較し、各カテゴリーに対する一致度に
基づいて評価した文書を分類する(実施の形態では、
「評価部17」により実現される)ように構成してもよ
い(請求項11)。
Furthermore, when an unknown document is given, the keyword and importance extracted from the unknown document are compared with the knowledge data for each category stored in the second storage means. Classify documents evaluated based on the degree of matching to the category (in the embodiment,
(Implemented by the “evaluation unit 17”).

【0014】上記した目的を達成するための第2の発明
(第3の実施の形態として実現されている)としては、
上記した請求項1〜4を前提とし、異なる対象区間を複
数指定し、指定された複数の対象区間ごとの知識データ
を生成し、各知識データの特徴を比較することでユーザ
ーの興味の推移を求めるようにすることである(請求項
5)。
A second invention for achieving the above object (implemented as a third embodiment) includes:
Based on the above-mentioned claims 1-4, a plurality of different target sections are designated, knowledge data for each of the plurality of designated target sections is generated, and a characteristic of each knowledge data is compared to change a user's interest. (Claim 5).

【0015】そして、係る方法を実施するための装置と
しては、請求項8〜11に記載の装置を前提とし、対象
区間を複数指定することにより、知識データを複数個生
成し、各知識データの特徴を比較することでユーザーの
興味の推移を求める機能(実施の形態では、「ユーザー
の興味推移算出部19」に対応)をさらに備えることで
ある(請求項12)。
[0015] As an apparatus for carrying out such a method, the apparatus according to claims 8 to 11 is premised. By designating a plurality of target sections, a plurality of pieces of knowledge data are generated. The feature of the present invention is to further include a function (corresponding to “the user's interest transition calculating unit 19” in the embodiment) for calculating the transition of the user's interest by comparing the features (claim 12).

【0016】上記した目的を達成するための第3の発明
(第2の実施の形態として実現されている)として、与
えられた文書中からキーワードを抽出し、前記文書内で
の構造レベルやキーワードの頻度に応じて前記キーワー
ドの重要度を算出し、前記抽出したキーワード及び重要
度を累積演算によって過去に与えられた文書に基づいて
生成されたキーワード及び重要度に足し合わせることに
より知識データを生成し、その生成した知識データを記
憶手段に記憶させるようにし、かつ前記累積演算は、与
えられた文書中から抽出されたキーワード及び重要度の
影響が大きくなるようにすることである(請求項6)。
As a third invention (implemented as a second embodiment) for achieving the above-mentioned object, a keyword is extracted from a given document, and a structure level and a keyword in the document are extracted. The importance of the keyword is calculated according to the frequency of the keyword, and the extracted keyword and the importance are added to the keyword and the importance generated based on the document given in the past by the cumulative calculation to generate the knowledge data. Then, the generated knowledge data is stored in the storage means, and the cumulative operation is to increase the influence of the keyword and importance extracted from the given document (claim 6). ).

【0017】上記方法を前提とし、与えられた未知の文
書からキーワード及び重要度を抽出し、その抽出した前
記キーワード及び重要度と前記記憶手段に格納された累
積された知識データとを比較し、前記文書に対する評価
を行うようにしてもよい(請求項7)。
On the premise of the above method, keywords and importance are extracted from a given unknown document, and the extracted keywords and importance are compared with the accumulated knowledge data stored in the storage means. The document may be evaluated (claim 7).

【0018】そして、係る方法を実施するための装置と
しては、与えられた文書中からキーワードを抽出すると
ともに、前記文書内での前記キーワードの重要度を算出
するキーワード抽出手段と、前記キーワード抽出手段で
抽出されたキーワード及び重要度を累積演算によって過
去に与えられた文書に基づいて生成されたキーワード及
び重要度に足し合わせることにより知識データを生成す
る生成手段と、その生成手段により生成された知識デー
タを記憶する記憶手段とを備え、かつ前記生成手段にお
ける累積演算は、キーワード抽出手段で抽出されたキー
ワード及び重要度の影響が大きくなるように構成した
(請求項13)。
An apparatus for performing the method includes a keyword extracting unit that extracts a keyword from a given document and calculates an importance of the keyword in the document, and a keyword extracting unit. Generating means for generating knowledge data by adding the keywords and importances extracted in the above to keywords and importances generated based on documents given in the past by cumulative operation, and knowledge generated by the generating means Storage means for storing data, and wherein the cumulative operation in the generation means is configured to increase the influence of the keyword extracted by the keyword extraction means and the degree of importance (claim 13).

【0019】そして、上記装置を前提とし、与えられた
未知の文書から抽出されたキーワード及び重要度と、前
記記憶手段に格納された累積された知識データとを比較
し、前記文書に対する評価を行う評価手段をさらに備え
て構成するとよい(請求項14)。
Then, on the premise of the above-mentioned apparatus, the keyword and importance extracted from a given unknown document are compared with the accumulated knowledge data stored in the storage means, and the document is evaluated. It is preferable that an evaluation means is further provided.

【0020】さらに請求項15〜21に規定するよう
に、上記した各処理を実行するためのプログラムを格納
した記録媒体としてもよい。
Further, as defined in claims 15 to 21, the recording medium may store a program for executing the above-described processes.

【0021】従来からある文書特徴量に加え、キーワー
ドの持つ時間的、意味的な性質を考慮し、時系列的にキ
ーワード集合をとらえることにより、ユーザーの興味対
象あるいは、その逆となる文書、または、現在、話題の
中心となっている文書あるいは、めずらしい話題の文書
かを表わすことができる。
[0021] In addition to the document features in the related art, the temporal and semantic properties of the keywords are taken into account, and the keyword set is captured in a time-series manner. It can indicate whether the document is currently the main topic or a rare topic document.

【0022】そして、請求項1,3,6,8,10,1
3,15,17,20の発明では、時間推移に基づくユ
ーザーの興味の変化などに追従した文書の特徴量(知識
データ)を生成できる。その結果、請求項2,4,7,
9,11,14,16,18,21の発明では、上記し
た知識データに基づいて未知の文書に対する評価を精度
よく行うことができ、ユーザーにとって必要な文書であ
るか否かの判断も容易に行うことができる。
Further, claims 1, 3, 6, 8, 10, 1
According to the inventions of 3, 15, 17, and 20, it is possible to generate a feature amount (knowledge data) of a document that follows a change in user's interest based on a time transition. As a result, claims 2, 4, 7,
According to the inventions of 9, 11, 14, 16, 18, and 21, it is possible to accurately evaluate an unknown document based on the above-described knowledge data, and easily determine whether the document is necessary for the user. It can be carried out.

【0023】そして、請求項6,7,13,14,2
0,21のようにすると、知識データの記憶容量を削減
できる。さらに、現在のキーワード集合と、過去のある
時点でのキーワード集合との比較により、ユーザーの興
味や話題の推移をも表現することができる。さらには、
近い将来のユーザーの興味や話題の予測も可能となる
(請求項5,12,19)。
Further, claims 6, 7, 13, 14, 2
By setting 0 and 21, the storage capacity of the knowledge data can be reduced. Further, by comparing the current keyword set with the keyword set at a certain point in the past, it is possible to express the interest of the user and the transition of the topic. Furthermore,
It is also possible to predict the interests and topics of users in the near future (claims 5, 12, 19).

【0024】*用語の定義 請求項1,8等で規定される「対象区間」は、例えば2
つの時間を指定することによりその間を特定するように
してもよく、或いは、ある時間から最近まで(最初から
ある時間まで)等のように時間指定は1つでもよく、さ
らには、ある時間(時刻)というように「時」も含む概
念である。
* Definition of terms The "target section" defined in claims 1 and 8 is, for example, 2
One time may be specified by specifying one time, or one time may be specified, such as from a certain time to the most recent time (from the beginning to a certain time). )), It is a concept that also includes "time".

【0025】キーワード抽出手段は、キーワードを抽出
する機能と重要度を求める機能をそれぞれ別々の処理部
で実現するようにしてもよく、係る場合には、それら複
数の処理部全体で本発明でいうキーワード抽出手段とな
る。
The keyword extracting means may realize the function of extracting the keyword and the function of determining the importance in separate processing units. In such a case, the plurality of processing units are referred to in the present invention as a whole. Keyword extraction means.

【0026】[0026]

【発明の実施の形態】まず、本発明の実施の形態の具体
的な構成を説明する前に、概念的な実施の形態を説明す
る。一般にある文書がユーザーにとって興味対象となる
文書であるか否かを自動的に判断する場合には、判断対
象の文書中のキーワードを抽出し、そのキーワードを予
め作成した辞書(キーワード)と比較して一致度を求
め、その一致度の大小に基づいて判断することができ
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Before describing a specific configuration of an embodiment of the present invention, a conceptual embodiment will be described. Generally, when automatically determining whether or not a document is a document of interest to a user, a keyword in the document to be determined is extracted, and the keyword is compared with a dictionary (keyword) created in advance. Thus, the degree of coincidence can be obtained, and the judgment can be made based on the magnitude of the degree of coincidence.

【0027】この時、まず文書中にあらわれるキーワー
ドを抽出する時において、時間軸をとり、その時点での
時間と抽出されたキーワード集合を記憶する(図1参
照)。そして、ある時点Aとある時点Bを指定し、その
区間でのキーワードの重要度を累計することにより、ユ
ーザーの興味対象となる文書、あるいは、その逆となる
文書を表わすことができる。また、新規文書の読込み時
に、過去のキーワード集合から、この文書が、ユーザー
の興味対象となる文書あるいは、その逆である文書かを
表わすことができる。なお、以下に示す実施の形態で
は、ユーザーが受け取った文書を電子メール文書として
いるが、同様の処理が、その他の文書でも、可能であ
る。
At this time, when extracting a keyword appearing in a document, a time axis is set, and the time at that time and the extracted keyword set are stored (see FIG. 1). Then, by designating a certain time point A and a certain time point B and accumulating the importance of the keyword in the section, it is possible to represent a document of interest to the user or a document that is the opposite. Also, when a new document is read, it is possible to indicate from a set of past keywords whether the document is a document of interest to the user or vice versa. In the embodiment described below, the document received by the user is an e-mail document. However, the same processing can be performed for other documents.

【0028】本形態では、受信した電子メール文書が、
使用者にとって有意義な文書(興味対象となる文書)で
あるか否かを判断するための装置である。図2は本発明
の好適な第1の実施の形態を示している。同図に示すよ
うに、まず入力側に文書情報の入力部11を設け、この
文書情報の入力部11にて受信した電子メール文書情報
を、次段のキーワード抽出部12及び文書情報とキーワ
ード集合の記憶部13にそれぞれ与えるようになってい
る。また、ここで与える文書情報としては、電子メール
文書自体のみでもよく、それに加えて文書情報の入力時
間やその文書に対するユーザーからの情報(カテゴリー
(興味の有無など))も併せて入力するようにしてもよ
い。なお、入力時間は、ユーザーがマニュアルで入力す
るようにしてもよいが、本発明では係る時間が重要な要
素となるので、文書情報が入力された時に内蔵する時計
をアクセスしてその時の時刻を取得し、それを関連づけ
て記憶部13に与えるようにしてもよい。また、入力時
間は文書が電子メールとすると、その電子メールを受信
した時とするのが最も好ましいが、システムの簡略化並
びに通常の使用状況下では、電子メールの受信時刻と本
装置への文書情報の入力時刻との差があまりないか、あ
ったとしても一定の範囲内であるため、本装置への入力
時刻を格納するようにしている。
In this embodiment, the received e-mail document is
This is a device for determining whether or not the document is meaningful to the user (a document of interest). FIG. 2 shows a first preferred embodiment of the present invention. As shown in the figure, first, a document information input unit 11 is provided on the input side, and the e-mail document information received by the document information input unit 11 is converted into a keyword extraction unit 12 and a To the storage unit 13. The document information to be given here may be only the e-mail document itself. In addition to this, the input time of the document information and information from the user (category (whether or not interested), etc.) for the document should also be input. You may. The input time may be manually input by the user. However, in the present invention, the time is an important factor. Therefore, when the document information is input, a built-in clock is accessed to set the time. You may make it acquire and give it to the memory | storage part 13 in association. When the document is an e-mail, the input time is most preferably the time when the e-mail is received. However, under the simplification of the system and under normal use, the reception time of the e-mail and the Since there is little difference between the information input time and the information input time, if any, the input time to the apparatus is stored.

【0029】キーワード抽出部12は、与えられた電子
メール文書情報(電子メールを構成する文書)のキーワ
ードを抽出するとともにその抽出したキーワードの重要
度を求め、求めたキーワードと重要度を関連づけて文書
情報とキーワード集合の記憶部13に送るようになって
いる。ここでキーワード抽出は、たとえば文書を分かち
書きした後品詞解析を行って名詞のみを抽出し、それを
キーワードとすることができる。また、重要度は、抽出
したキーワード(名詞)の出現頻度等に基づいて求める
(出現頻度が多いものほど重要度は高い)ことができ
る。なお、最終的に登録・保持するキーワードは、抽出
されたもの総てでもよく、或いは求めた重要度が一定の
値以上のものや上位n個のみを最終的なキーワードにす
るなど各種の方法が採れる。なお、係るキーワード抽出
処理等は、文書をデータベース化する際に用いられる各
種の自動キーワード抽出法を適用できる。
The keyword extracting section 12 extracts the keywords of the given electronic mail document information (documents constituting the electronic mail), obtains the importance of the extracted keywords, associates the obtained keywords with the importance, and associates the obtained keywords with the documents. The information and the keyword set are sent to the storage unit 13. Here, in the keyword extraction, for example, after the document is separated and written, the part of speech is analyzed to extract only the noun, which can be used as a keyword. The importance can be determined based on the frequency of appearance of the extracted keywords (nouns) (the higher the frequency of appearance, the higher the importance). It should be noted that the keywords to be finally registered and held may be all extracted ones, or various methods such as those having a determined importance of a certain value or more or only the top n keywords may be used as final keywords. Can be taken. Note that, for such keyword extraction processing and the like, various automatic keyword extraction methods used when making a document into a database can be applied.

【0030】文書情報とキーワード集合の記憶部13
は、文書情報の入力時間を含めた文書情報およびキーワ
ード抽出部12で抽出されたキーワード(重要度付)を
関連づけて記憶する。なお、文書情報の入力部11によ
り、ユーザーの興味やその逆を表わすカテゴリーなどが
指定されている場合には、記憶部13へはカテゴリーご
とに分類して所定の情報を記憶する。
Document Information and Keyword Set Storage Unit 13
Stores the document information including the input time of the document information and the keyword (with importance) extracted by the keyword extracting unit 12 in association with each other. When a category indicating the user's interest or vice versa is specified by the document information input unit 11, the storage unit 13 stores predetermined information classified into each category.

【0031】一方、入力手段として文書情報に対する時
間キー入力部14を備えており、この時間キー入力部1
4は、新規文書に対して評価を行う際の知識データを生
成する際の対象期間としての時間情報を入力するもの
で、その時間情報が次段の文書情報とキーワード集合の
抽出部15に与えられる。この文書情報とキーワード集
合の抽出部15は、与えられた時間情報に基づいて文書
情報とキーワード集合の記憶部13にアクセスし、時間
情報で設定される対象期間内に入力された文書に関する
情報を抽出し、上記知識データを生成するようになって
いる。そして、生成した知識データ(キーワードの累
計)を対象区間内での文書情報記憶部16に格納する。
なお、この対象区間は、デフォルト値としては開始から
現時点までの全区間としておく。
On the other hand, a time key input unit 14 for document information is provided as input means.
Reference numeral 4 denotes input of time information as a target period when generating knowledge data for evaluating a new document. The time information is given to the document information and keyword set extraction unit 15 at the next stage. Can be The document information / keyword set extraction unit 15 accesses the document information / keyword set storage unit 13 based on the given time information, and extracts information on the document input within the target period set by the time information. Extract and generate the knowledge data. Then, the generated knowledge data (total of keywords) is stored in the document information storage unit 16 in the target section.
Note that this target section is set as a default value for all sections from the start to the current time.

【0032】さらに本形態では、評価部17を有し、こ
こにおいて対象区間内での文書情報記憶部16に記憶さ
れたキーワード集合と重要度の累計に基づき、新規に受
信した電子メール文書の評価を行う。すなわち、この評
価部17では、「評価対象の電子メール文書のキーワー
ド(重要度付)」と、「文書情報記憶部16に記憶され
たキーワード集合と重要度の累計」とを比較し、その一
致度をみることによりユーザーにとって興味対象で見る
必要が高いメールか否かを判断する。そこで、本形態で
は、評価対象の電子メール文書も文書情報の入力部11
を介して与えられ、キーワード抽出部12でキーワード
が抽出された後、文書情報とキーワード集合の記憶部1
3に記憶するようにしておく。そして、評価部17は、
両記憶部13,16に格納された評価対象の電子メール
文書のキーワード(重要度付)と、それまでに蓄積され
た文書データに基づいて生成された知識データ(キーワ
ード集合と重要度の累計)を読み出し、比較処理して一
致度を求める。
Further, the present embodiment has an evaluation unit 17 in which a newly received e-mail document is evaluated based on the keyword set and the cumulative importance stored in the document information storage unit 16 within the target section. I do. That is, the evaluation unit 17 compares the “keyword (with importance) of the e-mail document to be evaluated” with the “total of the keyword set and importance stored in the document information storage unit 16” By judging the degree, it is determined whether or not the mail is an object of interest to the user and needs to be viewed. Therefore, in the present embodiment, the e-mail document to be evaluated is also stored in the document information input unit 11.
After the keyword is extracted by the keyword extraction unit 12, the storage unit 1 of the document information and the keyword set
3 is stored. Then, the evaluation unit 17
Keywords (with importance) of the e-mail document to be evaluated stored in both storage units 13 and 16, and knowledge data generated based on document data accumulated up to that time (total of keyword set and importance) Are read and compared to determine the degree of coincidence.

【0033】つまり、知識データが特にカテゴリー分類
されることなく電子メール文書を与えたものに基づいて
生成された場合、キーワード集合に属するキーワードと
一致するものはユーザーにとって興味がある可能性が高
い文書といえる(前提として、有益な興味のある文書を
ユーザーが登録する)。そして、キーワードの中でも重
要度の累計が大きいものほど、興味を有する文書に存在
する可能性の高いキーワードといえる。
In other words, if the knowledge data is generated based on a given electronic mail document without being categorized in particular, a document that matches a keyword belonging to the keyword set is a document that is likely to be of interest to the user. (Assuming that the user registers a document of interest and interest). Then, it can be said that a keyword having a larger cumulative importance among keywords is more likely to be present in a document of interest.

【0034】従って、例えば評価対象の文書から抽出さ
れた重要度の高いキーワードが、知識データにおいても
キーワードとして抽出されしかも重要度の累計も大きい
(一致度が高い)場合には、ユーザーが興味のある文書
らしいと判断できる。逆に評価対象の文書から抽出され
た重要度の高いキーワードが、知識データになかったり
仮にあったとしても重要度の累計が大きい場合には、ユ
ーザーの興味のない文書らしいと判断できる(知識デー
タにない方がより興味のないらしさが高くなる(一致度
が低い))。さらにまた、仮に抽出されたキーワードと
知識データに記憶されたキーワードが一致したとして
も、例えば評価対象の文書において重要度の高いキーワ
ードが知識データでは重要度の累計が小さく、評価対象
の文書において重要度の低いキーワードが知識データで
は重要度の累計が大きいというように、重要度の大小が
逆になっているような文章も一致度は低くなる(なお、
システム設計や実際のユーザーの使用などにあわせて、
係る場合には一致度を高くするようにしてももちろんよ
い)。
Therefore, for example, when a keyword of high importance extracted from a document to be evaluated is also extracted as a keyword in the knowledge data and the cumulative importance is large (high coincidence), the user is interested. You can judge it as a certain document. Conversely, if a keyword of high importance extracted from the document to be evaluated is not present in the knowledge data, or if the cumulative importance is large even if it is present, it can be determined that the document does not interest the user (knowledge data Are more likely to be uninterested (lower match). Furthermore, even if the extracted keywords and the keywords stored in the knowledge data match, for example, a keyword having a high importance in the document to be evaluated has a small cumulative sum of importance in the knowledge data, and an important keyword in the document to be evaluated. A sentence in which the magnitude of the importance is reversed, such as a keyword with a low degree of importance being large in the knowledge data, also has a low degree of matching.
According to the system design and actual user usage,
In such a case, the degree of coincidence may be increased.

【0035】そして、具体的な一致度の算出は、上記し
た事項に鑑み、キーワードと重要度(累計)を総合的に
判断し、ファジィ推論その他の評価方法により求めても
よく、或いは単純に同一のキーワードの重要度(評価文
書)と重要度の累計(過去の文書に基づく知識データ)
とを乗算し、得られた値の総和を求め、その総和が大き
いものほど一致度が高いとしたり、上記乗算する際に、
片方にしかキーワードがない場合には、その値を0にし
たり或いは減算対象にしたりするなど各種の方法が採れ
る。そして、本発明における評価部の処理としては、こ
れらの演算処理に限られないのはもちろんである。
The specific degree of coincidence may be calculated in view of the above-mentioned matters by comprehensively judging the keyword and the degree of importance (cumulative), and may be obtained by fuzzy inference or another evaluation method, or simply the same. Importance of keywords (evaluation documents) and cumulative importance (knowledge data based on past documents)
, And the sum of the obtained values is obtained, and the larger the sum is, the higher the matching degree is.
When there is only one keyword, various methods such as setting the value to 0 or making the value a subtraction target can be adopted. The processing of the evaluation unit in the present invention is not limited to these arithmetic processing.

【0036】そして、その評価部17で得られた評価結
果と電子メール文書およびその文書情報を、出力部18
を介して出力するようになっている。この出力部18と
してはCRTなどのディスプレイ(表示装置)であった
り、プリンタなどの印刷装置であったりする。
The evaluation result obtained by the evaluation unit 17 and the e-mail document and the document information are output to an output unit 18.
Is output via. The output unit 18 is a display (display device) such as a CRT or a printing device such as a printer.

【0037】次に上記構成の装置の使用方法・作用を説
明しつつ、各部の詳細な説明をする。
Next, each part will be described in detail while explaining the method of use and operation of the apparatus having the above configuration.

【0038】*文書情報収集工程 未知の文書を評価するために必要な知識を生成する前準
備として、受信した電子メール文書についての文書情報
の収集を行う。具体的には、図3に示すように、まず文
書情報の入力部11を用いて受信した文書メールの文書
情報(文書+入力時間等)を入力する(ST1)。この
入力処理は、通常の使用状況下では、電子メールを受信
する都度、或いは電子メールをダウンロードしておき、
一定の期間ごとに一括して入力するなど各種の方法が採
れる。このようにすることにより、時間の経過ととも
に、情報が蓄積され、精度のよい評価・判定が行える。
Document Information Collection Step As a preparation for generating knowledge necessary for evaluating an unknown document, document information on a received electronic mail document is collected. Specifically, as shown in FIG. 3, first, the document information (document + input time, etc.) of the received document mail is input using the document information input unit 11 (ST1). In this input process, under normal usage conditions, every time an e-mail is received or an e-mail is downloaded,
Various methods can be adopted, such as inputting all at once for a certain period. By doing so, information is accumulated with the passage of time, and accurate evaluation and determination can be performed.

【0039】次に、キーワード抽出部12にて与えられ
た文書情報のキーワードの出現頻度などにより、各キー
ワードごとの重要度を算出し、文書入力時点での時刻に
対するキーワード集合を生成する。そして生成したキー
ワード集合と時刻を含む文書情報を記憶文書情報とキー
ワード集合の記憶部13に格納する(ST3)。これに
より、情報収集工程が完了する。なお、ユーザーの興味
あるいは、その逆を表わすカテゴリーを指定していれ
ば、カテゴリーごとに文書情報記憶を生成する。そし
て、上記したステップ1〜ステップ3は、新規文書を入
力するごとに繰り返され、時系列的に文書情報とキーワ
ード集合の記憶部13に記憶される。
Next, the keyword extraction unit 12 calculates the importance of each keyword based on the frequency of appearance of the keyword in the document information provided, and generates a keyword set for the time at the time of inputting the document. Then, the generated document information including the keyword set and the time is stored in the storage unit 13 of the stored document information and the keyword set (ST3). Thereby, the information collecting step is completed. If a category indicating the user's interest or the reverse is specified, a document information storage is generated for each category. Steps 1 to 3 described above are repeated each time a new document is input, and are stored in the storage unit 13 of the document information and the keyword set in chronological order.

【0040】*知識データ生成工程 この工程は、上記文書情報収集工程を経て記憶された文
書情報から、未知の電子メールに対する評価を行う基準
となる知識データを生成するものである。具体的には、
図4に示すように、文書情報に対する時間キー入力部1
4を用いて時間軸上のある時点、あるいは、ある区間を
指定する(ST5)。
* Knowledge data generation step This step is to generate, from the document information stored through the above-mentioned document information collection step, knowledge data which is a reference for evaluating an unknown electronic mail. In particular,
As shown in FIG. 4, a time key input unit 1 for document information
4, a certain point on the time axis or a certain section is designated (ST5).

【0041】その指定された区間をキーにして、文書情
報とキーワード集合の記憶部13に記憶された情報をサ
ーチし、該当する区間内に記憶された文書情報とキーワ
ードを抽出する(ST6)。
Using the designated section as a key, the document information and the information stored in the keyword set storage unit 13 are searched, and the document information and keywords stored in the corresponding section are extracted (ST6).

【0042】次いで、抽出されたすべてのキーワードに
付された重要度の累計を求め、その区間におけるキーワ
ードとその求めた累計を関連づけて対象区間内での文書
情報記憶部16に登録する(ST7)。この累計は、例
えば同一のキーワードに付された重要度の総和を求める
とともに、その総和を抽出された文書の総数で除算する
というように単純に平均値を求めてもよく、その他各種
の方法を用いることができる。そして、係る累計の算出
はすべてのキーワードについて行う。
Next, the total of the importance assigned to all the extracted keywords is obtained, and the keyword in the section and the obtained total are associated with each other and registered in the document information storage section 16 in the target section (ST7). . This sum may be obtained by simply calculating the average value, for example, by calculating the sum of the degrees of importance assigned to the same keyword and dividing the total by the total number of extracted documents. Can be used. The calculation of the total is performed for all the keywords.

【0043】この処理の一例を示すと、以下のようにな
る。まず、文書情報とキーワード集合の記憶部13の内
部のデータ構造は、図5に示すように、文書を特定する
文書名と、その電子メール文書を入力した日時と、キー
ワード(重要度付)を関連づけて格納しているものとす
る。なお、具体的な文書の内容もあわせて格納するよう
にしてもよいし、或いは他の記憶エリアに格納してお
き、文書名などをキーにリンク付けをしてもよい。そし
て図では「A1,D1,D13」の3つの文書が示され
ているが、それ以外の文書も格納されている。
An example of this processing is as follows. First, as shown in FIG. 5, the data structure inside the storage unit 13 of the document information and the keyword set includes a document name for specifying the document, a date and time when the e-mail document is input, and a keyword (with importance). It is assumed that they are stored in association with each other. The specific contents of the document may be stored together, or may be stored in another storage area, and the document name or the like may be linked to the key. Although three documents “A1, D1, D13” are shown in the figure, other documents are also stored.

【0044】係る場合に、ステップ5で[1997/0
5/12 01:10〜1997/05/30 00:
00]までの区間を時間キーとして入力したとすると、
図5中「時間」の欄をアクセスし、上記時間キーで特定
される区間内に存在するものを抽出する。これにより、
図6に示すように時間キーで設定された対象区間と、キ
ーワード(重要度の累計)を関連づけて格納する。
In such a case, in step 5, [1997/0
5/12 01:10 to 1997/05/30 00:
00] as a time key,
The “time” column in FIG. 5 is accessed, and the one existing in the section specified by the time key is extracted. This allows
As shown in FIG. 6, a target section set by a time key is associated with a keyword (total importance) and stored.

【0045】*新規電子メール文書の評価工程 新規に電子メールを受信した場合に、図7に示すよう
に、係る新規電子メール文書を文書情報の入力部14を
用いて入力する(ST10)。次いでキーワード抽出部
12が動作し、その文書からキーワードを抽出し、キー
ワード集合を生成する(ST11)。なお、ここまでの
工程は、上記(1)におけるステップ1,2と同じであ
る。
* Evaluation Step of New E-mail Document When a new e-mail is received, as shown in FIG. 7, the new e-mail document is input using the document information input section 14 (ST10). Next, the keyword extracting unit 12 operates, extracts keywords from the document, and generates a keyword set (ST11). The steps so far are the same as steps 1 and 2 in the above (1).

【0046】次に、評価部17が対象区間内での文書情
報記憶部16にアクセスし、ステップ11で生成したキ
ーワード集合(評価文書から抽出したキーワード集合
(重要度付))をキーワード単位で比較し、その文書
が、ユーザーの興味の対象となる文書、あるいは、その
逆となる文書であるかの指標となる一致度を求める(S
T12)。
Next, the evaluation unit 17 accesses the document information storage unit 16 within the target section, and compares the keyword sets generated in step 11 (keyword sets extracted from the evaluation document (with importance)) in keyword units. Then, a degree of coincidence is obtained as an index indicating whether the document is a document of interest to the user or a document opposite thereto (S
T12).

【0047】そして、求めた一致度に基づき、その文書
の分類を行う。すなわち、例えば評価対象の電子メール
文書は、ユーザーにとって興味がわき必要のあるもの
か、逆に興味が無く見る必要のない文書である等を区分
けする。そして、一致度とその分類をあわせて出力部8
に出力する(ST13)。従って、ユーザーの興味対象
あるいは、その逆となる文書であるかを内容を読む前に
知ることができるので、メールを読むか否かの判断を簡
単に行うことができる。
Then, the document is classified based on the obtained degree of coincidence. That is, for example, the e-mail document to be evaluated is classified into a document that the user needs to be interested in, or a document that is not interested and need not be viewed. Then, the output unit 8 matches the degree of coincidence and the classification.
(ST13). Therefore, since it is possible to know before reading the contents whether the document is the object of interest of the user or vice versa, it is possible to easily determine whether or not to read the mail.

【0048】また、知識データを生成する際に文書とと
もにカテゴリーも入力していた場合には、知識データも
カテゴリーごとに分離形成されるので、一致度の算出も
各カテゴリーごとに行うことになる。そして、最も一致
度の高いカテゴリーに属する可能性が高いと判断し、当
該カテゴリーに属する文書と分類できる。
If a category is input together with a document when generating the knowledge data, the knowledge data is also separated and formed for each category, so that the degree of coincidence is calculated for each category. Then, it is determined that there is a high possibility that the document belongs to the category with the highest matching degree, and the document can be classified as a document belonging to the category.

【0049】そのようにした場合には、例えばカテゴリ
ーが仕事,趣味,プライベート等とすると、電子メール
の内容のおおよその見当がつき、すぐに見た方がよいか
後で見ても大丈夫かの判断をしやすくなる。また、カテ
ゴリー分類が、興味のある/ないとすると、どちらのカ
テゴリーの一致度が高いかにより評価対象の電子メール
文書が、興味のあるものか否かを直接的に判断できる。
しかも、どちらのカテゴリーに対する一致度も低い場合
には、現在、話題の中心となっている文書あるいは、め
ずらしい話題の文書等である可能性が高いと判断するこ
ともできる。
In such a case, if the category is, for example, work, hobby, private, or the like, an approximate idea of the contents of the e-mail can be obtained, and whether the contents should be viewed immediately or at a later time is acceptable. Makes judgment easier. If the category classification is interesting or not, it is possible to directly determine whether the e-mail document to be evaluated is of interest based on which category has a high degree of matching.
In addition, when the degree of coincidence with either category is low, it can be determined that there is a high possibility that the document is a document that is currently the center of a topic or a document with an unusual topic.

【0050】また、適合するメールが多い場合、各属性
ごとに出力表示することにより、分類して表示すること
ができる。さらにまた、この実施の形態に検索機能を付
加した場合、問合わせキーワードへの重みづけにユーザ
ーの現在の興味度などを加えることで、よりユーザー個
々人の時間的な興味の推移に応じた検索が可能となる。
さらには、この実施の形態に要約機能を付加した場合に
ついても、上記と同様によりユーザー個々人の時間的な
興味の推移に応じた要約が可能となる。
When there are many matching e-mails, they can be classified and displayed by outputting and displaying each attribute. Furthermore, when a search function is added to this embodiment, by adding the current degree of interest of the user to the weight of the query keyword, a search in accordance with the temporal transition of the interest of each user can be performed. It becomes possible.
Furthermore, also in the case where a summary function is added to this embodiment, it is possible to summarize according to the temporal interest transition of each user in the same manner as described above.

【0051】図8は、本発明の第2の実施の形態を示し
ている。ユーザーが受け取った電子メール文書中のキー
ワード集合は、時間軸とともに変化する。そこで、上記
した第1の実施の形態においては、文書ごとのキーワー
ド集合すべてを記憶し、必要に応じて時間キーを入力し
てある時間区間におけるキーワード(重要度の累計付)
を求め、知識を形成するようにしていた。そのため、開
始からの経過時間が長くなると、記憶する文書数も多く
なるため、文書情報とキーワード集合の記憶部13の記
憶容量も大きなものが必要となる。
FIG. 8 shows a second embodiment of the present invention. The set of keywords in the email document received by the user changes over time. Therefore, in the above-described first embodiment, all the keyword sets for each document are stored, and a keyword in a time section in which a time key is input as necessary (with the cumulative importance) is stored.
To form knowledge. Therefore, if the elapsed time from the start is long, the number of documents to be stored is also large, so that a large storage capacity of the document information and keyword set storage unit 13 is required.

【0052】そこで本実施の形態においては、ユーザー
が受け取った文書中のキーワード集合を随時累計してい
くことにより、単に、新規情報を追加することに比べ、
記憶容量の削減を図ることができる。これらのキーワー
ド集合において、頻繁に現れるキーワードについては、
よく議論されているととらえることができる。また、時
間とともに、しだいに現れなくなったキーワードについ
ては、重要度を下げていくことより、忘却機能を与える
ことができる。
Therefore, in the present embodiment, the keyword sets in the document received by the user are accumulated as needed, so that the user is not required to simply add new information.
The storage capacity can be reduced. For keywords that appear frequently in these keyword sets,
It can be considered that it is well discussed. In addition, a keyword that gradually disappears over time can be given a forgetting function by reducing its importance.

【0053】ここで具体的な構成の説明をする前に、概
念(イメージ)を説明する。まず、新規電子メール文書
が入力されるごとに、次の(1)と(2)の特徴をとら
え、その電子メールの文書が、どちらに属するかの評価
を行い分類出力する。 (1)ユーザーに必要あるいは、興味のある文書 (2)不要あるいは、興味のない文書 また、随時、文書情報であるキーワード集合とその重要
度を累計することにより、すべての文書ごとのキーワー
ドを記憶する必要がなくなるので、記憶容量を小さくで
きるとともに、新規文書の特徴を次の文書に対する評価
に反映することができる。
Before describing a specific configuration, the concept (image) will be described. First, each time a new e-mail document is input, the following features (1) and (2) are captured, the e-mail document is evaluated to which it belongs, and classified and output. (1) Documents that are necessary or interesting for the user (2) Documents that are not necessary or not interesting Also, at any time, a keyword set as document information and its importance are accumulated to store keywords for each document. Therefore, the storage capacity can be reduced, and the characteristics of the new document can be reflected in the evaluation of the next document.

【0054】次に、具体的な構成について説明する。図
8に示すように、新規の電子メール文書は文書情報の入
力部21を介してキーワード抽出部22に与えられ、そ
こにおいてキーワードを抽出するとともに、出現頻度等
を用いて各キーワードの重要度を求める。これら入力部
21とキーワード抽出部22は、基本的に第1の実施の
形態における入力部11とキーワード抽出部12と同様
のものを用いることができる。
Next, a specific configuration will be described. As shown in FIG. 8, a new e-mail document is provided to a keyword extracting unit 22 via a document information input unit 21, where the keywords are extracted and the importance of each keyword is determined using an appearance frequency or the like. Ask. The input unit 21 and the keyword extraction unit 22 can be basically the same as the input unit 11 and the keyword extraction unit 12 in the first embodiment.

【0055】そして、キーワード抽出部22で抽出され
たキーワード(重要度付き)は評価部23と知識更新部
25に与えられる。この評価部23では文書情報記憶部
24に格納された今までに与えられた文書情報から生成
した知識データに基づいて評価対象の新規電子メール文
書に対する評価(ユーザーの興味対象となるか否かな
ど)を行う。また知識更新部25では、次回の評価に備
えて新規文書について求めたキーワード集合と重要度お
よび時刻を含む文書情報を、過去に記憶された文書情報
に累計して新たな知識データを生成し、文書情報記憶部
24を更新するようになっている。
The keywords (with importance) extracted by the keyword extracting unit 22 are provided to the evaluation unit 23 and the knowledge updating unit 25. The evaluation unit 23 evaluates a new e-mail document to be evaluated based on the knowledge data generated from the document information provided so far stored in the document information storage unit 24 (for example, whether or not the document is of interest to the user). )I do. In addition, the knowledge updating unit 25 generates new knowledge data by accumulating the document information including the keyword set, the importance, and the time obtained for the new document in preparation for the next evaluation to the document information stored in the past, The document information storage unit 24 is updated.

【0056】さらに評価部23では、新規の文書につい
て求めた評価結果、すなわち、ユーザーの興味の対象に
なる文書であるか否かを出力部25を用いて出力するよ
うになっている。
Further, the evaluation unit 23 uses the output unit 25 to output the evaluation result obtained for the new document, that is, whether or not the document is of interest to the user.

【0057】次に、本実施の形態の要部となる知識更新
部26の機能について説明する。新規電子メール文書が
入力され、その文書中から抽出されたキーワードAの重
要度を下記の式に入力することで、文書情報記憶部に記
憶するキーワードAの重要度を求める。
Next, the function of the knowledge updating unit 26, which is a main part of the present embodiment, will be described. A new electronic mail document is input, and the importance of keyword A extracted from the document is input to the following equation, thereby obtaining the importance of keyword A stored in the document information storage unit.

【0058】[0058]

【数1】 このことにより、新規電子メール文書で抽出されないキ
ーワードは、上記した式の右辺の分母の第2項が0とな
るので、文書情報記憶部中の重要度のほぼ半分が新規に
更新される際のそのキーワードの重要度となる。従っ
て、使用頻度が下がってきたあるいは、使われなくなっ
たキーワードに対する重要度は、小さくなっていく機
能、つまり、忘却機能を実現することが可能となる。ま
た、仮にキーワードとして抽出されていても、その抽出
された重要度の増減によって新規に更新される際のキー
ワードの重要度も増減する。これにより、頻繁に使用さ
れるキーワードで、しかも最近受信した電子メール文書
中の重要度が増加する傾向にあるものは、最近興味が増
してきたものと判断でき、知識データとして格納される
キーワードの重要度も増すように作用する。
(Equation 1) As a result, for keywords that are not extracted in the new e-mail document, the second term of the denominator on the right side of the above equation becomes 0, so that almost half of the importance in the document information storage unit is newly updated. It becomes the importance of the keyword. Therefore, it becomes possible to realize a function of decreasing the importance of a keyword whose use frequency has decreased or is no longer used, that is, a forgetting function. Even if the keyword is extracted as a keyword, the importance of the keyword when newly updated is increased or decreased according to the increase or decrease in the extracted importance. As a result, frequently used keywords that have a tendency to increase in importance in recently received e-mail documents can be determined to have recently increased interest, and keywords that are stored as knowledge data can be determined. It works to increase the importance.

【0059】そして、具体例を示すと、まず、新規文書
入力直前の文書情報記憶部24に格納されたデータが、
図9(A)に示すようになっているとする。次に、新規
文書が入力され、キーワード抽出部22により次のよう
なキーワード集合が生成されたとする。いずれも()の
中がその新規文書におけるキーワードの重要度である。
As a specific example, first, the data stored in the document information storage unit 24 immediately before the input of a new document is:
It is assumed that the state is as shown in FIG. Next, it is assumed that a new document is input and the following keyword set is generated by the keyword extracting unit 22. In each case, the value in parentheses is the importance of the keyword in the new document.

【0060】[0060]

【表1】 すると、知識更新部25では、キーワード抽出部22か
ら出力される上記キーワード集合(重要度付)を受け取
るとともに、文書情報記憶部24にアクセスしてそこに
格納された現在の知識データを取得し、各キーワードに
対して、累計演算を施し、新たな重要度を求める。その
累計演算の一例を示すと、キーワード「ペルー」の場合
には、
[Table 1] Then, the knowledge update unit 25 receives the keyword set (with importance) output from the keyword extraction unit 22 and accesses the document information storage unit 24 to acquire the current knowledge data stored therein. A cumulative operation is performed on each keyword to obtain a new importance. As an example of the cumulative calculation, in the case of the keyword "Peru",

【0061】[0061]

【数2】 となる。(Equation 2) Becomes

【0062】同様に、新規文書でキーワードとして抽出
されなかった「フジモリ」の場合には、
Similarly, in the case of “Fujimori” which is not extracted as a keyword in a new document,

【0063】[0063]

【数3】 となる。(Equation 3) Becomes

【0064】その他のキーワードも同様に計算すること
により、各キーワードについての重要度を求め、その求
めた新たなキーワード集合(重要度付)を文書情報記憶
部24に格納する。その結果、同図(B)に示すように
更新される。ここで、キーワード「人質」の重要度は下
がり、話題の中心となるキーワード「青木」の重要度が
上がる。なお、上記した説明では、評価部23と知識更
新部25を別構成にしたが、使用する情報(データ)は
同じであるので、1つの処理部で処理を行うように構成
してももちろんよい。
By calculating the other keywords in the same manner, the importance of each keyword is obtained, and the obtained new keyword set (with importance) is stored in the document information storage unit 24. As a result, it is updated as shown in FIG. Here, the importance of the keyword “hostage” decreases, and the importance of the keyword “Aoki”, which is the center of the topic, increases. In the above description, the evaluation unit 23 and the knowledge update unit 25 are configured separately, but the information (data) used is the same, so that the processing may be performed by one processing unit. .

【0065】次に、上記した装置を用いた作用である本
発明に係る方法の実施の形態について説明する。前提と
して、すでに過去に文書情報が入力されており、文書情
報記憶部24にはキーワード集合(重要度付)が登録さ
れているものとする。図11に示すフローチャートのよ
うに、まず、新規文書情報が入力される(ST21)。
これを受けてキーワード抽出部22では各キーワードに
対する重要度を出現頻度などにより算出し評価部23に
送る(ST22)。評価部23では、与えられた新規文
書についてのキーワード(重要度付)と過去に与えられ
た文書情報に基づいて生成された知識データを用いて、
キーワード単位で比較することにより、その新規文書が
ユーザーの興味の対象となる文書、あるいは、その逆と
なる文書であるかを評価する(ST23)。また、知識
更新部25にて、新規文書に基づくキーワード集合(重
要度付)を加味・累計して新たな知識データを生成し、
文書情報の記憶部24に追加・更新する(ST24)。
一方、上記の評価結果をもとに、ユーザーの興味ごと
に、分類出力する(ST25)。
Next, an embodiment of the method according to the present invention, which is an operation using the above-described apparatus, will be described. It is assumed that document information has already been input in the past, and a keyword set (with importance) has been registered in the document information storage unit 24. As in the flowchart shown in FIG. 11, first, new document information is input (ST21).
In response to this, the keyword extraction unit 22 calculates the importance for each keyword based on the appearance frequency or the like, and sends it to the evaluation unit 23 (ST22). The evaluation unit 23 uses the keyword (with importance) for the given new document and the knowledge data generated based on the document information given in the past,
By making a comparison on a keyword-by-keyword basis, it is evaluated whether the new document is a document of interest to the user or a document opposite thereto (ST23). In addition, the knowledge updating unit 25 generates and adds new knowledge data by adding and accumulating a keyword set (with importance) based on the new document,
It is added to and updated in the document information storage unit 24 (ST24).
On the other hand, based on the above-mentioned evaluation result, classification output is performed for each user's interest (ST25).

【0066】なお、上記した処理フローは、新規文書を
入力するごとに随時繰り返され、文書情報の記憶部の知
識データを更新する。
The above-described processing flow is repeated as needed each time a new document is input, and updates the knowledge data in the document information storage unit.

【0067】以上の構成により、随時、ユーザーの興味
対象あるいは、その逆となる文書、または、現在、話題
の中心となっている文書あるいは、めずらしい話題の文
書かを表わすことができる。そして、文書情報記憶部に
は、新規情報を累計していくことにより、単に、新規情
報を追加することに比べ、記憶容量が膨大になりすぎる
ことを防ぐことができる。また、このことにより、文書
情報記憶部へのアクセス処理速度の負荷を軽減すること
ができる。
With the above configuration, it is possible to indicate, at any time, a document that is the object of interest of the user or the opposite, a document that is currently the main topic, or a document with a rare topic. By accumulating new information in the document information storage unit, it is possible to prevent the storage capacity from becoming excessively large as compared with simply adding new information. Thus, the load on the access processing speed to the document information storage unit can be reduced.

【0068】図11は、本発明の第3の実施の形態を示
している。本実施の形態では、第1の実施の形態で生成
された文書情報記憶部16に格納された知識データを用
い、2つ以上の対象区間同士を比較することにより、ユ
ーザーの文書情報(ユーザーの興味)の推移を表わす機
能を付加している。係る推移を求めるのが、ユーザーの
興味推移算出部19であり、求めた結果を出力部18に
出力する。
FIG. 11 shows a third embodiment of the present invention. In the present embodiment, two or more target sections are compared with each other by using the knowledge data stored in the document information storage unit 16 generated in the first embodiment, so that the user's document information (user's A function to show the transition of interest) is added. It is the user's interest transition calculating unit 19 that calculates the transition, and outputs the calculated result to the output unit 18.

【0069】本実施の形態の意図を理解しやすくするた
めに、具体例をあげつつ説明する。まず、ユーザーの先
月と今月の興味を表わすキーワードが、以下のようにな
っているものとする。
In order to make it easier to understand the intent of this embodiment, a specific example will be described. First, it is assumed that the keywords indicating the interests of the user last month and this month are as follows.

【0070】[0070]

【表2】 係る区間は、例えば文書情報に対する時間キー入力部1
4からユーザーが推移を見たいと思う2つの区間を指定
することにより行える。また、例えば先月と先々月とい
うように予め推移を見る区間を特定しておくことによ
り、自動的に入力するようにしてもよい。
[Table 2] The section is, for example, a time key input unit 1 for document information.
4 can be performed by designating two sections where the user wants to see the transition. Alternatively, the input may be automatically input by specifying in advance a section whose transition is to be viewed, such as last month and two months before.

【0071】推移算出部19では、比較する2つの区間
のキーワード集合(重要度付)を取得し、文書検索技術
分野において利用されるベクトル空間法によりそれぞれ
の区間についてのキーワードベクトルを求める。これに
より、図12中(1),(2)で示すようなグラフが求
められるので、(1)のキーワードベクトルから(2)
のキーワードベクトルにユーザーの興味が推移したこと
がわかる。そして、例えば係るグラフを出力部18に出
力することができる。
The transition calculating unit 19 acquires a keyword set (with importance) of two sections to be compared, and obtains a keyword vector for each section by a vector space method used in the field of document search technology. As a result, graphs as shown in (1) and (2) in FIG. 12 are obtained, and (2) is obtained from the keyword vector of (1).
It turns out that the interest of the user has shifted to the keyword vector of. Then, for example, such a graph can be output to the output unit 18.

【0072】また、上記のように2つの区間のみでな
く、3つ以上の区間にてキーワード集合体を求めてお
き、各区間のキーワードベクトルを求めることにより、
時間の経過によりどのようにユーザーの興味が推移して
いったかがより明確にわかり、さらには今後の推移の予
測を行うことにより、例えば来月のキーワードベクトル
の存在予測をし、対象区間内での文書情報記憶部16に
予測したキーワード集合(重要度付)を格納し、評価部
17における評価は、係る予測した知識データ(キーワ
ード集合)に基づいて行うようにすることもできる。
Further, as described above, a keyword aggregate is obtained not only in two sections but also in three or more sections, and a keyword vector in each section is obtained.
It is clearer how the interest of the user has changed over time, and by predicting future changes, for example, we will predict the presence of the keyword vector next month, The predicted keyword set (with importance) is stored in the document information storage unit 16, and the evaluation in the evaluation unit 17 can be performed based on the predicted knowledge data (keyword set).

【0073】以上、対象区間同士でのキーワード集合を
比較することにより、ユーザーの興味あるいは、その逆
の時間的な推移を抽出することができ、ユーザーの話題
の時間的な推移を抽出することができ、ユーザーの共通
の話題を抽出することができ、ある時点からある時点ま
でで、現れなかった目新しいキーワードを抽出し、それ
をもとに、目新しい文書を抽出することができる等のユ
ーザーの推移を表わすことができる。
As described above, by comparing the keyword sets in the target sections, it is possible to extract the user's interest or the reverse temporal transition, and to extract the user's topic temporal transition. Users can extract common topics of users, extract novel keywords that did not appear from a certain point in time, and extract new documents based on them. Can be represented.

【0074】上記した各実施の形態は、いずれも装置に
組み込んだ状態を前提として説明したが、上記した各処
理をコンピュータに実行させるためのプログラムとし、
係るプログラムは所定の記録媒体に記録して提供するよ
うにしてもよい。一例を示すと、図3,図4,図7,図
11に示すフローチャートの各処理ステップを実行する
ためのプログラムであったり、ユーザーの興味推移算出
を行うプログラムであったりする。そして、上記した記
録媒体に記録するプログラムは、各フローチャートをす
べて実行するためのプログラムではなく、例えば図3の
フローチャートを実行するためのプログラムのみという
ように、一部でもよい。
Each of the above-described embodiments has been described on the premise that each of the above-described embodiments is incorporated in a device. However, a program for causing a computer to execute each of the above-described processes is provided.
Such a program may be recorded on a predetermined recording medium and provided. For example, the program may be a program for executing each processing step of the flowcharts shown in FIGS. 3, 4, 7, and 11, or may be a program for calculating a user's interest transition. The program to be recorded on the recording medium described above may not be a program for executing all the flowcharts, but may be a part such as, for example, only a program for executing the flowchart of FIG.

【0075】図13,図14に示すように、記録媒体と
しては、フロッピーディスク(FD)30やCD−RO
M31などがあり、係る記録媒体30,31に格納され
たプログラムは、FDドライブ32やCD−ROMドラ
イブ33を介してコンピュータ34に接続された(内蔵
された)HDユニット35にインストールされ、これに
より、コンピュータ34は、上記した各実施の形態で説
明した装置を構成することになる。具体的には、各実施
の形態における記憶部13,16,24などは、HDユ
ニット35により実現され、各抽出部12,15,22
や評価部17,23,知識更新部25,ユーザーの興味
推移算出部19は、例えば使用の都度HDユニット35
から内部メモリ36に転送され、そこにおいて各種処理
を高速に行うことができる。また、文書情報の入力部1
1,21は、キーボード37やモデム38等により実現
され、時間キー入力部14はキーボード37等により実
現される。さらに、出力部18,26は、図示の例では
CRTディスプレイ(表示装置)39に対応するが、プ
リンタその他各種の出力装置を用いることができる。
As shown in FIGS. 13 and 14, the recording medium is a floppy disk (FD) 30 or a CD-RO.
M31, etc., and the programs stored in the recording media 30, 31 are installed in an HD unit 35 connected (built-in) to a computer 34 via an FD drive 32 or a CD-ROM drive 33. The computer 34 constitutes the device described in each of the above embodiments. Specifically, the storage units 13, 16, 24 and the like in each embodiment are realized by the HD unit 35, and the extraction units 12, 15, 22
And the evaluation units 17 and 23, the knowledge updating unit 25, and the user's interest transition calculating unit 19, for example, each time the HD unit 35 is used.
Is transferred to the internal memory 36, where various processes can be performed at high speed. A document information input unit 1
1 and 21 are realized by a keyboard 37 and a modem 38, and the time key input unit 14 is realized by the keyboard 37 and the like. Further, the output units 18 and 26 correspond to a CRT display (display device) 39 in the illustrated example, but a printer or other various output devices can be used.

【0076】[0076]

【発明の効果】以上のように、本発明に係る文書処理方
法及び装置並びに記録媒体では、従来の文書特徴量に加
え、時間的要素を加味することにより、ユーザーの興味
対象等が変化してもそれに追従して知識データを変更
し、精度のよい判断を行うことができ、また、ユーザー
の興味対象やその逆が時間とともにどのように推移して
いったかを検出することができる。
As described above, in the document processing method and apparatus and recording medium according to the present invention, the user's interests and the like are changed by taking into account the time factor in addition to the conventional document feature amount. Following this, the knowledge data can be changed, accurate judgment can be made, and how the object of interest of the user and vice versa change over time can be detected.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態の概念を説明する図
である。
FIG. 1 is a diagram for explaining the concept of a first embodiment of the present invention.

【図2】本発明の第1の実施の形態を示すブロック図で
ある。
FIG. 2 is a block diagram showing a first embodiment of the present invention.

【図3】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
FIG. 3 is a flowchart illustrating a part of the operation of the apparatus according to the first embodiment.

【図4】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
FIG. 4 is a flowchart illustrating a part of the operation of the apparatus according to the first embodiment.

【図5】文書情報とキーワード集合の記憶部13のデー
タ構造と登録されたデータの一例を示す図である。
FIG. 5 is a diagram illustrating an example of a data structure of document information and a keyword set storage unit 13 and registered data.

【図6】対象区間内での文書情報記憶部16のデータ構
造と登録されたデータの一例を示す図である。
FIG. 6 is a diagram illustrating an example of a data structure of a document information storage unit 16 and registered data in a target section.

【図7】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
FIG. 7 is a flowchart illustrating a part of the operation of the apparatus according to the first embodiment.

【図8】本発明の第1の実施の形態を示すブロック図で
ある。
FIG. 8 is a block diagram showing a first embodiment of the present invention.

【図9】文書情報記憶部24のデータ構造と登録された
データの一例を示す図で、(A)が更新前で(B)が更
新後のデータをそれぞれ示す図である。
9A and 9B are diagrams illustrating an example of a data structure of a document information storage unit and registered data, wherein FIG. 9A illustrates data before update and FIG. 9B illustrates data after update, respectively.

【図10】第2の実施の形態の装置の動作を説明するフ
ローチャートである。
FIG. 10 is a flowchart illustrating an operation of the device according to the second embodiment.

【図11】本発明の第3の実施の形態を示すブロック図
である。
FIG. 11 is a block diagram showing a third embodiment of the present invention.

【図12】第3の実施の形態におけるユーザーの興味推
移算出部の機能を説明する図である。
FIG. 12 is a diagram illustrating a function of a user interest transition calculating unit according to the third embodiment.

【図13】本発明に係る記録媒体を実施するシステム構
成を示す図である。
FIG. 13 is a diagram showing a system configuration for implementing a recording medium according to the present invention.

【図14】本発明に係る記録媒体を実施するシステム構
成を示す図である。
FIG. 14 is a diagram showing a system configuration for implementing a recording medium according to the present invention.

【符号の説明】[Explanation of symbols]

11 文書情報の入力部 12 キーワード抽出部 13 文書情報とキーワード集合の記憶部 14 文書情報に対する時間キー入力部 15 文書情報とキーワード集合の抽出部 16 対象区間内での文書情報記憶部 17 評価部 18 出力部 19 ユーザーの興味推移算出部 21 文書情報の入力部 22 キーワード抽出部 23 評価部 24 文書情報記憶部 25 知識更新部 26 出力部 30 FD(記録媒体) 31 CD−ROM(記録媒体) 11 Document Information Input Unit 12 Keyword Extraction Unit 13 Document Information and Keyword Set Storage Unit 14 Time Key Input Unit for Document Information 15 Document Information and Keyword Set Extraction Unit 16 Document Information Storage Unit in Target Section 17 Evaluation Unit 18 Output unit 19 User interest transition calculation unit 21 Document information input unit 22 Keyword extraction unit 23 Evaluation unit 24 Document information storage unit 25 Knowledge update unit 26 Output unit 30 FD (recording medium) 31 CD-ROM (recording medium)

───────────────────────────────────────────────────── フロントページの続き (72)発明者 呉 亜棟 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Kure A-Bridge Omron Co., Ltd. 10 Hanazono Todocho, Ukyo-ku, Kyoto-shi, Kyoto

Claims (21)

【特許請求の範囲】[Claims] 【請求項1】 与えられた文書中からキーワードを抽出
し、 前記文書内での前記キーワードの重要度を算出し、 前記抽出されたキーワード及び重要度と、前記与えられ
た文書の作成時間情報を含むデータを第1記憶手段に格
納し、 時間軸上の任意の時刻を入力することにより設定される
対象区間に基づいて前記第1記憶手段をアクセスし、前
記第1記憶手段に格納されたデータのうち、前記文書の
作成時間が前記対象区間内に存在する文書についてのキ
ーワードと重要度を抽出するとともに、その抽出したキ
ーワードと重要度に基づいてその対象区間における知識
データを生成し、 その生成された前記対象区間内での知識データを第2記
憶手段に格納することを特徴とする文書処理方法。
1. Extracting a keyword from a given document, calculating the importance of the keyword in the document, and calculating the extracted keyword and importance and the creation time information of the given document. The stored data is stored in the first storage means, the first storage means is accessed based on a target section set by inputting an arbitrary time on the time axis, and the data stored in the first storage means is stored. And extracting a keyword and importance for a document whose creation time of the document is within the target section, and generating knowledge data in the target section based on the extracted keyword and importance. Storing the obtained knowledge data in the target section in a second storage means.
【請求項2】 未知の文書が与えられた場合に、その未
知の文書からキーワード及び重要度を抽出し、 前記抽出した未知の文書のキーワードと重要度を前記第
2記憶手段に格納された知識データと比較し、前記文書
に対する評価を行うようにしたことを特徴とする請求項
1に記載の文書処理方法。
2. When an unknown document is given, a keyword and importance are extracted from the unknown document, and the keyword and importance of the extracted unknown document are stored in the knowledge stored in the second storage unit. 2. The document processing method according to claim 1, wherein said document is evaluated in comparison with data.
【請求項3】 前記文書を与えるに際し、カテゴリーを
関連付けて入力し、 前記第1記憶手段に格納するデータを前記カテゴリーご
とに分けて格納し、 かつ、前記カテゴリーごとに前記知識データを生成する
とともに、前記第2記憶手段にカテゴリーごとに格納す
ることを特徴とする請求項1に記載の文書処理方法。
3. When the document is given, a category is input in association with the category, data to be stored in the first storage unit is stored separately for each category, and the knowledge data is generated for each category. 2. The document processing method according to claim 1, wherein the information is stored in the second storage unit for each category.
【請求項4】 未知の文書が与えられ場合に、その未知
の文書からキーワード及び重要度を抽出し、 その抽出したキーワード及び重要度と、前記第2記憶手
段に格納されたカテゴリーごとの知識データとを比較し
て各カテゴリーに対する一致度を求め、 かつ、前記求めた各カテゴリーに対する一致度に基づい
て未知の文書を分類するようにしたことを特徴とする請
求項3に記載の文書処理方法。
4. When an unknown document is given, a keyword and importance are extracted from the unknown document, and the extracted keyword and importance and knowledge data for each category stored in the second storage unit are extracted. 4. The document processing method according to claim 3, wherein the degree of coincidence for each category is determined by comparing the unknown document with the category based on the determined degree of coincidence for each category.
【請求項5】 異なる対象区間を複数指定し、 指定された複数の対象区間ごとの知識データを生成し、 各知識データの特徴を比較することでユーザーの興味の
推移を求めるようにしたことを特徴とする請求項1〜4
のいずれか1項に記載の文書処理方法。
5. A method of designating a plurality of different target sections, generating knowledge data for each of the plurality of specified target sections, and comparing a characteristic of each knowledge data to obtain a transition of a user's interest. Claims 1-4
The document processing method according to any one of the above.
【請求項6】 与えられた文書中からキーワードを抽出
し、 前記文書内での構造レベルやキーワードの頻度に応じて
前記キーワードの重要度を算出し、 前記抽出したキーワード及び重要度を累積演算によって
過去に与えられた文書に基づいて生成されたキーワード
及び重要度に足し合わせることにより知識データを生成
し、 その生成した知識データを記憶手段に記憶させるように
し、 かつ前記累積演算は、与えられた文書中から抽出された
キーワード及び重要度の影響が大きくなるようにしたこ
とを特徴とする文書処理方法。
6. A keyword is extracted from a given document, the importance of the keyword is calculated according to the structure level and the frequency of the keyword in the document, and the extracted keyword and importance are calculated by cumulative operation. The knowledge data is generated by adding the keyword and the degree of importance generated based on the document given in the past, and the generated knowledge data is stored in the storage means. A document processing method, wherein the influence of a keyword and importance extracted from a document is increased.
【請求項7】 与えられた未知の文書からキーワード及
び重要度を抽出し、 その抽出した前記キーワード及び重要度と前記記憶手段
に格納された累積された知識データとを比較し、前記文
書に対する評価を行うようにしたことを特徴とする請求
項6に記載の文書処理方法。
7. Extracting a keyword and importance from a given unknown document, comparing the extracted keyword and importance with accumulated knowledge data stored in the storage unit, and evaluating the document. 7. The document processing method according to claim 6, wherein
【請求項8】 与えられた文書中からキーワードを抽出
するとともに、前記文書内での前記キーワードの重要度
を算出するキーワード抽出手段と、 前記キーワード抽出手段で抽出されたキーワードと、前
記与えられた文書の作成時間情報を含むデータを記憶す
る第1記憶手段と、 時間軸上の任意の時刻を入力する時間キー入力手段と、 前記第1記憶手段に格納されたデータのうち、前記文書
の作成時間が前記時間キー入力手段から与えられる時刻
により特定される前記対象区間内に存在する文書につい
てのキーワードと重要度を抽出するとともに、その抽出
したキーワードと重要度に基づいてその対象区間におけ
る知識データを生成する生成手段と、 その生成手段により生成された前記対象区間内での知識
データを記憶する第2記憶手段とを備えたことを特徴と
する文書処理装置。
8. A keyword extracting unit for extracting a keyword from a given document and calculating the importance of the keyword in the document; a keyword extracted by the keyword extracting unit; First storage means for storing data including document creation time information; time key input means for inputting an arbitrary time on a time axis; and creation of the document among the data stored in the first storage means. A keyword is extracted for a document existing in the target section specified by the time given by the time key input means, and the importance is extracted. Based on the extracted keyword and importance, the knowledge data in the target section is extracted. Generating means for generating knowledge data; second storage means for storing knowledge data in the target section generated by the generating means; Document processing apparatus characterized by comprising.
【請求項9】 未知の文書が与えられた場合に、その未
知の文書から抽出されたキーワード及び重要度と、前記
第2記憶手段に格納された知識データとを比較し、前記
文書に対する評価を行う評価手段をさらに備えたことを
特徴とする請求項8に記載の文書処理装置。
9. When an unknown document is given, a keyword and importance extracted from the unknown document are compared with knowledge data stored in the second storage means, and the evaluation of the document is evaluated. 9. The document processing apparatus according to claim 8, further comprising an evaluation unit for performing the evaluation.
【請求項10】 前記文書を与えるに際し、カテゴリー
を関連付けて入力する機能を有し、 前記第1記憶手段に格納するデータは、前記カテゴリー
ごとに分けて格納するようにし、 前記生成手段では、前記カテゴリーごとに前記知識デー
タを生成し、前記第2記憶手段にカテゴリーごとに格納
するようにしたことを特徴とする請求項8に記載の文書
処理装置。
10. A function of associating and inputting a category when providing the document, wherein data to be stored in the first storage means is stored separately for each of the categories. 9. The document processing apparatus according to claim 8, wherein the knowledge data is generated for each category and stored in the second storage unit for each category.
【請求項11】 未知の文書が与えられた場合に、その
未知の文書から抽出されたキーワード及び重要度と、前
記第2記憶手段に格納されたカテゴリーごとの知識デー
タとを比較し、各カテゴリーに対する一致度に基づいて
評価した文書を分類するようにしたことを特徴とする請
求項10に記載の文書処理装置。
11. When an unknown document is given, a keyword and importance extracted from the unknown document are compared with knowledge data for each category stored in the second storage means, and each category is compared. 11. The document processing apparatus according to claim 10, wherein the documents evaluated based on the degree of coincidence with are classified.
【請求項12】 対象区間を複数指定することにより、
知識データを複数個生成し、 各知識データの特徴を比較することでユーザーの興味の
推移を求める機能を備えたことを特徴とする請求項8〜
11のいずれか1項に記載の文書処理装置。
12. By specifying a plurality of target sections,
9. A function for generating a plurality of pieces of knowledge data and comparing the characteristics of each piece of knowledge data to obtain a transition of a user's interest.
12. The document processing device according to any one of items 11 to 11.
【請求項13】 与えられた文書中からキーワードを抽
出するとともに、前記文書内での前記キーワードの重要
度を算出するキーワード抽出手段と、 前記キーワード抽出手段で抽出されたキーワード及び重
要度を累積演算によって過去に与えられた文書に基づい
て生成されたキーワード及び重要度に足し合わせること
により知識データを生成する生成手段と、 その生成手段により生成された知識データを記憶する記
憶手段とを備え、 かつ前記生成手段における累積演算は、キーワード抽出
手段で抽出されたキーワード及び重要度の影響が大きく
なるようにしたものであることを特徴とする文書処理装
置。
13. A keyword extracting means for extracting a keyword from a given document and calculating the importance of the keyword in the document, and accumulating the keywords and the importance extracted by the keyword extracting means. Generating means for generating knowledge data by adding a keyword and importance generated based on a document given in the past, and storage means for storing the knowledge data generated by the generating means; and The document processing apparatus according to claim 1, wherein the cumulative operation performed by said generating means has a greater effect on the keywords and importance extracted by the keyword extracting means.
【請求項14】 未知の文書が与えられた場合に、その
未知の文書から抽出されたキーワード及び重要度と、前
記記憶手段に格納された累積された知識データとを比較
し、前記文書に対する評価を行う評価手段をさらに備え
たことを特徴とする請求項13に記載の文書処理装置。
14. When an unknown document is given, a keyword and importance extracted from the unknown document are compared with accumulated knowledge data stored in the storage unit, and the evaluation of the document is performed. 14. The document processing apparatus according to claim 13, further comprising an evaluation unit that performs the following.
【請求項15】 与えられた文書中からキーワードを抽
出する処理、 前記文書内での前記キーワードの重要度を算出する処
理、 前記抽出されたキーワード及び重要度と、前記与えられ
た文書の作成時間情報を含むデータをコンピュータ内の
第1記憶手段に格納する処理、 時間軸上の任意の時刻を入力することにより設定される
対象区間に基づいて前記第1記憶手段をアクセスし、前
記第1記憶手段に格納されたデータのうち、前記対象区
間内に存在する文書についてのキーワードと重要度を抽
出するとともに、その抽出したキーワードと重要度に基
づいてその対象区間における知識データを生成する処
理、 その生成された前記対象区間内での知識データを前記コ
ンピュータ内の第2記憶手段に格納する処理、 をコンピュータに実行させる命令を含む文書処理プログ
ラムを格納したコンピュータが読取り可能な記録媒体。
15. A process for extracting a keyword from a given document, a process for calculating the importance of the keyword in the document, the extracted keyword and importance, and a creation time of the given document A process of storing data including information in a first storage unit in a computer; accessing the first storage unit based on a target section set by inputting an arbitrary time on a time axis; Extracting, from the data stored in the means, a keyword and importance of a document existing in the target section, and generating knowledge data in the target section based on the extracted keyword and importance; Storing the generated knowledge data in the target section in the second storage means in the computer. Recording medium capable computer read storing a document processing program including.
【請求項16】 与えられた未知の文書からキーワード
及び重要度を抽出する処理、 前記抽出した未知の文書のキーワードと重要度を前記第
2記憶手段に格納された知識データとを比較し、前記文
書に対する評価を行う処理をさらに含むプログラムを格
納した請求項15に記載の記録媒体。
16. A process of extracting a keyword and a degree of importance from a given unknown document, comparing the keyword and the degree of importance of the extracted unknown document with knowledge data stored in the second storage unit, 16. The recording medium according to claim 15, wherein a program further including a process of evaluating a document is stored.
【請求項17】 前記第1記憶手段に格納するデータを
前記カテゴリーごとに分けて格納する処理、 前記カテゴリーごとに前記知識データを生成するととも
に、前記第2記憶手段にカテゴリーごとに格納する処理
をさらに含むプログラムを格納した請求項15に記載の
記録媒体。
17. A process of storing data stored in the first storage unit by dividing the data into each category, a process of generating the knowledge data for each category, and storing the knowledge data in the second storage unit for each category. 16. The recording medium according to claim 15, further comprising a program stored therein.
【請求項18】 未知の文書が与えられた場合に、その
未知の文書からキーワード及び重要度を抽出する処理、 その抽出したキーワード及び重要度と、前記第2記憶手
段に格納されたカテゴリーごとの知識データとを比較
し、各カテゴリーに対する一致度を求める処理、前記求
めた各カテゴリーに対する一致度に基づいて未知の文書
を分類する処理をさらに含むプログラムを格納した請求
項17に記載の記録媒体。
18. When an unknown document is given, a process of extracting a keyword and an importance from the unknown document, the extracted keyword and the importance, and a process for each category stored in the second storage means. 18. The recording medium according to claim 17, further comprising a program for comparing the knowledge data with each other to obtain a degree of coincidence for each category, and a process for classifying an unknown document based on the degree of coincidence for each category obtained.
【請求項19】 指定された複数の対象区間ごとの知識
データを生成する処理、 各知識データの特徴を比較することでユーザーの興味の
推移を求める処理をさらに含むプログラムを格納した請
求項15に記載の記録媒体。
19. The program according to claim 15, further comprising a process of generating knowledge data for each of a plurality of designated target sections, and a process of obtaining a transition of a user's interest by comparing characteristics of each knowledge data. The recording medium according to the above.
【請求項20】 与えられた文書中からキーワードを抽
出する処理、 前記文書内での構造レベルやキーワードの頻度に応じて
前記キーワードの重要度を算出する処理、 前記抽出したキーワード及び重要度の影響が大きくなる
ように、累積演算によって過去に与えられた文書に基づ
いて生成されたキーワード及び重要度に足し合わせるこ
とにより知識データを生成する処理、 その生成した知識データを記憶手段に記憶させる処理、 をコンピュータに実行させる命令を含む文書処理プログ
ラムを格納したコンピュータが読取り可能な記録媒体。
20. A process for extracting a keyword from a given document, a process for calculating the importance of the keyword according to a structure level and a frequency of the keyword in the document, and an influence of the extracted keyword and the importance. A process of generating knowledge data by adding the keywords and importance levels generated based on the documents given in the past by the cumulative operation so that is larger, a process of storing the generated knowledge data in storage means, Computer-readable recording medium storing a document processing program including instructions for causing a computer to execute the program.
【請求項21】 与えられた未知の文書からキーワード
及び重要度を抽出する処理、 その抽出した前記キーワード及び重要度と前記記憶手段
に格納された累積された知識データとを比較し、前記文
書に対する評価を行う処理をさらに含むプログラムを格
納した請求項20に記載の記録媒体。
21. A process for extracting a keyword and importance from a given unknown document, comparing the extracted keyword and importance with accumulated knowledge data stored in the storage means, and 21. The recording medium according to claim 20, storing a program further including a process of performing an evaluation.
JP9181818A 1997-06-24 1997-06-24 Document processing method, its device and recording medium Withdrawn JPH1115854A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9181818A JPH1115854A (en) 1997-06-24 1997-06-24 Document processing method, its device and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9181818A JPH1115854A (en) 1997-06-24 1997-06-24 Document processing method, its device and recording medium

Publications (1)

Publication Number Publication Date
JPH1115854A true JPH1115854A (en) 1999-01-22

Family

ID=16107368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9181818A Withdrawn JPH1115854A (en) 1997-06-24 1997-06-24 Document processing method, its device and recording medium

Country Status (1)

Country Link
JP (1) JPH1115854A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285134A (en) * 1999-03-31 2000-10-13 Toshiba Corp Method and device for managing document and storage medium
JP2001312513A (en) * 2000-02-21 2001-11-09 Sony Corp Information processing system, information processing method, and program housing medium
WO2002041182A1 (en) * 2000-11-17 2002-05-23 Mitsubishi Space Software Co., Ltd. Interesting news item distributing system and interesting news item distributing method
JP2006243803A (en) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd Information processing system, program, and information processing method
JP2009042968A (en) * 2007-08-08 2009-02-26 Nec Corp Information selection system, information selection method, and program for information selection
JP2010041414A (en) * 2008-08-05 2010-02-18 Kddi Corp Answering machine
KR101522316B1 (en) * 2009-12-29 2015-05-21 네이버 주식회사 System and method for discerning document priority
JP2018010533A (en) * 2016-07-14 2018-01-18 Necパーソナルコンピュータ株式会社 Information processing device, information processing method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285134A (en) * 1999-03-31 2000-10-13 Toshiba Corp Method and device for managing document and storage medium
JP2001312513A (en) * 2000-02-21 2001-11-09 Sony Corp Information processing system, information processing method, and program housing medium
WO2002041182A1 (en) * 2000-11-17 2002-05-23 Mitsubishi Space Software Co., Ltd. Interesting news item distributing system and interesting news item distributing method
JP2006243803A (en) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd Information processing system, program, and information processing method
JP2009042968A (en) * 2007-08-08 2009-02-26 Nec Corp Information selection system, information selection method, and program for information selection
JP2010041414A (en) * 2008-08-05 2010-02-18 Kddi Corp Answering machine
KR101522316B1 (en) * 2009-12-29 2015-05-21 네이버 주식회사 System and method for discerning document priority
JP2018010533A (en) * 2016-07-14 2018-01-18 Necパーソナルコンピュータ株式会社 Information processing device, information processing method and program

Similar Documents

Publication Publication Date Title
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
Zhao et al. Topical keyphrase extraction from twitter
CN106919702B (en) Keyword pushing method and device based on document
KR100544514B1 (en) Method and system for determining relation between search terms in the internet search system
JP3116851B2 (en) Information filtering method and apparatus
US20060173556A1 (en) Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query
JP4787902B2 (en) Online e-mail service system and method
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JPWO2009096523A1 (en) Information analysis apparatus, search system, information analysis method, and information analysis program
JP2020135891A (en) Methods, apparatus, devices and media for providing search suggestions
KR101659064B1 (en) Method and apparatus for calculating contents evaluation scores by using user feedbacks
JP5136910B2 (en) Information analysis apparatus, information analysis method, information analysis program, and search system
JP2008084193A (en) Instance selection device, instance selection method and instance selection program
JP5226241B2 (en) How to add tags
JP2007140721A (en) Document specialty level acquisition program
CN111309944A (en) Digital human search algorithm based on graph database
JPH1115854A (en) Document processing method, its device and recording medium
KR101074820B1 (en) Recommendation searching system using internet and method thereof
JP4466334B2 (en) Information classification method and apparatus, program, and storage medium storing program
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
JP4873739B2 (en) Text multiple topic extraction apparatus, text multiple topic extraction method, program, and recording medium
TW201415263A (en) Forensic system, forensic method, and forensic program
JP2003167907A (en) Information providing method and system therefor
JP2005092491A (en) Server and related word proposal method
Hocket et al. Detecting and using buzz from newspapers to understand patterns of movement

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040907