JP2002215645A - Document processing device - Google Patents

Document processing device

Info

Publication number
JP2002215645A
JP2002215645A JP2001015117A JP2001015117A JP2002215645A JP 2002215645 A JP2002215645 A JP 2002215645A JP 2001015117 A JP2001015117 A JP 2001015117A JP 2001015117 A JP2001015117 A JP 2001015117A JP 2002215645 A JP2002215645 A JP 2002215645A
Authority
JP
Japan
Prior art keywords
document
mail
documents
information
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001015117A
Other languages
Japanese (ja)
Inventor
Hiroshi Ichiji
Atsushi Kurabe
Akinori Murakami
宏 伊知地
淳 倉部
哲範 村上
Original Assignee
Fuji Xerox Co Ltd
富士ゼロックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, 富士ゼロックス株式会社 filed Critical Fuji Xerox Co Ltd
Priority to JP2001015117A priority Critical patent/JP2002215645A/en
Publication of JP2002215645A publication Critical patent/JP2002215645A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a document processing device capable of grouping a plurality of mail documents and documents related to the mail documents according to the contents of the documents, for example, specific subjects.
SOLUTION: In connecting a newly-arrived mail document with a mail document already stored in a mail server, both documents are connected on the basis of a quotation part stated in the text of the newly-arrived document. A plurality of documents can thereby be grouped, taking the contents of the mail documents into consideration.
COPYRIGHT: (C)2002,JPO

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、特定の話題に関連する文書をグループ化する文書処理装置に関する。 The present invention relates to relates to a document processing apparatus for grouping documents related to a particular topic.

【0002】 [0002]

【従来の技術】メールサーバ等に蓄積された電子メール文書等の複数の文書をグループ化して保存しておくことにより、互いに関連する文書を容易に見つけ出すことができる。 By BACKGROUND ART keep grouped plurality of documents of the mail server for e-mail documents stored in such like, you can readily find documents related to each other. 従来、例えば電子メール文書に対して、そのヘッダ情報である参照先、送受信日時、電子メールのタイトル等を利用してグループ化する方法が採られていた。 Conventionally, the electronic mail document, the reference destination is the header information, reception date and time, how to group by utilizing the e-mail title and the like has been employed.

【0003】たとえば、電子メールソフトは、ヘッダ情報に記載された電子メールの送信者や受信日時等により、電子メール文書のリストの配列を並べ替えて表示する機能を備えている。 For example, e-mail software, the e-mail sender or reception date and time, etc. described in the header information, and a function of displaying sorted array of the list of e-mail document. また、電子掲示板においては、受信日時に従って時系列順にメールのリストを表示している。 In addition, in the electronic bulletin board, which displays a list of e-mail in chronological order according to the received date and time. さらに、ある電子メールのタイトルを指定するヘッダ情報であるSubjectに別の電子メールのタイトルが参照されている場合、すなわちタイトルが”RE: Furthermore, if the header information is a Subject to a different e-mail title specifies the title of certain electronic mail are referenced, i.e. the title "RE:
YYY”等と記述される場合には、それぞれの電子メールを関連あるものとしてグループ化し、特定の話題に関連したメールとしてそれらのタイトルをまとめて、いわゆるスレッド表示をしていた。 If it is described as YYY ", etc., grouped as being related to each of the e-mail, together with their title as the mail related to a specific topic, I had a so-called thread display.

【0004】 [0004]

【発明が解決しようとする課題】しかしながら、電子メールソフトは文書をヘッダに記載された情報に基づいてしかグループ化することができず、例えば特定の話題に関連した文書をグループ化できなかった。 [SUMMARY OF THE INVENTION However, e-mail software can not be grouped only on the basis of the information described in the header of the document could not be grouped documents related to a particular topic, for example. そのような場合は、使用者が専用のフォルダを作成し、随時必要なものをフォルダ内に保存してメール文書を管理すればよいが、メール文書の内容を確認することになり、その作業に手間がかかる等の問題があった。 In such a case, the user create a dedicated folder, it is sufficient to manage the e-mail document to save the thing from time to time required in the folder, but will want to check the contents of the e-mail document, in its work time there is a problem such as consuming.

【0005】一方、電子掲示板においては、ヘッダ情報であるタイトルに基づいて投稿された電子メール文書(投稿文書)を表示する機能を備えており、掲示板の利用者が興味ある話題について関連したメールを把握するのに便利である。 [0005] On the other hand, in the electronic bulletin board, equipped with a function to display the e-mail document, which is posted on the basis of a header information title (post document), the associated e-mail about the topic the user of the bulletin board is interested it is convenient to grasp.

【0006】しかしながら、あるメール中で問題提起した内容について多数のメール文書が投稿されるような場合は、途中で議論の内容がかわってしまうこともある。 [0006] If, however, such as a large number of mail document about what was raised a problem in a certain mail is posted, sometimes resulting in behalf of the contents of the discussion on the way.
そのような場合であっても、電子掲示板の表示はあくまでもヘッダに記載されているタイトルの情報に基づいている。 Even in such a case, the display of the electronic bulletin board is based on information the title of the last described header. したがって、投稿文書のタイトルの参照しているタイトルが同一の文書のものであれば同じグループとしてまとめられてしまい、利用者はメールの内容を実際確認してみなければ、議論の内容がどのように進行しているのかわからないという不都合があった。 Therefore, the title that refers to the posted document title will be are grouped together as the same group as long as it is the same document, the user must try to actually check the contents of the e-mail, how the contents of the discussions there is a disadvantage that do not know what is in progress to.

【0007】また、電子メール本文中にWeb上のホームページにある文章を参照する場合もあり、例えばそのホームページのURLの情報を引用して記載することがある。 [0007] In addition, there is also a case to refer to the text on the Web on the home page in the e-mail text, there may be described for example with reference to the information of the URL of the home page. 従来、電子掲示板等には投稿文書以外の文書はグループ化されていなかった。 Conventionally, the electronic bulletin board such as a document other than the posted document has not been grouped.

【0008】本発明は上記課題に鑑みてなされたものであり、複数のメール文書及びメール文書に関連する文書をそれらの文書内容、例えば特定の話題等に従ってグループ化できる装置を提供することにある。 [0008] The present invention has been made in view of the above problems, is to provide a document relating to a plurality of mail documents and mail documents those documents content, for example, a device that can be grouped according to a particular topic, such as .

【0009】 [0009]

【課題を解決するための手段】上記課題を解決するために本発明には、ヘッダと本文とからなる電子メール文書を蓄積するサーバに接続された文書処理装置において、 The present invention in order to solve the above problems SUMMARY OF THE INVENTION In the document processing apparatus connected to a server for storing electronic mail document consisting of a header and a body,
電子メール文書の前記本文中に引用されている引用部分に基づいて、当該引用部分の引用元の文書と当該電子メール文書とを関係づける文書関係情報を生成する手段と、前記文書関係情報に基づいて特定の話題に関連する複数の文書をグループ化する手段と、を備えることを特徴とする。 Based on the text cited portion which is cited in the e-mail document, and means for generating a document related information relating the document and the electronic mail document cited source of the quotation, based on the document related information characterized in that it comprises a means for grouping a plurality of documents related to a particular topic Te.

【0010】上記構成によれば、前記電子メール文書と当該電子メール文書に引用されている引用元の文章とを関連付けることができ、特定の話題に関連する文書を本文の内容に基づいてグループ化することができる。 With the above arrangement, the electronic mail document and can be associated with the corresponding electronic mail documents cited sources cited in the text, grouping them based on documents related to a particular topic in the content of the text can do. ここでサーバはメールサーバに限らない。 Here the server is not limited to the mail server. 複数の電子メール文書等を蓄積する手段であればよい。 Such as a plurality of e-mail document may be a means for storing.

【0011】またここで、前記文書関係情報を生成する手段は文書間の関係の重みに関する情報を生成し、前記関係の重みに関する情報に基づいてグループ化した前記複数の文書を再度グループ化する手段を含むことを特徴とする。 [0011] Here, means for generating the document relationship information generates information about the weight of the relationship between the documents, means for re-grouping the plurality of documents grouped based on the information about the weight of the relationship characterized in that it comprises a.

【0012】上記構成によれば、前記文書関係情報に基づいてグループ化された文書を前記関係の重みに基づいて最適なグループとして再構成することができる。 With the above arrangement, it is possible to reconstruct the grouped document based on the document related information as the best groups based on the weight of the relationship.

【0013】またここで、前記文書関係情報を生成する手段は前記ヘッダに記載されている情報に基づいて引用部分又は引用元の少なくとも一方を特定する手段を含むことを特徴とする。 [0013] Here, means for generating the document relationship information is characterized in that it comprises a means for identifying at least one of the quotations or reference source on the basis of the information described in the header.

【0014】 [0014]

【発明の実施の形態】本発明の実施の形態について図面を参照しながら説明する。 The embodiment of the embodiment of the present invention will be described with reference to the drawings. 本発明の実施の形態に係る文書処理システム10は図1に示すようにメールサーバ1 The document processing system 10 according to the embodiment of the present invention is the mail server 1 as shown in FIG. 1
2、及び文書処理装置14とから基本的に構成される。 2, and essentially it consists of the document processing apparatus 14.

【0015】本実施形態において文書処理装置14はクライアント端末に対応し、インターネット15を介してメールサーバ12に接続されている。 The document processing apparatus 14 in this embodiment corresponds to the client terminal, is connected to the mail server 12 through the Internet 15. すなわち、文書処理装置14はたとえば、一般的なパーソナルコンピュータであり、オペレーティングシステムにより制御され、 That is, the document processing apparatus 14 is, for example, a general personal computer, is controlled by the operating system,
この制御の下でインストールされたアプリケーションプログラムを実行する。 Executing an application program installed under the control. 文書処理装置14は制御部16、 The document processing apparatus 14 control unit 16,
RAM17、ROM18、ハードディスク19、操作部20、表示部22、ネットワークインターフェース24 RAM 17, ROM 18, hard disk 19, an operation unit 20, display unit 22, a network interface 24
とから基本的に構成されており、これらの各部はバス接続されている。 It is basically formed, these various parts are connected by a bus and a.

【0016】制御部16は、メールサーバ12に蓄積された電子メール文書のうち関係のある文書をグループ化する処理と、一旦まとめられた複数の文書のグループを最適にするよう再構成する処理等を行っている。 The control unit 16, processing for re-configured to optimize the process of grouping the document that is relevant among the stored electronic mail document to a mail server 12, a group of documents gathered was once It is carried out. これらの処理については後に詳しく述べる。 Will be described later in detail these processes. RAM17は制御部16のワークメモリとして動作している。 RAM17 is operating as a work memory of the control unit 16. ROM18 ROM18
には、主として制御部16の起動処理時に参照されるプログラムが格納されている。 The, stores a program to be referred primarily during startup processing of the control unit 16. ハードディスク19にはオペレーティングシステム及び種々のアプリケーションプログラムが格納されている。 Operating system and various application programs are stored in the hard disk 19. また、このハードディスク19にはアプリケーションプログラムを実行することにより生成されたデータ等が蓄積される。 Moreover, data generated by executing the application program is accumulated in the hard disk 19. 操作部20はマウスやキーボードなどの入力デバイスであり、ユーザが行った動作を制御部16に伝達する。 Operation unit 20 is an input device such as a mouse or a keyboard, to transmit the operation performed by the user to the control unit 16. 表示部22は制御部16から入力される指示に従い、情報の表示を行う。 Follow the instructions display unit 22 which is input from the control unit 16, and displays the information.

【0017】メールサーバ12はオペレーティングシステムを実行し、このオペレーティングシステムの下でサーバアプリケーションプログラムを動作させている。 [0017] The mail server 12 executes the operating system, are running the server application program under this operating system. このメールサーバ12は制御部26、ネットワークインターフェース28、ストレージ30とを含んでなる。 The mail server 12 control unit 26, a network interface 28, comprising a storage 30.

【0018】制御部26は、文書処理装置14より受信した検索要求に応じてストレージ30に蓄積された電子メール文書等に関する情報等を検索し、検索した情報を文書処理装置14に送信する。 The control unit 26 searches the information concerning such as e-mail documents stored in the storage 30 in response to a search request received from the document processing apparatus 14, transmits the retrieved information to the document processing apparatus 14. ネットワークインターフェース28はインタ−ネット15に接続され、このインターネット15を介して文書処理装置14から受信するデータを制御部26に出力し、制御部26から出力されるデータを文書処理装置14に対して送信する。 Network interface 28 inter - connected to the net 15, for this via the Internet 15 outputs data received from the document processing apparatus 14 to the control unit 26, the control unit 26 the document processor 14 the data that is output from the Send. ストレージ30は、ハードディスクデバイスであり、インターネット15を介して送受信した電子メール文書に関する情報32が蓄積されており、その情報は具体的には図1 Storage 30 is a hard disk device, through the Internet 15 and information 32 about the e-mail document sent and received are accumulated in the information specifically Figure 1
に示すように電子メール文書を特徴付けるID番号とメール文書データとが関連付けられたものである。 The ID number characterizing the email document as shown in the mail document data in which is associated.

【0019】図2に示すように電子メール文書34はヘッダ36と本文38とから構成されている。 The e-mail document 34, as shown in FIG. 2 is composed of a header 36 and a body 38..

【0020】ヘッダ36にはその電子メールに関する情報が各フィールド毎に記載されている。 [0020] The header 36 contains information about the e-mail are described for each field. IN−REPL IN-REPL
Y−TO、REFERENCES等のフィールドには参照先のメール文書を示す情報が記載されている。 Y-TO, information indicating a reference destination mail document is described in the field such as The REFERENCES. Dat Dat
e、Recieved等には送受信日時、Subjec e, transmission and reception in Recieved such as date and time, Subjec
tには電子メール文書のタイトル、From等には送信者、To、Cc等には受信者、Message−Id等には電子メール文書を特定する固有の番号、X−Mai t of the e-mail document in the title, the sender in the From, etc., To, recipients in Cc, etc., in the Message-Id, such as a unique number that identifies the e-mail document, X-Mai
ler等にはその電子メールを送信したソフトウエア、 ler is in such software that sent the e-mail,
Content−Type等には添付文書のファイル形式に関する情報がそれぞれ記載されている。 The Content-Type, etc. information about the file format of the attachments are described, respectively. なお、図2 It should be noted that FIG. 2
ではFrom,To,Subject,Date等のフィールドが記載されている。 In From, To, Subject, fields such as Date are described.

【0021】また、電子メール文書本文中において他の電子メール文書、又はその一部等が引用される場合がある。 [0021] In addition, there is a case in which other e-mail document in an e-mail document body, or a part thereof, and the like are cited. 本文中のどの部分が引用に関連する箇所(引用箇所)であるかを示す方法として、主に引用部分の各行の先頭毎に引用コードを記載する方法や、引用部分の先頭に文字列を記載する方法が知られており、図3にその具体例を示す。 As a method for indicating whether a point (citations) to which part of the text is associated with citation, a method of describing the reference code for each beginning of each line of the main cited portion, wherein a string to the beginning of the citations It is known a method of, indicating the specific example in FIG. 図3(a)〜(c)には電子メールの本文のみが図示されている。 Only e-mail text is shown in FIG. 3 (a) ~ (c). 図3(a)に示すように他の電子メール文書からある文章を引用した場合は、行頭に" Figure 3 If you quote the text from other e-mail document as shown in (a), at the beginning of the line "
>"の引用コード40、または"XXX>"等の文字列4 > "Citation code 40 or," XXX> "character strings such as 4
2が記載される。 2 is described. これらのコードや文字列以下の文が引用部分と判別できる。 Statement of following these codes and strings can be determined that the quoted part. ここで、XXXの部分には例えばメール送信者の名前が記され、図3(a)の例ではTa Here, in a portion of XXX noted the name of the example mail sender, Ta in the example of FIG. 3 (a)
roである。 It is ro. また図3(b)で示したようにOutLo Further, as shown in FIG. 3 (b) OutLo
ok(商標)等のメールソフトでは"----original mess ok in the e-mail software (trademark) "---- original mess
age----"という文字列44に続くヘッダの情報46の以降に他の電子メール文書の引用部分48が記載される。 Cited portion 48 of the other e-mail document is described in the subsequent header information 46 following the string 44 that age ---- ".
また、(c)で示したように"XXX Wrote:"との記載の後、引用文の行頭に">"の引用コード50、が記載される場合等がある。 Further, as shown in (c) "XXX Wrote:" after described with, in some cases like reference code 50, the ">" at the beginning of the citation is described. また、Web上のURL情報引用する場合は"http://"の文字列52から始まる部分がURL情報であることがわかる。 In addition, if the URL information cited on the Web "http: //" is part beginning with the string 52 of it can be seen that the URL information.

【0022】ヘッダ情報のみに基づいて規定する関係には参照関係と呼応関係があり、本文中に記載されている情報に基づく文書間の関係には引用関係がある。 [0022] There is response relationship and the reference relationship in a relationship prescribed based only on header information, reference relationship is the relationship between documents based on the information described in the text. 参照関係はあるメール文書が他のメール文書を参照している、 The reference relationship a mail document is referring to other e-mail document,
すなわちRefernces等のフィールドに記載された情報から両文書が関係づけられる場合をいい、また呼応関係はある電子メール文書の送信者と受信者との間に複数回のメールのやり取りがある場合をいう。 Refers to the case where there are multiple e-mail exchanges between That means the case where both the document are related from the information described in the field such as Refernces, also the sender of some response relationship email document and the recipient . 引用関係は電子メールの本文中で他の文章ソース、例えば他の電子メール文書の本文中から文章を引用した場合やウエブ上のホームページのURL情報を引用した場合をいう。 Citation relationship refers to the case cited other sentence source in the body of the e-mail, for example, the URL information of other e-mail document from the text on the case and the web cited the sentence of the home page.

【0023】[制御部の処理]以下、制御部16の行う具体的な処理について説明する。 [0023] Processing of the control unit will be described below specific processing performed by the control unit 16. 前述したように制御部1 Control unit as described above 1
6の処理はメールサーバ12に蓄積された電子メール文書のうち互いに関係のあるものをグループ化する処理と、一旦まとめられた複数の文書のグループが最適なものとなるよう再構成する処理等を行っている。 Process 6 and process of grouping what relationship to each other among the electronic mail documents stored in the mail server 12, once a group of a plurality of documents gathered is the processing for re-configured to be optimal Is going.

【0024】文書をグループ化する処理は、主にある電子メール文書と関係のある文書を特定して、それらの間の関係情報を生成する処理と、それら生成した関係情報に基づいて関連する複数の文書をグループ化する処理とからなる。 The process of grouping the documents, to identify the documents that contain e-mail documents and relationships that primarily, the process of generating the relationship information between them, a plurality of associated based on their product relationship information consisting of a process of grouping documents.

【0025】まず、引用関係に関してこれらの処理を図4にしたがって説明する。 Firstly it will be described with reference to FIG. 4 of these processes with regard citation. まず、制御部16は新着メールの有無をメールサーバに確認する要求信号を送信する(S101)。 First, the control unit 16 sends a request signal to confirm the presence of new mail to the mail server (S101). 制御部26はストレージ30の中に新着メールが存在した場合、その中から任意のものを選択し、選択された電子メールのID番号と電子メール文書データとからなる情報(図1の32参照)を文書処理装置14に送信する。 If new mail in the control unit 26 storage 30 exists, the information and select from among its arbitrary, consisting of a selected e-mail ID number and email document data (32 see FIG. 1) and transmits to the document processing apparatus 14. (S102)。 (S102). 制御部16は送信された電子メール文書の本文中から引用部分を示す引用コードや文字列を検索する(S103)。 Control unit 16 searches the reference code or character string indicating a quotation from the text of the transmitted e-mail document (S103). これら引用部分を示すコード等の情報は予めハードディスク19に記憶され、検索の際はこれらの情報を参照する。 Information code for indicating these citations are stored in advance in the hard disk 19, when searching refers to these information. 制御部16 The control unit 16
は検索されたコード等に基づいて本文中の引用部分を抽出し、引用元を特定する(S104)。 Extracts citations in the text based on the retrieved code, etc., to identify the reference source (S104). 図3(a)に示した例の場合では、引用コード以下の行の文字列を引用部分として抽出する。 In the case of the example shown in FIG. 3 (a), it extracts a character string following the lines cited code as citations. 隣りあう行の文字列が抽出された場合は、連続した文字列と認識して抽出する。 If the string of adjacent rows are extracted, extracts recognizes a continuous string. 図3 Figure 3
(b)に示した例の場合では本文中に記載されたヘッダ情報以降の文字列を引用部分として抽出する。 In the case of the example shown in (b) extracts a character string after the header information described in the text as a quotation. 図3 Figure 3
(c)に示した場合は上記の二つの抽出操作を行えばよい。 It may be performed two extraction operations above case shown in (c). また、"http://"及びそれ以下の文字列をU In addition, "http: //" and that the following string U
RL情報として抽出する。 It is extracted as the RL information. 次に、制御部16は引用元がメールサーバ12にある文書の中から特定できたか否かを判定する(S105)。 Next, the control unit 16 determines whether or not a particular from documents cited source is in the mail server 12 (S105).

【0026】引用部分がURL情報の場合、引用元は自明であるので、引用元がメールサーバ12に蓄積された電子メール文書である場合、引用元を特定する方法、すなわち引用関係の有無を判定する方法(処理S105に対応する)を図5にしたがって説明する。 In the case cited portion is URL information, the reference source is self-evident, quotation source is an email documents stored in the mail server 12, a method for identifying a reference source, i.e. determine the presence or absence of citation how the (corresponding to the processing S105) will now be described with reference to FIG.

【0027】まず、制御部16はS104で抽出された引用部分より比較のためにその内容を正規化すべく改行コードを削除する(S201)。 [0027] First, the control unit 16 deletes the line feed code in order to normalize the contents for comparison than quoted portion extracted with S104 (S201). 制御部16はメールサーバ12に蓄積された新着メール文書以外の電子メール文書の中からひとつの文書を選択し、選択されたメールのID番号と文書の情報をメールサーバにより取得する(S202)。 The control unit 16 selects one of the documents from the mail server 12 email documents other than the stored new mail documents to, to obtain information of the ID number and the document of the selected mail by the mail server (S202). 制御部16は取得された電子メール文書の本文から改行コードを削除する(S203)。 Control unit 16 deletes the line feed code from the body of the acquired e-mail document (S203). 次に、 next,
制御部16はそのメール本文がS201で改行コードを削除した引用部分のうちどのくらいの部分が本文中に含まれているかを演算し、演算された値が予め定められた閾値を超えているか否かを判定する(S205)。 How much part calculates that it contains in the text, whether the calculated value exceeds a predetermined threshold in the control unit 16 citations that mail body has deleted line feed code in S201 determining (S205). その割合が所定の閾値よりも大きい場合はそのメール文書が引用元であると特定し、引用関係が有ると判定する(S If the rate is larger than a predetermined threshold value determines that the mail document is identified as the reference source, citations there (S
206)。 206). そうでない場合、引用部分はそのメール文書からの引用でないと判定し、メールサーバ12に蓄積された別の電子メール文書に対して上記の過程を繰返す(S207)。 Otherwise, cited portion is determined not to be quoted from the mail document, repeating the above process with respect to another email document stored in the mail server 12 (S207). メールサーバ12内のすべてのメール文書を調べて、なお特定できない場合は引用関係がないと判定する(S208)。 Examine all mail document for the mail server 12, Note determines that there is no citation If you can not determine (S208).

【0028】図4に戻って、引用関係が有ると判定された場合、制御部16は引用元の電子メールが属するグループ番号を取得し、その電子メールに対する新規のID [0028] Returning to FIG. 4, when it is determined that citations there, the control unit 16 obtains the group number email citation source belongs, new ID for the e-mail
番号と取得したグループ番号をハードディスクに保存されている関係情報表54に記録する(S106)。 The group number obtained with number recorded in relationship information table 54 stored in the hard disk (S106). 新着メール以外の電子メールに対しては、電子メールのID For e-mail other than the new mail, e-mail ID
番号とグループ番号とが関係づけられており、Web上の文書に対しては、URL情報とグループ番号とが関係付けられている関係情報表54が予めハードディスクに記憶されている。 Has been implicated is the number and group number for the document on the Web, the relationship information table 54 in which the URL information and the group number is associated is stored in advance in the hard disk. 図6に示すように、この関係情報表5 As shown in FIG. 6, the relationship information table 5
4においては、上記の手順で互いに引用関係にあると判定された電子メールに対しては共通のグループ番号が付されている。 In 4, it is denoted by the same group number for e-mail is determined to be cited each other as described above. この図ではID番号が0001、000 ID number in this figure is 0001,000
2、0004の文書が同じグループ番号1を持つので同一グループに属している。 2,0004 documents belong to the same group because they have the same group number 1. もし新着メールがID番号0 If new mail ID number 0
010のものと引用関係にあると判定された場合は新着メールはグループ番号3を取得する。 If it is determined to be in as the citation of 010 new mail to get the group number 3. 引用関係がないと判定された場合には新規ID番号と新たなグループ番号とが関係情報表に記録される(S107)。 And the new ID number and a new group number is recorded in the relationship information table when it is determined that there is no citation (S107).

【0029】上記の様に複数の文章を本文中の引用部分に基づいて関連づけしたので特定の話題に関する文書をグループ化できる。 [0029] can group documents related to a particular topic since the association on the basis of a multiple of the sentence as described above in the cited portion of the text. 各文書の間の引用関係情報は関係情報表54により与えられる。 Citation information between each document is given by the relationship information table 54.

【0030】参照関係、及び呼応関係に基づいても文書をグループ化することができる。 The reference relationship, and it is possible to group documents be based on response relationship. 参照関係の場合、例えば、制御部16は参照先を指定するフィールドであるI For reference relationship, for example, the control unit 16 is a field for specifying the reference destination I
n−Reply−to等に記載の情報から参照先のメール文書をメールサーバ12内の文書から特定し、特定された文書との間に参照関係があると判定する。 The n-Reply-to, etc. mail documents referenced from the information according to specified from the document in the mail server 12 judges that the reference relationship between the identified documents. また、電子メール文書のタイトルを指定するSubject等に記載の情報から参照先のメール文書を特定するようにしてもい。 In addition, it has also so as to identify the e-mail document of reference destination from the information contained in the Subject or the like to specify the title of the e-mail document. ある電子メール文書がタイトルが"YYY"である電子メール文書を参照する場合を、その電子メール文書のSubjectには"RE:YYY"と記載されている。 There is a case where the e-mail document to refer to the e-mail document is a title is "YYY", the Subject of the e-mail document: has been described as "RE YYY". したがって、Subjectから抽出した文字列" Therefore, the character string extracted from the Subject "
RE:YYY"から識別子である"RE:"を削除した後、ストレージ30に蓄積されている電子メールから" RE: "it is an identifier from the" YYY RE: "After you remove, from the e-mail stored in the storage 30"
YYY"をタイトルとする文書を検索し、該当する文書を参照されているメール電子文書と特定する。呼応関係の場合、ある電子メール送受信者情報及び記載されているフィールド、すなわちFrom、To、Cc、及びD Searching documents to title YYY ", is referred to the appropriate documentation identifying the mail electronic document is. For response relationship, the field being a certain e-mail sender and recipient information and forth, i.e. the From, the To, Cc , and D
ate等のヘッダ情報から受信者を特定することにより、呼応関係の有無を判定する。 By identifying the recipient from the header information such as ate, it determines the presence or absence of response relationship.

【0031】以上述べたように、ある電子メール文書に対して参照関係、呼応関係、引用関係の有無を判定した後、制御部16は各々の関係に対して関係情報表を生成し、電子メール文書及びそれらに関連した文書をグループ化する。 [0031] As described above, the reference relationship with certain electronic mail document, after determining the presence or absence of a response relationships, citation, the control unit 16 generates the relationship information table for each relationship, e-mail grouping documents and documents associated with them.

【0032】次に、一旦まとめられた複数の文書のグループが最適なものとなるよう再構成する処理について図7にしたがって説明する。 Next, once a group of a plurality of documents gathered is described with reference to FIG. 7 the process for re-configured to be optimal.

【0033】制御部16は、最適化する対象となるグループの中のある電子メールを選択する(S301)。 The control unit 16 selects a certain e-mail in a group to be optimized (S301). 制御部16は上述の関係情報表に基づいて、選択された電子メールと同一のグループ番号が付されている電子メールを任意に選択する(S302)。 The control unit 16 on the basis of the above relationship information table, arbitrarily selects the e-mail in which the same group number and the selected electronic mail is attached (S302). S301及びS30 S301 and S30
2で選択された同一グループに属する二つの電子メールのID番号に基づいて、関係の重みWを演算する(S3 Based on the two electronic mail ID number belonging to the same group selected in 2 calculates the weight W of the relationship (S3
03)。 03). 例えば関係の重みWをW=Wq×Eq+Wr× For example, the weight W of the relationship W = Wq × Eq + Wr ×
Er+Wc×Ecで定義する。 Defined in Er + Wc × Ec. ここでEq,Er,Ec Here Eq, Er, Ec
はそれぞれ引用関係、参照関係、呼応関係の有無を表わす数値であって、関係がある場合は0をとり、関係がない場合は1を取るものとする。 The citation relationship, reference relationship, respectively, a numerical value representing the presence or absence of response relationship, taking a 0 if relevant, if there is no relationship shall take 1. また、Wq,Wr,Wc In addition, Wq, Wr, Wc
はそれぞれ引用関係、参照関係、呼応関係の重み付けを表わすものである。 The citation relationship, reference relationship, respectively, is representative of the weight of the response relationship. ここで、関係の有無を2値で表現したが、別の表現を取るようにしてもよい。 Here, representing the presence or absence of relationship binary, it may be taken another way. 例えば引用関係でいえば、引用箇所の数、引用されているテキストの量、引用が引用元の文書に占める割合等に応じて変化させてもよい。 For example in the citation, the number of citations, the amount of text cited, reference may be changed according to the proportion or the like occupying the citation source document. 参照、呼応、引用関係に対しても異なった重み付けを定義することができる。 See, Concord, it is possible to define also different weighting citation. 例えば、引用関係の重み情報を他の関係の重み情報より重くすれば、よりメール本文中の内容に基づいた関係を表現することができる。 For example, if heavier than the weight information of other related weight information citation relations, it is possible to express the relationship based on the more the content of mail text.

【0034】次に、演算された重みWを予め定められた閾値aと比較する(S304)。 [0034] Next, compared with a predetermined threshold value a the computed weight W (S304). Wがaよりも 小さい場合はS302に戻り、同一グループ内の別のメールに対して同じステップを繰返す。 W is returned to S302 if smaller than a, repeated another same steps for mail in the same group. 同じグループ内のすべてのメール(図中、同じグループに属するメールのに総数はNとする)対して重みWが基準値よりも低いならばそのメールをグループから削除する(S305)。 All of the mail in the same group (in the figure, the total number to e-mail belonging to the same group and N) weight W is removed from the group that email if lower than the reference value for (S305). こうすれば、グループのどの文書とも関連が薄いと思われる文書を排除でき、グループを適正な形で再構成することができる。 In this way, with any document of the group can be eliminated document you think that the association is thin, it is possible to reconstruct the group in the proper form.

【0035】また、グループ化の他の方法としては、図6(b)に示すように任意に選んだ2つの文章とその文書間の関係の重みを関係情報として使用することもできる。 [0035] As another method of grouping, it is also possible to use the weight of the relationship between the document and the two sentences that arbitrarily chosen as shown in FIG. 6 (b) as the relation information. 図6(b)中、Wi(i=1,2,3・・・)は2 In the figure 6 (b), Wi (i = 1,2,3 ···) 2
文書の関係の重みを示しており、例えばW 1は文書00 Shows the weight of the relationship of the document, for example, W 1 document 00
01と文書0002との間の関係の重みを示す。 01 and shows the weight of the relationship between the document 0002. また、 Also,
2文書間に関係が無い場合は、Wiの値は0である。 If there is no relationship between the two documents, the value of Wi is 0. この関係情報により、グループの構造として、各文書をノードとし、各ノードを結ぶ線分をリンクとするグラフ(例えば図8 (a)参照)を採用することもできる。 This relationship information, the structure of the group, each document as nodes, it is also possible to employ a chart to link the line segments connecting the nodes (e.g., FIG. 8 (a) refer).

【0036】この場合、各リンクに対して定義される重み情報Wが所定の基準よりも大きければそのリンクを残し、低ければそのリンクを削除するようにする。 [0036] In this case, the weight information W to be defined for each link leaving the link is larger than a predetermined reference, so as to remove the link A low. こうすれば、一旦関係の有無に基づいてグループ化されたグラフを適正に再構成することができる。 This makes it possible to properly reconstruct the grouped graph based once the presence or absence of relationship. 例えば、文書Aと文書Bに引用関係のみしかなく、また文書Aと文書Cとの間に参照関係のみしかない場合、特定の話題に関するつながりといった意味では参照関係よりも引用関係のほうが重要度が高いと考えられるので、AC間のリンクを削除することによりグラフの構成も簡単になるといった利点がある。 For example, there is only only reference relating to documents A and B, and if there is only reference relationship only between the documents A and C, and severity towards the citation relationship than the reference relation in the sense such links on a particular topic it is considered to be high, there is an advantage also configured in the graph is simplified by removing the link between the AC.

【0037】[グループ化の応用例]また、図8に示すように文書間の関係情報に基づいて文書作成者間の関係をグループ化できる。 [0037] Application Example of Grouping also be grouped relationship between authors on the basis of the relation information between the documents, as shown in FIG. 図8(a)に示すのは、グループ化された複数の文章をリンクとノードで表現した場合を示した図である。 Shown in FIG. 8 (a) is a diagram showing a case of expressing a plurality of sentences grouped by links and nodes. この図において、矢印のついた線分はリンクに対応し、四角形で表わされたものがノードである。 In this figure, a line segment with arrows correspond to the link, a node that is represented by a rectangle. 各ノードは文書を表わしている。 Each node represents a document. ノードの中に示すアルファベットはその文書の作成者を示す。 Alphabet as shown in the node indicates the creator of the document.

【0038】この文書間の関係情報に基づいて、文書作成者間に対する関係情報を生成することができる。 [0038] may be based on the relationship information between the document and generates the relationship information for inter-document creator. 文書作成者に関する情報は、例えば作成者が作成した文書間の関係の有無、或いは関係の重み等で構成される。 Information about the authors, for example, the presence or absence of a relationship between the document creator has created, or constituted by the weight of Relevant.

【0039】図8(a)の関係に基づいて作成された、 The created based on the relationship of FIG. 8 (a),
作成者の関係のグループ化の一例を図8(b)に示す。 An example of grouping of the creator of the relationship shown in Figure 8 (b).
円型のノードで示されるのは作成者であり、作成者間の関係はリンクで示される。 Is shown by node circular is the creator, the relationship between the author is indicated by the link. 作成者Aと作成者Bとの間のリンクは図8(a)においてAによって作成された文書とBによって作成された文書との間に関係があることを意味している。 Link between the creator B and creator A is intended to mean that there is a relationship between the document created by the document and B created by A in FIG. 8 (a). また、リンクの太さ及び添え字はAによって作成された文書とBによって作成された文書間に存在する関係の数量を表わす。 Also, the thickness and index of links represents the number of relationships that exist between the documents created by a document and B created by A.

【0040】図8(b)からは、人物Bは他の人物とリンクを多く持つので、この話題における中心人物であることがわかる。 [0040] From FIG. 8 (b), since the person B has many other persons and links, it can be seen that a central figure in this topic. また、人物Aと人物Bとの間にメールのやり取りが頻繁に行われていること、人物Aと人物Eとの間には直接メールのやり取りが行われていないことがわかる。 Moreover, the e-mail exchange is frequently performed between the persons A and B, between the persons A and E it can be seen that not performed directly mail exchange.

【0041】上記のように、文書間の関係に基づいて文書作成者間の関係情報を作成することにより、たとえば、話題にのぼった事柄に関して詳しいと思える人物、 [0041] As described above, by creating a relationship information between documents author based on the relationship between the documents, for example, the person seems the detailed terms of things that went up to the topic,
また頻繁にコミュニケーションをする人物等を見つけやすい。 Also frequently easier to find the person or the like to the communication. また、上記のようにグラフを使用した表示は電子メールソフトのインターフェースにも利用可能である。 The display using the graph as described above can also be used in e-mail software interface.

【0042】 [0042]

【発明の効果】本発明によれば、複数のメール文書及びメール文書に関連する文書をそれらの文書内容、例えば特定の話題等に従ってグループ化できる。 According to the present invention, the documents related to a plurality of mail documents and mail document can be grouped according to their document content, e.g., a particular topic or the like.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】 本発明の実施の形態に係る文書処理システムの全体構成を示す図である。 Is a diagram showing an overall configuration of a document processing system according to an embodiment of the present invention; FIG.

【図2】 電子メール文書の内容を示す図である。 FIG. 2 is a diagram showing the contents of the e-mail document.

【図3】 電子メール本文中の引用箇所を示す図である。 FIG. 3 is a diagram showing the citations in the body of the email.

【図4】 複数の文書を引用関係に基づいてグループ化する処理を示すフローチャートである。 [4] a plurality of documents is a flowchart showing a process of grouping based on the citation.

【図5】 引用関係の有無の判定の処理を示すフローチャートである。 5 is a flowchart showing a process of determination of the presence or absence of citation.

【図6】 関係情報を示す図である。 FIG. 6 is a graph showing the relationship between information.

【図7】 再グループ化の処理を示すフローチャートである。 7 is a flowchart showing the process of regrouping.

【図8】 文書作成者のグループ化を示す図である。 FIG. 8 is a diagram showing the grouping of the document creator.

【符号の説明】 DESCRIPTION OF SYMBOLS

10 文書処理システム、12 メールサーバ、14 文書処理装置、16,26 制御部、17 RAM、18 10 document processing system, 12 a mail server, 14 document processing apparatus, 16, 26 control unit, 17 RAM, 18
ROM、19 ハードディスク、20 操作部、22 表示部、24,28 ネットワークインターフェース、3 ROM, 19 a hard disk, 20 operation unit, 22 display unit, 24 and 28 network interface, 3
4 電子メール、36 ヘッダ、38 本文、40,50 4 e-mail, 36 header, 38 text, 40, 50
引用コード。 Quote code.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊知地 宏 神奈川県横浜市西区みなとみらい3丁目3 番1号 富士ゼロックス株式会社内 Fターム(参考) 5B075 NR12 UU24 ────────────────────────────────────────────────── ─── front page of the continuation (72) inventor Ichichi Hiroshi Yokohama City, Kanagawa Prefecture Minato Mirai, Nishi 3-chome third No. 1 Fuji Xerox Co., Ltd. in the F-term (reference) 5B075 NR12 UU24

Claims (7)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 ヘッダと本文とからなる電子メール文書を蓄積するサーバに接続された文書処理装置において、 電子メール文書の前記本文中に引用されている引用部分に基づいて、当該引用部分の引用元の文書と当該電子メール文書とを関係づける文書関係情報を生成する手段と、 前記文書関係情報に基づいて特定の話題に関連する複数の文書をグループ化する手段と、 を備えることを特徴とする文書処理装置。 1. A header and a body and a document processing device connected to a server for storing electronic mail document consisting of, based on the cited portion cited in the e-mail document text, quote of the quotation and wherein the means for generating a document related information relating the original document and the corresponding e-mail document, and means for grouping a plurality of documents related to a particular topic based on the document related information, in that it comprises document processing apparatus for.
  2. 【請求項2】 請求項1記載の文書処理装置において、 前記文書関係情報を生成する手段は文書間の関係の重みに関する情報を生成し、 前記関係の重みに関する情報に基づいてグループ化した前記複数の文書を再度グループ化する手段を含むことを特徴とする文書処理装置。 2. A document processing apparatus according to claim 1, wherein the plurality means for generating said document relationship information that generates information about the weight of the relationship between the documents were grouped based on the information about the weight of the relationship document processing apparatus comprising a means for re-grouping documents.
  3. 【請求項3】 請求項1又は2いずれかに記載の文書処理装置において、 前記文書関係情報を生成する手段は前記ヘッダに記載されている情報に基づいて引用部分又は引用元の少なくとも一方を特定する手段を含むことを特徴とする文章処理装置。 3. The document processing apparatus according to claim 1 or 2, means for generating the document relationship information specifying at least one of the quotations or reference source on the basis of the information described in the header text processing apparatus characterized by comprising means for.
  4. 【請求項4】 サーバに蓄積され、ヘッダと本文によってなる電子メール文書の前記本文中に引用されている引用部分に基づいて、当該引用部分の引用元の文書と当該電子メール文書とを関係づける工程と、 関係づけられた複数の文書を特定の話題に関連する文書としてグループ化する工程と、 を含むことを特徴とする文書処理方法。 4. A stored in a server, based on the cited portion cited in the e-mail document including the header and body text, relating the document and the electronic mail document cited source of the quotation process and document processing method characterized by comprising the steps of grouping a plurality of documents that are related as documents related to a particular topic.
  5. 【請求項5】 請求項4に記載の文書処理方法において、 文書間の関係の重みに関する情報を生成する工程と、 前記関係の重みに関する情報に基づいてグループ化した前記複数の文書を再度グループ化する工程と、 を含むことを特徴とする文書処理方法。 5. The document processing method according to claim 4, process and again grouping the plurality of documents grouped based on the information about the weight of the relationship to generate information about the weight of the relationship between documents document processing method which comprises the steps of, a.
  6. 【請求項6】 ヘッダと本文とからなる電子メール文書を蓄積するサーバに接続されたコンピュータに 電子メール文書の前記本文中に引用されている引用部分に基づいて、当該引用部分の引用元の文書と当該電子メール文書とを関係づける文書関係情報を生成する手順と、 前記文書関係情報に基づいて前記特定の話題に関連する複数の文書をグループ化する手順と、 を実行させることを特徴とする文書処理プログラム。 6. Based on the cited portion cited in the header and body and the e-mail document a computer connected to the server to accumulate consisting in the body of the e-mail document, cited original document of the quotation wherein and the step of generating a document related information relating the the e-mail document, that is the execution, a step of grouping a plurality of documents related to the particular topic based on the document related information document processing program.
  7. 【請求項7】 ヘッダと本文とからなる電子メール文書を蓄積するサーバに接続されたコンピュータに電子メール文書の前記本文中に引用されている引用部分に基づいて、当該引用部分の引用元の文書と当該電子メール文書とを関係づける文書関係情報を生成する手順と、 前記文書関係情報に基づいて前記特定の話題に関連する複数の文書をグループ化する手順と、 前記グループ化された複数の文書を所定のフォームにしたがって表示する手順と、 を実行させることを特徴とする電子メールプログラム。 7. Based on the cited portion cited in the header and the body and a computer connected to a server for storing electronic mail document including in the body of the e-mail document, cited original document of the quotation the a procedure of generating a document related information that relates an electronic mail document, a step of grouping a plurality of documents related to the particular topic based on the document related information, said grouped plurality of documents with the e-mail program, characterized in that to execute a procedure for displaying according to predetermined forms.
JP2001015117A 2001-01-23 2001-01-23 Document processing device Pending JP2002215645A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001015117A JP2002215645A (en) 2001-01-23 2001-01-23 Document processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001015117A JP2002215645A (en) 2001-01-23 2001-01-23 Document processing device

Publications (1)

Publication Number Publication Date
JP2002215645A true JP2002215645A (en) 2002-08-02

Family

ID=18881723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001015117A Pending JP2002215645A (en) 2001-01-23 2001-01-23 Document processing device

Country Status (1)

Country Link
JP (1) JP2002215645A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device
JP2007323561A (en) * 2006-06-05 2007-12-13 Nec Corp Document collaboration history management system, mail system, and document collaboration history management method
JP2008210196A (en) * 2007-02-27 2008-09-11 Brother Ind Ltd E-mail communication equipment
WO2008126862A1 (en) * 2007-04-10 2008-10-23 Nec Corporation Information providing system
JP2011509557A (en) * 2007-12-20 2011-03-24 バイトボーン テクノロジーズ リミテッドByteborne Technologies Limited Communication router
JP2012064241A (en) * 2011-12-14 2012-03-29 Mitsubishi Space Software Kk Mail data sorting device, mail data sorting program and mail data sorting method
JP5278327B2 (en) * 2007-10-19 2013-09-04 日本電気株式会社 Document analysis method, document analysis system, and document analysis program
JP2014142738A (en) * 2013-01-23 2014-08-07 Fujitsu Ltd Management method, management device and management program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device
JP2007323561A (en) * 2006-06-05 2007-12-13 Nec Corp Document collaboration history management system, mail system, and document collaboration history management method
JP2008210196A (en) * 2007-02-27 2008-09-11 Brother Ind Ltd E-mail communication equipment
US8073914B2 (en) 2007-02-27 2011-12-06 Brother Kogyo Kabushiki Kaisha Electronic mail communication device
US8171096B2 (en) 2007-02-27 2012-05-01 Brother Kogyo Kabushiki Kaisha Electronic mail communication device
WO2008126862A1 (en) * 2007-04-10 2008-10-23 Nec Corporation Information providing system
JP5381704B2 (en) * 2007-04-10 2014-01-08 日本電気株式会社 Information provision system
JP5278327B2 (en) * 2007-10-19 2013-09-04 日本電気株式会社 Document analysis method, document analysis system, and document analysis program
JP2011509557A (en) * 2007-12-20 2011-03-24 バイトボーン テクノロジーズ リミテッドByteborne Technologies Limited Communication router
JP2012064241A (en) * 2011-12-14 2012-03-29 Mitsubishi Space Software Kk Mail data sorting device, mail data sorting program and mail data sorting method
JP2014142738A (en) * 2013-01-23 2014-08-07 Fujitsu Ltd Management method, management device and management program

Similar Documents

Publication Publication Date Title
US7522910B2 (en) Method and apparatus for controlling data provided to a mobile device
EP1428139B1 (en) System and method for extracting content for submission to a search engine
US9009153B2 (en) Systems and methods for identifying a named entity
CN101243433B (en) Acquisition method of syndication feed items via an information workflow application
EP1085444B1 (en) Thread based e-mail including transmitting one e-mail copy and host-specific e-mail distribution lists
US6185603B1 (en) Method and system for delivery of e-mail and alerting messages
KR101173813B1 (en) Conversation-based email with list of senders in a conversation
US7707167B2 (en) Method, system, and apparatus for creating a knowledge interchange profile
US7444328B2 (en) Keyword-driven assistance
US7269784B1 (en) Server-originated differential caching
US9063990B2 (en) Providing snippets relevant to a search query in a conversation-based email system
US6782393B1 (en) Method and system for electronic message composition with relevant documents
US7222157B1 (en) Identification and filtration of digital communications
US20060074863A1 (en) Method, system, and apparatus for maintaining user privacy in a knowledge interchange system
US7716593B2 (en) Conversation grouping of electronic mail records
US8230032B2 (en) Message data management
US20060282503A1 (en) Email emotiflags
US20010018687A1 (en) Apparatus and method of implementing fast internet real-time search technology (FIRST)
EP1447765B1 (en) Method, apparatus, and user interface for managing electronic mail and alert messages
US20050041789A1 (en) Method and apparatus for filtering electronic mail
US20090030997A1 (en) Method and Apparatus for Minimizing Storage of Common Attachment Files in an E-Mail Communications Server
US7454467B2 (en) Method for managing email messages
US10482429B2 (en) Automatic grouping of electronic mail
US7769144B2 (en) Method and system for generating and presenting conversation threads having email, voicemail and chat messages
US7593924B2 (en) Method, system, and apparatus for receiving and responding to knowledge interchange queries