JP2007133516A - Document sorting method, document sorting program and document sorting device - Google Patents

Document sorting method, document sorting program and document sorting device Download PDF

Info

Publication number
JP2007133516A
JP2007133516A JP2005324059A JP2005324059A JP2007133516A JP 2007133516 A JP2007133516 A JP 2007133516A JP 2005324059 A JP2005324059 A JP 2005324059A JP 2005324059 A JP2005324059 A JP 2005324059A JP 2007133516 A JP2007133516 A JP 2007133516A
Authority
JP
Japan
Prior art keywords
document
similarity
common
documents
cited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005324059A
Other languages
Japanese (ja)
Inventor
Yosuke Kunishi
洋介 国司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shin Etsu Polymer Co Ltd
Shin Etsu Chemical Co Ltd
Original Assignee
Shin Etsu Polymer Co Ltd
Shin Etsu Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shin Etsu Polymer Co Ltd, Shin Etsu Chemical Co Ltd filed Critical Shin Etsu Polymer Co Ltd
Priority to JP2005324059A priority Critical patent/JP2007133516A/en
Publication of JP2007133516A publication Critical patent/JP2007133516A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document sorting method for reducing any influence due to the variations of the notation of a document. <P>SOLUTION: Similarity based on a common keyword between two documents among documents to be sorted and similarity based on a common cited document are calculated. The mean value of those similarity is defined as document similarity between the two documents. An stable inter-document distance is calculated based on the document similarity for each of those two documents. The documents to be sorted are arranged in a coordinate system, and each document is moved so that each of the two documents has the stable inter-document distance, thereby enabing the strongly relevant documents to be gathered. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法に関するものである。   The present invention relates to a document classification method for classifying a plurality of documents to be classified according to their contents.

従来、共通キーワードの非一般性の評価値に基づいて文書間の類似度を算出する文書分類方法があった。
特開平8−221447号公報 特許第3385297号公報 特開2003−288352号公報 特開2002−312803号公報
Conventionally, there has been a document classification method for calculating similarity between documents based on an evaluation value of non-generality of a common keyword.
Japanese Patent Laid-Open No. 8-222447 Japanese Patent No. 3385297 JP 2003-288352 A JP 2002-312803 A

しかし、従来の文書分類方法によると、文書の内容が類似する場合(例えば国際特許分類のサブグループが同一である特許文献の場合)、表記のゆれの影響が大きくなり、適切な文書分類ができないという問題点があった。   However, according to the conventional document classification method, when the contents of the documents are similar (for example, in the case of patent documents in which the subgroup of the international patent classification is the same), the influence of the fluctuation of the notation becomes large and appropriate document classification cannot be performed. There was a problem.

本発明は、上記課題に鑑みてなされたものであり、文書の表記のゆれによる影響が少ない文書分類方法を提供することを目的とする。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a document classification method that is less affected by fluctuations in document notation.

本発明の文書分類方法は、複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、前記分類対象文書のうちの2文書で共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、前記分類対象文書のうちの2文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出ステップと、各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値(出現数が大きくなるに従い評価値=重みが小さくなるように設定されている。)を算出する共通キーワード評価値算出ステップと、各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値(出現数が大きくなるに従い評価値=重みが小さくなるように設定されている。)を算出する前記共通引用文献評価値算出ステップと、各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの2文書の共通キーワードに基づく類似度を算出するキーワード類似度算出ステップと、 各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの2文書の共通引用文献に基づく類似度を算出する引用文献類似度算出ステップと、共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、前記分類対象文書を座標系に配置し、前記文書類似度が高い2文書が近づき、前記文書類似度が低い2文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備える ことを特徴とする。共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合することにより、表記のゆれによる影響を小さくすることができる。また、共通キーワードに基づく類似度も文書類似度に反映されるので対象分野が異なる文書についても適切な類似度を取得することができる。   The document classification method of the present invention is a document classification method for classifying a plurality of classification target documents according to their contents, and extracts a common keyword that appears in common among two of the classification target documents. An extraction step, a common cited reference extracting step for extracting common cited references that are commonly cited in two of the documents to be classified, and a word included in each keyword reference document with an identification number of the keyword reference document The number of occurrences of the common keyword in the keyword table is counted with reference to the keyword table stored in association with the keyword table, and the non-generality evaluation value of the common keyword is evaluated based on the number of occurrences (evaluation as the number of occurrences increases). Value = weight is set to be small)) and a common keyword evaluation value calculating step for calculating Referring to the cited document table that stores the documents cited in the document reference document in association with the identification number of the cited document reference document, count the number of appearances of the common cited document in the cited document table, A common citation evaluation value calculation step for calculating an evaluation value of non-generality of the common citation based on the evaluation value (the evaluation value is set so that the weight becomes smaller as the number of appearances increases); A keyword similarity calculation step of calculating the similarity based on a common keyword of two documents of the classification target documents by adding the evaluation values of the keywords; and adding the evaluation values of each of the common cited documents, A cited document similarity calculating step for calculating a similarity based on a common cited document of two documents of the target document, a similarity based on a common keyword, and a common quote A document similarity calculation step for calculating a document similarity that combines the similarity based on the contribution, and the classification target document is arranged in a coordinate system, and the two documents having a high document similarity approach each other, and the document similarity is low A document moving step of performing a process of moving each of the classification target documents so that the two documents move away from each other. By combining the similarity based on the common keyword and the similarity based on the common cited document, it is possible to reduce the influence of the fluctuation of the notation. Further, since the similarity based on the common keyword is also reflected in the document similarity, an appropriate similarity can be acquired even for documents with different target fields.

本発明では、共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合するに先立って、共通キーワードに基づく類似度を適当な数で除して重みを小さくすることが好適である。これにより、共通キーワードに基づく類似度に基づき大雑把な文書分類を行った上、共通引用文献に基づく類似度に基づき細かい文書分類を行ったのと同じ効果を得ることができる。   In the present invention, prior to combining the similarity based on the common keyword and the similarity based on the common cited document, it is preferable to reduce the weight by dividing the similarity based on the common keyword by an appropriate number. Thereby, after performing rough document classification based on the similarity based on the common keyword, the same effect as performing fine document classification based on the similarity based on the common cited document can be obtained.

本発明の好適な形態は、特許請求の範囲中の独立項で特定される形態に、従属項中の構成要素のうち任意のもの(従属項中の構成要素のあらゆる組み合わせ)を付加した形態を含む。   The preferred form of the present invention is a form obtained by adding any of the constituent elements in the dependent claims (any combination of constituent elements in the dependent claims) to the form specified by the independent claims in the claims. Including.

文書の表記のゆれによる影響が少なくなると共に、対象分野が異なる文書についても適切な類似度を取得することができる。   It is possible to obtain an appropriate degree of similarity even for documents with different target fields, as well as the influence of fluctuations in document notation is reduced.

以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。図1は、本発明による文書分類装置の一実施形態を示すブロック図である。文書分類装置1は、複数の分類対象文書を、各分類対象文書の内容に応じて分類するものである。文書分類装置1は、データベース10、安定文書間距離算出部22、配置文書選択部23、位置座標初期値設定部24、文書間力ベクトル算出部26、及び位置座標更新部28を備えている。データベース10は、分類対象文書DB12、安定文書間距離DB14、位置座標DB16及び文書間力ベクトルDB18を有している。分類対象文書DB12は、複数の分類対象文書を各文書を特定する文書コードに関連付けて格納している。分類対象文書は、分類対象文書DB12に予め格納されているが、適宜の入力手段により必要に応じて入力することもできる。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. FIG. 1 is a block diagram showing an embodiment of a document classification apparatus according to the present invention. The document classification device 1 classifies a plurality of classification target documents according to the contents of each classification target document. The document classification device 1 includes a database 10, a stable inter-document distance calculation unit 22, an arrangement document selection unit 23, a position coordinate initial value setting unit 24, an inter-document force vector calculation unit 26, and a position coordinate update unit 28. The database 10 includes a classification target document DB 12, a stable inter-document distance DB 14, a position coordinate DB 16, and an inter-document force vector DB 18. The classification target document DB 12 stores a plurality of classification target documents in association with document codes that specify each document. The classification target document is stored in the classification target document DB 12 in advance, but can be input as necessary by an appropriate input unit.

安定文書間距離DB14は、安定文書間距離算出部22により算出される安定文書間距離を文書コードに関連付けて格納する。図2は、文書間距離DB14のデータベースの一例を示す構成図である。この図に示すように、各2文書間の安定文書間距離が、それらの文書コード(P0001,P0002,・・・)に関連付けられて格納されている。例えば、この場合、文書(P0001)と文書(P0002)との間の安定文書間距離は、0.005である。   The stable inter-document distance DB 14 stores the stable inter-document distance calculated by the stable inter-document distance calculation unit 22 in association with the document code. FIG. 2 is a configuration diagram illustrating an example of the database of the inter-document distance DB 14. As shown in this figure, the stable inter-document distance between two documents is stored in association with the document codes (P0001, P0002,...). For example, in this case, the stable inter-document distance between the document (P0001) and the document (P0002) is 0.005.

位置座標DB16は、位置座標初期値設定部24により設定される各文書の位置座標の初期値、及び位置座標更新部28により更新された位置座標を文書コードに関連付けて格納する。図3は、位置座標DB16のデータベースの一例を示す構成図である。この図に示すように、各文書の位置座標(X座標,Y座標)が文書コードに関連付けられて格納されている。例えば、この場合、文書(P0003)の位置座標は、(0.5155,0.3417)である。   The position coordinate DB 16 stores the initial value of the position coordinate of each document set by the position coordinate initial value setting unit 24 and the position coordinate updated by the position coordinate update unit 28 in association with the document code. FIG. 3 is a configuration diagram illustrating an example of the database of the position coordinate DB 16. As shown in this figure, the position coordinates (X coordinate, Y coordinate) of each document are stored in association with the document code. For example, in this case, the position coordinates of the document (P0003) are (0.5155, 0.3417).

文書間力ベクトルDB18は、文書間力ベクトル算出部26により算出される総和文書間力ベクトルを文書コードに関連付けて格納する。図4は、総和文書間力ベクトルDB18のデータベースの一例を示す構成図である。この図に示すように、各文書に働く総和文書間力ベクトル(FX,FY)が文書コードに関連付けられて格納されている。例えば、この場合、文書(P0002)の総和文書間力ベクトルは(0.007,‐0.003)である。   The inter-document force vector DB 18 stores the total inter-document force vector calculated by the inter-document force vector calculation unit 26 in association with the document code. FIG. 4 is a configuration diagram illustrating an example of the database of the total inter-document force vector DB 18. As shown in this figure, the total inter-document force vector (FX, FY) working on each document is stored in association with the document code. For example, in this case, the total inter-document force vector of the document (P0002) is (0.007, -0.003).

安定文書間距離算出部22は、分類対象文書DB12に格納されている複数の分類対象文書について、各2文書間の安定文書間距離を、両文書の類似する程度に応じて算出する。この安定文書間距離は、両文書の内容が類似する程度が高いほど小さく、類似する程度が低いほど大きくなる。   The stable inter-document distance calculation unit 22 calculates a stable inter-document distance between two documents for a plurality of classification target documents stored in the classification target document DB 12 according to the degree of similarity between the two documents. The stable inter-document distance decreases as the degree of similarity between both documents increases and decreases as the degree of similarity decreases.

位置座標初期値設定部24は、2次元座標平面上における各文書の位置座標の初期値を設定する。位置座標初期値設定部24における初期値の設定方法の一例を説明する。説明の便宜のため、分類対象文書数をN(Nは2以上の整数)とし、各文書をT(i=1,2,・・・,N)と表すことにする。まず、文書Tと文書T(j=1,2,・・・,N、j≠i)との間の安定文書間距離L(i,j)をテーブルLに読み込む。全ての(i,j)の組について安定文書間距離L(i,j)を読み込んだ後、L(i,j)の平均値Lavgを求める。そして、各文書Tの位置座標(X,Y)を下記式、
=Lavg×rnd
=Lavg×rnd
から求める。ここで、rndは乱数を表している。これにより、各文書の位置座標の初期値が設定される。なお、安定文書間距離L(i,j)は平均値Lavgで除されることにより、正規化される。
The position coordinate initial value setting unit 24 sets the initial value of the position coordinate of each document on the two-dimensional coordinate plane. An example of an initial value setting method in the position coordinate initial value setting unit 24 will be described. For convenience of explanation, the number of documents to be classified is N (N is an integer of 2 or more), and each document is represented as T i (i = 1, 2,..., N). First, the document T i and the document T j reads (j = 1,2, ···, N , j ≠ i) stable document distance L 0 (i, j) between the in table L a. After reading the stable inter-document distance L 0 (i, j) for all (i, j) pairs, the average value L avg of L 0 (i, j) is obtained. Then, the position coordinates (X i , Y i ) of each document T i are expressed by the following equation:
X i = L avg × rnd
Y i = L avg × rnd
Ask from. Here, rnd represents a random number. Thereby, the initial value of the position coordinate of each document is set. The stable inter-document distance L 0 (i, j) is normalized by dividing by the average value L avg .

文書間力ベクトル算出部26は、各文書に働く総和文書間力ベクトルを算出する。総和文書間力ベクトルとは、各文書が他の文書から受ける文書間力のベクトル和である。また、文書間力とは、各2文書の位置座標から求められる座標平面上における距離が上記の安定文書間距離よりも大きい場合には両文書間に引力が働き、逆に座標平面上における距離が安定文書間距離よりも小さい場合には両文書間に斥力が働くと仮定して導入した概念である。これらの力の大きさは、座標平面上における距離と安定文書間距離との差の絶対値が増加するにつれて大きくなり、上記絶対値が減少するにつれて小さくなる。また、座標平面上における距離が安定文書間距離と一致する場合には、両文書間に働く文書間力は0である。   The inter-document force vector calculation unit 26 calculates a total inter-document force vector that works on each document. The total inter-document force vector is a vector sum of inter-document forces that each document receives from other documents. Further, the inter-document force means that when the distance on the coordinate plane obtained from the position coordinates of each of the two documents is larger than the above-mentioned stable inter-document distance, an attractive force acts between both documents, and conversely, the distance on the coordinate plane This is a concept introduced on the assumption that repulsive force acts between both documents when the distance is smaller than the distance between stable documents. The magnitude of these forces increases as the absolute value of the difference between the distance on the coordinate plane and the stable inter-document distance increases and decreases as the absolute value decreases. When the distance on the coordinate plane matches the stable inter-document distance, the inter-document force acting between the two documents is zero.

文書間力ベクトル算出部26における文書間力ベクトルの算出方法の一例を説明する。まず、文書Tと文書Tの距離L(i,j)をその処理時点(現処理時点)(特に本実施形態では、位置座標の更新について「現処理時点」、「次回処理時点」というとき、「現処理時点」とは、移動処理(全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理)の繰返処理において、ある回が開始する時点を指し、「次回処理時点」とは、当該ある回の次の回が開始する時点を指すものとする。)における両者の位置座標に基づいて、下記式、
L(i,j)={(X−Y+(Xj−Yj0.5
から求める。なお、「その処理時点における両者の位置座標に基づいて」とあるのは、後述するように、各文書Tの位置座標は必要に応じて更新されるため、常に同じ値をとるとは限らないからである。次に、文書Tと文書Tの文書間力f(i,j)を下記式、
f(i,j)=(L(i,j)−L(i,j))/(L(i,j)+ε1)α
から求める。ここで、ε1は、L(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。αは、安定文書間距離L(i,j)が小さくなるに連れて文書間力f(i,j)が指数関数的に大きくように設定される。こうすることにより、文書間の類似度が高いときにより大きな文書間力が働くようになる。その結果、類似する文書の集団を形成するのが容易になると共に集団が配置される位置が人間の感覚に近いものになり、また分類対象文書数Nが多くなっても容易に収束させることができる。分類対象文書数が比較的少数である場合(Nが50未満の場合)にはα=0.8〜2.3の何れかの値に設定される。Nが100を超える場合にはα=1.8〜2.2の何れかの値に設定することにより容易に収束させることができる。特に、N=101〜3000の場合にはα=2とするのが好適である。特に、分類対象文書を2次元空間にマッピングする場合、αが上記範囲より小さい場合は、移動処理の繰返処理の過程で一部文書の座標が収束せず発散するケースが多くなり、上記範囲より大きい場合は、個々の文書の内容を反映しない均一な文書の集団を形成しやすくなる。次に、文書Tが文書Tから受ける文書間力のX成分fX(i,j)及びY成分fY(i,j)を下記式、
fX(i,j)=f(i,j)×(X−X)/(L(i,j)+ε2)β
fY(i,j)=f(i,j)×(Y−Y)/(L(i,j)+ε2)β
から求める。ここで、ε2は、L(i,j)が0のときに対応するための定数であり、例えば1×10−12とされる。また、βは、例えば0.5に設定される。最後に、各文書Tに働く文書間力の総和のX成分FX及びY成分FYを下記式、
FX=ΣfX(i,j)
FY=ΣfY(i,j)
から求める。ここで、Σは、全ての配置済み文書についての和をとることを意味する。このようにして算出されたFX及びFYを成分とするベクトルが上述の総和文書間力ベクトルである。
An example of a method for calculating the inter-document force vector in the inter-document force vector calculation unit 26 will be described. First, the distance L (i, j) between the document T i and the document T j is referred to as a processing time point (current processing time point) (in particular, in the present embodiment, the update of position coordinates is referred to as “current processing time point” and “next processing time point”). The “current processing time point” refers to the movement process (the process of calculating the total inter-document force vector and updating the position coordinates based on the total or part of each of the arranged documents is determined as the convergence of the position coordinates. In the repetitive processing of (repeating until a certain time), the time point at which a certain time starts is referred to, and the “next processing time point” indicates the time point at which the next time after the certain time starts). Based on the coordinates,
L (i, j) = {(X i −Y i ) 2 + (X j −Y j ) 2 } 0.5
Ask from. Incidentally, the term "based on the position coordinates of the two in the processing time," as will be described later, the position coordinates are updated as required in each document T i, always take the same value Because there is no. Next, the inter-document force f (i, j) between the document T i and the document T j is expressed by
f (i, j) = (L 0 (i, j) −L (i, j)) / (L 0 (i, j) + ε1) α
Ask from. Here, ε1 is a constant to cope with when L 0 (i, j) is 0, and is set to 1 × 10 −12 , for example. α is set so that the inter-document force f (i, j) increases exponentially as the stable inter-document distance L 0 (i, j) decreases. By doing so, a greater inter-document force works when the similarity between documents is high. As a result, it becomes easy to form a group of similar documents, the position where the group is arranged is close to the human sense, and it can be easily converged even if the number of classified documents N increases. it can. When the number of classification target documents is relatively small (when N is less than 50), α is set to any value between 0.8 and 2.3. When N exceeds 100, it can be easily converged by setting α to any value of 1.8 to 2.2. In particular, when N = 101 to 3000, α = 2 is preferable. In particular, when mapping a document to be classified into a two-dimensional space, if α is smaller than the above range, there are many cases where the coordinates of some documents do not converge and diverge in the course of repeated movement processing. If it is larger, it becomes easier to form a uniform document group that does not reflect the contents of individual documents. Next, the X component fX (i, j) and the Y component fY (i, j) of the inter-document force that the document T i receives from the document T j are expressed by the following equations:
fX (i, j) = f (i, j) × (X i -X j) / (L (i, j) + ε2) β
fY (i, j) = f (i, j) × (Y i -Y j) / (L (i, j) + ε2) β
Ask from. Here, ε2 is a constant to cope with L (i, j) being 0, for example, 1 × 10 −12 . Β is set to 0.5, for example. Finally, the X component FX i and the Y component FY i of the sum of the inter-document forces acting on each document T i are expressed by the following equations:
FX i = Σ j fX (i, j)
FY i = Σ j fY (i, j)
Ask from. Here, Σ j means taking the sum of all placed documents. The vector having FX i and FY i calculated in this way as components is the above-described total inter-document force vector.

位置座標更新部28は、文書間力ベクトル算出部26により算出された総和文書間力ベクトルの絶対値が小さくなるように、各文書の位置座標を更新する。位置座標更新部28における位置座標の更新方法の一例を説明する。すなわち、各文書Tの位置座標(X,Y)は、文書間力ベクトル算出部26により算出された文書間力ベクトル(FX,FY)に基づいて、下記式、
’=X−k×FX
’=Y−k×FY
により更新される。ここで、(X’,Y’)は、更新後の位置座標を表す。また、kは移動係数であり、例えば1×10−23以上1×10−22以下の定数とされる。上記式は、各文書Tを、文書間力ベクトルの向きに、そのベクトルの絶対値の大きさに比例した距離だけ移動させることを意味している。更新された位置座標は、位置座標DB16に格納され、それまで格納されていた位置座標に対して上書きされる。本実施形態において位置座標更新部28は、位置座標の更新と併せて、各文書Tの移動距離の平均値MLを下記式、
ML=Σ{(k×FX+(k×FY0.5
から求める。この平均値MLは、後述する収束条件判定部30による収束条件の判定の際に用いられる。
The position coordinate update unit 28 updates the position coordinates of each document so that the absolute value of the total inter-document force vector calculated by the inter-document force vector calculation unit 26 becomes small. An example of the position coordinate update method in the position coordinate update unit 28 will be described. That is, the position coordinates (X i , Y i ) of each document T i are expressed by the following equation based on the inter-document force vector (FX i , FY i ) calculated by the inter-document force vector calculation unit 26:
X i ′ = X i −k × FX i
Y i ′ = Y i −k × FY i
Updated by Here, (X i ′, Y i ′) represents the updated position coordinates. Further, k is a movement coefficient, for example, a constant not less than 1 × 10 −23 and not more than 1 × 10 −22 . The above formula, each document T i, in the direction of the document between the force vector, which means that is moved by a distance proportional to the magnitude of the absolute value of the vector. The updated position coordinates are stored in the position coordinate DB 16 and are overwritten on the position coordinates stored so far. Position coordinate update section 28 in the present embodiment, in conjunction with the updated coordinates, an average value ML of the movement distance of each document T i the following formula,
ML = Σ {(k × FX i ) 2 + (k × FY i ) 2 } 0.5
Ask from. This average value ML is used when determining the convergence condition by the convergence condition determination unit 30 described later.

文書分類装置1は、収束条件判定部30、表示部32(出力手段)、及び入力部34をさらに備えている。収束条件判定部30は、位置座標更新部28により位置座標が更新された後に、収束条件の判定を行う。例えば、上述の位置座標更新部28において求められた平均値MLが規定値以下になることを収束条件として設定することができる。この収束条件が満たされないときは、収束条件判定部30は、文書間力ベクトル算出部26に更新後の位置座標を用いて再度総和文書間力ベクトルを算出させるとともに、位置座標更新部28にその総和文書間力ベクトルを用いて再度位置座標を更新させる。したがって、位置座標更新部28による位置座標の更新は、上述の収束条件が満たされるまで実行される。   The document classification device 1 further includes a convergence condition determination unit 30, a display unit 32 (output unit), and an input unit 34. The convergence condition determination unit 30 determines the convergence condition after the position coordinates are updated by the position coordinate update unit 28. For example, it can be set as a convergence condition that the average value ML obtained by the position coordinate update unit 28 is equal to or less than a specified value. When the convergence condition is not satisfied, the convergence condition determination unit 30 causes the inter-document force vector calculation unit 26 to calculate the total inter-document force vector again using the updated position coordinates, and causes the position coordinate update unit 28 to The position coordinates are updated again using the total inter-document force vector. Therefore, the update of the position coordinates by the position coordinate update unit 28 is executed until the above convergence condition is satisfied.

表示部32は、上述の収束条件が満たされ、位置座標更新部28による位置座標の更新が終了した後、決定した位置座標に基づいて、各文書T間の座標平面上における相対的な位置関係を可視化して表示する。表示部32における表示方法の一例を説明する。図5は、表示部32による結果表示画面の一例を示す図である。本例では、まず、表示エリア50をm×n個(ここではm=n=4)のセルに区切る。また、後述する入力部34により表示エリアを規定するX座標、Y座標それぞれの最大値(Xmax、Ymax)及び最小値(Xmin、Ymin)を入力する。なお、これらの値を入力せずに、既に決定されている全文書の位置座標から、X座標及びY座標それぞれについて、最大のもの及び最小のものをデフォルト値として用いることもできる。次に、表示部32は、入力されたこれらの値をから、各セルに相当する座標範囲を求める。そして、各セルに含まれる文書の数を、図5に示すように表示する。例えば、この場合、一番右上のセルに含まれる文書数は1である。さらに本例では、各セルに含まれる文書のイメージを作成するとともに、各セルにそのイメージをハイパーリンクさせる。図5に示すように、注目するセルにマウスポインタ52を合わせると、そのセルに含まれる文書を、該当文書リストとして表示させることができる。ここでは、分類対象文書として公開特許公報等の特許文献(外国語又は外国で発行された特許文献も含む。)を想定しており、該当文書リストには特許文献の種別と公報番号とを表示させている。また、これらの表示にはハイパーリンクが貼られているので、例えば「特開平8−○○○○○○号公報」と表示されている部分を画面上でクリックすれば、その公開特許公報のイメージにアクセスして、その内容を見ることができる。 Display unit 32, the convergence condition described above is satisfied, after the updating of the position coordinates by the position coordinate update section 28 has been completed, based on the determined position coordinates, relative position on the coordinate plane between the document T i Visualize and display relationships. An example of a display method on the display unit 32 will be described. FIG. 5 is a diagram illustrating an example of a result display screen by the display unit 32. In this example, first, the display area 50 is divided into m × n cells (here, m = n = 4). Further, the maximum value (X max , Y max ) and the minimum value (X min , Y min ) of the X coordinate and Y coordinate that define the display area are input by the input unit 34 described later. In addition, without inputting these values, the maximum and minimum values of the X coordinate and the Y coordinate can be used as default values from the position coordinates of all documents that have already been determined. Next, the display part 32 calculates | requires the coordinate range corresponded to each cell from these input values. Then, the number of documents included in each cell is displayed as shown in FIG. For example, in this case, the number of documents included in the upper right cell is one. Further, in this example, an image of a document included in each cell is created, and the image is hyperlinked to each cell. As shown in FIG. 5, when the mouse pointer 52 is moved to a cell of interest, the documents included in the cell can be displayed as a corresponding document list. Here, patent documents such as published patent gazettes (including patent documents issued in foreign languages or foreign countries) are assumed as classification target documents, and the type and gazette number of patent documents are displayed in the corresponding document list. I am letting. In addition, since hyperlinks are pasted on these displays, for example, if a portion displayed as “JP-A-8-XXXXX” is clicked on the screen, the published patent gazette You can access the image and see its contents.

入力部34は、表示部32により表示される対象となる座標平面上における表示エリア等を入力するためのものであり、例えばキーボードやマウス等が用いられる。例えば、図5の例では、表示エリア50を規定するXmax、Ymax、Xmin、Yminの値を入力部34から入力することができる。入力された情報は、表示部32へと渡される。 The input unit 34 is for inputting a display area or the like on a coordinate plane to be displayed by the display unit 32, and for example, a keyboard or a mouse is used. For example, in the example of FIG. 5, values of X max , Y max , X min , and Y min that define the display area 50 can be input from the input unit 34. The input information is passed to the display unit 32.

次に、文書分類装置1の動作を説明し、併せて本発明による文書分類方法の一実施形態を説明する。図6は、初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。先ず、安定文書間距離算出部22が、分類対象文書DB12に格納されている分類対象文書を読み込んで各2文書間の安定文書間距離を算出し、算出した安定文書間距離を安定文書間距離DB14に格納させる(S61)。続いて、安定文書間距離算出部22が、文書間距離DB14に格納されている安定文書間距離を読み込んで平均値を算出し(S62)、各安定文書間距離をこの平均値で除することにより正規化して安定文書間距離DB14のデータを更新する(S63)。配置文書選択部23が、最初に表示座標系に配置する分類対象文書である初期配置文書Tをint√N(分類対象文書の総数Nの平方根の小数点以下を切り捨てた値)個選択する(S64)。位置座標初期値設定部24は、上記平均値を用いて各文書の位置座標の初期値を設定し、設定した位置座標の初期値を位置座標DB16に格納させる(S65)。そして、文書間力ベクトル算出部26が、文書間距離DB14に格納されている安定文書間距離及び位置座標DB16に格納されている位置座標を読み込み、それらの値を用いて、各文書に働く総和文書間力ベクトルを算出し、算出した総和文書間力ベクトルを文書間力ベクトルDB18に格納する(S66)。その後、位置座標更新部28が、文書間力ベクトルDB18に格納されている総和文書間力ベクトルを読み込み、そのベクトルに基づいて各文書の位置座標を更新し、更新した位置座標を位置座標DB16に格納させる(S67)。位置座標が更新されると、収束条件判定部30が収束条件の判定を行い、収束条件が満たされていない場合には上記ステップ(S66〜S67)を繰返し実行させる。収束条件が満たされている場合には、新たな分類対象文書を追加していく処理に移る。 Next, the operation of the document classification apparatus 1 will be described, and an embodiment of the document classification method according to the present invention will be described. FIG. 6 is a flowchart showing the initial process and the process of arranging and moving the initially arranged document in the two-dimensional display coordinate system. First, the stable inter-document distance calculation unit 22 reads the classification target document stored in the classification target document DB 12, calculates the stable inter-document distance between the two documents, and calculates the calculated stable inter-document distance as the stable inter-document distance. The data is stored in the DB 14 (S61). Subsequently, the stable inter-document distance calculation unit 22 reads the stable inter-document distance stored in the inter-document distance DB 14 to calculate an average value (S62), and divides each stable inter-document distance by this average value. Is normalized and the data in the stable inter-document distance DB 14 is updated (S63). The arrangement document selection unit 23 selects int√N (a value obtained by rounding down the decimal point of the square root of the total number N of the classification target documents) as the initial arrangement document T k that is the classification target document to be first arranged in the display coordinate system ( S64). The position coordinate initial value setting unit 24 sets the initial value of the position coordinate of each document using the average value, and stores the initial value of the set position coordinate in the position coordinate DB 16 (S65). Then, the inter-document force vector calculation unit 26 reads the stable inter-document distance stored in the inter-document distance DB 14 and the position coordinates stored in the position coordinate DB 16, and uses these values to calculate the total sum applied to each document. The inter-document force vector is calculated, and the calculated total inter-document force vector is stored in the inter-document force vector DB 18 (S66). Thereafter, the position coordinate update unit 28 reads the total document inter-force vector stored in the inter-document force vector DB 18, updates the position coordinates of each document based on the vector, and stores the updated position coordinates in the position coordinate DB 16. Store (S67). When the position coordinates are updated, the convergence condition determination unit 30 determines the convergence condition. If the convergence condition is not satisfied, the above steps (S66 to S67) are repeatedly executed. If the convergence condition is satisfied, the process proceeds to a process of adding a new classification target document.

文書分類装置1は、表示部32を備えている。これにより、ユーザは、表示部32による表示を見ることにより、容易に文書間の相対的な位置関係を知ることができる。なお、文書分類装置1に表示部32を設けない構成としてもよい。この場合、例えば、表示部32の代わりに分類結果を出力する出力部を設け、その出力内容を外部のディスプレイ等により表示、或いは外部のプリンタにより印刷させることとしてもよい。   The document classification device 1 includes a display unit 32. Thereby, the user can easily know the relative positional relationship between documents by viewing the display on the display unit 32. The document classification device 1 may be configured not to include the display unit 32. In this case, for example, an output unit that outputs the classification result may be provided instead of the display unit 32, and the output content may be displayed on an external display or printed by an external printer.

また、文書分類装置1は、表示エリア50(図5参照)に表示される範囲を規定するX座標及びY座標それぞれの最大値及び最小値を入力することのできる入力部34を備えている。これにより、ユーザは、座標平面上の所望の範囲を表示させ、その範囲における文書間の位置関係を詳細に知ることができる。   In addition, the document classification device 1 includes an input unit 34 that can input the maximum value and the minimum value of the X coordinate and the Y coordinate that define the range displayed in the display area 50 (see FIG. 5). As a result, the user can display a desired range on the coordinate plane and know in detail the positional relationship between documents in the range.

なお、位置座標更新部28は、各文書に働く文書間力ベクトルの絶対値を全ての分類対象文書について和をとった値が極小となるまで、位置座標の更新を実行することが好適である。この場合、全ての分類対象文書間で特に高い整合性を保ちつつ、各文書の位置座標を決定することができる。   Note that the position coordinate update unit 28 preferably executes the update of the position coordinates until the absolute value of the inter-document force vector acting on each document becomes the minimum value obtained by summing all the documents to be classified. . In this case, the position coordinates of each document can be determined while maintaining particularly high consistency among all the classification target documents.

図7は、図1の安定文書間距離算出部22の構成の一例を示すブロック図である。安定文書間距離算出部22は、各種文書からワード及び引用文献を抽出するワード・引用文献抽出部70と、ワード・引用文献抽出部70によって抽出されたワード及び引用文献を格納する各種データベース80とを備えている。   FIG. 7 is a block diagram showing an example of the configuration of the stable inter-document distance calculation unit 22 in FIG. The stable inter-document distance calculation unit 22 includes a word / cited document extracting unit 70 that extracts words and cited documents from various documents, and various databases 80 that store the words and cited documents extracted by the word / cited document extracting unit 70. It has.

ワード・引用文献抽出部70は、キー文書からワード及び引用文献をキーワード・引用文献として抽出するキーワード・引用文献抽出部71と、参照文書からワード及び引用文献を参照ワード・引用文献として抽出する参照ワード・引用文献抽出部72と、検索文書からワード及び引用文献を検索ワード・引用文献として抽出する検索ワード・引用文献抽出部73とを有している。ここで、「キー文書」及び「検索文書」の区分は便宜的なものであり、安定文書間距離算出部22においては、文書間距離を求めたい2文書のうちの一方がキー文書、他方が検索文書とされる。また、参照文書とは、キーワード評価値(各キーワードがキー文書に固有に含まれる程度(非一般性)を表す値)及び引用文献評価値(各引用文献がキー文書に固有に含まれる程度(非一般性)を表す値)を設定する際に参照される文書である。参照文書としては、例えば分類対象文書DB12(図1参照)内の全文書、或いは予めランダムに抽出した分類対象文書DB12内の一部の文書を用いることができる。参照文書は、適宜の入力手段により、必要に応じて安定文書間距離算出部22に入力することができる。また、安定文書間距離算出部22は、参照文書を格納する格納手段を備えている。   The word / cited document extracting unit 70 extracts a word / cited document from the key document as a keyword / cited document and a reference / extracting the word and the cited document as a reference word / cited document from the reference document. It has a word / cited document extracting unit 72 and a search word / cited document extracting unit 73 that extracts words and cited documents from the search document as search words / cited documents. Here, the classification of “key document” and “search document” is convenient, and in the stable inter-document distance calculation unit 22, one of the two documents whose inter-document distance is desired to be obtained is the key document, and the other is Search document. The reference document includes a keyword evaluation value (a value indicating a degree that each keyword is uniquely included in the key document (non-generality)) and a cited document evaluation value (a degree to which each cited document is uniquely included in the key document ( This is a document that is referred to when setting a value representing non-generality. As the reference document, for example, all the documents in the classification target document DB 12 (see FIG. 1) or a part of the documents in the classification target document DB 12 extracted in advance at random can be used. The reference document can be input to the stable inter-document distance calculation unit 22 as necessary by an appropriate input unit. The stable inter-document distance calculation unit 22 includes storage means for storing a reference document.

抽出部71〜73は、日本語にあっては、ひらがな、句読点、特殊記号及びスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。また、抽出部71〜73は、英語等のアルファベット表記がなされる言語にあっては、特殊記号及び/又はスペースを区切記号として或いは形態素解析ツール等を利用して文書内のワードを抽出する機能を有する。抽出部71〜73は、一の文書から重複してワードを抽出しないように、ある文書から切り出されたワードは、同じ文書から既に切り出されたワードと照合され、一致しないワードのみを抽出する機能を有する。   In Japanese, the extraction units 71 to 73 have a function of extracting words in a document using hiragana, punctuation marks, special symbols, and spaces as delimiters or using a morphological analysis tool or the like. The extraction units 71 to 73 extract a word in a document using a special symbol and / or space as a delimiter or a morphological analysis tool or the like in a language in which alphabets such as English are used. Have The extraction units 71 to 73 have a function of extracting only words that do not match by collating words extracted from a document with words already extracted from the same document so as not to extract duplicate words from one document. Have

抽出部71〜73は、「特開」、「特許」、「US」、「USP」、「EP」、「DE」、「JP」、「WO」などの特許文献の種別を示す文字列とそれに続く年表示、番号などとの組み合わせを検索して、引用文献を抽出する機能を有する。また、近年の電子化公報のように引用文献を示すタグが定義されている場合は、これを利用して引用文献を抽出することができる。さらに既存の各種データベースを利用して公報ごとの引用文献を得ることも可能である。   The extraction units 71 to 73 include character strings indicating the types of patent documents such as “JP,” “Patent,” “US,” “USP,” “EP,” “DE,” “JP,” “WO,” and the like. It has a function of retrieving a cited document by searching for a combination with a year display, a number, and the like subsequent thereto. In addition, when a tag indicating a cited document is defined as in recent electronic publications, a cited document can be extracted using this tag. Furthermore, it is possible to obtain a cited document for each publication using various existing databases.

データベース(DB)80は、キーワードDB81、全ワードDB82、キーワード評価値DB83、検索ワードDB84、キーワード類似度DB85、引用文献DB86、引用文献評価値DB87、引用文献類似度DB88及び文書類似度DB89を有している。キーワードDB81は、キー文書から抽出したキーワードを格納する。キーワードは、抽出元であるキー文書を特定するキー文書コードに関連付けて格納されている。全ワードDB82(各文書に含まれるワードを当該文書の文書番号と関連付けて格納したテーブル)は、参照文書から抽出された参照ワードを、それぞれの抽出元である参照文書を特定する参照文書コードと関連付けて格納する。キーワード評価値DB83は、後述するキーワード評価値計算部91により算出される評価値を格納する。検索ワードDB84は、検索文書から抽出される検索ワードを格納する。検索ワードは、抽出元である検索文書を特定する検索文書コードに関連付けて格納されている。キーワード類似度DB85は、後述するキーワード類似度計算部92により算出されるキーワード類似度を格納する。引用文献DB86には、各参照文書で関連する文献として引用されている文献を識別する引用文献コードが当該参照文書コードと関連付けて格納されている。引用文献DB86に格納される引用文献は、ワード・引用文献抽出部70により抽出されたものであってもよいし、入力されたデータに基づくものであってもよい。引用文献評価値DB87は、後述する引用文献評価値計算部93により算出される評価値を格納する。引用文献類似度DB88は、後述する引用文献類似度計算部94により算出される引用文献類似度を格納する。文書類似度DB89は、キーワード類似度と引用文献類似度とを総合した類似度である文書類似度を格納する。   The database (DB) 80 includes a keyword DB 81, an all word DB 82, a keyword evaluation value DB 83, a search word DB 84, a keyword similarity DB 85, a cited document DB 86, a cited document evaluation value DB 87, a cited document similarity DB 88, and a document similarity DB 89. is doing. The keyword DB 81 stores keywords extracted from the key document. The keyword is stored in association with the key document code that identifies the key document that is the extraction source. The all word DB 82 (a table in which the words included in each document are stored in association with the document number of the document) includes a reference word extracted from the reference document, a reference document code for identifying the reference document from which each extraction is made, and Store in association. The keyword evaluation value DB 83 stores evaluation values calculated by a keyword evaluation value calculation unit 91 described later. The search word DB 84 stores search words extracted from the search document. The search word is stored in association with a search document code that specifies a search document as an extraction source. The keyword similarity DB 85 stores the keyword similarity calculated by the keyword similarity calculation unit 92 described later. In the cited document DB 86, a cited document code for identifying a document cited as a related document in each reference document is stored in association with the reference document code. The cited document stored in the cited document DB 86 may be extracted by the word / cited document extracting unit 70 or may be based on input data. The cited document evaluation value DB 87 stores an evaluation value calculated by a cited document evaluation value calculation unit 93 described later. The cited document similarity DB 88 stores the cited document similarity calculated by the cited document similarity calculating unit 94 described later. The document similarity DB 89 stores a document similarity that is a similarity obtained by combining the keyword similarity and the cited document similarity.

なお、上記のキーワード、参照ワード、及び検索ワードは、それぞれ抽出対象となる文書の全体から抽出してもよいし、一部から抽出してもよい。例えば、抽出対象となる文書が特許文献であれば、書誌的事項、要約、請求項、又は実施例等に抽出範囲を限定してもよい。特に、データ量に制限がある場合には、抽出範囲を文書の一部に絞ることが有効となる。また、参照ワードは参照文書の一部から抽出し、キーワード及び検索ワードはそれぞれキー文書及び検索文書の全体から抽出するというように、各ワード毎に適宜抽出範囲を変えることより、いわゆるノイズと漏れの関係を調整することができる。引用文献を抽出する際には、実施例及び請求項を除く明細書部分、あるいは[背景技術]、米国特許公報や欧州特許公報(経過情報)のように引用文献が書誌的事項やサーチレポートのように定められた部分にリストとして列記されている場合はこの部分に限定するのが好適である。   Note that the keyword, reference word, and search word may be extracted from the entire document to be extracted, or may be extracted from a part thereof. For example, if the document to be extracted is a patent document, the extraction range may be limited to bibliographic items, summaries, claims, or examples. In particular, when the data amount is limited, it is effective to narrow the extraction range to a part of the document. In addition, the reference word is extracted from a part of the reference document, the keyword and the search word are extracted from the entire key document and the search document, respectively. Can be adjusted. When extracting cited references, it is necessary to extract bibliographic items and search reports such as the specification part excluding the examples and claims, or [Background Art], US Patent Gazette and European Patent Gazette (progress information). In the case where the part is listed as a list, it is preferable to limit to this part.

また、安定文書間距離算出部22は、キーワード評価値計算部91及びキーワード類似度計算部92を備えている。キーワード評価値計算部91は、全参照文書中でキー文書と共通のワードが出現する出現率を算出する機能を有する。参照文書がN個で、そのうちのB個に共通のワードが存在する場合には、全文書内キーワード出現率は、B/Nで算出される。キーワード評価値計算部91は、全ワードDB82に格納された参照ワードを検索して、キーワードと同一のものが何個存在するか算出する。カウントされた参照ワード数を全参照文書の数で除することによって、全文書内キーワード出現率を算出する。さらに、キーワード評価値計算部91は、全文書内キーワード出現率の逆数をとって、キーワード評価値を算出する機能を有する。すなわち、キーワード評価値は、N/Bで算出され、各キーワードがキー文書に固有に含まれる程度(非一般性)を示すものである。キーワード出現数Bを0.1〜0.8乗する調整を施すことが考えられる。この場合、たとえば0.5乗する調整を施すとき、キーワード評価値は、N/(B0.5)となる。 The stable inter-document distance calculation unit 22 includes a keyword evaluation value calculation unit 91 and a keyword similarity calculation unit 92. The keyword evaluation value calculation unit 91 has a function of calculating an appearance rate at which a word common to the key document appears in all reference documents. When there are N reference documents and B has a common word, the keyword appearance rate in all documents is calculated as B / N. The keyword evaluation value calculation unit 91 searches the reference words stored in the all-word DB 82 and calculates how many of the same keywords exist. The keyword appearance rate in all documents is calculated by dividing the counted number of reference words by the number of all reference documents. Further, the keyword evaluation value calculation unit 91 has a function of calculating a keyword evaluation value by taking the reciprocal of the keyword appearance rate in all documents. That is, the keyword evaluation value is calculated by N / B and indicates the degree (non-genality) in which each keyword is inherently included in the key document. It may be possible to adjust the keyword appearance number B to the power of 0.1 to 0.8. In this case, for example, when an adjustment of 0.5 power is performed, the keyword evaluation value is N / (B 0.5 ).

キーワード類似度計算部92は、検索文書に含まれる全てのキーワードの評価値を加算することにより、キー文書と検索文書とが類似する程度を表すキーワード類似度を算出する機能を有する。更に加算値を2〜100で除した値をキーワード類似度として、後述する引用文献類似度とのバランスをとることが考えられる。キーワード類似度計算部92は、このようにして算出したキーワード類似度をキーワード類似度DB85に格納させる。   The keyword similarity calculation unit 92 has a function of calculating a keyword similarity representing the degree of similarity between the key document and the search document by adding the evaluation values of all the keywords included in the search document. Further, it is conceivable that a value obtained by dividing the added value by 2 to 100 is used as a keyword similarity and balanced with a cited document similarity described later. The keyword similarity calculation unit 92 stores the keyword similarity calculated in this way in the keyword similarity DB 85.

安定文書間距離算出部22は、引用文献評価値計算部93及び引用文献類似度計算部94を備えている。引用文献評価値計算部93は、引用文献DB86を参照して、キー文書で関連する文献として引用されている各引用文献の全参照文書中における出現率を算出する機能を有する。具体的には、ある引用文献を引用している文書の数を全参照文書の数で除することによって、全文書内引用文献出現率を算出する。参照文書がN個で、全文書中のC個において当該引用文献が引用されている場合には、全文書内引用文献出現率は、C/Nで算出される。さらに、引用文献評価値計算部93は、全文書内引用文献出現率の逆数をとって、引用文献評価値を算出する機能を有する。すなわち、引用文献評価値は、N/Cで算出され、各引用文献がキー文書に固有に含まれる程度(非一般性)を示すものである。引用文献出現数Cを0.1〜0.8乗する調整を施すことが考えられる。この場合、たとえば0.5乗する調整を施すとき、引用文献評価値は、N/(C0.5)となる。 The stable inter-document distance calculation unit 22 includes a cited document evaluation value calculation unit 93 and a cited document similarity calculation unit 94. The cited document evaluation value calculation unit 93 has a function of referring to the cited document DB 86 and calculating an appearance rate of all cited documents cited as related documents in the key document in all reference documents. Specifically, the number of cited documents in all documents is calculated by dividing the number of documents that cite a cited document by the number of all reference documents. When the number of reference documents is N and the cited references are cited in C of all the documents, the intra-document cited document appearance rate is calculated as C / N. Furthermore, the cited document evaluation value calculation unit 93 has a function of calculating a cited document evaluation value by taking the reciprocal of the cited document appearance rate in all documents. That is, the cited document evaluation value is calculated by N / C, and indicates the degree (non-generality) in which each cited document is inherently included in the key document. It is conceivable to adjust the number of cited document appearances C to the power of 0.1 to 0.8. In this case, for example, when the adjustment to the power of 0.5 is performed, the cited document evaluation value is N / (C 0.5 ).

引用文献類似度計算部94は、キー文書と検索文書が共通して引用する全ての文献についての評価値を加算することにより、キー文書と検索文書とが類似する程度を表す引用文献類似度を算出する機能を有する。引用文献類似度計算部94は、このようにして算出した引用文献類似度を引用文献類似度DB88に格納させる。   The cited document similarity calculation unit 94 adds the evaluation values for all documents cited in common by the key document and the search document, thereby calculating the cited document similarity indicating the degree of similarity between the key document and the search document. Has a function to calculate. The cited document similarity calculation unit 94 stores the cited document similarity calculated in this way in the cited document similarity DB 88.

図19は、引用文献DB86の例である。図19の例では、引用文献類似度計算部94は、キー文書(US6713520B2)と検索文書(US6433090B1)とが重複して引用する文献を検出する。キー文書には、3つの文献が引用されている(ただし、自文書も引用文献として扱われている。)。検索文書には、23の文献が引用されている(ただし、自文書も引用文献として扱われている。)。これらのうちUS6433090(検索文書)のみが重複引用文献として検出される。この重複引用文献の引用文献評価値がキー文書と検索文書との引用文献類似度になる。分類対象文書の数が100件を超える場合は評価値を1に固定するなどの調整も考えられる。   FIG. 19 is an example of the cited document DB 86. In the example of FIG. 19, the cited document similarity calculation unit 94 detects a document cited by duplication in the key document (US6713520B2) and the search document (US6433090B1). Three documents are cited in the key document (however, the document itself is also treated as a cited document). 23 documents are cited in the search document (however, the document itself is also handled as a cited document). Of these, only US6433090 (search document) is detected as a duplicate citation. The cited document evaluation value of this duplicate cited document becomes the cited document similarity between the key document and the search document. If the number of classification target documents exceeds 100, adjustment such as fixing the evaluation value to 1 is also conceivable.

安定文書間距離算出部22は、文書類似度計算部95及び文書間距離計算部96を備えている。文書類似度計算部95は、キーワード類似度と引用文献類似度とを総合してキー文書と検索文書との類似度(文書類似度)を算出する機能を有する。具体例として、文書類似度計算部95は、キーワード類似度と引用文献類似度との平均値を文書類似度として文書類似度DB89に格納する。この際、前述したとおりキーワード類似度を適当な数で除することにより、キーワード類似度が安定文書間距離に与える影響の強さと引用文献類似度が安定文書間距離に与える影響の強さとのバランスを調整することが考えられる。また、キーワード類似度と引用文献類似度の各々を、キー文書及び検索文書中に含まれるキーワードの数とキー文書及び検索文書が引用している引用文献の数との和で除することが考えられる。これを達成するために、文書類似度計算部95が、キーワード類似度と引用文献類似度との平均値を算出した上、これをキー文書及び検索文書中に含まれるキーワードの数とキー文書及び検索文書が引用している引用文献の数との和で除した値を文書類似度とすることが考えられる。   The stable inter-document distance calculation unit 22 includes a document similarity calculation unit 95 and an inter-document distance calculation unit 96. The document similarity calculation unit 95 has a function of calculating the similarity (document similarity) between the key document and the search document by combining the keyword similarity and the cited document similarity. As a specific example, the document similarity calculation unit 95 stores the average value of the keyword similarity and the cited document similarity as the document similarity in the document similarity DB 89. At this time, by dividing the keyword similarity by an appropriate number as described above, the balance between the strength of the influence of the keyword similarity on the stable inter-document distance and the strength of the influence of the cited document similarity on the stable inter-document distance. It is conceivable to adjust. Further, it is considered that each of the keyword similarity and the cited document similarity is divided by the sum of the number of keywords included in the key document and the search document and the number of cited references cited in the key document and the search document. It is done. In order to achieve this, the document similarity calculation unit 95 calculates the average value of the keyword similarity and the cited document similarity, and then calculates the average number of keywords included in the key document and the search document, the key document, It is conceivable that the document similarity is a value obtained by dividing the sum by the number of cited documents cited in the search document.

文書間距離計算部96は、文書類似度DB89に格納されている類似度を用いて文書Tと文書Tとの間の安定文書間距離L(i,j)を算出する機能を有する。ここで、安定文書間距離L(i,j)は、下記式、
(i,j)=2/(Sij+Sji
から求められる。ここで、Sijは、文書Tをキー文書とし、文書Tを検索文書としたときの文書類似度を表し、Sjiは、文書Tをキー文書とし、文書Tを検索文書としたときの文書類似度を表す。つまり、上記式は、文書Tと文書Tとの間で、キー文書と検索文書の関係を入れ替えて算出された類似度の平均値をとり、さらにその平均値の逆数をとることを意味している。キー文書と検索文書の関係を入れ替えて算出された類似度の平均値を用いるのは、上記のSijとSjiとは必ずしも一致しないからである。このようにして算出される安定文書間距離L(i,j)は、両文書間の類似度が高いほど小さくなり、類似度が低いほど大きくなる。
The inter-document distance calculation unit 96 has a function of calculating a stable inter-document distance L 0 (i, j) between the document T i and the document T j using the similarity stored in the document similarity DB 89. . Here, the stable inter-document distance L 0 (i, j) is expressed by the following equation:
L 0 (i, j) = 2 / (S ij + S ji )
It is requested from. Here, S ij represents the document similarity when the document T i is the key document and the document T j is the search document. S ji is the document T j is the key document and the document T i is the search document. Represents the degree of document similarity. That is, the above expression means that the average value of the similarity calculated by switching the relationship between the key document and the search document is taken between the document T i and the document T j, and further, the inverse of the average value is taken. is doing. The reason why the average value of similarity calculated by switching the relationship between the key document and the search document is used is that S ij and S ji do not necessarily match. The stable inter-document distance L 0 (i, j) calculated in this way decreases as the similarity between the two documents increases, and increases as the similarity decreases.

図8は、安定文書間距離を算出する処理(図6の安定文書間距離算出ステップ(S61)のサブルーチン)を示すフローチャートである。まず、キーワード抽出部71がキー文書からキーワードを抽出し、抽出したキーワードをキーワードDB81に格納させる(S801)。また、参照ワード抽出部72が参照文書から参照ワードを抽出し、抽出した参照ワードを全ワードDB82に格納させる(S802)。次に、キーワード評価値計算部91が、全ワードDB82に格納されている参照ワードを読み込み、各キーワードの評価値を計算し、その評価値をキーワード評価値DB83に格納させる(S803)。また、文書間距離計算部93が検索文書から検索ワードを抽出し、抽出した検索ワードを検索ワードDB84に格納させる(S804)。次に、類似度計算部92が、キーワード評価値DB83に格納されている評価値及び検索ワードDB84に格納されている検索ワードを読み込み、キー文書と検索文書との間の類似度を計算し、その類似度をキーワード類似度DB85に格納させる(S805)。   FIG. 8 is a flowchart showing a process for calculating a stable inter-document distance (a subroutine of the stable inter-document distance calculating step (S61) in FIG. 6). First, the keyword extraction unit 71 extracts keywords from the key document, and stores the extracted keywords in the keyword DB 81 (S801). Further, the reference word extraction unit 72 extracts the reference word from the reference document, and stores the extracted reference word in the all word DB 82 (S802). Next, the keyword evaluation value calculation unit 91 reads the reference word stored in the all word DB 82, calculates the evaluation value of each keyword, and stores the evaluation value in the keyword evaluation value DB 83 (S803). Further, the inter-document distance calculation unit 93 extracts a search word from the search document, and stores the extracted search word in the search word DB 84 (S804). Next, the similarity calculation unit 92 reads the evaluation value stored in the keyword evaluation value DB 83 and the search word stored in the search word DB 84, calculates the similarity between the key document and the search document, The similarity is stored in the keyword similarity DB 85 (S805).

引用文献評価値計算部93が、キー文書と検索文書が共通して引用する文献を抽出し(S806)、これらの文献各々の引用文献評価値を計算する(S807)。引用文献類似度計算部94が、キー文書と検索文書との引用文献類似度を計算する(S808)。文書類似度計算部95が、キー文書と検索文書とに関するキーワード類似度及び引用文献類似度とを平均することにより文書類似度を計算する(S809)。最後に、文書間距離計算部93が、計算された文書類似度に基づき、キー文書と検索文書との安定文書間距離を計算する(S810)。なお、キーワード類似度及び引用文献類似度の平均を求める際、例えば、引用文献類似度に2〜40、好ましくは8〜11の係数を乗じて引用文献類似度に重みをつけることで、表記のゆれが問題となる内容類似の文書間では引用文献類似度による評価を、共通する引用文献がない、分野の異なる文書間では、キーワード類似度による評価を主体とすることが可能になり、この安定文書間距離に基づき位置座標を算出することで、広い技術分野にわたる特許文献をより詳細に分類配置することが可能になる。   The cited document evaluation value calculation unit 93 extracts documents cited in common by the key document and the search document (S806), and calculates the cited document evaluation value of each of these documents (S807). The cited document similarity calculation unit 94 calculates the cited document similarity between the key document and the search document (S808). The document similarity calculation unit 95 calculates the document similarity by averaging the keyword similarity and the cited document similarity regarding the key document and the search document (S809). Finally, the inter-document distance calculation unit 93 calculates a stable inter-document distance between the key document and the search document based on the calculated document similarity (S810). When calculating the average of the keyword similarity and the cited document similarity, for example, by multiplying the cited document similarity by a coefficient of 2 to 40, preferably 8 to 11, weighting the cited document similarity, It is possible to focus on the evaluation based on the similarity of cited references between documents with similar contents, which causes fluctuations, and to evaluate based on the similarity of keywords between documents in different fields where there are no common cited references. By calculating the position coordinates based on the inter-document distance, it is possible to classify and arrange patent documents covering a wide technical field in more detail.

安定文書間距離の計算処理の別の例を示す。本例では、安定文書間距離算出部22において共通キーワードに基づく類似度を計算する処理機能(キーワード評価値計算部91及びキーワード類似度計算部92)と共通引用文献に基づく類似度を計算する処理機能(引用文献評価値計算部93及び引用文献類似度計算部94)とが統合されている。また、本例の参照文書テーブルは全ワードDB82のデータと引用文献DB86のデータとを結合させたものである。   Another example of stable document distance calculation processing will be described. In this example, a processing function (keyword evaluation value calculation unit 91 and keyword similarity calculation unit 92) for calculating a similarity based on a common keyword in the stable inter-document distance calculation unit 22 and a process for calculating a similarity based on a common cited document. Functions (cited document evaluation value calculation unit 93 and cited document similarity calculation unit 94) are integrated. In addition, the reference document table of this example is a combination of the data of all word DB 82 and the data of cited reference DB 86.

図20のフローチャートを参照して本例の計算処理を示す。安定文書間距離算出部22(キーワード・引用文献抽出部70)は、キー文書及び検索文書からワード・引用文献を抽出して(S211)、共通キーワード及び共通引用文献を抽出・格納する(S212)。図21は、抽出・格納された共通キーワード及び共通引用文献のデータを示す。安定文書間距離算出部22は、参照文書テーブルを参照して、参照文書テーブルにおける各共通キーワード及び共通引用文献の出現率を計算し、これに基づき評価値を計算・格納する(S213)。安定文書間距離算出部22は、各共通引用文献の評価値に2〜40、好ましくは8〜11の係数を乗じてこの値に置き換える(S214)。安定文書間距離算出部22は、S213で得られたキーワード評価値とS214で得られた引用文献評価値とを合算することにより文書類似度を計算する(S215)。さらに、合算値をS211で抽出されたワード・引用文献の総数で除した値を文書類似度とするのが好適である。この文書類似度に基づいて安定文書間距離が計算される(S216)。
上記の例では共通キーワード及び共通引用文献の評価値を合算することによりそれぞれに基づく類似度を算出するが、これに代えてベクトル空間法を適用して共通キーワード類似度と共通引用文献類似度のそれぞれを求めてこれらに重みを乗じた上で文書類似度を算出する方法、共通キーワード及び共通引用文献の評価値に予め重みを付けた上で一括してベクトル空間法で文書類似度を求めることも可能である。
ベクトル空間法を適用して共通キーワード類似度を算出する場合、一例として、図22ないし24に示される処理がなされる。具体的には、(c)及び(d)欄に示される該当文書中にワードが現れる場合に1、そうでない場合に0とするベクトルそれぞれと、(b)欄の評価値ベクトルの各要素を乗じる演算を行うことにより、(e)及び(g)欄のベクトルを算出する。(f)及び(h)欄に示されるように(e)及び(g)欄のベクトルの各要素を二乗する演算を行い、さらに正規化係数を乗じて(f)欄のベクトルの単位ベクトル(i)及び(h)欄のベクトルの単位ベクトル(j)を算出する。単位ベクトル(i)と単位ベクトル(j)との距離又は内積に基づいて共通キーワード類似度を算出することができる。共通引用文献類似度も、上記と同様の処理により算出することができる。また、キーワード及び検索ワードに加えてキー文書及び検索文書で引用されている文献を同時にベクトル空間法演算の対象にし(この場合(a)欄には図21と同様の入力がなされる。)、(b)欄における評価値を、共通キーワード類似度と共通引用文献類似度とのバランスをとるための重みを乗じた数値とすれば、その後に上記の演算を行うことにより直接文書類似度を取得することができる。
The calculation processing of this example will be described with reference to the flowchart of FIG. The stable document distance calculating unit 22 (keyword / cited document extracting unit 70) extracts words / cited documents from the key document and the search document (S211), and extracts and stores the common keywords and common cited documents (S212). . FIG. 21 shows data of common keywords and common citations extracted and stored. The stable inter-document distance calculation unit 22 refers to the reference document table, calculates the appearance rate of each common keyword and common cited document in the reference document table, and calculates / stores the evaluation value based on this (S213). The stable inter-document distance calculation unit 22 multiplies the evaluation value of each common cited document by a coefficient of 2 to 40, preferably 8 to 11, and replaces this value (S214). The stable inter-document distance calculation unit 22 calculates the document similarity by adding the keyword evaluation value obtained in S213 and the cited document evaluation value obtained in S214 (S215). Furthermore, it is preferable that the value obtained by dividing the total value by the total number of words / cited documents extracted in S211 is the document similarity. A stable inter-document distance is calculated based on the document similarity (S216).
In the above example, the similarity based on each is calculated by adding the evaluation values of the common keyword and the common cited document, but instead, the vector space method is applied to the common keyword similarity and the common cited document similarity. A method of calculating the document similarity after obtaining each and multiplying them by weight, and pre-weighting the evaluation values of the common keyword and the common cited document, and then obtaining the document similarity by the vector space method in a lump. Is also possible.
When the common keyword similarity is calculated by applying the vector space method, the processing shown in FIGS. 22 to 24 is performed as an example. Specifically, each element of the vector which is set to 1 when a word appears in the corresponding document shown in the columns (c) and (d) and 0 otherwise, and the evaluation value vector in the column (b) By performing multiplication, vectors in the columns (e) and (g) are calculated. As shown in columns (f) and (h), an operation for squaring each element of the vectors in columns (e) and (g) is performed, and further multiplied by a normalization coefficient to obtain a unit vector ( The unit vector (j) of the vectors in columns i) and (h) is calculated. The common keyword similarity can be calculated based on the distance or inner product between the unit vector (i) and the unit vector (j). The common cited document similarity can also be calculated by the same processing as described above. In addition to the keyword and the search word, the documents cited in the key document and the search document are simultaneously subjected to the vector space method calculation (in this case, the same input as in FIG. 21 is made in the column (a)). If the evaluation value in the column (b) is a value multiplied by a weight for balancing the common keyword similarity and the common cited document similarity, the document similarity is directly obtained by performing the above calculation thereafter. can do.

図9は、図6の総和文書間力ベクトル算出ステップ(S66)のサブルーチンを示すフローチャートである。まず、文書間力ベクトル算出部26が、位置座標DB16に格納されている各文書の位置座標を読み込み、その位置座標から各2文書間の座標平面上における距離(離間ベクトルの長さ)を算出する(S91)。また、文書間力ベクトル算出部26は、文書間距離DB14に格納されている安定文書間距離を読み込み、その安定文書間距離と前ステップS91で計算した距離とを用いて、文書間力を算出する(S92)。さらに、文書間力ベクトル算出部26は、離間ベクトルに基づいて文書間力のX成分及びY成分を算出し(S93)、ある文書に対して他の配置済み文書から働く文書間力の総和をベクトル和として求めることにより、総和文書間力ベクトルを算出する(S94)。そして、全ての配置済み文書について総和文書間力ベクトルが算出された場合にはフローが終了し、総和文書間力ベクトルが算出されていない文書がある場合には、上記ステップ(S91〜S94)が繰り返される(S95)。   FIG. 9 is a flowchart showing a subroutine of the total inter-document force vector calculation step (S66) of FIG. First, the inter-document force vector calculation unit 26 reads the position coordinates of each document stored in the position coordinate DB 16, and calculates the distance on the coordinate plane between the two documents (the length of the separation vector) from the position coordinates. (S91). The inter-document force vector calculation unit 26 reads the stable inter-document distance stored in the inter-document distance DB 14 and calculates the inter-document force using the stable inter-document distance and the distance calculated in the previous step S91. (S92). Further, the inter-document force vector calculation unit 26 calculates the X component and the Y component of the inter-document force based on the separation vector (S93), and calculates the sum of the inter-document forces working from other arranged documents for a certain document. By calculating as a vector sum, a total inter-document force vector is calculated (S94). Then, when the total document inter-force vector is calculated for all the arranged documents, the flow ends. When there is a document for which the total inter-document force vector is not calculated, the above steps (S91 to S94) are performed. Repeated (S95).

図10は、図6の位置座標の更新ステップ(S67)のサブルーチンを示すフローチャートである。まず、位置座標更新部28が、文書間力ベクトルDB18に格納されている文書間力ベクトルを読み込み、そのベクトルに応じて各文書の移動、すなわち位置座標の変更を行う(S101)。その後、位置座標更新部28は、収束条件の判定に用いられる、各文書の移動距離の平均値を算出する(S102)。S68において、移動距離の平均値が閾値を下回ることを収束条件とすることができる。また、これに代えてint√N回位置座標の更新ステップを繰り返したことを収束条件とすることもできる。   FIG. 10 is a flowchart showing a subroutine of the position coordinate update step (S67) of FIG. First, the position coordinate update unit 28 reads an inter-document force vector stored in the inter-document force vector DB 18, and moves each document, that is, changes the position coordinate according to the vector (S101). Thereafter, the position coordinate update unit 28 calculates an average value of the moving distances of the respective documents used for determining the convergence condition (S102). In S <b> 68, the convergence condition can be that the average value of the movement distance is less than the threshold value. Alternatively, the convergence condition may be that the position coordinate update step is repeated int√N times.

図11は、表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。図11を参照して、図6に示した初期配置文書の配置・移動処理が終了してから、順次追加の配置文書を加えていって、全ての分類対象文書の配置・移動を完了させる処理を説明する。   FIG. 11 is a flowchart showing processing for adding an additional arrangement document to the display coordinate system. Referring to FIG. 11, after the arrangement / movement process of the initial arrangement document shown in FIG. 6 is completed, additional arrangement documents are sequentially added to complete the arrangement / movement of all the classification target documents. Will be explained.

配置文書選択部23が、次に表示座標系に加える時期配置文書を、int(mm/10)(ただし、mmは既に表示座標系に配置済みの分類対象文書の数)個無作為に選択する(S111)。ただし、分類対象文書の残りの個数がint(mm/10)に満たない場合には、残存している分類対象文書全てが時期配置文書になる。初期配置文書の配置・移動処理の直後に追加される時期配置文書の数は、int{(int√N)/10}個となる。   The arrangement document selection unit 23 randomly selects the next arrangement document to be added to the display coordinate system int (mm / 10) (where mm is the number of classification target documents already arranged in the display coordinate system). (S111). However, when the remaining number of classification target documents is less than int (mm / 10), all the remaining classification target documents become time-arranged documents. The number of time-arranged documents added immediately after the arrangement / movement process of the initial arrangement document is int {(int√N) / 10}.

位置座標初期値設定部24が、時期配置文書が最初に設置される表示座標系上の位置座標を算出する(S112)。本実施形態では、時期配置文書は、最も安定文書間距離が短い配置済み分類対象文書の近傍に位置するように初期設定される。具体的には、位置座標初期値設定部24は、安定文書間距離DB14を参照して、L(c,mm+k)が最小値となるcを求め(ただし、c=1〜mm)、時期配置文書Tの位置座標の初期値を(X,Y)=(X+ε,Y+ε)(ε:定数)とする。また、以上に代えて初期配置文書の場合と同様に時期配置文書の初期値を乱数により決定してもよい。 The position coordinate initial value setting unit 24 calculates the position coordinates on the display coordinate system where the time placement document is first installed (S112). In the present embodiment, the time-arranged document is initially set so as to be positioned in the vicinity of the arranged classification target document having the shortest stable inter-document distance. Specifically, the position coordinate initial value setting unit 24 refers to the stable inter-document distance DB 14 to obtain c where L 0 (c, mm + k) is the minimum value (where c = 1 to mm). The initial value of the position coordinates of the arrangement document T k is (X k , Y k ) = (X c + ε, Y c + ε) (ε: constant). Instead of the above, the initial value of the time-arranged document may be determined by a random number as in the case of the initial-arranged document.

ある時期配置文書の位置座標が初期値に設定された後、文書間力ベクトル算出部26が、当該時期配置文書が他の配置済み分類対象文書から受ける現在の総和文書間力ベクトルを算出する(S113)。位置座標更新部28が、この総和文書間力ベクトルに基づき当該時期配置文書の位置座標を更新する(S114)。収束条件判定部30が、当該時期配置文書の今回の移動量が閾値以下であること又はS113〜S115の処理が所定の回数実行されたことをもって当該時期配置文書の位置座標の収束を判断する(S115)。収束が判断されなかった場合には、当該時期配置文書について再びS113〜S115の処理が繰り返される。   After the position coordinates of a certain time-arranged document are set to initial values, the inter-document force vector calculation unit 26 calculates the current total inter-document force vector received by the time-arranged document from other arranged classification target documents ( S113). The position coordinate update unit 28 updates the position coordinates of the time-arranged document based on the total inter-document force vector (S114). The convergence condition determination unit 30 determines the convergence of the position coordinates of the time-arranged document when the current movement amount of the time-arranged document is equal to or smaller than the threshold value or when the processes of S113 to S115 are executed a predetermined number of times ( S115). If convergence is not determined, the processing of S113 to S115 is repeated again for the time-arranged document.

時期配置文書のうちの他の文書についても、順次S112〜S115の処理が行われる。時期配置文書中の全ての文書について配置・移動処理が完了した場合には、今回表示座標系に加えられた時期配置文書を含む全ての配置済み文書について位置計算(S66〜S68の処理)が√N回行われる(S117)。このように、時期配置文書の全てを一度に配置して移動処理(全部又は一部の配置文書の各々について、総和文書間力ベクトルを算出してこれに基づき位置座標を更新する処理を位置座標の収束が判断されるまで繰り返す処理)を行う代わりに、他の配置済み文書の位置座標を固定しつつ一つずつ順次時期配置文書の配置・移動処理を行って全ての時期配置文書の位置座標を仮決めし、さらに今回の時期配置文書を含む全ての配置済み文書についての配置・移動処理を行うことにより、移動処理の繰返回数を減少させることができる。未配置の分類対象文書についてS111〜S117の処理が行われる。ただし、未配置の分類対象文書がなくなった場合には、この時点で配置・移動処理が終了する。   The processes of S112 to S115 are sequentially performed for other documents among the time-arranged documents. When the arrangement / movement processing is completed for all the documents in the time-arranged document, the position calculation (processing in S66 to S68) is performed for all the arranged documents including the time-arranged document added to the display coordinate system this time. This is performed N times (S117). In this way, all the time-arranged documents are arranged at once and moved (the process of calculating the total document inter-force vector and updating the position coordinates based on this is performed for each of all or some of the arranged documents. Instead of repeating the process until the convergence of the position is determined), the position coordinates of all the time-arranged documents are processed one by one by sequentially placing and moving the time-arranged documents one by one while fixing the position coordinates of the other arranged documents. , And the placement / movement process for all the arranged documents including the current time-arranged document is performed, so that the number of repetitions of the movement process can be reduced. The processing of S111 to S117 is performed on the unallocated classification target document. However, when there is no unallocated classification target document, the arrangement / movement process ends at this point.

図12は、図11の結果表示ステップ(出力ステップ)のサブルーチンを示すフローチャートである。まず、表示部32が、表示エリアをm×n個のセルに区切る(S121)。ここで、入力部34により表示エリアを規定するX座標及びY座標それぞれの最大値及び最小値を入力する(S122)。この入力は、ユーザが行うものである。次に、表示部32は、入力部34より入力された上記の値に基づいて、各セルに相当する座標範囲を算出する(S123)。そして、表示部32は、各セルの座標範囲内に位置座標を有する文書数を表示エリアに表示する(S124)。また、表示部32は、各セルに含まれる文書のイメージを作成するとともに(S125)、各セルに文書のイメージをハイパーリンクさせる(S126)。   FIG. 12 is a flowchart showing a subroutine of the result display step (output step) in FIG. First, the display unit 32 divides the display area into m × n cells (S121). Here, the maximum value and the minimum value of the X coordinate and the Y coordinate defining the display area are input by the input unit 34 (S122). This input is performed by the user. Next, the display unit 32 calculates a coordinate range corresponding to each cell based on the above-described value input from the input unit 34 (S123). Then, the display unit 32 displays the number of documents having position coordinates within the coordinate range of each cell in the display area (S124). The display unit 32 creates an image of the document included in each cell (S125) and hyperlinks the image of the document to each cell (S126).

図13(a)及び図13(b)は、図1の表示部32による結果表示の変形例を説明するための図である。図に示される表示エリア50は、図5に対応するものである。本例では、表示エリア50内の一部を新たな表示エリアとして指定することにより、その部分を表示エリア50全体に再表示させることができる。例えば、図13(a)において中央の4つのセル(外枠を太線で示している)を指定した場合、この指定した部分が、図13(b)に示すように、表示エリア50全体に再表示される。このとき、表示エリア50内のセル数は不変であるので、指定した部分はより細かいセルに分割されている。例えば、図13(a)において文書数が「5」と表示されているセルは、図13(b)において右上の4つのセルに対応している。したがって、この4つのセルの文書数の和は5となっている。表示エリアの指定は、例えば図1の入力部34に座標値を入力することにより、或いは画面上においてマウスで選択することにより行うことができる。   FIGS. 13A and 13B are diagrams for explaining a modification of the result display by the display unit 32 of FIG. The display area 50 shown in the figure corresponds to FIG. In this example, by designating a part of the display area 50 as a new display area, the part can be displayed again on the entire display area 50. For example, if four cells in the center (the outer frame is indicated by a thick line) are designated in FIG. 13A, the designated portion is re-displayed in the entire display area 50 as shown in FIG. 13B. Is displayed. At this time, since the number of cells in the display area 50 is unchanged, the designated portion is divided into finer cells. For example, the cell in which the number of documents is displayed as “5” in FIG. 13A corresponds to the upper right four cells in FIG. Therefore, the sum of the number of documents in the four cells is 5. The designation of the display area can be performed, for example, by inputting coordinate values to the input unit 34 in FIG. 1 or by selecting with a mouse on the screen.

図14は、図1の表示部32による結果表示の変形例を説明するための図である。本例において表示部32は、表示エリア54d内のプロットエリア54pに、各文書の表示座標系(二次元表示座標系)における位置座標をプロットして表示する。各プロット56には、対応する文書を特定できるように、各文書のタイトル等がテキストボックス53(「テキストボックス」とは、プロットされた文書の属性を表示するための一定の形状及び大きさの小エリアをいう。ただし、属性情報の表示量に応じて何段階かの異なる形状又は大きさのテキストボックスを設定することも考えられる。)内に表示される。テキストボックス53が表示エリア54dからはみ出すことがないように、プロットエリア54pは表示エリア54aからテキストボックス53のサイズ分(複数段階の形状又は大きさのテキストボックスが設定されている場合には、最も長い縦径又は横径の分)だけ内側に縮小されている。すなわち、表示エリア54aの各角に位置する点線と表示エリア54aの枠で囲われる領域はテキストボックス53と同じ大きさ及び形状になっている。ここでは、分類対象文書として公開特許公報を想定しており、その文献番号として出願番号が表示されている。また、表示されているテキストボックス53あるいは文献番号には、ハイパーリンクが貼られており、画面上で文献番号をクリックすることによりその文書のイメージにアクセスすることができる。また、テクストボックス53には文献番号の他に発明の名称や出願人、要約から切り出したキーワードを表示させることができ、これを行えば分類内容の把握が一層容易となる。   FIG. 14 is a diagram for explaining a modification of the result display by the display unit 32 of FIG. In this example, the display unit 32 plots and displays the position coordinates of each document in the display coordinate system (two-dimensional display coordinate system) in the plot area 54p in the display area 54d. Each plot 56 has a text box 53 (“text box” having a certain shape and size for displaying the attributes of the plotted document so that the corresponding document can be identified. A small area, but it is also possible to set text boxes of different shapes or sizes depending on the display amount of attribute information.) In order to prevent the text box 53 from protruding from the display area 54d, the plot area 54p corresponds to the size of the text box 53 from the display area 54a (when a text box having a plurality of shapes or sizes is set, It has been reduced inward by the length of the long vertical or horizontal diameter. That is, the area surrounded by the dotted line located at each corner of the display area 54 a and the frame of the display area 54 a has the same size and shape as the text box 53. Here, an open patent gazette is assumed as the classification target document, and the application number is displayed as the document number. Further, a hyperlink is pasted on the displayed text box 53 or the document number, and the image of the document can be accessed by clicking the document number on the screen. In addition to the document number, the text box 53 can display the name of the invention, the applicant, and a keyword cut out from the summary, which makes it easier to grasp the classification contents.

図15は、図14の変形例に係るフローチャートを示している。まず、ユーザが表示エリア54aを規定するX座標及びY座標それぞれの最大値及び最小値を入力する(S151)。この入力は、図1の入力部34より行うことができる。表示部32はプロットエリア54pを設定する(S152)。表示部32は、プロットエリア54p内にある各文書の位置座標をプロットし、プロット56と関連付けてテキストボックス53を表示する(S153)。さらに、表示部32は、各プロットに文書イメージをハイパーリンクさせる(S154)。なお、図14の表示例では、表示の一部領域を指定し、これを新たな表示エリアとして拡大表示する、或いは、表示エリアの一点、例えばエリア中心部のテキストボックスをマウスポインタで指定し、これを中心に拡大/縮小表示することができる。また、指定した1又は2以上のテキストボックスの内容を表計算ソフト等のワークシート上にコピーすることで、分類に続く作業をより一層容易にすることができる。   FIG. 15 shows a flowchart according to a modification of FIG. First, the user inputs the maximum value and the minimum value of the X coordinate and the Y coordinate that define the display area 54a (S151). This input can be performed from the input unit 34 of FIG. The display unit 32 sets the plot area 54p (S152). The display unit 32 plots the position coordinates of each document in the plot area 54p, and displays the text box 53 in association with the plot 56 (S153). Further, the display unit 32 hyperlinks the document image to each plot (S154). In the display example of FIG. 14, a partial area of the display is specified, and this is enlarged and displayed as a new display area, or one point of the display area, for example, a text box at the center of the area is specified with the mouse pointer. It is possible to display an enlarged / reduced display around this. Also, by copying the contents of one or more designated text boxes onto a worksheet such as spreadsheet software, the work following the classification can be made easier.

図16は、図1の表示部32による結果表示の変形例を説明するための図である。本例において、表示部32は、ユーザが指定した基準文書の位置座標を基点として、座標平面上において表示半径内に位置座標をもつ文書を該当文書として表示する。基準文書及び表示半径の指定は、図1の入力部34より行うことができる。また、基準文書は、分類対象文書DB12に格納されている分類対象文書の中から選ばれる。図16において表示画面57内の右側に、該当文書リストが表示されている。これらの表示には、ハイパーリンクが貼られている。ここでは、基準文書から表示半径内に4つの文書が存在する。また、このリストは、基準文書からの距離が近い順にソートされて表示されている。さらに、本例では、表示画面57内の左側に、表示エリア58が設けられている。この表示エリア58には、基準文書を中心として各文書の位置座標がプロットされ、併せて基準文書を中心として表示半径を半径とする円59が表示される。この円59は、表示半径を再指定する際の目安とすることができる。各プロットに付されている数字は、該当文書リストにおける番号に対応している。本例によれば、基準文書に類似する文書を検索することができる。また、この場合、基準文書を色又は字体等を変える所謂ハイライト表示で表示することにより、目標とする基準文書とそれに類似する文書の位置関係の把握が容易になる。   FIG. 16 is a diagram for explaining a modification of the result display by the display unit 32 of FIG. In this example, the display unit 32 displays a document having a position coordinate within a display radius on the coordinate plane as a corresponding document with the position coordinate of the reference document specified by the user as a base point. Designation of the reference document and the display radius can be performed from the input unit 34 in FIG. The reference document is selected from the classification target documents stored in the classification target document DB 12. In FIG. 16, the corresponding document list is displayed on the right side in the display screen 57. Hyperlinks are pasted on these displays. Here, there are four documents within the display radius from the reference document. In addition, this list is sorted and displayed in order from the shortest distance from the reference document. Further, in this example, a display area 58 is provided on the left side in the display screen 57. In the display area 58, the position coordinates of each document are plotted with the reference document as the center, and a circle 59 having the display radius as the center with the reference document as a center is displayed. This circle 59 can be used as a guide when redesignating the display radius. The numbers attached to each plot correspond to the numbers in the corresponding document list. According to this example, a document similar to the reference document can be searched. In this case, the reference document is displayed in a so-called highlight display in which the color or font is changed, so that the positional relationship between the target reference document and a similar document can be easily understood.

図17は、図16の変形例に係るフローチャートを示している。まず、ユーザが図1の入力部34より基準文書、及び表示変形を入力する(S171,S172)。すると、表示部32は、位置座標DB16に格納されている各文書の位置座標を読み込み、基準文書から表示半径内の距離にある文書を該当文書リストとして表示する(S173)。さらに、表示部32は、該当文書リストに表示される文書のイメージをハイパーリンクさせる(S174)。ここで、ユーザは、必要に応じて、ハイパーリンクを辿ることにより表示された文書のイメージにアクセスし、その内容を確認する(S175)。そして、表示半径を再指定して検索し直すときは、上記ステップ(S172〜S175)を繰り返し実行し、検索し直さないときはフローを終了する(S176)。   FIG. 17 shows a flowchart according to a modification of FIG. First, the user inputs a reference document and display deformation from the input unit 34 in FIG. 1 (S171, S172). Then, the display unit 32 reads the position coordinates of each document stored in the position coordinate DB 16, and displays the documents located within the display radius from the reference document as a corresponding document list (S173). Further, the display unit 32 hyperlinks the image of the document displayed in the corresponding document list (S174). Here, the user accesses the image of the document displayed by following the hyperlink as necessary, and confirms the content (S175). When the search radius is specified again and the search is performed again, the above steps (S172 to S175) are repeated, and when the search is not performed again, the flow is terminated (S176).

最後に、図18を参照して、文書分類装置1のハードウェア構成について説明する。図18は、図1の文書分類装置1のハードウェア構成を示すブロック図である。図18に示すように、文書分類装置1は、物理的には、制御装置1a、メモリ1b、格納装置1c、入力装置1d、及び表示装置1eを備えて構成される。これら各装置は、バス1fを介して相互に各種信号の入出力が可能な様に電気的に接続されている。   Finally, the hardware configuration of the document classification device 1 will be described with reference to FIG. FIG. 18 is a block diagram showing a hardware configuration of the document classification device 1 of FIG. As shown in FIG. 18, the document classification device 1 physically includes a control device 1a, a memory 1b, a storage device 1c, an input device 1d, and a display device 1e. These devices are electrically connected to each other via a bus 1f so that various signals can be input and output.

具体的には、制御装置1aは例えばCPU(CentralProcessing Unit)であり、メモリ1bはRAM(RandomAccess Memory)といった揮発性の半導体メモリである。格納装置1cはHDD(Hard Disc Drive)を始めとする不揮発性の磁気ディスクである。入力装置1dは例えばキーボードやマウスであり、表示装置1eはLCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイである。   Specifically, the control device 1a is, for example, a CPU (Central Processing Unit), and the memory 1b is a volatile semiconductor memory such as a RAM (Random Access Memory). The storage device 1c is a non-volatile magnetic disk such as an HDD (Hard Disc Drive). The input device 1d is, for example, a keyboard or a mouse, and the display device 1e is an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube) display.

上記ハードウェア構成と機能的構成との対応関係を以下に示す。文書分類装置1に関して、データベース10の有する機能は、物理的な構成要素としての格納装置1cにより実現される。安定文書間距離算出部22、位置座標初期値設定部24、文書間力ベクトル算出部26、位置座標更新部28、収束条件判定部30の有する各機能は、制御装置1aが所定のプログラムを実行することにより実現される。入力部34の有する各機能は入力装置1dにより実現される。なお、表示部32の有する各機能は、制御装置1a及び表示装置1eにより実現される。すなわち、制御装置1aが所定の演算を施すことにより分類結果の表示内容を確定し、表示装置1eがその内容に従って分類結果を表示する。   The correspondence between the hardware configuration and the functional configuration is shown below. Regarding the document classification device 1, the functions of the database 10 are realized by the storage device 1c as a physical component. Each function of the stable inter-document distance calculation unit 22, the position coordinate initial value setting unit 24, the inter-document force vector calculation unit 26, the position coordinate update unit 28, and the convergence condition determination unit 30 is executed by the control device 1a. It is realized by doing. Each function of the input unit 34 is realized by the input device 1d. In addition, each function which the display part 32 has is implement | achieved by the control apparatus 1a and the display apparatus 1e. That is, the control device 1a performs a predetermined calculation to determine the display content of the classification result, and the display device 1e displays the classification result according to the content.

本発明による文書分類装置及び文書分類方法は、上記実施形態に限定されるものではなく、様々な変形が可能である。例えば、2次元の座標平面上において各文書の位置座標を決定する構成を示したが、その座標平面は1次元であってもよい。このとき、各文書は1本の直線上に位置座標を有することになるが、この場合も便宜的に1次元の「座標平面」と呼ぶことにする。また、3次元以上に拡張して、各文書の位置座標を決定する構成としてもよい。   The document classification apparatus and the document classification method according to the present invention are not limited to the above-described embodiments, and various modifications can be made. For example, although the configuration in which the position coordinates of each document are determined on a two-dimensional coordinate plane is shown, the coordinate plane may be one-dimensional. At this time, each document has position coordinates on one straight line. In this case, too, it is referred to as a one-dimensional “coordinate plane” for convenience. Alternatively, the position coordinates of each document may be determined by extending to three or more dimensions.

また、各文書の移動距離の平均値が規定値以下となることを収束条件としたが、収束条件はこれに限られない。例えば、各文書の移動距離の最大値が規定値以下となることを収束条件としてもよい。   Further, although the convergence condition is that the average value of the moving distance of each document is equal to or less than a specified value, the convergence condition is not limited to this. For example, the convergence condition may be that the maximum value of the moving distance of each document is not more than a specified value.

また、位置座標の更新の際に用いられる移動係数kは、常に一定の値である必要はない。ある程度収束が進んだ後、収束速度を上げるために、各文書の移動距離の平均値の増減如何によって移動係数kを加減する構成としてもよい。例えば、移動距離の平均値が前回の更新後よりも大きければk’=k×0.01(k’:加減後の移動係数)とし、小さければk’=k×1.03とする。   Further, the movement coefficient k used for updating the position coordinates does not always need to be a constant value. After the convergence has progressed to some extent, the movement coefficient k may be adjusted depending on whether the average value of the movement distance of each document is increased or decreased in order to increase the convergence speed. For example, if the average value of the movement distance is larger than that after the previous update, k ′ = k × 0.01 (k ′: movement coefficient after addition / subtraction), and if it is smaller, k ′ = k × 1.03.

複数の特許文献の間の類似度の関係を視覚で認識できるように示すことができる。   It can show so that the relationship of the similarity between several patent documents can be recognized visually.

本発明による文書分類装置の一実施形態を示すブロック図である。It is a block diagram which shows one Embodiment of the document classification device by this invention. 文書間距離DB14のデータベースの一例を示す構成図である。It is a block diagram which shows an example of the database of inter-document distance DB14. 位置座標DB16のデータベースの一例を示す構成図である。It is a block diagram which shows an example of the database of position coordinate DB16. 文書間力ベクトルDB18のデータベースの一例を示す構成図である。It is a block diagram which shows an example of the database of document force vector DB18. 表示部32による結果表示画面の一例を示す図である。It is a figure which shows an example of the result display screen by the display part. 初期処理及び二次元表示座標系において初期配置文書を配置・移動する処理を示すフローチャートである。It is a flowchart which shows the process which arrange | positions and moves an initial arrangement document in an initial process and a two-dimensional display coordinate system. 図1の安定文書間距離算出部22の構成の一例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of a configuration of a stable inter-document distance calculation unit 22 in FIG. 1. 図7の安定文書間距離算出部22の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the stable document distance calculation part 22 of FIG. 図6の総和文書間力ベクトル算出ステップ(S66)のサブルーチンを示すフローチャートである。It is a flowchart which shows the subroutine of the total document inter-force vector calculation step (S66) of FIG. 図6の位置座標の更新ステップ(S67)のサブルーチンを示すフローチャートである。It is a flowchart which shows the subroutine of the update step (S67) of the position coordinate of FIG. 表示座標系に追加の配置文書を加えていく処理を示すフローチャートである。It is a flowchart which shows the process which adds an additional arrangement | positioning document to a display coordinate system. 図6の結果表示ステップのサブルーチンを示すフローチャートである。It is a flowchart which shows the subroutine of the result display step of FIG. (a)及び(b)は、図1の表示部32による結果表示の変形例を説明するための図である。(A) And (b) is a figure for demonstrating the modification of the result display by the display part 32 of FIG. 図1の表示部32による結果表示の変形例を説明するための図である。It is a figure for demonstrating the modification of the result display by the display part of FIG. 図14の変形例に係るフローチャートを示している。15 shows a flowchart according to a modification of FIG. 図1の表示部32による結果表示の変形例を説明するための図である。It is a figure for demonstrating the modification of the result display by the display part of FIG. 図16の変形例に係るフローチャートを示している。FIG. 17 shows a flowchart according to a modification of FIG. 図1の文書分類装置1のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the document classification device 1 of FIG. 引用文献DB86の例である。It is an example of cited reference DB86. 安定文書間距離の計算処理の第2例におけるフローチャートを示す。The flowchart in the 2nd example of the calculation process of the distance between stable documents is shown. 安定文書間距離の計算処理の第2例において抽出・格納された共通キーワード及び共通引用文献のデータを示す。The data of the common keyword extracted in the 2nd example of the calculation process of the distance between stable documents, and the common cited reference data are shown. ベクトル空間法を適用した実施形態を説明する第1の図である。It is a 1st figure explaining embodiment which applied the vector space method. ベクトル空間法を適用した実施形態を説明する第2の図である。It is a 2nd figure explaining embodiment which applied the vector space method. ベクトル空間法を適用した実施形態を説明する第3の図である。It is a 3rd figure explaining embodiment which applied the vector space method.

符号の説明Explanation of symbols

1…文書分類装置、10…データベース、12…分類対象文書DB、14…文書間距離DB、16…位置座標DB、18…文書間力ベクトルDB、22…安定文書間距離算出部、23…配置文書選択部、24…位置座標初期値設定部、26…文書間力ベクトル算出部、28…位置座標更新部、30…収束条件判定部、32…表示部、34…入力部、53…テキストボックス、54a…表示エリア、54p…プロットエリア、56…プロット、91・・・キーワード評価値計算部、92・・・キーワード類似度計算部、93・・・引用文献評価値計算部、94・・・引用文献類似度計算部、95・・・文書類似度計算部、96・・・文書間距離計算部。

DESCRIPTION OF SYMBOLS 1 ... Document classification apparatus, 10 ... Database, 12 ... Classification object DB, 14 ... Inter-document distance DB, 16 ... Position coordinate DB, 18 ... Inter-document force vector DB, 22 ... Stable inter-document distance calculation part, 23 ... Arrangement Document selection unit, 24 ... Position coordinate initial value setting unit, 26 ... Inter-document force vector calculation unit, 28 ... Position coordinate update unit, 30 ... Convergence condition determination unit, 32 ... Display unit, 34 ... Input unit, 53 ... Text box 54a ... display area, 54p ... plot area, 56 ... plot, 91 ... keyword evaluation value calculation unit, 92 ... keyword similarity calculation unit, 93 ... cited document evaluation value calculation unit, 94 ... Cited reference similarity calculation unit, 95... Document similarity calculation unit, 96.

Claims (13)

複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの2文書で共通して現れる共通キーワードを抽出する共通キーワード抽出ステップと、
前記分類対象文書のうちの2文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出ステップと、
各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値を算出する共通キーワード評価値算出ステップと、
各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値を算出する前記共通引用文献評価値算出ステップと、
各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの2文書の共通キーワードに基づく類似度を算出するキーワード類似度算出ステップと、
各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの2文書の共通引用文献に基づく類似度を算出する引用文献類似度算出ステップと、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、
前記分類対象文書を座標系に配置し、前記文書類似度が高い2文書が近づき、前記文書類似度が低い2文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備えることを特徴とする文書分類方法。
A document classification method for classifying a plurality of documents to be classified according to their contents,
A common keyword extraction step of extracting a common keyword that appears in common among two of the classification target documents;
A common cited reference extracting step of extracting a common cited reference that is commonly cited in two of the classification target documents;
The number of occurrences of the common keyword in the keyword table is counted by referring to the keyword table in which the word included in each keyword reference document is stored in association with the identification number of the keyword reference document. A common keyword evaluation value calculating step for calculating a keyword non-generality evaluation value;
Referring to the cited document table that stores the documents cited in each cited document reference document in association with the identification number of the cited document reference document, the number of appearances of the common cited document in the cited document table is counted, and this appearance The common cited reference evaluation value calculating step of calculating an evaluation value of non-generality of the common cited reference based on a number;
A keyword similarity calculating step of adding the evaluation values of the common keywords and calculating a similarity based on the common keywords of two documents of the classification target documents;
Cited document similarity calculation step of calculating the similarity based on the common citations of two documents of the classification target documents by adding the evaluation values of the common citations;
A document similarity calculation step for calculating a document similarity by combining the similarity based on the common keyword and the similarity based on the common cited document;
A document moving step in which the classification target documents are arranged in a coordinate system, and each of the classification target documents is moved so that the two documents with high document similarity approach and the two documents with low document similarity move away from each other. A document classification method characterized by comprising:
前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度と共通引用文献に基づく類似度との平均値を文書類似度とすることを特徴とする請求項1に記載の文書分類方法。 2. The document classification method according to claim 1, wherein in the document similarity calculation step, an average value of the similarity based on the common keyword and the similarity based on the common cited document is set as the document similarity. 前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度を2ないし100の数値で除した値と共通引用文献に基づく類似度との平均値を文書類似度とすることを特徴とする請求項1に記載の文書分類方法。 2. The document similarity calculation step, wherein an average value of a value obtained by dividing a similarity based on a common keyword by a numerical value of 2 to 100 and a similarity based on a common cited document is used as the document similarity. Document classification method described in 1. 前記共通キーワード評価値算出ステップにおいて、前記共通キーワードの出現数をn(n=0.1〜0.8)乗した値に置き換えることを特徴とする請求項3に記載の文書分類方法。 4. The document classification method according to claim 3, wherein, in the common keyword evaluation value calculating step, a value obtained by multiplying the number of appearances of the common keyword by a power of n (n = 0.1 to 0.8) is substituted. 前記共通キーワード評価値算出ステップにおいて、前記共通キーワードの出現数をn(n=0.1〜0.8)乗した値に置き換え、
前記共通引用文献評価値算出ステップにおいて、前記共通引用文献の出現数をn(n=0.1〜0.8)乗した値に置き換え、
前記文書類似度算出ステップにおいて、共通キーワードに基づく類似度を2ないし100の数値で除した値と共通引用文献に基づく類似度との和を求め、その値を前記分類対象文書のうちの2文書に含まれるワードの数と前記分類対象文書のうちの2文書で引用されている文献の数との和で除した値を文書類似度とすることを特徴とする請求項1に記載の文書分類方法。
In the common keyword evaluation value calculating step, the number of occurrences of the common keyword is replaced with a value obtained by raising n (n = 0.1 to 0.8).
In the common cited document evaluation value calculation step, the number of appearances of the common cited document is replaced with a value obtained by raising n (n = 0.1 to 0.8).
In the document similarity calculation step, a sum of a value obtained by dividing a similarity based on a common keyword by a numerical value of 2 to 100 and a similarity based on a common cited document is obtained, and the value is calculated as two documents of the classification target documents. 2. The document classification according to claim 1, wherein a value obtained by dividing the number of words included in a document by the sum of the number of documents cited in two of the classification target documents is used as the document similarity. Method.
自文書を自文書で引用されている文献とみなすことを特徴とする請求項1に記載の文書分類方法。 The document classification method according to claim 1, wherein the document is regarded as a document cited in the document. 前記分類対象文書が特許文献であることを特徴とする請求項1に記載の文書分類方法。 The document classification method according to claim 1, wherein the classification target document is a patent document. 前記共通キーワードの出現数を数える際、あるキーワード参照文書の識別番号と関連付けられるものとして同一のワードを重複して数えないことを特徴とする請求項1に記載の文書分類方法。 2. The document classification method according to claim 1, wherein, when counting the number of appearances of the common keyword, the same word is not counted repeatedly as being associated with an identification number of a certain keyword reference document. 複数の分類対象文書をそれぞれの内容に応じて分類する文書分類方法であって、
前記分類対象文書のうちの2文書で共通して現れる共通キーワードに基づいて当該2文書の類似度を算出する共通キーワード類似度算出ステップと、
前記分類対象文書のうちの2文書で共通して引用されている共通引用文献に基づいて当該2文書の類似度を算出する共通引用文献類似度算出ステップと、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出ステップと、
前記分類対象文書を座標系に配置し、前記文書類似度が高い2文書が近づき、前記文書類似度が低い2文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動ステップとを備えることを特徴とする文書分類方法。
A document classification method for classifying a plurality of documents to be classified according to their contents,
A common keyword similarity calculating step of calculating a similarity between the two documents based on a common keyword that appears in common among the two documents of the classification target document;
A common cited reference similarity calculating step for calculating a similarity between the two documents based on a common cited reference cited in two documents of the classification target documents;
A document similarity calculation step for calculating a document similarity by combining the similarity based on the common keyword and the similarity based on the common cited document;
A document moving step in which the classification target documents are arranged in a coordinate system, and each of the classification target documents is moved so that the two documents with high document similarity approach and the two documents with low document similarity move away from each other. A document classification method characterized by comprising:
前記共通キーワード類似度算出ステップ、前記共通引用文献類似度算出ステップ及び前記文書類似度算出ステップにおいてベクトル空間法が適用されることを特徴とする請求項9に記載の文書分類方法。 The document classification method according to claim 9, wherein a vector space method is applied in the common keyword similarity calculation step, the common cited document similarity calculation step, and the document similarity calculation step. コンピュータシステムに、請求項1ないし10のいずれか1項に記載の各ステップを実行させることを特徴とする文書分類プログラム。 A document classification program for causing a computer system to execute the steps according to any one of claims 1 to 10. 複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの2文書で共通して現れる共通キーワードを抽出する共通キーワード抽出手段と、
前記分類対象文書のうちの2文書で共通して引用されている共通引用文献を抽出する共通引用文献抽出手段と、
各キーワード参照文書に含まれるワードを当該キーワード参照文書の識別番号と関連付けて格納したキーワード・テーブルを参照して、前記キーワード・テーブルにおける前記共通キーワードの出現数を数え、この出現数に基づき前記共通キーワードの非一般性の評価値を算出する共通キーワード評価値算出手段と、
各引用文献参照文書で引用されている文献を当該引用文献参照文書の識別番号と関連付けて格納した引用文献テーブルを参照して、前記引用文献テーブルにおける前記共通引用文献の出現数を数え、この出現数に基づき前記共通引用文献の非一般性の評価値を算出する前記共通引用文献評価値算出手段と、
各前記共通キーワードの評価値を合算して、前記分類対象文書のうちの2文書の共通キーワードに基づく類似度を算出するキーワード類似度算出手段と、
各前記共通引用文献の評価値を合算して、前記分類対象文書のうちの2文書の共通引用文献に基づく類似度を算出する引用文献類似度算出手段と、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出手段と、
前記分類対象文書を座標系に配置し、前記文書類似度が高い2文書が近づき、前記文書類似度が低い2文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動手段とを備えることを特徴とする文書分類装置。
A document classification device for classifying a plurality of classification target documents according to their contents,
Common keyword extraction means for extracting common keywords that appear in common in two of the documents to be classified;
Common citation extraction means for extracting common citations that are commonly cited in two of the classification target documents;
The number of occurrences of the common keyword in the keyword table is counted by referring to the keyword table in which the word included in each keyword reference document is stored in association with the identification number of the keyword reference document. A common keyword evaluation value calculating means for calculating a keyword non-generality evaluation value;
Referring to the cited document table that stores the documents cited in each cited document reference document in association with the identification number of the cited document reference document, the number of appearances of the common cited document in the cited document table is counted, and this appearance The common cited reference evaluation value calculating means for calculating an evaluation value of non-generality of the common cited reference based on a number;
A keyword similarity calculating means for adding the evaluation values of the common keywords and calculating a similarity based on the common keywords of two documents of the classification target documents;
Cited document similarity calculation means for calculating the similarity based on the common citations of two documents of the classification target documents by adding the evaluation values of the common citations;
A document similarity calculating means for calculating a document similarity that combines the similarity based on the common keyword and the similarity based on the common cited document;
Document moving means for performing processing for moving the classification target documents so that the two documents with high document similarity approach each other and the two documents with low document similarity move away from each other, arranged in the coordinate system. A document classification device comprising:
複数の分類対象文書をそれぞれの内容に応じて分類する文書分類装置であって、
前記分類対象文書のうちの2文書で共通して現れる共通キーワードに基づいて当該2文書の類似度を算出する共通キーワード類似度算出手段と、
前記分類対象文書のうちの2文書で共通して引用されている共通引用文献に基づいて当該2文書の類似度を算出する共通引用文献類似度算出手段と、
共通キーワードに基づく類似度と共通引用文献に基づく類似度とを総合した文書類似度を算出する文書類似度算出手段と、
前記分類対象文書を座標系に配置し、前記文書類似度が高い2文書が近づき、前記文書類似度が低い2文書が遠ざかるように各前記分類対象文書を移動させる処理を行う文書移動手段とを備えることを特徴とする文書分類装置。

A document classification device for classifying a plurality of classification target documents according to their contents,
Common keyword similarity calculating means for calculating the similarity between the two documents based on a common keyword that appears in common among the two documents to be classified;
A common cited reference similarity calculating means for calculating the similarity of the two documents based on a common cited reference that is commonly cited in two of the classification target documents;
A document similarity calculating means for calculating a document similarity that combines the similarity based on the common keyword and the similarity based on the common cited document;
Document moving means for performing processing for moving the classification target documents so that the two documents with high document similarity approach each other and the two documents with low document similarity move away from each other, arranged in the coordinate system. A document classification device comprising:

JP2005324059A 2005-11-08 2005-11-08 Document sorting method, document sorting program and document sorting device Pending JP2007133516A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005324059A JP2007133516A (en) 2005-11-08 2005-11-08 Document sorting method, document sorting program and document sorting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005324059A JP2007133516A (en) 2005-11-08 2005-11-08 Document sorting method, document sorting program and document sorting device

Publications (1)

Publication Number Publication Date
JP2007133516A true JP2007133516A (en) 2007-05-31

Family

ID=38155140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005324059A Pending JP2007133516A (en) 2005-11-08 2005-11-08 Document sorting method, document sorting program and document sorting device

Country Status (1)

Country Link
JP (1) JP2007133516A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086944A (en) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd Information processor and information processing program
JP2010020530A (en) * 2008-07-10 2010-01-28 Asahi Kasei Corp Document classification providing device, document classification providing method and program
US8032505B2 (en) 2008-03-11 2011-10-04 Fuji Xerox Co., Ltd. Relative document representing system, relative document representing method, and computer readable medium
US8099413B2 (en) 2008-03-21 2012-01-17 Fuji Xerox Co., Ltd. Relative document presenting system, relative document presenting method, and computer readable medium
WO2014054308A1 (en) * 2012-10-05 2014-04-10 富士ゼロックス株式会社 Information processing device and program
KR101501542B1 (en) * 2014-03-25 2015-03-12 한국과학기술정보연구원 System and method for fusion technology analysis
JP2016081200A (en) * 2014-10-15 2016-05-16 株式会社toor Method for information display and information display device
CN114416990A (en) * 2022-01-17 2022-04-29 北京百度网讯科技有限公司 Object relationship network construction method and device and electronic equipment
CN115544257A (en) * 2022-11-25 2022-12-30 天津联想协同科技有限公司 Method and device for rapidly classifying network disk documents, network disk and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200285A (en) * 1999-01-06 2000-07-18 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval, and recording medium where information retrieval program is recorded
JP2005092356A (en) * 2003-09-12 2005-04-07 Shin Etsu Polymer Co Ltd Document classification device and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200285A (en) * 1999-01-06 2000-07-18 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieval, and recording medium where information retrieval program is recorded
JP2005092356A (en) * 2003-09-12 2005-04-07 Shin Etsu Polymer Co Ltd Document classification device and method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086944A (en) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd Information processor and information processing program
US8032505B2 (en) 2008-03-11 2011-10-04 Fuji Xerox Co., Ltd. Relative document representing system, relative document representing method, and computer readable medium
US8099413B2 (en) 2008-03-21 2012-01-17 Fuji Xerox Co., Ltd. Relative document presenting system, relative document presenting method, and computer readable medium
JP2010020530A (en) * 2008-07-10 2010-01-28 Asahi Kasei Corp Document classification providing device, document classification providing method and program
US10055456B2 (en) 2012-10-05 2018-08-21 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium for displaying an information object
WO2014054308A1 (en) * 2012-10-05 2014-04-10 富士ゼロックス株式会社 Information processing device and program
JP2014075106A (en) * 2012-10-05 2014-04-24 Fuji Xerox Co Ltd Information processor and program
KR101501542B1 (en) * 2014-03-25 2015-03-12 한국과학기술정보연구원 System and method for fusion technology analysis
JP2016081200A (en) * 2014-10-15 2016-05-16 株式会社toor Method for information display and information display device
CN114416990A (en) * 2022-01-17 2022-04-29 北京百度网讯科技有限公司 Object relationship network construction method and device and electronic equipment
CN114416990B (en) * 2022-01-17 2024-05-21 北京百度网讯科技有限公司 Method and device for constructing object relation network and electronic equipment
CN115544257A (en) * 2022-11-25 2022-12-30 天津联想协同科技有限公司 Method and device for rapidly classifying network disk documents, network disk and storage medium
CN115544257B (en) * 2022-11-25 2023-04-11 天津联想协同科技有限公司 Method and device for quickly classifying network disk documents, network disk and storage medium

Similar Documents

Publication Publication Date Title
JP2007133516A (en) Document sorting method, document sorting program and document sorting device
US7769771B2 (en) Searching a document using relevance feedback
EP0615201B1 (en) Document detection system using detection result presentation for facilitating user&#39;s comprehension
Paiva et al. An approach to supporting incremental visual data classification
US7290212B2 (en) Program and method for displaying a radar chart
US10255355B2 (en) Method and system for information retrieval and aggregation from inferred user reasoning
JP4467583B2 (en) Design support program, design support method, and design support apparatus
JP2003167914A (en) Multimedia information retrieving method, program, recording medium and system therefor
JP2004192434A (en) Document extraction apparatus, program and method
US20170132484A1 (en) Two Step Mathematical Expression Search
JP6714268B1 (en) Question sentence output method, computer program, and information processing apparatus
JP6680956B1 (en) Search needs evaluation device, search needs evaluation system, and search needs evaluation method
JP3356519B2 (en) Document information retrieval device
JP4545614B2 (en) Document classification program and document classification apparatus
JP5414334B2 (en) Pseudo-document search system and pseudo-document search method
JP6924450B2 (en) Search needs evaluation device, search needs evaluation system, and search needs evaluation method
JP2008090510A (en) Document classification device and method
KR101078978B1 (en) System for grouping documents
JP4356347B2 (en) Document extraction system
JP2017208047A (en) Information search method, information search apparatus, and program
CN112131475A (en) Interpretable and interactive user portrait method and device
JP2005092356A (en) Document classification device and method
JP4192213B2 (en) Context vector generation and retrieval system and method
JP2019211884A (en) Information search system
JP2004326600A (en) Clustering device of structured document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101026