JP4615279B2 - Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof - Google Patents

Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof Download PDF

Info

Publication number
JP4615279B2
JP4615279B2 JP2004297952A JP2004297952A JP4615279B2 JP 4615279 B2 JP4615279 B2 JP 4615279B2 JP 2004297952 A JP2004297952 A JP 2004297952A JP 2004297952 A JP2004297952 A JP 2004297952A JP 4615279 B2 JP4615279 B2 JP 4615279B2
Authority
JP
Japan
Prior art keywords
classification
document
information
document information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004297952A
Other languages
Japanese (ja)
Other versions
JP2006113677A (en
JP2006113677A5 (en
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2004297952A priority Critical patent/JP4615279B2/en
Publication of JP2006113677A publication Critical patent/JP2006113677A/en
Publication of JP2006113677A5 publication Critical patent/JP2006113677A5/ja
Application granted granted Critical
Publication of JP4615279B2 publication Critical patent/JP4615279B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分類に関する分類情報が関連付けられた複数の文献情報を利用して文献の分類を認識する文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体に関する。   The present invention records a document classification recognition device that recognizes a document classification using a plurality of document information associated with classification information related to the classification, a method thereof, a document classification device, a program thereof, and a program thereof. The present invention relates to a recording medium.

従来、文書を分類する装置として、各種構成が知られている(例えば、特許文献1参照)。   Conventionally, various configurations have been known as devices for classifying documents (see, for example, Patent Document 1).

特許文献1に記載のものは、分類規則データベースに蓄積された分類規則に基づいて、入力された文書を分類毎に分類文書データベースに蓄積する。この分類文書データベースに蓄積されている文書から分類毎にキーワードを抽出し、キーワードデータベースに蓄積する。分類文書データベースに蓄積された文書が、分類作成条件データベースに蓄積されユーザが最初に入力しておいた分類作成条件を満たす場合、キーワードデータベースに蓄積されているキーワードを用い、分類作成規則データベースに蓄積されている分類作成規則に従って文書を分類するための分類規則を新たに作成する。分類規則が新たに作成された場合、文書分類データベースに蓄積されている文書を再分類する。このように、ユーザが最初に分類作成規則を入力しておくことで、文書を分類するため分類規則が作成され、この分類規則に基づいて入力された文書が自動的に分類される構成が採られている。   The document described in Patent Document 1 stores an input document in a classification document database for each classification based on the classification rules stored in the classification rule database. A keyword is extracted for each classification from the documents stored in the classified document database and stored in the keyword database. If the documents stored in the classification document database are stored in the classification creation condition database and satisfy the classification creation conditions entered by the user for the first time, the keywords stored in the keyword database are used and stored in the classification creation rule database. A new classification rule for classifying documents according to the classified classification creation rule is created. When a new classification rule is created, the documents stored in the document classification database are reclassified. In this way, when the user first inputs a classification creation rule, a classification rule is created to classify the document, and the input document is automatically classified based on this classification rule. It has been.

特許文献2に記載のものは、あらかじめ分類された文書中に含まれる隣接する単語列を分類項目として、分類項目毎に全分類中の所定分類に分類される頻度を演算し、分類項目が文書を分類する確率を演算し蓄積しておく。そして、分類すべき文書が入力された際、その文書中の単語を用いて、分類項目において単語列を抽出し、この抽出した単語列に対してあらかじめ蓄積しておいた連続する単語列で一致する文書がある分類に属する分類確率を抽出する。この分類項目の分類確率を用いて、文書がある分類に対して分類される確率を個別に算出し、この分率確率のうちの最も確率の高いものから順に文書の分類結果として表示させる構成が採られている。   The method described in Patent Document 2 calculates the frequency of classification into predetermined classifications in all classifications for each classification item by using adjacent word strings included in documents classified in advance as classification items. The probability of classifying is calculated and accumulated. Then, when a document to be classified is input, a word string is extracted from the classification item using words in the document, and the extracted word string is matched with a continuous word string stored in advance. A classification probability belonging to a certain classification is extracted. Using the classification probabilities of this classification item, the probability that a document is classified for a certain classification is calculated individually and displayed as the classification result of the document in order from the highest probability of this fraction probability. It is taken.

特許文献3に記載のものは、分類済みの文書データから、文書データ内における唯一の分類のみに出現する単語を検出して分類を表すキーワードとして分類用辞書に登録する。未分類の文書データ中の単語を検出し、分類用辞書に登録済みのキーワードとの一致数を検出し、一致した分類の中で最も一致数が多い分類を分類結果とする。   In the document described in Patent Document 3, a word that appears in only one classification in the document data is detected from the classified document data, and is registered in the classification dictionary as a keyword representing the classification. Words in uncategorized document data are detected, the number of matches with keywords registered in the classification dictionary is detected, and the classification with the largest number of matches among the matched classifications is set as the classification result.

特許文献4に記載のものは、学習用文書に含まれる語から分類に有用な有効語を選定し、出現頻度や他の有効毎の共起状況などによりベクトル表現して有効語辞書として保持する。学習用文書と分類対象文書とについて、有効語辞書を参照して段落ベクトルを求め、段落ベクトルの分布から他話題段落を決定する。他話題段落を参照して段落ベクトルの中から有効な段落ベクトルを取り出し、文書ベクトルを求める。学習用文書の文書ベクトルを用いて各カテゴリのフォルダベクトルを求める。分類対象文書の文書ベクトルと各カテゴリのフォルダベクトルとの比較結果に応じて、分類対象文書が属するカテゴリを決定する構成が採られている。   The one described in Patent Document 4 selects effective words useful for classification from the words included in the learning document, and stores them as effective word dictionaries by vector expression based on the appearance frequency and other co-occurrence situations for each validity. . For the learning document and the classification target document, a paragraph vector is obtained by referring to the effective word dictionary, and the other topic paragraph is determined from the distribution of the paragraph vector. An effective paragraph vector is extracted from the paragraph vectors with reference to other topic paragraphs, and a document vector is obtained. A folder vector of each category is obtained using the document vector of the learning document. A configuration is adopted in which the category to which the classification target document belongs is determined according to the comparison result between the document vector of the classification target document and the folder vector of each category.

特許文献5に記載のものは、過去に実施した分類に対する正解率から求めた重み付けなどによる評価関数を各分類担当者毎にデータベース化しておくと共に、各分類毎にその分類を特徴付ける典型文書をあらかじめ用意しておく。分類担当者による対象文書の分類結果と評価関数とから、各分類に対して手動分類を点数化する。対象文書と典型文書との類似度を演算し、各分類に対して自動分類を点数化する。手動分類の点数と自動分類の点数とを各分類毎に合計した値最も高い分類を最終分類結果とし、手動分類と自動分類とを融合化して正確な分類結果を得る構成が採られている。 According to the method described in Patent Document 5, an evaluation function based on weighting obtained from the accuracy rate for a classification performed in the past is stored in a database for each person in charge of classification, and a typical document characterizing the classification for each classification in advance. Have it ready. The manual classification is scored for each classification from the classification result of the target document by the classifier and the evaluation function. The degree of similarity between the target document and the typical document is calculated, and the automatic classification is scored for each classification. The classification with the highest total of the manual classification score and the automatic classification score for each classification is used as the final classification result, and the manual classification and automatic classification are merged to obtain an accurate classification result. .

特開平11−203302号公報(第5頁左欄〜第7頁右欄)JP 11-203302 A (page 5 left column to page 7 right column) 特開平8−287097号公報(第7頁左欄〜第9頁右欄)JP-A-8-287097 (page 7, left column to page 9, right column) 特開平6−348755号公報(第3頁右欄〜第6頁右欄)JP-A-6-348755 (right column on page 3 to right column on page 6) 特開平11−85796号公報(第6頁右欄〜第9頁左欄)JP-A-11-85796 (page 6, right column to page 9, left column) 特開平11−45247号公報(第3頁左欄〜第6頁右欄)Japanese Patent Laid-Open No. 11-45247 (page 3, left column to page 6, right column)

上述したように、特許文献1ないし特許文献5に記載のような従来の構成では、あらかじめ定義された分類項目を特徴付けるキーワードなどの語集合や特徴パターン、規則などをあらかじめ設定しておき、分類項目があらかじめ付与された文献集合を用い、分類項目と分類対象の文献とを照合して分類項目を決定している。このことにより、適切な分類が得られるように、所定の分類項目をあらかじめ設定しておく必要があり、装置構築が煩雑である問題がある。 As described above, in the conventional configuration as described in Patent Document 1 to Patent Document 5, a word set such as a keyword characterizing a predefined classification item, a feature pattern, a rule, and the like are set in advance, and the classification item Is used to collate a classification item with a document to be classified and determine a classification item. Thus, as appropriate classification is obtained, it is necessary to set rough steering Me a predetermined classification item, a problem device construction is complicated.

本発明の目的は、このような点に鑑みて、文献の分類の認識が容易な文献分類認識装置、その方法、文献分類装置、および、それらのプログラムを提供することにある。 An object of the present invention, in view of the above problems, recognition easy document classification recognizer classification document, the method, Document classification device, and to provide their program.

本発明の文献分類認識装置は、単語を含む文献情報の分類を認識する文献分類認識装置であって、前記分類の認識対象の前記文献情報に含まれる単語を取得する得手段と、複数の単語を含んで構成される文献情報と前記分類が関連付けられて複数格納された文献記憶手段に格納された前記文献情報に含まれる単語と、前記得手段にて取得した単語との同一性を判断する判断手段と、前記同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出する文献選出手段と、前記選出した文献情報に関連付けられた前記分類から、前記判断された同一性に基づいて得点を演算し、前記分類毎の合計の得点に基づいて前記分類の候補を選出する分類取得手段と、を具備し、前記判断手段は、前記取得した単語と一致する前記文献記憶手段に格納された文献情報内の単語について、その一致する単語が前記文献記憶手段に格納された文献情報と前記認識対象の文献情報との中で出現する数を一致単語数とし、前記文献記憶手段に記憶された文献情報と前記認識対象の文献情報とを構成する単語の総数を総単語数とし、前記総単語数を前記一致単語数で除算することで前記同一性としての重み度情報を演算し、前記分類取得手段は、前記単語について演算された重み度情報に基づいて前記得点を演算することを特徴とする。 Document classification recognizer of the present invention, the words a recognized document classification recognizer classification including plain coarse Document information, and acquisition means for acquiring a word included in the document information of the recognition target of the classification, and words included in the document information and the the classification and configured document information stored in the document storage means stores a plurality associated comprise a plurality of words, the word acquired by the acquisition means The judgment is made from judgment means for judging identity, literature selection means for selecting the literature information stored in the literature storage means based on the identity, and the classification associated with the selected literature information. A class acquisition unit that calculates a score based on the identity and selects candidates for the class based on the total score for each class, and the determination unit matches the acquired word Document memory About words in the document information stored, as the matching word count the number of occurrences in the words that the said document storing means is stored in the document information and the recognition target document information that matches the document storage The total number of words constituting the document information stored in the means and the document information to be recognized is set as the total number of words, and the total number of words is divided by the number of matched words to obtain the weight information as the identity. The classification acquisition means calculates the score based on the weight information calculated for the word.

この発明では、得手段にて分類の認識対象の文献情報に含まれる単語を取得すると、複数の単語を含んで構成される文献情報と前記分類が関連付けられて複数格納された文献記憶手段に格納された文献情報に含まれる単語と、取得した単語との同一性を判断手段により判断する。この同一性としては、取得した単語と一致する文献記憶手段に格納された文献情報内の単語について、その一致する単語が文献記憶手段に格納された文献情報と認識対象の文献情報との中で出現する数を一致単語数とし、文献記憶手段に記憶された文献情報と認識対象の文献情報とを構成する単語の総数を総単語数とし、前記総単語数を前記一致単語数で除算することで前記同一性としての重み度情報を演算する。この判断した同一性に基づいて文献記憶手段に格納された文献情報を文献選出手段にて選出し、重み情報に基づいて演算した得点に基づいて文献情報に関連付けられた分類分類取得手段により認識対象の分類として取得する。この構成では、分類の認識対象の文献情報と類似する内容の文献情報を、あらかじめ分類関連付けられた文献情報に含まれる単語と認識対象の文献情報に含まれる単語との同一性の判断により認識し内容の類似する文献情報の分類を認識対象の文献情報の分類として認識するので、例えば既存の分類が認識されている文献情報のデータベースを利用して、文献情報の分類が容易な演算により容易に認識可能となる。 In the present invention, taken acquires the words included in the recognition target document information classified at yield means stores plural literature storage means the classification and are associated with the configured document information including a plurality of words The determination means determines the identity between the word included in the document information stored in and the acquired word . As for this identity, for words in the document information stored in the document storage means that match the acquired word, the matching words are among the document information stored in the document storage means and the document information to be recognized. the number that appears as the matching word count, the total number of words constituting the document information of the recognition target document information stored in the document storage means and the total number of words, dividing the total number of words in the word-match count Thus, the weight degree information as the identity is calculated. The document information stored in the document storage means based on the determination the identity elected in the literature selecting means, by the classification acquiring means a classification associated with the document information based on the scores calculated based on the weight degree information Acquired as classification of recognition target. In this configuration, the document information of the contents similar to the recognition target document information classification, the identity of the determination of the word in advance classification is included in the word and document information of the recognition target included in the document information associated recognized, since recognizing the classification of document information similar content as the classification of the document information of the recognition target, for example, using a database of document information existing classification is recognized, you are easy operations classification Bibliography Can be easily recognized.

また、本発明では、前記判断手段は、前記同一性に対応した得点に関する得点情報を前記文献記憶手段の文献情報に関連付け、前記文献選出手段は、前記得点情報の得点が高い前記文献情報を選出する構成とすることが好ましい。この構成では、判断手段により判断した同一性に対応した得点に関する得点情報を文献記憶手段の文献情報に関連付け、得点が高い得点情報が関連付けられた文献情報を文献選出手段により選出しているので、認識対象の文献に内容が類似する文献情報の類似度合いが得点により容易に認識され、内容が類似する文献情報の特定が簡単な演算により得られ、分類が容易に認識される。   In the present invention, the determination means associates the score information related to the score corresponding to the identity with the document information in the document storage means, and the document selection means selects the document information having a high score in the score information. It is preferable to adopt a configuration to In this configuration, since the score information relating to the score corresponding to the identity determined by the determination means is associated with the document information of the document storage means, and the document information associated with the high score information is selected by the document selection means, The degree of similarity of the document information whose contents are similar to the document to be recognized is easily recognized by the score, the identification of the document information having similar contents is obtained by a simple calculation, and the classification is easily recognized.

さらに、本発明では、前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類ともに前記得点情報を関連付けて取得し、各文献情報から取得した前記分類に前記得点情報の得点を合算して合計得点を演算し、合計得点が高い前記分類前記認識対象の分類として取得する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段で選出した文献情報における分類よび得点情報を取得し、取得した分類に得点情報の得点を合算して合計得点を演算し、合計得点が高い分類認識対象の分類として取得するので、内容の類似状況に応じた分類が適切に選出される。 Furthermore, in the present invention, the classification acquisition unit, the acquired associate classified as both the score information associated with the document information that has been selected in the literature selecting means, said classification every acquired from the document information It is preferable that the total score is calculated by adding the scores of the score information, and the classification having a high total score is acquired as the classification of the recognition target. In this configuration, by the classification acquisition unit acquires score information classification Contact and in document information selected at document selecting means calculates the total score by summing the scores obtained classified every score information, a high total score Since the classification is acquired as the classification of the recognition target, the classification corresponding to the content similarity situation is appropriately selected.

そして、本発明では、前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類の出現頻度を演算し、これら各分類の出現頻度が高い分類前記認識対象の分類として取得する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段にて選出した文献情報に関連付けられた類毎の出現頻度を演算し、各分類の出現頻度が高い分類認識対象の分類としているので、内容に対応した好適な分類が認識可能となる。 And in this invention, the said classification acquisition means calculates the appearance frequency for every classification | category linked | related with the said literature information selected by the said literature selection means, The classification | category with high appearance frequency of each of these classification | category is the said recognition object. It is preferable that the configuration is obtained as a classification of In this configuration, the classifying acquisition means calculates the appearance frequency of each classification associated with the selected the document information in the literature selection means, the frequency of occurrence of each category is a high classifying the classification of recognized, contents A suitable classification corresponding to can be recognized.

さらに、本発明では、前記分類取得手段は、前記文献選出手段にて選出した各文献情報における分類分類毎に計数して出現頻度を演算する構成とすることが好ましい。この構成では、分類取得手段により、文献選出手段にて選出した各文献情報における分類分類毎に計数して出現頻度を演算しているので、より内容に対応した好適な分類が簡単な演算により容易に認識される。 Furthermore, in the present invention, the classification acquisition unit is preferably configured for calculating a counted by frequency classification of each document information selected by said document selecting means for each classification. In this configuration, the classifying acquisition means, because it calculates the count to frequency for each classification a classification of each document information selected in the literature selecting means, by a suitable classification simple operation corresponding to more content It is easily recognized.

また、本発明では、前記類は、国際特許分類である構成とすることが好ましい。この構成では、類として国際的に統一化された内容の分類である国際特許分類を利用するので、統一的な分類が得られるとともに、国際特許分類が関連付けられた既存の特許文献である特許公開公報データなどのデータベースを利用でき、文献記憶手段をあらかじめ構築する必要がなく簡単な構成で容易に分類の認識が可能となる。 In the present invention, the classification, it is preferable that the structure is the International Patent Classification. In this configuration, since the use of the International Patent Classification it is internationally unified content classification as classified, along with a unified classification is obtained, which is an existing patent documents International Patent Classification is associated patents A database such as public gazette data can be used, and it is not necessary to construct a document storage means in advance, and classification can be easily recognized with a simple configuration.

さらに、本発明では、前記分類取得手段にて取得した分類を入力操作により選択可能に表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段にて取得した分類を入力操作にて選択可能に表示手段に表示させる。このため、演算により認識された分類を利用者が確認できるとともに、適宜設定や修正などを可能とすることが容易となり、より適切な分類の設定が得られる。   Furthermore, in the present invention, it is preferable to have a configuration including a display control means for displaying the classification acquired by the classification acquisition means on the display means so as to be selectable by an input operation. In this configuration, the display control means causes the display means to display the classification acquired by the classification acquisition means so as to be selectable by an input operation. For this reason, the user can confirm the classification recognized by the calculation, and it is easy to make appropriate settings and corrections, and a more appropriate classification setting can be obtained.

また、本発明では、前記表示制御手段は、前記表示手段に表示する分類が入力操作により選択されたことを認識すると前記分類の内容に関する説明情報を前記表示手段に表示させる構成とすることが好ましい。この構成では、表示制御手段により、表示手段に表示される分類が入力操作により選択されたことを認識すると、分類の内容に関する説明情報を表示手段に表示させるので、認識された分類の内容が利用者にて容易に確認可能であり、使い勝手が向上する。   In the present invention, it is preferable that the display control unit is configured to cause the display unit to display explanatory information regarding the contents of the classification when recognizing that the classification displayed on the display unit is selected by an input operation. . In this configuration, when the display control means recognizes that the classification displayed on the display means has been selected by the input operation, the display means displays the explanation information on the contents of the classification, so that the recognized classification contents are used. Can be easily confirmed by a user, and usability is improved.

そして、本発明では、前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した表示形態で表示させる制御をする構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段で取得した分類を同一性に対応した表示形態、例えば色彩や明度などを同一性に対応した形態で表示させるので、認識対象の文献情報の内容との適合状態を利用者に容易に認識させることができ、例えば分類が複数表示される場合に特に有効である。   In the present invention, it is preferable that the display control unit performs control to display the classification acquired by the classification acquisition unit in a display form corresponding to the identity. In this configuration, the display control means causes the classification acquired by the classification acquisition means to be displayed in a display form corresponding to the identity, for example, a color or brightness in a form corresponding to the identity. Can be easily recognized by the user, and is particularly effective when, for example, a plurality of classifications are displayed.

さらに、本発明では、前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した得点に関する得点情報と併せて表示させる制御をする構成とすることが好ましい。この構成では、表示制御手段により、分類取得手段で取得した分類を、同一性に対応した得点に関する得点情報と併せて表示させるので、認識対象の文献情報の内容との適合状態を利用者に容易に認識させることができ、例えば分類が複数表示される場合に特に有効である。   Further, in the present invention, it is preferable that the display control unit performs control to display the classification acquired by the classification acquisition unit together with the score information related to the score corresponding to the identity. In this configuration, since the display control means displays the classification acquired by the classification acquisition means together with the score information related to the score corresponding to the identity, it is easy for the user to match the content of the document information to be recognized. This is particularly effective when a plurality of classifications are displayed, for example.

そして、本発明では、前記得手段にて取得した単語を表示手段に表示させる際に、他の単語を表示させる場合と異なる表示形態で前記文献情報を表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、得手段にて取得した単語が他の単語と異なる表示形態に文献情報を表示手段に表示させるため、分類の認識対象の文献情報やその文献情報と同一の分類の文献情報における分類認識の要因となる単語を利用者に容易に認識させることができ、使い勝手が向上する。 In the present invention, when displaying on the display means a word acquired by the acquisition unit, including the display control means for displaying on the display means the document information in the display mode different from the case of displaying the other words It is preferable to adopt the configuration described above. In this configuration, the display control unit, collected since the word acquired in resulting unit is displayed on the display means document information in a display form different from the other word, the classification object recognition literature information and same as that document information The user can easily recognize words that cause classification recognition in the literature information of classification, and usability is improved.

さらに、本発明では、前記表示制御手段は、他の単語と異なる表示形態に表示された単語が入力操作により選択されるとその単語により取得した分類表示手段に表示させる構成とすることが好ましい。この構成では、表示制御手段により、他の単語と異なる表示形態に表示された単語が入力操作により選択されるとその単語により取得した分類表示手段に表示させるので、文献情報の分類の確認が容易となり、使い勝手が向上する。 Furthermore, in the present invention, the display control means preferably the words displayed on the different display form and the other word is selected by an input operation and structure to be displayed on the display means the classification obtained by the word . In this configuration, the display control means, so to be displayed on the display means when selected classification obtained by the word by the displayed word is input operations to a different display form other words, confirmation of the classification of the document information is It becomes easy and usability improves.

また、本発明では、ネットワークを介して接続されたサーバ装置から送信され前記文献記憶手段に記憶された前記文献情報を変更させる旨および前記文献情報の記憶状況を変更する旨のうちの少なくともいずれか一方を含むデータ配信操作に関する操作情報を認識すると、前記文献記憶手段を制御して前記データ配信操作に対応して前記文献情報の変更および記憶状況の変更を実施させる制御をする記憶制御手段を具備した構成とすることが好ましい。この構成では、分類関連付けられた1つのデータ構造に構築された文献情報を複数格納するテーブル構造の文献記憶手段に対して、ネットワークで接続されたサーバ装置からデータを配信し、その記憶内容を追加・変更または新規に書き込みを実施させ、ネットワーク経由のデータ配信操作によって、分類体系対応能力が拡張・変更可能となる。 In the present invention, at least one of changing the document information transmitted from the server device connected via the network and stored in the document storage means and changing the storage state of the document information. A storage control unit configured to control the document storage unit when the operation information related to the data distribution operation including one is recognized and to change the document information and the storage state in response to the data distribution operation; It is preferable to adopt the configuration described above. In this configuration, with respect to documents storage means of the table structure that stores a plurality of document information that has been built into a single data structure classification is associated, to deliver data from a server device which is connected to the network, the stored contents The classification system support capability can be expanded / changed by performing data addition / change or new writing and data distribution operation via the network.

そして、本発明の文献分類装置は、複数の単語を含んで構成される文献情報と、分類が関連付けられて複数格納された文献記憶手段と、この文献記憶手段を利用して所定の文献情報の分類を認識する本発明に記載の文献分類認識装置と、を具備したことを特徴とする。 The document classification apparatus of the present invention, a document information includes a plurality of words, the document storage means classification and are more stored in association, a given document information using the document storage means The document classification recognition apparatus according to the present invention for recognizing the classification of the document is provided.

この発明では、複数の単語を含んで構成される文献情報と、分類が関連付けられて複数格納された文献記憶手段を利用して、所定の文献情報の分類を、本発明に記載の文献分類認識装置により認識する。このことにより、例えば既存の分類が認識されている文献情報のデータベースを利用することができ、文献情報の分類容易な演算により容易に認識することができるAccording to the present invention, a document storage means in which a plurality of document information including a plurality of words and a plurality of classifications are associated and stored is used to classify predetermined document information into a document classification described in the present invention. Recognize by recognition device. Thus, for example, existing classification can utilize a database of document information has been recognized, can be easily recognized by the classification easy operation document information.

そして、この発明では、前記文献分類認識装置にて認識した分類を認識対象の前記文献情報に関連付けてこの文献情報を前記文献記憶手段に格納させる記憶制御手段を具備した構成とすることが好ましい。この構成では、記憶制御手段により、文献分類認識装置にて認識した分類を認識対象の文献情報に関連付け、この文献情報を文献記憶手段に格納させるので、文献情報が自動的に蓄積され、使い勝手が向上する。また、例えば、分類毎に文献情報を構築するなどの使い勝手が良好なデータベースの構築も容易となる。   In the present invention, it is preferable to include a storage control unit that associates the classification recognized by the document classification recognition apparatus with the document information to be recognized and stores the document information in the document storage unit. In this configuration, the storage control means associates the classification recognized by the literature classification recognition apparatus with the literature information to be recognized, and this literature information is stored in the literature storage means, so that the literature information is automatically accumulated and is easy to use. improves. In addition, for example, it is easy to construct a database that is easy to use, such as constructing document information for each classification.

また、本発明の文献分類認識方法は、コンピュータにより、単語を含む文献情報の分類を認識する文献分類認識方法であって、前記コンピュータは、前記分類の認識対象の前記文献情報に含まれる単語を取得すると、複数の単語を含んで構成される文献情報と前記分類が関連付けられて複数格納された文献記憶手段に格納された前記文献情報に含まれる単語と、前記取得した単語との同一性を判断する。この同一性の判断の際に、前記取得した単語と一致する前記文献記憶手段に格納された文献情報内の単語について、その一致する単語が前記文献記憶手段に格納された文献情報と前記認識対象の文献情報との中で出現する数を一致単語数とし、前記文献記憶手段に記憶された文献情報と前記認識対象の文献情報とを構成する単語の総数を総単語数とし、前記総単語数を前記一致単語数で除算することで前記同一性としての重み度情報を演算する。この判断した同一性に基づいて文献記憶手段に格納された文献情報を選出し、この選出した文献情報に関連付けられた前記分類から、前記演算された同一性としての重み度情報に基づいて得点を演算し、前記分類毎の合計の得点に基づいて前記分類の候補を選出することを特徴とする。 Further, document classification recognition method of the present invention, a computer, word a sort recognizes Document classification recognition method including plain coarse Document information, the computer is included in the recognition the document information of the target of the classification Upon obtaining the word, and words included in the document information and the the classification and configured document information stored in the document storage means stores a plurality associated comprise a plurality of words, and words that the obtained Judge identity. During this identity determination, the word in the acquired document information stored in said document storage means coincides with the word, the recognition target document information word that the match is stored in the document storage means of the word-match count the number of occurrences in the document information, the total number of words constituting said literature document information of document information stored in the storage means and the recognition target and the total number of words, the total number of words Is divided by the number of matching words to calculate weight degree information as the identity. The document information stored in the document storage means based on the determination the identity out selection, from the classification associated with the selected the document information, a score based on the weight of information as identity which is the arithmetic A candidate for the classification is selected based on the total score for each classification.

この発明では、請求項1に記載の文献分類認識装置の動作を、コンピュータにより実施する方法に展開したもので、請求項1に記載の発明と同様の作用効果を奏する。 In the present invention, the operation of the document classification recognition apparatus according to claim 1 is developed by a computer- implemented method, and the same effects as those of the invention according to claim 1 are achieved.

そして、本発明の文献分類プログラムは、コンピュータを、本発明に記載の文献分類認識装置、または、本発明に記載の文献分類装置として機能させることを特徴とする。 The document classification program of the present invention, computer, document classification recognition apparatus according to the present invention, or, wherein the function as document classification apparatus according to the present invention.

この発明では、例えば汎用のコンピュータなどを利用しインストールすることにより、本発明に記載の文献分類認識装置、または本発明に記載の文献分類装置として機能させて実施させることが可能となり、本発明の利用促進が大幅に図れる。 In the present invention, for example, by installing to take advantage of the general-purpose computer, it is possible to be implemented to function as a document classification apparatus according to the literature classification recognizer, or the present invention according to the present invention, the present invention Can be promoted significantly.

また、本発明の文献分類プログラムは、本発明に記載の文献分類認識方法をコンピュータに実行させることを特徴とする。 A document classification program according to the present invention causes a computer to execute the document classification recognition method according to the present invention .

この発明では、例えば汎用のコンピュータなどを用しインストールすることにより、本発明に記載の文献分類認識方法がコンピュータによって実行されるので、本発明の利用促進が大幅に図れる。 In the present invention, for example, by installing to take advantage of the general-purpose computer, since the document classification recognition method according to the present invention is executed by a computer, it promotes use of the present invention can be achieved significantly.

そして、本発明において、コンピュータは、例えば1つのパーソナルコンピュータ、複数のコンピュータをネットワーク状に組み合わせた構成、マイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含むものである。 In the present invention, the computer includes, for example, one personal computer, a configuration in which a plurality of computers are combined in a network, an element such as a microcomputer, or a circuit board on which a plurality of electronic components are mounted.

〔文献情報分類システムの構成〕
以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態では、本発明の文献分類認識装置を備え、産業財産権である特許、実用新案および意匠に関する文献情報を利用して、所定の文献情報の分類である国際特許分類を認識するための文献分類装置としての文献情報分類システムの構成について例示するが、例えば商標などの他の産業財産権に関わる文献情報や、技術文献などいずれの文献情報をも対象とすることができる。また、分類としては国際特許分類に限らず、例えばあらかじめ設定された「報道」、「スポーツ」、「娯楽」などの内容、「医学」、「数学」、「生物」などの内容など、文献情報の内容を特定するようないずれの分類が対象となる。図1は、本実施の形態における文献情報分類システムの概略構成を示す概念図である。図2は、文献情報分類システムを構成する端末装置の概略構成を示すブロック図である。図3は、文献情報分類システムを構成するサーバ装置の概略構成を示すブロック図である。図4は、文献情報記憶領域のテーブル構造を概念的に示す模式図である。図5は、文献関連分類記憶領域のテーブル構造を概念的に示す模式図である。
[Configuration of document information classification system]
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In this embodiment, the document classification recognition device of the present invention is provided, and the international patent classification, which is a classification of predetermined document information, is recognized using document information relating to industrial property rights, utility models, and designs. Although the configuration of the document information classification system as the document classification apparatus is exemplified, any document information related to other industrial property rights such as trademarks and technical documents can be targeted. In addition, the classification is not limited to the international patent classification, for example, literature information such as preset contents such as “report”, “sport”, “entertainment”, “medicine”, “math”, “biology” Any classification that identifies the contents of FIG. 1 is a conceptual diagram showing a schematic configuration of a document information classification system in the present embodiment. FIG. 2 is a block diagram showing a schematic configuration of a terminal device constituting the literature information classification system. FIG. 3 is a block diagram showing a schematic configuration of a server device constituting the literature information classification system. FIG. 4 is a schematic diagram conceptually showing the table structure of the document information storage area. FIG. 5 is a schematic diagram conceptually showing the table structure of the document-related classification storage area.

図1において、100は文献分類装置としての文献情報分類システムで、この文献情報分類システム100は、例えば特許、実用新案および意匠などの産業財産権に関わる文献に関する文献情報の分類を認識するためのシステムである。この文献情報分類システム100は、端末装置200と、この端末装置200がネットワーク110を介して各種情報を送受信可能に接続する文献分類装置としても機能するサーバ装置300と、を備えている。   In FIG. 1, reference numeral 100 denotes a document information classification system as a document classification device. This document information classification system 100 is for recognizing classification of document information related to documents related to industrial property rights such as patents, utility models, and designs. System. The document information classification system 100 includes a terminal device 200 and a server device 300 that also functions as a document classification device to which the terminal device 200 is connected via a network 110 so that various types of information can be transmitted and received.

ここで、ネットワーク110としては、サーバ装置300と端末装置200との間を、各種データを送受信可能に接続する。このネットワーク110は、TCP/IP(Transmission Control Protocol/Internet Protocol)などの汎用のプロトコルに基づくインターネット、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接送受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成が利用できる。ここで、無線媒体としては、電波、光、音波、電磁波などのいずれの媒体をも適用できる。   Here, the network 110 connects the server device 300 and the terminal device 200 so that various data can be transmitted and received. The network 110 includes an Internet based on a general-purpose protocol such as TCP / IP (Transmission Control Protocol / Internet Protocol), an intranet such as a LAN (Local Area Network), and a plurality of base stations capable of transmitting and receiving information via a wireless medium. Any configuration that transmits / receives data, such as a network such as a communication line network or a broadcast network, or a wireless medium itself that directly transmits / receives data, can be used. Here, any medium such as radio waves, light, sound waves, and electromagnetic waves can be applied as the wireless medium.

端末装置200は、サーバ装置300で文献の分類を認識させる処理を要求するための装置で、例えばパーソナルコンピュータやオフィスコンピュータなどが例示できる。そして、端末装置200は、例えば図2に示すように、端末通信手段210と、操作手段としての端末入力手段220と、表示手段としての端末表示手段230と、端末記憶手段240と、端末処理手段250と、を備えている。   The terminal device 200 is a device for requesting the server device 300 to recognize a document classification, and examples thereof include a personal computer and an office computer. Then, as shown in FIG. 2, for example, the terminal device 200 includes a terminal communication unit 210, a terminal input unit 220 as an operation unit, a terminal display unit 230 as a display unit, a terminal storage unit 240, and a terminal processing unit. 250.

端末通信手段210は、ネットワーク110を介してサーバ装置300に接続される。この端末通信手段210は、ネットワーク110を介してサーバ装置300から端末信号を受信可能で、この端末信号の取得によりあらかじめ設定されている入力インターフェース処理を実施し、処理端末信号として端末処理手段250に出力する。また、端末通信手段210は、端末処理手段250から処理端末信号が入力可能で、この入力される処理端末信号の取得によりあらかじめ設定されている出力インターフェース処理を実施し、端末信号としてネットワーク110を介してサーバ装置300に送信する。   The terminal communication unit 210 is connected to the server device 300 via the network 110. The terminal communication unit 210 can receive a terminal signal from the server device 300 via the network 110, performs input interface processing set in advance by acquiring the terminal signal, and sends it to the terminal processing unit 250 as a processing terminal signal. Output. Further, the terminal communication unit 210 can receive a processing terminal signal from the terminal processing unit 250, performs an output interface process set in advance by obtaining the input processing terminal signal, and transmits it as a terminal signal via the network 110. To the server device 300.

端末入力手段220は、例えばキーボードやマウスなどで、分類の認識処理の実施要求をする利用者により入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作としては、端末装置200の動作内容の設定の他、文献情報の字句の入力設定、サーバ装置300における分類の認識処理のための各種条件項目、サーバ装置300で選出された分類の決定や修正、変更などの設定事項、文献情報の取得要求などである。そして、端末入力手段220は、入力操作に対応した所定の信号を端末処理手段250へ適宜出力して設定させる。なお、この端末入力手段220としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば端末表示手段230に設けられたタッチパネルによる入力操作や、音声による入力操作など、さらには光学的文字読取装置(Optical Character Reader:OCR)や画像読取装置などにて読み取るなど、各種入力事項を設定入力可能ないずれの構成が適用できる。   The terminal input unit 220 includes various operation buttons and operation knobs (not shown) that are input by a user who requests execution of classification recognition processing using, for example, a keyboard or a mouse. As input operations such as these operation buttons and operation knobs, in addition to setting operation contents of the terminal device 200, input settings for lexical information of literature information, various condition items for classification recognition processing in the server device 300, and the server device 300. This includes setting items such as determination, correction, and change of the classification selected in, and a request for obtaining literature information. Then, the terminal input unit 220 appropriately outputs and sets a predetermined signal corresponding to the input operation to the terminal processing unit 250. The terminal input unit 220 is not limited to an input operation such as an operation button or an operation knob. For example, an input operation using a touch panel provided on the terminal display unit 230, an input operation using voice, or the like, or optical character reading. Any configuration in which various input items can be set and input, such as reading with a device (Optical Character Reader: OCR) or an image reading device, can be applied.

端末表示手段230は、端末処理手段250にて制御され端末処理手段250からの画像データを画面表示させる。画像データとしては、例えば分類の認識処理のための各種条件項目の入力を促す画面表示、サーバ装置300で選出された分類を端末入力手段220による入力操作で選択や決定さらには修正や変更などが可能に表示する画面表示、分類が類似する文献情報を特定する固有情報を選択可能に一覧表示する画面表示などの他、端末装置200の動作内容や他のアプリケーションソフトウェアに関する画像データなど、各種画像データが表示可能である。この端末表示手段230としては、種々のディスプレイが挙げられ、例えば液晶表示パネルや有機EL(Electro Luminescence)パネル、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)、FED(Field Emission Display)、電気泳動ディスプレイパネルなどが例示できる。   The terminal display unit 230 is controlled by the terminal processing unit 250 and displays the image data from the terminal processing unit 250 on the screen. The image data includes, for example, a screen display that prompts input of various condition items for classification recognition processing, and a classification selected by the server device 300 is selected or determined by an input operation by the terminal input unit 220, and further corrected or changed. Various image data such as screen display that can be displayed, screen display that displays a list of specific information for identifying document information with similar classifications, and operation data of the terminal device 200 and image data related to other application software Can be displayed. Examples of the terminal display means 230 include various displays such as a liquid crystal display panel, an organic EL (Electro Luminescence) panel, a PDP (Plasma Display Panel), a CRT (Cathode-Ray Tube), an FED (Field Emission Display), Examples thereof include an electrophoretic display panel.

端末記憶手段240は、ネットワーク110を介してサーバ装置300から取得した各種情報や、端末入力手段220で入力操作される入力事項の他、外部から取得した各種情報をも適宜記憶する。また、端末記憶手段240は、端末装置200全体を動作制御するOS(Operating System)上に展開される各種プログラムなどをも記憶する。なお、端末記憶手段240としては、HD(Hard Disc)や光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成の他、メモリなど、各種情報を記憶可能ないずれの構成が利用でき、ドライブとメモリとの双方さらには複数を備えた構成などとしてもよい。   The terminal storage unit 240 appropriately stores various types of information acquired from the server device 300 via the network 110 and input items input and operated by the terminal input unit 220 as well as various types of information acquired from the outside. The terminal storage unit 240 also stores various programs developed on an OS (Operating System) that controls the operation of the entire terminal device 200. The terminal storage unit 240 includes any configuration capable of storing various types of information, such as a memory, in addition to a configuration including a drive and a driver that are readable and stored in a recording medium such as an HD (Hard Disc) or an optical disc. It can be used, and it is good also as a structure provided with both the drive and the memory, and more than one.

端末処理手段250は、例えばCPU(Central Processing Unit)を備え、図示しない各種入出力ポート、例えば端末通信手段210が接続される通信制御ポート、端末入力手段220が接続されるキー入力ポート、端末表示手段230が接続される表示部制御ポート、印刷出力する図示しない出力手段としての印刷装置が接続可能な印刷制御ポート、端末記憶手段240が接続される記憶ポートなどを有する。そして、端末処理手段250は、各種プログラムとして、字句設定手段251と、要求設定手段252と、結果取得手段253と、表示制御手段としても機能する出力制御手段254と、などを備えている。   The terminal processing unit 250 includes, for example, a CPU (Central Processing Unit), and various input / output ports (not shown), for example, a communication control port to which the terminal communication unit 210 is connected, a key input port to which the terminal input unit 220 is connected, and a terminal display A display unit control port to which the unit 230 is connected; a print control port to which a printing apparatus as an output unit (not shown) that performs print output can be connected; a storage port to which the terminal storage unit 240 is connected; The terminal processing unit 250 includes, as various programs, a lexical setting unit 251, a request setting unit 252, a result acquisition unit 253, an output control unit 254 that also functions as a display control unit, and the like.

字句設定手段251は、端末入力手段220による入力操作にて入力された情報に基づいて、文献情報の分類を認識するための字句、例えば文献中に含まれる単語や文節などの字句を設定する。具体的には、所定の入力操作にて端末入力手段220で入力された単語や文節に関する字句情報を生成する。なお、字句情報としては、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などにより、いわゆるローマ字入力やかな入力などの入力に対応して変換された、ひらがな、カタカナ、漢字などの日本語に限らず、アルファベット入力された英単語、中国語、ハングル文字など、いずれの単語や文節、単語の一部が対象となる。また、字句情報は、端末入力手段220におけるキーボードを利用した入力操作にて直接的に入力された単語や文節のみならず、端末表示手段230で表示された文献の一部の単語や文節を選択する入力操作により入力された単語や文節に基づいて生成される。   The lexical setting unit 251 sets a lexical word for recognizing the classification of the document information, for example, a word or phrase included in the document, based on the information input by the input operation by the terminal input unit 220. Specifically, lexical information relating to words and phrases input by the terminal input means 220 by a predetermined input operation is generated. As lexical information, for example, Japanese such as hiragana, katakana, kanji, etc., converted according to input such as so-called Roman alphabet input by an input program (IME) as input support means. Not only words but also any words, phrases, or parts of words, such as English words input in alphabet, Chinese, and Hangul characters. In addition, the lexical information selects not only words and phrases directly input by the input operation using the keyboard in the terminal input means 220 but also some words and phrases in the document displayed on the terminal display means 230. It is generated based on the words and phrases input by the input operation.

要求設定手段252は、字句設定手段251で取得した字句情報の字句に基づいて、この字句を抽出した文献情報の分類を認識する処理の実行をサーバ装置300に要求する旨の要求情報を生成する。すなわち、要求情報には、字句と、この分類の認識処理の条件である条件情報と、処理の要求をする利用者や端末装置200を特定する顧客情報などを有した端末特定情報とが、1つのデータ構造として関連付けられている。そして、要求設定手段252は、生成した要求情報を端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする。 Based on the lexical information of the lexical information acquired by the lexical setting unit 251, the request setting unit 252 generates request information for requesting the server apparatus 300 to execute processing for recognizing the classification of the document information from which this lexical is extracted. . That is, the request information, lexical and, the condition information is a condition recognition of this classification, and the terminal identification information having such customer information for specifying a user or the terminal device 200 that the request for processing, 1 Associated as one data structure. Then, the request setting unit 252 performs processing for transmitting the generated request information to the server apparatus 300 via the network 110 by the terminal communication unit 210.

結果取得手段253は、ネットワーク110を介して端末通信手段210によりサーバ装置300から取得した分類の認識処理の結果情報を取得する。この取得した結果情報は、端末記憶手段240や図示しないメモリなどに適宜記憶される。この結果情報としては、例えば分類である国際特許分類、その分類の確からしさである得点に関する得点情報、その分類に関する分類情報が関連付けられた文献情報を特定する文献固有情報、例えば出願番号や登録番号などの他、文献情報自体の情報をも含む。   The result acquisition unit 253 acquires the result information of the classification recognition process acquired from the server device 300 by the terminal communication unit 210 via the network 110. The acquired result information is appropriately stored in the terminal storage unit 240 or a memory (not shown). The result information includes, for example, an international patent classification that is a classification, score information related to a score that is the probability of the classification, and document specific information that identifies document information associated with the classification information related to the classification, such as an application number and a registration number. In addition to the above, information on the document information itself is also included.

出力制御手段254は、端末入力手段220による入力操作にて設定された出力状況に基づいて、結果取得手段253にて取得した結果情報を適宜処理し、端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする結果情報の出力制御をする。また、出力制御手段254は、サーバ装置300から出力される分類の候補を、端末入力手段220による入力操作にて選択可能に端末表示手段230で複数表示させる制御をする。   The output control means 254 appropriately processes the result information acquired by the result acquisition means 253 based on the output status set by the input operation by the terminal input means 220 and displays the result information on the terminal display means 230 or is not shown. Controls the output of the result information that is printed out by the connected printing device. Further, the output control unit 254 controls the terminal display unit 230 to display a plurality of classification candidates output from the server device 300 so as to be selectable by an input operation by the terminal input unit 220.

サーバ装置300は、端末装置200からの設定入力された字句を含み要求対象の文献情報の分類である国際特許分類の選出を実施して端末装置200へ提供する装置で、ネットワーク110を介して端末装置200と各種情報の送受信が可能となっている。このサーバ装置300は、例えば図3に示すように、サーバ通信手段310と、サーバ入力手段320と、サーバ表示手段330と、文献記憶手段として機能するサーバ記憶手段340と、演算手段としての文献分類認識装置であるサーバ処理手段350と、などを備えている。   The server apparatus 300 is an apparatus that selects the international patent classification that is the classification of the requested document information including the lexical phrase set and input from the terminal apparatus 200 and provides the selected selection to the terminal apparatus 200. Various information can be transmitted to and received from the apparatus 200. For example, as shown in FIG. 3, the server apparatus 300 includes a server communication unit 310, a server input unit 320, a server display unit 330, a server storage unit 340 that functions as a document storage unit, and a document classification as a calculation unit. And a server processing unit 350 as a recognition device.

サーバ通信手段310は、ネットワーク110を介して入力されるサーバ信号に対してあらかじめ設定されている入力インターフェース処理を実行し、処理サーバ信号としてサーバ処理手段350へ出力する。また、サーバ通信手段310は、サーバ処理手段350から端末装置200に対して送信すべき処理サーバ信号が入力されると、入力された処理サーバ信号に対してあらかじめ設定されている出力インターフェース処理を実行し、サーバ信号としてネットワーク110を介して端末装置200へ出力する。なお、サーバ信号は、処理サーバ信号に記載された情報に基づいて、適宜所定の端末装置200のみに出力させたり、ネットワーク110を介して接続される全ての端末装置200に出力させたりすることも可能である。   The server communication unit 310 performs a preset input interface process on a server signal input via the network 110 and outputs the processed server signal to the server processing unit 350 as a processing server signal. Further, when a processing server signal to be transmitted from the server processing unit 350 to the terminal device 200 is input from the server processing unit 350, the server communication unit 310 executes an output interface process set in advance for the input processing server signal. And it outputs to the terminal device 200 via the network 110 as a server signal. The server signal may be output only to a predetermined terminal device 200 as appropriate based on information described in the processing server signal, or may be output to all the terminal devices 200 connected via the network 110. Is possible.

サーバ入力手段320は、例えば端末入力手段220と同様に、サーバ管理者などにて入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作は、サーバ装置300の動作内容の設定や、サーバ記憶手段340に記憶する情報の設定入力、サーバ記憶手段340に記憶された情報の更新など、各種の設定事項である。そして、サーバ入力手段320は、設定事項の入力操作により、設定事項に対応する信号をサーバ処理手段350へ適宜出力して設定入力させる。なお、入力操作としては、端末入力手段220と同様に、操作ボタンや操作つまみなどを備えた構成に限られない。   The server input unit 320 includes various operation buttons and operation knobs (not shown) that are input by a server administrator or the like, for example, like the terminal input unit 220. These input operations such as operation buttons and operation knobs are various settings such as setting of operation contents of the server device 300, setting input of information stored in the server storage unit 340, updating of information stored in the server storage unit 340, and the like. It is matter. Then, the server input unit 320 appropriately outputs a signal corresponding to the setting item to the server processing unit 350 by the setting item input operation to input the setting. Note that the input operation is not limited to a configuration including operation buttons, operation knobs, and the like, as with the terminal input unit 220.

サーバ表示手段330は、例えば端末表示手段230と同様に、各種表示装置が用いられる。このサーバ表示手段330は、サーバ処理手段350に接続され、サーバ処理手段350の制御によりこのサーバ処理手段350から出力される画像データを適宜表示する。   As the server display unit 330, various display devices are used, for example, similarly to the terminal display unit 230. The server display unit 330 is connected to the server processing unit 350 and appropriately displays image data output from the server processing unit 350 under the control of the server processing unit 350.

サーバ記憶手段340は、端末記憶手段240と同様に、各種情報を記憶可能ないずれの構成が用いられ、文献記憶手段としての文献情報記憶領域341と、文献関連分類記憶領域342と、などを備えている。   Similar to the terminal storage unit 240, the server storage unit 340 uses any configuration capable of storing various types of information, and includes a document information storage region 341 as a document storage unit, a document-related classification storage region 342, and the like. ing.

文献情報記憶領域341は、複数の文献情報341Aを記憶するテーブル構造に構成されている。文献情報341Aは、例えば図4に示すように、本文情報341A1と、識別情報341A2と、などを1つのデータ構造として関連付けられて構成されている。本文情報341A1は、複数の単語にて構成された文章や文節などの例えばテキスト形式の複数の文章情報を有している。なお、文献情報341Aには、画像データ形式の図面情報などが含まれていてもよい。識別情報341A2は、文献情報341Aを特定する文献固有情報である例えばID(identification)番号などである。なお、文献情報341Aには、出願番号や公開番号、出願人や著者などの書誌情報である付帯情報などをも適宜関連付けられている。   The document information storage area 341 has a table structure for storing a plurality of document information 341A. For example, as shown in FIG. 4, the document information 341A is configured by associating text information 341A1, identification information 341A2, and the like as one data structure. The body information 341A1 includes a plurality of pieces of text information in a text format, such as sentences and phrases composed of a plurality of words. The document information 341A may include drawing information in an image data format. The identification information 341A2 is, for example, an ID (identification) number that is document-specific information that identifies the document information 341A. The document information 341A is appropriately associated with an application number, a publication number, supplementary information that is bibliographic information such as an applicant and an author, and the like.

文献関連分類記憶領域342は、例えば図5に示すように、文献情報341Aの識別情報341A2と、この文献情報341Aの分類である国際特許分類に関する分類情報342A1と、を1つのレコードとした文献分類対応情報342Aを複数格納、すなわち文献情報記憶領域341に記憶された全ての文献情報341A毎に複数記録したテーブル構造に構築されている。なお、この文献関連分類記憶領域342は、あらかじめ文献情報記憶領域341に記憶された文献情報341Aの書誌的情報として国際特許分類を有したデータベースが構築されている場合、各文献情報341Aの識別情報341A2と国際特許分類の分類情報342A1とを抽出して関連付け、文献分類対応情報342Aを自動的に生成して複数記録することで、容易に構築される。 For example, as shown in FIG. 5, the document-related classification storage area 342 includes a document classification in which the identification information 341A2 of the document information 341A and the classification information 342A1 related to the international patent classification that is the classification of the document information 341A are used as one record. A plurality of correspondence information 342A is stored, that is, a table structure in which a plurality of correspondence information 342A is recorded for every document information 341A stored in the document information storage area 341 is constructed. In addition, when a database having an international patent classification is constructed as the bibliographic information of the document information 341A stored in the document information storage region 341 in advance, the document-related classification storage area 342 is identification information of each document information 341A. associated extracts and 341A2 and classification information 342A1 of the International Patent classification, it automatically generates a document classification corresponding information 342A by multiple recording, is easily constructed.

また、サーバ記憶手段340は、サーバ装置300全体および文献情報分類システム100全体を動作制御するOS上に展開される各種プログラムなどをも記憶している。さらに、サーバ記憶手段340は、端末装置200などから受信した各種情報や、サーバ入力手段320にて入力された各種情報をも適宜記憶可能となっている。   The server storage unit 340 also stores various programs developed on the OS that controls the operation of the entire server device 300 and the entire document information classification system 100. Further, the server storage unit 340 can appropriately store various information received from the terminal device 200 and the like and various information input by the server input unit 320.

サーバ処理手段350は、端末処理手段250と同様にCPUを備え、図示しない各種入出力ポート、例えばサーバ通信手段310が接続される通信制御ポート、サーバ入力手段320が接続される入力ポート、サーバ表示手段330が接続される表示制御ポート、サーバ記憶手段340が接続される記憶ポートなどを有している。そして、サーバ処理手段350は、図3に示すように、サーバ記憶手段340に記憶された各種プログラムとして、単語情報取得手段としても機能する要求情報取得手段351と、判断手段352と、文献選出手段353と、分類取得手段354と、報知手段355と、検索手段356と、課金演算手段357と、決済手段358と、記憶制御手段359と、などを備えている。   The server processing unit 350 includes a CPU similar to the terminal processing unit 250, and includes various input / output ports (not shown) such as a communication control port to which the server communication unit 310 is connected, an input port to which the server input unit 320 is connected, and a server display. A display control port to which the means 330 is connected, a storage port to which the server storage means 340 is connected, and the like. Then, as shown in FIG. 3, the server processing unit 350 includes, as various programs stored in the server storage unit 340, a request information acquisition unit 351 that also functions as a word information acquisition unit, a determination unit 352, and a document selection unit. 353, classification acquisition means 354, notification means 355, search means 356, billing calculation means 357, settlement means 358, storage control means 359, and the like.

要求情報取得手段351は、端末装置200から送信されサーバ通信手段310を介して要求情報を取得する。そして、要求情報取得手段351は、要求情報に含まれる字句情報の字句を取得し、判断手段352へ出力する。   The request information acquisition unit 351 acquires request information transmitted from the terminal device 200 via the server communication unit 310. Then, the request information acquisition unit 351 acquires the lexical information of the lexical information included in the request information and outputs it to the determination unit 352.

判断手段352は、要求情報取得手段351から出力される字句を認識し、この字句とサーバ記憶手段340の文献情報記憶領域341に記憶された文献情報341Aに含まれる字句との同一性を判断する。例えば、字句として1つの単語である場合には、文献情報341Aに同一の単語が含まれている数を認識し、数が多い文献情報341Aほど同一性が高いと判断する。また、字句として複数の単語である場合には、文献情報341Aに含まれる単語と同一の単語の割合さらにはその数を認識し、割合が高い文献情報341Aほど同一性が高くさらにはその数が多いほど同一性が高いと判断する。さらに、字句として文節である場合には、文献情報341Aに同一の文節が含まれる数、さらには文節を形態素解析などにより複数の単語に分解した際の同一の単語の割合やその数などを認識し、同一の文節が多い文献情報341Aほど同一性が高く、複数に分解した単語と同一の割合や数が多いほど同一性が高いと判断する。そして、文節の場合、単に複数の単語に分解したときの同一の単語の割合のみならず、文節をさらに短く分解した文節での同一性を判断してもよい。そして、判断手段352は、その文献情報341A毎の同一性に関する同一性情報を文献選出手段353へ出力する。   The determination unit 352 recognizes the lexical phrase output from the request information acquisition unit 351 and determines the identity of this lexical phrase and the lexical phrase included in the document information 341A stored in the document information storage area 341 of the server storage unit 340. . For example, in the case of a single word as a lexical phrase, the number of documents containing the same word in the document information 341A is recognized, and the document information 341A having a larger number is determined to have higher identity. Further, when there are a plurality of words as a lexical word, the ratio and the number of the same words as the words included in the document information 341A are recognized, and the document information 341A having a higher ratio has a higher identity and further the number thereof. It is judged that the greater the number, the higher the identity. Further, when the phrase is a phrase, the number of the same phrase included in the document information 341A, and the ratio and the number of the same word when the phrase is decomposed into a plurality of words by morphological analysis or the like are recognized. Then, it is determined that the document information 341 </ b> A with more identical phrases has higher identity, and the greater the ratio and the number of words that are divided into a plurality of words, the higher the identity. In the case of a phrase, not only the ratio of the same word when it is decomposed into a plurality of words but also the identity in a phrase obtained by further dividing the phrase may be determined. Then, the determination unit 352 outputs the identity information regarding the identity for each document information 341 </ b> A to the document selection unit 353.

なお、同一性の具体的な演算としては、例えば、字句と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を演算し、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度を演算して、同一性とする。まず、重み度情報の演算としては、例えば字句の各単語と一致する本文情報341A1の重み度を演算する。すなわち、字句としての複数の単語をq1,…,qn(nは単語の数)、本文情報341A1の各単語をd1,…,dm(mは単語の数)とすると、重み度W(qi,dj,q,d)は、qi=djについて、以下の数1により演算される。そして、演算された重み度W(qi,dj,q,d)は、サーバ記憶手段340に適宜記憶される。   In addition, as a specific calculation of identity, for example, weight information on the identity between a lexical word and the text information 341A1 of the document information 341A is calculated, and the similarity of the text information 341A1 to the lexical based on the weight information. Similarity is calculated as a score related to the state, and is regarded as the same. First, as the calculation of the weight information, for example, the weight of the body information 341A1 that matches each word of the lexical word is calculated. That is, if a plurality of words as lexical characters are q1,..., Qn (n is the number of words), and each word of the text information 341A1 is d1,..., Dm (m is the number of words), the weight degree W (qi, dj, q, d) is calculated by the following equation 1 for qi = dj. The calculated weight W (qi, dj, q, d) is appropriately stored in the server storage unit 340.

〔数1〕
W(qi,dj,q,d)=Log(総単語数/(qi=djの出現する単語数))
×(qiの字句の単語の出現数)
×(djの本文情報341A1の単語の出現数)
[Equation 1]
W (qi, dj, q, d) = Log (total number of words / (qi = number of words in which dj appears))
× (Number of occurrences of qi lexical word)
X (number of appearances of word of dj body information 341A1)

そして、この演算した重み度に基づいて、字句の単語に対する本文情報341A1の類似度を演算して同一性を判断する。例えば、字句の単語と同一の各単語における重み度の総和を類似度Sとして演算する。具体的には、類似度Sの演算として、以下の数2により演算される。   Based on the calculated weight, the similarity of the text information 341A1 with respect to the lexical word is calculated to determine the identity. For example, the sum of the weights in each word identical to the lexical word is calculated as the similarity S. Specifically, the similarity S is calculated according to the following equation 2.

〔数2〕
S(q,d)=g(ΣW(qi,dj),q,d)
[Equation 2]
S (q, d) = g (ΣW (qi, dj), q, d)

なお、判断手段352は、各単語の類似度Sの演算として、高速かつ多数の各単語について効率よく演算するために、以下の加算方法が例示できる。すなわち、各単語InN(Nは自然数)のうち、所定の単語In1を特定する。そして、所定の単語In1の本文情報341A1の単語d1,…,dtのうち、字句の単語q1と一致する単語d1,…,dtの重み度W(q1,In1)を演算し、サーバ記憶手段340にあらかじめ設けた単語毎の類似度Sの記憶領域s(In1)番地に加算する。同様に字句の単語q2〜qnについても上述した処理を繰り返し、記憶領域s(In1)番地に加算する処理をする。さらに、他の単語In2〜InNについても同様に重み度W(qi,Ini)を順次計算し、サーバ記憶手段340の記憶領域s(In2)番地〜記憶領域s(InN)番地に加算する処理をする。これらにより、各単語の類似度Sがそれぞれ演算され、各文献情報341Aの同一性として演算される。なお、文献情報341Aの識別情報341A2に演算結果の類似度Sが関連付けられたテーブル構造でサーバ記憶手段340に記憶される。   In addition, the determination means 352 can illustrate the following addition methods in order to calculate the similarity S of each word quickly and efficiently for many words. That is, a predetermined word In1 is specified among each word InN (N is a natural number). Then, among the words d1,..., Dt of the text information 341A1 of the predetermined word In1, the weights W (q1, In1) of the words d1,. Is added to the storage area s (In1) of the similarity S for each word provided in advance. Similarly, the processing described above is repeated for the lexical words q2 to qn, and processing for adding to the storage area s (In1) is performed. Further, similarly for the other words In2 to InN, a weighting factor W (qi, Ini) is sequentially calculated and added to the storage area s (In2) to the storage area s (InN) of the server storage unit 340. To do. Thus, the similarity S of each word is calculated and calculated as the identity of each document information 341A. The server storage unit 340 stores the identification result 341A2 of the document information 341A in association with the similarity S of the calculation result.

文献選出手段353は、判断手段352で判断された同一性に基づいて、字句の内容に類似する内容となる文献情報341Aの候補を選出する。具体的には、判断手段352で同一性として演算した類似度Sの値が高い順からあらかじめ設定された数、あるいは所定の閾値以上の類似度Sとなる識別情報341A2を複数選出する。なお、選出される文献情報341Aの数は、あらかじめサーバ装置300に設定されている他、端末装置200における入力設定により分類の認識処理の条件として設定する構成とするなどしてもよい。これら選出された文献情報341Aの識別情報341A2は、分類取得手段354へ出力される。   The document selection unit 353 selects a candidate for the document information 341A having a content similar to the content of the lexical phrase based on the identity determined by the determination unit 352. Specifically, a plurality of pieces of identification information 341A2 having a number set in advance in descending order of the degree of similarity S calculated as identity by the determination unit 352 or a degree of similarity S equal to or greater than a predetermined threshold are selected. Note that the number of document information 341A to be selected may be set in advance in the server apparatus 300, or may be set as a condition for classification recognition processing by input setting in the terminal apparatus 200. The identification information 341A2 of the selected document information 341A is output to the classification acquisition unit 354.

分類取得手段354は、文献選出手段353で選出された文献情報341Aの識別情報341A2に基づいて、サーバ記憶手段340の文献関連分類記憶領域342から識別情報341A2に関連付けられた分類情報342A1を読み取り、分類認識の処理要求対象の文献に対する分類の候補として取得する。この分類の候補は、判断手段352で演算した類似度Sに対応した得点としてのスコア、すなわち字句の内容に類似する度合いに対応して演算したスコアに基づいて選出される。このスコアの演算は、各分類情報342A1における各分類毎の出現頻度の演算である。例えば、識別情報341A2に関連付けられた各分類情報342A1に、その識別情報341A2に関連付けられた類似度Sに基づいてスコアを演算し、分類毎にスコアを集計して合計得点を演算する。すなわち、合計得点Tは、以下の数3により演算される。なお、出現頻度の演算としては、この数3による合計得点Tの演算の他、いずれの方法が利用できる。   Based on the identification information 341A2 of the document information 341A selected by the document selection unit 353, the classification acquisition unit 354 reads the classification information 342A1 associated with the identification information 341A2 from the document-related classification storage area 342 of the server storage unit 340. Acquired as a candidate for classification for a document subject to processing request for classification recognition. Candidates for this classification are selected based on a score as a score corresponding to the similarity S calculated by the determination means 352, that is, a score calculated corresponding to the degree of similarity to the content of the lexical. This score calculation is a calculation of the appearance frequency for each classification in each classification information 342A1. For example, for each classification information 342A1 associated with the identification information 341A2, a score is calculated based on the similarity S associated with the identification information 341A2, and the score is calculated for each classification to calculate a total score. That is, the total score T is calculated by the following formula 3. In addition, as the calculation of the appearance frequency, any method can be used in addition to the calculation of the total score T according to this equation 3.

〔数3〕
T=SUMk(f(simm(di,q))×g(di,c))
k:文献選出手段353で選出した文献情報341Aの識別情報341A2の数
simm(di,q):処理要求対象の文献とi番目の文献情報341Aの類似度
f(s):sの値に単調増加する運用時の定義される任意の関数
g(di,c):dに分類cが付与されていないときに「0」、
第1項目としてふられているときに「1」、
第2項目以下としてふられているときに「0<g(d,c)<1」の実数となる関数
[Equation 3]
T = SUMk (f (simm (di, q)) × g (di, c))
k: Number of identification information 341A2 of the document information 341A selected by the document selection means 353
simm (di, q): Similarity between the document to be processed and the i-th document information 341A
f (s): Arbitrary function defined during operation that monotonically increases to the value of s
g (di, c): “0” when class c is not assigned to d,
“1” when touched as the first item,
A function that is a real number of “0 <g (d, c) <1” when used as the second item or less

ここで、文献情報341Aが、分類の認識処理の実行により認識された分類の分類情報342A1が関連付けられ、後述するような記憶制御手段359により文献情報記憶領域341に新たに記憶されたものである場合には、あらかじめ設定されている文献情報341Aより合計得点Tが低い値、例えば八割となる状態に演算してもよい。具体的には、以下の図4により合計得点Tが演算される。なお、新たに記憶された文献情報341Aの認識としては、詳細は後述するが、例えば文献情報341Aに関連付けられたフラグ情報に基づいて認識するなどが例示できる。   Here, the document information 341A is associated with the classification information 342A1 of the classification recognized by the execution of the classification recognition process, and is newly stored in the document information storage area 341 by the storage control unit 359 as described later. In this case, the total score T may be calculated to a value lower than the preset document information 341A, for example, 80%. Specifically, the total score T is calculated according to FIG. 4 below. Note that the newly stored document information 341A can be recognized based on flag information associated with the document information 341A, as will be described later in detail.

〔数4〕
T=SUMk(f’(simm(di,q),New(di))×g(di,c))
New(di):文献情報341Aが新規登録されたものである場合に「1」、
あらかじめ設定されたものである場合に「0」とし、
f’(s,0)=f(s)
f’(s,1)=f(s)×0.8とする。(八割に設定した例示)
[Equation 4]
T = SUMk (f ′ (simm (di, q), New (di)) × g (di, c))
New (di): “1” when the document information 341A is newly registered,
If it is set in advance, set it to “0”.
f ′ (s, 0) = f (s)
It is assumed that f ′ (s, 1) = f (s) × 0.8. (Example set to 80%)

そして、分類取得手段354は、演算した合計得点Tに基づいて、各分類情報342A1から処理要求対象の文献に対する分類の候補として選出する。すなわち、合計得点Tの値が高い順からあらかじめ設定された数、あるいは所定の閾値以上の値となる分類情報342A1を複数選出する。この選出される分類情報342A1の数は、あらかじめサーバ装置300に設定されている他、端末装置200における入力設定により分類の認識処理の条件として設定する構成とするなどしてもよい。これら選出された分類情報342A1は、報知手段355へ出力される。   Based on the calculated total score T, the classification acquisition unit 354 selects from the classification information 342A1 as a classification candidate for the document to be processed. That is, a plurality of pieces of classification information 342A1 having a preset number or a value equal to or greater than a predetermined threshold are selected in descending order of the total score T. The number of classification information 342A1 to be selected may be set in advance in the server apparatus 300, or may be set as a condition for classification recognition processing by input setting in the terminal apparatus 200. The selected classification information 342A1 is output to the notification unit 355.

報知手段355は、選出された分類情報342A1を分類の候補として端末表示手段230で一覧表示させる処理をする。例えば、報知手段355は、端末入力手段220における入力操作により一覧表示される分類情報342A1が選択さらには修正可能な図示しない一覧表示出力フォームを作成する。そして、報知手段355は、一覧表示出力フォームをサーバ通信手段310にてネットワーク110を介して端末装置200へ送信させ、端末表示手段230に表示させる処理をする。さらに、報知手段355は、端末装置200の端末表示手段230に表示される一覧表示出力フォームに従って、端末入力手段220の入力操作により所定の類義語が選択あるいは修正された設定入力を、ネットワーク110を介して認識する。そして、報知手段355は、認識した設定入力に基づいて、端末装置200で入力操作による選択あるいは修正された分類情報342A1を分類の認識処理対象の文献に対する分類として設定する。この分類情報342A1が設定された旨の信号は、記憶制御手段359へ出力される。   The notification unit 355 performs a process of displaying a list of the selected classification information 342A1 as a classification candidate on the terminal display unit 230. For example, the notification unit 355 creates a list display output form (not shown) in which the classification information 342A1 displayed as a list by the input operation in the terminal input unit 220 can be selected and modified. And the alerting | reporting means 355 performs the process which transmits the list display output form to the terminal device 200 via the network 110 by the server communication means 310, and displays it on the terminal display means 230. Further, the notifying unit 355 sends a setting input in which a predetermined synonym is selected or corrected by the input operation of the terminal input unit 220 according to the list display output form displayed on the terminal display unit 230 of the terminal device 200 via the network 110. Recognize. Based on the recognized setting input, the notifying unit 355 sets the classification information 342A1 selected or corrected by the input operation on the terminal device 200 as a classification for the classification recognition target document. A signal indicating that the classification information 342A1 has been set is output to the storage control means 359.

検索手段356は、端末入力手段220における文献の開示要求である旨の入力操作により、文献情報341Aをサーバ記憶手段340の文献情報記憶領域341から検索し、端末表示手段230で表示させる処理をする。この文献の開示要求としては、例えば所定の入力フォームに基づいて、付帯情報の設定入力やキーワード検索の他、報知手段355で一覧表示される分類情報342A1の選択などである。そして、検索された文献情報341Aの本文情報341A1が報知手段355により所定の出力フォームに基づいて端末装置200へ送信され、図示しない接続された印刷装置にて印刷出力可能に端末表示手段230で表示される。   The search unit 356 searches for the document information 341A from the document information storage area 341 of the server storage unit 340 and displays the document information 341A on the terminal display unit 230 by an input operation indicating that it is a document disclosure request in the terminal input unit 220. . The disclosure request of this document includes, for example, selection of classification information 342A1 displayed in a list by the notification means 355, in addition to input of incidental information and keyword search based on a predetermined input form. Then, the body information 341A1 of the retrieved document information 341A is transmitted to the terminal device 200 based on a predetermined output form by the notification unit 355, and displayed on the terminal display unit 230 so that it can be printed out by a connected printing device (not shown). Is done.

課金演算手段357は、要求情報や検索手段356にて検索し報知手段355にて送信する文献情報341Aなどに基づいて、要求をした利用者に対して結果の報知に関する対価を演算する。この対価の演算としては、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、処理実行のための処理料金、結果の情報量に対応する回答出力料金などに基づいて演算される。なお、この対価の額は、分類情報342A1や文献情報341Aなどの結果情報とともに報知手段355により端末装置200で確認可能に送信される。   The accounting calculation unit 357 calculates a consideration related to the notification of the result to the requesting user based on the request information and the document information 341A searched by the search unit 356 and transmitted by the notification unit 355. The calculation of the value is calculated based on, for example, the time when the terminal device 200 is connected to the server device 300 via the network 110, the processing fee for processing execution, the answer output fee corresponding to the amount of information of the result, and the like. . The amount of consideration is transmitted together with the result information such as the classification information 342A1 and the document information 341A so that the terminal device 200 can confirm the amount.

決済手段358は、課金演算手段357にて演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介して各金融機関が管理する付加価値通信網(Value-Added Network:VAN)であるいわゆる金融VANに構築されたファームバンキング(Firm Banking:FB)を利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をする。   The settlement unit 358 performs processing for collecting the consideration calculated by the billing calculation unit 357. For example, an invoice is issued based on customer information for identifying a user who uses a document search using the terminal device 200 stored in advance in the server storage unit 340, or each financial institution via the network 110 The server display means 330 indicates that payment processing is performed using farm banking (Firm Banking: FB) built in a so-called financial VAN which is a value-added network (VAN) managed by the server, or that payment processing is performed. To display an instruction for prompting the administrator to make a settlement process.

記憶制御手段359は、報知手段355からの分類情報342A1が設定された旨の信号を認識すると、その分類情報342A1が設定された文献を端末装置200からネットワーク110を介して取得して本文情報341A1とする。そして、記憶制御手段359は、新たに識別情報341A2を設定して本文情報341A1に関連付けて新たな文献情報341Aを生成し、新たに設定登録された情報である旨のフラグ情報を関連付けて文献情報記憶領域341に記憶させる。さらに、記憶制御手段359は、設定された分類情報342A1を新たな識別情報341A2に関連付けて文献分類対応情報342Aを生成し、フラグ情報を関連付けて文献関連分類記憶領域342に記憶させる。このフラグ情報に基づいて、新規に記憶された文献情報341Aに比してあらかじめ記憶されている文献情報341Aに関連付けられた分類情報342A1を分類取得手段354が選出できるように、分類取得手段354は合計得点Tの演算として数4を利用する。   When the storage control unit 359 recognizes the signal indicating that the classification information 342A1 is set from the notification unit 355, the storage control unit 359 acquires the document in which the classification information 342A1 is set from the terminal device 200 via the network 110, and the text information 341A1. And Then, the storage control unit 359 newly sets the identification information 341A2 and generates new document information 341A in association with the text information 341A1, and associates flag information indicating that the information is newly set and registered with the document information. The data is stored in the storage area 341. Further, the storage control unit 359 generates the document classification correspondence information 342A by associating the set classification information 342A1 with the new identification information 341A2, and stores the flag information in the document related classification storage area 342 in association with the flag information. Based on this flag information, the classification acquisition unit 354 can select the classification information 342A1 associated with the document information 341A stored in advance as compared with the newly stored document information 341A so that the classification acquisition unit 354 can select the classification information 342A1. Formula 4 is used as the calculation of the total score T.

〔文献情報分類システムの動作〕
次に、上述した文献情報分類システム100における所定の文献についての分類を設定する処理の動作について図面を参照して説明する。図6は、文献情報を検索する検索処理の動作を示すフローチャートである。
[Operation of document information classification system]
Next, an operation of processing for setting a classification for a predetermined document in the above-described document information classification system 100 will be described with reference to the drawings. FIG. 6 is a flowchart showing the operation of search processing for searching for document information.

文献情報分類システム100を利用した文献の分類の設定に際しては、まず利用者が端末装置200の端末入力手段220を適宜入力操作することで、サーバ装置300とネットワーク110を介して各種情報を送受信可能に端末装置200を接続させる。この接続としては、例えばあらかじめサーバ装置用のアプリケーションソフトウェアがインストールされて構築されたサーバ装置300が常駐するホームページなどにアクセスするなどが例示できる。そして、利用者が端末表示手段230に表示させる画面表示にしたがって端末入力手段220を適宜入力操作し、文献の分類を設定するための文献に含まれる字句を入力する。この入力操作により、端末処理手段250の字句設定手段251が、端末入力手段220からの入力操作に対応、例えばキーボードの操作キーの操作毎に出力される信号列に対応して適宜変換されたキーワードや文節などの字句を設定する(ステップS101)。   When setting the document classification using the document information classification system 100, various information can be transmitted / received via the server device 300 and the network 110 by the user first appropriately inputting the terminal input unit 220 of the terminal device 200. The terminal device 200 is connected to the terminal. As this connection, for example, access to a homepage or the like in which the server device 300 that is built by installing application software for the server device in advance is resident can be exemplified. Then, the user appropriately inputs the terminal input unit 220 according to the screen display displayed on the terminal display unit 230, and inputs a lexical phrase included in the document for setting the document classification. By this input operation, the lexical setting unit 251 of the terminal processing unit 250 corresponds to the input operation from the terminal input unit 220, for example, the keyword appropriately converted corresponding to the signal sequence output for each operation of the keyboard operation key And a phrase such as a phrase are set (step S101).

この後、利用者が画面表示に従って端末入力手段220を適宜操作し、設定した字句に基づいて文献について分類を認識する処理を要求する旨の入力操作により、分類の認識処理をサーバ装置300に実行させる。この分類の認識処理の実行を要求する旨の入力操作としては、例えば表示画面中に設けられ分類の認識処理の実行要求の設定を促すコマンドボタンの入力操作などが例示できる。この入力操作により、端末処理手段250の要求設定手段252は、設定させた字句に類似する文献を検索させて分類を認識させる処理の実行をサーバ装置300に要求する旨の要求情報を生成し(ステップS102)、端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする(ステップS103)。   Thereafter, the user appropriately operates the terminal input unit 220 in accordance with the screen display, and executes the classification recognition process to the server apparatus 300 by an input operation for requesting a process for recognizing the classification of the document based on the set lexical phrase. Let Examples of the input operation for requesting execution of the classification recognition process include an input operation of a command button provided on the display screen and prompting the user to set the execution request for the classification recognition process. By this input operation, the request setting unit 252 of the terminal processing unit 250 generates request information for requesting the server apparatus 300 to execute processing for recognizing a classification by searching for documents similar to the set lexical phrase ( In step S102, the terminal communication unit 210 transmits the data to the server device 300 via the network 110 (step S103).

そして、ステップS103で端末装置200から送信された要求情報を、サーバ通信手段310でサーバ装置300が受信すると(ステップS104)、サーバ処理手段350の要求情報取得手段351が要求情報に含まれる字句を取得する(ステップS105)。このステップS105で取得した字句に基づいて、サーバ処理手段350は、字句に対する類似する文献情報341Aを検索する類似文献検索工程を実施する。   When the server device 300 receives the request information transmitted from the terminal device 200 in step S103 (step S104), the request information acquisition unit 351 of the server processing unit 350 converts the lexical phrase included in the request information. Obtain (step S105). Based on the lexical acquired in step S105, the server processing unit 350 performs a similar document search step of searching for similar document information 341A for the lexical.

すなわち、サーバ処理手段350の判断手段352は、要求情報取得手段351で取得した字句を認識し、この字句とサーバ記憶手段340の文献情報記憶領域341に記憶された文献情報341Aの本文情報341A1との同一性を判断する(ステップS106)。すなわち、字句と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を上述した数1に基づいて演算する。さらに、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度Sを数2に基づいて演算し、この類似度Sを分類の認識対象の文献と文献情報341Aの本文情報341A1との内容の同一性として判断する。このステップS106における同一性の演算結果に基づいて、サーバ処理手段350の文献選出手段353が、字句の内容に類似する内容となる文献情報341Aの候補を、例えばあらかじめ設定された数で類似度Sの値が高い順から選出する(ステップS107)。   That is, the determination unit 352 of the server processing unit 350 recognizes the lexical phrase acquired by the request information acquisition unit 351, and the text information 341A1 of the document information 341A stored in the document information storage area 341 of the server storage unit 340. Are identified (step S106). That is, the weighting degree information regarding the identity between the lexical phrase and the text information 341A1 of the document information 341A is calculated based on the above-described formula 1. Further, based on the weight information, the similarity S as a score related to the similarity state of the text information 341A1 with respect to the lexical is calculated based on the equation 2, and the similarity S is calculated based on the document to be classified and the text of the document information 341A. This is determined as the same content as the information 341A1. Based on the result of the identity calculation in step S106, the document selection unit 353 of the server processing unit 350 selects candidates for the document information 341A having contents similar to the contents of the lexical phrase, for example, the similarity S in a preset number. Are selected in descending order (step S107).

これらステップS106およびステップS107の処理により類似文献検索工程を実施した後、サーバ処理手段350は、検索した文献情報341Aに基づいて、分類を認識する分類認識工程を実施する。すなわち、ステップS107で選出された文献情報341Aの識別情報341A2に基づいて、サーバ処理手段350の分類取得手段354が、サーバ記憶手段340の文献関連分類記憶領域342から識別情報341A2に関連付けられた分類情報342A1を同一性に対応して読み取り、分類認識の処理要求対象の文献に対する分類の候補として取得する(ステップS108)。すなわち、識別情報341A2に関連付けられた分類情報342A1毎に、字句の内容に類似する度合いに対応した類似度Sに基づくスコアを演算し、数3あるいは数4を利用して分類毎にスコアを集計して合計得点Tを演算する。そして、例えばあらかじめ設定された数で合計得点Tの値が高い順から分類情報342A1を分類の候補として選出する。   After performing the similar document search process by the processing of step S106 and step S107, the server processing unit 350 performs a classification recognition process for recognizing the classification based on the searched document information 341A. In other words, based on the identification information 341A2 of the document information 341A selected in step S107, the classification acquisition unit 354 of the server processing unit 350 performs the classification associated with the identification information 341A2 from the document-related classification storage area 342 of the server storage unit 340. The information 342A1 is read in correspondence with the identity, and is acquired as a candidate for classification for the document for which classification recognition processing is requested (step S108). That is, for each classification information 342A1 associated with the identification information 341A2, a score based on the similarity S corresponding to the degree of similarity to the content of the lexical word is calculated, and the score is totaled for each classification using Expression 3 or Expression 4. Then, the total score T is calculated. Then, for example, the classification information 342A1 is selected as a candidate for classification in descending order of the total score T in a preset number.

このステップS108における分類認識工程の後、サーバ処理手段350の課金演算手段357により、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、分類の認識処理を実行するための料金、検索結果の情報量に対応する回答出力料金などに基づいて、要求をした利用者に対して検索結果の報知に関する対価を演算する(ステップS109)。この後、サーバ処理手段350は、報知手段355により選出された分類情報342A1を端末装置200で一覧表示させるべく、端末装置200へ送信する処理をする(ステップS110)。この選出した分類情報342A1を送信する先の端末装置200は、例えばステップS104で受信した要求情報に基づいて特定される。   After the classification recognition step in step S108, the charging calculation unit 357 of the server processing unit 350, for example, the time when the terminal device 200 is connected to the server device 300 via the network 110, the fee for executing the classification recognition process, Based on the answer output fee corresponding to the information amount of the search result, the consideration regarding the notification of the search result is calculated for the requesting user (step S109). Thereafter, the server processing unit 350 performs a process of transmitting the classification information 342A1 selected by the notification unit 355 to the terminal device 200 so that the classification information is displayed on the terminal device 200 (step S110). The terminal device 200 to which the selected classification information 342A1 is transmitted is specified based on the request information received in step S104, for example.

このステップS110により、サーバ装置300で選出された分類情報342A1に関する一覧表示フォームを端末通信手段210で端末装置200が受信すると(ステップS111)、端末処理手段250の出力制御手段254により、端末表示手段230を適宜制御して端末入力手段220での入力操作により分類情報342A1を選択さらには修正などが可能に画面表示させる(ステップS112)。そして、一覧表示フォームの画面表示にしたがって所定の分類情報342A1が選択あるいは修正されると(ステップS113)、出力制御手段254は入力操作で選択あるいは修正された分類情報342A1をサーバ装置300へ送信させ(ステップS114)、端末装置200における文献の分類の認識処理が終了する。   In step S110, when the terminal device 200 receives the list display form related to the classification information 342A1 selected by the server device 300 by the terminal communication unit 210 (step S111), the output control unit 254 of the terminal processing unit 250 uses the terminal display unit. 230 is appropriately controlled, and the classification information 342A1 is displayed on the screen so that it can be selected and modified by an input operation with the terminal input means 220 (step S112). When the predetermined classification information 342A1 is selected or corrected according to the screen display of the list display form (step S113), the output control means 254 causes the server apparatus 300 to transmit the classification information 342A1 selected or corrected by the input operation. (Step S114), the document classification recognition process in the terminal device 200 ends.

また、ステップS114における分類情報342A1の選択あるいは修正された分類情報342A1を端末装置200からサーバ通信手段310で受信すると(ステップS115)、サーバ処理手段350の報知手段355が選択あるいは修正された分類情報342A1を認識対象の文献の分類として確定し、新たな文献情報341Aとしてサーバ記憶手段340に記憶させる処理をする(ステップS116)。すなわち、報知手段355が分類情報342A1が設定された旨を認識すると、記憶制御手段359が分類情報342A1が設定された文献を端末装置200からネットワーク110を介して取得して本文情報341A1を生成する。さらに、記憶制御手段359は、新たに識別情報341A2を設定して本文情報341A1に関連付けて新たな文献情報341Aを生成するとともに、新たに設定登録された情報である旨のフラグ情報を関連付けて文献情報記憶領域341に記憶させる。さらに、記憶制御手段359は、設定された分類情報342A1を新たな識別情報341A2に関連付けて文献分類対応情報342Aを生成し、フラグ情報を関連付けて文献関連分類記憶領域342に記憶させる。   Further, when the classification information 342A1 selected or modified in step S114 is received by the server communication unit 310 from the terminal device 200 (step S115), the notification unit 355 of the server processing unit 350 selects or modified the classification information. A process of determining 342A1 as the classification of the document to be recognized and storing the new document information 341A in the server storage unit 340 is performed (step S116). That is, when the notification unit 355 recognizes that the classification information 342A1 is set, the storage control unit 359 acquires the document in which the classification information 342A1 is set from the terminal device 200 via the network 110 and generates the text information 341A1. . Further, the storage control unit 359 newly sets the identification information 341A2 and generates new document information 341A in association with the text information 341A1, and associates flag information indicating that the information is newly registered and registered with the document. The information is stored in the information storage area 341. Further, the storage control unit 359 generates the document classification correspondence information 342A by associating the set classification information 342A1 with the new identification information 341A2, and stores the flag information in the document related classification storage area 342 in association with the flag information.

この後、サーバ装置300は、決済手段358により、課金演算手段357で演算した対価を回収するための処理をする(ステップS117)。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介していわゆる金融VANに構築されたファームバンキングを利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をし、サーバ装置300における文献の分類の認識処理が終了する。   Thereafter, the server apparatus 300 performs a process for collecting the consideration calculated by the charging calculation means 357 by the settlement means 358 (step S117). For example, an invoice is issued based on customer information for identifying a user who uses a document search using the terminal device 200 stored in advance in the server storage unit 340, or so-called financial VAN via the network 110. The server apparatus 300 performs processing such as payment processing using the farm banking constructed in the above, or displays the fact that payment processing is to be performed on the server display means 330 and notifies the administrator of guidance for payment processing. The classification recognition process ends.

〔実施の形態の作用効果〕
上述したように、上記実施の形態では、要求情報取得手段351にて分類の認識対象の文献に含まれる字句に関する字句情報を取得すると、分類に関する分類情報342A1が関連付けられて1つのデータ構造に構築された文献情報341Aを複数格納するテーブル構造の文献情報記憶領域341に格納された文献情報341Aに含まれる字句と取得した字句との同一性を判断手段352により判断する。この判断した同一性に基づいて文献情報記憶領域341に格納された文献情報341Aを文献選出手段353にて選出し、この選出した文献情報341Aに関連付けられた分類情報342A1を分類取得手段354により認識対象の分類として取得する。このように、分類の認識対象の文献と類似する内容の文献を、あらかじめ分類情報342A1が関連付けられた文献情報341Aに基づいて文献に含まれる字句の同一性の判断により認識して内容の類似する文献の分類を認識対象の文献の分類として認識している。このため、例えば既存の分類が認識されている文献情報341Aのデータベースを利用して、文献の分類が容易な演算により容易に認識できる。
[Effects of Embodiment]
As described above, in the above embodiment, when the request information acquisition unit 351 acquires lexical information related to a lexical word included in a document to be recognized for classification, the classification information 342A1 related to the classification is associated with each other and constructed in one data structure. The determination unit 352 determines the identity between the lexical word included in the document information 341A stored in the document information storage area 341 having a table structure storing a plurality of the document information 341A and the acquired lexical word. Based on the determined identity, the document information 341A stored in the document information storage area 341 is selected by the document selection means 353, and the classification information 342A1 associated with the selected document information 341A is recognized by the classification acquisition means 354. Get as target classification. As described above, a document having a content similar to that of the document to be recognized for classification is recognized by judging the identity of the lexical characters included in the document based on the document information 341A associated with the classification information 342A1 in advance, and the content is similar. The document classification is recognized as the classification of the document to be recognized. For this reason, for example, using the database of the document information 341A in which the existing classification is recognized, it is possible to easily recognize the classification of the documents by an easy calculation.

そして、要求情報取得手段351にて複数の単語を字句情報として取得させ、この取得した複数の単語のうち文献情報記憶領域341の文献情報341Aに含まれる単語と同一の単語の割合、例えば字句情報の類似度Sを判断手段352にて演算させて同一性を判断している。このため、例えば形態素解析などにより認識した単語の同一となる割合を字句の同一性として判断して文献の内容の類似が容易に認識でき、容易な演算により文献の内容の類似が判断され、容易に分類を認識できる。   Then, the request information acquisition unit 351 acquires a plurality of words as lexical information, and of the acquired plurality of words, the ratio of the same words as the words included in the document information 341A in the document information storage area 341, for example, lexical information The similarity S is calculated by the determination means 352. For this reason, for example, it is possible to easily recognize the similarity of the contents of the document by determining the proportion of the recognized words by morphological analysis as the lexical identity, and to easily determine the similarity of the contents of the document by an easy calculation. Can recognize the classification.

また、判断手段352により判断した同一性に対応した得点に関する得点情報を文献情報記憶領域341の文献情報341Aに関連付け、得点が高い得点情報が関連付けられた文献情報341Aを文献選出手段353により選出している。このため、認識対象の文献に内容が類似する文献情報341Aの類似度合いが得点により容易に認識され、内容が類似する文献情報341Aの特定が簡単な演算により得られ、内容が類似する文献情報341Aに基づいて適切な分類を容易に認識できる。   Further, the score information related to the score corresponding to the identity determined by the determining means 352 is associated with the document information 341A in the document information storage area 341, and the document information 341A associated with the high score information is selected by the document selecting means 353. ing. Therefore, the degree of similarity of the document information 341A whose contents are similar to the document to be recognized is easily recognized by the score, and the identification of the document information 341A whose contents are similar can be obtained by a simple calculation, and the document information 341A whose contents are similar. The appropriate classification can be easily recognized based on the above.

そして、分類取得手段354により、文献選出手段353にて選出した文献情報341Aに関連付けられた分類情報342A1の分類毎の出現頻度を演算し、各分類の出現頻度が高い分類の分類情報342A1を認識対象の分類としている。このため、内容に対応した好適な分類を認識できる。すなわち、分類取得手段354により、文献選出手段353にて選出した各文献情報341Aにおける分類情報342A1を分類毎に計数して出現頻度を演算しているので、より内容に対応した好適な分類が簡単な演算により容易に認識される。具体的には、分類取得手段354により、文献選出手段353で選出した文献情報341Aにおける分類情報342A1および得点情報を取得し、例えば数3または数4に示すように、取得した分類情報342A1の分類毎に得点情報の得点を合算して合計得点Tを演算し、合計得点Tが高い分類情報342A1を認識対象の分類として取得している。このため、簡単な演算方法で内容の類似状況に応じた適切な分類を容易に選出できる。   Then, the classification acquisition unit 354 calculates the appearance frequency for each classification of the classification information 342A1 associated with the document information 341A selected by the document selection unit 353, and recognizes the classification information 342A1 of the classification with the high appearance frequency of each classification. It is classified as a target. For this reason, the suitable classification corresponding to the contents can be recognized. That is, since the classification acquisition unit 354 counts the classification information 342A1 in each document information 341A selected by the document selection unit 353 for each classification and calculates the appearance frequency, a suitable classification corresponding to the content is simpler. It is easily recognized by simple calculation. Specifically, the classification acquisition unit 354 acquires the classification information 342A1 and the score information in the document information 341A selected by the document selection unit 353. For example, as shown in Equation 3 or Equation 4, the classification of the acquired classification information 342A1 is obtained. The total score T is calculated by adding the scores of the score information every time, and the classification information 342A1 having a high total score T is acquired as the classification to be recognized. For this reason, it is possible to easily select an appropriate classification according to the content similar situation by a simple calculation method.

また、サーバ装置300の報知手段355により、分類取得手段354にて取得した分類を入力操作にて選択可能に出力制御手段245にて端末表示手段230に表示させる。このため、演算により認識された分類を利用者が確認できるとともに、適宜設定や修正などが可能となり、より適切な分類の設定が得られる。   In addition, the notification unit 355 of the server device 300 causes the terminal display unit 230 to display the classification acquired by the classification acquisition unit 354 so that the classification can be selected by an input operation. For this reason, the user can confirm the classification recognized by the calculation, and can be appropriately set and corrected, thereby obtaining a more appropriate classification setting.

そして、記憶制御手段359により、サーバ処理手段350にて認識した分類を認識対象の文献情報341Aに関連付け、この文献情報341Aを文献情報記憶領域341に格納させている。このため、文献情報341Aが自動的に蓄積され、使い勝手を向上できるとともに、文献情報記憶領域341の更新が容易で、システム管理が容易にできる。さらには、例えば、分類毎に文献情報341Aを構築するなどにより、分類から文献情報341Aを検索するなどの処理も容易となり、使い勝手が良好な文献情報記憶領域341の構築も容易にできる。   The storage control unit 359 associates the classification recognized by the server processing unit 350 with the document information 341A to be recognized, and stores this document information 341A in the document information storage area 341. For this reason, the document information 341A is automatically accumulated, the usability can be improved, the document information storage area 341 can be easily updated, and system management can be facilitated. Furthermore, for example, by constructing the document information 341A for each classification, processing such as searching the document information 341A from the classification becomes easy, and the construction of the document information storage area 341 that is easy to use can be facilitated.

また、文献選出手段353が選出する文献情報341Aに、記憶制御手段359にて分類を関連付けて文献情報記憶領域341に記憶させる文献情報341Aに新たに格納する旨の識別情報を関連付けている。このため、例えば数4に示すように、識別情報が関連付けられていない文献情報341Aの分類情報342A1を分類取得手段354にて優先的に取得させる処理が容易にでき、認識した分類を関連付けて新たに分類の認識のための文献情報341Aとして記憶させて文献情報記憶領域341を構築させることによる分類の認識結果の変動が生じにくくなり、より信頼性の高い分類の認識ができる。   Further, the document information 341A selected by the document selection unit 353 is associated with identification information indicating that the storage control unit 359 associates the classification with the document information 341A to be stored in the document information storage area 341 and is newly stored. For this reason, as shown in Equation 4, for example, the processing for preferentially acquiring the classification information 342A1 of the document information 341A not associated with the identification information by the classification acquisition unit 354 can be easily performed, and the recognized classification is associated with the new information. Thus, the recognition result of the classification is less likely to be generated by storing the document information as the document information 341A for recognizing the classification and constructing the document information storage area 341, so that the classification can be recognized with higher reliability.

そして、分類情報342A1の分類として、例えば国際的に統一化された内容の分類である国際特許分類であるIPCを利用している。このため、統一的な分類が得られるとともに、国際特許分類が関連付けられた既存の特許文献である特許公開公報データなどのデータベースを利用でき、文献情報記憶領域341をあらかじめ構築する必要がなく、簡単な構成で容易に分類を認識できる。   As the classification of the classification information 342A1, for example, IPC, which is an international patent classification that is a classification of contents that are internationally unified, is used. For this reason, a uniform classification can be obtained, a database such as patent publication gazette data that is an existing patent document associated with an international patent classification can be used, and it is not necessary to construct a document information storage area 341 in advance, which is easy. The classification can be easily recognized with a simple configuration.

また、ネットワーク110を介して接続する端末装置200からの分類の認識処理要求によりサーバ装置300で要求対象の文献に対する分類を認識する処理をして端末装置200へ報知するシステム構成としている。このため、簡単な端末装置200の構成でも、適切な分類の認識が容易にでき、利用の拡大を容易に図ることができる。さらには、サーバ装置300にて統括的に容量の大きな文献情報341Aや各種テーブルなどを管理でき、データの更新などが容易で、運用管理性を容易に向上できる。したがって、携帯電話などの処理能力が比較的に小さく記憶容量も比較的に少ないものを用いても容易に文献の分類を認識することができ、利用の拡大が容易に図れる。 In addition, the system configuration is such that the server device 300 performs processing for recognizing the classification for the requested document by the server device 300 in response to a classification recognition processing request from the terminal device 200 connected via the network 110 and notifies the terminal device 200 of the processing. For this reason, even with a simple configuration of the terminal device 200, it is possible to easily recognize an appropriate classification, and it is possible to easily expand use. Furthermore, the server apparatus 300 can manage the document information 341A having a large capacity and various tables in an integrated manner, and data can be easily updated, so that the operational management can be easily improved. Therefore, the processing capacity is relatively small storage capacity, such as mobile phones also be used as a relatively small it is possible to easily recognize the classification of documents, thereby easily be expanded for use.

そして、パーソナルコンピュータなどにプログラムとして文献に対する分類の認識処理を実行可能に構成している。このため、プログラムを組み込む、さらにはプログラムを記録した記録媒体を用いることで、上記処理が容易に得られ、利用の拡大が容易に図れる。   The personal computer or the like is configured to be able to execute classification recognition processing for documents as a program. For this reason, by using a recording medium in which the program is incorporated or the program is recorded, the above processing can be easily obtained, and the use can be easily expanded.

〔実施形態の変形〕
なお、本発明は、上述した一実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
[Modification of Embodiment]
Note that the present invention is not limited to the above-described embodiment, and includes the following modifications as long as the object of the present invention can be achieved.

例えば、システム構成として説明したが、1台のパーソナルコンピュータを用い、文献情報記憶領域341を有する記録媒体、例えば端末記憶手段240に記憶された文献情報341Aとの字句の同一性を判断して端末表示手段230で分類を表示させる装置構成としたり、文献情報記憶領域341をネットワーク110を介して読み取って端末処理手段250で同一性を判断する構成としたり、サーバ装置300で同一性を判断して文献情報341Aを選出し、これら文献情報341Aに基づいて端末装置200で分類を選出する構成としたシステム構成としたり、サーバ記憶手段340の構成をサーバ装置300と切り離してネットワーク110を介して別のサーバ装置として構成したりするなど、いずれの形態とすることができる。   For example, although described as a system configuration, a terminal is used by determining the lexical identity with a recording medium having a document information storage area 341, for example, document information 341A stored in the terminal storage unit 240, using a personal computer. The display unit 230 displays the classification, the document information storage area 341 is read via the network 110, and the terminal processing unit 250 determines the identity. The server device 300 determines the identity. A system configuration in which the document information 341A is selected and a classification is selected by the terminal device 200 based on the document information 341A, or the server storage unit 340 is separated from the server device 300 and is separated from the server device 300 through another network 110. It can be in any form such as being configured as a server device.

また、同一性の判断としては、例えば字句情報の文字列を1文字分ずつずらした文字列の並びにより類似度Sを演算するなどしてもよい。すなわち、例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列を生成し、これら部分文字列や単位文字列と、文献情報341Aの本文情報341A1との同一性に関する重み度情報を数1に基づいて演算し、この重み度情報に基づいて字句に対する本文情報341A1の類似状態に関する得点としての類似度Sを数2に基づいて演算して、同一性とするなど、いずれの方法により字句情報と文献情報341Aとの同一性を判断してもよい。なお、1文字ずつずらした文字列の並びで同一性を判断する構成により、検索漏れが減少し、適切に字句の同一性を判断できる。また、形態素解析などの分析をする必要が無く、簡単な処理で容易に適切な字句の同一性を判断できる。なお、文字列の文字数は、特に限定されない。例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列としてもよく、さらにはこれら3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て抽出する構成とするなどしてもよい。   Further, as the determination of the identity, for example, the similarity S may be calculated from a sequence of character strings obtained by shifting the character string of the lexical information by one character at a time. That is, for example, a three-character partial character string shifted by one character, a two-character partial character string, or a single character unit character string is generated, and the partial character string or unit character string and the text information of the document information 341A are generated. The weighting degree information on the identity with 341A1 is calculated based on Formula 1, and the similarity S as a score regarding the similarity state of the text information 341A1 with respect to the lexical is calculated based on Formula 2 based on the weighting information, The identity of the lexical information and the document information 341A may be determined by any method, such as identity. Note that the configuration in which the identity is determined by the arrangement of character strings shifted by one character reduces search omissions, and the identity of lexical characters can be appropriately determined. In addition, it is not necessary to perform analysis such as morphological analysis, and it is possible to easily determine appropriate lexical identity with simple processing. The number of characters in the character string is not particularly limited. For example, it may be a three-character partial character string shifted by one character, a two-character partial character string, or a single character unit character string. Furthermore, these three-character partial character string, two-character partial character string, and It may be configured to extract all unit character strings of one character.

そして、端末表示手段230で表示される分類情報342A1を入力操作により選択されると、その分類の内容に関する説明文などを表示させてもよい。具体的には、サーバ記憶手段340に分類情報342A1に分類の内容に関する説明文などの説明情報を関連付けて複数記憶するテーブル構造の分類情報記憶領域を構築し、報知手段355により、分類情報342A1を端末装置200へ送信する際に説明情報も合わせて送信、あるいは選択された入力操作をネットワークを介して認識したサーバ装置300がその説明情報を端末装置200へ送信するなどにより、出力制御手段245にて端末表示手段230で表示させる処理をする。この構成により、認識された分類の内容が利用者にて容易に確認でき、使い勝手を向上できる。   Then, when the classification information 342A1 displayed on the terminal display unit 230 is selected by an input operation, an explanatory text regarding the contents of the classification may be displayed. Specifically, a classification information storage area having a table structure in which a plurality of pieces of explanatory information such as explanatory texts related to classification contents are associated with the classification information 342A1 in the server storage unit 340, and a plurality of pieces of classification information storage area are stored. When transmitting to the terminal device 200, the description information is also transmitted, or when the server device 300 that has recognized the selected input operation via the network transmits the description information to the terminal device 200, the output control means 245 To display on the terminal display means 230. With this configuration, the content of the recognized classification can be easily confirmed by the user, and usability can be improved.

また、端末表示手段230で表示させる分類を、同一性に対応した表示形態で表示させてもよい。具体的には、報知手段355により、分類情報342A1を端末装置200へ送信する際に、同一性に関する情報である類似度Sに基づく分類毎の合計得点Tの情報を合わせて送信し、出力制御手段245で端末表示手段230で合計得点Tに対応した表示形態、例えば色彩や明度などを適宜設定して合計得点Tの値が高くなるにしたがって視認性が高くなる表示形態で表示させる処理をする。この構成により、認識対象の文献情報341Aの内容との適合状態を利用者に容易に認識させることができ、例えば分類を複数表示させて報知する場合に特に有効である。   Further, the classification displayed on the terminal display unit 230 may be displayed in a display form corresponding to the identity. Specifically, when transmitting the classification information 342A1 to the terminal device 200 by the notification unit 355, the information of the total score T for each classification based on the similarity S, which is information related to the identity, is also transmitted and output control is performed. A means 245 performs display processing corresponding to the total score T on the terminal display means 230, for example, color and brightness, etc., as appropriate, and display in a display form in which the visibility increases as the value of the total score T increases. . With this configuration, the user can easily recognize the conformity state with the content of the document information 341A to be recognized, which is particularly effective when, for example, a plurality of classifications are displayed and notified.

さらに、端末表示手段230で表示させる分類を、同一性に対応した得点と併せて表示させてもよい。具体的には、上述した同一性に対応した表示形態で表示させる場合と同様に、報知手段355により、例えば合計得点Tの情報を合わせて端末装置200へ送信させ、この合計得点Tの値とともに分類が併記される状態に出力制御手段245で端末表示手段230で表示させる処理をする。この構成により、異なる表示形態の構成と同様に、認識対象の文献情報341Aの内容との適合状態を利用者に容易に認識させることができ、例えば分類複数表示させて報知する場合に特に有効である。 Furthermore, the classification displayed on the terminal display unit 230 may be displayed together with the score corresponding to the identity. Specifically, as in the case of displaying in the display form corresponding to the above-described identity, for example, the information unit 355 causes the information of the total score T to be transmitted to the terminal device 200 together with the value of the total score T. The output control means 245 performs a process of displaying the classification on the terminal display means 230 in a state where the classification is written together. This configuration allows the user to easily recognize the matching state with the content of the document information 341A to be recognized, similarly to the configuration of different display forms, and is particularly effective when, for example , a plurality of classifications are displayed and notified. It is.

また、要求情報取得手段351にて取得した字句情報の字句を他の字句と異なる表示形態で文献情報341Aを表示させてもよい。具体的には、字句設定手段251で設定された字句を端末記憶手段240に記憶しておき、分類の認識対象の文献を端末表示手段230で表示させる際に、設定された字句が他の字句と異なる表示形態、例えば色彩や明度などを適宜設定して利用者が容易に認識できるように表示させる。また、要求情報取得手段351で取得した字句をサーバ記憶手段340に記憶しておき、端末装置200からの文献検索などの要求に応じて所定の文献情報341Aを検索して端末装置200へ報知する際に、記憶した字句が上述したように異なる表示形態となる状態に報知手段355にて文献情報341Aを端末装置200へ送信してもよい。これらのような構成により、例えば分類の認識対象の文献情報341Aやその文献情報341Aと同一の分類の文献情報341Aにおける分類認識の要因となる字句を利用者に容易に認識させることができ、使い勝手を向上できる。   Further, the literary information of the lexical information acquired by the request information acquisition unit 351 may be displayed in a display form different from other lexical information. Specifically, the lexical phrase set by the lexical setting means 251 is stored in the terminal storage means 240, and when the document to be recognized for classification is displayed on the terminal display means 230, the set lexical phrase is another lexical phrase. Different display forms, such as color and brightness, are set as appropriate so that the user can easily recognize them. Further, the lexical phrase acquired by the request information acquisition unit 351 is stored in the server storage unit 340, and predetermined document information 341A is searched and notified to the terminal device 200 in response to a request such as document search from the terminal device 200. At this time, the document information 341 </ b> A may be transmitted to the terminal device 200 by the notification unit 355 in a state where the stored lexical phrase is in a different display form as described above. With such a configuration, for example, it is possible to make the user easily recognize lexical characters that cause classification recognition in the document information 341A to be recognized for classification and the document information 341A in the same classification as the document information 341A. Can be improved.

さらに、このような分類の認識処理の際の字句が異なる表示形態となるように文献情報341Aを表示する構成において、その異なる表示形態の字句を選択する入力操作により、その分類情報342A1の分類、例えばIPCなどの分類の名称や説明文などを表示させてもよい。このような構成により、文献情報341Aの分類の確認が容易にでき、使い勝手を向上できる。   Further, in the configuration in which the document information 341A is displayed so that the lexical words in the classification recognition process have different display forms, the classification of the classification information 342A1 is performed by an input operation for selecting the lexical words in the different display forms. For example, a classification name such as IPC or an explanation may be displayed. With such a configuration, it is possible to easily confirm the classification of the document information 341A and improve usability.

また、文献としては、産業財産権における公報などに限らず、新聞や雑誌、各種書籍など、各種刊行物をも対象とすることができる。さらには、形態素解析により抽出する構成に限らず、あらかじめキー操作により設定入力した字句などでもよい。   Further, the literature is not limited to publications in industrial property rights, but can also be various publications such as newspapers, magazines, and various books. Furthermore, it is not limited to the configuration extracted by morphological analysis, but may be a lexical phrase set and input in advance by key operation.

さらに、同一性としては、重み度Wに基づいて類似度Sを演算してスコア付けた値を同一性として説明したが、この方法に限られない。また、スコア付けしなくてもよい。   Furthermore, as the identity, the value obtained by calculating the similarity S based on the weight W and scoring is described as the identity, but is not limited to this method. Moreover, it is not necessary to score.

そして、分類を認識した文献を文献情報記憶領域341に記憶して説明したが、記憶させなくてもよい。また、記憶した場合において新たに記憶した文献よりあらかじめ記憶された文献が優先的に選択される状態としたが、同等に選択されるようにしてもよい。さらには、選択の優先性を持たせる構成として新たに記憶する旨の識別情報を関連付けて説明したが、この場合に限らず、新たに記憶されたものとあらかじめ記憶されたものとが識別可能ないずれの構成を利用できる。   In addition, the document whose classification is recognized is described in the document information storage area 341, but it may not be stored. Further, in the case where the document is stored, the document stored in advance is selected preferentially over the newly stored document. However, the document may be selected equally. Furthermore, although the description has been made in association with the identification information indicating that the information is newly stored as a configuration having selection priority, the present invention is not limited to this case, and the newly stored information can be distinguished from the previously stored information. Either configuration can be used.

また、端末装置200に選出した分類を表示させて報知して説明したが、報知する形態としては表示に限らず音声や印刷物などにより報知するいずれの構成が利用できる。   In addition, the selected classification is displayed on the terminal device 200 for notification, but the configuration for notification is not limited to display, and any configuration for notification by voice, printed matter, or the like can be used.

その他、本発明は、上述した一実施の形態および実施形態の変形のみに限ることなく、その他、本発明の目的を逸脱しない範囲で、例えばデータ構造を変更したり、データ構造の項目を設定したり、処理のための構成を変更するなど、様々な応用が可能である。   In addition, the present invention is not limited to the above-described embodiment and modifications of the embodiment, and other modifications such as changing the data structure or setting data structure items are possible without departing from the object of the present invention. Various applications are possible, such as changing the configuration for processing.

本発明は、特許や実用新案、意匠、商標などの他、商号など広義の意味の産業財産権に関わる文献情報に対する国際特許分類などの分類を任意記する構成に利用できる。また、文献情報としては、公報以外の刊行物などをも対象とすることができる。さらには、分類としては国際特許分類に限らず、例えば「報道」、「スポーツ」、「娯楽」などの内容、「医学」、「数学」、「生物」などの内容など、文献情報の内容を特定するようないずれの分類を対象とすることができる。   INDUSTRIAL APPLICABILITY The present invention can be used for a configuration in which a classification such as an international patent classification for document information related to industrial property rights in a broad sense such as a trade name, as well as patents, utility models, designs, trademarks, and the like is arbitrarily described. Further, as the literature information, publications other than the gazette can be targeted. Furthermore, the classification is not limited to the international patent classification. For example, the contents of bibliographic information such as “report”, “sports”, “entertainment”, “medicine”, “mathematics”, “biology”, etc. Any classification as specified can be targeted.

本発明の一実施の形態に係る文献情報分類システムの概略構成を示す概念図である。It is a conceptual diagram which shows schematic structure of the literature information classification system which concerns on one embodiment of this invention. 前記一実施の形態における端末装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the terminal device in the said embodiment. 前記一実施の形態におけるサーバ装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the server apparatus in the said one Embodiment. 前記一実施の形態における文献情報記憶領域のテーブル構造を概念的に示す模式図である。It is a schematic diagram which shows notionally the table structure of the literature information storage area in the said one Embodiment. 前記一実施の形態における文献関連分類記憶領域のテーブル構造を概念的に示す模式図である。It is a schematic diagram which shows notionally the table structure of the literature relevant classification memory area in the said one Embodiment. 前記一実施の形態における文献の分類を認識する処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the process which recognizes the classification | category of the literature in the said one Embodiment.

符号の説明Explanation of symbols

100…文献分類装置としての文献情報分類システム
230…表示手段としての端末表示手段
254…表示制御手段としても機能する出力制御手段
340…文献記憶手段としてのサーバ記憶手段
341…献情報記憶領域
341A…文献情報
342…文献関連分類記憶領域
350…演算手段としての文献分類認識装置を構成するサーバ処理手段
351…得手段としても機能する要求情報取得手段
352…判断手段
353…文献選出手段
354…分類取得手段
355…表示制御手段としても機能する報知手段
359…記憶制御手段
DESCRIPTION OF SYMBOLS 100 ... Literature information classification system as literature classification device 230 ... Terminal display means as display means 254 ... Output control means which also functions as display control means
340 ... server storage section 341 ... literature information storage area 341A ... document information as document storage means
342 ... literature related classification storage area 350 ... request information acquisition unit 352 ... determining unit 353 ... Document selecting means 354 ... classification acquisition unit that also functions as a server processing unit 351 ... acquisition means constituting the document classification recognizer as an arithmetic means 355 ... Notification means that also functions as display control means 359 ... Storage control means

Claims (19)

単語を含む文献情報の分類を認識する文献分類認識装置であって、
前記分類の認識対象の前記文献情報に含まれる単語を取得する得手段と、
複数の単語を含んで構成される文献情報と前記分類が関連付けられて複数格納された文献記憶手段に格納された前記文献情報に含まれる単語と、前記得手段にて取得した単語との同一性を判断する判断手段と、
前記同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出する文献選出手段と、
前記選出した文献情報に関連付けられた前記分類から、前記判断された同一性に基づいて得点を演算し、前記分類毎の合計の得点に基づいて前記分類の候補を選出する分類取得手段と、を具備し、
前記判断手段は、
前記取得した単語と一致する前記文献記憶手段に格納された文献情報内の単語について、その一致する単語が前記文献記憶手段に格納された文献情報と前記認識対象の文献情報との中で出現する数を一致単語数とし、前記文献記憶手段に記憶された文献情報と前記認識対象の文献情報とを構成する単語の総数を総単語数とし、前記総単語数を前記一致単語数で除算することで前記同一性としての重み度情報を演算し、
前記分類取得手段は、
前記単語について演算された重み度情報に基づいて前記得点を演算する
ことを特徴とした文献分類認識装置。
Words a recognized document classification recognizer classification including plain coarse Document information,
A resulting unit preparative for obtaining a word included in the recognition the document information of the target of the classification,
And words included in the document information and the the classification and configured document information stored in the document storage means stores a plurality associated comprise a plurality of words, the word acquired by the acquisition means A determination means for determining identity;
Literature selection means for selecting the literature information stored in the literature storage means based on the identity;
A class acquisition means for calculating a score based on the determined identity from the class associated with the selected document information and selecting a candidate for the class based on the total score for each class; Equipped,
The determination means includes
For a word in the document information stored in the document storage unit that matches the acquired word, the matching word appears in the document information stored in the document storage unit and the document information to be recognized. and the number and match the number of words, the total number of words constituting said literature document information of document information stored in the storage means and the recognition target and the total number of words, dividing the total number of words in the word-match count By calculating the weight information as the identity,
The classification acquisition means includes
The document classification recognition apparatus, wherein the score is calculated based on weight degree information calculated for the word.
請求項1に記載の文献分類認識装置であって、
前記分類取得手段は、前記文献情報に関連付けられた新たに設定登録された情報である旨のフラグ情報が存在する場合、前記分類毎の合計の得点を減らす演算をする
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 1,
The document classification means characterized in that, when there is flag information indicating that the information is newly set and registered associated with the document information, the document acquisition unit performs a calculation to reduce the total score for each of the categories Recognition device.
請求項1または請求項に記載の文献分類認識装置であって、
前記判断手段は、前記同一性に対応した得点に関する得点情報を前記文献記憶手段の文献情報に関連付け、
前記文献選出手段は、前記得点情報の得点が高い前記文献情報を選出する
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 1 or 2 ,
The determination means associates score information regarding the score corresponding to the identity with the document information of the document storage means,
The document classification recognition apparatus, wherein the document selection means selects the document information having a high score of the score information.
請求項に記載の文献分類認識装置であって、
前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類ともに前記得点情報を関連付けて取得し、各文献情報から取得した前記分類に前記得点情報の得点を合算して合計得点を演算し、合計得点が高い前記分類前記認識対象の分類として取得する
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 3 ,
The classification acquisition unit, the score of the both the classification associated with the document information that has been selected in the literature selecting means acquires in association with the score information, the score information to the each classification acquired from the document information A document classification recognition apparatus characterized in that a total score is calculated by adding together and the classification having a high total score is acquired as the classification of the recognition target.
請求項1または請求項に記載の文献分類認識装置であって、
前記分類取得手段は、前記文献選出手段にて選出された前記文献情報に関連付けられた分類の出現頻度を演算し、これら各分類の出現頻度が高い分類前記認識対象の分類として取得する
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 1 or 2 ,
The classification acquisition unit, the calculates the appearance frequency of obtained each classification associated with the document information that has been selected in the literature selecting means, obtaining a frequency of occurrence of each of these classifications higher classification as the classification of the recognition target A document classification recognition device characterized by the above.
請求項に記載の文献分類認識装置であって、
前記分類取得手段は、前記文献選出手段にて選出した各文献情報における分類分類毎に計数して出現頻度を演算する
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 5 ,
The said classification acquisition means counts the classification | category in each literature information selected by the said literature selection means for every classification , and calculates appearance frequency. The literature classification recognition apparatus characterized by the above-mentioned.
請求項1ないし請求項のいずれかに記載の文献分類認識装置であって、
前記分類、国際特許分類である
ことを特徴とした文献分類認識装置。
A document classification recognition apparatus according to any one of claims 1 to 6 ,
The document classification recognition apparatus according to claim 1 , wherein the classification is an international patent classification.
請求項1ないし請求項のいずれかに記載の文献分類認識装置であって、
前記分類取得手段にて取得した分類を入力操作により選択可能に表示手段に表示させる表示制御手段を具備した
ことを特徴とした文献分類認識装置。
A document classification recognition apparatus according to any one of claims 1 to 7 ,
A document classification recognition apparatus, comprising: a display control unit configured to display the classification acquired by the classification acquisition unit on a display unit so as to be selectable by an input operation.
請求項に記載の文献分類認識装置であって、
前記表示制御手段は、前記表示手段に表示する分類が入力操作により選択されたことを認識すると前記分類の内容に関する説明情報を前記表示手段に表示させる
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 8 ,
When the display control means recognizes that the classification to be displayed on the display means has been selected by an input operation, the display control means causes the display means to display explanatory information relating to the contents of the classification.
請求項または請求項に記載の文献分類認識装置であって、
前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した表示形態で表示させる制御をする
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 8 or 9 , wherein
The document classification recognition apparatus characterized in that the display control means controls to display the classification acquired by the classification acquisition means in a display form corresponding to the identity.
請求項ないし請求項10のいずれかに記載の文献分類認識装置であって、
前記表示制御手段は、前記分類取得手段で取得した分類を、前記同一性に対応した得点に関する得点情報と併せて表示させる制御をする
ことを特徴とした文献分類認識装置。
A document classification recognition apparatus according to any one of claims 8 to 10 ,
The document classification recognition apparatus, wherein the display control means controls to display the classification acquired by the classification acquisition means together with the score information related to the score corresponding to the identity.
請求項1ないし請求項11のいずれかに記載の文献分類認識装置であって、
前記得手段にて取得した単語を表示手段に表示させる際に、他の単語を表示させる場合と異なる表示形態で前記文献情報を表示手段に表示させる表示制御手段を具備した
ことを特徴とした文献分類認識装置。
A document classification recognition apparatus according to any one of claims 1 to 11 ,
When displaying on the display means a word acquired by the acquisition means is characterized by comprising a display control means for displaying on the display means the document information in the display mode different from the case of displaying the other words Document classification recognition device.
請求項12に記載の文献分類認識装置であって、
前記表示制御手段は、他の単語と異なる表示形態に表示された単語が入力操作により選択されるとその単語により取得した分類表示手段に表示させる
ことを特徴とした文献分類認識装置。
The document classification recognition apparatus according to claim 12 ,
Wherein the display control unit, document classification recognition apparatus, characterized in that on the display unit was acquired classified the words displayed on the different display form and the other word is selected by an input operation by the word.
請求項1ないし請求項13のいずれかに記載の文献分類認識装置であって、
ネットワークを介して接続されたサーバ装置から送信され前記文献記憶手段に記憶された前記文献情報を変更させる旨および前記文献情報の記憶状況を変更する旨のうちの少なくともいずれか一方を含むデータ配信操作に関する操作情報を認識すると、前記文献記憶手段を制御して前記データ配信操作に対応して前記文献情報の変更および記憶状況の変更を実施させる制御をする記憶制御手段を具備した
ことを特徴とした文献分類認識装置。
A document classification recognition apparatus according to any one of claims 1 to 13 ,
Data distribution operation including at least one of changing the document information transmitted from a server device connected via a network and stored in the document storage unit and changing the storage state of the document information Recognizing operation information related to the data storage means, the storage means for controlling the reference storage means to control the change of the reference information and the change of the storage status in response to the data distribution operation. Document classification recognition device.
複数の単語を含んで構成される文献情報と、分類が関連付けられて複数格納された文献記憶手段と、
この文献記憶手段を利用して所定の文献情報の分類を認識する請求項1ないし請求項14のいずれかに記載の文献分類認識装置と、
を具備したことを特徴とした文献分類装置。
And document information includes a plurality of words, the document storage means classification and are more stored in association with,
The document classification recognition apparatus according to any one of claims 1 to 14 , wherein the document storage means is used to recognize a classification of predetermined document information.
A document classification apparatus characterized by comprising:
請求項15に記載の文献分類装置であって、
前記文献分類認識装置にて認識した分類を認識対象の前記文献情報に関連付けてこの文献情報を前記文献記憶手段に格納させる記憶制御手段を具備した
ことを特徴とした文献分類装置。
The document classification device according to claim 15 ,
A document classification apparatus comprising storage control means for associating a classification recognized by the document classification recognition apparatus with the document information to be recognized and storing the document information in the document storage means.
コンピュータにより、単語を含む文献情報の分類を認識する文献分類認識方法であって、
前記コンピュータは、
前記分類の認識対象の前記文献情報に含まれる単語を取得すると、複数の単語を含んで構成される文献情報と前記分類が関連付けられて複数格納された文献記憶手段に格納された前記文献情報に含まれる単語と、前記取得した単語との同一性を判断し、
この同一性の判断の際に、前記取得した単語と一致する前記文献記憶手段に格納された文献情報内の単語について、その一致する単語が前記文献記憶手段に格納された文献情報と前記認識対象の文献情報との中で出現する数を一致単語数とし前記文献記憶手段に記憶された文献情報と前記認識対象の文献情報とを構成する単語の総数を総単語数とし、前記総単語数を前記一致単語数で除算することで前記同一性としての重み度情報を演算し、
この判断した同一性に基づいて前記文献記憶手段に格納された前記文献情報を選出し、
この選出した文献情報に関連付けられた前記分類から、前記演算された同一性としての重み度情報に基づいて得点を演算し、前記分類毎の合計の得点に基づいて前記分類の候補を選出する
ことを特徴とする文献分類認識方法。
A computer, a word a sort recognizes Document classification recognition method including plain coarse Document information,
The computer
When acquiring the words included in the document information of the recognition target of the classification, the document information stored in the document storage means stores a plurality associated with it and the classification to be composed document information including a plurality of words The identity of the word contained in and the acquired word ,
When the identity is determined, for the word in the document information stored in the document storage unit that matches the acquired word , the document information in which the matching word is stored in the document storage unit and the recognition target of the word-match count the number of occurrences in the document information, the total number of words constituting said literature document information of document information stored in the storage means and the recognition target and the total number of words, the total number of words Is divided by the number of matching words to calculate the weight information as the identity,
Based on the determined identity, the document information stored in the document storage means is selected,
From the classification associated with the selected document information, a score is calculated based on the weight information as the calculated identity, and the classification candidate is selected based on the total score for each classification. Document classification recognition method characterized by
コンピュータを、請求項1ないし請求項14のいずれかに記載の文献分類認識装置、または、請求項15または請求項16に記載の文献分類装置として機能させる
ことを特徴とした文献分類プログラム。
A document classification program that causes a computer to function as the document classification recognition device according to any one of claims 1 to 14 or the document classification device according to claim 15 or claim 16 .
請求項17に記載の文献分類認識方法をコンピュータに実行させる
ことを特徴とした文献分類プログラム。
A literature classification program for causing a computer to execute the literature classification recognition method according to claim 17 .
JP2004297952A 2004-10-12 2004-10-12 Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof Active JP4615279B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004297952A JP4615279B2 (en) 2004-10-12 2004-10-12 Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004297952A JP4615279B2 (en) 2004-10-12 2004-10-12 Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof

Publications (3)

Publication Number Publication Date
JP2006113677A JP2006113677A (en) 2006-04-27
JP2006113677A5 JP2006113677A5 (en) 2007-11-08
JP4615279B2 true JP4615279B2 (en) 2011-01-19

Family

ID=36382165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004297952A Active JP4615279B2 (en) 2004-10-12 2004-10-12 Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof

Country Status (1)

Country Link
JP (1) JP4615279B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5019315B2 (en) * 2007-04-23 2012-09-05 公立大学法人広島市立大学 Information processing apparatus, information processing method, and program
JP5018346B2 (en) * 2007-08-30 2012-09-05 富士ゼロックス株式会社 Information processing apparatus and information processing program
CN112784040B (en) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 Vertical industry text classification method based on corpus
KR102593054B1 (en) * 2022-05-09 2023-10-24 한국과학기술정보연구원 Method and apparatus for evaluation of embedding model performance

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099555A (en) * 2000-09-22 2002-04-05 Toshiba Corp Apparatus and method for document classification
JP2002163273A (en) * 2000-11-22 2002-06-07 Hitachi Ltd Document control method and system
JP2003091542A (en) * 2001-09-17 2003-03-28 Canon Inc Document classification method, document classification device, program and recording medium
JP2003288366A (en) * 2002-03-28 2003-10-10 Fujitsu Ltd Similar text retrieval device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (en) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp Automatic document sorting method
JPH11110409A (en) * 1997-10-07 1999-04-23 Ntt Data Corp Method for classifying information and device therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099555A (en) * 2000-09-22 2002-04-05 Toshiba Corp Apparatus and method for document classification
JP2002163273A (en) * 2000-11-22 2002-06-07 Hitachi Ltd Document control method and system
JP2003091542A (en) * 2001-09-17 2003-03-28 Canon Inc Document classification method, document classification device, program and recording medium
JP2003288366A (en) * 2002-03-28 2003-10-10 Fujitsu Ltd Similar text retrieval device

Also Published As

Publication number Publication date
JP2006113677A (en) 2006-04-27

Similar Documents

Publication Publication Date Title
US8229927B2 (en) Apparatus, system, and method for information search
US7769771B2 (en) Searching a document using relevance feedback
KR100891358B1 (en) System and its method for inputting character by predicting character sequence of user&#39;s next input
KR102466489B1 (en) Method and system for providing information to a user relating to a point-of-interest
US20040029085A1 (en) Summarisation representation apparatus
JP5156047B2 (en) Keyword presentation apparatus, method, and program
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN103299550A (en) Spell-check for a keyboard system with automatic correction
KR20070058635A (en) An electronic device and method for visual text interpretation
US20220222292A1 (en) Method and system for ideogram character analysis
JP6577692B1 (en) Learning system, learning method, and program
US11468346B2 (en) Identifying sequence headings in a document
JP4936650B2 (en) Similar word search device, method thereof, program thereof, and information search device
JP4511892B2 (en) Synonym search device, method thereof, program thereof, and information search device
JP4615279B2 (en) Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof
JP3267064B2 (en) Pattern information processing device
US20230054525A1 (en) Information processing apparatus, information processing method, and program
JP5550959B2 (en) Document processing system and program
JP4356347B2 (en) Document extraction system
JP2006227914A (en) Information search device, information search method, program and storage medium
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP2000200279A (en) Information retrieving device
JP5537124B2 (en) Attribute analysis method, program and system by first name and last name
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
Miller et al. Cluster-based find and replace

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101020

R150 Certificate of patent or registration of utility model

Ref document number: 4615279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350