JP6814091B2 - 文書分類システムおよび文書分類方法 - Google Patents

文書分類システムおよび文書分類方法 Download PDF

Info

Publication number
JP6814091B2
JP6814091B2 JP2017095341A JP2017095341A JP6814091B2 JP 6814091 B2 JP6814091 B2 JP 6814091B2 JP 2017095341 A JP2017095341 A JP 2017095341A JP 2017095341 A JP2017095341 A JP 2017095341A JP 6814091 B2 JP6814091 B2 JP 6814091B2
Authority
JP
Japan
Prior art keywords
document
classification
classifications
classified
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017095341A
Other languages
English (en)
Other versions
JP2018194881A (ja
Inventor
亮平 加嶋
亮平 加嶋
久雄 間瀬
久雄 間瀬
光一 岡本
光一 岡本
康充 池浦
康充 池浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017095341A priority Critical patent/JP6814091B2/ja
Publication of JP2018194881A publication Critical patent/JP2018194881A/ja
Application granted granted Critical
Publication of JP6814091B2 publication Critical patent/JP6814091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分類システムおよび文書分類方法に係り、特に、特許文書を機械学習により分類した場合にその分類根拠を明示的に表示するのに好適な文書分類システムおよび文書分類方法に関する。
特許出願に対しては、国際特許分類(IPC:International Patent Class)や、FI(File Index)、Fタームといった特許分類が付与されている。従来、これらの特許分類は人手で付与されているため、そのための労力やコストが小さくない。そのため、特許分類を、コンピュータにより自動で付与することが検討されている。
文書の自動分類には、例えば、特許文献1がある。特許文献1には、文書を解析し、単語と一致するキーワードの出現頻度により、分類項目毎に集計して、文書を自動分類する技術が開示されている。
特開2003−36261号公報
特許文献1に記載の文書自動分類に係る技術では、予め分類ごとにキーワードを分類してその情報を保持しておき(図3)、このキーワードが出現することの多い文書をその分類項目に属するものとして分類している。そして、ユーザに対する分類結果は、図20、図21のような形式で表示される(段落番号0101、0103)。
しかしながら、文書の分類結果を受取るユーザにとっては、その分類根拠が示されず、その分類結果がどの程度信頼できるものかの定量的な評価をすることができない。また、分類根拠となったキーワードが分類結果を確認するユーザに示されないため、そのキーワードによる分類の妥当性を評価することもできなかった。
また、データベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることもできない。
特許文献の分類のように、膨大な文書がどの分類に属するかを定める場合には、ユーザ(例えば、特許庁の審査官)は、その分類の根拠となったキーワードについて妥当か否かを検証したいという要請が生じる。また、審査において、ある特許文書の関連した文書を調べることも重要になってくる。同じ技術分野に属する特許文書を検索したいという要請は、企業の担当者が、研究や侵害事件に関連して特許文書をアクセスする場合でも同様である。
本発明の目的は、キーワードに基づいて文書を分類するときに、その分類根拠を明示し、その分類の根拠となったキーワードについて妥当か否かを検証できる文書分類システムを提供することにある。
また、そのデータベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることのできる文書分類システムを提供することにある。
上記課題を解決するために、本発明の文書分類システムは、好ましくは、文書に分類を付与する文書分類システムであって、分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、分類付与対象の文書を読み込み、モデル情報を用いて、分類対象の文書に複数の分類を付与する分類部を有し、当該分類を付与する根拠となった分類付与対象の単語または文を出力する。
本発明によれば、キーワードに基づいて文書を分類するときに、その分類根拠を明示し、その分類の根拠となったキーワードについて妥当か否かを検証できる文書分類システムを提供することができる。
また、本発明によれば、そのデータベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることのできる文書分類システムを提供することができる。
文書分類システムの全体構成図である。 文献情報テーブル221の一例を示す図である。 分類情報テーブル222の一例を示す図である。 分類付与精度情報テーブル223の一例を示す図である。 単語重みテーブル224の一例を示す図である。 文重みテーブル225の一例を示す図である。 文献ファイル226の一例を示す図である。 モデル情報作成処理を示すフローチャートである。 NAMによる学習と分類の概要を説明する図である。 文献分類処理の概要を示すフローチャートである。 文献分類から分類結果を表示するまでの処理を示すフローチャートである。 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その一)。 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その二)。 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その三)。 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その四)。
以下、本発明に係る一実施形態を、図1ないし図15を用いて説明する。
本実施形態では、特許文献を出現単語により解析して、Fターム、FIによる分類する文書分類システムの例について説明する。
例えば、US、EPなどの外国特許文献は、IPCは、付与されているが、日本国特許庁の分類体系であるFターム、FIによる分類は、通常、付与されていない。実施形態の文書分類システムでは、そのような状況で、Fターム、FIが付与されていない外国特許文献に、Fターム、FIよる分類を付与する例について説明する。このときに、日本の特許文献には、Fターム、FIの分類が付与されているため、その日本の特許文献を機械翻訳した文書を、分類のため学習の教師データとすることができ、分類の精度(後述)も評価することができる。
先ず、図1を用いて本発明に係る文書分類システムの構成について説明する。
図1は、文書分類システムの全体の機能構成を示したものであり、本実施形態の文書分類システムは、図1に示されるように、利用者端末10、AP(Application)サーバ100、DBサーバ200、文書分類サーバ300がネットワーク5で接続された形態である。
利用者端末10は、APサーバ100にアクセスして、文書分類システムの各種機能の提供を受けるクライアント端末である。利用者端末10は、UI(User Interface)部11を有し、各種コマンド、データの入力や、APサーバ100が作成した画像データの表示をおこなう。
AP(Application)サーバ100は、文書分類のアプリケーションソフトウェアを実行するサーバであり、文書検索や文書検索に関する情報の表示のための画像データを作成する。APサーバ100は、図1に示されるように、演算部110を有しており、演算部110には、検索部111と、付与根拠編集部112、画面表示データ作成部113の各機能部を有する。検索部111は、利用者端末10からの文献の番号等の入力を受付け、文献を検索する機能部である。付与根拠編集部112は、文献の分類のための分類付与のための情報を、文献番号と関連付けて編集する機能部である。画面表示データ作成部113は、利用者端末10に表示するための画面表示データを作成する機能部である。例えば、APサーバ100は、Webサーバであり、画面表示データ作成部113は、HTML(HyperText Markup Language)ファイルを作成し、HTTP(Hypertext Transfer Protocol)によりそれを利用者端末10に送信する。利用者端末10のUI部11には、ブラウザが実装されており、送信されてきたHTMLファイルをそのブラウザにより表示する。ただし、利用者端末10のUI部11には、専用の画面表示ソフトウェアを実装して、画面表示データ作成部113が独自形式の画面表示データを作成して、それを利用者端末10に送信するようにしてもよい。
DBサーバ200は、文献情報や分類に関する情報などの各種データを保存し、アクセスする手段を提供するためのサーバであり、図1に示されるように、演算部210と記憶部220を有する。演算部210は、変換処理部211、集計処理部212の各機能部からなる。そして、変換処理部211は、文書分類サーバ300の分類付与処理部312が算出した分類や分類根拠を、データベースに適合するように編集し、分類付与情報として、分類情報テーブル222に、分類根拠情報として、単語重みテーブル224、文重みテーブル225に記憶する機能部である。集計処理部212は、分類情報テーブル222に記憶された分類に基づいて、分類の精度を算出して、付与精度情報として、分類付与精度情報テーブル223を作成する機能部である。記憶部220は、各種データ、テーブルを格納する機能部であり、文献情報テーブル221、分類情報テーブル222、分類付与精度情報テーブル223、単語重みテーブル224、文重みテーブル225、文献ファイル226を保持する。なお、データとテーブルの内容の詳細は詳述する。
文書分類サーバ300は、文献の自動分類の機能を提供するサーバであり、図1に示されるように、演算部310と記憶部320を有する。そして、演算部310は、学習処理部311、分類付与処理部312、単語の文脈ベクトル重み計算部313、文の文脈ベクトル重み計算部314の各機能部からなる。学習処理部311は、分類付与済みの文献データ(教師データ)を学習し、モデル情報を作成・更新する機能部である。分類付与処理部312は、分類対象文献に、分類付与を実行し、分類根拠も特定する機能部である。単語の文脈ベクトル重み計算部313は、学習していく中で適正になるように重みα(後述)を調整していく機能部である。文の文脈ベクトル重み計算部314は、学習していく中で適正になるように重みβ(後述)を調整していく機能部である。記憶部320は、学習済みモデルのモデル情報321を格納する機能部である。学習済みモデルのモデル情報321については、後に詳説する。
APサーバ100、DBサーバ200、文書分類サーバ300は、いずれも一般的なサーバ装置に、必要なアプリケーションソフトウェアを実行することにより実現され、CPUが主記憶装置上にそれらのアプリケーションソフトウェアをHDDなど補助記憶装置からロードして実行することにより機能が実現される。利用者端末10も、一般的なPC(Personal Computer)などの情報処理装置に、必要なアプリケーションソフトウェアを実行することにより実現され、CPUが主記憶装置上にそれらのアプリケーションソフトウェアをHDDなど補助記憶装置からロードして実行することにより機能が実現される。
APサーバ100、DBサーバ200、文書分類サーバ300は、図1で示したように分離した形態でなくとも、各サーバが一つになって実現されていてもよい。また、図1では、文書分類システムを、サーバ、クライアント構成で実現する構成について示したが、一つの情報処理装置に必要なアプリケーションソフトウェアをインストールした、いわゆるオールインワンの構成であってもよい。
次に、図2ないし図7を用いて文書分類システムに用いられるデータ構造について説明する。
文献情報テーブル221は、分類の対象となる文献の情報を格納するテーブルであり、図2に示されるように、文献ID221a、パス221b、文献ファイル名221c、言語221d、ファミリ文献ID221eの各フィールドよりなる。文献ID221aには、文献を識別するための識別子が格納される。パス221bには、文献の格納場所を表すDBサーバ200のファイルシステムにおけるディレクトリが格納される。文献ファイル名221cには、文献のファイル名が格納される。本実施形態では、特許文献を扱っているため、例えば、文献ファイル名としては、出願番号や公開番号が用いられる。言語221dには、文献に使用されている言語のコードが格納される。ファミリ文献ID221cには、優先権主張や分割出願などを行ったときの親出願の文献IDが格納される。
分類情報テーブル222は、文献の分類に関する情報を格納するためのテーブルであり、図3に示されるように、文献ID222a、テーマ222b、分類222c、FI222dの各フィールドよりなる。文献ID222aには、文献を識別するための識別子が格納される。テーマ222bには、Fタームの分類体系におけるテーマが格納される。分類222cには、Fタームの分類体系におけるFタームリストの分類記号が格納される。FI222dには、FIの記号が格納される。ここで、Fタームは、日本国特許庁が編纂している日本の特許文献に記載された技術的特徴による分類体系であり、FIは、国際特許分類(IPC)を細分化した日本独自の分類体系である。なお、分類情報テーブル222では、一つの文献に対して、複数のFタームとFIを対応付けすることが可能である。
分類付与精度情報テーブル223は、機械学習における分類の精度を保持するためのテーブルであり、図4に示されるように、テーマ223a、分類223b、言語223c、精度223d、作成日223eの各フィールドよりなる。テーマ223aには、Fタームの分類体系におけるテーマが格納される。分類223bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。言語223cには、精度を作成した文献の言語コードが格納される。精度223dには、この分類、文献の言語における精度が%表記で格納される。なお、精度とは、文献の分類の妥当性を表す指標であり、高いほど、その分類が正確であることを意味している。精度の具体的な計算方法については、後に詳説する。作成日223eには、その精度を計算した日付が格納される。
単語重みテーブル224は、機械学習による文書の分類において、各単語(Word)のその分類における重みを格納するテーブルであり、図5に示されるように、テーマ224a、分類224b、単語224c、重み224d、出現順序224e、文献ID224fの各フィールドよりなる。テーマ224aには、Fタームの分類体系におけるテーマが格納される。分類224bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。単語224cには、重みを評価する単語が格納される。重み224dは、その文献におけるその単語の重みが格納される。ここで、単語の重みとは、機械学習によりその文献の分類にその単語がどれくらい寄与しているかの評価の指標となる量である。この単語の重みについては、後に詳説する。出現順序224eには、その単語の文献における出現順序が格納される。文献ID224fには、その単語が含まれる文献の識別子が格納される。
文重みテーブル225は、機械学習による文書の分類において、各文(Statement)のその分類における重みを格納するテーブルであり、図6に示されるように、テーマ225a、分類225b、単語225c、重み225d、出現順序225e、文献ID225fの各フィールドよりなる。テーマ225aには、Fタームの分類体系におけるテーマが格納される。分類225bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。単語225cには、重みを評価する文が格納される。重み225dは、その文献におけるその文の重みが格納される。ここで、文の重みとは、機械学習によりその文献の分類にその文がどれくらい寄与しているかの評価の指標となる量である。この文の重みについても、後に詳説する。出現順序225eには、その文の文献における出現順序が格納される。文献ID225fには、その文が含まれる文献の識別子が格納される。
文献ファイル226は、図7に示されるような特許文献の電子データである。本実施形態では、特許文献の形式としては、マークアップ言語の一種であるXML(eXtensible Markup Language)を用いている。
次に、図8ないし図11を用いて文書分類システムの処理について説明する。
先ず、図8および図9を用いて文書分類サーバ300の学習処理部311がモデル情報321を作成する処理について説明する。
本実施形態の文書分類システムにおける文書分類の処理は、ニューラルネットワークの応用例であるニューラルアテンションモデル(以下、「NAM」:Neural Attention Model)に基づく処理とする。NAMは、アテンション機構により入力側の隠れ層(中間層)のユニットを重みで加重平均した文脈ベクトルにより出力を予測するモデルである。特に、本実施形態のモデルでは、NAMの隠れ層で再帰的入力をおこなうRNN(Recurrent Neural Network)を用いる。
先ず、文献の単語列の読み込みをおこなう(図8のS01、図9のPH1)。図9のPH1のw1,w2,…は、単語列である。
次に、単語の埋込み表現として、各単語にワードベクトルを設定する(S02、PH2)。ワードベクトルは、文脈において単語の特徴量を表現するベクトルである。図9のPH1のx1,x2,…は、ワードベクトルである。
次に、RNN隠れ層の演算により、単語の文脈ベクトルを設定する(S03、PH3)。単語の文脈ベクトルとは、単語の出現する文脈に応じた特徴量を表現するベクトルである。PH3では、順方向h11,h12,…の文脈ベクトルと、逆方向の文脈ベクトルh21,h22,…とを結合して、文脈ベクトルhw1,hw2,…とすることを示している。
次に、学習時に教師データから単語の文脈ベクトル重み計算部313で適正になるように調整し、単語の文脈ベクトルに重みαを付与する。そして、同じ文中の単語の文脈ベクトルを足し合わせて、文ベクトルを算出する(S04、PH4)。PH4では、各々の単語の文脈ベクトルの重みをα,α,…とし、文ベクトルを、s1,s2,…としている。
次に、文ベクトルの各文の前後関係を考慮しながら、RNN隠れ層演算により、文の文脈ベクトルを設定する(S05、PH5)。PH5では、文の文脈ベクトルを、hs1,hs2,…としている。
次に、文の文脈ベクトルに重みβを付与し、足し合わせて文献ベクトルとする(S06、PH6)。PH6では、各々の単語の文脈ベクトルの重みをβ,β,…とし、文献ベクトルを、v1,v2,…としている。
そして、文献ベクトルと予め文献に付与しておいた分類(教師データ)を比較し、適正になるように、単語の文脈ベクトル重み計算部313と文の文脈ベクトルの重み計算部314を調整して、各文脈ベクトルに対する適正な単語の文脈ベクトル重みαと文の文脈ベクトルの重みβを学習していく(S07、PH8、PH9)。
分類に対する単語の文脈ベクトル重みαと文の文脈ベクトルの重みβは、それぞれ図5に示した単語重みテーブル224の重み224d、図6に示した文重みテーブル225の重み225dに格納される。
次に、図10および図9を用いて文書分類サーバ300の分類付与処理部が文献に対する分類付与をおこなう処理について説明する。
図8のフローチャートによる学習によるモデル情報生成処理では、教師データに基づいて、分類に対する単語の文脈ベクトル重みαと文の文脈ベクトルの重みβを学習した。文献に対する分類付与に関する処理では、その重みαおよび重みβに基づいて、文献に対する分類を付与する。
先ず、文献の単語列の読み込みをおこなう(図10のS11、図9のPH1)。
次に、単語の埋込み表現として、各単語にワードベクトルを設定する(S12、PH2)。
次に、RNN隠れ層の演算により、単語の文脈ベクトルを設定する(S13、PH3)。
次に、単語の文脈ベクトルにモデル情報321の重みα(単語重みテーブル224の重み224d)を付与し、同じ文中の単語の文脈ベクトルを足し合わせて、文ベクトルを算出する(S14、PH4)。
次に、文ベクトルの各文の前後関係を考慮しながら、RNN隠れ層演算により、文の文脈ベクトルを設定する(S15、PH5)。
次に、文の文脈ベクトルにモデル情報321の重みβ(文重みテーブル225の重み225d)を付与し、足し合わせて文献ベクトルとする(S16、PH6)。
そして、文献ベクトルに基づいて文献に対する分類を付与する(S17、PH7)。
次に、図11を用いて文献分類から結果表示までの処理について説明する。
先ず、文書分類サーバ300は、DBサーバ200を介して、分類をおこなう文献(文献ファイル226)を読み込む(S21)。
次に、図10のフローチャートに示した処理により、文書分類サーバ300の分類付与処理部312が文献に対する分類付与をおこなう(S22)。
次に、DBサーバ200の変換処理部211は、文書分類サーバ300の分類付与処理部312が文献に対する分類付与情報を、図3に示した分類情報テーブル222に格納する(S23)。
次に、DBサーバ200の変換処理部212は、文献に対する分類に対して、分類の精度を求め、図4に示した分類付与精度情報テーブル223に格納する(S24)。
ここで、分類の精度とは、既に説明したように、文献の分類の妥当性を表す指標であり、高いほど、その分類が正確であることを意味しており、以下の(式1)で求められる。
Figure 0006814091
なお、(式1)の再現率は、以下の(式2)で求められる。
Figure 0006814091
また、(式1)の適合率は、以下の(式3)で求められる。
Figure 0006814091
次に、分類結果表示をおこなう(S25)。この処理では、APサーバ100の付与根拠編集部112が、分類を付与した文献に対して、分類の付与根拠を編集して、画面表示データ作成部が画面表示のデータを作成して、利用者端末10に配信する。APサーバ100は、DBサーバ200を介して、対象の文献の文献ファイル226(図7)を読み出し、分類情報テーブル222(図3)からその文献の分類を抽出する。そして、当該分類に対応する情報を、分類付与根拠情報(単語重みテーブル224(図5)、文重みテーブル225(図6))から抽出する。そして、文献ファイル内の単語・文と、抽出した分類付与根拠情報中の単語・文を突き合わせて、一致した単語・文に、分類付与根拠情報中の重みを付加するなどの加工・編集処理をおこなう。
次に、図12ないし図15を用いて本実施形態に係る文書分類システムのユーザインタフェースについて説明する。
文書分類システムの分類結果表示画面500は、図12に示されるように、文書の分類とそれに関する情報を表示する画面である。利用者端末10のUI部11が、APサーバ100から受信した情報に基づいて表示する画面である。
文献表示欄501は、タブ502ごとにその文書の内容を表示する欄である。ユーザがその文書を見たいときには、タブ502の部分をクリックする。該当するときには、文献表示左欄503には、その分類対象とした文献の原文を表示し、文献表示右欄504には、その文献を機械翻訳した文章に内容を表示したり、ファミリ文献の内容を表示する。
分類表示欄510には、対象となる文献に付与された分類の一覧と、その分類精度が表示される。
オンライン修正ボタン520は、対象となる文献の分類をマニュアルで入力して修正する分類入力画面(図示せず)にアクセスするためのボタンである。
分類表示欄510に表示される分類をクリックすると、選択した分類について、文献表示左欄503に表示されている重みが大きい単語または文、あるいは、その両方をハイライトして表示する。ハイライトの仕方は、重みや精度に応じて変更する。例えば、重みが大きい単語は、濃い色や鮮明な色で強調し、重みが小さい単語は薄い色で強調する。また、ハイライトさせる単語または文は、重みが一番大きい単語のみならず、重みの大きい上位3語のようにランキングの高い単語または文をハイライトさせるようにしてもよい。
また、分類表示欄510の分類を複数選択した場合(マウスでドラッグ、CTRLキーを押しながら選択などの操作)、分類ごとに色系統を変えてハイライトする。図12に示した例では、例えば、5B075に関する単語は赤系統で強調し、5B077に関連する単語は、青系統にて強調する。
また、分類の類似度を考慮してもよい。例えば、5B075と5B077は、上位階層が同じなので、類似する赤系統で強調し、この分野に類似しない単語は、青系統にて強調するようにしてもよい。
さらに、文献表示右欄504についても、分類表示欄510に表示される分類が選択されたときには、機械翻訳により単語や文の対応がつくときには、選択した分類について、文献表示左欄503に表示されている重みが大きい単語または文、あるいは、その両方をハイライトして表示する。
文献表示左欄503および文献表示右欄504でハイライトした単語をクリックしたときには、図13に示されるように、その選択した単語の重みが大きい文献の文献ファイル名の一覧を選択するための文献一覧メニュー530が表示され、ユーザがその文献一覧メニュー530を選択すると、その選択した文献を表示するための新しい文献表示欄501が開かれる。
また、図14に示されるように、分類表示欄510に表示される分類をクリックして、右クリックなどにより、表示コマンドを入力することによって、単語・文情報表示欄540にその選択した分類の中で重みの大きい単語・文についての情報をランキング形式で表示する。
さらに、単語・文情報表示欄540の単語をクリックしたときには、図15に示されるように、その選択した単語の重みが大きい文献の文献ファイル名の一覧を選択するための文献一覧メニュー530が表示され、ユーザがその文献一覧メニュー530を選択すると、その選択した文献を表示するための新しい文献表示欄501が開かれる。
以上のように、本実施形態の文書分類システムによれば、分類の付与されていない特許文献に対して、機械学習したモデル情報に基づいて自動的に文献の分類をおこなうことができる。
そのときに、文献の分類の根拠、すなわち、機械学習したモデルにおける重みの大きい単語・文を、文献の文書の中から明示的に表示するため、ユーザは、機械学習による分類を、レビューして、妥当性を検証し、必要ならば修正することができる。
また、文献の分類の根拠、すなわち、機械学習したモデルにおける重みの大きい単語・文を、選択して、その単語・文の分類寄与が大きい関連特許文献の表示をおこなうことができるため、関連特許文献の検索も容易になるという利点がある。
なお、本実施形態では、文書の分類を付与し、その分類過程で出力された情報を用いて関連特許文献の表示を行っているが、分類付与を行わずに関連特許文献の表示のみを行ってもよい。特許情報を利用する企業、研究所においては、特許庁等が付与した分類を用いることができるため、新たに分類を付与する必要はないからである。
この場合においても、システム構成は図1と同様となる。付与した分類以外の分類根拠などは、公開されない情報が多いからである。まずは、特許庁が分類付与した特許文献(すなわち、教師データ)を用いて、学習モデル情報321を作成する。その後、モデル情報321を用いて、分類付与済みの特許文献について、分類付与処理を行う。これによってDBサーバ200の記憶部220に記憶される各情報が形成され、関連特許の表示が可能になる。
以上のように、本実施形態の文書分類システムは、審査のために、Fターム、FIを付与する特許庁の審査部門関連部署においても有効に活用できるし、特許情報を利用する企業、研究所においても、特許情報の有効利用を促進して、研究・開発などの手段とすることができる。
10…利用者端末、100…APサーバ、200…DBサーバ、300…文書分類サーバ

Claims (6)

  1. 文書に分類を付与する文書分類システムであって、
    分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与する分類部
    前記付与した複数の分類、および、前記分類付与対象の文書中の、前記複数の分類の各々を付与する根拠となった単語または文が強調された文書を出力する出力部を有し、
    前記出力部は、前記複数の分類の類似度に応じて、前記複数の分類の各々を付与する根拠となった単語または文の強調の仕方を変えて出力することを特徴とする文書分類システム。
  2. 文書に分類を付与する文書分類システムであって
    分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与する分類部と、
    前記付与した複数の分類、および、前記分類付与対象の文書中の、前記複数の分類の各々を付与する根拠となった単語または文が強調された文書を出力する出力部を有し、
    前記出力部は、前記出力した文書中の前記強調された単語または文の何れかが外部より選択された場合、前記選択された単語または文の寄与が大きい分類が付与されている複数の文献の文献名を出力し、さらに、前記複数の文献の文献名の何れかが外部より選択された場合、前記選択された文献名の文献を出力することを特徴とする文書分類システム。
  3. 文書に分類を付与する文書分類システムであって
    分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与する分類部と、
    前記付与した複数の分類、および、前記分類付与対象の文書中の、前記複数の分類の各々を付与する根拠となった複数の単語または文のリストを出力する出力部を有し、
    前記出力部は、前記リスト中の前記複数の単語または文の何れかが外部より選択された場合、前記選択された単語または文の寄与が大きい分類が付与されている複数の文献の文献名を出力し、さらに、前記複数の文献の文献名の何れかが外部より選択された場合、前記選択された文献名の文献を出力することを特徴とする文書分類システム。
  4. 文書に分類を付与する文書分類方法であって、
    分類付与済み文書を教師データとして読み込んで作成したモデル情報作成するステップと、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与するステップと、
    前記付与された複数の分類を表示するステップと、
    前記分類付与対象の文書中の、前記複数の分類の各々を付与する根拠となった単語または文が強調された文書を表示するステップと
    前記複数の分類の類似度に応じて、前記複数の分類の各々を付与する根拠となった単語または文の強調の仕方を変えて表示するステップを有することを特徴する文書分類方法。
  5. 文書に分類を付与する文書分類方法であって
    分類付与済み文書を教師データとして読み込んで作成したモデル情報を作成するステップと、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与するステップと、
    前記付与された複数の分類を表示するステップと、
    前記分類付与対象の文書中の、前記複数の分類の各々を付与する根拠となった単語または文が強調された文書を表示するステップと、
    前記強調された単語または文の何れかが外部より選択された場合、前記選択された単語または文の寄与が大きい分類が付与されている複数の文献の文献名を表示し、さらに、前記複数の文献の文献名の何れかが外部より選択された場合、前記選択された文献名の文献を表示することを特徴とする文書分類方法。
  6. 文書に分類を付与する文書分類方法であって
    分類付与済み文書を教師データとして読み込んで作成したモデル情報を作成するステップと、
    分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類付与対象の文書に複数の分類を付与するステップと、
    前記付与された複数の分類を表示するステップと、
    前記分類付与対象の文書中の前記複数の分類の各々を付与する根拠となった複数の単語または文のリストを表示するステップと、
    前記リストの中の前記複数の単語または文の何れかが外部より選択された場合、前記選択された単語または文の寄与が大きい分類が付与されている複数の文献の文献名を表示し、さらに、前記複数の文献の文献名の何れかが外部より選択された場合、前記選択された文献名の文献を表示することを特徴とする文書分類方法。
JP2017095341A 2017-05-12 2017-05-12 文書分類システムおよび文書分類方法 Active JP6814091B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017095341A JP6814091B2 (ja) 2017-05-12 2017-05-12 文書分類システムおよび文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017095341A JP6814091B2 (ja) 2017-05-12 2017-05-12 文書分類システムおよび文書分類方法

Publications (2)

Publication Number Publication Date
JP2018194881A JP2018194881A (ja) 2018-12-06
JP6814091B2 true JP6814091B2 (ja) 2021-01-13

Family

ID=64570847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017095341A Active JP6814091B2 (ja) 2017-05-12 2017-05-12 文書分類システムおよび文書分類方法

Country Status (1)

Country Link
JP (1) JP6814091B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7284371B2 (ja) * 2018-12-13 2023-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6733920B2 (ja) * 2019-01-16 2020-08-05 株式会社エクサウィザーズ 情報処理装置、表示方法およびプログラム
JP6792751B2 (ja) * 2019-03-05 2020-12-02 株式会社医療情報技術研究所 分類システム
JP7179714B2 (ja) * 2019-12-27 2022-11-29 Kddi株式会社 説明装置、説明方法及び説明プログラム
EP4152250A4 (en) * 2020-05-15 2023-11-15 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING SYSTEM
JP7199028B2 (ja) * 2020-12-28 2023-01-05 パナソニックIpマネジメント株式会社 分類装置、分類方法、及び、コンピュータプログラム
CN117836763A (zh) * 2021-08-26 2024-04-05 株式会社半导体能源研究所 文件分类系统及文件分类方法
JP2023054506A (ja) * 2021-10-04 2023-04-14 株式会社ラック 情報検索システム、情報検索方法およびプログラム
KR102427136B1 (ko) * 2021-10-29 2022-08-01 (주)제이엘케이 유사한 문장을 검색하기 위한 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285499A (ja) * 2005-03-31 2006-10-19 Nec Corp データマイニング装置、データマイニング方法およびそのプログラム
JP4604097B2 (ja) * 2008-03-11 2010-12-22 株式会社日立製作所 文書分類付与方法、システムまたはコンピュータプログラム
JP2016206748A (ja) * 2015-04-16 2016-12-08 株式会社日立製作所 分類付与方法および分類付与システム

Also Published As

Publication number Publication date
JP2018194881A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6814091B2 (ja) 文書分類システムおよび文書分類方法
US11372935B2 (en) Automatically generating a website specific to an industry
US8069173B2 (en) Information processing apparatus and method of controlling the same, information processing method, and computer program
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
US20110270826A1 (en) Document analysis system
KR102237274B1 (ko) 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법
CN101681363A (zh) 用于编辑和分类文档的系统和技术
US20110004819A1 (en) Systems and methods for user-driven document assembly
US20170109442A1 (en) Customizing a website string content specific to an industry
JP2011076396A (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
CN108153754B (zh) 一种数据处理方法及其装置
TW201508525A (zh) 文件分類系統、文件分類方法及文件分類程式
KR20010104872A (ko) 개인별 메타 검색엔진 구축기능을 갖는 인터넷 사이트검색 서비스 시스템
JP5008152B2 (ja) 調達情報検索システム
JP4802125B2 (ja) ウェブログ管理プログラム、ウェブログ管理装置およびウェブログ管理方法
WO2019239543A1 (ja) 質問応答装置、質問応答方法および記録媒体
Babych et al. Cross-language comparability and its applications for MT
JP2019114152A (ja) 臨床検査結果編集装置
CN112733527B (zh) 建筑工程文档知识网络的构建方法及系统
JP5574775B2 (ja) アイデア整理支援装置およびアイデア整理支援プログラム
JP7103414B2 (ja) 表示形式決定装置、表示形式決定方法およびプログラム
JP2005316881A (ja) 図面検索のためのプログラム、図面検索装置及び図面検索結果表示方法
KR100586561B1 (ko) 모듈 삽입 프로그램을 이용한 홈페이지 생성 방법 및시스템
Jin et al. Design and implementation for report layout merging
JP2003173343A (ja) 文書管理装置及び文書表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201218

R150 Certificate of patent or registration of utility model

Ref document number: 6814091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150