JP6782858B2 - 文献分類装置 - Google Patents
文献分類装置 Download PDFInfo
- Publication number
- JP6782858B2 JP6782858B2 JP2019556006A JP2019556006A JP6782858B2 JP 6782858 B2 JP6782858 B2 JP 6782858B2 JP 2019556006 A JP2019556006 A JP 2019556006A JP 2019556006 A JP2019556006 A JP 2019556006A JP 6782858 B2 JP6782858 B2 JP 6782858B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- classified
- cluster
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
下記特許文献1には研究者や開発者が特許文献等の産業財産権に関する文献の検索を容易に行えるように支援する手法が開示されている。この手法では、ユーザにより入力された公報番号を検索キーとした検索の結果からテーマコードとFタームとを抽出して提示することでFタームを用いた検索が容易化されている。
下記特許文献2には、分類コードを活用して統計処理することで、短時間で簡便に多くの特許文献の属する技術領域を分析することを可能とする手法が開示されている。この手法は、各々の特許文献に付与された複数の分類コードを抽出し、抽出された分類コードの集合から数値分析用分類コードを選抜し、数値分析により数値分析用分類コードの座標を算出し、数値分析用分類コードの座標に基づいて、各々の特許文献の座標を算出し、特許文献の座標に基づきその密度を表現した所定のマップを作成する。
下記非特許文献1には、各特許文献に対するFタームの付与されやすさを数値化したFターム概念ベクトル或いは重み付きFターム概念ベクトルを作成し、特許文献間の類似度を算出することで、特許検索精度を向上させる手法が開示されている。この手法では、特許文献を学習データとし文献中に出現する形態素uni−gramを素性に用いて学習したFタームごとのSVM分類器を用い、そのSVM分類器からの出力値を用いてFターム概念ベクトルが生成される。
先行技術文献
特許文献1 特開2014−2563号公報
特許文献2 特開2015−207173号公報
非特許文献
非特許文献1 目黒光司(他5名),「Fターム概念ベクトルを用いた特許検索システムの改良」,言語処理学会 第21回年次大会 発表論文集,768頁−771頁,2015年3月
一方で、或る程度広範な検索により数百件程度の文献集合を抽出し、この文献集合について概要や傾向といった全体像を分析し把握したい場合がある。また、特定の検索で抽出された文献集合には明らかに不必要な文献が含まれる場合がほとんどであり、そのような検索上のノイズを除外するために、すべての文献を読む必要が生じる。
本発明は、文献集合の全体像把握を容易化する文献分類装置、文献分類方法、このような文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム、及び、このようなコンピュータプログラムを記録したコンピュータが読み取り可能な記憶媒体に関するものである。この記憶媒体は、非一時的な有形の媒体を含む。全体像把握を容易化することで、読み込むべき文献や注目すべき文献を絞ること、読み込む優先順位を付すこと等も可能となる。
図1は、各実施形態に係る文献分類装置10(以降、本装置10と表記する場合もある)のハードウェア構成例を概念的に示す図である。
本装置10は、いわゆるコンピュータ(情報処理装置)であり、例えば、バスで相互に接続される、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信ユニット14等を有する。本装置10を形成する各ハードウェア要素の数はそれぞれ制限されず、これらハードウェア要素は情報処理回路と総称することもできる。また、本装置10は、図示されないハードウェア要素を含んでもよく、そのハードウェア構成は制限されない。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。メモリ12には文献分類プログラム(コンピュータプログラム)18が格納されている。文献分類プログラム18は、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13又は通信ユニット14を介してインストールされ、メモリ12に格納されてもよい。
入出力I/F13は、出力装置15、入力装置16等のユーザインタフェース装置と接続可能である。出力装置15は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイのような、CPU11等により処理された描画データに対応する画面を表示する装置、印刷装置等の少なくとも一つである。入力装置16は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置である。出力装置15及び入力装置16は一体化され、タッチパネルとして実現されてもよい。
通信ユニット14は、他のコンピュータとの通信網を介した通信や、他の機器との信号のやりとり等を行う。通信ユニット14には、可搬型記録媒体等も接続され得る。
文献集合取得手段は、被分類文献集合の情報を外部のコンピュータ、機器、可搬型記録媒体等から入出力I/F13又は通信ユニット14を介して取得してもよいし、後述の第一実施形態のように文献分類装置10内の検索部21から取得してもよい。文献集合取得手段の一具体例が後述の取得部22である。
この分類コードには、例えば、Fターム、CSコード等がある。他の例として、文献を多観点で評価して分類する評価コードであってもよい。具体的には、文章構成「A」、明瞭性「B」、正確性(誤記等の少なさ)「C」等の多観点の各評価項目コードと、最高「5」から最低「1」までの評価点コードとから形成される評価コード(「A5」、「B3」、「C2」等)であってもよい。但し、多観点分類に基づく分類コードはこのような例に限定されない。
「被分類文献集合」とは、分類対象とされる文献の集合である。被分類文献集合の各文献は、1種以上の多観点分類に基づく分類コードが予め付与された文献であればよく、その内容は特に限定されない。
生成される特徴量ベクトルの次元数の上限は、計算負荷やデータ容量等で許容される範囲であれば、特に制限されない。その次元数の下限は、分類数(クラスタ数)よりも大きければよい。
また、特徴量ベクトルの要素として用いる分類コードは、被分類文献集合の各文献に付与されている全種であってもよいし、一部の種であってもよく、望まれる分類仕様に従って適宜決められればよい。例えば、被分類文献集合がCSDBから抽出された文献集合である場合、その文献集合の各文献に付与されている全種(CC00からCC09、DD00からDD15、JJ00からJJ78等)が特徴ベクトルの要素として用いられてもよいし、一部の種(JJ00からJJ78のみ)が特徴ベクトルの要素として用いられてもよい。
また「分類コードの全種又は一部の種を各要素とする」とは、分類コード自体を特徴ベクトルの要素値とするという意味ではなく、その要素に対応する分類コードがその文献に付与されているか否かを示す値(1/0)、又は、それに重み付けされた値を要素値とすることを意味する。
分類手段による具体的な分類手法は、多観点分類に基づく分類コードを各要素とする多次元の特徴量ベクトルを用いて、被分類文献集合を複数の部分文献集合に分類可能であれば、特に制限されない。後述の各実施形態では、クラスタ分析及び潜在トピック分析を用いた分類手法が例示されている。
生成手段により生成される文献分類情報は、被分類文献集合の分類結果を示す情報であれば、その具体的内容は制限されない。例えば、文献分類情報は、分類手段による分類で分けられた各部分集合を識別する分類識別データ(クラスタ番号等)と、被分類文献集合の少なくとも一部の各文献の文献識別データと、が関連付けられた情報であってもよい。
生成手段により生成された文献分類情報は、出力装置15への表示、印刷等により出力されてもよいし、入出力I/F13又は通信ユニット14を介して電子ファイルとして外部に送信されてもよい。
従って、各実施形態で生成される文献分類情報を用いることで、被分類文献集合の全体像の把握が容易となる。例えば、部分集合ごとに属する文献を数件程度読むことにより、部分集合ごとの内容傾向が把握可能となり、結果、被分類文献集合の全体像を把握できる。また、部分集合ごとの内容傾向が把握できれば、特定の文献又は内容と同一又は近似する内容の文献を特定するのに、読み込む対象とする文献を或る部分集合のみに絞ることもできる。
以下の各実施形態では、説明の便宜のために、特許文献を対象とし、多観点分類に基づく分類コードとしてFタームを用いる例を挙げることとする。但し、各実施形態に係る文献分類装置10で扱うことができる文献は特許文献に制限されないし、多観点分類に基づく分類コードもFタームに制限されない。以降、特許文献は文献と略称される。
本明細書において「Fターム」とは、説明の便宜のために、「テーマコード」を含めた形式を指すこととする。このため、「Fターム」は、例えば、「テーマコード(英数字)5桁」+「観点(英字)2桁」+「数字2桁」、又は、前記「数字2桁」の末尾に記載される1文字の英数字(付加コードと呼ばれる)まで含めた表記形式で示される。但し、「Fターム」が「テーマコード」を含まない形式を指す場合にも、実施可能であることは言うまでもない。
〔文献分類装置〕
第一実施形態に係る文献分類装置10のハードウェア構成は、図1に例示されるとおりである。本装置10は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。
本装置10は、検索部21、取得部22、ベクトル生成部23、クラスタリング部24、生成部25を有する。これらは、ソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。
文献データベースは、本装置10のメモリ12に格納されていてもよいし、外部のコンピュータのメモリに格納されていてもよい。後者の場合、検索部21は、通信ユニット14を介して当該外部のコンピュータと通信を行うことで、文献データベースにアクセスすればよい。
検索部21は、検索条件の入力画面を出力装置15に表示させ、その入力画面に対して入力装置16を用いたユーザ操作により入力された検索条件の情報(検索式等)を取得し、この情報を用いて検索を実行することができる。
取得される文献情報は、被分類文献集合の各文献についての文献識別データ及びFタームデータを含んでいればよく、その具体的な内容は制限されない。例えば、被分類文献集合が特許文献ならば、出願番号、出願公開番号、特許登録番号、出願人/権利者、IPC、FI、Fターム、要約、特許請求の範囲等の情報が取得可能である。
このとき、ベクトル生成部23は、取得部22で取得された文献情報に含まれるFタームの全種を特定し、特定された各Fタームを各要素とする特徴量ベクトルを生成してもよい。また、ベクトル生成部23は、取得部22で取得された文献情報に含まれるFタームの全種の中の一部を特定し、その特定された各Fタームを各要素とする特徴量ベクトルを生成してもよい。この場合、ベクトル生成部23は、当該文献情報に含まれるFターム全種を出力装置15に表示させ、その中から特徴量ベクトルの要素として用いるFタームをユーザに選択させてもよい。この場合、ベクトル生成部23は、ユーザにより選択されたFターム種を各要素とする特徴量ベクトルを生成すればよい。
図3の上部には、特徴量ベクトルの要素として用いるFターム群が示されている。ベクトル生成部23は、上述のように特徴量ベクトルの要素として用いるFターム種の数を特徴量ベクトルの要素数とし、図3に例示されるように、各文献の特徴量ベクトルを生成する。例えば、ベクトル生成部23は、取得部22で取得された文献情報に基づいて、被分類文献集合に含まれる文献ごとに、特徴量ベクトルの各要素に対応するFタームが付与されているか否かをそれぞれ判定し、付与されているFタームに対応する要素の値を「1」とし、付与されていないFタームに対応する要素の値を「0」とする。
更に言えば、ベクトル生成部23は、図3に示されるような重み付け前の特徴量ベクトルのリストをユーザが編集できるように電子ファイルに格納してもよい。また、ベクトル生成部23は、入力装置16を用いたユーザ操作により特徴量ベクトルを編集できるように、重み付け前の特徴量ベクトルを出力装置15に表示させることもできる。
そこで、Fタームの中の最上位階層から所定階層までの部分コードを特徴量ベクトルの一要素に対応付けることもできる。即ち、ベクトル生成部23は、被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む特徴量ベクトルを生成してもよい。
図4の例では、Fタームの最上位階層のテーマコード「4C117」が特徴量ベクトルの一要素に対応付けられている。これにより、テーマコード「4C117」を持つFターム「4C117XB01」、「4C117XB13」、「4C117XD05」、及び「4C117XE36」のいずれか一つでも付与されている文献の特徴量ベクトルでは、テーマコード「4C117」に対応する要素の値が「1」に設定されることになる。
これにより、細かい分類の詳細な情報が必要とならないFタームはまとめて1要素とすることができるため、目的に沿った分類が可能となる。また、複数種のFタームをまとめて特徴量ベクトルの1要素に表すことができるため、特徴量ベクトルの要素数を削減することができ、計算負荷を軽減させることができる。
各文献について2以上の特徴量ベクトルが生成される場合、直交性を有するFターム群が一つの特徴量ベクトルの要素として用いられることが好ましい。ここでのFターム間の直交性とは、Fターム相互に無相関である或いは関連性が低い関係を意味する。Fタームのような分類コードは、多観点分類に基づいているため、観点間には或る程度の相関性を示すものあれば、関連性が低いものも有り得る。Fタームの例では、テーマコード及び観点(7桁)より下位が異なるFタームどうしは直交性を有するということもできる。このような直交性を有するFターム群で一つの特徴量ベクトルを生成することで、文献の特徴を高精度に表す特徴量ベクトルを生成することができる。
図5の例では、第一の特徴量ベクトルは、被分類文献集合に付与されているFタームの全種のうち「4C083AA」、「4C083AB」、「4C083AC」、及び「4C083AD」を含むFタームを各要素とし、第二の特徴量ベクトルは、当該Fタームの全種のうち「4C083CC」及び「4C083DD」を含むFタームを各要素として生成される。これにより、被分類文献集合の各文献について第一及び第二の特徴量ベクトルがそれぞれ生成される。
例えば、K−Means法が用いられる場合、クラスタリング部24は、Elbow法等を用いてクラスタ数を算出することもできる。また、クラスタリング部24は、クラスタ数の入力画面を出力装置15に表示させ、その入力画面に対して入力されたクラスタ数を用いてもよい。
このようにすれば、複数のクラスタリングの対象となった文献については、多面的な分類の結果が示され、結果として、多面的な観点で被分類文献集合の全体像の把握が可能となる。
以下、第一実施形態に係る文献分類方法について説明する。
図6は、第一実施形態に係るおける文献分類装置10の動作例を示すフローチャートである。第一実施形態に係る文献分類方法は、本装置10のような少なくとも一つのコンピュータにより実行される。図6に示される各工程は、本装置10が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。
本装置10は、各文献についてFタームがそれぞれ付与された文献情報を格納する文献データベースから被分類文献集合の文献情報を抽出する(S11)。このとき、本装置10は、ユーザにより入力された検索条件の情報を取得してもよい。また、上述したとおり、文献データベースが外部のコンピュータ(サーバ装置)上に存在する場合には、本装置10は、そのコンピュータに検索条件を指定して文献情報の抽出を要求してもよい。
特徴量ベクトルの生成手法については上述したとおりである。
クラスタ分析の手法については上述したとおりである。
このような文献分類方法は、本装置10のみにより実行されてもよいし、複数の装置(コンピュータ)により実行されてもよい。例えば、工程(S11)は、外部のコンピュータにより実行され、その他の各工程(S13)から工程(S17)が本装置10により実行されてもよい。
また、上述の各工程には、人の手が部分的に介在してもよい。例えば、工程(S11)で検索条件を指定したり、検索の実行を指示するのは、ユーザ操作であってもよい。また、工程(S13)においても、特徴量ベクトルの要素への重み付けや、特徴量ベクトルの要素として用いるFタームの選択は、ユーザにより行われてもよい。
上述の第一実施形態では、被分類文献集合の分類にクラスタ分析が用いられた。以下に説明する第二実施形態では、潜在トピック分析と呼ばれる他の分類手法が用いられる。以下、第二実施形態に係る文献分類装置及び文献分類方法について、第一実施形態と異なる内容を中心説明する。以下の説明では、第一実施形態と同様の内容については適宜省略する。
第二実施形態に係る文献分類装置10(以降、本装置10と表記する場合もある)のハードウェア構成についても、図1に例示されるとおりである。本装置10は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。
本装置10は、第一実施形態におけるクラスタリング部24の代わりに、潜在トピック分析部27を有している。潜在トピック分析部27もソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。
潜在トピック分析は、潜在的ディリクレ配分法(LDA(Latent Dirichlet Allocation))を代表とするトピックモデルに基づく分析手法である。トピックモデルとは、文書のテキストデータ群からトピックを探し出す手法の総称である。
本発明者らは、文献はトピックの集合体であり、文献に付与される多観点分類に基づく分類コードがその文献のトピックを形成すると考えた。そして、文書解析に主に用いられる潜在トピック分析を、多観点分類に基づく分類コードが付与された文献集合の分類に利用することで、文献集合を内容に応じて的確に分類できることを見出したのである。
図8に示されるように、ここで用いられる潜在トピックは、多観点分類に基づく分類コード(Fターム等)の出現確率の分布で表され、潜在トピック分析により被分類文献集合の各文献について潜在トピックの配合比率が算出される。
即ち、潜在トピック分析部27は、Fタームの付与状況を示す各文献の特徴量ベクトルを入力として潜在トピック分析を実行することで、Fタームの出現確率の分布で表される潜在トピックリストと、被分類文献集合の各文献についての潜在トピックの配合比率とが出力される。言い換えれば、潜在トピック分析部27は、被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、被分類文献集合の各文献について潜在トピックの配合比率を算出する。
また、潜在トピックの閾値で分類することもでき、一つの文献に関して閾値よりも高い比率の潜在トピックが複数存在する場合には、その文献については複数の潜在トピックを代表トピックに決定することもできる。この場合には、その文献は複数の分類に属することとされる。また、何れにも属さない文献も分類し得る。
また、潜在トピック分析部27は、特定のトピック数による潜在トピック分析を行い、その結果として得られる各文献の潜在トピックの配合比率に基づいてトピック数を自動変更し、その変更されたトピック数により再度、潜在トピック分析を行うようにしてもよい。
潜在トピック分析部27は、トピック数を変えながら、潜在トピック分析を複数回実行してもよい。この場合、潜在トピック分析の結果ごとに各文献が分類されればよい。
以下、第二実施形態に係る文献分類方法について説明する。
図9は、第二実施形態に係るおける文献分類装置10の動作例を示すフローチャートである。第二実施形態に係る文献分類方法は、本装置10のような少なくとも一つのコンピュータにより実行される。図9に示される各工程は、本装置10が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。
第二実施形態では、本装置10は、工程(S23)で生成されたFタームの特徴量ベクトルに対して潜在トピック分析を適用する(S25)。潜在トピック分析手法については上述したとおりである。潜在トピック分析の結果、被分類文献集合の各文献についての潜在トピックの配合比率が算出される。
このとき、本装置10は、潜在トピック分析のトピック数をユーザに指定させてもよいし、自動で決定してもよい。
工程(S27)の分類結果に基づいて、本装置10は、被分類文献集合の文献分類情報を生成する(S29)。文献分類情報の生成手法についても上述したとおりである(生成部25)。
特徴量ベクトルの生成手法は上述のような例に限定されず、多観点分類に基づく分類コード(Fターム等)を用いた手法であれば種々変形可能である。
当該特徴量ベクトルにFターム以外の他の要素が加えられてもよい。
例えば、特許文献には、Fタームに加えて、IPCやFIといった分類コードも付与されている。IPCやFIは、文献の主題を総括的に分類するコード体系であり、単観点分類に基づく分類コードとも呼ばれる。このように、多観点分類に基づく分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードが被分類文献集合の各文献に付与されている場合には、当該他分類コードが付与されているか否かに対応する要素が特徴量ベクトルに加えられてもよい。
図10は、変形例に係る文献分類装置10の制御構成例を概念的に示すブロック図である。図10に示されるように、上述の各実施形態に係る文献分類装置10は、被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索部29を更に有していてもよい。文字列検索部29もソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。図10には、第一実施形態に係る文献分類装置10の変形例が示されているが、第二実施形態に係る文献分類装置10も同様に変形可能であることは言うまでもない。
文字列検索部29は、取得部22で取得された被分類文献集合の文献情報から各文献の文献識別データを抽出し、その文献識別データのリスト及び当該検索文字列を検索条件として文献データベースを再度検索することにより、被分類文献集合の各文献について検索文字列の有無をそれぞれ判定することができる。
被分類文献集合の各文献の検索元となるデータ(特許請求の範囲や要約書等の記載データ)が取得部22で取得されている場合には、文字列検索部29は、取得部22で取得されているデータに対して検索文字列の検索を行ってもよい。
ベクトル生成部23は、多観点分類に基づく分類コード(Fターム等)に加えて、このような検索文字列を含むか否かと、上述の他分類体系の他分類コードが付与されているか否かとの両方を要素とする特徴量ベクトルを生成することができる。
このような文献間の類似度、文献とクラスタとの類似度、又はクラスタ間の類似度が閾値以上となるようにクラスタ分析のクラスタ数や潜在トピック分析のトピック数が自動で決められてもよい。また、文献とクラスタとの類似度を用いることで、或る特定の文献が既に分類されたクラスタのうちどのクラスタに近いか等といった評価を行うこともできる。
また、上述の各実施形態に係る文献分類装置10は、図示される構成以外の構成を備えてもよいし、図示される構成の一部を備えなくてもよい。例えば、検索部21は、文献分類装置10と通信可能な他のコンピュータ上で実現されていてもよい。この場合、文献分類装置10の取得部22は、他のコンピュータ上から検索部21により抽出された被分類文献集合の文献情報を取得することができる。
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類手段と、
前記分類の結果を示す文献分類情報を生成する生成手段と、
を備える文献分類装置。
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
<1>に記載の文献分類装置。
<3>前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
<1>又は<2>に記載の文献分類装置。
<4>前記分類手段は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出し、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する、
<1>から<3>のいずれか一つに記載の文献分類装置。
<5>前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行い、
更に、前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う、
<1>から<4>のいずれか一つに記載の文献分類装置。
<6>前記生成手段は、前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた前記文献分類情報を生成する、
<5>に記載の文献分類装置。
<7>前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
<1>から<6>のいずれか一つに記載の文献分類装置。
<8>各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
<1>から<7>のいずれか一つに記載の文献分類装置。
<9>各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類工程と、
を含む文献分類方法。
<10>前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索工程、
を更に含み、
前記ベクトル生成工程では、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
<9>に記載の文献分類方法。
<11>前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
<9>又は<10>に記載の文献分類方法。
<12>前記分類工程は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出する工程と、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する工程と、
を含む<9>から<11>のいずれか一つに記載の文献分類方法。
<13>前記ベクトル生成工程は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成する工程と、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成する工程と、
を含み、
前記分類工程は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行う工程と、
前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う工程と、
を含む<9>から<12>のいずれか一つに記載の文献分類方法。
<14>前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた文献分類情報を生成する工程、
を更に含む<13>に記載の文献分類方法。
<15>前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
<9>から<14>のいずれか一つに記載の文献分類方法。
<16> <9>から<15>のいずれか一つに記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。
図11(a)によれば、出願人ごとに文献数が多いクラスタとそうでないクラスタとが存在していることがわかる。出願人Aについてはクラスタ(CL)0及びクラスタ(CL)4に文献が集中しており、出願人Bについてはクラスタ(CL)4に文献が集中しており、出願人Dについてはクラスタ(CL)1、クラスタ(CL)3、及びクラスタ(CL)6に文献が集中しており、出願人Eについてはクラスタ(CL)3に文献が集中している。即ち、本実施例の文献分類によりクラスタごとの文献数分布が出願人ごとに特色を示していることが分かる。
図11(b)によれば、類似度の平均値、最大値及び最小値のいずれにおいても、選択された文献が属するクラスタ2が最も大きくなっていることがわかる。また、クラスタ2と他の各クラスタとの間の平均類似度を比較すれば、クラスタ2と他の各クラスタとの間の距離感も見ることができる。
従って、1042次元のFターム特徴量ベクトルを用いたK−Means法クラスタリングによる文献分類により、各文献の特色に応じて被分類文献集合を適切に分類できていることが実証される。
図12によれば、2つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。例えば、K−Means法クラスタリングでクラスタ(CL)1に分類された文献群のほとんどは、Agglomerative法クラスタリングでクラスタ(CL)4に分類されており、逆に、Agglomerative法クラスタリングでクラスタ(CL)4に分類された文献はすべてK−Means法クラスタリングでクラスタ(CL)1に分類されている。即ち、K−Means法クラスタリングで分類された各クラスタとAgglomerative法クラスタリングで分類された各クラスタとは或る程度の相関性を示すといえる。
これにより、K−Means法に限られず、他のクラスタ分析手法を用いても、文献を的確に分類できることが実証される。
図13の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、被分類文献集合に付与されているFタームの一部の種を用いて生成された特徴量ベクトルを用いても文献を的確に分類できることが実証される。
図14の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Fタームに対応する要素のみでなく文字列検索の結果を要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。
図15は、Fターム全種を要素とする1042次元の特徴量ベクトル及び筆頭IPCを要素に加えた1074次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図15の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Fタームに対応する要素のみでなく筆頭IPCを要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。
図16の結果によれば、2つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。即ち、いずれの特徴量ベクトルを用いても或いは異なるクラスタ数のクラスタ分析を用いても特色ある分類ができていることがわかる。
これにより、文献データベースを制限せず、特徴量ベクトルの要素数を制限せず、クラスタリングのクラスタ数を制限することなく、文献を的確に分類できることが実証される。
図17によれば、K−Means法クラスタリングによるクラスタごとの文献数分布と、潜在トピック分析(LDA法)による代表トピックごとの文献数分布とのマトリクスにおいて、文献が集中するセルとそうでないセルとが見受けられ、いずれの分析手法を用いても特色ある分類ができていることがわかる。
従って、潜在トピック分析を用いたとしても、クラスタ分析と同様に、文献を的確に分類できることが実証される。
これら対象文献に対して、フリーワードとして「文献」、「分類」及び「解析」がAND条件で指定された検索条件で検索が実行され、22件の文献が抽出された(以降、A群と表記する)。
更に、当該対象文献に対して、フリーワードとして「データベース」、「ファイル」、「検索」及び「類似度」がAND条件で指定された検索条件で検索が実行され、23件の文献が抽出された(以降、B群と表記する)。
A群及びB群の文献集合が被分類文献集合とされ、被分類文献集合に付与されているCSタームは、トータルで121種類であった。
同様に、上述の特徴量ベクトルを用いてK−Means法クラスタリングを行い、被分類文献集合の各文献が3個のクラスタに分類された。
図18によれば、クラスタごとのA群及びB群の各々の文献数分布に或る程度の特色が見て取れるため、CSタームによる特徴量ベクトルを用いても特色ある分類ができていることがわかる。
従って、多観点分類に基づく他の分類コードを用いたとしても、Fタームクラスタ分析と同様に、特許文献のFタームを用いるのと同様に、文献を的確に分類できることが実証される。
11 CPU
12 メモリ
13 入出力I/F
14 通信ユニット
15 出力装置
16 入力装置
18 文献分類プログラム
21 検索部
22 取得部
23 ベクトル生成部
24 クラスタリング部
25 生成部
27 潜在トピック分析部
29 文字列検索部
Claims (11)
- 各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類手段と、
前記複数回のクラスタ分析の結果を示す文献分類情報を生成する生成手段と、
を備え、
前記複数回のクラスタ分析には、K−Means法を用いたクラスタ分析及びAgglomerative法を用いたクラスタ分析が含まれる、
文献分類装置。 - 前記生成手段は、前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Agglomerative法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む前記文献分類情報を生成する、
請求項1に記載の文献分類装置。 - 前記生成手段は、前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析で分けられた各クラスタを識別する第一のクラスタ識別データ及びAgglomerative法を用いたクラスタ分析で分けられた各クラスタを識別する第二のクラスタ識別データが少なくとも、前記被分類文献集合の少なくとも一部の各文献の文献識別データとそれぞれ関連付けられた前記文献分類情報を生成する、
請求項1又は2に記載の文献分類装置。 - 前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索手段、
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
請求項1から3のいずれか一項に記載の文献分類装置。 - 前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
請求項1から4のいずれか一項に記載の文献分類装置。 - 前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記複数回のクラスタ分析の中の或る回のクラスタ分析では、前記第一の特徴量ベクトルを用い、
他の回のクラスタ分析では、前記第二の特徴量ベクトルを用いる、
請求項1から5のいずれか一項に記載の文献分類装置。 - 前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
請求項1から6のいずれか一項に記載の文献分類装置。 - 各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
請求項1から7のいずれか一項に記載の文献分類装置。 - 各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類工程と、
を含み、
前記複数回のクラスタ分析には、K−Means法を用いたクラスタ分析及びAgglomerative法を用いたクラスタ分析が含まれる、
文献分類方法。 - 前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Agglomerative法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む文献分類情報を生成する生成工程、
を更に含む請求項9に記載の文献分類装置。 - 請求項9又は10に記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2017/041920 WO2019102533A1 (ja) | 2017-11-22 | 2017-11-22 | 文献分類装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2019102533A1 JPWO2019102533A1 (ja) | 2020-02-27 |
| JP6782858B2 true JP6782858B2 (ja) | 2020-11-11 |
Family
ID=66631858
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019556006A Active JP6782858B2 (ja) | 2017-11-22 | 2017-11-22 | 文献分類装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10984344B2 (ja) |
| EP (1) | EP3716099A4 (ja) |
| JP (1) | JP6782858B2 (ja) |
| CN (1) | CN111373392B (ja) |
| WO (1) | WO2019102533A1 (ja) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107766414B (zh) * | 2017-09-06 | 2020-06-12 | 北京三快在线科技有限公司 | 多文档交集获取方法、装置、设备及可读存储介质 |
| CN110674283B (zh) * | 2019-08-15 | 2024-09-13 | 中国平安财产保险股份有限公司 | 文本摘要的智能抽取方法、装置、计算机设备及存储介质 |
| GB201911760D0 (en) * | 2019-08-16 | 2019-10-02 | Eigen Tech Ltd | Training and applying structured data extraction models |
| US11436529B1 (en) * | 2019-09-13 | 2022-09-06 | Change Healthcare Holdings, Llc | Method, apparatus, and computer program product for natural language processing |
| JP7565537B2 (ja) * | 2020-11-10 | 2024-10-11 | アスタミューゼ株式会社 | プログラム、方法、及び情報処理装置 |
| JP7324237B2 (ja) * | 2021-02-08 | 2023-08-09 | デロイトトーマツコンサルティング合同会社 | 企業買収又は企業連携先検索装置、企業買収又は企業連携先検索方法及びプログラム |
| WO2022211099A1 (en) * | 2021-03-31 | 2022-10-06 | Olympus Corporation | Patent valuation using artificial intelligence |
| JP7317067B2 (ja) * | 2021-04-02 | 2023-07-28 | 本田技研工業株式会社 | 知財情報を用いた俯瞰図の作成方法 |
| KR20230062264A (ko) * | 2021-10-29 | 2023-05-09 | 삼성에스디에스 주식회사 | 문서분류 방법 및 문서분류 장치 |
| CN114781553B (zh) * | 2022-06-20 | 2023-04-07 | 浙江大学滨江研究院 | 一种基于并行多图卷积神经网络的无监督专利聚类方法 |
| CN115238153B (zh) * | 2022-07-19 | 2023-09-08 | 中航机载系统共性技术有限公司 | 一种基于虚拟仿真的文档管理方法及系统 |
| JP7444930B2 (ja) * | 2022-07-25 | 2024-03-06 | デロイトトーマツコンサルティング合同会社 | 指標算出装置、指標算出方法及びプログラム |
| US12405981B2 (en) * | 2023-05-12 | 2025-09-02 | Nec Corporation | Information processing apparatus, information processing method, and storage medium |
| CN116821349B (zh) * | 2023-08-29 | 2023-10-31 | 中国标准化研究院 | 一种基于大数据的文献分析方法及管理系统 |
| CN117932072B (zh) * | 2024-03-20 | 2024-06-25 | 华南理工大学 | 一种基于特征向量稀疏性的文本分类方法 |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6598054B2 (en) * | 1999-01-26 | 2003-07-22 | Xerox Corporation | System and method for clustering data objects in a collection |
| JP2008084151A (ja) * | 2006-09-28 | 2008-04-10 | Just Syst Corp | 情報表示装置および情報表示方法 |
| JP4274221B2 (ja) * | 2006-10-02 | 2009-06-03 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
| JP2009230323A (ja) * | 2008-03-21 | 2009-10-08 | Fuji Xerox Co Ltd | 情報解析装置及びプログラム |
| JP2010020530A (ja) * | 2008-07-10 | 2010-01-28 | Asahi Kasei Corp | 文書分類付与装置、文書分類付与方法およびプログラム |
| WO2010128974A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Software Limited | Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection |
| WO2012162405A1 (en) * | 2011-05-24 | 2012-11-29 | Namesforlife, Llc | Semiotic indexing of digital resources |
| JP5785869B2 (ja) * | 2011-12-22 | 2015-09-30 | 株式会社日立製作所 | 行動属性分析プログラムおよび装置 |
| JP5971794B2 (ja) * | 2012-04-20 | 2016-08-17 | 有限会社アイ・アール・ディー | 特許調査支援装置、特許調査支援方法、およびプログラム |
| JP5360512B1 (ja) | 2012-06-18 | 2013-12-04 | アルトリサーチ株式会社 | 検索支援装置と検索支援プログラム |
| JP6303756B2 (ja) * | 2014-04-21 | 2018-04-04 | 株式会社カネカ | 特許情報分析装置及び特許情報分析方法 |
| KR101768807B1 (ko) * | 2016-04-12 | 2017-08-17 | 고려대학교 산학협력단 | 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법 |
-
2017
- 2017-11-22 US US16/765,623 patent/US10984344B2/en active Active
- 2017-11-22 CN CN201780097136.0A patent/CN111373392B/zh active Active
- 2017-11-22 EP EP17933073.3A patent/EP3716099A4/en not_active Withdrawn
- 2017-11-22 JP JP2019556006A patent/JP6782858B2/ja active Active
- 2017-11-22 WO PCT/JP2017/041920 patent/WO2019102533A1/ja not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| US10984344B2 (en) | 2021-04-20 |
| US20200279189A1 (en) | 2020-09-03 |
| EP3716099A1 (en) | 2020-09-30 |
| EP3716099A4 (en) | 2021-07-14 |
| CN111373392B (zh) | 2021-05-07 |
| CN111373392A (zh) | 2020-07-03 |
| WO2019102533A1 (ja) | 2019-05-31 |
| JPWO2019102533A1 (ja) | 2020-02-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6782858B2 (ja) | 文献分類装置 | |
| Dou et al. | Hierarchicaltopics: Visually exploring large text collections using topic hierarchies | |
| Wu et al. | Bag constrained structure pattern mining for multi-graph classification | |
| US12197873B2 (en) | Creation of component templates based on semantically similar content | |
| CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
| JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
| JP2010541092A5 (ja) | ||
| US20230409645A1 (en) | Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method | |
| US20100042610A1 (en) | Rank documents based on popularity of key metadata | |
| WO2010061537A1 (ja) | 検索装置、検索方法、及びプログラムが格納された記録媒体 | |
| KR20210129465A (ko) | 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법 | |
| JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
| CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
| Ai et al. | An effective hot topic detection method for microblog on spark | |
| JP4407272B2 (ja) | 文書分類方法、文書分類装置及び文書分類プログラム | |
| McInnes et al. | hdbscan Documentation | |
| CN119066179B (zh) | 问答处理方法、计算机程序产品、设备及介质 | |
| JP6924450B2 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
| JP2009252185A (ja) | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 | |
| KR101078978B1 (ko) | 문서 분류 시스템 | |
| Sundari et al. | A study of various text mining techniques | |
| JP2005141476A (ja) | 文書管理装置、プログラムおよび記録媒体 | |
| Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
| CN114816350A (zh) | 针对Linux内核交互接口的检索方法及装置 | |
| Skluzacek et al. | Models and metrics for mining meaningful metadata |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191220 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191220 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200121 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200310 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200428 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200519 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200710 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200902 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201020 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6782858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |