JP2011170786A - 文書分類システムおよび文書分類プログラムならびに文書分類方法 - Google Patents

文書分類システムおよび文書分類プログラムならびに文書分類方法 Download PDF

Info

Publication number
JP2011170786A
JP2011170786A JP2010036402A JP2010036402A JP2011170786A JP 2011170786 A JP2011170786 A JP 2011170786A JP 2010036402 A JP2010036402 A JP 2010036402A JP 2010036402 A JP2010036402 A JP 2010036402A JP 2011170786 A JP2011170786 A JP 2011170786A
Authority
JP
Japan
Prior art keywords
classification
text document
document
category
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010036402A
Other languages
English (en)
Other versions
JP5346841B2 (ja
Inventor
Junichiro Maki
純一郎 牧
Tatsunosuke Yajima
達之輔 矢島
Tsuyoshi Kuroda
剛史 黒田
Teruyuki Murata
輝行 村田
Ko Kamibayashi
航 上林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010036402A priority Critical patent/JP5346841B2/ja
Publication of JP2011170786A publication Critical patent/JP2011170786A/ja
Application granted granted Critical
Publication of JP5346841B2 publication Critical patent/JP5346841B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】各カテゴリに対してキーワード等の指定を要さず、機械学習により分類ルールを学習することでテキスト文書を各カテゴリに分類し、分類結果が得られた理由がユーザに容易に理解可能である文書分類システムを提供する。
【解決手段】各テキスト文書に対して言語処理を行って単語に分解する言語処理部10と、ユーザからの指示に基づいて教師データとするテキスト文書を指定する手動分類部30と、教師データに基づいて機械学習により単語毎に学習モデルを算出する学習部40と、学習モデルと分類対象のテキスト文書に含まれる各単語に基づいて、分類対象のテキスト文書について、カテゴリ毎に分類スコアを算出し、分類スコアが最大となるカテゴリに分類対象のテキスト文書を分類する自動分類部50と、各テキスト文書の各カテゴリへの分類結果、および各テキスト文書についてのカテゴリ毎の分類スコアをユーザに提示するインタフェース部60とを有する。
【選択図】図1

Description

本発明は、言語処理技術に関し、特に、テキスト文書を内容に応じて分類する文書分類システムおよび文書分類プログラムならびに文書分類方法に適用して有効な技術に関するものである。
例えば、顧客にサービスを提供する企業等では、コールセンターなどでオペレータ等が電話やメール等で顧客から受け付けた質問や相談、苦情等の内容をテキスト文書として記録しておき、分析のためにこれらを内容に応じて分類することがよく行われる。
この場合、一般的には例えば、分類用のカテゴリおよびカテゴリ毎のキーワード等を予め設定しておき、設定されたキーワードと、テキスト文書の内容もしくはテキスト文書に設定されたキーワードやタグ等とのマッチングによってテキスト文書を各カテゴリに分類するなどの手法がとられている。また、予めカテゴリやキーワード等を設定することなく、テキスト文書中の単語の出現頻度等に基づいてテキスト文書の特徴を算出し、類似する特徴を有する文書毎にクラスタリングする手法もとられている。
さらに、例えば、特開2009−98809号公報(特許文献1)には、顧客ニーズを含むVOC(Voice of the Customer)テキストと技術を含む技術テキストのみを用意するだけで、VOCテキストを学習データとして特徴ベクトルを作成し、各カテゴリ(ニーズの類目)の特徴パターンを生成し、類似の技術テキストに該当ニーズのラベルを付与することにより、ニーズ情報と技術情報を自動的にマッチングする技術文献分類システムが開示されている。
特開2009−98809号公報
上述したような、分類用のカテゴリに予め設定されたキーワード等とテキスト文書の内容やテキスト文書に設定されたキーワード等に基づく分類では、分類用のカテゴリに対する事前のキーワード等の設定に工数を要し、また、分類の精度を向上させるためにはキーワード等の適切な設定に熟練を要する。また、テキスト文書をクラスタリングする手法では、分類結果のクラスタが所望のカテゴリ分けにマッチしたものになるとは限らず、また、分類結果のクラスタが得られた過程や理由がユーザにとって不明である場合が多く、ユーザによる分類結果の理解やそれに基づく補正・最適化などが困難な場合が多い。
一方、特許文献1に記載された技術では、分類用のカテゴリに予めキーワード等を設定することなく、各カテゴリに対して入力した学習用テキストについて求めた特徴ベクトルと、分類用テキストについて求めた特徴ベクトルとの類似度に基づいて、各カテゴリと分類用テキストをマッチングすることができる。しかしながら、特許文献1に記載された技術の場合も、マッチング結果が得られた過程や理由(「なぜこのテキストはこのカテゴリに分類されたのか?」など)は一般ユーザには不明もしくは理解が困難なものであり、ユーザによる分類結果の理解やそれに基づく分類結果の補正・最適化などは難しい。
そこで本発明の目的は、事前に設定した各カテゴリに対して、ユーザによる事前のキーワード等の指定を要さず、機械学習により分類ルールを学習することで半自動的にテキスト文書を各カテゴリに分類し、かつ分類結果が得られた理由がユーザに容易に理解可能である文書分類システムおよび文書分類プログラムならびに文書分類方法を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による文書分類システムは、文書分類プログラムおよび文書分類方法にも適用することが可能であり、テキスト文書群を取り込み、取り込んだ前記各テキスト文書を内容に応じて予めユーザが設定した複数の分類用のカテゴリに分類する文書分類システムであって、以下の特徴を有するものである。
すなわち、文書分類システムは、前記各テキスト文書に対して言語処理を行って、前記各テキスト文書を単語に分解する言語処理部と、前記ユーザからの指示に基づいて、前記各テキスト文書を前記各カテゴリに分類する際の学習モデルを得るための教師データとする前記テキスト文書を指定する手動分類部と、前記教師データとして指定した前記テキスト文書に基づいて、機械学習により単語毎に前記学習モデルを算出する学習部とを有する。
さらに、前記学習モデルと、分類対象の前記テキスト文書に含まれる各単語に基づいて、分類対象の前記テキスト文書について、前記カテゴリ毎に、分類対象の前記テキスト文書が前記カテゴリに分類されるべき尤度である分類スコアを算出し、前記分類スコアが最大となる前記カテゴリに分類対象の前記テキスト文書を分類する自動分類部と、前記自動分類部による前記各テキスト文書の前記各カテゴリへの分類結果、および前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示するインタフェース部とを有することを特徴とするものである。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、分類用の各カテゴリに対して教師データを指定し、教師データに基づいて分類ルールを学習することで、ユーザによる事前のキーワード等の指定に係る工数を要さず半自動的にテキスト文書を事前に設定した各カテゴリに分類することができる。
また、本発明の代表的な実施の形態によれば、分類結果とともに分類結果が得られた理由をユーザに提示することが可能であるため、対象のテキスト文書が対象のカテゴリに分類された理由がユーザに容易に理解可能であるとともに、これに基づいて教師データの指定をより適切なものに漸次更新して分類精度を向上させることが可能となる。
本発明の実施の形態1における文書分類システムの構成例の概要について示した図である。 本発明の実施の形態1におけるテキスト文書を各カテゴリに自動分類する際の処理の流れの例を示した図である。 本発明の実施の形態1におけるテキストの取り込み処理の際に行う言語処理の流れの例を示したフローチャートである。 本発明の実施の形態1におけるテキスト管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の実施の形態1における単語管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の実施の形態1におけるノードの作成処理の流れの例を示したフローチャートである。 本発明の実施の形態1におけるノードの階層構造の例について示した図である。 本発明の実施の形態1におけるノード管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の実施の形態1における教師データの作成処理の際に行う手動分類処理の流れの例を示したフローチャートである。 本発明の実施の形態1における教師データの学習処理の流れを示したフローチャートである。 本発明の実施の形態1における学習対象の単語を足切りする処理の具体例を示した図である。 本発明の実施の形態1における各単語の尤度係数を算出する処理の具体例を示した図である。 本発明の実施の形態1における学習モデル管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の実施の形態1における自動分類処理の流れを示したフローチャートである。 本発明の実施の形態1におけるテキスト文書についてカテゴリ毎に分類スコアを算出して分類する処理の具体例を示した図である。 本発明の実施の形態1における自動分類処理によるテキスト文書の分類結果をユーザに提示する画面の例を示した図である。 本発明の実施の形態2における自動分類処理の流れを示したフローチャートである。 本発明の実施の形態2における各単語の重み付け値を算出する処理の具体例を示した図である。 本発明の実施の形態2における単語管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の実施の形態2におけるテキスト文書についてカテゴリ毎に分類スコアを算出して分類する処理の具体例を示した図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
<実施の形態1>
以下では本発明の実施の形態1である文書分類システムについて説明する。本発明の実施の形態1である文書分類システムは、テキスト文書を取り込み、これらを内容に応じて予めユーザが設定した分類用のカテゴリに自動分類する機能を有するコンピュータシステムである。この文書分類システムは、例えば、コールセンターにおける応対履歴(コールログ)などのテキスト文書を取り込み、キーワードやユーザの属性などの種々の条件により分類したり、トピックやキーワードを抽出したり、ユーザの属性や時系列等による因果関係を分析したり等、多様な分析を行うことによって蓄積されたテキスト文書を活用することを目的とするシステムの一部として実装することが可能である。
[システム構成]
図1は、本発明の実施の形態1である文書分類システムの構成例の概要について示した図である。文書分類システム1は、例えば、サーバやPC(Personal Computer)等によって構成され、ソフトウェアプログラムによって実装された言語処理部10、ノード管理部20、手動分類部30、学習部40、自動分類部50およびインタフェース部60の各部と、データベースやファイルテーブル等からなるテキスト管理71、単語管理72、ノード管理73、パラメータ管理74および学習モデル管理75の各テーブルを有する。
言語処理部10は、後述するインタフェース部60等を介して取り込んだ複数のテキスト文書に対して言語処理を行うことにより、各テキスト文書を助詞等を除いた単語に分解して品詞(名詞、動詞、形容詞、副詞等)を取得する機能を有する。取り込まれたテキスト文書および言語処理の結果の単語の情報は、それぞれ後述するテキスト管理71、単語管理72の各テーブルに格納される。
ノード管理部20は、テキスト文書をカテゴリに分類して紐付けるための後述するノードの階層構造を管理する機能を有し、各カテゴリに自動分類されたテキスト文書が紐付けられる自動分類ノードを含む各種ノードを作成したり、ノードの内容を変更したりなどの処理を行うことができる。また、自動分類ノードに対する分類処理に係る各種パラメータの設定を行うこともできる。作成・変更したノードの情報およびパラメータの情報は、それぞれ後述するノード管理73、パラメータ管理74の各テーブルに格納される。
手動分類部30は、ユーザからの指示に基づいて、テキスト文書を各ノードに分類して紐付ける機能や、テキスト文書についての未読/既読の状態を更新する機能を有する。ここでは、ユーザからの指示に基づいて、後述する各カテゴリの教師ノードにテキスト文書を紐付けることで、他のテキスト文書をカテゴリに自動分類する際の分類ルールを学習するための教師データとするテキスト文書を指定することができる。テキスト文書に対するこれらの処理の結果の情報は、テキスト管理71のテーブルに格納される。
学習部40は、手動分類部30において教師データとして指定されたテキスト文書に基づいて、他のテキスト文書を対応する各カテゴリに自動分類するための分類ルール(学習モデル)を機械学習により取得する機能を有する。本実施の形態では、学習モデルは、各単語を含むテキスト文書がどのカテゴリに分類されるべきかを判定するための尤度であり、各カテゴリの教師データとして指定されたテキスト文書に含まれる単語の出現状況に基づいて単語毎に算出したものである。算出した学習モデルの情報は、後述する学習モデル管理75のテーブルに格納される。
自動分類部50は、学習部40において算出された学習モデルと、分類対象のテキストに含まれる単語に基づいて、各テキスト文書をカテゴリに自動分類する機能を有する。分類結果の情報は、テキスト管理71のテーブルに格納される。インタフェース部60は、文書分類システム1における画面表示等のユーザインタフェースや、テキスト文書の取り込みなどの入出力機能を有する。画面等の表示については、図示していないが、例えば、文書分類システム1自体が備えるディスプレイ等に直接表示してもよいし、Webサーバプログラムを利用してクライアント端末上のWebブラウザを介して画面を表示するようにしてもよい。
[処理フロー(全体)]
図2は、上記のような構成を有する文書分類システム1により、テキスト文書を各カテゴリに自動分類する際の処理の流れの例を示した図である。まず、ユーザによる手動、もしくは他のシステム(例えばコールセンターシステム等)との連携により、インタフェース部60を介して分類の対象となるテキスト文書(例えばコールログや、新聞記事・ニュース等)を文書分類システム1に取り込む(S100)。このとき、言語処理部10によって各テキスト文書を単語に分解する言語処理を行っておく。
次に、テキスト文書を各カテゴリに分類するためのノード(自動分類ノード)をノード管理部20によって作成する(S200)。なお、ステップS100とS200の処理順は上記の例に限らず、いずれを先に行ってもよい。次に、作成した各カテゴリにおける教師ノードに対して、ユーザからの指示に基づいて手動分類部30によりテキスト文書を紐付けることで教師データを作成する(S300)。
次に、学習部40により、各カテゴリの教師データに基づいて学習処理を行うことで学習モデルを算出する(S400)。その後、算出した学習モデルに基づいて他の各テキスト文書を各カテゴリに自動分類する(S500)。自動分類した結果はインタフェース部60を介してユーザに提示する(S600)。
次に、ユーザは、分類結果を参照し、必要に応じて手動分類部30を介して誤って分類されたテキスト文書を正しいカテゴリに分類し直して補正する(S700)。すなわち、これらのテキスト文書を正しいカテゴリに対する新たな教師データとして紐付ける等により、教師データとして教師ノードに紐付けられたテキスト文書の内容を補正する。その後、ステップS400に戻り、再度教師データの学習処理を行って学習モデルを更新し、ステップS500の自動分類、ステップS600の分類結果の提示、およびステップS700の分類結果の補正処理を繰り返す。これにより、学習モデルの精度を漸次高め、自動分類の精度を向上させることができる。
[言語処理フロー]
図3は、図2のステップS100のテキストの取り込み処理の際に行う言語処理の流れの例を示したフローチャートである。まず、言語処理部10が分類対象の各テキスト文書を読み込んで、テキスト文書を形態素の列に分解して品詞を判別するいわゆる形態素解析を行う(S101)。次に、形態素解析の結果に基づいて、テキスト文書の構文を解析するいわゆる構文解析を行い(S102)、言語処理を終了する。なお、形態素解析、構文解析の各解析処理については自然言語処理における公知の技術やアルゴリズムを適宜利用することができ、一般的な形態素解析エンジンや構文解析エンジンを言語処理部10に組み込んで用いることも可能である。
取り込まれたテキスト文書の情報は、テキスト管理71のテーブルに格納される。図4は、テキスト管理71のデータ構成および具体的なデータの例について示した図である。テキスト管理71は、例えば、テキストID、テキスト原文、所属ノードID、未読フラグなどの各項目を有する。
テキストIDの項目は、文書分類システム1によって割り振られた各テキスト文書を一意に識別するIDを保持する。テキスト原文の項目は、各テキスト文書の内容自体を保持する。所属ノードIDの項目は、各テキスト文書が紐付けられたノードのIDを保持する。未読フラグの項目は、対象のテキスト文書が未読であるか否かを示すフラグ値を保持する。図4の例では“1”が未読、“0”が既読としている。
また、形態素解析および構文解析を行った結果の単語の情報は、単語管理72のテーブルに格納される。図5は、単語管理72のデータ構成および具体的なデータの例について示した図である。単語管理72は、例えば、所属テキストID、単語、品詞、文番号、文中順序などの各項目を有する。
所属テキストIDの項目は、各単語が属するテキスト文書のテキストIDの値を保持する。単語および品詞の項目は、それぞれ、形態素解析・構文解析によりテキスト文書から分解された単語およびその品詞の情報を保持する。また、文番号および文中順序の項目は、それぞれ、対象の単語が属する文のテキスト文書中における順序を示す番号、および対象の単語の当該文中における順序を示す情報を保持する。テキスト文書中には複数の文が含まれる場合があり、これらの情報を参照することによって、テキスト文書中における対象の単語の位置を特定することができる。これらの情報も形態素解析・構文解析の結果から得ることができる。
[ノード作成処理フロー]
図6は、図2のステップS200のノード(自動分類ノード)の作成処理の流れの例を示したフローチャートである。まず、インタフェース部60を介したユーザからの指示により、ノード管理部20が、作成対象の自動分類ノードにおける分類処理に係る各種パラメータ(N、M、X)の値を事前に設定する(S201)。ここで、N、Mは、後述する教師データの学習処理において、学習対象とする単語の足切りを行う際に使用する数値であり、Xは、後述する自動分類処理において、カテゴリにテキスト文書を分類する際に用いる閾値である。これらについては、デフォルト値を定義しておき、ユーザからの指定が特になければデフォルト値を用いるようにするのが望ましい。設定されたパラメータの値は自動分類ノード毎にパラメータ管理74のテーブルに格納する。
次に、インタフェース部60を介したユーザからの指示により、ノード管理部20が、作成対象の自動分類ノードに係るノードの階層構造を作成もしくは変更し(S202)、ノード作成処理を終了する。図7は、ノードの階層構造の例について示した図である。ここでは、インタフェース部60を介してユーザに提示される画面イメージ(の一部)によって示している。図7の例では、図示しない最上位のノード(テキスト文書全体が紐付けられる)の子ノードとして“評価”というタイトルが設定された自動分類ノードが定義されている。
さらに自動分類ノードの子ノードとして“満足”、“普通”、“不満”というタイトルが設定された各カテゴリノード、および“未分類データ”というタイトルの未分類ノードが定義されている。ここで、各カテゴリノードはテキスト文書を分類したいカテゴリ毎にユーザによって定義されたものであり、図7の例では3つのカテゴリノードが定義されているが任意の数のカテゴリノードを定義することができる。なお、未分類ノードはノード管理部20が自動的に生成する。
さらに各カテゴリノードの子ノードとして各カテゴリの教師データが紐付けられる教師ノード、および自動分類されたテキスト文書(分類データ)が紐付けられる分類ノードがそれぞれ定義されている。これらのノードは、ノード管理部20が、各カテゴリノードの子ノードとしてタイトルも含めて自動的に生成する。このように、本実施の形態では、ノードの階層構造の中で分類用のカテゴリを管理しているが、カテゴリの管理手法はこれに限らず、他の任意のデータ構造を用いることができる。
ユーザにより上記のようなノードの階層構造を作成するためのユーザインタフェースは特に限定しないが、例えば、ユーザが自動分類ノードのタイトル(図7では“評価”)と、カテゴリ(図7では“満足”、“普通”、“不満”)を指定することによって、ノード管理部20が図7に示すような階層構造を自動的に作成するなど、簡易なインタフェースとするのが望ましい。なお、図6の例ではステップS201とステップS202の処理を順に行うものとしているが、処理順に制限はなく逆であってもよいし、自動分類ノードの作成とパラメータの設定を同一画面から一括して指定可能とし、同時に処理するようにしてもよい。
自動分類ノードの階層構造を作成した時点で、図2のステップS100で取り込んだテキスト文書は全て初期状態として未分類ノードに自動的に紐付けられるものとする。また、ノードに紐付けられた各テキスト文書およびその内容はインタフェース部60を介して自由に参照できるものとする。
作成された自動分類ノードおよびその階層構造の情報は、ノード管理73のテーブルに格納される。図8は、ノード管理73のデータ構成および具体的なデータの例について示した図である。ノード管理73は、例えば、ノードID、ノード名、親ノードID、ノード種別、テキスト数などの各項目を有する。
ノードIDの項目は、ノード管理部20によって割り振られた各ノードを一意に識別するIDを保持する。ノード名の項目は、ノード管理部20もしくはユーザによって設定された各ノードのノード名(タイトル)の情報を保持する。親ノードIDの項目は、ノードの階層構造における親ノードのノードIDの情報を保持する。ノード種別の項目は、各ノードの種別(自動分類ノード、カテゴリノード、教師ノード、分類ノード、未分類ノード等)を示す情報を保持する。図8の例では文言によって指定しているが、各種別に対応するコード値によって指定してもよい。これら各項目の情報により、作成されたノードおよびその階層構造の情報を保持することができる。テキスト数の項目は、各ノードに紐付けられたテキスト文書の数の情報を保持する。
[手動分類処理フロー]
図9は、図2のステップS300の教師データの作成処理の際に行う手動分類処理の流れの例を示したフローチャートである。まず、未分類ノード(もしくは各カテゴリの分類ノード)に紐付けられた各テキスト文書について、インタフェース部60を介したユーザからの未読/既読の状態更新の指示に基づいて、手動分類部30がテキスト管理71の未読フラグの更新を行う(S301)。これにより、後述する自動分類処理において分類対象を未読のテキスト文書のみに限定することが可能となる。なお、未読のテキスト文書を既読にしたり、既読のテキスト文書を未読に戻したりは自由に行えるようにしておく。
次に、未分類ノード(もしくは各カテゴリの分類ノード)に紐付けられたテキスト文書から、インタフェース部60を介したユーザからの指示に基づいて、各カテゴリについての教師データとなるテキスト文書を各カテゴリの教師ノードに紐付けし(S302)、手動分類処理を終了する。なお、対象のテキスト文書を教師ノードに紐付けて教師データとせずに、分類ノードに直接紐付けて手動で分類することも可能である。
上記処理は、例えば、図7に示したようなノードの階層構造が表示された画面上において対象のテキスト文書を所望の教師ノードにドラッグ&ドロップすることで紐付けるなどの簡易なインタフェースとするのが望ましい。このとき、教師ノードに紐付けられたテキスト文書については、テキスト管理71の所属ノードIDの値を更新し、また、ノード管理73の各ノードのテキスト数の値も更新する。
教師データとして教師ノードに紐付けるテキスト文書の数が多いほど自動分類処理での精度を向上させることができるが、一方で、後述する教師データの学習処理の処理時間や、教師ノードにテキスト文書を紐付ける作業のコストが増加するため、状況に応じて適当な数のテキスト文書を教師データとして指定するようにする。また、図9の例ではステップS301とステップS302の処理を順に行うものとしているが、処理順に制限はなく、各テキスト文書について各処理を順不同で適宜行うことができる。
[学習処理フロー]
図10は、図2のステップS400の教師データの学習処理の流れを示したフローチャートである。ここでは、各カテゴリの教師データとして教師ノードに紐付けられたテキスト文書に含まれる単語に基づいて学習処理を行うことで学習モデルを算出するが、その際にテキスト文書に含まれる全ての単語を学習対象とするのではなく、学習対象の単語を足切りにより最適化することで学習処理の際の処理時間の低減やノイズの除去による精度の向上を可能とする。
まず、学習部40により、出現頻度が少ない単語を足切りにより除外する(S401)。具体的には、単語管理72およびテキスト管理71、ノード管理73を参照して、各カテゴリの教師ノードに紐付けられたテキスト文書中に出現する全単語を抽出し、各単語についての累積の出現頻度を算出して、出現頻度がN件に満たない単語は足切りにより除外する。なお、閾値とするNの値は、図6のステップS201の処理により予めパラメータ管理74に設定されているパラメータNを参照する。
図11は、学習対象の単語を足切りする処理の具体例を示した図である。図11の上段の出現頻度の表では、"alpha"、"bravo"、"charlie"、"delta"、"echo"の各単語が、“満足”、“普通”、“不満”の各カテゴリの教師ノードに紐付けられたテキスト文書中に出現する全単語であることを示しており、各単語および全単語の累積での出現頻度(件数)がカテゴリ毎に集計されている。ここで、閾値とするパラメータNが3(件)であるとすると、各カテゴリの合計の出現頻度が3件に満たない単語"delta"が足切りの対象となる。
図10の処理フローにおいて、次に、学習部40により、ステップS401の足切り処理後の単語について、各カテゴリの教師ノードでの出現頻度の偏りが小さい単語(すなわち、どのカテゴリにも均等に出現し、特定のカテゴリの特徴を表すものではない単語)を足切りにより除外する(S402)。具体的には、ステップS401の足切り処理後の単語について、単語管理72およびテキスト管理71、ノード管理73を参照して、各カテゴリの教師ノードでの出現頻度の偏りの程度を示す偏り係数を算出し、偏り係数の上位M件の単語を残してそれ以下の単語を足切りにより除外する。なお、閾値とするMの値は、図6のステップS201の処理により予めパラメータ管理74に設定されているパラメータMを参照する。
図11の具体例における中段の出現割合の表では、ステップS401の足切り処理後の"alpha"、"bravo"、"charlie"、"echo"の各単語および全単語について、カテゴリ全体での出現頻度に対するカテゴリ毎の出現頻度の割合が集計されている。ここで、本実施の形態では、単語wについての偏り係数K(w)を、例えば以下の式により算出する。
図11には、例として、単語"alpha"についての偏り係数K("alpha")を算出した場合を示している。図11の下段の表は、他の単語についても同様に偏り係数Kを数1に示した式に基づいて算出したものを示している。ここで、閾値とするパラメータMが3(件)であるとすると、偏り係数Kが上位3位までの単語が学習対象となり、4位以下に該当する単語"alpha"が足切りの対象となる。
図10の処理フローにおいて、次に、学習部40により、ステップS401およびS402の足切り処理後の単語について、単語管理72およびテキスト管理71、ノード管理73を参照して、単語毎に各カテゴリに対する尤度係数を算出し(S403)、学習処理を終了する。ここでの尤度係数は、後述する自動分類処理において、各単語を含むテキスト文書がどのカテゴリに分類されるべきかの分類スコアを算出するために用いられる値である。
一般的に、テキスト文書を複数のカテゴリに分類するアルゴリズムとしては、いわゆるNaive Bayes(単純ベイズ法、以下では「NB」と記載する場合がある)もしくはその改良であるComplement Naive Bayes(以下では「CNB」と記載する場合がある)が用いられる。NBでは、教師データに基づいて、対象のテキスト文書が対象のカテゴリに紐付けられる確率をカテゴリ毎に算出し、当該確率の最も高いカテゴリに分類して紐付ける。一方、CNBでは、対象のテキスト文書が対象のカテゴリ以外の他のカテゴリに紐付けられる確率、すなわち、対象のカテゴリに紐付けられない確率をカテゴリ毎に算出し、当該確率の最も低いカテゴリに分類して紐付ける。
本実施の形態では、教師データとなるテキスト文書の数の各カテゴリ間での偏りの影響を受けにくく、多カテゴリでの分類で有効であるCNBを採用して自動分類を行うものとするが、当然ながら他の分類手法を用いてもよい。本実施の形態ではCNBを採用することから、上述した学習モデルとしての各単語の尤度係数は、対象の単語が対象のカテゴリ以外のカテゴリで出現するときの尤度を算出することになる。
図12は、各単語の尤度係数を算出する処理の具体例を示した図である。図12の上段の出現頻度の表では、ステップS401およびS402の足切り処理後の"bravo"、"charlie"、"echo"の各単語および全単語についての、各カテゴリの教師ノードに紐付けられたテキスト文書中の累積での出現頻度(件数)がカテゴリ毎に集計されている。
ここで、本実施の形態では、単語wについてのカテゴリCに対するCNBに基づく尤度係数、すなわち、単語wがカテゴリCに紐付けられない確率P(w|C〜)を、例えば以下の式により算出する。
ここで、ゼロ頻度補正係数Zは、カテゴリCの教師ノードに紐付けられたテキスト文書において単語wの出現頻度w(C)がゼロであった場合にも適切な係数が算出可能となるよう補正する係数であり、例えば文書分類システム1にて予めZ=0.5などの値を設定しておく。
図12には、例として、単語"bravo"についてのカテゴリ“満足”に対する尤度係数P("bravo"|“満足”〜)を算出した場合を示している。図12の下段の表は、他の単語についても同様に尤度係数Pを数2に示した式に基づいてカテゴリ毎に算出したものを示している。算出した尤度係数Pは、学習モデルとして学習モデル管理75のテーブルに単語毎・カテゴリ毎に格納される。図13は、学習モデル管理75のデータ構成および具体的なデータの例について示した図である。
学習モデル管理75は、例えば、ノードID、単語、品詞、尤度係数などの各項目を有する。ノードIDおよび単語の項目は、対象の単語が含まれるテキスト文書が紐付けられているノード(教師ノード)のノードIDの情報および対象の単語の情報を保持する。これらの項目により尤度係数の算出対象である単語およびカテゴリ(教師ノード)を特定することができる。品詞の項目は、対象の単語について形態素解析・構文解析により得られた品詞の情報を保持する。これは図5に示した単語管理72の品詞の情報と同じである。尤度係数の項目は、対象の単語についてその属するカテゴリに対して算出された尤度係数の値を学習モデルとして保持する。なお、尤度係数の値については、後述する自動分類処理における計算の便宜のため、対数化した値を保持するようにしてもよい。
[自動分類処理フロー]
図14は、図2のステップS500の自動分類処理の流れを示したフローチャートである。ここでは、インタフェース部60を介したユーザからの自動分類実行の指示をトリガとして、分類対象の各テキスト文書について、自動分類部50が、テキストに含まれる単語と学習モデル管理75に保持する学習データ(尤度係数)に基づいて、CNBにより分類すべきカテゴリを判定し、対象のカテゴリの分類ノードにテキスト文書を紐付ける。
まず、ユーザから指定された分類対象とするテキスト文書についての指定内容を判定する(S501)。ここでは、未分類ノード(もしくは各カテゴリの分類ノード)に紐付けられた分類対象のテキスト文書のうち、未読のテキスト文書(図4に示したテキスト管理71で未読フラグが立っているもの)のみを対象とするか、全てのテキスト文書を対象とするかをユーザが予めもしくは自動分類実行の指示の際に指定可能とする。このユーザからの指定内容に応じて分類対象のテキスト文書を選択する(S502、S503)。
次に、テキスト管理71内の分類対象として選択された各テキスト文書について処理を行うループ処理を開始する。ループ処理では、まず、対象のテキスト文書について、単語管理72、ノード管理73の情報、および学習モデル管理75の情報を参照して、テキスト文書に含まれる単語、および学習データ(各単語についての尤度係数P)に基づいて、CNBにより各カテゴリに対する分類スコアを算出する(S504)。ここでの分類スコアは、対象のテキスト文書が対象のカテゴリに分類されるべき尤度に該当する。次に、ステップS504で算出したカテゴリ毎の分類スコアについて、上位の2つのカテゴリ間の差分値から優位度を算出し、さらに、各単語について、上位の2つのカテゴリ間での尤度係数の差分に基づいて単語毎優位度を算出する(S505)。
図15は、テキスト文書についてカテゴリ毎に分類スコアを算出して分類する処理の具体例を示した図である。図15の上段左には、分類対象のテキスト文書の例と、当該テキスト文書に対して言語処理部10にて言語処理を行った結果の単語管理72に保持されたデータの例を示している。また、上段右には、当該テキスト文書を分類するための学習データの内容を示している。学習データとしては、教師データとして“満足”、“普通”、“不満”の各カテゴリの教師ノードに紐付けられたテキスト文書のそれぞれの件数と、これらの教師データから図10に示した学習処理により算出され、学習モデル管理75に格納された学習モデル(尤度係数)の情報を用いる。学習モデルとして採用する単語は、図10に示した学習処理における足切り処理の結果、"bravo"、"charlie"、"echo"の3つの単語となっている。
ここで、本実施の形態では、分類対象のテキスト文書についてのカテゴリCに対する分類スコアS(C)、すなわち、対象のテキスト文書がカテゴリCに分類されるべき尤度を、例えば以下の式により算出する。
ここでは、桁あふれに対応するため、対数化した値の加減算によって分類スコアS(C)を算出するようにしている。数3に示した式では、各単語wの尤度係数P(w|C〜)が、単語wがカテゴリCに紐付けられない確率を示していることから、各単語wのP(w|C〜)の値が小さいほどS(C)の値は大きくなる。
図15の中段には、例として、カテゴリ“満足”に対する分類スコアS(“満足”)を算出した場合を示している。ここでは、対象テキストに含まれる単語のうち、"foxtrot"については学習モデルとして採用する単語に含まれていないため計算上は無視し、学習モデルとして採用する単語に含まれる"bravo"、"charlie"、"echo"についての尤度係数Pのみを使用する。図15の下段の分類スコアの表は、他のカテゴリ(“普通”、“不満”)についても同様に分類スコアSを数3に示した式に基づいて算出したものを示している。
ここで、分類スコアSが上位の2つのカテゴリは“満足”と“不満”である。本実施の形態では、これらの分類スコアSの差分値を優位度Qとして算出する。すなわち、優位度Qはカテゴリ“満足”とカテゴリ“不満”の分類スコアSの差分値である1.17537である。
また、分類スコアSの算出に用いたテキスト文書中の各単語"bravo"、"charlie"、"echo"、"charlie"、"echo"について、単語毎優位度Rを例えば以下の式により算出する。
単語毎優位度Rは、優位度Qの値を大きくするための単語毎の貢献の程度(優位度Qの内訳)を示すものであり、値が大きいほど優位度Qの値を大きくするのに貢献した単語であることを示す。また、単語毎優位度Rが正の値となるときは、当該単語は分類スコアSが最上位のカテゴリにおいて優位性があり、負の値となるときは分類スコアが第2位のカテゴリにおいて優位性があることを示す。図15の下段の単語毎優位度の表は、分類スコアSの算出に用いたテキスト文書中の各単語"bravo"、"charlie"、"echo"、"charlie"、"echo"について、単語毎優位度Rの値を数4に示した式に基づいて算出したものを示している。
図14の処理フローにおいて、次に、ステップS505で算出した優位度Qの値が閾値X以上であるか否かを判定する(S506)。なお、閾値Xの値は、図6のステップS201の処理により予めパラメータ管理74に設定されているパラメータXを参照する。優位度Qが閾値X以上である場合は、ステップS504で算出した分類スコアSが最上位のカテゴリの分類ノードに対象のテキスト文書を分類して紐付ける(S507)。一方、ステップS506において、優位度Qが閾値X未満である場合は、明確な分類ができないものとして未分類ノードにテキスト文書を紐付ける(S508)。
図15の具体例では、優位度Qは1.17537である。ここで、閾値とするパラメータXが1.0であるとすると、優位度Qは1.0以上であるため、対象のテキスト文書は、分類スコアSが最上位のカテゴリである“満足”に分類されることになる。なお、ステップS507およびS508では、テキスト文書を対象のノードに紐付けた結果に基づいてテキスト管理71の所属ノードIDの値を更新し、また、ノード管理73の各ノードのテキスト数の値も更新する。ステップS507もしくはステップS508の後、次のテキスト文書の処理に移り、分類対象の全てのテキスト文書について処理が終了した場合は自動分類処理を終了する。
自動分類処理によって各カテゴリの分類ノード、もしくは未分類ノードに分類されて紐付けられたテキスト文書の情報は、インタフェース部60を介してユーザに提示される。このとき、例えば、カテゴリ毎のテキスト文書をリスト形式で表示したり、件数を表形式やグラフ等で表示したりしてもよい。さらに、ユーザがノードに紐付けられた任意のテキスト文書を選択することで、テキスト文書の内容に加えて、対象のテキスト文書におけるカテゴリ毎の分類スコアSの値や、テキスト文書に含まれる各単語の単語毎優位度Rを単語毎に合算した値を表形式やグラフ等によりユーザに提示するようにしてもよい。
図16は、自動分類処理によるテキスト文書の分類結果をユーザに提示する画面の例を示した図である。画面の(1)の領域にはノードの階層構造が示されており、各ノードのタイトルの末尾に自動分類処理の結果紐付けられたテキスト文書の件数が表示されている。ここで、カテゴリ“満足”の分類データのノード(“[満足]分類データ”)をユーザが選択した状態が(2)〜(5)の領域に示されている。
(2)の領域には、カテゴリ“満足”の分類データのノードに分類されて紐付けられたテキスト文書のリストが表示されている。リストは例えば各テキスト文書の優位度Qの値の順に表示する。また、各テキスト文書の未読/既読の状態も合わせて表示する。このリストにおいてユーザが特定のテキスト文書を選択した状態が(3)〜(5)の領域に示されている。
(3)の領域には、選択されたテキスト文書の属性(例えば入力された日付や入力者の属性など)が表示されている。また、(4)の領域には、選択されたテキスト文書の全内容が表示されている。また、(5)の領域には、選択されたテキスト文書におけるカテゴリ毎の分類スコアSの値を示したグラフと、選択されたテキスト文書に含まれる各単語の単語毎優位度Rを示した表が表示されている。
これらの情報を参照することにより、ユーザは、テキスト文書の分類状況や、対象のテキスト文書がどのような理由(分類スコアSや優位度Q、単語毎優位度R等の計算結果)に基づいて対象のカテゴリに分類されたのか等を把握することができる。また、これに基づいて、誤った分類がされたテキスト文書を容易に特定し、(2)の領域のリストから(1)の領域のノードにドラッグ&ドロップする等の処理によって、正しいカテゴリの分類ノードに紐付けを補正することができる。
また、同様に、新たに教師データとして教師ノードに紐付けるテキスト文書を追加したり、既に教師データとして教師ノードに紐付けられているテキスト文書を分類ノードに紐付けし直して教師データから除外したりすることによって教師データを補正し、再度図2のステップS400以降の処理を繰り返すことで、効率的に学習モデルの精度を高め、自動分類の精度を漸次向上させることができる。
以上に説明したように、本実施の形態の文書分類システム1によれば、ユーザが設定した分類用の各カテゴリに対して教師データとなるテキスト文書を指定し、教師データに基づいて分類ルールとなる学習モデルを算出し、当該学習モデルに基づいてテキスト文書を自動分類することで、ユーザによる事前のキーワード等の指定に係る工数を要さず半自動的にテキスト文書を対象のカテゴリに分類することができる。
また、分類結果とともに分類結果が得られた理由としてカテゴリ毎の分類スコアSや優位度Q、単語毎優位度R等をユーザに提示することが可能であるため、対象のテキスト文書が対象のカテゴリに分類された理由がユーザに容易に理解可能であるとともに、これに基づいて教師データの指定をより適切なものに更新して分類精度を漸次向上させることが可能となる。
<実施の形態2>
以下では本発明の実施の形態2である文書分類システムについて説明する。本発明の実施の形態2である文書分類システムは、上述した実施の形態1の文書分類システム1の機能に加えて、さらに自動分類処理における分類精度を向上させる機能を有するものである。
図17は 本実施の形態における、図2のステップS500の自動分類処理の流れを示したフローチャートである。図17に示した処理フローでは、実施の形態1の図14に示した処理フローに対して、分類スコアSを算出するステップS504の前に、単語毎の重み付け値を算出するステップS509が追加されている。
本実施の形態では、ステップS504において分類対象のテキスト文書のカテゴリ毎の分類スコアSを算出する際に、テキスト文書内の各単語について学習モデル管理75に保持する各単語の尤度係数Pを単に適用するのではなく、ステップS509においてテキスト文書内の各単語の属性に応じて種々の重み付けを行って重み付け値を算出し、この重み付け値を利用して分類スコアSを算出する。これにより、テキスト文書における要点を表す可能性の高い単語に重み付けすることができ、よりテキスト文書の内容に即した分類スコアSを算出することが可能となる。
例えば、分類対象のテキスト文書群が新聞記事やニュースなどの場合は、テキスト文書の前半部分が要点となる可能性が高く、また、テキスト文書中の名詞がカテゴリへの分類に与える影響が大きい傾向があるため、テキスト文書の前半の文に出現する単語、特に名詞に対して重み付けすることにより、テキスト文書の分類の精度を向上させることができると考えられる。一方、コールログなどの報告文書の場合は、テキスト文書の中盤から後半に要点が出現する傾向が高いため、中盤から後半にかけての文に出現する単語に重み付けする。また、例えば、分類するカテゴリが商品のイメージや評判などに基づくものである場合は、形容詞に重み付けすることにより分類の精度を向上させることができると考えられる。
このように、テキスト文書の特性や、分類するカテゴリの特性に基づいて、テキスト文書中の単語毎にその属性(品詞や出現場所など)に応じて重み付けするための重み付け値を算出する。なお、このような重み付けを行うためには、テキスト文書群が、要点の出現場所などの特性において上述したような一定の規則性を有していることが前提となる。
図17のステップS509では、単語管理72を参照して、分類対象のテキスト文書中に出現する単語wについての重み付け値Wt(w)を、単語wの属性(本実施の形態では品詞、および単語の出現場所の属性として単語管理72における文番号および文中順序の項目)毎の重み付け係数Lによって、例えば以下の式により算出する。
なお、属性による重み付け係数Lの種類は数5に示したものに限らず、他の属性による重み付け係数を用いてもよいし、数5に示したものの一部を用いないとすることもできる。
ここで、品詞による重み付け係数は、例えば、品詞毎に、重要度の高い品詞が大きい値となるように予め設定しておく。例えば、重み付けしない場合には1を設定し、重要度が高い品詞の場合には1より大きい値を設定する。また、1より小さい値(負数であってもよい)を設定することにより、当該品詞が含まれるテキスト文書の分類スコアを下げるようにしてもよい。
また、単語の出現場所の属性に基づく重み付け係数としての、文番号(対象の単語が含まれる文のテキスト文書中における位置)による重み付け係数、および文中順序(対象の単語の文中における位置)による重み付け係数は、単語管理72の情報を用いて、それぞれ例えば以下の式により算出する。
ここで、文番号重み付け設定値LSおよび文中順序重み付け設定値LWは、対象の単語のテキスト全体における出現場所および文中での出現場所がテキスト文書の要点と関連する程度(重要度)に応じて、重要度が高い場合に大きい値となるよう予め設定しておく。例えば、重み付けしない場合には零を設定し、出現場所が後方であるほど重要度が高い場合には正数を設定する。また、出現場所が前方であるほど重要度が高い場合は負数を設定する。LS、LWはともに指数のパラメータであるため、大きい値を設定するほど指数関数的に重み付け係数および重み付け値に傾斜がかかることになる。
上述した品詞による重み付け係数や、文番号・文中順序の重み付け設定値(LS、LW)など、予め設定しておくパラメータ値については、分類対象のテキスト文書群についての分類の正解データがある場合には、これらを用いていわゆる最尤推定法などにより最適値を算出することができる。なお、これらの値は、例えばパラメータ管理74に他のパラメータと合わせて保持しておくことができる。
図18は、各単語の重み付け値を算出する処理の具体例を示した図である。図18には、
分類対象のテキスト文書の例、およびこれに対して言語処理部10にて言語処理を行った結果の単語管理72に保持されたデータの例を示している。ここで、予め設定された値として、品詞による重み付け係数が、名詞:1.2、動詞:1.0、形容詞:0.8、副詞:0.5であり、文番号・文中順序の重み付け設定値がそれぞれLS=1.2、LW=0.5であった場合に、テキスト文書中で最初に出現する単語"bravo"についての重み付け値Wt("bravo")を数5〜数7に示した式に基づいて算出した場合を示している。
対象のテキスト文書中の他の単語についても同様に数5〜数7に示した式に基づいて重み付け値を算出する。本実施の形態では、算出したこれらの値を単語管理72に保持する。図19は、本実施の形態における単語管理72のデータ構成および具体的なデータの例について示した図である。単語管理72は、実施の形態1の図5に示した各項目に加えて重み付け値の項目を有し、各単語について算出された重み付け値Wtを保持する。
図20は、本実施の形態における、テキスト文書についてカテゴリ毎に分類スコアを算出して分類する処理の具体例を示した図である。図20の上段左には、分類対象のテキスト文書の例と、当該テキスト文書に対して言語処理部10にて言語処理を行った結果の単語管理72に保持されたデータの例を示している。また、上段右には、当該テキスト文書を分類するための学習データの内容を示している。学習データの内容は、実施の形態1の図15に示した例と同様である。
ここで、本実施の形態では、図17のステップS504において、分類対象のテキスト文書についてのカテゴリCに対する分類スコアS(C)を、実施の形態1の数3に示した式において、尤度係数Pに対して重み付け係数Wtによって重み付けすることで、例えば以下の式により算出する。
ここでは、尤度係数Pを対数化していることから、尤度係数Pを重み付け係数Wtによってべき乗することで重み付けしている。
図20の中段には、例として、カテゴリ“満足”に対する分類スコアS(“満足”)を算出した場合を示している。ここでは、実施の形態1の図15と同様に、対象テキストに含まれる単語のうち、"foxtrot"については学習モデルとして採用する単語に含まれていないため計算上は無視し、学習モデルとして採用する単語に含まれる"bravo"、"charlie"、"echo"についての尤度係数Pおよび重み付け値Wtのみを使用する。図20の下段の分類スコアの表は、他のカテゴリ(“普通”、“不満”)についても同様に分類スコアSを数8に示した式に基づいて算出したものを示している。
ここで、分類スコアSが上位の2つのカテゴリは、実施の形態1の図15と同様に“満足”と“不満”であり、優位度Qはカテゴリ“満足”とカテゴリ“不満”の分類スコアSの差分値である0.9944である。ここで、閾値とするパラメータXが1.0であるとすると、実施の形態1の場合と異なり、優位度Qは1.0未満となるため、対象のテキスト文書は明確な分類ができないものとして未分類ノードに紐付けられる。このように、重み付けを行って分類の精度を向上させることで分類先のカテゴリの判定が変わる場合がある(未分類となるテキスト文書が生じる場合もある)。
また、図17のステップS505において、実施の形態1と同様に、分類スコアSの算出に用いたテキスト文書中の各単語"bravo"、"charlie"、"echo"、"charlie"、"echo"について、単語毎優位度Rを例えば以下の式により算出する。
本実施の形態では、実施の形態1と異なり、各単語の品詞や出現場所などの属性によって重み付け値Wtが異なるため、同一単語であっても単語毎優位度Rは異なる値となる場合がある。
上記の自動分類処理によって各カテゴリの分類ノード、もしくは未分類ノードに分類されて紐付けられたテキスト文書の情報をインタフェース部60を介してユーザに提示する際に、ユーザがノードに紐付けられた任意のテキスト文書を選択することで、対象のテキスト文書におけるカテゴリ毎の分類スコアSの値や、テキスト文書に含まれる各単語の単語毎優位度Rの値、もしくはこれを単語毎に合算したものを表形式やグラフ等によりユーザに提示するようにしてもよい。
以上に説明したように、本実施の形態の文書分類システム2によれば、自動分類処理において分類対象のテキスト文書のカテゴリ毎の分類スコアSを算出する際に、テキスト文書内の各単語について学習モデル管理75に保持する各単語の尤度係数Pを単に適用するのではなく、テキスト文書内の各単語の属性に応じて種々の重み付けを行って分類スコアSを算出する。これにより、テキスト文書における要点を表す可能性の高い単語に重み付けすることができ、よりテキスト文書の内容に即した分類スコアSを算出することが可能となるため、自動分類の精度をより向上させることができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、実施の形態1、2において示した各種データベースやテーブル等の構成およびデータ項目、表示画面、分類スコアS等を算出するための数1〜数9に示した各種数式等はあくまでも一例であり、上述したものに限らず、実装上の制約や必要とする精度・処理速度その他の要件に応じて適宜変更することが可能である。
本発明は、テキスト文書を内容に応じて分類する文書分類システムおよび文書分類プログラムならびに文書分類方法に利用可能である。
1…文書分類システム、
10…言語処理部、20…ノード管理部、30…手動分類部、40…学習部、50…自動分類部、60…インタフェース部、
71…テキスト管理、72…単語管理、73…ノード管理、74…パラメータ管理、75…学習モデル管理。

Claims (11)

  1. テキスト文書群を取り込み、取り込んだ前記各テキスト文書を内容に応じて予めユーザが設定した複数の分類用のカテゴリに分類する文書分類システムであって、
    前記各テキスト文書に対して言語処理を行って、前記各テキスト文書を単語に分解する言語処理部と、
    前記ユーザからの指示に基づいて、前記各テキスト文書を前記各カテゴリに分類する際の学習モデルを得るための教師データとする前記テキスト文書を指定する手動分類部と、
    前記教師データとして指定した前記テキスト文書に基づいて、機械学習により単語毎に前記学習モデルを算出する学習部と、
    前記学習モデルと、分類対象の前記テキスト文書に含まれる各単語に基づいて、分類対象の前記テキスト文書について、前記カテゴリ毎に、分類対象の前記テキスト文書が前記カテゴリに分類されるべき尤度である分類スコアを算出し、前記分類スコアが最大となる前記カテゴリに分類対象の前記テキスト文書を分類する自動分類部と、
    前記自動分類部による前記各テキスト文書の前記各カテゴリへの分類結果、および前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示するインタフェース部とを有することを特徴とする文書分類システム。
  2. 請求項1に記載の文書分類システムにおいて、
    前記自動分類部は、分類対象の前記テキストを前記分類スコアが最大となる前記カテゴリに分類する際に、前記分類スコアが上位の二つの前記カテゴリ間での前記分類スコアの差分値を優位度として算出し、前記優位度が所定の閾値以上の場合は前記分類スコアが最大となる前記カテゴリに分類し、前記優位度が前記閾値未満の場合は未分類とすることを特徴とする文書分類システム。
  3. 請求項2に記載の文書分類システムにおいて、
    前記インタフェース部は、前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示する際に、さらに、前記各テキスト文書の前記優位度についての、前記各テキスト文書に含まれる単語毎の内訳を前記ユーザに提示することを特徴とする文書分類システム。
  4. 請求項1〜3のいずれか1項に記載の文書分類システムにおいて、
    前記学習部は、前記教師データとして指定された前記テキスト文書に含まれる各単語について、前記各単語を含む前記テキスト文書がいずれの前記カテゴリに分類されるべきかを判定するための尤度を、前記教師データとして指定された前記テキスト文書に含まれる前記各単語の前記カテゴリ毎の出現状況に基づいて算出して、前記学習モデルとすることを特徴とする文書分類システム。
  5. 請求項4に記載の文書分類システムにおいて、
    前記学習部は、前記学習モデルを算出する際に、前記教師データとして指定された前記テキスト文書に含まれる各単語について、前記カテゴリ全体での累積での出現頻度が所定の基準より低いもの、および/または、前記カテゴリ間での出現頻度の偏りが所定の基準より小さいものを除外することを特徴とする文書分類システム。
  6. 請求項4または5に記載の文書分類システムにおいて、
    前記学習部は、前記学習モデルにおける、前記各単語を含む前記テキスト文書がいずれの前記カテゴリに分類されるべきかを判定するための尤度を、対象の前記カテゴリ以外の他の前記カテゴリに分類されるべき尤度として算出することを特徴とする文書分類システム。
  7. 請求項1〜6のいずれか1項に記載の文書分類システムにおいて、
    前記自動分類部は、分類対象の前記テキスト文書についての前記カテゴリ毎の前記分類スコアを算出する際に、分類対象の前記テキスト文書に含まれる各単語の属性に応じて重み付けを行って算出することを特徴とする文書分類システム。
  8. 請求項7に記載の文書分類システムにおいて、
    前記自動分類部は、分類対象の前記テキスト文書についての前記カテゴリ毎の前記分類スコアを算出する際に、分類対象の前記テキスト文書に含まれる各単語の品詞に応じて重み付けを行って算出することを特徴とする文書分類システム。
  9. 請求項7または8に記載の文書分類システムにおいて、
    前記自動分類部は、分類対象の前記テキスト文書についての前記カテゴリ毎の前記分類スコアを算出する際に、分類対象の前記テキスト文書に含まれる各単語の文中および/または分類対象の前記テキスト文書中における出現位置に応じて重み付けを行って算出することを特徴とする文書分類システム。
  10. テキスト文書群を取り込み、取り込んだ前記各テキスト文書を内容に応じて予めユーザが設定した複数の分類用のカテゴリに分類する文書分類システムとしてコンピュータを機能させる文書分類プログラムであって、
    前記各テキスト文書に対して言語処理を行って、前記各テキスト文書を単語に分解する言語処理部と、
    前記ユーザからの指示に基づいて、前記各テキスト文書を前記各カテゴリに分類する際の学習モデルを得るための教師データとする前記テキスト文書を指定する手動分類部と、
    前記教師データとして指定した前記テキスト文書に基づいて、機械学習により単語毎に前記学習モデルを算出する学習部と、
    前記学習モデルと、分類対象の前記テキスト文書に含まれる各単語に基づいて、前記カテゴリ毎に、分類対象の前記テキスト文書が前記カテゴリに分類されるべき尤度である分類スコアを算出し、前記分類スコアが最大となる前記カテゴリに分類対象の前記テキスト文書を分類する自動分類部と、
    前記自動分類部による前記各テキスト文書の前記各カテゴリへの分類結果、および前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示するインタフェース部とを有することを特徴とする文書分類プログラム。
  11. コンピュータシステムにより、テキスト文書群を取り込み、取り込んだ前記各テキスト文書を内容に応じて予めユーザが設定した複数の分類用のカテゴリに分類する文書分類方法であって、
    前記コンピュータシステムが、
    前記テキスト文書群を取り込み、前記各テキスト文書に対して言語処理を行って、前記各テキスト文書を単語に分解する第1ステップと、
    前記ユーザからの指示に基づいて、分類用の前記カテゴリを作成する第2ステップと、
    前記ユーザからの指示に基づいて、前記各テキスト文書を前記各カテゴリに分類する際の学習モデルを得るための教師データとする前記テキスト文書を指定する第3ステップと、
    前記教師データとして指定した前記テキスト文書に基づいて、機械学習により単語毎に前記学習モデルを算出する第4ステップと、
    前記学習モデルと、分類対象の前記テキスト文書に含まれる各単語に基づいて、前記カテゴリ毎に、分類対象の前記テキスト文書が前記カテゴリに分類されるべき尤度である分類スコアを算出し、前記分類スコアが最大となる前記カテゴリに分類対象の前記テキスト文書を分類する第5ステップと、
    前記自動分類部による前記各テキスト文書の前記各カテゴリへの分類結果、および前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示する第6ステップと、
    前記ユーザに提示した前記分類結果および前記分類スコアの情報に基づく前記ユーザからの指示に基づいて、前記教師データとする前記テキスト文書の指定を補正する第7ステップとを実行し、
    さらに前記第4ステップから前記第7ステップの処理を繰り返し実行することを特徴とする文書分類方法。
JP2010036402A 2010-02-22 2010-02-22 文書分類システムおよび文書分類プログラムならびに文書分類方法 Active JP5346841B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010036402A JP5346841B2 (ja) 2010-02-22 2010-02-22 文書分類システムおよび文書分類プログラムならびに文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010036402A JP5346841B2 (ja) 2010-02-22 2010-02-22 文書分類システムおよび文書分類プログラムならびに文書分類方法

Publications (2)

Publication Number Publication Date
JP2011170786A true JP2011170786A (ja) 2011-09-01
JP5346841B2 JP5346841B2 (ja) 2013-11-20

Family

ID=44684816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010036402A Active JP5346841B2 (ja) 2010-02-22 2010-02-22 文書分類システムおよび文書分類プログラムならびに文書分類方法

Country Status (1)

Country Link
JP (1) JP5346841B2 (ja)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061744A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN103473262A (zh) * 2013-07-17 2013-12-25 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法
JP2014056516A (ja) * 2012-09-13 2014-03-27 Canon Marketing Japan Inc 文書集合からの知識構造の抽出装置、方法、およびプログラム
JP5572252B1 (ja) * 2013-09-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法およびデジタル情報分析プログラム
JP2014167835A (ja) * 2014-06-18 2014-09-11 Ubic:Kk 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2014211870A (ja) * 2013-04-19 2014-11-13 パロ・アルト・リサーチ・センター・インコーポレーテッドPaloAlto ResearchCenterIncorporated ビジュアル検索の構築、文書のトリアージおよびカバレッジの追跡
JP2015032321A (ja) * 2014-08-21 2015-02-16 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015172952A (ja) * 2015-05-07 2015-10-01 株式会社Ubic 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2016012195A (ja) * 2014-06-27 2016-01-21 Kddi株式会社 原因推定装置、プログラムおよび原因推定方法
JP2016027510A (ja) * 2015-11-19 2016-02-18 株式会社Ubic 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
WO2016063403A1 (ja) * 2014-10-23 2016-04-28 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JP5942052B1 (ja) * 2014-12-26 2016-06-29 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
US9552570B2 (en) 2012-02-29 2017-01-24 Ubic, Inc. Document classification system, document classification method, and document classification program
JPWO2016147276A1 (ja) * 2015-03-13 2017-04-27 株式会社Ubic データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
CN106919551A (zh) * 2015-12-28 2017-07-04 株式会社理光 一种情感词极性的分析方法、装置及设备
JP2017151933A (ja) * 2016-02-26 2017-08-31 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ分類装置、データ分類方法、及びプログラム
JP2017531243A (ja) * 2014-08-18 2017-10-19 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 取り込みコンテンツに関連するコンテンツ構造化ノードの階層ビューを表示して取り込みコンテンツの構造化識別子を決定するシステム及び方法
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置
JP2017535000A (ja) * 2014-11-19 2017-11-24 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 文書内の潜在的重要事実を自動識別するシステム及び方法
WO2018003115A1 (ja) * 2016-07-01 2018-01-04 株式会社日立製作所 分析支援装置、分析支援方法、および分析支援プログラム
KR102011870B1 (ko) * 2018-10-29 2019-08-20 박혁재 동영상 기반 구인구직 매칭 서버 및 방법
JP2020013521A (ja) * 2018-07-20 2020-01-23 カーベーセー グループ エンフェーKBC Groep NV 改善された要求ハンドリング
WO2020028109A1 (en) * 2018-08-03 2020-02-06 Intuit Inc. Automated document extraction and classification
JP2020091857A (ja) * 2018-12-03 2020-06-11 富士通株式会社 電子文書の分類
JP2020113035A (ja) * 2019-01-11 2020-07-27 株式会社東芝 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
CN112632286A (zh) * 2020-09-21 2021-04-09 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN112711940A (zh) * 2019-10-08 2021-04-27 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
JP2021157282A (ja) * 2020-03-25 2021-10-07 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP2021189889A (ja) * 2020-06-02 2021-12-13 Kddi株式会社 評価装置、評価方法及び評価プログラム
CN116737935A (zh) * 2023-06-20 2023-09-12 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
US11972490B2 (en) 2018-07-20 2024-04-30 Kbc Groep Nv Determining a category of a request by word vector representation of a natural language text string with a similarity value
JP7484141B2 (ja) 2018-12-03 2024-05-16 富士通株式会社 電子文書の分類

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250100A (ja) * 1998-02-27 1999-09-17 Nec Corp 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
JP2003141129A (ja) * 2001-11-07 2003-05-16 Just Syst Corp 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007025868A (ja) * 2005-07-13 2007-02-01 Fujitsu Ltd カテゴリ設定支援方法及び装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2009098809A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 技術文献分類システム
JP2009129279A (ja) * 2007-11-26 2009-06-11 Yahoo Japan Corp 機械学習装置及び機械学習方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250100A (ja) * 1998-02-27 1999-09-17 Nec Corp 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
JP2003141129A (ja) * 2001-11-07 2003-05-16 Just Syst Corp 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007025868A (ja) * 2005-07-13 2007-02-01 Fujitsu Ltd カテゴリ設定支援方法及び装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2009098809A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 技術文献分類システム
JP2009129279A (ja) * 2007-11-26 2009-06-11 Yahoo Japan Corp 機械学習装置及び機械学習方法

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061744A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
US10445357B2 (en) 2012-02-29 2019-10-15 Fronteo, Inc. Document classification system, document classification method, and document classification program
US9552570B2 (en) 2012-02-29 2017-01-24 Ubic, Inc. Document classification system, document classification method, and document classification program
JP2014056516A (ja) * 2012-09-13 2014-03-27 Canon Marketing Japan Inc 文書集合からの知識構造の抽出装置、方法、およびプログラム
JP2014211870A (ja) * 2013-04-19 2014-11-13 パロ・アルト・リサーチ・センター・インコーポレーテッドPaloAlto ResearchCenterIncorporated ビジュアル検索の構築、文書のトリアージおよびカバレッジの追跡
CN103473262A (zh) * 2013-07-17 2013-12-25 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法
KR101780807B1 (ko) 2013-07-31 2017-10-10 가부시키가이샤 프론테오 문서 분별 시스템과 문서 분별 방법 및 문서 분별 프로그램
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2015015826A1 (ja) * 2013-07-31 2015-02-05 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5572252B1 (ja) * 2013-09-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法およびデジタル情報分析プログラム
WO2015037263A1 (ja) * 2013-09-11 2015-03-19 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法およびデジタル情報分析プログラム
JP2014167835A (ja) * 2014-06-18 2014-09-11 Ubic:Kk 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2016012195A (ja) * 2014-06-27 2016-01-21 Kddi株式会社 原因推定装置、プログラムおよび原因推定方法
JP2017531243A (ja) * 2014-08-18 2017-10-19 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 取り込みコンテンツに関連するコンテンツ構造化ノードの階層ビューを表示して取り込みコンテンツの構造化識別子を決定するシステム及び方法
JP2015032321A (ja) * 2014-08-21 2015-02-16 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2016063403A1 (ja) * 2014-10-23 2016-04-28 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JP6043460B2 (ja) * 2014-10-23 2016-12-14 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JPWO2016063403A1 (ja) * 2014-10-23 2017-04-27 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JP2017535000A (ja) * 2014-11-19 2017-11-24 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 文書内の潜在的重要事実を自動識別するシステム及び方法
JP5942052B1 (ja) * 2014-12-26 2016-06-29 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
WO2016103519A1 (ja) * 2014-12-26 2016-06-30 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JPWO2016147276A1 (ja) * 2015-03-13 2017-04-27 株式会社Ubic データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
JP2015172952A (ja) * 2015-05-07 2015-10-01 株式会社Ubic 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置
JP2016027510A (ja) * 2015-11-19 2016-02-18 株式会社Ubic 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
CN106919551A (zh) * 2015-12-28 2017-07-04 株式会社理光 一种情感词极性的分析方法、装置及设备
JP2017120634A (ja) * 2015-12-28 2017-07-06 株式会社リコー 情感語極性の分析方法及び装置
CN106919551B (zh) * 2015-12-28 2020-08-18 株式会社理光 一种情感词极性的分析方法、装置及设备
JP2017151933A (ja) * 2016-02-26 2017-08-31 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ分類装置、データ分類方法、及びプログラム
JPWO2018003115A1 (ja) * 2016-07-01 2018-07-05 株式会社日立製作所 分析支援装置、分析支援方法、および分析支援プログラム
WO2018003115A1 (ja) * 2016-07-01 2018-01-04 株式会社日立製作所 分析支援装置、分析支援方法、および分析支援プログラム
JP7206072B2 (ja) 2018-07-20 2023-01-17 カーベーセー グループ エンフェー 改善された要求ハンドリング
JP2020013521A (ja) * 2018-07-20 2020-01-23 カーベーセー グループ エンフェーKBC Groep NV 改善された要求ハンドリング
US11972490B2 (en) 2018-07-20 2024-04-30 Kbc Groep Nv Determining a category of a request by word vector representation of a natural language text string with a similarity value
WO2020028109A1 (en) * 2018-08-03 2020-02-06 Intuit Inc. Automated document extraction and classification
KR102011870B1 (ko) * 2018-10-29 2019-08-20 박혁재 동영상 기반 구인구직 매칭 서버 및 방법
JP2020091857A (ja) * 2018-12-03 2020-06-11 富士通株式会社 電子文書の分類
JP7484141B2 (ja) 2018-12-03 2024-05-16 富士通株式会社 電子文書の分類
JP2020113035A (ja) * 2019-01-11 2020-07-27 株式会社東芝 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
CN112711940A (zh) * 2019-10-08 2021-04-27 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
JP7364512B2 (ja) 2020-03-25 2023-10-18 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP2021157282A (ja) * 2020-03-25 2021-10-07 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP2021189889A (ja) * 2020-06-02 2021-12-13 Kddi株式会社 評価装置、評価方法及び評価プログラム
JP7282715B2 (ja) 2020-06-02 2023-05-29 Kddi株式会社 評価装置、評価方法及び評価プログラム
CN112632286A (zh) * 2020-09-21 2021-04-09 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN116737935A (zh) * 2023-06-20 2023-09-12 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
CN116737935B (zh) * 2023-06-20 2024-05-03 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质

Also Published As

Publication number Publication date
JP5346841B2 (ja) 2013-11-20

Similar Documents

Publication Publication Date Title
JP5346841B2 (ja) 文書分類システムおよび文書分類プログラムならびに文書分類方法
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
JP3571408B2 (ja) 文書加工方法および装置
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
US7870141B2 (en) Method and system for finding a focus of a document
US20160328467A1 (en) Natural language question answering method and apparatus
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN109844742B (zh) 分析系统
WO2016162879A1 (en) Text mining system and tool
MX2009000591A (es) Clasificacion temporal de resultados de busqueda.
US10949418B2 (en) Method and system for retrieval of data
US20210157977A1 (en) Display system, program, and storage medium
KR20040102330A (ko) 명명된 엔티티 인식의 향상을 위한 사용자 모델링용 방법및 명명된 엔티티 목록 생성기
JP2007052744A (ja) 分類ルール作成支援方法
JP2005352888A (ja) 表記揺れ対応辞書作成システム
JP6729095B2 (ja) 情報処理装置及びプログラム
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
WO2023010427A1 (en) Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs
JP2004021445A (ja) テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
US20190065965A1 (en) System and method of providing news analysis using artifical intelligence
US20220292127A1 (en) Information management system
WO2022234273A1 (en) Project data processing method and apparatus
EP3318987B1 (en) Method and system for retrieval of data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130819

R150 Certificate of patent or registration of utility model

Ref document number: 5346841

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250