JP6078380B2 - 文書解析装置、及びプログラム - Google Patents

文書解析装置、及びプログラム Download PDF

Info

Publication number
JP6078380B2
JP6078380B2 JP2013041779A JP2013041779A JP6078380B2 JP 6078380 B2 JP6078380 B2 JP 6078380B2 JP 2013041779 A JP2013041779 A JP 2013041779A JP 2013041779 A JP2013041779 A JP 2013041779A JP 6078380 B2 JP6078380 B2 JP 6078380B2
Authority
JP
Japan
Prior art keywords
document
word
document data
style
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013041779A
Other languages
English (en)
Other versions
JP2014170377A (ja
Inventor
悠哉 藤田
悠哉 藤田
彰夫 小林
彰夫 小林
庄衛 佐藤
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013041779A priority Critical patent/JP6078380B2/ja
Publication of JP2014170377A publication Critical patent/JP2014170377A/ja
Application granted granted Critical
Publication of JP6078380B2 publication Critical patent/JP6078380B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書解析装置、及びプログラムに関する。
記憶装置に保存された大量の文書データの中から、同じ話題について書かれた異なる文書データを、コンピュータによって自動的に同じカテゴリに帰属させる自動文書分類技術がある。この自動文書分類技術は、例えば、類似文書の探索等において有用である。
自動文書分類についてはいくつかの手法が知られているが、ここでは特に潜在話題解析と呼ばれる手法について取り上げる。潜在話題解析では、各々の文書データをある特徴ベクトルに変換し、その特徴ベクトルを並べた行列に対して因子分解を行う。これにより、ある特定の話題の文書データに現れる特徴ベクトルの共通パターンを抽出し、抽出された共通パターンに基づいて、同じ話題について書かれた異なる文書データを同じカテゴリに帰属させる。
特徴ベクトルとしては一般に、BOW(Bag−of−Words)特徴ベクトルを用いることが多い。BOW特徴ベクトルとは、文書における各単語の出現回数を要素として並べたベクトルである。例えば、j={1,…,D}番目の文書において、ある単語w(i={1,…,M})が出現する回数をnijとする。この場合、j番目の文書のBOW特徴ベクトルxは、以下の式(1)のように定義される。なお、右肩の「T」は、行列あるいはベクトルの転置を表わす。
Figure 0006078380
特徴ベクトルの共通パターンを抽出するために、jが1番目からD番目までの文書のBOW特徴ベクトルxを並べた文書行列Xに対し、例えば非負値行列因子分解(NMF:Nonnegative Matrix Factorization)のような行列因子分解を施す。非負値行列因子分解では、この文書行列Xに対し、ある距離尺度D(X|UH)が最小となる様な基底行列Uと係数行列Hを反復演算により求める。つまり、以下の式(2)となるように、基底行列Uと係数行列Hを推定する。
Figure 0006078380
上記の式(2)において、基底行列Uを構成する列ベクトルu(r={1,…,R})は、(u1r,…,uMrで表される基底ベクトルであり、各要素uir(i={1,…,M})は単語wに対応する。また、係数行列Hを構成する列ベクトルh(j={1,…,D})は、(h1j,…,hRjであり、各要素hrjは基底ベクトルuがj番目の文書に寄与している度合いを表す。
基底行列Uの列数Rは基底の数であり、この列数Rを観測数Dより小さくするため、上記演算は近似計算となる。また、誤差を少なくするように元の文書行列Xを再構成することから、基底行列Uには、必然的に文書行列Xに頻出する単語のパターンが基底(基底ベクトルu)として現れることになる。例えば、非特許文献1のfig.1に掲載されている顔画像の例では、目や鼻といった顔画像に頻出するパターンが基底として現れている。また、非特許文献1のfig.4に掲載されている文書行列に対する例では、特定の話題において頻出する単語(ニュースの話題の場合、「president(大統領)」という単語)に高い値を有する基底が複数得られている。
この性質により、例えばある文書の特徴ベクトルを再構成する際に、一番寄与が大きい基底ベクトルが共通の文書は同じ話題の異なる文書であるとみなし、同一カテゴリに帰属させることができる。
一方、BOW特徴ベクトルでは、文書の性質上、助詞、助動詞、接続詞といった機能語のカウント値が、話題の特徴を表す単語のカウント値と比較して大きくなることが知られている。この様な単語の分布傾向をもってその文書のスタイル(例えば、です、ます調、だ、である調など)と呼ぶ。このスタイルが、分類しようとする文書の中である程度統一されている場合、非負値行列因子分解の性質として、その様な機能語の頻度分布が1つの頻出パターンとして、基底行列Uのある列に現れる。しかし、スタイルが統一されていない場合、スタイルの頻度分布が複数の頻出パターンとして基底行列Uに学習されてしまう場合がある。つまりこの場合、話題による分類ではなく、スタイルによる分類となってしまい、話題による分類を目的とした場合は不適切な分類結果となってしまう。
この問題に対して、BOW特徴量にTF−IDF(term frequency - inverse document frequency)重み付けを行うことによる対処が知られている。TF−IDF重み付けとは、j番目の文書における単語wの出現回数nijに、次式(3)で定義されるIDF値idf(i)を乗じるものである。
Figure 0006078380
ただし、df(i)は、文書数Dの文書のうち単語wが出現する文書の数である。式(3)の定義から明らかな様に、このTF−IDF重み付けを施すことで、BOW特徴ベクトルは、多くの文書に共通して出現する機能語のカウント値が小さくなり、ある特定の話題において偏って出現する内容語のカウント値が大きくなる。
一方、特許文献1には、予めカテゴリ分けされた文書を用意しておき、文書のキーワードとなる単語の重要度重みの計算に、文書のカテゴリ情報を反映する方法が開示されている。また、特許文献2には、特定の分野の文書を特徴付ける適切なキーワードを特定するための単語重要度重み計算法が開示されている。
特許第4008551号公報 特許第4639388号公報
Daniel D. Lee,H. Sebastian Seung,"Learning the parts of objects by non-negative-matrix-factorization.",Nature,Vol.401,pp.788-791,1999年
しかしながら、TF−IDF重み付けで先述の課題が全て解決されるわけではない。たとえば、D本の文書に共通して現れる機能語と、D=D(n≠l)本の文書に共通して現れる内容語は、IDF値の定義に従えば同じ重みが与えられる。言い換えれば、内容を表す単語のように、出現頻度は小さいがある程度偏った文書に出現する単語と、スタイルに寄与する単語のように、出現頻度が大きく、ある程度偏った文書に出現する機能語とに、同様の重みを与える。文書分類の目的からは、内容(話題)を表す単語については重みを大きくし、スタイルに相当する様な機能語に対しては小さな重みを与えることが望ましい。
また、特許文献1、特許文献2とも、各文書のキーワード抽出に関する技術であり、単語の出現頻度を利用して文書の特徴を解析する際に、スタイルを表す機能語の影響を抑えるものではない。
本発明はこの様な課題を鑑みてなされたものであり、文書に出現する単語の頻度を利用して文書の特徴を解析する際に、スタイルに相当する単語の出現頻度の影響を抑えることができる文書解析装置、及びプログラムを提供する。
[1] 本発明の一態様は、複数の文書データそれぞれにおける各単語の出現頻度を表す特徴量を並べた文書行列に因子分解を行い、機能語の出現頻度分布を表す基底が前記文書データそれぞれに寄与している度合いを取得する因子分解部と、前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルにおける前記機能語の出現頻度に応じて低減させる重み付け処理部と、前記重み付け処理部により前記機能語の出現頻度が低減された前記特徴量を用いて前記文書データの特徴を解析する解析部と、を備えることを特徴とする文書解析装置である。
この発明によれば、文書解析装置は、複数の文書データそれぞれについて生成した特徴量を並べて文書行列を生成し、因子分解する。特徴量は、文書データにおいて各単語が出現する頻度を表し、因子分解には、例えば、非負値行列因子分解が用いられる。文書のスタイルに寄与する機能語は、話題を表す単語よりも出現頻度が多いため、文書解析装置は、非負値行列因子分解によって、機能語の出現頻度分布を表す基底と、その基底が各文書データそれぞれに寄与している度合いを得る。機能語の出現頻度分布は文書のスタイルを表していることから、文書解析装置は、各基底が各文書データに寄与している度合いに基づいて文書データをスタイル別にカテゴリ分けする。文書解析装置は、文書データの特徴量が表す機能語の出現頻度を、当該文書データが属するスタイルにおける機能語の出現頻度に応じて低減するよう重み付けを行い、重み付け後の特徴量を用いて文書データの特徴を解析する。
これにより、文書解析装置は、文書に出現する単語の出現頻度で表される特徴量を用いて文書の特徴を解析する際に、その解析に用いる特徴量に対してスタイルに相当する機能語の出現頻度を抑制する重み付けを行う。この重み付けを行った特徴量を用いて文書の特徴を解析することにより、話題に関する単語の出現頻度に基づいた文書解析の精度が向上する。
[2] 本発明の一態様は、上述する文書解析装置であって、探索文書データにおける各単語の出現頻度を表す特徴量を生成する探索文書特徴抽出部と、前記スタイルにおける前記機能語の出現頻度に応じて、前記探索文書特徴抽出部が生成した前記特徴量が表す前記機能語の出現頻度を低減する探索文書重み付け処理部と、前記探索文書重み付け処理部により前記機能語の出現頻度が低減された前記特徴量と、前記解析部による前記文書データの特徴の解析結果とに基づいて、前記探索文書データに類似する前記文書データを探索する類似文書探索部とをさらに備える、ことを特徴とする。
この発明によれば、文書解析装置は、探索文書データにおいて各単語が出現する頻度をカウントし、そのカウント値を表す特徴量を生成する。文書解析装置は、探索文書データの特徴量が表す機能語の出現頻度を、解析済みの文書データにおける機能語の出現頻度に応じて低減するよう重み付けを行う。文書解析装置は、重み付け後の探索文書データの特徴量を用いて、解析済みの複数の文書データの中から類似する文書データを探索する。
これにより、文書解析装置は、探索文書に出現する単語の出現頻度を表す特徴量を用いて解析済みの文書の中からこの探索文書に類似した文書を探索する際に、探索文書の特徴量に対してスタイルに相当する機能語の出現頻度を抑制する重み付けを行う。文書解析装置は、機能語の出現頻度を抑制した特徴量を用いて類似する文書を探索するため、類似文書の検出精度が向上する。
[3] 本発明の一態様は、上述する文書解析装置であって、前記重み付け処理部は、前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルに最も寄与の度合いが大きな前記基底が示す前記機能語の出現頻度分布に応じて低減する、ことを特徴とする。
この発明によれば、文書解析装置は、文書データの特徴量が表す機能語の出現頻度を、当該文書データのスタイルを表す基底が示す機能語の出現頻度分布に応じて低減するよう重み付けを行う。
これにより、文書解析装置は、出現頻度が大きい機能語ほど基底において大きな値を有することを利用して、文書データの特徴量に対し、機能語の出現頻度を低減するように重み付けを行うことができる。
[4] 本発明の一態様は、上述する文書解析装置であって、前記重み付け処理部は、前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記スタイル別に、当該スタイルに属する前記文書データのうち各単語が出現する文書データの割合を算出し、算出した割合が多いほど重みが小さくなるように各単語の重みを決定し、前記文書データの前記特徴量が表す各単語の出現頻度に、当該文書データが属する前記スタイルについて決定した各単語の前記重みを適用する、ことを特徴とする。
この発明によれば、文書解析装置は、スタイル別に、各単語が出現する文書の割合が多いほど重みが小さくなるようにそれら各単語の重みを決定し、文書データの特徴量が表す各単語の出現頻度に、当該文書データのスタイルについて決定した各単語の重みを適用する。
これにより、文書解析装置は、同じスタイルに属する文書の中ではそのスタイルに依存した機能語が出現する文書の割合が高いことを利用して、文書データの特徴量に対し、機能語の出現頻度を低減するように重み付けを行うことができる。
[5] 本発明の一態様は、コンピュータを、複数の文書データそれぞれにおける各単語の出現頻度を表す特徴量を並べた文書行列に因子分解を行い、機能語の出現頻度分布を表す基底が前記文書データそれぞれに寄与している度合いを取得する因子分解手段と、前記因子分解手段が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルにおける前記機能語の出現頻度に応じて低減させる重み付け処理手段と、前記重み付け処理手段により前記機能語の出現頻度が低減された前記特徴量を用いて前記文書データの特徴を解析する解析手段と、を具備する文書解析装置として機能させるためのプログラムである。
本発明によれば、文書に出現する単語の頻度を利用して文書の特徴を解析する際に、スタイルに相当する単語の出現頻度の影響を抑えることができる。
本発明の一実施形態における文書解析装置の機能ブロック図である。 同実施形態による文書分類部の処理フローである。 同実施形態による文書探索部の処理フローである。 同実施形態による文書データベースが記憶する文書データの例を示す図である。 同実施形態による第一単語重みデータベースが記憶するデータの例を示す図である。 同実施形態による第一文書重みデータベースが記憶するデータの例を示す図である。 同実施形態による第二単語重みデータベースが記憶するデータの例を示す図である。 同実施形態による第二文書重みデータベースが記憶するデータの例を示す図である。 同実施形態による分類結果データベースが記憶するデータの例を示す図である。
以下、図面を参照しながら本発明の一実施形態を詳細に説明する。なお、本明細書において、以下のような行列、ベクトル、または要素を便宜上、「(A−1」、「(a 」、「a c_d」、「a (c_d)(e_f)」のように記載する。なお、右肩の「T」は、行列またはベクトルの転置を示す。
Figure 0006078380
[概要]
本発明の一実施形態による文書解析装置は、コンピュータに保存された大量の文書データから、同じ話題について書かれた異なる文書データを同じクラスタに分類する。この分類を行うために、本実施形態による文書解析装置は、各文書データのBOW(Bag−of−Words)特徴ベクトルを並べた文書行列に対して行列因子分解を施し、文書データの特徴を解析する。BOW特徴ベクトルは、文書データにおける各単語の出現回数を要素とするベクトルである。本実施形態による文書解析装置は、行列因子分解を行う際、BOW特徴ベクトルに対して、スタイルを表す機能語(助詞、副詞など)の出現頻度を、非負値行列因子分解を用いて抑制する。スタイルを表す機能語は、文書データを話題別に分類するために行う際の文書データの特徴解析に悪影響を及ぼすが、本実施形態では、機能語の出現頻度を抑制することによりその悪影響を低減させ、文書分類精度を向上させる。
機能語の出現頻度の抑制のため、本実施形態による文書解析装置は、文書データの特徴解析を行う前に、文書行列に非負値行列因子分解を行う。これにより、スタイルに相当する機能語の出現頻度の分布を明示的に抽出し、BOW特徴ベクトルにおける単語出現頻度の重み付けに利用する。非負値行列因子分解の頻出パターン抽出の考え方によれば、非特許文献1では顔画像において目に相当する様なパーツが抽出された様に、BOW特徴量の場合では、ある文書集合に共通して現れ、かつ、出現頻度の高い機能語の分布をよく近似する様に学習が進む。従って、基底の数を十分小さくとることで、基底としてスタイルが抽出される。スタイルとは、ある文書集合に共通して現れる、出現頻度の高い機能語の頻度分布であり、スタイルとして抽出された基底を利用することで、各文書データのBOW特徴ベクトルに対してスタイルの抑制が可能となる。本実施形態による文書解析装置は、j={1,…,D}番目の各文書データから得られたBOW特徴ベクトルxを並べて文書行列Xとし、非負値行列因子分解により、文書行列Xを基底行列Uと係数行列Hに分解する。これにより、文書行列Xに頻出するパターンが基底行列Uに現れることになる。
一般的に、文書のBOW特徴量では、話題に依存する内容語より、スタイルに相当する機能語の出現頻度が大きく現れる。非負値行列因子分解の頻出パターンを抽出する性質から、基底行列Uを構成する列ベクトルの数(基底数)Rを、文書データの数Dより非常に小さくとる(例えば、1000分の1程度)と、スタイルに相当する単語が高い値を持つ基底行列Uが得られる。本実施形態の文書解析装置は、BOW特徴ベクトルが示す各単語の出現頻度のうち、スタイルに相当する単語の出現頻度を抑制するために、この基底行列Uの列ベクトル(基底ベクトル)を用いてBOW特徴ベクトルに重み付けを施す。
具体的な重み付けの手順を説明する。まず、係数行列Hの列ベクトルh=(h1j,…,hRjに含まれる要素の中で最大の値を示す要素のインデックスをk(k={1,…,R})とする。つまり、kを、以下の式(4)のように定義する。
Figure 0006078380
このkに対応する基底ベクトルuが、j番目の文書データのスタイルを近似的に表していると考えられる。従って、本実施形態による文書解析装置は、以下のいずれかの方法でスタイルの影響を抑える重み付け処理を行う。
(1)学習したスタイル依存分布である基底ベクトルuを直接利用する。基底ベクトルuは、各単語wに対応した要素uik(i={1,…,M})により表される。本実施形態による文書解析装置は、ダイナミックレンジを調整する指数関数などの関数f(・)を、基底ベクトルuの各要素uikに作用させ、その算出結果の逆数を重みとする。本実施形態による文書解析装置は、要素uikから算出した重みを、BOW特徴ベクトルxにおいて単語wの出現頻度を表す要素xijに乗算し、スタイルの影響を低減する。
(2)本実施形態による文書解析装置は、kが同値の文書データを集めてサブコーパスを構成し、そのサブコーパス内で各単語wのIDF値を算出する。本実施形態による文書解析装置は、j番目の文書データから得られたBOW特徴ベクトルxの要素xijに、このj番目の文書データが属するサブコーパスについて算出した単語wのIDF値を乗算することにより、TF−IDF重み付けを施す。
本実施形態の文書解析装置は、上述の(1)または(2)の重み付け方法により重み付けしたBOW特徴ベクトルを並べた文書行列に対して非負値行列因子分解を行い、得られた係数行列により文書を分類する。
[文書解析装置の構成]
図1は、本発明の一実施形態による文書解析装置100の機能ブロック図である。同図に示すように、文書解析装置100は、文書分類部1、及び文書探索部3を備えて構成される。
文書分類部1は、文書データベース10(以下、「データベース」を「DB」と記載する。)、文書特徴抽出部11、第一因子分解部12(因子分解部)、第一単語重みDB13、第一文書重みDB14、重み付け処理部15、第二因子分解部16(解析部)、第二単語重みDB17、第二文書重みDB18、分類部19(解析部)、及び分類結果DB20を備えて構成される。
文書DB10は、多種多様な話題やスタイルで構成される大量の文書データを記憶する。文書特徴抽出部11は、文書DB10に記憶されている各文書データの特徴量を抽出する。本実施形態で抽出する特徴量は、BOW特徴量であり、文書データにおける各単語の出現回数を並べたベクトル(BOW特徴ベクトル)である。第一因子分解部12は、文書特徴抽出部11により各文書データから抽出された特徴量を並べた文書行列に対して非負値行列因子分解を実行し、その結果として基底行列と係数行列を得る。第一単語重みDB13は、第一因子分解部12により得られた基底行列を示す単語の重み係数を記憶する。第一文書重みDB14は、第一因子分解部12により得られた係数行列を示す文書重み係数を保存する。
重み付け処理部15は、文書特徴抽出部11により抽出された文書データの特徴量に対し、第一単語重みDB13に記憶されている単語重み係数の値、及び第一文書重みDB14に記憶されている文書重み係数の値に基づいて重み付け処理を施す。第二因子分解部16は、重み付け処理部15により重み付け処理された後の特徴量を並べた文書行列に対し、非負値行列因子分解を実行し、その結果として基底行列と係数行列を得る。第二単語重みDB17は、第二因子分解部16により得られた基底行列を示す単語重み係数を記憶する。第二文書重みDB18は、第二因子分解部16により得られた係数行列を示す文書重み係数を記憶する。分類部19は、第二単語重みDB17に記憶されている単語重み係数の値、及び第二文書重みDB18に記憶されている文書重み係数の値に基づいて、文書DB10に格納されている文書データの分類を行う。分類結果DB20は、分類部19による分類結果を保存する。
文書探索部3は、探索文書特徴抽出部31、探索文書重み付け処理部32、及び類似文書探索部33を備えて構成される。
文書探索部3に、探索のキーとなる文書データである探索文書データが入力されると、探索文書特徴抽出部31は、入力された探索文書データの特徴量を抽出する。この特徴量は、文書特徴抽出部11により抽出される特徴量と同様、BOW特徴量である。探索文書重み付け処理部32は、探索文書特徴抽出部31が抽出した特徴量に対し、文書分類部1の第一単語重みDB13に記憶されている単語重み係数の値、及び第一文書重みDB14に記憶されている文書重み係数の値に基づいて重み付け処理を施す。類似文書探索部33は、探索文書重み付け処理部32により重み付けされた特徴量と、第二単語重みDB17に記憶されている単語重み係数の値、及び第二文書重みDB18に記憶されている文書重み係数の値とに基づいて類似する文書データを探索し、出力する。
[文書解析装置の動作]
続いて、図1に示す文書解析装置100の具体的な動作について説明する。文書DB10には予め、大量の文書データが記憶されている。
図4は、文書DB10に記憶されている文書データの例を示す図である。同図に示すように、文書データは、文書を特定する文書IDと、文書名と、文書内容のテキストとを対応付けたデータである。
≪文書分類部1の動作≫
図2は、文書分類部1の処理フローを示す図である。同図を参照しながら、文書分類部1の動作について詳細に説明する。
<ステップS110:文書特徴抽出処理>
文書特徴抽出部11は、文書DB10に記憶されている各文書データの文書内容が示すテキストに対し、文を形態素に分ち書きする形態素解析を施す。この形態素解析には、既存の技術を用いることができ、例えば、和布蕪(http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html)というソフトウェアを用いることで実現可能である。文書特徴抽出部11は、文書データ毎に、分かち書きされたテキスト内における各形態素の出現回数をカウントし、それら各形態素の出現回数を要素として並べて特徴ベクトルを生成する。以下に、この操作を数式で表現する。
まず、文書特徴抽出部11は、文書DB10に記憶されている全ての文書データそれぞれに出現する形態素を取得すると、取得した形態素から異なる表記の形態素を抽出し、これら抽出した形態素の集合を語彙として得る。文書特徴抽出部11は、得られた語彙に含まれる各形態素を、単語w(i=1,…,M)とする。これにより、例えば、w=“こんにちは”、w=“サバ”、w=“ああ”、…のような語彙が得られる。文書特徴抽出部11は、文書DB10に記憶されている文書データのインデックスをj={1,…,D}とおくと、文書データの文書IDとインデックスjとの対応付けを記憶しておく。なお、本実施形態では、文書データの文書ID、及びインデックスがともにjであるとし、文書IDとインデックスjとの対応付けの記憶を省略する。インデックスjの文書データを文書jとすると、文書特徴抽出部11は、以下の式(5)のように各文書jのBOW特徴量である特徴ベクトルxを生成する。
Figure 0006078380
ここで、nijは、単語wが文書jに出現した回数である。
<ステップS120:第一因子分解処理>
第一因子分解部12は、以下の式(6)に示すように、全ての文書jの特徴ベクトルxを並べた文書行列Xを生成する。つまり、文書行列Xのj列は、文書jの特徴ベクトルxである。
Figure 0006078380
第一因子分解部12は、生成した文書行列Xに対し、例えば、非負値行列因子分解などの行列因子分解手法を適用する。行列因子分解とは一般に、ある観測における特徴ベクトルを並べた行列を、観測数より少ない基底ベクトルの線形和で近似する手法であり、非負値行列因子分解や、特異値分解などが知られている。ここでは、特に非負値行列因子分解を用いる場合について述べる。
第一因子分解部12は、以下の式(7)、及び式(8)に示すように、文書行列Xを非負値行列因子分解し、基底行列Uと係数行列Hを求める。
Figure 0006078380
ここで、基底行列Uのr列目(r={1,…,R})の列ベクトルであるuは、(u1r,…,uMrで表される基底ベクトルであり、各要素uir(i={1,…,M})は単語wに対応する。また、係数行列Hのj列目(j={1,…,D})の列ベクトルhは、(h1j,…,hRjであり、各要素hrjは基底ベクトルuが文書jに寄与する度合いを表す。
非負値行列因子分解を行うため、第一因子分解部12は、文書行列Xに対し、XとUHとの間のある距離尺度D(X|UH)が最小となる様な基底行列Uと係数行列Hを反復演算により求める。具体的には、第一因子分解部12は、以下の式(9)に示すEuclidノルム、または、以下の式(10)に示すKL−Divergenceを最小化する基底行列Uと係数行列Hを求める。なお、xijは、文書jの特徴ベクトルxにおける単語wに対応した要素nijである。
Figure 0006078380
Figure 0006078380
基底行列Uの列数Rは基底の数であり、この列数Rを観測数Dより小さくするため、式(7)に示す演算は近似計算となり、元の文書行列Xとの誤差を少なく再構成するため、必然的に文書行列Xに頻出するパターンが基底行列Uに現れることになる。
一般的に文書のBOW特徴量では、話題に依存する様な単語である内容語より、助詞、副詞の様な機能語が高い頻度を持つ。この機能語の出現頻度分布をスタイルと呼ぶ。非負値行列因子分解の頻出パターンを抽出する性質から、列数(基底の数)Rを文書データ数Dより非常に小さくとる(例えば、1000分の1程度)と、スタイルに相当する単語が高い値を持つ基底行列Uが得られる。
第一因子分解部12は、得られた基底行列Uの要素uirに対し、以下の式(11)に示す正規化を施す。
Figure 0006078380
式(11)に示す正規化を施すことにより、基底ベクトルuは、単語出現確率ベクトルと見なすことができる。この正規化を施すため、第一因子分解部12は、r行r列目の要素srrが、以下の式(12)にように、基底行列Uのr列目の要素を全て加算した値であり、他の要素が0である対角行列Sを生成する。
Figure 0006078380
対角行列Sを用いて、以下の式(13)が成立する。
Figure 0006078380
第一因子分解部12は、US−1を正規化した基底行列Uとして第一単語重みDB13に書き込み、SHを係数行列Hとして第一文書重みDB14に書き込む。以下、正規化した基底行列Uのk列目を、スタイル分布uと記載する。
図5は、第一単語重みDB13に記憶されるデータの例を示す図である。同図に示すように、第一単語重みDB13は、単語wを識別する単語ID、単語名、基底ID、及び単語重み係数を対応付けたデータを記憶する。同図では、単語ID=iは、単語wを表し、基底ID=rは、基底行列Uにおけるr列目のスタイル分布uを表す。単語重み係数は、スタイル分布uの要素uirの値であり、スタイル分布uにおける単語wの出現確率を示す。
図6は、第一文書重みDB14に記憶されるデータの例を示す図である。同図に示すように、第一文書重みDB14は、文書ID、基底ID、及び文書重み係数を対応付けたデータを記憶する。同図では、文書ID=jは、文書jを表し、基底ID=rは、基底行列Uにおけるr列目のスタイル分布uを表す。文書重み係数は、係数行列Hのj列目の列ベクトルhの要素hrjの値であり、スタイル分布uが文書jに寄与している度合いを示す。
<ステップS130:重み係数処理>
次に、重み付け処理部15は、第一単語重みDB13に記憶されている単語重み係数の値、及び第一文書重みDB14に記憶されている文書重み係数の値を用いて、各文書jのBOW特徴量である特徴ベクトルxに重み付けを施す。そこでまず、重み付け処理部15は、文書jに対応して第一文書重みDB14に保存されている列ベクトルhの要素hrjのうち最大の値である要素を、その文書jのスタイルと定義する。つまり、重み付け処理部15は、文書jが属するスタイルカテゴリをcとおくと、以下の式(14)により、各文書jのスタイルカテゴリcを求める。
Figure 0006078380
重み付け処理部15は、スタイルカテゴリc=k(k={1,…,R})である文書jの集合をサブコーパスとする。重み付け処理部15は、k番目のサブコーパスに含まれる文書jに、当該サブコーパス内において文書データを特定する番号j={1,…,D}を付与する。以下、k番目のサブコーパスのj番目の文書データを文書jと記載する。Dは、k番目のサブコーパスに含まれる文書jの数であり、Σ=Dを満たす。
以上の手順から明らかな様に、k番目のサブコーパスには、正規化した基底行列Uに含まれるスタイル分布uの寄与が大きな文書データが集まる。
なお、重み付け処理部15は、文書jの文書IDを示すインデックスjと、文書jが属するサブコーパス内におけるインデックスjとを対応付けて記憶するとともに、第二文書重みDB18に書き込んでおく。
重み付け処理部15は、k番目のサブコーパス内の文書jにおける単語wの出現回数をni(j_k)とし、i行j列目の要素x i(j_k)=ni(j_k)である文書行列Xを構築する。つまり、文書行列Xのj番目の列ベクトルは、インデックスjに対応したインデックスjの文書jについて、文書特徴抽出部11がステップS110において抽出した特徴ベクトルxである。
重み付け処理部15は、構築した文書行列Xに対し、スタイルの影響を抑制する様な重み付け演算処理を行う。重み付け演算として、以下の2つの例を示す。
(1)重み付け演算に先に学習したスタイル依存分布uを利用する。重み付け処理部15は、ダイナミックレンジを調整する指数関数などの関数f(・)をスタイル依存分布uの各要素uikに作用させ、要素uikについての算出結果の逆数を、各文書jの単語wの出現回数ni(j_k)に乗算し、スタイルの影響を低減する。つまり、重み付け処理部15は、i行i列目の要素t ii=f(uik)であり、他の要素が0である対角行列Tを生成し、(T−1という処理を行って特徴量行列を生成する。例えば、f(・)には、f(x)=10ax(a>0)等を用いることができる。
出現頻度が大きい単語ほど、スタイル依存分布uにおいて大きな値を持つ。そこで、f(・)として、例えば、上記のような指数関数f(x)=10axなどを用いることで、1/f(uik)は、出現頻度の大きい単語、つまり、スタイルに相当する様な機能語ほど出現頻度の低減の効果が大きくなるように、より小さな重みとすることができる。
(2)重み付け処理部15は、サブコーパスごとにTF−IDF値による重み付けを行う。つまり、重み付け処理部15は、k番目のサブコーパスに含まれる文書データのうち各単語wが出現する文書の数df(i)をカウントし、以下の式(15)により各単語wのIDF値idf(i)を算出する。
Figure 0006078380
重み付け処理部15は、k番目のサブコーパスについて算出した各単語wのIDF値idf(i)を、各文書jにおける単語wの出現回数を表す要素xi(j_k)に乗算する。つまり、重み付け処理部15は、i行i列目の要素q ii=idf(i)であり、他の要素が0である対角行列Qを生成し、Qという処理を行って特徴量行列を生成する。
非負値行列因子分解の頻出パターン抽出の性質より、サブコーパス内では、スタイルに相当する様な機能語の出現頻度はある程度類似していると考えられる。従って、そのサブコーパス内でIDF値を計算すると、サブコーパス内で共通に現れる単語に対しては小さな値となるので、スタイルに相当する機能語の出現頻度を抑制する効果がある。
なお、重み付け処理は必須ではなく、同じスタイルを持つ文書集合を特定すること、およびそのスタイル分布を抽出することが本実施形態の本質である。
<ステップS140:第二因子分解処理>
続いて、第二因子分解部16は、ステップS130において重み付け処理部15が重み付け処理を行った特徴量行列を用いて、再び非負値行列因子分解を行う。以下では、ステップS130の(1)に示す重み付け演算により算出された特徴量行列(T−1を用いる場合を例に説明する。ステップS130の(2)に示す重み付け演算により算出された特徴量行列を用いる場合、(T−1に代えてQを用いればよい。因子分解の方法として、サブコーパス毎に実施する場合と、サブコーパスを統合して実施する場合がある。
(サブコーパス毎に実施する場合)
第二因子分解部16は、サブコーパスそれぞれについて、例えば、式(16)のKL−Divergenceを最小化する基底行列Uと係数行列Hを求める。
Figure 0006078380
ここで、基底行列Uのr列目(r={1,…,R})の列ベクトルであるu r_kは、(u 1(r_k),…,u M(r_k)で表される基底ベクトルであり、各要素u i(r_k)(i={1,…,M})は単語wに対応する。また、係数行列Hのj列目(j={1,…,D})の列ベクトルh j_kは、(h 1(j_k),…,h (R_k)(j_k)であり、各要素h (r_k)(j_k)は、基底ベクトルu r_kが文書jに寄与する度合いを表す。なお、各サブコーパスの基底数(列数)Rは異なっていてもよい。基底行列Uにおいてはスタイルを表す基底の影響が低減されるため、基底行列Uの基底数(列数)Rは、スタイルの影響を抑制せずに非負値行列因子分解を行う従来技術よりも少ない基底数とすることができる。
第二因子分解部16は、求めた基底行列Uをそれぞれ第二単語重みDB17に書き込み、係数行列Hを第二文書重みDB18に書き込む。
図7は、第二単語重みDB17に記憶されるデータの例を示す図である。同図に示すように、第二単語重みDB17は、単語ID、単語名、サブコーパスID、基底ID、及び単語重み係数を対応付けたデータを記憶する。同図では、単語ID=iは、単語wを表し、サブコーパスID=kは、k番目のサブコーパスを表し、基底ID=rは、基底行列Uにおけるr列目の基底ベクトル(列ベクトル)u r_kを表す。単語重み係数は、基底ベクトルu r_kの要素u i(r_k)の値であり、基底ベクトルu r_kにおける単語wの出現確率を示す。
図8は、第二文書重みDB18に記憶されるデータの例を示す図である。同図に示すように、第二文書重みDB18は、文書ID、サブコーパスID、サブコーパス内において文書データを識別するサブコーパス内文書ID、基底ID、及び文書重み係数を対応付けたデータを記憶する。同図では、文書ID=jは、文書jを表し、サブコーパスID=kは、k番目のサブコーパスを表し、サブコーパス内文書ID=jは、文書jを表し、基底ID=rは、基底行列Uにおけるr列目の基底ベクトルu r_kを表す。文書重み係数は、係数行列Hのj列目の列ベクトルh j_kの要素h (r_k)(j_k)の値であり、基底ベクトルu r_kが文書jに寄与している度合いを表す。
(サブコーパスを統合する場合)
第二因子分解部16は、以下の式(17)に示すように、各サブコーパスについて重み付け処理を行った特徴量行列を並べ、統合特徴量行列Xを生成する。
Figure 0006078380
第二因子分解部16は、統合特徴量行列Xの非負値行列因子分解を行う。例えば、第二因子分解部16は、以下の式(18)のKL−Divergenceを最小化する基底行列Uと係数行列Hを求める。
Figure 0006078380
ここで、基底行列Uのr列目(r={1,…,R})の列ベクトルである(ur_Cは、((u1(r_C),…,(uM(r_C)で表される基底ベクトルであり、各要素(ui(r_C)(i={1,…,M})は単語wに対応する。また、係数行列HのCl列目(Cl={1,…,D})の列ベクトル(hClは、((h1Cl,…,(h(R_C)Clであり、各要素(h(r_C)Clは基底ベクトル(ur_CがCl列目に対応した文書データに寄与する度合いを表す。なお、基底行列Uの基底数(列数)Rは、基底行列Uの基底数Rと異なっていてもよい。基底行列Uの基底数(列数)Rは、スタイルの影響を抑制せずに非負値行列因子分解を行う従来技術の場合よりも少ない基底数とすることができる。
第二因子分解部16は、求めた基底行列Uが示す単語重み係数を第二単語重みDB17に書き込み、係数行列Hが示す文書重み係数を第二文書重みDB18に書き込む。
<ステップS150:分類処理>
続いて、分類部19は、第二単語重みDB17に記憶されている単語重みの値、及び、第二文書重みDB18に記憶されている文書重みの値を用いて、文書データを分類する。
(ステップS140においてサブコーパス毎に因子分解を行った場合)
分類部19は、まず、サブコーパス毎に文書データの分類を行う。すなわち、分類部19は、第二文書重みDB18からk番目のサブコーパスの係数行列Hを読み出し、係数行列Hの各列ベクトルh j_kのうち、最大値を示す要素の行のインデックスが同じ列に対応した文書データを同じカテゴリと判断する。
さらに、分類部19は、サブコーパス間で文書データの分類を行う。分類部19は、サブコーパス間の関連性を見るために、まず、第二文書重みDB18からk番目のサブコーパスの係数行列Hを読み出し、係数行列Hの各列ベクトルh j_k毎に以下の処理を行う。
分類部19は、列ベクトルh j_kから最大値を示す要素の行のインデックスrを取得し、第二単語重みDB17に記憶されている基底行列Uからインデックスrに対応した基底ベクトルu r_kを読み出す。続いて、分類部19は、第二単語重みDB17に記憶されているm番目(k≠m)のサブコーパスの基底行列Uから各列nの基底ベクトルu n_mを読み出す。分類部19は、(u r_k n_mを算出し、算出結果が一定値以上の基底ベクトルu n_mを特定する。分類部19は、第二文書重みDB18に記憶されているm番目のサブコーパスの係数行列Hから、特定した基底ベクトルu n_mへの寄与が大きい列ベクトルh j_mを特定する。分類部19は、特定した列ベクトルh j_mに対応した文書jと、インデックスrが得られた係数行列Hの列ベクトルh j_kに対応した文書jとを同じカテゴリと判断する。
このように、分類部19は、k番目のサブコーパスの文書jについて係数行列Hの列ベクトルh j_kからインデックスrが得られた場合、(u r_k n_m(k≠m)が一定値以上の基底ベクトルu n_mへの寄与が大きいm番目のサブコーパスの文書jを同じカテゴリと判断する。
分類部19は、同じカテゴリと判断した文書データ(文書j及び文書j)の文書IDを対応付けて分類結果DB20に書き込む。
(ステップS140において統合特徴量行列に因子分解を行った場合)
分類部19は、第二文書重みDB18に記憶した係数行列Hの各列ベクトルhClのうち、最大値を示す要素の行のインデックスが同じ文書データを同じカテゴリと判断する。分類部19は、同じカテゴリと判断した文書データの文書IDを対応付けて分類結果DB20に書き込む。
図10は、分類結果DB20に記憶されるデータの例を示す図である。同図に示すように、分類結果DB20は、文書IDと、その文書IDにより特定される文書データが属するカテゴリのカテゴリIDとを対応付けて記憶する。分類部19は、同じカテゴリと判断した文書データの文書IDに、それら文書IDが属するカテゴリのカテゴリIDを対応付けて分類結果DB20に書き込む。
≪文書探索部3の動作≫
図3は、文書探索部3の処理フローを示す図である。同図を参照しながら、図2に示す処理において保存された分類結果を用いて、キーとなる探索文書データと類似した話題の文書データを探す文書探索部3の動作について詳細に説明する。
<ステップS210:文書特徴抽出処理>
まず、探索文書特徴抽出部31は、文書分類部1の文書特徴抽出部11と同様の処理を行い、探索文書データから文書特徴量である特徴ベクトルx’=(n’,…,n’,…,n’)を生成する。なお、n’は、探索文書データが示すテキストに単語wが出現した回数である。
<ステップS220:重み係数処理>
続いて、探索文書重み付け処理部32は、ステップS210において探索文書特徴抽出部31が生成した特徴ベクトルx’に、文書分類部1の重み付け処理部15と同様の処理により重み処理を施す。ただし、これは必須の処理ではない。探索文書重み付け処理部32は、サブコーパスの重み(T−1を特徴ベクトルx’にかけて、特徴ベクトル(T−1x’を算出する。なお、サブコーパスの重み(T−1として、いずれかのサブコーパスの重みのみを用いてもよく、全てのサブコーパスの重みの平均値を用いてもよい。また、異なるサブコーパスの重みをそれぞれ特徴ベクトルx’にかけて複数の特徴ベクトルに変換してもよい。
<ステップS230:類似文書抽出処理>
類似文書探索部33は、ステップS220において重み処理が施された特徴ベクトル(T−1x’と、第二単語重みDB17及び第二文書重みDB18に保存された単語重み係数、文書重み係数の値を用い、類似する文書データを探索して出力する。
(図2のステップS140においてサブコーパス毎に因子分解を行った場合)
類似文書探索部33は、kが1番目からR番目のまでのサブコーパスのそれぞれについて、以下の処理を行う。
まず、類似文書探索部33は、第二単語重みDB17に記憶されている単語重み係数で示される基底行列Uを用いて、以下の式(19)により係数ベクトル(hを求める。
Figure 0006078380
類似文書探索部33は、第二文書重みDB18に記憶されている文書重み係数で示される行列Hを読み出す。類似文書探索部33は、以下の式(20)を満たす係数行列Hの列ベクトルh j_kを全て特定し、特定した列ベクトルh j_kに対応した文書jを、探索文書データに類似する文書データであると判断する。つまり、類似文書探索部33は、式(20)の左辺により係数行列Hの各列ベクトルh j_kと、算出した係数ベクトル(hとのコサイン類似度を求め、算出したコサイン類似度が閾値τ以上である場合に、その列ベクトルh j_kに対応した文書jを、探索文書データに類似する文書データであると判断する。
Figure 0006078380
類似文書探索部33は、全てのサブコーパスについて式(20)により探索文書データに類似すると判断した文書データ全てを文書DB10から読み出して出力する。なお、文書データの全て(文書ID、文書名、文書内容)を出力してもよく、一部のみを出力してもよい。
(図2のステップS140において統合特徴量行列に因子分解を行った場合)
類似文書探索部33は、第二単語重みDB17に記憶されている単語重み係数で示される基底行列Uを用いて、以下の式(21)により係数ベクトルhを求める。
Figure 0006078380
類似文書探索部33は、第二文書重みDB18に記憶されている文書重み係数で示される係数行列Hを読み出す。類似文書探索部33は、上述した式(20)の左辺と同様の計算により、係数行列Hの各列ベクトル(hClと、算出した係数ベクトルhとのコサイン類似度を求める。類似文書探索部33は、算出したコサイン類似度が所定の閾値以上である場合に、その列ベクトル(hClに対応した文書jを、探索文書データに類似する文書データであると判断する。類似文書探索部33は、探索文書データに類似すると判断した文書データ全てを文書DB10から読み出して出力する。
以上説明した実施形態の文書解析装置100によれば、文書に出現する単語の出現頻度を特徴量として用いて文書の特徴を解析する際に、その特徴量に対してスタイルに相当する機能語の出現頻度を抑制する重み付けを行うことが可能となる。
[その他]
なお、上述の文書解析装置100は、内部にコンピュータシステムを有している。そして、文書解析装置100の各機能部の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1 文書分類部
10 文書DB
11 文書特徴抽出部
12 第一因子分解部(因子分解部)
13 第一単語重みDB
14 第一文書重みDB
15 重み付け処理部
16 第二因子分解部(解析部)
17 第二単語重みDB
18 第二文書重みDB
19 分類部(解析部)
20 分類結果DB
3 文書探索部
31 探索文書特徴抽出部
32 探索文書重み付け処理部
33 類似文書探索部
100 文書解析装置

Claims (5)

  1. 複数の文書データそれぞれにおける各単語の出現頻度を表す特徴量を並べた文書行列に因子分解を行い、機能語の出現頻度分布を表す基底が前記文書データそれぞれに寄与している度合いを取得する因子分解部と、
    前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルにおける前記機能語の出現頻度に応じて低減させる重み付け処理部と、
    前記重み付け処理部により前記機能語の出現頻度が低減された前記特徴量を用いて前記文書データの特徴を解析する解析部と、
    を備えることを特徴とする文書解析装置。
  2. 探索文書データにおける各単語の出現頻度を表す特徴量を生成する探索文書特徴抽出部と、
    前記スタイルにおける前記機能語の出現頻度に応じて、前記探索文書特徴抽出部が生成した前記特徴量が表す前記機能語の出現頻度を低減する探索文書重み付け処理部と、
    前記探索文書重み付け処理部により前記機能語の出現頻度が低減された前記特徴量と、前記解析部による前記文書データの特徴の解析結果とに基づいて、前記探索文書データに類似する前記文書データを探索する類似文書探索部とをさらに備える、
    ことを特徴とする請求項1に記載の文書解析装置。
  3. 前記重み付け処理部は、前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルに最も寄与の度合いが大きな前記基底が示す前記機能語の出現頻度分布に応じて低減する、
    ことを特徴とする請求項1または請求項2に記載の文書解析装置。
  4. 前記重み付け処理部は、前記因子分解部が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記スタイル別に、当該スタイルに属する前記文書データのうち各単語が出現する文書データの割合を算出し、算出した割合が多いほど重みが小さくなるように各単語の重みを決定し、前記文書データの前記特徴量が表す各単語の出現頻度に、当該文書データが属する前記スタイルについて決定した各単語の前記重みを適用する、
    ことを特徴とする請求項1または請求項2に記載の文書解析装置。
  5. コンピュータを、
    複数の文書データそれぞれにおける各単語の出現頻度を表す特徴量を並べた文書行列に因子分解を行い、機能語の出現頻度分布を表す基底が前記文書データそれぞれに寄与している度合いを取得する因子分解手段と、
    前記因子分解手段が取得した前記基底の寄与の度合いに基づいて前記文書データをスタイル別にカテゴリ分けし、前記文書データの前記特徴量が表す前記機能語の出現頻度を、当該文書データが属する前記スタイルにおける前記機能語の出現頻度に応じて低減させる重み付け処理手段と、
    前記重み付け処理手段により前記機能語の出現頻度が低減された前記特徴量を用いて前記文書データの特徴を解析する解析手段と、
    を具備する文書解析装置として機能させるためのプログラム。
JP2013041779A 2013-03-04 2013-03-04 文書解析装置、及びプログラム Expired - Fee Related JP6078380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013041779A JP6078380B2 (ja) 2013-03-04 2013-03-04 文書解析装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013041779A JP6078380B2 (ja) 2013-03-04 2013-03-04 文書解析装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014170377A JP2014170377A (ja) 2014-09-18
JP6078380B2 true JP6078380B2 (ja) 2017-02-08

Family

ID=51692730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013041779A Expired - Fee Related JP6078380B2 (ja) 2013-03-04 2013-03-04 文書解析装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6078380B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6092072B2 (ja) * 2013-10-29 2017-03-08 日本電信電話株式会社 データ解析装置、方法、及びプログラム
US10354010B2 (en) 2015-04-24 2019-07-16 Nec Corporation Information processing system, an information processing method and a computer readable storage medium
CN114708117A (zh) * 2022-03-21 2022-07-05 广东电网有限责任公司 融合先验知识的用电安全检查评级方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293767A (ja) * 2005-04-12 2006-10-26 Nomura Research Institute Ltd 文章分類装置、文章分類方法および分類辞書作成装置
JP5657338B2 (ja) * 2010-10-19 2015-01-21 株式会社中電シーティーアイ 入力情報分析装置

Also Published As

Publication number Publication date
JP2014170377A (ja) 2014-09-18

Similar Documents

Publication Publication Date Title
US10354170B2 (en) Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
KR20210104571A (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
US8510257B2 (en) Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
WO2017097231A1 (zh) 话题处理方法及装置
WO2019140863A1 (en) Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US10691585B2 (en) Efficient software testing system
García-Escudero et al. Avoiding spurious local maximizers in mixture modeling
WO2015165372A1 (en) Method and apparatus for classifying object based on social networking service, and storage medium
CN107832326B (zh) 一种基于深层卷积神经网络的自然语言问答方法
KR101877161B1 (ko) 문서 문맥정보를 고려하는 상황기반 추천 방법 및 장치
WO2021139343A1 (zh) 基于自然语言处理的数据分析方法、装置和计算机设备
US9348901B2 (en) System and method for rule based classification of a text fragment
WO2017113592A1 (zh) 模型生成方法、词语赋权方法、装置、设备及计算机存储介质
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
WO2018121198A1 (en) Topic based intelligent electronic file searching
RU2738335C1 (ru) Способ и система классификации и фильтрации запрещенного контента в сети
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN104615723B (zh) 查询词权重值的确定方法和装置
JP6078380B2 (ja) 文書解析装置、及びプログラム
Wong et al. Feature selection and feature extraction: highlights
CN112307738A (zh) 用于处理文本的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170116

R150 Certificate of patent or registration of utility model

Ref document number: 6078380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees