JP2009277100A - 文書特徴表現計算装置、及びプログラム - Google Patents

文書特徴表現計算装置、及びプログラム Download PDF

Info

Publication number
JP2009277100A
JP2009277100A JP2008128857A JP2008128857A JP2009277100A JP 2009277100 A JP2009277100 A JP 2009277100A JP 2008128857 A JP2008128857 A JP 2008128857A JP 2008128857 A JP2008128857 A JP 2008128857A JP 2009277100 A JP2009277100 A JP 2009277100A
Authority
JP
Japan
Prior art keywords
vector
document
index word
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008128857A
Other languages
English (en)
Other versions
JP5244452B2 (ja
Inventor
Toshiro Uchiyama
俊郎 内山
Katsuto Bessho
克人 別所
Naoto Abe
直人 阿部
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008128857A priority Critical patent/JP5244452B2/ja
Publication of JP2009277100A publication Critical patent/JP2009277100A/ja
Application granted granted Critical
Publication of JP5244452B2 publication Critical patent/JP5244452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の特徴を人間にとって分かりやすく表現する。
【解決手段】文書特徴表現計算装置において、索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、前記文書から各索引語を抽出する索引語抽出手段と、前記概念ベース格納手段から、前記索引語抽出手段で抽出された各索引語に対応するベクトルを入力ベクトルとして取得し、当該入力ベクトルの集合を入力ベクトル集合格納手段に格納する入力ベクトル集合算出手段と、前記入力ベクトル集合格納手段に格納された入力ベクトルの集合に対する各代表ベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択することにより算出する代表ベクトル集合算出手段と、前記代表ベクトル算出手段により算出された各代表ベクトルに対応する索引語と、その重みとを算出し、それらを出力する索引語重み算出手段と、を備える。
【選択図】図1

Description

本発明は、文書の特徴を人間にとって分かりやすく表現するための文書特徴表現計算技術に関するものである。
文書の特徴を表すための従来技術としては、例えば、ベクトル空間モデルを用いる方法(非特許文献1)や、概念ベクトルを用いる方法(特許文献2)等がある。
ベクトル空間モデルを用いる方法では、文書を単語等に分解し、その出現頻度等を要素とするベクトルで文書の特徴を表現している。また、概念ベクトルを用いる方法では、予め登録した概念ベクトルを文書中の単語に対応させ、文書を概念ベクトルの集合として表し、その概念ベクトルの集合の平均ベクトルを文書の概念ベクトル(文書ベクトルと呼ぶ)とすることで文書特徴を表現している。
なお、本願明細書及び特許請求の範囲において、「文書」とは、あるまとまった概念を持つ文の集合としての文書、及びこのような文書を複数含む文書集合(文書群)の両方の意味を持つ用語として使用している。また、「文書」は、あるカテゴリに属する文書、文書群等の意味も含む。
一方、ベクトル集合を限られた数の代表ベクトルで表すベクトル量子化技術が知られている(特許文献1)。
北研二、津田和彦、獅々堀正幹、"情報検索アルゴリズム"、pp.60-63、共立出版、2002 特開平08−316842号公報 特開2007−72610号公報
文書の特徴を表現するための上記従来技術では、文書自体が持つ特徴を人間にとって分かりやすく表現することが困難であった。すなわち、ベクトル空間モデルでは、単語数が膨大となるため、人間が文書の特徴を容易に把握することができない。また、概念ベクトルで文書特徴を表現する方法では、人間が概念ベクトルを理解することが難しい。
ここで、概念ベクトル集合に対してベクトル量子化技術を適用すると、限られた数の代表ベクトルを得ることができる。しかし、この場合でも、人間が代表ベクトルを理解することは困難であるため、文書の特徴を人間にとって分かりやすく表現することはできない。もし、文書の特徴を人間にとって分かりやすく表現できれば、文書特徴の妥当性を判断したり文書の傾向を把握したりすることが容易にできるようになる。
本発明は上記の点に鑑みてなされたものであり、文書の特徴を人間にとって分かりやすく表現することを可能とする文書特徴表現計算技術を提供することを目的とする。
上記の課題を解決するために、本発明は、入力された文書から、当該文書の特徴を表すための索引語と、その重みとを出力する文書特徴表現計算装置であって、索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、前記文書から各索引語を抽出する索引語抽出手段と、前記概念ベース格納手段から、前記索引語抽出手段で抽出された各索引語に対応するベクトルを入力ベクトルとして取得し、当該入力ベクトルの集合を入力ベクトル集合格納手段に格納する入力ベクトル集合算出手段と、前記入力ベクトル集合格納手段に格納された入力ベクトルの集合に対する各代表ベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択することにより算出する代表ベクトル集合算出手段と、前記代表ベクトル算出手段により算出された各代表ベクトルに対応する索引語と、その重みとを算出し、それらを出力する索引語重み算出手段と、を備えたことを特徴とする文書特徴表現計算装置として構成される。
前記代表ベクトル集合算出手段は、前記入力ベクトルを、量子化誤差が最小となるように量子化する処理を実行することにより前記代表ベクトルを算出し、前記索引語重み算出手段は、前記代表ベクトルに対応する索引語の重みとして、当該代表ベクトルが代表する入力ベクトル群における各入力ベクトルに対応する重みを足し合わせた重みを算出することとしてもよい。
前記代表ベクトル集合算出手段は、前記量子化する処理として、競合学習方式を用いた処理を行い、当該競合学習方式における学習過程で、ランダムに選択した入力ベクトルを用いて代表ベクトルを更新する際に、更新対象の代表ベクトルを入力ベクトルに学習率gの割合で近づけた位置を中心とし、当該中心から更新対象の代表ベクトルまでの距離以内にあり、当該中心に最も近いベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択し、当該選択されたベクトルを更新後の代表ベクトルとすることとしてもよい。
前記代表ベクトル集合算出手段は、前記競合学習方式における学習過程において、更新後の代表ベクトルの値が更新前の代表ベクトルの値と同じであった場合は、学習率gの初期値g0の分だけ当該代表ベクトルに対応する学習率を増加させ、同じでない場合には、学習率gを前記初期値g0とすることとしてもよい。
また、本発明は、入力された文書から、当該文書の特徴を表すための索引語に対応する重みを出力する文書特徴表現計算装置であって、索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、前記文書の特徴を表す特徴表現索引語を格納する特徴表現索引語格納手段と、前記文書から各索引語とその出現頻度を抽出する索引語抽出手段と、前記索引語抽出手段により抽出された各索引語に対応するベクトルを前記概念ベース格納手段から取得し、当該ベクトルの集合を前記出現頻度で重み付けして平均をとることにより文書ベクトルを算出する文書ベクトル算出手段と、前記特徴表現索引語格納手段に格納された各特徴表現索引語に対応する前記概念ベースにおけるベクトルと、前記文書ベクトル算出手段により算出された文書ベクトルとを用いて前記特徴表現索引語に対応する重みを算出し、出力する重み算出手段とを備えたことを特徴とする文書特徴表現計算装置として構成することもできる。
前記重み算出手段は、前記各特徴表現索引語に対応する前記概念ベースにおけるベクトルを列ベクトルとして横に並べた行列の擬似逆行列を前記文書ベクトルに掛けることにより前記重みを算出することとしてもよい。
また、本発明は、コンピュータを、上記文書特徴表現計算装置における各手段として機能させるためのプログラムとして構成することもできる。
本発明によれば、文書の特徴を人間に分かりやすい形で表現することができるため、文書特徴の妥当性を判断したり文書の傾向を把握したりすることが可能となる。これにより、文書分類問題における正解文書の収集などにおいて、文書量や質を判断するための重要な手がかりを得ることができる。
以下、本発明の実施の形態として、第1の実施の形態、及び第2の実施の形態を説明する。なお、以下で説明する実施の形態では、文書の特徴を表すための単位として"単語"を用いる例を説明するが、文書の特徴を表すための単位は"単語"に限定されるものではなく、文書の構成要素であればどのような単位を用いてもよい。例えば、文書の特徴を表すための単位として、合成語、フレーズ等を用いてもよい。その場合、以下の説明の中での"単語"を当該語(合成語、フレーズ等)に置き換えればよい。また、本明細書及び特許請求の範囲において、当該単位となる単語、合成語、フレーズ等の語を索引語と呼ぶことにする。
(第1の実施の形態)
まず、本発明の第1の実施の形態について説明する。
<概要>
本実施の形態では、文書の特徴を限られた数の単語と、その単語に付与した重みによって表すこととしている。単語は人間にとって分かりやすく、また、その数を限られたものとしたために、本実施の形態によれば人間にとって文書の全体の特徴を把握することが容易になる。
本実施の形態では、文書の特徴を表す単語を文書から抽出する際に、その単語に対応する概念ベクトルが文書中の単語の概念ベクトルを良く代表するように抽出する。ここで、良く代表するとは、量子化誤差が小さいという意味である。そして、本実施の形態におけるベクトル量子化に係る処理方法は、特許文献1に記載された競合学習方式に基づくものであり、特許文献1に記載された技術との主な違いは、代表ベクトルのとり得る値を、単語概念ベース中のベクトルに限定した点であり、そのためのアルゴリズムの付加及び変更が施されている。
<装置構成>
図1に、本発明の第1の実施の形態における文書特徴表現計算装置10の機能構成図を示す。図1に示すように、本実施の形態における文書特徴表現計算装置10は、入力部11、単語頻度算出部12、入力ベクトル集合算出部13、代表ベクトル集合算出部14、単語・重み算出部15、出力部16、単語概念ベース格納部17、入力ベクトル集合格納部18、代表ベクトル集合格納部19を有する。
入力部11は、特徴を表現する対象となる文書、及び後述する処理の中で使用される各種パラメータの値を入力するための機能部である。単語頻度算出部12は、入力された文書から、文書を構成する各単語とその出現頻度を算出するための機能部である。入力ベクトル集合算出部13は、単語概念ベース格納部17に格納された単語概念ベースを参照することにより、単語をベクトルに変換して、当該ベクトルと出現頻度とを対応付けて入力ベクトル集合格納部18に格納する機能部である。
代表ベクトル集合算出部14は、入力されたパラメータ情報、入力ベクトル集合、及び単語概念ベースを用いて代表ベクトルを算出し、代表ベクトル集合として代表ベクトル集合格納部19に格納する機能部である。単語・重み算出部15は、入力ベクトル集合、代表ベクトル集合、及び単語概念ベースを用いて、文書の概念を表す情報として、単語とその重みを算出する機能部である。出力部16、単語・重み算出部15により算出された単語とその重みの情報を出力するための機能部である。
単語概念ベース格納部17は単語概念ベースを格納する格納部であり、入力ベクトル集合格納部18は入力ベクトル集合を格納する格納部であり、代表ベクトル集合格納部19は代表ベクトル集合を格納する格納部である。
なお、文書特徴表現計算装置10は、CPUと、メモリやハードディスク等の記憶装置とを含む一般的なコンピュータに、本実施の形態で説明する処理に対応するプログラムを実行させることにより実現されるものであり、上述した各機能部は、コンピュータに当該プログラムが実行されて実現される機能部である。従って、例えば、各機能部間での情報のやりとりは、実際にはメモリ等の記憶装置を介して行われるものである。なお、上記プログラムは、メモリ等の記録媒体からコンピュータにインストールすることもできるし、ネットワーク上のサーバからダウンロードするようにしてもよい。
<文書特徴表現計算装置10の動作>
次に、文書特徴表現計算装置10の処理動作について、図2、図3に示すフローチャートを参照して説明する。
文書特徴表現計算装置10の処理を行う前に、事前処理として、単語概念ベースを作成し、それを単語概念ベース格納部17に格納しておく。単語概念ベースの作成方法としては、例えば、文書コーパスを利用し、特許文献2で説明されている単語−意味属性間の共起情報を用い、特異値分解等の次元圧縮処理を経て、単語に対応する概念ベクトルを算出し、これを単語概念ベースとして単語概念ベース格納部17に格納する。
なお、特許文献2では、上記概念ベクトルは"単語ベクトル"として記載されている。また、概念ベースを算出する際には、単語−意味属性間の共起情報を用いることのほか、単語−単語間の共起情報を用いることとしてもよい。
単語と概念ベクトルは1対1で紐付けられており、単語概念ベースは、例えば図4に示すように、単語と概念ベクトルとの対応を表す対応表の形で作成されている。
以下、図2のフローチャートに沿って、処理の流れを説明する。
まず、文書、ベクトル量子化数(n)、終了回数(L)、検査回数(C)、ベース学習率(g0)を、入力部11により文書特徴表現計算装置10に入力する(ステップ1)。ここで、"文書"は特徴を表す対象とする文書であり、ベクトル量子化数nは、最終的に文書の特徴を表すための単語の数である。他の値は、後述する代表ベクトル算出において用いる値である。入力された情報は、単語頻度算出部12に送られる。
次に、単語頻度算出部12は、入力された文書に対して形態素解析を行うことにより、当該文書を単語に分割し、各単語とその出現頻度情報を取得し(ステップ2)、取得した情報と、上記の入力情報とを入力ベクトル集合算出部13に送る。
入力ベクトル集合算出部13は、単語概念ベース格納部17に格納されている単語概念ベースを参照することにより、ステップ2で求めた各単語に対応する概念ベクトルを単語概念ベースから取得し、当該ベクトルと単語の出現頻度とを対応付けた情報の集合である入力ベクトル集合を算出し、これを入力ベクトル集合として入力ベクトル集合格納部18に格納する(ステップ3)。図5に、入力ベクトル集合の一例を示す。
続いて、代表ベクトル集合算出部14が、ステップ3において算出された入力ベクトル集合、単語概念ベース、及び、入力ベクトル集合算出部13から入力されるベクトル量子化数(n)、終了回数(L)、検査回数(C)、ベース学習率(g0)を用いて代表ベクトルの集合を算出し、これを代表ベクトル集合として代表ベクトル集合格納部19に保存する処理を行う(ステップ4)。
以下、代表ベクトル集合算出部14が実行する代表ベクトル集合の算出処理を、図3に示すフローチャートに沿って詳細に説明する。
まず、上記のように、入力ベクトル集合算出部13から、ベクトル量子化数(n)、終了回数(L)、検査回数(C)、及びベース学習率(g0)が代表ベクトル算出部14に入力される(ステップ101)。
ここで、上記の終了回数Lは代表ベクトル集合を算出する際の総学習回数を表し、検査回数Cは代表ベクトルを順次生成する際に、次回の代表ベクトルを生成するまでの学習回数を表す。ベース学習率g0は代表ベクトルを更新する際の変化率の最小値である。後述するように、学習率は状況に応じて変化する。
続いて、代表ベクトル集合算出部14は、処理過程を管理するパラメータの初期設定を行う(ステップ102)。ここでは、繰り返し処理の中で順次生成される代表ベクトルの数をqと定義し、それに1を代入する。また、既に繰り返された学習の回数を示す学習回数をtと定義し、それに初期値0を代入する。また、検査回数Cに達するまでの学習回数をカウントする部分回数をrと定義して、それに初期値0を代入する。
次に、代表ベクトルの初期化を行う。ここでは、代表ベクトル集合算出部14は、入力ベクトル集合格納部18に格納されている入力ベクトル集合の中からランダムに1つの入力ベクトルを選択し、そのベクトル値を1個目の代表ベクトルの値と定める。代表ベクトルには、学習率gと部分ひずみの値が付帯しており、学習率gをベース学習率g0とし、部分ひずみの値を0とする。なお、部分ひずみとは、入力ベクトル集合を各代表ベクトルで量子化した際に生じる量子化誤差を代表ベクトル毎に集計した値であるが、その処理内容についてはステップ151からの代表ベクトル生成処理のところで説明する。
ここでの代表ベクトルは、メモリにおける作業領域に格納される(つまり、メモリに格納される)。図6に、代表ベクトルのデータの例を示す。以下で説明する処理に従って、この作業領域に格納された値が順次更新されていく。なお、図6に示す「番号」は、代表ベクトルとして選択される概念ベクトルの番号であり、図4に示す単語概念ベースにおける「番号」と対応付けられるものである。この番号により、図6に示す代表ベクトルと、単語概念ベースにおける単語とを紐付けることができる。
次に、代表ベクトル集合算出部14は、部分回数rが検査回数Cに達しており、かつ代表ベクトル数qがベクトル量子化数nよりも小さいか否かを判断する(ステップ103)。判断結果がYesであればステップ151の処理を行い、判断結果がNoであればステップ104からの処理を行う。まず、判断結果がNoの場合の処理について説明する。
ステップ104において、代表ベクトル集合算出部14は、入力ベクトル集合格納部18に格納された入力ベクトル集合の中からランダムに1つの入力ベクトルを選択する。このとき、ベクトルの数がそれに対応する出現頻度分存在すると考え、各入力ベクトルが選択される確率を出現頻度に比例させる。つまり、出現頻度が高いほど、その出現頻度に対応する入力ベクトルが高い確率で選択される。なお、各単語に重要度等の重み付けがなされている場合は、この重みも出現頻度(つまり選択確率)に反映させることもできる。
そして、代表ベクトル集合算出部14は、選択された入力ベクトルXと、既に生成され作業領域に格納されている各代表ベクトルWとの間のユークリッド2乗距離を計算し、代表ベクトルの中で最も入力ベクトルXとの距離が小さい代表ベクトルWを勝者として選出する(ステップ105)。なお、同じ距離の複数の代表ベクトルがあった場合は、登録が若い(現在に近い)代表ベクトルを勝者とする。また、入力ベクトルと勝者の代表ベクトルとの距離を、当該代表ベクトルに対応する部分ひずみに加算する(ステップ106)。
次に、代表ベクトル集合算出部14は、勝者の代表ベクトルを更新する処理を行う(ステップ107)。ここではまず、勝者の代表ベクトルW、入力ベクトルX、及びこの代表ベクトルに付帯している学習率gを用いてW+g(X-W)を計算し、これを仮の代表ベクトルW0とする。つまり、W0←W+g(X-W)によりW0を求める。
図7に示すように、仮の代表ベクトルW0は、勝者の代表ベクトルWを学習率gに応じた率だけ入力ベクトルXに近づけたベクトルである。特許文献1では、このW0を更新された代表ベクトルとしている。一方、本実施の形態においては、代表ベクトルのとり得る値を、単語概念ベースの中のベクトルに限定することとしているので、以下に示す近似処理を行う。
すなわち、代表ベクトル集合算出部14は、W0から距離‖W−W0‖以内に存在する単語概念ベースの中のベクトルのうち、最もW0に近いベクトルを、勝者の代表ベクトルの新たな値Wとする。つまり、作業領域に格納されている更新前の勝者の代表ベクトルを、当該新たな代表ベクトルに書き換え、これに対応する概念ベクトルの番号を記入する。もし、単語概念ベースの中に最もW0に近いベクトルが複数ある場合には、その中のうち、単語概念ベースへの登録が最も若いベクトルを選択し、それを勝者の代表ベクトルの新たな値Wとする。
更に、代表ベクトル集合算出部14は、上記代表ベクトルに付帯する学習率gの値を更新する(ステップ108)。もし、当該代表ベクトルが学習により移動した場合は、g←g0のようにベース学習率の値を学習率として、当該代表ベクトルの学習率へ反映させる。また、もし代表ベクトルが移動しなかった場合は、学習率をg←g+g0により更新し、同様に当該代表ベクトルの学習率へ反映させる。
なお、代表ベクトルが移動しない事象は、W0から距離‖W-W0‖以内に存在する単語概念ベースの中のベクトルが、唯一更新前の代表ベクトルWであった場合に起こる。このように学習率を変更することで、代表ベクトル更新時一回あたりの学習率をベース学習率のg0にすることができる。つまり、学習率の期待値をベース学習率のg0にすることができる。
次に、代表ベクトル集合算出部14は、部分回数rと学習回数tとにそれぞれ1を加えた上で(ステップ109)、学習回数tがLに達しているか否かを判断する(ステップ110)。この判断結果がYesであれば、作業領域における全ての代表ベクトルを「代表ベクトル集合」として代表ベクトル集合格納部19に保存して(ステップ111)、処理を終了する。判断結果がNoであれば、ステップ103の判断処理に移る。
以上のステップ104〜ステップ108の学習処理を繰り返し、部分回数rが検査回数Cに達し、代表ベクトル数qがベクトル量子化数nよりも小さい場合は、ステップ151からの代表ベクトル生成処理を行う。
すなわち、代表ベクトル算出部14は、部分回数rを0にクリアした(ステップ151)後、作業領域から各代表ベクトルの部分ひずみを取得する(ステップ152)。前述したように、部分ひずみとは、入力ベクトル集合を各代表ベクトルで量子化した際に生じる量子化誤差を代表ベクトル毎に集計した値である。
代表ベクトルの支配領域内に存在する全ての入力ベクトルとその代表ベクトルとの間の距離を計算し、その総和をとることにより部分ひずみを実際に計算することも可能であるが、本実施の形態では、学習の度に入力ベクトルとの距離を加算してきた部分ひずみを各代表ベクトルに関する部分ひずみ(真値)の近似と考え、最も部分ひずみの大きな代表ベクトルを選択する(ステップ153)。また、ここで、全ての代表ベクトルにおける部分ひずみの値を0にする。
次に、代表ベクトル集合算出部14は、ステップ153において選択した代表ベクトルに基づいて新たな代表ベクトルを生成する(ステップ154)。本実施の形態では、選択された代表ベクトルと同じベクトル値を持つ新たな代表ベクトルを1個生成し、作業領域に格納する。そして、代表ベクトル集合算出部14は、代表ベクトル数qに1を加算して(ステップ155)、ステップ103に進む。
以上のようにして、最初は1個であった代表ベクトルが学習を検査回数C繰り返す毎に1個ずつ追加されていき、最終的にベクトル量子化数nに等しい個数まで代表ベクトルが生成される。また、代表ベクトルの学習が繰り返されていき、最終的に終了回数Lに達したときに、代表ベクトル集合算出部14は、全ての代表ベクトルを代表ベクトル集合として代表ベクトル集合格納部19に保存し(ステップ111)、図3に示す代表ベクトル集合算出処理を終了する。なお、代表ベクトル集合格納部19に保存されるデータの構造は、図6に示したものと同様である。
ここまでの処理により、代表ベクトル集合の算出が実施された後、単語・重み算出部15が、最終的に文書特徴を表現するための単語と重みを算出し、出力する処理を行う(図2のステップ5)。
この処理ではまず、単語・重み算出部15は、入力ベクトル集合格納部18に格納されている各入力ベクトルをそれに最も近い代表ベクトルで代表させる。つまり、ある入力ベクトルに着目すると、その入力ベクトルに最も近い代表ベクトルをその入力ベクトルを代表する代表ベクトルとする。この処理を各入力ベクトルについて行うことにより、各入力ベクトルに対応する代表ベクトルが算出される。そして、単語・重み算出部15は、各代表ベクトルについて、その代表ベクトルが代表する各入力ベクトルの重み(重みとして、例えば、本実施の形態では、各入力ベクトルに対応付けられている出現頻度を用いることができる)の和を計算し、それを当該代表ベクトルに関する重みとする。
次に、単語・重み算出部15は、単語概念ベース格納部17を参照することにより、各代表ベクトル(それぞれ単語概念ベース中の概念ベクトルである)に対応する各単語を取得する。そして、各単語と、その重み(当該単語に対応する代表ベクトルに対応する重み)とを出力部16を介して出力する。以上の処理により、単語とそれに関する重みとして文書特徴を表せたことになり、処理を終了する。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。本実施の形態は、文書中の単語の概念ベクトルを全ての単語について平均した平均ベクトルである文書ベクトル(特許文献2参照)が文書の特徴を表していることに着目し、この文書ベクトルを単語と重みによって近似するという考えに基づいている。
そして、本実施の形態では、文書特徴を表すための単語の集合は、事前に何らかの方法で求めてあるものとする。例えば、文書を第1の実施の形態における文書特徴表現計算装置10を用いて処理し、その文書を良く表すことのできる単語の集合を求めておく。共通の単語集合により種々の文書の特徴を表すことができれば、それら文書同士を人間に分かりやすい形で比較することが可能である。第2の実施の形態は、このような利用場面を想定している。
<装置構成>
図8に、第2の実施の形態における文書特徴表現計算装置20の機能構成図を示す。図8に示すように、本実施の形態における文書特徴表現計算装置20は、入力部21、単語頻度算出部22、文書ベクトル算出部23、重み算出部24、出力部25、単語概念ベース格納部26、単語集合格納部27を有する。
入力部21は、特徴を表現する対象となる文書を入力するための機能部である。単語頻度算出部22は、入力された文書から、文書を構成する各単語とその出現頻度を算出するための機能部である。文書ベクトル算出部23は、単語概念ベースを参照することにより、各単語とその出現頻度を用いて文書ベクトルを算出するための機能部である。重み算出部24は、上述した考えに基づき、単語の重み(係数)を算出するための機能部である。出力部25は、文書の特徴を表す単語と、重み算出部24により算出された重みとを出力するための機能部である。
単語概念ベース格納部26は単語概念ベースを格納する格納部であり、単語格納部27は、文書の特徴を表す単語を格納する格納部である。
なお、文書特徴表現計算装置20は、CPUと、メモリやハードディスク等の記憶装置とを含む一般的なコンピュータに、本実施の形態で説明する処理に対応するプログラムを実行させることにより実現されるものであり、上述した各機能部は、コンピュータに当該プログラムが実行されて実現される機能部である。従って、例えば、各機能部間での情報のやりとりは、実際にはメモリ等の記憶装置を介して行われるものである。なお、上記プログラムは、メモリ等の記録媒体からコンピュータにインストールすることもできるし、ネットワーク上のサーバからダウンロードするようにしてもよい。
<文書特徴表現計算装置20の動作>
次に、文書特徴表現計算装置20の処理動作を、図9に示すフローチャートに沿って説明する。
まず、事前処理として、第1の実施の形態と同様にして単語概念ベースを用意し、単語概念ベース格納部26に格納するとともに、処理の対象とする文書の特徴を表す単語の集合を求めておき、それを単語格納部27に格納しておく。例えば、単語概念ベースとしては第1の実施の形態で使用したものを使用し、文書の特徴を表す単語の集合としては、本実施の形態で対象とする文書に対して、第1の実施の形態での処理を施して求めた単語の集合を用いることができる。なお、以下、文書の特徴を表すための単語の数をnとし、単語概念ベースにおける概念ベクトルの次元数をMとする。
事前処理の後に、まず、処理の対象とする文書を、入力部21を介して文書特徴表現計算装置20に入力する(ステップ11)。当該文書は単語頻度算出部22に渡される。単語頻度算出部22は、形態素解析により当該文書を単語に分割し、単語とその出現頻度情報を算出する(ステップ12)。これらの情報は文書ベクトル算出部23に送られる。
続いて、文書ベクトル算出部23は文書ベクトル算出処理を行う(ステップ13)。つまり、文書ベクトル算出部23は、単語概念ベース格納部26に格納された単語概念ベースを参照することにより、単語頻度算出部22により算出された各単語から、それに対応する概念ベクトルを取得し、取得された各概念ベクトルに、当該概念ベクトルに対応する単語の出現頻度(この出現頻度に単語の重要度の重みを反映することも可能である)で重みを付け(出現頻度を掛ける)、重み付けされた概念ベクトル集合の平均(和を取って、全体の数で割る)をとり、これを文書ベクトルy(M次元列ベクトル)とする。ここで算出された情報が重み算出部24に渡される。
次に、文書特徴を表すものとして単語格納部27に格納されている各単語の重み(係数)を算出する処理を行う(ステップ14)。その処理の詳細は以下のとおりである。
重み算出部24は、単語概念ベース格納部26に格納されている単語概念ベースから、単語格納部27に格納されている各単語に対応する概念ベクトルを取得し、取得した各概念ベクトルを列ベクトルとし、単語数分の列ベクトルを横に並べた行列A(M×N行列)を作成する。これを単語基底と呼ぶことにする。
各単語に対する重み(本実施形態で求めようとしている重み)のベクトルをx(N次元列ベクトル)とすると、単語基底と係数xにより文書ベクトルyは
y≒Ax 式(1)
のように近似できる。ここで単語基底を特異値分解すると、
A=UΣVt 式(2)
と表せる。そして、Aの擬似逆行列A+
A+=VΣ+Ut 式(3)
により求めることができる。ここで、Σ+は、Σの零でない成分の逆数を成分とする行列の転置である。この擬似逆行列を用いることにより、式(1)においてyを2乗誤差を最小化する意味で最適近似する重み(係数)xは、
x=A+y 式(4)
により表すことができる。つまり、重み算出部24は、単語基底と文書ベクトルyを用いて、式(2)〜(4)で示す計算を行うことにより重みベクトルxを算出する。
その後、出力部25が、重みベクトルxの値と、単語格納部27に格納されている単語を出力する。なお、単語は予め求めてあるものなので、重みxだけを出力することとしてもよい。
以上の処理により、与えられた文書の特徴を表現する単語に対応した重みが算出でき、処理を終了する。なお、第1に実施の形態における文書特徴表現計算装置10に、本実施の形態における文書ベクトル算出部23、重み算出部24、単語格納部27を加え、文書特徴表現計算装置10において本実施の形態で説明した重みxを計算し、単語とともに出力することとしてもよい。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
第1の実施の形態における文書特徴表現計算装置10の機能構成図である。 文書特徴表現計算装置10の動作を説明するためのフローチャートである。 文書特徴表現計算装置10の動作を説明するためのフローチャートである。 単語概念ベースの例を示す図である。 入力ベクトル集合の例を示す図である。 作業領域に格納される代表ベクトルの例を示す図である。 仮の代表ベクトルW0を説明するための図である。 第2の実施の形態における文書特徴表現計算装置20の機能構成図である。 文書特徴表現計算装置20の動作を説明するためのフローチャートである。
符号の説明
10 文書特徴表現計算装置
11 入力部
12 単語頻度算出部
13 入力ベクトル集合算出部
14 代表ベクトル集合算出部
15 単語・重み算出部
16 出力部
17 単語概念ベース格納部
18 入力ベクトル集合格納部
19 代表ベクトル集合格納部
20 文書特徴表現計算装置
21 入力部
22 単語頻度算出部
23 文書ベクトル算出部
24 重み算出部
25 出力部
26 単語概念ベース格納部
27 単語集合格納部

Claims (7)

  1. 入力された文書から、当該文書の特徴を表すための索引語と、その重みとを出力する文書特徴表現計算装置であって、
    索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、
    前記文書から各索引語を抽出する索引語抽出手段と、
    前記概念ベース格納手段から、前記索引語抽出手段で抽出された各索引語に対応するベクトルを入力ベクトルとして取得し、当該入力ベクトルの集合を入力ベクトル集合格納手段に格納する入力ベクトル集合算出手段と、
    前記入力ベクトル集合格納手段に格納された入力ベクトルの集合に対する各代表ベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択することにより算出する代表ベクトル集合算出手段と、
    前記代表ベクトル算出手段により算出された各代表ベクトルに対応する索引語と、その重みとを算出し、それらを出力する索引語重み算出手段と、
    を備えたことを特徴とする文書特徴表現計算装置。
  2. 前記代表ベクトル集合算出手段は、前記入力ベクトルを、量子化誤差が最小となるように量子化する処理を実行することにより前記代表ベクトルを算出し、
    前記索引語重み算出手段は、前記代表ベクトルに対応する索引語の重みとして、当該代表ベクトルが代表する入力ベクトル群における各入力ベクトルに対応する重みを足し合わせた重みを算出することを特徴とする請求項1に記載の文書特徴表現計算装置。
  3. 前記代表ベクトル集合算出手段は、前記量子化する処理として、競合学習方式を用いた処理を行い、当該競合学習方式における学習過程で、ランダムに選択した入力ベクトルを用いて代表ベクトルを更新する際に、更新対象の代表ベクトルを入力ベクトルに学習率gの割合で近づけた位置を中心とし、当該中心から更新対象の代表ベクトルまでの距離以内にあり、当該中心に最も近いベクトルを、前記概念ベース格納手段に格納されたベクトルの集合から選択し、当該選択されたベクトルを更新後の代表ベクトルとすることを特徴とする請求項2に記載の文書特徴表現計算装置。
  4. 前記代表ベクトル集合算出手段は、前記競合学習方式における学習過程において、更新後の代表ベクトルの値が更新前の代表ベクトルの値と同じであった場合は、学習率gの初期値g0の分だけ当該代表ベクトルに対応する学習率を増加させ、同じでない場合には、学習率gを前記初期値g0とすることを特徴とする請求項3に記載の文書特徴表現計算装置。
  5. 入力された文書から、当該文書の特徴を表すための索引語に対応する重みを算出し、出力する文書特徴表現計算装置であって、
    索引語と、それに対応するベクトルとを含む概念ベースを格納する概念ベース格納手段と、
    前記文書の特徴を表す特徴表現索引語を格納する特徴表現索引語格納手段と、
    前記文書から各索引語とその出現頻度を抽出する索引語抽出手段と、
    前記索引語抽出手段により抽出された各索引語に対応するベクトルを前記概念ベース格納手段から取得し、当該ベクトルの集合を前記出現頻度で重み付けして平均をとることにより文書ベクトルを算出する文書ベクトル算出手段と、
    前記特徴表現索引語格納手段に格納された各特徴表現索引語に対応する前記概念ベースにおけるベクトルと、前記文書ベクトル算出手段により算出された文書ベクトルとを用いて前記特徴表現索引語に対応する重みを算出し、出力する重み算出手段と
    を備えたことを特徴とする文書特徴表現計算装置。
  6. 前記重み算出手段は、前記各特徴表現索引語に対応する前記概念ベースにおけるベクトルを列ベクトルとして横に並べた行列の擬似逆行列を前記文書ベクトルに掛けることにより前記重みを算出することを特徴とする請求項5に記載の文書特徴表現計算装置。
  7. コンピュータを、請求項1ないし6のうちいずれか1項に記載の文書特徴表現計算装置における各手段として機能させるためのプログラム。
JP2008128857A 2008-05-15 2008-05-15 文書特徴表現計算装置、及びプログラム Active JP5244452B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008128857A JP5244452B2 (ja) 2008-05-15 2008-05-15 文書特徴表現計算装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008128857A JP5244452B2 (ja) 2008-05-15 2008-05-15 文書特徴表現計算装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2009277100A true JP2009277100A (ja) 2009-11-26
JP5244452B2 JP5244452B2 (ja) 2013-07-24

Family

ID=41442454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008128857A Active JP5244452B2 (ja) 2008-05-15 2008-05-15 文書特徴表現計算装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5244452B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140184607A1 (en) * 2012-12-28 2014-07-03 Fujitsu Limited Information processing apparatus and method for generating graphs
JP2019159699A (ja) * 2018-03-12 2019-09-19 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08316842A (ja) * 1995-05-15 1996-11-29 N T T Data Tsushin Kk ベクトル量子化のための代表ベクトル生成方式及び方法
JP2002014999A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 類似文書検索装置及び関連キーワード抽出装置
JP2005149014A (ja) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 文書関連語彙獲得方法及び装置及びプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08316842A (ja) * 1995-05-15 1996-11-29 N T T Data Tsushin Kk ベクトル量子化のための代表ベクトル生成方式及び方法
JP2002014999A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 類似文書検索装置及び関連キーワード抽出装置
JP2005149014A (ja) * 2003-11-13 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 文書関連語彙獲得方法及び装置及びプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140184607A1 (en) * 2012-12-28 2014-07-03 Fujitsu Limited Information processing apparatus and method for generating graphs
US9633457B2 (en) * 2012-12-28 2017-04-25 Fujitsu Limited Apparatus and method for automatically determining graph types, based on analysis of electronic document
JP2019159699A (ja) * 2018-03-12 2019-09-19 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム
JP7013957B2 (ja) 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Also Published As

Publication number Publication date
JP5244452B2 (ja) 2013-07-24

Similar Documents

Publication Publication Date Title
JP7315748B2 (ja) データ識別器訓練方法、データ識別器訓練装置、プログラム及び訓練方法
CN106886599B (zh) 图像检索方法以及装置
Tokdar et al. Importance sampling: a review
JP5408128B2 (ja) 画像処理装置、画像処理方法、処理装置、およびプログラム
US8595155B2 (en) Kernel regression system, method, and program
CN112417028B (zh) 一种风速时序特征挖掘方法及短期风电功率预测方法
JP5755823B1 (ja) 類似度算出システム、類似度算出方法およびプログラム
JP7151654B2 (ja) 検索装置、学習装置、検索システム、検索プログラム、及び学習プログラム
CN109800853B (zh) 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备
CN112364942B (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
CN113255842A (zh) 车辆置换预测方法、装置、设备及存储介质
JP2013097723A (ja) テキスト要約装置、方法及びプログラム
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
JP5244452B2 (ja) 文書特徴表現計算装置、及びプログラム
CN113869332A (zh) 一种特征选择方法、装置、存储介质和设备
JP5623369B2 (ja) テキスト要約装置、方法及びプログラム
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
JP4099197B2 (ja) 概念ベクトル推定方法及び装置及びプログラム及びコンピュータ読取可能な記憶媒体
JP5008137B2 (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP7438544B2 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP6482084B2 (ja) 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム
JP2009295130A (ja) 画像解析装置、画像登録装置および画像検索装置
CN110659962A (zh) 一种商品信息输出方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350