JP2012221316A

JP2012221316A - 文書トピック抽出装置及び方法及びプログラム

Info

Publication number: JP2012221316A
Application number: JP2011087679A
Authority: JP
Inventors: Akihiro Miyata; 章裕宮田; Takashi Fujimura; 考藤村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2012-11-12
Anticipated expiration: 2031-04-11
Also published as: JP5587821B2

Abstract

【課題】対象文書の概念を説明する語が抽出でき、さらに、対象文書内に含まれない語は抽出されないようにする。
【解決手段】本発明は、文書群を入力し、入力された各文書の特徴語である対象文書特徴語を抽出し、入力された各文書の関連文書を抽出し、関連文書の特徴語である関連文書特徴語を抽出する。対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出し、抽出した前記トピックを出力する。
【選択図】図４

Description

本発明は、文書トピック抽出装置及び方法及びプログラムに係り、特に、文書群内の各文書の概念を説明する語を各文書から抽出するための文書トピック抽出装置及び方法及びプログラムに関する。

文書群内の各文書の概念を説明する語の抽出は多くの場面で重要である。

例えば、文書検索においては、文書から抽出した該文書の概念を説明する語を、文書にメタ情報として付与することで検索精度を向上させられる。あるいは、小説内の各ページの概念を説明する語を自動抽出できれば、その語に適切な挿絵を何らかの方法で自動生成することで、例えば、図１に示すように、各ページに適切な挿絵が自動で表示される電子書籍端末を実現することができる。

文書群内の各文書の概念を説明する語の抽出方法としては、
(1)対象文書から語を抽出する方法；
(2)対象文書を含む文書群内から語を抽出する方法；
がある。

上記(1)対象文書から語を抽出する方法では、TFIDF値が高い語を抽出する方式がよく用いられる。すなわち、対象文書中でTFIDF値が高い語を抽出し、これを対象文書の概念を説明する語とする方式である。なお、文書dにおける語wのTFIDF値は、下記の式により算出できる。

文書dにおける語wのTFIDF値 = TF * IDF
TF = (文書d中における語wの出現回数) / (文書d中における全語数)
IDF = log{ (全文書数) / (語wの出現文書数) }
上記(2)対象文書を含む文書群内から語を抽出する方法では、PLSA、LDA等のトピックモデルを用いる方式がある（例えば、非特許文献1参照）。非特許文献1では、LDAを用いて文書群内の各文書を内容の潜在的類似性に基づいて分類し、各分類内で多く出現する語を抽出している。文書dを含む分類D内で語wが多く出現するとき、語wを文書dの概念を説明する語とすることができる。

また、出現語の類似性に基づいて新聞記事をクラスタリングし、各クラスタ内で高頻度に出現する語を、各クラスタ内の記事の特徴語とする方法がある（例えば、非特許文献２参照）。

Blei, David M., Ng, Andrew Y. and Jordan, Michael I.:Latent Dirichlet Allocation. Journal of Machine Learning Research 3: pp.993-1022. 橋本泰一，村上浩司，乾孝司，内海和夫，石川正道：文書クラスタリングによるトピック抽出および課題発見．社会技術研究論文集 Vol.5，pp.216-226，2008．

文書の概念を代表する語を該文書から抽出したい場合、前述の(1)対象文書から語を抽出する方法は、必ずしも対象文書の概念を説明する語が抽出できないという問題がある。

また、前述の(2)対象文書を含む文書群内から語を抽出する方法は、抽出した語が対象文書には含まれていない場合があるという問題がある。

以降、複数の文書を含む文書群として、小説を例に説明する。

すなわち、小説の１ページが１文書、１冊または複数冊の小説内のページ全体が文書群となる。

(1)対象文書から語を抽出する方法を用いて、図２に示す小説の１ページ内からTFIDF値が高い語を抽出する場合を考える。この場合、『カメレオン』のような、その他の文書には頻繁に出現しないような珍しい語が抽出される。

しかし、図２は会社やビジネスに関する文書であるので、この文書の概念を説明する語として『カメレオン』はふさわしくない。

(2)対象文書を含む文書群内から語を抽出する方法を用いて、図３に示す小説のページ群内に多く出現する語を抽出する場合を考える。これらのページは『生徒』、『机』といった語が共通しているため、PLSA、LDA等のトピックモデルにより内容が潜在的に類似していると判定され同じ文書集合に分類されることが想定でき、この場合、ページ群内で多く出現する語は『学校』である。しかし、図３の左上端のページは『塾』に関する文書であるので、この文書の概念を説明する語として『学校』はふさわしくない。

上記のように、従来の技術には、必ずしも対象文書の概念を説明する語が抽出できない、及び、抽出した語が対象文書に含まれていない、という問題がある。

本発明は、上記の点に鑑みなされたもので、対象文書の概念を説明する語が抽出でき、さらに、対象文書内に含まれない語は抽出されないような文書トピック抽出装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明は、複数の文書を含む文書群内の各文書のトピックを抽出する文書トピック抽出装置であって、
文書群を入力する入力手段と、
入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
入力された各文書の関連文書を抽出する関連文書抽出手段と、
前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
抽出した前記トピックを出力するトピック出力手段と、を有する。

また、上記の対象文書トピック抽出手段は、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む。

本発明によれば、対象文書の概念を代表する語を抽出する際に、該語が対象文書の概念を説明している可能性を向上させ、さらに、該語が必ず対象文書に含まれているため、各文書の概念を説明する語を、各文書内から抽出できるため、従来は不可能だった多くの応用サービスを可能とする。

電子書籍の端末の例である。小説の一例である。小説のページ群である。本発明の第1の実施の形態におけるトピック抽出装置の構成図である。本発明の第1の実施の形態における入力される文書群の例である。本発明の第1の実施の形態における全体処理のフローチャートである。本発明の第1の実施の形態における文書群入力部で保持される小説データの構造である。本発明の第1の実施の形態における形態素解析後の文書データの例である。本発明の第1の実施の形態におけるBOWモデルに基づく文書ベクトル表現である。本発明の第1の実施の形態における「対象文書特徴語及びTFIDF値テーブル」の例である。本発明の第1の実施の形態におけるＤＫマトリックスの例である。本発明の第1の実施の形態におけるＷＫマトリックスの例である。本発明の第1の実施の形態における「帰属する潜在クラステーブル」の例である。本発明の第1の実施の形態におけるレコード関連文書特徴語抽出処理のフローチャートである。本発明の第1の実施の形態における「関連文書特徴語及び出現確率テーブル」の例である。本発明の第1の実施の形態における「関連文書特徴語及び正規化出現確率のテーブル」の例である。本発明の第1の実施の形態における対照文書トピック抽出部のフローチャートである。本発明の第1の実施の形態における「対象文書トピック及びスコアテーブル」の例である。本発明の第1の実施の形態における「挿絵トピックテーブル」の例である。本発明の第1の実施の形態におけるトピック出力部から出力される電子ファイルの例である。本発明の第２の実施の形態におけるトピック抽出装置の構成図である。本発明の第２の実施の形態における概念体系辞書の例である。本発明の第２の実施の形態における「対象文書特徴語及び概念テーブル」の例である。本発明の第２の実施の形態における対象文書特徴語抽出部の処理のフローチャートである。本発明の第２の実施の形態における「対象文書特徴及び概念近接スコアテーブル」の例である。本発明の第２の実施の形態における「対象文書特徴語及びスコアテーブル」の例である。本発明の第２の実施の形態における「関連文書特徴語及び概念テーブル」の例である。本発明の第２の実施の形態における関連文書特徴抽出部のフローチャートである。本発明の第２の実施の形態における「関連文書特徴語及び概念近接スコアテーブル」の例である。本発明の第２の実施の形態における「関連文書特徴語及びスコアテーブル」の例である。

以下図面と共に、本発明の実施の形態を説明する。

図４は、本発明の一実施の形態におけるトピック抽出装置の構成を示す。

同図に示すトピック抽出装置は、文書入力部１１、文書群整形部１２、対象文書特徴語抽出部１３、関連文書抽出部１４、関連文書特徴語抽出部１５、対象文書トピック抽出部１６、トピック出力部１７を有し、文書群整形部１２は、形態素解析装置２１と接続され、トピック出力部１７は、挿絵データベース（ＤＢ）２２と接続されている。

また、トピック抽出装置は、メモリ（図示せず）を有しており、各部はメモリを用いてデータ伝送・一時保存を行う。

なお、本装置は、外部装置として、形態素解析装置２１、挿絵ＤＢ２２を利用する。挿絵DB22は、ある語に対して挿絵となる画像を定義したデータベースであり、例えば、「山」という語に山の風景を描写した挿絵画像が関連付けられている。語をクエリとして入力すると、該当する挿絵画像が出力される。

本発明のトピック抽出装置は、1つ以上の文書を含む文書群を入力として文書群内の各文書のトピックを抽出するものであり、ここでは、小説の各ページを１つの文書とする。このとき、小説は図５のように、1ページが1つの電子テキストファイルとして予め成形されており、各電子テキストファイルには小説のISBN、ページ番号がメタ情報として付与されているとする。なお、小説の全ページを連結して1つの文章とし、文献１「Hearst, M. TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages, Computational Linguistics, 23(1), pp.33-64, March 1997.」等を用いて上記文章を内容が連続する領域に分割し、各領域を1つの文書としても構わない。

以下に、上記の構成における処理を説明する。

図６は、本発明の一実施の形態における全体処理のフローチャートである。

ステップ１）文書群入力ステップ：
文書群入力部１１は、図５の小説データを入力として受け付け、各小説データに文書IDを付与し、図７のデータ構造でメモリ上に保持する（ステップ１０１）。

文書群整形部１２は、形態素解析装置２１を用いて図７のデータの内容テキストを形態素解析し、出現する名詞を素性としてBOW（Bag of words）モデルに基づく文書ベクトルで表現し、図８のデータ構造でメモリ上に保持する（ステップ１０２）。このとき、素性として用いる名詞は、全レコード中で一定回数以上登場するもののみに絞ってもよいし、素性としてすべての品詞を用いても構わない。

なお、BOWモデルに基づく文書ベクトル表現とは、図９に示すように、文書を語の出現回数（または出現頻度に基づく指標）で表現したモデルであり、文書のクラスタリングタスクにおいて広く一般的に用いられている表現方法である。

ステップ２）対象文書分析ステップ：
対象文書特徴語抽出部１３は、図８の各レコードの文書ベクトルから得られる、各文書中の各語の出現回数に基づいて、前述の文書dにおける語wのTFIDF値算出方法を用いて、各文書中においてTFIDF値が高い語を上位から最大N件抽出し、各語と各文書中における各語のTFIDF値を関連付けて、メモリ上に「対象文書特徴語テーブル」として図１０に示すデータ構造で保持する（ステップ１０３）。なお、Nは1以上の整数で、規定値であるとする。

ステップ３）関連文書分析ステップ：
関連文書抽出部１４は、図８の各レコードの文書ベクトルを入力として一般的な類似文書判定手段を実行し、図８の各レコードの類似文書を抽出する（ステップ１０４）。ここでは、一般的な類似文書判定手段として、前述のLDAを用いて各レコードの文書ベクトルをKクラスにソフトクラスタリングする方法を採る。

具体的には、図８の各レコードの文書ベクトルを入力とし、潜在クラス数をKとしてLDAを実行すると、図１１に示すDKマトリックス（各潜在クラスにおける各文書の出現確率を表す）、図１２に示すWKマトリックス（各潜在クラスにおける各語の出現確率を表す）が得られ、DKマトリックス、WKマトリックスは図１１、図１２のデータ構造でメモリ上に保持される。

本ステップにおけるソフトクラスタリングとは、LDAにより得られる図１１のDKマトリックスにおいて、各文書は一番出現確率が高い潜在クラスに帰属すると判定することであり、各文書が帰属する潜在クラスを文書ＩＤ毎に、図１３に示す、「帰属する潜在クラステーブル」のデータ構造でメモリ上に保存する。

次に、関連文書特徴語抽出部１５は、図１３の各レコードと、図１２のWKマトリックスを入力として、図１４に示すフローに基づいて図１３の「帰属する潜在クラスのテーブル」の各レコードの関連文書特徴語を抽出し、図１５に示す「関連文書特徴語及び出現確率テーブル」のデータ構造でメモリ上に保持する（ステップ１０５）。なお、図１４中のＭは1以上の整数で、規定値であるとする。

以下に、関連文書特徴語抽出部１５の図１４のフローチャートの処理を説明する。

ステップ２０１）図１３に示すメモリ上の帰属する潜在クラスに未処理のレコードがある場合は、ステップ２０２に移行し、ない場合は当該処理を終了する。

ステップ２０２）図１３に示すメモリから未処理かつ文書ＩＤが最小のレコードｘを取得する。

ステップ２０３）レコードｘの帰属する潜在クラスｙを取得する。

ステップ２０４）メモリ上の図１２のＷＫマトリックスから潜在クラスｙで出現確率が上位の語をＭ件取得する。

ステップ２０５）上記Ｍ件の語をレコードｘが表す文書の関連文書特徴語としてｘの文書ＩＤ，クラスｙにおける該語の出現確率と関連付けて図１５に示す「関連文書特徴語及び出現確率テーブル」に新規レコードとして追加し、レコードｘを処理済みとし、ステップ２０１に移行する。

次に、関連文書特徴語抽出部１５は、図１５の「関連文書特徴語及び出現確率テーブル」の各レコードを入力として、当該各レコード内で、関連文書特徴語の出現確率の最大値が１になるよう正規化し、メモリ上の「関連文書特徴語及び正規化出現確率テーブル」に図１６に示すデータ構造で関連文書特徴語及び正規化出現確率を保持する（ステップ１０６）。

ステップ４）対象文書トピック分析・出力ステップ：
対象文書トピック抽出部１６は、対象文書特徴語抽出部１３で抽出された対象文書特徴語と関連文書特徴語抽出部１５で抽出された関連文書特徴語を用いて対象文書トピックを抽出し、トピック出力部１７より出力する。

対象文書トピック抽出部１６は、図１０の「対象文書特徴語及びＴＦＩＤＦ値テーブル」の各レコードと、図１６の「関連文書特徴語及び正規化出現確率テーブル」の各レコードを入力として、図１７に示すフローに基づいて図１０の各レコードの対象文書トピックを抽出し、図１８のデータ構造でメモリ上に保持する（ステップ１０７）。

以下に対象文書トピック抽出部１６の図１７に示すフローチャートの処理を説明する。

なお、図１７中のＡは正の実数（ここでは１とする）、Ｌは１以上の整数で、規定値であるとする。

ステップ３０１）対象文書トピック抽出部１６は、図１０の「対象文書特徴語及びTFIDF値テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ３０２に移行し、ない場合は処理を終了する。

ステップ３０２）図１０に示す「対象文書特徴語及びTFIDF値テーブル」から未処理で、かつ、文書ＩＤが最小のレコードｘを取得する。

ステップ３０３）図１６の「関連文書特徴語及び正規化出現確率テーブル」からレコードｘと同一の文書ＩＤを持つレコードｙを取得する。

ステップ３０４）レコードｘの対象文書特徴語の中で未処理の語がある場合はステップ３１０に移行し、ない場合はステップ３０５に移行する。

ステップ３０５）メモリ上のバッファからスコアｓが上位Ｌ件の対象文書特徴語群を取得し、該語群をレコードｘの対象文書トピックとして各語のスコアｓと関連付けて図１８に示す「対象文書トラヒック及びスコアテーブル」に新規レコードとして追加し、レコードｘを処理済みとする。

ステップ３１０）以下のステップ３１１〜３１６の処理を行い、ステップ３０４に移行する。

ステップ３１１）レコードｘから未処理かつTFIDF値が最高の対象文書特徴語ｗを取得しTFIDF値をｓ１とする。

ステップ３１２）レコードｙで語ｗと同じ関連文書特徴語があるかを判定し、ある場合はステップ３１３に移行し、ない場合はステップ３１５に移行する。

ステップ３１３）レコードｙから当該関連文書特徴語の正規化出現確率を取得し、ｓ２とする。

ステップ３１４）スコアｓをｓ＝Ｓ１＊（Ａ＋ｓ２）により求め、ステップ３１６に移行する。

ステップ３１５）スコアｓをｓ＝ｓ１として求める。

ステップ３１６）語ｗをスコアｓと関連付けてメモリ上のバッファに保存し、語ｗを処理済みとする。

上記の対象文書トピック抽出部１６の処理が終了すると、トピック出力部１７は、図７の小説データと図１８の「対象文書トラヒック及びスコアテーブル」を読み込み、図７の小説データの各レコードに対し、文書ＩＤ，ＩＳＢＮ、ページ、内容テキストを抽出し、「対象文書トラヒック及びスコアテーブル」から当該文書ＩＤと同一の文書ＩＤを持つレコードの対象文書トピック群を抽出し、該トピック群の中で一番スコアが高い語を挿絵トピックとして抽出して、メモリ上の図１９に示す「挿絵トピックテーブル」に保持する（ステップ１０８）。

さらに、トピック出力部１７は、「挿絵トピックテーブル」の各レコードの挿絵トピックをクエリとして、挿絵ＤＢ２２から各挿絵トピックに該当する挿絵画像を取得し、図１９の各レコードのＩＳＢＮ、ページ、内容テキストと合わせて図２０に示すような形式の電子ファイルとして出力する（ステップ１０９）。

［第２の実施の形態］
本実施の形態では、第１の実施の形態を改良したトピック抽出装置について説明する。

本実施の形態では、対象文書特徴語群（図１０）内で他の語と概念が遠い語、関連文書特徴語群（図１６）内で他の語と概念が遠い語が、対象文書トピックの抽出に与える影響を低減するものである。

図２１は、本発明の第２の実施の形態におけるトピック抽出装置の構成を示す。同図において、図４と同一構成部分には同一符号を付し、その説明を省略する。

図２１に示す構成において、第１の実施の形態と異なるのは、外部装置である語概念辞書２３、概念体系辞書２４を利用する点である。

語概念辞書２３は、各語の概念を定義したものであり、語を入力すると、該語の概念を出力する。例えば、「小学校」と入力すると、「教育機関」という出力が得られる。

概念体系辞書２４は、図２２のように、各概念の関係の階層関係を定義したものである。文献２「岩波書店，日本語語彙体系CD-ROM版，ISBN:978-4001301014．」には日本語の語彙３０万語が３０００種類の意味属性で分類されているため、語概念辞書２３、概念体系辞書２４は容易に作成可能である。

本実施の形態における処理フローで第１の実施の形態と異なるのは、ステップ１０３の対象文書特徴語抽出部１３の処理がステップ１００１〜１００４に変わり、ステップ１０６の関連文書特徴語抽出部１５の処理がステップ１００５〜１００８に変わる点である。

まず、ステップ１０３の処理に置き換わるステップ１００１〜１００４を説明する。

ステップ１００１）対象文書特徴語抽出部１３は、図８の各レコードの文書ベクトルから得られる、各文書中の各語の出現回数に基づいて、前述の文書dにおける語wのTFIDF値算出方法を用いて、各文書中においてTFIDF値が高い語を上位から最大N件抽出し、
各語と各文書中における各語のTFIDF値を関連付けて、メモリ上の「対象文書特徴語及びTFIDF値テーブル」に図１０に示すデータ構造で保持する。なお、Nは1以上の整数で、規定値であるとする。

ステップ１００２）対象文書特徴語抽出部１３は、図８の各レコードの文書ベクトルから得られる、各文書中の各語の概念を、語概念辞書２３から取得し、各語と各語の概念を関連付けて、メモリ上の「対象文書特徴および概念近接スコアテーブル」に図２３に示すデータ構造で保持する。

ステップ１００３）対象文書特徴語抽出部１３は、図２３の各レコードを入力とし、概念体系辞書２４を用いて、図２４に示すフローに基づいて各レコード内における各語の概念近接スコアを算出し、メモリ上の「対象文書特徴及び概念近接スコアテーブル」に図２５に示すデータ構造で保持する。

ステップ２００１）図２３の「対象文書特徴語及び概念テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ２００２に移行し、ない場合は処理を終了する。

ステップ２００２）「対象文書特徴語及び概念テーブル」から未処理かつ文書ＩＤが最小のレコードｘを取得する。

ステップ２００３）レコードｘの対象文書特徴語の中で未処理の語がある場合はステップ２０１０（処理１）に移行し、ない場合はステップ２００５に移行する。

ステップ２００５）メモリ上のバッファからレコードｘの各対象文書特徴語と概念近接スコアを取得し、図２５に示すメモリ上の「対象文書特徴及び概念近接テーブル」に新規レコードとして追加する。

ステップ２０１０）以下のステップ２０１１〜２０１８を行う。

ステップ２０１１）レコードｘから未処理の対象文書特徴語ｗを１件取得し、当該語の概念をｃ１とする。

ステップ２０１２）スコアｓをｓ＝０とする。

ステップ２０１３）レコードｘで対象文書特徴語ｗ以外の未比較の語はあるのかを判定し、ある場合はステップ２０１４に移行し、ない場合はステップ２０１８に移行する。

ステップ２０１４）レコードｘから対象文書特徴語ｗ以外、かつ、未比較の対象文書特徴語ｕを１件取得し、その概念をｃ２とする。

ステップ２０１５）ｃ１とｃ２の概念距離を求め、ｄとする。このとき、図２４における概念距離とは、概念体系辞書２４の木構造中における各概念の最短ホップ数とする。
すなわち、図２２において、「教育機関」と「司法機関」は木構造中にて最短2ホップで繋がるので概念距離は２、「教育機関」と「山」は木構造中にて最短5ホップで繋がるので概念距離は５、である。なお、語間の概念距離測定方法は上記に限らず、その他の概念距離測定方法を用いても構わない。

ステップ２０１６）スコアｓをｓ＝ｓ＋Ｂ／（ｄ＋１）とする。なお、Ｂは正の実数で、規定値であるとする。

ステップ２０１７）対象文書特徴語ｕを比較済みとし、ステップ２０１３に移行する。

ステップ２０１８）スコアｓを対象文書特徴語ｗの概念近接スコアとし、メモリ上のバッファに保持する。

ステップ１００４）対象文書特徴語抽出部１３は、図１０の「対象文書特徴語テーブル」および図２５の「対象文書特徴及び概念近接スコアテーブル」の各レコードを入力とし、各レコードについて、図１０から取得した各対象文書特徴語のTFIDF値と、図２５から取得した各対象文書特徴語の概念近接スコアを乗算し、図２６のデータ形式で出力する。

なお、上記、TFIDF値と概念近接スコアの演算は両数値が鑑みられるのであれば、その他の演算方法でも構わない。

次に、第１の実施の形態のステップ１０６に置き換わるステップ１００５〜１００８の関連文書特徴語抽出部１５の処理を説明する。

ステップ１００５）関連文書特徴語抽出部１５は、図１５の関連文書特徴語及び出現確率テーブルの各レコードを入力として、当該各レコード内で、関連文書特徴語の出現確率の最大値が１になるよう正規化し、メモリ上の「関連文書特徴語及び正規化出現確率テーブル」に図１６のデータ構造で保持する。

ステップ１００６）関連文書特徴語抽出部１５は、図１６の各レコードから得られる、
各文書中の各関連文書語の概念を、語概念辞書２３から取得し、各語と各語の概念を関連付けて、メモリ上の「関連文書特徴語及び概念テーブル」に図２７のデータ構造で保持する。

ステップ１００７）関連文書特徴語抽出部１５は、図２７の「関連文書特徴語及び概念テーブル」の各レコードを入力とし、概念体系辞書２４を用いて、図２８に示すフローに基づいて各レコード内における各語の概念近接スコアを算出し、メモリ上の「関連文書特徴語及び概念近接スコアテーブル」に図２９に示すデータ構造で保持する。

以下に図２８示すフローチャートの処理を説明する。

ステップ３００１）図２７の「関連文書特徴語及び概念テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ３００２に移行し、ない場合は処理を終了する。

ステップ３００２）「関連文書特徴語及び概念テーブル」の未処理かつ文書ＩＤが最小のレコードｘを取得する。

ステップ３００３）レコードｘの関連文書特徴語の中で未処理の語があればステップ３０１０に移行し、ない場合はステップ３００４に移行する。

ステップ３００４）メモリ上のバッファからレコードｘの各関連文書特徴語と概念近接スコアを取得し、図２９に示す「関連文書特徴語及び概念近接スコアテーブル」に新規レコードとして追加する。

ステップ３０１０）以下のステップ３０１１〜３０１８を行う。

ステップ３０１１）レコードｘから未処理の関連文書特徴語ｗを１件取得し、当該語ｗの概念をｃ１とする。

ステップ３０１２）スコアｓをｓ＝０とする。

ステップ３０１３）レコードｘで関連文書特徴語ｗ以外の未比較の語があるかを判定し、ある場合はステップ３０１４に移行し、ない場合はステップ３０１８に移行する。

ステップ３０１４）レコードヵら関連文書特徴語ｗ以外で、かつ、未比較の関連文書特徴語ｕを１件取得し、その概念をｃ２とする。

ステップ３０１５）ｃ１とｃ２の概念距離を求め、ｄとする。

ステップ３０１６）スコアｓをｓ＝ｓ＋Ｅ／（ｄ＋１）により求める。なお、Ｅは正の実数で、規定値であるとする。

ステップ３０１７）関連文書特徴語ｕを比較済みとし、ステップ３０１３に移行する。

ステップ３０１８）スコアｓを関連文書特徴語ｗの概念近接スコアとしメモリ上のバッファに保持する。

ステップ１００８）関連文書特徴語抽出部１５は、図１６の「関連文書特徴語及び正規化出現確率テーブル」および図２９の「関連文書特徴語及び概念近接スコアテーブル」の各レコードを入力とし、各レコードについて、図１６の関連文書特徴語及び正規化出現確率テーブル」から取得した各関連文書特徴語の正規化出現確率と、図２９の「関連文書特徴語及び概念近接スコアテーブル」から取得した各関連文書特徴語の概念近接スコアを乗算し、図３０に示すデータ形式で「関連特徴語及びスコアテーブル」に出力する。

なお、上記、正規化出現確率と概念近接スコアの演算は両数値が鑑みられるのであれば、その他の演算方法でも構わない。

以降、図１０の「対象文書特徴語及びTFIDF値テーブル」のデータの代わりに図２６の「対象文書特徴語及びスコアテーブル」のデータ、図１６の「関連文書特徴語及び正規化出現確率テーブル」のデータの代わりに図３０の「関連文書特徴語及びスコアテーブル」のデータを用いることとし、その他は第１の実施の形態と同様の処理を行う。

上記のように、本発明によれば、対象文書の概念を代表する語を抽出する際に、
(ア)該語が対象文書の概念を説明している可能性を向上し、
(イ)該語が必ず対象文書に含まれている、
ことを実現することが可能となる。これにより、各文書の概念を説明する語を、各文書内から抽出できるため、従来は不可能だった多くの応用サービスを可能とする。

具体的には、第１の実施の形態に示した挿絵ＤＢ２２を用いて、小説の各ページに適切な挿絵を付与したい場合、本発明を用いなければ、
(1)必ずしも対象文書の概念を説明する語が抽出できない；
という問題があり、的外れなトピックに基づく、的外れな挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図２の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『カメレオン』というトピックが抽出されやすい。
しかし、会社のシーンを描写する該文書に対して『カメレオン』の挿絵は的外れである。

また、本発明を用いなければ、
(2)抽出した語が対象文書には含まれていない場合がある；
という問題があり、文書の概念に近い語ではあるが、該文書にまったく登場しないトピックに基づく挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図３の一番左上の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『学校』というトピックが抽出されやすい。しかし、『塾』のシーンを描写する該文書に対して『学校』の挿絵は不適切である。

一方、本発明を用いれば、対象文書内の語だけでなく、対象文書に類似する関連文書内の各語も考慮するため、対象文書の概念から的外れな語は抽出されにくく、上記(1)の問題を解決している。

さらに、文書の概念を代表する語は必ず対象文書内の語から選ばれるため、対象文書の概念に近い語ではあるが対象文書内に含まれない語は抽出されず、上記(2)の問題を解決している。

これにより、小説の各ページの概念を説明する語を精度良く抽出でき、小説の各ページに適切な挿絵を付与するサービスが実現可能になる。

他にも、書籍内の各ページの概念を説明する語を精度良く抽出できれば、キーワードと広告を関連付けたデータベースを用いて書籍内の各ページに適切な関連広告を表示する電子書籍端末サービスを実現できる。

上記の図４及び図２１に記載のトピック抽出装置の構成要素の動作をプログラムとして構築し、トピック抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能となる。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

１１文書群入力部
１２文書群整形部
１３対象文書特徴語抽出部
１４関連文書抽出部
１５関連文書特徴語抽出部
１６対象文書トピック抽出部
１７トピック出力部
２１形態素解析装置
２２挿絵ＤＢ
２３語概念辞書
２４概念体系辞書

Claims

複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出装置であって、
文書群を入力する入力手段と、
入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
入力された各文書の関連文書を抽出する関連文書抽出手段と、
前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
抽出した前記トピックを出力するトピック出力手段と、
を有することを特徴とするトピック抽出装置。
前記対象文書トピック抽出手段は、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む
請求項1記載のトピック抽出装置。
複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出方法であって、
入力手段が、文書群を入力する入力ステップと、
対象文書特徴語抽出手段が、入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出ステップと、
関連文書抽出手段が、入力された各文書の関連文書を抽出する関連文書抽出ステップと、
関連文書特徴抽出手段が、前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出ステップと、
前記対象文書トピック抽出手段が、前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出ステップと、
トピック出力手段が、抽出した前記トピックを出力するトピック出力ステップと、
を行うことを特徴とするトピック抽出方法。
前記対象文書トピック抽出ステップにおいて、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する
請求項３記載のトピック抽出方法。
コンピュータを、
請求項１または２記載のトピック抽出装置の各手段として機能させるためのトピック抽出プログラム。