JP2012221316A - 文書トピック抽出装置及び方法及びプログラム - Google Patents

文書トピック抽出装置及び方法及びプログラム Download PDF

Info

Publication number
JP2012221316A
JP2012221316A JP2011087679A JP2011087679A JP2012221316A JP 2012221316 A JP2012221316 A JP 2012221316A JP 2011087679 A JP2011087679 A JP 2011087679A JP 2011087679 A JP2011087679 A JP 2011087679A JP 2012221316 A JP2012221316 A JP 2012221316A
Authority
JP
Japan
Prior art keywords
document
word
feature word
topic
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011087679A
Other languages
English (en)
Other versions
JP5587821B2 (ja
Inventor
Akihiro Miyata
章裕 宮田
Takashi Fujimura
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011087679A priority Critical patent/JP5587821B2/ja
Publication of JP2012221316A publication Critical patent/JP2012221316A/ja
Application granted granted Critical
Publication of JP5587821B2 publication Critical patent/JP5587821B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 対象文書の概念を説明する語が抽出でき、さらに、対象文書内に含まれない語は抽出されないようにする。
【解決手段】 本発明は、文書群を入力し、入力された各文書の特徴語である対象文書特徴語を抽出し、入力された各文書の関連文書を抽出し、関連文書の特徴語である関連文書特徴語を抽出する。対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出し、抽出した前記トピックを出力する。
【選択図】 図4

Description

本発明は、文書トピック抽出装置及び方法及びプログラムに係り、特に、文書群内の各文書の概念を説明する語を各文書から抽出するための文書トピック抽出装置及び方法及びプログラムに関する。
文書群内の各文書の概念を説明する語の抽出は多くの場面で重要である。
例えば、文書検索においては、文書から抽出した該文書の概念を説明する語を、文書にメタ情報として付与することで検索精度を向上させられる。あるいは、小説内の各ページの概念を説明する語を自動抽出できれば、その語に適切な挿絵を何らかの方法で自動生成することで、例えば、図1に示すように、各ページに適切な挿絵が自動で表示される電子書籍端末を実現することができる。
文書群内の各文書の概念を説明する語の抽出方法としては、
(1)対象文書から語を抽出する方法;
(2)対象文書を含む文書群内から語を抽出する方法;
がある。
上記(1)対象文書から語を抽出する方法では、TFIDF値が高い語を抽出する方式がよく用いられる。すなわち、対象文書中でTFIDF値が高い語を抽出し、これを対象文書の概念を説明する語とする方式である。なお、文書dにおける語wのTFIDF値は、下記の式により算出できる。
文書dにおける語wのTFIDF値 = TF * IDF
TF = (文書d中における語wの出現回数) / (文書d中における全語数)
IDF = log{ (全文書数) / (語wの出現文書数) }
上記(2)対象文書を含む文書群内から語を抽出する方法では、PLSA、LDA等のトピックモデルを用いる方式がある(例えば、非特許文献1参照)。非特許文献1では、LDAを用いて文書群内の各文書を内容の潜在的類似性に基づいて分類し、各分類内で多く出現する語を抽出している。文書dを含む分類D内で語wが多く出現するとき、語wを文書dの概念を説明する語とすることができる。
また、出現語の類似性に基づいて新聞記事をクラスタリングし、各クラスタ内で高頻度に出現する語を、各クラスタ内の記事の特徴語とする方法がある(例えば、非特許文献2参照)。
Blei, David M., Ng, Andrew Y. and Jordan, Michael I.:Latent Dirichlet Allocation. Journal of Machine Learning Research 3: pp.993-1022. 橋本泰一,村上浩司,乾孝司,内海和夫,石川正道:文書クラスタリングによるトピック抽出および課題発見.社会技術研究論文集 Vol.5,pp.216-226,2008.
文書の概念を代表する語を該文書から抽出したい場合、前述の(1)対象文書から語を抽出する方法は、必ずしも対象文書の概念を説明する語が抽出できないという問題がある。
また、前述の(2)対象文書を含む文書群内から語を抽出する方法は、抽出した語が対象文書には含まれていない場合があるという問題がある。
以降、複数の文書を含む文書群として、小説を例に説明する。
すなわち、小説の1ページが1文書、1冊または複数冊の小説内のページ全体が文書群となる。
(1)対象文書から語を抽出する方法を用いて、図2に示す小説の1ページ内からTFIDF値が高い語を抽出する場合を考える。この場合、『カメレオン』のような、その他の文書には頻繁に出現しないような珍しい語が抽出される。
しかし、図2は会社やビジネスに関する文書であるので、この文書の概念を説明する語として『カメレオン』はふさわしくない。
(2)対象文書を含む文書群内から語を抽出する方法を用いて、図3に示す小説のページ群内に多く出現する語を抽出する場合を考える。これらのページは『生徒』、『机』といった語が共通しているため、PLSA、LDA等のトピックモデルにより内容が潜在的に類似していると判定され同じ文書集合に分類されることが想定でき、この場合、ページ群内で多く出現する語は『学校』である。しかし、図3の左上端のページは『塾』に関する文書であるので、この文書の概念を説明する語として『学校』はふさわしくない。
上記のように、従来の技術には、必ずしも対象文書の概念を説明する語が抽出できない、及び、抽出した語が対象文書に含まれていない、という問題がある。
本発明は、上記の点に鑑みなされたもので、対象文書の概念を説明する語が抽出でき、さらに、対象文書内に含まれない語は抽出されないような文書トピック抽出装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明は、複数の文書を含む文書群内の各文書のトピックを抽出する文書トピック抽出装置であって、
文書群を入力する入力手段と、
入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
入力された各文書の関連文書を抽出する関連文書抽出手段と、
前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
抽出した前記トピックを出力するトピック出力手段と、を有する。
また、上記の対象文書トピック抽出手段は、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む。
本発明によれば、対象文書の概念を代表する語を抽出する際に、該語が対象文書の概念を説明している可能性を向上させ、さらに、該語が必ず対象文書に含まれているため、各文書の概念を説明する語を、各文書内から抽出できるため、従来は不可能だった多くの応用サービスを可能とする。
電子書籍の端末の例である。 小説の一例である。 小説のページ群である。 本発明の第1の実施の形態におけるトピック抽出装置の構成図である。 本発明の第1の実施の形態における入力される文書群の例である。 本発明の第1の実施の形態における全体処理のフローチャートである。 本発明の第1の実施の形態における文書群入力部で保持される小説データの構造である。 本発明の第1の実施の形態における形態素解析後の文書データの例である。 本発明の第1の実施の形態におけるBOWモデルに基づく文書ベクトル表現である。 本発明の第1の実施の形態における「対象文書特徴語及びTFIDF値テーブル」の例である。 本発明の第1の実施の形態におけるDKマトリックスの例である。 本発明の第1の実施の形態におけるWKマトリックスの例である。 本発明の第1の実施の形態における「帰属する潜在クラステーブル」の例である。 本発明の第1の実施の形態におけるレコード関連文書特徴語抽出処理のフローチャートである。 本発明の第1の実施の形態における「関連文書特徴語及び出現確率テーブル」の例である。 本発明の第1の実施の形態における「関連文書特徴語及び正規化出現確率のテーブル」の例である。 本発明の第1の実施の形態における対照文書トピック抽出部のフローチャートである。 本発明の第1の実施の形態における「対象文書トピック及びスコアテーブル」の例である。 本発明の第1の実施の形態における「挿絵トピックテーブル」の例である。 本発明の第1の実施の形態におけるトピック出力部から出力される電子ファイルの例である。 本発明の第2の実施の形態におけるトピック抽出装置の構成図である。 本発明の第2の実施の形態における概念体系辞書の例である。 本発明の第2の実施の形態における「対象文書特徴語及び概念テーブル」の例である。 本発明の第2の実施の形態における対象文書特徴語抽出部の処理のフローチャートである。 本発明の第2の実施の形態における「対象文書特徴及び概念近接スコアテーブル」の例である。 本発明の第2の実施の形態における「対象文書特徴語及びスコアテーブル」の例である。 本発明の第2の実施の形態における「関連文書特徴語及び概念テーブル」の例である。 本発明の第2の実施の形態における関連文書特徴抽出部のフローチャートである。 本発明の第2の実施の形態における「関連文書特徴語及び概念近接スコアテーブル」の例である。 本発明の第2の実施の形態における「関連文書特徴語及びスコアテーブル」の例である。
以下図面と共に、本発明の実施の形態を説明する。
図4は、本発明の一実施の形態におけるトピック抽出装置の構成を示す。
同図に示すトピック抽出装置は、文書入力部11、文書群整形部12、対象文書特徴語抽出部13、関連文書抽出部14、関連文書特徴語抽出部15、対象文書トピック抽出部16、トピック出力部17を有し、文書群整形部12は、形態素解析装置21と接続され、トピック出力部17は、挿絵データベース(DB)22と接続されている。
また、トピック抽出装置は、メモリ(図示せず)を有しており、各部はメモリを用いてデータ伝送・一時保存を行う。
なお、本装置は、外部装置として、形態素解析装置21、挿絵DB22を利用する。挿絵DB22は、ある語に対して挿絵となる画像を定義したデータベースであり、例えば、「山」という語に山の風景を描写した挿絵画像が関連付けられている。語をクエリとして入力すると、該当する挿絵画像が出力される。
本発明のトピック抽出装置は、1つ以上の文書を含む文書群を入力として文書群内の各文書のトピックを抽出するものであり、ここでは、小説の各ページを1つの文書とする。このとき、小説は図5のように、1ページが1つの電子テキストファイルとして予め成形されており、各電子テキストファイルには小説のISBN、ページ番号がメタ情報として付与されているとする。なお、小説の全ページを連結して1つの文章とし、文献1「Hearst, M. TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages, Computational Linguistics, 23(1), pp.33-64, March 1997.」等を用いて上記文章を内容が連続する領域に分割し、各領域を1つの文書としても構わない。
以下に、上記の構成における処理を説明する。
図6は、本発明の一実施の形態における全体処理のフローチャートである。
ステップ1) 文書群入力ステップ:
文書群入力部11は、図5の小説データを入力として受け付け、各小説データに文書IDを付与し、図7のデータ構造でメモリ上に保持する(ステップ101)。
文書群整形部12は、形態素解析装置21を用いて図7のデータの内容テキストを形態素解析し、出現する名詞を素性としてBOW(Bag of words)モデルに基づく文書ベクトルで表現し、図8のデータ構造でメモリ上に保持する(ステップ102)。このとき、素性として用いる名詞は、全レコード中で一定回数以上登場するもののみに絞ってもよいし、素性としてすべての品詞を用いても構わない。
なお、BOWモデルに基づく文書ベクトル表現とは、図9に示すように、文書を語の出現回数(または出現頻度に基づく指標)で表現したモデルであり、文書のクラスタリングタスクにおいて広く一般的に用いられている表現方法である。
ステップ2) 対象文書分析ステップ:
対象文書特徴語抽出部13は、図8の各レコードの文書ベクトルから得られる、各文書中の各語の出現回数に基づいて、前述の文書dにおける語wのTFIDF値算出方法を用いて、各文書中においてTFIDF値が高い語を上位から最大N件抽出し、各語と各文書中における各語のTFIDF値を関連付けて、メモリ上に「対象文書特徴語テーブル」として図10に示すデータ構造で保持する(ステップ103)。なお、Nは1以上の整数で、規定値であるとする。
ステップ3) 関連文書分析ステップ:
関連文書抽出部14は、図8の各レコードの文書ベクトルを入力として一般的な類似文書判定手段を実行し、図8の各レコードの類似文書を抽出する(ステップ104)。ここでは、一般的な類似文書判定手段として、前述のLDAを用いて各レコードの文書ベクトルをKクラスにソフトクラスタリングする方法を採る。
具体的には、図8の各レコードの文書ベクトルを入力とし、潜在クラス数をKとしてLDAを実行すると、図11に示すDKマトリックス(各潜在クラスにおける各文書の出現確率を表す)、図12に示すWKマトリックス(各潜在クラスにおける各語の出現確率を表す)が得られ、DKマトリックス、WKマトリックスは図11、図12のデータ構造でメモリ上に保持される。
本ステップにおけるソフトクラスタリングとは、LDAにより得られる図11のDKマトリックスにおいて、各文書は一番出現確率が高い潜在クラスに帰属すると判定することであり、各文書が帰属する潜在クラスを文書ID毎に、図13に示す、「帰属する潜在クラステーブル」のデータ構造でメモリ上に保存する。
次に、関連文書特徴語抽出部15は、図13の各レコードと、図12のWKマトリックスを入力として、図14に示すフローに基づいて図13の「帰属する潜在クラスのテーブル」の各レコードの関連文書特徴語を抽出し、図15に示す「関連文書特徴語及び出現確率テーブル」のデータ構造でメモリ上に保持する(ステップ105)。なお、図14中のMは1以上の整数で、規定値であるとする。
以下に、関連文書特徴語抽出部15の図14のフローチャートの処理を説明する。
ステップ201) 図13に示すメモリ上の帰属する潜在クラスに未処理のレコードがある場合は、ステップ202に移行し、ない場合は当該処理を終了する。
ステップ202) 図13に示すメモリから未処理かつ文書IDが最小のレコードxを取得する。
ステップ203) レコードxの帰属する潜在クラスyを取得する。
ステップ204) メモリ上の図12のWKマトリックスから潜在クラスyで出現確率が上位の語をM件取得する。
ステップ205) 上記M件の語をレコードxが表す文書の関連文書特徴語としてxの文書ID,クラスyにおける該語の出現確率と関連付けて図15に示す「関連文書特徴語及び出現確率テーブル」に新規レコードとして追加し、レコードxを処理済みとし、ステップ201に移行する。
次に、関連文書特徴語抽出部15は、図15の「関連文書特徴語及び出現確率テーブル」の各レコードを入力として、当該各レコード内で、関連文書特徴語の出現確率の最大値が1になるよう正規化し、メモリ上の「関連文書特徴語及び正規化出現確率テーブル」に図16に示すデータ構造で関連文書特徴語及び正規化出現確率を保持する(ステップ106)。
ステップ4)対象文書トピック分析・出力ステップ:
対象文書トピック抽出部16は、対象文書特徴語抽出部13で抽出された対象文書特徴語と関連文書特徴語抽出部15で抽出された関連文書特徴語を用いて対象文書トピックを抽出し、トピック出力部17より出力する。
対象文書トピック抽出部16は、図10の「対象文書特徴語及びTFIDF値テーブル」の各レコードと、図16の「関連文書特徴語及び正規化出現確率テーブル」の各レコードを入力として、図17に示すフローに基づいて図10の各レコードの対象文書トピックを抽出し、図18のデータ構造でメモリ上に保持する(ステップ107)。
以下に対象文書トピック抽出部16の図17に示すフローチャートの処理を説明する。
なお、図17中のAは正の実数(ここでは1とする)、Lは1以上の整数で、規定値であるとする。
ステップ301)対象文書トピック抽出部16は、図10の「対象文書特徴語及びTFIDF値テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ302に移行し、ない場合は処理を終了する。
ステップ302) 図10に示す「対象文書特徴語及びTFIDF値テーブル」から未処理で、かつ、文書IDが最小のレコードxを取得する。
ステップ303) 図16の「関連文書特徴語及び正規化出現確率テーブル」からレコードxと同一の文書IDを持つレコードyを取得する。
ステップ304) レコードxの対象文書特徴語の中で未処理の語がある場合はステップ310に移行し、ない場合はステップ305に移行する。
ステップ305) メモリ上のバッファからスコアsが上位L件の対象文書特徴語群を取得し、該語群をレコードxの対象文書トピックとして各語のスコアsと関連付けて図18に示す「対象文書トラヒック及びスコアテーブル」に新規レコードとして追加し、レコードxを処理済みとする。
ステップ310) 以下のステップ311〜316の処理を行い、ステップ304に移行する。
ステップ311) レコードxから未処理かつTFIDF値が最高の対象文書特徴語wを取得しTFIDF値をs1とする。
ステップ312) レコードyで語wと同じ関連文書特徴語があるかを判定し、ある場合はステップ313に移行し、ない場合はステップ315に移行する。
ステップ313) レコードyから当該関連文書特徴語の正規化出現確率を取得し、s2とする。
ステップ314) スコアsをs=S1*(A+s2)により求め、ステップ316に移行する。
ステップ315) スコアsをs=s1として求める。
ステップ316) 語wをスコアsと関連付けてメモリ上のバッファに保存し、語wを処理済みとする。
上記の対象文書トピック抽出部16の処理が終了すると、トピック出力部17は、図7の小説データと図18の「対象文書トラヒック及びスコアテーブル」を読み込み、図7の小説データの各レコードに対し、文書ID,ISBN、ページ、内容テキストを抽出し、「対象文書トラヒック及びスコアテーブル」から当該文書IDと同一の文書IDを持つレコードの対象文書トピック群を抽出し、該トピック群の中で一番スコアが高い語を挿絵トピックとして抽出して、メモリ上の図19に示す「挿絵トピックテーブル」に保持する(ステップ108)。
さらに、トピック出力部17は、「挿絵トピックテーブル」の各レコードの挿絵トピックをクエリとして、挿絵DB22から各挿絵トピックに該当する挿絵画像を取得し、図19の各レコードのISBN、ページ、内容テキストと合わせて図20に示すような形式の電子ファイルとして出力する(ステップ109)。
[第2の実施の形態]
本実施の形態では、第1の実施の形態を改良したトピック抽出装置について説明する。
本実施の形態では、対象文書特徴語群(図10)内で他の語と概念が遠い語、関連文書特徴語群(図16)内で他の語と概念が遠い語が、対象文書トピックの抽出に与える影響を低減するものである。
図21は、本発明の第2の実施の形態におけるトピック抽出装置の構成を示す。同図において、図4と同一構成部分には同一符号を付し、その説明を省略する。
図21に示す構成において、第1の実施の形態と異なるのは、外部装置である語概念辞書23、概念体系辞書24を利用する点である。
語概念辞書23は、各語の概念を定義したものであり、語を入力すると、該語の概念を出力する。例えば、「小学校」と入力すると、「教育機関」という出力が得られる。
概念体系辞書24は、図22のように、各概念の関係の階層関係を定義したものである。文献2「岩波書店,日本語語彙体系CD-ROM版,ISBN:978-4001301014.」には日本語の語彙30万語が3000種類の意味属性で分類されているため、語概念辞書23、概念体系辞書24は容易に作成可能である。
本実施の形態における処理フローで第1の実施の形態と異なるのは、ステップ103の対象文書特徴語抽出部13の処理がステップ1001〜1004に変わり、ステップ106の関連文書特徴語抽出部15の処理がステップ1005〜1008に変わる点である。
まず、ステップ103の処理に置き換わるステップ1001〜1004を説明する。
ステップ1001) 対象文書特徴語抽出部13は、図8の各レコードの文書ベクトルから得られる、各文書中の各語の出現回数に基づいて、前述の文書dにおける語wのTFIDF値算出方法を用いて、各文書中においてTFIDF値が高い語を上位から最大N件抽出し、
各語と各文書中における各語のTFIDF値を関連付けて、メモリ上の「対象文書特徴語及びTFIDF値テーブル」に図10に示すデータ構造で保持する。なお、Nは1以上の整数で、規定値であるとする。
ステップ1002) 対象文書特徴語抽出部13は、図8の各レコードの文書ベクトルから得られる、各文書中の各語の概念を、語概念辞書23から取得し、各語と各語の概念を関連付けて、メモリ上の「対象文書特徴および概念近接スコアテーブル」に図23に示すデータ構造で保持する。
ステップ1003) 対象文書特徴語抽出部13は、図23の各レコードを入力とし、概念体系辞書24を用いて、図24に示すフローに基づいて各レコード内における各語の概念近接スコアを算出し、メモリ上の「対象文書特徴及び概念近接スコアテーブル」に図25に示すデータ構造で保持する。
ステップ2001) 図23の「対象文書特徴語及び概念テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ2002に移行し、ない場合は処理を終了する。
ステップ2002) 「対象文書特徴語及び概念テーブル」から未処理かつ文書IDが最小のレコードxを取得する。
ステップ2003) レコードxの対象文書特徴語の中で未処理の語がある場合はステップ2010(処理1)に移行し、ない場合はステップ2005に移行する。
ステップ2005) メモリ上のバッファからレコードxの各対象文書特徴語と概念近接スコアを取得し、図25に示すメモリ上の「対象文書特徴及び概念近接テーブル」に新規レコードとして追加する。
ステップ2010) 以下のステップ2011〜2018を行う。
ステップ2011) レコードxから未処理の対象文書特徴語wを1件取得し、当該語の概念をc1とする。
ステップ2012) スコアsをs=0とする。
ステップ2013) レコードxで対象文書特徴語w以外の未比較の語はあるのかを判定し、ある場合はステップ2014に移行し、ない場合はステップ2018に移行する。
ステップ2014) レコードxから対象文書特徴語w以外、かつ、未比較の対象文書特徴語uを1件取得し、その概念をc2とする。
ステップ2015) c1とc2の概念距離を求め、dとする。このとき、図24における概念距離とは、概念体系辞書24の木構造中における各概念の最短ホップ数とする。
すなわち、図22において、「教育機関」と「司法機関」は木構造中にて最短2ホップで繋がるので概念距離は2、「教育機関」と「山」は木構造中にて最短5ホップで繋がるので概念距離は5、である。なお、語間の概念距離測定方法は上記に限らず、その他の概念距離測定方法を用いても構わない。
ステップ2016) スコアsをs=s+B/(d+1)とする。なお、Bは正の実数で、規定値であるとする。
ステップ2017) 対象文書特徴語uを比較済みとし、ステップ2013に移行する。
ステップ2018) スコアsを対象文書特徴語wの概念近接スコアとし、メモリ上のバッファに保持する。
ステップ1004) 対象文書特徴語抽出部13は、図10の「対象文書特徴語テーブル」および図25の「対象文書特徴及び概念近接スコアテーブル」の各レコードを入力とし、各レコードについて、図10から取得した各対象文書特徴語のTFIDF値と、図25から取得した各対象文書特徴語の概念近接スコアを乗算し、図26のデータ形式で出力する。
なお、上記、TFIDF値と概念近接スコアの演算は両数値が鑑みられるのであれば、その他の演算方法でも構わない。
次に、第1の実施の形態のステップ106に置き換わるステップ1005〜1008の関連文書特徴語抽出部15の処理を説明する。
ステップ1005)関連文書特徴語抽出部15は、図15の関連文書特徴語及び出現確率テーブルの各レコードを入力として、当該各レコード内で、関連文書特徴語の出現確率の最大値が1になるよう正規化し、メモリ上の「関連文書特徴語及び正規化出現確率テーブル」に図16のデータ構造で保持する。
ステップ1006)関連文書特徴語抽出部15は、図16の各レコードから得られる、
各文書中の各関連文書語の概念を、語概念辞書23から取得し、各語と各語の概念を関連付けて、メモリ上の「関連文書特徴語及び概念テーブル」に図27のデータ構造で保持する。
ステップ1007)関連文書特徴語抽出部15は、図27の「関連文書特徴語及び概念テーブル」の各レコードを入力とし、概念体系辞書24を用いて、図28に示すフローに基づいて各レコード内における各語の概念近接スコアを算出し、メモリ上の「関連文書特徴語及び概念近接スコアテーブル」に図29に示すデータ構造で保持する。
以下に図28示すフローチャートの処理を説明する。
ステップ3001) 図27の「関連文書特徴語及び概念テーブル」で未処理のレコードがあるかを判定し、ある場合はステップ3002に移行し、ない場合は処理を終了する。
ステップ3002) 「関連文書特徴語及び概念テーブル」の未処理かつ文書IDが最小のレコードxを取得する。
ステップ3003) レコードxの関連文書特徴語の中で未処理の語があればステップ3010に移行し、ない場合はステップ3004に移行する。
ステップ3004) メモリ上のバッファからレコードxの各関連文書特徴語と概念近接スコアを取得し、図29に示す「関連文書特徴語及び概念近接スコアテーブル」に新規レコードとして追加する。
ステップ3010) 以下のステップ3011〜3018を行う。
ステップ3011) レコードxから未処理の関連文書特徴語wを1件取得し、当該語wの概念をc1とする。
ステップ3012) スコアsをs=0とする。
ステップ3013) レコードxで関連文書特徴語w以外の未比較の語があるかを判定し、ある場合はステップ3014に移行し、ない場合はステップ3018に移行する。
ステップ3014) レコードヵら関連文書特徴語w以外で、かつ、未比較の関連文書特徴語uを1件取得し、その概念をc2とする。
ステップ3015) c1とc2の概念距離を求め、dとする。
ステップ3016) スコアsをs=s+E/(d+1)により求める。なお、Eは正の実数で、規定値であるとする。
ステップ3017) 関連文書特徴語uを比較済みとし、ステップ3013に移行する。
ステップ3018) スコアsを関連文書特徴語wの概念近接スコアとしメモリ上のバッファに保持する。
ステップ1008)関連文書特徴語抽出部15は、図16の「関連文書特徴語及び正規化出現確率テーブル」および図29の「関連文書特徴語及び概念近接スコアテーブル」の各レコードを入力とし、各レコードについて、図16の関連文書特徴語及び正規化出現確率テーブル」から取得した各関連文書特徴語の正規化出現確率と、図29の「関連文書特徴語及び概念近接スコアテーブル」から取得した各関連文書特徴語の概念近接スコアを乗算し、図30に示すデータ形式で「関連特徴語及びスコアテーブル」に出力する。
なお、上記、正規化出現確率と概念近接スコアの演算は両数値が鑑みられるのであれば、その他の演算方法でも構わない。
以降、図10の「対象文書特徴語及びTFIDF値テーブル」のデータの代わりに図26の「対象文書特徴語及びスコアテーブル」のデータ、図16の「関連文書特徴語及び正規化出現確率テーブル」のデータの代わりに図30の「関連文書特徴語及びスコアテーブル」のデータを用いることとし、その他は第1の実施の形態と同様の処理を行う。
上記のように、本発明によれば、対象文書の概念を代表する語を抽出する際に、
(ア)該語が対象文書の概念を説明している可能性を向上し、
(イ)該語が必ず対象文書に含まれている、
ことを実現することが可能となる。これにより、各文書の概念を説明する語を、各文書内から抽出できるため、従来は不可能だった多くの応用サービスを可能とする。
具体的には、第1の実施の形態に示した挿絵DB22を用いて、小説の各ページに適切な挿絵を付与したい場合、本発明を用いなければ、
(1)必ずしも対象文書の概念を説明する語が抽出できない;
という問題があり、的外れなトピックに基づく、的外れな挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図2の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『カメレオン』というトピックが抽出されやすい。
しかし、会社のシーンを描写する該文書に対して『カメレオン』の挿絵は的外れである。
また、本発明を用いなければ、
(2)抽出した語が対象文書には含まれていない場合がある;
という問題があり、文書の概念に近い語ではあるが、該文書にまったく登場しないトピックに基づく挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図3の一番左上の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『学校』というトピックが抽出されやすい。しかし、『塾』のシーンを描写する該文書に対して『学校』の挿絵は不適切である。
一方、本発明を用いれば、対象文書内の語だけでなく、対象文書に類似する関連文書内の各語も考慮するため、対象文書の概念から的外れな語は抽出されにくく、上記(1)の問題を解決している。
さらに、文書の概念を代表する語は必ず対象文書内の語から選ばれるため、対象文書の概念に近い語ではあるが対象文書内に含まれない語は抽出されず、上記(2)の問題を解決している。
これにより、小説の各ページの概念を説明する語を精度良く抽出でき、小説の各ページに適切な挿絵を付与するサービスが実現可能になる。
他にも、書籍内の各ページの概念を説明する語を精度良く抽出できれば、キーワードと広告を関連付けたデータベースを用いて書籍内の各ページに適切な関連広告を表示する電子書籍端末サービスを実現できる。
上記の図4及び図21に記載のトピック抽出装置の構成要素の動作をプログラムとして構築し、トピック抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能となる。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
11 文書群入力部
12 文書群整形部
13 対象文書特徴語抽出部
14 関連文書抽出部
15 関連文書特徴語抽出部
16 対象文書トピック抽出部
17 トピック出力部
21 形態素解析装置
22 挿絵DB
23 語概念辞書
24 概念体系辞書

Claims (5)

  1. 複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出装置であって、
    文書群を入力する入力手段と、
    入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
    入力された各文書の関連文書を抽出する関連文書抽出手段と、
    前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
    前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
    抽出した前記トピックを出力するトピック出力手段と、
    を有することを特徴とするトピック抽出装置。
  2. 前記対象文書トピック抽出手段は、
    前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む
    請求項1記載のトピック抽出装置。
  3. 複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出方法であって、
    入力手段が、文書群を入力する入力ステップと、
    対象文書特徴語抽出手段が、入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出ステップと、
    関連文書抽出手段が、入力された各文書の関連文書を抽出する関連文書抽出ステップと、
    関連文書特徴抽出手段が、前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出ステップと、
    前記対象文書トピック抽出手段が、前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出ステップと、
    トピック出力手段が、抽出した前記トピックを出力するトピック出力ステップと、
    を行うことを特徴とするトピック抽出方法。
  4. 前記対象文書トピック抽出ステップにおいて、
    前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する
    請求項3記載のトピック抽出方法。
  5. コンピュータを、
    請求項1または2記載のトピック抽出装置の各手段として機能させるためのトピック抽出プログラム。
JP2011087679A 2011-04-11 2011-04-11 文書トピック抽出装置及び方法及びプログラム Active JP5587821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011087679A JP5587821B2 (ja) 2011-04-11 2011-04-11 文書トピック抽出装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011087679A JP5587821B2 (ja) 2011-04-11 2011-04-11 文書トピック抽出装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012221316A true JP2012221316A (ja) 2012-11-12
JP5587821B2 JP5587821B2 (ja) 2014-09-10

Family

ID=47272722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011087679A Active JP5587821B2 (ja) 2011-04-11 2011-04-11 文書トピック抽出装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5587821B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215658A (ja) * 2013-04-23 2014-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報の取得を支援する装置及び方法
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
JP2015170241A (ja) * 2014-03-10 2015-09-28 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
JP2016134124A (ja) * 2015-01-22 2016-07-25 パナソニックIpマネジメント株式会社 タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法
JP2016162163A (ja) * 2015-03-02 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5991704B1 (ja) * 2015-07-10 2016-09-14 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
JP2016212533A (ja) * 2015-04-30 2016-12-15 国立大学法人鳥取大学 文書解析装置、プログラム
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
JP2019008572A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似性計算装置、これらの方法及びプログラム
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP2020086999A (ja) * 2018-11-27 2020-06-04 株式会社日立製作所 システム内容理解支援装置、及びシステム内容理解支援方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205517A (ja) * 2008-02-28 2009-09-10 Toshiba Corp 情報処理装置及び情報処理方法
JP2010092323A (ja) * 2008-10-09 2010-04-22 Konica Minolta Holdings Inc 文書表示システム
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205517A (ja) * 2008-02-28 2009-09-10 Toshiba Corp 情報処理装置及び情報処理方法
JP2010092323A (ja) * 2008-10-09 2010-04-22 Konica Minolta Holdings Inc 文書表示システム
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215658A (ja) * 2013-04-23 2014-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報の取得を支援する装置及び方法
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information
JP2015170241A (ja) * 2014-03-10 2015-09-28 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
US10394864B2 (en) 2014-04-28 2019-08-27 Foundation Of Soongsil University Industry Cooperation Method and server for extracting topic and evaluating suitability of the extracted topic
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
JP2016134124A (ja) * 2015-01-22 2016-07-25 パナソニックIpマネジメント株式会社 タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法
JP2016162163A (ja) * 2015-03-02 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2016212533A (ja) * 2015-04-30 2016-12-15 国立大学法人鳥取大学 文書解析装置、プログラム
JP5991704B1 (ja) * 2015-07-10 2016-09-14 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
WO2017009908A1 (ja) * 2015-07-10 2017-01-19 楽天株式会社 電子書籍表示装置、電子書籍表示方法、及びプログラム
US11132496B2 (en) 2015-07-10 2021-09-28 Rakuten Group, Inc. Electronic book display device, electronic book display method, and program
JP2017073137A (ja) * 2015-10-09 2017-04-13 富士通株式会社 記述的なトピックラベルの生成
JP2019008572A (ja) * 2017-06-26 2019-01-17 日本電信電話株式会社 類似文書検索装置、類似性計算装置、これらの方法及びプログラム
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP7324577B2 (ja) 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP2020086999A (ja) * 2018-11-27 2020-06-04 株式会社日立製作所 システム内容理解支援装置、及びシステム内容理解支援方法

Also Published As

Publication number Publication date
JP5587821B2 (ja) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5587821B2 (ja) 文書トピック抽出装置及び方法及びプログラム
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
US10255354B2 (en) Detecting and combining synonymous topics
US10198506B2 (en) System and method of sentiment data generation
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
JP6466952B2 (ja) 文章生成システム
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
CN106897437B (zh) 一种知识系统的高阶规则多分类方法及其系统
US11436278B2 (en) Database creation apparatus and search system
JP2019003472A (ja) 情報処理装置及び情報処理方法
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Khan et al. Urdu sentiment analysis
Litvak et al. Improving summarization quality with topic modeling
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
Ariss et al. Morphology based Arabic sentiment analysis of book reviews
JP2001060194A (ja) 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
Carvalho et al. Lexical to discourse-level corpus modeling for legal question answering
JP2002183175A (ja) テキストマイニング方法
US11960522B2 (en) Information management system for database construction
JP6934621B2 (ja) 方法、装置、及びプログラム
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130820

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140724

R150 Certificate of patent or registration of utility model

Ref document number: 5587821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150