JP5023176B2 - 特徴語抽出装置及びプログラム - Google Patents

特徴語抽出装置及びプログラム Download PDF

Info

Publication number
JP5023176B2
JP5023176B2 JP2010064821A JP2010064821A JP5023176B2 JP 5023176 B2 JP5023176 B2 JP 5023176B2 JP 2010064821 A JP2010064821 A JP 2010064821A JP 2010064821 A JP2010064821 A JP 2010064821A JP 5023176 B2 JP5023176 B2 JP 5023176B2
Authority
JP
Japan
Prior art keywords
document
category
feature word
feature
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010064821A
Other languages
English (en)
Other versions
JP2011198111A (ja
Inventor
秀樹 岩崎
和之 後藤
茂 松本
博司 平
泰成 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010064821A priority Critical patent/JP5023176B2/ja
Publication of JP2011198111A publication Critical patent/JP2011198111A/ja
Application granted granted Critical
Publication of JP5023176B2 publication Critical patent/JP5023176B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、電子化された大量の文書に対し、各文書の内容を特徴づける単語である特徴語を抽出するための特徴語抽出装置及びプログラムに関する。
特許調査やアンケート分析などにおいては、特徴語を抽出し、複数の文書集合の内容や傾向を比較したいというニーズがある。例えば、特許調査においては、自社と競合他社との各年代の特許出願の傾向を比較したいニーズがある。この種の調査の質は、選定する比較範囲や特徴語に影響される。
しかしながら、適切な比較範囲や特徴語は、調査の目的や文書集合の内容によって異なる。このため、比較範囲や特徴語の選定には、文書集合の内容に関連した知識や、目的を踏まえた調査自体に関するスキルが必要である。
これに対し、特許文献1では適切な分析軸を提示する技術を提案している。特許文献1に記載の技術は、データに含まれる属性毎に単語を抽出し、単語の属性値毎の出現頻度を集計手段で集計し、集計した出現頻度を視認し易いようにユーザに表示するとともに、単語の出現傾向から分析に適した属性を抽出しユーザに提示する。これにより、ユーザに適切な分類軸の選択を支援する。
また、特許文献2に記載の技術では、分析に使用する適切な特徴語の選定のために、比較する属性(例えば、作成日)について、属性値毎(例えば、月毎)に抽出される特徴語の共起関係に基づき、各属性において相違点を提示する。これにより、文書集合の内容をより好適に分析可能としている。なお、特許文献2に記載の技術で用いる「共起」については、例えば、特許文献3にまとめられている。
特開2006−171931号公報 特開2002−245070号公報
内山将夫, 中條清美, 山本英子, 井佐原均. 「英語教育のための分野特徴単語の選定尺度の比較」, 自然言語処理, 11 (3), 165-197, 2004. 岸田和明. 「検索実験における評価指標としての平均精度の性質」, 情報処理学会論文誌: データベース, 第43巻, 第SIG2(TOD13)号(2002). 相澤彰子. 「共起に基づく類似性尺度」, オペレーションズ・リサーチ, 2007年11月号, pp.706(20)−712(26).
しかしながら、以上のような特許文献1,2に記載の技術では、通常は特に問題ないが、本発明者の検討によれば、以下に述べる点で改良の余地がある。
例えば、特許文献1に記載の技術では、ユーザに提示される分析軸が事前に文書データの属性として定義されている必要がある。そのため、提示される分析軸が事前に定義された属性に限られるため、意図する分析を行えない点で改良の余地がある。
特許文献2に記載の技術は、各属性値に対する相違点を表すことにより、文書集合の内容の明確化を図っている。このため、分析の対象が属性値に縛られ、ユーザが任意の範囲で文書集合を比較できない点で改良の余地がある。
また、特許文献2に記載の技術は、膨大な文書集合を比較分析する場合、ユーザが文書集合の中で何に着目すべきかを把握できない場合がある。例えば、着目する「画像認識」の技術を先行調査するために、数千・数万の特許文献を出願人と出願年月(1990年〜2008年の各月)でクロス分析する場合を考える。出願人として数10〜100社程度の各企業を各行に配置し、出願年月として100個程度の各月を各列に配置した場合、クロス分析のマトリックス全体として1万前後のセルが構成される。
これらのセルは、「画像認識」に関連する多数の特許文献が含まれるセルや、「画像認識」に無関係の多数の特許文献が含まれるセルなどがあり、着目する「画像認識」との関連度にはムラがある。企業毎や出願年毎でも同様のことが言える。
これに対し、ユーザは、着目する技術に関連が強い企業や出願年に関するセルの文書集合に比較範囲を絞り込むことで、より精緻な調査を行いたいというニーズがある。
しかしながら、特許文献1,2に記載の技術では、着目すべき比較範囲の絞り込みを支援できず、比較範囲を柔軟に変更することもできない。また、着目する技術に関連の強いセルの特徴語を参照すればユーザは意識しなかった関連技術を発見できるが、特許文献1,2に記載の技術では、文書集合の内容理解までに留まり、新たに着目すべき特徴語の参照を支援することはできない。
本発明は上記実情を考慮してなされたもので、事前に定義された属性に限らずに分析軸の候補として特徴語を提示できると共に、着目すべき比較範囲の絞り込みや、着目すべき特徴語の参照を支援し得る特徴語抽出装置及びプログラムを提供することを目的とする。
本発明の一つの局面は、特徴語抽出装置であって、文書ID及び内容テキスト情報を有する複数の文書を記憶する文書記憶手段と、カテゴリID毎に1つ以上の文書IDを関連付けて記憶するカテゴリ記憶手段と、前記文書記憶手段内の文書毎に、当該文書の文書IDと、当該文書の内容テキスト情報から抽出された文書特徴語とを関連付けて記憶する文書特徴語記憶手段と、前記カテゴリ記憶手段内で関連したカテゴリID及び1つ以上の文書IDと、当該カテゴリIDに関連したカテゴリ特徴語とを関連付けて記憶するカテゴリ特徴語記憶手段と、前記文書記憶手段内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて前記文書特徴語記憶手段に書き込む文書特徴語抽出手段と、前記文書記憶手段内の文書特徴語毎に、前記文書記憶手段の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出手段と、前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出手段と、前記全文書中出現文書数算出手段により算出された文書数と、前記カテゴリ文書中出現文書数算出手段により算出された文書数とに基づいて、全文書中におけるカテゴリIDに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出手段と、この文書特徴語に当該特徴度を付加したカテゴリ特徴語を作成し、当該作成したカテゴリ特徴語と当該カテゴリ特徴語に関連したカテゴリID及び1つ以上の文書IDとを関連付けて前記カテゴリ特徴語記憶手段に書き込むカテゴリ特徴語作成手段と、前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDの個数を含むカテゴリ個数データを提示するカテゴリ個数提示手段と、前記カテゴリ個数データの提示中、いずれかのカテゴリ個数データの選択を受け付けるカテゴリ個数データ選択受付手段と、前記カテゴリ個数データ選択受付手段による選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示するカテゴリ特徴語提示手段と、前記カテゴリ特徴語提示手段によるカテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付ける比較対象集合選択受付手段と、前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出手段と、前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出手段と、前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記第1文書数算出手段により算出された文書数と、前記第2文書数算出手段により算出された文書数とに基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として送出するカテゴリ相違特徴語送出手段と、前記カテゴリ相違特徴語送出手段により送出されたカテゴリ相違特徴語を提示するカテゴリ相違特徴語提示手段と、を備えた特徴語抽出装置である。
なお、本発明の一つの局面は、装置として表現したが、これに限らず、方法、プログラム又はプログラムを記憶したコンピュータ読取り可能な記憶媒体として表現してもよい。
(作用)
このような本発明の一つの局面においては、カテゴリIDに関連した文書IDの個数を含むカテゴリ個数データの提示中に、選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示する。
また、本発明の一つの局面においては、カテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付けると、選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として提示する。
このように、選択したカテゴリ個数データに応じて、カテゴリ特徴語やカテゴリ相違特徴語といった特徴語を提示する構成により、事前に定義された属性に限らずに分析軸の候補として特徴語を提示できると共に、着目すべき比較範囲の絞り込みや、着目すべき特徴語の参照を支援することができる。
以上説明したように本発明によれば、事前に定義された属性に限らずに分析軸の候補として特徴語を提示できると共に、着目すべき比較範囲の絞り込みや、着目すべき特徴語の参照を支援できる。
本発明の一実施形態に係る特徴語抽出装置の構成を示すブロック図である。 同実施形態における文書記憶部を説明するための模式図である。 同実施形態におけるカテゴリ記憶部を説明するための模式図である。 同実施形態における特徴語記憶部を説明するための模式図である。 同実施形態における特徴語抽出部の動作を説明するためのフローチャートである。 同実施形態におけるカテゴリ特徴語抽出部の動作を説明するためのフローチャートである。 同実施形態におけるカテゴリ共通特徴語抽出部の動作を説明するためのフローチャートである。 同実施形態におけるカテゴリ個数データをセルに提示した画面例を示す模式図である。 同実施形態における比較対象集合を選択した画面例を示す模式図である。 同実施形態における共通特徴語を表示した画面例を示す模式図である。 同実施形態におけるカテゴリ相違特徴語抽出部の動作を説明するためのフローチャートである。 同実施形態における共通特徴語と相違特徴語を表示した画面例を示す模式図である。 同実施形態における関連カテゴリ提示部の動作を説明するためのフローチャートである。 同実施形態におけるユーザ操作・提示部の動作を説明するためのフローチャートである。 同実施形態におけるカテゴリ特徴語を表示した画面例を示す模式図である。 同実施形態における関連カテゴリのセルを強調表示した画面例を示す模式図である。 同実施形態におけるカテゴリ特徴語から着目語を選択したときの画面例を示す模式図である。 同実施形態における比較対象の絞り込みと特徴語の表示例を示す模式図である。 同実施形態における着目語の変更と関連カテゴリの表示例を示す模式図である。 同実施形態におけるクロス分析の画面例を示す模式図である。 同実施形態における他のクロス分析の画面例を示す模式図である。 同実施形態における更に他のクロス分析の画面例を示す模式図である。 同実施形態におけるグラフ表示の画面例を示す模式図である。
以下、本発明の一実施形態について図面を用いて説明する。なお、以下の装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。また、以下の説明で用いられる用語と記号の定義は、次の表1及び表2に示す通りである。
Figure 0005023176
Figure 0005023176
なお、以下で説明する実施形態においては、複数の文書からなる文書集合を入力とし、その文書集合に含まれる文書IDに関連した文書特徴語が、当該文書IDの文書中で出現する文書数(文書の中で出現する特徴後の数を含む概念)を算出する処理(出現文書数算出機能)に、特に特徴があるといえる。
従って、全文書中出現文書数算出機能と、カテゴリ文書中出現文書数算出機能と、第1文書数算出機能と、第2文書数算出機能とを例にして、出現文書数算出機能を説明していく。なぜならば、上記の各表で定義されている全文書集合、カテゴリ、比較対象集合(比較対象の集合)、比較対象(カテゴリの集合)などについて、各入力の種類は異なっていても、これらはいずれも文書集合(文書IDの集合)と換言することができるからである。
図1は本発明の一実施形態に係る特徴語抽出装置の構成を示すブロック図であり、図2乃至図4は同装置内の各記憶部10,20,30を説明するための模式図である。この特徴語抽出装置は、文書記憶部10、カテゴリ記憶部20、特徴語記憶部30、特徴語抽出部40及びユーザ操作・提示部50を備えている。
文書記憶部10は、各部40,50から読出/書込可能な記憶装置であり、図2に示すように、文書データ10dを記憶している。文書データ10dは、各文書を識別する文書IDとしての文書11dと、内容テキスト情報(文字列情報)12dとしての文書名12d及び/又は本文15dとを有する複数の文書を電子化したデータであり、ここでは特許文献の例が図示されている。なお、文書データ10dは、文書ID11dと内容テキスト情報に加え、出願日13dや出願人14dなどの属性値を有していてもよい。
カテゴリ記憶部20は、各部40,50から読出/書込可能な記憶装置であり、図3に示すように、カテゴリID21c毎に1つ以上の文書IDからなる所属文書情報22cを関連付けて記憶している。ここで、カテゴリID及び所属文書情報22cの集合をカテゴリデータ20cと呼ぶ。1つのカテゴリID21cに関連付けられた所属文書情報22c内の文書IDの集合は特徴語抽出の最小単位となる文書集合を示しており、この文書集合がカテゴリとも呼ばれる。例えば、カテゴリID=C01で識別されるカテゴリは、文書ID=D17、D23、D41で識別される文書が所属している。このカテゴリデータ20cは、予め与えられるものである。例えば、文書クラスタリングなどの文書分類技術による分類結果をカテゴリデータ20cとしてもよく、文書の作成年や作成者といった属性値によって分割される文書の集合をカテゴリデータ20cとしてもよい。さらに、一つの文書がただ一つのカテゴリに所属するようなカテゴリ構造でもよく、1つの文書が複数のカテゴリに所属するようなカテゴリ構造でもよい。カテゴリデータ20cは、カテゴリID21cと所属文書情報22c以外にも、カテゴリ名やラベルなどの属性情報を有していてもよい。
特徴語記憶部30は、各部40,50からから読出/書込可能な記憶装置であり、図4に示すように、文書特徴語データ30dt及びカテゴリ特徴語データ30ctを記憶する。
文書特徴語データ30dtは、文書記憶部10内の文書毎に、当該文書の文書ID31dtと、当該文書の内容テキスト情報から抽出された文書特徴語32dtとを関連付けたデータである。この文書特徴語32dtは、文書特徴語抽出部41において、文書記憶部10に記憶された文書データの内容テキスト情報を形態素解析して得られた単語の集合から、不要語を除去して抽出された単語の集合である。不要語の除去では、名詞や未知語といった品詞で、特徴語として利用する単語の条件に合致しない単語や、”こと”や”もの”という一般性が高く特徴語として不適切な単語を排除する。反対に、文書中に1回しか出現しないような出現頻度が極端に少ない単語も不要語として排除してもよい。特許文献やメール文書といった特徴語抽出の対象となる文書の種類や、調査や分析といった特徴語抽出の目的などに応じて、保持する品詞の種類を変更することができる。この例では、文書特徴語データ30dtとして文書特徴語32dtを単語のみで保持しているが、文書中での単語の出現回数TFを各文書特徴語32dtの当該単語に関連付けて保持してもよい。TFは、特徴語抽出において、単語の特徴語を求める際の1つの指標として利用することができる。
カテゴリ特徴語データ30ctは、カテゴリ記憶部20内のカテゴリID21c及び文書所属情報22cと同一のカテゴリID31ct及び所属文書情報32ctと、当該カテゴリID31ctに関連したカテゴリ特徴語33ctとを関連付けたデータである。カテゴリ特徴語33ctは、所属文書情報32ct内の文書IDに関連した文書特徴語32dtである各単語と、当該各単語に付加された特徴度とからなる。
特徴語抽出部40は、文書特徴語抽出部41、カテゴリ特徴語抽出部42、カテゴリ共通特徴語抽出部43及びカテゴリ相違特徴語抽出部44を備えている。なお、カテゴリ共通特徴語抽出部43及びカテゴリ相違特徴語抽出部44は、いずれか一方があれば文書集合の分析が可能なため、いずれか一方を残し、他方を省略することも可能である。
文書特徴語抽出部41は、文書記憶部10内の文書毎に内容テキスト情報を形態素解析し、形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けた文書特徴語データ30dtを文書特徴語記憶部30に書き込む機能をもっている。ここで、文書特徴語の抽出は、例えば形態素解析の結果から、文書中に1回しか出現してないなど、特徴語抽出において不要な単語(不要語)を排除する処理により実行すればよい。
カテゴリ特徴語抽出部42は、以下の各機能(f42-1)〜(f42-5)をもっている。
(f42-1) 文書記憶部10内の文書特徴語毎に、文書記憶部10の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出機能。
(f42-2) カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出機能。
(f42-3) 全文書中出現文書数算出機能により算出された文書数と、カテゴリ文書中出現文書数算出機能により算出された文書数とに基づいて、全文書中におけるカテゴリID21cに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出機能。文書特徴語の特徴度は、カテゴリに属する文書の文書特徴語の統計情報に基づいて算出される。
(f42-4) この文書特徴語に当該特徴度を付加したカテゴリ特徴語33ctを作成する機能。
(f42-5) 当該作成したカテゴリ特徴語33ctと当該カテゴリ特徴語33ctに関連したカテゴリID31ct及び所属文書情報32ctとを関連付けたカテゴリ特徴語データ30ctを特徴語記憶部30に書き込む機能。
カテゴリ共通特徴語抽出部43は、以下の各機能(f43-1)〜(f43-3)をもっている。
(f43-1) ユーザ操作により共通・相違特徴語提示部53が選択を受け付けた比較対象集合内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出機能。
(f43-2) 選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出機能。
(f43-3) 選択を受け付けた比較対象集合内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、第1文書数算出機能により算出された文書数と、第2文書数算出機能により算出された文書数とに基づいて、比較対象集合における当該文書特徴語の共通性を表す度合いの共通特徴度を算出し、共通特徴度が上位の文書特徴語をカテゴリ共通特徴語として共通・相違特徴語提示部53に送出するカテゴリ共通特徴語送出機能。ここで、共通特徴度は、各比較対象集合における各特徴語の共通性を表す度合いであり、比較対象集合に属する文書の文書集合の統計情報に基づいて算出される。
カテゴリ相違特徴語抽出部44は、以下の各機能(f44-1)〜(f44-3)をもっている。
(f44-1) ユーザ操作により共通・相違特徴語提示部53が選択を受け付けた比較対象集合内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出機能。
(f44-2) 選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出機能。
(f44-3) 選択を受け付けた比較対象集合内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、第1文書数算出機能により算出された文書数と、第2文書数算出機能により算出された文書数とに基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として共通・相違特徴語提示部53に送出するカテゴリ相違特徴語送出機能。ここで、相違特徴度は、各比較対象集合における各特徴語の相違性を表す度合いであり、それぞれの比較対象に属する文書の文書集合の統計情報に基づいて算出される。
ユーザ操作・提示部50は、画面提示部51、カテゴリ特徴語提示部52、相違・共通特徴語提示部53及び関連カテゴリ提示部54を備えている。なお、関連カテゴリ提示部54は、文書集合の分析に必須ではなく、省略してもよい。
画面提示部51は、ユーザの操作に応じて、各記憶部10,20,30を参照して画面データを作成する機能と、当該画面データに基づいて画面を提示する機能とをもっている。ここで、画面データとしては、例えば、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書所属情報22c内の文書IDの個数を含むカテゴリ個数データを各セルに提示したクロス分析画面の画面データ、選択された特徴語を分析軸にするようにカテゴリ個数データを修正して各セルに提示したクロス分析画面の画面データ、提示中のクロス分析画面の画面データに基づくグラフ表示画面の画面データ、あるいは、提示中のグラフ表示画面の画面データに基づくクロス分析画面の画面データ、などがある。表示形式は、クロス表示やグラフ表示以外にも、文書集合を平面上に楕円などで表現したマップ表示や、コンピュータのファイルシステムで使われるようなフォルダ表示でもよい。
カテゴリ特徴語提示部52は、ユーザによるカテゴリの選択を受け付け、カテゴリ特徴語記憶部30から選択されたカテゴリに対応するカテゴリ特徴語データを取得する。取得したカテゴリ特徴語データに基づき、該カテゴリにおいて特徴度が上位の特徴語をカテゴリ特徴語として、ユーザに提示する。
相違・共通特徴語提示部53は、ユーザによる比較対象集合の選択を受け付け、選択された比較対象集合を特徴語抽出部40に送出する機能と、特徴語抽出部40から受けた共通特徴語を提示する機能と、特徴語抽出部40から各々の比較対象に対するそれぞれの相違特徴語を受けると、これらの相違特徴語を各々の比較対象に対応づけて提示する機能とをもっている。
関連カテゴリ提示部54は、ユーザによる着目語集合の選択を受け付け、特徴語記憶部30に記憶されたカテゴリ特徴語データに基づき、その着目語集合と各カテゴリとの関連度を算出し、関連度が大きいカテゴリを関連カテゴリとして、該当するカテゴリ個数データを強調表示する機能をもっている。ここで、関連度が大きいカテゴリとしては、関連度がしきい値以上のカテゴリとしたが、これに限らず、関連度が上位s個以内のカテゴリとしてもよい。
次に、以上のように構成された特徴語抽出装置の動作を図5乃至図23のフローチャートや模式図を参照しながら説明する。
(特徴語抽出部41の動作:図5)
特徴語抽出部41は、概略的には、文書記憶部10内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて特徴語記憶部30に書き込む処理を実行する(S1〜S4)。
具体的には、特徴語抽出部41は、文書記憶部10から、分析対象の全ての文書データの集合である全文書集合docAllを取得する(S1)。
次に、特徴語抽出部41は、この全文書集合docAllに含まれる文書データdoc毎に、ステップS3とステップS4の処理を繰り返す(S2)。
すなわち、特徴語抽出部41は、文書データdoc毎に内容テキスト情報を形態素解析する(S3)。また、特徴語抽出部41は、この形態素解析の結果から、特徴語抽出の対象とする品詞以外の単語や、”こと”、”もの”などの不要語を排除して抽出した単語群を文書特徴語とする。しかる後、特徴語抽出部41は、抽出した文書特徴語と文書IDとを関連付けた文書特徴語データを特徴語記憶部30に書き込む(S4)。
例えば、図2に示す文書データについて、本文25を分析対象の内容テキスト情報とした場合、ステップS3とステップS4の手順により、図4に示すように、文書特徴語データ30dtが特徴語記憶部30に書き込まれる。
(カテゴリ特徴語抽出部42の動作:図6)
カテゴリ特徴語抽出部42は、概略的には、文書記憶部10内の文書特徴語毎に、文書記憶部10の全ての文書中で当該文書特徴語が出現する文書数df(t、docAll)を算出する全文書中出現文書数算出処理(S11〜S13)と、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた所属文書情報22cの文書IDに関連した文書特徴語32dtが当該文書IDの文書中で出現する文書数df(t、cat)を算出するカテゴリ文書中出現文書数算出処理(S14〜S18)と、全文書中出現文書数算出処理により算出された文書数df(t、docAll)と、カテゴリ文書中出現文書数算出処理により算出された文書数df(t、cat)とに基づいて、全文書中におけるカテゴリID21cに関連した文書に対する当該文書特徴語32dtの特徴度score(t、cat)を算出する特徴度算出処理(S19)と、この文書特徴語32dtに当該特徴度score(t、cat)を付加したカテゴリ特徴語33ctを作成し、当該作成したカテゴリ特徴語33ctと当該カテゴリ特徴語に関連したカテゴリID31ct(カテゴリID21cと同一値)及び1つ以上の文書IDを含む所属文書情報32ct(所属文書情報22cと同一値)とを関連付けて特徴語記憶部30に書き込む処理(S20)とを実行する。
具体的には、カテゴリ特徴語抽出部42は、特徴語記憶部30から全ての文書docAllの文書特徴語データを取得する(S11)。
次に、カテゴリ特徴語抽出部42は、ステップS11によって得られた文書特徴語データに含まれる文書特徴語t毎に、ステップS13の処理を繰り返す(S12)。
すなわち、カテゴリ特徴語抽出部42は、文書特徴語t毎に、全ての文書docAllの文書特徴語データを参照しながら、全文書集合docAll中で当該文書特徴語tが出現する文書数df(t、docAll)を求める処理(S13)を繰り返す。
しかる後、カテゴリ特徴語抽出部42は、カテゴリ記憶部20から全てのカテゴリデータ20cを取得する(S14)。
また、カテゴリ特徴語抽出部42は、全てのカテゴリcatについて、カテゴリID21c毎に、ステップS16〜S20の処理を繰り返す(S15)。
さらに、カテゴリ特徴語抽出部42は、当該カテゴリID21cに関連付けられた所属文書情報22cの文書IDに関連した文書特徴語を特徴語記憶部30から読み出すことにより、特徴語記憶部30から、カテゴリcatに所属する複数の文書について、それぞれの文書の文書特徴語データを取得する(S16)。
続いて、カテゴリ特徴語抽出部42は、取得した文書特徴語データに含まれる文書特徴語t毎に、ステップS18の処理を繰り返す(S17)。
カテゴリ特徴語抽出部42は、文書特徴語t毎に、ステップS16で取得した文書特徴語データを参照しながら、カテゴリcatに所属する複数の文書中で、文書特徴語tが出現する文書数df(t、cat)を求める(S18)。
カテゴリ特徴語抽出部42は、ステップS13で求めた文書数df(t、docAll)と、ステップS18で求めた文書数df(t、cat)に基づき、全文書集合docAllにおけるカテゴリcatに対する特徴語tの特徴度score(t、cat)を算出する(S19)。
具体的には、特徴度score(t、cat)は、各文書数df(t、docAll),df(t、cat)に基づいて、表3に示すように、共通パラメータa,b,c,d,nを算出した後、表4に示す如き、いずれかの統計指標として算出される。
Figure 0005023176
Figure 0005023176
ここでは、対数尤度比LLRという統計指標として、各単語tの特徴度score(t,cat)を算出している。但し、統計指標は、対数尤度比LLRに限らず、例えば、ダイス係数Dice、イエーツ補正χ2乗値Yates’又は自己相互情報量MI等としてもよい。なお、各統計指標にはそれぞれ特徴があるため、各統計指標の特徴に応じて、得られる特徴語の傾向が異なる。
例えば、ダイス係数Diceは、カテゴリcat内で単語tが出現する文書数df(t、cat)の大きい単語t(カテゴリcatに多く含まれる単語(高頻度))を高く評価する。
イエーツ補正χ2乗値Yates’は、全文書集合docAll中での出現確率に対し、カテゴリcat中での出現確率が高い単語を高く評価する。結果として、イエーツ補正χ2乗値Yates’は、対数尤度比LLRやダイス係数Diceを利用した場合よりも、比較的低頻度の単語が特徴語として抽出されやすい。
自己相互情報量MIは、全文書集合docAll中での出現確率と、カテゴリcat中での出現確率とで偏りの大きい単語を高く評価する。但し、自己相互情報量MIは、低頻度語を過大評価する傾向があるため、利用する場合、df(t、cat)が極端に小さい単語を特徴語から排除するなどの処理が必要となる。以上の各統計量の詳細については、非特許文献1に記載されている。
カテゴリ特徴語抽出部42は、ステップS19で算出した各特徴語の特徴度score(t,cat)を、その特徴語に付加したカテゴリ特徴語情報33ctとして、カテゴリcatのカテゴリデータ20cに付加したカテゴリ特徴語データ30ctを特徴語記憶部30に格納する(S20)。
(カテゴリ共通特徴語抽出部43の動作:図7)
画面提示部51は、図8に示すように、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書IDの個数を含むカテゴリ個数データを提示した画面G10を表示する。例えば、画面G10内のセルc1,c2は、図示しないカテゴリID21毎に表示されており、各セルc1,c2内の値“75”,“50”がカテゴリ個数データに相当している。
相違・共通特徴語提示部53は、画面提示部51によるカテゴリ個数データの提示中、ユーザの操作により、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象cmp_iからなる比較対象集合tgtSetの選択を受け付ける。例えば図9に示す場合、第1の比較対象cmp1は、実線枠f1で囲まれた5つのカテゴリ個数データ“65”,“50”,“69”,“75”,“72”の各カテゴリIDの和集合であり、第2の比較対象cmp2は、点線枠f2で囲まれた5つのカテゴリ個数データ“10”,“21”,“45”,“53”,“35”の各カテゴリIDの和集合である。
カテゴリ共通特徴語抽出部43は、概略的には、相違・共通特徴語提示部53により選択を受け付けた比較対象集合tgtSet内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書(tgtDocs)中で当該文書特徴語が出現する文書数df(t、tgtDocs)を算出する第1文書数算出処理(S21〜S25)と、選択を受け付けた比較対象集合tgtSet内の比較対象cmp_i毎に、当該比較対象cmp_i内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数df(t、cmp)を算出する第2文書数算出処理(S26〜S29)と、選択を受け付けた比較対象集合tgtSet内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、第1文書数算出処理により算出された文書数df(t、tgtDocs)と、第2文書数算出処理により算出された文書数df(t、cmp)とに基づいて、比較対象集合tgtSetにおける当該文書特徴語の共通性を表す度合いの共通特徴度com(t、tgtSet)を算出し、共通特徴度com(t、tgtSet)が上位の文書特徴語をカテゴリ共通特徴語として相違・共通特徴語提示部53に送出する処理を実行する(S30〜S31)。
具体的には、カテゴリ共通特徴語抽出部43は、ユーザ操作・提示部50から、ユーザによって選択された各カテゴリ個数データに対応する複数の比較対象cmp(各文書ID)からなる比較対象集合tgtSetを取得する(S21)。
カテゴリ共通特徴語抽出部43は、比較対象集合tgtSetに含まれる全ての比較対象cmpの和集合をとり、比較範囲tgtDocsを求める(S22)。
カテゴリ共通特徴語抽出部43は、比較範囲tgtDocsに含まれる全ての文書IDに関連した文書特徴語データを、特徴語記憶部30から取得する(S23)。
カテゴリ共通特徴語抽出部43は、ステップS23で取得した文書特徴語データに含まれる全ての特徴語tについて、ステップS25を繰り返す(S24)。
カテゴリ共通特徴語抽出部43は、ステップS23で取得した文書特徴語データを参照しながら、比較範囲tgtDocsに含まれる文書IDに関連した文書の中で、特徴語tが出現する文書数df(t、tgtDocs)を求める(S25)。
カテゴリ共通特徴語抽出部43は、比較対象集合tgtSetに含まれる比較対象cmp毎に、ステップS27〜S29の処理を繰り返す(S26)。
カテゴリ共通特徴語抽出部43は、比較対象cmpの文書IDに関連する文書特徴語データを、特徴語記憶部30から取得する(S27)。
カテゴリ共通特徴語抽出部43は、ステップS27で取得した文書特徴語データに含まれる全ての特徴語tについて、ステップS29の処理を繰り返す(S28)。
カテゴリ共通特徴語抽出部43は、ステップS27で取得した文書特徴語データを参照しながら、比較対象cmpの文書IDに関連した文書の中で、単語tが出現する文書数df(t、cmp)を求める(S29)。
カテゴリ共通特徴語抽出部43は、ステップS25で算出した比較範囲tgtDocs内で単語が出現する文書数df(t、tgtDocs)と、ステップS29で算出した各比較対象cmp内で単語が出現する文書数df(t、cmp)に基づき、比較範囲tgtDocs内の文書に含まれる全ての単語tについて、比較対象集合tgtSetにおける共通特徴度com(t、tgtSet)を算出する(S30)。
具体的には、共通特徴度com(t、tgtSet)を算出する場合、始めに、各文書数df(t、tgtDocs),df(t、cmp)に基づいて、表5に示すように、共通パラメータa’,b’,c’,d’,n’を算出した後、表6に示す如き、いずれかの統計指標として評価値eval(t,cmp_i)を算出する。
Figure 0005023176
Figure 0005023176
続いて、比較対象cmp_iの評価値eval(t,cmp_i)の総和を算出し、得られた総和の値を、比較範囲tgtDocsにおける単語tの共通特徴度com(t,tgtSet)とする。
この指標では、より多くの比較対象cmp_iに特徴語として含まれ、かつそれぞれの比較対象cmp_iで、より高い評価値eval(t,cmp_i)を持つ単語ほど、共通特徴語として高く評価される。
ここでは、例えば対数尤度比LLRという統計指標を用いて、単語の共通特徴語com(t、tgtSet)を求めている。なお、対数尤度比LLRに代えて、前述したイエーツχ2乗値や自己相互情報量MIなどの統計指標を用いてもよい。
このような統計指標において、全文書集合docAllにおける各特徴語tの出現頻度df(t、docAll)や、各カテゴリcatにおける各単語の出現頻度df(t、cat)も利用してもよい。
しかる後、カテゴリ共通特徴語抽出部43は、ステップS30で算出した各特徴語の共通特徴度com(t、tgtSet)について、上位r個の単語をtgtSetの共通特徴語comTermsとして、ユーザ操作・提示部50に送出する(S31)。
ここで、rとは共通特徴語、相違特徴語及びカテゴリ特徴語の提示において、提示する特徴語の個数の設定値であり、事前に設定されてもよく、特徴語抽出を行う都度設定されてもよい。また、共通特徴度com(t、tgtSet)が上位r個以内の特徴語を共通特徴語としたが、これに限らず、共通特徴度com(t、tgtSet)がしきい値以上の特徴語を共通特徴語としてもよい。
相違・共通特徴語提示部53は、図10に示すように、ステップS31で送出されたr個のカテゴリ共通特徴語をリストLcomに提示する。
(カテゴリ相違特徴語抽出部44の動作:図11)
画面提示部51は、図8に示したように、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書IDの個数を含むカテゴリ個数データを提示した画面G10を表示する。
相違・共通特徴語提示部53は、画面提示部51によるカテゴリ個数データの提示中、ユーザの操作により、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象cmp_iからなる比較対象集合tgtSetの選択を受け付ける。
カテゴリ相違特徴語抽出部44は、概略的には、図9に示したように相違・共通特徴語提示部53により選択を受け付けた比較対象集合tgtSet内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書(tgtDocs)中で当該文書特徴語が出現する文書数df(t、tgtDocs)を算出する第1文書数算出処理(S41〜S45)と、選択を受け付けた比較対象集合tgtSet内の比較対象cmp_i毎に、当該比較対象cmp_i内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数df(t、cmp)を算出する第2文書数算出処理(S46〜S49)と、選択を受け付けた比較対象集合tgtSet内の各カテゴリID21cに関連付けられた所属文書情報22cの各文書IDに関連した文書特徴語毎に、第1文書数算出処理により算出された文書数df(t、tgtDocs)と、第2文書数算出処理により算出された文書数df(t、cmp)とに基づいて、各比較対象cmp_iにおける当該文書特徴語の相違性を表す度合いの相違特徴度diff(t、cmp)を算出し、相違特徴度diff(t、cmp)が上位の文書特徴語をカテゴリ相違特徴語として相違・共通特徴語提示部53に送出する処理を実行する(S50〜S51)。
具体的には、カテゴリ相違特徴語抽出部44は、前述したステップS21〜S29と同様に、ステップS41〜S49を実行する。なお、ステップS41〜S49に代えて、ステップS21〜S29の結果をステップS50で用いるようにカテゴリ相違特徴語抽出部44を変形してもよい。逆に、ステップS21〜S29に代えて、ステップS41〜S49の結果をステップS30で用いるようにカテゴリ共通特徴語抽出部43を変形してもよい。
ステップS41〜S49の実行後、カテゴリ相違特徴語抽出部44は、ステップS25と同様のステップS45で算出した比較範囲tgtDocs内で単語が出現する文書数df(t、tgtDocs)と、ステップS29と同様のステップS49で算出した各比較対象cmp内で単語が出現する文書数df(t、cmp)に基づき、比較範囲tgtDocs内の文書に含まれる全ての特徴語tについて、各比較対象cmpに対する相違特徴度diff(t、cmp)を算出する(S50)。
具体的には、相違特徴度diff(t、cmp)としては、各文書数df(t、tgtDocs),df(t、cmp)に基づいて、表7に示すように、共通パラメータa”,b”,c”,d”,n”を算出した後、表8に示す如き、いずれかの統計指標として相違特徴度diff(t、cmp)とする。ここでは、例えば、T統計量を相違特徴度diff(t、cmp)とする場合について述べる。
Figure 0005023176
Figure 0005023176
相違特徴度diff(t、cmp)は、T統計量を利用して、単語tについて、比較対象cmp_iと、比較範囲tgtDocsから比較対象cmp_iを除いた差集合cmpDocs_iとの間の出現頻度の平均の差に基づき、有意性を求める指標である。これにより、比較対象cmp_iにおいて、比較対象以外の比較範囲(cmpDocs_i)に比べ、有意に出現頻度の多い単語を相違特徴語として抽出することができる。なお、T統計量(Tスコアともいう)については、例えば非特許文献3に記載されている。また、T統計量に代えて、特徴度の算出の説明で述べたような対数尤度比LLRやχ2乗値、自己相互情報量MIなどの統計指標を使ってもよい。
このような統計指標において、全文書集合docAllにおける各特徴語tの出現頻度df(t、docAll)や、各カテゴリcatにおける各特徴語の出現頻度df(t、cat)も利用してもよい。
カテゴリ相違特徴語抽出部44は、比較対象集合tgtSetに含まれるそれぞれの対象集合cmpについて、ステップS50で算出した各特徴語の相違特徴度diff(t、cmp)が上位r個の特徴語を、相違特徴語diffTerms(cmp)として、ユーザ操作・提示部50に送出する(S51)。ここで、上位個数rは前述した設定値である。また、相違特徴度diffTerms(cmp)が上位r個以内の特徴語を相違特徴語としたが、これに限らず、相違特徴度diffTerms(cmp)がしきい値以上の特徴語を相違特徴語としてもよい。
相違・共通特徴語提示部53は、図12に示すように、ステップS51で送出された各r個のカテゴリ相違特徴語をリストLdif1,Ldif2に提示する。
(関連カテゴリ提示部54の動作:図13)
関連カテゴリ提示部54は、概略的には、例えば相違・共通特徴語提示部53によるカテゴリ相違特徴語の提示中、ユーザの操作により、複数のカテゴリ相違特徴語からなる着目語集合tgtTermsの選択を受けると、当該選択を受け付けた着目語集合tgtTermsと、カテゴリ特徴語記憶部30内のカテゴリ特徴語との関連度rel(cat、tgtTerms)を算出し、関連度rel(cat、tgtTerms)の高いカテゴリ特徴語に関連付けられたカテゴリIDに関連したカテゴリ個数データを強調表示する(S61〜S66)。
具体的には、関連カテゴリ提示部54は、ユーザによって選択された複数の単語から構成される着目語集合tgtTermsを取得する(S61)。なお、着目語集合に含まれる単語としては、前述したカテゴリ相違特徴語に限らず、カテゴリ特徴語やカテゴリ共通特徴語などが適宜、選択可能となっている。
関連カテゴリ提示部54は、特徴語記憶部30から全てのカテゴリ特徴語33ctを取得する(S62)。
関連カテゴリ提示部54は、全てのカテゴリデータcatについて、ステップS64とステップS65の処理を繰り返す(S63)。
関連カテゴリ提示部54は、カテゴリデータcatのカテゴリ特徴語33ctに含まれる特徴語を特徴度でソートし、特徴語ランキングtermRnkを求める(S64)。
関連カテゴリ提示部54は、着目語集合tgtTermsと、特徴語ランキングtermRnkに基づいて、カテゴリcatと着目語集合tgtTermsとの関連度rel(cat、tgtTerms)を求める(S65)。
関連度rel(cat、tgtTerms)としては、平均精度と呼ばれる統計指標を利用することができる。この統計指標は、特徴語ランキングtermRnkにおいて、着目語集合tgtTermsに含まれる単語が、より上位に多く出現する程、高い値をとる指標である。平均精度の詳細については、非特許文献2に記載されている。関連度rel(cat、tgtTerms)としては、平均精度以外にも、カテゴリcatのカテゴリ特徴語において、着目語集合tgtTermsに存在する単語tの特徴度score(t、cat)を足し合わせた値としてもよい。
関連カテゴリ提示部54は、ステップS65により算出された各カテゴリの関連度rel(cat、tgtTerms)に基づき、当該関連度rel(cat、tgtTerms)がしきい値s以上のカテゴリ特徴語に関連付けられたカテゴリIDを、着目語集合tgtTermsの関連カテゴリrelCatsとして、関連カテゴリrelCatsに含まれるカテゴリIDに関連したカテゴリ個数データのセルを強調表示する(S66)。
なお、関連カテゴリとしては、関連度rel(cat、tgtTerms)がしきい値以上のカテゴリに限らず、関連度rel(cat、tgtTerms)が上位t個以内のカテゴリとしてもよい。しきい値sや上位個数tは、前述した上位個数rと同様に、予め設定されていてもよく、関連カテゴリの提示を行う都度設定されてもよい。
(ユーザ操作・提示部50の動作:図14)
次に、以上のような特徴語抽出部40や関連カテゴリ提示部54等の処理をユーザ操作に応じて用いるユーザ操作・提示部50の動作について説明する。なお、文書特徴語抽出部41及びカテゴリ特徴語抽出部42の動作(ステップS1〜S4,S11〜S20)は予め完了している状態であるとする。
ユーザ操作・提示部50は、概略的には、カテゴリID毎にカテゴリ個数データをセル表示し、ユーザによる選択操作に応じて、カテゴリ特徴語、カテゴリ共通特徴語及びカテゴリ相違特徴語を提示し、また、関連カテゴリを強調して提示する処理を実行する(S100〜S131)。
具体的には、ユーザ操作・提示部50においては、画面提示部51が、特徴語記憶部30に記憶された全てのカテゴリデータについて、それぞれのカテゴリを1つのセルとして表示する(S100)。
この表示例としては、図8の画面G10に示すようなクロス表示が挙げられる。この例では、文書データは図2に示すような特許文献とし、カテゴリとしては、特許文献の出願人14dの属性値と、出願日13dの上位4桁である出願年の属性値との2つの属性値で予め分類された文書集合を想定する。ユーザは特許文献から競合他社の技術動向を調査する作業中であるものとする。画面G10のクロス表示において、一つのセルが1つのカテゴリに相当する。例えば、セルc1は、F社が2004年に出願した特許文献を含むカテゴリに相当する。なお、表示形式は、クロス表示に限らず、グラフ表示、マップ表示又はフォルダ表示といった任意の表示形式が使用可能となっている。
ステップS110〜S112は、ユーザによるカテゴリの選択を受け付け、該カテゴリにおけるカテゴリ特徴語を提示するカテゴリ特徴語提示部52の処理を示している。
すなわち、カテゴリ特徴語提示部52は、ステップS100によりセルとして表示されたカテゴリに対して、ユーザがカテゴリcatを選択した場合、ステップS111とS112の処理を行う(S110)。
カテゴリ特徴語提示部52は、ユーザが選択したカテゴリcatのカテゴリIDに関連するカテゴリ特徴語データを、特徴語記憶部30から取得する(S111)。
カテゴリ特徴語提示部52は、取得したカテゴリ特徴語データに含まれる特徴度に基づき、特徴度score(t、cat)が上位r個の特徴語をカテゴリ特徴語として、ユーザに提示する(S112)。
例えば、図15に示すように、ユーザがセル(カテゴリ)c2をマウスのクリックなどにより選択した場合、該カテゴリに対するカテゴリ特徴語をリストL2に表示する。これにより、ユーザは、選択したセルc2に含まれる文献の内容の特徴を把握することができる。すなわち、選択したセルc2に対応するF社の2005年の出願特許におけるカテゴリ特徴語のリストL2に“検索”や“Web”という技術用語が有意に出現していることにより、ユーザは、F社の2005年における注力技術としては、検索やWebなどがあることを把握できる。ユーザは、他に選択したセルc3があれば、同様にリストL3から、出願年及び企業名の分析軸におけるカテゴリ特徴語を把握することができる。
ステップS120〜S126は、ユーザによる比較対象集合tgtSetの選択を受け付け、選択された比較対象集合tgtSetを特徴語抽出部40に送り、特徴語抽出部40によって抽出される共通特徴語と相違特徴語を受け取り、ユーザに提示する相違・共通特徴語提示部53の処理を示している。
すなわち、相違・共通特徴語提示部53は、ステップS100によって表示されたカテゴリに対して、比較対象集合tgtSetとして複数の比較対象を選択した場合、ステップS121〜S126の処理を行う(S120)。
相違・共通特徴語提示部53は、比較対象集合tgtSetを特徴語抽出部40に送る(S121)。特徴語抽出部40では、カテゴリ共通特徴語抽出部43が、前述したステップS21〜S31の処理を実行し、得られた共通特徴語comTermsを相違・特徴語提示部53に送出する。
相違・共通特徴語提示部53は、特徴語抽出部40から共通特徴語comTermsを受け取り、ユーザに提示する(S122)。
相違・共通特徴語提示部53は、比較対象集合tgtSetを特徴語抽出部40に送る(S123)。特徴語抽出部40では、カテゴリ相違特徴語抽出部44が、前述したステップS41〜S51の処理を実行し、得られた相違特徴語diffTermsを相違・特徴語提示部53に送出する。
相違・共通特徴語提示部53は、特徴語抽出部40から相違特徴語diffTermsを取得する(S124)。
相違・共通特徴語提示部53は、比較対象集合tgtSetに含まれる全ての比較対象cmpについて、ステップS126の処理を繰り返す(S125)。
相違・共通特徴語提示部53は、比較対象cmpに対する相違特徴語diffTerms(cmp)をユーザに提示する(S126)。
ステップS120〜S126における表示例は、図12に示す通りである。ユーザは、例えば、ユーザがA社とB社の技術動向を比較したい場合、画面G10においてA社に関するカテゴリを示す複数のセルを実線枠f1のように選択することにより1つの比較対象を選択する。
また、もう一つの比較対象として、B社に関するカテゴリを示す複数のセルを点線枠f2のように選択した場合、実線枠f1と点線枠f2で示される2つの比較対象から構成される比較範囲における共通特徴語リストLcomを表示する。
このように、両社の出願特許における共通特徴語リストLcomに有意に出現する技術用語として、”分類”や”クラスタリング”が提示され、これらの技術がA社とB社で共通する技術分野であることを把握できる。
また、実線枠f1で示される比較対象に対する相違特徴語リストLdif1を表示し、点線枠f2で示される比較対象に対する相違特徴語リストLdif2を表示する。このような相違特徴語リストLdif1,Ldif2の表示により、A社とB社の独自性を表す技術を把握することができる。
また、複数の比較対象に対し、共通特徴語と相違特徴語を表示することにより、単に文書集合に対する特徴語を提示するよりも、比較対象間の特徴を、より明確にユーザに示すことができる。
ステップS130、S131は、ステップS112や、S122,S126による各特徴語の提示中に、これら各特徴語から選択された着目語からなる着目語集合tgtTermsを受け付け、その着目語集合と各カテゴリとの関連度を算出し、関連度の高いカテゴリを関連カテゴリとしてユーザに提示する関連カテゴリ提示部54の処理を示している。
関連カテゴリ提示部54は、カテゴリ特徴語提示部52や、相違・共通特徴語提示部53によって提示された、カテゴリ特徴語または共通特徴語または相違特徴語から、ユーザが着目語を選択した場合、ステップS131の処理を行う(S130)。ここで、ユーザは複数の単語を着目語として選択できるものとし、選択された複数の着目語を着目語集合tgtTermsとする。また、本実施形態では、提示された特徴語から着目語を選択する場合について説明したが、これに限らず、Webの検索のようにユーザが任意のキーワードを着目語として入力してもよい。
関連カテゴリ提示部54は、前述したステップS61〜S66の処理を実行することにより、着目語集合tgtTermsと各カテゴリとの関連度を算出して関連度の高いカテゴリを関連カテゴリとしてユーザに提示する(S131)。
例えば、図16に示すように、ユーザは、共通特徴語のリストLcomや相違特徴語のリストLdif1,Ldif2の中から、着目したい単語Tcom1とTdif2を選択する。ここでは、ユーザは“分類”と“XML”との単語が気になった場合、単語“分類”を示す共通語Tcom1と、単語“XML”を示す相違特徴語Tdif2とを着目語として選択する。関連カテゴリ提示部54は、ユーザの着目語の選択を受けて、着目語との関連度が高い関連カテゴリのセルc4を、背景色を変更する等して、強調表示する。
これによって、ユーザは着目する技術について、調査すべき範囲の糸口をつかむことができる。図16に示した例では、ユーザが着目した”分類”と”XML”について、企業の観点から見ると、C社もこれらの技術に関連していることがわかる。さらに、出願年の観点からみると2006〜2008年の間で、これらの技術に関連する特許が有意に出現していることがわかる。これによって、ユーザは着目している技術について、詳細に調査すべき範囲を明確化でき、効率的に先行技術調査を行うことができる。
また、着目語の選択は、共通特徴語や相違特徴語だけでなく、カテゴリ特徴語からも選択することができる。例えば図17に示すように、着目語の選択に加え、セルc2におけるカテゴリ特徴語リストL2内のカテゴリ特徴語からも着目語を選択した場合には、この選択に応じて、関連カテゴリの表示が変化する。
画面提示部51は、ユーザがシステムの終了を選択した場合、処理を終了し、それ以外はステップS110に処理を戻す(S140)。
例えば、ステップS110に処理を戻し、調査を継続する場合の例について説明する。図18は比較対象の絞り込みと共通特徴語及び相違特徴語の表示例を表す図である。ユーザは、共通特徴語や相違特徴語、カテゴリ特徴語の提示や、着目語指定に対する関連カテゴリの提示を受けて、比較対象の縮小(絞り込み)や拡大といった変更を行うことができる。
例えば、図16に示す如き、特徴語や関連語カテゴリの提示中に、ユーザは、図18に示すように、比較範囲の各枠f1,f2を出願年について2006〜2008年に絞り込み、新たな点線枠f3によりC社を比較企業に選択する。これら各枠f1〜f3に基づく比較対象集合tgtSetに基づいて、特徴語抽出装置は、提示する共通特徴語や相違特徴語を変化させる。これにより、ユーザはそれまで思いつかなかったが着目すべき技術用語を発見する手がかりとなる。
図19は、ユーザによる着目語の変更(追加/削除)と、関連カテゴリの表示例を表す図である。ユーザは、共通特徴語や相違特徴語やカテゴリ特徴語を見ながら、着目語を追加したり、削除したりすることができる。
例えば、図18による特徴語の変化や、C社の相違特徴語を受けて、新たに単語“マイニング”を示す相違特徴語Tdif3を着目語に追加する。これを受けて、特徴語抽出装置は、提示する関連カテゴリを変化させる。
これにより、ユーザは、着目語を切り替えながら関連するカテゴリを概観することで、それまで気づいていなかった着目語とカテゴリの関連を発見することができる。先行技術調査であれば、着目している技術を扱っている意外な企業や、ある企業はユーザが認識しているよりも早い年代から着目している技術に関する特許を出願しているといったことを発見する手がかりとなる。
また、図15〜図19を用いて述べたように、特徴語抽出装置による「特徴語の提示」と「関連カテゴリ提示」、ユーザによる「比較対象の指定」と「着目語の選択」、というプロセスを繰り返すことで、分析する対象や特徴語を明確化するとともに、それまでユーザが意識していなかったキーワードや、分析対象を発見することができる。特許調査においては、新たに着目すべき技術や、注意すべき競合他社を発見する糸口となる。また、比較対象や着目語を利用することで、適切な比較範囲に対する、適切な単語による、先行技術調査を実現することができる。
例えば図20に示す如き、「時系列×企業」の分析軸によるクロス分析の画面G10は、図21及び図22に示すように、ある企業に対する「時系列×特徴語」の分析軸によるクロス分析の画面G20、ある特徴語に対する「時系列×企業」の分析軸によるクロス分析の画面G30などのように、任意の分析軸の画面に適用して適切な比較範囲と適切な単語による分析・調査を実現することができる。
また例えば、ある特徴語に対する「時系列×企業」のクロス分析の画面G30は、図23に示す如き、ある特徴語に対する「時系列×企業」のグラフ表示の画面G31に表示形式を変更することができる。なお、表示形式を変更できることは、他のクロス分析の画面G10,G20でも同様である。
上述したように本実施形態によれば、カテゴリIDに関連付けられた文書IDの個数を含むカテゴリ個数データの提示中に、選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示する。
また、カテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付けると、選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として提示する。
このように、選択したカテゴリ個数データに応じて、カテゴリ特徴語やカテゴリ相違特徴語といった特徴語を提示する構成により、事前に定義された属性に限らずに分析軸の候補として特徴語を提示できると共に、着目すべき比較範囲の絞り込みや、着目すべき特徴語の参照を支援できる。
補足すると、カテゴリ特徴語を提示することにより、ユーザが各カテゴリに対するカテゴリ特徴語を確認して、文書集合の全体像や、個々のカテゴリの内容を効率よく把握できる。
また、複数の比較対象間の相違特徴語を提示する構成により、ユーザは着目している任意の範囲における比較対象の相違点を把握することができる。さらに、比較対象集合を絞り込めば、各比較対象における相違点をより詳細に把握できる。一方、比較対象集合を拡大すれば、マクロな視点で相違点を把握でき、全体的な内容の理解を深めることができる。以上により、ユーザは各特徴語を参照しながら、文書集合について内容の理解を進め、分析すべき範囲や、着目すべきキーワードを明確化することができる。
また、本実施形態によれば、カテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付けると、選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、比較対象集合における当該文書特徴語の共通性を表す度合いの共通特徴度を算出し、共通特徴度が上位の文書特徴語をカテゴリ共通特徴語として提示する構成により、ユーザは自身が任意の着目している範囲における文書の共通点を把握でき、文書集合に対する理解がさらに深められ、分析すべき範囲やキーワードをより明確に捉えることができる。
さらに、本実施形態によれば、例えば、カテゴリ相違特徴語の提示中、複数のカテゴリ相違特徴語からなる着目語集合の選択を受け付けると、選択を受け付けた着目語集合と、カテゴリ特徴語記憶部30内のカテゴリ特徴語との関連度を算出し、関連度の高いカテゴリ特徴語に関連付けられたカテゴリIDに関連したカテゴリ個数データを強調表示する構成により、ユーザは、着目語の選択に対して提示されるカテゴリを概観することで、自身が着目しているキーワードに関連しているカテゴリを把握でき、それまで気づいていなかった分析対象を発見できる。従って、ユーザは、分析したい事項について、適切な分析対象を把握でき、より精度の高い分析が可能となる。
このように、ユーザは、相違特徴語・共通特徴語と関連カテゴリを確認しながら、比較対象の選択(絞り込みや拡大)と着目語の選択を繰り返すことで、分析する範囲や着目する特徴語を明確化することができる。これによって、複数の文書集合に対して、ユーザは漏れなく、無駄なく、目的にあった、内容把握や比較調査を効率的に行うことができる。
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行してもよい。
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10…文書記憶部、20…カテゴリ記憶部、30…特徴語記憶部、40…特徴語抽出部、41…文書特徴語抽出部、42…カテゴリ特徴語抽出部、43…カテゴリ共通特徴語抽出部、44…カテゴリ相違特徴語抽出部、50…ユーザ操作・提示部、51…画面提示部、52…カテゴリ特徴語提示部、53…相違・共通特徴語提示部、54…関連カテゴリ提示部。

Claims (5)

  1. 文書ID及び内容テキスト情報を有する複数の文書を記憶する文書記憶手段と、
    カテゴリID毎に1つ以上の文書IDを関連付けて記憶するカテゴリ記憶手段と、
    前記文書記憶手段内の文書毎に、当該文書の文書IDと、当該文書の内容テキスト情報から抽出された文書特徴語とを関連付けて記憶する文書特徴語記憶手段と、
    前記カテゴリ記憶手段内で関連したカテゴリID及び1つ以上の文書IDと、当該カテゴリIDに関連したカテゴリ特徴語とを関連付けて記憶するカテゴリ特徴語記憶手段と、
    前記文書記憶手段内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて前記文書特徴語記憶手段に書き込む文書特徴語抽出手段と、
    前記複数の文書により構成される文書集合を入力とし、当該文書集合に含まれる文書IDに関連した文書特徴語が、当該文書IDの文書中で出現する文書数を算出する出現文書数算出手段と、
    前記出現文書数算出手段により算出された文書数に基づいて、全文書中におけるカテゴリIDに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出手段と、
    この文書特徴語に当該特徴度を付加したカテゴリ特徴語を作成し、当該作成したカテゴリ特徴語と当該カテゴリ特徴語に関連したカテゴリID及び1つ以上の文書IDとを関連付けて前記カテゴリ特徴語記憶手段に書き込むカテゴリ特徴語作成手段と、
    前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連した文書IDの個数を含むカテゴリ個数データを提示するカテゴリ個数提示手段と、
    前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、いずれかのカテゴリ個数データの選択を受け付けるカテゴリ個数データ選択受付手段と、
    前記カテゴリ個数データ選択受付手段による選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示するカテゴリ特徴語提示手段と、
    前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付ける比較対象集合選択受付手段と、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記出現文書数算出手段により算出された文書数に基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として送出するカテゴリ相違特徴語送出手段と、
    前記カテゴリ相違特徴語送出手段により送出されたカテゴリ相違特徴語を提示するカテゴリ相違特徴語提示手段と、
    を備えたことを特徴とする特徴語抽出装置。
  2. 請求項1に記載の特徴語抽出装置において、
    前記出現文書数算出手段は、
    前記文書記憶手段内の文書特徴語毎に、前記文書記憶手段の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出手段と、
    前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出手段と、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出手段と、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出手段と、
    を備えたことを特徴とする特徴語抽出装置。
  3. 請求項1または2に記載の特徴語抽出装置において、
    前記選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記第1文書数算出手段により算出された文書数と、前記第2文書数算出手段により算出された文書数とに基づいて、前記比較対象集合における当該文書特徴語の共通性を表す度合いの共通特徴度を算出し、共通特徴度が上位の文書特徴語をカテゴリ共通特徴語として送出するカテゴリ共通特徴語送出手段と、
    前記カテゴリ共通特徴語送出手段により送出されたカテゴリ共通特徴語を提示するカテゴリ共通特徴語提示手段と、
    を更に備えたことを特徴とする特徴語抽出装置。
  4. 請求項1または2に記載の特徴語抽出装置において、
    前記カテゴリ個数提示手段によるカテゴリ相違特徴語の提示中、複数のカテゴリ相違特徴語からなる着目語集合の選択を受け付ける着目語集合選択受付手段と、
    前記着目語集合選択受付手段による選択を受け付けた着目語集合と、前記カテゴリ特徴語記憶手段内のカテゴリ特徴語との関連度を算出し、関連度の高いカテゴリ特徴語に関連付けられたカテゴリIDに関連したカテゴリ個数データを強調表示する関連カテゴリ提示手段と、
    を更に備えたことを特徴とする特徴語抽出装置。
  5. 文書記憶手段、カテゴリ記憶手段、文書特徴語記憶手段及びカテゴリ特徴語記憶手段を備えた特徴語抽出装置のプログラムであって、
    前記特徴語抽出装置を、
    文書ID及び内容テキスト情報を有する複数の文書を前記文書記憶手段に書き込む文書書込手段、
    カテゴリID毎に1つ以上の文書IDを関連付けて前記カテゴリ記憶手段に書き込むカテゴリ書込手段、
    前記文書記憶手段内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて前記文書特徴語記憶手段に書き込む文書特徴語抽出手段、
    前記文書記憶手段内の文書特徴語毎に、前記文書記憶手段の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出手段、
    前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出手段、
    前記全文書中出現文書数算出手段により算出された文書数と、前記カテゴリ文書中出現文書数算出手段により算出された文書数とに基づいて、全文書中におけるカテゴリIDに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出手段、
    この文書特徴語に当該特徴度を付加したカテゴリ特徴語を作成し、当該作成したカテゴリ特徴語と当該カテゴリ特徴語に関連したカテゴリID及び1つ以上の文書IDとを関連付けて前記カテゴリ特徴語記憶手段に書き込むカテゴリ特徴語作成手段、
    前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDの個数を含むカテゴリ個数データを提示するカテゴリ個数提示手段、
    前記カテゴリ個数データの提示中、いずれかのカテゴリ個数データの選択を受け付けるカテゴリ個数データ選択受付手段、
    前記カテゴリ個数データ選択受付手段による選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示するカテゴリ特徴語提示手段、
    前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付ける比較対象集合選択受付手段、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出手段と、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出手段と、
    前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記第1文書数算出手段により算出された文書数と、前記第2文書数算出手段により算出された文書数とに基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として送出するカテゴリ相違特徴語送出手段と、
    前記カテゴリ相違特徴語送出手段により送出されたカテゴリ相違特徴語を提示するカテゴリ相違特徴語提示手段、
    として機能させるためのプログラム。
JP2010064821A 2010-03-19 2010-03-19 特徴語抽出装置及びプログラム Expired - Fee Related JP5023176B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010064821A JP5023176B2 (ja) 2010-03-19 2010-03-19 特徴語抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010064821A JP5023176B2 (ja) 2010-03-19 2010-03-19 特徴語抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011198111A JP2011198111A (ja) 2011-10-06
JP5023176B2 true JP5023176B2 (ja) 2012-09-12

Family

ID=44876211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010064821A Expired - Fee Related JP5023176B2 (ja) 2010-03-19 2010-03-19 特徴語抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5023176B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5135412B2 (ja) * 2010-10-27 2013-02-06 株式会社東芝 文書分析装置およびプログラム
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
JP5481543B2 (ja) * 2012-09-24 2014-04-23 株式会社東芝 文書分析装置およびプログラム
JP6173848B2 (ja) * 2013-09-11 2017-08-02 株式会社東芝 文書分類装置
JP6056829B2 (ja) * 2014-09-30 2017-01-11 ダイキン工業株式会社 レコメンド作成装置
JP6149836B2 (ja) * 2014-09-30 2017-06-21 ダイキン工業株式会社 人材検索装置
JP6763732B2 (ja) * 2016-09-28 2020-09-30 株式会社Nttドコモ 抽出装置
JP6172694B1 (ja) * 2016-11-14 2017-08-02 国立大学法人名古屋大学 レポートの分類システム
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3463010B2 (ja) * 1999-09-17 2003-11-05 Necエレクトロニクス株式会社 情報処理装置および情報処理方法
JP4116329B2 (ja) * 2002-05-27 2008-07-09 株式会社日立製作所 文書情報表示システム、文書情報表示方法及び文書検索方法
JP2003345810A (ja) * 2002-05-28 2003-12-05 Hitachi Ltd 文書検索方法、文書検索システム及び文書検索結果示方システム
US20060136467A1 (en) * 2004-12-17 2006-06-22 General Electric Company Domain-specific data entity mapping method and system
JP4667889B2 (ja) * 2005-02-02 2011-04-13 佐千男 廣川 データマップ作成サーバ、およびデータマップ作成プログラム
CN101208694A (zh) * 2005-04-25 2008-06-25 株式会社Ipb 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP5347334B2 (ja) * 2008-05-29 2013-11-20 富士通株式会社 まとめ上げ作業支援処理方法、装置及びプログラム
JP5160312B2 (ja) * 2008-06-05 2013-03-13 株式会社東芝 文書分類装置
JP5215046B2 (ja) * 2008-06-05 2013-06-19 株式会社東芝 文書分類装置

Also Published As

Publication number Publication date
JP2011198111A (ja) 2011-10-06

Similar Documents

Publication Publication Date Title
JP5023176B2 (ja) 特徴語抽出装置及びプログラム
CN103026356B (zh) 语义内容搜索
US8099415B2 (en) Method and apparatus for assessing similarity between online job listings
Hinrichs et al. Trading consequences: A case study of combining text mining and visualization to facilitate document exploration
US7606797B2 (en) Reverse value attribute extraction
US20130268531A1 (en) Finding Data in Connected Corpuses Using Examples
KR20130095171A (ko) 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램
US9558185B2 (en) Method and system to discover and recommend interesting documents
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
US20120239657A1 (en) Category classification processing device and method
Khan et al. Measuring the impact of biodiversity datasets: Data reuse, citations and altmetrics
US20120179709A1 (en) Apparatus, method and program product for searching document
Maciołek et al. Cluo: Web-scale text mining system for open source intelligence purposes
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP5500070B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
US8904272B2 (en) Method of multi-document aggregation and presentation
Bergiante et al. Bibliometric study of the relationship between business model and air transport
US9195660B2 (en) Contextual search for modeling notations
JP2014102625A (ja) 情報検索システム、プログラム、および方法
CN113761213B (zh) 一种基于知识图谱的数据查询系统、方法及终端设备
JP2015162022A (ja) 接続関係の可視化を支援する装置及び方法
CN113407678A (zh) 知识图谱构建方法、装置和设备
Candela et al. Discovering emerging topics in textual corpora of galleries, libraries, archives, and museums institutions

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

R150 Certificate of patent or registration of utility model

Ref document number: 5023176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees