JP5023176B2 - 特徴語抽出装置及びプログラム - Google Patents
特徴語抽出装置及びプログラム Download PDFInfo
- Publication number
- JP5023176B2 JP5023176B2 JP2010064821A JP2010064821A JP5023176B2 JP 5023176 B2 JP5023176 B2 JP 5023176B2 JP 2010064821 A JP2010064821 A JP 2010064821A JP 2010064821 A JP2010064821 A JP 2010064821A JP 5023176 B2 JP5023176 B2 JP 5023176B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- category
- feature word
- feature
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 107
- 238000004458 analytical method Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 description 44
- 241000282326 Felis catus Species 0.000 description 40
- 230000006870 function Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 14
- 244000187656 Eucalyptus cornuta Species 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような本発明の一つの局面においては、カテゴリIDに関連した文書IDの個数を含むカテゴリ個数データの提示中に、選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示する。
(f42-1) 文書記憶部10内の文書特徴語毎に、文書記憶部10の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出機能。
特徴語抽出部41は、概略的には、文書記憶部10内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて特徴語記憶部30に書き込む処理を実行する(S1〜S4)。
カテゴリ特徴語抽出部42は、概略的には、文書記憶部10内の文書特徴語毎に、文書記憶部10の全ての文書中で当該文書特徴語が出現する文書数df(t、docAll)を算出する全文書中出現文書数算出処理(S11〜S13)と、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた所属文書情報22cの文書IDに関連した文書特徴語32dtが当該文書IDの文書中で出現する文書数df(t、cat)を算出するカテゴリ文書中出現文書数算出処理(S14〜S18)と、全文書中出現文書数算出処理により算出された文書数df(t、docAll)と、カテゴリ文書中出現文書数算出処理により算出された文書数df(t、cat)とに基づいて、全文書中におけるカテゴリID21cに関連した文書に対する当該文書特徴語32dtの特徴度score(t、cat)を算出する特徴度算出処理(S19)と、この文書特徴語32dtに当該特徴度score(t、cat)を付加したカテゴリ特徴語33ctを作成し、当該作成したカテゴリ特徴語33ctと当該カテゴリ特徴語に関連したカテゴリID31ct(カテゴリID21cと同一値)及び1つ以上の文書IDを含む所属文書情報32ct(所属文書情報22cと同一値)とを関連付けて特徴語記憶部30に書き込む処理(S20)とを実行する。
画面提示部51は、図8に示すように、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書IDの個数を含むカテゴリ個数データを提示した画面G10を表示する。例えば、画面G10内のセルc1,c2は、図示しないカテゴリID21毎に表示されており、各セルc1,c2内の値“75”,“50”がカテゴリ個数データに相当している。
画面提示部51は、図8に示したように、カテゴリ記憶部20内のカテゴリID21c毎に、当該カテゴリID21cに関連付けられた文書IDの個数を含むカテゴリ個数データを提示した画面G10を表示する。
関連カテゴリ提示部54は、概略的には、例えば相違・共通特徴語提示部53によるカテゴリ相違特徴語の提示中、ユーザの操作により、複数のカテゴリ相違特徴語からなる着目語集合tgtTermsの選択を受けると、当該選択を受け付けた着目語集合tgtTermsと、カテゴリ特徴語記憶部30内のカテゴリ特徴語との関連度rel(cat、tgtTerms)を算出し、関連度rel(cat、tgtTerms)の高いカテゴリ特徴語に関連付けられたカテゴリIDに関連したカテゴリ個数データを強調表示する(S61〜S66)。
次に、以上のような特徴語抽出部40や関連カテゴリ提示部54等の処理をユーザ操作に応じて用いるユーザ操作・提示部50の動作について説明する。なお、文書特徴語抽出部41及びカテゴリ特徴語抽出部42の動作(ステップS1〜S4,S11〜S20)は予め完了している状態であるとする。
Claims (5)
- 文書ID及び内容テキスト情報を有する複数の文書を記憶する文書記憶手段と、
カテゴリID毎に1つ以上の文書IDを関連付けて記憶するカテゴリ記憶手段と、
前記文書記憶手段内の文書毎に、当該文書の文書IDと、当該文書の内容テキスト情報から抽出された文書特徴語とを関連付けて記憶する文書特徴語記憶手段と、
前記カテゴリ記憶手段内で関連したカテゴリID及び1つ以上の文書IDと、当該カテゴリIDに関連したカテゴリ特徴語とを関連付けて記憶するカテゴリ特徴語記憶手段と、
前記文書記憶手段内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて前記文書特徴語記憶手段に書き込む文書特徴語抽出手段と、
前記複数の文書により構成される文書集合を入力とし、当該文書集合に含まれる文書IDに関連した文書特徴語が、当該文書IDの文書中で出現する文書数を算出する出現文書数算出手段と、
前記出現文書数算出手段により算出された文書数に基づいて、全文書中におけるカテゴリIDに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出手段と、
この文書特徴語に当該特徴度を付加したカテゴリ特徴語を作成し、当該作成したカテゴリ特徴語と当該カテゴリ特徴語に関連したカテゴリID及び1つ以上の文書IDとを関連付けて前記カテゴリ特徴語記憶手段に書き込むカテゴリ特徴語作成手段と、
前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連した文書IDの個数を含むカテゴリ個数データを提示するカテゴリ個数提示手段と、
前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、いずれかのカテゴリ個数データの選択を受け付けるカテゴリ個数データ選択受付手段と、
前記カテゴリ個数データ選択受付手段による選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示するカテゴリ特徴語提示手段と、
前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付ける比較対象集合選択受付手段と、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記出現文書数算出手段により算出された文書数に基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として送出するカテゴリ相違特徴語送出手段と、
前記カテゴリ相違特徴語送出手段により送出されたカテゴリ相違特徴語を提示するカテゴリ相違特徴語提示手段と、
を備えたことを特徴とする特徴語抽出装置。 - 請求項1に記載の特徴語抽出装置において、
前記出現文書数算出手段は、
前記文書記憶手段内の文書特徴語毎に、前記文書記憶手段の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出手段と、
前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出手段と、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出手段と、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出手段と、
を備えたことを特徴とする特徴語抽出装置。 - 請求項1または2に記載の特徴語抽出装置において、
前記選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記第1文書数算出手段により算出された文書数と、前記第2文書数算出手段により算出された文書数とに基づいて、前記比較対象集合における当該文書特徴語の共通性を表す度合いの共通特徴度を算出し、共通特徴度が上位の文書特徴語をカテゴリ共通特徴語として送出するカテゴリ共通特徴語送出手段と、
前記カテゴリ共通特徴語送出手段により送出されたカテゴリ共通特徴語を提示するカテゴリ共通特徴語提示手段と、
を更に備えたことを特徴とする特徴語抽出装置。 - 請求項1または2に記載の特徴語抽出装置において、
前記カテゴリ個数提示手段によるカテゴリ相違特徴語の提示中、複数のカテゴリ相違特徴語からなる着目語集合の選択を受け付ける着目語集合選択受付手段と、
前記着目語集合選択受付手段による選択を受け付けた着目語集合と、前記カテゴリ特徴語記憶手段内のカテゴリ特徴語との関連度を算出し、関連度の高いカテゴリ特徴語に関連付けられたカテゴリIDに関連したカテゴリ個数データを強調表示する関連カテゴリ提示手段と、
を更に備えたことを特徴とする特徴語抽出装置。 - 文書記憶手段、カテゴリ記憶手段、文書特徴語記憶手段及びカテゴリ特徴語記憶手段を備えた特徴語抽出装置のプログラムであって、
前記特徴語抽出装置を、
文書ID及び内容テキスト情報を有する複数の文書を前記文書記憶手段に書き込む文書書込手段、
カテゴリID毎に1つ以上の文書IDを関連付けて前記カテゴリ記憶手段に書き込むカテゴリ書込手段、
前記文書記憶手段内の文書毎に内容テキスト情報を形態素解析し、当該形態素解析の結果から文書特徴語を抽出し、当該抽出した文書特徴語と、当該文書特徴語に対応する文書の文書IDとを関連付けて前記文書特徴語記憶手段に書き込む文書特徴語抽出手段、
前記文書記憶手段内の文書特徴語毎に、前記文書記憶手段の全ての文書中で当該文書特徴語が出現する文書数を算出する全文書中出現文書数算出手段、
前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDに関連した文書特徴語が当該文書IDの文書中で出現する文書数を算出するカテゴリ文書中出現文書数算出手段、
前記全文書中出現文書数算出手段により算出された文書数と、前記カテゴリ文書中出現文書数算出手段により算出された文書数とに基づいて、全文書中におけるカテゴリIDに関連した文書に対する当該文書特徴語の特徴度を算出する特徴度算出手段、
この文書特徴語に当該特徴度を付加したカテゴリ特徴語を作成し、当該作成したカテゴリ特徴語と当該カテゴリ特徴語に関連したカテゴリID及び1つ以上の文書IDとを関連付けて前記カテゴリ特徴語記憶手段に書き込むカテゴリ特徴語作成手段、
前記カテゴリ記憶手段内のカテゴリID毎に、当該カテゴリIDに関連付けられた文書IDの個数を含むカテゴリ個数データを提示するカテゴリ個数提示手段、
前記カテゴリ個数データの提示中、いずれかのカテゴリ個数データの選択を受け付けるカテゴリ個数データ選択受付手段、
前記カテゴリ個数データ選択受付手段による選択を受け付けたカテゴリ個数データのカテゴリIDに関連したカテゴリ特徴語のうち、特徴度が上位のカテゴリ特徴語における文書特徴語をカテゴリ特徴語として提示するカテゴリ特徴語提示手段、
前記カテゴリ個数提示手段によるカテゴリ個数データの提示中、複数個のカテゴリ個数データの各カテゴリIDの和集合である複数の比較対象からなる比較対象集合の選択を受け付ける比較対象集合選択受付手段、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、当該各文書IDに関連した全ての文書中で当該文書特徴語が出現する文書数を算出する第1文書数算出手段と、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の比較対象毎に、当該比較対象内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語が当該各文書IDの文書中で出現する文書数を算出する第2文書数算出手段と、
前記比較対象集合選択受付手段による選択を受け付けた比較対象集合内の各カテゴリIDに関連付けられた各文書IDに関連した文書特徴語毎に、前記第1文書数算出手段により算出された文書数と、前記第2文書数算出手段により算出された文書数とに基づいて、各比較対象における当該文書特徴語の相違性を表す度合いの相違特徴度を算出し、相違特徴度が上位の文書特徴語をカテゴリ相違特徴語として送出するカテゴリ相違特徴語送出手段と、
前記カテゴリ相違特徴語送出手段により送出されたカテゴリ相違特徴語を提示するカテゴリ相違特徴語提示手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064821A JP5023176B2 (ja) | 2010-03-19 | 2010-03-19 | 特徴語抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064821A JP5023176B2 (ja) | 2010-03-19 | 2010-03-19 | 特徴語抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198111A JP2011198111A (ja) | 2011-10-06 |
JP5023176B2 true JP5023176B2 (ja) | 2012-09-12 |
Family
ID=44876211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064821A Expired - Fee Related JP5023176B2 (ja) | 2010-03-19 | 2010-03-19 | 特徴語抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5023176B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5135412B2 (ja) * | 2010-10-27 | 2013-02-06 | 株式会社東芝 | 文書分析装置およびプログラム |
US10140361B2 (en) | 2012-08-31 | 2018-11-27 | Nec Corporation | Text mining device, text mining method, and computer-readable recording medium |
JP5481543B2 (ja) * | 2012-09-24 | 2014-04-23 | 株式会社東芝 | 文書分析装置およびプログラム |
JP6173848B2 (ja) * | 2013-09-11 | 2017-08-02 | 株式会社東芝 | 文書分類装置 |
JP6056829B2 (ja) * | 2014-09-30 | 2017-01-11 | ダイキン工業株式会社 | レコメンド作成装置 |
JP6149836B2 (ja) * | 2014-09-30 | 2017-06-21 | ダイキン工業株式会社 | 人材検索装置 |
JP6763732B2 (ja) * | 2016-09-28 | 2020-09-30 | 株式会社Nttドコモ | 抽出装置 |
JP6172694B1 (ja) * | 2016-11-14 | 2017-08-02 | 国立大学法人名古屋大学 | レポートの分類システム |
CN113869639B (zh) * | 2021-08-26 | 2023-11-07 | 中国环境科学研究院 | 长江流域企业筛选方法、装置、电子设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3463010B2 (ja) * | 1999-09-17 | 2003-11-05 | Necエレクトロニクス株式会社 | 情報処理装置および情報処理方法 |
JP4116329B2 (ja) * | 2002-05-27 | 2008-07-09 | 株式会社日立製作所 | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
JP2003345810A (ja) * | 2002-05-28 | 2003-12-05 | Hitachi Ltd | 文書検索方法、文書検索システム及び文書検索結果示方システム |
US20060136467A1 (en) * | 2004-12-17 | 2006-06-22 | General Electric Company | Domain-specific data entity mapping method and system |
JP4667889B2 (ja) * | 2005-02-02 | 2011-04-13 | 佐千男 廣川 | データマップ作成サーバ、およびデータマップ作成プログラム |
KR20080005208A (ko) * | 2005-04-25 | 2008-01-10 | 가부시키가이샤 아이.피.비. | 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법 |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
WO2007069663A1 (ja) * | 2005-12-13 | 2007-06-21 | Intellectual Property Bank Corp. | 技術文書属性の関連性分析支援装置 |
JP5347334B2 (ja) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | まとめ上げ作業支援処理方法、装置及びプログラム |
JP5160312B2 (ja) * | 2008-06-05 | 2013-03-13 | 株式会社東芝 | 文書分類装置 |
JP5215046B2 (ja) * | 2008-06-05 | 2013-06-19 | 株式会社東芝 | 文書分類装置 |
-
2010
- 2010-03-19 JP JP2010064821A patent/JP5023176B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011198111A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5023176B2 (ja) | 特徴語抽出装置及びプログラム | |
CN103026356B (zh) | 语义内容搜索 | |
US8099415B2 (en) | Method and apparatus for assessing similarity between online job listings | |
Hinrichs et al. | Trading consequences: A case study of combining text mining and visualization to facilitate document exploration | |
US20140337367A1 (en) | Forensic system, forensic method, and forensic program | |
US7606797B2 (en) | Reverse value attribute extraction | |
US20090183115A1 (en) | Document searching apparatus, document searching method, and computer-readable recording medium | |
US20130268531A1 (en) | Finding Data in Connected Corpuses Using Examples | |
KR20130095171A (ko) | 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램 | |
US8458187B2 (en) | Methods and systems for visualizing topic location in a document redundancy graph | |
US9558185B2 (en) | Method and system to discover and recommend interesting documents | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
KR20070009338A (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
US20120239657A1 (en) | Category classification processing device and method | |
Khan et al. | Measuring the impact of biodiversity datasets: Data reuse, citations and altmetrics | |
Maciołek et al. | Cluo: Web-scale text mining system for open source intelligence purposes | |
JP2007304796A (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
US8904272B2 (en) | Method of multi-document aggregation and presentation | |
US9195660B2 (en) | Contextual search for modeling notations | |
JPWO2010013472A1 (ja) | データ分類システム、データ分類方法、及びデータ分類プログラム | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
JP2015162022A (ja) | 接続関係の可視化を支援する装置及び方法 | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
KR20060114569A (ko) | 특허정보시스템의 작동방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5023176 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |