JP2012221316A - 文書トピック抽出装置及び方法及びプログラム - Google Patents
文書トピック抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2012221316A JP2012221316A JP2011087679A JP2011087679A JP2012221316A JP 2012221316 A JP2012221316 A JP 2012221316A JP 2011087679 A JP2011087679 A JP 2011087679A JP 2011087679 A JP2011087679 A JP 2011087679A JP 2012221316 A JP2012221316 A JP 2012221316A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- feature word
- topic
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、文書群を入力し、入力された各文書の特徴語である対象文書特徴語を抽出し、入力された各文書の関連文書を抽出し、関連文書の特徴語である関連文書特徴語を抽出する。対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出し、抽出した前記トピックを出力する。
【選択図】 図4
Description
(1)対象文書から語を抽出する方法;
(2)対象文書を含む文書群内から語を抽出する方法;
がある。
TF = (文書d中における語wの出現回数) / (文書d中における全語数)
IDF = log{ (全文書数) / (語wの出現文書数) }
上記(2)対象文書を含む文書群内から語を抽出する方法では、PLSA、LDA等のトピックモデルを用いる方式がある(例えば、非特許文献1参照)。非特許文献1では、LDAを用いて文書群内の各文書を内容の潜在的類似性に基づいて分類し、各分類内で多く出現する語を抽出している。文書dを含む分類D内で語wが多く出現するとき、語wを文書dの概念を説明する語とすることができる。
文書群を入力する入力手段と、
入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
入力された各文書の関連文書を抽出する関連文書抽出手段と、
前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
抽出した前記トピックを出力するトピック出力手段と、を有する。
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む。
文書群入力部11は、図5の小説データを入力として受け付け、各小説データに文書IDを付与し、図7のデータ構造でメモリ上に保持する(ステップ101)。
対象文書特徴語抽出部13は、図8の各レコードの文書ベクトルから得られる、各文書中の各語の出現回数に基づいて、前述の文書dにおける語wのTFIDF値算出方法を用いて、各文書中においてTFIDF値が高い語を上位から最大N件抽出し、各語と各文書中における各語のTFIDF値を関連付けて、メモリ上に「対象文書特徴語テーブル」として図10に示すデータ構造で保持する(ステップ103)。なお、Nは1以上の整数で、規定値であるとする。
関連文書抽出部14は、図8の各レコードの文書ベクトルを入力として一般的な類似文書判定手段を実行し、図8の各レコードの類似文書を抽出する(ステップ104)。ここでは、一般的な類似文書判定手段として、前述のLDAを用いて各レコードの文書ベクトルをKクラスにソフトクラスタリングする方法を採る。
対象文書トピック抽出部16は、対象文書特徴語抽出部13で抽出された対象文書特徴語と関連文書特徴語抽出部15で抽出された関連文書特徴語を用いて対象文書トピックを抽出し、トピック出力部17より出力する。
本実施の形態では、第1の実施の形態を改良したトピック抽出装置について説明する。
各語と各文書中における各語のTFIDF値を関連付けて、メモリ上の「対象文書特徴語及びTFIDF値テーブル」に図10に示すデータ構造で保持する。なお、Nは1以上の整数で、規定値であるとする。
すなわち、図22において、「教育機関」と「司法機関」は木構造中にて最短2ホップで繋がるので概念距離は2、「教育機関」と「山」は木構造中にて最短5ホップで繋がるので概念距離は5、である。なお、語間の概念距離測定方法は上記に限らず、その他の概念距離測定方法を用いても構わない。
各文書中の各関連文書語の概念を、語概念辞書23から取得し、各語と各語の概念を関連付けて、メモリ上の「関連文書特徴語及び概念テーブル」に図27のデータ構造で保持する。
(ア)該語が対象文書の概念を説明している可能性を向上し、
(イ)該語が必ず対象文書に含まれている、
ことを実現することが可能となる。これにより、各文書の概念を説明する語を、各文書内から抽出できるため、従来は不可能だった多くの応用サービスを可能とする。
(1)必ずしも対象文書の概念を説明する語が抽出できない;
という問題があり、的外れなトピックに基づく、的外れな挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図2の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『カメレオン』というトピックが抽出されやすい。
しかし、会社のシーンを描写する該文書に対して『カメレオン』の挿絵は的外れである。
(2)抽出した語が対象文書には含まれていない場合がある;
という問題があり、文書の概念に近い語ではあるが、該文書にまったく登場しないトピックに基づく挿絵が付与されてしまう場合がある。例えば、本発明を用いずに図3の一番左上の文書の概念を代表する語を抽出すると、発明が解決しようとする課題にて前述のとおり、『学校』というトピックが抽出されやすい。しかし、『塾』のシーンを描写する該文書に対して『学校』の挿絵は不適切である。
12 文書群整形部
13 対象文書特徴語抽出部
14 関連文書抽出部
15 関連文書特徴語抽出部
16 対象文書トピック抽出部
17 トピック出力部
21 形態素解析装置
22 挿絵DB
23 語概念辞書
24 概念体系辞書
Claims (5)
- 複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出装置であって、
文書群を入力する入力手段と、
入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出手段と、
入力された各文書の関連文書を抽出する関連文書抽出手段と、
前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出手段と、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出手段と、
抽出した前記トピックを出力するトピック出力手段と、
を有することを特徴とするトピック抽出装置。 - 前記対象文書トピック抽出手段は、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する手段を含む
請求項1記載のトピック抽出装置。 - 複数の文書を含む文書群内の各文書のトピックを抽出するトピック抽出方法であって、
入力手段が、文書群を入力する入力ステップと、
対象文書特徴語抽出手段が、入力された各文書の特徴語である対象文書特徴語を抽出する対象文書特徴語抽出ステップと、
関連文書抽出手段が、入力された各文書の関連文書を抽出する関連文書抽出ステップと、
関連文書特徴抽出手段が、前記関連文書の特徴語である関連文書特徴語を抽出する関連文書特徴語抽出ステップと、
前記対象文書トピック抽出手段が、前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度に基づくスコアが大きい対象文書特徴語を対象文書のトピックとして抽出する対象文書トピック抽出ステップと、
トピック出力手段が、抽出した前記トピックを出力するトピック出力ステップと、
を行うことを特徴とするトピック抽出方法。 - 前記対象文書トピック抽出ステップにおいて、
前記対象文書特徴語と前記関連文書特徴語を統合した語集合内において、出現頻度、および、該語集合内の各語との概念の近さに基づくスコアが大きい対象文書特徴語を前記対象文書のトピックとして抽出する
請求項3記載のトピック抽出方法。 - コンピュータを、
請求項1または2記載のトピック抽出装置の各手段として機能させるためのトピック抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011087679A JP5587821B2 (ja) | 2011-04-11 | 2011-04-11 | 文書トピック抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011087679A JP5587821B2 (ja) | 2011-04-11 | 2011-04-11 | 文書トピック抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012221316A true JP2012221316A (ja) | 2012-11-12 |
JP5587821B2 JP5587821B2 (ja) | 2014-09-10 |
Family
ID=47272722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011087679A Active JP5587821B2 (ja) | 2011-04-11 | 2011-04-11 | 文書トピック抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5587821B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
KR101536520B1 (ko) * | 2014-04-28 | 2015-07-14 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
JP2015170241A (ja) * | 2014-03-10 | 2015-09-28 | 富士ゼロックス株式会社 | 多言語文書分類プログラム及び情報処理装置 |
JP2016134124A (ja) * | 2015-01-22 | 2016-07-25 | パナソニックIpマネジメント株式会社 | タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法 |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP5991704B1 (ja) * | 2015-07-10 | 2016-09-14 | 楽天株式会社 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
JP2016212533A (ja) * | 2015-04-30 | 2016-12-15 | 国立大学法人鳥取大学 | 文書解析装置、プログラム |
JP2017073137A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 記述的なトピックラベルの生成 |
JP2019008572A (ja) * | 2017-06-26 | 2019-01-17 | 日本電信電話株式会社 | 類似文書検索装置、類似性計算装置、これらの方法及びプログラム |
JP2020067831A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP2020086999A (ja) * | 2018-11-27 | 2020-06-04 | 株式会社日立製作所 | システム内容理解支援装置、及びシステム内容理解支援方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009205517A (ja) * | 2008-02-28 | 2009-09-10 | Toshiba Corp | 情報処理装置及び情報処理方法 |
JP2010092323A (ja) * | 2008-10-09 | 2010-04-22 | Konica Minolta Holdings Inc | 文書表示システム |
WO2010106660A1 (ja) * | 2009-03-19 | 2010-09-23 | コニカミノルタホールディングス株式会社 | 特徴語提示装置及び特徴語提示プログラム |
-
2011
- 2011-04-11 JP JP2011087679A patent/JP5587821B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009205517A (ja) * | 2008-02-28 | 2009-09-10 | Toshiba Corp | 情報処理装置及び情報処理方法 |
JP2010092323A (ja) * | 2008-10-09 | 2010-04-22 | Konica Minolta Holdings Inc | 文書表示システム |
WO2010106660A1 (ja) * | 2009-03-19 | 2010-09-23 | コニカミノルタホールディングス株式会社 | 特徴語提示装置及び特徴語提示プログラム |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
US9626433B2 (en) | 2013-04-23 | 2017-04-18 | International Business Machines Corporation | Supporting acquisition of information |
JP2015170241A (ja) * | 2014-03-10 | 2015-09-28 | 富士ゼロックス株式会社 | 多言語文書分類プログラム及び情報処理装置 |
US10394864B2 (en) | 2014-04-28 | 2019-08-27 | Foundation Of Soongsil University Industry Cooperation | Method and server for extracting topic and evaluating suitability of the extracted topic |
KR101536520B1 (ko) * | 2014-04-28 | 2015-07-14 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
JP2016134124A (ja) * | 2015-01-22 | 2016-07-25 | パナソニックIpマネジメント株式会社 | タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法 |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2016212533A (ja) * | 2015-04-30 | 2016-12-15 | 国立大学法人鳥取大学 | 文書解析装置、プログラム |
JP5991704B1 (ja) * | 2015-07-10 | 2016-09-14 | 楽天株式会社 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
WO2017009908A1 (ja) * | 2015-07-10 | 2017-01-19 | 楽天株式会社 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
US11132496B2 (en) | 2015-07-10 | 2021-09-28 | Rakuten Group, Inc. | Electronic book display device, electronic book display method, and program |
JP2017073137A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 記述的なトピックラベルの生成 |
JP2019008572A (ja) * | 2017-06-26 | 2019-01-17 | 日本電信電話株式会社 | 類似文書検索装置、類似性計算装置、これらの方法及びプログラム |
JP2020067831A (ja) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP7324577B2 (ja) | 2018-10-24 | 2023-08-10 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
JP2020086999A (ja) * | 2018-11-27 | 2020-06-04 | 株式会社日立製作所 | システム内容理解支援装置、及びシステム内容理解支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5587821B2 (ja) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5587821B2 (ja) | 文書トピック抽出装置及び方法及びプログラム | |
CN110543574B (zh) | 一种知识图谱的构建方法、装置、设备及介质 | |
US10255354B2 (en) | Detecting and combining synonymous topics | |
US10198506B2 (en) | System and method of sentiment data generation | |
El-Beltagy et al. | Combining lexical features and a supervised learning approach for Arabic sentiment analysis | |
JP6466952B2 (ja) | 文章生成システム | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
CN106897437B (zh) | 一种知识系统的高阶规则多分类方法及其系统 | |
US11436278B2 (en) | Database creation apparatus and search system | |
JP2019003472A (ja) | 情報処理装置及び情報処理方法 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Khan et al. | Urdu sentiment analysis | |
Litvak et al. | Improving summarization quality with topic modeling | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP3471253B2 (ja) | 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体 | |
Ariss et al. | Morphology based Arabic sentiment analysis of book reviews | |
JP2001060194A (ja) | 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体 | |
Carvalho et al. | Lexical to discourse-level corpus modeling for legal question answering | |
JP2002183175A (ja) | テキストマイニング方法 | |
US11960522B2 (en) | Information management system for database construction | |
JP6934621B2 (ja) | 方法、装置、及びプログラム | |
WO2010106660A1 (ja) | 特徴語提示装置及び特徴語提示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130820 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5587821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |