JP2013242791A - 主題抽出装置およびそのプログラム - Google Patents
主題抽出装置およびそのプログラム Download PDFInfo
- Publication number
- JP2013242791A JP2013242791A JP2012116759A JP2012116759A JP2013242791A JP 2013242791 A JP2013242791 A JP 2013242791A JP 2012116759 A JP2012116759 A JP 2012116759A JP 2012116759 A JP2012116759 A JP 2012116759A JP 2013242791 A JP2013242791 A JP 2013242791A
- Authority
- JP
- Japan
- Prior art keywords
- importance
- expression
- relationship
- word
- end point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】主題抽出装置は、読み込んだ文書データから表現を抽出する表現抽出部と、表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、抽出された前記表現の文書データにおける出現頻度に基づく第1重要度を算出する第1重要度評価部と、文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、関係獲得部が取得した関係データを用いて始点表現と終点表現とを1段階以上の関係で接続したときの始点表現から終点表現に至る関係密度の総和に基づき終点表現の第2重要度を算出するとともに、文書データに含まれる表現に関して第1重要度と第2重要度とに基づく総合重要度を算出する第2重要度評価部とを具備する。
【選択図】図1
Description
[第1の実施形態]
図1は、本実施形態による主題抽出装置の機能構成を示すブロック図である。図示するように、主題抽出装置1は、文書記憶部11と、単語抽出部12(表現抽出部)と、第1重要度評価部13と、第2重要度評価部14と、主題抽出結果出力部15(主題出力部)と、単語関係獲得部18(関係獲得部)とを含んで構成される。
図2は、主題抽出装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS1において、単語抽出部12は、文書記憶部11に記憶されている文書データのうち、処理対象として指定された文書データについて、単語抽出の処理を行なう。具体的には、単語抽出部12は、指定された文書データに含まれる文の形態素解析処理を行い、含まれる単語を抽出する。
単語関係獲得部18が取得する関係のうち、表2に示した単語に関係するものを例示すると、次の通りである。
例えば、単語「井上○彦」は、「作者と著書の関係」によって単語「リアル」に直接関連付けられている。
また、単語「リアル」は、「下位概念と上位概念の関係」(「リアル」の方が下位概念)によって単語「漫画」に直接関連付けられている。
また、単語「漫画」は、「下位概念と上位概念の関係」(「漫画」の方が下位概念)によって単語「本」に直接関連付けられている。
また、単語「本」は、「下位概念と上位概念の関係」(「本」の方が上位概念)によって単語「小説」に関連付けられている。
なお、同一の単語ペア間で、複数の関係が成立することもあり得る。この場合、それらの2単語は、複数の関係によって関連付けられている。
まずステップS41において、第2重要度評価部14は、与えられた単語集合間の関係を全て抽出する。ここで、与えられた単語集合とは、処理対象の文書から抽出された全ての単語を要素とする集合である。言い換えれば、表2に列挙した単語の集合である。また、第2重要度評価部14がここで抽出する全ての関係とは、当該単語集合の要素である単語相互間の関係であって、単語関係獲得部18が獲得する単語間の関係を用いて、直接ないしは間接に対応付けすることの出来る関係である。
P(小説)=P(井上○彦)×P(リアル|井上○彦)×P(漫画|リアル)×P(本|漫画)×P(小説|本)
そして、第2重要度評価部14は、式(6)で定義される値に関して、さらに文書dに含まれる全ての単語での総和を算出する。その値Zは、式(7)で与えられる。
そして、第2重要度評価部14は、上記のZを用いた下の式(8)により、式(6)で求められた値のスケーリングを行なう。
式(9)の右辺にはシグモイド関数を用いている。式(9)から明らかなように、0<r(w,d)<1である。
そして、既に式(3)で示したように、第1重要度評価部13が算出した重要度(第1重要度)を、第2重要度評価部14がこの第2重要度(補正係数)r(w、d)を用いて更新する。
次に、第2の実施形態について説明する。なお、第1の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。
第1重要度評価部13は、複数の文書からなる文書集合のデータを順次読み込む。そして、各文書に含まれる各文について、概念表現を抽出する処理を行なう。ここで、概念表現とは、1)単語(但し、ここで単語とは自立語に限定。本実施形態の以下の説明において同様。)、2)単語1−単語2の2つ組、3)単語1−単語2−単語3の3つ組、の3種類である。
2)単語1−単語2の2つ組: 第1重要度評価部13は、各文に含まれる単語の2つ組を抽出する。ここで第1重要度評価部13が抽出する2つ組には、次の2通りのパターンがある。2A)単語1と単語2とが同一文節内に連続して出現する場合の、単語1と単語2の組。2B)ある文節が他の文節に係る係り受け関係がある場合において、係り元となる文節に含まれる単語1と、係り先となる文節に含まれる単語2との組。
次に、第3の実施形態について説明する。なお、第1の実施形態や第2の実施形態と共通の事項については記載を省略し、本実施形態に特有の事項のみを以下に記載する。
前述の第2の実施形態では、第1重要度評価部13が概念表現(単語、単語の2つ組、単語の3つ組)を抽出するための処理を列記した。第2の実施形態で記載した抽出方法に代わり、本実施形態による第1重要度評価部13は、下記の方法で概念表現を抽出する。
1)単語: 第2の実施形態における方法と同様に、第1重要度評価部13は、各文に含まれる各単語を、ひとつの概念表現として抽出する。
2)単語1−単語2の2つ組: 第1重要度評価部13は、第2の実施形態において記載した2B)の方法のみを用いて、単語1−単語2の2つ組を抽出する。
3)単語1−単語2−単語3の3つ組: 第1重要度評価部13は、第2の実施形態において記載した3B)の方法のみを用いて、単語1−単語2−単語3の3つ組を抽出する。
そして、第1重要度評価部13は、抽出した各々の概念表現の重要度を、次の式により算出する。即ち、(概念表現の重要度)=(その概念表現の文書集合内における出現回数)/(その文書集合に含まれる文書数)。
例えば、単語を表現の単位として扱う代わりに、複数の単語からなる組を表現の単位として扱い、重要度の算出および主題の抽出を行なうようにしても良い。
11 文書記憶部
12 単語抽出部(表現抽出部)
13 第1重要度評価部
14 第2重要度評価部
15 主題抽出結果出力部(主題出力部)
18 単語関係獲得部(関係獲得部)
Claims (5)
- 読み込んだ文書データから表現を抽出する表現抽出部と、
表現と表現との意味的な関係を表わす関係データを取得する関係獲得部と、
抽出された前記表現の前記文書データにおける出現頻度に基づく第1重要度を算出する第1重要度評価部と、
前記文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、前記関係獲得部が取得した関係データを用いて前記始点表現と前記終点表現とを1段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第2重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第1重要度と前記第2重要度とに基づく総合重要度を算出する第2重要度評価部と、
算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力部と、
を具備することを特徴とする主題抽出装置。 - 前記第2重要度評価部は、前記関係を成す2個の表現間の遷移確率に基づき、前記始点表現から前記終点表現に至るまでの全ての段階の関係に対応する前記遷移確率の積による遷移確率を、当該始点表現から当該終点表現に至る関係密度として計算する、
ことを特徴とする請求項1に記載の主題抽出装置。 - 前記第2重要度評価部は、前記関係を第1表現から第2表現への遷移の関係として、前記第1表現からの全ての関係の数のうちの、前記第1表現から前記第2表現への関係の数の割合を、当該第1表現および第2表現の間の前記遷移確率として計算する、
ことを特徴とする請求項2に記載の主題抽出装置。 - 前記第2重要度評価部は、前記始点表現と前記終点表現とを接続する前記関係の段階数が所定の上限値以下である経路のみに基づいて前記第2重要度を算出する、
ことを特徴とする請求項1から3までのいずれか一項に記載の主題抽出装置。 - 読み込んだ文書データから表現を抽出する表現抽出過程と、
表現と表現との意味的な関係を表わす関係データを取得する関係獲得過程と、
抽出された前記表現の前記文書データにおける出現頻度に基づく第1重要度を算出する第1重要度評価過程と、
前記文書データに含まれる2個の表現をそれぞれ始点表現および終点表現として、前記関係獲得過程で取得した関係データを用いて前記始点表現と前記終点表現とを1段階以上の前記関係で接続したときの前記始点表現から前記終点表現に至る関係密度の総和に基づき前記終点表現の第2重要度を算出するとともに、前記文書データに含まれる前記表現に関して前記第1重要度と前記第2重要度とに基づく総合重要度を算出する第2重要度評価過程と、
算出された前記総合重要度に基づいて前記表現を前記文書データの主題として出力する主題出力過程と、
の処理をコンピューターに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116759A JP5856905B2 (ja) | 2012-05-22 | 2012-05-22 | 主題抽出装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116759A JP5856905B2 (ja) | 2012-05-22 | 2012-05-22 | 主題抽出装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242791A true JP2013242791A (ja) | 2013-12-05 |
JP5856905B2 JP5856905B2 (ja) | 2016-02-10 |
Family
ID=49843604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012116759A Expired - Fee Related JP5856905B2 (ja) | 2012-05-22 | 2012-05-22 | 主題抽出装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5856905B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016122398A (ja) * | 2014-12-25 | 2016-07-07 | 日本放送協会 | 主題語抽出装置、及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011086043A (ja) * | 2009-10-14 | 2011-04-28 | Kddi Corp | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
-
2012
- 2012-05-22 JP JP2012116759A patent/JP5856905B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011086043A (ja) * | 2009-10-14 | 2011-04-28 | Kddi Corp | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
Non-Patent Citations (1)
Title |
---|
中嶋卓雄,他: ""ニュースフィルタリングエージェントにおける協調"", マルチメディア通信と分散処理ワークショップ論文集, vol. 第95巻,第2号, JPN6015037479, 25 October 1995 (1995-10-25), JP, pages 63 - 69, ISSN: 0003197462 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016122398A (ja) * | 2014-12-25 | 2016-07-07 | 日本放送協会 | 主題語抽出装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5856905B2 (ja) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11762926B2 (en) | Recommending web API's and associated endpoints | |
JP6676109B2 (ja) | 発話文生成装置とその方法とプログラム | |
US9785704B2 (en) | Extracting query dimensions from search results | |
WO2011079311A1 (en) | System and method for determining sentiment expressed in documents | |
WO2010038540A1 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
US11531692B2 (en) | Title rating and improvement process and system | |
JP2009271799A (ja) | 企業相関情報抽出システム | |
WO2018072501A1 (en) | Information extraction apparatus and method | |
AU2011293718B2 (en) | Systems and methods for lexicon generation | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
US9058328B2 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
JP2009122807A (ja) | 連想検索システム | |
JP6373243B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
Mangairkarasi et al. | Semantic based text summarization using universal networking language | |
JP5856905B2 (ja) | 主題抽出装置およびそのプログラム | |
JP2010026773A (ja) | 地理的特徴情報抽出方法およびシステム | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP2009271798A (ja) | 業界マップ生成システム | |
KR101662399B1 (ko) | 키워드 입력 기반의 사용자 관심정보를 이용한 질의응답 장치 및 방법 | |
JP5094835B2 (ja) | 意味属性推定装置、方法及びプログラム | |
JP6533496B2 (ja) | 説明表現出力装置、説明表現出力方法、及びプログラム | |
JP6502732B2 (ja) | 文書表示装置、文書表示方法及びそのプログラム | |
Hasan et al. | Sentiment Analysis of Telemedicine Applications on Twitter Using Lexicon-Based and Naive Bayes Classifier Methods | |
JP2014229231A (ja) | 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム | |
English | An extensible schema for building large weakly-labeled semantic corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5856905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |