JP2015125650A - トピック抽出装置、及びプログラム - Google Patents
トピック抽出装置、及びプログラム Download PDFInfo
- Publication number
- JP2015125650A JP2015125650A JP2013270448A JP2013270448A JP2015125650A JP 2015125650 A JP2015125650 A JP 2015125650A JP 2013270448 A JP2013270448 A JP 2013270448A JP 2013270448 A JP2013270448 A JP 2013270448A JP 2015125650 A JP2015125650 A JP 2015125650A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- word
- content
- program
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 209
- 238000012545 processing Methods 0.000 claims abstract description 59
- 239000000284 extract Substances 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 description 19
- 230000000877 morphologic effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 9
- 201000005202 lung cancer Diseases 0.000 description 9
- 208000020816 lung neoplasm Diseases 0.000 description 9
- 230000002265 prevention Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 206010019233 Headaches Diseases 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 231100000869 headache Toxicity 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
また、ユーザーの閲覧履歴からコンテンツ間にリンクを生成する場合、大量のユーザー履歴が必要なうえ、内容的には何の関連性もないものにもリンクがつけられることがあり、リンクされたコンテンツ同士がなぜ関連しているかの関係を特定することはできない。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから主題となる単語を抽出すると、概念辞書データを参照し、抽出した単語が含まれる関係項目データを特定する。トピック抽出装置は、コンテンツに関するテキストデータに、特定された関係項目データに記述されている関係名が含まれる場合、あるいは、特定された関係項目データに関係名により関連付けて記述されている2つの単語が含まれる場合に、主題となる単語と特定された関係項目データに記述されている関係名とをトピックとして出力する。
これにより、トピック抽出装置は、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出することができる。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、トピックの主題としてわかりやすい単語を抽出することができる。
この発明によれば、トピック抽出装置は、番組サブタイトルと番組概要文とに共通して含まれる名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、番組サブタイトルにも番組概要文にも出現する名詞を抽出するため、トピックの主題として適切な単語を抽出することができる。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータに含まれる単語の中から、各単語の重要度に基づいて主題を抽出する。
これにより、トピック抽出装置は、コンテンツに関するテキストデータにおいて重要な単語を主題として抽出することができる。
この発明によれば、トピック抽出装置は、複数のコンテンツに関するテキストデータそれぞれからコンテンツの主題となる単語と関係名を得る。トピック抽出装置は、各コンテンツについて得られた主題と、概念辞書データから読み出したそれら主題間の関係を表す関係名と、各主題が得られたコンテンツの情報と、各コンテンツについて得られた関係名とを表示させる画像データを生成する。
これにより、トピック抽出装置は、各コンテンツの主題間の関係と、各主題が得られたコンテンツの情報と、そのコンテンツが主題とどのような関係であるかを画像により表示させることができる。
図1は、本発明の第1の実施形態によるトピック抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。トピック抽出装置1は、コンピュータ装置により実現され、同図に示すように、概念辞書記憶部11、主題抽出部12、関連項目抽出部13、及び関係名処理部14を備えて構成される。
主題抽出部12は、番組関連テキストデータが示す番組サブタイトルを形態素解析する(ステップS210)。主題抽出部12は、ステップS210における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12は、品詞が名詞の単語を抽出する(ステップS220)。
また、主題抽出部12は、ステップS210及びステップS220の処理と、ステップS230及びステップS240の処理のいずれを先に実行してもよく、並行して実行してもよい。
第1の実施形態では、主題抽出処理を、単語の品詞を利用して行っていた。本実施形態では主題抽出処理を、語の重要度を利用して行う。以下では、第1の実施形態との差分を中心に記載する。
主題抽出部12aは、番組関連テキストデータが示す番組サブタイトルを形態素解析する(ステップS310)。主題抽出部12aは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部12aは、ステップS310における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12aは、品詞が名詞の単語を抽出する(ステップS320)。
ステップS360において主題抽出部12aが単語を選択した後、トピック抽出装置1aは、図3のステップS120からの処理を行う。
本実施形態では、コンテンツに関するテキストデータとして、ウェブサイトデータや電子図書データなどのコンテンツデータに含まれるテキストデータを用いる。以下では、第1の実施形態との差分を中心に記載する。
主題抽出部12bは、入力テキストデータを形態素解析する(ステップS410)。主題抽出部12bは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部12bは、ステップS410における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12bは、品詞が名詞の単語を抽出する(ステップS420)。
ただし、ステップS130において、関係名処理部14bは、入力テキストデータに、関係リストに含まれる関係項目から取得した関係名が含まれるか否かを判断する。関係名処理部14bは、入力テキストデータに含まれると判断した関係名を、その関係名が得られた関係項目に単語T1または単語T2として含まれる主題Aの関係名Bとする。
本実施形態では、上述した第1〜第3の実施形態において抽出されたコンテンツのトピックを利用して、コンテンツマップを提示する。コンテンツマップとは、主題同士の関係と、それら各主題をトピックの主題とするコンテンツとを表す画像である。以下では、第1の実施形態のトピック抽出装置1にコンテンツマップを提示する機能を追加した場合の例について説明する。
トピック抽出装置1cに、複数の番組の番組関連テキストデータが入力される。番組関連テキストデータには、番組に関する情報が付加されているか、番組に関する情報と対応付けるための番組識別情報が付加されている。このような複数の番組の番組関連テキストデータとして、電子番組表を用いることができる。ここでは、番組に関する情報として、番組名と番組サブタイトルを用いた場合を例に説明する。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
11 概念辞書記憶部
12、12a、12b 主題抽出部
13 関連項目抽出部
14、14b 関係名処理部
15 マップ生成部
Claims (6)
- コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出部と、
2つの異なる単語と前記2つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記2つの異なる単語の一方が前記主題抽出部により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出部と、
前記コンテンツに関するテキストデータに、前記関連項目抽出部により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出部により特定された前記関係項目データが示す前記2つの異なる単語が含まれる場合に、前記主題抽出部により抽出された主題となる前記単語と前記関連項目抽出部により特定された前記関係項目データが示す前記関係名とを出力する関係名処理部と、
を備えることを特徴とするトピック抽出装置。 - 前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の中から名詞を主題となる単語として抽出する、
ことを特徴とする請求項1に記載のトピック抽出装置。 - 前記コンテンツに関するテキストデータは、番組サブタイトルと番組概要文とを含み、
前記主題抽出部は、番組サブタイトルと番組概要文とに共通して含まれる単語の中から名詞を主題となる単語として抽出する、
ことを特徴とする請求項2に記載のトピック抽出装置。 - 前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の重要度を算出し、算出した前記重要度に基づいて主題となる単語を抽出する、
ことを特徴とする請求項1に記載のトピック抽出装置。 - 前記概念辞書データを参照し、複数のコンテンツそれぞれに関するテキストデータから前記主題抽出部により抽出された主題となる単語間の関係名を前記関係項目データから読み出し、主題となる前記単語と、主題となる前記単語間について読み出した前記関係名と、主題となる前記単語が抽出された前記コンテンツの情報と、主題となる前記単語が抽出された前記コンテンツに関するテキストデータから前記関係名処理部が読み出した前記関係名とを表示させる画像データを生成するマップ生成部をさらに備える、
ことを特徴とする請求項1から請求項4のいずれか1項に記載のトピック抽出装置。 - コンピュータを、
コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出手段と、
2つの異なる単語と前記2つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記2つの異なる単語の一方が前記主題抽出手段により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出手段と、
前記コンテンツに関するテキストデータに、前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出手段により特定された前記関係項目データが示す前記2つの異なる単語が含まれる場合に、前記主題抽出手段により抽出された主題となる前記単語と前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名とを出力する関係名処理手段と、
を具備するトピック抽出装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013270448A JP6188222B2 (ja) | 2013-12-26 | 2013-12-26 | トピック抽出装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013270448A JP6188222B2 (ja) | 2013-12-26 | 2013-12-26 | トピック抽出装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015125650A true JP2015125650A (ja) | 2015-07-06 |
JP6188222B2 JP6188222B2 (ja) | 2017-08-30 |
Family
ID=53536304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013270448A Active JP6188222B2 (ja) | 2013-12-26 | 2013-12-26 | トピック抽出装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6188222B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111479643A (zh) * | 2017-12-21 | 2020-07-31 | 住友金属矿山株式会社 | 镍粉的制造方法 |
WO2021060966A1 (en) * | 2019-09-27 | 2021-04-01 | Mimos Berhad | A system and method for retrieving a presentation content |
KR20210092142A (ko) * | 2020-01-14 | 2021-07-23 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 주제 생성 방법, 장치 및 전자기기 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185135A (ja) * | 2002-11-29 | 2004-07-02 | Mitsubishi Electric Corp | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
JP2009003888A (ja) * | 2007-06-25 | 2009-01-08 | Toshiba Corp | キーワード提示のための装置、方法、及びプログラム |
JP2010198141A (ja) * | 2009-02-23 | 2010-09-09 | Rakuten Inc | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム |
-
2013
- 2013-12-26 JP JP2013270448A patent/JP6188222B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185135A (ja) * | 2002-11-29 | 2004-07-02 | Mitsubishi Electric Corp | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
JP2009003888A (ja) * | 2007-06-25 | 2009-01-08 | Toshiba Corp | キーワード提示のための装置、方法、及びプログラム |
JP2010198141A (ja) * | 2009-02-23 | 2010-09-09 | Rakuten Inc | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111479643A (zh) * | 2017-12-21 | 2020-07-31 | 住友金属矿山株式会社 | 镍粉的制造方法 |
WO2021060966A1 (en) * | 2019-09-27 | 2021-04-01 | Mimos Berhad | A system and method for retrieving a presentation content |
KR20210092142A (ko) * | 2020-01-14 | 2021-07-23 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 주제 생성 방법, 장치 및 전자기기 |
JP2021111415A (ja) * | 2020-01-14 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム |
JP7118184B2 (ja) | 2020-01-14 | 2022-08-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム |
KR102451496B1 (ko) | 2020-01-14 | 2022-10-06 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 주제 생성 방법, 장치 및 전자기기 |
Also Published As
Publication number | Publication date |
---|---|
JP6188222B2 (ja) | 2017-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2002101588A1 (fr) | Systeme de gestion de contenus | |
CN103605808B (zh) | 基于搜索的ugc推荐的方法及系统 | |
CN106471497B (zh) | 使用上下文的辅助浏览 | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
JP2015156099A (ja) | 会議支援装置、会議支援装置の制御方法、及びプログラム | |
JP5237353B2 (ja) | 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体 | |
JP6137960B2 (ja) | コンテンツ検索装置、方法及びプログラム | |
JP5427127B2 (ja) | 検索支援システム、検索支援方法及び検索支援プログラム | |
De Nies et al. | Bringing Newsworthiness into the 21st Century. | |
JP6188222B2 (ja) | トピック抽出装置、及びプログラム | |
JP4744404B2 (ja) | 評価出力装置、評価出力方法、およびプログラム | |
JP6388212B2 (ja) | タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法 | |
JP6388506B2 (ja) | コンテンツ推奨装置およびプログラム | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
JP6188226B2 (ja) | 関連語抽出装置、及びプログラム | |
JP2010049384A (ja) | 動画評価方法、装置及びプログラム | |
JP2007148741A (ja) | Web検索支援サーバ | |
JP6440459B2 (ja) | 検索装置、検索方法及び検索プログラム | |
JP5246932B2 (ja) | 検索装置及び方法、ならびに、コンピュータプログラム | |
CN113722540A (zh) | 基于视频字幕的知识图谱构建方法、装置及计算设备 | |
CN107004014A (zh) | 有效地发现并且表面化内容属性 | |
JP5439050B2 (ja) | 関連コンテンツ表示装置及びコンピュータプログラム | |
US10360243B2 (en) | Storage medium, information presentation method, and information presentation apparatus | |
JP6381107B2 (ja) | リンク情報生成装置およびリンク情報生成プログラム | |
CN106156200B (zh) | 网页内容更新速度对比方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170731 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6188222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |