JP2016186768A - 候補キーワード評価装置及び候補キーワード評価プログラム - Google Patents
候補キーワード評価装置及び候補キーワード評価プログラム Download PDFInfo
- Publication number
- JP2016186768A JP2016186768A JP2015067454A JP2015067454A JP2016186768A JP 2016186768 A JP2016186768 A JP 2016186768A JP 2015067454 A JP2015067454 A JP 2015067454A JP 2015067454 A JP2015067454 A JP 2015067454A JP 2016186768 A JP2016186768 A JP 2016186768A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- program
- candidate keyword
- candidate
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 description 7
- 238000000034 method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
また、文書の中核的な意味を表すキーワードを抽出するために、キーワードの文書内での出現頻度、及びコーパス内でキーワードが出現する文書の頻度を用いたTF−IDF(Term Frequency − Inverse Document Frequency)と呼ばれる指標が用いられる(例えば、非特許文献2参照)。
しかしながら、上記の単語の出現頻度に基づく指標のみでは、他の番組と差別化される中核的な意味を表現したキーワードを抽出できたとしても、これが視聴者の興味内容と合致するとは限らない。したがって、この指標のみで視聴者の興味候補キーワードを適切に抽出することは難しかった。
本実施形態に係る候補キーワード評価装置1は、複数の番組に関する情報に含まれている文字列に対して、興味候補キーワードとして、どの程度相応しいかを示す定量的な重要度を付与し、コーパスとして蓄積する。
候補キーワード評価装置1は、取得部11と、抽出部12と、第1算出部13と、第2算出部14と、学習部15と、を備える。
番組情報コーパス21には、過去に放送又は配信された番組に関する電子番組ガイド(EPG: Electronic Program Guide)等のテキスト情報が番組単位で蓄積されている。
字幕コーパス22には、番組と共に放送される字幕テキスト(クローズド・キャプション)が番組単位で蓄積されている。
番組情報のテキストには、番組のテーマに関わる単語が含まれていることが期待でき、さらに、クローズド・キャプションに比べてノイズが少ないため、重要度の事前推定に有用である。
また、例えば、抽出部12は、形態素解析によって、所定の品詞(例えば、名詞)の単語を抽出して第1算出部13へ入力してもよい。
照合される辞書は、例えば、以下のものが採用可能である。
これらのWebページは、それぞれの作成者によって選ばれた情報が公開されているため、ある人(作成者)の興味内容である。したがって、見出し語として存在するキーワードは、興味候補キーワードとしての重要度が高いと推定される。
また、カテゴリとして「○○○○年生まれ」又は「存命人物」等が付与されていることにより、見出し語が人名であることが判別される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定のカテゴリ(例えば人名又は地名)の場合は「2」のように、スコアmi Aを算出する。
形態素解析の結果として出力される詳細な品詞の区分によって、キーワードは、例えば名詞、又はより詳細な区分である固有名詞、あるいは更に詳細な人名、地域等のカテゴリに分類される。
第1算出部13は、例えば、キーワードiが名詞でない場合は「0」、名詞の場合は「1」、固有名詞の場合は「2」のように、スコアmi Bを算出する。
見出し語が品詞で分類されており、キーワードの品詞(例えば、名詞)が判別される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定の品詞(例えば名詞)の場合は「2」のように、スコアmi Cを算出する。
固有名詞の区分によって、キーワードは、人名、地名、製品名、社名、駅名等のカテゴリに分類される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定のカテゴリ(例えば人名)の場合は「2」のように、スコアmi Dを算出する。
例えば、キーワードiの重要度θiは、正規化されたTF−IDFの値NTFIDFiに対して、辞書毎に重み付けしたスコアの合計を乗じることにより増減して、「θi=maxdNTFIDFi d(wAmi A+wBmi B+wCmi C+wDmi D)」と算出される。
例えば、学習部15は、各スコアmに対する重みwを、単語jについてユーザから申告された興味度(kj)を加算した値(w+kj)に変更する。具体的には、前述の辞書A〜Dにおいて、例えばmj A>0が算出された場合、学習部15は、対象キーワードjについてのユーザによる申告興味度kjを受け付け、重みwAをwA+kjに更新する。mj B、mj C、mj Dについても同様に更新され、学習部15は、スコアの初期値「w=0」に対して正解データ(学習データ)によって各辞書に対応した重み付けを調整することによって、重要度の算出方法を学習する。
このサブストリングは、複数の辞書(A〜D)に基づくカテゴリ分類結果に応じてスコア(mi A,mi B,mi C,mi D)が算出される。
なお、興味候補キーワードコーパス30に予め記憶されていないキーワードの重要度は、所定の初期値に設定されてよい。あるいは、上記システムによってキーワードが抽出された際に、候補キーワード評価装置1によって重要度が算出されてもよい。
11 取得部
12 抽出部
13 第1算出部
14 第2算出部
15 学習部
Claims (6)
- 番組に関するテキストデータを取得する取得部と、
前記テキストデータからキーワードを抽出する抽出部と、
前記キーワードをカテゴリに分類する複数の辞書それぞれと照合し、分類されたカテゴリそれぞれに応じた複数のスコアを算出する第1算出部と、
前記複数のスコアを統合した係数に基づいて、前記キーワードの重要度を算出する第2算出部と、を備える候補キーワード評価装置。 - 前記第2算出部は、前記キーワードの出現頻度に応じた評価指標を、前記係数により増減して前記重要度を算出する請求項1に記載の候補キーワード評価装置。
- 前記辞書は、所定のコミュニティサイトにおける、前記カテゴリが付与された見出し語の解説ページデータを含む請求項1又は請求項2に記載の候補キーワード評価装置。
- 前記第1算出部は、前記キーワードが名詞に分類された場合に前記スコアを上昇させると共に、固有名詞に分類された場合には前記スコアを一層上昇させる請求項1から請求項3のいずれかに記載の候補キーワード評価装置。
- 前記スコアを統合する計算式を、ユーザから受け付けた教師データに基づいて学習する学習部を備える請求項1から請求項4のいずれかに記載の候補キーワード評価装置。
- コンピュータに、
番組に関するテキストデータを取得する取得ステップ、
前記テキストデータからキーワードを抽出する抽出ステップ、
前記キーワードをカテゴリに分類する複数の辞書それぞれと照合し、分類されたカテゴリそれぞれに応じた複数のスコアを算出する第1算出ステップ、
及び前記複数のスコアを統合した係数に基づいて、前記キーワードの重要度を算出する第2算出ステップを実行させるための候補キーワード評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015067454A JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015067454A JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016186768A true JP2016186768A (ja) | 2016-10-27 |
JP6486165B2 JP6486165B2 (ja) | 2019-03-20 |
Family
ID=57203211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015067454A Expired - Fee Related JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6486165B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052779A (ja) * | 2018-09-27 | 2020-04-02 | 株式会社Kddi総合研究所 | 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 |
CN111046169A (zh) * | 2019-12-24 | 2020-04-21 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
CN112100329A (zh) * | 2020-08-31 | 2020-12-18 | 湖北美和易思教育科技有限公司 | 一种基于大数据的学习心得评测方法及装置 |
KR20210039909A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
CN112767925A (zh) * | 2020-12-24 | 2021-05-07 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129098A (ja) * | 2007-11-21 | 2009-06-11 | Kddi Corp | 情報検索装置およびコンピュータプログラム |
JP2012220582A (ja) * | 2011-04-05 | 2012-11-12 | Sony Corp | 音楽再生装置、音楽再生方法、プログラム、およびデータ作成装置 |
-
2015
- 2015-03-27 JP JP2015067454A patent/JP6486165B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129098A (ja) * | 2007-11-21 | 2009-06-11 | Kddi Corp | 情報検索装置およびコンピュータプログラム |
JP2012220582A (ja) * | 2011-04-05 | 2012-11-12 | Sony Corp | 音楽再生装置、音楽再生方法、プログラム、およびデータ作成装置 |
Non-Patent Citations (1)
Title |
---|
苗村昌秀: "ウィキペディアデータを利用した意味的キーワード抽出手法", 電子情報通信学会技術研究報告, vol. 114, no. 211, JPN6019000912, 4 September 2014 (2014-09-04), pages 63 - 68, ISSN: 0003958019 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052779A (ja) * | 2018-09-27 | 2020-04-02 | 株式会社Kddi総合研究所 | 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 |
KR20210039909A (ko) * | 2019-10-02 | 2021-04-12 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
KR102403168B1 (ko) | 2019-10-02 | 2022-05-27 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
CN111046169A (zh) * | 2019-12-24 | 2020-04-21 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
CN111046169B (zh) * | 2019-12-24 | 2024-03-26 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
CN112100329A (zh) * | 2020-08-31 | 2020-12-18 | 湖北美和易思教育科技有限公司 | 一种基于大数据的学习心得评测方法及装置 |
CN112767925A (zh) * | 2020-12-24 | 2021-05-07 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
CN112767925B (zh) * | 2020-12-24 | 2023-02-17 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6486165B2 (ja) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102455616B1 (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
US10831796B2 (en) | Tone optimization for digital content | |
US8930288B2 (en) | Learning tags for video annotation using latent subtags | |
US9087297B1 (en) | Accurate video concept recognition via classifier combination | |
JP6486165B2 (ja) | 候補キーワード評価装置及び候補キーワード評価プログラム | |
CN109697239B (zh) | 用于生成图文信息的方法 | |
US11775765B2 (en) | Linguistic analysis of differences in portrayal of movie characters | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
US20210126945A1 (en) | Illegal content search device, illegal content search method, and program | |
US11954137B2 (en) | Data generation device and data generation method | |
US11947635B2 (en) | Illegal content search device, illegal content search method, and program | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
Shanmukhaa et al. | Construction of knowledge graphs for video lectures | |
Pereira et al. | Sentiment retrieval on web reviews using spontaneous natural speech | |
CN112417845A (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
KR102279125B1 (ko) | 취향필터에 기반한 추천 정보 제공 단말 및 장치 | |
Koorathota et al. | Editing like humans: a contextual, multimodal framework for automated video editing | |
JP6530002B2 (ja) | コンテンツ探索装置、コンテンツ探索方法、プログラム | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 | |
US20210011982A1 (en) | Illegal content search device, illegal content search method, and program | |
US20210026930A1 (en) | Illegal content search device, illegal content search method, and program | |
CN110888896A (zh) | 数据搜寻方法及其数据搜寻系统 | |
CN111062435A (zh) | 图像分析方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6486165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |