JP6486165B2 - 候補キーワード評価装置及び候補キーワード評価プログラム - Google Patents
候補キーワード評価装置及び候補キーワード評価プログラム Download PDFInfo
- Publication number
- JP6486165B2 JP6486165B2 JP2015067454A JP2015067454A JP6486165B2 JP 6486165 B2 JP6486165 B2 JP 6486165B2 JP 2015067454 A JP2015067454 A JP 2015067454A JP 2015067454 A JP2015067454 A JP 2015067454A JP 6486165 B2 JP6486165 B2 JP 6486165B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- program
- candidate keyword
- candidate
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、文書の中核的な意味を表すキーワードを抽出するために、キーワードの文書内での出現頻度、及びコーパス内でキーワードが出現する文書の頻度を用いたTF−IDF(Term Frequency − Inverse Document Frequency)と呼ばれる指標が用いられる(例えば、非特許文献2参照)。
しかしながら、上記の単語の出現頻度に基づく指標のみでは、他の番組と差別化される中核的な意味を表現したキーワードを抽出できたとしても、これが視聴者の興味内容と合致するとは限らない。したがって、この指標のみで視聴者の興味候補キーワードを適切に抽出することは難しかった。
本実施形態に係る候補キーワード評価装置1は、複数の番組に関する情報に含まれている文字列に対して、興味候補キーワードとして、どの程度相応しいかを示す定量的な重要度を付与し、コーパスとして蓄積する。
候補キーワード評価装置1は、取得部11と、抽出部12と、第1算出部13と、第2算出部14と、学習部15と、を備える。
番組情報コーパス21には、過去に放送又は配信された番組に関する電子番組ガイド(EPG: Electronic Program Guide)等のテキスト情報が番組単位で蓄積されている。
字幕コーパス22には、番組と共に放送される字幕テキスト(クローズド・キャプション)が番組単位で蓄積されている。
番組情報のテキストには、番組のテーマに関わる単語が含まれていることが期待でき、さらに、クローズド・キャプションに比べてノイズが少ないため、重要度の事前推定に有用である。
また、例えば、抽出部12は、形態素解析によって、所定の品詞(例えば、名詞)の単語を抽出して第1算出部13へ入力してもよい。
照合される辞書は、例えば、以下のものが採用可能である。
これらのWebページは、それぞれの作成者によって選ばれた情報が公開されているため、ある人(作成者)の興味内容である。したがって、見出し語として存在するキーワードは、興味候補キーワードとしての重要度が高いと推定される。
また、カテゴリとして「○○○○年生まれ」又は「存命人物」等が付与されていることにより、見出し語が人名であることが判別される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定のカテゴリ(例えば人名又は地名)の場合は「2」のように、スコアmi Aを算出する。
形態素解析の結果として出力される詳細な品詞の区分によって、キーワードは、例えば名詞、又はより詳細な区分である固有名詞、あるいは更に詳細な人名、地域等のカテゴリに分類される。
第1算出部13は、例えば、キーワードiが名詞でない場合は「0」、名詞の場合は「1」、固有名詞の場合は「2」のように、スコアmi Bを算出する。
見出し語が品詞で分類されており、キーワードの品詞(例えば、名詞)が判別される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定の品詞(例えば名詞)の場合は「2」のように、スコアmi Cを算出する。
固有名詞の区分によって、キーワードは、人名、地名、製品名、社名、駅名等のカテゴリに分類される。
第1算出部13は、例えば、キーワードiが見出し語に無い場合は「0」、見出し語に有る場合は「1」、特定のカテゴリ(例えば人名)の場合は「2」のように、スコアmi Dを算出する。
例えば、キーワードiの重要度θiは、正規化されたTF−IDFの値NTFIDFiに対して、辞書毎に重み付けしたスコアの合計を乗じることにより増減して、「θi=maxdNTFIDFi d(wAmi A+wBmi B+wCmi C+wDmi D)」と算出される。
例えば、学習部15は、各スコアmに対する重みwを、単語jについてユーザから申告された興味度(kj)を加算した値(w+kj)に変更する。具体的には、前述の辞書A〜Dにおいて、例えばmj A>0が算出された場合、学習部15は、対象キーワードjについてのユーザによる申告興味度kjを受け付け、重みwAをwA+kjに更新する。mj B、mj C、mj Dについても同様に更新され、学習部15は、スコアの初期値「w=0」に対して正解データ(学習データ)によって各辞書に対応した重み付けを調整することによって、重要度の算出方法を学習する。
このサブストリングは、複数の辞書(A〜D)に基づくカテゴリ分類結果に応じてスコア(mi A,mi B,mi C,mi D)が算出される。
なお、興味候補キーワードコーパス30に予め記憶されていないキーワードの重要度は、所定の初期値に設定されてよい。あるいは、上記システムによってキーワードが抽出された際に、候補キーワード評価装置1によって重要度が算出されてもよい。
11 取得部
12 抽出部
13 第1算出部
14 第2算出部
15 学習部
Claims (6)
- 番組に関するテキストデータを取得する取得部と、
前記テキストデータからキーワードを抽出する抽出部と、
前記キーワードをカテゴリに分類する複数の辞書それぞれと照合し、分類されたカテゴリそれぞれに応じた複数のスコアを算出する第1算出部と、
前記複数のスコアを統合した係数に基づいて、前記キーワードの重要度を算出する第2算出部と、を備える候補キーワード評価装置。 - 前記第2算出部は、前記キーワードの出現頻度に応じた評価指標を、前記係数により増減して前記重要度を算出する請求項1に記載の候補キーワード評価装置。
- 前記辞書は、所定のコミュニティサイトにおける、前記カテゴリが付与された見出し語の解説ページデータを含む請求項1又は請求項2に記載の候補キーワード評価装置。
- 前記第1算出部は、前記キーワードが名詞に分類された場合に前記スコアを上昇させると共に、固有名詞に分類された場合には前記スコアを一層上昇させる請求項1から請求項3のいずれかに記載の候補キーワード評価装置。
- 前記スコアを統合する計算式を、ユーザから受け付けた教師データに基づいて学習する学習部を備える請求項1から請求項4のいずれかに記載の候補キーワード評価装置。
- コンピュータに、
番組に関するテキストデータを取得する取得ステップ、
前記テキストデータからキーワードを抽出する抽出ステップ、
前記キーワードをカテゴリに分類する複数の辞書それぞれと照合し、分類されたカテゴリそれぞれに応じた複数のスコアを算出する第1算出ステップ、
及び前記複数のスコアを統合した係数に基づいて、前記キーワードの重要度を算出する第2算出ステップを実行させるための候補キーワード評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015067454A JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015067454A JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016186768A JP2016186768A (ja) | 2016-10-27 |
JP6486165B2 true JP6486165B2 (ja) | 2019-03-20 |
Family
ID=57203211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015067454A Expired - Fee Related JP6486165B2 (ja) | 2015-03-27 | 2015-03-27 | 候補キーワード評価装置及び候補キーワード評価プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6486165B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6934848B2 (ja) * | 2018-09-27 | 2021-09-15 | 株式会社Kddi総合研究所 | 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 |
KR102403168B1 (ko) * | 2019-10-02 | 2022-05-27 | (주)디앤아이파비스 | 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법 |
CN111046169B (zh) * | 2019-12-24 | 2024-03-26 | 东软集团股份有限公司 | 一种主题词的提取方法、装置、设备及存储介质 |
CN112100329A (zh) * | 2020-08-31 | 2020-12-18 | 湖北美和易思教育科技有限公司 | 一种基于大数据的学习心得评测方法及装置 |
CN112767925B (zh) * | 2020-12-24 | 2023-02-17 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5232449B2 (ja) * | 2007-11-21 | 2013-07-10 | Kddi株式会社 | 情報検索装置およびコンピュータプログラム |
JP2012220582A (ja) * | 2011-04-05 | 2012-11-12 | Sony Corp | 音楽再生装置、音楽再生方法、プログラム、およびデータ作成装置 |
-
2015
- 2015-03-27 JP JP2015067454A patent/JP6486165B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016186768A (ja) | 2016-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102455616B1 (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US8930288B2 (en) | Learning tags for video annotation using latent subtags | |
JP6486165B2 (ja) | 候補キーワード評価装置及び候補キーワード評価プログラム | |
CN109697239B (zh) | 用于生成图文信息的方法 | |
Ma et al. | Learning to generate grounded visual captions without localization supervision | |
US11775765B2 (en) | Linguistic analysis of differences in portrayal of movie characters | |
CN111723784A (zh) | 一种风险视频识别方法、装置和电子设备 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
KR101780412B1 (ko) | 비디오 콘텐츠의 장면 단위 키워드 추출장치 및 이를 위한 키워드 가중치 산출장치 | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
US11947635B2 (en) | Illegal content search device, illegal content search method, and program | |
Shanmukhaa et al. | Construction of knowledge graphs for video lectures | |
US20180114093A1 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
CN112417845A (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
KR102279125B1 (ko) | 취향필터에 기반한 추천 정보 제공 단말 및 장치 | |
JP6530002B2 (ja) | コンテンツ探索装置、コンテンツ探索方法、プログラム | |
CN111062435A (zh) | 图像分析方法、装置及电子设备 | |
CN110888896A (zh) | 数据搜寻方法及其数据搜寻系统 | |
CN111814488B (zh) | 一种诗词生成方法、装置、电子设备及可读存储介质 | |
Alenzi et al. | Application of Sentiment Lexicons on Movies Transcripts to Detect Violence in Videos | |
JP6621437B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
CN112100443B (zh) | 视频标签的获取方法、装置、电子设备及存储介质 | |
JP2018180913A (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6486165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |