JP2010113558A - 単語抽出装置、単語抽出方法及び受信装置 - Google Patents

単語抽出装置、単語抽出方法及び受信装置 Download PDF

Info

Publication number
JP2010113558A
JP2010113558A JP2008286046A JP2008286046A JP2010113558A JP 2010113558 A JP2010113558 A JP 2010113558A JP 2008286046 A JP2008286046 A JP 2008286046A JP 2008286046 A JP2008286046 A JP 2008286046A JP 2010113558 A JP2010113558 A JP 2010113558A
Authority
JP
Japan
Prior art keywords
word
unit
term
extraction
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008286046A
Other languages
English (en)
Inventor
Yoichi Ohira
陽一 大平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008286046A priority Critical patent/JP2010113558A/ja
Publication of JP2010113558A publication Critical patent/JP2010113558A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】
コンテンツに含まれる用語は多数あるため、形態素解析や構文解析などにより抽出された語句をそのまま用語とすると、ユーザによって有益でない用語も表示されてしまい、ユーザの用語選択が煩雑になる。
【解決手段】
コンテンツから抽出した用語候補について、ネットワークデータ処理部を介してをウェブサイトで検索し、検索結果を指標として用語候補から用語を抽出する用語候補評価部を用語抽出装置に備え、抽出された用語についての解説等を表示する。
【選択図】 図1

Description

技術分野は、コンテンツに関する情報を処理する装置、コンテンツを受信して再生する受信装置に関する。
特許文献1には、「テレビ放送などで意味のわからない用語があったときに、簡単に用語の説明を提示すること」(特許文献1[0005]参照)を目的とし、その目的を達成すべく「放送コンテンツを解析し、用語を抽出する抽出手段、抽出した用語を選択可能に表示する表示手段、検索対象の用語を選択する用語選択手段、選択された用語に基づき用語の説明を取得する説明取得手段、用語の説明を表示手段へ出力する出力手段を含むこと」が記載されている。
特開2006−262245号公報
テレビ放送等を受信する受信装置において、視聴するテレビ番組中にユーザにとって意味のわからない用語があった場合、ユーザは辞書やパソコンのインターネット機能を使って調べなければならず、ユーザにとって手間が係る。上記特許文献1では、構文解析により区切られた単語を用語として表示装置に表示する技術が開示されている。しかし、テレビ放送に含まれる用語の数が多いため、ユーザユーザにとって有益でない単語や、解説が不要な用語までもが表示されてしまい、ユーザユーザの用語選択が煩雑になり利便性が低下する。
上記課題を解決するためには、特許請求の範囲に記載された技術的思想を用いればよい。例えば、コンテンツから文字データを抽出し、抽出した文字データから単語を抽出し、抽出した単語をネットワークを介して検索し、その検索結果に基づいて抽出した単語を出力するか否かを判断する。
上記手段によれば、ユーザユーザにとって使い勝手の良い受信装置を提供することができる。例えば、ユーザにとって有益な用語についての解説を提示することができ、用語選択の利便性が向上する。
以下に本発明の実施例を説明する。
図1は、用語抽出装置の構成例である。100は用語抽出装置、101は映像データ、音声データ、字幕データから文字データを抽出する文字データ抽出部である。102は文字データ抽出部101において抽出された文字データから用語候補や単語を抽出する用語候補抽出部である。以下102は用語候補抽出部として説明するが、単語抽出部ともいう。また、以下の説明における「用語」は「単語」であってもよい。
103は用語候補抽出部102において抽出された用語候補と一致する用語が蓄積されているか否か検索、判断する用語候補重複検索部(単語重複判断部ともいう。)、104はネットワークデータの送信処理、受信処理を行うネットワークデータ処理部、105はネットワークデータ処理部104を介して用語候補をウェブサイトで検索し、検索結果を指標として用語候補を用語とするか否か評価する用語候補評価部(単語評価部ともいう。)である。
ネットワークデータ処理部104は、ネットワークデータを送信、受信するための信号線を備える。用語候補評価部105は、評価に用いる検索ヒット数、評価に用いる検索ランキング、評価に用いる検索エンジン、評価に用いるウェブサイト、専用ウェブサイトを用いた用語評価実施の有無、専用ウェブサイトの検索ランキングを用いた用語候補評価実施の有無といった設定データを受信するための信号線を備える。専用ウェブサイトの詳細は図3を用いて後述する。
106は用語候補評価部において用語として評価された用語候補を蓄積する用語メモリである。用語メモリ106は、用語データを用語抽出装置100外へ送信するための信号線を備える。本発明を他装置と組み合わせる場合、用語メモリ106は他装置のメモリを代用しても良い。また、ネットワークデータ処理部104も他装置のネットワークデータ処理部を代用しても良い。
次に、用語抽出装置100における処理について説明する。図4は、用語抽出装置100における処理の一例を示すフローチャートである。
ステップ400では、文字データ抽出部101において、映像データ、音声データ、字幕データから文字データを抽出する。ステップ401では、用語候補抽出部102において文字データ抽出部101が抽出した文字データに、形態素解析や構文解析などの自然言語処理を施し、用語候補や単語を抽出する。
ステップ402では、用語候補重複検索部103において、用語候補抽出部102が抽出した用語候補を用語メモリ106から検索する。ステップ403では、用語候補評価部105において、ネットワークデータ処理部104を介してウェブサイトで用語候補を検索し、検索結果から用語候補を用語として蓄積するか否か評価する。ステップ404では、用語候補評価部105において用語として蓄積すると評価された用語候補が用語メモリ106に出力され、用語メモリ106は当該用語候補を記録して処理を終了する。
次に、文字データ抽出部101について説明する。図2は、文字データ抽出部101の構成例である。200は映像データを受信する映像データ受信部、201音声データを受信する音声データ受信部、202は字幕データを受信する字幕データ受信部である。映像データ受信部200は、映像データを受信するための信号線を備える。音声データ受信部201は、音声データを受信するための信号線を備える。字幕データ受信部202は、字幕データを受信するための信号線を備える。
203は映像データ受信部200が受信した映像データから文字データを抽出する文字認識部、204は音声データ受信部201が受信した音声データから文字データを抽出する音声認識部である。また、字幕データは文字データであるため文字データ抽出処理は行わなくてもよい。文字データ抽出部101は、映像データ、音声データ、字幕データのいずれか一つ、もしくは複数を用いて文字データを抽出する。
次に、文字データ抽出部101における処理について説明する。図5は、文字データ抽出部101の処理の一例を示すフローチャートである。ステップ500では、映像データ受信部200において映像データを受信する。ステップ501では、文字認識部203において映像データ受信部200が受信した映像データから文字認識技術により文字データを抽出する。
ステップ502では、音声データ受信部201において音声データを受信する。ステップ503では、音声認識部204において音声データ受信部201が受信した音声データから音声認識技術により文字データを抽出する。
ステップ504では、字幕データ受信部202において字幕データを受信する。また、字幕データは文字データであるため文字データ抽出処理は行わなくてもよい。文字データ抽出部101では、映像データ、音声データ、字幕データの内、いずれか一つ、もしくは複数を用いて文字データを抽出する。
次に、用語候補重複検索部103の処理について説明する。図6は、用語候補重複検索部103の処理の一例を示すフローチャートである。ステップ600では、用語メモリ106に用語が蓄積されているか否か判定する。判定の結果、蓄積されていない場合、ステップ603において、用語候補を用語候補評価部105に送信し、処理を終了する。また、蓄積されている場合、ステップ601において、用語候補を用語メモリ106から検索する。
ステップ602では、ステップ601において検索した結果、用語候補と一致する用語が用語メモリ106に蓄積されているか否か判定する。判定の結果、一致する用語が蓄積されている場合、処理を終了する。また、一致する用語が蓄積されていない場合、ステップ603において、用語候補を用語候補評価部105に送信し、処理を終了する。
用語メモリ106に蓄積されている用語と一致する用語候補の処理を行わないことで、同じ用語が重複してメモリに蓄積されることを防ぎ、メモリ容量を節約することが出来る。
次に、用語候補評価部105の処理について説明する。図7は、検索エンジンを用いた場合の用語候補評価部105の処理の一例を示すフローチャートである。ステップ700において、用語候補評価部105は用語候補重複検索部103から用語候補を受信する。ステップ701において、用語候補評価部105はネットワークデータ処理部104を介して検索エンジンで用語候補を検索する。ステップ702において、用語候補評価部105はネットワークデータ処理部104を介して用語候補の検索結果を受信する。
ステップ703において、用語候補評価部105は検索結果より、検索ヒット数が評価に用いる検索ヒット数を超えているか否か判定する。判定の結果、検索ヒット数が評価に用いる検索ヒット数を超えている場合、ステップ704において、用語候補を用語メモリ106に蓄積し、処理を終了する。また、検索ヒット数が評価に用いる検索ヒット数を超えていない場合、処理を終了する。
なお、用語候補評価の指標とする検索エンジンは複数用いても良い。また、検索エンジンを用いて用語候補評価を行う場合、検索ヒット数を指標とすることで、注目度の高い用語候補を用語として抽出することが出来る。
図8は、辞書サイト、百科事典サイト、用語サイトなどのウェブサイトを用いた場合の用語候補評価部105の処理の一例を示すフローチャートである。ステップ800において、用語候補評価部105は用語候補重複検索部103から用語候補を受信する。ステップ801において、用語候補評価部105はネットワークデータ処理部104を介して辞書サイト、百科事典サイト、用語サイトで用語候補を検索する。ステップ802において、用語候補評価部105はネットワークデータ処理部104を介して用語候補の検索結果を受信する。
ステップ803において、用語候補評価部105は検索結果より、辞書サイト、百科事典サイト、用語サイトの用語候補の解説ページの有無を判定する。判定の結果、解説ページが有る場合、ステップ804において、用語候補を用語メモリ106に蓄積し、処理を終了する。また、解説ページが無い場合、処理を終了する。
なお、用語候補評価の指標とする辞書サイト、百科事典サイト、用語サイトは、複数用いても良い。また、辞書サイト、百科事典サイト、用語サイトを用いて用語候補評価を行う場合、解説ページの有無を指標とすることで、確実に解説情報を取得できる用語候補を用語として抽出することが出来る。
次に、専用ウェブサイトを用いた場合の用語候補評価部105の処理について説明する。専用ウェブサイトとは、用語抽出装置100の用語候補評価部105が用語候補の評価を行うためのデータベースを備える専用のウェブサイトである。図3は、専用ウェブサイトのハードウェア構成例である。
300は専用ウェブサイト、301はネットワーク、302はネットワーク301と専用ウェブサイト300を接続し、ネットワークデータを入出力するネットワーク入出力端子、303はネットワークデータの送信処理、受信処理を行うネットワークデータ処理部、304は用語抽出装置100の用語候補評価部105が用語候補の評価を行うために、用語、用語の検索ランキング、用語の解説情報を蓄積しているデータベース、305は制御部、306はシステムバスである。制御部305は、システムバス306を介して専用ウェブサイト300の各部、かつ全体を制御するものである。
データベース304の検索ランキングは、検索エンジンのヒット数や、辞書サイト、百科事典サイト、用語集サイトの解説ページのアクセス数、もしくは、解説ページの文字数、あるいは専用ウェブサイトのデータベースに蓄積されている解説情報へのアクセス数を用いて決定する。
図9は、専用ウェブサイト300を用いた場合の用語候補評価部105の処理の一例を示すフローチャートである。ステップ900において、用語候補評価部105は用語候補重複検索部抽出部107から用語候補を受信する。ステップ901において、用語候補評価部105はネットワークデータ処理部104を介して専用ウェブサイト300で用語候補を検索する。ステップ902において、用語候補評価部105はネットワークデータ処理部104を介して用語候補の検索結果を受信する。
ステップ903において、用語候補評価部105は検索結果より、専用ウェブサイト300のデータベース304に用語候補と一致する用語が有るか否か判定する。判定の結果、一致する用語が無い場合、処理を終了する。また、一致する用語が有る場合、ステップ904へ進む。
ステップ904において、検索ランキングによる用語候補評価を行う設定になっているか否か判定する。判定の結果、検索ランキングによる用語候補評価を行う設定になっていない場合、ステップ906において、用語候補を用語メモリ106に蓄積し、処理を終了する。
ステップ904において、検索ランキングによる用語候補評価を行う設定になっている場合、ステップ905において、用語の検索ランキングが評価に用いる検索ランキング以内か否か判定する。判定の結果、用語の検索ランキングが評価に用いる検索ランキング以内の場合、ステップ906において、用語候補を用語メモリ106に蓄積する。用語の検索ランキングが評価に用いる検索ランキング以内でない場合、処理を終了する。
専用ウェブサイト300を用いて用語候補評価を行う場合、確実に解説情報を取得できる用語候補を用語として抽出することが出来る。また、検索ランキングを用語候補評価の指標とすることで、他人が興味を持っている用語を抽出することが出来る。
次に、用語抽出装置100を利用したコンテンツ処理装置について説明する。図10は、用語抽出装置100を内蔵したコンテンツ処理装置の構成例である。1000はコンテンツ処理装置、1001はネットワーク、1002はアンテナ、1003は記録再生装置、1004は記録媒体である。図10は、用語抽出装置100とコンテンツ処理装置1000の組み合わせの例を示したものであり、用語抽出装置100はコンテンツ処理装置1000の外にあっても良い。
1005はネットワーク1001とコンテンツ処理装置1000を接続し、ネットワークデータを入出力するネットワーク入出力端子、1006はアンテナから放送信号を入力するアンテナ入力端子、1007は記録再生装置からデジタルコンテンツを入力するデジタルデータ入力端子である。
1008はアンテナ入力端子1006から入力された放送信号を復調する復調部、1009はネットワークデータの送信処理、受信処理を行うネットワークデータ処理部、1010は復調された放送信号、デジタルデータ入力端子1007を介して記録再生装置1003から入力されたデジタルコンテンツ、記録媒体1004から読み出されたデジタルコンテンツを映像データ、音声データ、字幕データに分離する分離部である。
1011は分離された字幕データを復号する字幕データ復号部、1012は分離された映像データを復号する映像データ復号部、1013は分離された音声データを復号する音声データ復号部である。1014は用語抽出装置100である。用語抽出装置100のネットワークデータ処理部104は、コンテンツ処理装置1000のネットワークデータ処理部1009で代用してもよい。また、用語抽出装置100の用語メモリ106は、コンテンツ処理装置1000のメモリ1015で代用してもよい。以下、用語抽出装置100のネットワークデータ処理部104をコンテンツ処理装置1000のネットワークデータ処理部1009で代用し、用語抽出装置100の用語メモリ106をコンテンツ処理装置1000のメモリ1015で代用しているものとして説明する。
1015は、用語候補評価部105で用語であると評価された用語候補を蓄積するメモリである。1016はユーザが選択した用語の解説情報を取得する解説情報取得部、1017は復号された映像データ、復号された字幕データ、用語抽出装置1014により抽出された用語、解説情報取得部1016が取得した解説情報を重畳する画像重畳部である。解説情報とは、文字データ、画像データ、映像データ等である。
1018は映像出力端子、1019は映像出力装置、1020は音声出力端子、1021は音声出力装置、1022はユーザインタフェース、1023は制御部、1024はシステムバスである。制御部1023は、システムバス1024を介してコンテンツ処理装置1000の各部を制御するものであり、またユーザインタフェース1022を介してユーザの操作に基づいた動作を行うように、装置全体を制御する。なお、映像出力装置と音声出力装置はコンテンツ処理装置1000に含まれる構成としてもよいが、図10に示すように出力端子を介してコンテンツ処理装置1000に接続されるようにしてもよい。
ネットワークデータ処理部1009は、ネットワーク入出力端子1005を介してネットワーク1001に接続された他の機器から映像データ、音声データ、字幕データを含むネットワークデータを受信する。受信したネットワークデータは、所定の方式で、映像データ、音声データ、字幕データに分離される。
アンテナ1002が受信した放送信号は、アンテナ入力端子1006を介して復調部1008に入力される。入力された放送信号は、復調部1008において所定の方式により復調された後、分離部1010において所定の方式により映像データ、音声データ、字幕データに分離される。
分離部1010は、記録再生装置1003とデジタルデータ入力端子1007を介して映像データ、音声データ、字幕データを含むデジタルコンテンツを受信する。また、記録媒体1004から読み出された映像データ、音声データ、字幕データを含むデジタルコンテンツを受信する。受信したデジタルコンテンツは、所定の方式により映像データ、音声データ、字幕データに分離される。
字幕データ復号部1011において、分離された字幕データは所定の復号処理が施され用語抽出装置1014と画像重畳部1016へと送信される。映像データ復号部1012において、分離された映像データは所定の復号処理が施され用語抽出装置1014と画像重畳部1016へと送信される。音声データ復号部1013において、分離された音声データは所定の復号処理が施され用語抽出装置1014へ送信される。また、復号された音声データは音声出力端子1020を介して音声出力装置1021へと出力される。
用語抽出装置1014では、上述の実施例1に記載された処理により字幕データ、映像データ、音声データから用語を抽出する。解説情報取得部1016は、制御部1022がユーザインタフェース1021を介して検出したユーザの用語選択操作に基づき、ユーザの選択した用語をメモリ1015から取得し、ネットワークデータ処理部1009、ネットワーク入出力端子1005を介してネットワーク1001に接続されたウェブサイトから解説情報を取得し、画像重畳部1017へ送信する。
画像重畳部1017では、字幕データ復号部1011により復号された字幕データ、映像データ復号部1012により復号された映像データ、用語抽出装置100により抽出された用語、解説情報取得部1016により取得された解説情報を重畳し、映像出力端子1018を介して映像出力装置1019へ出力する。
図11は、コンテンツ処理装置1000が用語を抽出し、用語の解説情報を取得するためのネットワーク接続例である。ユーザ宅1100には、1台もしくは複数台のコンテンツ処理装置1000−1〜1000−mがあり、LAN(Local Area Network)1101と通信装置1102を介してネットワーク接続される。さらに、データ回線終端装置1103とISP(Internet Services Provider)1104を介してインターネット1105に接続され、検索エンジン1106、辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、また専用ウェブサイト300にアクセスする。
1108は放送局、1109−1はユーザ宅1100のアンテナ、1109−2は放送局1108のアンテナである。また、コンテンツ処理装置1000−1は、記録再生装置1003−1が接続されている。さらに、記録再生装置1003−2はLAN1101と通信装置1102を介してコンテンツ処理装置1000−1〜1000−mと接続されている。記録再生装置1003−2はインターネット上に有っても良い。
コンテンツ処理装置1000−1〜1000−mは、用語を抽出し、用語の解説情報を取得するにあたって、検索エンジン1106、辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、ならびに専用ウェブサイト300の内いずれか一つもしくは複数用いる。
図11は、コンテンツ処理装置1000−1〜1000−mが用語を抽出し、用語の解説情報を取得するためのネットワーク接続例を示す図であり、コンテンツ処理装置1000−1〜1000−m、記録姿勢装置1003−1〜1003−2、ユーザ宅1100、LAN1101、通信装置1102、データ回線終端装置1103、ISP1104、インターネット1105、検索エンジン1106、辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、専用ウェブサイト300、放送局1108、アンテナ1109−1〜1109−2の数や配置を限定するものではない。
図12は、用語候補評価部105に、評価に用いる検索ヒット数、評価に用いる検索ランキング、評価に用いる検索エンジン1106、評価に用いる辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、専用ウェブサイト300を用いた用語評価実施の有無、専用ウェブサイト300の検索ランキングを用いた用語候補評価実施の有無を設定するためのメニュー表示例である。
1200は、映像出力装置1019の枠である。1201は、用語候補評価部105の設定メニュー表示領域、1202は用語候補評価に用いる検索エンジン1106と辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、専用ウェブサイト300を用いた用語評価実施の有無を設定するメニュー、1203は評価に用いる検索ランキングの検索ヒット数を設定するメニュー、1204は評価に用いる検索ランキングと専用ウェブサイト300の検索ランキングを用いた用語候補評価実施の有無を設定するメニューである。
ユーザがメニューを用いて用語候補評価部105の設定操作を行うと、制御部1022はユーザインタフェース1021を介してユーザの操作を検出し、操作に基づいて用語抽出装置1014の用語候補評価部105に設定データを送信し、設定を行う。
用語候補の評価には検索エンジン1106、辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト1107、専用ウェブサイト300を複数用いて良い。例えば、図12に記載の設定で用語候補評価を行う場合、検索エンジンBでの検索数が100万件以上、かつ百科事典サイトAに解説ページが有る場合に用語候補を用語とする。また、検索エンジンBでの検索数が100万件以上、もしくは百科事典サイトAに解説ページが有る場合に用語候補を用語とするとしても良い。
これにより、ユーザの好みに合わせた用語候補評価を行うことができる。
図13は、用語抽出装置100を内蔵したコンテンツ処理装置1000の映像出力例である。1300は映像、字幕表示領域、1301は用語一覧表示領域、1302は用語の解説情報表示領域である。
例えば、コンテンツ処理装置1000がテレビ放送受信装置の場合、ユーザはリモコンを用いて、用語一覧表示領域1301から、解説情報を閲覧したい用語を選択する。すると、上述の処理により解説情報表示領域1302に解説情報が表示される。また、コンテンツ処理装置1000が携帯電話の場合、ユーザは携帯電話のボタンを用いて操作を行う。
本実施例によると、ユーザはコンテンツに含まれる用語の内、用語抽出装置100が有益な用語のみを抽出することで、用語選択の利便性が向上する。
図14は、用語抽出装置100を内蔵した専用ウェブサイトの構成例である。1400は専用ウェブサイト、1401はネットワーク、1402はアンテナ、1403は記録再生装置、1404は記録媒体である。図14は、用語抽出装置100と専用ウェブサイト1400の組み合わせの例を示したものであり、用語抽出装置100は専用ウェブサイト1400の外にあっても良い。
1405はネットワーク1401と専用ウェブサイト1400を接続し、ネットワークデータを入出力するネットワーク入出力端子、1406はアンテナから放送信号を入力するアンテナ入力端子、1407は記録再生装置からデジタルコンテンツを入力するデジタルデータ入力端子である。
1408はアンテナ入力端子1406から入力された放送信号を復調する復調部、1409はネットワークデータの送信処理、受信処理を行うネットワークデータ処理部、1410は復調された放送信号、デジタルデータ入力端子1406から入力されたデジタルコンテンツ、記録媒体1404から読み出されたデジタルコンテンツを映像データ、音声データ、字幕データに分離する分離部である。
1411は分離された字幕データを復号する字幕データ復号部、1412は分離された映像データを復号する映像データ復号部、1413は分離された音声データを復号する音声データ復号部である。1414は用語抽出装置100である。用語抽出装置100のネットワークデータ処理部104は、専用ウェブサイト1400のネットワークデータ処理部1409で代用してもよい。また、用語抽出装置100の用語メモリ106は、専用ウェブサイト1400のデータベース1415で代用してもよい。以下の説明では、ネットワークデータ処理部104は専用ウェブサイト1400のネットワークデータ処理部1409で代用され、用語メモリ106は専用ウェブサイト1400のデータベース1415で代用されたものとして説明する。
1415は用語候補評価部105で用語であると評価された用語候補を蓄積するデータベースである。データベースは用語の他に、用語の検索ランキング、用語の解説情報を蓄積する。1416はユーザが選択した用語の解説情報を取得する解説情報取得部、1417は制御部、1418はシステムバスである。制御部1417は、システムバス1418を介して専用ウェブサイト1400の各部、かつ全体を制御するものである。
上述の実施例1に記載された処理により、データベースに用語、用語の検索ランキング、用語の解説情報を蓄積することができ、自動でデータベースを生成することができる。また、専用ウェブサイト1400は、図3に記載の専用ウェブサイト300に、記録媒体1404、アンテナ入力端子1406、デジタルデータ入力端子1407、復調部1408、分離部1410、字幕データ復号部1411、映像データ復号部1412、音声データ復号部1413、用語抽出装置1414、解説情報取得部1416を備えることで、データベースをリアルタイムに生成することが出来る。
図15は、コンテンツ処理装置1000から用語抽出装置1014と解説情報取得部1016を除いたコンテンツ処理装置である。1500はコンテンツ処理装置、1501はネットワーク、1502はアンテナ、1503は記録再生装置、1504は記録媒体である。1505はネットワーク1501とコンテンツ処理装置1500を接続し、ネットワークデータを入出力するネットワーク入出力端子、1506はアンテナから放送信号を入力するアンテナ入力端子、1507は記録再生装置からデジタルコンテンツを入力するデジタルデータ入力端子である。
1508はアンテナ入力端子1506から入力された放送信号を復調する復調部、1509はネットワークデータの送信処理、受信処理を行うネットワークデータ処理部、1510は復調された放送信号、デジタルデータ入力端子1507を介して記録再生装置1503から入力されたデジタルコンテンツ、記録媒体1504から読み出されたデジタルコンテンツを映像データ、音声データ、字幕データに分離する分離部である。
1511は分離された字幕データを復号する字幕データ復号部、1512は分離された映像データを復号する映像データ復号部、1513は分離された音声データを復号する音声データ復号部、1514は専用ウェブサイト1400のデータベース1415より取得した用語、用語の解説情報を蓄積するメモリである。
1515は、字幕データ復号部1511により復号された字幕データ、映像データ復号部1512により復号された映像データ、専用ウェブサイト1400から取得した、用語、用語の解説情報を重畳し映像出力端子1516を介して映像出力装置1517へ出力する画像重畳部である。
1516は映像出力端子、1517は映像出力装置、1518は音声出力端子、1519は音声出力装置、1520はユーザインタフェース、1521は制御部、1522はシステムバスである。制御部1521は、システムバス1522を介してコンテンツ処理装置1500の各部を制御するものであり、またユーザインタフェース1520を介してユーザの操作に基づいた動作を行うように、装置全体を制御する。
専用ウェブサイト1400とコンテンツ処理装置1500を組み合わせて使用する場合の処理の流れを説明する。ユーザが専用ウェブサイト1400から用語、用語の検索ランキング、用語の解説情報を取得するようにコンテンツ処理装置1500を操作すると、制御部1521はユーザインタフェース1520を介してユーザの操作を検出する。
制御部1521は、ユーザインタフェース1520を介してユーザの操作を検出すると、ネットワークデータ処理部1509、ネットワーク入出力端子1505、ネットワーク1501を介して専用ウェブサイト1400へと、用語、用語の検索ランキング、用語の解説情報の取得要求を送信する。
専用ウェブサイト1400の制御部1417は、ネットワーク1401、ネットワーク入出力端子1405、ネットワークデータ処理部1409を介して用語、用語の検索ランキング、用語の解説情報の取得要求を受信すると、データベース1415に蓄積されている用語、用語の検索ランキング、用語の解説情報をネットワークデータ処理部1409、ネットワーク入出力端子1405、ネットワーク1401を介してコンテンツ処理装置1500へ送信する。
コンテンツ処理装置1500の制御部1521は、ネットワーク1501、ネットワーク入出力端子1505、ネットワークデータ処理部1509を介して用語、用語の検索ランキング、用語の解説情報を受信すると、メモリ1514に用語、用語の検索ランキング、用語の解説情報を蓄積する。
用語、用語の検索ランキング、用語の解説情報は、一度に取得しても、分割して取得しても良い。また、用語だけ取得し、ユーザの用語選択を制御部1521がユーザインタフェース1520を介して検出した時に、用語の検索ランキング、用語の解説情報を取得しても良い。
専用ウェブサイト1400は、データベース1415をリアルタイムに生成することが出来るため、用語抽出装置1014、ならびに解説情報取得部1016を備えていないコンテンツ処理装置1500においても、専用ウェブサイト1400のデータベース1415から用語、用語の検索ランキング、用語の解説情報を取得することで、図10に記載のコンテンツ処理装置1000の機能を実現することが出来る。
用語抽出装置の構成例。 文字データ抽出部の構成例。 専用ウェブサイトの構成例。 用語抽出装置全体の処理の一例を示すフローチャート。 文字データ抽出部の処理の一例を示すフローチャート 用語候補重複検索部の一例を示す処理フローチャート。 検索エンジンを用いた場合の用語候補評価部の処理の一例を示すフローチャート。 辞書サイト等のウェブサイトを用いた場合の用語候補評価部の処理の一例を示すフローチャート。 専用ウェブサイトを用いた場合の用語候補評価部の処理の一例を示すフローチャート。 用語抽出装置を内蔵したコンテンツ処理装置装置の構成例。 コンテンツ処理装置が用語を抽出し、用語の解説情報を取得するためのネットワーク接続例 用語候補評価部の設定メニューの表示例。 用語抽出装置を内蔵したコンテンツ処理装置装置の出力映像の一例。 用語抽出装置を内蔵した専用ウェブサイトの構成例。 実施例2におけるコンテンツ処理装置の一例。
符号の説明
100:用語抽出装置
101:文字データ抽出部
102:用語候補抽出部
103:用語候補重複検索部
104:ネットワークデータ処理部
105:用語候補評価部
106:用語メモリ
200:文字データ抽出部
201:音声データ受信部
202:字幕データ受信部
203:文字認識部
204:音声認識部
300:専用ウェブサイト
301:ネットワーク
302:ネットワーク入出力端子
303:ネットワークデータ処理部
304:データベース
305:制御部
306:システムバス
1000:用語抽出装置を内蔵したコンテンツ処理装置装置
1001:ネットワーク
1002:アンテナ
1003:記録再生装置
1004:記録媒体
1005:ネットワーク入出力端子
1006:アンテナ入力端子
1007:デジタルデータ入力端子
1008:復調部
1009:ネットワークデータ処理部
1010:分離部
1011:字幕データ復号部
1012:映像データ復号部
1013:音声データ復号部
1014:用語抽出装置
1015:メモリ
1016:解説情報取得部
1017:画像重畳部
1018:映像出力端子
1019:映像出力装置
1020:音声出力端子
1021:音声出力装置
1022:ユーザインタフェース
1023:制御部
1024:システムバス
1100:ユーザ宅
1101:LAN(Local Area Network)
1102:通信装置
1103:データ回線終端装置
1104:ISP(Internet Services Provider)
1105:インターネット
1106:検索エンジン
1107:辞書サイト、百科事典サイト、用語集サイトなどのウェブサイト
1108:放送局
1109−1:ユーザ宅のアンテナ
1109−2:放送局のアンテナ
1200:映像出力装置の枠
1201:用語候補評価部の設定メニュー表示領域
1202:用語候補評価に用いる検索エンジン、用語候補評価に用いるウェブサイト、専用ウェブサイトを用いた用語評価実施の有無を設定するメニュー
1203:評価に用いる検索エンジンの検索ヒット数を設定するメニュー
1204:評価に用いる検索ランキング、専用ウェブサイトの検索ランキングを用いた用語候補評価実施の有無を設定するメニュー
1300:映像、字幕表示領域
1301:用語一覧表示領域
1302:用語の解説情報表示領域
1400:用語抽出装置を内蔵した専用ウェブサイト
1401:ネットワーク
1402:アンテナ
1403:記録再生装置
1404:記録媒体
1405:ネットワーク入出力端子
1406:アンテナ入力端子
1407:デジタルデータ入力端子
1408:復調部
1409:ネットワークデータ処理部
1410:分離部
1411:字幕データ復号部
1412:映像データ復号部
1413:音声データ復号部
1414:用語抽出装置
1415:データベース
1416:解説情報取得部
1417:制御部
1418:システムバス
1500:用語抽出装置と解説情報取得部を除いたコンテンツ処理装置
1501:ネットワーク
1502:アンテナ
1503:記録再生装置
1504:記録媒体
1505:ネットワーク入出力端子
1506:アンテナ入力端子
1507:デジタルデータ入力端子
1508:復調部
1509:ネットワークデータ処理部
1510:分離部
1511:字幕データ復号部
1512:映像データ復号部
1513:音声データ復号部
1514:メモリ
1515:画像重畳部
1516:映像出力端子
1517:映像出力装置
1518:音声出力端子
1519:音声出力装置
1520:ユーザインタフェース
1521:制御部
1522:システムバス

Claims (19)

  1. コンテンツから文字データを抽出する文字データ抽出部と、
    前記文字データ抽出部で抽出された文字データから単語を抽出する単語抽出部と、
    ネットワークにデータを送受信するネットワーク処理部と、
    前記ネットワーク処理部を介して前記単語抽出部で抽出した単語を検索し、当該検索結果に基づいて前記単語抽出部で抽出した単語を出力するか否かを評価する単語評価部とを有する単語抽出装置。
  2. コンテンツから文字データを抽出する文字データ抽出部と、
    前記文字データ抽出部で抽出された文字データから単語を抽出する単語抽出部と、
    前記単語抽出部で抽出した単語を記録する単語記録部と、
    ネットワークにデータを送受信するネットワーク処理部と、
    前記ネットワーク処理部を介して前記単語抽出部で抽出した単語を検索し、当該検索結果に基づいて前記単語抽出部で抽出した単語を前記単語記録部に記録するか否かを評価する単語評価部とを有する単語抽出装置。
  3. 請求項2の単語抽出装置であって、
    前記単語抽出部で抽出した単語が前記単語記録部に記録されているか否かを判断する単語重複判断部とを有し、
    前記単語重複判断部で前記単語記録部に既に記録されていると判断された単語は記録しない単語抽出装置。
  4. 請求項1〜3のいずれかの単語抽出装置であって、
    前記単語評価部は評価する単語の検索エンジンにおけるヒット数に基づいて前記評価を行う単語抽出装置。
  5. 請求項1〜3のいずれかの単語抽出装置であって、
    前記単語評価部は評価する単語のウェブサイトにおける解説に基づいて前記評価を行う単語抽出装置。
  6. 請求項1〜3のいずれかの単語抽出装置であって、
    前記単語評価部は単語の評価に用いられるウェブサイトに登録されている単語に基づいて前記評価を行う単語抽出装置。
  7. コンテンツを受信する受信部と、
    前記受信部で受信したコンテンツから文字データを抽出する文字データ抽出部と、
    前記文字データ抽出部で抽出された文字データから単語を抽出する単語抽出部と、
    ネットワークにデータを送受信するネットワーク処理部と、
    前記ネットワーク処理部を介して前記単語抽出部で抽出した単語を検索し、当該検索結果に基づいて前記単語抽出部で抽出した単語を前記出力部を介して出力するか否かを評価する単語評価部と、
    前記単語評価部から出力された単語に関する情報を前記ネットワーク処理部を介して取得する単語情報取得部と、
    前記受信部で受信したコンテンツの映像情報と前記単語情報取得部で取得した単語に関する情報とを出力する出力部とを有する受信装置。
  8. コンテンツを受信する受信部と、
    前記受信部で受信したコンテンツから文字データを抽出する文字データ抽出部と、
    前記文字データ抽出部で抽出された文字データから単語を抽出する単語抽出部と、
    前記単語抽出部で抽出した単語を記録する単語記録部と、
    ネットワークにデータを送受信するネットワーク処理部と、
    前記ネットワーク処理部を介して前記単語抽出部で抽出した単語を検索し、当該検索結果に基づいて前記単語抽出部で抽出した単語を前記単語記録部に記録するか否かを評価する単語評価部と、
    前記単語記録部に記録された単語に関する情報を前記ネットワーク処理部を介して取得する単語情報取得部と、
    前記受信部で受信したコンテンツの映像情報と前記単語情報取得部で取得した単語に関する情報とを出力する出力部とを有する受信装置。
  9. 請求項8の受信装置であって、
    前記単語抽出部で抽出した単語が前記単語記録部に記録されているか否かを判断する単語重複判断部とを有し、
    前記単語重複判断部で前記単語記録部に既に記録されていると判断された単語は前記単語記録部に記録しない受信装置。
  10. 請求項7〜9のいずれかの受信装置であって、
    前記単語評価部は評価する単語の検索エンジンにおけるヒット数に基づいて前記評価を行う受信装置。
  11. 請求項7〜9のいずれかの受信装置であって、
    前記単語評価部は評価する単語のウェブサイトにおける解説に基づいて前記評価を行う受信装置。
  12. 請求項7〜9のいずれかの受信装置であって、
    前記単語評価部は単語の評価に用いられるウェブサイトに登録されている単語に基づいて前記評価を行う受信装置。
  13. コンテンツを受信する受信部と、
    前記受信部で受信したコンテンツと当該コンテンツに含まれる単語と当該単語の解説とを出力する出力部と、
    ネットワークにデータを送受信するネットワーク処理部とを有し、
    前記出力部で出力される単語は前記ネットワーク処理部を介して行われる当該単語の検索結果に基づいて選択される受信装置。
  14. コンテンツから文字データを抽出し、
    前記抽出した文字データから単語を抽出し、
    前記抽出した単語をネットワークを介して検索し、
    前記検索の結果に基づいて前記抽出した単語を出力するか否かを判断し、
    前記判断により単語を出力すると判断された単語を出力する用語抽出方法。
  15. 請求項14の単語抽出方法であって、
    前記検索の結果に基づいて前記抽出した単語を記録するか否かを判断し、
    前記判断により単語を記録すると判断された単語を記録する用語抽出方法。
  16. 請求項15の単語抽出方法であって、
    前記抽出した単語が既に記録されているか否かを判断し、
    既に記録されていると判断した単語は記録しない単語抽出方法。
  17. 請求項14〜16のいずれかの単語抽出方法であって、
    前記単語を出力するか否かの判断は、検索エンジンにおけるヒット数に基づいて行われる単語抽出方法。
  18. 請求項14〜16のいずれかの単語抽出方法であって、
    前記単語を出力するか否かの判断は、当該単語のウェブサイトにおける解説に基づいて行われる単語抽出方法。
  19. 請求項14〜16のいずれかの単語抽出方法であって、
    前記単語を出力するか否かの判断は、単語の評価に用いられるウェブサイトに登録されている単語に基づいて行われる単語抽出方法。
JP2008286046A 2008-11-07 2008-11-07 単語抽出装置、単語抽出方法及び受信装置 Pending JP2010113558A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008286046A JP2010113558A (ja) 2008-11-07 2008-11-07 単語抽出装置、単語抽出方法及び受信装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008286046A JP2010113558A (ja) 2008-11-07 2008-11-07 単語抽出装置、単語抽出方法及び受信装置

Publications (1)

Publication Number Publication Date
JP2010113558A true JP2010113558A (ja) 2010-05-20

Family

ID=42302070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008286046A Pending JP2010113558A (ja) 2008-11-07 2008-11-07 単語抽出装置、単語抽出方法及び受信装置

Country Status (1)

Country Link
JP (1) JP2010113558A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4712118B1 (ja) * 2010-08-12 2011-06-29 ヤフー株式会社 携帯端末、アプリケーション選択方法及びプログラム
JP2011259176A (ja) * 2010-06-08 2011-12-22 Toshiba Corp コンテンツ処理装置および処理方法
JP2015038652A (ja) * 2011-01-31 2015-02-26 株式会社東芝 デジタル放送受信機
JP2022126815A (ja) * 2021-08-18 2022-08-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 表示方法、表示装置、電子機器、記憶媒体およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195417A (ja) * 2000-01-13 2001-07-19 Toshiba Corp キーワード抽出装置およびプログラム実行装置
JP2003173347A (ja) * 2001-12-05 2003-06-20 Univ Waseda 情報検索システムおよびプログラム
JP2005115790A (ja) * 2003-10-09 2005-04-28 Sony Corp 情報検索方法、情報表示装置及びプログラム
JP2006262245A (ja) * 2005-03-18 2006-09-28 Canon Inc 放送コンテンツ処理装置、用語説明検索方法、及び用語説明検索コンピュータプログラム
JP2008148077A (ja) * 2006-12-12 2008-06-26 Hitachi Ltd 動画再生装置
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195417A (ja) * 2000-01-13 2001-07-19 Toshiba Corp キーワード抽出装置およびプログラム実行装置
JP2003173347A (ja) * 2001-12-05 2003-06-20 Univ Waseda 情報検索システムおよびプログラム
JP2005115790A (ja) * 2003-10-09 2005-04-28 Sony Corp 情報検索方法、情報表示装置及びプログラム
JP2006262245A (ja) * 2005-03-18 2006-09-28 Canon Inc 放送コンテンツ処理装置、用語説明検索方法、及び用語説明検索コンピュータプログラム
JP2008148077A (ja) * 2006-12-12 2008-06-26 Hitachi Ltd 動画再生装置
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011259176A (ja) * 2010-06-08 2011-12-22 Toshiba Corp コンテンツ処理装置および処理方法
JP4712118B1 (ja) * 2010-08-12 2011-06-29 ヤフー株式会社 携帯端末、アプリケーション選択方法及びプログラム
JP2012039581A (ja) * 2010-08-12 2012-02-23 Yahoo Japan Corp 携帯端末、アプリケーション選択方法及びプログラム
JP2015038652A (ja) * 2011-01-31 2015-02-26 株式会社東芝 デジタル放送受信機
JP2022126815A (ja) * 2021-08-18 2022-08-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 表示方法、表示装置、電子機器、記憶媒体およびプログラム

Similar Documents

Publication Publication Date Title
JP3953886B2 (ja) 字幕抽出装置
US8965916B2 (en) Method and apparatus for providing media content
CN102193794B (zh) 链接实时媒体情境到相关的应用程序和服务
US20120135784A1 (en) Mobile terminal and method for providing augmented reality using an augmented reality database
JP5115089B2 (ja) キーワード抽出方法
CN104618807B (zh) 多媒体播放方法、装置及系统
JP4388128B1 (ja) 情報提供サーバ、情報提供方法及び情報提供システム
JP6202815B2 (ja) 文字認識装置および文字認識方法並びに文字認識プログラム
KR101100191B1 (ko) 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
JP4814849B2 (ja) フレームの特定方法
US20030237092A1 (en) Web page display apparatus
JP2008129884A (ja) 情報検索システム及びその方法並びにそれに用いる放送受信機
JP2010113558A (ja) 単語抽出装置、単語抽出方法及び受信装置
JP5202217B2 (ja) 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム
CN107193922B (zh) 一种信息处理的方法及装置
JPH10145687A (ja) ネットワーク接続装置
KR20200024541A (ko) 동영상 컨텐츠 검색 지원 방법 및 이를 지원하는 서비스 장치
TW201215116A (en) Set-top box and method for searching characters thereof
JP5344937B2 (ja) テレビ番組のメタ情報に基づく検索方法、検索システム、及び検索ターム生成装置
JP2010039647A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JPWO2007037040A1 (ja) 放送受信装置
WO2016006088A1 (ja) 電子機器及び方法及びプログラム
JP2001028010A (ja) マルチメディアコンテンツ自動抽出システム及びその方法
JP2004312627A (ja) テレビジョン受像装置およびその番組情報検索方法
CN108363770A (zh) 一种机顶盒支持多途径提取关键词并搜索的方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130624

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130723