JP2014074992A - Information extraction device and method and program - Google Patents

Information extraction device and method and program Download PDF

Info

Publication number
JP2014074992A
JP2014074992A JP2012221391A JP2012221391A JP2014074992A JP 2014074992 A JP2014074992 A JP 2014074992A JP 2012221391 A JP2012221391 A JP 2012221391A JP 2012221391 A JP2012221391 A JP 2012221391A JP 2014074992 A JP2014074992 A JP 2014074992A
Authority
JP
Japan
Prior art keywords
web page
moving image
address
image
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012221391A
Other languages
Japanese (ja)
Other versions
JP5978899B2 (en
Inventor
Yutaka Katsuyama
裕 勝山
Akihiro Minagawa
明洋 皆川
Hiroaki Takebe
浩明 武部
Yoshinobu Hotta
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012221391A priority Critical patent/JP5978899B2/en
Publication of JP2014074992A publication Critical patent/JP2014074992A/en
Application granted granted Critical
Publication of JP5978899B2 publication Critical patent/JP5978899B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of address recognition.SOLUTION: A television device 30 searches for a Web page including a predetermined keyword on the Internet 49, and as for the extracted Web page and a related Web page related to the Web page, the television device 30 collects at least URL and the image featured values of moving images included in the Web page and the related Web page, and registers at least the collected URL and image featured values of the Web page group in association in a URL dictionary 66 stored in a storage part 36. Also, when the moving image with the displayed URL as the object of recognition is designated from the moving images of television broadcasting, the television device 30 extracts the image featured values from the designated moving image, and collates the image featured values extracted from the moving image with the image featured values registered in the URL dictionary 66, and recognizes, as the URL as the object of recognition, the URL registered in the URL dictionary 66 in association with the image featured values which are similar to the image featured values extracted from the designated moving image.

Description

開示の技術は情報抽出装置、情報抽出方法及び情報抽出プログラムに関する。   The disclosed technology relates to an information extraction apparatus, an information extraction method, and an information extraction program.

テレビ放送に挿入される広告であるCF(Commercial Film)等には、広告対象等に興味を持った視聴者を対応するウェブページの閲覧に誘導するために、ウェブページのアドレス(例えばURL(Uniform Resource Locator))を表す文字列が表示されることがある。視聴者は、CF等を視聴して更に多くの情報を得ることを所望した場合、通常はURL等のアドレスを紙等に記録し、PC(Personal Computer)等上で起動したブラウザソフト等に手動でアドレスを入力し、表示されたウェブページを閲覧する。しかし、テレビ番組を見ているときにアドレスを記録しておいて後でPC等に入力するのは面倒で、アドレスを記録し切れない可能性もあり、タイムリーに情報を得ることが難しいという課題がある。   For CF (Commercial Film), which is an advertisement inserted into a television broadcast, in order to guide viewers interested in the advertising target to browse the corresponding web page (for example, URL (Uniform Resource Locator)) may be displayed. When the viewer desires to obtain more information by viewing the CF or the like, the address such as a URL is usually recorded on paper or the like, and manually entered on a browser software or the like started on a PC (Personal Computer) or the like. Enter the address with, and browse the displayed web page. However, it is troublesome to record an address when watching a TV program and input it later to a PC, etc., and it may not be possible to record the address, making it difficult to obtain information in a timely manner. There are challenges.

上記に関連して、画像内から文字コード化可能な1以上の領域を抽出して文字コードに変換し、1以上の文字を含む文字列を示す文字コード情報を作成し、文字コード情報が示す文字列からURL等の通信用文字列を抽出する第1の技術が提案されている。   In relation to the above, one or more areas that can be character-coded from the image are extracted and converted into character codes, character code information indicating a character string including one or more characters is created, and the character code information indicates A first technique for extracting a communication character string such as a URL from a character string has been proposed.

また、入力された認識モードにより、読取対象の抽出方式を自動的に切り替えて文字列又は文字行又は単語を自動的に抽出し、表示部に抽出した画像内容を文字列又は文字行又は単語として表示する第2の技術が提案されている。第2の技術では、選択操作により、表示部に表示された特定の文字列又は文字行又は単語を認識する。   In addition, depending on the input recognition mode, the reading target extraction method is automatically switched to automatically extract a character string, a character line, or a word, and the extracted image content is displayed as a character string, a character line, or a word. A second technique for displaying has been proposed. In the second technique, a specific character string, character line, or word displayed on the display unit is recognized by a selection operation.

また、入力された文字画像を文字認識し、認識した文字列がURLのとき、当該URLで示される接続先へインターネットを経由して接続し、その結果を得ることで、文字認識された結果が正しいかどうかを検証する第3の技術が提案されている。   In addition, when the input character image is recognized, and the recognized character string is a URL, the result of character recognition is obtained by connecting to the connection destination indicated by the URL via the Internet and obtaining the result. A third technique for verifying whether it is correct has been proposed.

更に、第4の技術では、利用者によって撮影された吊り広告の画像に対し、URLが表示されていればURLの文字認識を行い、URLが表示されていなければ会社名の画像照合を行うことでURLの特定を行うことが提案されている。また第4の技術では、利用者によって撮影された画像にURLが表示されていない場合に、会社の商標の画像を照合することでURLの特定を行うことも提案されている。   Further, in the fourth technique, if the URL is displayed on the hanging advertisement image taken by the user, the character recognition of the URL is performed, and if the URL is not displayed, the company name is collated. It has been proposed to specify a URL. In the fourth technique, it is also proposed to specify a URL by collating an image of a company trademark when no URL is displayed on an image taken by a user.

特開2003−152829号公報JP 2003-152829 A 特許第4431335号公報Japanese Patent No. 4431335 特開2002−279352号公報JP 2002-279352 A 特開2002−278857号公報JP 2002-278857 A

第1の技術及び第2の技術は、文字認識によりURL等のアドレスを認識するものであり、処理精度が文字認識の精度に依存し、認識したアドレスに誤りが含まれている可能性がある。   The first technique and the second technique recognize an address such as a URL by character recognition, and the processing accuracy depends on the accuracy of character recognition, and the recognized address may contain an error. .

また、第3の技術は、文字認識によりURL等のアドレスを認識した後、認識したアドレスのウェブページにアクセスするものであり、第1の技術及び第2の技術よりは認識結果に誤りが含まれている確率を低減できる。しかし、第3の技術は、認識したアドレスに誤りが含まれていても、当該誤りを含むアドレスのウェブページが存在していた場合、ウェブページの検索で誤ったウェブページがヒットしてしまい、正しい認識結果が得られないことがある。   In the third technique, after an address such as a URL is recognized by character recognition, a web page of the recognized address is accessed, and the recognition result includes an error more than the first technique and the second technique. The probability of being lost can be reduced. However, in the third technique, even if an error is included in the recognized address, if there is a web page at the address including the error, the wrong web page is hit in the search of the web page, Correct recognition results may not be obtained.

また、第4の技術では、アクセスされる可能性のあるウェブページのURL等のアドレスと会社名又は会社の商標の画像とを対応付けて登録した辞書を作成しておく必要がある。但し、辞書の作成には、幾つかの方法が考えられる。   In the fourth technique, it is necessary to create a dictionary in which addresses such as URLs of web pages that may be accessed and company names or company trademark images are registered in association with each other. However, there are several methods for creating a dictionary.

第1の作成方法は人手によって辞書を作成するものである。しかし、第1の作成方法は辞書の作成に多大な手間が掛かるという課題がある。また、第2の作成方法は企業から辞書に登録する情報を購入するものである。しかし、第2の作成方法はコストが嵩むという課題がある。   The first creation method is to create a dictionary manually. However, the first creation method has a problem that it takes much time to create a dictionary. The second creation method purchases information to be registered in a dictionary from a company. However, the second creation method has a problem of increasing costs.

第3の作成方法は辞書に登録する情報をウェブクローラ(検索ロボット)によって収集するものである。しかし、第3の作成方法は収集される情報が膨大なものとなり、照合の精度低下や処理速度の低下を招くという課題がある。第4の作成方法は、辞書に登録する情報として、特定のキーワードを含むウェブページの情報のみをウェブクローラによって収集するものである。しかし、テレビ放送のCFに表示されるアドレスのウェブページが特定のキーワードを含むとは限らないので、第4の作成方法は、検索対象のウェブページのアドレスが辞書に登録されていないことが生じ得る。   In the third creation method, information to be registered in the dictionary is collected by a web crawler (search robot). However, the third creation method has a problem that the amount of collected information becomes enormous, leading to a decrease in collation accuracy and a decrease in processing speed. In the fourth creation method, only information on a web page including a specific keyword is collected by the web crawler as information to be registered in the dictionary. However, since the web page at the address displayed on the CF of the television broadcast does not necessarily include a specific keyword, the fourth creation method may cause the address of the web page to be searched not to be registered in the dictionary. obtain.

このように、既存の辞書作成方法は何れの方法も課題があり、テレビ放送のCFに表示されるURL等のアドレスの抽出に第4の技術を適用した場合、手間又はコストが掛かるか、アドレス認識の精度が低下するという課題があった。   As described above, any of the existing dictionary creation methods has a problem. If the fourth technique is applied to the extraction of an address such as a URL displayed on a CF of a television broadcast, it may take time or cost, There was a problem that the accuracy of recognition was lowered.

開示の技術は、一つの側面として、アドレス認識の精度を向上させることが目的である。   An object of the disclosed technique is to improve the accuracy of address recognition.

開示の技術は、収集部及び認識部を備えている。収集部は所定のキーワードを含むウェブページを検索する。また収集部は、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集する。また収集部は、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させる。認識部は、放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を記憶部に記憶されている画像特徴量と照合する。また認識部は、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて記憶部に登録されているアドレスを、認識対象のアドレスとして認識する。   The disclosed technology includes a collection unit and a recognition unit. The collection unit searches for a web page including a predetermined keyword. In addition, the collection unit, for the web page including the predetermined keyword extracted by the search and the related web page related to the web page, at least the address and the image feature amount of the moving image included in the web page and the related web page. collect. The collection unit stores at least the address of the collected web page group and the image feature amount in the storage unit in association with each other. The recognition unit is extracted from the designated moving image when a moving image whose designated address is to be recognized is designated from the broadcasted moving image and an image feature amount is extracted from the designated moving image. The obtained image feature amount is collated with the image feature amount stored in the storage unit. The recognizing unit recognizes an address registered in the storage unit in association with an image feature amount similar to the image feature amount extracted from the specified moving image as a recognition target address.

開示の技術は、一つの側面として、アドレス認識の精度を向上させることができる、という効果を有する。   The disclosed technology has an effect that the accuracy of address recognition can be improved as one aspect.

実施形態で説明した情報抽出装置の機能ブロック図である。It is a functional block diagram of the information extraction device explained in the embodiment. 第1実施形態に係るテレビ装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the television apparatus which concerns on 1st Embodiment. 情報収集処理の一例を示すフローチャートである。It is a flowchart which shows an example of an information collection process. ウェブページの一例を示すイメージ図である。It is an image figure which shows an example of a web page. 動画像の画像特徴量の一例を示すイメージ図である。It is an image figure which shows an example of the image feature-value of a moving image. 辞書更新処理の一例を示すフローチャートである。It is a flowchart which shows an example of a dictionary update process. URL認識処理の一例を示すフローチャートである。It is a flowchart which shows an example of URL recognition processing. 第2実施形態に係るテレビ装置及びサーバの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the television apparatus and server which concern on 2nd Embodiment. 第2実施形態におけるURL認識処理の流れを示すシーケンス図である。It is a sequence diagram which shows the flow of the URL recognition process in 2nd Embodiment.

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。   Hereinafter, an example of an embodiment of the disclosed technology will be described in detail with reference to the drawings.

〔第1実施形態〕
図1には本実施形態に係る情報抽出装置10が示されている。情報抽出装置10は、テレビ放送を視聴している利用者により、テレビ放送に挿入されたCFで表示されていたアドレス(本実施形態ではURL)の取得が指示されると、予め登録していたURL辞書に基づき前記URLの抽出(認識)を行う装置である。また、情報抽出装置10はURL辞書66(図2参照)の生成も行う。URL辞書66は、インターネット上で公開されているウェブページのうち、所定のキーワードを含むウェブページ及び関連するウェブページを抽出し、抽出したウェブページのURLと、ウェブぺージに含まれる動画像の特徴量を対応付けて登録したものである。
[First Embodiment]
FIG. 1 shows an information extraction apparatus 10 according to this embodiment. The information extraction apparatus 10 has been registered in advance when a user viewing a television broadcast is instructed to acquire an address (URL in this embodiment) displayed in the CF inserted in the television broadcast. An apparatus that extracts (recognizes) the URL based on a URL dictionary. The information extraction apparatus 10 also generates a URL dictionary 66 (see FIG. 2). The URL dictionary 66 extracts a web page including a predetermined keyword and a related web page from web pages published on the Internet, and the URL of the extracted web page and a moving image included in the web page. A feature amount is registered in association with each other.

情報抽出装置10は、情報収集部12、確認部14、削除部16、記憶部18、動画像抽出部20、特徴量抽出部22、認識部24及びページ表示部26を備えている。   The information extraction apparatus 10 includes an information collection unit 12, a confirmation unit 14, a deletion unit 16, a storage unit 18, a moving image extraction unit 20, a feature amount extraction unit 22, a recognition unit 24, and a page display unit 26.

情報収集部12はURL辞書66の生成を行う。すなわち、情報収集部12は、インターネット上で公開されているウェブページの中から、所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページを抽出する。所定のキーワードを含むウェブページは、テレビ放送に挿入されURLが表示されるCFに対応すると推定されるウェブページであり、所定のキーワードの一例としては「CF」や「CM」、「キャンペーン」、「懸賞」等が挙げられる。また、関連ウェブページの一例としては、所定のキーワードを含むウェブページへのリンクを含む親ウェブページや、所定のキーワードを含むウェブページに含まれるリンクのリンク先である子ウェブページが挙げられる。   The information collection unit 12 generates a URL dictionary 66. That is, the information collection unit 12 searches a web page including a predetermined keyword from web pages published on the Internet, and relates to the web page including the predetermined keyword extracted by the search and the web page. Extract related web pages. A web page including a predetermined keyword is a web page presumed to correspond to a CF inserted in a television broadcast and displayed with a URL. Examples of the predetermined keyword include “CF”, “CM”, “campaign”, “Stakes” etc. Examples of the related web page include a parent web page including a link to a web page including a predetermined keyword, and a child web page that is a link destination of a link included in the web page including the predetermined keyword.

また、情報収集部12は、抽出したウェブページ群の各々のURLを取得すると共に、抽出したウェブページ群に含まれる動画像の特徴量を抽出する。そして、取得したウェブページ群のURLと抽出した動画像の特徴量を、日時と対応付けてURL辞書66に登録する。なお、URL辞書66は記憶部18に記憶される。   In addition, the information collection unit 12 acquires each URL of the extracted web page group and extracts a feature amount of a moving image included in the extracted web page group. Then, the URL of the acquired web page group and the feature amount of the extracted moving image are registered in the URL dictionary 66 in association with the date and time. The URL dictionary 66 is stored in the storage unit 18.

確認部14は、URL辞書66に登録された情報に対応するCFが、現在でもテレビ放送に挿入されて放送されているかを確認する。一般にCFは放送期間が予め定められており、予め定められた放送期間が経過するとCFの放送は停止される。確認部14は、URL辞書66に登録されている情報のうち、一定期間以上古い情報について、対応するCFが放送されているか否かを判定する。そして、対応するCFが放送されている情報については、URL辞書66に登録されている日時を更新する。削除部16は、確認部14により、URL辞書66に登録されている情報のうち、一定期間以上古い情報について、対応するCFが放送されていないと判定された場合に、対応する情報をURL辞書66から削除する。   The confirmation unit 14 confirms whether the CF corresponding to the information registered in the URL dictionary 66 is still inserted and broadcast in the television broadcast. In general, the CF has a predetermined broadcast period, and the CF broadcast is stopped when the predetermined broadcast period elapses. The confirmation unit 14 determines whether or not the corresponding CF is broadcast for information older than a certain period of information registered in the URL dictionary 66. For the information on which the corresponding CF is broadcast, the date and time registered in the URL dictionary 66 is updated. When the confirmation unit 14 determines that the corresponding CF is not broadcast for information that is older than a certain period of information registered in the URL dictionary 66 by the confirmation unit 14, the deletion unit 16 stores the corresponding information in the URL dictionary. Delete from 66.

動画像抽出部20は、テレビ放送を視聴している利用者により、テレビ放送に挿入されたCFで表示されていたURLの取得が指示されると、テレビ放送の動画像からURL抽出対象のCFの動画像を抽出する。特徴量抽出部22は、動画像抽出部20によって抽出されたCFの動画像の特徴量を抽出する。   When the user viewing the television broadcast is instructed to acquire the URL displayed in the CF inserted in the television broadcast, the moving image extraction unit 20 performs the URL extraction target CF from the television broadcast moving image. To extract the moving image. The feature amount extraction unit 22 extracts the feature amount of the CF moving image extracted by the moving image extraction unit 20.

認識部24は、特徴量抽出部22によって抽出されたCFの動画像の特徴量を、URL辞書66に登録されている動画像の特徴量と照合することで、URL辞書66に登録されている情報のうち、動画像の特徴量が抽出されたCFに対応する情報を認識する。ページ表示部26は、認識部24によって認識された情報に含まれるURLのウェブページにアクセスし、アクセスしたウェブページをディスプレイに表示させる。   The recognizing unit 24 is registered in the URL dictionary 66 by comparing the feature amount of the CF moving image extracted by the feature amount extracting unit 22 with the feature amount of the moving image registered in the URL dictionary 66. Among the information, information corresponding to the CF from which the feature amount of the moving image is extracted is recognized. The page display unit 26 accesses the web page of the URL included in the information recognized by the recognition unit 24, and displays the accessed web page on the display.

なお、情報収集部12は開示の技術における収集部の一例であり、認識部24は開示の技術における認識部の一例である。また、確認部14は開示の技術における確認部の一例であり、削除部16は開示の技術における削除部の一例である。また、動画像抽出部20は開示の技術における動画像抽出部の一例であり、特徴量抽出部22は開示の技術における特徴量抽出部の一例であり、ページ表示部26は開示の技術におけるページ表示部の一例である。   The information collection unit 12 is an example of a collection unit in the disclosed technology, and the recognition unit 24 is an example of a recognition unit in the disclosed technology. The confirmation unit 14 is an example of a confirmation unit in the disclosed technology, and the deletion unit 16 is an example of a deletion unit in the disclosed technology. The moving image extraction unit 20 is an example of a moving image extraction unit in the disclosed technology, the feature amount extraction unit 22 is an example of a feature amount extraction unit in the disclosed technology, and the page display unit 26 is a page in the disclosed technology. It is an example of a display part.

情報抽出装置10は、例えば図2に示すテレビ装置30で実現することができる。テレビ装置30はCPU32、メモリ34、不揮発性の記憶部36、ディスプレイ38、チューナー40、リモコン受信部42及びネットワーク制御部44を備えている。CPU32、メモリ34、記憶部36、ディスプレイ38、チューナー40、リモコン受信部42及びネットワーク制御部44はバス46を介して互いに接続されている。チューナー40にはアンテナ47が接続されている。また、リモコン受信部42はリモコン48から送信された信号(例えば赤外線信号)を受信する。なお、リモコン48は、URLの取得(当該URLのウェブページのアクセス)を指示するためのボタンを含む、複数のボタンが設けられている。また、ネットワーク制御部44はインターネット49に接続されている。   The information extraction device 10 can be realized by, for example, the television device 30 shown in FIG. The television apparatus 30 includes a CPU 32, a memory 34, a non-volatile storage unit 36, a display 38, a tuner 40, a remote control reception unit 42, and a network control unit 44. The CPU 32, the memory 34, the storage unit 36, the display 38, the tuner 40, the remote control reception unit 42, and the network control unit 44 are connected to each other via a bus 46. An antenna 47 is connected to the tuner 40. Further, the remote control receiving unit 42 receives a signal (for example, an infrared signal) transmitted from the remote control 48. The remote controller 48 is provided with a plurality of buttons including a button for instructing acquisition of a URL (access to a web page of the URL). The network control unit 44 is connected to the Internet 49.

また、記憶部36はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部36には、テレビ装置30を情報抽出装置10として機能させるためのURL抽出プログラム50と、URL辞書66が記憶されている。CPU32は、URL抽出プログラム50を記憶部36から読み出してメモリ34に展開し、URL抽出プログラム50が有するプロセスを順次実行する。   The storage unit 36 can be realized by an HDD (Hard Disk Drive), a flash memory, or the like. The storage unit 36 as a recording medium stores a URL extraction program 50 and a URL dictionary 66 for causing the television device 30 to function as the information extraction device 10. The CPU 32 reads the URL extraction program 50 from the storage unit 36 and expands it in the memory 34, and sequentially executes the processes of the URL extraction program 50.

URL抽出プログラム50は、情報収集プロセス52、確認プロセス54、削除プロセス56、動画像抽出プロセス58、特徴量抽出プロセス60、認識プロセス62及びページ表示プロセス64を有する。   The URL extraction program 50 includes an information collection process 52, a confirmation process 54, a deletion process 56, a moving image extraction process 58, a feature amount extraction process 60, a recognition process 62, and a page display process 64.

CPU32は、情報収集プロセス52を実行することで、図1に示す情報収集部12として動作する。またCPU32は、確認プロセス54を実行することで、図1に示す確認部14として動作する。またCPU32は、削除プロセス56を実行することで、図1に示す削除部16として動作する。またCPU32は、動画像抽出プロセス58を実行することで、図1に示す動画像抽出部20として動作する。またCPU32は、特徴量抽出プロセス60を実行することで、図1に示す特徴量抽出部22として動作する。またCPU32は、認識プロセス62を実行することで、図1に示す認識部24として動作する。またCPU32は、ページ表示プロセス64を実行することで、図1に示すページ表示部26として動作する。   The CPU 32 operates as the information collection unit 12 illustrated in FIG. 1 by executing the information collection process 52. The CPU 32 operates as the confirmation unit 14 illustrated in FIG. 1 by executing the confirmation process 54. The CPU 32 operates as the deletion unit 16 illustrated in FIG. 1 by executing the deletion process 56. The CPU 32 operates as the moving image extraction unit 20 shown in FIG. 1 by executing the moving image extraction process 58. The CPU 32 operates as the feature amount extraction unit 22 illustrated in FIG. 1 by executing the feature amount extraction process 60. The CPU 32 operates as the recognition unit 24 shown in FIG. 1 by executing the recognition process 62. The CPU 32 operates as the page display unit 26 shown in FIG. 1 by executing the page display process 64.

これにより、URL抽出プログラム50を実行したテレビ装置30が、情報抽出装置10として機能することになる。なお、URL抽出プログラム50は開示の技術における情報抽出プログラムの一例である。   As a result, the television apparatus 30 that has executed the URL extraction program 50 functions as the information extraction apparatus 10. The URL extraction program 50 is an example of an information extraction program in the disclosed technology.

なお、情報抽出装置10は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。   The information extraction apparatus 10 can be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit).

次に本第1実施形態の作用として、まず、情報抽出装置10(テレビ装置30)で定期的に実行される情報収集処理について、図3を参照して説明する。情報収集処理のステップ100において、情報収集部12は、所定のキーワードを含みURL辞書66に未登録のウェブページがインターネット49上に存在しているか否かを検索することで、該当するウェブページが存在しているか否かを判定する。ステップ100の判定が否定された場合は情報収集処理を終了する。   Next, as an operation of the first embodiment, first, an information collection process periodically executed by the information extraction apparatus 10 (television apparatus 30) will be described with reference to FIG. In step 100 of the information collection process, the information collection unit 12 searches the Internet 49 for a web page that includes a predetermined keyword and is not registered in the URL dictionary 66, so that the corresponding web page is found. Determine if it exists. If the determination in step 100 is negative, the information collection process is terminated.

一方、ステップ100で該当するウェブページが発見された場合は、ステップ100の判定が肯定されてステップ102へ移行する。ステップ102において、情報収集部12は、所定のキーワードを含みURL辞書66に未登録のウェブページの情報をインターネット49から取得する。本実施形態では、所定のキーワードとして、例えば「CF」や「CM」「キャンペーン」「懸賞」等を用いており、ステップ102で情報が取得されるウェブページは、テレビ放送に挿入されURLが表示されるCFに対応すると推定されるウェブページである。   On the other hand, if a corresponding web page is found in step 100, the determination in step 100 is affirmed and the process proceeds to step 102. In step 102, the information collecting unit 12 acquires information on a web page that includes a predetermined keyword and is not registered in the URL dictionary 66 from the Internet 49. In this embodiment, for example, “CF”, “CM”, “campaign”, “sweep prize”, etc. are used as the predetermined keywords, and the web page from which information is acquired in step 102 is inserted into the television broadcast and the URL is displayed. It is a web page presumed to correspond to the selected CF.

ステップ102で取得され、特定のCFに対応するウェブページの一例を図4(A)に示す。図4(A)に示すウェブページ70は、所定のキーワードの1つである「キャンペーン」を含む文字列72と、キャンペーンの内容を表す文字列74と、テレビ放送に挿入されたCFの動画像の再生画面76と、を含んでいる。   An example of the web page acquired in step 102 and corresponding to a specific CF is shown in FIG. A web page 70 shown in FIG. 4A includes a character string 72 including “campaign” which is one of predetermined keywords, a character string 74 representing the contents of the campaign, and a CF moving image inserted in a television broadcast. The playback screen 76 is included.

但し、特定のCFに対応するウェブページは、図4(A)に示すように、各種の文字列やCFの動画像の再生画面が単一のウェブページに収められているとは限らない。特定のCFに対応するウェブページの他の例を図4(B)に示す。図4(B)に示すウェブページ78〜82は、「キャンペーン」を含む文字列72と、キャンペーンの内容を表す文字列74と、がウェブページ80に含まれている一方、CFの動画像の再生画面76はウェブページ82に含まれている。また、ウェブページ78はウェブページ80へのリンク84を含み、ウェブページ80はウェブページ82へのリンク86を含んでおり、ウェブページ78がウェブページ80の親ウェブページ、ウェブページ82がウェブページ80の子ウェブページとなっている。   However, as shown in FIG. 4A, the web page corresponding to a specific CF does not necessarily contain a variety of character strings and CF moving image playback screens in a single web page. Another example of a web page corresponding to a specific CF is shown in FIG. The web pages 78 to 82 shown in FIG. 4B include a character string 72 including “campaign” and a character string 74 representing the content of the campaign, while the web page 80 includes a CF moving image. The playback screen 76 is included in the web page 82. Further, the web page 78 includes a link 84 to the web page 80, the web page 80 includes a link 86 to the web page 82, the web page 78 is the parent web page of the web page 80, and the web page 82 is the web page. 80 child web pages.

図4(B)の例のように、各種の情報が複数のウェブページに分散して収められている場合を考慮し、次のステップ104において、情報収集部12は、ステップ102で取得したウェブページに関連する関連ウェブページ(例えば親及び子のウェブページ)を取得する。関連ウェブページを取得することで、所定のキーワードを含むウェブページとCFの動画像を含むウェブページが相違する場合にも、所定のキーワードに基づく検索により、CFの動画像を含むウェブページも取得することが可能になる。   Considering the case where various types of information are distributed and stored in a plurality of web pages as in the example of FIG. 4B, in the next step 104, the information collection unit 12 acquires the web acquired in step 102. Get related web pages related to the page (eg parent and child web pages). By acquiring related web pages, even if web pages containing a predetermined keyword differ from web pages containing a CF moving image, a web page containing a CF moving image is also acquired by a search based on the predetermined keyword. It becomes possible to do.

次のステップ106において、情報収集部12は、ステップ102,104で取得したウェブページ群に含まれる動画像を抽出する。次のステップ108において、情報収集部12は、ステップ106で抽出した動画像から特徴量を抽出する。本実施形態では、例として図5に示すように、動画像に付加されているテロップを既存のテロップ抽出技術により抽出する。そして、動画像中のテロップ表示領域の表示期間(表示開始及び表示終了時刻)と、テロップ表示領域の範囲(座標値)及びテロップ表示領域の各画素の値を動画像の特徴量として抽出する。   In the next step 106, the information collection unit 12 extracts a moving image included in the web page group acquired in steps 102 and 104. In the next step 108, the information collection unit 12 extracts a feature amount from the moving image extracted in step 106. In this embodiment, as shown in FIG. 5 as an example, the telop added to the moving image is extracted by an existing telop extraction technique. Then, the display period (display start time and display end time) of the telop display area in the moving image, the range (coordinate value) of the telop display area, and the value of each pixel in the telop display area are extracted as the feature amount of the moving image.

次のステップ110において、情報収集部12は、ステップ102,104で取得したウェブページ群のURL、ステップ108で抽出した動画像の特徴量及び現在の日時をURL辞書66に対応付けて登録する。これにより、例として次の表1に示すような情報がURL辞書66に登録される。   In the next step 110, the information collection unit 12 registers the URL of the web page group acquired in steps 102 and 104, the feature amount of the moving image extracted in step 108 and the current date and time in association with the URL dictionary 66. As a result, information as shown in Table 1 below is registered in the URL dictionary 66 as an example.

なお、表1に示す動画像の特徴量のうち、最初の情報(例えば5sec等)は、動画像の先頭からテロップ表示領域の表示が開始されるまでの時間(テロップ表示開始時刻)を表している。また、表1に示す動画像の特徴量のうち、2番目の情報(例えば(300,450)-(400,480)等)は、動画像中のテロップ表示領域の範囲(左上隅の点及び右下隅の点の座標値)を表している。また、表1に示す動画像の特徴量のうち、3番目の情報(例えば(20,4,50,…,49)等)は、テロップ表示領域内の各画素の画素値を表している。   Of the moving image feature quantities shown in Table 1, the first information (for example, 5 sec) represents the time (telop display start time) from the beginning of the moving image until the display of the telop display area is started. Yes. The second information (for example, (300,450)-(400,480) etc.) of the moving image feature amounts shown in Table 1 is the range of the telop display area in the moving image (the upper left corner point and the lower right corner point). Coordinate value). In addition, the third information (for example, (20, 4, 50,..., 49), etc.) of the moving image feature amounts shown in Table 1 represents the pixel value of each pixel in the telop display area.

また、表1ではURL文字列と動画像の特徴量を1対1で対応付けてURL辞書66に登録しているが、これに限定されるものではない。例えば前出の図4(B)の例のように、各種の情報が複数のウェブページに分散して収められている場合、動画像の特徴量を、所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページを含む複数のURL文字列と各々対応付けてもよい。また、所定のキーワードを含むウェブページ及び関連ウェブページを含むウェブページ群に動画像が複数存在する場合、複数の動画像の特徴量を複数のURL文字列と各々対応付けてもよい。   In Table 1, the URL character string and the feature amount of the moving image are registered in the URL dictionary 66 in a one-to-one correspondence. However, the present invention is not limited to this. For example, as shown in the example of FIG. 4B, when various types of information are distributed and stored in a plurality of web pages, the feature amount of the moving image is set to a web page including a predetermined keyword and the web. A plurality of URL character strings including related web pages related to the page may be associated with each other. In addition, when there are a plurality of moving images in a web page group including a web page including a predetermined keyword and a related web page, the feature amounts of the plurality of moving images may be associated with a plurality of URL character strings, respectively.

続いて、情報抽出装置10(テレビ装置30)で情報収集処理(図3)と同じく定期的に実行される辞書更新処理について、図6を参照して説明する。辞書更新処理のステップ120において、確認部14は、登録日付が現在の日付よりも一定期間以上古い情報がURL辞書66に登録されているか否か判定する。ステップ120の判定が否定された場合は辞書更新処理を終了する。   Subsequently, a dictionary update process periodically executed by the information extraction apparatus 10 (television apparatus 30) in the same manner as the information collection process (FIG. 3) will be described with reference to FIG. In step 120 of the dictionary update process, the confirmation unit 14 determines whether information whose registration date is older than the current date by a certain period or more is registered in the URL dictionary 66. If the determination in step 120 is negative, the dictionary update process ends.

一方、ステップ120の判定が肯定された場合はステップ122へ移行する。ステップ122において、確認部14は、チューナー40によってテレビ放送を一定期間(例えば数時間〜数日)受信させ、受信させたテレビ放送の動画像を記憶部36に記憶させる。次のステップ124において、確認部14は、チューナー40によって受信されて記憶部36に記憶されたテレビ放送の動画像から、既存のCF抽出技術によりCFに相当する区間(CF区間)を各々抽出する。   On the other hand, if the determination at step 120 is affirmative, the routine proceeds to step 122. In step 122, the confirmation unit 14 causes the tuner 40 to receive a television broadcast for a certain period (for example, several hours to several days), and stores the received video image of the television broadcast in the storage unit 36. In the next step 124, the confirmation unit 14 extracts sections (CF sections) corresponding to the CF from the television broadcast moving images received by the tuner 40 and stored in the storage unit 36 using the existing CF extraction technique. .

ステップ126において、確認部14は、ステップ124で抽出した個々のCF区間から特徴量を各々抽出する。ステップ126で抽出する特徴量としては、前述の情報収集処理(図3)で動画像から抽出した特徴量と同様の特徴量、すなわちテロップ表示開始時刻やテロップ表示領域の範囲、テロップ表示領域内の各画素の画素値等を適用することができる。   In step 126, the confirmation unit 14 extracts feature amounts from the individual CF sections extracted in step 124. As the feature quantity extracted in step 126, the same feature quantity as the feature quantity extracted from the moving image in the above-described information collection process (FIG. 3), that is, the telop display start time, the telop display area range, and the telop display area The pixel value of each pixel can be applied.

次のステップ128において、確認部14は、URL辞書66に登録されている一定期間以上古い情報を1つ取り出す。またステップ130において、確認部14は、ステップ128で取り出した情報に含まれる特徴量を、個々のCF区間から抽出した特徴量と各々照合する。なお、特徴量の照合は、例えばテロップ表示開始時刻やテロップ表示領域の範囲、テロップ表示領域内の各画素の画素値等について、類似度を評価する評価値を各々演算し、演算した評価値から総合評価値(例えば重み付き加算値)を算出することで行うことができる。次のステップ132において、確認部14は、先のステップ124で抽出した個々のCF区間の中に、ステップ128で取り出した情報に含まれる特徴量と、特徴量が合致する(例えば前述の総合評価値が閾値以上になった)CF区間が存在しているか否か判定する。   In the next step 128, the confirmation unit 14 extracts one piece of information that is older than a certain period registered in the URL dictionary 66. In step 130, the confirmation unit 14 collates the feature amount included in the information extracted in step 128 with the feature amount extracted from each CF section. Note that the feature amount is collated by, for example, calculating an evaluation value for evaluating the degree of similarity for each of the telop display start time, the telop display area range, the pixel value of each pixel in the telop display area, and the like. This can be done by calculating a comprehensive evaluation value (for example, a weighted addition value). In the next step 132, the confirmation unit 14 matches the feature amount included in the information extracted in step 128 within the individual CF sections extracted in the previous step 124 (for example, the above-described comprehensive evaluation). It is determined whether or not there is a CF section whose value is equal to or greater than the threshold.

ステップ132の判定が肯定された場合、ステップ128で取り出した情報に対応するCFは、テレビ放送に挿入されて放送されている状態が継続していると判断できる。このため、ステップ132の判定が肯定された場合はステップ134へ移行し、ステップ134において、確認部14は、ステップ128で取り出した情報に含まれる日付を現在の日付へ更新し、URL辞書66に書き戻す。   If the determination in step 132 is affirmed, it can be determined that the CF corresponding to the information extracted in step 128 continues to be inserted into the television broadcast and being broadcast. Therefore, if the determination in step 132 is affirmed, the process proceeds to step 134. In step 134, the confirmation unit 14 updates the date included in the information extracted in step 128 to the current date, and stores it in the URL dictionary 66. Write back.

また、ステップ132の判定が否定された場合は、ステップ128で取り出した情報に対応するCFは、放送が終了した可能性が高いと判断できる。このため、ステップ132の判定が否定された場合はステップ136へ移行し、ステップ136において、削除部16は、ステップ128で取り出した情報をURL辞書66から削除する。これにより、放送が終了したCFの情報がURL辞書66に残存していることで、URL辞書66が無駄に肥大化することを抑制することができる。   If the determination in step 132 is negative, it can be determined that the CF corresponding to the information extracted in step 128 is highly likely to have been broadcast. Therefore, if the determination in step 132 is negative, the process proceeds to step 136, and in step 136, the deletion unit 16 deletes the information extracted in step 128 from the URL dictionary 66. As a result, it is possible to prevent the URL dictionary 66 from being unnecessarily enlarged because the information on the CF for which broadcasting has ended remains in the URL dictionary 66.

ステップ134又はステップ136の処理を行うとステップ138へ移行し、ステップ138において、確認部14は、URL辞書66に登録されている一定期間以上古い情報をURL辞書66から全て取り出したか否か判定する。ステップ138の判定が否定された場合はステップ128に戻り、ステップ138の判定が肯定される迄、ステップ128〜ステップ138を繰り返す。   If the process of step 134 or step 136 is performed, the process proceeds to step 138. In step 138, the confirmation unit 14 determines whether all information older than a certain period registered in the URL dictionary 66 has been extracted from the URL dictionary 66. . If the determination in step 138 is negative, the process returns to step 128, and steps 128 to 138 are repeated until the determination in step 138 is positive.

これにより、URL辞書66に登録されている一定期間以上古い情報について、対応するCFが放送継続中か否かが各々確認され、確認結果に応じて日付の更新又はURL辞書66からの削除が各々行われる。そして、ステップ138の判定が肯定されると辞書更新処理を終了する。   As a result, it is confirmed whether or not the corresponding CF is being broadcasted for information older than a certain period registered in the URL dictionary 66, and the date is updated or deleted from the URL dictionary 66 according to the confirmation result. Done. If the determination in step 138 is affirmed, the dictionary update process is terminated.

次に、情報抽出装置10(テレビ装置30)でテレビ放送の受信が開始されると情報抽出装置10(テレビ装置30)で実行されるURL認識処理について、図7を参照して説明する。URL認識処理のステップ140において、動画像抽出部20は、テレビ放送の受信停止が指示されたか否か判定する。ステップ140の判定が肯定された場合はURL認識処理を終了する。   Next, URL recognition processing executed by the information extraction device 10 (television device 30) when reception of television broadcast is started by the information extraction device 10 (television device 30) will be described with reference to FIG. In step 140 of the URL recognition process, the moving image extraction unit 20 determines whether or not an instruction to stop receiving television broadcasts has been issued. If the determination in step 140 is affirmative, the URL recognition process is terminated.

一方、ステップ140の判定が否定された場合はステップ142へ移行し、ステップ142において、動画像抽出部20は、テレビ放送を受信する。またステップ144において、動画像抽出部20は、受信したテレビ放送の動画像を記憶部18に一定時間分(例えば数十秒間〜数分間程度)保持させる。次のステップ146において、動画像抽出部20は、リモコン受信部42で所定の信号が受信されたか否かに基づき、リモコン48のうちURLの取得(当該URLのウェブページのアクセス)を指示するためのボタンが押下されたか否か判定する。ステップ146の判定が否定された場合はステップ140に戻り、ステップ140の判定が否定され、かつステップ146の判定が否定されている間、ステップ140〜ステップ146を繰り返す。従って、記憶部18は、テレビ放送の一定時間分の最新の動画像を常に保持している状態で維持される。   On the other hand, if the determination in step 140 is negative, the process proceeds to step 142, and in step 142, the moving image extraction unit 20 receives a television broadcast. In step 144, the moving image extraction unit 20 holds the received moving image of the television broadcast in the storage unit 18 for a predetermined time (for example, about several tens of seconds to several minutes). In the next step 146, the moving image extraction unit 20 instructs to acquire a URL (access to the web page of the URL) from the remote control 48 based on whether or not a predetermined signal is received by the remote control reception unit 42. It is determined whether the button is pressed. If the determination in step 146 is negative, the process returns to step 140, and step 140 to step 146 are repeated while the determination in step 140 is negative and the determination in step 146 is negative. Therefore, the storage unit 18 is maintained in a state in which the latest moving image for a certain time of the television broadcast is always held.

ところで、テレビ装置30によりテレビ放送を視聴している利用者は、テレビ放送中のCFにより当該CFの広告対象に興味を持ち、前記CFにウェブページのURL等が表示されていた場合、リモコン48のうちURLの取得を指示するためのボタンを押下する。なお、上記操作はCFの広告対象に興味を持った場合に限らず、広告対象に関して実施されているキャンペーンに応募する等の場合にも上記操作が行われることがある。本実施形態では、利用者によって上記操作が行われると、リモコン48からの所定の信号がリモコン受信部42で受信されることで、ステップ146の判定が肯定されてステップ148へ移行する。   By the way, when a user who is watching a television broadcast by the television apparatus 30 is interested in the advertisement target of the CF by the CF being broadcast, and the web page URL or the like is displayed on the CF, the remote controller 48 is used. The button for instructing acquisition of the URL is pressed. Note that the above operation is not limited to the case where the user is interested in the advertisement target of the CF, and the above operation may be performed when applying for a campaign that is being executed with respect to the advertisement object. In the present embodiment, when the above operation is performed by the user, a predetermined signal from the remote control 48 is received by the remote control reception unit 42, so that the determination in step 146 is affirmed and the process proceeds to step 148.

ステップ148において、動画像抽出部20は、記憶部18に保持されているテレビ放送の一定時間分の最新の動画像から、既存のCF抽出技術によりCF区間を抽出する。次のステップ150において、特徴量抽出部22は、抽出したCF区間から特徴量を抽出する。なお、ステップ150で抽出する特徴量としても、前述の情報収集処理(図3)で動画像から抽出した特徴量と同様の特徴量、すなわちテロップ表示開始時刻やテロップ表示領域の範囲、テロップ表示領域内の各画素の画素値等を適用することができる。   In step 148, the moving image extraction unit 20 extracts a CF section from the latest moving image for a certain time of the television broadcast held in the storage unit 18 using an existing CF extraction technique. In the next step 150, the feature amount extraction unit 22 extracts a feature amount from the extracted CF section. Note that the feature quantity extracted in step 150 is the same as the feature quantity extracted from the moving image in the information collection process (FIG. 3), that is, the telop display start time, the telop display area range, and the telop display area. The pixel value of each of the pixels can be applied.

またステップ152において、認識部24は、CF区間から抽出した特徴量を、URL辞書66に登録されている各情報の特徴量と各々照合する。なお、ステップ152における特徴量の照合についても、例えばテロップ表示開始時刻やテロップ表示領域の範囲、テロップ表示領域内の各画素の画素値等について類似度を評価する評価値を各々演算し、演算した評価値から総合評価値を算出することで実現できる。ステップ154において、認識部24は、URL辞書66に登録されている情報の中から、特徴量がCF区間から抽出した特徴量と最も類似している(例えば総合評価値が最大の)情報を選択する。なお、最も類似している情報を選択することに代えて、例えば類似度の総合評価値が所定値以上の情報、或いは類似度の総合評価値の降順に所定個の情報を選択肢として一覧表示し、選択肢の中から利用者に選択させるようにしてもよい。   In step 152, the recognition unit 24 collates the feature amount extracted from the CF section with the feature amount of each information registered in the URL dictionary 66. Note that the feature value collation in step 152 is also performed by calculating the evaluation value for evaluating the degree of similarity for each of the telop display start time, the telop display area range, the pixel value of each pixel in the telop display area, and the like. This can be realized by calculating a comprehensive evaluation value from the evaluation value. In step 154, the recognizing unit 24 selects, from the information registered in the URL dictionary 66, information whose feature amount is most similar to the feature amount extracted from the CF section (for example, the total evaluation value is the maximum). To do. Instead of selecting the most similar information, for example, information with a comprehensive evaluation value of similarity equal to or greater than a predetermined value, or a predetermined number of information in descending order of the comprehensive evaluation value of similarity is displayed as a list. The user may be allowed to select from the options.

ステップ156において、ページ表示部26は、ステップ154で選択した情報に含まれるURL文字列をURL辞書66から取得し、取得したURL文字列をURLとするウェブページにインターネット49経由でアクセスする。なお、動画像の特徴量が複数のURL文字列と各々対応付けてURL辞書66に登録されている場合は、複数のURL文字列のうちの何れか1つを取得することができる。取得するURL文字列は、所定のキーワードを含むウェブページのURLでもよいし、所定のキーワードを含むウェブページの親のウェブページのURLでもよいし、所定のキーワードを含むウェブページの子のウェブページでもよい。また、各ウェブページのURLを一覧表示させ、アクセス対象のウェブページのURLを利用者に選択させるようにしてもよいし、各ウェブページに各々アクセスしてディスプレイ38に各ウェブページを各々表示させるようにしてもよい。   In step 156, the page display unit 26 acquires the URL character string included in the information selected in step 154 from the URL dictionary 66, and accesses the web page using the acquired URL character string as a URL via the Internet 49. When the feature amount of the moving image is registered in the URL dictionary 66 in association with each of a plurality of URL character strings, any one of the plurality of URL character strings can be acquired. The URL character string to be acquired may be the URL of a web page that includes a predetermined keyword, the URL of a web page that is the parent of a web page that includes the predetermined keyword, or a child web page of a web page that includes the predetermined keyword. But you can. Alternatively, the URL of each web page may be displayed in a list so that the user can select the URL of the web page to be accessed, or each web page is accessed and each web page is displayed on the display 38. You may do it.

次のステップ158において、ページ表示部26は、ステップ156でインターネット49経由でアクセスしたウェブページをディスプレイ38に表示する。なお、ディスプレイ38へのウェブページの表示に際し、ページ表示部26は、例えばディスプレイ38の表示面上のテレビ放送表示領域を小領域化し、テレビ放送表示領域の小領域化に伴って生じた余白領域にウェブページを表示する処理を行うことができる。これにより、リモコン48のうちURLの取得を指示するためのボタンを押下する操作を行った利用者は、興味を持った広告対象について更なる情報を取得したり、広告対象に関して実施されているキャンペーンに応募することが可能となる。   In the next step 158, the page display unit 26 displays the web page accessed through the Internet 49 in step 156 on the display 38. When displaying the web page on the display 38, the page display unit 26, for example, subdivides a television broadcast display area on the display surface of the display 38, and a blank area generated as the TV broadcast display area is reduced. The web page can be displayed on the screen. Accordingly, a user who has performed an operation of pressing a button for instructing acquisition of a URL on the remote controller 48 acquires more information about the advertising target that is interested, or a campaign that is being performed on the advertising target. It becomes possible to apply for.

ステップ158の処理を行うとステップ140に戻り、ステップ140の判定が否定され、かつステップ146の判定が否定されている間、ステップ140〜ステップ146を繰り返す。そして、利用者により、リモコン48のうちURLの取得を指示するためのボタンを押下する操作が再度行われた場合には、ステップ148〜ステップ158の処理が再度行われる。   If the process of step 158 is performed, it will return to step 140, and step 140-146 will be repeated while determination of step 140 is denied and determination of step 146 is denied. Then, when the user performs the operation of pressing the button for instructing the URL acquisition of the remote controller 48 again, the processing from step 148 to step 158 is performed again.

このように、本第1実施形態では、所定のキーワードを含むウェブページが存在しているかをインターネット49上で探索し、URLをURL辞書66に登録しているので、URLに誤りが含まれている可能性を排除することができる。また、本第1実施形態では、所定のキーワードを含むウェブページに加え、所定のキーワードを含むウェブページの親及び子のウェブページの情報も収集してURL辞書66に登録している。このため、テレビ放送のCFに表示されるURLがURL辞書66に登録されている確率が向上し、利用者がリモコン48を操作してURLの取得(ウェブページのアクセス)を指示したURLが正しく取得され、適正なウェブページが表示される確率が向上する。   As described above, in the first embodiment, whether or not a web page including a predetermined keyword exists is searched on the Internet 49, and the URL is registered in the URL dictionary 66. Therefore, the URL contains an error. Can eliminate the possibility of being. In the first embodiment, in addition to the web page including the predetermined keyword, information on the parent and child web pages of the web page including the predetermined keyword is also collected and registered in the URL dictionary 66. For this reason, the probability that the URL displayed on the CF of the television broadcast is registered in the URL dictionary 66 is improved, and the URL in which the user operates the remote controller 48 to acquire the URL (access the web page) is correct. The probability of being acquired and displaying an appropriate web page is improved.

〔第2実施形態〕
次に開示の技術の第2実施形態について説明する。なお、第1実施形態と同一の部分には同一の符号を付し、説明を省略する。図8には本第2実施形態に係る情報抽出システム170が示されている。情報抽出システム170は、インターネット49を介して接続されたテレビ装置172とサーバ174を含んでいる。
[Second Embodiment]
Next, a second embodiment of the disclosed technique will be described. In addition, the same code | symbol is attached | subjected to the part same as 1st Embodiment, and description is abbreviate | omitted. FIG. 8 shows an information extraction system 170 according to the second embodiment. The information extraction system 170 includes a television device 172 and a server 174 connected via the Internet 49.

本第2実施形態に係るテレビ装置172は、記憶部36にURL抽出プログラム50Aが記憶されており、記憶部36にURL辞書66が記憶されていないこと以外は、第1実施形態で説明したテレビ装置30と同一の構成である。また、本第2実施形態に係るURL抽出プログラム50Aは、情報抽出プロセス52、確認プロセス54、削除プロセス56及び認識プロセス62を有していない点以外は、第1実施形態で説明したURL抽出プログラム50と同一の構成である。   The television apparatus 172 according to the second embodiment is the television described in the first embodiment except that the URL extraction program 50A is stored in the storage unit 36 and the URL dictionary 66 is not stored in the storage unit 36. The configuration is the same as that of the device 30. The URL extraction program 50A according to the second embodiment is the URL extraction program described in the first embodiment except that the information extraction process 52, the confirmation process 54, the deletion process 56, and the recognition process 62 are not included. 50.

サーバ174はCPU176、メモリ178、不揮発性の記憶部188、チューナー180及びネットワーク制御部184を備えている。CPU176、メモリ178、記憶部188、チューナー180及びネットワーク制御部184はバス186を介して互いに接続されている。チューナー180にはアンテナ182が接続されている。また、ネットワーク制御部184はインターネット49に接続されている。   The server 174 includes a CPU 176, a memory 178, a nonvolatile storage unit 188, a tuner 180, and a network control unit 184. The CPU 176, the memory 178, the storage unit 188, the tuner 180, and the network control unit 184 are connected to each other via a bus 186. An antenna 182 is connected to the tuner 180. The network control unit 184 is connected to the Internet 49.

また、記憶部188はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部188には辞書操作プログラム190とURL辞書66が記憶されている。CPU176は、辞書操作プログラム190を記憶部188から読み出してメモリ178に展開し、辞書操作プログラム190が有するプロセスを順次実行する。辞書操作プログラム190は、情報収集プロセス52、確認プロセス54、削除プロセス56及び認識プロセス62を有する。   The storage unit 188 can be realized by an HDD (Hard Disk Drive), a flash memory, or the like. A storage unit 188 as a recording medium stores a dictionary operation program 190 and a URL dictionary 66. The CPU 176 reads the dictionary operation program 190 from the storage unit 188, expands it in the memory 178, and sequentially executes the processes included in the dictionary operation program 190. The dictionary operation program 190 includes an information collection process 52, a confirmation process 54, a deletion process 56, and a recognition process 62.

CPU176は、情報収集プロセス52を実行することで、図1に示す情報収集部12として動作する。またCPU176は、確認プロセス54を実行することで、図1に示す確認部14として動作する。またCPU176は、削除プロセス56を実行することで、図1に示す削除部16として動作する。またCPU176は、認識プロセス62を実行することで、図1に示す認識部24として動作する。これにより、辞書操作プログラム190を実行したサーバ174が、テレビ装置172と共に、図1に示す情報抽出装置10として機能することになる。なお、辞書操作プログラム190は開示の技術における情報抽出プログラムの一例である。   The CPU 176 operates as the information collection unit 12 illustrated in FIG. 1 by executing the information collection process 52. The CPU 176 operates as the confirmation unit 14 illustrated in FIG. 1 by executing the confirmation process 54. The CPU 176 operates as the deletion unit 16 illustrated in FIG. 1 by executing the deletion process 56. The CPU 176 operates as the recognition unit 24 illustrated in FIG. 1 by executing the recognition process 62. As a result, the server 174 that has executed the dictionary operation program 190 functions as the information extraction device 10 shown in FIG. 1 together with the television device 172. The dictionary operation program 190 is an example of an information extraction program in the disclosed technology.

次に本第2実施形態の作用を説明する。本第2実施形態において、サーバ174は、図1に示す情報収集部12、確認部14及び削除部16として各々動作する。従って、図3に示す情報収集処理及び図6に示す辞書更新処理がサーバ174によって行われ、これらの処理によってサーバ174の記憶部188にURL辞書66が記憶されると共に、当該URL辞書66は適宜更新される。   Next, the operation of the second embodiment will be described. In the second embodiment, the server 174 operates as the information collection unit 12, the confirmation unit 14, and the deletion unit 16 illustrated in FIG. Accordingly, the information collection process shown in FIG. 3 and the dictionary update process shown in FIG. 6 are performed by the server 174, and the URL dictionary 66 is stored in the storage unit 188 of the server 174 by these processes. Updated.

続いて図9を参照し、本第2実施形態におけるURL認識処理の流れを説明する。図9に示すシーケンスは、テレビ装置172によりテレビ放送を視聴している利用者が、リモコン48のうちURLの取得を指示するためのボタンを押下する操作を行う(図9に示す「リモコン操作」)ことで開始される。   Next, the flow of URL recognition processing in the second embodiment will be described with reference to FIG. In the sequence shown in FIG. 9, a user who is watching a television broadcast by the television device 172 performs an operation of pressing a button for instructing acquisition of a URL on the remote controller 48 (“remote control operation” shown in FIG. 9). ).

テレビ装置172の動画像抽出部20は、利用者によって上記操作が行われると、第1実施形態と同様に、記憶部18に保持されているテレビ放送の一定時間分の最新の動画像から、既存のCF抽出技術によりCF区間を抽出する(図9のステップ200)。次に、テレビ装置172の特徴量抽出部22は、動画像抽出部20によって抽出されたCF区間から特徴量を抽出する(図9のステップ202)。また、テレビ装置172の特徴量抽出部22は、CF区間から抽出した特徴量をサーバ174へ通知する(図9のステップ204)。   When the above operation is performed by the user, the moving image extraction unit 20 of the television device 172, from the latest moving image for a certain time of the television broadcast held in the storage unit 18, as in the first embodiment, A CF section is extracted by an existing CF extraction technique (step 200 in FIG. 9). Next, the feature amount extraction unit 22 of the television apparatus 172 extracts feature amounts from the CF sections extracted by the moving image extraction unit 20 (step 202 in FIG. 9). Further, the feature amount extraction unit 22 of the television device 172 notifies the server 174 of the feature amount extracted from the CF section (step 204 in FIG. 9).

CF区間から抽出した特徴量がテレビ装置172より通知されたサーバ174の認識部24は、CF区間から抽出した特徴量を、URL辞書66に登録されている各情報の特徴量と各々照合する(図9のステップ206)。次に、サーバ174の認識部24は、URL辞書66に登録されている情報の中から、特徴量がCF区間から抽出した特徴量と最も類似している(例えば総合評価値が最大の)情報を選択する(図9のステップ208)。   The recognizing unit 24 of the server 174 notified of the feature amount extracted from the CF section by the television device 172 collates the feature amount extracted from the CF section with the feature amount of each information registered in the URL dictionary 66 ( Step 206 in FIG. Next, the recognition unit 24 of the server 174 has information whose feature quantity is most similar to the feature quantity extracted from the CF section from information registered in the URL dictionary 66 (for example, the comprehensive evaluation value is the largest). Is selected (step 208 in FIG. 9).

また、サーバ174の認識部24は、ステップ208で選択した情報に含まれるURL文字列をURL辞書66から取得し、取得したURL文字列をURLとするウェブページにインターネット49経由でアクセスする(図9のステップ210)。そしてサーバ174の認識部24は、ウェブページにアクセスすることで取得した前記ウェブページの情報をテレビ装置172へ送信する(図9のステップ212)。   In addition, the recognition unit 24 of the server 174 acquires the URL character string included in the information selected in step 208 from the URL dictionary 66, and accesses the web page using the acquired URL character string as a URL via the Internet 49 (FIG. 9 step 210). Then, the recognition unit 24 of the server 174 transmits the information on the web page acquired by accessing the web page to the television device 172 (step 212 in FIG. 9).

ウェブページの情報をサーバ174から受信したテレビ装置172のページ表示部26は、受信した情報が表すウェブページをディスプレイ38に表示する(図9のステップ214)。これにより、リモコン48のうちURLの取得を指示するためのボタンを押下する操作を行った利用者は、興味を持った広告対象について更なる情報を取得したり、広告対象に関して実施されているキャンペーンに応募することが可能となる。   The page display unit 26 of the television device 172 that has received the web page information from the server 174 displays the web page represented by the received information on the display 38 (step 214 in FIG. 9). Accordingly, a user who has performed an operation of pressing a button for instructing acquisition of a URL on the remote controller 48 acquires more information about the advertising target that is interested, or a campaign that is being performed on the advertising target. It becomes possible to apply for.

このように、本第2実施形態では、図1に示す情報抽出装置10としての機能が、テレビ装置172とサーバ174とが協働することで実現される。これにより、テレビ装置172で情報収集処理及び辞書更新処理を行う必要が無くなると共に、URL辞書66を記憶したりURL辞書66に対して検索処理を行う必要もなくなるので、テレビ装置172を安価に構成することが可能になる。   As described above, in the second embodiment, the function as the information extraction device 10 illustrated in FIG. 1 is realized by the cooperation of the television device 172 and the server 174. This eliminates the need for the TV device 172 to perform information collection processing and dictionary update processing, and eliminates the need to store the URL dictionary 66 or perform search processing on the URL dictionary 66, so that the TV device 172 can be configured at low cost. It becomes possible to do.

なお、第2実施形態では、URL辞書66がサーバ174の記憶部188に記憶され、サーバ174が認識部24としても機能する態様を説明したが、これに限定されるものではない。例えばサーバ174ではURL辞書66の生成及び更新を行い、最新のURL辞書66がサーバ174からテレビ装置172へ転送され、テレビ装置172の記憶部36にも記憶されるようにしてもよい。この場合はテレビ装置172が認識部24としても機能することになる。   In the second embodiment, the URL dictionary 66 is stored in the storage unit 188 of the server 174 and the server 174 also functions as the recognition unit 24. However, the present invention is not limited to this. For example, the server 174 may generate and update the URL dictionary 66, and the latest URL dictionary 66 may be transferred from the server 174 to the television device 172 and stored in the storage unit 36 of the television device 172. In this case, the television device 172 also functions as the recognition unit 24.

また、上記ではCFの動画像の特徴量をURL辞書66に登録された動画像の特徴量と照合することで、URL辞書66に登録された情報のうちCFに対応する情報を選択する態様を説明したが、これに限定されるものではない。例えば、動画像の特徴量に加えて、動画像のテロップ表示期間における動画像中のテロップ表示領域に対して文字認識を行った結果を併用して、URL辞書66に登録された情報のうちCFに対応する情報を選択するようにしてもよい。   Further, in the above description, a mode in which the information corresponding to the CF among the information registered in the URL dictionary 66 is selected by comparing the feature amount of the CF moving image with the feature amount of the moving image registered in the URL dictionary 66. Although described, the present invention is not limited to this. For example, in addition to the feature amount of the moving image, CF among the information registered in the URL dictionary 66 is used in combination with the result of character recognition performed on the telop display area in the moving image during the telop display period of the moving image. You may make it select the information corresponding to.

また、上記では、開示の技術に係る情報抽出装置としての機能の一部又は全てをテレビ装置30,172に組み込んだ態様を説明したが、これに限定されるものではなく、情報抽出装置として機能する装置をテレビ装置30,172と別に設けてもよい。   Further, in the above description, a mode in which a part or all of the functions as the information extraction apparatus according to the disclosed technology is incorporated in the television apparatuses 30 and 172 has been described. However, the present invention is not limited thereto, and functions as an information extraction apparatus. A device to be operated may be provided separately from the television devices 30 and 172.

更に、上記ではテレビ放送に挿入されたCFの動画像に表示されたURLを認識する態様を説明したが、開示の技術は、CF以外の動画像に表示されたURLを認識する場合にも適用可能である。また、上記では開示の技術におけるウェブページのアドレスとしてURLを説明したが、これに限定されるものではなく、例えば短縮URLやその他のURI(Uniform Resource Identifier)等であってもよい。   Furthermore, although the aspect which recognizes URL displayed on the moving image of CF inserted in the television broadcast was demonstrated above, the technique of an indication is applied also when recognizing URL displayed on moving images other than CF. Is possible. In the above description, a URL is described as an address of a web page in the disclosed technique, but the present invention is not limited to this, and may be a shortened URL, another URI (Uniform Resource Identifier), or the like.

また、第1実施形態では開示の技術に係る情報抽出プログラムの一例であるURL抽出プログラム50がテレビ装置30の記憶部36に予め記憶されている態様を説明した。また、第2実施形態では開示の技術に係る情報抽出プログラムの一例である辞書操作プログラム190がサーバ174の記憶部188に予め記憶されている態様を説明した。しかし、これに限定されるものではなく、開示の技術に係る情報抽出プログラムは、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。   In the first embodiment, the URL extraction program 50, which is an example of the information extraction program according to the disclosed technique, is described in advance in the storage unit 36 of the television device 30. Further, in the second embodiment, the aspect in which the dictionary operation program 190 that is an example of the information extraction program according to the disclosed technique is stored in the storage unit 188 of the server 174 in advance has been described. However, the present invention is not limited to this, and the information extraction program according to the disclosed technology can be provided in a form recorded on a recording medium such as a CD-ROM or a DVD-ROM.

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。   All documents, patent applications and technical standards mentioned in this specification are to the same extent as if each individual document, patent application and technical standard were specifically and individually stated to be incorporated by reference. Incorporated by reference in the book.

以上の実施形態に関し、更に以下の付記を開示する。   Regarding the above embodiment, the following additional notes are disclosed.

(付記1)
所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させる収集部と、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する認識部と、
を含む情報抽出装置。
(Appendix 1)
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page A collecting unit that collects image feature values of an image and stores at least an address of the collected web page group and an image feature value in a storage unit in association with each other;
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. A recognition unit that recognizes as an address to be recognized;
An information extraction device.

(付記2)
前記収集部は、前記関連ウェブページとして、前記所定のキーワードを含むウェブページへのリンクを含む親ウェブページ、及び、前記所定のキーワードを含むウェブページに含まれるリンクのリンク先である子ウェブページの少なくとも一方について、アドレス及び画像特徴量を収集する付記1記載の情報抽出装置。
(Appendix 2)
The collection unit includes a parent web page including a link to a web page including the predetermined keyword as the related web page, and a child web page that is a link destination of a link included in the web page including the predetermined keyword. The information extraction apparatus according to appendix 1, wherein the address and the image feature amount are collected for at least one of the above.

(付記3)
放送された動画像のうち、表示されたアドレスを認識対象とする、指定された動画像を抽出する動画像抽出部と、
前記動画像抽出部によって抽出された動画像から前記画像特徴量を抽出する特徴量抽出部と、
前記認識部によって認識されたアドレスのウェブページにアクセスし、アクセスしたウェブページを表示部に表示させるページ表示部と、
を更に備えた付記1又は付記2記載の情報抽出装置。
(Appendix 3)
A moving image extraction unit for extracting a designated moving image, which is a recognition target of a displayed address among the broadcasted moving images;
A feature amount extraction unit that extracts the image feature amount from the moving image extracted by the moving image extraction unit;
A page display unit for accessing the web page at the address recognized by the recognition unit and displaying the accessed web page on the display unit;
The information extraction device according to supplementary note 1 or supplementary note 2, further comprising:

(付記4)
放送された動画像はテレビ放送の動画像であり、
表示されたアドレスを認識対象とする動画像は、前記テレビ放送に含まれるCFの動画像である付記1〜付記3の何れか1項記載の情報抽出装置。
(Appendix 4)
Broadcast video is a TV broadcast video,
The information extraction device according to any one of Supplementary Note 1 to Supplementary Note 3, wherein the moving image having the displayed address as a recognition target is a CF moving image included in the television broadcast.

(付記5)
前記記憶部に対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認する確認部と、
前記確認部によってテレビ放送で放送されていないことが確認されたCFの動画像に対応するアドレス及び画像特徴量を前記記憶部から削除する削除部と、
を更に含む付記4記載の情報抽出装置。
(Appendix 5)
A confirmation unit for confirming whether or not the CF moving image corresponding to the address and the image feature amount stored in association with the storage unit is broadcast on a television broadcast;
A deletion unit that deletes from the storage unit an address and an image feature amount corresponding to a moving image of a CF that has been confirmed not to be broadcast by television broadcast by the confirmation unit;
The information extracting device according to appendix 4, further comprising:

(付記6)
前記収集部は、収集したウェブページ群の少なくともアドレス及び画像特徴量と対応付けて前記記憶部に日時を記憶させ、
前記確認部は、前記記憶部に対応付けて記憶されているアドレス及び画像特徴量のうち、所定期間以上古い日時と対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、前記CFの動画像がテレビ放送で放送されていることを確認した場合は、前記CFの動画像に対応するアドレス及び画像特徴量と対応付けて前記記憶部に記憶されている日時を現在の日時へ更新する(図6:134)付記5記載の情報抽出装置。
(Appendix 6)
The collection unit stores the date and time in the storage unit in association with at least an address and an image feature amount of the collected web page group,
The confirmation unit includes a CF moving image corresponding to an address and an image feature amount stored in association with a date and time older than a predetermined period among addresses and image feature amounts stored in association with the storage unit. When it is confirmed whether or not the moving picture of the CF is being broadcast by television broadcasting, it is associated with an address and an image feature amount corresponding to the moving picture of the CF. The information extraction apparatus according to appendix 5, wherein the date and time stored in the storage unit is updated to the current date and time (FIG. 6: 134).

(付記7)
所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させ、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する
ことを含む情報抽出方法。
(Appendix 7)
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page Collect image feature values of the image, store at least the address of the collected web page group and the image feature values in the storage unit,
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. An information extraction method including recognizing as an address to be recognized.

(付記8)
前記関連ウェブページとして、前記所定のキーワードを含むウェブページへのリンクを含む親ウェブページ、及び、前記所定のキーワードを含むウェブページに含まれるリンクのリンク先である子ウェブページの少なくとも一方について、アドレス及び画像特徴量を収集する付記7記載の情報抽出方法。
(Appendix 8)
As at least one of a parent web page including a link to a web page including the predetermined keyword and a child web page that is a link destination of a link included in the web page including the predetermined keyword as the related web page, The information extraction method according to appendix 7, wherein the address and the image feature amount are collected.

(付記9)
放送された動画像のうち、表示されたアドレスを認識対象とする、指定された動画像を抽出し、抽出した動画像から前記画像特徴量を抽出し、前記認識したアドレスのウェブページにアクセスし、アクセスしたウェブページを表示部に表示させる付記7又は付記8記載の情報抽出方法。
(Appendix 9)
Of the broadcasted moving images, the specified moving image whose target is the displayed address is extracted, the image feature amount is extracted from the extracted moving image, and the web page of the recognized address is accessed. The information extraction method according to appendix 7 or appendix 8, wherein the accessed web page is displayed on the display unit.

(付記10)
放送された動画像はテレビ放送の動画像であり、表示されたアドレスを認識対象とする動画像は、前記テレビ放送に含まれるCFの動画像である付記7〜付記9の何れか1項記載の情報抽出方法。
(Appendix 10)
The broadcasted moving image is a moving image of a television broadcast, and the moving image whose recognition target is a displayed address is a moving image of a CF included in the television broadcast, according to any one of appendix 7 to appendix 9. Information extraction method.

(付記11)
前記記憶部に対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、テレビ放送で放送されていないことを確認したCFの動画像に対応するアドレス及び画像特徴量を前記記憶部から削除する付記10記載の情報抽出方法。
(Appendix 11)
It is confirmed whether or not the CF moving image corresponding to the address and the image feature quantity stored in association with the storage unit is broadcast on the television broadcast, and the CF of the CF confirmed to be not broadcast on the television broadcast. The information extraction method according to appendix 10, wherein an address and an image feature amount corresponding to a moving image are deleted from the storage unit.

(付記12)
前記収集したウェブページ群の少なくともアドレス及び画像特徴量と対応付けて前記記憶部に日時を記憶させ、前記記憶部に対応付けて記憶されているアドレス及び画像特徴量のうち、所定期間以上古い日時と対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、前記CFの動画像がテレビ放送で放送されていることを確認した場合は、前記CFの動画像に対応するアドレス及び画像特徴量と対応付けて前記記憶部に記憶されている日時を現在の日時へ更新する付記11記載の情報抽出方法。
(Appendix 12)
Store the date and time in the storage unit in association with at least the address and image feature quantity of the collected web page group, and the date and time older than a predetermined period among the addresses and image feature quantity stored in association with the storage unit To check whether the CF moving image corresponding to the address and the image feature value stored in association with is broadcast on TV broadcasting, and confirm that the CF moving image is broadcast on TV broadcasting In such a case, the information extraction method according to appendix 11, wherein the date and time stored in the storage unit is updated to the current date and time in association with an address and an image feature amount corresponding to the moving image of the CF.

(付記13)
コンピュータに、
所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させ、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する
ことを含む処理を行わせるための情報抽出プログラム。
(Appendix 13)
On the computer,
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page Collect image feature values of the image, store at least the address of the collected web page group and the image feature values in the storage unit,
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. An information extraction program for performing processing including recognition as an address to be recognized.

(付記14)
前記関連ウェブページとして、前記所定のキーワードを含むウェブページへのリンクを含む親ウェブページ、及び、前記所定のキーワードを含むウェブページに含まれるリンクのリンク先である子ウェブページの少なくとも一方について、アドレス及び画像特徴量を収集する付記13記載の情報抽出プログラム。
(Appendix 14)
As at least one of a parent web page including a link to a web page including the predetermined keyword and a child web page that is a link destination of a link included in the web page including the predetermined keyword as the related web page, 14. The information extraction program according to appendix 13, which collects addresses and image feature amounts.

(付記15)
放送された動画像のうち、表示されたアドレスを認識対象とする、指定された動画像を抽出し、抽出した動画像から前記画像特徴量を抽出し、前記認識したアドレスのウェブページにアクセスし、アクセスしたウェブページを表示部に表示させる付記13又は付記14記載の情報抽出プログラム。
(Appendix 15)
Of the broadcasted moving images, the specified moving image whose target is the displayed address is extracted, the image feature amount is extracted from the extracted moving image, and the web page of the recognized address is accessed. The information extraction program according to supplementary note 13 or supplementary note 14, wherein the accessed web page is displayed on the display unit.

(付記16)
放送された動画像はテレビ放送の動画像であり、表示されたアドレスを認識対象とする動画像は、前記テレビ放送に含まれるCFの動画像である付記13〜付記15の何れか1項記載の情報抽出プログラム。
(Appendix 16)
16. The broadcast moving image is a television broadcast moving image, and the moving image whose recognition target is the displayed address is any one of appendix 13 to appendix 15 that is a CF moving image included in the television broadcast. Information extraction program.

(付記17)
前記記憶部に対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、テレビ放送で放送されていないことを確認したCFの動画像に対応するアドレス及び画像特徴量を前記記憶部から削除する付記16記載の情報抽出プログラム。
(Appendix 17)
It is confirmed whether or not the CF moving image corresponding to the address and the image feature quantity stored in association with the storage unit is broadcast on the television broadcast, and the CF of the CF confirmed to be not broadcast on the television broadcast. The information extraction program according to supplementary note 16, wherein an address and an image feature amount corresponding to a moving image are deleted from the storage unit.

(付記18)
前記収集したウェブページ群の少なくともアドレス及び画像特徴量と対応付けて前記記憶部に日時を記憶させ、前記記憶部に対応付けて記憶されているアドレス及び画像特徴量のうち、所定期間以上古い日時と対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、前記CFの動画像がテレビ放送で放送されていることを確認した場合は、前記CFの動画像に対応するアドレス及び画像特徴量と対応付けて前記記憶部に記憶されている日時を現在の日時へ更新する付記17記載の情報抽出プログラム。
(Appendix 18)
Store the date and time in the storage unit in association with at least the address and image feature quantity of the collected web page group, and the date and time older than a predetermined period among the addresses and image feature quantity stored in association with the storage unit To check whether the CF moving image corresponding to the address and the image feature value stored in association with is broadcast on TV broadcasting, and confirm that the CF moving image is broadcast on TV broadcasting In such a case, the information extraction program according to appendix 17, wherein the date and time stored in the storage unit is updated to the current date and time in association with an address and an image feature amount corresponding to the moving image of the CF.

10 情報抽出装置
12 情報収集部
14 確認部
16 削除部
18,36,188 記憶部
20 動画像抽出部
22 特徴量抽出部
24 認識部
26 ページ表示部
30,172 テレビ装置
32,176 CPU
34,178 メモリ
38 ディスプレイ
40,180 チューナー
42 リモコン受信部
44,184 ネットワーク制御部
47,182 アンテナ
48 リモコン
49 インターネット
50,50A 抽出プログラム
66 URL辞書
170 情報抽出システム
174 サーバ
DESCRIPTION OF SYMBOLS 10 Information extraction apparatus 12 Information collection part 14 Confirmation part 16 Deletion part 18,36,188 Storage part 20 Moving image extraction part 22 Feature-value extraction part 24 Recognition part 26 Page display part 30,172 Television apparatus 32,176 CPU
34,178 Memory 38 Display 40,180 Tuner 42 Remote control receiver 44,184 Network controller 47,182 Antenna 48 Remote control 49 Internet 50,50A Extraction program 66 URL dictionary 170 Information extraction system 174 Server

Claims (8)

所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させる収集部と、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する認識部と、
を含む情報抽出装置。
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page A collecting unit that collects image feature values of an image and stores at least an address of the collected web page group and an image feature value in a storage unit in association with each other;
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. A recognition unit that recognizes as an address to be recognized;
An information extraction device.
前記収集部は、前記関連ウェブページとして、前記所定のキーワードを含むウェブページへのリンクを含む親ウェブページ、及び、前記所定のキーワードを含むウェブページに含まれるリンクのリンク先である子ウェブページの少なくとも一方について、アドレス及び画像特徴量を収集する請求項1記載の情報抽出装置。   The collection unit includes a parent web page including a link to a web page including the predetermined keyword as the related web page, and a child web page that is a link destination of a link included in the web page including the predetermined keyword. The information extraction apparatus according to claim 1, wherein addresses and image feature quantities are collected for at least one of the above. 放送された動画像のうち、表示されたアドレスを認識対象とする、指定された動画像を抽出する動画像抽出部と、
前記動画像抽出部によって抽出された動画像から前記画像特徴量を抽出する特徴量抽出部と、
前記認識部によって認識されたアドレスのウェブページにアクセスし、アクセスしたウェブページを表示部に表示させるページ表示部と、
を更に備えた請求項1又は請求項2記載の情報抽出装置。
A moving image extraction unit for extracting a designated moving image, which is a recognition target of a displayed address among the broadcasted moving images;
A feature amount extraction unit that extracts the image feature amount from the moving image extracted by the moving image extraction unit;
A page display unit for accessing the web page at the address recognized by the recognition unit and displaying the accessed web page on the display unit;
The information extraction device according to claim 1 or 2, further comprising:
放送された動画像はテレビ放送の動画像であり、
表示されたアドレスを認識対象とする動画像は、前記テレビ放送に含まれるCFの動画像である請求項1〜請求項3の何れか1項記載の情報抽出装置。
Broadcast video is a TV broadcast video,
The information extraction device according to claim 1, wherein the moving image whose target is a displayed address is a CF moving image included in the television broadcast.
前記記憶部に対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認する確認部と、
前記確認部によってテレビ放送で放送されていないことが確認されたCFの動画像に対応するアドレス及び画像特徴量を前記記憶部から削除する削除部と、
を更に含む請求項4記載の情報抽出装置。
A confirmation unit for confirming whether or not the CF moving image corresponding to the address and the image feature amount stored in association with the storage unit is broadcast on a television broadcast;
A deletion unit that deletes from the storage unit an address and an image feature amount corresponding to a moving image of a CF that has been confirmed not to be broadcast by television broadcast by the confirmation unit;
The information extraction device according to claim 4, further comprising:
前記収集部は、収集したウェブページ群の少なくともアドレス及び画像特徴量と対応付けて前記記憶部に日時を記憶させ、
前記確認部は、前記記憶部に対応付けて記憶されているアドレス及び画像特徴量のうち、所定期間以上古い日時と対応付けて記憶されているアドレス及び画像特徴量に対応するCFの動画像がテレビ放送で放送されているか否かを確認し、前記CFの動画像がテレビ放送で放送されていることを確認した場合は、前記CFの動画像に対応するアドレス及び画像特徴量と対応付けて前記記憶部に記憶されている日時を現在の日時へ更新する請求項5記載の情報抽出装置。
The collection unit stores the date and time in the storage unit in association with at least an address and an image feature amount of the collected web page group,
The confirmation unit includes a CF moving image corresponding to an address and an image feature amount stored in association with a date and time older than a predetermined period among addresses and image feature amounts stored in association with the storage unit. When it is confirmed whether or not the moving picture of the CF is being broadcast by television broadcasting, it is associated with an address and an image feature amount corresponding to the moving picture of the CF. The information extraction apparatus according to claim 5, wherein the date and time stored in the storage unit is updated to the current date and time.
所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させ、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する
ことを含む情報抽出方法。
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page Collect image feature values of the image, store at least the address of the collected web page group and the image feature values in the storage unit,
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. An information extraction method including recognizing as an address to be recognized.
コンピュータに、
所定のキーワードを含むウェブページを検索し、検索で抽出された所定のキーワードを含むウェブページ及び当該ウェブページに関連する関連ウェブページについて、少なくともアドレスと前記ウェブページ及び前記関連ウェブページに含まれる動画像の画像特徴量を収集し、収集したウェブページ群の少なくともアドレスと画像特徴量とを対応付けて記憶部に記憶させ、
放送された動画像のうち、表示されたアドレスを認識対象とする動画像が指定され、指定された動画像から画像特徴量が抽出されると、指定された動画像から抽出された画像特徴量を前記記憶部に記憶されている画像特徴量と照合し、指定された動画像から抽出された画像特徴量と類似している画像特徴量と対応付けて前記記憶部に記憶されているアドレスを、認識対象のアドレスとして認識する
ことを含む処理を行わせるための情報抽出プログラム。
On the computer,
A web page including a predetermined keyword is searched, and a web page including the predetermined keyword extracted by the search and a related web page related to the web page are at least an address, a moving image included in the web page and the related web page Collect image feature values of the image, store at least the address of the collected web page group and the image feature values in the storage unit,
When a moving image for which the displayed address is to be recognized is specified from the broadcasted moving image and an image feature amount is extracted from the specified moving image, the image feature amount extracted from the specified moving image Is matched with an image feature amount stored in the storage unit, and an address stored in the storage unit in association with an image feature amount similar to the image feature amount extracted from the designated moving image is obtained. An information extraction program for performing processing including recognition as an address to be recognized.
JP2012221391A 2012-10-03 2012-10-03 Information extraction apparatus, method, and program Expired - Fee Related JP5978899B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012221391A JP5978899B2 (en) 2012-10-03 2012-10-03 Information extraction apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012221391A JP5978899B2 (en) 2012-10-03 2012-10-03 Information extraction apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2014074992A true JP2014074992A (en) 2014-04-24
JP5978899B2 JP5978899B2 (en) 2016-08-24

Family

ID=50749116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012221391A Expired - Fee Related JP5978899B2 (en) 2012-10-03 2012-10-03 Information extraction apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5978899B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111727440A (en) * 2017-10-30 2020-09-29 脸谱公司 System and method for determining a digital destination based on a multi-part identifier

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278857A (en) * 2001-03-16 2002-09-27 Sanyo Electric Co Ltd Address detector
JP2003015980A (en) * 2001-07-04 2003-01-17 Kyodo Printing Co Ltd System and method for retrieval of logo mark
JP2005333406A (en) * 2004-05-19 2005-12-02 Dowango:Kk Information providing system, method and program
JP2009258923A (en) * 2008-04-15 2009-11-05 Nippon Telegr & Teleph Corp <Ntt> Information space search apparatus and program
JP2011244491A (en) * 2011-08-24 2011-12-01 Toshiba Corp Electronic apparatus and data reception method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278857A (en) * 2001-03-16 2002-09-27 Sanyo Electric Co Ltd Address detector
JP2003015980A (en) * 2001-07-04 2003-01-17 Kyodo Printing Co Ltd System and method for retrieval of logo mark
JP2005333406A (en) * 2004-05-19 2005-12-02 Dowango:Kk Information providing system, method and program
JP2009258923A (en) * 2008-04-15 2009-11-05 Nippon Telegr & Teleph Corp <Ntt> Information space search apparatus and program
JP2011244491A (en) * 2011-08-24 2011-12-01 Toshiba Corp Electronic apparatus and data reception method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016014129; 山口 徹也、外4名: '放送通信連携サービスのための番組ナビゲーション方式' 映像情報メディア学会誌 第62巻,第7号, 20080701, pp.1067-1076, (社)映像情報メディア学会 *
JPN6016014130; 柳井 啓司: 'キーワードと画像特徴を利用したWWWからの画像収集の試み' 2000年度 人工知能学会全国大会(第14回)論文集 , 20000703, pp.416-419, 社団法人人工知能学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111727440A (en) * 2017-10-30 2020-09-29 脸谱公司 System and method for determining a digital destination based on a multi-part identifier

Also Published As

Publication number Publication date
JP5978899B2 (en) 2016-08-24

Similar Documents

Publication Publication Date Title
US11140443B2 (en) Identification and presentation of content associated with currently playing television programs
EP2553652B1 (en) Media fingerprinting for content determination and retrieval
CN102342124B (en) Method and apparatus for providing information related to broadcast programs
US20070250895A1 (en) Electronic apparatus, information browsing method thereof, and storage medium
CN102163212B (en) Video segment identification
US20070250866A1 (en) Electronic apparatus, method and system for collecting broadcast program information, and storage medium
US20210314635A1 (en) System and method for providing image-based video service
WO2009119063A1 (en) Program information display device and program information display method
CN105122242A (en) Methods, systems, and media for presenting mobile content corresponding to media content
CN106156164A (en) resource information processing method and device
JP4330036B2 (en) Image information acquisition apparatus, method and program thereof
KR101396362B1 (en) Method and apparatus for providing a detailed information of personal video recorder
US20170272793A1 (en) Media content recommendation method and device
JP5857449B2 (en) Image processing apparatus and recording apparatus
US20150020087A1 (en) System for Identifying Features in a Television Signal
JP5115059B2 (en) Keyword classifier
CN101365134A (en) Frame specifying method
EP2034418A1 (en) System and method for assisting a user in constructing of a search query
JP5978899B2 (en) Information extraction apparatus, method, and program
US20090328100A1 (en) Program information display apparatus and program information display method
KR101693381B1 (en) Advertisement apparatus for recognizing video and method for providing advertisement contents in advertisement apparatus
KR20030063239A (en) Interface device intended to be used with a multimedia content restitution device to perform searches on a multimedia content being restored
JP2013012913A (en) Digital broadcast receiver and digital broadcast reception method
JP2018081389A (en) Classification retrieval system
JP2016054504A (en) Digital broadcast receiver and digital broadcast reception method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160711

R150 Certificate of patent or registration of utility model

Ref document number: 5978899

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees