JP4866396B2 - Tag information adding device, tag information adding method, and computer program - Google Patents

Tag information adding device, tag information adding method, and computer program Download PDF

Info

Publication number
JP4866396B2
JP4866396B2 JP2008178092A JP2008178092A JP4866396B2 JP 4866396 B2 JP4866396 B2 JP 4866396B2 JP 2008178092 A JP2008178092 A JP 2008178092A JP 2008178092 A JP2008178092 A JP 2008178092A JP 4866396 B2 JP4866396 B2 JP 4866396B2
Authority
JP
Japan
Prior art keywords
tag information
current position
recognized
voice
peripheral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008178092A
Other languages
Japanese (ja)
Other versions
JP2010021638A (en
Inventor
宏 佐々木
弘利 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2008178092A priority Critical patent/JP4866396B2/en
Publication of JP2010021638A publication Critical patent/JP2010021638A/en
Application granted granted Critical
Publication of JP4866396B2 publication Critical patent/JP4866396B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本発明は、複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
本発明は特に、ビデオカメラにより撮影された動画像ファイルや、スチルカメラなどにより撮影された静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
The present invention relates to a tag information adding device, a tag information adding method, and a computer program for adding tag information for searching a user's desired image frame to a plurality of image frames.
The present invention particularly relates to tag information for searching for a desired image frame of a user for a plurality of image frames constituting a moving image file shot by a video camera or a still image file shot by a still camera or the like. The present invention relates to a tag information adding device, a tag information adding method, and a computer program.

従来技術として下記の特許文献1には、作業者が再生中の動画の所望のフレームなどを強調表示させるためにそのフレームにタグを付加するための入力操作を行う方法が記載されている。また、他の従来技術として下記の特許文献2には、作業者が画像フレーム内の所望の部分領域にキー画像を付加するための入力操作を行う方法が記載されている。
特開2005−181599号公報(図13) 特開2007−19768号公報(図10)
As a conventional technique, Patent Document 1 below describes a method in which an operator performs an input operation for adding a tag to a frame in order to highlight a desired frame of a moving image being reproduced. Further, as another conventional technique, Patent Document 2 below describes a method in which an operator performs an input operation for adding a key image to a desired partial area in an image frame.
Japanese Patent Laying-Open No. 2005-181599 (FIG. 13) Japanese Patent Laying-Open No. 2007-19768 (FIG. 10)

しかしながら、上記従来技術では、作業者がタグを付加するための入力操作を行う必要があるので、入力操作作業に膨大な時間がかかるという問題点がある。   However, the above-described conventional technique has a problem that it takes an enormous amount of time for the input operation work because the operator needs to perform an input operation for adding a tag.

本発明は上記従来技術の問題点に鑑み、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムを提供することを目的とする。   In view of the above problems of the prior art, the present invention automatically generates tag information for searching for a desired image frame for a plurality of image frames constituting a moving image file or a still image file. It is an object to provide a tag information adding device, a tag information adding method, and a computer program that can be added.

上記目的を達成するために、本発明のタグ情報付加装置は、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置であって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出手段により抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、備えた。 In order to achieve the above object, the tag information adding apparatus of the present invention automatically adds tag information for searching for a user's desired image frame to a plurality of image frames imaged and generated by the imaging means. A tag information adding device that generates and adds to a current position detecting means for detecting a current position of the imaging means during imaging by the imaging means, and a current position detected by the current position detecting means, Using map data having a geographical name, peripheral keyword extracting means for extracting a geographical name near the current position as a peripheral keyword, voice recognition means for recognizing a user's voice during imaging by the imaging means, When the voice is not recognized by the voice recognition means, the current position is detected from the peripheral keywords extracted by the peripheral keyword extraction means. Wherein the first tag information adding means for adding a tag information to the image frame time, if the voice is recognized by the voice recognition unit, from the recognized speech to extract noun, extracted with the noun Comparing with the peripheral keyword extracted by the peripheral keyword extracting means, the matched noun is added as tag information to the image frame at the time when the speech is recognized, and if it does not match, the noun or the peripheral keyword a second tag information adding means for adding a tag information to the image frame at the time when the voice is recognized, with.

また上記目的を達成するために、本発明のタグ情報付加方法は、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加方法であって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、備えた。 In order to achieve the above object, the tag information adding method of the present invention automatically applies tag information for searching a user's desired image frame to a plurality of image frames captured and generated by the imaging means. generated by a tag information adding process for adding, the current position and the current position detection step of detecting, the detected current position detecting step current position and the map of the imaging means in the imaging by the imaging means based on the data, and a peripheral keyword extracting a geographical name of the current location near the neighborhood keyword, a speech recognition step for recognizing the voice of the user during imaging by the imaging means, the voice by the speech recognition step If not recognized, the field at which the peripheral keyword extracted by the peripheral keyword extraction step, the current position is detected A first tag information adding step of adding a tag information to the frame, when the voice is recognized by the speech recognition step extracts the noun from the recognized speech, the peripheral keyword extraction and extracted the noun Comparing with the peripheral keywords extracted in the step, the matched noun is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added to the voice And a second tag information adding step for adding as tag information to the image frame at the time when is recognized .

また上記目的を達成するため、本発明のコンピュータプログラムは、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報をコンピュータが自動的に生成して付加するためのコンピュータプログラムであって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、備えた。
In order to achieve the above object, the computer program according to the present invention enables the computer to automatically generate tag information for searching for a user's desired image frame for a plurality of image frames captured and generated by the imaging means. A computer program for generating and adding to a current position detecting step for detecting a current position of the imaging means during imaging by the imaging means, and a current position and map data detected in the current position detecting step Based on the above, a peripheral keyword extraction step of extracting a geographical name near the current position as a peripheral keyword, a voice recognition step of recognizing a user's voice during imaging by the imaging means, and voice recognition by the voice recognition step if not, the peripheral keyword extracted by the peripheral keyword extracting step, before A first tag information adding step of adding a tag information to the image frames of the current when the position is detected, when the voice is recognized by the speech recognition step extracts the noun from the recognized speech, When the extracted noun is compared with the peripheral keyword extracted in the peripheral keyword extraction step, the matched noun is added as tag information to the image frame at the time when the speech is recognized. A second tag information adding step of adding the noun or the peripheral keyword as tag information to the image frame at the time when the sound is recognized .

この構成により、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。   With this configuration, tag information for searching for a user's desired image frame can be automatically generated and added to a plurality of image frames constituting a moving image file or a still image file.

本発明によれば、撮像手段により撮像されて生成された動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。   According to the present invention, tag information for searching for a desired image frame of a user is automatically added to a plurality of image frames constituting a moving image file or a still image file generated by being imaged by an imaging means. Can be generated and added.

以下、図面を参照して本発明の実施の形態について説明する。図1は本発明に係るタグ情報付加装置の一実施の形態を示すブロック図、図2は図1の動画処理装置の動作を説明するためのフローチャートである。   Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an embodiment of a tag information adding apparatus according to the present invention, and FIG. 2 is a flowchart for explaining the operation of the moving picture processing apparatus of FIG.

図1において、撮像手段である車外カメラ11は不図示の車両の例えば前方などの周辺動画を撮影し、他の撮像手段である車内カメラ12は車両内の例えば運転者などの車内動画を撮影するように配置される。車内マイク13は車両内の運転者などの声を録音し、GPS(Global Positioning System)部14は車両の現在位置(緯度、経度)を取得する。音声認識装置15は車内マイク13により録音された音声を認識する。動画処理装置16は、車外カメラ11、車内カメラ12により撮影された各動画を構成する複数フレームのうちの任意のフレームに対して、車内マイク13及び音声認識装置15により得られた音声データと、GPS部14により取得された現在位置に基づいて検索用のタグなどを自動的に生成して付加し、タグ付き動画データとして動画記録装置17に記録する。ここで、動画処理装置16は地図データをあらかじめストアしており、現在位置近傍における地理的な名称(地名や、山、川、橋、ビルなどの名前)を地図データから周辺キーコードとして取得することができる。取得する周辺キーコードの数は、複数が望ましく、例えば20個程度とする。   In FIG. 1, an outside camera 11 that is an image capturing unit captures a surrounding moving image of a vehicle (not shown) such as a front, and an in-vehicle camera 12 that is another image capturing unit captures an in-vehicle moving image such as a driver inside the vehicle. Are arranged as follows. The in-vehicle microphone 13 records the voice of the driver in the vehicle, and the GPS (Global Positioning System) unit 14 acquires the current position (latitude, longitude) of the vehicle. The voice recognition device 15 recognizes the voice recorded by the in-vehicle microphone 13. The moving image processing device 16 is configured to obtain audio data obtained by the in-vehicle microphone 13 and the voice recognition device 15 for an arbitrary frame among a plurality of frames constituting each moving image captured by the in-vehicle camera 11 and the in-vehicle camera 12; A search tag or the like is automatically generated and added based on the current position acquired by the GPS unit 14 and recorded in the moving image recording device 17 as tagged moving image data. Here, the moving image processing device 16 stores map data in advance, and acquires a geographical name (name of place, name of mountain, river, bridge, building, etc.) in the vicinity of the current position as a peripheral key code from the map data. be able to. The number of peripheral key codes to be acquired is preferably a plurality, for example, about 20.

図2を参照して動画処理装置16の動作を説明する。ここで、動画データの動画情報の構成は、動画データ名(例えば撮影順を示す番号)と、ユーザの所望の画像フレームを検索するためのタグとなるキーワードと、同じタグが付与される開始フレーム番号及び終了フレーム番号と位置データ(緯度、経度)などを含む。ここで、検索表示時に見やすいように、同じタグが付与されるフレーム数を一義的に100フレーム(=1ブロック)とする。   The operation of the moving image processing device 16 will be described with reference to FIG. Here, the structure of the moving image information of the moving image data includes a moving image data name (for example, a number indicating the shooting order), a keyword serving as a tag for searching for a user's desired image frame, and a start frame to which the same tag is assigned Number, end frame number, position data (latitude, longitude) and the like are included. Here, the number of frames to which the same tag is assigned is uniquely 100 frames (= 1 block) so that it can be easily seen at the time of search display.

まず、車外カメラ11、車内カメラ12からの動画データが存在するか否かをチェックし(ステップS1)、存在しなければ終了する。ステップS1において動画データが存在する場合にはステップS2に進み、動画データ名を動画情報に記述する。次いでGPS部14からの位置データが存在するか否かをチェックし(ステップS3)、存在しなければステップS11に進み、動画情報を動画記録装置17に記録する。ステップS3において位置データが存在する場合にはステップS4に進み、その位置データを動画情報に記述する。次いでその位置データと地図データに基づいて現在位置近傍の1以上の地理的な名称を周辺キーワードとして抽出する(ステップS5)。   First, it is checked whether there is moving image data from the outside camera 11 and the inside camera 12 (step S1). If the moving image data exists in step S1, the process proceeds to step S2, and the moving image data name is described in the moving image information. Next, it is checked whether or not position data from the GPS unit 14 exists (step S3). If there is no position data, the process proceeds to step S11, and the moving image information is recorded in the moving image recording device 17. If position data exists in step S3, the process proceeds to step S4, and the position data is described in the moving image information. Next, one or more geographical names near the current position are extracted as peripheral keywords based on the position data and map data (step S5).

次いで音声認識装置15からの音声データが存在するか否かをチェックする(ステップS6)。音声データが存在しない場合にはステップS12に進み、位置データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、また、ステップS5で位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、次いでステップS11に進んで動画情報を動画記録装置17に記録する。   Next, it is checked whether or not there is voice data from the voice recognition device 15 (step S6). If there is no audio data, the process proceeds to step S12, where the moving image frame number at the time when the position data is acquired is set as the start frame number, and the frame after 100 frames is set as the end frame number, and one or more extracted from the position data in step S5 Are described in the tag of the moving image information, and then the process proceeds to step S11 to record the moving image information in the moving image recording device 17.

ステップS6において音声データが存在する場合には、ステップS7に進んでその音声データから名詞を抽出し、次いでその抽出した名詞と、ステップS5で位置データから抽出した1以上の周辺キーワードをマッチングする(ステップS8)。もしマッチングしない場合には、ステップS9に分岐して位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、他方、マッチングした場合にはステップS10に進んでマッチングした名詞を動画情報のタグに記述する。また、ステップS9、S10では、音声データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、次いでステップS11に進んで動画情報を動画記録装置17に記録する。   If there is speech data in step S6, the process proceeds to step S7, where a noun is extracted from the speech data, and then the extracted noun is matched with one or more peripheral keywords extracted from the location data in step S5 ( Step S8). If not matched, one or more peripheral keywords extracted from the position data branching to step S9 are described in the video information tag. On the other hand, if matched, the process proceeds to step S10 and the matched noun is converted to the video information. Describe in the tag. In steps S9 and S10, the moving image frame number at the time when the audio data is acquired is set as the starting frame number, and the frame after 100 frames is set as the ending frame number. Then, the process proceeds to step S11 and moving image information is recorded in the moving image recording device 17.

図3は富士山の近傍を走行して撮影した動画データに対して付与した動画情報の例を示す。図3では、富士山の動画データの開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=富士山を付与した例を示す。   FIG. 3 shows an example of moving image information given to moving image data shot in the vicinity of Mt. Fuji. In FIG. 3, latitude data (latitude) and longitude data (Longitude) and a keyword = Gotemba are assigned to one block from the start frame number = 1 to the end frame number = 100 of the video data of Mt. Fuji. An example is shown in which latitude data (latitude) and longitude data (Longitude) and keyword = Mt. Fuji are assigned to one block from frame number = 90 to end frame number = 189.

図4は音声データが存在しない富士山の動画データに対して付与した動画情報の例を示す。図4では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、図3においてステップS5で位置データから抽出した周辺キーワード=御殿場、富士山、足柄を付与した例を示す。   FIG. 4 shows an example of moving image information given to moving image data of Mt. Fuji for which no audio data exists. In FIG. 4, latitude and longitude data and peripheral keywords extracted from position data in step S5 in FIG. 3 = Gotemba, Mt. Fuji, and Ashigara are assigned to one block from start frame number = 1 to end frame number = 100. An example is shown.

図5は動画データの途中(フレーム番号=90)から音声データ「今日の富士山、きれいだね」が存在する富士山の動画データに対して付与した動画情報の例を示す。図5では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、ステップS5で位置データから抽出した周辺キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度及び経度データと、音声認識により抽出した名詞「富士山」を付与した例を示す。   FIG. 5 shows an example of the moving image information given to the moving image data of Mt. Fuji in which the audio data “Today's Mt. Fuji, beautiful” exists from the middle of the moving image data (frame number = 90). In FIG. 5, latitude and longitude data and peripheral keywords extracted from the position data in step S5 = Gotemba are assigned to one block from start frame number = 1 to end frame number = 100, and start frame number = An example in which latitude and longitude data and the noun “Mt. Fuji” extracted by speech recognition are assigned to one block from 90 to end frame number = 189.

<本発明の適用例>
図6は、本発明に係るタグ情報付加装置10が適用されたシステムを示す。図6に示すシステムでは、本発明に係るタグ情報付加装置10は、車両Vに搭載されて動画データベース(DB)10aとして使用され、車両Vの走行中に撮影された周辺動画や車内動画を構成する複数フレームのうちの任意のフレームに対して、車両Vの走行中に録音された音声データと現在位置に基づいて検索用のタグを自動的に生成して付加し、タグ付き動画データとして記録する。タグ情報付加装置10(動画DB10a)に記録された動画データは、サーバ1にアップロードしてサーバ1からユーザYの携帯電話機2や、PC(パーソナルコンピュータ)3、車載情報端末4にダウンロードする。
<Application example of the present invention>
FIG. 6 shows a system to which the tag information adding apparatus 10 according to the present invention is applied. In the system shown in FIG. 6, the tag information adding device 10 according to the present invention is mounted on a vehicle V and used as a moving image database (DB) 10a, and constitutes a surrounding moving image and an in-vehicle moving image shot while the vehicle V is traveling. A search tag is automatically generated and added to any frame of a plurality of frames that are recorded while the vehicle V is traveling based on the current position and recorded as tagged moving image data. To do. The moving image data recorded in the tag information adding device 10 (moving image DB 10a) is uploaded to the server 1 and downloaded from the server 1 to the mobile phone 2 of the user Y, the PC (personal computer) 3, and the in-vehicle information terminal 4.

また、本発明の撮像手段はビデオカメラに限定されず、通常の携帯型のビデオカメラ、デジタルスチルカメラ、携帯電話機内蔵のカメラにも適用することができる。また、タグ付加対象の映像は、動画に限定されず、複数枚の静止画により構成される画像ファイルにも適用することができる。   The imaging means of the present invention is not limited to a video camera, but can be applied to a normal portable video camera, a digital still camera, and a camera with a built-in mobile phone. Also, the tag addition target video is not limited to a moving image, and can be applied to an image file composed of a plurality of still images.

本発明は、撮像手段により撮像されて生成される動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるという効果を有し、ビデオカメラ、スチルカメラ、携帯電話機などに利用することができる。   The present invention automatically generates tag information for searching for a user's desired image frame for a plurality of image frames constituting a moving image file or a still image file generated by being picked up by an image pickup means. And can be used for a video camera, a still camera, a mobile phone, and the like.

本発明に係るタグ情報付加装置の一実施の形態を示すブロック図である。It is a block diagram which shows one Embodiment of the tag information addition apparatus which concerns on this invention. 図1の動画処理装置の動作を説明するためのフローチャートである。3 is a flowchart for explaining the operation of the moving image processing apparatus of FIG. 1. 動画情報を示す説明図である。It is explanatory drawing which shows moving image information. 音声データがない場合の動画情報を示す説明図である。It is explanatory drawing which shows the moving image information when there is no audio | voice data. 音声データがある場合の動画情報を示す説明図である。It is explanatory drawing which shows the moving image information when there exists audio | voice data. 本発明に係るタグ情報付加装置を適用したシステムを示す説明図である。It is explanatory drawing which shows the system to which the tag information addition apparatus which concerns on this invention is applied.

符号の説明Explanation of symbols

11 車外カメラ
12 車内カメラ
13 車内マイク
14 GPS部
15 音声認識装置
16 動画処理装置
17 動画記録装置
DESCRIPTION OF SYMBOLS 11 Out-of-vehicle camera 12 In-vehicle camera 13 In-vehicle microphone 14 GPS part 15 Voice recognition device 16 Movie processing device 17 Movie recording device

Claims (6)

撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、
前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、
前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出手段により抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、
備えたタグ情報付加装置。
A tag information adding device that automatically generates and adds tag information for searching for a desired image frame of a user to a plurality of image frames that are captured and generated by an imaging unit,
A current position detecting means for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means, using map data having a geographical name, a peripheral keyword extraction means for extracting a geographical name near the current position as a peripheral keyword;
Voice recognition means for recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Means,
When a speech is recognized by the speech recognition means, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted by the peripheral keyword extraction means, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information adding means of
Provided tag information adding device.
前記第1、第2のタグ情報付加手段はそれぞれ、前記現在位置が検出された時点の画像フレーム、前記音声が認識された時点の画像フレームから所定数の画像フレームに対して同じタグ情報を付加する請求項1に記載のタグ情報付加装置。 The first and second tag information adding means respectively add the same tag information to a predetermined number of image frames from the image frame at the time when the current position is detected and the image frame at the time when the sound is recognized. The tag information adding apparatus according to claim 1 . 前記複数の画像フレームは、前記撮像手段として用いられるビデオカメラにより撮影された動画データである請求項1又は2に記載のタグ情報付加装置。 The tag information adding apparatus according to claim 1 or 2, wherein the plurality of image frames are moving image data photographed by a video camera used as the imaging unit. 前記複数の画像フレームは、前記撮像手段として用いられるスチルカメラ又は携帯電話機に内蔵されたカメラにより撮影された静止画ファイルである請求項1から3のいずれか1つに記載のタグ情報付加装置。 4. The tag information adding device according to claim 1, wherein the plurality of image frames are still image files photographed by a still camera used as the imaging unit or a camera built in a mobile phone. 5. 撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加方法であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたタグ情報付加方法。
A tag information adding method for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected in the current position detection step and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted in the peripheral keyword extraction step as tag information to the image frame at the time when the current position is detected when no voice is recognized in the voice recognition step Steps,
When a speech is recognized in the speech recognition step, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted in the peripheral keyword extraction step, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information addition step of
Provided tag information addition method.
撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報をコンピュータが自動的に生成して付加するためのコンピュータプログラムであって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたコンピュータプログラム。
A computer program for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected in the current position detection step and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted in the peripheral keyword extraction step as tag information to the image frame at the time when the current position is detected when no voice is recognized in the voice recognition step Steps,
When a speech is recognized in the speech recognition step, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted in the peripheral keyword extraction step, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information addition step of
Computer program provided.
JP2008178092A 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program Expired - Fee Related JP4866396B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008178092A JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008178092A JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Publications (2)

Publication Number Publication Date
JP2010021638A JP2010021638A (en) 2010-01-28
JP4866396B2 true JP4866396B2 (en) 2012-02-01

Family

ID=41706137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008178092A Expired - Fee Related JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Country Status (1)

Country Link
JP (1) JP4866396B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599692A (en) * 2014-12-16 2015-05-06 上海合合信息科技发展有限公司 Recording method and device and recording content searching method and device

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5821699B2 (en) 2012-02-29 2015-11-24 株式会社Jvcケンウッド Image processing apparatus, image processing method, and program
JP2015146550A (en) 2014-02-04 2015-08-13 ソニー株式会社 information processing apparatus, information processing method, and program
KR102401377B1 (en) * 2017-06-07 2022-05-24 현대자동차주식회사 Method and apparatus for searching geographic information using interactive speech recognition
KR101867950B1 (en) * 2017-08-09 2018-06-20 주식회사 포렉스랩 Real Time Display System of Additional Information for Live Broadcasting and Image Service
CN109889916B (en) * 2019-01-07 2023-04-07 北京汉博信息技术有限公司 Application system of recorded broadcast data
CN111711869B (en) * 2020-06-24 2022-05-17 腾讯科技(深圳)有限公司 Label data processing method and device and computer readable storage medium
CN112102843B (en) * 2020-09-18 2024-09-06 北京搜狗科技发展有限公司 Voice recognition method and device and electronic equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322435A (en) * 1999-05-13 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> Cyber-illustrated reference book supplement data collection system and input device therefor
JP2003274320A (en) * 2002-03-15 2003-09-26 Konica Corp Imaging device and device and method for image information processing
JP3781715B2 (en) * 2002-11-01 2006-05-31 松下電器産業株式会社 Metadata production device and search device
JP2005114964A (en) * 2003-10-07 2005-04-28 Xanavi Informatics Corp Method and processor for speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599692A (en) * 2014-12-16 2015-05-06 上海合合信息科技发展有限公司 Recording method and device and recording content searching method and device
CN104599692B (en) * 2014-12-16 2017-12-15 上海合合信息科技发展有限公司 The way of recording and device, recording substance searching method and device

Also Published As

Publication number Publication date
JP2010021638A (en) 2010-01-28

Similar Documents

Publication Publication Date Title
JP4866396B2 (en) Tag information adding device, tag information adding method, and computer program
US7512335B2 (en) Image capturing apparatus, an image capturing method, and a machine readable medium storing thereon a computer program for capturing images
JP5803723B2 (en) Structure inspection support method, structure inspection support program, and structure inspection support device
KR20070082027A (en) Search apparatus and method, and program
KR100733095B1 (en) Information processing apparatus and information processing method
CN102547090A (en) Digital photographing apparatus and methods of providing pictures thereof
JP2008054236A (en) Imaging apparatus
JP2006513657A (en) Adding metadata to images
CN102915549A (en) Image file processing method and device
JP4352332B2 (en) Image scoring method and image scoring system
WO2012144124A1 (en) Captured image processing system, captured image processing method, mobile terminal and information processing apparatus
CN101527772A (en) Digital camera and information recording method
JP2010272054A (en) Device, method, and program for providing building relevant information
US20080291315A1 (en) Digital imaging system having gps function and method of storing information of imaging place thereof
JP2010061426A (en) Image pickup device and keyword creation program
JP6179315B2 (en) Information processing apparatus, image processing system, image processing method and program in information processing apparatus
JP2013118606A (en) Image processing device, image processing method, and image processing program
JP2017059121A (en) Image management device, image management method and program
JP4403364B2 (en) Information recording control device, information recording control method, recording medium, and program
JP2007020054A (en) Method and device for managing image
KR100723922B1 (en) Digital photographing apparatus with GPS function and method for setting information of photographing place thereof
KR101973865B1 (en) Electronic album management method and image device
JP2009049680A (en) Memorandum storage device, method, program and cellular phone
JP2017152842A (en) Image processing system, image processing method and program
JP2010152608A (en) Device for input and conversion of character, and image capturing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4866396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees