JP4866396B2 - Tag information adding device, tag information adding method, and computer program - Google Patents
Tag information adding device, tag information adding method, and computer program Download PDFInfo
- Publication number
- JP4866396B2 JP4866396B2 JP2008178092A JP2008178092A JP4866396B2 JP 4866396 B2 JP4866396 B2 JP 4866396B2 JP 2008178092 A JP2008178092 A JP 2008178092A JP 2008178092 A JP2008178092 A JP 2008178092A JP 4866396 B2 JP4866396 B2 JP 4866396B2
- Authority
- JP
- Japan
- Prior art keywords
- tag information
- current position
- recognized
- voice
- peripheral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Description
本発明は、複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
本発明は特に、ビデオカメラにより撮影された動画像ファイルや、スチルカメラなどにより撮影された静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
The present invention relates to a tag information adding device, a tag information adding method, and a computer program for adding tag information for searching a user's desired image frame to a plurality of image frames.
The present invention particularly relates to tag information for searching for a desired image frame of a user for a plurality of image frames constituting a moving image file shot by a video camera or a still image file shot by a still camera or the like. The present invention relates to a tag information adding device, a tag information adding method, and a computer program.
従来技術として下記の特許文献1には、作業者が再生中の動画の所望のフレームなどを強調表示させるためにそのフレームにタグを付加するための入力操作を行う方法が記載されている。また、他の従来技術として下記の特許文献2には、作業者が画像フレーム内の所望の部分領域にキー画像を付加するための入力操作を行う方法が記載されている。
しかしながら、上記従来技術では、作業者がタグを付加するための入力操作を行う必要があるので、入力操作作業に膨大な時間がかかるという問題点がある。 However, the above-described conventional technique has a problem that it takes an enormous amount of time for the input operation work because the operator needs to perform an input operation for adding a tag.
本発明は上記従来技術の問題点に鑑み、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムを提供することを目的とする。 In view of the above problems of the prior art, the present invention automatically generates tag information for searching for a desired image frame for a plurality of image frames constituting a moving image file or a still image file. It is an object to provide a tag information adding device, a tag information adding method, and a computer program that can be added.
上記目的を達成するために、本発明のタグ情報付加装置は、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置であって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出手段により抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、備えた。 In order to achieve the above object, the tag information adding apparatus of the present invention automatically adds tag information for searching for a user's desired image frame to a plurality of image frames imaged and generated by the imaging means. A tag information adding device that generates and adds to a current position detecting means for detecting a current position of the imaging means during imaging by the imaging means, and a current position detected by the current position detecting means, Using map data having a geographical name, peripheral keyword extracting means for extracting a geographical name near the current position as a peripheral keyword, voice recognition means for recognizing a user's voice during imaging by the imaging means, When the voice is not recognized by the voice recognition means, the current position is detected from the peripheral keywords extracted by the peripheral keyword extraction means. Wherein the first tag information adding means for adding a tag information to the image frame time, if the voice is recognized by the voice recognition unit, from the recognized speech to extract noun, extracted with the noun Comparing with the peripheral keyword extracted by the peripheral keyword extracting means, the matched noun is added as tag information to the image frame at the time when the speech is recognized, and if it does not match, the noun or the peripheral keyword a second tag information adding means for adding a tag information to the image frame at the time when the voice is recognized, with.
また上記目的を達成するために、本発明のタグ情報付加方法は、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加方法であって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、備えた。 In order to achieve the above object, the tag information adding method of the present invention automatically applies tag information for searching a user's desired image frame to a plurality of image frames captured and generated by the imaging means. generated by a tag information adding process for adding, the current position and the current position detection step of detecting, the detected current position detecting step current position and the map of the imaging means in the imaging by the imaging means based on the data, and a peripheral keyword extracting a geographical name of the current location near the neighborhood keyword, a speech recognition step for recognizing the voice of the user during imaging by the imaging means, the voice by the speech recognition step If not recognized, the field at which the peripheral keyword extracted by the peripheral keyword extraction step, the current position is detected A first tag information adding step of adding a tag information to the frame, when the voice is recognized by the speech recognition step extracts the noun from the recognized speech, the peripheral keyword extraction and extracted the noun Comparing with the peripheral keywords extracted in the step, the matched noun is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added to the voice And a second tag information adding step for adding as tag information to the image frame at the time when is recognized .
また上記目的を達成するため、本発明のコンピュータプログラムは、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報をコンピュータが自動的に生成して付加するためのコンピュータプログラムであって、前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、備えた。
In order to achieve the above object, the computer program according to the present invention enables the computer to automatically generate tag information for searching for a user's desired image frame for a plurality of image frames captured and generated by the imaging means. A computer program for generating and adding to a current position detecting step for detecting a current position of the imaging means during imaging by the imaging means, and a current position and map data detected in the current position detecting step Based on the above, a peripheral keyword extraction step of extracting a geographical name near the current position as a peripheral keyword, a voice recognition step of recognizing a user's voice during imaging by the imaging means, and voice recognition by the voice recognition step if not, the peripheral keyword extracted by the peripheral keyword extracting step, before A first tag information adding step of adding a tag information to the image frames of the current when the position is detected, when the voice is recognized by the speech recognition step extracts the noun from the recognized speech, When the extracted noun is compared with the peripheral keyword extracted in the peripheral keyword extraction step, the matched noun is added as tag information to the image frame at the time when the speech is recognized. A second tag information adding step of adding the noun or the peripheral keyword as tag information to the image frame at the time when the sound is recognized .
この構成により、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。 With this configuration, tag information for searching for a user's desired image frame can be automatically generated and added to a plurality of image frames constituting a moving image file or a still image file.
本発明によれば、撮像手段により撮像されて生成された動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。 According to the present invention, tag information for searching for a desired image frame of a user is automatically added to a plurality of image frames constituting a moving image file or a still image file generated by being imaged by an imaging means. Can be generated and added.
以下、図面を参照して本発明の実施の形態について説明する。図1は本発明に係るタグ情報付加装置の一実施の形態を示すブロック図、図2は図1の動画処理装置の動作を説明するためのフローチャートである。 Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an embodiment of a tag information adding apparatus according to the present invention, and FIG. 2 is a flowchart for explaining the operation of the moving picture processing apparatus of FIG.
図1において、撮像手段である車外カメラ11は不図示の車両の例えば前方などの周辺動画を撮影し、他の撮像手段である車内カメラ12は車両内の例えば運転者などの車内動画を撮影するように配置される。車内マイク13は車両内の運転者などの声を録音し、GPS(Global Positioning System)部14は車両の現在位置(緯度、経度)を取得する。音声認識装置15は車内マイク13により録音された音声を認識する。動画処理装置16は、車外カメラ11、車内カメラ12により撮影された各動画を構成する複数フレームのうちの任意のフレームに対して、車内マイク13及び音声認識装置15により得られた音声データと、GPS部14により取得された現在位置に基づいて検索用のタグなどを自動的に生成して付加し、タグ付き動画データとして動画記録装置17に記録する。ここで、動画処理装置16は地図データをあらかじめストアしており、現在位置近傍における地理的な名称(地名や、山、川、橋、ビルなどの名前)を地図データから周辺キーコードとして取得することができる。取得する周辺キーコードの数は、複数が望ましく、例えば20個程度とする。
In FIG. 1, an outside camera 11 that is an image capturing unit captures a surrounding moving image of a vehicle (not shown) such as a front, and an in-
図2を参照して動画処理装置16の動作を説明する。ここで、動画データの動画情報の構成は、動画データ名(例えば撮影順を示す番号)と、ユーザの所望の画像フレームを検索するためのタグとなるキーワードと、同じタグが付与される開始フレーム番号及び終了フレーム番号と位置データ(緯度、経度)などを含む。ここで、検索表示時に見やすいように、同じタグが付与されるフレーム数を一義的に100フレーム(=1ブロック)とする。
The operation of the moving
まず、車外カメラ11、車内カメラ12からの動画データが存在するか否かをチェックし(ステップS1)、存在しなければ終了する。ステップS1において動画データが存在する場合にはステップS2に進み、動画データ名を動画情報に記述する。次いでGPS部14からの位置データが存在するか否かをチェックし(ステップS3)、存在しなければステップS11に進み、動画情報を動画記録装置17に記録する。ステップS3において位置データが存在する場合にはステップS4に進み、その位置データを動画情報に記述する。次いでその位置データと地図データに基づいて現在位置近傍の1以上の地理的な名称を周辺キーワードとして抽出する(ステップS5)。
First, it is checked whether there is moving image data from the outside camera 11 and the inside camera 12 (step S1). If the moving image data exists in step S1, the process proceeds to step S2, and the moving image data name is described in the moving image information. Next, it is checked whether or not position data from the
次いで音声認識装置15からの音声データが存在するか否かをチェックする(ステップS6)。音声データが存在しない場合にはステップS12に進み、位置データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、また、ステップS5で位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、次いでステップS11に進んで動画情報を動画記録装置17に記録する。
Next, it is checked whether or not there is voice data from the voice recognition device 15 (step S6). If there is no audio data, the process proceeds to step S12, where the moving image frame number at the time when the position data is acquired is set as the start frame number, and the frame after 100 frames is set as the end frame number, and one or more extracted from the position data in step S5 Are described in the tag of the moving image information, and then the process proceeds to step S11 to record the moving image information in the moving
ステップS6において音声データが存在する場合には、ステップS7に進んでその音声データから名詞を抽出し、次いでその抽出した名詞と、ステップS5で位置データから抽出した1以上の周辺キーワードをマッチングする(ステップS8)。もしマッチングしない場合には、ステップS9に分岐して位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、他方、マッチングした場合にはステップS10に進んでマッチングした名詞を動画情報のタグに記述する。また、ステップS9、S10では、音声データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、次いでステップS11に進んで動画情報を動画記録装置17に記録する。
If there is speech data in step S6, the process proceeds to step S7, where a noun is extracted from the speech data, and then the extracted noun is matched with one or more peripheral keywords extracted from the location data in step S5 ( Step S8). If not matched, one or more peripheral keywords extracted from the position data branching to step S9 are described in the video information tag. On the other hand, if matched, the process proceeds to step S10 and the matched noun is converted to the video information. Describe in the tag. In steps S9 and S10, the moving image frame number at the time when the audio data is acquired is set as the starting frame number, and the frame after 100 frames is set as the ending frame number. Then, the process proceeds to step S11 and moving image information is recorded in the moving
図3は富士山の近傍を走行して撮影した動画データに対して付与した動画情報の例を示す。図3では、富士山の動画データの開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=富士山を付与した例を示す。 FIG. 3 shows an example of moving image information given to moving image data shot in the vicinity of Mt. Fuji. In FIG. 3, latitude data (latitude) and longitude data (Longitude) and a keyword = Gotemba are assigned to one block from the start frame number = 1 to the end frame number = 100 of the video data of Mt. Fuji. An example is shown in which latitude data (latitude) and longitude data (Longitude) and keyword = Mt. Fuji are assigned to one block from frame number = 90 to end frame number = 189.
図4は音声データが存在しない富士山の動画データに対して付与した動画情報の例を示す。図4では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、図3においてステップS5で位置データから抽出した周辺キーワード=御殿場、富士山、足柄を付与した例を示す。 FIG. 4 shows an example of moving image information given to moving image data of Mt. Fuji for which no audio data exists. In FIG. 4, latitude and longitude data and peripheral keywords extracted from position data in step S5 in FIG. 3 = Gotemba, Mt. Fuji, and Ashigara are assigned to one block from start frame number = 1 to end frame number = 100. An example is shown.
図5は動画データの途中(フレーム番号=90)から音声データ「今日の富士山、きれいだね」が存在する富士山の動画データに対して付与した動画情報の例を示す。図5では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、ステップS5で位置データから抽出した周辺キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度及び経度データと、音声認識により抽出した名詞「富士山」を付与した例を示す。 FIG. 5 shows an example of the moving image information given to the moving image data of Mt. Fuji in which the audio data “Today's Mt. Fuji, beautiful” exists from the middle of the moving image data (frame number = 90). In FIG. 5, latitude and longitude data and peripheral keywords extracted from the position data in step S5 = Gotemba are assigned to one block from start frame number = 1 to end frame number = 100, and start frame number = An example in which latitude and longitude data and the noun “Mt. Fuji” extracted by speech recognition are assigned to one block from 90 to end frame number = 189.
<本発明の適用例>
図6は、本発明に係るタグ情報付加装置10が適用されたシステムを示す。図6に示すシステムでは、本発明に係るタグ情報付加装置10は、車両Vに搭載されて動画データベース(DB)10aとして使用され、車両Vの走行中に撮影された周辺動画や車内動画を構成する複数フレームのうちの任意のフレームに対して、車両Vの走行中に録音された音声データと現在位置に基づいて検索用のタグを自動的に生成して付加し、タグ付き動画データとして記録する。タグ情報付加装置10(動画DB10a)に記録された動画データは、サーバ1にアップロードしてサーバ1からユーザYの携帯電話機2や、PC(パーソナルコンピュータ)3、車載情報端末4にダウンロードする。
<Application example of the present invention>
FIG. 6 shows a system to which the tag
また、本発明の撮像手段はビデオカメラに限定されず、通常の携帯型のビデオカメラ、デジタルスチルカメラ、携帯電話機内蔵のカメラにも適用することができる。また、タグ付加対象の映像は、動画に限定されず、複数枚の静止画により構成される画像ファイルにも適用することができる。 The imaging means of the present invention is not limited to a video camera, but can be applied to a normal portable video camera, a digital still camera, and a camera with a built-in mobile phone. Also, the tag addition target video is not limited to a moving image, and can be applied to an image file composed of a plurality of still images.
本発明は、撮像手段により撮像されて生成される動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるという効果を有し、ビデオカメラ、スチルカメラ、携帯電話機などに利用することができる。 The present invention automatically generates tag information for searching for a user's desired image frame for a plurality of image frames constituting a moving image file or a still image file generated by being picked up by an image pickup means. And can be used for a video camera, a still camera, a mobile phone, and the like.
11 車外カメラ
12 車内カメラ
13 車内マイク
14 GPS部
15 音声認識装置
16 動画処理装置
17 動画記録装置
DESCRIPTION OF SYMBOLS 11 Out-of-
Claims (6)
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、
前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、
前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出手段により抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、
備えたタグ情報付加装置。 A tag information adding device that automatically generates and adds tag information for searching for a desired image frame of a user to a plurality of image frames that are captured and generated by an imaging unit,
A current position detecting means for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means, using map data having a geographical name, a peripheral keyword extraction means for extracting a geographical name near the current position as a peripheral keyword;
Voice recognition means for recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Means,
When a speech is recognized by the speech recognition means, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted by the peripheral keyword extraction means, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information adding means of
Provided tag information adding device.
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたタグ情報付加方法。 A tag information adding method for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected in the current position detection step and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted in the peripheral keyword extraction step as tag information to the image frame at the time when the current position is detected when no voice is recognized in the voice recognition step Steps,
When a speech is recognized in the speech recognition step, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted in the peripheral keyword extraction step, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information addition step of
Provided tag information addition method.
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出ステップで検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識ステップで音声が認識されない場合に、前記周辺キーワード抽出ステップで抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識ステップで音声が認識された場合に、認識された音声から名詞を抽出し、抽出した当該名詞と前記周辺キーワード抽出ステップで抽出された周辺キーワードとを比較して、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加し、一致しない場合には前記名詞又は前記周辺キーワードを前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたコンピュータプログラム。 A computer program for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected in the current position detection step and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted in the peripheral keyword extraction step as tag information to the image frame at the time when the current position is detected when no voice is recognized in the voice recognition step Steps,
When a speech is recognized in the speech recognition step, a noun is extracted from the recognized speech, the extracted noun is compared with the peripheral keywords extracted in the peripheral keyword extraction step, and the matched noun is A tag information is added as tag information to the image frame at the time when the voice is recognized, and if it does not match, the noun or the peripheral keyword is added as tag information to the image frame at the time when the voice is recognized. Tag information addition step of
Computer program provided.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008178092A JP4866396B2 (en) | 2008-07-08 | 2008-07-08 | Tag information adding device, tag information adding method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008178092A JP4866396B2 (en) | 2008-07-08 | 2008-07-08 | Tag information adding device, tag information adding method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010021638A JP2010021638A (en) | 2010-01-28 |
JP4866396B2 true JP4866396B2 (en) | 2012-02-01 |
Family
ID=41706137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008178092A Expired - Fee Related JP4866396B2 (en) | 2008-07-08 | 2008-07-08 | Tag information adding device, tag information adding method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4866396B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599692A (en) * | 2014-12-16 | 2015-05-06 | 上海合合信息科技发展有限公司 | Recording method and device and recording content searching method and device |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5821699B2 (en) | 2012-02-29 | 2015-11-24 | 株式会社Jvcケンウッド | Image processing apparatus, image processing method, and program |
JP2015146550A (en) | 2014-02-04 | 2015-08-13 | ソニー株式会社 | information processing apparatus, information processing method, and program |
KR102401377B1 (en) * | 2017-06-07 | 2022-05-24 | 현대자동차주식회사 | Method and apparatus for searching geographic information using interactive speech recognition |
KR101867950B1 (en) * | 2017-08-09 | 2018-06-20 | 주식회사 포렉스랩 | Real Time Display System of Additional Information for Live Broadcasting and Image Service |
CN109889916B (en) * | 2019-01-07 | 2023-04-07 | 北京汉博信息技术有限公司 | Application system of recorded broadcast data |
CN111711869B (en) * | 2020-06-24 | 2022-05-17 | 腾讯科技(深圳)有限公司 | Label data processing method and device and computer readable storage medium |
CN112102843B (en) * | 2020-09-18 | 2024-09-06 | 北京搜狗科技发展有限公司 | Voice recognition method and device and electronic equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322435A (en) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Cyber-illustrated reference book supplement data collection system and input device therefor |
JP2003274320A (en) * | 2002-03-15 | 2003-09-26 | Konica Corp | Imaging device and device and method for image information processing |
JP3781715B2 (en) * | 2002-11-01 | 2006-05-31 | 松下電器産業株式会社 | Metadata production device and search device |
JP2005114964A (en) * | 2003-10-07 | 2005-04-28 | Xanavi Informatics Corp | Method and processor for speech recognition |
-
2008
- 2008-07-08 JP JP2008178092A patent/JP4866396B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599692A (en) * | 2014-12-16 | 2015-05-06 | 上海合合信息科技发展有限公司 | Recording method and device and recording content searching method and device |
CN104599692B (en) * | 2014-12-16 | 2017-12-15 | 上海合合信息科技发展有限公司 | The way of recording and device, recording substance searching method and device |
Also Published As
Publication number | Publication date |
---|---|
JP2010021638A (en) | 2010-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4866396B2 (en) | Tag information adding device, tag information adding method, and computer program | |
US7512335B2 (en) | Image capturing apparatus, an image capturing method, and a machine readable medium storing thereon a computer program for capturing images | |
JP5803723B2 (en) | Structure inspection support method, structure inspection support program, and structure inspection support device | |
KR20070082027A (en) | Search apparatus and method, and program | |
KR100733095B1 (en) | Information processing apparatus and information processing method | |
CN102547090A (en) | Digital photographing apparatus and methods of providing pictures thereof | |
JP2008054236A (en) | Imaging apparatus | |
JP2006513657A (en) | Adding metadata to images | |
CN102915549A (en) | Image file processing method and device | |
JP4352332B2 (en) | Image scoring method and image scoring system | |
WO2012144124A1 (en) | Captured image processing system, captured image processing method, mobile terminal and information processing apparatus | |
CN101527772A (en) | Digital camera and information recording method | |
JP2010272054A (en) | Device, method, and program for providing building relevant information | |
US20080291315A1 (en) | Digital imaging system having gps function and method of storing information of imaging place thereof | |
JP2010061426A (en) | Image pickup device and keyword creation program | |
JP6179315B2 (en) | Information processing apparatus, image processing system, image processing method and program in information processing apparatus | |
JP2013118606A (en) | Image processing device, image processing method, and image processing program | |
JP2017059121A (en) | Image management device, image management method and program | |
JP4403364B2 (en) | Information recording control device, information recording control method, recording medium, and program | |
JP2007020054A (en) | Method and device for managing image | |
KR100723922B1 (en) | Digital photographing apparatus with GPS function and method for setting information of photographing place thereof | |
KR101973865B1 (en) | Electronic album management method and image device | |
JP2009049680A (en) | Memorandum storage device, method, program and cellular phone | |
JP2017152842A (en) | Image processing system, image processing method and program | |
JP2010152608A (en) | Device for input and conversion of character, and image capturing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100531 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4866396 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |