JP2018169697A - Video data processing apparatus, video data processing method, and computer program - Google Patents
Video data processing apparatus, video data processing method, and computer program Download PDFInfo
- Publication number
- JP2018169697A JP2018169697A JP2017065066A JP2017065066A JP2018169697A JP 2018169697 A JP2018169697 A JP 2018169697A JP 2017065066 A JP2017065066 A JP 2017065066A JP 2017065066 A JP2017065066 A JP 2017065066A JP 2018169697 A JP2018169697 A JP 2018169697A
- Authority
- JP
- Japan
- Prior art keywords
- tag
- video data
- importance
- dictionary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000003860 storage Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000003058 natural language processing Methods 0.000 claims abstract description 14
- 230000010354 integration Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、複数の映像データから、目的の映像データを検索する映像データ処理装置、映像データ処理方法、及びコンピュータプログラムに関する。 The present invention relates to a video data processing apparatus, a video data processing method, and a computer program for searching for target video data from a plurality of video data.
映像配信サービスの多様化により、視聴できる映像データの数は増加している。また、ディジタルカメラ、携帯端末等による動画撮影が容易になったことから、映像配信サービス以外で得られる映像データの数も急増している。その結果、映像データが氾濫する環境になって来ている。 With the diversification of video distribution services, the number of video data that can be viewed is increasing. In addition, since it has become easier to shoot moving images using a digital camera, a portable terminal, etc., the number of video data that can be obtained by other than video distribution services has increased rapidly. As a result, the environment is flooded with video data.
そのような環境において、目的の映像データを利用者が視聴する為には、映像データに適切なメタデータを付与しておく必要がある。映像データの従来のメタデータの付与方法は、例えば特許文献1に開示されている。 In such an environment, in order for the user to view the target video data, it is necessary to add appropriate metadata to the video data. A conventional method for assigning metadata of video data is disclosed in, for example, Patent Document 1.
しかしながら、従来のメタデータの付与方法は、予め登録したキーワードの中から選択したキーワードをメタデータとする方法であり、映像データに適切なメタデータを付与できない。つまり、登録したキーワードに対応しない映像データには、適切なメタデータを付与することが出来ないという課題がある。 However, the conventional method of assigning metadata is a method in which a keyword selected from keywords registered in advance is used as metadata, and appropriate metadata cannot be assigned to video data. That is, there is a problem that video data that does not correspond to the registered keyword cannot be given appropriate metadata.
本発明は、この課題に鑑みてなされたものであり、映像データに適切なメタデータを付与できる映像データ処理装置、映像データ処理方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of this problem, and an object of the present invention is to provide a video data processing device, a video data processing method, and a program that can give appropriate metadata to video data.
本実施形態の一態様に係る映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、該物体の重要度を示すデータを生成する重要度生成部と、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成する自然言語処理部と、前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部とを備えることを要旨とする。 The video data processing apparatus according to an aspect of the present embodiment includes, for each video data, a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag indicating the importance of the video data tag. A tag database that stores the degree of importance in association with each other; a dictionary storage unit that includes one or both of a character recognition dictionary and a voice recognition dictionary for each of a plurality of categories set in advance for the content of the video data; Included in the video data is an object recognition unit that recognizes an object included in the data and generates a tag representing the object and a likelihood of the tag, an importance generation unit that generates data indicating the importance of the object, and If the character recognition dictionary is stored in the dictionary storage unit, the in-video text is detected using the character recognition dictionary, and the text data is added to the video data. A speech recognition unit that recognizes the recognized speech and generates a speech recognition unit using the speech recognition dictionary if the speech recognition dictionary is stored in the dictionary storage unit; A natural language processing unit for extracting a tag, generating a tag and an importance of the tag, extracting a tag representing an important word from the speech recognition text, and generating the tag and the importance of the tag; and the video The category according to the tag of the text in the video detected by the text detection unit in the video data of the dictionary for character recognition used in the text detection unit in the data and the dictionary for voice recognition used in the speech recognition unit is changed. If the category corresponding to the tag of the speech recognition text detected by the speech recognition unit is changed, the category is changed. The dictionary selection unit that switches to the dictionary for character recognition and selects two or three of the generated three types of tags, or two or three of the three types of tags are similar If the tag importance is calculated based on the importance corresponding to the tag, the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are calculated using the tag as a video data tag. The gist of the present invention is to include an importance level integration unit that associates and stores in the tag database.
また、本実施形態の一態様に係る映像データ処理方法は、上記の映像データ処理装置が行う映像データ処理方法であって、前記映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、前記映像データ処理方法においては、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶することを要旨とする。 A video data processing method according to an aspect of the present embodiment is a video data processing method performed by the video data processing device, and the video data processing device is configured to display a video indicating the video data for each video data. A tag database that stores a data identifier, a video data tag that represents the content of the video data, and a tag importance that represents the importance of the video data tag, and a plurality of categories that are set in advance for the content of the video data A dictionary storage unit that includes one or both of a character recognition dictionary and a voice recognition dictionary for each of the above, and in the video data processing method, a tag that recognizes an object included in the video data and represents the object; The likelihood of the tag is generated, data indicating the importance of the object is generated, and the text in the video included in the video data is stored in the dictionary storage unit in the character recognition dictionary. Is stored in the dictionary storage unit, the voice recognition text is detected from the video data using the character recognition dictionary, and the voice recognition text recognized from the voice attached to the video data is stored in the dictionary storage unit. If it is generated using the speech recognition dictionary, a tag representing an important word is extracted from the text in the video, the tag and the importance of the tag are generated, and a tag representing the important word is generated from the speech recognition text. Extract the tag and the importance of the tag, and once select the character recognition dictionary and the speech recognition dictionary, the category of the category changed when the category according to the tag of the detected text in the video changes When the category corresponding to the tag of the detected voice recognition text is changed and switched to the dictionary for speech recognition, the category is changed to the dictionary for character recognition when the category is changed. If two or three of the three types of tags matched, or if two or three of the three types of tags are similar, tag importance based on the importance corresponding to the tag The tag is a video data tag, the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are associated with each other and stored in the tag database.
また、本発明のコンピュータプログラムは、上記の映像データ処理装置としてコンピュータを機能させるようにしたものである。 A computer program according to the present invention causes a computer to function as the video data processing apparatus.
本発明によれば、映像データを適切に分類したデータベースが生成できる。 According to the present invention, a database in which video data is appropriately classified can be generated.
以下、本発明の実施の形態について図面を用いて説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
〔第1実施形態〕
図1に、第1実施形態に係る映像データ処理装置1の機能構成例を示す。映像データ処理装置1は、シーン分割部10、物体認識部20、映像データ内テキスト検出部30、音声認識部40、辞書記憶部50、辞書選択部60、自然言語処理部70、重要度生成部80、重要度統合部90、タグデータベース100、映像管理部110、及び映像データベース120を備える。映像データ処理装置1は、映像データに含まれる情報に基づいて、映像データに適切なメタデータを付与したデータベースを生成する。以降において、データベースはDBと表記する。
[First Embodiment]
FIG. 1 shows a functional configuration example of a video data processing apparatus 1 according to the first embodiment. The video data processing apparatus 1 includes a
タグDB100は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶する。映像データタグは、映像データから抽出したキーワードやキーフレーズを表すテキストデータである。
The
辞書記憶部50は、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書を備える。なお、文字認識用辞書と音声認識用辞書は両方で複数のカテゴリごとに備える必要はない。どちらか一方の辞書を備える様にしても良い。
The
図2に示す映像データ処理装置1の動作フローを参照してその動作を説明する。なお、図2では、物体認識、映像データ内テキスト検出、及び音声認識を時系列に処理するフローを示すが、各処理は同時(並列)に処理しても良い。 The operation will be described with reference to the operation flow of the video data processing apparatus 1 shown in FIG. Note that FIG. 2 shows a flow of processing object recognition, text detection in video data, and speech recognition in time series, but each processing may be performed simultaneously (in parallel).
シーン分割部10は、映像データを複数のシーンに分割する(ステップS1)。シーンは、例えば映像データに付与された音声を音声区間ごとに分割した映像の範囲である。又は、映像の区間ごとに分割しても良い。映像の区間ごととは、例えば、映像データを構成する画素の明度の変化が一定の範囲の単位、又は画素の色調の変化が一定の範囲の単位である。なお、分割は一定時間の単位で区切っても良い。
The
また、シーン分割部10は、一般的な動画配信システムAPI(Application Programming Interface)を用いて実現しても良い。動画配信システムAPIとしては、例えばエヌ・ティ・ティ アイティ製のviaPlatz(商標登録)を用いることができる。なお、シーン分割部10の機能は、後述する物体認識部20、映像データ内テキスト検出部30、及び音声認識部40の各機能構成部に含めても良い。
The
図3に、映像データを、シーン分割部10で分割した例を示す。図3の1列目は、映像データを識別する映像データ識別子である。2列目は分割したシーンの番号であり、3列目はシーンの時間を示す。映像データ識別子A001の映像のシーン1は、映像の開始から10秒間、シーン2はシーン1の後の5秒間であることが分かる。なお、時間の分解能は、1秒以下の例えばmsで有っても良い。また、分解能はフレーム単位で有っても良い。
FIG. 3 shows an example in which video data is divided by the
物体認識部20は、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する(ステップS2)。物体認識部20は、映像データを分割したシーンごとの画像から、例えばBoF(Bag of Features)法の特徴量を抽出し、予め物体と関連付けられた特徴量と比較することで、画像に映った物体を認識する。
The
なお、物体認識部20は、シーンに対応させて物体を認識する必要はない。複数のシーンから物体を認識しても良い。また、画像から抽出する特徴量は、何でも構わない。特徴量は、例えば色ヒストグラム等で有っても良い。又、一般的な画像認識APIを用いて物体認識部20を構成しても良い。
The
物体認識部20は、映像データのフレームレートが24f/秒〜60f/秒で有ったとすると、1秒(24〜60フレーム)から例えば1枚の画像を抽出し、該画像から物体を認識する。なお、画像の抽出間隔は、任意で良く、例えば2秒ごと抽出しても良いし、0.5秒ごとに抽出しても良い。
If the frame rate of the video data is 24 f / sec to 60 f / sec, the
図4に、物体認識部20で認識した物体の例を示す。図4の1列目は、映像データを識別する映像データ識別子である。2列目は認識した物体を表す物体タグ、3列目は該タグの尤度、4列目は該タグを認識した映像データの開始からの時刻である。
FIG. 4 shows an example of an object recognized by the
図4の1行目は、映像データ識別子「A001」の映像データの開始から1秒後の画像から、「金閣寺」が認識され、その尤度は「0.7」で有ることを示している。尤度は、1.0に近い程、その物らしいことを表す。 The first line of FIG. 4 indicates that “Kinkakuji” is recognized from the image one second after the start of the video data with the video data identifier “A001”, and its likelihood is “0.7”. As the likelihood is closer to 1.0, it represents that thing.
この例では、映像データの開始から2秒後の画像から「木立」、3秒後の画像から「池」をそれぞれ認識する例を示しているが、1画像から複数のタグを抽出しても良い。又、物体タグは、分割したシーン番号と対応付けても良い。
In this example, “Kitsu” is recognized from the
映像データ内テキスト検出部30は、映像データに含まれる映像内テキストを、辞書選択部60において予め選択された文字認識用辞書を使用して検出する(ステップS3)。
なお、辞書記憶部50に文字認識用辞書が記憶されていない場合、映像データ内テキスト検出部30は、映像データ内テキスト検出部が備える(共通的な)辞書を用いて映像データから映像内テキストを検出する。
The in-video data
When no dictionary for character recognition is stored in the
映像データに含まれる映像内テキストとは、映像データを構成する画像に映った例えば看板等の文字のことである。又は、スーパーインポーズ(superimpose)で画像に付けられた字幕や、テロップ(telop)等で映される文字のことである。なお、辞書選択部60が、辞書記憶部50から最初に選択する文字認識用辞書は、予め設定されている。
The in-video text included in the video data is a character such as a signboard shown in an image constituting the video data. Alternatively, it is a subtitle attached to an image by superimpose or a character projected by telop or the like. The character recognition dictionary that the
図5に、映像データ内テキスト検出部30で検出した映像内テキストの例を示す。図5の1列目は、映像データを識別する映像データ識別子である。2列目は検出した映像内テキスト、3列目は該映像内テキストを検出した映像データの開始からの時刻である。
FIG. 5 shows an example of the in-video text detected by the in-video data
図5は、映像データ識別子「A001」の映像データの開始から1秒後の画像から「秋の金閣寺」の映像内テキストが検出されたことを示している。この映像内テキストは、例えば画像に映された「秋の金閣寺」のテロップから検出される。 FIG. 5 shows that the in-video text of “Autumn Kinkakuji” is detected from the image one second after the start of the video data with the video data identifier “A001”. This in-video text is detected from, for example, the telop of “Autumn Kinkakuji” shown in the image.
自然言語処理部70は、映像データ内テキストから重要語を表す文字認識タグを抽出し、該タグと該タグの重要度を生成する(ステップS4)。自然言語処理部70は、映像データ内テキストの形態素解析、文脈解析、及び意味解析等を行い映像データ内テキストからキーワード(重要語)を抽出する。そして、例えばTF−IDF法を用いてキーワードの重要度を生成する。重要度は、例えば0〜100の範囲の数値情報である。
The natural
辞書選択部60は、映像データ内テキスト検出部30で検出した映像内テキストから生成された文字認識タグに応じたカテゴリの音声認識用辞書を選択する(ステップS5)。例えば文字認識タグが「金閣寺」とした場合のカテゴリは「京都観光」である。
The
音声認識部40は、映像データに付与された音声から、辞書選択部60において予め選択された音声認識用辞書を使用して音声認識テキストを認識する(ステップS6)。この例では、「京都観光」のカテゴリに対応する音声認識用辞書が選択される。なお、辞書記憶部50に音声認識用辞書が記憶されていない場合、音声認識部40は自らが備える標準(共通的な)辞書を用いて映像データに付与された音声から音声認識テキストを認識する。
The
音声認識部40は、一般的な音声認識装置で実現できる。音声認識装置としては、例えばエヌ・ティ・ティ アイティ製のSpeech Rec(商標登録)を用いることができる。
The
映像データに付与された音声を、例えば「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合、音声認識部40は、その音声を音声認識テキストに変換して出力する。 For example, if the voice given to the video data is “Kinkakuji Temple with autumn leaves in the background. 40 converts the speech into speech recognition text and outputs it.
自然言語処理部70は、音声認識テキストから重要語を表す音声認識タグを抽出し、該タグと該タグの重要度を生成する(ステップS7)。
The natural
辞書選択部60は、音声認識部40で認識した音声認識テキストから生成された音声認識タグに応じたカテゴリの文字認識用辞書を選択する(ステップS8)。このように辞書選択部60は、文字認識タグから音声認識用辞書を選択し、音声認識タグから文字認識用辞書を選択する。つまり、辞書選択部60は、映像データ内テキスト検出部30と音声認識部40で使用する辞書を、カテゴリに対応させて決め合う様に動作する。その結果、文字認識タグの検出精度と音声認識タグの認識精度を向上させることが出来る。
The
つまり、辞書選択部60は、映像データ内テキスト検出部30で選択した文字認識用辞書、及び音声認識部40で選択した音声認識用辞書を、映像データ内テキスト検出部30で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの音声認識用辞書に切り替えて選択し、音声認識部40で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの文字認識用辞書に切り替えて選択する。
That is, the
図6に、自然言語処理部70が生成した文字認識タグと重要度の例を示す。図6の1列目は映像データ識別子、2列目は文字認識タグ、3列目は重要度、4列目は時刻である。
FIG. 6 shows an example of the character recognition tag and importance generated by the natural
図6に、自然言語処理部70が生成した音声認識タグと重要度の例を示す。図6の1列目は映像データ識別子、2列目は音声認識タグ、3列目は重要度、4列目は時刻である。この例では、映像データ識別子A001で識別される映像データの開始から1秒に「秋」と「金閣寺」の映像テキストタグが生成されたことを示している。
FIG. 6 shows an example of the voice recognition tag and importance generated by the natural
図7に、自然言語処理部70で生成した音声認識テキストとその重要度を例示する。図7の列方向は、タグが音声認識タグである点が異なるだけで図6と同じである。
FIG. 7 illustrates the speech recognition text generated by the natural
図7に示す例は、音声認識テキストを、「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合である。その音声認識テキストから、「秋」、「紅葉」、「金閣寺」、「木立」、「池」、及び「水面」の音声認識タグを生成する。 The example shown in FIG. 7 is a case where the speech recognition text is “Kinkakuji Temple with autumn leaves in the background. It is a stunning scenery reflecting its appearance on the surface of a pond against the background of autumn leaves of trees.” . From the speech recognition text, speech recognition tags of “Autumn”, “Autumn leaves”, “Kinkakuji”, “Kidachi”, “Pond”, and “Water surface” are generated.
各々の音声認識テキストの重要度は、「秋」が90、「紅葉」が80、「金閣寺」が90、「木立」が50、「水面」が60、である。各々の音声認識テキストが生成された時刻は、順に、「秋」が5秒、「紅葉」が6秒、「金閣寺」が8秒、「木立」が10秒、「水面」が11秒である。「水面」以降の音声認識テキストと重要度の表記は省略している。 The importance of each speech recognition text is 90 for “Autumn”, 80 for “Autumn leaves”, 90 for “Kinkakuji”, 50 for “Kidachi”, and 60 for “Water”. The time when each voice recognition text was generated is 5 seconds for “Autumn”, 6 seconds for “Autumn leaves”, 8 seconds for “Kinkakuji”, 10 seconds for “Kidachi”, and 11 seconds for “Water”. . The speech recognition text after “water surface” and the notation of importance are omitted.
重要度生成部80は、物体認識部20が認識した物体タグの重要度を示すデータを生成する(ステップS6)。重要度は、物体タグの物体が画像に占める割合で有っても良い。例えば、画像における「金閣寺」の像の割合が60%以上であれば重要度を例えば90、像の割合が50%以下であれば重要度を50といった様に、画像中に占める物体の面積の割合に対応させて重要度を生成する。又は、物体認識部20が出力する尤度を重要度に変換しても良い。例えば、尤度を100倍した値を重要度として用いても良い。
The
図8に、重要度生成部80が生成した重要度の例を示す。図8の列と行は、尤度が重要度に代わった点が異なるだけで図4と同じである。図8に示す重要度の例は、図4に示した尤度を100倍した値である。
FIG. 8 shows an example of the importance level generated by the importance
重要度統合部90は、生成された3種のタグの内の2つ又は3つが一致する場合、又は3種のタグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB100に記憶する(ステップS9)。生成された3種のタグとは、上記の「物体タグ」、「文字認識タグ」、「音声認識タグ」である。
The
タグの類似の判定は、重要度統合部70が備える類似語辞書や表現ゆらぎ辞書を参照して行う。図1において、類似語辞書及び表現ゆらぎ辞書の表記は省略している。
The similarity of tags is determined with reference to a similar word dictionary and an expression fluctuation dictionary provided in the importance
重要度統合部90は、一致する又は類似するタグに対応する重要度に基づいてタグ重要度を求め、一致する又は類似するタグを映像データタグとする。一致するタグは、映像データの内容を、より良く表すタグであると考えられる。
The importance
そこで、3種のタグ(「物体タグ」、「文字認識タグ」、「音声認識タグ」)が一致する例えば「金閣寺」を映像データタグとし、そのタグ重要度を各々の重要度の例えば合計(70+90+90=250)とする。そして、映像データを識別する映像データ識別子と映像データタグとタグ重要度を、対応付けてタグDB100に記憶する。
Therefore, for example, “Kinkakuji” in which the three types of tags (“object tag”, “character recognition tag”, “voice recognition tag”) coincide with each other is set as a video data tag, and the tag importance is, for example, the sum of each importance ( 70 + 90 + 90 = 250). Then, the video data identifier for identifying the video data, the video data tag, and the tag importance are stored in the
一方、映像データは、映像管理部110によって、映像データを示す映像データ識別子と対応付けられて映像DB120に記憶されている。したがって、タグDB100を、タグ重要度の大きい順に検索することで、視聴したい映像データの映像データ識別子を的確に抽出することができる。
On the other hand, the video data is stored in the
その後、抽出した映像データ識別子で、映像DB120を検索することで所望の映像データを取り出すことができる。なお、映像データは、シーン単位で検索することも可能である。
Thereafter, the desired video data can be retrieved by searching the
タグDB100から目的の映像データの映像データ識別子を検索し、該映像データ識別子に対応する映像データを映像DB120から取り出す処理は、映像検索部が行う。なお、図1において映像検索部の表記は省略している。
The video search unit performs a process of searching for the video data identifier of the target video data from the
以上説明したように本実施形態の映像データ処理装置1が行う映像データ処理方法は、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを、辞書記憶部50に文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、映像データに付与された音声を認識した音声認識テキストを、辞書記憶部50に音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの文字認識用辞書に切り替えて選択し、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種のタグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB100に記憶する。
As described above, the video data processing method performed by the video data processing apparatus 1 according to the present embodiment recognizes an object included in the video data, generates a tag representing the object and the likelihood of the tag, Generating data indicating importance, detecting text in video data included in video data from video data using the character recognition dictionary if the
この本実施の形態の映像データ処理方法によれば、映像データを適切に分類したデータベース(タグDB100)を生成することができる。次に、重要度統合部70の動作を更に詳しく説明する。
According to the video data processing method of this embodiment, a database (tag DB 100) in which video data is appropriately classified can be generated. Next, the operation of the importance
〔重要度統合部〕
図9に示す重要度統合部90の動作フローを参照してその動作を説明する。
[Importance Integration Department]
The operation will be described with reference to the operation flow of the
重要度統合部90は、ダグDB100に記憶された1つのタグが、3つのタグ種の間(物体タグ、文字認識タグ、音声認識タグ)で、一致する又は類似する物が有るか否かを判定する(ステップS90)。以降では、図6、図7、図8において同じ映像データ識別子に対応する同じタグの有無を判定する例で説明する。
The importance
一致するタグが無い場合、例えば音声認識タグしか存在しない「水面」については、音声認識タグをそのまま映像データタグとし(ステップS91)、音声認識タグの重要度をタグ重要度とし、映像データ識別子と対応付けてタグDB100に記憶する(ステップS92)。そして、他のタグ(物体タグ、文字認識タグ、音声認識タグ)について一致するものが有るか否かの判定に戻る(ステップS90のNO→ステップS93のNO)。この繰り返しは、全ての映像データについて終了(ステップS93のYES)するまで繰り返される。
When there is no matching tag, for example, for “water surface” where only the voice recognition tag exists, the voice recognition tag is used as the video data tag as it is (step S91), the importance of the voice recognition tag is set as the tag importance, and the video data identifier The data is stored in the
一致するタグが有る場合は、全てのタグ種が一致するか否かを判定する(ステップS94)。全てのタグ種が一致する場合(ステップS94のYES)、重要度統合部90は、一致するタグに対応する重要度に基づいてタグ重要度を求める(ステップS95)。タグ重要度は、例えば一致するタグに対応する重要度の合計を2倍した値である。全てのタグが一致するタグは、上記の例では「金閣寺」である。なお、タグ重要度の値は、各重要度の平均値で有っても良い。
If there is a matching tag, it is determined whether or not all tag types match (step S94). When all the tag types match (YES in step S94), the importance
次に重要度統合部90は、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB100に記憶する(ステップS96)。
Next, the importance
全てのタグが一致しない場合(ステップS94のNO)、重要度統合部90は、次に2つのタグ種が一致するか否かを判定する(ステップS97)。2つのタグ種が一致しない場合は、ステップS90に戻る。つまり、異なるタグ種間で一致するタグが無い場合、重要度の値は変化せずそのままタグ重要度としてタグDB100に記憶される。
If all the tags do not match (NO in step S94), the
2つのタグ種が一致する場合(ステップS97のYES)、重要度統合部90は、一致するタグに対応する重要度に基づいてタグ重要度を求める(ステップS98)。2つのタグ種間でタグが一致する場合のタグ重要度は、例えば一致するタグに対応する重要度の合計を1.5倍した値である。2つのタグ種で一致するタグは、上記の例では「秋」である。このように、タグ重要度は、各重要度の合計値又は平均値に、一致するタグの数が多いほど大きな重みが乗ぜられた値になる。
If the two tag types match (YES in step S97), the importance
なお、タグ重要度は、一致するタグを抽出する抽出精度を考慮した値にしても良い。つまり、タグ重要度は一致するタグを抽出する抽出精度を考慮した値であり、抽出精度の高いタグに対応する重要度に、大きな重みを乗じて求めても良い。抽出精度とは、画像認識、文字認識、及び音声認識のそれぞれの認識精度のことである。 Note that the tag importance may be a value that considers the extraction accuracy for extracting matching tags. That is, the tag importance is a value that considers the extraction accuracy for extracting matching tags, and may be obtained by multiplying the importance corresponding to a tag with high extraction accuracy by a large weight. The extraction accuracy is the recognition accuracy of each of image recognition, character recognition, and speech recognition.
具体的には、例えば音声認識テキストの認識精度が、物体認識の認識精度よりも高い場合、音声認識テキストから抽出した音声認識タグに対応する重要度に大きな重みを乗じる。また、物体認識の認識精度が、音声認識テキストの認識精度よりも高い場合、物体認識で認識した物体タグに大きな重みを乗じる。要するに、タグ重要度=物体タグの重要度×重みα+文字認識タグの重要度×重みβ+音声認識タグの重要度×重みγのそれぞれの重みα,β,γの値を認識精度に応じて変えても良い。 Specifically, for example, when the recognition accuracy of the speech recognition text is higher than the recognition accuracy of the object recognition, the importance corresponding to the speech recognition tag extracted from the speech recognition text is multiplied by a large weight. When the recognition accuracy of object recognition is higher than the recognition accuracy of speech recognition text, a large weight is applied to the object tag recognized by object recognition. In short, tag importance = importance of object tag × weight α + importance of character recognition tag × weight β + importance of voice recognition tag × weight γ, and change each weight α, β, γ according to recognition accuracy May be.
次に重要度統合部90は、2つのタグ種が一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB100に記憶する(ステップS99)。
Next, the importance
図10に、タグDB100に記憶された映像データタグとタグ重要度の例を示す。図10の1列目は映像データ識別子、2列目は映像データタグ、3列目はタグ重要度である。全てのタグ種間で一致する映像データタグである「金閣寺」のタグ重要度は360で最も高い値である。文字認識タグと音声認識タグの2つが生成された映像データタグである「秋」のタグ重要度は270である。音声認識タグのみが生成された映像データタグである「水面」のタグ重要度は60である。
FIG. 10 shows an example of video data tags and tag importance levels stored in the
以上説明したステップS90〜99の処理によって、一致するタグ種の数が多い程、そのタグに対応するタグ重要度の値は大きくなる。タグ種間で一致しないタグの重要度は、重要度生成部80と自然言語処理部70が生成する重要度の値から変化しない。
As the number of matching tag types increases by the processing in steps S90 to S99 described above, the tag importance value corresponding to the tag increases. The importance of tags that do not match between tag types does not change from the importance values generated by the
以上説明したステップS90〜99の処理によって、一致するタグ種の数が多い程、そのタグに対応するタグ重要度の値は大きくなる。タグ種間で一致しないタグのタグ重要度は、重要度生成部80と自然言語処理部70で生成する重要度の値から変化しない。
As the number of matching tag types increases by the processing in steps S90 to S99 described above, the tag importance value corresponding to the tag increases. The tag importance of tags that do not match between tag types does not change from the importance values generated by the
このように映像データ処理装置1は、映像データの内容をより良く表す映像データタグのタグ重要度の値を、大きくしてタグDB100に記憶する。本実施形態の映像データ処理装置1によれば、映像データに適切なメタデータを付与したデータベースが生成できる。
As described above, the video data processing device 1 increases the tag importance value of the video data tag that better represents the content of the video data and stores the tag importance value in the
なお、図9に示す例では、タグの一致を判定したが、上記のようにタグの類似を判定しても良い。また、タグの一致と類似の両方を判定するようにしても良い。 In the example shown in FIG. 9, tag matching is determined, but tag similarity may be determined as described above. Also, both tag matching and similarity may be determined.
〔第2実施形態〕
図11に、第2実施形態に係る映像データ処理装置2の機能構成例を示す。映像データ処理装置2は、映像データ処理装置1の重要度統合部90に代えてタグ管理部130を備える点で異なる。映像データ処理装置2は、タグ種の間で一致するタグに対応する重要度の統合を行わない。
[Second Embodiment]
FIG. 11 shows a functional configuration example of the video
タグ管理部130は、生成された3つのタグのそれぞれを映像データダグとし、且つそれぞれの重要度をタグ重要度とし、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB100に記憶する。
The
タグ管理部130は、「物体タグ」とその重要度、「文字認識タグ」と重要度、及び「音声認識タグ」とその重要度を、それぞれのタグを抽出した映像データ識別子に対応させ、それぞれのタグを映像データタグとし、それぞれのタグに対応する重要度をタグ重要度としてタグDB100に記憶する。つまり、各タグと重要度は、そのまま映像データ識別子とタグ重要度としてタグDB100に記憶される。
The
「文字認識タグ」と「音声認識タグ」は、辞書選択部60が、映像データ内テキスト検出部30と音声認識部40で使用する辞書を、タグのカテゴリに対応させて決め合う様に動作して生成されたものである。よって、「文字認識タグ」と「音声認識タグ」の検出精度と認識精度は、比較的に高い。つまり、映像データ処理装置2は、映像データを適切に分類したデータベース(タグDB100)を生成することができる。
The “character recognition tag” and the “speech recognition tag” operate so that the
〔第3実施形態〕
図12に、第3実施形態に係る映像データ処理装置3の機能構成例を示す。映像データ処理装置3は、物体認識部23を備える点で、映像データ処理装置2と異なる。
[Third Embodiment]
FIG. 12 shows a functional configuration example of the video data processing apparatus 3 according to the third embodiment. The video data processing device 3 is different from the video
物体認識部23は、複数のカテゴリに対応する物体のそれぞれの特徴を表す特徴量を記憶し、辞書選択部60が選択した文字認識用辞書のカテゴリ又は音声認識用辞書のカテゴリに、それぞれ対応するカテゴリの特徴量を使用する。
The
例えば辞書選択部60が、「京都観光」のカテゴリを選択した場合、物体認識部20は、「京都観光」のカテゴリに対応する特徴量を用いて画像を認識する。「京都観光」のカテゴリに対応する特徴量とは、例えば京都に所在する神社仏閣に関する特徴量である。
For example, when the
このように物体認識部23の特徴量についてもカテゴリ対応させることで、物体認識の認識精度を向上させることができる。
As described above, by making the feature amount of the
以上の実施形態では、映像データを示す映像データ識別子と各タグを対応付ける例で説明を行ったが、本実施形態はこの例に限られない。シーン分割部10で映像データを分割したシーンと各タグを対応付けるようにしても良い。この場合、映像のシーンの単位で目的の映像データを検索することが出来る。
In the above embodiment, the description has been given with the example in which the video data identifier indicating the video data is associated with each tag, but the present embodiment is not limited to this example. The scene divided by the
また、物体タグ、文字認識タグ、及び音声認識タグの全てが一致するか否かの例で説明を行ったが、全てのタグ種間での一致の判定は不要である。例えば、文字認識タグと音声認識タグの間の一致を判定するだけでも良い。また、第3実施形態の映像データ処理装置3は、映像データ処理装置2の物体認識20を、物体認識部23に変更する例で説明を行ったが、映像データ装置の物体認識20を物体認識部23に変更しても良い。
Further, although an example of whether or not all of the object tag, the character recognition tag, and the voice recognition tag match has been described, it is not necessary to determine matching between all tag types. For example, it is only necessary to determine a match between a character recognition tag and a voice recognition tag. In the video data processing device 3 of the third embodiment, the
このように本発明は、上記した実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。 As described above, the present invention is not limited to the above-described embodiment, and various modifications can be made within the scope of the gist thereof.
上記装置における処理部をコンピュータによって実現する場合、各処理部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記装置における処理部がコンピュータ上で実現される。 When the processing unit in the above apparatus is realized by a computer, the processing content of the function that each processing unit should have is described by a program. Then, by executing this program on a computer, the processing unit in the above apparatus is realized on the computer.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としても良い。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of the server computer and transferring the program from the server computer to another computer via a network.
1:映像データ処理装置
10:シーン分割部
20、23:物体認識部
30:映像データ内テキスト検出部
40:音声認識部
50:辞書記憶部
60:辞書選択部
70:自然言語処理部
80:重要度生成部
90:重要度統合部
100:タグデータベース
110:映像管理部
120:映像データベース
1: Video data processing device 10:
本実施形態の一態様に係る映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、該物体の重要度を示すデータを生成する重要度生成部と、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成する自然言語処理部と、前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部とを備え、前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求めることを要旨とする。 The video data processing apparatus according to an aspect of the present embodiment includes, for each video data, a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag indicating the importance of the video data tag. A tag database that stores the degree of importance in association with each other; a dictionary storage unit that includes one or both of a character recognition dictionary and a voice recognition dictionary for each of a plurality of categories set in advance for the content of the video data; Included in the video data is an object recognition unit that recognizes an object included in the data and generates a tag representing the object and a likelihood of the tag, an importance generation unit that generates data indicating the importance of the object, and If the character recognition dictionary is stored in the dictionary storage unit, the in-video text is detected using the character recognition dictionary, and the text data is added to the video data. A speech recognition unit that recognizes the recognized speech and generates a speech recognition unit using the speech recognition dictionary if the speech recognition dictionary is stored in the dictionary storage unit; Extracting a tag , generating an importance level of the tag in consideration of an occurrence frequency of the tag in the text in the video and an occurrence frequency of other text , and extracting a tag representing an important word from the speech recognition text; The natural language processing unit that generates the importance of the tag in consideration of the frequency of occurrence of the tag in the speech recognition text and the frequency of occurrence in other text, and the character recognition used in the video data text detection unit When the category corresponding to the tag of the text in the video detected by the text detection unit in the video data of the dictionary and the voice recognition dictionary used in the voice recognition unit is changed When the category corresponding to the tag of the speech recognition text detected by the speech recognition unit is changed, it is switched to the character recognition dictionary of the changed category. When two or three of the generated three types of tags match the dictionary selection unit, or two or three of the three types of tags are similar, the importance corresponding to the tag The tag importance is obtained based on the video data tag, and the video data tag corresponding to the tag importance, the video data tag, and the tag importance are stored in the tag database in association with each other. The tag importance is a value considering the extraction accuracy for extracting the matching or similar tags, and the importance corresponding to the tag with high extraction accuracy And gist Rukoto calculated by multiplying the large weight on.
また、本実施形態の一態様に係る映像データ処理方法は、上記の映像データ処理装置が行う映像データ処理方法であって、前記映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、前記映像データ処理方法においては、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶し、前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求めることを要旨とする。
A video data processing method according to an aspect of the present embodiment is a video data processing method performed by the video data processing device, and the video data processing device is configured to display a video indicating the video data for each video data. A tag database that stores a data identifier, a video data tag that represents the content of the video data, and a tag importance that represents the importance of the video data tag, and a plurality of categories that are set in advance for the content of the video data A dictionary storage unit that includes one or both of a character recognition dictionary and a voice recognition dictionary for each of the above, and in the video data processing method, a tag that recognizes an object included in the video data and represents the object; The likelihood of the tag is generated, data indicating the importance of the object is generated, and the text in the video included in the video data is stored in the dictionary storage unit in the character recognition dictionary. Is stored in the dictionary storage unit, the voice recognition text is detected from the video data using the character recognition dictionary, and the voice recognition text recognized from the voice attached to the video data is stored in the dictionary storage unit. If it is generated using the voice recognition dictionary, a tag representing an important word is extracted from the text in the video , and the frequency of occurrence of the tag in the text in the video and the frequency of occurrence in other text are taken into consideration. Tag importance is generated, a tag representing an important word is extracted from the speech recognition text, and the importance of the tag is determined in consideration of the frequency of occurrence of the tag in the speech recognition text and the frequency of occurrence in other text. When the category according to the tag of the detected text in the video is changed, the character recognition dictionary and the speech recognition dictionary selected once are generated. When the category corresponding to the tag of the detected voice recognition text is changed and switched to the dictionary for voice recognition, the category is changed to the dictionary for character recognition when the category is changed. If two or three of the tags match, or if two or three of the three types of tags are similar, the tag importance is calculated based on the importance corresponding to the tag, and the tag is converted into video data. As a tag, an identifier of video data corresponding to the tag importance, the video data tag, and the tag importance are associated and stored in the tag database, and the tag importance matches or is similar a value considering the extraction precision of extracting the tag, and gist Rukoto calculated by multiplying the greater weight to the importance corresponding to the extraction accurate tag.
Claims (5)
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、
該物体の重要度を示すデータを生成する重要度生成部と、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、
映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成する自然言語処理部と、
前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部と
を備えることを特徴とする映像データ処理装置。 A tag database that stores a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag importance level indicating the importance level of the video data tag in association with each other;
A dictionary storage unit including one or both of a dictionary for character recognition and a dictionary for speech recognition for each of a plurality of categories set in advance for the contents of video data;
An object recognition unit that recognizes an object included in the video data and generates a tag representing the object and a likelihood of the tag;
An importance generation unit for generating data indicating the importance of the object;
In-video text detection unit for detecting text in video data included in video data using the dictionary for character recognition if the dictionary for character recognition is stored in the dictionary storage unit;
A speech recognition unit that recognizes speech added to video data, and generates a speech recognition unit using the speech recognition dictionary if the dictionary for speech recognition is stored in the dictionary storage unit;
A tag representing an important word is extracted from the text in the video, the tag and the importance of the tag are generated, a tag representing the important word is extracted from the speech recognition text, and the tag and the importance of the tag are generated. A natural language processing unit;
The character recognition dictionary used in the video data text detection unit, and the voice recognition dictionary used in the voice recognition unit are categories corresponding to the text tag detected in the video data text detection unit. If the category is changed according to the tag of the voice recognition text detected by the voice recognition unit, the character recognition dictionary is changed. The dictionary selection part to switch to and select,
If two or three of the three generated tags match, or if two or three of the three types of tags are similar, tag importance based on the importance corresponding to the tag A video data identifier corresponding to the tag importance, the video data tag, and an importance level integration unit that stores the tag importance level in association with each other in the tag database. A video data processing apparatus comprising:
前記タグ管理部は、生成された3種の前記タグのそれぞれを映像データダグとし、且つそれぞれの重要度をタグ重要度とし、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する
ことを特徴とする請求項1に記載の映像データ処理装置。 A tag management unit is provided instead of the importance integration unit,
The tag management unit sets each of the generated three types of tags as a video data tag and sets each importance level as a tag importance level, an identifier of video data corresponding to the tag importance level, the video data tag, The video data processing apparatus according to claim 1, wherein the tag importance is associated and stored in the tag database.
前記映像データ処理装置は、
映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、
前記映像データ処理方法においては、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、
該物体の重要度を示すデータを生成し、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、
映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、
一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する
ことを特徴とする映像データ処理方法。 A video data processing method performed by a video data processing apparatus,
The video data processing device comprises:
A tag database that stores a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag importance level indicating the importance level of the video data tag in association with each other;
A dictionary storage unit including a dictionary for character recognition and a dictionary for speech recognition for each of a plurality of categories set in advance for the contents of video data;
In the video data processing method,
Recognizing an object included in video data, generating a tag representing the object and the likelihood of the tag,
Generating data indicating the importance of the object;
If the text recognition dictionary is stored in the dictionary storage unit, the text in the video included in the video data is detected from the video data using the character recognition dictionary,
Generating a voice recognition text that recognizes the voice given to the video data by using the voice recognition dictionary if the voice recognition dictionary is stored in the dictionary storage unit;
A tag representing an important word is extracted from the text in the video, the tag and the importance of the tag are generated, a tag representing the important word is extracted from the speech recognition text, and the tag and the importance of the tag are generated. ,
Once the selected character recognition dictionary and speech recognition dictionary are selected, the category is changed to the speech recognition dictionary of the category changed when the category corresponding to the detected tag in the video is changed, and the detected speech recognition is selected. When the category corresponding to the tag of the text changes, switch to the character recognition dictionary of the changed category and select,
If two or three of the three generated tags match, or if two or three of the three types of tags are similar, tag importance based on the importance corresponding to the tag The tag is used as a video data tag, the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are associated and stored in the tag database. Video data processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065066A JP6389296B1 (en) | 2017-03-29 | 2017-03-29 | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065066A JP6389296B1 (en) | 2017-03-29 | 2017-03-29 | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6389296B1 JP6389296B1 (en) | 2018-09-12 |
JP2018169697A true JP2018169697A (en) | 2018-11-01 |
Family
ID=63518897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017065066A Active JP6389296B1 (en) | 2017-03-29 | 2017-03-29 | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6389296B1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020079982A (en) * | 2018-11-12 | 2020-05-28 | 株式会社日本経済新聞社 | Tagging device for moving images, method, and program |
JP2021135811A (en) * | 2020-02-27 | 2021-09-13 | 東京瓦斯株式会社 | Character input support control device, character input support system, and character input support program |
JP2021190079A (en) * | 2020-06-03 | 2021-12-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method for generating video tag, device, electronic apparatus, and storage medium |
JP2023080708A (en) * | 2021-11-30 | 2023-06-09 | 政志 松本 | Data storage device, data storage method, and data storage program |
WO2024172194A1 (en) * | 2023-02-16 | 2024-08-22 | 쿠팡 주식회사 | Method and electronic device for generating tag information corresponding to image content |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333738A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and method for voice recognition using video information |
JP2005258577A (en) * | 2004-03-09 | 2005-09-22 | Olympus Corp | Character input device, character input method, character input program, and recording medium |
JP2006157108A (en) * | 2004-11-25 | 2006-06-15 | Teac Corp | Video image recording/reproducing apparatus |
JP2007082088A (en) * | 2005-09-16 | 2007-03-29 | Matsushita Electric Ind Co Ltd | Contents and meta data recording and reproducing device and contents processing device and program |
JP2008227943A (en) * | 2007-03-13 | 2008-09-25 | Toshiba Corp | Video processing system and video processing method |
JP2009171480A (en) * | 2008-01-21 | 2009-07-30 | Hitachi Ltd | Video recording and playback apparatus, and video playback apparatus |
JP2011059810A (en) * | 2009-09-07 | 2011-03-24 | Nippon Soken Inc | Image recognition system |
JP2014142202A (en) * | 2013-01-22 | 2014-08-07 | Denso Corp | Vehicle-mounted target detection device |
JP2015049697A (en) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | Information processing apparatus, information processing method, and program |
JP2016080832A (en) * | 2014-10-16 | 2016-05-16 | 日本放送協会 | Learning data generation device and program thereof |
-
2017
- 2017-03-29 JP JP2017065066A patent/JP6389296B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333738A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and method for voice recognition using video information |
JP2005258577A (en) * | 2004-03-09 | 2005-09-22 | Olympus Corp | Character input device, character input method, character input program, and recording medium |
JP2006157108A (en) * | 2004-11-25 | 2006-06-15 | Teac Corp | Video image recording/reproducing apparatus |
JP2007082088A (en) * | 2005-09-16 | 2007-03-29 | Matsushita Electric Ind Co Ltd | Contents and meta data recording and reproducing device and contents processing device and program |
JP2008227943A (en) * | 2007-03-13 | 2008-09-25 | Toshiba Corp | Video processing system and video processing method |
JP2009171480A (en) * | 2008-01-21 | 2009-07-30 | Hitachi Ltd | Video recording and playback apparatus, and video playback apparatus |
JP2011059810A (en) * | 2009-09-07 | 2011-03-24 | Nippon Soken Inc | Image recognition system |
JP2014142202A (en) * | 2013-01-22 | 2014-08-07 | Denso Corp | Vehicle-mounted target detection device |
JP2015049697A (en) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | Information processing apparatus, information processing method, and program |
JP2016080832A (en) * | 2014-10-16 | 2016-05-16 | 日本放送協会 | Learning data generation device and program thereof |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020079982A (en) * | 2018-11-12 | 2020-05-28 | 株式会社日本経済新聞社 | Tagging device for moving images, method, and program |
JP2021135811A (en) * | 2020-02-27 | 2021-09-13 | 東京瓦斯株式会社 | Character input support control device, character input support system, and character input support program |
JP2021190079A (en) * | 2020-06-03 | 2021-12-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Method for generating video tag, device, electronic apparatus, and storage medium |
JP7080300B2 (en) | 2020-06-03 | 2022-06-03 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Video tag generation methods, devices, electronic devices and storage media |
US11508153B2 (en) | 2020-06-03 | 2022-11-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating tag of video, electronic device, and storage medium |
JP2023080708A (en) * | 2021-11-30 | 2023-06-09 | 政志 松本 | Data storage device, data storage method, and data storage program |
JP7345897B2 (en) | 2021-11-30 | 2023-09-19 | 政志 松本 | Data storage device, data storage method, and data storage program |
WO2024172194A1 (en) * | 2023-02-16 | 2024-08-22 | 쿠팡 주식회사 | Method and electronic device for generating tag information corresponding to image content |
Also Published As
Publication number | Publication date |
---|---|
JP6389296B1 (en) | 2018-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6389296B1 (en) | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM | |
CN109117777B (en) | Method and device for generating information | |
US10621991B2 (en) | Joint neural network for speaker recognition | |
JP6824332B2 (en) | Video service provision method and service server using this | |
US8107689B2 (en) | Apparatus, method and computer program for processing information | |
KR100828166B1 (en) | Method of extracting metadata from result of speech recognition and character recognition in video, method of searching video using metadta and record medium thereof | |
CN112738556B (en) | Video processing method and device | |
JP2008533580A (en) | Summary of audio and / or visual data | |
CN114342353A (en) | Method and system for video segmentation | |
CN104798068A (en) | Method and apparatus for video retrieval | |
CN110781328A (en) | Video generation method, system, device and storage medium based on voice recognition | |
CN111639228B (en) | Video retrieval method, device, equipment and storage medium | |
CN112733654B (en) | Method and device for splitting video | |
Hauptmann et al. | Video retrieval using speech and image information | |
JP6917210B2 (en) | Summary video generator and its program | |
CN112382295A (en) | Voice recognition method, device, equipment and readable storage medium | |
CN114090766A (en) | Video text screening method and device and electronic equipment | |
JP2018170001A (en) | Video data processing apparatus, video data processing method, and computer program | |
KR20220055648A (en) | Method and apparatus for generating video script | |
JP4270118B2 (en) | Semantic label assigning method, apparatus and program for video scene | |
CN115438223A (en) | Video processing method and device, electronic equipment and storage medium | |
CN115665508A (en) | Video abstract generation method and device, electronic equipment and storage medium | |
US20140297678A1 (en) | Method for searching and sorting digital data | |
Darji et al. | A review of video classification techniques | |
KR102320851B1 (en) | Information search method in incidental images incorporating deep learning scene text detection and recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6389296 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |