JP2018170001A - Video data processing apparatus, video data processing method, and computer program - Google Patents

Video data processing apparatus, video data processing method, and computer program Download PDF

Info

Publication number
JP2018170001A
JP2018170001A JP2018001720A JP2018001720A JP2018170001A JP 2018170001 A JP2018170001 A JP 2018170001A JP 2018001720 A JP2018001720 A JP 2018001720A JP 2018001720 A JP2018001720 A JP 2018001720A JP 2018170001 A JP2018170001 A JP 2018170001A
Authority
JP
Japan
Prior art keywords
tag
video data
importance
text
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018001720A
Other languages
Japanese (ja)
Inventor
勇一朗 浦田
Yuichiro Urata
勇一朗 浦田
佳宏 西川
Yoshihiro Nishikawa
佳宏 西川
大介 堀部
Daisuke Horibe
大介 堀部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Publication of JP2018170001A publication Critical patent/JP2018170001A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a video data processing apparatus which adds appropriate meta data to video data.SOLUTION: A video data processing apparatus includes: an object recognition unit 20 which recognizes an object included in video data, and generates a tag representing the object and likelihood of the tag; an internal text detection unit 30 which detects an internal text included in the video data; a voice recognition unit 40 which recognizes voice added to the video data to generate a voice recognition text; a natural language processing unit 50 which extracts a tag representing an important word from the internal text to generate the tag and importance of the tag, and extracts a tag representing an important word from the voice recognition text to generate the tag and importance of the tag; and an importance integration unit 70 which determines tag importance, when two or three of generated three kinds of tags are identical or similar, on the basis of the importance of the tags, to store video data tag in a tag database 80 in association with the tag importance.SELECTED DRAWING: Figure 1

Description

本発明は、複数の映像データから、目的の映像データを検索する映像データ処理装置、映像データ処理方法、及びコンピュータプログラムに関する。   The present invention relates to a video data processing apparatus, a video data processing method, and a computer program for searching for target video data from a plurality of video data.

映像配信サービスの多様化により、視聴できる映像データの数は増加している。また、ディジタルカメラ、携帯端末等による動画撮影が容易になったことから、映像配信サービス以外で得られる映像データの数も急増している。その結果、映像データが氾濫する環境になって来ている。   With the diversification of video distribution services, the number of video data that can be viewed is increasing. In addition, since it has become easier to shoot moving images using a digital camera, a portable terminal, etc., the number of video data that can be obtained by other than video distribution services has increased rapidly. As a result, the environment is flooded with video data.

そのような環境において、目的の映像データを利用者が視聴する為には、映像データに適切なメタデータを付与しておく必要がある。映像データの従来のメタデータの付与方法は、例えば特許文献1に開示されている。   In such an environment, in order for the user to view the target video data, it is necessary to add appropriate metadata to the video data. A conventional method for assigning metadata of video data is disclosed in, for example, Patent Document 1.

特開2010−68434号公報JP 2010-68434 A

しかしながら、従来のメタデータの付与方法は、予め登録したキーワードの中から選択したキーワードをメタデータとする方法であり、映像データに適切なメタデータを付与できない。つまり、登録したキーワードに対応しない映像データには、適切なメタデータを付与することが出来ないという課題がある。   However, the conventional method of assigning metadata is a method in which a keyword selected from keywords registered in advance is used as metadata, and appropriate metadata cannot be assigned to video data. That is, there is a problem that video data that does not correspond to the registered keyword cannot be given appropriate metadata.

本発明は、この課題に鑑みてなされたものであり、映像データに適切なメタデータを付与できる映像データ処理装置、映像データ処理方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of this problem, and an object of the present invention is to provide a video data processing device, a video data processing method, and a program that can give appropriate metadata to video data.

本実施形態の一態様に係る映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、該物体の重要度を示すデータを生成する重要度生成部と、映像データに含まれる映像内テキストを検出する映像データ内テキスト検出部と、映像データに付与された音声を認識して音声認識テキストを生成する音声認識部と、前記映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成する自然言語処理部と、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部とを備えることを要旨とする。   The video data processing apparatus according to an aspect of the present embodiment includes, for each video data, a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag indicating the importance of the video data tag. A tag database that stores the degree of importance in association with each other, an object that recognizes an object included in the video data, generates a tag that represents the object, and the likelihood of the tag, and data that indicates the degree of importance of the object An importance generation unit that generates a text, an in-video data text detection unit that detects text in the video included in the video data, a voice recognition unit that recognizes a voice given to the video data and generates a voice recognition text, A tag representing an important word is extracted from the text in the video, a tag and an importance of the tag are generated, a tag representing an important word is extracted from the speech recognition text, and the tag and the importance of the tag When two or three of the three types of generated tags match, or when two or three of the three types of tags are similar, it corresponds to the tag The tag importance is obtained based on the importance, and the tag is used as a video data tag, the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are associated with each other in the tag database. The gist is to include an importance level integration unit for storing.

また、本実施形態の一態様に係る映像データ処理方法は、上記の映像データ処理装置が行う映像データ処理方法であって、前記映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースを備え、前記映像データ処理方法においては、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを検出し、映像データに付与された音声を認識して音声認識テキストを生成し、前記映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶することを要旨とする。   A video data processing method according to an aspect of the present embodiment is a video data processing method performed by the video data processing device, and the video data processing device is configured to display a video indicating the video data for each video data. A tag database for storing a data identifier, a video data tag representing the content of the video data, and a tag importance level representing the importance level of the video data tag in association with each other; Recognize the included object, generate a tag representing the object and the likelihood of the tag, generate data indicating the importance of the object, detect the text in the video included in the video data, and attach it to the video data A speech recognition text is generated to generate a speech recognition text, a tag representing an important word is extracted from the in-video text, the tag and the importance of the tag are generated, and the speech recognition text A tag representing an important word is extracted from the tag, and the importance of the tag and the tag is generated. If two or three of the generated three tags match, or the three of the tags If two or three of the two are similar, the tag importance is calculated based on the importance corresponding to the tag, the video tag corresponding to the tag importance is used as the video data tag, and the video The gist is to store the data tag and the tag importance in association with each other in the tag database.

また、本発明のコンピュータプログラムは、上記の映像データ処理装置としてコンピュータを機能させるようにしたものである。   A computer program according to the present invention causes a computer to function as the video data processing apparatus.

本発明によれば、映像データに適切なメタデータを付与できる。   According to the present invention, appropriate metadata can be assigned to video data.

第1実施形態の映像データ処理装置の機能構成例を示す図である。It is a figure which shows the function structural example of the video data processing apparatus of 1st Embodiment. 図1に示す映像データ処理装置が行うタグデータベース生成の動作フローを示す図である。It is a figure which shows the operation | movement flow of the tag database production | generation which the video data processing apparatus shown in FIG. 1 performs. 映像データを、図1に示すシーン分割部でシーンに分割した例を示す図である。It is a figure which shows the example which divided | segmented video data into the scene by the scene division part shown in FIG. 図1に示す物体認識部で認識した物体の例を示す図である。It is a figure which shows the example of the object recognized by the object recognition part shown in FIG. 図1に示す映像データ内テキスト検出部で検出した映像データ内テキストの例を示す図である。It is a figure which shows the example of the text in video data detected by the text detection part in video data shown in FIG. 図1に示す自然言語処理部が生成する文字認識タグの例を示す図である。It is a figure which shows the example of the character recognition tag which the natural language process part shown in FIG. 1 produces | generates. 図1に示す自然言語処理部が生成する音声認識タグの例を示す図である。It is a figure which shows the example of the speech recognition tag which the natural language process part shown in FIG. 1 produces | generates. 図1に示す重要度生成部が生成する物体タグの例を示す図である。It is a figure which shows the example of the object tag which the importance generation part shown in FIG. 1 produces | generates. 図1に示す重要度統合部の動作フローの例を示す図である。It is a figure which shows the example of the operation | movement flow of the importance integration part shown in FIG. 映像データタグとタグ重要度の例を示す図である。It is a figure which shows the example of a video data tag and tag importance. タグDB80に記憶された文字認識タグ、音声認識タグ、及びタグ重要度の具体例を示す図である。It is a figure which shows the specific example of the character recognition tag memorize | stored in tag DB80, a voice recognition tag, and tag importance. 第2実施形態の映像データ処理装置の機能構成例を示す図である。It is a figure which shows the function structural example of the video data processing apparatus of 2nd Embodiment. 図12に示す認識精度評価部の動作フローの例を示す図である。It is a figure which shows the example of the operation | movement flow of the recognition accuracy evaluation part shown in FIG. 第3実施形態の映像データ処理装置の機能構成例を示す図である。It is a figure which shows the function structural example of the video data processing apparatus of 3rd Embodiment. 文字領域の面積と認識結果の適合率との関係を調べた結果を示す図である。It is a figure which shows the result of having investigated the relationship between the area of a character area, and the relevance rate of a recognition result.

以下、本発明の実施の形態について図面を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

〔第1実施形態〕
図1に、第1実施形態の映像データ処理装置1の機能構成例を示す。映像データ処理装置1は、シーン分割部10、物体認識部20、映像データ内テキスト検出部30、音声認識部40、自然言語処理部50、重要度生成部60、重要度統合部70、タグデータベース80、映像管理部90、及び映像データベース91を備える。映像データ処理装置1は、映像データに含まれる情報に基づいて、映像データに適切なメタデータを付与したデータベースを生成する。以降において、データベースはDBと表記する。
[First Embodiment]
FIG. 1 shows a functional configuration example of the video data processing apparatus 1 according to the first embodiment. The video data processing apparatus 1 includes a scene division unit 10, an object recognition unit 20, a text detection unit 30 in video data, a speech recognition unit 40, a natural language processing unit 50, an importance generation unit 60, an importance integration unit 70, a tag database. 80, a video management unit 90, and a video database 91. The video data processing device 1 generates a database in which appropriate metadata is added to video data based on information included in the video data. Hereinafter, the database is referred to as DB.

タグDB80は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶する。映像データタグは、映像データから抽出したキーワードやキーフレーズを表すテキストデータである。   The tag DB 80 stores, for each video data, a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag importance level indicating the importance level of the video data tag in association with each other. The video data tag is text data representing a keyword or key phrase extracted from the video data.

図2に示す映像データ処理装置1の動作フローを参照してその動作を説明する。なお、図2では、物体認識、映像データ内テキスト検出、及び音声認識を時系列に処理するフローを示すが、各処理は同時(並列)に処理しても良い。   The operation will be described with reference to the operation flow of the video data processing apparatus 1 shown in FIG. Note that FIG. 2 shows a flow of processing object recognition, text detection in video data, and speech recognition in time series, but each processing may be performed simultaneously (in parallel).

シーン分割部10は、映像データを複数のシーンに分割する(ステップS1)。シーンは、例えば映像データに付与された音声を音声区間ごとに分割した映像の範囲である。又は、映像の区間ごとに分割しても良い。映像の区間ごととは、例えば、映像データを構成する画素の明度の変化が一定の範囲の単位、又は画素の色調の変化が一定の範囲の単位である。なお、分割は一定時間の単位で区切っても良い。   The scene dividing unit 10 divides the video data into a plurality of scenes (step S1). A scene is, for example, a video range obtained by dividing audio added to video data for each audio section. Or you may divide | segment for every area | region of an image | video. Each video section is, for example, a unit in a range where the brightness of pixels constituting video data is in a certain range or a unit in which a change in color tone of a pixel is in a certain range. The division may be divided in units of a certain time.

また、シーン分割部10は、一般的な動画配信システムAPI(Application Programming Interface)を用いて実現しても良い。動画配信システムAPIとしては、例えばエヌ・ティ・ティ アイティ製のviaPlatz(登録商標)を用いることができる。なお、シーン分割部10の機能は、後述する物体認識部20、映像データ内テキスト検出部30、及び音声認識部40の各機能構成部に含めても良い。   The scene dividing unit 10 may be realized by using a general video distribution system API (Application Programming Interface). As the moving image distribution system API, for example, viaPlatz (registered trademark) manufactured by NTTI can be used. The function of the scene dividing unit 10 may be included in each functional component of the object recognizing unit 20, the in-video data text detecting unit 30, and the voice recognizing unit 40 described later.

図3に、映像データを、シーン分割部10で分割した例を示す。図3の1列目は、映像データを識別する映像データ識別子である。2列目は分割したシーンの番号であり、3列目はシーンの時間を示す。映像データ識別子A001のシーン1は、映像の開始から10秒間、シーン2はシーン1の後の5秒間であることが分かる。なお、時間の分解能は、1秒以下の例えばmsで有っても良い。また、分解能はフレーム単位で有っても良い。   FIG. 3 shows an example in which video data is divided by the scene dividing unit 10. The first column in FIG. 3 is a video data identifier for identifying video data. The second column shows the number of the divided scene, and the third column shows the scene time. It can be seen that scene 1 with video data identifier A001 is 10 seconds after the start of the video, and scene 2 is 5 seconds after scene 1. The time resolution may be, for example, ms of 1 second or less. The resolution may be in units of frames.

物体認識部20は、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する(ステップS2)。物体認識部20は、映像データを分割したシーンごとの画像から、例えばBoF(Bag of Features)法の特徴量を抽出し、予め物体と関連付けられた特徴量と比較することで、画像に映った物体を認識する。   The object recognition unit 20 recognizes an object included in the video data, and generates a tag representing the object and the likelihood of the tag (step S2). The object recognizing unit 20 extracts, for example, a feature amount of a BoF (Bag of Features) method from an image for each scene obtained by dividing video data, and compares the feature amount with a feature amount associated with an object in advance. Recognize objects.

なお、物体認識部20は、シーンに対応させて物体を認識する必要はない。複数のシーンから物体を認識しても良い。また、画像が画像から抽出する特徴量は、何でも構わない。特徴量は、例えば色ヒストグラム等で有っても良い。又は、一般的な画像認識APIを用いて物体認識部20を構成しても良い。   The object recognizing unit 20 does not need to recognize an object corresponding to a scene. An object may be recognized from a plurality of scenes. Further, the feature amount extracted from the image may be anything. The feature amount may be, for example, a color histogram. Alternatively, the object recognition unit 20 may be configured using a general image recognition API.

物体認識部20は、映像データのフレームレートが24f/秒〜60f/秒で有ったとすると、1秒(24〜60フレーム)から例えば1枚の画像を抽出し、該画像から物体を認識する。なお、画像の抽出間隔は、任意で良く、例えば2秒ごとに抽出しても良いし、0.5秒ごとに抽出しても良い。   If the frame rate of the video data is 24 f / sec to 60 f / sec, the object recognition unit 20 extracts, for example, one image from 1 second (24 to 60 frames), and recognizes the object from the image. . Note that the image extraction interval may be arbitrary, for example, may be extracted every 2 seconds, or may be extracted every 0.5 seconds.

図4に、物体認識部20で認識した物体の例を示す。図4の1列目は、映像データを識別する映像データ識別子である。2列目は認識した物体を表す物体タグ、3列目は該タグの尤度、4列目は該タグを認識した映像データの開始からの時刻である。   FIG. 4 shows an example of an object recognized by the object recognition unit 20. The first column in FIG. 4 is a video data identifier for identifying video data. The second column is an object tag representing the recognized object, the third column is the likelihood of the tag, and the fourth column is the time from the start of the video data that recognized the tag.

図4の1行目は、映像データ識別子「A001」の映像データの開始から1秒後の画像から「金閣寺」が認識され、その尤度は「0.7」で有ることを示している。尤度は、1.0に近い程、その物らしいことを表す。   The first line in FIG. 4 indicates that “Kinkakuji” is recognized from the image one second after the start of the video data with the video data identifier “A001”, and its likelihood is “0.7”. As the likelihood is closer to 1.0, it represents that thing.

この例では、映像データの開始から2秒後の画像から「木立」、3秒後の画像から「池」をそれぞれ認識する例を示しているが、1画像から複数のタグを抽出しても良い。又、物体タグは、分割したシーン番号と対応付けても良い。   In this example, “Kitsu” is recognized from the image 2 seconds after the start of the video data, and “Pond” is recognized from the image 3 seconds later, but multiple tags can be extracted from one image. good. The object tag may be associated with the divided scene number.

映像データ内テキスト検出部30は、映像データに含まれる映像内テキストを検出する(ステップS3)。映像データに含まれる映像内テキストとは、映像データを構成する画像に映った例えば看板等の文字のことである。又は、スーパーインポーズ(superimpose)で画像に付けられた字幕や、テロップ(telop)等で映される文字のことである。   The video data internal text detection unit 30 detects video internal text included in the video data (step S3). The in-video text included in the video data is a character such as a signboard shown in an image constituting the video data. Alternatively, it is a subtitle attached to an image by superimpose or a character projected by telop or the like.

図5に、映像データ内テキスト検出部30で検出した映像内テキストの例を示す。図5の1列目は、映像データを識別する映像データ識別子である。2列目は検出した映像内テキスト、3列目は該映像内テキストを検出した映像データの開始からの時刻である。   FIG. 5 shows an example of the in-video text detected by the in-video data text detection unit 30. The first column in FIG. 5 is a video data identifier for identifying video data. The second column is the text in the detected video, and the third column is the time from the start of the video data in which the text in the video is detected.

図5は、映像データ識別子「A001」の映像データの開始から1秒後の画像から「秋の金閣寺」の映像内テキストが検出されたことを示している。この映像内テキストは、画像に映された例えば「秋の金閣寺」と表記されたテロップから検出される。   FIG. 5 shows that the in-video text of “Autumn Kinkakuji” is detected from the image one second after the start of the video data with the video data identifier “A001”. This in-video text is detected from, for example, a telop written as “Autumn Kinkakuji” in the image.

音声認識部40は、映像データに付与された音声を認識して音声認識テキストを生成する(ステップS4)。音声認識部40は、一般的な音声認識装置で実現できる。音声認識装置としては、例えばエヌ・ティ・ティ アイティ製のSpeech Rec(登録商標)を用いることができる。   The voice recognition unit 40 recognizes the voice given to the video data and generates a voice recognition text (step S4). The voice recognition unit 40 can be realized by a general voice recognition device. For example, Speech Rec (registered trademark) manufactured by NTT IT can be used as the speech recognition apparatus.

映像データに付与された音声を、例えば「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合、音声認識部40は、その音声を音声認識テキストに変換して出力する。   For example, if the voice given to the video data is “Kinkakuji Temple with autumn leaves in the background. 40 converts the speech into speech recognition text and outputs it.

自然言語処理部50は、映像データ内テキストから重要語を表す文字認識タグを抽出し、該タグと該タグの重要度を生成し、音声認識テキストから重要語を表す音声認識タグを抽出し、該タグと該タグの重要度を生成する(ステップS5)。自然言語処理部50は、音声認識テキストの形態素解析、文脈解析、及び意味解析等を行い音声認識テキストからキーワード(重要語)を抽出する。そして、例えばTF−IDF法を用いてキーワードの重要度を生成する。重要度は、例えば0〜100の範囲の数値情報である。   The natural language processing unit 50 extracts a character recognition tag representing an important word from the text in the video data, generates the tag and the importance of the tag, extracts a speech recognition tag representing the important word from the speech recognition text, The tag and the importance level of the tag are generated (step S5). The natural language processing unit 50 performs morphological analysis, context analysis, semantic analysis, and the like of the speech recognition text, and extracts keywords (important words) from the speech recognition text. And the importance of a keyword is produced | generated using TF-IDF method, for example. The importance is, for example, numerical information in the range of 0-100.

自然言語処理部50は、映像データ内テキストについて、音声認識テキストと同様の処理を行って文字認識タグの重要度を生成する。図6に、自然言語処理部50が生成した文字認識タグと重要度の例を示す。図6の1列目は映像データ識別子、2列目は文字認識タグ、3列目は重要度、4列目は時刻である。   The natural language processing unit 50 performs the same process as the voice recognition text on the text in the video data, and generates the importance of the character recognition tag. FIG. 6 shows an example of a character recognition tag and importance generated by the natural language processing unit 50. The first column in FIG. 6 is the video data identifier, the second column is the character recognition tag, the third column is the importance, and the fourth column is the time.

図6の1列目は映像データ識別子、2列目は文字認識タグ、3列目は重要度、4列目は時刻である。この例では、映像データ識別子A001で識別される映像データの開始から1秒に「秋」と「金閣寺」の文字認識タグが生成されたことを示している。   The first column in FIG. 6 is the video data identifier, the second column is the character recognition tag, the third column is the importance, and the fourth column is the time. In this example, it is shown that the character recognition tags “autumn” and “Kinkakuji” are generated in one second from the start of the video data identified by the video data identifier A001.

図7に、自然言語処理部50で生成した音声認識タグとその重要度を例示する。図7の列方向は、タグが音声認識タグである点が異なるだけで図6と同じである。   FIG. 7 illustrates a speech recognition tag generated by the natural language processing unit 50 and its importance. The column direction in FIG. 7 is the same as FIG. 6 except that the tag is a voice recognition tag.

図7に示す例は、音声認識テキストを、「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合である。その音声認識テキストから、「秋」、「紅葉」、「金閣寺」、「木立」、「池」、及び「水面」の音声認識タグを生成する。   The example shown in FIG. 7 is a case where the speech recognition text is “Kinkakuji Temple with autumn leaves in the background. It is a stunning scenery reflecting its appearance on the surface of a pond against the background of autumn leaves of trees.” . From the speech recognition text, speech recognition tags of “Autumn”, “Autumn leaves”, “Kinkakuji”, “Kidachi”, “Pond”, and “Water surface” are generated.

各々の音声認識テキストの重要度は、例えば、「秋」が90、「紅葉」が80、「金閣寺」が90、「木立」が50、「水面」が60、である。各々の音声認識テキストが生成された時刻は、順に、「秋」が5秒、「紅葉」が6秒、「金閣寺」が8秒、「木立」が10秒、「水面」が11秒である。「水面」以降の音声認識タグと重要度の表記は省略している。   The importance of each speech recognition text is, for example, 90 for “Autumn”, 80 for “Autumn leaves”, 90 for “Kinkakuji”, 50 for “Kidachi”, and 60 for “Water”. The time when each voice recognition text was generated is 5 seconds for “Autumn”, 6 seconds for “Autumn leaves”, 8 seconds for “Kinkakuji”, 10 seconds for “Kidachi”, and 11 seconds for “Water”. . The speech recognition tag and importance notation after “water surface” are omitted.

重要度生成部60は、物体認識部20が認識した物体(物体タグ)の重要度を示すデータを生成する(ステップS6)。重要度は、例えば物体タグの物体が画像に占める割合から求めても良い。画像における「金閣寺」の像の割合が60%以上であれば重要度を例えば90、像の割合が50%以下であれば重要度を50といった様に、画像中に占める物体の面積の割合に対応させて重要度を生成する。又は、物体認識部20が出力する尤度を重要度に変換しても良い。例えば、尤度を100倍した値を重要度として用いても良い。   The importance generation unit 60 generates data indicating the importance of the object (object tag) recognized by the object recognition unit 20 (step S6). The importance may be obtained from the ratio of the object of the object tag to the image, for example. If the ratio of the image of “Kinkakuji” in the image is 60% or more, the importance is 90, for example, if the ratio of the image is 50% or less, the importance is 50. The importance is generated in correspondence. Alternatively, the likelihood output by the object recognition unit 20 may be converted into importance. For example, a value obtained by multiplying the likelihood by 100 may be used as the importance.

図8に、重要度生成部60が生成した重要度の例を示す。図8の列と行は、尤度が重要度に代わった点が異なるだけで図4と同じである。図8に示す重要度は、図4に示した尤度を100倍した値である。   FIG. 8 shows an example of importance generated by the importance generation unit 60. The columns and rows in FIG. 8 are the same as those in FIG. 4 except that the likelihood is replaced with the importance. The importance shown in FIG. 8 is a value obtained by multiplying the likelihood shown in FIG. 4 by 100.

重要度統合部70は、生成された3種のタグの内の2つ又は3つが一致する場合、又は3種のタグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB80に記憶する(ステップS7)。生成された3種のタグとは、上記の「物体タグ」、「文字認識タグ」、「音声認識タグ」である。   The importance integration unit 70, when two or three of the generated three types of tags match, or when two or three of the three types of tags are similar, the importance corresponding to the tag The tag importance is obtained based on the tag, and the tag is used as a video data tag, and the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are associated and stored in the tag DB 80 (step S7). The generated three types of tags are the above-mentioned “object tag”, “character recognition tag”, and “voice recognition tag”.

タグの一致の判定は、部分一致で行ってもよく、半角・全角やアルファベットの大文字・小文字等の統一処理後に行ってもよい。タグの類似の判定は、例えば、重要度統合部70が備える類似語辞書や表現ゆらぎ辞書を参照して行う。図1において、類似語辞書及び表現ゆらぎ辞書の表記は省略している。   The tag match determination may be performed by partial match or after unification processing of half-width / full-width or uppercase / lowercase letters. The tag similarity determination is performed with reference to, for example, a similar word dictionary or an expression fluctuation dictionary provided in the importance level integration unit 70. In FIG. 1, the similar word dictionary and the expression fluctuation dictionary are not shown.

重要度統合部70は、一致する又は類似するタグに対応する重要度に基づいてタグ重要度を求め、一致する又は類似するタグを映像データタグとする。一致する又は類似するタグは、映像データの内容を、より良く表すタグであると考えられる。   The importance level integration unit 70 obtains the tag importance level based on the importance level corresponding to the matching or similar tag, and sets the matching or similar tag as the video data tag. A matching or similar tag is considered to be a tag that better represents the content of the video data.

そこで、3種のタグ(「物体タグ」、「文字認識タグ」、「音声認識タグ」)が一致する例えば「金閣寺」を映像データタグとし、そのタグ重要度を各々の重要度の例えば合計(70+90+90=250)とする。そして、映像データを識別する映像データ識別子と映像データタグとタグ重要度を、対応付けてタグDB80に記憶する。   Therefore, for example, “Kinkakuji” in which the three types of tags (“object tag”, “character recognition tag”, “voice recognition tag”) coincide with each other is set as a video data tag, and the tag importance is, for example, the sum of each importance ( 70 + 90 + 90 = 250). Then, the video data identifier for identifying the video data, the video data tag, and the tag importance are stored in the tag DB 80 in association with each other.

以上説明したステップS1〜S7の処理は、全ての映像データについて終了するまで繰り返される(ステップS8のNO)。   The processes in steps S1 to S7 described above are repeated until the process is completed for all video data (NO in step S8).

一方、映像データは、映像管理部90によって、映像データを示す映像データ識別子と対応付けられて映像DB91に記憶されている。したがって、タグDB80を、タグ重要度の大きい順に検索することで、視聴したい映像データの映像データ識別子を的確に抽出することができる。   On the other hand, the video data is stored in the video DB 91 in association with the video data identifier indicating the video data by the video management unit 90. Therefore, by searching the tag DB 80 in descending order of tag importance, the video data identifier of the video data desired to be viewed can be accurately extracted.

その後、抽出した映像データ識別子で、映像DB91を検索することで目的の映像データを取り出すことができる。なお、映像データは、シーン単位で検索することも可能である。   Thereafter, the target video data can be extracted by searching the video DB 91 with the extracted video data identifier. Note that the video data can also be searched in scene units.

タグDB80から目的の映像データの映像データ識別子を検索し、該映像データ識別子に対応する映像データを映像DB91から取り出す処理は、映像検索部が行う。なお、図1において映像検索部の表記は省略している。   The video search unit performs processing for searching the video data identifier of the target video data from the tag DB 80 and retrieving the video data corresponding to the video data identifier from the video DB 91. In FIG. 1, the notation of the video search unit is omitted.

以上説明した本実施形態の映像データ処理装置1が行う映像データ処理方法は映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを検出し、映像データに付与された音声を認識して音声認識テキストを生成し、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、生成された3種のタグの内の2つ又は3つが一致する場合、又は3種のタグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB80に記憶する。   The video data processing method performed by the video data processing apparatus 1 according to the present embodiment described above recognizes an object included in the video data, generates a tag representing the object and the likelihood of the tag, and determines the importance of the object. Generating video data, detecting in-video text included in the video data, recognizing audio given to the video data to generate voice recognition text, extracting tags representing important words from the video text, A tag and an importance level of the tag are generated, a tag representing an important word is extracted from the speech recognition text, an importance level of the tag and the tag is generated, and two or three of the generated three kinds of tags If two match or two or three of the three types of tags are similar, the tag importance is calculated based on the importance corresponding to the tag, and the matching tag is used as the video data tag. Video data corresponding to importance An identifier, and the video data tag stored in the tag DB80 in association with the tag importance.

この本実施の形態の映像データ処理方法によれば、映像データに適切なメタデータを付与したデータベース(タグDB80)を生成することができる。次に、重要度統合部70の動作を更に詳しく説明する。   According to the video data processing method of the present embodiment, it is possible to generate a database (tag DB 80) in which appropriate metadata is added to video data. Next, the operation of the importance level integration unit 70 will be described in more detail.

〔重要度統合部〕
図9に示す重要度統合部70の動作フローを参照してその動作を説明する。
[Importance Integration Department]
The operation will be described with reference to the operation flow of the importance integration unit 70 shown in FIG.

重要度統合部70は、ダグDB80に記憶された1つのタグが、3つのタグ種の間(物体タグ、文字認識タグ、音声認識タグ)で、一致する又は類似する物が有るか否かを判定する(ステップS70)。以降では、図6、図7、図8において同じ映像データ識別子に対応する同じタグの有無を判定する例で説明する。   The importance level integration unit 70 determines whether one tag stored in the Doug DB 80 matches or is similar between the three tag types (object tag, character recognition tag, voice recognition tag). Determine (step S70). Hereinafter, an example in which the presence / absence of the same tag corresponding to the same video data identifier in FIGS. 6, 7 and 8 is determined will be described.

一致するタグが無い場合、例えば音声認識タグしか存在しない「水面」については、音声認識タグをそのまま映像データタグとし(ステップS71)、音声認識タグの重要度をタグ重要度とし、映像データ識別子と対応付けてタグDB80に記憶する(ステップS72)。そして、他のタグ(物体タグ、文字認識タグ、音声認識タグ)について一致するものが有るか否かの判定に戻る(ステップS70のNO→ステップS73のNO)。この繰り返しは、全ての映像データについて終了(ステップS73のYES)するまで繰り返される。   If there is no matching tag, for example, for “water surface” where only the voice recognition tag exists, the voice recognition tag is used as it is as the video data tag (step S71), the importance of the voice recognition tag is set as the tag importance, and the video data identifier The data are stored in the tag DB 80 in association with each other (step S72). Then, the process returns to the determination of whether there is a match for other tags (object tag, character recognition tag, voice recognition tag) (NO in step S70 → NO in step S73). This repetition is repeated until all the video data is finished (YES in step S73).

一致するタグが有る場合は、全てのタグ種が一致するか否かを判定する(ステップS74)。全てのタグ種が一致する場合(ステップS74のYES)、重要度統合部70は、一致するタグに対応する重要度に基づいてタグ重要度を求める(ステップS75)。タグ重要度は、例えば一致するタグに対応する重要度の合計を2倍した値である。全てのタグが一致するタグは、上記の例では「金閣寺」である。なお、タグ重要度の値は、各重要度の平均値で有っても良い。   If there is a matching tag, it is determined whether or not all tag types match (step S74). When all the tag types match (YES in step S74), the importance level integration unit 70 obtains the tag importance level based on the importance level corresponding to the matching tag (step S75). The tag importance is, for example, a value obtained by doubling the total importance corresponding to matching tags. The tag that matches all the tags is “Kinkakuji” in the above example. The tag importance value may be an average value of each importance.

次に重要度統合部70は、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB80に記憶する(ステップS76)。   Next, the importance level integration unit 70 uses the matching tag as a video data tag, stores the video data identifier corresponding to the tag importance level, the video data tag, and the tag importance level in the tag DB 80 in association with each other. (Step S76).

全てのタグが一致しない場合(ステップS74のNO)、重要度統合部70は、次に2つのタグ種が一致するか否かを判定する(ステップS77)。2つのタグ種が一致しない場合は、ステップS70に戻る。つまり、異なるタグ種間で一致するタグが無い場合、重要度の値は変化せずそのままタグ重要度としてタグDB80に記憶される。   If all the tags do not match (NO in step S74), the importance integrating unit 70 next determines whether or not the two tag types match (step S77). If the two tag types do not match, the process returns to step S70. That is, when there is no matching tag between different tag types, the importance value is not changed and is directly stored in the tag DB 80 as the tag importance.

2つのタグ種が一致する場合(ステップS77のYES)、重要度統合部70は、一致するタグに対応する重要度に基づいてタグ重要度を求める(ステップS78)。2つのタグ種間でタグが一致する場合のタグ重要度は、例えば一致するタグに対応する重要度の合計を1.5倍した値である。2つのタグ種で一致するタグは、上記の例では「秋」である。このように、タグ重要度は、各重要度の合計値又は平均値に、一致するタグの数が多いほど大きな重みが乗ぜられた値になる。   When the two tag types match (YES in step S77), the importance level integration unit 70 obtains the tag importance level based on the importance level corresponding to the matching tag (step S78). The tag importance when the tags match between the two tag types is, for example, a value obtained by multiplying the total importance corresponding to the matching tags by 1.5. The tag that matches the two tag types is “autumn” in the above example. Thus, the tag importance is a value obtained by multiplying the total value or average value of each importance by a greater weight as the number of matching tags increases.

なお、タグ重要度は、一致するタグを抽出する抽出精度を考慮した値にしても良い。つまり、タグ重要度は一致するタグを抽出する抽出精度を考慮した値であり、抽出精度の高いタグに対応する重要度に、大きな重みを乗じて求めても良い。抽出精度とは、画像認識、文字認識、及び音声認識のそれぞれの認識精度のことである。   Note that the tag importance may be a value that considers the extraction accuracy for extracting matching tags. That is, the tag importance is a value that considers the extraction accuracy for extracting matching tags, and may be obtained by multiplying the importance corresponding to a tag with high extraction accuracy by a large weight. The extraction accuracy is the recognition accuracy of each of image recognition, character recognition, and speech recognition.

具体的には、例えば音声認識テキストの認識精度が、物体認識の認識精度よりも高い場合、音声認識テキストから抽出した音声認識タグに対応する重要度に大きな重みを乗じる。また、物体認識の認識精度が、音声認識テキストの認識精度よりも高い場合、物体認識で認識した物体タグに大きな重みを乗じる。要するに、タグ重要度=物体タグの重要度×重みα+文字認識タグの重要度×重みβ+音声認識タグの重要度×重みγのそれぞれの重みα,β,γの値を認識精度に応じて変えても良い。   Specifically, for example, when the recognition accuracy of the speech recognition text is higher than the recognition accuracy of the object recognition, the importance corresponding to the speech recognition tag extracted from the speech recognition text is multiplied by a large weight. When the recognition accuracy of object recognition is higher than the recognition accuracy of speech recognition text, a large weight is applied to the object tag recognized by object recognition. In short, tag importance = importance of object tag × weight α + importance of character recognition tag × weight β + importance of voice recognition tag × weight γ, and change each weight α, β, γ according to recognition accuracy May be.

次に重要度統合部70は、2つのタグ種が一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグDB80に記憶する(ステップS79)。   Next, the importance level integration unit 70 associates the tag of the two tag types as a video data tag, and associates the video data identifier corresponding to the tag importance level, the video data tag, and the tag importance level. Store in the tag DB 80 (step S79).

図10に、タグDB80に記憶された映像データタグとタグ重要度の例を示す。図10の1列目は映像データ識別子、2列目は映像データタグ、3列目はタグ重要度である。全てのタグ種間で一致する映像データタグである「金閣寺」のタグ重要度は360で最も高い値である。文字認識タグと音声認識タグの2つが生成された映像データタグである「秋」のタグ重要度は270である。音声認識タグのみが生成された映像データタグである「水面」のタグ重要度は60である。   FIG. 10 shows an example of the video data tag and tag importance stored in the tag DB 80. The first column in FIG. 10 is the video data identifier, the second column is the video data tag, and the third column is the tag importance. The tag importance of “Kinkakuji”, which is a video data tag that matches between all tag types, is the highest value at 360. The tag importance of “autumn”, which is a video data tag in which two character recognition tags and voice recognition tags are generated, is 270. The tag importance of “water surface”, which is a video data tag in which only a voice recognition tag is generated, is 60.

図11に、タグDB80に記憶された文字認識タグ、音声認識タグ、及びタグ重要度の具体例を示す。物体認識タグについては、説明を簡単にするために省略している。統合したタグのタグ重要度については、例えば、重みβ=0.7、重みγ=0.3として計算した。   In FIG. 11, the specific example of the character recognition tag memorize | stored in tag DB80, a voice recognition tag, and tag importance is shown. The object recognition tag is omitted for simplicity of explanation. The tag importance of the integrated tags is calculated with weight β = 0.7 and weight γ = 0.3, for example.

図11の左側から、文字認識タグ、音声認識タグ、タグ重要度(統合したタグ)の列が並び、行方向が各タグとスコアである。タグ重要度の備考に、タグ重要度のスコアを求めた計算式を示す。   From the left side of FIG. 11, columns of character recognition tags, voice recognition tags, and tag importance (integrated tags) are arranged, and the row direction is each tag and score. The remarks on tag importance show the formula for calculating the tag importance score.

「NTT西日本(D1)」のタグは、大文字(B1)・小文字(C3)を統一した後に統合している。「イチオシ(B2)」と「一押し(C2)」は、表現ゆらぎ辞書により統合を行っている。「関西(D3)」は、文字列の部分一致(B4とC5)により統合している。「全国(D5)」と「天気(D6)」については、完全一致により統合を行っている。   The tag “NTT West Japan (D1)” is integrated after unifying uppercase letters (B1) and lowercase letters (C3). “Recommended (B2)” and “One push (C2)” are integrated by the expression fluctuation dictionary. “Kansai (D3)” is integrated by partial matching of character strings (B4 and C5). “Nationwide (D5)” and “Weather (D6)” are integrated by perfect agreement.

文字認識と音声認識の両方で抽出されたタグのタグ重要度は、どちらか一方のみで抽出されたタグよりも高スコアで統合できている。文字認識と音声認識の両方で検出された例えば、「全国」、「天気」のタグ重要度は、文字認識のみで抽出された「新サービス」よりも高スコアである。   Tag importance of tags extracted by both character recognition and voice recognition can be integrated with a higher score than tags extracted by only one of them. For example, the tag importance of “Nationwide” and “Weather” detected by both character recognition and voice recognition has a higher score than “new service” extracted only by character recognition.

以上説明したステップS70〜79の処理によって、一致するタグ種の数が多い程、そのタグに対応するタグ重要度の値は大きくなる。タグ種間で一致しないタグのタグ重要度は、重要度生成部60と自然言語処理部50で生成する重要度の値から変化しない。   As a result of the processing in steps S70 to S79 described above, the tag importance value corresponding to the tag increases as the number of matching tag types increases. The tag importance of tags that do not match between tag types does not change from the importance values generated by the importance generation unit 60 and the natural language processing unit 50.

このように映像データ処理装置1は、映像データの内容をより良く表す映像データタグのタグ重要度の値を、大きくしてタグDB80に記憶する。本実施形態の映像データ処理装置1によれば、映像データに適切なメタデータを付与したデータベースが生成できる。   In this way, the video data processing apparatus 1 increases the tag importance value of the video data tag that better represents the content of the video data and stores it in the tag DB 80. According to the video data processing apparatus 1 of the present embodiment, a database in which appropriate metadata is added to video data can be generated.

次に、タグを認識する認識精度に基づいて、タグ重要度に乗ずる重みを変更するようにした第2実施形態について説明する。   Next, a description will be given of a second embodiment in which the weight for multiplying the tag importance is changed based on the recognition accuracy for recognizing the tag.

〔第2実施形態〕
図12は、第2実施形態の映像データ処理装置2の機能構成例を示す図である。映像データ処理装置2は、映像データ処理装置1(図1)に対して、認識精度評価部92を備える点で異なる。認識精度評価部92は、物体認識部20が出力する尤度が閾値以上の場合に重要度統合部70で求めるタグ重要度を、物体を表すタグのスコアに乗ずる重みを大きくして求めさせる。
[Second Embodiment]
FIG. 12 is a diagram illustrating a functional configuration example of the video data processing device 2 according to the second embodiment. The video data processing device 2 is different from the video data processing device 1 (FIG. 1) in that a recognition accuracy evaluation unit 92 is provided. The recognition accuracy evaluation unit 92 causes the tag importance level calculated by the importance level integration unit 70 when the likelihood output from the object recognition unit 20 is equal to or greater than the threshold value to be calculated by increasing the weight by which the score of the tag representing the object is multiplied.

図13は、認識精度評価部92の動作フローの例を示す図である。認識精度評価部92は、物体認識部20から物体を表すタグの尤度を取得する(ステップS92)。尤度は、1.0に近い程、認識した物体を表すタグがその物らしいことを表す情報である。つまり、尤度が大きい場合は、認識した物体タグの認識精度が高いと考えられる。   FIG. 13 is a diagram illustrating an example of an operation flow of the recognition accuracy evaluation unit 92. The recognition accuracy evaluation unit 92 acquires the likelihood of the tag representing the object from the object recognition unit 20 (step S92). The likelihood is information indicating that the tag representing the recognized object is likely to be closer to 1.0. That is, when the likelihood is large, it is considered that the recognition accuracy of the recognized object tag is high.

次に、認識精度評価部92は、物体認識部20から取得した尤度が、閾値以上であるか否かを判定する(ステップS93)。閾値を例えば0.9とする。尤度が0.9以上であれば物体を表すタグのスコアに乗ずる重みαを、例えば2倍にする(ステップS94)。尤度が0.9未満であれば重みαの大きさは変更しない(ステップS93のNO)。   Next, the recognition accuracy evaluation unit 92 determines whether or not the likelihood acquired from the object recognition unit 20 is greater than or equal to a threshold value (step S93). For example, the threshold value is 0.9. If the likelihood is 0.9 or more, the weight α multiplied by the score of the tag representing the object is doubled, for example (step S94). If the likelihood is less than 0.9, the weight α is not changed (NO in step S93).

このようにすることで、認識した物体を表すタグが、その物らしい場合にその重要度は大きくなる。その結果、重要度統合部70で求める映像データタグのタグ重要度を大きくさせることができる。つまり、認識精度評価部92を備えることで、物体を表すタグの認識精度が高い場合に、タグ重要度を大きくさせ、タグ重要度にメリハリを付けることができる。   By doing in this way, when the tag representing the recognized object seems to be the object, the importance becomes large. As a result, it is possible to increase the tag importance of the video data tag obtained by the importance integration unit 70. That is, by providing the recognition accuracy evaluation unit 92, when the recognition accuracy of a tag representing an object is high, the tag importance can be increased and the tag importance can be sharpened.

このように映像データ処理装置2は、物体を表すタグの認識精度に応じたタグ重要度を生成し、認識精度が高い場合のタグ重要度を大きくしてDB80に記憶する。本実施形態の映像データ処理装置2によれば、映像データに適切なメタデータを付与したデータベースが生成できる。   As described above, the video data processing device 2 generates a tag importance level corresponding to the recognition accuracy of the tag representing the object, and increases the tag importance level when the recognition accuracy is high and stores the tag importance level in the DB 80. According to the video data processing apparatus 2 of the present embodiment, a database in which appropriate metadata is added to video data can be generated.

〔第3実施形態〕
図14は、第3実施形態の映像データ処理装置3の機能構成例を示す図である。映像データ処理装置3は、映像データ処理装置1(図1)に対して、認識精度評価部93を備える点で異なる。認識精度評価部93は、映像データ内テキスト検出部30が出力する映像内テキストの文字領域の面積が所定値以上の場合に重要度統合部70で求めるタグ重要度を、物体を表すタグのスコアに乗ずる重みを大きくして求めさせる。
[Third Embodiment]
FIG. 14 is a diagram illustrating a functional configuration example of the video data processing device 3 according to the third embodiment. The video data processing device 3 is different from the video data processing device 1 (FIG. 1) in that a recognition accuracy evaluation unit 93 is provided. The recognition accuracy evaluation unit 93 determines the tag importance obtained by the importance integration unit 70 when the area of the character region of the text in the video output by the text detection unit 30 in the video data is equal to or greater than a predetermined value, Increase the weight multiplied by.

ここで文字領域の面積とは、文字に外接する四角形(平行四辺形)であり、例えば各点の座標が(0,0)、(1,0)、(1,16)、(0,16)の場合、文字面積は(1−0)×(16−0)=16である。複数の文字が連なったテキストの面積についても同様に求め、文字数で除算する。   Here, the area of the character region is a rectangle (parallelogram) circumscribing the character. For example, the coordinates of each point are (0, 0), (1, 0), (1, 16), (0, 16). ), The character area is (1-0) × (16-0) = 16. The area of the text in which a plurality of characters are connected is obtained in the same manner, and divided by the number of characters.

また、面積は、画素数で表してもよい。画素数の場合、上記の例の場合の画素数は、(1−0+1)×(16−0+1)=34である。   The area may be represented by the number of pixels. In the case of the number of pixels, the number of pixels in the above example is (1-0 + 1) × (16-0 + 1) = 34.

図15は、文字領域の面積と認識結果の適合率との関係を調べた結果を示す図である。適合率は、正しく認識された文字数÷文字数の総計である。横軸は文字領域の面積、縦軸は適合率である。図15の426×240他は解像度を表す。   FIG. 15 is a diagram illustrating a result of examining the relationship between the area of the character region and the matching rate of the recognition result. The precision is the sum of the number of characters correctly recognized divided by the number of characters. The horizontal axis is the area of the character area, and the vertical axis is the precision. In FIG. 15, 426 × 240 and others represent resolution.

図15に示すように、文字領域の面積は17以上であれば適合率が概ね8割以上になることが分かる。このように、文字領域の面積が所定値以上の場合に、タグ重要度を大きくさせ、タグ重要度にメリハリを付けることは有効である。   As shown in FIG. 15, it can be seen that if the area of the character region is 17 or more, the relevance rate is approximately 80% or more. As described above, when the area of the character region is equal to or larger than the predetermined value, it is effective to increase the tag importance and to add a sharpness to the tag importance.

更に、認識精度評価部93は、文字周辺の画像(背景)の複雑さを考慮して重み(文字認識タグのスコアに乗ずる重み)を変えてもよい。背景の複雑さは、例えばSpatial知覚情報SI(参考文献:ITU-T P.910 5.3.1)で表すことができる。   Furthermore, the recognition accuracy evaluation unit 93 may change the weight (weight multiplied by the score of the character recognition tag) in consideration of the complexity of the image (background) around the character. The complexity of the background can be expressed by, for example, Spatial perception information SI (reference document: ITU-T P.910 5.3.1).

また、文字色と背景色の差を考慮して文字認識タグのスコアに乗ずる重みβを変えてもよい。文字色と背景色の差は、例えばRGB空間上のユークリッド距離で表せる。   Also, the weight β multiplied by the score of the character recognition tag may be changed in consideration of the difference between the character color and the background color. The difference between the character color and the background color can be expressed by, for example, the Euclidean distance in the RGB space.

また、音声認識テキストから抽出した音声認識タグのスコアに乗する重みγについて、音声認識精度に応じて大きさを変更するようにしてもよい。音声認識精度の評価は、例えば音響情報の周波数帯とその他の周波数帯の音声の比を用いて行ってもよい。なお、図14において、音声認識部40と認識精度評価部93を接続する接続線の表記は省略している。   Further, the size of the weight γ to be applied to the score of the speech recognition tag extracted from the speech recognition text may be changed according to the speech recognition accuracy. The speech recognition accuracy may be evaluated using, for example, the ratio of the sound information frequency band to the other frequency band sound. In FIG. 14, the connection lines connecting the speech recognition unit 40 and the recognition accuracy evaluation unit 93 are not shown.

上記の実施形態では、映像データを示す映像データ識別子と各タグを対応付ける例で説明を行ったが、本発明はこの例に限られない。シーン分割部10で映像データを分割したシーンと各タグを対応付けるようにしても良い。この場合、映像データを分割したシーンの単位で検索することができる。   In the above embodiment, the example has been described in which the video data identifier indicating the video data is associated with each tag, but the present invention is not limited to this example. The scene divided by the scene dividing unit 10 may be associated with each tag. In this case, it is possible to search in units of scenes obtained by dividing the video data.

また、物体タグ、文字認識タグ、及び音声認識タグの全てが一致するか否かの例で説明を行ったが、全てのタグ種間での一致の判定は不要である。例えば、文字認識タグと音声認識タグの間の一致を判定するだけでも良い。その場合は、物体タグとその尤度は、そのままタグDB80に記憶すれば良い。   Further, although an example of whether or not all of the object tag, the character recognition tag, and the voice recognition tag match has been described, it is not necessary to determine matching between all tag types. For example, it is only necessary to determine a match between a character recognition tag and a voice recognition tag. In that case, what is necessary is just to memorize | store an object tag and its likelihood in tag DB80 as it is.

また図9に示す例では、タグの一致を判定したが、上記のようにタグの類似を判定しても良い。また、タグの一致と類似の両方を判定するようにしても良い。   In the example shown in FIG. 9, tag matching is determined, but tag similarity may be determined as described above. Also, both tag matching and similarity may be determined.

このように本発明は、上記した実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。   As described above, the present invention is not limited to the above-described embodiment, and various modifications can be made within the scope of the gist thereof.

上記装置における処理部をコンピュータによって実現する場合、各処理部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記装置における処理部がコンピュータ上で実現される。   When the processing unit in the above apparatus is realized by a computer, the processing content of the function that each processing unit should have is described by a program. Then, by executing this program on a computer, the processing unit in the above apparatus is realized on the computer.

また、このコンピュータプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としても良い。   The computer program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of the server computer and transferring the program from the server computer to another computer via a network.

1:映像データ処理装置
10:シーン分割部
20:物体認識部
30:映像データ内テキスト検出部
40:音声認識部
50:自然言語処理部
60:重要度生成部
70:重要度統合部
80:タグデータベース
90:映像管理部
91:映像データベース
92、93:認識精度評価部
1: Video data processing device 10: Scene division unit 20: Object recognition unit 30: Text detection unit 40: Audio recognition unit 50: Natural language processing unit 60: Importance generation unit 70: Importance integration unit 80: Tag Database 90: Video management unit 91: Video database 92, 93: Recognition accuracy evaluation unit

Claims (7)

映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、
該物体の重要度を示すデータを生成する重要度生成部と、
映像データに含まれる映像内テキストを検出する映像データ内テキスト検出部と、
映像データに付与された音声を認識して音声認識テキストを生成する音声認識部と、
前記映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成する自然言語処理部と、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部と
を備えることを特徴とする映像データ処理装置。
A tag database that stores a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag importance level indicating the importance level of the video data tag in association with each other;
An object recognition unit that recognizes an object included in the video data and generates a tag representing the object and a likelihood of the tag;
An importance generation unit for generating data indicating the importance of the object;
A text detector in the video data for detecting text in the video included in the video data;
A voice recognition unit that recognizes voice added to video data and generates voice recognition text;
A tag representing an important word is extracted from the text in the video, the tag and the importance of the tag are generated, a tag representing the important word is extracted from the speech recognition text, and the tag and the importance of the tag are generated. A natural language processing unit to
If two or three of the three generated tags match, or if two or three of the three types of tags are similar, tag importance based on the importance corresponding to the tag A video data identifier corresponding to the tag importance, the video data tag, and an importance level integration unit that stores the tag importance level in association with each other in the tag database. A video data processing apparatus comprising:
前記タグ重要度は、前記一致する又は類似するタグを抽出する抽出精度を考慮した値であり、抽出精度の高いタグに対応する重要度に、大きな重みを乗じて求めることを特徴とする請求項1に記載の映像データ処理装置。   The tag importance is a value considering extraction accuracy for extracting the matching or similar tags, and is calculated by multiplying importance corresponding to a tag with high extraction accuracy by a large weight. The video data processing device according to 1. 前記物体認識部が出力する尤度を入力とする認識精度評価部を備え、
前記認識精度評価部は、前記尤度が閾値以上の場合に前記重要度統合部で求める前記タグ重要度を、前記物体を表すタグに乗ずる重みを大きくして求めさせる
ことを特徴とする請求項1又は2に記載の映像データ処理装置。
A recognition accuracy evaluation unit that receives the likelihood output by the object recognition unit;
The recognition accuracy evaluation unit, when the likelihood is equal to or greater than a threshold value, causes the tag importance obtained by the importance integration unit to be obtained by increasing a weight applied to a tag representing the object. The video data processing apparatus according to 1 or 2.
前記映像内テキストを入力とする認識精度評価部を備え、
前記認識精度評価部は、前記映像内テキストの文字領域の情報から文字認識精度の評価を行い、その評価結果に応じて前記重要度統合部で求める前記タグ重要度を求める際の前記文字認識タグの重要度に乗ずる重みを変化させる
ことを特徴とする請求項1乃至3の何れかに記載の映像データ処理装置。
A recognition accuracy evaluation unit that receives the in-video text,
The recognition accuracy evaluation unit evaluates character recognition accuracy from information of a character region of the text in the video, and the character recognition tag used when obtaining the tag importance obtained by the importance integration unit according to the evaluation result The video data processing apparatus according to any one of claims 1 to 3, wherein a weight to be multiplied by an importance level of the video data is changed.
前記音声認識テキストを入力とする認識精度評価部を備え、
前記認識精度評価部は、音響情報から前記音声認識テキストの認識精度の評価を行い、その評価結果に応じて前記重要度統合部で求める前記タグ重要度を求める際の前記音声認識タグの重要度に乗ずる重みを変化させる
ことを特徴とする請求項1乃至4の何れかに記載の映像データ処理装置。
A recognition accuracy evaluation unit that receives the speech recognition text;
The recognition accuracy evaluation unit evaluates the recognition accuracy of the speech recognition text from acoustic information, and the importance of the speech recognition tag when obtaining the tag importance obtained by the importance integration unit according to the evaluation result The video data processing apparatus according to claim 1, wherein a weight to be multiplied by is changed.
映像データ処理装置が行う映像データ処理方法であって、
前記映像データ処理装置は、
映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースを備え、
前記映像データ処理方法においては、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、
該物体の重要度を示すデータを生成し、
映像データに含まれる映像内テキストを検出し、
映像データに付与された音声を認識して音声認識テキストを生成し、
前記映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する
ことを特徴とする映像データ処理方法。
A video data processing method performed by a video data processing apparatus,
The video data processing device comprises:
For each video data, provided with a tag database that stores a video data identifier indicating the video data, a video data tag indicating the content of the video data, and a tag importance level indicating the importance level of the video data tag in association with each other,
In the video data processing method,
Recognizing an object included in video data, generating a tag representing the object and the likelihood of the tag,
Generating data indicating the importance of the object;
Detect text in video included in video data,
Recognize the voice attached to the video data to generate voice recognition text,
A tag representing an important word is extracted from the text in the video, the tag and the importance of the tag are generated, a tag representing the important word is extracted from the speech recognition text, and the tag and the importance of the tag are generated. And
If two or three of the three generated tags match, or if two or three of the three types of tags are similar, tag importance based on the importance corresponding to the tag The matching tag is a video data tag, and the video data identifier corresponding to the tag importance, the video data tag, and the tag importance are associated and stored in the tag database. Video data processing method.
請求項1乃至5の何れかに記載した映像データ処理装置としてコンピュータを機能させるためのコンピュータプログラム。   A computer program for causing a computer to function as the video data processing apparatus according to claim 1.
JP2018001720A 2017-03-29 2018-01-10 Video data processing apparatus, video data processing method, and computer program Pending JP2018170001A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017065061 2017-03-29
JP2017065061 2017-03-29

Publications (1)

Publication Number Publication Date
JP2018170001A true JP2018170001A (en) 2018-11-01

Family

ID=64018008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018001720A Pending JP2018170001A (en) 2017-03-29 2018-01-10 Video data processing apparatus, video data processing method, and computer program

Country Status (1)

Country Link
JP (1) JP2018170001A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005189363A (en) * 2003-12-25 2005-07-14 Toshiba Corp Question answering system and program
JP2009272816A (en) * 2008-05-02 2009-11-19 Visionere Corp Server, information processing system and information processing method
JP2011096072A (en) * 2009-10-30 2011-05-12 Mitsubishi Electric Corp Device and program for detecting object
WO2011099108A1 (en) * 2010-02-10 2011-08-18 パナソニック株式会社 Image evaluating device, image evaluating method, program, and integrated circuit
JP2013125391A (en) * 2011-12-14 2013-06-24 Asutemu:Kk Television apparatus, information processing method and program
JP2015139017A (en) * 2014-01-20 2015-07-30 富士通株式会社 Information processing program, method, device, and baseball video meta information generating device, method and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005189363A (en) * 2003-12-25 2005-07-14 Toshiba Corp Question answering system and program
JP2009272816A (en) * 2008-05-02 2009-11-19 Visionere Corp Server, information processing system and information processing method
JP2011096072A (en) * 2009-10-30 2011-05-12 Mitsubishi Electric Corp Device and program for detecting object
WO2011099108A1 (en) * 2010-02-10 2011-08-18 パナソニック株式会社 Image evaluating device, image evaluating method, program, and integrated circuit
JP2013125391A (en) * 2011-12-14 2013-06-24 Asutemu:Kk Television apparatus, information processing method and program
JP2015139017A (en) * 2014-01-20 2015-07-30 富士通株式会社 Information processing program, method, device, and baseball video meta information generating device, method and program

Similar Documents

Publication Publication Date Title
US10621991B2 (en) Joint neural network for speaker recognition
US10176804B2 (en) Analyzing textual data
CN111968649B (en) Subtitle correction method, subtitle display method, device, equipment and medium
US20230232078A1 (en) Method and data processing apparatus
JP6824332B2 (en) Video service provision method and service server using this
CN111046133A (en) Question-answering method, question-answering equipment, storage medium and device based on atlas knowledge base
CN112738556B (en) Video processing method and device
JP2008257460A (en) Information processor, information processing method, and program
JP7394809B2 (en) Methods, devices, electronic devices, media and computer programs for processing video
JP6389296B1 (en) VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM
CN110781328A (en) Video generation method, system, device and storage medium based on voice recognition
CN111241340A (en) Video tag determination method, device, terminal and storage medium
CN113014988B (en) Video processing method, device, equipment and storage medium
CN112015955A (en) Multi-mode data association method and device
WO2023048746A1 (en) Speaker-turn-based online speaker diarization with constrained spectral clustering
JP6917210B2 (en) Summary video generator and its program
CN112382295A (en) Voice recognition method, device, equipment and readable storage medium
WO2022193911A1 (en) Instruction information acquisition method and apparatus, readable storage medium, and electronic device
CN114363695B (en) Video processing method, device, computer equipment and storage medium
CN113301382B (en) Video processing method, device, medium, and program product
CN114090766A (en) Video text screening method and device and electronic equipment
JP2018170001A (en) Video data processing apparatus, video data processing method, and computer program
CN112135201B (en) Video production method and related device
CN115171673A (en) Role portrait based communication auxiliary method and device and storage medium
KR102320851B1 (en) Information search method in incidental images incorporating deep learning scene text detection and recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190326