JP6811811B1

JP6811811B1 - メタデータ生成システム、映像コンテンツ管理システム及びプログラム

Info

Publication number: JP6811811B1
Application number: JP2019125237A
Authority: JP
Inventors: 孝利石井
Original assignee: Jcc株式会社; Ｊｃｃ株式会社
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-01-13
Anticipated expiration: 2039-07-04
Also published as: JP2021012466A

Abstract

【課題】ニュース番組など映像コンテンツに含まれる文字及び音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成するシステムを提供する。【解決手段】テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、文字又は文字列を認識する文字認識部と、音声を認識する音声認識部と、認識した文字又は文字列、音声に基づいてテキスト情報を生成するテキスト化部と、テキスト情報に基づいてメタデータを作成するメタデータ作成部と、を有する。文字認識部は、文字又は文字列の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する文字認識専用機械学習部を有する。音声認識部は、音声の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する音声認識専用機械学習部を有する。【選択図】図１

Description

本発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システム及びこれを備えた映像コンテンツ管理システム及びそのプログラムに関するものである。

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムは公知である（特許文献１参照）。メタデータは、映像コンテンツの作成日時、放送日時、配信日時、作成者、タイトル、注釈、等を示すテキスト情報である。メタデータは、保存した大量の映像コンテンツを効率的に検索可能に管理するために重要な情報である。

特許文献１のメタデータ生成システムは、映像コンテンツを構成する各映像に含まれる文字情報（文字または文字列）を認識し、それらをテキスト化することで、各映像コンテンツに関連するメタデータを自動生成する。さらに、特許文献１のメタデータ生成システムは、映像コンテンツに含まれる音声情報をテキスト化して、メタデータを自動生成する機能も有している。

特許文献１のメタデータ生成システムによれば、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる文字情報及び音声情報からメタデータを効率良く作成することができる。これにより、保存した大量の映像コンテンツを高効率に検索可能に管理し得る映像コンテンツ管理システムの実現が可能となった。

特開２０１８ー３３０４８号公報

テレビ放送やインターネット配信により提供される映像コンテンツの画面レイアウトは多種多様である。特にテレビ放送される番組の画面レイアウトは、視聴者に対し各放送局が独自性をアピールしようとして放送局毎に工夫が凝らされたものとなっている。また、テレビ放送される番組中の音声に関しても同様に、放送局ごとに工夫が凝らされている。

たとえば、ニュース番組の放送画面には、キャスター、スタジオセット、背景などとともに、ヘッドラインやテロップなどの文字情報が表示されるが、文字情報の表示態様すなわち、文字の大きさやフォントの種類、画面内における表示位置はニュース番組ごとに、更には番組内のコーナーごとに異なる。また、各ニュース番組はオリジナルの楽曲や効果音などを持ち、キャスターの声に重ねてそのような楽曲や効果音を流す音響演出も多種多様に行われる。

このような、映像コンテンツの画面レイアウトや音響演出の多種多様化は、日を追って増大する傾向にある。また、テレビ放送に限らず、インターネット配信により提供される映像コンテンツにおいても同様に、画面レイアウトや音響演出が多種多様化している。

しかし、特許文献１のメタデータ生成システムは、画面レイアウトや音響演出の多種多様化を想定していない。このため、特許文献１のメタデータ生成システムでは、映像コンテンツに含まれる文字情報及び音声情報を正確に認識することが困難な状況になっている。文字情報及び音声情報の認識精度の低下は、生成されるメタデータの正確性の低下に直結するため、高性能なメタデータ生成システムを実現する上で克服しなければならない問題である。

そこで、本発明が解決しようとする課題は、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができるメタデータ生成システム、これを備えた映像コンテンツ管理システム及びこれらのシステムを実現するためのプログラムを提供することにある。

上記課題を解決するために、請求項１記載の発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、前記映像コンテンツに含まれる音声を認識する音声認識部と、前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部と、前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部と、前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成し、前記映像コンテンツは、ニュース番組であり、前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、前記音声は、前記ニュース番組内での人物の音声であり、前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であり、前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とするメタデータ生成システムである。

上記のように構成された請求項１のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを作成する。

その際、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する。文字又は文字列の認識処理についての機械学習は、文字認識専用機械学習部により実行され、音声の認識処理についての機械学習は、音声認識専用機械学習部により実行されるので、文字情報、音声情報それぞれの認識処理についての機械学習が高効率に進行する。

したがって、文字又は文字列の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる文字又は文字列の認識精度が急速に向上していき、音声の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる音声の認識精度が急速に向上していく。

また、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、更に、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる物体を認識する。そして、認識した文字又は文字列、音声及び前記文字又は文字列以外の映像構成要素としての物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

その際、文字又は文字列の認識処理についての機械学習及び音声の認識処理についての機械学習に加えて、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。物体の認識処理についての機械学習は、物体専用機械学習部により実行されるので、文字又は文字列の認識処理についての機械学習の高効率化及び音声の認識処理についての機械学習の高効率化に加えて、物体の認識処理についての機械学習も高効率化する。物体の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる物体の認識精度が急速に向上していく。

上記のように、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列を認識する。

また、各ニュース番組内での人物の音声を認識する。また、ニュース番組内で表示される人物又は映像構成要素を認識する。そして、認識した文字又は文字列、音声、及び、人物又は映像構成要素に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。

さらに、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部及び物体認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が確実に向上する。

請求項２記載の発明にあっては、請求項１記載のメタデータシステムにおいて、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする。
即ち、従来の、メタデータを利用した映像コンテンツ検索システムにあっては、テレビ等の全放送番組を、放送局コード及び秒を基準とするタイムコードを付して映像と対応させた状態で録画し、録画された放送番組情報からメタデータ化し、メタデータにより使用者が指定した映像情報を、映像に付された放送局コード及び秒単位のタイムコードを基に抽出するように構成されていた。

このような従来のメタデータ利用の映像コンテンツ検索システムにあっては、タイムコードの基準となる秒基準、秒単位でのメタデータ化及び当該メタデータに基づく検索は可能であり、例えば、映像中の人間の音声、会話等は論理的な展開が一般的でもあることから、充分にメタデータ化することも可能であると共に、検索、分析することは可能である。

しかしながら、いわゆる「シーンチェンジ」のように映像が瞬間的に変化する場合がある。即ち、あるシーンにおいて特定の対象を映していたところ、他の対象に突然に脈絡なく変化するような場合が存在する。例えば、ドラマの映像においても、ドラマ構成上、あるシーンから全く関係のないシーンへ唐突に変化する場合もある。

このような急峻な「シーンチェンジ」等の場合には、秒単位の認識、分析技術では、シーンチェンジ、映像変化の経過について十分には対応できない。また、特に、「サブリミナル映像」等のように、特定のシーンが、人間が十分に認識できないような非常な短時間、フラッシュバックのようにインサートされているような場合もあり、このような場合の映像情報の分析に関しても、従来の秒単位での映像分析技術では充分には対応できない。

しかしながら、映像コンテンツの情報分析の観点からは、このような突然のシーンチェンジ、映像対象の唐突な変更、又はサブリミナル映像等の、非常に短時間の映像変化の経過に関してもメタデータ化しておき、その後の検索、分析の場面に対応したい、という要請がある。また、例えば、災害等の映像を事後的に検証分析するような場合、災害原因の究明には、映像の秒単位の分析では充分な分析、研究が不可能な場合もある。

ところで、映像フレームは一秒あたり３０フレーム以上存在し、例えば、テレビ、ビデオのフレームレートは、３０ｆｐｓであり、これらのフレームにより映像が構成されている。従って、映像を構成するフレーム単位で映像を抽出し、対応するメタデータを作成し、当該メタデータに基づき映像を検索、分析できるようになれば上記の事態を解決することが可能となる。

そこで、請求項２記載の発明にあっては、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析できるように構成されている。

請求項３記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする。

また、請求項４記載の発明は、請求項１から３のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、利用者の端末から視聴要求を受け付ける要求受付部と、を有し、前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とすることを特徴とする。

上記のように構成された請求項４の映像コンテンツ管理システムは、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項１から３のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータと関連付けて管理する。
利用者の端末から視聴要求を受け付けた場合、その視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして、保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末で視聴可能とする。

また、請求項５記載の発明は、請求項１から３のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラムである。

請求項５のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明のメタデータ生成システムを実現できる。

また、請求項６記載の発明は、請求項５に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラムである。

請求項６のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明の映像コンテンツ管理システムを実現できる。

請求項１のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

また、文字又は文字列の認識精度及び音声の認識精度に加えて、物体の認識精度が、それ専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報、音声情報及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

また、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上するので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

さらに、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いることにより、ヘッドライン又はテロップに含まれる文字又は文字列の認識及び物体の認識についての機械学習を高効率に進行させることができ、人物の音声に基づいて用意された学習用データを用いることにより、人物の音声の認識についての機械学習を高効率に進行させることができるので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

請求項２記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び、物体を認識するように構成されていることから、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析することできる。
その結果、放送映像に存在する、急峻な「シーンチェンジ」等の場合や、「サブリミナル映像」に関しても、映像の抽出、検索、分析が可能となり、また、災害等の映像を事後的に検証分析するような場合、災害原因の究明において、映像の秒単位の分析では充分な分析が不可能な場合であっても有効に対応することが可能となる。

請求項３記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことから、映像コンテンツとして画面に表示されるほぼ全ての映像構成要素に関してメタデータ化が可能となる。

請求項４の発明によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項１から３のいずれか一項に記載のメタデータ生成システムにより生成された正確なメタデータと関連付けて検索可能に管理することで、高性能な映像コンテンツ管理システムを実現することができる。

請求項５の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することが可能なメタデータ生成システムを実現することができる。

請求項６の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明に係るメタデータ生成システムを備えた高性能な映像コンテンツ管理システムを実現することができる。

一実施形態の映像コンテンツ管理システムのブロック図である。図１の映像コンテンツ管理システムの一連の処理内容を示すフローチャートである。図１の映像コンテンツ管理システムを構成する一実施形態のメタデータ生成システムの一連の処理内容を示すフローチャートである。図３中の認識処理に含まれる文字認識処理のフローチャートである。図３中の認識処理に含まれる音声認識処理のフローチャートである。図３中の認識処理に含まれる物体認識処理のフローチャートである。

以下、添付図面を参照して、本発明の一実施形態について説明する。
［構成］
［映像コンテンツ管理システム］
図１に示す一実施形態の映像コンテンツ管理システム１００は、受信部１１０と、映像コンテンツ保存部１２０と、一実施形態のメタデータ生成システム１３０と、映像コンテンツ管理部１４０と、要求受付部１５０と、を有する。

受信部１１０は、放送局２００及び配信元３００から提供された映像コンテンツを受信する機能ブロックである。受信部１１０は、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを受信する。放送局２００には、地上放送局及び衛星放送局が含まれる。配信元３００には、インターネット上に存在する各種映像コンテンツサーバが含まれる。

映像コンテンツ保存部１２０は、受信部１１０により受信された大量の映像コンテンツを保存する機能ブロックである。映像コンテンツ保存部１２０には、大容量のＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及び大容量のＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）が含まれる。

メタデータ生成システム１３０は、映像コンテンツ保存部１２０に記録されている映像コンテンツに関するメタデータを生成する機能ブロックである。

映像コンテンツ管理部１４０は、映像コンテンツ保存部１２０に保存されている全ての映像コンテンツを、メタデータ生成システム１３０により生成されたメタデータと関連付けて検索可能に管理する機能ブロックである。

要求受付部１５０は、利用者の端末４００から視聴要求を受け付ける機能ブロックである。

映像コンテンツ管理部１４０は、要求受付部１５０が受け付けた利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部１２０に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末４００で視聴可能とする。

［メタデータ生成システム］
メタデータ生成システム１３０は、認識部１３１と、テキスト化部１３８と、メタデータ作成部１３９、とを有する。

認識部１３１は、映像コンテンツ保存部１２０に保存されている各映像コンテンツに含まれる認識対象を認識する機能ブロックである。認識部１３１は、文字認識部１３２と、音声認識部１３４と、物体認識部１３６と、を有する。

文字認識部１３２は、各映像コンテンツに画像として含まれる文字又は文字列を認識する機能ブロックである。文字認識部１３２は、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部１３３を有する。

音声認識部１３４は、各映像コンテンツに含まれる音声を認識する機能ブロックである。音声認識部１３４は、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部１３５を有する。

物体認識部１３６は、各映像コンテンツに画像として含まれる物体を認識する機能ブロックである。物体認識部１３６は、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部１３７を有する。

テキスト化部１３８は、文字認識部１３２により認識した文字又は文字列、音声認識部１３４により認識した音声及び物体認識部１３６により認識した物体に基づいてテキスト情報を生成する機能ブロックである。

メタデータ作成部１３９は、テキスト化部１３８により生成されたテキスト情報に基づいて各映像コンテンツのメタデータを作成する機能ブロックである。メタデータは、テレビ放送される映像コンテンツの場合には、番組単位或いは番組中のコーナー単位ごと、もしくは記事単位ごとに生成される。また、映像コンテンツが映画の場合、メタデータは、映画の１作品ごと、映像の所定数のフレームごと、等、種々の単位ごとに作成される。メタデータには、映像コンテンツの提供元（放送局、配信元、等）、映像コンテンツの時間情報（放送日時、配信日時、再生所要時間、等）、内容の要約、等が含まれる。

映像コンテンツがニュース番組である場合、文字認識部１３２による認識対象となる文字又は文字列は、そのニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、音声認識部１３４による認識対象となる音声は、そのニュース番組内での人物の音声であり、物体認識部１３６による認識対象となる物体は、そのニュース番組内で表示される人物又は映像構成要素、又は映像構成要素の背景に存在する各種物体、商品、風景、建築物及び構築物等である。

文字認識専用機械学習部１３３及び物体認識専用機械学習部１３７は、映像コンテンツの画面レイアウトや背景を考慮してそれぞれ用意された学習用データＤ１、Ｄ３を用いて機械学習する。音声認識専用機械学習部１３５は、人物の音声に基づいて用意された学習用データＤ２を用いて機械学習する。

たとえば、映像コンテンツがニュース番組である場合、文字認識専用機械学習部１３３は、そのニュース番組の画面レイアウトを考慮して用意された学習用データＤ１を用いて、そのニュース番組に表示されるヘッドライン又はテロップに含まれる文字又は文字列をより高精度に認識できるように機械学習する。
また、物体認識専用機械学習部１３７は、そのニュース番組の画面レイアウトを考慮して用意された学習用データＤ３を用いて、そのニュース番組内で表示される人物（キャスターやコメンテータ）又は映像構成要素（建物、車両、飛行機、等）及びその背景情報をより高精度に認識できるように機械学習する。
また、音声認識専用機械学習部１３５は、そのニュース番組に登場する人物（キャスターやコメンテータ）の音声に基づいて用意された学習用データＤ２を用いて、そのニュース番組内でのその人物の音声をより高精度に認識できるように機械学習する。
この場合、学習用データＤ１、Ｄ３は、ニュース番組単位或いは番組中のコーナー単位又は記事単位ごとの画面レイアウトを考慮して用意される。学習用データＤ２は、ニュース番組単位或いは番組中のコーナー単位ごとの登場人物の音声に基づいて用意される。

［動作］
つぎに、上記のように構成された映像コンテンツ管理システム１００における処理の流れを、図２から図６のフローチャートに従って説明する。

映像コンテンツ管理システム１００は、図２に示すように、映像コンテンツ受信処理Ｓ１、映像コンテンツ保存処理Ｓ２、メタデータ生成処理Ｓ３、映像コンテンツ管理処理Ｓ４、要求受付処理Ｓ５及び視聴処理Ｓ６を含む一連の処理を実行する。

映像コンテンツ受信処理Ｓ１は、放送局２００及び配信元３００から提供される映像コンテンツを受信する処理である。
映像コンテンツ保存処理Ｓ２は、映像コンテンツ受信処理Ｓ１により受信した映像コンテンツを保存する処理である。

メタデータ生成処理Ｓ３は、映像コンテンツ保存部１２０に記録されている各映像コンテンツに関するメタデータを生成する処理である。
映像コンテンツ管理処理Ｓ４は、映像コンテンツ保存部１２０に保存されている全ての映像コンテンツを、メタデータ生成処理Ｓ３により生成されたメタデータと関連付けて検索可能に管理する処理である。
要求受付処理Ｓ５は、利用者の端末４００から視聴要求を受け付ける処理である。

視聴処理Ｓ６は、利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部１２０に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末４００で視聴可能とする処理である。
映像コンテンツ受信処理Ｓ１、映像コンテンツ保存処理Ｓ２、メタデータ生成処理Ｓ３及び映像コンテンツ管理処理Ｓ４が繰り返し実行されることにより、映像コンテンツ保存部１２０に大量の映像コンテンツが保存されていくとともに、映像コンテンツ保存部１２０に保存されている大量の全ての映像コンテンツがメタデータと関連付けて検索可能に管理されるようになる。

図３に示すように、メタデータ生成処理Ｓ３は、認識ステップＳ３１と、テキスト化ステップＳ３２及びメタデータ作成ステップＳ３３と、を含んで構成される。
認識ステップＳ３１は、映像コンテンツ保存部１２０に保存されている各映像コンテンツに含まれる認識対象を認識するステップである。認識ステップＳ３１では、文字認識処理（図４）と、音声認識処理（図５）と、物体認識処理（図６）と、が実行される。
テキスト化ステップＳ３２では、認識ステップＳ３１により認識した認識対象（文字又は文字列、音声、物体）に基づいてテキスト情報が生成される。
メタデータ作成ステップＳ３３では、テキスト化ステップＳ３２により生成されたテキスト情報に基づいて各映像コンテンツのメタデータが作成される。

図４に示すように、文字認識処理は、文字認識ステップ３１１ａと文字認識専用機械学習ステップＳ３１１ｂとを含んで構成される。文字認識ステップ３１１ａでは、各映像コンテンツに画像として含まれる文字又は文字列が認識され、文字認識専用機械学習ステップＳ３１１ｂでは、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習が行われる。

文字認識専用機械学習ステップＳ３１１ｂが繰り返されることにより、文字認識部１３（図１）に、文字又は文字列の認識に特化した学習済モデル（以下、「文字用学習済モデル」と記す）が生成される。文字認識部１３２は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる文字又は文字列を文字用学習済モデルを用いて認識する。よって、図４に示す文字認識処理の実行回数が増えるほど、文字用学習済モデルの学習度が向上していき、文字認識部１３２の性能が向上する。

図５に示すように、音声認識処理は、音声認識ステップＳ３１２ａと音声認識専用機械学習ステップＳ３１２ｂとを含んで構成される。音声認識ステップＳ３１２ａでは、各映像コンテンツに含まれる音声が認識され、音声認識専用機械学習ステップＳ３１２ｂでは、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習が行われる。

音声認識専用機械学習ステップＳ３１２ｂが繰り返されることにより、音声認識部１３４（図１）に、音声の認識に特化した学習済モデル（以下、「音声用学習済モデル」と記す）が生成される。音声認識部１３４は、各映像コンテンツに含まれる音声を入力とし、その音声を音声用学習済モデルを用いて認識する。よって、図５に示す音声認識処理の実行回数が増えるほど、音声用学習済モデルの学習度が向上していき、音声認識部１３４の性能が向上する。

図６に示すように、物体認識処理は、物体認識ステップＳ３１３ａと物体認識専用機械学習ステップＳ３１３ｂとを含んで構成される。物体認識ステップＳ３１３ａでは、各映像コンテンツに画像として含まれる物体が認識され、物体認識専用機械学習ステップＳ３１３ｂでは、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習が行われる。

物体認識専用機械学習ステップＳ３１３ｂが繰り返されることにより、物体認識部１３６（図１）に、物体の認識に特化した学習済モデル（以下、「物体用学習済モデル」と記す）が生成される。物体認識部１３６は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる物体を物体用学習済モデルを用いて認識する。よって、図６に示す物体認識処理の実行回数が増えるほど、物体用学習済モデルの学習度が向上していき、物体認識部１３６の性能が向上する。

［作用・効果］
上記のように、本実施形態のメタデータ生成システム１３０は、テレビ放送またはインターネット配信により提供され、映像コンテンツ保存部１２０に保存された各映像コンテンツに画像として含まれる文字又は文字列を文字認識部１３２で認識し、各映像コンテンツに含まれる音声を音声認識部１３４で認識し、各映像コンテンツに画像として含まれる物体を物体認識部１３６で認識する。そして、認識した文字又は文字列、音声及び物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

その際、本実施形態のメタデータ生成システム１３０は、文字認識部１３２が文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声認識部１３４が音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習し、物体認識部１３６が物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。

文字又は文字列の認識処理についての機械学習は文字認識専用機械学習部１３３により実行され、音声の認識処理についての機械学習は音声認識専用機械学習部１３５により実行され、物体の認識処理についての機械学習は物体認識専用機械学習部１３７により実行される。このように、文字、音声、物体の学習処理がそれぞれ専用の機械学習部により実行されることにより、文字、音声、物体それぞれの認識処理についての機械学習が高効率に進行する。

すなわち、文字認識専用機械学習部１３３、音声認識専用機械学習部１３５及び物体認識専用機械学習部１３７による学習処理が各々繰り返されることにより、文字認識部１３２、音声認識部１３４及び物体認識部１３６のそれぞれに、文字、音声及び物体の認識用に特化した文字用学習済モデル、音声用学習済モデル及び物体用学習済モデルが個別に生成される。

文字認識部１３２、音声認識部１３４及び物体認識部１３６は、各映像コンテンツに含まれる文字又は文字列の画像、音声及び物体の画像をそれぞれ入力とし、それらを専用の学習済モデル（文字用学習済モデル、音声用学習済モデル、物体用学習済モデル）を用いて認識する。よって、文字認識部１３２、音声認識部１３４及び物体認識部１３６による認識処理の実行回数が増えるほど、それぞれの専用の学習済モデルの学習度が向上していき、文字認識部１３２、音声認識部１３４及び物体認識部１３６の性能が向上する。

このように、文字又は文字列の認識精度、音声の認識精度及び物体の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、各映像コンテンツに画像として含まれる文字及び物体、そして音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

また、本実施形態のメタデータ生成システム１３０によれば、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。

また、本実施形態のメタデータ生成システム１３０によれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部１３３及び物体認識専用機械学習部１３７が機械学習を行うことにより、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部１３５が機械学習を行うことにより、各ニュース番組内での人物の音声の認識精度が確実に向上する。

すなわち、本実施形態のメタデータ生成システム１３０によれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上する。これにより、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体及びその背景をそれぞれきわめて高精度に認識し、それらの認識結果に基づいて各映像コンテンツに関連する正確なメタデータを自動生成することが可能となる。

そして、本実施形態の映像コンテンツ管理システム１００によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを映像コンテンツ保存部１２０に保存するとともに、映像コンテンツ保存部１２０に保存されている全ての映像コンテンツを、本実施形態のメタデータ生成システム１３０により生成された正確なメタデータと関連付けて検索可能に管理することができるので、高性能な映像コンテンツ管理システム１００を実現することができる。

なお、本発明は上記実施形態に限定されない。たとえば、上記実施形態のメタデータ生成システム１３０は、文字認識部１３２、音声認識部１３４及び物体認識部１３６を備えているが、物体認識部１３６は必須の構成要素ではない。

また、上記実施形態では、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部１３５が機械学習を行うこととしたが、人物以外の音声、たとえば災害現場や戦場などの報道中の音声に含まれる爆音、ヘリコプターや飛行機の飛行音、戦車の走行音、等に基づいて用意された学習用データを用いて、音声認識専用機械学習部１３５が機械学習を行うことも可能である。たとえば、ヘリコプターや飛行機の音に基づいて用意された学習用データを用いて音声認識専用機械学習部１３５が機械学習を行うことにより、音声認識部１３４によるヘリコプターや飛行機の音の認識精度を向上させることができる。

また、上記実施形態において、物体認識部１３６が認識する人物の要素は、当該人物の顔のみであっても、顔を含む身体の一部であってもよい。

１００映像コンテンツ管理システム
１２０映像コンテンツ保存部
１３０メタデータ生成システム
１３２文字認識部
１３３文字認識専用機械学習部
１３４音声認識部
１３５音声認識専用機械学習部
１３６物体認識部
１３７物体認識専用機械学習部
１３８テキスト化部
１３９メタデータ作成部
１４０映像コンテンツ管理部
１５０要求受付部
Ｄ１学習用データ
Ｄ３学習用データ
Ｄ２学習用データ
Ｓ３１認識ステップ
Ｓ３１１ａ文字認識ステップ
Ｓ３１１ｂ文字認識専用機械学習ステップ
Ｓ３１２ａ音声認識ステップ
Ｓ３１２ｂ音声認識専用機械学習ステップ
Ｓ３１３ａ物体認識ステップ
Ｓ３１３ｂ物体認識専用機械学習ステップ
Ｓ３２テキスト化ステップ
Ｓ３３メタデータ作成ステップ

Claims

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、
前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、
前記映像コンテンツに含まれる音声を認識する音声認識部と、
前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部と、
前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、
前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、
前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、
前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部と、
前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、
前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成し、
前記映像コンテンツは、ニュース番組であり、
前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、
前記音声は、前記ニュース番組内での人物の音声であり、
前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であり、
前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、
前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とするメタデータ生成システム。
前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする請求項１記載のメタデータ生成システム。
前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする請求項２記載のメタデータ生成システム。
請求項１から３のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、
テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、
前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、
利用者の端末から視聴要求を受け付ける要求受付部と、を有し、
前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とする映像コンテンツ管理システム。
請求項１から３のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラム。
請求項４に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラム。