JP6811811B1 - メタデータ生成システム、映像コンテンツ管理システム及びプログラム - Google Patents

メタデータ生成システム、映像コンテンツ管理システム及びプログラム Download PDF

Info

Publication number
JP6811811B1
JP6811811B1 JP2019125237A JP2019125237A JP6811811B1 JP 6811811 B1 JP6811811 B1 JP 6811811B1 JP 2019125237 A JP2019125237 A JP 2019125237A JP 2019125237 A JP2019125237 A JP 2019125237A JP 6811811 B1 JP6811811 B1 JP 6811811B1
Authority
JP
Japan
Prior art keywords
character
video content
recognition
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019125237A
Other languages
English (en)
Other versions
JP2021012466A (ja
Inventor
孝利 石井
孝利 石井
Original Assignee
Jcc株式会社
Jcc株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jcc株式会社, Jcc株式会社 filed Critical Jcc株式会社
Priority to JP2019125237A priority Critical patent/JP6811811B1/ja
Application granted granted Critical
Publication of JP6811811B1 publication Critical patent/JP6811811B1/ja
Publication of JP2021012466A publication Critical patent/JP2021012466A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】ニュース番組など映像コンテンツに含まれる文字及び音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成するシステムを提供する。【解決手段】テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、文字又は文字列を認識する文字認識部と、音声を認識する音声認識部と、認識した文字又は文字列、音声に基づいてテキスト情報を生成するテキスト化部と、テキスト情報に基づいてメタデータを作成するメタデータ作成部と、を有する。文字認識部は、文字又は文字列の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する文字認識専用機械学習部を有する。音声認識部は、音声の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する音声認識専用機械学習部を有する。【選択図】図1

Description

本発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システム及びこれを備えた映像コンテンツ管理システム及びそのプログラムに関するものである。
テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムは公知である(特許文献1参照)。メタデータは、映像コンテンツの作成日時、放送日時、配信日時、作成者、タイトル、注釈、等を示すテキスト情報である。メタデータは、保存した大量の映像コンテンツを効率的に検索可能に管理するために重要な情報である。
特許文献1のメタデータ生成システムは、映像コンテンツを構成する各映像に含まれる文字情報(文字または文字列)を認識し、それらをテキスト化することで、各映像コンテンツに関連するメタデータを自動生成する。さらに、特許文献1のメタデータ生成システムは、映像コンテンツに含まれる音声情報をテキスト化して、メタデータを自動生成する機能も有している。
特許文献1のメタデータ生成システムによれば、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる文字情報及び音声情報からメタデータを効率良く作成することができる。これにより、保存した大量の映像コンテンツを高効率に検索可能に管理し得る映像コンテンツ管理システムの実現が可能となった。
特開2018ー33048号公報
テレビ放送やインターネット配信により提供される映像コンテンツの画面レイアウトは多種多様である。特にテレビ放送される番組の画面レイアウトは、視聴者に対し各放送局が独自性をアピールしようとして放送局毎に工夫が凝らされたものとなっている。また、テレビ放送される番組中の音声に関しても同様に、放送局ごとに工夫が凝らされている。
たとえば、ニュース番組の放送画面には、キャスター、スタジオセット、背景などとともに、ヘッドラインやテロップなどの文字情報が表示されるが、文字情報の表示態様すなわち、文字の大きさやフォントの種類、画面内における表示位置はニュース番組ごとに、更には番組内のコーナーごとに異なる。また、各ニュース番組はオリジナルの楽曲や効果音などを持ち、キャスターの声に重ねてそのような楽曲や効果音を流す音響演出も多種多様に行われる。
このような、映像コンテンツの画面レイアウトや音響演出の多種多様化は、日を追って増大する傾向にある。また、テレビ放送に限らず、インターネット配信により提供される映像コンテンツにおいても同様に、画面レイアウトや音響演出が多種多様化している。
しかし、特許文献1のメタデータ生成システムは、画面レイアウトや音響演出の多種多様化を想定していない。このため、特許文献1のメタデータ生成システムでは、映像コンテンツに含まれる文字情報及び音声情報を正確に認識することが困難な状況になっている。文字情報及び音声情報の認識精度の低下は、生成されるメタデータの正確性の低下に直結するため、高性能なメタデータ生成システムを実現する上で克服しなければならない問題である。
そこで、本発明が解決しようとする課題は、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができるメタデータ生成システム、これを備えた映像コンテンツ管理システム及びこれらのシステムを実現するためのプログラムを提供することにある。
上記課題を解決するために、請求項1記載の発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、前記映像コンテンツに含まれる音声を認識する音声認識部と、前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部と、前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部と、前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成し、前記映像コンテンツは、ニュース番組であり、前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、前記音声は、前記ニュース番組内での人物の音声であり、前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であり、前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とするメタデータ生成システムである。
上記のように構成された請求項1のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを作成する。
その際、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する。文字又は文字列の認識処理についての機械学習は、文字認識専用機械学習部により実行され、音声の認識処理についての機械学習は、音声認識専用機械学習部により実行されるので、文字情報、音声情報それぞれの認識処理についての機械学習が高効率に進行する。
したがって、文字又は文字列の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる文字又は文字列の認識精度が急速に向上していき、音声の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる音声の認識精度が急速に向上していく。
また、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、更に、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる物体を認識する。そして、認識した文字又は文字列、音声及び前記文字又は文字列以外の映像構成要素としての物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
その際、文字又は文字列の認識処理についての機械学習及び音声の認識処理についての機械学習に加えて、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。物体の認識処理についての機械学習は、物体専用機械学習部により実行されるので、文字又は文字列の認識処理についての機械学習の高効率化及び音声の認識処理についての機械学習の高効率化に加えて、物体の認識処理についての機械学習も高効率化する。物体の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる物体の認識精度が急速に向上していく。
上記のように、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列を認識する。
また、各ニュース番組内での人物の音声を認識する。また、ニュース番組内で表示される人物又は映像構成要素を認識する。そして、認識した文字又は文字列、音声、及び、人物又は映像構成要素に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。
さらに、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部及び物体認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が確実に向上する。
請求項2記載の発明にあっては、請求項1記載のメタデータシステムにおいて、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする。
即ち、従来の、メタデータを利用した映像コンテンツ検索システムにあっては、テレビ等の全放送番組を、放送局コード及び秒を基準とするタイムコードを付して映像と対応させた状態で録画し、録画された放送番組情報からメタデータ化し、メタデータにより使用者が指定した映像情報を、映像に付された放送局コード及び秒単位のタイムコードを基に抽出するように構成されていた。
このような従来のメタデータ利用の映像コンテンツ検索システムにあっては、タイムコードの基準となる秒基準、秒単位でのメタデータ化及び当該メタデータに基づく検索は可能であり、例えば、映像中の人間の音声、会話等は論理的な展開が一般的でもあることから、充分にメタデータ化することも可能であると共に、検索、分析することは可能である。
しかしながら、いわゆる「シーンチェンジ」のように映像が瞬間的に変化する場合がある。即ち、あるシーンにおいて特定の対象を映していたところ、他の対象に突然に脈絡なく変化するような場合が存在する。例えば、ドラマの映像においても、ドラマ構成上、あるシーンから全く関係のないシーンへ唐突に変化する場合もある。
このような急峻な「シーンチェンジ」等の場合には、秒単位の認識、分析技術では、シーンチェンジ、映像変化の経過について十分には対応できない。また、特に、「サブリミナル映像」等のように、特定のシーンが、人間が十分に認識できないような非常な短時間、フラッシュバックのようにインサートされているような場合もあり、このような場合の映像情報の分析に関しても、従来の秒単位での映像分析技術では充分には対応できない。
しかしながら、映像コンテンツの情報分析の観点からは、このような突然のシーンチェンジ、映像対象の唐突な変更、又はサブリミナル映像等の、非常に短時間の映像変化の経過に関してもメタデータ化しておき、その後の検索、分析の場面に対応したい、という要請がある。また、例えば、災害等の映像を事後的に検証分析するような場合、災害原因の究明には、映像の秒単位の分析では充分な分析、研究が不可能な場合もある。
ところで、映像フレームは一秒あたり30フレーム以上存在し、例えば、テレビ、ビデオのフレームレートは、30fpsであり、これらのフレームにより映像が構成されている。従って、映像を構成するフレーム単位で映像を抽出し、対応するメタデータを作成し、当該メタデータに基づき映像を検索、分析できるようになれば上記の事態を解決することが可能となる。
そこで、請求項2記載の発明にあっては、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析できるように構成されている。
請求項3記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする。
また、請求項4記載の発明は、請求項1から3のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、利用者の端末から視聴要求を受け付ける要求受付部と、を有し、前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とすることを特徴とする。
上記のように構成された請求項4の映像コンテンツ管理システムは、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から3のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータと関連付けて管理する。
利用者の端末から視聴要求を受け付けた場合、その視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして、保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末で視聴可能とする。
また、請求項5記載の発明は、請求項1から3のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラムである。
請求項5のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明のメタデータ生成システムを実現できる。
また、請求項6記載の発明は、請求項5に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラムである。
請求項6のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明の映像コンテンツ管理システムを実現できる。
請求項1のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
また、文字又は文字列の認識精度及び音声の認識精度に加えて、物体の認識精度が、それ専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報、音声情報及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
また、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上するので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
さらに、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いることにより、ヘッドライン又はテロップに含まれる文字又は文字列の認識及び物体の認識についての機械学習を高効率に進行させることができ、人物の音声に基づいて用意された学習用データを用いることにより、人物の音声の認識についての機械学習を高効率に進行させることができるので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
請求項2記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び、物体を認識するように構成されていることから、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析することできる。
その結果、放送映像に存在する、急峻な「シーンチェンジ」等の場合や、「サブリミナル映像」に関しても、映像の抽出、検索、分析が可能となり、また、災害等の映像を事後的に検証分析するような場合、災害原因の究明において、映像の秒単位の分析では充分な分析が不可能な場合であっても有効に対応することが可能となる。
請求項3記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことから、映像コンテンツとして画面に表示されるほぼ全ての映像構成要素に関してメタデータ化が可能となる。
請求項4の発明によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から3のいずれか一項に記載のメタデータ生成システムにより生成された正確なメタデータと関連付けて検索可能に管理することで、高性能な映像コンテンツ管理システムを実現することができる。
請求項5の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することが可能なメタデータ生成システムを実現することができる。
請求項6の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明に係るメタデータ生成システムを備えた高性能な映像コンテンツ管理システムを実現することができる。
一実施形態の映像コンテンツ管理システムのブロック図である。 図1の映像コンテンツ管理システムの一連の処理内容を示すフローチャートである。 図1の映像コンテンツ管理システムを構成する一実施形態のメタデータ生成システムの一連の処理内容を示すフローチャートである。 図3中の認識処理に含まれる文字認識処理のフローチャートである。 図3中の認識処理に含まれる音声認識処理のフローチャートである。 図3中の認識処理に含まれる物体認識処理のフローチャートである。
以下、添付図面を参照して、本発明の一実施形態について説明する。
[構成]
[映像コンテンツ管理システム]
図1に示す一実施形態の映像コンテンツ管理システム100は、受信部110と、映像コンテンツ保存部120と、一実施形態のメタデータ生成システム130と、映像コンテンツ管理部140と、要求受付部150と、を有する。
受信部110は、放送局200及び配信元300から提供された映像コンテンツを受信する機能ブロックである。受信部110は、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを受信する。放送局200には、地上放送局及び衛星放送局が含まれる。配信元300には、インターネット上に存在する各種映像コンテンツサーバが含まれる。
映像コンテンツ保存部120は、受信部110により受信された大量の映像コンテンツを保存する機能ブロックである。映像コンテンツ保存部120には、大容量のHDD(Hard Disk Drive)及び大容量のSSD(Solid State Drive)が含まれる。
メタデータ生成システム130は、映像コンテンツ保存部120に記録されている映像コンテンツに関するメタデータを生成する機能ブロックである。
映像コンテンツ管理部140は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成システム130により生成されたメタデータと関連付けて検索可能に管理する機能ブロックである。
要求受付部150は、利用者の端末400から視聴要求を受け付ける機能ブロックである。
映像コンテンツ管理部140は、要求受付部150が受け付けた利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする。
[メタデータ生成システム]
メタデータ生成システム130は、認識部131と、テキスト化部138と、メタデータ作成部139、とを有する。
認識部131は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識する機能ブロックである。認識部131は、文字認識部132と、音声認識部134と、物体認識部136と、を有する。
文字認識部132は、各映像コンテンツに画像として含まれる文字又は文字列を認識する機能ブロックである。文字認識部132は、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部133を有する。
音声認識部134は、各映像コンテンツに含まれる音声を認識する機能ブロックである。音声認識部134は、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部135を有する。
物体認識部136は、各映像コンテンツに画像として含まれる物体を認識する機能ブロックである。物体認識部136は、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部137を有する。
テキスト化部138は、文字認識部132により認識した文字又は文字列、音声認識部134により認識した音声及び物体認識部136により認識した物体に基づいてテキスト情報を生成する機能ブロックである。
メタデータ作成部139は、テキスト化部138により生成されたテキスト情報に基づいて各映像コンテンツのメタデータを作成する機能ブロックである。メタデータは、テレビ放送される映像コンテンツの場合には、番組単位或いは番組中のコーナー単位ごと、もしくは記事単位ごとに生成される。また、映像コンテンツが映画の場合、メタデータは、映画の1作品ごと、映像の所定数のフレームごと、等、種々の単位ごとに作成される。メタデータには、映像コンテンツの提供元(放送局、配信元、等)、映像コンテンツの時間情報(放送日時、配信日時、再生所要時間、等)、内容の要約、等が含まれる。
映像コンテンツがニュース番組である場合、文字認識部132による認識対象となる文字又は文字列は、そのニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、音声認識部134による認識対象となる音声は、そのニュース番組内での人物の音声であり、物体認識部136による認識対象となる物体は、そのニュース番組内で表示される人物又は映像構成要素、又は映像構成要素の背景に存在する各種物体、商品、風景、建築物及び構築物等である。
文字認識専用機械学習部133及び物体認識専用機械学習部137は、映像コンテンツの画面レイアウトや背景を考慮してそれぞれ用意された学習用データD1、D3を用いて機械学習する。音声認識専用機械学習部135は、人物の音声に基づいて用意された学習用データD2を用いて機械学習する。
たとえば、映像コンテンツがニュース番組である場合、文字認識専用機械学習部133は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD1を用いて、そのニュース番組に表示されるヘッドライン又はテロップに含まれる文字又は文字列をより高精度に認識できるように機械学習する。
また、物体認識専用機械学習部137は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD3を用いて、そのニュース番組内で表示される人物(キャスターやコメンテータ)又は映像構成要素(建物、車両、飛行機、等)及びその背景情報をより高精度に認識できるように機械学習する。
また、音声認識専用機械学習部135は、そのニュース番組に登場する人物(キャスターやコメンテータ)の音声に基づいて用意された学習用データD2を用いて、そのニュース番組内でのその人物の音声をより高精度に認識できるように機械学習する。
この場合、学習用データD1、D3は、ニュース番組単位或いは番組中のコーナー単位又は記事単位ごとの画面レイアウトを考慮して用意される。学習用データD2は、ニュース番組単位或いは番組中のコーナー単位ごとの登場人物の音声に基づいて用意される。
[動作]
つぎに、上記のように構成された映像コンテンツ管理システム100における処理の流れを、図2から図6のフローチャートに従って説明する。
映像コンテンツ管理システム100は、図2に示すように、映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3、映像コンテンツ管理処理S4、要求受付処理S5及び視聴処理S6を含む一連の処理を実行する。
映像コンテンツ受信処理S1は、放送局200及び配信元300から提供される映像コンテンツを受信する処理である。
映像コンテンツ保存処理S2は、映像コンテンツ受信処理S1により受信した映像コンテンツを保存する処理である。
メタデータ生成処理S3は、映像コンテンツ保存部120に記録されている各映像コンテンツに関するメタデータを生成する処理である。
映像コンテンツ管理処理S4は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成処理S3により生成されたメタデータと関連付けて検索可能に管理する処理である。
要求受付処理S5は、利用者の端末400から視聴要求を受け付ける処理である。
視聴処理S6は、利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする処理である。
映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3及び映像コンテンツ管理処理S4が繰り返し実行されることにより、映像コンテンツ保存部120に大量の映像コンテンツが保存されていくとともに、映像コンテンツ保存部120に保存されている大量の全ての映像コンテンツがメタデータと関連付けて検索可能に管理されるようになる。
図3に示すように、メタデータ生成処理S3は、認識ステップS31と、テキスト化ステップS32及びメタデータ作成ステップS33と、を含んで構成される。
認識ステップS31は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識するステップである。認識ステップS31では、文字認識処理(図4)と、音声認識処理(図5)と、物体認識処理(図6)と、が実行される。
テキスト化ステップS32では、認識ステップS31により認識した認識対象(文字又は文字列、音声、物体)に基づいてテキスト情報が生成される。
メタデータ作成ステップS33では、テキスト化ステップS32により生成されたテキスト情報に基づいて各映像コンテンツのメタデータが作成される。
図4に示すように、文字認識処理は、文字認識ステップ311aと文字認識専用機械学習ステップS311bとを含んで構成される。文字認識ステップ311aでは、各映像コンテンツに画像として含まれる文字又は文字列が認識され、文字認識専用機械学習ステップS311bでは、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習が行われる。
文字認識専用機械学習ステップS311bが繰り返されることにより、文字認識部13(図1)に、文字又は文字列の認識に特化した学習済モデル(以下、「文字用学習済モデル」と記す)が生成される。文字認識部132は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる文字又は文字列を文字用学習済モデルを用いて認識する。よって、図4に示す文字認識処理の実行回数が増えるほど、文字用学習済モデルの学習度が向上していき、文字認識部132の性能が向上する。
図5に示すように、音声認識処理は、音声認識ステップS312aと音声認識専用機械学習ステップS312bとを含んで構成される。音声認識ステップS312aでは、各映像コンテンツに含まれる音声が認識され、音声認識専用機械学習ステップS312bでは、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習が行われる。
音声認識専用機械学習ステップS312bが繰り返されることにより、音声認識部134(図1)に、音声の認識に特化した学習済モデル(以下、「音声用学習済モデル」と記す)が生成される。音声認識部134は、各映像コンテンツに含まれる音声を入力とし、その音声を音声用学習済モデルを用いて認識する。よって、図5に示す音声認識処理の実行回数が増えるほど、音声用学習済モデルの学習度が向上していき、音声認識部134の性能が向上する。
図6に示すように、物体認識処理は、物体認識ステップS313aと物体認識専用機械学習ステップS313bとを含んで構成される。物体認識ステップS313aでは、各映像コンテンツに画像として含まれる物体が認識され、物体認識専用機械学習ステップS313bでは、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習が行われる。
物体認識専用機械学習ステップS313bが繰り返されることにより、物体認識部136(図1)に、物体の認識に特化した学習済モデル(以下、「物体用学習済モデル」と記す)が生成される。物体認識部136は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる物体を物体用学習済モデルを用いて認識する。よって、図6に示す物体認識処理の実行回数が増えるほど、物体用学習済モデルの学習度が向上していき、物体認識部136の性能が向上する。
[作用・効果]
上記のように、本実施形態のメタデータ生成システム130は、テレビ放送またはインターネット配信により提供され、映像コンテンツ保存部120に保存された各映像コンテンツに画像として含まれる文字又は文字列を文字認識部132で認識し、各映像コンテンツに含まれる音声を音声認識部134で認識し、各映像コンテンツに画像として含まれる物体を物体認識部136で認識する。そして、認識した文字又は文字列、音声及び物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
その際、本実施形態のメタデータ生成システム130は、文字認識部132が文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声認識部134が音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習し、物体認識部136が物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。
文字又は文字列の認識処理についての機械学習は文字認識専用機械学習部133により実行され、音声の認識処理についての機械学習は音声認識専用機械学習部135により実行され、物体の認識処理についての機械学習は物体認識専用機械学習部137により実行される。このように、文字、音声、物体の学習処理がそれぞれ専用の機械学習部により実行されることにより、文字、音声、物体それぞれの認識処理についての機械学習が高効率に進行する。
すなわち、文字認識専用機械学習部133、音声認識専用機械学習部135及び物体認識専用機械学習部137による学習処理が各々繰り返されることにより、文字認識部132、音声認識部134及び物体認識部136のそれぞれに、文字、音声及び物体の認識用に特化した文字用学習済モデル、音声用学習済モデル及び物体用学習済モデルが個別に生成される。
文字認識部132、音声認識部134及び物体認識部136は、各映像コンテンツに含まれる文字又は文字列の画像、音声及び物体の画像をそれぞれ入力とし、それらを専用の学習済モデル(文字用学習済モデル、音声用学習済モデル、物体用学習済モデル)を用いて認識する。よって、文字認識部132、音声認識部134及び物体認識部136による認識処理の実行回数が増えるほど、それぞれの専用の学習済モデルの学習度が向上していき、文字認識部132、音声認識部134及び物体認識部136の性能が向上する。
このように、文字又は文字列の認識精度、音声の認識精度及び物体の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、各映像コンテンツに画像として含まれる文字及び物体、そして音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
また、本実施形態のメタデータ生成システム130によれば、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。
また、本実施形態のメタデータ生成システム130によれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部133及び物体認識専用機械学習部137が機械学習を行うことにより、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うことにより、各ニュース番組内での人物の音声の認識精度が確実に向上する。
すなわち、本実施形態のメタデータ生成システム130によれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上する。これにより、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体及びその背景をそれぞれきわめて高精度に認識し、それらの認識結果に基づいて各映像コンテンツに関連する正確なメタデータを自動生成することが可能となる。
そして、本実施形態の映像コンテンツ管理システム100によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを映像コンテンツ保存部120に保存するとともに、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、本実施形態のメタデータ生成システム130により生成された正確なメタデータと関連付けて検索可能に管理することができるので、高性能な映像コンテンツ管理システム100を実現することができる。
なお、本発明は上記実施形態に限定されない。たとえば、上記実施形態のメタデータ生成システム130は、文字認識部132、音声認識部134及び物体認識部136を備えているが、物体認識部136は必須の構成要素ではない。
また、上記実施形態では、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うこととしたが、人物以外の音声、たとえば災害現場や戦場などの報道中の音声に含まれる爆音、ヘリコプターや飛行機の飛行音、戦車の走行音、等に基づいて用意された学習用データを用いて、音声認識専用機械学習部135が機械学習を行うことも可能である。たとえば、ヘリコプターや飛行機の音に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うことにより、音声認識部134によるヘリコプターや飛行機の音の認識精度を向上させることができる。
また、上記実施形態において、物体認識部136が認識する人物の要素は、当該人物の顔のみであっても、顔を含む身体の一部であってもよい。
100 映像コンテンツ管理システム
120 映像コンテンツ保存部
130 メタデータ生成システム
132 文字認識部
133 文字認識専用機械学習部
134 音声認識部
135 音声認識専用機械学習部
136 物体認識部
137 物体認識専用機械学習部
138 テキスト化部
139 メタデータ作成部
140 映像コンテンツ管理部
150 要求受付部
D1 学習用データ
D3 学習用データ
D2 学習用データ
S31 認識ステップ
S311a 文字認識ステップ
S311b 文字認識専用機械学習ステップ
S312a 音声認識ステップ
S312b 音声認識専用機械学習ステップ
S313a 物体認識ステップ
S313b 物体認識専用機械学習ステップ
S32 テキスト化ステップ
S33 メタデータ作成ステップ

Claims (6)

  1. テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、
    前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、
    前記映像コンテンツに含まれる音声を認識する音声認識部と、
    前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部と、
    前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、
    前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、
    前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、
    前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部と、
    前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、
    前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成し、
    前記映像コンテンツは、ニュース番組であり、
    前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、
    前記音声は、前記ニュース番組内での人物の音声であり、
    前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であり、
    前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、
    前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とするメタデータ生成システム。
  2. 前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする請求項1記載のメタデータ生成システム。
  3. 前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする請求項2記載のメタデータ生成システム。
  4. 請求項1から3のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、
    テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、
    前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、
    利用者の端末から視聴要求を受け付ける要求受付部と、を有し、
    前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とする映像コンテンツ管理システム。
  5. 請求項1から3のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラム。
  6. 請求項4に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラム。
JP2019125237A 2019-07-04 2019-07-04 メタデータ生成システム、映像コンテンツ管理システム及びプログラム Active JP6811811B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019125237A JP6811811B1 (ja) 2019-07-04 2019-07-04 メタデータ生成システム、映像コンテンツ管理システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019125237A JP6811811B1 (ja) 2019-07-04 2019-07-04 メタデータ生成システム、映像コンテンツ管理システム及びプログラム

Publications (2)

Publication Number Publication Date
JP6811811B1 true JP6811811B1 (ja) 2021-01-13
JP2021012466A JP2021012466A (ja) 2021-02-04

Family

ID=74096239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125237A Active JP6811811B1 (ja) 2019-07-04 2019-07-04 メタデータ生成システム、映像コンテンツ管理システム及びプログラム

Country Status (1)

Country Link
JP (1) JP6811811B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022164421A (ja) * 2021-04-16 2022-10-27 Jcc株式会社 放送録画装置及び放送録画装置用プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07322184A (ja) * 1994-05-20 1995-12-08 Olympus Optical Co Ltd 登録装置及び登録装置を用いた画像ファイリング装置
JP5276610B2 (ja) * 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2011239141A (ja) * 2010-05-10 2011-11-24 Sony Corp 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP6344849B2 (ja) * 2014-06-26 2018-06-20 日本放送協会 映像識別器学習装置、及びプログラム
JP6609181B2 (ja) * 2015-12-25 2019-11-20 日本放送協会 文字属性推定装置、及び文字属性推定プログラム
JP6779641B2 (ja) * 2016-03-18 2020-11-04 株式会社Spectee 画像分類装置、画像分類システム及び画像分類方法
JP6857983B2 (ja) * 2016-08-25 2021-04-14 Jcc株式会社 メタデータ生成システム
JP7121378B2 (ja) * 2017-09-26 2022-08-18 Jcc株式会社 映像管理方法、映像管理装置、及び映像管理システム

Also Published As

Publication number Publication date
JP2021012466A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
US10631063B2 (en) Systems and method for using closed captions to initiate display of related content on a second display device
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
US10154305B2 (en) Using an audio stream to identify metadata associated with a currently playing television program
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
US20070136755A1 (en) Video content viewing support system and method
US8930308B1 (en) Methods and systems of associating metadata with media
JP2003157288A (ja) 情報関連付け方法、端末装置、サーバ装置、プログラム
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
CN102867042A (zh) 多媒体文件搜索方法及装置
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
JP2017538328A (ja) プロモーション情報の処理方法、装置、デバイス及びコンピュータ記憶媒体
Hunter et al. Building and indexing a distributed multimedia presentation archive using SMIL
CN113438492B (zh) 直播中的题目生成方法、系统、计算机设备及存储介质
JP6811811B1 (ja) メタデータ生成システム、映像コンテンツ管理システム及びプログラム
US10296533B2 (en) Method and system for generation of a table of content by processing multimedia content
WO2015094311A1 (en) Quote and media search method and apparatus
Li et al. Capturing and indexing computer-based activities with virtual network computing
CN115209211A (zh) 字幕显示方法、装置、电子设备、存储介质及程序产品
Ronfard Reading movies: an integrated DVD player for browsing movies and their scripts
JP2022088788A (ja) メタデータ生成システム、映像コンテンツ管理システム及びプログラム
CN106815288A (zh) 一种视频相关信息生成方法及其装置
CN116781971A (zh) 视频播放方法及装置
CN116932816A (zh) 视频处理方法、装置、计算机可读介质及电子设备
CN115134648A (zh) 一种视频播放方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201215

R150 Certificate of patent or registration of utility model

Ref document number: 6811811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250