JP6361351B2

JP6361351B2 - 発話ワードをランク付けする方法、プログラム及び計算処理システム

Info

Publication number: JP6361351B2
Application number: JP2014152053A
Authority: JP
Inventors: クーパーマシュー; ジョシディラジ; チェンホイゾォン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2014-02-27
Filing date: 2014-07-25
Publication date: 2018-07-25
Anticipated expiration: 2034-07-25
Also published as: JP2015162244A; US9542934B2; US20150243276A1

Description

開示の技術は、ビデオに含まれる発話ワードをランク付けする方法、プログラム及び計算処理プログラムに関する。

ビデオカメラ、スマートフォン及びデジタルカメラなどのデバイスを所有することがより一般的になってきたため、現在、ビデオ記録は、毎日行われている。さらに、サービス及びビデオを扱うことが可能なインフラの拡充によって、オンライン上のビデオを容易に探し出し、視聴することが可能である。しかしながら、日付、製作者、キーワードもしくは説明などのメタデータをまったく有さないビデオを、一般的なサーチエンジンを用いて探し出すことは困難である。メタデータは、通常、マニュアルで付加され、そのプロセスにはたいへん時間がかかる。さらに、ビデオをそのメタデータによって探し出すことが可能であったとしても、通常、サーチエンジンがビデオ内の関心対象の特定のシーンを探し出すことは困難である。

特許文献１は、レクチャービデオサーチエンジンについて記載している。このシステムは、レクチャービデオジャンルにフォーカスし、スライドによるビデオ構造を利用する点で、他のサーチエンジンとは異なる。記載されたシステムは、自動的に、ビデオ内のスライドを検出し、光学文字認識（ＯＣＲ：optical character recognition）を用いて、そのテキストを抽出するためにスライドフレームを処理する。このパワフルなスライドキーフレームベースインターフェイスによって、ユーザは、テキストベースサーチを用いて、ビデオ内で効率的に検索を行うことが可能である。

ビデオのより広いクラスを説明するテキストの他のソースは、例えば、自動音声認識（ＡＳＲ：automatic speech recognition）を用いたオーディオトラックからのテキスト抽出である。非特許文献１では、スライドから導出されるテキストの特性及び音声から導出されるテキストの特性が設定され、マニュアルグランドトゥルース（ground truth：正解を記録したデータ）を用いて制御される実験で対比されている。ＡＳＲからの発話テキストもしくはクローズドキャプションは、一般的に、密度が高く、俄仕立てであり、一般的な用語を含む。ＡＳＲにおけるエラーは、音響ミスマッチによってワードレベルで生じるものであり、検索性能を劣化させる。スライドファイルもしくはＯＣＲを用いてスライドから抽出したスライドテキストは相対的に密度が低いが、作成プロセスの成果として区別可能な用語を含む。自動的に抽出されたスライドの用語におけるエラーは文字レベルで生じ検索に与える影響は少ない。

米国特許第８２８０１５８号明細書

クーパー（Cooper）、「自動的にリカバーされたスライド及び発話テキストを用いたプレゼンテーションビデオ検索（Presentation video retrieval using automatically recovered slide and spoken text）」、SPIE抄録（Proc. SPIE）、２０１３年、ｖｏｌ.８６６７マニング（Manning）ら、「情報検索入門（Introduction to information retrieval）」、ケンブリッジ大学出版（Cambridge University Press）、２００８年ベリー（Berry）ら、「知能情報検索のための線形代数（Using linear algebra for intelligent information retrieval）、SIAMレビュー（SIAM review）、１９９５年、３７(４)、頁５７３〜頁５９５ホフマン（Hofmann）、「確率的潜在意味解析による教師なし学習（Unsupervised learning by probabilistic latent semantic analysis）」、機械学習（Mach. Learn.）、２００１年１月、４２(１/２)、頁１７７〜頁１９６チェン（Chen）、「発話ドキュメント検索及びトランスクリプションのためのワードトピックモデル（Word topic models for spoken document retrieval and transcription）、アジア言語情報処理に関するＡＣＭトランザクション（ACM Transactions on Asian Language Information Processing）、２００９年３月、８(１)、２:１−２:２７バーナード（Barnard）ら、「ワード及びピクチャのマッチング（Matching words and pictures）」、機械学習研究ジャーナル（J. Mach. Learn. Res.）、２００３年３月、３:１１０７−１１３５ブレイ（Blei）ら、「潜在的ディリクレ配分（Latent dirichlet allocation）」、機械学習研究ジャーナル（J. Mach. Learn. Res.）、２００３年３月、３:９９３−１０２２ジェオン（Jeon）ら、「クロスメディア関連モデルを用いた自動画像注釈付け及び検索（Automatic image annotation and retrieval using cross-media relevance models）」、情報検索における研究開発に関する第２６回年次国際ＡＣＭＳＩＧＩＲカンファレンス抄録（Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval）、ＵＳＡ、２００３年、頁１１９〜１２６リーンハート（Lienhart）ら、「マルチモーダル画像検索のためのマルチレイヤーＰＬＳＡ（Multilayer plsa for multimodal image retrieval）、画像及びビデオ検索に関するＡＣＭ国際カンファレンス抄録（Proceedings of the ACM International Conference on Image and Video Retrieval）、ＵＳＡ、２００９年、頁９:１〜９:８ラシワシア（Rasiwasia）ら、「クロスモーダルマルチメディア検索への新しいアプローチ（A new approach to cross-modal multimedia retrieval）、マルチメディアに関する国際会議抄録（Proceedings of the international conference on Multimedia）、ＵＳＡ、２０１０年、頁：２５１−２６０チュアン（Chuang）ら、「非重要ワードクラッタ不要：テキスト視覚化のための説明的キーフレーズ（Without the clutter of unimportant words: Descriptive keyphrasesfor text visualization）、コンピュータヒューマンインタラクションに関するＡＣＭトランザクション（ACM Trans, Comput.-Hum. Interact.）、２０１２年１０月、１９(３)、頁１９:１〜１９:２９

新しく改良されるシステム及び方法は、マルチモーダルビデオへのインデックス付加を強化するために、オーディオトラックの音声及びビデオフレームのスライドから取得されるテキストを統合することを必要とする。

本発明の第１の態様は、方法であって、（ａ）複数のビデオの発話ワード及び複数の前記ビデオに関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、（ｂ）第１ビデオの少なくとも部分を選択し、（ｃ）前記第１ビデオの選択された部分から複数の発話ワードを抽出し、（ｄ）前記第１ビデオの選択された部分と関連する第１外部テキストを取得し、（ｅ）生成された前記マルチモーダル言語モデルを用いて、取得された前記第１外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする。

本発明の第２の態様は、第１の態様の方法であって、前記第１外部テキストを取得することは、前記第１ビデオの選択された部分で表示されるテキストから前記第１外部テキストを抽出する、ことを含む。

本発明の第３の態様は、第１の態様の方法であって、前記外部テキストは複数の前記ビデオの少なくとも１つで表示される。

本発明の第４の態様は、第１の態様の方法であって、前記外部テキストは複数の前記ビデオの少なくとも１つに関連するコンテンツに含まれている。

本発明の第５の態様は、第１〜第４のいずれかの態様の方法であって、複数の前記ビデオの各々は、前記外部テキストを含む複数のプレゼンテーションスライドを含む。

本発明の第６の態様は、第１〜第５のいずれかの態様の方法であって、前記マルチモーダル言語モデルを生成することは、複数の前記ビデオのすべてから発話ワードのすべてを抽出すること、及び、複数の前記ビデオに表示されている前記外部テキストを抽出すること、抽出した前記発話ワードの各々と抽出した前記外部テキストの各々との共起性の複数の確率を算出すること、を含む。

本発明の第７の態様は、第１〜第６のいずれかの態様の方法であって、前記マルチモーダル言語モデルはマトリックスフォームで保存される。

本発明の第８の態様は、第１〜第７のいずれかの態様の方法であって、複数の前記発話ワードは、自動音声認識を用いて、前記第１ビデオの選択された部分から抽出される。

本発明の第９の態様は、第１〜第７のいずれかの態様の方法であって、複数の前記発話ワードは、前記第１ビデオに関連するクローズドキャプション情報を用いて、前記第１ビデオの選択された前記部分から抽出される。

本発明の第１０の態様は、第１〜第９のいずれかの態様の方法であって、前記第１ビデオの選択された部分に関連する第１外部テキストを取得することは、前記第１ビデオの選択された部分のスライドを検出し、光学文字認識を用いて、検出された前記スライドから前記第１外部テキストを抽出すること、を含む。

本発明の第１１の態様は、第１〜第１０のいずれかの態様の方法であって、前記プロセッサは、さらに、ユーザに対してランク付けされた複数の前記発話ワードを提示し、提示された複数の前記発話ワードの少なくとも１つの選択をユーザから受信し、前記第１ビデオの注釈として、提示された複数の前記発話ワードの少なくとも１つの受信した前記選択を用いる。

本発明の第１２の態様は、第１１の態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するために前記注釈を使用する。

本発明の第１３の態様は、第１〜第１２のいずれかの態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードを用いる。

本発明の第１４の態様は、第１〜第１２のいずれかの態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードから上位にランク付けされたワードを使用する。

本発明の第１５の態様は、第１〜第１４のいずれかの態様の方法であって、抽出された複数の前記発話ワードはフレーズを含む。

本発明の第１６の態様は、第１〜第１４のいずれかの態様の方法であって、抽出された複数の前記発話ワードはセンテンスを含む。

本発明の第１７の態様は、第１〜第１６のいずれかの態様の方法であって、前記第１ビデオの選択された部分は、前記第１ビデオのコンテクストについて意味を有するセグメントを含む。

本発明の第１８の態様は、プログラムであって、複数のビデオの発話ワード及び複数の前記ビデオと関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、第１ビデオの少なくとも部分を選択し、前記第１ビデオの選択された部分から複数の発話ワードを抽出し、前記第１ビデオの選択された部分と関連する第１外部テキストを取得し、生成した前記マルチモーダル言語モデルを使用して、取得した前記第１外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする、ことをコンピュータに実行させる。

本発明の第１９の態様は、計算処理システムであって、プロセッサと、命令セットを記憶しているメモリと、を備え、前記命令セットが前記プロセッサによって実行されることにより、前記プロセッサが、複数のビデオの発話ワードと複数の前記ビデオに関連する外部テキストとの共起性についてマルチモーダル言語モデルを生成し、第１ビデオの少なくとも部分を選択し、前記第１ビデオの選択された部分から複数の発話ワードを抽出し、前記第１ビデオの選択された部分に関連する第１外部テキストを取得し、生成した前記マルチモーダル言語モデルを用いて、取得した前記第１外部テキストを条件とする発生確率に基づいて、抽出した複数の前記発話ワードをランク付けする。

開示の技術によれば、オーディオトラックの音声及びビデオフレームのスライドから取得されるテキストを適切に統合することが可能となる。

（ａ）はＰＬＳＡ及びＬＤＡを用いてモデル化されているワードドキュメントマトリックスを示し、（ｂ）はワードトピックモデル化で処理されているマトリックスを示し、（ｃ）はドキュメントの代わりに観察関数Ｏが使用されているマルチモーダル変形を示す。潜在変数モデルトレーニングプロセスのオペレーティングシーケンスを例示する。もっとも関連する発話ワードを識別するため及び誤認識ワードもしくは他の無関係な用語を抑制するためのスライドテキストを用いる方法のオペレーティングシーケンスを例示する。マルチモーダル言語モデルを用いたビデオに対する注釈を生成するアプリケーションのユーザインターフェイスを例示する。様々な形態を実施することが可能な計算処理システムの実施例を示す。

以下の詳細な説明において、添付の図面を参照する。図面において、同様の機能を有する構成要素は同様の参照符号で示される。上記添付の図面は例示のために示され、限定のために示されるのではない。特定の実施形態及び実装は本発明の原理と矛盾しない。これらの実装は、当業者が本発明を実施することが可能な程度に十分詳細に説明される。他の実装が利用可能であり、本発明の範囲及び思想から逸脱することなく、構成の変更及び／もしくは様々な構成要素の置換が可能である。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきものではない。さらに、本発明の様々な実施形態は、説明されるように、汎用目的コンピュータで稼動するソフトウェアの形態、特定用途ハードウェアの形態、もしくは、ソフトウェア及びハードウェアの組み合わせで実装されてもよい。

実施形態の１態様によれば、マルチモーダルレクチャービデオインデックス付加を強化するために、ビデオレクチャープレゼンテーションのオーディオトラックの音声及びビデオフレームのスライドから導出されるテキストを統合する計算処理システム及びコンピュータ実装方法が提供される。実施形態の１つもしくは複数において、テキストドキュメントインデックス付加のための確立されている潜在変数モデル化アプローチが、プレゼンターのスライド及びスピーチのワードの共起性をモデル化するために採用される。実施形態の１つにおいて、上記マルチモーダルアプローチがレクチャービデオ検索に適用される。

１．潜在変数モデル
実施形態の１つもしくは複数において、外部情報ソースは、利用可能な発話テキスト（ＣＣもしくはＡＳＲトランスクリプト）と組み合わせられる。外部ソースの役割はどの発話用語がビデオコンテンツをより適切に説明する確率が高いかについての情報を与えることである。すなわち、より適切に説明する用語を残して、発話トランスクリプトに現れる一般的な用語の検索への負の影響を低減することが目的である。説明するモデル化アプローチは外部ソースの用語と発話用語との共起性を分析する。１つもしくは複数の実施形態において、潜在変数モデル化は各モーダルのワード間のもっとも重要な共起性を識別するために使用され、その後、ビデオの関連テキスト及びテキストクエリに基づいてビデオをランク付けするためにモデルを使用することが可能である。

実施形態の１つにおいて、スライドテキスト（スライド自身からＯＣＲを用いて抽出された、もしくは、プレゼンテーションファイルから取得された）が、上記外部情報ソースとして使用される。結果は、スライド及び発話トランスクリプトにおける用語の共起性のモデルである。代替的な実施形態では、スライドなしのレクチャーのために外部テキストを利用することが可能である。教育的な設定において、このテキストソースは記録されたレクチャーに関連するテキストブックであってもよい。外部テキストに関する主な制限は、コーパス内にテキスト（例えば、チャプター）から特定のビデオへのマッピング（例えば、シラバス）があることである。実施形態の１つにおいて、ビデオはスライドセット及びオーディオトランスクリプトに直接的に関係する。

１．１単一モーダルコーパスモデル化
情報検索のためのベクトル空間モデル（ＶＳＭ）は、テキストの「袋」としてドキュメントを扱い、当業者にはよく知られているルシーン（Lucene）などの最先端テキストサーチシステムを駆動する。ベクトル空間モデルの詳細は、非特許文献２に記載されている。テキストベクトルとしてドキュメントを表現することは、マトリックスとしてドキュメントコーパスを見ることにつながる。ドキュメントコーパスをモデル化する線形代数法の歴史は長い。図１（ａ）はマトリックスを示し、マトリックスの行にワード（ｗ）によるインデックスが付加され、マトリックスの列にドキュメント（ｄｏｃ）によるインデックスが付加されている。

１つもしくは複数の実施形態において、潜在意味解析（ＬＳＡ）を含む方法及び確率的潜在意味解析（ＰＬＳＡ）がテキストドキュメント検索のマトリックスを処理するために使用される。潜在意味解析の詳細は非特許文献３に、確率的潜在意味解析の詳細は非特許文献４に記載されている。用語間の意味関係はドキュメント内の用語の共起性によって暗示される。コーパスはワードの共起性の観察セットを示す。ワードドキュメントマトリックスへの低ランク近似は、擬似的な共起性を廃棄し、基本意味的ワード間関係を維持する。モデルトレーニングは潜在変数もしくは態様のセットを用いてこれらの関係を符号化する（すなわち、ドキュメントで現実には共起することのない２つのワードが１つもしくは複数の隠れたトピックによってつながる可能性がある。）。

図１（ａ）はＰＬＳＡ及びＬＤＡを用いてモデル化されている従来のワードドキュメントマトリックスを示す。図１（ｂ）は非特許文献５に記載されているワードトピックモデル化で処理されるマトリックスを示す。図１（ｃ）は、ドキュメントの代わりに、観察関数Ｏが使用される開示の技術の実施形態によるマルチモーダル変形を示す。

このアイディアをより局在的にしたアイディアが図１（ｂ）に示されている（詳細は、非特許文献５参照）。図１（ａ）のように、ドキュメントによってマトリックスの列にインデックスを付加するのではなく、列はワードｗ∈Ｗ（語彙）のローカル（サブドキュメント）近傍Ｏ（ｗ）を示す。処理は変更されないが、意味はより局在的な用語の共起性から導出される。このマトリックスの要素はワード対各々の確率Ｐ（ｗ_ｉ，Ｏ（ｗ_ｊ））を取得する。マトリックスは｜Ｗ｜×｜Ｗ｜次元の正方行列である。図１（ａ）のドキュメントと同様に、マトリックスの対応する列に基づいて、モデルＭ_ｗとワードの各々とを関連付ける。ＰＬＳＡは条件付確率を生成する。

１．２マルチモーダルモデル化
１．２．１関連ワーク
研究者は、トピックモデル化をマルチモーダル領域にも拡張することを試みている。画像及び対応する注釈は、ＰＬＳＡの変形及び非特許文献６に記載されているマルチモーダルＬＤＡ及び非特許文献７に記載されている対応ＬＤＡ（Corr-LDA: correspondence LDA）などの潜在的ディリクレ配分法（ＬＤＡ）を用いてモデル化されている。マルチモーダルＬＤＡにおいて、画像領域デスクリプター及び注釈ワード（すなわち、タグ）は、共通の基礎となるトピック分布を用いて、ジョイントモデル化されている。一方、Ｃｏｒｒ−ＬＤＡは、まず、領域デスクリプターを生成し、次に、ワードを生成する処理をモデル化する。（ワードの各々は領域の１つにリンクされている。）これらの方法とは異なり、開示の技術の１つもしくは複数の実施形態において、コーパスの生成モデルは生成されていない。むしろ、生成モデルは、モーダルの各々及びそれらの共起性において観察されるワードのために構築される。実施形態のいくつかは、ＬＤＡではなく、ＰＬＳＡを使用するので、モデルトレーニングのために必要とされる複雑で多様な推定及びサンプリング方法を用いないで済ませることが可能である。

クロスメディアリファレンスモデルが画像及びタグのジョイントモデル化のために提案されている（非特許文献８）。潜在変数モデルとは異なり、この技術は、任意の潜在変数への依存を強いたり、領域とタグとの間の一対一対応を仮定したりすることなく、画像領域をジョイントモデル化する。ジョイントモデル化は本質的にシンプルであり、著者は普及している潜在トピックベースジョイントモデル化アプローチとこれらの技術とを直接比較しない。非特許文献９に記載のマルチレイヤーＰＬＳＡアプローチがビジュアルワード及びタグをモデル化するために提案されている。マルチモーダルＬＤＡモデルと基本的に同様であるが、マルチレイヤーモデリングは（２つのモーダル間に共通な）潜在変数の２つのレイヤーをジョイントモデリングに導入する。著者らは、マルチモーダルＬＤＡモデルをジョイントするのとは異なり、マルチレイヤーＰＬＳＡが、画像と関連するタグがビジュアルコンテンツを必ず記述することを必要としない、ことに言及する。開示の技術の実施形態のいくつかはＰＬＳＡも使用するが、非特許文献４に記載されるアプローチと異なり、検索のためのプロシージャに複雑なフォールディングもしくは非特許文献９に記載されているようなモデルトレーニングを加速するための初期化のためのスキームを必要としない。非特許文献１０は、２つのモーダル（ワード及びピクチャ）にわたってサイズの低減を共に実行することによって、マルチモーダルデータをモデル化するために正準相関分析（ＣＣＡ）を使用する。ＣＣＡは２つのモーダルの間の相関が最大化されるジョイント空間へのマルチモーダルデータのマッピングを検出することを試みる。上記方法はマルチモーダル情報をモデル化するために設計されているが、上記実施形態とは異なるポイントがある。ＣＣＡはモーダル間の相関が高いサブスペースを検出することを試みる。一方、開示の技術の１つもしくは複数の実施形態は相関を最適化せず、条件付き確率として明示的なモデル依存を最適化する。ＣＣＡは、異なるモーダルの表現間で自然な対応がない場合のシナリオに適しており、中間サブスペースのサーチを必要とする。

開示の技術における１つもしくは複数の実施形態によれば、複数モーダルの用語の共起性のより直接的（かつシンプルな）モデルが提供される。すなわち、上記実施形態の１つもしくは複数は、非特許文献９及び１０で使用されている中間サブスペースを利用する必要なしで済ませることが可能である。代替的に、確立されている確率的潜在変数法が、スライドの語彙全体及びコーパスの発話トランスクリプトにわたって共起性情報を示すために適用される。このアプローチは、ビデオに関連付けられている利用可能なテキストを条件とする１つのモーダルにおいて（クエリ）テキストを生成する確率を探求するフレキシビリティを提供する。検索時に、このアプローチは、特定のビデオと関連付けられているマルチモーダルデータの共起性を条件とするいずれかのモーダルにおいて現れるクエリテキストの確率を結合する。以下で詳細に説明する。

１．２．２モデリング詳細
非特許文献５で記述されているワードトピックモデルは行及び列の双方についてワードによってインデックスが付加されるので、マルチモーダルテキストデータに直接的に拡張される。詳細には、ＡＳＲによって供給される発話ワードを潜在的にフィルタリングするかもしくは重み付けするために対象モデルを検討する。

αは、Ｔ_ｓｌにおけるｗ_ｓｌの頻度の重みである。Ｔ_ｓｌはビデオの利用可能なスライド、ｗ_ｓｐはビデオの利用可能な発話テキストを示す。この条件付確率は個々のスライドワードｗ_ｓｌ∈Ｔ_ｓｌから構築されるので、ワードがトレーニングデータに現れる限り、まだ見ていないスライドテキストについても構築される。モデルの効果は、クエリとして、構成用語によってドキュメントが表現されることである。これは、非特許文献４に記載されているドキュメント検索のためのＰＬＳＡを使用するために要求される「フォールディングイン（folding-in）」プロシージャを不要とする。

無視されていた問題は、図１（ｃ）のマトリックスにおいてスライドと発話テキストをどのように関連付けるかである。単一モーダルデータについて、我々は固定ウィンドウを使用した。スライドワードの各々について、類似ドキュメントとして処理する発話ワードセットＱを識別する必要がある。いくつかの共起性がある。

１．大域的共起性：この場合、発話ワードｗ及びスライドワードｗ_ｓｌが各々、特定のビデオのスライド及び発話トランスクリプトに現れるならば、ビデオｖについて、
Ｑ_ｗｓｌ={ｗ:ｗ∈Ｔ_ｓｐ(ｖ)∧ｗ∈Ｔ_ｓｌ(ｖ)}
である。

２．固定ウィンドウ共起性：ビデオ分析を用いて、スライドの各々と特定の時間セグメントとを関連付けることが可能であり、ＣＣもしくはＡＳＲのタイプスタンプを使用することが可能である。固定時間間隔内のビデオにスライドワード及び発話が現れる場合、発話用語を含めることが可能である。

３．セグメント共起性：上記と同様であるが、発話テキストトランスクリプトを分割するために検出されたスライドから導出される一時的なセグメンテーションを使用する。同一のセグメントに現れるスライドワード及び発話ワードが関連付けられる。

これまで、経験的に、大域的アプローチがもっとも適切に働いてきた。図１（ｃ）のマトリックスを構築するための規則を定義すると仮定すると、このモデルのＥＭ推定を繰り返すことが可能である。

Ｅステップ：アップデート

Ｍステップ：アップデート

図２は、潜在変数モデルトレーニング処理のオペレーティングシーケンス２００の例示的な実施形態を示す。ステップ２０１で、レクチャービデオなどのビデオのコーパスが取得される。ステップ２０２で、コーパスのビデオの各々について、発話ワードが、ＡＳＲを用いて抽出されるか、もしくは、代替的に、ビデオの各々に関連するクローズドキャプション（ＣＣ）情報から抽出される。ステップ２０３で、スライドは当業者によく知られている技術を用いてコーパスビデオの各々のビデオフレームで検出される。ステップ２０４で、検出されたスライドの各々について、スライドに現れるワードは、例えば、前記ＯＣＲ技術を用いて検出される。代替的な実施形態において、スライドを含む対応するプレゼンテーションファイルが利用可能であれば、スライドテキストは当該プレゼンテーションファイルから直接的に抽出されてもよい。ステップ２０５で、上記技術に従って、抽出された発話ワード及びスライドテキストがスライドのワード及び発話ワードの共起性について潜在変数モデルを生成するために使用される。最後に、ステップ２０６で、生成された潜在変数モデルが、例えば、マトリックスフォームで、保存される。

１．３ランク付けスコア
トレーニングの結果は、コーパス内でのスライド及び発話ワードの出現についての生成的なモデルである。これは、検索に使用される３つの要素を含む。モデルはトピックに関する条件を有するモーダルの各々の用語についての分布ｐ_ｓｌ（ｗ｜ｚ）及びｐ_ｓｐ（ｗ｜ｚ）を提供する。モデルの３番目の要素はビデオ特定トピック分布である。

これは、式（３）の完全尤度から計算される。αは特定の用語（ｗ_ｓｌ，ｗ_ｓｐ）及び（Ｔ_ｓｌ，Ｔ_ｓｐ）によって代表されるビデオとの間の関係を示すファクターである。これは、単純に、組み合わされたビデオトランスクリプトの用語対の頻度である。

このモデルを直接的に適用する際の最終的な困難さは、記述したモデルがスライドワードから発話ワードを生成する場合もあるし、発話ワードからスライドワードを生成する場合もあることである。残念ながら、ユーザの言語モデルはこれらのモデルのいずれにも直接的に対応しない。クエリＴ_ｑを与えるビデオをランク付けするために最終的なスコアを推定するため、ランク付けスコアは２つの量を結合する。

顕著な実装の詳細は、式（７）及び式（８）のワードｗ_ｓｐ及びｗ_ｓｌをわたる合計が（Ｔ_ｓｌ，Ｔ_ｓｐ）によって代表されるビデオ毎に１度推定されることが可能であり、クエリが行われたときに、その後の参照のために保存されることが可能である。これらは、条件付のビデオ毎の潜在変数分布である。式（９）への寄与はクエリに依存しない。

図３は、もっとも関係のある発話ワードを識別し、誤認識されるワードもしくは他の無関係な用語を抑制するために、スライドテキストを用いるための方法のオペレーティングシーケンス３００の例示的な実施形態を示す。ステップ３０１で、例えば、モバイルコンピューティングデバイスにインストールされているビデオ再生アプリケーションを用いて、ビデオがユーザに対して再生される。ステップ３０２で、ユーザのリクエストに応じて、ビデオは一旦停止され、再生ビデオの部分が選択される。実施形態の１つにおいて、ビデオの選択された部分は、ビデオが一旦停止されたときの、現在時点に関連する時間のビデオセグメントである。実施形態の１つもしくは複数において、ビデオの選択された部分は関連するオーディオトラックと共に１つのもしくは複数のビデオフレームを含んでもよい。様々な実施形態において、ビデオの選択された部分は、特定のプレゼンテーションスライドが示され、及び／もしくは検討されるビデオセグメントなどのビデオのコンテクストについて意味を有する時間のセグメントに対応してもよい。様々な実施形態において、ビデオのコンテクストについて意味を有する時間的なセグメントは単一のスライド、プレゼンテーションチャプター、トピック、セクションもしくはプレゼンテーション全体に対応してもよい。ステップ３０３で、発話ワードは、例えば、上記ＡＳＲ技術を用いてビデオの選択された部分から抽出される。他の実施形態において、発話ワードは上記ＣＣ情報を用いて抽出されてもよい。ステップ３０４で、ビデオの選択された部分のビデオフレームのスライドが検出される。ステップ３０５で、スライドテキストは、例えば、ＯＣＲ技術を用いて、検出されたスライドから抽出される。代替的な実施形態において、スライドを含む対応するプレゼンテーションファイルが利用可能であれば、スライドテキストは当該プレゼンテーションファイルから直接的に抽出されてもよい。

ステップ３０６で、検出されたスライドテキストを条件とする選択されたビデオ部分での出現確率に従って、予めトレーニングされた潜在変数モデルが抽出された発話ワード（もしくはセンテンス）をランク付けするために使用される。ステップ３０７で、ワード、フレーズもしくはセンテンスのランク付けされたリストがユーザに提供される。ステップ３０８で、ランク付けされたリストからのアイテムのユーザ選択が受信され、ビデオもしくはビデオの特定のポイントへの注釈として使用されることで、モバイルデバイスについて一般的に困難である注釈などのタイピングの必要性を不要にする。目的は、キーとなる発話ワードを識別し、誤認識されたワードもしくは他の無関係な用語を抑制するためにスライドテキストを使用することである。図２に示されるトレーニングアルゴリズムとの主な違いは、単一のビデオ内の１つの時点に関連する限定されたテキストだけが処理されることである。一方、トレーニングの間は、全てのビデオからの全てのテキストが使用される。

図４は、記述されたマルチモーダル言語モデルを用いて、ビデオの注釈を生成するためのアプリケーションのユーザインターフェイスの例示的な実施形態を示す。ユーザインターフェイスの実施形態において、ビデオがユーザインターフェイスウィンドウ４０１を用いてユーザに対して再生される。従来の時間的なビデオナビゲーションツール４０２（スライダー）が時間的なビデオナビゲーションを可能にするためにユーザに提供される。さらに、ビデオに注釈を付加するためにボタン４０３が提供される。

ユーザが注釈生成ボタン４０３をクリック（もしくはタッチ）すると、アプリケーションは再生ビデオを一時停止し、ビデオへの注釈として含めるための候補発話ワードの１つもしくは複数の選択示唆４０６を含む注釈推奨ウィンドウ４０５をユーザに対して表示するように構成されている。様々な実施形態において、用語「発話ワード」は単一のワード（例えば、「constant」）であってもよいし、フレーズ（例えば、「Ag prime prime」）であってもよいし、センテンス全体（例えば、「We could factor out that c1 is a constant and we get c1 times Ag prime prime plus Bg prime plus Cg（定数であるｃ１を括り出すことができ、ｃ１×（Ａｇ’’＋Ｂｇ’＋Ｃｇ）が導かれる」）であってもよい。

ユーザは提供されるワード、フレーズもしくはセンテンスをクリックすることが可能であり、ユーザが選択したアイテムは自動的に注釈としてビデオに関連付けられる。代替的な実施形態において、候補ワード、フレーズ、もしくはセンテンス４０６はユーザによってクリックされることが可能なランク付けされたリストの形態で提供されてもよい。ユーザ選択注釈は次に将来のサーチ及び検索を容易にするためにビデオもしくはビデオの部分にインデックスを付加するために使用される。

代替的な実施形態において、上記方法を用いて識別される上位にランク付けされた（例えば、所定の閾値を越えるランクの）ワード、フレーズもしくはセンテンスは、注釈のマニュアル選択をユーザが実行する必要なく、ビデオのインデックスを付加するために自動的に選択されてもよい。

２．実験
２．１データセット
非特許文献１で使用されているデータを利用する制御された実験のためにコーパスが生成される。詳細には、カンファレンスウェブサイトをクローリングすることにより、２０９個のレクチャービデオが収集された。レクチャービデオは、
１．ビデオ
２．ＰＰＴ、ＰＤＦ、ＨＴＭＬ５のスライド
３．クローズドキャプショントランスクリプト
４．ＡＳＲトランスクリプト
５．ＯＣＲで抽出されたスライドテキスト
を含む。

例えば、非特許文献１１に記載されるように、トークが提供されているウェブページにあるトークの説明を用いて、技術的な用語がまず抽出され、より記述的ではない質のクエリを取り除くためにフィルタリングされる。マニュアルでグラウンドトゥルース関連判定が、２０９個全てのビデオにわたる２７５個の残りのクエリ全てについてまとめられた。例えば、非特許文献２に記載される平均適合率平均を全体にわたる評価測度として使用した。

２．２スライドテキストを用いた発話ドキュメント検索の改良
第１の実験は、当業者にはよく知られている最先端フルテキストサーチシステムルシーンを用いて、ビデオ検索のＡＳＲトランスクリプトと比較する。性能を表１のＶＳＭコラムに示す。ビデオのスライド及び発話テキストについてのジョイントモデルを与えられる発話テキストを生成する確率に従ってビデオをランク付けする一面的な手法で、説明されたモデルは展開された。まず、２００潜在変数モデル（a 200 latent variable model）がビデオコーパス全体からのＡＳＲ及びＯＣＲテキストを用いてトレーニングされた。詳細には、ビデオ全体にわたるＡＳＲ用語及びＯＣＲ用語の共起性（大域的共起性）の表を作成した。続いて、スライドから取得された発話テキスト及びＯＣＲテキストのＡＳＲトランスクリプトを使用して、セクション１．２のＥＭの繰り返しが行われた。次に、上記式（７）がクエリの各々のビデオランク付け基準として使用された。

表１は、ＡＳＲトランスクリプトにインデックスを直接付加するためにルシーンを用いた発話ドキュメント検索（ＶＳＭ）及びコーパスを用いたマルチモーダル言語モデリング（中央及び右コラム）の結果である。当該アプローチのランク付けは式（７）に対応する。表１は結果の２つのバージョンを含む。中央のコラムにおいて、ビデオの各々は、学習したモデルと矛盾しない、自動的に抽出されたＡＣＲ及びＯＣＲテキスト（Ｔ_ＡＳＲ，Ｔ_ＯＣＲ）によって示されている。この手法で自動的に抽出されたスライドテキストを用いることは、より適切にビデオを説明する発話用語を強調することをスライドが支援することを示唆するＡＳＲベースラインにわたる改善を示す。また、（雑音の多いテキストによってトレーニングされた）同一のモデルが使用されたが、ビデオの各々はグラウンドトゥルーススライド及び発話テキスト（Ｔ_ＰＰＴ，Ｔ_ＣＣ）によって表現された。もっとも右のコラムは、さらなる改善を示すこれらの結果を示す。これは、抽出されたテキストの品質が改善されると、ここで記述されたモデルの実施形態の検索性能を改善することが可能であることを示す。

２．３マルチモーダルビデオ検索

２０９個のビデオを含む同一のコーパス及び２７５個のクエリセットを用いたマルチモーダル検索実験も行われた。ルシーンはベースラインを示し、単一モーダル構成及びマルチモーダル構成を評価する。マルチモーダルのケースでは、前期及び後期のフュージョン戦略の双方が検討された。前期のフュージョンについては、インデックスを付加する前に、ビデオの各々を示すために、利用可能なスライド及び発話テキストが連結される。後期のフュージョンについては、２つの単一モーダルのインデックスからスライド及び発話検索スコアを連結するために、凸状の重み（convex weighting）を最適化するために、クロス確認（cross validation）が使用された。

説明したランク付けスキームによる実験について、式（９）がテキストクエリＴ_ｑの各々のビデオをランク付けするために使用された。コンセプトの証明として、２００潜在変数モデルが、発話テキスト及びスライドテキストについて、マニュアルテキストトランスクリプト、ＣＣ及びＰＰＴを用いて、トレーニングされた。表２は、クローズドキャプション（ＣＣ）及びスライドファイル（ＰＰＴ）トランスクリプトにインデックスを直接的に付加するためのルシーン（ＶＳＭ）を用いたレクチャービデオ検索の結果及び２０１０年〜２０１２年のグーグルＩ/Ｏコーパスを用いたマルチモーダルモデリング（右コラム）の結果を示す。表２は、同一のＣＣ及びＰＰＴテキストを用いてベースラインシステムの結果を示す。右コラムは、開示の技術のシステムの２セットの結果を示す。コラム（Ｔ_ＡＳＲ，Ｔ_ＯＣＲ）は、自動トランスクリプト、ＡＳＲ及びＯＣＲから雑音の多いテキストによってビデオの各々を示す場合に、説明されたランク付けを用いた結果を示す。これらの結果は、マルチモーダルＶＳＭ／フュージョンベースラインと比較して性能が劣ることを示す。トレーニング時のビデオ表現とテスト時のビデオ表現との間のミスマッチは、モデルの検索性能を明らかに低下させる。コラム（Ｔ_ＣＣ，Ｔ_ＰＰＴ）はマニュアルトランスクリプト、ＣＣ及びＰＰＴからのテキストによってビデオの各々を表現する場合の上記ランク付けを用いた結果を示す。このケースでは、上記アプローチはＶＳＭ／フュージョンベースラインよりもよい性能を示す。

これらの実験は、ビデオの各々を表現するためにＡＳＲ及びＯＣＲから自動的に抽出されたテキストを用いてトレーニングされた２００潜在変数モデルを用いて、繰り返された。結果を表３に示す。表３は、ＡＳＲ及びＯＣＲトランスクリプトに直接インデックスを付加するためにルシーンを用いたレクチャービデオ検索の結果（ＶＳＭ）及び２０１０年〜２０１２年グーグルＩ／Ｏコーパスを用いたマルチモーダルモデリング（右コラム）を示す。開示の技術のアプローチのランク付けは式（９）に対応する。このケースでは、自動単一モーダルランク付けの後期フュージョンはビデオを表現するための自動テキスト（Ｔ_ＡＳＲ，Ｔ_ＯＣＲ）を用いた上記マルチモーダルアプローチとほぼ同様のレベルの性能を示す。マニュアルテキストトランスクリプトがビデオを表現するために使用された場合、結果は著しい改善を示す。結果は、雑音が多いテキストデータでトレーニングされた場合であっても、上記モデルがより高品質のテキストトランスクリプトを用いたテスト時によりよい性能を示すことを示唆している。

表４は、さらに、上記モデルの性能と自動トランスクリプトの正確さとの間の関係を示す。表４は、ＡＳＲ及びＯＣＲトランスクリプトに直接インデックスを付加するためにルシーンを用いたレクチャービデオ検索の結果（ＶＳＭ）及び２０１１年グーグルＩ／Ｏコーパスを用いたマルチモーダルモデリング（右コラム）を示す。開示の技術のアプローチのランク付けは式（９）に対応する。この結果は、２０１１年グーグルＩ／Ｏカンファレンスからの７４個のビデオセットに注目する。これらのビデオについて、ルシーンを用いたＡＳＲ／ＶＳＭ検索性能（ｍａｐ＠５の０．６８７）は、より高品質であるＡＳＲトランスクリプトを示唆する２０１０年〜２０１２年を連結した結果（ｍａｐ＠５の０．６３３）と比較して実質的に高い。ＯＣＲ／ＶＳＭの結果も２０１１年はよりよいが、改善のマージンはより小さい（２０１１年は０．８０５、２０１０年〜２０１２年は０．７７７）。ＡＳＲ及びＯＣＲから自動的に抽出したテキストを用いたトレーニング及びテスト時に開示の技術のモデルを適用した結果は、すべてのＶＳＭベースラインを越えて改善している。

これらの実験からの結論は、低品質自動テキストトランスクリプトによってトレーニング及びテストされる場合、上記モデルはベースラインのいずれより悪くない、ということである。品質がいくらかよい場合、検索のための上記モデルの追加される価値がより大きくなることを予想することが可能である。

３．システムハードウェアの例示的実施形態
図５は、マルチモーダルレクチャービデオのインデックス付加を強化するために、ビデオフレームのオーディオトラック及びスライドのスピーチから導出されるテキストを統合するための計算処理システム５００の例示的実施形態を示す。１つもしくは複数の実施形態において、計算処理システム５００はよく知られているサーバコンピュータシステムもしくはデスクトップコンピュータのフォームファクター内で実装されてもよい。代替的な実施形態において、計算処理システム５００は、ラップトップコンピュータ、ノートブックコンピュータもしくはスマートフォンまたはタブレットコンピュータなどのモバイル計算処理デバイスに基づいて実装されてもよい。

計算処理システム５００は、計算処理システム５００の様々なハードウェア構成要素をわたって、もしくは、様々なハードウェア構成要素間で情報を伝達するためのデータバス５０４もしくは他の相互接続もしくは通信機構、情報を処理し、他の計算タスク及び制御タスクを実行するためにデータバス５０４に電気的に接続されている中央処理ユニット（ＣＰＵもしくはシンプルにプロセッサ）５０１を含んでいてもよい。計算処理システム５００は、様々な情報及びプロセッサ５０１によって実行される命令を保存するために、データバス５０４に接続されている、ランダムアクセスメモリ（ＲＡＭ）もしくは他のダイナミックストレージデバイスなどのメモリ５１２も含む。メモリ５１２は、磁気ディスク、光ディスク、ソリッドステートフラッシュメモリデバイスもしくは他の不揮発性ソリッドステートストレージデバイスなどの永続的ストレージデバイスを含む。

１つもしくは複数の実施形態において、プロセッサ５０１によって命令が実行されている間、メモリ５１２は一時的な変数もしくは他の中間情報を保存するために使用されてもよい。オプションで、計算処理システム５００は、さらに、計算処理システム５００のオペレーションに必要とされるファームウェア、基本入出力システム（ＢＩＯＳ）、計算処理システム５００の様々な構成パラメータなどのスタティック情報及びプロセッサ５０１で実行される命令を保存するためにデータバス５０４に接続されているリードオンリーメモリ（ＲＯＭもしくはＥＰＲＯＭ）５０２もしくは他のスタティックストレージデバイスを含んでいてもよい。

１つもしくは複数の実施形態において、計算処理システム５００はディスプレイデバイス５２６を含んでいてもよい。計算処理システム５００のユーザに対して、その実施形態が図４に示されているユーザインターフェイスなどの様々な情報を表示するために、ディスプレイデバイス５２６は、データバス５０４にも電気的に接続されていてよい。代替的な実施形態において、ディスプレイデバイス５２６はグラフィックコントローラ及び／もしくはグラフィックプロセッサ（図示せず）と関連付けられていてもよい。ディスプレイデバイス５２６は、例えば、よく知られているＴＦＴ（Thin-Film Transistor）技術もしくはＯＬＥＤ（Organic Light Emitting Diode）技術を用いて製造されたＬＣＤ（Liquid Crystal Display）として実装されてもよい。様々な実施形態において、ディスプレイデバイス５２６は計算処理システム５００の残りの構成要素と同一の汎用的な筺体に組み込まれていてもよい。代替的な実施形態において、ディスプレイデバイス５２６はこのような筺体の外部、テーブルもしくはデスクの面上などに位置してもよい。１つもしくは複数の実施形態において、計算処理システム５００は、さらに、ディスプレイ面上に、上記ユーザインターフェイスなどの情報を投影するように構成されているプロジェクタもしくはミニプロジェクタ（図示せず）を含んでいてもよい。

１つもしくは複数の実施形態において、計算処理システム５００は、さらに、データバス５０４に電気的に接続され、よく知られているＭＰＥＧ−３ファイルなどの様々なオーディオファイルもしくはＭＰＥＧ−４ファイルなどの様々なビデオファイルのオーディオトラックを再生するように構成されているオーディオ再生デバイス５２５を含んでいてもよい。計算処理システム５００は波形もしくはサウンドプロセッサもしくは同様のデバイス（図示せず）も含んでいてよい。計算処理システム５００は、さらに、データバス５０４に電気的に接続され、よく知られているＭＰＥＧ−３ファイルなどの様々なオーディオファイルもしくはＭＰＥＧ−４ファイルなどの様々なビデオファイルのオーディオトラックを録音するように構成されているオーディオ録音デバイス５０３を含んでいてもよい。

１つもしくは複数の実施形態において、計算処理システム５００は、方向情報及びコマンド選択をプロセッサ５０１に伝達するため、及びディスプレイデバイス５２６上のカーソルの移動を制御するためのマウス、トラックボール、タッチパッドもしくはカーソル方向キーなどのマウス／ポインティングデバイス５１０などの１つもしくは複数の入力デバイスを含んでいてもよい。この入力デバイスは、一般的に、第１の軸（例えば、ｘ）及び第２の軸（例えば、ｙ）の２軸の２つの自由度を有する。これにより、デバイスは平面上の位置を特定することが可能となる。

計算処理システム５００は、静止画像及びプレゼンテーションのビデオを含む様々なオブジェクトのビデオを取得するためのカメラ５１１及びキーボード５０６をさらに含んでいてもよい。カメラ５１１及びキーボード５０６は、情報を伝達するために、データバス５０４に接続されていてもよい。情報は、画像、ビデオ及びプロセッサ５０１への（ジェスチャを含む）ユーザコマンドを含むが、これらに限定されるものではない。

１つもしくは複数の実施形態において、計算処理システム５００はさらにデータバス５０４に接続されているネットワークインターフェイス５０５などの通信インターフェイスを含んでいてもよい。ネットワークインターフェイス５０５は、ＷｉＦｉインターフェイス（アダプタ）５０７、携帯電話ネットワーク（ＧＳＭ（登録商標）もしくはＣＤＭＡ）アダプタ５０８及び／もしくはローカルエリアネットワーク（ＬＡＮ）アダプタ５０９の少なくとも１つを用いて、計算処理システム５００及びインターネット５２７の間の接続を確立するように構成されていてもよい。ネットワークインターフェイス５０５は、計算処理システム５００及びインターネット５２７の間の２方向データ通信を可能にするように構成されていてもよい。ＷｉＦｉアダプタ５０７は、よく知られている８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ及び／もしくは８０２．１１ｎプロトコル、及び、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコルに準拠して動作してもよい。計算処理システム５００のＬＡＮアダプタ５０９は、例えば、ＩＳＤＮ（Integrated Services Digital Network）カードもしくは対応するタイプの電話回線にデータ通信接続を提供するためのモデムを用いて、実装されてもよい。当該モデムは、インターネットサービスプロバイダーのハードウェア（図示せず）を用いてインターネット５２７と接続されている。他の例として、ＬＡＮアダプタ５０９は、互換性のあるＬＡＮ及びインターネット５２７へのデータ通信接続を提供するためにローカルエリアネットワークインターフェイスカード（ＬＡＮＮＩＣ）であってもよい。例示的な実装において、ＷｉＦｉアダプタ５０７、携帯電話ネットワーク（ＧＳＭ（登録商標）もしくはＣＤＭＡ）アダプタ５０８及び／もしくはＬＡＮアダプタ５０９は電気信号もしくは電磁信号を送受信する。電気信号もしくは電磁信号は様々なタイプの情報を示すデジタルデータストリームを搬送する。

１つもしくは複数の実施形態において、インターネット５２７は、一般的に、他のネットワークリソースに１つもしくは複数のサブネットワークを介してデータ通信を提供する。すなわち、計算処理システム５００は、リモートメディアサーバ、ウェブサーバ、他のコンテンツサーバ、及び他のネットワークデータストレージリソースなどの、インターネット５２７のどこかにある様々なネットワークリソースにアクセスすることが可能である。１つもしくは複数の実施形態において、計算処理システム５００はメッセージ、メディア及びビデオファイル及びアプリケーションコードを含む他のデータを、ネットワークインターフェイス５０５によってインターネット５２７を含む様々なネットワークを介して送受信するように構成されている。インターネットの例において、計算処理システム５００がネットワーククライアントとして動作する場合、計算処理システム５００で実行されるアプリケーションプログラムのためにコードもしくはデータが要求される場合がある。同様に、サーバとして、他のネットワークリソースに様々なデータもしくはコンピュータコードが送信される可能性がある。

１つもしくは複数の実施形態において、ここで説明された機能は、メモリ５１２に含まれている１つもしくは複数の命令の１つもしくは複数のシーケンスを実行するプロセッサ５０１に応じて、計算処理システム５００によって実装される。このような命令は、他のコンピュータ可読媒体からメモリ５１２に読み込まれてもよい。メモリ５１２に含まれている命令シーケンスを実行すると、ここで説明された様々な処理ステップをプロセッサ５０１が実行する。代替的な実施形態において、ハードウェア回路がソフトウェア命令の代わりに、もしくはソフトウェア命令と共に、本発明の実施形態を実装するために使用されてもよい。説明した本発明の実施形態は、特定のハードウェア回路及び／もしくはソフトウェアのいずれかに限定されるものではない。

用語「コンピュータ可読媒体」はプロセッサ５０１で実行される命令をプロセッサ５０１に提供する任意の媒体であってよい。コンピュータ可読媒体は、機械可読媒体の単なる一例であり、機械可読媒体は、開示の技術の方法及び／もしく技術のいずれかを実装するための命令を搬送することが可能である。このような媒体は多くの形態を採ることができ、不揮発性媒体及び揮発性媒体を含んでもよいが、これらに限定されるものではない。

非一時的コンピュータ可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは他の任意の磁気媒体、ＣＤ−ＲＯＭ、他の任意の光媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、フラッシュドライブ、メモリカード、他の任意のメモリチップもしくはカートリッジ、もしくはコンピュータが読むことが可能な他の任意の媒体を含む。コンピュータ可読媒体の様々な形態は、プロセッサ５０１で実行する１つもしくは複数の命令の１つもしくは複数のシーケンスをプロセッサ５０１に搬送するために使用されてもよい。例えば、命令は、リモートコンピュータから磁気ディスクにまず搬送されてもよい。代替的に、リモートコンピュータは動的メモリに命令をロードし、インターネット５２７を介して命令を送信することが可能である。詳細には、コンピュータ命令は、よく知られている様々なネットワークデータ通信プロトコルを用いてインターネット５２７を介してリモートコンピュータから計算処理システム５００のメモリ５１２にダウンロードされてもよい。

１つもしくは複数の実施形態において、計算処理システム５００のメモリ５１２は以下のソフトウェアプログラム、アプリケーションもしくはモジュールのいずれかを記憶していてもよい。

１．オペレーティングシステム（ＯＳ）５１３
基本サービスシステムを実装し、計算処理システム５００の様々なハードウェア構成要素を制御する。オペレーティングシステム５１３の例示的な実施形態はよく知られており、現在知られているもしくは今後開発されるオペレーティングシステムを含むことが可能である。

２．アプリケーション５１４
例えば、計算処理システム５００のプロセッサ５０１によって実行されるソフトウェアアプリケーションセットを含むことが可能であり、ディスプレイデバイス５２６にユーザインターフェイスを表示する、ビデオ及びスライドテキストから抽出された発話ワードを用いてビデオファイルのインデックス付加を実行する、などの所定の機能を計算処理システム５００に実行させる。１つもしくは複数の実施形態において、アプリケーション５１４は、開示の技術のビデオインデックス付加アプリケーション５１５を含んでいてもよい。

３．データストレージ５２１
例えば、プレゼンテーションのビデオファイルを含む様々なビデオファイルを保存するためのビデオファイルストレージ５２２及び、例えば、ＯＣＲ技術を用いてプレゼンテーションスライドから抽出されるテキストを保存するストレージ５２３を含むことが可能である。代替的に、ストレージ５２３はオリジナルのプレゼンテーションスライドから抽出されるテキストを保存してもよい。さらに、データストレージ５２１は、例えば、ＡＳＲ技術を用いてビデオファイルのオーディオトラックから抽出されるテキストを保存するストレージ５２４を含んでいてもよい。代替的に、このテキストはビデオ媒体の各々に付随するクローズドキャプション情報から抽出されてもよい。

１つもしくは複数の実施形態において、開示の技術のビデオインデックス付加アプリケーション５１５は、計算処理システム５００のディスプレイデバイス５２６を用いて、図４に例示するユーザインターフェイスを生成するように構成されているユーザインターフェイス生成モジュール５１６を含む。開示の技術のビデオインデックス付加アプリケーション５１５は、プレゼンテーションビデオに示されているスライドから、もしくはスライドからテキストを抽出するＯＣＲ／抽出モジュール５１７をさらに含んでいてもよい。開示の技術のビデオインデックス付加アプリケーション５１５は、ビデオファイルのオーディオトラックに適用される自動音声認識を用いて発話ワードを取得するＡＳＲモジュール５１８をさらに含んでいてもよい。代替的に、モジュール５１８は、ビデオファイルに関連するクローズドキャプション情報を用いて発話ワードを抽出するように構成されていてもよい。代替的に、抽出されたスライドテキストに基づいて検出された発話ワードのランク付けオペレーション及び上記技術によってビデオファイルへのインデックス付加オペレーションを実行するランク付け/インデックス付加モジュール５１９が提供されてもよい。最後に、上記技術によって動作されるように構成されている潜在変数モデルのトレーニングを実行するトレーニングモジュール５２０が提供されてもよい。

最後に、説明した処理及び技術は任意の特定の装置に固有に関連するものではなく、任意の適切な構成要素の組み合わせによって実装されてもよい。さらに、様々なタイプの汎用目的デバイスが説明した開示によって使用されてもよい。説明した方法ステップを実行するために特定用途装置を構築することは効果的である。本発明は、特定の例に関連して説明されたが、当該説明は、制限することではなく、例示することを意図している。ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが、本発明を実施するために適している。例えば、説明したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、オブジェクティブＣ、ｐｅｒｌ、ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）及び任意の現在知られているもしくは今後開発されるプログラミング言語もしくは記述言語などの様々な広い範囲にわたるプログラミング言語もしくは記述言語で実装されてもよい。

さらに、詳細の検討及び開示された発明の実施から、本発明の様々な実装が可能であることは明らかである。説明した実施形態の様々な態様及び／もしくは構成要素はマルチモーダルビデオインデックス付加のためのシステム及び方法において、単体でもしくは任意の組み合わせで使用されてもよい。詳細及び例は、例示だけを目的としており、本発明の範囲及び思想は特許請求の範囲に示されている。

５０１ＣＰＵ
５１７ＯＣＲ／抽出モジュール
５１８ＡＳＲ／ＣＣモジュール
５１９ランク付け／インデックス付加モジュール
５２２ビデオファイル

Claims

プロセッサが、
（ａ）複数のビデオの発話ワード及び複数の前記ビデオに関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、
（ｂ）第１ビデオの少なくとも部分を選択し、
（ｃ）前記第１ビデオの選択された部分から複数の発話ワードを抽出し、
（ｄ）前記第１ビデオの選択された部分と関連する第１外部テキストを取得し、
（ｅ）生成された前記マルチモーダル言語モデルを用いて、取得された前記第１外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする、
方法。
前記第１外部テキストを取得することは、前記第１ビデオの選択された部分で表示されるテキストから前記第１外部テキストを抽出する、ことを含む、請求項１に記載の方法。
前記外部テキストは複数の前記ビデオの少なくとも１つで表示される、請求項１に記載の方法。
前記外部テキストは複数の前記ビデオの少なくとも１つに関連するコンテンツに含まれている、請求項１に記載の方法。
複数の前記ビデオの各々は、前記外部テキストを含む複数のプレゼンテーションスライドを含む、請求項１〜４のいずれか１項に記載の方法。
前記マルチモーダル言語モデルを生成することは、複数の前記ビデオのすべてから発話ワードのすべてを抽出すること、及び、複数の前記ビデオに表示されている前記外部テキストを抽出すること、抽出した前記発話ワードの各々と抽出した前記外部テキストの各々との共起性の複数の確率を算出すること、を含む、請求項１〜５のいずれか１項に記載の方法。
前記マルチモーダル言語モデルはマトリックスフォームで保存される、請求項１〜６のいずれか１項に記載の方法。
複数の前記発話ワードは、自動音声認識を用いて、前記第１ビデオの選択された部分から抽出される、請求項１〜７のいずれか１項に記載の方法。
複数の前記発話ワードは、前記第１ビデオに関連するクローズドキャプション情報を用いて、前記第１ビデオの選択された前記部分から抽出される、請求項１〜７のいずれか１項に記載の方法。
前記第１ビデオの選択された部分に関連する第１外部テキストを取得することは、前記第１ビデオの選択された部分のスライドを検出し、光学文字認識を用いて、検出された前記スライドから前記第１外部テキストを抽出すること、を含む、請求項１〜９のいずれか１項に記載の方法。
前記プロセッサは、さらに、
ユーザに対してランク付けされた複数の前記発話ワードを提示し、
提示された複数の前記発話ワードの少なくとも１つの選択をユーザから受信し、
前記第１ビデオの注釈として、提示された複数の前記発話ワードの少なくとも１つの受信した前記選択を用いる、
請求項１〜１０のいずれか１項に記載の方法。
前記プロセッサは、さらに、
複数の前記ビデオの少なくともいくつかにインデックスを付加するために前記注釈を使用する、
請求項１１に記載の方法。
前記プロセッサは、さらに、
複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードを用いる、
請求項１〜１２のいずれか１項に記載の方法。
前記プロセッサは、さらに、
複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードから上位にランク付けされたワードを使用する、
請求項１〜１２のいずれか１項に記載の方法。
抽出された複数の前記発話ワードはフレーズを含む、請求項１〜１４のいずれか１項に記載の方法。
抽出された複数の前記発話ワードはセンテンスを含む、請求項１〜１４のいずれか１項に記載の方法。
前記第１ビデオの選択された部分は、前記第１ビデオのコンテクストについて意味を有するセグメントを含む、請求項１〜１６のいずれか１項に記載の方法。
複数のビデオの発話ワード及び複数の前記ビデオと関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、
第１ビデオの少なくとも部分を選択し、
前記第１ビデオの選択された部分から複数の発話ワードを抽出し、
前記第１ビデオの選択された部分と関連する第１外部テキストを取得し、
生成した前記マルチモーダル言語モデルを使用して、取得した前記第１外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする、
ことをコンピュータに実行させるためのプログラム。
プロセッサと、
命令セットを記憶しているメモリと、
を備え、
前記命令セットが前記プロセッサによって実行されることにより、
前記プロセッサが、
複数のビデオの発話ワードと複数の前記ビデオに関連する外部テキストとの共起性についてマルチモーダル言語モデルを生成し、
第１ビデオの少なくとも部分を選択し、
前記第１ビデオの選択された部分から複数の発話ワードを抽出し、
前記第１ビデオの選択された部分に関連する第１外部テキストを取得し、
生成した前記マルチモーダル言語モデルを用いて、取得した前記第１外部テキストを条件とする発生確率に基づいて、抽出した複数の前記発話ワードをランク付けする、
計算処理システム。