JP2019003604A

JP2019003604A - ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム

Info

Publication number: JP2019003604A
Application number: JP2018020516A
Authority: JP
Inventors: メロージェニファー; Marlow Jennifer; ローラン　ドゥヌ; Laurent Denoue; ドゥヌローラン; カータースコット; Scott Carter; クーパーマシュー; Matthew Cooper; ダニエルアブラハミ; Avrahami Daniel
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-06-09
Filing date: 2018-02-07
Publication date: 2019-01-10
Anticipated expiration: 2038-02-07
Also published as: US10528623B2; JP7069778B2; US20180359530A1

Abstract

【課題】記録されたビデオに関連付けられた質問を識別し、質問に対する答えのビデオセグメントへのリンクを伴う答えの概要を生成することを含む方法、システム、及びプログラムを提供する。
【解決手段】例示的実施態様は、視聴者からのメッセージをキュレーションして、ビデオデータを含む記録されたビデオに関連付けられた質問であって、ビデオデータの列から抽出される質問を識別することと、記録されたビデオ内の質問の位置に基づいて、ビデオデータを分析して、信頼度スコアを満たす、質問に対する１又は複数の答えのビデオセグメントを判定することと、１又は複数の答えのビデオセグメントへのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、質問に対する答えの概要を生成することと、を実行する方法、システム及びプログラムを対象としている。
【選択図】図１

Description

本開示は、概して、ビデオベースの通信に関し、より詳細には、ビデオベースの通信からのコンテンツのキュレーションのための方法、システム及びプログラムに関する。

ライブ・ビデオ・ストリーミング、又は、遠隔の聴講者とのライブビデオの共有は、普及してきており、エンターテインメントから医療教育までの範囲の、多くの目的のために使用され得る。通常、講演者は、ビデオストリームを遠隔の多くの聴講者に放送する。たとえば、大規模オンライン公開講座（ｍａｓｓｉｖｅｏｐｅｎｏｎｌｉｎｅｃｏｕｒｓｅ、ＭＯＯＣ）は、インターネットを介しての無制限の参加とオープンなアクセスとを目的とするオンラインコースであり、聴講者の相互作用を含む場合がある。例として、ライブ・ビデオ・ストリーミングのＭＯＯＣセッションは、講演者のビデオフィード及び音声フィードについて参加者が質問を提出して、講演者が答えを提供するための、チャットウィンドウを含み得る。さらに別の例では、著名人が、仮想的にファンに会い、挨拶し、世界中からのメッセージに応えるために、ライブ・ビデオ・ストリーミングを使用する場合がある。

従来技術では、ライブ・ビデオ・ストリーミング専用のツールにより、たとえば、テキストメッセージの送信、エモティコン（ｅｍｏｔｉｃｏｎ、すなわち「反応」を表す顔文字、絵文字等）の共有、投票調査への回答、又は、講演者への送付のための仮想ギフトの購入により、遠隔の聴講者が講演者とコミュニケーションすることを可能にしている。ライブ・ビデオ・ストリーム中の聴講者の相互作用は、コミュニケーションの集中を生じさせる。従来技術の研究により、講演者が一般に、入ってくるメッセージに積極的に反応することを試みるが、講演者は、多数のメッセージが短い間隔で提示される場合に、すぐにインターフェースから消えるメッセージを見落とす場合があるか、メッセージのトピックが講演者の現在の一連の考えに関連しない場合、そのメッセージを却下する場合があることが示されている。各研究により、オープンフォーマットのイベント（たとえば、オフィスアワー、質問受付（ａｓｋｍｅａｎｙｔｈｉｎｇ）、タウンホールなど）と比較すると、構成されたトピックのプレゼンテーション（たとえば、専門的又は教育的なプレゼンテーション）の間においては、聴講者のコミュニケーションに応じるに際し講演者がより大きい困難性（たとえば、イベントが妨げられる、放送の中断等）に直面することもわかっている。従来技術のライブ・ビデオ・ストリーミング・ツールが、応答時間の遅れ、及び、講演者によって返答がされない質問の増大の一因になっている。講演者が、コミュニケーションからの情報を消費して、議論に寄与するような関連するメッセージを識別することは、困難である場合がある。

さらに、質問に対する答えを含むビデオストリームの記録は、チャットウィンドウにおいて質問が提示された時間と、講演者がビデオの中で応答した時間との間の遅れに起因して、検索が困難である。記録されたＭＯＯＣセッションのビデオをリプレイしている視聴者が、特定のトピックの議論、又は質問に対する答えを探している場合、視聴者は通常、ビデオ全体をリプレイして、チャットに提示された質問を監視し、講演者がその質問に対処したかどうかを見出すためにある時間の間、積極的に視聴することとなる。

したがって、ライブストリーミングのプラットフォーム及び記録されたビデオ上で継続されている活動への、聴講者の注目を向上させつつ、ユーザの関与、及び、ビデオとの相互作用を向上させて、大人数のグループの設定に参加することを許容するために、ツールが必要である。

米国特許第９０８４０９６号明細書米国特許第６０２８６０１号明細書

ＢＬＥＩ，Ｄ．Ｍ．他、"ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ"、ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ、２００３年３月、ｐ．９９３−１０２２ＣＡＯ，Ｊ．他、"ＡｕｔｏｍａｔｅｄＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＦｒｏｍＬｅｃｔｕｒｅＶｉｄｅｏｓ：ＮＬＰｖｓ．ＰａｔｔｅｒｎＭａｔｃｈｉｎｇ"、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３８ｔｈＨａｗａｉｉＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｙｓｔｅｍＳｃｉｅｎｃｅｓ、２００５年、ｐ．１−８ＣＡＴＡＬＤＩ，Ｍ．他、"ＥｍｅｒｇｉｎｇＴｏｐｉｃＤｅｔｅｃｔｉｏｎｏｎＴｗｉｔｔｅｒＢａｓｅｄｏｎＴｅｍｐｏｒａｌａｎｄＳｏｃｉａｌＴｅｒｍｓＥｖａｌｕａｔｉｏｎ"、ＭＤＭＫＤＤ’１０Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭｕｌｔｉｍｅｄｉａＤａｔａＭｉｎｉｎｇ、Ａｒｔｉｃｌｅ４、（米国）、２０１０年７月２５日、全１０頁ＣＨＵＡＮＧ，Ｊ．他、"ＷｉｔｈｏｕｔｔｈｅＣｌｕｔｔｅｒｏｆＵｎｉｍｐｏｒｔａｎｔＷｏｒｄｓ：ＤｅｓｃｒｉｐｔｉｖｅＫｅｙｐｈｒａｓｅｓｆｏｒＴｅｘｔＶｉｓｕａｌｉｚａｔｉｏｎ"、ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｐｕｔｅｒ−ＨｕｍａｎＩｎｔｅｒａｃｔｉｏｎ、１９（３）、Ａｒｔｉｃｌｅ１９、２０１２年１０月、全２９頁ＦＵＬＬＥＲ，Ｍ．Ｙ．他、"ＵｓｉｎｇｔｈｅＰｅｒｉｓｃｏｐｅＬｉｖｅＶｉｄｅｏ−ＳｔｒｅａｍｉｎｇＡｐｐｌｉｃａｔｉｏｎｆｏｒＧｌｏｂａｌＰａｔｈｏｌｏｇｙＥｄｕｃａｔｉｏｎ"、ＡｒｃｈＰａｔｈｏｌＬａｂＭｅｄ、１４０、２０１６年１１月、ｐ．１２７３−１２８０ＨＡＭＩＬＴＯＮ，Ｗ．Ａ．他、"ＳｔｒｅａｍｉｎｇｏｎＴｗｉｔｃｈ：ＦｏｓｔｅｒｉｎｇＰａｒｔｉｃｉｐａｔｏｒｙＣｏｍｍｕｎｉｔｉｅｓｏｆＰｌａｙｗｉｔｈｉｎＬｉｖｅＭｉｘｅｄＭｅｄｉａ"、ＣＨＩ’ｌ４ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳＩＧＣＨＩＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ、（カナダ）、２０１４年４月２６日−５月１日、ｐ．１３１５−１３２４ＨＡＵＢＯＬＤ．Ａ．他、"ＡｕｇｍｅｎｔｅｄＳｅｇｍｅｎｔａｔｉｏｎａｎｄＶｉｓｕａｌｉｚａｔｉｏｎｆｏｒＰｒｅｓｅｎｔａｔｉｏｎＶｉｄｅｏｓ"、Ｍｕｌｔｉｍｅｄｉａ ’０５、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡｎｎｕａｌＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ、（シンガポール）、２００５年１１月６日−１１日、ｐ．５１−６０ＪＵＲＡＦＳＫＹ，Ｄ．他、"ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｃｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ａｎｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ"、第２版、ＰｅａｒｓｏｎＥｄｕｃａｔｉｏｎａｌＩｎｔｅｒｎａｔｉｏｎａｌ、２０００年、全１４頁ＬＡＶＲＥＮＫＯ，Ｖ．他、"ＲｅｌｅｖａｎｃｅＭｏｄｅｌｓｆｏｒＴｏｐｉｃＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ"、ＰｒｏｃｅｅｄｉｎｇｓｏｆＨＬＴ２００２、ＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＲｅｓｅａｒｃｈ、（米国）、２００２年、ｐ．１１５−１２１ＬＩ，Ｇ．他、"ＶｉｄｅｏＣｏｎｆｅｒｅｎｃｅ：ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇｏｎＹｏｕＴｕｂｅ"、ＭＭ’０９Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ、（中華人民共和国）、２００９年１０月１９日−２４日、ｐ．７７３−７７６ＰＡＮ，Ｒ．他、"ＴｗｉｔｃｈＶｉｚ：ＡＶｉｓｕａｌｉｚａｔｉｏｎＴｏｏｌｆｏｒＴｗｉｔｃｈＣｈａｔｒｏｏｍｓ"、ＣＨＩＥＡ ’１６Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＣＨｌＣｏｎｆｅｒｅｎｃｅＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔｓｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ、（米国）、２０１６年５月７日−１２日、ｐ．９５９−１９６５ＰＡＶＥＬ，Ａ．他、"ＶｉｄｅｏＤｉｇｅｓｔｓ：ＡＢｒｏｗｓａｂｌｅ，ＳｋｉｍｍａｂｌｅＦｏｒｍａｔｆｏｒＩｎｆｏｒｍａｔｉｏｎａｌＬｅｃｔｕｒｅＶｉｄｅｏｓ"、ＵＩＳＴ ’１４ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＡｎｎｕａｌＡＣＭＳｙｍｐｏｓｉｕｍｏｎＵｓｅｒＩｎｔｅｒｆａｃｅＳｏｆｔｗａｒｅａｎｄＴｅｃｈｎｏｌｏｇｙ，（米国）、２０１４年１０月５日−８日、ｐ．５７３−５８２ＲＡＭＥＳＨ．Ａ．他、"ＵｎｄｅｒｓｔａｎｄｉｎｇＭＯＯＣＤｉｓｃｕｓｓｉｏｎＦｏｒｕｍｓＵｓｉｎｇＳｅｅｄｅｄＬＤＡ"、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｎｔｈｗｏｒｋｓｈｏｐｏｎＩｎｎｏｖａｔｉｏｎＵｓｅｏｆＮＬＰｆｏｒＢｕｉｌｄｉｎｇＥｄｕｃａｔｉｏｎＡｐｐｌｉｃａｔｉｏｎｓ、（米国）、２０１４年６月２６日、ｐ．２８−３３ＲＥＰＰ，Ｓ．他、"ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇｆｒｏｍＬｅｃｔｕｒｅＶｉｄｅｏｓＢａｓｅｄｏｎＡｕｔｏｍａｔｉｃａｌｌｙ−ＧｅｎｅｒａｔｅｄＬｅａｒｎｉｎｇＯｂｊｅｃｔｓ"、ＩＣＷＬ ’０８ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓｉｎｔｈｅＷｅｂＢａｓｅｄＬｅａｒｎｉｎｇ、（中華人民共和国）、２００８年８月２０日−２２日、ｐ．５０９−５２０．ＴＡＮＧ，Ｊ．Ｃ．他、"ＭｅｅｒｋａｔａｎｄＰｅｒｉｓｃｏｐｅ：ＩＳｔｒｅａｍ，ＹｏｕＳｔｒｅａｍ，ＡｐｐｓＳｔｒｅａｍｆｏｒＬｉｖｅＳｔｒｅａｍｓ"、ＣＨｌ’ｌ６Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＣＨＩＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ、（米国）、２０１６年５月７日−１２日、ｐ．４７７０−４７８０ＷＡＮＧ，Ｋ．他、"ＥｘｐｌｏｉｔｉｎｇＳａｌｉｅｎｔＰａｔｔｅｒｎｓｆｏｒＱｕｅｓｔｉｏｎＤｅｔｅｃｔｉｏｎａｎｄＱｕｅｓｔｉｏｎＲｅｔｒｉｅｖａｌｉｎＣｏｍｍｕｎｉｔｙ−ＢａｓｅｄＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ"、ＣＯＬＩＮＧ ’１０Ｐｒｏｃｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、（中華人民共和国）、２０１０年８月２３日−２７日、ｐ．１１５５−１１６３ＭＡＮＮＩＮＧ，Ｃ．Ｄ．他、"ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ"、第６章、（米国）、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、２００８年、全２６頁ＨＯＵ，Ｊ．Ｌ．他、"ＡｎＡｕｔｏｍａｔｉｃＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＳｕｍｍａｒｉｚａｔｉｏｎＡｐｐｒｏａｃｈｆｏｒＱ＆ＡＳｅｒｖｉｃｅｓ"、ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｓｔｉｔｕｔｅｏｆＥｎｇｉｎｅｅｒｓ，３２（２）、２００９年３月、ｐ．１９３−２１３ＹｏｕＴｕｂｅＳｕｐｅｒＣｈａｔ，ＹｏｕＴｕｂｅ．ｃｏｍ、［ｏｎｌｉｎｅ］、［２０１７年６月９日検索］全３頁、インターネット〈URL: https://support.google.com/youtube/ answer/7277005?hl=en〉

本発明は、記録されたビデオに関連付けられた質問を識別し、質問に対する答えのビデオセグメントへのリンクを伴う答えの概要を生成することを含む方法、システム、及びプログラムを提供することを目的とする。

本発明の第一の態様は、プロセッサが、ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、前記１又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を含む、方法である。

本発明の第二の態様は、第一の態様の方法であって、前記ビデオデータを分析することは、前記プロセッサが、前記ビデオデータの音声コンテンツ内のキーワードを検出することを含む。

本発明の第三の態様は、第一の態様の方法であって、前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記ビデオデータを分析することがさらに、前記プロセッサが、講演者の前記ビデオデータの列との相互作用を追跡することと、前記相互作用に基づき、前記信頼度スコアを調整することと、を含む。

本発明の第四の態様は、第三の態様の方法であって、前記ビデオデータの列との前記相互作用を追跡することは、視線追跡、スクリーン上での動作の分析、動作の検出、及び音声同期の少なくとも１つを使用する。

本発明の第五の態様は、第一の態様の方法であって、前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、前記プロセッサが、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。

本発明の第六の態様は、第五の態様の方法であって、前記前後関係の分析は、前記候補となるセグメントの、前記質問の時間に対する時間的近さと、前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、前記記録されたビデオの視聴者からのフィードバックと、前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも１つの分析を含む。

本発明の第七の態様は、第一の態様の方法であって、前記ビデオデータが、前記記録されたビデオからの音声コンテンツ又は視覚コンテンツのトランスクリプトである。

本発明の第八の態様は、第七の態様の方法であって、前記プロセッサが、前記トランスクリプト内の代名詞を識別することと、前記代名詞を、前後関係の分析を使用して、前記トランスクリプト内の先行するトピック、又は、メッセージのログからのメッセージに関連付けることと、をさらに含む。

本発明の第九の態様は、第一の態様の方法であって、前記プロセッサが、前記記録されたビデオに関連付けられた前記質問を前記ビデオデータの列から抽出するために、構文解析を実行することをさらに含む。

本発明の第十の態様は、第一の態様の方法であって、記録されたビデオに関連付けられた前記質問が、記録されたビデオの再生の間に視聴者から受信され、前記方法がさらに、前記プロセッサが、前記ビデオデータからのメッセージのログを分析して、メッセージの信頼度スコアを満たす１又は複数のメッセージを判定することと、前記判定されたメッセージに関連付けられた前記ビデオデータに基づいて前記質問に関する前記信頼度スコアを計算することと、を含む。

本発明の第十一の態様は、第一の態様の方法であって、前記プロセッサが、前記順位付けされたリンクの１つに関連付けられている時点の前記記録されたビデオを提供することをさらに含む。

本発明の第十二の態様は、第一の態様の方法であって、前記プロセッサが、前記順位付けされたリンクの１つに関連付けられた位置における、前記記録されたビデオに対する字幕として、前記質問のテキストを挿入することをさらに含む。

本発明の第十三の態様は、第一の態様の方法であって、前記プロセッサが、相互作用インターフェースにより、前記質問の受信に対応する時点の前記記録されたビデオを再生することをさらに含む。

本発明の第十四の態様は、第一の態様の方法であって、前記プロセッサが、前記視聴者からのフィードバックに基づき、前記リンクの順位付けを調整することをさらに含む。

本発明の第十五の態様は、メモリと、前記メモリに動作可能に結合したプロセッサであって、ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、前記１又は複数の答えのビデオセグメントの各々へのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行するように構成されている、プロセッサと、を備えたシステムである。

本発明の第十六の態様は、第十五の態様のシステムであって、前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。

本発明の第十七の態様は、第十六の態様のシステムであって、前記前後関係の分析は、前記候補となるセグメントの、前記質問の前記時間に対する時間的近さと、前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、前記記録されたビデオの視聴者からのフィードバックと、前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも１つの分析を含む。

本発明の第十八の態様は、第十五の態様のシステムであって、前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記プロセッサがさらに、前記ビデオデータを分析するために、前記講演者の前記ビデオデータの列との相互作用を追跡し、前記相互作用に基づき、前記信頼度スコアを調整する。

本発明の第十九の態様は、プロセッサに、ビデオデータを含む記録されたビデオに関連付けられた質問であって、前記ビデオデータの列から抽出される質問を識別することと、前記記録されたビデオ内の前記質問の位置に基づいて、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、前記１又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行させるプログラムである。

本発明の第二十の態様は、第十九の態様のプログラムであって、前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。

本発明の他の特徴及び利点は、以下の詳細な説明及び添付図面により、当業者にとってより容易に明らかになるであろう。

本発明によれば、記録されたビデオに関連付けられた質問を識別し、質問に対する答えのビデオセグメントへのリンクを伴う答えの概要を生成することを含む方法、システム、及びプログラムが提供される。

例示的実施態様の構造及び作用は、以下の詳細な説明及び添付図面により理解されるであろう。添付図面において、同様の参照符号は同様の部分を示している。

例示的実施態様に係る、システムの概観を示す図である。例示的実施態様に係る、例示的キュレーションエンジンを示す図である。例示的実施態様に係る、講演者インターフェースを生成するためのフロー図である。例示的実施態様に係る、ライブのプレゼンテーションの間の、メッセージのキュレーションのためのフロー図である。例示的実施態様に係る、例示的講演者インターフェースを示す図である。例示的実施態様に係る、例示的講演者インターフェースを示す図である。例示的実施態様に係る、例示的講演者インターフェースを示す図である。例示的実施態様に係る、例示的講演者インターフェースを示す図である。例示的実施態様に係る、例示的講演者インターフェースを示す図である。例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的サーバコンピュータ環境を示す図である。例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的ネットワーク環境を示す図である。

以下の詳細な説明は、本出願の図及び例示的実施態様をさらに詳細に示している。各図間における重複する要素の参照符号及び記載は、明確化のために省略している。本記載を通して使用される用語は、例として提供されるものであり、限定を意図するものではない。たとえば、「自動（ａｕｔｏｍａｔｉｃ）」の用語の使用は、本出願の実施態様を実行する当業者の所望の実施態様に応じて、完全に自動であるか、実施態様の一部に対してユーザ又はオペレータの制御を伴う半自動である実施態様を伴ってもよい。

デジタルコンテンツの指数関数的増大により、人々が、関連する情報を効率的に特定し、消費することを可能にすることに対する新たなハードルが形成されている。ビデオコミュニケーションは、通常、情報の消費レートを向上させるが、検索可能なテキストと比較すると、検索ツールに乏しいことから、問題が生じる。ビデオコミュニケーションにより、講演者がコンテンツを多くの聴講者に送ることが許容される。しかし、講演者は、大規模オンライン公開講座（ＭＯＯＣ）における教育的なプレゼンテーションの間などに、多くの聴講者から受信するメッセージの量に圧倒される場合がある。したがって、リアルタイムのビデオ会議の間、講演者が多くの聴講者と相互作用することを可能にするツールが必要である。さらに、ＭＯＯＣの講義などの、記録されたビデオコミュニケーションにおける質問に対する答えを特定するために、ツールが必要である。

本開示の例示的態様は、ビデオベースの通信における質問のキュレーションのためのツールに関する。コンテンツのキュレーションは、特定のテーマ又はトピックに基づく、意味があり、かつアクセス可能なコンテンツの選択を提供するための、大量のコンテンツにわたるソートのプロセスである。本明細書に記載のように、コンテンツのキュレーションは、前後関係を識別するためのデータの分析、コンテンツのグループ間の相関の判定、並びに、効率的な検索及び／又はカスタマイズされたプレゼンテーションのためのコンテンツの注釈を伴う。キュレーションされたコンテンツは、普通ならライブ・ビデオ・ストリーミング・セッション又は記録されたビデオアーカイブの間にアクセス不可能であるニーズ又は質問に対処するために、関連するコンテンツへの効率的なアクセスを許容する場合がある。

例示的実施態様では、講演者には、ライブ・ビデオ・ストリーム中に、より効率的に、より複雑なトピックを伴う多数のユーザのコミュニケーションを知らせることができるツールが提供される。例示的実施態様によれば、入ってくるメッセージは、キーワード及びトピックに関して分析され、異なるタイプのコメントに分類され、また、講演者への提示のためにグループ分けされる。このツールは、リアルタイムで、メッセージからの情報を講演者が消費することを補助するための様々な視覚化技術を含んでいる。

プレゼンテーションのビデオセッションは、講演者（たとえば、ライブ・ストリーミング・セッションを開始したユーザ）が司会を務めるか、主催する。ビデオセッションを開始したユーザは、一般に「講演者」と呼ばれ、視聴者からのチャットメッセージ及び反応を受け取る者である。プレゼンテーションのビデオセッションは、講演者が聴講者とビデオストリームを共有している（たとえば、送信している）場合、時間を参照し、聴講者は、チャットメッセージ、支払い、ギフト、エモティコンなどを通して反応又は相互作用する。

ライブ・ストリーミング・セッションは、非同期性視聴のためにアーカイブされるか、されない場合がある。本開示の態様は、講演者がメッセージ列（ｍｅｓｓａｇｅｑｕｅｕｅ）に完全に注意を向ける必要なしに、聴講者に効率的に応答するために、講演者にキュレーションされたメッセージを提供することを目的としている。例示的実施態様には、講演者に対しコンテンツをより見やすくするために、コンテンツを自動的に管理し、聴講者からの入力を受信する、キュレーション方法が含まれる。実施態様には、講演者がコンテンツを却下するか保存すること、及び、視聴者が、メッセージ列からのメッセージに関連付けられたコンテンツのセグメントを中継することを可能にするインターフェースが含まれている。たとえば、キュレーション方法により、質問、挨拶、意見、確認、要求、不明など、チャットインターフェースを介して受信した各メッセージを検出し、それらに分類区分を割り当て、また、少なくともその分類区分を使用して、講演者のインターフェースを調整するか、ビデオセグメントにリンクすることができる。

例示的実施態様によれば、ライブ・ビデオ・ストリームの間に提示されたメッセージは、トピックモデルに従って管理される。講演者又は主催者のためのインターフェースは、トピックの速度、量、及びコンテンツに基づき、視聴グループからのメッセージを効率的に管理するためのツールを含んでいる。一例では、講演者インターフェースは、トピックのエモティコンの視覚化を伴う講演者ダッシュボード、動的メッセージ列、活動を重ね合わせたもの（ｏｖｅｒｌａｙ、たとえばマップ）などを含んでいる。たとえば、グループとのライブ・ストリーミング・セッションの間、このツールは、トレンディング・トピック（ｔｒｅｎｄｉｎｇｔｏｐｉｃ）に対する講演者の応答性を最大化するために、グループとのリアルタイムの相互作用を許容し得る講演者インターフェースを生成する。講演者インターフェースは、ライブ・ビデオ・ストリーミング・セッションの間、視聴者の関与及び応答性を向上させ得る。

別の例示的実施態様によれば、記録されたビデオからのトピックは、非同期性視聴のためのプレイバックナビゲーションを伴うトピックモデルに従って管理される。視聴者ツールは、質問及び／又はトピックを扱っている、記録されたビデオの関連する部分を効率的に特定するために提供されている。記録されたビデオが分析され、信頼度スコアの観点から、質問に対するコンテンツの関連性に基づき、ビデオのセグメントにアクセスするためのリンクが生成される。例示的実施態様では、記録されたビデオの分析には、記録されたビデオからのメッセージヒストリ内の質問の特定、並びに、講演者からの関連する応答を含むセグメントを識別するためのビデオフィード及び／又は音声フィードの分析が含まれる。識別されたセグメントは、信頼度スコアに基づき、順序リスト（たとえば、ランキング）を生成するためのさらなる処理を経る。信頼度スコアは、記録の間の、メッセージ列のインターフェースに対する講演者の注意度の追跡などの、前後関係の要素に基づく重みである。

たとえば、質問がメッセージ列に現れた後に、ビデオフィードが、講演者が質問をレビューしたことを示してもよい。後に、講演者の音声フィードが、質問からのキーワード又はフレーズをリピートしてもよく、これにより、該当するセグメントが、メッセージ列からの質問に答えることに関連することを示す。プロセスにより、質問と、判定されたビデオのセグメントとの間のリンクが生成され得る。機械学習及び視聴者のフィードバックに基づき、関連するビデオのセグメントが、記録されたビデオの間に答えられた質問に関してまとめられ得る。したがって、視聴者は、ビデオの記録を冒頭から見直すことなく、速やかかつ容易に、記録されたビデオの中で対処された質問を識別し、速やかに、質問に対処している関連するビデオのセグメントを検索することができる。

例示的実施態様によれば、視聴者インターフェースは、順位付けされた一連のビデオセグメントに質問をリンク付けする、質問の概要を含む場合がある。たとえば、教授がＭＯＯＣセッションを記録した後に、このツールが、記録された視聴者インターフェースを生成し、これにより、記録されたビデオとの非同期性相互作用を可能にする。視聴者インターフェースにより、ユーザが、記録されたビデオのライブラリに対して検索される質問を入力することが可能になる。記録されたビデオで対処された質問のキュレーションにより、視聴の関与と理解を向上させる、記録されたコンテンツとの効率的な相互作用を可能にし得る。

図１は、例示的実施態様に係る、システム１００の概観を示す図である。システム１００は、ネットワーク１０２を介しての、又は、ビデオライブラリ１０５ｅからのビデオコンテンツを分析するように構成されたキュレーションエンジン１１０を含んでいる。キュレーションエンジン１１０は、１又は複数の装置１０５ａ〜１０５ｎからのビデオストリームを分析し、キュレーションされたコンテンツとのカスタマイズされたインターフェースを提供することができる。キュレーションエンジン１１０は、ネットワーク１０２を介する遠隔の、１又は複数の装置１０５ａ〜１０５ｄ、クラウドサービス１０５ｎ、若しくは、当業者に既知である他の構成などの、１又は複数の処理装置上で実行されるソフトウェア（たとえば、非一時的コンピュータ可読媒体上の命令）の形態で実施され得る。

「コンピュータ」、「コンピュータプラットフォーム」、「処理装置」、及び「装置」との用語は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メインフレームコンピュータ、サーバ、手持ち式装置、デジタル信号プロセッサ（ＤＳＰ）、組込型プロセッサ、又は、データの処理が可能な任意の他の装置などの、任意のデータ処理装置を含むことが意図されている。コンピュータ／コンピュータプラットフォームは、１又は複数の非一時的コンピュータ可読媒体及び１又は複数のネットワークと通信可能に接続された１又は複数のマイクロプロセッサを含むように構成されている。

キュレーションエンジン１１０は、直接的又は間接的に、データ記憶装置（複数の場合もある）１０３（たとえば、ＲＡＭ、ＲＯＭ、並びに／又は内部記憶装置、磁気、光学、固体記憶装置、及び／若しくは有機体）などのメモリを含んでいる。これらの内のいずれも、情報通信のために、通信機構（又はバス）上で結合され得る。

例示的実施態様では、キュレーションエンジン１１０は、クラウドサービス１０５ｎによってホストされ、データの送受信のために、装置１０５ａ〜１０５ｎにネットワーク１０２を介して通信可能に接続され得る。「通信可能に接続（ｃｏｍｍｕｎｉｃａｔｉｖｅｌｙｃｏｎｎｅｃｔｅｄ）」の用語は、データが通信され得る、有線又は無線の、いかなるタイプの接続をも含むことが意図されている。「通信可能に接続」の用語は、限定ではないが、単一のコンピュータ内の装置及び／若しくはプログラム間の接続、又は、ネットワーク１０２を介した各装置及び／若しくは別々のコンピュータ間の接続を含むことが意図されている。「ネットワーク」の用語は、限定ではないが、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、ＴＣＰ／ＩＰ（インターネット）などのパケット交換ネットワークを含むことが意図され、また、限定ではないが、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）、ＬｏｗｐｏｗｅｒＷｉｒｅｌｅｓｓＡｒｅａＮｅｔｗｏｒｋｓｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌｖｅｒｓｉｏｎ６（６ＬｏｗＰＡＮ）、ｐｏｗｅｒｌｉｎｅｃｏｍｍｕｎｉｃａｔｉｏｎ（ＰＬＣ）、イーサネット（登録商標）（たとえば、１０メガバイト（Ｍｂ）、１００Ｍｂ、及び／若しくは１ギガバイト（Ｇｂ）のイーサネット（登録商標））、又は他の通信プロトコルなどの様々な伝送手段を使用することができる。

装置１０５ａ〜１０５ｎは、たとえば、モバイル・コンピュータ・装置１０５ａ〜１０５ｂ（たとえば、スマートフォン、ラップトップ、タブレットなど）、プレゼンテーションシステム１０５ｃ、コンピュータ装置１０５ｄ（たとえば、デスクトップ、メインフレーム、ネットワーク設備など）、マルチメディアライブラリ１０５ｅ、及び、クラウドサービス１０５ｎ（たとえば、遠隔で利用可能な専有の又は共有のコンピュータ・リソース）を含み得る。装置１０５ａ〜１０５ｎは、たとえば、ビデオデータ及びメッセージデータを収集し、伝送し、及び／又は記録する機能を有するビデオ・ストリーミング・サービスにアクセスすることができる。たとえば、モバイル・コンピュータ・装置１０５ａは、カメラを含み、ネットワーク１０２を介して、他の装置１０５ａ、１０５ｂ、１０５ｃ、１０５ｄ、１０５ｎ上の視聴者にライブ・ビデオ・ストリームを提供するように、ライブ・ビデオ・ストリーミング・サービス１０５ｎにアクセスすることができる。

装置１０５ａ〜１０５ｎは、１又は複数の他の装置１０５ａ〜１０５ｎから情報（たとえば、メッセージデータ、フィードバックデータなど）を集め、集められた情報をキュレーションエンジン１１０に提供する場合もある。たとえば、装置１０５ａ〜１０５ｎは、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）、ＬｏｗｐｏｗｅｒＷｉｒｅｌｅｓｓＡｒｅａＮｅｔｗｏｒｋｓにわたるＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌｖｅｒｓｉｏｎ６（６ＬｏｗＰＡＮ）、ｐｏｗｅｒｌｉｎｅｃｏｍｍｕｎｉｃａｔｉｏｎ（ＰＬＣ）、イーサネット（登録商標）（たとえば、１０メガバイト（Ｍｂ）、１００Ｍｂ、及び／若しくは１ギガバイト（Ｇｂ）のイーサネット（登録商標））、又は他の通信プロトコルを使用して、他の装置に通信可能に接続することができる。

キュレーションエンジン１１０は、ライブ・ストリーミング・ビデオの間、及び、記録されたビデオセッションのプレイバックの間に、ビデオ情報のキュレーションを行う。例示的実施態様では、キュレーションエンジン１１０は、（たとえば、装置１０５ａ〜１０５ｄ又はクラウドサービス１０５ｎを介して）ビデオ・ストリーミング・セッションにアクセスし、又は、記録されたビデオセッション（たとえば、ビデオライブラリ１０５ｅ）にアクセスし、本明細書に記載のように、１又は複数のアルゴリズムに従ってビデオデータを処理し、また、キュレーションされたメッセージデータへのアクセスを提供する。一実施態様では、ビデオ・ストリーミング・セッションに関する、キュレーションされたメッセージデータは、図２〜６を参照して記載されるように、講演者インターフェースを介して提供される。一実施態様では、記録されたビデオセッションに関する、キュレーションされたメッセージデータは、図２及び図６〜９を参照して記載されるように、ミーティングの概要、又は視聴者インターフェースを介して提供される。

図２は、例示的実施態様に係る、キュレーションエンジン２１０を含む例示的システム２００を示している。キュレーションエンジン２１０は、１又は複数の入出力インターフェース２１２、インターフェースモジュール２１５、メッセージ・サポート・システム２３０、及びフィードバックモジュール２４０を含んでいる。キュレーションエンジン２１０は、データ（たとえば、情報、モデル、フィードバック、ビデオファイルなど）を記憶するために１又は複数のデータ記憶装置２０３に結合されている。キュレーションエンジン２１０は、メッセージ内のパターンを識別して、様々なタイプにメッセージを分類することと、様々なメッセージのグループ分け及びスコアリングのためにトピックモデルを開発することができる。ビデオセッションは、カスタム・トピック・モデルを構築するために、処理され得る。

例示的実施態様では、入出力インターフェース２１２は、ネットワーク２０２又は様々なタイプの装置２０４、２０５（たとえば、図１の装置１０５ａ〜１０５ｎ）と通信可能に接続された、１又は複数の通信インターフェースを含んでいる。入出力インターフェース２１２は、データ記憶装置２０３、様々なタイプの装置２０４、２０５などの様々なソースから、又は、ネットワーク２０２を介して、ビデオデータ２０６を受信することができる。さらに、入出力インターフェース２１２は、データ記憶装置２０３、様々なタイプの装置２０４、２０５などの様々なソースから、又は、ネットワーク２０２を介して、メッセージデータ２０７を受信することができる。例示的実施態様では、入出力インターフェース２１２は、ビデオデータ２０６及びメッセージデータ２０７のライブストリームを、ネットワーク２０２を介して受信することができる。

別の実施態様では、入出力インターフェース２１２は、データ記憶装置２０３から記録されたビデオデータ２０６のストリーム、及び、メッセージデータ２０７を、ネットワーク２０２を介して受信することができる。別の実施態様では、入出力インターフェース２１２は、ビデオセッションのトランスクリプト（音声を文字に変換した転写物）を含むビデオデータ２０６、及び、１又は複数の装置２０４、２０５からのメッセージデータ２０７を受信することができる。すなわち、キュレーションエンジン２１０は、入出力インターフェース２１２を介して、ビデオデータ２０６及びメッセージデータ２０７を、異なるフォーマットの様々なソースから受信し、インターフェースモジュール２１５を介して、様々な端末装置又はクラウドサービスにインターフェースを提供することができる。本明細書に列挙された組合せは、説明的実施例であり、したがって、当業者によって理解され得る他の組合せで置き換えられる場合がある。

たとえば、ビデオデータ２０６は、ライブ、又は記録されたビデオからの音声のトランスクリプトを含み得る。ビデオデータ２０６はまた、ビデオセグメントの間の、講演者の相互作用の焦点などの、視覚情報を抽出するために、分析され得る。メッセージデータ２０７は、テキスト又はビデオベースのフォームで、聴講者から提示されたメッセージを含んでいる。ビデオの形態で提示されたメッセージデータはまた、ビデオメッセージの音声フィードを文字に転写するために処理され得る。メッセージデータは、位置、人口統計などの、送信者に関する追加情報をも含み得る。ビデオデータ２０６及びメッセージデータ２０７は、リアルタイムでキュレーションエンジン２１０によって受信されるか、データ記憶装置２０３から検索され得る。

キュレーションエンジン２１０は、ライブ・ストリーミング・ビデオ・セッション、及び、記録されたビデオセッションと相互作用して、キュレーションされたメッセージを出力することができる。メッセージ・サポート・システム（ＭＳＳ）２３０は、入出力インターフェース２１２、インターフェースモジュール２１５、及びフィードバックモジュール２４０と相互作用する、トピックモジュール２３３、分類モジュール２３６、リンクモジュール２３７、及び追跡モジュール２３９を含むことができる。例示的実施態様では、メッセージ・サポート・システム２３０は、ビデオデータ２０６及びメッセージデータ２０７から、トピックパターンを学習し、前後関係特有のキーワードを識別し、また、講演者の注目を追跡するための分析プロセスを含んでいる。

例示的実施態様によれば、ＭＳＳ２３０は、メッセージのタイプを分類するために、メッセージを分析する。たとえば、ＭＳＳ２３０は、メッセージを挨拶、質問、確認、感謝などに分類することができる。たとえば、質問の検出のための複数の方法が採用され得る。これら方法は、語彙パターン及び構文パターンの分析を利用して、言語の情報を扱うための分類モデルをトレーニングすることができる。トピックモジュール２３３が、受信されたデータ（たとえば、ビデオデータ２０６及びメッセージデータ２０７）を分析し、キュレーションエンジン２１０による使用のためのトピックモデルを作成する。分類モジュール２３６が、構文分析を使用して、メッセージからの前後関係の要素を判定する。例示的実施態様では、分類モジュール２３６は、情報がメッセージの分類のための基準として有用であるかどうかを判定するための１組の方針を含み得る。

ＭＳＳ２３０のトピックモジュール２３３及び分類モジュール２３６は、機械学習プロセスを通して、追加のパラメータに基づき、メッセージに重み係数を割り当てることを含み得るルールを開発する。例示的実施態様によれば、分類モジュール２３６は、メッセージが分類区分又はトピックと関連付けられていることを相互作用的に判定又は証明するために、データ（ビデオデータ２０６、追跡モジュール２３９からの注意度データ、フィードバックモジュール２４０からのフィードバック）を使用して、前後関係の要素を認識することができる。例示的実施態様では、語彙又は構文上の質問パターンが、特徴を検出し、分類モデルを構築するために使用される。機械学習プロセスは、図３〜図４を参照してさらに詳細に記載するように、トレーニングデータ、又は、動的に更新されたモデルに基づく、メッセージの経験的な評価を完全に自動化するために実装される。

リンクモジュール２３７は、ビデオフィードと、音声フィードと、メッセージとの間の相関を識別して、各フォーマット間のリンクを生成する。リンクモジュール２３７は、図７から図９を参照してさらに詳細に記載するように、追跡モジュール２３９と相互作用して、メッセージを、ビデオデータ、又は、他のメッセージと関連付けることができる。

追跡モジュール２３９は、講演者に関連付けられた活動を監視することができる。いくつかの実施態様では、追跡モジュール２３９は、キュレーションエンジン２１０に含まれており、装置１０５ａ〜１０５ｎによってホストされ得、また、講演者の相互作用と関連付けられたデータ（たとえば、情報）をキュレーションエンジン２１０に知らせる場合がある。例示的実施態様では、追跡モジュール２３９は、メッセージ列又は音声フィードからの情報に関連させるために、講演者の活動を追跡して、特定の時点におけるメッセージ又は視覚的な手がかりに対する注意度を識別する。追跡モジュール２３９は、ビデオフィードからのデータを監視して、講演者がメッセージに目を通し、又は選択しながらメッセージ列と相互作用していることを検出することができる。追跡モジュール２３９は、音声フィードから、講演者が質問を読み上げていることを検出する。たとえば、追跡モジュール２３９は、ユーザの活動レベルの変化を識別するために、講演者の注意度を、カメラを使用して、視線及び瞳の検出を通して追跡することができる。ＭＳＳ２３０は、質問に対処する際に、音声の位置を、質問のキーワードと関連付けることができる。

ＭＳＳ２３０は、ビデオセッションからのメッセージを分析し、会話特有のキーワードを伴うトピックモデルを開発し、各メッセージを分類タイプ及びトピックでラベル付けする。例示的実施態様では、ＭＳＳ２３０は、インターフェースモジュール２１５と相互作用して、ライブ・ストリーミング・ビデオ・セッションの間、メッセージ列を動的に管理する。ＭＳＳ２３０は、インターフェースを介しての視覚表示のため、又は、メッセージを、記録されたビデオの特定の時間と関連付けるリンクとして、メッセージに関する概要情報をも提供する。

フィードバックモジュール２４０は、ＭＳＳ２３０の機能を改良及び向上させるために、ＭＳＳ２３０に評価情報を返すように構成されている。たとえば、フィードバックモジュール２４０は、トピック又は質問を識別するために、視聴者の入力を集めることができる。フィードバックモジュール２４０は、ユーザから評価情報を集めて、割り当てられたトピック、分類区分、及びリンクを経時的に適合させることができる。

図３は、例示的実施態様に係る、講演者インターフェースを生成するためのフロー図３００である。プロセス３００は、ハードウェア（回路、専用ロジックなど）、ソフトウェア（汎用コンピュータシステム又は専用の機械で動作するものなど）、又はそれら両方の組合せを含む場合がある処理ロジックによって実施される。方法３００は、図１のキュレーションエンジン１１０によって実施され得る。方法３００が、キュレーションエンジンによって実施されるものとして以下に記載されるが、方法３００は、他の処理ロジックによって実施される場合もある。

ブロック３１０では、講演者によって提供されるビデオセッションの間、処理装置が視聴者からのメッセージを受信する。分散型のソーシャル・チャット・アプリケーション内のトピックの検出のための技術が採用される。たとえば、ＭＯＯＣビデオは、アイデアの交換、科目管理、講義資料に関するディスカッションのためのプラットフォームとして、ディスカッションフォーラムを含み得る。しかし、ユーザがトピックのスレッドを選択するディスカッションボードからの通常のメッセージとは異なり、ビデオの視聴者からのメッセージは、メッセージを分類するトピック又はサブトピックを容易に識別し得ない場合がある。メッセージは、指導者と生徒との間、及び／又は、生徒間の相互作用を示す場合がある。

ブロック３２０では、処理装置が、各メッセージを分析して、コンテンツのトピックとメッセージのタイプとを識別する。各メッセージを分析するために、処理装置は、メッセージ内の前後関係のキーワードを検出し、ビデオセッションに関するトピックのモデルを生成し、このトピックモデルからのトピックを、各メッセージのコンテンツに基づいて関連付ける。メッセージは、質問、挨拶、意見、確認、不明などのタイプに分類され得る。処理装置は、メッセージの各々に関するメッセージタイプを判定するために、キーとなるフレーズのパターン、及び構文の分析を使用する。

例示的実施態様には、ドメインにおける依存関係のモデルに対する重み付けがされたルールを使用する、相関的なドメインにおける、集合的で、確率的な推論のための確率的ソフトロジック（ＰｒｏｂａｂｉｌｉｓｔｉｃＳｏｆｔＬｏｇｉｃ）などの、統計的な関係学習の方法が含まれる。例示的実施態様では、ビデオストリームのためのメッセージのコンテンツを分類するために、コンピュータ言語学の方法が使用される。たとえば、ユーザ間で生じる会話をマッピングするために、トピックモデルが使用される。このトピックモデルは、トピックモデルの種とするために、講義要綱と視聴者のフィードバック（たとえば、クラウドソースされたモデレーション（ｃｒｏｗｄｓｏｕｒｃｅｄｍｏｄｅｒａｔｉｏｎ））からのトピック入力、及び、講演者のトランスクリプトからのキーワードの検出を採用することができる。確率的ソフトロジック（ＰｒｏｂａｂｉｌｉｓｔｉｃＳｏｆｔＬｏｇｉｃ）を使用したトピックの割り当てにより、直接のモデリング及びトピックモデリングが開発され得る。

ブロック３３０では、処理装置が、メッセージの１又は複数のトレンディング・トピックを検出する。メッセージのトレンディング・トピックは、反応の雲（ｒｅａｃｔｉｏｎｃｌｏｕｄ）、メッセージのハイライト、メッセージのグループ化、又は位置の重ね合わせ（ｏｖｅｒｌａｙ）などの、トレンディング・トピックの視覚化の構築のために使用される。ブロック３４０では、処理装置が、複数のメッセージに関するメッセージ列、及びトレンディング・トピックの視覚化を伴う講演者インターフェースを生成する。ここでは、メッセージ列内のメッセージに、メッセージのタイプに基づいてラベルが付される。

処理装置は、講演者の、聴講者によってメッセージ列に提示されたメッセージとの相互作用を追跡し、音声フィードを分析することができる。次いで、処理装置は、対応する相互作用又は一致するキーワードが検出されたかどうかに基づき、メッセージ列内のメッセージを調整する。講演者の追跡には、視線の追跡、動作の検出、音声コマンドなどを採用することができる。例示的実施態様では、処理装置は、ビデオセッションからの講演者の音声を追跡し、音声コンテンツに相関するトピックを伴うメッセージをハイライトする。一例では、処理装置は、メッセージ列からのメッセージの消失速度を制御するか、列内のメッセージをハイライトするか、メッセージが列に残るように促すか、列のメッセージをグループ化するか、又は列からメッセージを消すかするために、講演者インターフェースを適合させることができる。

図４は、例示的実施態様に係る、ライブプレゼンテーションの間のメッセージのキュレーションのためのフロー図４００である。ブロック４５０では、システムは、プレゼンテーションのためのビデオストリームを受信する。プレゼンテーションのビデオストリームは、ビデオセッションを開始し、視聴者からのチャットメッセージ及び反応を受信する講演者によって司会又は主催され得る。講演者が聴講者とビデオストリームを共有している（たとえば、送信している）時間の間、聴講者は、チャットメッセージ、支払い、ギフト、エモティコンなどを通して反応又は相互作用する。ビデオストリーム及びメッセージからのデータは、講演者がメッセージ列に完全に注意を向ける必要なしに、効率的に聴講者に応答するために、管理されたインターフェースにおいて講演者にキュレーションされたメッセージを提供するために分析される。

ブロック４６０では、システムが講演者のインターフェースとの相互作用を追跡する。追跡システム（たとえば、図２の追跡モジュール２３９）は、インターフェースの各部分に対する講演者の注意度を監視する。講演者の注意度は、インターフェース上へのメッセージの制御又は提供を調整するために使用され得る。例示的実施態様では、注意度の追跡は、頭部の追跡、視線追跡などを介して監視され得る。講演者は、様々な入力を使用してインターフェースと相互作用して、プレゼンテーションの間に気が散ることを最小にする。たとえば、講演者は、手持ち式のリモコン、動作認識、眼球運動でのコマンドなどを使用して、メッセージ及び／又はトピックと相互作用（たとえば、選択、ハイライト、却下、アーカイブなど）することができる。

例示的実施態様によれば、本システムは、音声認識とコンテンツの分析のために、講演者の音声チャネルのコンテンツを記録する。たとえば、講演者の音声チャネルは、記録の間、テキストのトランスクリプトに転写することができる。講演者の音声のトランスクリプトは、コンテンツの分析、トピックモデルの開発、及びトランスクリプトの一部に分類区分を割り当てるために、メッセージ・サポート・システムを介して処理され得る。転写された音声のスクリプトのうち、分類された部分は、ビデオ内の時間のアンカーに関連付けられ、それにより、プレゼンテーションが依然として進行中に、ビデオのトピックのトレンドを作成する。

最近分析された講演者の音声に関連付けられたトピック及び／又は分類区分は、メッセージ・サポート・システムによって使用され得る。たとえば、現在のトピック及び／又は分類区分は、この現在のトピック及び／又は分類区分に関連する視聴者からのメッセージをハイライトするために、検出され得る。メッセージ・サポート・システムは、聴講者のメッセージストリームのパターン検出及び分類のために、講演者のトピック及び／又は分類区分のデータを、重み付けされた入力として使用することができる。別の例示的実施態様によれば、講演者の音声のトランスクリプトは、以下にさらに詳細に記載するように、様々なトピック及び／又は、質問に対する答えへのリンクとともにビデオの概要を生成するために使用される。

ブロック４１０では、システムは、聴講者からのメッセージを受信する。ブロック４１５では、システムは、メッセージを分類する。ブロック４２０では、システムは、メッセージに分類区分でラベルを付す。例示的実施態様によれば、エンジンは、メッセージのタイプを分類するために、メッセージを分析する。たとえば、エンジンは、メッセージを挨拶、質問、確認、感謝などに分類することができる。たとえば、語彙パターン及び構文パターンの分析が、質問の検出のために採用され得る。これにより、言語の情報の処理のために、分類モデルがトレーニングされる。

ブロック４２５では、システムは、メッセージ内のキーワードを検出する。一実施態様では、語彙又は構文上の質問パターンが、特徴を検出し、分類モデルを構築するために使用される。マイニング及び学習プロセスは、トレーニングデータ、又は、動的に更新されたモデルに基づき、メッセージの経験的な評価を提供する人間の介入を必要としないように、完全に自動化され得る。このプロセスは、メッセージから顕著なパターンのセットを抽出して、分類区分に関連付けられた特徴を検出する。たとえば、メッセージのパターンは、質問に関連付けられた特徴を識別するために、検出される（たとえば、だれが、何を、どこで、なぜ、どうやってのキーワード、文の構造、疑問符など）。

システムは、語彙パターンを使用して、メッセージを分類する。たとえば、システムは、メッセージに対して語彙分析を実施して、文字列又はキーワードを、割り当てられた分類区分を伴うトークンに変換する。逐次的なパターン分析の例には、比較文の識別、誤文及び疑問文の検出が含まれ得る、構文パターンの例には、本明細書にさらに詳細に論じるように、構文の浅いパターン、マイニングされた連続的なトークン、パターンの長さ、マイニングされたトークンの頻度、トークンの距離、スピーチタグの部分、前後関係のスコア、信頼度スコアなどが含まれ得る。例示的実施態様には、逐次学習アルゴリズム（たとえば、条件付き確率場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ、ＣＲＦ）、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ、ＳＶＭ）など）による、パターンの抽出及び表示のための、可能性のあるサブツリー構造の分析、又は、構文解析ツリーの分割が含まれ得る。たとえば、本プロセスにより、正及び／又は負のパターンの分析に基づき、メッセージが分類される。

テキストの断片の分類区分を検出するための他の方法は、一般的な自然言語処理に基づく場合がある。ストリーミングセッションに特有の追加的な分類区分は、たとえばトピックモデルを使用して、徐々に生成され得る。たとえば、潜在的ディリクレ配分を使用して、データの類似の部分を関連付けるために、観察されていないグループによって説明される観察のセットに関する統計モデルを生成することができる。帰納的学習（たとえば、ベイズ推定、ギブスサンプリング、及び期待値伝播（ｅｘｐｅｃｔａｔｉｏｎｐｒｏｐａｇａｔｉｏｎ））を使用して、１組のトピックの分布、関連する単語の確率、各単語のトピック、各メッセージ又はセッションの特定のトピックの混合などを判定する。

各メッセージ内の、前後関係に関連する用語（たとえば、重要であるか特有の単語）もまた検出され、パターン分析に含まれる。例示的実施態様によれば、特有の用語は、コーパスに関連しているか、ストリーミング・ビデオ・セッションのメッセージに増加的に関連するフラグが付される。たとえば、本プロセスには、用語頻度−逆文書頻度のベクトル空間モデリング、及び、ＮＬＰに基づく高度なキーフレーズの検出方法が含まれ得る。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。

ブロック４３０では、システムは、メッセージとの相互作用を管理する。ブロック４３５では、システムは、メッセージの視覚化を制御する。ブロック４４０では、システムは、共通の分類区分を共有する複数のメッセージに関するグループメッセージを形成することができる。たとえば、挨拶メッセージとして分類された複数のメッセージ（たとえば、やあ、こんにちは、おはようございますなど）は、分類区分の趣旨を伝える単一のメッセージにグループ化され得る。たとえば、システムは、ある時間間隔の間、メッセージ列から受信された挨拶のメッセージをフィルタリングし、フィルタリングされた複数のメッセージを単一のメッセージに組み合わせることができる。

特定の分類区分からのメッセージのグループ化により、メッセージ列内のメッセージの量が低減され、講演者に対して注意を散漫させる要素が減少する。ミーティングが始まる際には、最初の数分の間に受信した挨拶すべてが、メッセージ列への表示が抑制され、一般化した挨拶及び補足情報（たとえば、ユーザ名、ユーザ位置、メッセージ提示のタイムスタンプ）を伴う、グループメッセージとして表示され得る。

ブロック４４３では、システムは、メッセージの表示時間を調整することができる。例示的実施態様では、システムは、メッセージがメッセージ列からより速やかに消えるように、消失速度を増大させること、及び、他のメッセージがスクリーン上により長く残るように、別のメッセージに関する消失速度を低減させることができる。ブロック４４５では、システムは、メッセージ内のキーワードをハイライトすることができる。

図５Ａ〜図５Ｃは、例示的実施態様に係る、例示的講演者インターフェースを示す図である。図５Ａは、例示的実施態様に係る、例示的講演者インターフェース５００を示す図である。講演者インターフェース５００は、メッセージ列５１０、ビデオ視聴者５０５、及び／又はトレンディング・トピックの視覚化５７５を含んでいる。講演者インターフェース５００は、提示されたメッセージを動的に制御して、メッセージ列への表示を調整することができる。メッセージ列５１０は、メッセージのテキストの分析及び講演者の活動の追跡に応じて、列内にメッセージを適応的に表示する。例示的実施態様では、メッセージ列５１０は、図２から図４を参照して記載したキュレーションプロセスに応じて管理されるとともに視覚的に調整される、メッセージの直線状のリストとすることができる。

各メッセージは、分析されるとともに、分類区分が割り当てられる。共通の分類区分は、講演者がメッセージの内容を読み、処理するのに時間を取られる前に、講演者にメッセージのタイプを速やかに知らせるために、分類区分ラベル（たとえば、アイコン、絵文字、色、シンボル、フォントなど）を使用して視覚化され得る。たとえば、ショッピングカートの分類区分アイコン５３０は、メッセージＱ２に付加することができる。メッセージの分類区分は、ビデオセッションの間、メッセージの視覚化の調整、及び、メッセージ活動の追跡をするために使用され得る。たとえば、メッセージの分類区分は、メッセージをグループ化するか組み合わせ、その分類区分からのメッセージが表示される頻度又は時間を変化させ、ビデオセッションの間に問われる質問を追跡するなどのために使用される。

トレンディング・トピックの視覚化５７５は、メッセージ内で論じられている、人気の分類又はトピックを講演者に伝えるために、分類区分ラベル（たとえば、アイコン、シンボル、エモティコンなど）を使用することができる。たとえば、トレンディング・トピックの視覚化５７５は、（たとえば量を示すために）分類区分アイコンのストリームを表示することができる。トレンディング・トピックの視覚化５７５により、聴講者の反応が講演者にリアルタイムで表示される。

たとえば、講演者が、聴講者にわかりにくいことを言った場合、トレンディング・トピックの視覚化５７５が、それに応じて、質問の量（たとえば、質問のアイコンとしての「＋」）が増大したか、殺到したことを（たとえば、すぐに）示す場合がある。トレンディング・トピックの視覚化５７５は、殺到しているか量が増えている場合、アイコン＋をより支配的に表示するように操作して調整することができる。たとえば、メッセージ列５１０は、他のメッセージに対するメッセージの古さに基づき、５１５でメッセージをフェードアウトさせることができる。新しいメッセージが表示されるとき、メッセージの量が閾値を超えると、より古いメッセージが列からフェードアウトするか、列のトップから下がっていく。

一例では、５２５におけるメッセージＱ１が、一定時間後か、多数のメッセージが提供された後に、メッセージ列５１０から見えなくなる場合がある。講演者インターフェース５００は、講演者を追跡し、インターフェースの制御を提供するための手段を含んでいる。たとえば、講演者は、手の動作か眼球運動によって質問を積極的に却下することができる。

一例では、メッセージ列５１０は、分類に対する講演者の注意度に基づき、メッセージをハイライトするか、メッセージの強調度合いを下げることができる。たとえば、講演者が、要求として分類されたメッセージ（たとえば、ショッピングカートのアイコンでラベルが付されている）を動的に取り下げた場合、メッセージ列５１０及びトレンディング・トピックの視覚化５７５は、その分類区分のメッセージの強調度合いを下げることができる（たとえば、Ｑ２、Ｑ６、Ｑ８など）。

メッセージ列５１０は、メッセージ又はビデオデータの分析に基づき、メッセージをハイライトすることができる（たとえば、Ｑ５５４５）。たとえば、列内のメッセージＱ５は、メッセージ内のキーワードがビデオセッションの音声フィード内のキーワードに一致することに応じて、ハイライトされ得る。音声ストリーム内のキーワード検出は、メッセージ列５１０からフィルタリングされたか除去されたメッセージを再び導入するためにも使用され得る。たとえば、講演者が、ＫＷ１を議論している場合、メッセージＱ５がハイライトされ得、ＫＷ３は、ＫＷ１に直接関連付けられたものと識別され得、ＫＷ３を含むメッセージＱ１２が、メッセージＱ５の次に表示されるように昇格され得る。このため、講演者の注意が、音声ストリームに関連したメッセージに向けられ、講演者がメッセージと相互作用することから、関連するメッセージが、講演者と聴講者との間の効率的な相互作用のために識別及び配置される。

図５Ｂは、例示的実施態様に係る、講演者インターフェース５００に関する例示的グループメッセージ５１１を示す図である。特定の分類区分からのメッセージのグループ化により、列内のメッセージの量を低減し、講演者に対して注意を散漫させる要素が減少する。インターフェースは、共通の分類区分を共有する複数のメッセージに関するグループメッセージを形成することができる。たとえば、複数の挨拶のメッセージ（たとえば、やあ、こんにちは、おはようございますなど）がある時間間隔の間に受信された場合、グループメッセージ５１１をメッセージ列５１０に表示することができる。メッセージ列５１０は、複数の挨拶のメッセージの表示を保留し、メッセージに関するキーワード又はフレーズ５１２を識別し、ユーザに関する補足情報を集め、グループメッセージ５１１を提供することができる。講演者には、速やかにレビューするために、情報の概要が提供され得る。たとえば、グループメッセージ５１１は、視聴者の位置を示し、挨拶のメッセージを提示した各位置における聴講者の規模を示す。講演者は、多くの聴講者と効率的に相互作用して、たとえば、関わっている聴講者に人気のセグメントを呼び出すことができる。

図５Ｃは、例示的実施態様に係る、講演者インターフェース５００に関する例示的メッセージトラッカ５１３を示す図である。講演者インターフェース５００は、特定の位置から来る大量のメッセージを通信するために、メッセージトラッカ５１３をも含むことができる。メッセージトラッカ５１３は、ポップアップウィンドウ、他のアドオンなどとして、トレンディング・トピックの視覚化５７５の一部として表示することができる。例示的メッセージトラッカ５１３では、講演者インターフェース５００は、聴講者に関する情報を要約して世界地図上に図でレイアウトする。講演者インターフェースには、聴講者の情報又はメッセージを要約するための様々な他の図による視覚化が含まれ得る。

図６Ａ及び図６Ｂは、例示的実施態様に係る、例示的講演者インターフェース６００を示す図である。図６Ａは、例示的実施態様に係る、例示的講演者インターフェース６００を示す図である。例示的講演者インターフェース６００では、メッセージ列６１０が、各メッセージの隣のバルーンとしての分類区分ラベルとともに表示されている。トレンディング・トピックの視覚化６１５には、メッセージのトレンディング・トピックを示すための、色が付されたハートのグループが含まれている。講演者インターフェース６００のビデオ視聴者区画６０５が聴講者にストリーミングされているビデオフィードを講演者に示す。

図６Ｂは、ストリーミングビデオと、その傍らにある聴講者の相互作用のためのメッセージインターフェースとを特徴とする、例示的ビデオ・コミュニケーション・プラットフォームを示している。視聴者の参加のための主な手段は、テキスト・チャット・インターフェースにコメント又は質問をタイプすることである。様々な時点において、ミーティングの進行役（たとえば、講演者）は、質問に気が付くか、気付いたことを知らせる場合がある。一般に、講演者は、最初に、参加者によってタイプされた質問を復唱するか読み取り、次いで、音声フィードを介して答えを続ける場合がある。チャットインターフェースを介して質問が提示された時間と、ビデオに応答が与えられた時間との間に、しばしば遅れが生じる。

図７〜図９を参照して論じたように、ビデオの各セグメントをウェブベースのミーティングからの質問とリンクさせる、ミーティングの概要を提供することによって、記録されたプレゼンテーションでの視聴者の経験が向上する。ミーティングの概要は、記録され、また、ミーティングが終わった後にミーティングを見ている視聴者によって容易にレビューされるために、情報の関連する部分を提供するように、再び呼び出されるか検索され得る。

図７は、例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図７００である。プロセス７００は、ハードウェア（回路、専用ロジックなど）、ソフトウェア（汎用コンピュータシステム又は専用の機械で動作するなど）、又はそれら両方の組合せを含む場合がある処理ロジックによって実施される。方法７００は、図１のキュレーションエンジン１１０によって実施され得る。プロセス７００が、キュレーションエンジンによって実施されるものとして以下に記載されるが、方法７００は、他の処理ロジックによって実施される場合もある。

方法７００は、質問に対処している可能性があるビデオ及び／又は音声のセグメントへの、質問の多様なリンクを通して、記録されたビデオの概要を作成することに関する。たとえば、方法７００は、時間的に分散された複数の質問を、ビデオを介しての大規模プレゼンテーション又はミーティングから、記録されたビデオの質問に対処しているセグメントへのリンク（たとえば、開始時間又は位置）を伴って識別するとともに要約することができる。たとえば、視聴者がテキスト・チャット・インターフェースで質問する大規模プレゼンテーション（オンラインのクラス、セミナーなど）では、講演者は、チャットの列からの質問にすぐに対処する場合があるが、対処しない場合もある。このため、ミーティングの記録されたバージョンを見る人々が、質問及びその関連付けられた答えを見つけることは、困難であり、時間がかかる。

例示的実施態様では、プロセス７００は、チャット／テキストフォーマットで問われている質問を検出し、話者が音声ファイル内で同一または類似の単語を使用した時間を識別し、講演者が質問をレビューしていることを示し、また、後続の音声をテキストに変換する。プロセス７００では、将来の視聴者のための所与のプレゼンテーションを伴う、容易にレビュー可能であるとともに誘導可能な、関連付けられた質問及び答えの概要が作成される。誘導可能な概要により、視聴者が、ビデオ内で論じられたトピックを拾い読みし、又は問合せをして、質問に関連するビデオのセグメントを特定することにより、時間を節約することができる。

ブロック７１０では、処理装置は、記録されたビデオに関連付けられた質問を識別する。ここで、記録されたビデオはビデオデータを含んでいる。例示的実施態様では、記録されたビデオに関連付けられた質問が、ビデオデータのメッセージ列から抽出される。たとえば、記録されたビデオからのチャットヒストリは、質問のメッセージタイプを有するメッセージを示す構文に関して構文解析され得る。

ブロック７２０では、処理装置は、ビデオデータを分析する。ビデオデータの分析には、ビデオデータの音声コンテンツ内のキーワードを検出することが含まれる。例示的実施態様では、ビデオデータの分析には、講演者の、メッセージ列との相互作用の追跡と、追跡に基づく信頼度スコアの調整とが含まれている。たとえば、ビデオコンテンツが、講演者が講演者インターフェースのチャット部分でレビューまたは相互作用をしていたことを示す場合、処理装置は、後続のビデオセグメントがチャット部分内の質問に対処している可能性があることを示す信頼度スコアを増加させることができる。例示的実施態様では、講演者のチャット部分（すなわち、メッセージ列）との相互作用の追跡には、視線の追跡、スクリーン上の活動の分析、動作の検出、又は音声同期が使用される。

いくつかの実施態様では、ビデオデータの分析により、音声のトランスクリプトに対する補助情報が追加され得る。たとえば、処理装置が、トランスクリプトの中に代名詞を識別した場合、トランスクリプト内の前のトピック、及び／又は、メッセージログからの１又は複数のメッセージが、質問に関連するコンテンツの識別の確度を向上させるために、この代名詞に関連付けられ得る。

ブロック７３０では、処理装置が、質問に対する１又は複数の答えのセグメントを判定する。例示的実施態様では、処理装置は、記録されたビデオ内の質問の時間を判定し、質問に続く、関連する単語を伴うセグメントを識別するために、質問の時間の後に生じたビデオデータを検索することができる。評価されている質問が、プレゼンテーションの視聴者によって生成されていることから（たとえば、オリジナルのプレゼンテーションの間に提示されたメッセージ）、質問の提示時間は、質問に対処するための、最初の検索ポイントとして使用され得る。

１又は複数のセグメントのいずれが質問に対処しているかを判定するために、処理装置は、メッセージ列、ビデオコンテンツ、音声コンテンツ、視聴者のフィードバック、又は、ビデオ若しくは音声のセグメントが質問に関連することを示す外部の他のデータ内の、他のメッセージを使用して、前後関係の分析を実施することができる。例示的実施態様では、前後関係の分析に、候補となるセグメントの、質問の時間に対する新しさ（たとえば、時間の近さ）、候補となるセグメントの、講演者によるメッセージ列での検出された相互作用に対する新しさ、記録されたビデオの視聴者からのフィードバック、又は、候補となるセグメントの質問に対する視覚コンテンツの関連性を使用することができる。

たとえば、ビデオコンテンツがプレゼンテーションのスライド（たとえば、ＰｏｗｅｒＰｏｉｎｔのスライド）の視覚情報を含むか、音声が配布資料のページ番号を示す場合、処理装置は、スライド又は配布資料からの情報を、講演者の音声のトランスクリプトと共に使用して、質問に対処するセグメントを示すことができる。ブロック７４０では、処理装置が、信頼度スコアを満足する１又は複数の答えのセグメントを選択する。たとえば、処理装置は、質問に関連付けられたビデオデータに基づいて質問に関する信頼度スコアを計算することができる。

ブロック７５０では、処理装置が、質問に対する、選択された１又は複数の答えのセグメントに対するリンクを形成する。このリンクは、ビデオの各セグメントに関する開始時間を含んでいる。リンクの始動により、質問に関連付けられた記録内のポイントにおける、記録されたビデオが提供される。質問は、セグメントに対する２つ以上のリンクに関連付けられる場合があり、また、処理装置は、前後関係の分析の観点による質問に対する関連性に基づいて、候補となるセグメントの順序リストを生成することができる。たとえば、質問に対処していると思われる候補となる複数のセグメントが閾値の個数だけ含まれる場合がある。いくつかの例では、記録内のポイントは、２つ以上の質問に関連付けられる場合がある。

ブロック７６０では、処理装置が、信頼度スコアの観点から順位付けされたリンクを伴う、質問に対する答えの概要を生成する。視聴者がリンクを始動すると、視聴者には、ビデオを最初から見直す必要なく、ビデオのセグメントが提供される。リンクは、テキストのリンク、組み込まれたビデオのプレイリストなどの形態とすることができる。

一実施態様では、処理装置は、質問を受信することに応じたポイントにおける、記録されたビデオのプレイバックを提供するための相互作用インターフェースを提供し得る。一実施態様では、処理装置は、順位付けされたリンクの１つに関連付けられたポイントにおける、記録されたビデオに対する字幕として、質問のテキストを挿入することができる。一実施態様では、視聴者がリンクを介してセグメントにアクセスした後に、処理装置は、答えの概要に記録されたリンクの順位付けを調整するために、リンクが質問に対処したかの、フィードバックを集めることができる（たとえば、いいね（ｌｉｋｅ）、承認（ｔｈｕｍｂｓｕｐ）、評価（ｒａｔｉｎｇ）、ユーザが生成したラベルなど）。

図８は、例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。本プロセスにより、質問からのキーワードが、トランスクリプトの一部分が関連すると示すとき、チャットメッセージとビデオのそのポイントとの間のリンクが生成される。候補となる答えのセグメントの順序リストは、質問に対する、推定された関連性に応じて配置され得る。ブロック８０５では、本システムにより、視覚情報、音声情報、及びメッセージ情報を分析するために、記録されたビデオのプレゼンテーションが処理される。

ブロック８１５では、システムは、プレゼンテーションからの音声フィードのテキストトランスクリプトを生成することができる。トランスクリプトには、ミーティングの間に議論された情報が含まれ得る。テキストベースの情報の検索及び自然言語処理のための方法が、トランスクリプトの処理のために使用され得る。ブロック８２０では、ミーティングの間の議論のためのトピックモデルを開発するために、トランスクリプトが使用される。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。

ブロック８２５では、本システムは、メッセージを分類し、質問を識別し、トピックでメッセージにラベルを付すために、メッセージログを参照する。例示的実施態様によれば、メッセージは、構文及びキーワードの分析に基づいて分類される。本システムは、ミーティングのトピックに関連付けられたキーワードのライブラリを生成することができる。例示的実施態様では、講演者が質問のいくつか、又はすべてを読んで、答えの前に前後関係を提供する場合に、トピックが、話されたトランスクリプトの内に現れる時間と比較して、チャットインターフェース内に質問が提出された時間を特定するのに近似的な単語のシーケンスマッチング技術が採用される。代替的なキーワード（たとえば、質問をしているユーザの名前）もまた、音声のトランスクリプトにおける、メッセージに対する関連する応答を識別するために使用することができる。

ブロック８３０では、本システムは、質問に関する、１又は複数の候補となるセグメントを識別し、ブロック８３５において、質問に関する候補となるセグメントの各々の関連性を判定し、また、ブロック８４０において、各セグメントに関する前後関係の分析の観点から、関連性の重み付けをすることができる。質問に関する１又は複数の候補となるセグメントを識別するために、システムは、キーワードの抽出及びキーワードのマッチングを使用して、質問と答えのペアを識別する。答えの検出は、質問又は関連するトピックに対処する、ビデオ又は音声の記録におけるセグメント又は始点の特定に関する。講演者が、最初に、参加者によってタイプされた質問を復唱するか読み取り、次いで、音声フィードを介して答えを続ける場合があることから、質問と答えのペアは、参加者からのメッセージのログと、講演者の音声のトランスクリプトとの比較によって判定することができる。

本システムは、前後関係に基づき、関連するセグメントの検索を制限することができる。たとえば、質問に対処するセグメントの検索は、ユーザによって最初に質問が提示された時間の後のビデオの部分に制限することができる。一例では、ビデオデータ、音声データ、及びメッセージのログは、各フォーマットのタイムスタンプに基づき、同時又は順次行うものとすることができる。ビデオフィードのスピーチの自動的なトランスクリプトは、検索品質を向上させるために、ベクトル空間の検索で使用することができる。質問に関する候補となるセグメントの各々の関連性は、ベクトル空間の分析から計算することができる。

ブロック８４０では、本システムは、各セグメントに関する前後関係の分析の観点から、関連性に重み付けすることができる。一実施態様では、前後関係の分析には、ビデオフィードにおける視覚情報からの、講演者の注意度の追跡を含むことができる。本システムは、ビデオにおいてリンクされた時間が所与の質問に正確に対応する確度を向上させるために、他の前後関係の手がかりを利用する。たとえば、講演者は、時間ｔにおいて、チャット内の質問を読み、次いで、時間ｔ＋ｘにおいて、その質問に応答することになると思われる。メッセージに一致するキーワードの音声検出の前の時間におけるメッセージを表示するインターフェースとの相互作用の視覚的な検出は、音声内のそのキーワードを伴うビデオの位置が、質問への対処に関連していることを示している。本システムは、ソフトウェアに基づく目の追跡技術と、マウス、ポインタ、動作、及びスクリーン検出とを採用して、リンクされる時間を、講演者がチャットインターフェースに参加していた時間にバイアスさせる。各メッセージ内の、前後関係に関連する用語（たとえば、重要であるか特有の単語）もまた、検出され、パターン分析に含まれる。例示的実施態様によれば、特有の用語は、コーパスに関連しているか、ストリーミング・ビデオ・セッションのメッセージに増加的に関連するフラグが付される。たとえば、本プロセスには、用語頻度−逆文書頻度のベクトル空間モデリング、及び、ＮＬＰに基づく高度なキーフレーズの検出方法が含まれ得る。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。

例示的実施態様では、ブロック８１０において、本システムがビデオフィードを分析して、記録されたストリーミングの間、講演者の相互作用を追跡する。ブロック８４５では、本システムは、候補となるセグメントに対応する講演者の相互作用が存在するかを判定することができる。対応する相互作用が視覚情報によって示されなかった場合、本システムは、信頼度の計算に基づいて、候補となるセグメントの順位付けに進むことができる。

対応する相互作用が存在すると判定された場合、本システムは、ブロック８４０において、前後関係の分析に基づいて候補となるセグメントをより関連性のあるものとして重み付けすることができる。たとえば、視覚情報は、チャットインターフェースに表示される１又は複数のメッセージに対応する、記録内の特定の時間におけるチャットインターフェースとの、講演者の相互作用を示すことができる。質問に関する候補となるセグメントが、相互作用の時点における質問を含んでいたチャットインターフェースとの、検出された相互作用に対応する場合、本システムは、視覚情報が、質問を含むメッセージと講演者が相互作用したことを示すことから、そのセグメントをより関連性があるものと重み付けする。

ブロック８５０では、本システムは、関連性の計算に基づき、候補となるセグメントを順位付けする。ブロック８５５では、本システムは、質問に関するビデオのセグメントを再生するためのリンクを形成する。リンクは、ミーティングの概要の一部として、様々なフォーマットで提供され得る。ミーティングの概要には、テキストベースの質問から、質問に対処するビデオのセグメントへのリンクを含めることができる。たとえば、ブロック８６０では、本システムは、ビデオのセグメントを再生するためのリンクを提供する。別の例では、ブロック８６５で、本システムは、そのセグメントにおけるビデオの字幕として、質問を挿入することができる。本システムは、リンクのためのセグメント（たとえば、時間ｔ）までキューが出されたビデオを提供すること、別々の質問と答えのインターフェースを生成すること、又は、質問に対する答えに対応する時間ｔまでビデオのプレイバックを移動させるために、視聴者がメッセージのログを介して操作することを可能にすることもできる。

ブロック８７０では、本システムは、視聴者に、セグメントが質問に答えているかを問い、システムは、ブロック８５０において、フィードバックを使用して、セグメントのランク、又は、セグメントに関する信頼度の計算を更新する。本システムは、視聴者からのフィードバックを集めて、繰返し、信頼度の計算を向上させるか、質問に関するリンクの順序リストを調整することができる。たとえば、ＭＯＯＣセッションをリプレイしている視聴者は、提供されたセグメントが質問に対処することに関連するかを示す（たとえば、投票する、スケーリングする、順位付けする）場合がある。視聴者のフィードバックに基づいて、更新された順序リストを他の視聴者が受信し、当該順序リストは、セグメントのいくつか、又はすべての順番を変更することができると共に、視聴者のフィードバックに基づいて順序リストからセグメントを除去することができるようにしてもよい。

例示的実施態様では、ブロック８０５、ブロック８１０、ブロック８１５、及びブロック８２０が、記録されたビデオのセッションの各々に関して実施され得る。ブロック８２５及びブロック８３０は、メッセージ列から検出された各質問に関して繰り返すことができる。ブロック８３５〜ブロック８６０は、質問に関して、候補となるセグメントのグループを処理するために繰り返すことができる。例示的実施態様（図示せず）によれば、ブロック８３０〜ブロック８６５は、ブロック８７０で受信された負のフィードバックの閾値に応じて、繰り返すことができる。

図９Ａ〜図９Ｃは、例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。図９Ａは、質問に対処する、記録されたビデオからのセグメントを特定するための、視聴者のためのメッセージインターフェースを示している。一実施態様では、記録されたビデオに関連付けられた質問は、記録されたビデオのプレイバックの間に視聴者から受領され得、また、メッセージ・サポート・システムは、ビデオデータからのメッセージのログを分析して、１又は複数のメッセージが、オリジナルのプレゼンテーションの間に問われた同様の質問を含んでいるかを判定することができる。たとえば、ビデオをリプレイしている視聴者は、トピック（たとえば、ネットワーク）に関する質問を提示することができ、処理装置は、メッセージのログを検索して、前に識別された質問がネットワークに関連するかを判定することができる。上述のように、処理装置は、信頼度スコアを計算して関連性を判定し、視聴者のフィードバックを集め、さらなる検索又は改善を実施して、質問に対処するセグメントを特定することができる。

図９Ｂは、ビデオの上に重ね合わせられる質問９２５を伴う例示的ビデオ・プレイバック・インターフェースを示している。キュレーションエンジンは、質問をビデオインターフェース内に、図のポップアップ、テキストの字幕、視覚的な重ね合わせなど、視覚化したものとして挿入することができる。たとえば、ビデオ・プレイバック・インターフェースは、プレイバックウィンドウ内、又はその外側に記述された字幕テキストを含み得る。別の例では、相互作用アイコンが、ビデオ内に挿入され、それにより、セグメントが開始した際に、視聴者が、相互作用して質問に対する答えの概要、答えの概要内の他のセグメントへのリンク、フィードバックオプションなどを表示することができるようになっている。

一実施態様では、ビデオ・プレイバック・インターフェースは、質問に対処するために、関連性の順序リストに従って、一連のビデオセグメントを提供することができる。たとえば、順序リスト内の第１のセグメントは、再生を開始し、第１のセグメントが終わった場合、又は視聴者が次のセグメントへ移動するように示した場合、順序リストの次のセグメントの再生をスタートすることができる。各セグメントとの視聴者の相互作用は、質問に対処するセグメントの信頼度を確認するためのフィードバックとして集めることができる。たとえば、視聴者が順序リストの次のセグメントにスキップすることを選択する前のプレイバック時間の量は、リストの順番を調整するために、追跡されるとともに比較され得る。たとえば、視聴者が第１のセグメントを３０秒、第２のセグメントを１０秒、そして第３のセグメントを３５秒見た場合、フィードバックは、第２のセグメントが第３のセグメントよりも関連性が低いことを示し得る。フィードバックは、リスト内の他のセグメントと比較して、あるセグメントがリプレイされた回数を追跡することもできる。あるセグメントを複数回リプレイすることにより、そのコンテンツの関連性が高いことが示され得る。フィードバックは、順序リストを再配置して、各セグメントをプレイリストの前又は後ろに移動するために使用され得る。複数の視聴者からのフィードバックは、合わせられて、リスト内のビデオセグメントの関連性又は関連していないことに関する推論を向上させることができる。

ビデオ・プレイバック・インターフェースは、オリジナルの記録における順番でリストからのセグメントを見るための制御をも含み得る。たとえば、各セグメントは、コンテンツが前のセグメントから構築されている一方で、不連続である場合がある。ビデオ・プレイバック・インターフェースは、質問に対処するものとして示された記録の中のもっとも先に現れるセグメントを提供し、ミーティングの概要内の質問に関連するものとして示されたビデオ内の後の位置まで自動的に飛ばすことができる。

図９Ｃは、ビデオセグメントへのリンクを伴って、トランスクリプト内に質問を挿入する、例示的なトランスクリプトのインターフェースを示している。たとえば、講演者が、メッセージ列からの質問に、この質問を繰り返すことなく対処する場合、トランスクリプトインターフェースは、９２５で挿入されたか、質問に対処するものとして判定されたポイント（たとえば、ビデオ内のある時間又は位置）において重ね合わせられた質問を含むことができる。挿入された質問には、音声のトランスクリプトにおけるポイントに対応する、ビデオセグメントを開始するためのリンクを含むことができる。したがって、視聴者は、音声のトランスクリプトインターフェースから関連するトピックに速やかに誘導され、又は当該トピックを速やかに発見し、トランスクリプト内のトピックである、対処された、参加者によって提示された質問をレビューし、ミーティングの間に表示される視覚及び音声コンテンツを消費するために、セグメントのビデオ再生に切り換えることができる。

図１０は、例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的サーバコンピュータ環境を示す図である。コンピュータ環境１０００におけるコンピュータ装置１００５は、１又は複数の処理ユニット、コア、又はプロセッサ１０１０、メモリ１０１５（たとえば、ＲＡＭ、ＲＯＭなど）、内部記憶装置１０２０（たとえば、磁気記憶装置、光学記憶装置、固体記憶装置、及び／若しくは有機記憶装置）、並びに／又は入出力インターフェース１０２５を含むことができる。これらの内の任意のものは、情報通信のために通信機構又はバス１０３０上に結合するか、コンピュータ装置１００５に組み込むことができる。

コンピュータ装置１００５は、通信するように入力／ユーザインターフェース１０３５及び出力装置／インターフェース１０４０に結合することができる。入力／ユーザインターフェース１０３５と出力装置／インターフェース１０４０とのいずれか一方又は両方は、有線又は無線インターフェースとすることができるか、取外し可能とすることができる。入力／ユーザインターフェース１０３５は、入力を提供するのに使用することができる任意の装置、構成要素、センサ、又は、物理若しくは仮想インターフェース（たとえば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソルコントロール、マイク、カメラ、点字、モーションセンサ、光学リーダなど）を含んでもよい。

出力装置／インターフェース１０４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的実施態様では、入力／ユーザインターフェース１０３５及び出力装置／インターフェース１０４０は、コンピュータ装置１００５に組み込むことができるか、物理的に結合することができる。他の例示的実施態様では、他のコンピュータ装置が、コンピュータ装置１００５に関して、入力／ユーザインターフェース１０３５及び出力装置／インターフェース１０４０として機能するか、入力／ユーザインターフェース１０３５及び出力装置／インターフェース１０４０の機能を提供する場合がある。

コンピュータ装置１００５の例には、限定ではないが、高度に移動性の装置（たとえば、スマートフォン、自動車及び他の機械の装置、人間又は動物に運ばれる装置など）、移動装置（たとえば、タブレット、ノート、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、並びに、移動用には設計されていない装置（たとえば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、１又は複数のプロセッサが内部に組み込まれ、かつ／又は結合されたテレビ、ラジオなど）が含まれ得る。

コンピュータ装置１００５は、同じ又は異なる構成の１又は複数のコンピュータ装置を含む、ネットワーク化された任意の数の構成要素、装置、及びシステムと通信するために、外部記憶装置１０４５及びネットワーク１０５０に（たとえば入出力インターフェース１０２５を介して）通信可能に結合することができる。コンピュータ装置１００５又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ（ｔｈｉｎｓｅｒｖｅｒ）、汎用機械、特定用途の機械、又はその他の装置として機能するか、サービスを提供するか、又は呼ばれる場合がある。

入出力インターフェース１０２５は、音声を介した、及び／又はデータネットワークを介した無線通信を促進する無線通信構成要素（図示せず）を含む場合がある。無線通信構成要素には、１又は複数のアンテナを伴うアンテナシステム、無線システム、ベースバンドシステム、又はこれらの任意の組合せが含まれ得る。無線周波数（ＲＦ）信号は、無線システムの管理下において、アンテナシステムによって無線で送信及び受信され得る。

入出力インターフェース１０２５は、限定ではないが、少なくとも、コンピュータ環境１０００において接続された構成要素、装置、及びネットワークすべてに情報を通信し、かつ／又はこれらから情報を通信するための、任意の通信若しくは入出力プロトコル、又は規格（たとえば、イーサネット（登録商標）、８０２．１１ｘ、ユニバーサル・システム・バス、ＷｉＭａｘ、モデム、セルラ・ネットワーク・プロトコルなど）を使用する有線及び／又は無線インターフェースを含み得る。ネットワーク１０５０は、任意のネットワーク又はネットワークの組合せ（たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、電話ネットワーク、セルラネットワーク、衛星ネットワークなど）とすることができる。

コンピュータ装置１００５は、一時的媒体及び非一時的媒体を含み、コンピュータで使用可能であるか、コンピュータで読取り可能な媒体を使用し、かつ／又は使用して通信することができる。一時的媒体には、伝送媒体（たとえば、金属ケーブル、光ファイバ）、信号、搬送波などが含まれる。非一時的媒体には、磁気媒体（たとえば、ディスク及びテープ）、光学媒体（たとえば、ＣＤＲＯＭ、デジタル・ビデオ・ディスク、ブルーレイディスク）、固体媒体（たとえば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体記憶装置）、並びに、他の不揮発性記憶装置又はメモリが含まれる。

コンピュータ装置１００５は、いくつかの例示的なコンピュータ環境において、技術、方法、アプリケーション、プロセス、又はコンピュータで実行可能な命令を実施するのに使用することができる。コンピュータで実行可能な命令は、一時的媒体から検索することができるか、非一時的媒体に記憶するか、検索することができる。実行可能な命令は、任意のプログラミング言語、スクリプト言語、及び機械言語（たとえば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）など）の１又は複数を元にすることができる。

プロセッサ（複数の場合もある）１０１０は、ネイティブであるか、又は仮想の環境で、任意のオペレーティングシステム（ＯＳ）（図示せず）の下で実行することができる。論理ユニット１０５５、アプリケーション・プログラミング・インターフェース（ＡＰＩ）ユニット１０６０、入力ユニット１０６５、出力ユニット１０７０、マルチメディアモジュール１０７５、講演者モジュール１０８０、及び／又は答えモジュール１０８５を含む、１又は複数のアプリケーションを展開することができる。たとえば、入力ユニット１０６５、マルチメディアモジュール１０７５、講演者モジュール１０８０、及び／又は答えモジュール１０８５は、図２から図９に示す１又は複数のプロセスを実装する場合がある。記載のユニット及び要素は、設計、機能、構成、又は実施態様を変更することができ、提供された記載には限定されない。

いくつかの例示的実施態様では、情報又は実施指示がＡＰＩユニット１０６０によって受信されると、情報又は実施指示は、１又は複数の他のユニット（たとえば、論理ユニット１０５５、出力ユニット１０７０、入力ユニット１０８０、入力ユニット１０６５、マルチメディアモジュール１０７５、講演者モジュール１０８０、及び／又は答えモジュール１０８５（たとえば、キュレーションエンジン、メッセージ・サポート・システムなど）に通信される場合がある。
入力ユニット１０６５は、ＡＰＩユニット１０６０を介して、ビデオ、ビデオデータ、音声フィード、メッセージなどを受信して、マルチメディアモジュール１０７５、講演者モジュール１０８０、及び／又は答えモジュール１０８５を介して、動的メッセージ列を、トレンディング・トピックの視覚化及び、記録されたビデオに関する答えの概要でキュレーションすることができる。ＡＰＩユニット１０６０を使用して、メッセージ・サポート・システム１０８５は、情報を分析して、トレンディング・トピックの視覚化による動的メッセージ列を伴うライブ・ストリーミング・ビデオのための講演者インターフェースの生成、及び、質問を、その質問に対処している、１又は複数の関連するセグメントにリンクさせる、記録されたビデオからの答えの概要の生成を識別することができる。

いくつかの例では、論理ユニット１０５５は、上述のいくつかの例示的実施態様において、各ユニット間で情報フローを制御し、ＡＰＩユニット１０６０、入力ユニット１０６５、出力ユニット１０７０、入力ユニット１０６５、マルチメディアモジュール１０７５、講演者モジュール１０８０、及び／又は答えモジュール１０８５によって提供されるサービスを指示するように構成され得る。たとえば、１又は複数のプロセス又は実施態様のフローは、論理ユニット１０５５単独か、ＡＰＩユニット１０６０との組合せによって制御される場合がある。

図１１は、例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的ネットワーク環境を示す図である。環境１１００には、装置１１０５〜１１５０が含まれており、各装置が、たとえばネットワーク１１６０を（たとえば、有線及び／又は無線接続により）介して少なくとも１つの他の装置に通信可能に接続されている。いくつかの装置は、１又は複数の記録装置１１３０及び１１４５に通信可能に接続され得る。

１又は複数の装置１１０５〜１１５０の例は、それぞれ、図１０に関して記載されたコンピュータ装置１００５であってもよい。装置１１０５〜１１５０は、限定ではないが、上述のような関連するウェブカメラとディスプレイを有するコンピュータ１１０５（たとえば、ラップトップ・コンピュータ・装置）と、モバイル装置１１１０（たとえば、スマートフォン又はタブレット）、テレビ１１１５、車両１１２０に関連付けられた装置、サーバコンピュータ１１２５、コンピュータ装置１１３５〜１１４０、記憶装置１１３０及び１１４５を含んでもよい。上述のように、ユーザのミーティング環境は変化する場合があり、オフィス環境に限定されない。

いくつかの実施態様では、装置１１０５〜１１２０、１１５０は、ビデオの視聴者又は講演者に関連付けられたユーザ装置と見なされる場合がある。装置１１２５〜８５０は、サービス（たとえば、上述の、図１〜図２を参照したビデオ搬送サービス、及び／又は、ビデオデータ、メッセージ・データ・テキスト、テキストの部分、イメージ、イメージの部分、音声、音声セグメント、ビデオ、ビデオのセグメント、及び／又はそれらに関する情報などの記録データ）に関連付けられた装置である場合がある。

詳細な説明のいくつかの部分は、コンピュータ内の演算のアルゴリズム及び象徴的な表示に関して与えられている。これらアルゴリズムの記載及び象徴的表示は、データ処理の当業者により、それらの技術革新の本質を他の当業者に伝えるために使用される手段である。アルゴリズムは、所望の最終状態又は結果に繋がる、規定の一連の演算である。例示的実施態様では、実施される演算は、実質的な結果を得るための実質的な量の物理的操作を必要としている。

特に別様に述べられていない限り、記載から明確であるように、本記載を通して、「受信（ｒｅｃｅｉｖｉｎｇ）」、「検出（ｄｅｔｅｃｔｉｎｇ）」、「判定（ｄｅｔｅｒｍｉｎｉｎｇ）」、「識別（ｉｄｅｎｔｉｆｙｉｎｇ）」、「分析（ａｎａｌｙｚｉｎｇ）」、「生成（ｇｅｎｅｒａｔｉｎｇ）」などの用語を利用する議論は、コンピュータシステムのレジスタ及びメモリ内の物理的（電子的）量として表示されるデータを、コンピュータシステムのメモリ若しくはレジスタ、又は、他の情報記憶、伝送、若しくは表示装置内の物理的量として同様に表示される他のデータに操作及び変換する、コンピュータシステム又は他の情報処理装置の動作及び処理を含み得ることを理解されたい。

例示的実施態様は、本明細書の演算を実施するための装置にも関する場合がある。この装置は、所望の目的のために特別に構成され得るか、又はこの装置は、選択的に起動されるか、１又は複数のコンピュータプログラムによって再構成される、１又は複数の汎用コンピュータを含み得る。そのようなコンピュータプログラムは、コンピュータ可読記録媒体又はコンピュータ可読信号媒体などの、コンピュータ可読媒体に記録され得る。

コンピュータ可読記録媒体は、限定ではないが、光学ディスク、磁気ディスク、リード・オンリ・メモリ、ランダム・アクセス・メモリ、固体装置及びドライブなどの有形媒体、又は、電子情報を記録するのに適切である、その他のタイプの有形若しくは無形媒体を伴ってもよい。コンピュータ可読信号媒体は、搬送波などの媒体を含んでもよい。本明細書に提供されるアルゴリズム及びディスプレイは、固有に、特定のコンピュータ又は他の装置に関連していない。コンピュータプログラムは、所望の実施態様の演算を実行する命令を伴う、純粋なソフトウェアの実施態様を伴うことができる。

様々な汎用システムが、本明細書の例に係るプログラム及びモジュールとともに使用され得るか、より特定の装置を構成して、所望の方法の演算を実施するのに好都合であることがわかる場合がある。さらに、例示的実施態様は、いずれの特定のプログラム言語を参照しても記載されていない。様々なプログラミング言語が、本明細書に記載の例示的実施態様の教示を実装するのに使用され得ることを理解されたい。プログラミング言語（複数の場合もある）の命令は、１又は複数の処理装置、たとえば、中央処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実施され得る。

当業者には既知であるように、上述の演算は、ハードウェア、ソフトウェア、又は、ソフトウェアとハードウェアとのいくつかの組合せによって実装され得る。例示的実施態様の様々な態様が、回路及び論理装置（ハードウェア）を使用して実装され得るが、他の態様は、プロセッサによって実施される場合、プロセッサに、本出願の実施態様を行うための方法を実行させる、機械読取り可能媒体に記録された命令（ソフトウェア）を使用して実装され得る。

さらに、本出願のいくつかの例示的実施態様は、ハードウェアのみによって実施され得るが、他の例示的実施態様は、ソフトウェアのみによって実施され得る。さらに、記載の様々な機能は、単一のユニット内で実行され得るか、任意の数の方法で、複数の構成要素にわたって広げられ得る。ソフトウェアによって実施される場合、本方法は、コンピュータ可読媒体に記憶された命令に基づき、汎用コンピュータなどのプロセッサによって実行され得る。所望である場合、命令は、圧縮及び／又は暗号化されたフォーマットで媒体に記憶することができる。

例示的実施態様は、従来技術に対する様々な差異及び利点を有する場合がある。たとえば、限定ではないが、従来技術に関して上述のように、ウェブページにＪａｖａＳｃｒｉｐｔ（登録商標）を備えるのとは対象的に、テキスト及びマウス（たとえば、ポインティング）の動作が、ビデオドキュメント内で検出されるとともに分析され得る。

さらに、本出願の他の実施態様は、本出願の教示の詳細及び実行を考慮することから、当業者には明らかになるであろう。記載の例示的実施態様の様々な態様及び／又は構成要素は、単一で、又は任意の組合せで使用してもよい。詳細及び例示的実施態様は、例としてのみ考慮されることが意図されており、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示されている。

Claims

プロセッサが、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、
前記１又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を含む、方法。
前記ビデオデータを分析することは、前記プロセッサが、前記ビデオデータの音声コンテンツ内のキーワードを検出することを含む、請求項１に記載の方法。
前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記ビデオデータを分析することがさらに、
前記プロセッサが、
講演者の前記ビデオデータの列との相互作用を追跡することと、
前記相互作用に基づき、前記信頼度スコアを調整することと、を含む、請求項１に記載の方法。
前記ビデオデータの列との前記相互作用を追跡することは、視線追跡、スクリーン上での動作の分析、動作の検出、及び音声同期の少なくとも１つを使用する、請求項３に記載の方法。
前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、
前記プロセッサが、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、
前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、
前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む、請求項１に記載の方法。
前記前後関係の分析は、
前記候補となるセグメントの、前記質問の時間に対する時間的近さと、
前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、
前記記録されたビデオの視聴者からのフィードバックと、
前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも１つの分析を含む、請求項５に記載の方法。
前記ビデオデータが、前記記録されたビデオからの音声コンテンツ又は視覚コンテンツのトランスクリプトである、請求項１に記載の方法。
前記プロセッサが、
前記トランスクリプト内の代名詞を識別することと、
前記代名詞を、前後関係の分析を使用して、前記トランスクリプト内の先行するトピック、又は、メッセージのログからのメッセージに関連付けることと、をさらに含む、請求項７に記載の方法。
前記プロセッサが、前記記録されたビデオに関連付けられた前記質問を前記ビデオデータの列から抽出するために、構文解析を実行することをさらに含む、請求項１に記載の方法。
記録されたビデオに関連付けられた前記質問が、記録されたビデオの再生の間に視聴者から受信され、前記方法がさらに、
前記プロセッサが、
前記ビデオデータからのメッセージのログを分析して、メッセージの信頼度スコアを満たす１又は複数のメッセージを判定することと、
前記判定されたメッセージに関連付けられた前記ビデオデータに基づいて前記質問に関する前記信頼度スコアを計算することと、を含む、請求項１に記載の方法。
前記プロセッサが、
前記順位付けされたリンクの１つに関連付けられている時点の前記記録されたビデオを提供することをさらに含む、請求項１に記載の方法。
前記プロセッサが、前記順位付けされたリンクの１つに関連付けられた位置における、前記記録されたビデオに対する字幕として、前記質問のテキストを挿入することをさらに含む、請求項１に記載の方法。
前記プロセッサが、相互作用インターフェースにより、前記質問の受信に対応する時点の前記記録されたビデオを再生することをさらに含む、請求項１に記載の方法。
前記プロセッサが、視聴者からのフィードバックに基づき、前記リンクの順位付けを調整することをさらに含む、請求項１に記載の方法。
メモリと、
前記メモリに動作可能に結合したプロセッサであって、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、
前記１又は複数の答えのビデオセグメントの各々へのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、
を実行するように構成されている、プロセッサと、を備えたシステム。
前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、
前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、
前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む、請求項１５に記載のシステム。
前記前後関係の分析は、
前記候補となるセグメントの、前記質問の前記時間に対する時間的近さと、
前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、
前記記録されたビデオの視聴者からのフィードバックと、
前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも１つの分析を含む、請求項１６に記載のシステム。
前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記プロセッサがさらに、前記ビデオデータを分析するために、
講演者の前記ビデオデータの列との相互作用を追跡し、
前記相互作用に基づき、前記信頼度スコアを調整する、請求項１５に記載のシステム。
プロセッサに、
ビデオデータを含む記録されたビデオに関連付けられた質問であって、前記ビデオデータの列から抽出される質問を識別することと、
前記記録されたビデオ内の前記質問の位置に基づいて、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することと、
前記１又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行させるプログラム。
前記信頼度スコアを満たす、前記質問に対する１又は複数の答えのビデオセグメントを判定することは、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、
前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、
前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む、請求項１９に記載のプログラム。