JP2021527969A - 音声およびビデオ・マルチメディアの修正および提示 - Google Patents

音声およびビデオ・マルチメディアの修正および提示 Download PDF

Info

Publication number
JP2021527969A
JP2021527969A JP2020557308A JP2020557308A JP2021527969A JP 2021527969 A JP2021527969 A JP 2021527969A JP 2020557308 A JP2020557308 A JP 2020557308A JP 2020557308 A JP2020557308 A JP 2020557308A JP 2021527969 A JP2021527969 A JP 2021527969A
Authority
JP
Japan
Prior art keywords
audio
video
video stream
processor
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020557308A
Other languages
English (en)
Other versions
JP7416718B2 (ja
Inventor
ホイットマン、トッド、ルッセル
ボウマン、アーロン
バスチアン、デイヴィッド
マクローリー、ニコラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021527969A publication Critical patent/JP2021527969A/ja
Application granted granted Critical
Publication of JP7416718B2 publication Critical patent/JP7416718B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • H04N19/427Display on the fly, e.g. simultaneous writing to and reading from decoding memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声およびビデオ・マルチメディアの修正および提示を改善する方法、システム、およびプログラムが、提供される。方法は、音声/ビデオ・ストリームを受信することと、オブジェクトに関する予測を生成するために音声/ビデオ・ストリームのオブジェクトを分析することと、を含む。成分分析コードが、音声/ビデオ・ストリームに関して実行され、オブジェクトは、音声/ビデオ・ストリームから除去されて、修正済み音声/ビデオ・ストリームが生成され、それによって音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件を減少させることをもたらす。修正済み音声/ビデオ・ストリームが、グラフィカル・ユーザ・インターフェースを介してユーザに提示される。

Description

本発明は、概して、音声およびビデオ・マルチメディアを修正する方法に関し、特に、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす、音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善する方法および関連システムに関する。
典型的には所与の一日の間に複数時間見られるブロードキャスト・ビデオ・ストリームは、周知のプロセスに関連している。同様に、モバイル・デバイスに関するインターネットの現在のアクセス可能性を伴うモバイル・デバイス市場の成長は、任意の時間に任意の場所についてマルチメディア・コンテンツに容易にアクセスすることを可能にする。現在の予測では、マルチメディア・コンテンツのレベルが、将来的に数百万テラバイトを超えて成長すると推定される。送信されている大量のデータを考慮するようにマルチメディアのサイズを減少させることに関して、現在多数の解決策が存在する。視覚的シーン全体を通してオブジェクトの動きに基づいて判断されるキャプチャまたはフレーム・レートに関連するプロセスは、より少量の帯域幅が利用される結果をもたらし得る。マルチメディア・データの移送中にネットワーク・リソースを割り当てること、または画像を圧縮することは、より高速のビデオ信号の送信を可能にし得る。同様に、動画内の画素を検出するプロセスは、ユーザがあるオブジェクトを見ることを可能にし得る。
しかしながら、前述した解決策は、マルチメディア・ストリームの送信のための不正確で複雑なシステムの使用を必要とし得る。さらに、前述した解決策は、より低速のデータ送信レートをもたらし得る。結果として、現在の解決策は、送信サイズ要件を減少させる有効な手段を含まない。
したがって、当技術分野において、マルチメディア・コンテンツを送信する有効な手段を可能にする必要性が存在する。
発明の第1の態様は、ハードウェア・デバイスのプロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、主要注目オブジェクトおよび非主要注目オブジェクトが、非主要注目オブジェクトに対する主要注目オブジェクトの移動を検出することによって関連する相互作用を判断するために識別されタグ付けされるように、プロセッサがR統計的回帰コードを実行することによって、音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために音声/ビデオ・ストリームのオブジェクトを分析することと、非主要注目オブジェクトに対する変更が主要注目オブジェクトに対する変更に基づいて予測されるように、プロセッサによって、特定期間に従って音声/ビデオ・ストリームの個々のフレームに関して各オブジェクトを解析するためのプロセスをもたらす、音声/ビデオ・ストリームに関する成分分析コードを実行することと、プロセッサによって実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、音声/ビデオ・ストリームからオブジェクトのうちのあるオブジェクトを除去することと、プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、修正済み音声/ビデオ・ストリームを提示することと、を含む、音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法を提供する。
発明のいくつかの実施形態は、追加オブジェクトがGUI内で元のオブジェクトよりも中心に位置すると判断するため、音声/ビデオ・ストリームの追加ビューを検索するため、追加オブジェクトを修正済み音声/ビデオ・ストリームに追加するため、およびGUIを介して追加オブジェクトを含む修正済み音声/ビデオ・ストリームを提示するための、プロセスをさらに提供する。これらの実施形態は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるために音声およびビデオ・フィードの主要成分を隔離するための有効な手段を有利に提供する。追加的に、本発明のこれらの実施形態は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを有利に可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
発明の第2の態様は、コンピュータ可読プログラム・コードを記憶するコンピュータ可読ハードウェア・ストレージ・デバイスを含む、コンピュータ・プログラム製品を提供し、コンピュータ可読プログラム・コードが、ハードウェア・デバイスのプロセッサによって実行されるときに音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法を実施するアルゴリズムを含み、方法が、プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、主要注目オブジェクトおよび非主要注目オブジェクトが、非主要注目オブジェクトに対する主要注目オブジェクトの移動を検出することによって関連する相互作用を判断するために識別されタグ付けされるように、プロセッサがR統計的回帰コードを実行することによって、音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために音声/ビデオ・ストリームのオブジェクトを分析することと、非主要注目オブジェクトに対する変更が主要注目オブジェクトに対する変更に基づいて予測されるように、プロセッサによって、特定期間に従って音声/ビデオ・ストリームの個々のフレームに関する各オブジェクトを解析するためのプロセスをもたらす、音声/ビデオ・ストリームに関する成分分析コードを実行することと、プロセッサによって実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、音声/ビデオ・ストリームからオブジェクトのうちのあるオブジェクトを除去することと、プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、修正済み音声/ビデオ・ストリームを提示することと、を含む。
発明のいくつかの実施形態は、追加オブジェクトがGUI内で元のオブジェクトよりも中心に位置すると判断するため、音声/ビデオ・ストリームの追加ビューを検索するため、追加オブジェクトを修正済み音声/ビデオ・ストリームに追加するため、およびGUIを介して追加オブジェクトを含む修正済み音声/ビデオ・ストリームを提示するための、プロセスをさらに提供する。これらの実施形態は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるために音声およびビデオ・フィードの主要成分を隔離するための有効な手段を有利に提供する。追加的に、本発明のこれらの実施形態は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを有利に可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
発明の第3の態様は、コンピュータ可読メモリ・ユニットに連結されたプロセッサを含むハードウェア・デバイスを提供し、メモリ・ユニットが、プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、主要注目オブジェクトおよび非主要注目オブジェクトが、非主要注目オブジェクトに対する主要注目オブジェクトの移動を検出することによって関連する相互作用を判断するために識別されタグ付けされるように、プロセッサがR統計的回帰コードを実行することによって、音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために音声/ビデオ・ストリームのオブジェクトを分析することと、非主要注目オブジェクトに対する変更が主要注目オブジェクトに対する変更に基づいて予測されるように、プロセッサによって、特定期間に従って音声/ビデオ・ストリームの個々のフレームに関する各オブジェクトを解析するためのプロセスをもたらす、音声/ビデオ・ストリームに関する成分分析コードを実行することと、プロセッサによって実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、音声/ビデオ・ストリームからオブジェクトのうちのあるオブジェクトを除去することと、プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、修正済み音声/ビデオ・ストリームを提示することと、を含む、音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法を、プロセッサによって実行されるときに実施する命令を含む。
発明のいくつかの実施形態は、追加オブジェクトがGUI内で元のオブジェクトよりも中心に位置すると判断するため、音声/ビデオ・ストリームの追加ビューを検索するため、追加オブジェクトを修正済み音声/ビデオ・ストリームに追加するため、およびGUIを介して追加オブジェクトを含む修正済み音声/ビデオ・ストリームを提示するための、プロセスをさらに提供する。これらの実施形態は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるために音声およびビデオ・フィードの主要成分を隔離するための有効な手段を有利に提供する。追加的に、これらの実施形態は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを有利に可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
発明の第4の態様は、ハードウェア・デバイスのプロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、プロセッサがR統計的回帰コードを実行することによって、音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために音声/ビデオ・ストリームの音声またはビデオ・オブジェクトを分析することと、プロセッサによって、音声/ビデオ・ストリームに関する成分分析コードを実行することと、プロセッサによって実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、オブジェクトの少なくとも1つの追加オブジェクトに関してオブジェクトのうちのあるオブジェクトを修正することと、プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、修正済み音声/ビデオ・ストリームを提示することと、を含む、音声およびビデオ・マルチメディア修正および提示改善方法を提供する。
発明のいくつかの実施形態は、ビデオ・オブジェクトを修正することが、オブジェクトのサイズを減少させること、オブジェクトのビューを不鮮明にすること、またはオブジェクトのビューを拡張することを含み得るような方法をさらに提供する。発明のさらなる態様は、音声オブジェクトを修正することが、オブジェクトの可聴レベルを上昇させることまたは低下させることを含み得るような方法を提供する。これらの実施形態は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるために音声およびビデオ・フィードの主要成分を隔離するための有効な手段を、有利に提供する。追加的に、本発明のこれらの実施形態は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを有利に可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
発明の第5の態様は、コンピュータ可読プログラム・コードを記憶するコンピュータ可読ハードウェア・ストレージ・デバイスを含む、コンピュータ・プログラム製品を提供し、コンピュータ可読プログラム・コードが、ハードウェア・デバイスのプロセッサによって実行されるときに音声およびビデオ・マルチメディア修正および提示改善方法を実施するアルゴリズムを含み、方法が、プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、プロセッサがR統計的回帰コードを実行することによって、音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために音声/ビデオ・ストリームの音声またはビデオ・オブジェクトを分析することと、プロセッサによって、音声/ビデオ・ストリームに関する成分分析コードを実行することと、プロセッサによって実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、オブジェクトの少なくとも1つの追加オブジェクトに関してオブジェクトのうちのあるオブジェクトを修正することと、プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、修正済み音声/ビデオ・ストリームを提示することと、を含む。
発明のいくつかの実施形態は、ビデオ・オブジェクトを修正することが、オブジェクトのサイズを減少させること、オブジェクトのビューを不鮮明にすること、またはオブジェクトのビューを拡張することを含み得るような方法をさらに提供する。発明のさらなる態様は、音声オブジェクトを修正することが、オブジェクトの可聴レベルを上昇させることまたは低下させることを含み得るような方法を提供する。これらの実施形態は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるために音声およびビデオ・フィードの主要成分を隔離するための有効な手段を有利に提供する。追加的に、本発明のこれらの実施形態は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを有利に可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
本発明は、ビデオ・ストリームを正確にブロードキャストすることが可能な簡単な方法および関連システムを有利に提供する。
本発明の実施形態による、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するシステムを示す。 本発明の実施形態による、音声およびビデオ・マルチメディア技術を改善するための、図1のシステムによって作動されるプロセス・フローを詳細化したアルゴリズムを示す。 本発明の実施形態による、音声およびビデオ・マルチメディア技術を改善するための、図2のプロセス・フローをさらに詳細化したアルゴリズムを示す。 本発明の実施形態による、図3のアルゴリズムに関する代替アルゴリズムを示す。 本発明の実施形態による、図1のソフトウェア/ハードウェア構造の内部構造図を示す。 本発明の実施形態による、修正済み音声/ビデオ・ストリームを提示するGUIの構造図を示す。 本発明の実施形態による、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するための、図1のシステムによって使用されるコンピュータ・システムを示す。 本発明の実施形態による、クラウド・コンピューティング環境を示す。 本発明の実施形態による、クラウド・コンピューティング環境によって提供される機能抽象レイヤのセットを示す。
図1は、本発明の実施形態による、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するためのシステム100を示す。現在のマルチメディア・コンテンツの激増は、マルチメディア・コンテンツのサイズを減少させることに関してより効率的な集中を必要とする。追加的に、ユーザの注意は、多種多様な選択に起因してマルチメディア・コンテンツに関する追加的な注目を必要とし得る。典型的なシステムは、現在、PCA変換にパラメータ化されるマルチチャネル音声のスケーラブル符号化を使用する。さらにシステムは、画像のシーケンスを疎な前景成分に分解し得る。分解された画像は、画像のシーケンスにおいて検出された動きに基づいて圧縮される。これに対して、システム100は、オブジェクトの依存関係を表すためにフレームの相互作用によってフレームを介してマルチメディア・コンテンツを検査する。追加的に、システム100は、密な視覚的領域をビデオ内に位置させるために視覚的シーンが分析されることを可能にし得る。システム100は、画像内の音声/ビデオ・オブジェクト間の相互作用に基づいて(マルチメディア・ストリーム内で)視覚的コア・アクションに対してユーザの注意を集中させるための有効な手段を提供する。追加的に、システム100は、ユーザがコア・オブジェクトの周囲の余分なオブジェクトではなく各音声/ビデオ・フレーム内の最高潮のアクションに集中するように、音声/ビデオ・オブジェクトの動きに基づいて意味的プルーニング・プロセスが実施されることを可能にし、近隣画素を平滑化することによってマルチメディア・ストリームのサイズを減少させるように構成され得る。
システム100は、以下のように、ビデオ表示に描かれたオブジェクトを修正するためのプロセスを可能にする。
(ストリーミング)マルチメディア表示のフレームは、マルチメディア表示の各ビデオ・フレーム内のオブジェクトのセットの検索のために解析される。これに応答して、デジタル意味タグが、各ビデオ・フレーム内の各オブジェクトに個々に適用される。意味タグは、オブジェクトの相対運動特性を記述する。タグは、ビデオ・フレーム内の中央に位置するオブジェクトに対して増加する重み値を用いて、かつ増加する相対運動の度合いに関して、修正され得る。(オブジェクトの)主要オブジェクトのセットは、オブジェクトに関連付けられた重み値に基づいて決定される。これに依って、主要オブジェクトのセットの外観が、オブジェクトのセット内の追加オブジェクトに対して修正される。オブジェクトの外観を修正することは、関連ビデオ・フレームから追加オブジェクトを除去することを含み得る。追加的に、背景画像は、関連ビデオ・フレームから除去された任意のオブジェクトを置換するために生成され得る。さらに、追加オブジェクトに対する変更は、主成分分析(PCA)コードの実行を介して予測され得る。
システム100は、表示された画像内の異なる音声/ビデオ・オブジェクトの相互作用に基づいて、ビデオ表示内のコア・アクションに関してユーザの注意を集中させるためにハードウェア/ソフトウェアを介して作動される探索特徴を可能にする。音声/ビデオ・オブジェクトは、主要オブジェクトに近接する画素を平滑化するためのプロセスを介して、主要オブジェクトの動きに基づいて意味的にプルーニングされる。追加的に、システム100は、各ビデオ・フレーム内のアクションの頂点に向かってユーザの注意を集中させるための手段を提供する。
図1のシステム100は、ネットワーク117を通して相互接続される、サーバ・ハードウェア・デバイス104(即ち、専用ハードウェア・デバイス)、マルチメディア・ハードウェア・デバイス105a...105n(即ち、特にモバイル・デバイス、PDAなどの専用ハードウェア・デバイス)、およびデータベース107(例えば、クラウド・ベース・システム)を含む。サーバ・データベース・システム104は、専用回路127(専用ソフトウェアを含み得る)、およびソフトウェア/ハードウェア構造121を含む。マルチメディア・ハードウェア・デバイス105a...105nは、各ユーザに提供される個人デバイスを含み得る。マルチメディア・ハードウェア・デバイス105a...105nは、Bluetoothまたは任意の種類のシステムへの接続性を提供することが可能な無線であってもよい。マルチメディア・ハードウェア・デバイス105a...105nは、専用回路125a...125n(専用ソフトウェアを含み得る)、音声/ビデオ検索デバイス132a...132n、音声/ビデオ・センサ110a...110n、ならびにコード112a...112n(統計的回帰コードおよび成分分析コードを含む)を含む。音声/ビデオ・センサ110a...110nは、特に、心拍数モニタ、血圧モニタ、温度センサ、脈拍数モニタ、超音波センサ、光センサ、ビデオ検索デバイス、音声検索デバイス、湿度センサなどを含む、任意の種類の内部または外部センサ(または生体センサ)を含み得る。サーバ・ハードウェア・デバイス104、マルチメディア・ハードウェア・デバイス105a...105n、およびデータベース107はそれぞれ、組み込み型デバイスを含み得る。組み込み型デバイスは、本明細書において、専用機能を実行するために特別に設計された(ケイパビリティ固定の、またはプログラマブル)コンピュータ・ハードウェアおよびソフトウェアの組合せを含む専用デバイスまたはコンピュータとして定義される。プログラマブル組み込み型コンピュータまたはデバイスは、専用プログラミング・インターフェースを含んでもよい。1つの実施形態において、サーバ・ハードウェア・デバイス104、マルチメディア・ハードウェア・デバイス105a...105n、およびデータベース107は、各々が、図1〜図9に関して説明されるプロセスを(独立して、または組み合わせて)実行するための、専用(汎用ではない)ハードウェアおよび回路(即ち、専用の個別非汎用アナログ、デジタル、およびロジック・ベース回路)を含む専用ハードウェア・デバイスを含み得る。専用の個別非汎用アナログ、デジタル、およびロジック・ベース回路は、独自の専用設計されたコンポーネント(例えば、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす、音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するための自動プロセスを実施するためだけに設計された、特定用途向け集積回路(ASIC)などの専用集積回路)を含み得る。音声/ビデオ検索デバイス132a...132nは、特にカメラ、ビデオ・カメラ、スチール・ショット・カメラ、マイクロフォンなどを含む、任意の種類の音声/ビデオ・デバイスを含み得る。ネットワーク117は、特に、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、ワイヤレス・ネットワークなどを含む任意の種類のネットワークを含み得る。代替的に、ネットワーク117は、アプリケーション・プログラミング・インターフェース(API)を含み得る。
システム100は、以下のビデオ・オブジェクト・ベースの機能を提供するためのハードウェア/ソフトウェア・モジュールを含む。
1.どのビデオ・フレームが互いに相互作用しているかを判断するために時間に対してフレーム・ベースの相互作用表現を生成するために、各ビデオ・フレーム内のビデオ・オブジェクトの画像を解析すること。
2.意味タグが追加ビデオ・オブジェクトに対するビデオ・オブジェクトの動きを記述するために使用され得るかどうかを判断するために、各ビデオ・オブジェクトについての意味タグを判断すること。
3.GUIのディスプレイに対して中心に位置するビデオ・オブジェクトに関連する意味的動作重みを拡散すること。
4.中心性および意味的動作重みの組合せに基づいて主要画像を判断すること。
5.主要ビデオ・オブジェクトの変更に基づいて非主要ビデオ・オブジェクトに対する変更を予測するための主成分分析(PCA)の使用。
6.ビデオ・オブジェクトがコア・アクションに追加される場合に、ビデオ・オブジェクトおよびサウンドをプルーニングすること、ならびにマルチメディア・ビデオ・ストリームからのビデオ・オブジェクトに基づいて新たな背景ビデオ・オブジェクトを追加カメラ角度または近接画素から補間すること。
図2は、本発明の実施形態による、音声およびビデオ・マルチメディア技術を改善するための、図1のシステム100によって作動されるプロセス・フローを詳細化したアルゴリズムを示す。図2のアルゴリズム内の各ステップは、コンピュータ・コードを実行するコンピュータ・プロセッサによって、任意の順序で作動され、実行され得る。追加的に、図2のアルゴリズム内の各ステップは、サーバ・ハードウェア・デバイス104およびマルチメディア・ハードウェア・デバイス105a...105nにより組み合わせて作動され、実行され得る。ステップ200において、音声ビデオ入力ストリームが、特にデータベース、ファイル・システム、クラウド・ベース・ストレージ・システムなどを含む、複数のソースから受信される。ステップ202において、音声ビデオ入力ストリームが、分析される。分析は、関連する主要音声/ビデオ・オブジェクト成分を識別し、タグ付けすることを含み得る。ステップ204において、音声ビデオ入力ストリームは、R二乗統計的回帰プロセスを介してさらに分析される。R二乗統計的回帰プロセスは、適合される回帰直線(例えば、判断の係数)に(ビデオ)データがどのくらい近いかの統計的測定値として本明細書では定義されている。したがって、R二乗統計的回帰プロセスは、R二乗=説明された変数/合計変数などの線形モデルによって定義される応答可変変量のパーセンテージを含む。R二乗統計的回帰プロセスは、周囲の非主要音声/ビデオ・オブジェクト成分に対して追跡する主要音声/ビデオ・オブジェクト成分の移動および音声/ビデオ・ストリーム・フレーム間の関連する相互作用を予測するために実行される。ステップ208において、主成分分析コードは、音声/ビデオ・ストリームをセグメント化するために適用されて、その結果主要音声/ビデオ・オブジェクト成分が鮮明な、明瞭な、または可聴構造、あるいはそれらの組合せとして提示されることをもたらす。同様に、全ての非主要音声/ビデオ・オブジェクト成分が、不鮮明な、プルーニングされた、または非可聴構造である。ステップ210において、(ステップ208に基づく)修正された結果の音声/ビデオ・ストリームが、(出力デバイスを介して)提示され、または(ローカル・データ・ストレージに)記憶され、あるいはその両方が行われ、ステップ200が繰り返される。
図3は、本発明の実施形態による、音声およびビデオ・マルチメディア技術を改善するための、図2のプロセス・フローをさらに詳細化したアルゴリズムを示す。図3のアルゴリズム内の各ステップは、コンピュータ・コードを実行するコンピュータ・プロセッサによって、任意の順序で作動され、実行され得る。追加的に、図3のアルゴリズム内の各ステップは、サーバ・ハードウェア・デバイス104およびマルチメディア・ハードウェア・デバイス105a...105nにより組み合わせて作動され、実行され得る。ステップ300において、音声/ビデオ・ストリームが、ローカル・ソースまたはリモート・ソースから(マルチメディア・デバイスによって)受信される。ステップ302において、音声/ビデオ・ストリームの(音声またはビデオあるいはその両方の)オブジェクトが、R二乗(R)統計的回帰コードの実行を介して分析される。分析は、音声/ビデオ・ストリームのオブジェクトに関する予測の生成をもたらす。音声/ビデオ・ストリームのオブジェクトを分析することは、以下を含み得る。
1.オブジェクトの主要注目オブジェクトを識別すること。
2.オブジェクトの非主要注目オブジェクトを識別すること。
3.主要注目オブジェクトおよび非主要注目オブジェクトにタグ付けすること。
4.音声/ビデオ・ストリームの個々のフレームに関する主要注目オブジェクトおよび非主要注目オブジェクト間の相互作用を(タグ付けの結果に基づいて)判断すること。相互作用を判断することは、個々のフレーム内の非主要注目オブジェクトに対する主要注目オブジェクトの移動を検出することを含み得る。
ステップ304において、成分分析コードが、音声/ビデオ・ストリームに関して実行される。ステップ304の実行は、特定期間に従って音声/ビデオ・ストリームの個々のフレームに関してオブジェクトのそれぞれを解析するためのプロセスをもたらし得る。ステップ304の実行は、以下を含み得る。
1.主要注目オブジェクトを識別すること。
2.非主要注目オブジェクトを識別すること。
3.主要注目オブジェクトと非主要注目オブジェクトとの間の相互作用を判断すること。
4.主要注目オブジェクトに対する変更に基づいて非主要注目オブジェクトに対する変更を予測すること。
ステップ308において、オブジェクトが、(ステップ304の結果に基づいて)音声/ビデオ・ストリームから除去されて、修正済み音声/ビデオ・ストリームが生成されることをもたらす。修正済み音声/ビデオ・ストリームは、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少される結果をもたらす。オブジェクトを除去することは、ステップ302の判断された相互作用に基づいて実行され得る。オブジェクトを除去することは、主要注目オブジェクトの方にユーザの注目が向けられることをもたらし得る。ステップ310において、修正済み音声/ビデオ・ストリームが、グラフィカル・ユーザ・インターフェース(GUI)を介して提示される。ステップ312において、修正済み音声/ビデオ・ストリームが、遠隔に位置するデータベース内に記憶される。ステップ314において、オブジェクトのうちの追加オブジェクトが、GUI内で元のオブジェクトよりも中心に位置すると判断される。ステップ317において、音声/ビデオ・ストリームの追加ビューが、ローカル・ソースまたはリモート・ソースから検索される。ステップ318において、追加オブジェクトが、修正済み音声/ビデオ・ストリームに追加される。ステップ320において、追加オブジェクトを含む修正済み音声/ビデオ・ストリームが、GUIを介して提示される。
図4は、本発明の実施形態による、図3のアルゴリズムに関する代替アルゴリズムを示す。図4のアルゴリズム内の各ステップは、コンピュータ・コードを実行するコンピュータ・プロセッサによって、任意の順序で作動され、実行され得る。追加的に、図4のアルゴリズム内の各ステップは、サーバ・ハードウェア・デバイス104およびマルチメディア・ハードウェア・デバイス105a...105nにより組み合わせて作動され、実行され得る。ステップ400において、音声/ビデオ・ストリームが、ローカル・ソースまたはリモート・ソースから(マルチメディア・デバイスによって)受信される。ステップ402において、音声/ビデオ・ストリームの(音声またはビデオあるいはその両方の)オブジェクトが、R二乗(R)統計的回帰コードの実行を介して分析される。分析は、音声/ビデオ・ストリームのオブジェクトに関する予測の生成をもたらす。ステップ404において、成分分析コードが、音声/ビデオ・ストリームに関して実行される。ステップ404の実行は、特定期間に従って音声/ビデオ・ストリームの個々のフレームに関してオブジェクトのそれぞれを解析するためのプロセスをもたらし得る。ステップ408において、オブジェクトが、(ステップ404の実行に応答して)少なくとも1つの追加オブジェクトに関して修正されて、修正済み音声/ビデオ・ストリームが生成されることをもたらす。修正済み音声/ビデオ・ストリームは、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少される結果をもたらす。ビデオ・オブジェクトを修正することは、以下を含み得る。
1.少なくとも1つの追加ビデオ・オブジェクトに関してオブジェクトのサイズを減少させること。
2.少なくとも1つの追加ビデオ・オブジェクトに関してオブジェクトのビューを不鮮明にすること。
3.少なくとも1つの追加ビデオ・オブジェクトに関してオブジェクトのビューを拡張すること。
音声オブジェクトを修正することは、以下を含み得る。
1.少なくとも1つの追加音声オブジェクトに関してオブジェクトの可聴レベルを低下させること。
2.少なくとも1つの追加音声オブジェクトに関してオブジェクトの可聴レベルを上昇させること。
ステップ410において、修正済み音声/ビデオ・ストリームが、グラフィカル・ユーザ・インターフェース(GUI)を介して提示される。ステップ412において、修正済み音声/ビデオ・ストリームが、遠隔に位置するデータベース内に記憶される。
図5は、本発明の実施形態による、図1のソフトウェア/ハードウェア構造121の内部構造図を示す。ソフトウェア/ハードウェア構造121は、音声/ビデオ(A/V)センサ・インターフェース・モジュール504、A/V制御モジュール510、分析モジュール508、コード生成モジュール514、および通信コントローラ502を含む。A/Vセンサ・インターフェース・モジュール504は、図1の音声/ビデオ・センサ110a...110nに関する全ての機能を制御するための専用ハードウェアおよびソフトウェアを含む。A/V制御モジュール510は、音声/ビデオ・ストリームを検索するため、および図2〜図4のアルゴリズムに関して説明されるプロセスを実施するために、音声ビデオ検索デバイス132a...132nに関する全ての機能を制御するための専用ハードウェアおよびソフトウェアを含む。分析モジュール508は、マルチメディア・ストリームの音声/ビデオ・オブジェクトの除去または修正のためにR二乗回帰分析および成分分析に関する全ての機能を制御するための専用ハードウェアおよびソフトウェアを含む。コード生成モジュール514は、R二乗統計的回帰コードまたは成分分析コードあるいはその両方を生成することまたは修正することに関する全ての機能を制御するための専用ハードウェアおよびソフトウェアを含む。通信コントローラ502は、A/Vセンサ・インターフェース・モジュール504、A/V制御モジュール310、分析モジュール508、およびコード生成モジュール514の間の全ての通信を制御するために作動される。
図6は、本発明の実施形態による、修正済み音声/ビデオ・ストリームを提示するGUI600の構造図を示す。GUI600は、メイン・ビューイング部分600a、A/Vストリームから平滑化され、またはプルーニングされた第1の非注目オブジェクトを含む第1のストリーミングされた音声/ビデオ部分600b、A/Vストリームから平滑化され、またはプルーニングされた第2の(およびそれより小さい)非注目オブジェクトを含む第2のストリーミングされた音声/ビデオ部分600c、ならびに単一の主要(音声もしくはビデオまたはその両方の)オブジェクトあるいは複数の関連する主要(音声もしくはビデオまたはその両方の)オブジェクトを含み得る主要注目オブジェクト602を含む。GUI600は、ライブ・ビデオ・カメラ・フィードをセグメント化するため、およびストリーミングされている可視領域全体の部分的ビューを提示するためのプロセスを介して生成される一方で、残りの可視領域が、予測対象およびカメラ移動について分析される。ストリーミングされているオブジェクトは、主要重要オブジェクトへの可能な遷移を判断するためにタグ付けされ、モニタリングされている。主要オブジェクトの移動を検出することによって、他のオブジェクトがA/Vストリームからプルーニングされる(例えば、除去される)ことが可能となる。同様に、非主要オブジェクトの移動が、主要オブジェクトの移動に基づいて予測される。例えば、監視ビデオのストリームを見直すためのプロセスに関して、ビデオ・ストリームの必須の成分は、人々の移動に関連する画像をビデオ・ストリーム内に含むこともできる。同様に、ビデオの非必須成分は、動物の移動に関連する画像をビデオ・ストリーム内に含むこともできる。したがって、監視ビデオを見直すユーザが彼/彼女の注意をビデオ内の人々に集中させるように、ビデオ・ストリーム内の動物の移動の画像が、監視ビデオからプルーニングされ、または不鮮明にされてもよく、それによって、ユーザは、対処しなければならない問題があるかどうかを判断することがより良く可能となる。追加的な例は、モバイル・デバイスによってアクセス可能な限られた帯域幅に関連するシナリオを含むこともできる。したがって、任意の非必須音声、ビデオ、またはデータ・オブジェクトが、データ・ストリームから除去されてもよく、それによって、データ・ストリームのコンテンツの必須部分を保持しつつ、データ・ストリームが消費し得る帯域幅がより小さくなる。
GUI600は、予測された主要な対象もしくは複数の主要な対象を有する(データ・ストリームの)ストリーミングされたライブ・フレームまたは関連アクションを実施するカメラ内の識別された非必須かつ非主要可視オブジェクトをディザリングする/平滑化する/プルーニングするためのプロセスを可能にする。したがって、ライブ・ビデオ・ストリームの送信データ・ボリューム減少が、単一または複数対象のハイライトを保持しつつ達成される。同様に、ストレージ・ボリューム減少が、ライブ・ビデオ・フィード・キャプチャから達成され、結果として生じるビデオが、より少ない全体ストレージ空間を必要とし、ポスト処理の必要性が低下する。
図7は、本発明の実施形態による、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するための、図1のシステムによって使用され、または含まれるコンピュータ・システム90(例えば、図1のマルチメディア・ハードウェア105a...105nまたはサーバ・ハードウェア・デバイス104あるいはその両方)を示す。
本発明の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または本明細書で「回路」、「モジュール」、もしくは「システム」と全て概して呼ばれ得るソフトウェアおよびハードウェア態様を組み合わせた実施形態の形態を取ってもよい。
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含んでもよい。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチカードまたはその上に記録された命令を有する溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組合せを含む。本明細書で用いられるコンピュータ可読記憶媒体は、本来、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を通って送信される電気信号などの、一過性信号であると解釈されるべきではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを含むこともできる。各コンピューティング/処理装置内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内の記憶用にコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的に、かつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを通して、ユーザのコンピュータに接続されてもよい。あるいは、接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。
本発明の態様は、発明の実施形態による、方法、デバイス(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。
コンピュータまたは他のプログラマブル・データ処理デバイスのプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する手段を作成するように、これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造するための他のプログラマブル・データ処理デバイスのプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理デバイス、または他のデバイス、あるいはその組合せが特定の方法で機能するように指示し得る、コンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ、他のプログラマブル・デバイス、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ実施されたプロセスを生成するために一連の動作ステップをコンピュータ、他のプログラマブル・デバイス、または他のデバイス上で実行させるために、コンピュータ、他のプログラマブル・データ処理デバイス、または他のデバイス上にロードされてもよい。
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を例示する。この点に関して、フローチャートまたはブロック図の各ブロックは、指定されたロジック機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的な実施において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。
図7に示されるコンピュータ・システム90は、プロセッサ91、プロセッサ91に連結された入力デバイス92、プロセッサ91に連結された出力デバイス93、ならびにプロセッサ91に各々が連結されたメモリ・デバイス94および95を含む。入力デバイス92は、特に、キーボード、マウス、カメラ、タッチスクリーンなどであってもよい。出力デバイス93は、特に、プリンタ、プロッタ、コンピュータ・スクリーン、磁気テープ、リムーバブル・ハード・ディスク、フロッピー(R)・ディスクなどであってもよい。メモリ・デバイス94および95は、特に、ハード・ディスク、フロッピー(R)・ディスク、磁気テープ、コンパクト・ディスク(CD)またはデジタル・ビデオ・ディスク(DVD)などの光学ストレージ、ダイナミック・ランダム・アクセス・メモリ(DRAM)、読み出し専用メモリ(ROM)などであってもよい。メモリ・デバイス95は、コンピュータ・コード97を含む。コンピュータ・コード97は、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するためのアルゴリズム(例えば、図2〜図4のアルゴリズム)を含む。プロセッサ91は、コンピュータ・コード97を実行する。メモリ・デバイス94は、入力データ96を含む。入力データ96は、コンピュータ・コード97により必要な入力を含む。出力デバイス93は、コンピュータ・コード97からの出力を表示する。メモリ・デバイス94および95のいずれかもしくは両方(または、読み出し専用メモリ・デバイス96などの1つもしくは複数の追加メモリ・デバイス)は、アルゴリズム(例えば、図2〜4のアルゴリズム)を含んでもよく、そこに具現化されたコンピュータ可読プログラム・コードを有する、またはそこに記憶された他のデータを有する、あるいはその両方であるコンピュータ使用可能媒体(または、コンピュータ可読媒体もしくはプログラム・ストレージ・デバイス)として使用されてもよい。コンピュータ可読プログラム・コードは、コンピュータ・コード97を含む。概して、コンピュータ・システム90のコンピュータ・プログラム製品(または代替的には、製品)は、コンピュータ使用可能媒体(または、プログラム・ストレージ・デバイス)を含むこともできる。
いくつかの実施形態では、ハード・ドライブ、光学ディスク、または他の書き込み可能、書き換え可能、もしくはリムーバブル・ハードウェア・メモリ・デバイス95から記憶およびアクセスされるのではなく、記憶されたコンピュータ・プログラム・コード84(例えば、アルゴリズムを含む)は、読み出し専用メモリ(ROM)デバイス85などの静的非リムーバブル読み出し専用記憶媒体上に記憶されてもよく、またはそのような静的非リムーバブル読み出し専用媒体85から直接プロセッサ91によってアクセスされてもよい。同様に、いくつかの実施形態において、記憶されたコンピュータ・プログラム・コード97は、コンピュータ可読ファームウェア85として記憶されてもよく、またはハード・ドライブもしくは光学ディスクなどの、より動的なもしくはリムーバブルなハードウェア・データ記憶デバイス95からではなく、そのようなファームウェア85から直接プロセッサ91によってアクセスされてもよい。
さらに、本発明のコンポーネントのうちのいずれかが、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するように提案するサービス供給者によって、生成され、統合され、ホストされ、維持され、配備され、管理され、サービスされるなどであり得る。したがって、本発明は、コンピュータ可読コードをコンピュータ・システム90に統合することを含む、コンピューティング・インフラを配備し、生成し、統合し、ホストし、維持し、または統合し、あるいはそれらの組合せを行うためのプロセスを開示する。コンピュータ・システム90と組み合わせたコードが、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するためのプロセスを可能にする方法を実行することが可能である。別の実施形態において、発明は、予約購読、広告、または料金、あるいはその組合せ単位で、発明のプロセス・ステップを実行するビジネス方法を提供する。即ち、ソリューション・インテグレータなどのサービス供給者は、音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトのハードウェア・デバイス除去に関連する音声およびビデオ・マルチメディア技術を改善するためのプロセスを作動させるように提案し得る。この場合、サービス供給者は、1つまたは複数の顧客に対し発明のプロセス・ステップを実行するコンピュータ・インフラを生成し、維持し、サポートするなどし得る。これと引き換えに、サービス供給者は、予約購読もしくは料金またはその両方の合意のもとに顧客から支払いを受けることができ、あるいはサービス供給者は、1つまたは複数の第三者への広告コンテンツ販売から支払いを受けることができる。
図7は、ハードウェアおよびソフトウェアの特定の構成として、コンピュータ・システム90を示しているが、当業者には既知であるハードウェアおよびソフトウェアの任意の構成は、図7の特定のコンピュータ・システム90と併せて、上述した目的に使用されてもよい。例えば、メモリ・デバイス94および95は、別々のメモリ・デバイスではなく単一のメモリ・デバイスの一部であってもよい。
クラウド・コンピューティング環境
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙される教示の実施は、クラウド・コンピューティング環境に限定されないと理解されるべきである。むしろ、本発明の実施形態は、現在既知の、または今後に開発される任意の他の種類のコンピューティング環境と併せて実施されることが可能である。
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの配置モデルを含むこともできる。
特性は、以下の通りである。
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。
幅広いネットワーク・アクセス:ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通してアクセスされる。
リソースの共用:プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者は、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より抽象度の高いレベル(例えば、国、州、またはデータセンタ)において場所を指定することが可能であり得るという点において、位置独立の意味がある。
スピーディな拡張性:ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
サービスが計測可能であること:クラウド・システムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブなユーザ・アカウント)に適したある抽象度レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。
サービス・モデルは、以下の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティですら含む、基礎的なクラウド・インフラを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して生成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上に配備することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラを管理または制御しないが、配備されたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。
サービスとしてのインフラ(IaaS):消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを配備および実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、配備されたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
配置モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理されてもよく、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、組織または第三者によって管理されてもよく、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラは、一般公衆または大きい業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
ここで図8を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示するように、クラウド・コンピューティング環境50は、クラウド消費者によって使用されるローカル・コンピューティング・デバイス、例えば、携帯情報端末(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組合せが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信し得る。それらは、上述のようなプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組合せなどの、1つまたは複数のネットワーク内で物理的または仮想的にグループ化されてもよい(図示せず)。これによって、クラウド・コンピューティング環境50が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組合せを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。図5に示されるコンピューティング・デバイス54A、54B、54C、および54Nの種類は、単なる例示であるように意図され、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意の種類のネットワークまたはネットワーク・アドレス可能な接続あるいはその組合せを経て(例えば、ウェブ・ブラウザを用いて)、任意の種類のコンピュータ化デバイスと通信し得ると理解される。
ここで図9を参照すると、クラウド・コンピューティング環境50(図8を参照)によって提供される機能抽象レイヤのセットが示されている。図9に示されるコンポーネント、レイヤ、および機能は、単なる例示であるように意図され、発明の実施形態は、それらに限定されないと、予め理解されるべきである。図示するように、以下のレイヤおよび対応する機能が、提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は、仮想エンティティの以下の例、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る、抽象レイヤを提供する。
1つの例では、管理レイヤ80は、後述する機能を提供し得る。リソース供給81は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定82は、クラウド・コンピューティング環境内でリソースが利用されるときにコスト追跡を、これらのリソースの消費に対する課金または請求を提供する。1つの例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むこともできる。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクの本人確認を提供する。ユーザ・ポータル83は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
ワークロード・レイヤ89は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ分析処理94、トランザクション処理95、ならびに特定の可視データを提示するため、関連フィードバックを検索するため、および音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件の減少をもたらす音声/ビデオ・ストリームからのオブジェクトを除去するために複数ビデオ・ストリームを分析することに関連する表示生成および提示技術を改善するためのもの96を含む。
本発明の実施形態が、本明細書において例示の目的で説明されてきたが、多くの修正および変更が、当業者には明らかとなるであろう。したがって、添付の特許請求の範囲は、本発明の範囲内に入るものとしてそのような修正および変更の全てを包含するように意図される。

Claims (25)

  1. 音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法であって、
    ハードウェア・デバイスのプロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、
    前記プロセッサがR統計的回帰コードを実行することによって、前記音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために前記音声/ビデオ・ストリームの前記オブジェクトを分析することと、
    前記プロセッサによって、前記音声/ビデオ・ストリームに関する成分分析コードを実行することと、
    前記プロセッサによって前記実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果前記音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、前記音声/ビデオ・ストリームから前記オブジェクトのうちのあるオブジェクトを除去することと、
    前記プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、前記修正済み音声/ビデオ・ストリームを提示することと、
    を含む、方法。
  2. 前記音声/ビデオ・ストリームの前記オブジェクトを前記分析することが、
    前記オブジェクトの主要注目オブジェクトを識別することと、
    前記オブジェクトの非主要注目オブジェクトを識別することと、
    前記主要注目オブジェクトおよび前記非主要注目オブジェクトにタグ付けすることと、
    前記タグ付けの結果に基づいて、前記音声/ビデオ・ストリームの個々のフレームに関して前記主要注目オブジェクトと前記非主要注目オブジェクトとの間の相互作用を判断することであって、前記除去することが、前記相互作用に基づいて実行され、前記除去することが、ユーザの注目を前記主要注目オブジェクトに向けることをもたらす、前記判断することと、
    を含む、請求項1に記載の方法。
  3. 前記相互作用を前記判断することが、前記個々のフレーム内で前記非主要注目オブジェクトに関する前記主要注目オブジェクトの移動を検出することを含む、請求項2に記載の方法。
  4. 前記オブジェクトが、ビデオ・オブジェクトを含む、請求項1に記載の方法。
  5. 前記オブジェクトが、音声オブジェクトを含む、請求項1に記載の方法。
  6. 前記オブジェクトが、ビデオ・オブジェクトおよび関連する音声オブジェクトを含む、請求項1に記載の方法。
  7. 前記プロセッサによって遠隔に位置するデータベース内に、前記修正済み音声/ビデオ・ストリームを記憶することをさらに含む、請求項1に記載の方法。
  8. 前記音声/ビデオ・ストリームに関する前記成分分析コードを前記実行することが、特定期間に従って前記音声/ビデオ・ストリームの個々のフレームに関する前記オブジェクトのそれぞれを解析することをもたらす、請求項1に記載の方法。
  9. 前記プロセッサによって前記実行することに応答して、前記オブジェクトの追加オブジェクトが前記GUI内で前記オブジェクトよりも中心に位置すると判断することであって、前記除去することが、前記判断することの結果にさらに基づく、前記判断することをさらに含む、請求項1に記載の方法。
  10. 前記音声/ビデオ・ストリームに関する前記成分分析コードを前記実行することが、
    前記オブジェクトの主要注目オブジェクトを識別することと、
    前記オブジェクトの非主要注目オブジェクトを識別することと、
    前記主要注目オブジェクトと前記非主要注目オブジェクトとの間の相互作用を判断することと、
    前記主要注目オブジェクトに対する変更に基づいて前記非主要注目オブジェクトに対する変更を予測することと、
    を含む、請求項1に記載の方法。
  11. 前記プロセッサによって前記ローカル・ソースまたはリモート・ソースから、前記音声/ビデオ・ストリームの追加ビューを検索することと、
    前記プロセッサによって前記実行することに応答して、前記オブジェクトの追加オブジェクトを前記修正済み音声/ビデオ・ストリームに追加することと、
    前記プロセッサによって前記GUIを介して、前記追加オブジェクトを含む前記修正済み音声/ビデオ・ストリームを提示することと、
    をさらに含む、請求項1に記載の方法。
  12. 制御ハードウェアにおいてコンピュータ可読コードを生成すること、統合すること、ホストすること、維持すること、および配備することのうちの少なくとも1つのための少なくとも1つのサポート・サービスを提供することであって、前記コードが、前記受信すること、前記分析すること、前記実行すること、前記除去すること、および前記提示することを実施するために前記コンピュータ・プロセッサによって実行される、前記提供することをさらに含む、請求項1に記載の方法。
  13. コンピュータ可読プログラム・コードを記憶するコンピュータ可読ハードウェア・ストレージ・デバイスを含む、コンピュータ・プログラム製品であって、前記コンピュータ可読プログラム・コードが、ハードウェア・デバイスのプロセッサによって実行されるときに、音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法を実施するアルゴリズムを含み、前記方法が、
    前記プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、
    前記プロセッサがR統計的回帰コードを実行することによって、前記音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために前記音声/ビデオ・ストリームの前記オブジェクトを分析することと、
    前記プロセッサによって、前記音声/ビデオ・ストリームに関する成分分析コードを実行することと、
    前記プロセッサによって前記実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果前記音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、前記音声/ビデオ・ストリームから前記オブジェクトのうちのあるオブジェクトを除去することと、
    前記プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、前記修正済み音声/ビデオ・ストリームを提示することと、
    を含む、コンピュータ・プログラム製品。
  14. コンピュータ可読メモリ・ユニットに連結されたプロセッサを含むハードウェア・デバイスであって、前記メモリ・ユニットが、
    前記プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、
    前記プロセッサがR統計的回帰コードを実行することによって、前記音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために前記音声/ビデオ・ストリームの前記オブジェクトを分析することと、
    前記プロセッサによって、前記音声/ビデオ・ストリームに関する成分分析コードを実行することと、
    前記プロセッサによって前記実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果前記音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、前記音声/ビデオ・ストリームから前記オブジェクトのうちのあるオブジェクトを除去することと、
    前記プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、前記修正済み音声/ビデオ・ストリームを提示することと、
    を含む音声およびビデオ・マルチメディア部分除去に基づく修正および提示改善方法を、前記プロセッサによって実行されるときに実施する命令を含む、ハードウェア・デバイス。
  15. 音声およびビデオ・マルチメディア修正および提示改善方法であって、
    ハードウェア・デバイスのプロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、
    前記プロセッサがR統計的回帰コードを実行することによって、前記音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために前記音声/ビデオ・ストリームの前記オブジェクトを分析することと、
    前記プロセッサによって、前記音声/ビデオ・ストリームに関する成分分析コードを実行することと、
    前記プロセッサによって前記実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果前記音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、前記オブジェクトの少なくとも1つの追加オブジェクトに関して前記オブジェクトのうちのあるオブジェクトを修正することと、
    前記プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、前記修正済み音声/ビデオ・ストリームを提示することと、
    を含む、方法。
  16. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのサイズを減少させることを含む、請求項15に記載の方法。
  17. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのビューを不鮮明にすることを含む、請求項15に記載の方法。
  18. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのビューを拡張することを含む、請求項15に記載の方法。
  19. 前記オブジェクトが、音声オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加音声オブジェクトに関して、前記GUIを介して投影される前記オブジェクトの可聴レベルを低下させることを含む、請求項15に記載の方法。
  20. 前記オブジェクトが、音声オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加音声オブジェクトに関して、前記GUIを介して投影される前記オブジェクトの可聴レベルを上昇させることを含む、請求項15に記載の方法。
  21. コンピュータ可読プログラム・コードを記憶するコンピュータ可読ハードウェア・ストレージ・デバイスを含む、コンピュータ・プログラム製品であって、前記コンピュータ可読プログラム・コードが、ハードウェア・デバイスのプロセッサによって実行されるときに、音声およびビデオ・マルチメディア修正および提示改善方法を実施するアルゴリズムを含み、前記方法が、
    前記プロセッサによってローカル・ソースまたはリモート・ソースから、音声/ビデオ・ストリームを受信することと、
    前記プロセッサがR統計的回帰コードを実行することによって、前記音声/ビデオ・ストリームのオブジェクトに関する予測を生成するために前記音声/ビデオ・ストリームの前記オブジェクトを分析することと、
    前記プロセッサによって、前記音声/ビデオ・ストリームに関する成分分析コードを実行することと、
    前記プロセッサによって前記実行することに応答して、修正済み音声/ビデオ・ストリームが生成されて、その結果前記音声/ビデオ・ストリームのハードウェア・ストレージおよび移送サイズ要件が減少されることをもたらす、前記オブジェクトの少なくとも1つの追加オブジェクトに関して前記オブジェクトのうちのあるオブジェクトを修正することと、
    前記プロセッサによってグラフィカル・ユーザ・インターフェース(GUI)を介して、前記修正済み音声/ビデオ・ストリームを提示することと、
    を含む、コンピュータ・プログラム製品。
  22. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのサイズを減少させることを含む、請求項21に記載のコンピュータ・プログラム製品。
  23. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのビューを不鮮明にすることを含む、請求項21に記載のコンピュータ・プログラム製品。
  24. 前記オブジェクトが、ビデオ・オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加ビデオ・オブジェクトに関して、前記GUIを介して投影される前記オブジェクトのビューを拡張することを含む、請求項21に記載のコンピュータ・プログラム製品。
  25. 前記オブジェクトが、音声オブジェクトを含み、前記オブジェクトを前記修正することが、前記少なくとも1つの追加音声オブジェクトに関して、前記GUIを介して投影される前記オブジェクトの可聴レベルを低下させることを含む、請求項21に記載のコンピュータ・プログラム製品。
JP2020557308A 2018-06-19 2019-06-13 音声およびビデオ・マルチメディアの修正および提示 Active JP7416718B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/011,905 2018-06-19
US16/011,905 US10666954B2 (en) 2018-06-19 2018-06-19 Audio and video multimedia modification and presentation
PCT/IB2019/054946 WO2019243961A1 (en) 2018-06-19 2019-06-13 Audio and video multimedia modification and presentation

Publications (2)

Publication Number Publication Date
JP2021527969A true JP2021527969A (ja) 2021-10-14
JP7416718B2 JP7416718B2 (ja) 2024-01-17

Family

ID=68840757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020557308A Active JP7416718B2 (ja) 2018-06-19 2019-06-13 音声およびビデオ・マルチメディアの修正および提示

Country Status (6)

Country Link
US (1) US10666954B2 (ja)
JP (1) JP7416718B2 (ja)
CN (1) CN112088369B (ja)
DE (1) DE112019001822B4 (ja)
GB (1) GB2587584B (ja)
WO (1) WO2019243961A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10862938B1 (en) * 2018-06-21 2020-12-08 Architecture Technology Corporation Bandwidth-dependent media stream compression
EP4187906A1 (en) * 2021-11-30 2023-05-31 Nokia Technologies Oy Playback

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273687A (ja) * 1991-02-28 1992-09-29 Hitachi Ltd 動画像符号化装置
JP2003242252A (ja) * 2002-02-18 2003-08-29 Nec Soft Ltd 病室用支援システム、病室用テレビ、病室用支援プログラム
JP2005295133A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 情報配信装置
JP2006514451A (ja) * 2003-01-06 2006-04-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 類似のビデオコンテンツへの乗り換えのための方法および装置
JP2006197321A (ja) * 2005-01-14 2006-07-27 Sony Corp 画像処理方法および装置、並びにプログラム
US20080059665A1 (en) * 2006-08-30 2008-03-06 Qiang Cheng Systems and methods of inter-frame compression
JP2010226594A (ja) * 2009-03-25 2010-10-07 Sanyo Electric Co Ltd 画像送信装置、およびそれを搭載した撮像装置
US20120069131A1 (en) * 2010-05-28 2012-03-22 Abelow Daniel H Reality alternate
US20150334398A1 (en) * 2014-05-15 2015-11-19 Daniel Socek Content adaptive background foreground segmentation for video coding

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9004978D0 (en) 1990-03-06 1990-05-02 Crosfield Electronics Ltd Image compression
US6154754A (en) 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
US6324217B1 (en) 1998-07-08 2001-11-27 Diva Systems Corporation Method and apparatus for producing an information stream having still images
US6665423B1 (en) 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
US6947378B2 (en) 2001-02-28 2005-09-20 Mitsubishi Electric Research Labs, Inc. Dynamic network resource allocation using multimedia content features and traffic features
EP1367505A1 (en) 2002-05-30 2003-12-03 Thomson Licensing S.A. Method and device for creating semantic browsing options
US8055783B2 (en) 2005-08-22 2011-11-08 Utc Fire & Security Americas Corporation, Inc. Systems and methods for media stream processing
FR2898725A1 (fr) 2006-03-15 2007-09-21 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
MX2010005929A (es) 2007-12-04 2010-06-15 Ge Healthcare Ltd Analisis de imagen.
US8515258B2 (en) 2009-02-20 2013-08-20 Indian Institute Of Technology, Bombay Device and method for automatically recreating a content preserving and compression efficient lecture video
US8179466B2 (en) 2009-03-11 2012-05-15 Eastman Kodak Company Capture of video with motion-speed determination and variable capture rate
US8306283B2 (en) * 2009-04-21 2012-11-06 Arcsoft (Hangzhou) Multimedia Technology Co., Ltd. Focus enhancing method for portrait in digital image
WO2012094042A1 (en) * 2011-01-07 2012-07-12 Intel Corporation Automated privacy adjustments to video conferencing streams
US20140002639A1 (en) * 2011-03-25 2014-01-02 Joseph M. Cheben Autonomous Detection of Chemical Plumes
US8885706B2 (en) 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
US10678225B2 (en) * 2013-03-04 2020-06-09 Fisher-Rosemount Systems, Inc. Data analytic services for distributed industrial performance monitoring
CN103559402A (zh) * 2013-11-07 2014-02-05 大连东方之星信息技术有限公司 一种应用线性回归方法的统计分析方法
US9349193B2 (en) 2014-03-31 2016-05-24 National Taipei University Of Technology Method and apparatus for moving object detection using principal component analysis based radial basis function network
CN103957389B (zh) 2014-05-13 2017-02-22 重庆大学 基于压缩感知的3g视频传输方法及系统
US20160142672A1 (en) * 2014-11-17 2016-05-19 International Business Machines Corporation Automatic screen adjustment for multi location video conferencing
US9237307B1 (en) * 2015-01-30 2016-01-12 Ringcentral, Inc. System and method for dynamically selecting networked cameras in a video conference
US9679387B2 (en) 2015-02-12 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Depth-weighted group-wise principal component analysis for video foreground/background separation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273687A (ja) * 1991-02-28 1992-09-29 Hitachi Ltd 動画像符号化装置
JP2003242252A (ja) * 2002-02-18 2003-08-29 Nec Soft Ltd 病室用支援システム、病室用テレビ、病室用支援プログラム
JP2006514451A (ja) * 2003-01-06 2006-04-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 類似のビデオコンテンツへの乗り換えのための方法および装置
JP2005295133A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 情報配信装置
JP2006197321A (ja) * 2005-01-14 2006-07-27 Sony Corp 画像処理方法および装置、並びにプログラム
US20080059665A1 (en) * 2006-08-30 2008-03-06 Qiang Cheng Systems and methods of inter-frame compression
JP2010226594A (ja) * 2009-03-25 2010-10-07 Sanyo Electric Co Ltd 画像送信装置、およびそれを搭載した撮像装置
US20120069131A1 (en) * 2010-05-28 2012-03-22 Abelow Daniel H Reality alternate
US20150334398A1 (en) * 2014-05-15 2015-11-19 Daniel Socek Content adaptive background foreground segmentation for video coding

Also Published As

Publication number Publication date
GB2587584A (en) 2021-03-31
DE112019001822B4 (de) 2021-12-23
GB2587584B (en) 2021-10-27
CN112088369B (zh) 2024-04-16
GB202100132D0 (en) 2021-02-17
US10666954B2 (en) 2020-05-26
CN112088369A (zh) 2020-12-15
DE112019001822T5 (de) 2021-04-01
US20190387235A1 (en) 2019-12-19
WO2019243961A1 (en) 2019-12-26
JP7416718B2 (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
US11036796B2 (en) Video clips generation system
US10931612B2 (en) Integration of social interactions into media sharing
US11159631B2 (en) Integration of social interactions into media sharing
GB2536351A (en) Creating sustainable innovation platforms based on service first and service now approach
US9929983B2 (en) Autonomous agent system
US20210174189A1 (en) Optimization Framework for Real-Time Rendering of Media Using Machine Learning Techniques
US10547582B1 (en) Methods and systems for enhancing viewer engagement with content portions
US20170262869A1 (en) Measuring social media impact for brands
JP7416718B2 (ja) 音声およびビデオ・マルチメディアの修正および提示
AU2021269911B2 (en) Optimized deployment of analytic models in an edge topology
US20200409451A1 (en) Personalized content for augemented reality based on past user experience
US20210216774A1 (en) Cloud based active commissioning system for video analytics
US11843569B2 (en) Filtering group messages
US11900078B2 (en) Tuning a container orchestrator
US11374986B1 (en) Collaborative meeting interest analyzer based on capture attempts
WO2021228094A1 (en) Remote resource capacity and utilization management
US10795671B2 (en) Audiovisual source code documentation
US11729481B2 (en) Providing customized abridged versions of media items based on available user time
US11240118B2 (en) Network mixing patterns
US20230145700A1 (en) Method for streaming multimedia based on user preferences
US10986422B2 (en) Hyper video navigation
US20200394532A1 (en) Detaching Social Media Content Creation from Publication
WO2023041522A1 (en) Automatic replacement of media content associated with a real-time broadcast

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210519

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220406

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240104

R150 Certificate of patent or registration of utility model

Ref document number: 7416718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150