JP2020174339A - 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム - Google Patents

段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2020174339A
JP2020174339A JP2019218381A JP2019218381A JP2020174339A JP 2020174339 A JP2020174339 A JP 2020174339A JP 2019218381 A JP2019218381 A JP 2019218381A JP 2019218381 A JP2019218381 A JP 2019218381A JP 2020174339 A JP2020174339 A JP 2020174339A
Authority
JP
Japan
Prior art keywords
paragraph
narration
candidate material
material resource
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019218381A
Other languages
English (en)
Other versions
JP6971292B2 (ja
Inventor
ハオ ティエン
Hao Tian
ハオ ティエン
シー チェン
Shii Chen
シー チェン
ジェフ チェン ユー ワン
Chienyu Wang Jeff
ジェフ チェン ユー ワン
ダーミン ルー
Daming Lu
ダーミン ルー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Baidu USA LLC
Original Assignee
Baidu com Times Technology Beijing Co Ltd
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu com Times Technology Beijing Co Ltd, Baidu USA LLC filed Critical Baidu com Times Technology Beijing Co Ltd
Publication of JP2020174339A publication Critical patent/JP2020174339A/ja
Application granted granted Critical
Publication of JP6971292B2 publication Critical patent/JP6971292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/025Systems for the transmission of digital non-picture data, e.g. of text during the active part of a television frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】映像の再生時間が設定された時間となるようにナレーションに対応する映像を生成する方法および装置を提供する。【解決手段】サーバーは、ネットワークを介してナレーションと、ナレーションに対応する映像の候補素材リソースを取得する201。ナレーションは1つのニュースイベントに関する。ナレーションにおける各段落と候補素材リソースとのマッチング度を算出する202。ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する203。【選択図】図2

Description

本出願の実施形態は、コンピュータ技術分野に関し、特に、段落と映像を整列させるための方法および装置に関する。
インターネット技術の発展に伴って、世界各地の各種のニュースは各種のメディアを通じてユーザーに配信され得る。同じニュースイベントについて、異なるメディア(例えば、ニュース系サイトやニュース系アプリケーション)が異なるニュースを編集することがあり、異なるメディアによって発信されるニュースの重点には一定の差がある。一方、同じニュースイベントを報道する各ニュースには多かれ少なかれ互いに重複する情報が存在し得る。
ユーザーは、複数のニュースレポートを読まなければ、その中から自分の欲しい情報を抽出できないことがあり、ユーザーのニュース取得の効率が低下になってしまう可能性がある。ユーザーのニュース取得の効率化を支援するために、同一のニュースイベントに関する複数のニュースを集約し、複数のニュースにおける冗長情報を除去し、ニュースイベントに対するナレーションを抽出することが考えられる。
本出願の実施形態は、段落と映像を整列させるための方法および装置を提案する。
第1の態様では、本開示の実施例は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための方法を提供する。
いくつかの実施例において、該方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む。
いくつかの実施例において、該方法は、端末装置が受信した映像を提示できるように、ナレーションに対応する映像を端末装置に送信するステップをさらに含む。
いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む。
いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む。
いくつかの実施例において、ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。
いくつかの実施例において、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
いくつかの実施例において、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
第2の態様では、本開示の実施例は、段落と映像を整列させるための装置であって、該装置は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するように構成された第1取得ユニットと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第2取得ユニットと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニットと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための装置を提供する。
いくつかの実施例において、該装置は、ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む。
いくつかの実施例において、該装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む。
いくつかの実施例において、確定ユニットはさらに、ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。
いくつかの実施例において、確定ユニットはさらに、第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。
いくつかの実施例において、ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。
いくつかの実施例において、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
いくつかの実施例において、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
第3の態様では、本開示の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含むサーバーであって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1の態様のいずれか一つの実施形態に記載の方法を実施させるサーバーを提供する。
第4の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、第1の態様のいずれか一つの実施形態に記載の方法を実施するコンピュータ可読記憶媒体を提供する。
第5の態様では、本開示の実施例は、他のサーバーであって、インターフェースと、1つまたは複数のプログラムが記憶されているメモリと、前記インターフェースおよび前記メモリに動作可能に接続されている1つまたは複数のプロセッサとを備え、前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップの実行に用いられ、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、サーバーを提供する。
第6の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップを行い、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長であるコンピュータ可読記憶媒体を提供する。
ユーザーのニュース取得効率を向上させるためには、従来技術ではニュースクラスタのためのナレーションが生成されることが多く、ユーザーは文字形式のナレーションを読んでニュース要約を取得する必要があり、ナレーションに対応する映像が生成されない。本出願の実施形態で提供される段落と映像を整列させるための方法および装置は、ナレーションと、ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法および装置は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。
本出願の他の特徴、目的および利点は、添付図面を参照して非限定的な実施形態について行った詳細な説明から、より明らかになるであろう。
本出願の実施形態を適用できる例示的なシステムアーキテクチャを示す図である。 本出願に係る段落と映像を整列させるための方法の一実施形態を示すフローチャートである。 本出願に係る段落と映像を整列させるための方法の適用シナリオを示す概略図である。 本出願に係る段落と映像を整列させるための方法の別の実施形態を示すフローチャートである。 本出願に係るステップ404の一実施形態を示す分解フローチャートである。 本出願に係るステップ4042の一実施形態を示す分解フローチャートである。 本出願に係るステップ4042の別の実施形態を示す分解フローチャートである。 本出願に係る段落と映像を整列させるための装置の一実施形態を示す構造概略図である。 本出願の実施形態を実施するためのサーバーに適するコンピュータシステムの構造概略図である。
本出願は、添付の図面および実施形態を参照して、以下でさらに詳細に説明される。本明細書に記載される特定の実施形態は、発明を限定するものではなく、該発明の単なる例示であることを理解されたい。また、説明の便宜上、関連する発明に関連する部分のみが図面に示されていることにも留意されたい。
なお、衝突しない前提では、本出願の実施形態および実施形態における特徴は相互に組み合わせることができる。以下は、添付図面を参照しつつ実施形態を踏まえて、本出願を詳しく説明する。
図1は、本出願に係る段落と映像を整列させるための方法または段落と映像を整列させるための装置の実施形態を適用できる例示的なシステムアーキテクチャ100を示している。
図1に示されるように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバー105と、を含み得る。ネットワーク104は、端末装置101、102、103とサーバー105との間に通信リンクの媒体を提供する。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザーは、端末装置101、102、103を使用して、メッセージ等を受信または送信するために、ネットワーク104を介してサーバー105と対話することができる。端末装置101、102、103には、ウェブブラウザアプリケーション、ショッピング系アプリケーション、検索系アプリケーション、インスタント通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションがインストールされ得る。
端末装置101、102、103は、ハードウェアであってもソフトウェアであってもよいことに留意されたい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、MP3プレーヤー(Moving Picture Experts Group Audio Layer III)、MP4プレーヤー(Moving Picture Experts Group Audio Layer IV)、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有する様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされることができる。また、複数のソフトウェアもしくはソフトウェアモジュールとして実施されることも、または単一のソフトウェアもしくはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。
サーバー105は、端末装置101、102、103に表示されるニュース系サイトをサポートするバックグラウンドサイトサーバーなど、様々なサービスを提供するサーバーであり得る。バックグラウンドサイトサーバーは、受信したニュース系ページ要求などのデータについて分析などの処理を行い、処理結果(例えば、ニュース系ウェブページデータ)を端末にフィードバックすることができる。
なお、本明細書の実施形態で提供される段落と映像を整列させるための方法は、一般にサーバー105によって実行されるため、段落と映像を整列させるための装置は、一般にサーバー105内に設けられる。
なお、サーバー105はハードウェアであってもソフトウェアであってもよい。サーバー105がハードウェアである場合、複数のサーバーからなる分散サーバークラスタとして実施されることも、単一のサーバーとして実施されることも可能である。サーバー105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、ニュースウェブページサービスを提供するため)として実施されることも、単一のソフトウェアまたはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。
図1の端末装置、ネットワークおよびサーバーの数は単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク、サーバーを配置することができる。
引き続き図2を参照すると、本出願に係る段落と映像を整列させるための方法の一実施形態のプロセス200が示されている。この段落と映像を整列させるための方法には、次のステップ(ステップ201〜203)が含まれる。
ステップ201:ナレーションとナレーションに対応する候補素材リソースのセットを取得する。
本実施形態では、段落と映像を整列させるための方法の実行主体(例えば、図1に示されるサーバー105)は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションとナレーションに対応する候補素材リソースのセットをローカルまたは遠隔的に取得することができる。
ここで、ナレーションは少なくとも1つの段落を含み得る。ナレーションは1つのイベントまたは1つのテーマに関するものであり得る。
例えば、ナレーションは1つのニュースイベントに関するものであり得る。ここで、ニュースイベントとは、最近の第1の事前設定された期間内(例えば、3ヶ月以内)に発生したイベントのことである。例えば、1つのニュースイベントを記述するナレーションは、そのニュースイベントに対するニュースにおけるテキスト部分を要約して抽出したテキストであり得る。ここで、ニュースは、様々な形のニュースイベントに対する電子データであり得る。ニュースは、テキスト、画像、音声、映像の内の少なくとも1つを含み得る。例えば、ニュースはウェブページであっても様々なドキュメントであってもよい。ドキュメントは、テキスト、画像、音声、映像の内の少なくとも1つを含み得る。また、ニュースは、単なるテキスト、画像または映像であってもよい。
ここで、ナレーションに対応する候補素材リソースのセットには、ナレーションに対するニュースイベントやトピックに関する映像や画像が格納されている。ナレーションに対応する候補素材リソースのセットは、様々な実施方式を用いて得られる。
例えば、ナレーションがニュースイベントEに対するものである場合、ナレーションに対応する候補素材リソースのセットは、ニュースイベントEに対するニュースクラスタCに含まれている各映像と画像から構成されていてもよい。ここで、ニュースクラスタCには、少なくとも1つのニュースが含まれており、各ニュースはいずれもニュースイベントEに対するものである。
また、例えば、ナレーションがニュースイベントEに対するものである場合、ナレーションに対応する候補素材リソースのセットは、次のような操作を経て得られる。
まず、ニュースイベントEに対するニュースクラスタCに含まれている各ニュースにおける各映像を意味分割し、少なくとも1つの映像セグメントを取得して、取得された各映像セグメントをターゲット映像セットとして確定する。
次に、ターゲット映像セットとターゲット画像セットを統合してナレーションに対応する候補素材リソースのセットを取得する。該ターゲット画像セットは、ニュースイベントに対するニュースクラスタCに含まれている各画像からなる。
ステップ202:ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。
本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、上記の実行主体が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度をローカルに取得することができる。
本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、ネットワークを介して上記の実行主体に接続された他の電子機器が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を遠隔的に取得することができる。
具体的には、候補素材リソースは映像または画像であり得るため、ここでは、テキストと映像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける映像とのマッチング度を計算することができる。また、テキストと画像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける画像とのマッチング度を計算することができる。本出願では、これに対して具体的に限定しない。
ステップ203:ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
本実施形態では、上記の実行主体は、様々な実施方法を採用して、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することができる。ここで、画像の再生時間長は、事前設定された画像の再生時間長である。
なお、ここで、映像タイプの候補素材リソースの再生時間長は、映像タイプの候補素材リソースの固有属性であって、一定なものである。一方、画像タイプの候補素材リソースの場合、ここでは、各画像タイプの候補素材リソースの再生時間長を、一定の事前設定された画像再生時間長(例えば、3秒)に設定することができる。このようにして、すべての候補素材リソースは、固定された再生時間長属性を持つことができる。
本実施形態のいくつかのオプションの実施方法では、ステップ203は、次のように行うことができる。
ナレーションにおける各段落については、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定する。
すなわち、ナレーションにおける各段落については、ステップ202で取得された候補素材リソースのセットから順番に並べられた候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスをそれぞれ構成する。ここで、選択された該段落に対応する候補素材リソースシーケンスの再生時間長は、該段落に対応する再生時間長に等しい。
ここで、候補素材リソースシーケンスの再生時間長は、候補素材リソースシーケンスにおける各候補素材リソースの再生時間長の和である。一方、段落に対応する再生時間長は、段落における文字数と事前設定された話速によって決まる。例えば、事前設定された話速を1秒あたりN文字、段落における文字数をM文字とすると、段落に対応する再生時間長はL秒となる。ここで、LはMをNで割った比である。
ここで、第1の事前設定された最適化アルゴリズムは、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。
本実施形態のいくつかのオプションの実施方法では、ステップ203は、次のように行うことができる。
第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
上記のオプションの実施方法と比較して、ここでの最適化目標は、上記のオプションの実施方法の最適化目標とは異なる。上記のオプションの実施方法では、各段落をそれぞれ最適化し、各段落と該段落に対応する候補素材リソースシーケンスとのマッチング度が最大となることを最適化目標とする。一方、ここでのオプションの実施方法では、ナレーションにおける各段落全体を最適化し、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標としている。
ここで、第2の事前設定された最適化アルゴリズムも、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。
本実施形態のいくつかのオプションの実施方法では、ステップ203で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースは、互いに異なっていてもよい。その結果、その後に生成されたナレーションに対応する映像には重複する画像や映像がなく、生成された映像の読みやすさやビビッドさが向上する。ステップ203で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる場合、上記の2つのオプションの実施方法における制約条件には、確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なるという制約条件を加える必要があることを理解されたい。
引き続き図3を参照すると、図3は、本出願に係る段落と映像を整列させるための方法の適用シナリオを示す概略図である。図3の適用シナリオにおいて、ニュース系サイトをサポートするサーバー301は、まず、ナレーション302とナレーション302に対応する候補素材リソースのセット303を取得することができる。次に、サーバー301は、ナレーション302の各段落と候補素材リソースのセット303における各候補素材リソースとのマッチング度304を取得することができる。最後に、サーバー301は、ナレーション302における各段落と候補素材リソースのセット303における各候補素材リソースとのマッチング度304、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーション302における各段落に対応する候補素材リソースシーケンス305を確定することができる。
本出願の上記の実施形態によって提供される方法は、ナレーションとナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。
さらに図4Aを参照すると、本出願に係る段落と映像を整列させるための方法の別の実施形態のプロセス400が示されている。この段落と映像を整列させるための方法の別の実施形態のプロセス400は、次のステップ(ステップ401〜405)を含む。
ステップ401:ナレーションとナレーションに対応する候補素材リソースのセットを取得する。
ステップ402:ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。
ステップ403:ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
本実施形態では、ステップ401、ステップ402、およびステップ403の具体的な動作は、図2に示される実施形態におけるステップ201、ステップ202、およびステップ203の動作とほぼ同じであるため、ここでは省略する。
ステップ404:ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。
本実施形態では、上記の実行主体は、ステップ403で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成することができる。
本実施形態のいくつかのオプションの実施方法では、ステップ404は、図4Bに示されるステップ4041とステップ4042を含み得る。図4Bを参照すると、本出願に係るステップ404の一実施形態の分解フローチャートが示されている。
ステップ4041:ナレーションにおける各段落について、音声合成技術を用いて、該段落に対応する音声を生成する。
なお、音声合成技術は現在幅広く研究され応用されている先行技術であるため、ここではその説明を省略する。
ステップ4042:ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。
いくつかの実施方法では、ステップ4042は次のように行うことができる。
まず、ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続し、第1の音声を取得することができる。
次に、ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第1の映像を取得することができる。
ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
最後に、取得した第1の音声と第1の映像を、それぞれ、ナレーションに対応する映像における音声部分と映像部分として確定する。
いくつかの実施方法では、ステップ4042は、図4Cに示されるステップ40421〜ステップ40426を含むこともできる。図4Cを参照すると、本出願に係るステップ4042の一実施形態の分解フローチャートが示されている。
ステップ40421:ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力して、該段落に対応する映像アドバンスプレイ時間長を取得する。
ここで映像アドバンスプレイ時間決定モデルは、テキストとテキストに対応する映像アドバンスプレイ時間長との対応関係を表す。
実際には、手動で編集されたニュース映像では、司会者が発話する前に映像の再生がすでに始まっているのがほとんどである。ナレーションに対して生成された映像が手動で編集されたニュース映像のように人間の視聴習慣に合うようにするために、あらかじめ大量のトレーニングサンプルに基づいて、機械学習アルゴリズムを用いて映像アドバンスプレイ時間決定モデルをトレーニングしておくことができる。ここで、トレーニングサンプルは、サンプルニュース映像に含まれているテキストと、該サンプルニュース映像における映像のナレーション音声よりも早いアノテーション時間を含むことができる。
ステップ40422:ナレーションにおける最後の段落以外の各段落について、ナレーションにおける該段落の前から後への順に従って、段落映像クリップステップを実行する。
ここで、段落映像クリップステップは、次の動作を含み得る。
第1に、該段落の次の段落に対応する映像アドバンスプレイ時間を映像カット時間長として確定する。
第2に、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続し、該段落に対応する映像を取得する。
第3に、該段落に対応する映像の末尾から映像カット時間長の映像をカットする。
すなわち、この技術的解決手段は、ナレーションにおける第1段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の映像の末尾をカバーすることである。一方、映像のアドバンスプレイと映像カバーの時間長は、ステップ40421で確定された該段落に対応する映像アドバンスプレイ時間長である。
ステップ40423:ナレーションにおける最後の段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、最後の段落に対応する映像を取得する。
ステップ40424:ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続して、第2の映像を取得する。
ステップ40425:ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第2の音声を取得する。
ステップ40426:取得した第2の音声と第2の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。
いくつかの実施方法では、ステップ4042は、図4Dに示されるステップ40421’〜ステップ40425’を含むこともできる。図4Dを参照すると、本出願に係るステップ4042の別の実施形態の分解フローチャートが示されている。
ステップ40421’:ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力し、該段落に対応する映像アドバンスプレイ時間長を取得する。
ここで、ステップ40421’の具体的な動作は、ステップ40421の動作とほぼ同じであるため、ここでは省略する。
ステップ40422’:ナレーションにおける最後の段落を除く各段落について、ナレーションにおける該段落の前から後への順に従って、段落音声延長ステップを実行する。
ここで、段落音声延長ステップは、次の動作を含み得る。
第1に、該段落の次の段落に対応する映像アドバンスプレイ時間長を音声延長時間長として確定する。
第2に、該段落に対応する音声の末尾に、確定された音声延長時間長の無音再生時間長を追加する。
すなわち、この技術的解決手段は、ナレーションにおける第1段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の音声の末尾に無音再生時間長を追加することである。一方、映像アドバンスプレイ時間長と音声延長時間長は、ステップ40421’で確定された該段落に対応する映像アドバンスプレイ時間長である。
ステップ40423’:ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第3の音声を取得する。
ステップ40424’:ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第3の映像を取得する。
ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
ステップ40425’:取得した第3の音声と第3の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。
ステップ405:ナレーションに対応する映像を端末装置に送信する。
本実施形態では、上記の実行主体は、ステップ404で生成されたナレーションに対応する映像を端末装置に送信することができる。ここで、端末装置は、ネットワークを介して上記の実行主体に接続された電子機器であり得る。このようにして、上記端末装置は、上記の実行主体が送信した映像を受信したことに対応して、受信した映像を提示し、ナレーションに対応する映像を端末装置に提示することができる。ナレーションがニュースイベントEに対するものであれば、ニュースイベントEに対するニュースクラスタCのナレーションに対応する映像を端末装置に提示することが可能となる。ユーザーは端末装置上でニュースイベントEに対するニュースクラスタCのナレーションに対応する映像を視聴することで、ニュースイベントEを素早く知ることができる。ユーザーは文字を読まなくてもニュースクラスタCが焦点を合わせたニュースイベントEを知ることができるため、ユーザーのニュースイベント情報取得の効率が向上する。
図4Aから分かるように、本実施形態における段落と映像を整列させるための方法のプロセス400は、図2に対応する実施形態と比較して、ナレーションに対応する映像を生成するステップと、ナレーションに対応する映像を端末装置に送信するステップとを追加した。したがって、本実施形態で説明した技術的解決手段は、ナレーションに対応する映像を端末装置に提示することができる。ユーザーは提示されたナレーションに対応する映像を端末装置上で視聴でき、端末装置の情報提示機能が拡張される。
さらに、図5を参照すると、上記の各図に示される方法の実施として、本出願は段落と映像を整列させるための装置の一実施形態を示している。該装置の実施形態は図2に示された方法の実施形態に対応しており、該装置は具体的には、様々な電子機器に適用することができる。
図5に示されるように、本実施形態の、段落と映像を整列させるための装置500は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得するように構成された第1取得ユニット501と、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第2取得ユニット502と、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニット503と、を含み、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
本実施形態では、段落と映像を整列させるための装置500の第1取得ユニット501、第2取得ユニット502、および確定ユニット503の具体的な処理ならびにそれに伴う技術的効果は、それぞれ図2に対応する実施形態におけるステップ201、ステップ202およびステップ203の関連説明を参照することができる。ここでは、これ以上説明しない。
本実施形態のいくつかのオプションの実施方法では、上記の装置500は、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、上記のナレーションに対応する映像を生成するように構成された映像生成ユニット504をさらに含む。
本実施形態のいくつかのオプションの実施方法では、上記の装置500は、端末装置が受信した映像を提示できるように、上記のナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニット505をさらに含む。
本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット503はさらに、上記のナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。
本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット503はさらに、第2の事前設定された最適化アルゴリズムを用いて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。
本実施形態のいくつかのオプションの実施方法では、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なることができる。
本実施形態のいくつかのオプションの実施方法では、上記の第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。
本実施形態のいくつかのオプションの実施方法では、上記の第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。
本明細書の実施形態によって提供される、段落と映像を整列するための装置における各ユニットの実施の詳細および技術的効果は、本出願における他の実施形態の説明を参照することができるため、ここではこれ以上説明しない。
次に、図6を参照すると、本出願の実施形態を実施するためのサーバーに適するコンピュータシステム600の構造概略図が示されている。図6に示されるサーバーは、あくまでも一例にすぎず、本出願の実施形態の機能および使用範囲に如何なる制限も課すべきではない。
図6に示されるように、コンピュータシステム600は、読み取り専用メモリ(ROM,Read Only Memory)602に記憶されたプログラムまたは記憶装置608からランダムアクセスメモリ(RAM,Random Access Memory)603にロードされたプログラムにより、様々な適切な動作および処理を実行できる1つまたは複数の中央処理装置(CPU,Central Processing Unit)601を含み得る。RAM603には、システム600の動作に必要な各種プログラムやデータも記憶されている。CPU601、ROM602、およびRAM603は、バス604を介して相互に接続されている。入出力(I/O,Input/Output)インターフェース605もバス604に接続されている。
I/Oインターフェース605に接続される装置は、キーボード、マウスなどの入力部606と、陰極線管(CRT、Cathode Ray Tube)、液晶ディスプレイ(LCD,Liquid Crystal Display)など及びスピーカーなどの出力部607と、ハードディスクなどの記憶部608と、ローカルエリアネットワーク(LAN、Local Area Network)カード、モデムなどのネットワークインターフェースカードを含む通信部609と、を含む。通信部609は、インターネットなどのネットワークを介して通信処理を行う。ドライバー610も、必要に応じてI/Oインターフェース605に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア611は、必要に応じてドライバー610にインストールされることで、リムーバブルメディア611から必要に応じて読み出されるコンピュータプログラムが記憶部608にインストールされる。
特に、本開示の実施形態によると、フローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品が含まれる。該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールすることができ、および/またはリムーバブルメディア611からインストールすることができる。該コンピュータプログラムが中央処理装置(CPU)601によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。本開示の実施形態で説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、またはこれらの2つの任意の組み合わせであり得ることに留意されたい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本または複数のワイヤを有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されることができる。本開示の実施形態では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、または組み合わせて使用されるプログラムを送信、伝播、または伝送できる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、ワイヤレス、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。
本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピュータ上で実行されることも、部分的にユーザーのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバー上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続されることができる。または、外部のコンピュータに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
添付図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための1つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「第1取得ユニットと、第2取得ユニットと、確定ユニットと、を含むプロセッサ」と説明されることができる。ここで、これらのユニットの名称は、ユニット自体に対する制限を構成しない場合がある。例えば、第1取得ユニットは、「ナレーションとナレーションに対応する候補素材リソースのセットを取得するユニット」と説明されることができる。
別の態様では、本出願はまた、上記の実施形態で説明した装置に含まれ得る、または別個に存在し、装置に組み込まれないコンピュータ可読媒体を提供する。 上記のコンピュータ可読媒体には1つまたは複数のプログラムが格納されており、上記の1つまたは複数のプログラムが上記の装置によって実行されると、上記の装置は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得し、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
さらに別の態様では、本出願の実施形態は、インターフェースと、1つまたは複数のプログラムが格納されるメモリと、前記インターフェースおよび前記メモリに動作可能に接続された1つまたは複数のプロセッサと、を含む別のサーバーをさらに提供する。前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
さらに別の態様では、本出願の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供する。上記のコンピュータプログラムが1つまたは複数のプロセッサによって実行されると、上記の1つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。


本出願の実施形態は、コンピュータ技術分野に関し、特に、段落と映像を整列させるための方法装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。

Claims (18)

  1. ナレーションと、前記ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得するステップと、
    前記ナレーションにおける各段落と、前記候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、
    前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、を含み、
    画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための方法。
  2. 前記方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む、請求項1に記載の方法。
  3. 前記方法は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するステップをさらに含む、請求項2に記載の方法。
  4. 前記の前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
    前記ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む、請求項3に記載の方法。
  5. 前記の前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
    第2の事前設定された最適化アルゴリズムを用いて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む、請求項3に記載の方法。
  6. 前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる、請求項5に記載の方法。
  7. 前記第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項4に記載の方法。
  8. 前記第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項5に記載の方法。
  9. ナレーションと前記ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得するように構成された第1取得ユニットと、
    前記ナレーションにおける各段落と、前記候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第2取得ユニットと、
    前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニットと、を含み、
    画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための装置。
  10. 前記装置は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む、請求項9に記載の装置。
  11. 前記装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む、請求項10に記載の装置。
  12. 前記確定ユニットはさらに、
    前記ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている、請求項11に記載の装置。
  13. 前記確定ユニットはさらに、
    第2の事前設定された最適化アルゴリズムを用いて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている、請求項11に記載の装置。
  14. 前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる、請求項13に記載の装置。
  15. 前記第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項12に記載の装置。
  16. 前記第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項13に記載の装置。
  17. 1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含むサーバーであって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1〜8のいずれか一項に記載の方法を実施させるサーバー。
  18. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、請求項1〜8のいずれか一項に記載の方法を実施するコンピュータ可読記憶媒体。

JP2019218381A 2019-04-08 2019-12-02 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム Active JP6971292B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910277787.9 2019-04-08
CN201910277787.9A CN111800671B (zh) 2019-04-08 2019-04-08 用于对齐段落和视频的方法和装置

Publications (2)

Publication Number Publication Date
JP2020174339A true JP2020174339A (ja) 2020-10-22
JP6971292B2 JP6971292B2 (ja) 2021-11-24

Family

ID=72662633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019218381A Active JP6971292B2 (ja) 2019-04-08 2019-12-02 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム

Country Status (3)

Country Link
US (1) US11758088B2 (ja)
JP (1) JP6971292B2 (ja)
CN (1) CN111800671B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112866776B (zh) * 2020-12-29 2022-09-20 北京金堤科技有限公司 视频生成方法和装置
CN113127683A (zh) * 2021-04-22 2021-07-16 北京百度网讯科技有限公司 内容推荐方法、装置、电子设备和介质
CN113517004B (zh) * 2021-06-16 2023-02-28 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 视频生成方法、装置、终端设备及介质
CN113436604B (zh) * 2021-06-22 2022-11-29 北京百度网讯科技有限公司 播报内容的方法及装置、电子设备和存储介质
CN114222193B (zh) * 2021-12-03 2024-01-05 北京影谱科技股份有限公司 一种视频字幕时间对齐模型训练方法及系统
CN114222196A (zh) * 2022-01-04 2022-03-22 阿里巴巴新加坡控股有限公司 一种剧情解说短视频的生成方法、装置及电子设备
CN115243107B (zh) * 2022-07-08 2023-11-21 华人运通(上海)云计算科技有限公司 短视频播放的方法、装置、系统、电子设备和介质
CN117156079B (zh) * 2023-11-01 2024-01-23 北京美摄网络科技有限公司 视频处理方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237486A (ja) * 1996-03-01 1997-09-09 Nippon Steel Corp 映像と文字との統合管理システム
WO2002037841A1 (fr) * 2000-11-02 2002-05-10 Fujiyama Co., Ltd. Systeme de repartition du contenu d'une image numerique, procede de reproduction et support d'enregistrement de son programme de reproduction
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
JP2007274418A (ja) * 2006-03-31 2007-10-18 Nec Personal Products Co Ltd コンテンツ再生方法及びその装置並びに総覧情報生成方法及びその装置
JP2008039845A (ja) * 2006-08-01 2008-02-21 Nippon Hoso Kyokai <Nhk> 解説付加音声生成装置及び解説付加音声生成プログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US7840033B2 (en) * 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US8645298B2 (en) * 2010-10-26 2014-02-04 Microsoft Corporation Topic models
TWI474200B (zh) * 2012-10-17 2015-02-21 Inst Information Industry Scene clip playback system, method and recording medium thereof
US9471559B2 (en) * 2012-12-10 2016-10-18 International Business Machines Corporation Deep analysis of natural language questions for question answering system
GB2529564A (en) * 2013-03-11 2016-02-24 Video Dubber Ltd Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
JP6317772B2 (ja) * 2013-03-15 2018-04-25 トランスレート アブロード,インコーポレイテッド 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法
US9183466B2 (en) * 2013-06-15 2015-11-10 Purdue Research Foundation Correlating videos and sentences
US9545172B2 (en) 2014-02-11 2017-01-17 Adco Industries-Technologies, L.P. Roller grill
US10129608B2 (en) * 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US10467268B2 (en) * 2015-06-02 2019-11-05 International Business Machines Corporation Utilizing word embeddings for term matching in question answering systems
US10074363B2 (en) * 2015-11-11 2018-09-11 Apptek, Inc. Method and apparatus for keyword speech recognition
WO2017158800A1 (ja) * 2016-03-17 2017-09-21 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
CN107241622A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 视频定位处理方法、终端设备及云端服务器
US20180082607A1 (en) * 2016-09-19 2018-03-22 Michael Everding Interactive Video Captioning Program
US10936969B2 (en) * 2016-09-26 2021-03-02 Shabaz Basheer Patel Method and system for an end-to-end artificial intelligence workflow
US10362349B1 (en) * 2016-12-13 2019-07-23 Google Llc Detecting channel similarity based on content reuse
CN107463698B (zh) * 2017-08-15 2020-11-20 北京百度网讯科技有限公司 基于人工智能推送信息的方法和装置
US10846573B2 (en) * 2018-07-31 2020-11-24 Triangle Digital Ventures Ii, Llc Detecting, redacting, and scoring confidential information in images

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237486A (ja) * 1996-03-01 1997-09-09 Nippon Steel Corp 映像と文字との統合管理システム
WO2002037841A1 (fr) * 2000-11-02 2002-05-10 Fujiyama Co., Ltd. Systeme de repartition du contenu d'une image numerique, procede de reproduction et support d'enregistrement de son programme de reproduction
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
JP2007274418A (ja) * 2006-03-31 2007-10-18 Nec Personal Products Co Ltd コンテンツ再生方法及びその装置並びに総覧情報生成方法及びその装置
JP2008039845A (ja) * 2006-08-01 2008-02-21 Nippon Hoso Kyokai <Nhk> 解説付加音声生成装置及び解説付加音声生成プログラム

Also Published As

Publication number Publication date
US11758088B2 (en) 2023-09-12
CN111800671B (zh) 2022-08-12
JP6971292B2 (ja) 2021-11-24
US20200322570A1 (en) 2020-10-08
CN111800671A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
JP6971292B2 (ja) 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
WO2020253806A1 (zh) 展示视频的生成方法、装置、设备及存储介质
JP7104683B2 (ja) 情報を生成する方法および装置
US20200234478A1 (en) Method and Apparatus for Processing Information
US9697871B2 (en) Synchronizing recorded audio content and companion content
JP6967059B2 (ja) 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
CN111599343B (zh) 用于生成音频的方法、装置、设备和介质
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
JP2020008854A (ja) 音声要求を処理するための方法および装置
CN110534085B (zh) 用于生成信息的方法和装置
WO2022037419A1 (zh) 音频内容识别方法、装置、设备和计算机可读介质
WO2021057740A1 (zh) 视频生成方法、装置、电子设备和计算机可读介质
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
US20220385996A1 (en) Method for generating target video, apparatus, server, and medium
US20240147023A1 (en) Video generation method and apparatus, and device, medium and product
JP7050857B2 (ja) 要約生成方法及び装置
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN115967833A (zh) 视频生成方法、装置、设备计存储介质
CN112383721B (zh) 用于生成视频的方法、装置、设备和介质
WO2023174073A1 (zh) 视频生成方法、装置、设备、存储介质和程序产品
CN111862933A (zh) 用于生成合成语音的方法、装置、设备和介质
CN113823282A (zh) 语音处理方法、系统和装置
JP7113000B2 (ja) 映像を生成するための方法および装置
WO2021170094A1 (zh) 用于信息交互的方法和装置
CN112287173A (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6971292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150