JP2020174339A

JP2020174339A - 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム

Info

Publication number: JP2020174339A
Application number: JP2019218381A
Authority: JP
Inventors: ハオティエン; Hao Tian; シーチェン; Shii Chen; ジェフチェンユーワン; Chienyu Wang Jeff; ダーミンルー; Daming Lu
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-04-08
Filing date: 2019-12-02
Publication date: 2020-10-22
Anticipated expiration: 2039-12-02
Also published as: US11758088B2; CN111800671B; JP6971292B2; US20200322570A1; CN111800671A

Abstract

【課題】映像の再生時間が設定された時間となるようにナレーションに対応する映像を生成する方法および装置を提供する。【解決手段】サーバーは、ネットワークを介してナレーションと、ナレーションに対応する映像の候補素材リソースを取得する２０１。ナレーションは１つのニュースイベントに関する。ナレーションにおける各段落と候補素材リソースとのマッチング度を算出する２０２。ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する２０３。【選択図】図２

Description

本出願の実施形態は、コンピュータ技術分野に関し、特に、段落と映像を整列させるための方法および装置に関する。

インターネット技術の発展に伴って、世界各地の各種のニュースは各種のメディアを通じてユーザーに配信され得る。同じニュースイベントについて、異なるメディア(例えば、ニュース系サイトやニュース系アプリケーション)が異なるニュースを編集することがあり、異なるメディアによって発信されるニュースの重点には一定の差がある。一方、同じニュースイベントを報道する各ニュースには多かれ少なかれ互いに重複する情報が存在し得る。

ユーザーは、複数のニュースレポートを読まなければ、その中から自分の欲しい情報を抽出できないことがあり、ユーザーのニュース取得の効率が低下になってしまう可能性がある。ユーザーのニュース取得の効率化を支援するために、同一のニュースイベントに関する複数のニュースを集約し、複数のニュースにおける冗長情報を除去し、ニュースイベントに対するナレーションを抽出することが考えられる。

本出願の実施形態は、段落と映像を整列させるための方法および装置を提案する。

第１の態様では、本開示の実施例は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための方法を提供する。

いくつかの実施例において、該方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む。

いくつかの実施例において、該方法は、端末装置が受信した映像を提示できるように、ナレーションに対応する映像を端末装置に送信するステップをさらに含む。

いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、ナレーションにおける各段落について、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む。

いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、第２の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む。

いくつかの実施例において、ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。

いくつかの実施例において、第１の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。

いくつかの実施例において、第２の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。

第２の態様では、本開示の実施例は、段落と映像を整列させるための装置であって、該装置は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するように構成された第１取得ユニットと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第２取得ユニットと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニットと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための装置を提供する。

いくつかの実施例において、該装置は、ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む。

いくつかの実施例において、該装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む。

いくつかの実施例において、確定ユニットはさらに、ナレーションにおける各段落について、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。

いくつかの実施例において、確定ユニットはさらに、第２の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。

第３の態様では、本開示の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を含むサーバーであって、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第１の態様のいずれか一つの実施形態に記載の方法を実施させるサーバーを提供する。

第４の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムが１つまたは複数のプロセッサによって実行されると、第１の態様のいずれか一つの実施形態に記載の方法を実施するコンピュータ可読記憶媒体を提供する。

第５の態様では、本開示の実施例は、他のサーバーであって、インターフェースと、1つまたは複数のプログラムが記憶されているメモリと、前記インターフェースおよび前記メモリに動作可能に接続されている1つまたは複数のプロセッサとを備え、前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップの実行に用いられ、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、サーバーを提供する。

第６の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムが１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップを行い、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長であるコンピュータ可読記憶媒体を提供する。

ユーザーのニュース取得効率を向上させるためには、従来技術ではニュースクラスタのためのナレーションが生成されることが多く、ユーザーは文字形式のナレーションを読んでニュース要約を取得する必要があり、ナレーションに対応する映像が生成されない。本出願の実施形態で提供される段落と映像を整列させるための方法および装置は、ナレーションと、ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法および装置は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。

本出願の他の特徴、目的および利点は、添付図面を参照して非限定的な実施形態について行った詳細な説明から、より明らかになるであろう。
本出願の実施形態を適用できる例示的なシステムアーキテクチャを示す図である。本出願に係る段落と映像を整列させるための方法の一実施形態を示すフローチャートである。本出願に係る段落と映像を整列させるための方法の適用シナリオを示す概略図である。本出願に係る段落と映像を整列させるための方法の別の実施形態を示すフローチャートである。本出願に係るステップ４０４の一実施形態を示す分解フローチャートである。本出願に係るステップ４０４２の一実施形態を示す分解フローチャートである。本出願に係るステップ４０４２の別の実施形態を示す分解フローチャートである。本出願に係る段落と映像を整列させるための装置の一実施形態を示す構造概略図である。本出願の実施形態を実施するためのサーバーに適するコンピュータシステムの構造概略図である。

本出願は、添付の図面および実施形態を参照して、以下でさらに詳細に説明される。本明細書に記載される特定の実施形態は、発明を限定するものではなく、該発明の単なる例示であることを理解されたい。また、説明の便宜上、関連する発明に関連する部分のみが図面に示されていることにも留意されたい。

なお、衝突しない前提では、本出願の実施形態および実施形態における特徴は相互に組み合わせることができる。以下は、添付図面を参照しつつ実施形態を踏まえて、本出願を詳しく説明する。

図１は、本出願に係る段落と映像を整列させるための方法または段落と映像を整列させるための装置の実施形態を適用できる例示的なシステムアーキテクチャ１００を示している。

図１に示されるように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバー１０５と、を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバー１０５との間に通信リンクの媒体を提供する。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザーは、端末装置１０１、１０２、１０３を使用して、メッセージ等を受信または送信するために、ネットワーク１０４を介してサーバー１０５と対話することができる。端末装置１０１、１０２、１０３には、ウェブブラウザアプリケーション、ショッピング系アプリケーション、検索系アプリケーション、インスタント通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションがインストールされ得る。

端末装置１０１、１０２、１０３は、ハードウェアであってもソフトウェアであってもよいことに留意されたい。端末装置１０１、１０２、１０３がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ＭＰ３プレーヤー(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒ III)、ＭＰ４プレーヤー(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ)、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有する様々な電子機器であり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされることができる。また、複数のソフトウェアもしくはソフトウェアモジュールとして実施されることも、または単一のソフトウェアもしくはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。

サーバー１０５は、端末装置１０１、１０２、１０３に表示されるニュース系サイトをサポートするバックグラウンドサイトサーバーなど、様々なサービスを提供するサーバーであり得る。バックグラウンドサイトサーバーは、受信したニュース系ページ要求などのデータについて分析などの処理を行い、処理結果(例えば、ニュース系ウェブページデータ)を端末にフィードバックすることができる。

なお、本明細書の実施形態で提供される段落と映像を整列させるための方法は、一般にサーバー１０５によって実行されるため、段落と映像を整列させるための装置は、一般にサーバー１０５内に設けられる。

なお、サーバー１０５はハードウェアであってもソフトウェアであってもよい。サーバー１０５がハードウェアである場合、複数のサーバーからなる分散サーバークラスタとして実施されることも、単一のサーバーとして実施されることも可能である。サーバー１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、ニュースウェブページサービスを提供するため)として実施されることも、単一のソフトウェアまたはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。

図１の端末装置、ネットワークおよびサーバーの数は単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク、サーバーを配置することができる。

引き続き図２を参照すると、本出願に係る段落と映像を整列させるための方法の一実施形態のプロセス２００が示されている。この段落と映像を整列させるための方法には、次のステップ（ステップ２０１〜２０３）が含まれる。

ステップ２０１：ナレーションとナレーションに対応する候補素材リソースのセットを取得する。

本実施形態では、段落と映像を整列させるための方法の実行主体(例えば、図１に示されるサーバー１０５)は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションとナレーションに対応する候補素材リソースのセットをローカルまたは遠隔的に取得することができる。

ここで、ナレーションは少なくとも１つの段落を含み得る。ナレーションは１つのイベントまたは１つのテーマに関するものであり得る。

例えば、ナレーションは１つのニュースイベントに関するものであり得る。ここで、ニュースイベントとは、最近の第１の事前設定された期間内(例えば、３ヶ月以内)に発生したイベントのことである。例えば、１つのニュースイベントを記述するナレーションは、そのニュースイベントに対するニュースにおけるテキスト部分を要約して抽出したテキストであり得る。ここで、ニュースは、様々な形のニュースイベントに対する電子データであり得る。ニュースは、テキスト、画像、音声、映像の内の少なくとも１つを含み得る。例えば、ニュースはウェブページであっても様々なドキュメントであってもよい。ドキュメントは、テキスト、画像、音声、映像の内の少なくとも１つを含み得る。また、ニュースは、単なるテキスト、画像または映像であってもよい。

ここで、ナレーションに対応する候補素材リソースのセットには、ナレーションに対するニュースイベントやトピックに関する映像や画像が格納されている。ナレーションに対応する候補素材リソースのセットは、様々な実施方式を用いて得られる。

例えば、ナレーションがニュースイベントＥに対するものである場合、ナレーションに対応する候補素材リソースのセットは、ニュースイベントＥに対するニュースクラスタＣに含まれている各映像と画像から構成されていてもよい。ここで、ニュースクラスタＣには、少なくとも１つのニュースが含まれており、各ニュースはいずれもニュースイベントＥに対するものである。

また、例えば、ナレーションがニュースイベントＥに対するものである場合、ナレーションに対応する候補素材リソースのセットは、次のような操作を経て得られる。

まず、ニュースイベントＥに対するニュースクラスタＣに含まれている各ニュースにおける各映像を意味分割し、少なくとも１つの映像セグメントを取得して、取得された各映像セグメントをターゲット映像セットとして確定する。

次に、ターゲット映像セットとターゲット画像セットを統合してナレーションに対応する候補素材リソースのセットを取得する。該ターゲット画像セットは、ニュースイベントに対するニュースクラスタＣに含まれている各画像からなる。

ステップ２０２：ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。

本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、上記の実行主体が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度をローカルに取得することができる。

本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、ネットワークを介して上記の実行主体に接続された他の電子機器が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を遠隔的に取得することができる。

具体的には、候補素材リソースは映像または画像であり得るため、ここでは、テキストと映像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける映像とのマッチング度を計算することができる。また、テキストと画像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける画像とのマッチング度を計算することができる。本出願では、これに対して具体的に限定しない。

ステップ２０３：ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。

本実施形態では、上記の実行主体は、様々な実施方法を採用して、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することができる。ここで、画像の再生時間長は、事前設定された画像の再生時間長である。

なお、ここで、映像タイプの候補素材リソースの再生時間長は、映像タイプの候補素材リソースの固有属性であって、一定なものである。一方、画像タイプの候補素材リソースの場合、ここでは、各画像タイプの候補素材リソースの再生時間長を、一定の事前設定された画像再生時間長(例えば、３秒)に設定することができる。このようにして、すべての候補素材リソースは、固定された再生時間長属性を持つことができる。

本実施形態のいくつかのオプションの実施方法では、ステップ２０３は、次のように行うことができる。

ナレーションにおける各段落については、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定する。

すなわち、ナレーションにおける各段落については、ステップ２０２で取得された候補素材リソースのセットから順番に並べられた候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスをそれぞれ構成する。ここで、選択された該段落に対応する候補素材リソースシーケンスの再生時間長は、該段落に対応する再生時間長に等しい。

ここで、候補素材リソースシーケンスの再生時間長は、候補素材リソースシーケンスにおける各候補素材リソースの再生時間長の和である。一方、段落に対応する再生時間長は、段落における文字数と事前設定された話速によって決まる。例えば、事前設定された話速を１秒あたりＮ文字、段落における文字数をＭ文字とすると、段落に対応する再生時間長はＬ秒となる。ここで、ＬはＭをＮで割った比である。

ここで、第１の事前設定された最適化アルゴリズムは、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第１の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。

第２の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。

上記のオプションの実施方法と比較して、ここでの最適化目標は、上記のオプションの実施方法の最適化目標とは異なる。上記のオプションの実施方法では、各段落をそれぞれ最適化し、各段落と該段落に対応する候補素材リソースシーケンスとのマッチング度が最大となることを最適化目標とする。一方、ここでのオプションの実施方法では、ナレーションにおける各段落全体を最適化し、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標としている。

ここで、第２の事前設定された最適化アルゴリズムも、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第２の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。

本実施形態のいくつかのオプションの実施方法では、ステップ２０３で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースは、互いに異なっていてもよい。その結果、その後に生成されたナレーションに対応する映像には重複する画像や映像がなく、生成された映像の読みやすさやビビッドさが向上する。ステップ２０３で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる場合、上記の２つのオプションの実施方法における制約条件には、確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なるという制約条件を加える必要があることを理解されたい。

引き続き図３を参照すると、図３は、本出願に係る段落と映像を整列させるための方法の適用シナリオを示す概略図である。図３の適用シナリオにおいて、ニュース系サイトをサポートするサーバー３０１は、まず、ナレーション３０２とナレーション３０２に対応する候補素材リソースのセット３０３を取得することができる。次に、サーバー３０１は、ナレーション３０２の各段落と候補素材リソースのセット３０３における各候補素材リソースとのマッチング度３０４を取得することができる。最後に、サーバー３０１は、ナレーション３０２における各段落と候補素材リソースのセット３０３における各候補素材リソースとのマッチング度３０４、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーション３０２における各段落に対応する候補素材リソースシーケンス３０５を確定することができる。

本出願の上記の実施形態によって提供される方法は、ナレーションとナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。

さらに図４Ａを参照すると、本出願に係る段落と映像を整列させるための方法の別の実施形態のプロセス４００が示されている。この段落と映像を整列させるための方法の別の実施形態のプロセス４００は、次のステップ（ステップ４０１〜４０５）を含む。

ステップ４０１：ナレーションとナレーションに対応する候補素材リソースのセットを取得する。

ステップ４０２：ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。

ステップ４０３：ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。

本実施形態では、ステップ４０１、ステップ４０２、およびステップ４０３の具体的な動作は、図２に示される実施形態におけるステップ２０１、ステップ２０２、およびステップ２０３の動作とほぼ同じであるため、ここでは省略する。

ステップ４０４：ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。

本実施形態では、上記の実行主体は、ステップ４０３で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成することができる。

本実施形態のいくつかのオプションの実施方法では、ステップ４０４は、図４Ｂに示されるステップ４０４１とステップ４０４２を含み得る。図４Ｂを参照すると、本出願に係るステップ４０４の一実施形態の分解フローチャートが示されている。

ステップ４０４１：ナレーションにおける各段落について、音声合成技術を用いて、該段落に対応する音声を生成する。

なお、音声合成技術は現在幅広く研究され応用されている先行技術であるため、ここではその説明を省略する。

ステップ４０４２：ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。

いくつかの実施方法では、ステップ４０４２は次のように行うことができる。

まず、ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続し、第１の音声を取得することができる。

次に、ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第１の映像を取得することができる。

ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。

最後に、取得した第１の音声と第１の映像を、それぞれ、ナレーションに対応する映像における音声部分と映像部分として確定する。

いくつかの実施方法では、ステップ４０４２は、図４Ｃに示されるステップ４０４２１〜ステップ４０４２６を含むこともできる。図４Ｃを参照すると、本出願に係るステップ４０４２の一実施形態の分解フローチャートが示されている。

ステップ４０４２１：ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力して、該段落に対応する映像アドバンスプレイ時間長を取得する。

ここで映像アドバンスプレイ時間決定モデルは、テキストとテキストに対応する映像アドバンスプレイ時間長との対応関係を表す。

実際には、手動で編集されたニュース映像では、司会者が発話する前に映像の再生がすでに始まっているのがほとんどである。ナレーションに対して生成された映像が手動で編集されたニュース映像のように人間の視聴習慣に合うようにするために、あらかじめ大量のトレーニングサンプルに基づいて、機械学習アルゴリズムを用いて映像アドバンスプレイ時間決定モデルをトレーニングしておくことができる。ここで、トレーニングサンプルは、サンプルニュース映像に含まれているテキストと、該サンプルニュース映像における映像のナレーション音声よりも早いアノテーション時間を含むことができる。

ステップ４０４２２：ナレーションにおける最後の段落以外の各段落について、ナレーションにおける該段落の前から後への順に従って、段落映像クリップステップを実行する。

ここで、段落映像クリップステップは、次の動作を含み得る。

第１に、該段落の次の段落に対応する映像アドバンスプレイ時間を映像カット時間長として確定する。

第２に、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続し、該段落に対応する映像を取得する。

第３に、該段落に対応する映像の末尾から映像カット時間長の映像をカットする。

すなわち、この技術的解決手段は、ナレーションにおける第１段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の映像の末尾をカバーすることである。一方、映像のアドバンスプレイと映像カバーの時間長は、ステップ４０４２１で確定された該段落に対応する映像アドバンスプレイ時間長である。

ステップ４０４２３：ナレーションにおける最後の段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、最後の段落に対応する映像を取得する。

ステップ４０４２４：ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続して、第２の映像を取得する。

ステップ４０４２５：ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第２の音声を取得する。

ステップ４０４２６：取得した第２の音声と第２の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。

いくつかの実施方法では、ステップ４０４２は、図４Ｄに示されるステップ４０４２１’〜ステップ４０４２５’を含むこともできる。図４Ｄを参照すると、本出願に係るステップ４０４２の別の実施形態の分解フローチャートが示されている。

ステップ４０４２１’：ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力し、該段落に対応する映像アドバンスプレイ時間長を取得する。

ここで、ステップ４０４２１’の具体的な動作は、ステップ４０４２１の動作とほぼ同じであるため、ここでは省略する。

ステップ４０４２２’：ナレーションにおける最後の段落を除く各段落について、ナレーションにおける該段落の前から後への順に従って、段落音声延長ステップを実行する。

ここで、段落音声延長ステップは、次の動作を含み得る。

第１に、該段落の次の段落に対応する映像アドバンスプレイ時間長を音声延長時間長として確定する。

第２に、該段落に対応する音声の末尾に、確定された音声延長時間長の無音再生時間長を追加する。

すなわち、この技術的解決手段は、ナレーションにおける第１段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の音声の末尾に無音再生時間長を追加することである。一方、映像アドバンスプレイ時間長と音声延長時間長は、ステップ４０４２１’で確定された該段落に対応する映像アドバンスプレイ時間長である。

ステップ４０４２３’：ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第３の音声を取得する。

ステップ４０４２４’：ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第３の映像を取得する。

ステップ４０４２５’：取得した第３の音声と第３の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。

ステップ４０５：ナレーションに対応する映像を端末装置に送信する。

本実施形態では、上記の実行主体は、ステップ４０４で生成されたナレーションに対応する映像を端末装置に送信することができる。ここで、端末装置は、ネットワークを介して上記の実行主体に接続された電子機器であり得る。このようにして、上記端末装置は、上記の実行主体が送信した映像を受信したことに対応して、受信した映像を提示し、ナレーションに対応する映像を端末装置に提示することができる。ナレーションがニュースイベントＥに対するものであれば、ニュースイベントＥに対するニュースクラスタＣのナレーションに対応する映像を端末装置に提示することが可能となる。ユーザーは端末装置上でニュースイベントＥに対するニュースクラスタＣのナレーションに対応する映像を視聴することで、ニュースイベントＥを素早く知ることができる。ユーザーは文字を読まなくてもニュースクラスタＣが焦点を合わせたニュースイベントＥを知ることができるため、ユーザーのニュースイベント情報取得の効率が向上する。

図４Ａから分かるように、本実施形態における段落と映像を整列させるための方法のプロセス４００は、図２に対応する実施形態と比較して、ナレーションに対応する映像を生成するステップと、ナレーションに対応する映像を端末装置に送信するステップとを追加した。したがって、本実施形態で説明した技術的解決手段は、ナレーションに対応する映像を端末装置に提示することができる。ユーザーは提示されたナレーションに対応する映像を端末装置上で視聴でき、端末装置の情報提示機能が拡張される。

さらに、図５を参照すると、上記の各図に示される方法の実施として、本出願は段落と映像を整列させるための装置の一実施形態を示している。該装置の実施形態は図２に示された方法の実施形態に対応しており、該装置は具体的には、様々な電子機器に適用することができる。

図５に示されるように、本実施形態の、段落と映像を整列させるための装置５００は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得するように構成された第１取得ユニット５０１と、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第２取得ユニット５０２と、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニット５０３と、を含み、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。

本実施形態では、段落と映像を整列させるための装置５００の第１取得ユニット５０１、第２取得ユニット５０２、および確定ユニット５０３の具体的な処理ならびにそれに伴う技術的効果は、それぞれ図２に対応する実施形態におけるステップ２０１、ステップ２０２およびステップ２０３の関連説明を参照することができる。ここでは、これ以上説明しない。

本実施形態のいくつかのオプションの実施方法では、上記の装置５００は、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、上記のナレーションに対応する映像を生成するように構成された映像生成ユニット５０４をさらに含む。

本実施形態のいくつかのオプションの実施方法では、上記の装置５００は、端末装置が受信した映像を提示できるように、上記のナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニット５０５をさらに含む。

本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット５０３はさらに、上記のナレーションにおける各段落について、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。

本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット５０３はさらに、第２の事前設定された最適化アルゴリズムを用いて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。

本実施形態のいくつかのオプションの実施方法では、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なることができる。

本実施形態のいくつかのオプションの実施方法では、上記の第１の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。

本実施形態のいくつかのオプションの実施方法では、上記の第２の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。

本明細書の実施形態によって提供される、段落と映像を整列するための装置における各ユニットの実施の詳細および技術的効果は、本出願における他の実施形態の説明を参照することができるため、ここではこれ以上説明しない。

次に、図６を参照すると、本出願の実施形態を実施するためのサーバーに適するコンピュータシステム６００の構造概略図が示されている。図６に示されるサーバーは、あくまでも一例にすぎず、本出願の実施形態の機能および使用範囲に如何なる制限も課すべきではない。

図６に示されるように、コンピュータシステム６００は、読み取り専用メモリ（ＲＯＭ，ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に記憶されたプログラムまたは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３にロードされたプログラムにより、様々な適切な動作および処理を実行できる１つまたは複数の中央処理装置(ＣＰＵ，ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)６０１を含み得る。ＲＡＭ６０３には、システム６００の動作に必要な各種プログラムやデータも記憶されている。ＣＰＵ６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入出力（Ｉ/Ｏ，Ｉｎｐｕｔ/Ｏｕｔｐｕｔ）インターフェース６０５もバス６０４に接続されている。

Ｉ/Ｏインターフェース６０５に接続される装置は、キーボード、マウスなどの入力部６０６と、陰極線管(ＣＲＴ、ＣａｔｈｏｄｅＲａｙＴｕｂｅ)、液晶ディスプレイ（ＬＣＤ，ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）など及びスピーカーなどの出力部６０７と、ハードディスクなどの記憶部６０８と、ローカルエリアネットワーク(ＬＡＮ、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ)カード、モデムなどのネットワークインターフェースカードを含む通信部６０９と、を含む。通信部６０９は、インターネットなどのネットワークを介して通信処理を行う。ドライバー６１０も、必要に応じてＩ/Ｏインターフェース６０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア６１１は、必要に応じてドライバー６１０にインストールされることで、リムーバブルメディア６１１から必要に応じて読み出されるコンピュータプログラムが記憶部６０８にインストールされる。

特に、本開示の実施形態によると、フローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品が含まれる。該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードしてインストールすることができ、および/またはリムーバブルメディア６１１からインストールすることができる。該コンピュータプログラムが中央処理装置(ＣＰＵ）６０１によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。本開示の実施形態で説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、またはこれらの２つの任意の組み合わせであり得ることに留意されたい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数のワイヤを有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されることができる。本開示の実施形態では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、または組み合わせて使用されるプログラムを送信、伝播、または伝送できる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、ワイヤレス、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。

本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語や、「Ｃ」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピュータ上で実行されることも、部分的にユーザーのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバー上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザーのコンピュータに接続されることができる。または、外部のコンピュータに接続されることができる（例えば、インターネットサービスプロバイダーによるインターネット経由で接続される）。

添付図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための１つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている２つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。

本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「第１取得ユニットと、第２取得ユニットと、確定ユニットと、を含むプロセッサ」と説明されることができる。ここで、これらのユニットの名称は、ユニット自体に対する制限を構成しない場合がある。例えば、第１取得ユニットは、「ナレーションとナレーションに対応する候補素材リソースのセットを取得するユニット」と説明されることができる。

別の態様では、本出願はまた、上記の実施形態で説明した装置に含まれ得る、または別個に存在し、装置に組み込まれないコンピュータ可読媒体を提供する。上記のコンピュータ可読媒体には1つまたは複数のプログラムが格納されており、上記の1つまたは複数のプログラムが上記の装置によって実行されると、上記の装置は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得し、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。

さらに別の態様では、本出願の実施形態は、インターフェースと、1つまたは複数のプログラムが格納されるメモリと、前記インターフェースおよび前記メモリに動作可能に接続された1つまたは複数のプロセッサと、を含む別のサーバーをさらに提供する。前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。

さらに別の態様では、本出願の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供する。上記のコンピュータプログラムが１つまたは複数のプロセッサによって実行されると、上記の１つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。

上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それだけに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

本出願の実施形態は、コンピュータ技術分野に関し、特に、段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。

Claims

ナレーションと、前記ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得するステップと、
前記ナレーションにおける各段落と、前記候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、
前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、を含み、
画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための方法。
前記方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む、請求項１に記載の方法。
前記方法は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するステップをさらに含む、請求項２に記載の方法。
前記の前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
前記ナレーションにおける各段落について、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む、請求項３に記載の方法。
前記の前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
第２の事前設定された最適化アルゴリズムを用いて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む、請求項３に記載の方法。
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる、請求項５に記載の方法。
前記第１の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項４に記載の方法。
前記第２の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項５に記載の方法。
ナレーションと前記ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得するように構成された第１取得ユニットと、
前記ナレーションにおける各段落と、前記候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第２取得ユニットと、
前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニットと、を含み、
画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための装置。
前記装置は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む、請求項９に記載の装置。
前記装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む、請求項１０に記載の装置。
前記確定ユニットはさらに、
前記ナレーションにおける各段落について、第１の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている、請求項１１に記載の装置。
前記確定ユニットはさらに、
第２の事前設定された最適化アルゴリズムを用いて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている、請求項１１に記載の装置。
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる、請求項１３に記載の装置。
前記第１の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項１２に記載の装置。
前記第２の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである、請求項１３に記載の装置。
１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を含むサーバーであって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１〜８のいずれか一項に記載の方法を実施させるサーバー。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムが１つまたは複数のプロセッサによって実行されると、請求項１〜８のいずれか一項に記載の方法を実施するコンピュータ可読記憶媒体。