JP2023062173A

JP2023062173A - ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置

Info

Publication number: JP2023062173A
Application number: JP2023026371A
Authority: JP
Inventors: ハイフェン・ワン; Haifeng Wang; ハオ・ティアン; Hao Tian; シンヤン・シャオ; Xinyan Xiao; シン・リー; Xing Li; ティアン・ウー; Tian Wu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2023-02-22
Publication date: 2023-05-02
Also published as: US20230214423A1; CN114254158A; CN114254158B

Abstract

【課題】ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法及びその装置を提供する。【解決手段】ビデオ生成方法は、テキストのグローバルセマンティック情報と、テキストセグメントに対応するローカルセマンティック情報とを取得するステップＳ２０１と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行い、第１のデータを得るステップＳ２０２と、ローカルセマンティック情報に基づいてデータベースにおいて検索を行い、第２のデータを得るステップＳ２０３と、第１のデータと第２のデータに基づき、候補データセットを得るステップＳ２０４と、テキストセグメントと候補データセットのうちの各候補データとの相関度に基づき、テキストセグメントにターゲットデータをマッチングするステップＳ２０５と、テキストセグメントにマッチングしたターゲットデータに基づきビデオを生成するステップＳ２０６と、を含む。【選択図】図２

Description

本開示は、人工知能分野に関し、具体的には、自然言語処理技術、深層学習技術、コンピュータ視覚技術及び画像処理技術などに関し、特にビデオ生成方法、ニューラルネットワークのトレーニング方法、ビデオ生成装置、ニューラルネットワークのトレーニング装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

人工知能は、コンピュータに人間の何らかの思惟過程および知の行動（例えば、学習、推理、思考、計画など）をシミュレートさせるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能のハードウェア技術は、一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。

数字コンテンツは、インターネットの中核となる基礎である。テキストコンテンツと比べて、ビデオコンテンツは、より豊富な情報を含み、ユーザによりフレンドリーで、より高い伝播効果も有する。モバイルインターネットハードウェア施設の発展に伴って、ビデオコンテンツのニーズは、迅速に増加している。

この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。

本開示は、ビデオ生成方法、ニューラルネットワークのトレーニング方法、ビデオ生成装置、ニューラルネットワークのトレーニング装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。

本開示の一態様によれば、ビデオ生成方法を提供し、この方法は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得することと、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得ることと、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得ることと、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることと、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングすることと、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することとを含む。

本開示の別の態様によれば、ニューラルネットワークのトレーニング方法を提供し、このニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この方法は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応することと、サンプルテキストに含まれる複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得ることと、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算することと、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得することと、サンプルテキストセグメントに含まれる複数の第２のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示することと、複数の第２のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示することと、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第２の損失値を計算し、ここで、第２の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関であることと、第１の損失値と第２の損失値に基づき、ニューラルネットワークのパラメータを調整することとを含む。

本開示の別の態様によれば、ビデオ生成装置を提供し、この装置は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するように構成される第１の取得ユニットと、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得るように構成される第１の検索ユニットと、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得るように構成される第２の検索ユニットと、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得るように構成される第２の取得ユニットと、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングユニットと、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニットとを含む。

本開示の別の態様によれば、ニューラルネットワークのトレーニング装置を提供し、ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この装置は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第３の取得ユニットであって、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第３の取得ユニットと、サンプルテキストに含まれる複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第１の入力ユニットと、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算するように構成される第１の計算ユニットと、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第４の取得ユニットと、サンプルテキストセグメントに含まれる複数の第２のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得るように構成される第２の入力ユニットであって、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示する第２の入力ユニットと、複数の第２のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得るように構成される第３の入力ユニットであって、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示する第３の入力ユニットと、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第２の損失値を計算するように構成される第２の計算ユニットであって、第２の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関である第２の計算ユニットと、第１の損失値と第２の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される調整ユニットとを含む。

本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、これらの命令は少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサが以上に記載の方法を実行することを可能にする。

本開示の別の態様によれば、以上に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ読み取り可能な記憶媒体を提供する。
本開示の実施例によれば、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために使用される。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同じ符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による、本明細書に記載された様々な方法をその中で実施することができる例示的なシステムの概略図を示す。本開示の実施例による統一モーダルニューラルネットワークの概略図を示す。本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。本開示の例示的な実施例による、少なくとも一つのテキストセグメントにターゲットデータをマッチングするフローチャートを示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。本開示の実施例を実現するために使用できる例示的な電子機器の構造ブロック図を示す。

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。

本開示では、特に明記しない限り、様々な要素を説明するための「第１の」、「第２の」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第１の要素と第２の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づき、異なる例を指してもよい。

本開示の前記様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「及び／または」は、テーブルされた項目のいずれか及び可能な全ての組み合わせをカバーする。

しかしながら、手動によるビデオ製作の効率が比較的に低く、益々増加しているビデオコンテンツのニーズにマッチングすることができない。手動によるビデオ製作と比べて、手動による文字創作の効率がより高く、同時に、インターネットにおいて大量のテキスト又は画像テキストタイプのコンテンツが蓄積されている。そのため、テキストコンテンツに基づき、インターネットにおける大量の素材を結び付けてビデオコンテンツをどのように自動的に生成するかは、早急な解決の待たれる問題となっている。

現在では、テキストコンテンツに基づいてビデオを生成する方式は、主に次の三つがあり、
（１）文字からビデオクリップツールに基づいて生成する方法：クリップツールによって、まずユーザによって入力されるテキストコンテンツをオーディオに自動的に転換し、次にダビング、司会者の配置、背景図の配置などの手動操作よって、最終的にビデオを生成し、
（２）ツール系文章又はテンプレート系文章によって解説ビデオを生成する方法：まず要約抜き取りツールによって、文字シーケンスを抽出し、次に文字シーケンスに基づいてピクチャ検索を行い、固定テンプレートと協力して人工編集を行って複数のビデオセグメントを生成し、各セグメントをスティッチングして最終的にビデオを生成し、
（３）トピックに基づいてテキストを記述するビデオ生成方法：ニューラルネットワークモデルに基づいてテキストをセマンティックベクトルに転換し、さらにセマンティックベクトルに基づいてビデオを生成する。この方法は、短い文字記述（例えば、ガンの群れが空を飛んでいる）に対して、簡単なシーンでのビデオを自動的に生成することができる。

ここで、上記前の二つの方法には、自動化とインテリジェント化程度が高くなく、生成されたビデオモードが比較的に固定であり、適用シーンが比較的に単一で、生成結果に基づいてトレーニングと最適化を行いにくいなどという欠点が存在し、第３種の方法は、簡単なテキストによってビデオを自動的に生成する効果を実現することができるが、この方法は、ニューラルネットワークモデルに直接的に依存するため、生成プロセスを制御しにくく、生成結果の真正性と信頼性を確保しにくい。

上記問題を解決するために、本開示は、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。

以下、図面を参照して本開示の実施例について詳細に説明する。
図１Ａは、本開示の実施例による、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム１００の概略図を示す。図１を参照すると、このシステム１００は、１つ又は複数のクライアントデバイス１０１、１０２、１０３、１０４、１０５、１０６、サーバ１２０、及び１つ又は複数のクライアントデバイスをサーバ１２０に結合する１つ又は複数の通信ネットワーク１１０を含む。クライアントデバイス１０１、１０２、１０３、１０４、１０５、１０６は、１つ又は複数のアプリケーションを実行するように構成することができる。

本開示の実施例では、サーバ１２０は、ビデオ生成方法の１つまたは複数のサービスまたはソフトウェアアプリケーションを実行できるように動作する。
いくつかの実施例では、サーバ１２０は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、ｗｅｂベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアはすなわちサービス（ＳａａＳ）であるモデル下でクライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供される。

図１Ａに示す構成では、サーバ１２０は、サーバ１２０により実行される機能を実現する１つ又は複数のモジュールを含んでもよい。これらのモジュールは、１つ又は複数のプロセッサで実行できるソフトウェアモジュール、ハードウェアモジュール、又はそれらの組み合わせを含んでもよい。クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、これらのモジュールが提供するサービスを利用するために、１つ又は複数のクライアントアプリケーションを用いてサーバ１２０とのインタラクションを行うことができる。様々な異なるシステム構成が可能であり、システム１００とは異なってもよいことを理解されたい。したがって、図１は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。

ユーザは、クライアント機器１０１、１０２、１０３、１０４、１０５及び／又は１０６を使用して基本的オプションを配置し、生成されるべきビデオのテキストを編集し、ニューラルネットワークによって生成された全文キーワード、段落キーワードなどを修正することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとのインタラクションを行うインタフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。図１では６つのクライアントデバイスしか図示していないが、当業者であれば理解できるように、本願はいかなる数のクライアントデバイスにサポートできる。

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、携帯型ハンドヘルドデバイス、汎用コンピュータ（例えば、パーソナルコンピュータやノートパソコン）、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピューティングデバイスを含んでもよい。これらのコンピューティングデバイスは、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓ、ＡＰＰＬＥｉＯＳ、類ＵＮＩＸ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）又は類Ｌｉｎｕｘ（登録商標）オペレーティングシステム（例えば、ＧＯＯＧＬＥＣｈｒｏｍｅＯＳ）などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント（ＰＤＡ）などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ（例えば、スマートグラス）と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットＩｎｔｅｒｎｅｔ関連アプリケーション、通信アプリケーション（例えば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーション、さまざまなアプリケーションを実行でき、且つさまざまな通信プロトコルを使用できる。

ネットワーク１１０は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか１つ（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むがこれらに限定されない）を使用することができる。例として、１つ又は複数のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（例えば、ブルートゥース（登録商標）、ＷＩＦＩ）、及び／又はこれらとその他のネットワークの任意の組み合わせであってもよい。

サーバ１２０は、１つ又は複数の汎用コンピュータ、専用サーバコンピュータ（例えば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ）、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び／又は組み合わせを含んでもよい。サーバ１２０は、仮想オペレーティングシステムを実行する１つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ（例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの１つ又は複数のフレキシブルプール）を含んでもよい。様々な実施例において、サーバ１２０は、以下に説明する機能を提供する１つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。

サーバ１２０内の計算ユニットは、上述した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む１つ又は複数のオペレーティングシステムを実行することができる。サーバ１２０は、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び／又は中間層アプリケーションのいずれか１つを実行することもできる。

いくつかの実施形態では、サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザから受信したデータフィード及び／又はイベントの更新を分析及び統合するための１つ又は複数のアプリケーションを含んでもよい。サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６の１つ又は複数のディスプレイデバイスを介してデータフィード及び／又はリアルタイムイベントを表示する１つ又は複数のアプリケーションを含んでもよい。

いくつかの実施形態では、サーバ１２０は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ１２０は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステム中のホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービス中に存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。

システム１００は、１つ又は複数のデータベース１３０を含んでもよい。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース１３０内の１つまたは複数は、オーディオファイルや映像ファイルなどの情報を記憶するために使用されることができる。データベース１３０は、さまざまな位置に配置することができる。例えば、サーバ１２０が使用するデータベースは、サーバ１２０のローカルにあってもよいし、サーバ１２０から離れて、ネットワーク又は専用の接続を介してサーバ１２０と通信してもよい。データベース１３０は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ１２０が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの１つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。

いくつかの実施例では、データベース１３０のうちの１つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。

図１Ａのシステム１００は、本開示に基づいて説明した様々な方法および装置を応用することができるように、様々な方法で構成し操作することができる。
本開示の一態様によれば、ビデオ生成方法を提供する。この方法は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するステップＳ２０１と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得るステップＳ２０２と、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得るステップＳ２０３と、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得るステップＳ２０４と、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするステップＳ２０５と、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するステップＳ２０６とを含む。

これによって、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。

一例示的な実施例では、時点Ａに発生した公的人物Ｂが会社Ｃの製品発表イベントＤに参加することについてのテキストのうちのあるテキストセグメントには、公的人物Ｂのみが含まれる場合、このテキストセグメントに対応するローカルセマンティック情報（例えば、キーワード「公的人物Ｂ」）を使用して検索を行う時、得られるデータは、会社Ｃ、製品発表イベントＤ又は時点Ａにまったく関連しないビデオ、例えばこの公的人物Ｂの伝播度が広い娯楽ビデオ、又は公的人物Ｂが他社の製品を代弁する広告である可能性がある。このようなデータをこのテキストセグメントにマッチングしたターゲットビデオとして使用すれば、最終的に生成されたビデオがテキストの全体的なコンテンツに客観的にマッピングせず且つ違和感があるようにする。グローバルセマンティック情報に基づいて検索して得られるビデオ又は画像データのみを使用すれば、ビデオを生成するための十分な候補データを得ることができない可能性がある。候補データが十分であっても、最終的に生成されたビデオコンテンツが単一で、各テキストセグメントとの間の相関度が客観的に低くなる。例えば、テキストのうちの一つのテキストセグメントは、公的人物Ｂが製品発表イベントＤを参加する時に記述されている履歴イベントＥに関するものであり、履歴イベントＥがテキストのグローバルセマンティック情報でなければ、履歴イベントＥに関連するビデオ又は画像が検索されることができず、さらにこのテキストセグメントのターゲットデータとしてマッチングされることができない。

なお、テキストセグメントと候補データとの間の相関度に基づいてテキストセグメントにターゲットデータをマッチングすることによって、ターゲットデータが対応するテキストセグメントのキーワードのみに関連しているのではなく（そうでなければ、上記客観的に違和感がある状況が同様に現れる）、テキストセグメント全体に関連していることを確保することができる。

いくつかの実施例によれば、テキストからビデオへの変換を開始する前に、ユーザがアプリケーション端末によって基本的配置オプションを設定することをサポートすることができる。

いくつかの実施例では、ユーザがボイス合成（ＴＴＳ、ＴｅｘｔｔｏＳｐｅｅｃｈ）機能に対して、ボイス合成機能をオンにするか否か、ボイス合成の音色、音量及び話速などの選択を含む配置を行うことをサポートすることができる。

いくつかの実施例では、ユーザが背景音楽に対して、背景音楽を添加するか否か、背景音楽のタイプなどの選択を含む配置を行うことをサポートすることができる。
いくつかの実施例では、ユーザがビデオの生成方式に対して、全自動ビデオ生成、マンマシンインタラクション支援ビデオ生成などの選択を含む配置を行うことをサポートすることができる。

いくつかの実施例では、ユーザが、統一モーダルニューラルネットワークのトレーニング方式に対して、ユーザフィードバックデータに基づくニューラルネットワーク最適化トレーニングなどを起動するか否かことを選択を含む配置を行うことをサポートすることができる。

いくつかの実施例では、ユーザが変換されるべきテキストのタイプを設定することをサポートすることができ、ここで、変換されるべきテキストのタイプは、テキスト文書、画像テキストコンテンツを含むコンテンツ類ページ、探索キーワード又は探索問題、実体語などを含んでもよい。ユーザは、上記タイプのうちの一つ又は複数タイプのテキストを選択してビデオ生成を行うことができる。ユーザは、変換されるべきテキストのタイプを設定する上で、さらに具体的なテキスト文書、ページＵＲＬアドレス、具体的な探索キーワードテキスト又は探索問題テキスト、具体的な実体語テキストなどを与えることにより、上記タイプに応じた具体的な変換されるべきテキストを設定することができる。

いくつかの実施例では、ユーザが上記一つ又は複数の基本的配置オプションに対して配置を行うことをサポートすることができる。
いくつかの実施例によれば、変換されるべきテキストに基づき、ビデオを生成するための前記テキストを取得することができる。

いくつかの実施例では、変換されるべきテキストをテキスト文書に確定することに応答し、ユーザによって選択されるテキスト文書におけるテキストコンテンツを直接的に読み取ることにより、前記テキストを取得することができる。

いくつかの実施例では、変換されるべきテキストを画像テキストコンテンツを含むコンテンツ類ページとして確定することに応答し、例えば、ニュース記事、知識記事、経験記事などのコンテンツを含むページであり、オープンソースのウェブページ解析ツール（例えばＨＴＭＬＰａｒｓｅｒなど）に基づき、ユーザによって選択されるページＵＲＬアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのＭｅｔａタグ情報を取得することができる。

いくつかの実施例では、変換されるべきテキストを探索キーワード又は探索問題として確定することに応答し、探索キーワード又は探索問題に基づいて複数の探索結果を取得し、さらにオープンソースのウェブページ解析ツール（例えばＨＴＭＬＰａｒｓｅｒなど）に基づき、各探索結果のページＵＲＬアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのＭｅｔａタグ情報を取得することができる。ここで、探索結果を取得するための探索エンジン及びデータベースは、実際の必要に応じて自ら設定することができ、ここで限定しない。

いくつかの実施例では、複数の探索結果を最初に取得した後、まず探索結果における広告などの非コンテンツ系のページをフィルタリングし、フィルタリングされた後のページから探索キーワード又は探索問題との相関度が比較的に高く、且つ画像又はビデオ素材がより豊富な複数のコンテンツ系ページを選択し、上記処理を行うことができる。

いくつかの実施例では、変換されるべきテキストを実体語として確定することに応答し、実体語に基づき、その対応する百科事典ページを取得し、さらにオープンソースのウェブページ解析ツール（例えばＨＴＭＬＰａｒｓｅｒなど）に基づき、上記百科事典ページのページＵＲＬアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのＭｅｔａタグ情報を取得することができる。ここで、実体語は、すなわち命名実体であり、人名、機構名、地名及び名称を標識とする他の全ての実体を含む。

いくつかの実施例によれば、前記テキストを取得した後、トレーニングされた統一モーダルニューラルネットワークを利用して、前記テキストを処理して、テキストにおける各類情報を取得することができる。

統一モーダルニューラルネットワークは、複数のモーダル入力に対して統一処理を行うニューラルネットワークモデルであり、テキスト分類（キーワード抽出）、テキスト情報抽出、テキストと画像又はビデオとの相関度計算、テキストに基づいく画像又はビデオ生成などのタスクを完了するために用いることができる。図１Ｂに示されるように、統一モーダルニューラルネットワークの本体部分は、複数のトランスフォーマー（ＴＲＡＮＳＦＯＲＭＥＲ）レイヤで構成され、且つ下流タスクの異なりに応じて、多層ＴＲＡＮＳＦＯＲＭＥＲの後に他のネットワーク構造を結合することができる。統一モーダルニューラルネットワークは、テキスト、画像、又は画像テキストのペアなどの入力を受信し、且つこれらの入力を埋め込んで、多層ＴＲＡＮＳＦＯＲＭＥＲに入力するための該当するテキスト特徴又は画像特徴を得、それにより多層ＴＲＡＮＳＦＯＲＭＥＲ出力の統合セマンティック表現を得ることができる。

具体的には、テキスト入力Ｗに対して、まず語切り分けによって語シーケンスＷ＝｛［ＣＬＳ］、ｗ_１、…、ｗ_ｎ、［ＳＥＰ］｝に転換し、その後に多層ＴＲＡＮＳＦＯＲＭＥＲによってコンテキストに関連するセマンティック表現を取得し、画像入力Ｖに対して、画像を複数のブロックに分け、その後に画像ブロックをベクトル化し、画像入力シーケンスＶ＝｛［ＩＭＧ］、ｖ_１、…、ｖ_ｔ｝を形成し、同様に多層ＴＲＡＮＳＦＯＲＭＥＲによって視覚のセマンティック表現を取得する。最後に、画像テキストのペアの入力（Ｖ、Ｗ）に対して、テキストと視覚部分の入力シーケンスをスティッチングし、Ｖ、Ｗ＝｛［ＩＭＧ］、ｖ_１、…、ｖ_ｔ、［ＣＬＳ］、ｗ_１、…、ｗ_ｎ、［ＳＥＰ］｝を形成し、同様に多層ＴＲＡＮＳＦＯＲＭＥＲによって、クロスモーダルのセマンティック表現を取得する。

上記［ＣＬＳ］、［ＩＭＧ］、［ＳＥＰ］などは、ＴＲＡＮＳＦＯＲＭＥＲに基づくニューラルネットワークを入力する特別な符号である。［ＣＬＳ］と［ＩＭＧ］はそれぞれ、テキストシーケンスと画像シーケンスの全体的セマンティック表現を抽出するために用いることができ、［ＳＥＰ］は、複数の入力の間の分割指示として用いることができる。

いくつかの実施例によれば、トレーニングされた統一モーダルニューラルネットワークを使用することによって、テキストに基づいてグローバルセマンティック情報とローカルセマンティック情報を取得し、テキストセグメントと画像又はビデオデータとの間の相関度を計算し、要約を抽出するなどという複数のタスクを実行し、これらのタスクにおいて使用されるテキスト特徴と視覚特徴は、いずれも同一のセマンティック空間に位置し、それによりこれらのタスクの間に関連関係を確立し、さらにニューラルネットワークによって出力されるグローバルセマンティック情報とローカルセマンティック情報を応用シーンにより適合させ、且つ得られる相関度と要約の正確性を向上させ、生成されたビデオとテキストコンテンツとの一致性が高く、且つビデオを生成するターゲットデータの間に論理的な関連性があり、違和感がないようにする。

いくつかの実施例では、ビデオ入力に対して、まずフレームを抽出し、さらにこれらのフレームを画像ブロックシーケンスに変換する必要がある。フレーム抽出間隔は、例えば現在の利用可能な計算力に基づいて確定することができる。利用可能な計算力に余裕がある時に比較的に小さいフレーム抽出間隔を使用することができ、利用可能な計算力に余裕がない時に比較的に大きいフレーム抽出間隔を使用することができる。

いくつかの実施例では、複数の方式、例えばクロスモーダル比較学習、ビジュアルマスク予測、言語マスク予測などを使用して統一モーダルニューラルネットワークに対してトレーニングを行うことができ、ユーザインタラクションデータを使用して弱監督学習を行うこともできる。以下では、統一モーダルニューラルネットワークをどのようにトレーニングするかについて詳細に記述する。

いくつかの実施例では、比較的に長いテキストについて、テキスト全文に基づいて直接的に生成されたビデオも比較的に長く、ビデオの迅速な消費に不利である。そのため、コンテンツが簡潔なショートビデオを製作したい場合、テキストに対して要約抽出を行うことを考慮することができる。図３に示されるように、ビデオ生成方法は、テキストの要約テキストを取得するステップＳ３０１をさらに含んでもよい。理解できるように、図３におけるステップＳ３０３、ステップＳ３０５～ステップＳ３０６、ステップＳ３０８、ステップＳ３１４～ステップＳ３１５の操作と効果は、図２におけるステップＳ２０１～ステップＳ２０６の操作と効果とそれぞれ同じであり、ここでこれ以上説明しない。テキストの要約は、ビデオの字幕として使用することができ、且つさらにビデオのボイスを生成するために用いることができ、後述する通りである。別のいくつかの実施例では、比較的に短いテキストについて、テキストを要約として直接的に使用してもよく、ニューラルネットワークを使用してテキストを精錬してもよく、ここで限定しない。

いくつかの実施例では、テキストの要約テキストは、統一モーダルニューラルネットワークを利用して取得されるものであってもよい。一例示的な実施例では、抜き取り式の方法を採用して要約テキストを取得することができる。テキストを文節単位で統一モーダルニューラルネットワークに同時に入力することによって、各文節が要約であるか否かの判断結果を得ることができる（例えば、各文節の前に［ＣＬＳ］を設定し、且つ各文節の［ＣＬＳ］に対応する出力特徴に基づいてこの文節が要約テキストに属するか否かを確定する）。理解できるように、テキストの要約テキストを取得するために他の方法も使用され、ここで限定しない。

いくつかの実施例によれば、ユーザは、要約を手動で修正することができる。ステップＳ３０１、統一モーダルニューラルネットワークを利用して、テキストの要約テキストを取得することは、要約テキストを修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいて少なくとも要約テキストを修正することをさらに含んでもよい。なお、ユーザが修正した後の要約は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。

いくつかの実施例によれば、ビデオ生成方法は、要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定するステップＳ３０２をさらに含んでもよい。

いくつかの実施例では、要約テキストをさらに切り分けることによって、ビデオ字幕を得ることができる。
いくつかの実施例では、ボイス合成（ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳ）技術によってテキスト又は要約テキストをビデオボイスに変換することができる。具体的には、まずテキスト又は要約テキストに基づき、テキストのコンテンツタイプ（例えばナラティブタイプ、コメントタイプ、叙情タイプなど）を取得し、且つコンテンツタイプに基づいて該当するボイス合成のトーン、音色、音量、話速などを呼び出すことができる。

いくつかの実施例では、要約テキストのコンテンツタイプ（例えば、ナラティブタイプ、コメントタイプ、叙情タイプなど、又は例えば、スポーツタイプ、ニュースタイプ、娯楽タイプなど）に基づいてビデオ背景音楽のスタイルを確定し、且つ音楽ライブラリにおいて該当する音楽を確定することができる。任意選択的に、ビデオボイスの長さを制限として、時間長が近い音楽をビデオ背景音楽として選択してもよい。

いくつかの実施例では、ユーザがビデオの生成方式をマンマシンインタラクション支援ビデオ生成モードに配置すると確定することに応答し、ユーザがボイス合成の音色、音量及び話速などを実際の必要に応じて自ら設定することをサポートすることもできる。

いくつかの実施例では、ユーザがビデオの生成方式をマンマシンインタラクション支援ビデオ生成モードに配置すると確定することに応答し、ユーザが背景音楽に対して背景音楽を添加するか否か、背景音楽のタイプなどの選択を含む配置を行うことをサポートすることができる。任意選択的に、ユーザに複数の異なるスタイルの背景音楽を提供することもでき、ユーザが実際の必要に応じて背景音楽を自ら選択することをサポートする。

理解できるように、いくつかの実施例では、生成されたビデオには上記ビデオ字幕、ビデオボイス及びビデオ背景音楽のうちの一つ又は複数が含まれてもよく、ここで限定しない。

ビデオを生成する時、生成されたビデオに豊富な視覚要素を備えさせるために、ビデオ、ピクチャなどの視覚素材データを補充することは、そのうちの肝心なステップである。
ステップＳ３０３において、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得する。少なくとも一つのローカルセマンティック情報は、テキストのうちの少なくとも一つのテキストセグメントに対応する。

いくつかの実施例では、グローバルセマンティック情報は、例えば、テキストの全文キーワードであってもよく、ローカルセマンティック情報は、例えば対応するテキストセグメントのキーワードであってもよい。テキストセグメントは、例えばテキストにおける段落であってもよく、テキストにおける文であってもよく、他の粒度でテキストを分けて得られるか、又は他の方式でテキストにおいて確定されるテキストセグメントであってもよい。

いくつかの実施例では、統一モーダルニューラルネットワークを利用して分類タスクに基づいてキーワード予測を実現することができる。キーワードリストをこの分類タスクが予測可能な「カテゴリ」として予め確定し、且つ該当するサンプルを使用してニューラルネットワークに対してトレーニングを行うことによって、ニューラルネットワークは、入力されるテキストに基づいて複数のカテゴリタグを出力することができ、そのうちのそれぞれは、キーワードリストのうちの一つのキーワードに対応する。別のいくつかの実施例では、ニューラルネットワークは、ＴＲＡＮＳＦＯＲＭＥＲレイヤに少なくとも一つの出力特徴を出力して融合処理を行って、テキストの統合セマンティック表現を抽出し、さらに、この表現に基づき、入力されるテキストに対応するキーワードを直接生成することができる。理解できるように、以上は、テキストキーワードを確定する二つの例示的な方法に過ぎず、他の方式でニューラルネットワークを利用してテキストキーワードを取得することもできる。

いくつかの実施例では、グローバルセマンティック情報は、例えば、テキスト全文を統一モーダルニューラルネットワークに入力して得られるものであってもよい。いくつかの実施例では、少なくとも一つのローカルセマンティック情報は、例えば、全文テキストを統一モーダルニューラルネットワークに直接的に入力して得られるものであってもよく、テキストセグメントを統一モーダルニューラルネットワークに入力して得られるものであってもよい。別のいくつかの実施例では、テキスト全文をニューラルネットワークに入力し、ニューラルネットワークは、ＴＲＡＮＳＦＯＲＭＥＲレイヤによって出力される、テキストセグメントに対応する出力特徴に対して融合処理を行って、このテキストセグメントの統合セマンティック表現を抽出し、さらに、この表現に基づいてこのテキストセグメントのローカルセマンティック情報を直接生成することができる。

いくつかの実施例によれば、ステップＳ３０３、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得することは、グローバルセマンティック情報を修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいてグローバルセマンティック情報を修正することを含んでもよい。なお、ユーザが修正した後のグローバルセマンティック情報は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。

いくつかの実施例によれば、ステップＳ３０３、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得することは、少なくとも一つのローカルセマンティック情報を修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいて少なくとも一つのローカルセマンティック情報を修正することを含んでもよい。なお、ユーザが修正した後のローカルセマンティック情報は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。

これによって、ユーザからのユーザ入力を受信することによって、グローバルセマンティック情報とローカルセマンティック情報を調整することができ、その後にグローバルセマンティック情報とローカルセマンティック情報に基づいて検索を行ってテキスト全体とテキストセグメントとの相関度がより高いデータを得ることができる。なお、ユーザ入力は、インタラクションデータとして、ニューラルネットワークを最適化するために用いることができる。

いくつかの実施例によれば、ビデオ生成方法は、少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するステップＳ３０４をさらに含んでもよい。一例示的な実施例では、実体語テーブルを予め確定し、且つ実体語テーブルに基づいてテキストセグメントにおいて実体語を認識することができる。

いくつかの実施例では、ステップＳ３０５において、テキストのグローバルセマンティック情報を探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第１のデータを取得することができる。第１のデータは、グローバルセマンティック情報に基づいて検索して取得されるピクチャデータ又はビデオデータであってもよい。

いくつかの実施例によれば、ステップＳ３０５、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得ることは、グローバルセマンティック情報とテキストのタイトルに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第１のデータを得ることを含んでもよい。

いくつかの実施例では、グローバルセマンティック情報とテキストのタイトルを探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第１のデータを取得することができる。

いくつかの実施例では、コンテキストを結び付けて検索を行うこともでき、例えば、テキスト全文又は一部をコンテキスト情報として選択することができる。一例では、すべてのコンテキスト情報を探索語として使用すれば、探索エンジン又はデータベースの負担が増えるため、探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、使用される計算リソース量がほぼ変化しない場合に探索結果とテキストとの相関性を向上させることができる。

いくつかの実施例では、データベースは、例えば汎用の探索エンジンであってもよく、特定の素材ウェブサイト又は素材データベースであってもよい。少なくとも一つの第１のデータを取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。

いくつかの実施例では、ステップＳ３０６において、各テキストセグメントのローカルセマンティック情報を探索キーワードとして、データベースにおいて検索を行うことによって、少なくとも一つの第２のデータを取得することができる。第２のデータは、各テキストセグメントのローカルセマンティック情報に基づいて検索して取得されるピクチャ又はビデオを含んでもよい。

いくつかの実施例によれば、ステップＳ３０６、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得ることは、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第２のデータを得ることを含んでもよい。これによって、検索時に対応するテキストセグメントを使用することによって、検索結果とテキストセグメントとの相関性を向上させることができる。

いくつかの実施例では、ローカルセマンティック情報とテキストのタイトルを探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第２のデータを取得することができる。

いくつかの実施例によれば、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第２のデータを得ることは、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、複数の第２の検索結果を得ることと、このローカルセマンティック情報に対応するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第２の検索結果をフィルタリングすることによって、少なくとも一つの第２のデータを得ることとを含んでもよい。

いくつかの実施例では、まず、各テキストセグメントのローカルセマンティック情報を探索キーワードとして、データベースにおいて検索して、少なくとも一つの第２の検索結果を取得し、次に、このローカルセマンティック情報に対応するテキストセグメントと第２の検索結果との相関度に基づき、第２の検索結果のフィルタリングを行って、少なくとも一つの第２のデータを取得することもできる。テキストセグメントを直接的に探索語とするには、大量の計算リソースを消費する必要があるため、検索時に探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、少ない計算リソースを使用する場合に探索結果とテキストとの相関性を向上させ、素材取得の効率を向上させることができる。

いくつかの実施例では、少なくとも一つの第２のデータ又は少なくとも一つの第２の検索結果を取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。

いくつかの実施例によれば、図３に示されるように、ビデオ生成方法は、以下をさらに含んでもよい。ステップＳ３０７、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得る。ステップＳ３０８、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることは、少なくとも一つの第１のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータ、及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第３のデータに基づき、候補データセットを得ることを含んでもよい。これによって、実体語に基づいて検索して第３のデータを取得することによって、ビデオを生成するための素材データをより豊富にすることができ、候補データセットにテキストにおいて現れる実体語に直接関連するデータが含まれるようにする。

いくつかの実施例では、ステップＳ３０７において、上記各テキストセグメント実体語を取得することを基礎として、さらに各実体語を探索キーワードとすることに基づいて、データベースにおいて検索して、少なくとも一つの第３のデータを取得し、ここで、第３のデータは、各テキストセグメントの実体語に基づいて検索して取得されるピクチャ又はビデオを含んでもよい。

いくつかの実施例によれば、ステップＳ３０７、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることは、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第３のデータを得ることを含んでもよい。これによって、検索時に対応するテキストセグメントを使用することによって、検索結果とテキストセグメントとの相関性を向上させることができる。

いくつかの実施例では、各テキストセグメントの実体語及び該当するテキストセグメントを探索キーワードとして、データベースにおいて検索して、少なくとも一つの第３のデータを取得することができる。

いくつかの実施例によれば、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることは、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、複数の第３の検索結果を得ることと、この実体語が位置するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第３の検索結果をフィルタリングすることによって、少なくとも一つの第３のデータを得ることとを含んでもよい。

いくつかの実施例では、まず、各テキストセグメントの実体語を探索キーワードとして、データベースにおいて検索して、少なくとも一つの第３の検索結果を取得し、次に、この実体語に対応するテキストセグメントと第３の検索結果との相関度に基づき、第３の検索結果のフィルタリングを行って、少なくとも一つの第３のデータを取得することもできる。テキストセグメントを直接的に探索語とするには、大量の計算リソースを消費する必要があるため、検索時に探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、少ない計算リソースを使用する場合に探索結果とテキストとの相関性を向上させ、素材データ取得の効率を向上させることができる。

いくつかの実施例では、少なくとも一つの第３のデータ又は少なくとも一つの第３の検索結果を取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。

一例では、取得される候補データセットは、グローバルセマンティック情報に対応する少なくとも一つの第１のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータ及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第３のデータを含む。上記方法によって、グローバルからローカル、語までの３つの異なるレベルで豊富な画像データとビデオデータを取得することができる。

画像データとビデオデータを取得すると同時に、画像データとビデオデータのタイトル、記述情報などの関連テキスト情報を取得して、その後にこれらのデータをスクリーニングし、且つ候補データとテキストコンテンツとのマッチングプロセスにより豊富な情報を提供することもできる。

いくつかの実施例によれば、図４に示されるように、ビデオ生成方法は、候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るステップＳ４０５と、候補データセットにおける各候補データの記述テキスト情報を取得するステップＳ４０６と、候補データセットのうちの各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るステップＳ４０７とをさらに含んでもよい。これによって、マッチングリンクとテキストセグメントに相関度を計算するための候補データのより豊富なマルチモーダル情報を得ることができ、後述する通りである。図４におけるステップＳ４０１～ステップＳ４０４、及びステップＳ４０８～ステップＳ４０９の操作と効果は、図２におけるステップＳ２０１～ステップＳ２０６の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。

いくつかの実施例によれば、コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含んでもよい。一例では、視覚理解技術ツールに基づいてビデオデータ又は画像データに対して、字幕、タイトル、弾幕などを含む文字認識を行うことができる。別の一例では、ターゲット検出の方式で実体認識、例えば公的人物の認識、場所の認識、旗の認識などを行うことができる。これによって、コンテンツ理解結果は、候補データにおけるより豊富なコンテンツ情報を提供し、テキストセグメントと候補データとの間の相関度の正確性を向上させることができる。

いくつかの実施例によれば、ボイス認識技術を使用して、候補データにおけるオーディオデータに対してボイス認識を行うことによって、該当するボイステキスト情報を得ることができる。これによって、ボイス認識結果は、候補データにおけるより豊富なコンテンツ情報を提供し、テキストセグメントと候補データとの間の相関度の正確性を向上させることができる。

図３に戻す。いくつかの実施例によれば、図３に示されるように、ステップＳ３０８、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることは、第１のターゲットフィルタリング規則に基づき、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得ることと、ターゲット切り分け規則に基づき、複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得ることと、第２のターゲットフィルタリング規則に基づき、複数のデータセグメントをフィルタリングすることによって、候補データセットを得ることとを含む。これによって、取得されるデータをスクリーニングして切り分け、切り分けられた後のデータをさらにフィルタリングすることによって、候補データセットにおける非相関又は素材データとして不適切なコンテンツを減少し、さらに相関度計算とマッチングリンクにおいて計算量を減少することができる。

いくつかの実施例では、第１のターゲットフィルタリング規則は、例えば、特定のタイプ又は特定の条件を満たすビデオ、例えばシーンが単一のビデオ、視聴回数が少ないビデオ、又はユーザのスコアが比較的に低いビデオなどをフィルタリングするものであってもよい。

いくつかの実施例では、切り分けられるべきデータに対して、すなわちフィルタリングされた後に取得されるビデオデータに対して、まず切り分けて、複数のデータセグメント（すなわちビデオセグメント）を取得することができる。具体的には、遷移又はビデオフレームのセマンティック情報に基づいてビデオを切り分けることができる。複数のデータセグメントを取得することを基礎として、さらにいくつかの特定のシーンのセグメント（例えば、シーン変化が小さい）をフィルタリングし、テキストコンテンツに関連するビデオセグメントのみを候補データとして保持することができる。

いくつかの実施例では、第２のターゲットフィルタリング規則は、例えば、オープニング、エンディング、遷移プロセスなどのセグメントをフィルタリングするものであってもよい。

第１のデータ又は第２のデータが画像である場合、それをフィルタリングして切出さなくてもよい。いくつかの実施例では、上記ステップは、実体語に基づいて検索して得られる第３のデータに同様に用いることができる。

理解できるように、以上の実施例は、例示的なものに過ぎず、第１のターゲットフィルタリング規則と第２のターゲットフィルタリング規則は、得られる候補データがビデオを生成するための素材データとなるように、必要に応じて設定されてもよい。

いくつかの実施例によれば、図３に示されるように、ビデオ生成方法は、少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するステップＳ３０９と、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいて第５のデータを直接生成し、第５のデータの視覚コンテンツは、ターゲットテキストセグメントに関連付けられるステップＳ３１０と、第５のデータを候補データセットに添加するステップＳ３１１とをさらに含んでもよい。

いくつかの実施例では、予めトレーニングされた統一モーダルニューラルネットワークは、人工知能能力に基づく文字から画像又は文字からビデオへの生成を有するため、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいてターゲットテキストセグメントに記述されているコンテンツと一致する画像又はビデオ、すなわち第５のデータを直接生成することができる。理解できるように、一つのターゲットテキストセグメントに基づいて一つ又は複数の第５のデータを生成することができ、ここで限定しない。これによって、上記方法を使用することによって、素材としての画像データとビデオデータをより豊富にすることができ、且つデータベースにおいて対応するデータがない場合、適切な視覚素材データを提供し、利用可能な素材データがない状況を避けることができる。

一例示的な実施例では、ターゲットテキストセグメントが「皿の上に５個のリンゴが盛られている」であれば、直接生成の方式で「皿の上に５個のリンゴが盛られている」を具現化する画像データを生成することができる。

いくつかの実施例によれば、第５のデータを直接生成することは、ターゲットテキストセグメントにおいて実体語を認識することと、統一モーダルニューラルネットワークを利用して、実体語に基づいて第５のデータを直接生成することとを含んでもよい。

いくつかの実施例では、第５のデータを直接生成するための実体語は、実体オブジェクト、例えば、名所旧跡、公的人物の肖像、機構のマークなどであってもよい。理解できるように、一つの実体語に基づいて一つ又は複数の第５のデータを生成することができ、ここで限定しない。

いくつかの実施例では、まずテキストセグメントのローカルセマンティック情報と実体語を検索し、且つ検索結果が比較的に少ないと確定した時に上記方法で第５のデータを生成することができる。別のいくつかの実施例では、データ検索とデータ生成を同期に行い、より豊富な素材データを得、さらに素材データの品質又は素材データと対応するテキストセグメントとの間の相関度に基づいて素材データをスクリーニングすることもできる。理解できるように、検索されたデータと生成された第５のデータとの間に、ユーザが自ら選択することをサポートすることもでき、ここで制限しない。

いくつかの実施例では、該当するテキストセグメントに基づいて品質が比較的に高い第５のデータを生成すると判定した時（例えば、具体的な物体を記述するテキストセグメント）、素材生成の方式を直接的に使用して候補データを得ることもできる。

理解できるように、現在の人工知能能力に基づく文字からビデオへの生成方法は、長いビデオを生成する時の効果が低いため、この方法で比較的に短い第５のデータを生成することができ、且つ第５のデータに対して切り分け、フィルタリングなどの操作を行わなくてもよい。

いくつかの実施例では、取得される候補データセットは、グローバルセマンティック情報に基づく少なくとも一つの第１のデータ、各ローカルセマンティック情報に基づく少なくとも一つの第２のデータ、各実体語に基づいて取得される少なくとも一つの第３のデータ、ターゲットテキストセグメントに基づいて生成された第５のデータを含んでもよい。

いくつかの実施例によれば、図３に示されるように、ビデオ生成方法は、元ページにおいてテキストとテキストに対応する一つ又は複数の第４のデータを抽出するステップＳ３１２をさらに含んでもよい。一つ又は複数の第４のデータは、テキストのうち、少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する。

いくつかの実施例では、候補データは、テキストが位置する元ページ（すなわち、変換されるべきテキスト）において提示されたビデオと画像、すなわち第４のデータをさらに含んでもよい。元ページにおけるビデオと画像を抽出して、第４のデータを取得することができる。上記方法によって、テキストとテキストセグメントに直接関連する画像データとビデオデータを取得することができる。

いくつかの実施例によれば、図３に示されるように、ビデオ生成方法は、一つ又は複数の第４のデータのうちの各第４のデータをこの第４のデータに対応するテキストセグメントのターゲットデータとして確定するステップＳ３１３をさらに含んでもよい。これによって、テキストセグメントとの相関度が最も高い元文書におけるデータをテキストセグメントにマッチングしたターゲットデータとして使用することによって、素材データの豊富程度を向上させるとともに、マッチングを行う必要なテキストセグメントの数を低減させ、ビデオ生成速度を向上させる。

ステップＳ３１４において、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングする。

いくつかの実施例によれば、テキストセグメントと候補データとの相関度は、テキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含んでもよく、視覚相関度は、統一モーダルニューラルネットワークを使用して、入力されるテキストセグメントと入力される候補データに基づいて確定されるものであってもよい。

いくつかの実施例では、ステップＳ３１４において、ニューラルネットワークを利用して、各テキストセグメントと各候補データとの間の視覚相関度を計算することによって、少なくとも一つのテキストセグメントと候補データセットのうちの候補データとの間の視覚相関度マトリクスを得、さらに最適化ポリシーに基づいて各テキストセグメントにターゲットデータをマッチングすることができる。

いくつかの実施例によれば、図５に示されるように、ステップＳ３１４、少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、統一モーダルニューラルネットワークを利用して、それぞれ少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第１の数の候補データを確定するステップＳ５０１と、前記少なくとも一つのテキストセグメントのそれぞれと対応する第１の数の候補データのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするステップＳ５０２とを含んでもよい。これによって、まず各テキストセグメントに視覚相関度が最も高い第１の数の候補データを確定し、さらにグローバルから対応する候補データにおいて各テキストセグメントにターゲットデータをマッチングし、マッチングプロセスの複雑度を低減させ、マッチング速度を向上させることができる。

いくつかの実施例では、ニューラルネットワークを利用して候補データの画像特徴とテキストセグメントのテキスト特徴を同一のセマンティック空間にマッピングすることができるため、各テキストセグメントと各候補データとの間の視覚相関度を必要とせず、ハッシュに基づく方法を使用して各テキストセグメントに視覚相関度が最も高い第１の数の候補データを直接確定することができ、それにより、マッチングプロセスの計算量を著しく低減させ、マッチング速度を向上させる。理解できるように、ニューラルネットワークの性能ニーズとマッチング正確度への要求に基づいて第１の数の値を設定することができ、ここで限定しない。

いくつかの実施例では、視覚相関度は、コンテキストを結び付けるテキストセグメントと候補データとの間の相関度であってもよい。コンテキストのテキストセグメントは、先行の一つ又は複数のテキストセグメント又はそれに対応するローカルセマンティック情報／実体語、及び後続の一つ又は複数のテキストセグメント又はそれに対応するローカルセマンティック情報／実体語を含んでもよい。一例示的な実施例では、現在のテキストセグメント、先行テキストセグメントと後続テキストセグメントで構成された段落と候補データをニューラルネットワークに入力して、現在のテキストセグメントとこの候補データとの間の視覚相関度を得ることができる。このような方式によって、隣接するテキストセグメントにマッチングしたターゲットデータの間に同様に相関性があるようにし、且つ最終的に生成されたビデオにおいて、隣接する二つのビデオセグメント又は画像の間に一致性があるようにすることができる。一例示的な実施例では、第１のテキストセグメントがレストランに入ることを記述し、次に第１のテキストセグメントの後の第２のテキストセグメントが注文シーンを記述し、次に第２のテキストセグメントの後の第３のテキストセグメントがレストランで会話するシーンを記述し、コンテキストを結び付けて視覚相関度の計算を行うことによって、３つのテキストセグメントにマッチングしたターゲット素材データが、いずれもシーンが類似するレストラン（例えば、いずれもファストフードレストラン、フレンチレストラン、ティーレストラン）を含むようにすることができる。

いくつかの実施例によれば、視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定されるものであってもよい。これによって、テキストセグメントにマッチングしたターゲットデータをテキストセグメント全体に関連する上で、対応するキーワードに同様によくマッチングするようにすることができ、選択されるターゲットデータがこのテキストセグメントの重点なコンテンツを強調できることを確保する。

いくつかの実施例によれば、一つ又は複数の実体語を含むテキストセグメントについて、視覚相関度は、統一モーダルニューラルネットワークを利用して、このテキストセグメント、一つ又は複数の実体語、及び入力される候補データに基づいて確定されるものであってもよい。これによって、テキストセグメントにマッチングしたターゲットデータは、テキストセグメント全体に関連することを基礎として、対応する実体語に同様によくマッチングし、選択されるターゲットデータがテキストセグメントに全体的にマッチングするが、含まれる実体がテキストセグメントに現れる実体と大きく異なる状況を避けることができる。

各テキストセグメントに対応する候補データを得た後、各テキストセグメントにターゲットデータをマッチングすることができる。
いくつかの実施例では、ターゲット最適化ポリシーを使用してマッチングを行うことができる。ターゲット最適化ポリシーは、例えばグリーディポリシーを含んでもよい。一実施例では、グリーディポリシーを使用して各テキストセグメントに視覚相関度が最も高い候補データを順次にマッチングすることができる。別の実施例では、全てのテキストセグメントと対応する候補データとの間の視覚相関度を全体的に降順に並べ、視覚相関度が最も高い組み合わせから、各組における候補データをこの組におけるテキストセグメントのターゲットデータとして確定し、且つマッチングされた候補データ又はマッチングされたテキストセグメントを含む組をスキップすることができる。

いくつかの実施例では、ターゲット最適化ポリシーは、例えば動的計画ポリシーを含んでもよく、それにより、全てのテキスト段落とマッチングされたターゲットデータとの間の視覚相関度の総和が最も高いマッチング方案を得ることができる。

マッチングプロセスにおいて、他の制限条件を加えることもできる。いくつかの実施例では、要約テキストにおいてテキストセグメントに対応する部分に基づいて生成されたビデオボイスセグメントの時間長を制限条件として、テキストセグメントにマッチングした候補データの時間長と対応するビデオボイスセグメントの時間長とが基本的に一致することを確保することができる。いくつかの実施例では、テキストセグメントに複数のターゲットビデオをマッチングし、且つ対応するビデオボイスセグメントの時間長を使用してこれらのターゲットビデオの合計時間長を制限することもできる。

いくつかの実施例によれば、図５に示されるように、ステップＳ３１４、少なくとも一つのテキストセグメントのうちの各テキストセグメントにターゲットデータをマッチングすることは、少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、統一モーダルニューラルネットワークを利用して、それぞれ一部のテキストセグメントのうちの各テキストセグメントのために、候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第２の数の候補データを確定するステップＳ５０３と、一部のテキストセグメントのそれぞれと対応する第２の数の候補データのうちの各候補データとの相関度に基づき、一部のテキストセグメントにターゲットデータをマッチングするステップＳ５０４とをさらに含んでもよい。これによって、１回目のマッチングが終了した後に、ターゲットデータへのマッチングに成功しないテキストセグメントに対して、２回目のマッチングひいては複数回のマッチングを行うことによって、各テキストセグメントにいずれもターゲットデータをマッチングするように確保することができる。

理解できるように、ステップＳ３１４は、各テキストセグメントにいずれもターゲットデータをマッチングするまで、より複数回のマッチングをさらに含んでもよい。いくつかの実施例によれば、ステップＳ３１４、少なくとも一つのテキストセグメントのうちの各テキストセグメントにターゲットデータをマッチングすることは、少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングしたターゲットデータを別の候補データに修正するように指示するユーザ入力を受信することに応答し、別の候補データをこのテキストセグメントのターゲットデータとして確定することをさらに含んでもよい。これによって、ユーザフィードバックに基づき、テキストセグメントにマッチングしたターゲットデータを他の候補データに修正することができる。なお、ユーザ入力は、インタラクションデータとして、ニューラルネットワークを最適化するために用いることができる。

いくつかの実施例によれば、ステップＳ３１５、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、ビデオを生成することを含んでもよい。

いくつかの実施例では、テキストセグメントに対応するターゲットデータがビデオデータである場合、このビデオの時間長と対応するビデオボイスセグメントの時間長とが完全に一致しない可能性があれば、他のテキストセグメントにマッチングしたターゲットデータにおいて画像データを確定し、且つそれに応じて画像データの表示時間長を調整して、ビデオ字幕、ビデオボイスとターゲットデータの三者が整合することを確保することができる。理解できるように、他の方法、例えばターゲットデータの時間長が対応するビデオボイスセグメントの時間長よりも大きい時にターゲットデータを切り分ける方法などを使用して整合を確保することができ、ここで限定しない。

いくつかの実施例では、ボイス－字幕－ビデオ時間軸を得た後、ユーザは、整合結果に対して微調整を行い、テキスト字幕、ボイスと表示ビデオの秒レベル以内の正確な整合を実現することができる。

以上の実施例は、テキストセグメントのテキスト情報と候補データの視覚情報との間の視覚相関度に基づいてターゲットデータマッチングを行う方案を提供する。その上で、テキストセグメントのテキスト情報と候補データの他のモーダルの情報との相関度を使用して、マッチングの正確性を向上させることもできる。

いくつかの実施例によれば、ステップＳ３１５、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成することを含んでもよい。これによって、原始テキストからのターゲットデータ（すなわち一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータ）と検索又は直接生成方法で得られるターゲットデータ（すなわち少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータ）とを組み合わせて、ビデオを生成することができる。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第１のセマンティック相関度をさらに含んでもよい。第１のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定されるものであってもよい。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第２のセマンティック相関度をさらに含んでもよい。第２のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定されるものであってもよい。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第３のセマンティック相関度をさらに含んでもよい。第３のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定されるものであってもよい。

理解できるように、第１のセマンティック相関度、第２のセマンティック相関度と第３のセマンティック相関度のうちの一つ又は複数を任意的に選択して視覚相関度と組み合わせて、テキストセグメントと候補データとの間のマッチング程度を評価するために用いることができる。

いくつかの実施例では、ステップＳ３１４において、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの視覚相関度、第１のセマンティック相関度、第２のセマンティック相関度、及び第３のセマンティック相関度を計算し、且つこれらのセマンティック相関度を融合することによって、各テキストセグメントと各候補データとの間の統合相関度を得、さらに該当する統合相関度に基づいて各テキストセグメントにターゲットデータをマッチングすることができる。

いくつかの実施例では、ステップＳ５０１において、統一モーダルニューラルネットワークモデルを利用して、各テキストセグメントにこのテキストセグメントとの視覚相関度が最も高い第１の数の候補データを確定し、さらにステップＳ５０２において、テキストセグメントと候補データとの統合相関度に基づき、各テキストセグメントにターゲットデータをマッチングすることができる。

理解できるように、以上の実施例は、上記複数の相関度を使用してマッチングを行う例に過ぎず、他の方法を使用して、上記複数の相関度を使用してマッチングを行うこともでき、例えば視覚相関度に基づき、各テキストセグメントに第１の数の候補データを確定し、且つ第１のセマンティック相関度、第２のセマンティック相関度、第３のセマンティック相関度又はその組み合わせに基づいて候補データをスクリーニングし、さらにスクリーニングされた後の候補データにおいてテキストセグメントにマッチングしたターゲットデータを確定することができ、ここで限定しない。

本開示の別の態様によれば、ニューラルネットワークのトレーニング方法を提供する。ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成される。図６に示されるように、トレーニング方法は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応するステップＳ６０１と、サンプルテキストに含まれる複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るステップＳ６０２と、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算するステップＳ６０３と、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するステップＳ６０４と、サンプルテキストセグメントに含まれる複数の第２のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示するステップＳ６０５と、サンプルテキストセグメントに含まれる複数の第２のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示するステップＳ６０６と、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第２の損失値を計算し、ここで、第２の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関であるステップＳ６０７と、第１の損失値と第２の損失値に基づき、ニューラルネットワークのパラメータを調整するステップＳ６０８とを含む。

これによって、サンプルテキスト、実グローバルセマンティック情報、及びローカルセマンティック情報を使用してトレーニングを行うことによって、統一モーダルニューラルネットワークにグローバルとローカルセマンティック情報抽出の能力を備えさせ、サンプルテキストセグメント、対応する正例サンプルデータと対応する負例サンプルデータを使用してトレーニングを行うことによって、統一モーダルニューラルネットワークにテキスト又はテキストセグメントのテキスト情報と画像又はビデオデータの視覚情報との間の視覚相関度計算の能力を備えさせる。統一モーダルニューラルネットワークに対してこれらの二つのトレーニングを行うことによって、グローバルとローカルセマンティック情報抽出と視覚相関度計算の二つのタスクにおけるテキスト特徴と視覚特徴は、いずれも同一のセマンティック空間に位置し、それにより二つのタスクの間に関連関係を確立し、さらにニューラルネットワークが使用する時に出力したグローバルセマンティック情報とローカルセマンティック情報を応用シーンにより適合させ、且つ相関度計算結果の正確度を向上させ、生成されたビデオとテキストコンテンツとの一致性が高い。

いくつかの実施例によれば、まずラベル付けされていない大規模テキスト、視覚データを使用して統一モーダルニューラルネットワークに対して自己監督事前トレーニングを行うことができる。例えば、テキストデータに対してマスク自己監督学習を使用し、画像データに対して画像再構成自己監督学習を使用し、及び画像テキストデータに対してクロスモーダル比較学習を使用し、それにより、ラベル付けされていないデータを十分に利用して、統一モーダルニューラルネットワークに特徴表現能力を備えさせる。ここで、テキストマスク自己監督学習は、入力されるテキストをランダムにマスキングし、且つマスキングの位置に対応する出力に基づいてマスキングされる語を予測し、さらに実タグと予測結果に基づいてトレーニングを行うものであってもよい。画像再構成自己監督学習は、同様の方式で画像における一部の領域をマスキングし、且つ出力される画像特徴に基づいて画像を再構成し、さらに元画像と再構成される画像に基づいてトレーニングを行うものであってもよい。クロスモーダル比較学習は、テキストデータと画像データをニューラルネットワークに同時に入力し、且つニューラルネットワークによって出力される画像テキストがマッチングするか否かの予測結果と、画像テキストとの間の実際の相関性に基づいてトレーニングを行うものであってもよい。

いくつかの実施例によれば、サンプルテキストの実グローバルセマンティック情報と実ローカルセマンティック情報は、例えば、ユーザによって生成されたものであってもよい。一実施例では、これらの二つのセマンティック情報は、ユーザがニューラルネットワークによって生成された予測グローバルセマンティック情報と予測ローカルセマンティック情報を手動で修正した後のコンテンツであってもよい。

いくつかの実施例によれば、正例サンプルデータと負例サンプルデータは、いずれもビデオデータ又は画像データである。いくつかの実施例では、サンプルテキストセグメントに対応する正例サンプルデータは、例えばユーザによって手動で選択される画像又はビデオであってもよく、対応する負例サンプルデータは、例えば、その他のデータにおいてランダムに選択されるデータであってもよい。

これによって、ユーザによってフィードバックされるデータを使用して弱監督トレーニングを行うことによって、ニューラルネットワークによって出力される結果の正確度をさらに向上させることができ、且つニューラルネットワークによって出力される結果と、候補データ選択に対するユーザの嗜好とをより適合させることができる。

いくつかの実施例によれば、図７に示されるように、ニューラルネットワークのトレーニング方法は、実サンプル要約テキストを取得するステップＳ７０８と、複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測サンプル要約テキストを得るステップＳ７０９と、実サンプル要約テキストと予測サンプル要約テキストに基づき、第３の損失値を計算するステップＳ７１０とをさらに含んでもよい。ステップＳ７１１、第１の損失値と第２の損失値に基づき、ニューラルネットワークのパラメータを調整することは、第１の損失値、第２の損失値と第３の損失値に基づき、ニューラルネットワークのパラメータを調整することを含んでもよい。図７におけるステップＳ７０１～ステップＳ７０７の操作と効果は、図６におけるステップＳ６０１～ステップＳ６０７の操作と効果と同様であり、ここでこれ以上説明しない。

これによって、サンプルテキストと実サンプル要約テキストを使用してトレーニングを行うことによって、統一モーダルニューラルネットワークに要約抽出の能力を備えさせる。

いくつかの実施例によれば、実サンプル要約テキストは、ユーザ入力に基づいて確定されるものであってもよい。これによって、ユーザによって入力又は選択されるデータを使用して統一モーダルニューラルネットワークをさらにトレーニングすることによって、フィードバック学習を実現し、ビデオ生成効果を持続的にアップグレードして最適化できることを確保することができる。

いくつかの実施例によれば、図８に示されるように、ニューラルネットワークのトレーニング方法は、正例サンプルデータの関連テキスト情報及び負例サンプルデータの関連テキスト情報を取得し、関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含むステップＳ８０８と、複数の第２のサンプル語と正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第３のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプルセマンティック相関度を得、正例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの関連テキスト情報との間の相関度を指示するステップＳ８０９と、複数の第２のサンプル語と負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第４のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプルセマンティック相関度を得、負例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの関連テキスト情報との間の相関度を指示するステップＳ８１０と、正例サンプルセマンティック相関度と負例サンプルセマンティック相関度に基づき、第４の損失値を計算し、ここで、第４の損失値は、正例サンプルセマンティック相関度と負相関であり、且つ負例サンプルセマンティック相関度と正相関であるステップＳ８１１と、第１の損失値、第２の損失値と第４の損失値に基づき、ニューラルネットワークのパラメータを調整するステップＳ８１２とをさらに含んでもよい。図８におけるステップＳ８０１～ステップＳ８０７の操作と効果は、図６におけるステップＳ６０１～ステップＳ６０７の操作と効果と同様であり、ここでこれ以上説明しない。

これによって、正例サンプルデータと負例サンプルデータの関連テキスト情報とテキストセグメントのテキスト情報を使用してニューラルネットワークに対してトレーニングを行うことによって、ニューラルネットワークは、データの関連テキスト情報とテキストセグメントのテキスト情報との間の相関度を出力でき、それにより、候補データをテキストセグメントにマッチングする時により豊富な相関度情報を提供することができる。

本開示の別の態様によれば、図９に示されるように、ビデオ生成装置９００を提供し、前記装置は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するように構成される第１の取得ユニット９０１と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得るように構成される第１の検索ユニット９０２と、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得るように構成される第２の検索ユニット９０３と、少なくとも一つの第１のデータと少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットマッチングユニット９０５を得るように構成され、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成される第２の取得ユニット９０４と、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニット９０６とを含む。理解できるように、ビデオ生成装置９００におけるユニット９０１～ユニット９０６の操作と効果は、図２におけるステップＳ２０１～ステップＳ２０６の操作と効果とそれぞれ同様であり、ここで限定しない。

いくつかの実施例によれば、図１０に示されるように、ビデオ生成装置１０００は、テキストの要約テキストを取得するように構成される要約取得ユニット１００１と、要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを生成するように構成される第３の確定ユニット１００２とをさらに含んでもよい。理解できるように、ビデオ生成装置１０００におけるユニット１００３、ユニット１００５～ユニット１００６、ユニット１００８、及びユニット１０１４～ユニット１０１５の操作と効果は、ビデオ生成装置９００におけるユニット９０１～ユニット９０６の効果とそれぞれ同様であり、ここで限定しない。

いくつかの実施例によれば、グローバルセマンティック情報と少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであってもよい。

いくつかの実施例によれば、図１０に示されるように、ビデオ生成装置１０００は、少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するように構成される第１の認識ユニット１００４をさらに含んでもよい。

いくつかの実施例によれば、第１の検索ユニット１００５は、グローバルセマンティック情報とテキストのタイトルに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第１のデータを得るように構成される第３の検索サブユニットを含んでもよい。

いくつかの実施例によれば、第２の検索ユニット１００６は、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第２のデータを得るように構成される第２の検索サブユニットを含んでもよい。

いくつかの実施例によれば、図１０に示されるように、ビデオ生成装置１０００は、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得るように構成される第３の検索ユニット１００７をさらに含んでもよく、第２の取得ユニット１００８はさらに、少なくとも一つの第１のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータ、及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第３のデータに基づき、候補データセットを得るように構成されてもよい。

いくつかの実施例によれば、第３の検索ユニット１００７は、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第３のデータを得るように構成される第１の検索サブユニットを含んでもよい。

いくつかの実施例によれば、図１１に示されるように、ビデオ生成装置１１００は、候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るように構成されるコンテンツ理解ユニット１１０５と、候補データセットのうちの各候補データの記述テキスト情報を取得するように構成される記述テキスト取得ユニット１１０６と、候補データセットのうちの各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るように構成されるボイス認識ユニット１１０７とをさらに含んでもよい。理解できるように、ビデオ生成装置１１００におけるユニット１１０１～ユニット１１０４、及びユニット１１０８～ユニット１１０９の操作と効果は、ビデオ生成装置９００におけるユニット９０１～ユニット９０６の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。

いくつかの実施例によれば、コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む。
図１０に戻す。いくつかの実施例によれば、第２の取得ユニット１００８は、第１のターゲットフィルタリング規則に基づき、少なくとも一つの第１のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得るように構成される第３の取得サブユニットと、ターゲット切り分け規則に基づき、複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得るように構成される切り分けサブユニットと、第２のターゲットフィルタリング規則に基づいて複数のデータセグメントをフィルタリングすることによって、候補データセットを得るように構成されるフィルタリングサブユニットとを含んでもよい。

いくつかの実施例によれば、図１０に示されるように、ビデオ生成装置１０００は、少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するように構成される第１の確定ユニット１００９と、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいて第５のデータを直接生成するように構成されるデータ生成ユニット１０１０と、第５のデータを候補データセットに添加するように構成される添加ユニット１０１１とをさらに含んでもよい。

いくつかの実施例によれば、データ生成ユニットは、ターゲットテキストセグメントにおいて実体語を認識するように構成される認識サブユニットと、統一モーダルニューラルネットワークを利用して、実体語に基づいて第５のデータを直接生成するように構成されるデータ生成サブユニットとを含んでもよい。

いくつかの実施例によれば、図１０に示されるように、ビデオ生成装置１０００は、元ページにおいてテキストとテキストに対応する一つ又は複数の第４のデータを抽出するように構成される抽出ユニット１０１２であって、一つ又は複数の第４のデータは、テキストのうち、少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する抽出ユニット１０１２と、一つ又は複数の第４のデータのうちの各第４のデータをこの第４のデータに対応するテキストセグメントのターゲットデータとして確定するように構成される第２の確定ユニット１０１３とを含んでもよい。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含んでもよい。視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定されるものであってもよい。

いくつかの実施例によれば、マッチングユニット１０１４は、統一モーダルニューラルネットワークを利用して、それぞれ少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第１の数の候補データを確定するように構成される確定サブユニットと、少なくとも一つのテキストセグメントのそれぞれと対応する第１の数の候補データのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングサブユニットとを含んでもよい。
いくつかの実施例によれば、視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定されるものであってもよい。

いくつかの実施例によれば、少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、統一モーダルニューラルネットワークを利用して、このテキストセグメント、一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び対応する候補データに基づいて確定されるものであってもよい。

いくつかの実施例によれば、候補データセットのうちの各候補データは、多くとも、少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングする。確定サブユニットはさらに、少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、統一モーダルニューラルネットワークを利用して、それぞれ一部のテキストセグメントのうちの各テキストセグメントのために、候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第２の数の候補データを確定するように構成されてもよい。マッチングサブユニットはさらに、一部のテキストセグメントのそれぞれと対応する第２の数の候補データのうちの各候補データとの相関度に基づき、一部のテキストセグメントにターゲットデータをマッチングするように構成されてもよい。

いくつかの実施例によれば、生成ユニット１０１５は、ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、ビデオを生成するように構成される生成サブユニットを含んでもよい。

いくつかの実施例によれば、生成ユニットはさらに、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成されてもよい。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第１のセマンティック相関度をさらに含んでもよく、第１のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第２のセマンティック相関度をさらに含んでもよい。第２のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される。

いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第３のセマンティック相関度をさらに含んでもよく、第３のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される。

本開示の別の態様によれば、図１２に示されるように、ニューラルネットワークのトレーニング装置１２００をさらに提供し、ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この装置は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第３の取得ユニット１２０１であって、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第３の取得ユニット１２０１と、サンプルテキストに含まれる複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第１の入力ユニット１２０２と、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算するように構成される第１の計算ユニット１２０３と、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第４の取得ユニット１２０４であって、正例サンプルデータと負例サンプルデータは、いずれもビデオデータ又は画像データである第４の取得ユニット１２０４と、サンプルテキストセグメントに含まれる複数の第２のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度の数値を得るように構成される第２の入力ユニット１２０５であって、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示する第２の入力ユニット１２０５と、サンプルテキストセグメントに含まれる複数の第２のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度の数値を得るように構成される第３の入力ユニット１２０６であって、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示する第３の入力ユニット１２０６と、正例サンプル視覚相関度の数値と負例サンプル視覚相関度の数値に基づき、第２の損失値を計算するように構成される第２の計算ユニット１２０７であって、第２の損失値は、正例サンプル視覚相関度の数値と負相関であり、且つ負例サンプル視覚相関度の数値と正相関である第２の計算ユニット１２０７と、第１の損失値と第２の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される調整ユニット１２０８とを含む。理解できるように、トレーニング装置１２００におけるユニット１２０１～ユニット１２０８の操作と効果は、図６におけるステップＳ６０１～ステップＳ６０８の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。

いくつかの実施例によれば、図１３に示されるように、ニューラルネットワークのトレーニング装置１３００は、実サンプル要約テキストを取得するように構成される第５の取得ユニット１３０８と、複数の第１のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測サンプル要約テキストを得るように構成される第４の入力ユニット１３０９と、実サンプル要約テキストと予測サンプル要約テキストに基づき、第３の損失値を計算するように構成される第３の計算ユニット１３１０とをさらに含んでもよい。調整ユニット１３１１はさらに、第１の損失値、第２の損失値と第３の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される。理解できるように、トレーニング装置１３００におけるユニット１３０１～ユニット１３０７の操作と効果は、トレーニング装置１２００におけるユニット１２０１～ユニット１２０７の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。

いくつかの実施例によれば、図１４に示されるように、ニューラルネットワークのトレーニング装置１４００は、正例サンプルデータの関連テキスト情報及び負例サンプルデータの関連テキスト情報を取得するように構成される第６の取得ユニット１４０８であって、関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含む第６の取得ユニット１４０８と、複数の第２のサンプル語と正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第３のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプルセマンティック相関度を得るように構成される第５の入力ユニット１４０９であって、正例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの関連テキスト情報との間の相関度を指示する第５の入力ユニット１４０９と、複数の第２のサンプル語と負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第４のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプルセマンティック相関度を得るように構成される第６の入力ユニット１４１０であって、負例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの関連テキスト情報との間の相関度を指示する第６の入力ユニット１４１０と、正例サンプルセマンティック相関度と負例サンプルセマンティック相関度に基づき、第４の損失値を計算するように構成される第４の計算ユニット１４１１であって、第４の損失値は、正例サンプルセマンティック相関度と負相関であり、且つ負例サンプルセマンティック相関度と正相関である第４の計算ユニット１４１１とをさらに含んでもよい。調整ユニット１４１２はさらに、第１の損失値、第２の損失値と第４の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される。理解できるように、トレーニング装置１４００におけるユニット１４０１～ユニット１４０７の操作と効果は、トレーニング装置１２００におけるユニット１２０１～ユニット１２０７の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。

本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。

本開示の実施例によれば、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
図１５を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器１５００の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを指すことを意図している。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル補助装置、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限することを意図するものではない。

図１５に示すように、機器１５００は、計算ユニット１５０１を含み、それはリードオンリーメモリ（ＲＯＭ）１５０２に記憶されるコンピュータプログラムまた記憶ユニット１５０８からランダムアクセスメモリ（ＲＡＭ）１５０３にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。ＲＡＭ１５０３において、更に装置１５００を操作するために必要な様々なプログラムとデータを記憶することができる。計算ユニット１５０１、ＲＯＭ１５０２およびＲＡＭ１５０３はバス１５０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１５０５もバス１５０４に接続される。

機器１５００における複数の部品はＩ／Ｏインターフェース１５０５に接続され、入力ユニット１５０６、出力ユニット１５０７、記憶ユニット１５０８及び通信ユニット１５０９を含む。入力ユニット１５０６は、装置１５００に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット１５０６は、入力された数字又は文字情報が受信でき、計算装置のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含むことができるが、これらに限定されない。出力ユニット１５０７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット１５０８は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット１５０９は、機器１５００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び／又はチップセット、例えば、ブルートゥース（登録商標）ＴＭ装置、８０２．１１装置、ＷｉＦｉ装置、ＷｉＭａｘ装置、セルラー通信装置及び／又は類似物を含んでもよいが、これらに限定されない。

計算ユニット１５０１は処理およびコンピューティング能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１５０１の例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習ネットワークアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット１５０１は上記各方法と処理、例えば、ビデオ生成方法及びニューラルネットワークのトレーニング方法を実行する。例えば、一部の実施例において、ビデオ生成方法及びニューラルネットワークのトレーニング方法はコンピュータソフトウェアプログラムとして実現してよく、機械読み取り可能な媒体、例えば、記憶ユニット１５０８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはＲＯＭ１５０２及び／又は通信ユニット１５０９を経由して機器１５００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ１５０３にロードされて計算ユニット１５０１によって実行される場合、以上で説明されるビデオ生成方法及びニューラルネットワークのトレーニング方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１５０１は他のいかなる適切な方式で（例えば、ファームウェアにより）ビデオ生成方法及びニューラルネットワークのトレーニング方法を実行するように構成されてよい。

本明細書で上記のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

本開示の方法を実施するプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械読み取り可能な媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、およびキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、いずれかの形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバは、クラウドサーバであり、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステム中の一つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または略称「ＶＰＳ」）に存在する管理困難度が高く、業務拡張性が弱い欠陥を解決している。サーバーは、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。

理解すべきことは、前述した様々な形態のフローを用いて、改めて順位付け、ことを増加又削除してよいことである。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

本願の実施例又は例は図面を参照して説明されたが、上記の方法、システム、および装置は単なる例示の実施例又は例であり、本開示の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲およびその均などの範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均など要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同などの要素に置き換えることができるということである。

Claims

ビデオ生成方法であって、
テキストのグローバルセマンティック情報と、前記テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報を取得することと、
前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得ることと、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得ることと、
前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることと、
前記少なくとも一つのテキストセグメントのそれぞれと前記候補データセットのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることと、
前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することとを含む、ことを特徴とするビデオ生成方法。
前記少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識することと、
前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることとをさらに含み、
ここで、前記の、前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることは、
前記少なくとも一つの第１のデータ、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータ、及び前記少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第３のデータに基づき、前記候補データセットを得ることを含む、請求項１に記載の方法。
前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることは、
前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第３のデータを得ることを含む、請求項２に記載の方法。
前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることは、
前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、複数の第３の検索結果を得ることと、
この実体語が位置するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第３の検索結果をフィルタリングすることによって、前記少なくとも一つの第３のデータを得ることとを含む、請求項３に記載の方法。
前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得ることは、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第２のデータを得ることを含む、請求項１～４のいずれか１項に記載の方法。
前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第２のデータを得ることは、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、複数の第２の検索結果を得ることと、
このローカルセマンティック情報に対応するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第２の検索結果をフィルタリングすることによって、前記少なくとも一つの第２のデータを得ることとを含む、請求項５に記載の方法。
前記の、前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得ることは、
前記グローバルセマンティック情報と前記テキストのタイトルに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第１のデータを得ることを含む、請求項５に記載の方法。
前記グローバルセマンティック情報と前記少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであり、且つ、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含み、前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定される、請求項１に記載の方法。
前記候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得ることをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第１のセマンティック相関度をさらに含み、前記第１のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される、請求項８に記載の方法。
前記コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む、請求項９に記載の方法。
前記候補データセットにおける各候補データの記述テキスト情報を取得することをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第２のセマンティック相関度をさらに含み、前記第２のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される、請求項８に記載の方法。
前記候補データセットにおける各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得ることをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第３のセマンティック相関度をさらに含み、前記第３のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される、請求項８に記載の方法。
前記の、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、
前記統一モーダルニューラルネットワークを利用して、それぞれ前記少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、前記候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第１の数の候補データを確定することと、
前記少なくとも一つのテキストセグメントのそれぞれと対応する第１の数の候補データのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることとを含む、請求項８～１２のいずれか１項に記載の方法。
前記候補データセットのうちの各候補データは、多くとも前記少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングし、ここで、前記の、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、
前記少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、前記統一モーダルニューラルネットワークを利用して、それぞれ前記一部のテキストセグメントのうちの各テキストセグメントのために、前記候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第２の数の候補データを確定することと、
前記一部のテキストセグメントのそれぞれと対応する第２の数の候補データのうちの各候補データとの相関度に基づき、前記一部のテキストセグメントにターゲットデータをマッチングすることとをさらに含む、請求項１３に記載の方法。
前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、前記入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定される、請求項８に記載の方法。
前記少なくとも一つのテキストセグメントにおいて実体語を認識することをさらに含み、
ここで、前記少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、前記統一モーダルニューラルネットワークを利用して、このテキストセグメント、前記一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び前記対応する候補データに基づいて確定される、請求項１５に記載の方法。
前記少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定することと、
前記統一モーダルニューラルネットワークを利用して、前記ターゲットテキストセグメントに基づいて第５のデータを直接生成し、ここで、前記第５のデータの視覚コンテンツは、前記ターゲットテキストセグメントに関連付けられることと、
前記第５のデータを前記候補データセットに添加することとをさらに含む、請求項８に記載の方法。
前記の、前記ターゲットテキストセグメントに基づいて第５のデータを直接生成することは、
前記ターゲットテキストセグメントにおいて実体語を認識することと、
前記統一モーダルニューラルネットワークを利用して、前記実体語に基づいて前記第５のデータを直接生成することとを含む、請求項１７に記載の方法。
元ページにおいて前記テキストと前記テキストに対応する一つ又は複数の第４のデータとを抽出し、ここで、前記一つ又は複数の第４のデータは、前記テキストのうち、前記少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応することと、
前記一つ又は複数の第４のデータのうちの各第４のデータをこの第４のデータに対応するテキストセグメントのターゲットデータとして確定することとをさらに含み、
ここで、前記の、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、
前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと前記一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成することを含む、請求項１に記載の方法。
前記の、前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得ることは、
第１のターゲットフィルタリング規則に基づき、前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得ることと、
ターゲット切り分け規則に基づき、前記複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得ることと、
第２のターゲットフィルタリング規則に基づき、前記複数のデータセグメントをフィルタリングすることによって、前記候補データセットを得ることとを含む、請求項１に記載の方法。
前記テキストの要約テキストを取得することと、
前記要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定することとをさらに含み、
ここで、前記の、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、
前記ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、前記ビデオを生成することを含む、請求項１に記載の方法。
ニューラルネットワークのトレーニング方法であって、前記ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して前記複数の入力特徴を処理するように構成され、前記方法は、
サンプルテキスト、前記サンプルテキストの実グローバルセマンティック情報、及び前記サンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、前記少なくとも一つの実ローカルセマンティック情報は、前記サンプルテキストのうちの少なくとも一つのテキストセグメントに対応することと、
前記サンプルテキストに含まれる複数の第１のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得ることと、
前記実グローバルセマンティック情報、前記予測グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、及び前記少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算することと、
サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得することと、
前記サンプルテキストセグメントに含まれる複数の第２のサンプル語と前記正例サンプルデータに含まれる少なくとも一つの正例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプル視覚相関度を得、前記正例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの視覚情報との間の相関度を指示することと、
前記複数の第２のサンプル語と前記負例サンプルデータに含まれる少なくとも一つの負例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプル視覚相関度を得、前記負例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの視覚情報との間の相関度を指示することと、
前記正例サンプル視覚相関度と前記負例サンプル視覚相関度に基づき、第２の損失値を計算し、ここで、前記第２の損失値は、前記正例サンプル視覚相関度と負相関であり、且つ前記負例サンプル視覚相関度と正相関であることと、
前記第１の損失値と前記第２の損失値に基づき、前記ニューラルネットワークのパラメータを調整することとを含む、ことを特徴とするニューラルネットワークのトレーニング方法。
実サンプル要約テキストを取得することと、
前記複数の第１のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測サンプル要約テキストを得ることと、
前記実サンプル要約テキストと前記予測サンプル要約テキストに基づき、第３の損失値を計算することとをさらに含み、
ここで、前記の、前記ニューラルネットワークのパラメータを調整することは、
前記第１の損失値、前記第２の損失値と前記第３の損失値に基づき、前記ニューラルネットワークのパラメータを調整することを含む、請求項２２に記載の方法。
前記実グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、前記正例サンプルデータ、及び前記実サンプル要約テキストは、ユーザ入力に基づいて確定される、請求項２３に記載の方法。
前記正例サンプルデータの関連テキスト情報及び前記負例サンプルデータの関連テキスト情報を取得し、前記関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含むことと、
前記複数の第２のサンプル語と前記正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第３のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプルセマンティック相関度を得、前記正例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの関連テキスト情報との間の相関度を指示することと、
前記複数の第２のサンプル語と前記負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第４のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプルセマンティック相関度を得、前記負例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの関連テキスト情報との間の相関度を指示することと、
前記正例サンプルセマンティック相関度と前記負例サンプルセマンティック相関度に基づき、第４の損失値を計算し、ここで、前記第４の損失値は、前記正例サンプルセマンティック相関度と負相関であり、且つ前記負例サンプルセマンティック相関度と正相関であることとをさらに含み、
ここで、前記の、前記ニューラルネットワークのパラメータを調整することは、
前記第１の損失値、前記第２の損失値と前記第４の損失値に基づき、前記ニューラルネットワークのパラメータを調整することを含む、請求項２２～２４のいずれか１項に記載の方法。
ビデオ生成装置であって、
テキストのグローバルセマンティック情報と、前記テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報を取得するように構成される第１の取得ユニットと、
前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第１のデータを得るように構成される第１の検索ユニットと、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第２のデータを得るように構成される第２の検索ユニットと、
前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータに基づき、候補データセットを得るように構成される第２の取得ユニットと、
前記少なくとも一つのテキストセグメントのそれぞれと前記候補データセットのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングユニットと、
前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニットとを含む、ことを特徴とするビデオ生成装置。
前記少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するように構成される第１の認識ユニットと、
前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得るように構成される第３の検索ユニットをさらに含み、
前記第２の取得ユニットはさらに、前記少なくとも一つの第１のデータ、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータ、及び前記少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第３のデータに基づき、前記候補データセットを得るように構成される、請求項２６に記載の装置。
前記第３の検索ユニットは、
前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第３のデータを得るように構成される第１の検索サブユニットを含む、請求項２７に記載の装置。
前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第３のデータを得ることは、
前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、複数の第３の検索結果を得ることと、
この実体語が位置するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第３の検索結果をフィルタリングすることによって、前記少なくとも一つの第３のデータを得ることとを含む、請求項２８に記載の装置。
前記第２の検索ユニットは、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第２のデータを得るように構成される第２の検索サブユニットを含む、請求項２６～２９のいずれか１項に記載の装置。
前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第２のデータを得ることは、
前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、複数の第２の検索結果を得ることと、
このローカルセマンティック情報に対応するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第２の検索結果をフィルタリングすることによって、前記少なくとも一つの第２のデータを得ることとを含む、請求項３０に記載の装置。
前記第１の検索ユニットは、
前記グローバルセマンティック情報と前記テキストのタイトルに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第１のデータを得るように構成される第３の検索サブユニットを含む、請求項３０に記載の装置。
前記グローバルセマンティック情報と前記少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであり、且つ、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含み、前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定される、請求項２６に記載の装置。
前記候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るように構成されるコンテンツ理解ユニットをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第１のセマンティック相関度をさらに含み、前記第１のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される、請求項３３に記載の装置。
前記コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む、請求項３４に記載の装置。
前記候補データセットにおける各候補データの記述テキスト情報を取得するように構成される記述テキスト取得ユニットをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第２のセマンティック相関度をさらに含み、前記第２のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される、請求項３３に記載の装置。
前記候補データセットにおける各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るように構成されるボイス認識ユニットをさらに含み、
ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第３のセマンティック相関度をさらに含み、前記第３のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される、請求項３３に記載の装置。
前記マッチングユニットは、
前記統一モーダルニューラルネットワークを利用して、それぞれ前記少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、前記候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第１の数の候補データを確定するように構成される確定サブユニットと、
前記少なくとも一つのテキストセグメントのそれぞれと対応する第１の数の候補データのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングサブユニットとを含む、請求項３３～３７のいずれか１項に記載の装置。
前記候補データセットのうちの各候補データは、多くとも前記少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングし、
ここで、前記確定サブユニットはさらに、前記少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、前記統一モーダルニューラルネットワークを利用して、それぞれ前記一部のテキストセグメントのうちの各テキストセグメントのために、前記候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第２の数の候補データを確定するように構成され、
且つ、前記マッチングサブユニットはさらに、前記一部のテキストセグメントのそれぞれと対応する第２の数の候補データのうちの各候補データとの相関度に基づき、前記一部のテキストセグメントにターゲットデータをマッチングするように構成される、請求項３８に記載の装置。
前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、前記入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定される、請求項３３に記載の装置。
前記少なくとも一つのテキストセグメントにおいて実体語を認識するように構成される第２の認識ユニットをさらに含み、
ここで、前記少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、前記統一モーダルニューラルネットワークを利用して、このテキストセグメント、前記一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び前記対応する候補データに基づいて確定される、請求項４０に記載の装置。
前記少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するように構成される第１の確定ユニットと、
前記統一モーダルニューラルネットワークを利用して、前記ターゲットテキストセグメントに基づいて第５のデータを直接生成するように構成されるデータ生成ユニットであって、前記第５のデータの視覚コンテンツは、前記ターゲットテキストセグメントに関連付けられるデータ生成ユニットと、
前記第５のデータを候補データセットに添加するように構成される添加ユニットとをさらに含む、請求項３３に記載の装置。
前記データ生成ユニットは、
前記ターゲットテキストセグメントにおいて実体語を認識するように構成される認識サブユニットと、
前記統一モーダルニューラルネットワークを利用して、前記実体語に基づいて前記第５のデータを直接生成するように構成されるデータ生成サブユニットとを含む、請求項４２に記載の装置。
元ページにおいて前記テキストと前記テキストに対応する一つ又は複数の第４のデータとを抽出するように構成される抽出ユニットであって、前記一つ又は複数の第４のデータは、前記テキストのうち、前記少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する抽出ユニットと、
前記一つ又は複数の第４のデータのうちの各第４のデータをこの第４のデータに対応するテキストセグメントのターゲットデータとして確定するように構成される第２の確定ユニットとをさらに含み、
ここで、前記生成ユニットはさらに、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと前記一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成するように構成される、請求項２６に記載の装置。
前記第２の取得ユニットは、
第１のターゲットフィルタリング規則に基づき、前記少なくとも一つの第１のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第２のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得るように構成される取得サブユニットと、
ターゲット切り分け規則に基づき、前記複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得るように構成される切り分けサブユニットと、
第２のターゲットフィルタリング規則に基づいて前記複数のデータセグメントをフィルタリングすることによって、前記候補データセットを得るように構成されるフィルタリングサブユニットとを含む、請求項２６に記載の装置。
前記テキストの要約テキストを取得するように構成される要約取得ユニットと、
前記要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定するように構成される第３の確定ユニットとをさらに含み、
ここで、前記生成ユニットは、
前記ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、前記ビデオを生成するように構成される生成サブユニットを含む、請求項２６に記載の装置。
ニューラルネットワークのトレーニング装置であって、前記ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して前記複数の入力特徴を処理するように構成され、前記装置は、
サンプルテキスト、前記サンプルテキストの実グローバルセマンティック情報、及び前記サンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第３の取得ユニットであって、前記少なくとも一つの実ローカルセマンティック情報は、前記サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第３の取得ユニットと、
前記サンプルテキストに含まれる複数の第１のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第１の入力ユニットと、
前記実グローバルセマンティック情報、前記予測グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、及び前記少なくとも一つの予測ローカルセマンティック情報に基づき、第１の損失値を計算するように構成される第１の計算ユニットと、
サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第４の取得ユニットと、
前記サンプルテキストセグメントに含まれる複数の第２のサンプル語と前記正例サンプルデータに含まれる少なくとも一つの正例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプル視覚相関度を得るように構成される第２の入力ユニットであって、前記正例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの視覚情報との間の相関度を指示する第２の入力ユニットと、
前記複数の第２のサンプル語と前記負例サンプルデータに含まれる少なくとも一つの負例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプル視覚相関度を得るように構成される第３の入力ユニットであって、前記負例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの視覚情報との間の相関度を指示する第３の入力ユニットと、
前記正例サンプル視覚相関度と前記負例サンプル視覚相関度に基づき、第２の損失値を計算するように構成される第２の計算ユニットであって、前記第２の損失値は、前記正例サンプル視覚相関度と負相関であり、且つ前記負例サンプル視覚相関度と正相関である第２の計算ユニットと、
前記第１の損失値と前記第２の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される調整ユニットとを含む、ことを特徴とするニューラルネットワークのトレーニング装置。
実サンプル要約テキストを取得するように構成される第５の取得ユニットと、
前記複数の第１のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測サンプル要約テキストを得るように構成される第４の入力ユニットと、
前記実サンプル要約テキストと前記予測サンプル要約テキストに基づき、第３の損失値を計算するように構成される第３の計算ユニットとをさらに含み、
ここで、前記調整ユニットはさらに、前記第１の損失値、前記第２の損失値と前記第３の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される、請求項４７に記載の装置。
前記実グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、前記正例サンプルデータ、及び前記実サンプル要約テキストは、ユーザ入力に基づいて確定される、請求項４８に記載の装置。
前記正例サンプルデータの関連テキスト情報及び前記負例サンプルデータの関連テキスト情報を取得するように構成される第６の取得ユニットであって、前記関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含む第６の取得ユニットと、
前記複数の第２のサンプル語と前記正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第３のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプルセマンティック相関度を得るように構成される第５の入力ユニットであって、前記正例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの関連テキスト情報との間の相関度を指示する第５の入力ユニットと、
前記複数の第２のサンプル語と前記負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第４のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプルセマンティック相関度を得るように構成される第６の入力ユニットであって、前記負例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの関連テキスト情報との間の相関度を指示する第６の入力ユニットと、
前記正例サンプルセマンティック相関度と前記負例サンプルセマンティック相関度に基づき、第４の損失値を計算するように構成される第４の計算ユニットであって、前記第４の損失値は、前記正例サンプルセマンティック相関度と負相関であり、且つ前記負例サンプルセマンティック相関度と正相関である第４の計算ユニットとをさらに含み、
ここで、前記調整ユニットはさらに、前記第１の損失値、前記第２の損失値と前記第４の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される、請求項４７～４９のいずれか１項に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１～４のいずれか１項に記載の方法を実行することを可能にする、ことを特徴とする電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１～４のいずれか１項に記載の方法を実行させるために使用される、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行される時に、請求項１～４のいずれか１項に記載の方法を実現する、コンピュータプログラム製品。