JP2023062173A - ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置 - Google Patents

ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置 Download PDF

Info

Publication number
JP2023062173A
JP2023062173A JP2023026371A JP2023026371A JP2023062173A JP 2023062173 A JP2023062173 A JP 2023062173A JP 2023026371 A JP2023026371 A JP 2023026371A JP 2023026371 A JP2023026371 A JP 2023026371A JP 2023062173 A JP2023062173 A JP 2023062173A
Authority
JP
Japan
Prior art keywords
text
data
sample
text segment
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023026371A
Other languages
English (en)
Inventor
ハイフェン・ワン
Haifeng Wang
ハオ・ティアン
Hao Tian
シンヤン・シャオ
Xinyan Xiao
シン・リー
Xing Li
ティアン・ウー
Tian Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023062173A publication Critical patent/JP2023062173A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法及びその装置を提供する。【解決手段】ビデオ生成方法は、テキストのグローバルセマンティック情報と、テキストセグメントに対応するローカルセマンティック情報とを取得するステップS201と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行い、第1のデータを得るステップS202と、ローカルセマンティック情報に基づいてデータベースにおいて検索を行い、第2のデータを得るステップS203と、第1のデータと第2のデータに基づき、候補データセットを得るステップS204と、テキストセグメントと候補データセットのうちの各候補データとの相関度に基づき、テキストセグメントにターゲットデータをマッチングするステップS205と、テキストセグメントにマッチングしたターゲットデータに基づきビデオを生成するステップS206と、を含む。【選択図】図2

Description

本開示は、人工知能分野に関し、具体的には、自然言語処理技術、深層学習技術、コンピュータ視覚技術及び画像処理技術などに関し、特にビデオ生成方法、ニューラルネットワークのトレーニング方法、ビデオ生成装置、ニューラルネットワークのトレーニング装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
人工知能は、コンピュータに人間の何らかの思惟過程および知の行動(例えば、学習、推理、思考、計画など)をシミュレートさせるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能のハードウェア技術は、一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
数字コンテンツは、インターネットの中核となる基礎である。テキストコンテンツと比べて、ビデオコンテンツは、より豊富な情報を含み、ユーザによりフレンドリーで、より高い伝播効果も有する。モバイルインターネットハードウェア施設の発展に伴って、ビデオコンテンツのニーズは、迅速に増加している。
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
本開示は、ビデオ生成方法、ニューラルネットワークのトレーニング方法、ビデオ生成装置、ニューラルネットワークのトレーニング装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一態様によれば、ビデオ生成方法を提供し、この方法は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得することと、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得ることと、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得ることと、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることと、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングすることと、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することとを含む。
本開示の別の態様によれば、ニューラルネットワークのトレーニング方法を提供し、このニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この方法は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応することと、サンプルテキストに含まれる複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得ることと、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算することと、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得することと、サンプルテキストセグメントに含まれる複数の第2のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示することと、複数の第2のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示することと、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第2の損失値を計算し、ここで、第2の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関であることと、第1の損失値と第2の損失値に基づき、ニューラルネットワークのパラメータを調整することとを含む。
本開示の別の態様によれば、ビデオ生成装置を提供し、この装置は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するように構成される第1の取得ユニットと、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得るように構成される第1の検索ユニットと、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得るように構成される第2の検索ユニットと、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得るように構成される第2の取得ユニットと、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングユニットと、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニットとを含む。
本開示の別の態様によれば、ニューラルネットワークのトレーニング装置を提供し、ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この装置は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第3の取得ユニットであって、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第3の取得ユニットと、サンプルテキストに含まれる複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第1の入力ユニットと、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算するように構成される第1の計算ユニットと、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第4の取得ユニットと、サンプルテキストセグメントに含まれる複数の第2のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得るように構成される第2の入力ユニットであって、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示する第2の入力ユニットと、複数の第2のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得るように構成される第3の入力ユニットであって、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示する第3の入力ユニットと、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第2の損失値を計算するように構成される第2の計算ユニットであって、第2の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関である第2の計算ユニットと、第1の損失値と第2の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される調整ユニットとを含む。
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、これらの命令は少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサが以上に記載の方法を実行することを可能にする。
本開示の別の態様によれば、以上に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ読み取り可能な記憶媒体を提供する。
本開示の実施例によれば、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために使用される。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同じ符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による、本明細書に記載された様々な方法をその中で実施することができる例示的なシステムの概略図を示す。 本開示の実施例による統一モーダルニューラルネットワークの概略図を示す。 本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。 本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。 本開示の例示的な実施例によるビデオ生成方法のフローチャートを示す。 本開示の例示的な実施例による、少なくとも一つのテキストセグメントにターゲットデータをマッチングするフローチャートを示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング方法のフローチャートを示す。 本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。 本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。 本開示の例示的な実施例によるビデオ生成装置の構造ブロック図を示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。 本開示の例示的な実施例によるニューラルネットワークのトレーニング装置の構造ブロック図を示す。 本開示の実施例を実現するために使用できる例示的な電子機器の構造ブロック図を示す。
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。
本開示では、特に明記しない限り、様々な要素を説明するための「第1の」、「第2の」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づき、異なる例を指してもよい。
本開示の前記様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「及び/または」は、テーブルされた項目のいずれか及び可能な全ての組み合わせをカバーする。
数字コンテンツは、インターネットの中核となる基礎である。テキストコンテンツと比べて、ビデオコンテンツは、より豊富な情報を含み、ユーザによりフレンドリーで、より高い伝播効果も有する。モバイルインターネットハードウェア施設の発展に伴って、ビデオコンテンツのニーズは、迅速に増加している。
しかしながら、手動によるビデオ製作の効率が比較的に低く、益々増加しているビデオコンテンツのニーズにマッチングすることができない。手動によるビデオ製作と比べて、手動による文字創作の効率がより高く、同時に、インターネットにおいて大量のテキスト又は画像テキストタイプのコンテンツが蓄積されている。そのため、テキストコンテンツに基づき、インターネットにおける大量の素材を結び付けてビデオコンテンツをどのように自動的に生成するかは、早急な解決の待たれる問題となっている。
現在では、テキストコンテンツに基づいてビデオを生成する方式は、主に次の三つがあり、
(1)文字からビデオクリップツールに基づいて生成する方法:クリップツールによって、まずユーザによって入力されるテキストコンテンツをオーディオに自動的に転換し、次にダビング、司会者の配置、背景図の配置などの手動操作よって、最終的にビデオを生成し、
(2)ツール系文章又はテンプレート系文章によって解説ビデオを生成する方法:まず要約抜き取りツールによって、文字シーケンスを抽出し、次に文字シーケンスに基づいてピクチャ検索を行い、固定テンプレートと協力して人工編集を行って複数のビデオセグメントを生成し、各セグメントをスティッチングして最終的にビデオを生成し、
(3)トピックに基づいてテキストを記述するビデオ生成方法:ニューラルネットワークモデルに基づいてテキストをセマンティックベクトルに転換し、さらにセマンティックベクトルに基づいてビデオを生成する。この方法は、短い文字記述(例えば、ガンの群れが空を飛んでいる)に対して、簡単なシーンでのビデオを自動的に生成することができる。
ここで、上記前の二つの方法には、自動化とインテリジェント化程度が高くなく、生成されたビデオモードが比較的に固定であり、適用シーンが比較的に単一で、生成結果に基づいてトレーニングと最適化を行いにくいなどという欠点が存在し、第3種の方法は、簡単なテキストによってビデオを自動的に生成する効果を実現することができるが、この方法は、ニューラルネットワークモデルに直接的に依存するため、生成プロセスを制御しにくく、生成結果の真正性と信頼性を確保しにくい。
上記問題を解決するために、本開示は、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。
以下、図面を参照して本開示の実施例について詳細に説明する。
図1Aは、本開示の実施例による、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。図1を参照すると、このシステム100は、1つ又は複数のクライアントデバイス101、102、103、104、105、106、サーバ120、及び1つ又は複数のクライアントデバイスをサーバ120に結合する1つ又は複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105、106は、1つ又は複数のアプリケーションを実行するように構成することができる。
本開示の実施例では、サーバ120は、ビデオ生成方法の1つまたは複数のサービスまたはソフトウェアアプリケーションを実行できるように動作する。
いくつかの実施例では、サーバ120は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアはすなわちサービス(SaaS)であるモデル下でクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
図1Aに示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ又は複数のモジュールを含んでもよい。これらのモジュールは、1つ又は複数のプロセッサで実行できるソフトウェアモジュール、ハードウェアモジュール、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのモジュールが提供するサービスを利用するために、1つ又は複数のクライアントアプリケーションを用いてサーバ120とのインタラクションを行うことができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
ユーザは、クライアント機器101、102、103、104、105及び/又は106を使用して基本的オプションを配置し、生成されるべきビデオのテキストを編集し、ニューラルネットワークによって生成された全文キーワード、段落キーワードなどを修正することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとのインタラクションを行うインタフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示していないが、当業者であれば理解できるように、本願はいかなる数のクライアントデバイスにサポートできる。
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピューティングデバイスを含んでもよい。これらのコンピューティングデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、さまざまなアプリケーションを実行でき、且つさまざまな通信プロトコルを使用できる。
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、1つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、WIFI)、及び/又はこれらとその他のネットワークの任意の組み合わせであってもよい。
サーバ120は、1つ又は複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する1つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの1つ又は複数のフレキシブルプール)を含んでもよい。様々な実施例において、サーバ120は、以下に説明する機能を提供する1つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
サーバ120内の計算ユニットは、上述した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む1つ又は複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか1つを実行することもできる。
いくつかの実施形態では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための1つ又は複数のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の1つ又は複数のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する1つ又は複数のアプリケーションを含んでもよい。
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステム中のホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービス中に存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
システム100は、1つ又は複数のデータベース130を含んでもよい。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130内の1つまたは複数は、オーディオファイルや映像ファイルなどの情報を記憶するために使用されることができる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの1つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
いくつかの実施例では、データベース130のうちの1つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
図1Aのシステム100は、本開示に基づいて説明した様々な方法および装置を応用することができるように、様々な方法で構成し操作することができる。
本開示の一態様によれば、ビデオ生成方法を提供する。この方法は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するステップS201と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得るステップS202と、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得るステップS203と、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得るステップS204と、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするステップS205と、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するステップS206とを含む。
これによって、テキストに対して多層的理解を行うことによって、テキストのグローバルセマンティック情報とローカルセマンティック情報を取得し、さらに上記多層的セマンティック情報に基づいてデータ検索を行って候補データを得、且つテキストセグメントと候補データとの相関度に基づいて両者をマッチングして、前後の内容が一貫して一致し、段落とテキスト全体にいずれもマッチングし且つ違和感がないビデオを生成し、ユーザの視聴体験を向上させることができる。
一例示的な実施例では、時点Aに発生した公的人物Bが会社Cの製品発表イベントDに参加することについてのテキストのうちのあるテキストセグメントには、公的人物Bのみが含まれる場合、このテキストセグメントに対応するローカルセマンティック情報(例えば、キーワード「公的人物B」)を使用して検索を行う時、得られるデータは、会社C、製品発表イベントD又は時点Aにまったく関連しないビデオ、例えばこの公的人物Bの伝播度が広い娯楽ビデオ、又は公的人物Bが他社の製品を代弁する広告である可能性がある。このようなデータをこのテキストセグメントにマッチングしたターゲットビデオとして使用すれば、最終的に生成されたビデオがテキストの全体的なコンテンツに客観的にマッピングせず且つ違和感があるようにする。グローバルセマンティック情報に基づいて検索して得られるビデオ又は画像データのみを使用すれば、ビデオを生成するための十分な候補データを得ることができない可能性がある。候補データが十分であっても、最終的に生成されたビデオコンテンツが単一で、各テキストセグメントとの間の相関度が客観的に低くなる。例えば、テキストのうちの一つのテキストセグメントは、公的人物Bが製品発表イベントDを参加する時に記述されている履歴イベントEに関するものであり、履歴イベントEがテキストのグローバルセマンティック情報でなければ、履歴イベントEに関連するビデオ又は画像が検索されることができず、さらにこのテキストセグメントのターゲットデータとしてマッチングされることができない。
なお、テキストセグメントと候補データとの間の相関度に基づいてテキストセグメントにターゲットデータをマッチングすることによって、ターゲットデータが対応するテキストセグメントのキーワードのみに関連しているのではなく(そうでなければ、上記客観的に違和感がある状況が同様に現れる)、テキストセグメント全体に関連していることを確保することができる。
いくつかの実施例によれば、テキストからビデオへの変換を開始する前に、ユーザがアプリケーション端末によって基本的配置オプションを設定することをサポートすることができる。
いくつかの実施例では、ユーザがボイス合成(TTS、Text to Speech)機能に対して、ボイス合成機能をオンにするか否か、ボイス合成の音色、音量及び話速などの選択を含む配置を行うことをサポートすることができる。
いくつかの実施例では、ユーザが背景音楽に対して、背景音楽を添加するか否か、背景音楽のタイプなどの選択を含む配置を行うことをサポートすることができる。
いくつかの実施例では、ユーザがビデオの生成方式に対して、全自動ビデオ生成、マンマシンインタラクション支援ビデオ生成などの選択を含む配置を行うことをサポートすることができる。
いくつかの実施例では、ユーザが、統一モーダルニューラルネットワークのトレーニング方式に対して、ユーザフィードバックデータに基づくニューラルネットワーク最適化トレーニングなどを起動するか否かことを選択を含む配置を行うことをサポートすることができる。
いくつかの実施例では、ユーザが変換されるべきテキストのタイプを設定することをサポートすることができ、ここで、変換されるべきテキストのタイプは、テキスト文書、画像テキストコンテンツを含むコンテンツ類ページ、探索キーワード又は探索問題、実体語などを含んでもよい。ユーザは、上記タイプのうちの一つ又は複数タイプのテキストを選択してビデオ生成を行うことができる。ユーザは、変換されるべきテキストのタイプを設定する上で、さらに具体的なテキスト文書、ページURLアドレス、具体的な探索キーワードテキスト又は探索問題テキスト、具体的な実体語テキストなどを与えることにより、上記タイプに応じた具体的な変換されるべきテキストを設定することができる。
いくつかの実施例では、ユーザが上記一つ又は複数の基本的配置オプションに対して配置を行うことをサポートすることができる。
いくつかの実施例によれば、変換されるべきテキストに基づき、ビデオを生成するための前記テキストを取得することができる。
いくつかの実施例では、変換されるべきテキストをテキスト文書に確定することに応答し、ユーザによって選択されるテキスト文書におけるテキストコンテンツを直接的に読み取ることにより、前記テキストを取得することができる。
いくつかの実施例では、変換されるべきテキストを画像テキストコンテンツを含むコンテンツ類ページとして確定することに応答し、例えば、ニュース記事、知識記事、経験記事などのコンテンツを含むページであり、オープンソースのウェブページ解析ツール(例えばHTML Parserなど)に基づき、ユーザによって選択されるページURLアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのMetaタグ情報を取得することができる。
いくつかの実施例では、変換されるべきテキストを探索キーワード又は探索問題として確定することに応答し、探索キーワード又は探索問題に基づいて複数の探索結果を取得し、さらにオープンソースのウェブページ解析ツール(例えばHTML Parserなど)に基づき、各探索結果のページURLアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのMetaタグ情報を取得することができる。ここで、探索結果を取得するための探索エンジン及びデータベースは、実際の必要に応じて自ら設定することができ、ここで限定しない。
いくつかの実施例では、複数の探索結果を最初に取得した後、まず探索結果における広告などの非コンテンツ系のページをフィルタリングし、フィルタリングされた後のページから探索キーワード又は探索問題との相関度が比較的に高く、且つ画像又はビデオ素材がより豊富な複数のコンテンツ系ページを選択し、上記処理を行うことができる。
いくつかの実施例では、変換されるべきテキストを実体語として確定することに応答し、実体語に基づき、その対応する百科事典ページを取得し、さらにオープンソースのウェブページ解析ツール(例えばHTML Parserなど)に基づき、上記百科事典ページのページURLアドレスに対して読み取りと解析を行うことにより、このページの本体テキストとピクチャコンテンツを取得し、且つページのタイトル、本文、段落、太字、画像テキストの位置関係、テーブルなどのMetaタグ情報を取得することができる。ここで、実体語は、すなわち命名実体であり、人名、機構名、地名及び名称を標識とする他の全ての実体を含む。
いくつかの実施例によれば、前記テキストを取得した後、トレーニングされた統一モーダルニューラルネットワークを利用して、前記テキストを処理して、テキストにおける各類情報を取得することができる。
統一モーダルニューラルネットワークは、複数のモーダル入力に対して統一処理を行うニューラルネットワークモデルであり、テキスト分類(キーワード抽出)、テキスト情報抽出、テキストと画像又はビデオとの相関度計算、テキストに基づいく画像又はビデオ生成などのタスクを完了するために用いることができる。図1Bに示されるように、統一モーダルニューラルネットワークの本体部分は、複数のトランスフォーマー(TRANSFORMER)レイヤで構成され、且つ下流タスクの異なりに応じて、多層TRANSFORMERの後に他のネットワーク構造を結合することができる。統一モーダルニューラルネットワークは、テキスト、画像、又は画像テキストのペアなどの入力を受信し、且つこれらの入力を埋め込んで、多層TRANSFORMERに入力するための該当するテキスト特徴又は画像特徴を得、それにより多層TRANSFORMER出力の統合セマンティック表現を得ることができる。
具体的には、テキスト入力Wに対して、まず語切り分けによって語シーケンスW={[CLS]、w、…、w、[SEP]}に転換し、その後に多層TRANSFORMERによってコンテキストに関連するセマンティック表現を取得し、画像入力Vに対して、画像を複数のブロックに分け、その後に画像ブロックをベクトル化し、画像入力シーケンスV={[IMG]、v、…、v}を形成し、同様に多層TRANSFORMERによって視覚のセマンティック表現を取得する。最後に、画像テキストのペアの入力(V、W)に対して、テキストと視覚部分の入力シーケンスをスティッチングし、V、W={[IMG]、v、…、v、[CLS]、w、…、w、[SEP]}を形成し、同様に多層TRANSFORMERによって、クロスモーダルのセマンティック表現を取得する。
上記[CLS]、[IMG]、[SEP]などは、TRANSFORMERに基づくニューラルネットワークを入力する特別な符号である。[CLS]と[IMG]はそれぞれ、テキストシーケンスと画像シーケンスの全体的セマンティック表現を抽出するために用いることができ、[SEP]は、複数の入力の間の分割指示として用いることができる。
いくつかの実施例によれば、トレーニングされた統一モーダルニューラルネットワークを使用することによって、テキストに基づいてグローバルセマンティック情報とローカルセマンティック情報を取得し、テキストセグメントと画像又はビデオデータとの間の相関度を計算し、要約を抽出するなどという複数のタスクを実行し、これらのタスクにおいて使用されるテキスト特徴と視覚特徴は、いずれも同一のセマンティック空間に位置し、それによりこれらのタスクの間に関連関係を確立し、さらにニューラルネットワークによって出力されるグローバルセマンティック情報とローカルセマンティック情報を応用シーンにより適合させ、且つ得られる相関度と要約の正確性を向上させ、生成されたビデオとテキストコンテンツとの一致性が高く、且つビデオを生成するターゲットデータの間に論理的な関連性があり、違和感がないようにする。
いくつかの実施例では、ビデオ入力に対して、まずフレームを抽出し、さらにこれらのフレームを画像ブロックシーケンスに変換する必要がある。フレーム抽出間隔は、例えば現在の利用可能な計算力に基づいて確定することができる。利用可能な計算力に余裕がある時に比較的に小さいフレーム抽出間隔を使用することができ、利用可能な計算力に余裕がない時に比較的に大きいフレーム抽出間隔を使用することができる。
いくつかの実施例では、複数の方式、例えばクロスモーダル比較学習、ビジュアルマスク予測、言語マスク予測などを使用して統一モーダルニューラルネットワークに対してトレーニングを行うことができ、ユーザインタラクションデータを使用して弱監督学習を行うこともできる。以下では、統一モーダルニューラルネットワークをどのようにトレーニングするかについて詳細に記述する。
いくつかの実施例では、比較的に長いテキストについて、テキスト全文に基づいて直接的に生成されたビデオも比較的に長く、ビデオの迅速な消費に不利である。そのため、コンテンツが簡潔なショートビデオを製作したい場合、テキストに対して要約抽出を行うことを考慮することができる。図3に示されるように、ビデオ生成方法は、テキストの要約テキストを取得するステップS301をさらに含んでもよい。理解できるように、図3におけるステップS303、ステップS305~ステップS306、ステップS308、ステップS314~ステップS315の操作と効果は、図2におけるステップS201~ステップS206の操作と効果とそれぞれ同じであり、ここでこれ以上説明しない。テキストの要約は、ビデオの字幕として使用することができ、且つさらにビデオのボイスを生成するために用いることができ、後述する通りである。別のいくつかの実施例では、比較的に短いテキストについて、テキストを要約として直接的に使用してもよく、ニューラルネットワークを使用してテキストを精錬してもよく、ここで限定しない。
いくつかの実施例では、テキストの要約テキストは、統一モーダルニューラルネットワークを利用して取得されるものであってもよい。一例示的な実施例では、抜き取り式の方法を採用して要約テキストを取得することができる。テキストを文節単位で統一モーダルニューラルネットワークに同時に入力することによって、各文節が要約であるか否かの判断結果を得ることができる(例えば、各文節の前に[CLS]を設定し、且つ各文節の[CLS]に対応する出力特徴に基づいてこの文節が要約テキストに属するか否かを確定する)。理解できるように、テキストの要約テキストを取得するために他の方法も使用され、ここで限定しない。
いくつかの実施例によれば、ユーザは、要約を手動で修正することができる。ステップS301、統一モーダルニューラルネットワークを利用して、テキストの要約テキストを取得することは、要約テキストを修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいて少なくとも要約テキストを修正することをさらに含んでもよい。なお、ユーザが修正した後の要約は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。
いくつかの実施例によれば、ビデオ生成方法は、要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定するステップS302をさらに含んでもよい。
いくつかの実施例では、要約テキストをさらに切り分けることによって、ビデオ字幕を得ることができる。
いくつかの実施例では、ボイス合成(Text To Speech、TTS)技術によってテキスト又は要約テキストをビデオボイスに変換することができる。具体的には、まずテキスト又は要約テキストに基づき、テキストのコンテンツタイプ(例えばナラティブタイプ、コメントタイプ、叙情タイプなど)を取得し、且つコンテンツタイプに基づいて該当するボイス合成のトーン、音色、音量、話速などを呼び出すことができる。
いくつかの実施例では、要約テキストのコンテンツタイプ(例えば、ナラティブタイプ、コメントタイプ、叙情タイプなど、又は例えば、スポーツタイプ、ニュースタイプ、娯楽タイプなど)に基づいてビデオ背景音楽のスタイルを確定し、且つ音楽ライブラリにおいて該当する音楽を確定することができる。任意選択的に、ビデオボイスの長さを制限として、時間長が近い音楽をビデオ背景音楽として選択してもよい。
いくつかの実施例では、ユーザがビデオの生成方式をマンマシンインタラクション支援ビデオ生成モードに配置すると確定することに応答し、ユーザがボイス合成の音色、音量及び話速などを実際の必要に応じて自ら設定することをサポートすることもできる。
いくつかの実施例では、ユーザがビデオの生成方式をマンマシンインタラクション支援ビデオ生成モードに配置すると確定することに応答し、ユーザが背景音楽に対して背景音楽を添加するか否か、背景音楽のタイプなどの選択を含む配置を行うことをサポートすることができる。任意選択的に、ユーザに複数の異なるスタイルの背景音楽を提供することもでき、ユーザが実際の必要に応じて背景音楽を自ら選択することをサポートする。
理解できるように、いくつかの実施例では、生成されたビデオには上記ビデオ字幕、ビデオボイス及びビデオ背景音楽のうちの一つ又は複数が含まれてもよく、ここで限定しない。
ビデオを生成する時、生成されたビデオに豊富な視覚要素を備えさせるために、ビデオ、ピクチャなどの視覚素材データを補充することは、そのうちの肝心なステップである。
ステップS303において、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得する。少なくとも一つのローカルセマンティック情報は、テキストのうちの少なくとも一つのテキストセグメントに対応する。
いくつかの実施例では、グローバルセマンティック情報は、例えば、テキストの全文キーワードであってもよく、ローカルセマンティック情報は、例えば対応するテキストセグメントのキーワードであってもよい。テキストセグメントは、例えばテキストにおける段落であってもよく、テキストにおける文であってもよく、他の粒度でテキストを分けて得られるか、又は他の方式でテキストにおいて確定されるテキストセグメントであってもよい。
いくつかの実施例では、統一モーダルニューラルネットワークを利用して分類タスクに基づいてキーワード予測を実現することができる。キーワードリストをこの分類タスクが予測可能な「カテゴリ」として予め確定し、且つ該当するサンプルを使用してニューラルネットワークに対してトレーニングを行うことによって、ニューラルネットワークは、入力されるテキストに基づいて複数のカテゴリタグを出力することができ、そのうちのそれぞれは、キーワードリストのうちの一つのキーワードに対応する。別のいくつかの実施例では、ニューラルネットワークは、TRANSFORMERレイヤに少なくとも一つの出力特徴を出力して融合処理を行って、テキストの統合セマンティック表現を抽出し、さらに、この表現に基づき、入力されるテキストに対応するキーワードを直接生成することができる。理解できるように、以上は、テキストキーワードを確定する二つの例示的な方法に過ぎず、他の方式でニューラルネットワークを利用してテキストキーワードを取得することもできる。
いくつかの実施例では、グローバルセマンティック情報は、例えば、テキスト全文を統一モーダルニューラルネットワークに入力して得られるものであってもよい。いくつかの実施例では、少なくとも一つのローカルセマンティック情報は、例えば、全文テキストを統一モーダルニューラルネットワークに直接的に入力して得られるものであってもよく、テキストセグメントを統一モーダルニューラルネットワークに入力して得られるものであってもよい。別のいくつかの実施例では、テキスト全文をニューラルネットワークに入力し、ニューラルネットワークは、TRANSFORMERレイヤによって出力される、テキストセグメントに対応する出力特徴に対して融合処理を行って、このテキストセグメントの統合セマンティック表現を抽出し、さらに、この表現に基づいてこのテキストセグメントのローカルセマンティック情報を直接生成することができる。
いくつかの実施例によれば、ステップS303、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得することは、グローバルセマンティック情報を修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいてグローバルセマンティック情報を修正することを含んでもよい。なお、ユーザが修正した後のグローバルセマンティック情報は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。
いくつかの実施例によれば、ステップS303、テキストのグローバルセマンティック情報と少なくとも一つのローカルセマンティック情報を取得することは、少なくとも一つのローカルセマンティック情報を修正するように指示するユーザ入力を受信することに応答し、ユーザ入力に基づいて少なくとも一つのローカルセマンティック情報を修正することを含んでもよい。なお、ユーザが修正した後のローカルセマンティック情報は、サンプルデータとして、ニューラルネットワークをさらに最適化してトレーニングするために用いることができ、後述する通りである。
これによって、ユーザからのユーザ入力を受信することによって、グローバルセマンティック情報とローカルセマンティック情報を調整することができ、その後にグローバルセマンティック情報とローカルセマンティック情報に基づいて検索を行ってテキスト全体とテキストセグメントとの相関度がより高いデータを得ることができる。なお、ユーザ入力は、インタラクションデータとして、ニューラルネットワークを最適化するために用いることができる。
いくつかの実施例によれば、ビデオ生成方法は、少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するステップS304をさらに含んでもよい。一例示的な実施例では、実体語テーブルを予め確定し、且つ実体語テーブルに基づいてテキストセグメントにおいて実体語を認識することができる。
いくつかの実施例では、ステップS305において、テキストのグローバルセマンティック情報を探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第1のデータを取得することができる。第1のデータは、グローバルセマンティック情報に基づいて検索して取得されるピクチャデータ又はビデオデータであってもよい。
いくつかの実施例によれば、ステップS305、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得ることは、グローバルセマンティック情報とテキストのタイトルに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第1のデータを得ることを含んでもよい。
いくつかの実施例では、グローバルセマンティック情報とテキストのタイトルを探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第1のデータを取得することができる。
いくつかの実施例では、コンテキストを結び付けて検索を行うこともでき、例えば、テキスト全文又は一部をコンテキスト情報として選択することができる。一例では、すべてのコンテキスト情報を探索語として使用すれば、探索エンジン又はデータベースの負担が増えるため、探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、使用される計算リソース量がほぼ変化しない場合に探索結果とテキストとの相関性を向上させることができる。
いくつかの実施例では、データベースは、例えば汎用の探索エンジンであってもよく、特定の素材ウェブサイト又は素材データベースであってもよい。少なくとも一つの第1のデータを取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。
いくつかの実施例では、ステップS306において、各テキストセグメントのローカルセマンティック情報を探索キーワードとして、データベースにおいて検索を行うことによって、少なくとも一つの第2のデータを取得することができる。第2のデータは、各テキストセグメントのローカルセマンティック情報に基づいて検索して取得されるピクチャ又はビデオを含んでもよい。
いくつかの実施例によれば、ステップS306、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得ることは、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第2のデータを得ることを含んでもよい。これによって、検索時に対応するテキストセグメントを使用することによって、検索結果とテキストセグメントとの相関性を向上させることができる。
いくつかの実施例では、ローカルセマンティック情報とテキストのタイトルを探索語として、データベースにおいて検索を行うことによって、少なくとも一つの第2のデータを取得することができる。
いくつかの実施例によれば、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第2のデータを得ることは、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、複数の第2の検索結果を得ることと、このローカルセマンティック情報に対応するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第2の検索結果をフィルタリングすることによって、少なくとも一つの第2のデータを得ることとを含んでもよい。
いくつかの実施例では、まず、各テキストセグメントのローカルセマンティック情報を探索キーワードとして、データベースにおいて検索して、少なくとも一つの第2の検索結果を取得し、次に、このローカルセマンティック情報に対応するテキストセグメントと第2の検索結果との相関度に基づき、第2の検索結果のフィルタリングを行って、少なくとも一つの第2のデータを取得することもできる。テキストセグメントを直接的に探索語とするには、大量の計算リソースを消費する必要があるため、検索時に探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、少ない計算リソースを使用する場合に探索結果とテキストとの相関性を向上させ、素材取得の効率を向上させることができる。
いくつかの実施例では、少なくとも一つの第2のデータ又は少なくとも一つの第2の検索結果を取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。
いくつかの実施例によれば、図3に示されるように、ビデオ生成方法は、以下をさらに含んでもよい。ステップS307、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得る。ステップS308、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることは、少なくとも一つの第1のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータ、及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第3のデータに基づき、候補データセットを得ることを含んでもよい。これによって、実体語に基づいて検索して第3のデータを取得することによって、ビデオを生成するための素材データをより豊富にすることができ、候補データセットにテキストにおいて現れる実体語に直接関連するデータが含まれるようにする。
いくつかの実施例では、ステップS307において、上記各テキストセグメント実体語を取得することを基礎として、さらに各実体語を探索キーワードとすることに基づいて、データベースにおいて検索して、少なくとも一つの第3のデータを取得し、ここで、第3のデータは、各テキストセグメントの実体語に基づいて検索して取得されるピクチャ又はビデオを含んでもよい。
いくつかの実施例によれば、ステップS307、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第3のデータを得ることを含んでもよい。これによって、検索時に対応するテキストセグメントを使用することによって、検索結果とテキストセグメントとの相関性を向上させることができる。
いくつかの実施例では、各テキストセグメントの実体語及び該当するテキストセグメントを探索キーワードとして、データベースにおいて検索して、少なくとも一つの第3のデータを取得することができる。
いくつかの実施例によれば、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、複数の第3の検索結果を得ることと、この実体語が位置するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第3の検索結果をフィルタリングすることによって、少なくとも一つの第3のデータを得ることとを含んでもよい。
いくつかの実施例では、まず、各テキストセグメントの実体語を探索キーワードとして、データベースにおいて検索して、少なくとも一つの第3の検索結果を取得し、次に、この実体語に対応するテキストセグメントと第3の検索結果との相関度に基づき、第3の検索結果のフィルタリングを行って、少なくとも一つの第3のデータを取得することもできる。テキストセグメントを直接的に探索語とするには、大量の計算リソースを消費する必要があるため、検索時に探索語を使用して検索した後、コンテキスト情報を使用して結果をフィルタリングすることにより、少ない計算リソースを使用する場合に探索結果とテキストとの相関性を向上させ、素材データ取得の効率を向上させることができる。
いくつかの実施例では、少なくとも一つの第3のデータ又は少なくとも一つの第3の検索結果を取得する方式は、具体的には、探索エンジンによってオンラインでネットワーク全体を探索すること、特定の素材ウェブサイトを探索すること、又はオフラインの素材データベースを探索することを含んでもよい。理解できるように、応用される探索エンジンは、実際の必要に応じて自ら選択されてもよく、ここで限定しない。
一例では、取得される候補データセットは、グローバルセマンティック情報に対応する少なくとも一つの第1のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータ及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第3のデータを含む。上記方法によって、グローバルからローカル、語までの3つの異なるレベルで豊富な画像データとビデオデータを取得することができる。
画像データとビデオデータを取得すると同時に、画像データとビデオデータのタイトル、記述情報などの関連テキスト情報を取得して、その後にこれらのデータをスクリーニングし、且つ候補データとテキストコンテンツとのマッチングプロセスにより豊富な情報を提供することもできる。
いくつかの実施例によれば、図4に示されるように、ビデオ生成方法は、候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るステップS405と、候補データセットにおける各候補データの記述テキスト情報を取得するステップS406と、候補データセットのうちの各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るステップS407とをさらに含んでもよい。これによって、マッチングリンクとテキストセグメントに相関度を計算するための候補データのより豊富なマルチモーダル情報を得ることができ、後述する通りである。図4におけるステップS401~ステップS404、及びステップS408~ステップS409の操作と効果は、図2におけるステップS201~ステップS206の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。
いくつかの実施例によれば、コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含んでもよい。一例では、視覚理解技術ツールに基づいてビデオデータ又は画像データに対して、字幕、タイトル、弾幕などを含む文字認識を行うことができる。別の一例では、ターゲット検出の方式で実体認識、例えば公的人物の認識、場所の認識、旗の認識などを行うことができる。これによって、コンテンツ理解結果は、候補データにおけるより豊富なコンテンツ情報を提供し、テキストセグメントと候補データとの間の相関度の正確性を向上させることができる。
いくつかの実施例によれば、ボイス認識技術を使用して、候補データにおけるオーディオデータに対してボイス認識を行うことによって、該当するボイステキスト情報を得ることができる。これによって、ボイス認識結果は、候補データにおけるより豊富なコンテンツ情報を提供し、テキストセグメントと候補データとの間の相関度の正確性を向上させることができる。
図3に戻す。いくつかの実施例によれば、図3に示されるように、ステップS308、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることは、第1のターゲットフィルタリング規則に基づき、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得ることと、ターゲット切り分け規則に基づき、複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得ることと、第2のターゲットフィルタリング規則に基づき、複数のデータセグメントをフィルタリングすることによって、候補データセットを得ることとを含む。これによって、取得されるデータをスクリーニングして切り分け、切り分けられた後のデータをさらにフィルタリングすることによって、候補データセットにおける非相関又は素材データとして不適切なコンテンツを減少し、さらに相関度計算とマッチングリンクにおいて計算量を減少することができる。
いくつかの実施例では、第1のターゲットフィルタリング規則は、例えば、特定のタイプ又は特定の条件を満たすビデオ、例えばシーンが単一のビデオ、視聴回数が少ないビデオ、又はユーザのスコアが比較的に低いビデオなどをフィルタリングするものであってもよい。
いくつかの実施例では、切り分けられるべきデータに対して、すなわちフィルタリングされた後に取得されるビデオデータに対して、まず切り分けて、複数のデータセグメント(すなわちビデオセグメント)を取得することができる。具体的には、遷移又はビデオフレームのセマンティック情報に基づいてビデオを切り分けることができる。複数のデータセグメントを取得することを基礎として、さらにいくつかの特定のシーンのセグメント(例えば、シーン変化が小さい)をフィルタリングし、テキストコンテンツに関連するビデオセグメントのみを候補データとして保持することができる。
いくつかの実施例では、第2のターゲットフィルタリング規則は、例えば、オープニング、エンディング、遷移プロセスなどのセグメントをフィルタリングするものであってもよい。
第1のデータ又は第2のデータが画像である場合、それをフィルタリングして切出さなくてもよい。いくつかの実施例では、上記ステップは、実体語に基づいて検索して得られる第3のデータに同様に用いることができる。
理解できるように、以上の実施例は、例示的なものに過ぎず、第1のターゲットフィルタリング規則と第2のターゲットフィルタリング規則は、得られる候補データがビデオを生成するための素材データとなるように、必要に応じて設定されてもよい。
いくつかの実施例によれば、図3に示されるように、ビデオ生成方法は、少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するステップS309と、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいて第5のデータを直接生成し、第5のデータの視覚コンテンツは、ターゲットテキストセグメントに関連付けられるステップS310と、第5のデータを候補データセットに添加するステップS311とをさらに含んでもよい。
いくつかの実施例では、予めトレーニングされた統一モーダルニューラルネットワークは、人工知能能力に基づく文字から画像又は文字からビデオへの生成を有するため、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいてターゲットテキストセグメントに記述されているコンテンツと一致する画像又はビデオ、すなわち第5のデータを直接生成することができる。理解できるように、一つのターゲットテキストセグメントに基づいて一つ又は複数の第5のデータを生成することができ、ここで限定しない。これによって、上記方法を使用することによって、素材としての画像データとビデオデータをより豊富にすることができ、且つデータベースにおいて対応するデータがない場合、適切な視覚素材データを提供し、利用可能な素材データがない状況を避けることができる。
一例示的な実施例では、ターゲットテキストセグメントが「皿の上に5個のリンゴが盛られている」であれば、直接生成の方式で「皿の上に5個のリンゴが盛られている」を具現化する画像データを生成することができる。
いくつかの実施例によれば、第5のデータを直接生成することは、ターゲットテキストセグメントにおいて実体語を認識することと、統一モーダルニューラルネットワークを利用して、実体語に基づいて第5のデータを直接生成することとを含んでもよい。
いくつかの実施例では、第5のデータを直接生成するための実体語は、実体オブジェクト、例えば、名所旧跡、公的人物の肖像、機構のマークなどであってもよい。理解できるように、一つの実体語に基づいて一つ又は複数の第5のデータを生成することができ、ここで限定しない。
いくつかの実施例では、まずテキストセグメントのローカルセマンティック情報と実体語を検索し、且つ検索結果が比較的に少ないと確定した時に上記方法で第5のデータを生成することができる。別のいくつかの実施例では、データ検索とデータ生成を同期に行い、より豊富な素材データを得、さらに素材データの品質又は素材データと対応するテキストセグメントとの間の相関度に基づいて素材データをスクリーニングすることもできる。理解できるように、検索されたデータと生成された第5のデータとの間に、ユーザが自ら選択することをサポートすることもでき、ここで制限しない。
いくつかの実施例では、該当するテキストセグメントに基づいて品質が比較的に高い第5のデータを生成すると判定した時(例えば、具体的な物体を記述するテキストセグメント)、素材生成の方式を直接的に使用して候補データを得ることもできる。
理解できるように、現在の人工知能能力に基づく文字からビデオへの生成方法は、長いビデオを生成する時の効果が低いため、この方法で比較的に短い第5のデータを生成することができ、且つ第5のデータに対して切り分け、フィルタリングなどの操作を行わなくてもよい。
いくつかの実施例では、取得される候補データセットは、グローバルセマンティック情報に基づく少なくとも一つの第1のデータ、各ローカルセマンティック情報に基づく少なくとも一つの第2のデータ、各実体語に基づいて取得される少なくとも一つの第3のデータ、ターゲットテキストセグメントに基づいて生成された第5のデータを含んでもよい。
いくつかの実施例によれば、図3に示されるように、ビデオ生成方法は、元ページにおいてテキストとテキストに対応する一つ又は複数の第4のデータを抽出するステップS312をさらに含んでもよい。一つ又は複数の第4のデータは、テキストのうち、少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する。
いくつかの実施例では、候補データは、テキストが位置する元ページ(すなわち、変換されるべきテキスト)において提示されたビデオと画像、すなわち第4のデータをさらに含んでもよい。元ページにおけるビデオと画像を抽出して、第4のデータを取得することができる。上記方法によって、テキストとテキストセグメントに直接関連する画像データとビデオデータを取得することができる。
いくつかの実施例によれば、図3に示されるように、ビデオ生成方法は、一つ又は複数の第4のデータのうちの各第4のデータをこの第4のデータに対応するテキストセグメントのターゲットデータとして確定するステップS313をさらに含んでもよい。これによって、テキストセグメントとの相関度が最も高い元文書におけるデータをテキストセグメントにマッチングしたターゲットデータとして使用することによって、素材データの豊富程度を向上させるとともに、マッチングを行う必要なテキストセグメントの数を低減させ、ビデオ生成速度を向上させる。
ステップS314において、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングする。
いくつかの実施例によれば、テキストセグメントと候補データとの相関度は、テキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含んでもよく、視覚相関度は、統一モーダルニューラルネットワークを使用して、入力されるテキストセグメントと入力される候補データに基づいて確定されるものであってもよい。
いくつかの実施例では、ステップS314において、ニューラルネットワークを利用して、各テキストセグメントと各候補データとの間の視覚相関度を計算することによって、少なくとも一つのテキストセグメントと候補データセットのうちの候補データとの間の視覚相関度マトリクスを得、さらに最適化ポリシーに基づいて各テキストセグメントにターゲットデータをマッチングすることができる。
いくつかの実施例によれば、図5に示されるように、ステップS314、少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、統一モーダルニューラルネットワークを利用して、それぞれ少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第1の数の候補データを確定するステップS501と、前記少なくとも一つのテキストセグメントのそれぞれと対応する第1の数の候補データのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするステップS502とを含んでもよい。これによって、まず各テキストセグメントに視覚相関度が最も高い第1の数の候補データを確定し、さらにグローバルから対応する候補データにおいて各テキストセグメントにターゲットデータをマッチングし、マッチングプロセスの複雑度を低減させ、マッチング速度を向上させることができる。
いくつかの実施例では、ニューラルネットワークを利用して候補データの画像特徴とテキストセグメントのテキスト特徴を同一のセマンティック空間にマッピングすることができるため、各テキストセグメントと各候補データとの間の視覚相関度を必要とせず、ハッシュに基づく方法を使用して各テキストセグメントに視覚相関度が最も高い第1の数の候補データを直接確定することができ、それにより、マッチングプロセスの計算量を著しく低減させ、マッチング速度を向上させる。理解できるように、ニューラルネットワークの性能ニーズとマッチング正確度への要求に基づいて第1の数の値を設定することができ、ここで限定しない。
いくつかの実施例では、視覚相関度は、コンテキストを結び付けるテキストセグメントと候補データとの間の相関度であってもよい。コンテキストのテキストセグメントは、先行の一つ又は複数のテキストセグメント又はそれに対応するローカルセマンティック情報/実体語、及び後続の一つ又は複数のテキストセグメント又はそれに対応するローカルセマンティック情報/実体語を含んでもよい。一例示的な実施例では、現在のテキストセグメント、先行テキストセグメントと後続テキストセグメントで構成された段落と候補データをニューラルネットワークに入力して、現在のテキストセグメントとこの候補データとの間の視覚相関度を得ることができる。このような方式によって、隣接するテキストセグメントにマッチングしたターゲットデータの間に同様に相関性があるようにし、且つ最終的に生成されたビデオにおいて、隣接する二つのビデオセグメント又は画像の間に一致性があるようにすることができる。一例示的な実施例では、第1のテキストセグメントがレストランに入ることを記述し、次に第1のテキストセグメントの後の第2のテキストセグメントが注文シーンを記述し、次に第2のテキストセグメントの後の第3のテキストセグメントがレストランで会話するシーンを記述し、コンテキストを結び付けて視覚相関度の計算を行うことによって、3つのテキストセグメントにマッチングしたターゲット素材データが、いずれもシーンが類似するレストラン(例えば、いずれもファストフードレストラン、フレンチレストラン、ティーレストラン)を含むようにすることができる。
いくつかの実施例によれば、視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定されるものであってもよい。これによって、テキストセグメントにマッチングしたターゲットデータをテキストセグメント全体に関連する上で、対応するキーワードに同様によくマッチングするようにすることができ、選択されるターゲットデータがこのテキストセグメントの重点なコンテンツを強調できることを確保する。
いくつかの実施例によれば、一つ又は複数の実体語を含むテキストセグメントについて、視覚相関度は、統一モーダルニューラルネットワークを利用して、このテキストセグメント、一つ又は複数の実体語、及び入力される候補データに基づいて確定されるものであってもよい。これによって、テキストセグメントにマッチングしたターゲットデータは、テキストセグメント全体に関連することを基礎として、対応する実体語に同様によくマッチングし、選択されるターゲットデータがテキストセグメントに全体的にマッチングするが、含まれる実体がテキストセグメントに現れる実体と大きく異なる状況を避けることができる。
各テキストセグメントに対応する候補データを得た後、各テキストセグメントにターゲットデータをマッチングすることができる。
いくつかの実施例では、ターゲット最適化ポリシーを使用してマッチングを行うことができる。ターゲット最適化ポリシーは、例えばグリーディポリシーを含んでもよい。一実施例では、グリーディポリシーを使用して各テキストセグメントに視覚相関度が最も高い候補データを順次にマッチングすることができる。別の実施例では、全てのテキストセグメントと対応する候補データとの間の視覚相関度を全体的に降順に並べ、視覚相関度が最も高い組み合わせから、各組における候補データをこの組におけるテキストセグメントのターゲットデータとして確定し、且つマッチングされた候補データ又はマッチングされたテキストセグメントを含む組をスキップすることができる。
いくつかの実施例では、ターゲット最適化ポリシーは、例えば動的計画ポリシーを含んでもよく、それにより、全てのテキスト段落とマッチングされたターゲットデータとの間の視覚相関度の総和が最も高いマッチング方案を得ることができる。
マッチングプロセスにおいて、他の制限条件を加えることもできる。いくつかの実施例では、要約テキストにおいてテキストセグメントに対応する部分に基づいて生成されたビデオボイスセグメントの時間長を制限条件として、テキストセグメントにマッチングした候補データの時間長と対応するビデオボイスセグメントの時間長とが基本的に一致することを確保することができる。いくつかの実施例では、テキストセグメントに複数のターゲットビデオをマッチングし、且つ対応するビデオボイスセグメントの時間長を使用してこれらのターゲットビデオの合計時間長を制限することもできる。
いくつかの実施例によれば、図5に示されるように、ステップS314、少なくとも一つのテキストセグメントのうちの各テキストセグメントにターゲットデータをマッチングすることは、少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、統一モーダルニューラルネットワークを利用して、それぞれ一部のテキストセグメントのうちの各テキストセグメントのために、候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第2の数の候補データを確定するステップS503と、一部のテキストセグメントのそれぞれと対応する第2の数の候補データのうちの各候補データとの相関度に基づき、一部のテキストセグメントにターゲットデータをマッチングするステップS504とをさらに含んでもよい。これによって、1回目のマッチングが終了した後に、ターゲットデータへのマッチングに成功しないテキストセグメントに対して、2回目のマッチングひいては複数回のマッチングを行うことによって、各テキストセグメントにいずれもターゲットデータをマッチングするように確保することができる。
理解できるように、ステップS314は、各テキストセグメントにいずれもターゲットデータをマッチングするまで、より複数回のマッチングをさらに含んでもよい。いくつかの実施例によれば、ステップS314、少なくとも一つのテキストセグメントのうちの各テキストセグメントにターゲットデータをマッチングすることは、少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングしたターゲットデータを別の候補データに修正するように指示するユーザ入力を受信することに応答し、別の候補データをこのテキストセグメントのターゲットデータとして確定することをさらに含んでもよい。これによって、ユーザフィードバックに基づき、テキストセグメントにマッチングしたターゲットデータを他の候補データに修正することができる。なお、ユーザ入力は、インタラクションデータとして、ニューラルネットワークを最適化するために用いることができる。
いくつかの実施例によれば、ステップS315、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、ビデオを生成することを含んでもよい。
いくつかの実施例では、テキストセグメントに対応するターゲットデータがビデオデータである場合、このビデオの時間長と対応するビデオボイスセグメントの時間長とが完全に一致しない可能性があれば、他のテキストセグメントにマッチングしたターゲットデータにおいて画像データを確定し、且つそれに応じて画像データの表示時間長を調整して、ビデオ字幕、ビデオボイスとターゲットデータの三者が整合することを確保することができる。理解できるように、他の方法、例えばターゲットデータの時間長が対応するビデオボイスセグメントの時間長よりも大きい時にターゲットデータを切り分ける方法などを使用して整合を確保することができ、ここで限定しない。
いくつかの実施例では、ボイス-字幕-ビデオ時間軸を得た後、ユーザは、整合結果に対して微調整を行い、テキスト字幕、ボイスと表示ビデオの秒レベル以内の正確な整合を実現することができる。
以上の実施例は、テキストセグメントのテキスト情報と候補データの視覚情報との間の視覚相関度に基づいてターゲットデータマッチングを行う方案を提供する。その上で、テキストセグメントのテキスト情報と候補データの他のモーダルの情報との相関度を使用して、マッチングの正確性を向上させることもできる。
いくつかの実施例によれば、ステップS315、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成することを含んでもよい。これによって、原始テキストからのターゲットデータ(すなわち一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータ)と検索又は直接生成方法で得られるターゲットデータ(すなわち少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータ)とを組み合わせて、ビデオを生成することができる。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第1のセマンティック相関度をさらに含んでもよい。第1のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定されるものであってもよい。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第2のセマンティック相関度をさらに含んでもよい。第2のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定されるものであってもよい。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第3のセマンティック相関度をさらに含んでもよい。第3のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定されるものであってもよい。
理解できるように、第1のセマンティック相関度、第2のセマンティック相関度と第3のセマンティック相関度のうちの一つ又は複数を任意的に選択して視覚相関度と組み合わせて、テキストセグメントと候補データとの間のマッチング程度を評価するために用いることができる。
いくつかの実施例では、ステップS314において、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの視覚相関度、第1のセマンティック相関度、第2のセマンティック相関度、及び第3のセマンティック相関度を計算し、且つこれらのセマンティック相関度を融合することによって、各テキストセグメントと各候補データとの間の統合相関度を得、さらに該当する統合相関度に基づいて各テキストセグメントにターゲットデータをマッチングすることができる。
いくつかの実施例では、ステップS501において、統一モーダルニューラルネットワークモデルを利用して、各テキストセグメントにこのテキストセグメントとの視覚相関度が最も高い第1の数の候補データを確定し、さらにステップS502において、テキストセグメントと候補データとの統合相関度に基づき、各テキストセグメントにターゲットデータをマッチングすることができる。
理解できるように、以上の実施例は、上記複数の相関度を使用してマッチングを行う例に過ぎず、他の方法を使用して、上記複数の相関度を使用してマッチングを行うこともでき、例えば視覚相関度に基づき、各テキストセグメントに第1の数の候補データを確定し、且つ第1のセマンティック相関度、第2のセマンティック相関度、第3のセマンティック相関度又はその組み合わせに基づいて候補データをスクリーニングし、さらにスクリーニングされた後の候補データにおいてテキストセグメントにマッチングしたターゲットデータを確定することができ、ここで限定しない。
本開示の別の態様によれば、ニューラルネットワークのトレーニング方法を提供する。ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成される。図6に示されるように、トレーニング方法は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応するステップS601と、サンプルテキストに含まれる複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るステップS602と、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算するステップS603と、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するステップS604と、サンプルテキストセグメントに含まれる複数の第2のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度を得、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示するステップS605と、サンプルテキストセグメントに含まれる複数の第2のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度を得、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示するステップS606と、正例サンプル視覚相関度と負例サンプル視覚相関度に基づき、第2の損失値を計算し、ここで、第2の損失値は、正例サンプル視覚相関度と負相関であり、且つ負例サンプル視覚相関度と正相関であるステップS607と、第1の損失値と第2の損失値に基づき、ニューラルネットワークのパラメータを調整するステップS608とを含む。
これによって、サンプルテキスト、実グローバルセマンティック情報、及びローカルセマンティック情報を使用してトレーニングを行うことによって、統一モーダルニューラルネットワークにグローバルとローカルセマンティック情報抽出の能力を備えさせ、サンプルテキストセグメント、対応する正例サンプルデータと対応する負例サンプルデータを使用してトレーニングを行うことによって、統一モーダルニューラルネットワークにテキスト又はテキストセグメントのテキスト情報と画像又はビデオデータの視覚情報との間の視覚相関度計算の能力を備えさせる。統一モーダルニューラルネットワークに対してこれらの二つのトレーニングを行うことによって、グローバルとローカルセマンティック情報抽出と視覚相関度計算の二つのタスクにおけるテキスト特徴と視覚特徴は、いずれも同一のセマンティック空間に位置し、それにより二つのタスクの間に関連関係を確立し、さらにニューラルネットワークが使用する時に出力したグローバルセマンティック情報とローカルセマンティック情報を応用シーンにより適合させ、且つ相関度計算結果の正確度を向上させ、生成されたビデオとテキストコンテンツとの一致性が高い。
いくつかの実施例によれば、まずラベル付けされていない大規模テキスト、視覚データを使用して統一モーダルニューラルネットワークに対して自己監督事前トレーニングを行うことができる。例えば、テキストデータに対してマスク自己監督学習を使用し、画像データに対して画像再構成自己監督学習を使用し、及び画像テキストデータに対してクロスモーダル比較学習を使用し、それにより、ラベル付けされていないデータを十分に利用して、統一モーダルニューラルネットワークに特徴表現能力を備えさせる。ここで、テキストマスク自己監督学習は、入力されるテキストをランダムにマスキングし、且つマスキングの位置に対応する出力に基づいてマスキングされる語を予測し、さらに実タグと予測結果に基づいてトレーニングを行うものであってもよい。画像再構成自己監督学習は、同様の方式で画像における一部の領域をマスキングし、且つ出力される画像特徴に基づいて画像を再構成し、さらに元画像と再構成される画像に基づいてトレーニングを行うものであってもよい。クロスモーダル比較学習は、テキストデータと画像データをニューラルネットワークに同時に入力し、且つニューラルネットワークによって出力される画像テキストがマッチングするか否かの予測結果と、画像テキストとの間の実際の相関性に基づいてトレーニングを行うものであってもよい。
いくつかの実施例によれば、サンプルテキストの実グローバルセマンティック情報と実ローカルセマンティック情報は、例えば、ユーザによって生成されたものであってもよい。一実施例では、これらの二つのセマンティック情報は、ユーザがニューラルネットワークによって生成された予測グローバルセマンティック情報と予測ローカルセマンティック情報を手動で修正した後のコンテンツであってもよい。
いくつかの実施例によれば、正例サンプルデータと負例サンプルデータは、いずれもビデオデータ又は画像データである。いくつかの実施例では、サンプルテキストセグメントに対応する正例サンプルデータは、例えばユーザによって手動で選択される画像又はビデオであってもよく、対応する負例サンプルデータは、例えば、その他のデータにおいてランダムに選択されるデータであってもよい。
これによって、ユーザによってフィードバックされるデータを使用して弱監督トレーニングを行うことによって、ニューラルネットワークによって出力される結果の正確度をさらに向上させることができ、且つニューラルネットワークによって出力される結果と、候補データ選択に対するユーザの嗜好とをより適合させることができる。
いくつかの実施例によれば、図7に示されるように、ニューラルネットワークのトレーニング方法は、実サンプル要約テキストを取得するステップS708と、複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測サンプル要約テキストを得るステップS709と、実サンプル要約テキストと予測サンプル要約テキストに基づき、第3の損失値を計算するステップS710とをさらに含んでもよい。ステップS711、第1の損失値と第2の損失値に基づき、ニューラルネットワークのパラメータを調整することは、第1の損失値、第2の損失値と第3の損失値に基づき、ニューラルネットワークのパラメータを調整することを含んでもよい。図7におけるステップS701~ステップS707の操作と効果は、図6におけるステップS601~ステップS607の操作と効果と同様であり、ここでこれ以上説明しない。
これによって、サンプルテキストと実サンプル要約テキストを使用してトレーニングを行うことによって、統一モーダルニューラルネットワークに要約抽出の能力を備えさせる。
いくつかの実施例によれば、実サンプル要約テキストは、ユーザ入力に基づいて確定されるものであってもよい。これによって、ユーザによって入力又は選択されるデータを使用して統一モーダルニューラルネットワークをさらにトレーニングすることによって、フィードバック学習を実現し、ビデオ生成効果を持続的にアップグレードして最適化できることを確保することができる。
いくつかの実施例によれば、図8に示されるように、ニューラルネットワークのトレーニング方法は、正例サンプルデータの関連テキスト情報及び負例サンプルデータの関連テキスト情報を取得し、関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含むステップS808と、複数の第2のサンプル語と正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第3のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプルセマンティック相関度を得、正例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの関連テキスト情報との間の相関度を指示するステップS809と、複数の第2のサンプル語と負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第4のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプルセマンティック相関度を得、負例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの関連テキスト情報との間の相関度を指示するステップS810と、正例サンプルセマンティック相関度と負例サンプルセマンティック相関度に基づき、第4の損失値を計算し、ここで、第4の損失値は、正例サンプルセマンティック相関度と負相関であり、且つ負例サンプルセマンティック相関度と正相関であるステップS811と、第1の損失値、第2の損失値と第4の損失値に基づき、ニューラルネットワークのパラメータを調整するステップS812とをさらに含んでもよい。図8におけるステップS801~ステップS807の操作と効果は、図6におけるステップS601~ステップS607の操作と効果と同様であり、ここでこれ以上説明しない。
これによって、正例サンプルデータと負例サンプルデータの関連テキスト情報とテキストセグメントのテキスト情報を使用してニューラルネットワークに対してトレーニングを行うことによって、ニューラルネットワークは、データの関連テキスト情報とテキストセグメントのテキスト情報との間の相関度を出力でき、それにより、候補データをテキストセグメントにマッチングする時により豊富な相関度情報を提供することができる。
本開示の別の態様によれば、図9に示されるように、ビデオ生成装置900を提供し、前記装置は、テキストのグローバルセマンティック情報と、テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報とを取得するように構成される第1の取得ユニット901と、グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得るように構成される第1の検索ユニット902と、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得るように構成される第2の検索ユニット903と、少なくとも一つの第1のデータと少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットマッチングユニット905を得るように構成され、少なくとも一つのテキストセグメントのそれぞれと候補データセットのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成される第2の取得ユニット904と、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニット906とを含む。理解できるように、ビデオ生成装置900におけるユニット901~ユニット906の操作と効果は、図2におけるステップS201~ステップS206の操作と効果とそれぞれ同様であり、ここで限定しない。
いくつかの実施例によれば、図10に示されるように、ビデオ生成装置1000は、テキストの要約テキストを取得するように構成される要約取得ユニット1001と、要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを生成するように構成される第3の確定ユニット1002とをさらに含んでもよい。理解できるように、ビデオ生成装置1000におけるユニット1003、ユニット1005~ユニット1006、ユニット1008、及びユニット1014~ユニット1015の操作と効果は、ビデオ生成装置900におけるユニット901~ユニット906の効果とそれぞれ同様であり、ここで限定しない。
いくつかの実施例によれば、グローバルセマンティック情報と少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであってもよい。
いくつかの実施例によれば、図10に示されるように、ビデオ生成装置1000は、少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するように構成される第1の認識ユニット1004をさらに含んでもよい。
いくつかの実施例によれば、第1の検索ユニット1005は、グローバルセマンティック情報とテキストのタイトルに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第1のデータを得るように構成される第3の検索サブユニットを含んでもよい。
いくつかの実施例によれば、第2の検索ユニット1006は、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第2のデータを得るように構成される第2の検索サブユニットを含んでもよい。
いくつかの実施例によれば、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第2のデータを得ることは、少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、複数の第2の検索結果を得ることと、このローカルセマンティック情報に対応するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第2の検索結果をフィルタリングすることによって、少なくとも一つの第2のデータを得ることとを含んでもよい。
いくつかの実施例によれば、図10に示されるように、ビデオ生成装置1000は、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得るように構成される第3の検索ユニット1007をさらに含んでもよく、第2の取得ユニット1008はさらに、少なくとも一つの第1のデータ、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータ、及び少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第3のデータに基づき、候補データセットを得るように構成されてもよい。
いくつかの実施例によれば、第3の検索ユニット1007は、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、少なくとも一つの第3のデータを得るように構成される第1の検索サブユニットを含んでもよい。
いくつかの実施例によれば、少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいてデータベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、少なくとも一つの実体語のうちの各実体語について、この実体語に基づいてデータベースにおいて検索を行うことによって、複数の第3の検索結果を得ることと、この実体語が位置するテキストセグメントとテキストのうちの少なくとも一つに基づいて複数の第3の検索結果をフィルタリングすることによって、少なくとも一つの第3のデータを得ることとを含んでもよい。
いくつかの実施例によれば、図11に示されるように、ビデオ生成装置1100は、候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るように構成されるコンテンツ理解ユニット1105と、候補データセットのうちの各候補データの記述テキスト情報を取得するように構成される記述テキスト取得ユニット1106と、候補データセットのうちの各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るように構成されるボイス認識ユニット1107とをさらに含んでもよい。理解できるように、ビデオ生成装置1100におけるユニット1101~ユニット1104、及びユニット1108~ユニット1109の操作と効果は、ビデオ生成装置900におけるユニット901~ユニット906の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。
いくつかの実施例によれば、コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む。
図10に戻す。いくつかの実施例によれば、第2の取得ユニット1008は、第1のターゲットフィルタリング規則に基づき、少なくとも一つの第1のデータと、少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得るように構成される第3の取得サブユニットと、ターゲット切り分け規則に基づき、複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得るように構成される切り分けサブユニットと、第2のターゲットフィルタリング規則に基づいて複数のデータセグメントをフィルタリングすることによって、候補データセットを得るように構成されるフィルタリングサブユニットとを含んでもよい。
いくつかの実施例によれば、図10に示されるように、ビデオ生成装置1000は、少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するように構成される第1の確定ユニット1009と、統一モーダルニューラルネットワークを利用して、ターゲットテキストセグメントに基づいて第5のデータを直接生成するように構成されるデータ生成ユニット1010と、第5のデータを候補データセットに添加するように構成される添加ユニット1011とをさらに含んでもよい。
いくつかの実施例によれば、データ生成ユニットは、ターゲットテキストセグメントにおいて実体語を認識するように構成される認識サブユニットと、統一モーダルニューラルネットワークを利用して、実体語に基づいて第5のデータを直接生成するように構成されるデータ生成サブユニットとを含んでもよい。
いくつかの実施例によれば、図10に示されるように、ビデオ生成装置1000は、元ページにおいてテキストとテキストに対応する一つ又は複数の第4のデータを抽出するように構成される抽出ユニット1012であって、一つ又は複数の第4のデータは、テキストのうち、少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する抽出ユニット1012と、一つ又は複数の第4のデータのうちの各第4のデータをこの第4のデータに対応するテキストセグメントのターゲットデータとして確定するように構成される第2の確定ユニット1013とを含んでもよい。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含んでもよい。視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定されるものであってもよい。
いくつかの実施例によれば、マッチングユニット1014は、統一モーダルニューラルネットワークを利用して、それぞれ少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第1の数の候補データを確定するように構成される確定サブユニットと、少なくとも一つのテキストセグメントのそれぞれと対応する第1の数の候補データのうちの各候補データとの相関度に基づき、少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングサブユニットとを含んでもよい。
いくつかの実施例によれば、視覚相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定されるものであってもよい。
いくつかの実施例によれば、少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、統一モーダルニューラルネットワークを利用して、このテキストセグメント、一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び対応する候補データに基づいて確定されるものであってもよい。
いくつかの実施例によれば、候補データセットのうちの各候補データは、多くとも、少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングする。確定サブユニットはさらに、少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、統一モーダルニューラルネットワークを利用して、それぞれ一部のテキストセグメントのうちの各テキストセグメントのために、候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第2の数の候補データを確定するように構成されてもよい。マッチングサブユニットはさらに、一部のテキストセグメントのそれぞれと対応する第2の数の候補データのうちの各候補データとの相関度に基づき、一部のテキストセグメントにターゲットデータをマッチングするように構成されてもよい。
いくつかの実施例によれば、生成ユニット1015は、ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、ビデオを生成するように構成される生成サブユニットを含んでもよい。
いくつかの実施例によれば、生成ユニットはさらに、少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成されてもよい。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第1のセマンティック相関度をさらに含んでもよく、第1のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第2のセマンティック相関度をさらに含んでもよい。第2のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される。
いくつかの実施例によれば、相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第3のセマンティック相関度をさらに含んでもよく、第3のセマンティック相関度は、統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される。
本開示の別の態様によれば、図12に示されるように、ニューラルネットワークのトレーニング装置1200をさらに提供し、ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して複数の入力特徴を処理するように構成され、この装置は、サンプルテキスト、サンプルテキストの実グローバルセマンティック情報、及びサンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第3の取得ユニット1201であって、少なくとも一つの実ローカルセマンティック情報は、サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第3の取得ユニット1201と、サンプルテキストに含まれる複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第1の入力ユニット1202と、実グローバルセマンティック情報、予測グローバルセマンティック情報、少なくとも一つの実ローカルセマンティック情報、及び少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算するように構成される第1の計算ユニット1203と、サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第4の取得ユニット1204であって、正例サンプルデータと負例サンプルデータは、いずれもビデオデータ又は画像データである第4の取得ユニット1204と、サンプルテキストセグメントに含まれる複数の第2のサンプル語と正例サンプルデータに含まれる少なくとも一つの正例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプル視覚相関度の数値を得るように構成される第2の入力ユニット1205であって、正例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの視覚情報との間の相関度を指示する第2の入力ユニット1205と、サンプルテキストセグメントに含まれる複数の第2のサンプル語と負例サンプルデータに含まれる少なくとも一つの負例画像ブロックをニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプル視覚相関度の数値を得るように構成される第3の入力ユニット1206であって、負例サンプル視覚相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの視覚情報との間の相関度を指示する第3の入力ユニット1206と、正例サンプル視覚相関度の数値と負例サンプル視覚相関度の数値に基づき、第2の損失値を計算するように構成される第2の計算ユニット1207であって、第2の損失値は、正例サンプル視覚相関度の数値と負相関であり、且つ負例サンプル視覚相関度の数値と正相関である第2の計算ユニット1207と、第1の損失値と第2の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される調整ユニット1208とを含む。理解できるように、トレーニング装置1200におけるユニット1201~ユニット1208の操作と効果は、図6におけるステップS601~ステップS608の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。
いくつかの実施例によれば、図13に示されるように、ニューラルネットワークのトレーニング装置1300は、実サンプル要約テキストを取得するように構成される第5の取得ユニット1308と、複数の第1のサンプル語をニューラルネットワークに入力することによって、サンプルテキストの予測サンプル要約テキストを得るように構成される第4の入力ユニット1309と、実サンプル要約テキストと予測サンプル要約テキストに基づき、第3の損失値を計算するように構成される第3の計算ユニット1310とをさらに含んでもよい。調整ユニット1311はさらに、第1の損失値、第2の損失値と第3の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される。理解できるように、トレーニング装置1300におけるユニット1301~ユニット1307の操作と効果は、トレーニング装置1200におけるユニット1201~ユニット1207の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。
いくつかの実施例によれば、実サンプル要約テキストは、ユーザ入力に基づいて確定されるものであってもよい。これによって、ユーザによって入力又は選択されるデータを使用して統一モーダルニューラルネットワークをさらにトレーニングすることによって、フィードバック学習を実現し、ビデオ生成効果を持続的にアップグレードして最適化できることを確保することができる。
いくつかの実施例によれば、図14に示されるように、ニューラルネットワークのトレーニング装置1400は、正例サンプルデータの関連テキスト情報及び負例サンプルデータの関連テキスト情報を取得するように構成される第6の取得ユニット1408であって、関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含む第6の取得ユニット1408と、複数の第2のサンプル語と正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第3のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと正例サンプルデータとの間の正例サンプルセマンティック相関度を得るように構成される第5の入力ユニット1409であって、正例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と正例サンプルデータの関連テキスト情報との間の相関度を指示する第5の入力ユニット1409と、複数の第2のサンプル語と負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第4のサンプル語をニューラルネットワークに入力することによって、サンプルテキストセグメントと負例サンプルデータとの間の負例サンプルセマンティック相関度を得るように構成される第6の入力ユニット1410であって、負例サンプルセマンティック相関度は、サンプルテキストセグメントのテキスト情報と負例サンプルデータの関連テキスト情報との間の相関度を指示する第6の入力ユニット1410と、正例サンプルセマンティック相関度と負例サンプルセマンティック相関度に基づき、第4の損失値を計算するように構成される第4の計算ユニット1411であって、第4の損失値は、正例サンプルセマンティック相関度と負相関であり、且つ負例サンプルセマンティック相関度と正相関である第4の計算ユニット1411とをさらに含んでもよい。調整ユニット1412はさらに、第1の損失値、第2の損失値と第4の損失値に基づき、ニューラルネットワークのパラメータを調整するように構成される。理解できるように、トレーニング装置1400におけるユニット1401~ユニット1407の操作と効果は、トレーニング装置1200におけるユニット1201~ユニット1207の操作と効果とそれぞれ同様であり、ここでこれ以上説明しない。
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
本開示の実施例によれば、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
図15を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器1500の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを指すことを意図している。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル補助装置、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限することを意図するものではない。
図15に示すように、機器1500は、計算ユニット1501を含み、それはリードオンリーメモリ(ROM)1502に記憶されるコンピュータプログラムまた記憶ユニット1508からランダムアクセスメモリ(RAM)1503にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 1503において、更に装置1500を操作するために必要な様々なプログラムとデータを記憶することができる。計算ユニット1501、ROM 1502およびRAM 1503はバス1504によって互いに接続される。入力/出力(I/O)インターフェース1505もバス1504に接続される。
機器1500における複数の部品はI/Oインターフェース1505に接続され、入力ユニット1506、出力ユニット1507、記憶ユニット1508及び通信ユニット1509を含む。入力ユニット1506は、装置1500に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット1506は、入力された数字又は文字情報が受信でき、計算装置のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含むことができるが、これらに限定されない。出力ユニット1507は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1508は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット1509は、機器1500が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)TM装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット1501は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1501の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習ネットワークアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット1501は上記各方法と処理、例えば、ビデオ生成方法及びニューラルネットワークのトレーニング方法を実行する。例えば、一部の実施例において、ビデオ生成方法及びニューラルネットワークのトレーニング方法はコンピュータソフトウェアプログラムとして実現してよく、機械読み取り可能な媒体、例えば、記憶ユニット1508に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはROM 1502及び/又は通信ユニット1509を経由して機器1500にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 1503にロードされて計算ユニット1501によって実行される場合、以上で説明されるビデオ生成方法及びニューラルネットワークのトレーニング方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1501は他のいかなる適切な方式で(例えば、ファームウェアにより)ビデオ生成方法及びニューラルネットワークのトレーニング方法を実行するように構成されてよい。
本明細書で上記のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械読み取り可能な媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、いずれかの形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバは、クラウドサーバであり、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステム中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または略称「VPS」)に存在する管理困難度が高く、業務拡張性が弱い欠陥を解決している。サーバーは、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。
理解すべきことは、前述した様々な形態のフローを用いて、改めて順位付け、ことを増加又削除してよいことである。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本願の実施例又は例は図面を参照して説明されたが、上記の方法、システム、および装置は単なる例示の実施例又は例であり、本開示の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲およびその均などの範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均など要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同などの要素に置き換えることができるということである。

Claims (53)

  1. ビデオ生成方法であって、
    テキストのグローバルセマンティック情報と、前記テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報を取得することと、
    前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得ることと、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得ることと、
    前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることと、
    前記少なくとも一つのテキストセグメントのそれぞれと前記候補データセットのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることと、
    前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することとを含む、ことを特徴とするビデオ生成方法。
  2. 前記少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識することと、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることとをさらに含み、
    ここで、前記の、前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることは、
    前記少なくとも一つの第1のデータ、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータ、及び前記少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第3のデータに基づき、前記候補データセットを得ることを含む、請求項1に記載の方法。
  3. 前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第3のデータを得ることを含む、請求項2に記載の方法。
  4. 前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、複数の第3の検索結果を得ることと、
    この実体語が位置するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第3の検索結果をフィルタリングすることによって、前記少なくとも一つの第3のデータを得ることとを含む、請求項3に記載の方法。
  5. 前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得ることは、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第2のデータを得ることを含む、請求項1~4のいずれか1項に記載の方法。
  6. 前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第2のデータを得ることは、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、複数の第2の検索結果を得ることと、
    このローカルセマンティック情報に対応するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第2の検索結果をフィルタリングすることによって、前記少なくとも一つの第2のデータを得ることとを含む、請求項5に記載の方法。
  7. 前記の、前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得ることは、
    前記グローバルセマンティック情報と前記テキストのタイトルに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第1のデータを得ることを含む、請求項5に記載の方法。
  8. 前記グローバルセマンティック情報と前記少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであり、且つ、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含み、前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定される、請求項1に記載の方法。
  9. 前記候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得ることをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第1のセマンティック相関度をさらに含み、前記第1のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される、請求項8に記載の方法。
  10. 前記コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む、請求項9に記載の方法。
  11. 前記候補データセットにおける各候補データの記述テキスト情報を取得することをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第2のセマンティック相関度をさらに含み、前記第2のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される、請求項8に記載の方法。
  12. 前記候補データセットにおける各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得ることをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第3のセマンティック相関度をさらに含み、前記第3のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される、請求項8に記載の方法。
  13. 前記の、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、
    前記統一モーダルニューラルネットワークを利用して、それぞれ前記少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、前記候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第1の数の候補データを確定することと、
    前記少なくとも一つのテキストセグメントのそれぞれと対応する第1の数の候補データのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることとを含む、請求項8~12のいずれか1項に記載の方法。
  14. 前記候補データセットのうちの各候補データは、多くとも前記少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングし、ここで、前記の、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングすることは、
    前記少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、前記統一モーダルニューラルネットワークを利用して、それぞれ前記一部のテキストセグメントのうちの各テキストセグメントのために、前記候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第2の数の候補データを確定することと、
    前記一部のテキストセグメントのそれぞれと対応する第2の数の候補データのうちの各候補データとの相関度に基づき、前記一部のテキストセグメントにターゲットデータをマッチングすることとをさらに含む、請求項13に記載の方法。
  15. 前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、前記入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定される、請求項8に記載の方法。
  16. 前記少なくとも一つのテキストセグメントにおいて実体語を認識することをさらに含み、
    ここで、前記少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、前記統一モーダルニューラルネットワークを利用して、このテキストセグメント、前記一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び前記対応する候補データに基づいて確定される、請求項15に記載の方法。
  17. 前記少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定することと、
    前記統一モーダルニューラルネットワークを利用して、前記ターゲットテキストセグメントに基づいて第5のデータを直接生成し、ここで、前記第5のデータの視覚コンテンツは、前記ターゲットテキストセグメントに関連付けられることと、
    前記第5のデータを前記候補データセットに添加することとをさらに含む、請求項8に記載の方法。
  18. 前記の、前記ターゲットテキストセグメントに基づいて第5のデータを直接生成することは、
    前記ターゲットテキストセグメントにおいて実体語を認識することと、
    前記統一モーダルニューラルネットワークを利用して、前記実体語に基づいて前記第5のデータを直接生成することとを含む、請求項17に記載の方法。
  19. 元ページにおいて前記テキストと前記テキストに対応する一つ又は複数の第4のデータとを抽出し、ここで、前記一つ又は複数の第4のデータは、前記テキストのうち、前記少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応することと、
    前記一つ又は複数の第4のデータのうちの各第4のデータをこの第4のデータに対応するテキストセグメントのターゲットデータとして確定することとをさらに含み、
    ここで、前記の、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、
    前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと前記一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成することを含む、請求項1に記載の方法。
  20. 前記の、前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得ることは、
    第1のターゲットフィルタリング規則に基づき、前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得ることと、
    ターゲット切り分け規則に基づき、前記複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得ることと、
    第2のターゲットフィルタリング規則に基づき、前記複数のデータセグメントをフィルタリングすることによって、前記候補データセットを得ることとを含む、請求項1に記載の方法。
  21. 前記テキストの要約テキストを取得することと、
    前記要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定することとをさらに含み、
    ここで、前記の、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成することは、
    前記ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、前記ビデオを生成することを含む、請求項1に記載の方法。
  22. ニューラルネットワークのトレーニング方法であって、前記ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して前記複数の入力特徴を処理するように構成され、前記方法は、
    サンプルテキスト、前記サンプルテキストの実グローバルセマンティック情報、及び前記サンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得し、ここで、前記少なくとも一つの実ローカルセマンティック情報は、前記サンプルテキストのうちの少なくとも一つのテキストセグメントに対応することと、
    前記サンプルテキストに含まれる複数の第1のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得ることと、
    前記実グローバルセマンティック情報、前記予測グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、及び前記少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算することと、
    サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得することと、
    前記サンプルテキストセグメントに含まれる複数の第2のサンプル語と前記正例サンプルデータに含まれる少なくとも一つの正例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプル視覚相関度を得、前記正例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの視覚情報との間の相関度を指示することと、
    前記複数の第2のサンプル語と前記負例サンプルデータに含まれる少なくとも一つの負例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプル視覚相関度を得、前記負例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの視覚情報との間の相関度を指示することと、
    前記正例サンプル視覚相関度と前記負例サンプル視覚相関度に基づき、第2の損失値を計算し、ここで、前記第2の損失値は、前記正例サンプル視覚相関度と負相関であり、且つ前記負例サンプル視覚相関度と正相関であることと、
    前記第1の損失値と前記第2の損失値に基づき、前記ニューラルネットワークのパラメータを調整することとを含む、ことを特徴とするニューラルネットワークのトレーニング方法。
  23. 実サンプル要約テキストを取得することと、
    前記複数の第1のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測サンプル要約テキストを得ることと、
    前記実サンプル要約テキストと前記予測サンプル要約テキストに基づき、第3の損失値を計算することとをさらに含み、
    ここで、前記の、前記ニューラルネットワークのパラメータを調整することは、
    前記第1の損失値、前記第2の損失値と前記第3の損失値に基づき、前記ニューラルネットワークのパラメータを調整することを含む、請求項22に記載の方法。
  24. 前記実グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、前記正例サンプルデータ、及び前記実サンプル要約テキストは、ユーザ入力に基づいて確定される、請求項23に記載の方法。
  25. 前記正例サンプルデータの関連テキスト情報及び前記負例サンプルデータの関連テキスト情報を取得し、前記関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含むことと、
    前記複数の第2のサンプル語と前記正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第3のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプルセマンティック相関度を得、前記正例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの関連テキスト情報との間の相関度を指示することと、
    前記複数の第2のサンプル語と前記負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第4のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプルセマンティック相関度を得、前記負例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの関連テキスト情報との間の相関度を指示することと、
    前記正例サンプルセマンティック相関度と前記負例サンプルセマンティック相関度に基づき、第4の損失値を計算し、ここで、前記第4の損失値は、前記正例サンプルセマンティック相関度と負相関であり、且つ前記負例サンプルセマンティック相関度と正相関であることとをさらに含み、
    ここで、前記の、前記ニューラルネットワークのパラメータを調整することは、
    前記第1の損失値、前記第2の損失値と前記第4の損失値に基づき、前記ニューラルネットワークのパラメータを調整することを含む、請求項22~24のいずれか1項に記載の方法。
  26. ビデオ生成装置であって、
    テキストのグローバルセマンティック情報と、前記テキストのうちの少なくとも一つのテキストセグメントに対応する少なくとも一つのローカルセマンティック情報を取得するように構成される第1の取得ユニットと、
    前記グローバルセマンティック情報に基づいてデータベースにおいて検索を行うことによって、前記グローバルセマンティック情報に対応する少なくとも一つの第1のデータを得るように構成される第1の検索ユニットと、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、このローカルセマンティック情報に対応する少なくとも一つの第2のデータを得るように構成される第2の検索ユニットと、
    前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータに基づき、候補データセットを得るように構成される第2の取得ユニットと、
    前記少なくとも一つのテキストセグメントのそれぞれと前記候補データセットのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングユニットと、
    前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいてビデオを生成するように構成される生成ユニットとを含む、ことを特徴とするビデオ生成装置。
  27. 前記少なくとも一つのテキストセグメントにおいて少なくとも一つの実体語を認識するように構成される第1の認識ユニットと、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得るように構成される第3の検索ユニットをさらに含み、
    前記第2の取得ユニットはさらに、前記少なくとも一つの第1のデータ、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータ、及び前記少なくとも一つの実体語のそれぞれに対応する少なくとも一つの第3のデータに基づき、前記候補データセットを得るように構成される、請求項26に記載の装置。
  28. 前記第3の検索ユニットは、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第3のデータを得るように構成される第1の検索サブユニットを含む、請求項27に記載の装置。
  29. 前記の、前記少なくとも一つの実体語のうちの各実体語について、この実体語とこの実体語が位置するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、この実体語に対応する少なくとも一つの第3のデータを得ることは、
    前記少なくとも一つの実体語のうちの各実体語について、この実体語に基づいて前記データベースにおいて検索を行うことによって、複数の第3の検索結果を得ることと、
    この実体語が位置するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第3の検索結果をフィルタリングすることによって、前記少なくとも一つの第3のデータを得ることとを含む、請求項28に記載の装置。
  30. 前記第2の検索ユニットは、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第2のデータを得るように構成される第2の検索サブユニットを含む、請求項26~29のいずれか1項に記載の装置。
  31. 前記の、前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報とこのローカルセマンティック情報に対応するテキストセグメントに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第2のデータを得ることは、
    前記少なくとも一つのローカルセマンティック情報のうちの各ローカルセマンティック情報について、このローカルセマンティック情報に基づいて前記データベースにおいて検索を行うことによって、複数の第2の検索結果を得ることと、
    このローカルセマンティック情報に対応するテキストセグメントと前記テキストのうちの少なくとも一つに基づいて前記複数の第2の検索結果をフィルタリングすることによって、前記少なくとも一つの第2のデータを得ることとを含む、請求項30に記載の装置。
  32. 前記第1の検索ユニットは、
    前記グローバルセマンティック情報と前記テキストのタイトルに基づいて前記データベースにおいて検索を行うことによって、前記少なくとも一つの第1のデータを得るように構成される第3の検索サブユニットを含む、請求項30に記載の装置。
  33. 前記グローバルセマンティック情報と前記少なくとも一つのローカルセマンティック情報は、トレーニングされた統一モーダルニューラルネットワークを利用して取得されるものであり、且つ、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの視覚情報との間の視覚相関度を含み、前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される候補データに基づいて確定される、請求項26に記載の装置。
  34. 前記候補データセットのうちの各候補データに対してコンテンツ理解を行うことによって、この候補データのコンテンツセマンティック情報を得るように構成されるコンテンツ理解ユニットをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのコンテンツセマンティック情報との間の第1のセマンティック相関度をさらに含み、前記第1のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるコンテンツセマンティック情報に基づいて確定される、請求項33に記載の装置。
  35. 前記コンテンツ理解は、テキスト認識と実体認識のうちの少なくとも一つを含む、請求項34に記載の装置。
  36. 前記候補データセットにおける各候補データの記述テキスト情報を取得するように構成される記述テキスト取得ユニットをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データの記述テキスト情報との間の第2のセマンティック相関度をさらに含み、前記第2のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力される記述テキスト情報に基づいて確定される、請求項33に記載の装置。
  37. 前記候補データセットにおける各候補データのオーディオデータに対してボイス認識を行うことによって、この候補データに対応するボイステキスト情報を得るように構成されるボイス認識ユニットをさらに含み、
    ここで、前記相関度は、該当するテキストセグメントのテキスト情報と対応する候補データのボイステキスト情報との間の第3のセマンティック相関度をさらに含み、前記第3のセマンティック相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメントと入力されるボイステキスト情報に基づいて確定される、請求項33に記載の装置。
  38. 前記マッチングユニットは、
    前記統一モーダルニューラルネットワークを利用して、それぞれ前記少なくとも一つのテキストセグメントのうちの各テキストセグメントのために、前記候補データセットにおいて、このテキストセグメントとの視覚相関度が最も高い第1の数の候補データを確定するように構成される確定サブユニットと、
    前記少なくとも一つのテキストセグメントのそれぞれと対応する第1の数の候補データのうちの各候補データとの相関度に基づき、前記少なくとも一つのテキストセグメントにターゲットデータをマッチングするように構成されるマッチングサブユニットとを含む、請求項33~37のいずれか1項に記載の装置。
  39. 前記候補データセットのうちの各候補データは、多くとも前記少なくとも一つのテキストセグメントのうちの一つのテキストセグメントにマッチングし、
    ここで、前記確定サブユニットはさらに、前記少なくとも一つのテキストセグメントのうちの一部のテキストセグメントがターゲットデータへのマッチングに成功しないと確定することに応答し、前記統一モーダルニューラルネットワークを利用して、それぞれ前記一部のテキストセグメントのうちの各テキストセグメントのために、前記候補データセットのうちのマッチングされていない候補データにおいて、このテキストセグメントとの相関度が最も高い第2の数の候補データを確定するように構成され、
    且つ、前記マッチングサブユニットはさらに、前記一部のテキストセグメントのそれぞれと対応する第2の数の候補データのうちの各候補データとの相関度に基づき、前記一部のテキストセグメントにターゲットデータをマッチングするように構成される、請求項38に記載の装置。
  40. 前記視覚相関度は、前記統一モーダルニューラルネットワークを利用して、入力されるテキストセグメント、前記入力されるテキストセグメントに対応するローカルセマンティック情報、及び入力される候補データに基づいて確定される、請求項33に記載の装置。
  41. 前記少なくとも一つのテキストセグメントにおいて実体語を認識するように構成される第2の認識ユニットをさらに含み、
    ここで、前記少なくとも一つのテキストセグメントのうち、一つ又は複数の実体語が含まれるテキストセグメントについて、このテキストセグメントと対応する候補データとの視覚相関度は、前記統一モーダルニューラルネットワークを利用して、このテキストセグメント、前記一つ又は複数の実体語、このテキストセグメントに対応するローカルセマンティック情報、及び前記対応する候補データに基づいて確定される、請求項40に記載の装置。
  42. 前記少なくとも一つのテキストセグメントにおいてビデオデータ又は画像データを直接生成するためのターゲットテキストセグメントを確定するように構成される第1の確定ユニットと、
    前記統一モーダルニューラルネットワークを利用して、前記ターゲットテキストセグメントに基づいて第5のデータを直接生成するように構成されるデータ生成ユニットであって、前記第5のデータの視覚コンテンツは、前記ターゲットテキストセグメントに関連付けられるデータ生成ユニットと、
    前記第5のデータを候補データセットに添加するように構成される添加ユニットとをさらに含む、請求項33に記載の装置。
  43. 前記データ生成ユニットは、
    前記ターゲットテキストセグメントにおいて実体語を認識するように構成される認識サブユニットと、
    前記統一モーダルニューラルネットワークを利用して、前記実体語に基づいて前記第5のデータを直接生成するように構成されるデータ生成サブユニットとを含む、請求項42に記載の装置。
  44. 元ページにおいて前記テキストと前記テキストに対応する一つ又は複数の第4のデータとを抽出するように構成される抽出ユニットであって、前記一つ又は複数の第4のデータは、前記テキストのうち、前記少なくとも一つのテキストセグメントと異なる一つ又は複数のテキストセグメントに対応する抽出ユニットと、
    前記一つ又は複数の第4のデータのうちの各第4のデータをこの第4のデータに対応するテキストセグメントのターゲットデータとして確定するように構成される第2の確定ユニットとをさらに含み、
    ここで、前記生成ユニットはさらに、前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータと前記一つ又は複数のテキストセグメントのそれぞれにマッチングしたターゲットデータに基づいて前記ビデオを生成するように構成される、請求項26に記載の装置。
  45. 前記第2の取得ユニットは、
    第1のターゲットフィルタリング規則に基づき、前記少なくとも一つの第1のデータと、前記少なくとも一つのローカルセマンティック情報のそれぞれに対応する少なくとも一つの第2のデータをフィルタリングすることによって、複数の切り分けられるべきデータを得るように構成される取得サブユニットと、
    ターゲット切り分け規則に基づき、前記複数の切り分けられるべきデータのうちの各切り分けられるべきデータを切り分けることによって、複数のデータセグメントを得るように構成される切り分けサブユニットと、
    第2のターゲットフィルタリング規則に基づいて前記複数のデータセグメントをフィルタリングすることによって、前記候補データセットを得るように構成されるフィルタリングサブユニットとを含む、請求項26に記載の装置。
  46. 前記テキストの要約テキストを取得するように構成される要約取得ユニットと、
    前記要約テキストに基づき、ビデオ字幕、ビデオボイス、及びビデオ背景音楽のうちの少なくとも一つを確定するように構成される第3の確定ユニットとをさらに含み、
    ここで、前記生成ユニットは、
    前記ビデオ字幕、ビデオボイス、ビデオ背景音楽のうちの少なくとも一つ及び前記少なくとも一つのテキストセグメントのそれぞれにマッチングしたターゲットデータに基づき、前記ビデオを生成するように構成される生成サブユニットを含む、請求項26に記載の装置。
  47. ニューラルネットワークのトレーニング装置であって、前記ニューラルネットワークは、受信された複数の入力を埋め込んで対応する複数の入力特徴を得、且つセルフアテンションメカニズムを利用して前記複数の入力特徴を処理するように構成され、前記装置は、
    サンプルテキスト、前記サンプルテキストの実グローバルセマンティック情報、及び前記サンプルテキストの少なくとも一つの実ローカルセマンティック情報を取得するように構成される第3の取得ユニットであって、前記少なくとも一つの実ローカルセマンティック情報は、前記サンプルテキストのうちの少なくとも一つのテキストセグメントに対応する第3の取得ユニットと、
    前記サンプルテキストに含まれる複数の第1のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測グローバルセマンティック情報と少なくとも一つの予測ローカルセマンティック情報を得るように構成される第1の入力ユニットと、
    前記実グローバルセマンティック情報、前記予測グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、及び前記少なくとも一つの予測ローカルセマンティック情報に基づき、第1の損失値を計算するように構成される第1の計算ユニットと、
    サンプルテキストセグメント、このサンプルテキストセグメントに対応する正例サンプルデータとこのサンプルテキストセグメントに対応する負例サンプルデータを取得するように構成される第4の取得ユニットと、
    前記サンプルテキストセグメントに含まれる複数の第2のサンプル語と前記正例サンプルデータに含まれる少なくとも一つの正例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプル視覚相関度を得るように構成される第2の入力ユニットであって、前記正例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの視覚情報との間の相関度を指示する第2の入力ユニットと、
    前記複数の第2のサンプル語と前記負例サンプルデータに含まれる少なくとも一つの負例画像ブロックを前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプル視覚相関度を得るように構成される第3の入力ユニットであって、前記負例サンプル視覚相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの視覚情報との間の相関度を指示する第3の入力ユニットと、
    前記正例サンプル視覚相関度と前記負例サンプル視覚相関度に基づき、第2の損失値を計算するように構成される第2の計算ユニットであって、前記第2の損失値は、前記正例サンプル視覚相関度と負相関であり、且つ前記負例サンプル視覚相関度と正相関である第2の計算ユニットと、
    前記第1の損失値と前記第2の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される調整ユニットとを含む、ことを特徴とするニューラルネットワークのトレーニング装置。
  48. 実サンプル要約テキストを取得するように構成される第5の取得ユニットと、
    前記複数の第1のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストの予測サンプル要約テキストを得るように構成される第4の入力ユニットと、
    前記実サンプル要約テキストと前記予測サンプル要約テキストに基づき、第3の損失値を計算するように構成される第3の計算ユニットとをさらに含み、
    ここで、前記調整ユニットはさらに、前記第1の損失値、前記第2の損失値と前記第3の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される、請求項47に記載の装置。
  49. 前記実グローバルセマンティック情報、前記少なくとも一つの実ローカルセマンティック情報、前記正例サンプルデータ、及び前記実サンプル要約テキストは、ユーザ入力に基づいて確定される、請求項48に記載の装置。
  50. 前記正例サンプルデータの関連テキスト情報及び前記負例サンプルデータの関連テキスト情報を取得するように構成される第6の取得ユニットであって、前記関連テキスト情報は、対応するサンプルデータのコンテンツセマンティック情報、記述テキスト情報、及びボイステキスト情報のうちの少なくとも一つを含む第6の取得ユニットと、
    前記複数の第2のサンプル語と前記正例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第3のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記正例サンプルデータとの間の正例サンプルセマンティック相関度を得るように構成される第5の入力ユニットであって、前記正例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記正例サンプルデータの関連テキスト情報との間の相関度を指示する第5の入力ユニットと、
    前記複数の第2のサンプル語と前記負例サンプルデータの関連テキスト情報に含まれる少なくとも一つの第4のサンプル語を前記ニューラルネットワークに入力することによって、前記サンプルテキストセグメントと前記負例サンプルデータとの間の負例サンプルセマンティック相関度を得るように構成される第6の入力ユニットであって、前記負例サンプルセマンティック相関度は、前記サンプルテキストセグメントのテキスト情報と前記負例サンプルデータの関連テキスト情報との間の相関度を指示する第6の入力ユニットと、
    前記正例サンプルセマンティック相関度と前記負例サンプルセマンティック相関度に基づき、第4の損失値を計算するように構成される第4の計算ユニットであって、前記第4の損失値は、前記正例サンプルセマンティック相関度と負相関であり、且つ前記負例サンプルセマンティック相関度と正相関である第4の計算ユニットとをさらに含み、
    ここで、前記調整ユニットはさらに、前記第1の損失値、前記第2の損失値と前記第4の損失値に基づき、前記ニューラルネットワークのパラメータを調整するように構成される、請求項47~49のいずれか1項に記載の装置。
  51. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1~4のいずれか1項に記載の方法を実行することを可能にする、ことを特徴とする電子機器。
  52. コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~4のいずれか1項に記載の方法を実行させるために使用される、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  53. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行される時に、請求項1~4のいずれか1項に記載の方法を実現する、コンピュータプログラム製品。
JP2023026371A 2022-02-25 2023-02-22 ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置 Pending JP2023062173A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210174087.9 2022-02-25
CN202210174087.9A CN114254158B (zh) 2022-02-25 2022-02-25 视频生成方法及其装置、神经网络的训练方法及其装置

Publications (1)

Publication Number Publication Date
JP2023062173A true JP2023062173A (ja) 2023-05-02

Family

ID=80797077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023026371A Pending JP2023062173A (ja) 2022-02-25 2023-02-22 ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置

Country Status (3)

Country Link
US (1) US20230214423A1 (ja)
JP (1) JP2023062173A (ja)
CN (1) CN114254158B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880498B (zh) * 2022-07-11 2022-11-29 北京百度网讯科技有限公司 事件信息展示方法及装置、设备和介质
CN117609550B (zh) * 2024-01-17 2024-05-28 腾讯科技(深圳)有限公司 视频标题生成方法和视频标题生成模型的训练方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7383171B2 (en) * 2003-12-05 2008-06-03 Xerox Corporation Semantic stenography using short note input data
US7835578B2 (en) * 2006-04-19 2010-11-16 Sarnoff Corporation Automated video-to-text system
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN106959946B (zh) * 2017-04-07 2020-05-05 闽江学院 一种基于深度学习的文本语义特征生成优化方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
US11604818B2 (en) * 2019-05-06 2023-03-14 Apple Inc. Behavioral curation of media assets
CN110197521B (zh) * 2019-05-21 2023-03-24 复旦大学 基于语义结构表示的视觉文本嵌入方法
CN110390397B (zh) * 2019-06-13 2020-07-10 成都信息工程大学 一种文本蕴含识别方法及装置
CN111340920B (zh) * 2020-03-02 2024-04-09 长沙千博信息技术有限公司 一种语义驱动的二维动画自动生成方法
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113761280A (zh) * 2021-04-16 2021-12-07 腾讯科技(深圳)有限公司 媒体数据处理方法、装置、电子设备及计算机存储介质
CN113269093B (zh) * 2021-05-26 2023-08-22 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN113704383A (zh) * 2021-08-26 2021-11-26 北京智通云联科技有限公司 篇章语义标注的方法、系统及装置
CN113784199B (zh) * 2021-09-10 2022-09-13 中国科学院计算技术研究所 一种用于生成视频描述文本的系统、方法、存储介质与电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431847A (zh) * 2023-06-14 2023-07-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN116431847B (zh) * 2023-06-14 2023-11-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备

Also Published As

Publication number Publication date
US20230214423A1 (en) 2023-07-06
CN114254158B (zh) 2022-06-10
CN114254158A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
US11315546B2 (en) Computerized system and method for formatted transcription of multimedia content
US20240107127A1 (en) Video display method and apparatus, video processing method, apparatus, and system, device, and medium
US11775254B2 (en) Analyzing graphical user interfaces to facilitate automatic interaction
JP2023062173A (ja) ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置
US10936635B2 (en) Context-based generation of semantically-similar phrases
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
CN104836720A (zh) 交互式通信中进行信息推荐的方法及装置
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN113468302A (zh) 组合共享询问线的多个搜索查询的参数
JP7240505B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN111279333B (zh) 对网络中的数字内容的基于语言的搜索
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
US20240037941A1 (en) Search results within segmented communication session content
CN112100501A (zh) 信息流的处理方法、装置及电子设备
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
US11989217B1 (en) Systems and methods for real-time data processing of unstructured data
US20240106776A1 (en) Sign Language Translation Method And System Thereof
US20240126807A1 (en) Visual Search Determination for Text-To-Image Replacement
KR20230053237A (ko) 인스턴트 메시징 서비스의 메시지 검색 장치 및 방법
Yüksel et al. Augmenting conversations through context-aware multimedia retrieval based on speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240321

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240321