JP7424801B2 - Video editing output control device using text data, video editing output method using text data, and program - Google Patents
Video editing output control device using text data, video editing output method using text data, and program Download PDFInfo
- Publication number
- JP7424801B2 JP7424801B2 JP2019204328A JP2019204328A JP7424801B2 JP 7424801 B2 JP7424801 B2 JP 7424801B2 JP 2019204328 A JP2019204328 A JP 2019204328A JP 2019204328 A JP2019204328 A JP 2019204328A JP 7424801 B2 JP7424801 B2 JP 7424801B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- video
- time
- text
- time reference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000006870 function Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- 230000010365 information processing Effects 0.000 description 51
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Description
本発明は、テキストデータを用いた編集制御技術に関する。 The present invention relates to editing control technology using text data.
映像編集機としての映像編集出力制御装置は、テレビ放送が始まって以来、様々な製品が開発され販売されている。 Since the beginning of television broadcasting, various products have been developed and sold as video editing output control devices used as video editing machines.
近年、音声認識技術がAIの台頭ともに成熟し、音声認識技術による音声データや映像データからの音声認識テキスト化の精度が高まってきている。音声認識技術はスマートフォンなどでは標準的に搭載され、キーパットテキスト入力と同様の入力手段として音声認識入力手段が確立されている。 In recent years, voice recognition technology has matured with the rise of AI, and the accuracy of speech recognition and text conversion from audio and video data using voice recognition technology has increased. Voice recognition technology is standardly installed in smartphones and the like, and voice recognition input means has been established as an input means similar to keypad text input.
また音声認識技術と同時に、テキストから音声を生成する音声合成装置のシステムも多く開発され、映像や音声とテキストとの関連性が密になりつつある。そこで音声認識技術や、音声合成技術を用いて得たテキスト情報をメタデータにして、音声情報に付加した編集システムが構築されている。 At the same time as voice recognition technology, many voice synthesizer systems that generate voice from text have been developed, and the relationship between video and voice and text is becoming closer. Therefore, editing systems have been constructed in which text information obtained using speech recognition technology or speech synthesis technology is converted into metadata and added to speech information.
しかし音声認識技術、音声合成技術が飛躍的に向上しているにも関わらず、それらの出力結果や生成元となるテキストデータを積極的に利用した編集装置は提供されていなかった。 However, even though speech recognition technology and speech synthesis technology have improved dramatically, no editing device has been provided that actively utilizes the output results and text data from which they are generated.
特許文献1の発明では映像からメタデータとして生成したテキスト情報を抽出する映像編集を行うシステムだが、時刻とは連携されておらず、メタデータやプレイリストはあくまで編集を行うための情報に過ぎない。
The invention of
特許文献2の発明は音声認識システムを使ってテキスト化し、メタデータを生成しているが、翻訳をメインに第2言語の同期を取ることを目的とし、そのメタデータを元に映像を管理しているのみで、編集ポイントを指定することはできない。
The invention of
そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、音声認識システムによって出力された音声認識テキストデータ、もしくは音声合成に用いるテキストデータを元に、そのテキストデータを用いて映像を編集することを目的とする。 Therefore, some aspects of the present invention have been made in view of such circumstances, and are based on speech recognition text data output by a speech recognition system or text data used for speech synthesis. The purpose is to edit videos.
上記の課題を解決するために、請求項1記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声データを受信する音声データ入力手段と、テキストデータを受信する外部テキストデータ入力手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段と、前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、を備えることを特徴としている。
In order to solve the above problem, the invention according to
本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声合成等を行う際に利用した外部テキストデータを、編集システムが事前に取り込む際に基準時刻を付与することによって、外部テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。 According to the present invention, a reference time is assigned when video and audio are imported into the device, and at the same time, a reference time is assigned when the editing system imports external text data used for voice synthesis etc. in advance. This makes it possible to use external text data as a reference axis for editing, making it possible to build a visually easy-to-understand editing system.
請求項2記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、を備えることをを特徴としている。
The invention according to
本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声認識処理によって得られた音声認識テキストデータに基準時刻を付与することによって、音声認識テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。 According to the present invention, a reference time is assigned when video and audio are imported into a device, and at the same time, a reference time is assigned to speech recognition text data obtained through speech recognition processing, thereby making the speech recognition text data a reference for editing. It becomes possible to handle it as an axis, and it is possible to build a visually easy-to-understand editing system.
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。 Embodiments of the present invention will be described below with reference to the accompanying drawings. The following embodiments are illustrative for explaining the present invention, and are not intended to limit the present invention only to the embodiments. Further, the present invention can be modified in various ways without departing from the gist thereof. Furthermore, in each drawing, the same components are given the same reference numerals as much as possible, and duplicate explanations will be omitted.
<実施形態1>
図1は、本発明の実施形態1に係る情報処理システム100の一実施形態を示す概略構成図(システム構成図)である。図1に示すように、本発明の実施の形態に係る情報処理システム100は、例示的に映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、及び情報処理装置4、音声合成装置5、を備え、所定のネットワークに接続されて構成されている。
<
FIG. 1 is a schematic configuration diagram (system configuration diagram) showing an embodiment of an
映像出力装置1は、映像編集出力制御サーバ2と接続し、編集を行う映像を出力する装置である。市販のVTR、DVD、HD-CAM、XD-CAM、及び汎用の映像編集サーバ等である。
The
映像編集出力制御サーバ2は、映像データ、音声データ、音声合成装置5から受信した外部テキストデータを元に映像編集を行う装置である。映像データ、音声データの一部削除やスーパーインポーズ、他の映像データや音声データを追加しながら、映像を編集出力制御をする装置である、映像編集出力制御サーバ2のさらに具体的な構成及び動作については、後述する。
The video editing
映像受信装置3は、映像編集出力制御サーバ2と接続し、編集された映像を受信する装置である。市販のVTR、DVD、HD-CAM、XD-CAM、及び汎用の映像編集サーバ等である。映像出力装置1を代わりに使用しても良い。
The video receiving
情報処理装置4は、映像編集出力制御サーバ2と接続し、汎用ブラウザや専用アプリケーションを利用して、編集操作を行うことができる装置である。情報処理装置4は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。
The
音声合成装置5は、テキストデータから音声データを生成する装置である。音声合成装置はあらかじめ用意したテキストデータを装置の基準時刻で音声データに変換する装置である。装置内で音声データ化するスピードを設定する機能を有し、音声データ化した際に基準時刻からの差分を計測し、その数値をテキストデータ内に埋め込む機能を有しても良い。
The
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声合成装置5と映像編集出力制御サーバ2との間、及び映像編集出力制御サーバ2と情報処理装置4との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。 The predetermined network is, for example, a communication line or communication network related to information processing, including the Internet, and is a communication line or a communication network related to information processing, including, for example, the Internet. There is no particular restriction as long as the configuration is such that various information and data can be transmitted and received between the devices. The predetermined network is realized by, for example, a broadband network such as the Internet, a core network such as a mobile phone network, a LAN (Local Area Network), or a narrowband network that is a combination of these.
なお、情報処理システム100は、本実施形態1では、音声合成装置5、映像編集出力制御サーバ2、映像出力装置1、映像受信装置3、及び情報処理装置4を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声合成装置5に関しては、映像編集出力制御サーバ2に音声合成装置機能が搭載されていれば、設置しなくてもよい。また、映像出力装置1と映像受信装置3は共用でも良いし、情報処理装置4に関しては、複数台設置して、同時に映像編集出力制御サーバ2と通信を行ってもよい。さらに、映像編集出力制御サーバ2の機能と情報処理装置4の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
In the first embodiment, the
図2は、本発明の実施形態1に係る映像編集出力制御サーバ2の一例を示す概略構成図(ブロック図)である。図2に示すように、映像編集出力制御サーバ2は、例示的に、各種データ及び各種情報を送受信する送受信部21と、各種データの入出力を制御するための各種処理を実行する情報処理部22と、各種情報及び各種データを記録する記憶部23と、を備えて構成される。なお、情報処理部22は、例えば、不図示であるが、記憶部23に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
FIG. 2 is a schematic configuration diagram (block diagram) showing an example of the video editing
送受信部21は機能的に、映像データ受信部211と、音声データ受信部212と、外部テキストデータ受信部213と、編集済映像データ送信部214と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
The transmitting/receiving
映像データ受信部211は、映像出力装置1から映像データを受信する。映像データとはトランスポートストリーム(TS)といったストリーム形式でも良いし、AVI、QuickTime、WFM、FLVといったファイル形式でも良い。また、圧縮されていない映像であるSDI(シリアルデジタルインターフェース)形式でも良い。
Video
音声データ受信部212は、音声合成装置5から音声データを受信する。音声データは様々な形式のストリーミング形式でも良いし、mp3,wma、AAC、Vorbisといったファイル形式でも良い。また、伝送形式のAES/EBU形式でも良い。
The audio
外部テキストデータ受信部213は、音声合成装置5からテキストデータを受信する。テキストデータは音声合成装置5が音声データを生成するために必要なテキストであり、音声データ受信部212で受信した音声データと基準時刻が合うように同期が取られている。テキストデータは他のシステムから映像編集出力制御サーバ2が一旦受信をして、音声合成装置5に渡すようにしても良い。
External text
編集済映像データ送信部214は、編集を終えた映像データを外部システムに送信する。送信する編集を終えた映像データとはトランスポートストリーム(TS)といったストリーム形式でも良いし、AVI、QuickTime、WFM、FLVといったファイル形式でも良い。また、圧縮されていない映像であるSDI(シリアルデジタルインターフェース)形式でも良い。
The edited
情報処理部22は機能的に、時刻基準データ生成部221と、第1時刻付与部222と、第2時刻付与部223と、第3時刻付与部224と、データ出力部225と、を含んで構成されている。
The
時刻基準データ生成部221は、外部から受信した時刻情報、もしくは内部で生成した時刻情報を元に基準時刻を生成する。この基準時刻を元に映像編集出力制御サーバ2のデータは全て管理される。
The time reference data generation unit 221 generates a reference time based on time information received from the outside or time information generated internally. All data in the video editing
第1時刻付与部222は、時刻基準データ生成部221で生成した基準時刻を映像データ受信部211で受信した映像データの映像基準データに付与する。映像基準データとはMpeg Videoの場合、フレームデータとなるIピクチャに該当する。基準時刻はIピクチャに直接付与しても良いし、Iピクチャを基準に相対的な時刻を付与しても良い。
The first
第2時刻付与部223は、時刻基準データ生成部221で生成した基準時刻を音声データ受信部212で受信した音声データの音声区間検出データ毎に付与する。音声区間検出データとは音声VAD(Voice Activity Detection:音声区間検出)技術によって分割された音声データを指す。VAD技術とは音声と雑音が含まれる信号から音声が存在する区間とそれ以外の区間を判別する技術であり、分割する手段は、無音区間を検出して分割しても良いし、一定の時間毎に区切っても良い。
The second
第3時刻付与部224は、時刻基準データ生成部221で生成した基準時刻を外部テキストデータ受信部213で受信したテキストデータに付与する。テキストデータには文字毎に基準時刻を付与しても良いし、形態素解析した単語毎に付与しても良い。
The third
記憶部23は、映像データ受信部211で受信した映像データと、音声データ受信部212で受信した音声データと、外部テキストデータ受信部213で受信したテキストデータと、を記録し、保存されている。
The
<実施例1>
図3を参照して、音声合成装置に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例1として説明する。図3は、本発明の実施形態1に係る音声合成装置5を用いて編集作業を行う過程を示すフローチャートである。
<Example 1>
Referring to FIG. 3, a video editing output control device that inputs external text data to a speech synthesis device and performs editing will be described as a first embodiment. FIG. 3 is a flowchart showing the process of performing editing work using the
(ステップS1)
映像出力装置1から編集対象となる映像データが映像編集出力制御サーバ2内の映像データ受信部211に入力される。
(Step S1)
Video data to be edited is input from the
(ステップS2)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第1時刻付与部222にて映像データへ付与され、記憶部23へ映像データVDとして記憶される。
(Step S2)
The reference time generated by the time reference data generation section 221 in the video editing
(ステップS3)
音声を生成する基となる外部テキストデータが、音声合成装置5に入力される。
(Step S3)
External text data, which is the basis for generating speech, is input to the
(ステップS4)
音声合成装置5は入力された外部テキストデータを基に音声データを生成する。
(Step S4)
The
(ステップS5)
音声合成装置は生成した音声データを映像編集出力制御サーバ2へ転送する。転送された音声データは映像編集出力制御サーバ2は内部の音声データ受信部212に入力される。
(Step S5)
The audio synthesis device transfers the generated audio data to the video editing
(ステップS6)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第2時刻付与部223にて音声データへ付与され、記憶部23へ音声データADとして記憶される。音声区間検出データに区切り保管しても良い。
(Step S6)
The reference time generated by the time reference data generation unit 221 in the video editing
(ステップS7)
また音声合成装置5は入力された外部テキストデータを映像編集出力制御サーバ2へ転送する。転送された外部テキストデータは映像編集出力制御サーバ2は内部の外部テキストデータ受信部213に入力される。
(Step S7)
The
(ステップS8)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第3時刻付与部224にて外部テキストデータへ付与され、記憶部23へ外部テキストデータOTDとして記憶される。
(Step S8)
The reference time generated by the time reference data generation section 221 in the video editing
(ステップS9)
次に情報処理装置4で編集処理を行う。編集の詳細については後述するが、情報処理装置4の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。
(Step S9)
Next, the
(ステップS10)
編集された映像データは、データ出力部225で出力可能な形式に変換され、編集済映像データ送信部から外部システムに映像データを送信する。
(Step S10)
The edited video data is converted into an outputtable format by the
<実施形態2>
図4は、本発明の実施形態2に係る情報処理システム200の一実施形態を示す概略構成図(システム構成図)である。図4に示すように、本発明の実施の形態に係る情報処理システム200は、例示的に映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、及び情報処理装置4、音声認識装置6、を備え、所定のネットワークに接続されて構成されている。
<
FIG. 4 is a schematic configuration diagram (system configuration diagram) showing an embodiment of an information processing system 200 according to
映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、情報処理装置4は実施形態1と同様の機能、動作を行う。
The
音声認識装置6は、音声データから言語を認識し、音声認識テキストを生成する装置である。音声認識装置6はあらかじめ用意した映像出力装置1か出力される映像データの音声データ部分のみを取り入れても良いし、別の音声出力装置を用意しても良い。映像編集出力制御サーバ2から基準信号基準時刻を受信、もしくは外部の基準時刻を受信し、その基準時刻の数値を入力される音声データや、出力されるテキストデータに埋め込む機能を有し、情報処理システム200で同一の基準時刻にて動作させる仕組みを持つ。
The
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声認識装置6と映像編集出力制御サーバ2との間、及び映像編集出力制御サーバ2と情報処理装置4との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
The predetermined network is, for example, a communication line or communication network related to information processing, including the Internet, and is a communication line or a communication network related to information processing, including, for example, the Internet, and is used to connect the
なお、情報処理システム200は、本実施形態2では、音声認識装置6、映像編集出力制御サーバ2、映像出力装置1、映像受信装置3、及び情報処理装置4を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声認識装置6に関しては、映像編集出力制御サーバ2に音声認識機能が搭載されていれば、設置しなくてもよい。また、映像出力装置1と映像受信装置3は共用でも良いし、情報処理装置4に関しては、複数台設置して、同時に映像編集出力制御サーバ2と通信を行ってもよい。さらに、映像編集出力制御サーバ2の機能と情報処理装置4の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
In the second embodiment, the information processing system 200 is configured to include one
<実施例2>
図5を参照して、音声認識装置6に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例1として説明する。図5は、本発明の実施形態2に係る音声認識装置6を用いて編集作業を行う過程を示すフローチャートである。
<Example 2>
Referring to FIG. 5, a video editing output control device that inputs external text data to the
(ステップS21)
映像出力装置1から編集対象となる映像データが映像編集出力制御サーバ2内の映像データ受信部211に入力される。
(Step S21)
Video data to be edited is input from the
(ステップS22)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第1時刻付与部222にて映像データへ付与され、記憶部23へ映像データVDとして記憶される。
(Step S22)
The reference time generated by the time reference data generation section 221 in the video editing
(ステップS23)
ステップS21で入力した編集対象となる映像データの音声データ部分を、映像出力装置1から音声認識装置6に入力する。また映像出力装置1から直接入力せず、別の装置を経由して入力しても良い。この音声データはこの際、音声データには映像データの基準時刻データを重畳する。この映像データの基準時刻データを元に映像編集出力制御サーバ2内の時刻データと同期させる。
(Step S23)
The audio data portion of the video data to be edited that was input in step S21 is input from the
(ステップS24)
音声認識装置6は入力された音声データを基に音声認識テキストデータを生成する。この音声認識テキストデータには、前述の映像データの基準時刻データを元に生成された時刻データを埋め込む。
(Step S24)
The
(ステップS25)
音声認識装置6は生成した音声認識テキストデータを映像編集出力制御サーバ2へ転送する。転送された音声認識テキストデータは映像編集出力制御サーバ2は内部の外部テキストデータ受信部213に入力される。
(Step S25)
The
(ステップS26)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第3時刻付与部224にて外部テキストデータへ付与され、記憶部23へ外部テキストデータOTDとして記憶される。
(Step S26)
The reference time generated by the time reference data generation section 221 in the video editing
(ステップS27)
次に情報処理装置4で編集処理を行う。編集の詳細については後述するが、情報処理装置4の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。
(Step S27)
Next, the
(ステップS28)
編集された映像データは、データ出力部225で出力可能な形式に変換され、編集済映像データ送信部214から外部システムに映像データを送信する。
(Step S28)
The edited video data is converted into a format that can be output by the
<画面実施例1>
図1、もしくは図4に示す情報処理装置4の表示部(不図示)に表示される、画面の一例を説明する。図6は、本発明の実施形態1、および実施形態2に係る情報処理装置に表示される画面実施例1を示す図である。画面は基準時刻データ表示エリア41、映像データ表示エリア42、スーパーインポーズ表示エリア43、外部テキストデータ表示エリア44からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。
<Screen example 1>
An example of a screen displayed on the display unit (not shown) of the
外部テキストデータ表示エリア44のテキストの選択表示411(図6ではテキスト「お」が選択されている)はマウスカーソルを上に置く「マウスオーバー」操作や、キーボードで「Shift+カーソルキー」を押下する操作などで選択する。 The text selection display 411 in the external text data display area 44 (the text "O" is selected in FIG. 6) can be done by placing the mouse cursor over the "mouse over" operation or by pressing "Shift + cursor key" on the keyboard. Select by operation etc.
情報処理装置4は選択された外部テキストの選択表示411「お」に付与されている基準時刻を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込んだ基準時刻は基準時刻データ表示エリア41に時間軸中の該当箇所に対象基準時刻表示412としてハイライト表示を行う。この基準時刻をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。
The
続いて、情報処理装置4は選択された外部テキストの選択表示411「お」に付与されている基準時刻を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込み後、情報処理装置4は取り込んだ基準時刻に紐づけられている映像データVD内の静止画像を読み出す。取り込んだ静止画像は時間軸中の該当箇所に対象画像表示413としてハイライト表示を行う。このハイライト表示された静止画像をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。
Subsequently, the
<画面実施例2>
続いて、図1、もしくは図4に示す情報処理装置4の表示部(不図示)に表示される、画面の一例を説明する。図7は、本発明の実施形態1、および実施形態2に係る情報処理装置4に表示される画面実施例2を示す図である。画面は画面実施例1同様に基準時刻データ表示エリア41、映像データ表示エリア42、スーパーインポーズ表示エリア43、外部テキストデータ表示エリア44からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。
<Screen example 2>
Next, an example of a screen displayed on the display unit (not shown) of the
スーパーインポーズ表示エリア43のスーパーインポーズ表示421(図7ではスーパー素材「熱々の中華まんとおでんの発売を開始」が選択されている)はマウスクリックをしながらマウスカーソルを上下に動かす「マウスドラック」操作(破線矢印の通り)をする。マウスドラッグ位置に対応した基準時刻表示エリア41時間軸中の基準時刻表示422がハイライト表示される。
The
情報処理装置4はハイライト表示された基準時刻表示422の数値を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込んだ基準時刻は外部テキストデータ表示エリア44で対応したテキストのハイライト表示423を行う。スーパーインポーズ表示421をマウスドラッグで破線のように動かすことにより、ハイライト表示された基準時刻表示422も、テキストのハイライト表示423も破線のように動作する。この操作によって、音声のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。
The
続いて、情報処理装置4はハイライト表示された基準時刻表示422の数値に紐づけられた映像編集出力制御サーバ2内の映像データVDの静止画から読み出し、静止画像を取り込む。取り込んだ基準時刻は映像データ表示エリア42で対応した静止画像表示424を行う。スーパーインポーズ表示421をマウスドラッグで破線のように動かすことにより、ハイライト表示された静止画像表示424も破線のように動作する。この操作によって、画像のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。
Subsequently, the
1 映像出力装置
2 映像編集出力制御サーバ
3 映像受信装置
4 情報処理装置
5 音声合成装置
6 音声認識装置
21 映像編集出力制御サーバ送受信部
22 映像編集出力制御サーバ情報処理部
23 映像編集出力制御サーバ記憶部
41 情報処理装置表示部の基準時刻データ表示エリア
42 情報処理装置表示部の映像データ表示エリア
43 情報処理装置表示部のスーパーインポーズ表示エリア
44 情報処理装置表示部の外部テキストデータ表示エリア
100 情報処理システム
200 情報処理システム
211 映像データ受信部
212 音声データ受信部
213 外部テキストデータ受信部
214 編集済映像データ送信部
221 時刻基準データ生成部
222 第1時刻付与部
223 第2時刻付与部
224 第3時刻付与部
411 テキスト選択表示
412 対象基準時刻表示
413 対象画像表示
421 スーパーインポーズ表示
422 基準時刻表示
423 テキストハイライト表示
424 静止画像表示
VD 映像データ
AD 音声データ
OTD 外部テキストデータ
1
Claims (13)
映像データを受信する映像データ入力手段と、
音声データを受信する音声データ入力手段と、
テキストデータを受信する外部テキストデータ入力手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段と、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。 A video editing output device using text data,
video data input means for receiving video data;
audio data input means for receiving audio data;
external text data input means for receiving text data;
a reference time generating means for generating time reference data based on an external clock or an internal clock;
a first time assigning unit that assigns the time reference data to each still image data forming the video data when receiving the video data;
a second time assigning means for assigning the time reference data to each voice section detection data constituting the audio data when receiving the audio data;
a third time assigning unit that assigns the time reference data to the text data when input by the external text data input unit;
data output means capable of outputting still image data constituting the video data, audio section detection data constituting the audio data, and a part of the text data based on the time reference data;
A video editing output device comprising:
映像データを受信する映像データ入力手段と、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。 A video editing output device using text data,
video data input means for receiving video data;
a voice recognition means that performs voice recognition processing and generates voice recognition text data from the voice;
a reference time generating means for generating time reference data based on an external clock or an internal clock;
a first time assigning unit that assigns the time reference data to each still image data forming the video data when receiving the video data;
a second time adding means for adding the time reference data to the voice recognition text data generated by the voice recognition process;
data output means capable of outputting still image data constituting the video data and a part of the voice recognition text data based on the time reference data;
A video editing output device comprising:
前記テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項1に記載の映像編集出力装置。 The video editing output device according to claim 1 ,
displaying and outputting the time reference data read by the data output means when a mouse cursor or selection area is placed over a specific character at a location where the text data is displayed;
The video editing output device according to claim 1 .
前記音声認識テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項2に記載の映像編集出力装置。 The video editing output device according to claim 2 ,
displaying and outputting the time reference data read by the data output means when a mouse cursor or a selection area is placed over a specific character at a location where the voice recognition text data is displayed;
The video editing output device according to claim 2 .
前記テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の静止画像を表示出力をする、
請求項1に記載の映像編集出力装置。 The video editing output device according to claim 1 ,
when the mouse cursor is moved to a location where the text data is displayed or when a specific character within the text data is selected, the time reference data is associated with the time reference data read by the data output means. Display and output still images in video data,
The video editing output device according to claim 1 .
前記音声認識テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の静止画像を表示出力をする、
請求項2に記載の映像編集出力装置。 The video editing output device according to claim 2 ,
When the mouse cursor is moved to a location where the voice recognition text data is displayed, or when a specific character within the text data is selected, it is associated with the time reference data read by the data output means. , displaying and outputting a still image in the video data;
The video editing output device according to claim 2 .
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項1に記載の映像編集出力装置。 The video editing output device according to claim 1 ,
When superimposing video, images, or text on video, the time reference data is displayed on the editing screen scale, and the video display portion, image display portion, or text display is superimposed on the editing screen scale. When a portion is selected and the cursor is moved using a mouse operation or a keyboard operation, the characters of the text data associated with the time reference data on the editing screen scale are displayed differently from other characters. do,
The video editing output device according to claim 1 .
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記音声認識テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項2に記載の映像編集出力装置。 The video editing output device according to claim 2 ,
When superimposing video, images, or text on video, the time reference data is displayed on the editing screen scale, and the video display portion, image display portion, or text display is superimposed on the editing screen scale. When a portion is selected and the cursor is moved using a mouse operation or a keyboard operation, the characters of the voice recognition text data associated with the time reference data on the editing screen scale are displayed differently from other characters. output,
The video editing output device according to claim 2 .
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記映像データ内の静止画像を表示出力する、
請求項1又は2に記載の映像編集出力装置。 The video editing output device according to claim 1 or claim 2,
When superimposing video, images, or text on video, the time reference data is displayed on the editing screen scale, and the video display portion, image display portion, or text display is superimposed on the editing screen scale. Displaying and outputting a still image in the video data associated with the time reference data on the editing screen scale when a portion is selected and the cursor is moved by dragging with a mouse operation or moving a cursor with a keyboard operation;
The video editing output device according to claim 1 or 2.
映像データを受信する映像データ入力ステップと、
音声データを受信する音声データ入力ステップと、
テキストデータを受信する外部テキストデータ入力ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与ステップと、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与ステップと、
前記外部テキストデータ入力ステップで入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。 A video editing output method using text data, the method comprising:
a video data input step of receiving video data;
an audio data input step of receiving audio data;
an external text data input step for receiving text data;
a reference time generation step for generating time reference data based on an external clock or an internal clock;
a first time assigning step of assigning the time reference data to each still image data constituting the video data when receiving the video data;
a second time assigning step of assigning the time reference data to each voice section detection data constituting the audio data when receiving the audio data;
a third time assigning step of assigning the time reference data to the text data when input in the external text data input step;
a data output step capable of outputting still image data constituting the video data, audio section detection data constituting the audio data, and a part of the text data based on the time reference data;
A video editing output method characterized by comprising:
映像データを受信する映像データ入力手段、
音声データを受信する音声データ入力手段、
テキストデータを受信する外部テキストデータ入力手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。 A computer that edits and outputs video using text data,
video data input means for receiving video data;
audio data input means for receiving audio data;
external text data input means for receiving text data;
a reference time generating means for generating time reference data based on an external clock or an internal clock;
a first time assigning unit that assigns the time reference data to each still image data constituting the video data when receiving the video data;
a second time assigning means for assigning the time reference data to each voice section detection data constituting the audio data when receiving the audio data;
third time assigning means for assigning the time reference data to the text data when input by the external text data input means;
data output means capable of outputting still image data constituting the video data, audio section detection data constituting the audio data, and a part of the text data based on the time reference data;
A video editing output program that functions as a video editing output program.
映像データを受信する映像データ入力ステップと、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与ステップと、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。 A video editing output method using text data, the method comprising:
a video data input step of receiving video data;
a voice recognition step of performing voice recognition processing and generating voice recognition text data from the voice;
a reference time generation step of generating time reference data based on an external clock or an internal clock;
a first time assigning step of assigning the time reference data to each still image data constituting the video data when receiving the video data;
a second time adding step of adding the time reference data to the voice recognition text data generated in the voice recognition process;
a data output step capable of outputting still image data constituting the video data and a part of the voice recognition text data based on the time reference data;
A video editing output method characterized by comprising:
映像データを受信する映像データ入力手段、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。 A computer that edits and outputs video using text data,
video data input means for receiving video data;
a voice recognition means that performs voice recognition processing and generates voice recognition text data from voice;
a reference time generating means for generating time reference data based on an external clock or an internal clock;
a first time assigning unit that assigns the time reference data to each still image data constituting the video data when receiving the video data;
a second time adding means for adding the time reference data to the voice recognition text data generated by the voice recognition process;
data output means capable of outputting still image data constituting the video data and a part of the voice recognition text data based on the time reference data;
A video editing output program that functions as a video editing output program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019204328A JP7424801B2 (en) | 2019-11-12 | 2019-11-12 | Video editing output control device using text data, video editing output method using text data, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019204328A JP7424801B2 (en) | 2019-11-12 | 2019-11-12 | Video editing output control device using text data, video editing output method using text data, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021077432A JP2021077432A (en) | 2021-05-20 |
JP7424801B2 true JP7424801B2 (en) | 2024-01-30 |
Family
ID=75898159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019204328A Active JP7424801B2 (en) | 2019-11-12 | 2019-11-12 | Video editing output control device using text data, video editing output method using text data, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7424801B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278356A (en) * | 2022-06-23 | 2022-11-01 | 上海高顿教育科技有限公司 | Intelligent course video clip control method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312668A (en) | 2000-03-30 | 2001-11-09 | Hewlett Packard Co <Hp> | Document distribution system and method for tracking and managing contents distribution |
JP2007295218A (en) | 2006-04-25 | 2007-11-08 | Nippon Hoso Kyokai <Nhk> | Nonlinear editing apparatus, and program therefor |
JP2007328849A (en) | 2006-06-07 | 2007-12-20 | Sony Corp | System and method for recording |
JP2014222290A (en) | 2013-05-13 | 2014-11-27 | キヤノン株式会社 | Minute recording device, minute recording method, and program |
JP2018180519A (en) | 2017-04-18 | 2018-11-15 | 日本放送協会 | Voice recognition error correction support device and program therefor |
JP2019110480A (en) | 2017-12-19 | 2019-07-04 | 日本放送協会 | Content processing system, terminal device, and program |
-
2019
- 2019-11-12 JP JP2019204328A patent/JP7424801B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312668A (en) | 2000-03-30 | 2001-11-09 | Hewlett Packard Co <Hp> | Document distribution system and method for tracking and managing contents distribution |
JP2007295218A (en) | 2006-04-25 | 2007-11-08 | Nippon Hoso Kyokai <Nhk> | Nonlinear editing apparatus, and program therefor |
JP2007328849A (en) | 2006-06-07 | 2007-12-20 | Sony Corp | System and method for recording |
JP2014222290A (en) | 2013-05-13 | 2014-11-27 | キヤノン株式会社 | Minute recording device, minute recording method, and program |
JP2018180519A (en) | 2017-04-18 | 2018-11-15 | 日本放送協会 | Voice recognition error correction support device and program therefor |
JP2019110480A (en) | 2017-12-19 | 2019-07-04 | 日本放送協会 | Content processing system, terminal device, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021077432A (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10506198B2 (en) | Video stream encoding system with live crop editing and recording | |
US9799375B2 (en) | Method and device for adjusting playback progress of video file | |
JP5237174B2 (en) | Content editing method, content server, system, and program for editing original content by portable terminal | |
WO2022143924A1 (en) | Video generation method and apparatus, electronic device, and storage medium | |
WO2018130173A1 (en) | Dubbing method, terminal device, server and storage medium | |
CN111554328B (en) | Multimedia editing method and device | |
KR20150028383A (en) | Method for controlling a display apparatus, sink apparatus thereof, mirroring system thereof | |
JP2009517976A (en) | Interactive TV without trigger | |
US10965731B2 (en) | Transfer device, client apparatus, server apparatus, reproduction apparatus and transfer method | |
CN116457881A (en) | Text driven editor for audio and video composition | |
JP7424801B2 (en) | Video editing output control device using text data, video editing output method using text data, and program | |
TW201703537A (en) | Media-timed web interactions | |
WO2014041399A1 (en) | Handling user-generated content | |
JP7299665B2 (en) | Information processing device, information processing program and recording medium | |
JP2012178028A (en) | Album creation device, control method thereof, and program | |
JP2009260693A (en) | Metadata editing system, metadata editing program and metadata editing method | |
KR20150106472A (en) | Method and apparatus for providing contents | |
KR20200056859A (en) | A method and system for generating and providing a preview video of a video content | |
KR102488623B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
JP6856883B2 (en) | Information processing device, control method and control program of information processing device | |
JP2015026258A (en) | Document generation device | |
KR102353797B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
JP7166373B2 (en) | METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR MANAGING TEXT TRANSFORMATION RECORD AND MEMO TO VOICE FILE | |
JP2006211191A (en) | Editing operation auxiliary method, device, program, and medium | |
JP2007334553A (en) | Information terminal device and program, information processing system and program, operation record data converting device and program, operation record storing server system and server program, browsing device, operation record editing system, activity support system, browsing program, editing program, and recording medium which records operation record storing server program or editing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7424801 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |