JP2020096373A - Server, program, and video distribution system - Google Patents

Server, program, and video distribution system Download PDF

Info

Publication number
JP2020096373A
JP2020096373A JP2020037538A JP2020037538A JP2020096373A JP 2020096373 A JP2020096373 A JP 2020096373A JP 2020037538 A JP2020037538 A JP 2020037538A JP 2020037538 A JP2020037538 A JP 2020037538A JP 2020096373 A JP2020096373 A JP 2020096373A
Authority
JP
Japan
Prior art keywords
server
unit
moving image
template
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020037538A
Other languages
Japanese (ja)
Other versions
JP6730760B2 (en
Inventor
雄康 高松
Yuko Takamatsu
雄康 高松
孝弘 坪野
Takahiro Tsubono
孝弘 坪野
尚武 石橋
Naotake Ishibashi
尚武 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Open8 Inc
Original Assignee
Open8 Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Open8 Inc filed Critical Open8 Inc
Priority to JP2020037538A priority Critical patent/JP6730760B2/en
Publication of JP2020096373A publication Critical patent/JP2020096373A/en
Application granted granted Critical
Publication of JP6730760B2 publication Critical patent/JP6730760B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a server, a program, and a video distribution system that make it easy to create a video content.SOLUTION: A server includes a template management unit that manages a template composed of multiple cuts, a material reading unit that recognizes a material including voice and accepts the input as character data, and a telop insertion unit that allocates a text sentence created from the character data to the template.SELECTED DRAWING: Figure 2

Description

本発明は、ユーザ端末に配信する動画コンテンツを自動で生成するサーバおよびプログラム、動画配信システムに関する。 The present invention relates to a server and a program for automatically generating moving image content to be distributed to a user terminal, and a moving image distribution system.

従来、動画を複数のチャプタに分割すると共に、メタデータを付加することが行われている。
例えば、特許文献1には、複数のチャプタを有する動画から所望の瞬間のシーン画像を効率的に検索する動画処理装置であって、動画を所定の単位時間毎に複数の大ブロックに分割する大ブロック分割部と、各大ブロックの画像変化の複雑さを数値化する複雑さ分析部と、各大ブロックに係る再生時間を、複雑さに係る数値により複数の小ブロックにそれぞれ分割する小ブロック分割部と、複数の小ブロックを時系列に沿って所定数毎に順次区切ることでチャプタを作成するチャプタ作成部と、を備えてなる動画処理装置が提案されている。
Conventionally, a moving image is divided into a plurality of chapters and metadata is added.
For example, Patent Document 1 discloses a moving image processing apparatus that efficiently searches a moving image having a plurality of chapters for a scene image at a desired moment, and divides the moving image into a plurality of large blocks at predetermined unit time intervals. A block division unit, a complexity analysis unit that digitizes the complexity of image change of each large block, and a small block division that divides the playback time of each large block into a plurality of small blocks according to the numerical value of the complexity. There has been proposed a moving image processing apparatus including a section and a chapter creating section that creates a chapter by sequentially dividing a plurality of small blocks into a predetermined number in a time series.

特開2011−130007号公報JP, 2011-130007, A

動画コンテンツを作成することには多大な手間がかかるため、簡便に動画コンテンツを作成することができるシステムの提供が求められていた。 Since it takes a lot of time and effort to create moving image content, it has been demanded to provide a system that can easily create moving image content.

そこで、本発明では、動画コンテンツを簡便に作成することを可能とするサーバおよびプログラム、動画配信システムを提供することを目的とする。 Therefore, it is an object of the present invention to provide a server, a program, and a moving image distribution system that can easily create moving image contents.

本発明のサーバであって、複数のカットから構成されるテンプレートを管理するテンプレート管理部と、音声を含む素材を音声認識して文字データとして入力を受け付ける素材読込部と、前記文字データから作成したテキスト文章を前記テンプレートに割り付けるテロップ挿入部と、を備え、ことを特徴とするサーバ。 The server of the present invention is a template management unit that manages a template composed of a plurality of cuts, a material reading unit that recognizes a material including a voice by voice and receives an input as character data, and is created from the character data. A telop insertion unit for allocating a text sentence to the template, the server.

上記サーバにおいて、前記音声は、動画ファイル中の音声である、ことを特徴としてもよい。 In the above server, the sound may be sound in a moving image file.

上記サーバにおいて、前記音声認識は、外部APIとして提供される音声認識サービスを利用する、ことを特徴とする。 In the above server, the voice recognition utilizes a voice recognition service provided as an external API.

本発明のサーバ用プログラムは、前記サーバを、複数のカットから構成されるテンプレートを管理するテンプレート管理部と、音声を含む素材を音声認識して文字データとして入力を受け付ける素材読込部と、前記文字データから作成したテキスト文章を前記テンプレートに割り付けるテロップ挿入部、として機能させることを特徴とする。 A server program according to the present invention includes a template management unit that manages a template including a plurality of cuts, a material reading unit that recognizes a material including a voice and receives an input as character data, and the character. It is characterized in that it is made to function as a telop insertion section for allocating a text sentence created from data to the template.

本発明によれば、動画コンテンツを簡便に作成することを可能とするサーバおよびプログラム、動画配信システムを提供することが可能となる。 According to the present invention, it is possible to provide a server, a program, and a moving image distribution system that can easily create moving image contents.

実施形態例に係る動画編集システムの構成図である。It is a block diagram of the moving image editing system which concerns on an example of embodiment. 実施形態例に係る動画編集サーバの構成図である。It is a block diagram of the video editing server which concerns on the example of embodiment. テンプレートを構成する画面レイアウト例を説明する図である。It is a figure explaining the example of a screen layout which comprises a template. 合成動画作成部の構成図である。It is a block diagram of a synthetic|combination moving image production|generation part. 素材入力画面例を説明する図である。It is a figure explaining the example of a material input screen. 素材から動画コンテンツを作成するための各工程を説明する図である。It is a figure explaining each process for creating moving image contents from a material. 各カットに最も適した画像・動画を割り当てる処理の説明図である。It is explanatory drawing of the process which allocates the image and moving image most suitable for each cut. 動画コンテンツを構成する複数のカットを画面上に一覧表示する態様の説明図である。It is explanatory drawing of the aspect which carries out the list display of several cuts which comprise moving image content on a screen. 動画コンテンツには、BGMを挿入する画面の説明図である。It is explanatory drawing of the screen which inserts BGM in moving image content. 要約文作成機能の処理フローである。It is a processing flow of a summary sentence creation function. 文書を形態素解析にかけ、トークンに分ける処理を説明する図である。It is a figure explaining the process which subjects a document to morphological analysis and divides it into tokens. テンプレートの各カットへの文章の挿入を説明する図である。It is a figure explaining insertion of a sentence to each cut of a template. 実施形態例に係る動画配信サーバの構成図である。It is a block diagram of the video delivery server which concerns on the example of embodiment.

<構成>
実施形態例に係る本発明の動画編集システムは、図1に示すように、動画編集サーバ1と、管理者端末2と、複数台のユーザ端末3とを備えて構成される。図1の例では、動画編集サーバ1を1台で構成する例を説明しているが、複数台のサーバ装置により動画編集サーバ1を実現することも可能である。
<Structure>
As shown in FIG. 1, the moving picture editing system of the present invention according to the embodiment includes a moving picture editing server 1, an administrator terminal 2, and a plurality of user terminals 3. In the example of FIG. 1, the moving image editing server 1 is configured by one unit, but the moving image editing server 1 can be realized by a plurality of server devices.

動画編集サーバ1は、CPUを有する処理部、HDD等の記憶装置を有する記憶部、および、LANポートを有する通信部を備えたサーバ装置に動画編集ソフトウェアおよびデータベースソフトウェアをインストールして構築されている。動画編集ソフトウェアは、図2に示すように、テンプレート管理部11と、分類器作成部12と、合成動画作成部13とを備えている。データベースソフトウェアは、図2に示すように、テンプレートDB21と、学習データDB22と、合成動画DB23と、組込用素材DB24と、を管理している。 The moving image editing server 1 is constructed by installing moving image editing software and database software in a server device including a processing unit having a CPU, a storage unit having a storage device such as an HDD, and a communication unit having a LAN port. .. As shown in FIG. 2, the moving image editing software includes a template managing unit 11, a classifier creating unit 12, and a composite moving image creating unit 13. As shown in FIG. 2, the database software manages a template DB 21, a learning data DB 22, a synthetic moving image DB 23, and an embedded material DB 24.

テンプレート管理部11は、テンプレートDB21に記憶された複数のテンプレートを管理する。各テンプレートは、複数のカットから構成され、各カットには画面レイアウトおよび再生時間が規定されている。テンプレートには、画像ファイルが割り付けられている場合もあり、テンプレートに割り付ける画像ファイルは組込用素材DB24から選択することができる。図3は、テンプレートを構成するカットの画面レイアウトの一例である。同図中、テロップフィールド31に編集された記事素材(テキスト文章)が挿入され、イメージフィールド32に選択されたイメージ素材が挿入され、ロゴフィールド33にロゴ素材が挿入される。各テンプレートには、スタイル情報、色情報およびタグ情報が付されている。色情報およびタグ情報は、後述のテンプレート推奨部134により利用される。 The template management unit 11 manages a plurality of templates stored in the template DB 21. Each template is composed of a plurality of cuts, and the screen layout and the reproduction time are defined for each cut. An image file may be allocated to the template, and the image file to be allocated to the template can be selected from the embedded material DB 24. FIG. 3 is an example of a screen layout of cuts that form a template. In the figure, the edited article material (text sentence) is inserted in the telop field 31, the selected image material is inserted in the image field 32, and the logo material is inserted in the logo field 33. Style information, color information, and tag information are attached to each template. The color information and the tag information are used by the template recommendation unit 134 described later.

分類器作成部12は、学習データを学習データDB22から取得し、機械学習させることで、学習済モデルである後述の分類器133を作成する。分類器作成部12による分類器133の作成は、例えば、年に数回程度行われる。学習データは、インターネットから収集したデータや自社のデータにラベルをつけたものを利用してもよいし、ラベルのついたデータセットを調達して利用してもよい。 The classifier creating unit 12 creates the classifier 133 described later, which is a learned model, by acquiring learning data from the learning data DB 22 and performing machine learning. The classifier 133 is created by the classifier creating unit 12 several times a year, for example. As the learning data, data collected from the Internet or data labeled in-house may be used, or a labeled data set may be procured and used.

合成動画作成部13は、図4に示すように、素材読込部131と、素材分析部132と、分類器133と、テンプレート推奨部134と、イメージ挿入部135と、テロップ挿入部136と、音楽挿入部137とを備えている。 As shown in FIG. 4, the composite moving image creating unit 13 includes a material reading unit 131, a material analyzing unit 132, a classifier 133, a template recommending unit 134, an image inserting unit 135, a telop inserting unit 136, and music. And an insertion portion 137.

素材読込部131は、ユーザ端末3のWebブラウザ上に素材入力画面ページを表示する。素材読込部131は、イメージデータの入力を受け付けるイメージデータ入力部と、文字データの入力を受け付ける文字データ入力部とを備えている。
図5は、素材読込部131が出力する素材入力画面の一例を説明する図である。ユーザが素材入稿フィールド51またはロゴ入稿フィールド52にイメージデータ(画像・動画)をドラッグアンドドロップすることで、画像・動画素材を入稿することができる。入稿する画像・動画素材の数は、+ボタンまたは−ボタンをクリックすることにより増減することができる。
文字データ(記事素材)については、タイトルフィールド53および本文フィールド54にテキスト文章を入力することにより入稿することができる。各素材を入稿した後、推奨フォーマットボタン55をクリックすると、推奨フォーマット表示欄に推奨フォーマットが出力される。図5の例では推奨フォーマットを一つだけ表示する仕様としているが、複数の推奨フォーマットを推奨度順に表示させる仕様を採用してもよい。実施形態例と異なり、ユーザが複数のフォーマットの中から任意のフォーマットを手動で選ぶ仕様を採用してもよい。また、テキスト文章の入力を、動画ファイル中の音声を音声認識してテキスト化することでテキスト文章を入力する仕様を採用してもよく、例えば、外部APIとして提供される音声認識サービスを利用しもよい。また、ユーザが入力したURLから、記事素材、画像・動画素材を取得し、組込用素材DB24に格納する仕様を採用してもよい。
The material reading unit 131 displays the material input screen page on the web browser of the user terminal 3. The material reading unit 131 includes an image data input unit that accepts input of image data and a character data input unit that accepts input of character data.
FIG. 5 is a diagram illustrating an example of the material input screen output by the material reading unit 131. The user can submit the image/moving image material by dragging and dropping the image data (image/moving image) to the material submission field 51 or the logo submission field 52. The number of image/moving image materials to be submitted can be increased or decreased by clicking the + button or the-button.
The character data (article material) can be submitted by inputting a text sentence in the title field 53 and the body field 54. When the recommended format button 55 is clicked after each material is submitted, the recommended format is output in the recommended format display field. In the example of FIG. 5, only one recommended format is displayed, but a specification in which a plurality of recommended formats are displayed in order of the degree of recommendation may be adopted. Unlike the example of the embodiment, a specification may be adopted in which the user manually selects an arbitrary format from a plurality of formats. In addition, a specification for inputting a text sentence by recognizing voice in a video file and converting the voice into a text may be adopted. For example, a voice recognition service provided as an external API is used. Good. Further, a specification may be adopted in which article materials, image/moving picture materials are acquired from the URL input by the user and stored in the embedded material DB 24.

素材分析部132は、入力された素材から抽出される情報とフォーマットに割り付けられたタグ情報との関連性の度合いを算出する。素材からの情報抽出は、分類器133により行う。
分類器133は、畳み込みニューラルネットワークを利用した学習済モデルであり、動画または画像を入力すると、特定の情報(アノテーション単語)を抽出する。実施形態例の第1分類器は、動画または画像の分類を表す単語(例えば、スタイリッシュ、シンプル)を出力する。実施形態例の第2分類器は、動画または画像に映るオブジェクトを表す単語(例えば、魚介、焼肉、人物、家具)を出力する。
The material analysis unit 132 calculates the degree of association between the information extracted from the input material and the tag information assigned to the format. Information extraction from the material is performed by the classifier 133.
The classifier 133 is a learned model that uses a convolutional neural network, and extracts specific information (annotation word) when a moving image or image is input. The first classifier of the example embodiment outputs a word (e.g., stylish, simple) representing a classification of a moving image or an image. The second classifier of the example embodiment outputs a word (for example, seafood, yakiniku, a person, furniture) that represents an object that appears in a moving image or an image.

テンプレート推奨部134は、素材分析部132の出力に基づき最も関連度の高いフォーマットをユーザに推奨する。
イメージ挿入部135は、畳み込みニューラルネットワークを利用した学習済モデルであり、入力された素材から抽出される情報と各カットに割り付けられた単語、色および明度の類似度を算出し、最も類似度の高い画像・動画を各カットに割り当てる。ここで、ユーザが入力した画像・動画素材のみならず、予め組込用素材DB24に格納した画像・動画素材についても類似度を判定し、割り当てるようにしてよい。
単語の類似度の判定は、単語ベクトルを学習した学習済モデルを用意し、そのベクトルを利用してコサイン類似度やWord Mover’s Distanceなどの方法により単語の類似度を判定する。色の類似度の判定は、例えば、CIELAB座標におけるユークリッド距離を計算することにより行う。具体的には、画像全てのピクセルにおいて、比較対象の色との色差を計算し、その合計値が小さいものを色差が近いものと判定する。動画においては、動画のフレーム画像からサンプリングされた画像において この計算を行う。明度の判定は、例えば画像をグレースケールに変換し、ピクセルのRMSコントラスト値を比較することで行う。動画は色の判定と同様、動画のフレーム画像からサンプリングした画像において この計算を行う。
テロップ挿入部136は、選択されたテンプレートの各カットにテロップ(テキスト文章)を挿入する。テロップ挿入部136による要約文作成機能の詳細については後述する。
音楽挿入部137は、動画コンテンツにBGMとなる音楽を挿入する。
The template recommendation unit 134 recommends the format having the highest degree of association to the user based on the output of the material analysis unit 132.
The image inserting unit 135 is a trained model using a convolutional neural network, calculates the similarity between the information extracted from the input material and the word, color, and lightness assigned to each cut, and determines the highest similarity. Assign high images and videos to each cut. Here, not only the image/moving image material input by the user but also the image/moving image material previously stored in the embedded material DB 24 may be determined and assigned.
To determine the degree of similarity between words, a learned model prepared by learning a word vector is prepared, and the vector is used to determine the degree of similarity between words by methods such as cosine similarity and Word Mover's Distance. The color similarity is determined by calculating the Euclidean distance in CIELAB coordinates, for example. Specifically, in all the pixels of the image, the color difference from the color to be compared is calculated, and the one having the smaller total value is determined to have the closer color difference. For moving images, this calculation is performed on images sampled from the frame images of the moving image. The brightness is determined by converting the image to grayscale and comparing the RMS contrast values of the pixels, for example. For a moving image, this calculation is performed on an image sampled from a frame image of the moving image, similarly to the determination of color.
The telop insertion unit 136 inserts a telop (text sentence) into each cut of the selected template. The details of the abstract sentence creating function by the telop insertion unit 136 will be described later.
The music insertion unit 137 inserts music that becomes BGM into the moving image content.

管理者端末2およびユーザ端末3は、入力部、表示部、処理部、記憶部および通信部を備えたコンピュータであり、例えば、スマートフォン、タブレット端末(タブレットPC)、ノートパソコン、デスクトップパソコンなどのWebブラウザが搭載されたコンピュータである。
管理者は、管理者端末2により動画編集サーバ1の設定変更やデータベースの運用管理などを行う。
ユーザは、ユーザ端末3により動画編集サーバ1にアクセスして、作成された動画コンテンツを閲覧することができる。
The administrator terminal 2 and the user terminal 3 are computers including an input unit, a display unit, a processing unit, a storage unit, and a communication unit, and for example, a Web such as a smartphone, a tablet terminal (tablet PC), a laptop computer, or a desktop personal computer. A computer with a browser.
The administrator uses the administrator terminal 2 to change the settings of the video editing server 1 and manage the database.
The user can access the moving image editing server 1 through the user terminal 3 and browse the created moving image content.

本発明の動画編集システムは、図6に示すように、ユーザが入力した素材を分析する素材分析工程、作成する動画のフォーマットを選択するフォーマット選択工程、選択したフォーマットにテロップおよびイメージデータ(静止画・動画)を割り当てる動画構成工程を実行する。
素材分析工程では、素材分析部132が記事、画像(静止画)、動画等の素材を分析し、テンプレート推奨部134が入力された素材に関連性が高いフォーマットを選び、ユーザに推奨する。例えば、アップロードされた素材から抽出されるタグ情報が「人」、「ネイル」、「せっけん」である場合、「コスメ」、「女性」に近いと判定し、キュートのスタイルが付されたフォーマットAを推奨する。また、素材より抽出される色情報に基づき推奨フォーマットを選択してもよく、さらには色情報とタグ情報の両方を利用して推奨フォーマットを選択してもよい。
As shown in FIG. 6, the moving image editing system of the present invention includes a material analyzing step of analyzing a material input by a user, a format selecting step of selecting a format of a moving image to be created, a telop and image data (still image) in the selected format. -Perform the video composition process of assigning video).
In the material analysis step, the material analysis unit 132 analyzes materials such as articles, images (still images), and moving images, and the template recommendation unit 134 selects a format that is highly relevant to the input material and recommends it to the user. For example, if the tag information extracted from the uploaded material is “person”, “nail”, or “soap”, it is determined that it is close to “cosmetics” or “female”, and the format A with a cute style is added. Is recommended. Also, the recommended format may be selected based on the color information extracted from the material, or the recommended format may be selected using both the color information and the tag information.

フォーマット選択工程では、ユーザは動画構成に用いられる動画のフォーマットを選択する。ユーザは、テンプレート推奨部134が最も推奨するフォーマットをそのまま採用してもよいし、複数推奨されたフォーマットの中から気に入ったフォーマットを選択してもよいし、推奨されていないフォーマットの中から自己の好きなフォーマットを選択してもよい。フォーマットを構成する各カットには、装飾されたフレームが配置されており、また挿入された画像に対するアニメーション効果(例えば、パワーポイントにおけるスプリット、フェード、スライドイン・アウト、スピン、ターンのような効果)が設定されている場合もある。 In the format selection step, the user selects the format of the moving image used for the moving image configuration. The user may directly adopt the format most recommended by the template recommending unit 134, may select a favorite format from a plurality of recommended formats, or may select his/her own format from among the formats not recommended. You may select any format you like. Each cut that makes up the format has a decorated frame, and also has animated effects on the inserted image (for example, effects like split, fade, slide in/out, spin, turn in PowerPoint). It may be set.

動画構成工程では、テロップ挿入部136が素材から抽出した要約文を作成し、各カットに割り当てる処理、イメージ挿入部135が素材から抽出した画像・動画を各カットに割り当てる処理を行う。図7に示すように、フォーマットを構成する各カットには、明度情報、色情報、および、人、車、ビジネス、自然風景などのタグ情報が関連付けられている。イメージ挿入部135は、単語、色および明度の類似度に基づき各カットに最も適した画像・動画を判別し、各カットに割り当てる。実施形態例では、イメージ挿入部135はユーザが入力した画像・動画素材を各カットに割り当てているが、予め用意された画像・動画素材を各カットに割り当てる仕様を採用してもよい。
画像・動画の割り当てが完了すると、図8に示すように、動画コンテンツを構成する複数のカットを画面上に一覧表示することができる。各カットには、表示される画像・動画およびテロップと共に各カットの再生時間(秒数)の情報も表示される。ユーザは、テキストボタンまたテキストフィールドをクリックすることで、テロップを修正することができ、画像ボタンをクリックすることで画像を差し替えることができる。
In the moving image composition process, the telop insertion unit 136 creates a summary sentence extracted from the material and assigns it to each cut, and the image insertion unit 135 performs processing to assign the image/moving image extracted from the material to each cut. As shown in FIG. 7, lightness information, color information, and tag information such as people, cars, businesses, and natural scenery are associated with each cut forming the format. The image inserting unit 135 determines an image/moving image most suitable for each cut based on the similarity of the word, the color, and the lightness, and assigns the cut/image to each cut. In the embodiment, the image inserting unit 135 assigns the image/moving image material input by the user to each cut, but a specification that assigns the image/moving image material prepared in advance to each cut may be adopted.
When the image/moving image allocation is completed, a plurality of cuts forming the moving image content can be displayed as a list on the screen as shown in FIG. For each cut, information about the reproduction time (seconds) of each cut is displayed together with the displayed image/moving picture and telop. The user can correct the telop by clicking the text button or the text field, and can replace the image by clicking the image button.

作成された動画コンテンツには、音楽挿入部14によりBGMを挿入することも可能である。図8の画面において、BGMボタンをクリックすると、図9に示すように、挿入可能なBGMの一覧が表示される。曲名の右側にある再生ボタンをクリックすると、曲の演奏が開始される。曲名の左側にあるチェックボックスをクリックしてプレビューボタンをクリックすると、BGMが挿入された動画コンテンツのプレビューを再生することが可能となる。 BGM can be inserted into the created moving image content by the music inserting unit 14. When the BGM button is clicked on the screen of FIG. 8, a list of insertable BGMs is displayed as shown in FIG. Click the play button to the right of the song title to start playing the song. By clicking the check box to the left of the song title and clicking the preview button, it is possible to play back a preview of the video content in which BGM has been inserted.

(要約文作成機能)
図10〜図12を参照しながらテロップ挿入部136による要約文作成機能について説明する。
STEP91:段落分割・文書分割
テロップ挿入部136は、本文フィールド54に入力された文書を段落に分割し、各段落内の文書を文書に分割する。また、動画のテロップとして1シーンで表示すると長すぎて可読性を落とす文章(例えば80文字以上)については、特定の品詞、表記等の条件を満たす箇所で、さらに複数の文章に分割する。
STEP92:文書の形態素解析
テロップ挿入部136は、各文を形態素解析にかけ、構文解析の最小単位となるトークンを取り出す。図11に示すように、各トークンには品詞が付与されている。
(Summary sentence creation function)
The summary sentence creating function of the telop insertion unit 136 will be described with reference to FIGS.
STEP 91: Paragraph division/document division The telop insertion unit 136 divides the document input in the body field 54 into paragraphs, and divides the documents in each paragraph into documents. Further, a sentence (for example, 80 characters or more) that is too long to display as a telop of a moving image and deteriorates readability is further divided into a plurality of sentences at a portion satisfying a condition such as a specific part of speech or notation.
STEP 92: Morphological Analysis of Document The telop insertion unit 136 subjects each sentence to morphological analysis, and extracts a token that is the minimum unit of syntactic analysis. As shown in FIG. 11, a part-of-speech is attached to each token.

STEP93:不要語・不要段落の削除
テロップ挿入部136は、予め定義された無効な文の判定ルールより、無効と定義される文、段落を削除する。例えば、「■」、「▼」などの特定記号から始まる行、特定記号で囲まれた段落、URL、メールアドレス、住所・電話番号などが記載された段落を削除する。
STEP94:ストップワード等の削除
テロップ挿入部136は、トークンから「に」、「から」、「これ」、「さん」などのあまり意味としては重要でないワード(ストップワード)や助詞などの特定品詞を削除する。
STEP95:トークンバイグラムの作成
特定の条件(例えば、予め定義された品詞条件)を満たす複数のトークンを繋げ、トークンバイグラムを得る。例えば、「2014年」(名詞、固有名詞、一般)と「6月」(名詞、固有名詞、一般)を繋げて「2014年6月」としたり、「ヴェルディ」(固有名詞)と「協賛」(普通名詞)を繋げ、「ヴェルディ協賛」としたりする。
STEP 93: Delete Unnecessary Words/Unnecessary Paragraphs The telop insertion unit 136 deletes sentences and paragraphs that are defined as invalid according to the predefined invalid sentence determination rule. For example, a line starting from a specific symbol such as “■” or “▼”, a paragraph surrounded by the specific symbol, a paragraph in which a URL, a mail address, an address/telephone number, etc. are described is deleted.
STEP 94: Deletion of Stop Words, etc. The telop insertion unit 136 uses specific tokens such as “ni”, “kara”, “kore”, “san” and other words that are not so important in meaning (stop words) and particles. delete.
STEP95: Creation of token bigram A token bigram is obtained by connecting a plurality of tokens satisfying a specific condition (for example, a predefined part-of-speech condition). For example, “2014” (noun, proper noun, general) and “June” (noun, proper noun, general) are connected to make “June 2014”, or “Verdi” (proper noun) and “sponsor” Connect (ordinary nouns) and say "sponsored Verdi".

STEP96:重要文の抽出
トークンおよびトークンバイグラムを元にTF−IDFなど単語の重要度を評価する指標から特徴語となるトークンおよびトークンバイアグラムを抽出し、前述の単語類似度判定からセンテンスのセグメンテーションを行い、各セグメントから重要文を抽出することで要約とする。
STEP97:テンプレートへの当てはめ
要約(重要文)を構文解析にかけ、文節と構文木に別ける。上述のテンプレートは各カットに挿入できる文字数が定義されているところ、文節間の修飾関係から、文章として自然な区間が各テンプレートに収まるように文を区切り、テンプレートに当てはめる。図12に、テンプレートの各カットへの文章の挿入例を示す。
以上に説明した要約文作成機能は、日本語のみならず、英語はじめとする多言語に対応が可能である。
STEP96: Extraction of Important Sentences Tokens and token viagrams, which are characteristic words, are extracted from an index that evaluates the importance of words such as TF-IDF based on tokens and token bigrams, and sentence segmentation is performed based on the aforementioned word similarity determination. The summary is made by extracting important sentences from each segment.
STEP97: Fitting to template The summary (important sentences) is subjected to syntactic analysis and divided into clauses and syntactic trees. Where the number of characters that can be inserted into each cut is defined in the above template, sentences are divided so that a natural interval as a sentence fits into each template from the modification relation between clauses, and the template is applied. FIG. 12 shows an example of inserting a sentence into each cut of the template.
The abstract sentence creating function described above can support not only Japanese but also multiple languages such as English.

<動画配信サーバ>
作成した動画コンテンツを配信する機能を持つ動画配信サーバを付加してもよい。なお、動画配信スクリプトが組み込まれたWebページ6の発信は、外部Webサーバ5を利用する。
動画配信サーバ4は、図13に示すように、Webスクレイパーと、記事本文抽出部と、記事本文解析部と、動画解析部と、動画配信部と、ハッシュ値データベースと、動画データベースと、を備えている。記事本文解析部および動画解析部をコンテンツ解析部と呼称する場合がある。なお、複数台のサーバ装置により動画配信サーバ4を実現することも可能である。
Webスクレイパーは、動画の配信面が設定されているWebページのコンテンツ情報を収集する。
記事本文抽出部は、収集したコンテンツ情報から記事の本文に該当する部分を抽出するソフトウェアであり、例えばReadabilityなどのツールにより構成することができる。
記事本文解析部は、抽出した記事本文を形態素解析にかけ、TF−IDFなどの方法により重要キーワードを抽出し、ハッシュ値生成MinHashやb-bit Minwise Hashingなどを使い生成された本文ハッシュ値をハッシュ値データベースへWebページのURLと共に保存する。
<Video distribution server>
A video distribution server having a function of distributing the created video content may be added. The external Web server 5 is used to transmit the Web page 6 in which the moving image distribution script is incorporated.
As shown in FIG. 13, the moving image distribution server 4 includes a web scraper, an article body extracting unit, an article body analyzing unit, a moving image analyzing unit, a moving image delivering unit, a hash value database, and a moving image database. ing. The article body analysis unit and the moving image analysis unit may be referred to as a content analysis unit. The moving image distribution server 4 can be realized by a plurality of server devices.
The web scraper collects the content information of the web page for which the distribution surface of the moving image is set.
The article body extraction unit is software that extracts a portion corresponding to the body of the article from the collected content information, and can be configured by a tool such as Readability.
The article text analysis unit subjects the extracted article text to morphological analysis, extracts important keywords by a method such as TF-IDF, and generates a hash value by using a hash value generation MinHash or b-bit Minwise Hashing. Save in the database with the URL of the web page.

動画解析部は、収集したコンテンツ情報中の動画のテロップを形態素解析にかけ、TF−IDFなどの方法により重要キーワードを抽出し、記事本文解析部と同様の方法でテロップハッシュ値を生成し、ハッシュ値データベースへ保存する。動画解析部は、生成したテロップハッシュ値と保存されている記事ハッシュ値から類似度を求め、保存しておく。
動画配信部は、Webページ6に組み込まれたスクリプトが動画の取得をリクエストした際に、受信したWebページ6のURLから類似度が高く、現在配信が可能となっている動画を動画データベースから取得し、動画の配信を行う。より詳細には、Webページ6が動画をリクエストする際に送信するリクエストURLには、Webページ6のURLがパラメータとして含まれており、動画配信サーバ4は受け取ったパラメータからWebページ6のURLを取り出し、動画解析部による解析結果に基づき類似度が高いとされた動画を選択し、Webページ6に配信する。
動画データベースには、上述の動画編集サーバ1により作成した動画を格納することができる。実施形態例の動画配信サーバ4によれば、例えば、Webページ6の記事本文と類似度が高い動画広告を配信することで、ユーザの興味・関心にあったターゲティング広告を効率よく行うことも可能である。
The moving picture analysis unit subjects the moving picture telops in the collected content information to morphological analysis, extracts important keywords by a method such as TF-IDF, generates a telop hash value in the same manner as the article text analysis unit, and calculates a hash value. Save to database. The moving image analysis unit obtains the degree of similarity from the generated telop hash value and the stored article hash value, and stores the similarity.
When the script embedded in the web page 6 requests the acquisition of a video, the video distribution unit acquires from the video database a video that has a high degree of similarity from the URL of the received web page 6 and is currently available for distribution. And deliver the video. More specifically, the request URL transmitted when the web page 6 requests a video includes the URL of the web page 6 as a parameter, and the video distribution server 4 determines the URL of the web page 6 from the received parameter. A video that is taken out and has a high degree of similarity is selected based on the analysis result by the video analysis unit, and is delivered to the Web page 6.
The moving image database can store moving images created by the moving image editing server 1. According to the moving image distribution server 4 of the embodiment, for example, by distributing a moving image advertisement having a high similarity to the article body of the Web page 6, it is possible to efficiently perform a targeting advertisement that is of interest to the user. Is.

以上に説明した実施形態例の動画編集システムによれば、動画編集用ソフト、動画サーバ、専門技術を持った編集者などを自前で揃えなくとも、簡単に動画コンテンツを作成することが可能となる。例えば、下記のような場面での活用が想定される。
1)ECショップで販売している商品情報の動画化
2)プレスリリース情報、CSR情報などを動画で配信
3)利用方法・オペレーションフローなどのマニュアルを動画化
4)動画広告として活用できるクリエイティブを制作
According to the moving picture editing system of the embodiment described above, it is possible to easily create moving picture contents without having to prepare the moving picture editing software, the moving picture server, the editors having specialized technology, etc. .. For example, it is expected to be used in the following situations.
1) Animation of product information sold at EC shops 2) Video distribution of press release information, CSR information, etc. 3) Animation of manuals for usage and operation flow 4) Creation of creatives that can be used as video advertisements

以上、本発明の好ましい実施形態例について説明したが、本発明の技術的範囲は上記実施形態の記載に限定されるものではない。上記実施形態例には様々な変更・改良を加えることが可能であり、そのような変更または改良を加えた形態のものも本発明の技術的範囲に含まれる。 Although the preferred embodiments of the present invention have been described above, the technical scope of the present invention is not limited to the description of the above embodiments. Various modifications and improvements can be added to the above-described embodiment, and such modifications and improvements are also included in the technical scope of the present invention.

1 動画編集サーバ
2 管理者端末
3 ユーザ端末
4 動画配信サーバ
5 外部Webサーバ
11 テンプレート管理部
12 分類器作成部
13 合成動画作成部
21 テンプレートDB
22 学習データDB
23 合成動画DB
24 組込用素材DB

1 Video Editing Server 2 Administrator Terminal 3 User Terminal 4 Video Distribution Server 5 External Web Server 11 Template Management Unit 12 Classifier Creation Unit 13 Synthetic Video Creation Unit 21 Template DB
22 Learning data DB
23 Synthetic video DB
24 Embedded Material DB

Claims (5)

サーバであって、
複数のカットから構成されるテンプレートを管理するテンプレート管理部と、
音声を含む素材を音声認識して文字データとして入力を受け付ける素材読込部と、
前記文字データから作成したテキスト文章を前記テンプレートに割り付けるテロップ挿入部と、を備え、
ことを特徴とするサーバ。
A server,
A template management unit that manages a template composed of multiple cuts,
A material reading unit that recognizes material including voice and accepts input as character data,
A telop insertion unit for allocating a text sentence created from the character data to the template,
A server characterized by that.
前記音声は、動画ファイル中の音声である、
ことを特徴とする請求項1に記載のサーバ。
The audio is audio in a video file,
The server according to claim 1, wherein:
前記音声認識は、APIを利用する、
ことを特徴とする請求項1または2に記載のサーバ。
The voice recognition uses an API,
The server according to claim 1, wherein the server is a server.
前記APIは、外部APIであり、
前記音声認識は、前記外部APIとして提供される音声認識サービスを利用する、
ことを特徴とする請求項3に記載のサーバ。
The API is an external API,
The voice recognition uses a voice recognition service provided as the external API,
The server according to claim 3, wherein:
サーバ用のプログラムにおいて、
前記サーバを、
複数のカットから構成されるテンプレートを管理するテンプレート管理部と、
音声を含む素材を音声認識して文字データとして入力を受け付ける素材読込部と、
前記文字データから作成したテキスト文章を前記テンプレートに割り付けるテロップ挿入部、
として機能させることを特徴とするサーバ用プログラム。

In the server program,
The server
A template management unit that manages a template composed of multiple cuts,
A material reading unit that recognizes material including voice and accepts input as character data,
A telop insertion unit that allocates a text sentence created from the character data to the template,
A server program characterized by functioning as a server.

JP2020037538A 2020-03-05 2020-03-05 Server and program, video distribution system Active JP6730760B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020037538A JP6730760B2 (en) 2020-03-05 2020-03-05 Server and program, video distribution system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020037538A JP6730760B2 (en) 2020-03-05 2020-03-05 Server and program, video distribution system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019170075A Division JP2020005309A (en) 2019-09-19 2019-09-19 Moving image editing server and program

Publications (2)

Publication Number Publication Date
JP2020096373A true JP2020096373A (en) 2020-06-18
JP6730760B2 JP6730760B2 (en) 2020-07-29

Family

ID=71086295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020037538A Active JP6730760B2 (en) 2020-03-05 2020-03-05 Server and program, video distribution system

Country Status (1)

Country Link
JP (1) JP6730760B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022003798A1 (en) * 2020-06-29 2022-01-06 株式会社オープンエイト Server, composite content data creation system, composite content data creation method, and program
CN114401431A (en) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 Virtual human explanation video generation method and related device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845485B1 (en) * 1999-07-15 2005-01-18 Hotv, Inc. Method and apparatus for indicating story-line changes by mining closed-caption-text
JP2010081323A (en) * 2008-09-26 2010-04-08 Kddi Corp Summary content generating device and computer program
WO2017051793A1 (en) * 2015-09-25 2017-03-30 株式会社グロウ・ムービージャパン System for automatically generating video content
JP2017152948A (en) * 2016-02-25 2017-08-31 株式会社三菱東京Ufj銀行 Information provision method, information provision program, and information provision system
WO2018043138A1 (en) * 2016-08-31 2018-03-08 ソニー株式会社 Information processing device, information processing method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845485B1 (en) * 1999-07-15 2005-01-18 Hotv, Inc. Method and apparatus for indicating story-line changes by mining closed-caption-text
JP2010081323A (en) * 2008-09-26 2010-04-08 Kddi Corp Summary content generating device and computer program
WO2017051793A1 (en) * 2015-09-25 2017-03-30 株式会社グロウ・ムービージャパン System for automatically generating video content
JP2017152948A (en) * 2016-02-25 2017-08-31 株式会社三菱東京Ufj銀行 Information provision method, information provision program, and information provision system
WO2018043138A1 (en) * 2016-08-31 2018-03-08 ソニー株式会社 Information processing device, information processing method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022003798A1 (en) * 2020-06-29 2022-01-06 株式会社オープンエイト Server, composite content data creation system, composite content data creation method, and program
CN114401431A (en) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 Virtual human explanation video generation method and related device
CN114401431B (en) * 2022-01-19 2024-04-09 中国平安人寿保险股份有限公司 Virtual person explanation video generation method and related device

Also Published As

Publication number Publication date
JP6730760B2 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
US9372926B2 (en) Intelligent video summaries in information access
US20140161356A1 (en) Multimedia message from text based images including emoticons and acronyms
US20140163980A1 (en) Multimedia message having portions of media content with audio overlay
JP2020005309A (en) Moving image editing server and program
US20140163957A1 (en) Multimedia message having portions of media content based on interpretive meaning
US20140164506A1 (en) Multimedia message having portions of networked media content
JP6730757B2 (en) Server and program, video distribution system
US20140164371A1 (en) Extraction of media portions in association with correlated input
KR20090094826A (en) Automated production of multiple output products
US20070297643A1 (en) Information processing system, information processing method, and program product therefor
KR20090091311A (en) Storyshare automation
WO2019245033A1 (en) Moving image editing server and program
TW200849030A (en) System and method of automated video editing
US20140161423A1 (en) Message composition of media portions in association with image content
JP6730760B2 (en) Server and program, video distribution system
US20140163956A1 (en) Message composition of media portions in association with correlated text
JP6603929B1 (en) Movie editing server and program
JP6713183B1 (en) Servers and programs
CN117436417A (en) Presentation generation method and device, electronic equipment and storage medium
JP6710884B2 (en) Servers and programs
JP6903364B1 (en) Server and data allocation method
CN107066437B (en) Method and device for labeling digital works
EP4099711A1 (en) Method and apparatus and storage medium for processing video and timing of subtitles
JP2020129357A (en) Moving image editing server and program
WO2022201236A1 (en) Server, system, image clipping method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200305

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200630

R150 Certificate of patent or registration of utility model

Ref document number: 6730760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250