JP2021009607A - 画像処理装置、画像処理方法、及びプログラム - Google Patents
画像処理装置、画像処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2021009607A JP2021009607A JP2019123739A JP2019123739A JP2021009607A JP 2021009607 A JP2021009607 A JP 2021009607A JP 2019123739 A JP2019123739 A JP 2019123739A JP 2019123739 A JP2019123739 A JP 2019123739A JP 2021009607 A JP2021009607 A JP 2021009607A
- Authority
- JP
- Japan
- Prior art keywords
- image
- character string
- image processing
- voice
- synthesizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/87—Regeneration of colour television signals
- H04N9/8715—Regeneration of colour television signals involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/036—Insert-editing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
【課題】動画内から選択された画像の前または後の音声が無音、または無音に近い場合に、不自然な文字列が合成されることや、文字列が合成されないこと等を防ぐことで、高付加価値の成果物をユーザに提供すること。【解決手段】本発明の一実施形態は、複数のフレームから成る動画から、1フレームの静止画である画像を選択する選択手段と、前記選択された画像に対応する1フレームの前または後の一定時間における音声を抽出する抽出手段と、前記選択手段により選択された画像に対し文字列を合成する合成手段と、を有する画像処理装置であって、前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置である。【選択図】図6
Description
本出願は、文字を静止画に合成して画像を作成する技術に関する。
静止画や動画に文字列を合成して画像を作成する技術は、一般的に知られている。また、昨今の動画普及に伴い、動画内からある1コマ、すなわち1フレーム分の静止画を抜き出し、その静止画に対して動画内の音声を文字列に変換及び合成することで画像を作成する画像処理方法も提案されている。
特許文献1は、動画内から画像と音声とを抽出し、該抽出した音声を文字列に変換し、得た文字列を合成した画像を漫画調にレイアウトする技術を開示している。
しかしながら、ある動画に基づいて画像を漫画調にレイアウトする場合に、コマとして選択した画像の前後にわたって音声が無音、または無音に近いことも考えられる。その場合、特許文献1の記載の技術によれば、音声が抽出されないため、文字列の合成が行われないことが考えられる。
そこで本発明は、上記の課題に鑑み、動画内から選択された画像の前後の音声が無音、または無音に近い場合であっても、適切に文字列の合成を行うことができる技術を提供することを目的とする。
本発明の一実施形態は、複数のフレームから成る動画から、1フレームの静止画である画像を選択する選択手段と、前記選択された画像に対応する1フレームの前または後の一定時間における音声を抽出する抽出手段と、前記選択手段により選択された画像に対し文字列を合成する合成手段と、を有する画像処理装置であって、前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置である。
本発明によると、動画内から選択された画像の前または後の音声が無音、または無音に近い場合に、不自然な文字列が合成されることや、文字列が合成されないこと等を防ぐことで、高付加価値の成果物をユーザに提供することが可能になる。
[第1の実施形態]
<画像処理装置の全般的な説明>
図1は、本実施形態における画像処理装置100のハードウェア構成を示すブロック図である。CPU101は、ROM103に記憶された制御プログラムをRAM102に展開し、必要な時に読み出して画像処理制御等の各種制御を行う。RAM102は、CPU101の主記憶装置であり、ワークエリアやROM103に記憶された各種プログラムを展開する為の一時記憶領域として用いられる。ROM103には、画像処理装置100の起動プログラム等の各種プログラムが記憶されている。本実施形態では、ROM103としてフラッシュストレージ等を想定しているが、ハードディスク等の補助記憶装置を採用してもよい。不揮発性メモリ104には、動画サーバー109から受信した動画データや後述する文字列データや画像のレイアウトデータが記憶されている。ユーザインターフェース部(以下UI部)105は、タッチパネル機能を有する液晶表示部、操作キー等を備え、ユーザの指示を受け付ける受付部として機能する。画像処理部106は、動画データの取得や解析、画像の補正や画像処理を行うGPUである。外部インターフェース(以下外部I/F)107は、USB I/FとネットワークI/Fとを有し、外部サーバーや外部ストレージ等と接続される。音声処理部108は、音声データの解析を行ったり、音声波形から音量を導出したりする制御を行う。外部の動画サーバー109には動画データが記憶されており、画像処理装置100は、動画サーバー109から受信した動画データを、外部I/F107を通じて装置内不揮発性メモリ104に一時的に記憶して、この動画データに対する処理を実行する。
<画像処理装置の全般的な説明>
図1は、本実施形態における画像処理装置100のハードウェア構成を示すブロック図である。CPU101は、ROM103に記憶された制御プログラムをRAM102に展開し、必要な時に読み出して画像処理制御等の各種制御を行う。RAM102は、CPU101の主記憶装置であり、ワークエリアやROM103に記憶された各種プログラムを展開する為の一時記憶領域として用いられる。ROM103には、画像処理装置100の起動プログラム等の各種プログラムが記憶されている。本実施形態では、ROM103としてフラッシュストレージ等を想定しているが、ハードディスク等の補助記憶装置を採用してもよい。不揮発性メモリ104には、動画サーバー109から受信した動画データや後述する文字列データや画像のレイアウトデータが記憶されている。ユーザインターフェース部(以下UI部)105は、タッチパネル機能を有する液晶表示部、操作キー等を備え、ユーザの指示を受け付ける受付部として機能する。画像処理部106は、動画データの取得や解析、画像の補正や画像処理を行うGPUである。外部インターフェース(以下外部I/F)107は、USB I/FとネットワークI/Fとを有し、外部サーバーや外部ストレージ等と接続される。音声処理部108は、音声データの解析を行ったり、音声波形から音量を導出したりする制御を行う。外部の動画サーバー109には動画データが記憶されており、画像処理装置100は、動画サーバー109から受信した動画データを、外部I/F107を通じて装置内不揮発性メモリ104に一時的に記憶して、この動画データに対する処理を実行する。
本実施形態の画像処理装置100におけるデータフローについて、図2(a)等を用いて説明する。図2(a)は、本実施形態における画像処理装置100の機能構成とモジュール間のデータフローとを示すブロック図である。ユーザは、操作部204を介して、作成する漫画のテーマとレイアウト、動画データを入力し、画像処理装置100のCPU101がそのユーザ入力を受信した場合、漫画化処理を開始する。漫画のテーマとレイアウトが決定されると、作成すべきコマ数も自ずと決定される。
ユーザによる操作部204に対する操作を契機とする漫画化処理が開始された場合、動画データ取得部200は、不揮発性メモリ104から動画データを取得し、該取得した動画データを画像データ解析部201に送信する。画像データ解析部201は、動画データ取得部200から動画データを受信し、動画を一定フレーム単位、例えば図3(a)のように、20フレーム毎に静止画に分割した上で、該分割した静止画それぞれのデータ解析を行うことで、各静止画に対する得点付けを行う。このような静止画に対する得点付けは「スコア化」と呼ばれ、例えば特開2017−117407号公報で開示されているような方法で実現することができる。
画像データ解析部201は、スコア化した静止画について、図3(b)に示すように注目静止画を基点として例えば前または後(もしくは前後両方の)一定時間の(本実施例では前後5秒)動画データを画像IDと共に音声データ解析部202に送信する。この動画データの送信は、スコアの高い静止画が含まれるものから順に行われる。また、画像データ解析部201は、スコア化した静止画の各データを、画像IDと共に画像処理部203に送信する。画像IDについて、画像処理部203に送信する静止画のデータには、音声データ解析部202に送信する動画データであって当該静止画を含む動画データと同一のIDを付与するものとする。各静止画に対する画像IDは、スコアが最も高い静止画からスコアの高い順にID1、ID2、ID3・・・というように連続したIDとしてコマ数分割り振られる。また、画像処理部203に送信される静止画には、画像を解析した結果導出された特徴を示すテーマ情報も付与される。つまり、画像処理部203に送信されるデータは図4(a)に示すように加工されたデータであり、音声データ解析部202に送信されるデータは図4(b)に示すように加工されたデータである。尚、前述の画像データ解析方法として、例えば特開2017−59245号公報に記載された方法を採用することができる。また、前述の処理、即ち、動画データを音声データ解析部202に送信し、静止画データを画像処理部203に送信する処理については、操作部204を介して決定されたコマ数分実行される。
音声データ解析部202は、受信した動画データから音声データを抽出する。抽出した音声データについて、音声の音量値がサンプリング期間(本実施例では5秒間)の全てにおいて所定の閾値未満である場合は有効な音声がなかったとみなし、有効な音声がなかったことを示す情報を画像IDと共に画像処理部203に送信する。一方、音声の音量値がサンプリング期間中のどこかにおいて所定の閾値以上だった場合は、抽出した音声データに対する音声認識を実行することにより、音声を文字列に変換する文字列変換を行う。文字列変換の際には、前述の静止画の前後の動画データ(図3(b)参照)の音声が文章の途中から開始されたこと等が原因で、単語や文章として認識できなかった部分は削除される一方、単語や文章として認識できた部分は、文字列に変換される。変換された文字列は画像IDと共に図4(c)に示すような形式に加工される。音声データ解析部202は、加工後のデータを画像処理部203に送信する。
画像処理部203は、画像データ解析部201から受信したデータ(即ち図4(a)の形式のデータ)と、音声データ解析部202から受信したデータ(即ち図4(c)の形式のデータ)と、を受信する。受信したデータについて、画像IDがそれぞれ一致している図4(a)の形式のデータと図4(c)の形式のデータとを結合し、図4(d)に示す形式のデータにする。以上の処理をコマ数分行うことで、画像処理部203に渡されたデータは、図4(e)に示すように、図4(d)の形式のコマ数分のデータとして、不揮発性メモリ104に一時的に記憶される。
<成果物について>
以下、本実施形態で画像処理装置100が作成する成果物におけるコマ割りと、最終的な成果物の一例とについて、図5(a)及び図5(b)を用いて説明する。ユーザにより操作部204を介して設定された漫画のテーマに従って、例えば図5(a)に示されたようにコマ割りが行われ、更にコマ毎にIDが決定されている。このようにコマ割りされたコマ内に画像と文字列とが合成されたものが最終的な成果物である。図5(b)は、画像処理装置100による最終的な成果物の一例を示す。最終的な成果物は、UI部105内の表示部205に表示されたり、図示しないが印刷装置で印刷されたりして使用される。
以下、本実施形態で画像処理装置100が作成する成果物におけるコマ割りと、最終的な成果物の一例とについて、図5(a)及び図5(b)を用いて説明する。ユーザにより操作部204を介して設定された漫画のテーマに従って、例えば図5(a)に示されたようにコマ割りが行われ、更にコマ毎にIDが決定されている。このようにコマ割りされたコマ内に画像と文字列とが合成されたものが最終的な成果物である。図5(b)は、画像処理装置100による最終的な成果物の一例を示す。最終的な成果物は、UI部105内の表示部205に表示されたり、図示しないが印刷装置で印刷されたりして使用される。
<画像処理について>
以下、本実施形態における画像処理部203が実行する画像処理について、図6及び図8を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ104には、図4(e)に示すような形式でコマ数分の画像が記憶されているものとする。
以下、本実施形態における画像処理部203が実行する画像処理について、図6及び図8を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ104には、図4(e)に示すような形式でコマ数分の画像が記憶されているものとする。
まず、ステップS601において、画像処理部203は、初期化を行う。具体的には、画像及びコマをカウントするための変数(画像カウンタiとする)の値を1に設定するとともに、コマ数の閾値として用いる定数値(MAX_KOMAとする)を設定する。MAX_KOMAの設定では、操作部204を介するユーザ入力に従って決定した値が使われる。尚、以下では、「ステップS〜を」単純に「S〜」と略記する。
S602において、画像処理部203は、i番目のコマ(コマ(i)と表す)に対し、画像ID(i)の静止画を適用する。ここで、画像ID(i)とは、図4(d)に示したテーブル内の画像IDフィールドに保持されている値である。尚、静止画をコマに適用する際は、コマのサイズに合わせて対象の静止画をリサイズする。
S603において、画像処理部203は、S602でリサイズした静止画に画像処理を施し、漫画調に変換する。「漫画調に変換する」とは、例えば、カラー画像のグレースケール画像への変換等を指す。
S604において、画像処理部203は、i番目の画像(注目画像とする)に対応する有効な音声が存在するか判定する。具体的には、画像処理部203は、図4(e)に示したテーブルにおいて、画像ID(i)に対応する有効な音声有無フィールドに保持されている値を読み出し、該読み出した値が有効な音声が存在することを示す値か判定する。本ステップの判定結果が真の場合、S605に進む一方、該判定結果が偽の場合、S606に進む。
注目画像に対応する有効な音声が存在する場合(S604でYES)、S605において、画像処理部203は、文字列フィールド(図4(e)参照)に保持されている文字列をラスタライズする。そして、ラスタライズの結果得られるビットマップ画像を、S603で漫画調に変換した静止画に合成する。
注目画像に対応する有効な音声が存在しない場合(S604でNO)、S606において、画像処理部203は、画像ID(i)に対応するテーマ情報の値を読み出し、この値に適した文字列を、不揮発性メモリ104に予め用意されたテーブルから検索する。前述の不揮発性メモリ104に記憶されているテーブルは、図8に例示するような構成になっている。
図8中に符号801で示すように、第一階層では、操作部204で選択され得る漫画のテーマ情報毎の分類が予めなされている。例えば、仮にテーマを「旅行」と設定したものとすると、第一階層にある分類のうち旅行の分類において、注目画像に対応するテーマ情報に合致するキーワードを第二階層から検索する。注目画像に対応するテーマ情報の値は、図4(e)に示したテーブル内の画像のテーマ情報フィールドに保持されているので、これを利用する。注目画像のテーマ情報フィールドに値「風景(山)」が保持されている場合、第二階層にある風景(山)802がこの値に合致するため、風景(山)802に対応付けされている第三階層の文字列803が取得できる。S606で取得した文字列は、S607において、S605で行った処理と同様にラスタライズし、ビットマップ画像として静止画に合成する。
S608において、画像処理部203は、画像カウンタiをインクリメントする。
S609において、画像処理部203は、コマ数分の処理を行ったか(未処理の画像がないか)判定する。具体的には、画像処理部203は、画像カウンタiの値がMAX_KOMAの値より大きいか判定する。本ステップの判定結果が真の場合、コマ数分の処理を行ったとみなし、一連の処理を終了する。一方、本ステップの判定結果が偽の場合、S602に戻る。
以上説明したように、本実施形態によると、動画内から選択された静止画の前または後の音声が無音または無音に近い場合に、不自然な文字列が合成されることを防ぎ、従来技術より高付加価値の成果物をユーザに提供可能となる。
[第2の実施形態]
<画像処理装置の構成について>
以下、本実施形態における画像処理装置の構成について、図2(b)を用いて説明する。図2(b)は、本実施形態における画像処理装置の機能構成とモジュール間のデータフローとを示すブロック図である。尚、以下では、既述の実施形態との差分について主に説明し、既述の実施形態と同様の要素については、同じ符号を付して、説明を適宜省略する。
<画像処理装置の構成について>
以下、本実施形態における画像処理装置の構成について、図2(b)を用いて説明する。図2(b)は、本実施形態における画像処理装置の機能構成とモジュール間のデータフローとを示すブロック図である。尚、以下では、既述の実施形態との差分について主に説明し、既述の実施形態と同様の要素については、同じ符号を付して、説明を適宜省略する。
ユーザは、操作部204を介して、作成する動画のテーマと動画データを入力し、画像処理装置100のCPU101がそのユーザ入力を受信した場合、文字列が合成された動画の作成を開始する。
ユーザによる操作部204に対する操作を契機とする合成動画の作成が開始された場合、動画データ取得部200は、不揮発性メモリ104から動画データを取得し、該取得した動画データを画像データ解析部201に送信する。画像データ解析部201は、動画データ取得部200から動画データを受信し、動画を一定時間単位、例えば5秒単位で分割して音声データ解析部202に送信する。また、画像データ解析部201は、この分割した一定時間単位の動画について、更に一定フレーム単位、例えば図3(a)のように、20フレーム毎に静止画に分割した上で、該分割した静止画それぞれのデータ解析を行い、各静止画に対するスコア化を行う。そして、画像データ解析部201は、スコア化された静止画のうち最もスコアが高い静止画の特徴解析を行い、画像のテーマを決定する。そして、画像データ解析部201は、決定したテーマの情報を、前述の一定時間単位(本例では5秒単位)で分割した動画データに付与して画像処理部203に送信する。つまり、画像処理部203に送信されるデータは図4(g)に示すように加工されたデータであり、音声データ解析部202に送信されるデータは図4(b)に示すように加工されたデータである。尚、前述した静止画の特徴解析ないし画像のテーマ決定の方法として、例えば特開2017−59245号公報に記載された方法を採用することができる。また、前述の処理、即ち、動画データを音声データ解析部202に送信し、テーマ情報付き動画データを画像処理部203に送信する処理については、動画データの総時間分、例えば動画データが60秒であれば5秒単位で12回繰り返して実行される。
音声データ解析部202は、受信した動画データから音声データを抽出する。抽出した音声データについて、音声の音量値がサンプリング期間(本実施例では5秒間)の全てにおいて所定の閾値未満である場合は有効な音声がなかったとみなし、有効な音声がなかったことを示す情報を画像IDと共に画像処理部203に送信する。一方、音声の音量値がサンプリング期間中のどこかにおいて所定の閾値以上だった場合は、抽出した音声データに対する音声認識を実行することにより、音声を文字列に変換する文字列変換を行う。文字列変換の際には、前述の静止画の前後の動画データの音声が文章の途中から開始されたこと等が原因で、単語や文章として認識できなかった部分は削除される一方、単語や文章として認識できた部分は、文字列に変換される。変換された文字列は画像IDと共に図4(c)に示すような形式に加工される。音声データ解析部202は、加工後のデータを画像処理部203に送信する。
画像処理部203は、画像データ解析部201から受信したデータ(即ち図4(g)の形式のデータ)と、音声データ解析部202から受信したデータ(即ち図4(c)の形式のデータ)と、を受信する。受信したデータについて、画像IDがそれぞれ一致している図4(g)の形式のデータと図4(c)の形式のデータとを結合し、図4(f)に示す形式のデータにする。以上の処理を動画データの総時間分(本実施例では12回)行うことで、画像処理部203に渡されたデータは、図4(h)に示すように、図4(f)の形式のデータが12回分不揮発性メモリ104に一時的に記憶される。一時記憶されたデータは後述する画像処理部203の処理によって結合され、元の時間分の動画となって不揮発性メモリ104に記憶される。
<成果物について>
以下、本実施形態で画像処理装置100が作成する最終的な成果物の一例について、図5(c)を用いて説明する。図5(c)に示すように、一定時間毎(本例では5秒毎)の動画に文字列が合成された一連の動画が最終的な成果物である。最終的な成果物は、UI部105内の表示部205に表示されたりして使用される。
以下、本実施形態で画像処理装置100が作成する最終的な成果物の一例について、図5(c)を用いて説明する。図5(c)に示すように、一定時間毎(本例では5秒毎)の動画に文字列が合成された一連の動画が最終的な成果物である。最終的な成果物は、UI部105内の表示部205に表示されたりして使用される。
<画像処理について>
以下、本実施形態における画像処理部203が実行する画像処理について、図7及び図8を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ104には、図4(h)に示すような形式で動画の総時間分の分割動画が記憶されているものとする。
以下、本実施形態における画像処理部203が実行する画像処理について、図7及び図8を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ104には、図4(h)に示すような形式で動画の総時間分の分割動画が記憶されているものとする。
まず、S701において、画像処理部203は、初期化を行う。具体的には、動画をカウントするための変数(動画カウンタiとする)の値を1に設定するとともに、動画数の閾値として用いる定数値(MAX_CNTとする)を設定する。MAX_CNTの値として、動画の総時間を分割動画の時間(単位時間)で割った値が使われる。
S702において、画像処理部203は、図4(h)に示したテーブルにおいて、画像ID(i)に対応する有効な音声有無フィールドに保持されている値を読み出し、該読み出した値が有効な音声が存在することを示す値か判定する。本ステップの判定結果が真の場合、S703に進む一方、該判定結果が偽の場合、S704に進む。
有効な音声があると判定された場合(S702でYES)、S703において、画像処理部203は、文字列フィールド(図4(h)参照)に保持されている文字列をラスタライズする。そして、ラスタライズの結果得られるビットマップ画像を、注目の分割動画(画像ID(i)の動画)に合成する。
有効な音声がないと判定された場合(S702でNO)、S704において、画像処理部203は、画像ID(i)のテーマ情報の値を読み出し、該読み出した値に適した文字列を、不揮発性メモリ104に予め記憶されているテーブルから検索する。前述の不揮発性メモリ104に記憶されているテーブルは、図8に例示するような構成になっている。
S704で取得した文字列は、S705において、S703で行った処理と同様にラスタライズし、ビットマップ画像として注目の分割動画に合成する。
S706において、画像処理部203は、動画カウンタiをインクリメントする。
S707において、画像処理部203は、文字列が合成された注目の分割動画(画像ID(i)の動画)を、これまでにS602〜S609の処理が施された分割動画をつなぎ合わせた動画に対して結合する。S707の処理は、複数の分割動画を1つの動画にまとめる目的で行われる。
S708において、画像処理部203は、動画の総時間分の処理を行ったか、言い換えると、未処理の分割動画がないか判定する。具体的には、画像処理部203は、動画カウンタiの値がMAX_CNTの値より大きいか判定する。本ステップの判定結果が真の場合、動画の総時間分の処理を行ったとみなし、一連の処理を終了する。一方、本ステップの判定結果が偽の場合、S702に戻る。
以上説明したように、本実施形態によると、動画内の一定時間における音声状態が無音または無音に近い場合に、不自然な文字列が合成されることを防ぎ、従来技術より高付加価値の成果物をユーザに提供可能となる。
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 画像処理装置
101 CPU
203 画像処理部
101 CPU
203 画像処理部
Claims (7)
- 複数のフレームから成る動画から、1フレームの静止画である画像を選択する選択手段と、
前記選択された画像に対応する1フレームの前または後の一定時間における音声を抽出する抽出手段と、
前記選択手段により選択された画像に対し文字列を合成する合成手段と、
を有する画像処理装置であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置。 - 前記抽出手段により抽出された音声を文字列に変換する変換手段を更に有し、
前記音量値が前記所定の閾値以上の場合、前記合成手段は、前記変換手段による変換により取得された文字列を、前記選択された画像に対し合成することを特徴とする請求項1に記載の画像処理装置。 - 前記選択された画像を解析して、該画像のテーマを決定する決定手段と、
画像のテーマの各値と文字列とが対応付けられたテーブルと、
前記決定手段により決定されたテーマに対応する文字列を、前記テーブルにおいて検索する検索手段と、
を更に有することを特徴とする請求項2に記載の画像処理装置。 - 前記音量値が前記所定の閾値より小さい場合、前記合成手段は、前記検索手段によって検索された文字列を前記選択された画像に対し合成することを特徴とする請求項3に記載の画像処理装置。
- 複数のフレームから成る動画から、1フレームの静止画である画像を選択する選択手段と、
前記選択された画像に対応する1フレームの前または後の一定時間における音声を抽出する抽出手段と、
前記選択手段により選択された画像に対し文字列を合成する合成手段と、
を有する画像処理装置であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を、該前または後の一定時間の動画に対し合成することを特徴とする画像処理装置。 - 複数のフレームから成る動画から、1フレームの静止画である画像を選択する選択ステップと、
前記選択された画像に対応する1フレームの前または後の一定時間における音声を抽出する抽出ステップと、
前記選択された画像に対し文字列を合成する合成ステップと、
を有する画像処理方法であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成ステップにおいて、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理方法。 - コンピュータに請求項6に記載の方法を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019123739A JP2021009607A (ja) | 2019-07-02 | 2019-07-02 | 画像処理装置、画像処理方法、及びプログラム |
US16/916,404 US11582435B2 (en) | 2019-07-02 | 2020-06-30 | Image processing apparatus, image processing method and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019123739A JP2021009607A (ja) | 2019-07-02 | 2019-07-02 | 画像処理装置、画像処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021009607A true JP2021009607A (ja) | 2021-01-28 |
Family
ID=74066555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019123739A Pending JP2021009607A (ja) | 2019-07-02 | 2019-07-02 | 画像処理装置、画像処理方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11582435B2 (ja) |
JP (1) | JP2021009607A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022158346A1 (ja) | 2021-01-25 | 2022-07-28 | 株式会社小糸製作所 | 電磁弁 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5326910B2 (ja) | 2009-01-20 | 2013-10-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP6761243B2 (ja) | 2015-12-25 | 2020-09-23 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP6393302B2 (ja) | 2016-10-26 | 2018-09-19 | 富士フイルム株式会社 | 画像処理装置、画像処理方法、プログラムおよび記録媒体 |
WO2019043871A1 (ja) * | 2017-08-31 | 2019-03-07 | 楽天株式会社 | 表示タイミング決定装置、表示タイミング決定方法、及びプログラム |
-
2019
- 2019-07-02 JP JP2019123739A patent/JP2021009607A/ja active Pending
-
2020
- 2020-06-30 US US16/916,404 patent/US11582435B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022158346A1 (ja) | 2021-01-25 | 2022-07-28 | 株式会社小糸製作所 | 電磁弁 |
Also Published As
Publication number | Publication date |
---|---|
US11582435B2 (en) | 2023-02-14 |
US20210006762A1 (en) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8558952B2 (en) | Image-sound segment corresponding apparatus, method and program | |
JP5200015B2 (ja) | 画像認識装置及び画像認識方法 | |
CN104240703B (zh) | 语音信息处理方法和装置 | |
CN106688035B (zh) | 声音合成装置及声音合成方法 | |
US20030188255A1 (en) | Apparatus for and method of generating synchronized contents information, and computer product | |
CN113821690B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20090094534A1 (en) | Server apparatus and control method of server apparatus | |
KR102540763B1 (ko) | 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치 | |
CN110781346A (zh) | 基于虚拟形象的新闻生产方法、系统、装置和存储介质 | |
US10923106B2 (en) | Method for audio synthesis adapted to video characteristics | |
CN114598933A (zh) | 一种视频内容处理方法、系统、终端及存储介质 | |
JP2021009607A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2021009608A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6843409B1 (ja) | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム | |
CN113096635A (zh) | 一种音频和文本的同步方法、装置、设备以及介质 | |
CN113572977B (zh) | 视频制作方法及装置 | |
JP2020140326A (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
JP3537753B2 (ja) | 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 | |
KR102136464B1 (ko) | 어텐션 메커니즘 기반의 오디오 분할 방법 | |
JP2017102939A (ja) | オーサリング装置、オーサリング方法、およびプログラム | |
JP2005062420A (ja) | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム | |
KR102114368B1 (ko) | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 | |
JP2019213160A (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
WO2022201515A1 (ja) | サーバおよびアニメーション推薦システム、アニメーション推薦方法、プログラム | |
US20230410848A1 (en) | Method and apparatus of generating audio and video materials |