JP2021009607A

JP2021009607A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2021009607A
Application number: JP2019123739A
Authority: JP
Inventors: 門松　大樹; Daiki Kadomatsu; 大樹門松; 公盛田中; Kimimori Tanaka; 豪佐々木; Takeshi Sasaki; 亀田　浩一; Koichi Kameda; 浩一亀田; 知成炭田; Tomonari Sumida; 中村　武志; Takeshi Nakamura; 武志中村; 健星埜; Takeshi Hoshino; 弘明長谷川; Hiroaki Hasegawa; 憲市吉田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-01-28
Also published as: US11582435B2; US20210006762A1

Abstract

【課題】動画内から選択された画像の前または後の音声が無音、または無音に近い場合に、不自然な文字列が合成されることや、文字列が合成されないこと等を防ぐことで、高付加価値の成果物をユーザに提供すること。【解決手段】本発明の一実施形態は、複数のフレームから成る動画から、１フレームの静止画である画像を選択する選択手段と、前記選択された画像に対応する１フレームの前または後の一定時間における音声を抽出する抽出手段と、前記選択手段により選択された画像に対し文字列を合成する合成手段と、を有する画像処理装置であって、前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置である。【選択図】図６

Description

本出願は、文字を静止画に合成して画像を作成する技術に関する。

静止画や動画に文字列を合成して画像を作成する技術は、一般的に知られている。また、昨今の動画普及に伴い、動画内からある１コマ、すなわち１フレーム分の静止画を抜き出し、その静止画に対して動画内の音声を文字列に変換及び合成することで画像を作成する画像処理方法も提案されている。

特許文献１は、動画内から画像と音声とを抽出し、該抽出した音声を文字列に変換し、得た文字列を合成した画像を漫画調にレイアウトする技術を開示している。

特開２０１０−１９１９３４号公報

しかしながら、ある動画に基づいて画像を漫画調にレイアウトする場合に、コマとして選択した画像の前後にわたって音声が無音、または無音に近いことも考えられる。その場合、特許文献１の記載の技術によれば、音声が抽出されないため、文字列の合成が行われないことが考えられる。

そこで本発明は、上記の課題に鑑み、動画内から選択された画像の前後の音声が無音、または無音に近い場合であっても、適切に文字列の合成を行うことができる技術を提供することを目的とする。

本発明の一実施形態は、複数のフレームから成る動画から、１フレームの静止画である画像を選択する選択手段と、前記選択された画像に対応する１フレームの前または後の一定時間における音声を抽出する抽出手段と、前記選択手段により選択された画像に対し文字列を合成する合成手段と、を有する画像処理装置であって、前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置である。

本発明によると、動画内から選択された画像の前または後の音声が無音、または無音に近い場合に、不自然な文字列が合成されることや、文字列が合成されないこと等を防ぐことで、高付加価値の成果物をユーザに提供することが可能になる。

画像処理装置のハードウェア構成を示すブロック図。画像処理装置内のデータフローを示すブロック図。動画データの扱いについて説明するための概念図。データ形式について説明するための概念図。成果物に関する説明図。第１の実施形態における画像処理のフローチャート。第２の実施形態における画像処理のフローチャート。音声を文字列化する際に使用するテーブルの一例。

［第１の実施形態］
＜画像処理装置の全般的な説明＞
図１は、本実施形態における画像処理装置１００のハードウェア構成を示すブロック図である。ＣＰＵ１０１は、ＲＯＭ１０３に記憶された制御プログラムをＲＡＭ１０２に展開し、必要な時に読み出して画像処理制御等の各種制御を行う。ＲＡＭ１０２は、ＣＰＵ１０１の主記憶装置であり、ワークエリアやＲＯＭ１０３に記憶された各種プログラムを展開する為の一時記憶領域として用いられる。ＲＯＭ１０３には、画像処理装置１００の起動プログラム等の各種プログラムが記憶されている。本実施形態では、ＲＯＭ１０３としてフラッシュストレージ等を想定しているが、ハードディスク等の補助記憶装置を採用してもよい。不揮発性メモリ１０４には、動画サーバー１０９から受信した動画データや後述する文字列データや画像のレイアウトデータが記憶されている。ユーザインターフェース部（以下ＵＩ部）１０５は、タッチパネル機能を有する液晶表示部、操作キー等を備え、ユーザの指示を受け付ける受付部として機能する。画像処理部１０６は、動画データの取得や解析、画像の補正や画像処理を行うＧＰＵである。外部インターフェース（以下外部Ｉ／Ｆ）１０７は、ＵＳＢＩ／ＦとネットワークＩ／Ｆとを有し、外部サーバーや外部ストレージ等と接続される。音声処理部１０８は、音声データの解析を行ったり、音声波形から音量を導出したりする制御を行う。外部の動画サーバー１０９には動画データが記憶されており、画像処理装置１００は、動画サーバー１０９から受信した動画データを、外部Ｉ／Ｆ１０７を通じて装置内不揮発性メモリ１０４に一時的に記憶して、この動画データに対する処理を実行する。

本実施形態の画像処理装置１００におけるデータフローについて、図２（ａ）等を用いて説明する。図２（ａ）は、本実施形態における画像処理装置１００の機能構成とモジュール間のデータフローとを示すブロック図である。ユーザは、操作部２０４を介して、作成する漫画のテーマとレイアウト、動画データを入力し、画像処理装置１００のＣＰＵ１０１がそのユーザ入力を受信した場合、漫画化処理を開始する。漫画のテーマとレイアウトが決定されると、作成すべきコマ数も自ずと決定される。

ユーザによる操作部２０４に対する操作を契機とする漫画化処理が開始された場合、動画データ取得部２００は、不揮発性メモリ１０４から動画データを取得し、該取得した動画データを画像データ解析部２０１に送信する。画像データ解析部２０１は、動画データ取得部２００から動画データを受信し、動画を一定フレーム単位、例えば図３（ａ）のように、２０フレーム毎に静止画に分割した上で、該分割した静止画それぞれのデータ解析を行うことで、各静止画に対する得点付けを行う。このような静止画に対する得点付けは「スコア化」と呼ばれ、例えば特開２０１７−１１７４０７号公報で開示されているような方法で実現することができる。

画像データ解析部２０１は、スコア化した静止画について、図３（ｂ）に示すように注目静止画を基点として例えば前または後（もしくは前後両方の）一定時間の（本実施例では前後５秒）動画データを画像ＩＤと共に音声データ解析部２０２に送信する。この動画データの送信は、スコアの高い静止画が含まれるものから順に行われる。また、画像データ解析部２０１は、スコア化した静止画の各データを、画像ＩＤと共に画像処理部２０３に送信する。画像ＩＤについて、画像処理部２０３に送信する静止画のデータには、音声データ解析部２０２に送信する動画データであって当該静止画を含む動画データと同一のＩＤを付与するものとする。各静止画に対する画像ＩＤは、スコアが最も高い静止画からスコアの高い順にＩＤ１、ＩＤ２、ＩＤ３・・・というように連続したＩＤとしてコマ数分割り振られる。また、画像処理部２０３に送信される静止画には、画像を解析した結果導出された特徴を示すテーマ情報も付与される。つまり、画像処理部２０３に送信されるデータは図４（ａ）に示すように加工されたデータであり、音声データ解析部２０２に送信されるデータは図４（ｂ）に示すように加工されたデータである。尚、前述の画像データ解析方法として、例えば特開２０１７−５９２４５号公報に記載された方法を採用することができる。また、前述の処理、即ち、動画データを音声データ解析部２０２に送信し、静止画データを画像処理部２０３に送信する処理については、操作部２０４を介して決定されたコマ数分実行される。

音声データ解析部２０２は、受信した動画データから音声データを抽出する。抽出した音声データについて、音声の音量値がサンプリング期間（本実施例では５秒間）の全てにおいて所定の閾値未満である場合は有効な音声がなかったとみなし、有効な音声がなかったことを示す情報を画像ＩＤと共に画像処理部２０３に送信する。一方、音声の音量値がサンプリング期間中のどこかにおいて所定の閾値以上だった場合は、抽出した音声データに対する音声認識を実行することにより、音声を文字列に変換する文字列変換を行う。文字列変換の際には、前述の静止画の前後の動画データ（図３（ｂ）参照）の音声が文章の途中から開始されたこと等が原因で、単語や文章として認識できなかった部分は削除される一方、単語や文章として認識できた部分は、文字列に変換される。変換された文字列は画像ＩＤと共に図４（ｃ）に示すような形式に加工される。音声データ解析部２０２は、加工後のデータを画像処理部２０３に送信する。

画像処理部２０３は、画像データ解析部２０１から受信したデータ（即ち図４（ａ）の形式のデータ）と、音声データ解析部２０２から受信したデータ（即ち図４（ｃ）の形式のデータ）と、を受信する。受信したデータについて、画像ＩＤがそれぞれ一致している図４（ａ）の形式のデータと図４（ｃ）の形式のデータとを結合し、図４（ｄ）に示す形式のデータにする。以上の処理をコマ数分行うことで、画像処理部２０３に渡されたデータは、図４（ｅ）に示すように、図４（ｄ）の形式のコマ数分のデータとして、不揮発性メモリ１０４に一時的に記憶される。

＜成果物について＞
以下、本実施形態で画像処理装置１００が作成する成果物におけるコマ割りと、最終的な成果物の一例とについて、図５（ａ）及び図５（ｂ）を用いて説明する。ユーザにより操作部２０４を介して設定された漫画のテーマに従って、例えば図５（ａ）に示されたようにコマ割りが行われ、更にコマ毎にＩＤが決定されている。このようにコマ割りされたコマ内に画像と文字列とが合成されたものが最終的な成果物である。図５（ｂ）は、画像処理装置１００による最終的な成果物の一例を示す。最終的な成果物は、ＵＩ部１０５内の表示部２０５に表示されたり、図示しないが印刷装置で印刷されたりして使用される。

＜画像処理について＞
以下、本実施形態における画像処理部２０３が実行する画像処理について、図６及び図８を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ１０４には、図４（ｅ）に示すような形式でコマ数分の画像が記憶されているものとする。

まず、ステップＳ６０１において、画像処理部２０３は、初期化を行う。具体的には、画像及びコマをカウントするための変数（画像カウンタｉとする）の値を１に設定するとともに、コマ数の閾値として用いる定数値（ＭＡＸ＿ＫＯＭＡとする）を設定する。ＭＡＸ＿ＫＯＭＡの設定では、操作部２０４を介するユーザ入力に従って決定した値が使われる。尚、以下では、「ステップＳ〜を」単純に「Ｓ〜」と略記する。

Ｓ６０２において、画像処理部２０３は、ｉ番目のコマ（コマ（ｉ）と表す）に対し、画像ＩＤ（ｉ）の静止画を適用する。ここで、画像ＩＤ（ｉ）とは、図４（ｄ）に示したテーブル内の画像ＩＤフィールドに保持されている値である。尚、静止画をコマに適用する際は、コマのサイズに合わせて対象の静止画をリサイズする。

Ｓ６０３において、画像処理部２０３は、Ｓ６０２でリサイズした静止画に画像処理を施し、漫画調に変換する。「漫画調に変換する」とは、例えば、カラー画像のグレースケール画像への変換等を指す。

Ｓ６０４において、画像処理部２０３は、ｉ番目の画像（注目画像とする）に対応する有効な音声が存在するか判定する。具体的には、画像処理部２０３は、図４（ｅ）に示したテーブルにおいて、画像ＩＤ（ｉ）に対応する有効な音声有無フィールドに保持されている値を読み出し、該読み出した値が有効な音声が存在することを示す値か判定する。本ステップの判定結果が真の場合、Ｓ６０５に進む一方、該判定結果が偽の場合、Ｓ６０６に進む。

注目画像に対応する有効な音声が存在する場合（Ｓ６０４でＹＥＳ）、Ｓ６０５において、画像処理部２０３は、文字列フィールド（図４（ｅ）参照）に保持されている文字列をラスタライズする。そして、ラスタライズの結果得られるビットマップ画像を、Ｓ６０３で漫画調に変換した静止画に合成する。

注目画像に対応する有効な音声が存在しない場合（Ｓ６０４でＮＯ）、Ｓ６０６において、画像処理部２０３は、画像ＩＤ（ｉ）に対応するテーマ情報の値を読み出し、この値に適した文字列を、不揮発性メモリ１０４に予め用意されたテーブルから検索する。前述の不揮発性メモリ１０４に記憶されているテーブルは、図８に例示するような構成になっている。

図８中に符号８０１で示すように、第一階層では、操作部２０４で選択され得る漫画のテーマ情報毎の分類が予めなされている。例えば、仮にテーマを「旅行」と設定したものとすると、第一階層にある分類のうち旅行の分類において、注目画像に対応するテーマ情報に合致するキーワードを第二階層から検索する。注目画像に対応するテーマ情報の値は、図４（ｅ）に示したテーブル内の画像のテーマ情報フィールドに保持されているので、これを利用する。注目画像のテーマ情報フィールドに値「風景（山）」が保持されている場合、第二階層にある風景（山）８０２がこの値に合致するため、風景（山）８０２に対応付けされている第三階層の文字列８０３が取得できる。Ｓ６０６で取得した文字列は、Ｓ６０７において、Ｓ６０５で行った処理と同様にラスタライズし、ビットマップ画像として静止画に合成する。

Ｓ６０８において、画像処理部２０３は、画像カウンタｉをインクリメントする。

Ｓ６０９において、画像処理部２０３は、コマ数分の処理を行ったか（未処理の画像がないか）判定する。具体的には、画像処理部２０３は、画像カウンタｉの値がＭＡＸ＿ＫＯＭＡの値より大きいか判定する。本ステップの判定結果が真の場合、コマ数分の処理を行ったとみなし、一連の処理を終了する。一方、本ステップの判定結果が偽の場合、Ｓ６０２に戻る。

以上説明したように、本実施形態によると、動画内から選択された静止画の前または後の音声が無音または無音に近い場合に、不自然な文字列が合成されることを防ぎ、従来技術より高付加価値の成果物をユーザに提供可能となる。

［第２の実施形態］
＜画像処理装置の構成について＞
以下、本実施形態における画像処理装置の構成について、図２（ｂ）を用いて説明する。図２（ｂ）は、本実施形態における画像処理装置の機能構成とモジュール間のデータフローとを示すブロック図である。尚、以下では、既述の実施形態との差分について主に説明し、既述の実施形態と同様の要素については、同じ符号を付して、説明を適宜省略する。

ユーザは、操作部２０４を介して、作成する動画のテーマと動画データを入力し、画像処理装置１００のＣＰＵ１０１がそのユーザ入力を受信した場合、文字列が合成された動画の作成を開始する。

ユーザによる操作部２０４に対する操作を契機とする合成動画の作成が開始された場合、動画データ取得部２００は、不揮発性メモリ１０４から動画データを取得し、該取得した動画データを画像データ解析部２０１に送信する。画像データ解析部２０１は、動画データ取得部２００から動画データを受信し、動画を一定時間単位、例えば５秒単位で分割して音声データ解析部２０２に送信する。また、画像データ解析部２０１は、この分割した一定時間単位の動画について、更に一定フレーム単位、例えば図３（ａ）のように、２０フレーム毎に静止画に分割した上で、該分割した静止画それぞれのデータ解析を行い、各静止画に対するスコア化を行う。そして、画像データ解析部２０１は、スコア化された静止画のうち最もスコアが高い静止画の特徴解析を行い、画像のテーマを決定する。そして、画像データ解析部２０１は、決定したテーマの情報を、前述の一定時間単位（本例では５秒単位）で分割した動画データに付与して画像処理部２０３に送信する。つまり、画像処理部２０３に送信されるデータは図４（ｇ）に示すように加工されたデータであり、音声データ解析部２０２に送信されるデータは図４（ｂ）に示すように加工されたデータである。尚、前述した静止画の特徴解析ないし画像のテーマ決定の方法として、例えば特開２０１７−５９２４５号公報に記載された方法を採用することができる。また、前述の処理、即ち、動画データを音声データ解析部２０２に送信し、テーマ情報付き動画データを画像処理部２０３に送信する処理については、動画データの総時間分、例えば動画データが６０秒であれば５秒単位で１２回繰り返して実行される。

音声データ解析部２０２は、受信した動画データから音声データを抽出する。抽出した音声データについて、音声の音量値がサンプリング期間（本実施例では５秒間）の全てにおいて所定の閾値未満である場合は有効な音声がなかったとみなし、有効な音声がなかったことを示す情報を画像ＩＤと共に画像処理部２０３に送信する。一方、音声の音量値がサンプリング期間中のどこかにおいて所定の閾値以上だった場合は、抽出した音声データに対する音声認識を実行することにより、音声を文字列に変換する文字列変換を行う。文字列変換の際には、前述の静止画の前後の動画データの音声が文章の途中から開始されたこと等が原因で、単語や文章として認識できなかった部分は削除される一方、単語や文章として認識できた部分は、文字列に変換される。変換された文字列は画像ＩＤと共に図４（ｃ）に示すような形式に加工される。音声データ解析部２０２は、加工後のデータを画像処理部２０３に送信する。

画像処理部２０３は、画像データ解析部２０１から受信したデータ（即ち図４（ｇ）の形式のデータ）と、音声データ解析部２０２から受信したデータ（即ち図４（ｃ）の形式のデータ）と、を受信する。受信したデータについて、画像ＩＤがそれぞれ一致している図４（ｇ）の形式のデータと図４（ｃ）の形式のデータとを結合し、図４（ｆ）に示す形式のデータにする。以上の処理を動画データの総時間分（本実施例では１２回）行うことで、画像処理部２０３に渡されたデータは、図４（ｈ）に示すように、図４（ｆ）の形式のデータが１２回分不揮発性メモリ１０４に一時的に記憶される。一時記憶されたデータは後述する画像処理部２０３の処理によって結合され、元の時間分の動画となって不揮発性メモリ１０４に記憶される。

＜成果物について＞
以下、本実施形態で画像処理装置１００が作成する最終的な成果物の一例について、図５（ｃ）を用いて説明する。図５（ｃ）に示すように、一定時間毎（本例では５秒毎）の動画に文字列が合成された一連の動画が最終的な成果物である。最終的な成果物は、ＵＩ部１０５内の表示部２０５に表示されたりして使用される。

＜画像処理について＞
以下、本実施形態における画像処理部２０３が実行する画像処理について、図７及び図８を用いて説明する。尚、以下の処理を開始する前提として、不揮発性メモリ１０４には、図４（ｈ）に示すような形式で動画の総時間分の分割動画が記憶されているものとする。

まず、Ｓ７０１において、画像処理部２０３は、初期化を行う。具体的には、動画をカウントするための変数（動画カウンタiとする）の値を１に設定するとともに、動画数の閾値として用いる定数値（ＭＡＸ＿ＣＮＴとする）を設定する。ＭＡＸ＿ＣＮＴの値として、動画の総時間を分割動画の時間（単位時間）で割った値が使われる。

Ｓ７０２において、画像処理部２０３は、図４（ｈ）に示したテーブルにおいて、画像ＩＤ（ｉ）に対応する有効な音声有無フィールドに保持されている値を読み出し、該読み出した値が有効な音声が存在することを示す値か判定する。本ステップの判定結果が真の場合、Ｓ７０３に進む一方、該判定結果が偽の場合、Ｓ７０４に進む。

有効な音声があると判定された場合（Ｓ７０２でＹＥＳ）、Ｓ７０３において、画像処理部２０３は、文字列フィールド（図４（ｈ）参照）に保持されている文字列をラスタライズする。そして、ラスタライズの結果得られるビットマップ画像を、注目の分割動画（画像ＩＤ（ｉ）の動画）に合成する。

有効な音声がないと判定された場合（Ｓ７０２でＮＯ）、Ｓ７０４において、画像処理部２０３は、画像ＩＤ（ｉ）のテーマ情報の値を読み出し、該読み出した値に適した文字列を、不揮発性メモリ１０４に予め記憶されているテーブルから検索する。前述の不揮発性メモリ１０４に記憶されているテーブルは、図８に例示するような構成になっている。

Ｓ７０４で取得した文字列は、Ｓ７０５において、Ｓ７０３で行った処理と同様にラスタライズし、ビットマップ画像として注目の分割動画に合成する。

Ｓ７０６において、画像処理部２０３は、動画カウンタｉをインクリメントする。

Ｓ７０７において、画像処理部２０３は、文字列が合成された注目の分割動画（画像ＩＤ（ｉ）の動画）を、これまでにＳ６０２〜Ｓ６０９の処理が施された分割動画をつなぎ合わせた動画に対して結合する。Ｓ７０７の処理は、複数の分割動画を１つの動画にまとめる目的で行われる。

Ｓ７０８において、画像処理部２０３は、動画の総時間分の処理を行ったか、言い換えると、未処理の分割動画がないか判定する。具体的には、画像処理部２０３は、動画カウンタｉの値がＭＡＸ＿ＣＮＴの値より大きいか判定する。本ステップの判定結果が真の場合、動画の総時間分の処理を行ったとみなし、一連の処理を終了する。一方、本ステップの判定結果が偽の場合、Ｓ７０２に戻る。

以上説明したように、本実施形態によると、動画内の一定時間における音声状態が無音または無音に近い場合に、不自然な文字列が合成されることを防ぎ、従来技術より高付加価値の成果物をユーザに提供可能となる。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像処理装置
１０１ＣＰＵ
２０３画像処理部

Claims

複数のフレームから成る動画から、１フレームの静止画である画像を選択する選択手段と、
前記選択された画像に対応する１フレームの前または後の一定時間における音声を抽出する抽出手段と、
前記選択手段により選択された画像に対し文字列を合成する合成手段と、
を有する画像処理装置であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理装置。
前記抽出手段により抽出された音声を文字列に変換する変換手段を更に有し、
前記音量値が前記所定の閾値以上の場合、前記合成手段は、前記変換手段による変換により取得された文字列を、前記選択された画像に対し合成することを特徴とする請求項１に記載の画像処理装置。
前記選択された画像を解析して、該画像のテーマを決定する決定手段と、
画像のテーマの各値と文字列とが対応付けられたテーブルと、
前記決定手段により決定されたテーマに対応する文字列を、前記テーブルにおいて検索する検索手段と、
を更に有することを特徴とする請求項２に記載の画像処理装置。
前記音量値が前記所定の閾値より小さい場合、前記合成手段は、前記検索手段によって検索された文字列を前記選択された画像に対し合成することを特徴とする請求項３に記載の画像処理装置。
複数のフレームから成る動画から、１フレームの静止画である画像を選択する選択手段と、
前記選択された画像に対応する１フレームの前または後の一定時間における音声を抽出する抽出手段と、
前記選択手段により選択された画像に対し文字列を合成する合成手段と、
を有する画像処理装置であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成手段は、予め用意された文字列を、該前または後の一定時間の動画に対し合成することを特徴とする画像処理装置。
複数のフレームから成る動画から、１フレームの静止画である画像を選択する選択ステップと、
前記選択された画像に対応する１フレームの前または後の一定時間における音声を抽出する抽出ステップと、
前記選択された画像に対し文字列を合成する合成ステップと、
を有する画像処理方法であって、
前記前または後の一定時間における音声の音量値が所定の閾値より小さい場合、前記合成ステップにおいて、予め用意された文字列を前記選択された画像に対し合成することを特徴とする画像処理方法。
コンピュータに請求項６に記載の方法を実行させるためのプログラム。