JP2007225952A

JP2007225952A - 画像処理装置および画像処理のプログラム

Info

Publication number: JP2007225952A
Application number: JP2006047802A
Authority: JP
Inventors: Katsunori Ishii; 克典石井
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-02-24
Filing date: 2006-02-24
Publication date: 2007-09-06
Anticipated expiration: 2026-02-24
Also published as: JP4910420B2

Abstract

【課題】入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換する。
【解決手段】制御部１は、ｗｅｂページ取得部１０によって、ネットワークから得られるｗｅｂページに含まれている画像情報をＨＴＭＬ解析部１１および画像データ解析部１２によって解析し、画像情報から抽出した文字列をキーワードリスト保存部１３に登録する。そして、音声入力部５から入力された音声がキーワードリスト保存部１３に登録されているいずれかの文字列と一致するか否かを音声認識部６によって判断して、一致すると判断した場合には、文字描画部７によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部８によって合成して新たな画像情報を生成する。
【選択図】図１

Description

本発明は、画像処理装置および画像処理のプログラムに関し、特に、音声認識に利用するための画像を処理する画像処理装置および画像処理のプログラムに関するものである。

音声情報を文字情報に変換して表示する技術としていくつか提案がなされている。
ある提案によるスーパーインポーズシステムにおいては、マイクから入力された１つの言語（例えば、英語）の音声を音声処理部で認識して、他の言語（例えば、日本語）の文字に変換する文字変換部によって変換された文字を、ビデオカメラで撮影した画像に重畳する構成が記載されている。（特許文献１参照）
また、別の提案による音声認識装置および音声認識プログラムにおいては、入力音声をスペクトル分析して音響特徴量を出力する音声認識によって、間投詞、間投助詞などを不要語として不要語区間を識別し、不要語以外とは異なる態様で表示する構成が記載されている。さらに、表示された文字列の中で、不要語と思われる文字列を不要語候補として使用者が指定できる構成が記載されている。（特許文献２参照）
特開２００５−１７５９８８号公報特開２００５−１６４６５６号公報

しかしながら、上記特許文献１のように、不特定多数の膨大な文字群の中から入力された音声に対応する文字を認識することは極めて困難であり、音声認識率は低い。また、音声認識の具体的な方法については記載されていないが、おそらくは特許文献２のように、入力音声をアナログからデジタルに変換し、スペクトル分析して音響特徴量を出力する方法であると考えられる。しかし、特許文献２に記載された「Baum-Weltch」のアルゴリズムなどで予め学習された音素ＨＭＭを登録した辞書に基づく音声認識についても、音声認識率は高くない。このため、特許文献２においても、不要語と予測された文字列を不要語以外の文字列とは異なる態様で表示し、使用者に最終的な判断を仰いでいる。さらに、使用者の操作によって不要語と思われる文字列を不要語候補として予め指定する必要がある。
本発明は、このような従来の課題を解決するためのものであり、入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換することを目的とする。

請求項１に記載の画像処理装置は、ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段（実施形態においては、図１のキーワードリスト保存部１３に相当する）に記憶する情報抽出手段（実施形態においては、図１の制御部１、ＨＴＭＬ解析部１１、および画像データ解析部１２に相当する）と、画像情報とともに入力された音声情報が記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行う音声認識手段（実施形態においては、図１の音声認識部６に相当する）と、音声認識手段によって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を生成する画像生成手段（実施形態においては、図１の文字合成部８に相当する）と、を備えた構成になっている。

請求項１の画像処理装置において、請求項２に記載したように、情報抽出手段は、ネットワークから得られる情報を表すためのページ記述言語の符号（実施形態においては、ＨＴＭＬのタグに相当する）によって解析した画像情報の中の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項３に記載したように、情報抽出手段は、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。

請求項１の画像処理装置において、請求項４に記載したように、情報抽出手段は、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項５に記載したように、情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。

請求項６に記載の画像処理のプログラムは、ネットワークから得られる情報（実施形態においては、ｗｅｂページに相当する）に含まれている画像情報から抽出した文字情報を記憶手段（実施形態においては、図１のキーワードリスト保存部１３に相当する）に記憶するステップＡ（実施形態においては、図１の制御部１、ＨＴＭＬ解析部１１、および画像データ解析部１２の処理に相当する）と、画像情報とともに入力された音声情報が記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップＢ（実施形態においては、図１の音声認識部６の処理に相当する）と、ステップＢによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップＣ（実施形態においては、図１の文字合成部８の処理に相当する）と、をコンピュータに実行させる構成になっている。

請求項６の画像処理のプログラムにおいて、請求項７に記載したように、ステップＡは、ネットワークから得られる情報を表すためのページ記述言語の符号（実施形態においては、ＨＴＭＬのタグに相当する）によって解析した画像情報の中の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項８に記載したように、ステップＡは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。

請求項６の画像処理のプログラムにおいて、請求項９に記載したように、ステップＡは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項１０に記載したように、ステップＡは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。

本発明の画像処理装置および画像処理のプログラムによれば、入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換できるという効果が得られる。

以下、本発明の画像処理装置の実施形態について、図１ないし図６を参照して説明する。
図１は、実施形態の画像処理装置のシステム構成を示す概略ブロック図である。図１において、制御部１は、ＣＰＵ、プログラムＲＯＭ、ワークＲＡＭなど（図示せず）を有し、プログラムＲＯＭに予め格納されている画像処理のプログラムを実行し、処理する種々のデータをワークＲＡＭに一時的に記憶して、システムバス２に接続されている下記の各部との間にデータおよびコマンドを授受しながら、この画像処理装置を制御する。

システムバス２には、映像入力部３、表示部４、音声入力部５、音声認識部６、文字描画部７、文字合成部８、記録部９、ｗｅｂページ取得部１０、ＨＴＭＬ解析部１１、画像データ解析部１２、およびキーワードリスト保存部１３が接続されている。
映像入力部３は、外部からの映像情報、例えば、衛星デジタルテレビ放送、地上波デジタル放送、ケーブルテレビ放送などから入力される映像情報を取り込んで、１画面の画像情報に展開して出力する。表示部４は、映像入力部３から出力された画像情報、又は、後述する文字合成部８によって合成された画像情報を表示する。音声入力部５は、上記映像情報と共に外部から入力される音声情報を取り込む。音声認識部６は、音声入力部５から入力された音声情報に対する音声認識処理を行って、その音声情報を文字情報に変換して出力する。文字描画部７は、音声認識部６から出力された文字情報に基づいて、ビットマップの文字画像を生成して出力する。文字合成部８は、文字描画部７から出力された文字画像と、映像入力部３から出力された画像情報とを合成して、表示部４に表示させる。記録部９は、ハードディスク装置やＤＶＤ装置などで構成され、文字合成部８で合成された画像情報を記録する。

ｗｅｂページ取得部１０は、インターネットなどのネットワークに接続する通信機能を有し、ネットワークからｗｅｂページを取得する。例えば、携帯電話装置などの宣伝のｗｅｂページを取得する。ＨＴＭＬ解析部１１は、ｗｅｂページ取得部１０によって取得されたｗｅｂページのページ記述言語であるＨＴＭＬ（Hyper Text Markup Language）を解析して、文字情報の解析データを出力する。画像データ解析部１２は、ｗｅｂページ取得部１０によって取得されたｗｅｂページの画像情報を解析して、文字情報の解析データを出力する。キーワードリスト保存部１３は、ＨＴＭＬ解析部１１、画像データ解析部１２から出力されたキーワードをデータベースとして保存する。

次に、図１の画像処理装置の動作について、制御部１によって実行される画像処理のプログラムのフローチャートに基づいて説明する。
図２は、キーワード自動挿入開始のフローチャートである。まず、ｗｅｂページ取得部１０によって、商品の宣伝をしているｗｅｂページの取得を行う（ステップＳ２０１）。ここでは、携帯電話装置の宣伝をしている静止画のｗｅｂページの取得を行うものとする。次に、取得したｗｅｂページを解析して、文字の色や大きさ情報を持つキーワードリストを作成する（ステップＳ２０２）。

図３は、ステップＳ２０２におけるキーワードリスト作成のフローチャートである。最初に、ＨＴＭＬ解析部１１によって、ｗｅｂページのＨＴＭＬのタグ「＜」および「＞」を解析して、タグに挟まれた文字の色、大きさ、キーワードをキーワードリスト保存部１３に登録する（ステップＳ３０１）。
図４は、ステップＳ３０１におけるＨＴＭＬタグ解析処理の詳細な動作を示すフローチャートである。ｗｅｂページの中に、評価を行っていないタグ付けされた文字列があるか否かを判別し（ステップＳ４０１）、評価を行っていない文字列がある場合には、まだ評価を行っていないタグ付けされた文字列を取り出す（ステップＳ４０２）。ｗｅｂページを表すページ記述言語であるＨＴＭＬでは、例えば、ページのタイトルは、２つのタグ＜ＴＩＴＬＥ＞および＜／ＴＩＴＬＥ＞の間に存在する。ＨＴＭＬの情報には文字の大きさや文字色のデータも含まれている。次に、取り出した文字列は一定の大きさ以上であるか否かを判別する（ステップＳ４０３）。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさと共に、キーワードリスト保存部１３に登録する（ステップＳ４０４）。そして、ステップＳ４０１に移行し、評価を行っていないタグ付けされた文字列がある場合には、ステップＳ４０２ないしＳ４０４の処理を繰り返す。評価を行っていないタグ付けされた文字列が残っていない場合には、図３のフローチャートに戻る。

図３のステップＳ３０１の後は、画像データ解析部１２によって、ｗｅｂページの画像データを解析し、文字の色、大きさ、キーワードをキーワードリスト保存部１３に登録する（ステップＳ３０２）。なお、画像データを解析は、ＨＴＭＬ解析でキーワードを抽出できなかった場合に実行してもよく、ＨＴＭＬ解析でキーワードを抽出できた場合でもさらに実行してもよい。
図５は、ステップＳ３０２における画像データ解析処理の詳細な動作を示すフローチャートである。ｗｅｂページの中に、評価を行っていない画像データがあるか否かを判別し（ステップＳ５０１）、評価を行っていない画像データがある場合には、まだ評価を行っていない画像データを取り出す（ステップＳ５０２）。そして、取り出した画像データを文字認識する（ステップＳ５０３）。なお、画像データ解析のためには、新たに解析ソフトウェアを開発してもよいが、インターネットから無料又は有料で取得できる形態素解析ソフトウェアなどを用いてもよい。次に、文字認識によって画像データから文字列を抽出できたか否かを判別し（ステップＳ５０４）、抽出できたときは、取り出した文字列は一定の大きさ以上であるか否かを判別する（ステップＳ５０５）。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさ共に、キーワードリスト保存部１３に登録する（ステップＳ５０６）。そして、ステップＳ５０１に移行し、評価を行っていない画像データがある場合には、ステップＳ５０２ないしＳ５０６の処理を繰り返す。評価を行っていない画像データが残っていない場合には、図２のフローチャートに戻る。

図２のステップＳ２０２の解析によって得られた文字色、文字の大きさとともに、キーワードリスト保存部１３に登録した後は、入力音声の音声認識を開始する（ステップＳ２０３）。そして、キーワードリスト保存部１３に登録してリストに設定されたキーワードが話されたか否かを判別し（ステップＳ２０４）、設定されたキーワードが話された場合には、商品紹介映像に文字を入れる。文字の色や大きさは、解析データを使用する（ステップＳ２０５）。この後はステップＳ２０４に移行して、設定されたキーワードが話されたか否かの判別処理を繰り返し、設定されたキーワードが話された場合には、ステップＳ２０５において商品紹介映像に文字を入れる処理を行う。ステップＳ２０４において、設定されたキーワードが話されない場合には、映像が終了したか否かを判別する（ステップＳ２０６）。映像が終了していない場合には、ステップＳ２０４およびステップＳ２０５のループ処理を繰り返す。映像が終了したときは、このフローチャートを終了する。

図６は、キーワードリスト保存部１３に登録されたキーワードリストを示している。図６に示すように、携帯電話装置の宣伝の文字列が文字の大きさおよび文字の色のデータと共に登録されている。ＨＴＭＬでは、文字の大きさは、「ｆｏｎｔ−ｓｉｚｅ」によって「１２ｐｔ」、「３６ｐｔ」のように表される。また、文字の色は、＃で始まる６桁のカラーコード、例えば、赤は「ＦＦ００００」、青は「＃００００ＦＦ」、緑は「＃００８０００」のように表され、又は、直接に色を表す文字データとして、「ｃｏｌｏｒ：ｒｅｄ」、「ｃｏｌｏｒ：ｂｌｕｅ」、「ｃｏｌｏｒ：ｇｒｅｅｎ」として示される。強調された文字列ほど文字が大きく、目立つ文字の色になっている。

以上のように、この実施形態によれば、制御部１は、ｗｅｂページ取得部１０によって、ネットワークから得られるｗｅｂページに含まれている画像情報をＨＴＭＬ解析部１１および画像データ解析部１２によって解析し、画像情報から抽出した文字列をキーワードリスト保存部１３に登録する。そして、音声入力部５から入力された音声がキーワードリスト保存部１３に登録されているいずれかの文字列と一致するか否かを音声認識部６によって判断して、一致すると判断した場合には、文字描画部７によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部８によって合成して新たな画像情報を生成する。
したがって、入力される音声を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字列に変換できる。そして、映像と文字画像とを合成した合成画像は、表示部４で表示できるとともに、記録部９に記録することができる。新たに編集した合成画像は、商品の物流システムの販売のためのホームページの作成に利用することや、チラシとして印刷することができる。

なお、上記実施形態においては、制御部１のプログラムＲＯＭにあらかじめ記憶された画像処理のプログラムを実行する装置の発明について説明したが、フレキシブルディスク（ＦＤ）、ＣＤ、メモリカードなどの外部記憶媒体に記録されている処理のプログラムをハードディスクやフラッシュＲＯＭなどの書き込み可能な不揮発性メモリにインストールするか、又は、インターネットなどのネットワークからダウンロードした処理のプログラムを不揮発性メモリにインストールして、そのプログラムを制御部１が実行することも可能である。この場合には、プログラムの発明やそのプログラムを記録した記録媒体の発明を実現できる。

すなわち、本発明による画像処理のプログラムは、
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップＡと、画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップＢと、前記ステップＢによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップＣと、をコンピュータに実行させる。

前記ステップＡは、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする。
さらにこの場合において、ステップＡは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする。

前記ステップＡは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする。
さらにこの場合において、ステップＡは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする。

本発明の実施形態における画像処理装置のシステム構成を示す概略ブロック図。図１の制御によって実行されるキーワード自動挿入開始のフローチャート。図２におけるキーワード作成処理のフローチャート。図３におけるＨＴＭＬタグ解析処理のフローチャート。図３における画像データ解析処理のフローチャート。図１のキーワードリスト保存部に登録された文字列リストの例を示す図。

符号の説明

１制御部
３映像入力部
４表示部
５音声入力部
６音声認識部
７文字描画部
８文字合成部
９記録部
１０ｗｅｂページ取得部
１１ＨＴＭＬ解析部
１２画像データ解析部
１３キーワードリスト保存部

Claims

ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶する情報抽出手段と、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行う音声認識手段と、
前記音声認識手段によって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を生成する画像生成手段と、
を備えた画像処理装置。
前記情報抽出手段は、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項１に記載の画像処理装置。
前記情報抽出手段は、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項２に記載の画像処理装置。
前記情報抽出手段は、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項１に記載の画像処理装置。
前記情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項４に記載の画像処理装置。
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップＡと、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップＢと、
前記ステップＢによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップＣと、
をコンピュータに実行させる画像処理のプログラム。
前記ステップＡは、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項６に記載の画像処理のプログラム。
前記ステップＡは、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項７に記載の画像処理のプログラム。
前記ステップＡは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項６に記載の画像処理のプログラム。
前記ステップＡは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項９に記載の画像処理のプログラム。