JP2007225952A - 画像処理装置および画像処理のプログラム - Google Patents
画像処理装置および画像処理のプログラム Download PDFInfo
- Publication number
- JP2007225952A JP2007225952A JP2006047802A JP2006047802A JP2007225952A JP 2007225952 A JP2007225952 A JP 2007225952A JP 2006047802 A JP2006047802 A JP 2006047802A JP 2006047802 A JP2006047802 A JP 2006047802A JP 2007225952 A JP2007225952 A JP 2007225952A
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- image
- image processing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【解決手段】 制御部1は、webページ取得部10によって、ネットワークから得られるwebページに含まれている画像情報をHTML解析部11および画像データ解析部12によって解析し、画像情報から抽出した文字列をキーワードリスト保存部13に登録する。そして、音声入力部5から入力された音声がキーワードリスト保存部13に登録されているいずれかの文字列と一致するか否かを音声認識部6によって判断して、一致すると判断した場合には、文字描画部7によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部8によって合成して新たな画像情報を生成する。
【選択図】 図1
Description
ある提案によるスーパーインポーズシステムにおいては、マイクから入力された1つの言語(例えば、英語)の音声を音声処理部で認識して、他の言語(例えば、日本語)の文字に変換する文字変換部によって変換された文字を、ビデオカメラで撮影した画像に重畳する構成が記載されている。(特許文献1参照)
また、別の提案による音声認識装置および音声認識プログラムにおいては、入力音声をスペクトル分析して音響特徴量を出力する音声認識によって、間投詞、間投助詞などを不要語として不要語区間を識別し、不要語以外とは異なる態様で表示する構成が記載されている。さらに、表示された文字列の中で、不要語と思われる文字列を不要語候補として使用者が指定できる構成が記載されている。(特許文献2参照)
本発明は、このような従来の課題を解決するためのものであり、入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換することを目的とする。
さらにこの場合において、請求項3に記載したように、情報抽出手段は、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項5に記載したように、情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項8に記載したように、ステップAは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出するような構成にしてもよい。
さらにこの場合において、請求項10に記載したように、ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出するような構成にしてもよい。
図1は、実施形態の画像処理装置のシステム構成を示す概略ブロック図である。図1において、制御部1は、CPU、プログラムROM、ワークRAMなど(図示せず)を有し、プログラムROMに予め格納されている画像処理のプログラムを実行し、処理する種々のデータをワークRAMに一時的に記憶して、システムバス2に接続されている下記の各部との間にデータおよびコマンドを授受しながら、この画像処理装置を制御する。
映像入力部3は、外部からの映像情報、例えば、衛星デジタルテレビ放送、地上波デジタル放送、ケーブルテレビ放送などから入力される映像情報を取り込んで、1画面の画像情報に展開して出力する。表示部4は、映像入力部3から出力された画像情報、又は、後述する文字合成部8によって合成された画像情報を表示する。音声入力部5は、上記映像情報と共に外部から入力される音声情報を取り込む。音声認識部6は、音声入力部5から入力された音声情報に対する音声認識処理を行って、その音声情報を文字情報に変換して出力する。文字描画部7は、音声認識部6から出力された文字情報に基づいて、ビットマップの文字画像を生成して出力する。文字合成部8は、文字描画部7から出力された文字画像と、映像入力部3から出力された画像情報とを合成して、表示部4に表示させる。記録部9は、ハードディスク装置やDVD装置などで構成され、文字合成部8で合成された画像情報を記録する。
図2は、キーワード自動挿入開始のフローチャートである。まず、webページ取得部10によって、商品の宣伝をしているwebページの取得を行う(ステップS201)。ここでは、携帯電話装置の宣伝をしている静止画のwebページの取得を行うものとする。次に、取得したwebページを解析して、文字の色や大きさ情報を持つキーワードリストを作成する(ステップS202)。
図4は、ステップS301におけるHTMLタグ解析処理の詳細な動作を示すフローチャートである。webページの中に、評価を行っていないタグ付けされた文字列があるか否かを判別し(ステップS401)、評価を行っていない文字列がある場合には、まだ評価を行っていないタグ付けされた文字列を取り出す(ステップS402)。webページを表すページ記述言語であるHTMLでは、例えば、ページのタイトルは、2つのタグ<TITLE>および</TITLE>の間に存在する。HTMLの情報には文字の大きさや文字色のデータも含まれている。次に、取り出した文字列は一定の大きさ以上であるか否かを判別する(ステップS403)。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさと共に、キーワードリスト保存部13に登録する(ステップS404)。そして、ステップS401に移行し、評価を行っていないタグ付けされた文字列がある場合には、ステップS402ないしS404の処理を繰り返す。評価を行っていないタグ付けされた文字列が残っていない場合には、図3のフローチャートに戻る。
図5は、ステップS302における画像データ解析処理の詳細な動作を示すフローチャートである。webページの中に、評価を行っていない画像データがあるか否かを判別し(ステップS501)、評価を行っていない画像データがある場合には、まだ評価を行っていない画像データを取り出す(ステップS502)。そして、取り出した画像データを文字認識する(ステップS503)。なお、画像データ解析のためには、新たに解析ソフトウェアを開発してもよいが、インターネットから無料又は有料で取得できる形態素解析ソフトウェアなどを用いてもよい。次に、文字認識によって画像データから文字列を抽出できたか否かを判別し(ステップS504)、抽出できたときは、取り出した文字列は一定の大きさ以上であるか否かを判別する(ステップS505)。取り出した文字列が一定の大きさ以上である場合には、解析データである文字色、文字の大きさ共に、キーワードリスト保存部13に登録する(ステップS506)。そして、ステップS501に移行し、評価を行っていない画像データがある場合には、ステップS502ないしS506の処理を繰り返す。評価を行っていない画像データが残っていない場合には、図2のフローチャートに戻る。
したがって、入力される音声を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字列に変換できる。そして、映像と文字画像とを合成した合成画像は、表示部4で表示できるとともに、記録部9に記録することができる。新たに編集した合成画像は、商品の物流システムの販売のためのホームページの作成に利用することや、チラシとして印刷することができる。
ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップAと、画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップBと、前記ステップBによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップCと、をコンピュータに実行させる。
さらにこの場合において、ステップAは、ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする。
さらにこの場合において、ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする。
3 映像入力部
4 表示部
5 音声入力部
6 音声認識部
7 文字描画部
8 文字合成部
9 記録部
10 webページ取得部
11 HTML解析部
12 画像データ解析部
13 キーワードリスト保存部
Claims (10)
- ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶する情報抽出手段と、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行う音声認識手段と、
前記音声認識手段によって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を生成する画像生成手段と、
を備えた画像処理装置。 - 前記情報抽出手段は、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項1に記載の画像処理装置。
- 前記情報抽出手段は、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項2に記載の画像処理装置。
- 前記情報抽出手段は、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項1に記載の画像処理装置。
- 前記情報抽出手段は、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項4に記載の画像処理装置。
- ネットワークから得られる情報に含まれている画像情報から抽出した文字情報を記憶手段に記憶するステップAと、
画像情報とともに入力された音声情報が前記記憶手段に記憶されているいずれかの文字情報と一致するか否かを判断して、当該音声情報に対する音声認識処理を行うステップBと、
前記ステップBによって一致すると判断された文字情報および認識された音声情報に対応する画像情報とを合成して新たな画像情報を編集するステップCと、
をコンピュータに実行させる画像処理のプログラム。 - 前記ステップAは、ネットワークから得られる情報を表すためのページ記述言語の符号によって解析した画像情報の中の文字を抽出することを特徴とする請求項6に記載の画像処理のプログラム。
- 前記ステップAは、前記ページ記述言語の符号によって解析した所定サイズ以上の文字および又は特定の色の文字を抽出することを特徴とする請求項7に記載の画像処理のプログラム。
- 前記ステップAは、ネットワークから得られる情報に含まれている画像を解析して特定される文字を抽出することを特徴とする請求項6に記載の画像処理のプログラム。
- 前記ステップAは、画像に含まれている文字のサイズ、文字の色、若しくは文字の形式、又はこれらの組合せに応じて解析した特定の文字を抽出することを特徴とする請求項9に記載の画像処理のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006047802A JP4910420B2 (ja) | 2006-02-24 | 2006-02-24 | 画像処理装置および画像処理のプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006047802A JP4910420B2 (ja) | 2006-02-24 | 2006-02-24 | 画像処理装置および画像処理のプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007225952A true JP2007225952A (ja) | 2007-09-06 |
JP4910420B2 JP4910420B2 (ja) | 2012-04-04 |
Family
ID=38547830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006047802A Expired - Fee Related JP4910420B2 (ja) | 2006-02-24 | 2006-02-24 | 画像処理装置および画像処理のプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4910420B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1175044A (ja) * | 1997-08-27 | 1999-03-16 | Casio Comput Co Ltd | 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置 |
JP2002041081A (ja) * | 2000-07-28 | 2002-02-08 | Sharp Corp | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
JP2003233390A (ja) * | 2002-02-07 | 2003-08-22 | Ricoh Co Ltd | 情報端末機器 |
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
JP2005150841A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 情報処理方法及び情報処理装置 |
JP2005175988A (ja) * | 2003-12-12 | 2005-06-30 | Canon Inc | スーパーインポーズシステム |
WO2005122143A1 (ja) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置および音声認識方法 |
-
2006
- 2006-02-24 JP JP2006047802A patent/JP4910420B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1175044A (ja) * | 1997-08-27 | 1999-03-16 | Casio Comput Co Ltd | 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置 |
JP2002041081A (ja) * | 2000-07-28 | 2002-02-08 | Sharp Corp | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
JP2003233390A (ja) * | 2002-02-07 | 2003-08-22 | Ricoh Co Ltd | 情報端末機器 |
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
JP2005150841A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 情報処理方法及び情報処理装置 |
JP2005175988A (ja) * | 2003-12-12 | 2005-06-30 | Canon Inc | スーパーインポーズシステム |
WO2005122143A1 (ja) * | 2004-06-08 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4910420B2 (ja) | 2012-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4459267B2 (ja) | 辞書データ生成装置及び電子機器 | |
JP4478939B2 (ja) | 音声処理装置およびそのためのコンピュータプログラム | |
US8645121B2 (en) | Language translation of visual and audio input | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
CN110035326A (zh) | 字幕生成、基于字幕的视频检索方法、装置和电子设备 | |
CN105704538A (zh) | 一种音视频字幕生成方法及系统 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
JP2010157241A (ja) | Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体 | |
US9666211B2 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
CN114390220A (zh) | 一种动画视频生成方法及相关装置 | |
US20110243447A1 (en) | Method and apparatus for synthesizing speech | |
JP2009301248A (ja) | 言語処理装置 | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
US10923106B2 (en) | Method for audio synthesis adapted to video characteristics | |
CN107066438A (zh) | 一种文本编辑方法及装置,电子设备 | |
KR101001796B1 (ko) | 동영상을 이용한 광고 방법 및 시스템 | |
JP4200874B2 (ja) | 感性情報推定方法および文字アニメーション作成方法、これらの方法を用いたプログラム、記憶媒体、感性情報推定装置、文字アニメーション作成装置 | |
JP4910420B2 (ja) | 画像処理装置および画像処理のプログラム | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
CN113709521B (zh) | 一种根据视频内容自动匹配背景的系统 | |
JP4769086B2 (ja) | 声質変換吹替システム、及び、プログラム | |
JP2019061428A (ja) | 映像管理方法、映像管理装置、及び映像管理システム | |
JP6378964B2 (ja) | 手話cg生成装置及び手話cg生成プログラム | |
JP2003018462A (ja) | 文字挿入装置および文字挿入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4910420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |