JP5840130B2 - テキストを含む映像領域の前処理方法及びシステム - Google Patents
テキストを含む映像領域の前処理方法及びシステム Download PDFInfo
- Publication number
- JP5840130B2 JP5840130B2 JP2012533742A JP2012533742A JP5840130B2 JP 5840130 B2 JP5840130 B2 JP 5840130B2 JP 2012533742 A JP2012533742 A JP 2012533742A JP 2012533742 A JP2012533742 A JP 2012533742A JP 5840130 B2 JP5840130 B2 JP 5840130B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- image
- video
- binarized
- video region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000007781 pre-processing Methods 0.000 title claims description 18
- 238000012015 optical character recognition Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
a.テキストを含む映像領域内のテキスト画像を位置特定し、
b.テキストを含む映像領域内の認識されたテキストをさらに高解像度化し、
c.高解像度化したテキスト画像を2値化し、
d.2値化したテキスト画像の少なくとも2つの接触文字を分割し、
e.光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する、コンピュータに実装したステップによって前処理される。
a.テキスト画像を位置特定し、位置特定されたテキスト画像をさらに高解像度化したのち2値化し、2値化したテキスト画像の少なくとも2つの接触文字を分割し、OCRに対する改善した入力として分割したテキスト画像からキーワードをさらに識別することを可能にする少なくとも1つの画像処理装置と、
b.前処理されたテキスト入力を認識するための少なくとも1つの光学文字認識装置と、
c.前処理されたテキストを含む映像領域を保存するために互いに通信接続される、少なくとも1つのデジタル記憶装置及び記憶要素とを含む。
Claims (15)
- 光学文字認識入力を改善するために、コンピュータに実装したステップによって、テキストを含む映像領域内の複数のフレームを前処理する方法であって、
a.テキストを含む映像領域内の複数のフレーム内のテキスト画像の位置を特定し、
b.テキストを含む映像領域内の位置特定したテキスト画像を、6タップの有限インパルス応答フィルターを適用して縦横に2回拡大すると共に、補間法を適用してさらに縦横に2回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、
c.高解像度化したテキスト画像を、テキスト画像の前景部と背景部とを分離する適応閾値法によって2値化し、
d.2値化したテキスト画像の少なくとも2つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、2値化した画像内の各文字の幅を計算し、2値化した画像内の平均文字幅を決定し、2値化した画像内の文字幅の標準偏差を計算し、2値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、2値化したテキスト画像の少なくとも2つの接触文字を分割し、
e.光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する
ことを特徴とするテキストを含む映像領域の前処理方法。 - テキストを含む映像領域内のテキストが、
a.輝度の直流成分を用いて、テキストを含む映像領域内のコントラストの高いマクロブロックを見つけ出し、
b.強い垂直な輪郭線を有するテキストを含む映像領域内のマクロブロックを見つけ出し、
c.テキストの特徴を満たさないテキストを含む映像領域内のマクロブロックを除外し、
d.テキストを含む映像領域内の鏡面候補マクロブロックを除外し、
e.テキストを含む映像領域内のテキスト領域をマークし、
f.テキストを含む映像領域内のテキスト画像を認識するために、各候補テキスト領域の画面レイアウトを検出して、
コンピュータに実装したステップによって位置特定される
請求項1に記載の方法。 - 分割したテキスト画像からのキーワードが、
a.テキストを含む映像領域内の分割したテキスト画像から文字が全て大文字であるキーワードを選択し、
b.テキストを含む映像領域内の分割したテキスト画像について、テキスト行あたりの語数を求め、
c.テキスト行あたりの語数が所定の閾値を超える場合に、そのテキスト行が候補キーワードであるとみなし、
d.候補キーワードからストップワードを除外し、
e.候補キーワードの残りの単語を連結して検索文字列を生成し、
f.光学文字認識の性能を改善するために、検索文字列として連結されたキーワードを使用して、
コンピュータに実装したステップによって識別される
請求項1に記載の方法。 - ストップワードが、a、an、the、for、ofを含む冠詞または前置詞から成る群から選択される
請求項3に記載の方法。 - 分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
請求項1に記載の方法。 - 前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはRSSフィード上でそのテキストに関連する追加情報を検索するために使用される
請求項1に記載の方法。 - 前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
請求項6に記載の方法。 - 前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイルに保存される
請求項7に記載の方法。 - テキストを含む映像領域に関連して処理され、検索され、読み出され、表示された追加情報が、テレビ視聴時のニュースに関連するものである
請求項5に記載の方法。 - ニュースが、速報及びティッカーニュースから成る群から選択される
請求項9に記載の方法。 - 光学文字認識入力を改善するために、テキストを含む映像領域を前処理するシステムであって、
a.テキスト画像を位置特定し、位置特定されたテキスト画像を、6タップの有限インパルス応答フィルターを適用して縦横に2回拡大すると共に、補間法を適用してさらに縦横に2回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、高解像度化後に、テキスト画像の前景部と背景部とを分離する適応閾値法によって2値化し、2値化後に2値化したテキスト画像の少なくとも2つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、2値化した画像内の各文字の幅を計算し、2値化した画像内の平均文字幅を決定し、2値化した画像内の文字幅の標準偏差を計算し、2値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、2値化したテキスト画像の少なくとも2つの接触文字を分割し、光学的文字認識に対する改善された入力として分割したテキスト画像からキーワードを識別可能にする少なくとも1つの画像処理装置と、
b.前処理されたテキスト入力を認識するための少なくとも1つの光学文字認識装置と、
c.前処理されたテキストを含む映像領域を保存するために互いに通信接続される少なくとも1つのデジタル記憶装置及び記憶要素と、を備える
ことを特徴とするテキストを含む映像領域の前処理システム。 - 分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
請求項11に記載のシステム。 - 前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはRSSフィード上でテキストに関連する追加情報を検索するために使用される
請求項11に記載のシステム。 - 前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
請求項13に記載のシステム。 - 前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイル形式でデジタル記憶装置に保存される
請求項14に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN3039MU2009 | 2009-12-31 | ||
IN3039/MUM/2009 | 2009-12-31 | ||
PCT/IN2010/000864 WO2011080763A1 (en) | 2009-12-31 | 2010-12-29 | A method and system for preprocessing the region of video containing text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013508798A JP2013508798A (ja) | 2013-03-07 |
JP5840130B2 true JP5840130B2 (ja) | 2016-01-06 |
Family
ID=44009799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012533742A Active JP5840130B2 (ja) | 2009-12-31 | 2010-12-29 | テキストを含む映像領域の前処理方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8989491B2 (ja) |
EP (1) | EP2471025B1 (ja) |
JP (1) | JP5840130B2 (ja) |
CN (1) | CN102511048B (ja) |
WO (1) | WO2011080763A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8724928B2 (en) | 2009-08-31 | 2014-05-13 | Intellectual Ventures Fund 83 Llc | Using captured high and low resolution images |
WO2013054348A2 (en) * | 2011-07-20 | 2013-04-18 | Tata Consultancy Services Limited | A method and system for differentiating textual information embedded in streaming news video |
CN103186780B (zh) * | 2011-12-30 | 2018-01-26 | 乐金电子(中国)研究开发中心有限公司 | 视频字幕识别方法及装置 |
WO2013164849A2 (en) * | 2012-04-12 | 2013-11-07 | Tata Consultancy Services Limited | A system and method for detection and segmentation of touching characters for ocr |
US9645985B2 (en) * | 2013-03-15 | 2017-05-09 | Cyberlink Corp. | Systems and methods for customizing text in media content |
MX349609B (es) | 2013-09-13 | 2017-08-04 | Arris Entpr Llc | Segmentacion de contenido de video basado en contenido. |
US9762950B1 (en) | 2013-09-17 | 2017-09-12 | Amazon Technologies, Inc. | Automatic generation of network pages from extracted media content |
US9377949B2 (en) * | 2013-09-27 | 2016-06-28 | Xiaomi Inc. | Method and terminal device for selecting character |
US9251614B1 (en) * | 2014-08-29 | 2016-02-02 | Konica Minolta Laboratory U.S.A., Inc. | Background removal for document images |
CN106161873A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种视频信息提取推送方法及系统 |
CN106162328A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种视频同步信息展示方法及系统 |
CN109165647A (zh) * | 2018-08-22 | 2019-01-08 | 北京慕华信息科技有限公司 | 一种图像中文本信息量的计算方法及装置 |
CN111491177A (zh) * | 2019-01-28 | 2020-08-04 | 上海博泰悦臻电子设备制造有限公司 | 视频信息提取方法及其装置、系统 |
US11386687B2 (en) * | 2020-03-30 | 2022-07-12 | Wipro Limited | System and method for reconstructing an image |
KR102435962B1 (ko) * | 2021-11-03 | 2022-08-25 | 렉스젠(주) | 영상을 이용한 정보 분석 시스템 및 그에 관한 방법 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04276885A (ja) * | 1991-03-04 | 1992-10-01 | Sumitomo Electric Ind Ltd | 文字切出し装置 |
US20020049832A1 (en) | 1996-03-08 | 2002-04-25 | Craig Ullman | Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments |
US6766528B1 (en) | 1999-01-27 | 2004-07-20 | Lg Electronics Inc. | Apparatus and method for displaying additional information |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
US20020083464A1 (en) | 2000-11-07 | 2002-06-27 | Mai-Ian Tomsen | System and method for unprompted, context-sensitive querying during a televison broadcast |
US20020188959A1 (en) | 2001-06-12 | 2002-12-12 | Koninklijke Philips Electronics N.V. | Parallel and synchronized display of augmented multimedia information |
DE60109278T2 (de) * | 2001-06-26 | 2006-03-30 | Nokia Corp. | Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera |
WO2003051031A2 (en) * | 2001-12-06 | 2003-06-19 | The Trustees Of Columbia University In The City Of New York | Method and apparatus for planarization of a material by growing and removing a sacrificial film |
KR20040100735A (ko) * | 2003-05-24 | 2004-12-02 | 삼성전자주식회사 | 영상보간장치 및 영상보간방법 |
JP2007006194A (ja) * | 2005-06-24 | 2007-01-11 | Matsushita Electric Ind Co Ltd | 画像復号再生装置 |
CN100517374C (zh) * | 2005-12-29 | 2009-07-22 | 佳能株式会社 | 从复杂背景文档图像提取文本的装置、方法 |
US7949192B2 (en) * | 2006-05-10 | 2011-05-24 | University Of Maryland, Baltimore | Techniques for converting analog medical video to digital objects |
TW200802137A (en) | 2006-06-16 | 2008-01-01 | Univ Nat Chiao Tung | Serial-type license plate recognition system |
KR100812347B1 (ko) | 2006-06-20 | 2008-03-11 | 삼성전자주식회사 | 스트록 필터를 이용한 문자 추출 방법 및 그 장치 |
CN100533466C (zh) * | 2006-06-29 | 2009-08-26 | 北大方正集团有限公司 | 一种字体识别方法及系统 |
JP4861845B2 (ja) * | 2007-02-05 | 2012-01-25 | 富士通株式会社 | テロップ文字抽出プログラム、記録媒体、方法及び装置 |
KR20090005681A (ko) | 2007-07-09 | 2009-01-14 | 삼성전자주식회사 | 영상표시장치 및 이를 이용한 정보 제공방법 |
JP2009130899A (ja) * | 2007-11-28 | 2009-06-11 | Mitsubishi Electric Corp | 画像再生装置 |
JP2009188886A (ja) * | 2008-02-08 | 2009-08-20 | Omron Corp | 情報処理装置および情報処理装置用のプログラム |
CN101251892B (zh) * | 2008-03-07 | 2010-06-09 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN101593276B (zh) * | 2008-05-29 | 2011-10-12 | 汉王科技股份有限公司 | 一种视频ocr图文分离方法及系统 |
US8320674B2 (en) * | 2008-09-03 | 2012-11-27 | Sony Corporation | Text localization for image and video OCR |
-
2010
- 2010-12-29 CN CN201080042059.7A patent/CN102511048B/zh active Active
- 2010-12-29 JP JP2012533742A patent/JP5840130B2/ja active Active
- 2010-12-29 EP EP10824255.3A patent/EP2471025B1/en active Active
- 2010-12-29 WO PCT/IN2010/000864 patent/WO2011080763A1/en active Application Filing
- 2010-12-29 US US13/395,754 patent/US8989491B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102511048B (zh) | 2015-08-26 |
US20120242897A1 (en) | 2012-09-27 |
EP2471025A1 (en) | 2012-07-04 |
US8989491B2 (en) | 2015-03-24 |
JP2013508798A (ja) | 2013-03-07 |
EP2471025B1 (en) | 2019-06-05 |
CN102511048A (zh) | 2012-06-20 |
WO2011080763A1 (en) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5840130B2 (ja) | テキストを含む映像領域の前処理方法及びシステム | |
CN108024145B (zh) | 视频推荐方法、装置、计算机设备和存储介质 | |
CN106921891B (zh) | 一种视频特征信息的展示方法和装置 | |
US20200195983A1 (en) | Multimedia stream analysis and retrieval | |
US9473448B2 (en) | System for social media tag extraction | |
US8457368B2 (en) | System and method of object recognition and database population for video indexing | |
US20130148898A1 (en) | Clustering objects detected in video | |
KR101644789B1 (ko) | 방송 프로그램 연관 정보 제공 장치 및 방법 | |
US8515933B2 (en) | Video search method, video search system, and method thereof for establishing video database | |
US8316014B2 (en) | Recording medium storing information attachment program, information attachment apparatus, and information attachment method | |
US10326829B2 (en) | Television key phrase detection | |
US20190007711A1 (en) | Named Entity Disambiguation for providing TV content enrichment | |
US8559724B2 (en) | Apparatus and method for generating additional information about moving picture content | |
US10965965B2 (en) | Detecting of graphical objects to identify video demarcations | |
CN112567416A (zh) | 用于处理数字视频的设备及方法 | |
US20200257724A1 (en) | Methods, devices, and storage media for content retrieval | |
US11483617B1 (en) | Automoted identification of product or brand-related metadata candidates for a commercial using temporal position of product or brand-related text or objects, or the temporal position and audio, in video frames of the commercial | |
Chattopadhyay et al. | Mash up of breaking news and contextual web information: a novel service for connected television | |
CN115080792A (zh) | 一种视频关联方法、装置、电子设备及存储介质 | |
CN115035509A (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
CN106951423B (zh) | 一种实现影视识别的方法和装置 | |
CN116887006A (zh) | 滚动字幕检测方法、装置、电子设备及存储介质 | |
Xu et al. | Integration of audio and video semantic features for news video scene segmentation | |
Ardizzone et al. | Keyword based Keyframe Extraction in Online Video Collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140530 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140623 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5840130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |