JP2008004116A - Method and device for retrieving character in video - Google Patents
Method and device for retrieving character in video Download PDFInfo
- Publication number
- JP2008004116A JP2008004116A JP2007201891A JP2007201891A JP2008004116A JP 2008004116 A JP2008004116 A JP 2008004116A JP 2007201891 A JP2007201891 A JP 2007201891A JP 2007201891 A JP2007201891 A JP 2007201891A JP 2008004116 A JP2008004116 A JP 2008004116A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- character string
- video
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、放送中の映像又はデータベース中の映像の検索技術に係り、特に映像中の文字を手掛かりとした検索が高速に行なえる映像の検索方法に関する。 The present invention relates to a technique for searching for a broadcast video or a video in a database, and more particularly to a video search method capable of performing a search using characters in a video as a clue.
映像において、字幕(画面中に嵌め込まれる文字、テロップとも云う)やフリップ(被写体として写される文字)などの文字情報は、それらが現れている場面の内容を端的に象徴する重要な情報の一つである。そのため、これら字幕が現れる箇所の検出や、字幕で使われている文字列テキストを対象にしたキーワード検索などの研究が精力的に進められている。 In video, text information such as subtitles (characters inserted in the screen, also called telop) and flips (characters copied as a subject) is one of important information that symbolizes the contents of the scene in which they appear. One. For this reason, researches such as detection of subtitles appearing and keyword search for character string text used in subtitles have been energetically advanced.
ここで、字幕の領域の検出に当たっては、(1)文字を形作る線図形部分が高輝度であること、(2)その文字部分と境界との間の輝度差が高く、それによってエッジが形成されると共に、それらエッジが文字近傍に多数存在すること、(3)文字領域は一定時間静止して存在すること、を前提とする手法が一般的である。また、キーワード検索のためには、上記で検出した文字領域を、文書処理で広く使われている文字認識によってASCII(American Standard Code for Information Interchange)やJIS(Japanese Industrial Standards)等の文字コードに変換し、そのコードを基に照合を行なう方法がある。 Here, in detecting the subtitle area, (1) the line figure part that forms the character has high luminance, and (2) the luminance difference between the character part and the boundary is high, thereby forming an edge. In addition, a technique is generally premised on the fact that there are a large number of these edges in the vicinity of the character, and (3) that the character region is stationary for a certain period of time. For keyword search, the character area detected above is converted into character codes such as ASCII (American Standard Code for Information Interchange) and JIS (Japanese Industrial Standards) by character recognition widely used in document processing. However, there is a method of performing collation based on the code.
これとは別に、文字の形状に着目して検索を行なう手法が開示されている。例えば、非特許文献1では、スキャナー等で読み取った印刷文書中から1文字1文字を切り出し、各々について形状特徴に基づくコードを決定して割り当てておき、一方、キーボード等から入力された文字列の各文字についても同様に同じコードを与えることで、それらコード間の照合を行なっている。
Separately from this, a technique for performing a search focusing on the shape of a character is disclosed. For example, in Non-Patent
上記非特許文献1の技術は、1文字毎にその形状に対してコードを対応づける点で、文字認識を簡略化したものと云える。この場合、一文字毎にどのようなコードを与えるかを前もって決める必要があり、同じ検索手法を他の言語に適用するためには、特徴量の割り当て方法を各言語に合わせて変える必要がある。
The technique of Non-Patent
また、1文字毎に特徴量を割り当てるために、1文字の切り出しが正しく行なわれることが前提となるが、無地の背景に文字をコントラスト高く印刷した文書等以外では満たし難い条件となっている。例えば、字幕の場合は、複雑背景上に重畳されていることが多く、また映像に特有の色の滲みで文字が繋がってしまうなど、1文字切り出しの精度を低下させる要因が極めて多い。 In addition, in order to assign a feature amount to each character, it is assumed that one character is cut out correctly, but this is a condition that is difficult to satisfy except for a document or the like in which characters are printed on a plain background with high contrast. For example, subtitles are often superimposed on a complex background, and there are very many factors that reduce the accuracy of single character extraction, such as characters being connected by a color blur peculiar to video.
このような印刷文書に限らず、通常、映像中にも、従来の字幕検出法では検出できない文字部分も少なからず存在する。例えば、インクで描かれた紙板をカメラで撮影するフリップ上の文字は、必ずしも特別に高輝度ではなく、そのため境界との輝度差も高いとは云えない。更に、最近の字幕挿入機器の高性能化に伴って、文字の色彩や形の自由度も高くなり、例えば、黒色などの低輝度の文字を縁取りして利用するケースも増えている。また、流れて消えていくタイプの字幕も少なくなく、字幕が必ずしも静止しているとも限らない。 In addition to such a printed document, there are usually not a few character parts that cannot be detected by the conventional caption detection method in a video. For example, characters on a flip where a paper board drawn with ink is photographed with a camera is not necessarily particularly high in brightness, and therefore, it cannot be said that the brightness difference from the boundary is high. Furthermore, along with the recent enhancement in performance of caption insertion devices, the degree of freedom of the color and shape of characters has increased, and for example, the use of low-luminance characters such as black has been increased. In addition, there are not a few types of subtitles that flow and disappear, and the subtitles are not necessarily stationary.
また、文字認識に基づくキーワード検索では、文字認識が言語や書体に依存するため、多国語あるいは異書体文字の検索を行なうためには、それぞれの言語や書体に適した認識手法を用意する必要がある。特に、映像中には、ニュースや紀行・語学番組等をはじめ、海外の様々な国の言葉が現れ、それらをキーワードにして検索を行ないたいケースも少なくない。しかし、各言語や書体の種類に合わせて、最適な文字認識手法を逐一導入することは、無駄が多い。
本発明の目的は、従来技術では検出が困難な字幕やフリップ等の文字列を検出可能にすると共に、それによって検出した文字列を、言語や書体に依存することなく共通の枠組みで検索可能にする映像中の文字検索方法及び装置を提供することにある。
In addition, in keyword search based on character recognition, character recognition depends on the language and typeface. Therefore, it is necessary to prepare a recognition method suitable for each language and typeface in order to search for multilingual or different typeface characters. is there. In particular, there are many cases in which videos from various countries, such as news, travel and language programs, appear in the video, and you want to search using them as keywords. However, it is wasteful to introduce an optimum character recognition method for each language and type of font.
The purpose of the present invention is to enable detection of character strings such as subtitles and flips, which are difficult to detect with the prior art, and to search the detected character strings in a common framework without depending on language or typeface. Another object of the present invention is to provide a method and an apparatus for searching for characters in video.
上記の目的を達成するため、本発明の映像中の文字検索方法は、映像を入力する工程と、入力した映像のフレーム画像から文字領域を形状の特徴に基づいて検出する工程と、該文字領域の第一の画像特徴を抽出する工程と、文字入力手段によって入力された検索対象の文字列を画像として描画する工程と、該文字列画像から第二の画像特徴を抽出する工程と、該第一の画像特徴と該第二の画像特徴とを照合して一致度を求める工程と、一致度が得られた文字列を含む該文字領域を出力する工程とを有することを特徴とする。 In order to achieve the above object, a character search method in a video according to the present invention includes a step of inputting a video, a step of detecting a character region from a frame image of the input video based on a feature of the shape, and the character region. Extracting a first image feature, a step of drawing a character string to be searched input by a character input means as an image, a step of extracting a second image feature from the character string image, The method includes a step of collating one image feature with the second image feature to obtain a matching degree, and a step of outputting the character region including the character string from which the matching degree is obtained.
このように、一文字一文字ではなく、文字の繋がった列が文字列画像として捉えられ、その文字列画像の形状に基づいて文字領域が検出されるので、従来困難であった高い輝度や大きな輝度差を持たない字幕やフリップの文字領域の検出が可能になる。また、検出がフレーム画像毎に行なわれるので、静止せず流れていく字幕等の文字領域を検出することができる。更に、検出した文字領域に対して文字列画像の有する画像特徴という共通の枠組みで照合が行なわれるので、精度の良い検索が可能になると共に、言語や書体に依存しない検索が可能になる。 In this way, instead of character by character, a sequence of connected characters is captured as a character string image, and a character region is detected based on the shape of the character string image. This makes it possible to detect subtitles and flip character areas that do not have. Further, since detection is performed for each frame image, it is possible to detect a character area such as a caption that flows without being stationary. Furthermore, since the detected character area is collated using a common framework of image features of the character string image, it is possible to perform a highly accurate search and a search that does not depend on language or typeface.
本発明によれば、文字単位ではなく文字列単位の照合によって検索を行なうので、ビデオ映像中の字幕やフリップ等の文字について、言語を問わず、文字認識なしに、任意の文字列が検索可能になる。また、複雑背景上に文字がある場合でも、即ち背景に多少のノイズがあっても安定して検索を行なうことができる。 According to the present invention, since a search is performed by collation in units of character strings rather than in units of characters, any character string can be searched for characters such as subtitles and flips in video images without character recognition regardless of language. become. In addition, even when there are characters on a complex background, that is, even if there is some noise on the background, the search can be performed stably.
以下、本発明に係る映像中の文字検索方法及び装置を幾つかの図面に示した発明の実施の形態を参照して更に詳細に説明する。 Hereinafter, a method and apparatus for searching characters in a video according to the present invention will be described in more detail with reference to embodiments of the invention shown in several drawings.
図1は、本発明の映像中の文字検索装置の一例を示した概略ブロック図である。
図1において、1は、検索処理を実行するコンピュータ、2は、コンピュータ1の出力画面を表示するCRT(Cathode Ray Tube)等のディスプレイ装置、3は、コンピュータ1に対する外部からの命令を入力する、キーボードをはじめ、マウスやタッチパネル等のポインティングデバイスによる入力装置である。コンピュータ1へは、映像装置4からの映像信号5がビデオ入力器6を経て入力される。
FIG. 1 is a schematic block diagram showing an example of a character search device in a video according to the present invention.
In FIG. 1, 1 is a computer that executes search processing, 2 is a display device such as a CRT (Cathode Ray Tube) that displays an output screen of the
映像装置4は、地上波放送や衛星放送、ケーブルテレビなどの放送番組を受信するためのチュナー装置、もしくは光ディスクやビデオテープ等に記録された映像を再生するための装置である。ビデオ入力器6は、映像装置4からの映像信号5をデジタル画像データ並びにデジタル音声データに逐次変換する。映像装置4から出力される映像が最初からデジタル化されている場合には、アナログからデジタルへの変換は不要になるが、ここでコンピュータが扱いやすいようなフォーマットに変換を行なうこともできる。
The
コンピュータ1の内部において、ビデオ入力器6からのデジタル画像データは、インタフェース8を介してメモリ9に入り、メモリ9に格納されている検索処理プログラムを実行するCPU(Central Processing Unit)7によってフレーム画像毎に処理される。また、処理の必要に応じて、各種情報やデータを外部情報記憶装置10に蓄積することができる。メモリ9には、以下に説明する映像中の文字検索処理をコンピュータ1に実行させるプログラムが格納されると共に、その処理によって作成される各種のデータが格納され、必要に応じて参照される。
Inside the
以下では、上記ハードウェア、特にコンピュータ1のCPU7によって実行される、本発明による検索処理のソフトウェアフローの詳細を説明する。
The details of the software flow of the search processing according to the present invention, which is executed by the hardware, particularly the
本発明では、字幕中の文字を、認識によってコード化された記号としてではなく、字体、すなわち字の持つ独特の形状を利用して検索を行なう。具体的には、次のような手順で操作する。 In the present invention, a character in a subtitle is searched not using a character encoded by recognition but using a character shape, that is, a unique shape of the character. Specifically, the operation is performed as follows.
まず、本発明の利用者(ユーザ)は、検索しようとする文字列を、通常のテキスト検索と何ら変わりなく、入力装置3を使ってコンピュータ1に入力する。アルファベットであれば、キーボードのキーの一打一打が文字の入力になり、日本語であれば、さらにローマ字変換やカナ漢字変換等を組み合わせることによって漢字仮名交じり文を入力することができる。
First, a user (user) of the present invention inputs a character string to be searched into the
キーワードが入力されると、コンピュータ1は、そのキーワードに対応する文字フォントを一字ずつ読み出して描画し、文字列画像を作成する。文字フォントは、ビットマップ形式のデータでも、ベクトル形式のデータでも、どちらでも構わない。検索は、この文字列画像をキーとした類似画検索として行なわれる。即ち、字幕中に画像的に相類似する部分を含むものが検索結果として出力される。
When a keyword is input, the
現在のコンピュータのオペレーションシステムでは、様々な言語を統一の枠組みで扱えるようになっており、任意の言語の文字列画像を作成することは極めて容易である。そして、本発明の文字検索は、この文字列画像を使って行なうものであり、上述の従来技術による1文字単位での照合ではないので、一文字ずつの切り出しが不要で、切り出し精度の影響を受け難い。また、照合する画像のサイズを比較的大きく取れるので、複雑背景上の文字の場合で、背景の一部が文字として混入されてしまった場合でも、統計的に無視できるようになり、見逃しの少ない安定した照合が可能になる。 In the current computer operation system, various languages can be handled in a unified framework, and it is extremely easy to create a character string image of an arbitrary language. The character search of the present invention is performed using this character string image, and is not collated in units of one character according to the above-described prior art, so that it is not necessary to cut out each character, and is affected by the cutting accuracy. hard. In addition, since the size of the image to be collated can be made relatively large, even in the case of characters on a complicated background, even if a part of the background is mixed as characters, it can be ignored statistically, and there are few oversights Stable verification is possible.
本発明は、大きく分けて2つの処理に分けることができる。一つは、映像を解析し、字幕やフリップなどの文字領域を検出し、その特徴を抽出する前処理であり、もう一つは、抽出した特徴と、ユーザが入力したキーワードの特徴とを照合し、一致するものを見つける検索処理である。 The present invention can be broadly divided into two processes. One is preprocessing that analyzes video, detects character areas such as subtitles and flips, and extracts the features, and the other is to match the extracted features with the features of the keywords entered by the user. And a search process for finding a match.
まず、前処理である、字幕検出及び特徴抽出の処理について説明する。字幕の特徴量は、(1)高輝度、(2)エッジ集中、(3)一定期間静止、を利用した手法だけでは検出できない場合が少なからず存在することを既に述べた。そこで、本発明では、もっと文字に普遍な特徴を考える。 First, subtitle detection and feature extraction processing, which is preprocessing, will be described. It has already been described that there are not a few cases where the feature amount of captions cannot be detected only by a method using (1) high luminance, (2) edge concentration, and (3) stationary for a certain period. Therefore, in the present invention, more universal features are considered for characters.
文字は、歴史的に筆やペン等で書かれ継がれてきた経緯もあり、多くの言語で共通して、線の組み合わせによる構造を持っている。すなわち、文字の存在する部分には、線が密集する傾向がある。しかも、その線の幅は、文字の大きさによって決まる特定の範囲内に収まっていることがほとんどである。本発明では、この特徴を、文字の存在を特定する条件に用いる。また、線の色は単色か、或いは緩やかに変化する模様(グラデーション模様)であることも特徴として利用する。これによって、従来は検出できなかったタイプの字幕が検出可能になる。 Characters have historically been handed down with brushes and pens, and have a structure that is a combination of lines, common to many languages. In other words, there is a tendency for lines to be dense in portions where characters are present. In addition, the width of the line is usually within a specific range determined by the size of the character. In the present invention, this feature is used as a condition for specifying the presence of a character. In addition, the line color is a single color or a pattern (gradation pattern) that changes gradually. This makes it possible to detect a type of caption that could not be detected in the past.
上記の形状に着目した字幕検出並びに特徴抽出のフローチャートを図2に示す。ステップ200で各種変数の初期化を行なった後、ビデオ映像から1フレーム画像を入力する(ステップ201)。続くステップ202で、映像に特有の文字の滲みを抑えるためのフィルタ処理を行なう。
A flowchart of caption detection and feature extraction focusing on the shape is shown in FIG. After initialization of various variables in
アナログ信号の映像は、本質的に境界が滲み易いだけでなく、低解像度のテレビ受像機で文字を滑らかに見せるためにアンチエリアシング(anti-aliasing)等のわざと滲ませる処理を行なっている場合が多い。滲みは、境界を成す2つの画素の間に、両画素の輝度の中間的な輝度を持つ画素が割って入っている状態であり、隣接画素間の輝度差が小さくなり、エッジを検出することが困難になる。これをフィルタで除去する。具体的な処理方法については後述する。 The analog signal video is not only inherently blurry, but also has a deliberate process such as anti-aliasing to make the characters appear smoother on low-resolution television receivers. There are many. Bleeding is a state in which a pixel having an intermediate luminance between both pixels is divided between two pixels forming a boundary, and the difference in luminance between adjacent pixels is reduced to detect an edge. Becomes difficult. This is removed with a filter. A specific processing method will be described later.
次に、ステップ203では、特定の幅を持つ線が抽出され、ステップ204で、それらが特定の領域に集中して存在しているかどうかを検定し、集中している領域を抽出する。そして、抽出された領域が、文字領域として妥当かどうかを改めて検査し(ステップ205)、妥当とみなされれば、領域中に含まれる文字部分即ち文字列の画像特徴を抽出する(ステップ206)。
Next, in
映像中に現れる字幕は、人間が視認できるだけの期間は少なくとも画像中のどこかに存在し続けるので、前回のフレームで抽出した文字と同じかどうかを検査して、新規に現れたものだけを選択的に記憶する(ステップ207)。以上の処理をステップ201に戻って、検索対象とする映像が終わるまで繰り返す。 The subtitles that appear in the video continue to exist at least somewhere in the image for a period that can be seen by humans, so check whether they are the same as the characters extracted in the previous frame and select only those that appear newly (Step 207). The above processing returns to step 201 and is repeated until the search target video ends.
次に、上記で抽出した文字特徴と、ユーザが入力したキーワードの特徴とを照合し、一致するものを見つける検索処理について図3を用いて説明する。 Next, a search process for collating the character features extracted above with the keyword features input by the user and finding a match will be described with reference to FIG.
まず、変数等の初期化をステップ300で行ない、続くステップ301で、パーソナルコンピュータやワードプロセッサ等で広く用いられている各種の入力方法を用いて、ユーザから任意の文字列を取得する。この文字列を、予め用意した文字フォントを用いて、ビットマップ画像として描画する(ステップ302)。こうして得られた画像から文字列の特徴を抽出し(ステップ303)、上記のステップ207で記憶してある文字列特徴の全てに対して一致度を求める(ステップ304,305)。一致度が高い順番にランキングして一覧表示することで、検索結果とする(ステップ306)。
First, initialization of variables and the like is performed in
以下では、上記フローチャートの各処理の実現方法について、さらに詳細に説明する。 Hereinafter, a method for realizing each process of the flowchart will be described in more detail.
まず、図2のステップ202のフィルタ処理においては、具体的には、例えば、図4に示す3×3のフィルタを用いる。図は、中央の画素P5が、P1からP9までの画素P5に隣接する9個の画素の輝度値を総合することによって決まることを示しており、9画素中の最大値と最小値を求め、いずれか近い値にP5の輝度値を補正する。これを式で表すと次のようになる。即ち、
Pmax=MAX {P1,P2,P3,P4,P5,P6,P7,P8,P9}
Pmin=MIN {P1,P2,P3,P4,P5,P6,P7,P8,P9}
If P5−Pmin<Pmax−P5 then P5 ← Pmin
else P5 ← Pmax
となる。
First, in the filter process in
Pmax = MAX {P1, P2, P3, P4, P5, P6, P7, P8, P9}
Pmin = MIN {P1, P2, P3, P4, P5, P6, P7, P8, P9}
If P5−Pmin <Pmax−P5 then P5 ← Pmin
else P5 ← Pmax
It becomes.
画像サイズが画素の数で幅w、高さhで表される場合、原点(0,0)を画像左上の頂点とした場合、x座標が1からw−2まで、y座標が1からh−2までの範囲のすべての座標について、P5の補正を行なう。境界部の滲み除去が目的なので、高速処理のため、境界部、すなわちエッジとなっている部分のみに着目して補正処理を行なうのでも構わない。必要ならば、上記の例の3×3ではなく、5×5や7×7のサイズのフィルタにしてもよい。このフィルタにより、滲みによって境界に発生していた中間的な輝度値は、境界を成すいずれかの画素の輝度値に統一され、境界が明確になる。 When the image size is represented by the number of pixels by the width w and the height h, when the origin (0, 0) is the top left vertex of the image, the x coordinate is 1 to w-2, and the y coordinate is 1 to h. P5 is corrected for all coordinates in the range up to -2. Since the purpose is to remove the blur at the boundary portion, the correction processing may be performed by paying attention only to the boundary portion, that is, the edge portion for high-speed processing. If necessary, a filter having a size of 5 × 5 or 7 × 7 may be used instead of the 3 × 3 in the above example. By this filter, the intermediate luminance value generated at the boundary due to blurring is unified to the luminance value of any pixel forming the boundary, and the boundary becomes clear.
次に、ステップ203の特定線幅部抽出処理及びステップ204の特定線幅部集中領域抽出処理について詳細に説明する。特定線幅部抽出処理の概略を図5に示す。特定の幅を持った線だけを選択的に抽出する方法としては様々な方法が考えられるが、厳密に線を抽出して幅を求めるのではなく、もっと簡易的に、特定の幅を満たす線の存在に結びつく特徴がある部分を抽出する。
Next, the specific line width portion extraction processing in
具体的には、垂直・水平各方向について、予め指定する範囲の輝度の差で、予め指定する範囲の長さ分だけ連続して繋がっている等輝度画素列を抽出し、その各画素に印を付ける。図中の○印を付けられた画素が、水平方向の等輝度画素列を構成する画素を意味し、×印は同じく垂直方向の等輝度画素列を示している。垂直・水平方向とも、3画素及び4画素の長さが指定の範囲である。 Specifically, in each of the vertical and horizontal directions, an equiluminance pixel string that is continuously connected by the length of the predesignated range is extracted by the difference in luminance of the predesignated range, and is marked on each pixel. Add. In the figure, the circled pixels mean the pixels constituting the horizontal equal luminance pixel column, and the X symbols similarly indicate the vertical equal luminance pixel column. In both the vertical and horizontal directions, the lengths of 3 pixels and 4 pixels are within a specified range.
これら○×印の付いた画素の多い領域に文字が存在する。領域の特定には、印刷文書の読み取り認識の分野で一般的に用いられている投影分布法を利用することができる。但し、文字は、縦線と横線が複雑に絡み合って構成されることが多いので、文字のある領域には、水平・垂直各方向の等輝度画素列が同時に集中して存在する。すなわち、○印の画素と×印の画素とが同時に集まっている。この特徴を利用することで、特定性能の向上が期待できる。 Characters are present in areas with many pixels marked with “X”. For specifying the area, a projection distribution method generally used in the field of reading and recognition of printed documents can be used. However, since a character is often composed of intricately intertwined vertical lines and horizontal lines, equi-luminance pixel columns in the horizontal and vertical directions are concentrated at the same time in a certain area of the character. That is, the pixels marked with ○ and the pixels marked with x are gathered at the same time. By using this feature, improvement in specific performance can be expected.
そこで、フレーム画像において、垂直・水平各方向の画素間隔による各走査毎に○印の存在数をカウントした投影分布と、×印の存在数をカウントした投影分布をそれぞれ作成し、各行ごとに値を掛け合わせた値からなる投影分布を作成し、これをもとに文字領域を検出する。○印と×印のいずれとも存在しなければ、投影分布の値は0になり、文字領域の特定性能が高まる。なお、この乗算の際には、画素単位による走査では、文字領域であっても○×が同時に現れない場合も多いので、余裕をもって複数走査分の値の総和同士を掛け合わせるようにした方がよい場合がある。 Therefore, in the frame image, a projection distribution in which the number of circles is counted and a projection distribution in which the number of circles is counted are created for each scan based on pixel intervals in the vertical and horizontal directions. A projection distribution composed of values multiplied by is created, and a character area is detected based on the projection distribution. If neither the circle mark nor the x mark exists, the value of the projection distribution becomes 0, and the character area specifying performance is enhanced. Note that in this multiplication, in the scanning in pixel units, even if it is a character area, ○ often does not appear at the same time, so it is better to multiply the sum of values for a plurality of scans with a margin. It may be good.
なお、等輝度画素列を構成する画素は、予め指定する範囲の輝度の差である他、輝度そのものが予め指定する範囲にあるようにすることが可能である。 It should be noted that the pixels constituting the equiluminance pixel column can be set so that the luminance itself is within a predesignated range in addition to the difference in luminance within a predesignated range.
特定線幅部抽出処理のステップ203のフローチャートを図6及び図7に示す。この処理では、処理対象のフレーム画像のサイズに合わせた二次元配列Map(i, j)を初期値0で用意し、水平・垂直の2方向について、特定長の等輝度画素列が検出される毎に、Map(i, j)上の対応する位置の値を0以外の値に変える。
The flowchart of
まず、ステップ400では、Map(i, j)の初期化を行ない、ステップ401では、y方向のループカウンタをリセットする。続くステップ402では、x方向のループカウンタと、等輝度画素列の始点を初期値にセットする。
First, in
ステップ403では、x方向に隣接する2画素の輝度の差の絶対値を求め、閾値TH1以下であれば、何もせずステップ407に進む。閾値TH1よりも大きければ、ステップ404に進む。ステップ404では、最後に記憶した、等輝度画素列の始点と現在地点との差が閾値TH2よりも大きく、かつ閾値TH3よりも小さいかどうかを比較し、条件を満たす場合に、この画素列が所定幅の線の一部である可能性が高いとして、この画素列に対応する位置のMap配列に1を代入する(ステップ405)。そして、画素列の始点を現在地点に更新して(ステップ406)、x方向のループカウンタを1進め(ステップ407)、フレーム画像の幅wだけ(ステップ408)、以上を繰り返す(ステップ403〜408)。更に、y方向のループカウンタを1進め(ステップ409)、これをフレーム画像の高さh分だけ(ステップ410)、以上を繰り返す(ステップ402〜410)。
In
同様にして、図7に示すように、y方向の等輝度画素列も求めることができる(ステップ411〜420)。このときの等輝度画素列の分布は、410までで求めたMap配列に2を足し込むことで記憶する(415)。即ち、Map配列の値が0のときは、x,y両方向とも等輝度画素列に含まれないことを意味し、1は、x方向のみ、2はy方向のみ、そして、3は両方向ともに等輝度画素列に含まれることを示すことになる。
Similarly, as shown in FIG. 7, an equiluminance pixel column in the y direction can also be obtained (
次に、ステップ204の特定線幅部集中領域の抽出は、基本的にはMap配列に0以外の値が入っている画素が集中している領域を見つければよい。Map配列からの文字領域の抽出には、既に述べたように投影分布を利用する。
Next, the extraction of the specific line width portion concentration area in
図8に示すように、画面600中の横書きの字幕を検出する場合は、水平方向に投影分布602をとると、字幕の存在する部分に投影分布のピークが現れやすい。これによって、字幕の存在するy方向の始点と高さが得られる。そして、このようにして得られたy軸の範囲の領域について、同様に垂直方向の投影分布をとり、x方向の始点と幅とを確定することになる。縦書きの字幕の場合は、まず垂直方向の投影分布をとって、x方向の始点と幅を最初に得、次いでy方向の始点と高さを確定すればよい。
As shown in FIG. 8, when detecting horizontally-written captions in the
具体的には、図9に示すフローチャートに従って処理を行なう。まずステップ500では、投影分布ProjYの初期化を行ない、続くステップ501でy方向のループカウンタのリセットを行なう。ステップ502では、x方向のループカウンタ及びx,y方向それぞれの等輝度画素列の数をカウントする変数x_line, y_lineに初期値0を入れる。
Specifically, processing is performed according to the flowchart shown in FIG. First, in
全体を画素単位走査でスキャンし、x方向の等輝度画素列であれば、x_lineに1を加え、y方向の等輝度画素列であれば、y_lineに1を加える(ステップ503〜508)。
The whole is scanned by pixel unit scanning, and 1 is added to x_line if it is an equiluminance pixel row in the x direction, and 1 is added to y_line if it is an equiluminance pixel row in the y direction (
そして、x_lineとy_lineを掛け合わせたものを投影分布ProjYに代入する(ステップ509)。フレーム画像の高さだけ(ステップ510,511)、以上を繰り返す(ステップ502〜511)。ステップ509により、x,y両方向の等輝度画素列が存在しないと、投影分布は十分に大きな値を取らないようになる。
Then, the product of x_line and y_line is substituted into the projection distribution ProjY (step 509). The above is repeated for the height of the frame image (
ステップ205では、抽出された文字領域が最終的に文字領域として妥当かどうかの判定を行なう。例えば、検出された領域の高さや幅が極端に小さい場合は、文字ではない可能性が高い。そのため、予め設定した閾値よりも高さや幅が小さい場合には、文字領域とはみなさず破棄する。
In
また、エッジの多い複雑背景上の文字領域の場合、文字と背景との正確な切り分けは、文字を認識して形を確定しない限り困難である。このような場合でも、可能な限り背景を除去するため、文字領域を余裕を持って大きめに取り囲む矩形の線上の各画素を起点にして、文字領域の内側を探索し、同じ色や輝度の画素を背景として除去する。文字は周囲との間に明確な境界を持つので、背景として一緒に除去されてしまうことはない。 In the case of a character region on a complex background with many edges, accurate separation between the character and the background is difficult unless the character is recognized and the shape is determined. Even in such a case, in order to remove the background as much as possible, the inside of the character area is searched starting from each pixel on the rectangular line that encloses the character area with a margin, and pixels of the same color and brightness Is removed as a background. Characters have a clear boundary with their surroundings, so they are not removed together as a background.
もし、文字領域の多くが背景として除去されてしまったなら、それは画像中の物体や背景の模様が文字として誤認識された結果であり、文字領域として妥当性を欠いていたと判定できる。したがって、背景除去処理後に、一定面積以上の文字部分が残っていなければ破棄する。この妥当性判定処理を、何種類かの閾値範囲の輝度、線幅、縦書き・横書きの組み合わせで得られる各文字候補領域について行ない、妥当とされたものを文字領域とする。 If most of the character area has been removed as the background, it can be determined that the object or background pattern in the image has been misrecognized as a character, and that the character area lacked validity. Therefore, after the background removal process, if there is no character portion of a certain area or more, it is discarded. This validity determination process is performed for each character candidate area obtained by the combination of brightness, line width, vertical writing / horizontal writing in several types of threshold ranges, and the appropriate one is set as the character area.
ステップ206の文字列特徴抽出では、字幕として抽出された文字領域の画像特徴を抽出する。字幕画像そのものをそのまま特徴として記憶し、テンプレートマッチング等の古典的な画像照合を行なうこともできるが、記憶するデータ量が大きくなり、また演算効率の面でも問題が多い。文字の照合にあたっては、字幕とテンプレートとの間でサイズが異なるため、サイズを様々に変えて最も一致度の高いときの値を見極めてから、最終的な照合結果としなければならないが、二次元のフリーサイズの照合は、計算量が非常に多く、大量の照合を必要とする検索用途には不向きである。
In the character string feature extraction in
そこで、本実施例では、図10に示すような、二値化した文字画像について、一定間隔で縦のエッジ数をカウントして横に並べた一次元の特徴列が採用される。x,yの二次元のうち、y方向の情報を伸縮によって値が変化しないエッジ数で代表させることによって、一次元の特徴列で文字列の画像特徴を表現する。 Therefore, in the present embodiment, a one-dimensional feature sequence in which the number of vertical edges is counted at regular intervals and arranged horizontally is adopted for a binarized character image as shown in FIG. Of the two dimensions x and y, the y-direction information is represented by the number of edges whose value does not change due to expansion / contraction, thereby expressing the image feature of the character string with a one-dimensional feature string.
なお、縦書きの文字画像の場合は、一定間隔で横のエッジ数をカウントして縦に並べた一次元の特徴列を採用することができる。 In the case of a vertically written character image, it is possible to employ a one-dimensional feature sequence in which the number of horizontal edges is counted at regular intervals and arranged vertically.
以上のようにして得られた映像中の文字列特徴は、図3に示したステップ304において、ユーザが入力した文字列の特徴(ステップ303)との一致度の計算が行なわれる、即ち、特徴照合が行なわれる。照合の際は、1次元のみの伸縮照合で良い。1次元の伸縮照合方法については、例えば、DP(Dynamic Programming)マッチングに代表される様々な高速化手法を適用することがでできる。
The character string feature in the video obtained as described above is calculated for the degree of coincidence with the character string feature (step 303) input by the user in
この1次元特徴列の一つ一つの値は、単なるエッジの数に過ぎず、個々の情報量は小さいが、その順列組み合わせの数は文字列の長さに比例して膨大になり、検索に意味のある単語であれば十分な文字列長が見込めるので、高い特定性能が期待できる。更に、単純図形の文字ばかりから成る文字列でも正しく検索するために、例えば、単なるエッジ数ではなく、エッジが、縦(|)・横(−)・右斜め(/)、左斜め(\)のうち、いずれの種類の線の境界として形成されたものかを特徴量の一つとして加えてもよい。 Each value of this one-dimensional feature sequence is just the number of edges, and the amount of individual information is small, but the number of permutation combinations becomes enormous in proportion to the length of the character string. A meaningful word can be expected for a meaningful word, so high specific performance can be expected. Further, in order to correctly search even a character string consisting of only simple figure characters, for example, the edge is not the simple number of edges but the edges are vertical (|), horizontal (-), diagonally right (/), diagonally left (\). Of these, the type of line formed as a boundary may be added as one of the feature amounts.
図11は、上記で述べた文字検索方法を利用する際のユーザインタフェースの一例を示したものである。図11において、700は、検索結果出力画面の例であり、705は、検索キーワードの入力画面の例である。ユーザは、キーワード入力用のテキスト入力領域706に、任意の文字列をキーボード等を利用して打ち込む。正しく文字列を入力できたことを確認後、検索ボタン709を押下することで、検索処理が開始され、キーワード文字列の検索結果が700のように表示される。検索をとりやめるときは、キャンセルボタン710を押下する。
FIG. 11 shows an example of a user interface when using the character search method described above. In FIG. 11, 700 is an example of a search result output screen, and 705 is an example of a search keyword input screen. The user inputs an arbitrary character string into the keyword input
画面700には、検索結果として、キーワード文字列と合致する文字列を含む字幕を持つフレーム画像701と一致度704の組み合わせが、一致度の高い順番に一覧表示される。これによって、検索した字幕が現れているシーンが一目でわかる。一般に、一度に沢山の結果を見たい場合が多いので、表示されるフレーム画像は小さなサムネール表示とする必要がある。しかし、それでは字幕が縮小されて読みにくくなり、検索結果が正しいかどうかの判断も困難になる。そのため、字幕部分だけを別枠702で拡大して表示する。また、検索されたキーワード文字列を枠703で囲んで、強調表示することも可能である。なお、枠703は、特徴抽出によって判定された文字列を囲むので、文字列に対するその位置が背景や字体等によって多少変わる特徴がある。また、フレーム画像と一緒にタイムコードなどのアドレス情報を表示することで、そのシーンの映像中での位置が分かるようにしてもよい。更に、一覧中に表示される情報の密度を向上させるため、上位に存在する文字列検索結果が1画面に複数存在する場合は、1画面のみにまとめてより下位のランキングのものが繰り上げ当選で表示されるようにしてもよい。
On the
また、本発明では、その原理上、入力されたキーワードを文字列画像に変換する際に選ばれたフォントと全く異なる書体の場合、字幕から正しく検出できない場合がある。そこで、フォントを入力欄707で指定することができるようにしてもよい。主要なフォントの種類は限られているので、ボタン708を押下することで選択肢を示し、その中から選べるようにしても構わない。文字認識に基づく検索の場合は、認識処理アルゴリズムに修正が必要となるが、本発明では、このように単にフォントの切り換え操作のみで柔軟に対応することができる。
Further, according to the present invention, due to its principle, in the case of a typeface completely different from the font selected when the input keyword is converted into a character string image, it may not be correctly detected from the subtitle. Therefore, the font may be designated in the
図12は、検索キーワードの入力画面705を用いずに検索を行なう場合の一例である。画面800に表示されている字幕をポインティングデバイス等でポイントすることで、その字幕と同じ文字列が現れている字幕をすべて検索する。この方法では、キーワードが最初から画像で与えられるので、文字列画像に変換する必要がなく、フォントも不要になる。例えば、知らない文字が字幕に現れているが、どうやらそれが番組のキーワードになっているらしい、という場合に、その文字が入力できなくても、そのキーワードが現れているシーンをすべて見つけることができる。未習得の言語の語学番組を効率的に見る手助けにもなる。
FIG. 12 shows an example when a search is performed without using the search
また、本発明によれば、予め特定のキーワードを指定しておけば、そのキーワードが映像中に現れた瞬間に自動的に通知することもできる。例えば、「速報」、「台風」、「地震」或いは「不通」などの言葉を記憶しておけば、緊急の情報を察知することができる。 Further, according to the present invention, if a specific keyword is designated in advance, it can be automatically notified at the moment when the keyword appears in the video. For example, if words such as “breaking news”, “typhoon”, “earthquake”, or “disconnection” are stored, emergency information can be detected.
また、同様に、広告映像の場合には、「www」や「http」等の関連情報のアドレスを示す定型的なフレーズを自動検出することもでき、その画面だけを選択的に記録しておいて、後の参照に備えたりすることが可能になる。特にインターネットのドメイン名やURL(Uniform Resource Locator)などのアドレス情報の場合、広告を行なう企業や団体は数が限定されているので、予め企業や団体のアドレス情報のテンプレートパターンを用意しておき、それとマッチングを行なって企業や団体を特定した上で、それに関係づけられた文字コード化されたアドレス情報を用い、実際にインターネットブラウザ等で自動接続して、そのホームページを閲覧することも可能である。この場合、ユーザにとっては、テレビ放送に合わせて、ブラウザの接続先が自動的に変更されているように見える。或いは、ユーザがマウス等でそのアドレス文字領域をクリックした場合に、はじめて接続するようにしてもよい。 Similarly, in the case of an advertisement video, a fixed phrase indicating the address of related information such as “www” or “http” can be automatically detected, and only the screen is selectively recorded. And can be prepared for later reference. In particular, in the case of address information such as an Internet domain name or URL (Uniform Resource Locator), the number of companies and organizations that perform advertisements is limited. Therefore, a template pattern of address information of companies and organizations is prepared in advance. It is also possible to specify the company or organization by matching with it, and use the address information encoded in the character code to automatically connect with the Internet browser etc. and browse the homepage. . In this case, it seems to the user that the connection destination of the browser is automatically changed according to the television broadcast. Alternatively, the connection may be made only when the user clicks the address character area with a mouse or the like.
更に、本発明は、映像データベースの分野において、何ら人手による索引付けなしにテキスト入力によるシーン検索を可能にする手段として利用することができるだけでなく、人手によるキーワード付け作業の効率化にも貢献できる。索引付けを行なう場合に、特定のキーワードを付けるべきシーンを本発明によって見つけ、索引として登録していく。これによって、次回からは、索引データに対する純粋なテキスト検索のみで高速に検索を行なえるようになる。 Furthermore, the present invention can be used not only as a means for enabling scene search by text input without any manual indexing in the field of video databases, but also contributes to the efficiency of manual keyword assignment work. . When indexing is performed, a scene to which a specific keyword is to be added is found by the present invention and registered as an index. As a result, from the next time, it is possible to perform a high-speed search only by pure text search for the index data.
また、本発明の処理対象は、テレビ放送の映像に限定されるものではなく、幅広く自然画像にも適用可能であることは云うまでもない。例えば、街中にある看板等に書かれた文字列も上述の処理の対象にすることができる。旅行等で観光地を訪れた際に撮影したスナップ写真やビデオクリップの中から、看板の文字をキーにして検索を行なうことができる。特に、名所旧跡によくある、地名が書かれた表札や由来説明と一緒に撮影していれば、記憶に残りやすい地名をキーにして過去に撮影した膨大なライブラリの中から、所望の写真やビデオを探し出すことができる。 In addition, the processing target of the present invention is not limited to television broadcast images, and it goes without saying that it can be applied to a wide range of natural images. For example, a character string written on a signboard or the like in the city can be the target of the above processing. It is possible to search from snapshots and video clips taken when visiting sightseeing spots by using the characters on the signboard as keys. In particular, if you shoot along with a nameplate written with a place name written on the historical site, and a description of the origin, you can select a desired photo or photo from a vast library of photos taken in the past using place names that are easy to remember. Find videos.
そしてまた、前述したアドレス情報の検出による自動ネットワーク接続を、このような自然画像を対象に行なうこともできる。例えば、看板等に書かれたアドレス情報を撮影し、それに対して上述の処理を行なうことで、そのホームページを簡単に呼び出すことができる。或いは、この場合、撮影と本発明の処理、そしてホームページの表示とを、手軽に持ち運べる小型の機器の中で一括して行なえることが望ましい。一つの方法は、そのような機器を作ることであるが、画像処理を迅速に行なえるほど高速な演算性能を小型機器の中に搭載することは、技術的もしくはコスト的に困難な場合がある。そのため、携帯電話やネットワーク接続可能な携帯端末等を利用することで、演算負荷の重い処理をネットワーク上のサーバに行なわせることもできる。 In addition, the automatic network connection based on the detection of the address information described above can be performed on such a natural image. For example, the homepage can be easily called by photographing address information written on a signboard or the like and performing the above-described processing on the address information. Alternatively, in this case, it is desirable that shooting, processing of the present invention, and homepage display can be performed collectively in a small device that can be easily carried. One method is to make such a device, but it may be technically or costly difficult to mount high-speed computing performance in a small device so that image processing can be performed quickly. . Therefore, by using a mobile phone or a mobile terminal that can be connected to the network, it is possible to cause a server on the network to perform processing with a heavy calculation load.
図12に、その一例を示す。携帯電話機900には、カメラ901が搭載されており、任意の看板等を撮影することができる。図13は、システムのブロック図の一例であり、カメラ901で撮影された画像データを携帯電話機900が送信し、送信基地局920で中継し、通信網921に接続された画像処理サーバ922で、上記のアドレス情報抽出処理を行ない、処理結果を逆の経路を辿って携帯電話機900に返信する。サーバ922には、データ記録装置923が接続されており、アドレス情報のテンプレートデータ等が格納される。このテンプレートデータを常に最新の情報に保守しておくことで、新種のアドレス情報に対しても、携帯電話機のユーザの側では何ら操作を行なうことなく自動対応が可能になる。
An example is shown in FIG. The
1…コンピュータ、2…ディスプレイ、3…入力装置、4…映像装置、5…映像信号、6…ビデオ入力器、7…CPU、8…インタフェース、9…メモリ、10…外部情報記憶装置。
DESCRIPTION OF
Claims (5)
入力したフレーム画像から文字列領域を検出する手段と、
前記文字列領域の第1の画像特徴を抽出する手段と、
映像を表示する表示手段と、
前記表示手段に表示された画像の文字列領域を指定させる指定手段と、
前記指定手段によって指定された画像の文字列領域から第2の画像特徴を抽出する手段と、
前記第1の画像特徴と前記第2の画像特徴とを照合して一致度を求める特徴照合手段と、
一致度が得られた画像特徴に対応する文字列領域又はそれを含むフレーム画像を検索結果として出力する出力手段とを有することを特徴とする映像中の文字検索装置。 Means for inputting video,
Means for detecting a character string region from the input frame image;
Means for extracting a first image feature of the character string region;
Display means for displaying video;
Designating means for designating a character string area of the image displayed on the display means;
Means for extracting a second image feature from a character string region of the image designated by the designation means;
A feature matching means for matching the first image feature and the second image feature to obtain a matching degree;
A character search device for video, comprising: output means for outputting a character string region corresponding to an image feature for which a degree of coincidence is obtained or a frame image including the character string region as a search result.
入力した映像のフレーム画像から文字列領域をその形状に基づいて検出する工程と、
該文字列領域を一文字毎に分解しないで第一の画像特徴を抽出する工程と、
文字入力手段によって入力された検索対象の文字列を画像として描画する工程と、
描画した該文字列画像を一文字毎に分解しないで第二の画像特徴を抽出する工程と、
該第一の画像特徴と該第二の画像特徴とを照合して一致度を求める工程と、
一致度が得られた文字列を含む該文字列領域を出力する工程とを有することを特徴とする映像中の文字検索方法。 Input video,
Detecting a character string region from the frame image of the input video based on its shape;
Extracting the first image feature without decomposing the character string area character by character;
Drawing the search target character string input by the character input means as an image;
Extracting the second image feature without decomposing the drawn character string image for each character;
Collating the first image feature with the second image feature to determine a degree of coincidence;
And a step of outputting the character string area including the character string obtained with the degree of coincidence.
入力したフレーム画像から文字列領域を検出する手段と、
該文字列領域を一文字毎に分解しないで第一の画像特徴を抽出する手段と、
任意の文字列コードを入力するための入力手段と、
該文字列コードに対応する文字列を画像として描画する文字画像生成手段と、
該文字画像を一文字毎に分解しないで第二の画像特徴を抽出する手段と、
該第一の画像特徴と該第二の画像特徴とを照合し一致度を求める特徴照合手段と、
一致度が得られた画像特徴に対応する文字列領域又はそれを含むフレーム画像を検索結果として出力する出力手段とを有することを特徴とする映像中の文字検索装置。 Means for inputting video,
Means for detecting a character string region from the input frame image;
Means for extracting the first image feature without decomposing the character string region for each character;
An input means for inputting an arbitrary character string code;
Character image generation means for drawing a character string corresponding to the character string code as an image;
Means for extracting a second image feature without decomposing the character image character by character;
A feature matching means for matching the first image feature and the second image feature to obtain a matching degree;
A character search device for video, comprising: output means for outputting a character string region corresponding to an image feature for which a degree of coincidence is obtained or a frame image including the character string region as a search result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007201891A JP2008004116A (en) | 2007-08-02 | 2007-08-02 | Method and device for retrieving character in video |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007201891A JP2008004116A (en) | 2007-08-02 | 2007-08-02 | Method and device for retrieving character in video |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001082012A Division JP4271878B2 (en) | 2001-03-22 | 2001-03-22 | Character search method and apparatus in video, and character search processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008004116A true JP2008004116A (en) | 2008-01-10 |
Family
ID=39008389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007201891A Pending JP2008004116A (en) | 2007-08-02 | 2007-08-02 | Method and device for retrieving character in video |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008004116A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192094A (en) * | 2010-03-15 | 2011-09-29 | Omron Corp | Character string sensing device, character evaluating device, image processing apparatus, character string sensing method, character evaluating method, control program and recording medium |
WO2012120695A1 (en) | 2011-03-10 | 2012-09-13 | オムロン株式会社 | Character string detection device, image processing device, character string detection method, control program and storage medium |
CN106682671A (en) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | Image character recognition system |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5875279A (en) * | 1981-10-29 | 1983-05-06 | Nec Corp | Character classification system |
JPH07192003A (en) * | 1993-12-27 | 1995-07-28 | Hitachi Ltd | Device and method for retrieving animation picture |
JPH10308921A (en) * | 1997-05-08 | 1998-11-17 | Fujitsu Ltd | Information collection device |
JPH11143879A (en) * | 1997-11-07 | 1999-05-28 | Matsushita Electric Ind Co Ltd | Document retrieval device |
JP2000298725A (en) * | 1999-04-15 | 2000-10-24 | Nec Corp | Device and method for detecting text data |
JP2000299829A (en) * | 1999-04-13 | 2000-10-24 | Canon Inc | Image processing unit and its method |
JP4271878B2 (en) * | 2001-03-22 | 2009-06-03 | 株式会社日立製作所 | Character search method and apparatus in video, and character search processing program |
-
2007
- 2007-08-02 JP JP2007201891A patent/JP2008004116A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5875279A (en) * | 1981-10-29 | 1983-05-06 | Nec Corp | Character classification system |
JPH07192003A (en) * | 1993-12-27 | 1995-07-28 | Hitachi Ltd | Device and method for retrieving animation picture |
JPH10308921A (en) * | 1997-05-08 | 1998-11-17 | Fujitsu Ltd | Information collection device |
JPH11143879A (en) * | 1997-11-07 | 1999-05-28 | Matsushita Electric Ind Co Ltd | Document retrieval device |
JP2000299829A (en) * | 1999-04-13 | 2000-10-24 | Canon Inc | Image processing unit and its method |
JP2000298725A (en) * | 1999-04-15 | 2000-10-24 | Nec Corp | Device and method for detecting text data |
JP4271878B2 (en) * | 2001-03-22 | 2009-06-03 | 株式会社日立製作所 | Character search method and apparatus in video, and character search processing program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192094A (en) * | 2010-03-15 | 2011-09-29 | Omron Corp | Character string sensing device, character evaluating device, image processing apparatus, character string sensing method, character evaluating method, control program and recording medium |
WO2012120695A1 (en) | 2011-03-10 | 2012-09-13 | オムロン株式会社 | Character string detection device, image processing device, character string detection method, control program and storage medium |
US9129383B2 (en) | 2011-03-10 | 2015-09-08 | Omron Corporation | Character string detection device, image processing device, character string detection method, control program and storage medium |
CN106682671A (en) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | Image character recognition system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4271878B2 (en) | Character search method and apparatus in video, and character search processing program | |
JP5659563B2 (en) | Identification method, identification device, and computer program | |
JP5528121B2 (en) | Image processing apparatus, image processing method, and program | |
US6640010B2 (en) | Word-to-word selection on images | |
US5893127A (en) | Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document | |
EP0539106B1 (en) | Electronic information delivery system | |
US8548240B2 (en) | Image processing apparatus, image processing method, and computer readable medium | |
JP4533273B2 (en) | Image processing apparatus, image processing method, and program | |
JP2004234656A (en) | Method for reformatting document by using document analysis information, and product | |
JP4945813B2 (en) | Print structured documents | |
JPS61267177A (en) | Retrieving system for document picture information | |
JP4785655B2 (en) | Document processing apparatus and document processing method | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
JP2008004116A (en) | Method and device for retrieving character in video | |
US9135517B1 (en) | Image based document identification based on obtained and stored document characteristics | |
US8295602B2 (en) | Image processing apparatus and image processing method | |
JPH08180068A (en) | Electronic filing device | |
KR101911613B1 (en) | Method and apparatus for person indexing based on the overlay text of the news interview video | |
JP3171626B2 (en) | Character recognition processing area / processing condition specification method | |
JP2006277149A (en) | Character and image segmentation device, character and image segmentation method, and program | |
JP5298830B2 (en) | Image processing program, image processing apparatus, and image processing system | |
JP3817442B2 (en) | Image recognition apparatus, image recognition method, program for realizing image recognition method, and recording medium for the program | |
JP4548062B2 (en) | Image processing device | |
US20150161171A1 (en) | Smart classifieds | |
JP3124854B2 (en) | Character string direction detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100624 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100713 |