JP2017091455A - Image processing device, image processing method and image processing program - Google Patents

Image processing device, image processing method and image processing program Download PDF

Info

Publication number
JP2017091455A
JP2017091455A JP2015224895A JP2015224895A JP2017091455A JP 2017091455 A JP2017091455 A JP 2017091455A JP 2015224895 A JP2015224895 A JP 2015224895A JP 2015224895 A JP2015224895 A JP 2015224895A JP 2017091455 A JP2017091455 A JP 2017091455A
Authority
JP
Japan
Prior art keywords
image
difference
regions
images
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015224895A
Other languages
Japanese (ja)
Inventor
洋次郎 登内
Yojiro Touchi
洋次郎 登内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015224895A priority Critical patent/JP2017091455A/en
Publication of JP2017091455A publication Critical patent/JP2017091455A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide an image processing device capable of reliably selecting a desired character string, and an image processing method and an image processing program.SOLUTION: An image processing device includes first and second acquisition sections, and a processing section. The first acquisition section acquires data related to a plurality of images including character strings in time series. The second acquisition section receives an input. The processing section executes detection operation and selection operation. The detection operation includes detection of a plurality of image regions from the plurality of images. Each of the plurality of image regions individually includes each of the character strings included in each of the plurality of images. Each of the plurality of image regions is detected in detection time, and each of the plurality of image regions has an images region position. The selection operation includes selection of at least one of the plurality of image regions. The selection is performed on the basis of a first difference between each detection time of the plurality of image regions and reception time when the input is received and a second difference between each image region position of the plurality of image regions and a position of the input.SELECTED DRAWING: Figure 1

Description

本発明の実施形態は、画像処理装置、画像処理方法及び画像処理プログラムに関する。   Embodiments described herein relate generally to an image processing apparatus, an image processing method, and an image processing program.

実空間に存在する文字列をカメラで撮影し、撮影した画像から文字列を検出する画像処理装置がある。画像処理装置においては、リアルタイムで撮影している画像を表示させながら、ユーザに画像内の所望の文字列を選択させ、文字列に関する様々な情報を表示する場合がある。この場合、ユーザが画像内の所望の文字列を認識し、選択するまでにタイムラグが生じる。画像内の文字列の位置はタイムラグの間に変化してしまう。このため、ユーザは所望の文字列を選択できない可能性がある。このような画像処理装置においては、確実に所望の文字列を選択できることが望まれる。   There is an image processing apparatus that captures a character string existing in real space with a camera and detects the character string from the captured image. In an image processing apparatus, there are cases where a user selects a desired character string in an image while displaying an image taken in real time, and displays various information related to the character string. In this case, there is a time lag until the user recognizes and selects a desired character string in the image. The position of the character string in the image changes during the time lag. For this reason, the user may not be able to select a desired character string. In such an image processing apparatus, it is desired that a desired character string can be reliably selected.

特開2015−88046号公報Japanese Patent Laying-Open No. 2015-88046

本発明の実施形態は、確実に所望の文字列を選択可能な画像処理装置、画像処理方法及び画像処理プログラムを提供する。   Embodiments of the present invention provide an image processing apparatus, an image processing method, and an image processing program capable of reliably selecting a desired character string.

本発明の実施形態によれば、第1取得部と、第2取得部と、処理部と、を備えた画像処理装置が提供される。前記第1取得部は、文字列を含む複数の画像に関するデータを時系列に取得する。前記第2取得部は、入力を受け取る。前記処理部は、検出動作と、選択動作と、を実施する。前記検出動作は、前記複数の画像から複数の画像領域を検出することを含む。前記複数の画像領域のそれぞれは、前記複数の画像のそれぞれに含まれる前記文字列のそれぞれを含む。前記複数の画像領域のそれぞれは検出時刻に検出され、前記複数の画像領域のそれぞれは画像領域位置を有する。前記選択動作は、前記複数の画像領域のうちの少なくとも1つを選択することを含む。前記選択は、前記複数の画像領域のそれぞれの前記検出時刻と、前記第2取得部で前記入力を受け取った受取時刻と、の第1差、及び、前記複数の画像領域のそれぞれの前記画像領域位置と、前記入力の位置と、の第2差に基づいて行う。   According to the embodiment of the present invention, an image processing apparatus including a first acquisition unit, a second acquisition unit, and a processing unit is provided. The first acquisition unit acquires data related to a plurality of images including a character string in time series. The second acquisition unit receives an input. The processing unit performs a detection operation and a selection operation. The detection operation includes detecting a plurality of image regions from the plurality of images. Each of the plurality of image regions includes each of the character strings included in each of the plurality of images. Each of the plurality of image areas is detected at a detection time, and each of the plurality of image areas has an image area position. The selection operation includes selecting at least one of the plurality of image regions. The selection includes a first difference between the detection time of each of the plurality of image regions and a reception time at which the input is received by the second acquisition unit, and the image region of each of the plurality of image regions. Based on the second difference between the position and the input position.

第1の実施形態に係る画像処理装置を例示するブロック図である。1 is a block diagram illustrating an image processing apparatus according to a first embodiment. 複数の画像を例示する図である。It is a figure which illustrates a plurality of images. 第1の実施形態に係る検出部の動作例を例示する模式図である。It is a schematic diagram which illustrates the operation example of the detection part which concerns on 1st Embodiment. 図4(a)〜図4(c)は、指示位置の取得方法を例示する模式図である。FIG. 4A to FIG. 4C are schematic views illustrating the method for acquiring the designated position. 第1の実施形態に係る選択部の動作例を例示する模式図である。It is a schematic diagram which illustrates the operation example of the selection part which concerns on 1st Embodiment. 図6(a)及び図6(b)は、参考例に係る画像処理装置の画像を例示する模式図である。FIG. 6A and FIG. 6B are schematic views illustrating images of the image processing apparatus according to the reference example. 第2の実施形態に係る画像処理装置を例示するブロック図である。It is a block diagram which illustrates the image processing device concerning a 2nd embodiment. 図8(a)及び図8(b)は、第2の実施形態に係るグループ化部の動作例を例示する模式図である。FIG. 8A and FIG. 8B are schematic views illustrating an operation example of the grouping unit according to the second embodiment. 第3の実施形態に係る画像処理装置を例示するブロック図である。It is a block diagram which illustrates the image processing device concerning a 3rd embodiment. 第3の実施形態に係る傾き補正方法を例示する模式図である。It is a schematic diagram which illustrates the inclination correction method which concerns on 3rd Embodiment. 第4の実施形態に係る画像処理装置を例示するブロック図である。It is a block diagram which illustrates the image processing device concerning a 4th embodiment.

以下に、本発明の各実施の形態について図面を参照しつつ説明する。
なお、図面は模式的または概念的なものであり、各部分の厚みと幅との関係、部分間の大きさの比率などは、必ずしも現実のものと同一とは限らない。また、同じ部分を表す場合であっても、図面により互いの寸法や比率が異なって表される場合もある。
なお、本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
Embodiments of the present invention will be described below with reference to the drawings.
The drawings are schematic or conceptual, and the relationship between the thickness and width of each part, the size ratio between the parts, and the like are not necessarily the same as actual ones. Further, even when the same part is represented, the dimensions and ratios may be represented differently depending on the drawings.
Note that, in the present specification and each drawing, the same elements as those described above with reference to the previous drawings are denoted by the same reference numerals, and detailed description thereof is omitted as appropriate.

(第1の実施形態)
図1は、第1の実施形態に係る画像処理装置を例示するブロック図である。
実施形態に係る画像処理装置110は、第1取得部11と、第2取得物12と、処理部20と、表示部30と、を含む。第1取得部11には、例えば、入出力端子が用いられる。取得部10は、有線または無線を介して外部と通信する入出力インタフェースを含む。処理部20には、例えば、CPU(Central Processing Unit)やメモリなどを含む演算装置が用いられる。処理部20の各ブロックの一部、又は全部には、LSI(Large Scale Integration)等の集積回路またはIC(Integrated Circuit)チップセットを用いることができる。各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
(First embodiment)
FIG. 1 is a block diagram illustrating an image processing apparatus according to the first embodiment.
The image processing apparatus 110 according to the embodiment includes a first acquisition unit 11, a second acquisition object 12, a processing unit 20, and a display unit 30. For example, an input / output terminal is used for the first acquisition unit 11. The acquisition unit 10 includes an input / output interface that communicates with the outside via a wired or wireless connection. For the processing unit 20, for example, an arithmetic device including a CPU (Central Processing Unit) and a memory is used. An integrated circuit such as LSI (Large Scale Integration) or an IC (Integrated Circuit) chip set can be used for some or all of the blocks of the processing unit 20. An individual circuit may be used for each block, or a circuit in which part or all of the blocks are integrated may be used. Each block may be provided integrally, or a part of the blocks may be provided separately. In addition, a part of each block may be provided separately. The integration is not limited to LSI, and a dedicated circuit or a general-purpose processor may be used.

処理部20には、検出部21と、選択部22と、が設けられる。これらの各部は、例えば、画像処理プログラムとして実現される。すなわち、画像処理装置110は、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現される。画像処理装置110に含まれる各部の機能は、上記のコンピュータ装置に搭載されたプロセッサに画像処理プログラムを実行させることにより実現することができる。このとき、画像処理装置110は、上記の画像処理プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記の画像処理プログラムを配布して、この画像処理プログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、処理部20は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。   The processing unit 20 is provided with a detection unit 21 and a selection unit 22. Each of these units is realized as an image processing program, for example. That is, the image processing apparatus 110 can also be realized by using a general-purpose computer apparatus as basic hardware. The functions of the units included in the image processing apparatus 110 can be realized by causing a processor mounted on the computer apparatus to execute an image processing program. At this time, the image processing apparatus 110 may be realized by installing the above-described image processing program in a computer device in advance, or may be stored in a storage medium such as a CD-ROM or via the network. It may be realized by distributing a processing program and installing the image processing program in a computer apparatus as appropriate. The processing unit 20 is realized by appropriately using a memory, a hard disk or a storage medium such as a CD-R, a CD-RW, a DVD-RAM, a DVD-R, or the like that is built in or externally attached to the computer device. Can do.

表示部30は、例えば、液晶ディスプレイなどで構成される。この例においては、表示部30は、第2取得部12を含む。第2取得部12は、例えば、表示部30に一体で設けられたタッチパネルを含む。   The display unit 30 is configured by a liquid crystal display, for example. In this example, the display unit 30 includes the second acquisition unit 12. The second acquisition unit 12 includes, for example, a touch panel provided integrally with the display unit 30.

実施形態において、第1取得部11は、文字列を含む複数の画像に関するデータを時系列に取得する。
第2取得部12は、ユーザからの入力を受け取る。
検出部21は、検出動作を実施する。検出動作は、複数の画像から複数の画像領域を検出することを含む。複数の画像領域のそれぞれは、複数の画像のそれぞれに含まれる文字列のそれぞれを含む。複数の画像領域のそれぞれは、検出時刻に検出される。複数の画像領域のそれぞれは、画像領域位置を有する。
選択部22は、選択動作を実施する。選択動作は、複数の画像領域のうちの少なくとも1つを選択することを含む。選択は、複数の画像領域のそれぞれの検出時刻と、第2取得部12で入力を受け取った受取時刻と、の第1差、及び、複数の画像領域のそれぞれの画像領域位置と、入力の位置と、の第2差に基づいて行う。
In the embodiment, the first acquisition unit 11 acquires data related to a plurality of images including a character string in time series.
The second acquisition unit 12 receives input from the user.
The detection unit 21 performs a detection operation. The detection operation includes detecting a plurality of image regions from the plurality of images. Each of the plurality of image regions includes each of character strings included in each of the plurality of images. Each of the plurality of image areas is detected at the detection time. Each of the plurality of image areas has an image area position.
The selection unit 22 performs a selection operation. The selection operation includes selecting at least one of the plurality of image regions. The selection includes the first difference between the detection time of each of the plurality of image areas and the reception time at which the input is received by the second acquisition unit 12, the position of each image area of the plurality of image areas, and the input position. And based on the second difference.

画像処理装置において、リアルタイムで撮影している画像を表示させながら、ユーザに画像内の所望の文字列を選択させ、文字列に関する様々な情報を表示する場合を想定する。この場合、ユーザが画像内の所望の文字列を認識し、文字列を選択するまでにタイムラグが生じる。画像内の文字列の位置はタイムラグの間に変化してしまう場合がある。このため、ユーザは所望の文字列を選択できない可能性がある。   In the image processing apparatus, it is assumed that the user selects a desired character string in the image and displays various information regarding the character string while displaying the image taken in real time. In this case, a time lag occurs until the user recognizes a desired character string in the image and selects the character string. The position of the character string in the image may change during the time lag. For this reason, the user may not be able to select a desired character string.

これに対して、実施形態に係る画像処理装置110は、文字列を含む複数の画像を時系列に取得し、複数の画像から複数の画像領域を検出する。複数の画像領域のそれぞれは文字列のそれぞれを含む。画像処理装置110は、ユーザからの入力を受け取り、入力の受取時刻を基準として、複数の画像領域のうちで入力の位置に近い画像領域を選択する。これにより、ユーザは、確実に所望の文字列を選択することができる。   On the other hand, the image processing apparatus 110 according to the embodiment acquires a plurality of images including a character string in time series, and detects a plurality of image regions from the plurality of images. Each of the plurality of image areas includes each of character strings. The image processing apparatus 110 receives an input from the user, and selects an image area close to the input position from among a plurality of image areas with reference to the input reception time. Thereby, the user can select a desired character string reliably.

図2は、複数の画像を例示する図である。
図2に表すように、複数の画像に関するデータ40、40j+1、…、40(以下、画像40、40j+1、…、40という)は、、時系列に取得される。複数の画像40、40j+1、…、40のそれぞれは、文字列を含む。画像40、40j+1、…、40は、例えば、看板、標識、レストランのメニューなどの実空間に存在する文字列を含む画像であればよい。第1取得部11は、時刻tにおいて画像40を取得し、時刻tj+1において画像40j+1を取得し、時刻tにおいて画像40を取得する。第1取得部11は、画像40、40j+1、…、40を、デジタルスチルカメラなどの撮像デバイスから取得してもよい。この場合、撮像デバイスは、画像処理装置110と一体で設けられていてもよいし、別体で設けられていてもよい。表示部30は、複数の画像40、40j+1、…、40を取得した順に表示する。
FIG. 2 is a diagram illustrating a plurality of images.
As shown in FIG. 2, data 40 j , 40 j + 1 ,..., 40 k (hereinafter referred to as images 40 j , 40 j + 1 ,..., 40 k ) related to a plurality of images are acquired in time series. Each of the plurality of images 40 j , 40 j + 1 ,..., 40 k includes a character string. The images 40 j , 40 j + 1 ,..., 40 k may be images including character strings existing in real space such as signs, signs, and restaurant menus. The first acquisition unit 11 acquires the image 40 j at time t j , acquires the image 40 j + 1 at time t j + 1 , and acquires the image 40 k at time t k . The first acquisition unit 11 may acquire the images 40 j , 40 j + 1 ,..., 40 k from an imaging device such as a digital still camera. In this case, the imaging device may be provided integrally with the image processing apparatus 110 or may be provided separately. Display unit 30, a plurality of images 40 j, 40 j + 1, ..., are displayed in the order that has acquired the 40 k.

検出部21は、複数の画像40、40j+1、…、40から複数の画像領域を検出する。この例においては、画像40から画像領域R1〜R4が検出される。画像領域R1は文字列c1を含む。画像領域R2は文字列c2を含む。画像領域R3は文字列c3を含む。画像領域R4は文字列c4を含む。同様に、画像40j+1から画像領域R1j+1〜R4j+1が検出される。画像領域R1j+1は文字列c1j+1を含む。画像領域R2j+1は文字列c2j+1を含む。画像領域R3j+1は文字列c3j+1を含む。画像領域R4j+1は文字列c4j+1を含む。画像40から画像領域R1〜R3が検出される。画像領域R1は文字列c1を含む。画像領域R2は文字列c2を含む。画像領域R3は文字列c3を含む。これらの画像40、40j+1、…、40の1つを、単に画像40ともいう。 The detection unit 21 detects a plurality of image regions from the plurality of images 40 j , 40 j + 1 ,..., 40 k . In this example, image regions R1 j to R4 j are detected from the image 40 j . The image area R1 j includes a character string c1 j . The image area R2 j includes a character string c2 j . The image area R3 j includes a character string c3 j . The image region R4 j includes a character string c4 j . Similarly, image regions R1 j + 1 to R4 j + 1 are detected from the image 40 j + 1 . The image area R1 j + 1 includes a character string c1 j + 1 . The image area R2 j + 1 includes a character string c2 j + 1 . The image area R3 j + 1 includes a character string c3 j + 1 . The image area R4 j + 1 includes a character string c4 j + 1 . Image regions R1 k to R3 k are detected from the image 40 k . The image area R1 k includes a character string c1 k . The image area R2 k includes a character string c2 k . The image region R3 k includes a character string c3 k . One of these images 40 j , 40 j + 1 ,..., 40 k is also simply referred to as an image 40.

画像領域R1〜R4、R1j+1〜R4j+1、…、R1〜R3のそれぞれは、例えば、矩形状の領域で表される。検出部21は、画像領域R1〜R4、R1j+1〜R4j+1、…、R1〜R3のそれぞれの検出時刻及び画像領域位置を取得する。なお、処理部20は、時刻を取得するための時計機能を有する。この例においては、画像領域R1〜R4の検出時刻は、t(検出時刻t)である。画像領域R1j+1〜R4j+1の検出時刻は、tj+1(検出時刻tj+1)である。画像領域R1〜R3の検出時刻は、t(検出時刻t)である。これらの画像領域R1〜R4、R1j+1〜R4j+1、…、R1〜R3の1つを、単に画像領域Rともいう。表示部30は、複数の画像領域Rをユーザが識別可能なように、文字列を囲む枠などで表示してもよい。 Each of the image areas R1 j to R4 j , R1 j + 1 to R4 j + 1 ,..., R1 k to R3 k is represented by a rectangular area, for example. The detection unit 21 acquires the detection times and image region positions of the image regions R1 j to R4 j , R1 j + 1 to R4 j + 1 ,..., R1 k to R3 k . Note that the processing unit 20 has a clock function for acquiring time. In this example, the detection times of the image regions R1 j to R4 j are t j (detection time t j ). The detection times of the image areas R1 j + 1 to R4 j + 1 are t j + 1 (detection time t j + 1 ). The detection times of the image areas R1 k to R3 k are t k (detection time t k ). One of these image regions R1 j to R4 j , R1 j + 1 to R4 j + 1 ,..., R1 k to R3 k is also simply referred to as an image region R. The display unit 30 may display a plurality of image regions R with a frame surrounding a character string so that the user can identify the image regions R.

図3は、第1の実施形態に係る検出部21の動作例を例示する模式図である。
図中、X方向は画像の水平方向に沿う。Y方向は画像の垂直方向に沿う。T方向は時間方向を表す。
FIG. 3 is a schematic view illustrating an operation example of the detection unit 21 according to the first embodiment.
In the figure, the X direction is along the horizontal direction of the image. The Y direction is along the vertical direction of the image. The T direction represents the time direction.

図3に表すように、画像40及び画像40は、時系列に取得される。画像40及び画像40のそれぞれは、文字列(図示せず)を含む。画像40は、任意の時刻t(t≦t<t)において取得される。画像40は、画像40、40j+1、…の中のいずれかである。画像40は、時刻tにおいて取得される。ここでは2つの画像を例示しているが、3つ以上の画像でもよい。 As illustrated in FIG. 3, the image 40 and the image 40 k are acquired in time series. Each of the image 40 and the image 40 k includes a character string (not shown). The image 40 is acquired at an arbitrary time t (t j ≦ t <t k ). The image 40 is one of the images 40 j , 40 j + 1,. Image 40 k is acquired at time t k . Although two images are illustrated here, three or more images may be used.

例えば、画像40から、文字列を含む画像領域R が検出される。画像領域R は、時刻tでのi番目の検出結果であることを意味する。画像領域R 内の文字列が直線状である場合には、画像領域R の画像領域位置pは、4点の2次元座標(x (1)、y (1))、(x (2)、y (2))、(x (3)、y (3))、(x (4)、y (4))を用いて表すことができる。 For example, the image 40, the image region R i t including the character string is detected. The image area R i t means the i-th detection result at time t. If the character string in the image region R i t is linear, the image area position of the image region R i t p t is two-dimensional coordinates of 4 points (x i t (1), y i t (1 )), (x i t ( 2), y i t (2)), (x i t (3), y i t (3)), (x i t (4), y i t (4)) Can be used.

この例においては、時刻tのi番目の画像領域R の画像領域位置pは、(x (1)、y (1)、x (2)、y (2)、x (3)、y (3)、x (4)、y (4)、t)、で表される。 In this example, the image area position p t of the i-th image area R i t at time t is (x i t (1), y i t (1), x i t (2), y i t ( 2), x i t (3), y i t (3), x i t (4), y i t (4), t).

すなわち、複数の画像領域Rのそれぞれの画像領域位置pは、画像領域R と同様に、4点の2次元座標を用いて表すことができる。このようにして、複数の画像領域Rのそれぞれの検出時刻t及び画像領域位置pを得ることができる。 That is, each image area position p t of the plurality of image regions R, as in the image region R i t, can be expressed using the two-dimensional coordinates of 4 points. In this way, it is possible to obtain the respective detection time t and the image area position p t of the plurality of image areas R.

ここで、文字列の検出方法の具体例について説明する。例えば、画像中の画素のうち、隣接する画素間で、画素の色などの特徴が類似する画素同士を連結して、1つ以上の連結成分を生成する。具体的には、画像中の画素を白及び黒で二値化し、二値化された画素のうち黒画素が隣接して2つ以上連続する場合、連続する黒画素の集合を連結成分として生成する。   Here, a specific example of a character string detection method will be described. For example, among pixels in an image, pixels having similar characteristics such as pixel color are connected between adjacent pixels to generate one or more connected components. Specifically, when pixels in the image are binarized with white and black, and two or more black pixels adjacent to each other are consecutively generated, a set of continuous black pixels is generated as a connected component. To do.

連結成分の位置関係及び連結成分の類似度に応じて、略同一直線上に並ぶ連結成分を組み合わせ、文字列として検出する。具体的には、例えば、連結成分毎に特徴ベクトルを生成し、2つの連結成分間の位置関係及び特徴の類似度を、特徴ベクトルの距離で定義する。特徴ベクトルの距離が閾値未満であれば、2つの連結成分は類似しており同一直線上に並ぶと考えられる。この場合、2つの連結成分を接続する。特徴ベクトルの各要素としては、例えば、連結成分の中心点を表すx座標及びy座標、各連結成分の平均色、連結成分のサイズ(高さ、幅、周囲長など)が挙げられる。なお、中心点とは、例えば、連結成分に対して外接する矩形の中央点であればよい。このようにして検出された文字列に外接する矩形状の領域を、画像領域として検出する。文字列の検出方法は、これに限定されない。   In accordance with the positional relationship of the connected components and the similarity of the connected components, the connected components arranged on substantially the same straight line are combined and detected as a character string. Specifically, for example, a feature vector is generated for each connected component, and the positional relationship between the two connected components and the feature similarity are defined by the distance between the feature vectors. If the distance of the feature vector is less than the threshold value, the two connected components are similar and are considered to be aligned on the same straight line. In this case, two connected components are connected. Examples of each element of the feature vector include an x coordinate and ay coordinate representing the center point of the connected component, an average color of each connected component, and a size (height, width, perimeter length, etc.) of the connected component. The center point may be, for example, a rectangular center point that circumscribes the connected component. A rectangular area circumscribing the character string thus detected is detected as an image area. The method for detecting the character string is not limited to this.

第2取得部12は、ユーザから指示された指示位置pの入力を受け取る。第2取得部12は、例えば、タッチパネルを含む。処理部20は、時計機能を用いて、第2取得部12が指示位置pの入力を受け取った受取時刻t(>検出時刻t)を取得する。指示位置pは、例えば、ユーザがタッチパネルに対してタップ操作などを行うことで指示される表示画面上の位置である。指示位置pは、例えば、受取時刻tにおける表示画面上の2次元座標を用いて表すことができる。指示位置pは、例えば、(x、y、t)で表される。なお、指示位置pの取得方法は、タッチパネルに限定されない。指示位置pは、例えば、マウスなどのポインティングデバイスを用いて取得してもよい。 The second acquisition unit 12 receives an input of the designated position p designated by the user. The second acquisition unit 12 includes, for example, a touch panel. The processing unit 20 acquires the reception time t p (> detection time t k ) when the second acquisition unit 12 receives the input of the designated position p using the clock function. The designated position p is, for example, a position on the display screen that is designated when the user performs a tap operation or the like on the touch panel. Indication position p, for example, can be represented using a two-dimensional coordinates on the display screen in the reception time t p. The designated position p is represented, for example, by (x k , y k , t p ). In addition, the acquisition method of the designated position p is not limited to a touch panel. The pointing position p may be acquired using a pointing device such as a mouse, for example.

図4(a)〜図4(c)は、指示位置pの取得方法を例示する模式図である。
実施形態に係る表示部30は、第2取得部12として、タッチパネルを一体で備えている。表示部30は、画像40を表示する。指示位置pは、図4(a)に表すように、表示部30の表示画面上の1つの点として入力される。指示位置pは、例えば、ユーザがタップ操作を行うことで入力される。この場合、指示位置pは、1つの座標で表される。このようにして、指示位置pの座標点(x、y)と、受取時刻tと、が取得される。
FIG. 4A to FIG. 4C are schematic views illustrating a method for obtaining the designated position p.
The display unit 30 according to the embodiment integrally includes a touch panel as the second acquisition unit 12. The display unit 30 displays the image 40k . The designated position p is input as one point on the display screen of the display unit 30 as shown in FIG. The designated position p is input, for example, when the user performs a tap operation. In this case, the designated position p is represented by one coordinate. In this way, the coordinate point of the indication position p (x k, y k) and a receiving time t p, it is obtained.

指示位置pは、図4(b)に表すように、表示部30の表示画面上に線分として入力される。指示位置pは、例えば、ユーザがドラッグ操作で線分を描くことで入力される。線分の形状は限定されない。線分は折れ曲がっていてもよい。この場合、指示位置pは、座標群で表される。座標群は、表示画面上で連続して指定される複数の座標からなる。このようにして、指示位置pの座標群を構成する各座標点p(x(k)、y(k))(k=1,2,…,K)と、受取時刻tと、が取得される。 The designated position p is input as a line segment on the display screen of the display unit 30 as shown in FIG. The designated position p is input, for example, when the user draws a line segment by a drag operation. The shape of the line segment is not limited. The line segment may be bent. In this case, the designated position p is represented by a coordinate group. The coordinate group is composed of a plurality of coordinates that are successively specified on the display screen. In this way, each coordinate point p k (x k (k), y k (k)) (k = 1, 2,..., K) constituting the coordinate group of the designated position p, and the reception time t p , Is acquired.

指示位置pは、図4(c)に表すように、表示部30の表示画面上に領域として入力される。指示位置pは、例えば、ユーザがドラッグ操作で囲み線を描くことで入力される。囲み線の形状は限定されない。囲み線は折れ曲がっていてもよい。この場合、指示位置pは、座標領域で表される。座標領域は、表示画面上で連続して指定される複数の座標からなる座標群で囲まれている。このようにして、指示位置pの座標領域を構成する各座標点p(x(k)、y(k))(k=1,2,…,K)と、受取時刻tと、が取得される。 The designated position p is input as an area on the display screen of the display unit 30 as shown in FIG. The designated position p is input, for example, when the user draws a surrounding line by a drag operation. The shape of the surrounding line is not limited. The encircling line may be bent. In this case, the designated position p is represented by a coordinate area. The coordinate area is surrounded by a coordinate group composed of a plurality of coordinates that are successively designated on the display screen. In this way, each coordinate point p k (x k (k), y k (k)) (k = 1, 2,..., K) constituting the coordinate area of the designated position p, and the reception time t p , Is acquired.

図5は、第1の実施形態に係る選択部22の動作例を例示する模式図である。
図中、X方向は画像の水平方向に沿う。Y方向は画像の垂直方向に沿う。T方向は時間方向を表す。
FIG. 5 is a schematic view illustrating an operation example of the selection unit 22 according to the first embodiment.
In the figure, the X direction is along the horizontal direction of the image. The Y direction is along the vertical direction of the image. The T direction represents the time direction.

選択部22は、複数の画像領域Rのうちの少なくとも1つを選択する選択動作を行う。選択は、第1差及び第2差に基づいて行われる。第1差は、複数の画像領域Rのそれぞれの検出時刻tと、受取時刻tと、の差である。第2差は、複数の画像領域Rのそれぞれの画像領域位置pと、指示位置pと、の差である。具体的には、複数の画像領域Rのうちで選択された少なくとも1つの第1差は、複数の画像領域Rのうちで選択されなかった別の1つの第1差よりも小さい。複数の画像領域Rのうちで選択された少なくとも1つの第2差は、複数の画像領域Rのうちで選択されなかった別の1つの第2差よりも小さい。 The selection unit 22 performs a selection operation for selecting at least one of the plurality of image regions R. The selection is made based on the first difference and the second difference. The first difference, each of the detection time t of the plurality of image areas R, which is the difference between the reception time t p,. The second difference, each of the image area position p t of the plurality of image areas R, which is the difference between the indicated position p,. Specifically, at least one first difference selected from among the plurality of image regions R is smaller than another one first difference that has not been selected from among the plurality of image regions R. At least one second difference selected from among the plurality of image regions R is smaller than another second difference that has not been selected from among the plurality of image regions R.

例えば、選択部22は、複数の画像領域Rの中から、受取時刻tから一定時間δ内に検出された画像領域Rを抽出する。一定時間δは、予め実験などに基づいて定められた値である。 For example, the selection unit 22 from among the plurality of image regions R, and extracts an image region R that has been detected from the receiving time t p in a certain time period [delta] t. The fixed time δ t is a value determined in advance based on experiments or the like.

図5に表すように、画像領域R1a〜R1c、画像領域R2a〜R2c、画像領域R3a、R3b、及び、画像領域R4a、R4bが検出されている。画像領域R1a〜R1c、画像領域R2a〜R2c、画像領域R3a、R3b、及び、画像領域R4a、R4bの各画像領域Rについて、検出時刻tが取得されている。   As shown in FIG. 5, image areas R1a to R1c, image areas R2a to R2c, image areas R3a and R3b, and image areas R4a and R4b are detected. The detection time t is acquired for each of the image areas R1a to R1c, image areas R2a to R2c, image areas R3a and R3b, and image areas R4a and R4b.

選択部22は、各画像領域Rのそれぞれの検出時刻tに基づいて、指示位置pの受取時刻tから一定時間δ内に検出された画像領域Rを、画像領域R1a〜R1c、画像領域R2a〜R2c、画像領域R3a、R3b、及び、画像領域R4a、R4bの中から抽出する。つまり、画像領域R1a〜R1c、画像領域R2a〜R2c、画像領域R3a、R3b、及び、画像領域R4a、R4bのそれぞれの検出時刻tと、受取時刻tと、の差(第1差)が、一定時間δ内にある画像領域Rが抽出される。以下では、抽出された画像領域Rを、抽出領域RAという。 Selection unit 22 based on the respective detection time t of the image region R, an image region R that has been detected from the receiving time t p of the indicated position p within a predetermined time [delta] t, the image area R1a~R1c, the image area Extracted from R2a to R2c, image regions R3a and R3b, and image regions R4a and R4b. That is, the image area R1a~R1c, the image area R2a~R2c, image region R3a, R3b, and the image area R4a, respectively and detection time t of R4b, a receiving time t p, the difference (first difference), image region R are extracted within a certain time period [delta] t. Hereinafter, the extracted image region R is referred to as an extraction region RA.

この例においては、画像領域R1a〜R1c、画像領域R2a〜R2c、画像領域R3a、R3b、及び、画像領域R4aが、抽出領域RAとなる。抽出領域RA1a〜RA1cは、画像領域R1a〜R1cに対応する。抽出領域RA2a〜RA2cは、画像領域R2a〜R2cに対応する。抽出領域RA3a、RA3bは、画像領域R3a、R3bに対応する。抽出領域RA4aは、画像領域R4aに対応する。画像領域R4bは、一定時間δ内に検出されていない。このため、画像領域R4bは抽出されない。 In this example, the image areas R1a to R1c, the image areas R2a to R2c, the image areas R3a and R3b, and the image area R4a are the extraction area RA. The extraction areas RA1a to RA1c correspond to the image areas R1a to R1c. The extraction areas RA2a to RA2c correspond to the image areas R2a to R2c. The extraction areas RA3a and RA3b correspond to the image areas R3a and R3b. The extraction area RA4a corresponds to the image area R4a. Image area R4b is not detected within a predetermined time [delta] t. For this reason, the image region R4b is not extracted.

人間の視覚の平均的な反応時間は、例えば、180ms以上、200ms以下、とされる。この反応時間は、ユーザが画像内に所望の文字列を認識してから、指などで画像にタッチ操作するまでのタイムラグとなる。このため、一定時間δとしては、タイムラグを考慮し、例えば、100ミリ秒(ms)以上、500ms以下とすることが望ましい。このように、実施形態においては、ユーザの操作を受け取った受取時刻tから一定時間δだけ過去に検出された画像領域Rを選択対象とする。 The average reaction time of human vision is, for example, 180 ms or more and 200 ms or less. This reaction time is a time lag from when the user recognizes a desired character string in the image until the user touches the image with a finger or the like. For this reason, the fixed time δ t is preferably set to, for example, 100 milliseconds (ms) or more and 500 ms or less in consideration of a time lag. Thus, in the embodiment, the image region R that has been detected only in the past t certain time δ from the receiving time t p, which has received the user operation a selection target.

選択部22は、複数の抽出領域RA(ここでは、抽出領域RA1a〜RA1c、抽出領域RA2a〜RA2c、抽出領域RA3a、RA3b、及び、抽出領域RA4a)のそれぞれの画像領域位置pと、指示位置pと、の第2差(距離)を算出し、算出した距離に基づいて、複数の抽出領域RAの少なくとも1つを選択する。具体的には、例えば、図3に表すように、距離尺度dist(p、R )を算出する。x、yは画像の水平及び垂直方向の座標を表し、tは検出時刻を表す。距離尺度dist(p、R )は、画像領域R と、指示位置pと、の間の距離を表す。距離尺度dist(p、R )は、次式により算出できる。この例においては、図4(a)に表すように、指示位置pが座標点の場合について示す。 Selecting unit 22 (here, the extraction region RA1a~RA1c, extraction region RA2a~RA2c, extraction region RA3a, RA3b, and extraction region RA4a) a plurality of extraction regions RA and each image area position p t of the designation position A second difference (distance) from p is calculated, and at least one of the plurality of extraction regions RA is selected based on the calculated distance. Specifically, for example, as shown in FIG. 3, a distance scale dist (p, R i t ) is calculated. x and y represent the horizontal and vertical coordinates of the image, and t represents the detection time. The distance measure dist (p, R i t ) represents the distance between the image region R i t and the designated position p. The distance measure dist (p, R i t ) can be calculated by the following equation. In this example, as shown in FIG. 4A, a case where the designated position p is a coordinate point is shown.

点p′(x′、y′、t′)は、画像領域R に含まれる任意の座標点を表す。つまり、式2により、距離D(p、p′)を求める。距離D(p、p′)は、指示位置pの座標点(x、y、t)と、画像領域R に含まれる複数の点p′(x′、y′、t′)のそれぞれとの間の距離である。そして、式1により、距離D(p、p′)の最小値を、距離尺度dist(p、R )として求める。なお、この例においては、検出時刻tを考慮し、(x、y、t)の座標系を用いたが、検出時刻tを考慮せずに、(x、y)のみを用いて距離尺度を求めてもよい。 The point p ′ (x ′, y ′, t ′) represents an arbitrary coordinate point included in the image region R i t . In other words, the distance D (p, p ′) is obtained from Equation 2. The distance D (p, p ′) is determined by the coordinate point (x k , y k , t p ) of the designated position p and a plurality of points p ′ (x ′, y ′, t ′) included in the image region R i t. ) Between each of them. Then, using Equation 1, the minimum value of the distance D (p, p ′) is obtained as a distance scale dist (p, R i t ). In this example, the coordinate system of (x, y, t) is used in consideration of the detection time t, but the distance scale is calculated using only (x, y) without considering the detection time t. You may ask for it.

ここで、図4(b)に表すように、指示位置pが線分である場合、または、図4(c)に表すように、指示位置pが領域である場合、式2により、指示位置pの各座標点p(x(k)、y(k))(k=1,2,…,K)について、画像領域R に含まれる複数の点p′(x′、y′、t′)のそれぞれとの間の距離D(p、p′)を求める。式1により、距離D(p、p′)の最小値を、dist(p、R )として求める。dist(p、R )は、指示位置pの各座標点pについて求められる。そして、次式により、dist(p、R )の合計値を算出し、これを距離尺度とすればよい。 Here, when the designated position p is a line segment as shown in FIG. 4B or when the designated position p is a region as shown in FIG. each coordinate point p k of p (x k (k), y k (k)) (k = 1,2, ..., K) for a plurality of points included in the image region R i t p '(x' , A distance D (p k , p ′) between each of y ′ and t ′) is obtained . According to Equation 1, the minimum value of the distance D (p k , p ′) is obtained as dist (p k , R i t ). dist (p k, R i t ) is determined for each coordinate point p k of the indication position p. Then, the total value of dist (p k , R i t ) may be calculated by the following formula and used as a distance scale.

なお、ここでは、距離尺度を、dist(p、R )の合計値としたが、距離尺度は、dist(p、R )の最大値または最小値としてもよい。 Here, the distance scale is the sum of dist (p k , R i t ), but the distance scale may be the maximum value or the minimum value of dist (p k , R i t ).

選択部22は、例えば、次式により、距離尺度dist(p、R )が最も小さい抽出領域RAを選択する。ここで、選択された抽出領域RAの第1差(検出時刻tと受取時刻tとの差)は、一定時間δ内にある。 For example, the selection unit 22 selects the extraction region RA having the smallest distance scale dist (p, R i t ) according to the following equation. Here, first differential of the selected extraction area RA (difference between the detection time t and receive time t p) is within the predetermined time [delta] t.

すなわち、距離尺度dist(p、R )を、t−δ≦t≦tの範囲で、最小となる(tmin、imin)を求める。これにより、時刻tminのimin番目の抽出領域RAが選択される。ここで、表示部30は、選択された抽出領域RAを、ユーザが画像内で識別可能な状態で表示してもよい。例えば、抽出領域RAの枠の色や、抽出領域RA内の文字列の色を変化させるなどの方法が考えられる。また、選択された抽出領域RAは、位置情報(座標及び時刻)のみをユーザに提供するようにしてもよい。画像は、例えば、外部のサーバ装置などに記憶される。この場合、位置情報と画像とを対応付けておき、位置情報から画像を読み出せるようにしておくとよい。 That is, the distance measure dist (p, R i t), and a range of t p -δ t ≦ t ≦ t p, determining the smallest (t min, i min). As a result, the i min th extraction region RA at time t min is selected. Here, the display unit 30 may display the selected extraction region RA in a state where the user can identify it in the image. For example, a method of changing the frame color of the extraction area RA or the color of the character string in the extraction area RA is conceivable. Further, the selected extraction area RA may provide only the position information (coordinates and time) to the user. The image is stored in, for example, an external server device. In this case, it is preferable to associate the position information and the image so that the image can be read from the position information.

選択部22は、距離尺度dist(p、R )が小さい順に複数の抽出領域RAを選択するようにしてもよい。例えば、距離尺度dist(p、R )が小さい順に5つの抽出領域RAを選択するように予め設定しておくとよい。この場合、選択された5つの抽出領域RAの画像がユーザに提示される。ユーザは、これら5つの抽出領域RAの画像の中から、所望の抽出領域RAの画像を選択することができる。 The selection unit 22 may select a plurality of extraction regions RA in ascending order of the distance scale dist (p, R i t ). For example, it may be set in advance so that the five extraction regions RA are selected in ascending order of the distance scale dist (p, R i t ). In this case, images of the five selected extraction areas RA are presented to the user. The user can select a desired image of the extraction area RA from the images of the five extraction areas RA.

図6(a)及び図6(b)は、参考例に係る画像処理装置の画像を例示する模式図である。
前述したように、リアルタイムで撮影している画像を表示させながら、ユーザに画像内の所望の文字列を選択させ、文字列に関する様々な情報を表示する画像処理装置を想定する。
FIG. 6A and FIG. 6B are schematic views illustrating images of the image processing apparatus according to the reference example.
As described above, an image processing apparatus is assumed in which a user selects a desired character string in an image and displays various information related to the character string while displaying an image captured in real time.

図6(a)の参考例において、複数の画像40、40j+1、…、40は、文字列を含み、時系列に取得される。画像40は時刻tにおいて取得され、画像40j+1は時刻tj+1において取得され、画像40は時刻tにおいて取得される。複数の画像40、40j+1、…、40から複数の画像領域Rが検出される。 In the reference example of FIG. 6A, the plurality of images 40 j , 40 j + 1 ,..., 40 k include character strings and are acquired in time series. Image 40 j is acquired at time t j , image 40 j + 1 is acquired at time t j + 1 , and image 40 k is acquired at time t k . A plurality of image regions R are detected from the plurality of images 40 j , 40 j + 1 ,..., 40 k .

この例においては、画像40から画像領域R1〜R4が検出される。画像領域R1は文字列c1を含む。画像領域R2は文字列c2を含む。画像領域R3は文字列c3を含む。画像領域R4は文字列c4を含む。同様に、画像40j+1から画像領域R1j+1〜R4j+1が検出される。画像領域R1j+1は文字列c1j+1を含む。画像領域R2j+1は文字列c2j+1を含む。画像領域R3j+1は文字列c3j+1を含む。画像領域R4j+1は文字列c4j+1を含む。画像40から画像領域R1〜R3が検出される。画像領域R1は文字列c1を含む。画像領域R2は文字列c2を含む。画像領域R3は文字列c3を含む。ここで、画像40においては、画像領域R4が検出されていない。 In this example, image regions R1 j to R4 j are detected from the image 40 j . The image area R1 j includes a character string c1 j . The image area R2 j includes a character string c2 j . The image area R3 j includes a character string c3 j . The image region R4 j includes a character string c4 j . Similarly, image regions R1 j + 1 to R4 j + 1 are detected from the image 40 j + 1 . The image area R1 j + 1 includes a character string c1 j + 1 . The image area R2 j + 1 includes a character string c2 j + 1 . The image area R3 j + 1 includes a character string c3 j + 1 . The image area R4 j + 1 includes a character string c4 j + 1 . Image regions R1 k to R3 k are detected from the image 40 k . The image area R1 k includes a character string c1 k . The image area R2 k includes a character string c2 k . The image region R3 k includes a character string c3 k . Here, in the image 40 k , the image region R4 k is not detected.

時刻tにおいて、ユーザが画像40内の文字列c4を認識し、これを選択するために、指fを動かす。時刻tにおいて、ユーザは指fで文字列c4にタッチする。しかしながら、文字列c4を含む画像領域R4は未検出であるため、画像領域R4を選択することはできない。 At time t j , the user recognizes the character string c4 j in the image 40 j and moves the finger f to select it. At time t k , the user touches character string c4 k with finger f. However, since the image region R4 k including the character string c4 k has not been detected, the image region R4 k cannot be selected.

図6(b)の参考例においては、画像40から画像領域R4が検出されている。しかし、時刻tにおいてカメラが上を向いてしまい、画像40内で文字列c4の位置が下側に移動している。つまり、時刻tにおいて、ユーザが画像40内の文字列c4を認識し、これを選択するために、指fを動かしたときに、文字列c4の移動のために、時刻tにおいて、ユーザは意図に反して指fで文字列c4の上をタッチしてしまう。この場合も、画像領域R4を選択することはできない。 In the reference example of FIG. 6B, an image region R4 k is detected from the image 40 k . However, the camera turns upward at time t k , and the position of the character string c4 k has moved downward in the image 40 k . That is, at time t j, for the user to recognize the character string c4 j in the image 40 j, selected, when you move the finger f, for movement of the string c4 k, time t k in, the user would touch the top of the string c4 k in the finger f contrary to the intention. Again, it is not possible to select an image area R4 k.

すなわち、ユーザが画像内の所望の文字列を認識し、選択するまでにタイムラグが生じる。タイムラグの間に画像内の文字列が検出されなかったり、タイムラグの間に画像内の文字列の位置が変化してしまうことが起こり得る。このため、ユーザは所望の文字列を選択できない可能性がある。   That is, there is a time lag until the user recognizes and selects a desired character string in the image. It is possible that the character string in the image is not detected during the time lag, or the position of the character string in the image changes during the time lag. For this reason, the user may not be able to select a desired character string.

これに対して、実施形態に係る画像処理装置110は、複数の画像40〜40を時系列に取得し、複数の画像40〜40から複数の画像領域R1〜を検出する。複数の画像領域R1〜のそれぞれは文字列を含む。画像処理装置110は、ユーザからの入力を受け取り、入力の受取時刻tを基準として、複数の画像領域R1〜のうちで指示位置pに近い画像領域Rを選択する。これにより、ユーザは、確実に所望の文字列を選択することができる。 In contrast, the image processing apparatus 110 according to the embodiment, to obtain a plurality of images 40 j to 40 k in a time series, detecting a plurality of image regions R1 j ~ from a plurality of images 40 j to 40 k. Each of the plurality of image regions R1 j to includes a character string. The image processing apparatus 110 receives an input from the user, based on the reception time t p of the input, selects the image region R near the indicated position p among the ~ plurality of image regions R1 j. Thereby, the user can select a desired character string reliably.

(第2の実施形態)
図7は、第2の実施形態に係る画像処理装置を例示するブロック図である。
実施形態に係る画像処理装置111は、処理部20を含む。処理部20は、検出部21、選択部22を含み、さらに、グループ化部23、グループ内選択部24を含む。
(Second Embodiment)
FIG. 7 is a block diagram illustrating an image processing apparatus according to the second embodiment.
The image processing apparatus 111 according to the embodiment includes a processing unit 20. The processing unit 20 includes a detection unit 21 and a selection unit 22, and further includes a grouping unit 23 and an in-group selection unit 24.

検出部21は、検出動作を実施する。検出動作は、複数の画像40〜40から複数の画像領域Rを検出すること、複数の画像領域Rのそれぞれの検出時刻t及び画像領域位置pを取得することを含む。検出部21は、さらに、複数の文字列のそれぞれについて文字列らしさを表す評価値S(R)を算出する。評価値S(R)は、例えば、文字列を構成する黒画素の連結成分それぞれの連結成分度Ciの特徴ベクトルをViとしたときに、文字列に含まれる連結成分i=1〜N(ただし、1〜Nが文字列の片方の始端からもう片方の始端にソートされて並んでいるものとする)として、以下の式を用いて計算することができる。なお、D(A、B)は、ベクトルAとベクトルBとのユークリッド距離を表す。 The detection unit 21 performs a detection operation. Detecting operation comprises detecting a plurality of image regions R from a plurality of images 40 j to 40 k, to obtain the respective detection time t and the image area position p t of the plurality of image areas R. The detection unit 21 further calculates an evaluation value S (R) that represents the character string likelihood for each of the plurality of character strings. The evaluation value S (R) is, for example, the connected components i = 1 to N (provided that the connected component degree Ci feature vector of each connected component of the black pixels constituting the character string is Vi). , 1 to N are assumed to be sorted and arranged from one starting end of the character string to the other starting end), and can be calculated using the following equation. D (A, B) represents the Euclidean distance between the vector A and the vector B.

第2取得部12は、ユーザからの指示位置pの入力を受け取る。このとき、処理部20は、時計機能を用いて、第2取得部12が指示位置pの入力を受け取った受取時刻tを取得する。 The second acquisition unit 12 receives an input of the designated position p from the user. At this time, the processing unit 20 uses the clock function, and acquires the reception time t p the second obtaining section 12 receives the input of the indication position p.

図8(a)及び図8(b)は、第2の実施形態に係るグループ化部23の動作例を例示する模式図である。
図8(b)は、図8(a)のW部を拡大した拡大図である。
図中、X方向は画像の水平方向に沿う。Y方向は画像の垂直方向に沿う。T方向は時間方向を表す。
FIG. 8A and FIG. 8B are schematic views illustrating an operation example of the grouping unit 23 according to the second embodiment.
FIG. 8B is an enlarged view of the W portion of FIG.
In the figure, the X direction is along the horizontal direction of the image. The Y direction is along the vertical direction of the image. The T direction represents the time direction.

グループ化部23は、グループ化動作を実施する。グループ化動作は、複数の画像領域Rの中で同一の文字列を含む画像領域Rをグループ化し、複数のグループGを生成することを含む。すなわち、グループ化部23は、近接する複数の画像領域Rを1つのグループにまとめる処理を行う。より具体的には、グループ化部23は、複数の画像40〜40の中から複数の文字列を検出し、同一と判定された文字列同士を画像40〜40間で対応付ける。これにより、文字列の追跡を行い、追跡結果に基づいて、同一の文字列を含む複数の画像領域Rを1つのグループにまとめる処理を行う。グループ化処理には、例えば、移動体(人物や車等)の追跡などで一般的に用いられる手法を利用することができる。 The grouping unit 23 performs a grouping operation. The grouping operation includes grouping image regions R including the same character string among the plurality of image regions R to generate a plurality of groups G. That is, the grouping unit 23 performs a process of grouping a plurality of adjacent image regions R into one group. More specifically, the grouping unit 23 detects a plurality of character strings from a plurality of images 40 j to 40 k, associating the character string with each other is determined identical between the image 40 j to 40 k. As a result, the character string is tracked, and a process of collecting a plurality of image regions R including the same character string into one group is performed based on the tracking result. For the grouping process, for example, a method generally used for tracking a moving object (person, car, etc.) can be used.

複数の画像領域Rが1つのグループGにグループ化されると、3次元の時空間上では立体的な形状として表される。この例においては、図8(a)に表すように、4つのグループG1〜G4が生成される。4つのグループG1〜G4のそれぞれは、例えば、直方体形状として表される。例えば、グループG1に含まれる画像領域Rの集合Rは、次式のように、N(g)個の画像領域Rで構成される。 When a plurality of image regions R are grouped into one group G, they are represented as a three-dimensional shape on a three-dimensional space-time. In this example, as shown in FIG. 8A, four groups G1 to G4 are generated. Each of the four groups G1 to G4 is represented as a rectangular parallelepiped shape, for example. For example, the set R g of the image region R included in the group G1, as the following equation, and a N (g) pieces of the image region R.

選択部22は、複数のグループG1〜G4のうちの少なくとも1つを選択する選択動作を実施する。選択は、第3差及び第4差に基づいて行われる。第3差は、複数のグループG1〜G4のそれぞれのグループ検出時刻tと、受取時刻tと、の差である。第4差は、複数のグループG1〜G4のそれぞれのグループ位置pと、指示位置pと、の差である。グループ検出時刻tは、各画像領域Rの検出時刻tに基づく。グループ位置pは、各画像領域Rの画像領域位置pに基づく。 The selection unit 22 performs a selection operation for selecting at least one of the plurality of groups G1 to G4. The selection is made based on the third difference and the fourth difference. The third difference is each a group detection time t of the plurality of groups G1 to G4, which is the difference between the reception time t p,. The fourth difference is each a group position p t of the plurality of groups G1 to G4, which is the difference between the indicated position p,. The group detection time t is based on the detection time t of each image region R. Group position p t is based on the image area position p t of each image region R.

複数のグループG1〜G4のうちで選択された少なくとも1つの第3差は、複数のグループG1〜G4のうちで選択されなかった別の1つの第3差よりも小さい。複数のグループG1〜G4のうちで選択された少なくとも1つの第4差は、複数のグループG1〜G4のうちで選択されなかった別の1つの第4差よりも小さい。   At least one third difference selected from the plurality of groups G1 to G4 is smaller than another third difference that has not been selected from the plurality of groups G1 to G4. At least one fourth difference selected from the plurality of groups G1 to G4 is smaller than another one fourth difference that has not been selected from the plurality of groups G1 to G4.

例えば、選択部22は、複数のグループG1〜G4の中から、複数の抽出領域RAを含むグループGを抽出する。なお、抽出領域RAは、指示位置pの受取時刻tから一定時間δ内に検出された画像領域Rのことを意味する。複数のグループG1〜G4のそれぞれのグループ検出時刻tと、受取時刻tと、の差(第3差)が、一定時間δ内にあるグループGが抽出される。以下では、抽出されたグループGを、抽出グループGAという。本例においては、グループG1〜G4が全て抽出されている。このため、グループG1〜G4と、抽出グループGA1〜GA4と、が一致する。 For example, the selection unit 22 extracts a group G including a plurality of extraction regions RA from the plurality of groups G1 to G4. Incidentally, the extraction area RA, this means that the detected image area R for a predetermined time δ in t from the receiving time t p of the indication position p. And each group detection time t of the plurality of groups G1 to G4, a receiving time t p, the difference (third differential), the group G is extracted within a certain time period [delta] t. Hereinafter, the extracted group G is referred to as an extracted group GA. In this example, all the groups G1 to G4 are extracted. For this reason, the groups G1 to G4 coincide with the extraction groups GA1 to GA4.

選択部22は、複数の抽出グループGA1〜GA4のそれぞれと、指示位置pと、の第4差(距離)を算出し、算出した距離に基づいて、複数の抽出グループGA1〜GA4の少なくとも1つを選択する。この距離は、例えば、距離尺度dist(p、R)で表される。選択部22は、次式により、距離尺度dist(p、R)を算出し、距離尺度dist(p、R)が最も小さい抽出グループGAを選択する。例えば、抽出グループGA1が選択される。 The selection unit 22 calculates a fourth difference (distance) between each of the plurality of extraction groups GA1 to GA4 and the designated position p, and based on the calculated distance, at least one of the plurality of extraction groups GA1 to GA4. Select. This distance is represented by, for example, a distance scale dist (p, R g ). The selection unit 22 calculates the distance measure dist (p, R g ) according to the following equation, and selects the extraction group GA having the smallest distance measure dist (p, R g ). For example, the extraction group GA1 is selected.

式7において、点p′(x′、y′、t′)は、抽出グループGAを構成する画像領域R 、R 、…RN(g) のそれぞれに含まれる任意の座標点を表す。つまり、前述の式2により、距離D(p、p′)を求める。距離D(p、p′)は、指示位置pの座標点(x、y、t)と、画像領域R 、R 、…RN(g) に含まれる複数の点p′(x′、y′、t′)のそれぞれとの間の距離である。そして、式1により、距離D(p、p′)の最小値を、距離尺度dist(p、R)として求める。 In Expression 7, the point p ′ (x ′, y ′, t ′) is an arbitrary coordinate included in each of the image regions R 1 g , R 2 g ,... RN (g) g constituting the extraction group GA. Represents a point. That is, the distance D (p, p ′) is obtained by the above-described equation 2. The distance D (p, p ′) is a plurality of coordinate points (x k , y k , t p ) of the designated position p and a plurality of image regions R 1 g , R 2 g ,... RN (g) g The distance between each of the points p ′ (x ′, y ′, t ′). Then, the minimum value of the distance D (p, p ′) is obtained as a distance scale dist (p, R g ) using Equation 1.

グループ内選択部24は、グループ内選択動作を実施する。グループ内選択動作は、選択部22で選択された抽出グループGA1に含まれる複数の抽出領域RA〜RANの中から少なくとも1つを選択することを含む。例えば、複数の抽出領域RA1〜RANの中で、評価値S(R)が最も高い文字列を含む抽出領域RAを選択する。ある抽出グループGAに属するN(g)個の抽出領域RAの中から、評価値S(R )が最も高い抽出領域Rmax を、次式により選択することができる。なお、R とは、ある抽出グループGAのj番目の抽出領域であることを意味する。 The intra-group selection unit 24 performs an intra-group selection operation. The intra-group selection operation includes selecting at least one from among a plurality of extraction regions RA to RAN included in the extraction group GA1 selected by the selection unit 22. For example, the extraction region RA including the character string having the highest evaluation value S (R) is selected from the plurality of extraction regions RA1 to RAN. From among N (g) extraction regions RA belonging to a certain extraction group GA, the extraction region R max g having the highest evaluation value S (R j g ) can be selected by the following equation. Note that R j g means the j-th extraction region of a certain extraction group GA.

グループ内選択部24は、別のグループ内選択動作を実施してもよい。この場合、選択は、第5差に基づいて行われる。第5差は、複数の抽出領域RA1〜RANのそれぞれの画像領域位置pと、指示位置pと、の差である。つまり、グループ内選択部24は、複数の抽出領域RA1〜RANのそれぞれと、指示位置pと、の間の第5差(距離)を算出し、算出した距離が最も短い抽出領域RAを選択してもよい。この距離は、例えば、距離尺度d(p、R )で表される。例えば、ある検出グループGAに属するN(g)個の抽出領域RAの中から、距離尺度d(p、R )が最も小さい抽出領域Rmin を、次式により算出することができる。なお、R とは、ある抽出グループGAのj番目の抽出領域であることを意味する。 The intra-group selection unit 24 may perform another intra-group selection operation. In this case, the selection is made based on the fifth difference. Fifth difference, the respective image area position p t of the plurality of extraction regions RA1-RAn, which is the difference between the indicated position p,. That is, the intra-group selection unit 24 calculates the fifth difference (distance) between each of the plurality of extraction regions RA1 to RAN and the designated position p, and selects the extraction region RA with the shortest calculated distance. May be. This distance is represented by a distance scale d (p, R j g ), for example. For example, an extraction region R min g having the smallest distance scale d (p, R j g ) among N (g) extraction regions RA belonging to a certain detection group GA can be calculated by the following equation. Note that R j g means the j-th extraction region of a certain extraction group GA.

グループ内選択部24は、距離尺度d(p、R )が小さい順に複数の抽出領域RAを選択するようにしてもよい。例えば、距離尺度d(p、R )が小さい順に5つの抽出領域RAを選択するように予め設定しておくとよい。この場合、選択された5つの抽出領域RAの画像がユーザに提示される。ユーザは、これら5つの抽出領域RAの画像の中から、所望の抽出領域RAの画像を選択することができる。 The intra-group selection unit 24 may select a plurality of extraction regions RA in ascending order of the distance scale d (p, R j g ). For example, it may be set in advance so that the five extraction regions RA are selected in ascending order of the distance scale d (p, R j g ). In this case, images of the five selected extraction areas RA are presented to the user. The user can select a desired image of the extraction area RA from the images of the five extraction areas RA.

このように、実施形態によれば、文字列のグループ化処理を追加することで、所望の文字列の選択精度をさらに高めることが可能となる。   As described above, according to the embodiment, it is possible to further improve the accuracy of selecting a desired character string by adding a character string grouping process.

(第3の実施形態)
図9は、第3の実施形態に係る画像処理装置を例示するブロック図である。
実施形態に係る画像処理装置112は、処理部20を含む。処理部20は、検出部21、選択部22を含み、さらに、傾き検出部25、位置補正部26を含む。
(Third embodiment)
FIG. 9 is a block diagram illustrating an image processing apparatus according to the third embodiment.
The image processing apparatus 112 according to the embodiment includes a processing unit 20. The processing unit 20 includes a detection unit 21 and a selection unit 22, and further includes an inclination detection unit 25 and a position correction unit 26.

傾き検出部25は、傾き検出動作を実施する。傾き検出動作は、指示位置pの入力を受け取ったときに画像処理装置112の傾きを検出することを含む。傾きの検出には、例えば、ジャイロセンサなどの各種のセンサが用いられる。
位置補正部26は、位置補正動作を実施する。位置補正動作は、複数の画像領域Rのそれぞれの画像領域位置pを、傾きに応じて補正することを含む。
The inclination detection unit 25 performs an inclination detection operation. The tilt detection operation includes detecting the tilt of the image processing apparatus 112 when the input of the designated position p is received. For detecting the tilt, for example, various sensors such as a gyro sensor are used.
The position correction unit 26 performs a position correction operation. Position correcting operation includes a respective image area position p t of the plurality of image regions R, so as to correct according to the inclination.

図10は、第3の実施形態に係る傾き補正方法を例示する模式図である。
画像処理装置112は、カメラ50を備える。この例においては、ワールド座標系Wcと、カメラ座標系Ccと、を用いて説明する。
FIG. 10 is a schematic view illustrating a tilt correction method according to the third embodiment.
The image processing apparatus 112 includes a camera 50. This example will be described using the world coordinate system Wc and the camera coordinate system Cc.

カメラ50の位置を、ワールド座標系Wcで(x、y、z)と表す。カメラ50の方向は、ローリング角ω、ピッチング角φ、ヨーイング角κで表される。ローリング角ω、ピッチング角φ及びヨーイング角κはそれぞれワールド座標系WcのX軸、Y軸、Z軸における回転角を表す。 The position of the camera 50 is expressed as (x o , yo , z o ) in the world coordinate system Wc. The direction of the camera 50 is represented by a rolling angle ω, a pitching angle φ, and a yawing angle κ. The rolling angle ω, the pitching angle φ, and the yawing angle κ represent rotation angles on the X axis, the Y axis, and the Z axis of the world coordinate system Wc, respectively.

カメラ50の投影中心から撮影された画像領域Rへのベクトルを考える。画像領域R上のある頂点のワールド座標を(x、y、z)とし、現時刻のカメラ50の位置が(x、y、z)、カメラ50の方向が(ωo、φo、κo)のときに、カメラ座標系Ccでのベクトルの成分(u、v、w)と、ワールド座標系Wcでのベクトルの成分(x-x、y-y、z-z)と、の間で次の関係が成り立つ。 Consider a vector from the projection center of the camera 50 to the image region R taken. The world coordinates of a certain vertex on the image area R are (x p , y p , z p ), the position of the camera 50 at the current time is (x o , yo , z o ), and the direction of the camera 50 is (ω o , phi o, when the kappa o), components of the vector of the camera coordinate system Cc (u p, v p, w p) and the component of the vector in the world coordinate system Wc (x p -x o, y p -y o , z p -z o ) and the following relationship holds:

式10を単純化するために、3軸それぞれの回転行列をa11〜a33を要素とする1つの行列で表すと、次式となる。 In order to simplify Expression 10, if the rotation matrix for each of the three axes is represented by one matrix having elements a 11 to a 33 as elements, the following expression is obtained.

さらに、画像領域Rのカメラ座標系Cc上での位置(u、v)は、次式の関係が成り立つ。なお、cはレンズの焦点距離を表す。   Further, the position of the image region R on the camera coordinate system Cc (u, v) has the following relationship. Note that c represents the focal length of the lens.

カメラ50の位置と方向がそれぞれ(Δx、Δy、Δz)、(Δωo、Δφo、Δκo)だけ変動した場合、画像領域Rのカメラ座標系Cc上での位置の変動(Δu、Δv)は、式12、式13から近似的に求めることができる。 When the position and direction of the camera 50 change by (Δx o , Δy o , Δz o ) and (Δω o , Δφ o , Δκ o ), the position change (Δu) of the image region R on the camera coordinate system Cc. , Δv) can be approximately obtained from Equations 12 and 13.

式12の右辺及び式13の右辺を、それぞれ、Fu(x、y、zo、ωo、φo、κo)、Fv(x、y、zo、ωo、φo、κo)とおくと、次式が得られる。 The right side of Expression 12 and the right side of Expression 13 are respectively expressed as Fu (x o , yo , zo, ω o , φ o , κ o ), Fv (x o , yo , z o, ω o , φ o). , Κ o ), the following equation is obtained.

Fu(x、y、zo、ωo、φo、κo)、Fv(x、y、zo、ωo、φo、κo)をそれぞれ(x、y、zo、ωo、φo、κo)の周りでテイラー展開すると、(Δu,Δv)は、次式により算出できる。 Fu (x o , yo , zo, ω o , φ o , κ o ), Fv (x o , yo , zo, ω o , φ o , κ o ) are respectively (x o , yo , If Taylor expansion is performed around z o, ω o , φ o , κ o ), (Δu, Δv) can be calculated by the following equation.

テイラー展開による微係数は、以下のように算出される。   The derivative by Taylor expansion is calculated as follows.

図10に表すように、ワールド座標系Wcを、ワールド座標系WcのZ軸方向とカメラ50の方向(ωo、φo、κo)とが同じ向きになるように設定する。現時刻のカメラ50の位置(x、y、z)は、ワールド座標系WcのZ軸上の距離Hにある。このとき、カメラ位置(0、0、H)、カメラ方向(0、0、0)となり、(Δu、Δv)が計算できる。実際には距離Hは不明であるため、予め定めた値で代用すればよい。これにより、大凡の位置を補正することができる。そして、(Δu、Δv)を、カメラ座標系Ccでの位置補正値として出力する。 As shown in FIG. 10, the world coordinate system Wc is set so that the Z-axis direction of the world coordinate system Wc and the directions of the camera 50 (ω o , φ o , κ o ) are the same. The position (x o , y o , z o ) of the camera 50 at the current time is at a distance H on the Z axis of the world coordinate system Wc. At this time, the camera position (0, 0, H) and the camera direction (0, 0, 0) are obtained, and (Δu, Δv) can be calculated. Actually, since the distance H is unknown, a predetermined value may be used instead. As a result, the approximate position can be corrected. Then, (Δu, Δv) is output as a position correction value in the camera coordinate system Cc.

このように、実施形態によれば、ユーザからのタッチ操作等を受け取ったときに画像処理装置112の傾きを検出し、傾きに応じて画像領域の検出位置を補正することができる。このため、より高精度に所望の文字列を選択することが可能となる。   As described above, according to the embodiment, it is possible to detect the inclination of the image processing apparatus 112 when a touch operation or the like from the user is received, and to correct the detection position of the image area according to the inclination. For this reason, it becomes possible to select a desired character string with higher accuracy.

(第4の実施形態)
図11は、第4の実施形態に係る画像処理装置を例示するブロック図である。
実施形態に係る画像処理装置200は、デスクトップ型またはラップトップ型の汎用計算機、携帯型の汎用計算機、その他の携帯型の情報機器、撮像デバイスを有する情報機器、スマートフォン、その他の情報処理装置など、様々なデバイスによって実現可能である。
(Fourth embodiment)
FIG. 11 is a block diagram illustrating an image processing apparatus according to the fourth embodiment.
The image processing apparatus 200 according to the embodiment includes a desktop or laptop general-purpose computer, a portable general-purpose computer, other portable information devices, an information device having an imaging device, a smartphone, and other information processing devices. It can be realized by various devices.

図11に表すように、実施形態の画像処理装置200は、ハードウェアの構成例として、CPU201と、入力部202と、出力部203と、RAM204と、ROM205と、外部メモリインタフェース206と、通信インタフェース207と、を含む。   As illustrated in FIG. 11, the image processing apparatus 200 according to the embodiment includes a CPU 201, an input unit 202, an output unit 203, a RAM 204, a ROM 205, an external memory interface 206, and a communication interface as hardware configuration examples. 207.

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の画像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態に記載された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の画像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。   The instructions shown in the processing procedure shown in the above-described embodiment can be executed based on a program that is software. The general-purpose computer system stores this program in advance and reads this program, so that the same effect as that obtained by the image processing apparatus according to the above-described embodiment can be obtained. The instructions described in the above-described embodiments are, as programs that can be executed by a computer, magnetic disks (flexible disks, hard disks, etc.), optical disks (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD). ± R, DVD ± RW, etc.), semiconductor memory, or a similar recording medium. As long as the recording medium is readable by the computer or the embedded system, the storage format may be any form. If the computer reads the program from the recording medium and causes the CPU to execute instructions described in the program based on the program, the same operation as the image processing apparatus of the above-described embodiment can be realized. Of course, when the computer acquires or reads the program, it may be acquired or read through a network.

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等で動作するMW(ミドルウェア)などが実施形態を実現するための各処理の一部を実行してもよい。   Further, an OS (operating system) operating on a computer based on instructions from a program installed in a computer or an embedded system from a recording medium, database management software, MW (middleware) operating on a network, etc. You may perform a part of each process for implement | achieving.

さらに、実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した記録媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。また、記録媒体は1つに限らず、複数の記録媒体から実施形態における処理が実行される場合も、実施形態における記録媒体に含まれる。記録媒体の構成は何れの構成であってもよい。   Furthermore, the recording medium in the embodiment is not limited to a recording medium independent of a computer or an embedded system, but also includes a recording medium in which a program transmitted via a LAN or the Internet is downloaded and stored or temporarily stored. Further, the number of recording media is not limited to one, and the case where the processing in the embodiment is executed from a plurality of recording media is also included in the recording medium in the embodiment. The configuration of the recording medium may be any configuration.

なお、実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するためのものであって、パーソナルコンピュータ、マイクロコンピュータ等の1つからなる装置、あるいは、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。   The computer or the embedded system in the embodiment is for executing each process in the embodiment based on a program stored in a recording medium, and is a device composed of one of a personal computer, a microcomputer, or the like, or Any configuration such as a system in which a plurality of devices are network-connected may be used.

また、実施形態におけるコンピュータとは、パーソナルコンピュータに限らず、情報処理機器に含まれる演算処理装置、マイクロコンピュータ等も含み、プログラムによって実施形態における機能を実現することが可能な機器、装置を総称している。   In addition, the computer in the embodiment is not limited to a personal computer, and includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions in the embodiment by a program. ing.

実施形態によれば、確実に所望の文字列を選択可能な画像処理装置、画像処理方法及び画像処理プログラムが提供できる。   According to the embodiment, it is possible to provide an image processing apparatus, an image processing method, and an image processing program capable of reliably selecting a desired character string.

以上、具体例を参照しつつ、本発明の実施の形態について説明した。しかし、本発明は、これらの具体例に限定されるものではない。例えば、取得部、処理部などの各要素の具体的な構成に関しては、当業者が公知の範囲から適宜選択することにより本発明を同様に実施し、同様の効果を得ることができる限り、本発明の範囲に包含される。   The embodiments of the present invention have been described above with reference to specific examples. However, the present invention is not limited to these specific examples. For example, regarding the specific configuration of each element such as the acquisition unit and the processing unit, the present invention can be implemented in the same manner by appropriately selecting from a well-known range by those skilled in the art, as long as the same effect can be obtained. It is included in the scope of the invention.

また、各具体例のいずれか2つ以上の要素を技術的に可能な範囲で組み合わせたものも、本発明の要旨を包含する限り本発明の範囲に含まれる。   Moreover, what combined any two or more elements of each specific example in the technically possible range is also included in the scope of the present invention as long as the gist of the present invention is included.

その他、本発明の実施の形態として上述した画像処理装置、画像処理方法及び画像処理プログラムを基にして、当業者が適宜設計変更して実施し得る全ての画像処理装置、画像処理方法及び画像処理プログラムも、本発明の要旨を包含する限り、本発明の範囲に属する。   In addition, all image processing apparatuses, image processing methods, and image processing that can be implemented by those skilled in the art based on the image processing apparatus, the image processing method, and the image processing program described above as the embodiments of the present invention. A program also belongs to the scope of the present invention as long as it includes the gist of the present invention.

その他、本発明の思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の範囲に属するものと了解される。   In addition, in the category of the idea of the present invention, those skilled in the art can conceive of various changes and modifications, and it is understood that these changes and modifications also belong to the scope of the present invention. .

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

11…第1取得部、 12…第2取得部、 20…処理部、 21…検出部、 22…選択部、 23…グループ化部、 24…グループ内選択部、 25…傾き検出部、 26…位置補正部、 30…表示部、 40、40、40j+1、40…画像(データ)、 50…カメラ、 δ…一定時間、 κ…ヨーイング角、 φ…ピッチング角、 ω…ローリング角、 110〜112、200…画像処理装置、 201…CPU、 202…入力部、 203…出力部、 204…RAM、 205…ROM、 206…外部メモリインタフェース、 207…通信インタフェース、 Cc…カメラ座標系、 G、G1〜G4…グループ、 GA、GA1〜GA4…検出グループ、 H…距離、 R、R1〜R4、R1j+1〜R4j+1、R1〜R4、R1a〜R1c、R2a〜R2c、R3a、R3b、R4a、R4b…画像領域、 RA、RA1a〜RA1c、RA2a〜RA2c、RA3a、RA3b、RA4a…抽出領域、 Wc…ワールド座標系、 c1〜c4、c1j+1〜c4j+1、c1〜c4…文字列、 f…指、 p…指示位置、 p…画像領域位置、 t、t、tj+1、t…検出時刻、 t…受取時刻 DESCRIPTION OF SYMBOLS 11 ... 1st acquisition part, 12 ... 2nd acquisition part, 20 ... Processing part, 21 ... Detection part, 22 ... Selection part, 23 ... Grouping part, 24 ... In-group selection part, 25 ... Inclination detection part, 26 ... position correction unit, 30 ... display unit, 40,40 j, 40 j + 1 , 40 k ... image (data), 50 ... camera, [delta] t ... fixed time, kappa ... yawing angle, phi ... pitching angle, omega ... rolling angle, 110-112, 200 ... image processing apparatus, 201 ... CPU, 202 ... input unit, 203 ... output unit, 204 ... RAM, 205 ... ROM, 206 ... external memory interface, 207 ... communication interface, Cc ... camera coordinate system, G , G1 to G4 ... group, GA, GA1~GA4 ... detector groups, H ... distance, R, R1 j ~R4 j, R1 j + 1 ~R4 j + 1, R1 k ~R4 k R1a~R1c, R2a~R2c, R3a, R3b, R4a, R4b ... image area, RA, RA1a~RA1c, RA2a~RA2c, RA3a , RA3b, RA4a ... extraction region, Wc ... world coordinate system, c1 j ~c4 j, c1 j + 1 to c4 j + 1 , c1 k to c4 k ... character string, f ... finger, p ... designated position, p t ... image area position, t, t j , t j + 1 , t k ... detection time, t p ... reception time

Claims (15)

文字列を含む複数の画像に関するデータを時系列に取得する第1取得部と、
入力を受け取る第2取得部と、
処理部と、
を備え、
前記処理部は、
前記複数の画像から複数の画像領域を検出する検出動作であって、前記複数の画像領域のそれぞれは、前記複数の画像のそれぞれに含まれる前記文字列のそれぞれを含み、前記複数の画像領域のそれぞれは検出時刻に検出され、前記複数の画像領域のそれぞれは画像領域位置を有する、前記検出動作と、
前記複数の画像領域のうちの少なくとも1つを選択する選択動作であって、前記選択は、前記複数の画像領域のそれぞれの前記検出時刻と、前記第2取得部で前記入力を受け取った受取時刻と、の第1差、及び、前記複数の画像領域のそれぞれの前記画像領域位置と、前記入力の位置と、の第2差に基づいて行う、前記選択動作と、
を実施する、画像処理装置。
A first acquisition unit that acquires data related to a plurality of images including character strings in time series;
A second acquisition unit for receiving input;
A processing unit;
With
The processor is
A detection operation for detecting a plurality of image areas from the plurality of images, wherein each of the plurality of image areas includes each of the character strings included in each of the plurality of images; Each of the plurality of image areas is detected at a detection time, and each of the plurality of image areas has an image area position;
A selection operation for selecting at least one of the plurality of image areas, wherein the selection includes the detection time of each of the plurality of image areas and the reception time at which the input is received by the second acquisition unit. And the selection operation performed based on the first difference between the first image area and the second difference between the image area position of each of the plurality of image areas and the input position;
An image processing apparatus that implements
前記複数の画像領域のうちで選択された前記少なくとも1つの前記第1差は、前記複数の画像領域のうちで選択されなかった別の1つの前記第1差よりも小さい、請求項1記載の画像処理装置。   2. The at least one first difference selected among the plurality of image regions is smaller than another one of the first differences that was not selected among the plurality of image regions. Image processing device. 前記複数の画像領域のうちで選択された前記少なくとも1つの前記第2差は、前記複数の画像領域のうちで選択されなかった別の1つの前記第2差よりも小さい、請求項1または2に記載の画像処理装置。   The at least one second difference selected among the plurality of image regions is smaller than another second difference that is not selected among the plurality of image regions. An image processing apparatus according to 1. 前記複数の画像領域のうちで選択された前記少なくとも1つの前記第1差は、100ミリ秒以上、500ミリ秒以下である請求項1〜3のいずれか1つに記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the at least one first difference selected from the plurality of image regions is not less than 100 milliseconds and not more than 500 milliseconds. 文字列を含む複数の画像に関するデータを時系列に取得する第1取得部と、
入力を受け取る第2取得部と、
処理部と、
を備え、
前記処理部は、
前記複数の画像から複数の画像領域を検出する検出動作であって、前記複数の画像領域のそれぞれは、前記複数の画像のそれぞれに含まれる前記文字列のそれぞれを含み、前記複数の画像領域のそれぞれは検出時刻に検出され、前記複数の画像領域のそれぞれは画像領域位置を有する、前記検出動作と、
前記複数の画像領域のうちで同一の文字列を含む画像領域をグループ化し、複数のグループを生成するグループ化動作であって、前記複数のグループのそれぞれは、前記検出時刻に基づくグループ検出時刻、及び、前記画像領域位置に基づくグループ位置を有する、前記グループ化動作と、
前記複数のグループのうちの少なくとも1つを選択する選択動作であって、前記選択は、前記複数のグループのそれぞれの前記グループ検出時刻と、前記受取時刻と、の第3差、及び、前記複数のグループのそれぞれの前記グループ位置と、前記入力の位置と、の第4差に基づいて行う、前記選択動作と、
を実施する、画像処理装置。
A first acquisition unit that acquires data related to a plurality of images including character strings in time series;
A second acquisition unit for receiving input;
A processing unit;
With
The processor is
A detection operation for detecting a plurality of image areas from the plurality of images, wherein each of the plurality of image areas includes each of the character strings included in each of the plurality of images; Each of the plurality of image areas is detected at a detection time, and each of the plurality of image areas has an image area position;
A grouping operation for grouping image regions including the same character string among the plurality of image regions and generating a plurality of groups, each of the plurality of groups having a group detection time based on the detection time, And the grouping operation having a group position based on the image area position;
A selection operation for selecting at least one of the plurality of groups, wherein the selection includes a third difference between the group detection time and the reception time of each of the plurality of groups; The selection operation performed based on a fourth difference between the group position of each of the groups and the position of the input;
An image processing apparatus that implements
前記複数のグループのうちで選択された前記少なくとも1つの前記第3差は、前記複数のグループのうちで選択されなかった別の1つの前記第3差よりも小さい、請求項5記載の画像処理装置。   The image processing according to claim 5, wherein the at least one third difference selected from the plurality of groups is smaller than another third difference that has not been selected from the plurality of groups. apparatus. 前記複数のグループのうちで選択された前記少なくとも1つの前記第4差は、前記複数のグループのうちで選択されなかった別の1つの前記第4差よりも小さい、請求項5または6に記載の画像処理装置。   The at least one fourth difference selected from the plurality of groups is smaller than another one fourth difference that was not selected from the plurality of groups. Image processing apparatus. 前記検出動作は、前記文字列のそれぞれについて文字列らしさを表す評価値を算出することをさらに含み、
前記処理部は、前記複数のグループのうちで選択された前記少なくとも1つに含まれる複数の画像領域の中から、前記評価値が最も高い文字列を含む画像領域を選択するグループ内選択動作をさらに実施する、請求項5〜7のいずれか1つに記載の画像処理装置。
The detection operation further includes calculating an evaluation value representing character-likeness for each of the character strings,
The processing unit performs an intra-group selection operation of selecting an image region including a character string having the highest evaluation value from among a plurality of image regions included in the at least one selected from the plurality of groups. The image processing apparatus according to claim 5, further implemented.
前記処理部は、前記複数のグループのうちで選択された前記少なくとも1つに含まれる複数の画像領域の中から少なくとも1つを選択するグループ内選択動作であって、前記選択は、前記複数の画像領域のそれぞれの前記画像領域位置と、前記入力の位置と、の第5差に基づいて行う、前記グループ内選択動作をさらに実施する、請求項5〜7のいずれか1つに記載の画像処理装置。   The processing unit is an intra-group selection operation that selects at least one of a plurality of image regions included in the at least one selected from the plurality of groups, and the selection includes the plurality of the plurality of image regions. The image according to any one of claims 5 to 7, further performing the intra-group selection operation performed based on a fifth difference between each of the image region positions of the image regions and the input position. Processing equipment. 前記処理部は、
前記入力を受け取ったときに前記画像処理装置の傾きを検出する傾き検出動作と、
前記複数の画像領域のそれぞれの前記画像領域位置を、前記傾きに応じて補正する位置補正動作と、
をさらに実施する請求項1〜9のいずれか1つに記載の画像処理装置。
The processor is
An inclination detection operation for detecting an inclination of the image processing apparatus when the input is received;
A position correction operation for correcting the image area position of each of the plurality of image areas according to the inclination;
The image processing apparatus according to claim 1, wherein the image processing apparatus is further implemented.
前記画像領域位置は、前記複数の画像のそれぞれにおける水平及び垂直方向の座標と、前記複数の画像領域のそれぞれの前記検出時刻と、を含む請求項1〜10のいずれか1つに記載の画像処理装置。   The image according to any one of claims 1 to 10, wherein the image region position includes horizontal and vertical coordinates in each of the plurality of images and the detection times of the plurality of image regions. Processing equipment. 前記画像を表示する表示部をさらに備え、
前記表示部は、前記複数の画像領域のうちで選択された前記少なくとも1つを識別可能に表示する請求項1〜4のいずれか1つに記載の画像処理装置。
A display unit for displaying the image;
The image processing apparatus according to claim 1, wherein the display unit displays the at least one selected from the plurality of image areas so as to be identifiable.
前記第2取得部は、前記表示部に設けられたタッチパネルを含む請求項12記載の画像処理装置。   The image processing apparatus according to claim 12, wherein the second acquisition unit includes a touch panel provided on the display unit. 文字列を含む複数の画像に関するデータを時系列に取得し、
入力を受け取り、
前記複数の画像から複数の画像領域を検出し、前記複数の画像領域のそれぞれは、前記複数の画像のそれぞれに含まれる前記文字列のそれぞれを含み、前記複数の画像領域のそれぞれは検出時刻に検出され、前記複数の画像領域のそれぞれは画像領域位置を有し、
前記複数の画像領域のうちの少なくとも1つを選択し、前記選択は、前記複数の画像領域のそれぞれの前記検出時刻と、前記入力を受け取った受取時刻と、の第1差、及び、前記複数の画像領域のそれぞれの前記画像領域位置と、前記入力の位置と、の第2差に基づいて行う、画像処理方法。
Data on multiple images including character strings is acquired in time series,
Takes input,
A plurality of image regions are detected from the plurality of images, each of the plurality of image regions includes each of the character strings included in each of the plurality of images, and each of the plurality of image regions is detected at a detection time. Each of the plurality of image areas has an image area position;
Selecting at least one of the plurality of image regions, wherein the selection includes a first difference between the detection time of each of the plurality of image regions and the reception time at which the input is received; An image processing method performed based on a second difference between each of the image region positions of the image region and the input position.
文字列を含む複数の画像に関するデータを時系列に取得する工程と、
入力を受け取る工程と、
前記複数の画像から複数の画像領域を検出し、前記複数の画像領域のそれぞれは、前記複数の画像のそれぞれに含まれる前記文字列のそれぞれを含み、前記複数の画像領域のそれぞれは検出時刻に検出され、前記複数の画像領域のそれぞれは画像領域位置を有する工程と、
前記複数の画像領域のうちの少なくとも1つを選択し、前記選択は、前記複数の画像領域のそれぞれの前記検出時刻と、前記入力を受け取った受取時刻と、の第1差、及び、前記複数の画像領域のそれぞれの前記画像領域位置と、前記入力の位置と、の第2差に基づいて行う工程と、
を、コンピュータに実行させる画像処理プログラム。
Acquiring data related to a plurality of images including character strings in time series;
Receiving input; and
A plurality of image regions are detected from the plurality of images, each of the plurality of image regions includes each of the character strings included in each of the plurality of images, and each of the plurality of image regions is detected at a detection time. Detected and each of the plurality of image regions has an image region position;
Selecting at least one of the plurality of image regions, wherein the selection includes a first difference between the detection time of each of the plurality of image regions and the reception time at which the input is received; A step of performing based on a second difference between each of the image region positions of the image region and the input position;
An image processing program for causing a computer to execute.
JP2015224895A 2015-11-17 2015-11-17 Image processing device, image processing method and image processing program Pending JP2017091455A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015224895A JP2017091455A (en) 2015-11-17 2015-11-17 Image processing device, image processing method and image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015224895A JP2017091455A (en) 2015-11-17 2015-11-17 Image processing device, image processing method and image processing program

Publications (1)

Publication Number Publication Date
JP2017091455A true JP2017091455A (en) 2017-05-25

Family

ID=58768359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015224895A Pending JP2017091455A (en) 2015-11-17 2015-11-17 Image processing device, image processing method and image processing program

Country Status (1)

Country Link
JP (1) JP2017091455A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0855131A (en) * 1994-08-12 1996-02-27 Nippon Telegr & Teleph Corp <Ntt> Method and device for identifying object in dynamic image
JP2004054435A (en) * 2002-07-17 2004-02-19 Toshiba Corp Hypermedia information presentation method, hypermedia information presentation program and hypermedia information presentation device
JP2006050275A (en) * 2004-08-04 2006-02-16 Toshiba Corp Structure of metadata and its reproduction method
JP2012212084A (en) * 2011-03-31 2012-11-01 Toshiba Corp Information processor and information processing method
JP2012249156A (en) * 2011-05-30 2012-12-13 Sony Corp Information processing apparatus, information processing method, and program
JP2013229734A (en) * 2012-04-25 2013-11-07 Toshiba Corp Video division device, video division method and video division program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0855131A (en) * 1994-08-12 1996-02-27 Nippon Telegr & Teleph Corp <Ntt> Method and device for identifying object in dynamic image
JP2004054435A (en) * 2002-07-17 2004-02-19 Toshiba Corp Hypermedia information presentation method, hypermedia information presentation program and hypermedia information presentation device
JP2006050275A (en) * 2004-08-04 2006-02-16 Toshiba Corp Structure of metadata and its reproduction method
JP2012212084A (en) * 2011-03-31 2012-11-01 Toshiba Corp Information processor and information processing method
JP2012249156A (en) * 2011-05-30 2012-12-13 Sony Corp Information processing apparatus, information processing method, and program
JP2013229734A (en) * 2012-04-25 2013-11-07 Toshiba Corp Video division device, video division method and video division program

Similar Documents

Publication Publication Date Title
TWI574223B (en) Navigation system using augmented reality technology
JP5905540B2 (en) Method for providing a descriptor as at least one feature of an image and method for matching features
US20170154222A1 (en) System and Method for Identifying, Analyzing, and Reporting on Players in a Game from Video
JP6372149B2 (en) Display control apparatus, display control method, and display control program
US10067610B2 (en) Method and apparatus for recognizing touch gesture
JP2018148422A (en) Information processing system, information processing device, information processing method, and program causing computer to execute information processing method
CN102708355A (en) Information processing device, authoring method, and program
US9083891B2 (en) Video monitoring apparatus
US9703387B2 (en) System and method of real-time interactive operation of user interface
Anagnostopoulos et al. Gaze-Informed location-based services
US10229543B2 (en) Information processing device, information superimposed image display device, non-transitory computer readable medium recorded with marker display program, non-transitory computer readable medium recorded with information superimposed image display program, marker display method, and information-superimposed image display method
US20170169595A1 (en) Information superimposed image display device, non-transitory computer-readable medium which records information superimposed image display program, and information superimposed image display method
JP5668587B2 (en) Image processing apparatus, image processing method, and program
JP2015138428A (en) Additional information display apparatus and additional information display program
JP2017219955A (en) Gaze position detection apparatus, gaze position detection method, and gaze position detection computer program
JP6017343B2 (en) Database generation device, camera posture estimation device, database generation method, camera posture estimation method, and program
CN112949375A (en) Computing system, computing method, and storage medium
Robson et al. Optimised multi-camera systems for dimensional control in factory environments
KR101016095B1 (en) Method and apparatus for detecting changes in background of images using binary images thereof and hough transform
JP2018124918A (en) Image processor, image processing method, and program
CN108280425A (en) A kind of quick survey light implementation method based on screen following formula optical fingerprint sensor
JP5604923B2 (en) Gaze point measurement device, gaze point measurement method, program, and storage medium
CN115862124A (en) Sight estimation method and device, readable storage medium and electronic equipment
JP2017091455A (en) Image processing device, image processing method and image processing program
JP2016162072A (en) Feature quantity extraction apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190516