JP2010262648A - Automated method for alignment of document object - Google Patents
Automated method for alignment of document object Download PDFInfo
- Publication number
- JP2010262648A JP2010262648A JP2010100724A JP2010100724A JP2010262648A JP 2010262648 A JP2010262648 A JP 2010262648A JP 2010100724 A JP2010100724 A JP 2010100724A JP 2010100724 A JP2010100724 A JP 2010100724A JP 2010262648 A JP2010262648 A JP 2010262648A
- Authority
- JP
- Japan
- Prior art keywords
- objects
- document
- saliency
- alignment
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18143—Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Editing Of Facsimile Originals (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
Description
本件は、文書レイアウトに関する。例えば、オブジェクト内の顕著度を考慮に入れてオブジェクト群を位置合わせ(整列)するための自動化したシステム及び方法と関連する応用が考えられる。 This case relates to document layout. For example, there may be applications associated with automated systems and methods for aligning objects, taking into account the saliency within the object.
コンテンツの位置合わせ(整列)は、デジタル文書を構成する様々なオブジェクト(テキスト、グラフィックス、絵・写真画像など)を組織化(編成)することから成り立っている。この処理の目的は、一般的には、ページ内の文書オブジェクトを、その内容(コンテンツ)が人間の眼の自然な走査パターンに合わせて並ぶように編成することで、文書の読みやすさと使い勝手をよくすることである。 Content alignment (arrangement) consists of organizing (organizing) various objects (text, graphics, pictures, photographic images, etc.) constituting a digital document. The purpose of this processing is generally to improve the readability and usability of the document by organizing the document objects in the page so that the contents (contents) are arranged in line with the natural scanning pattern of the human eye. To do well.
グラフィカルデザイナーは、観察者にとって快い配置をもたらすために、直観と経験によりテキストオブジェクトや画像(ピクトリアル:pictorial)オブジェクト(写真や絵など)を文書内のどこに置くかを決める。テキストが画像オブジェクトに関連している場合、そのテキストは、例えば、その画像オブジェクトの右又は左の、その画像オブジェクトの上端及び下端に対応する上側及び下側の水平ガイドライン同士の間に配置される。グラフィカルデザイナーは例えばテキストを人間の顔に対して位置合わせする。あるいは、拡大したポートレートの場合、プロのデザイナーは、テキストオブジェクトを、例えば顔の中の眼あるいは視線に対して位置合わせする。 Graphical designers decide where to place text objects and pictorial objects (photos, pictures, etc.) in the document, based on intuition and experience, in order to provide a comfortable arrangement for the viewer. If the text is associated with an image object, the text is placed, for example, between the upper and lower horizontal guidelines corresponding to the top and bottom edges of the image object to the right or left of the image object. . A graphical designer, for example, aligns text with a human face. Alternatively, in the case of an enlarged portrait, the professional designer aligns the text object, for example with respect to the eye or line of sight in the face.
受け手に応じて文書内のテキスト又は画像のいずれかが変わる可変データへの応用などのような多くの応用にとっては、そのような多くの手作業を要する方法はコスト的にみて効率的ではないであろう。そのような位置合わせのための自動化した方法は存在するが、それら方法は、テキストを単に2つの水平ガイドライン同士の中央に置く、すなわち上側及び下側のガイドラインに対して位置合わせするものであった。そのような方法は柔軟性を欠き、観察者に美的な快さを覚えさせない結果を招くことがしばしばである。このようなことから、オブジェクトの位置合わせは、文書編集の中で通常手作業で実行される処理のままとなっている。 For many applications, such as variable data applications where either text or images in the document change depending on the recipient, such a manual method is not cost effective. I will. There are automated methods for such alignment, but those methods simply centered the text between two horizontal guidelines, ie aligned with the upper and lower guidelines. . Such methods are often inflexible and often result in the viewer not being aesthetically pleasing. For this reason, object alignment remains a process that is normally performed manually during document editing.
例えば全体的な美的品質に高い価値が与えられるデジタル出版などの応用に利用され得る、内容に基づく自動化した位置合わせ方法が必要とされている。 There is a need for content-based automated registration methods that can be used in applications such as digital publishing, where high value is given to the overall aesthetic quality.
1つの側面では、文書内のオブジェクト群を位置合わせ(整列)するための方法は、入力電子文書について、その文書のページ上で位置合わせすべき少なくとも第1及び第2のオブジェクトを識別するステップを含む。第1及び第2のオブジェクトのそれぞれについての顕著度の検出に基づき、それら第1及び第2のオブジェクトの一方又は両方について一次元ガイドラインプロファイルが生成される。第1及び第2のオブジェクトはそのガイドラインプロファイルに基づいて位置合わせされ、これにより修正済み文書が生成され、この修正済み文書が出力される。 In one aspect, a method for aligning objects in a document comprises, for an input electronic document, identifying at least first and second objects to be aligned on a page of the document. Including. Based on the saliency detection for each of the first and second objects, a one-dimensional guideline profile is generated for one or both of the first and second objects. The first and second objects are aligned based on the guideline profile, thereby generating a corrected document and outputting the corrected document.
この方法は、更に、それぞれ個別の顕著度検出方法に対応づけられた複数のオブジェクトクラスのうちの1つに対して少なくとも前記第1のオブジェクトを割り当てるステップを含む。その複数のクラスには、第1の顕著度検出方法に対応づけられた第1のクラスと第2の検出方法に対応づけられた第2のクラスとが含まれる。 The method further includes assigning at least the first object to one of a plurality of object classes each associated with an individual saliency detection method. The plurality of classes include a first class associated with the first saliency detection method and a second class associated with the second detection method.
少なくとも前記第1のオブジェクトを1つのオブジェクトクラスに割り当てるステップでは、前記第1及び第2のオブジェクトをそれぞれ個別のオブジェクトクラスに割り当ててもよい。この割り当ては、オブジェクト群をクラスに従って分類するように学習させた分類器を用いて行ってもよい。 In the step of assigning at least the first object to one object class, the first and second objects may be assigned to individual object classes. This assignment may be performed using a classifier trained to classify the object group according to the class.
複数のクラスには、例えば、画像オブジェクトクラス、テキストオブジェクトクラス、及びグラフィックス(図形)要素クラスのうちの少なくとも1つが含まれる。 The plurality of classes include, for example, at least one of an image object class, a text object class, and a graphics (graphic) element class.
前記第1のクラスは例えば画像オブジェクトクラスであり、前記第2のクラスは例えばテキストオブジェクトクラスである。 The first class is, for example, an image object class, and the second class is, for example, a text object class.
前記第1及び第2のオブジェクトの一方が画像オブジェクトクラスに割り当てられると、その画像オブジェクトが、例えば、少なくとも2つのカテゴリのうちの1つに分類されるようにしてもよい。ここで、それらカテゴリのうちの第1のものは人間カテゴリであり、第2のものは非人間カテゴリである。 When one of the first and second objects is assigned to an image object class, the image object may be classified into, for example, one of at least two categories. Here, the first of these categories is the human category, and the second is the non-human category.
画像オブジェクトが人間カテゴリに分類される場合においては、前記検出方法は、人間の顔と眼のうちの少なくとも一方を検出するものでよく、前記ガイドラインプロファイルは人間の顔又は眼に対応する位置にピーク値を持つ。 When the image object is classified into the human category, the detection method may detect at least one of a human face and eyes, and the guideline profile peaks at a position corresponding to the human face or eye. Has a value.
画像オブジェクトが非人間カテゴリに分類される場合は、前記検出方法は顕著度マップを生成する処理を含んでもよい。 When the image object is classified into the non-human category, the detection method may include a process of generating a saliency map.
ガイドラインプロファイルは、顕著度マップ内の顕著度の一次元平均に基づくものであってもよい。 The guideline profile may be based on a one-dimensional average of saliency in the saliency map.
この方法では、前第1のオブジェクトについて第1のガイドラインプロファイルを生成し第2のオブジェクトに対して第2のガイドラインプロファイルを生成し、第1のオブジェクトと第2のオブジェクトとを第1のガイドラインプロファイルと第2のガイドラインプロファイルとに基づき位置合わせしてもよい。 In this method, a first guideline profile is generated for the previous first object, a second guideline profile is generated for the second object, and the first and second objects are connected to the first guideline profile. And alignment based on the second guideline profile.
この位置合わせの処理では、ピークを識別するために第1及び第2のガイドラインプロファイルをたたみ込み(コンボリューションを求め)、そのピークの位置に基づきそれらオブジェクトを位置合わせしてもよい。 In this alignment process, the first and second guideline profiles may be convolved (convolution is obtained) to identify the peak, and the objects may be aligned based on the position of the peak.
位置合わせの処理では、第1のガイドラインプロファイルのピークを第2のガイドラインプロファイルのピークに位置合わせしてもよい。 In the alignment process, the peak of the first guideline profile may be aligned with the peak of the second guideline profile.
第1及び第2のオブジェクトのうちの一方は固定されたオブジェクトであってもよく、第1及び第2のオブジェクトのうちの他方は移動可能(浮動)オブジェクトであってもよく、位置合わせはでその移動可能オブジェクトを移動させてもよい。 One of the first and second objects may be a fixed object, the other of the first and second objects may be a movable (floating) object, and alignment may be The movable object may be moved.
第1のオブジェクトは画像オブジェクトであってもよく、第2のオブジェクトはテキストオブジェクトであってもよい。 The first object may be an image object, and the second object may be a text object.
コンピュータで実行されたときに、上述の方法をそのコンピュータに実行させる命令を表すコードを含んだコンピュータプログラムを提供してもよい。 A computer program may be provided that includes code representing instructions that, when executed on a computer, cause the computer to perform the method described above.
コンピュータ装置は、上述の方法を実行するための命令群を記憶したメモリと、そのメモリと通信可能でありそれら命令群を実行するプロセッサとを備える。 The computer device includes a memory storing a group of instructions for executing the above-described method, and a processor that can communicate with the memory and executes the group of instructions.
別の側面では、文書内のオブジェクト群を位置合わせする装置は、オブジェクト位置合わせシステムを格納するコンピュータ読み取り可能なメモリを備える。オブジェクト位置合わせシステムは、文書内の位置合わせすべき第1及び第2のオブジェクトを識別するオブジェクト検出手段と、少なくとも前記第1のオブジェクトについての一次元ガイドラインプロファイルを前記第1のオブジェクトについての顕著度の検出結果に基づき生成するプロファイル生成手段と、前記ガイドラインプロファイルに基づいて前記第1及び第2のオブジェクトの位置合わせ結果を生成する位置合わせ手段と、を備える。前記メモリと通信可能なプロセッサがオブジェクト位置合わせシステムを実行する。 In another aspect, an apparatus for aligning objects in a document comprises a computer readable memory that stores an object alignment system. The object registration system includes object detection means for identifying first and second objects to be registered in a document, at least a one-dimensional guideline profile for the first object, and a saliency for the first object. Profile generating means for generating based on the detection results of the above and positioning means for generating alignment results of the first and second objects based on the guideline profile. A processor capable of communicating with the memory executes an object alignment system.
別の側面では、文書内のオブジェクト群を位置合わせするための、コンピュータに実装される方法は、電子文書のページ上の位置合わせすべき少なくとも第1及び第2のオブジェクトを識別するステップと、それらオブジェクトに対して、それぞれ、画像オブジェクトクラス及びテキストオブジェクトクラスを含む複数のオブジェクトクラスの中から選ばれたオブジェクトクラスを割り当てるステップと、位置合わせするべきオブジェクトごとに、前記割り当てられたオブジェクトクラスに基づいた顕著度検出方法を選ぶステップと、選ばれた顕著度検出方法を位置合わせするべき各オブジェクトにそれぞれ適用することにより顕著度表現を生成するステップと、位置合わせするべき各オブジェクトについて前記顕著度表現に基づき一次元ガイドラインプロファイルを生成するステップと、前記第1及び第2のオブジェクトのうちの少なくとも一方をそれぞれ対応する一次元ガイドラインプロファイルに基づき位置合わせすることにより修正済み文書を形成するステップであって前記第1及び第2のオブジェクトのうちの一方を他方に対して平行移動させる処理を含むステップと、前記修正済み文書を出力するステップと、を含む。 In another aspect, a computer-implemented method for aligning objects in a document includes identifying at least first and second objects to be aligned on a page of an electronic document; and Assigning to each object an object class selected from a plurality of object classes including an image object class and a text object class, and for each object to be aligned, based on the assigned object class Selecting a saliency detection method; generating a saliency expression by applying the selected saliency detection method to each object to be aligned; and applying the selected saliency detection method to the saliency expression for each object to be aligned. Based on one-dimensional Generating a modified profile by registering at least one of the first and second objects based on a corresponding one-dimensional guideline profile, respectively, Including a step of translating one of the second objects with respect to the other, and outputting the corrected document.
例示する実施形態は、文書内の複数のオブジェクトの位置合わせ(整列)のための装置、方法及びコンピュータプログラムに関する。例示する位置合わせ方法は、異なった内容(コンテンツ)や視覚的側面などにより特徴付けられている複数の文書オブジェクトについて使用できるという意味で、包括的である。 Exemplary embodiments relate to an apparatus, method and computer program for alignment of multiple objects in a document. The exemplary alignment method is comprehensive in the sense that it can be used for multiple document objects that are characterized by different content (content), visual aspects, and the like.
この方法は、画像オブジェクト及びテキストオブジェクトなどの2つのオブジェクト同士の適切な位置合わせ状態を決定するのに、顕著度(saliency)の測定を用いる。顕著度の検出は、人間の視覚的な注視メカニズムのシミュレーション又はモデル化と見ることができる。理解されるように、画像のいくつかの部分は他の部分よりも人間の観察者の注意をより惹きつける。顕著度とは、画像中の視覚情報の「重要度」又は「惹きつける度合い」のことをいう。顕著度検出方法の目的は、画像内の各領域のうち一般的な観察者の注意の主たる焦点となりそうな領域に対して高い顕著度を割り当てることである。これらの方法の多くは、生物学的な視覚モデルに基づく。これらモデルは、画像のうちのどの部分が視覚的な注意を惹きつけるかを評価するためのものである。これらの方法のコンピュータシステムへの実装は、2つの主たるカテゴリのうちの1つに該当する。2つのカテゴリのうちの1つは、いくつかの関連する点位置(punctual position)を求めるものであり、コーナー(隅)検出器(Harris)やブロブ(blob:斑点)検出器(Laplace)、顔検出器などの注目部位(すなわちキーポイント)検出器として知られている。もう1つは、顕著度マップのような関連度についてのより連続的なマップを求めるものである。しかし、上述のキーポイント方式と連続的な方式との組み合わせを提供することを目的とする混合方式もある。この実施形態は、顕著度検出方法のうちの特定の種類に限定されるものではない。1つの例では、オブジェクトの種類(テキスト又は画像)、及び/又は、そのオブジェクトの内容の評価(判定)に基づいて、顕著度検出方法が選択される。例えば、顕著度マップは、オブジェクトの内容を考慮に入れた確率マップであってもよい。この明細書に示す各例では、2つ(又はそれ以上)の顕著度検出方法を用い、結果を組み合わせる。 This method uses a saliency measurement to determine the proper alignment between two objects, such as an image object and a text object. The detection of saliency can be viewed as a simulation or modeling of the human visual gaze mechanism. As will be appreciated, some portions of the image attract more attention from the human observer than others. The saliency is the “importance” or “attraction” of visual information in an image. The purpose of the saliency detection method is to assign a high saliency to each region in the image that is likely to be the main focus of general observer's attention. Many of these methods are based on biological visual models. These models are for evaluating which part of the image attracts visual attention. Implementation of these methods on a computer system falls into one of two main categories. One of the two categories seeks several related punctual positions, including a corner detector (Harris), a blob (blob) detector (Laplace), and a face. It is known as a site of interest (ie, key point) detector such as a detector. The other is to obtain a more continuous map of relevance such as a saliency map. However, there is also a mixing method that aims to provide a combination of the above keypoint method and a continuous method. This embodiment is not limited to a specific type of the saliency detection method. In one example, the saliency detection method is selected based on the type of object (text or image) and / or the evaluation (determination) of the content of the object. For example, the saliency map may be a probability map that takes into account the contents of the object. In each example shown in this specification, two (or more) saliency detection methods are used and the results are combined.
この実施形態において利用可能な顕著度検出方法の例としては、以下の文献に示されるものがある。米国特許出願第12/400,277号明細書、同第12/033,434号明細書(米国特許出願公開第2009/0208118号明細書)、米国特許出願公開第2008/0304740号明細書、同第2008/0304708号明細書、同第2008/0304742号明細書、同第2006/0093184号明細書、米国特許第7,400,761号明細書、Itti, et al., “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259 (1998); Hou, et al. , “Saliency Detection: A Spectral. Residual Approach,” ICVPR (2007); Gao, et al., “Bottom-up saliency is a discriminant process”, ICCV2007; Gao, et al., “The discriminant center-surround hypothesis for bottom-up saliency,” NIPS2007; Jones, et al. “Statistical Color Models with Application to Skin Detection,” IJCV(46), No. 1, pp. 81-96 (January 2002); L. Itti and C. Koch, “Computational Modeling of Visual Attention,” Nature Reviews Neuroscience, 2(3): 194-203 (2001)(これについては以下では“Itti and Koch”と呼ぶ); Huang, et al., “A MPEG-7 Based Content-aware Album System for Consumer Photographs,” Bulletin of the College of Engineering, NTU, No. 90, pp. 3-24 (Feb. 2004); Liu, et al., “Learning to Detect A Salient Object,” CVPR 2007; and Z. Wang, B. Li, “A Two-Stage Approach to Saliency Detection in Images,” In ICASSP (March/April 2008) などがある。 Examples of the saliency detection method that can be used in this embodiment include those disclosed in the following documents. U.S. Patent Application Nos. 12 / 400,277, 12 / 033,434 (U.S. Patent Application Publication No. 2009/0208118), U.S. Patent Application Publication No. 2008/0304740, ibid. 2008/0304708, 2008/0304742, 2006/0093184, U.S. Patent 7,400,761, Itti, et al., "A Model of Saliency- Based Visual Attention for Rapid Scene Analysis. ”IEEE Transactions on Pattern Analysis and Machine Intelligence, 20 (11): 1254-1259 (1998); Hou, et al.,“ Saliency Detection: A Spectral. Residual Approach, ”ICVPR (2007 ); Gao, et al., “Bottom-up saliency is a discriminant process”, ICCV2007; Gao, et al., “The discriminant center-surround hypothesis for bottom-up saliency,” NIPS2007; Jones, et al. “Statistical Color Models with Application to Skin Detection, ”IJCV (46), No. 1, pp. 81-96 (January 2002); L. Itti and C. Koch,“ Computational Modeling of Visual Attention, ”Nature Reviews Neuroscience, 2 (3): 194- 203 (2001) (hereinafter referred to as “Itti and Koch”); Huang, et al., “A MPEG-7 Based Content-aware Album System for Consumer Photographs,” Bulletin of the College of Engineering, NTU, No. 90, pp. 3-24 (Feb. 2004); Liu, et al., “Learning to Detect A Salient Object,” CVPR 2007; and Z. Wang, B. Li, “A Two-Stage Approach to Saliency Detection in Images, ”In ICASSP (March / April 2008).
図1には、電子文書10のページの例が模式的に示されている。この文書は、印刷や画面表示などにより出力されるべきデジタル文書(又は当該文書の1つのページ)の高さと幅の関係を規定するテンプレート12を含む。デジタル文書10は、例えば、1以上のページ、又はビデオ(動画)(系列をなす一連の画像)を含む。ここで、それら一連の画像の各々にテキストオブジェクトが挿入されることもある。1つ以上のオブジェクト14,16が文書テンプレート12上に配置される。これらオブジェクト14,16が、印刷されると、文書中の同じページを形成する。オブジェクト14,16等は、それぞれ、規定された高さと幅(それぞれh1,w1とh2,w2)を持つ、ある画定された境界(バウンディングボックス)を持つ。各オブジェクトについての上側ガイドライト下側ガイドライン(UG1,LG1,UG2,LG2)は、それぞれ当該オブジェクトの上端及び下端の位置を規定する。オブジェクト14の場合、ガイドラインUG1,LG1は距離h1だけ間隔があいており、オブジェクト16の場合ガイドラインUG2,LG2は距離h2だけ間隔があいている。この代わりに、あるいはこれに加えて、左側ガイドライン及び右側ガイドラインがオブジェクトの左端及び右端を規定し、それら左側と右側のガイドラインは、それぞれ距離w1とw2だけ間隔があいている。
FIG. 1 schematically shows an example of a page of the
1つ以上のオブジェクトを、画像オブジェクト14などのように、固定オブジェクトとしてラベル付けしてもよい。「固定」とは、当該オブジェクトがテンプレート12上で水平方向又は垂直方向に自由に移動することができないことを意味する。テキストオブジェクト16のような1つ以上のオブジェクトが、移動可能オブジェクト(floating object)としてラベル付けされる。このラベルは、当該オブジェクトがテンプレート12上で,少なくとも1つの次元(方向)について、この例では垂直の次元(すなわちテンプレートの高さを規定する当該テンプレートの側辺に沿った方向)について平行移動可能であることを意味する。しかし、オブジェクトが二次元以上の方向に自由に移動できるようにしてもよい。例えば、互いに直交する複数の次元(方向)について、あるいは水平方向と垂直方向の中間の方向について、移動できるようにしてもよい。
One or more objects may be labeled as fixed objects, such as
ここに例示する方法では、文書テンプレート12内のオブジェクト14,16のような2以上のオブジェクトの位置合わせを、それらオブジェクト14,16の一方又は両方の顕著度を考慮に入れて実行する。位置合わせは、移動可能オブジェクトの平行移動により実現される。例えば垂直方向の位置合わせの場合、位置合わせの後、高さが低い方のオブジェクト(この例ではオブジェクト16)の上側及び下側のガイドラインのうちの一方又は両方が、高さが高い方のオブジェクト14の上側ガイドラインと下側ガイドラインとの間に位置する。しかし、上側及び下側のガイドラインUG1及びUG2の間の正確な位置は、それらオブジェクトの一方又は両方から検出した顕著度の関数である。
In the method exemplified here, the alignment of two or more objects such as the
文書についてのオブジェクト14,16は、ワークフロープロセスの一部分として、空間的な配置構成を全く考慮しないまま、テンプレート上に既に配置されていてもよい。例えば、第1のオブジェクト14の上端は、自動的に第2のオブジェクト16の上端に位置合わせされてもよい。
The
例示のオブジェクト41は、画像オブジェクトである。画像オブジェクトは、例えば、現実世界の中の何かを描写する写真画像である。グラフィカル(グラフィックス)オブジェクトは、例えばグラフ、チャート、線画などであり、ある例では画像オブジェクトと同様に取り扱ってもよい。これらの種類のオブジェクトは両方とも顕著度検出方法により検出可能な視覚的特徴を有する。理解されるように、図面(図5,8及び9)に例示される画像オブジェクトは線画として示されているが、これらは写真画像(例えばカラー写真画像)を表すものであり、例えばそれら画像について図面に示した表現データが求められる。オブジェクト16はテキストオブジェクトであり、あらかじめ定められた文字集合からの文字群と、選ばれた1つ又は複数のフォントとを用いて生成された自然言語のテキスト列を主として含んでいる。テキストオブジェクトは、いくつかの例では、拡大されたテキスト部分や式などの普通でないテキストなどのいくつかの顕著な特徴を有している場合もあるものの、いずれの「オン」画素も顕著度においては等価であるものと考えることができる。
The example object 41 is an image object. The image object is, for example, a photographic image that describes something in the real world. The graphical (graphics) object is, for example, a graph, a chart, a line drawing, and the like, and may be handled in the same way as an image object in an example. Both types of objects have visual features that can be detected by the saliency detection method. As will be appreciated, the image objects illustrated in the drawings (FIGS. 5, 8, and 9) are shown as line drawings, but these represent photographic images (eg, color photographic images), for example, for those images. The expression data shown in the drawing is required. The
オブジェクト14,16は、適切なフォーマットであれば、PDF、JPEG、GIF、JBIG、BMP、TIFF又は画像に用いられる他の一般的なファイルフォーマットなどのようなどのようなフォーマットで表現されていてもよく、このフォーマットを処理の前に他の適切なフォーマットに変換してもよい。図1に示した文書の例は、1つのテキストオブジェクト16と1つの画像オブジェクト14とを有するが、了解されるように、この実施形態の手法は各種類のオブジェクトをそれぞれいくつ含む場合にも適用可能である。各オブジェクトは例えば画素のアレイを含んでおり、各画素はそれぞれ、1つの色値、あるいは多色画像の場合は各色版についての色値の組、に関連づけられている。用語「画素(ピクセル)」は、ここでは「画像の要素」を示すものとして用い、二次元画像の要素や三次元画像の要素(この場合三次元画像の画素の立体的性質を強調するために、ボクセルと呼ばれることもある)も含む概念である。オブジェクトの高さhと幅wはテンプレートの画素の数により表現してもよく、同様にオブジェクトのx、y座標をテンプレートの上辺及び側辺を基準として画素の数により表現してもよい。
図4は、文書内のオブジェクトを位置合わせする方法の一例を示す。この方法の処理は、S100で開始し、このステップではオブジェクト14,16のような文書オブジェクトを含んだデジタル文書が入力される。
FIG. 4 shows an example of a method for aligning objects in a document. Processing of this method begins at S100, where a digital document containing document objects such as
S102では、文書オブジェクト(画像及びテキスト(本文))が自動的に検出される。固定オブジェクト及び移動可能オブジェクトがそれぞれ特定される。 In S102, a document object (image and text (body)) is automatically detected. A fixed object and a movable object are specified.
S104では、検出されたオブジェクトは,オブジェクト自体の内容に基づき分類される。特に、オブジェクトはオブジェクト種類(画像、テキスト等)に従って分類される。その種類の中で更にカテゴリ分けされるようにしてもよい。 In S104, the detected objects are classified based on the contents of the objects themselves. In particular, the objects are classified according to the object type (image, text, etc.). You may make it categorize further in the kind.
S106では、検出されたオブジェクトの種類/カテゴリに応じて、各オブジェクトの顕著度表現、例えば顕著度マップその他の表現など、が生成される。例えばオブジェクトの種類/カテゴリに基づき、様々な検出手段(ディテクター)を用いることができる。 In S106, a saliency expression of each object, such as a saliency map or other expressions, is generated according to the type / category of the detected object. For example, various detection means (detectors) can be used based on the type / category of the object.
S108では、各オブジェクトの一次元(例えば垂直方法)の顕著度を示す少なくとも1つの関数(ガイドラインプロファイル)が顕著度検出手段の出力に基づき生成される。 In S108, at least one function (guideline profile) indicating one-dimensional (eg, vertical method) saliency of each object is generated based on the output of the saliency detector.
S110では、それらオブジェクトのうちの少なくとも一番目のものの、二番目のものに対する相対的な平行移動が、そのガイドラインプロファイルに基づいて計算される。この計算は、ガイドラインプロファイルから求められるコスト関数を最小化することにより、又はそれらガイドラインプロファイルの最大値部分同士の位置が揃うようにすることにより、行う。 In S110, the relative translation of at least the first of these objects relative to the second is calculated based on the guideline profile. This calculation is performed by minimizing the cost function obtained from the guideline profile or by aligning the positions of the maximum value portions of the guideline profile.
S112では、それらオブジェクト同士の相対的な位置を、その関数に基づき調整することにより、それらオブジェクトの再位置合わせが実行される。例えば、テキストオブジェクト16は、固定された画像オブジェクト14に対して相対的に最適な位置へと位置変更される。
In S112, re-alignment of the objects is executed by adjusting the relative positions of the objects based on the function. For example, the
S114で、修正された文書が出力される。 In S114, the corrected document is output.
この方法は、S116で終了する。 The method ends at S116.
図3は,文書中のオブジェクト14,16の位置合わせのための装置の一例を示す図であり、この装置は例えば上で例示した方法を実行するために用いられる。この装置は、例示したコンピュータ20のような電子処理装置上に具現化してもよい。他の例では、電子処理装置20は、ネットワークサーバ、インターネットベースのサーバ、デスクトップコンピュータ、ノート型コンピュータ、PDA(Personal Data Assistant)、携帯電話機などのような、1つ又は複数の特定用途計算装置又は汎用計算装置を含んでいてもよい。装置20は、入力部22、出力部24、CPU等のプロセッサ26、メモリ28を備える。コンピュータ20は、オブジェクト位置合わせシステム30を実装するように構成されている。このシステム30は、元の入力文書内の画像オブジェクトやテキストオブジェクトなどのオブジェクトの位置合わせのためにコンピュータ20によりホスティングされる。オブジェクト位置合わせシステム30は、ソフトウエア、ハードウエア又はそれら両者の組み合わせのいずれの形態であってもよい。例示のオブジェクト位置合わせシステム30は、コンピュータ読み取り可能なメモリ28に(例えば、コンピュータメモリ28の不揮発性の部分に)格納されており、図2を参照して上で説明した方法の例を実行するための命令群を含んでいる。コンピュータ20のコンポーネント22、24、26、28は、データ/制御バス34により相互に通信可能に接続されていてもよい。入力部及び出力部はそれぞれの個別のものであっても両者が結合したものであってもよく、例えば、入力ポート、モデム、ネットワーク接続などを含み得る。
FIG. 3 is a diagram showing an example of an apparatus for aligning the
コンピュータ20は、文書10のような処理対象のデジタル文書を、例えば入力部22を介して受信し、その文書10をコンピュータメモリ28の不揮発性部分等のメモリに格納し、オブジェクト位置合わせシステム30により処理されるようにする。文書10は、オブジェクト位置合わせシステム30によって、例えばその文書内のオブジェクト群を再配列することによって、変形される。コンピュータ20は、オブジェクト位置合わせシステム30により入力文書10から生成された修正済み文書36を格納及び/又は出力するように構成されている。修正済み文書36は、修正済み文書に対して更なる処理を実行するワークフロー処理システム(図示省略)の他のコンポーネント(構成要素)に、又は画像出力装置38,4に、出力される。例えば、コンピュータ20は、例えば、プリンタ38を備えるか、又はプリンタ38に対して通信可能となっており、プリンタ38は、文書38を印刷媒体上に、インクやトナーなどの色材を用いて描画する。また、コンピュータ20は、例えば、修正済み文書を画面表示するLCD画面などのディスプレイ40を備えるか、又はディスプレイ40に対して通信可能となっている。
The
文書10は、どのような適切なデータ源50から入力されてもよい。そのようなデータ源50としては、ワークフロー処理の他のコンポーネント(これはコンピュータ20内にあってもよい)や、外部データ源、例えばワークステーション、データベース、スキャナ、メモリストレージ装置(例えばディスク、メモリスティック(登録商標)など)などがある。データ源50が外部データ源である場合、このデータ源50は、ケーブル、電話線、ローカルエリアネットワーク、インターネットなどのワイドエリアネットワークを介して、モデム、USBポートなどの適切な入出力(I/O)接続部22により、一時的又は永久的にコンピュータ20に対して通信可能に接続されてもよい。
コンピュータ20については、プロセッサ26は,そのコンピュータ20の中央演算装置(CPU)であってもよい。しかしながら、汎用コンピュータ、特定用途コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ、周辺集積回路素子、ASICその他の集積回路、デジタルシグナルプロセッサ、離散素子回路のようなハードワイヤード(配線で接続された)電子回路すなわち論理回路、プログラマブルロジックデバイス(PLD、PLA、FPGA、PALなど)などを1つ又は複数用いて実装してもよいことも理解されるであろう。大略的には、図2に示されるフローチャートを実装可能な有限状態機械を実装できるプロセッサであれば、どのようなプロセッサでも、上述のオブジェクトの位置合わせの方法を実装するのに用いることができる。
For the
メモリ28は、複数の個別のメモリからなる形態であってもよいし、それら複数が組み合わされた形態であってもよく、実体的なコンピュータ読み取り可能な記憶媒体としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気ディスク、磁気テープ、光ディスク、フラッシュメモリ、ホログラフィックメモリ、又はそれらの適切な組み合わせなどといった、どのような形態のものであってもよい。
The
図3に示すように、オブジェクト位置合わせシステム30は、実施形態の方法を実行するために、処理コンポーネント60,62,64,66,68を備える。
As shown in FIG. 3, the
特に、オブジェクト検出部60は、文書オブジェクトを検出すると共に、それら文書オブジェクトがある特定の次元(方向)について固定又は移動可能のいずれであるかを検出する。顕著度検出部選択部62は、適切な顕著度検出方法を特定する。この選択部62は、オブジェクト種類分類部70及び画像種類分類部72と通信する。分類部70は各オブジェクトにオブジェクト種類を割り当てる。分類部72は、写真(絵)画像として分類されたオブジェクトに対して、画像カテゴリを割り当てる。それら2つの分類部70,72は、種類及びカテゴリが異なる様々なオブジェクト例(これら例は、それら種類又はカテゴリに属するもの(ポジティブ)ものであり、場合によっては属さない例(ネガティブ)を含んでもよい)の学習用集合を用いて学習させておいてもよい。顕著度検出部選択部62は、分類部70,72の出力に基づき、各オブジェクトについての適切な顕著度検出方法を選択する。例えば、図3は、一例として3つの顕著度検出部74,76,78を示している。選択部62は、各画像についてそれら顕著度検出部の中から適切な1つを呼び出し、注目しているオブジェクトについての顕著度表現を生成させる。プロファイル生成部64は、その顕著度表現を受け取り、これに基づき、当該オブジェクトの1次元(例えば垂直方向)についての顕著度を示すガイドラインプロファイルを生成する。位置合わせ生成部66は、そのガイドラインプロファイルに基づき、それらオブジェクトを最適な位置合わせ状態とするための、それらオブジェクトの一方又は両方の平行移動量を計算する。
In particular, the
オブジェクト再配置部68は、オブジェクトの位置合わせを実行する。これは、例えば、それらオブジェクトの一方又は両方の新たな座標を格納し、修正済み文書を出力することにより実現される。新たな座標の情報は、例えばHTMLタグなどのタグとして、又は文書に付随するファイルに含める形で、格納される。 The object rearrangement unit 68 performs object alignment. This is accomplished, for example, by storing new coordinates for one or both of these objects and outputting a modified document. The new coordinate information is stored, for example, as a tag such as an HTML tag or included in a file accompanying the document.
この装置及び方法の更なる詳細を以下に説明する。 Further details of this apparatus and method are described below.
<文書オブジェクト検出:S102>
S102では、文書を構成するすべてのオブジェクトが識別され、各オブジェクトのページ内での位置が求められる。文書内のオブジェクトの検出には、直接的な方法と間接的な方法が存在する。文書がXSL−FO(Extensible Stylesheet Language Formatting Objects: XSLはXMLデータを組版するための言語)などのオープンなフォーマットで表されている場合は、このステップは直接的に実行すればよい。例えば、Apache FOPは、XSLフォーマッティングオブジェクト(XSL−FO)により動作するオープンソースの印刷フォーマッター(組版装置)であるとともに、出力に非依存のフォーマッターである。このアプリケーションは、フォーマッティングオブジェクト(FO)ツリーを読み取り、結果のページ群を、PDF、PS、PCL、AFP、XMLなどの指定された出力フォーマットにてレンダリング(描画)する。Xiaofan Lin, Active Document Layout Synthesis, 8th International Conference on Document Analysis and Recognition, Seoul, Korea (2005); Itti and Koch, “A saliency-based search mechanism for overt and covert shifts of visual attention.” Vision Research, v. 40. 1489-1506 (2000)等も参照されたい。
<Document Object Detection: S102>
In S102, all objects constituting the document are identified, and the position of each object in the page is obtained. There are direct and indirect methods for detecting an object in a document. If the document is expressed in an open format such as XSL-FO (Extensible Stylesheet Language Formatting Objects: XSL is a language for formatting XML data), this step may be executed directly. For example, Apache FOP is an open source print formatter (typesetting device) that operates with an XSL formatting object (XSL-FO), and is an output-independent formatter. This application reads a formatting object (FO) tree and renders (draws) the resulting page group in a specified output format such as PDF, PS, PCL, AFP, or XML. Xiaofan Lin, Active Document Layout Synthesis, 8th International Conference on Document Analysis and Recognition, Seoul, Korea (2005); Itti and Koch, “A saliency-based search mechanism for overt and covert shifts of visual attention.” Vision Research, v. See also 40. 1489-1506 (2000).
他の文書については、間接的な方法が利用できる。間接的な方法の例は、K.Y. Wong, R.G. Casey, F.M. Wahl, “Document analysis system,”IBM Journal of Research and Development (1982); and George Nagy, “Twenty years of document image analysis in PAMI,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, (January 2000)等に記載されている。例えば、文書は二値化されて白と黒の画素の集まりとし、黒画素からなる各ブロックを様々な特徴により特徴付けるようにしてもよい。 For other documents, indirect methods can be used. Examples of indirect methods are KY Wong, RG Casey, FM Wahl, “Document analysis system,” IBM Journal of Research and Development (1982); and George Nagy, “Twenty years of document image analysis in PAMI,” IEEE Transactions. on Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, (January 2000). For example, the document may be binarized into a collection of white and black pixels, and each block of black pixels may be characterized by various features.
検出された各オブジェクト14,16について、重心位置c1,c2と最大高さ及び最大幅(それぞれh1,w1及びh2,w2)が求められる(図1)。 For each of the detected objects 14 and 16, the center-of-gravity positions c 1 and c 2 and the maximum height and maximum width (h 1 , w 1 and h 2 , w 2, respectively ) are obtained (FIG. 1).
<文書分類:S104>
オブジェクト14,16はそれぞれ複数のクラス(分類)の中の1つに分類される。実施形態では、1つの主クラスを用いる。すんわち、テキストアイランド(テキストのかたまり)、写真(絵画)画像(連続調画像など。例えば写真)、及びグラフィックス要素である。写真画像及びグラフィックス画像については、更なる分類ステップが実行される。
<Document classification: S104>
Each of the
オブジェクトの種類の評価では、例えば分類部70が、各オブジェクトに対してオブジェクトクラスの集合の中の1つのクラスを割り当てるのに用いられる。この代わりに、オブジェクト又は文書に関連づけられたタグ群に基づき,そのオブジェクトに対してクラスを割り当ててもよい。この場合、S104では、当該オブジェクトに割り当てられるべきクラスを識別するためにタグ群を読み取る。実施形態では、テキスト、グラフィックス、及び画像(写真・絵など)オブジェクトという3つのクラスを用いたが、他のクラス分けを用いてももちろんよい。
In the evaluation of the object type, for example, the
グラフィックス(図形)画像は、汎用視覚的カテゴリ分類器(GVC : Generic Visual Categorizer)等の自動的方法を用いて分類することができる。このステップは、画像の内容を理解するために有益であり、その内容を次のステップ群の処理をよりよく調整するためのアプリオリ(先験的)な情報として用いることができる。 Graphics (graphic) images can be classified using an automatic method such as a generic visual categorizer (GVC). This step is useful for understanding the content of the image and can be used as a priori information to better adjust the processing of the next step group.
写真(絵)画像に分類されたオブジェクトについては、画像の内容を評価するために更なる調査を行ってもよい。このステップのために、写真(絵)画像についての複数の内容ベースのクラス(カテゴリ)のうちの1つを割り当てることができるよう、1つ又は1組のカテゴリ分類部72を学習させてもよい。カテゴリ分類部は、クラスに従って人手によりラベル付けされた画像群を用いてあらかじめ学習させておいてもよい。例えば、汎用視覚的分類器(GVC)を用いることで、人、顔のない画像、建物、空、海の風景、陸上の風景等の中の2以上の異なるカテゴリへと画像を分類することができる。このような分類部の例としては、米国特許出願公開第2007/0005356号明細書、同第2007/0258648号明細書、同第2008/0069456号明細書に開示されたものがある。例えば、空、人、及び、人以外の画像という3つのカテゴリを用いる(あるいは単に人/人以外の分類器を用いる)単純化されたシステムもあり得る。
For objects classified as photo (picture) images, further investigation may be performed to evaluate the content of the images. For this step, one or a set of
このようにして各オブジェクトを、当該オブジェクト自身のクラス(グラフィックス、(写真等の)画像、又はテキスト)を表すラベルによりタグ付けすることができ、(写真等の)画像オブジェクトの場合は、内容(コンテンツ)に基づくカテゴリ(空、人、又は人以外)を表すラベルによりタグ付けすることができる。 In this way, each object can be tagged with a label representing its own class (graphics, images (such as photos) or text), and in the case of image objects (such as photos) It can be tagged with a label representing a category (empty, person, or non-person) based on (content).
<顕著度検出:S106>
検出された各オブジェクトについて、それぞれ分布(ガイドラインプロファイル)が求められる。ガイドラインプロファイルは、位置合わせのためのガイドライン(基準線)として良好な垂直(縦)方向についての位置を示す。オブジェクトのラベルに従って、分布を求めるための3つの異なる方法を考慮する。
<Saliency detection: S106>
A distribution (guideline profile) is obtained for each detected object. The guideline profile indicates a position in a good vertical (vertical) direction as a guideline (reference line) for alignment. Consider three different ways to determine the distribution according to the label of the object.
テキストオブジェクトについては、分類部74は、オブジェクトの次元(寸法)に従ったパラメータで表現される単純なカイ二乗分布を生成する。例えば、図4に示すように、分布80は、テキストオブジェクト14についてのガイドラインプロファイルとして用いることができる。これは、テキストについてのガイドラインプロファイルを近似するのに用いることができる。あるいは、テキストボックス(テキストの範囲を規定する矩形領域)の幾何学的中心(例えば重心など)を用いてもよい。
For text objects, the classification unit 74 generates a simple chi-square distribution expressed by parameters according to the dimensions (dimensions) of the object. For example, as shown in FIG. 4, the
人以外に分類された画像オブジェクトについては(すなわち、人の顔を含まない一般的な画像については)、従来の顕著度マップを用いてもよい(例えば、Itti and Koch, “A saliency-based search mechanism for overt and covert shifts of visual attention.” Vision Research, v. 40. 1489-1506 (2000) 参照)。例えば、図5には、一例としてのオブジェクト14、この場合は人以外にカテゴリ分け済みの写真(絵)画像が示されている。図6は、オブジェクト14を形成する画像の顕著度表現を顕著度マップ82の形で示している。画像は複数の小さい領域に分割されている。図6では、例えば、32×22個の矩形領域からなる格子が示されている。各領域に対してそれぞれ1つの顕著度が割り当てられ、この顕著度は、図では、段階的なスケール(例えばグレースケール値の集合)に従って表現されており、このスケールでは白は高顕著度を、黒は低顕著度を示す。用いられている検出部74は、自由の女神像の両側の規則正しい形状の領域に対して高い顕著度を付与している。ガイドラインプロファイル84は、各行を水平軸に沿って平均して垂直方向のガイドラインプロファイル(図7に例示)を求めることにより生成される。この種の顕著度検出方法は、グラフィックス要素や「人」クラスに割り当てられなかった写真(絵)画像に対しても用いることができる。以上の例の代わりに、特別に構築した顕著度検出部を用いてもよい。
For image objects classified as non-human (ie, for general images that do not include human faces), a traditional saliency map may be used (eg, Itti and Koch, “A saliency-based search mechanism for overt and covert shifts of visual attention. ”Vision Research, v. 40. 1489-1506 (2000)). For example, FIG. 5 shows an
人カテゴリのラベルが付された画像オブジェクトについては、Viola-Jones顔検出器(P. Viola and M. Jones. “Robust real-time face detection.” International Journal of Computer Vision (IJCV) 57(2) 137-154 (2004) 参照)のような顔検出部78を用いてもよい。この方法は、顔が画像中でもっとも顕著な領域であると仮定する。例えば、図8には、人カテゴリに分類されたオブジェクト14(このオブジェクトの円86の中から顔が検出されている)が示される。両目の位置を、顔のサイズについて簡単な計算により求めることができる(線88で示される)。この代わりに、両目の位置を直接的に検出することを目的とするもっと複雑な方法を用いてもよい(例えばG.C. Feng, P.C. Yuen, “Multi-cues eye detection on gray intensity image,” Pattern Recognition, Elsevier (2001)を参照)。両目の垂直方向位置が求められると、推定される両目の高さの位置にガウス分布90の中心を起き、そのガウス分布を顔のサイズに対して相対的にパラメータ表示することができる。そのガウス分布をガイドライン}として用いることができる。
For image objects labeled with the human category, the Viola-Jones face detector (P. Viola and M. Jones. “Robust real-time face detection.” International Journal of Computer Vision (IJCV) 57 (2) 137 -154 (2004)) may be used. This method assumes that the face is the most prominent area in the image. For example, FIG. 8 shows an
他の例では、ハイブリッド方式(複数の方法を混合した方式)を用いてもよい。例えば、顔検出に基づく顕著度マップと従来の顕著度マップの2つの顕著度マップを生成し、2つの結果を組み合わせることで、プロファイルを生成するのに用いられる組合せ顕著度マップを求める。 In another example, a hybrid method (a method in which a plurality of methods are mixed) may be used. For example, two saliency maps of a saliency map based on face detection and a conventional saliency map are generated, and the two results are combined to obtain a combined saliency map used to generate a profile.
更に別の例では、すべての種類の写真(絵)画像についての顕著度を、上に挙げた米国特許出願第12/400,277号の明細書に説明された方法を用いて検出してもよい。この方法では、対象のオブジェクトが、格納された多数のオブジェクト(格納オブジェクト)からなる集合の中のオブジェクト(画像)群と比較されることにより、類似度が最も高い格納オブジェクトの組を検索する。格納オブジェクトは、それぞれ、人手によりラベル付けされた注目領域を有する。検索された各オブジェクトの各注目領域を正の(すなわち顕著である例として)用いることにより、オブジェクト14内の各領域を顕著又は非顕著として分類するように分類部を学習させ、内容に基づく顕著度マップを結果として生成する。
In yet another example, saliency for all types of photographic (picture) images may be detected using the method described in the above-mentioned US patent application Ser. No. 12 / 400,277. Good. In this method, a target object is compared with an object (image) group in a set of a large number of stored objects (stored objects) to search for a set of stored objects having the highest similarity. Each stored object has a region of interest that is manually labeled. By using each region of interest of each retrieved object as a positive (ie, as a prominent example), the classifying unit is trained to classify each region in the
<ガイドラインプロファイルの推定:S108>
上述のように、各オブジェクト14,16について、それら2つの文書オブジェクトの位置合わせを容易にするために、垂直方向(縦)及び水平方向(横)の位置合わせプロファイル80,84,90(ガイドラインプロファイル)が推定される。これらプロファイルは、位置合わせガイドライン94,96(図9)が美的基準及び/又は知覚的基準を反映した特定の垂直方向位置に配置される確からしさを示す分布である。図9では、それら位置合わせガイドラインは、その分布の極大値の位置に配置されている。プロファイルには、計算を容易にするために平滑化その他の処理が加えられる。例えば、図7に示すように(ピークP1とP2)、分布(プロファイル)の中に2以上のピークがある場合、小さい方のピークをガイドラインプロファイル84から省くなどである(図9)。
<Estimation of guideline profile: S108>
As described above, for each of the
この代わりに、図10に例示するように、2つのガイドラインプロファイル(この例ではガイドライン80と84)のたたみ込み98(例えば乗算)を計算し、最大値となる点が再位置合わせポイント100と推定するようにしてもよい。ここで、最大のピークの最大値の点を、位置合わせガイドラインとみなす。なお、図10では、ガイドラインプロファイル及びそのたたみ込みを、垂直方向ではなく水平方向に示している。
Instead, as illustrated in FIG. 10, a convolution 98 (eg, multiplication) of two guideline profiles (
<オブジェクトの再位置合わせ:S110,S112>
ガイドラインプロファイルに基づき、例えばコスト関数を最小化することにより、オブジェクトが再位置合わせされる。
<Object re-alignment: S110, S112>
Based on the guideline profile, the objects are realigned, for example by minimizing the cost function.
オブジェクトの再位置合わせは、例えば、2つのオブジェクトの一方又は両方の位置を、相手方に対してずらすことにより実現される。図9の画像オブジェクト14のように一方のオブジェクトの位置が固定されており、他方のオブジェクト16が自由に移動できる(すなわち浮動的)である場合には、移動可能(浮動的)オブジェクトの位置合わせガイドラインが他方のオブジェクトの位置合わせガイドラインと一致するように、その移動可能なオブジェクトの位置がずらされる。これは、2つのガイドラインプロファイルの最大値同士の垂直方向の差s(すなわち2つの位置合わせガイドライン94と96との間の距離)を計算することにより非常に単純に実行することができる。そして、移動可能オブジェクト16がその距離sだけ縦に、矢印Aが示す方向に動かされ、これにより位置合わせガイドライン94と96とが水平方向に位置合わせされる(すなわち一直線上に位置する)。文書のページ10内でのオブジェクト16の新たな位置が格納される。この代わりに、上述のように、2つのガイドラインのたたみ込み100を計算し、そのたたみ込み結果が最大値となる点を再位置合わせポイントとして用いてもよい。
The re-alignment of the object is realized, for example, by shifting the position of one or both of the two objects with respect to the other party. When the position of one object is fixed as in the
以上に説明した例では、画像オブジェクトとテキストオブジェクトの位置合わせの場合の例を特に説明したが、この実施形態の方法は、テキストオブジェクト、画像オブジェクト、グラフィックスオブジェクト、本文(textual)オブジェクト、及びそれらの組み合わせであるオブジェクトの中からそれぞれ独立して選ばれた第1のオブジェクトと第2のオブジェクトとの位置合わせに適用してもよい。更に、第1のオブジェクトを第2のオブジェクトに対して垂直方向について位置合わせすると共に、その第1のオブジェクトを第3のオブジェクトに対して水平方向について位置合わせしてもよい。更に、第1のオブジェクトを、2以上の他のオブジェクトに対して垂直方向及び水平方向について位置合わせすることも考えられる。例えば、第2のオブジェクトを第1のオブジェクトの位置合わせプロファイルの第1のピークに位置合わせし、第3のオブジェクトを第1のオブジェクトの位置合わせプロファイルの第2のピークに位置合わせするなどである。更に別の例では、第1のオブジェクトと第2のオブジェクトのそれぞれについて水平方向の位置合わせプロファイルと垂直方向の位置合わせプロファイルを生成し、どれがページ上でもっともぴったり調和するかに基づいて、それら2つのオブジェクトの水平方向及び垂直方向のいずれか又は両方についての位置合わせを提案する。例示したオブジェクト14と16の境界は互いに離れているが、他の例では、移動可能な第1のオブジェクトが第2のオブジェクトに対して全体的に又は部分的に重なって(例えば後者の中に含まれて)いる場合を考慮してもよい。
In the example described above, the example in the case of the alignment of the image object and the text object has been particularly described. However, the method of this embodiment is applicable to a text object, an image object, a graphics object, a textual object, and those You may apply to the alignment of the 1st object and 2nd object which were each independently selected from the object which is a combination of these. Further, the first object may be aligned with respect to the second object in the vertical direction, and the first object may be aligned with respect to the third object in the horizontal direction. It is also conceivable to align the first object with respect to two or more other objects in the vertical and horizontal directions. For example, aligning the second object to the first peak of the alignment profile of the first object, aligning the third object to the second peak of the alignment profile of the first object, etc. . In yet another example, a horizontal alignment profile and a vertical alignment profile are generated for each of the first object and the second object, based on which matches best on the page. We propose to align two objects in either or both the horizontal and vertical directions. Although the boundaries of the illustrated
図2に例示した方法は、例えばコンピュータ上で実行されるコンピュータプログラム製品に実装してもよい。コンピュータプログラム製品は、制御プログラムを記録した、実体的なコンピュータ読み取り可能記録媒体、例えばディスク、ハードディスクドライブなどであってもよい。コンピュータ読み取り可能な媒体の一般的な形態には、フロッピー(登録商標)ディスクやフレキシブルディスク、ハードディスク、磁気テープその他の磁気記憶媒体、CD−ROMやDVDその他の光媒体、RAM、PROM、EPROM、フラッシュ絵PROMその他のメモリチップ又はメモリカートリッジ、又はコンピュータが読むことができ使用することができる他の媒体などがある。あるいは、データ信号伝送媒体として制御プログラムを表した送信可能な搬送波、例えば音響波、光波、無線データ通信や赤外線データ通信において生成される波など、の形であってもよい。 The method illustrated in FIG. 2 may be implemented, for example, in a computer program product that is executed on a computer. The computer program product may be a tangible computer-readable recording medium recording a control program, such as a disk or a hard disk drive. Common forms of computer-readable media include floppy (registered trademark) disks, flexible disks, hard disks, magnetic tapes and other magnetic storage media, CD-ROMs, DVDs and other optical media, RAM, PROM, EPROM, flash There may be a picture PROM or other memory chip or memory cartridge, or other media that the computer can read and use. Alternatively, it may be in the form of a transmittable carrier wave representing a control program as a data signal transmission medium, such as an acoustic wave, a light wave, a wave generated in wireless data communication or infrared data communication.
上に例示した方法は、汎用コンピュータ、特定用途コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ、周辺集積回路素子、ASICその他の集積回路、デジタルシグナルプロセッサ、離散素子回路のようなハードワイヤード(配線で接続された)電子回路すなわち論理回路、プログラマブルロジックデバイス(PLD、PLA、FPGA、PALなど)などのうちの1つ又は複数を用いて実装してもよい。大略的には、図2に示されるフローチャートを実装可能な有限状態機械を実装できるプロセッサであれば、どのようなプロセッサでも、上述のオブジェクトの位置合わせの方法を実装するのに用いることができる。 The methods exemplified above are hardwired (wired) such as general purpose computers, special purpose computers, programmed microprocessors or microcontrollers, peripheral integrated circuit elements, ASICs and other integrated circuits, digital signal processors, discrete element circuits. May be implemented using one or more of electronic circuits or logic circuits, programmable logic devices (PLD, PLA, FPGA, PAL, etc.). In general, any processor capable of implementing a finite state machine capable of implementing the flowchart shown in FIG. 2 can be used to implement the object alignment method described above.
<応用>
実施形態のシステム及び方法は、一対一のパーソナライゼーション(個人ごとのカスタマイズ)及びダイレクトメールマーケティングなどの、可変データ(例えば可変データ印刷)のアプリケーションに利用することができる。可変文書の生成では、動的に変わる内容(コンテンツ)が典型的に含まれる部分のために、適切な美的レベルを確保することに様々な課題がある。課題の一つは、可変データのワークフローの中にある視覚的な側面を動的にどのように取り扱うことで、強調処理や管理処理を文脈(状況)により即したやり方で取り扱えるようにするかである。実施形態に挙げた方法は,文書オブジェクト同士を意味的な内容に基づいて位置合わせすることにより、このことへの対処を助けるものとなっている。
<Application>
The systems and methods of the embodiments can be used for variable data (eg, variable data printing) applications such as one-to-one personalization (personal customization) and direct mail marketing. In the generation of a variable document, there are various problems in ensuring an appropriate aesthetic level for a portion that typically includes dynamically changing content (content). One challenge is how to dynamically handle the visual aspects of variable data workflows so that emphasis and management can be handled in a more contextual context. is there. The method described in the embodiment helps to cope with this by aligning document objects based on semantic content.
画像・文書資産の管理や、文書画像/写真セットの視覚化などといった他の応用についても、オブジェクトの位置合わせは利益をもたらす(例えば写真の後処理)。 For other applications such as image / document asset management and document image / photo set visualization, object alignment also benefits (e.g. photo post-processing).
以下に示す例は,実施形態の方法の応用例を示すものであるが、これらは上述の実施形態の範囲を限定することを意図するものではない。 The following examples show application examples of the method of the embodiment, but these are not intended to limit the scope of the above-described embodiment.
<例>
上述のようにして開発された自動化プロトタイプシステムを用いて、図8に示されるオブジェクト14に対する移動可能なテキストアイランド16の適切な位置を計算した。このシステムは、図11に近似的に例示するように、テキストアイランド16を、垂直方向についてオブジェクト14の人のほぼ目の高さに正しく位置合わせした。これは、オブジェクトの上端又は下端同士を位置合わせする従来システムの場合よりも、より美観の優れた結果である。
<Example>
Using the automated prototype system developed as described above, the appropriate position of the
20 コンピュータ、22 入力部、24 出力部、26 プロセッサ、28 メモリ、30 オブジェクト位置合わせシステム、38 プリンタ、40 ディスプレイ画面、50 文書データ源、60 オブジェクト検出部、62 顕著度検出部選択部、64 プロファイル生成部、66 位置合わせ生成部、68 オブジェクト再配置部、70 オブジェクト種類分類部、72 画像オブジェクトカテゴリ分類部、74,76,78 顕著度検出部。 20 computers, 22 input units, 24 output units, 26 processors, 28 memories, 30 object alignment systems, 38 printers, 40 display screens, 50 document data sources, 60 object detection units, 62 saliency detection unit selection units, 64 profiles Generation unit, 66 Position generation unit, 68 Object rearrangement unit, 70 Object type classification unit, 72 Image object category classification unit, 74, 76, 78 Saliency detection unit
Claims (4)
入力された電子文書について、当該オブジェクトのページ内にある位置合わせすべき第1のオブジェクトと第2のオブジェクトを識別するステップと、
コンピュータプロセッサにより、前記第1のオブジェクトについての顕著度の検出に基づき、少なくとも前記第1のオブジェクトについての一次元のガイドラインプロファイルを生成するステップと、
前記ガイドラインプロファイルに基づき前記第1のオブジェクトと前記第2のオブジェクトとを位置合わせして修正済み文書を生成するステップと、
前記修正済み文書を出力するステップと、
を含む方法。 A method for alignment of objects in an electronic document, comprising:
Identifying for the input electronic document a first object and a second object to be aligned within the page of the object;
Generating, by a computer processor, a one-dimensional guideline profile for at least the first object based on detection of saliency for the first object;
Aligning the first object and the second object based on the guideline profile to generate a modified document;
Outputting the modified document;
Including methods.
オブジェクト位置合わせシステムを格納するコンピュータ読み取り可能なメモリと、
前記メモリと通信可能なプロセッサであって、前記オブジェクト位置合わせシステムを実行するプロセッサと、
を備え、
前記オブジェクト位置合わせシステムは、
文書内の位置合わせすべき第1及び第2のオブジェクトを識別するオブジェクト検出手段と、
少なくとも前記第1のオブジェクトについての一次元ガイドラインプロファイルを前記第1のオブジェクトについての顕著度の検出結果に基づき生成するプロファイル生成手段と、
前記ガイドラインプロファイルに基づいて前記第1及び第2のオブジェクトの位置合わせを実行する位置合わせ手段と、
を備えることを特徴とする装置。 A device for aligning objects in a document,
A computer readable memory for storing the object alignment system;
A processor capable of communicating with the memory and executing the object alignment system;
With
The object alignment system includes:
Object detection means for identifying first and second objects to be aligned in the document;
Profile generation means for generating a one-dimensional guideline profile for at least the first object based on a saliency detection result for the first object;
Alignment means for performing alignment of the first and second objects based on the guideline profile;
A device comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/432,948 US8271871B2 (en) | 2009-04-30 | 2009-04-30 | Automated method for alignment of document objects |
US12/432,948 | 2009-04-30 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010262648A true JP2010262648A (en) | 2010-11-18 |
JP2010262648A5 JP2010262648A5 (en) | 2013-06-13 |
JP5302258B2 JP5302258B2 (en) | 2013-10-02 |
Family
ID=42646214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010100724A Expired - Fee Related JP5302258B2 (en) | 2009-04-30 | 2010-04-26 | Method for automatic alignment of document objects |
Country Status (3)
Country | Link |
---|---|
US (1) | US8271871B2 (en) |
EP (1) | EP2246808A3 (en) |
JP (1) | JP5302258B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101230567B1 (en) | 2011-04-27 | 2013-02-07 | 경북대학교 산학협력단 | Object detection and tracking apparatus and method thereof, and intelligent surveillance vision system using the same |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8271871B2 (en) * | 2009-04-30 | 2012-09-18 | Xerox Corporation | Automated method for alignment of document objects |
US9349130B2 (en) * | 2010-11-17 | 2016-05-24 | Eloqua, Inc. | Generating relative and absolute positioned resources using a single editor having a single syntax |
US20140095986A1 (en) * | 2012-09-30 | 2014-04-03 | Vinay Krishnaswamy | Baseline Alignment |
US11514228B2 (en) | 2014-05-23 | 2022-11-29 | Microsoft Technology Licensing, Llc | Guides on a content generation system |
US9626584B2 (en) * | 2014-10-09 | 2017-04-18 | Adobe Systems Incorporated | Image cropping suggestion using multiple saliency maps |
US9430457B2 (en) | 2014-12-24 | 2016-08-30 | Xerox Corporation | Ambiguity reduction for image alignment applications |
US9830529B2 (en) | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
US10067509B1 (en) | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
US10311312B2 (en) | 2017-08-31 | 2019-06-04 | TuSimple | System and method for vehicle occlusion detection |
US10147193B2 (en) | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
US10671873B2 (en) | 2017-03-10 | 2020-06-02 | Tusimple, Inc. | System and method for vehicle wheel detection |
US9953236B1 (en) | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
US11587304B2 (en) | 2017-03-10 | 2023-02-21 | Tusimple, Inc. | System and method for occluding contour detection |
US10710592B2 (en) | 2017-04-07 | 2020-07-14 | Tusimple, Inc. | System and method for path planning of autonomous vehicles based on gradient |
US9952594B1 (en) | 2017-04-07 | 2018-04-24 | TuSimple | System and method for traffic data collection using unmanned aerial vehicles (UAVs) |
US10471963B2 (en) | 2017-04-07 | 2019-11-12 | TuSimple | System and method for transitioning between an autonomous and manual driving mode based on detection of a drivers capacity to control a vehicle |
US10552691B2 (en) | 2017-04-25 | 2020-02-04 | TuSimple | System and method for vehicle position and velocity estimation based on camera and lidar data |
US10481044B2 (en) | 2017-05-18 | 2019-11-19 | TuSimple | Perception simulation for improved autonomous vehicle control |
US10558864B2 (en) | 2017-05-18 | 2020-02-11 | TuSimple | System and method for image localization based on semantic segmentation |
US10474790B2 (en) | 2017-06-02 | 2019-11-12 | TuSimple | Large scale distributed simulation for realistic multiple-agent interactive environments |
US10762635B2 (en) | 2017-06-14 | 2020-09-01 | Tusimple, Inc. | System and method for actively selecting and labeling images for semantic segmentation |
US10289656B2 (en) * | 2017-06-22 | 2019-05-14 | Adobe Inc. | Efficiently relocating objects within a digital document to an equidistant position relative to reference objects |
US10303522B2 (en) | 2017-07-01 | 2019-05-28 | TuSimple | System and method for distributed graphics processing unit (GPU) computation |
US10752246B2 (en) | 2017-07-01 | 2020-08-25 | Tusimple, Inc. | System and method for adaptive cruise control with proximate vehicle detection |
US10308242B2 (en) | 2017-07-01 | 2019-06-04 | TuSimple | System and method for using human driving patterns to detect and correct abnormal driving behaviors of autonomous vehicles |
US10493988B2 (en) | 2017-07-01 | 2019-12-03 | TuSimple | System and method for adaptive cruise control for defensive driving |
US10737695B2 (en) | 2017-07-01 | 2020-08-11 | Tusimple, Inc. | System and method for adaptive cruise control for low speed following |
US10360257B2 (en) | 2017-08-08 | 2019-07-23 | TuSimple | System and method for image annotation |
US11029693B2 (en) | 2017-08-08 | 2021-06-08 | Tusimple, Inc. | Neural network based vehicle dynamics model |
US10816354B2 (en) | 2017-08-22 | 2020-10-27 | Tusimple, Inc. | Verification module system and method for motion-based lane detection with multiple sensors |
US10565457B2 (en) | 2017-08-23 | 2020-02-18 | Tusimple, Inc. | Feature matching and correspondence refinement and 3D submap position refinement system and method for centimeter precision localization using camera-based submap and LiDAR-based global map |
US10762673B2 (en) | 2017-08-23 | 2020-09-01 | Tusimple, Inc. | 3D submap reconstruction system and method for centimeter precision localization using camera-based submap and LiDAR-based global map |
US10303956B2 (en) | 2017-08-23 | 2019-05-28 | TuSimple | System and method for using triplet loss for proposal free instance-wise semantic segmentation for lane detection |
US10678234B2 (en) | 2017-08-24 | 2020-06-09 | Tusimple, Inc. | System and method for autonomous vehicle control to minimize energy cost |
US10783381B2 (en) | 2017-08-31 | 2020-09-22 | Tusimple, Inc. | System and method for vehicle occlusion detection |
US10953880B2 (en) | 2017-09-07 | 2021-03-23 | Tusimple, Inc. | System and method for automated lane change control for autonomous vehicles |
US10649458B2 (en) | 2017-09-07 | 2020-05-12 | Tusimple, Inc. | Data-driven prediction-based system and method for trajectory planning of autonomous vehicles |
US10656644B2 (en) | 2017-09-07 | 2020-05-19 | Tusimple, Inc. | System and method for using human driving patterns to manage speed control for autonomous vehicles |
US10782694B2 (en) | 2017-09-07 | 2020-09-22 | Tusimple, Inc. | Prediction-based system and method for trajectory planning of autonomous vehicles |
US10782693B2 (en) | 2017-09-07 | 2020-09-22 | Tusimple, Inc. | Prediction-based system and method for trajectory planning of autonomous vehicles |
US10953881B2 (en) | 2017-09-07 | 2021-03-23 | Tusimple, Inc. | System and method for automated lane change control for autonomous vehicles |
US10671083B2 (en) | 2017-09-13 | 2020-06-02 | Tusimple, Inc. | Neural network architecture system for deep odometry assisted by static scene optical flow |
US10552979B2 (en) | 2017-09-13 | 2020-02-04 | TuSimple | Output of a neural network method for deep odometry assisted by static scene optical flow |
US10733465B2 (en) | 2017-09-20 | 2020-08-04 | Tusimple, Inc. | System and method for vehicle taillight state recognition |
US10387736B2 (en) | 2017-09-20 | 2019-08-20 | TuSimple | System and method for detecting taillight signals of a vehicle |
US10970564B2 (en) | 2017-09-30 | 2021-04-06 | Tusimple, Inc. | System and method for instance-level lane detection for autonomous vehicle control |
US10962979B2 (en) | 2017-09-30 | 2021-03-30 | Tusimple, Inc. | System and method for multitask processing for autonomous vehicle computation and control |
US10768626B2 (en) | 2017-09-30 | 2020-09-08 | Tusimple, Inc. | System and method for providing multiple agents for decision making, trajectory planning, and control for autonomous vehicles |
US10410055B2 (en) | 2017-10-05 | 2019-09-10 | TuSimple | System and method for aerial video traffic analysis |
US10739775B2 (en) | 2017-10-28 | 2020-08-11 | Tusimple, Inc. | System and method for real world autonomous vehicle trajectory simulation |
US10666730B2 (en) | 2017-10-28 | 2020-05-26 | Tusimple, Inc. | Storage architecture for heterogeneous multimedia data |
US10812589B2 (en) | 2017-10-28 | 2020-10-20 | Tusimple, Inc. | Storage architecture for heterogeneous multimedia data |
US10528851B2 (en) | 2017-11-27 | 2020-01-07 | TuSimple | System and method for drivable road surface representation generation using multimodal sensor data |
US10657390B2 (en) | 2017-11-27 | 2020-05-19 | Tusimple, Inc. | System and method for large-scale lane marking detection using multimodal sensor data |
US10528823B2 (en) | 2017-11-27 | 2020-01-07 | TuSimple | System and method for large-scale lane marking detection using multimodal sensor data |
US10877476B2 (en) | 2017-11-30 | 2020-12-29 | Tusimple, Inc. | Autonomous vehicle simulation system for analyzing motion planners |
US10860018B2 (en) | 2017-11-30 | 2020-12-08 | Tusimple, Inc. | System and method for generating simulated vehicles with configured behaviors for analyzing autonomous vehicle motion planners |
CN112004729B (en) | 2018-01-09 | 2023-12-01 | 图森有限公司 | Real-time remote control of vehicles with high redundancy |
CN111989716B (en) | 2018-01-11 | 2022-11-15 | 图森有限公司 | Monitoring system for autonomous vehicle operation |
US11009365B2 (en) | 2018-02-14 | 2021-05-18 | Tusimple, Inc. | Lane marking localization |
US11009356B2 (en) | 2018-02-14 | 2021-05-18 | Tusimple, Inc. | Lane marking localization and fusion |
US10685244B2 (en) | 2018-02-27 | 2020-06-16 | Tusimple, Inc. | System and method for online real-time multi-object tracking |
US10685239B2 (en) | 2018-03-18 | 2020-06-16 | Tusimple, Inc. | System and method for lateral vehicle detection |
CN110378185A (en) | 2018-04-12 | 2019-10-25 | 北京图森未来科技有限公司 | A kind of image processing method applied to automatic driving vehicle, device |
CN110458854B (en) | 2018-05-02 | 2022-11-15 | 北京图森未来科技有限公司 | Road edge detection method and device |
US11104334B2 (en) | 2018-05-31 | 2021-08-31 | Tusimple, Inc. | System and method for proximate vehicle intention prediction for autonomous vehicles |
US10839234B2 (en) | 2018-09-12 | 2020-11-17 | Tusimple, Inc. | System and method for three-dimensional (3D) object detection |
EP3849868A4 (en) | 2018-09-13 | 2022-10-12 | Tusimple, Inc. | Remote safe driving methods and systems |
US10796402B2 (en) | 2018-10-19 | 2020-10-06 | Tusimple, Inc. | System and method for fisheye image processing |
US10942271B2 (en) | 2018-10-30 | 2021-03-09 | Tusimple, Inc. | Determining an angle between a tow vehicle and a trailer |
CN116184417A (en) | 2018-12-10 | 2023-05-30 | 北京图森智途科技有限公司 | Trailer pinch angle measuring method and device and vehicle |
CN111319629B (en) | 2018-12-14 | 2021-07-16 | 北京图森智途科技有限公司 | Team forming method, device and system for automatically driving fleet |
US11823460B2 (en) | 2019-06-14 | 2023-11-21 | Tusimple, Inc. | Image fusion for autonomous vehicle operation |
US12014092B2 (en) | 2019-06-21 | 2024-06-18 | Esko Software Bvba | System and method for object-annotated trapping |
US11556610B2 (en) * | 2019-11-08 | 2023-01-17 | Accenture Global Solutions Limited | Content alignment |
JP2021149295A (en) | 2020-03-17 | 2021-09-27 | 富士フイルムビジネスイノベーション株式会社 | Image processing apparatus and program |
EP3893150A1 (en) | 2020-04-09 | 2021-10-13 | Tusimple, Inc. | Camera pose estimation techniques |
AU2021203567A1 (en) | 2020-06-18 | 2022-01-20 | Tusimple, Inc. | Angle and orientation measurements for vehicles with multiple drivable sections |
US11775748B1 (en) * | 2022-05-09 | 2023-10-03 | Prezent Inc. | Systems and methods for content creation based on audience preference and contextual factors |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234500A (en) * | 2003-01-31 | 2004-08-19 | Seiko Epson Corp | Image layout device, image layout method, program in image layout device and image editing device |
JP2007172573A (en) * | 2005-09-28 | 2007-07-05 | Seiko Epson Corp | Document production system, document production method, program and storage medium |
JP2007219878A (en) * | 2006-02-17 | 2007-08-30 | Fujifilm Corp | Image layout device, method, and program |
JP2007264965A (en) * | 2006-03-28 | 2007-10-11 | Seiko Epson Corp | Digital content creation system, digital content creation program and digital content creation method |
JP2009238105A (en) * | 2008-03-28 | 2009-10-15 | Fujifilm Corp | Editing assist method, device and program |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3343408A (en) | 1963-05-13 | 1967-09-26 | Well Reconnaissance Inc | Tracer injector and detector |
US5463722A (en) * | 1993-07-23 | 1995-10-31 | Apple Computer, Inc. | Automatic alignment of objects in two-dimensional and three-dimensional display space using an alignment field gradient |
US5424945A (en) * | 1993-08-31 | 1995-06-13 | Xerox Corporation | System for evaluating a psychological effect of a document |
US5649032A (en) * | 1994-11-14 | 1997-07-15 | David Sarnoff Research Center, Inc. | System for automatically aligning images to form a mosaic image |
US6421463B1 (en) * | 1998-04-01 | 2002-07-16 | Massachusetts Institute Of Technology | Trainable system to search for objects in images |
US20030215775A1 (en) * | 2000-04-26 | 2003-11-20 | Paolo Bizziocchi | Method of displaying text |
US6686935B1 (en) * | 2000-05-24 | 2004-02-03 | International Business Machines Corporation | Method and apparatus for object kerning |
US7019773B1 (en) * | 2000-05-25 | 2006-03-28 | Prc Inc. | Video mosaic |
US7890386B1 (en) * | 2000-10-27 | 2011-02-15 | Palisades Technology, Llc | Method for use with a wireless communication device for facilitating tasks using images and selections |
US6975750B2 (en) * | 2000-12-01 | 2005-12-13 | Microsoft Corp. | System and method for face recognition using synthesized training images |
US6829382B2 (en) * | 2001-06-13 | 2004-12-07 | Shih-Jong J. Lee | Structure-guided automatic alignment for image processing |
US6983068B2 (en) * | 2001-09-28 | 2006-01-03 | Xerox Corporation | Picture/graphics classification system and method |
US6973213B2 (en) * | 2001-10-12 | 2005-12-06 | Xerox Corporation | Background-based image segmentation |
US7461392B2 (en) * | 2002-07-01 | 2008-12-02 | Microsoft Corporation | System and method for identifying and segmenting repeating media objects embedded in a stream |
US7243303B2 (en) * | 2002-07-23 | 2007-07-10 | Xerox Corporation | Constraint-optimization system and method for document component layout generation |
US7035439B2 (en) * | 2003-07-30 | 2006-04-25 | Xerox Corporation | System and method for measuring and quantizing document quality |
US7391885B2 (en) * | 2003-07-30 | 2008-06-24 | Xerox Corporation | Method for determining overall effectiveness of a document |
US7360157B1 (en) * | 2003-09-19 | 2008-04-15 | Microsoft Corporation | Aligning content in an electronic document |
US7400761B2 (en) * | 2003-09-30 | 2008-07-15 | Microsoft Corporation | Contrast-based image attention analysis framework |
US7536048B2 (en) * | 2004-01-15 | 2009-05-19 | Xerox Corporation | Method and apparatus for automatically determining image foreground color |
US7660441B2 (en) * | 2004-07-09 | 2010-02-09 | Southern California, University | System and method for fusing geospatial data |
EP1774466A4 (en) * | 2004-07-30 | 2009-10-21 | Canon Kk | Image processing method and apparatus, image sensing apparatus, and program |
JP4639754B2 (en) * | 2004-11-04 | 2011-02-23 | 富士ゼロックス株式会社 | Image processing device |
US8416992B2 (en) * | 2005-01-10 | 2013-04-09 | Thomson Licensing | Device and method for creating a saliency map of an image |
US20060182339A1 (en) * | 2005-02-17 | 2006-08-17 | Connell Jonathan H | Combining multiple cues in a visual object detection system |
US20060248071A1 (en) * | 2005-04-28 | 2006-11-02 | Xerox Corporation | Automated document localization and layout method |
US7756341B2 (en) * | 2005-06-30 | 2010-07-13 | Xerox Corporation | Generic visual categorization method and system |
US7583857B2 (en) * | 2005-08-24 | 2009-09-01 | Siemens Medical Solutions Usa, Inc. | System and method for salient region feature based 3D multi modality registration of medical images |
US7836397B2 (en) * | 2006-02-01 | 2010-11-16 | Xerox Corporation | Automatic layout criterion selection |
US7788579B2 (en) * | 2006-03-06 | 2010-08-31 | Ricoh Co., Ltd. | Automated document layout design |
KR101208680B1 (en) * | 2006-03-22 | 2012-12-10 | 삼성전자주식회사 | Image display apparatus and method for correction chroma wrinkle |
US8433118B2 (en) * | 2006-03-31 | 2013-04-30 | Kabushiki Kaisha Toshiba | Medical image-processing apparatus and method, and magnetic resonance imaging apparatus |
JP4672587B2 (en) * | 2006-03-31 | 2011-04-20 | 富士フイルム株式会社 | Image output method, apparatus and program |
US7680341B2 (en) * | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
US7751627B2 (en) * | 2006-07-31 | 2010-07-06 | Hewlett-Packard Development Company, L.P. | Image dominant line determination and use |
US8009932B2 (en) * | 2006-09-13 | 2011-08-30 | Providence Engineering and Environmental Group LLC | Automatic alignment of video frames for image processing |
US7885466B2 (en) * | 2006-09-19 | 2011-02-08 | Xerox Corporation | Bags of visual context-dependent words for generic visual categorization |
US7840059B2 (en) * | 2006-09-21 | 2010-11-23 | Microsoft Corporation | Object recognition using textons and shape filters |
JP4337867B2 (en) * | 2006-12-01 | 2009-09-30 | セイコーエプソン株式会社 | Document editing support device, document editing device, program, and storage medium |
US7869667B1 (en) * | 2007-01-19 | 2011-01-11 | Google Inc. | Method for automatic alignment of raster data with vector data in a geographic information system |
JP4389956B2 (en) * | 2007-04-04 | 2009-12-24 | ソニー株式会社 | Face recognition device, face recognition method, and computer program |
US7940985B2 (en) * | 2007-06-06 | 2011-05-10 | Microsoft Corporation | Salient object detection |
GB2456494A (en) * | 2007-07-31 | 2009-07-22 | Hewlett Packard Development Co | Photographic montage creation using automatic cropping controlled by characteristics of the images |
US8175376B2 (en) * | 2009-03-09 | 2012-05-08 | Xerox Corporation | Framework for image thumbnailing based on visual similarity |
US8271871B2 (en) * | 2009-04-30 | 2012-09-18 | Xerox Corporation | Automated method for alignment of document objects |
-
2009
- 2009-04-30 US US12/432,948 patent/US8271871B2/en not_active Expired - Fee Related
-
2010
- 2010-04-21 EP EP10160521.0A patent/EP2246808A3/en not_active Withdrawn
- 2010-04-26 JP JP2010100724A patent/JP5302258B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234500A (en) * | 2003-01-31 | 2004-08-19 | Seiko Epson Corp | Image layout device, image layout method, program in image layout device and image editing device |
JP2007172573A (en) * | 2005-09-28 | 2007-07-05 | Seiko Epson Corp | Document production system, document production method, program and storage medium |
JP2007219878A (en) * | 2006-02-17 | 2007-08-30 | Fujifilm Corp | Image layout device, method, and program |
JP2007264965A (en) * | 2006-03-28 | 2007-10-11 | Seiko Epson Corp | Digital content creation system, digital content creation program and digital content creation method |
JP2009238105A (en) * | 2008-03-28 | 2009-10-15 | Fujifilm Corp | Editing assist method, device and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101230567B1 (en) | 2011-04-27 | 2013-02-07 | 경북대학교 산학협력단 | Object detection and tracking apparatus and method thereof, and intelligent surveillance vision system using the same |
Also Published As
Publication number | Publication date |
---|---|
US20100281361A1 (en) | 2010-11-04 |
US8271871B2 (en) | 2012-09-18 |
EP2246808A2 (en) | 2010-11-03 |
EP2246808A3 (en) | 2016-04-06 |
JP5302258B2 (en) | 2013-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5302258B2 (en) | Method for automatic alignment of document objects | |
Singh | Practical machine learning and image processing: for facial recognition, object detection, and pattern recognition using Python | |
US10572725B1 (en) | Form image field extraction | |
US9779295B2 (en) | Systems and methods for note content extraction and management using segmented notes | |
US10824801B2 (en) | Interactively predicting fields in a form | |
US10417489B2 (en) | Aligning grid lines of a table in an image of a filled-out paper form with grid lines of a reference table in an image of a template of the filled-out paper form | |
US8000529B2 (en) | System and method for creating an editable template from a document image | |
US8094947B2 (en) | Image visualization through content-based insets | |
US8537409B2 (en) | Image summarization by a learning approach | |
US8892995B2 (en) | Method and system for specialty imaging effect generation using multiple layers in documents | |
US8634644B2 (en) | System and method for identifying pictures in documents | |
US20120294514A1 (en) | Techniques to enable automated workflows for the creation of user-customized photobooks | |
US11587216B2 (en) | Detection and identification of objects in images | |
US20110310110A1 (en) | Synthetic image and video generation from ground truth data | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
JP2010262648A5 (en) | Method for automatic alignment of document objects | |
CN104182722B (en) | Method for text detection and device and text message extracting method and system | |
US10600223B2 (en) | Methods and systems for determining the structure of a sorted collection list of layouts | |
JP4859054B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
Liu et al. | Embedded media markers: marks on paper that signify associated media | |
CN113628181A (en) | Image processing method, image processing device, electronic equipment and storage medium | |
JP5020698B2 (en) | Image processing apparatus, image processing method, and image processing program | |
US20240144711A1 (en) | Reliable determination of field values in documents with removal of static field elements | |
Erkilinc et al. | Text, photo, and line extraction in scanned documents | |
US10475189B2 (en) | Content aware, spatially adaptive automated thresholding of images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130425 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130425 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130425 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130620 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |