JP2003036444A - 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体 - Google Patents

商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体

Info

Publication number
JP2003036444A
JP2003036444A JP2001222720A JP2001222720A JP2003036444A JP 2003036444 A JP2003036444 A JP 2003036444A JP 2001222720 A JP2001222720 A JP 2001222720A JP 2001222720 A JP2001222720 A JP 2001222720A JP 2003036444 A JP2003036444 A JP 2003036444A
Authority
JP
Japan
Prior art keywords
data
image
product
combination
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001222720A
Other languages
English (en)
Inventor
Tatsugo Okuda
竜吾 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Printing Co Ltd filed Critical Toppan Printing Co Ltd
Priority to JP2001222720A priority Critical patent/JP2003036444A/ja
Publication of JP2003036444A publication Critical patent/JP2003036444A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】ドキュメントデータから、個々の商品の情報を
構成するデジタルデータを自動的に抽出すること。 【解決手段】ドキュメントデータから、個々の商品の情
報を構成しているデジタルデータ(画像、図形、文字な
ど)を抽出するシステムであって、罫線を手掛かりにし
てドキュメントを小領域に分割する手段と、各小領域内
で、個々の画像ごとに、画像と画像に隣接する画像以外
のデータとの組み合せを検出する手段と、各組み合せ内
で、文字データから、個々の商品のスペックパターンを
検出する手段と、各組み合せ内で、個々の画像が表わし
ている商品を推定する手段と、各組み合せ内で、商品を
表わす画像データと、商品のスペックパターンである文
字データとを照合することによって、個々の商品の画像
データとスペックパターンとの組み合せを特定する手段
とを具備することを特徴とする商品情報構成データ抽出
システム。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、商品情報構成デー
タ抽出システム、商品情報構成データ抽出方法、商品情
報構成データ抽出プログラム、及び商品情報構成データ
抽出プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】従来から、チラシ、カタログ等をDTP
(DeskTop Publishing)制作して発
生したドキュメントデータに含まれる商品情報をデータ
ベース化し二次利用することにより、同メディア若しく
は他メディアへの展開能率を向上させたい要望がある。
【0003】ドキュメントデータに含まれる商品情報を
データベース化するためには、 ドキュメントデータから、個々の商品の情報を構成す
るデジタルデータを抽出し、 その後、個々の商品の情報を構成するデジタルデータ
を項目に分ける、必要がある。
【0004】
【発明が解決しようとする課題】の項目分けに関して
は、チラシ、カタログ制作段階の制作ルールを規定する
ことにより、ある程度の自動化がなされている。
【0005】しかし、の個々の商品の情報を構成する
デジタルデータの抽出に関しては、業務数が限定される
完全定型レイアウトでは自動化がなされているが、様々
なレイアウトを許容する場合には、手動で抽出している
のが現状である。
【0006】このために、データベースを構築する作業
負荷が重く、それ故、その構築に多大な時間を要する原
因となっている。
【0007】本発明は係る従来技術の現状を鑑みてなさ
れたもので、ドキュメントデータから、個々の商品の情
報を構成するデジタルデータを自動的に抽出することを
課題とする。
【0008】
【課題を解決するための手段】本発明において上記の課
題を達成するために、まず請求項1の発明では、ドキュ
メントデータから、個々の商品の情報を構成しているデ
ジタルデータ(画像、図形、文字など)を抽出するシス
テムであって、罫線を手掛かりにしてドキュメントを小
領域に分割する手段と、各小領域内で、個々の画像ごと
に、画像と画像に隣接する画像以外のデータとの組み合
せを検出する手段と、各組み合せ内で、文字データか
ら、個々の商品のスペックパターンを検出する手段と、
各組み合せ内で、個々の画像が表わしている商品を推定
する手段と、各組み合せ内で、商品を表わす画像データ
と、商品のスペックパターンである文字データとを照合
することによって、個々の商品の画像データとスペック
パターンとの組み合せを特定する手段と、を具備するこ
とを特徴とする商品情報構成データ抽出システムとした
ものである。
【0009】また請求項2の発明では、ドキュメントデ
ータから、個々の商品の情報を構成しているデジタルデ
ータ(画像、図形、文字など)を抽出する方法であっ
て、罫線を手掛かりにしてドキュメントを小領域に分割
する工程と、各小領域内で、個々の画像ごとに、画像と
画像に隣接する画像以外のデータとの組み合せを検出す
る工程と、各組み合せ内で、文字データから、個々の商
品のスペックパターンを検出する工程と、各組み合せ内
で、個々の画像が表わしている商品を推定する工程と、
各組み合せ内で、商品を表わす画像データと、商品のス
ペックパターンである文字データとを照合することによ
って、個々の商品の画像データとスペックパターンとの
組み合せを特定する工程と、を含むことを特徴とする商
品情報構成データ抽出方法としたものである。
【0010】また請求項3の発明では、ドキュメントデ
ータから、個々の商品の情報を構成しているデジタルデ
ータ(画像、図形、文字など)を抽出することをコンピ
ュータに実行させるプログラムであって、罫線を手掛か
りにしてドキュメントを小領域に分割する工程と、各小
領域内で、個々の画像ごとに、画像と画像に隣接する画
像以外のデータとの組み合せを検出する工程と、各組み
合せ内で、文字データから、個々の商品のスペックパタ
ーンを検出する工程と、各組み合せ内で、個々の画像が
表わしている商品を推定する工程と、各組み合せ内で、
商品を表わす画像データと、商品のスペックパターンで
ある文字データとを照合することによって、個々の商品
の画像データとスペックパターンとの組み合せを特定す
る工程と、をコンピュータに実行させることを特徴とす
る商品情報構成データ抽出プログラムとしたものであ
る。
【0011】また請求項4の発明では、ドキュメントデ
ータから、個々の商品の情報を構成しているデジタルデ
ータ(画像、図形、文字など)を抽出することをコンピ
ュータに実行させるプログラムを記録した記録媒体であ
って、罫線を手掛かりにしてドキュメントを小領域に分
割する工程と、各小領域内で、個々の画像ごとに、画像
と画像に隣接する画像以外のデータとの組み合せを検出
する工程と、各組み合せ内で、文字データから、個々の
商品のスペックパターンを検出する工程と、各組み合せ
内で、個々の画像が表わしている商品を推定する工程
と、各組み合せ内で、商品を表わす画像データと、商品
のスペックパターンである文字データとを照合すること
によって、個々の商品の画像データとスペックパターン
との組み合せを特定する工程と、をコンピュータに実行
させることを特徴とする商品情報構成データ抽出プログ
ラム記録した記録媒体としたものである。
【0012】
【発明の実施の形態】以下に、本発明の一実施形態を説
明する。
【0013】1:本発明システムの構成 本発明システムは、コンピュータシステムであって、例
えば、図1に示すように、ドキュメントデータ入力部
と、罫線検出部と、商品情報構成データ抽出部と、商品
情報構成データ出力部とを備える。さらに、商品情報構
成データ抽出部は、相対位置組み合せ演算部と、スペッ
クパターン検出部と、画像認識部とを備える。
【0014】ドキュメントデータ入力部は、ドキュメン
トデータを入力する。
【0015】罫線検出部は、ドキュメントデータから、
罫線データを検出して、罫線をドキュメントの外枠若し
くは別罫線との交点まで仮想的に延長して仮想罫線を引
くことにより、ドキュメントを小領域に分割する。例え
ば、図3のドキュメントでは、罫線を上下方向に外枠ま
で延長して仮想罫線を引くことで、図4に示すように、
2つの小領域に分割する。
【0016】商品情報構成データ抽出部は、相対位置組
み合せ演算部と、スペックパターン検出部と、画像認識
部とにより、ドキュメントの各小領域内で、個々の商品
の情報を構成するデジタルデータを抽出する。
【0017】相対位置組み合せ演算部は、レイアウト
上、各画像データごとに、画像データに隣接する文字デ
ータ、図形データの組み合せ候補を複数検出して、最多
の相対位置の組み合せを採用する。例えば、図4の各小
領域に対して、各画像ごとに、画像に隣接する文字列を
検出し、画像と隣接する文字列とを組み合わせることに
より、図5に示すような組み合せを採用する。図4にお
いて、画像Aと画像Bとに挟まれた文字列は、何れの画
像にも隣接しているので、図5に示すように、画像A、
画像B、及びそれら画像に挟まれた文字列は、一緒にし
て、組み合せ1として採用される。
【0018】スペックパターン検出部は、文字データの
スタイル(フォント、サイズ、色など)の出現パターン
により、個々の商品のスペックパターンを検出する。例
えば、図5の組み合せ1では、電話機のスペックパター
ンとして、上の文字列が検出され、ノートパソコンのス
ペックパターンとして、下の文字列が検出される。
【0019】画像認識部は、画像データの色調差による
輪郭線や色情報により、画像データが表わす商品の品目
を推定する。そして、画像認識部は、商品を表わす画像
データと、商品のスペックパターンである文字データと
を照合することによって、個々の商品の画像データとス
ペックパターンとの組み合せを特定することで、個々の
商品の情報を構成するデジタルデータを抽出する。例え
ば、図5の組み合せ1では、画像Aが電話機を表わすと
推定され、電話機のスペックパターンである上の文字列
と組み合わされて、図6に示すように、電話機の情報を
構成するデジタルデータ2を抽出する。また、図5の組
み合せ1では、画像Bがノートパソコンを表わすと推定
され、ノートパソコンのスペックパターンである下の文
字列と組み合わされて、図6に示すように、ノートパソ
コンの情報を構成するデジタルデータ3を抽出する。
【0020】商品情報構成データ出力部は、個々の商品
の情報を構成するデジタルデータとして抽出されたデー
タの組み合せを出力する。
【0021】2:本発明システムによる商品情報構成デ
ータ抽出処理 本発明システムによる商品情報構成データ抽出処理の流
れの1例を、図2のフローチャートに従って、以下に説
明する。
【0022】STEP1;レイアウトデータ入力部か
ら、レイアウトデータを入力する。
【0023】STEP2;罫線検出部で、入力されたレ
イアウトデータから、罫線データを検出して、罫線をド
キュメントの外枠若しくは別罫線との交点まで仮想的に
延長して仮想罫線を引くことにより、ドキュメントを小
領域に分割する。
【0024】STEP3;相対位置組み合せ演算部で、
各小領域において、レイアウト上、各画像データごと
に、画像データに隣接する文字データ、図形データの組
み合せ候補を複数検出して、最多の相対位置の組み合せ
を採用する。
【0025】STEP4;スペックパターン検出部で、
各組み合わせにおいて、文字データのスタイル(フォン
ト、サイズ、色など)の出現パターンにより、個々の商
品のスペックパターンを検出する。また、画像認識部
で、各組み合わせにおいて、画像データの色調差による
輪郭線や色情報により、画像データが表わす商品の品目
を推定する。
【0026】STEP5;画像認識部で、各組み合せに
おいて、商品を表わす画像データと、商品のスペックパ
ターンである文字データとを照合することによって、個
々の商品の画像データとスペックパターンとの組み合せ
を特定することで、個々の商品の情報を構成するデジタ
ルデータを抽出する。
【0027】STEP6;商品情報構成データ出力部か
ら、個々の商品の情報を構成するデジタルデータとして
抽出されたデータの組み合せを出力する。
【0028】
【発明の効果】本発明は、ドキュメントデータから、個
々の商品の情報を構成するデジタルデータを自動的に抽
出できるという効果がある。
【図面の簡単な説明】
【図1】本発明システムの構成例を示す図。
【図2】本発明システムによる商品情報構成データ抽出
処理の流れを例示するフローチャート。
【図3】ドキュメントを例示する図。
【図4】仮想罫線により、図3のドキュメントを小領域
に分割した図。
【図5】図4の各小領域内で、個々の画像データを中心
とする各デジタルデータの相対位置により、デジタルデ
ータの組み合せを採用した図。
【図6】スペックパターンを検出し、画像を認識し、ス
ペックパターンと画像とを照合することにより、図5の
各組み合わせから、各商品の情報を構成するデジタルデ
ータを抽出した図。
【符号の説明】
1…組み合せ 2…電話機の情報を構成するデジタルデータ 3…ノートパソコンの情報を構成するデジタルデータ A…画像(電話機) B…画像(ノートパソコン)

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】ドキュメントデータから、個々の商品の情
    報を構成しているデジタルデータ(画像、図形、文字な
    ど)を抽出するシステムであって、 罫線を手掛かりにしてドキュメントを小領域に分割する
    手段と、 各小領域内で、個々の画像ごとに、画像と画像に隣接す
    る画像以外のデータとの組み合せを検出する手段と、 各組み合せ内で、文字データから、個々の商品のスペッ
    クパターンを検出する手段と、 各組み合せ内で、個々の画像が表わしている商品を推定
    する手段と、 各組み合せ内で、商品を表わす画像データと、商品のス
    ペックパターンである文字データとを照合することによ
    って、個々の商品の画像データとスペックパターンとの
    組み合せを特定する手段と、 を具備することを特徴とする商品情報構成データ抽出シ
    ステム。
  2. 【請求項2】ドキュメントデータから、個々の商品の情
    報を構成しているデジタルデータ(画像、図形、文字な
    ど)を抽出する方法であって、 罫線を手掛かりにしてドキュメントを小領域に分割する
    工程と、 各小領域内で、個々の画像ごとに、画像と画像に隣接す
    る画像以外のデータとの組み合せを検出する工程と、 各組み合せ内で、文字データから、個々の商品のスペッ
    クパターンを検出する工程と、 各組み合せ内で、個々の画像が表わしている商品を推定
    する工程と、 各組み合せ内で、商品を表わす画像データと、商品のス
    ペックパターンである文字データとを照合することによ
    って、個々の商品の画像データとスペックパターンとの
    組み合せを特定する工程と、 を含むことを特徴とする商品情報構成データ抽出方法。
  3. 【請求項3】ドキュメントデータから、個々の商品の情
    報を構成しているデジタルデータ(画像、図形、文字な
    ど)を抽出することをコンピュータに実行させるプログ
    ラムであって、 罫線を手掛かりにしてドキュメントを小領域に分割する
    工程と、 各小領域内で、個々の画像ごとに、画像と画像に隣接す
    る画像以外のデータとの組み合せを検出する工程と、 各組み合せ内で、文字データから、個々の商品のスペッ
    クパターンを検出する工程と、 各組み合せ内で、個々の画像が表わしている商品を推定
    する工程と、 各組み合せ内で、商品を表わす画像データと、商品のス
    ペックパターンである文字データとを照合することによ
    って、個々の商品の画像データとスペックパターンとの
    組み合せを特定する工程と、 をコンピュータに実行させることを特徴とする商品情報
    構成データ抽出プログラム。
  4. 【請求項4】ドキュメントデータから、個々の商品の情
    報を構成しているデジタルデータ(画像、図形、文字な
    ど)を抽出することをコンピュータに実行させるプログ
    ラムを記録した記録媒体であって、 罫線を手掛かりにしてドキュメントを小領域に分割する
    工程と、 各小領域内で、個々の画像ごとに、画像と画像に隣接す
    る画像以外のデータとの組み合せを検出する工程と、 各組み合せ内で、文字データから、個々の商品のスペッ
    クパターンを検出する工程と、 各組み合せ内で、個々の画像が表わしている商品を推定
    する工程と、 各組み合せ内で、商品を表わす画像データと、商品のス
    ペックパターンである文字データとを照合することによ
    って、個々の商品の画像データとスペックパターンとの
    組み合せを特定する工程と、 をコンピュータに実行させることを特徴とする商品情報
    構成データ抽出プログラム記録した記録媒体。
JP2001222720A 2001-07-24 2001-07-24 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体 Pending JP2003036444A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001222720A JP2003036444A (ja) 2001-07-24 2001-07-24 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001222720A JP2003036444A (ja) 2001-07-24 2001-07-24 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003036444A true JP2003036444A (ja) 2003-02-07

Family

ID=19056158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001222720A Pending JP2003036444A (ja) 2001-07-24 2001-07-24 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003036444A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107700A1 (zh) * 2015-12-21 2017-06-29 努比亚技术有限公司 一种实现图像配准的方法及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107700A1 (zh) * 2015-12-21 2017-06-29 努比亚技术有限公司 一种实现图像配准的方法及终端

Similar Documents

Publication Publication Date Title
WO2017118356A1 (zh) 文本图像处理方法和装置
JP5774558B2 (ja) 手書き文書処理装置、方法及びプログラム
KR102114369B1 (ko) 쇼핑몰 배너디자인 생성 방법, 장치 및 시스템
EP1732012B1 (en) Method of identifying redundant text in an electronic document
JP2008250375A (ja) 文字入力装置、方法およびプログラム
JP2000090195A (ja) 表認識方法及び装置
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
WO2018003153A1 (ja) 認識装置及び認識方法
JP2012190455A (ja) 編集可能な文書生成のための形状のパラメータ化
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
JP2013254321A (ja) 画像処理装置、画像処理方法及びプログラム
JP2003036444A (ja) 商品情報構成データ抽出システム、商品情報構成データ抽出方法、商品情報構成データ抽出プログラム、及び商品情報構成データ抽出プログラムを記録した記録媒体
JP2006227824A (ja) 図面認識方法および装置
KR102114366B1 (ko) 쇼핑몰 배너디자인 생성 방법, 장치 및 시스템
JP2023043910A (ja) 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
JP4416202B2 (ja) 帳票認識装置、情報システム、及び記憶媒体
JP5051174B2 (ja) 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム
Cao et al. Automatic recognition of tables in construction tender documents
Radzid et al. Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation
JP6193830B2 (ja) 帳票認識装置、帳票認識方法、及び、プログラム
JP4263089B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
CN110727820B (zh) 一种为图片获得标签的方法和系统
JP5361315B2 (ja) 情報処理装置及び情報処理方法