JP2002269493A - 画像認識システム - Google Patents

画像認識システム

Info

Publication number
JP2002269493A
JP2002269493A JP2001067240A JP2001067240A JP2002269493A JP 2002269493 A JP2002269493 A JP 2002269493A JP 2001067240 A JP2001067240 A JP 2001067240A JP 2001067240 A JP2001067240 A JP 2001067240A JP 2002269493 A JP2002269493 A JP 2002269493A
Authority
JP
Japan
Prior art keywords
electronic data
recognition
server device
character recognition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001067240A
Other languages
English (en)
Inventor
Toshio Miyazawa
利夫 宮澤
Toshihiro Suzuki
俊博 鈴木
Junichi Hara
潤一 原
Hideaki Yamagata
秀明 山形
Yoshihisa Oguro
慶久 大黒
Yukihisa Uchiyama
幸央 内山
Koichi Inoue
浩一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001067240A priority Critical patent/JP2002269493A/ja
Publication of JP2002269493A publication Critical patent/JP2002269493A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 電子データを得る場合に、誤認識の確率を最
小限に抑えることができる画像認識システムを提供す
る。 【解決手段】 作成された電子データ31を予めサーバ
マシンを管理する文字認識事業者2に保存しておき、利
用者1が紙メディアの電子データを得たいと思った時、
その紙メディアを画像データとして文字認識事業者2に
送付する。当該文字認識事業者2はその画像データから
文字認識装置によって電子データを得て、あらかじめ登
録されているオリジナルの電子データとの一致度を計算
し、オリジナルのデータと一致すると判断された場合、
利用者1にその電子データを返送することにより、利用
者1は誤認識のない100%正しい電子データを受け取
ることが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学的文字読取装
置などのように、文字・図形などの画像を読み取る画像
読取手段を備え、認識結果に応じて所定の処理を実行す
る画像認識システムに関する。
【0002】
【従来の技術】従来の文字認識装置は、文字認識を行い
たい画像を、文字認識装置で認識処理し、マッチングの
一致度や、言語情報から確信度などを求め、確信度が低
い文字や単語は、再度認識処理を行ったり、言語辞書に
登録されている単語の中から適切なものとおきかえるな
どして、認識率を高めてきた。一方、画像などの検索シ
ステムは、従来より多くのシステムが提案されている。
その大半は、予め画像に検索するためのキーワードや特
徴量データを付加しておき、検索者が入力するキーワー
ドと予め登録されている画像のキーワードのマッチング
をしたり、画像が入力されると、そこから特徴量を計算
し、あらかじめ登録されている画像の特徴量とマッチン
グし、もっとも一致度の高かった画像を出力するように
構成されていた。
【0003】この例としては、例えば特開平11−20
3400号公報、特開平09−237282号公報など
に開示された発明があるが、これらの方法では、100
%の認識結果を得ることはできなかった。
【0004】
【発明が解決しようとする課題】一般に、文書や画像は
用紙上に印字もしくは印刷され、第三者に配布され、人
々はこのような紙メディアを受け取って文字を読んだ
り、画像を見ることが多い。一方、前述のような用紙上
に印刷されたデータではなく、電子データを得たい場合
には、文字認識装置を用いて変換された電子データを得
るようにしている。
【0005】しかし、近年ほとんどの文書データは、ど
こかで電子的に作成されていることが多く、それが印刷
されて紙メディアとして配布されている。したがって、
電子データがほしい場合に、電子データとして作成した
ものが利用できれば、誤認識のない、100%正しい電
子データを受け取ることが可能となる。
【0006】本発明は、このような背景に鑑みてなされ
たもので、その目的は、電子データを得る場合に、誤認
識の確率を最小限に抑えることができる画像認識システ
ムを提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明では、作成された電子データを予めサーバに
保存しておき、利用者が紙メディアの電子データを得た
いと思った時、その紙メディアを画像データとして、サ
ーバマシンを管理する事業者に送付する。事業者はその
画像データを文字認識装置によって電子データを得て、
あらかじめ登録されているオリジナルの電子データとの
一致度を計算し、オリジナルのデータと一致すると判断
された場合、利用者に、その電子データを返送すること
により、利用者は、誤認識のない、100%正しい電子
データを受け取ることが可能となる。
【0008】さらに具体的には、本発明は、文書画像デ
ータをネットワークを介してサーバ装置に送り、サーバ
装置側で文字認識処理をして、認識結果をネットワーク
を介してクライアント装置に送る文字認識システムにお
いて、前記サーバ装置では、文書画像データを文字認識
手段によって認識した結果と、あらかじめ保存されてい
る電子データとを照合し、一致、不一致に応じてクライ
アント装置に送るデータを変えることを特徴とする。
【0009】この場合、前記サーバ装置は、文書画像デ
ータを文字認識手段によって認識した結果と、あらかじ
め保存されている電子データとの照合により両者が一致
していると判断した場合、あらかじめ保存してある電子
データを文字認識手段による認識結果に代えてクライア
ント装置に送るようにする。また、前記サーバ装置は、
文書画像データを文字認識手段によって認識した結果
と、あらかじめ保存されている電子データとの照合によ
り両者が一致しなかった場合、文字認識手段の認識結果
をクライアント装置に送るようにする。
【0010】なお、前記サーバ装置は、電子データを作
成する他のサーバ装置から電子データを受け取り、自己
のデータベースに保存し、このデータベースに保存した
電子データに基づいて一致、不一致を判断する。
【0011】さらに、前記サーバ装置は、前記クライア
ント装置から電子データの利用料を受け取り、前記他の
サーバ装置は、前記サーバ装置が前記クライアント装置
から利用料を受け取った時には、前記サーバ装置から利
用料を受け取る。
【0012】なお、以下の実施形態において、クライア
ント装置は、利用者1に、サーバ装置は文字認識事業者
2に、他のサーバ装置は電子データ作成者3にそれぞれ
対応する。
【0013】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を参照して説明する。
【0014】図1は本発明の実施形態に係る画像認識シ
ステムの構成を示すブロック図である。この実施形態
は、新聞を例に取ったものである。図1において、本実
施形態に係る画像認識システムは、利用者1と、文字認
識事業者2と、電子データ作成者3とから構成されてい
る。電子データ作成者3は、ここでは新聞社、利用者は
新聞購読者とする。電子データ作成者3は電子データベ
ース32を作成する。
【0015】このようなシステムで新聞購読者(利用者
1)が、例えば新聞記事の中から電子データとしてスク
ラップしておきたいと考えた場合、これまでは、その記
事を文字認識装置を用いて、利用者1自身が電子データ
を作成するか、または、新聞社(電子データ作成者3)
のホームページなどに同じ内容の記事があればそれをダ
ウンロードしたり、検索サービスなどをして利用してい
た。しかし、新聞社3のホームページのデータは最新の
ものに常にかわってしまい、過去のものが取り出せなか
ったり、新聞紙面とは違った内容の場合が多い。また、
新聞社3の検索サービスの場合、キーワードを入れた
り、複数の検索結果の中から該当するものを選択したり
といった手間を必要としていた。また、文字認識装置を
用いて利用者1が電子データを作成する場合、文字認識
装置の認識率は100%ではなく、誤認識文字の修正な
どを行う必要があった。
【0016】本実施形態の処理手順を図2のフローチャ
ートに示す。このフローチャートでは、予め電子データ
の作成者(ここでは新聞社)3が電子データを文字認識
事業社2と契約し、文字認識事業者2に電子データ31
のデータを渡しておくようにする。文字認識事業者2
は、その電子データをデータベースに蓄積する。利用者
(ここでは、新聞の購読者)1は、電子データが必要な
新聞記事を画像データ11として、文字認識事業者2に
送付する(ステップ201)。文字認識事業者2は、送
付された画像データ11を文字認識装置によって、文字
認識処理し(ステップ202)、その結果と、予め登録
されている電子データベース32と比較し(ステップ2
03)、一致したデータが存在した場合、電子データベ
ース32に登録されている電子データ21を利用者1に
送付する。もし、電子データベース32にデータが存在
しない場合は、文字認識した結果を電子データ21とし
て利用者1に送付する(ステップ204)。
【0017】文字認識処理の結果とあらかじめ登録され
ている電子データとのマッチングは、例えばテキストベ
ースで一致する文字数をカウントし、所定の割合以上一
致した場合を同一のデータが存在したと判断する。この
場合、レイアウト情報なども含めて、判断してもよい。
電子データベース32の結果の電子データには、誤認識
は含まれていないことから、利用者は100%の認識結
果の電子データを得ることができる。
【0018】データベース32に登録されていない電子
データの場合は、利用者1は、誤認識が含まれている電
子データを受け取ることになるが、これはネットワーク
を介した一般的な文字認識サービス(=誤認識を含んで
いる)と考えて利用者1は利用するので、問題とはなら
ない。この結果、利用者1からみると、平均的な認識率
が向上した電子データを得ることができる。
【0019】利用者1は、利用料12を文字認識事業者
2に支払い、文字認識事業者2は、利用者1からの利用
料の一部を電子データの使用料22として、電子データ
作成者3に支払うことによって、電子データの作成者3
も利益を得ることが可能となる。なお、利用料22はこ
のような場合、著作権料と考えられる。本システムの応
用として、例えば、新聞記事を利用者1が文字認識した
時に、データベースの結果と一致した場合は、その新聞
の発行新聞社や、発行日時などの関連情報を合わせて得
ることができる。また、その日の新聞の全紙面の情報を
得ることも、関連情報を得ることも可能となる。
【0020】また、課金の方法としては、認識結果やサ
ーバにある電子データをPDFや画像ファイル情報とし
て一旦利用者1にフィードバックし、利用者1がそのデ
ータで良いと判断した場合に、所定の利用料金を文字認
識事業者2に支払ったのちに、電子データ(テキストデ
ータ)を文字認識事業者から送付するなどしても良い。
【0021】なお、ここでは、新聞を例に取っている
が、雑誌、学会誌、研究論文、判例集などの出版物、さ
らには、官報や公報などにも適用できる。
【0022】
【発明の効果】以上のように、本発明によれば、サーバ
装置は、文書画像データを文字認識手段によって認識し
た結果と、あらかじめ保存されている電子データとを照
合し、一致、不一致に応じてクライアント装置に送るデ
ータを変えるので、認識結果に応じて誤認識のない文字
認識結果を提供することが可能となり、誤認識の確率を
最小限に抑えることができるまた、本発明によれば、サ
ーバ装置は、文書画像データを文字認識手段によって認
識した結果と、あらかじめ保存されている電子データと
の照合により両者が一致していると判断した場合、あら
かじめ保存してある電子データを文字認識手段による認
識結果に代えてクライアント装置に送るので、100%
誤認識のない認識結果を提供することができる。
【0023】また、本発明によれば、サーバ装置は、文
書画像データを文字認識手段によって認識した結果と、
あらかじめ保存されている電子データとの照合により両
者が一致しなかった場合、文字認識手段の認識結果をク
ライアント装置に送るので、ユーザは誤認識が含まれて
いる可能があることを自覚して文字認識結果を受け入れ
ることができる。
【0024】また、本発明によれば、サーバ装置は電子
データを作成する他のサーバ装置から電子データを受け
取り、自己のデータベースに保存するので、サーバ装置
自身が作成したデータベース以外にも使用することが可
能となり、適用範囲の拡大化を図ることができる。
【0025】さらに、本発明によれば、サーバ装置はク
ライアント装置から電子データの利用料を受け取り、他
のサーバ装置は、サーバ装置がクライアント装置から利
用料を受け取った時には、サーバ装置から利用料を受け
取るので、データの提供に伴う対価の支払い義務が明確
になる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る画像認識システムのシ
ステム構成を示すブロック図である。
【図2】本発明の実施形態に係る画像認識システムの処
理手順を示すフローチャートである。
【符号の説明】
1 利用者(クライアント装置) 2 文字認識事業者(サーバ装置) 3 電子データ作成者(他のサーバ装置) 11 画像 12,22 利用料 21,32 電子データ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 原 潤一 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 山形 秀明 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 大黒 慶久 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 内山 幸央 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 井上 浩一 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 Fターム(参考) 5B064 AA01 BA01 FA18

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書画像データをネットワークを介して
    サーバ装置に送り、サーバ装置側で文字認識処理をし
    て、認識結果をネットワークを介してクライアント装置
    に送る文字認識システムにおいて、 前記サーバ装置では、文書画像データを文字認識手段に
    よって認識した結果と、あらかじめ保存されている電子
    データとを照合し、一致、不一致に応じてクライアント
    装置に送るデータを変えることを特徴とする画像認識シ
    ステム。
  2. 【請求項2】 前記サーバ装置は、文書画像データを文
    字認識手段によって認識した結果と、あらかじめ保存さ
    れている電子データとの照合により両者が一致している
    と判断した場合、あらかじめ保存してある電子データを
    文字認識手段による認識結果に代えてクライアント装置
    に送ることを特徴とする請求項1記載の画像認識システ
    ム。
  3. 【請求項3】 前記サーバ装置は、文書画像データを文
    字認識手段によって認識した結果と、あらかじめ保存さ
    れている電子データとの照合により両者が一致しなかっ
    た場合、文字認識手段の認識結果をクライアント装置に
    送ることを特徴とする請求項1記載の画像認識システ
    ム。
  4. 【請求項4】 前記サーバ装置は、前記クライアント装
    置から電子データの利用料を受け取ることを特徴とする
    請求項1ないし3のいずれか1項に記載の画像認識シス
    テム。
  5. 【請求項5】 前記サーバ装置は、電子データを作成す
    る他のサーバ装置から電子データを受け取り、自己のデ
    ータベースに保存することを特徴とする請求項1記載の
    画像認識システム。
  6. 【請求項6】 前記他のサーバ装置は、前記サーバ装置
    が前記クライアント装置から利用料を受け取った時に
    は、前記サーバ装置から利用料を受け取ることを特徴と
    する請求項5記載の画像認識システム。
JP2001067240A 2001-03-09 2001-03-09 画像認識システム Pending JP2002269493A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001067240A JP2002269493A (ja) 2001-03-09 2001-03-09 画像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001067240A JP2002269493A (ja) 2001-03-09 2001-03-09 画像認識システム

Publications (1)

Publication Number Publication Date
JP2002269493A true JP2002269493A (ja) 2002-09-20

Family

ID=18925621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067240A Pending JP2002269493A (ja) 2001-03-09 2001-03-09 画像認識システム

Country Status (1)

Country Link
JP (1) JP2002269493A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805098A (zh) * 2018-06-21 2018-11-13 云城(北京)数据科技有限公司 纸面文档与电子文档的比对方法、装置和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805098A (zh) * 2018-06-21 2018-11-13 云城(北京)数据科技有限公司 纸面文档与电子文档的比对方法、装置和系统

Similar Documents

Publication Publication Date Title
US9684902B2 (en) Processing techniques for text capture from a rendered document
US7818215B2 (en) Processing techniques for text capture from a rendered document
US9323784B2 (en) Image search using text-based elements within the contents of images
US8831365B2 (en) Capturing text from rendered documents using supplement information
US8346620B2 (en) Automatic modification of web pages
US9799060B2 (en) Content access with handheld document data capture devices
US8799303B2 (en) Establishing an interactive environment for rendered documents
US20100278453A1 (en) Capture and display of annotations in paper and electronic documents
US10115041B2 (en) Capturing text from rendered documents using supplemental information
US20060122983A1 (en) Locating electronic instances of documents based on rendered instances, document fragment digest generation, and digest based document fragment determination
US20130275849A1 (en) Performing Actions Based on Capturing Information from Rendered Documents, Such as Documents under Copyright
US20110096174A1 (en) Accessing resources based on capturing information from a rendered document
US20100185538A1 (en) Content access with handheld document data capture devices
US20060104515A1 (en) Automatic modification of WEB pages
US10504162B2 (en) Processing techniques for text capture from a rendered document
US10423862B2 (en) Capturing text from rendered documents using supplemental information
WO2006014727A1 (en) Automatic modification of web pages
WO2010105246A2 (en) Accessing resources based on capturing information from a rendered document
WO2006023718A2 (en) Locating electronic instances of documents based on rendered instances, document fragment digest generation, and digest based document fragment determination
US10509915B2 (en) Establishing an interactive environment for rendered documents
JP2002269493A (ja) 画像認識システム
CN115495635A (zh) 一种增值内容处理方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090324