JP2012063883A - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents
情報処理装置、情報処理方法、および情報処理プログラム Download PDFInfo
- Publication number
- JP2012063883A JP2012063883A JP2010206117A JP2010206117A JP2012063883A JP 2012063883 A JP2012063883 A JP 2012063883A JP 2010206117 A JP2010206117 A JP 2010206117A JP 2010206117 A JP2010206117 A JP 2010206117A JP 2012063883 A JP2012063883 A JP 2012063883A
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- information
- searched
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】多数の単語を格納する単語辞書10と、画像データから文字情報を抽出して文字認識する文字情報抽出部31と、文字認識された前記文字情報のうち、前記単語辞書10に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベース40に格納する被検索単語抽出部32と、検索対象のテキスト情報を入力する検索テキスト入力部51と、前記検索対象のテキスト情報から前記単語辞書10に含まれる単語を検索単語として抽出する検索単語抽出部52と、前記検索単語と前記データベース40とを照合する検索部53と、を備える。
【選択図】図2
Description
f(x,y)=Σx + a ×y:一文字ごとの認識スコアの総和に、文字列照合に基づくボーナス点を加算する ・・・(1)
f(x,y)=Σx ×√y :一文字ごとの認識スコアの総和を、文字列照合に基づく係数倍する ・・・(2)
(Xs_i,Ys_i)−(Xe_i,Ye_i) i=1,n
また上記の矩形をすべて含む外接矩形の座標は、以下により算出できる。
(Min(Xs_i),Min(Ys_i))−(Max(Xe_i),Max(Ye_i))
上記の外接矩形の幅Wと高さHは以下で表せる。
W=Min(Xs_i)−Min(Ys_i)
H=Max(Xe_i)−Max(Ye_i)
さらにその面積Sは以下のように表される。
S=W×H
Wav=W/Pav
Hav=H/Pav
したがって正規化された面積は、以下のように算出できる。
Sav=Wav×Hav
31 文字情報抽出部
32 被検索単語抽出部
40 データベース
51 検索テキスト入力部
52 検索単語抽出部
53 検索部
100 情報処理装置
Claims (10)
- 画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理装置において、
多数の単語を格納する単語辞書と、
前記画像データから文字情報を抽出して文字認識する文字情報抽出部と、
文字認識された前記文字情報のうち、前記単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出部と、
検索対象のテキスト情報を入力する検索テキスト入力部と、
前記検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出部と、
前記検索単語と前記データベースとを照合する検索部と、
を備えたことを特徴とする情報処理装置。 - 前記単語辞書に格納される単語毎に、前記画像データ中の前記文字情報の対応箇所の照合範囲を限定することを特徴とする請求項1に記載の情報処理装置。
- 前記文字情報抽出部は、前記単語辞書に単語が追加登録された場合に、それに同期して、当該追加単語を被検索データに追加することを特徴とする請求項1に記載の情報処理装置。
- 前記検索単語抽出部は、前記単語辞書に格納されていない単語が前記検索テキスト入力部から入力された場合には、当該単語を単語辞書に追加登録することを特徴とする請求項3に記載の情報処理装置。
- 前記被検索単語抽出部は、抽出した各単語について、前記文字情報抽出部が取得した文字情報に含まれているかの確からしさを算出し、確からしさがあいまいな場合には複数の単語のテキスト情報を対応箇所に挿入することを特徴とする請求項1に記載の情報処理装置。
- 複数の前記単語辞書を備え、利用者がいずれかを選択指定して使用することを特徴とする請求項1に記載の情報処理装置。
- 前記被検索単語抽出部は、被検索データに単語を挿入する際に、照合した前記単語辞書を特定する情報を付加することを特徴とする請求項6に記載の情報処理装置。
- 前記検索部は、前記検索対象のテキスト情報と前記被検索データとの間の一致度にもとづいて順序づけして提示することを特徴とする請求項1に記載の情報処理装置。
- 画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理方法において、
前記画像データから文字情報を抽出して文字認識する文字情報抽出ステップと、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出ステップと、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出ステップと、
前記検索単語と前記データベースとを照合する検索ステップと、
を含むことを特徴とする情報処理方法。 - 画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理プログラムにおいて、
前記画像データから文字情報を抽出して文字認識する文字情報抽出処理と、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出処理と、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出処理と、
前記検索単語と前記データベースとを照合する検索処理と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010206117A JP5716328B2 (ja) | 2010-09-14 | 2010-09-14 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN2011102739921A CN102402576A (zh) | 2010-09-14 | 2011-09-07 | 信息处理设备、信息处理方法及计算机程序产品 |
US13/137,735 US20120066213A1 (en) | 2010-09-14 | 2011-09-08 | Information processing apparatus, information processing method, and computer program product |
EP11181101A EP2428905A1 (en) | 2010-09-14 | 2011-09-13 | Information processing apparatus, information processing method, and computer program product for using composite data of image and text information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010206117A JP5716328B2 (ja) | 2010-09-14 | 2010-09-14 | 情報処理装置、情報処理方法、および情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063883A true JP2012063883A (ja) | 2012-03-29 |
JP5716328B2 JP5716328B2 (ja) | 2015-05-13 |
Family
ID=44719366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010206117A Active JP5716328B2 (ja) | 2010-09-14 | 2010-09-14 | 情報処理装置、情報処理方法、および情報処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120066213A1 (ja) |
EP (1) | EP2428905A1 (ja) |
JP (1) | JP5716328B2 (ja) |
CN (1) | CN102402576A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014157409A (ja) * | 2013-02-14 | 2014-08-28 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
KR20200063324A (ko) * | 2018-11-21 | 2020-06-05 | (주)에스이랩 | 고문서 기반 과거 기상 추정 시스템 및 방법 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US9053361B2 (en) | 2012-01-26 | 2015-06-09 | Qualcomm Incorporated | Identifying regions of text to merge in a natural image or video frame |
US9076242B2 (en) | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9014480B2 (en) | 2012-07-19 | 2015-04-21 | Qualcomm Incorporated | Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
JP2014127188A (ja) * | 2012-12-27 | 2014-07-07 | Toshiba Corp | 整形装置及び方法 |
JP6187140B2 (ja) * | 2013-10-21 | 2017-08-30 | 富士ゼロックス株式会社 | 文書登録装置及びプログラム |
JP6447066B2 (ja) * | 2014-12-01 | 2019-01-09 | 株式会社リコー | 画像処理装置、画像処理方法、及びプログラム |
US9542136B2 (en) | 2015-03-19 | 2017-01-10 | Ricoh Company, Ltd. | Communication control system, communication control apparatus, and communication control method |
US10146979B2 (en) * | 2015-06-03 | 2018-12-04 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Processing visual cues to improve device understanding of user input |
US10417178B2 (en) | 2016-02-23 | 2019-09-17 | Pype Inc | Systems and methods for electronically generating submittal registers |
US9684844B1 (en) * | 2016-07-15 | 2017-06-20 | StradVision, Inc. | Method and apparatus for normalizing character included in an image |
CN109993619B (zh) * | 2017-12-29 | 2022-09-30 | 北京京东尚科信息技术有限公司 | 数据处理方法 |
JP7095345B2 (ja) * | 2018-03-22 | 2022-07-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システム及びプログラム |
CN109657738B (zh) * | 2018-10-25 | 2024-04-30 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
CN111339253A (zh) * | 2020-02-25 | 2020-06-26 | 中国建设银行股份有限公司 | 一种抽取物品信息的方法和装置 |
US11495039B2 (en) * | 2020-10-19 | 2022-11-08 | Accenture Global Solutions Limited | Processing digitized handwriting |
CN112507909B (zh) * | 2020-12-15 | 2024-06-14 | 信号旗智能科技(上海)有限公司 | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09259218A (ja) * | 1996-03-22 | 1997-10-03 | Mitsubishi Electric Corp | 単語入力装置並びに単語入力方法 |
JPH113401A (ja) * | 1997-06-12 | 1999-01-06 | Canon Inc | 情報処理装置及びその方法 |
JP2006343870A (ja) * | 2005-06-07 | 2006-12-21 | Canon Inc | 文書検索装置及び方法と記憶媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4736296A (en) * | 1983-12-26 | 1988-04-05 | Hitachi, Ltd. | Method and apparatus of intelligent guidance in natural language |
CN1013006B (zh) * | 1985-04-01 | 1991-06-26 | 株式会社日立制作所 | 自然语言智能指导的方法与装置 |
JP3689455B2 (ja) * | 1995-07-03 | 2005-08-31 | キヤノン株式会社 | 情報処理方法及び装置 |
US5640553A (en) * | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
US6801659B1 (en) * | 1999-01-04 | 2004-10-05 | Zi Technology Corporation Ltd. | Text input system for ideographic and nonideographic languages |
JP4421134B2 (ja) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
US7199804B2 (en) * | 2002-05-14 | 2007-04-03 | Microsoft Corporation | Ink information in image files |
US7158930B2 (en) * | 2002-08-15 | 2007-01-02 | Microsoft Corporation | Method and apparatus for expanding dictionaries during parsing |
JP3848319B2 (ja) * | 2003-11-11 | 2006-11-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
JP2006350664A (ja) * | 2005-06-15 | 2006-12-28 | Fuji Xerox Co Ltd | 文書処理装置 |
JP4590433B2 (ja) * | 2007-06-29 | 2010-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP5376795B2 (ja) * | 2007-12-12 | 2013-12-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、そのプログラム及び記憶媒体 |
US20100138402A1 (en) * | 2008-12-02 | 2010-06-03 | Chacha Search, Inc. | Method and system for improving utilization of human searchers |
US20110161829A1 (en) * | 2009-12-24 | 2011-06-30 | Nokia Corporation | Method and Apparatus for Dictionary Selection |
-
2010
- 2010-09-14 JP JP2010206117A patent/JP5716328B2/ja active Active
-
2011
- 2011-09-07 CN CN2011102739921A patent/CN102402576A/zh active Pending
- 2011-09-08 US US13/137,735 patent/US20120066213A1/en not_active Abandoned
- 2011-09-13 EP EP11181101A patent/EP2428905A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09259218A (ja) * | 1996-03-22 | 1997-10-03 | Mitsubishi Electric Corp | 単語入力装置並びに単語入力方法 |
JPH113401A (ja) * | 1997-06-12 | 1999-01-06 | Canon Inc | 情報処理装置及びその方法 |
JP2006343870A (ja) * | 2005-06-07 | 2006-12-21 | Canon Inc | 文書検索装置及び方法と記憶媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014157409A (ja) * | 2013-02-14 | 2014-08-28 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
KR20200063324A (ko) * | 2018-11-21 | 2020-06-05 | (주)에스이랩 | 고문서 기반 과거 기상 추정 시스템 및 방법 |
KR102160098B1 (ko) | 2018-11-21 | 2020-09-25 | (주)에스이랩 | 고문서 기반 과거 기상 추정 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN102402576A (zh) | 2012-04-04 |
JP5716328B2 (ja) | 2015-05-13 |
US20120066213A1 (en) | 2012-03-15 |
EP2428905A1 (en) | 2012-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5716328B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
JP4421134B2 (ja) | 文書画像検索装置 | |
JP2734386B2 (ja) | 文字列読み取り装置 | |
Volk et al. | Strategies for reducing and correcting OCR errors | |
JP5862893B2 (ja) | 文書分析システム、文書分析方法及び文書分析プログラム | |
US20120197908A1 (en) | Method and apparatus for associating a table of contents and headings | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
CN111209753B (zh) | 一种实体命名识别方法及装置 | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
Chaudhuri | Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
CN116542246A (zh) | 基于关键词质检文本的方法、装置和电子设备 | |
CN113553410B (zh) | 长文档处理方法、处理装置、电子设备和存储介质 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP2009020567A (ja) | 文書検索装置 | |
JP2012108893A (ja) | 手描き入力方法 | |
JP2004178044A (ja) | 属性抽出方法及びその装置及び属性抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150302 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5716328 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |