JP4570648B2 - 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体 - Google Patents
画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4570648B2 JP4570648B2 JP2007246156A JP2007246156A JP4570648B2 JP 4570648 B2 JP4570648 B2 JP 4570648B2 JP 2007246156 A JP2007246156 A JP 2007246156A JP 2007246156 A JP2007246156 A JP 2007246156A JP 4570648 B2 JP4570648 B2 JP 4570648B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- search
- character
- document
- heading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 83
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000000605 extraction Methods 0.000 claims description 70
- 230000008859 change Effects 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 109
- 238000000034 method Methods 0.000 description 74
- 230000008569 process Effects 0.000 description 62
- 238000010586 diagram Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 3
- FBOUIAKEJMZPQG-AWNIVKPZSA-N (1E)-1-(2,4-dichlorophenyl)-4,4-dimethyl-2-(1,2,4-triazol-1-yl)pent-1-en-3-ol Chemical compound C1=NC=NN1/C(C(O)C(C)(C)C)=C/C1=CC=C(Cl)C=C1Cl FBOUIAKEJMZPQG-AWNIVKPZSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001955 cumulated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Description
画像文書中にある複数の見出し領域に含まれる文字画像に対して画像特徴の適合度が高い文字画像を候補文字として格納し、画像文書中にある複数の見出し領域について、画像文書における見出し領域の位置情報を格納する見出し領域格納部と、
検索キーワードが入力されるキーワード入力部と、
前記キーワード入力部から検索キーワードが入力されて検索が実行されると、前記見出し領域格納部を検索し、検索キーワードに適合する画像文書を抽出する検索部と、
前記検索部により抽出された画像文書の文書名を列挙して表示する表示部と、
前記表示部に表示される文書名のうちの1つの文書名に対応する1つの画像文書が選択されると、入力される検索式中の検索キーワードを構成する1検索文字単位に前記見出し領域格納部を検索し、選択された1つの画像文書について、検索キーワードを含む見出し領域を抽出する見出し領域抽出部と、
前記見出し領域抽出部にて抽出される見出し領域に対して、(1)画像文書における見出し領域の位置情報に基づく条件、(2)入力される検索式中の検索キーワードの個数が複数である場合、見出し領域に含まれる検索キーワードの個数に基づく条件、(3)検索キーワードの一部または全部と一致する文字列部分の文字数に基づく条件、(4)見出し領域に含まれる文字画像のサイズに基づく条件、の少なくともいずれか1つの条件に従って順位を設定する順位設定部とを含み、
前記表示部は、選択された1つの画像文書を表示するとともに、表示される画像文書上で、前記見出し領域抽出部にて抽出される見出し領域を、前記順位設定部にて設定される順位に応じて強調表示することを特徴とする画像文書処理装置である。
画像文書中にある複数の見出し領域に含まれる文字画像に対して画像特徴の適合度が高い文字画像を候補文字として格納し、画像文書中にある複数の見出し領域について、画像文書における見出し領域の位置情報を格納する見出し領域格納ステップと、
検索キーワードを入力するキーワード入力ステップと、
前記キーワード入力ステップにて検索キーワードが入力されて検索が実行されると、前記見出し領域格納ステップにて格納される情報を検索し、検索キーワードに適合する画像文書を抽出する検索ステップと、
前記検索ステップにて抽出された画像文書の文書名を列挙して表示する文書名表示ステップと、
前記文書名表示ステップにて表示される文書名のうちの1つの文書名に対応する1つの画像文書が選択されると、入力される検索式中の検索キーワードを構成する1検索文字単位に、前記見出し領域格納ステップにて格納される情報を検索し、選択された1つの画像文書について、検索キーワードを含む見出し領域を抽出する見出し領域抽出ステップと、
前記見出し領域抽出ステップにて抽出される見出し領域に対して、(1)画像文書における見出し領域の位置情報に基づく条件、(2)入力される検索式中の検索キーワードの個数が複数である場合、見出し領域に含まれる検索キーワードの個数に基づく条件、(3)検索キーワードの一部または全部と一致する文字列部分の文字数に基づく条件、(4)見出し領域に含まれる文字画像のサイズに基づく条件、の少なくともいずれか1つの条件に従って順位を設定する順位設定ステップと、
選択された1つの画像文書を表示するとともに、前記見出し領域抽出ステップにて抽出される見出し領域を、前記順位設定ステップにて設定される順位に応じて強調表示する表示ステップとを含むことを特徴とする画像文書処理方法である。
これによって、順位設定部は、順位を的確に設定することができる。
そして、表示部には、画像文書が表示されるとともに、表示される画像文書上で、見出し領域抽出部にて抽出される見出し領域が、順位設定部にて設定される順位に応じて強調表示される。したがって画像文書から所望の見出しを探し出すことに要する手間を軽減することができる。
そして、表示ステップでは、画像文書が表示されるとともに、表示される画像文書上で、見出し領域抽出ステップにて抽出される見出し領域が、順位設定ステップにて設定される順位に応じて強調表示される。したがって画像文書から所望の見出しを探し出すことに要する手間を軽減することができる。
図1は、本発明の実施の一形態である画像文書処理装置10の主要部の構成を示すブロック図である。本実施の形態の画像文書処理装置10は、文書を画像として入力して蓄積し、蓄積された画像文書を検索して閲覧するために用いられる。
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)…(1)
の関係にある。
SimDegree=W1+W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+Wr …(2)
SimDegree=W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+W(r−1)
SimDegree=W1+W2+…+W(k−1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
17 インデックス情報データベース
19 画像文書データベース
22 検索部
24 キーワード入力部
301 領域抽出部
302 順位設定部
303 表示部
304 順位変更指令入力部
305 表示態様設定部
Claims (6)
- 入力される画像文書を蓄積する画像文書データベースと、
画像文書中にある複数の見出し領域に含まれる文字画像に対して画像特徴の適合度が高い文字画像を候補文字として格納し、画像文書中にある複数の見出し領域について、画像文書における見出し領域の位置情報を格納する見出し領域格納部と、
検索キーワードが入力されるキーワード入力部と、
前記キーワード入力部から検索キーワードが入力されて検索が実行されると、前記見出し領域格納部を検索し、検索キーワードに適合する画像文書を抽出する検索部と、
前記検索部により抽出された画像文書の文書名を列挙して表示する表示部と、
前記表示部に表示される文書名のうちの1つの文書名に対応する1つの画像文書が選択されると、入力される検索式中の検索キーワードを構成する1検索文字単位に前記見出し領域格納部を検索し、選択された1つの画像文書について、検索キーワードを含む見出し領域を抽出する見出し領域抽出部と、
前記見出し領域抽出部にて抽出される見出し領域に対して、(1)画像文書における見出し領域の位置情報に基づく条件、(2)入力される検索式中の検索キーワードの個数が複数である場合、見出し領域に含まれる検索キーワードの個数に基づく条件、(3)検索キーワードの一部または全部と一致する文字列部分の文字数に基づく条件、(4)見出し領域に含まれる文字画像のサイズに基づく条件、の少なくともいずれか1つの条件に従って順位を設定する順位設定部とを含み、
前記表示部は、選択された1つの画像文書を表示するとともに、表示される画像文書上で、前記見出し領域抽出部にて抽出される見出し領域を、前記順位設定部にて設定される順位に応じて強調表示することを特徴とする画像文書処理装置。 - 前記順位設定部は、入力される順位変更指令に応じて、前記見出し領域抽出部にて抽出される見出し領域に対して、順位の設定を変更することを特徴とする請求項1に記載の画像文書処理装置。
- 前記表示部は、強調表示の表示態様を設定可能であることを特徴とする請求項1または2に記載の画像文書処理装置。
- 入力される画像文書を蓄積する画像文書蓄積ステップと、
画像文書中にある複数の見出し領域に含まれる文字画像に対して画像特徴の適合度が高い文字画像を候補文字として格納し、画像文書中にある複数の見出し領域について、画像文書における見出し領域の位置情報を格納する見出し領域格納ステップと、
検索キーワードを入力するキーワード入力ステップと、
前記キーワード入力ステップにて検索キーワードが入力されて検索が実行されると、前記見出し領域格納ステップにて格納される情報を検索し、検索キーワードに適合する画像文書を抽出する検索ステップと、
前記検索ステップにて抽出された画像文書の文書名を列挙して表示する文書名表示ステップと、
前記文書名表示ステップにて表示される文書名のうちの1つの文書名に対応する1つの画像文書が選択されると、入力される検索式中の検索キーワードを構成する1検索文字単位に、前記見出し領域格納ステップにて格納される情報を検索し、選択された1つの画像文書について、検索キーワードを含む見出し領域を抽出する見出し領域抽出ステップと、
前記見出し領域抽出ステップにて抽出される見出し領域に対して、(1)画像文書における見出し領域の位置情報に基づく条件、(2)入力される検索式中の検索キーワードの個数が複数である場合、見出し領域に含まれる検索キーワードの個数に基づく条件、(3)検索キーワードの一部または全部と一致する文字列部分の文字数に基づく条件、(4)見出し領域に含まれる文字画像のサイズに基づく条件、の少なくともいずれか1つの条件に従って順位を設定する順位設定ステップと、
選択された1つの画像文書を表示するとともに、前記見出し領域抽出ステップにて抽出される見出し領域を、前記順位設定ステップにて設定される順位に応じて強調表示する表示ステップとを含むことを特徴とする画像文書処理方法。 - コンピュータに請求項4に記載の画像文書処理方法を実行させるための画像文書処理プログラム。
- コンピュータに請求項4に記載の画像文書処理方法を実行させるための画像文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101296084A CN101354705B (zh) | 2007-07-23 | 2007-07-23 | 文档图像处理装置和文档图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009026286A JP2009026286A (ja) | 2009-02-05 |
JP4570648B2 true JP4570648B2 (ja) | 2010-10-27 |
Family
ID=40296264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007246156A Active JP4570648B2 (ja) | 2007-07-23 | 2007-09-21 | 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090030882A1 (ja) |
JP (1) | JP4570648B2 (ja) |
CN (1) | CN101354705B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825670B2 (en) * | 2010-02-26 | 2014-09-02 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
US9355150B1 (en) | 2012-06-27 | 2016-05-31 | Bryan R. Bell | Content database for producing solution documents |
US9317513B1 (en) * | 2012-06-27 | 2016-04-19 | Netapp, Inc. | Content database for storing extracted content |
JP2014127186A (ja) * | 2012-12-27 | 2014-07-07 | Ricoh Co Ltd | 画像処理装置、画像処理方法およびプログラム |
US9791865B2 (en) | 2014-10-29 | 2017-10-17 | Amazon Technologies, Inc. | Multi-scale fiducials |
JP6631337B2 (ja) * | 2016-03-14 | 2020-01-15 | コニカミノルタ株式会社 | 検索装置およびプログラム |
JP7343311B2 (ja) * | 2019-06-11 | 2023-09-12 | ファナック株式会社 | 文書検索装置及び文書検索方法 |
CN110992443B (zh) * | 2019-12-18 | 2023-09-26 | 政采云有限公司 | 一种业务流程图构建方法、装置和计算机可读存储介质 |
CN112199545B (zh) * | 2020-11-23 | 2021-09-07 | 湖南蚁坊软件股份有限公司 | 基于图片文字定位的关键词显示方法、装置及存储介质 |
CN112785659B (zh) * | 2021-01-28 | 2024-10-15 | 特赞(上海)信息科技有限公司 | 企业案例素材图片检测方法、装置、设备和存储介质 |
US20230059946A1 (en) * | 2021-08-17 | 2023-02-23 | International Business Machines Corporation | Artificial intelligence-based process documentation from disparate system documents |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06325084A (ja) * | 1993-01-19 | 1994-11-25 | Canon Inf Syst Inc | 文書処理装置及びその方法と文書表示装置及びその方法 |
JPH1186014A (ja) * | 1997-09-08 | 1999-03-30 | Fujitsu Ltd | 文書画像表示方法および表示装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07220091A (ja) * | 1994-02-04 | 1995-08-18 | Canon Inc | 画像処理装置及び方法 |
US5821929A (en) * | 1994-11-30 | 1998-10-13 | Canon Kabushiki Kaisha | Image processing method and apparatus |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5692073A (en) * | 1996-05-03 | 1997-11-25 | Xerox Corporation | Formless forms and paper web using a reference-based mark extraction technique |
JPH10307846A (ja) * | 1997-03-03 | 1998-11-17 | Toshiba Corp | ドキュメント情報管理システム、ドキュメント情報管理方法、及びドキュメント検索方法 |
US6463428B1 (en) * | 2000-03-29 | 2002-10-08 | Koninklijke Philips Electronics N.V. | User interface providing automatic generation and ergonomic presentation of keyword search criteria |
US7774326B2 (en) * | 2004-06-25 | 2010-08-10 | Apple Inc. | Methods and systems for managing data |
US7702673B2 (en) * | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8051371B2 (en) * | 2004-10-25 | 2011-11-01 | Nec Corporation | Document analysis system and document adaptation system |
-
2007
- 2007-07-23 CN CN2007101296084A patent/CN101354705B/zh not_active Expired - Fee Related
- 2007-09-21 JP JP2007246156A patent/JP4570648B2/ja active Active
-
2008
- 2008-01-10 US US11/972,476 patent/US20090030882A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06325084A (ja) * | 1993-01-19 | 1994-11-25 | Canon Inf Syst Inc | 文書処理装置及びその方法と文書表示装置及びその方法 |
JPH1186014A (ja) * | 1997-09-08 | 1999-03-30 | Fujitsu Ltd | 文書画像表示方法および表示装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2009026286A (ja) | 2009-02-05 |
CN101354705A (zh) | 2009-01-28 |
US20090030882A1 (en) | 2009-01-29 |
CN101354705B (zh) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4570648B2 (ja) | 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体 | |
JP4533920B2 (ja) | 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 | |
JP4408129B2 (ja) | 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体 | |
JP4740916B2 (ja) | 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体 | |
JP4364914B2 (ja) | 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体 | |
JP2009026287A (ja) | 文字画像抽出装置および文字画像抽出方法 | |
JP4772817B2 (ja) | 画像文書処理装置および画像文書処理方法 | |
US8731300B2 (en) | Handwritten word spotter system using synthesized typed queries | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
US5768451A (en) | Character recognition method and apparatus | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
JP2008310772A (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
JPH04281559A (ja) | 文書検索装置 | |
JP2005107931A (ja) | 画像検索装置 | |
CN116842138B (zh) | 基于文档的检索方法、装置、设备及存储介质 | |
JP3056810B2 (ja) | 文書検索方法および装置 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JP2009110204A (ja) | 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム | |
JP2005258910A (ja) | 階層キーワード抽出装置、方法、およびプログラム | |
JP2004287992A (ja) | 文書情報処理装置並びにプログラム | |
Song et al. | Free-Flow: Unintrusive Reading Device for a Printed Text | |
Balasubramanian et al. | Recognition-free search in graphics stream of PDF | |
JPH0375888A (ja) | 文書画像認識管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100810 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4570648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |