DK200800345A - Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden - Google Patents

Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden Download PDF

Info

Publication number
DK200800345A
DK200800345A DK200800345A DKPA200800345A DK200800345A DK 200800345 A DK200800345 A DK 200800345A DK 200800345 A DK200800345 A DK 200800345A DK PA200800345 A DKPA200800345 A DK PA200800345A DK 200800345 A DK200800345 A DK 200800345A
Authority
DK
Denmark
Prior art keywords
computer
implemented method
word
recording
character
Prior art date
Application number
DK200800345A
Other languages
English (en)
Inventor
Nielsen Lars Stig
Meibom Jacob
Original Assignee
Jala Aps
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DK200800345A priority Critical patent/DK176835B1/da
Application filed by Jala Aps filed Critical Jala Aps
Priority to MX2010009614A priority patent/MX2010009614A/es
Priority to BRPI0909816A priority patent/BRPI0909816A2/pt
Priority to US12/667,953 priority patent/US8520224B2/en
Priority to CN2009801081465A priority patent/CN101981568A/zh
Priority to EA201071041A priority patent/EA201071041A1/ru
Priority to CA2717323A priority patent/CA2717323A1/en
Priority to EP09717603A priority patent/EP2263172A1/en
Priority to GEAP2009011961 priority patent/GEP20135843B/en
Priority to PCT/EP2009/052615 priority patent/WO2009109626A1/en
Priority to JP2010549148A priority patent/JP2011513849A/ja
Publication of DK200800345A publication Critical patent/DK200800345A/da
Application granted granted Critical
Publication of DK176835B1 publication Critical patent/DK176835B1/da
Priority to IL207979A priority patent/IL207979A0/en
Priority to SM201000111T priority patent/SMP201000111B/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Document Processing Apparatus (AREA)
  • Storage Device Security (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Claims (30)

1. Computer-implementeret fremgangsmåde til skanning af et dokument, omfattende trinnene: - erhvervelse, til en hukommelse, af mindst én optagelse begrænset til et felt, der dækker et afgrænset område af et dokument; - processering af den i det mindste ene optagelse for at udføre karakter genkendelse; - når en karakter er genkendt, registrering af den i en hukommelse; og udførsel af de ovenstående trin gentagende gange, mens der optages på forskudte positioner for gradvist at opnå en karakterstreng; kendetegnet ved: - evaluering af strengen i forhold til en foruddefineret betingelse; - hvis betingelsen ikke er opfyldt, bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af den i det mindste ene optagelse; - hvis betingelsen er opfyldt, tilvejebringelse af et output og sletning fra hukommelsen af i det mindste en del af strengen og i det mindste en del af den i det mindste ene optagelse.
2. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved den foruddefinerede betingelse omfatter, at karakterstrengen omfatter mindst et ord.
3. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved en indeks-liste er tilvejebragt omfattende det i det mindste ene ord.
4. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved det i det mindste ene ord slettes fra indeks-listen, hvis ordet matcher et af et foruddefineret stop-ord.
5. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord identificeres ved, at der er et mellemrum før og efter ordet.
6. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord defineres ved, at der er et mellemrum før ordet og en karakter forskellig fra et ' bogstav efter ordet. |
7. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord identificeres ved hjælp af en database omfattende ethvert ord i et eller flere sprog, og hvis der er et match mellem karakterstrengen og et ord i databasen, defineres karakterstrengen som et ord.
8. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved outputtet er det i det mindste ene ord.
9. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved outputtet er en reference til en position i dokumentet, hvor det i det mindste ene ord er placeret.
10. Computer-implementeret fremgangsmåde ifølge krav 1 eller 2, hvorved information om placeringen/positionen i dokumentet af det i det mindste ene ord genereres og lagres.
11. Computer-implementeret fremgangsmåde ifølge krav 1 eller 2, hvorved det i det mindste ene ord er repræsenteret som en kode.
12. Computer-implementeret fremgangsmåde ifølge krav 3, hvorved outputtet omfatter indeks-listen og en reference til en position, der repræsenterer positionen af det tilsvarende ord i dokumentet, der er underlagt skanning.
13. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved en genereret nøgleords-liste omfatter et antal af foruddefinerede nøgleord.
14. Computer-implementeret fremgangsmåde ifølge krav 13, hvorved nøgleords-listen sammenlignes med indeks-listen, og, hvis der er et match mellem et nøgleord i nøgleords-listen og et ord i indeks-listen, uddrages dette ord.
15. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-14, hvorved bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af den i det mindste ene optagelse, hvis betingelsen ikke er opfyldt, omfatter: bestemme antallet af evaluerede karakter; og - hvis mindre end et foruddefineret antal karakter er evalueret, slettes mindst en del af den i det mindste ene optagelse ikke; og - hvis mere end eller lig med et foruddefineret antal karakterer er evalueret, slettes mindst en del af den i det mindste ene optagelse.
16. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-15, yderligere omfattende bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af strengen, hvis betingelsen ikke er opfyldt.
17. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-16, omfattende sammensætning af udvalgte optagelser til en sammensat optagelse.
18. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved den sammensatte optagelse processeres for at udføre genkendelse af en karakter, som strækker sig over en flerhed af udvalgte optagelser.
19. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved et trin til sammensætning af udvalgte optagelser til en sammensat optagelse udføres, når processering af den i det mindste ene optagelse for at genkende en karakter ikke resulterede i genkendelse af en karakter.
20. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, hvorvidt sammensatte optagelser resulterer i genkendelse af en karakter, når et foruddefineret antal optagelser er blevet sammensat.
21. Computer-implementeret fremgangsmåde ifølge kravene· 1 og 17, hvorved den foruddefinerede betingelse omfatter, at færre end et foruddefineret antal af karakterer er evalueret.
22. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, at karakter skrifttype-størrelsen er mindre end en foruddefineret skrifttype-størrelse.
23. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, at den samme farve forekommer i nabo-optagelser.
24. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved den sammensatte optagelse slettes, når en foruddefineret betingelse er opfyldt.
25. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-24, hvorved feltet er konfigureret til at have en dimension på elleve ord arrangeret ved siden af hinanden i en fortløbende tekst.
26. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-25, hvorved feltet er konfigureret til at have en dimension svarende til bredden af dokumentet og højden af skrifttype-størrelsen af karaktererne.
27. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-24, hvorved feltet er konfigureret til at have en dimension, der er mindre end fem gange størrelsen af den mindste karakter, der er underlagt karaktergenkendelse.
28. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-27, hvorved mindst to optagelser erhverves samtidigt.
29. Computer-læsbart medium indkodet med et program, der implementerer fremgangsmåden ifølge et hvilket som helst af kravene 1-27, når det køres på en computer.
30. System omfattende en skanningsanordning og en computer loadet med et program, der implementerer fremgangsmåden ifølge et hvilken som helst af kravene 1-27, når programmet køres på computeren.
DK200800345A 2008-03-07 2008-03-07 Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden DK176835B1 (da)

Priority Applications (13)

Application Number Priority Date Filing Date Title
DK200800345A DK176835B1 (da) 2008-03-07 2008-03-07 Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden
GEAP2009011961 GEP20135843B (en) 2008-03-07 2009-03-05 Method of scanning
US12/667,953 US8520224B2 (en) 2008-03-07 2009-03-05 Method of scanning to a field that covers a delimited area of a document repeatedly
CN2009801081465A CN101981568A (zh) 2008-03-07 2009-03-05 扫描方法
EA201071041A EA201071041A1 (ru) 2008-03-07 2009-03-05 Способ сканирования
CA2717323A CA2717323A1 (en) 2008-03-07 2009-03-05 Method of scanning
MX2010009614A MX2010009614A (es) 2008-03-07 2009-03-05 Metodo de exploracion.
BRPI0909816A BRPI0909816A2 (pt) 2008-03-07 2009-03-05 método de escaneamento
PCT/EP2009/052615 WO2009109626A1 (en) 2008-03-07 2009-03-05 Method of scanning
JP2010549148A JP2011513849A (ja) 2008-03-07 2009-03-05 スキャンの方法
EP09717603A EP2263172A1 (en) 2008-03-07 2009-03-05 Method of scanning
IL207979A IL207979A0 (en) 2008-03-07 2010-09-05 Method of scanning
SM201000111T SMP201000111B (it) 2008-03-07 2010-10-01 Metodo di scansione

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DK200800345A DK176835B1 (da) 2008-03-07 2008-03-07 Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden
DK200800345 2008-03-07

Publications (2)

Publication Number Publication Date
DK200800345A true DK200800345A (da) 2009-09-08
DK176835B1 DK176835B1 (da) 2009-11-23

Family

ID=40139106

Family Applications (1)

Application Number Title Priority Date Filing Date
DK200800345A DK176835B1 (da) 2008-03-07 2008-03-07 Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden

Country Status (13)

Country Link
US (1) US8520224B2 (da)
EP (1) EP2263172A1 (da)
JP (1) JP2011513849A (da)
CN (1) CN101981568A (da)
BR (1) BRPI0909816A2 (da)
CA (1) CA2717323A1 (da)
DK (1) DK176835B1 (da)
EA (1) EA201071041A1 (da)
GE (1) GEP20135843B (da)
IL (1) IL207979A0 (da)
MX (1) MX2010009614A (da)
SM (1) SMP201000111B (da)
WO (1) WO2009109626A1 (da)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK176834B1 (da) * 2008-03-07 2009-11-23 Jala Aps Fremgangsmåde til skanning
US8924251B2 (en) * 2010-12-13 2014-12-30 Vlsi Research Inc. Systems and methods for providing one or more pages from an electronic document
US9715383B2 (en) 2012-03-15 2017-07-25 International Business Machines Corporation Vector find element equal instruction
US9280347B2 (en) 2012-03-15 2016-03-08 International Business Machines Corporation Transforming non-contiguous instruction specifiers to contiguous instruction specifiers
US9268566B2 (en) * 2012-03-15 2016-02-23 International Business Machines Corporation Character data match determination by loading registers at most up to memory block boundary and comparing
US9588762B2 (en) 2012-03-15 2017-03-07 International Business Machines Corporation Vector find element not equal instruction
US9459864B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Vector string range compare
US9459868B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a dynamically determined memory boundary
US9710266B2 (en) 2012-03-15 2017-07-18 International Business Machines Corporation Instruction to compute the distance to a specified memory boundary
US9454366B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Copying character data having a termination character from one memory location to another
US9459867B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a specified memory boundary indicated by the instruction
US9454367B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Finding the length of a set of character data having a termination character
US9635204B2 (en) 2015-09-17 2017-04-25 International Business Machines Corporation Partial information capture and processing
CN112485029B (zh) * 2020-11-04 2022-10-18 网易有道(杭州)智能科技有限公司 一种扫描设备测试系统、方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6042990B2 (ja) * 1978-05-22 1985-09-26 株式会社日立製作所 パタ−ン認識方法
US4731861A (en) * 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS62106574A (ja) * 1985-11-05 1987-05-18 Hitachi Ltd 文書画像フアイル登録検索方式
JPH02118786A (ja) * 1988-10-28 1990-05-07 Nec Home Electron Ltd 文字認識方法
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
JP3727995B2 (ja) * 1996-01-23 2005-12-21 キヤノン株式会社 文書処理方法及び装置
JP4153989B2 (ja) 1996-07-11 2008-09-24 株式会社日立製作所 文書検索配送方法および装置
JP2000059588A (ja) * 1998-08-12 2000-02-25 Minolta Co Ltd 画像処理装置
JP2001218010A (ja) * 2000-01-31 2001-08-10 Canon Inc 画像処理装置、画像処理方法、記憶媒体
GB2359953B (en) * 2000-03-03 2004-02-11 Hewlett Packard Co Improvements relating to image capture systems
US6545385B2 (en) * 2000-04-11 2003-04-08 Sandia Corporation Microelectromechanical apparatus for elevating and tilting a platform
US6904182B1 (en) * 2000-04-19 2005-06-07 Microsoft Corporation Whiteboard imaging system
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
EP1312039B1 (en) * 2000-08-24 2006-03-29 Olive Software, Inc. System and method for automatic preparation and searching of scanned documents
JP2004318875A (ja) * 2003-04-04 2004-11-11 Dainakomu:Kk カルテ画像の読み取り
US20050076013A1 (en) * 2003-10-01 2005-04-07 Fuji Xerox Co., Ltd. Context-based contact information retrieval systems and methods
JP2006172083A (ja) * 2004-12-15 2006-06-29 Canon Inc 文書登録システム
US20080021938A1 (en) * 2006-06-29 2008-01-24 Ashish Jha Technique for allocating objects in a managed run time environment
EP2087448A1 (en) * 2006-11-21 2009-08-12 Cameron Telfer Howie A method of retrieving information from a digital image
US8209605B2 (en) * 2006-12-13 2012-06-26 Pado Metaware Ab Method and system for facilitating the examination of documents

Also Published As

Publication number Publication date
CA2717323A1 (en) 2009-09-11
GEP20135843B (en) 2013-06-10
US20100321714A1 (en) 2010-12-23
BRPI0909816A2 (pt) 2019-09-24
EA201071041A1 (ru) 2011-04-29
CN101981568A (zh) 2011-02-23
IL207979A0 (en) 2010-12-30
SMAP201000111A (it) 2011-01-19
EP2263172A1 (en) 2010-12-22
MX2010009614A (es) 2011-03-02
SMP201000111B (it) 2011-09-09
US8520224B2 (en) 2013-08-27
JP2011513849A (ja) 2011-04-28
WO2009109626A1 (en) 2009-09-11
DK176835B1 (da) 2009-11-23

Similar Documents

Publication Publication Date Title
DK200800345A (da) Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden
CN106250830B (zh) 数字图书结构化分析处理方法
US9224041B2 (en) Table of contents extraction based on textual similarity and formal aspects
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
CN108021545B (zh) 一种司法文书的案由提取方法及装置
KR950020102A (ko) 문자인식 방법 및 장치
CN109753987B (zh) 文件识别方法和特征提取方法
KR20170004983A (ko) 라인 분할 방법
CN105320645A (zh) 中文企业名称的识别方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Palkovskii et al. Developing high-resolution universal multi-type n-gram plagiarism detector
TWI452475B (zh) A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program
Chamchong et al. Text line extraction using adaptive partial projection for palm leaf manuscripts from Thailand
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
CN106484677A (zh) 一种基于最小信息量的汉语快速分词系统及方法
CN111291535B (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
Wick et al. One-model ensemble-learning for text recognition of historical printings
CN107967252A (zh) 一种基于Bi-LSTM-CNN的分词方法
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
KR101763329B1 (ko) 음절 다중 조합 키워드 기반 문형 자동 분류 방법
KR20070106475A (ko) 텍스트 복제 탐지 방법
CN107480671A (zh) 一种社交网络低质量图像中的字幕识别方法
CN113673255B (zh) 文本功能区域拆分方法、装置、计算机设备及存储介质
Sarkar Word spotting in cursive handwritten documents using modified character shape codes
JP5289032B2 (ja) 文書検索装置

Legal Events

Date Code Title Description
PBP Patent lapsed

Effective date: 20150331