DK200800345A - Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden - Google Patents
Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden Download PDFInfo
- Publication number
- DK200800345A DK200800345A DK200800345A DKPA200800345A DK200800345A DK 200800345 A DK200800345 A DK 200800345A DK 200800345 A DK200800345 A DK 200800345A DK PA200800345 A DKPA200800345 A DK PA200800345A DK 200800345 A DK200800345 A DK 200800345A
- Authority
- DK
- Denmark
- Prior art keywords
- computer
- implemented method
- word
- recording
- character
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 33
- 239000002131 composite material Substances 0.000 claims 5
- 238000011156 evaluation Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Document Processing Apparatus (AREA)
- Storage Device Security (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Claims (30)
1. Computer-implementeret fremgangsmåde til skanning af et dokument, omfattende trinnene: - erhvervelse, til en hukommelse, af mindst én optagelse begrænset til et felt, der dækker et afgrænset område af et dokument; - processering af den i det mindste ene optagelse for at udføre karakter genkendelse; - når en karakter er genkendt, registrering af den i en hukommelse; og udførsel af de ovenstående trin gentagende gange, mens der optages på forskudte positioner for gradvist at opnå en karakterstreng; kendetegnet ved: - evaluering af strengen i forhold til en foruddefineret betingelse; - hvis betingelsen ikke er opfyldt, bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af den i det mindste ene optagelse; - hvis betingelsen er opfyldt, tilvejebringelse af et output og sletning fra hukommelsen af i det mindste en del af strengen og i det mindste en del af den i det mindste ene optagelse.
2. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved den foruddefinerede betingelse omfatter, at karakterstrengen omfatter mindst et ord.
3. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved en indeks-liste er tilvejebragt omfattende det i det mindste ene ord.
4. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved det i det mindste ene ord slettes fra indeks-listen, hvis ordet matcher et af et foruddefineret stop-ord.
5. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord identificeres ved, at der er et mellemrum før og efter ordet.
6. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord defineres ved, at der er et mellemrum før ordet og en karakter forskellig fra et ' bogstav efter ordet. |
7. Computer-implementeret fremgangsmåde ifølge krav 2, hvorved et ord identificeres ved hjælp af en database omfattende ethvert ord i et eller flere sprog, og hvis der er et match mellem karakterstrengen og et ord i databasen, defineres karakterstrengen som et ord.
8. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved outputtet er det i det mindste ene ord.
9. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved outputtet er en reference til en position i dokumentet, hvor det i det mindste ene ord er placeret.
10. Computer-implementeret fremgangsmåde ifølge krav 1 eller 2, hvorved information om placeringen/positionen i dokumentet af det i det mindste ene ord genereres og lagres.
11. Computer-implementeret fremgangsmåde ifølge krav 1 eller 2, hvorved det i det mindste ene ord er repræsenteret som en kode.
12. Computer-implementeret fremgangsmåde ifølge krav 3, hvorved outputtet omfatter indeks-listen og en reference til en position, der repræsenterer positionen af det tilsvarende ord i dokumentet, der er underlagt skanning.
13. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved en genereret nøgleords-liste omfatter et antal af foruddefinerede nøgleord.
14. Computer-implementeret fremgangsmåde ifølge krav 13, hvorved nøgleords-listen sammenlignes med indeks-listen, og, hvis der er et match mellem et nøgleord i nøgleords-listen og et ord i indeks-listen, uddrages dette ord.
15. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-14, hvorved bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af den i det mindste ene optagelse, hvis betingelsen ikke er opfyldt, omfatter: bestemme antallet af evaluerede karakter; og - hvis mindre end et foruddefineret antal karakter er evalueret, slettes mindst en del af den i det mindste ene optagelse ikke; og - hvis mere end eller lig med et foruddefineret antal karakterer er evalueret, slettes mindst en del af den i det mindste ene optagelse.
16. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-15, yderligere omfattende bestemmelse af hvorvidt der fra hukommelsen skal slettes mindst en del af strengen, hvis betingelsen ikke er opfyldt.
17. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-16, omfattende sammensætning af udvalgte optagelser til en sammensat optagelse.
18. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved den sammensatte optagelse processeres for at udføre genkendelse af en karakter, som strækker sig over en flerhed af udvalgte optagelser.
19. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved et trin til sammensætning af udvalgte optagelser til en sammensat optagelse udføres, når processering af den i det mindste ene optagelse for at genkende en karakter ikke resulterede i genkendelse af en karakter.
20. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, hvorvidt sammensatte optagelser resulterer i genkendelse af en karakter, når et foruddefineret antal optagelser er blevet sammensat.
21. Computer-implementeret fremgangsmåde ifølge kravene· 1 og 17, hvorved den foruddefinerede betingelse omfatter, at færre end et foruddefineret antal af karakterer er evalueret.
22. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, at karakter skrifttype-størrelsen er mindre end en foruddefineret skrifttype-størrelse.
23. Computer-implementeret fremgangsmåde ifølge kravene 1 og 17, hvorved den foruddefinerede betingelse omfatter, at den samme farve forekommer i nabo-optagelser.
24. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved den sammensatte optagelse slettes, når en foruddefineret betingelse er opfyldt.
25. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-24, hvorved feltet er konfigureret til at have en dimension på elleve ord arrangeret ved siden af hinanden i en fortløbende tekst.
26. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-25, hvorved feltet er konfigureret til at have en dimension svarende til bredden af dokumentet og højden af skrifttype-størrelsen af karaktererne.
27. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-24, hvorved feltet er konfigureret til at have en dimension, der er mindre end fem gange størrelsen af den mindste karakter, der er underlagt karaktergenkendelse.
28. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-27, hvorved mindst to optagelser erhverves samtidigt.
29. Computer-læsbart medium indkodet med et program, der implementerer fremgangsmåden ifølge et hvilket som helst af kravene 1-27, når det køres på en computer.
30. System omfattende en skanningsanordning og en computer loadet med et program, der implementerer fremgangsmåden ifølge et hvilken som helst af kravene 1-27, når programmet køres på computeren.
Priority Applications (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DK200800345A DK176835B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden |
GEAP2009011961 GEP20135843B (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
US12/667,953 US8520224B2 (en) | 2008-03-07 | 2009-03-05 | Method of scanning to a field that covers a delimited area of a document repeatedly |
CN2009801081465A CN101981568A (zh) | 2008-03-07 | 2009-03-05 | 扫描方法 |
EA201071041A EA201071041A1 (ru) | 2008-03-07 | 2009-03-05 | Способ сканирования |
CA2717323A CA2717323A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
MX2010009614A MX2010009614A (es) | 2008-03-07 | 2009-03-05 | Metodo de exploracion. |
BRPI0909816A BRPI0909816A2 (pt) | 2008-03-07 | 2009-03-05 | método de escaneamento |
PCT/EP2009/052615 WO2009109626A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
JP2010549148A JP2011513849A (ja) | 2008-03-07 | 2009-03-05 | スキャンの方法 |
EP09717603A EP2263172A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
IL207979A IL207979A0 (en) | 2008-03-07 | 2010-09-05 | Method of scanning |
SM201000111T SMP201000111B (it) | 2008-03-07 | 2010-10-01 | Metodo di scansione |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DK200800345A DK176835B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden |
DK200800345 | 2008-03-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
DK200800345A true DK200800345A (da) | 2009-09-08 |
DK176835B1 DK176835B1 (da) | 2009-11-23 |
Family
ID=40139106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DK200800345A DK176835B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden |
Country Status (13)
Country | Link |
---|---|
US (1) | US8520224B2 (da) |
EP (1) | EP2263172A1 (da) |
JP (1) | JP2011513849A (da) |
CN (1) | CN101981568A (da) |
BR (1) | BRPI0909816A2 (da) |
CA (1) | CA2717323A1 (da) |
DK (1) | DK176835B1 (da) |
EA (1) | EA201071041A1 (da) |
GE (1) | GEP20135843B (da) |
IL (1) | IL207979A0 (da) |
MX (1) | MX2010009614A (da) |
SM (1) | SMP201000111B (da) |
WO (1) | WO2009109626A1 (da) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK176834B1 (da) * | 2008-03-07 | 2009-11-23 | Jala Aps | Fremgangsmåde til skanning |
US8924251B2 (en) * | 2010-12-13 | 2014-12-30 | Vlsi Research Inc. | Systems and methods for providing one or more pages from an electronic document |
US9715383B2 (en) | 2012-03-15 | 2017-07-25 | International Business Machines Corporation | Vector find element equal instruction |
US9280347B2 (en) | 2012-03-15 | 2016-03-08 | International Business Machines Corporation | Transforming non-contiguous instruction specifiers to contiguous instruction specifiers |
US9268566B2 (en) * | 2012-03-15 | 2016-02-23 | International Business Machines Corporation | Character data match determination by loading registers at most up to memory block boundary and comparing |
US9588762B2 (en) | 2012-03-15 | 2017-03-07 | International Business Machines Corporation | Vector find element not equal instruction |
US9459864B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Vector string range compare |
US9459868B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a dynamically determined memory boundary |
US9710266B2 (en) | 2012-03-15 | 2017-07-18 | International Business Machines Corporation | Instruction to compute the distance to a specified memory boundary |
US9454366B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Copying character data having a termination character from one memory location to another |
US9459867B2 (en) | 2012-03-15 | 2016-10-04 | International Business Machines Corporation | Instruction to load data up to a specified memory boundary indicated by the instruction |
US9454367B2 (en) | 2012-03-15 | 2016-09-27 | International Business Machines Corporation | Finding the length of a set of character data having a termination character |
US9635204B2 (en) | 2015-09-17 | 2017-04-25 | International Business Machines Corporation | Partial information capture and processing |
CN112485029B (zh) * | 2020-11-04 | 2022-10-18 | 网易有道(杭州)智能科技有限公司 | 一种扫描设备测试系统、方法和装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6042990B2 (ja) * | 1978-05-22 | 1985-09-26 | 株式会社日立製作所 | パタ−ン認識方法 |
US4731861A (en) * | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPS62106574A (ja) * | 1985-11-05 | 1987-05-18 | Hitachi Ltd | 文書画像フアイル登録検索方式 |
JPH02118786A (ja) * | 1988-10-28 | 1990-05-07 | Nec Home Electron Ltd | 文字認識方法 |
US5109439A (en) * | 1990-06-12 | 1992-04-28 | Horst Froessl | Mass document storage and retrieval system |
JP3727995B2 (ja) * | 1996-01-23 | 2005-12-21 | キヤノン株式会社 | 文書処理方法及び装置 |
JP4153989B2 (ja) | 1996-07-11 | 2008-09-24 | 株式会社日立製作所 | 文書検索配送方法および装置 |
JP2000059588A (ja) * | 1998-08-12 | 2000-02-25 | Minolta Co Ltd | 画像処理装置 |
JP2001218010A (ja) * | 2000-01-31 | 2001-08-10 | Canon Inc | 画像処理装置、画像処理方法、記憶媒体 |
GB2359953B (en) * | 2000-03-03 | 2004-02-11 | Hewlett Packard Co | Improvements relating to image capture systems |
US6545385B2 (en) * | 2000-04-11 | 2003-04-08 | Sandia Corporation | Microelectromechanical apparatus for elevating and tilting a platform |
US6904182B1 (en) * | 2000-04-19 | 2005-06-07 | Microsoft Corporation | Whiteboard imaging system |
US6944344B2 (en) * | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
EP1312039B1 (en) * | 2000-08-24 | 2006-03-29 | Olive Software, Inc. | System and method for automatic preparation and searching of scanned documents |
JP2004318875A (ja) * | 2003-04-04 | 2004-11-11 | Dainakomu:Kk | カルテ画像の読み取り |
US20050076013A1 (en) * | 2003-10-01 | 2005-04-07 | Fuji Xerox Co., Ltd. | Context-based contact information retrieval systems and methods |
JP2006172083A (ja) * | 2004-12-15 | 2006-06-29 | Canon Inc | 文書登録システム |
US20080021938A1 (en) * | 2006-06-29 | 2008-01-24 | Ashish Jha | Technique for allocating objects in a managed run time environment |
EP2087448A1 (en) * | 2006-11-21 | 2009-08-12 | Cameron Telfer Howie | A method of retrieving information from a digital image |
US8209605B2 (en) * | 2006-12-13 | 2012-06-26 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
-
2008
- 2008-03-07 DK DK200800345A patent/DK176835B1/da not_active IP Right Cessation
-
2009
- 2009-03-05 EA EA201071041A patent/EA201071041A1/ru unknown
- 2009-03-05 WO PCT/EP2009/052615 patent/WO2009109626A1/en active Application Filing
- 2009-03-05 JP JP2010549148A patent/JP2011513849A/ja active Pending
- 2009-03-05 MX MX2010009614A patent/MX2010009614A/es not_active Application Discontinuation
- 2009-03-05 EP EP09717603A patent/EP2263172A1/en not_active Withdrawn
- 2009-03-05 CA CA2717323A patent/CA2717323A1/en not_active Abandoned
- 2009-03-05 BR BRPI0909816A patent/BRPI0909816A2/pt not_active IP Right Cessation
- 2009-03-05 US US12/667,953 patent/US8520224B2/en not_active Expired - Fee Related
- 2009-03-05 CN CN2009801081465A patent/CN101981568A/zh active Pending
- 2009-03-05 GE GEAP2009011961 patent/GEP20135843B/en unknown
-
2010
- 2010-09-05 IL IL207979A patent/IL207979A0/en unknown
- 2010-10-01 SM SM201000111T patent/SMP201000111B/it unknown
Also Published As
Publication number | Publication date |
---|---|
CA2717323A1 (en) | 2009-09-11 |
GEP20135843B (en) | 2013-06-10 |
US20100321714A1 (en) | 2010-12-23 |
BRPI0909816A2 (pt) | 2019-09-24 |
EA201071041A1 (ru) | 2011-04-29 |
CN101981568A (zh) | 2011-02-23 |
IL207979A0 (en) | 2010-12-30 |
SMAP201000111A (it) | 2011-01-19 |
EP2263172A1 (en) | 2010-12-22 |
MX2010009614A (es) | 2011-03-02 |
SMP201000111B (it) | 2011-09-09 |
US8520224B2 (en) | 2013-08-27 |
JP2011513849A (ja) | 2011-04-28 |
WO2009109626A1 (en) | 2009-09-11 |
DK176835B1 (da) | 2009-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK200800345A (da) | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden | |
CN106250830B (zh) | 数字图书结构化分析处理方法 | |
US9224041B2 (en) | Table of contents extraction based on textual similarity and formal aspects | |
CN105912514B (zh) | 基于指纹特征的文本复制检测系统及方法 | |
CN108021545B (zh) | 一种司法文书的案由提取方法及装置 | |
KR950020102A (ko) | 문자인식 방법 및 장치 | |
CN109753987B (zh) | 文件识别方法和特征提取方法 | |
KR20170004983A (ko) | 라인 분할 방법 | |
CN105320645A (zh) | 中文企业名称的识别方法 | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Palkovskii et al. | Developing high-resolution universal multi-type n-gram plagiarism detector | |
TWI452475B (zh) | A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program | |
Chamchong et al. | Text line extraction using adaptive partial projection for palm leaf manuscripts from Thailand | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
CN106484677A (zh) | 一种基于最小信息量的汉语快速分词系统及方法 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
Wick et al. | One-model ensemble-learning for text recognition of historical printings | |
CN107967252A (zh) | 一种基于Bi-LSTM-CNN的分词方法 | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
KR101763329B1 (ko) | 음절 다중 조합 키워드 기반 문형 자동 분류 방법 | |
KR20070106475A (ko) | 텍스트 복제 탐지 방법 | |
CN107480671A (zh) | 一种社交网络低质量图像中的字幕识别方法 | |
CN113673255B (zh) | 文本功能区域拆分方法、装置、计算机设备及存储介质 | |
Sarkar | Word spotting in cursive handwritten documents using modified character shape codes | |
JP5289032B2 (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PBP | Patent lapsed |
Effective date: 20150331 |