IT202100016208A1 - Metodo e sistema di acquisizione digitale documenti cartacei - Google Patents

Metodo e sistema di acquisizione digitale documenti cartacei Download PDF

Info

Publication number
IT202100016208A1
IT202100016208A1 IT102021000016208A IT202100016208A IT202100016208A1 IT 202100016208 A1 IT202100016208 A1 IT 202100016208A1 IT 102021000016208 A IT102021000016208 A IT 102021000016208A IT 202100016208 A IT202100016208 A IT 202100016208A IT 202100016208 A1 IT202100016208 A1 IT 202100016208A1
Authority
IT
Italy
Prior art keywords
data
document
information
documents
type
Prior art date
Application number
IT102021000016208A
Other languages
English (en)
Inventor
Agostino D'agostino
Original Assignee
Witit S R L Start Up Costituita A Norma Dellarticolo 4 Comma 10 Bis Del Decreto Legge 24 Gennaio 201
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Witit S R L Start Up Costituita A Norma Dellarticolo 4 Comma 10 Bis Del Decreto Legge 24 Gennaio 201 filed Critical Witit S R L Start Up Costituita A Norma Dellarticolo 4 Comma 10 Bis Del Decreto Legge 24 Gennaio 201
Priority to IT102021000016208A priority Critical patent/IT202100016208A1/it
Publication of IT202100016208A1 publication Critical patent/IT202100016208A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Description

DESCRIZIONE
del brevetto per invenzione industriale dal titolo: ?Metodo e sistema di acquisizione digitale documenti cartacei?.
Campo della tecnica
La presente domanda di brevetto per invenzione ? inquadrabile nel settore dell?informatica. L?invenzione riguarda nella fattispecie una realizzazione di un sistema di gestione dei documenti digitali, in grado di elaborare i documenti cartacei e di trasformarli in documenti digitali cos? da renderli disponibili all?uso delle nuove tecnologie.
Arte nota
Ogni cambiamento avvenuto nella storia dell?uomo, che ha segnato la sua vita futura - incidendo in modo netto su tutto quello che c?era stato precedentemente - stravolgendolo e cambiandolo ? avvenuto attraverso una rivoluzione. Una delle ultime rivoluzioni che l?uomo ha messo in atto sotto il profilo del cambiamento ? sicuramente quella digitale. Attraverso questa rivoluzione l?uomo ? riuscito a passare da quella che era una grande quantit? di processi che avvenivano attraverso delle tecnologie meccaniche ed analogiche che si rifacevanoo a strumentaione fisica e tattile, ad una nuova tecnologia in grado di dematerializzare le informazioni e renderle disponibili sottoforma di immagini pixel. La cosiddetta digitalizzazione iniziata negli anni Cinquanta grazie all?introduzione dei computer e delle memorie digitali e progressivamente andata ha consolidarsi con il passare degli anni fino ai giorni nostri grazie al continuo lavoro fatto su queste macchine che sono diventate parte integrante della vita di ogni singolo individuo, nelle sue diverse forme. Nel corso della storia si ? passati quindi dai primi computer che riuscivano a decifrare messaggi segreti dei nemici di guerra - nella Seconda guerra mondiale - ai sistemi digitali che ci permettono di fare ordini online, progettare, lavorare, pagare, gestire il denaro e comunicare. Il mondo, quindi, ha cambiato completamente il proprio modo di vivere, velocizzando una stragrande maggioranza di compiti che precedentemente richiedevano la presenza fisica in alcuni posti specifici, permettendo quindi di poter svolgere tutto questo in modo sicuro all?interno delle proprie case o in qualsiasi parte del mondo. Per poter effettuare molti di questi processi di sicuro un cambio notevole ? stato dato dal riuscire a digitalizzare documenti cartacei, che prima venivano inviati per posta (con i relativi tempi di consegna), in documenti - appunto digitali -facilmente inviabili tramite internet che in poco tempo riuscivano a fare il giro del mondo e ritornare indietro. La prima idea di dare valore guridico ad un documento in forma elettronica risale al 1978 e fu sviluppata in una ricerca degli anni 1991-93 in un sistema organico denominato teleamministrazione.
Dalla nascita dei software Word, excel, powerpoint ecc, che hanno permesso la creazione diretta di questi fogli elettronici, a macchine come lo scanner, che hanno permesso di digitalizzare i documenti cartacei. Questi sistemi hanno letteralmente cambiato il modo di interagire nel mondo, permettendo ai vari attori che si trovano a comunicare tra di loro, di potersi accordare e interagire a distanza e in tempi molto rapidi. La nascita ovviamente di queste nuove tecnologie e possibilit? ? nata per ovviare anche alle difficolt? che via via, nel corso dei tempi, si sono riscontrate con le carte. Anche se uno strumento utilissimo, che ci ha permesso di evolverci e su cui non potremmo mai fare a meno, in alcuni settori ? risultato per? troppo ingombrante, il tutto dovuto alla sua difficolt? di essere reperito in tempi brevi e alla sua presenza fisica nello spazio che occupa, che lo ha fatto convogliare in spazi di archiviazione a volte troppo ingombranti e onerosi nella gestione, per non parlare poi del fatto che molte pratiche, simili tra loro, devono comunque essere lette da persone con una certa perdita di tempo nel farlo. Il digitale quindi, e pi? in particolare, la documentazione digitale, ha aperto una porta verso lo snellimento dei tempi e dei processi di elaborazione di richieste e di permessi.
Sul mercato internazionale e nazionale esistono diverse soluzioni ad efficientare il processo di digitalizzazione, ad esempio il brevetto ?INNOVATIVO SISTEMA DI DIGITALIZZAZIONE DI DOCUMENTI ULTRAVELOCE - RM2013A000087? oppure ?DIGITIZED DOCUMENT ARCHIVING SYSTEM US20060268352A1?. Tuttavia, tali succitati privative industriali non forniscono le stesse soluzioni alla complessit? di archiviare in modo efficiente ed efficace come il presente trovato. In tal senso la presente invenzione apporta un nuovo tipo di meccanismo che ha permesso e pu? ancora permettere alle banche, alle pubbliche amministrazioni ecc. di snellire i quantitativi di personale e di persone presenti ai propri sportelli rendendo il sistema pi? efficiente.
Descrizione dell?invenzione
Il problema della digitalizzazione riguarda diverse problematiche: digitalizzazione del cartaceo, data recognition, protocollo informatico, pratica digitale, firma digitale, marca temporale, invio telematico, monitoraggio e arricchimento dati, sistemi aperti in cooperazione applicativa ecc. considerata la complessit? del problema occorre procedere per fasi quali in modo generico possono essere sintetizzati:
? Digitalizzazione delle informazioni necessarie,
? Trasformazione del processo per semplificazioni,
? Introduzione della logica di automazione,
? Alta disponibilit? del dato:
o Acquisizione nuovi dati
o Ricerca dati in archivio
o Indicizzazione
o Uso dei dati per il business.
? Misura del risultato.
I vantaggi tecnici di tale approccio sono evidenti nella riduzione dei tempi di trasporto e dei tempi di elaborazione e validazione. Oltrech? nella riduzione dei costi di trasporto, costi di archiviazione e costi di ricerca. In modo indiretto nel supporto semplice a liberare capacit? e competenze. Tale trovato trova applicazione in diversi ambiti tipo: documenti di trasporto, pratiche amministrative, pratiche legali, pratiche sanitarie ecc. Considerato che il metodo che si presenta ? elaborato in maniera oggettiva riesce ad essere applicato ad ogni settore merceologico diverso.
Descrizione dettagliata dell?invenzione e delle sue figure
Il presento trovato ? rivolto alla trasformazione digitale delle aziende e si pone l?obiettivo di trasformare i processi aziendali in ?data Driven? eliminando l?uso della carta. Per raggiungere questo scopo si ? analizzato centinaia di casi d?uso della modulistica cartacea e si ? dedotto che grandi sacche di inefficienza dei processi aziendali legati a questo mezzo di comunicazione scritto. In prima istanza la carta ? un oggetto deteriorabile nel tempo, la cui conservazione a termini di legge spesso richiede costi aggiuntivi legati alla logistica ed alla sicurezza oltre a quanto necessario per il recupero in caso di necessit?. Inoltre, per trattare le informazioni contenute su carta ? necessario sempre l?intervento umano che ne comprenda il contenuto ed applichi delle regole di business definite in partenza, con possibili errori. Obiettivo del processo ? quello di trasformare progressivamente il modo di lavorare delle persone efficientando le attivit?, riducendo inutili costi e tempi.
In figura 1 si illustra l?implementazione di un ?Data Driving? 10 comprendente:
- una interfaccia di cooperazione applicativa in grado di comunicare con fonti dati esterne che possono fornire contenuto informativo come fotocamere, videocamere, sensori IOT e Scanner;
- Un componente di Visione Artificiale in grado di classificare immagini in base al loro contenuto e riconoscere documenti di ogni tipologia.
- Un motore di intelligenza artificiale in grado di estrarre mediante tecniche di OCR, ICR e Deep Learning le informazioni contenute nei documenti;
- Un motore di workflow management che analizzando le informazioni estratte e la sorgente emittente ? in grado di assimilare i documenti ad una generica pratica e quindi applicare le profilabili regole di validazione. Il motore di workflow inoltre ? in grado di far collaborare pi? attori del processo notificando eventuali omissioni o errori sui dati e automatizzando il pi? possibile l?elaborazione delle pratiche; - un sistema di Robotic Process Automation che ? in grado di svolgere i compiti di ?data entry? o ?data retriving? che prima veniva svolti dall?essere umano in modalit? automatizzata; semplificando e automatizzando operazioni ripetitive da cui le persone vengono svincolate;
- Un sistema di addestramento dei sistemi informatici che partendo dai dati sia in grado di costruire un modello di interpretazione delle immagini che gli vengono sottoposte tramite una opportuna sezione di training.
Il processo di ?Data Driving? prevede in una prima fase l?utilizzo di procedure automatizzate guidate da processi di Intelligenza Artificiale e Computer Vision in grado di Campionare, Analizzare, Correggere e Validare le informazioni provenienti da fonti dati come una fotografia, una ripresa video, una scansione di un documento oppure un file di dati strutturati.
I documenti, eventualmente sottoposti ad una fase di protocollazione, vengono acquisiti dal sistema sotto forma di file (TIFF o PDF) eventualmente multi-pagina ed inseriti nella coda di classificazione. In questa fase interviene la procedura di computer Vision che riconosce il tipo di documento e ne fa una prima classificazione definendo il tipo ed il modello di riconoscimento da utilizzare per l?analisi approfondita. Qualora il documento non avesse gradi di similarit? accettabili con quelli presentati al sistema, questo proceder? alla segnalazione dello scarto e alla richiesta di creazione di un nuovo modello da parte delle figure di data Scientist affinch? in caso si ripeta la ricezione di un documento similare il sistema sia in grado di riconoscere in autonomia il file. ? prevista anche una fase di apprendimento continuo basato su grammatiche generative di dati sintetici. Questo avviene avendo a disposizione un modello PDF di tipo A del documento da riconoscere, nel quale vengono riempite tutte le arre dedicate a contenere informazioni con dati di fantasia ma coerenti con il tipo di dato atteso (una data nello spazio dove ? prevista una data, un codice fiscale dove ? previsto un codice fiscale, una stringa, un numero, etc.). In questo modo si crea un dataset di informazioni di vasta dimensione con cui addestrare il sistema di cui si conosce a prescindere l?interpretazione e che quindi pu? essere usato per l?addestramento. I documenti sintetici generati dall?algoritmo vengono creati sulla base di immagini di lettere e cifre provenienti da un dataset di oltre 1000 immagini per ogni tipo di carattere. Disponendo a questo punto del modello cognitivo in grado di riconoscere il documento e di etichettare le informazioni in esso contenute il documento questo viene sottoposto ad una seconda fase per l?estrazione delle informazioni. A questo punto il sistema ? in grado di analizzarlo, quindi dopo aver riconosciuto il tipo di documento ed averlo classificato, passer? all?estrazione delle informazioni di rilievo per poi presentarle all?utente all?interno di un PDF-A associato univocamente alla scansione. Affinch? le informazioni possano essere estratte con un alto grado di confidenza e quindi possano essere automatizzate abbiamo previsto due possibili soluzioni, la prima basata su OCR e ICR che consentono con una buona precisione di riconoscere il testo stampato, la seconda di riconoscimento del testo tramite algoritmi di apprendimento profondo. In particolare, nella seconda opzione l?immagine associata ad una ?etichetta? definita nel modello viene segmentata e passata ad un analizzatore che mediante comparazione cerca di comprendere a cosa corrisponda quella data in input. Anche in questo caso ? possibile inserire l?immagine non compresa nel dataset di apprendimento consentendo al sistema di acquisire maggiore ?confidenza? nel riconoscere oggetti che fino a quel punto non era in grado di riconoscere con soddisfacente affidabilit?. Quando le informazioni sono state acquisite dal sistema informativo, questo tramite opportune regole di workflow definibili dall?utente valuta sia il contenuto del documento, verificandone la correttezza e completezza, che la pratica a cui il documento ? collegata cambiandone eventualmente lo stato di avanzamento.
In figura 2 si illustra la piattaforma disponibile 20 sia come servizio SaaS che come piattaforma PaaS ove ? possibile verificare correttezza e completezza dei dati acquisiti semplicemente scattando una fotografia tramite cellulare o Tablet ed inviare copia del documento per richiederne la validazione evitando errori come l?utilizzo di un modello vecchio non pi? valido, la mancanza o incongruenza delle informazioni necessarie alla validazione della pratica, etc. La piattaforma ? in grado, inoltre, di supportare sistemi di autenticazione forte a due fattori, cos? da garantire il massimo della riservatezza dei dati che viaggeranno sempre attraverso canali criptati tra il sistema di acquisizione e i server che elaborano i dati, rispettando cos? i requisiti di compliance al GDPR by default.
Per gli utenti che intendono avvalersi del modello completamente digitale, ? possibile acquisire le informazioni direttamente tramite app mediante l?utilizzo di una procedura guidata, eliminando la necessit? di archiviare i supporti cartacei digitalizzati. I dati acquisiti nel modello possono poi essere firmati digitalmente con firma elettronica qualificata ed essere utilizzati, archiviati e/o trasmessi secondo quanto previsto dalla vigente normativa riducendo costi di gestione e minimizzando i tempi.
La presente invenzione ? stata descritta a titolo illustrativo, ma non limitativo, secondo sue forme preferite di realizzazione, ma ? da intendersi che variazioni e/o modifiche potranno essere apportate dagli esperti nel ramo senza per questo uscire dal relativo ambito di protezione, come definito dalle rivendicazioni allegate.

Claims (4)

Rivendicazioni
1. Metodo di acquisizione digitale documenti cartacei comprendenti le seguenti fasi: digitalizzazione delle informazioni necessarie; trasformazione del processo per semplificazioni; introduzione della logica di automazione; alta disponibilit? del dato: acquisizione nuovi dati, ricerca dati in archivio, indicizzazione ed uso dei dati per il business; misura del risultato ed ? (10) caratterizzato dal fatto che i documenti acquisiti sono corretti se presentano errori di conversione dall?utente stesso o dalla memoria del sistema che presenta nel suo archivio file medesimi accertati o con grado di affidabilit? maggiore.
2. Metodo secondo rivendicazione precedente, caratterizzato dalla fase di computer Vision che riconosce il tipo di documento e ne fa una prima classificazione definendo il tipo ed il modello di riconoscimento da utilizzare per l?analisi approfondita se il documento non avesse gradi di similarit? accettabili con quelli presentati al sistema, questo procede alla segnalazione dello scarto e alla richiesta di creazione di un nuovo modello da parte delle figure di data Scientist affinch? in caso si ripeta la ricezione di un documento similare il sistema sia in grado di riconoscere in autonomia il file.
3. Metodo secondo rivendicazione precedente, caratterizzato da una fase di apprendimento continuo basato su grammatiche generative di dati sintetici avendo a disposizione un modello PDF di tipo A del documento da riconoscere, nel quale vengono riempite tutte le aree dedicate a contenere informazioni con dati di fantasia ma coerenti con il tipo di dato atteso (una data nello spazio dove ? prevista una data, un codice fiscale dove ? previsto un codice fiscale, una stringa, un numero, etc.); disponendo a questo punto del modello cognitivo in grado di riconoscere il documento e di etichettare le informazioni in esso contenute il documento viene sottoposto ad una seconda fase per l?estrazione delle informazioni e quindi dopo aver riconosciuto il tipo di documento ed averlo classificato, si passa all?estrazione delle informazioni di rilievo per poi presentarle all?utente all?interno di un PDF-A associato univocamente alla scansione.
4. Sistema di acquisizione digitale documenti cartacei (10.20) comprendente:
- una interfaccia di cooperazione applicativa in grado di comunicare con fonti dati esterne che possono fornire contenuto informativo come fotocamere, videocamere, sensori IOT e Scanner;
- Un componente di Visione Artificiale in grado di classificare immagini in base al loro contenuto e riconoscere documenti di ogni tipologia.
- Un motore di intelligenza artificiale in grado di estrarre mediante tecniche di OCR, ICR e Deep Learning le informazioni contenute nei documenti;
- Un motore di workflow management che analizzando le informazioni estratte e la sorgente emittente ? in grado di assimilare i documenti ad una generica pratica e quindi applicare le profilabili regole di validazione. Il motore di workflow inoltre ? in grado di far collaborare pi? attori del processo notificando eventuali omissioni o errori sui dati e automatizzando il pi? possibile l?elaborazione delle pratiche;
- Un sistema di ?Robotic Process Automation? che ? in grado di svolgere i compiti di ?data entry? o ?data retriving? prima svolti dall?essere umano in modalit? automatizzata;
- Un sistema di addestramento dei sistemi informatici che partendo dai dati sia in grado di costruire un modello di interpretazione delle immagini che gli vengono sottoposte tramite una opportuna sezione di training.
IT102021000016208A 2021-06-21 2021-06-21 Metodo e sistema di acquisizione digitale documenti cartacei IT202100016208A1 (it)

Priority Applications (1)

Application Number Priority Date Filing Date Title
IT102021000016208A IT202100016208A1 (it) 2021-06-21 2021-06-21 Metodo e sistema di acquisizione digitale documenti cartacei

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102021000016208A IT202100016208A1 (it) 2021-06-21 2021-06-21 Metodo e sistema di acquisizione digitale documenti cartacei

Publications (1)

Publication Number Publication Date
IT202100016208A1 true IT202100016208A1 (it) 2022-12-21

Family

ID=77801962

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102021000016208A IT202100016208A1 (it) 2021-06-21 2021-06-21 Metodo e sistema di acquisizione digitale documenti cartacei

Country Status (1)

Country Link
IT (1) IT202100016208A1 (it)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060268352A1 (en) 2005-05-24 2006-11-30 Yoshinobu Tanigawa Digitized document archiving system
US20090119296A1 (en) * 2007-11-06 2009-05-07 Copanion, Inc. Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category
US20200110930A1 (en) * 2017-11-13 2020-04-09 Way2Vat Ltd. Systems and methods for neuronal visual-linguistic data retrieval from an imaged document
US20210124919A1 (en) * 2019-10-29 2021-04-29 Woolly Labs, Inc., DBA Vouched System and Methods for Authentication of Documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060268352A1 (en) 2005-05-24 2006-11-30 Yoshinobu Tanigawa Digitized document archiving system
US20090119296A1 (en) * 2007-11-06 2009-05-07 Copanion, Inc. Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category
US20200110930A1 (en) * 2017-11-13 2020-04-09 Way2Vat Ltd. Systems and methods for neuronal visual-linguistic data retrieval from an imaged document
US20210124919A1 (en) * 2019-10-29 2021-04-29 Woolly Labs, Inc., DBA Vouched System and Methods for Authentication of Documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAGY G: "TWENTY YEARS OF DOCUMENT IMAGE ANALYSIS IN PAMI", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 22, no. 1, January 2000 (2000-01-01), pages 38 - 62, XP000936789, ISSN: 0162-8828, DOI: 10.1109/34.824820 *

Similar Documents

Publication Publication Date Title
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN105190645B (zh) 将先前手写实例用于手写美化和其他应用
CN112860848B (zh) 信息检索方法、装置、设备及介质
CN112862024B (zh) 一种文本识别方法及系统
WO2021174695A1 (zh) 基于机器学习的药物识别方法及相关设备
CN112883980B (zh) 一种数据处理方法及系统
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
LU93381B1 (en) Systems, methods and devices for tamper proofing documents and embedding data in a biometric identifier
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN105138886B (zh) 机器人生物体征识别系统
US20230282322A1 (en) System and method for anonymizing medical records
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN116912847A (zh) 一种医学文本识别方法、装置、计算机设备及存储介质
IT202100016208A1 (it) Metodo e sistema di acquisizione digitale documenti cartacei
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
Shoakhmedova et al. Methods of determining fake content using artificial intelligence
CN116311313A (zh) 基于人工智能的病历报告单检测方法、装置、设备及介质
Alsawwaf et al. In your face: Person identification through ratios of distances between facial features
Santosh current trends in image processing and pattern recognition
Shahin et al. Deploying Optical Character Recognition to Improve Material Handling and Processing
CN105718972A (zh) 一种信息智能采集方法
CN111291726A (zh) 医疗票据分拣方法、装置、设备和介质
Saxena et al. Image tampering forgery detection using convolutional neural network with blockchain
Efriansyah et al. Features Selection in the Proposed Draft Sheet C1 for General Elections in Indonesia
CN114820211B (zh) 理赔资料质检核验方法、装置、计算机设备及存储介质