Patents
Search within the title, abstract, claims, or full patent document: You can restrict your search to a specific field using field names.
Use TI= to search in the title, AB= for the abstract, CL= for the claims, or TAC= for all three. For example, TI=(safety belt).
Search by Cooperative Patent Classifications (CPCs): These are commonly used to represent ideas in place of keywords, and can also be entered in a search term box. If you're searching forseat belts, you could also search for B60R22/00 to retrieve documents that mention safety belts or body harnesses. CPC=B60R22 will match documents with exactly this CPC, CPC=B60R22/low matches documents with this CPC or a child classification of this CPC.
Learn MoreKeywords and boolean syntax (USPTO or EPO format): seat belt searches these two words, or their plurals and close synonyms. "seat belt" searches this exact phrase, in order. -seat -belt searches for documents not containing either word.
For searches using boolean logic, the default operator is AND with left associativity. Note: this means safety OR seat belt is searched as (safety OR seat) AND belt. Each word automatically includes plurals and close synonyms. Adjacent words that are implicitly ANDed together, such as (safety belt), are treated as a phrase when generating synonyms.
Learn MoreChemistry searches match terms (trade names, IUPAC names, etc. extracted from the entire document, and processed from .MOL files.)
Substructure (use SSS=) and similarity (use ~) searches are limited to one per search at the top-level AND condition. Exact searches can be used multiple times throughout the search query.
Searching by SMILES or InChi key requires no special syntax. To search by SMARTS, use SMARTS=.
To search for multiple molecules, select "Batch" in the "Type" menu. Enter multiple molecules separated by whitespace or by comma.
Learn MoreSearch specific patents by importing a CSV or list of patent publication or application numbers.
INTELLIGENT SYSTEM AND OPERATIONAL METHOD FOR THE DIGITAL ACQUISITION OF DOCUMENTS WITH CALCULATION OF THE CONFIDENCE RATE AND INTERFACING ON AN INTERACTIVE PORTAL
IT202100031409A1
Italy
- Other languages
Italian - Inventor
Agostino D'agostino Marco D'agostino Rosa Raffaele De Giovandomenico Pierluca Di Aldo Sciamanna
Description
translated from Italian
Descrizione dell?invenzione avente per titolo: Description of the invention with title:
?SISTEMA INTELLIGENTE E METODO OPERATIVO PER L?ACQUISIZIONE DIGITALE DI DOCUMENTI CON CALCOLO DI TASSO DI CONFIDENZA E INTERFACCIAMENTO SU PORTALE INTERATTIVO? ?INTELLIGENT SYSTEM AND OPERATIONAL METHOD FOR THE DIGITAL ACQUISITION OF DOCUMENTS WITH CALCULATION OF THE CONFIDENCE RATE AND INTERFACING ON AN INTERACTIVE PORTAL?
Descrizione Description
Campo della tecnica Field of technology
L?invenzione si riferisce ad un sistema e un metodo associato al sistema per la digitalizzazione di documenti con la distintiva caratteristica di impiegare un sistema di intelligenza artificiale per garantire la massima efficienza, il miglioramento automatico dell?output prodotto e l?estrapolazione e l?organizzazione delle informazioni rilevate in forma pratica e funzionale e di calcolare il tasso di confidenza per ogni campo rilevato. The invention refers to a system and a method associated with the system for the digitization of documents with the distinctive characteristic of using an artificial intelligence system to guarantee maximum efficiency, the automatic improvement of the produced output and the extrapolation and organization of information detected in a practical and functional form and to calculate the confidence rate for each field detected.
Arte nota Known art
Con la proliferazione di fotocamere e software di scansione sui dispositivi mobili, gli utenti caricano spesso una variet? di immagini scansionate di documenti come fatture, passaporti e contratti sui server delle applicazioni sul cloud. Attualmente, gran parte dell?elaborazione di questi documenti ? almeno in parte eseguita manualmente a causa della natura critica delle transazioni coinvolte. Tuttavia, con i recenti progressi nel deep learning per le applicazioni di visione, ? diventato possibile automatizzare ulteriormente questo processo. Il problema rientra nell?ambito dell?estrazione di informazioni dalle immagini ed ? stato un problema di ricerca di lunga data per i ricercatori dell?ambito della visione. With the proliferation of cameras and scanning software on mobile devices, users often upload a variety of of scanned images of documents such as invoices, passports and contracts on cloud application servers. Currently, much of the processing of these documents is at least partly performed manually due to the critical nature of the transactions involved. However, with recent advances in deep learning for vision applications, ? It has become possible to further automate this process. The problem falls within the scope of extracting information from images and is It has been a long-standing research problem for vision researchers.
Gli esseri umani percepiscono i documenti utilizzando una combinazione di segnali visivi e testuali, molti dei quali non vengono catturati dalla maggior parte dei moderni motori OCR (Optical Character Recognition). Inoltre, gli esseri umani attingono anche a conoscenze di base specifiche e universali di dominio, significative per relazionarsi e ragionare su componenti visivi e testuali di un documento. In questo documento, delineiamo una piattaforma di estrazione dei dati da documenti digitalizzati, che incorpora componenti specifici per utilizzare appieno le capacit? di riconoscimento visivo di modelli documentali. Le informazioni nelle immagini fornite possono essere estratte ed inserite nel sistema software. Questo ? tipicamente eseguito dagli esseri umani. Tuttavia, questo ? un compito noioso e costoso e soggetto ad errori, quindi una soluzione automatizzata sarebbe di grande beneficio. Humans perceive documents using a combination of visual and textual cues, many of which are not captured by most modern Optical Character Recognition (OCR) engines. Furthermore, humans also draw on domain-specific and universal background knowledge that is meaningful for relating to and reasoning about visual and textual components of a document. In this paper, we outline a platform for extracting data from digitized documents, which incorporates specific components to fully utilize the capabilities of the document. of visual recognition of document models. The information in the provided images can be extracted and inserted into the software system. This ? typically performed by humans. However, this ? a tedious and expensive task and prone to errors, so an automated solution would be of great benefit.
Un compito importante di un?analisi documentale ? la classificazione dei documenti, ovvero determinare a quale tipo di processo aziendale si riferisce il documento in esame. Tipiche classi di documenti sono fattura, carta d?identit?, cambio di indirizzo o reclamo, ecc. Gli approcci di classificazione dei documenti possono essere raggruppati in approcci basati su immagini e contenuti. Quale approccio ? pi? adatto spesso dipende dai documenti elaborati dall?utente. I documenti in formato libero, come le normali lettere, normalmente richiedono una classificazione basata sul contenuto, mentre i moduli che contengono lo stesso testo in layout diversi possono essere distinti da approcci basati su immagini. L?output dei documenti scansionati dipende dalla qualit? delle copie scansionate. Mantenere la qualit? dei documenti ? una delle preoccupazioni principali. I documenti possono contenere rumore di fondo a causa della riservatezza dei dati. Per il denoising sono disponibili diversi modelli di rete neurale. Pertanto, l?invenzione di un sistema di rilevamento e categorizzazione dei dati digitali porterebbe a un grande efficientamento dell?intero processo di digitalizzazione di informazioni. An important task of a?documentary analysis? the classification of documents, i.e. determining which type of business process the document in question refers to. Typical document classes are invoice, identity card, change of address or complaint, etc. Document classification approaches can be grouped into image-based and content-based approaches. What approach? more? Suitability often depends on the documents processed by the user. Free-form documents, such as regular letters, typically require content-based classification, while forms containing the same text in different layouts can be distinguished by image-based approaches. The output of scanned documents depends on the quality of scanned copies. Maintain quality? any documents? one of the main concerns. Documents may contain background noise due to data sensitivity. There are several neural network models available for denoising. Therefore, the invention of a system for detecting and categorizing digital data would lead to a great increase in efficiency of the entire information digitization process.
Parlando di privative, sono presenti sul mercato molteplici software dedicati alla digitalizzazione di documenti. Ad oggi, la digitalizzazione di informazioni per aziende, imprese o enti analoghi, prende atto con l?impiego di dispositivi e metodi, che sfruttano l?OCR. ? perci? opportuno che nel processo di digitalizzazione di informazioni venga impiegata una tecnologia intelligente che migliori con l?impiego per raggiungere il massimo dell?efficienza. Speaking of proprietary rights, there are many software products on the market dedicated to the digitization of documents. To date, the digitization of information for companies, businesses or similar entities takes place with the use of devices and methods that exploit OCR. ? why? It is advisable that intelligent technology is used in the information digitization process that improves with use to achieve maximum efficiency.
L?invenzione coperta dal brevetto KR20180124528, si riferisce a un sistema di digitalizzazione e a un metodo per digitalizzare i record non elettronici con una migliore verifica ed efficienza di correzione. La stessa mira a garantire la verifica dell?output prodotto tramite un sistema atto a eseguire una duplice scansione di documenti, con la seconda scansione atta a verificare l?esattezza della prima. L?invenzione, pur garantendo una maggiore esattezza dell?output prodotto dal sistema di digitalizzazione, non pu? raggiungere il massimo dell?efficienza, ma soprattutto non include n? una funzionalit? di organizzazione e categorizzazione delle informazioni rilevate in maniera pratica e funzionale al cliente, n? un?interfaccia che permetta al cliente di manipolarle. The invention covered by patent KR20180124528, refers to a digitization system and a method for digitizing non-electronic records with improved verification and correction efficiency. The same aims to guarantee the verification of the output produced through a system capable of performing a double scan of documents, with the second scan capable of verifying the accuracy of the first. The invention, while guaranteeing greater accuracy of the output produced by the digitization system, cannot achieve maximum efficiency, but above all it does not include n? a feature? of organization and categorization of the information collected in a practical and functional way for the customer, n? an interface that allows the customer to manipulate them.
Parlando di privative per sistemi che sfruttano l?intelligenza artificiale, ed in particolare la tecnica della Computer Vision, l?invenzione coperta dal brevetto CN112101336 riguarda una modalit? di acquisizione dati intelligente basata sulla Computer Vision che sfrutta un algoritmo di corrispondenza delle caratteristiche dell?immagine per localizzare un?area di caratteri che deve essere acquisita in un?immagine e, successivamente, utilizza un algoritmo crnn per identificare i caratteri stessi. La stessa invenzione ? tuttavia concepita con l?utilizzo per la raccolta dei dati nei siti di produzione industriale. Il processo di digitalizzazione di documenti richiede una precisione ed un?efficienza di analisi molto pi? elevata, caratteristiche che non sono sufficientemente riscontrate nell?invenzione appena citata. Speaking of patents for systems that exploit artificial intelligence, and in particular the Computer Vision technique, the invention covered by patent CN112101336 concerns a modality? of intelligent data acquisition based on Computer Vision which uses an image feature matching algorithm to locate an area of characters that must be acquired in an image and, subsequently, uses a crnn algorithm to identify the characters themselves. The same invention? However, it was designed for use in data collection at industrial production sites. The document digitization process requires much greater precision and efficiency of analysis. high, characteristics which are not sufficiently found in the invention just mentioned.
Ulteriormente, l?invenzione coperta dal brevetto CN111680490A fornisce un metodo e un dispositivo di elaborazione cross-modali di documenti e un?apparecchiatura elettronica correlata. Il metodo comprende le fasi di ottenere dati modali di testo e dati modali di immagine di un primo documento; convertire i dati modali di testo in un vettore di incorporamento di caratteristiche di parola e frase basato su un modello di elaborazione del linguaggio naturale ed estrarre una prima caratteristica di elemento di testo secondo i dati modali di testo; basato su un algoritmo di visione artificiale, attraverso un algoritmo di rilevamento del bersaglio e un algoritmo di riconoscimento ottico dei caratteri, posizionamento di una posizione di destinazione, riconoscimento del contenuto del testo del primo documento, estrazione delle caratteristiche del secondo elemento di testo in base ai dati modali dell?immagine ed esecuzione dell?allineamento degli elementi per ottenere caratteristiche del primo documento; e quindi ottenere un modello grafico di meta-conoscenza che comprende la rappresentazione del primo documento in combinazione con le caratteristiche strutturali e la rappresentazione incorporata delle caratteristiche multidimensionali del documento. Sulla base di ci?, il contenuto testuale del documento viene convertito nel modello grafico della metaconoscenza, in modo che l?apparecchiatura elettronica possa identificare e comprendere il contenuto del documento in modo pi? completo utilizzando il modello grafico della meta-conoscenza. Further, the invention covered by patent CN111680490A provides a cross-modal document processing method and device and related electronic apparatus. The method includes the steps of obtaining text modal data and image modal data of a first document; converting the text modal data into a word and sentence feature embedding vector based on a natural language processing model and extracting a first text element feature according to the text modal data; based on a computer vision algorithm, through a target detection algorithm and an optical character recognition algorithm, positioning a target position, recognizing the text content of the first document, extracting the features of the second text element based to the modal data of the image and performing the alignment of the elements to obtain characteristics of the first document; and then obtain a meta-knowledge graph model that includes the representation of the first document in combination with the structural features and the embedded representation of the multidimensional characteristics of the document. Based on this, the textual content of the document is converted into the graphical model of metaknowledge, so that the electronic equipment can identify and understand the content of the document more easily. complete using the meta-knowledge graph model.
Il brevetto sopra citato, utilizzando un modello grafico di meta-conoscenza, sfrutta un sistema di intelligenza artificiale orientato all?analisi del contenuto del testo concentrandosi sul significato che il testo stesso esprime. Nel caso oggetto della presente invenzione, l?estrazione delle informazioni ? di tipo sia qualitativo che quantitativo, ovvero non sono interpretate le informazioni estratte, ma riconosciute sintatticamente e semanticamente utilizzando modelli documentali utilizzati in tipiche attivit? di back-office. The patent cited above, using a graphical meta-knowledge model, exploits an artificial intelligence system oriented towards the analysis of the content of the text by focusing on the meaning that the text itself expresses. In the case covered by the present invention, the extraction of information is both qualitative and quantitative, i.e. the information extracted is not interpreted, but recognized syntactically and semantically using documentary models used in typical activities? back office.
Lo scopo della presente invenzione ? quindi quello di inserire sul mercato un metodo pi? efficiente per la digitalizzazione di documenti, che impiega un software intelligente che utilizzi tecniche di intelligenza artificiale e sfrutti specifici modelli documentali utilizzati nelle attivit? di back-office per raggiungere la massima efficienza nel rilevare, catalogare e organizzare le informazioni contenute in documenti cartacei, tabelle, email e calcolare un tasso di confidenza, ovvero un valore percentuale che indica il valore di attendibilit? di quanto riconosciuto dal sistema, che permetta ad un operatore di intervenire in caso il sistema si mostri poco attendibile e al sistema stesso di evolversi a seconda delle esigenze del cliente. The purpose of the present invention? therefore to introduce a more effective method onto the market? efficient for the digitization of documents, which uses intelligent software that uses artificial intelligence techniques and exploits specific document models used in activities? back-office to achieve maximum efficiency in detecting, cataloging and organizing the information contained in paper documents, tables, emails and calculating a confidence rate, i.e. a percentage value that indicates the reliability value? of what is recognized by the system, which allows an operator to intervene if the system proves unreliable and for the system itself to evolve according to the customer's needs.
Descrizione dell?invenzione Description of the invention
Secondo la presente invenzione viene realizzato un sistema intelligente e metodo operativo per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo che risolve efficacemente le problematiche suesposte. According to the present invention, an intelligent system and operating method for the digital acquisition of documents with confidence rate calculation and interfacing on an interactive portal is created which effectively solves the above problems.
Ad oggi, le tecniche di intelligenza artificiale hanno permesso di realizzare un sistema intelligente in grado di funzionare autonomamente e di simulare il comportamento della mente umana, supportato da strumenti di advanced analytics (machine learning, deep learning, reinforced learning) in grado di gestire grandi volumi di dati provenienti da molteplici fonti. To date, artificial intelligence techniques have made it possible to create an intelligent system capable of functioning autonomously and simulating the behavior of the human mind, supported by advanced analytics tools (machine learning, deep learning, reinforced learning) capable of managing large volumes of data from multiple sources.
? stata vista, quindi, la progettazione, realizzazione e validazione del detto sistema intelligente e metodo operativo per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo con oggetto l?efficientamento delle prestazioni del processo di erogazione del servizio di acquisizione digitale dei documenti, con l?obiettivo di agevolare la trasformazione di tutte le lavorazioni aziendali operative, sfruttando le componenti tecnologiche intelligenti per traguardare obiettivi di efficienza e di saving richiesti dal mercato. Il detto sistema intelligente comprende gli elementi elencati qui di seguito: ? Therefore, the design, implementation and validation of the said intelligent system and operating method for the digital acquisition of documents with confidence rate calculation and interfacing on an interactive portal with the object of improving the efficiency of the performance of the process of providing the security service was seen. digital acquisition of documents, with the aim of facilitating the transformation of all operational company processes, exploiting intelligent technological components to achieve efficiency and saving objectives required by the market. This intelligent system includes the elements listed below:
- un motore di acquisizione immagini, atto all?acquisizione di immagini da sorgenti multiple (scansioni, flussi digitali, etc.) implementante logiche OCR; - an image acquisition engine, suitable for acquiring images from multiple sources (scans, digital flows, etc.) implementing OCR logic;
- un sito di SharePoint, atto a raccogliere e interfacciare i dati interpretati, utile alla gestione dei flussi di lavoro operativi e personalizzabile; - a SharePoint site, designed to collect and interface the interpreted data, useful for managing operational workflows and customizable;
- un motore di post-processamento, atto a ricevere le letture di detto software di orchestrazione e ad occuparsi della pulizia e del raffinamento dei dati; - un database relazionale, atto all?archiviazione dei dati ed informazioni estratte; - a post-processing engine, capable of receiving the readings of said orchestration software and taking care of cleaning and refining the data; - a relational database, suitable for archiving data and extracted information;
- un software di orchestrazione, atto alla gestione dei componenti di detto sistema intelligente. - an orchestration software, suitable for managing the components of said intelligent system.
Detto sistema sfrutta le tecnologie incorporate nei seguenti sistemi: This system exploits the technologies incorporated in the following systems:
- un sistema di intelligenza artificiale, basato su tecniche di computer vision, machine learning, deep learning e reinforced learning, atto ad analizzare, interpretare, classificare ed elaborare i dati contenuti in detti documenti, che implementa specifici modelli documentali ognuno definito da specifiche informazioni ed eventuali informazioni spaziali; - an artificial intelligence system, based on computer vision, machine learning, deep learning and reinforced learning techniques, capable of analysing, interpreting, classifying and processing the data contained in said documents, which implements specific document models, each defined by specific information and any spatial information;
- sistema di automazione processo, basato su tecnologie di robot process automation (RPA) e di cooperazione applicativa. - process automation system, based on robot process automation (RPA) and application cooperation technologies.
Detto sistema produce come output almeno i seguenti dati relativi al documento acquisito: This system produces as output at least the following data relating to the acquired document:
- il tipo di documento; - the type of document;
- il nome del campo: identificativo dell?informazione contenuta nel campo analizzato; - the name of the field: identifier of the information contained in the analyzed field;
- il valore del campo: identificativo del contenuto del campo analizzato; - il tasso di confidenza, attribuito ad ogni detto valore: grandezza percentuale attribuita da detto sistema di intelligenza artificiale che indica il valore di attendibilit? di quanto riconosciuto dal sistema intelligente. - the value of the field: identifier of the content of the analyzed field; - the confidence rate, attributed to each said value: percentage quantity attributed by said artificial intelligence system which indicates the reliability value? than recognized by the intelligent system.
Detto sistema intelligente e metodo operativo per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo non solo ? utile alla digitalizzazione delle informazioni contenute nei documenti in maniera efficiente ed intelligente, ma le estrapola, le organizza e le restituisce al cliente in forma pratica e funzionale sfruttando detto sistema di intelligenza artificiale. Esso si avvale delle seguenti tecniche intelligenti: Said intelligent system and operating method for the digital acquisition of documents with confidence rate calculation and interfacing on an interactive portal is not only useful for digitizing the information contained in documents in an efficient and intelligent way, but extrapolates it, organizes it and returns it to the customer in a practical and functional form by exploiting this artificial intelligence system. It uses the following intelligent techniques:
- modelli e algoritmi di rilevamento nell?ambito del computer vision, atti al riconoscimento dei caratteri in formato machine readable e all?identificazione automatica di oggetti e concetti rilevanti presenti nelle immagini sottoposte al sistema intelligente; - detection models and algorithms in the field of computer vision, suitable for the recognition of characters in machine readable format and the automatic identification of relevant objects and concepts present in the images submitted to the intelligent system;
- modelli e algoritmi di natural language processing (NLP) di apprendimento, una tecnica di trattamento informatico del linguaggio naturale, ampiamente utilizzata in vari campi, e, nel caso del detto sistema intelligente, atta alla classificazione dei dati, alla loro interpretazione semantica, e al miglioramento e alla correzione intelligente dei processi di acquisizione digitale dei documenti. - natural language processing (NLP) learning models and algorithms, a computer processing technique of natural language, widely used in various fields, and, in the case of the said intelligent system, suitable for data classification, their semantic interpretation, and to the improvement and intelligent correction of digital document capture processes.
In particolare, sono utilizzate le seguenti comuni tecniche intelligenti: In particular, the following common intelligent techniques are used:
- machine learning, atte a creare sistemi che apprendono in modo automatico e migliorano le loro prestazioni in base ai dati che utilizzano; - machine learning, aimed at creating systems that learn automatically and improve their performance based on the data they use;
- deep learning, atte all?addestramento dei modelli utilizzando grandi set di dati etichettati e architetture di reti neurali in grado di apprendere le feature direttamente dai dati senza la necessit? di estrarle manualmente; - deep learning, suitable for training models using large labeled data sets and neural network architectures capable of learning features directly from the data without the need for to extract them manually;
- reinforced learning, atte all?addestramento di modelli di apprendimento automatico per prendere una sequenza di decisioni. - reinforced learning, suitable for training automatic learning models to make a sequence of decisions.
All?interno di database relazionale ? archiviata, sotto forma di file json, una struttura di metadati relativa a specifici modelli documentali. Sono i modelli documentali che forniscono un termine di paragone a detto sistema di intelligenza artificiale per garantire che l?informazione sia interpretata al meglio. I detti modelli documentali sono i seguenti: Inside a relational database? stored, in the form of a json file, a metadata structure relating to specific document models. It is the documentary models that provide a point of comparison to this artificial intelligence system to ensure that the information is interpreted in the best possible way. The said documentary models are the following:
- gestione della fase di estinzione rapporto delle pratiche di successione; - gestione delle informazioni coinvolte nelle operazioni sia di chiusura di rapporto con la clientela che della nuova entrata in relazione della nuova clientela del cliente; - management of the relationship settlement phase of succession practices; - management of the information involved in the operations of both closing the relationship with the customers and the new entry into the relationship of the customer's new customers;
- gestione delle informazioni coinvolte nelle operazioni di pignoramento di un rapporto di conto corrente; - management of the information involved in the seizure operations of a current account relationship;
- gestione dello scambio di informazioni coinvolte nello sviluppo delle anomalie documentali durante le operazioni di gestione ed esecuzione di bonifici esteri; - management of the exchange of information involved in the development of documentary anomalies during the management and execution of foreign bank transfers;
- gestione delle informazioni coinvolte nella gestione di anomalie/richieste di supporto da parte della clientela. - management of information involved in the management of anomalies/support requests from customers.
Una volta ottenuti i dati finali detto sistema intelligente sfrutta le seguenti tecnologie automatizzate incorporate in detto sistema di automazione processo, per i seguenti scopi: Once the final data has been obtained, the intelligent system exploits the following automated technologies incorporated into the process automation system, for the following purposes:
- una piattaforma software di RPA atta all?automazione di attivit? di scambio e integrazione di dati tra sistemi eterogenei, nonch? alla gestione delle anomalie e richieste di supporto da parte della clientela; - an RPA software platform suitable for the automation of activities? of data exchange and integration between heterogeneous systems, as well as? the management of anomalies and support requests from customers;
- una piattaforma di integrazione di sistema atta alla migrazione, trasformazione ed integrazione di dati tra sorgenti e destinazioni multiple. Tra gli altri componenti caratterizzanti detto sistema intelligente, il motore di acquisizione immagini si occupa di scannerizzare ed ottenere immagini di documenti tramite un apposito dispositivo. Le immagini ottenute vengono poi salvate nella raccolta del sito di SharePoint e archiviate nel database relazionale. Il software di orchestrazione provvede ad eseguire le seguenti funzioni: - a system integration platform suitable for the migration, transformation and integration of data between multiple sources and destinations. Among the other components characterizing this intelligent system, the image acquisition engine is responsible for scanning and obtaining images of documents using a special device. The resulting images are then saved to the SharePoint site library and stored in the relational database. The orchestration software performs the following functions:
- estrarre ogni documento non lavorato dalla raccolta delle immagini archiviate nel database relazionale; - extract each unprocessed document from the collection of images stored in the relational database;
- rendere disponibile ogni documento estratto al sistema di intelligenza artificiale; - make each extracted document available to the artificial intelligence system;
- estrarre la risposta del sistema di intelligenza artificiale nella forma di un vettore json contenente i dati letti; - extract the response of the artificial intelligence system in the form of a json vector containing the read data;
- rendere disponibili i dati letti al motore di post-processamento. - make the read data available to the post-processing engine.
Il motore di post-processamento agisce sui dati secondo i seguenti criteri: The post-processing engine acts on the data according to the following criteria:
- viene effettuata una pulizia generale, eliminando segni di interpunzione prima e dopo i testi informativi; - a general cleaning is carried out, eliminating punctuation marks before and after the information texts;
- i dati vengono controllati e le informazioni mancanti o incerte sono corrette da una pluralit? di algoritmi di post-processamento; - the data are checked and missing or uncertain information is corrected by a plurality? of post-processing algorithms;
- i dati processati vengono archiviati nel database relazionale sotto forma di file json revisionati. - the processed data is stored in the relational database in the form of revised json files.
Tutti i dati ottenuti e archiviati sul database relazionale sono accessibile dal sito di SharePoint, il quale ha il compito di dispensare almeno i seguenti servizi: All the data obtained and stored on the relational database is accessible from the SharePoint site, which has the task of providing at least the following services:
- la ricerca di informazioni; - searching for information;
- un?interfaccia di modifica atta alla verifica e la revisione manuale dei documenti digitalizzati; - an editing interface suitable for manual verification and review of digitized documents;
- una funzione rapporti, mostrante statistiche e grafici sulle informazioni estrapolate; - a reporting function, showing statistics and graphs on the extrapolated information;
- la condivisione dei dati ottenuti; - sharing the data obtained;
con gli stessi servizi eseguiti automaticamente tramite l?impiego del sistema di automazione processo. with the same services performed automatically through the use of the process automation system.
Gli elementi e le tecnologie caratterizzanti il detto sistema intelligente seguono un preciso metodo operativo caratterizzato dalle seguenti fasi: The elements and technologies characterizing the said intelligent system follow a precise operating method characterized by the following phases:
- fase di ricevimento e digitalizzazione: le informazioni e i documenti, attraverso canale telematico o cartaceo, vengono scannerizzati tramite dette logiche OCR e immagazzinati in detto sito di SharePoint, di conseguenza, memorizzati come immagini; - reception and digitization phase: the information and documents, via electronic or paper channels, are scanned using said OCR logics and stored on said SharePoint site, consequently stored as images;
- fase di classificazione: il sistema di intelligenza artificiale sfrutta dette tecniche di computer vision per identificare il tipo di documento digitalizzato fra le classi di documenti contenute in detti modelli documentali. In caso non sia riconosciuto il documento prosegue alla fase di interpretazione senza che il tipo di documento sia identificato; - classification phase: the artificial intelligence system exploits these computer vision techniques to identify the type of digitized document among the classes of documents contained in said document models. If it is not recognised, the document continues to the interpretation phase without the type of document being identified;
- fase di interpretazione (individuazione informazioni rilevanti): tramite tecniche di NLP, appartenenti a detto sistema di intelligenza artificiale, le informazioni contenute nelle specifiche classi di documenti vengono interpretate e, di conseguenza, sono estratti i dati rilevanti per il processo ed ? assegnato un tasso di confidenza ad ogni valore interpretato; - interpretation phase (identification of relevant information): through NLP techniques, belonging to said artificial intelligence system, the information contained in the specific classes of documents are interpreted and, consequently, the data relevant for the process are extracted and ? assigned a confidence rate to each interpreted value;
- fase di post-processamento: tramite motore di post-processamento vengono fatte eventuali correzioni; - post-processing phase: any corrections are made via the post-processing engine;
- fase di validazione: detti documenti interpretati vengono verificati ed eventualmente revisionati da operatori addetti attraverso un?interfaccia di modifica su detto sito di SharePoint e memorizzati in detto database relazionale; - validation phase: said interpreted documents are verified and possibly revised by assigned operators through an editing interface on said SharePoint site and stored in said relational database;
- fase di cooperazione applicativa: in cui i dati estratti dai documenti ed interpretati vengono inseriti all?interno di portali web sfruttando funzionalit? di cooperazione applicativa ed interoperabilit? realizzate tramite detto sistema di automazione processo. - application cooperation phase: in which the data extracted from documents and interpreted are inserted into web portals using functionalities? of application cooperation and interoperability? carried out via said process automation system.
Importante caratteristica di detto sistema intelligente ? l?assegnazione di un tasso di confidenza ad ogni valore del campo interpretato, ovvero un quantitativo percentuale che indica il valore di attendibilit? di quanto riconosciuto dal sistema intelligente. Il detto tasso di confidenza ? utile alla massimizzazione dell?output di riconoscimento, dal momento che se viene rilevata un?informazione con un tasso di confidenza sottostante ad una soglia prestabilita, essa viene supervisionata e corretta manualmente. Inoltre, in questo modo il detto sistema di intelligenza artificiale ? in grado di riconoscere l?errore di rilevamento e, di conseguenza, tramite dette tecniche di machine learning, deep learning e reinforced learning, evitare che lo stesso errore si ripeta. Important feature of said intelligent system? the assignment of a confidence rate to each value of the interpreted field, i.e. a percentage quantity that indicates the reliability value? than recognized by the intelligent system. The said confidence rate? useful for maximizing the recognition output, since if information is detected with a confidence rate below a pre-established threshold, it is supervised and corrected manually. Furthermore, in this way the said artificial intelligence system? able to recognize the detection error and, consequently, through these machine learning, deep learning and reinforced learning techniques, prevent the same error from repeating.
Il detto tasso di confidenza ? inoltre caratterizzato dal fatto che viene mostrato su detto sito di SharePoint in almeno tre colorazioni diverse, e in una configurazione preferita, segue il seguente criterio: The said confidence rate? further characterized by the fact that it is shown on said SharePoint site in at least three different colors, and in a preferred configuration, it follows the following criterion:
- verde, se sopra il 65%; - green, if above 65%;
- giallo, se tra il 40% e 65%; - yellow, if between 40% and 65%;
- rosso, se inferiore al 40%; - red, if less than 40%;
con detto tasso di confidenza, automaticamente reimpostato da detto sistema di intelligenza artificiale ad un valore di 100% in caso il campo sia modificato da detto operatore. with said confidence rate, automatically reset by said artificial intelligence system to a value of 100% in case the field is modified by said operator.
Detto sito di SharePoint comprende detta interfaccia di modifica ottimizzata che ? strutturata nel seguente modo: Said SharePoint site includes said optimized editing interface that ? structured as follows:
- a sinistra, una lista delle miniature; - on the left, a list of thumbnails;
- al centro, il documento da lavorare, con i caratteri interpretati presenti in riquadri colorati in base a detto tasso di confidenza; - in the centre, the document to be worked on, with the interpreted characters present in colored boxes based on said confidence rate;
- a destra, i campi da correggere ove l?interpretazione sia mancante o non corretta; - on the right, the fields to be corrected where the interpretation is missing or incorrect;
- in alto a destra, dei tasti per filtrare i campi e consentire un inserimento pi? agevole; - at the top right, buttons to filter the fields and allow easier insertion? easy;
- in basso al centro, un comune tasto salva che consente il salvataggio delle modifiche effettuate manualmente. - at the bottom centre, a common save button that allows you to save changes made manually.
Essa ? caratterizzata dal fatto che la sua struttura ? stata realizzata sulla base di un?analisi statistica delle frequenze e dei tempi di completamento delle task svolte da operatori specializzati. It? characterized by the fact that its structure is was created on the basis of a statistical analysis of the frequencies and completion times of the tasks carried out by specialized operators.
Il detto sistema intelligente ? perci? in grado di ricevere e analizzare informazioni contenute in almeno le seguenti forme: The said intelligent system? why? capable of receiving and analyzing information contained in at least the following forms:
- testi, email e allegati; - texts, emails and attachments;
- documenti in PDF; - documents in PDF;
- documenti di acquisizione mobile; - mobile acquisition documents;
- moduli elettronici; - electronic forms;
- flussi di stampa; - print flows;
- documenti d?ufficio; - office documents;
- documenti scansionati; - scanned documents;
le cui informazioni estratto sono elaborate, catalogate e organizzate eseguendo automaticamente almeno le seguenti funzioni: whose extracted information is processed, cataloged and organized by automatically performing at least the following functions:
- automazione del processo; - process automation;
- indicizzazione intelligente; - intelligent indexing;
- modifica delle immagini; - image editing;
- arricchimento dei dati; - data enrichment;
- flusso di lavoro mobile; - mobile workflow;
- routing basato su regole; - rule-based routing;
- classificazione dei documenti; - classification of documents;
- gestione delle eccezioni; - exception management;
- interoperabilit? tra sistemi. - interoperability? between systems.
Un potenziale cliente, sfruttando le sopra elencate caratteristiche di detto sistema intelligente e metodo operativo per la l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo, ? in grado di trasferire su una vera e propria piattaforma digitale la documentazione e le pratiche riguardanti la propria azienda, in maniera efficiente, precisa e conveniente, e viene inoltre fornito di un mezzo multifunzionale per la gestione dei documenti stessi e delle informazioni contenute. ? sfruttato infatti un dispositivo di digitalizzazione, atto a efficientare le prestazioni del processo di erogazione del servizio di acquisizione digitale dei documenti. Esso ? caratterizzato dal fatto di comprendere una memoria e un processore accoppiati tra loro, con un programma per il computer memorizzato in detta memoria. In particolare, il programma comprende unit? gli elementi costituenti il sistema intelligente per l?acquisizione digitale di documenti e, quando eseguito dal processore, esegue il metodo operativo. Entrambi il sistema e il metodo sono perci? memorizzati nella memoria del dispositivo. Fanno inoltre parte del dispositivo le seguenti unit? operative: A potential customer, taking advantage of the above-listed characteristics of this intelligent system and operating method for the digital acquisition of documents with confidence rate calculation and interfacing on an interactive portal, is capable of transferring the documentation and practices relating to your company to a truly digital platform in an efficient, precise and convenient manner, and is also provided with a multifunctional means for managing the documents themselves and the information contained. ? in fact, a digitization device was used, aimed at streamlining the performance of the process of providing the digital document acquisition service. It ? characterized in that it comprises a memory and a processor coupled together, with a computer program stored in said memory. In particular, does the program include units? the elements constituting the intelligent system for the digital acquisition of documents and, when executed by the processor, executes the operating method. Both the system and the method are therefore? stored in the device memory. Are the following units also part of the device? operational:
- un?unit? di acquisizione immagini, impiegante motore di acquisizione immagini; - a?unit? image acquisition, using image acquisition engine;
- un?unit? di estrazione ed interpretazione dati, impiegante i modelli e gli algoritmi caratteristici del sistema di intelligenza artificiale; - a?unit? data extraction and interpretation, using the models and algorithms characteristic of the artificial intelligence system;
- un?unit? di orchestrazione, implementante il software di orchestrazione; - un?unit? di post-processamento, implementante il motore di postprocessamento; - a?unit? orchestration, implementing the orchestration software; - a?unit? post-processing, implementing the post-processing engine;
- un?unit? di interfacciamento, implementante il sito di sharepoint 20. I vantaggi offerti dalla presente invenzione sono evidenti alla luce della descrizione fin qui esposta e saranno ancora pi? chiari grazie alle figure annesse e alla relativa descrizione dettagliata. - a?unit? of interfacing, implementing the sharepoint 20 site. The advantages offered by the present invention are evident in the light of the description presented so far and will be even more clear thanks to the attached figures and the related detailed description.
Descrizione delle figure Description of the figures
L?invenzione verr? qui di seguito descritta in almeno una forma di realizzazione preferita a titolo esplicativo e non limitativo con l?ausilio delle figure annesse, nelle quali: The invention will come described below in at least one preferred embodiment for explanatory and non-limiting purposes with the aid of the attached figures, in which:
- FIGURA 1: mostra i componenti fondamentali che costituiscono detto sistema intelligente 100 e le interazioni fra di essi; - FIGURE 1: shows the fundamental components that constitute said intelligent system 100 and the interactions between them;
- FIGURA 2: mostra una tabella esemplificativa della struttura di metadati di un modello documentale; - FIGURE 2: shows an example table of the metadata structure of a document model;
- FIGURA 3: mostra un?illustrazione della struttura dell?interfaccia di modifica 300; - FIGURE 3: shows an illustration of the structure of the editing interface 300;
- FIGURA 4: mostra il diagramma di flusso del metodo operativo per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo 400 corrispondente al detto sistema intelligente 100; - FIGURE 4: shows the flow diagram of the operational method for the digital acquisition of documents with confidence rate calculation and interfacing on the interactive portal 400 corresponding to the said intelligent system 100;
- FIGURA 5: mostra uno schema illustrante una preferibile configurazione del dispositivo di digitalizzazione 200. - FIGURE 5: shows a diagram illustrating a preferable configuration of the digitizing device 200.
Descrizione dettagliata dell?invenzione Detailed description of the invention
La presente invenzione verr? ora illustrata a titolo puramente esemplificativo ma non limitativo o vincolante, ricorrendo alle figure le quali illustrano alcune realizzazioni relativamente al presente concetto inventivo. Will this invention come? now illustrated by way of example but not restrictively or bindingly, using the figures which illustrate some embodiments relating to the present inventive concept.
Con riferimento alla FIG. 1 sono mostrati gli elementi che costituiscono il sistema intelligente per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo 100 e le interazioni fra gli stessi. Il detto sistema intelligente 100 comprende gli elementi elencati qui di seguito: With reference to FIG. 1 shows the elements that make up the intelligent system for the digital acquisition of documents with confidence rate calculation and interfacing on the interactive portal 100 and the interactions between them. The said intelligent system 100 includes the elements listed below:
- un motore di acquisizione immagini 10, atto all?acquisizione di immagini da sorgenti multiple (scansioni, flussi digitali, etc.) implementante logiche OCR; - an image acquisition engine 10, suitable for acquiring images from multiple sources (scans, digital flows, etc.) implementing OCR logic;
- un sito di SharePoint 20, atto a raccogliere e interfacciare i dati interpretati, utile alla gestione dei flussi di lavoro operativi e personalizzabile; - a SharePoint 20 site, designed to collect and interface the interpreted data, useful for managing operational workflows and customizable;
- un motore di post-processamento 30, atto a ricevere le letture di detto software di orchestrazione 50 e ad occuparsi della pulizia e del raffinamento dei dati; - a post-processing engine 30, capable of receiving the readings of said orchestration software 50 and taking care of cleaning and refining the data;
- un database relazionale 40, atto all?archiviazione dei dati ed informazioni estratte; - a relational database 40, suitable for archiving the data and extracted information;
- un software di orchestrazione 50, atto alla gestione dei componenti di detto sistema intelligente 100; - an orchestration software 50, suitable for managing the components of said intelligent system 100;
e sfrutta le tecnologie incorporate nei seguenti sistemi: and takes advantage of the technologies incorporated in the following systems:
- un sistema di intelligenza artificiale 60, basato su tecniche di computer vision, machine learning, deep learning e reinforced learning, atto ad analizzare, interpretare, classificare ed elaborare i dati contenuti in detti documenti, che implementa specifici modelli documentali ognuno definito da specifiche informazioni ed eventuali informazioni spaziali; - an artificial intelligence system 60, based on computer vision, machine learning, deep learning and reinforced learning techniques, capable of analysing, interpreting, classifying and processing the data contained in said documents, which implements specific document models, each defined by specific information and any spatial information;
- sistema di automazione processo 70, basato su tecnologie di robot process automation (RPA) e di cooperazione applicativa; - process automation system 70, based on robot process automation (RPA) and application cooperation technologies;
per eseguire una pluralit? di funzioni e fornire una pluralit? di servizi, elencati di seguito. to perform a plurality? of functions and provide a plurality? of services, listed below.
Il detto sistema intelligente 100 ? in grado di ricevere e analizzare informazioni contenute in almeno le seguenti forme: The said intelligent system 100 ? capable of receiving and analyzing information contained in at least the following forms:
- testi, email e allegati; - texts, emails and attachments;
- documenti in PDF; - documents in PDF;
- documenti di acquisizione mobile; - mobile acquisition documents;
- moduli elettronici; - electronic forms;
- flussi di stampa; - print flows;
- documenti d?ufficio; - office documents;
- documenti scansionati; - scanned documents;
e le informazioni estratte sono elaborate, catalogate e organizzate eseguendo automaticamente almeno le seguenti funzioni: and the extracted information is processed, cataloged and organized by automatically performing at least the following functions:
- automazione del processo; - process automation;
- indicizzazione intelligente; - intelligent indexing;
- modifica delle immagini; - image editing;
- arricchimento dei dati; - data enrichment;
- flusso di lavoro mobile; - mobile workflow;
- routing basato su regole; - rule-based routing;
- classificazione dei documenti; - classification of documents;
- gestione delle eccezioni; - exception management;
- interoperabilit? tra sistemi. - interoperability? between systems.
Il sistema intelligente per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo 100 non solo ? utile alla digitalizzazione delle informazioni contenute nei documenti in maniera efficiente ed intelligente, ma le estrapola, le organizza e le restituisce al cliente in forma pratica e funzionale sfruttando detto sistema di intelligenza artificiale 60. Esso si avvale delle seguenti tecniche intelligenti: The intelligent system for the digital acquisition of documents with confidence rate calculation and interfacing with the interactive portal 100 is not only useful for digitizing the information contained in documents in an efficient and intelligent manner, but extrapolates them, organizes them and returns them to the customer in a practical and functional form by exploiting said artificial intelligence system 60. It makes use of the following intelligent techniques:
- modelli e algoritmi di rilevamento nell?ambito del computer vision, atti al riconoscimento dei caratteri in formato machine readable e all?identificazione automatica di oggetti e concetti rilevanti presenti nelle immagini sottoposte al sistema intelligente 100; - detection models and algorithms in the field of computer vision, suitable for the recognition of characters in machine readable format and the automatic identification of relevant objects and concepts present in the images subjected to the intelligent system 100;
- modelli e algoritmi di natural language processing (NLP) di apprendimento, una tecnica di trattamento informatico del linguaggio naturale, ampiamente utilizzata in vari campi, e, nel caso del detto sistema intelligente 100, atta alla classificazione dei dati, alla loro interpretazione semantica, e al miglioramento e alla correzione intelligente dei processi di acquisizione digitale dei documenti. In particolare, sono utilizzate le seguenti comuni tecniche intelligenti: - natural language processing (NLP) learning models and algorithms, a computer processing technique of natural language, widely used in various fields, and, in the case of the said intelligent system 100, suitable for data classification, their semantic interpretation, and the improvement and intelligent correction of digital document capture processes. In particular, the following common intelligent techniques are used:
- machine learning, atte a creare sistemi che apprendono in modo automatico e migliorano le loro prestazioni in base ai dati che utilizzano; - machine learning, aimed at creating systems that learn automatically and improve their performance based on the data they use;
- deep learning, atte all?addestramento dei modelli utilizzando grandi set di dati etichettati e architetture di reti neurali in grado di apprendere le feature direttamente dai dati senza la necessit? di estrarle manualmente; - deep learning, suitable for training models using large labeled data sets and neural network architectures capable of learning features directly from the data without the need for to extract them manually;
- reinforced learning, atte all?addestramento di modelli di apprendimento automatico per prendere una sequenza di decisioni. In particolare, i modelli di NLP includono, a titolo esemplificativo, modelli di estrazione di caratteristiche semantiche, modelli di estrazione di parole chiave, modelli di estrazione di eventi, modelli di estrazione di strutture e modelli di estrazione di emozioni, che vengono utilizzati per estrarre caratteristiche multidimensionali dei documenti. I modelli possono includere, a titolo esemplificativo, il modello Word2vec, il modello Para2vec, il modello BERT, ecc., che possono essere utilizzati per convertire il testo attraverso modelli di preelaborazione del linguaggio naturale. Gli algoritmi utilizzati dai modelli di estrazione includono, a titolo esemplificativo, l?algoritmo SVM (Support Vector Machine) e l?algoritmo RNN (Recurrent Neural Network). I valori del documento sono estratti come matrici o tensori di incorporamento delle peculiarit? caratterizzanti il documento. Comprensibilmente, pi? funzionalit? estratte dal modello di NLP, meglio ? per il sistema di intelligenza artificiale 60 per comprendere appieno il contenuto del documento. - reinforced learning, suitable for training automatic learning models to make a sequence of decisions. In particular, NLP models include, but are not limited to, semantic feature extraction models, keyword extraction models, event extraction models, structure extraction models, and emotion extraction models, which are used to extract multidimensional characteristics of documents. Models may include, but are not limited to, Word2vec model, Para2vec model, BERT model, etc., which can be used to convert text through natural language preprocessing models. The algorithms used by the extraction models include, but are not limited to, the Support Vector Machine (SVM) algorithm and the Recurrent Neural Network (RNN) algorithm. Are document values extracted as feature embedding matrices or tensors? characterizing the document. Understandably, more? functionality? extracted from the NLP model, better? for the artificial intelligence system 60 to fully understand the content of the document.
Dopo che ? stato compreso il contenuto del documento, il sistema di intelligenza artificiale 60 prosegue con la classificazione del documento in base alle effettive esigenze. Perci? all?interno del database relazionale 40 ? stata archiviata, sotto forma di file json, una struttura di metadati relativa a specifici modelli documentali. Sono i modelli documentali che garantiscono che il sistema di intelligenza artificiale 60 interpretati le informazioni in maniera pi? efficiente ed efficace. I modelli documentali archiviati nel database 40 sono almeno i seguenti: After that ? Once the content of the document has been understood, the artificial intelligence system 60 continues with the classification of the document based on actual needs. Why? within the relational database 40 ? a metadata structure relating to specific document models has been archived in the form of a json file. It is the documentary models that guarantee that the artificial intelligence system 60 interprets the information more effectively. efficient and effective. The document models archived in the database 40 are at least the following:
- gestione della fase di estinzione rapporto delle pratiche di successione; - gestione delle informazioni coinvolte nelle operazioni sia di chiusura di rapporto con la clientela che della nuova entrata in relazione della nuova clientela del cliente; - management of the relationship settlement phase of succession practices; - management of the information involved in the operations of both closing the relationship with the customers and the new entry into the relationship of the customer's new customers;
- gestione delle informazioni coinvolte nelle operazioni di pignoramento di un rapporto di conto corrente; - management of the information involved in the seizure operations of a current account relationship;
- gestione dello scambio di informazioni coinvolte nello sviluppo delle anomalie documentali durante le operazioni di gestione ed esecuzione di bonifici esteri; - management of the exchange of information involved in the development of documentary anomalies during the management and execution of foreign bank transfers;
- gestione delle informazioni coinvolte nella gestione di anomalie/richieste di supporto da parte della clientela. - management of information involved in the management of anomalies/support requests from customers.
In particolare, per il riconoscimento dei documenti ? stato utilizzato un sistema di modelli convoluzionali per il deep learning attraverso strumenti noti come keras e tensorflow. Nello specifico, sono state utilizzate diverse librerie: In particular, for the recognition of documents? a system of convolutional models was used for deep learning through tools known as keras and tensorflow. Specifically, several libraries were used:
<- >Pyplot da Matplotlib; <- >Pyplot from Matplotlib;
- Numpy; - Numpy;
- cv2; - cv2;
- tensorflow; - tensorflow;
- keras, preprocessing; - keras, preprocessing;
Le prime tre sono state utilizzate per l?elaborazione delle immagini e per la preparazione dei tensori, in modo da essere poi analizzate e processate all?interno del modello di deep learning. Si crea quindi una classe avente ogni tipo di documento da riconoscere, si caricano le immagini attraverso i path di origine e si procede con la preparazione dei tensori. The first three were used for image processing and for the preparation of tensors, in order to then be analyzed and processed within the deep learning model. We then create a class having each type of document to recognize, load the images through the source paths and proceed with the preparation of the tensors.
Per la creazione del suddetto modello si utilizza una funzione apposita con l?aiuto delle librerie: To create the aforementioned model, a special function is used with the help of libraries:
- Sequential da keras.models; - Sequential from keras.models;
- Activation, Dropout, Flatten, Dense da keras.layers; - Activation, Dropout, Flatten, Dense from keras.layers;
- Convolution2D, MaxPooling2D da keras.layers.convolutional; - Convolution2D, MaxPooling2D from keras.layers.convolutional;
- Adam da keras.optimizers. - Adam from keras.optimizers.
Da qui si procede alla creazione di un modello documentale con valori base come riportati nella tabella mostrata in Fig. 2, e successivamente al training del modello con una pool di immagini selezionate per il caso scegliendo una batch size ed un numero di epoche da stabilire in base ai dati presenti e all?esperienza del caso. Segue poi il testing del modello appena creato. From here we proceed with the creation of a documentary model with basic values as reported in the table shown in Fig. 2, and subsequently with the training of the model with a pool of images selected for the case by choosing a batch size and a number of epochs to be established in based on current data and case experience. Then follows the testing of the newly created model.
Una volta ottenuti i dati finali detto sistema intelligente 100 sfrutta le seguenti tecnologie automatizzate appartenenti al sistema di automazione processo 70 per i rispettivi scopi: Once the final data has been obtained, said intelligent system 100 exploits the following automated technologies belonging to the process automation system 70 for the respective purposes:
- una piattaforma software di RPA atta all?automazione di attivit? di scambio e integrazione di dati tra sistemi eterogenei, nonch? alla gestione delle anomalie e richieste di supporto da parte della clientela. Essa pu? includere ad esempio una piattaforma UIPATH, capace di fornire un?automazione perfetta dell?inserimento dei dati su qualsiasi modulo web e applicazione desktop. Supporta Excel e consente l?integrazione con qualsiasi piattaforma web e desktop, come SAP, Citrix, etc.; - an RPA software platform suitable for the automation of activities? of data exchange and integration between heterogeneous systems, as well as? the management of anomalies and support requests from customers. Can it? include for example a UIPATH platform, capable of providing seamless automation of data entry on any web form and desktop application. It supports Excel and allows integration with any web and desktop platform, such as SAP, Citrix, etc.;
- una piattaforma di integrazione di sistema, atta alla migrazione, trasformazione ed integrazione di dati tra sorgenti e destinazioni multiple, la quale pu? ad esempio includere Microsoft Integration Services, ovvero una piattaforma per la creazione di soluzioni di integrazione e trasformazione di dati a livello aziendale, per risolvere problemi aziendali complessi, tramite operazioni di copia o download di file, caricamento di data warehouse, pulizia dei dati, data mining e gestione di oggetti e dati. Tra gli altri componenti caratterizzanti detto sistema intelligente 100, il motore di acquisizione immagini 10 si occupa di scannerizzare ed ottenere immagini di documenti tramite un apposito dispositivo. Le immagini ottenute vengono poi salvate nella raccolta del sito di SharePoint e archiviate nel database relazionale 40. Il software di orchestrazione 50 provvede ad eseguire le seguenti funzioni: - a system integration platform, suitable for the migration, transformation and integration of data between multiple sources and destinations, which can for example, include Microsoft Integration Services, which is a platform for building enterprise-level data integration and transformation solutions to solve complex business problems, including copying or downloading files, loading data warehouses, cleansing data, data mining and management of objects and data. Among the other components characterizing said intelligent system 100, the image acquisition engine 10 is responsible for scanning and obtaining images of documents via a special device. The images obtained are then saved in the SharePoint site collection and archived in the relational database 40. The orchestration software 50 performs the following functions:
- estrarre ogni documento non lavorato dalla raccolta delle immagini archiviate nel database relazionale 40; - extract each unprocessed document from the collection of images stored in the relational database 40;
- rendere disponibile ogni documento estratto al sistema di intelligenza artificiale 60; - make each extracted document available to the artificial intelligence system 60;
- estrarre la risposta del sistema di intelligenza artificiale 60 nella forma di un vettore json contenente i dati letti; - extract the response of the artificial intelligence system 60 in the form of a json vector containing the read data;
- rendere disponibili i dati letti al motore di post-processamento 30. - make the read data available to the post-processing engine 30.
Il motore di post-processamento 30 agisce sui dati secondo i seguenti criteri: The post-processing engine 30 acts on the data according to the following criteria:
- viene effettuata una pulizia generale, eliminando segni di interpunzione prima e dopo i testi informativi; - a general cleaning is carried out, eliminating punctuation marks before and after the information texts;
- i dati vengono controllati e le informazioni mancanti o incerte sono corrette da una pluralit? di algoritmi di post-processamento; - the data are checked and missing or uncertain information is corrected by a plurality? of post-processing algorithms;
- i dati processati vengono archiviati nel database relazionale 40 sotto forma di file json revisionati. - the processed data is stored in the relational database 40 in the form of revised json files.
Tutti i dati ottenuti e archiviati sul database relazionale 40 sono accessibile dal sito di SharePoint 20, il quale ha il compito di dispensare almeno i seguenti servizi: All the data obtained and archived on the relational database 40 is accessible from the SharePoint 20 site, which has the task of providing at least the following services:
- la ricerca di informazioni; - searching for information;
- un?interfaccia di modifica 300 atta alla verifica e la revisione manuale dei documenti digitalizzati; - an editing interface 300 suitable for manual verification and review of digitized documents;
- una funzione rapporti, mostrante statistiche e grafici sulle informazioni estrapolate; - a reporting function, showing statistics and graphs on the extrapolated information;
- la condivisione dei dati ottenuti; - sharing the data obtained;
con gli stessi servizi eseguiti automaticamente tramite l?impiego del sistema di automazione processo 70. with the same services performed automatically through the use of the 70 process automation system.
Algoritmi di post-processing possono includere, ma non esclusivamente, l?algoritmo di Damerau-Levenshtein. In particolare, per i campi le cui restrizioni sono note (ad esempio i comuni, un insieme definito e presente sul database) vengono sostituiti con il tipo normalizzato la cui distanza di stringa (calcolata con l?algoritmo di Damerau-Levenshtein) ? minore. Per, ad esempio, il riconoscimento della firma all?interno di un documento, si procede, come prima fase, con l?estrazione della firma dal documento stesso. Per fare ci? si elimina lo ?stampato? del documento e si lascia il ?manoscritto?. Ci? ? possibile grazie ad un algoritmo che mette in relazione i vari pixel presenti sul documento, utilizzando delle costanti ?valore? come threshold relative ai pixel: Post-processing algorithms may include, but are not limited to, the Damerau-Levenshtein algorithm. In particular, for fields whose restrictions are known (for example municipalities, a set defined and present in the database) they are replaced with the normalized type whose string distance (calculated with the Damerau-Levenshtein algorithm) is ? minor. For example, to recognize the signature within a document, the first phase is to extract the signature from the document itself. To do this? the ?printout? is eliminated of the document and leave the ?manuscript?. There? ? possible thanks to an algorithm that relates the various pixels present on the document, using "value" constants. as pixel-related thresholds:
- connessi da ?valore1?; - connected by ?value1?;
- sconnessi da ?valore2?; - disconnected from ?value2?;
- pi? grandi di ?valore3?; - more? large of ?value3?;
- pi? piccoli di ?valore4?. - more? small of ?value4?.
Utilizzando la libreria ?threshold? presente in opencv si ha il documento senza stampe. Fatto questo si procede con il trim della firma, dove ci torna utile la libreria sopracitata. Si utilizza l?immagine in scala di grigi, si utilizza ?Thresh_Binary? e gli si costruisce un rettangolo attorno grazie all?ausilio di ?BoundingRect? di opencv. Si procede con il crop della zona selezionata. Le librerie utilizzate sono: Using the ?threshold? library present in opencv you have the document without prints. Once this is done, we proceed with the signature trim, where the aforementioned library comes in handy. Are you using grayscale image, are you using ?Thresh_Binary? and a rectangle is built around it with the help of ?BoundingRect? by opencv. We proceed with the crop of the selected area. The libraries used are:
- Opencv; - Opencv;
- Matplotlib da cui Pyplot; - Matplotlib hence Pyplot;
- Numpy; - Numpy;
- Scikit-learn da cui: - Scikit-learn from which:
- Measure; - Measure;
- Morphology; - Morphology;
- Label2rgb; - Label2rgb;
- Regionprops. - Regionprops.
Il sistema intelligente 100 produce come output i seguenti dati relativi al documento acquisito: The intelligent system 100 produces as output the following data relating to the scanned document:
- il tipo di documento: ovvero valore identificativo del modello documentale a cui appartengono i dati; - the type of document: i.e. identifying value of the document model to which the data belongs;
- il nome del campo: ovvero valore identificativo dell?informazione contenuta nel campo analizzato; - the name of the field: i.e. identifying value of the information contained in the analyzed field;
- il valore del campo: ovvero valore identificativo del contenuto del campo analizzato; - the value of the field: i.e. identifying value of the content of the analyzed field;
- il tasso di confidenza, attribuito ad ogni dato interpretato: ovvero una grandezza percentuale attribuita da detto sistema di intelligenza artificiale 60 che indica il valore di attendibilit? di quanto riconosciuto da esso. - the confidence rate, attributed to each interpreted data: i.e. a percentage quantity attributed by said artificial intelligence system 60 which indicates the reliability value? than recognized by it.
Importante caratteristica del sistema intelligente 100 ? proprio l?assegnazione di un tasso di confidenza, che ? particolarmente utile alla massimizzazione dell?output di riconoscimento, dal momento che se viene rilevata un?informazione con un tasso di confidenza sottostante ad una soglia prestabilita, essa viene supervisionata e corretta manualmente. Inoltre, in questo modo il detto sistema di intelligenza artificiale 60 ? in grado di riconoscere l?errore di rilevamento e, di conseguenza, tramite dette tecniche di machine learning, deep learning e reinforced learning, evitare che lo stesso errore si ripeta. Important feature of the intelligent system 100 ? precisely the assignment of a confidence rate, which is? particularly useful for maximizing the recognition output, since if information is detected with a confidence rate below a pre-established threshold, it is supervised and corrected manually. Furthermore, in this way the said artificial intelligence system 60? able to recognize the detection error and, consequently, through these machine learning, deep learning and reinforced learning techniques, prevent the same error from repeating.
Il detto tasso di confidenza ? inoltre caratterizzato dal fatto che viene mostrato su detto sito di SharePoint 20 in almeno tre colorazioni diverse, e in una configurazione preferita, pu?, ad esempio, seguire il seguente criterio: The said confidence rate? further characterized by the fact that it is shown on said SharePoint 20 site in at least three different colors, and in a preferred configuration, it can, for example, follow the following criterion:
- verde, se sopra il 65%; - green, if above 65%;
- giallo, se tra il 40% e 65%; - yellow, if between 40% and 65%;
- rosso, se inferiore al 40%; - red, if less than 40%;
con detto tasso di confidenza, automaticamente reimpostato da detto sistema di intelligenza artificiale 60 ad un valore di 100% in caso il campo sia modificato da un operatore. Il sito di SharePoint 20 comprende un?interfaccia di modifica 300, mostrata in Fig. 3. La sua struttura, ottimizzata sulla base di un?analisi statistica delle frequenze e dei tempi di completamento delle task svolte da operatori specializzati, presenta le seguenti caratteristiche: with said confidence rate, automatically reset by said artificial intelligence system 60 to a value of 100% in case the field is modified by an operator. The SharePoint 20 site includes an editing interface 300, shown in Fig. 3. Its structure, optimized on the basis of a statistical analysis of the frequencies and completion times of the tasks carried out by specialized operators, has the following characteristics:
? a sinistra, ? mostrata una lista delle miniature; ? to the left, ? a list of thumbnails shown;
? al centro, ? mostrato il documento da lavorare, con i caratteri interpretati presenti in riquadri colorati in base a detto tasso di confidenza; ? in the center, ? the document to be worked on is shown, with the interpreted characters present in colored boxes based on said confidence rate;
? a destra, sono mostrati i campi da correggere ove l?interpretazione sia mancante o non corretta; ? on the right, the fields to be corrected are shown where the interpretation is missing or incorrect;
? in alto a destra, sono mostrati i tasti per filtrare i campi e consentire un inserimento pi? agevole; ? At the top right, the buttons for filtering the fields and allowing easier insertion are shown. easy;
? in basso al centro, ? mostrato il tasto salva che consente il salvataggio delle modifiche effettuate manualmente. ? bottom center, ? the save button is shown which allows you to save the changes made manually.
Gli elementi e le tecnologie caratterizzanti il sistema intelligente 100 seguono un preciso metodo operativo 400 caratterizzato dalle seguenti fasi: The elements and technologies characterizing the intelligent system 100 follow a precise operating method 400 characterized by the following phases:
A. fase di ricevimento e digitalizzazione: le informazioni e i documenti, attraverso canale telematico o cartaceo, vengono scannerizzati tramite le logiche OCR appartenenti al motore di acquisizione immagini 10, immagazzinati nel sito di SharePoint 20, e, di conseguenza, memorizzati come immagini; A. reception and digitization phase: the information and documents, via electronic or paper channel, are scanned using the OCR logics belonging to the image acquisition engine 10, stored on the SharePoint site 20, and, consequently, stored as images;
B. fase di classificazione: il sistema di intelligenza artificiale 60 sfrutta le tecniche di computer vision per identificare il tipo di documento digitalizzato fra le classi di documenti contenute nei detti modelli documentali. In caso non sia riconosciuto il documento prosegue alla fase di interpretazione C senza che il tipo di documento sia identificato; B. classification phase: the artificial intelligence system 60 exploits computer vision techniques to identify the type of digitized document among the classes of documents contained in said document models. If it is not recognised, the document continues to interpretation phase C without the type of document being identified;
C. fase di interpretazione (individuazione informazioni rilevanti): tramite le tecniche di NLP, appartenenti a detto sistema di intelligenza artificiale 60, le informazioni contenute nelle specifiche classi di documenti vengono interpretate e, di conseguenza, sono estratti i dati rilevanti per il processo ed ? assegnato un tasso di confidenza ad ogni valore interpretato; C. interpretation phase (identification of relevant information): through NLP techniques, belonging to said artificial intelligence system 60, the information contained in the specific classes of documents are interpreted and, consequently, the data relevant for the process are extracted and ? assigned a confidence rate to each interpreted value;
D. fase di post-processamento: tramite il motore di post-processamento 30 vengono fatte eventuali correzioni; D. post-processing phase: any corrections are made via the post-processing engine 30;
E. fase di validazione: i documenti interpretati vengono verificati ed eventualmente revisionati da operatori addetti attraverso un?interfaccia di modifica 300, appartenente al sito di SharePoint 20 e memorizzati nel database relazionale 40; E. validation phase: the interpreted documents are verified and possibly revised by assigned operators through an editing interface 300, belonging to the SharePoint site 20 and stored in the relational database 40;
F. fase di cooperazione applicativa: in cui i dati estratti dai documenti ed interpretati nelle fasi precedenti vengono inseriti all?interno di portali web sfruttando funzionalit? di cooperazione applicativa ed interoperabilit? realizzate tramite il sistema di automazione processo 70. F. application cooperation phase: in which the data extracted from the documents and interpreted in the previous phases are inserted into web portals using functionalities? of application cooperation and interoperability? carried out via the process 70 automation system.
Pertanto, un potenziale cliente, per opera delle sopra elencate caratteristiche appartenenti al sistema intelligente 100 e al corrispondente metodo operativo 400 per l?acquisizione digitale di documenti con calcolo di tasso di confidenza e interfacciamento su portale interattivo, ? in grado di trasferire su una vera e propria piattaforma digitale la documentazione e le pratiche riguardanti la propria azienda, in maniera efficiente, precisa e conveniente, e viene inoltre fornito di un mezzo multifunzionale per la gestione dei documenti stessi e delle informazioni contenute. ? sfruttato infatti un dispositivo di digitalizzazione 500, mostrato in una sua configurazione preferibile in FIG. 5, atto a efficientare le prestazioni del processo di erogazione del servizio di acquisizione digitale dei documenti. Esso ? caratterizzato dal fatto di comprendere una memoria 501 e un processore 502 accoppiati tra loro, con un programma per il computer 503 memorizzato in detta memoria 501. In particolare, il programma 503 comprende gli elementi costituenti il sistema intelligente per l?acquisizione digitale di documenti 100 e, quando eseguito dal processore 502, esegue il metodo operativo 400. Entrambi il sistema 100 e il metodo 400 sono perci? memorizzati nella memoria 501 del dispositivo 500. Inoltre, fanno parte del dispositivo 500 le seguenti unit? operative: Therefore, a potential customer, thanks to the above-listed characteristics belonging to the intelligent system 100 and the corresponding operating method 400 for the digital acquisition of documents with confidence rate calculation and interfacing on an interactive portal, is capable of transferring the documentation and practices relating to your company to a truly digital platform in an efficient, precise and convenient manner, and is also provided with a multifunctional means for managing the documents themselves and the information contained. ? in fact, a digitizing device 500 was used, shown in its preferable configuration in FIG. 5, aimed at streamlining the performance of the process of providing the digital document acquisition service. It ? characterized in that it comprises a memory 501 and a processor 502 coupled together, with a program for the computer 503 stored in said memory 501. In particular, the program 503 includes the elements constituting the intelligent system for the digital acquisition of documents 100 and, when executed by processor 502, executes operating method 400. Both system 100 and method 400 are therefore stored in the memory 501 of the device 500. Furthermore, are the following units part of the device 500? operational:
- un?unit? di acquisizione immagini, impiegante motore di acquisizione immagini 10; - a?unit? image acquisition engine, using image acquisition engine 10;
- un?unit? di estrazione ed interpretazione dati, impiegante i modelli e gli algoritmi caratteristici del sistema di intelligenza artificiale 60; - a?unit? for data extraction and interpretation, using the models and algorithms characteristic of the artificial intelligence system 60;
- un?unit? di orchestrazione, implementante il software di orchestrazione 50; - a?unit? of orchestration, implementing the orchestration software 50;
- un?unit? di post-processamento, implementante il motore di postprocessamento 30; - a?unit? of post-processing, implementing the post-processing engine 30;
- un?unit? di interfacciamento, implementante il sito di sharepoint 20. ? infine chiaro che all?invenzione fin qui descritta possono essere apportate modifiche, aggiunte o varianti ovvie per un tecnico del ramo, senza per questo fuoriuscire dall?ambito di tutela che ? fornito dalle rivendicazioni annesse. - a?unit? interface, implementing the sharepoint 20 site. ? finally, it is clear that modifications, additions or variations that are obvious to a person skilled in the art can be made to the invention described so far, without thereby departing from the scope of protection which is provided by the attached claims.