CH716698B1 - Hachage d'image perceptuel partiel pour la déconstruction de factures. - Google Patents

Hachage d'image perceptuel partiel pour la déconstruction de factures. Download PDF

Info

Publication number
CH716698B1
CH716698B1 CH000326/2020A CH3262020A CH716698B1 CH 716698 B1 CH716698 B1 CH 716698B1 CH 000326/2020 A CH000326/2020 A CH 000326/2020A CH 3262020 A CH3262020 A CH 3262020A CH 716698 B1 CH716698 B1 CH 716698B1
Authority
CH
Switzerland
Prior art keywords
invoice
special purpose
purpose processor
image
hash value
Prior art date
Application number
CH000326/2020A
Other languages
English (en)
Other versions
CH716698A2 (fr
Inventor
Ransom Mitchell
O'hara Shane
Original Assignee
Bottomline Tech Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bottomline Tech Limited filed Critical Bottomline Tech Limited
Publication of CH716698A2 publication Critical patent/CH716698A2/fr
Publication of CH716698B1 publication Critical patent/CH716698B1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/14Charging, metering or billing arrangements for data wireline or wireless communications
    • H04L12/1428Invoice generation, e.g. customization, lay-out, database processing, algorithms for calculating the bill or formatting invoices as WWW pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/41Billing record details, i.e. parameters, identifiers, structure of call data record [CDR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/43Billing software details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/44Augmented, consolidated or itemized billing statement or bill presentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/49Connection to several service providers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/80Rating or billing plans; Tariff determination aspects
    • H04M15/8033Rating or billing plans; Tariff determination aspects location-dependent, e.g. business or home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/24Accounting or billing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Library & Information Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention a pour objet un appareil et un procédé pour identifier le fournisseur dans une facture (101) en divisant la facture en trois régions (102-104) et en effectuant un hachage d'image perceptuel sur chaque section. Ensuite, une distance de Hamming est utilisée pour comparer la valeur de hachage de chaque section avec les valeurs de hachages de factures connues afin d'identifier le fournisseur qui a envoyé la facture.

Description

Domaine technique
[0001] La présente divulgation concerne généralement la déconstruction de documents électroniques et plus particulièrement l'utilisation du hachage d'image perceptuel pour la déconstruction de documents électroniques.
Description de la technique apparentée
[0002] Dans le monde de l'électronique d'aujourd'hui, il existe encore un certain nombre de documents qui sont transmis sur papier ou par le biais d'images au format bitmap. En particulier dans un service comptable où des milliers d'images de reçus ou de factures peuvent être reçues chaque mois. Chaque reçu ou facture est dans un format spécifique à la société, avec des emplacements uniques pour des informations spécifiques. Les informations spécifiques sont nécessaires pour le chargement dans un système logiciel de comptes fournisseurs. Idéalement, la facture peut être envoyée sous forme de fichier XML avec les champs renseignés par le logiciel de comptes clients. Mais cela arrive rarement ; au lieu de cela, les factures arrivent souvent sous forme papier.
[0003] L'automatisation améliore les processus et réduit les coûts en éliminant la saisie de données, la correspondance des bons de commande, la gestion et l'acheminement du papier et le stockage physique des documents requis dans un environnement manuel ou semi-automatisé. La technologie extrait et valide automatiquement les données de facturation, met en correspondances les factures avec les bons de commande et les reçus de livraison, et enregistre les factures approuvées directement dans une plateforme ERP 606. Toutes les factures qui nécessitent un examen, une approbation ou une résolution des exceptions sont transmises par voie électronique à des personnes spécifiques en fonction de règles préconfigurées. Les tableaux de bord alertent automatiquement les gestionnaires des goulots d'étranglement et les utilisateurs des factures approchant de leur date d'échéance. La technologie suit également les mesures de productivité clés. Par ailleurs, les comptes fournisseurs n'ont plus besoin de payer de frais sur plusieurs systèmes bancaires pour payer les fournisseurs.
[0004] Par rapport au traitement manuel des factures papier, l'automatisation permet généralement de réaliser des économies de coûts comprises entre 60 % et 80 %, d'après le rapport Billentis 2016 E-Billing/E-Invoicing (facturation électronique). Un facteur majeur de ces économies de coûts est le fait que les organisations de comptes fournisseurs hautement automatisées peuvent traiter environ 17 fois plus de factures par an par employé que leurs homologues qui s'appuient sur des processus de facturation manuels, selon l'étude de référence AP 2017 de l'IOFM. En réalité, un tiers des sous-processus de facturation - et leurs coûts associés - peuvent être supprimés par l'automatisation sans rien perdre d'essentiel, d'après le rapport Billentis 2016 E-Billing/E-Invoicing (facturation électronique). Par exemple, les factures électroniques éliminent pratiquement les coûts associés à la réception de factures, à la capture de données de facturation et au codage d'informations du grand livre général. La validation des données de facturation et la correspondance des factures aux bons de commande et/ou aux documents de preuve de livraison coûtent plus des deux tiers de moins dans un environnement automatisé par rapport à un environnement manuel, la gestion des litiges de facturation coûte 20 % de moins, la gestion des paiements et de la trésorerie coûte moins de la moitié, et l'archivage des factures et des documents associés coûte pratiquement deux tiers de moins, d'après le rapport Billentis.
[0005] L'automatisation des factures permet également de réaliser des économies indirectes telles que la réduction des frais de papier et d'affranchissement, moins de demandes de renseignements des fournisseurs et moins de redondances et d'inexactitudes dans la base de données principale des fournisseurs605.
[0006] Dans un environnement automatisé, les données de facturation peuvent être validées en temps réel ou quasi réel. Les exceptions peuvent être résolues d'une manière structurée et numérique qui combine des règles métier configurables pour le routage des exceptions, la collaboration en ligne entre les parties prenantes internes et les fournisseurs, et les annotations.
[0007] Sur la base des critères de l'IOFM et de l'AIIM pour les coûts de traitement des factures, un service de comptes fournisseurs qui traite 5 000 factures par mois devrait permettre d'économiser 55 650 $ par mois (8 850 par mois contre 64 500 $ par mois) et 667 800 $ par an grâce à l'automatisation des comptes fournisseurs. Un retour sur investissement encore plus important est possible lorsque vous tenez compte des remises obtenues sur les paiements électroniques.
[0008] Mais même dans un environnement entièrement automatisé, le temps d'analyse de chaque facture peut être long. L'identification simple du fournisseur peut comporter de nombreux calculs, les fournisseurs utilisant des logos ou des polices de fantaisie dans leurs en-têtes ou pieds de page. La reconnaissance optique de caractères simple ne fonctionne pas bien avec les logos et les polices de fantaisie. Un système meilleur et plus rapide est nécessaire pour automatiser les factures et les reçus. Les présentes inventions résolvent ce problème avec une solution de traitement des factures améliorée, plus rapide et plus fiable.
RESUME
[0009] Un appareil pour identifier un fournisseur associé à une facture est décrit ici. L'appareil est composé d'un processeur à usage spécial avec une pluralité de coeurs, d'une mémoire reliée électriquement au processeur à usage spécial et d'un dispositif de stockage de masse contenant une base de données de fournisseurs connus, le dispositif de stockage de masse étant relié électriquement au processeur à usage spécial. Une image de la facture stockée dans la mémoire est divisée en une pluralité de régions par le processeur à usage spécial. Une valeur de hachage perceptuel d'image est calculée par le processeur à usage spécial pour chacune de la pluralité de régions de la facture, et une distance de Hamming est calculée entre la valeur de hachage perceptuel d'image de chacune de la pluralité de régions et pour chaque entrée dans la base de données de fournisseurs connus pour chacune de la pluralité de régions. Le fournisseur associé à la plus petite distance de Hamming est identifié comme le fournisseur associé à la facture.
[0010] La valeur de hachage perceptuel d'image peut être calculé avec un algorithme de moyenne, un algorithme de différence ou un algorithme pHash. La facture peut être réduite à une grille de pixels huit par huit avant de calculer la valeur de hachage perceptuel d'image. La facture peut être réduite en niveaux de gris avant de calculer la valeur de hachage perceptuel d'image. La pluralité de régions peut être constituée de trois régions. La plus petite distance de Hamming peut être comparée à un seuil et le fournisseur associé à la plus petite distance de Hamming peut être ajouté à la base de données de fournisseurs connus si la plus petite distance de Hamming est supérieure au seuil. Le fournisseur identifié peut être le nouveau fournisseur ajouté.
[0011] Un procédé pour identifier un fournisseur associé à une facture est décrit ici. Le procédé comprend les étapes (1) de division d'une image de la facture stockée dans une mémoire en une pluralité de régions par un processeur à usage spécial avec une pluralité de coeurs, la mémoire étant reliée électriquement au processeur à usage spécial, (2) de calcul d'une valeur de hachage perceptuel d'image par le processeur à usage spécial pour chacune de la pluralité de régions, (3) de calcul d'une distance de Hamming entre la valeur de hachage perceptuel d'image de chacune de la pluralité de régions et pour chaque entrée dans une base de données de fournisseurs connus pour chacune de la pluralité de régions, et (4) d'identification du fournisseur associé à la plus petite distance de Hamming en tant que fournisseur associé à la facture. Le dispositif de stockage de masse contient la base de données de fournisseurs connus, le dispositif de stockage de masse étant relié électriquement au processeur à usage spécial
BREVE DESCRIPTION DES DESSINS
[0012] Les dessins annexés, qui ne sont pas nécessairement à l'échelle, présentent divers aspects des inventions dans lesquels des numéros de référence similaires sont utilisés pour indiquer des parties identiques ou similaires dans les différentes vues.
[0013] LaFIGURE 1est un exemple de facture divisée en trois sections.
[0014] LaFIGURE 2est une liste du contenu de la facture de laFIGURE 1déconstruite et chargée dans un progiciel de comptes fournisseurs.
[0015] LaFIGURE 3est un organigramme de haut niveau de la déconstruction d'image de facture.
[0016] LaFIGURE 4est un organigramme détaillé de l'algorithme de hachage d'image perceptuel.
[0017] LaFIGURE 5est un organigramme du processus d'extraction de données.
[0018] LaFIGURE 6est un schéma de l'équipement pour un mode de réalisation.
DESCRIPTIONDETAILLEE
[0019] La présente divulgation est maintenant décrite en détail en référence aux dessins. Sur les dessins, chaque élément avec un numéro de référence est similaire à d'autres éléments avec le même numéro de référence, indépendamment de toute désignation de lettre suivant le numéro de référence. Dans le texte, un numéro de référence avec une désignation de lettre spécifique suivant le numéro de référence fait référence à l'élément spécifique avec le numéro et la désignation de lettre, et un numéro de référence sans désignation de lettre spécifique fait référence à tous les éléments avec le même numéro de référence, indépendamment de toute désignation de lettre suivant le numéro de référence sur les dessins.
[0020] Lesfigures 1et2présentent une facture101et les résultats de sa déconstruction et de l'insertion des données dans un écran de système logiciel de comptes fournisseurs201. Une vue approfondie des deux figures montre que les mêmes données sur l'image de facture physique101sont affichées sur le logiciel201.
[0021] Le processus général de déconstruction d'un document tel qu'un reçu ou une facture consiste à obtenir d'abord une copie électronique du document, soit en numérisant une copie papier, soit en recevant un courriel, soit en téléchargeant une copie électronique. En règle générale, cette image électronique est ensuite convertie en un fichier au format PDF (Portable Document Format). Ensuite, la reconnaissance optique de caractères (OCR) est effectuée sur le document, si le texte ne peut pas être directement extrait des données PDF et que le fournisseur est identifié, mais l'ordre de ces tâches peut être inversé. Ensuite, les informations sur le fournisseur sont utilisées pour aider à l'extraction des différents champs d'en-tête du document, suivies de l'extraction de lignes pour capturer les informations du tableau sur chaque ligne détaillée de la facture, et les données extraites sont chargées dans le logiciel de traitement des factures, Bien que nous décrivions une facture dans ce document, ces techniques peuvent être utilisées pour d'autres types de documents structurés tels que les reçus, les documents de brevet, les chèques, les prescriptions de médicaments, les dossiers médicaux, les formulaires officiels, etc.
Identification du fournisseur
[0022] Les informations sur le fournisseur peuvent être déterminées sur la base des informations contenues dans un courriel, des empreintes digitales de métadonnées PDF, d'une correspondance de données intelligente ou d'un hachage d'image perceptuel.
Courriel
[0023] La première tâche de la déconstruction d'une facture est l'identification du fournisseur. Il existe un certain nombre de techniques qui peuvent être utilisées pour déterminer rapidement le fournisseur qui a envoyé la facture. Certaines factures sont envoyées par courriel directement du fournisseur au portail de capture, nous pouvons ensuite utiliser une combinaison de l'adresse „de“ et de l'adresse „à“ pour établir une correspondance avec un fournisseur spécifique. De même, un document FAX peut comporter l'en-tête ou le numéro de téléphone permettant la recherche. Cependant, peu de factures sont envoyées par fax et l'envoi de factures par courriel est loin d'être généralisé.
Correspondance de données intelligente
[0024] Dans un autre mode de réalisation, l'algorithme parcourt les données de planification des ressources d'entreprise („ERP“) dans la base de données 606 pour rechercher le texte PDF, une fois la reconnaissance optique de caractères terminée, pour des correspondances exactes sur les données d'adresse, les numéros de téléphone, les adresses électroniques, etc. Ceci est assez inefficace, car jusqu'à 40 000 enregistrements de base de données peuvent être chargés et le texte recherché dans l'ensemble du document PDF jusqu'à 100 000 fois dans les cas où aucun fournisseur n'a été trouvé.
Empreinte digitale de métadonnées PDF
[0025] L'extraction des métadonnées d'un PDF telles que l'auteur, le producteur, le créateur, le titre et le sujet et la combinaison de celles-ci pour trouver une correspondance unique avec un fournisseur spécifique. Ces métadonnées sont facilement disponibles dans certains fichiers PDF et peuvent être extraites rapidement et utilisées pour trouver la fiche fournisseur appropriée dans le système ERP 606. Mais les métadonnées ne sont pas disponibles pour les documents numérisés ou les documents au format bitmap. Elles ne sont disponibles que si le fournisseur lui-même a créé le document PDF, correctement défini les métadonnées du document PDF et n'a pas nettoyé les métadonnées du document PDF avant l'envoi.
Hachage d'image perceptuel (résolution du fournisseur)
[0026] Le hachage d'image perceptuel est une technique qui fournit un procédé efficace pour identifier les fournisseurs dans un large éventail de formats de documents, En regardant lafigure 1, la facture est divisée en trois sections, une pour les 15-20 % de la partie supérieure102, une autre section pour la partie centrale de la facture103et une troisième section pour les 15-20 % de la partie inférieure104. Bien que ce mode de réalisation utilise trois sections, un nombre quelconque de sections peut être utilisé dans d'autres modes de réalisation. Le mode de réalisation actuel utilise 15 à 20 % de la facture pour les sections supérieure et inférieure ; ces sections peuvent être de n'importe quelle taille sans nuire aux inventions décrites ici. L'idée générale est de capturer l'en-tête102et le pied de page104de la facture101, les zones de la facture susceptibles d'avoir des marques d'identification pouvant être utilisées pour identifier le fournisseur.
[0027] Pour les PDF tramés (généralement un document physique numérisé au format PDF), convertissez le PDF en fichier PNG, prenez les 15-20 % de la partie supérieure de la page (en-tête)302et les 10-15 % de la partie inférieure de la page (pied de page)302et générez une valeur de hachage perceptuel d'image303des deux images combinées, utilisez cette valeur de hachage pour comparer ensuite la similitude avec les valeurs de hachages historiques d'autres documents304. En raison de la nature similaire de toutes les factures, dans un mode de réalisation, il devrait y avoir un score de similarité très élevé (90 %+) pour envisager une correspondance et il ne devrait pas non plus y avoir d'autres correspondances dans les 10 %+, par exemple si le premier résultat est de 92 % et le second résultat est de 87 % et que les deux pointent vers des fournisseurs différents, nous ne considérerions pas cela comme une correspondance.
[0028] Pour les PDF non tramés, extrayez toutes les images et hachez-les, comparez les valeurs de hachages aux valeurs de hachages historiques à la recherche de correspondances, car nous ne pouvons pas identifier l'image du logo réelle sur le PDF, une attention particulière est nécessaire pour les images qui peuvent être communes à tous les fournisseurs, c'est-à-dire les logos de programme industriel ou les fournisseurs appartenant à la même société mère, etc., dans ces cas, nous ignorons toute recherche de valeur de hachage qui renvoie plusieurs fournisseurs et ne recherchons que les correspondances qui renvoient un seul fournisseur, nous pouvons rechercher les valeurs de hachages de 5 images trouvées sur le PDF et trouver seulement une correspondance de fournisseur unique pour 1 image, cela n'est pas un problème. Voir également le brevet américain 10,282,129, „Tenant aware, variable length deduplication of stored data“ par Andy Dobbels et Zenon Buratta pour de plus amples informations sur le traitement des PDF non tramés, ledit brevet étant incorporé par renvoi aux présentes.
[0029] En regardant lafigure 3, le processus de déconstruction commence301par la réception de l'image de la facture101. Tout d'abord, une reconnaissance optique de caractères306est réalisée sur l'image si nécessaire310. L'image est ensuite convertie en fichier PNG et divisée en trois parties302, 102, 103, 104, la partie supérieure et la partie inférieure représentant 15 à 20 % du document, et la partie centrale comprenant 60 à 70 % du document. Il s'agit d'isoler l'en-tête et le pied de page selon l'idée que l'en-tête et le pied de page contiennent des logos ou du texte qui identifient le fournisseur.
[0030] Une valeur de hachage perceptuel d'image303est ensuite calculé pour chacune des trois sections102,103,104. Ensuite, une correspondance est recherchée dans une base de données 605 de fournisseurs connus, en comparant la valeur de hachage de la section supérieure aux valeurs de hachages d'autres sections supérieures, en comparant de manière similaire les sections centrale et inférieure. Afin que cette recherche gère les imperfections, un calcul de la distance de Hamming est effectué sur chaque comparaison et les correspondances les plus proches sont identifiées.
[0031] Sur lafigure 3, l'étape suivante consiste à comparer les résultats de la recherche à un seuil305. En règle générale, il s'agit d'une comparaison des correspondances des sections supérieure et inférieure pour voir si la distance de Hamming de la correspondance est inférieure à un seuil pour la somme des sections supérieure et inférieure. De plus, l'accent est mis sur l'emplacement où l'identité du fournisseur est la plus probable. Mais l'algorithme vérifie également la combinaison des sections supérieure et centrale ou inférieure et centrale pour voir si cette facture a placé des informations dans un emplacement inhabituel.
[0032] Si la somme des deux meilleures distances de Hamming est supérieure au seuil, alors la facture101ne correspond pas à la base de données605de fournisseurs connus, puis le fournisseur sur la facture doit être ajouté à la base de données605de fournisseurs connus. Ce processus commence à extraire les données pertinentes307de la facture. Voir lafigure 5pour plus de détails sur l'extraction des données. En plus de l'extraction de données, des métadonnées sont également collectées concernant l'endroit où les données ont été trouvées. Par exemple, la date de la facture se trouve à environ 15 % vers le bas sur le côté droit de la facture dans lafigure 1, et le numéro de la facture est directement en dessous, le numéro de bon de commande est en dessous du numéro de la facture et la date d'échéance est en dessous du numéro de bon de commande. Ces métadonnées sur l'emplacement de certains champs sont stockées avec l'image et les valeurs de hachage308dans la base de données605de fournisseurs connus. Les données sont extraites de la facture en fonction des informations contenues dans les métadonnées311et renvoyées312. Une fois renvoyées312, les données sont susceptibles d'être envoyées au logiciel ERP.
[0033] Si la somme des deux meilleures distances de Hamming est inférieure ou égale au seuil, alors la facture101correspond à un fournisseur dans la base de données605de fournisseurs connus. L'algorithme sait alors où chercher les différents champs, sur la base des métadonnées dans la base de données605de fournisseurs connus. Les données d'en-tête sont extraites de la facture en fonction des informations contenues dans les métadonnées311et renvoyées312. Une fois renvoyées312, les données sont susceptibles d'être envoyées au logiciel ERP.
[0034] Les hachages perceptuels, comme le montre laFigure 4, sont un concept complètement différent par rapport aux procédés de hachage cryptographique habituels tels que MD5 ou SHA. Avec les hachages cryptographiques, un résumé unidirectionnel est généré sur la base des données d'entrée. Et en raison de son effet d'avalanche, la valeur de hachage résultant est complètement différente lorsque vous changez un seul bit :
[0035] C'est la raison pour laquelle la seule façon pour que deux images aient la même valeur de hachage cryptographique c'est qu'elles soient exactement les mêmes. Le hachage cryptographique ne constitue donc pas une solution possible pour résoudre ce problème.
[0036] En revanche, un hachage perceptuel est une empreinte digitale basée sur l'entrée d'image qui peut être utilisée pour comparer des images en calculant la distance de Hamming (c'est-à-dire essentiellement le décompte du nombre de bits individuels différents).
[0037] Une distance de Hamming entre deux valeurs de 64 bits peut être calculée comme suit :
[0038] Il existe différents algorithmes de hachage d'image perceptuel, mais ils utilisent tous des étapes similaires pour générer l'empreinte multimédia. Le plus simple à expliquer est le hachage moyen (également appelé aHash). Cette fonction démarre401avec la réception d'une image à hacher, et correspond au hachage d'image perceptuel 303.
[0039] Premièrement, la taille de l'image est réduite402à 8x8 pixels (d'autres modes de réalisation peuvent utiliser d'autres dimensions). C'est le moyen le plus rapide pour supprimer les hautes fréquences et les détails. Cette étape ignore la taille et le rapport hauteur/largeur d'origine et sera toujours redimensionnée à 8x8 pour que nous ayons 64 pixels résultants. Le redimensionnement peut réduire la taille en divisant l'image en 64 sections (8x8) et en calculant la moyenne des valeurs de pixels dans chacune des 64 sections.
[0040] Maintenant que nous avons 64 pixels, chacun avec sa valeur RGB, réduisez la couleur en convertissant l'image en niveaux de gris403. Cela nous donnera 64 valeurs de niveaux de gris.
[0041] Ensuite, la couleur moyenne404est calculée en calculant la moyenne des valeurs de 64 pixels.
[0042] Ensuite, la valeur de hachage est calculée. Le calcul de valeur de hachage commence par l'initialisation de la valeur de hachage405 àzéro. Ensuite, la valeur de hachage est calculée selon qu'un pixel est plus lumineux ou plus sombre que la valeur moyenne de niveau de gris que nous venons de calculer406. Faites cela pour chaque pixel 407 et vous vous retrouvez avec Une valeur de hachage 64 bits. La fonction aHash 406 peut utiliser l'instruction de processeur x86 AES, ou utilisez l'algorithme suivant:
[0043] En d'autres termes, les nouvelles données sont soumises à la fonction OU exclusif avec le hachage actuel et la valeur résultante est convertie en un nombre de 128 bits (avec les zéros de 64 bits supérieurs). La valeur résultante est multipliée par une constante (un nombre premier sûr A), et les 64 bits supérieurs résultants sont ajoutés aux 64 bits inférieurs résultants et stockés en tant que nouvelle valeur de hachage. Cette valeur de hachage est ensuite renvoyée408.
Comparaison d'images
[0044] Pour détecter des images en double ou similaires, calculez les valeurs de hachages perceptuels pour les deux images. Prenons un exemple et sa vignette.
[0045] Comme on peut le voir, les deux valeurs de hachages sont identiques. Mais cela ne signifie pas que des images similaires créeront toujours des valeurs de hachages égaux. Si nous manipulons l'image originale et ajoutons un filigrane, nous obtenons ces valeurs de hachages :
[0046] Comme vous pouvez le voir, ces valeurs de hachages sont très similaires, mais pas égaux. Pour comparer ces valeurs de hachages, nous comptons le nombre de bits différents (la distance de Hamming), qui est de 3 dans ce cas. Plus cette distance est élevée, plus le risque d'images identiques ou similaires est faible.
[0047] La mise en oeuvre du hachage moyen (aHash) est l'algorithme le plus facile à mettre en oeuvre et le plus rapide. Deux autres mises en oeuvre sont le hachage différentiel (ou dHash) et le pHash.
[0048] Le hachage différentiel suit les mêmes étapes que le hachage moyen, mais génère l'empreinte digitale selon que le pixel de gauche est plus lumineux que le pixel de droite, au lieu d'utiliser une seule valeur moyenne. Par rapport au hachage moyen, l'algorithme dHash génère moins de faux positifs.
[0049] Le pHash présente une mise en oeuvre assez différente des autres, et augmente la précision avec sa complexité. Le pHash redimensionne l'image en une image 32x32, calcule la valeur Luma (luminosité) de chaque pixel et applique une transformée en cosinus discrète (DCT) sur la matrice. Il faut ensuite les pixels 8x8 en haut à gauche, qui représentent les fréquences les plus faibles de l'image, pour calculer la valeur de hachage résultante en comparant chaque pixel à la valeur médiane. En raison de la complexité de l'algorithme pHash, c'est également l'option la plus lente.
Extraction d'en-tête
[0050] Une fois que le fournisseur a été identifié avec la technique ci-dessus, l'en-tête de la facture est déconstruit à l'aide de l'extraction de données intelligente ou des techniques d'apprentissage d'en-tête, comme indiqué dans lafigure 5.
IDE (extraction de données intelligente)
[0051] À l'aide des biais de position, sur la base de la recherche, nous pouvons supposer les emplacements probables de champs spécifiques, le numéro de la facture en haut à droite de la première page, le montant de la facture en bas à droite de la dernière page, etc. Les biais de validation, la date de la facture ne peut pas être une date future, elle est également susceptible d'être la date la plus proche de la date actuelle par rapport aux autres dates trouvées. Les biais de similarité, une fois que le fournisseur est connu, alors la similarité de chaîne est utilisée pour comparer les candidats de numéro de facture aux numéros de facture précédents pour ce fournisseur, des séquences sont susceptibles d'être telles que INV0001, INV0002, INV0003 etc. Ces informations sont stockées dans la section des métadonnées de la base de données de fournisseurs connus 605.
[0052] Tout d'abord, déterminez la séquence de caractères commune aux numéros de facture précédents (INV000), vérifiez que le candidat actuel commence par cette séquence. Si aucune séquence de caractères commune ne peut être trouvée, utilisez l'algorithme de distance de Levenshtein (ou similaire en fonction d'autres tests et recherches) pour comparer le candidat actuel aux numéros de facture précédents. Si l'algorithme de similarité n'est pas concluant, utilisez la correspondance de motifs sur la base de la séquence de types de caractères, c'est-à-dire AAADDDD (elle ne doit être utilisée que lorsque la valeur n'est pas une séquence entière d'un type de caractère).
[0053] Biais de données attendu, pour le numéro de bon de commande en particulier, nous avons accès à tous les numéros de bons de commande, filtrés par fournisseur et le statut d'une correspondance avec l'un quelconque des bons de commande disponibles suppose une correspondance parfaite.
[0054] La recherche d'extraction de libellé actuelle utilisée est basée sur une technologie appelée extraction KV. L'extraction KV utilise des expressions régulières (Regex) pour trouver un libellé, puis se tourne dans une direction configurée pour trouver une valeur. Dans l'extraction KV, le premier résultat est déterminé par la pondération configurée sur chaque règle basée sur des regex et chaque règle extrait uniquement un seul résultat. Dans la technique IDE, tous les candidats possibles sont extraits, puis les biais de position, de validation et de similarité sont appliqués pour augmenter la confiance de chaque candidat, le candidat ayant la confiance la plus élevée à la fin de ce processus est la valeur extraite.
Apprentissage d'en-tête
[0055] Lafigure 5présente la technique d'extraction d'apprentissage d'en-tête 307. L'extraction500commence par une première prise de l'ensemble de données 501. Les données sont extraites502en recherchant des libellés tels que „Numéro de facture :“, „Facture n° :“ (et bien d'autres) à l'aide d'une série d'expressions regex. Pour chaque libellé trouvé, recherchez le texte à droite et en dessous du libellé concernant tout ce qui pourrait être un numéro de facture (essentiellement n'importe quelle chaîne alphanumérique). Pour chaque candidat trouvé, nous appliquons ensuite une série de „règles“ qui modifient la confiance du candidat. Par exemple, la probabilité d'être en haut à droite, la probabilité d'être à 40 % en haut de la page, la probabilité de n'avoir que des caractères en majuscules, la probabilité d'avoir plus de 50 % de caractères numériques, la faible probabilité d'avoir un espace blanc, la faible probabilité d'avoir des caractères non alphanumériques,
[0056] Si le fournisseur est connu, vérifiez la probabilité que le numéro de facture soit similaire aux numéros de facture précédents pour ce fournisseur, c'est-à-dire (INV0001, INV0002, INV0003). Lorsque vous prenez la valeur numérique des numéros de facture précédents de ce fournisseur (1, 2, 3), il est probable que le numéro de facture actuel aura une valeur numérique supérieure à la dernière facture de ce fournisseur.
[0057] Une fois que tous les candidats ont été analysés, nous sélectionnons ensuite le candidat ayant la confiance la plus élevée.
[0058] Ce processus est utilisé pour extraire le numéro de facture503, le numéro de bon de commande504, les données de facturation505, les montants506et les autres champs507. Une fois que toutes les données ont été extraites, les données sont validées508pour constater que les données ont du sens. Par exemple, vérifiez que les champs de date contiennent une date proche de la date actuelle et que le numéro de bon de commande corresponde à un bon de commande existant pour le fournisseur particulier. S'il y a des erreurs ou des avertissements509, alors stockez les données extraites et le nombre de problèmes dans une variable510et recherchez plus de données511 àanalyser. S'il y a plus de données, redémarrez le processus avec l'ensemble de données de correction501.
[0059] S'il n'y a plus de données511, prenez les résultats ayant le plus petit nombre de problèmes512, et définissez l'indicateur „corrections nécessaires“513avant de terminer le processus d'extraction 515.
[0060] S'il n'y a aucune erreur ou aucun avertissement509, préparez une correspondance de ligne514et terminez l'extraction515.
Capture de postes
[0061] Pour capturer chaque ligne de la section tableau de facture, recherchez l'emplacement d'une ligne d'en-tête, le meilleur candidat correspond à la plupart des en-têtes de colonne (code d'article, quantité, description, prix unitaire, prix étendu) sur une seule ligne de texte. En parcourant le PDF à partir du bas de la ligne d'en-tête et jusqu'à ce que le total/sous-total soit trouvé, analysez chaque ligne de texte pour identifier les champs clés. Si un en-tête de colonne est manquant, nous pouvons identifier la valeur la plus probable sur la base de différents critères et d'un processus d'élimination ; par exemple Quantité X Prix = Total ligne fournira une validation pour la ligne. Le contexte du bon de commande peut être utilisé pour identifier des valeurs sur la base des données attendues. Ceci est particulièrement pertinent pour le code d'article.
Matériel
[0062] Les composants électriques requis pour actionner la fonctionnalité décrite ici sont des dispositifs à usage déterminé qui doivent avoir les installations nécessaires pour faire fonctionner les algorithmes ci-dessus. En regardant lafigure 6, nous constatons un processeur de serveur multicoeur à usage déterminé601avec une grande mémoire RAM (peut-être de 56 Go, dans certains modes de réalisation) pour traiter rapidement la fonctionnalité OCR et exécuter les opérations de traitement d'image. Le serveur est relié électriquement à un dispositif de numérisation604, à un écran d'ordinateur602et à Internet603. De plus, le processeur601est relié électriquement ou optiquement à un ou plusieurs dispositifs de stockage de masse contenant une base de données de fournisseurs connus605et une base de données ERP606. Dans certains modes de réalisation, la base de données ERP606est reliée à un serveur différent et peut être située à distance du serveur601.
[0063] Il doit être compris que de nombreux éléments discutés dans cette description peuvent être mis en œuvre dans un ou plusieurs circuits matériels, un circuit exécutant un code logiciel ou des instructions qui sont codées dans des supports lisibles par ordinateur accessibles aux circuits, ou une combinaison d'un ou de plusieurs circuits matériels et d'un circuit ou d'un bloc de commande d'un circuit intégré exécutant un code lisible par machine codé dans un support lisible par ordinateur. En tant que tel, le terme circuit, module, serveur, application ou autre description équivalente d'un élément tel qu'il est utilisé dans toute description est, sauf indication contraire, destiné à englober un circuit matériel (qu'il s'agisse d'éléments discrets ou d'un bloc de circuit intégré), un circuit ou un bloc de commande exécutant un code codé dans un support lisible par ordinateur, ou une combinaison d'un ou de plusieurs circuits matériels et d'un circuit et/ou d'un bloc de commande exécutant un tel code.
[0064] Toutes les plages et limites de rapport divulguées dans la description et les revendications peuvent être combinées de n'importe quelle manière. Sauf indication contraire, les références à „un“, „une“ et/ou „les“ peuvent inclure un ou plusieurs éléments, et cette référence à un élément au singulier peut également inclure l'élément au pluriel.
[0065] Bien que les inventions aient été présentées et décrites par rapport à un certain mode de réalisation ou des modes de réalisation, des altérations et modifications équivalentes apparaîtront à l'homme du métier à la lecture et à la compréhension de cette description et des dessins annexés. En particulier en ce qui concerne les différentes fonctions remplies par les éléments décrits ci-dessus (composants, ensembles, dispositifs, compositions, etc.), les termes (y compris une référence à un „moyen“) utilisés pour décrire de tels éléments sont destinés à correspondre, sauf indication contraire, à tout élément qui remplit la fonction spécifiée de l'élément décrit (c'est-à-dire qui est fonctionnellement équivalent), même s'il n'est pas structurellement équivalent à la structure décrite qui remplit la fonction dans l'exemple de mode de réalisation illustré ici ou les modes de réalisation des inventions. De plus, bien qu'une caractéristique particulière des inventions puisse avoir été décrite ci-dessus en ce qui concerne uniquement un ou plusieurs des modes de réalisation illustrés, cette caractéristique peut être combinée avec une ou plusieurs autres caractéristiques des autres modes de réalisation, comme cela peut être souhaité et avantageux pour toute application donnée ou particulière.

Claims (18)

1. Appareil pour identifier un fournisseur associé à une facture, l'appareil comprenant : un processeur à usage spécial avec une pluralité de coeurs ; une mémoire reliée électriquement au processeur à usage spécial ; un dispositif de stockage de masse contenant une base de données de fournisseurs connus, le dispositif de stockage de masse étant relié électriquement au processeur à usage spécial ; dans lequel le processeur à usage spécial est configuré pour : diviser une image de la facture stockée dans la mémoire en une pluralité de régions, calculer une valeur de hachage perceptuel d'image pour chacune de la pluralité de régions, calculer une distance de Hamming entre la valeur de hachage perceptuel d'image de chacune de la pluralité de régions et pour chaque entrée dans la base de données des fournisseurs connus pour chacune de la pluralité de régions, et identifier le fournisseur associé à une plus petite distance de Hamming comme étant le fournisseur associé à la facture.
2. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour calculer la valeur de hachage perceptuel d'image avec un algorithme de moyenne.
3. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour calculer la valeur de hachage perceptuel d'image avec un algorithme de différence.
4. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour calculer la valeur de hachage perceptuel d'image avec un algorithme pHash.
5. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour réduire la facture à une grille de pixels huit par huit avant de calculer la valeur de hachage perceptuel d'image.
6. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour réduire la facture en niveaux de gris avant que le processeur à usage spécial ne calcule la valeur de hachage perceptuel d'image, en fonctionnement.
7. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est configuré pour diviser la pluralité de régions en trois régions, de sorte que la pluralité de régions est constituée de trois régions.
8. Appareil selon la revendication 1, dans lequel le processeur à usage spécial est en outre configuré pour identifier le fournisseur associé en comparant la plus petite distance de Hamming à un seuil et ajouter le fournisseur associé à la plus petite distance de Hamming à la base de données des fournisseurs connus si la plus petite distance de Hamming est supérieure au seuil.
9. Appareil selon la revendication 8, dans lequel le processeur à usage spécial est en outre configuré pour identifier le fournisseur qui est ajouté en tant que fournisseur associé à la facture.
10. Procédé pour identifier un fournisseur associé à une facture, le procédé comprenant : la division d'une image de la facture stockée dans une mémoire en une pluralité de régions par un processeur à usage spécial avec une pluralité de coeurs, dans lequel la mémoire est reliée électriquement au processeur à usage spécial ; le calcul d'une valeur de hachage perceptuel d'image par le processeur à usage spécial pour chacune de la pluralité de régions ; le calcul d'une distance de Hamming entre la valeur de hachage perceptuel d'image de chacune de la pluralité de régions et pour chaque entrée dans une base de données de fournisseurs connus pour chacune de la pluralité de régions ; et l'identification du fournisseur associé à la plus petite distance de Hamming en tant que fournisseur associé à la facture ; dans lequel un dispositif de stockage de masse contient la base de données des fournisseurs connus, le dispositif de stockage de masse étant relié électriquement au processeur à usage spécial.
11. Procédé selon la revendication 10, dans lequel la valeur de hachage perceptuel d'image est calculée avec un algorithme de moyenne.
12. Procédé selon la revendication 10, dans lequel la valeur de hachage perceptuel d'image est calculée avec un algorithme de différence.
13. Procédé selon la revendication 10, dans lequel la valeur de hachage perceptuel d'image est calculée avec un algorithme pHash.
14. Procédé selon la revendication 10, comprenant en outre la réduction de la facture à une grille de pixels huit par huit avant de calculer la valeur de hachage perceptuel d'image.
15. Procédé selon la revendication 10, comprenant en outre la réduction de la facture en niveaux de gris avant de calculer la valeur de hachage perceptuel d'image.
16. Procédé selon la revendication 10, dans lequel la pluralité de régions consiste en trois régions.
17. Procédé selon la revendication 10, comprenant en outre la comparaison de la plus petite distance de Hamming à un seuil et l'ajout du fournisseur associé à la plus petite distance de Hamming à la base de données des fournisseurs connus si la plus petite distance de Hamming est supérieure au seuil.
18. Procédé selon la revendication 17, dans lequel le fournisseur qui est ajouté est identifié en tant que fournisseur associé à la facture.
CH000326/2020A 2019-10-14 2020-03-19 Hachage d'image perceptuel partiel pour la déconstruction de factures. CH716698B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US16/600,613 US11501344B2 (en) 2019-10-14 2019-10-14 Partial perceptual image hashing for invoice deconstruction

Publications (2)

Publication Number Publication Date
CH716698A2 CH716698A2 (fr) 2021-04-15
CH716698B1 true CH716698B1 (fr) 2023-05-31

Family

ID=69171973

Family Applications (1)

Application Number Title Priority Date Filing Date
CH000326/2020A CH716698B1 (fr) 2019-10-14 2020-03-19 Hachage d'image perceptuel partiel pour la déconstruction de factures.

Country Status (3)

Country Link
US (1) US11501344B2 (fr)
CH (1) CH716698B1 (fr)
GB (1) GB2588251B (fr)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784587B (zh) * 2020-06-30 2023-08-01 杭州师范大学 一种基于深度学习网络的发票照片位置矫正方法
US20220309452A1 (en) * 2021-03-23 2022-09-29 International Business Machines Corporation Tracking consolidated shipment orders
US11694276B1 (en) 2021-08-27 2023-07-04 Bottomline Technologies, Inc. Process for automatically matching datasets
US11544798B1 (en) 2021-08-27 2023-01-03 Bottomline Technologies, Inc. Interactive animated user interface of a step-wise visual path of circles across a line for invoice management
CN113822361B (zh) * 2021-09-18 2024-02-02 重庆大学 一种基于汉明距离的sar图像相似程度度量方法和系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212617A1 (en) * 2002-05-13 2003-11-13 Stone James S. Accounts payable process
US8195672B2 (en) 2009-01-14 2012-06-05 Xerox Corporation Searching a repository of documents using a source image as a query
USD676860S1 (en) 2010-12-01 2013-02-26 Dell Products L.P. Display screen of a communications terminal with a graphical user interface
USD757054S1 (en) 2013-03-13 2016-05-24 Jpmorgan Chase Bank, N.A. Display screen or portion thereof with graphical user interface
US20170083785A1 (en) 2014-05-16 2017-03-23 AppCard, Inc. Method and system for improved optical character recognition
USD785016S1 (en) 2014-06-23 2017-04-25 Deutsche Bank Ag Display screen with graphical user interface
USD789954S1 (en) 2014-12-09 2017-06-20 Jpmorgan Chase Bank, N.A. Display screen or portion thereof with a graphical user interface
USD774052S1 (en) 2014-12-09 2016-12-13 Jpmorgan Chase Bank, N.A. Display screen or portion thereof with a graphical user interface
USD766952S1 (en) 2014-12-09 2016-09-20 Jpmorgan Chase Bank, N.A. Display screen or portion thereof with a graphical user interface
US9824299B2 (en) * 2016-01-04 2017-11-21 Bank Of America Corporation Automatic image duplication identification
CN105956020B (zh) * 2016-04-22 2019-11-05 广东精点数据科技股份有限公司 一种基于感知哈希的相似图像搜索方法和装置
US10095920B2 (en) 2016-07-28 2018-10-09 Intuit Inc Optical character recognition utilizing hashed templates
CN108241645B (zh) * 2016-12-23 2020-03-17 腾讯科技(深圳)有限公司 图像处理方法及装置
JP7387596B2 (ja) * 2017-07-20 2023-11-28 ラーバ アイディー プロプライアタリー リミティド 安全タグ
CN107622278A (zh) * 2017-09-01 2018-01-23 宁波诺丁汉大学 一种基于Android手机平台的专利图像识别方法
CN107657629A (zh) * 2017-10-27 2018-02-02 广东工业大学 一种目标的跟踪方法和跟踪系统
GB2582592A (en) * 2019-03-26 2020-09-30 Sony Corp A method, apparatus and computer program product for storing images of a scene

Also Published As

Publication number Publication date
GB2588251A (en) 2021-04-21
GB2588251B (en) 2021-10-13
CH716698A2 (fr) 2021-04-15
US20210110447A1 (en) 2021-04-15
US11501344B2 (en) 2022-11-15
GB201918199D0 (en) 2020-01-22

Similar Documents

Publication Publication Date Title
CH716698B1 (fr) Hachage d'image perceptuel partiel pour la déconstruction de factures.
US9934433B2 (en) Global geographic information retrieval, validation, and normalization
US10140511B2 (en) Building classification and extraction models based on electronic forms
US8879846B2 (en) Systems, methods and computer program products for processing financial documents
KR102351947B1 (ko) 이미지 검증의 자동화 기법
US8958605B2 (en) Systems, methods and computer program products for determining document validity
US10489671B2 (en) Location based optical character recognition (OCR)
US10339373B1 (en) Optical character recognition utilizing hashed templates
US20120027246A1 (en) Technique for collecting income-tax information
US20060112013A1 (en) Method and system for verifying check images
US9076140B2 (en) Image embedding apparatus and method
KR20090084968A (ko) 모바일 장치 시스템을 이용한 디지탈 이미지 아카이빙 및 검색
US20110052075A1 (en) Remote receipt analysis
CN111126370A (zh) 一种基于ocr识别结果的最长公共子串自动纠错方法及系统
CN115116068B (zh) 一种基于ocr的档案智能归档系统
US8593697B2 (en) Document processing
US20190370541A1 (en) System and method for determining originality of computer-generated images
US20230055042A1 (en) Partial Perceptual Image Hashing for Document Deconstruction
CN117114719B (zh) 基于供应链全流程的数字防伪方法
US11875109B1 (en) Machine learning (ML)-based system and method for facilitating correction of data in documents
US20230073775A1 (en) Image processing and machine learning-based extraction method
WO2023016925A1 (fr) Système d'extraction de données d'un document
AU2013101569B4 (en) Document Processing
FR3001562A1 (fr) Gestion informatisee de l'archivage de documents au moyen de codes a plusieurs dimensions
CN116071739A (zh) 自动生成文本识别模型训练数据的方法及装置、存储介质

Legal Events

Date Code Title Description
PK Correction

Free format text: CHANGEMENT DE REGISTRE EXAMEN QUANT AU FOND