EA040560B1 - METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING - Google Patents

METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING Download PDF

Info

Publication number
EA040560B1
EA040560B1 EA201992041 EA040560B1 EA 040560 B1 EA040560 B1 EA 040560B1 EA 201992041 EA201992041 EA 201992041 EA 040560 B1 EA040560 B1 EA 040560B1
Authority
EA
Eurasian Patent Office
Prior art keywords
document
entities
module
information
results
Prior art date
Application number
EA201992041
Other languages
Russian (ru)
Inventor
Кирилл Геннадьевич Тарасов
Антон Юрьевич Колесов
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Publication of EA040560B1 publication Critical patent/EA040560B1/en

Links

Description

Область техникиTechnical field

Представленное техническое решение относится в общем к области анализа изображений, а в частности к способам и системам интеллектуальной обработки электронного комплекта документов, например отсканированных документов клиентов банка.The presented technical solution relates in general to the field of image analysis, and in particular to methods and systems for intelligent processing of an electronic set of documents, for example, scanned documents of bank customers.

Уровень техникиState of the art

В настоящее время существует проблема оперативной и качественной обработки данных электронного комплекта отсканированных документов с целью проверки наличия обязательных заполненных полей документа из структурированных и неструктурированных документов, а также атрибутов подписанта, таких как подпись. Из уровня техники известны различные решения, выполненные с возможностью обработки документов, например клиента Банка, реализованные на базе ПО ABBYY FlexiCapture и пр. Также известно решение для проведения проверки комплекта документов, раскрытое в заявке US 2011134494 А1, опубл. 09.06.2011, в котором осуществляют чтение документа, имеющего множество страниц; проверку данных изображения каждой страницы документа, имеющего множество страниц, при этом проверяются определенные области изображения документа на наличие в них информации и ее отсутствие. Данное решение является наиболее близким аналогом.Currently, there is a problem of prompt and high-quality processing of data from an electronic set of scanned documents in order to check the presence of mandatory filled document fields from structured and unstructured documents, as well as signer attributes, such as a signature. In the prior art, various solutions are known that are made with the ability to process documents, for example, a Bank client, implemented on the basis of ABBYY FlexiCapture software, etc. Also known is a solution for checking a set of documents, disclosed in the application US 2011134494 A1, publ. 06/09/2011, in which a document having a plurality of pages is read; checking the image data of each page of a document having a plurality of pages, wherein certain areas of the document image are checked for the presence or absence of information. This solution is the closest analogue.

Существенным недостатком известных решений является низкая эффективность в выявлении ошибок при проверке документов на корректность их заполнения, поскольку в очень большом количестве случаев известные решения выдают результат ошибка есть, хотя ее на самом деле нет, все поля заполнены верно, но известное решение попросту не смогло найти их в тексте из-за того, что текст слабо структурирован. Также в известных решениях отсутствует механизм автоматизированного принятия решений по итогу упомянутой проверки.A significant drawback of the known solutions is the low efficiency in detecting errors when checking documents for the correctness of their filling, since in a very large number of cases, the known solutions give the result there is an error, although it actually does not exist, all fields are filled in correctly, but the well-known solution simply could not find them in the text due to the fact that the text is poorly structured. Also, in the known solutions, there is no mechanism for automated decision-making based on the results of the mentioned check.

Раскрытие изобретенияDisclosure of invention

Технической проблемой или задачей, поставленной в данном техническом решении, является создание нового эффективного, простого и надежного метода автоматизированной интеллектуальной обработки любых видов документов на корректность их заполнения.The technical problem or task posed in this technical solution is the creation of a new effective, simple and reliable method for automated intellectual processing of all types of documents for the correctness of their filling.

Техническим результатом является повышение эффективности и обеспечение высокой точности в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов.The technical result is to increase efficiency and ensure high accuracy in detecting errors during automated intellectual processing of documents.

Указанный технический результат достигается благодаря осуществлению способа интеллектуальной обработки документов, выполняемого по меньшей мере одним вычислительным устройством и содержащего этапы, на которых получают по меньшей мере одно изображение документа;The specified technical result is achieved due to the implementation of the method of intellectual processing of documents, performed by at least one computing device and containing the steps at which at least one document image is obtained;

распознают символы на изображении документа и преобразуют их в текстовую информацию;recognize characters in the document image and convert them into text information;

на основе текстовой информации определяют тип документа;on the basis of text information determine the type of document;

извлекают из текстовой информации набор сущностей с учетом типа документа;extracting from the text information a set of entities, taking into account the type of the document;

сравнивают набор сущностей с эталонным набором сущностей для данного документа;comparing the entity set with a reference entity set for the document;

на основе результатов сравнения упомянутых наборов сущностей формируют результаты обработки документа.on the basis of the results of comparison of the mentioned sets of entities, the results of processing the document are formed.

В одном из частных примеров осуществления способа документ представляет собой договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП).In one of the particular examples of the implementation of the method, the document is an agreement on individual lending conditions (ICC) or a guarantee agreement (DP).

В другом частном примере осуществления способа дополнительно выполняют этапы, на которых осуществляют детектирование на поступившем изображении документа атрибута подписанта; определяют расположение по меньшей мере одного атрибута подписанта на странице документа; при этом результаты обработки документа формируют с учетом информации о расположении по меньшей мере одного атрибута подписанта на странице документа.In another particular example of the implementation of the method, the steps are additionally performed, at which the signer's attribute is detected on the incoming image of the document; determining the location of at least one signer attribute on the document page; wherein the results of document processing are formed taking into account information about the location of at least one attribute of the signer on the document page.

В другом частном примере осуществления способа дополнительно выполняют этап, на котором определяют статус лица, которому принадлежит детектированный атрибут подписанта.In another particular embodiment of the method, the step is additionally performed, at which the status of the person to whom the detected signer attribute belongs is determined.

В другом частном примере осуществления способа дополнительно выполняют этапы, на которых получают идентификатор процесса; определяют набор моделей классификации текста на основе идентификатора процесса; преобразуют полученную текстовую информацию в набор векторов; обрабатывают набор векторов с помощью определенного ранее набора моделей классификации текста для определения типа документа.In another particular embodiment of the method, the steps are additionally performed, at which a process identifier is obtained; determining a set of text classification models based on the process ID; converting the received text information into a set of vectors; processing the set of vectors with the previously defined set of text classification models to determine the document type.

В другом частном примере осуществления способа дополнительно выполняют этапы, на которых делят набор сущностей на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие по меньшей мере из четырех слов; причем если в результате сравнения упомянутых наборов сущностей пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то формируют результаты сверки, в которые включается информация о успешном прохождении сверки данных; если упомянутые пороговые значения совпадающих слов по простым и сложным сущностям не достигнуты, то формируют результаты сверки, в которые включается информация о сущностях в наборе сущностей, не прошедших сверку; при этом результаты обработки документа формируют с учетом результатов сверки.In another particular embodiment of the method, the steps are additionally performed at which the entity set is divided into simple entities consisting of 1-3 words and complex entities consisting of at least four words; moreover, if as a result of comparing said sets of entities, the threshold values of matching words for simple and complex entities are reached, then reconciliation results are generated, which include information about the successful completion of data reconciliation; if said threshold values of matching words for simple and complex entities are not reached, then reconciliation results are generated, which include information about entities in the set of entities that have not passed reconciliation; in this case, the results of processing the document are formed taking into account the results of reconciliation.

В другом частном примере осуществления способа дополнительно выполняют этап, на котором определяют качество сканирования документа; причем результаты обработки документа формируют с учетом качества сканирования документа.In another particular embodiment of the method, an additional step is performed, at which the quality of scanning a document is determined; moreover, the results of processing the document are formed taking into account the quality of scanning the document.

- 1 040560- 1 040560

В другом предпочтительном варианте осуществления заявленного решения представлена система интеллектуальной обработки документов, содержащая по меньшей мере одно вычислительное устройство, и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ.In another preferred embodiment of the claimed solution, an intelligent document processing system is provided, comprising at least one computing device, and at least one memory device containing machine-readable instructions, which, when executed by at least one computing device, perform the above method.

Краткое описание чертежейBrief description of the drawings

Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых на фиг. 1 представлена общая схема взаимодействия элементов системы интеллектуальной обработки документов;The features and advantages of the present technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which in Fig. 1 shows the general scheme of interaction between the elements of the intelligent document processing system;

на фиг. 2 представлен пример отсканированного документа;in fig. 2 shows an example of a scanned document;

на фиг. 3 представлен пример общего вида системы интеллектуальной обработки документов.in fig. 3 shows an example of a general view of an intelligent document processing system.

Осуществление изобретенияImplementation of the invention

Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения.The concepts and terms necessary for understanding this technical solution will be described below.

В данном техническом решении под системой подразумевается в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).In this technical solution, the system means, among other things, a computer system, a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given, well-defined sequence operations (actions, instructions).

Под устройством обработки команд подразумевается электронный блок, вычислительное устройство, либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).A command processing device is an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).

Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.An instruction processing device reads and executes machine instructions (programs) from one or more data storage devices. The role of a storage device can be, but not limited to, hard drives (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.

Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.Program - a sequence of instructions intended for execution by a computer control device or a command processing device.

База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 database).Database (DB) - a collection of data organized in accordance with a conceptual structure that describes the characteristics of this data and the relationship between them, and such a collection of data that supports one or more areas of application (ISO / IEC 2382: 2015, 2121423 database).

В соответствии со схемой, приведенной на фиг. 1, система 10 интеллектуальной обработки документов содержит соединенные между собой модуль 11 преобразования данных; модуль 12 детекции подписей, модуль 13 извлечения данных, модуль 17 классификации документов пакета и модуль 18 бизнес-правил, состоящий из модуля 14 сверки данных, модуля 15 анализа свойств документа, модуля 16 принятия решения и модуля 19 анализа юридической валидности.In accordance with the diagram shown in Fig. 1, the intelligent document processing system 10 includes interconnected data conversion module 11; a signature detection module 12, a data extraction module 13, a package document classification module 17, and a business rule module 18, consisting of a data verification module 14, a document property analysis module 15, a decision module 16, and a legal validity analysis module 19.

Указанные модули могут быть реализованы на базе программно-аппаратных средств системы 10 интеллектуальной обработки документов, например на базе по меньшей мере одного вычислительного устройства, в частности микропроцессора, и по меньшей мере одного устройства памяти, содержащего машиночитаемые инструкции, написанные на языке программирования Python, для осуществления выполняемых модулями функций. Например, модуль 11 преобразования данных может быть реализован на базе инструмента для оптического распознавания символов (англ. optical character recognition, OCR). Модуль 12 детекции подписей может быть реализован на базе нейронной сети архитектуры YOLOv3, заранее обученной на типовом наборе подписей и печатей. Модуль 17 классификации документов пакета может быть реализован на базе программно-аппаратных средств системы 10, сконфигурированных для представления текста в виде векторов (например, TFIDF), и включать набор моделей классификации текста, например SVM или Random Fields. Модуль 13 извлечения данных может быть реализован на базе программно-аппаратных средств системы 10 и включать набор моделей для анализа семантики естественных языков word2vec, заранее обученную математическую модель - условные случайные поля (Conditional Random Fields) и вычислительные средства для обработки естественного языка (Natural Language Processing, NLP). Модуль 18 бизнес-правил, состоящий из модуля 14 сверки данных, модуля 15 анализа свойств документа, модуля 16 принятия решения и модуля 19 анализа юридической валидности, может быть реализован на базе программно-аппаратных средств системы 10, сконфигурированных в программно-аппаратной части таким образом, чтобы выполнять приписанные им ниже функции.These modules can be implemented on the basis of the firmware of the system 10 of intelligent document processing, for example, on the basis of at least one computing device, in particular a microprocessor, and at least one memory device containing machine-readable instructions written in the Python programming language, for implementation of the functions performed by the modules. For example, the data conversion module 11 may be implemented on the basis of an optical character recognition (OCR) tool. The signature detection module 12 can be implemented on the basis of a neural network of the YOLOv3 architecture, pre-trained on a typical set of signatures and seals. The package document classification module 17 may be implemented in system 10 firmware configured to represent text as vectors (eg, TFIDF) and include a set of text classification models, such as SVM or Random Fields. The data extraction module 13 can be implemented on the basis of the firmware of the system 10 and include a set of models for analyzing the semantics of natural languages word2vec, a pre-trained mathematical model - conditional random fields (Conditional Random Fields) and computing tools for natural language processing (Natural Language Processing , NLP). The business rules module 18, consisting of a data verification module 14, a document properties analysis module 15, a decision module 16, and a legal validity analysis module 19, can be implemented on the basis of the firmware of the system 10 configured in the firmware in this way to perform the functions assigned to them below.

На первом этапе работы системы 10 на модуль 11 преобразования данных и модуль 12 детекции подписей поступает по меньшей мере одно изображение документа, в частности отсканированного документа, например файл в формате многостраничного PDF, JPEG, TIFF или любого другого известного формата, который может использоваться для хранения в нем изображения отсканированного документа. Изображение документа может поступать от источника данных изображений 1, в частности непосредственно от устройства сканирования документов, например сканера, либо могут быть извлечены из соот- 2 040560 ветствующей базы данных изображений, в которую данные изображения документов заранее сохранены.At the first stage of the system 10 operation, the data conversion module 11 and the signature detection module 12 receive at least one image of a document, in particular a scanned document, for example, a file in multipage PDF, JPEG, TIFF or any other known format that can be used to store It contains images of the scanned document. The document image may come from an image data source 1, in particular directly from a document scanning device such as a scanner, or may be retrieved from an appropriate image database in which the document image data is stored in advance.

Также в соответствии с заранее заданным программно-аппаратным алгоритмом в модуль 17 классификации документов пакета и в модуль 18 бизнес-правил поступают данные об идентификаторе процесса от автоматизированной системы (АС) 2 Банка. Идентификатор процесса от АС 2 Банка может подаваться в упомянутые модули широко известными из уровня техники методами, например перед подачей документа на сканер или перед извлечением изображения документа из БД, согласно процессу, в рамках которого осуществляется проверка документа. На основе данных об идентификаторе процесса в дальнейшем определяется набор возможных типов документов, которые могут быть на изображении документа, поступившем в модуль 11 преобразования данных; набор сущностей, которые следует извлекать модулем 13, и данные о расположении подписей в документах. Например, данные о идентификаторе процесса могут указывать на то, что на вход модулю 17 классификации документов может приходить 2 типа документов: договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП), поэтому срабатывает соответствующий классификатор.Also, in accordance with a predetermined software and hardware algorithm, the package document classification module 17 and the business rules module 18 receive data on the process identifier from the automated system (AS) 2 of the Bank. The process ID from the Bank's AS 2 may be supplied to said modules by methods well known in the art, for example, before the document is fed to the scanner or before the document image is retrieved from the database, according to the process in which the document is checked. Based on the process ID data, a set of possible types of documents is subsequently determined, which may be on the image of the document received by the data conversion module 11; a set of entities to be retrieved by module 13, and data on the location of signatures in documents. For example, data on the process identifier may indicate that 2 types of documents can come to the input of the document classification module 17: an agreement on individual lending conditions (ICC) or a surety agreement (DP), therefore, the corresponding classifier is triggered.

Документом, изображение которого поступает на модуль 11 преобразования данных, может быть любой документ, состоящий по меньшей мере из одной страницы, которая может содержать атрибуты подписанта, и заполненный в соответствии с известным шаблоном. Документом может быть, например, документ/договор ИУК, подписанные клиентом банка, или договор поручительства (ДП). Документ может содержать поля, в которых указана информация о подписанте, например ФИО подписанта, адрес подписанта, номер карты подписанта, данные паспорта и пр., а также информацию о условиях договора, например условиях кредитования. В частности, согласно схеме, представленной на фиг. 2, в области 101 документа 100 может содержаться поле с информацией о номере упомянутого заявления, в области 102 поле с названием города, в области 103 - поле с датой заявления, в области 104 - поля с информацией о подписанте и условиях кредитования, в области 105 или 106 документа - изображения атрибутов подписанта, например изображение подписи.The document whose image is supplied to the data conversion module 11 may be any document consisting of at least one page, which may contain the attributes of the signer, and filled in accordance with a known template. The document can be, for example, an ITP document/agreement signed by a bank client or a suretyship agreement (SA). The document may contain fields that contain information about the signer, such as the signer's full name, signer's address, signer's card number, passport details, etc., as well as information about the terms of the agreement, such as credit conditions. In particular, according to the scheme shown in Fig. 2, in area 101 of document 100 may contain a field with information about the number of the mentioned application, in area 102 a field with the name of the city, in area 103 - a field with the date of the application, in area 104 - fields with information about the signatory and credit conditions, in area 105 or document 106 - signer attribute images, such as a signature image.

Модуль 11 преобразования данных осуществляет распознавание символов на изображении документа и преобразует их в текстовую информацию. Вместе с этим модуль 12 детекции подписей осуществляет детектирование на поступившем изображении документа атрибута подписанта, определяя его расположения на странице документа. Атрибут подписанта может отсутствовать на странице, эта информация также передается далее по схеме, приведенной на фиг. 1. Например, модуль 12 может определить, что изображение атрибута подписанта представляет собой изображение подписи в области 105 или 106 документа (см. фиг. 2), автоматически указав координаты найденных боксов 105 и 106. Соответственно данные о расположении атрибутов подписанта на странице документа или об их отсутствии модуль 12 направляет в модуль 19 анализа юридической валидности.The data conversion module 11 performs character recognition on the document image and converts them into text information. Along with this, the signature detection module 12 detects the signer's attribute on the incoming document image, determining its location on the document page. The signer attribute may not be present on the page, and this information is also passed on in the manner shown in FIG. 1. For example, module 12 can determine that the signer attribute image is a signature image in the document area 105 or 106 (see FIG. 2) by automatically indicating the coordinates of the found boxes 105 and 106. Accordingly, data about the location of the signer attributes on the document page or about their absence, module 12 sends to module 19 the analysis of legal validity.

Для детектирования изображений атрибутов подписанта используются известные алгоритмы работы нейронной сети архитектуры YOLOv3, обученной на отобранном наборе данных подписей и печатей, раскрытые, например, в статье, опубликованной в Интернет по адресу https://pireddie.com/media/files/papers/YOLOv3.pdf.To detect signer attribute images, the well-known algorithms of the YOLOv3 architecture neural network, trained on a selected set of signatures and seals data, are used, disclosed, for example, in an article published on the Internet at https://pireddie.com/media/files/papers/YOLOv3 .pdf.

Если изображение документа содержит атрибуты более одного подписанта, например изображение подписи клиента Банка и изображение подписи сотрудника Банка, то модуль 19 анализа юридической валидности может быть выполнен с возможностью определения статуса лица, которому принадлежит детектированные атрибуты подписанта. Для этого в памяти модуля 19 пользователем системы 10 может быть заранее задан перечень статусов лиц и информация о местоположении их атрибутов подписанта на изображении документа исходя из идентификатора процесса, данные о котором поступили от АС 2 Банка в модуль 18, причем информация о статусе лиц может указывать на то, какому лицу принадлежит атрибут подписанта, в частности, например, клиенту Банка или сотруднику Банка. Например, для статуса лица клиент Банка данные о местоположении могут указывать на то, что его атрибуты подписанта должны располагаться в области 105 документа, а для статуса лица сотрудник Банка данные о местоположении могут указывать на то, что его атрибуты подписанта располагаются в области 106 документа.If the document image contains the attributes of more than one signer, for example, a signature image of a Bank client and a signature image of a Bank employee, then the legal validity analysis module 19 can be configured to determine the status of the person who owns the detected attributes of the signer. To do this, in the memory of module 19, the user of system 10 can pre-set a list of statuses of persons and information about the location of their attributes of the signer on the document image based on the process identifier, data about which was received from AS 2 of the Bank to module 18, and information about the status of persons can indicate to which person the attribute of the signer belongs, in particular, for example, a client of the Bank or an employee of the Bank. For example, for the status of a Bank client person, the location data may indicate that its signer attributes should be located in the document area 105, and for the Bank employee person status, the location data may indicate that its signer attributes are located in the document area 106.

Соответственно модуль 19 анализа юридической валидности сравнивает данные о расположении изображения атрибута подписанта на странице документа, полученные от модуля 12, с упомянутыми сохраненными в памяти данными, в частности данными о местоположении атрибутов подписанта согласно типу процесса, определенного модулем 19 на основе полученных ранее данных о идентификаторе процесса и на основе результата сравнения определяет статус лица, которому принадлежит детектированный атрибут подписанта, т.е. на основе информации о расположении атрибута подписанта на изображении страницы документа. Данные о статусе лица и данные о расположении изображений атрибутов подписантов на странице документа модуль 19 направляет в модуль 16 принятия решений. Если в модуль 19 поступила информация об отсутствии атрибутов подписанта на изображении, то эту информацию модуль 19 перенаправляет в модуль 16.Accordingly, the legal validity analysis module 19 compares the location data of the signer attribute image on the document page received from the module 12 with said stored data, in particular the location data of the signer attributes according to the process type determined by the module 19 based on the identifier data obtained previously. process and, based on the result of the comparison, determines the status of the person who owns the detected signer attribute, i.e. based on information about the location of the signer attribute on the document page image. The data on the status of the person and the data on the location of the images of the attributes of the signers on the page of the document module 19 sends to the decision module 16 . If module 19 receives information about the absence of the signer's attributes in the image, then module 19 redirects this information to module 16.

Что касается текстовой информации, то ее модуль 11 преобразования данных направляет в модуль 13 извлечения данных и в модуль 17 классификации документов пакета. Модуль 17 на основе данных об идентификаторе процесса, поступивших от АС 2, определяет набор моделей классификации текста, который могут быть заранее заданы в упомянутом модуле 17 для каждого типа процесса пользователемAs for the textual information, the data conversion module 11 sends it to the data extraction module 13 and to the document classification module 17 of the package. Module 17, based on the process ID data received from AS 2, determines a set of text classification models that can be pre-defined in said module 17 for each type of process by the user

- 3 040560 системы 10, после чего полученную текстовую информацию модуль 17 преобразует в набор векторов, который обрабатывается определенным ранее набор моделей классификации текста для определения типа документа. Данные о типе документа модуль 17 передает в модуль 13, который извлекает из полученной текстовой информации от модуля 11 набор сущностей в соответствии с типом документа. Набор сущностей может включать ФИО, адрес, номер карты, дату документа, номер карты, данные паспорта, условия кредитования и т.д. Для извлечения из полученной текстовой информации набора сущностей модуль 13 выполняет токенизацию текстовой информации и подает токенизированную текстовую информацию на вход набору моделей word2vec, на выходе которого модуль 13 получает последовательность векторов.- 3 040560 system 10, after which the module 17 converts the received text information into a set of vectors, which is processed by a previously defined set of text classification models to determine the type of document. Module 17 sends data about the document type to module 13, which extracts from the received text information from module 11 a set of entities in accordance with the document type. An entity set may include a full name, address, card number, document date, card number, passport data, credit conditions, etc. To extract a set of entities from the received textual information, module 13 performs tokenization of textual information and supplies tokenized textual information as input to a set of word2vec models, at the output of which module 13 receives a sequence of vectors.

Далее внутри модуля 13 определяется обученная модель машинного обучения CRF (Conditional Random Fields) на основе данных о типе документа и последовательность векторов обрабатывается упомянутой обученной моделью, которая определяет набор сущностей. Обученные модели машинного обучения CRF для каждого типа документа могут быть заранее заданы в упомянутом модуле 13 пользователем системы 10. Модели машинного обучения, обученные методом CRF, широко используются в различных областях ИИ, в частности в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатике, компьютерной графике и пр.Next, within module 13, a trained CRF (Conditional Random Fields) machine learning model is defined based on document type data, and a sequence of vectors is processed by said trained model that defines a set of entities. The trained CRF machine learning models for each type of document can be pre-defined in the mentioned module 13 by the user of the system 10. Machine learning models trained by the CRF method are widely used in various areas of AI, in particular in speech and image recognition, text information processing, and also in other subject areas: bioinformatics, computer graphics, etc.

В альтернативном варианте реализации заявленного решения сущности могут быть извлечены при помощи технологии обработки естественного языка (Natural Language Processing, NLP). Данная технология широко известна из уровня техники (см., например, статью NLP. Основы. Техники. Саморазвитие. Часть 2: NER, опубликованную в Интернет по адресу https://habr.com/ru/company/abbyy/blog/449514/), и дополнительно более подробно не будет раскрываться в настоящем документе. Алгоритм обработки последовательности векторов также может выбираться в зависимости от типа документа.In an alternative implementation of the claimed solution, the entities can be extracted using natural language processing technology (Natural Language Processing, NLP). This technology is widely known from the prior art (see, for example, the article NLP. Fundamentals. Techniques. Self-development. Part 2: NER, published on the Internet at https://habr.com/ru/company/abbyy/blog/449514/ ), and will not be further disclosed in this document. The vector sequence processing algorithm can also be selected depending on the document type.

Полученный набор сущностей модуль 13 извлечения данных направляет в модуль 14 сверки данных. Также в модуль 14 подается эталонный набор сущностей модулем 18 бизнес-правил. Эталонный набор сущностей модулем 18 определяется на основе поступивших ранее данных об идентификаторе процесса из АС 2 Банка. Эталонный набор сущностей для каждого типа процесса может быть заранее задан в упомянутом модуле 18 пользователем системы 10. Полученные данные наборов сущностей модуль 14 делит на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие из по меньше четырех слов. Например, если на вход системе 10 поступил документ ИУК, то простыми сущностями будут являться, например, ФИО, сумма кредитования, дата начала договора, номер паспорта, дата выдачи паспорта и пр., а сложными сущностями будут являться, например, адрес, место выдачи паспорта и пр. Далее модуль 14 сверки данных переходит к этапу сравнения набора сущностей, полученного от модуля 13, с эталонным набором сущностей. Данные простых сущностей модуль 14 сверки данных приводит к одному формату, после чего сравнивает их. В данных сложных сущностей перед их сравнением расшифровываются общепризнанные сокращения, исключаются слова, не содержащие названия. Если установленные пользователем системы 10 пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то набор сущностей, полученный от модуля 13, проходит сверку данных. Если пороговые значения совпадающих слов по простым и/или сложным сущностям не достигнуты, то набор сущностей не проходит проверку. По итогу сравнения наборов сущностей модуль 14 сверки данных формирует результаты сверки, в которые включается информация о успешном прохождении сверки, либо в случае, если набор сущностей не прошел сверку, информация о сущностях в наборе сущностей, не прошедших сверку. Информация о наборе сущностей, полученная от модуля 13, вместе с текстовой информации и результатами сверки модулем 14 сверки данных направляются в модуль 15 анализа свойств документа.The resulting set of entities module 13 data extraction sends to the module 14 data reconciliation. Also, module 14 is supplied with a reference set of entities by module 18 of business rules. The reference set of entities is determined by module 18 on the basis of previously received data about the process identifier from AS 2 of the Bank. The reference set of entities for each type of process can be pre-specified in the mentioned module 18 by the user of the system 10. The module 14 divides the received data of entity sets into simple entities consisting of 1-3 words, and complex entities consisting of at least four words. For example, if system 10 received an ICC document as input, then simple entities will be, for example, full name, loan amount, contract start date, passport number, date of issue of a passport, etc., and complex entities will be, for example, address, place of issue passports, etc. Next, the data verification module 14 proceeds to the stage of comparing the entity set received from the module 13 with the reference entity set. Data of simple entities module 14 data verification leads to one format, and then compares them. In these complex entities, before they are compared, generally recognized abbreviations are deciphered, words that do not contain names are excluded. If the threshold values of matching words for simple and complex entities set by the user of the system 10 are reached, then the set of entities received from the module 13 passes the data verification. If the matching word thresholds for simple and/or complex entities are not reached, then the entity set fails the test. As a result of the comparison of entity sets, the data verification module 14 generates the results of the verification, which include information about the successful completion of the verification, or if the entity set did not pass the verification, information about the entities in the entity set that did not pass the verification. The information about the entity set received from the module 13, together with the textual information and the results of the verification by the data verification module 14, are sent to the document properties analysis module 15.

Вся собранная модулем 15 в ходе работы всех предыдущих модулей информация, в частности текстовая информация и результаты сверки от модуля 14 и изображения документа от источника 1, модулем 15 проверяется на то, что все необходимые пункты документа (или поля документа) содержатся в тексте документа. Для этого модуль 15 осуществляет обработку полученной текстовой информации методами NLP (нечеткое вхождение ключевых слов для каждого абзаца), по результатам которой модуль 15 определяет целостность документа. Алгоритм обработки NLP также может быть выбран на основе данных об идентификаторе процесса, которые ранее поступили в модуль 18 от АС 2 Банка. Для обработки полученной текстовой информации методами NLP был проанализирован набор типовых документов на распределение слов в абзацах документа и были найдены характерные слова и/или фразы для каждого абзаца документа, причем из разных его частей (начало, середина, конец). Таким образом, стали известны для каждого значимого (который должен присутствовать в документе для проверки целостности) абзаца документа его характерные слова. Далее было создано правило, согласно которому: если определенная доля слов или фраз встречается (fuzzy search) в абзаце документа, то данный значимый абзац найден. Если все необходимые абзацы (пункты) документа найдены в тексте, то целостность проверена успешно. В альтернативном варианте реализации заявленного решения целостность документа может быть проверена с помощью средств и методов, раскрытых в заявке US 2011134494 А1. На основе данных о целостности документа и данных сверки модуль 15 определяет качества сканирования изображения документа.All information collected by module 15 during the work of all previous modules, in particular textual information and the results of reconciliation from module 14 and the image of the document from source 1, is checked by module 15 to ensure that all the necessary paragraphs of the document (or fields of the document) are contained in the text of the document. To do this, module 15 processes the received text information using NLP methods (fuzzy occurrence of keywords for each paragraph), the results of which module 15 determines the integrity of the document. The NLP processing algorithm can also be selected based on the process ID data that was previously received by module 18 from AS 2 of the Bank. To process the received textual information using NLP methods, a set of typical documents was analyzed for the distribution of words in paragraphs of the document and characteristic words and / or phrases were found for each paragraph of the document, and from its different parts (beginning, middle, end). Thus, for each significant (which must be present in the document to check the integrity) paragraph of the document, its characteristic words have become known. Further, a rule was created according to which: if a certain proportion of words or phrases occurs (fuzzy search) in a paragraph of the document, then this significant paragraph is found. If all the necessary paragraphs (points) of the document are found in the text, then the integrity was checked successfully. In an alternative implementation of the claimed solution, the integrity of the document can be verified using the tools and methods disclosed in the application US 2011134494 A1. Based on the document integrity data and the verification data, module 15 determines the scan quality of the document image.

- 4 040560- 4 040560

Например, если сверка данных прошла успешно и данные о целостности документа указывают на то, что документ содержит все пункты, то модуль 15 присваивает изображению документа высокий показатель качества сканирования. Если результаты сверки указывают на то, что пороговые значения совпадающих слов по простым и/или сложным сущностям не достигнуты, причем данные о целостности документа указывают на то, что документ содержит не все пункты, то модуль 15 присваивает изображению документа низкий показатель качества сканирования. Информация о показателе качества сканирования модуль 15 передает в модуль 16 принятия решения.For example, if the data verification is successful and the document integrity data indicates that the document contains all items, then module 15 assigns a high scan quality score to the document image. If the reconciliation results indicate that the matching word thresholds for simple and/or complex entities are not met, and the document integrity data indicate that the document does not contain all items, then module 15 assigns a low scan quality score to the document image. Information about the indicator of the quality of the scan module 15 transmits to the module 16 decision.

Также модуль 15 анализа свойств документа выполнен с возможностью проверки не приложен ли документ от другого лица. Упомянутая проверка выполняется на основе данных о целостности документа и данных о уникальных сущностях набора сущностей, которые у различных клиентов отличаются или которые могут совпасть у различных клиентов с очень маленькой вероятностью (например, сущности, идентифицирующие подписанта). Анализ только лишь уникальных сущностей позволяет исключить те сущности, которые у разных клиентов могут повторяться, например, валюта кредита, которая чаще всего бывает в рублях и прочие сущности в зависимости от типа документа. Например, для документа ИУК или ПД уникальной сущностью является ФИО заемщика. Также уникальными сущностями могут быть ИНН, СНИЛС, серийный номер паспорта и т.д.Also, the document properties analysis module 15 is configured to check whether the document is attached from another person. Said verification is performed on the basis of document integrity data and entity set unique entity data, which are different for different clients or that can be the same for different clients with a very small probability (for example, entities that identify the signer). Analysis of only unique entities allows you to exclude those entities that may be repeated for different clients, for example, the loan currency, which is most often in rubles, and other entities depending on the type of document. For example, for an ITP or PD document, the name of the borrower is a unique entity. Also unique entities can be TIN, SNILS, passport serial number, etc.

Если уникальные сущности не совпадают (например, в отношении документа ИУК - ФИО заемщика), при этом данные о целостности документа указывают на то, что все пункты в документе присутствуют, то модуль 15 определяет, что документ, изображение которого поступило в систему 10, принадлежит другому лицу. Если модулем 15 было определено, что целостность документа неполная, при этом уникальные сущности набора сущностей, например, идентифицирующие подписанта, указывают на то, что документ, изображение которого поступило в систему 10, является документом данного лица, то модуль 15 формирует список сущностей, которые не прошли сверку. Соответственно, если уникальные сущности набора сущностей, идентифицирующие подписанта, совпадают с эталонным набором сущностей и данные о целостности документа указывают на то, что все пункты в документе присутствуют, то модуль 15 определяет, что упомянутый документ является документом данного лица. Алгоритмы модуля 15 анализа свойств параметризованы идентификатором процесса.If the unique entities do not match (for example, in relation to the ICC document - the full name of the borrower), while the data on the integrity of the document indicates that all items in the document are present, then module 15 determines that the document whose image entered the system 10 belongs to to another person. If the module 15 has determined that the integrity of the document is incomplete, and the unique entities of the entity set, for example, identifying the signer, indicate that the document whose image entered the system 10 is a document of this person, then the module 15 generates a list of entities that did not pass the test. Accordingly, if the unique entity set entities identifying the signer match the reference entity set and the document integrity data indicates that all items in the document are present, then module 15 determines that said document is that person's document. The algorithms of the property analysis module 15 are parameterized by the process ID.

Вся собранная в ходе работы всех предыдущих модулей документа информация, за исключением изображений документа, направляется в модуль 16 принятия решения. Если результаты сверки, полученные от модуля 14, являются положительными и данные, полученные от модуля 19, указывают на то, что все необходимые атрибуты подписантов присутствуют на изображении документа в соответствующих его областях (т.е. правило расположения всех подписей выполнено; в данном случае определяется количеству найденных подписей, по взаимному расположению их, исключая места где заведомо не может быть подписи), то модуль 16 записывает в хранилище результатов веб-сервиса 20 обработки документов информацию об успешном прохождении проверки документа. Например, если в пакете документов был только документ ИУК и ДП не требовался, то модуль 16 записывает в упомянутое хранилище вебсервиса 20 информацию об успешном прохождении проверки документа, а также информацию о решении, в частности, о том, что можно выдавать кредит. Дополнительно в генерируемые и записываемые в хранилище результаты обработки документов модулем 16 заносится информация о наборе сущностей и результаты сверки. Если данные, полученные от модуля 19, указывают на то, что атрибут подписанта отсутствует на изображении документа в соответствующей области, то модуль 16 принятия решения генерирует информацию о том, что что документ следует проверить человеком, в которую также включается информация о результатах сверки.All information collected during the work of all previous modules of the document, with the exception of the images of the document, is sent to the decision module 16 . If the reconciliation results received from module 14 are positive and the data received from module 19 indicate that all the necessary attributes of signers are present on the document image in its respective areas (i.e. the rule for the location of all signatures is satisfied; in this case is determined by the number of signatures found, according to their relative position, excluding places where there certainly cannot be a signature), then the module 16 writes information about the successful completion of the document verification in the results store of the document processing web service 20. For example, if the package of documents contained only the ICC document and the DP was not required, then the module 16 writes to the mentioned storage of the web service 20 information about the successful completion of the document verification, as well as information about the decision, in particular, that it is possible to issue a loan. Additionally, information about the set of entities and the results of reconciliation are entered into the results of document processing generated and recorded in the storage by module 16. If the data received from module 19 indicates that the signer attribute is not present on the image of the document in the corresponding area, then the decision module 16 generates information that the document should be checked by a human, which also includes information about the results of the reconciliation.

Соответствующие области (допустимый диапазон координат для атрибутов подписанта) могут быть определены модулем 18 на основе типа документа, который определяется на основе данных о идентификаторе процесса, поступивших от АС 2 Банка, и в дальнейшем поступают в модуль 16. Если результаты сверки являются отрицательными, то модуль 16 принятия решений извлекает из полученных данных информацию о всех сущностях из набора сущностей, которые не прошли сверку данных, и определяет типы этих сущностей. Если тип сущности указывает на то, что сущность является простой сущностью, а информация о качестве сканирования, полученная от модуля 15, указывает на то, что изображению документа назначен высокий показатель качества сканирования, то модуль 16 принятия решения генерирует информацию о том, что документ не прошел проверку, в которую также включается информация о результатах сверки, и что в выдаче кредита следует отказать. В то же время если информация о качестве сканирования указывает на то, что изображению документа назначен низкий показатель качества сканирования, то модуль 16 генерирует и записывает в хранилище результатов обработки документов вебсервиса 20 информацию о том, что документ следует проверить человеком, в которую также включается информация о результатах сверки.The corresponding areas (permissible range of coordinates for the attributes of the signer) can be determined by module 18 based on the type of document, which is determined on the basis of the process ID data received from AS 2 of the Bank, and then goes to module 16. If the reconciliation results are negative, then the decision module 16 extracts from the received data information about all entities from the set of entities that have not passed data validation, and determines the types of these entities. If the entity type indicates that the entity is a simple entity, and the scan quality information received from module 15 indicates that a document image has been assigned a high scan quality score, then decision module 16 generates information that the document is not passed a review, which also includes information about the results of the reconciliation, and that the loan should be denied. At the same time, if the scan quality information indicates that the document image is assigned a low scan quality score, then the module 16 generates and writes to the web service 20 document processing results store information that the document should be checked by a person, which also includes information about the reconciliation results.

Если сущность, не прошедшая сверку данных, является сложной сущностью, то модуль 16 принятия решения, независимо от показателя качества сканирования документа, генерирует и записывает в хранилище результатов обработки документов веб-сервиса 20 информацию о том, что документ следует проверить человеком, в которую также включается информация о результатах сверки. В сгенерированные результаты обработки документов при отрицательных результатах сверки также включается инфорIf the entity that has not passed data verification is a complex entity, then the decision module 16, regardless of the document scanning quality index, generates and writes to the web service 20 document processing results store information that the document should be checked by a person, in which also includes information about the results of the reconciliation. The generated results of document processing with negative reconciliation results also include information

- 5 040560 мация о наличии или отсутствии атрибутов подписанта.- 5 040560 information about the presence or absence of the signer's attributes.

Сгенерированные модулем 16 принятия решений результаты обработки документов могут быть получены через интерфейс веб-сервиса 20 или его API. Веб-сервис 20 формирует ответ в виде json с результатами обработки документа. Данные результаты обработки документов могут быть выведены на устройство отображения данных, например дисплей вычислительного устройства, такого как портативный или стационарный компьютер, терминал связи, мобильный телефон или смартфон, планшет и пр. Например, если документом являлся документ ИУК, то на устройство отображения данных дополнительно может быть выведено решение о выдаче кредита, в отказе в выдаче или о необходимости проверить документ вручную.The results of document processing generated by the decision module 16 can be obtained via the web service 20 interface or its API. Web service 20 generates a response in the form of json with the results of document processing. These results of document processing can be displayed on a data display device, for example, a display of a computing device, such as a portable or stationary computer, communication terminal, mobile phone or smartphone, tablet, etc. For example, if the document was an ICC document, then the data display device additionally a decision can be made to grant a loan, to refuse to issue a loan, or to check the document manually.

Таким образом, за счет того, что результаты обработки документа формируют на основе результатов сравнения набора сущностей, извлеченного из текстовой информации с учетом типа документа, с эталонным набором сущностей для данного документа, обеспечивается высокая точность в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов, а также ее эффективность, т.е. обеспечивается достижение указанного технического результата. Также за счет использования алгоритмов машинного обучения и NLP-методов, раскрытых в настоящей заявке, и типизации данных дополнительно повышается эффективность и точность в выявлении ошибок при проведении автоматизированной интеллектуальной обработки документов. Кроме того, представленное техническое решение обладает расширенными функциональными возможностями по сравнению с известными решениями, в частности: обеспечивает возможность автоматизированного принятия решения о выдаче кредита, выявления причины отказа либо обоснования передачи документа на проверку человеку; обеспечивает механизм проверки юридической валидности и комплектности документов. В общем виде (см. фиг. 3) система (200) интеллектуальной обработки документов содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205) и устройство для сетевого взаимодействия (206).Thus, due to the fact that the results of document processing are formed on the basis of the results of comparing the set of entities extracted from textual information, taking into account the type of document, with the reference set of entities for this document, high accuracy is ensured in detecting errors during automated intellectual processing of documents, and also its efficiency, i.e. the specified technical result is achieved. Also, through the use of machine learning algorithms and NLP methods disclosed in this application, and data typing, the efficiency and accuracy in detecting errors in automated document processing are further improved. In addition, the presented technical solution has enhanced functionality compared to known solutions, in particular: it provides the possibility of automated decision-making on issuing a loan, identifying the reason for refusal or justifying the transfer of a document for verification to a person; provides a mechanism for checking the legal validity and completeness of documents. In general terms (see Fig. 3), the system (200) of intellectual document processing contains one or more processors (201), memory facilities, such as RAM (202) and ROM (203), input / output interfaces connected by a common information exchange bus (204), input/output devices (205) and a device for networking (206).

Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (200) также необходимо учитывать графический процессор, например GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.The processor (201) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, manufacturers such as: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™ , Qualcomm Snapdragon™, etc. Under the processor or one of the processors in use in the system (200), it is also necessary to take into account the graphics processor, for example, NVIDIA GPU with a CUDA-compatible software model, or Graphcore, the type of which is also suitable for full or partial execution of the method, and can also be used for training and application of machine learning models in various information systems.

ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора.RAM (202) is a random access memory and is designed to store machine-readable instructions executable by the processor (201) to perform the necessary operations for logical data processing. The RAM (202) typically contains the executable instructions of the operating system and associated software components (applications, program modules, etc.). In this case, the RAM (202) may be the available memory of the graphics card or graphics processor.

ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.The ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), a solid state data drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media (CD-R/ RW, DVD-R/RW, BlueRay Disc, MD), etc.

Для организации работы компонентов системы (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь, PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.Various types of I/O interfaces (204) are used to organize the operation of system components (200) and organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific implementation of the computing device, which can be, but not limited to, PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.

Для обеспечения взаимодействия пользователя с вычислительной системой (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.To ensure user interaction with the computer system (200), various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch screen, a touchpad, a joystick, a mouse manipulator, a light pen, a stylus, a touch panel, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, indicator lights, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc.

Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться, Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.The networking means (206) provides data transmission via an internal or external computer network, such as an Intranet, Internet, LAN, and the like. As one or more means (206), an Ethernet card, a GSM modem, a GPRS modem, an LTE modem, a 5G modem, a satellite communication module, an NFC module, a Bluetooth and/or BLE module, a Wi-Fi module, and others

Дополнительно могут применяться также средства спутниковой навигации в составе системы (200), например GPS, ГЛОНАСС, BeiDou, Galileo. Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала.Additionally, satellite navigation tools as part of the system (200) can also be used, such as GPS, GLONASS, BeiDou, Galileo. The specific choice of elements of the device (200) for the implementation of various software and hardware architectural solutions may vary while maintaining the required functionality provided.

Модификации и улучшения вышеописанных вариантов осуществления настоящего техническогоModifications and improvements to the above embodiments of this technical

- 6 040560 решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.- 6 040560 solutions will be clear to those skilled in the art. The foregoing description is provided by way of example only and is not intended to be limiting in any way. Thus, the scope of the present technical solution is limited only by the scope of the appended claims.

Claims (8)

1. Способ интеллектуальной обработки документов для проверки на корректность их заполнения, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых получают по меньшей мере одно изображение документа;1. A method of intellectual processing of documents to check for the correctness of their filling, performed by at least one computing device, comprising the steps that receive at least one image of the document; распознают символы на изображении документа и преобразуют их в текстовую информацию;recognize characters in the document image and convert them into text information; на основе текстовой информации, полученной на предыдущем этапе, определяют тип документа;based on the text information obtained in the previous step, determine the type of document; извлекают из текстовой информации набор сущностей с учетом типа документа;extracting from the text information a set of entities, taking into account the type of the document; сравнивают набор сущностей с эталонным набором сущностей для данного документа;comparing the entity set with a reference entity set for the document; на основе результатов сравнения упомянутых наборов сущностей формируют результаты обработки документа, содержащие информацию об успешном прохождении проверки документа или информацию о том, что документ не прошел проверку.on the basis of the results of comparison of the mentioned sets of entities, the results of processing the document are formed, containing information about the successful passing of the document check or information that the document did not pass the check. 2. Способ по п.1, характеризующийся тем, что документ представляет собой договор об индивидуальных условиях кредитования (ИУК) или договор поручительства (ДП).2. The method according to claim 1, characterized in that the document is an agreement on individual lending conditions (ICC) or a guarantee agreement (DP). 3. Способ по п.1, характеризующийся тем, что дополнительно содержит этапы, на которых осуществляют детектирование на поступившем изображении документа атрибута подписанта; определяют расположение по меньшей мере одного атрибута подписанта на странице документа; при этом результаты обработки документа формируют с учетом информации о расположении по меньшей мере одного атрибута подписанта на странице документа.3. The method according to claim 1, characterized in that it further comprises the steps, which carry out the detection on the received image of the document attribute of the signer; determining the location of at least one signer attribute on the document page; wherein the results of document processing are formed taking into account information about the location of at least one attribute of the signer on the document page. 4. Способ по п.3, характеризующийся тем, что дополнительно содержит этап, на котором определяют статус лица, которому принадлежит детектированный атрибут подписанта.4. The method according to claim 3, further comprising the step of determining the status of the person who owns the detected signer attribute. 5. Способ по п.1, характеризующийся тем, что этап, на котором определяют тип документа на основе текстовой информации, содержит этапы, на которых получают идентификатор процесса;5. The method according to claim 1, characterized in that the stage at which the type of document is determined based on textual information, contains the steps at which a process identifier is obtained; определяют набор моделей классификации текста на основе идентификатора процесса;determining a set of text classification models based on the process ID; преобразуют полученную текстовую информацию в набор векторов;converting the received text information into a set of vectors; обрабатывают набор векторов с помощью определенного ранее набора моделей классификации текста для определения типа документа.processing the set of vectors with the previously defined set of text classification models to determine the document type. 6. Способ по п.1, характеризующийся тем, что этап, на котором сравнивают набор сущностей с эталонным набором сущностей, содержит этапы, на которых делят набор сущностей на простые сущности, состоящие из 1-3 слов, и сложные сущности, состоящие по меньшей мере из четырех слов;6. The method according to claim 1, characterized in that the step at which the entity set is compared with the reference entity set comprises the steps at which the entity set is divided into simple entities consisting of 1-3 words, and complex entities consisting of at least least four words; причем если в результате сравнения упомянутых наборов сущностей пороговые значения совпадающих слов по простым и сложным сущностям достигнуты, то формируют результаты сверки, в которые включается информация об успешном прохождении сверки данных;moreover, if as a result of comparing the said sets of entities, the threshold values of matching words for simple and complex entities are reached, then reconciliation results are generated, which include information about the successful completion of the data reconciliation; если упомянутые пороговые значения совпадающих слов по простым и сложным сущностям не достигнуты, то формируют результаты сверки, в которые включается информация о сущностях в наборе сущностей, не прошедших сверку;if said threshold values of matching words for simple and complex entities are not reached, then reconciliation results are generated, which include information about entities in the set of entities that have not passed reconciliation; при этом результаты обработки документа формируют с учетом результатов сверки.in this case, the results of processing the document are formed taking into account the results of reconciliation. 7. Способ по п.1, характеризующийся тем, что дополнительно содержит этап, на котором определяют качество сканирования документа;7. The method according to claim 1, characterized in that it further comprises the step of determining the quality of scanning the document; причем результаты обработки документа формируют с учетом качества сканирования документа.moreover, the results of processing the document are formed taking into account the quality of scanning the document. 8. Система интеллектуальной обработки документов, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп.1-7.8. An intelligent document processing system, comprising at least one computing device and at least one memory device containing machine-readable instructions, which, when executed by at least one computing device, performs the method according to any one of claims 1-7.
EA201992041 2019-09-17 2019-09-27 METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING EA040560B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019129251 2019-09-17

Publications (1)

Publication Number Publication Date
EA040560B1 true EA040560B1 (en) 2022-06-23

Family

ID=

Similar Documents

Publication Publication Date Title
CN110597964A (en) Double-record quality inspection semantic analysis method and device and double-record quality inspection system
US11853339B2 (en) Techniques and components to find new instances of text documents and identify known response templates
CN110147540B (en) Method and system for generating business security requirement document
US11769341B2 (en) System and method to extract information from unstructured image documents
US11961094B2 (en) Fraud detection via automated handwriting clustering
RU2702967C1 (en) Method and system for checking an electronic set of documents
CN112464927B (en) Information extraction method, device and system
EP4141818A1 (en) Document digitization, transformation and validation
US20240296691A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
RU2739342C1 (en) Method and system for intelligent document processing
US20240211542A1 (en) Text verification device with battery power supply
KR102282025B1 (en) Method for automatically sorting documents and extracting characters by using computer
Kumar Rai et al. Medical prescription and report analyzer
CN110555212A (en) Document verification method and device based on natural language processing and electronic equipment
US20230368557A1 (en) Image reading systems, methods and storage medium for performing entity extraction, grouping and validation
WO2021054850A1 (en) Method and system for intelligent document processing
EA040560B1 (en) METHOD AND SYSTEM FOR INTELLIGENT DOCUMENT PROCESSING
US11900705B2 (en) Intelligent engineering data digitization
WO2021075998A1 (en) System for classifying data in order to detect confidential information in a text
EA043496B1 (en) METHOD AND SYSTEM FOR CHECKING AN ELECTRONIC SET OF DOCUMENTS
WO2024030042A1 (en) Method and system for processing images of documents
RU2760637C1 (en) Method and system for retrieving named entities
Fekete et al. Examination of technologies that can be used for the development of an identity verification application
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
US20240338659A1 (en) Machine learning systems and methods for automated generation of technical requirements documents