CN110999264B - 用于将消息内容集成到目标数据处理设备中的系统和方法 - Google Patents

用于将消息内容集成到目标数据处理设备中的系统和方法 Download PDF

Info

Publication number
CN110999264B
CN110999264B CN201880053503.1A CN201880053503A CN110999264B CN 110999264 B CN110999264 B CN 110999264B CN 201880053503 A CN201880053503 A CN 201880053503A CN 110999264 B CN110999264 B CN 110999264B
Authority
CN
China
Prior art keywords
file
processing device
keywords
message content
description file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880053503.1A
Other languages
English (en)
Other versions
CN110999264A (zh
Inventor
E·R·洛佩兹·鲁伊斯
N·吉隆
P·克里恩
J·厄斯特勒
M·斯塔姆勒
M·万施莱登
S·布林德
T·斯塔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amadeus SAS
Original Assignee
Amadeus SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amadeus SAS filed Critical Amadeus SAS
Publication of CN110999264A publication Critical patent/CN110999264A/zh
Application granted granted Critical
Publication of CN110999264B publication Critical patent/CN110999264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1865Transactional file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/08Annexed information, e.g. attachments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的实施例提供一种将消息内容集成到目标处理设备(2)中的系统,所述目标数据处理设备(2)被配置为处理具有预定数据结构的输入数据,所述系统包括被配置为从执行消息接发应用(15)的消息接发客户端设备(14)接收消息的消息接发服务器(11),所述消息包括消息内容。其中,所述系统还包括被配置为将至少部分消息内容集成到目标数据处理设备(2)中的协调器设备(18),所述协调器设备(18)还被配置为:—从消息接发服务器(1)接收所述部分消息内容;以及—将从所述部分的消息内容导出的文件传送给文件处理设备(19),所述文件处理设备被配置为将每个接收的文件(190)变换成包括一组预定关键字的描述文件(191),至少一些关键字与一个或多个值相关联,所述协调器设备(18)被配置为从所述描述文件(191)导出具有所述预定数据结构的输入文件(190),并且将导出的输入文件(182)传送给目标数据处理设备(2),以由目标数据处理设备处理导出的输入文件。

Description

用于将消息内容集成到目标数据处理设备中的系统和方法
技术领域
本发明总体上涉及消息接发系统,特别地涉及用于将消息内容集成到目标数据处理设备中的方法、系统和计算机程序产品。
背景技术
在常规的消息接发系统中,用户可能需要将与公共项目相关的非结构化数据(诸如与开支相关的电子或数字化发票)输入与专用应用领域相关的目标数据处理设备(诸如开支报告系统(Expense Reporting System))中。然后,目标数据处理设备处理用户输入的数据,并且如果输入数据和收据是合规的,则开支报告系统针对由用户提供的一个或多个收据生成开支报告以处理。
在一些情况下,用户可以通过专用接口直接连接到目标数据处理设备,以针对每个操作或事务(例如商务旅行)手动填写表单,其中需要他或她输入收据或发票中包含的信息。
这样的交互对用户而言是麻烦、耗时的,并且是错误(打字错误等)的来源。此外,它们可能产生错误的信息,使得可能需要用户校验表单或者甚至再次输入数据。另外,当这样的交互是手动时,它们在所收集的信息的数量或丰富性方面也受到限制。
因此,需要用于将内容集成到目标数据处理设备中的改进的系统、方法和计算机程序产品。
发明内容
为了解决这些及其他问题,提供一种将消息内容集成到目标数据处理设备中的系统,目标数据处理设备被配置为处理具有预定数据结构的输入数据,系统包括被配置为从执行消息接发应用的消息接发客户端设备接收消息的消息接发服务器,该消息包括消息内容。系统还包括被配置为将至少部分消息内容集成到目标数据处理设备中的协调器设备,协调器设备还被配置为:
—从消息接发服务器接收所述部分消息内容;并且
—将从所述部分消息内容导出的文件传送给文件处理设备,文件处理设备被配置为将每个接收的文件变换成包括一组预定关键字的描述文件,至少一些关键字与一个或多个值相关联,协调器设备被配置为从所述描述文件导出具有预定数据结构的输入文件,并将导出的输入文件传送给目标数据处理设备,以由目标数据处理设备处理导出的输入文件。
在一个实施例中,协调器设备可以根据第一通信协议连接到消息接发服务器,和/或根据第二协议连接到消息接发应用,和/或根据第三通信协议连接到目标数据处理设备。
消息接发应用可以包括应用界面和应用扩展,该应用扩展被配置为生成对从由文件处理设备所提供的描述文件导出的输入文件在应用界面的专用区域中的呈现。
文件处理设备可以被配置为将所述部分消息内容的一个或多个数据项映射到预定的一组关键字中的至少一些关键字,文件处理设备被配置为根据所述部分消息内容生成描述文件,描述文件包括所述一组预定关键字,与描述文件的关键字相关联的一个或多个值是从映射到所述关键字的数据项导出的。
文件处理设备还可以被配置为根据从协调器设备接收的文件确定多组定位数据,每组定位数据对映射所述预定的一组关键字中的关键字的文件的数据项的位置进行标识,每组定位数据与映射到该数据项的关键字相关联地包括在描述文件中。
每组定位数据可以包括给定参考系中的定位坐标。
在一个实施例中,应用界面可以是图形应用界面,应用扩展被配置为在应用界面的专用区域中呈现描述文件。
文件处理设备还可以被配置为针对与所述预定的一组关键字中的给定关键字相关联的每个值确定得分,并且将针对与给定关键字相关联的值确定的得分包括在描述文件中。
应用扩展还可以被配置为在专用区域中显示消息内容部分的图像,并且生成映射关键字的消息内容部分的每个数据项的一个或多个可选突出显示项目的显示,显示在显示图像的位置的给定数据项的每个突出显示项目是根据标识该数据项的位置的一组定位数据确定的。
协调器设备可以被配置为将与消息相关联的消息标识符用于协调器设备与消息接发服务器和/或应用扩展、和/或文件处理设备和/或目标设备之间的每次交换。
还提供一种将消息内容集成到目标数据处理设备中的方法,目标数据处理设备被配置为处理具有预定数据结构的输入数据,方法包括从执行消息接发应用的消息接发客户端设备接收消息,消息包括消息内容。方法可以包括将至少部分消息内容集成到目标数据处理设备中,方法还被配置为确定从所述部分消息内容导出的文件,并将所述文件变换成包括一组预定关键字的描述文件,至少一些关键字与一个或多个值相关联,方法包括从所述描述文件导出具有预定数据结构的输入文件,并将导出的输入文件传送给目标数据处理设备,以由目标数据处理设备处理导出的输入文件。
还提供一种计算机程序产品,包括:
非暂时性计算机可读存储介质;以及
存储在所述非暂时性计算机可读存储介质上的指令,该指令当由处理器执行时,使处理器将消息内容集成到目标数据处理设备中,目标数据处理设备被配置为处理具有预定数据结构的输入数据,处理器还被配置为:
—从执行消息接发应用的消息接发客户端设备接收消息,该消息包括消息内容;
—将至少部分消息内容集成到目标数据处理设备中,
还使所述处理器确定从所述部分消息内容导出的文件,并将所述文件变换成包括一组预定关键字的描述文件,至少一些关键字与一个或多个值相关联,
—从所述描述文件导出具有预定数据结构的输入文件,并将导出的输入文件传送给目标数据处理设备,以由目标数据处理设备处理导出的输入文件。
附图说明
合并在本说明书中并构成本说明书的部分的附图例示说明本发明的各种实施例,并且连同上面给出的本发明的总体描述以及下面给出的实施例的详细描述一起,用于解释本发明的实施例。
—图1是包括用于将至少一个文件集成到目标数据处理设备中的系统的示例性操作环境的示意图;
—图2示出根据实施例的示例性应用界面;
—图3示意性地示出电子消息的示例性结构;
—图4是根据一些实施例的文件处理设备的示意图;
—图5是根据一些实施例的文件处理设备的数据提取引擎的示意图;
—图6表示根据一些实施例的应用界面的示例性视图;
—图7是描述根据一些实施例将至少一部分消息内容集成到目标数据处理设备中的方法的流程图;
—图8是描述根据一些实施例的由应用扩展进行的初始化处理的流程图;
—图9是说明根据一些实施例将文件附件集成到目标数据处理设备中的处理的流程图;
—图10是说明根据一些实施例的由文件处理设备实现的处理的流程图;
—图11是Json格式的示例性描述文件的视图;
—图12是说明一些实施例中的修正描述文件的处理的流程图;
—图13是计算设备或系统的图。
具体实施方式
图1是包括用于将至少一个文件集成到目标数据处理设备2中的系统100的示例性操作环境的示意图。系统100可以包括被配置为从执行消息接发应用15的消息接发客户端设备14接收电子消息12(诸如“电子邮件”、也被称为在线聊天的即时消息接发或者转播(feed)) 的消息接发服务器11。电子消息可以包括消息正文中包括的消息数据形式的消息内容,和/或附加到消息的一个或多个文件(也被称为“附件”或者“附加文件”)。消息内容可以与一个或多个操作(也被称为“事务”)相关。应用例如可以是Microsoft Outlook,消息接发服务器11 例如可以是Microsoft Exchange Server(Microsoft Outlook和 MicrosoftExchange Server是Microsoft公司的注册商标)。
目标数据处理设备2可以被配置为根据专用处理来处理具有预定数据结构并与目标操作相关的输入数据文件。
在本发明的一个示例性应用中,目标数据处理设备2可以是由公司或实体用于处理公司或实体的雇员的开支报告或者由个人用于管理其个人开支的开支处理设备(Expense Processing Device)或工具(也被称为开支报告设备(Expense ReportingDevice))。在公司上下文中,这样的开支处理设备2可以被配置为接收标识开支操作(例如商务旅行)的描述文件以生成使用户能够报销的开支报告(如果与开支相关的数据输入符合预定规则)。每项开支可以与表示由公司或者代表公司针对给定事务进行的一组开支的开支报表相关。开支处理设备 2可以位于每个客户端设备14内部(例如预装在用户设备上的桌面软件应用)或外部,和/或分布在多个计算机之间(例如以客户端—服务器软件应用的形式,诸如web应用)。在这样的示例性应用中,附件文件可以包括对应于与一项或多项开支相关的收据的附件,该附件例如是收据的照片或扫描件,由酒店、餐厅或出租车公司发送的与收据中开发票的服务相对应的PDF格式的电子发票。
消息接发服务器11可以被配置为接收电子消息、缓存接收的消息以及将消息发送到目的地设备。
每个客户端设备14(也被称为“用户设备”)可以是个人计算设备、平板计算机、精简客户端终端、智能电话和/或其他这样的计算设备。每个客户端设备14可以托管web浏览器和/或定制的应用软件(例如客户端系统),并且可以包括客户端用户界面。
更一般地,客户端设备14可以是被配置为执行与应用界面150相关联的消息接发应用15的任何适当的计算系统,用户能够通过该应用界面发送或接收电子消息。
每个电子消息12可以与唯一地标识该消息的唯一消息标识符相关联。
消息接发应用15可以包括用于将应用数据呈现到应用界面150中的界面管理器151。
消息接发服务器11可以被配置为如果消息内容包括附件则将每个电子消息连同附件文件一起存储在数据库中。
如本文中所使用的,“消息附件”(本文中也被称为“电子邮件附件”、“附加文件”或者简单地称为“附件”)指的是电子邮件中包括的电子文件或文档,电子文件由可点击的表示元素(诸如与文件名相关联的缩略图)表示。每个附加文件121具有诸如jpeg、gif、pdf、Word、 Html格式的文件格式。文件格式可以是“结构化的”或者“非结构化的”。消息附件可以包括具有不同格式的照片或图像。消息附件可以可替代地包括消息的正文中的文件,诸如讨论中的文件的邮件中图像或者其他再现。
系统100可以包括被配置为将消息接发应用15所接收的所选消息内容集成到目标数据处理设备2中的协调器设备18。消息内容可以是由应用处理的任何类型的消息中接收到的任何内容,诸如电子邮件、即时消息接发、转播的内容。在电子邮件的示例中,内容可以包括在电子邮件正文或者文件附件中。
为了帮助理解本发明的一些实施例,将参考将文件附件集成到目标数据处理设备中来进行以下描述,不过技术人员将易于理解本发明普遍适用于由消息接发应用15接收的消息内容。然而在下文中,“附件”或“附加文件”将被理解为包括任何消息中内容。
附件文件可以由协调器设备18根据几个与文件相关的标准(诸如文件名、文件扩展名、文件大小)来选择或过滤。
消息接发应用15可以包括被配置为将动态数据集成特征添加到应用15的可执行的应用扩展152(应用扩展也可以被称为“插件”、“外接程序”或者“扩展软件组件”)。特别地,应用扩展152可以被配置为管理应用界面150的专用区域并且与协调器设备18交互。应用扩展 152还可以被配置为生成对从协调器设备18接收的数据的呈现。
应用界面150,特别是由应用扩展152管理的应用界面的专用区域可以包括不同类型的图形元素,诸如窗口、文本输入域、图标、可选择的元素、诸如下拉菜单或列表框的图形控制元素、激活按钮等。
系统100还可以包括文件处理设备19(也被称为“文件变换设备”),该文件处理设备被配置为将非结构化格式的输入文件190转换或变换成具有目标数据处理设备2所支持的预定数据结构并且包括预定的一组关键字的描述文件191,至少一些关键字与一个或多个值相关联。
在本发明的针对开支报告或管理的应用中,一组关键字可包括为所有收据所共有的关键字(也被称为“必需关键字”),诸如:
—收据类型;
—收据的日期;
—收据的金额;
—供应商标识(开发票的公司的名称,诸如酒店名称、出租车公司等)。
一组关键字还可以包括取决于收据的子类型(例如出租车收据、酒店收据、餐厅收据)的关键字,诸如:
—出租车收据的出租车的路线(起点/终点);
—酒店收据的天数;
—酒店服务的附加服务:早餐、晚餐等。
协调器设备18可以被配置为:
—接收消息接发服务器11所存储的所选文件或者直接从消息接发客户端设备14接收所选文件(例如,用户可以将包括收据附件的电子邮件转发给协调器设备的组件);以及
—将从至少一些所选文件导出的一组文件传送给文件处理设备 19。
协调器设备18可以被配置为将从描述文件191导出的描述文件 182传送给目标数据处理设备2。在优选实施例中,协调器设备18可以响应于通过应用扩展152所处理的应用界面的专用区域从用户接收的输入来预先修正描述文件191。
特别地,应用扩展152可以被配置为使用界面管理器151生成对从文件处理设备所提供的描述文件191导出的描述文件的呈现。
然后,目标数据处理设备2能够处理从协调器设备18接收的描述文件182,并且根据目标数据处理设备的应用领域而发起专用处理。
在一些实施例中,由协调器设备18输入文件处理设备19的每个文件190(对应于原始文件附件121)可以与用户标识符和/或上下文 (在本发明的开支报告实现的例子中诸如旅行信息、公司信息、旅行收据的地点信息)相关联。
在本发明的针对开支报告生成或开支管理的应用中,根据本发明的实施例的系统100使得能够可靠地获取与开支相关的收据,而不需要用户经由与开支处理系统2的直接对接来将数据手动输入到表单中。开支处理系统2能够因此获取并核实每个收据,并且将其与用户账户进行核对,以使制造支出的用户能够报销。通过对开支处理系统 2获取开支数据进行简化、提高开支处理系统2获取开支数据的可靠性和速率,能够改善对用户进行报销的延迟。
此外,根据本发明的实施例,客户端设备14可以将与一个或多个开支报表相关的不同开支集成到开支处理设备2中,而不需要用户直接与开支处理设备对接或者在开支处理设备的界面中填写专用表单。
在一些实施例中,协调器设备18可以根据第一通信协议连接到消息接发服务器11,根据第二协议连接到消息接发应用150,根据第三通信协议连接到文件处理设备19,以及根据第四通信协议连接到目标数据处理设备2。
在一个实施例中,第一、第二、第三和第四通信协议可以是相同的。可替代地,第一、第二、第三和第四通信协议中的至少一些可以是不同的。
当用户启动消息接发应用15时,消息接发应用扩展152可以被自动启动。可替代地,可以响应于与存在于电子邮件中的文件附件相关的一个或多个条件(例如,如果电子邮件包括至少一个文件附件,或者如果电子邮件包括具有特定文件名或特定文件扩展名或特定文件大小的至少一个文件附件,或者与发件人、与电子邮件主题中包括的措辞相关的条件,或者可以通过机器学习使用以前提交的其他电子邮件而确定的其他条件)来动态启动消息接发应用扩展152。
在另一个实施例中,可以响应于通过用户点击而激活诸如按钮的专用激活元素来静态启动应用扩展152。这样的激活元素可以显示在应用界面15中,例如直接显示在电子邮件正文中或者显示在工具栏中。
消息接发应用扩展152的激活可以根据一个或多个条件(诸如与附件格式相关的条件)而触发对附加文件的子集的选择。消息接发应用扩展152的激活还可以触发每个所选文件的缩略图在应用界面的专用区域中的显示。
在另一个实施例中,用户可通过将附加文件移动到专用区域的拖放操作或者通过点击与每个附加文件相关联的选择按钮来直接选择附加文件。然后,应用扩展可以在专用区域中生成所选附件的可点击缩略图。在一些实施例中,应用扩展还可以以图像的形式显示正被集成到目标数据处理设备2中的每个文件附件(例如收据)的完整视图。在一些实施例中,用户能够放大/缩小最初以完整视图显示的所显示的文件附件,以帮助用户查看收据。
在一些实施例中,文件处理设备19可以是协调器设备18的部分。然而,将参考单独的文件处理设备19来进行对本发明的一些实施例的以下描述。
消息接发服务器11可以通过通信网络60与一个或多个客户端设备14通信。
协调器设备18可以存在于与文件处理设备19和/或目标数据处理设备2和/或消息接发服务器11相同的计算系统中。可替代地,协调器设备18、文件处理设备19和/或目标数据处理设备2和/或消息接发服务器11可以存在于不同的计算系统中并且通过一个或多个通信网络通信。
用于使系统100的两个设备之间能够进行通信的每个通信网络可以包括使数据能够交换的一个或多个专用和/或公共网络(例如因特网),诸如因特网、局域网(LAN)、广域网(WAN)、蜂窝语音/ 数据网络、一个或多个高速总线连接和/或其他这种类型的通信网络。诸如网络60的每个通信网络可以使用标准通信技术和/或协议,诸如 4G、以太网、802.11、TCP/IP(传输控制协议/网际协议)、HTTP(超文本传输协议)、FTP(文件传输协议)等。能够根据不同的数据交换技术和/或格式(诸如超文本标记语言(HTML)、JSON模型和可扩展标记语言(XML))通过每个网络交换数据。
在常规操作中:
—在传输模式下,消息接发客户端设备11可以请求消息接发服务器11将消息12传送给与在相同网络内或者其他可访问网络上的目的地客户端设备相对应的接收者指定项122中标识的一个或多个接收者。
—在接收模式下,客户端设备14可以以“推送”模式直接地、或者通过接收通知间接地从另一个客户端设备接收消息12,该通知告知在服务器12处接收到新消息,该客户端设备然后被配置为从服务器 11“拉取”所述消息。
安全令牌可以用于恢复文件和验证通信/交换。
参考图2,图中示出示例性应用界面150,其中根据示例性实施例,考虑的目标数据处理设备2是开支报告设备。根据这样的示例性实施例,消息接发应用扩展152的激活可以触发位于应用界面150的部分中的专用界面区域5中的显示。界面区域150可以包括界面区域的部分1500中的消息收件箱,该消息收件箱包括包含附件的当前电子邮件。在图2所示的示例性实施例中,专用区域5可以被划分成3个部分,例如包括:
—第一部分50(“图像视图部分”),
—第二部分51(“缩略图视图部分”),以及
—第三部分52(“核实表单视图部分”)。
可以提供第一部分50以在由协调器设备18处理每个附件期间显示该附件的图像视图,该图像视图可以是能够由用户移动或放大/缩小的完整视图。第二部分51可以包括相关附件(或者邮件中图像)的缩略图。可以提供第三部分52以显示从由文件处理设备19返回的描述文件191导出的核实表单。这使用户能够将由文件处理系统提取的表单的数据与显示在部分50中的对应的原始附加文件121相比较。
技术人员将易于理解表单不限于图2的示例中所示的表单字段,而是可以包括能够提取或推断的其他字段(例如,通过“地址”或“货币”数据项能够推断“国家”字段)。
显示在专用区域5中的文件可以由协调器设备18顺序处理。在这样的实施例中,协调器设备18对文件附件121的处理可以由用户触发。在本发明的更一般的应用中,可以类似地处理消息的任何内容。
图像视图部分50例如可以包括缩放元素501,用于使用户能够缩放或移动所显示的文件附件。在另一个实施例中,应用扩展152可以在每个独立的附加文件旁边的专用区域5的第二部分52中包括复选框,用户能够通过使用复选框来选择用于集成到目标数据处理设备2 中的一个附件。在另一个实施例中,可以根据任意顺序或者预定标准来自动处理文件附件。
在可替代的实施例中,所选文件(例如收据)可以由协调器设备 18和/或文件处理设备19并行处理。为了帮助理解本发明,出于例示说明的目的,将参考所选文件的顺序处理进行以下描述。
在一些实施例中,表单视图部分52还可以包括验证按钮520,用户可以对其进行选择以验证表单。
图3示意性地示出从消息接发客户端设备14发送给消息接发服务器11的电子消息12的示例性结构。
如图所示,电子消息12可以包括原始数据120、标识一个或多个接收者的接收者指定项122、消息附件121、唯一标识消息的消息标识符123、表示消息的属性(诸如消息有效期属性)的消息属性124。
图4是根据一些实施例的文件处理设备的示意图。
文件处理设备19可以包括:
—数据提取引擎192,被配置为使用至少一个提取算法(诸如OCR (光学字符阅读器)算法)提取非结构化文件190(例如与收据的扫描图像或照片相对应的收据图像)中的字符;数据提取引擎192从而可以从一个实施例中的作为输入接收的附件文件中提取数据,并且提供可以被存储在存储器193(提取数据存储器)中的数字化数据;
—映射器194,被配置为将预定的一组关键字196中的至少一些关键字映射到从由文件处理设备19作为输入接收的非结构化文件190 中捕获的数字化数据的一个或多个数据项;映射器194因此提供一组关键字,每个关键字与对应于映射到该关键字的数据项的一个或多个值相关联;
—描述文件生成器198,被配置为从输入文件190生成描述文件 191,该描述文件包括一组预定关键字196,每个关键字与从映射到该关键字的输入文件190的数据项导出的零个、一个或多个值关联。
在一个实施例中,要映射到附件文件的数据项的一组关键字196 可以根据文件附件的类型而预先过滤或者从协调器设备18接收,协调器设备18已根据检测出的文件附件的类型而预先从目标数据处理设备2检索出所述一组关键字。在本发明的开支报告/管理应用中,考虑收据子类型的文件附件,收据可以具有几个子类型(诸如出租车子类型、酒店子类型、餐厅子类型),每个收据子类型与预定的一组关键字相关联(出租车子类型收据例如可以与包括日期、金额、路线(起点/终点)、出租车公司名称等的一组关键字相关联)。
描述文件可以具有使用文本来传送包括属性-值对、并且可能还有数组数据类型或任何其他可串行化值的数据对象的任何格式,诸如 JavaScript对象表示法或者说JSON。
如本文中所使用的“描述文件”指的是使用文本来传送包括属性- 值对的数据对象的文档。
在一个实施例中,文件处理设备19还可以包括被配置为根据输入文件190确定多组定位数据的定位数据确定单元(positioning data determination unit,PDDU)。一组定位数据可以由数据提取引擎192 确定并由映射器194用于在表示附件文件190的图像中标识映射到预定的一组关键字196中的关键字的数据项的位置。标识映射到关键字的文件附件的数据项的位置的每组定位数据可以与该关键字相关联地插入描述文件191(例如JSON文件)中。
在一个实施例中,每组定位数据可以包括给定参考系(诸如由原始非结构化文件定义的2D参考系(X,Y))中的定位坐标(x,y)。
在一个实施例中,文件处理设备19可以包括得分确定单元197,得分确定单元197被配置为针对由映射器194映射到一些关键字的候选值确定得分。因此,针对与几个候选值相关联的给定关键字,可以为每个值分配得分。文件处理设备19还可以被配置为将针对与给定关键字相关联的每个值所确定的得分包括在描述文件191中。可替代地,文件处理设备19能够根据得分而根据相关性顺序呈现候选值。
在一些实施例中,可以针对被认为是由目标数据处理设备2触发处理所必需的关键字来确定得分。例如,在本发明的针对开支报告/管理的应用中,需要收据类型的文件附件至少具有日期关键字和金额关键字。
图5示出根据本发明的针对开支报告或管理的示例性应用的文件处理设备19的数据提取引擎192的示意表示。
文件处理设备19所接收的每个文件附件因此可以是收据。在一些实施例中,文件处理设备19可以接收由用户附加或以其他方式包括在电子邮件中的所有文件,处理每个文件,并且如果文件不是收据类型的文件则触发错误。在另一个实施例中,可以在处理的初始阶段处理每个文件附件,以校验该文件附件是否具有收据格式和/或检测收据的类型和/或检索与收据的类型相关联的关键字。
数据提取引擎192可以包括转换器1921,该转换器被配置为首先估计为了应用OCR和/或优化数据提取的性能而需要的文件附件的一个或多个属性。如果这些属性的值不是最优的,则可以例如通过以下方式来校验和/或规范化它们的值:
—旋转图像;或者
—如果相机所指示的分辨率低于真实分辨率,则核实并校正图像的分辨率(每英寸点数)。
数据提取引擎192还可以包括文件分类器1922,该文件分类器被配置为识别文件附件的类型(例如电子发票、收据等)以优化从文件附件提取数据。这样的文档类型可提供与文件附件的布局有关的信息,和识别要提取的信息的类型。
文件分类器1922可以被配置为通过比较文件附件和已知的一组类似参考文档(例如TAXI文本)来识别文件附件的类型(例如出租车、酒店等)。如果文档包括与文件附件的属性可比的一组属性,则可以认为该文档类似于文件附件。这样的参考文档可以根据过去的核对结果来确定、由用户输入来固定和/或不被用户的阈值无效。
文件分类器1922可以被配置为使用变换和过滤将表示文件附件图像的图像转换成特征向量,以提供规范化输入。在一些实施例中,这可以创建在文件大小和/或维度方面小得多的图像,该图像可以按比例缩小、具有强化边缘、单色以及具有均衡的亮度。
文件分类器1922可以基于如此获得的特征向量来推测文件类型。在一个实施例中,可以使用基于机器学习的方法从特征向量推断文件附件的一个或多个性质,诸如列数、页面的比率、文本主体的位置、标题位置等等。
在一个实施例中,如果以图像格式接收输入文件190,则数据提取引擎192可以包括被配置为进行OCR扫描以从文件附件产生文本并提取字词的OCR扫描仪1924。可替代地,可以根据输入文件190 的格式(例如HTML和PDF文本文件)而使用任何数据提取技术。
数据提取引擎192可以包括被配置为使用提取的数据(例如由 OCR扫描器1924提取的数据)来生成表示三个字母的重叠组的三字母组的语言分类器1925。这些三字母组的重复和存在可以用于将语言确定到一定置信水平(例如,三字母组“LAN”在西班牙语中比在英语中更常见)。数据提取引擎192还可以使用上下文数据来提高数据提取的可靠性或者导出某个关键字值,而不需要从OCR扫描中导出它们(例如已知的用户位置、旅行路线、来自照片的GPS坐标等)。在文件附件包括不止几种语言的实施例中,可以选择最占主导地位的语言:可以根据语言在整个文件中的使用水平,为每种语言分配主导度。主导度低于一定阈值的语言可以被忽略(例如,如果文件附件是包括法语餐厅名称的收据而收据是德语的,则德语会是主导语言)。通过识别文档的语言,语言分类器1925使数据提取引擎192能够使用诸如 OCR算法的提取算法来更好地识别文本以及文本所属于的语言。这避免了对扫描所有可能语言的需要,并且使得能够使用特定语言的字典。
语言分类器1925还可以使用可以由提取算法(例如OCR算法) 针对每种被检测的语言提供的语言位置数据,该语言位置数据识别使用该被检测语言的文件附件的位置或区域(例如,头一行是保加利亚语而最后一行是英语的指示)。
这使得能够使用提取算法(OCR算法)更好地解释文件附件的内容。
在可替代的实施例中,数据提取引擎可以被配置为将文本翻译成提取算法所支持的语言而不是使用语言分类器1925。
数据提取引擎192还可以包括使用提取算法(诸如OCR算法) 来提取文件附件121中的字符的信息提取器1926。信息提取器1926 还可以从文件附件121提取多组定位数据(例如坐标)。
技术人员将易于理解,本发明根据文件处理设备19所接收的输入文件190的类型而不限于使用OCR信息提取器。特别地,在一些实施例中,文件处理设备19可以接收包括不需要OCR的本地文本 (native text)的任何格式的输入文件190。仅出于例示说明的目的,将参考OCR提取算法来进行本发明的一些实施例的以下描述,则信息提取器1926被称为OCR信息提取器。
OCR信息提取器1926可以被配置为使OCR数据串行化如下。
OCR信息提取器1926可以首先使用坐标和格式来逐个字符地读取OCR扫描仪1924的输出。OCR信息提取器可以包括将这些字符变成目标格式的“连接器(Concatenator)”21。目标格式例如可以是要被送入用于解析文档的语法的串和/或将字符映射到它们的坐标和格式信息的索引。初始“连接”可以遵循文本的“自然”阅读顺序。然而,可以提供额外连接以使得能够识别不一定遵循这种初始顺序的短语。例如,在两列文档布局中,连接可以首先返回左列中的文本,然后返回右列中的文本。然而,在收据附件上,行项目可能被视为左列,而价格可能被视为右列。因此,可以提供返回横跨文档的整个宽度的行的“行式”连接。
关于文档的布局的重要信息可以被编码为返回的串中的特殊字符,以帮助解释该串。可以包括用于“文本块的起点”、“换行符”、“段落结尾”、“页面结尾”等的标记。因此,可以使关于文档的2维结构的信息可用于语法和正则表达式,否则,语法和正则表达式仅以1维字符流工作。
OCR信息提取器1926还可以被配置为使用语法和正则表达式来提取候选值。然后,可以使用与上下文无关的语法和正则表达式来在文本中搜索相关信息。例如,语法可以基于Unitex语法框架(http:// unitexgramlab.org/)。可以读取串以产生用于匹配的XML输出。然后,这样的XML输出可以被读取并变成对象表示。使用由“连接器”提供的索引,可以为每个对象分配一组定位数据,诸如给定参考系中的坐标数据。
这使得能够确定候选值,以基于其上下文进一步处理并丰富关于候选值的信息。例如,可以提取所有可能的金额(看起来可能是金额的文档的子串,例如“12.00”)。如果这样的串被“€”跟随,则该金额货币可被标记为欧元。如果它由“总金额”这个词前导,则它可以被标记为总金额的良好候选。可以以这样的方式编写语法,使得它们与构成该金额的最小字符串相匹配,而且与相关的前导或跟随文本相匹配 (如果有的话)。
另外,OCR信息提取器1926可以进行真实性校验和/或可能的验证测试。例如,IBAN具有内嵌的校验和,可以用于过滤假匹配或者带有OCR错误的匹配。
在本发明的针对开支报告的应用中,OCR信息提取器1926还可以被配置为通过搜索表示邮政编码和城市的组合的“锚点(anchor)” (例如“81593慕尼黑”)来进行地址提取。这样的锚点的匹配允许限制寻找完整地址的更复杂语法的搜索空间。这样的锚点匹配还可以具有另外的应用,例如用于确定文档的国家/城市而无需考虑详细地址。
为了映射收据的一些特定的必需关键字,文件处理设备19可以实现一些处理。
例如,OCR信息提取器1926还可以被配置为使用求和树来进行对文件附件(收据)中的所检测的金额(对应于金额关键字)的验证。在一些情况下,给定收据的相关金额可能不是单独列出的,而是与贡献于目标值的其他金额一起列出的。例如,总额可以是净额与VAT金额之和。值的可能组合可以被汇总为也在文档上找到的更大的值,并且可以应用一组规则来尝试寻找这样的项目之间的关系。
规则可以将角色分配给匹配的金额,比如净额、总额、总金额、现金金额等。
金额验证可以与其他提取策略组合使用或者在特定上下文中使用,诸如用于类似的收据。金额验证可以为置信度估计提供额外的参数。它可以独立于其他提取策略,并且可以不考虑这些提取策略所使用的性质,诸如文档上的位置、字体大小等。
金额验证处理可以从由文件处理设备19所接收的文件附件提取的完整的一组金额候选A开始。然后,可以应用为A中的每个金额a 产生A中汇总为a的其他金额的所有组合的子集和算法(subset-sum algorithm)。可以将组合变换成求和树。这样的求和树中的每个节点的值可以是其直接子节点(children)的值之和。然后,可以将树的结构、金额值和来自以前迭代的标签考虑进来而应用规则。可以在多次迭代中将规则应用于这些树,从而允许访问早期迭代的结果。一些规则可以使用某些上下文信息,比如国家和税率。规则可以分配标记角色候选的标签。例如,金额(1.19€)是在文档上找到的两个其他金额 (1.00€和0.19€)之和。在知道发行了收据的国家(德国)和该国中的VAT(增值税)税率(19%)的情况下,这三个金额可以被分别标记为总额、净额和VAT金额。附件中可能存在加起来可以达到总额的其他金额(例如0.70€、0.20€和0.10€)。这些其他金额则可以被认为是收据项目。
产生的标签不需要是正确的,因为它们被用作以下评分服务中的其他特征中的一个特征。
为了对与收据的必需金额关键字相对应的金额候选值进行评分,文件处理设备的得分确定单元197可以使用金额得分组件向每个金额分配与该金额表示收据的“总金额”的可能性相对应的概率。得分组件 197可以使用基于以前结果的每个提取金额的性质。每个金额性质可以是“真”或“假”,取决于某些条件和验证结果。例如,这样的性质可以是“是总额”或“在文档上多次出现”或“以较大字体书写”。可以根据在总金额、VAT或净额上观察到这样的性质(或者某些性质的这种组合)的频次为这些值分配权重。可以使用这样的权重来计算置信度得分。
由于这样的权重基于过去的观察,因此它们可以使用历史数据或者手动创建的示例来生成。
提取引擎192还可以被配置为进行供应商标识以标识与当前文件附件相对应的收据的发行供应商,以将候选值映射到供应商标识关键字。提取引擎192可以被配置为提取用于推断供应商身份的信息(诸如电话/传真号码、贸易注册号、VAT id、URL等)而不是从文件附件直接识别供应商。在给定适当的数据库的情况下,这样的信息可以用于推断供应商身份。在一些实施例中,可以通过用于推断的信息的类型来对所确定的一个或多个候选供应商身份(供应商身份关键字的候选值)进行加权,得分最高的供应商身份被认为是供应商身份。
由文件处理设备19如此生成的描述文件191可以被直接返回给目标数据处理设备2。
可替代地,在优选实施例中,描述文件191可以被返回给协调器设备18以进行修正。协调器设备18可以将与描述文件191本身相对应的描述文件181或者从描述文件191导出的描述文件传送给图1所示的应用15。
仅出于例示说明的目的,将参考将描述文件返回给协调器设备18 以进行修正的这样的实施例来进行以下描述。
当通过协调器设备将描述文件181返回给应用15时,应用扩展 152可以被配置为使用包括一组字段的核实表单在应用界面150的专用区域5(例如在第二部分52中)呈现提取的描述文件180,每个字段对应于描述文件181的关键字之一,并且每个字段具有描述文件181 中的分配给该关键字的值之一,或者根本没有值(如果文件处理设备 19未找到候选值)。分配给与描述文件181的关键字相对应的字段的值最初可以是描述文件中针对该关键字分配了最高得分的值。然后,用户可以手动或者通过使用可视化工具来校正该值。这使得能够通过与客户端设备14交互来修正描述文件,从而提高描述文件181相对于原始文件附件121的可靠性。
图6表示根据一些实施例的响应于从协调器设备18接收到描述文件181的应用界面150的视图。
在一个实施例中,应用扩展152还可以被配置为生成(例如从描述文件181中)针对每个已处理的文件附件121的关键字(例如金额关键字)找到的每个不同候选值的可选突出显示项目或框53的显示,以帮助用户核实表单。可以在根据标识描述文件181中的候选值的位置的一组定位数据确定的文件121的位置处显示每个突出显示框53。
突出显示框53可以具有诸如矩形的不同的形式和/或与取决于分配给候选值的得分的值的颜色代码相关联,以突出显示由文件处理设备19评估的候选值的相关性。例如,绿色代码可以用于突出显示为了完成表单而选择的值(得分最高),而红色可以用于突出显示其他候选值。如果用户点击红色突出显示元素,则可以使用对应的值来更新表单,并且该突出显示项目可以变成绿色,而曾为绿色的突出显示项目可以变成红色。
可替代地,可以使用不同的可视化项目根据分配给候选值的得分来突出显示描述文件181的关键字候选值的相关性。在一个示例性实施例中,还可以针对非用户母语的收据在图像上显示翻译覆盖 (translation overlay)。
用户可以点击与关键字的候选值相关联的突出显示框之一,以选择该候选值而不是描述文件中与最高得分相关联的候选值,或者确认与最高得分相关联的候选值。这可能导致应用界面150的专用区域5 的第三部分52中显示的核实表单的更新,和/或导致候选值的得分的更新,这可能涉及用于为所考虑的关键字确定的候选值的突出显示框 53根据颜色代码而发生颜色变化。
在一些实现中,应用扩展152可以包括进展跟踪器,以使用户能够跟踪所选文件的处理进度(未图示)。能够将这样的跟踪存储在应用上下文中。如果用户停止它的活动并随后返回到应用扩展152,则如果一些附件已被提交,则用户可以恢复它的被告知的活动。
用户可以针对每个关键字重复该处理并在需要时进行校正。当用户终止核实处理时,用户可以选择与表单相关联地设置的验证按钮 520,以触发将表单提交给协调器设备18。
协调器设备18可以将修正过的描述文件182(诸如表单)传送给目标数据处理设备,该描述文件是从其中由用户校正的值已被更新的中间描述文件181的更新版本导出的。在一个实施例中,修正过的描述文件182可以每个关键字仅包括一个值,分配给关键字的值是由用户针对该关键字校正(例如,通过直接输入或者通过选择突出显示值之一来手动校正)过的值,或者是具有最高得分的值(如果用户未校正该值或者主动确认了该值)。
在一个实施例中,协调器设备18可以还将从中间描述文件181的更新版本导出的描述文件183或者信号传送给文件处理设备19,以向设备19告知没有进行更新。传送给文件处理设备19的描述文件183 可以是与传送给目标数据处理设备2的描述文件182相同的描述文件,或者包括额外的信息。这使得文件处理设备19能够收集机器学习数据用于文件附件的后续集成,特别是用于文件处理设备19针对文件附件的这样的后续集成进行的后续映射和评分操作。
图7是描述根据一些实施例将所接收的消息内容的至少部分集成到目标数据处理设备2中的方法的流程图。
在步骤700中,从执行消息接发应用15的消息接发客户端设备 14接收电子消息12,电子消息12包括诸如附加到消息12的一个或多个文件121的消息内容。消息内容(例如文件)可以与给定操作或事务相关,诸如本发明的开支报告实现的相同开支。仅出于例示说明的目的,将参考由电子邮件的文件附件表示的消息内容来进行方法的一些实施例的以下描述。
每个文件121具有给定的文件格式,诸如pdf、gif、jpeg等。每个电子消息可以与消息标识符123相关联。
在步骤702中,可以将消息12连同文件一起存储在数据库中。
在步骤705中,可以将消息12的每个附加文件121转换或变换成包括一组关键字的描述文件191,其中至少一些关键字与一个或多个值相关联,诸如JSON文件。
在步骤706中,可以将从描述文件191导出的提取输入文件182 传送给目标数据处理设备2。
图8是描述根据一些实施例的由应用扩展152和协调器设备18进行的初始化处理的流程图。
在步骤800中,可以接收包括一个或多个文件附件121的电子邮件,每个文件附件具有预定格式(例如jpeg、gif、pdf、HTML文件)。
在步骤802中,可以例如响应于选择应用界面150中的激活按钮来激活应用扩展152。可替代地,可以基于电子邮件或附件属性(发件人、主题、文件格式、文件大小…)动态地或者自动地激活应用扩展152。
在步骤804中,客户端设备的消息接发应用15可以连接到消息接发服务器11,以要求加载扩展152。
在步骤806中,可以在打开的窗口或打开的内嵌框架中或者在应用界面150的专用区域5中显示初始化视图。初始化视图例如可包括专用区域5的部分51中的每个所选文件附件的缩略图、部分50中的第一文件附件的视图以及部分52中的初始化表单,初始化表单包括一组字段,诸如开支报告应用的“日期”、“国家”、“地址”、“收据的子类型”、“总价”、“货币”、“开支报表”字段。在一个实施例中,可以作为包括由协调器设备18从目标数据处理设备2提取的一组关键字的初始化数据的函数,和/或根据与当前文件附件121(显示在部分50中的文件附件121)相对应的收据的子类型,动态地生成初始化表单的字段。可替代地,初始化表单可以是由目标数据处理设备2定义的默认表单。
在一个实施例中,协调器设备18可以在处理的初始步骤中连接到目标数据处理设备2,以检索目标数据处理设备2所支持的文件附件的子类型的列表和/或与用户相关的正在进行的事务,以动态调整表单的字段。例如,如果目标数据处理设备2是开支报告工具,则协调器设备可以包括检索开支报告工具所支持(或需要或根据需要配置)的收据子类型的列表,和/或用户的一组正在进行的开支报表。
在步骤808中,协调器设备18可以连接到消息接发服务器11。在可替代的实施例中,协调器设备18可以自动连接到消息接发服务器 11而不需要进行特定步骤808。
在步骤809中,消息接发服务器11可以至少将文件附件121的子集传送给协调器设备18。在一个实施例中,消息接发服务器11可以仅将文件附件121中具有非结构化格式的文件传送给协调器设备。在另一个实施例中,消息接发服务器11可以将所有的文件附件121传送给协调器设备18,文件附件然后由协调器设备18过滤,以根据预定标准仅过滤文件附件的子集,过滤标准至少包括过滤文件附件121中具有非结构化格式的文件附件。
在本发明的开支报告应用中,所述子集的每个文件附件可以是收据(例如照片或者扫描的结果),诸如出租车或酒店收据或者非旅行开支(例如计算机、客户用餐、一批复印件)的收据。
在步骤810中,协调器设备18可以将每个文件附件转换成目标格式,例如提供具有最低维度和/或权重的文件附件,以由应用对它们的显示进行优化。例如,可以将PDF格式的文件附件转换成JPEG文件。
在步骤811中,协调器设备18可以将这样的目标格式的每个文件附件发送给客户端设备14上运行的消息接发应用15。
然后,应用扩展152可以在应用界面150的专用区域5中显示初始化视图,该初始化视图包括协调器设备18所接收的每个文件附件作为专用区域的部分51中的缩略图的显示,每个缩略图是可点击的图像。
初始化视图例如可以包括部分51中的每个所选文件附件的缩略图、部分50中的文件附件之一的视图以及专用区域的右侧部分中的初始化表单。初始化表单可以包括一组字段,诸如开支报告应用的“日期”、“国家”、“地址”、“收据的子类型”、“总价”、“货币”字段。在一个实施例中,可以作为包括由协调器设备18从目标数据处理设备2提取的一组关键字的初始化数据的函数,和/或根据与显示在专用区域5 的部分52中的当前文件附件121相对应的收据的子类型,动态地生成初始化表单的字段。可替代地,初始化表单可以是由目标数据处理设备2定义的默认表单。显示在左侧部分中的文件附件可以由应用扩展 152随机选择,或者对应于应用界面的中间部分中的第一个显示缩略图,或者对应于用户在专用区域5的部分51中(通过点击该缩略图) 选择的缩略图。
协调器设备18对显示在部分50中的文件附件的处理可以是自动触发的。
图9是说明根据一些实施例的由协调器设备18进行的将文件附件 121集成到目标数据处理设备2中的处理的流程图。
在步骤900中,当前文件附件的处理是由应用例如响应于选择专用区域的部分51中的文件而请求的,或者通过应用扩展152或协调器设备18选择文件而自动请求的。
在步骤902中,针对当前文件附件,如果协调器设备18之前未存储对应的附件文件,则协调器设备18可以向消息接发服务器11请求该附件文件。
在步骤904中,协调器设备18接收对应的图像。
在步骤905,协调器设备18将文件附件传送给文件处理设备19。在一些实施例中,协调器设备18可以预先对检索图像应用预处理以调整其格式或质量,而不是对从消息接发服务器11或者从协调器设备 18所维持的存储器检索的文件附件进行传送。
图10是说明根据一些实施例的由文件处理设备实现的处理的流程图。
在步骤1000中,从协调器设备18接收文件处理设备所支持的格式的文件附件(例如pdf、图像格式)。在一些实施例中,可以对文件附件190进行预处理以优化其处理。
在步骤1001中,将诸如OCR的至少一种提取算法应用于文件附件,以从文件190提取字符和/或定位数据。
在步骤1002至1005中,对从文件附件提取的数据进行解析,并根据包括一组关键字的预定数据结构将该数据构造成描述文件。
具体地,步骤1002可以包括对提取的数据进行解析,以将预定的一组关键字中的每个关键字映射到从接收到的文件附件提取的数据的一个或多个数据项,每个被映射的数据项表示关键字的候选值。
步骤1003可以包括计算分配给关键字的每个候选值的得分。
在一些实施例中,可以使用机器学习数据来进行映射步骤和/或评分步骤。
在一个实施例中,步骤1004可以包括计算针对一个或多个关键字确定的每个候选值的一组定位数据,针对给定候选值确定的一组定位数据表示该候选值在文件附件中的位置。针对给定数据项确定的定位数据可以包括相对于非可编辑文件定义的给定参考系中的坐标。
在步骤1005中,可以将生成的描述文件返回给协调器设备18。
图11是Json格式的示例性描述文件190的摘录(伪代码)的视图。
如图所示,描述文件190包括一组关键字,每个关键字具有由文件处理设备19确定的一个或多个候选值,每个候选值与表示由文件处理设备确定的候选值的相关度的得分相关联。每个关键字还与表示原始文件附件121中的对应数据项的位置的一组定位数据相关联。
图12是说明根据一些实施例修正描述文件的处理的流程图。
在步骤1200中,协调器设备18从文件处理设备19接收描述文件 191。
在步骤1202中,可以将从描述文件191导出的描述文件181从协调器设备18传送给客户端设备14的应用15(描述文件181可以是描述文件191本身,或者是描述文件191的变换后的版本)。在一些实施例中,可以将对应的文件附件21同时传送给该应用。
在步骤1204中,应用扩展152可以以核实表单的形式在专用区域 5的部分52中生成对描述文件181的显示。如果对应的文件附件121 (诸如收据)在初始化阶段未被显示,则可以将其作为图像显示在专用区域5的部分50中,以使用户能够进行核实。表单包括一组字段,每个字段对应于描述文件的一个关键字。如果在启动应用扩展152时显示了表单的初始视图,则在步骤1204中可以根据描述文件181的内容更新表单的字段。对于每个表单字段,可以将描述文件181中与该表单字段相对应的关键字的得分最高的候选值分配给字段值。在一些实施例中,可以使用可视化元素在专用区域中突出显示或显示其他候选值,以根据针对候选值确定的得分来突出显示该候选值的相关性。在一个实施例中,可视化元素可以是直接叠加在专用区域5的部分50 中表示文件附件的图像上的可点击的突出显示框55,突出显示框的位置是根据与描述文件181中的候选值相关联的一组定位数据确定的。
在步骤1205中,响应于用户使用可视化元素55(例如通过点击专用区域5的部分R0中的突出显示框之一)选择另一个候选值,或者响应于用户(通过文本输入)直接在显示在专用区域5的部分52中的核实表单中进行校正,应用扩展可以更新专用区域5的部分52中的表单的给定字段的值。如果未针对关键字确定任何值,则用户还可以为空字段输入值。可以针对一个或多个关键字重复步骤1205,直到用户例如通过点击验证按钮(520)验证表单为止。用户输入也可以经历与文件处理设备19针对提取的数据进行的校验相同的校验。例如,由用户键入的IBAN号码具有与文件处理设备19所进行的校验和相同的校验和。
在步骤1206中,在用于访问目标数据处理设备2的认证数据(诸如密码和登录)存储在消息接发服务器11中或者外部数据库中的实施例中,应用扩展可以连接到消息接发服务器11以要求这样的认证数据。可替代地,协调器设备18可以直接请求这样的认证数据。
在步骤1208中,可以将可能具有认证数据的表单和更新过的字段值一起提交给协调器设备18。
在步骤1210中,可以使用校正后的值或者通过为用户没有对其校正值的每个关键字选择得分最高的值,来更新描述文件191,这提供修正过的描述文件。
可以由协调器设备18生成从修正过的描述文件导出的描述文件 182。导出的描述文件182(也被称为“经验证的描述文件”)可以是修正过的描述文件本身或者该描述文件的变换后版本。
在步骤1212中,经验证的描述文件182然后可以由协调器设备 18传送给目标数据处理设备2,以由目标数据处理设备2进行处理。步骤1214还可以包括将原始文件附件121以原始格式或者以目标数据处理设备所需的格式传送给目标数据处理设备2。
在一个实施例中,在步骤1216中,从修正过的描述文件导出的描述文件183还可以以文件处理设备所支持的格式传送给文件处理设备19,以使文件处理设备19能够收集元学习数据(描述文件183可以包括与具有相同格式或者其他格式的描述文件182相同的内容,或者包括附加数据)。这样的元学习数据能够由文件处理设备19用于文件附件的下一次变换。元学习数据可以用于确定候选值。例如,如果收据是出租车收据并且关键字之一是从地点A到地点B的给定路线的价格收据,则收集的元学习数据可以包括该路线的平均价格。
文件处理设备19可以将从用户收集的这样的反馈用于通过将由文件处理设备返回的文件描述与用户修正过的文件描述相比较来确定数据提取的准确性。可以将这样的元学习数据存储并用于系统的持续改进。通过使用存储的反馈数据,可以不断地重新训练文件处理设备 19。例如,为了重新训练得分确定单元197的“金额关键字得分”组件,可以收集来自结果存储器的反馈以及用于在金额得分组件中生成金额性质的中间结果。可以重新运行金额得分组件并将其结果与反馈数据相比较。如果存在差异,则可以更新在金额得分组件中使用的权重。
在针对开支报告或管理的应用中,目标数据处理设备2(开支报告/管理工具)因此可以管理收据,以在校验开支的合理性(例如开支是否与存在的旅行相关联)和/或其唯一性(例如两个用户是否提交了相同收据)之后为用户提交报销请求。在一个实施例中,这样的目标数据处理设备2例如可以通过协调器设备18向用户返回反馈,以指示正在处理与已处理的收据相对应的开支和/或已经触发了报销请求和/ 或传送的收据触发了合理性或唯一性错误。
应注意的是,虽然组合地描述了本发明的一些技术方面,但是在某些应用中可以单独使用它们。特别地,虽然结合消息接发应用的使用描述了文件处理设备,但是技术人员将易于理解,在一些实施例中文件处理设备19能够独立地用于将非结构化输入文件(诸如图像或 pdf文件)转换为结构描述文件。
本发明的实施例可以由包括一个或多个联网的计算机或服务器的计算系统来实现。
现在参考图13,可以在一个或多个计算机设备或系统(统称为计算机)(诸如计算机30)上实现客户端设备14、消息接发服务器11、协调器设备18、文件处理设备19、目标处理设备。计算机30可以包括处理器32、存储器34、大容量存储设备36、输入/输出(I/O)接口 38以及人机接口(HMI)40 。计算机30还可以经由网络22和/或I/O 接口38操作地耦合到一个或多个外部资源42。外部资源可以包括但不限于服务器、数据库、大容量存储设备、外围设备、基于云的网络服务或者可以由计算机30使用的任何其他适当的计算资源。
处理器32可以包括一个或多个设备,设备选自微处理器、微控制器、数字信号处理器、微计算机、中央处理单元、现场可编程门阵列、可编程逻辑器件、状态机、逻辑电路、模拟电路、数字电路或者基于存储在存储器34中的操作指令来处理(模拟或数字)信号的任何其他设备。存储器34可以包括单个存储设备或多个存储设备,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存、高速缓冲存储器或者能够存储信息的任何其他设备。大容量存储设备36可以包括数据存储设备,诸如硬盘驱动器、光盘驱动器、磁带驱动器、非易失性固态设备或者能够存储信息的任何其他设备。数据库44可以存在于大容量存储设备36上,可以用于收集和组织本文中描述的各种系统和模块所使用的数据。
处理器32可以在存在于存储器34中的操作系统46的控制下操作。操作系统46可以管理计算资源,使得实施为一个或多个计算机软件应用(诸如存在于存储器34中的应用48)的计算机程序代码可以具有由处理器32执行的指令。在可替代的实施例中,处理器32可以直接执行应用48,这种情况下可以省略操作系统46。一个或多个数据结构50也可以存在于存储器34中,并且可以由处理器32、操作系统 46和/或应用48用于存储或操作数据。
I/O接口38可以提供将处理器32操作地耦合到其他设备和系统 (诸如网络22和/或外部资源42)的机器接口。应用48从而可以通过经由I/O接口38进行通信来与网络22和/或外部资源42协同工作,以提供构成本发明的实施例的各种特征、功能、应用、处理和/或模块。应用48还可以具有由一个或多个外部资源42执行的程序代码,或者依赖于由计算机30外部的其他系统或网络组件提供的功能和/或信号。事实上,考虑到可能的硬件和软件配置几乎无穷无尽,本领域的普通技术人员将理解本发明的实施例可以包括位于计算机30之外的应用、分布在多个计算机或其他外部资源42之间的应用或者由通过网络22 作为服务(诸如云计算服务)提供的计算资源(硬件和软件)提供的应用。
HMI 40(诸如用户设备3的图1的实现中的HMI)可以按照已知方式操作地耦合到计算机30的处理器32,以允许计算机30的用户直接与计算机30交互。HMI 40可以包括视频和/或字母数字显示器、触摸屏、扬声器或者能够向用户提供信息的任何其他适当的音频和视觉指示器。HMI 40还可以包括能够接受来自用户的命令或输入并将输入的输入传送给处理器32的输入设备和控件,诸如字母数字键盘、指示设备、键区、按钮、控制旋钮、麦克风等。
数据库44可以存在于大容量存储设备36上,并且可以用于收集和组织本文中描述的各种系统和模块所使用的数据。数据库44可以包括数据以及存储并组织数据的支持数据结构。特别地,可以使用任何数据库组织或结构安排数据库44,包括但不限于关系数据库、层次数据库、网络数据库、面向对象数据库或者它们的组合。在处理器32上作为指令执行的计算机软件应用的形式的数据库管理系统可以用于响应于查询来访问数据库44的记录中存储的信息或数据,其中查询可以以由操作系统46、其他应用48或者一个或多个模块动态地确定并执行。虽然可以在具体示例中使用关系、层次、网络、面向对象或者其他数据库术语来在本文中描述本发明的实施例,但是本领域的普通技术人员将理解本发明的实施例可以使用任何适当的数据库管理模型,并且不限于任何特定类型的数据库。
实施本文中描述的本发明的任何实施例的程序代码能够以各种不同的形式作为程序产品单独或者集合地分配。特别地,可以使用计算机可读介质分配程序代码,该计算机可读介质可以包括计算机可读存储介质和通信介质。本质上非暂时性的计算机可读存储介质可以包括以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性以及可拆卸和不可拆卸的有形介质。计算机可读存储介质还可以包括RAM、ROM、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其它固态存储器技术,便携式光盘只读存储器 (CD-ROM)或其它光学存储器,盒式磁带、磁带、磁盘存储器或者其它磁存储设备,或者可以用于存储期望的信息并且可以被计算机读取的任何其他介质。通信介质可以包括计算机可读指令、数据结构或者其他程序模块。以举例但非限制的方式,通信介质可以包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、RF、红外和其他无线介质的无线介质。任何以上的组合也可以包括在计算机可读介质的范围之内。
本文中描述的方法可以用计算机程序指令来实现,计算机程序指令被提供给任何类型的计算机的处理器以产生具有执行该指令以实现本文中指定的功能/动作的处理器的机器。这些计算机程序指令也可以被存储在计算机可读介质中,计算机程序指令可以指导计算机以特定方式发挥功能。为此,计算机程序指令可以被加载到计算机上以使一系列操作步骤执行,从而产生计算机实现的处理,使得执行的指令提供用于实现本文中指定的功能/动作的处理。
另外,可以在本发明的具体实施例中基于在其中实现该程序代码的应用或软件组件来识别本文中描述的程序代码。然而,应意识到的是,以下任何特定的程序命名仅仅是为了方便而使用的,因此本发明不应局限于仅仅在由这样的命名所识别和/或暗示的任何具体应用中使用。还应意识到的是,本文中公开的各种特征、应用和设备可以单独地或以任何组合的形式来使用。此外,考虑到计算机程序可以被组织成例程、过程、方法、模块、对象等的方式的数量通常无穷无尽,以及可以在存在于典型计算系统内的各种软件层(例如,操作系统、库、API、应用、小程序等)之间和/或跨一个或多个硬件平台分配程序功能的各种方式,应意识到本发明的实施例不局限于本文中描述的程序功能的具体组织和分配。
虽然通过各种例子的描述例示说明了本发明的实施例,以及尽管相当详细地描述了这些实施例,但是申请人并非意图将权利要求书的范围限制或以任何方式局限于这样的细节。其他优点和修改对本领域的技术人员而言易于显现。因此,本发明在其更广泛的方面并不局限于所示和所述的具体细节、典型方法以及示范性例子。

Claims (11)

1.一种将消息内容集成到目标数据处理设备(2)中的系统,所述系统包括消息接发客户端设备,所述目标数据处理设备(2)被配置为处理具有预定数据结构的输入数据,所述系统包括被配置为从执行消息接发应用(15)的所述消息接发客户端设备(14)接收消息的消息接发服务器(11),所述消息包括消息内容,其中,所述系统还包括文件处理设备(19)以及被配置为将至少部分消息内容集成到目标数据处理设备(2)中的协调器设备(18),所述协调器设备(18)还被配置为:
—从消息接发服务器(11)接收所述部分消息内容;以及
—将从所述部分消息内容导出的文件传送给文件处理设备(19),所述文件处理设备被配置为将每个接收的文件变换成包括一组预定关键字的描述文件(191),至少一些关键字与一个或多个值相关联,所述协调器设备(18)被配置为从所述描述文件(191)导出具有所述预定数据结构的输入文件(190),并且将所导出的输入文件传送给目标数据处理设备(2),以由目标数据处理设备处理导出的输入文件;
其中,文件处理设备(19)被配置为将所述部分消息内容的一个或多个数据项映射到预定的一组关键字中的至少一些关键字,文件处理设备被配置为根据所述部分消息内容生成所述描述文件,所述描述文件包括所述一组预定关键字,与描述文件的所述关键字相关联的一个或多个值是从映射到所述关键字的数据项导出的;
其中,文件处理设备(19)还被配置为针对与所述预定的一组关键字中的给定关键字相关联的每个值确定得分,所述得分表示由文件处理设备确定的与所述给定关键字相关联的值的相关度,
所述文件处理设备还被配置为将针对与所述给定关键字相关联的每个值确定的得分包括在描述文件中,
其中,消息接发应用(15)包括应用界面(150)和应用扩展(152),所述应用扩展(152)被配置为生成对从由文件处理设备(19)所提供的描述文件(191)导出的输入文件在应用界面(150)的专用区域(5)的核实表单中的呈现,所述核实表单包括一组字段,每个字段与描述文件的关键字相对应,其中对于与关键字相对应的核实表单的每个字段,与关键字相关联的得分最高的值被分配给字段值,与关键字相关联的其他值从为所述其他值确定的得分来呈现。
2.根据权利要求1所述的系统,其中,协调器设备(18)根据第一通信协议连接到消息接发服务器(11),根据第二协议连接到消息接发应用(150),以及根据第三通信协议连接到目标数据处理设备(2)。
3.根据权利要求2所述的系统,其中,使用机器学习数据来执行评分。
4.根据前述权利要求中的任意一项所述的系统,其中,使用机器学习数据来执行映射。
5.根据权利要求4所述的系统,其中,文件处理设备(19)还被配置为根据从协调器设备(18)接收的所述文件确定多组定位数据,每组定位数据对映射所述预定的一组关键字中的关键字的文件的数据项的位置进行标识,每组定位数据与映射到该数据项的关键字相关联地包括在所述描述文件中。
6.根据权利要求5所述的系统,其中,每组定位数据包括给定参考系中的定位坐标。
7.根据权利要求1所述的系统,其中,所述应用界面(150)是图形应用界面,所述应用扩展(152)被配置为在所述应用界面(150)的专用区域中呈现所述描述文件。
8.根据权利要求5所述的系统,其中,所述应用扩展(152)还被配置为在所述专用区域中显示消息内容部分的图像,以及生成映射关键字的消息内容部分的每个数据项的一个或多个可选突出显示项目的显示,在所显示的图像的位置处显示的给定数据项的每个突出显示项目是根据标识所述数据项的位置的一组定位数据确定的。
9.根据权利要求1所述的系统,其中,协调器设备(18)被配置为将与消息相关联的消息标识符用于协调器设备(18)与消息接发服务器(11)、和/或应用扩展(152)、和/或文件处理设备(19)和/或目标数据处理设备(2)之间的每次交换。
10.一种将消息内容集成到目标数据处理设备(2)中的方法,所述目标数据处理设备(2)处理具有预定数据结构的输入数据,所述方法包括从执行消息接发应用(15)的消息接发客户端设备(14)接收消息,所述消息包括消息内容;
其中,所述方法包括将至少部分消息内容集成到所述目标数据处理设备(2)中,所述方法还包括确定从所述部分消息内容导出的文件,以及将所述文件变换成包括一组预定关键字的描述文件(191),至少一些关键字与一个或多个值相关联,所述方法包括从所述描述文件(191)导出具有所述预定数据结构的输入文件(190),以及将所导出的输入文件传送给目标数据处理设备(2),以由目标数据处理设备处理导出的输入文件;
所述方法还包括将所述部分消息内容的一个或多个数据项映射到预定的一组关键字中的至少一些关键字,以及根据所述部分消息内容生成所述描述文件,所述描述文件包括所述一组预定关键字,与描述文件的所述关键字相关联的一个或多个值是从映射到所述关键字的数据项导出的;
所述方法还包括针对与所述预定的一组关键字中的给定关键字相关联的每个值确定得分,以及包括将针对与所述给定关键字相关联的每个值确定的得分包括在描述文件中,所述得分表示由文件处理设备确定的与所述给定关键字相关联的值的相关度,
其中所述方法还包括生成对从描述文件(191)导出的输入文件在应用界面(150)的专用区域(5)的核实表单中的呈现,所述核实表单包括一组字段,每个字段与描述文件的关键字相对应,其中对于与关键字相对应的核实表单的每个字段,与关键字相关联的得分最高的值被分配给字段值,与关键字相关联的其他值从为所述其他值确定的得分来呈现。
11.一种非暂时性计算机可读存储介质,其上存储有指令,所述指令当被处理器执行时使所述处理器将消息内容集成到目标数据处理设备(2)中,所述目标数据处理设备(2)处理具有预定数据结构的输入数据,所述处理器还被配置为执行下述步骤:
—从执行消息接发应用(15)的消息接发客户端设备(14)接收消息,所述消息包括消息内容;
—将至少部分消息内容集成到所述目标数据处理设备(2)中,
还使所述处理器执行确定从所述部分消息内容导出的文件,以及将所述文件变换成包括一组预定关键字的描述文件(191)的步骤,至少一些关键字与一个或多个值相关联,
—从所述描述文件(191)导出具有所述预定数据结构的输入文件(190),以及将所导出的输入文件传送给目标数据处理设备(2),以由目标数据处理设备处理导出的输入文件;
还使所述处理器执行下述步骤:将所述部分消息内容的一个或多个数据项映射到预定的一组关键字中的至少一些关键字,根据所述部分消息内容生成所述描述文件,所述描述文件包括所述一组预定关键字,与描述文件的所述关键字相关联的一个或多个值是从映射到所述关键字的数据项导出的,针对与所述预定的一组关键字中的给定关键字相关联的每个值确定得分,以及将针对与所述给定关键字相关联的每个值确定的得分包括在描述文件中,所述得分表示由文件处理设备确定的与所述给定关键字相关联的值的相关度,
其中还使所述处理器执行下述步骤:生成对从描述文件(191)导出的输入文件在应用界面(150)的专用区域(5)的核实表单中的呈现,所述核实表单包括一组字段,每个字段与描述文件的关键字相对应,其中对于与关键字相对应的核实表单的每个字段,与关键字相关联的得分最高的值被分配给字段值,与关键字相关联的其他值从为所述其他值确定的得分来呈现。
CN201880053503.1A 2017-07-13 2018-07-06 用于将消息内容集成到目标数据处理设备中的系统和方法 Active CN110999264B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1756717 2017-07-13
FR1756717A FR3069075B1 (fr) 2017-07-13 2017-07-13 Systeme et procede pour integrer du contenu de message dans un dispositif cible de traitement de donnees
PCT/EP2018/068373 WO2019011804A1 (en) 2017-07-13 2018-07-06 SYSTEM AND METHOD FOR INTEGRATING MESSAGE CONTENT IN TARGET DATA PROCESSING DEVICE

Publications (2)

Publication Number Publication Date
CN110999264A CN110999264A (zh) 2020-04-10
CN110999264B true CN110999264B (zh) 2022-10-11

Family

ID=60923555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880053503.1A Active CN110999264B (zh) 2017-07-13 2018-07-06 用于将消息内容集成到目标数据处理设备中的系统和方法

Country Status (6)

Country Link
US (2) US11436192B2 (zh)
EP (1) EP3652917B1 (zh)
CN (1) CN110999264B (zh)
AU (1) AU2018299826B2 (zh)
FR (1) FR3069075B1 (zh)
WO (1) WO2019011804A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110138992A (zh) * 2018-02-08 2019-08-16 精工爱普生株式会社 收据处理装置、程序的存储介质以及报告的制作方法
US11543943B2 (en) * 2019-04-30 2023-01-03 Open Text Sa Ulc Systems and methods for on-image navigation and direct image-to-data storage table data capture
FR3099605B1 (fr) * 2019-08-02 2021-12-17 Amadeus Sas Dispositif, système et procédé pour traiter des images qui incluent des montants
US11461534B2 (en) * 2019-12-31 2022-10-04 Tech Footing, Llc System for dynamically generating content for professional reports based on continuously updated historical data
CN112134785B (zh) * 2020-09-14 2021-11-02 上海纽盾科技股份有限公司 网络安全等级保护中的信息处理方法、客户端及系统
CN114418551A (zh) * 2022-01-29 2022-04-29 北京字跳网络技术有限公司 一种票据处理方法、装置、电子设备和存储介质
CN114895987B (zh) * 2022-07-08 2022-09-30 英诺达(成都)电子科技有限公司 消息处理方法、装置、设备及计算机存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060089907A1 (en) * 2004-10-22 2006-04-27 Klaus Kohlmaier Invoice verification process
US8094976B2 (en) * 2007-10-03 2012-01-10 Esker, Inc. One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data
US9244698B2 (en) * 2010-09-14 2016-01-26 Microsoft Technology Licensing, Llc Download bar user interface control
US9602453B2 (en) * 2011-02-10 2017-03-21 International Business Machines Corporation Smart attachment to electronic messages
US20120278728A1 (en) * 2011-04-29 2012-11-01 Sling Media Inc. Download monitoring in a media distribution system
US10332213B2 (en) * 2012-03-01 2019-06-25 Ricoh Company, Ltd. Expense report system with receipt image processing by delegates
US9659327B2 (en) * 2012-03-01 2017-05-23 Ricoh Company, Ltd. Expense report system with receipt image processing
US8990112B2 (en) * 2012-03-01 2015-03-24 Ricoh Company, Ltd. Expense report system with receipt image processing
US9165068B2 (en) * 2012-08-03 2015-10-20 Adobe Systems Incorporated Techniques for cloud-based similarity searches
WO2014022919A1 (en) * 2012-08-10 2014-02-13 Transaxy Inc. System for entering data into a data processing system
US11126720B2 (en) * 2012-09-26 2021-09-21 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection
US20140288981A1 (en) * 2013-03-20 2014-09-25 Concur Technologies, Inc. Methods and systems for travel-based interactions
FR3021790B1 (fr) * 2014-05-30 2022-10-14 Amadeus Sas Procede et systeme d'echange de contenu
RU2613734C1 (ru) * 2015-10-22 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Захват видео в сценарии ввода данных
US20170255974A1 (en) * 2016-03-02 2017-09-07 Paypal, Inc. Context aware transaction management system
US10972495B2 (en) * 2016-08-02 2021-04-06 Invincea, Inc. Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space

Also Published As

Publication number Publication date
AU2018299826B2 (en) 2021-10-07
US11436192B2 (en) 2022-09-06
CN110999264A (zh) 2020-04-10
NZ760613A (en) 2021-11-26
US20200142862A1 (en) 2020-05-07
WO2019011804A1 (en) 2019-01-17
US11736587B2 (en) 2023-08-22
FR3069075B1 (fr) 2021-02-19
FR3069075A1 (fr) 2019-01-18
AU2018299826A1 (en) 2020-01-30
US20220358091A1 (en) 2022-11-10
EP3652917A1 (en) 2020-05-20
EP3652917B1 (en) 2024-05-08

Similar Documents

Publication Publication Date Title
CN110999264B (zh) 用于将消息内容集成到目标数据处理设备中的系统和方法
US11972201B2 (en) Facilitating auto-completion of electronic forms with hierarchical entity data models
US8468167B2 (en) Automatic data validation and correction
CN101297318B (zh) 用于混合介质文档系统的数据组织和访问
US9218568B2 (en) Disambiguating data using contextual and historical information
AU2019204444B2 (en) System and method for enrichment of ocr-extracted data
US20030088410A1 (en) Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US20080025608A1 (en) Landmark-based form reading with declarative language
US9411492B1 (en) Adding information to a contact record
US20140169665A1 (en) Automated Processing of Documents
US20080008391A1 (en) Method and System for Document Form Recognition
CN108701291B (zh) 在社交网络中利用用户信息的数字图像
JP2015090625A (ja) 帳票読取装置、プログラムおよび帳票読取システム
Pan et al. Natural language aided visual query building for complex data access
US20140177951A1 (en) Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document
US11593417B2 (en) Assigning documents to entities of a database
US20220121881A1 (en) Systems and methods for enabling relevant data to be extracted from a plurality of documents
NZ760613B2 (en) System and method for integrating message content into a target data processing device
JP2023507881A (ja) ドメインベースのテキスト抽出方法およびシステム
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
US20240155064A1 (en) Photo-based workflow initiation
AU2021107632A4 (en) A computer implemented system and method of providing an automated comparative insurance quote to a user
JPH1063813A (ja) イメージ文書管理方法及びその装置
EP4125026A1 (en) Product identification assistance techniques in an electronic marketplace application
US20230267274A1 (en) Mapping entities in unstructured text documents via entity correction and entity resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant