CN111311197A - 差旅数据处理方法及装置 - Google Patents
差旅数据处理方法及装置 Download PDFInfo
- Publication number
- CN111311197A CN111311197A CN202010146169.3A CN202010146169A CN111311197A CN 111311197 A CN111311197 A CN 111311197A CN 202010146169 A CN202010146169 A CN 202010146169A CN 111311197 A CN111311197 A CN 111311197A
- Authority
- CN
- China
- Prior art keywords
- travel
- information
- traveling
- key information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000010801 machine learning Methods 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000003058 natural language processing Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000012015 optical character recognition Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 230000010365 information processing Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 239000000872 buffer Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例提供一种差旅数据处理方法及装置,方法包括:接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统;本申请能够有效降低人为因素影响和潜在风险,提升差旅信息处理效率和准确性。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种差旅数据处理方法及装置。
背景技术
差旅申请作为企业差旅费用管控的重要环节,被广泛运用于企业财务费用合规管控流程。对于企业因公出差,比较普遍的做法是在出差发生之前就进行各种形式的申请或者备案,以便事后报销差旅财务费用时证明相关费用支出合理、合规。
发明人发现,目前由于产生出差需求的来源众多、形式各异,难以做到差旅申请信息的线上自动产生,只能人为识别出差需求中的人员、时间、地点等要素,再到差旅管控系统中手工录入对应信息,这种方式依赖于人工的介入,对信息的整理和系统的录入必然会消耗一定的时间和人力成本。同时,由于个体的理解差异以及在信息甄别中可能产生的遗漏或偏差,部分差旅申请在经过审批环节后又会被退回要求修正重提。这样的来回反复使得差旅报销在便捷性方面也成为了企业亟待解决的一个痛点。
发明内容
针对现有技术中的问题,本申请提供一种差旅数据处理方法及装置,能够有效降低人为因素影响和潜在风险,提升差旅信息处理效率和准确性。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种差旅数据处理方法,包括:
接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;
根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;
根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
进一步地,所述接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息,包括:
接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本;
对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
进一步地,所述根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息,包括:
对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词;
根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
进一步地,所述根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,包括:
遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件;
若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
第二方面,本申请提供一种差旅数据处理装置,包括:
图像识别模块,用于接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;
关键词提取模块,用于根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;
结构化处理模块,用于根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
进一步地,所述图像识别模块包括:
光学字符识别单元,用于接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本;
上下文关系校正单元,用于对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
进一步地,所述关键词提取模块包括:
文本拆分单元,用于对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词;
频次分析单元,用于根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
进一步地,所述结构化处理模块包括:
条件判断单元,用于遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件;
结构化转化单元,用于若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的差旅数据处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的差旅数据处理方法的步骤。
由上述技术方案可知,本申请提供一种差旅数据处理方法及装置,通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的差旅数据处理方法的流程示意图之一;
图2为本申请实施例中的差旅数据处理方法的流程示意图之二;
图3为本申请实施例中的差旅数据处理方法的流程示意图之三;
图4为本申请实施例中的差旅数据处理方法的流程示意图之四;
图5为本申请实施例中的差旅数据处理装置的结构图之一;
图6为本申请实施例中的差旅数据处理装置的结构图之二;
图7为本申请实施例中的差旅数据处理装置的结构图之三;
图8为本申请实施例中的差旅数据处理装置的结构图之四;
图9为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到目前由于产生出差需求的来源众多、形式各异,难以做到差旅申请信息的线上自动产生,只能人为识别出差需求中的人员、时间、地点等要素,再到差旅管控系统中手工录入对应信息,这种方式依赖于人工的介入,对信息的整理和系统的录入必然会消耗一定的时间和人力成本。同时,由于个体的理解差异以及在信息甄别中可能产生的遗漏或偏差,部分差旅申请在经过审批环节后又会被退回要求修正重提。这样的来回反复使得差旅报销在便捷性方面也成为了企业亟待解决的一个痛点的问题,本申请提供一种差旅数据处理方法及装置,通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
为了能够有效降低人为因素影响和潜在风险,提升差旅信息处理效率和准确性,本申请提供一种差旅数据处理方法的实施例,参见图1,所述差旅数据处理方法具体包含有如下内容:
步骤S101:接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息。
可选的,所述差旅信息图像可以为邮件截图,也可以为拍摄到的照片,其中包含有与差旅相关的各种类型的信息,可以用于差旅费用的报销审批,具体的,所述差旅信息图像中包含的各种类型的信息例如:出差人、出差日期、出差类型、出差事由、交通工具、目的地、同行人、出差说明等。
可选的,本申请可以采用光学字符识别技术(OCR)对所述差旅信息图像进行图像识别,以得到图中的非结构化的差旅文字信息。
步骤S102:根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息。
可选的,可以根据预设自然语言处理模型(例如现有的自然语言处理模型)对上述图像识别得到的非结构化的差旅文字信息(例如邮件文字内容)进行分析处理,识别并抓取邮件中的人员、时间、地点、机构、事由等关键要素(即所述差旅关键信息),以排除邮件中的无用与干扰信息。
步骤S103:根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
可选的,可以根据预设机器学习分类模型对上述自然语言处理后的差旅关键信息进一步完善,如通过发件人部门完善邮件内容中的‘我部’、通过发件人日期完善邮件内容中的‘下周’等,最终形成结构化的差旅关键信息,并可以自动填充至一对应的差旅审批系统或其他系统。
从上述描述可知,本申请实施例提供的差旅数据处理方法,能够通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
为了能够对用户发送的差旅信息图像(例如邮件截图或手机照片)进行准确识别,获取其中差旅文本信息,在本申请的差旅数据处理方法的一实施例中,参见图2,还可以具体包含如下内容:
步骤S201:接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本。
步骤S202:对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
可选的,所述光学字符识别是指检测影像文件中的字符信息并将其转化为机器编码文本的过程。整个识别过程可以通过如下步骤实现:
步骤1,图像输入:采集所要识别的图像,然后将图像输入到识别核心。
步骤2,图像预处理:包含二值化(将图像上的像素点灰度值设置为0或255,即将整个图像呈现出明显的只有黑和白的视觉效果)、去噪、倾斜度矫正等。
步骤3,版面分析:将所要识别的文档分段、分行处理。
步骤4,字符切割:定位出字符串的边界,然后分别对字符串进行单个切割,单个切割出来的字符再做识别。
步骤5,字符特征提取:提取字符特征,为后续的识别提供依据。
步骤6,字符识别:将当前字符提取的特征向量与特征模板库进行模板细分类和模板细匹配,识别出字符。
步骤7,版面恢复:将识别字符按照原来的版本排版,形成邮件内容的非格式化文本。
步骤8,后处理校正:根据特定的语言上下文关系,对识别结果进行校正的算法,以此得到差旅文字信息。
可以理解的是,经过光学字符识别技术处理完成的文本虽然较最初始的截图更易于被计算机“接受”,但与终级的智能填充目标还是有一定差距,因此需要对数据进一步加工。
为了能够对上述识别得到的差旅文本信息进行合理、准确的关键词提取,在本申请的差旅数据处理方法的一实施例中,参见图3,还可以具体包含如下内容:
步骤S301:对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词。
步骤S302:根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
可选的,可以采用自然语言处理技术进行关键词提取,自然语言处理(NLP)是指用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存贮、分析等加工处理的理论和方法。在本发明中,结合自然语言处理的不同层面——词法、句法与语义分析,将OCR识别后的文本拆分成独立的中文分词,并根据一种关键词提取算法,例如词频-逆文档频次算法(TF-IDF算法)将与差旅报销相关的特征词进行提取。
具体的,所述TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法)是指一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。TF算法是统计一个词在一篇文档中出现的频次,其基本思想是一个词在文档中出现的次数越多,则其对文档的表达能力也越强。IDF算法是统计一个词在文档集的多少个文档中出现,其基本思想是,如果一个词在越少的文档中出现,则其对文档的区分能力也就越强。具体可用下述公式表示:
为了能够对差旅关键信息中不清晰、不明确的内容进行进一步处理,以符合差旅要素的数据结构要求,在本申请的差旅数据处理方法的一实施例中,参见图4,还可以具体包含如下内容:
步骤S401:遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件。
步骤S401:若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
可选的,确定差旅关键信息后,下一步系统可以继续进行解析完善操作。通过采用机器学习算法从收、发件人信息、邮件主题、正文中提取关联关系,并结合情感分析技术加以分类,使原本非结构化的信息形成结构化的数据体系。
具体的,在该阶段的工程中,主要通过人工智能领域中的机器学习加以实现。其中,本发明通过朴素贝叶斯方法构建具有学习能力的自动分类器。它是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练集合,首先基于特征条件独立学习输入、输出的联合概率分布,然后在此模型上,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。算法的基本方法如下:
T={(x1,y1),(x2,y2),…,(xN,yN)};
通过训练集合学习联合概率分布P(X,Y)。一个实例的联合概率P(X,Y)计算方式:
P(X,Y)=P(X|Y)·P(Y)=P(Y|X)·P(X);
根据上面等式得到贝叶斯理论的一般形式:
朴素贝叶斯也可以表示为:
将相同分母去除后,公式简化为:
上述方法使得计算机在机器学习与预测方面效率都很高,同时也完成了非结构化信息的整理归纳,使其能够符合差旅审批系统的数据结构要求。
为了能够有效降低人为因素影响和潜在风险,提升差旅信息处理效率和准确性,本申请提供一种用于实现所述差旅数据处理方法的全部或部分内容的差旅数据处理装置的实施例,参见图5,所述差旅数据处理装置具体包含有如下内容:
图像识别模块10,用于接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息。
关键词提取模块20,用于根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息。
结构化处理模块30,用于根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
从上述描述可知,本申请实施例提供的差旅数据处理装置,能够通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
为了能够对用户发送的差旅信息图像(例如邮件截图或手机照片)进行准确识别,获取其中差旅文本信息,在本申请的差旅数据处理装置的一实施例中,参见图6,所述图像识别模块10包括:
光学字符识别单元11,用于接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本。
上下文关系校正单元12,用于对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
为了能够对上述识别得到的差旅文本信息进行合理、准确的关键词提取,在本申请的差旅数据处理装置的一实施例中,参见图7,所述关键词提取模块20包括:
文本拆分单元21,用于对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词。
频次分析单元22,用于根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
为了能够对差旅关键信息中不清晰、不明确的内容进行进一步处理,以符合差旅要素的数据结构要求,在本申请的差旅数据处理装置的一实施例中,参见图8,所述结构化处理模块30包括:
条件判断单元31,用于遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件。
结构化转化单元32,用于若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
为了更进一步说明本方案,本申请还提供一种应用上述差旅数据处理装置实现差旅数据处理方法的具体应用实例,具体包含有如下内容:
步骤1:光学字符识别。用户以附件形式上传邮件截图后,系统利用光学和计算机技术将截图信息转换为非结构化文字。
步骤2:自然语言处理。对前驱步骤所转换的非结构化邮件文字内容进行分析处理,识别并抓取邮件中的人员、时间、地点、机构、事由等关键要素,排除邮件中的无用与干扰信息。
步骤3:差旅信息完善,对自然语言处理后的差旅关键要素进一步完善,如通过发件人部门完善邮件内容中的‘我部’、通过发件人日期完善邮件内容中的‘下周’等,最终形成结构化的差旅要素信息。
步骤4:出差申请填写,对上述形成的差旅要素信息分门别类,并与出差申请页面上各条目进行匹配,自动完成页面的填充。
由上述描述可知,本申请至少还可以实现如下技术效果:
出差申请的自动化填充大大简化了申请人的操作,降低了潜在的风险,也减少了出差申请反复退回的可能性。另外,运用目前较为成熟的OCR和NLP技术,将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
从硬件层面来说,为了能够有效降低人为因素影响和潜在风险,提升差旅信息处理效率和准确性,本申请提供一种用于实现所述差旅数据处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现差旅数据处理装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的差旅数据处理方法的实施例,以及差旅数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,差旅数据处理方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图9是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,差旅数据处理方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息。
步骤S102:根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息。
步骤S103:根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
从上述描述可知,本申请实施例提供的电子设备,通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
在另一个实施方式中,差旅数据处理装置可以与中央处理器9100分开配置,例如可以将差旅数据处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现差旅数据处理方法功能。
如图9所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图9中所示的所有部件;此外,电子设备9600还可以包括图9中没有示出的部件,可以参考现有技术。
如图9所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的差旅数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的差旅数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息。
步骤S102:根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息。
步骤S103:根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统,本申请基于自然语言识别技术以及关键要素分析,对差旅信息图像(例如邮件截图或照片)进行智能识别语义,完善差旅要素,实现出差信息的自动收集与填报,并将人为因素的影响降到了最低,可以更加客观、准确的反映差旅的各项信息。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种差旅数据处理方法,其特征在于,所述方法包括:
接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;
根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;
根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
2.根据权利要求1所述的差旅数据处理方法,其特征在于,所述接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息,包括:
接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本;
对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
3.根据权利要求1所述的差旅数据处理方法,其特征在于,所述根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息,包括:
对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词;
根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
4.根据权利要求3所述的差旅数据处理方法,其特征在于,所述根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,包括:
遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件;
若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
5.一种差旅数据处理装置,其特征在于,包括:
图像识别模块,用于接收用户发送的差旅信息图像,并对所述差旅信息图像进行图像识别,得到差旅文字信息;
关键词提取模块,用于根据预设自然语言处理模型对所述差旅文字信息进行关键词提取,得到差旅关键信息;
结构化处理模块,用于根据预设机器学习分类模型对所述差旅关键信息进行结构化处理,并将经过所述结构化处理后的差旅关键信息填充至对应的差旅审批系统。
6.根据权利要求5所述的差旅数据处理装置,其特征在于,所述图像识别模块包括:
光学字符识别单元,用于接收用户发送的差旅信息图像并对所述差旅信息图像进行光学字符识别处理,得到差旅信息文本;
上下文关系校正单元,用于对所述差旅信息文本进行上下文关系校正,得到差旅文字信息。
7.根据权利要求5所述的差旅数据处理装置,其特征在于,所述关键词提取模块包括:
文本拆分单元,用于对所述差旅文字信息进行文本拆分,得到至少一个差旅中文分词;
频次分析单元,用于根据词频-逆文档频次算法对各所述旅中文分词进行频次分析,确定对应的重要程度和区分能力,并将所述重要程度和区分能力符合预设提取条件的差旅中文分词设定为差旅关键信息。
8.根据权利要求7所述的差旅数据处理装置,其特征在于,所述结构化处理模块包括:
条件判断单元,用于遍历所述差旅关键信息中的所有差旅中文分词,并判断所述差旅中文分词是否符合预设差旅要素的数据结构条件;
结构化转化单元,用于若不符合,则根据预设机器学习分类模型对所述差旅中文分词进行结构化转化,得到呈结构化的差旅中文分词。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的差旅数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的差旅数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010146169.3A CN111311197A (zh) | 2020-03-05 | 2020-03-05 | 差旅数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010146169.3A CN111311197A (zh) | 2020-03-05 | 2020-03-05 | 差旅数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111311197A true CN111311197A (zh) | 2020-06-19 |
Family
ID=71162563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010146169.3A Pending CN111311197A (zh) | 2020-03-05 | 2020-03-05 | 差旅数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111311197A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526605A (zh) * | 2022-10-21 | 2022-12-27 | 金恒智控管理咨询集团股份有限公司 | 基于企业内部控制管理的审批方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678612A (zh) * | 2015-12-30 | 2016-06-15 | 远光软件股份有限公司 | 移动端原始凭证电子化智能填单系统及方法 |
US20180067957A1 (en) * | 2016-09-02 | 2018-03-08 | FutureVault Inc. | Automated document filing and processing methods and systems |
CN110070081A (zh) * | 2019-03-13 | 2019-07-30 | 深圳壹账通智能科技有限公司 | 自动信息录入方法、装置、存储介质及电子设备 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN110378217A (zh) * | 2019-06-13 | 2019-10-25 | 平安科技(深圳)有限公司 | 基于光学字符识别的申请验证方法、装置及电子设备 |
CN110378343A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 一种财务报销数据处理方法、装置及系统 |
-
2020
- 2020-03-05 CN CN202010146169.3A patent/CN111311197A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678612A (zh) * | 2015-12-30 | 2016-06-15 | 远光软件股份有限公司 | 移动端原始凭证电子化智能填单系统及方法 |
US20180067957A1 (en) * | 2016-09-02 | 2018-03-08 | FutureVault Inc. | Automated document filing and processing methods and systems |
CN110070081A (zh) * | 2019-03-13 | 2019-07-30 | 深圳壹账通智能科技有限公司 | 自动信息录入方法、装置、存储介质及电子设备 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN110378217A (zh) * | 2019-06-13 | 2019-10-25 | 平安科技(深圳)有限公司 | 基于光学字符识别的申请验证方法、装置及电子设备 |
CN110378343A (zh) * | 2019-07-26 | 2019-10-25 | 中国工商银行股份有限公司 | 一种财务报销数据处理方法、装置及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526605A (zh) * | 2022-10-21 | 2022-12-27 | 金恒智控管理咨询集团股份有限公司 | 基于企业内部控制管理的审批方法及系统 |
CN115526605B (zh) * | 2022-10-21 | 2024-03-08 | 金恒智控管理咨询集团股份有限公司 | 基于企业内部控制管理的审批方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
US11822568B2 (en) | Data processing method, electronic equipment and storage medium | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN109325121B (zh) | 用于确定文本的关键词的方法和装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN115982376A (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN116151233A (zh) | 数据标注、生成方法、模型训练方法、设备和介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN111311197A (zh) | 差旅数据处理方法及装置 | |
CN110263135B (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
US20210312223A1 (en) | Automated determination of textual overlap between classes for machine learning | |
CN113870998A (zh) | 问诊方法、装置、电子设备和存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN110879868A (zh) | 顾问方案生成方法、装置、系统、电子设备及介质 | |
CN110909737A (zh) | 图片文字识别方法及系统 | |
CN111143559A (zh) | 基于三元组的词云展示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |