CN115146488B - 基于大数据的可变业务流程智能建模系统及其方法 - Google Patents

基于大数据的可变业务流程智能建模系统及其方法 Download PDF

Info

Publication number
CN115146488B
CN115146488B CN202211075608.1A CN202211075608A CN115146488B CN 115146488 B CN115146488 B CN 115146488B CN 202211075608 A CN202211075608 A CN 202211075608A CN 115146488 B CN115146488 B CN 115146488B
Authority
CN
China
Prior art keywords
feature
text
semantic
understanding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211075608.1A
Other languages
English (en)
Other versions
CN115146488A (zh
Inventor
夏傲福
王婷
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Wenheng Technology Co ltd
Shandong Zhibit Data Technology Co ltd
Shandong Mole Talent Zhiguo Data Technology Co ltd
Original Assignee
Shandong Wenheng Technology Co ltd
Shandong Zhibit Data Technology Co ltd
Shandong Mole Talent Zhiguo Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Wenheng Technology Co ltd, Shandong Zhibit Data Technology Co ltd, Shandong Mole Talent Zhiguo Data Technology Co ltd filed Critical Shandong Wenheng Technology Co ltd
Priority to CN202211075608.1A priority Critical patent/CN115146488B/zh
Publication of CN115146488A publication Critical patent/CN115146488A/zh
Application granted granted Critical
Publication of CN115146488B publication Critical patent/CN115146488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种基于大数据的可变业务流程智能建模系统及其方法,其将智能建模问题转化为业务需求与模板组合的匹配问题。具体地,首先获取业务员输入的业务需求描述,其中,所述业务需求描述包括文本数据和图形数据两种不同模态的数据;然后提取所述业务需求描述中的不同模态数据中的文本项,并使用深度神经网络模型来从不同粒度对所述文本数据进行文本高维语义理解从而生成文本理解图像,接着再将所述文本理解图像和所述图形数据进行数据级关联并提取关联特征以得到分类特征图,最后将所述分类特征图通过多标签分类器进行模板组合匹配。这样,可以提高与业务需求匹配的模板组合的精准度。

Description

基于大数据的可变业务流程智能建模系统及其方法
技术领域
本申请涉及智能建模领域,且更为具体地,涉及一种基于大数据的可变业务流程智能建模系统及其方法。
背景技术
随着业务流程管理的发展,业务流程建模成为业务流程管理研究领域的一个重要方面。业务流程建模是指通过图形、公式、表格或文字来描述业务流程的特性,将实际的业务流程转化为计算机可处理的形式化定义的过程。因而同时也一直是工作流技术的一个研究热点。业务流程建模是实现业务流程管理的基础。实施业务流程管理可以提高流程效率,增强企业竞争力。使用业务流程建模方法的终端用户是业务分析员。对业务分析员来讲,最理想的建模方法是简单、易学、好用、支持可视化来描述业务流程,可以验证模型结构的正确性,计算、仿真分析模型的性能,支持计算机运行模型的方法。
要实现这一目标,需要研究如何将模型的描述符号、存储结构、元素语义、仿真机制、执行机制等融合在一起。为了满足业务流程能够根据业务的需要进行调整的复杂情形,需采用一种可变的业务流程建模模型,以便于业务人员对已有的业务流程进行修改或重新搭建新的系统,同时不需要IT人员的干预。
在此思想指导下,知比特平台提出一种如图1所示的基于知识产权的可变业务流程建模模型(IPBPM)intellectual property Business Process Model。着眼于研究基于知识产权的可变业务流程建模模型,不仅能够满足业务人员对业务流程建模的需要,且应该能通过采用业务流程模板知识库使得业务人员对已有流程不必进行大规模重建,只需提取出相应的模板进行组合配置,以满足客户个性化需求以达到快速实现业务流程建模的目的。
但是,在业务员通过图形、公式、表格或文字来描述业务流程特性时,也就是,通过图形、公式、表格或文字来描述业务需求时,因从图形、公式、表格或文字很难精准地理解业务员所表达的业务需求,因此,在实际中基于业务需求来匹配模板组合的精准度不高。因此,期望一种基于优化的可变业务流程智能建模系统,以提高与业务需求匹配的模板组合的精准度。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大数据的可变业务流程智能建模系统及其方法,其将智能建模问题转化为业务需求与模板组合的匹配问题。具体地,首先获取业务员输入的业务需求描述,其中,所述业务需求描述包括文本数据和图形数据两种不同模态的数据;然后提取所述业务需求描述中的不同模态数据中的文本项,并使用深度神经网络模型来从不同粒度对所述文本数据进行文本高维语义理解从而生成文本理解图像,接着再将所述文本理解图像和所述图形数据进行数据级关联并提取关联特征以得到分类特征图,最后将所述分类特征图通过多标签分类器进行模板组合匹配。这样,可以提高与业务需求匹配的模板组合的精准度。
根据本申请的一个方面,提供了一种基于大数据的可变业务流程智能建模系统,其包括:业务需求获取模块,用于获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;数据项提取模块,用于提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;语义编码模块,用于将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;文本卷积编码模块,用于将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;多尺度邻域特征提取模块,用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;语义向量融合模块,用于将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;文本理解模块,用于将所述文本理解特征向量通过文本理解模型以得到文本理解图像;图像特征提取模块,用于将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;校正模块,用于基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及建模结果生成模块,用于将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
根据本申请的另一方面,提供了一种基于大数据的可变业务流程智能建模方法,其包括:获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;将所述文本理解特征向量通过文本理解模型以得到文本理解图像;将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
与现有技术相比,本申请提供的一种基于大数据的可变业务流程智能建模系统及其方法,其将智能建模问题转化为业务需求与模板组合的匹配问题。具体地,首先获取业务员输入的业务需求描述,其中,所述业务需求描述包括文本数据和图形数据两种不同模态的数据;然后提取所述业务需求描述中的不同模态数据中的文本项,并使用深度神经网络模型来从不同粒度对所述文本数据进行文本高维语义理解从而生成文本理解图像,接着再将所述文本理解图像和所述图形数据进行数据级关联并提取关联特征以得到分类特征图,最后将所述分类特征图通过多标签分类器进行模板组合匹配。这样,可以提高与业务需求匹配的模板组合的精准度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了一种基于知识产权的可变业务流程建模模型。
图2图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统的应用场景图。
图3图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统的框图。
图4图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统中所述语义编码模块的框图。
图5图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统中所述多尺度邻域特征提取模块的框图。
图6图示了根据本申请实施例的基于大数据的可变业务流程智能建模方法的流程图。
图7图示了根据本申请实施例的基于大数据的可变业务流程智能建模方法的架构示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
应可以理解,智能建模问题本质上可以转化为业务需求与模板组合的匹配问题。但是,用户在表达业务需求时,首先是因为规范表达导致需求与模板组合的匹配精度较低;其次是因为客户在表达业务需求时,存在个人的表达习惯,而仅文本层面的模糊匹配或精准匹配都会出现业务需求理解偏差,而导致模板组合的匹配精度降低;还有,用户在表达业务需求时,会用到图形、文本、表格、公式等不同模态的数据,如何对不同模态的数据进行准确理解是智能建模的关键所在。
相应地,本申请发明人发现在业务需求描述中存在文本数据和图形数据,两者为不同模态的数据,且所述文本数据来自不同的数据源。因此,在本申请的技术方案中,期望对于不同模态的数据提取出其中的文本项,并使用深度神经网络模型来从不同粒度进行文本高维语义理解从而生成文本理解图像,进而再与所述业务需求中的图形数据进行数据级关联并提取关联特征来进行模板组合匹配。
具体地,在本申请的技术方案中,首先,获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本。应可以理解,由于在所述业务需求描述中存在文本数据和图形数据,两者为不同模态的数据,且所述文本数据来自不同的数据源,例如公式、表格和文本中都存在有文本数据,因此,为了分别对于所述文本数据和所述图形数据进行深层特征挖掘,并利用两者的融合关联特征来进行模板组合匹配,进一步提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项。特别地,这里,所述数据项可以为一个词,又或者为一个数据。
然后,考虑到所述公式中的各个数据项之间,所述表格的文件名和所述表格中的各个数据项之间以及所述文本的各个词之间存在着语义的关联性,因此,为了能够准确地提取出所述各个文本项的全局语义特征信息,进一步使用包含嵌入层的上下文编码器对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行编码,以分别提取出所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本的基于全局的高维语义特征以更适于表征所述各个文本项的关于业务需求的本质特征。
进一步地,针对所述多个语义特征向量,将其排列为二维特征矩阵以整合所述各个文本数据的全局高维语义特征信息后,使用文本卷积神经网络来进行词粒度关联语义特征的提取,以得到词粒度关联语义理解特征向量。
应可以理解,考虑到在所述文本数据中,会存在着上下段和上下文的间隔语义关联,也就是,所述文本数据的不同跨度的文本语义会存在着关联性特征,因此在对于词粒度语义的关联进行特征挖掘后,进一步对于片语粒度的关联语义特征进行提取。并且,考虑到多尺度领域特征提取模块能够对于不同尺度的文本语义领域关联性进行特征挖掘,因此,在本申请的技术方案中,将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量。具体地,所述多尺度邻域特征提取模块能够使用具有不同尺度的一维卷积核的卷积层分别对所述一维特征向量进行一维卷积编码,再将得到的对应于两个所述不同尺度的一维卷积核的特征向量进行级联以得到所述片语粒度语义理解特征向量。这样,能够提取到所述文本数据中的片语粒度关联语义特征。值得一提的是,在本申请的其他示例中,所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层,其使用不同长度的一维卷积核进行所述文本数据的不同尺度的片语粒度关联语义特征提取,对此,并不为本申请所局限。
这样,再将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到包含多尺度且多粒度的文本理解特征向量。通过这样的方式,就能够对所述业务需求中的文本数据进行高维语义理解,以利于提高与业务需求匹配的模板组合的匹配精度。
进一步地,为了能够更好地融合所述文本数据特征和所述图像数据特征来进行模板组合匹配,将所述文本理解特征向量通过文本理解模型以得到文本理解图像。特别地,这里,所述文本理解模型为对抗生成模型,所述文本理解模型包括生成器模型和鉴别器神经网络模型,所述文本理解模型的生成器模型能够利用具有多尺度且多粒度的所述文本理解语义特征来生成表征所述业务需求的文本理解图像;而所述文本理解模型的鉴别器神经网络模型能够以通过“欺骗”鉴别器的方法来使得所述文本理解图像能够表征所述文本数据中的业务需求。
然后,将所述文本理解图像和所述业务需求中的图形排列为多通道图像以进行数据级关联后,通过作为特征提取器的卷积神经网络模型中进行隐含关联特征的挖掘以得到分类特征图。继而,再将所述分类特征图通过多标签分类器以进行模板组合匹配。
特别地,在本申请的技术方案中,这里,对于所述分类特征图,作为特征提取器的卷积神经网络模型从所述多通道图像提取了局部的图像像素关联语义,但仍然期望能够获得全局的图像像素关联语义,以提升分类特征图的分类效果。
因此,对所述分类特征图的沿通道维度的每个特征矩阵
Figure 212838DEST_PATH_IMAGE001
进行位置提议局部推理转化,即:
Figure 92807DEST_PATH_IMAGE002
Figure 981128DEST_PATH_IMAGE003
Figure 129213DEST_PATH_IMAGE004
均为单个卷积层,
Figure 419380DEST_PATH_IMAGE005
,用于将二维位置坐标映射为一维数值,
Figure 565190DEST_PATH_IMAGE006
表示矩阵
Figure 433484DEST_PATH_IMAGE001
Figure 260626DEST_PATH_IMAGE007
坐标矩阵,
Figure 405299DEST_PATH_IMAGE008
表示按位置加法,
Figure 253169DEST_PATH_IMAGE009
表示按位置点乘,
Figure 817881DEST_PATH_IMAGE010
表示校正后分类特征图的沿通道维度的各个特征矩阵。
这里,所述位置提议局部推理转化能够使用位置信息作为提议,来通过卷积层的局部感知场以特征场景的全局转置为基础对全局场景语义进行推理,从而全面融合所捕获的局部语义和进一步衍生全局语义,这样,就实现了关联语义信息的局部-全局迁移和全局关联语义信息的推理预测,进而提高了分类的准确性。通过这样的方式,就可以提高与业务需求匹配的模板组合的匹配精度。
综上所述,在本申请的技术方案中,首先提取不同模态数据中的文本项,然后,从不同粒度来进行文本理解。具体地,本申请首先通过上下文编码器来提取各个文本项的全局语义信息,进而以文本卷积神经网络来提取词粒度关联语义特征,以及使用多尺度邻域特征来提取片语粒度关联语义特征,通过上述文本编码过程对业务需求中的文本数据进行高维语义理解;然后通过文本理解模型来生成对应于文本理解特征的文本理解图像;接着,将文本理解图像和业务需求中的图形数据进行数据级关联并提取关联特征以得到分类特征图,最终通过多标签分类器进行模板组合匹配。
基于此,本申请提出了一种基于大数据的可变业务流程智能建模系统,其包括:业务需求获取模块,用于获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;数据项提取模块,用于提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;语义编码模块,用于将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;文本卷积编码模块,用于将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;多尺度邻域特征提取模块,用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;语义向量融合模块,用于将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;文本理解模块,用于将所述文本理解特征向量通过文本理解模型以得到文本理解图像;图像特征提取模块,用于将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;校正模块,用于基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及,建模结果生成模块,用于将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
图2图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统的应用场景图。如图2所示,在该应用场景中,首先获取业务员输入的业务需求描述(例如,如图2中所示意的U),所述业务需求描述包括图形、公式、表格和文本;然后,将获取的业务需求描述输入至部署有基于大数据的可变业务流程智能建模算法的服务器(例如,如图2所示意的S)中,其中,所述服务器以智能建模算法对所述业务需求描述进行处理,以生成分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图3图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统的框图。如图3所示,根据本申请实施例的基于大数据的可变业务流程智能建模系统100,包括:业务需求获取模块101,用于获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;数据项提取模块102,用于提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;语义编码模块103,用于将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;文本卷积编码模块104,用于将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;多尺度邻域特征提取模块105,用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;语义向量融合模块106,用于将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;文本理解模块107,用于将所述文本理解特征向量通过文本理解模型以得到文本理解图像;图像特征提取模块108,用于将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;校正模块109,用于基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及,建模结果生成模块110,用于将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
具体地,在本申请实施例中,所述业务需求获取模块101,用于获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本。可以理解的是,随着业务流程管理的发展,业务流程建模成为业务流程管理研究领域的一个重要方面。业务流程建模是指通过图形、公式、表格和文字来描述业务流程的特性,将实际的业务流程转化为计算机可处理的形式化定义的过程。
如前所述,用户在表达业务需求,首先是因为规范表达导致需求与模板组合的匹配精度较低;其次是因为客户在表达业务需求时,存在个人的表达习惯,而仅文本层面的模糊匹配或精准匹配都会出现业务需求理解偏差,而导致模板组合的匹配精度降低;还有,用户在表达业务需求时,会用到图形、文本、表格、公式等不同模态的数据,如何对不同模态的数据进行准确理解是智能建模的关键所在。
进一步地,本申请发明人发现在业务需求描述中存在文本数据和图形数据,两者为不同模态的数据,且所述文本数据来自不同的数据源。因此,在本申请的技术方案中,期望对于不同模态的数据提取出其中的文本项,并使用深度神经网络模型来从不同粒度进行文本高维语义理解从而生成文本理解图像,进而再与所述业务需求中的图形数据进行数据级关联并提取关联特征来进行模板组合匹配。
具体地,在本申请实施例中,所述数据项提取模块102,用于提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项。应可以理解,由于在所述业务需求描述中存在文本数据和图形数据,两者为不同模态的数据,且所述文本数据来自不同的数据源,例如公式、表格和文本中都存在有文本数据,因此,为了分别对于所述文本数据和所述图形数据进行深层特征挖掘,并利用两者的融合关联特征来进行模板组合匹配,进一步提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项。
也就是,在本申请的技术方案中,首先,获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;然后,提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项。特别地,这里,所述数据项可以为一个词,又或者为一个数据。
具体地,在本申请实施例中,所述语义编码模块103,用于将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量。可以理解的是,所述公式中的各个数据项之间,所述表格的文件名和所述表格中的各个数据项之间以及所述文本的各个词之间存在着语义的关联性。
为了能够准确地提取出所述各个文本项的全局语义特征信息,进一步使用包含嵌入层的上下文编码器对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行编码,以分别提取出所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本的基于全局的高维语义特征以更适于表征所述各个文本项的关于业务需求的本质特征。
更具体地,在本申请实施例中,图4图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统中所述语义编码模块的框图,如图4所示,所述语义编码模块103,包括:词序列转化单元201,用于对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行分词处理以将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本分别转化为由多个词组成的词序列;嵌入编码单元202,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文全局编码单元203,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。
也就是,首先,对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行分词处理以将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本分别转化为由多个词组成的词序列。可以理解的是,所述分词指的是将一个文本序列切分成一个一个单独的词,也就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如,在本申请的一具体示例中,可以选择基于理解的分词方法,其中,所述基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。在本申请的另一具体示例中,也可以选择基于统计的分词方法,其中,所述基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。
然后,使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;最后,使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。其中,所述上下文编码器使用基于转换器的Bert模型对所述由多个词组成的词序列进行基于全局的上下文语义编码。
特别地,所述Bert模型基于转换器的内在掩码结构将所述词向量的序列中各个词向量的序列进行以词向量的序列的全局为语义背景的全局上下文编码以得到所述多个语义特征向量。其中,所述词向量的序列中的一个词向量的序列对应于所述多个语义特征向量中的一个所述语义特征向量。
具体地,在本申请实施例中,所述文本卷积编码模块104,用于将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量。也就是,针对所述多个语义特征向量,将其排列为二维特征矩阵以整合所述各个文本数据的全局高维语义特征信息后,使用文本卷积神经网络来进行词粒度关联语义特征的提取,以得到词粒度关联语义理解特征向量。
更具体地,所述文本卷积神经网络的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络的最后一层的输出为所述词粒度关联语义理解特征向量,所述文本卷积神经网络的第一层的输入为所述二维特征矩阵。
可以理解的是,文本卷积神经网络是用于文本识别和分类的卷积神经 网络。首先将所述二维特征矩阵输入所述文本卷积神经网络的第一层,使用所述文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、均值池化处理和非线性激活处理以由所述文本卷积神经网络的最后一层的输出为所述词粒度关联语义理解特征向量。
具体地,在本申请实施例中,所述多尺度邻域特征提取模块105,用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量。应可以理解,考虑到在所述文本数据中,会存在着上下段和上下文的间隔语义关联,也就是,所述文本数据的不同跨度的文本语义会存在着关联性特征,因此在对于词粒度语义的关联进行特征挖掘后,进一步对于片语粒度的关联语义特征进行提取。
进一步地,考虑到多尺度领域特征提取模块能够对于不同尺度的文本语义领域关联性进行特征挖掘,因此,在本申请的技术方案中,将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量。
更具体地,在本申请实施例中,图5图示了根据本申请实施例的基于大数据的可变业务流程智能建模系统中所述多尺度邻域特征提取模块的框图,如图5所示,所述多尺度邻域特征提取模块105,包括:第一尺度语义特征理解单元301,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度片语粒度特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;第二尺度语义特征理解单元302,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度片语粒度特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,多尺度语义级联单元303,用于将所述第一邻域尺度片语粒度特征向量和所述第二邻域尺度片语粒度特征向量进行级联以得到所述片语粒度语义理解特征向量。
也就是,所述多尺度邻域特征提取模块能够使用具有不同尺度的一维卷积核的卷积层分别对所述一维特征向量进行一维卷积编码,再将得到的对应于两个所述不同尺度的一维卷积核的特征向量进行级联以得到所述片语粒度语义理解特征向量。这样,能够提取到所述文本数据中的片语粒度关联语义特征。值得一提的是,在本申请的其他示例中,所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层,其使用不同长度的一维卷积核进行所述文本数据的不同尺度的片语粒度关联语义特征提取,对此,并不为本申请所局限。
其中,所述第一尺度语义特征理解单元301,用于使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第一邻域尺度片语粒度特征向量;其中,所述公式为:
Figure 245451DEST_PATH_IMAGE011
其中,
Figure 510210DEST_PATH_IMAGE012
为第一卷积核在
Figure 466665DEST_PATH_IMAGE013
方向上的宽度、
Figure 315410DEST_PATH_IMAGE014
为第一卷积核参数向量、
Figure 281092DEST_PATH_IMAGE015
为与卷积核函数运算的局部向量矩阵,
Figure 400358DEST_PATH_IMAGE016
为第一卷积核的尺寸,
Figure 121189DEST_PATH_IMAGE017
表示一维特征向量;
其中,所述第二尺度语义特征理解单元302,用于使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第二邻域尺度片语粒度特征向量;其中,所述公式为:
Figure 693116DEST_PATH_IMAGE018
其中,
Figure 695445DEST_PATH_IMAGE019
为第二卷积核在
Figure 200375DEST_PATH_IMAGE020
方向上的宽度、
Figure 764212DEST_PATH_IMAGE021
为第二卷积核参数向量、
Figure 823435DEST_PATH_IMAGE022
为与卷积核函数运算的局部向量矩阵,
Figure 838576DEST_PATH_IMAGE023
为第二卷积核的尺寸,
Figure 198013DEST_PATH_IMAGE017
表示所述一维特征向量。
具体地,在本申请实施例中,所述语义向量融合模块106,用于将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量。如前所述,在得到所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量后,再将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到包含多尺度且多粒度的文本理解特征向量。通过这样的方式,就能够对所述业务需求中的文本数据进行高维语义理解,以利于提高与业务需求匹配的模板组合的匹配精度。
具体地,在本申请实施例中,所述文本理解模块107,用于将所述文本理解特征向量通过文本理解模型以得到文本理解图像。可以理解的是,为了能够更好地融合所述文本数据特征和所述图像数据特征来进行模板组合匹配,将所述文本理解特征向量通过文本理解模型以得到文本理解图像。
特别地,在本申请一具体示例中,所述文本理解模型为对抗生成模型,其包括:首先获取一个或多个文本理解特征向量,并将其进行二维拼接以得到文本理解特征矩阵,之后通过文本理解模型,例如对抗生成器模型来生成文本理解图像。值得注意的是,对抗生成器模型所生成的图像能够更好地重建细节,也就是,在对卷积结构具有挑战的区域,例如较大的均匀区域中提高全局一致性。
更具体地,所述文本理解模型包括生成器模型和鉴别器神经网络模型,所述文本理解模型的生成器模型能够利用具有多尺度且多粒度的所述文本理解语义特征来生成表征所述业务需求的文本理解图像;而所述文本理解模型的鉴别器神经网络模型能够以通过“欺骗”鉴别器的方法来使得所述文本理解图像能够表征所述文本数据中的业务需求。
具体地,在本申请实施例中,所述图像特征提取模块108,用于将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图。也就是,将所述文本理解图像和所述业务需求中的图形排列为多通道图像以进行数据级关联后,通过作为特征提取器的卷积神经网络模型中进行隐含关联特征的挖掘以得到分类特征图。由于在本申请中构建了多通道图像,因此,为了获得不同通道的图像之间的依赖关系,在本申请的技术方案中,将所述卷积神经网络模型作为特征提取器以获得不同通道的图像之间的隐含关联特征。
进一步地,所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述分类特征图,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述多通道图像。
可以理解的是,在本申请的技术方案中,首先将所述多通道图像输入所述作为特征提取器的卷积神经网络模型的第一层,使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行卷积处理、均值池化处理和非线性激活处理以由所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述分类特征图。
具体地,在本申请实施例中,所述校正模块109,用于基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图。特别地,在本申请的技术方案中,对于所述分类特征图,作为特征提取器的卷积神经网络模型从所述多通道图像提取了局部的图像像素关联语义,但仍然期望能够获得全局的图像像素关联语义,以提升分类特征图的分类效果。
因此,对所述分类特征图的沿通道维度的每个特征矩阵
Figure 667172DEST_PATH_IMAGE001
进行位置提议局部推理转化,即基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到所述校正后分类特征图;其中,所述公式为:
Figure 10428DEST_PATH_IMAGE024
其中,
Figure 354560DEST_PATH_IMAGE001
表示所述分类特征图的沿通道维度的各个特征矩阵,
Figure 302924DEST_PATH_IMAGE003
Figure 411826DEST_PATH_IMAGE004
均为单个卷积层,
Figure 445641DEST_PATH_IMAGE005
,用于将二维位置坐标映射为一维数值,
Figure 593463DEST_PATH_IMAGE006
表示所述分类特征图的沿通道维度的各个特征矩阵的
Figure 661913DEST_PATH_IMAGE007
坐标矩阵,
Figure 738454DEST_PATH_IMAGE025
表示按位置加法,
Figure 587461DEST_PATH_IMAGE026
表示按位置点乘,
Figure 40439DEST_PATH_IMAGE027
表示校正后分类特征图的沿通道维度的各个特征矩阵。
这里,所述位置提议局部推理转化能够使用位置信息作为提议,来通过卷积层的局部感知场以特征场景的全局转置为基础对全局场景语义进行推理,从而全面融合所捕获的局部语义和进一步衍生全局语义,这样,就实现了关联语义信息的局部-全局迁移和全局关联语义信息的推理预测,进而提高了分类的准确性。通过这样的方式,就可以提高与业务需求匹配的模板组合的匹配精度。
具体地,在本申请实施例中,所述建模结果生成模块110,用于将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。也就是,将所述校正后分类特征图输入分类函数以获得分类函数值,其中,所述分类函数值为所述分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
更具体地,使用所述多标签分类器以如下公式对所述校正后分类特征图进行处理以生成所述分类结果;其中,所述公式为:
Figure 461931DEST_PATH_IMAGE028
其中
Figure 709373DEST_PATH_IMAGE029
为输出结果矩阵,
Figure 717780DEST_PATH_IMAGE030
Figure 912132DEST_PATH_IMAGE031
分别为第
Figure 205708DEST_PATH_IMAGE032
个分类对应的权重和偏置矩阵,
Figure 889631DEST_PATH_IMAGE033
表示矩阵的指数运算,对矩阵进行指数运算表示以矩阵中各个位置的特征值为幂的自然指数函数值。
综上,基于本申请实施例的基于大数据的可变业务流程智能建模系统100被阐明,其将智能建模问题转化为业务需求与模板组合的匹配问题。具体地,首先获取业务员输入的业务需求描述,其中,所述业务需求描述包括文本数据和图形数据两种不同模态的数据;然后提取所述业务需求描述中的不同模态数据中的文本项,并使用深度神经网络模型来从不同粒度对所述文本数据进行文本高维语义理解从而生成文本理解图像,接着再将所述文本理解图像和所述图形数据进行数据级关联并提取关联特征以得到分类特征图,最后将所述分类特征图通过多标签分类器进行模板组合匹配。这样,可以提高与业务需求匹配的模板组合的精准度。
如上所述,根据本申请实施例的基于大数据的可变业务流程智能建模系统100可以实现在各种终端设备中,例如用于基于大数据的可变业务流程智能建模系统的服务器等。在一个示例中,根据本申请实施例的基于大数据的可变业务流程智能建模系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于大数据的可变业务流程智能建模系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于大数据的可变业务流程智能建模系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于大数据的可变业务流程智能建模系统100与该终端设备也可以是分立的设备,并且该基于大数据的可变业务流程智能建模系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图6图示了根据本申请实施例的基于大数据的可变业务流程智能建模方法的流程图。如图6所示,根据本申请实施例的基于大数据的可变业务流程智能建模方法,包括:S101,获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;S102,提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;S103,将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;S104,将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;S105,将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;S106,将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;S107,将所述文本理解特征向量通过文本理解模型以得到文本理解图像;S108,将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;S109,基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及,S110,将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
图7图示了根据本申请实施例的基于大数据的可变业务流程智能建模方法的架构示意图。如图7所示,在所述基于大数据的可变业务流程智能建模方法的网络架构中,首先,获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;然后,提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;接着,将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;然后,将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;接着,将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;然后,将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;接着,将所述文本理解特征向量通过文本理解模型以得到文本理解图像;然后,将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;接着,基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及,最后,将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量,包括:对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行分词处理以将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本分别转化为由多个词组成的词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量,进一步包括:所述文本卷积神经网络的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述文本卷积神经网络的最后一层的输出为所述词粒度关联语义理解特征向量,所述文本卷积神经网络的第一层的输入为所述二维特征矩阵。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量,包括:将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度片语粒度特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度片语粒度特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,将所述第一邻域尺度片语粒度特征向量和所述第二邻域尺度片语粒度特征向量进行级联以得到所述片语粒度语义理解特征向量。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度片语粒度特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核,包括:使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第一邻域尺度片语粒度特征向量;其中,所述公式为:
Figure 713230DEST_PATH_IMAGE034
其中,
Figure 242432DEST_PATH_IMAGE012
为第一卷积核在
Figure 874401DEST_PATH_IMAGE013
方向上的宽度、
Figure 493339DEST_PATH_IMAGE014
为第一卷积核参数向量、
Figure 210759DEST_PATH_IMAGE015
为与卷积核函数运算的局部向量矩阵,
Figure 746914DEST_PATH_IMAGE016
为第一卷积核的尺寸,
Figure 764549DEST_PATH_IMAGE017
表示一维特征向量; 所述将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度片语粒度特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度,包括:使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第二邻域尺度片语粒度特征向量;其中,所述公式为:
Figure 23229DEST_PATH_IMAGE035
其中,
Figure 227946DEST_PATH_IMAGE019
为第二卷积核在
Figure 692425DEST_PATH_IMAGE020
方向上的宽度、
Figure 564566DEST_PATH_IMAGE021
为第二卷积核参数向量、
Figure 230034DEST_PATH_IMAGE022
为与卷积核函数运算的局部向量矩阵,
Figure 686161DEST_PATH_IMAGE023
为第二卷积核的尺寸,
Figure 360856DEST_PATH_IMAGE036
表示所述一维特征向量。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述文本理解模型为对抗生成模型。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图,进一步包括:所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述分类特征图,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述多通道图像。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图,进一步包括:基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到所述校正后分类特征图;其中,所述公式为:
Figure 25186DEST_PATH_IMAGE037
其中,
Figure 658293DEST_PATH_IMAGE001
表示所述分类特征图的沿通道维度的各个特征矩阵,
Figure 165498DEST_PATH_IMAGE003
Figure 882699DEST_PATH_IMAGE004
均为单个卷积层,
Figure 729432DEST_PATH_IMAGE005
,用于将二维位置坐标映射为一维数值,
Figure 2282DEST_PATH_IMAGE006
表示所述分类特征图的沿通道维度的各个特征矩阵的
Figure 668886DEST_PATH_IMAGE007
坐标矩阵,
Figure 183919DEST_PATH_IMAGE025
表示按位置加法,
Figure 822842DEST_PATH_IMAGE026
表示按位置点乘,
Figure 532172DEST_PATH_IMAGE038
表示所述校正后分类特征图的沿通道维度的各个特征矩阵。
在本申请的一个实施例中,在上述基于大数据的可变业务流程智能建模方法中,所述将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值,进一步包括:使用所述多标签分类器以如下公式对所述校正后分类特征图进行处理以生成所述分类结果;其中,所述公式为:
Figure 686073DEST_PATH_IMAGE039
其中
Figure 739217DEST_PATH_IMAGE029
为输出结果矩阵,
Figure 294964DEST_PATH_IMAGE030
Figure 175195DEST_PATH_IMAGE031
分别为第
Figure 144288DEST_PATH_IMAGE032
个分类对应的权重和偏置矩阵,
Figure 237009DEST_PATH_IMAGE033
表示矩阵的指数运算,对矩阵进行指数运算表示以矩阵中各个位置的特征值为幂的自然指数函数值。
这里,本领域技术人员可以理解,上述基于大数据的可变业务流程智能建模方法中的具体功能和操作已经在上面参考图2到图5的基于大数据的可变业务流程智能建模系统描述中得到了详细介绍,并因此,将省略其重复描述。

Claims (9)

1.一种基于大数据的可变业务流程智能建模系统,其特征在于,包括:
业务需求获取模块,用于获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;
数据项提取模块,用于提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;
语义编码模块,用于将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;
文本卷积编码模块,用于将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;
多尺度邻域特征提取模块,用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;
语义向量融合模块,用于将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;
文本理解模块,用于将所述文本理解特征向量通过文本理解模型以得到文本理解图像;
图像特征提取模块,用于将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;
校正模块,用于基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及
建模结果生成模块,用于将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值;
其中,所述语义编码模块,包括:
词序列转化单元,用于对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行分词处理以将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本分别转化为由多个词组成的词序列;
嵌入编码单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及
上下文全局编码单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。
2.根据权利要求1所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述文本卷积编码模块,进一步用于:所述文本卷积神经网络的各层在层的正向传递中分别进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的均值池化以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述文本卷积神经网络的最后一层的输出为所述词粒度关联语义理解特征向量,所述文本卷积神经网络的第一层的输入为所述二维特征矩阵。
3.根据权利要求2所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述多尺度邻域特征提取模块,包括:
第一尺度语义特征理解单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度片语粒度特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;
第二尺度语义特征理解单元,用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度片语粒度特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及
多尺度语义级联单元,用于将所述第一邻域尺度片语粒度特征向量和所述第二邻域尺度片语粒度特征向量进行级联以得到所述片语粒度语义理解特征向量。
4.根据权利要求3所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述第一尺度语义特征理解单元,用于使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第一邻域尺度片语粒度特征向量;
其中,所述公式为:
Figure FDA0003901658640000031
其中,a为第一卷积核在x方向上的宽度、F(a)为第一卷积核参数向量、G(x-a)为与卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示一维特征向量;
所述第二尺度语义特征理解单元,用于使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第二邻域尺度片语粒度特征向量;
其中,所述公式为:
Figure FDA0003901658640000032
其中,b为第二卷积核在x方向上的宽度、F(b)为第二卷积核参数向量、G(x-b)为与卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述一维特征向量。
5.根据权利要求4所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述文本理解模型为对抗生成模型。
6.根据权利要求5所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述图像特征提取模块,进一步用于:所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行均值池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述分类特征图,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述多通道图像。
7.根据权利要求6所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述校正模块,进一步用于:基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到所述校正后分类特征图;
其中,所述公式为:
Figure FDA0003901658640000041
其中,M表示所述分类特征图的沿通道维度的各个特征矩阵,Cov1()和Cov2()均为单个卷积层,
Figure FDA0003901658640000042
用于将二维位置坐标映射为一维数值,PM表示所述分类特征图的沿通道维度的各个特征矩阵的(x,y)坐标矩阵,
Figure FDA0003901658640000043
表示按位置加法,⊙表示按位置点乘,M'表示所述校正后分类特征图的沿通道维度的各个特征矩阵。
8.根据权利要求7所述的基于大数据的可变业务流程智能建模系统,其特征在于,所述建模结果生成模块,进一步用于:使用所述多标签分类器以如下公式对所述校正后分类特征图进行处理以生成所述分类结果;
其中,所述公式为:
Figure FDA0003901658640000044
其中O为输出结果矩阵,Wi和bi分别为第i个分类对应的权重和偏置矩阵,exp(·)表示矩阵的指数运算,对矩阵进行指数运算表示以矩阵中各个位置的特征值为幂的自然指数函数值。
9.一种基于大数据的可变业务流程智能建模方法,其特征在于,包括:
获取业务员输入的业务需求描述,所述业务需求描述包括图形、公式、表格和文本;
提取所述公式中的各个数据项、所述表格的文件名和所述表格中的各个数据项;
将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量;
将所述多个语义特征向量排列为二维特征矩阵后通过文本卷积神经网络以得到词粒度关联语义理解特征向量;
将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度语义理解特征向量;
将所述词粒度关联语义理解特征向量和所述片语粒度语义理解特征向量进行级联以得到文本理解特征向量;
将所述文本理解特征向量通过文本理解模型以得到文本理解图像;
将所述文本理解图像和所述图形排列为多通道图像后通过作为特征提取器的卷积神经网络模型以得到分类特征图;
基于所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值的位置信息,分别对所述分类特征图的沿通道维度的各个特征矩阵中各个位置的特征值进行校正以得到校正后分类特征图;以及
将所述校正后分类特征图通过多标签分类器以得到分类结果,所述分类结果为与业务需求匹配的模板组合的标签值;
其中,所述将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本通过包含嵌入层的上下文编码器以得到多个语义特征向量,包括:
对所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本进行分词处理以将所述公式中的各个数据项、所述表格的文件名、所述表格中的各个数据项和所述文本分别转化为由多个词组成的词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及
使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。
CN202211075608.1A 2022-09-05 2022-09-05 基于大数据的可变业务流程智能建模系统及其方法 Active CN115146488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211075608.1A CN115146488B (zh) 2022-09-05 2022-09-05 基于大数据的可变业务流程智能建模系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211075608.1A CN115146488B (zh) 2022-09-05 2022-09-05 基于大数据的可变业务流程智能建模系统及其方法

Publications (2)

Publication Number Publication Date
CN115146488A CN115146488A (zh) 2022-10-04
CN115146488B true CN115146488B (zh) 2022-11-22

Family

ID=83415687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211075608.1A Active CN115146488B (zh) 2022-09-05 2022-09-05 基于大数据的可变业务流程智能建模系统及其方法

Country Status (1)

Country Link
CN (1) CN115146488B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561696B (zh) * 2023-01-11 2024-04-16 上海合煌能源科技有限公司 基于多维度的用户可调节负荷快速聚合方法及其系统
CN115796173B (zh) * 2023-02-20 2023-04-28 杭银消费金融股份有限公司 针对监管报送需求的数据处理方法和系统
CN116127019B (zh) * 2023-03-07 2024-06-11 杭州国辰智企科技有限公司 动态参数与可视化模型生成web 2d自动建模引擎系统
CN115951883B (zh) * 2023-03-15 2023-05-23 日照市德衡信息技术有限公司 分布式微服务架构的服务组件管理系统及其方法
CN116932852A (zh) * 2023-06-21 2023-10-24 江西中唐产业互联网有限公司 互联网信息监控系统及其方法
CN116956130B (zh) * 2023-07-25 2024-06-14 北京安联通科技有限公司 一种基于关联特征梳理模型的智能化数据处理方法及系统
CN117215545B (zh) * 2023-11-09 2024-01-26 江西三叉数信息科技有限公司 业务流程化应用开发方法、系统及设备
CN117478511A (zh) * 2023-11-21 2024-01-30 国网江苏省电力有限公司南通供电分公司 一种继电保护业务管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
CN114565041A (zh) * 2022-02-28 2022-05-31 上海嘉甲茂技术有限公司 基于互联网金融的支付大数据分析系统及其分析方法
WO2022178919A1 (zh) * 2021-02-23 2022-09-01 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019793A (zh) * 2017-10-27 2019-07-16 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
CN112001385B (zh) * 2020-08-20 2024-02-06 长安大学 一种目标跨域检测与理解方法、系统、设备及存储介质
CN112581106B (zh) * 2021-02-23 2021-05-28 苏州工业园区测绘地理信息有限公司 一种融合处置机构网格语义的政务事件自动派单方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
WO2022178919A1 (zh) * 2021-02-23 2022-09-01 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
CN114565041A (zh) * 2022-02-28 2022-05-31 上海嘉甲茂技术有限公司 基于互联网金融的支付大数据分析系统及其分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MRP2Rec: Exploring Multiple-Step Relation Path Semantics for Knowledge Graph-Based Recommendations;Ting Wang等;《IEEE》;20200722;全文 *
基于全卷积神经网络的多目标显著性检测;翟正利等;《计算机技术与发展》;20200810(第08期);全文 *
基于卷积神经网络的公安案件文本语义特征提取方法研究;林志宏等;《数学的实践与认识》;20170908(第17期);全文 *
蒋应锋等.一种新的多尺度深度学习图像语义理解方法研究.《光电子·激光》.2016,(第02期),全文. *

Also Published As

Publication number Publication date
CN115146488A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN115146488B (zh) 基于大数据的可变业务流程智能建模系统及其方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN107729312B (zh) 基于序列标注建模的多粒度分词方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
US11599727B2 (en) Intelligent text cleaning method and apparatus, and computer-readable storage medium
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN115132313A (zh) 基于注意力机制的医学影像报告自动生成方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN114818708B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN117236335B (zh) 基于提示学习的两阶段命名实体识别方法
Wang et al. Image captioning using region-based attention joint with time-varying attention
CN117422065A (zh) 基于强化学习算法的自然语言数据处理系统
CN116796287A (zh) 图文理解模型的预训练方法、装置、设备及存储介质
CN114707491A (zh) 基于自然语言处理的数量提取方法和系统
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
CN115205877A (zh) 一种不规则排版发票单据布局预测方法、装置及存储介质
CN115130473A (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant