CN117436420A - 一种基于自然语言处理生成业务流程模型的方法和装置 - Google Patents

一种基于自然语言处理生成业务流程模型的方法和装置 Download PDF

Info

Publication number
CN117436420A
CN117436420A CN202311733277.0A CN202311733277A CN117436420A CN 117436420 A CN117436420 A CN 117436420A CN 202311733277 A CN202311733277 A CN 202311733277A CN 117436420 A CN117436420 A CN 117436420A
Authority
CN
China
Prior art keywords
bpmn
entity
business process
text
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311733277.0A
Other languages
English (en)
Inventor
柯志杰
徐斌
董建军
周雨
何怀兵
胡亚林
王骏涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Big Data Industry Development Co ltd
Original Assignee
Wuhan Big Data Industry Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Big Data Industry Development Co ltd filed Critical Wuhan Big Data Industry Development Co ltd
Priority to CN202311733277.0A priority Critical patent/CN117436420A/zh
Publication of CN117436420A publication Critical patent/CN117436420A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于自然语言处理生成业务流程模型的方法和装置,其方法包括:获取自然语言描述的业务流程文本;基于句子分割器对业务流程文本进行分割,得到若干句子;基于分词器对若干句子分割,得到若干词语或短语,基于词性标注器对若干词语或短语进行词性标注;基于实体识别方法在词性标注的基础上对业务流程文本进行实体识别得到对应的实体;对实体进行实体抽取得到抽取结果;将抽取结果映射到BPMN元素中得到映射后的BPMN元素;根据抽取结果中实体的文本建立映射后的BPMN元素之间的关联关系;基于映射后的BPMN元素之间的关联关系构建BPMN流程图。本发明提高了创建BPMN流程模型的效率。

Description

一种基于自然语言处理生成业务流程模型的方法和装置
技术领域
本发明涉及自然语言处理、软件工程需求分析领域,尤其涉及一种基于自然语言处理生成业务流程模型的方法、装置、电子设备及介质。
背景技术
业务流程建模标注(Business Process Modeling Notation,简称BPMN)是一套规范标准,包括这些图元如何组合成一个业务流程图(Business Process Diagram)。
现有技术中,业务流程建模通常需要人工参与,包括分析和理解自然语言描述、手动创建BPMN流程图等。这一过程既费时又容易出现错误,特别是对于复杂的业务流程,根据业务逻辑手动创建BPMN流程模型通常需要专业知识和时间,导致创建BPMN流程模型效率低。
发明内容
有鉴于此,有必要提供一种基于自然语言处理生成业务流程模型的方法和装置,用以解决现有技术中创建BPMN流程模型效率低的问题。
为了解决上述问题,本发明提供一种基于自然语言处理生成业务流程模型的方法,包括:
获取自然语言描述的业务流程文本;
基于句子分割器对所述业务流程文本进行分割,得到若干句子;
基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
对所述实体进行实体抽取得到抽取结果;
将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
在一些可能的实现方式中,所述获取自然语言描述的业务流程文本,包括:
获取用于训练模型的训练集;
采用bert工具对所述训练集进行训练获得短文本分类的分类模型;
采用分类模型对文档中的语句进行分类,对分类后的结果进行筛选,获取业务流程文本。
在一些可能的实现方式中,所述抽取结果中实体的类型包括角色实体、活动实体和决策点实体,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,包括:
将所述角色实体映射到所述BPMN元素中的泳道元素;
将所述活动实体映射到所述BPMN元素中的任务元素;
将所述决策点实体映射到所述BPMN元素中的排他网关元素。
在一些可能的实现方式中,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,具体包括如下步骤:
将所述抽取结果转化为JSON格式,得到JSON格式的抽取结果;
获取BPMN模型库;
基于所述BPMN模型库创建一个空的BPMN流程模型;
创建BPMN元素映射规则和角色泳道;
遍历所述JSON格式的抽取结果,根据所述BPMN元素映射规则创建相应的BPMN元素,所述BPMN元素名称为每次遍历所述JSON格式的抽取结果中文本的名称;
将所述BPMN元素添加到角色泳道中;
将所述BPMN元素添加到所述BPMN流程模型中。
在一些可能的实现方式中,所述根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系,包括:
根据所述实体文本之间的业务逻辑关系,建立所述映射后的BPMN元素之间的顺序流、条件分支和泳道。
在一些可能的实现方式中,所述业务逻辑关系包括:所述实体文本之间的前后顺序或所述实体文本之间的条件依赖关系。
在一些可能的实现方式中,还包括:将所述抽取结果存储到数据库中。
另一方面,本发明还提供了一种基于自然语言处理生成业务流程模型的装置,包括:
业务流程文本获取模块,用于获取自然语言描述的业务流程文本;
句子分隔模块,用于基于句子分割器对所述业务流程文本进行分割,得到若干句子;
词性标注模块,用于基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
实体识别模块,用于基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
实体抽取模块,用于对所述实体进行实体抽取得到抽取结果;
实体映射模块,用于将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
关联关系建立模块,用于根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
BPMN流程图构建模块,用于基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
另一方面,本发明还提供了一种电子设备,包括存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任意一种实现方式中所述的一种基于自然语言处理生成业务流程模型的方法中的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,用于存储计算机可读取的程序或指令,所述程序或指令被处理器执行时能够实现上述任意一种实现方式中所述的一种基于自然语言处理生成业务流程模型的方法中的步骤。
采用上述实施例的有益效果是:本发明提供的一种基于自然语言处理生成业务流程模型的方法,首先获取自然语言描述的业务流程文本,基于句子分割器对业务流程文本进行分割,得到若干句子,基于分词器对若干句子分割,得到若干词语或短语,基于词性标注器对若干词语或短语进行词性标注,基于实体识别方法在词性标注的基础上对业务流程文本进行实体识别和实体抽取;将抽取结果映射到BPMN元素中得到映射后的BPMN元素,根据抽取结果中实体的文本建立映射后的BPMN元素之间的关联关系,基于映射后的BPMN元素之间的关联关系构建BPMN流程图。本发明通过自然语言处理技术对业务流程文本进行标注,基于实体识别方法识别实体,对实体进行抽取,将抽取结果映射到BPMN流程模型中,并最终导出BPMN流程图,提高了创建BPMN流程模型的效率。
附图说明
图1为本发明提供的一种基于自然语言处理生成业务流程模型的方法一实施例的方法流程图;
图2为本发明提供的一种基于自然语言处理生成业务流程模型的装置的一个实施例结构示意图;
图3为本发明提供的电子设备的一个实施例结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
图1为本发明提供的一种基于自然语言处理生成业务流程模型的方法的一个实施例流程示意图,如图1所示,一种基于自然语言处理生成业务流程模型的方法,包括:
S101、获取自然语言描述的业务流程文本;
S102、基于句子分割器对所述业务流程文本进行分割,得到若干句子;
S103、基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
S104、基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
S105、对所述实体进行实体抽取得到抽取结果;
S106、将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
S107、根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
S108、基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
与现有技术相比,本实施例提供的一种基于自然语言处理生成业务流程模型的方法,首先获取自然语言描述的业务流程文本,基于句子分割器对业务流程文本进行分割,得到若干句子,基于分词器对若干句子分割,得到若干词语或短语,基于词性标注器对若干词语或短语进行词性标注,基于实体识别方法在词性标注的基础上对业务流程文本进行实体识别和实体抽取;将抽取结果映射到BPMN元素中到映射后的BPMN元素,根据抽取结果中实体的文本建立映射后的BPMN元素之间的关联关系,基于映射后的BPMN元素之间的关联关系构建BPMN流程图。本发明通过自然语言处理技术对业务流程文本进行标注,基于实体识别方法识别实体,对实体进行抽取,将抽取结果映射到BPMN流程模型中,并最终导出BPMN流程图,提高了创建BPMN流程模型的效率。
在本发明的一些实施例中,在步骤S101中,所述获取自然语言描述的业务流程文本,包括:
获取用于训练模型的训练集;
采用bert工具对所述训练集进行训练获得短文本分类的分类模型;
采用分类模型对文档中的语句进行分类,对分类后的结果进行筛选,获取业务流程文本。
在本发明的具体实施例中,在步骤S101中,获取自然语言描述的业务流程文本,例如获取的业务流程文本为"客户提交订单后,系统将订单信息验证,然后将订单传递给仓库进行处理。"。
在本发明的具体实施例中,在步骤S102中,基于句子分割器对所述业务流程文本进行分割,得到若干句子,具体步骤如下:
句子分割:使用NLP工具,如NLTK或Spacy,通过句子分割器将整个文本分割成句子。这通常基于标点符号进行划分,如句号、问号、感叹号等。
对于上述步骤S101中获取的业务流程文本,可以得到两个句子:
“客户提交订单后,系统将订单信息验证。”“然后将订单传递给仓库进行处理。”在步骤S103中,基于分词器对所述若干句子分割,得到若干词语或短语。具体的使用分词器对词语分割,如NLTK或Spacy,将每个句子进一步分割成单词或短语。基于空格或其他分隔符进行分割。对于上述示例句子,可以得到以下词语列表:
"客户","提交","订单", "后","系统","将", "订单","信息", "验证","然后","将","订单","传递","给","仓库","进行","处理"
在步骤S103中,基于词性标注器对所述若干词语或短语进行词性标注。具体的利用词性标注器对词性进行标注,如NLTK或Spacy,为每个词语添加词性标签。这可以帮助更好地理解文本中各个词语的含义,例如标记名词、动词、形容词等。例如,在示例中,"客户"可以被标记为名词,"提交"可以被标记为动词。
输出: 针对输入文本的文本分析后的结果,包括分割的句子和词语,以及每个词语的词性标签。对于示例文本,分析结果如下:
句子1:"客户提交订单后,系统将订单信息验证,然后将订单传递给仓库进行处理。"
词语1:["客户","提交","订单", "后", "系统", "将","订单", "信息","验证","然后","将","订单","传递","给","仓库","进行", "处理"]
词性标签1:["名词","动词", "名词","副词","名词","动词", "名词", "名词","动词", "副词","动词","名词", "动词", "介词", "名词","动词","动词"]
这个文本分析的结果将作为后续步骤的基础,用于识别和提取与业务流程相关的实体,然后将其映射到BPMN元素,最终生成BPMN流程模型。
在本发明的具体实施例中,在步骤S104中,所述基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体,具体包括如下步骤:
根据实体类型定义,利用正则表达式、机器学习或关键字匹配等方法识别文本中的实体。
将识别出的实体抽取出来,并关联到其在文本中的位置,创建一个数据结构存储每个实体的文本、类型和位置信息,存储在内存中。
实体识别后的结果,包括识别出的实体、其类型和位置信息。对于示例文本,可能的实体识别结果如下:
活动实体1:"客户提交订单"
活动实体2:"系统将订单信息验证"
活动实体3:"将订单传递给仓库进行处理"
这些实体的识别结果将作为下一步骤,即流程元素映射的基础,将它们映射到相应的BPMN元素,例如将活动映射成BPMN任务。
在本发明的一些实施例中,所述抽取结果中实体的类型包括角色实体、活动实体和决策点实体,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,包括:
将所述角色实体映射到所述BPMN元素中的泳道元素;
将所述活动实体映射到所述BPMN元素中的任务元素;
将所述决策点实体映射到所述BPMN元素中的排他网关元素。
在本发明的一些实施例中,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,具体包括如下步骤:
将所述抽取结果转化为JSON格式,得到JSON格式的抽取结果;
获取BPMN模型库;
基于所述BPMN模型库创建一个空的BPMN流程模型;
创建BPMN元素映射规则和角色泳道;
遍历所述JSON格式的抽取结果,根据所述BPMN元素映射规则创建相应的BPMN元素,所述BPMN元素名称为每次遍历所述JSON格式的抽取结果中文本的名称;
将所述BPMN元素添加到角色泳道中;
将所述BPMN元素添加到所述BPMN流程模型中。
在本发明的具体实施例中,创建了一个BPMN流程模型,根据实体的类型将它们映射到相应的BPMN元素,并将实体文本与BPMN元素进行关联。角色实体被映射到泳道,活动实体被映射到任务,决策点实体被映射到排他网关。具体代码如下:
entities = [
{"text": "客户提交订单", "type": "活动"},
{"text": "系统将订单信息验证", "type": "活动"},
{"text": "将订单传递给仓库进行处理", "type": "活动"},
{"text": "客户", "type": "角色"},
{"text": "仓库", "type": "角色"},
{"text": "条件分支", "type": "决策点"},
]
# 导入BPMN模型库
from bpmn import Process, Task, ExclusiveGateway, Lane
# 创建BPMN流程模型
process = Process("业务流程")
# 创建角色泳道
customer_lane = Lane("客户")
warehouse_lane = Lane("仓库")
# 创建BPMN元素映射规则
entity_to_bpmn_mapping = {
"活动": Task,
"角色": Lane,
"决策点": ExclusiveGateway,
}
# 遍历实体列表并进行映射
for entity in entities:
entity_type = entity["type"]
entity_text = entity["text"]
# 根据映射规则创建相应的BPMN元素
if entity_type in entity_to_bpmn_mapping:
bpmn_element = entity_to_bpmn_mapping[entity_type](entity_text)
# 设置BPMN元素的名称或描述属性为实体的文本描述
bpmn_element.name = entity_text# 以名称属性为例,可以根据需求选择其他属性
# 将BPMN元素添加到流程或泳道中
if entity_type == "角色":
if entity_text == "客户":
customer_lane.append(bpmn_element)
elif entity_text == "仓库":
warehouse_lane.append(bpmn_element)
else:
process.append(bpmn_element)
# 输出BPMN流程模型
print(process.to_xml())
在本发明的一些实施例中,所述根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系,包括:
根据所述实体文本之间的业务逻辑关系,建立所述映射后的BPMN元素之间的顺序流、条件分支和泳道。
在本发明的一些实施例中,所述业务逻辑关系包括:所述实体文本之间的前后顺序或所述实体文本之间的条件依赖关系。
在本发明的具体实施例中,实体映射到BPMN元素后的结果,包括创建的BPMN元素以及它们之间的关联关系。在本发明的具体实施例中活动实体映射到BPMN任务的结果如下:
任务1(活动实体1):类型为BPMN任务,名称为"客户提交订单"
任务2(活动实体2):类型为BPMN任务,名称为"系统将订单信息验证"
任务3(活动实体3):类型为BPMN任务,名称为"将订单传递给仓库进行处理"
这些BPMN元素及其关联关系将作为下一步骤,即关系建立的基础,以形成完整的BPMN流程模型。此外,角色实体还可以映射到泳道,以表示不同的参与者或部门在流程中的责任。
代码示例:创建了BPMN元素(任务、条件关系等)以及它们之间的关联关系(顺序关系、条件关系等),以反映实体之间的逻辑关系。
# 导入BPMN模型库
from bpmn import Process, Task, ExclusiveGateway, SequenceFlow
# 创建BPMN流程模型
process = Process("业务流程")
# 创建BPMN元素映射规则
entity_to_bpmn_mapping = {
"活动": Task,
"角色": Lane,
"条件关系": ExclusiveGateway,
}
# 创建任务和条件网关
tasks = []
gateways = []
# 遍历实体列表并进行映射
for entity in entities:
entity_type = entity["type"]
entity_text = entity["text"]
# 根据映射规则创建相应的BPMN元素
if entity_type in entity_to_bpmn_mapping:
bpmn_element = entity_to_bpmn_mapping[entity_type](entity_text)
# 设置BPMN元素的名称或描述属性为实体的文本描述
bpmn_element.name = entity_text# 以名称属性为例,可以根据需求选择其他属性
# 将BPMN元素添加到流程中
process.append(bpmn_element)
# 保存任务和条件网关的引用,以后用于建立关联关系
if entity_type == "活动":
tasks.append(bpmn_element)
elif entity_type == "条件关系":
gateways.append(bpmn_element)
# 建立任务之间的顺序关系
for i in range(len(tasks) - 1):
sequence_flow = SequenceFlow(tasks[i], tasks[i + 1])
process.append(sequence_flow)
# 建立条件关系的连接
if len(gateways) == 1:
# 如果只有一个条件关系,将其连接到任务
sequence_flow = SequenceFlow(gateways[0], tasks[1])
process.append(sequence_flow)
elif len(gateways) == 2:
# 如果有两个条件关系,建立排他条件
sequence_flow1 = SequenceFlow(gateways[0], tasks[1])
sequence_flow2 = SequenceFlow(gateways[1], tasks[1])
gateways[0].gateway_direction = "Diverging"
gateways[1].gateway_direction = "Converging"
process.append(sequence_flow1)
process.append(sequence_flow2)
# 输出BPMN流程模型
print(process.to_xml())
在本发明的具体实施例中,还包括:将所述BPMN流程图输出。具体步骤如下:
将生成的BPMN流程图导出为BPMN标准所支持的XML格式。这可以通过使用BPMN图编辑工具、BPMN建模工具或编程库来实现。导出后的XML文件将包含流程定义、元素属性、逻辑关系等信息,以完整地描述业务流程。
图像导出:除了导出为XML格式外,通常还需要将BPMN流程图导出为图像格式,如PNG、JPEG或SVG,以便于可视化展示和共享。这样,人们可以在不需要BPMN编辑工具的情况下查看流程图。
命名与版本管理:为生成的BPMN文件分配一个唯一的名称,并在需要时进行版本管理,以便跟踪流程模型的演化和历史记录。
审查与验证:生成的BPMN流程图可能需要经过内部审查或验证,以确保模型的准确性和一致性。在这一步,可以识别和修复任何潜在的问题或错误。
共享和集成:将生成的BPMN文件分享给相关的利益相关者,以便他们可以查看、讨论和使用流程模型。此外,将BPMN模型集成到BPMN建模工具、业务流程管理系统(BPMS)或工作流引擎中,以支持流程的自动化执行和监控。
输出: 完成的BPMN流程模型,以XML格式和图像格式导出,以及进行版本管理和审查后的模型文件。这些输出文件将用于将自动生成的BPMN流程模型用于实际的业务流程优化、自动化和管理。
在本发明的一些实施例中,还包括:将所述抽取结果存储到数据库中。
为了更好实施本发明实施例中的一种基于自然语言处理生成业务流程模型的方法,在一种基于自然语言处理生成业务流程模型的方法基础之上,对应地,如图2所示,本发明实施例还提供了一种基于自然语言处理生成业务流程模型的装置,一种基于自然语言处理生成业务流程模型的装置200包括:
业务流程文本获取模块201,用于获取自然语言描述的业务流程文本;
句子分隔模块202,用于基于句子分割器对所述业务流程文本进行分割,得到若干句子;
词性标注模块203,用于基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
实体识别模块204,用于基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
实体抽取模块205,用于对所述实体进行实体抽取得到抽取结果;
实体映射模块206,用于将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
关联关系建立模块207,用于根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
BPMN流程图构建模块208,用于基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
上述实施例提供的一种基于自然语言处理生成业务流程模型的装置200可实现上述自一种基于自然语言处理生成业务流程模型的方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述一种基于自然语言处理生成业务流程模型的方法实施例中的相应内容,此处不再赘述。
如图3所示,本发明还相应提供了一种电子设备300。该电子设备300包括处理器301、存储器302及显示器303。图3仅示出了电子设备300的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
处理器301在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器302中存储的程序代码或处理数据,例如本发明中的一种基于自然语言处理生成业务流程模型的方法。
在一些实施例中,处理器301可以是单个服务器或服务器组。服务器组可为集中式或分布式的。在一些实施例中,处理器301可为本地的或远程的。在一些实施例中,处理器301可实施于云平台。在一实施例中,云平台可包括私有云、公共云、混合云、社区云、分布式云、内部间、多重云等,或以上的任意组合。
存储器302在一些实施例中可以是电子设备300的内部存储单元,例如电子设备300的硬盘或内存。存储器302在另一些实施例中也可以是电子设备300的外部存储设备,例如电子设备300上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器303还可既包括电子设备300的内部储存单元也包括外部存储设备。存储器302用于存储安装电子设备300的应用软件及各类数据。
显示器303在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器303用于显示在电子设备300的信息以及用于显示可视化的用户界面。电子设备300的部件301-303通过系统总线相互通信。
在一实施例中,当处理器301执行存储器302中的一种基于自然语言处理生成业务流程模型的程序时,可实现以下步骤:
获取自然语言描述的业务流程文本;
基于句子分割器对所述业务流程文本进行分割,得到若干句子;
基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
对所述实体进行实体抽取得到抽取结果;
将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
应当理解的是:处理器301在执行存储器302中的一种基于自然语言处理生成业务流程模型的程序时,除了上面的功能之外,还可实现其他功能,具体可参见前面相应方法实施例的描述。
进一步地,本发明实施例对提及的电子设备300的类型不作具体限定,电子设备300可以为手机、平板电脑、个人数字助理(personaldigitalassistant,PDA)、可穿戴设备、膝上型计算机(laptop)等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载IOS、android、microsoft或者其他操作系统的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是,在本发明其他一些实施例中,电子设备300也可以不是便携式电子设备,而是具有触敏表面(例如触控面板)的台式计算机。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于自然语言处理生成业务流程模型的方法,其特征在于,包括:
获取自然语言描述的业务流程文本;
基于句子分割器对所述业务流程文本进行分割,得到若干句子;
基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
对所述实体进行实体抽取得到抽取结果;
将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
2.根据权利要求1所述的基于自然语言处理生成业务流程模型的方法,其特征在于,所述获取自然语言描述的业务流程文本,包括:
获取用于训练模型的训练集;
采用bert工具对所述训练集进行训练获得短文本分类的分类模型;
采用分类模型对文档中的语句进行分类,对分类后的结果进行筛选,获取业务流程文本。
3.根据权利要求1所述的基于自然语言处理生成业务流程模型的方法,其特征在于,所述抽取结果中实体的类型包括角色实体、活动实体和决策点实体,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,包括:
将所述角色实体映射到所述BPMN元素中的泳道元素;
将所述活动实体映射到所述BPMN元素中的任务元素;
将所述决策点实体映射到所述BPMN元素中的排他网关元素。
4.根据权利要求3所述的基于自然语言处理生成业务流程模型的方法,其特征在于,所述将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素,具体包括如下步骤:
将所述抽取结果转化为JSON格式,得到JSON格式的抽取结果;
获取BPMN模型库;
基于所述BPMN模型库创建一个空的BPMN流程模型;
创建BPMN元素映射规则和角色泳道;
遍历所述JSON格式的抽取结果,根据所述BPMN元素映射规则创建相应的BPMN元素,所述BPMN元素名称为每次遍历所述JSON格式的抽取结果中文本的名称;
将所述BPMN元素添加到角色泳道中;
将所述BPMN元素添加到所述BPMN流程模型中。
5.根据权利要求1所述的基于自然语言处理生成业务流程模型的方法,其特征在于,所述根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系,包括:
根据所述实体文本之间的业务逻辑关系,建立所述映射后的BPMN元素之间的顺序流、条件分支和泳道。
6.根据权利要求5所述的基于自然语言处理生成业务流程模型的方法,其特征在于,所述业务逻辑关系包括:所述实体文本之间的前后顺序或所述实体文本之间的条件依赖关系。
7.根据权利要求1所述的基于自然语言处理生成业务流程模型的方法,其特征在于,还包括:将所述抽取结果存储到数据库中。
8.一种基于自然语言处理生成业务流程模型的装置,其特征在于,包括:
业务流程文本获取模块,用于获取自然语言描述的业务流程文本;
句子分隔模块,用于基于句子分割器对所述业务流程文本进行分割,得到若干句子;
词性标注模块,用于基于分词器对所述若干句子分割,得到若干词语或短语,基于词性标注器对所述若干词语或短语进行词性标注;
实体识别模块,用于基于实体识别方法在所述词性标注的基础上对所述业务流程文本进行实体识别得到对应的实体;
实体抽取模块,用于对所述实体进行实体抽取得到抽取结果;
实体映射模块,用于将所述抽取结果映射到BPMN元素中得到映射后的BPMN元素;
关联关系建立模块,用于根据所述抽取结果中实体的文本建立所述映射后的BPMN元素之间的关联关系;
BPMN流程图构建模块,用于基于所述映射后的BPMN元素之间的关联关系构建BPMN流程图。
9.一种电子设备,其特征在于,包括存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述权利要求1至7中任意一项所述的一种基于自然语言处理生成业务流程模型的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可读取的程序或指令,所述程序或指令被处理器执行时能够实现上述权利要求1至7中任意一项所述的一种基于自然语言处理生成业务流程模型的方法中的步骤。
CN202311733277.0A 2023-12-18 2023-12-18 一种基于自然语言处理生成业务流程模型的方法和装置 Pending CN117436420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311733277.0A CN117436420A (zh) 2023-12-18 2023-12-18 一种基于自然语言处理生成业务流程模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311733277.0A CN117436420A (zh) 2023-12-18 2023-12-18 一种基于自然语言处理生成业务流程模型的方法和装置

Publications (1)

Publication Number Publication Date
CN117436420A true CN117436420A (zh) 2024-01-23

Family

ID=89551797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311733277.0A Pending CN117436420A (zh) 2023-12-18 2023-12-18 一种基于自然语言处理生成业务流程模型的方法和装置

Country Status (1)

Country Link
CN (1) CN117436420A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083087A1 (en) * 2007-09-20 2009-03-26 Christian Wolter Modeling of task-based constraints and automated policy derivation
WO2020233261A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、系统、设备及存储介质
US20210303513A1 (en) * 2020-03-31 2021-09-30 Morgan Stanley Services Group Inc. Json to bpmn conversion system
WO2022234913A1 (ko) * 2021-05-04 2022-11-10 인제대학교 산학협력단 플랜트 절차서의 프로세스 모델 생성방법 및 그의 시스템
CN116483314A (zh) * 2023-01-06 2023-07-25 南京邮电大学 一种自动化智能活动图生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083087A1 (en) * 2007-09-20 2009-03-26 Christian Wolter Modeling of task-based constraints and automated policy derivation
WO2020233261A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
US20210303513A1 (en) * 2020-03-31 2021-09-30 Morgan Stanley Services Group Inc. Json to bpmn conversion system
WO2022234913A1 (ko) * 2021-05-04 2022-11-10 인제대학교 산학협력단 플랜트 절차서의 프로세스 모델 생성방법 및 그의 시스템
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、系统、设备及存储介质
CN116483314A (zh) * 2023-01-06 2023-07-25 南京邮电大学 一种自动化智能活动图生成方法

Similar Documents

Publication Publication Date Title
US11822880B2 (en) Enabling flexible processing of semantically-annotated documents
US20210201013A1 (en) Contract lifecycle management
Leopold et al. Recognising activity labeling styles in business process models
US20200074300A1 (en) Artificial-intelligence-augmented classification system and method for tender search and analysis
CN111489105B (zh) 一种企业风险识别方法、装置及设备
US11392774B2 (en) Extracting relevant sentences from text corpus
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
KR102634624B1 (ko) 플랜트 절차서의 프로세스 모델 생성방법 및 그의 시스템
US20230401247A1 (en) Clause taxonomy system and method for structured document construction and analysis
CN113946690A (zh) 潜在客户挖掘方法、装置、电子设备及存储介质
CN115309885A (zh) 一种用于科技服务的知识图谱构建、检索和可视化方法及系统
Hassan et al. Automated approach for digitalizing scope of work requirements to support contract management
Gopisetty Global pandemic: Business model impact on enterprises reTHINK, reIMAGINE, reINVENT businesses
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN117436420A (zh) 一种基于自然语言处理生成业务流程模型的方法和装置
Weerasinghe et al. Smart UML-Assignment Management Tool for UML Diagrams
Borst et al. A Demonstration System towards NLP and Knowledge Driven Data Platforms for Civil Engineering
US11783605B1 (en) Generalizable key-value set extraction from documents using machine learning models
US20240127617A1 (en) Systems and methods for automated text labeling
Homburga et al. From an Analog to a Digital Workflow: An Introductory Approach to Digital Editions in Assyriology
Kerutis et al. Intelligent Invoice Documents Processing Employing RPA Technologies
Nguyen Document Understanding with Deep Learning Techniques
CN113177122A (zh) 关联资产确定方法、装置和电子设备
Cho Research Process Traceability Based the RD Relationship
Romero Automated BCF Data Extraction For BIM QC Communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination