CN111190576B - 基于文字识别的组件集展示方法、装置和计算机设备 - Google Patents

基于文字识别的组件集展示方法、装置和计算机设备 Download PDF

Info

Publication number
CN111190576B
CN111190576B CN201911304399.1A CN201911304399A CN111190576B CN 111190576 B CN111190576 B CN 111190576B CN 201911304399 A CN201911304399 A CN 201911304399A CN 111190576 B CN111190576 B CN 111190576B
Authority
CN
China
Prior art keywords
word
sequence
component
word sequence
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911304399.1A
Other languages
English (en)
Other versions
CN111190576A (zh
Inventor
石兴
肖赵栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Medical Health Technology Service Co Ltd filed Critical Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority to CN201911304399.1A priority Critical patent/CN111190576B/zh
Publication of CN111190576A publication Critical patent/CN111190576A/zh
Application granted granted Critical
Publication of CN111190576B publication Critical patent/CN111190576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请揭示了一种基于文字识别的组件集展示方法、装置、计算机设备和存储介质,所述方法包括:利用预设摄像头采集预设的业务逻辑图;对业务逻辑图进行文字识别,得到初始单词序列;调取第一标注单词序列,并计算初始单词序列和第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,得到第二组件集和第二组件集对应的第二标注单词序列,其中组件替换操作遵循优先替换第三单词对应的组件的原则;计算初始单词序列和第二标注单词序列的第二相似度值;若第二相似度值大于相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。

Description

基于文字识别的组件集展示方法、装置和计算机设备
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于文字识别的组件集展示方法、装置、计算机设备和存储介质。
背景技术
在软件系统架构中,软件一般分为三个层次:表示层、业务逻辑层和数据访问层,其中的业务逻辑层的实现可借助规则引擎,利用其中的组件以减少逻辑实现难度,有利于系统的开发、维护、部署和扩展。传统技术中的业务逻辑层借助组件的实现,需要开发人员具备相当的专业性,能够找到准确的组件,并将组件应用于实现自己绘制的业务逻辑图中,从而完成业务逻辑层的构建。但是作为便于使用的工具,相关的组件越来越多,因此人为寻找组件以应用于业务逻辑中的方式,效率低下,造成业务逻辑层构建的速度降低。并且传统的业务逻辑层的构建,需要手动输入计算机中,而业务逻辑图的绘制,有时来自于灵感一现,会手绘在纸件上,而传统技术无法对纸件上的业务逻辑图进行解析,还需要人为输入计算机,从而造成二次无意义劳动,无助于效率的提高。
发明内容
本申请的主要目的为提供一种基于文字识别的组件集展示方法、装置、计算机设备和存储介质,旨在避免二次劳动,提高了业务逻辑层的搭建效率。
为了实现上述发明目的,本申请提出一种基于文字识别的组件集展示方法,包括以下步骤:
利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
判断所述第一相似度值是否大于预设的相似阈值;
若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。
进一步地,所述根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词的步骤,包括:
将所述业务逻辑图输入文字识别模型中的第一识别架构中,得到所述第一识别架构输出的所述第一单词;其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,所述第一识别架构利用第一样本数据训练而成,所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;
将所述业务逻辑图输入所述第二识别架构中,得到所述第二识别架构输出的总文字;其中所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体;
从所述总文字中去除所述第一单词,从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。
进一步地,所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应的步骤之前,包括:
统计所述初始单词序列中每个单词的出现次数,从而生成初始单词频率向量(A1,A2,...,Ai,...An),其中Ai为所述初始单词序列中第i个单词出现的次数;以及统计所述标注单词序列库中的每个标注单词序列中每个单词的出现次数,从而生成多个标注单词频率向量(B1,B2,...,Bi,...Bn),其中Bi为所述标注单词序列中第i个单词出现的次数;
从预存的标注单词序列库中调取第一标注单词序列,其中所述第一标注单词序列对应的标注单词频率向量(B1,B2,...,Bi,...Bn)符合公式:
Figure BDA0002322690490000031
其中L是预设的参数,并且L大于等于0小于1。
进一步地,所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值的步骤,包括:
通过查询预设的词向量库,获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm);
根据公式:
Figure BDA0002322690490000041
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim,并将所述相似度值Sim记为所述初始单词序列和所述第一标注单词序列的第一相似度值。
进一步地,所述指定逻辑顺序标注有多个逻辑节点,所述执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集的步骤,包括:
根据预设的指定逻辑顺序-初始单词序列-第一单词序列-第一组件集的对应关系,将所述指定逻辑顺序中的多个逻辑节点映射到所述第一组件集中,并以映射后的逻辑节点作为切分点,将所述第一组件集切分为多个组件子集;
从所述多个组件子集中挑选出指定组件子集,所述指定组件子集包括所述第三单词对应的组件;
通过组合所述指定组件子集中的标注,生成所述指定组件子集对应的暂时单词序列,以及获取预设的备用组件子集对应的备用单词序列;
计算所述暂时单词序列与所述备用单词序列的暂时相似度值,并判断所述暂时相似度值是否大于预设的暂时相似度阈值;
若所述暂时相似度值大于预设的暂时相似度阈值,则将所述第一组件集中的所述指定组件子集替换为所述备用组件子集,从而得到第二组件集。
进一步地,所述计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值的步骤之后,包括:
若所述第二相似度值不大于预设的相似阈值,则将所述初始单词序列拆分为多个单词,并分别计算所述多个单词与预设的多个组件标注的多个相似度值;
根据相似度值最大的原则,获取与所述多个单词分别对应的多个组件标注;
根据预设的标注与组件的对应关系,获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。
进一步地,所述若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集的步骤之后,包括:
获取对所述第二组件集进行更新的更新指令,所述更新指令通过监测鼠标指令的指定行为而生成,所述指定行为至少包括对组件进行拖拽;
根据所述更新指令,对所述指定行为针对的组件进行更新操作,从而得到更新后的组件集,并将所述更新后的组件集以持久化数据的形式存入数据库。
本申请提供一种基于文字识别的组件集展示装置,包括:
业务逻辑图采集单元,用于利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
文字识别单元,用于根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
第一相似度值计算单元,用于从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
第一相似度值判断单元,用于判断所述第一相似度值是否大于预设的相似阈值;
组件替换单元,用于若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
第二相似度值判断单元,用于计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
第二组件集展示单元,用于若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于文字识别的组件集展示方法、装置、计算机设备和存储介质,利用预设摄像头采集预设的业务逻辑图;对所述业务逻辑图进行文字识别,从而得到初始单词序列;从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换第三单词对应的组件的原则;计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。
附图说明
图1为本申请一实施例的基于文字识别的组件集展示方法的流程示意图;
图2为本申请一实施例的基于文字识别的组件集展示装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于文字识别的组件集展示方法,包括以下步骤:
S1、利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
S2、根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
S3、从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
S4、判断所述第一相似度值是否大于预设的相似阈值;
S5、若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
S6、计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
S7、若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。
本申请可适用的场景,例如为:对于具有手写体文字的业务逻辑图(例如开发人员等预先绘制在纸上),通过识别出手写文字,以优先保障手写文字对应的组件的原则(因为手写文字即是开发人员在印刷文字上修改的结果,而之所以会修改,表明其是特别的,一般为业务逻辑图中的核心),找出最适合的组件集,以利于业务逻辑的实现。
如上述步骤S1所述,利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写。业务逻辑图,在一定程度上也能被称为业务流程图,是由多个实体按照逻辑顺序连接而成的图。本申请中的业务逻辑图例如可为这样的情况,预先打印出制式的业务逻辑图,其上绘制有制式流程(其中包括由印刷体文字书写的第一实体),而开发人员在其上进行添加或修改,以在所述业务逻辑图上呈现出由手写体文字书写的第二实体。其中,第二实体相对于第一实体更为重要。
如上述步骤S2所述,根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词。其中文字识方法可为任意方法,例如为:将所述业务逻辑图输入文字识别模型中的第一识别架构中,得到所述第一识别架构输出的所述第一单词;其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,所述第一识别架构利用第一样本数据训练而成,所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;将所述业务逻辑图输入所述第二识别架构中,得到所述第二识别架构输出的总文字;其中所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体;从所述总文字中去除所述第一单词,从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。从而免去大模型(以印刷体和手写体同时作为训练数据的模型)的训练笨拙,耗时长的缺陷。
如上述步骤S3所述,从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应。调取第一标注单词序列的目的在于,计算并判断其与所述初始单词序列是否相似,若相似,则表明第一标注单词序列对应的第一组件集大概率可用于本次业务逻辑图中,因此展示第一组件集即可。若不相似,则需要进一步寻找更为合适的组件集。其中,计算所述初始单词序列和所述第一标注单词序列的第一相似度值的方式例如为:通过查询预设的词向量库,获取所述初始单词序列对应的初始词向量序列(C1,C2,...,Ci,...Cm),以及获取所述第一标注单词序列对应的第一词向量序列(D1,D2,...,Di,...Dm);根据公式:
Figure BDA0002322690490000091
计算所述初始单词序列和所述第一标注单词序列的第一相似度值Sim。
如上述步骤S4所述,判断所述第一相似度值是否大于预设的相似阈值。第一相似度值用于衡量所述初始单词序列和所述第一标注单词序列是否相似。若第一相似度值高,即大于预设的相似阈值,表明相似,则直接展示第一标注单词序列对应的第一组件集即可。若第一相似度值不大于预设的相似阈值,则需要寻找更为合适的组件集。
如上述步骤S5所述,若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则。若所述第一相似度值不大于预设的相似阈值,可能的原因在于,第一组件集中的部分组件与需要的组件区别较大,因此只需将其替代即可。其中第三单词是与第一单词对应的,第一单词代表了印刷体文字(即第一实体),相对而言,重要性更低(相对第二实体,即手写体文字而言),因此所述组件替换操作遵循优先替换所述第三单词对应的组件的原则。
如上述步骤S6所述,计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值。其中所述第二相似度值的计算方法,可以为任意可行方法,例如与前述第一相似度值的计算方法相同。
如上述步骤S7所述,若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。第二相似度值衡量的是所述初始单词序列和所述第二标注单词序列的相似度。若所述第二相似度值大于预设的相似阈值,表明所述初始单词序列和所述第二标注单词序列相似,因此所述第二标注单词序列对应的第二组件集适用于所述初始单词序列代表的业务逻辑图。并且业务逻辑图中存在指定逻辑顺序,据此按照所述指定逻辑顺序,展示所述第二组件集。从而业务逻辑图中各实体适用的组件被选了出来,无需开发人员手动寻找,提高了业务逻辑层的搭建效率。
在一个实施方式中,所述根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词的步骤S2,包括:
S201、将所述业务逻辑图输入文字识别模型中的第一识别架构中,得到所述第一识别架构输出的所述第一单词;其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,所述第一识别架构利用第一样本数据训练而成,所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;
S202、将所述业务逻辑图输入所述第二识别架构中,得到所述第二识别架构输出的总文字;其中所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体;
S203、从所述总文字中去除所述第一单词,从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。
如上所述,实现了对所述业务逻辑图进行文字识别,从而得到初始单词序列。本申请中的初始单词序是有明确划分的,即划分为第一单词和第二单词,用于后续组件替换操作时确定被替换的对象。本申请通过特殊结构的文字识别模型进行识别,从而得到第一单词和第二单词,其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,第一识别架构只能识别出印刷体文字;第二识别架构能够识别出所有文字,但不能区分印刷体与手写体。从而所述第一识别架构识别出的即为第一单词(即对应于以印刷体文字呈现的第一实体);所述第二识别架构识别出的是总文字(即所有文字),那么总文字除去第一单词后得到的即是第二单词(即对应于以手写体文字呈现的第二实体),从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。其中,所述第一识别架构与第二识别架构的训练数据相似又不全相同,即所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体。从而第一识别架构只关注于印刷体文字,不必理会手写体文字的干扰,而第二识别架构不需理会不同字体间的区别,因此相较于普通的能够识别手写体文字的模型,第一识别架构、第二识别架构的训练速度和准确性都更优秀,从而提高了识别准确度与训练速度。
在一个实施方式中,所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应的步骤S3之前,包括:
S21、统计所述初始单词序列中每个单词的出现次数,从而生成初始单词频率向量(A1,A2,...,Ai,...An),其中Ai为所述初始单词序列中第i个单词出现的次数;以及统计所述标注单词序列库中的每个标注单词序列中每个单词的出现次数,从而生成多个标注单词频率向量(B1,B2,...,Bi,...Bn),其中Bi为所述标注单词序列中第i个单词出现的次数;
S22、从预存的标注单词序列库中调取第一标注单词序列,其中所述第一标注单词序列对应的标注单词频率向量(B1,B2,...,Bi,...Bn)符合公式:
Figure BDA0002322690490000121
其中L是预设的参数,并且L大于等于0小于1。
如上所述,实现了从预存的标注单词序列库中调取第一标注单词序列。第一标注单词序列用于与所述初始单词序列进行对比,因此如何预先筛选出最相似的第一标注单词序列尤为重要。本申请通过统计所述初始单词序列中每个单词的出现次数,从而生成初始单词频率向量(A1,A2,...,Ai,...An),其中Ai为所述初始单词序列中第i个单词出现的次数;以及统计所述标注单词序列库中的每个标注单词序列中每个单词的出现次数,从而生成多个标注单词频率向量(B1,B2,...,Bi,...Bn),其中Bi为所述标注单词序列中第i个单词出现的次数;从预存的标注单词序列库中调取第一标注单词序列,其中所述第一标注单词序列对应的标注单词频率向量(B1,B2,...,Bi,...Bn)符合公式:
Figure BDA0002322690490000122
其中L是预设的参数,并且L大于等于0小于1的方式,获取第一标注单词序列。其中,式子
Figure BDA0002322690490000123
的最大值为1,即当其取值为1时,表明所述第一标注单词序列与所述初始单词序列最可能相似,因此将其预先筛选出来,以提高识别的准确性。
在一个实施方式中,所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值的步骤S3,包括:
S301、通过查询预设的词向量库,获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm);
S302、根据公式:
Figure BDA0002322690490000131
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim,并将所述相似度值Sim记为所述初始单词序列和所述第一标注单词序列的第一相似度值。
如上所述,实现了计算所述初始单词序列和所述第一标注单词序列的第一相似度值。其中词向量库中预存了大量单词与向量之间的对应关系,因此通过查询预设的词向量库,即可获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm)。再利用公式:
Figure BDA0002322690490000132
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim。其中相似度值Sim用于衡量所述初始句向量和所述第一标注句向量的相关程度,相似度值Sim的最大值为1,当相似度值Sim取值为1时,表明所述初始句向量和所述第一标注句向量最相关,也即所述初始句向量和所述第一标注句向量最相似。因此本申请采用获取句向量后计算相关程度的方式,提高了相似度值的准确性。
在一个实施方式中,所述指定逻辑顺序标注有多个逻辑节点,所述执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集的步骤S5,包括:
S501、根据预设的指定逻辑顺序-初始单词序列-第一单词序列-第一组件集的对应关系,将所述指定逻辑顺序中的多个逻辑节点映射到所述第一组件集中,并以映射后的逻辑节点作为切分点,将所述第一组件集切分为多个组件子集;
S502、从所述多个组件子集中挑选出指定组件子集,所述指定组件子集包括所述第三单词对应的组件;
S503、通过组合所述指定组件子集中的标注,生成所述指定组件子集对应的暂时单词序列,以及获取预设的备用组件子集对应的备用单词序列;
S504、计算所述暂时单词序列与所述备用单词序列的暂时相似度值,并判断所述暂时相似度值是否大于预设的暂时相似度阈值;
S505、若所述暂时相似度值大于预设的暂时相似度阈值,则将所述第一组件集中的所述指定组件子集替换为所述备用组件子集,从而得到第二组件集。
如上所述,实现了执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集,从而提高第二组件集的替换效率。若是逐个确定第一组件集中的每个组件是否合适,将造成时间和算力上的大量浪费,无助于提高业务逻辑层的构建效率。因此本申请采用将所述第一组件集切分为多个组件子集,替换其中的指定组件子集,所述指定组件子集包括所述第三单词对应的组件,从而更快地实现了第二组件集的获取。由于本申请采用了预先标注逻辑节点的方式,从而使第一组件集存在被切分的基础,使以组件子集为单位进行替换损伤成为了可能,最终提高了第二组件集获取效率。
在一个实施方式中,所述计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值的步骤S6之后,包括:
S61、若所述第二相似度值不大于预设的相似阈值,则将所述初始单词序列拆分为多个单词,并分别计算所述多个单词与预设的多个组件标注的多个相似度值;
S62、根据相似度值最大的原则,获取与所述多个单词分别对应的多个组件标注;
S63、根据预设的标注与组件的对应关系,获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。
如上所述,实现了获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。若所述第二相似度值不大于预设的相似阈值,表明替换后的第二标注单词序列也与所述初始单词序列不相似,即很可能不存在现成的组件集以匹配所述业务逻辑图,因此需要以单词为单位(即以所述业务逻辑图中的实体为单位),逐一寻找对应的匹配组件。据此,将所述初始单词序列拆分为多个单词,并分别计算所述多个单词与预设的多个组件标注的多个相似度值;根据相似度值最大的原则,获取与所述多个单词分别对应的多个组件标注;根据预设的标注与组件的对应关系,获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。从而保证能够寻找到匹配的组件,以便于业务逻辑层构建时进行调用。
在一个实施方式中,所述若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集的步骤S7之后,包括:
S71、获取对所述第二组件集进行更新的更新指令,所述更新指令通过监测鼠标指令的指定行为而生成,所述指定行为至少包括对组件进行拖拽;
S72、根据所述更新指令,对所述指定行为针对的组件进行更新操作,从而得到更新后的组件集,并将所述更新后的组件集以持久化数据的形式存入数据库。
如上所述,实现了将所述更新后的组件集以持久化数据的形式存入数据库。由于所述第二组件集只是宏观上匹配所述业务逻辑图,因此可能存在一些细节内容需要细微调试,例如对于所述第二组件集中的某个组件,开发人员了解到有更为合适的备选组件,因此开发人员可以通过鼠标对组件进行拖拽处理,以实现组件的更新。从而结合计算机自动展示第二组件集与开发人员的微调,以完善整个组件集,再将所述更新后的组件集以持久化数据的形式存入数据库,有利于后续的再利用。其中,所述持久化数据是相对于瞬时数据而言,可用于长时间的数据保存,以防止数据丢失。
本申请的基于文字识别的组件集展示方法,利用预设摄像头采集预设的业务逻辑图;对所述业务逻辑图进行文字识别,从而得到初始单词序列;从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换第三单词对应的组件的原则;计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。
参照图2,本申请实施例提供一种基于文字识别的组件集展示装置,包括:
业务逻辑图采集单元10,用于利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
文字识别单元20,用于根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
第一相似度值计算单元30,用于从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
第一相似度值判断单元40,用于判断所述第一相似度值是否大于预设的相似阈值;
组件替换单元50,用于若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
第二相似度值判断单元60,用于计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
第二组件集展示单元70,用于若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。
其中上述单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述文字识别单元20,包括:
第一单词获取子单元,用于将所述业务逻辑图输入文字识别模型中的第一识别架构中,得到所述第一识别架构输出的所述第一单词;其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,所述第一识别架构利用第一样本数据训练而成,所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;
总文字获取子单元,用于将所述业务逻辑图输入所述第二识别架构中,得到所述第二识别架构输出的总文字;其中所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体;
第二单词获取子单元,用于从所述总文字中去除所述第一单词,从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。
其中上述子单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
频率向量生成单元,用于统计所述初始单词序列中每个单词的出现次数,从而生成初始单词频率向量(A1,A2,...,Ai,...An),其中Ai为所述初始单词序列中第i个单词出现的次数;以及统计所述标注单词序列库中的每个标注单词序列中每个单词的出现次数,从而生成多个标注单词频率向量(B1,B2,...,Bi,...Bn),其中Bi为所述标注单词序列中第i个单词出现的次数;
第一标注单词序列调取单元,用于从预存的标注单词序列库中调取第一标注单词序列,其中所述第一标注单词序列对应的标注单词频率向量(B1,B2,...,Bi,...Bn)符合公式:
Figure BDA0002322690490000181
其中L是预设的参数,并且L大于等于0小于1。
其中上述单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一相似度值计算单元30,包括:
句向量获取子单元,用于通过查询预设的词向量库,获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm);
相似度值Sim计算子单元,用于根据公式:
Figure BDA0002322690490000182
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim,并将所述相似度值Sim记为所述初始单词序列和所述第一标注单词序列的第一相似度值。
其中上述子单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述指定逻辑顺序标注有多个逻辑节点,所述组件替换单元50,包括:
切分子单元,用于根据预设的指定逻辑顺序-初始单词序列-第一单词序列-第一组件集的对应关系,将所述指定逻辑顺序中的多个逻辑节点映射到所述第一组件集中,并以映射后的逻辑节点作为切分点,将所述第一组件集切分为多个组件子集;
指定组件子集挑选子单元,用于从所述多个组件子集中挑选出指定组件子集,所述指定组件子集包括所述第三单词对应的组件;
暂时单词序列生成子单元,用于通过组合所述指定组件子集中的标注,生成所述指定组件子集对应的暂时单词序列,以及获取预设的备用组件子集对应的备用单词序列;
暂时相似度阈值判断子单元,用于计算所述暂时单词序列与所述备用单词序列的暂时相似度值,并判断所述暂时相似度值是否大于预设的暂时相似度阈值;
第二组件集获取子单元,用于若所述暂时相似度值大于预设的暂时相似度阈值,则将所述第一组件集中的所述指定组件子集替换为所述备用组件子集,从而得到第二组件集。
其中上述子单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
多个相似度值计算单元,用于若所述第二相似度值不大于预设的相似阈值,则将所述初始单词序列拆分为多个单词,并分别计算所述多个单词与预设的多个组件标注的多个相似度值;
多个组件标注获取单元,用于根据相似度值最大的原则,获取与所述多个单词分别对应的多个组件标注;
多个组件展示单元,用于根据预设的标注与组件的对应关系,获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。
其中上述单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
更新指令获取单元,用于获取对所述第二组件集进行更新的更新指令,所述更新指令通过监测鼠标指令的指定行为而生成,所述指定行为至少包括对组件进行拖拽;
组件集存储单元,用于根据所述更新指令,对所述指定行为针对的组件进行更新操作,从而得到更新后的组件集,并将所述更新后的组件集以持久化数据的形式存入数据库。
其中上述单元分别用于执行的操作与前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
本申请的基于文字识别的组件集展示装置,利用预设摄像头采集预设的业务逻辑图;对所述业务逻辑图进行文字识别,从而得到初始单词序列;从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换第三单词对应的组件的原则;计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于文字识别的组件集展示方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文字识别的组件集展示方法。
上述处理器执行上述基于文字识别的组件集展示方法,其中所述方法包括的步骤分别与执行前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,利用预设摄像头采集预设的业务逻辑图;对所述业务逻辑图进行文字识别,从而得到初始单词序列;从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换第三单词对应的组件的原则;计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于文字识别的组件集展示方法,其中所述方法包括的步骤分别与执行前述实施方式的基于文字识别的组件集展示方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,利用预设摄像头采集预设的业务逻辑图;对所述业务逻辑图进行文字识别,从而得到初始单词序列;从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换第三单词对应的组件的原则;计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集。从而避免了二次劳动,提高了业务逻辑层的搭建效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种基于文字识别的组件集展示方法,其特征在于,包括:
利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
判断所述第一相似度值是否大于预设的相似阈值;
若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集;
所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值的步骤,包括:
通过查询预设的词向量库,获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm);
根据公式:
Figure FDA0003787466230000021
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim,并将所述相似度值Sim记为所述初始单词序列和所述第一标注单词序列的第一相似度值。
2.根据权利要求1所述的基于文字识别的组件集展示方法,其特征在于,所述根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词的步骤,包括:
将所述业务逻辑图输入文字识别模型中的第一识别架构中,得到所述第一识别架构输出的所述第一单词;其中所述文字识别模型由所述第一识别架构和预设的第二识别架构组成,所述第一识别架构利用第一样本数据训练而成,所述第一样本数据由预先收集的文字图片和所述文字图片中的印刷体文字标识所构成,所述文字图片中包括印刷体文字和手写体文字;
将所述业务逻辑图输入所述第二识别架构中,得到所述第二识别架构输出的总文字;其中所述第二识别架构利用第二样本数据训练而成,所述第二样本数据由所述文字图片和所述文字图片中的所有文字标识所构成,其中所述所有文字标识不区分印刷体与手写体;
从所述总文字中去除所述第一单词,从而得到所述第二单词,并将所述第一单词和所述第二单词组建成所述初始单词序列。
3.根据权利要求1所述的基于文字识别的组件集展示方法,其特征在于,所述从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应的步骤之前,包括:
统计所述初始单词序列中每个单词的出现次数,从而生成初始单词频率向量(A1,A2,...,Ai,...An),其中Ai为所述初始单词序列中第i个单词出现的次数;以及统计所述标注单词序列库中的每个标注单词序列中每个单词的出现次数,从而生成多个标注单词频率向量(B1,B2,...,Bi,...Bn),其中Bi为所述标注单词序列中第i个单词出现的次数;
从预存的标注单词序列库中调取第一标注单词序列,其中所述第一标注单词序列对应的标注单词频率向量(B1,B2,...,Bi,...Bn)符合公式:
Figure FDA0003787466230000031
其中L是预设的参数,并且L大于等于0小于1。
4.根据权利要求1所述的基于文字识别的组件集展示方法,其特征在于,所述指定逻辑顺序标注有多个逻辑节点,所述执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集的步骤,包括:
根据预设的指定逻辑顺序-初始单词序列-第一单词序列-第一组件集的对应关系,将所述指定逻辑顺序中的多个逻辑节点映射到所述第一组件集中,并以映射后的逻辑节点作为切分点,将所述第一组件集切分为多个组件子集;
从所述多个组件子集中挑选出指定组件子集,所述指定组件子集包括所述第三单词对应的组件;
通过组合所述指定组件子集中的标注,生成所述指定组件子集对应的暂时单词序列,以及获取预设的备用组件子集对应的备用单词序列;
计算所述暂时单词序列与所述备用单词序列的暂时相似度值,并判断所述暂时相似度值是否大于预设的暂时相似度阈值;
若所述暂时相似度值大于预设的暂时相似度阈值,则将所述第一组件集中的所述指定组件子集替换为所述备用组件子集,从而得到第二组件集。
5.根据权利要求1所述的基于文字识别的组件集展示方法,其特征在于,所述计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值的步骤之后,包括:
若所述第二相似度值不大于预设的相似阈值,则将所述初始单词序列拆分为多个单词,并分别计算所述多个单词与预设的多个组件标注的多个相似度值;
根据相似度值最大的原则,获取与所述多个单词分别对应的多个组件标注;
根据预设的标注与组件的对应关系,获取与所述多个组件标注分别对应的多个组件,并展示所述多个组件。
6.根据权利要求1所述的基于文字识别的组件集展示方法,其特征在于,所述若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集的步骤之后,包括:
获取对所述第二组件集进行更新的更新指令,所述更新指令通过监测鼠标指令的指定行为而生成,所述指定行为至少包括对组件进行拖拽;
根据所述更新指令,对所述指定行为针对的组件进行更新操作,从而得到更新后的组件集,并将所述更新后的组件集以持久化数据的形式存入数据库。
7.一种基于文字识别的组件集展示装置,其特征在于,包括:
业务逻辑图采集单元,用于利用预设摄像头采集预设的业务逻辑图,其中,所述业务逻辑图由多个实体按指定逻辑顺序组合而成;所述多个实体包括第一实体和第二实体,所述第一实体由印刷体文字书写,所述第二实体由手写体文字书写;
文字识别单元,用于根据预设的文字识别方法,对所述业务逻辑图进行文字识别,从而得到初始单词序列,其中所述初始单词序列由第一单词和第二单词构成,所述第一单词指识别所述第一实体而得的单词,所述第二单词指识别所述第二实体而得的单词;
第一相似度值计算单元,用于从预存的标注单词序列库中调取第一标注单词序列,并计算所述初始单词序列和所述第一标注单词序列的第一相似度值;其中所述第一标注单词序列由第三单词和第四单词构成,所述第三单词与所述第一单词对应,所述第四单词与所述第二单词对应,并且所述第一标注单词序列与预存的第一组件集对应,所述第一标注单词序列中的单词与所述第一组件集中的组件对应;
第一相似度值判断单元,用于判断所述第一相似度值是否大于预设的相似阈值;
组件替换单元,用于若所述第一相似度值不大于预设的相似阈值,则执行组件替换操作,以将所述第一组件集中的部分组件替换为备用组件,从而得到第二组件集和所述第二组件集对应的第二标注单词序列,其中所述组件替换操作遵循优先替换所述第三单词对应的组件的原则;
第二相似度值判断单元,用于计算所述初始单词序列和所述第二标注单词序列的第二相似度值,并判断所述第二相似度值是否大于预设的相似阈值;
第二组件集展示单元,用于若所述第二相似度值大于预设的相似阈值,则按照所述指定逻辑顺序,展示所述第二组件集;
查询获取单元,用于通过查询预设的词向量库,获取所述初始单词序列中每个单词对应的词向量,并以顺序连接的方式组合成初始句向量(C1,C2,...,Ci,...Cm);以及获取所述第一标注单词序列中每个单词对应的词向量,并以顺序连接的方式组合成第一标注句向量(D1,D2,...,Di,...Dm);
根据公式:
Figure FDA0003787466230000051
计算所述初始句向量(C1,C2,...,Ci,...Cm)和所述第一标注句向量(D1,D2,...,Di,...Dm)的相似度值Sim,并将所述相似度值Sim记为所述初始单词序列和所述第一标注单词序列的第一相似度值。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201911304399.1A 2019-12-17 2019-12-17 基于文字识别的组件集展示方法、装置和计算机设备 Active CN111190576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304399.1A CN111190576B (zh) 2019-12-17 2019-12-17 基于文字识别的组件集展示方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304399.1A CN111190576B (zh) 2019-12-17 2019-12-17 基于文字识别的组件集展示方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111190576A CN111190576A (zh) 2020-05-22
CN111190576B true CN111190576B (zh) 2022-09-23

Family

ID=70706066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304399.1A Active CN111190576B (zh) 2019-12-17 2019-12-17 基于文字识别的组件集展示方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111190576B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0513638A2 (en) * 1991-05-16 1992-11-19 International Business Machines Corporation A fuzzy reasoning database question answering system
CN102081590A (zh) * 2009-11-27 2011-06-01 卡西欧计算机株式会社 具备辞典功能的电子设备以及计算机的控制方法
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
WO2019232843A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练、手写图像识别方法、装置、设备及介质
WO2019232853A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
CN110569486A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 基于双架构的序列标注方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0513638A2 (en) * 1991-05-16 1992-11-19 International Business Machines Corporation A fuzzy reasoning database question answering system
CN102081590A (zh) * 2009-11-27 2011-06-01 卡西欧计算机株式会社 具备辞典功能的电子设备以及计算机的控制方法
WO2019232843A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写模型训练、手写图像识别方法、装置、设备及介质
WO2019232853A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN110569486A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 基于双架构的序列标注方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自适应全尺度小波数字图像水印;单昊等;《清华大学学报(自然科学版)网络.预览》;20090315(第05期);全文 *

Also Published As

Publication number Publication date
CN111190576A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
WO2021253904A1 (zh) 测试案例集生成方法、装置、设备及计算机可读存储介质
CN107004159B (zh) 主动机器学习
CN109635838B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN112347284B (zh) 一种组合商标图像检索方法
CN113536735B (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
CN113704436A (zh) 基于会话场景的用户画像标签挖掘方法及装置
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN115659226A (zh) 一种获取app标签的数据处理系统
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
CN110737751B (zh) 基于相似度值的搜索方法、装置、计算机设备和存储介质
CN111190576B (zh) 基于文字识别的组件集展示方法、装置和计算机设备
CN108875591B (zh) 文本图片匹配分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220525

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant