CN112712086A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents
数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112712086A CN112712086A CN202011584752.9A CN202011584752A CN112712086A CN 112712086 A CN112712086 A CN 112712086A CN 202011584752 A CN202011584752 A CN 202011584752A CN 112712086 A CN112712086 A CN 112712086A
- Authority
- CN
- China
- Prior art keywords
- service
- field
- similarity
- character string
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;获取第一业务单据对应的第一业务字段;确定第一业务单据对应的字段转换模型;将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段;从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串;根据第一字符串与第二字符串计算字符串相似度;当字符串相似度大于相似度阈值时,建立第一业务单据与第二业务单据的关联关系。采用本方法能够提高单据处理效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着数据处理技术的发展,数据处理在金融、医疗或者互联网等领域应用越来越广泛。通过对数据的处理,可以对某些数据存在的共性特征进行分析,并且通过这些共性特征辅助用户实现某些应用的实现。例如,通过海量用户的消费行为的数据,可以经过数据处理,分析出用户的个性喜好,通过分析结果为用户定制个性化的服务。
然而,目前的数据处理方法,在处理单据时,只是在某个企业本端系统上进行单据的处理,降低了单据处理效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高单据处理效率的数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;获取所述第一业务单据对应的第一业务字段;确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;根据所述第一字符串与所述第二字符串计算字符串相似度;当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
在其中一个实施例中,所述根据所述第一字符串与所述第二字符串计算字符串相似度包括:将所述第一字符串划分成第一子字符串集合;将所述第二字符串划分成第二子字符串集合;将所述第一子字符串集合与所述第二子字符串集合中的子字符串进行组合,得到第三子字符串集合;获取所述第三子字符串集合中的第三子符串在所述第一子字符串集合中出现的第一次数,获取所述第三子字符串集合中的第三子符串在所述第二子字符串集合中出现的第二次数;基于所述第三子符串对应的第一次数得到第一向量,基于所述第三子符串对应的第二次数得到第二向量;计算所述第一向量和所述第二向量的向量相似度,根据所述向量相似度得到所述字符串相似度。
在其中一个实施例中,所述基于所述第三子符串对应的第一次数得到第一向量,基于所述第三子符串对应的第二次数得到第二向量包括:将各个所述第三子字符串对应的第一次数作为向量值,得到第一向量;将各个所述第三子字符串对应的第二次数作为向量值,得到第二向量;其中所述第一向量与所述第二向量中,相同维度的向量值对应同一个所述第三子字符串。
在其中一个实施例中,所述第一字符串为多个,所述第二字符串为多个,所述根据所述第一字符串与所述第二字符串计算字符串相似度包括:计算各个所述第一字符串与对应的第二字符串的相似度,得到第一相似度;将多个所述第一字符串按照字符串顺序进行拼接,得到第一拼接字符串;将多个所述第二字符串按照所述字符串顺序进行拼接,得到第二拼接字符串;计算所述第一拼接字符串与所述第二拼接字符串的相似度,得到第二相似度;对所述第一相似度进行统计,得到统计相似度;基于所述统计相似度以及第二相似度进行加权求和计算,得到字符串相似度。
在其中一个实施例中,所述建立所述第一业务单据与所述第二业务单据的关联关系之后,所述方法还包括:获取所述第二业务单据对应的第二业务状态;基于所述第二业务状态更新所述第一业务单据对应的第一业务状态;向所述第一业务单据对应的第一业务终端发送所述第一业务状态对应的状态提醒消息。
在其中一个实施例中,所述建立所述第一业务单据与所述第二业务单据的关联关系包括:向第一终端发送关联提示信息,所述第一终端为第一业务单据对应的第一用户的终端,所述关联提示信息用于提示将所述第一业务单据与所述第二业务单据进行关联;响应于第一终端发送的单据关联请求,建立所述第一业务单据与所述第二业务单据的关联关系,所述单据关联请求是所述第一终端展示所述关联提示信息之后,响应于用户的关联操作触发的。
在其中一个实施例中,所述字段转换模型的训练步骤包括:获取所述第一单据类型对应的第一训练单据以及所述第二单据类型对应的第二训练单据;从所述第一业务单据中提取第一训练业务字段,从所述第二业务单据中提取第二训练业务字段;将所述第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段;基于所述预测业务字段与所述第二训练业务字段的差异得到模型损失值;基于所述模型损失值调整所述字段转换模型的模型参数,得到已训练的字段转换模型。
一种数据处理装置,所述装置包括:业务单据获取模块,用于获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;第一业务字段获取模块,用于获取所述第一业务单据对应的第一业务字段;字段转换模型确定模块,用于确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;字段转换模块,用于将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;字符串提取模块,用于从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;字符串相似度计算模块,用于根据所述第一字符串与所述第二字符串计算字符串相似度;关联关系建立模块,用于当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
在其中一个实施例中,字符串相似度计算模块还用于:将所述第一字符串划分成第一子字符串集合;将所述第二字符串划分成第二子字符串集合;将所述第一子字符串集合与所述第二子字符串集合中的子字符串进行组合,得到第三子字符串集合;获取所述第三子字符串集合中的第三子符串在所述第一子字符串集合中出现的第一次数,获取所述第三子字符串集合中的第三子符串在所述第二子字符串集合中出现的第二次数;基于所述第三子符串对应的第一次数得到第一向量,基于所述第三子符串对应的第二次数得到第二向量;计算所述第一向量和所述第二向量的向量相似度,根据所述向量相似度得到所述字符串相似度。
在其中一个实施例中,字符串相似度计算模块还用于:将各个所述第三子字符串对应的第一次数作为向量值,得到第一向量;将各个所述第三子字符串对应的第二次数作为向量值,得到第二向量;其中所述第一向量与所述第二向量中,相同维度的向量值对应同一个所述第三子字符串。
在其中一个实施例中,字符串相似度计算模块还用于:计算各个所述第一字符串与对应的第二字符串的相似度,得到第一相似度;将多个所述第一字符串按照字符串顺序进行拼接,得到第一拼接字符串;将多个所述第二字符串按照所述字符串顺序进行拼接,得到第二拼接字符串;计算所述第一拼接字符串与所述第二拼接字符串的相似度,得到第二相似度;对所述第一相似度进行统计,得到统计相似度;基于所述统计相似度以及第二相似度进行加权求和计算,得到字符串相似度。
在其中一个实施例中,数据处理装置还用于:获取所述第二业务单据对应的第二业务状态;基于所述第二业务状态更新所述第一业务单据对应的第一业务状态;向所述第一业务单据对应的第一业务终端发送所述第一业务状态对应的状态提醒消息。
在其中一个实施例中,关联关系建立模块还用于:向第一终端发送关联提示信息,所述第一终端为第一业务单据对应的第一用户的终端,所述关联提示信息用于提示将所述第一业务单据与所述第二业务单据进行关联;响应于第一终端发送的单据关联请求,建立所述第一业务单据与所述第二业务单据的关联关系,所述单据关联请求是所述第一终端展示所述关联提示信息之后,响应于用户的关联操作触发的。
在其中一个实施例中,数据处理装置还用于:获取所述第一单据类型对应的第一训练单据以及所述第二单据类型对应的第二训练单据;从所述第一业务单据中提取第一训练业务字段,从所述第二业务单据中提取第二训练业务字段;将所述第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段;基于所述预测业务字段与所述第二训练业务字段的差异得到模型损失值;基于所述模型损失值调整所述字段转换模型的模型参数,得到已训练的字段转换模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;获取所述第一业务单据对应的第一业务字段;确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;根据所述第一字符串与所述第二字符串计算字符串相似度;当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;获取所述第一业务单据对应的第一业务字段;确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;根据所述第一字符串与所述第二字符串计算字符串相似度;当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
上述数据处理方法、装置、计算机设备和存储介质,服务器通过获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;并且获取上述第一业务单据对应的第一业务字段;在服务器确定第一业务单据对应的字段转换模型之后,将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段;其中,字段转换模型用于将第一单据类型的字段转换为第二单据类型的字段;从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串;根据第一字符串与第二字符串计算字符串相似度;当字符串相似度大于相似度阈值时,建立第一业务单据与第二业务单据的关联关系。通过单据业务字段中的字符串的相似度能够直观准确地判断出两个业务系统中单据之间的关联关系,从而能够获取单据之间的相关性,减少了需要人工将单据关联的操作,提高了单据处理效率。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中根据第一字符串与第二字符串计算字符串相似度的流程示意图;
图4为另一个实施例中根据第一字符串与第二字符串计算字符串相似度的流程示意图;
图5为另一个实施例中根据第一字符串与第二字符串计算字符串相似度的流程示意图;
图6为另一个实施例中数据处理方法的流程示意图;
图7为一个实施例中建立第一业务单据与第二业务单据的关联关系的流程示意图;
图8为另一个实施例中数据处理方法的流程示意图;
图9为一个实施例中数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。具体应用到一种数据处理系统中。该数据处理系统包括服务器102、第一终端104和第二终端106。其中,服务器102、第一终端104和第二终端106通过网络进行通信。服务器102执行一种数据处理方法。具体的,服务器102获取第一终端104发送的第一单据类型对应的第一业务单据,以及,获取第二终端106发送的第二单据类型对应的第二业务单据。服务器102通过上述第一业务单据获取对应的第一业务字段。在服务器102上确定第一业务单据对应的字段转换模型,该字段转换模型用于将第一终端104发送的第一单据类型的字段转换为第二终端106发送的第二单据类型的字段;通过服务器102将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段;同时,服务器102从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串;服务器102根据第一字符串与第二字符串计算字符串相似度;当字符串相似度大于相似度阈值时,建立第一终端104发送的第一业务单据与第二终端106发送的第二业务单据的关联关系。其中,第一终端104和第二终端106通过网络与服务器102进行通信。其中,第一终端104或者第二终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据。
其中,单据类型是指单据的具体的类型,一般以使用用途定义单据的具体类型。例如销售物品的单据对应的单据类型为销售单据类型。业务单据是指某个单据类型所对应的具体的单据。不同的企业或者公司的一种单据类型对应的单据可以为多种。例如,销售单据类型对应的不同销售单据,这些不同的销售单据可以用于企业对外合作的多个不同的公司使用。
具体的,在两个企业进行业务协作时,需要首先获取两个企业的业务单据。
在一个实施例中,服务器根据接收第一终端发送的第一业务单据发送请求,响应该发送请求,获取第一终端发送的第一单据类型对应的第一业务单据;同时,服务器根据接收第二终端发送的第二业务单据发送请求,响应该发送请求,获取第二终端发送的第二单据类型对应的第二业务单据。
步骤204,获取第一业务单据对应的第一业务字段。
其中,业务字段是指业务单据中的字段,也可以称为通用参数。例如,销售单据中的业务字段包括“销售企业信息”“采购客户信息”或者“销售物品名称”等。
具体的,在服务器获取到第一单据类型对应的第一业务单据之后,需要对第一业务单据中的第一业务字段进行提取,以便于对第一业务字段进行数据处理。
在一个实施例中,服务器可以对获取到的第一业务单据,通过字符识别对第一业务单据中的字段进行字段识别,提取到服务器本端存储的字段列表中的相对应的,在第一业务单据中的字段。可以理解的,字段列表中包括与第一业务字段相同的字段,也包括其他业务字段,服务器在本端存储有字段列表的目的是便于快速、准确的找到需要识别的第一业务字段。
步骤206,确定第一业务单据对应的字段转换模型,字段转换模型用于将第一单据类型的字段转换为第二单据类型的字段。
其中,字段转换模型是指为了对字段进行转换而建立的模型。例如,机器学习模型。字段转换模型可以实现第一单据类型的字段和第二单据类型的字段之间的转换。
具体的,在服务器获取第一业务单据对应的第一业务字段后,需确定第一业务单据对应的字段转换模型,以便于将第一单据类型的字段转换为第二单据类型的字段。
在一个实施例中,字段转换模型可以进行不同单据字段之间的转换。第一业务单据对应的字段转换模型是预先训练得到的,训练模型的步骤包括:首先通过确定第一业务单据对应的字段转换模型的模型损失值,模型损失值是基于第一单据类型的业务字段和第二单据类型的业务字段的差异得到的,例如可以是采用交叉熵算法计算得到,其中模型损失值与差异成正相关关系,即差异越大,损失值越大。在得到损失值之后,可以采用梯度下降方法,朝着使损失值变小的方向调整模型参数,直至模型收敛,模型收敛时,确定该模型可以作为字节转换模型。其中,模型收敛可以是模型损失值小于预设阈值或者训练次数达到预设次数的至少一个。
步骤208,将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段。
具体的,在确定第一业务单据对应的字段转换模型后,可以使用该字段转换模型进行字段之间的转换,将第一业务字段转换为第二业务字段。
在一个实施例中,将第一业务字段转换成字段转换模型输入侧的词向量,将该向量输入到字段转换模型中,经过模型处理后,在模型的输出侧输出第二业务字段对应的向量,并通过该向量得到对应的第二业务字段。
步骤210,从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串。
其中,字符串是指业务字段中包括的具体内容。例如,销售单据业务字段为“销售企业信息”,此业务字段中的具体内容为“A公司”,则“A公司”为业务字段为“销售企业信息”对应的字符串。
具体的,为了使第一业务单据和第二业务单据之间的比较更加具有参考性,需要针对对应的业务字段中作为具体内容的字符串进行提取,以便于后续对字符串进行分析。
在一个实施例中,服务器根据获取到的第一业务字段,利用字符串提取工具,根据第一业务字段的具体名称,提取到相对应的第一字符串。例如,可以利用字符串提取工具,根据业务字段“销售企业信息”,提取到“销售企业信息”相对应的字符串“A公司”。同理,可以提取到第二业务字段对应的第二字符串。字符串提取工具可以是脚本程序。
步骤212,根据第一字符串与第二字符串计算字符串相似度。
其中,字符串相似度是指字符串和字符串之间的相似程度。字符串相似度越高证明第一字符串与第二字符串差异越小;反之,字符串相似度越低证明第一字符串与第二字符串之间差异越大。
具体的,可以通过余弦相似度或者皮尔森相关系数等方法进行第一字符串与第二字符串计算字符串相似度之间的计算。
在一个实施例中,可以利用余弦相似度的方法对第一字符串与第二字符串进行字符串相似度的计算。具体的,分别将第一字符串和第二字符串进行向量化,通过计算第一字符串对应的向量和第二字符串对应的向量之间的差异大小,得到第一字符串与第二字符串的字符串相似度。
在一个实施例中,第一字符串或第二字符串都可以为多个。假设第一字符串和第二字符串都为多个,多个第一字符串组成第一字符串数组,多个第二字符串组成第二字符串数组。字符串相似度需要结合第一字符串数组中各个第一字符串,与对应数组位置的第二字符串数组中各个第二字符串之间相似度得到。字符串相似度可以是第一字符串数组中各个第一字符串与对应数组位置的第二字符串数组中各个第二字符串之间相似度的统计值。例如,相似度为第一字符串数组中各个第一字符串与对应数组位置的第二字符串数组中各个第二字符串之间相似度的平均值。例如,第一字符串数组为{A,B,C,D},第二字符串数组为{E,F,G,H},若第一字符串A和第二字符串E的相似度表示为x,第一字符串B和第二字符串F的相似度表示为y,第一字符串C和第二字符串G的相似度表示为z,第一字符串D和第二字符串H的相似度表示为s,字符串相似度表示为o,则字符串相似度o可以为上述各个第一字符串和各个第二字符串相似度的平均值,o表示为:
o=(x+y+z+s)/4
步骤214,当字符串相似度大于相似度阈值时,建立第一业务单据与第二业务单据的关联关系。
其中,相似度阈值是指相似度的临界值。大于此临界值,表示第一字符串和第二字符串相似,小于等于此临界值,表示第一字符串和第二字符串不相似。
具体的,通过字符串相似度可以确定第一业务单据与第二业务单据的关联关系。
在一个实施例中,相似度阈值可以是经过多次试验获得的经验值。例如,相似度阈值为0.75,当字符串相似度大于0.75时,表示第一字符串和第二字符串相似;通过第一字符串和第二字符串的相似关系,可以证明第一字符串对应的第一业务单据,和第二字符串对应的第二业务单据存在关联关系,建立第一业务单据与第二业务单据的关联关系。
上述数据处理方法中,服务器通过获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;并且获取上述第一业务单据对应的第一业务字段;在服务器确定第一业务单据对应的字段转换模型之后,将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段;其中,字段转换模型用于将第一单据类型的字段转换为第二单据类型的字段;从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串;根据第一字符串与第二字符串计算字符串相似度;当字符串相似度大于相似度阈值时,建立第一业务单据与第二业务单据的关联关系。通过单据业务字段中的字符串的相似度能够直观准确地判断出两个业务系统中单据之间的关联关系,从而能够获取单据之间的相关性,减少了需要人工将单据关联的操作,提高了单据处理效率。
在一个实施例中,如图3所示,根据第一字符串与第二字符串计算字符串相似度包括:
步骤302,将第一字符串划分成第一子字符串集合。
其中,子字符串是指组成字符串的基本组成单元。子字符串集合是指各个子字符串组成的集合。例如,销售单据的业务字段“销售单位”对应的字符串“B省C市D公司”,子字符串集合为“B”、“省”、“C”、“市”、“D”和“公司”。
具体的,为了便于在做字符串对比时,提高相似度的准确性,将字符串划分成子字符串集合之后再进行相似性的相关操作。
在一个实施例中,在服务器获取到第一字符串之后,调用相关的子字符串获取的应用程序接口,依次提取第一字符串中的第一子字符串,提取完成之后,将提取到的第一子字符串存储于预设区域,形成第一子字符串集合。例如,可以通过调用程序中有字符串截取功能的应用程序,从预设的开始索引位置到预设的结束索引位置截取每个子字符串。例如,第一字符串为“2000年1月2日”,通过调用程序中截取索引位置为0到4的子字符的程序,可以得到第一子字符串为“2000年”。
步骤304,将第二字符串划分成第二子字符串集合。
具体的,第二字符串需要与第一字符串进行相同的处理,将第二字符串划分成第二子字符串集合。例如,第二字符串为采购单据中业务字段“采购物品名称”对应的第二字符串“E牌日用品”,则第二子字符串集合为“E”、“牌”“日用”和“品”。
步骤306,将第一子字符串集合与第二子字符串集合中的子字符串进行组合,得到第三子字符串集合。
具体的,在获取第一子字符串集合和第二子字符串集合之后,两者存在相同的子字符串,例如,第一子字符串集合为{“F牌”“大米”“G”“吨”},第二子字符串集合为{“F牌”“大米”“H”“袋”},则第三子字符串集合为{“F牌”“大米”“G”“H”“吨”“袋”}。
步骤308,获取第三子字符串集合中的第三子符串在第一子字符串集合中出现的第一次数,获取第三子字符串集合中的第三子符串在第二子字符串集合中出现的第二次数。
具体的,在得到第三子字符串集合后,第一子字符串集合或者第二子字符串集合中的某些子字符串有可能在第三子字符串集合并没有出现,两个字符串用词越相似,则内容越接近,判断两个字符串相似性可以从子字符串的出现的次数开始,通过统计第三子字符串集合中的第三子符串在第一子字符串集合或者第二子字符串集合出现的频次进一步判断第一字符串和第二字符串之间的相似性。例如,第一子字符串集合为{“F牌”“大米”“G”“吨”},第二子字符串集合为{“F牌”“大米”“H”“袋”},则第三子字符串集合为{“F牌”“大米”“G”“H”“吨”“袋”},则第三子字符串集合中的第三子符串“大米”在第一子字符串集合中出现的第一次数为1次,则第三子字符串集合中的第三子符串“吨”在第二子字符串集合中出现的第二次数为0次。
步骤310,基于第三子符串对应的第一次数得到第一向量,基于第三子符串对应的第二次数得到第二向量。
具体的,通过获取第一次数和第二次数,可以获取相应的向量。例如,第三子符串对应的第一次数分别为{1 1 1 0 1 0},第三子符串对应的第二次数分别为{1 1 0 1 01},则通过次数可以得到第一向量为[1 1 1 0 1 0],第二向量为[1 1 0 1 0 1]。
步骤312,计算第一向量和第二向量的向量相似度,根据向量相似度得到字符串相似度。
其中,向量相似度是指向量和向量之间的相似程度,计算出向量相似度可以得到与向量对应的字符串的相似度。
在一个实施例中,向量相似度和字符串相似度存在正相关关系,向量相似度越大,字符串相似度越大;反之,向量相似度越小,字符串相似度越小。
在一个实施例中,可以通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;通过两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。与向量的长度无关的,仅仅与向量的指向方向相关。假设第一向量表示为A,第二向量表示为B,相似度表示为cos(θ),则A和B之间的相似度可以表示为:
本实施例中,通过将第一字符串和第二字符串分解成子字符串集合,子字符串集合合并后,将子字符串集合中的子字符串在第一字符串和第二字符串出现的次数进行向量化处理,能够达到根据向量相似度得到第一字符串和第二字符串的相似度目的,使相似度的结果更加准确。
在一个实施例中,如图4所示,基于第三子符串对应的第一次数得到第一向量,基于第三子符串对应的第二次数得到第二向量包括:
步骤402,将各个第三子字符串对应的第一次数作为向量值,得到第一向量。
具体的,第三子字符串集合中包括至少一个第三子字符串,需要对各个第三子字符串求得向量,作为第一向量。例如,第一子字符串集合为{“F牌”“大米”“G”“吨”},则第三子字符串集合为{“F牌”“大米”“G”“H”“吨”“袋”},则第三子字符串集合中的第三子符串在第一子字符串集合中出现的第一次数分别为{1 1 1 0 1 0}。
步骤404,将各个第三子字符串对应的第二次数作为向量值,得到第二向量;其中第一向量与第二向量中,相同维度的向量值对应同一个第三子字符串。
具体的,要得到第一字符串和第二字符串的相似性,同样需要对将各个第三子字符串对应的第二次数作为向量值,作为第二向量。例如,例如,第二子字符串集合为{“F牌”“大米”“H”“袋”},则第三子字符串集合为{“F牌”“大米”“G”“H”“吨”“袋”},则第三子字符串集合中的第三子符串在第二子字符串集合中出现的第二次数分别为{1 1 0 1 0 1}。第一向量与第二向量中,相同维度的向量值对应同一个第三子字符串。例如,第一向量中第二维度对应的第三子字符串中的“大米”,第二向量中第二维度也应该对应第三子字符串中的“大米”,维度的表现为向量值在向量中的位置。例如,向量为[1 1 1 0 1 0],其中的第二个向量值1,为该向量第二维度的向量值。
本实施例中,通过各个第三子字符串在第一子字符串集合或者第二子字符串集合对应的次数得到对应的向量,能够达到得到维度对应的第一向量与第二向量的目的。
在一个实施例中,如图5所示,第一字符串为多个,第二字符串为多个,根据第一字符串与第二字符串计算字符串相似度包括:
步骤502,计算各个第一字符串与对应的第二字符串的相似度,得到第一相似度。
具体的,企业单据中的业务字段可以为多个,每个业务字段都有相对应的字符串,形成多个字符串,在进行相似度计算时,需要对每个字符串进行相似度计算。例如,销售方企业的业务字段包括“销售物品名称”、“销售单位”或者“价格”等,其对应的第一字符串分别为“I型号数据线”、“J科技公司”或者“单价K元”,采购方企业的业务字段对应的为“采购物品名称”、“采购单位”和“采购价格”,对应的第二字符串分别为“I型号数据线”、“H科技股份有限公司”或者“单价K元”。分别计算上述各个第一字符串与对应的第二字符串的相似度,得到第一相似度。可以理解的,第一相似度为多个相似度组成的相似度的集合,集合中相似度的个数取决于第一字符串或者第二字符串的个数,第一字符串或者第二字符串的个数为5个,则第一相似度的个数为5个。
在一个实施例中,多个第一字符串组成的第一字符串数组,以及,多个第二字符串组成的第二字符串数组,如果第一字符串数组中的某个第一字符串或者第二字符串数组中的某个第二字符串缺失,删除该第一字符串或者该第二字符串,第一字符串数组和第二字符串数组同时删除数组同一位置的字符串。
在一个实施例中,如果第一字符串和第二字符串一致,则将得到的第一相似度进行优化处理。可以使用优化参数对第一相似度进行优化处理。优化参数可以为第一相似度对应的倒数。例如,假设第一相似度为0.8,则优化参数为1.25。
步骤504,将多个第一字符串按照字符串顺序进行拼接,得到第一拼接字符串。
其中,拼接是指将多个字符串进行合并形成合并后的字符串。例如,第一字符串分别为“I型号数据线”、“J科技公司”或者“单价K元”,则拼接后的字符串为“I型号数据线J科技公司单价K元”。
在一个实施例中,服务器可以通过调用字符串拼接相关的软件或者插件将多个第一字符串按照字符串顺序进行拼接,从软件插件中获取到字符串拼接的结果。例如,调用Matlab(Matrix&laboratory)软件的命令行窗口,完成多个第一字符串按照字符串顺序进行拼接,服务器确定拼接完成后,从Matlab软件中获取到第一拼接字符串的结果。
步骤506,将多个第二字符串按照字符串顺序进行拼接,得到第二拼接字符串。
具体的,在通过对多个第一字符串按照字符串顺序进行拼接,得到第一拼接字符串之后,需要相对应的对多个第二字符串按照字符串顺序进行拼接,得到第二拼接字符串。例如,第二字符串分别为“I型号数据线”、“H科技股份有限公司”或者“单价K元”,第二拼接字符串为“I型号数据线H科技股份有限公司单价K元”。
在一个实施例中,服务器可以通过调用字符串的相关接口程序将多个第二字符串按照字符串顺序进行拼接,得到第二拼接字符串。例如,调用strcat()函数等。
步骤508,计算第一拼接字符串与第二拼接字符串的相似度,得到第二相似度。
具体的,在得到第一拼接字符串和第二拼接字符串之后,对两个拼接字符串进行相似度的计算,得到第二相似度。
在一个实施例中,可以对第一拼接字符串和第二拼接字符串进行余弦相似性的计算,将计算结果作为第二相似度。
步骤510,对第一相似度进行统计,得到统计相似度。
其中,统计相似度是指能够体现第一相似度整体水平的相似度。可以为第一相似度的均值、中位数或者众数等。
在一个实施例中,取第一相似度的均值,得到统计相似度。例如,第一相似度为0.85、0.9或者0.6,则统计相似度为0.78。
在一个实施例中,为了提高统计相似度的可靠性,将统计相似度保持在95%的置信区间内,作为更加精确的统计相似度。
步骤512,基于统计相似度以及第二相似度进行加权求和计算,得到字符串相似度。
具体的,为了提高字符串相似度的可靠性,在得到第二相似度和统计相似度之后,可以对两个相似度进行加权求和计算,得到字符串相似度。
在一个实施例中,加权系数表示为α,假设统计相似度为q,第二相似度p,字符串相似度表示为m,存在以下函数关系:
m=α*(q+p)
在一个实施例中,加权系数α取值为0.5,使统计相似度为q和第二相似度p在字符串相似度中所占的加权比重相同,则字符串相似度表示为:
m=(q+p)/2
本实施例中,通过拼接字符串之间相似度的计算以及各个字符串相似度的平均值的计算,能够达到使字符串相似度更加准确的目的。
在一个实施例中,如图6所示,建立第一业务单据与第二业务单据的关联关系之后,数据处理方法还包括:
步骤602,获取第二业务单据对应的第二业务状态。
其中,业务状态是指业务单据对应的进度状态。例如,销售单据的业务状态为已经发送发货通知单等。
具体的,在第一业务单据与第二业务单据的关联关系之后,服务器能够接收到第一业务单据的业务状态,也能够接收到第二业务单据的业务状态,以使与服务器有连接关系的第一业务单据对应的第一终端或第二业务单据对应的第二终端能够同步查看到与本端单据有关联关系的,对端的单据对应的业务状态。
在一个实施例中,服务器响应于第二业务单据对应的第二终端发送的业务状态上报指令,获取到第二业务单据对应的第二业务状态。例如,第二业务单据为采购单,第二业务状态为接收到发货通知单
步骤604,基于第二业务状态更新第一业务单据对应的第一业务状态。
具体的,因第一业务单据与第二业务单据存在关联关系,两者的业务状态也是同步的,在第二业务状态更新之后,第一业务单据对应的第一业务状态也需要同步更新。例如,作为第二业务单据的采购单的业务状态为接收到发货通知单,在第一业务单据对应的企业在接收到货物之后会更新第一业务状态为生成收货通知单。
步骤606,向第一业务单据对应的第一业务终端发送第一业务状态对应的状态提醒消息。
其中,状态提醒消息是指针对业务状态的提醒消息。例如,提醒消息“销售单据状态已更新,请注意查收”。
具体的,为了使第一业务终端对应的用户能够实时接收到最新的业务状态信息,服务器可以向第一业务终端推送第一业务状态对应的状态提醒消息。
在一个实施例中,服务器中有业务状态更新,会触发状态提醒消息发送指令,将状态提醒消息发送给第一业务终端。在第一业务终端打开的基于服务器的应用页面上,能够查看到服务器推送的状态提醒消息。
本实施例中,通过获取第二业务单据对应的第二业务状态可以更新第一业务单据对应的第一业务状态,并且将第一业务状态对应的状态提醒消息推送给第一业务终端,能够达到在两个有关联关系的业务单据之间实现消息的同步和提醒,提高了单据处理的效率。
在一个实施例中,如图7所示,建立第一业务单据与第二业务单据的关联关系包括:
步骤702,向第一终端发送关联提示信息,第一终端为第一业务单据对应的第一用户的终端,关联提示信息用于提示将第一业务单据与第二业务单据进行关联。
具体的,在第一业务单据第二业务单据建立关联关系之前,第二业务单据对应的第二用户的终端向服务器发送关联请求,通过服务器将该关联请求以关联提示信息的形式发送给第一终端。
在一个实施例中,当服务器接收到第二终端发送的需要和第一终端建立关联的指令时,触发服务器上对关联提示信息的发送操作,将关联提示信息发送到第一终端,等待第一终端对于提示消息的响应操作。例如,服务器接收到第二终端发送的关联指令后,触发基于该关联指令的关联提示信息“A企业需要和您建立关联,请确认”。
步骤704,响应于第一终端发送的单据关联请求,建立第一业务单据与第二业务单据的关联关系,单据关联请求是第一终端展示关联提示信息之后,响应于用户的关联操作触发的。
其中,单据关联请求是指建立单据之间关联关系的请求,请求中可以包括单据关联的对方名称或者请求事项等。例如,“A企业请求建立销售单据和采购单据的关联请求,等待确认”。
具体的,当服务器接收到第一终端发送的单据关联请求后,响应该单据关联请求,触发对对应的响应消息的发送,服务器可以将此基于单据关联请求的响应消息发送给第二终端,等待第二终端的确认。
本实施例中,通过服务器建立第一终端对应的第一业务单据和第二终端对应的第二业务单据之间的关联关系,能够达到以可视化的形式建立第一业务单据与第二业务单据的关联,提高了单据处理的效率,从而提高了企业用户进行业务协作的便捷性。
在一个实施例中,如图8所示,字段转换模型的训练步骤包括:
步骤802,获取第一单据类型对应的第一训练单据以及第二单据类型对应的第二训练单据。
其中,训练单据是指用于字段转换模型训练的单据。
具体的,字段转换模型是通过多个单据作为样本进行训练得到的机器学习模型。
在一个实施例中,服务器通过分别获取本端与终端同步存储的第一单据类型对应的预设数量的第一训练单据,以及,第二单据类型对应的第二训练单据。例如,获取到最近一个月以上的,单据数量大于1000条的单据作为训练单据。
步骤804,从第一业务单据中提取第一训练业务字段,从第二业务单据中提取第二训练业务字段。
其中,训练业务字段是指用于字段转换模型训练的单据对应的业务字段。
具体的,字段转换模型是基于业务字段的训练模型,需要在获取训练单据之后获取训练单据对应的训练业务字段进行模型训练。
在一个实施例中,服务器可以根据各个训练单据中各个训练业务字段的ID(Identity document),提取到与ID相对应的训练业务字段。ID可以唯一标识训练业务字段。
步骤806,将第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段。
具体的,当服务器获取到第一训练业务字段之后,将第一训练业务字段输入到待训练的字段转换模型中进行字段转换,训练完成后,输出预测业务字段。
步骤808,基于预测业务字段与第二训练业务字段的差异得到模型损失值。
其中,模型损失值是指所字段转换模型在训练过程中,输入的第二训练业务字段和预测业务字段之间差异的量化值。可以用来衡量字段转换模型的好坏。模型损失值越小证明模型越好,反之,模型损失值越大证明模型越差。
具体的,模型损失值是基于第二训练业务字段和预测业务字段之间的差异得到的,例如可以是采用交叉熵算法计算得到,其中模型损失值与差异成正相关关系,即差异越大,损失值越大。在得到损失值之后,可以采用梯度下降方法,朝着使损失值变小的方向调整模型参数,直至模型收敛,模型收敛可以是模型损失值小于预设阈值或者训练次数达到预设次数的至少一个。
步骤810,基于模型损失值调整字段转换模型的模型参数,得到已训练的字段转换模型。
其中,模型参数是指对模型的确定起关键作用的参数。通过这些参数可以调整模型的性能。
具体的,在字段转换模型对大量第一训练业务字段进行训练时,基于每次训练的模型损失值不断调整模型参数,直至达到模型损失值最小。
本实施例中,通过获取第一单据类型对应的第一训练单据以及第二单据类型对应的第二训练单据,并提取对应的第一训练业务字段和第二训练业务字段,通过第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段,通过预测字段与第二训练业务字段的差异得到模型损失值,通过模型损失值不断调整模型参数。能够达到得到精确的字段转换模型的目的。
在一个实施例中,以第一单据类型为销售单据,第二单据类型为采购单据为例。ERP(Enterprise Resource Planning)系统获取到第一终端发送的销售单据以及第二终端发送的采购单据。ERP系统从销售单据中获取到销售单据对应的销售单据业务字段,例如,销售单位。以销售单据对应的销售单据业务字段为输入参数,输出的业务字段作为预测业务字段,通过预测业务字段和采购单据对应的采购单据业务字段的差异确定模型损失值,通过该模型损失值不断调整模型参数,直至模型损失值达到最小,此时的模型参数对应的模型为最后训练完成的模型。在确定销售单据对应的字段转换模型后,利用该模型可以将销售单据的业务字段,转换成更接近于实际中采购单据的业务字段。通过计算销售单据业务字段中的字符串与接近于实际中采购单据的业务字段中的字符串的相似度,确定销售单据和实际采购单据的相似性。通过相似性可以得到销售单据和实际采购单据的关联关系。具体的,从销售单据中提取销售单据业务字段对应的销售单据业务字段。将销售单据业务字段经过字段转换后得到中间单据字段,根据该中间单据字段从采购单据中获取到中间单据字段所对应的字符串,计算销售单据业务字段中的字符串和中间单据字段所对应的字符串求得相似度。根据相似度,可以获知销售单据和采购单据之间是否存在关联关系。当相似度大于相似度阈值时,可以判断为销售单据和采购单据之间存在关联关系。因此,后续可以根据销售单据的单据数据的变化,更新采购单据。
在一个实施例中,当销售单据和采购单据之间的相似度已经确定,为了提高相似度的精确度,可以将销售单据的各个字段的字符串和采购单据的各个字段的字符串合并,得到合并之后整个字符串之间的相似度,记为p。各个单独字段的字符串之间相似度的平均值即为q,其中q为95%置信区间的相似度值,通过整个字符串的相似度p和单独字段的字符串之间相似度的平均值q,得到均值m,可以通过相似度均值得到更加精确的相似度。假设相似度阈值为0.75,m表示为m=(p+q)/2,当m大于0.75时,销售单据和采购单据是存在关联关系的。
应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种数据处理装置900,包括:业务单据获取模块902、第一业务字段获取模块904、字段转换模型确定模块906、字段转换模块908、字符串提取模块910、字符串相似度计算模块912和关联关系建立模块914,其中:业务单据获取模块902,用于获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;第一业务字段获取模块904,用于获取第一业务单据对应的第一业务字段;字段转换模型确定模块906,用于确定第一业务单据对应的字段转换模型,字段转换模型908用于将第一业务字段输入到字段转换模型中进行字段转换,得到第二单据类型对应的第二业务字段;字符串提取模块910,用于从第一业务单据中提取第一业务字段对应的第一字符串,从第二业务单据中提取第二业务字段对应的第二字符串;字符串相似度计算模块912,用于根据第一字符串与第二字符串计算字符串相似度;关联关系建立模块914,用于当字符串相似度大于相似度阈值时,建立第一业务单据与第二业务单据的关联关系。
在一个实施例中,字符串相似度计算模块912还用于:将第一字符串划分成第一子字符串集合;将第二字符串划分成第二子字符串集合;将第一子字符串集合与第二子字符串集合中的子字符串进行组合,得到第三子字符串集合;获取第三子字符串集合中的第三子符串在第一子字符串集合中出现的第一次数,获取第三子字符串集合中的第三子符串在第二子字符串集合中出现的第二次数;基于第三子符串对应的第一次数得到第一向量,基于第三子符串对应的第二次数得到第二向量;计算第一向量和第二向量的向量相似度,根据向量相似度得到字符串相似度。
在一个实施例中,字符串相似度计算模块912还用于:将各个所述第三子字符串对应的第一次数作为向量值,得到第一向量;将各个所述第三子字符串对应的第二次数作为向量值,得到第二向量;其中所述第一向量与所述第二向量中,相同维度的向量值对应同一个所述第三子字符串。
在一个实施例中,字符串相似度计算模块912还用于:计算各个第一字符串与对应的第二字符串的相似度,得到第一相似度;将多个第一字符串按照字符串顺序进行拼接,得到第一拼接字符串;将多个第二字符串按照字符串顺序进行拼接,得到第二拼接字符串;计算第一拼接字符串与第二拼接字符串的相似度,得到第二相似度;对第一相似度进行统计,得到统计相似度;基于统计相似度以及第二相似度进行加权求和计算,得到字符串相似度。
在一个实施例中,数据处理装置900还用于:获取第二业务单据对应的第二业务状态;基于第二业务状态更新第一业务单据对应的第一业务状态;向第一业务单据对应的第一业务终端发送第一业务状态对应的状态提醒消息。
在一个实施例中,关联关系建立模块914还用于:向第一终端发送关联提示信息,第一终端为第一业务单据对应的第一用户的终端,关联提示信息用于提示将第一业务单据与第二业务单据进行关联;响应于第一终端发送的单据关联请求,建立第一业务单据与第二业务单据的关联关系,单据关联请求是第一终端展示关联提示信息之后,响应于用户的关联操作触发的。
在一个实施例中,数据处理装置900还用于:获取第一单据类型对应的第一训练单据以及第二单据类型对应的第二训练单据;从第一业务单据中提取第一训练业务字段,从第二业务单据中提取第二训练业务字段;将第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段;基于预测业务字段与第二训练业务字段的差异得到模型损失值;基于模型损失值调整字段转换模型的模型参数,得到已训练的字段转换模型。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;
获取所述第一业务单据对应的第一业务字段;
确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;
将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;
从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;
根据所述第一字符串与所述第二字符串计算字符串相似度;
当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字符串与所述第二字符串计算字符串相似度包括:
将所述第一字符串划分成第一子字符串集合;
将所述第二字符串划分成第二子字符串集合;
将所述第一子字符串集合与所述第二子字符串集合中的子字符串进行组合,得到第三子字符串集合;
获取所述第三子字符串集合中的第三子符串在所述第一子字符串集合中出现的第一次数,获取所述第三子字符串集合中的第三子符串在所述第二子字符串集合中出现的第二次数;
基于所述第三子符串对应的第一次数得到第一向量,基于所述第三子符串对应的第二次数得到第二向量;
计算所述第一向量和所述第二向量的向量相似度,根据所述向量相似度得到所述字符串相似度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第三子符串对应的第一次数得到第一向量,基于所述第三子符串对应的第二次数得到第二向量包括:
将各个所述第三子字符串对应的第一次数作为向量值,得到第一向量;
将各个所述第三子字符串对应的第二次数作为向量值,得到第二向量;其中所述第一向量与所述第二向量中,相同维度的向量值对应同一个所述第三子字符串。
4.根据权利要求1所述的方法,其特征在于,所述第一字符串为多个,所述第二字符串为多个,所述根据所述第一字符串与所述第二字符串计算字符串相似度包括:
计算各个所述第一字符串与对应的第二字符串的相似度,得到第一相似度;
将多个所述第一字符串按照字符串顺序进行拼接,得到第一拼接字符串;
将多个所述第二字符串按照所述字符串顺序进行拼接,得到第二拼接字符串;
计算所述第一拼接字符串与所述第二拼接字符串的相似度,得到第二相似度;
对所述第一相似度进行统计,得到统计相似度;
基于所述统计相似度以及第二相似度进行加权求和计算,得到字符串相似度。
5.根据权利要求1所述的方法,其特征在于,所述建立所述第一业务单据与所述第二业务单据的关联关系之后,所述方法还包括:
获取所述第二业务单据对应的第二业务状态;
基于所述第二业务状态更新所述第一业务单据对应的第一业务状态;
向所述第一业务单据对应的第一业务终端发送所述第一业务状态对应的状态提醒消息。
6.根据权利要求1所述的方法,其特征在于,所述建立所述第一业务单据与所述第二业务单据的关联关系包括:
向第一终端发送关联提示信息,所述第一终端为第一业务单据对应的第一用户的终端,所述关联提示信息用于提示将所述第一业务单据与所述第二业务单据进行关联;
响应于第一终端发送的单据关联请求,建立所述第一业务单据与所述第二业务单据的关联关系,所述单据关联请求是所述第一终端展示所述关联提示信息之后,响应于用户的关联操作触发的。
7.根据权利要求1所述的方法,其特征在于,所述字段转换模型的训练步骤包括:
获取所述第一单据类型对应的第一训练单据以及所述第二单据类型对应的第二训练单据;
从所述第一业务单据中提取第一训练业务字段,从所述第二业务单据中提取第二训练业务字段;
将所述第一训练业务字段输入到待训练的字段转换模型中进行字段转换,得到预测业务字段;
基于所述预测业务字段与所述第二训练业务字段的差异得到模型损失值;
基于所述模型损失值调整所述字段转换模型的模型参数,得到已训练的字段转换模型。
8.一种数据处理装置,其特征在于,所述装置包括:
业务单据获取模块,用于获取第一单据类型对应的第一业务单据以及第二单据类型对应的第二业务单据;
第一业务字段获取模块,用于获取所述第一业务单据对应的第一业务字段;
字段转换模型确定模块,用于确定所述第一业务单据对应的字段转换模型,所述字段转换模型用于将所述第一单据类型的字段转换为所述第二单据类型的字段;
字段转换模块,用于将第一业务字段输入到所述字段转换模型中进行字段转换,得到所述第二单据类型对应的第二业务字段;
字符串提取模块,用于从所述第一业务单据中提取所述第一业务字段对应的第一字符串,从所述第二业务单据中提取所述第二业务字段对应的第二字符串;
字符串相似度计算模块,用于根据所述第一字符串与所述第二字符串计算字符串相似度;
关联关系建立模块,用于当所述字符串相似度大于相似度阈值时,建立所述第一业务单据与所述第二业务单据的关联关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584752.9A CN112712086A (zh) | 2020-12-28 | 2020-12-28 | 数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584752.9A CN112712086A (zh) | 2020-12-28 | 2020-12-28 | 数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712086A true CN112712086A (zh) | 2021-04-27 |
Family
ID=75545966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011584752.9A Pending CN112712086A (zh) | 2020-12-28 | 2020-12-28 | 数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712086A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434584A (zh) * | 2021-06-28 | 2021-09-24 | 国网北京市电力公司 | 电力设备数据处理方法、装置及电子设备 |
CN113723890A (zh) * | 2021-09-07 | 2021-11-30 | 上海寻梦信息技术有限公司 | 信息处理方法、装置、设备及存储介质 |
CN116934068A (zh) * | 2023-09-19 | 2023-10-24 | 江铃汽车股份有限公司 | 一种办公流程节点管理方法及系统 |
-
2020
- 2020-12-28 CN CN202011584752.9A patent/CN112712086A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434584A (zh) * | 2021-06-28 | 2021-09-24 | 国网北京市电力公司 | 电力设备数据处理方法、装置及电子设备 |
CN113434584B (zh) * | 2021-06-28 | 2022-10-14 | 国网北京市电力公司 | 电力设备数据处理方法、装置及电子设备 |
CN113723890A (zh) * | 2021-09-07 | 2021-11-30 | 上海寻梦信息技术有限公司 | 信息处理方法、装置、设备及存储介质 |
CN113723890B (zh) * | 2021-09-07 | 2024-03-26 | 上海寻梦信息技术有限公司 | 信息处理方法、装置、设备及存储介质 |
CN116934068A (zh) * | 2023-09-19 | 2023-10-24 | 江铃汽车股份有限公司 | 一种办公流程节点管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020107872A1 (zh) | 企业风险分析方法、装置、计算机设备和存储介质 | |
CN112712086A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
WO2020253357A1 (zh) | 数据产品推荐方法、装置、计算机设备和存储介质 | |
US11947626B2 (en) | Face recognition from unseen domains via learning of semantic features | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN110489622B (zh) | 对象信息的分享方法、装置、计算机设备和存储介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
CN113592593A (zh) | 序列推荐模型的训练及应用方法、装置、设备及存储介质 | |
CN112995414A (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN116402539A (zh) | 基于大数据的拓客方法、系统、设备及存储介质 | |
CN110659892A (zh) | 物品总价获取方法、装置、计算机设备和存储介质 | |
CN114936326B (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN115222112A (zh) | 一种行为预测方法、行为预测模型的生成方法及电子设备 | |
CN111768218A (zh) | 用于处理用户交互信息的方法和装置 | |
CN115392361A (zh) | 一种智能排序方法、装置、计算机设备及存储介质 | |
KR20190061317A (ko) | 주식 정보 제공 방법 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN114186039A (zh) | 一种视觉问答方法、装置及电子设备 | |
CN114154052A (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
US20220019986A1 (en) | Vectorization of transactions | |
US20240070681A1 (en) | Systems and methods for entity resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |