CN113360490B - 数据处理方法、装置、设备、介质及程序产品 - Google Patents

数据处理方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN113360490B
CN113360490B CN202110693569.0A CN202110693569A CN113360490B CN 113360490 B CN113360490 B CN 113360490B CN 202110693569 A CN202110693569 A CN 202110693569A CN 113360490 B CN113360490 B CN 113360490B
Authority
CN
China
Prior art keywords
data
processed
processing
configuration file
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110693569.0A
Other languages
English (en)
Other versions
CN113360490A (zh
Inventor
张瑞
许超
石晓坤
孟迪
吴家林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110693569.0A priority Critical patent/CN113360490B/zh
Publication of CN113360490A publication Critical patent/CN113360490A/zh
Application granted granted Critical
Publication of CN113360490B publication Critical patent/CN113360490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种数据处理方法、装置、设备、介质及程序产品,涉及自然语言处理和云计算等人工智能领域。该方法的一实施方式包括:响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理;对配置文件进行解析,得到解析结果;根据解析结果的数据处理措施,对待处理数据进行处理。

Description

数据处理方法、装置、设备、介质及程序产品
技术领域
本公开涉及计算机领域,具体涉及自然语言处理和云计算等人工智能领域,尤其涉及一种数据处理方法、装置、设备、介质及程序产品。
背景技术
随着互联网的快速发展,多数机构也已采用计算机进行业务处理。但由于各家机构所用的计算机平台不同,导致数据的版本,统计方式,存储介质,资源分配,数据关系等都各有不同,例如,医疗机构、电网机构、网络机构等。下面以医疗机构为例,现在大数据普及至医疗行业,医疗相关的产业顺应大数据发展,许多医疗机构开始对待处理数据结构化归档。由于医疗机构数据存储方式的不同,导致医疗机构与医疗机构,医疗机构与监管机构对接逻辑复杂,单套逻辑对应单监管实例,开发成本高,重复性工作大,灵活性差,加之现行医疗机构数量大,短时间内处理难度高,数据多样性高,处理后维护技术难度大。
目前,待处理数据处理目前普遍采用以下方案解决:(1)根据医疗机构实际情况制定处理开发方案,需要处理的医疗单据顺序开发,每条处理逻辑或医疗单据都是相对独立的一套系统,对于同一家医疗机构的同一套数据版本,可实现数据处理。(2)利用数据库存储过程来定制处理方案,需要处理的医疗单据通过编写相应的存储过程进行处理,对于不同医疗机构的同一套数据版本,可达到拷贝粘贴存储过程达到快速数据处理。(3)采用数据库的查询,将处理需要的元数据使用结构化查询语言(Structural Query Language,SQL)获取后通过开发处理程序进行处理,针对同一套数据库的数据结构,可使用一套程序进行数据处理。
发明内容
本公开实施例提出了一种数据处理方法、装置、设备、介质及程序产品。
第一方面,本公开实施例提出了一种数据处理方法,包括:响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理;对配置文件进行解析,得到解析结果;根据解析结果的数据处理措施,对待处理数据进行处理。
第二方面,本公开实施例提出了一种数据处理装置,包括:数据获取模块,被配置响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理;结果解析模块,被配置成对配置文件进行解析,得到解析结果;数据处理模块,被配置成根据解析结果的数据处理措施,对待处理数据进行处理。
第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面描述的方法。
第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面描述的方法。
第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面描述的方法。
本公开实施例提供的数据处理方法、装置、设备、介质及程序产品,首先在接收到数据处理请求时,获取数据处理请求中待处理数据对应的配置文件,该数据处理请求用于指示根据配置文件对待处理数据进行处理;然后对配置文件进行解析,得到解析结果;最后根据解析结果的数据处理措施,对待处理数据进行处理。可以根据配置文件解析得到的数据处理措施,对待处理数据进行处理;能够基于配置文件解析得到的数据处理措施实现对待处理数据的处理。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开的数据处理方法的一个实施例的流程图;
图3是数据映射、文本结构化和数据清洗组合的一个示意图;
图4是数据映射、文本结构化和数据清洗组合的一个示意图;
图5是下钻过程示意图;
图6是数据映射示意图;
图7是根据本公开的数据处理方法的一个实施例的流程图;
图8是根据本公开的数据处理装置的一个实施例的结构示意图;
图9是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的数据处理方法或数据处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,例如待处理数据。终端设备101、102、103上可以安装有各种客户端应用、智能交互应用,例如数据处理应用、数据筛选软件等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103时,终端设备可以为与用户通过键盘、触摸板、显示屏、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(PocketPC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以提供各种服务。例如,服务器105可以在接收到终端设备101、102、103发送的数据处理请求时,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理;对配置文件进行解析,得到解析结果;根据解析结果的数据处理措施,对待处理数据进行处理。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的数据处理方法一般由服务器105执行,相应地,数据处理装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的数据处理方法的一个实施例的流程200。该数据处理方法可以包括以下步骤:
步骤201,响应于接收到数据处理请求,获取待处理数据对应的配置文件。
在本实施例中,数据处理方法的执行主体(例如图1所示的服务器105)可以在接收到终端设备(例如图1所示的终端设备101、102、103)发送的数据处理请求时,获取待处理数据对应的配置文件。上述待处理数据可以为根据配置文件进行处理的数据,例如,医疗数据、物流数据、日志数据、电网数据等。
以医疗数据为例,该医疗数据可以为就诊人员在医院就诊产生的与就诊信息相关的数据,例如,患者身份信息、就诊时间、疾病诊断信息、药品信息等。
在这里,数据处理请求用于指示根据配置文件对待处理数据进行处理。
在一个示例中,可以根据配置文件按照待处理数据的属性信息,对待处理数据进行处理。可选的,属性信息可以包括以下至少一项:待处理数据所属的数据类型(例如,非结构化数据类型(例如,文本数据)、结构化数据类型(例如,结构化数据))、待处理数据的创建方信息和待处理数据的创建时间等。
从多个医疗机构获取到的待处理数据。初始待处理数据包括就诊人员在医院就诊产生的就诊信息等相关数据。
本公开的技术方案中,所涉及的待处理数据、医疗数据的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
步骤202,对配置文件进行解析,得到解析结果。
在本实施例中,上述执行主体可以将配置文件进行解析,以得到解析结果。
步骤203,根据解析结果的数据处理措施,对待处理数据进行处理。
在本实施例中,上述执行主体可以根据解析结果的数据处理措施,对待处理数据进行处理。上述对待处理数据进行处理可以包括:对待处理数据进行标准化处理、对待处理数据进行存储处理、获取待处理数据、对待处理数据进行数据映射处理、对待处理数据进行文本结构化处理等。
本公开实施例提供的数据处理方法,首先在接收到数据处理请求时,获取数据处理请求中待处理数据对应的配置文件,该数据处理请求用于指示根据配置文件对待处理数据进行处理;然后对配置文件进行解析,得到解析结果;最后根据解析结果的数据处理措施,对待处理数据进行处理。可以根据配置文件解析得到的数据处理措施,对待处理数据进行处理;能够基于配置文件解析得到的数据处理措施实现对待处理数据的处理。
在本实施例的一些可选的实现方式中,根据解析结果的数据处理措施,对待处理数据进行处理,包括:响应于解析结果为目标格式的解析结果,根据目标格式的解析结果的数据处理措施,对待处理数据进行处理。
在本实现方式中,上述执行主体可以对配置文件进行解析,并返回解析结果,在解析结果为目标格式的解析结果时,例如JSON,XML,YAML等目标格式的解析结果;如果解析成功,会将解析结果返回至用户,由用户判断解析之前的配置文件是否有语法错误,以便调试与查错。
在本实现方式中,在解析结果为目标格式的解析结果时,可以根据目标格式的解析结果的数据处理措施,以实现对待处理数据进行处理。
在本实施例的一些可选的实现方式中,根据解析结果的数据处理措施,对待处理数据进行处理,包括:根据与解析结果的数据处理措施对应的预设的函数体系,对待处理数据进行处理。
在一个示例中,在待处理数据处理过程中,通过E(Extract,抽取)-T(Transform,转换)-L(Load,加载)的方式对待处理数据进行处理,该E-T-L方式通过配置配置文件的方式将每个需要处理的节点抽取出对应的待处理数据进行转换,最终加载至目的端数据结构(即,目标字段上)中。上述每一步的配置文件都根据一套函数体系,并根据该配置文件中的路径描述方案来处理多种数据格式和数据来源。在获取待处理数据之后,每一个数据处理节点都有相应的数据处理函数对该待处理数据进行处理。
在本实现方式中,可以通过函数体系实现对待处理数据的处理。
在本实施例的一些可选的实现方式中,数据处理措施包括以下至少一项:数据映射、文本结构化、数据清洗;其中,数据映射用于将待处理数据中的结构化数据映射至目标字段上,文本结构化用于提取待处理数据中文本数据的关键字和值,组成结构化数据,数据清洗用于将待处理数据中的非标准化数据进行清洗,得到标准化数据。
在本实现方式中,数据映射(Mapping)用于将待处理数据中的结构化数据(例如,数据库,接口等的数据)映射至目标字段上;文本结构化(Structure),用于提取待处理数据中文本数据的关键字和值,组成结构化数据;数据清洗(Value washing)用于将待处理数据中非标准化数据进行清洗,得到标准化数据,例如,将不规范或冗余的数据或结构进行调整,得到标准化数据。上述目标字段可以为目标端上的字段,例如,目标端(例如,执行数据处理方法的执行主体)的目标医疗单据上的字段。
需要说明的是,数据映射、文本结构化和数据清洗互相独立,且功能各异。在本实现方式中,能够根据配置文件指定数据映射、文本结构化和数据清洗的前后关系来确定对应的数据处理措施。
以医疗数据为例,在一个示例中,在图3中,可以根据每一家医疗机构(例如,医疗机构1、医疗机构2、医疗机构3)配置出符合该医疗机构的数据处理措施,如医疗机构1没有长文本的处理需求,就可以不执行文本结构化,针对医疗机构1,先获取医疗数据;在获取医疗数据之后,将医疗数据中的结构化数据进数据映射;将映射后的医疗数据中的非标准化数据进行数据清洗,得到数据处理结果1。对于医疗机构2,先获取医疗数据;之后,将医疗数据中的结构化数据进行数据映射,得到映射后的医疗数据;之后,将医疗数据中的文本数据进行文本结构化,得到结构化数据;之后,将非标准数据(即,映射后的医疗数据和/或结构化数据)进行清洗,得到标准化数据,以得到数据处理结果2。医疗机构3的医疗数据中不存在非标准化数据,则可以不执行数据清洗,在获取医疗数据之后,将医疗数据进行数据映射,以得到数据处理结果3。
需要说明的是,数据映射、文本结构化和数据清洗的执行顺序,部署的实例个数都没有限制,可以灵活组合和拼搭,以建立独特的数据处理措施。数据映射、文本结构化和数据清洗都使用配置文件的运行模式而不是通过硬编码的方式实现,灵活的使用配置文件可以让程序依照相应的配置文件来处理待处理数据,只需要维护一套配置文件的数据处理措施就可以处理所有医疗机构的待处理数据。
在本实现方式中,使用统一配置文件,在处理内容相同的处理对象(即,医疗数据)时可以复用该配置文件,无需根据处理对象再重新生成新的配置文件。
在本实现方式中,由控制器控制是否通过数据映射、文本结构化和数据清洗中的至少一项对待处理数据进行处理。控制器的配置中存储着该处理流程应该经过数据映射(Mapping),文本结构化(Structure)和数据清洗(Value wash)中的至少一个,以及数据映射(Mapping),文本结构化(Structure)和数据清洗(Value wash)的执行顺序。灵活地配置数据处理措施可以获得精准的待处理数据处理效果,对于不同的医疗结构的待处理数据处理可以配置不同的数据处理措施。
以医疗数据为例,在一个示例中,在图4中,从医疗机构中获取医疗数据;之后,将医疗数据中结构化数据进行数据映射;之后,将数据映射后的医疗数据进行文本结构化处理,得到数据处理结果1;以及,将数据映射后的数据进行数据清洗,得到数据处理数据2;以及将医疗数据中的文本数据进行文本结构化,得到结构化数据,之后,对结构化数据进行自然语言理解,之后,基于自然语言理解后的数据,得到数据处理结果3。
在本实现方式中,可以基于数据映射、文本结构化、数据清洗之间的自由组合,以实现对待处理数据的个性化处理。
在本实施例的一些可选的实现方式中,数据映射基于以下步骤确定:根据函数体系中的数据抽取函数,在配置文件中包括的预设的数据抽取位置处抽取待处理数据;根据函数体系中的筛选函数,根据待处理数据获取筛选后的数据集;将筛选后的数据集中的待处理数据映射至目标字段上。
具体地,根据函数体系中的数据抽取函数,在配置文件中包括的预设的数据抽取位置处抽取待处理数据可以包括:
对于首次数据抽取,可以根据函数体系中的数据抽取函数,在配置文件中包括的预设的数据抽取位置处抽取待处理数据;之后,根据待处理数据的ID(即,配置文件中指定的预设的ID)按照配置文件中包括的预设的路径将待处理数据存储至缓存中,并返回调用函数的处理流程。
对于非首次数据抽取,可以根据函数体系中的数据抽取函数,通过配置文件中预设的ID(例如,待处理数据的ID)在对应的缓存中抽取待处理数据。
在本实现方式中,数据映射包括以下步骤:
第一步,数据选择和抽取(before_mapping):在数据抽取位置使用数据抽取函数(该数据抽取函数可用于操作JSON,XML等结构数据),并在配置文件中的预设的路径(即,数据抽取位置)处抽取待处理数据,所用的函数可以包括:get_content(PATH,GLOBAL_NAME)用来获取指定PATH的JSON数据;xml_load_path(PATH,XPATH,GLOBAL_NAME)用来获取指定PATH的XML中XPATH对应的数据;get_data(GLOBAL_NAME)用来获取已缓存的数据内容(即,非首次数据抽取)。
第二步,数据筛选(filter):在数据抽取后,如果抽取数据中有部分需要被筛选掉的数据,可在此部分使用筛选函数进行筛选;例如,通过当前遍历时的值来筛选出下钻的数据集(即,通过该值,获取对应的数据源,根据函数体系中下钻对应的筛选函数,根据配置文件中的字段之间的预设关系从该数据源获取筛选后的数据集),或通过常量条件筛选出筛选后的数据集(例如,从缓存中筛选得到)。所用的函数可以包括:filter_drill(GLOBAL_NAME,DRILL_PAIRS)使用指定数据集合中符合当前下钻条件值的数据,将其他数据筛选掉;filter_by_doctype(GLOBAL_NAME,QUERY)使用指定数据集合中当数据项满足QUERY条件的所有数据集合,将不符合QUERY条件的数据项筛选掉。QUERY支持contain(存在),exclude(不存在)等,如:患者姓名:contain(A)来筛选患者姓名中带"A"字的患者集合。
第三步,数据转换(do_mapping):将待处理数据映射至目标端的目标字段上,通过遍历的方法对待处理数据中的每一个待处理都进行处理,也可通过当前遍历的确切值与缓存中其他数据产生下钻的数据关系(该数据关系,可以预先在配置文件中设定),通过该下钻关系可完成数据映射工作。所用的函数可以包括:loop_item(GLOBAL_NAME)循环遍历数据集合,与目标字段做简单映射;loop_with_drill(GLOBAL_NAME,DRILL_KEYS)循环遍历数据集合,并在遍历时将当前遍历时指定的DRILL_KEYS存入缓存,配合filter_drill函数得到数据联合下钻的效果,筛选出符合条件的数据集合,然后重复整个配置流程,得到精确的数据结果集。
第四步,数据加载(after_mapping):数据经过抽取,筛选,转换后就要和目标字段进行映射,由于处理出的数据各种格式都会有,所以数据加载步骤是将数据进行简单调整(即,数据结构调整)或清洗(即,数据值清洗),以得到清调整或清洗后的数据。所用的函数可以包括:join_list,join_dict,join_dict_value等用来按配置文件中的指定方式对不标准化数据进行调整或清洗。
在本实现方式中,可以通过函数体系中的函数,以及配置文件,实现对待处理数据的数据映射。
在本实施例的一些可选的实现方式中,配置文件包括每条待处理数据的ID或路径;以及对待处理数据进行处理,包括:基于数据的ID或路径查找数据源,并从数据源中获得ID或路径对应的值。
在本实现方式中,在处理待处理数据过程中,会将待处理数据中的部分数据作为数据源,配合每条数据的ID或路径,将ID或路径存储至配置文件中,当对其进行处理时,根据ID或路径获取数据源,然后根据配置文件中的字段之间的预设关系从该数据源中获得目标处理字段的值。可选的,通过筛选(fliter)过程来实现。上述目标字段的值为所述数据的ID或路径对应的数值。
在一个示例中,在图5中,在包括目标处理字段的值的数据转换步骤中使用loop_with_drill函数来遍历数据集并存储指定字段当前的值(即,上述ID或路径对应的字段名存储至存储区)。之后,在需要下钻关系的字段处使用配置meta块重新定义数据源的位置,使用before_mapping过程来指定一个新的(get_content函数)或已缓存(get_data函数)的数据源,在fliter过程使用filter_drill函数将这个数据源(即,源表)的下钻字段(即,“字段1==字段3”)和需要处理的数据源(即,下钻表)的相应字段连接,以得到下钻结果集;其中,filter_drill函数在每次遍历数据时,都会筛选出字段值相同的数据,从而实现下钻数据值的获取。
在一个示例中,在图6中,下一层数据可以为数据集1中的数据,从“数据集1”中筛选出“值1.1”根据“数据集1,值102”,从数据集1中进行筛选掉“VALUE1.1.2”;之后,对“值1.2”中的“字段1、字段2、字段3”进行数据映射,即从“数据集2”中根据“配合1.2==值1.2”筛选后得到的“字段3.1:配合1.2”“字段3.2:值2.1”数据进行数据映射;最终得到“字段:“常量””、“字段2:“VALUE1.1.1””,以及“字段3:“字段3.1=VALUE1.2.1,字段3.2=VALUE2.1.1””。
需要说明的是,通过函数体系中的函数协同处理,可实现数据格式为JSON,XML的待处理数据进行处理,配合待处理数据获取的接口,可扩展为包括数据库(db),网络接口(restfulapi,soap)等更多的待处理对象。
在本实现方式中,可以通过配置文件包括每条待处理数据的ID或路径,下钻得到ID或路径对应的值。
在本实施例的一些可选的实现方式中,根据函数体系中的筛选函数,根据待处理数据获取筛选后的数据集,包括:根据待处理数据的ID或路径,获取对应的数据源;根据函数体系中下钻对应的筛选函数,根据配置文件中的字段之间的预设关系从下钻数据源获取筛选后的数据集。
在本实现方式中,在待处理数据包括下一次层数据(即,下钻对应的待处理数据)时,上述执行主体可以根据待处理数据的ID或路径,获取对应的数据源(即,下钻表);之后,根据函数体系中下钻对应的筛选函数,根据配置文件中的字段之间的预设关系从下钻数据源获取筛选后的数据集。上述字段之间的预设关系可以为字段之间的关系,例如图5中的“字段1==字段3”。
在本实现方式中,对于待处理数据中的下一层数据,可以根据函数体系中下钻对应的筛选函数,从待处理数据的ID或路径所获取的数据源中,筛选出数据关系为字段之间的预设关系的筛选后的数据集。
在本实施例的一些可选的实现方式中,目标格式包括JSON,XML,或YAML。
在本实现方式中,通过将配置文件解析为JSON,XML,或YAML之后,能够由机器进行识别,实现对待处理数据的处理。
在本实施例的一些可选的实现方式中,配置文件的格式为HOCON。
在本实现方式中,由于待处理数据处理中的字段的重复量大,还可以基于配置文件提取重复配置段,以减少配置的长度,更加易于维护和阅读。
在本实现方式中,HOCON格式的配置文件的可读性较强,HOCON是一个类JSON的配置格式,它有JSON简易的描述格式,而又不局限于JSON严格的语法检查。无论是在前期编写的过程中,或是后期的调试都非常容易。HOCON格式的配置文件与其他配置文件的区别如下表所示:
在一个示例中,HOCON的组件还提供了一个检查配置文件语法的工具,使用pyhocon工具可以对目标配置进行解析,并返回解析转换的结果,HOCON支持将配置文件解析成JSON,XML,YAML格式(即,目标格式)等的解析结果,如果解析成功,该工具会将解析结果返回至用户,由用户判断编写的配置文件是否存在语法错误,以方便调试与查错。
在本实现方式中,在调试中,配置文件能够快速切换为注释,而不受其他严格语法的限制。另外HOCON还支持内部变量引用和外部配置引用,极大缩减了修改相同配置的成本,且更直观,灵活,易用。
进一步参考图7,图7示出了根据本公开的一种数据处理方法的一个实施例的流程700。该数据处理方法可以包括以下步骤:
步骤701,响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理。
步骤702,对配置文件进行解析,得到解析结果。
步骤703,响应于解析结果为目标格式的解析结果,根据与目标格式的解析结果的数据处理措施对应的预设的函数体系,对待处理数据进行处理。
在本实施例中,数据处理方法的执行主体(例如图1所示的服务器105)在解析结果为目标格式的解析结果时,根据与目标格式的解析结果的数据处理措施对应的预设的函数体系,对待处理数据进行处理。上述目标格式的解析结果可以为格式为XML、JSON,或YAML的解析结果。
在本实施例中,步骤701、702的具体操作分别已在图2所示的实施例中步骤201、202进行了详细的介绍,在此不再赘述。
从图7中可以看出,与图2对应的实施例相比,本实施例中的数据处理方法突出了根据预设的函数体系对待处理数据进行处理步骤。由此,本实施例描述的方案在解析结果为目标格式的解析结果时,根据与目标格式的解析结果的数据处理措施对应的预设的函数体系,对待处理数据进行处理。能够基于解析结果中的预设的函数体系实现对待处理数据的处理。
进一步参考图8,作为对上述各图所示方法的实现,本公开提供了一种数据处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,本实施例的数据处理装置800可以包括:数据获取模块801、结果解析模块802和数据处理模块803。其中,数据获取模块801,被配置响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,数据处理请求用于指示根据配置文件对待处理数据进行处理;结果解析模块802,被配置成对配置文件进行解析,得到解析结果;数据处理模块803,被配置成根据解析结果的数据处理措施,对待处理数据进行处理。
在本实施例中,数据处理装置800中:数据获取模块801、结果解析模块802和数据处理模块803的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,数据处理模块803,进一步被配置成:响应于解析结果为目标格式的解析结果,根据目标格式的解析结果的数据处理措施,对待处理数据进行处理。
在本实施例的一些可选的实现方式中,数据处理模块803,进一步被配置成:根据与解析结果的数据处理措施对应的预设的函数体系,对待处理数据进行处理。
在本实施例的一些可选的实现方式中,数据处理措施包括以下至少一项:数据映射、文本结构化、数据清洗;其中,数据映射用于将待处理数据中的结构化数据映射至目标字段上,文本结构化用于提取待处理数据中文本数据的关键字和值,组成结构化数据,数据清洗用于将待处理数据中的非标准化数据进行清洗,得到标准化数据。
在本实施例的一些可选的实现方式中,该数据处理装置还包括:数据存储模块,被配置成根据函数体系中的数据抽取函数,在配置文件中包括的预设的数据抽取位置处抽取待处理数据;数据筛选模块,被配置成根据函数体系中的筛选函数,根据待处理数据获取筛选后的数据集;数据遍历模块,被配置成将筛选后的数据集中的待处理数据映射至目标字段上。
在本实施例的一些可选的实现方式中,数据筛选模块,进一步被配置成:根据待处理数据的ID或路径,获取对应的数据源;根据函数体系中下钻对应的筛选函数,根据配置文件中的字段之间的预设关系从数据源中获取筛选后的数据集。
在本实施例的一些可选的实现方式中,目标格式为JSON、XML,或YAML。
在本实施例的一些可选的实现方式中,配置文件的格式为HOCON。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提及的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种数据处理方法,包括:
响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,所述数据处理请求用于指示根据所述配置文件对所述待处理数据进行处理;
对所述配置文件进行解析,得到解析结果;
根据所述解析结果的数据处理措施,对所述待处理数据进行处理,包括:根据与所述解析结果的数据处理措施对应的预设的函数体系,对所述待处理数据进行处理;
其中,所述数据处理措施包括:数据映射;其中,所述数据映射用于将所述待处理数据中的结构化数据映射至目标字段上;
所述数据映射基于以下步骤确定:
根据所述函数体系中的数据抽取函数,在所述配置文件中包括的预设的数据抽取位置处抽取待处理数据;
根据所述待处理数据的ID或路径,获取对应的数据源;
根据所述函数体系中下钻对应的筛选函数,根据所述配置文件中的字段之间的预设关系从下钻数据源获取筛选后的数据集;
将筛选后的数据集中的待处理数据映射至目标字段上。
2.根据权利要求1所述的方法,其中,所述根据所述解析结果的数据处理措施,对所述待处理数据进行处理,还包括:
响应于所述解析结果为目标格式的解析结果,根据所述目标格式的解析结果的数据处理措施,对所述待处理数据进行处理。
3.根据权利要求1或2所述的方法,其中,所述数据处理措施还包括以下至少一项:
文本结构化、数据清洗;其中,所述文本结构化用于提取所述待处理数据中文本数据的关键字和值,组成结构化数据,所述数据清洗用于将所述待处理数据中的非标准化数据进行清洗,得到标准化数据。
4.根据权利要求2所述的方法,其中,所述目标格式为JSON、XML,或YAML。
5.根据权利要求1或2所述的方法,其中,所述配置文件的格式为HOCON。
6.一种数据处理装置,包括:
数据获取模块,被配置响应于接收到数据处理请求,获取待处理数据对应的配置文件,其中,所述数据处理请求用于指示根据所述配置文件对所述待处理数据进行处理;
结果解析模块,被配置成对所述配置文件进行解析,得到解析结果;
数据处理模块,被配置成根据所述解析结果的数据处理措施,对所述待处理数据进行处理,进一步被配置成:根据与所述解析结果的数据处理措施对应的预设的函数体系,对所述待处理数据进行处理;
其中,所述数据处理措施包括:
数据映射;其中,所述数据映射用于将所述待处理数据中的结构化数据映射至目标字段上;
所述装置还包括:
数据存储模块,被配置成根据所述函数体系中的数据抽取函数,在所述配置文件中包括的预设的数据抽取位置处抽取待处理数据;
数据筛选模块,被配置成根据所述待处理数据的ID或路径,获取对应的数据源;根据所述函数体系中下钻对应的筛选函数,根据所述配置文件中的字段之间的预设关系从数据源中获取筛选后的数据集;
数据遍历模块,被配置成将筛选后的数据集中的待处理数据映射至目标字段上。
7.根据权利要求6所述的装置,其中,所述数据处理模块,进一步被配置成:
响应于所述解析结果为目标格式的解析结果,根据所述目标格式的解析结果的数据处理措施,对所述待处理数据进行处理。
8.根据权利要求6或7所述的装置,其中,所述数据处理措施还包括以下至少一项:
文本结构化、数据清洗;其中,所述文本结构化用于提取所述待处理数据中文本数据的关键字和值,组成结构化数据,所述数据清洗用于将所述待处理数据中的非标准化数据进行清洗,得到标准化数据。
9.根据权利要求7所述的装置,其中,所述目标格式为JSON、XML,或YAML。
10.根据权利要求6或7所述的装置,其中,所述配置文件的格式为HOCON。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202110693569.0A 2021-06-22 2021-06-22 数据处理方法、装置、设备、介质及程序产品 Active CN113360490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110693569.0A CN113360490B (zh) 2021-06-22 2021-06-22 数据处理方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110693569.0A CN113360490B (zh) 2021-06-22 2021-06-22 数据处理方法、装置、设备、介质及程序产品

Publications (2)

Publication Number Publication Date
CN113360490A CN113360490A (zh) 2021-09-07
CN113360490B true CN113360490B (zh) 2023-07-28

Family

ID=77535647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110693569.0A Active CN113360490B (zh) 2021-06-22 2021-06-22 数据处理方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN113360490B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613513A (zh) * 2022-03-08 2022-06-10 医渡云(北京)技术有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095449A (zh) * 2015-07-27 2015-11-25 福州盈展信息技术有限公司 一种将html网页转换为移动终端页面的方法
CN108388640A (zh) * 2018-02-26 2018-08-10 北京环境特性研究所 一种数据转换方法、装置以及数据处理系统
CN108509447A (zh) * 2017-02-24 2018-09-07 北京国双科技有限公司 数据处理方法及装置
CN108664331A (zh) * 2018-05-22 2018-10-16 腾讯大地通途(北京)科技有限公司 分布式数据处理方法及装置、电子设备、存储介质
US10789461B1 (en) * 2019-10-24 2020-09-29 Innovaccer Inc. Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document
CN112733199A (zh) * 2020-12-28 2021-04-30 北京极豪科技有限公司 数据处理方法、装置、电子设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288301B2 (en) * 2019-08-30 2022-03-29 Google Llc YAML configuration modeling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095449A (zh) * 2015-07-27 2015-11-25 福州盈展信息技术有限公司 一种将html网页转换为移动终端页面的方法
CN108509447A (zh) * 2017-02-24 2018-09-07 北京国双科技有限公司 数据处理方法及装置
CN108388640A (zh) * 2018-02-26 2018-08-10 北京环境特性研究所 一种数据转换方法、装置以及数据处理系统
CN108664331A (zh) * 2018-05-22 2018-10-16 腾讯大地通途(北京)科技有限公司 分布式数据处理方法及装置、电子设备、存储介质
US10789461B1 (en) * 2019-10-24 2020-09-29 Innovaccer Inc. Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document
CN112733199A (zh) * 2020-12-28 2021-04-30 北京极豪科技有限公司 数据处理方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用大数据技术进行海量数据治理;梁丽琴;郑少明;郑汉军;罗佳;;网络安全技术与应用(11);54+59 *
基于大数据处理的ETL框架的研究与设计;沈琦;陈博;;电子设计工程(02);31-33+40 *

Also Published As

Publication number Publication date
CN113360490A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US8601438B2 (en) Data transformation based on a technical design document
CN110351325B (zh) 一种数据处理方法及相关设备
KR102485129B1 (ko) 정보 푸시 방법, 장치, 기기 및 저장매체
CN113656590B (zh) 行业图谱的构建方法、装置、电子设备及存储介质
US20120079364A1 (en) Finding Partition Boundaries for Parallel Processing of Markup Language Documents
CN112711581A (zh) 医疗数据校验方法、装置、电子设备及存储介质
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
CN112966469A (zh) 文档中的图表处理方法、装置、设备及存储介质
CN113836314A (zh) 知识图谱构建方法、装置、设备以及存储介质
CN114445047A (zh) 工作流生成方法、装置、电子设备及存储介质
CN113360490B (zh) 数据处理方法、装置、设备、介质及程序产品
CN111221698A (zh) 任务数据采集方法与装置
CN116028028A (zh) 请求函数生成方法、装置、设备及存储介质
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
US9851958B2 (en) Method, apparatus, and computer program for specializing serializer
CN112989797A (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
CN114168119B (zh) 代码文件编辑方法、装置、电子设备以及存储介质
CN114840507A (zh) 数据治理方法、装置、电子设备及存储介质
CN113138767B (zh) 代码语言转换方法、装置、电子设备及存储介质
CN114218313A (zh) 数据管理方法、装置、电子设备、存储介质及产品
CN111399901A (zh) 状态枚举类生成方法、装置、服务器及存储介质
CN114880242B (zh) 测试用例的提取方法、装置、设备和介质
CN113779003B (zh) 信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant