CN112052414A - 一种数据处理方法、装置以及可读存储介质 - Google Patents

一种数据处理方法、装置以及可读存储介质 Download PDF

Info

Publication number
CN112052414A
CN112052414A CN202011073815.4A CN202011073815A CN112052414A CN 112052414 A CN112052414 A CN 112052414A CN 202011073815 A CN202011073815 A CN 202011073815A CN 112052414 A CN112052414 A CN 112052414A
Authority
CN
China
Prior art keywords
data
source service
service data
format
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011073815.4A
Other languages
English (en)
Inventor
罗佳晨
曾毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011073815.4A priority Critical patent/CN112052414A/zh
Publication of CN112052414A publication Critical patent/CN112052414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置以及可读存储介质。该数据处理方法包括:获取源业务数据,并获取所述源业务数据的数据格式类型;根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;将所述更新后的源业务数据和所述标注信息关联存储至数据库。采用本发明实施例,可以最小化人工标注成本,提高数据标注的效率,且提升数据的兼容性。

Description

一种数据处理方法、装置以及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置以及可读存储介质。
背景技术
随着数据信息化的发展,数据量快速增长,数据的标注信息在推荐系统、监督学习等领域起到重要作用,因此,如何快速高效地从开放领域的数据中抽取出有效信息,成为摆在人们面前的重要问题。
现有的技术十分依赖人力,某些领域对团队人员的专业水平要求较高,且主要通过人工进行信息标注,需要标注的部分过多,耗费时间过长,造成处理数据的效率较低,且现有技术无法对数据进行兼容性处理,难以保证数据的通用性。
发明内容
本发明实施例提供一种数据处理方法、装置以及可读存储介质,可以最小化人工标注成本,提高数据标注的效率,且提升数据的兼容性。
本发明实施例一方面提供了一种数据处理方法,该方法包括:
获取源业务数据,并获取所述源业务数据的数据格式类型;
根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
将所述更新后的源业务数据和所述标注信息关联存储至数据库。
本发明实施例一方面提供了一种数据处理装置,该装置包括:
获取模块,用于获取源业务数据,并获取所述源业务数据的数据格式类型;
抽取模块,用于根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
标准化模块,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
存储模块,用于将所述更新后的源业务数据和所述标注信息关联存储至数据库。
其中,所述抽取模块包括:
解析单元,用于若所述数据格式类型为网页格式类型,则对所述源业务数据进行解析,得到所述源业务数据包含的有效字段;
网页抽取单元,用于根据所述有效字段在数据库中的标准标签集合中进行字段匹配;根据与所述标准标签集合相匹配的有效字段,获取字段标注信息;若所述字段标注信息中存在标识字段,则根据所述数据库中的标识映射关系表,对所述字段标注信息中的所述标识字段进行标识映射,得到所述标识字段对应的映射值;将所述字段标注信息和所述标识字段对应的映射值,确定为所述源业务数据对应的标注信息。
其中,所述抽取模块包括:
文件名获取单元,用于若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名;
第一文件抽取单元,用于若所述文件名的命名格式符合正则表达式的过滤逻辑,则基于所述正则表达式,从所述文件名中抽取出所述源业务数据对应的标注信息;若所述文件名的命名格式不符合正则表达式的过滤逻辑,则遍历数据库中标准标签集合内的标准标签,将所述文件名中与所述标准标签的值相匹配的数据,确定为所述源业务数据对应的标注信息。
其中,所述抽取模块包括:
文件名获取单元,用于若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名;
第二文件抽取单元,用于对所述文件名进行分词处理,得到N个分词;N为大于或等于1的正整数;对所述N个分词进行词性标注,得到所述N个分词对应的词性;基于所述词性,对所述N个分词进行命名实体识别,得到所述N个分词分别对应的实体类型,将所述实体类型为地理机构实体类型的分词,确定为所述源业务数据对应的标注信息。
其中,所述标准化模块包括:
子数据获取单元,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
图片处理单元,用于若所述目标媒体类型为图片类型,且所述多媒体子数据为所述图片类型的网页描述数据,则从所述网页描述数据中提取出图片标签和图片资源地址,根据标准媒体资源协议,将所述图片标签和所述图片资源地址转换为标准图片数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准图片数据的网页描述数据,确定为更新后的源业务数据;
表格处理单元,用于若所述目标媒体类型为表格类型,且所述多媒体子数据为所述表格类型的网页描述数据,则从所述网页描述数据中提取出表格标签和表格内容,根据标准媒体资源协议,将所述表格标签和所述表格内容转换为标准表格数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准表格数据的网页描述数据,确定为更新后的源业务数据。
其中,所述标准化模块包括:
子数据获取单元,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
公式处理单元,用于若所述目标媒体类型为公式类型,则识别所述多媒体子数据的公式格式;若所述公式格式为通用图片格式,则调用公式识别接口,将所述多媒体子数据转换为标准文本数据,得到更新后的源业务数据;若所述公式格式为图元文件格式,则将所述多媒体子数据转换为通用图片格式数据,调用公式识别接口,将具有通用图片格式的多媒体子数据转换为标准文本数据,得到更新后的源业务数据。
其中,所述标准化模块包括:
子数据获取单元,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
音视频处理单元,用于若所述目标媒体类型为音视频类型,则获取所述多媒体子数据对应的音视频编码格式;若所述音视频编码格式不属于标准音视频编码格式,则将所述多媒体子数据转换成标准音视频数据,得到更新后的源业务数据。
其中,所述存储模块包括:
标准化数据生成单元,用于根据标准数据协议,将所述更新后的源业务数据与所述标注信息进行拼装,生成标准化数据;
存储关联单元,用于将所述标准化数据存储至数据库,并将所述标准化数据与数据库中的标准标签集合建立关联关系。
本发明实施例一方面提供了一种数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本发明实施例中一方面中的方法。
本发明实施例一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,进而可以将更新后的源业务数据和标注信息关联存储至数据库,以便不同的业务系统之间顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种系统架构示意图;
图2是本发明实施例提供的一种数据处理方法的场景示意图;
图3是本发明实施例提供的一种数据处理方法的流程示意图;
图4是本发明实施例提供的一种数据处理方法的流程示意图;
图5是本发明实施例提供的另一种数据处理方法的流程示意图;
图6是本发明实施例提供的一种预标注数据的场景示意图;
图7是本发明实施例提供的又一种数据处理方法的流程示意图;
图8是本发明实施例提供的一种数据处理装置的结构示意图;
图9是本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种系统架构示意图。如图1所示,该系统架构可以包括服务器100、终端设备200a、终端设备200b和终端设备200c,服务器100可以通过网络与每个终端设备进行数据传输,每个终端设备均可以采集待处理的源业务数据,服务器100可以对每个终端设备采集到的源业务数据进行标注信息抽取以及格式标准化处理,这里以终端设备200a与服务器100之间的数据传输为例进行本发明实施例的描述。终端设备200a可以将采集到的源业务数据发送至服务器100,服务器100可以获取源业务数据,并可以根据源业务数据的数据格式类型,在源业务数据中进行标注信息抽取以及格式标准化处理,进而可以将处理结果返回至终端设备200a。其中,源业务数据可以是文档、图片、音视频、课件等资源,标注信息可以表示不同领域的数据标签和分类,例如教育领域中,标注信息可以是教材版本、年级、科目、章节等标签。
可以理解的是,本发明实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端设备或服务器。其中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile intemet device,MID)、可穿戴设备(例如智能手表、智能手环等),但并不局限于此。
请一并参见图2,是本发明实施例提供的一种数据处理方法的场景示意图。如图2所示,该场景图以图1所对应实施例中的服务器100和终端设备200a以及终端设备200c为例,终端设备200c可以通过开放平台上传由教师用户所提供的试题(也可称为源业务数据),具体的,终端设备200c响应用于上传试题的触发操作(如教师用户点击终端设备200c中的上传控件),可以将试题发送至服务器100,服务器100接收试题,并可以获取试题的数据格式,进而可以根据数据格式,在试题中抽取出可用的标注信息,例如试题对应的科目、年级、学校、知识点等信息。进一步,服务器100可以获取试题中具有目标媒体类型的多媒体子数据,并对多媒体子数据进行格式标准化处理,例如,可以将试题中的公式都转换为预先定义的标准文本数据,得到更新后的试题,进而可以将更新后的试题和抽取得到的标注信息关联存储至试题数据库。其中,目标媒体类型可以为图片类型、表格类型、公式类型、音视频类型等,对试题中的各种多媒体子数据进行格式标准化处理,即将具有相同媒体类型的多媒体子数据转换为统一的格式,可以提升数据的兼容性,便于不同业务系统共享数据。
终端设备200a在打开学习类应用程序C1的应用界面后,首先在终端界面中可以显示学习类应用程序的默认首页,在该首页中,可以显示至少六个功能按钮,分别表现为″话题″按钮、″公告″按钮、″练习″按钮、″测试″按钮、″资料″按钮、″复习包″按钮,当学生用户选择″练习″按钮时,终端设备200a可以跳转到″练习″按钮对应的选择页面,在选择界面中可以显示试题的标签列表,例如″小学″、″初中″、″高中″、″语文″、″数学″、″地区″、″知识点″、″年级″等,标签列表可以基于标注信息生成,便于和标注信息建立对应关系,终端设备200a可以响应学生用户针对标签列表的选择操作,向服务器100发送试题数据库访问请求,以请求获取相匹配的试题。进一步,服务器100可以根据试题数据库访问请求,确定发出请求的终端设备200a对应的标签选择信息,并可以从试题数据库中筛选出与标签选择信息相匹配的试题作为目标试题,进而可以将目标试题发送给终端设备200a进行显示。可选的,学生用户可以在选择页面的搜索框中输入关键字,终端设备200a可以将输入的关键字发送给服务器100,服务器100可以在试题数据库中搜索与上述关键字相匹配的标注信息,进而可以将匹配到的标注信息对应的试题作为目标试题。在学生用户完成试题后,终端设备200a可以将学生用户的答题反馈发送给服务器100,服务器100可以对答题反馈进行判定,并可以将判定结果发送给终端设备200a以及终端设备200c,教师用户可以根据答题的正确率来判断学生用户对某个知识点的掌握程度,进而决定是否介入干预。可以理解,服务器100还可以根据学生用户的历史标签选择信息或历史搜索记录向终端设备200a自动推送相关的试题。
由此可见,服务器100可以根据源业务数据的数据格式,在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,且通过将更新后的源业务数据和标注信息进行关联存储,使得不同的业务系统之间可以顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率,且可以从数据库中快速检索到相关的源业务数据,提高了检索效率。
请参见图3,是本发明实施例提供的一种数据处理方法的流程示意图。该方法可以包括以下步骤:
步骤S101,获取源业务数据,并获取所述源业务数据的数据格式类型;
具体的,服务器可以获取源业务数据,源业务数据可以是各个领域的文档、图片、音视频等资源,例如在教育领域中,源业务数据可以包括但不限于题目、试卷、教学课件、教学视频、音频素材、图片素材,进而可以识别源业务数据的数据格式类型,其中,根据源业务数据的来源,数据格式类型可以包括网页格式类型以及文件格式类型,例如,内容提供方通过API接口(Application Programming Interface,应用程序接口)或网盘分享等方式提供的源业务数据,对应的数据格式类型为网页格式类型,包含了资源下载地址,而文档、课件、图片、音视频等资源对应的数据格式类型则为文件格式类型。
步骤S102,根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
具体的,服务器可以获取数据库中的标准标签集合,根据上述步骤S101识别到的数据格式类型,并基于标准标签集合,在源业务数据中抽取出需要的标注信息。例如,当源业务数据的数据格式类型为网页格式类型时,源业务数据为结构化数据,即按照一定结构排列的、用来描述网页内容的数据,服务器可以对源业务数据进行解析,得到源业务数据包含的有效字段,进而可以将有效字段和标准标签集合进行字段匹配,得到字段标注信息,还可以将字段标注信息中的标识字段进行标识映射,得到标识字段对应的映射值,则服务器可以将字段标注信息和标识字段对应的映射值,确定为源业务数据对应的标注信息,例如,服务器对源业务数据进行解析后得到有效字段″九年级″,并可识别到″九年级″为标识字段,则可以将″九年级″通过标识映射得到对应的映射值″9″。可选的,当源业务数据的数据格式类型为文件格式类型时,服务器可以从文件名中抽取出源业务数据对应的标注信息,例如某套试卷的文件名为″2006年广东省深圳市实验学校直升考试数学试卷″,可以从中抽取出年份、科目、地区等标注信息。
其中,标准标签集合可以预先定义并保存在数据库中,当服务器进行标注信息抽取时,可以读取标准标签集合中的标准标签,用于匹配从源业务数据中抽取到的信息。例如,在对教育资源进行标注信息抽取前,可以创建一个教育领域的标准标签集合,该集合中可以包括学段、年级、科目、教材版本、题目类型、年份、地区、学校、章节、知识点等标准标签,以及这些标准标签对应的值,如【年级】标签对应的值可以包括″一年级″、″二年级″、″三年级″等,当试卷中包含有″语文″时,匹配到标准标签集合中有相匹配的【科目】标签中的一个值″语文″,则可以抽取出【科目】语文,作为上述试卷对应的标注信息。
步骤S103,获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
具体的,源业务数据中可以包括文本、图片、表格、公式、音频、视频等至少一种或多种多媒体子数据,相应的,目标媒体类型可以包括图片类型、表格类型、公式类型、音视频类型,其中,音视频类型为音频类型和视频类型的统称,服务器可以根据不同的目标媒体类型,采用不同的方法对多媒体子数据进行相应的格式标准化处理,即可以将具有相同媒体类型的多媒体子数据转换为统一的格式,得到更新后的源业务数据,故而可以提升数据的兼容性,便于不同业务共同使用。
例如,当源业务数据中包含有视频类型的多媒体子数据时,服务器可以获取该多媒体子数据对应的视频编码格式,若该视频编码格式不属于标准视频编码格式,则服务器可以将上述多媒体子数据转换成标准视频数据。
需要说明的是,可以根据实际应用需要调整步骤S102和步骤S103的先后顺序,也可以同时执行这两个步骤,本发明实施例中不对两者的先后执行顺序做具体限定。
步骤S104,将所述更新后的源业务数据和所述标注信息关联存储至数据库。
具体的,服务器可以将更新后的源业务数据和抽取出来的标注信息,按照预先定义的标准数据协议进行拼装,生成标准化数据,例如,下面是一篇作文按照标注数据协议生成的标准化数据的片段:
Figure BDA0002716069210000091
由上述片段可以看出,标准数据协议定义了标准化数据的整体框架,可以包含源业务数据的属性(如″author_name″(作者名)、″guider″(指导人)等)以及数据的具体排列方式,将更新后的源业务数据的部分内容和抽取出来的标注信息与对应的属性进行拼装和排列,即可得到标准化数据。其中,标准数据协议可根据实际需要自行定义,本发明实施例在此不做具体限定。
进一步,服务器可以将标准化数据存储至数据库,并可以根据上述步骤S102中得到的标识字段对应的映射值,将标准化数据与数据库中的标准标签集合建立关联关系,具体的,可以将具有相同映射值的标准化数据与该映射值对应的标准标签进行关联,后续可以通过该关联关系在数据库中查找到具有特定映射值的标准化数据,进而可以根据标准化数据中的资源地址访问对应的源业务数据。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,进而可以将更新后的源业务数据和标注信息关联存储至数据库,使得不同的业务系统之间可以顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率。
请参见图4,是本发明实施例提供的一种数据处理方法的流程示意图。该方法可以包括以下步骤:
步骤S201,获取源业务数据,并获取所述源业务数据的数据格式类型;
具体的,服务器可以获取源业务数据,进而可以识别源业务数据的数据格式类型,当识别到数据格式类型为网页格式类型时,可以执行后续步骤S202-步骤S208。其中,网页格式类型的源业务数据可以来源于内容提供方提供的API接口,或来源于内容提供方提供的网盘链接,网页格式类型的源业务数据可能包含有标注信息以及资源下载地址等。具体的,网页格式类型的源业务数据可以是JSON(JavaScript Object Notation,JS对象简谱)格式的数据,JSON是一种轻量级的数据交换格式,易于用户阅读和编写,同时也易于机器解析和生成,可以有效地提升网络传输效率。JSON构建于两种结构:″名称/值″对的集合(Acollection of name/value pairs)和值的有序列表(An ordered list of values),″名称/值″对在不用的语言中,可以被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组(associative array);而值的有序列表,在大部分语言中,它被理解为数组(array)。这些都是常见的数据结构,事实上大部分现代计算机语言都以某种形式支持它们,这使得JSON格式在同样基于这些数据结构的编程语言之间进行交换成为可能。
步骤S202,对所述源业务数据进行文本清洗,得到清洗后的源业务数据;
具体的,源业务数据中可能包含有一些无法直接进行展示和算法训练的数据,服务器可以针对这类数据进行文本清洗,得到清洗后的源业务数据。
以HTML(Hyper Text Markup Language,超文本标记语言)格式的文本清洗为例,可以包括以下处理过程:
服务器可以将一些HTML元素转换成标准文本。具体的,标准文本可以是Latex文本。其中,HTML元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码,如<span>、<p>。Latex是一种基于TeX的排版系统,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天、甚至几小时内生成很多具有书籍质量的印刷品,对于生成复杂表格和数学公式,这一点表现得尤为突出。例如,对于HTML元素中的上角标,″x<sup>2</sup>″转换成Latex文本后可以得到″$x^{2}$″;对于HTML元素中的下角标,″x<sub>2</sub>″转换成Latex文本后可以得到″$x_{2}$″;对于HTML元素中的下划线,″闻鸡<u>起</u>舞″转换成Latex文本后可以得到″闻鸡$\underline{起}$舞″。
服务器可以按照内容提供方定义的部分特殊数据协议,提取信息。例如,某开放接口的公式放置在<img>标签的″data-latex″属性字段,服务器可以移除<img>标签,仅保留″data-latex″属性值:
Figure BDA0002716069210000111
服务器还可以将一些HTML实体替换成文本,例如:
&middot;=>.
&plusmn;=>±
服务器还可以对<span>、<div>、<p>等HTML元素进行标签去除,仅保留其中的文本信息,例如:
猜猜看,第六行有<span data-ph=\″1\″>_</span>个苹果
=>猜猜看,第六行有_个苹果
由此可见,对源业务数据进行文本清洗,可以有效提升数据的可读性和兼容性,并减少源业务数据的数据量,提高标注信息抽取效率。
此外,网页格式类型的源业务数据中,图片、文件、音视频等数据一般会以URL(uniform resource locator,统一资源定位系统)的形式在源业务数据中进行表示,服务器可以对源业务数据中的URL进行可用性检测,如果检测到失效的URL就会对其进行过滤。通过增加上述可用性检测的环节,可以提升数据的准确性。可以理解,服务器还可以在其他类型的且包含有URL的源业务数据中进行可用性检测。
步骤S203,对所述清洗后的源业务数据进行解析,得到所述源业务数据包含的有效字段;
具体的,网页格式类型的源业务数据为结构化的数据,即按照一定结构排列的、用来描述网页内容的数据,例如,JSON格式的源业务数据中可能包含了很多″名称/值″对和数组,服务器可以对其进行解析,得到源业务数据包含的多个字段(即上述提到的″名称/值″对中的″名称″)以及这些字段对应的值,进而可以基于标准标签集合,在多个字段中确定有效字段。其中,有效字段可以表示源业务数据的基本属性,例如图4所示的教育领域的试卷数据,经过解析后可以得到″title″(标题)、″analysis″(分析)等有效字段。定义有效字段,可对源业务数据中的一些无关信息进行滤除,以减少后续步骤的计算量。
步骤S204,根据所述有效字段,在所述清洗后的源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
具体的,服务器可以根据有效字段在数据库中的标准标签集合中进行字段匹配,进而可以根据与标准标签集合相匹配的有效字段,获取字段标注信息。例如,可以根据试卷数据中的有效字段″title″构建拉取逻辑,通过该拉取逻辑,可以在标准标签集合中拉取出标准标签″source″,则可以将标准标签″source″以及有效字段″title″对应的值进行拼装,即″【source】2014年初中毕业升学考试(江苏南京卷)语文″,确定为该试卷数据的字段标注信息。
服务器可以进一步判断上述字段标注信息中是否存在标识字段,若存在标识字段,则可以根据数据库中的标识映射关系表,对标识字段进行标识映射,得到标识字段对应的映射值。其中,标识字段用于表示源业务数据的标识信息,如年级、学段、章节、题型等,标识映射关系表可以包括标识字段以及标识字段对应的映射值,且标识映射关系表可以预先进行定义并存放在数据库中。例如,当题型字段标注信息包含″解答题″字符串时,可以使用″解答题″字符串在标识映射关系表中进行查找,进而可以得到″解答题″对应的题型id(Identity document,身份标识号),也可称为题型映射值。最终,服务器可以将上述字段标注信息以及标识字段对应的映射值,确定为源业务数据对应的标注信息。抽取标注信息的部分逻辑代码如下:
def parse_resource_info(result):
#抽取学段信息
period=result.get(″period″,″″)
study_period_name=_cp_period_mappings.get(period,″″)
study_period_id=_study_period_info_mappings.get(study_period_name,0)
#抽取年份信息
year=result.get(″year″,0)
year=int(year)
上述逻辑代码中,抽取学段信息时,可以先从源业务数据result中获取有效字段period,根据有效字段period可以匹配到标准标签集合中的标准标签study_period_name,进而将有效字段period对应的标识字段进行标识映射,得到对应的映射值study_period_id。抽取其他标注信息的逻辑代码与抽取学段信息的逻辑代码类似。
其中,将标识字段映射为对应的映射值,可用于后续将源业务数据存储至数据库时,与标准标签集合建立关联关系。可以理解,有效字段和标识字段可以根据实际应用需要进行定义,本发明实施例在此不做限定。
步骤S205,获取所述清洗后的源业务数据中具有目标媒体类型的多媒体子数据;
具体的,源业务数据中可能会包含多种多媒体子数据,如图片、表格、音频、视频等,服务器可以对这些多媒体子数据的类型进行识别,当识别到的类型为目标媒体类型时,服务器可以获取具有目标类型的多媒体子数据。在本发明实施例中,目标媒体类型可以包括图片类型、表格类型、公式类型、音视频类型。
步骤S206,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
具体的,当目标媒体类型为图片类型,且多媒体子数据为图片类型的网页描述数据时,服务器可以对上述网页描述数据进行格式标准化处理。例如,多媒体子数据可以为图片类型的HTML数据(对应上述网页描述数据),服务器可以从上述HTML数据中提取出图片的HTML标签以及图片资源地址,然后可以根据标准媒体资源协议,将图片的HTML标签转换成自定义的图片占位符,如$[img:0],并在标准媒体资源协议中定义图片数组,用于存储图片资源地址,即可得到标准图片数据,服务器可以进一步对HTML数据中的无效标签以及无效资源地址进行滤除,具体的滤除过程可以参考上述步骤S202,进而可以将滤除后的且包含标准图片数据的网页描述数据,确定为更新后的源业务数据。
可选的,当目标媒体类型为表格类型,且多媒体子数据为表格类型的网页描述数据时,服务器可以对上述网页描述数据进行格式标准化处理。例如,多媒体子数据可以为表格类型的HTML数据(对应上述网页描述数据),服务器可以从上述HTML数据中提取出表格的HTML标签以及表格内容,然后可以根据标准媒体资源协议,将表格的HTML标签转换成自定义的表格占位符,如[table:0],并在标准媒体资源协议中定义表格数组,将表格内容存储至表格数组中,再用JSON序列化,即可得到标准表格数据,其中,序列化是指将对象状态转换为可保持或传输的格式的过程。服务器可以进一步对HTML数据中的无效标签进行滤除,具体的滤除过程可以参考上述步骤S202,进而可以将滤除后的且包含标准表格数据的网页描述数据,确定为更新后的源业务数据。
可选的,当目标媒体类型为公式类型时,尤其当公式是使用位于行内的图片表示时,难以和文字界面相统一,也不易于编辑和标引,故而需要对公式进行格式标准化处理。服务器可以先识别多媒体子数据的公式格式,若公式格式为通用图片格式,例如png(Portable Network Graphics,便携式网络图形)、jpeg(Joint Photographic ExpertGroup,联合照片专家组)等,则服务器可以调用公式识别接口,输入公式识别接口需要的参数,可以将具有公式格式的多媒体子数据转换为标准文本数据,得到更新后的源业务数据;若公式格式为图元文件格式,具体可以是Word文档中常用的wmf(Wireless MulticastForwarding,无线组播转发)格式,是微软公司定义的一种Windows平台下的图形文件格式,则服务器可以先将具有公式格式的多媒体子数据转换为通用图片格式数据,进而调用公式识别接口,将具有通用图片格式的多媒体子数据转换为标准文本数据,得到更新后的源业务数据。其中,上述标准文本数据具体可以是Latex文本数据。
可选的,当目标媒体类型为音视频类型时,服务器可以获取多媒体子数据对应的音视频编码格式,若检测到上述音视频编码格式不属于标准音视频编码格式,服务器可以将多媒体子数据转换成标准音视频数据,得到更新后的源业务数据。其中,音视频类型包括音频类型和视频类型,标准音频编码格式可以为AAC(Advanced Audio Coding,高级音频编码),标准视频编码格式可以为H.264,H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组(JVT,joint video team)开发的一个数字视频编码标准。例如,若网页只支持播放H.264和AAC编码格式的mp4视频,则服务器可以将其他编码格式的mp4视频转换成H.264和AAC编码格式的mp4视频,由此可以提升音视频数据的通用性。
步骤S207,根据标准数据协议,将所述更新后的源业务数据与所述标注信息进行拼装,生成标准化数据;
具体的,服务器可以将更新后的源业务数据和抽取出来的标注信息,根据预先定义好的标准数据协议进行拼装,生成标准化数据,具体的,可以是标准的格式化JSON协议数据,具有简洁清晰的层次结构。其中,不同的数据类型,如教育领域的题目、资源、作文等,都可以定义不同的标准数据协议。
例如,针对题目的标准数据协议可以参考下面的形式:
Figure BDA0002716069210000151
Figure BDA0002716069210000162
针对资源的标准数据协议可以参考下面的形式:
Figure BDA0002716069210000161
Figure BDA0002716069210000172
由上可知,标准化数据中可以包括一系列″名称/值″对,例如″CPName″:″万向″就是一个″名称/值″对,其中,″名称″可以理解为属性名称,可以对应标准标签集合中的标准标签,如上述的QuestionCategoryName、BookVersionName、QuestionID等,″值″可以对应于在源业务数据中进行抽取生成的标注信息,如″单选题″、″人教版″、″119001″等。由此可知,采用标准数据协议生成的标准化数据,可以用于表征源业务数据的基本属性。
步骤S208,将所述标准化数据存储至数据库,并将所述标准化数据与数据库中的标准标签集合建立关联关系。
具体的,数据库可以是关系型数据库,如MySQL数据库。关系型数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。MySQL是一个关系型数据库管理系统,具有体积小、速度快、成本低、开放源码等特点。服务器可以将标准化数据存储到MySQL数据库中,并根据上述步骤S204得到的标识字段对应的映射值,将标准化数据与MySQL数据库中已经建立好的标准标签集合进行关联,因此MySQL数据库可以存放如题目、资源、作文等数据的基本属性及关联关系。
例如,可以参见下面对某套标准化试题数据存储至数据库后的结构:
db_college.t_question_id_mapping
Figure BDA0002716069210000171
Figure BDA0002716069210000181
db_college.t_question
question_id level_id cp_id course_id category_id study_period_id
2775976 2 1 4 36 1
db_college.t_question_stem
Figure BDA0002716069210000182
从上面的结构可以看出,二维表格中存放着从试题中抽取出的标注信息(可以包括试题中原有的内容和映射值),例如question_id、course_id、stem_text等,且表格和表格之间也存在关联关系。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,进而可以将更新后的源业务数据和标注信息关联存储至数据库,使得不同的业务系统之间可以顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率。
请参见图5,是本发明实施例提供的另一种数据处理方法的流程示意图。该方法可以包括以下步骤:
步骤S301,获取源业务数据,并获取所述源业务数据的数据格式类型;
具体的,服务器可以获取源业务数据,进而可以识别源业务数据的数据格式类型,当识别到数据格式类型为文件格式类型时,可以执行后续步骤S302-步骤S307。
步骤S302,获取所述源业务数据的文件名;
具体的,服务器可以获取文件格式类型的源业务数据对应的文件名,例如图5所示的试卷,可以得到该试卷的文件名″2006年广东省深圳市实验学校直升考试数学试卷″。
步骤S303,在所述文件名中进行标注信息抽取,得到所述源业务数据对应的标注信息;
具体的,当文件名符合命名格式规则时,也即该文件名的命名格式符合正则表达式的过滤逻辑,服务器可以基于正则表达式,从文件名中抽取出源业务数据对应的标注信息。例如,文件名为″/初中-九年级-上学期-数学-华东师大版/xxx.pptx″的文件,服务器可以通过如下逻辑代码片段进行抽取:
def search_by_regex(content):
results=[]
#content:″/初中-九年级-上学期-数学-华东师大版/xxx.pptx″
regex=ur″([\u4e00-\u9fa5]+)-([\u4e00-\u9fa5]+)-([\u4e00-\u9fa5]+)-([\u4e00-\u9fa5]+)-([\u4e00-\u9fa5]+)″
return results
上述逻辑代码中,regex即为针对该文件名的正则表达式,[\u4e00-\u9fa5]可以匹配中文字符串,通过正则表达式,服务器可以抽取出【学段】初中、【年级】九年级、【科目】数学、【教材版本】华东师大版,作为该文件的标注信息。可以理解,正则表达式可以根据不同的文件名进行构建。
又例如,文件名为″2006年广东省深圳市实验学校直升考试数学试卷″,服务器可以抽取出【年份】2006,具体可参见下面的逻辑代码片段:
def_get_year_(text,PATTERN_YEAR=″20\\d+年|20\\d+届|19\\d+年|19\\d+届|19\\d+学年|20\\d+学年|\\d+[-]+\\d+学年|\\d+-\\d+届|\\d+-\\d+年|^20\\d{2}|^19\\d{2}″):
yy=re.findall(PATTERN_YEAR,text)
year=...
return year
上述逻辑代码可以理解为通过表达式PATTERN_YEAR在文件名text中查找,得到年份year。
可选的,当文件名不符合命名格式规则,即文件名的命名格式不符合上述正则表达式的过滤逻辑,但文件名中同样包含了标注信息时,服务器可以通过模糊匹配进行抽取。具体的,服务器可以遍历数据库中标准标签集合内的标准标签,进而将文件名中与标准标签的值相匹配的数据,确定为源业务数据对应的标注信息。例如,文件名为″人教版2019学年小学语文一年级上册7《青蛙写诗》教学实录″的文件,可以通过下面的逻辑代码进行抽取:
Figure BDA0002716069210000201
通过上述代码,服务器可以抽取出【学段】小学,类似的,还可以抽取出【年级】一年级,【科目】语文,【教材版本】人教版。
可选的,一些文件中可能还会包含有地区机构信息,例如试卷、真题等数据中包含的地区、学校等信息,服务器可以使用算法模型抽取其中的地区、学校信息。具体的,算法模型可以是基于LTP(Language Technology Platform,语言技术平台,一个开源中文自然语言工具)的算法模型,服务器可以先对文件名进行分词处理,得到N个分词,进而对N个分词进行词性标注,得到N个分词对应的词性,进一步可以基于词性,对N个分词进行命名实体识别,得到N个分词分别对应的实体类型,进而可以将实体类型为地理机构实体类型的分词,确定为源业务数据对应的标注信息。其中,N为大于或等于1的正整数。地理机构实体类型可以包括地区实体类型和机构实体类型,LTP中的命名实体识别模块可以识别下表中的三种实体类型:
标记 含义
Nh 人名
Ni 机构名
Ns 地名
由上表可知,Ns可对应于地区实体类型,Ni可对应于机构实体类型。
例如,对文件名为″2006年广东省深圳市实验学校直升考试数学试卷″的文件抽取地区和学校信息,使用LTP算法模型的部分逻辑代码如下:
#调用分词接口
words=segmentor.segment(′2006年广东省深圳市实验学校直升考试数学试卷′)
#调用词性标注接口
postags=postagger.postag(words)
#调用命名实体识别接口
netags=recognizer.recognize(words,postags)
######################################
#分词结果
2006年,广东省,深圳市,实验,学校,直升,考试,数学,试卷
#词性标注结果
nt,ns,ns,v,n,v,v,n,n
#命名实体识别结果
O,B-Ns,I-Ns,I-Ni,E-Ni,O,O,O,O
对照上表,服务器可以识别到″广东省″、″深圳市″属于【地区】信息,″实验″、″学校″属于【学校】信息,对应的逻辑代码片段如下:
Figure BDA0002716069210000211
可选的,服务器还可以获取具有文件格式类型的源业务数据中的文件目录,进而采用与上述对文件名进行抽取的方法,可得到更多的标注信息。可选的,当源业务数据中包含有预标注数据时,例如用户标注过的文档数据,服务器可以将预标注数据抽取成标注信息,请一并参见图6,是本发明实施例提供的一种预标注数据的场景示意图,如图6所示,该预标注数据用文本做了一些标注,并对位于虚线框w1-虚线框w16中的文本进行了突出显示,服务器可以同样采用正则匹配等文本匹配规则,从中抽取出【题目类型】选择题,【难度】较易,【教材版本】人教版,【年份】2020,【地区】平定县等标注信息。
可以理解,与上述图4所对应实施例中的步骤S204类似,服务器可以判断从文件名抽取到的标注信息中是否存在标识字段,若存在标识字段,则可以根据数据库中的标识映射关系表,对标识字段进行标识映射,得到标识字段对应的映射值,进而可以将映射值也作为标注信息。
步骤S304,获取所述源业务数据中具有目标媒体类型的多媒体子数据;
具体的,目标媒体类型可以包括公式类型、音视频类型,具体的步骤可以参见图4所对应实施例中的步骤S205,在此不再赘述。
步骤S305,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
具体的,可以参见图4所对应实施例中的步骤S206,在此不再赘述。
步骤S306,根据标准数据协议,将所述更新后的源业务数据与所述标注信息进行拼装,生成标准化数据;
具体的,可以参见图4所对应实施例中的步骤S207,在此不再赘述。
步骤S307,将所述标准化数据存储至数据库,并将所述标准化数据与数据库中的标准标签集合建立关联关系。
具体的,可以参见图4所对应实施例中的步骤S208,在此不再赘述。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,进而可以将更新后的源业务数据和标注信息关联存储至数据库,且通过将更新后的源业务数据和标注信息进行关联存储,使得不同的业务系统之间可以顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率。
请参见图7,是本发明实施例提供的又一种数据处理方法的流程示意图。如图7所示,针对教育领域的源业务数据,服务器可以获取源业务数据的数据格式类型,从API接口(也可称为应用程序接口)拉取的数据包含了一些无法直接进行展示和算法训练的数据,例如HTML格式的数据,服务器可以先对这类数据进行文本清洗,具体过程可以参见图4所对应实施例中的步骤S202,进而可以从清洗后的源业务数据中抽取出标签信息(也可以称为标注信息);对于标注数据(即预标注数据),通常是标注过的Word文档数据,服务器可以将Word文档数据转换成JSON数据,进而可以从转换后的JSON数据中抽取出标签信息;对于教研资料等文件数据,服务器可以读取文件信息,例如文件名、文件目录等,进而在文件信息中抽取出标签信息,具体过程可参见图5所对应实施例中的步骤S303。在抽取过程中,需要从预先存储在关系型数据库,具体可以是MDB数据库(MDB是Microsoft Access使用的数据库格式)中的标准标签集合中读取标准标签数据,用于与源业务数据中的字段进行匹配,生成标签信息,服务器可以进一步将数据格式化,即将源业务数据和标签信息按照标准数据协议进行拼装,生成标准数据(也可称为标准化数据),具体过程可参见图4所对应实施例中的步骤S207。
根据不同类型的标准数据,服务器还可以选用不同类型的数据库进行存储,例如,针对图片、音视频、课件、文档等文件资源,服务器可以将其存放在对象存储,方便后续的防盗链等处理,且服务器可以通过标准数据中存放的资源地址(如文件URL)快速访问对象存储,获得相应的资源。服务器还可以将标准数据存入MDB数据库,同时也可以将标准数据与MDB数据库中的标准标签数据进行关联,针对搜索场景,可以将标准数据同步到搜索服务器Elasticsearch中,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,它能很方便地使大量数据具有搜索、分析和探索的能力,Elasticsearch用于云计算中,能够达到实时搜索,且稳定、可靠、快速,安装使用方便。进一步,还可以进行知识点融合,将知识点、章节之间的关系存放在图数据库(Graph Database)中,具体可以是Neo4j数据库,Neo4j数据库是一个高性能的NOSQL图形数据库,可便于后续构建知识网络使用。其中,图数据库是一种以图结构进行语义查询,并使用顶点、边与属性来表示和存储数据的非关系型数据库,可以进行快速的图检索操作。通过上述的入库流程,可以实现将大量资源快速入库。
可以理解,上述方法还适用于其他领域同样需要进行标注信息抽取和格式标准化处理的源业务数据。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,进而可以批量地将源业务数据和标注信息快速落地存储,且可以最小化人工成本,提高数据标注的效率。
请参见图8,是本发明实施例提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置1可以应用于上述图2所对应实施例中的服务器100,该数据处理装置1可以包括:获取模块11、抽取模块12、标准化模块13、存储模块14;
获取模块11,用于获取源业务数据,并获取所述源业务数据的数据格式类型;
抽取模块12,用于根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
标准化模块13,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
存储模块14,用于将所述更新后的源业务数据和所述标注信息关联存储至数据库。
其中,获取模块11的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,或者可以参见上述图4所对应实施例中的步骤S201,或者可以参见上述图5所对应实施例中的步骤S301,抽取模块12的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,或者可以参见上述图4所对应实施例中的步骤S203-步骤S204,标准化模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,或者可以参见上述图4所对应实施例中的步骤S205-步骤S206,存储模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,或者可以参见上述图4所对应实施例中的步骤S207-步骤S208这里不再进行赘述。
请一并参见图8,抽取模块12可以包括:解析单元121、网页抽取单元122;
解析单元121,用于若所述数据格式类型为网页格式类型,则对所述源业务数据进行解析,得到所述源业务数据包含的有效字段;
网页抽取单元122,用于根据所述有效字段在数据库中的标准标签集合中进行字段匹配;根据与所述标准标签集合相匹配的有效字段,获取字段标注信息;若所述字段标注信息中存在标识字段,则根据所述数据库中的标识映射关系表,对所述字段标注信息中的所述标识字段进行标识映射,得到所述标识字段对应的映射值;将所述字段标注信息和所述标识字段对应的映射值,确定为所述源业务数据对应的标注信息。
其中,解析单元121的具体功能实现方式可以参见上述图4所对应实施例中的步骤S203,网页抽取单元122的具体功能实现方式可以参见上述图4所对应实施例中的步骤S204,这里不再进行赘述。
请一并参见图8,抽取模块12可以包括:文件名获取单元123、第一文件抽取单元124;
文件名获取单元123,用于若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名;
第一文件抽取单元124,用于若所述文件名的命名格式符合正则表达式的过滤逻辑,则基于所述正则表达式,从所述文件名中抽取出所述源业务数据对应的标注信息;若所述文件名的命名格式不符合正则表达式的过滤逻辑,则遍历数据库中标准标签集合内的标准标签,将所述文件名中与所述标准标签的值相匹配的数据,确定为所述源业务数据对应的标注信息。
其中,文件名获取单元123的具体功能实现方式可以参见上述图5所对应实施例中的步骤S302,第一文件抽取单元124的具体功能实现方式可以参见上述图5所对应实施例中的步骤S303,这里不再进行赘述。
请一并参见图8,抽取模块12可以包括:文件名获取单元125、第二文件抽取单元126;
文件名获取单元125,用于若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名
第二文件抽取单元126,用于对所述文件名进行分词处理,得到N个分词;N为大于或等于1的正整数;对所述N个分词进行词性标注,得到所述N个分词对应的词性;基于所述词性,对所述N个分词进行命名实体识别,得到所述N个分词分别对应的实体类型,将所述实体类型为地理机构实体类型的分词,确定为所述源业务数据对应的标注信息。
其中,文件名获取单元125的具体功能实现方式可以参见上述图5所对应实施例中的步骤S302,第二文件抽取单元126的具体功能实现方式可以参见上述图5所对应实施例中的步骤S303,这里不再进行赘述。其中,文件名获取单元123和文件名获取单元125的功能相同,可以合并为一个文件名获取单元;第一文件抽取单元124,第二文件抽取单元126可以合并为一个文件抽取单元。
请一并参见图8,标准化模块13可以包括:子数据获取单元131、图片处理单元132、表格处理单元133;
子数据获取单元131,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
图片处理单元132,用于若所述目标媒体类型为图片类型,且所述多媒体子数据为所述图片类型的网页描述数据,则从所述网页描述数据中提取出图片标签和图片资源地址,根据标准媒体资源协议,将所述图片标签和所述图片资源地址转换为标准图片数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准图片数据的网页描述数据,确定为更新后的源业务数据;
表格处理单元133,用于若所述目标媒体类型为表格类型,且所述多媒体子数据为所述表格类型的网页描述数据,则从所述网页描述数据中提取出表格标签和表格内容,根据标准媒体资源协议,将所述表格标签和所述表格内容转换为标准表格数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准表格数据的网页描述数据,确定为更新后的源业务数据。
其中,子数据获取单元131的具体功能实现方式可以参见上述图4所对应实施例中的步骤S205,图片处理单元132的具体功能实现方式可以参见上述图4所对应实施例中的步骤S206,表格处理单元133的具体功能实现方式可以参见上述图4所对应实施例中的步骤S206,这里不再进行赘述。
请一并参见图8,标准化模块13可以包括:子数据获取单元134、公式处理单元135;
子数据获取单元134,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
公式处理单元135,用于若所述目标媒体类型为公式类型,则识别所述多媒体子数据的公式格式;若所述公式格式为通用图片格式,则调用公式识别接口,将所述多媒体子数据转换为标准文本数据,得到更新后的源业务数据;若所述公式格式为图元文件格式,则将所述多媒体子数据转换为通用图片格式数据,调用公式识别接口,将具有通用图片格式的多媒体子数据转换为标准文本数据,得到更新后的源业务数据。
其中,子数据获取单元134的具体功能实现方式可以参见上述图4所对应实施例中的步骤S205,公式处理单元135的具体功能实现方式可以参见上述图4所对应实施例中的步骤S206,这里不再进行赘述。
请一并参见图8,标准化模块13可以包括:子数据获取单元136、音视频处理单元137;
子数据获取单元136,用于获取所述源业务数据中具有目标媒体类型的多媒体子数据;
音视频处理单元137,用于若所述目标媒体类型为音视频类型,则获取所述多媒体子数据对应的音视频编码格式;若所述音视频编码格式不属于标准音视频编码格式,则将所述多媒体子数据转换成标准音视频数据,得到更新后的源业务数据。
其中,子数据获取单元136的具体功能实现方式可以参见上述图4所对应实施例中的步骤S205,音视频处理单元137的具体功能实现方式可以参见上述图4所对应实施例中的步骤S206,这里不再进行赘述。其中,子数据获取单元131、子数据获取单元134、子数据获取单元136的功能相同,可以合并为一个子数据获取单元。
请一并参见图8,存储模块14可以包括:标准化数据生成单元141、存储关联单元142;
标准化数据生成单元141,用于根据标准数据协议,将所述更新后的源业务数据与所述标注信息进行拼装,生成标准化数据;
存储关联单元142,用于将所述标准化数据存储至数据库,并将所述标准化数据与数据库中的标准标签集合建立关联关系。
其中,标准化数据生成单元141的具体功能实现方式可以参见上述图4所对应实施例中的步骤S207,存储关联单元142的具体功能实现方式可以参见上述图4所对应实施例中的步骤S208,这里不再进行赘述。
本发明实施例可以通过获取源业务数据,并识别源业务数据的数据格式类型,进而可以根据上述数据格式类型,采用相应的方法在源业务数据中进行标注信息抽取,得到对应的标注信息,并可以对多种类型的多媒体子数据进行格式标准化处理,得到更新后的源业务数据,进而可以将更新后的源业务数据和标注信息关联存储至数据库,使得不同的业务系统之间可以顺利进行交互和共享同一份数据,提升了数据的兼容性,由于可以自动化的实现标注信息的提取和数据的存储,从而可以最小化人工成本,提高数据标注的效率。
请参见图9,是本发明实施例提供的另一种数据处理装置的结构示意图。如图9所示,该数据处理装置1000可以对应于上述图2所对应实施例中的服务器100,该数据处理装置1000可以包括:处理器1001,网络接口1003和存储器1004,此外,上述数据处理装置1000还可以包括:至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1004中可以包括操作系统、网络通信模块。
在如图9所示的数据处理装置1000中,网络接口1003可提供网络通讯功能,以实现上述图3、图4、图5任一个所对应实施例中对所述数据处理方法的描述,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
应当理解,本发明实施例中所描述的数据处理装置1000可执行前文图3、图4、图5任一个所对应实施例中对所述数据处理方法的描述,也可执行前文图8所对应实施例中对所述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3、图4、图5任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory,ROM)或随机存储存储器(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取源业务数据,并获取所述源业务数据的数据格式类型;
根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息;
获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据;
将所述更新后的源业务数据和所述标注信息关联存储至数据库。
2.根据权利要求1述的方法,其特征在于,所述根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息,包括:
若所述数据格式类型为网页格式类型,则对所述源业务数据进行解析,得到所述源业务数据包含的有效字段;
根据所述有效字段在数据库中的标准标签集合中进行字段匹配;
根据与所述标准标签集合相匹配的有效字段,获取字段标注信息;
若所述字段标注信息中存在标识字段,则根据所述数据库中的标识映射关系表,对所述字段标注信息中的所述标识字段进行标识映射,得到所述标识字段对应的映射值;
将所述字段标注信息和所述标识字段对应的映射值,确定为所述源业务数据对应的标注信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息,包括:
若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名;
若所述文件名的命名格式符合正则表达式的过滤逻辑,则基于所述正则表达式,从所述文件名中抽取出所述源业务数据对应的标注信息;
若所述文件名的命名格式不符合正则表达式的过滤逻辑,则遍历数据库中标准标签集合内的标准标签,将所述文件名中与所述标准标签的值相匹配的数据,确定为所述源业务数据对应的标注信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述数据格式类型,在所述源业务数据中进行标注信息抽取,得到所述源业务数据对应的标注信息,包括:
若所述数据格式类型为文件格式类型,则获取所述源业务数据的文件名;
对所述文件名进行分词处理,得到N个分词;N为大于或等于1的正整数;
对所述N个分词进行词性标注,得到所述N个分词对应的词性;
基于所述词性,对所述N个分词进行命名实体识别,得到所述N个分词分别对应的实体类型,将所述实体类型为地理机构实体类型的分词,确定为所述源业务数据对应的标注信息。
5.根据权利要求1所述的方法,其特征在于,所述获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据,包括:
获取所述源业务数据中具有目标媒体类型的多媒体子数据;
若所述目标媒体类型为图片类型,且所述多媒体子数据为所述图片类型的网页描述数据,则从所述网页描述数据中提取出图片标签和图片资源地址,根据标准媒体资源协议,将所述图片标签和所述图片资源地址转换为标准图片数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准图片数据的网页描述数据,确定为更新后的源业务数据;
若所述目标媒体类型为表格类型,且所述多媒体子数据为所述表格类型的网页描述数据,则从所述网页描述数据中提取出表格标签和表格内容,根据标准媒体资源协议,将所述表格标签和所述表格内容转换为标准表格数据,对所述网页描述数据中的无效标签进行滤除,将滤除后的且包含所述标准表格数据的网页描述数据,确定为更新后的源业务数据。
6.根据权利要求1所述的方法,其特征在于,所述获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据,包括:
获取所述源业务数据中具有目标媒体类型的多媒体子数据;
若所述目标媒体类型为公式类型,则识别所述多媒体子数据的公式格式;
若所述公式格式为通用图片格式,则调用公式识别接口,将所述多媒体子数据转换为标准文本数据,得到更新后的源业务数据;
若所述公式格式为图元文件格式,则将所述多媒体子数据转换为通用图片格式数据,调用公式识别接口,将具有通用图片格式的多媒体子数据转换为标准文本数据,得到更新后的源业务数据。
7.根据权利要求1所述的方法,其特征在于,所述获取所述源业务数据中具有目标媒体类型的多媒体子数据,对所述多媒体子数据进行格式标准化处理,得到更新后的源业务数据,包括:
获取所述源业务数据中具有目标媒体类型的多媒体子数据;
若所述目标媒体类型为音视频类型,则获取所述多媒体子数据对应的音视频编码格式;
若所述音视频编码格式不属于标准音视频编码格式,则将所述多媒体子数据转换成标准音视频数据,得到更新后的源业务数据。
8.根据权利要求2或3所述的方法,其特征在于,所述将所述更新后的源业务数据和所述标注信息关联存储至数据库,包括:
根据标准数据协议,将所述更新后的源业务数据与所述标注信息进行拼装,生成标准化数据;
将所述标准化数据存储至数据库,并将所述标准化数据与数据库中的标准标签集合建立关联关系。
9.一种数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-8任一项所述的方法。
CN202011073815.4A 2020-10-09 2020-10-09 一种数据处理方法、装置以及可读存储介质 Pending CN112052414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011073815.4A CN112052414A (zh) 2020-10-09 2020-10-09 一种数据处理方法、装置以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011073815.4A CN112052414A (zh) 2020-10-09 2020-10-09 一种数据处理方法、装置以及可读存储介质

Publications (1)

Publication Number Publication Date
CN112052414A true CN112052414A (zh) 2020-12-08

Family

ID=73605916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011073815.4A Pending CN112052414A (zh) 2020-10-09 2020-10-09 一种数据处理方法、装置以及可读存储介质

Country Status (1)

Country Link
CN (1) CN112052414A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650964A (zh) * 2020-12-28 2021-04-13 上海掌门科技有限公司 一种业务处理方法、设备及机器可读存储介质
CN112835904A (zh) * 2021-02-04 2021-05-25 北京电解智科技有限公司 一种数据处理方法和数据处理装置
CN112926290A (zh) * 2021-03-09 2021-06-08 上海万向区块链股份公司 生成展示接口文档的系统、方法及介质
CN113609354A (zh) * 2021-08-11 2021-11-05 塬数科技(无锡)有限公司 一种动态配置数据采集协议的方法和装置
WO2022127259A1 (zh) * 2020-12-16 2022-06-23 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN117668090A (zh) * 2024-02-01 2024-03-08 安徽容知日新科技股份有限公司 数据交换方法、装置、电子设备和计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022127259A1 (zh) * 2020-12-16 2022-06-23 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN112650964A (zh) * 2020-12-28 2021-04-13 上海掌门科技有限公司 一种业务处理方法、设备及机器可读存储介质
CN112835904A (zh) * 2021-02-04 2021-05-25 北京电解智科技有限公司 一种数据处理方法和数据处理装置
CN112926290A (zh) * 2021-03-09 2021-06-08 上海万向区块链股份公司 生成展示接口文档的系统、方法及介质
CN112926290B (zh) * 2021-03-09 2023-04-07 上海万向区块链股份公司 生成展示接口文档的系统、方法及介质
CN113609354A (zh) * 2021-08-11 2021-11-05 塬数科技(无锡)有限公司 一种动态配置数据采集协议的方法和装置
CN115098706A (zh) * 2022-08-25 2022-09-23 中电太极(集团)有限公司 一种网络信息提取方法及装置
CN117668090A (zh) * 2024-02-01 2024-03-08 安徽容知日新科技股份有限公司 数据交换方法、装置、电子设备和计算机可读存储介质
CN117668090B (zh) * 2024-02-01 2024-06-04 安徽容知日新科技股份有限公司 数据交换方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112052414A (zh) 一种数据处理方法、装置以及可读存储介质
US10423649B2 (en) Natural question generation from query data using natural language processing system
CA2610208C (en) Learning facts from semi-structured text
US11093520B2 (en) Information extraction method and system
CN109493265A (zh) 一种基于深度学习的政策解读方法及政策解读系统
CN102779114B (zh) 利用自动规则生成的非结构化数据支持
CN106354861A (zh) 电影标签自动标引方法及自动标引系统
US10659398B2 (en) Interactive virtual conversation interface systems and methods
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US20090094189A1 (en) Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content
US7606797B2 (en) Reverse value attribute extraction
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
CN104881428B (zh) 一种信息图网页的信息图提取、检索方法和装置
CN116628328A (zh) 一种基于功能语义和结构交互的Web API推荐方法及装置
CN117421413A (zh) 一种问答对生成方法、装置及电子设备
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
JP2018500696A5 (zh)
US20180293508A1 (en) Training question dataset generation from query data
Kapitan Perspectives on digital catalogs and textual networks of old norse literature
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN112818212A (zh) 语料数据采集方法、装置、计算机设备和存储介质
Li et al. Research on knowledge organization and visualization of historical events in the Republic of China era

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination