CN113760962A - 单领域至跨领域数据集数据处理方法及装置 - Google Patents

单领域至跨领域数据集数据处理方法及装置 Download PDF

Info

Publication number
CN113760962A
CN113760962A CN202111019785.3A CN202111019785A CN113760962A CN 113760962 A CN113760962 A CN 113760962A CN 202111019785 A CN202111019785 A CN 202111019785A CN 113760962 A CN113760962 A CN 113760962A
Authority
CN
China
Prior art keywords
data set
domain
cross
database
domain data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111019785.3A
Other languages
English (en)
Other versions
CN113760962B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER
Original Assignee
PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER filed Critical PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER
Priority to CN202111019785.3A priority Critical patent/CN113760962B/zh
Publication of CN113760962A publication Critical patent/CN113760962A/zh
Application granted granted Critical
Publication of CN113760962B publication Critical patent/CN113760962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种单领域至跨领域数据集数据处理方法及装置,方法包括:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集;本申请能够高效、准确得进行单领域数据集转换为跨领域数据集。

Description

单领域至跨领域数据集数据处理方法及装置
技术领域
本申请涉及数据处理领域,具体涉及一种单领域至跨领域数据集数据处理方法及装置。
背景技术
自然语言处理是人工智能领域中的一颗明珠。其中,NL2SQL是自然语言处理的具体任务。为了将自然语言转换成结构化查询语言,一方面可以对自然语言进行编码,进而提升NL2SQL的准确率。目前,比较主流的编码模型是由Devlin等人于2018年推出的BERT。BERT旨在通过对上下文进行条件预处理,从未标记的文本中预训练深层双向表示。结果表明,仅需一个额外的输出层就可以对经过预训练的BERT模型进行微调,以创建适用于各种任务(例如问题解答和语言推理)的最新模型,而无需进行大量特定任务架构修改。
2019年,Liu等人通过融合知识图谱(Knowledge Graph),开发出了新的编码模型K-BERT。该模型将三元组作为领域知识注入到句子中。但是,过多的知识整合可能会转移句子的正确含义,称为知识噪音问题。为了减少知识噪音,K-BERT引入了软位置和可见矩阵来限制知识的影响。K-BERT可以通过配备知识图谱轻松地将领域知识注入模型中,而无需自行进行预训练,从而能够从预训练的BERT中加载模型参数。
数据增强能有效提高NL2SQL的命中率。2020年,Yu等人提出GRAPPA模型,给定新表或数据库,GRAPPA可以同时生成伪自然问题和相应的SQL查询。它首先对生成规则进行采样,然后将树形结构中的非终端节点替换为相应的终端节点之一。例如,对于SQL查询和自然语言语句,它可以将非终端AGG分别映射为MAX和“maximum”。
发明人发现,虽然GRAPPA模型能够生成大量的自然问题和相应的SQL查询,但生成的数据并不是Spider数据集格式,自然问题和SQL查询数据区别于Spider训练集(TrainSet)中的数据。
Shi等人提出GAP模型,包含两个不同的子模型,即SQL-to-Text生成模型和Table-to-Text生成模型,用于处理两个不同的输入。具体来说,SQL到文本的生成模型将SQL作为输入并生成说明查询意图的话语。另一个模型是表到文本生成模型,它基于一组采样的列名和表中的单元格值来生成语句。这样,该模型可以生成与表相关的话语,而无需编写不相关的自然语句。
发明人发现,GAP模型生成的数据同样不是Spider数据集格式且生成的数据是为了预训练BERT之类的编码模型。在效用上,GAP模型生成的数据不同于Spider训练集中的数据。
发明内容
针对现有技术中的问题,本申请提供一种单领域至跨领域数据集数据处理方法及装置,能够高效、准确得进行单领域数据集转换为跨领域数据集。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种单领域至跨领域数据集数据处理方法,包括:
根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;
根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
进一步地,所述根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,包括:
根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
进一步地,所述生成与跨领域数据集对应的数据库操作语句,包括:
根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
进一步地,所述根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集,包括:
根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库;
根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
第二方面,本申请提供一种单领域至跨领域数据集数据处理装置,包括:
字符清理和SQL生成模块,用于根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;
数据格式转换模块,用于根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
进一步地,所述字符清理和SQL生成模块包括:
字符清理单元,用于根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
进一步地,所述字符清理和SQL生成模块包括:
SQL生成单元,用于根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
进一步地,所述数据格式转换模块包括:
数据库构建单元,用于根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库;
数据导入单元,用于根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的单领域至跨领域数据集数据处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的单领域至跨领域数据集数据处理方法的步骤。
由上述技术方案可知,本申请提供一种单领域至跨领域数据集数据处理方法及装置,通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的单领域至跨领域数据集数据处理方法的流程示意图之一;
图2为本申请实施例中的单领域至跨领域数据集数据处理方法的流程示意图之二;
图3为本申请实施例中的单领域至跨领域数据集数据处理装置的结构图之一;
图4为本申请实施例中的单领域至跨领域数据集数据处理装置的结构图之二;
图5为本申请实施例中的单领域至跨领域数据集数据处理装置的结构图之三;
图6为本申请实施例中的单领域至跨领域数据集数据处理装置的结构图之四;
图7为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中难以准确高效将单领域数据集转换为跨领域数据集的问题,本申请提供一种单领域至跨领域数据集数据处理方法及装置,通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
为了能够高效、准确得进行单领域数据集转换为跨领域数据集,本申请提供一种单领域至跨领域数据集数据处理方法的实施例,参见图1,所述单领域至跨领域数据集数据处理方法具体包含有如下内容:
步骤S101:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句。
可选的,本申请中的单领域数据集例如是WikiSQL数据集(面向单领域NL2SQL应用场景的数据集),本申请中的跨领域数据集例如是Spider数据集(面向跨领域NL2SQL应用场景的数据集),其中,NL2SQL是将自然语言转换成结构化查询语言的简称。
可选的,本申请可以先读入单领域数据集WikiSQL数据库定义文件,修改原WikiSQL数据集中的表名、字段名中不符合跨领域数据集Spider数据集的内容,并保存为处理后的数据库定义文件。还可以通过读入单领域数据集WikiSQL数据文件,修改内容中非法内容,保存为处理后数据定义文件。
可选的,本申请可以通过创建跨领域数据集Spider数据库,生成tables.json文件,包括生成Spider要求的数据库格式,将上述处理后的数据插入新创建的表中,接着,根据单领域数据集WikiSQL数据集中SQL节点树信息,生成跨领域数据集Spider数据集所需的SQL语句信息。
步骤S102:根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
可选的,本申请可以根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,将单领域数据集WikiSQL数据集转换成跨领域数据集Spider要求的数据库格式,由此在对大量数据进行转换时,可以保证实施过程的高效性。
从上述描述可知,本申请实施例提供的单领域至跨领域数据集数据处理方法,能够通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
为了能够准确对单领域数据集中的数据库数据进行非法字符清理过滤,在本申请的单领域至跨领域数据集数据处理方法的一实施例中,上述步骤S101还可以具体包含如下内容:
根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
在一具体实施例中,本申请可以识别WikiSQL数据集中的无意义的非法字符,将其转换或替代,在转换过程中需保护数据条目的完整性。
具体的,把原WikiSQL数据集文件做处理后,写到proc_table/下,过滤算法包括:模式匹配和正则表达式,把列名、table_id等非法字符变换成合法字符。具体操作如下:proc_tables_change_header_id.py python proc_tables_change_header_id.py--din=./data--dout=./proc_files。
为了能够准确生成与跨领域数据集对应的数据库操作语句,在本申请的单领域至跨领域数据集数据处理方法的一实施例中,上述步骤S101还可以具体包含如下内容:
根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
在一具体实施例中,本申请可以生成Spider数据集所需要的输入信息,即SQL语句信息,生成过程需满足SQL语句的语法,保证生成数据的准确性。
具体的,读入处理后的文件,在目标目录下生成文件,格式与Spider记录集读入proce_files/下文件,在annotated目录下生成处理后文件,文件格式符合Spider记录集,其中query为从WikiSQL数据集中处理SQL节点的tree信息得到。具体操作如下:gen_sqlpython gen_sql.py--din=proc_files--dout=annoated。
为了能够准确对单领域数据集进行结构化数据转换,在本申请的单领域至跨领域数据集数据处理方法的一实施例中,参见图2,上述步骤S102还可以具体包含如下内容:
步骤S201:根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库。
步骤S202:根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
在一具体实施例中,本申请可以将WikiSQL数据集转换成Spider要求的数据库格式,当对大量数据进行转换时,需保证实施过程的高效性。
具体的,读入proc_table下XXX.table.json,在database下生成结构化sqlite数据库。具体操作如下:wikisql_tables.py python wikisql_tables.py--din=./proc_files-dout=./database。
生成new_table.json。实际用于RAT模型时,需要手动加已有的tables.json和新文件中内容合并。具体操作如下:get_tables python get_tables.py database/new_table.json tables.json其中,第1个参数:生成的数据库根目录。目录结构符合spider数据集中数据库格式。第2个参数:生成的新tables.json,格式符合spider数据集中tables.json格式。第3个参数:已有的Spider数据库信息。扫描database下数据库信息。
parse_raw_json需在代码中指定,读取new_tables.json和annoated下文件,填上SQL节点的树信息。生成train_spider_XXXX.json。
为了能够高效、准确得进行单领域数据集转换为跨领域数据集,本申请提供一种用于实现所述单领域至跨领域数据集数据处理方法的全部或部分内容的单领域至跨领域数据集数据处理装置的实施例,参见图3,所述单领域至跨领域数据集数据处理装置具体包含有如下内容:
字符清理和SQL生成模块10,用于根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句。
数据格式转换模块20,用于根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
从上述描述可知,本申请实施例提供的单领域至跨领域数据集数据处理装置,能够通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
为了能够准确对单领域数据集中的数据库数据进行非法字符清理过滤,在本申请的单领域至跨领域数据集数据处理装置的一实施例中,参见图4,所述字符清理和SQL生成模块10包括:
字符清理单元11,用于根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
为了能够准确生成与跨领域数据集对应的数据库操作语句,在本申请的单领域至跨领域数据集数据处理装置的一实施例中,参见图5,所述字符清理和SQL生成模块10包括:
SQL生成单元12,用于根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
为了能够准确对单领域数据集进行结构化数据转换,在本申请的单领域至跨领域数据集数据处理装置的一实施例中,参见图6,所述数据格式转换模块20包括:
数据库构建单元21,用于根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库。
数据导入单元22,用于根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
从硬件层面来说,为了能够高效、准确得进行单领域数据集转换为跨领域数据集,本申请提供一种用于实现所述单领域至跨领域数据集数据处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现单领域至跨领域数据集数据处理装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的单领域至跨领域数据集数据处理方法的实施例,以及单领域至跨领域数据集数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,单领域至跨领域数据集数据处理方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,单领域至跨领域数据集数据处理方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句。
步骤S102:根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
从上述描述可知,本申请实施例提供的电子设备,通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
在另一个实施方式中,单领域至跨领域数据集数据处理装置可以与中央处理器9100分开配置,例如可以将单领域至跨领域数据集数据处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现单领域至跨领域数据集数据处理方法功能。
如图7所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图7中所示的所有部件;此外,电子设备9600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的单领域至跨领域数据集数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的单领域至跨领域数据集数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句。
步骤S102:根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过非法字符清理过滤、跨领域数据集数据库操作语句生成以及半结构化数据到结构化数据的转换,能够高效、准确得进行单领域数据集转换为跨领域数据集。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种单领域至跨领域数据集数据处理方法,其特征在于,所述方法包括:
根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;
根据预设跨领域数据集的结构化数据格式、经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
2.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,包括:
根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
3.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述生成与跨领域数据集对应的数据库操作语句,包括:
根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
4.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集,包括:
根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库;
根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
5.一种单领域至跨领域数据集数据处理装置,其特征在于,包括:
字符清理和SQL生成模块,用于根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;
数据格式转换模块,用于根据预设跨领域数据集的结构化数据格式、经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。
6.根据权利要求5所述的单领域至跨领域数据集数据处理装置,其特征在于,所述字符清理和SQL生成模块包括:
字符清理单元,用于根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。
7.根据权利要求5所述的单领域至跨领域数据集数据处理装置,其特征在于,所述字符清理和SQL生成模块包括:
SQL生成单元,用于根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。
8.根据权利要求5所述的单领域至跨领域数据集数据处理装置,其特征在于,所述数据格式转换模块包括:
数据库构建单元,用于根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库;
数据导入单元,用于根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的单领域至跨领域数据集数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的单领域至跨领域数据集数据处理方法的步骤。
CN202111019785.3A 2021-09-01 2021-09-01 单领域至跨领域数据集数据处理方法及装置 Active CN113760962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111019785.3A CN113760962B (zh) 2021-09-01 2021-09-01 单领域至跨领域数据集数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111019785.3A CN113760962B (zh) 2021-09-01 2021-09-01 单领域至跨领域数据集数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN113760962A true CN113760962A (zh) 2021-12-07
CN113760962B CN113760962B (zh) 2024-06-18

Family

ID=78792307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111019785.3A Active CN113760962B (zh) 2021-09-01 2021-09-01 单领域至跨领域数据集数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113760962B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497477A (zh) * 2022-09-09 2022-12-20 平安科技(深圳)有限公司 语音交互方法、语音交互装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140581A (zh) * 2007-05-24 2008-03-12 中兴通讯股份有限公司 预处理特殊字符的sql语句构造方法和装置
JP2011014015A (ja) * 2009-07-03 2011-01-20 Hitachi Information Systems Ltd データ共有システム及びデータ共有方法
CN110990482A (zh) * 2019-11-11 2020-04-10 中国建设银行股份有限公司 异步数据库之间的数据同步方法及装置
CN111651509A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于Hbase数据库的数据导入方法、装置、电子设备及介质
CN112231407A (zh) * 2020-10-22 2021-01-15 北京人大金仓信息技术股份有限公司 PostgreSQL数据库的DDL同步方法、装置、设备和介质
CN112256796A (zh) * 2020-10-26 2021-01-22 首都信息发展股份有限公司 异构数据实时同步系统及装置
CN112965982A (zh) * 2021-03-16 2021-06-15 中国平安财产保险股份有限公司 表格处理方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140581A (zh) * 2007-05-24 2008-03-12 中兴通讯股份有限公司 预处理特殊字符的sql语句构造方法和装置
JP2011014015A (ja) * 2009-07-03 2011-01-20 Hitachi Information Systems Ltd データ共有システム及びデータ共有方法
CN110990482A (zh) * 2019-11-11 2020-04-10 中国建设银行股份有限公司 异步数据库之间的数据同步方法及装置
CN111651509A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于Hbase数据库的数据导入方法、装置、电子设备及介质
CN112231407A (zh) * 2020-10-22 2021-01-15 北京人大金仓信息技术股份有限公司 PostgreSQL数据库的DDL同步方法、装置、设备和介质
CN112256796A (zh) * 2020-10-26 2021-01-22 首都信息发展股份有限公司 异构数据实时同步系统及装置
CN112965982A (zh) * 2021-03-16 2021-06-15 中国平安财产保险股份有限公司 表格处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU ZI-JIAN 等: "Data synchronization tool for distributed heterogeneous database", 《JOURNAL OF SOFTWARE》, vol. 30, no. 3, 13 September 2019 (2019-09-13), pages 84 - 99 *
刘勇: "基于Zookeeper的异构关系数据库同步中间件的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, 15 March 2019 (2019-03-15), pages 138 - 616 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497477A (zh) * 2022-09-09 2022-12-20 平安科技(深圳)有限公司 语音交互方法、语音交互装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN113760962B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN110956956A (zh) 基于策略规则的语音识别方法及装置
CN111190600B (zh) 基于gru注意力模型的前端代码自动生成的方法及系统
CN111369247A (zh) 跨行交易数据处理方法及装置
CN114138372B (zh) 前端组件加载方法及装置
EP4131083A2 (en) Method and apparatus for generating federated learning model
CN113110829B (zh) 多ui组件库数据处理方法及装置
CN112784112A (zh) 报文校验方法及装置
CN113342948A (zh) 一种智能问答方法及装置
CN113409134A (zh) 基于联邦学习的企业融资授信方法及装置
CN114510425A (zh) 一种测试用例生成方法及装置
CN113760962B (zh) 单领域至跨领域数据集数据处理方法及装置
CN113342330B (zh) 前端工程生成方法及装置
CN111429282A (zh) 基于反洗钱模型迁移的交易反洗钱方法及装置
CN115495519A (zh) 报表数据加工方法及装置
CN114840576A (zh) 数据标准匹配方法及装置
CN114968917A (zh) 一种文件数据快速导入方法及装置
CN109361399A (zh) 一种获取字节序列的方法、装置、设备及存储介质
CN112597200A (zh) 批量与流式结合的数据处理方法及装置
CN114637531A (zh) 应用程序接口动态生成方法及装置
CN110931014A (zh) 基于正则匹配规则的语音识别方法及装置
CN113158259A (zh) 区块链完整性验证方法及装置
CN112102058A (zh) 管会系统参数配置方法及装置
CN113434423B (zh) 接口测试方法及装置
CN113111223B (zh) 报文生成xml串的方法及装置
CN113010692B (zh) 一种基于知识图谱的对话管理方法及对话系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant