CN111563118B - 一种实时获得数据的数据自动录入方法及系统 - Google Patents

一种实时获得数据的数据自动录入方法及系统 Download PDF

Info

Publication number
CN111563118B
CN111563118B CN201910114555.1A CN201910114555A CN111563118B CN 111563118 B CN111563118 B CN 111563118B CN 201910114555 A CN201910114555 A CN 201910114555A CN 111563118 B CN111563118 B CN 111563118B
Authority
CN
China
Prior art keywords
data
attribute
target symbol
information
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910114555.1A
Other languages
English (en)
Other versions
CN111563118A (zh
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910114555.1A priority Critical patent/CN111563118B/zh
Publication of CN111563118A publication Critical patent/CN111563118A/zh
Application granted granted Critical
Publication of CN111563118B publication Critical patent/CN111563118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种可以实时获得数据的数据自动录入方法及系统,方法包括在包含有靶符号的待录入文档中查找靶符号,并根据靶符号确定待录入数据的录入位置;对靶符号进行解析,根据解析结果,在数据源中采集靶符号在预设的系统规则下可能对应的所有的代表数据类型的属性标识和代表数据信息的属性值,并列出所有的属性值;若列出属性值只有一项,或可确定某一信息符合靶符号的系统规则,在待录入数据的录入位置删除靶符号,并录入数据信息,完成数据自动录入;若不能确定是多项属性值的某一项,列出所有可能的属性值,用户选定后录入。本发明自动在数据源中采集信息,有效提高工作效率。

Description

一种实时获得数据的数据自动录入方法及系统
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据自动录入方法及系统。
背景技术
人们的许多工作都是录入数据,而且这些数据经常是重复的,这样重复低级的工作耗费了人们大量的时间。在越来越移动化的环境中,数据的录入往往并不方便,面对电脑对人的伤害又是非常严重的,会导致记忆力降低,相对手写的填表,人工电脑录入对健康的负面影响是非常大的,同时人工录入的是对应慢慢,容易疲劳。之前我们已经提出了一些依赖于前期积累数据的数据录入方法,在没有前期积累数据库的情况下,不能进行录入,因此本发明设计了针对PC端、移动端和网页等都能实时地自动录入数据的方法和系统。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种数据自动录入方法及系统。
方案集1:本方案集提供在数据缺失和部分缺失的情况下的实时数据录入的方法和系统
本发明解决上述技术问题的技术方案如下:
一种实时数据自动录入方法,包括以下步骤:
步骤1:在包含有靶符号的待录入文档中查找所述靶符号,并根据所述靶符号确定待录入数据的录入位置;其中靶符号包括有一个属性定位的信息,它是单维或多维的信息,用于对应同样维度的属性标识和属性值,靶符号由系统其他模块或者另一个系统自动地,或半自动半人工地填写;
步骤2:对所述靶符号进行解析,根据解析结果,确定对应的属性标识;按照预设的预处理规则,对所述属性标识进行预处理;
步骤3:在数据源中采集数据,根据数据类型和数据信息在采集文档中的位置关系及对应关系,确定属性标识和属性值的对应关系,根据确定的属性标识和属性值的对应关系获得所述靶符号在预设的系统规则下对应属性标识的所有可能的属性值,按照预设的预处理规则,对所述属性值进行预处理,并列出所有的所述属性值;
步骤4:若列出属性值只有一项,或可确定某一信息符合所述靶符号的所述系统规则,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的所述数据信息,完成数据自动录入;若列出属性值有多项,提示用户选择,用户选定后即在所述待录入数据的录入位置删除所述靶符号,并录入用户选择的属性值代表的所述数据信息,完成数据自动录入。
本发明的有益效果:本发明的数据自动录入方法,区别于图像数据利用人工智能技术进行识别,并将识别的图像转变为文本录入数据库等方法,可以适用于PC端、移动端和网页等多种不同的工作环境,且无需记忆大量的数据,避免重复低级的工作,节省工作时间,录入速度快,准确率高,大大减少了人工录入的出错率,提高工作效率,同时也大大降低了电脑录入对人体健康的负面影响,适合普遍推广。
依据本发明的另一方面,提供了一种数据自动录入系统,包括采集单元、查找单元、处理单元和录入单元;
所述查找单元,用于在包含有靶符号的待录入文档中查找所述靶符号,将靶符号传递给处理单元;其中靶符号包括有一个属性定位的信息,它是单维或多维的信息,用于对应同样维度的属性标识和属性值,靶符号由系统其他模块或者另一个系统自动地,或半自动半人工地填写;
所述采集单元,用于在所给定的数据源中采集数据,采集单元包含有对应关系确定单元,由所述对应关系确定单元根据数据类型和数据信息在所述采集文档中的位置关系及对应关系,确定属性标识和属性值的对应关系;
所述处理单元,用于根据所述靶符号确定待录入数据的录入位置,还用于对所述靶符号进行解析,根据解析结果,确定对应的属性标识;处理单元包括预处理单元,所述预处理单元按照预设的预处理规则,对所述属性标识进行预处理;并把属性标识转交给采集单元,由采集单元根据确定的属性标识和属性值的对应关系获得所述靶符号在预设的系统规则下对应属性标识的所有可能的属性值,由所述预处理单元按照预设的预处理规则,对所述属性值进行预处理,并且列出所有的所述属性值;
所述录入单元,用于录入属性值,若处理单元列出的所述属性值只有一项,或可确定某一信息符合所述靶符号的系统规则时,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的数据信息;若处理单元列出的所述属性值有多项,提示用户选择,用户选定后即在所述待录入数据的录入位置删除所述靶符号,并录入用户选择的属性值代表的所述数据信息,完成数据自动录入。
这里可用于优先录入的靶符号的所述系统规则可以是设置的默认值、某种优先值、综合评分最大值等。
本发明的有益效果是:本发明的数据自动录入系统,可以无需人去从各种数据源获得数据,而是自动从数据源获得数据,避免了用眼用脑,适用于PC端、移动端和网页等多种不同的工作环境,且无需记忆大量的数据,避免重复低级的工作,节省工作时间,提高工作效率,同时也大大降低了电脑录入对人体健康的负面影响,适合普遍推广。
方案集2:方案1依靠采集数据,而且选择范围广,很可能不一定是正确的属性值,将选定的属性值存储起来以备下次录入将会提高准确率。
在方案1的基础上进一步:所述步骤4之后还包括以下步骤:
步骤5:将步骤4中选定的数据属性标识及属性值的对应关系存入一个存储单元,同时这个存储单元也成为数据源;
依据本方案的另一方面,提供了一种数据自动录入系统,在方案1的系统基础上,含有一个存储单元,用于存储选定的数据属性标识及属性值的对应关系;
这样有利于系统下次能够使用正确的选项,提高准确率,这里的存储单元可以是实体的,也可以是虚拟的,比如可以是文件、数据库、存储空间。
优选地,在选取数据源时,存储单元中的数据源作为优选项,这样有利于提高准确率。
优选地,存储单元中的数据源设置有优先值,并且随着步骤4中的确定次数增加,优先值增加,在录入时,优先值是排序优先的影响因素。
可选地,可以在存储单元中人工地输入录入数据属性标识及选定的属性值的对应关系。这样可以弥补电子数据源信息的不足。
所述靶符号中含有预处理信息,所述步骤4中还包括按照预设的预处理规则,对所述属性标识和所述属性值分别进行预处理。
比如,所述预设的预处理规则可以包括条件筛选规则、排序规则、格式规则等。
依据本方案的另一方面,提供了一种数据自动录入系统,在前述任一方案的基础上,进一步:还包括预处理单元;
所述预处理单元用于按照预设的预处理规则,对所述属性标识和所述属性值分别进行预处理。
比如,所述预设的预处理规则可以包括条件筛选规则、排序规则、格式规则等。
上述进一步方案的有益效果是:通过预处理单元对属性标识和属性值分别进行预处理,可更方便快捷地查找靶符号对应的属性标识和属性值,便于更快更准确地录入符合用户需求的数据信息。
本方案依靠采集数据,许多表格中包含有数据信息,本方案所述步骤3中还包括以下步骤:
步骤31:在有表格的数据源中采集数据,根据所述数据属性(属性标识)和所述数据信息在所述采集文档中的位置关系及对应关系,确定所述属性标识和所述属性值的对应关系。
依据本方案的另一方面,提供了一种数据自动录入系统,在方案1的系统基础上,所述采集单元还包括对应关系确定单元,所述对应关系确定单元用于根据所述数据类型和所述数据信息在所述采集文档中的位置关系及对应关系,确定所述属性标识和所述属性值的对应关系。
上述进一步方案的有益效果:通过在数据类型和数据信息的采集过程中,由对应关系确定单元确定属性标识和属性值的对应关系,便于分配对应的属性标识和属性值,便于后续建立属性标识和属性值一一对应关系的数据库。
方案集3:经常需要录入的信息往往也是一些个人信息,方案集2中将一些选定的信息存储起来,这些信息有时候有保密的需要,在方案集2的基础上,根据预设的规则对存储单元中的数据进行加解密,所述加解密包括对称加解密方法和/或非对称加解密方法。
依据本方案的另一方面,提供了一种数据自动录入系统,进一步:还包括加解密单元,所述加解密单元用于根据预设的规则对存储单元中的数据进行加解密。
上述进一步方案的有益效果是:通过加解密单元对有保密需求的属性值进行加解密处理,可提高数据的安全性,可以防止重要的数据信息被窃取。
本发明中的优选方案中的附加限定,除了标明引用的有依赖关系的以外,均相互独立,可以自由组合,为了减少篇幅,不一一进行组合枚举。以上方案采用相对简洁的描述,在上述方案的基础上,还可以增加许多功能。上述方案中的一些方法和装置也可以进行改变,比如存储单元可能是多个单元组成,数据分散存储各处,或者出于方便、安全性考虑对数据进行了分割处理。上述一些顺序在不影响功能的情况下,可以调换,在上述步骤、装置中可以插入更多的步骤和装置,比如中继、压缩、中转、转换、查重、检查、校验、人工确认以及处理的步骤。上述方案中的数据和信息也可以被转换,比如数据被分散、符号化、加密、顺序打乱、增加冗余等,只要能够建立信息的最终一一对应关系即可。本专利所述方法与系统,可以应用于独立软件,也可以作为模块集成在操作系统、字处理软件、浏览软件、办公软件、通讯软件中,也可以是插件。
附图说明
图1为本发明一种实时获得数据的数据自动录入方法的流程示意图;
图2为本发明一种实时获得数据的数据自动录入系统的结构示意图;
图3为本发明另一种实时获得数据的数据自动录入系统的结构示意图。
附图中,各标号所代表的部件列表如下:
10、采集单元,20、查找单元,30、处理单元,40、录入单元,50、存储单元, 101、对应关系确定单元,301、预处理单元,501、加解密单元。
实施方式
应该说明的是,根据下面的具体实施方式,其中通过举例说明示出并描述了本技术的各种设置(或选择),本技术的其他设置将变得对本领域技术人员易于显而易见。本技术能够有其他不同的设置(或选择),并且其若干细节能够在多方面被修改,所有均不会背离本技术的范围。因此,具体实施方式应被认为是举例说明性而非限制性的。为了便于理解发明,我们采用了非常简洁的描述方式,并不代表我们不包含复杂的方式。本发明中的许多特征可以自由组合,出于减少实施例的数目的目的,有些不相关的特征可能会同时增加到一个实施例中,一些显而易见的替代也被包括。比如,特征X和Y都写入一个实施例中,但是,明显两者并不关联,它们各自产生了优势,而且不依赖于另一方的存在,所以,可以去掉其中一个具体的特征,或者修改它。为了便于理解,我们选取的实施例都非常简单。
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面对本发明进行说明。
在实施过程中,本发明针对的文档为特定的文档,待录入的文档的待录入数据的位置预设有靶符号,靶符号的录入未做限定,比如所述靶符号可以由文档设计者填好,但是由于每一个用户对应的信息不同,如果没有缺省的默认属性值,可以由用户对靶符号进行完善,以便定位更加精确;靶符号也可以是个人填写。靶符号可以是完整的去定位一个属性值,也可以缺失一部分限定信息,对应多个值。靶符号也可以由系统其他模块或者另一个系统自动地,或半自动半人工地填写。
在实施过程中,有各种选择,这里的靶符号和属性标识及其属性值的对应关系的系统规则可以是通过靶符号的定位信息去定位属性值,靶符号的定位信息不充分时会对应多个值,靶符号包括有一个属性定位的信息,它可以是单维或多维的信息,用于对应同样维度的属性标识和属性值,靶符号也可能包含有其他的附加信息。当定位信息足够充分时,可以根据靶符号确定属性标识信息,当定位信息缺失时,会对应较多的属性标识信息,比如用靶符号#姓名#生日,可以确定获得对应生日,但是如果靶符号编写的人不知道姓名,用简化的靶符号#生日,则将所有数据库中的生日列出,如果有默认值、优先值等,可以直接将它输入,或者用户确认后输入,否则由用户选择。
这里的数据源包括但不限于:本地的文件、数据库,与本机联网的文件和数据库,网页上的各种数据。这里的待录入数据的录入位置,不仅仅限于Word,Excel等文档的表格,也包括文件内容,还包括应用软件系统的输入框、网页的输入框。为了方便,在本发明中,将页面之类的需要填表的内容,也统一称为待录入文档。
实施中,这里的存储单元可以是实体的,也可以是虚拟的,比如可以是文件、数据库、存储空间。
实施例集1:本实施例集提供在数据缺失和部分缺失的情况下的实时数据录入的方法和系统。
一种实时数据自动录入方法,如图1所示,包括以下步骤:
步骤1:打开待录入文档,在包含有靶符号的待录入文档中查找所述靶符号,并根据所述靶符号确定待录入数据的录入位置;
步骤2:对获得的所述靶符号进行解析,根据靶符号的结构进行解析,确定对应的属性标识;
步骤3:在给定的数据源中采集数据,如有些数据源存储有身份证号码等信息,获得所述靶符号在预设的系统规则下对应属性标识的所有可能的属性值,并列出所有的所述属性值,如身份证号码;
步骤4:若列出属性值-身份证号码只有一项,或可确定多个身份证号码中的某一信息符合所述靶符号的所述系统规则,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的所述数据信息,完成数据自动录入;若不能确定是多项属性值的某一项,列出所有可能的所述属性值,提示用户选择,用户选定后即按照上述方法录入。
本实施例中为了将某个属性的值自动地填入某个位置,将一个属性C(如生日)或者更广泛意义的属性标识D与靶符号B(如包含“#生日”)相对应,系统将相应的属性值V(如2001年7月2日)填入靶符号“#生日”的位置,为了便于区分以及各种目的,靶符号B有时候不直接采用属性的名称C,或者靶符号采用属性的名称,但是,采用独特的字体,或者其他方式进行区别。为了能够在待录入的文档中找到待录入数据的录入位置,我们在待录入数据的录入位置预先放置靶符号,要求靶符号能够很好地与其他文本等信息相区分,由于往往还需要有一个人工审查的过程,所以只要能够尽量区分即可,不一定要完全正确,且为了避免对无需录入数据的位置进行修改,优选地,可以采用待录入文档很少出现的特殊符号,比如“#*”作为起始区别符号,这样可以在搜索时,及时地判断是不是出现了靶符号。由于靶符号可能包括更多的内容,同时为了区分,靶符号往往不直接使用属性名称,而采用更加有广泛意义的属性标识D,它与属性C有对应关系,同时,也通过靶符号B的定位属性的那一部分信息有对应关系,通过它可以将靶符号、属性联系起来,简单地,属性标识可以是靶符号的与属性相关的那一部分信息,也可以是属性C。
本发明根据靶符号的命名规则进行分析,获得靶符号和属性标识的对应关系,将靶符号对应的属性值在预设的数据库中找出来,并确定靶符号的位置信息;根据靶符号的位置信息删除靶符号,并将靶符号对应的属性值输入靶符号所在位置。
这里的数据信息不限于单维的,比如有的数据信息是多维的,比如有许多人的身份证号码,实际上是需要填写某个人的。靶符号的结构中要能包括唯一地确定属性的信息。这样可以更方便地录入更加复杂的信息。对于多维信息,可以在多个条件均符合时进行录入,靶符号的命名可以选用类似于“#*姓名#*身份证号码…”的形式,根据姓名对应的行和身份证号码对应的列去查找到对应的身份证号码。为了避免冗余,在不产生歧义时,标记#*可以省略。
在没有歧义时,可以省略一些冗余信息,采用简化的靶符号。如当只有一个类别时,可以省略类名标识,当只有一个对象时,可以省略前面的类名标识和属性标识。当设置有默认信息时,可以根据情况,省略前面的类名标识和属性标识。在查找时,则先找到对应的表,然后找到对应的多维信息,并取出信息录入文档中。当只有一个表时,可以不需要表名。
这里的数据采集可以通过文档或者网络搜索获得数据。
属性标识可以是靶符号的与属性相关的那一部分信息,也可以是属性C。因此数据库存储的是属性标识D和属性值V之间的对应关系,也可以是靶符号-属性-属性标识-属性值有对应关系。
以一个文档为例,在文档中一些信息是经常录入的,每次录入的信息经常是一样的,或者是大同小异的,一些信息则一般是针对这个文档写作的,所以只针对前者进行进行录入。在文档需要填写信息的位置,填写相关靶符号,比如,填写个人的姓名、生日、身份证号码等信息的位置,我们采用“#*”作为前缀标志加以区分,它们的靶符号分别包含“#*姓名”,“#*生日”,“#*身份证号码”,这里假设是文档的制作者统一添加靶符号(其他人当然也可以)。
填写者收到文档A后,启动录入系统(这个系统可以是独立程序、插件、浏览器、文字处理系统部件等等均可),在录入系统中选定文档,录入系统依据文件格式读取该文档,查找单元在文档中搜索,根据规则判定靶符号。在找到靶符号“#*生日”后,根据规则确定属性标识生日,在数据源中查找属性标识对应的生日属性值,显示出所有的属性值,即所有的生日,当生日是唯一,或者有默认值、优先值时,依据规则选定一个值,然后输入单元在靶符号的位置删除靶符号,写入靶符号对应的生日等信息,如果有多项且无法确定,则列出所有的值供用户选择。优选地,可以同时列出属性值对应的其他相关信息,便于用户选择,比如,如果生日对应有显示姓名等信息,列出它们。
靶符号可以是多对一,即一个数据项对应多个靶符号,靶符号可以有别名,以符合不同条件下的习惯称呼,比如#*生日,#*出生年月可以都同时对应一个日期。其中,靶符号预设的命名规则可根据用户实际情况而定,靶符号的命名可直接采用属性标识的名称,也可不直接采用属性标识的名称;为便于后续查找靶符号,可以采用特殊的方式对靶符号进行命名,以便与其他数据信息区分,例如独特的字体或不常用的符号;由于数据信息的多样化,靶符号可以是多对一的。对于多维的信息,靶符号也可以是多维的,比如#*姓名#*身份证号码。
依据上面的实施例,可以开发一种数据自动录入系统,如图2所示,包括采集单元10、查找单元20、处理单元30和录入单元40;
所述查找单元,用于在包含有靶符号的待录入文档中查找所述靶符号,将靶符号传递给处理单元;
所述采集单元,用于在所给定的数据源中,采集所述属性标识对应的所有可能的属性值;
所述处理单元,用于根据所述靶符号确定待录入数据的录入位置,还用于对所述靶符号进行解析,确定属性标识,并把属性标识转交给采集单元,由采集单元给定的所有的属性值,并且列出所有的所述属性值;
所述录入单元,用于录入属性值,若处理单元列出的所述属性值只有一项,或可确定某一信息符合所述靶符号的所述系统规则时,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的数据信息;还用于若不能确定列出所有可能的所述属性值是多项属性值的某一项时,根据用户的选择进行录入。
实施例集2:方案1依靠采集数据,而且选择范围广,很可能不一定是正确的属性值,将选定的属性值存储起来以备下次录入将会提高准确率。
在方案1的基础上进一步:所述步骤4之后还包括以下步骤:
步骤5:将步骤4中选定的数据属性标识及属性值的对应关系存入一个存储单元,同时这个存储单元也成为数据源;在存储单元中,有属性标识和对应的属性值,简化地,属性标识直接采用靶符号的属性相关部分信息,便于用简单的规则匹配。
所述数据库存储属性C或其他属性标识与数据信息(属性值)V之间的对应关系,所述数据库可以是实体的存储单元,也可以是虚拟的,例如以文件、存储空间、数据库、表等形式存在。
属性标识可以是靶符号的与属性相关的那一部分信息,也可以是属性C。因此数据库存储的是属性标识D和属性值V之间的对应关系,也可以是靶符号-属性-属性标识-属性值有对应关系。
优选地,为了输入多维的信息的时候,不需要输入不同的姓名,名称等信息,而且实际上每一个人填写的信息都不一样,也为了便于靶符号的生成,选用“#*表名#*序号#*某某名#*某某名…”的形式。当不存在歧义时,可以将其中可以省略的信息省去。
优选地,在选取数据源时,存储单元中的数据源作为优选项,排列在前面,
优选地,存储单元中的数据源设置有优先值,根据被选定的次数的增加而增加,比如采用计数累加。
可选地,有一个接口,可以在存储单元中人工地输入录入数据属性标识及选定的属性值的对应关系,在数据源中找不到的信息在此录入,比如,可以录入个人的身份证号码,姓名等信息。
在前述的基础上,针对不同类型,不同维度的多维信息,异构的信息,信息量大,靶符号比较多,编制靶符号会很困难,由于信息与数据库中的数据项类似,我们将这些信息称为数据项,在存储单元中,将信息分类存放,这里采用一种定位方法,我们将一类可以用相同维度的信息存放在一起,比如一个文件,一个表格,一个的数据库中的表等,我们以表为例,将靶符号采用“#*表名#*姓名#*身份证号码”,或者采用类似于向量的形式“#*{表名,姓名,身份证号码}”,优选地,在没有歧义时,可以取其中最后一个“#*身份证号码”作为靶符号,代表需要填写的信息。这样的形式表示。当只有一个表时,可以省略表名,当只有一个人时,可以省略姓名。在查找时,则先找到对应的表,然后找到对应的多维信息。取出信息,录入文档中。可选地,当只有一个表时,靶符号可以删除表名。
依据本实施例的另一方面,提供了一种数据自动录入系统,在前面实施例1的系统基础上,含有一个存储单元50,用于存储选定的数据属性标识及属性值的对应关系,存储结构可以是单维的,也可以是多维的;
实施例集3:在前述任一方案的基础上,所述靶符号中含有预处理信息,所述步骤4中还包括按照预设的预处理规则,对所述属性标识和所述属性值分别进行预处理。
比如,所述预设的预处理规则可以包括条件筛选规则、排序规则、格式规则等。通过预处理单元对属性标识和属性值分别进行预处理,可更方便快捷地查找靶符号对应的属性标识和属性值,便于更快更准确地录入符合用户需求的数据信息。
由于数据信息的多样化,还可在靶符号命名时,增加格式标识、筛选标识、类名标识、来源标识和版本标识等特殊标识。同样的数据信息可能会有多种格式,例如,代表生日的数据信息有2018年7月23日、2018-7-23、20180723等不同的格式,可以在靶符号中增加格式标识,用靶符号“#*生日#*1”、“#*生日#*2”、“#*生日#*3”或“#*生日1”、“#*生日2”、“#*生日3”来分别表示这三种代表生日的格式,选择靶符号“#*生日#*3”或“#*生日3”,则将代表生日的数据信息统一为“20180723”这种格式;有的数据信息是多维的,该类数据信息信息量大,在靶符号的命名时,可将同一类信息或相同维度表示的信息存放在一类,并增加类名标识,例如个人信息包含多维数据信息,包括姓名、生日、身份证号码等,可将个人信息存放在一个表格中,而将靶符号命名为“#*表名#*姓名#*生日#*身份证号码”或采用类似于向量的形式“#*{表名,姓名,生日,身份证号码}”,或“#*表名#*属性一#*属性二#*属性三”,在查找属性标识和属性值时,先找到对应的表,再找到对应的多维信息,并录入文档中,例如可将最后一个“#*身份证号码”或“#*属性三”作为靶符号对应要录入的数据信息;还有些情况下,待录入的数据需要满足特定的条件,则可在靶符号命名时添加筛选标识,通过筛选标识,使得在查找靶符号对应的属性标识和属性值之前就进行初次筛选,例如,需要录入近5年内申请的专利作品,可将靶符号命名为“#*专利#*序号#*专利号*申请日≥20180730”,则在录入专利作品时,已将非近5年内申请的专利作品筛选掉。因此可以在靶符号的命名时设置筛选标识,筛选标识可以包含条件信息、排序信息等信息,让文件制作者制定的填写要求,或者文件填写者的意志,也能够在靶符号中体现,让信息录入更加满足特定的要求和规定,显然还可以在一组信息的首位或主键相应的靶符号中设置条件信息相关的筛选标识,而不必在本组的每一位上都设置条件信息相关的筛选标识,以减少靶符号冗余。
还可以根据需要增加来源标识和版本标识,例如学术界、产业界各自提出的靶符号系统,版本标识可以形如v1,v2,将靶符号命名为“#*学校#*专业#*排名#*v1”、“#*学校#*专业#*排名#*v2”。增加来源标识和版本标识则可便于后续扩充数据、压缩靶符号长度、简化和优化靶符号系统,也便于后续靶符号系统的升级,提升靶符号系统的兼容性,使其适用于不同的工作环境,普适性更高。
另一方面,提供了一种数据自动录入系统,在前述任一方案的基础上,进一步:还包括预处理单元301;
所述预处理单元用于按照预设的预处理规则,对所述属性标识和所述属性值分别进行预处理。
比如,所述预设的预处理规则可以包括条件筛选规则、排序规则、格式规则等。
实施例集4:在前述实施例的基础上进一步:对于存在诸如word,Excel表格的数据源,根据所述数据属性(属性标识)和所述数据信息在所述采集文档中的位置关系及对应关系,确定所述属性标识和所述属性值的对应关系。采集文档可以是文件、网页、数据库、内存空间和存储设备,因此在自动读取文件、网页、数据库、内存空间和存储设备等包含的数据信息时,可根据采集文档中数据类型和数据信息的位置关系及对应关系判断属性标识和属性值的关系;采集文档中数据类型和数据信息的对应关系经常是上下相邻或左右相邻的关系,假设是左右相邻的关系,可根据数据类型的特征进行判断,判断左右相邻的数据信息是否与该数据类型的特征相符,经过多次判断相符后可确定数据类型与数据信息的对应关系为左右相邻的关系,从而确定属性标识和属性值的对应关系,否则为上下相邻的关系;还可以通过对采集文档中的每一行进行判定,当该行均为数据类型,而无数据信息时,则判定该采集文档中的数据类型和数据信息的对应关系为上下相邻的关系,而当该行每隔一个为数据信息或数据类型时,则判定该采集文档中的数据类型和数据信息的对应关系为左右相邻的关系,从而确定属性标识和属性值的对应关系。
还可以进行人工判断,或者根据数据的格式进行判断,比如电话号码、身份证号码、日期、民族等都能检测,一旦检查发现不合规,可以给予提示,或者放弃该部分信息的采集。
依照前面实施例的方法,可以实现一种数据自动录入系统,所述采集单元还包括对应关系确定单元101,所述对应关系确定单元用于根据所述数据类型和所述数据信息在所述采集文档中的位置关系及对应关系,确定所述属性标识和所述属性值的对应关系。
实施例集5:经常需要录入的信息往往也是一些个人信息,实施例集2中将一些选定的信息存储起来,这些信息有时候有保密的需要,在实施例集2的基础上,根据预设的规则对存储单元中的数据进行加密,系统对存储单元中的信息进行加密和解密,以防止重要的信息泄露。加密时,可以只对靶符号对应的重要的,有保密需要的信息进行加密,属性标识可以不加密,如果不是全部加密,则需要添加是否加密的信息,同时加入解密相关数据依赖的信息,这些信息存放在系统的某个部件中(比如存储单元、处理单元都可以)中,或者某个文件、表中。对于对称加密的形式,比较简单,这里不举例。
有以下几个优选实施例:
1)对于对称加密和非对称加密混合加密的情形,在信息录入时,用随机数发生器产生随机数,作为密钥对信息进行加密,然后将该密钥用授权的多个用户的Windows系统的公钥加密,如果有多个人有权限录入,则用多个人的公钥加密这些信息。每个加密的密钥作为一块信息存储在一个数据项中,同时解密需要的其他信息也作为数据项存储于存储单元中。在Windows系统中,系统用户登录,实际上可以解密他的私钥,这样方便赋予不同用户解密获取、录入数据的权限,防止机密信息落入他人之手,而且用户无需过多操作。在授权用户登录后,即可对信息进行解密。如果非授权用户,则不能解密对称密钥,从而无法获得机密数据。这样的好处是授权用户解密的时候,似乎不用解密私钥,可以实现透明加密解密,即用户不需要做涉及到加解密的操作,不用输入密码,方便用户,又能够保证数据的安全性。
2)为了方便,可以采用用户口令产生hash值,取一部分作为密钥加密相关数据。同时需要附加加密相关的信息,比如加密与否、加密的工作方式、填充模式等。
3)优选地,对每一个需要加密的数据项(属性值)采用不同的密钥加密,但是为了记忆、存储或管理较少的密钥,同时又保证安全性,采用一个单向函数f(k,x)产生密钥,其中k为一个主密钥(或密码),x为一个唯一能确定(定位)数据项的值,比如,一维数据的主键,或唯一属性,多维数据的每一个维度的属性,多个表情况下加上表名。这样,用户或者系统只需要记忆这个密钥或密码,而且一个密码的泄露并不影响其他数据项。这个单向函数可以采用哈希函数A=Hash(k‖x)或者数学难题,比如用A=ga (mod p), 离散对数问题是指从已知的g, p, a= k‖x,这里的p是个很大的素数,g为p的本原根,‖表示合并数据。A为对一个属性值的密钥。
4)在采用前面3)的方法产生密钥,而主密钥以2)的方法,用用户公钥加密,用户登录时,可以自动解密主密钥k,而无需用户记忆。
通过上述加密实施例,既可以记忆、存储或管理较少的密钥,又可以保证数据信息的安全性,其中一个维度的数据信息或属性值的密钥的泄露也不影响其他维度的数据信息或属性值的安全性,安全性和稳定性高。
依据上述方法,可以实现一个有加解密数据的系统,它还包括加解密单元501,所述加解密单元用于对所述属性值进行加解密。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种实时获得数据的数据自动录入方法,其特征在于,包括以下步骤:
步骤1:在包含有靶符号的待录入文档中查找所述靶符号,并根据所述靶符号确定待录入数据的录入位置;其中靶符号包括有一个属性定位的信息,它是单维或多维的信息,用于对应同样维度的属性标识和属性值,靶符号由系统其他模块或者另一个系统自动地,或半自动半人工地填写;
步骤2:对所述靶符号进行解析,根据解析结果,确定对应的属性标识;按照预设的预处理规则,对所述属性标识进行预处理;
步骤3:在数据源中采集数据,根据数据类型和数据信息在采集文档中的位置关系及对应关系,确定属性标识和属性值的对应关系,根据确定的属性标识和属性值的对应关系获得所述靶符号在预设的系统规则下对应属性标识的所有可能的属性值,按照预设的预处理规则,对所述属性值进行预处理,并列出所有的所述属性值;
步骤4:若列出属性值只有一项,或可确定某一信息符合所述靶符号的所述系统规则,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的所述数据信息,完成数据自动录入;若列出属性值有多项,提示用户选择,用户选定后即在所述待录入数据的录入位置删除所述靶符号,并录入用户选择的属性值代表的所述数据信息,完成数据自动录入。
2.根据权利要求1所述的实时获得数据的数据自动录入方法,其特征在于,所述步骤4之后还包括以下步骤:
步骤5:将步骤4中的数据属性标识及选定的属性值的对应关系存入一个存储单元,同时这个存储单元也成为数据源。
3.根据权利要求2所述的实时获得数据的数据自动录入方法,其特征在于,根据预设的规则对存储单元中的数据进行加解密,所述加解密包括对称加解密方法和/或非对称加解密方法。
4.一种实时获得数据的数据自动录入系统,其特征在于,包括采集单元、查找单元、处理单元和录入单元;
所述查找单元,用于在包含有靶符号的待录入文档中查找所述靶符号,将靶符号传递给处理单元;其中靶符号包括有一个属性定位的信息,它是单维或多维的信息,用于对应同样维度的属性标识和属性值,靶符号由系统其他模块或者另一个系统自动地,或半自动半人工地填写;
所述采集单元,用于在所给定的数据源中采集数据,采集单元包含有对应关系确定单元,由所述对应关系确定单元根据数据类型和数据信息在采集文档中的位置关系及对应关系,确定属性标识和属性值的对应关系;
所述处理单元,用于根据所述靶符号确定待录入数据的录入位置,还用于对所述靶符号进行解析,根据解析结果,确定对应的属性标识;处理单元包括预处理单元,所述预处理单元按照预设的预处理规则,对所述属性标识进行预处理;并把属性标识转交给采集单元,由采集单元根据确定的属性标识和属性值的对应关系获得所述靶符号在预设的系统规则下对应属性标识的所有可能的属性值,由所述预处理单元按照预设的预处理规则,对所述属性值进行预处理,并且列出所有的所述属性值;
所述录入单元,用于录入属性值,若处理单元列出的所述属性值只有一项,或可确定某一信息符合所述靶符号的系统规则时,在所述待录入数据的录入位置删除所述靶符号,并录入所述属性值代表的数据信息;若处理单元列出的所述属性值有多项,提示用户选择,用户选定后即在所述待录入数据的录入位置删除所述靶符号,并录入用户选择的属性值代表的所述数据信息,完成数据自动录入。
5.如权利要求4所述的实时获得数据的数据自动录入系统,其特征在于,含有一个存储单元,用于存储选定的数据属性标识及属性值的对应关系。
6.如权利要求5所述的实时获得数据的数据自动录入系统,其特征在于,还包括加解密单元,所述加解密单元用于根据预设的规则对存储单元中的数据进行加解密。
CN201910114555.1A 2019-02-14 2019-02-14 一种实时获得数据的数据自动录入方法及系统 Active CN111563118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114555.1A CN111563118B (zh) 2019-02-14 2019-02-14 一种实时获得数据的数据自动录入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114555.1A CN111563118B (zh) 2019-02-14 2019-02-14 一种实时获得数据的数据自动录入方法及系统

Publications (2)

Publication Number Publication Date
CN111563118A CN111563118A (zh) 2020-08-21
CN111563118B true CN111563118B (zh) 2023-09-12

Family

ID=72074066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114555.1A Active CN111563118B (zh) 2019-02-14 2019-02-14 一种实时获得数据的数据自动录入方法及系统

Country Status (1)

Country Link
CN (1) CN111563118B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750265A (zh) * 2011-08-26 2012-10-24 新奥特(北京)视频技术有限公司 一种数据替换的方法及装置
CN103064823A (zh) * 2012-12-25 2013-04-24 北京易时信通科技有限公司 数据处理方法及系统
JP2014194609A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd データ抽出方法、装置及びプログラム
CN106293368A (zh) * 2015-05-26 2017-01-04 联想(北京)有限公司 一种数据处理方法及电子设备
CN107315832A (zh) * 2017-07-10 2017-11-03 唐郡 一种原子化元素的录入方法及系统
CN108694243A (zh) * 2018-05-15 2018-10-23 广东因特利信息科技股份有限公司 一种信息自动录入的方法、装置、电子设备及存储介质
CN109542899A (zh) * 2018-10-31 2019-03-29 桂林金发明科技开发有限公司 一种基于靶符号的数据自动录入方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060005017A1 (en) * 2004-06-22 2006-01-05 Black Alistair D Method and apparatus for recognition and real time encryption of sensitive terms in documents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750265A (zh) * 2011-08-26 2012-10-24 新奥特(北京)视频技术有限公司 一种数据替换的方法及装置
CN103064823A (zh) * 2012-12-25 2013-04-24 北京易时信通科技有限公司 数据处理方法及系统
JP2014194609A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd データ抽出方法、装置及びプログラム
CN106293368A (zh) * 2015-05-26 2017-01-04 联想(北京)有限公司 一种数据处理方法及电子设备
CN107315832A (zh) * 2017-07-10 2017-11-03 唐郡 一种原子化元素的录入方法及系统
CN108694243A (zh) * 2018-05-15 2018-10-23 广东因特利信息科技股份有限公司 一种信息自动录入的方法、装置、电子设备及存储介质
CN109542899A (zh) * 2018-10-31 2019-03-29 桂林金发明科技开发有限公司 一种基于靶符号的数据自动录入方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于VBA技术的施工现场试验进度自动控制方法;王茹;黄鑫;蔺向明;王柳舒;;混凝土(第11期);第190-192页 *

Also Published As

Publication number Publication date
CN111563118A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
US11080423B1 (en) System for simulating a de-identified healthcare data set and creating simulated personal data while retaining profile of authentic data
CN109388612B (zh) 一种数据汇总文档生成的方法、设备、系统及介质
JP4999751B2 (ja) データを共有する手法
JP4602769B2 (ja) 文書セットのコンテンツ空間のナビゲーション
US6728733B2 (en) System, method, and program product for administrating document file in computerized network system
CN110532797A (zh) 大数据的脱敏方法和系统
US20020038421A1 (en) Encrypted file system, encrypted file retrieval method, and computer-readable medium
US20060005017A1 (en) Method and apparatus for recognition and real time encryption of sensitive terms in documents
CN106874461A (zh) 一种工作流引擎支持多数据源配置安全访问系统及方法
US20050171965A1 (en) Contents reuse management apparatus and contents reuse support apparatus
EP1227613B1 (en) Method and apparatus for attaching electronic signature to document having structure
US20090022321A1 (en) Personal information management system, personal information management program, and personal information protecting method
TWI410814B (zh) 技術資料分析的系統與方法以及專利分析的系統
JP2009003549A (ja) データ管理装置およびデータ管理方法、データ管理プログラム、データ管理プログラム記憶媒体
US20040243627A1 (en) Chat stream information capturing and indexing system
CN111859876A (zh) 一种表格自动录入方法及系统
CN109542899A (zh) 一种基于靶符号的数据自动录入方法及系统
CN111563118B (zh) 一种实时获得数据的数据自动录入方法及系统
CN117933239A (zh) 合同与设备信息关联方法、装置、设备及存储介质
CN102073805A (zh) 计算机系统及内容管理方法
US20040243536A1 (en) Information capturing, indexing, and authentication system
JP2006331001A (ja) 専門家抽出装置および辞書提供装置
CN103034815A (zh) 用于pdf文件的检测方法和装置
US20040243494A1 (en) Financial transaction information capturing and indexing system
CN118485055B (zh) 面向掌上调查终端的信息录入方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200821

Assignee: GUANGXI XINKAI ZHIQUAN TECHNOLOGY Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980045064

Denomination of invention: A Method and System for Automatically Entering Data in Real Time

Granted publication date: 20230912

License type: Common License

Record date: 20231101

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200821

Assignee: Guilin Biqi Information Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980044793

Denomination of invention: A Method and System for Automatically Entering Data in Real Time

Granted publication date: 20230912

License type: Common License

Record date: 20231031