CN113626385B - 一种基于文本数据读取的方法和系统 - Google Patents

一种基于文本数据读取的方法和系统 Download PDF

Info

Publication number
CN113626385B
CN113626385B CN202110767562.9A CN202110767562A CN113626385B CN 113626385 B CN113626385 B CN 113626385B CN 202110767562 A CN202110767562 A CN 202110767562A CN 113626385 B CN113626385 B CN 113626385B
Authority
CN
China
Prior art keywords
file
attribute
data
analysis
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110767562.9A
Other languages
English (en)
Other versions
CN113626385A (zh
Inventor
周成祖
林文楷
吴文
陈涛涛
朱海勇
蓝坤宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202110767562.9A priority Critical patent/CN113626385B/zh
Publication of CN113626385A publication Critical patent/CN113626385A/zh
Application granted granted Critical
Publication of CN113626385B publication Critical patent/CN113626385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出了一种基于文本数据读取的方法和系统,包括分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中;比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合;响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。该方法和系统可以自动适配已知特征和未知特征的文本文件数据,调取相应的数据提取引擎,实现文本文件类型原始数据的自动识别和解析入库,提高文本文件的提取效率和准确性,提升大数据分析能力。

Description

一种基于文本数据读取的方法和系统
技术领域
本发明涉及数据处理的技术领域,尤其是一种基于文本数据读取的方法和系统。
背景技术
随着社会进入大数据时代,各地的大数据系统需要接入不同行业,多种多样的数据源的原始数据,原始数据提供的方式五花八门,有数据库、EXCEL、数据流、文本文件等,其中文本文件是很常见的接入方式,文本文件类型由于格式多样内容不一,处理起来费时费力,而且容易产生异常结果数据,所以如何自动识别、归类、合并和提取文本文件的数据,快速准确地将文本文件的数据准确接入大数据系统,成为大数据系统建设成败和提高大数据利用价值的核心点。
由于文本文件类型原始数据的格式多样、内容不一等特点,目前市场上现有的数据解析入库方法,主要通过手工填写模板进行数据源的甄别和适配工作,这些技术存在以下不足:
1)数据分析的效率低,由于大数据系统要接入的原始数据种类众多,通过手工配置的方式一个个进行模板定义,工作量大,且源头数据只有等到模板定义好后,才能接入大数据系统,时效性差。
2)数据分析的准确性差,由于文本文件类原始数据的命名、字段名和内容等的格式没统一标准,通过手工配置的方式,无法将多个文件进行关联分析,经常存在配置错误、关联关系没提取等问题。
发明内容
为了解决现有技术中数据分析的效率低和准确性差等一系列的技术问题,本发明提出了一种基于文本数据读取的方法和系统,以解决上述技术问题。
根据本发明的一个方面,提出了一种基于文本数据读取的方法,包括:
S1:分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中;
S2:比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合;以及
S3:响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。
在一些具体的实施例中,步骤S1具体为利用文件分析算法分析过滤重复文件并将关联的文件合并归类至对应数据集合中,文件分析算法包括:
S11:获取待提取文本文件,形成分析数据集合Fn;
S12:遍历数据集合Fn,利用文件HASH值对数据集合Fn进行重复性分析;
S13:利用文件头判断文本文件类型,遍历文件特征库Tn,获取存在相同来源和相同类型的特征记录;
S14:若满足条件的数据集合Fn中的文件名满足命名规则,对分析数据集合的处理顺序号赋值,若不满足命名规则,则往文件特征库Tn中插入一新的规则值,其中,条件为数据集合Fn与文件特征库Tn的数据来源、文件类型和命名规则相同。
在一些具体的实施例中,步骤S12具体为分多次将文件读入内存,分别计算HASH值并获得整个文件的HASH值,若文件提取规则库中存在相同的HASH值的处理记录,则该文件重复,直接丢弃。凭借该步骤可以将重复的文件过滤掉,提高分析效率。
在一些具体的实施例中,步骤S2中的属性集合获取方式为:遍历数据集合Fn,获取数据集合Fn的处理引擎对应的属性列表Mn,获取文件前n行数据作为内容提取分析集合Qn,利用分隔符从内容提取分析集合Qn中生成提取属性集合Sn,其中,分隔符为内容提取分析集合Qn中的数据Q1中出现次数最多的符号。
在一些具体的实施例中,步骤S2中赋值处理引擎具体为:响应于当前属性集合S1与属性列表Mn比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为属性列表的处理引擎。凭借该步骤精准调用对应引擎,将原始数据准确地提到大数据系统里,提高有价值数据的提取效率和准确性。
在一些具体的实施例中,第一阈值设置为90%,第二阈值设置为75%。
在一些具体的实施例中,步骤S3中还包括,对内容提取分析集合Qn的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证属性分析结果集合的匹配度,响应于匹配度大于第一阈值,分析结果准确。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本申请的第三方面,提出了一种基于文本数据读取的系统,该系统包括:
文件分析单元:配置用于分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中;
内容分析单元:配置用于比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合;
文本提取单元:配置用于响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。
在一些具体的实施例中,文件分析单元利用文件分析算法分析过滤重复文件并将关联的文件合并归类至对应数据集合中,文件分析算法包括:
获取待提取文本文件,形成分析数据集合Fn;
遍历数据集合Fn,利用文件HASH值对数据集合Fn进行重复性分析,分多次将文件读入内存,分别计算HASH值并获得整个文件的HASH值,若文件提取规则库中存在相同的HASH值的处理记录,则该文件重复,直接丢弃;
利用文件头判断文本文件类型,遍历文件特征库Tn,获取存在相同来源和相同类型的特征记录;
若满足条件的数据集合Fn中的文件名满足命名规则,对分析数据集合的处理顺序号赋值,若不满足命名规则,则往文件特征库Tn中插入一新的规则值,其中,条件为数据集合Fn与文件特征库Tn的数据来源、文件类型和命名规则相同。
在一些具体的实施例中,内容分析单元具体为:遍历数据集合Fn,获取数据集合Fn的处理引擎对应的属性列表Mn,获取文件前n行数据作为内容提取分析集合Qn,利用分隔符从内容提取分析集合Qn中生成提取属性集合Sn,其中,分隔符为内容提取分析集合Qn中的数据Q1中出现次数最多的符号;响应于当前属性集合S1与属性列表Mn比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为属性列表的处理引擎。
在一些具体的实施例中,还包括验证单元,验证单元配置用于对内容提取分析集合Qn的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证属性分析结果集合的匹配度,响应于匹配度大于第一阈值,分析结果准确。
在一些具体的实施例中,第一阈值设置为90%,第二阈值设置为75%。
本发明提出了一种基于文本数据读取的方法和系统,该方法通过文件分析算法,分析文件的HASH值、来源、类型和命名规律等维度的规律,将重复的文件过滤掉,提高分析效率,将相似多个文件合并归类,保证数据关联的正确性;通过内容分析算法自适应分析每列值对应的属性,并根据内容对属性进行验证,实现文本文件类型原始数据的自动识别和解析入库,提高数据的接入效率和准确率,进而提升大数据的业务支撑能力。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的基于文本数据读取的方法的流程图;
图2是本申请的一个具体的实施例的基于文本数据读取的方法的流程图;
图3是本申请的一个具体的实施例的文件分析的流程图;
图4是本申请的一个具体的实施例的内容分析的流程图;
图5是本申请的一个实施例的基于文本数据读取的系统的框架图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的基于文本数据读取的方法,图1示出了根据本申请的实施例的基于文本数据读取的方法的流程图。如图1所示,该方法包括:
S101:分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中。
在具体的实施例中,利用文件分析算法分析过滤重复文件并将关联的文件合并归类至对应数据集合中,文件分析算法包括:
获取待提取文本文件,形成分析数据集合Fn;
遍历数据集合Fn,利用文件HASH值对数据集合Fn进行重复性分析,其中,分多次将文件读入内存,分别计算HASH值并获得整个文件的HASH值,若文件提取规则库中存在相同的HASH值的处理记录,则该文件重复,直接丢弃;
利用文件头判断文本文件类型,遍历文件特征库Tn,获取存在相同来源和相同类型的特征记录;
若满足条件的数据集合Fn中的文件名满足命名规则,对分析数据集合的处理顺序号赋值,若不满足命名规则,则往文件特征库Tn中插入一新的规则值,其中,条件为数据集合Fn与文件特征库Tn的数据来源、文件类型和命名规则相同。
利用上述的文件分析算法,可以将重复的文件过滤掉,提高分析效率,将相似多个文件合并归类,保证数据关联的正确性。
S102:比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合。
在具体的实施例中,遍历数据集合Fn,获取数据集合Fn的处理引擎对应的属性列表Mn,获取文件前n行数据作为内容提取分析集合Qn,利用分隔符从内容提取分析集合Qn中生成提取属性集合Sn,其中,分隔符为内容提取分析集合Qn中的数据Q1中出现次数最多的符号。响应于当前属性集合S1与属性列表Mn比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为属性列表的处理引擎。优选的,第二阈值为75%。
S103:响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。
在具体的实施例中,对内容提取分析集合Qn的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证属性分析结果集合的匹配度,响应于匹配度大于第一阈值,分析结果准确。优选的,第一阈值设置为90%。
通过上述内容分析可以自适应分析每列值对应的属性,并根据内容对属性值进行验证,实现文本文件类型原始数据的自动识别和解析入库,提高数据的接入效率和准确率,进而提升大数据的业务支撑能力。
相比于现有技术,本申请的数据分析的方式利用文件分析算法,分析文件的HASH值、来源、类型和命名规律等维度的规律,将重复的文件过滤掉,将相关联的文件合并归类,提高文本数据分析提取的效率和准确性。数据处理的方式利用内容分析算法,通过分析属性和值的规律,自适应解析每列值对应的属性,并根据内容对属性值进行验证,实现原始数据的自动识别和解析入库。提高了数据的接入效率和准确率,进而提升大数据的业务支撑能力。
继续参考图2,图2示出了本申请的一个具体的实施例的基于文本数据读取的方法流程图,如图2所示,该方法包括:
步骤201:文本文件数据处理节点。
在具体的实施例中,数据提取流程主要基于文件特征库和文件提取规则库两个核心库。文件特征库为获取不同类型文本文件的特征信息,文件特征表具体定义如表1:
表1.文件特征表
Figure DEST_PATH_IMAGE001
文件提取规则库为获取每个待处理的数据文件信息,文件提取规则表定义如表2:
表2.文件提取规则表
Figure DEST_PATH_IMAGE002
步骤202:文件分析算法。从HASH值、来源、类型和命名规则的角度进行文件分析并获得203中的分析结果。
在具体的实施例中,同一来源系统产生的原始数据,打包生成的文本文件的命名和格式经常变化比较大,通过人工配置的方式进行解析,会存在执行效率低下,归类错误等问题,文件分析算法的核心思想是通过分析文件的HASH值、来源、类型和命名规律等维度的规律,将重复的文件过滤掉,将相关联的文件合并归类,提高数据分析的效率和准确度,分析模型如图3中的文件分析的流程图所示,具体包括:
步骤S2021:文本文件样例数据。获取接入的所有文本文件,形成分析数据集Fn,遍历Fn,依次按后续步骤对每个文件进行分析。
步骤S2022:重复性分析。大数据系统接入的原始数据,往往比较大,有的文件可达几十G,为了提高文件HASH值的计算效率,采用分多次将文件读入内存,再分别计算HASH值,最后得到整个文件的HASH,公式为[Fn].FileHash=DigestUtils.md5Hex(newFileInputStream(path)),结合文件提取规则库,如果已存在相同HASH的处理记录,则说明该文件为重复上报,直接丢弃。
步骤S2023:类型分析。同一来源产生的原始数据,打包生成文本文件时,会因命名差异,导致解析程序识别到的文件类型出错,进而导致解析失败,本算法通过文件头来判断文件类型,最后得到整个文件的类型[Fn].Type,遍历文件特征库Tn,获取有存在相同来源相同类型的特征记录Tn。
步骤S2024:合并归类。原始数据接入时,为了避免文件过大或管理方便,往往会根据一定规则,将数据分别存储在不同的文本文件里,本算法的核心就是根据文件的来源、类型和命名规律等维度的规律,将不同文件的接入处理顺序定义好,以确保原始数据接入大数据系统时的正确性。分析步骤:If ([Fn]. dataSource =[Tn]. dataSource And [Fn].WJLS =[Tn]. WJLS) {[Fn]. MMGZ =[Tn]. MMGZ ;判断[Fn]. FileName,如符合命名规则,如是则按规则回填[Fn].处理顺序号;如不符合规则,则往文件特征库新增一张规则记录}Else {往文件特征库新增一张规则记录};例如:大数据系统要接入汽车订票的原始数据,每天的订票数据打包成文本文件传给大数据系统,文件的命名规则为“4位来源单位+8位日期+4位顺序号”,那么在做合并归类时,验证文件名称符合规则,如符合,对分析数据集合的处理顺序号赋值,如不符合,则往文件特征库插入一条新的规则值。
步骤S2025:保存分析结果。更新文件特征库,循环提高复杂特征自适应匹配的能力,保存分析数据集合Fn。
步骤204:内容分析算法。从文本文件中匹配提取对应属性的内容,传统做法往往是通过人工配置模板的方式,与模板一样的列才能被解析,进入大数据系统,这会导致因分隔符不同、字段命名不同等问题而造成提取不全不准确的问题。本申请通过属性分析、内容验证等方法,自动匹配和验证文件里各个数据块对应的属性,再精准调用对应引擎,将原始数据准确地提到大数据系统里,提高有价值数据的提取效率和准确性,基于这种分析思路,分析模型如图4中的内容分析的流程图所示,具体包括:
步骤S2041:内容样例数据。遍历文件数据集合Fn,获取[Fn].处理引擎对应的属性列表Mn;打开要接入的文本文件,获取文件前100行数据作为内容提取分析集合Qn;
步骤S2042:属性分析。从类型和语义两方面进行分析。通过分析Q1出现次数最多的符号,该符号即为该文件的分隔符,以分隔符为基准从Qn生成提取属性集合Sn,遍历S1,分别取[S1].属性值,与属性列表Mn进行比对,如果完全一样,则赋值处理引擎,即[S1]. Zg=[Mn]. Zg,如果不完全一样,则取(重复字数([S1].属性值,[Mn].属性值))/字数([S1].属性值),如超过一定阈值,优选的,设置为75%,则赋值处理引擎,即[S1]. Zg=[Mn]. Zg,如不符合以上两个条件,提醒人工进行判断,最终形成该文件的属性分析结果集合Xn。
步骤S2043:内容验证。对Qn的内容标注,比如人名标注、时间标注、金额标注、地址标注等。其中时间和金额的标注相比更简单,通过复杂一点的正则表达式就可以检测出来。而人名的标注就要复杂的多,可以采用条件随机场的模型来实现,利用前后上下文的内容、前后词语的词性、词语的长度、是否属于姓氏列表等特征对大量的语料做训练,然后根据训练的结果对内容中的词语做人名标注。根据标注的类型去验证Xn的匹配度,如果匹配度超过90%,则跳过,如果低于90%,提醒人工进行核验,这样就可不断提升属性分析的准确率。例如Xn某一列属性的分析结果为“姓名”,而Qn抽取的100条对应列的数据,通过标识超过90%的列内容均为姓名,那就说明这列的分析结果是准确。
步骤205:解析入库。利用属性对应的特征提取引擎提取Xn的数据,进入大数据系统,保存结果。
针对从海量文本文件类型原始数据格式内容混乱,无法快速准确地提取数据到大数据系统的场景,本申请通过上述的文件分析算法,将重复的文件过滤掉,提高分析效率,将相似多个文件合并归类,保证数据关联的正确性;通过内容分析算法自适应分析每列值对应的属性,并根据内容对属性值进行验证,实现文本文件类型原始数据的自动识别和解析入库,提高数据的接入效率和准确率,进而提升大数据的业务支撑能力。该方法已经实现并且集成在产品中。该方法基于海量数据场景下,可以适配不同场景的文本文件特征,提取有价值数据的速度更快,数据量更多,经本申请发明人的实际测算,在千亿级数据量下,文本文件的提取效率和准确率可比市面上同类产品提高30%以上。
继续参考图5,图5示出了根据本发明的实施例的基于文本数据读取的系统的框架图。该系统具体包括文件分析单元501、内容分析单元502和文本提取单元503。
在具体的实施例中,文件分析单元501配置用于分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中;内容分析单元502配置用于比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合;文本提取单元503配置用于响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。
在一些具体的实施例中,内容分析单元502具体为:遍历数据集合Fn,获取数据集合Fn的处理引擎对应的属性列表Mn,获取文件前n行数据作为内容提取分析集合Qn,利用分隔符从内容提取分析集合Qn中生成提取属性集合Sn,其中,分隔符为内容提取分析集合Qn中的数据Q1中出现次数最多的符号;响应于当前属性集合S1与属性列表Mn比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为属性列表的处理引擎,优选的,第二阈值设置为75%。
在一些具体的实施例中,还包括验证单元,验证单元配置用于对内容提取分析集合Qn的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证属性分析结果集合的匹配度,响应于匹配度大于第一阈值,分析结果准确。优选的,第一阈值设置为90%。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中;比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成文件的属性分析结果集合;响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值,利用属性对应的特处理引擎提取文本数据。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于文本数据读取的方法,其特征在于,包括:
S1:分析过滤重复文件并将关联的文件合并归类至对应数据集合中;
S2:比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成所述文件的属性分析结果集合;以及
S3:响应于所述属性分析结果集合与所述待提取文本文件中的内容提取分析集合的匹配度超过第一阈值,利用属性对应的所述处理引擎提取所述文本数据;
步骤S2中的所述属性集合获取方式为:遍历所述数据集合,获取所述数据集合的处理引擎对应的属性列表,获取所述文件前n行数据作为内容提取分析集合,利用分隔符从所述内容提取分析集合中生成提取属性集合,其中,所述分隔符为所述内容提取分析集合中的数据中出现次数最多的符号;
步骤S2中赋值处理引擎具体为:响应于当前属性集合与属性列表比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为所述属性列表的处理引擎。
2.根据权利要求1所述的基于文本数据读取的方法,其特征在于,步骤S1具体为利用文件分析算法分析过滤重复文件并将关联的文件合并归类至对应数据集合中,所述文件分析算法包括:
S11:获取待提取文本文件,形成分析数据集合;
S12:遍历所述数据集合,利用文件HASH值对所述数据集合进行重复性分析;
S13:利用文件头判断所述文本文件类型,遍历文件特征库,获取存在相同来源和相同类型的特征记录;
S14:若满足条件的所述数据集合中的文件名满足命名规则,对分析数据集合的处理顺序号赋值,若不满足命名规则,则往所述文件特征库中插入一新的规则值,其中,所述条件为所述数据集合与所述文件特征库的数据来源、文件类型和命名规则相同。
3.根据权利要求2所述的基于文本数据读取的方法,其特征在于,步骤S12具体为分多次将文件读入内存,分别计算HASH值并获得整个文件的HASH值,若文件提取规则库中存在相同的HASH值的处理记录,则该文件重复,直接丢弃。
4.根据权利要求1所述的基于文本数据读取的方法,其特征在于,所述第一阈值设置为90%,所述第二阈值设置为75%。
5.根据权利要求1所述的基于文本数据读取的方法,其特征在于,步骤S3中还包括,对所述内容提取分析集合的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证所述属性分析结果集合的匹配度,响应于匹配度大于所述第一阈值,分析结果准确。
6.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至5中任一项所述的方法。
7.一种基于文本数据读取的系统,其特征在于,所述系统包括:
文件分析单元:配置用于分析过滤重复文件并将关联的文件合并归类至对应数据集合中;
内容分析单元:配置用于比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎,并形成所述文件的属性分析结果集合;
文本提取单元:配置用于响应于所述属性分析结果集合与所述待提取文本文件中的内容提取分析集合的匹配度超过第一阈值,利用属性对应的所述处理引擎提取所述文本数据;
所述内容分析单元具体为:遍历所述数据集合,获取所述数据集合的处理引擎对应的属性列表,获取所述文件前n行数据作为内容提取分析集合,利用分隔符从所述内容提取分析集合中生成提取属性集合,其中,所述分隔符为所述内容提取分析集合中的数据中出现次数最多的符号;响应于当前属性集合与属性列表比对结果完全一致,或者当前属性集合与属性列表的属性值重复的字数与当前属性集合属性值的字数的比值超过第二阈值时,将当前属性集合处理引擎赋值为所述属性列表的处理引擎。
8.根据权利要求7所述的基于文本数据读取的系统,其特征在于,所述文件分析单元利用文件分析算法分析过滤重复文件并将关联的文件合并归类至对应数据集合中,所述文件分析算法包括:
获取待提取文本文件,形成分析数据集合;
遍历所述数据集合,利用文件HASH值对所述数据集合进行重复性分析,分多次将文件读入内存,分别计算HASH值并获得整个文件的HASH值,若文件提取规则库中存在相同的HASH值的处理记录,则该文件重复,直接丢弃;
利用文件头判断所述文本文件类型,遍历文件特征库,获取存在相同来源和相同类型的特征记录;
若满足条件的所述数据集合中的文件名满足命名规则,对分析数据集合的处理顺序号赋值,若不满足命名规则,则往所述文件特征库中插入一新的规则值,其中,所述条件为所述数据集合与所述文件特征库的数据来源、文件类型和命名规则相同。
9.根据权利要求7所述的基于文本数据读取的系统,其特征在于,还包括验证单元,所述验证单元配置用于对所述内容提取分析集合的内容标注,标注内容包括人名标注、时间标注、金额标注和地址标注,根据标注类型验证所述属性分析结果集合的匹配度,响应于匹配度大于所述第一阈值,分析结果准确。
10.根据权利要求7所述的基于文本数据读取的系统,其特征在于,所述第一阈值设置为90%,所述第二阈值设置为75%。
CN202110767562.9A 2021-07-07 2021-07-07 一种基于文本数据读取的方法和系统 Active CN113626385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110767562.9A CN113626385B (zh) 2021-07-07 2021-07-07 一种基于文本数据读取的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110767562.9A CN113626385B (zh) 2021-07-07 2021-07-07 一种基于文本数据读取的方法和系统

Publications (2)

Publication Number Publication Date
CN113626385A CN113626385A (zh) 2021-11-09
CN113626385B true CN113626385B (zh) 2022-07-15

Family

ID=78379237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110767562.9A Active CN113626385B (zh) 2021-07-07 2021-07-07 一种基于文本数据读取的方法和系统

Country Status (1)

Country Link
CN (1) CN113626385B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1965321A1 (en) * 2007-03-01 2008-09-03 Sony Corporation Information processing apparatus, method, and program
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN109299279A (zh) * 2018-11-29 2019-02-01 北京奇安信科技有限公司 一种数据处理方法、设备、系统和介质
CN110909170A (zh) * 2019-10-12 2020-03-24 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN111263938A (zh) * 2017-09-29 2020-06-09 甲骨文国际公司 基于规则的自主数据库云服务框架
CN111782595A (zh) * 2020-05-29 2020-10-16 中国平安财产保险股份有限公司 海量文件管理方法、装置、计算机设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2568276C2 (ru) * 2014-01-24 2015-11-20 Закрытое акционерное общество "РИВВ" Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1965321A1 (en) * 2007-03-01 2008-09-03 Sony Corporation Information processing apparatus, method, and program
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN111263938A (zh) * 2017-09-29 2020-06-09 甲骨文国际公司 基于规则的自主数据库云服务框架
CN109299279A (zh) * 2018-11-29 2019-02-01 北京奇安信科技有限公司 一种数据处理方法、设备、系统和介质
CN110909170A (zh) * 2019-10-12 2020-03-24 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN111782595A (zh) * 2020-05-29 2020-10-16 中国平安财产保险股份有限公司 海量文件管理方法、装置、计算机设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义文法的属性知识获取;陆叶等;《信息技术》;20170225(第02期);全文 *

Also Published As

Publication number Publication date
CN113626385A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN111522816B (zh) 基于数据库引擎的数据处理方法、装置、终端及介质
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
US9104709B2 (en) Cleansing a database system to improve data quality
WO2023272850A1 (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN114297140A (zh) 一种基于人工智能的档案管理系统
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和系统
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的系统
CN113626385B (zh) 一种基于文本数据读取的方法和系统
CN112084448A (zh) 相似信息处理方法以及装置
CN113741864B (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN115171136A (zh) 银行业务材料内容分类识别方法、设备及存储介质
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
CN114118072A (zh) 文档结构化方法、装置、电子设备和计算机可读存储介质
US9251253B2 (en) Expeditious citation indexing
CN112256836A (zh) 记录数据的处理方法、装置和服务器
AU2019290658A1 (en) Systems and methods for identifying and linking events in structured proceedings
CN110874398A (zh) 违禁词处理方法、装置、电子设备及存储介质
CN110580243A (zh) 一种文件比对方法、装置、电子设备及存储介质
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质
CN113626427B (zh) 一种基于规则引擎的主题检索方法和系统
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN117349388B (zh) 数据时效性确定方法、电子设备
JP2004206468A (ja) 文書管理システム及び文書管理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant