CN111507236B - 文件处理方法、系统、装置及介质 - Google Patents

文件处理方法、系统、装置及介质 Download PDF

Info

Publication number
CN111507236B
CN111507236B CN202010286711.5A CN202010286711A CN111507236B CN 111507236 B CN111507236 B CN 111507236B CN 202010286711 A CN202010286711 A CN 202010286711A CN 111507236 B CN111507236 B CN 111507236B
Authority
CN
China
Prior art keywords
file
text information
processing method
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010286711.5A
Other languages
English (en)
Other versions
CN111507236A (zh
Inventor
陈康
杨永彪
路强
陈希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Langxi Information Technology Co ltd
Original Assignee
Shanghai Langxi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Langxi Information Technology Co ltd filed Critical Shanghai Langxi Information Technology Co ltd
Priority to CN202010286711.5A priority Critical patent/CN111507236B/zh
Publication of CN111507236A publication Critical patent/CN111507236A/zh
Application granted granted Critical
Publication of CN111507236B publication Critical patent/CN111507236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明文件处理方法、系统、装置及介质,包括如下步骤:步骤1,输入文件;步骤2,读取文件并获取文件中的文字信息;步骤3,通过文字信息获取文本信息团块;步骤4,通过文本信息团块形成结构化数据。与现有技术相比,本发明具有如下优势:对文本型文件和图像型文件进行识别并分类;将识别后的文件统一转化为数据内容,并存档,本发明使用Json格式存储数据内容;对数据内容进行分析处理确定其信息之间的关系,对信息进行结构化处理并存储。

Description

文件处理方法、系统、装置及介质
技术领域
本发明属于一种文件处理方法、系统、装置及介质。
背景技术
现有技术,中国专利《一种国际贸易文件处理方法、系统以及一种服务器》(公开号:108170697A)提供一种国际贸易文件处理方法、系统以及一种服务器,所述方法包括:对图像国际贸易文件和文档国际贸易文件进行分类;识别图像国际贸易文件并将识别后的图像国际贸易文件和文档国际贸易文件统一转换为XML文件;根据XML文件附带的文件特征对XML文件进行分类;对XML文件进行分析处理确定XML文件中结构化部分和非结构化部分;对非结构化部分中的内容进行边界判别,确定标题区域和内容区域;对结构化部分有线框则依据线框,无线框则进行自适应投影;利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储。所以本发明可完成国际贸易文件的结构化存储。
但是,现有技术存在如下技术缺陷:
1)未能有效提取国际贸易类文件的更多有效信息,在分类时会有较高差错率;
2)未能充分利用人工智能自然语言处理技术对文档内容进行分析整理;
3)处理并归并信息团块时处理方法较乱,逻辑不清晰,差错率较高。
发明内容
针对现有技术中的缺陷,本发明目的在于提供一种解决上述技术问题的文件处理方法、系统、装置及介质。
为解决上述技术问题,本发明提供一种文件处理方法,包括如下步骤:
步骤1,输入文件;
步骤2,读取文件并获取文件中的文字信息;
步骤3,通过文字信息获取文本信息团块;
步骤4,通过文本信息团块形成结构化数据。
优选地,步骤2包括:
步骤2.1,系统后端服务器读取文件;
步骤2.2,获取文件的类型;
若文件的类型为图像型文件,则将图像型文件的图像信息转化为文字信息;
若文件的类型为文本型文件,则获取文本型文件的文字信息。
优选地,步骤2.2中,通过光学字符识别将图像型文件的图像信息转化为文字信息。
优选地,文字信息包括文本信息、空间位置信息及字形特征。
优选地,步骤3中,根据文本信息的空间位置信息在同一个维度上的连续性归并文本信息团块。
优选地,步骤4包括:
步骤4.1,获取文本信息团块中的关键词;
步骤4.2,通过关键词、文本信息、空间位置信息及字形特征对文件进行分类;
步骤4.3,根据文件的分类形成结构化数据;
步骤4.4,对结构化数据进行校验并矫正。
优选地,还包括步骤5,将结构化数据以结构化的方式存储。
一种系统,包括:
输入模块,输入文件;
读取模块,读取文件并获取文件中的文字信息;
归并模块,通过文字信息获取文本信息团块;
结构模块,通过文本信息团块形成结构化数据。
一种装置,包括:存储有文件处理程序的存储器及用于运行文件处理程序的处理器,文件处理程序配置为实现文件处理方法的步骤。
一种计算机可读存储介质,计算机可读存储介质上存储有文件处理程序,文件处理程序被处理器执行时实现文件处理方法的步骤。
与现有技术相比,本发明具有如下优势:对文本型文件和图像型文件进行识别并分类;将识别后的文件统一转化为数据内容,并存档,本发明使用Json格式存储数据内容;对数据内容进行分析处理确定其信息之间的关系,对信息进行结构化处理并存储。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征目的和优点将会变得更明显。
图1为本发明文件处理方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改。
如图1所示,本发明文件处理方法包括如下步骤:
步骤1.用户通过系统前端提交国际贸易文件到系统后端服务器。
步骤2.系统后端服务器读取文件,并判断文件格式是图像型国际贸易文件,还是文本型国际贸易文件。
步骤3.如果文件格式是图像型,则通过OCR技术将图像型文字信息转化为文本信息,同时提取文本信息的空间位置信息及字形特征;如果是文本型文件格式,则直接提取文本信息及空间位置信息及字形特征,如字体及大小;在提取文本信息空间位置时,判断文本信息周边是否有表格线(或组成表征表格线的字符串组合,如有则视为表格线),如果被表格线包围的,提取空间位置信息时增加第三个维度。
步骤4.根据文本信息的空间位置在同一个维度上的连续性,判断并归并文本信息团块。
步骤5.使用事先训练好的国际贸易知识库,作为分析语料库,使用自然语言处理处理技术,对提取出的信息团块进行语义分析;找出国际贸易相关活动中的关键词,以及关键词的相关匹配项。
步骤6.根据找出的国际贸易关键词内容及其空间位置信息、字形信息,采用适当的分类算法确定其文件分类。
步骤7.根据文件分类信息,进一步校验并矫正文档内其他关键词及内容匹配项的准确性,并最终形成结构化数据。
步骤8.将生成的结构化数据以Json或XML或其他结构化数据存放方式存储起来,如数据库系统。
本发明还提供了一种装置,包括:存储有文件处理程序的存储器及用于运行文件处理程序的处理器,文件处理程序配置为实现文件处理方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有文件处理程序,文件处理程序被处理器执行时实现文件处理方法的步骤。
1、通过机器自动识别国际贸易类文件,转换为结构化数据,并存储以备各种数据系统取用,解决了大量的国际贸易类文件靠手工录入的问题,如传统的报关单人工录入,大幅提高了工作效率;
2、采用自然语言处理技术,对文档中的信息团块进行分析识别,解决了非结构化数据难以结构化的问题;
3、使用分类算法,并根据文档中已经识别出的信息团块及其空间特征对文档进行分类,解决了机器识别不同国际贸易类文件的问题。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种文件处理方法,其特征在于,包括如下步骤:
步骤1,输入文件;
步骤2,读取文件并获取文件中的文字信息;
步骤3,通过文字信息获取文本信息团块;
步骤4,通过文本信息团块形成结构化数据;
步骤3中,根据文本信息的空间位置信息在同一个维度上的连续性归并文本信息团块;
步骤4包括:
步骤4.1,获取文本信息团块中的关键词;
步骤4.2,通过关键词、文本信息、空间位置信息及字形特征对文件进行分类;
步骤4.3,根据文件的分类形成结构化数据;
步骤4.4,对结构化数据进行校验并矫正。
2.根据权利要求1所述的文件处理方法,其特征在于,步骤2包括:
步骤2.1,系统后端服务器读取文件;
步骤2.2,获取文件的类型;
若文件的类型为图像型文件,则将图像型文件的图像信息转化为文字信息;
若文件的类型为文本型文件,则获取文本型文件的文字信息。
3.根据权利要求2所述的文件处理方法,其特征在于,步骤2.2中,通过光学字符识别将图像型文件的图像信息转化为文字信息。
4.根据权利要求2或3所述的文件处理方法,其特征在于,文字信息包括文本信息、空间位置信息及字形特征。
5.根据权利要求1所述的文件处理方法,其特征在于,还包括步骤5,将结构化数据以结构化的方式存储。
6.一种系统,其特征在于,包括:
输入模块,输入文件;
读取模块,读取文件并获取文件中的文字信息;
归并模块,通过文字信息获取文本信息团块;
结构模块,通过文本信息团块形成结构化数据;
所述归并模块中,根据文本信息的空间位置信息在同一个维度上的连续性归并文本信息团块;
所述结构模块包括:
模块1,获取文本信息团块中的关键词;
模块2,通过关键词、文本信息、空间位置信息及字形特征对文件进行分类;
模块3,根据文件的分类形成结构化数据;
模块4,对结构化数据进行校验并矫正。
7.一种装置,其特征在于,包括:存储有文件处理程序的存储器及用于运行文件处理程序的处理器,文件处理程序配置为实现如权利要求1~6任一项所述的文件处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有文件处理程序,文件处理程序被处理器执行时实现如权利要求1~6任一项所述的文件处理方法的步骤。
CN202010286711.5A 2020-04-13 2020-04-13 文件处理方法、系统、装置及介质 Active CN111507236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010286711.5A CN111507236B (zh) 2020-04-13 2020-04-13 文件处理方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010286711.5A CN111507236B (zh) 2020-04-13 2020-04-13 文件处理方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN111507236A CN111507236A (zh) 2020-08-07
CN111507236B true CN111507236B (zh) 2023-05-12

Family

ID=71875069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010286711.5A Active CN111507236B (zh) 2020-04-13 2020-04-13 文件处理方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN111507236B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06168267A (ja) * 1992-11-30 1994-06-14 Itec:Kk 構造化文書作成方法及び構造化文書作成支援装置
JP2007041709A (ja) * 2005-08-01 2007-02-15 Canon Inc 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06168267A (ja) * 1992-11-30 1994-06-14 Itec:Kk 構造化文書作成方法及び構造化文書作成支援装置
JP2007041709A (ja) * 2005-08-01 2007-02-15 Canon Inc 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
缪嘉嘉 ; 付印金 ; 毛捍东 ; .KingCloud:智能对象归档系统.计算机科学.2016,(S2),全文. *

Also Published As

Publication number Publication date
CN111507236A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US11348353B2 (en) Document spatial layout feature extraction to simplify template classification
US10482174B1 (en) Systems and methods for identifying form fields
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US10452700B1 (en) Systems and methods for parsing log files using classification and plurality of neural networks
Bensefia et al. Writer verification based on a single handwriting word samples
Rausch et al. Docparser: Hierarchical document structure parsing from renderings
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
Khan et al. Analysis of Cursive Text Recognition Systems: A Systematic Literature Review
CN111507236B (zh) 文件处理方法、系统、装置及介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
Duth et al. Recognition of hand written and printed text of cursive writing utilizing optical character recognition
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
Pegu et al. Table structure recognition using CoDec encoder-decoder
CN112417220A (zh) 一种异构数据的整合方法
JP2021125040A (ja) 帳票仕分システム、帳票仕分方法、及びプログラム
Shu et al. Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质
Nisa et al. Annotation of struck-out text in handwritten documents
Sara et al. Label-Value Extraction from Documents Using Co-SSL Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant