CN114004221A - 一种表格内容的校正方法及装置 - Google Patents

一种表格内容的校正方法及装置 Download PDF

Info

Publication number
CN114004221A
CN114004221A CN202111250644.2A CN202111250644A CN114004221A CN 114004221 A CN114004221 A CN 114004221A CN 202111250644 A CN202111250644 A CN 202111250644A CN 114004221 A CN114004221 A CN 114004221A
Authority
CN
China
Prior art keywords
content
corrected
area
target
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111250644.2A
Other languages
English (en)
Inventor
陈柯燃
辛煜辉
胡娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202111250644.2A priority Critical patent/CN114004221A/zh
Publication of CN114004221A publication Critical patent/CN114004221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种表格内容的校正方法及装置,其中所述方法包括:对待校正表格进行内容提取,得到待校正内容;确定对应于所述待校正内容的校正规则;根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格,从而可以实现自动地对待校正表格的内容进行校正,提升效率。

Description

一种表格内容的校正方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种表格内容的校正方法及装置、电子设备和存储介质。
背景技术
电子表格由多个单元格组成,根据所在行或列的不同,单元格中的内容可以为数字类型,例如时间、余额、货币等,也可以为文本类型,例如姓名、项目名称、备注文本等。
现有技术中,在对电子表格中的内容进行识别时,会遇到以下问题,例如当用户导出或下载的数据使用电子表格打开时,默认数字格式为文本型数值,导致数字无法参与后续的图表或公式的计算;又例如当多人协作编辑电子表格时,由于各用户的数据输入习惯不一致,可能同时存在多种数字的格式,例如2021年1月1日、2021/1/1、2021-1-1等,影响阅读和理解。
然而,现有技术中出现上述问题时,需要用户逐个查找纠正,效率低下,用户体验不佳。
发明内容
本发明提供一种表格内容的校正方法及装置、电子设备和存储介质,用以解决现有技术中存在的技术缺陷。
本发明提供一种表格内容的校正方法,包括:
对待校正表格进行内容提取,得到待校正内容;
确定对应于所述待校正内容的校正规则;
根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
根据本发明提供的一种表格内容的校正方法,根据所述校正规则对所述待校正内容进行内容校正,得到目标内容,包括:
根据所述校正规则对所述待校正内容进行元数据校正、字符格式校正、和/或字段格式校正,得到所述目标内容。
根据本发明提供的一种表格内容的校正方法,所述利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格,包括:
预览所述目标内容;
在接收确认替换操作的情况下,利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格。
根据本发明提供的一种表格内容的校正方法,所述方法还包括:
接收用户发出的自定义校正规则,根据所述自定义校正规则更新所述校正规则。
根据本发明提供的一种表格内容的校正方法,对待校正表格进行内容提取,得到待校正内容,包括:
提取待校正表格的内容区域;其中,所述内容区域包含待校正单元格;
确定所述内容区域中的待校正单元格;
对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
根据本发明提供的一种表格内容的校正方法,所述内容区域包括至少一个单元区域;
确定所述内容区域中的待校正单元格,包括:
确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式;
将不符合目标内容格式的单元格作为所述待校正单元格。
根据本发明提供的一种表格内容的校正方法,所述提取待校正表格的内容区域,包括:
划分所述待校正表格的至少一个表格区域;
排除所述表格区域中的非内容区域,得到所述内容区域;其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
根据本发明提供的一种表格内容的校正方法,所述内容区域包括数字内容区域,对所述内容区域中的待校正单元格进行内容提取,得到待校正内容,包括:
对所述数字内容区域中的待校正单元格进行内容提取,得到待校正内容。
根据本发明提供的一种表格内容的校正装置,包括:
内容提取模块,用于对待校正表格进行内容提取,得到待校正内容;
规则确定模块,用于确定对应于所述待校正内容的校正规则;
内容校正模块,用于根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
替换模块,用于利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述表格内容的校正方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述表格内容的校正方法的步骤。
本发明提供的表格内容的校正方法和装置,对待校正表格进行内容提取,得到待校正内容,确定对应于待校正内容的校正规则,根据校正规则对待校正内容进行内容校正,得到目标内容,然后利用目标内容在待校正表格中替换待校正内容,得到目标表格,从而可以实现自动地对待校正表格的内容进行校正,提升效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种表格的示意图;
图2是本发明提供的表格内容的校正方法的流程示意图之一;
图3是本发明提供的表格内容的校正方法的流程示意图之二;
图4~图7是通过本发明提供的表格内容的校正方法对表格进行处理的示意图之一;
图8~图12是通过本发明提供的表格内容的校正方法对表格进行处理的示意图之二;
图13是本发明提供的表格内容的校正方法的流程示意图之三;
图14是本发明提供的表格内容的校正装置的结构示意图;
图15是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明实施例涉及的名词术语进行解释。
大标题:一个表格区域的总标题,如图1中的101区域。
副标题:大标题的辅助标题,如图1中的102区域。
行标题:每一行的标题,用于说明该列单元格的内容,如图1中的103区域。
备注区:一般处于单个表格区域的下方,用于对该表格区域进行特别说明,如图1中的104区域。
文本:文本可以为一个专有名词、一个句子、一个段落或一篇文章,文本也可以包括汉字文本、英文文本等。
本发明实施例公开了一种表格内容的校正方法,参见图2,包括下述步骤201~204:
步骤201、对待校正表格进行内容提取,得到待校正内容。
具体地,待校正表格包括大标题、副标题、备注区、表格区等多个区域,进行内容提取的区域可以包括上述全部或部分区域。
在进行内容提取的过程中,可以先进行内容过滤,以排除掉一部分非内容区域,得到内容区域;然后对内容区域中的待校正单元格进行内容提取,从而得到待校正内容。
其中,非内容区域中的任一单元格包括特殊字符、空白内容、错误码中的至少一项。例如特殊符号-、/、.等;又例如由于电子表格公式引用问题产生的错误码:#REF!、#N/A、#DIV/0!、#VALUE!、#NAME?、#NUL!、#NUM!等。
通过步骤201,可以自动确定待校正表格中的待校正内容,用于后续步骤中的内容校正。
步骤202、确定对应于所述待校正内容的校正规则。
其中,校正规则可以为预先定义的校正规则,也可以为根据目标内容格式来确定校正规则。
具体地,校正规则可以包括多种,例如元数据的校正规则,例如对错别字、错误的单词、中文文本中的英文的校正规则;
字符格式的校正规则,例如字符的字体、颜色、样式、字体、加粗、下划线、字号的校正规则;
字段格式的校正规则,例如日期格式、身份证格式、手机格式、邮箱、姓名、地名等的校正规则。
以待校正内容的校正规则为根据目标内容格式确定为例,例如目标内容格式为数字格式,则校正规则需要包括字段格式的校正规则;又例如目标内容格式为字符格式,则校正规则需要包括元数据以及字符格式的校正规则。
具体使用时,校正规则并非固定不变的,可以通过接收用户发出的自定义校正规则,根据自定义校正规则更新校正规则,从而适用于不同的使用场景。
步骤203、根据所述校正规则对所述待校正内容进行内容校正,得到目标内容。
具体地,步骤203具体包括:根据所述校正规则对所述待校正内容进行元数据校正、字符格式校正、和/或字段格式校正,得到所述目标内容。
其中,在所述待校正内容包括元数据的情况下,步骤203包括:
将各个待校正单元格的内容与元数据的校正规则中的待校正内容进行比较,并基于待校正内容确定目标内容。
其中,元数据的校正规则包括:错别字及其对应的正确字、错误单词及其对应的正确单词、含英文的中文文本及其对应的正确文本中的至少一个;待校正内容包括:错别字、错误单词、含英文的中文文本中的至少一个;目标内容包括:错别字对应的正确字、错误单词对应的正确单词、含英文的中文文本对应的正确文本中的至少一个。
在所述待校正内容包括字符格式的情况下,步骤203包括:
将各个待校正单元格的内容与字符格式的校正规则中的待校正内容进行比较,并基于待校正内容确定目标内容。
其中,字符格式的校正规则包括:字符的字体、颜色、样式、加粗、下划线、字号中的至少一个的校正规则;
待校正内容包括:错误的字体、颜色、样式、加粗、下划线、字号中的至少一个;目标内容包括:正确的字体、颜色样式、加粗、下划线、字号中的至少一个。
需要说明的是,对于字符格式的校正,需要根据实际需求而预先定义。例如对于当前的待校正表格,定义字符格式包括:字体为楷体、字号为五号、不加粗、无下划线、颜色为黑色,则对于字体为宋体、仿宋、幼圆等的单元格,字号为四号、小三等的单元格均为待校正单元格。
在所述待校正内容包括字段格式的情况下,步骤203包括:
将各个待校正单元格的内容与字段格式的校正规则中的待校正内容进行比较,并基于待校正内容确定目标内容。
其中,字段格式的校正规则包括:日期格式、身份证格式、手机号格式、邮箱、姓名、地名等的至少一个的校正规则;
待校正内容包括:错误的日期格式、身份证格式、手机号格式、邮箱、姓名、地名等的至少一个;
目标内容包括:正确的日期格式、身份证格式、手机号格式、邮箱、姓名、地名等的至少一个。
例如正确的手机号格式为000-0000-0000,则对于包含手机号格式为000-00000000、000/0000/0000、00000000000的单元格均为待校正单元格。
通过步骤203,可以自动地根据校正规则对待校正内容进行内容校正得到目标内容,无需人工依次对每个待校正单元格的待校正内容进行校正,以提高效率。
步骤204、利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
具体地,在执行替换之前,步骤204包括:预览目标内容;在接收确认替换操作的情况下,利用目标内容替换待校正表格中的待校正内容,得到目标表格。
其中,除了目标内容之外,预览的内容还包括:待校正的标题数量、每个待校正的标题对应的序号、待校正的标题名称、每个标题对应的待校正的单元格数量、待校正的单元格的待校正内容。
对于电子表格的新人用户,可以在任务窗格中对待校正单元格的目标内容的效果进行预览确认,以确保校正前后不会造成原始数据的变动或丢失。
对于经常使用电子表格的高频用户,他们可以在任务窗格中通过点击问题卡片,快速定位至待校正单元格在待校正表格中的位置,再进行“修改”或“忽略”操作,实现高效地对数字格式的处理。
通过步骤204,可以自动得到校正后的表格,保证表格的各个功能的正常使用。
本发明实施例提供的表格内容的校正方法,对待校正表格进行内容提取,得到待校正内容,确定对应于待校正内容的校正规则,根据校正规则对待校正内容进行内容校正,得到目标内容,然后利用目标内容在待校正表格中替换待校正内容,得到目标表格,从而可以实现自动地对待校正表格的内容进行校正,提升效率。
进一步地,参见图3,本发明实施例的步骤201中对待校正表格进行内容提取,得到待校正内容,具体包括:
步骤301、提取待校正表格的内容区域;其中,所述内容区域包含待校正单元格。
具体地,步骤301包括:划分所述待校正表格的至少一个表格区域;排除表格区域中的非内容区域,得到内容区域;其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
具体地,待校正表格包括多个标题,标题可以为行标题,也可以为列标题,每个行标题对应的单元格可以为该行标题所在列的列单元格,每个列标题对应的单元格可以为该列标题所在行的行单元格。
在划分的过程中,可以遵循以下条件:每逢行标题进行对应列的划分,连续空白行的数量大于设定阈值时则将对应的列再次进行划分;或者每逢列标题进行对应行的划分,连续空白列的数量大于设定阈值时则将对应的行再次进行划分。
通过步骤301,可以对待校正表格进行初步处理,排除表格区域中的非内容区域,得到内容区域,以用于后续步骤的继续对内容区域的加工。
步骤302、确定所述内容区域中的待校正单元格。
具体地,步骤302中,可以确定内容区域的目标内容格式,将不符合目标内容格式的单元格作为待校正单元格。
其中,内容区域的目标内容格式可以为预先定义,也可以为内容区域的单元格的内容格式来确定。
在一种具体实施方案中,内容区域包括至少一个单元区域,确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式。
例如每个单元区域中的单元格的字段格式为日期格式,内容格式包括xxxx年yy月dd日、xxxx-yy-dd、xxxx/yy/dd。若在当前的单元区域中,内容格式为xxxx年yy月dd日的单元格数量最多,则将xxxx年yy月dd日作为该单元区域的目标内容格式。
在确定了目标内容格式之后,还可以进一步根据目标内容格式确定校正规则。例如在确定了日期格式为该单元区域的目标内容格式之后,对应地确定校正规则为日期格式校正规则。
在另一种具体实施方案中,预先定义内容区域的目标内容格式。例如预先定义目标内容格式为日期格式,则将非日期格式的单元格作为待校正单元格。
步骤303、对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
若内容区域包括字符内容区域,步骤303包括:对所述字符内容区域中的待校正单元格进行内容提取,得到待校正内容。
若内容区域包括元数据内容区域,步骤303包括:对所述元数据内容区域中的待校正单元格进行内容提取,得到待校正内容。
若内容区域包括数字内容区域,步骤303包括:对所述数字内容区域中的待校正单元格进行内容提取,得到待校正内容。
本实施例的方法,可以实现对数字格式和/或文本格式的单元格内容的校正,从而应用于多个场景中。
例如将本方法应用于对包含用户信息的待校正表格中的数字内容的校正,包括日期、身份证号、电话等的校正;
又例如将本方法应用于对包含专业领域信息的待校正表格的文本内容的校正,包括对专业词汇的校正、错别字的校正、地理位置的校正等;
再例如将本方法应用于对包含英文内容的待校正表格的文本内容的校正,包括英文大小写的校正、英文词汇的校正等。
当然,对应地要实现上述校正的功能,需要预先训练得到对应的神经网络模型,例如文本识别模型、数字识别模型等。在使用时,将待校正内容输入对应的模型中,以实现通过神经网络模型对待校正内容的自动校正。
参见图4~图7,示出了在内容区域包括数字内容区域的情况下通过本实施例的方法得到目标表格的过程。
以数字类型为例,支持识别的数字类型包括多种,例如日期类型、时间类型、日期时间类型、货币类型、百分比类型、科学记数类型、手机号类型、固定电话类型、身份证号类型、普通数值类型、长数字类型、邮箱类型等。
所述方法包括:
步骤S41、提取待校正表格的剩余区域。
再根据剩余区域进行提取得到内容区域。
需要说明的是,由于需要提取的是数字内容区域,所以对于大标题、副标题、备注区等区域一般不包括数字内容,可以在第一步进行筛除掉,从而得到剩余区域。图4示出了得到剩余区域401的示意图。
步骤S42、划分所述待校正表格的至少一个表格区域。
对于单个待校正表格中,剩余区域可能存在多个大标题或多个行标题对应的内容区域,该多个内容区域的内容独立且不可合并。对于此种待校正表格,需要先将待校正表格的剩余区域划分为至少一个独立的表格区域,再分别对表格区域进行提取,得到每个表格区域对应的内容区域。
划分时,可以遵循以下条件:每逢行标题进行对应列的划分,连续空白行的数量大于设定阈值时则将对应的列再次进行划分;或者每逢列标题进行对应行的划分,连续空白列的数量大于设定阈值时则将对应的行再次进行划分。
步骤S43、排除表格区域中的非内容区域,得到所述内容区域。
其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
图5示出了得到内容区域501的示意图。
步骤S44、确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式。
参见图6,图6中的601区域为根据内容区域进行提取得到的待校正内容。
参见图6的“开学日期”列,包括3个单元格的字段:2021年3月1日、2021/3/1、2021--3--1,最终确定该3个单元格的内容格式为日期格式。日期格式可以包括多种,例如x年x月x日、xxxx/yy/dd、xxxx-yy-dd等等。
本实施例中,可以确定每个单元格字段的数字格式,将出现次数最多的数字格式作为该列有效单元格字段对应的目标格式。若各个数字格式出现的次数相同,也可以随机选择一种格式作为目标格式。例如图5中,3个列单元格分别对应一种数字格式,则随机选择“xxxx年yy月dd日”作为目标格式。
步骤S45、将不符合目标内容格式的单元格作为待校正单元格。
步骤S46、对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
步骤S47、确定对应于所述待校正内容的校正规则。
本实施例中,待校正内容为数字内容,确定对应的校正规则为数字校正规则。
具体地,校正规则可以为预先设置并被保存至指定区域,在使用时被调用,例如对于数字内容,代表“月”的数据不能超过12、代表“日”的数据不能超过31、手机号码类型的数据不能超过11位数字、邮箱类型的数据只能存在一个“@”符号等。不满足规则的即记为待校正单元格,并通过校正得到待校正单元格的符合校正规则的目标内容。
步骤S48、根据所述校正规则对所述待校正内容进行内容校正,得到目标内容。
步骤S49、利用目标内容在所述待校正表格中替换待校正内容,得到目标表格。
参见图7,将待校正单元格的待校正内容2021/3/1和2021--3--1替换为2021年3月1日,得到校正后的目标内容。
具体实现时,可以通过神经网络实现校正的功能。例如可以将待校正单元格的待校正内容输入至校正模型中,输出校正后的符合校正规则的目标内容。其中,校正模型为预先通过作为样本数据的校正前和校正后的样本单元格内容进行训练得到。
为了进一步地对本发明实施例的表格内容的校正方法进行解释,下面以一个对待校正表格的数字内容进行校正的具体实例对本发明实施例的方法进行示意性的说明。参见图8~图12以及图13,本发明实施例的方法包括:
步骤1301、划分所述待校正表格的两个表格区域。
本实施例中,划分规则可以包括:在横向,每逢空白列则进行切表操作;在纵向,每逢大标题则进行切表操作。
如图8所示,由于第一个表格区域和第二个表格区域之间有一个空白列,所以依据划分规则,将待校正表格划分为两个表格区域。
步骤1302、排除表格区域中的无效区域,得到表格区域中的剩余区域。
其中,无效区域包括:大标题、副标题、备注区中的至少一个。
本例中,将大标题“一队2020年2月情况”、“二队2020年2月情况”排除,得到每个表格区域的剩余区域。
步骤1303、排除剩余区域中的非内容区域,得到所述内容区域;其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
如图9和图10所示,经过对剩余区域的区域提取,得到多个内容区域。需要说明的是,由于图示例子中将不包括数字内容的区域作为非内容区域,所以在确定内容区域的过程中,将“姓名”一列作为非内容区域排除掉。
其中,每个内容区域包括至少一个单元区域。单元区域可以为每个表格区域中的任一行单元格或者任一列单元格组成的区域。参见图9,图9所示的内容区域中,有的内容区域包括多列单元格组成的单元区域,有的内容区域包括一列单元格组成的单元区域。
步骤1304、确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式。
本实施例中,例如由于xxxx/yy/dd格式出现字数最多,则将该种格式作为日期列对应的目标内容格式。
步骤1305、将不符合目标内容格式的单元格作为所述待校正单元格。
参见图11,将行标题为日期的列单元格中不符合目标内容格式的单元格作为待校正单元格,例如包括“2020年1月1日”、“2020//1/5”、“2020--1--6”等格式的单元格。
步骤1306、对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
步骤1307、确定对应于所述待校正内容的数字校正规则。
对于数字规则,前述实施例已经详述,在此便不再赘述。
进一步地,本实施例中还可以接收用户发出的自定义校正规则,根据所述自定义校正规则更新校正规则。
步骤1308、根据数字校正规则对待校正内容进行内容校正,得到目标内容。
步骤1309、预览所述目标内容。
其中,除去目标内容之外,预览的内容还包括:待校正的行标题数量、每个待校正的行标题对应的列序号、待校正的行标题名称、每个行标题对应的待校正的单元格数量、待校正的单元格内容。
步骤1310、在接收确认替换操作的情况下,利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格。
图12所示为目标表格,其中,将待校正单元格的待校正内容均修改为“xxxx/yy/dd”的格式的目标内容。
下面对本发明提供的表格内容的校正装置进行描述,下文描述的表格内容的校正装置与上文描述的表格内容的校正方法可相互对应参照。
本发明实施例公开了一种表格内容的校正装置,参见图14,包括:
内容提取模块1401,用于对待校正表格进行内容提取,得到待校正内容;
规则确定模块1402,用于确定对应于所述待校正内容的校正规则;
内容校正模块1403,用于根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
替换模块1404,用于利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
可选地,内容校正模块1403,具体用于:根据所述校正规则对所述待校正内容进行元数据校正、字符格式校正、和/或字段格式校正,得到所述目标内容。
可选地,替换模块1404,具体用于:
预览所述目标内容;
在接收确认替换操作的情况下,利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格。
可选地,所述装置还包括:更新模块,用于接收用户发出的自定义校正规则,根据所述自定义校正规则更新所述校正规则。
可选地,内容提取模块1401,具体用于:
提取待校正表格的内容区域;其中,所述内容区域包含待校正单元格;
确定所述内容区域中的待校正单元格;
对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
可选地,所述内容区域包括至少一个单元区域,内容提取模块1401,具体用于:
确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式;
将不符合目标内容格式的单元格作为所述待校正单元格。
可选地,内容提取模块1401,具体用于:
划分所述待校正表格的至少一个表格区域;
排除所述表格区域中的非内容区域,得到所述内容区域;其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
可选地,所述内容区域包括数字内容区域,内容提取模块1401,具体用于:对所述数字内容区域中的待校正单元格进行内容提取,得到待校正内容。
本发明实施例提供的表格内容的校正装置,对待校正表格进行内容提取,得到待校正内容,确定对应于待校正内容的校正规则,根据校正规则对待校正内容进行内容校正,得到目标内容,然后利用目标内容在待校正表格中替换待校正内容,得到目标表格,从而可以实现自动地对待校正表格的内容进行校正,提升效率。
图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1510、通信接口(Communications Interface)1520、存储器(memory)1530和通信总线1540,其中,处理器1510,通信接口1520,存储器1530通过通信总线1540完成相互间的通信。处理器1510可以调用存储器1530中的逻辑指令,以执行表格内容的校正方法,包括:
对待校正表格进行内容提取,得到待校正内容;
确定对应于所述待校正内容的校正规则;
根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
此外,上述的存储器1530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的表格内容的校正方法,包括:
对待校正表格进行内容提取,得到待校正内容;
确定对应于所述待校正内容的校正规则;
根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的表格内容的校正方法,包括:
对待校正表格进行内容提取,得到待校正内容;
确定对应于所述待校正内容的校正规则;
根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种表格内容的校正方法,其特征在于,包括:
对待校正表格进行内容提取,得到待校正内容;
确定对应于所述待校正内容的校正规则;
根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
2.根据权利要求1所述的表格内容的校正方法,其特征在于,所述根据所述校正规则对所述待校正内容进行内容校正,得到目标内容,包括:
根据所述校正规则对所述待校正内容进行元数据校正、字符格式校正、和/或字段格式校正,得到所述目标内容。
3.根据权利要求1所述的表格内容的校正方法,其特征在于,所述利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格,包括:
预览所述目标内容;
在接收确认替换操作的情况下,利用所述目标内容替换所述待校正表格中的待校正内容,得到目标表格。
4.根据权利要求1所述的表格内容的校正方法,其特征在于,所述方法还包括:
接收用户发出的自定义校正规则,根据所述自定义校正规则更新所述校正规则。
5.根据权利要求1-4中任一所述的表格内容的校正方法,其特征在于,对待校正表格进行内容提取,得到待校正内容,包括:
提取待校正表格的内容区域;
确定所述内容区域中的待校正单元格;
对所述内容区域中的待校正单元格进行内容提取,得到待校正内容。
6.根据权利要求5所述的表格内容的校正方法,其特征在于,所述内容区域包括至少一个单元区域;
确定所述内容区域中的待校正单元格,包括:
确定每个单元区域中的单元格的内容格式,将出现次数最多的内容格式作为该单元区域的目标内容格式;
将不符合目标内容格式的单元格作为所述待校正单元格。
7.根据权利要求5所述的表格内容的校正方法,其特征在于,所述提取待校正表格的内容区域,包括:
划分所述待校正表格的至少一个表格区域;
排除所述表格区域中的非内容区域,得到所述内容区域;其中,非内容区域中任一单元格中包括特殊字符、空白内容、错误码中至少一项。
8.根据权利要求5所述的表格内容的校正方法,其特征在于,所述内容区域包括数字内容区域,对所述内容区域中的待校正单元格进行内容提取,得到待校正内容,包括:
对所述数字内容区域中的待校正单元格进行内容提取,得到待校正内容。
9.一种表格内容的校正装置,其特征在于,包括:
内容提取模块,用于对待校正表格进行内容提取,得到待校正内容;
规则确定模块,用于确定对应于所述待校正内容的校正规则;
内容校正模块,用于根据所述校正规则对所述待校正内容进行内容校正,得到目标内容;
替换模块,用于利用所述目标内容在所述待校正表格中替换待校正内容,得到目标表格。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述表格内容的校正方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述表格内容的校正方法的步骤。
CN202111250644.2A 2021-10-26 2021-10-26 一种表格内容的校正方法及装置 Pending CN114004221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111250644.2A CN114004221A (zh) 2021-10-26 2021-10-26 一种表格内容的校正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111250644.2A CN114004221A (zh) 2021-10-26 2021-10-26 一种表格内容的校正方法及装置

Publications (1)

Publication Number Publication Date
CN114004221A true CN114004221A (zh) 2022-02-01

Family

ID=79924334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111250644.2A Pending CN114004221A (zh) 2021-10-26 2021-10-26 一种表格内容的校正方法及装置

Country Status (1)

Country Link
CN (1) CN114004221A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063913A (zh) * 2022-05-27 2022-09-16 平安银行股份有限公司 基于光学字符识别的身份信息录入方法、装置及相关设备
CN115630620A (zh) * 2022-10-31 2023-01-20 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063913A (zh) * 2022-05-27 2022-09-16 平安银行股份有限公司 基于光学字符识别的身份信息录入方法、装置及相关设备
CN115063913B (zh) * 2022-05-27 2023-05-30 平安银行股份有限公司 基于光学字符识别的身份信息录入方法、装置及相关设备
CN115630620A (zh) * 2022-10-31 2023-01-20 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统
CN115630620B (zh) * 2022-10-31 2023-12-26 中诚智信工程咨询集团股份有限公司 工程造价分析数据采集与处理的方法及系统

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
US8489388B2 (en) Data detection
US11341322B2 (en) Table detection in spreadsheet
CN114004221A (zh) 一种表格内容的校正方法及装置
DE112007000727T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Integrieren der Ausgabe der Rechtschreibprüfung in die Ausgabe einer Disambiguierung
DE112007000855T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Vorsehen eines Rechtschreibprüfungs-Lern-Merkmals
DE112007000848T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer optimierten Rechtschreibprüfung während einer Texteingabe durch Vorsehen einer sequentiell angeordneten Reihe von Rechtschreibprüfalgorithmen
CN113255331B (zh) 文本纠错方法、装置及存储介质
US20150025877A1 (en) Character input device, character input method, and computer program product
CN107463537A (zh) 一种对文本信息进行结构化处理的方法
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN112541095A (zh) 视频标题生成方法、装置、电子设备及存储介质
CN102955775A (zh) 基于上下文语义的外国人名自动识别控制方法
CN105608074B (zh) 一种字数统计方法及装置
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
Sturgeon Large-scale Optical Character Recognition of pre-modern Chinese texts
CN111126201B (zh) 剧本中人物识别方法及装置
CN112766001A (zh) 企业名称翻译方法及装置
CN109062888A (zh) 一种出现错误文本输入时的自纠正方法
CN112017079A (zh) 专利文档的元件信息提取方法、处理装置以及存储介质
CN112017078A (zh) 专利文档的辅助撰写方法、处理装置以及存储介质
CN106484660A (zh) 标题处理方法和装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN112364632B (zh) 图书校对方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination