CN114463762B - 一种数据的处理方法和装置 - Google Patents

一种数据的处理方法和装置 Download PDF

Info

Publication number
CN114463762B
CN114463762B CN202110809067.XA CN202110809067A CN114463762B CN 114463762 B CN114463762 B CN 114463762B CN 202110809067 A CN202110809067 A CN 202110809067A CN 114463762 B CN114463762 B CN 114463762B
Authority
CN
China
Prior art keywords
cell
text
attribute
cells
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110809067.XA
Other languages
English (en)
Other versions
CN114463762A (zh
Inventor
车浩
唐成达
毛璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202110809067.XA priority Critical patent/CN114463762B/zh
Publication of CN114463762A publication Critical patent/CN114463762A/zh
Application granted granted Critical
Publication of CN114463762B publication Critical patent/CN114463762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种数据的处理方法和装置,涉及终端领域,当电子表格中有单元格出现属性匹配错误的问题时,无需用户手动重复性修改,可以提高用户体验。其方法为:拍摄带有表格的图像;根据图像获取电子表格;响应于第一操作,修改第一单元格中第一文本的属性;在满足第一条件的情况下,修改第二单元格中的第二文本的属性;其中,第一条件包括:第一单元格中的多个文本和第二单元格中的多个文本对应的属性分别相同且属性排列顺序相同,第一文本对应的属性与第二文本对应的属性相同,第一文本对应的属性在第一单元格中的多个文本的多个属性中的属性排列序号与第二文本对应的属性在第二单元格中的多个文本的多个属性中的属性排列序号相同。

Description

一种数据的处理方法和装置
技术领域
本申请涉及终端领域,尤其涉及一种数据的处理方法和装置。
背景技术
目前,电子设备已经可以采用图像处理技术将图片中的表格自动转换为电子表格。例如,向电子设备导入一张含有课程表的图片后,电子设备可以基于图像处理技术提取出课程表中每个单元格的文本,并对文本进行分词和判断每个词的属性归属等处理。这样,用户可以清楚地了解表格中的每个单元格记录的“课程名称”是什么,“教师”是谁,“地点”在哪等信息。
但是,目前的图像处理技术在判断单元格内的文本的属性时可能会出错。例如,可能会将课程周期“4-12(周)”错误地归属为“课程持续时长”。这就需要用户手动修改错误的分类,即手动修改“4-14(周)”的属性为“课程周期”。而且,由于表格中具有多个类似属性的单元格,这样需要用户手动进行大量重复性的修改,用户体验低。
发明内容
本申请实施例提供一种优化的数据的处理方法和装置。
第一方面,本申请实施例提供一种数据的处理方法,包括:拍摄带有表格的图像;根据图像获取电子表格,电子表格包括多个单元格;接收用户的第一操作,第一操作用于修改第一单元格中的第一文本的属性;响应于第一操作,修改第一文本的属性;在满足第一条件的情况下,修改第二单元格中的第二文本的属性;第一单元格是多个单元格中的一个,所述第二单元格是所述多个单元格中的另一个,第一文本是第一单元格中的多个文本中的一个,第二文本是第二单元格中的多个文本中的一个,其中,每个文本具有一个属性;其中,第一条件包括:第一单元格中的多个文本和第二单元格中的多个文本对应的属性分别相同且属性排列顺序相同,第一文本对应的属性与第二文本对应的属性相同,第一文本对应的属性在第一单元格中的多个文本对应的多个属性中的属性排列序号与第二文本对应的属性在第二单元格中的多个文本对应的多个属性中的属性排列序号相同。
基于本申请实施例提供的方法,响应于用户修改第一单元格的操作,电子设备可以自动查找与第一单元格相似的单元格(第二单元格,第二单元格和第一单元格满足第一条件),并可以自动适配修改模式到相似单元格(第二单元格)。这样,无需用户手动进行大量重复性的修改,可以大大提高用户体验。
在一种可能的实现方式中,第一条件还包括:第一单元格的第一文本对应的文本框的长宽信息和位置信息与第二单元格的第二文本对应的文本框的长宽信息和位置信息满足预设条件。这样,可以保证第一文本在第一单元格中的空间位置信息与第二文本在第二单元格中的空间位置信息是相似的,可以保证自动修改的准确性,避免误修改。
在一种可能的实现方式中,第一条件还包括:接收用户同意修改第二文本的属性的确认操作。即可以根据用户需求灵活确定是否自动修改第二单元格中的第二文本,若用户同意修改,则可以自动修改第二文本,若用户不同意修改,则不修改第二文本。
在一种可能的实现方式中,第一条件还包括:第一单元格的多个文本对应的文本框的长宽信息和位置信息与第二单元格的多个文本对应的文本框的长宽信息和位置信息满足预设条件。这样,可以保证第一单元格中各个文本的空间位置信息第二单元格中各个文本的空间位置信息是相似的,可以保证自动修改的准确性,避免误修改。
在一种可能的实现方式中,采用自然语言处理(natural language processing,NLP)算法和命名实体识别(named entity recognition,NER)算法确定多个单元格中每个单元格中的文本的属性构成;根据光学字符识别(optical character recognition,OCR)算法确定多个单元格中每个单元格中的文本的文本框的位置信息和长宽信息,将不同单元格的文本框的位置信息和长宽信息统计到不同数组;若第二单元格对应的数组与第一单元格对应的数组的余弦相似度、皮尔逊相关系数或欧几里德距离满足预设条件,且当第二单元格的文本的属性与第一单元格的文本的属性相同且属性排列顺序相同时,确定第二单元格为第一单元格的相似单元格。这样,可以基于单元格内容的属性排列信息和/或单元格中文本的空间信息识别相似单元格,可以更加准确和全面地识别出相似单元格。
在一种可能的实现方式中,响应于第一操作之前,方法还包括:响应于用户从多个单元格中选中第一单元格的操作,高亮显示第一单元格和第二单元格,提示用户第二单元格与第一单元格相似。其中,高亮的颜色、明暗程度可以是用户定义的或者是默认的,本申请不做限定。这样,用户可以直观地看出第一单元格的相似单元格。
在一种可能的实现方式中,根据图像获取电子表格包括:根据表格结构检测算法对包含表格的图像进行处理确定电子表格的单元格;根据光学字符识别OCR算法确定多个单元格中每个单元格中的文本。
在一种可能的实现方式中,第一单元格中的多个文本和第二单元格的中的多个文本中,同一属性的文本对应的属性值相同或不同。也就是说,相似单元格中记录的文字可以是不同的,并不限定相似单元格中的文字一定相同。
在一种可能的实现方式中,带有表格的图像中的表格包括课程表,日程表或节目表中的至少一项。课程表例如可以如图2A和图2B所示。
在一种可能的实现方式中,当图像中包括课程表时,第一文本或第二文本的属性包括课程名称、上课地点、课程周期、上课具体时间、教师名、专业、上课人数、上课班级或课程节次中的一项或多项。
在一种实现方式中,当所述图像中包括课程表时,所述多个文本对应的属性包括课程名称、上课地点、课程周期、上课具体时间、教师名、专业、上课人数、上课班级或课程节次中的至少两项。
在一种实现方式中,所述接收用户的所述第一操作包括:当所述电子表格被加入到日历应用中时或之后。
在一种可能的实现方式中,所述根据所述图像获取电子表格包括:当所述图像被加入到日历应用中时,例如,当用户在电子设备的日历应用中选择加入课程表的情况下,用户可以从电子设备的图库应用中选择一张包括课程表的图像或拍摄一张课程表的图像来用于加入到日历应用中,日历应用或电子设备的系统可以对该图像进行识别以获得电子表格(电子课程表),接着可以接收用户对该电子表格的一些单元格修改操作后,日历应用或电子设备的系统可以根据用户的修改操作对其他的一些单元格进行智能化的类似或相同操作,以减少用户重复性的多次修改,提高人机交互效率。
第二方面,本申请实施例提供一种电子设备,包括:摄像机,用于拍摄带有表格的图像;处理器,用于根据图像获取电子表格,电子表格包括多个单元格;处理器,还用于接收用户的第一操作,第一操作用于修改第一单元格中的第一文本的属性;处理器,还用于响应于第一操作,修改第一文本的属性;处理器,还用于在满足第一条件的情况下,修改第二单元格中的第二文本的属性;第一单元格是多个单元格中的一个,第一文本是第一单元格中的多个文本中的一个,第二文本是第二单元格中的多个文本中的一个,其中,每个文本具有一个属性;其中,第一条件包括:第一单元格中的多个文本和第二单元格中的多个文本对应的属性分别相同且属性排列顺序相同,第一文本对应的属性与第二文本对应的属性相同,第一文本对应的属性在第一单元格中的多个文本对应的多个属性中的属性排列序号与第二文本对应的属性在第二单元格中的多个文本对应的多个属性中的属性排列序号相同。
在一种可能的实现方式中,第一条件还包括:第一单元格的第一文本对应的文本框的长宽信息和位置信息与第二单元格的第二文本对应的文本框的长宽信息和位置信息满足预设条件。
在一种可能的实现方式中,第一条件还包括:接收用户同意修改第二文本的属性的确认操作。
在一种可能的实现方式中,第一条件还包括:第一单元格的多个文本对应的文本框的长宽信息和位置信息与第二单元格的多个文本对应的文本框的长宽信息和位置信息满足预设条件。
在一种可能的实现方式中,处理器,用于采用自然语言处理NLP算法和命名实体识别NER算法确定多个单元格中每个单元格中的文本的属性构成;根据光学字符识别OCR算法确定多个单元格中每个单元格中的文本的文本框的位置信息和长宽信息,将不同单元格的文本框的位置信息和长宽信息统计到不同数组;若第二单元格对应的数组与第一单元格对应的数组的余弦相似度、皮尔逊相关系数或欧几里德距离满足预设条件,且当第二单元格的文本的属性与第一单元格的文本的属性相同且属性排列顺序相同时,确定第二单元格为第一单元格的相似单元格。
在一种可能的实现方式中,还包括显示器,用于响应于用户从多个单元格中选中第一单元格的操作,高亮显示第一单元格和第二单元格,提示用户第二单元格与第一单元格相似。
在一种可能的实现方式中,处理器用于:根据表格结构检测算法对包含表格的图像进行处理确定电子表格的单元格;根据光学字符识别OCR算法确定多个单元格中每个单元格中的文本。
在一种可能的实现方式中,第一单元格中的多个文本和第二单元格的中的多个文本中,同一属性的文本对应的属性值相同或不同。
在一种可能的实现方式中,带有表格的图像中的表格包括课程表,日程表或节目表中的至少一项。
在一种可能的实现方式中,当图像中包括课程表时,第一文本或第二文本的属性包括课程名称、上课地点、课程周期、上课具体时间、教师名、专业、上课人数、上课班级或课程节次中的一项或多项。
第三方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。当计算机指令在电子设备(如手机)上运行时,使得该电子设备执行如第一方面及其任一种可能的设计方式所述的方法。
第四方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。
第五方面,本申请实施例提供了一种数据的处理装置,包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面及其任一种可能的设计方式所述的方法。所述装置可以为电子设备或服务器设备;或可以为电子设备或服务器设备中的一个组成部分,如芯片。
第六方面,本申请实施例提供了一种数据的处理装置,所述装置可以按照功能划分为不同的逻辑单元或模块,各单元或模块执行不同的功能,以使得所述装置执行上述第一方面及其任一种可能的设计方式所述的方法。
第七方面,本申请提供一种芯片系统,该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。上述芯片系统可以应用于包括通信模块和存储器的电子设备。该接口电路用于从电子设备的存储器接收信号,并向处理器发送接收到的信号,该信号包括存储器中存储的计算机指令。当处理器执行该计算机指令时,电子设备可以执行如第一方面及其任一种可能的设计方式所述的方法。
可以理解地,上述提供的第三方面所述的计算机可读存储介质,第四方面所述的计算机程序产品及第五方面、第六方面所述的装置及第七方面所述的芯片系统所能达到的有益效果,可参考如第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
通过本申请的一些实施例,当电子表格中有单元格出现属性匹配错误的问题时,无需用户手动多次做类似的修改,可以由电子设备根据用户对某一单元格中的某一文本进行的修改自动对其他相似单元格中与所述某一文本相似的另一文本自动进行相同或相似的修改,可以提升人机交互效率、数据处理效率、提高用户体验。
附图说明
图1为本申请实施例提供的一种方法流程示意图;
图2A为本申请实施例提供的一种表格的示意图;
图2B为本申请实施例提供的又一种表格的示意图;
图3为本申请实施例提供的一种表格中文本框的位置结构示意图;
图4为本申请实施例提供的一种判断相似单元格的流程示意图;
图5为本申请实施例提供的一种显示示意图;
图6为本申请实施例提供的又一种显示示意图;
图7为本申请实施例提供的又一种显示示意图;
图8为本申请实施例提供的又一种显示示意图;
图9为本申请实施例提供的一种电子设备的结构示意图;
图10为本申请实施例提供的一种芯片系统的结构示意图。
具体实施方式
为了下述各实施例的描述清楚简洁,首先给出相关概念或技术的简要介绍:
自然语言处理NLP:用于实现人机间自然语言通信,可以包括自然语言理解和自然语言生成两个部分。自然语言理解是使计算机能理解自然语言的意义,自然语言生成是以自然语言文本来表达特定的意图、思想等。例如,NLP可以接收其内容是计算机专用语言或形式的文档,输出其对应内容是人类可读形式的文档。
命名实体识别NER:是NLP中的一项基础任务,又称作“专名识别”,可以是指识别实体类型(例如包括人名、地名、机构名、专有名词等)和实体值(例如,张三,XX大厦,XX办事处等)。本申请中,可以认为实体类型是文本的属性,实体值是属性对应的属性值。例如,属性可以为人名,属性值可以为张三。又例如,属性可以为地名,属性值可以为XX大厦。
光学字符识别OCR算法:用于从图片中识别出文字。OCR识别文字流程:1、识别出文字区域(例如,可以通过滑动窗口算法遍历图片,找到文字区域)。2、对文字区域矩形分割,拆分成不同的字符(例如,可以在矩形中做一维滑动窗口移动,判断字符间间距,对字符进行划分);3、字符分类(对划分好的字符根据监督算法,对字符进行预测);4、识别出文字。
本申请实施例提供一种数据的处理方法,可以准确识别出第一单元格的相似单元格(即第二单元格)。互为相似单元格的多个单元格满足以下条件中的至少一项:分别包含的文本的属性相同,文本的属性排列顺序相同,文本对应的文本框的位置信息满足预设条件。若第一单元格的属性匹配出现错误,响应于用户修改第一单元格的操作,电子设备可以自动查找与第一单元格相似的单元格并自动适配修改模式到相似单元格。这样,无需用户手动进行大量重复性的修改,可以大大提高用户体验。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”是指两个或多于两个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
为了便于理解,以下结合附图对本申请实施例提供的数据的处理方法进行具体介绍。
如图1所示,本申请实施例提供一种数据的处理方法,包括:
101、获取电子表格,电子表格包括多个单元格。
电子设备可以拍摄带有表格的图像;根据图像获取电子表格。或者,电子设备可以对包含表格(例如课程表,日程表或节目表等)的图片进行处理,得到电子表格。电子表格包括多个单元格,每个单元格中的文本可以对应多种属性。
示例性的,电子设备可以通过表格结构识别算法(例如,OpenCV)获取表格的结构信息。具体的,可以采用OpenCV分别识别表格中的横线(即每行的分割线)和竖线(即每列的分割线),然后识别横线与竖线的交点,以识别出每个单元格所在的顶点,从而确定出不同的单元格。在识别出图片中表格的单元格后,再使用OCR算法识别每个单元格中的文本,从而得到电子表格。
示例性的,如图2A所示,为一种课程表的示意图。其中,单元格101中的文本包括:“高等数学A-101 4-12周10:00-12:00张三”。其中,“高等数学”对应的属性是课程名称,“A-101”对应的属性是位置(上课地点/上课教室),“4-12周”对应的属性是课程周期,“10:00-12:00”对应的属性是上课具体时间,“张三”对应的属性是教师名。又例如,单元格104中的文本包括:“篮球体育馆王五”。其中,“篮球”对应的属性是课程名称,“体育馆”对应的属性是位置,“王五”对应的属性是教师名。
如图2B所示,为又一种课程表的示意图。其中单元格201中的文本包括“1-8周Matlab仿真技术(选)1、信息合54人”。其中,“1-8周”对应的属性是“课程周期”。“Matlab仿真技术(选)”对应的属性是“课程名称”。“1、信息”对应的属性是“专业”。“合54人”对应的属性是“上课人数”。又例如,单元格205中的文本包括“9-16周5-7节电力系统通信技术(选)2-4班合70人”。其中,“9-16周”对应的属性是“课程周期”。“5-7节”对应的属性是“课程节次”。“电力系统通信技术(选)”对应的属性是“课程名称”。“2-4班”对应的属性是“上课班级”。“合70人”对应的属性是“上课人数”。
102、确定多个单元格中的至少一组相似单元格,每组相似单元格包括至少两个单元格。
其中,每组相似单元格满足以下条件:每两个单元格包含的文本的属性相同,文本的属性排列顺序相同,文本对应的文本框的位置信息满足预设条件(例如,任意两个单元格的文本框的位置信息对应的数组之间的余弦相似度大于预设阈值)。多个相似单元格的同一属性对应的属性值可以不同。
目前,识别单元格之间是否相似的方法是计算不同单元格之间字符串的相似度,若两个单元格具体内容的相似度满足预设条件,认为两个单元格是相似的。但是,属性相同时,属性值很可能是不同的,因此这种识别相似单元格的方法局限性很大。
本申请可以基于以下两个方面判断较为内容复杂的单元格之间是否相似。
第一方面,可以对单元格内的每个词或字进行合理的属性判断。通过计算不同单元格之间内容输出的属性序列的相似度,可以确定相应单元格之间的相似度。
在一种可能的设计中,可以采用NLP+NER算法来获取单元格内容的属性构成。当两个单元格的内容的属性相同且排列顺序相同时,可以认为两个单元格互为相似单元格。这种根据单元格的内容的属性判断单元格是否相似的方式相比根据字符串的相似度确定单元格是否相似的方式,具有更全面准确的特点。本申请实施例提供的方法在单元格内容信息较为复杂,属性较多的情况下,仍可以判断出相似的单元格,适用范围广。
示例性的,如图2A所示,对于单元格104,其内容为“篮球/n体育馆/n王五”,采用NER技术对单元格104的内容进行处理后,可以输出:{篮:[course,b],球:[course,i],体:[address,b],育:[address,i],馆:[address,i],王:[lecturer,b],五:[lecturer,i]}。其中,/n表示换行。B表示一种属性的开始,i表示延续当前属性。进而可将输出结果转化为[course:篮球,address体育馆:lecturer:王五]。即属性course的属性值为篮球,属性address的属性值为体育馆,属性lecturer的属性值为王五。
同理,单元格101对应的属性和属性值为:[course:高等数学,address:A-101,period:4-12周,time:10:00-12:00,lecturer:张三];单元格102对应的属性和属性值为:[course:高等数学,address:A-101,period:4-12周,time:10:00-12:00,lecturer:张三];单元格103对应的属性和属性值为:[course:大学物理,address:A-202,period:3-11周,time:8:00-10:00,lecturer:李四];单元格105对应的属性和属性值为:[course:篮球,address体育馆:lecturer:王五]。
在另一种可能的设计中,可以采用分词+属性分类的方式来获取单元格内容的属性构成。其中,用于进行分词的算法可以包括最小匹配算法(minimum matching),正向/逆向最大匹配法(maximum matching),逐字匹配算法,神经网络法,联想回溯法,基于N-最短路径分词算法等。当然,各种分词算法也可以相互组合,以便提高分词结果的准确率。其中,用于进行属性分类的算法可以包括决策树分类法,朴素的贝叶斯分类算法(nativeBayesian classifier),基于支持向量机(support vector machine,SVM)的分类器,神经网络法,k-最近邻法(k-nearest neighbor,kNN)和模糊分类法等,本申请不做限定。
例如,如图2A所示,单元格101中记录的字符串为:“高等数学A-1014-12周10:00-12:00张三”,进行分词处理后得到的结果为:“高等数学,A-101,4-12周,10:00-12:00,张三”,再进行属性分类处理后得到的结果为:“课程名称,上课地点,课程周期,上课具体时间,教师名”。即各个分词分别对应的属性分别为:“高等数学”对应的属性是课程名称,“A-101”对应的属性是位置(上课地点/上课教室),“4-12周”对应的属性是课程周期,“10:00-12:00”对应的属性是上课具体时间,“张三”对应的属性是教师名。
同理,单元格102的分词结果为“高等数学,A-101,4-12周,10:00-12:00,张三”,属性分类结果为:“课程名称,上课地点,课程周期,上课具体时间,教师名”。单元格103的分词结果为“大学物理,A-202,3-11周,8:00-10:00,李四”,属性分类结果为:“课程名称,上课地点,课程周期,上课具体时间,教师名”。单元格104的分词结果为“篮球,体育馆,王五”,属性分类结果为:“课程名称,上课地点,教师名”。单元格105的分词结果为“篮球,体育馆,王五”,属性分类结果为:“课程名称,上课地点,教师名”。
可见,单元格101、单元格102和单元格103中的文本的属性排列顺序都为:“课程名称,地点,课程周期,上课具体时间,教师名”。由于单元格101、单元格102和单元格103的文本的属性相同且属性排列顺序相同,可以认为单元格101、单元格102和单元格103之间互为相似单元格。又例如,单元格103和单元格104中的文本的属性排列顺序都为:“课程名称,地点,教师名”。由于单元格103和单元格104的文本的属性相同且属性排列顺序相同,可以认为单元格103和单元格104之间互为相似单元格。
需要说明的是,相似单元格之间的文本可以不同,即多个相似单元格的同一属性对应的属性值可以相同或不同。例如,针对“课程名称”这一属性,单元格101、单元格102和单元格103分别对应的属性值为“高等数学”、“高等数学”和“大学物理”。又例如,针对“地点”这一属性,单元格101、单元格102和单元格103分别对应的属性值为“A-101”、“A-101”和“A-202”。
第二方面,可以利用单元格中文本的空间结构信息计算单元格之间的相似度。可以理解的是,每一个单元格和其内部的每一行文本(每个词或字)都有空间上的数字化关系。
首先,可以通过表格结构识别算法(例如,OpenCV)获取表格的结构信息。再使用OCR算法识别出每个单元格中的文本区域。示例性的,可以采用连接文本提议网络(connectionist text proposal network,CTPN),DBNet等网络进行文本区域识别检测。一个完整的文本区域可以包括一个或多个文本框(bounding box),不同文本框对应不同的文本框的信息。其中,文本框的信息可以包括文本框与单元格边框的位置信息和长宽信息。
示例性的,一个文本框信息可以表达为:[wi c,hi c,ti c,bi c,li c,ri c]。其中,c表示表格中的第c个单元格,i表示当前单元格的第i个文本框,w表示文本框的长,h表示文本框的宽,t,b,l,r分别表示文本框距离单元格的上下左右边框的距离。
如图3中的(a)所示,单元格104中包括3个文本框,分别为文本框1041,文本框1042和文本框1043。文本框1041中的内容为“篮球”,文本框1041的长为16,宽为8。文本框1042中的内容为“体育馆”,文本框1042的长为22,宽为8。文本框1043中的内容为“王五”,文本框1043的长为16,宽为8。假设单元格104为当前表格的第k个单元格,文本框1041可以对应下述文本框信息:[w1 k,h1 k,t1 k,b1 k,l1 k,r1 k];文本框1042可以对应下述文本框信息:[w2 k,h2 k,t2 k,b2 k,l2 k,r2 k],文本框1043可以对应下述文本框信息:[w3 k,h3 k,t3 k,b3 k,l3 k,r3 k]。根据图3中的(a)和(b)可知,对于文本框1041,其中,w1 k=16,h1 k=8,t1 k=16,b1 k=40,l1 k=20,r1 k=20。根据图3中的(a)和(c)可知,对于文本框1042,w1 k=22,h1 k=8,t2 k=28,b2 k=28,l2 k=17,r2 k=17。根据图3中的(a)和(d)可知,对于文本框1043,w1 k=16,h1 k=8,t3 k=40,b3 k=16,l3 k=20,r3 k=20。
在获取表格的结构信息和文本框的信息之后,可以将不同单元格的文本框的信息计入不同数组。示例性的,可以将表格中第一个单元格中的i个文本框的位置关系统计到数组A,数组A={[w1 1,h1 1,t1 1,b1 1,l1 1,r1 1],[w2 1,h2 1,t2 1,b2 1,l2 1,r2 1],...,[wi 1,hi 1,ti 1,bi 1,li 1,ri 1]}。又例如,可以将表格中第k个单元格中的i个文本框的位置关系统计到数组K,数组K=[w1 k,h1 k,t1 k,b1 k,l1 k,r1 k],[w2 k,h2 k,t2 k,b2 k,l2 k,r2 k],...,[wi k,hi k,ti k,bi k,li k,ri k]}。其中,i可以大于或等于1。而后,通过计算不同数组之间的余弦相似度、皮尔逊相关系数或欧几里德距离来计算两个单元格之间的空间相似度。
在一种可能的设计中,可以结合第一方面和第二方面,对单元格相似度进行联合判决。即将单元格中文本的位置信息和文本的属性识别结果同时用于单元格的相似度计算。
如图4所示,可以基于表格图像信息提取模块、结构分析模块和文本分析模块进行联合预测。首先,可以向表格图像信息提取模块输入包含表格的图像,对输入的图像进行表格结构检测和OCR文本检测,根据表格结构检测结果生成表格结构信息,根据OCR文本检测结果获取文本框的位置信息和长宽信息,根据表格结构信息以及文本框位置和长宽信息确定每个单元格对应的文本框。
一方面,可以根据每个单元格对应的文本框进行空间相似度的计算。具体的,结构分析模块可以集合每个单元格所包含的文本框信息(对应的数组),计算各个单元格之间的文本框的位置和大小的空间相似度。
另一方面,还可以基于OCR文本检测得到文本,计算每个单元格的文本的属性的相似度。具体的,文本分析模块可以将单元格内所有文本内容转换为字符串,获取NER结果(属性及其对应的属性值),根据NER结果计算文本的属性的相似度。需要说明的是,一个单元格中可以包括多个属性的文本,不同属性的文本可以分别对应一个字符串。
而后,可以基于单元格的空间相似度和文本的属性的相似度使用神经网络进行联合预测,判断两两单元格是否为相似单元格。
例如,假设单元格A和单元格B之间的空间相似度为s,文本的属性的相似度为t。将s和t输入到神经网络,根据神经网络的返回结果判断两个单元格是否相似。其中,返回结果可以为二值(0或1),若返回结果为0,可以认为两个单元格不相似,若返回结果为1,可以认为两个单元格相似。
基于本申请实施例提供的方法,可以基于单元格文本的属性信息和/或单元格中文本的空间位置信息识别相似单元格,可以更加准确和全面地识别出相似单元格。
103、响应于用户选中第一单元格的操作,为用户提示与第一单元格相似的单元格。
当用户使用查看电子表格时,可以基于本申请实施例提供的方法识别出第一单元格的相似单元格,并向用户提示。例如,可以为用户高亮显示第一单元格的相似单元格。高亮的颜色、明暗程度可以是用户定义的或者是默认的,本申请不做限定。
可选的,也可以显示提示信息,提示哪些表格之间互为相似单元格。
示例性的,如图5中的(a)所示,响应于用户对单元格102的操作(例如,在单元格102的显示区域单击或滑动,或拖动鼠标到单元格102的区域),可以将单元格101、单元格102和单元格103高亮显示,以提示用户单元格101、单元格102和单元格103互为相似单元格。可选的,如图5中的(b)所示,可以显示弹框1026,提示用户高亮的单元格互为相似单元格,并可以基于一个单元格的修改自动修改其他相似单元格。弹框1026中可以包括知道了按钮1027。响应于用户点击知道了按钮1027的操作,可以隐去弹框1026,避免遮挡其他内容,可以提高用户体验。
104、响应于用户修改第一单元格中的属性排列的操作,自动修改与第一单元格相似的单元格。
接收到用户的第一操作后,响应于第一操作,修改第一文本的属性;其中,第一操作用于修改第一单元格中的第一文本的属性。在满足第一条件的情况下,修改第二单元格中的第二文本的属性。其中,第一单元格是多个单元格中的一个,第一文本是第一单元格中的多个文本中的一个,第二文本是第二单元格中的多个文本中的一个,其中,每个文本具有一个属性。
其中,第一条件包括:第一单元格中的多个文本和第二单元格中的多个文本对应的属性分别相同且属性排列顺序相同,第一文本对应的属性与第二文本对应的属性相同,第一文本对应的属性在第一单元格中的多个文本对应的多个属性中的属性排列序号与第二文本对应的属性在第二单元格中的多个文本对应的多个属性中的属性排列序号相同。
可选的,第一条件还包括:第一单元格的第一文本对应的文本框的长宽信息和位置信息与第二单元格的第二文本对应的文本框的长宽信息和位置信息满足预设条件。
可选的,第一条件还包括:接收用户同意修改第二文本的属性的确认操作。
可选的,第一条件还包括:第一单元格的多个文本对应的文本框的长宽信息和位置信息与第二单元格的多个文本对应的文本框的长宽信息和位置信息满足预设条件。
若用户修改了第一单元格,响应于用户的修改操作,电子设备可以在满足第一条件的前提下自动修改其他相似单元格。即电子设备可以根据用户对第一单元格的修改模式自动调整相似单元格的属性归属和排列。例如,假设单元格1,2,3,4互为相似单元格,当用户修改单元格1的内容属性后,单元格2,3,4自动进行属性修正。
示例性的,如图6中的(a)所示,响应于用户对单元格102的操作(例如,双击或长按),如图6中的(b)所示,可以显示弹框1021,弹框1021中显示属性和相应的属性值。其中,弹框1021中包括修改按钮1022,响应于用户点击修改按钮1022的操作,用户可以修改单元格102中的文字的属性或属性值。单元格102中的多个文本对应的多个属性的属性排列序号从1至5分别为课程名称、地点、课程持续时长、上课时间和教师名。例如,可以将属性排列序号为3的属性“课程持续时长”修改为“课程周期”。如图6中的(c)所示,修改后的弹框1021’中“4-12周”的属性已经被修改为“课程周期”。响应于用户对单元格102的修改,电子设备可以自动修改单元格102的相似单元格(即单元格101和单元格103)中的相应属性。即将单元格101和单元格103中的文字的属性“课程持续时长”修改为“课程周期”。
可选的,如图7所示,电子设备可以通过弹框1023提示用户已修改被选中的单元格中的某个属性,是否需要同步修改其他单元格中的相应属性。弹框1023中可以包括确认按钮1024和取消按钮1025。响应于用户点击确认按钮1024的操作,电子设备保存对单元格102的相似单元格(即单元格101和单元格103)中相应属性的修改。
电子设备自动修改单元格103中的相应属性后,如图8中的(a)所示,响应于用户选中单元格103的操作,如图8中的(b)所示,可以显示弹框1031,弹框1031中显示属性和相应的属性值。其中,文字“3-11周”对应的属性已经自动修改为“课程周期”。可选的,用户还可以通过修改按钮1032继续对单元格103的属性或属性值进行修改。
基于本申请实施例提供的方法,可以准确识别出第一单元格(用户选中的单元格)的相似单元格(即第二单元格)。相似单元格之间可以满足以下条件:两个单元格包含的文本的属性相同,文本的属性排列顺序相同,文本对应的文本框的位置信息满足预设条件(例如,任意两个单元格的文本框的位置信息对应的数组之间的余弦相似度大于预设阈值)。若第一单元格的属性匹配出现错误,响应于用户修改第一单元格的操作,电子设备可以自动查找与第一单元格相似的单元格并自动适配修改模式到相似单元格。这样,无需用户手动进行大量重复性的修改,可以提升人机交互效率、数据处理效率、提高用户体验。
本申请实施例提供的数据的处理方法可以应用于电子设备。电子设备例如可以为手机、平板电脑、台式机(桌面型电脑)、手持计算机、笔记本电脑(膝上型电脑)、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtualreality,VR)设备等,本申请实施例对电子设备的具体形态不作特殊限制。或者,本申请实施例提供的数据的处理方法可以应用于服务器设备。
如图9所示,上述电子设备具体可以为手机100。手机100可以包括处理器110,外部存储器接口120,内部存储器121,USB接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,射频模块150,通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及SIM卡接口195等。其中传感器模块可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
本发明实施例示意的结构并不构成对手机100的限定。可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以是集成在同一个处理器中。
控制器可以是指挥手机100的各个部件按照指令协调工作的决策者。是手机100的神经中枢和指挥中心。控制器根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器中的存储器为高速缓冲存储器。可以保存处理器刚用过或循环使用的指令或数据。如果处理器需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括接口。其中接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器可以包含多组I2C总线。处理器可以通过不同的I2C总线接口分别耦合触摸传感器,充电器,闪光灯,摄像头等。例如:处理器可以通过I2C接口耦合触摸传感器,使处理器与触摸传感器通过I2C总线接口通信,实现手机100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器可以包含多组I2S总线。处理器可以通过I2S总线与音频模块耦合,实现处理器与音频模块之间的通信。在一些实施例中,音频模块可以通过I2S接口向通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块与通信模块可以通过PCM总线接口耦合。在一些实施例中,音频模块也可以通过PCM接口向通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信,两种接口的采样速率不同。
UART接口是一种通用串行数据总线,用于异步通信。该总线为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器与通信模块160。例如:处理器通过UART接口与蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块可以通过UART接口向通信模块传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器与显示屏,摄像头等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serialinterface,DSI)等。在一些实施例中,处理器和摄像头通过CSI接口通信,实现手机100的拍摄功能。处理器和显示屏通过DSI接口通信,实现手机100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以配置为控制信号,也可配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器与摄像头,显示屏,通信模块,音频模块,传感器等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口可以用于连接充电器为手机100充电,也可以用于手机100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。还可以用于连接其他电子设备,例如AR设备等。
本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机100的结构限定。手机100可以采用本发明实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块可以通过USB接口接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块为电池充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块接收所述电池和/或充电管理模块的输入,为处理器,内部存储器,外部存储器,显示屏,摄像头,和通信模块等供电。电源管理模块还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在一些实施例中,电源管理模块141也可以设置于处理器110中。在一些实施例中,电源管理模块141和充电管理模块也可以设置于同一个器件中。
手机100的无线通信功能可以通过天线模块1,天线模块2射频模块150,通信模块160,调制解调器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将蜂窝网天线复用为无线局域网分集天线。在一些实施例中,天线可以和调谐开关结合使用。
射频模块150可以提供应用在手机100上的包括第二代(2th generation,2G)/第三代(3th generation,3G)/第四代(4th generation,4G)/第五代(5th generation,5G)等无线通信的解决方案的通信处理模块。可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。射频模块由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。射频模块还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,射频模块150的至少部分功能模块可以被设置于处理器150中。在一些实施例中,射频模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器,受话器等)输出声音信号,或通过显示屏显示图像或视频。在一些实施例中,调制解调器可以是独立的器件。在一些实施例中,调制解调器可以独立于处理器,与射频模块或其他功能模块设置在同一个器件中。
通信模块160可以提供应用在手机100上的包括无线局域网(wireless localarea networks,WLAN)(例如,无线保真(wireless fidelity,WiFi))、蓝牙,全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案的通信处理模块。通信模块160可以是集成至少一个通信处理模块的一个或多个器件。通信模块经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器。通信模块160还可以从处理器接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机100的天线1和射频模块耦合,天线2和通信模块耦合。使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multipleaccess,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),LTE,5G新无线通信(New Radio,NR),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigationsatellite system,GLONASS),北斗卫星导航系统(beidou navigation satellitesystem,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS))和/或星基增强系统(satellite based augmentation systems,SBAS)。
手机100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,手机100可以包括1个或N个显示屏,N为大于1的正整数。
仍如图9所示,手机100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏以及应用处理器等实现拍摄功能。
ISP用于处理摄像头反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,手机100可以包括1个或N个摄像头,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当手机100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。手机100可以支持一种或多种编解码器。这样,手机100可以播放或录制多种编码格式的视频,例如:MPEG1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现手机100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口与处理器通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,其他易失性固态存储器件,通用闪存存储器(universal flash storage,UFS)等。
手机100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块还可以用于对音频信号编码和解码。在一些实施例中,音频模块可以设置于处理器110中,或将音频模块的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。手机100可以通过扬声器收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当手机100接听电话或语音信息时,可以通过将受话器靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风发声,将声音信号输入到麦克风。手机100可以设置至少一个麦克风。在一些实施例中,手机100可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在一些实施例中,手机100还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口可以是USB接口,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器可以设置于显示屏。压力传感器的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器,电极之间的电容改变。手机100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏,手机100根据压力传感器检测所述触摸操作强度。手机100也可以根据压力传感器的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定手机100的运动姿态。在一些实施例中,可以通过陀螺仪传感器确定手机100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器检测手机100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消手机100的抖动,实现防抖。陀螺仪传感器还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,手机100通过气压传感器测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。手机100可以利用磁传感器检测翻盖皮套的开合。在一些实施例中,当手机100是翻盖机时,手机100可以根据磁传感器检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测手机100在各个方向上(一般为三轴)加速度的大小。当手机100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。手机100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,手机100可以利用距离传感器测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。通过发光二极管向外发射红外光。使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定手机100附近有物体。当检测到不充分的反射光时,可以确定手机100附近没有物体。手机100可以利用接近光传感器检测用户手持手机100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。手机100可以根据感知的环境光亮度自适应调节显示屏亮度。环境光传感器也可用于拍照时自动调节白平衡。环境光传感器还可以与接近光传感器配合,检测手机100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。手机100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,手机100利用温度传感器检测的温度,执行温度处理策略。例如,当温度传感器上报的温度超过阈值,手机100执行降低位于温度传感器附近的处理器的性能,以便降低功耗实施热保护。
触摸传感器180K,也称“触控面板”。可设置于显示屏。用于检测作用于其上或附近的触摸操作。可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型,并通过显示屏提供相应的视觉输出。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器可以获取人体声部振动骨块的振动信号。骨传导传感器也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器也可以设置于耳机中。音频模块170可以基于所述骨传导传感器获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键可以是机械按键。也可以是触摸式按键。手机100接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏不同区域的触摸操作,也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接用户标识模块(subscriber identity module,SIM)。SIM卡可以通过插入SIM卡接口,或从SIM卡接口拔出,实现和手机100的接触和分离。手机100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口可以支持Nano SIM卡,MicroSIM卡,SIM卡等。同一个SIM卡接口可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口也可以兼容不同类型的SIM卡。SIM卡接口也可以兼容外部存储卡。手机100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,手机100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在手机100中,不能和手机100分离。
上述手机100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的安卓(Android)系统为例,示例性说明手机100的软件结构。
本申请实施例还提供一种芯片系统,如图10所示,该芯片系统包括至少一个处理器1001和至少一个接口电路1002。处理器1001和接口电路1002可通过线路互联。例如,接口电路1002可用于从其它装置(例如,电子设备的存储器)接收信号。又例如,接口电路1002可用于向其它装置(例如处理器1001)发送信号。
例如,接口电路1002可读取电子设备中存储器中存储的指令,并将该指令发送给处理器1001。当所述指令被处理器1001执行时,可使得电子设备(如图9所示的手机100)执行上述实施例中的各个步骤。
当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在电子设备(如图9所示的手机100)上运行时,使得手机100执行上述方法实施例中电子设备执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中电子设备执行的各个功能或者步骤。
本申请实施例还提供了一种电子表格的处理装置,所述装置可以按照功能划分为不同的逻辑单元或模块,各单元或模块执行不同的功能,以使得所述装置执行上述方法实施例中电子设备执行的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种数据的处理方法,其特征在于,包括:
拍摄带有表格的图像;
根据所述图像获取电子表格,所述电子表格包括多个单元格;
接收用户的第一操作,所述第一操作用于修改第一单元格中的第一文本的属性;
响应于所述第一操作,修改所述第一文本的属性;
在满足第一条件的情况下,修改第二单元格中的第二文本的属性;所述第一单元格是所述多个单元格中的一个,所述第二单元格是所述多个单元格中的另一个,所述第一文本是所述第一单元格中的多个文本中的一个,所述第二文本是所述第二单元格中的多个文本中的一个,其中,每个文本具有一个属性;
其中,所述第一条件包括:所述第一单元格中的所述多个文本和所述第二单元格中的所述多个文本对应的属性分别相同且属性排列顺序相同,所述第一文本对应的属性与所述第二文本对应的属性相同,所述第一文本对应的属性在所述第一单元格中的多个文本对应的多个属性中的属性排列序号与所述第二文本对应的属性在所述第二单元格中的多个文本对应的多个属性中的属性排列序号相同。
2.根据权利要求1所述的方法,其特征在于,
所述第一条件还包括:所述第一单元格的第一文本对应的文本框的长宽信息和位置信息与所述第二单元格的第二文本对应的文本框的长宽信息和位置信息满足预设条件。
3.根据权利要求1或2所述的方法,其特征在于,
所述第一条件还包括:接收用户同意修改所述第二文本的属性的确认操作。
4.根据权利要求1或2所述的方法,其特征在于,
所述第一条件还包括:所述第一单元格的多个文本对应的文本框的长宽信息和位置信息与所述第二单元格的多个文本对应的文本框的长宽信息和位置信息满足预设条件。
5.根据权利要求1或2所述的方法,其特征在于,
采用自然语言处理NLP算法和命名实体识别NER算法确定所述多个单元格中每个单元格中的文本的属性构成;
根据光学字符识别OCR算法确定所述多个单元格中每个单元格中的文本的文本框的位置信息和长宽信息,将不同单元格的文本框的位置信息和长宽信息统计到不同数组;
若第二单元格对应的数组与所述第一单元格对应的数组的余弦相似度、皮尔逊相关系数或欧几里德距离满足预设条件,且当第二单元格的文本的属性与第一单元格的文本的属性相同且属性排列顺序相同时,确定所述第二单元格为所述第一单元格的相似单元格。
6.根据权利要求1或2所述的方法,其特征在于,所述响应于所述第一操作之前,所述方法还包括:
响应于用户从所述多个单元格中选中所述第一单元格的操作,高亮显示所述第一单元格和第二单元格,提示用户所述第二单元格与所述第一单元格相似。
7.根据权利要求1或2所述的方法,其特征在于,所述根据所述图像获取电子表格包括:
根据表格结构检测算法对包含表格的图像进行处理确定电子表格的单元格;
根据光学字符识别OCR算法确定所述多个单元格中每个单元格中的文本。
8.根据权利要求1或2所述的方法,其特征在于,
所述第一单元格中的多个文本和所述第二单元格的中的多个文本中,同一属性的文本对应的属性值相同或不同。
9.根据权利要求1或2所述的方法,其特征在于,
所述带有表格的图像中的表格包括课程表,日程表或节目表中的至少一项。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括以下中的一项或多项:
当所述图像中包括课程表时,所述多个文本对应的属性包括课程名称、上课地点、课程周期、上课具体时间、教师名、专业、上课人数、上课班级或课程节次中的至少两项;
所述第一文本或所述第二文本的属性包括课程名称、上课地点、课程周期、上课具体时间、教师名、专业、上课人数、上课班级或课程节次中的一项或多项;
所述接收用户的所述第一操作包括:当所述电子表格被加入到日历应用中时或之后;
所述根据所述图像获取电子表格包括:当所述图像被加入到日历应用中时。
11.一种计算机可读存储介质,其特征在于,包括计算机指令;
当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-10中任一项所述的方法。
CN202110809067.XA 2021-07-16 2021-07-16 一种数据的处理方法和装置 Active CN114463762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110809067.XA CN114463762B (zh) 2021-07-16 2021-07-16 一种数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110809067.XA CN114463762B (zh) 2021-07-16 2021-07-16 一种数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN114463762A CN114463762A (zh) 2022-05-10
CN114463762B true CN114463762B (zh) 2022-10-25

Family

ID=81405230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110809067.XA Active CN114463762B (zh) 2021-07-16 2021-07-16 一种数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN114463762B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395418A (zh) * 2020-11-26 2021-02-23 上海携宁计算机科技股份有限公司 网页中的目标对象提取方法、装置、电子设备
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409890B2 (en) * 2018-01-04 2019-09-10 Apple Inc. Evaluation of formulas via modal attributes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395418A (zh) * 2020-11-26 2021-02-23 上海携宁计算机科技股份有限公司 网页中的目标对象提取方法、装置、电子设备
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114463762A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN113794800B (zh) 一种语音控制方法及电子设备
CN110134316B (zh) 模型训练方法、情绪识别方法及相关装置和设备
CN110825469A (zh) 语音助手显示方法及装置
CN111078091A (zh) 分屏显示的处理方法、装置及电子设备
CN110798552A (zh) 一种音量调节方法及电子设备
CN111742539B (zh) 一种语音控制命令生成方法及终端
CN110851067A (zh) 屏幕显示模式的切换方法、装置及电子设备
CN111625670A (zh) 一种图片分组方法及设备
CN113497881A (zh) 图像处理方法及装置
CN111147667A (zh) 一种熄屏控制方法及电子设备
CN112256868A (zh) 零指代消解方法、训练零指代消解模型的方法及电子设备
CN115589051A (zh) 充电方法和终端设备
CN114880251A (zh) 存储单元的访问方法、访问装置和终端设备
CN112584037B (zh) 保存图像的方法及电子设备
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN115543145A (zh) 一种文件夹管理方法及装置
CN113467735A (zh) 图像调整方法、电子设备及存储介质
CN114356109A (zh) 文字输入方法、电子设备及计算机可读存储介质
CN114095602A (zh) 索引显示方法、电子设备及计算机可读存储介质
CN114241347A (zh) 皮肤敏感度的显示方法、装置、电子设备及可读存储介质
CN113721827B (zh) 悬浮键盘显示方法、电子设备及存储介质
CN115437601A (zh) 图像排序方法、电子设备、程序产品及介质
CN114463762B (zh) 一种数据的处理方法和装置
CN114547616A (zh) 检测垃圾软件的方法、装置及电子设备
CN111557007B (zh) 一种检测眼睛睁闭状态的方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant