CN114564141A - 文本提取方法及装置 - Google Patents
文本提取方法及装置 Download PDFInfo
- Publication number
- CN114564141A CN114564141A CN202011362776.XA CN202011362776A CN114564141A CN 114564141 A CN114564141 A CN 114564141A CN 202011362776 A CN202011362776 A CN 202011362776A CN 114564141 A CN114564141 A CN 114564141A
- Authority
- CN
- China
- Prior art keywords
- touch
- text information
- touch point
- text
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 70
- 238000005516 engineering process Methods 0.000 claims abstract description 38
- 238000012015 optical character recognition Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000003860 storage Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000003825 pressing Methods 0.000 description 11
- 238000010295 mobile communication Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 210000001145 finger joint Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001422033 Thestylus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及一种文本提取方法及装置,应用于人工智能(Artificial Intelligence,AI)领域中的光学字符识别(Optical Character Recognition,OCR)领域,其中,所述方法包括:响应于触摸屏上的触控操作,获取触控区域;通过OCR技术提取触控区域内的第一文本信息;从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;从目标控件中获取第二文本信息;基于第二文本信息对第一文本信息进行调整,获得第三文本信息。本公开提供的文本提取方法及装置,能够方便、快捷、准确地获取用户需要的文本信息。
Description
技术领域
本公开涉及终端人工智能(Artificial Intelligence,AI)领域中的光学字符识别(Optical Character Recognition,OCR)领域,尤其涉及一种文本提取方法及装置。
背景技术
在生活中,文字无处不在,文字是人们感知世界的重要手段。人工智能技术可以模拟、延伸和扩展人的意识和思维。获取文字信息是人工智能技术中的重要环节。
OCR技术和控件取词技术是两种常见的获取文字信息的方式。OCR技术可以将图片或者纸张上的字符读取出来,并转换成计算机文字。然而,OCR技术对于人眼难以区分的文字无法准确地识别,例如OCR无法准确区分小写的L(即l)和大写的i(即I)。OCR技术对链接中的字符和口令类字符也无法准确的识别。控件取词技术获取到的文字虽然与原文完全一致,但是控件取词取到的是整个控件中的全部文本,需要用户在其中查找需要的部分,操作繁琐。
发明内容
有鉴于此,提出了一种文本提取方法及装置,可以方便、快捷的以及准确地获取到用户需要的文本信息。
第一方面,本公开的实施例提供了一种文本提取方法,包括:终端设备响应于触摸屏上的触控操作,获取触控区域,并通过OCR技术提取该触控区域内的文本信息,记为第一文本信息。终端设备从触摸屏上一个或多个能够获取到文字内容的文本性控件中,确定出与之前获取的触控区域匹配的目标控件,并从目标控件中获取文本信息,记为第二文本信息。终端设备基于第二文本信息对第一文本信息进行调整,得到最终的第三文本信息。这样,基于文字内容正确的第二文本信息对文字位置准确的第一文本信息进行调整,可以方便、快捷的获得位置准确、且内容正确的第三文字信息。
根据第一方面,在所述文本提取方法的第一种实现方式中,终端设备可以获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;基于所述交并比,确定出所述目标控件。这样,可以较为准确的确定出用户想要提取文本信息的控件,从而提升最终获取的文本信息在文字内容上的准确性。
根据第一方面,或者第一方面的第一种实现方式,在所述文本提取方法的第二种实现方式中,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息可以包括:对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。这样,可以使OCR技术提取的文本信息成为文字内容更加正确的文本信息。
根据第一方面的第二种实现方式,在所述文本提取方法的第三种实现方式中,所述将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符可以包括:根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。这样,通过在匹配率较大的情况下,进行字符替换,可以提高正确性。
根据第一方面,或者第一方面的第一种实现方式,在所述文本提取方法的第四种实现方式中,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息可以包括:检测所述第二文本信息中是否存在满足预设格式的字符集;在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。通过OCR技术确定链接或者口令所属的控件,然后自动从控件中提取出链接或者口令,既可以保证链接或者口令的完整性和位置准确性,又能够保证链接或者口令的正确性,同时操作快捷方便。
根据第一方面的第四种实现方式,在所述文本提取方法的第五种实现方式中,终端设备可以根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。这样,可以提高服务效率,有利于提升用户满意度。
根据第一方面,或者以上第一方面的任意一种实现方式,在所述文本提取方法的第六种实现方式中,所述响应于触控操作,获取触控区域可以包括:响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。这样,可以有效、准确地确定出用户需要获取文本信息的位置。
根据所述第一方面,或者根据第一方面的第二种实现方式至第五种实现方式中的任意一种,在所述文本提取方法的第七种实现方式中,该文本提取方法还可以包括:响应于所述触控操作,加载区域选择标记层;基于所述区域选择标记层的确认操作,确定所述触控区域。这样,可以使得触控区域的选择更加准确,从而进一步提高了文本信息位置的准确性。
根据第一方面的第六种实现方式,在所述文本提取方法的第八种实现方式中,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域可以包括:在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。这样可以实现在同一文本行内准确地获取文本信息。
根据第一方面的第六种实现方式,在所述文本提取方法的第九种实现方式中,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域可以包括:在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。这样可以实现在相邻文本行内准确地获取文本信息。
根据第一方面的第六种实现方式,在所述文本提取方法的第十种实现方式中,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。这样可以实现在较大范围内准确地获取文本信息。
根据第一方面的第八种实现方式至第十种实现方式中的任意一种,在所述文本提取方法的第十一种实现方式中,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域可以包括:将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。这样可以略微扩大触控区域,降低因用户视觉触控点和实际触控点不一致而造成的文字漏选的影响,提高位置标记的准确性。
第二方面,本公开的实施例提供了一种文本提取装置,包括:第一获取模块,用于响应于触摸屏上的触控操作,获取触控区域;提取模块,用于通过光学字符识别OCR技术提取所述第一获取模块获取的触控区域内的第一文本信息;确定模块,用于从所述触摸屏上显示一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;第二获取模块,用于从所述确定模块确定的目标控件中获取第二文本信息;调整模块,用于基于所述第二获取模块获取的第二文本信息对所述提取模块提取的第一文本信息进行调整,获得第三文本信息。
根据第二方面,在所述文本提取装置的第一种实现方式中,所述确定模块包括:第一获取单元,用于获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;第一确定单元,用于基于所述交并比,确定出所述目标控件。
根据第二方面,或者第二方面的第一种实现方式,在所述文本提取装置的第二种实现方式中,所述调整模块包括:对比单元,用于对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;第二确定单元,用于将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;第一替换单元,用于将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
根据第二方面的第二种实现方式,在所述文本提取装置的第三种实现方式中,所述第一替换单元还用于:根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
根据第二方面,或者第二方面的第一种实现方式,在所述文本提取装置的第四种实现方式中,所述调整模块还包括:检测单元,用于检测所述第二文本信息中是否存在满足预设格式的字符集;提取单元,用于在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;第二替换单元,用于采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。
根据第二方面的第四种实现方式,在所述文本提取装置的第五种实现方式中,所述装置还包括:服务模块,用于根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。
根据第二方面,或者以上第二方面的任意一种实现方式,在所述文本提取装置的第六种实现方式中,所述第一获取模块包括:第二获取单元,用于响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;第三确定单元,用于根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。
根据所述第二方面,或者根据第二方面的第二种实现方式至第五种实现方式中的任意一种,在所述文本提取装置的第七种实现方式中,所述第一获取模块还包括:加载单元,用于响应于所述触控操作,加载区域选择标记层;第四确定单元,用于基于所述区域选择标记层的确认操作,确定所述触控区域。。
根据第二方面的第六种实现方式,在所述文本提取装置的第八种实现方式中,所述第三确定单元还用于:在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。
根据第二方面的第六种实现方式,在所述文本提取装置的第九种实现方式中,所述第三确定单元还用于:在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。
根据第二方面的第六种实现方式,在所述文本提取装置的第十种实现方式中,所述第三确定单元还用于:在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。
根据第二方面的第八种实现方式至第十种实现方式中的任意一种,在所述文本提取装置的第十种实现方式中,所述第三确定单元还用于:将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。
第三方面,本公开的实施例提供了一种终端设备,该终端设备可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的文本提取方法。
第四方面,本公开的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的文本提取方法。
在本公开实施例中,通过OCR技术准确地提取到文字位置准确的第一文本信息,通过控件取词技术获取到文字内容正确的第二文本信息,基于文字内容正确的第二文本信息对文字位置准确的第一文本信息进行调整,可以方便、快捷的获得位置准确、且内容正确的第三文字信息。
本公开的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出本公开实施例提供的文本提取方法的实施环境示意图;
图2a、图2b和图2c分别示出触摸屏显示的应用界面的示例性示意图;
图3a、图3b、图3c、图3d和图3e分别示出触控区域的示例性示意图;
图4示出了根据本公开一实施例的终端设备200的结构示意图;
图5示出本公开实施例的文本提取方法的流程图;
图6示出本公开实施例的文本提取装置的结构示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出本公开实施例提供的文本提取方法的实施环境示意图。参见图1,该实施环境中包括触控媒介100和终端设备200。该触控媒介可以包括触控笔101和用户手指102等。该终端设备200可以是具有触摸屏的任意终端设备,该终端设备200包括而不限于手机、平板电脑、笔记本电脑、电视机、膝上计算机、台式计算机、移动电话、多媒体播放器、电子阅读器、智能车载设备、智能家电、人工智能设备、可穿戴电子设备(如智能手表等)、物联网设备、虚拟现实/增强现实/混合现实设备等。
终端设备200可以安装多种应用,例如即时通信应用、电商应用、游戏应用、社交应用、社区应用、新闻应用、音频播放应用、视频播放应用、直播应用、浏览器应用、旅游应用、金融应用、运动应用、拍摄应用、图像处理应用、音视频处理引用、阅读应用、外卖应用、菜谱应用、导航应用、交通票务应用、信息记录应用、邮箱应用、健康医疗应用、资源管理应用等。终端设备200安装的应用可以是独立的应用,也可以是嵌入式应用,即小程序。
在一些可能的实现方式中,终端设备200的触摸屏可以显示应用的界面,应用的界面中可以包括一个或多个文本性控件。其中,文本性控件可以用于表示能够获取到文字内容的控件,例如,文字展示控件、文字输入控件等。举例来说,文本性控件可以为即时通信应用中的聊天框、信息记录应用中的输入框、阅读应用中展示电子书的区域、菜谱应用中展示菜谱文字内容的区域、新闻应用中展示文字区域的内容、浏览器应用中展示文字内容的区域等。文本性控件中提取的文字信息包括而不限于用户名、密码、链接、词语、句子、段落、文章等内容。文本性控件中提取的文字信息包括而不限于符号、数字、中文、英文、日文、韩文、西班牙文、德文、法文等形式。本公开实施例对终端设备200中显示的应用、应用中包括的文本性控件、文本性控件中提取的文字信息不做限制。
图2a、图2b和图2c分别示出触摸屏显示的应用界面的示例性示意图。在一个示例中,终端设备200的触摸屏可以显示图2a所示的即时通信应用的界面。参见图2a,该即时通信应用的界面中的文本性控件可以包括聊天信息展示框和聊天信息输入框。举例来说,从聊天信息展示框中获取到文字内容可以包括“我买了10号的话剧票,一起去看吧”、“好呀好呀”、“都有哪些演员啊”、“上面这个链接有详细介绍,你看一下”等;从聊天信息输入框中获取到的文字信息可以包括“好的,我看一下”等。在又一示例中,终端设备200的触摸屏可以显示图2b所示的社区应用的界面。参见图2b,该社区应用的界面中的文本性控件可以包括展示框中的文字展示区和搜索框。举例来说,从文字展示区中获取到的文字信息可以包括“帮忙推荐杭州三日游攻略”、“第一天……结束”、“景点介绍可参考……”、“景点购票可点击……”等。从搜索框中获取到的文字信息可以包括“杭州游记”(未示出)等。在又一示例中,终端设备200的触摸屏可以显示图2c所示的浏览器应用的界面。参见图2c,该浏览器应用的界面中的文本性控件可以包括文字展示区。举例来说,从文字展示区中获取到的文字信息可以包括“XL……可调”和“芯片介绍”等。
在一种可能的实现方式中,用户可以通过触控笔101和用户手指102等触控媒介在终端设备200的触摸屏上执行触控操作(例如:点击、双击、滑动、双指按压等操作)。终端设备200可以包括响应于上述触控操作,获取触控区域。
图3a、图3b、图3c、图3d和图3e分别示出触控区域的示例性示意图。
在一种可能的实现方式中,用户执行的触控操作可以用于确定起始触控点和结束触控点,终端设备可以基于起始触控点和结束触控点,确定触控区域。
参见图3a,基于图2c所示的应用界面,用户可以通过手指在终端设备200的触摸屏上执行双指按压操作。终端设备200响应于该双指按压操作,可以获取到两个触控点(记为起始触控点和结束触控点)的位置信息。终端设备200通过OCR技术将界面划分为多个文本行。终端设备200可以根据起始触控点的位置信息和结束触控点的位置信息确定起始触控点对应的文本行(记为第一文本行)和结束触控点对应的文本行(记为第二文本行)。如图3a所示,第一文本行和第二文本行为同一文本行,终端设备200可以根据起始触控点和结束触控点之间的区域(记为第一区域)确定触控区域。
参见图3b,基于图2c所示的应用界面,用户可以通过手指在终端设备200的触摸屏上执行滑动操作。终端设备200可以根据滑动操作的起始点和结束点确定起始触控点和结束触控点,并确定出第一文本行和第二文本行。如图3b所示,第一文本行和第二文本行为同一文本行,终端设备200可以根据起始触控点和结束触控点之间的第一区域确定触控区域。
参见图3c,基于图2c所示的应用界面,用户可以通过手指在终端设备200的触摸屏上执行两次点击(单击或者双击等)操作。终端设备200可以根据检测到的两个点击点确定起始触控点和结束触控点,并确定出第一文本行和第二文本行。如图3c所示,第一文本行和第二文本行为相邻文本行,终端设备200可以根据起始触控点和触摸屏的右边界之间的区域(记为第二区域)和结束触控点和触摸屏的左边界之间的区域(记为第三区域)确定触控区域。
参见图3d,基于图2c所示的应用界面,用户可以通过手指在终端设备200的触摸屏上执行滑动操作。终端设备200可以根据滑动操作的起始点和结束点确定起始触控点和结束触控点,并确定出第一文本行和第二文本行。如图3d所示,第一文本行和第二文本行之间相隔两个文本行,终端设备200可以根据起始触控点和触摸屏的右边界之间的区域(记为第四区域,可参照第二区域)、第一文本行和第二文本行之间的区域(记为第五区域)、以及结束触控点和触摸屏的左边界之间的区域(记为第六区域,可参照第三区域)确定触控区域。
在一种可能的实现方式中,第一区域、第二区域、第三区域、第四区域、第五区域和第六区域可以为矩形区域。当然,第一区域至第六区域还可以为其他形状的区域,例如椭圆区域、梯形区域、六边形区域和八边形区域等,对此本公开不做限制。
需要说明的是,在本公开实施例中,起始触控点和结束触控点是基于其在触摸屏中的相对位置确定的,与文字内容的顺序一致。举例来说,在第一文本行和第二文本行为同一文本行的情况下,起始触控点位于结束触控点的左侧;在第一文本行和第二文本行为不同文本行的情况下,起始触控点位于结束触控点的上方。
在一种可能的实现方式中,触控操作还可以用于触发区域选择。终端设备响应于该触控操作,可以加载区域选择标记层,基于该区域选择标记层的确认操作,确定触控区域。
参见图3e,基于图2c所示的应用界面,终端设备200响应于长按屏幕、触发标记控件等触控操作,显示区域选择标记层。用户可以对该区域选择标记层的位置进行调整。在调整完成后,用户可以点击“√”控件执行确认区域选择标记层的确认操作。终端设备300响应于区域选择标记层的确认操作,可以依据区域选择标记层的位置,确定触控区域。这样,可以使得触控区域的选择更加准确,从而进一步提高了文本信息位置的准确性。
参照图2a和图2b可知,终端设备200的触摸屏中可以显示一个文本性控件,也可以同时显示了多个文本性控件。终端设备200可以在检测到触摸屏上的触控操作时,确定触摸屏上当前显示的所有文本性控件。之后,终端设备200可以从这些文本性控件中,确定出与触控区域匹配的目标控件。在一个示例中,终端设备200可以获取触摸屏上显示的各文本性控件与触控区域的交并比,基于交并比,确定出目标控件。例如,将对应交并比最大的文本性控件确定为目标控件。可以理解的是,终端设备200的触摸屏上显示的文本性控件的位置,可以从当前触摸屏上显示的应用中获取。
在终端设备200获取到触控区域后,可以通过OCR技术提取出触控区域内的第一文本信息。终端设备200在确定出目标控件后,可以直接从目标控件中直接获取第二文本信息。由于第一文本信息具有更加准确的位置信息,第二文本信息具有更加准确的文字内容,因此,终端设备200可以基于第二文本信息对第一文本信息进行调整,更新第一文本信息中不太准确的部分,从而得到位置准确且内容准确的第三文本信息。
举例来说,基于图3a,终端设备200提取到第一文本信息“集成了100mQ的MOSFET开关功”,获取到第二文本信息“XL 1509-3.3E1 5G基站电源芯片特点2A连续输出电流8-30V宽工作电压输入集成了100mΩ的MOSFET开关功率管输出18-28V可调”。终端设备200采用该第二文本信息对第一文本信息进行调整,得到第三文本信息“集成了100mΩ的MOSFET开关功”。
图4示出了根据本公开一实施例的终端设备200的结构示意图。
终端设备200可以包括处理器210,外部存储器接口220,内部存储器221,USB接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块251,无线通信模块252,音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及SIM卡接口295等。其中传感器模块280可以包括触摸传感器280K,(当然,终端设备200还可以包括其它传感器,比如陀螺仪传感器,加速度传感器,接近光传感器、指纹传感器、温度传感器,压力传感器、距离传感器、磁传感器、环境光传感器、气压传感器、骨传导传感器等,图中未示出)。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是终端设备200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
处理器210可以运行本公开实施例提供的文本提取方法,以便于方便、快捷、准确的提获得用户需要的文本信息。处理器210可以包括不同的器件,比如集成CPU和GPU时,CPU和GPU可以配合执行本公开实施例提供的文本提取方法,比如文本提取方法中部分算法由CPU执行,另一部分算法由GPU执行,以得到较快的处理效率。
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备200可以包括1个或N个显示屏294,N为大于1的正整数。显示屏294可用于显示由用户输入的信息或提供给用户的信息以及各种图形用户界面(graphical user interface,GUI)。例如,显示器294可以显示照片、视频、网页、或者文件等。再例如,显示器294可以显示图形用户界面。其中,图形用户界面上包括状态栏、可隐藏的导航栏、时间和天气小组件(widget)、以及应用的图标,例如浏览器图标等。状态栏中包括运营商名称(例如中国移动)、移动网络(例如4G)、时间和剩余电量。导航栏中包括后退(back)键图标、主屏幕(home)键图标和前进键图标。此外,可以理解的是,在一些实施例中,状态栏中还可以包括蓝牙图标、Wi-Fi图标、外接设备图标等。还可以理解的是,在另一些实施例中,图形用户界面中还可以包括Dock栏,Dock栏中可以包括常用的应用图标等。当处理器210检测到用户的手指(或触控笔等)针对某一应用图标的触摸事件后,响应于该触摸事件,打开与该应用图标对应的应用的用户界面,并在显示器294上显示该应用的用户界面。
在本公开实施例中,显示屏294可以是一个一体的柔性显示屏,也可以采用两个刚性屏以及位于两个刚性屏之间的一个柔性屏组成的拼接显示屏等,本发明实施例不做限定。
当处理器210运行本公开实施例提供的文本提取方法后,终端设备200可以控制显示屏294显示相应的图形用户界面,例如图2a、图2b和图2c所示的应用界面,图3a、图3b、图3c和图3d所示的触控区域,以及图3e所示的区域选择标记层。
摄像头293(前置摄像头或者后置摄像头,或者一个摄像头既可作为前置摄像头,也可作为后置摄像头)用于捕获静态图像或视频。通常,摄像头293可以包括感光元件比如镜头组和图像传感器,其中,镜头组包括多个透镜(凸透镜或凹透镜),用于采集待拍摄物体反射的光信号,并将采集的光信号传递给图像传感器。图像传感器根据所述光信号生成待拍摄物体的原始图像。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令,从而执行终端设备200的各种功能应用以及数据处理。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,应用程序(比如相机应用,微信应用等)的代码等。存储数据区可存储终端设备200使用过程中所创建的数据(比如相机应用采集的图像、视频等)等。
内部存储器221还可以存储本公开实施例提供的文本提取方法对应的一个或多个计算机程序1310。该一个或多个计算机程序1304被存储在上述存储器221中并被配置为被该一个或多个处理器210执行,该一个或多个计算机程序1310包括指令,上述指令可以用于执行如图5相应实施例中的各个步骤,该计算机程序1310可以包括第一获取模块、提取模块、确定模块、第二获取模块和调整模块,其中,第一获取模块,用于响应于触摸屏上的触控操作,获取触控区域;提取模块,用于通过光学字符识别OCR技术提取所述第一获取模块获取的触控区域内的第一文本信息;确定模块,用于从所述触摸屏上显示的文本性控件中,确定出与所述第一获取模块获取的触控区域匹配的目标控件,所述文本性控件用于表示能够获取到文字内容的控件;第二获取模块,用于从所述确定模块确定的目标控件中获取第二文本信息;调整模块,用于基于所述第二获取模块获取的第二文本信息对所述提取模块提取的第一文本信息进行调整,获得第三文本信息。当内部存储器221中存储的文本提取方法的代码被处理器210运行时,处理器210可以控制显示屏显示第三文本信息。
此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
当然,本公开实施例提供的文本提取方法的代码还可以存储在外部存储器中。这种情况下,处理器210可以通过外部存储器接口220运行存储在外部存储器中的文本提取方法的代码。
下面介绍传感器模块280中的触摸传感器280K的功能。
触摸传感器280K,也称“触控面板”。触摸传感器280K可以设置于显示屏294,由触摸传感器280K与显示屏294组成触摸屏,也称“触控屏”。触摸传感器280K用于检测作用于其上或附近的触控操作。触摸传感器可以将检测到的触控操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏294提供与触控操作相关的视觉输出。在本公开实施例中,用户可以在触摸屏上执行图3a、图3b、图3c和图3d所示的触控操作,处理器依据这些触控操作可以获取到触控区域。
示例性的,终端设备200的显示屏294显示主界面,主界面中包括多个应用(比如即时通信应用、浏览器应用等)的图标。用户通过触摸传感器280K点击主界面中即时通信应用的图标,触发处理器210启动即时通信应用。显示屏294显示即使通信应用的界面,例如登录界面或者聊天界面等。
终端设备200的无线通信功能可以通过天线1,天线2,移动通信模块251,无线通信模块252,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块251可以提供应用在终端设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块251可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块251可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块251还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块251的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块251的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。在本公开实施例中,移动通信模块251还可以用于与其它终端设备进行信息交互。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270A,受话器270B等)输出声音信号,或通过显示屏294显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器210,与移动通信模块251或其他功能模块设置在同一个器件中。
无线通信模块252可以提供应用在终端设备200上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块252可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块252经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块252还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。本公开实施例中,无线通信模块252,用于在处理器210的控制下与其他终端设备之间传输数据,比如,处理器210运行本公开实施例提供的文本提取方法时,处理器可以控制无线通信模块252向其他终端设备发送服务请求,还可以接收其他终端设备基于上述服务请求提供的服务结果。例如,向其他终端设备发送网页访问请求,接收其他终端设备提供的网页内容。
另外,终端设备200可以通过音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
应理解,在实际应用中,终端设备200可以包括比图4所示的更多或更少的部件,本公开实施例不作限定。图示终端设备200仅是一个范例,并且终端设备200可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面结合图3a所示的应用界面,示例性说明终端设备200软件以及硬件的工作流程。
在终端设备200在显示屏294显示如图3a所示的应用界面的情况下,当用户触摸信息“集成了100mΩ的MOSFET开关功”的两侧,触摸传感器280K接收到该触控操作,相应的硬件终端被发给内核层。内核层将触控操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的应用。以该触控操作为双指按压操作,该双指按压操作所对应的应用为文本提取应用为例,文本提取应用调用应用框架层的接口,启动文本提取应用。文本提取应用响应于上述双指按压操作,获取图3a所示的触控区域;通过OCR技术提取触控区域内的第一文本信息“集成了100mQ的MOSFET开关功”;从显示屏294上显示的文本性控件中,确定出与图3a所示的触控区域匹配的目标控件;从目标控件中获取第二文本信息“XL1509-3.3E1 5G基站电源芯片特点2A连续输出电流8-30V宽工作电压输入集成了100mΩ的MOSFET开关功率管输出18-28V可调”;基于第二文本信息对第一文本信息进行调整,得到第三文本信息“集成了100mΩ的MOSFET开关功”。
图5示出本公开实施例的文本提取方法的流程图。该方法可以由终端设备执行,例如图4所示的终端设备200。如图5所示,所述方法可以包括:
步骤S601,响应于触摸屏上的触控操作,获取触控区域。
步骤S602,通过光学字符识别OCR技术提取所述触控区域内的第一文本信息。
步骤S603,从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件。
其中,所述文本性控件用于表示能够获取到文字内容的控件。
步骤S604,从所述目标控件中获取第二文本信息。
步骤S605,基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息。
在本公开实施例中,通过OCR技术准确地提取到文字位置准确的第一文本信息,通过控件取词技术获取到文字内容正确的第二文本信息,基于文字内容正确的第二文本信息对文字位置准确的第一文本信息进行调整,可以方便、快捷的获得位置准确、且内容正确的第三文字信息。
在步骤S601中,触控操作可以包括点击操作、滑动操作、按压操作。其中,点击操作可以包括两次点击操作、两次双击操作、一次单击操作和一次双击操作,或者一次双击操作和一次单击操作等。滑动操作可以包括单指滑动操作、多指滑动操作等。按压操作可以包括单指按压操作、多指按压操作(例如双指按压操作)等。触控操作可以通过触控笔、用户手指、或者用户指关节等执行。终端设备响应于触摸屏上的触控操作,可以获取触控区域。该触控区域可以准确的标记出用户需要获得的文字信息的位置。在一个示例中,考虑到文字具有分行的特点,触控区域可以为包括一个或多个矩形区域。触控区域也可以为其他能够准确标记位置的区域。
在一种可能的实现方式中,步骤S601可以包括:响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。
触控操作可能产生两个或者两个以上的触控点。在本公开实施例中,需要从这两个或者两个以上的触控点中确定出起始触控点和结束触控点。其中,起始触控点可以用于标记用户想要获取的文本信息的起始点,结束触控点可以用于标记用户想要获取的文本信息的结束点。起始触控点和结束触控点是根据文本信息中文字内容的顺序确定的,而不是根据触控点产生的顺序确定。对于从左下向右上滑动的滑动操作而言,起始触控点是滑动操作产生的最后一个触控点,结束触控点是滑动操作产生的第一个触控点。举例来说,终端设备确定触控操作产生的各触控点对应文本行与触摸屏上边界之间的距离,并将距离最小的触控点确定为第一触控点。同样,终端设备确定触控操作产生的各触控点对应文本行与触摸屏下边界之间的距离,并将距离最小的触控点确定为第二触控点。在存在一个第一触控点的情况下,终端设备可以将第一触控点确定为起始触控点;在存在多个第一触控点的情况下,终端设备可以将与触摸屏左边界最小的第一触控点确定为起始触控点。在存在一个第二触控点的情况下,终端设备可以将第二触控点确定为结束触控点;在存在多个第二触控点的情况下,终端设备可以将与触摸屏右边界距离最小的第二触控点确定为结束触控点。
起始触控点的位置信息和结束触控点的位置信息是基于触摸屏确定的。在一个示例中,可以将触摸屏的左下角确定为坐标原点,将坐标原点的正右方作为x轴的正向,将坐标原点的正左方作为y轴的负向,将坐标原点的正上方作为y轴的正向,将坐标原点的正下方作为y轴的负向。这样,起始触控点的位置信息和结束触控点的位置信息可以通过x和y进行表示。
在一个示例中,在所述起始触控点与所述结束触控点对应同一文本行的情况下,终端设备可以根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。以第一区域为矩形区域为例,终端设备可以根据起始触控点确定第一区域的左边界,根据结束触控点确定第一区域的右边界,根据OCR技术划分的行确定矩形区域的上下边界,并将确定出的上下左右边界之间的矩形区域,确定为触控区域。
在一个示例中,在所述起始触控点和所述结束触控点对应相邻文本行的情况下,终端设备可以根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。
其中,确定第二区域和第三区域的方式可以参照确定第一区域的方式,这里不再赘述。可以理解的是第二区域中的文本信息应该排在第三区域中的文本信息之前。在一个示例中,可以将第三区域拼接在第二区域之后,得到触控区域。
在一个示例中,在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,终端设备可以根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。
其中,确定第四区域、第五区域和第六区域的方式可以参照确定第一区域的方式,这里不再赘述。在一个示例中,可以先将第五区域划分成一个或多个子区域,每个子区域对应一个文本行。然后,将第五区域的各子区域按照先后顺序依次拼接在第四区域之后,并将第六区域拼接在第五区域最后一个文本行对应的子区域之后,得到触控区域。
在本公开实施例中,通过上述方式可以准确标记出用户需要获取的文本信息的位置。
在一种可能的实现方式中,在获取起始触控点的位置信息和结束触控点的位置信息之前,终端设备可以先对起始触控点和结束触控点的位置进行调整。在一个示例中,终端设备可以将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点。之后,终端设备可以根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。
其中,第一距离可以包括第一x轴距离和第一y轴距离。第一x轴距离和第一y轴距离可以相同也可以不同。第一x轴距离和第一y轴距离可以根据需要进行设置,例如可以根据触摸屏的尺寸、文本行的高度以及文字的大小中的一者或多者确定,对此本公开不做限制。举例来说,第一x轴距离可以为0.5cm,第一y轴距离可以为0.5cm。第二距离可以参照第一距离,这里不再赘述,
在本公开实施例中,通过向y轴正向和x轴负向调整起始触摸点的位置,以及向y轴负向和x轴正向调整结束触控点的位置,可以略微扩大触控区域,降低因用户视觉触控点和实际触控点不一致而造成的文字漏选的影响,提高位置标记的准确性。
在一种可能的实现方式中,终端设备在确定出起始触控点和结束触控点对应的文本行之后,可以向上和向下分别多取一个文本行的区域,添加至触控区域中。这样,可以有效扩展触控区域,以更好的降低因用户视觉触控点和实际触控点不一致而造成的文字漏选的影响,提高位置标记的准确性。特别是,通过手指或者指关节执行的触控操作,效果更加明显。
在步骤S602中,第一文本信息可以表示通过OCR技术提取的触控区域内的文本信息。在一个示例中,终端设备可以对触控区域进行二值化处理、噪声去除、倾斜矫正、分行处理、字符分割、字符识别和板面恢复(即使识别出的文字内容,仍然按照原触控区域中显示的文字内容那样排列,保持文字的段落不变、位置不变、顺序不变)。
在步骤S603中,文本性控件可以用于表示能够获取到文字内容的空间。在一个示例中,文本性控件可以包括文本展示控件和文本输入控件。例如,文本性控件可以为短消息展示框、即时通信消息展示框、备忘录、记事本等。触摸屏中可以同时显示一个或多个文本性控件。需要说明的是,触摸屏上显示的文本性控件包括触摸屏上未完全显示的文本性控件。
在一种可能的实现方式中,终端设备可以获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;基于所述交并比,确定出所述目标控件。在一个示例中,终端设备可以将与触控区域的交并比最大的文本性控件确定为目标控件。在又一示例中,终端设备可以将与触控区域的交并比最大、且交并比大于指定阈值的文本性控件,确定为目标控件。其中,指定阈值可以根据需要进行设置,例如可以设置为85%、90%等,对此本公开不做限制。
在步骤S604中,由于目标控件是能够获取到文字内容的控件。因此,终端设备可以直接从目标控件中获取到第二文本信息。第二文本信息可以存储在目标控件的属性信息中。
在步骤S605中,终端设备可以基于第二文本信息对第一文本信息进行调整,使得第一文本信息中不正确的文字内容变为正确的文字内容。由于第一文本信息本身的文字位置是准确的。因此,第一文本信息调整后得到的第三文本信息中的文字位置是准确的、文字内容是正确的。
在一种可能的实现方式中,步骤S605可以包括:对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
在本公开实施例中,首先对第一文本信息和第二文本信息进行对齐处理,找到第一文本信息和第二文本信息中对应于触摸屏上同一位置的字符。在一个示例中,可以先将第一文本信息的第一个字符与第二文本信息的第一个字符对齐,然后依次比对后续字符,确定匹配率(例如,相同字符的数量占不同字符的数量的比例);将第一文本信息的第一个字符与第二文本信息的第二个字符对齐,再次确定匹配率。以此类推,直至将第一文本信息的第一个字符与第二文本信息的最后一个字符进行对齐,确定出最后一个匹配率。找出匹配率最大的对齐位置,作为最终的对齐位置。在又一示例中,可以确定出一个大于一定阈值(可根据需要进行设置,例如可以设置为95%、90%等)的匹配率之后,即将该匹配率对应的对齐位置,作为最终的对齐位置,不再进行后续操作。然后,对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比。基于对比结果,针对不一致的情况进行替换处理。举例来说,基于图3a,终端设备200提取到第一文本信息“集成了100mQ的MOSFET开关功”,获取到第二文本信息“XL 1509-3.3E1 5G基站电源芯片特点2A连续输出电流8-30V宽工作电压输入集成了100mΩ的MOSFET开关功率管输出18-28V可调”,进行对齐处理后,终端设备可以确定第一文本信息中“集成了100mQ的MOSFET开关功”的各个字符依次与第二文本信息“集成了100mΩ的MOSFET开关功”中的各个字符对应同一位置。终端设备可以对第一文本信息和第二文本信息中同一位置的字符进行对比。经对比,终端设备发现对应同一位置的第一文本信息中的字符“Q”与第二文本信息中的字符“Ω”不同。此时,终端设备可以确定字符“Q”确定为目标字符,从而将第一文本信息“集成了100mQ的MOSFET开关功”中的目标字符“Q”替换为第二文本信息中同一位置的字符“Ω”,得到最终的第三文本信息“集成了100mΩ的MOSFET开关功”。
相较于OCR技术,本公开实施例提供的文本提取方法可以提高提取文本内容正确性。相较于控件取词技术,本公开实施例提供的文本提取方法可以提高提取文本位置的准确性,省去用户在提取结果中寻找需要的文字的过程。也就是说,本公开实施例提供的文本提取方法可以方便、快捷、准确地获取到用户需要的文本信息。
在一个示例中,终端设备在将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息之前,可以先根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率。然后在所述匹配率大于第一阈值的情况下,终端设备再将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
其中,匹配率可以为第一文本信息中除目标字符以外的字符的数量与第一文本信息中字符的数量的比值。第一阈值可以根据需要进行设置,例如,第一阈值可以为92%、95%等,本公开实施例对第一阈值不做限定。在匹配率大于第一阈值的情况下,表明第一文本信息中存在少量提取错误的文字内容,第一文本信息经过调整可以提高正确性。因此,在匹配率大于第一阈值的情况下,终端设备再将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。在匹配率小于或者等于第一阈值的情况下,表明第一文本信息中可能存在大量提取错误的文字内容,这可能是因为第一文本信息和第二文本信息未对齐或者对齐不准确造成的,也可能是因为第一文本信息和第二文本信息中的一者或两者提取错误造成的。此时,终端设备可以重新进行第一文本信息和第二文本信息的对齐或者重新进行第一文本信息和第二文本信息的获取。
这样,通过在匹配率较大的情况下,进行字符替换,可以提高正确性。
在一种可能的实现方式中,步骤S605可以包括:检测所述第二文本信息中是否存在满足预设格式的字符集;在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。
其中,预设格式的字符集可以包括口令或者链接等,本公开实施例对预设格式不做限制。在一个示例中,终端设备可以通过正则表达式或者自然语言处理(NaturalLanguage Process ing,NLP)技术,对第二文本信息进行预设格式字符集的检测以及提取。
通过OCR技术获取链接或口令时,容易出错,且OCR技术在链接或口令换行时会做折断处理,从而造成通过OCR技术难以准确地提取到链接或者口令。通过控件取词技术获取链接或口令时,需要用户从获取的文本中寻找具体的位置,操作繁琐。而本公开实施例提供的文本提取方法,能够通过OCR技术确定链接或者口令所属的控件,然后自动从控件中提取出链接或者口令,既可以保证链接或者口令的完整性和位置准确性,又能够保证链接或者口令的正确性,同时操作快捷方便。
在一种可能的实现方式中,采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息之后,终端设备还可以根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。例如,终端设备可以跳转至链接对应的网页,还可以打开口令对应的应用并跳转至对应的详情页或者复制口令并在相应应用被打开的情况下自动跳转至对应的详情页。
这样,可以提高服务效率,有利于提升用户满意度。
图6示出本公开实施例的文本提取装置的结构示意图。如图6所示,该装置80可以包括:
第一获取模块81,用于响应于触摸屏上的触控操作,获取触控区域;
提取模块82,用于通过光学字符识别OCR技术提取所述第一获取模块81获取的触控区域内的第一文本信息;
确定模块83,用于用于从所述触摸屏上显示一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;
第二获取模块84,用于从所述确定模块83确定的目标控件中获取第二文本信息;
调整模块85,用于基于所述第二获取模块84获取的第二文本信息对所述提取模块82提取的第一文本信息进行调整,获得第三文本信息。
在本公开实施例中,通过OCR技术准确地提取到文字位置准确的第一文本信息,通过控件取词技术获取到文字内容正确的第二文本信息,基于文字内容正确的第二文本信息对文字位置准确的第一文本信息进行调整,可以方便、快捷的获得位置准确、且内容正确的第三文字信息。
在一种可能的实现方式中,所述确定模块包括:第一获取单元,用于获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;第一确定单元,用于基于所述交并比,确定出所述目标控件。
在一种可能的实现方式中,所述调整模块包括:对比单元,用于对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;第二确定单元,用于将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;第一替换单元,用于将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
在一种可能的实现方式中,所述第一替换单元还用于:根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
在一种可能的实现方式中,所述调整模块还包括:检测单元,用于检测所述第二文本信息中是否存在满足预设格式的字符集;提取单元,用于在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;第二替换单元,用于采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。
在一种可能的实现方式中,所述装置还包括:服务模块,用于根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。在一种可能的实现方式中,所述第一获取模块包括:第二获取单元,用于响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;第三确定单元,用于根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。
在一种可能的实现方式中,所述第一获取模块还包括:加载单元,用于响应于所述触控操作,加载区域选择标记层;第四确定单元,用于基于所述区域选择标记层的确认操作,确定所述触控区域。
在一种可能的实现方式中,所述第三确定单元还用于:在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。
在一种可能的实现方式中,所述第三确定单元还用于:在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。
在一种可能的实现方式中,所述第三确定单元还用于:在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。
在一种可能的实现方式中,所述第三确定单元还用于:将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。
本公开的实施例提供了一种文本提取装置,包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述方法。
本公开的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
本公开的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory,EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(Local Area Network,LAN)或广域网(WideArea Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (26)
1.一种文本提取方法,其特征在于,所述方法包括:
响应于触摸屏上的触控操作,获取触控区域;
通过光学字符识别OCR技术提取所述触控区域内的第一文本信息;
从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;
从所述目标控件中获取第二文本信息;
基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息。
2.根据权利要求1所述的方法,其特征在于,所述从所述触摸屏上显示的一个或多个文本性控件中确定出与所述触控区域匹配的目标控件包括:
获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;
基于所述交并比,确定出所述目标控件。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息包括:
对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;
将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;
将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
4.根据权利要求3所述的方法,其特征在于,所述将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息包括:
根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;
在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二文本信息对所述第一文本信息进行调整,获得第三文本信息包括:
检测所述第二文本信息中是否存在满足预设格式的字符集;
在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;
采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述响应于触控操作,获取触控区域包括:
响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;
根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。
8.根据权利要求1至6中任一项所述的方法,其特征在于,所述响应于触控操作,获取触控区域包括:
响应于所述触控操作,加载区域选择标记层;
基于所述区域选择标记层的确认操作,确定所述触控区域。
9.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:
在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。
10.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:
在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。
11.根据权利要求7所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:
在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。
12.根据权利要求9至11中任一项所述的方法,其特征在于,所述根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域包括:
将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;
将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;
根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。
13.一种文本提取装置,其特征在于,所述装置包括:
第一获取模块,用于响应于触摸屏上的触控操作,获取触控区域;
提取模块,用于通过光学字符识别OCR技术提取所述第一获取模块获取的触控区域内的第一文本信息;
确定模块,用于从所述触摸屏上显示一个或多个文本性控件中确定出与所述触控区域匹配的目标控件;
第二获取模块,用于从所述确定模块确定的目标控件中获取第二文本信息;
调整模块,用于基于所述第二获取模块获取的第二文本信息对所述提取模块提取的第一文本信息进行调整,获得第三文本信息。
14.根据权利要求13所述的装置,其特征在于,所述确定模块包括:
第一获取单元,用于获取所述触摸屏上显示的各文本性控件与所述触控区域的交并比;
第一确定单元,用于基于所述交并比,确定出所述目标控件。
15.根据权利要求13或14所述的装置,其特征在于,所述调整模块包括:
对比单元,用于对所述第一文本信息和所述第二文本信息中对应于所述触摸屏上同一位置的字符进行对比;
第二确定单元,用于将所述第一文本信息中,与第二文本信息中的字符对应于所述触摸屏上同一位置且内容不一致的字符,确定为目标字符;
第一替换单元,用于将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
16.根据权利要求15所述的装置,其特征在于,所述第一替换单元还用于:
根据所述目标字符的数量与所述第一文本信息中字符的数量,确定匹配率;
在所述匹配率大于第一阈值的情况下,将第一文本信息中的目标字符替换为与所述目标字符对应于所述触摸屏上同一位置的第二文本信息中的字符,得到所述第三文本信息。
17.根据权利要求13或14所述的装置,其特征在于,所述调整模块还包括:
检测单元,用于检测所述第二文本信息中是否存在满足预设格式的字符集;
提取单元,用于在所述第二文本信息中存在满足所述预设格式的字符集的情况下,从所述第二文本信息中提取出满足所述预设格式的字符集;
第二替换单元,用于采用提取出的字符集替换所述第一文本信息,得到所述第三文本信息。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
服务模块,用于根据所述第三文本信息,提供与所述预设格式的字符集对应的服务。
19.根据权利要求13至18中任一项所述的装置,其特征在于,所述第一获取模块包括:
第二获取单元,用于响应于所述触控操作,获取起始触控点的位置信息和结束触控点的位置信息;
第三确定单元,用于根据所述起始触控点的位置信息和所述结束触控点的位置信息,确定所述触控区域。
20.根据权利要求13至18中任一项所述的装置,其特征在于,所述第一获取模块还包括:
加载单元,用于响应于所述触控操作,加载区域选择标记层;
第四确定单元,用于基于所述区域选择标记层的确认操作,确定所述触控区域。
21.根据权利要求19所述的装置,其特征在于,所述第三确定单元还用于:
在所述起始触控点与所述结束触控点对应同一文本行的情况下,根据所述起始触控点和所述结束触控点之间的第一区域,确定所述触控区域。
22.根据权利要求19所述的装置,其特征在于,所述第三确定单元还用于:
在所述起始触控点和所述结束触控点对应相邻文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第二区域,以及所述结束触控点和所述触摸屏的左边界之间的第三区域,确定所述触控区域。
23.根据权利要求19所述的装置,其特征在于,所述第三确定单元还用于:
在所述起始触控点和所述结束触控点对应的文本行相隔一个或多个文本行的情况下,根据所述起始触控点和所述触摸屏的右边界之间的第四区域、所述起始触控点对应文本行与所述结束触控点对应文本行之间的第五区域,以及所述结束触控点和所述触摸屏的左边界之间的第六区域,确定所述触控区域。
24.根据权利要求21至23中任一项所述的装置,其特征在于,所述第三确定单元还用于:
将所述起始触控点向所述触摸屏的y轴正向和x轴负向移动第一距离,得到调整后的起始触控点;
将所述结束触控点向所述触摸屏的x轴正向和y轴负向移动第二距离,得到调整后的结束触控点;
根据调整后的起始触控点的位置信息和调整后的结束触控点的位置信息,确定所述触控区域。
25.一种文本提取装置装置,其特征在于,包括处理器,用于存储处理器可执行指令的存储器,以及用于接收触控操作的触摸屏,所述处理器调用所述可执行指令时以使得终端实现如权利要求1-12中任意一项所述的方法。
26.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-12中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011362776.XA CN114564141A (zh) | 2020-11-27 | 2020-11-27 | 文本提取方法及装置 |
PCT/CN2021/133172 WO2022111582A1 (zh) | 2020-11-27 | 2021-11-25 | 文本提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011362776.XA CN114564141A (zh) | 2020-11-27 | 2020-11-27 | 文本提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564141A true CN114564141A (zh) | 2022-05-31 |
Family
ID=81711991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011362776.XA Pending CN114564141A (zh) | 2020-11-27 | 2020-11-27 | 文本提取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114564141A (zh) |
WO (1) | WO2022111582A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060210198A1 (en) * | 2005-03-16 | 2006-09-21 | Kabushiki Kaisha Toshiba | Optical-character-recognition system and optical-character-recognition method |
US20060210197A1 (en) * | 2005-03-15 | 2006-09-21 | Kabushiki Kaisha Toshiba | OCR apparatus and OCR result verification method |
CN106484266A (zh) * | 2016-10-18 | 2017-03-08 | 北京锤子数码科技有限公司 | 一种文本处理方法及装置 |
CN109002759A (zh) * | 2018-06-07 | 2018-12-14 | Oppo广东移动通信有限公司 | 文本识别方法、装置、移动终端以及存储介质 |
CN109739416A (zh) * | 2018-04-19 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种文本提取方法和装置 |
CN111007980A (zh) * | 2019-11-29 | 2020-04-14 | 维沃移动通信有限公司 | 一种信息录入方法及终端设备 |
CN111930622A (zh) * | 2020-08-10 | 2020-11-13 | 中国工商银行股份有限公司 | 基于深度学习的界面控件测试方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942212B (zh) * | 2013-01-21 | 2018-01-09 | 腾讯科技(深圳)有限公司 | 一种用户界面的文字检测方法及装置 |
CN106527945A (zh) * | 2016-11-09 | 2017-03-22 | 广东小天才科技有限公司 | 文本信息提取方法及装置 |
CN110287091A (zh) * | 2019-05-10 | 2019-09-27 | 国家计算机网络与信息安全管理中心 | 一种应用软件安装过程中的检测方法及装置 |
CN112966583A (zh) * | 2021-02-26 | 2021-06-15 | 深圳壹账通智能科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-27 CN CN202011362776.XA patent/CN114564141A/zh active Pending
-
2021
- 2021-11-25 WO PCT/CN2021/133172 patent/WO2022111582A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060210197A1 (en) * | 2005-03-15 | 2006-09-21 | Kabushiki Kaisha Toshiba | OCR apparatus and OCR result verification method |
US20060210198A1 (en) * | 2005-03-16 | 2006-09-21 | Kabushiki Kaisha Toshiba | Optical-character-recognition system and optical-character-recognition method |
CN106484266A (zh) * | 2016-10-18 | 2017-03-08 | 北京锤子数码科技有限公司 | 一种文本处理方法及装置 |
CN109739416A (zh) * | 2018-04-19 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种文本提取方法和装置 |
CN109002759A (zh) * | 2018-06-07 | 2018-12-14 | Oppo广东移动通信有限公司 | 文本识别方法、装置、移动终端以及存储介质 |
CN111007980A (zh) * | 2019-11-29 | 2020-04-14 | 维沃移动通信有限公司 | 一种信息录入方法及终端设备 |
CN111930622A (zh) * | 2020-08-10 | 2020-11-13 | 中国工商银行股份有限公司 | 基于深度学习的界面控件测试方法及系统 |
Non-Patent Citations (1)
Title |
---|
郭军;: "基于OCR软件性能的文本型数字图像OCR识别准确度提高策略研究", 网络安全技术与应用, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022111582A1 (zh) | 2022-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748054B2 (en) | Screen projection method and terminal device | |
CN111062312B (zh) | 手势识别方法、手势控制方法、装置、介质与终端设备 | |
KR102173123B1 (ko) | 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치 | |
CN109189879B (zh) | 电子书籍显示方法及装置 | |
CN109684980B (zh) | 自动阅卷方法及装置 | |
CN110663016B (zh) | 显示图形用户界面的方法和移动终端 | |
CN111586237B (zh) | 一种图像显示方法及电子设备 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
US9519355B2 (en) | Mobile device event control with digital images | |
CN109495616B (zh) | 一种拍照方法及终端设备 | |
US20220050975A1 (en) | Content Translation Method and Terminal | |
CN113014846B (zh) | 一种视频采集控制方法、电子设备、计算机可读存储介质 | |
CN109670507B (zh) | 图片处理方法、装置及移动终端 | |
CN112232260A (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
US9906727B2 (en) | Method for providing a title of contents based on context awareness and device thereof | |
CN110377914B (zh) | 字符识别方法、装置及存储介质 | |
CN112053360A (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
KR20200127928A (ko) | 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치 | |
CN108471549B (zh) | 一种遥控方法及终端 | |
US10915778B2 (en) | User interface framework for multi-selection and operation of non-consecutive segmented information | |
WO2020124454A1 (zh) | 字体切换方法及相关产品 | |
CN114564141A (zh) | 文本提取方法及装置 | |
CN115379113A (zh) | 拍摄处理方法、装置、设备及存储介质 | |
CN112287131A (zh) | 信息交互方法、信息交互装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |