CN112749248A - 文本要素内容的提取方法及装置、设备、计算机存储介质 - Google Patents

文本要素内容的提取方法及装置、设备、计算机存储介质 Download PDF

Info

Publication number
CN112749248A
CN112749248A CN202011643030.6A CN202011643030A CN112749248A CN 112749248 A CN112749248 A CN 112749248A CN 202011643030 A CN202011643030 A CN 202011643030A CN 112749248 A CN112749248 A CN 112749248A
Authority
CN
China
Prior art keywords
content
text
extracted
contents
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011643030.6A
Other languages
English (en)
Inventor
张义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202011643030.6A priority Critical patent/CN112749248A/zh
Publication of CN112749248A publication Critical patent/CN112749248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种文本要素内容的提取方法及装置、设备、计算机可读存储介质。本发明通过获取待识别文本,并利用光学字符识别技术对待识别文本进行识别,得到带有文本格式的文本内容,再对文本内容建立索引,得到索引内容,其中索引内容包括要素项和要素内容,进而根据规则引擎对索引内容的要素内容进行提取,其中规则引擎包括待提取要素项的关键字的规则;因此,只要待提取要素项的关键字相同,那么无论是否为同一类型的文本,都是可以一并提取出待提取要素项对应的要素内容的,大大提升了文本要素内容的提取效率,且规则引擎中包括的规则可以根据实际情况进行灵活调整,灵活性更高。

Description

文本要素内容的提取方法及装置、设备、计算机存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本要素内容的提取方法及装置、设备、计算机可读存储介质。
背景技术
目前OCR(Optical Character Recognition,光学字符识别)技术已经应用比较广泛了,其中在通过OCR技术识别各种文件内容时,是基于不同的模板,即基于不同的模板实现不同文本要素内容的提取,但是基于不同模板实现不同文本要素内容的提取方式中的模板都是固定化的,这样导致文本要素内容的提取非常繁琐、提取效率低。
由此可见,如何提升文本要素内容的提取效率是亟待解决的问题。
发明内容
本发明的主要目的在于提供文本要素内容的提取方法及装置、设备、计算机可读存储介质,旨在提升文本要素内容的提取效率。
为实现上述目的,本发明提供一种文本要素内容的提取方法,所述文本要素内容的提取方法包括以下步骤:
获取待识别文本;
利用光学字符识别技术对所述待识别文本进行识别,得到带有文本格式的文本内容;
对所述文本内容建立索引,得到索引内容,所述索引内容包括要素项和要素内容;
根据规则引擎对所述索引内容的要素内容进行提取,所述规则引擎包括待提取要素项的关键字的规则。
可选的,所述获取待识别文本的步骤,包括:
获取实时上传的待识别文件,将所述待识别文件作为待识别文本;
或,
获取预先上传的待识别文件,将所述待识别文件作为待识别文本。
可选的,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤之后,所述文本要素内容的提取方法还包括:
接收要素内容比对指令;
根据所述要素内容比对指令,对从不同待识别文本提取到的要素内容进行比对,得到比对结果;
显示所述比对结果。
可选的,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤之前,所述文本要素内容的提取方法还包括:
若接收到设置指令,则获取所述设置指令中携带的待提取要素项的关键字;
根据所述待提取要素项的关键字,设置规则引擎包括的规则。
可选的,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的关键字,在所述索引内容中查找和所述关键字匹配的第一目标要素项;
对与所述第一目标要素项对应的要素内容进行提取。
可选的,若所述规则还包括待提取要素项的位置,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的位置,在所述索引内容中查找和所述待提取要素项的位置匹配的第二目标要素项;
在所述第二目标要素项中,查找和所述关键字匹配的第三目标要素项;
对与所述第三目标要素项对应的要素内容进行提取。
可选的,若所述规则还包括待提取要素项的优先级,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的优先级,在所述索引内容中查找与所述待提取要素项的优先级匹配的第四目标要素项;
在所述第四目标要素项中,查找和所述关键字匹配的第五目标要素项;
对与所述第五目标要素项对应的要素内容进行提取。
此外,为实现上述目的,本发明还提供一种文本要素内容的提取装置,所述文本要素内容的提取装置包括:
获取模块,用于获取待识别文本;
识别模块,用于利用光学字符识别技术对所述待识别文本进行识别,得到带有文本格式的文本内容;
建立模块,用于对所述文本内容建立索引,得到索引内容,所述索引内容包括要素项和要素内容;
提取模块,用于根据规则引擎对所述索引内容的要素内容进行提取,所述规则引擎包括待提取要素项的关键字的规则。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行文本要素内容的提取程序,所述文本要素内容的提取程序被所述处理器执行时实现如上文的文本要素内容的提取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本要素内容的提取程序,文本要素内容的提取程序被处理器执行时实现如上文的文本要素内容的提取方法的步骤。
本发明提供的技术方案,通过获取待识别文本,并利用光学字符识别技术对待识别文本进行识别,得到带有文本格式的文本内容,再对文本内容建立索引,得到索引内容,其中索引内容包括要素项和要素内容,进而根据规则引擎对索引内容的要素内容进行提取,其中规则引擎包括待提取要素项的关键字的规则;解决了相关技术中文本要素内容的提取效率低的问题。
也即本发明提供的技术方案,通过对识别到的带有文本格式的文本内容建立索引,得到索引内容,并根据规则引擎中包括的待提取要素项的关键字的规则,对索引内容的要素内容进行提取,实现了文本要素内容的快速提取,和相关技术中借助于不同模板来提取文本要素内容相比,大大提升了文本要素内容的提取效率,且规则引擎中包括的规则可以根据实际情况进行灵活调整,灵活性更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明文本要素内容的提取方法第一实施例的流程示意图;
图3为本发明文本要素内容的提取方法第二实施例的流程示意图;
图4为本发明文本要素内容的提取方法第三实施例的流程示意图;
图5为本发明文本要素内容的提取装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参见图1所示,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
设备包括:至少一个处理器101、存储器102以及存储在存储器上并可在处理器上运行的文本要素内容的提取程序,文本要素内容的提取程序配置为实现如下任一实施例的文本要素内容的提取方法的步骤。
处理器101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关文本要素内容的提取方法操作,使得文本要素内容的提取方法模型可以自主训练学习,提高效率和准确度。
存储器102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器101所执行以实现本申请中方法实施例提供的文本要素内容的提取方法。
在一些实施例中,设备还可选包括有:通信接口103和至少一个外围设备。处理器101、存储器102和通信接口103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口103相连。具体地,外围设备包括:射频电路104、显示屏105和电源106中的至少一种。
通信接口103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中,处理器101、存储器102和通信接口103被集成在同一芯片或电路板上;在一些其他实施例中,处理器101、存储器102和通信接口103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏105是触摸显示屏时,显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器101进行处理。此时,显示屏105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏105可以为一个,设备的前面板;在另一些实施例中,显示屏105可以为至少两个,分别设置在设备的不同表面或呈折叠设计;在一些实施例中,显示屏105可以是柔性显示屏,设置在设备的弯曲表面上或折叠面上。甚至,显示屏105还可以设置成非矩形的不规则图形,也即异形屏。显示屏105可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源106用于为设备中的各个组件进行供电。电源106可以是交流电、直流电、一次性电池或可充电电池。当电源106包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述硬件结构,提出本发明的各实施例。
请参见图2所示,图2为本发明文本要素内容的提取方法第一实施例的流程示意图,文本要素内容的提取方法包括以下步骤:
步骤S10:获取待识别文本。
应当明确的是,本实施例的应用场景可以发生在对上传的任意两份或两份以上文件,进行文本内容要素提取后,进而对提取要素内容进行比对,识别出差异结果的过程中。
应当明确的是,本实施例的应用场景也可以发生在在对上传的一份或两份以上的文件,进行文本内容要素提取后,将其自动录入至对应的页面或文件的过程中。
在本实施例中,步骤S10获取待识别文本,包括至少以下两种方式:
方式一,获取实时上传的待识别文件,将待识别文件作为待识别文本;例如用户当前需要对一份或多份文件1进行文本要素内容的提取,这时用户将一份或多份文件1进行上传,此时则可以获取到一份或多份文件1,并将该一份或多份文件1作为待识别文本。
方式二,获取预先上传的待识别文件,将待识别文件作为待识别文本;例如用户在2020-12-01下午13:00-18:00上传了一份或多份文件2,以供用户在2020-12-02进行相应处理,其中用户在2020-12-02一旦下发了文本要素内容的提取指令,则可以获取用户在13:00-18:00上传的一份或多份文件2,并将该一份或多份文件2分别作为待识别文本。
步骤S20:利用光学字符识别技术对待识别文本进行识别,得到带有文本格式的文本内容。
可以理解的是,本实施例中通过步骤S10获取待识别文本之后,便可以利用光学字符识别对待识别文本进行识别,得到带有文本格式的文本内容。
其中,光学字符识别技术指的是电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
本实施例中带有文本格式的文本内容指的是,每个文本内容都有其对应的文本格式,通常情况下,左侧为要素项,右侧为具体的要素项对应的要素内容,要素内容作为最终要提取的对象,其中每一行可以有一个或两个以上要素项和要素项对应的要素内容;例如身份证件的对应文本格式是:
姓名张三
性别男名族汉
出生1990年1月1日
住址上海市XXXXXXXX
公民身份证号310000000000000000
其中,左侧的姓名、性别、名族、出生、住址、公民身份证号均为要素项,右侧的张三、男、汉、1990年1月1日、上海市XXXXXXXX、310000000000000000均为具体的要素项对应的要素内容,同时上述每一个要素项和要素项对应的要素内容占据一行,共五行。
举例说明,获取待识别文本“身份证件”之后,进而利用光学字符识别对待识别文本“身份证件”进行识别,从而得到如上述所示的待识别文本“身份证件”对应的带有文本格式的文本内容。
步骤S30:对文本内容建立索引,得到索引内容,索引内容包括要素项和要素内容。
可以理解的是,本实施例中通过步骤S20利用光学字符识别对待识别文本进行识别,得到带有文本格式的文本内容之后,便可以对文本内容建立索引,得到索引内容;其中索引内容包括要素项和要素内容,要素项和要素内容已在上述进行说明,这里不再赘述。
应当明确的是,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单,索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容;因此,本实施例中对识别到的带有文本格式的文本内容建立索引,得到索引内容,从而方便快速地找到待提取的要素内容。
在一些示例中,索引包括行索引,即以行为节点进行索引的建立;例如如上所示的待识别文本“身份证件”对应的带有文件格式的文本内容,建立行索引得到索引内容如下:
第一行:姓名张三
第二行:性别男名族汉
第三行:出生1990年1月1日
第四行:住址上海市XXXXXXXX
第五行:公民身份证号310000000000000000
在一些示例中,索引包括句号索引,即以句号为节点进行索引的建立;例如以一段任意的带有文件格式的文本内容为例,建立句号索引得到索引内容如下:
第一句:XXX,XXX,XXXXXXXXX。第二句:XXX、XXX、XXX、XXXXXX。第三句:XXXXXXXXXXXXX,XXXXXXXXXXXXXX。
步骤S40:根据规则引擎对索引内容的要素内容进行提取,规则引擎包括待提取要素项的关键字的规则。
可以理解的是,本实施例中通过步骤S30对文本内容建立索引,得到索引内容;其中,索引内容包括要素项和要素内容之后,便可以根据规则引擎对索引内容的要素内容进行提取;其中规则引擎包括至少一条规则,规则包括待提取要素项的关键字。
本实施例中的规则引擎指的是确定待提取的要素内容,进而配置该要素内容对应的要素项,即待提取要素项,换言之,规则引擎包括待提取要素项,因此根据规则引擎便能够实现对索引内容进行待提取要素项对应的要素内容的提取;这样只要待提取要素项相同,那么无论是否为同一类型的文本,都是可以一并提取出待提取要素项对应的要素内容的,并非相关技术中针对不同类型的文本需要用到对应的模板才能提取出要素内容,相对于相关技术中繁琐的提取过程、灵活度差而言,本实施例的提取要素内容过程更为简单、灵活性更高。
本实施例中的规则引擎包括至少一条规则,例如规则引擎可以根据实际需要包括一条或一条以上的规则;其中每条规则对应一条命令,一条命令是一个最小提取单元,针对每条命令其均包括待提取要素项,即每条规则均包括待提取要素项,这样才能根据待提取要素项提取出其对应的要素内容。可以理解的是,待提取要素项可以是待提取要素项所对应的关键字,例如待提取要素项为住宅地址,则待提取要素项对应的关键字可以是“住宅地址”、或者是“住宅”、或者是“地址”。
本实施例中的要素内容即为最终要提取的对象,例如针对如上所示的待识别文本“身份证件”而言,要素内容的提取最终提取的是张三、男、汉、1990年1月1日、上海市XXXXXXXX、310000000000000000等。
在本实施例中,步骤S40根据规则引擎对索引内容的要素内容进行提取,包括以下步骤:
首先,根据待提取要素项的关键字,在索引内容中查找和关键字匹配的第一目标要素项;
然后,对与第一目标要素项对应的要素内容进行提取。
也即,本实施例中根据待提取要素项的关键字,在索引内容中查找和关键字匹配的第一目标要素项,进而对与第一目标要素项对应的要素内容进行提取。
举例说明,例如针对如上所示的待识别文本“身份证件”对应的索引内容而言,如果规则中包括的待提取要素项的关键字为“地址”,则在索引内容中的要素项姓名、性别、名族、出生、住址、公民身份证号中查找和关键字“地址”匹配的要素项,明显地,查找到匹配的“地址”这一第一目标要素项,进而提取“地址”这一第一目标要素项对应的要素内容“上海市XXXXXXXX”。
在本实施例中,规则还可以包括待提取要素项的位置,和/或,待提取要素项的优先级;其中,待提取要素项的位置指的是待提取要素项在索引内容中行数,待提取要素项的优先级指的是提取的要素内容的优先顺序,例如在前提取还是在后提取。
在一些示例中,若规则还包括待提取要素项的位置,步骤S40根据规则引擎对索引内容的要素内容进行提取,包括以下步骤:
首先,根据待提取要素项的位置,在索引内容中查找和待提取要素项的位置匹配的第二目标要素项;
然后,在第二目标要素项中,查找和关键字匹配的第三目标要素项;
进而,对与第三目标要素项对应的要素内容进行提取。
也即,本实施例中规则包括待提取要素项的关键字和待提取要素项的位置;因此,本实施例中首先根据待提取要素项的位置,在索引内容中查找和待提取要素项的位置匹配的第二目标要素项,然后在第二目标要素项中,查找和关键字匹配的第三目标要素项,进而对与第三目标要素项对应的要素内容进行提取;其中规则中包含待提取要素项的关键字和待提取要素项的位置能够进一步提升要素内容的提取速率。
举例说明,例如针对如上所示的待识别文本“身份证件”对应的索引内容而言,如果规则中包括的待提取要素项的关键字为“地址”,待提取要素项的位置为第四行,则直接先定位到索引内容中的第四行,进而在第四行中的要素项住址中查找和关键字匹配的要素项,明显地,查找到匹配的“地址”这一第二目标要素项,进而提取“地址”这一第二目标要素项对应的要素内容“上海市XXXXXXXX”。
在一些示例中,若规则还包括待提取要素项的优先级,步骤S40根据规则引擎对索引内容的要素内容进行提取,包括以下步骤:
首先,根据待提取要素项的优先级,在索引内容中查找与待提取要素项的优先级匹配的第四目标要素项;
然后,在第四目标要素项中,查找和关键字匹配的第五目标要素项;
进而,对与第五目标要素项对应的要素内容进行提取。
也即,本实施例中规则包括待提取要素项的关键字和待提取要素项的优先级;因此,本实施例中首先根据待提取要素项的优先级,在索引内容中查找与待提取要素项的优先级匹配的第四目标要素项,然后在第四目标要素项中,查找和关键字匹配的第五目标要素项,进而对与第五目标对应的要素内容进行提取;其中规则中包含待提取要素项的关键字和待提取要素项的优先级考虑到了不同待提取要素之间的关系,能够进一步提升要素内容的提取灵活性。
举例说明,例如针对如上所示的待识别文本“身份证件”对应的索引内容而言,如果规则中包括的待提取要素项的关键字为“姓名”,待提取要素项的优先级为1,,则此时在索引内容中的要素项姓名、性别、名族、出生、住址、公民身份证号中查找和优先级1匹配的要素项,如果查找到匹配的“姓名”、“公民身份证号”这两个第四目标要素项;再进一步地,在匹配的“姓名”、“公民身份证号”这两个第四目标要素项中查找和关键字“姓名”匹配的要素项,明显地,查找到匹配的“姓名”这一第五目标要素项,进而提取“姓名”这一第五目标要素项对应的要素内容“张三”。
值得注意的是,上述所涉及的第一/二/三/四/五目标要素项,仅在于区分不同的目标要素,而并无优先级之分;同时在实际应用中,规则引擎还可以包括其他待提取内容的规则,具体地,规则引擎还可以包括但不限于关键字之间关系,所在关键字的位置,结束符的规则等;举例说明:
针对从待识别文本“身份证件”对应的索引内容中提取姓名的规则引擎对应的规则为:
{"elementName":"name","keywordCmds":[{"contentPosition":"R","endMarkNum":1,"keyword":"姓名","endMark":"N"}]};即通过索引,循环查询关键字有姓名的行,此时只有第一行,然后通过关键字位置确定取左边还是右边的,这里是右边,且是换行符结束,此时提取到的就是“张三”;
针对从待识别文本“身份证件”对应的索引内容中提取地址的规则引擎对应的规则为:
{"elementAddress":"address","keywordCmds":[{"contentPosition":"R","end MarkNum":4,"keyword":"地址","endMark":"N"}]};即通过索引,循环查询关键字有地址的行,此时只有第四行,然后通过关键字位置确定取左边还是右边的,这里是右边,且是换行符结束,此时提取到的就是“上海市XXXXXXXX”;
依次类推,还可以设置从身份证件中提取性别、名族、出生日期、公民身份证号等对应的规则,从而能够根据设置的规则提取对应的要素内容。可以理解的是,规则设置的越细,则提取到的内容越准确,在实际应用中,可以根据具体应用场景做灵活调整。
本实施例中,通过对识别到的带有文本格式的文本内容建立索引,得到索引内容,并根据规则引擎中包括的待提取要素项的关键字的规则,对索引内容的要素内容进行提取,实现了文本要素内容的快速提取,和相关技术中借助于不同模板来提取文本要素内容相比,大大提升了文本要素内容的提取效率,且规则引擎中包括的规则可以根据实际情况进行灵活调整,灵活性更高。
基于第一实施例,提出本发明文本要素内容的提取方法的第二实施例。
请参见图3所示,在本实施例中,步骤S40根据规则引擎对索引内容的要素内容进行提取之后,文本要素内容的提取方法还可以包括以下步骤:
步骤S41:接收要素内容比对指令;
步骤S42:根据要素内容比对指令,对从不同待识别文本提取到的要素内容进行比对,得到比对结果;
步骤S43:显示比对结果。
可以理解的是,本实施例中通过步骤S40根据规则引擎对索引内容的要素内容进行提取之后,可以接收要素内容比对指令,并根据要素内容比对指令,对从不同待识别文本提取到的要素内容进行比对,得到比对结果,进而显示比对结果;这样便避免了人工一一对不同待识别文本提取到的要素内容进行比对的繁琐操作,提升了不同文本要素内容的比对效率。其中,本实施例中接收到的要素内容比对指令,可以是由任意方式下发,例如语音下发,触控方式下发,具体地触控方式包括但不限于按键点击、滑动等。
举例说明,例如根据步骤S10-S40分别对文件1和文件2进行了要素内容的提取,其中提取到的文件1对应的要素内容有内容11,内容12,内容13等,提取到的文件2对应的要素内容有内容21,内容22,内容23等,此时若接收到要素内容比对指令,则将文件1对应的要素内容内容11,内容12,内容13和文件2对应的要素内容内容21,内容22,内容23进行比对,并得到比对结果,进而将比对结果进行显示。
进一步地,在对从不同待识别文本提取到的要素内容进行比对时,还可以接收要素内容指定指令,进而根据要素内容指定指令对不同待识别文本的指定要素内容进行比对;这样便提升了不同文本要素内容的比对灵活性。
本实施例中,通过接收要素内容比对指令,并根据要素内容比对指令,对从不同待识别文本提取到的要素内容进行比对,得到比对结果,进而显示比对结果,提升了不同文本要素内容的比对效率,降低了相关工作人员的工作压力。
基于上述各实施例,提出本发明文本要素内容的提取方法的第三实施例。
请参见图4所示,在本实施例中,步骤S40根据规则引擎对索引内容的要素内容进行提取之前,文本要素内容的提取方法还可以包括以下步骤:
步骤S31:若接收到设置指令,则获取设置指令中携带的待提取要素项的关键字;
步骤S32:根据待提取要素项的关键字,设置规则引擎包括的规则。
可以理解的是,本实施例中步骤S40根据规则引擎对索引内容的要素内容进行提取之前,还可以接收设置指令,进而获取设置指令中携带的待提取要素项的关键字,并根据待提取要素项的关键字设置规则引擎包括的规则;这样提前将规则引擎包括的规则设置好,在根据规则引擎对索引内容的要素内容进行提取时,直接获取对应的规则引擎即可,进一步提升了文本要素内容的提取效率。其中,本实施例中接收到的设置指令,可以是由任意方式下发,例如语音下发,触控方式下发,具体地触控方式包括但不限于按键点击、滑动等。
进一步地,还可以接收更新指令,进而根据更新指令对规则引擎进行更新;这样通过更新指令,能够灵活地对规则引擎进行更新,从而根据更新后的规则引擎对索引内容的要素内容进行提取,进一步提升了要素内容的提取灵活性。
本实施例中,通过若接收到设置指令,则获取设置指令中携带的待提取要素项的关键字,根据待提取要素项的关键字,设置规则引擎包括的规则,这样在根据规则引擎对索引内容的要素内容进行提取时,直接获取对应的规则引擎即可,进一步提升了文本要素内容的提取效率。
此外,参照图5所示,本发明实施例在上述文本要素内容的提取方法的基础上,还提出一种文本要素内容的提取装置,文本要素内容的提取装置包括:
获取模块500,用于获取待识别文本;
识别模块501,用于利用光学字符识别技术对待识别文本进行识别,得到带有文本格式的文本内容;
建立模块502,用于对文本内容建立索引,得到索引内容,索引内容包括要素项和要素内容;
提取模块503,用于根据规则引擎对索引内容的要素内容进行提取,规则引擎包括待提取要素项的关键字的规则。
本实施例中,文本要素内容的提取装置通过对识别到的带有文本格式的文本内容建立索引,得到索引内容,并根据规则引擎中包括的待提取要素项的关键字的规则,对索引内容的要素内容进行提取,实现了文本要素内容的快速提取,和相关技术中借助于不同模板来提取文本要素内容相比,大大提升了文本要素内容的提取效率,且规则引擎中包括的规则可以根据实际情况进行灵活调整,灵活性更高。
需要说明的是,本实施例中文本要素内容的提取装置还可选的包括有对应的其他模块,以实现上述文本要素内容的提取方法的步骤。
本发明的文本要素内容的提取装置采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质上存储有文本要素内容的提取程序,文本要素内容的提取程序被处理器执行时实现如上述文本要素内容的提取方法的步骤。
该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically EraableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
可见,本领域的技术人员应该明白,上文中所公开方法中全部或某些步骤、系统、设备中功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本要素内容的提取方法,其特征在于,所述文本要素内容的提取方法包括以下步骤:
获取待识别文本;
利用光学字符识别技术对所述待识别文本进行识别,得到带有文本格式的文本内容;
对所述文本内容建立索引,得到索引内容,所述索引内容包括要素项和要素内容;
根据规则引擎对所述索引内容的要素内容进行提取,所述规则引擎包括待提取要素项的关键字的规则。
2.如权利要求1所述的文本要素内容的提取方法,其特征在于,所述获取待识别文本的步骤,包括:
获取实时上传的待识别文件,将所述待识别文件作为待识别文本;
或,
获取预先上传的待识别文件,将所述待识别文件作为待识别文本。
3.如权利要求1所述的文本要素内容的提取方法,其特征在于,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤之后,所述文本要素内容的提取方法还包括:
接收要素内容比对指令;
根据所述要素内容比对指令,对从不同待识别文本提取到的要素内容进行比对,得到比对结果;
显示所述比对结果。
4.如权利要求1所述的文本要素内容的提取方法,其特征在于,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤之前,所述文本要素内容的提取方法还包括:
若接收到设置指令,则获取所述设置指令中携带的待提取要素项的关键字;
根据所述待提取要素项的关键字,设置规则引擎包括的规则。
5.如权利要求1-4中任一项所述的文本要素内容的提取方法,其特征在于,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的关键字,在所述索引内容中查找和所述关键字匹配的第一目标要素项;
对与所述第一目标要素项对应的要素内容进行提取。
6.如权利要求1-4中任一项所述的文本要素内容的提取方法,其特征在于,若所述规则还包括待提取要素项的位置,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的位置,在所述索引内容中查找和所述待提取要素项的位置匹配的第二目标要素项;
在所述第二目标要素项中,查找和所述关键字匹配的第三目标要素项;
对与所述第三目标要素项对应的要素内容进行提取。
7.如权利要求1-4中任一项所述的文本要素内容的提取方法,其特征在于,若所述规则还包括待提取要素项的优先级,所述根据规则引擎对所述索引内容的要素内容进行提取的步骤,包括:
根据所述待提取要素项的优先级,在所述索引内容中查找与所述待提取要素项的优先级匹配的第四目标要素项;
在所述第四目标要素项中,查找和所述关键字匹配的第五目标要素项;
对与所述第五目标要素项对应的要素内容进行提取。
8.一种文本要素内容的提取装置,其特征在于,所述文本要素内容的提取装置包括:
获取模块,用于获取待识别文本;
识别模块,用于利用光学字符识别技术对所述待识别文本进行识别,得到带有文本格式的文本内容;
建立模块,用于对所述文本内容建立索引,得到索引内容,所述索引内容包括要素项和要素内容;
提取模块,用于根据规则引擎对所述索引内容的要素内容进行提取,所述规则引擎包括待提取要素项的关键字的规则。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上文本要素内容的提取程序,所述文本要素内容的提取程序被所述处理器执行时实现如权利要求1-7中任一项所述的文本要素内容的提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本要素内容的提取程序,所述文本要素内容的提取程序被处理器执行时实现如权利要求1-7中任一项所述的文本要素内容的提取方法的步骤。
CN202011643030.6A 2020-12-30 2020-12-30 文本要素内容的提取方法及装置、设备、计算机存储介质 Pending CN112749248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011643030.6A CN112749248A (zh) 2020-12-30 2020-12-30 文本要素内容的提取方法及装置、设备、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011643030.6A CN112749248A (zh) 2020-12-30 2020-12-30 文本要素内容的提取方法及装置、设备、计算机存储介质

Publications (1)

Publication Number Publication Date
CN112749248A true CN112749248A (zh) 2021-05-04

Family

ID=75651188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011643030.6A Pending CN112749248A (zh) 2020-12-30 2020-12-30 文本要素内容的提取方法及装置、设备、计算机存储介质

Country Status (1)

Country Link
CN (1) CN112749248A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029279A (zh) * 2023-03-28 2023-04-28 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029279A (zh) * 2023-03-28 2023-04-28 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质
CN116029279B (zh) * 2023-03-28 2023-07-07 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN101615251B (zh) 字符识别设备中用于识别字符的方法和设备
CN107885430B (zh) 一种音频播放方法、装置、存储介质及电子设备
US7565013B2 (en) Character recognition method, method of processing correction history of character data, and character recognition system
US20120287070A1 (en) Method and apparatus for notification of input environment
KR20180004552A (ko) 필기 입력에 따른 사용자 인터페이스 제어 방법 및 이를 구현한 전자 장치
US9207808B2 (en) Image processing apparatus, image processing method and storage medium
US20190163767A1 (en) Image processing method, image processing device, computer device, and computer readable storage medium
CN102930263A (zh) 一种信息处理方法及装置
CN105653160A (zh) 一种文本确定方法和终端
US20160321238A1 (en) Electronic device, method and storage medium
CN102855298A (zh) 图像检索方法及系统
US20160275095A1 (en) Electronic device, method and storage medium
CN112910925B (zh) 域名检测方法、模型训练方法及装置、设备、存储介质
CN112765165A (zh) 数据录入方法及装置、设备、计算机可读存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
CN113518026A (zh) 消息处理方法、装置和电子设备
CN109034148A (zh) 一种基于文字图像识别音频阅读方法及其装置
CN112052005A (zh) 界面处理方法、装置、设备及存储介质
CN112749248A (zh) 文本要素内容的提取方法及装置、设备、计算机存储介质
US20140222825A1 (en) Electronic device and method for searching handwritten document
CN111414914A (zh) 图像识别方法、装置、计算机设备和存储介质
CN103455479A (zh) 一种新建联系人的方法及终端
US20140164341A1 (en) Method and apparatus for obtaining and managing contact information
CN111027533B (zh) 一种点读坐标的变换方法、系统、终端设备及存储介质
CN113687724A (zh) 候选字显示方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination