CN111191130A - 信息抽取方法、装置、设备及计算机可读存储介质 - Google Patents

信息抽取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111191130A
CN111191130A CN201911396183.2A CN201911396183A CN111191130A CN 111191130 A CN111191130 A CN 111191130A CN 201911396183 A CN201911396183 A CN 201911396183A CN 111191130 A CN111191130 A CN 111191130A
Authority
CN
China
Prior art keywords
information
document
target information
processed
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911396183.2A
Other languages
English (en)
Inventor
唐维维
石廷鑫
王旭东
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201911396183.2A priority Critical patent/CN111191130A/zh
Publication of CN111191130A publication Critical patent/CN111191130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种信息抽取方法、装置、设备及计算机可读存储介质,方法包括:获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;将所述目标信息发送至所述终端设备进行显示。从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。

Description

信息抽取方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种信息抽取方法、装置、设备及计算机可读存储介质。
背景技术
互联网的快速发展,极大的降低了用户访问互联网的门槛,随之出现了大量的保险相关的搜索需求。针对这些搜索需求,衍生出了保险智能信息抽取服务。用户可以上传需要进行信息抽取的文档,抽取该文档中的关键信息,并展示给用户。
现有技术中,接收到用户上传的需要进行信息抽取的文档之后,一般都需要维护人员阅读保险产品的相关文档,从文档中提取出产品相关信息经加工后输出相关结果。
但是,采用上述方法往往需要大量重复性工作及人工操作,一方面较为耗费人力资源,另一方面答案获取速度较慢,造成用户体验较差。
发明内容
本发明提供一种信息抽取方法、装置、设备及计算机可读存储介质,用于解决现有的信息抽取方法需要大量重复性工作及人工操作,一方面较为耗费人力资源,另一方面答案获取速度较慢,造成用户体验较差的技术问题。
本发明的第一个方面是提供一种信息抽取方法,包括:
获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;
采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
将所述目标信息发送至所述终端设备进行显示;
所述方法还包括:
获取预设的待训练文本;
对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
在一种可能的设计中,所述根据所述待抽取信息标签从所述待处理文档中抽取目标信息之后,还包括:
将所述目标信息发送至所述终端设备,以使用户对所述目标信息进行手动修正;
获取修正后的目标信息,存储所述修正后的目标信息。
在一种可能的设计中,存储所述修正后的目标信息,包括:
将所述修正后的目标信息发送至管理平台进行审核;
若接收到管理平台发送的审核通过的信息,则存储所述修正后的目标信息。
在一种可能的设计中,所述存储所述修正后的目标信息之后,还包括:
当存储的修正后的目标信息的数量超过预设的阈值,则根据修正后的目标信息对所述网络模型进行训练,获得更新后的网络模型。
在一种可能的设计中,所述将所述目标信息发送至所述终端设备进行显示,包括:
将所述目标信息发送至所述终端设备,以使所述终端设备将所述目标信息在所述待处理文档中突出显示。
本发明的第二个方面是提供一种信息抽取方法,包括:
获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;
将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
本发明的第三个方面是提供一种信息抽取装置,包括:
获取模块,用于获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;
处理模块,用于采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
发送模块,用于将所述目标信息发送至所述终端设备进行显示;
所述装置还包括:
获取模块,用于获取预设的待训练文本;
统计模块,用于对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
标注模块,用于通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
训练模块,用于通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
在一种可能的设计中,所述装置还包括:
发送模块,用于将所述目标信息发送至所述终端设备,以使用户对所述目标信息进行手动修正;
存储模块,用于获取修正后的目标信息,存储所述修正后的目标信息。
在一种可能的设计中,所述存储模块用于:
将所述修正后的目标信息发送至管理平台进行审核;
若接收到管理平台发送的审核通过的信息,则存储所述修正后的目标信息。
在一种可能的设计中,所述装置还包括:
更新模块,用于当存储的修正后的目标信息的数量超过预设的阈值,则根据修正后的目标信息对所述网络模型进行训练,获得更新后的网络模型。
在一种可能的设计中,所述发送模块用于:
将所述目标信息发送至所述终端设备,以使所述终端设备将所述目标信息在所述待处理文档中突出显示。
本发明的第四个方面是提供一种终端设备,包括:
获取模块,用于获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;
发送模块,用于将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
接收模块,用于接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
本发明的第五个方面是提供一种信息抽取设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如第一方面所述的信息抽取方法。
本发明的第六个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的信息抽取方法。
本发明提供的信息抽取方法、装置、设备及计算机可读存储介质,通过采用预设的网络模型,根据待抽取信息标签对终端设备输入的待处理文档进行信息抽取操作,从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明基于的系统架构示意图;
图2为本发明实施例一提供的信息抽取方法的流程示意图;
图3为本发明实施例二提供的信息抽取方法的流程示意图;
图4为本发明实施例三提供的信息抽取方法的流程示意图;
图5为本发明实施例四提供的信息抽取装置的结构示意图;
图6为本发明实施例五提供的终端设备的结构示意图;
图7为本发明实施例六提供的信息抽取设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
针对上述提及的在现有的信息抽取方法需要大量重复性工作及人工操作,一方面较为耗费人力资源,另一方面答案获取速度较慢,造成用户体验较差的技术问题,本发明提供了一种信息抽取方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供信息抽取方法、装置、设备及计算机可读存储介质可运用在对各种信息抽取的场景中。
图1为本发明基于的系统架构示意图,如图1所示,本发明基于的系统架构至少包括:终端设备1以及信息抽取装置2。其中,信息抽取装置2采用C/C++、Java、Shell或Python等语言编写;终端设备1则可例如台式电脑、平板电脑等。
图2为本发明实施例一提供的信息抽取方法的流程示意图,如图2所示,所述信息抽取方法包括:
步骤101、获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签。
本实施例的执行主体为信息抽取装置,该信息抽取装置与终端设备通信连接,从而能够与终端设备进行信息交互。用户可以确定当前需要进行信息抽取的文档。用户可以在终端设备中输入该文档,例如,可以采用终端设备从预设的存储路径中获取,也可以从云端服务器下载,或者也可以通过扫描等方式获取,本发明对此不做限制。相应地,获取到需要进行信息抽取的文档之后,还可以根据当前需求从该文档中确定需要抽取的目标信息的标签。以保险产品举例来说,该标签具体可以为“投保年龄、投保期间”等,获得待处理文档。相应地,为了实现对目标信息的抽取,信息抽取装置能够从终端设备中获取该待处理文档。
步骤102、采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息。
在本实施方式中,信息抽取装置在获取到待处理文档之后,可以采用预设的网络模型实现对目标信息的抽取。具体地,可以将待处理文档输入至预设的网络模型中,从而该网路模型能够根据该待抽取信息标签从该待处理文档中抽取目标信息。
可选地,也可以通过预设的算法实现对目标信息的抽取,本发明对此不做限制。
步骤103、将所述目标信息发送至所述终端设备进行显示。
在本实施方式中,获取到目标信息之后,为了使用户能够对该目标信息进行及时了解,信息抽取装置可以将该目标信息发送至终端设备进行显示。可选地,可以将目标信息发送至终端设备进行显示,也可以将目标信息在待处理文档中的位置信息发送至终端设备进行显示,本发明对此不做限制。
在一种可以实施的方式中,在上述任一实施例的基础上,步骤103具体包括:
将所述目标信息发送至所述终端设备,以使所述终端设备将所述目标信息在所述待处理文档中突出显示。
在本实施例中,为了使用户更加直观地查看待处理文档中的目标信息,信息抽取装置可以将目标信息发送至终端设备。终端设备在接收到该目标信息之后,可以在待处理文档中对该目标信息进行突出显示。其中,突出显示可以为高亮显示,也可以为字体放大显示等,可以采用任意一种突出显示的方式使目标信息区别于待处理文档中的其他信息,本发明对此不做限制。
所述方法还包括:
获取预设的待训练文本;
对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
在本实施例中,通过网络模型对目标信息进行抽取之前,首先需要获得网络模型。具体地,可以获取预设的待训练文本,其中,该预设的待训练文本可以为大量的保险产品文档。由于保险产品文档大多具有相似的文档结构、属性名称、语言描述等,因此,可以对待训练文本中的共同属性进行统计,获得至少一个标签信息,其中,标签信息包括但不限于投保年龄、保险期间、保费、保险人责任、被保人责任等。获取到多个标签信息之后,即可以根据该标签信息对待训练文本进行标注,获得标注后的待训练文本。进一步地,即可以根据该标注后的待训练文本对预设的待训练模型进行训练,直至待训练模型收敛,获得该网络模型。可选地,还可以通过上述标注后的待训练文本对预设的算法进行训练,获得训练后的算法,从而能够根据该训练后的算法对待处理文档进行信息抽取操作。
通过对待训练文本进行统计,获得多个标签信息,根据标签信息对待训练文本进行标注,通过标注后的待训练文本对预设的待训练模型进行训练,从而能够获得训练后的网络模型,进而能够根据该网络模型对待处理文档进行信息抽取操作,提高信息抽取的效率,无需浪费人力资源。
本实施例提供的信息抽取方法,通过采用预设的网络模型,根据待抽取信息标签对终端设备输入的待处理文档进行信息抽取操作,从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。
图3为本发明实施例二提供的信息抽取方法的流程示意图,在上述任一实施例的基础上,步骤102之后,还包括:
步骤201、将所述目标信息发送至所述终端设备,以使用户对所述目标信息进行手动修正;
步骤202、获取修正后的目标信息,存储所述修正后的目标信息。
在本实施例中,为了使目标信息更加贴合用户的需求,在通过网络模型获取目标信息之后,可以将该目标信息发送至终端设备,从而用户可以根据当前需求对该目标信息进行手动修正,获得修正后的目标信息。相应地,信息抽取装置可以从终端设备获取该修正后的目标信息,并对该目标信息进行存储。
进一步地,在上述任一实施例的基础上,步骤201具体包括:
将所述修正后的目标信息发送至管理平台进行审核;
若接收到管理平台发送的审核通过的信息,则存储所述修正后的目标信息。
在本实施例中,为了进一步地保证目标信息的准确性,还可以将用户手动修正后的目标信息发送至预设的管理平台。相应地,维护人员可以在管理平台上对该修改后的目标信息进行审核,若审核通过,则发送审核通过的信息,反之,则发送审核失败的消息。相应地,信息抽取装置若接收到管理平台发送的审核通过的信息,则对该修正后的目标信息进行存储。
具体地,对该修正后的目标信息进行存储之后,在用户后续需要对同一个待处理文档进行信息抽取时,可以直接获取该修正后的目标信息,无需再次通过网络模型进行识别操作,提高信息抽取的效率。
相应地,为了提高网络模型的识别精准度,在上述任一实施例的基础上,步骤202之后,还包括:
当存储的修正后的目标信息的数量超过预设的阈值,则根据修正后的目标信息对所述网络模型进行训练,获得更新后的网络模型。
在本实施例中,当存储的修正后的目标信息的数量超过预设的阈值,则可以根据该修正后的目标信息对当前的网络模型进行再次训练,获得更新后的网络模型。从而能够使该网络模型的输出结果更加贴合用户的需求,提高用户体验。
本实施例提供的信息抽取方法,通过获取用户手动修正后的目标信息,并根据该目标信息对模型进行更新操作,从而能够使输出的结果更加贴合用户的需求,此外,还能够提高网络模型的识别精度。
图4为本发明实施例三提供的信息抽取方法的流程示意图,如图4所示,所述方法包括:
步骤301、获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;
步骤302、将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
步骤303、接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
本实施例的执行主体为终端设备,该终端设备可以与信息抽取装置通信连接,从而能够与信息抽取装置进行信息交互。实际应用中,用户在需要对文档进行信息抽取时,首先可以在终端设备上上传或者添加待处理文档,相应地,终端设备可以获取用户输入的待处理文档,待处理文档中包括待抽取信息标签。终端设备可以直接将该待处理文档发送至信息抽取装置,从而信息抽取装置能够通过预设的网络模型,对该信息抽取文档进行处理,获得待处理文档中的目标信息,并将改目标信息返回至终端设备。相应地,终端设备可以获取信息抽取装置发送的目标信息,并在预设的显示界面上显示该目标信息。
本实施例提供的信息抽取方法,通过在获取到待处理文档之后,将待处理文档发送至信息抽取装置,从而信息抽取装置可以采用预设的网络模型,根据待抽取信息标签对终端设备输入的待处理文档进行信息抽取操作,从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。
图5为本发明实施例四提供的信息抽取装置的结构示意图,如图5所示,所述装置包括:获取模块41、处理模块42以及发送模块43,其中,
获取模块41,用于获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;
处理模块42,用于采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
发送模块43,用于将所述目标信息发送至所述终端设备进行显示;
所述装置还包括:
获取模块,用于获取预设的待训练文本;
统计模块,用于对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
标注模块,用于通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
训练模块,用于通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
本实施例提供的信息抽取装置,通过采用预设的网络模型,根据待抽取信息标签对终端设备输入的待处理文档进行信息抽取操作,从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。
进一步地,在上述任一实施例的基础上,所述装置还包括:
发送模块,用于将所述目标信息发送至所述终端设备,以使用户对所述目标信息进行手动修正;
存储模块,用于获取修正后的目标信息,存储所述修正后的目标信息。
进一步地,在上述任一实施例的基础上,所述存储模块用于:
将所述修正后的目标信息发送至管理平台进行审核;
若接收到管理平台发送的审核通过的信息,则存储所述修正后的目标信息。
进一步地,在上述任一实施例的基础上,所述装置还包括:
更新模块,用于当存储的修正后的目标信息的数量超过预设的阈值,则根据修正后的目标信息对所述网络模型进行训练,获得更新后的网络模型。
进一步地,在上述任一实施例的基础上,所述发送模块用于:
将所述目标信息发送至所述终端设备,以使所述终端设备将所述目标信息在所述待处理文档中突出显示。
图6为本发明实施例五提供的终端设备的结构示意图,如图6所示,所述终端设备包括:获取模块51、发送模块52、接收模块53,其中,获取模块51,用于获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;发送模块52,用于将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;接收模块53,用于接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
本实施例提供的信息抽取装置,通过在获取到待处理文档之后,将待处理文档发送至信息抽取装置,从而信息抽取装置可以采用预设的网络模型,根据待抽取信息标签对终端设备输入的待处理文档进行信息抽取操作,从而能够实现信息的自动抽取,无需用户人工阅读文档,提高信息抽取效率,进而能够提高用户体验。
图7为本发明实施例六提供的信息抽取设备的结构示意图,如图7所示,所述设备包括:存储器61,处理器62;
存储器61;用于存储所述处理器62可执行指令的存储器61;
其中,所述处理器62被配置为由所述处理器62执行如上述任一实施例所述的信息抽取方法。
存储器61,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器61可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器62可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器61和处理器62独立实现,则存储器61和处理器62可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器61和处理器62集成在一块芯片上实现,则存储器61和处理器62可以通过内部接口完成相同间的通信。
本发明又一实施例还一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的信息抽取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种信息抽取方法,其特征在于,包括:
获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;
采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
将所述目标信息发送至所述终端设备进行显示;
所述方法还包括:
获取预设的待训练文本;
对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待抽取信息标签从所述待处理文档中抽取目标信息之后,还包括:
将所述目标信息发送至所述终端设备,以使用户对所述目标信息进行手动修正;
获取修正后的目标信息,存储所述修正后的目标信息。
3.根据权利要求2所述的方法,其特征在于,存储所述修正后的目标信息,包括:
将所述修正后的目标信息发送至管理平台进行审核;
若接收到管理平台发送的审核通过的信息,则存储所述修正后的目标信息。
4.根据权利要求2或3所述的方法,其特征在于,所述存储所述修正后的目标信息之后,还包括:
当存储的修正后的目标信息的数量超过预设的阈值,则根据修正后的目标信息对所述网络模型进行训练,获得更新后的网络模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述目标信息发送至所述终端设备进行显示,包括:
将所述目标信息发送至所述终端设备,以使所述终端设备将所述目标信息在所述待处理文档中突出显示。
6.一种信息抽取方法,其特征在于,包括:
获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;
将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
7.一种信息抽取装置,其特征在于,包括:
获取模块,用于获取终端设备输入的待处理文档,所述待处理文档中包括待抽取信息标签;
处理模块,用于采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
发送模块,用于将所述目标信息发送至所述终端设备进行显示;
所述装置还包括:
获取模块,用于获取预设的待训练文本;
统计模块,用于对所述待训练文本中的共同属性进行统计,获得至少一个标签信息;
标注模块,用于通过所述标签信息对所述待训练文本进行标注,获得标注后的待训练文本;
训练模块,用于通过所述标注后的待训练文本对预设的待训练模型进行训练,获得所述网络模型。
8.一种终端设备,其特征在于,包括:
获取模块,用于获取用户输入的待处理文档,其中,所述待处理文档中包括待抽取信息标签;
发送模块,用于将所述待处理文档发送至信息抽取装置,以使所述信息抽取装置采用预设的网络模型,根据所述待抽取信息标签从所述待处理文档中抽取目标信息;
接收模块,用于接收所述信息抽取装置发送的目标信息,在显示界面上显示所述目标信息。
9.一种信息抽取设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5或6任一项所述的信息抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-5或6任一项所述的信息抽取方法。
CN201911396183.2A 2019-12-30 2019-12-30 信息抽取方法、装置、设备及计算机可读存储介质 Pending CN111191130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396183.2A CN111191130A (zh) 2019-12-30 2019-12-30 信息抽取方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396183.2A CN111191130A (zh) 2019-12-30 2019-12-30 信息抽取方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111191130A true CN111191130A (zh) 2020-05-22

Family

ID=70711081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396183.2A Pending CN111191130A (zh) 2019-12-30 2019-12-30 信息抽取方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111191130A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779238A (zh) * 2020-06-17 2021-12-10 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169103A1 (en) * 2015-12-10 2017-06-15 Agile Data Decisions LLC Method and system for extracting, verifying and cataloging technical information from unstructured documents
CN107798435A (zh) * 2017-11-09 2018-03-13 贵州电网有限责任公司 一种基于文本信息抽取的电力物资需求预测方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109388805A (zh) * 2018-10-23 2019-02-26 重庆誉存大数据科技有限公司 一种基于实体抽取的工商变更分析方法
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169103A1 (en) * 2015-12-10 2017-06-15 Agile Data Decisions LLC Method and system for extracting, verifying and cataloging technical information from unstructured documents
CN107798435A (zh) * 2017-11-09 2018-03-13 贵州电网有限责任公司 一种基于文本信息抽取的电力物资需求预测方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109388805A (zh) * 2018-10-23 2019-02-26 重庆誉存大数据科技有限公司 一种基于实体抽取的工商变更分析方法
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779238A (zh) * 2020-06-17 2021-12-10 北京沃东天骏信息技术有限公司 数据处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
US20190095758A1 (en) Method and system for obtaining picture annotation data
US9081412B2 (en) System and method for using paper as an interface to computer applications
WO2019041527A1 (zh) 文档图表抽取方法、电子设备及计算机可读存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN108038093B (zh) Pdf文字提取方法和装置
CN111191079B (zh) 一种文档内容获取方法、装置、设备及存储介质
CN111144210A (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
US10643022B2 (en) PDF extraction with text-based key
CN111191130A (zh) 信息抽取方法、装置、设备及计算机可读存储介质
US10176392B2 (en) Optical character recognition
CN113791860B (zh) 一种信息转换方法、装置和存储介质
CN113807416B (zh) 一种模型训练方法、装置、电子设备以及存储介质
CN114461665B (zh) 用于生成语句转换模型的方法、装置及计算机程序产品
US11281901B2 (en) Document extraction system and method
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN114743012A (zh) 一种文本识别方法及装置
US10522246B2 (en) Concepts for extracting lab data
CN113127058A (zh) 数据标注方法、相关装置及计算机程序产品
CN113343663A (zh) 一种票据结构化方法及装置
CN113177389A (zh) 文本处理方法、装置、电子设备及存储介质
CN110851567A (zh) 信息处理方法、信息处理装置、电子设备及存储介质
JP7126808B2 (ja) 情報処理装置および情報処理装置用プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination