CN112651236A - 提取文本信息的方法、装置、计算机设备和存储介质 - Google Patents
提取文本信息的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112651236A CN112651236A CN202011578151.7A CN202011578151A CN112651236A CN 112651236 A CN112651236 A CN 112651236A CN 202011578151 A CN202011578151 A CN 202011578151A CN 112651236 A CN112651236 A CN 112651236A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- text block
- extraction
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本申请涉及一种提取文本信息的方法、装置、计算机设备和存储介质,包括:获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果,实现了根据文本块的信息类型采用匹配的信息提取方式进行信息提取,采用针对性的提取策略,能够在复杂和非结构的文本中准确提取信息,提高提取结果的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种提取文本信息的方法、装置、计算机设备和存储介质。
背景技术
在面对海量信息时,为了提高获取有用信息的效率,可以通过计算机对文本进行识别并获取相关信息。在现有技术中,往往会采用统一的提取方式对不同的文本进行信息提取,例如对多种文本进行命名实体识别,实现实体提取,又或者通过文本分类,在多种类型文本中进行条款提取。然而,随着文本复杂化和非结构化程度的提升,传统的文本提取方式难以获取到准确的信息提取结果。
发明内容
基于此,有必要针对上述技术问题,提供一种提取文本信息的方法、装置、计算机设备和存储介质。
本申请实施例提供一种提取文本信息的方法,所述方法包括:
获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
在其中一个实施例中,当所述信息类型为混合类型时,所述混合类型包括至少两种类型的文本信息;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
对所述文本块进行第一提取操作,得到第一提取结果;
针对所述文本块,将所述第一提取结果以外的剩余文本信息输入到预设的信息提取模型,以通过所述信息提取模型对所述剩余文本信息执行第二提取操作,得到第二提取结果;
基于所述第一提取结果和所述第二提取结果,得到所述提取结果。
在其中一个实施例中,当所述信息类型为规则类型,所述规则类型为使用文本提取规则进行提取操作的类型;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
获取与所述规则类型对应的文本提取规则;
基于所述文本提取规则对所述文本块进行信息提取,得到该文本块对应的提取结果。
在其中一个实施例中,当所述信息类型为条款类型,所述条款类型为文本信息包含业务条款的类型;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
将所述文本块输入到预设的信息提取模型,以通过所述信息提取模型识别所述文本块中文本信息对应的业务条款内容,并从所述文本块中获取所述业务条款内容对应的目标信息;
获取所述信息提取模型输出的目标信息,作为所述文本块的提取结果。
在其中一个实施例中,所述确定所述至少两个文本块中每个文本块对应的信息类型,包括:
针对所述至少两个文本块中的每个文本块,将该文本块输入到预先训练的信息类型识别模型中,以通过所述信息类型识别模型中的神经网络对所述文本块进行识别,确定所述文本块中文本信息对应的信息类型,所述信息类型为条款类型、规则类型和混合类型中的任意一种;
获取所述信息类型识别模型输出的信息类型,作为所述文本块对应的信息类型。
在其中一个实施例中,所述对所述文本块进行第一提取操作,得到第一提取结果,包括:
获取预定义的至少两个正则表达式;所述至少两个正则表达式中的每一正则表达式分别由至少一个关键词,和/或,与业务规则对应的字符串组成;
分别采用所述至少两个正则表达式,对所述文本块进行字符匹配,得到与至少一个正则表达式匹配的字符串,并将所述匹配的字符串作为第一提取结果。
在其中一个实施例中,所述获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块,包括:
获取待分析文本;
获取预设的用于文本分块的分块关键词;
根据所述分块关键词,将所述待分析文本划分为待分析的至少两个文本块。
本申请实施例提供一种提取文本信息的装置,所述装置包括:
文本块获取模块,用于获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
信息类型确定模块,用于确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
文本块提取结果获取模块,用于针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
文本提取结果获取模块,用于基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。
本申请实施例提供一种提取文本信息的方法、装置、计算机设备和存储介质,通过获取待分析文本并对待分析文本进行分块,得到待分析的至少两个文本块,确定至少两个文本块中每个文本块对应的信息类型,针对至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,进而可以基于至少两个文本块中每个文本块的提取结果,生成待分析文本对应的提取结果,实现了根据文本块的信息类型采用匹配的信息提取方式进行信息提取,采用针对性的提取策略,能够在复杂和非结构的文本中准确提取信息,提高提取结果的准确度。
附图说明
图1为一个实施例中一种提取文本信息的方法的应用环境图;
图2为一个实施例中一种提取文本信息的方法的流程示意图;
图3为一个实施例中一种混合类型文本信息提取步骤的流程示意图;
图4为一个实施例中一种规则类型文本信息提取步骤的流程示意图;
图5为一个实施例中一种文本分块步骤的流程示意图;
图6为一个实施例中一种提取文本信息的装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种提取文本信息的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种提取文本信息的方法,以该方法应用于图1中的服务器为例进行说明,应当理解的是,本方法也可以在终端独立使用。具体的,本方法可以包括如下步骤:
步骤201,获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块。
在实际应用中,当需要从文本中提取指定信息时,终端可以向服务器发送文本信息提取请求,响应于该请求,服务器可以获取待分析文本,并对待分析文本进行分块处理,得到至少两个待分析的文本块。
步骤202,确定所述至少两个文本块中每个文本块对应的信息类型。
作为一示例,文本块对应的信息类型,可以是文本块中包含的文本信息所对应的类型。
在具体实现中,不同的文本块的数据结构复杂程度可以存在差异,例如文本块中的文本信息仅是简单的、结构化的字符串罗列,或者,也可以是包含至少两个类型文本信息的文本,又如数据结构不规则、不完整、没有预定义的数据模型的文本信息,包括信用证、办公文档、报表等。在本实施例中,在获取到待分析的文本块后,服务器可以对至少两个文本块中的各个文本块进行分析,确定每个文本块对应的信息类型。在确定信息类型时,可以通过预先训练的信息类型识别模型,也可以通过其他方式确认,例如通过识别文本块中的关键词确定对应的信息类型,本申请对此不作具体限制。
步骤203,针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果。
在实际应用中,不同的信息类型对应不同的信息提取方式。在得到至少两个文本块后,由于各个文本块对应的信息类型可以存在差异,基于此,针对至少两个文本块中的每个文本块,将根据文本块的信息类型,采用与该信息类型对应的信息提取方式对该文本块进行信息提取,得到针对该文本块的信息提取结果。例如,文本块A对应的信息类型为a,文本块B对应的信息类型为b,则可以采用不同的信息提取方式,分别对文本块A和文本块B进行信息提取。
步骤204,基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
在得到每个文本块对应的提取结果后,可以根据至少两个文本块中每个文本块对应的提取结果,生成待分析文本对应的文本信息提取结果。具体的,可以直接采用各个文本块对应的提取结果,组织成文本信息提取结果,或者,也可以对文本块对应的提取结果作进一步的数据处理,例如删除、增加、替换或过滤文本信息,并根据各文本块对应的处理结果,生成待分析文本对应的提取结果。服务器可以将提取结果反馈到终端,以进行显示或存储。
在本实施例中,获取待分析文本并对待分析文本进行分块,得到待分析的至少两个文本块,确定至少两个文本块中每个文本块对应的信息类型,针对至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,进而可以基于至少两个文本块中每个文本块的提取结果,生成待分析文本对应的提取结果,实现了根据文本块的信息类型采用匹配的信息提取方式进行信息提取,采用针对性的提取策略,能够在复杂和非结构的文本中准确提取信息,提高提取结果的准确度。
在一个实施例中,文本块对应的信息类型可以是混合类型,混合类型的文本块可以包括至少两种类型的文本信息,文本块的数据结构复杂。当信息类型为混合类型时,如图3所示,所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,可以包括如下步骤:
步骤301,对所述文本块进行第一提取操作,得到第一提取结果。
在确定文本块对应的信息类型后,若信息类型为混合类型,由于存在至少两种类型的文本信息,可以对文本块进行第一阶段的信息提取,即对文本块进行第一提取操作,得到第一提取结果。在一示例中,第一提取操作可以是基于文本提取规则执行的提取操作,文本提取规则可以是预定义的或格式化的提取模式。
步骤302,针对所述文本块,将所述第一提取结果以外的剩余文本信息输入到预设的信息提取模型,以通过所述信息提取模型对所述剩余文本信息执行第二提取操作,得到第二提取结果。
作为一示例,剩余文本信息可以是文本块中,除第一提取结果以外的文本信息;第二提取操作是与第一提取操作不同的提取方式。
在得到第一提取结果后,由于部分文本信息的复杂程度较高,仅进行第一提取操作,存在难以完整提取有效信息的情况,在本实施例中,可以进行第二阶段的信息提取。具体的,可以将文本块中除第一提取结果以外的剩余文本信息输入到预设的信息提取模型中,以通过信息提取模型对剩余文本信息进行第二提取操作,得到第二提取结果。
步骤303,基于所述第一提取结果和所述第二提取结果,得到所述提取结果。
在得到第二提取结果后,可以根据第一提取结果和第二提取结果,生成该文本块对应的提取结果。例如,可以生成包含第一提取结果和第二提取结果的文本块提取结果。或者,服务器可以对第一提取结果和/或第二提取结果执行修改、删除、增加、过滤等任一项或多项操作,进而可以基于处理后的第一提取结果和第二提取结果,得到文本块对应的提取结果。
在本实施例中,通过对文本块进行第一提取操作,得到第一提取结果,将文本块中第一提取结果以外的剩余文本信息输入到预设的信息提取模型,通过信息提取模型对剩余文本信息执行第二提取操作,得到第二提取结果,基于第一提取结果和第二提取结果,得到提取结果,对同一文本块实现了多模式的信息提取,能够在复杂和非结构的文本中准确提取信息,有效提高信息的提取准确度。
在一个实施例中,文本块对应的信息类型可以是规则类型,规则类型为文本块中的文本信息可通过文本提取规则进行提取的类型,信息类型为规则类型的文本块,通过文本提取规则,即可从文本块中完整地提取有效信息。当信息类型为规则类型时,所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,可以步骤如下步骤:
获取与所述规则类型对应的文本提取规则;基于所述文本提取规则对所述文本块进行信息提取,得到该文本块对应的提取结果。
作为一示例,文本提取规则可以是由预设字符串和/或关键词组成的正则表达式。
在实际应用中,可以针对规则类型的文本块预先设置文本提取规则,当文本块的信息类型为规则类型时,可以获取规则类型对应的文本提取规则,并基于文本提取规则对文本块进行信息提取,将提取到的文本信息作为文本块对应的提取结果。
在具体实现中,针对不同的文本块,可以使用统一的文本提取规则进行信息提取,即针对需要使用文本提取规则提取信息的文本块,使用相同的文本提取规则对文本块进行信息过滤,以从中获取到与文本提取规则匹配的文本信息。
在本实施例中,能够识别文本块类型,在文本块类型为规则类型时,使用与类型匹配的文本提取规则进行信息提取,有效提升信息提取效率。
在一个实施例中,文本块对应的信息类型可以是条款类型,条款类型可以是文本块的文本信息中包含业务条款的类型,在一示例中,业务条款可以是针对以下任一种或多种特征的业务条款:当事人的名称或者姓名和住所,标的,数量,质量,价款或报酬,履行期限、地点和方式,违约责任,解决争议的方法。当信息类型为条款类型时,所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,可以包括如下步骤:
将所述文本块输入到预设的信息提取模型,以通过所述信息提取模型识别所述文本块中文本信息对应的业务条款内容,并从所述文本块中获取所述业务条款内容对应的目标信息;获取所述信息提取模型输出的目标信息,作为所述文本块的提取结果。
当信息类型为条款类型时,由于业务条款内容和形式可以是复杂多变的,为了提高文本信息的提取准确度,可以将文本块输入到预设的信息提取模型中,通过信息提取模型对文本块中的文本信息进行识别,确定文本信息对应的业务条款内容,并从文本块中获取与业务条款内容对应的目标信息,进而可以获取信息提取模型输出的目标信息,并将其作为文本块的文本信息提取结果。
例如,通过信息提取模型识别出文本信息的业务条款内容为针对装运日期的条款,而装运日期与时间相关,则信息提取模型可以进一步从业务条款内容中提取时间,作为目标信息。
在实际应用中,信息提取模型可以是预先训练的神经网络模型。在进行训练时,可以将带有提取结果标签的条款类型文本块输入到待训练的第一神经网络模型中,通过第一神经网络模型对文本块进行语义理解,识别文本块中具体的业务条款内容,并获取与该业务条款内容对应的样本提取结果。进而可以根据提取结果标签和样本提取结果,对第一神经网络模型的模型参数进行调整,不断训练,直到满足训练条件,将当前的第一神经网络模型作为信息提取模型。
在本实施例中,能够识别文本块类型,在文本块类型为条款类型时,使用信息提取模型对文本块进行语义理解,并提取对应的目标信息,有效提升信息提取效率。
在一个实施例中,所述确定所述至少文本块中每个文本块对应的信息类型,可以包括如下步骤:
针对所述至少两个文本块中的每个文本块,将该文本块输入到预先训练的信息类型识别模型中,以通过所述信息类型识别模型中的神经网络对所述文本块进行识别,确定所述文本块中文本信息对应的信息类型;获取所述信息类型识别模型输出的信息类型,作为所述文本块对应的信息类型。
作为一示例,通过信息类型识别模型识别得到的信息类型,可以是以下任意一种:条款类型、规则类型、混合类型。
在实际应用中,可以预先训练信息类型识别模型。具体而言,可以获取待训练的第二神经网络模型,在进行训练时,可以将带有信息类型标签的文本块输入到待训练的第二神经网络模型中,通过第二神经网络模型预测文本块对应的信息类型,得到信息类型预测结果。进而可以根据信息类型标签和信息类型预测结果,对第二神经网络模型的模型参数进行调整,不断训练,直到满足训练条件,将当前的第二神经网络模型作为信息类型识别模型。
当服务器得到待分析的至少两个文本块时,可以将至少两个文本块中的每一文本块分别输入到训练好的信息类型识别模型中,通过信息类型识别模型确定文本块对应的信息类型。
在本实施例中,将文本块输入到预先训练的信息类型识别模型,通过信息类型识别模型中的神经网络对所述文本块进行识别,能够确定文本块对应的信息类型,为确定与信息类型对应的信息提取方式提供基础。
在一个实施例中,文本提取规则可以是正则表达式,如图4所示,所述对所述文本块进行第一提取操作,得到第一提取结果,可以包括如下步骤:
步骤401,获取预定义的至少两个正则表达式;所述至少两个正则表达式中的每一正则表达式分别由至少一个关键词,和/或,与业务规则对应的字符串组成。
在实际应用中,可以预先设置至少两个正则表达式,至少两个正则表达式中的每一正则表达式,可以分别由至少一个关键词或者与业务规则对应的字符串组成。例如,可以是针对业务价格或业务产品的正则表达式。
步骤402,分别采用所述至少两个正则表达式,对所述文本块进行字符匹配,得到与至少一个正则表达式匹配的字符串,并将所述匹配的字符串作为第一提取结果。
在对文本块进行第一阶段的信息提取时,可以采用已获取的至少两个正则表达式中的每一正则表达式,对文本块进行字符串匹配,得到与至少一个正则表达式匹配的字符串,并将其作为第一提取结果。
在具体实现中,根据包含至少两个关键词的关键词表和业务规则,设置至少两个不同的正则表达式进行信息提取,能够确保多角度、完整地从文本块中获取到指定的文本信息,提高信息的提取准确度。
当然,在另一个示例中,也可以根据实际需要,从预设的至少两个正则表达式中,选取至少一个正则表达式进行字符串匹配。
在本实施例中,通过获取预定义的至少两个正则表达式,分别采用已获取的至少两个正则表达式,对文本块进行字符匹配,将匹配的字符串作为第一提取结果,能够多角度、完整地从文本块中获取到指定的文本信息,提高信息的提取准确度。
在一个实施例中,当信息类型为规则类型时,可以采用正则表达式对文本块进行信息提取,具体的提取过程与上述第一阶段的信息提取过程类似,本申请不作赘述。
在一个实施例中,如图5所示,所述获取待分析文本,并对所述待分析文本进行分块,得到待分析的文本块,可以包括如下步骤:
步骤501,获取待分析文本。
在实际应用中,终端可以将待分析文本随文本信息提取请求一起发送到服务器;或者,也可以在文本信息提取请求中添加文本标识,则服务器可以从文本信息提取请求中获取文本标识,根据文本标识进行数据搜索或查询,得到与该标识对应的待分析文本。
步骤502,获取预设的用于文本分块的分块关键词。
在实际应用中,可以预先设置用于对待分析文本进行文本分块的分块关键词,其中,分块关键词可以包括标点符号、预先设置的文字、字符或字符串。
步骤503,根据所述分块关键词,将所述待分析文本划分为待分析的至少两个文本块。
在获取分块关键伺候,则可以基于该分块关键词对待分析的文本块进行分块,划分为待分析的至少两个文本块。具体的,当待分析文本中出现分块关键词时,以第一关键词为分界点,对待分析文本进行分块。
在另一个示例中,还可以预先设置用于对至少两个文本块进行文本块合并的合并关键词。在具体实现中,在对待分析文本进行分块,得到的至少两个文本块,可以是至少三个文本块。针对至少三个文本块,若在相邻的两个文本块的预设位置,出现合并关键词时,可以对相邻的两个文本进行合并,得到新的待分析的文本块。其中,预设位置可以是文本块的起始位置和/或结尾位置,合并关键词可以是具有介词词性、动词词性或连词词性的词语。例如,在句尾出现介词、动词或连词等词性时,可以确定本句未结束,与下一句子进行合并。
在本实施例中,通过获取分块关键词,可以对待分析文本进行分块,得到待分析的文本块,为后续确定匹配的信息提取方式提供基础。
为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。
响应于文本信息提取请求,服务器可以获取到如下所示的待分析文本:
“TOTAL LC
VALUE USD 17,947.45
1008PCS IONA 0.3L RICE COOKER DELIVERY TO FORWARDER(TFCR)NOT LATERTHAN JANUARY02,2020”。
其中,由于“TOTAL LC”,以及“VALUE USD 17,947.45”的句首“VALUE”,构成用于合并文本的关键词组合(对应于本申请中第二关键词),则可以将“TOTAL LC”与“VALUE USD17,947.45”进行合并,则对待分析文本进行分块处理后可以得到以下两个文本块:“TOTALLC VALUE USD 17,947.45”和“1008PCS IONA 0.3L RICE COOKER DELIVERY TO FORWARDER(TFCR)NOT LATER THAN JANUARY02,2020”。
在得到上述两个文本块后,可以将其输入到信息类型识别模型,并确定“TOTAL LCVALUE USD 17,947.45”的信息类型为规则类型,即该文本块可以通过预设的文本提取规则完成文本信息提取。
针对“1008PCS IONA 0.3L RICE COOKER DELIVERY TO FORWARDER(TFCR)NOTLATER THAN JANUARY02,2020”,确定信息类型为混合类型,则可以先采用相同的文本提取规则进行,在该文本提取规则中,包含了针对业务价格和业务产品的正则表达式,则可以在第一阶段提取到与业务价格对应的“1008PCS”,以及与业务产品对应的“IONA 0.3L RICECOOKER”,并将“1008PCS”和“IONA 0.3L RICE COOKER”作为第一提取结果。
针对第一提取结果以外的目标文本信息,即“DELIVERY TO FORWARDER(TFCR)NOTLATER THAN JANUARY02,2020”,可以输入到信息提取模型,通过该模型对目标文本信息进行语义理解,可以确定目标文本信息为针对装运日期的要求,并且针对装运日期需要提取时间,则可以通过该模型将其中的“JANUARY02,2020”提取出来,作为第二提取结果。进而,可以将第一提取结果和第二提取结果确定为上述待分析文本对应的文本信息提取结果。
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种提取文本信息的装置,所述装置包括:
文本块获取模块601,用于获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
信息类型确定模块602,用于确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
文本块提取结果获取模块603,用于针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
文本提取结果获取模块604,用于基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
在一个实施例中,当所述信息类型为混合类型时,所述混合类型包括至少两种类型的文本信息;所述文本块提取结果获取模块603,包括:
第一提取结果获取子模块,用于对所述文本块进行第一提取操作,得到第一提取结果;
第二提取结果获取子模块,用于针对所述文本块,将所述第一提取结果以外的剩余文本信息输入到预设的信息提取模型,以通过所述信息提取模型对所述剩余文本信息执行第二提取操作,得到第二提取结果;
第一结果生成子模块,用于基于所述第一提取结果和所述第二提取结果,得到所述提取结果。
在一个实施例中,当所述信息类型为规则类型,所述规则类型为使用文本提取规则进行提取操作的类型;所述文本块提取结果获取模块603,包括:
规则获取子模块,用于获取与所述规则类型对应的文本提取规则;
第二结果生成子模块,用于基于所述文本提取规则对所述文本块进行信息提取,得到该文本块对应的提取结果。
在一个实施例中,当所述信息类型为条款类型,所述条款类型为文本信息包含业务条款的类型;所述文本块提取结果获取模块603,包括:
信息提取模型子模块,用于将所述文本块输入到预设的信息提取模型,以通过所述信息提取模型识别所述文本块中文本信息对应的业务条款内容,并从所述文本块中获取所述业务条款内容对应的目标信息;
第三结果生成子模块,用于获取所述信息提取模型输出的目标信息,作为所述文本块的提取结果。
在一个实施例中,所述信息类型确定模块602,包括:
信息类型识别模型子模块,用于针对所述至少两个文本块中的每个文本块,将该文本块输入到预先训练的信息类型识别模型中,以通过所述信息类型识别模型中的神经网络对所述文本块进行识别,确定所述文本块中文本信息对应的信息类型,所述信息类型为条款类型、规则类型和混合类型中的任意一种;
信息类型获取子模块,用于获取所述信息类型识别模型输出的信息类型,作为所述文本块对应的信息类型。
在一个实施例中,所述第一提取结果获取子模块,包括:
正则表达式获取单元,用于获取预定义的至少两个正则表达式;所述至少两个正则表达式中的每一正则表达式分别由至少一个关键词,和/或,与业务规则对应的字符串组成;
匹配单元,用于分别采用所述至少两个正则表达式,对所述文本块进行字符匹配,得到与至少一个正则表达式匹配的字符串,并将所述匹配的字符串作为第一提取结果。
在一个实施例中,所述文本块获取模块601,包括:
文本获取子模块,用于获取待分析文本;
分块关键词获取子模块,用于获取预设的用于文本分块的分块关键词;
分块子模块,用于根据所述分块关键词,将所述待分析文本划分为待分析的至少两个文本块。
关于一种提取文本信息的装置的具体限定可以参见上文中对于一种提取文本信息的方法的限定,在此不再赘述。上述一种提取文本信息的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提取文本信息的方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种提取文本信息的方法,其特征在于,所述方法包括:
获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
2.根据权利要求1所述的方法,其特征在于,当所述信息类型为混合类型时,所述混合类型包括至少两种类型的文本信息;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
对所述文本块进行第一提取操作,得到第一提取结果;
针对所述文本块,将所述第一提取结果以外的剩余文本信息输入到预设的信息提取模型,以通过所述信息提取模型对所述剩余文本信息执行第二提取操作,得到第二提取结果;
基于所述第一提取结果和所述第二提取结果,得到所述提取结果。
3.根据权利要求1所述的方法,其特征在于,当所述信息类型为规则类型,所述规则类型为使用文本提取规则进行提取操作的类型;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
获取与所述规则类型对应的文本提取规则;
基于所述文本提取规则对所述文本块进行信息提取,得到该文本块对应的提取结果。
4.根据权利要求1或2或3所述的方法,其特征在于,当所述信息类型为条款类型,所述条款类型为文本信息包含业务条款的类型;所述根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果,包括:
将所述文本块输入到预设的信息提取模型,以通过所述信息提取模型识别所述文本块中文本信息对应的业务条款内容,并从所述文本块中获取所述业务条款内容对应的目标信息;
获取所述信息提取模型输出的目标信息,作为所述文本块的提取结果。
5.根据权利要求1所述的方法,其特征在于,所述确定所述至少两个文本块中每个文本块对应的信息类型,包括:
针对所述至少两个文本块中的每个文本块,将该文本块输入到预先训练的信息类型识别模型中,以通过所述信息类型识别模型中的神经网络对所述文本块进行识别,确定所述文本块中文本信息对应的信息类型,所述信息类型为条款类型、规则类型和混合类型中的任意一种;
获取所述信息类型识别模型输出的信息类型,作为所述文本块对应的信息类型。
6.根据权利要求3所述的方法,其特征在于,所述对所述文本块进行第一提取操作,得到第一提取结果,包括:
获取预定义的至少两个正则表达式;所述至少两个正则表达式中的每一正则表达式分别由至少一个关键词,和/或,与业务规则对应的字符串组成;
分别采用所述至少两个正则表达式,对所述文本块进行字符匹配,得到与至少一个正则表达式匹配的字符串,并将所述匹配的字符串作为第一提取结果。
7.根据权利要求1所述的方法,其特征在于,所述获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块,包括:
获取待分析文本;
获取预设的用于文本分块的分块关键词;
根据所述分块关键词,将所述待分析文本划分为待分析的至少两个文本块。
8.一种提取文本信息的装置,其特征在于,所述装置包括:
文本块获取模块,用于获取待分析文本,并对所述待分析文本进行分块,得到待分析的至少两个文本块;
信息类型确定模块,用于确定所述至少两个文本块中每个文本块对应的信息类型,所述信息类型为所述文本块中包含的文本信息所对应的类型;
文本块提取结果获取模块,用于针对所述至少两个文本块中的每个文本块,根据该文本块对应的信息类型,对该文本块进行信息提取,得到该文本块对应的提取结果;
文本提取结果获取模块,用于基于所述至少两个文本块中每个文本块的提取结果,生成所述待分析文本对应的提取结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578151.7A CN112651236B (zh) | 2020-12-28 | 2020-12-28 | 提取文本信息的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578151.7A CN112651236B (zh) | 2020-12-28 | 2020-12-28 | 提取文本信息的方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651236A true CN112651236A (zh) | 2021-04-13 |
CN112651236B CN112651236B (zh) | 2021-10-01 |
Family
ID=75363380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011578151.7A Active CN112651236B (zh) | 2020-12-28 | 2020-12-28 | 提取文本信息的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651236B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361644A (zh) * | 2021-07-03 | 2021-09-07 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
CN114861677A (zh) * | 2022-05-30 | 2022-08-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
CN116562271A (zh) * | 2023-07-10 | 2023-08-08 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
CN113361644B (zh) * | 2021-07-03 | 2024-05-14 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1367446A (zh) * | 2001-01-22 | 2002-09-04 | 前程无忧网络信息技术(北京)有限公司上海分公司 | 汉语个人简历信息处理系统和方法 |
US20050267915A1 (en) * | 2004-05-24 | 2005-12-01 | Fujitsu Limited | Method and apparatus for recognizing specific type of information files |
US20110302166A1 (en) * | 2008-10-20 | 2011-12-08 | International Business Machines Corporation | Search system, search method, and program |
US20140082003A1 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
CN107766328A (zh) * | 2017-10-24 | 2018-03-06 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN109145260A (zh) * | 2018-08-24 | 2019-01-04 | 北京科技大学 | 一种文本信息自动提取方法 |
US20190096402A1 (en) * | 2017-09-25 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for extracting information |
CN109960725A (zh) * | 2019-01-17 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于情感的文本分类处理方法、装置和计算机设备 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
US20200050672A1 (en) * | 2018-08-02 | 2020-02-13 | Sas Institute Inc. | Human Language Analyzer for Detecting Clauses, Clause Types, and Clause Relationships |
-
2020
- 2020-12-28 CN CN202011578151.7A patent/CN112651236B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1367446A (zh) * | 2001-01-22 | 2002-09-04 | 前程无忧网络信息技术(北京)有限公司上海分公司 | 汉语个人简历信息处理系统和方法 |
US20050267915A1 (en) * | 2004-05-24 | 2005-12-01 | Fujitsu Limited | Method and apparatus for recognizing specific type of information files |
US20110302166A1 (en) * | 2008-10-20 | 2011-12-08 | International Business Machines Corporation | Search system, search method, and program |
US20140082003A1 (en) * | 2012-09-17 | 2014-03-20 | Digital Trowel (Israel) Ltd. | Document mining with relation extraction |
US20190096402A1 (en) * | 2017-09-25 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for extracting information |
CN107766328A (zh) * | 2017-10-24 | 2018-03-06 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
US20200050672A1 (en) * | 2018-08-02 | 2020-02-13 | Sas Institute Inc. | Human Language Analyzer for Detecting Clauses, Clause Types, and Clause Relationships |
CN109145260A (zh) * | 2018-08-24 | 2019-01-04 | 北京科技大学 | 一种文本信息自动提取方法 |
CN109960725A (zh) * | 2019-01-17 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于情感的文本分类处理方法、装置和计算机设备 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
CN113361644A (zh) * | 2021-07-03 | 2021-09-07 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN113361644B (zh) * | 2021-07-03 | 2024-05-14 | 上海理想信息产业(集团)有限公司 | 模型训练方法、电信业务特征信息提取方法、装置及设备 |
CN114861677A (zh) * | 2022-05-30 | 2022-08-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
CN116562271A (zh) * | 2023-07-10 | 2023-08-08 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
CN116562271B (zh) * | 2023-07-10 | 2023-10-10 | 之江实验室 | 一种电子病历的质控方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112651236B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093854B2 (en) | Emoji recommendation method and device thereof | |
WO2020057022A1 (zh) | 关联推荐方法、装置、计算机设备和存储介质 | |
CN109446302B (zh) | 基于机器学习的问答数据处理方法、装置和计算机设备 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
US11514235B2 (en) | Information extraction from open-ended schema-less tables | |
CN112328762B (zh) | 基于文本生成模型的问答语料生成方法和装置 | |
WO2019136993A1 (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN111026319B (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN111026320B (zh) | 多模态智能文本处理方法、装置、电子设备及存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN111753527A (zh) | 基于自然语言处理的数据分析方法、装置和计算机设备 | |
CN113707300A (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN111190946A (zh) | 报告生成方法、装置、计算机设备和存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN114356968A (zh) | 查询语句生成方法、装置、计算机设备及存储介质 | |
US20200184345A1 (en) | Method and system for generating a transitory sentiment community | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
CN115269765A (zh) | 账号识别方法、装置、电子设备和存储介质 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
CN117573852B (zh) | 用于智能办公的任务处理方法、装置、设备及介质 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
US20240054281A1 (en) | Document processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |