CN116776886B - 一种信息抽取方法、装置、设备及存储介质 - Google Patents
一种信息抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116776886B CN116776886B CN202311022078.9A CN202311022078A CN116776886B CN 116776886 B CN116776886 B CN 116776886B CN 202311022078 A CN202311022078 A CN 202311022078A CN 116776886 B CN116776886 B CN 116776886B
- Authority
- CN
- China
- Prior art keywords
- text
- information
- preset
- information extraction
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 171
- 238000004140 cleaning Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000029087 digestion Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种信息抽取方法、装置、设备及存储介质,涉及自然语言处理领域,包括:基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本申请能够有效提高信息抽取的效率以及可靠性。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种信息抽取方法、装置、设备及存储介质。
背景技术
信息抽取技术是当前领域内的一个重要研究方向,主要致力于从非结构化文本数据中提取结构化信息。信息抽取技术的主要任务包括实体识别、关系抽取和事件抽取等抽取任务。实体识别是从文本中识别并分类出有意义的实体,例如人名、时间、机构等。关系抽取旨在从文本中识别出实体间的关系。事件抽取关注的是从文本中抽取具体事件,包括事件的各种属性。
目前信息抽取技术主要基于规则、基于统计或基于深度学习模型来进行信息抽取。但基于规则的信息抽取方法对于非结构化文本或则复杂的抽取任务,无法配置规则模板;基于统计的信息抽取方法通常依赖于大量的手动标注数据进行训练,对于一些特定的任务或领域,获取大量高质量标注数据成本较高,不仅需要大量的领域知识和经验,并且手动设计的特征可能不能完全捕捉到文本中的复杂信息,模型泛化性较差;基于深度学习模型的信息抽取方法虽克服了以上两种方法的缺点,但存在准确率低以及召回率低的问题,可靠性差。
发明内容
有鉴于此,本发明的目的在于提供一种信息抽取方法、装置、设备及存储介质,能够有效提高信息抽取的效率以及可靠性。其具体方案如下:
第一方面,本申请提供了一种信息抽取方法,包括:
基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;
利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
可选的,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,还包括:
当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
可选的,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作,包括:
针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作。
可选的,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,还包括:
基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。
可选的,所述通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,包括:
利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;
利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
可选的,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,包括:
基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
第二方面,本申请提供了一种信息抽取装置,包括:
文本清洗模块,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;
信息抽取模块,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
目标文本段确定模块,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
可选的,所述信息抽取装置,还包括:
文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的信息抽取方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的信息抽取方法的步骤。
可见,本申请中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本申请通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种信息抽取方法流程图;
图2为本申请提供的一种信息抽取方法流程示意图;
图3为本申请提供的一种文本切分示意图;
图4为本申请提供的一种滑动窗口信息抽取示意图;
图5为本申请提供的一种具体的信息抽取方法流程图;
图6为本申请提供的一种信息抽取装置结构示意图;
图7为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前信息抽取技术主要基于规则、基于统计或基于深度学习模型来进行信息抽取。但基于规则的信息抽取方法对于非结构化文本或则复杂的抽取任务,无法配置规则模板;基于统计的信息抽取方法通常依赖于大量的手动标注数据进行训练,对于一些特定的任务或领域,获取大量高质量标注数据成本较高,不仅需要大量的领域知识和经验,并且手动设计的特征可能不能完全捕捉到文本中的复杂信息,模型泛化性较差;基于深度学习模型的信息抽取方法虽克服了以上两种方法的缺点,但存在准确率低以及召回率低的问题,可靠性差。为此,本申请提供了一种信息抽取方案,能够有效不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
参见图1所示,本发明实施例公开了一种信息抽取方法,包括:
步骤S11、基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息。
具体的,结合图2所示,本申请通过各大主流媒体推送的内容来获取与目标事件对应的待处理文本信息。考虑到所获取到的若干个所述待处理文本信息中可能存在广告等垃圾信息,因此在执行进一步处理之前,需要进行相应的清洗操作。也即,基于预设清洗规则对各所述待处理文本信息执行相应的文本清洗操作,这样一来,可以极大地避免由于保留了垃圾信息而导致的抽取不准确的情况的发生。
进一步的,考虑到文本的长度不一,因此需要对长文本进行切分。同时为了不破化源文本的语义信息,可基于标点进行划分。也即,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,具体还可以包括:当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。其中,所述预设长文本条件可以预先设置为超过所述预设抽取模型的最大输入长度,并且可预先基于标点的多样性设置相应的所述预设标点优先级,在一种具体实施方式中,所述预设标点优先级具体可以为:一级优先级为“!!。??\n”,二级优先级为“ ,,;;”,具体切分流程可参见图3所示,最终得到若干个一级的清洗后的待处理文本片段以及若干个二级的清洗后的待处理文本片段。
步骤S12、利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作。
本实施例中,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,具体还可以包括:基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。其中,所述通用信息抽取模型,也即UIE(全称为Universal Information Extraction)。这样一来,通过进行相应的小样本训练操作来完成相应的预训练,可以有效节省数据标注时间,从而提高效率,且后续在利用预设抽取模型进行信息抽取时,可通过滑动窗口最大化利用文本信息。
进一步的,结合图3、图4所示,本实施例中,为提高召回率,预先设置相应的若干个滑动窗口的固定步长,通过对所述不同优先级的清洗后的待处理文本片段进行窗口滑动预测操作来完成相应的信息抽取操作。具体的,在进行所述窗口滑动预测操作的过程中,优先处理所述一级的清洗后的待处理文本片段,若所述一级的清洗后的待处理文本片段过长,再处理所述二级的清洗后的待处理文本片段。
步骤S13、在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
本实施例中,考虑到在基于所述预设抽取模型进行抽取时,可能会发生重复抽取相同含义的实体或者指代词,也即信息重复抽取的情况,因此需要执行相应的实体聚合来应对情况的发生,避免由于信息重复抽取所导致的精确度降低、后续实体链接时易连接错误等不良影响。结合图2所示,本实施例中,在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段。其中,所述预设指代消解模型可以为Google Research团队提出的预训练模型SpanBERT(Span Bidirectional Encoder Representations fromTransformer,基于跨度的预训练模型),通过执行相应的指代消解操作来确定文本中多个指代词所代表的实体,以完成相应的实体聚类操作。可以理解的是,抽取到的各所述文本段可能为实体或相应的指代词。
进一步的,本实施例中,在确定与所述目标事件对应的若干个目标文本段之后,需要设计相应规则将通过所述实体聚类操作得到的实体块,也即各所述目标文本段指向最终实体。例如,当针对机构主体信息进行抽取时,可以优先选择机构全称作为链接词进行链接,或者综合考虑比如全部链接并进行投票选择。也就是说,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,具体可以包括:基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
由此可见,本申请实施例中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本申请先对待处理文本信息进行清洗,并对满足预设长文本条件的清洗后的所述待处理文本信息进行切分,然后通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性、解决信息抽取长文本问题以及相同含义信息重复抽取等问题,还能够同时提高信息抽取和实体链接的精确率和召回率。
参见图5所示,本发明实施例公开了一种信息抽取方法,包括:
步骤S21、基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息。
步骤S22、利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作。
步骤S23、在执行所述信息抽取操作的过程中,利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息。
本实施例中,基于跨度的预训练模型通过引入两个新的预训练任务来提高跨度表示的质量,从而在指代消解等任务上取得更好的性能。所述预训练任务为跨度边界表示任务(Span Boundary Objective,SBO)以及跨度内部相互信息任务(SpanBERT Masking,SBM)。其中,所述跨度边界表示任务:通过预测跨度的开始和结束位置,以提高模型对跨度边界的理解;所述跨度内部相互信息任务:一种连续跨度掩码策略,通过最大化跨度内部词。具体的,在基于所述基于跨度的预训练模型进行指代消解之前,需要首先进行相应的数据预处理操作,也即将输入的训练数据进行分词,并利用初始的基于跨度的预训练模型进行掩码处理,以得到预处理后的所述训练数据。然后所述初始的基于跨度的预训练模型根据预处理后的所述训练数据执行相应的所述跨度边界表示任务和所述跨度内部相互信息任务来进行训练,得到完成训练的所述基于跨度的预训练模型。本实施例中,具体针对完成训练的所述基于跨度的预训练模型,直接提取与抽取到的各所述文本段对应的跨度信息。
步骤S24、利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
本实施例中,通过利用完成训练的所述基于跨度的预训练模型以及所述跨度信息确定各所述文本段之间的指代实体相似度信息,也即计算各个指代词与其可能指代实体之间的相似度从而基于所述指代实体相似度信息确定最佳的指代关系。进而基于确定的最佳指代关系完成聚类,得到若干个目标文本段。
其中,关于上述步骤S21、步骤S22的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
由此可见,本申请实施例中,通过将预设指代消解模型,也即基于跨度的预训练模型应用于信息抽取的过程中,可以同时提高信息抽取和实体链接的精确率和召回率。
参见图6所示,本申请实施例还相应公开了一种信息抽取装置,包括:
文本清洗模块11,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;
信息抽取模块12,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
目标文本段确定模块13,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,本申请中,首先基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;然后利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;然后在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作。本申请通过基于预设抽取模型以及预设滑动窗口信息抽取规则进行抽取,并在此过程中利用预设指代消解模型增强抽取效果,完成实体聚类,这样一来,不仅能够有效提高信息抽取的效率和可靠性,还能够同时提高信息抽取和实体链接的精确率和召回率。
在一些具体实施例中,所述信息抽取装置,具体还可以包括:
文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段。
在一些具体实施例中,所述信息抽取模块12,具体可以包括:
信息抽取单元,用于针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作。
在一些具体实施例中,所述信息抽取装置,具体还可以包括:
抽取模型确定模块,用于基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。
在一些具体实施例中,所述目标文本段确定模块13,具体可以包括:
跨度信息确定单元,用于利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;
指代实体相似度信息确定单元,用于利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
在一些具体实施例中,所述目标文本段确定模块13,具体可以包括:
实体链接单元,用于基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
进一步的,本申请实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的信息抽取方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的信息抽取方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的信息抽取方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (6)
1.一种信息抽取方法,其特征在于,包括:
基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;
利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作;
其中,所述基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作之后,还包括:
当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段;其中,所述预设标点优先级具体为一级优先级以及二级优先级;所述一级优先级为“!!。??”;所述二级优先级为“ ,,;;”;
所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作,包括:
针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作;
所述通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,包括:
利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;
利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作之前,还包括:
基于预先开发的提示模板对通用信息抽取模型进行相应的小样本训练操作,以得到所述预设抽取模型。
3.根据权利要求1至2任一项所述的信息抽取方法,其特征在于,所述基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作,包括:
基于与所述目标事件对应的机构全称以及所述若干个目标文本段执行相应的实体链接操作。
4.一种信息抽取装置,其特征在于,包括:
文本清洗模块,用于基于预设清洗规则对获取到的与目标事件对应的若干个待处理文本信息执行相应的文本清洗操作,得到清洗后的各所述待处理文本信息;
信息抽取模块,用于利用预设抽取模型以及预设滑动窗口信息抽取规则对清洗后的各所述待处理文本信息执行相应的信息抽取操作;
目标文本段确定模块,用于在执行所述信息抽取操作的过程中,通过利用预设指代消解模型对抽取到的各文本段执行相应的实体聚类操作来确定与所述目标事件对应的若干个目标文本段,以基于预设实体链接规则以及所述若干个目标文本段执行相应的实体链接操作;
其中,所述信息抽取装置,还包括:
文本切分模块,用于当存在满足预设长文本条件的清洗后的所述待处理文本信息时,基于预设标点优先级执行相应的文本切分操作,以得到相应的不同优先级的清洗后的待处理文本片段;其中,所述预设标点优先级具体为一级优先级以及二级优先级;所述一级优先级为“!!。??”;所述二级优先级为“ ,,;;”;
所述信息抽取模块,包括:
信息抽取单元,用于针对所述不同优先级的清洗后的待处理文本片段,基于预设抽取模型并分别根据对应的预设滑动窗口执行相应的信息抽取操作;
所述目标文本段确定模块,包括:
跨度信息确定单元,用于利用基于跨度的预训练模型对抽取到的各文本段执行相应的预处理以及跨度信息提取操作,得到与各所述文本段分别对应的跨度信息;
指代实体相似度信息确定单元,用于利用所述基于跨度的预训练模型以及所述跨度信息确定与各所述文本段对应的指代实体相似度信息,以根据所述指代实体相似度信息完成相应的实体聚类操作,得到与所述目标事件对应的若干个目标文本段。
5.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至3任一项所述的信息抽取方法。
6.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022078.9A CN116776886B (zh) | 2023-08-15 | 2023-08-15 | 一种信息抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022078.9A CN116776886B (zh) | 2023-08-15 | 2023-08-15 | 一种信息抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116776886A CN116776886A (zh) | 2023-09-19 |
CN116776886B true CN116776886B (zh) | 2023-12-05 |
Family
ID=88011775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311022078.9A Active CN116776886B (zh) | 2023-08-15 | 2023-08-15 | 一种信息抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776886B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111695054A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 文本处理方法及设备、信息抽取方法及系统、介质 |
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
CN112463942A (zh) * | 2020-12-11 | 2021-03-09 | 深圳市欢太科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN114372475A (zh) * | 2022-01-12 | 2022-04-19 | 西安交通大学 | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 |
WO2022105122A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN114817553A (zh) * | 2021-11-23 | 2022-07-29 | 科大讯飞股份有限公司 | 知识图谱构建方法、知识图谱构建系统和计算设备 |
WO2022222300A1 (zh) * | 2021-04-21 | 2022-10-27 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
WO2023035330A1 (zh) * | 2021-09-13 | 2023-03-16 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN116127983A (zh) * | 2022-12-14 | 2023-05-16 | 马上消费金融股份有限公司 | 文本编码方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-15 CN CN202311022078.9A patent/CN116776886B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111695054A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 文本处理方法及设备、信息抽取方法及系统、介质 |
WO2022105122A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
CN112463942A (zh) * | 2020-12-11 | 2021-03-09 | 深圳市欢太科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
WO2022222300A1 (zh) * | 2021-04-21 | 2022-10-27 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
WO2023035330A1 (zh) * | 2021-09-13 | 2023-03-16 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN114817553A (zh) * | 2021-11-23 | 2022-07-29 | 科大讯飞股份有限公司 | 知识图谱构建方法、知识图谱构建系统和计算设备 |
CN114372475A (zh) * | 2022-01-12 | 2022-04-19 | 西安交通大学 | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 |
CN116127983A (zh) * | 2022-12-14 | 2023-05-16 | 马上消费金融股份有限公司 | 文本编码方法、装置、电子设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
UZH OnPoint at swisstext-2021: Sentence end and punctuation prediction in NLG text through ensembling of different transformers;Michail A.;《CEUR Workshop Proceedings》;第2957卷;全文 * |
基于语义关联的中文网页主题词提取方法研究;李芳芳;葛斌;毛星亮;汤大权;;计算机应用研究(第01期);全文 * |
基于预训练模型的机器阅读理解研究综述;张超然;《计算机工程与应用》;第56卷(第11期);全文 * |
篇章中指代消解研究综述;周炫余;刘娟;卢笑;;武汉大学学报(理学版)(第01期);全文 * |
陆永耕.《工业技术原理概论》.北京航空航天大学出版社,2019,第281-282页. * |
面向信息抽取的中文跨文本指代消解研究;季红洁;赵知纬;钱龙华;;福建电脑(第11期);第10-12、45页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116776886A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198948B (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN110362822B (zh) | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 | |
CN113486833B (zh) | 多模态特征提取模型训练方法、装置、电子设备 | |
CN111160003B (zh) | 一种断句方法及装置 | |
WO2012080077A1 (en) | Cleansing a database system to improve data quality | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN110516203B (zh) | 争议焦点分析方法、装置、电子设备及计算机可存储介质 | |
CN112733549B (zh) | 一种基于多重语义融合的专利价值信息分析方法、装置 | |
CN111444677A (zh) | 基于大数据的阅读模型优化方法、装置、设备及介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112582073B (zh) | 医疗信息获取方法、装置、电子设备和介质 | |
CN116776886B (zh) | 一种信息抽取方法、装置、设备及存储介质 | |
CN114141236B (zh) | 语言模型更新方法、装置、电子设备及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116578665A (zh) | 基于提示学习的可扩展文本信息联合抽取方法及设备 | |
CN116127011A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114118068A (zh) | 训练文本数据的扩增方法、装置及电子设备 | |
CN114519404A (zh) | 一种图像样本分类标注方法、装置、设备、存储介质 | |
CN112328812A (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN115312032A (zh) | 语音识别训练集的生成方法及装置 | |
US9276893B2 (en) | Determining states of a threaded communication | |
CN111723188A (zh) | 用于问答系统的基于人工智能的语句显示方法、电子设备 | |
CN108153817B (zh) | 一种智能网页数据采集方法 | |
CN111460160A (zh) | 一种基于强化学习的流式文本数据的事件聚类方法 | |
CN112559697A (zh) | 识别话术意图的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |