CN116842128B

CN116842128B - 一种文本关系抽取方法、装置、计算机设备及存储介质

Info

Publication number: CN116842128B
Application number: CN202311120551.7A
Authority: CN
Inventors: 郑磊; 宋炤坤; 鲍琦
Original assignee: Hefei Jiqian Quantum Technology Co ltd
Current assignee: Hefei Jiqian Quantum Technology Co ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-21
Anticipated expiration: 2043-09-01
Also published as: CN116842128A

Abstract

本发明公开了一种文本关系抽取方法、装置、计算机设备及存储介质，属于自然语言处理技术领域。针对现有技术中存在的传统文本关系抽取模式受限于有限的句法模式和无法理解句子语义等问题，本发明提供了一种文本关系抽取方法、装置、计算机设备及存储介质，通过获取关系抽取文本，将关系抽取文本进行主题分类，判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量，根据判断特定值的数量选择不同抽取方式抽取关系字段，验证抽取的关系字段是否合格。它可以实现快速、自动地抽取复杂的文本关系，有效提高文本关系抽取效率。

Description

一种文本关系抽取方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种文本关系抽取方法、装置、计算机设备及存储介质。

背景技术

自然语言处理是一种用于分析人类语言的人工智能，其中的信息抽取任务是指抽取人类自然语言文本中的实体、实体关系和事件等结构化信息，是一种将半结构化或者非结构化的文本数据，转化为结构化数据信息的技术。随着科技的快速发展，光电探测技术是现代科技领域中应用非常广泛的一种技术，其可以将光信号转化为电信号，从而实现对光信号的检测和处理。而半导体光电探测器件是该领域的重要组成部分之一，对于这些器件的性能评估和研发需要涉及多种物理量，如探测率、响应率、暗电流、量子效率等等，这些信息需要从专利论文等文献中抽取。因此，自然语言处理技术也应用到光电探测技术领域中。然而，传统手工抽取方式效率低下、成本高昂容易出错，所以开发一种高效准确的自动化抽取方法十分必要。虽然使用计算机软件抽取是一种可行的方法，但基于规则的传统抽取模式受限于有限的句法模式和无法理解句子语义，难以提升模型效果。

经检索，中国专利申请，申请号202010092616.1，申请日2020年2月14日，公开了一种文本关系抽取的方法、装置、计算机设备及存储介质。该方法包括：训练用于提取文本中实体类的实体抽取模型；利用符合预设标准的所述实体抽取模型提取待抽取文本中的各个目标实体；基于全组合方法构建目标实体对，并将所述目标实体对输入至关系抽取模型中，获取得到对应的关系识别结果；利用阅读理解模型对所述关系识别结果进行验证；若判定各个所述目标实体对对应的关系识别结果均通过验证，则整合输出所述关系识别结果。该方案适用于对文本关系的抽取，但是该方案仍受限于有限的句法模式和无法理解句子语义，无法应用于复杂文本的数据抽取，文本抽取效率不高。

发明内容

1.要解决的技术问题

针对现有技术中存在的规则的传统抽取模式受限于有限的句法模式和无法理解句子语义导致无法应用于复杂文本的关系抽取等问题，本发明提供了一种文本关系抽取方法、装置、计算机设备及存储介质，通过对文本进行主题分类、关系类型判断以及使用不同的抽取方式来针对不同的关系类型进行抽取，从而实现快速、自动地抽取复杂的文本关系，有效提高文本关系抽取效率。

2.技术方案

本发明的目的通过以下技术方案实现。

一种文本关系抽取方法，步骤如下：

获取关系抽取文本；

将关系抽取文本进行主题分类；

判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量；

根据判断特定值的数量选择不同抽取方式抽取关系字段；

验证抽取的关系字段是否合格。

进一步地，将关系抽取文本进行主题分类的步骤，包括：

对关系抽取文本处理，得到主题分类输入文本；

设定主题，寻找与主题相关的临近词；

基于主题分类输入文本和临近词，通过智能问答模型进行主题分类。

进一步地，若关系抽取文本中包含的特定值为一个，则通过一对一关系抽取方式抽取关系字段；若关系抽取文本中包含的特定值为多个，则通过多对多关系抽取方式抽取关系字段。

进一步地，通过一对一关系抽取方式抽取关系字段的步骤为智能问答模型通过多次对话分别抽取关系字段，所述关系字段包括名称字段、数值字段以及单位字段。

进一步地，通过多对多关系抽取方式抽取关系字段的步骤，包括：

智能问答模型通过单次对话抽取全部关系字段；

建立关系表格，关系表格的每一行表示一个关系信息。

进一步地，将以一对一关系抽取方式和多对多抽取方式抽取得到的关系字段进行验证，所述验证包括：验证名称字段、数值字段以及单位字段是否均来源于关系抽取文本；验证单位字段是否合法。

一种文本关系抽取装置，包括：

获取模块，获取关系抽取文本；

分类模块，将关系抽取文本进行主题分类；

判断模块，判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量；

抽取模块，根据判断特定值的数量选择不同抽取方式抽取关系字段；

验证模块，验证抽取的关系字段是否合格。

进一步地，在验证模块验证抽取的关系字段合格后，对关系字段进行数据清洗且将清洗后的关系字段存储至数据库。

一种计算机设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述所述的方法。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明的一种文本关系抽取方法、装置、计算机设备及存储介质，通过采用一对一关系抽取方式和多对多抽取方式完成文本关系抽取任务，可以更加准确地识别关系抽取文本中的多个特定值，并将其抽取出来，为后续的数据分析和处理提供可靠的支持。同时，两种不同的文本关系抽取方式，有效提高了文本关系抽取效率，避免由于单一抽取流程带来的信息丢失或错误问题，显著提高了文本关系抽取的准确性和可靠性。此外，对关系抽取文本进行主题分类，排除与主题无关的文本，有效降低关系抽取的处理成本，提高处理速度。

附图说明

图1为本发明实施例文本关系抽取流程图；

图2为本发明实施例对关系抽取文本预处理流程图；

图3为本发明实施例对关系抽取文本主题分类流程图；

图4为本发明实施例获取临近词流程图；

图5为本发明实施例一对一关系抽取方式流程图；

图6为本发明实施例对多对关系抽取方式流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

如图1所示，为本实施例提供的一种文本关系抽取方法。文本关系抽取的步骤为：获取关系抽取文本；将关系抽取文本进行主题分类；判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量；根据判断特定值的数量选择不同抽取方式抽取关系字段；验证抽取的关系字段是否合格。

具体到本实施例中，首先获取关系抽取文本。本实施例中，从文献尤其是PDF文献中获取文献数据。进一步地，如图2所示，对文献数据中的文本进行预处理。具体地，对文本进布局分析后，将文本分块处理，再通过OCR识别技术提取出纯文本，将获得的纯文本按照段落划分后再以单独句子形式划分出，由此，将文献数据中的文本转换为结构化的XML文档进行存储。进而在XML文档中提取指定章节的文本数据，将所提取的文本数据作为后续关系抽取的输入文本，也即关系抽取文本。需要说明的是，本实施例中，在XML文档中提取指定章节的文本数据包括句子级数据或段落级数据。

进一步地，将关系抽取文本进行主题分类。如图3所示，将关系抽取文本进行主题分类的步骤，包括：对关系抽取文本处理，得到主题分类输入文本；设定主题，寻找与主题相关的临近词；基于主题分类输入文本和临近词，通过智能问答模型进行主题分类。具体地，将关系抽取文本进行版式分析后提取出文本，进而再通过排版还原将文本分段分句，由此，将关系抽取文本中的文本转换为结构化的XML文档进行存储，进而在XML文档中提取指定章节的文本数据，将所提取的文本数据作为主题分类输入文本。获得主题分类输入文本后，设定主题，从文本数据库中寻找与主题相关的临近词。如图4所示，获取文本数据库中的所有文本数据，进而对获得的文本数据进行数据清洗后，运用词向量模型寻找临近词，筛选、删除无关临近词，选定临近词。进一步地，选择智能问答模型，结合主题分类输入文本和临近词，通过智能问答模型进行主题分类。需要说明的是，本实施例中选择的智能问答模型，通过定义人工智能助手的扮演角色、思想链分步骤分析对话和模拟人工智能助手回答内容以及多轮对话，可以加深对主题分类任务的理解，提高主题分类的质量和效果。由此，在本实施例中，智能问答模型通过对对话内容的理解以及判断主题分类文本中是否包含临近词进行主题分类。若主题分类文本中不包含临近词，则终止文本关系抽取流程。

进一步地，判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量。本实施例中，通过询问智能问答模型判断主题分类后的关系抽取文本也即主题文本中是否包含特定值，并且要求智能问答模型只能回答是或否。若关系抽取文本中不包含特定值，则终止文本关系抽取流程；若关系抽取文本中包含特定值，则说明关系抽取文本中存在可用的数据，进一步通过询问智能问答模型判断特定值的数量。具体地，询问智能问答模型关系抽取文本中是否包含特定值的多个值，智能问答模型只可以回答是或否。当智能问答模型回答否时，则说明关系抽取文本中只包含一个特定值，当智能问答模型回答是时，则说明关系抽取文本中包含多个特定值。值得说明的是，本实施例中，在对关系抽取文本进行主题分类以及判断主题分类后的关系抽取文本中是否包含特定值时，均需要筛选并删除掉无关主题分类文本和无特定值文本的数据，由此，降低后续文本关系抽取步骤中的文本数量，进而降低关系抽取计算成本，有效提高文本关系抽取效率。

进一步地，根据判断特定值的数量选择不同抽取方式抽取关系字段。本实施例中，关系字段包括名称字段、数值字段以及单位字段。若关系抽取文本中包含的特定值为一个，则通过一对一关系抽取方式抽取关系字段；若关系抽取文本中包含的特定值为多个，则通过多对多关系抽取方式抽取关系字段。本实施例中，一对一关系是指一个名称字段仅对应一个数值字段，多对多关系是指一个名称字段对应多个数值字段或者多个名称字段对应多个数值字段。针对这两种不同的情况，分别采用不同的抽取流程来进行处理，即使用一对一关系抽取方式或多对多关系抽取方式来完成文本关系抽取任务。

通过一对一关系抽取方式抽取关系字段的步骤为智能问答模型通过多次对话分别抽取关系字段。具体地，如图5所示，当关系抽取文本中包含的特定值为一个时，则关系抽取文本中每个关系字段都只有一个，也即每个关系字段中仅包含一个名称字段、一个数值字段以及一个单位字段，由此，通过智能问答模型分步骤多次对话分别抽取名称字段、数值字段以及单位字段。首先抽取数值，也即抽取字段对应的数值，不包含单位。若没有抽取到数值字段数据，则终止文本关系抽取流程，若抽取到数值字段数据，则进一步抽取单位，也即抽取字段对应的单位。若没有抽取到单位字段数据，则终止文本关系抽取流程，若抽取到单位字段数据，则进一步抽取名称，也即抽取字段对应的名称，若没有抽取到名称字段数据，则终止文本关系抽取流程。需要说明的是，本实施例中，若字段为无量纲类型字段，则不需要进行抽取单位字段。此外，通过智能问答模型分步骤多次对话逐次抽取关系字段时，如果智能问答模型不包含给定特定值的字段数据时，则要求智能问答模型回答没有特定值的字段数据，从而可以避免智能问答模型不知道如何回答而随机生成对话结果产生无关字段的抽取，进而影响文本关系抽取的准确性。由此，通过一对一关系抽取方式逐个抽取关系字段，可以较为准确地得到关系抽取文本中的关系信息。

通过多对多关系抽取方式抽取关系字段的步骤，包括：智能问答模型通过单次对话抽取全部关系字段；建立关系表格，关系表格的每一行存储一个关系字段。具体地，如图6所示，当关系抽取文本中包含的特定值为多个时，需要识别并提取关系抽取文本中的多个关系信息。为了提高抽取结果的准确性和可靠性，本实施例中，采用一次性完成所有关系字段的数据抽取，再建立关系表格，关系表格的每一行表示一个关系信息，每一列分别表示名称字段、数值字段以及单位字段，从而形成一张完整的关系表格。通过建立关系表格，不仅易于理解，还方便处理后续的数据验证等步骤。此外，通过智能问答模型单次对话抽取关系字段时，如果智能问答模型不包含给定特定值的字段数据时，则要求智能问答模型回答没有特定值的字段数据，从而可以避免智能问答模型不知道如何回答而随机生成对话结果产生无关字段的抽取，进而影响文本关系抽取的准确性。需要说明的是，本实施例中，当关系抽取文本中包含的特定值为多个时，还可以将所有关系信息抽取成JSON对象数组的样式，其中每个JSON对象表示一个关系字段，最终形成一个包含所有关系信息的集合。这种方式具有简洁性和可扩展性的特点，而且易于程序解析。由此，在实际应用中，可以根据需求和实际情况选择最适合的文本关系抽取方式来实现文本关系的高效抽取和利用。

由此，本实施例中，通过两种不同的文本关系抽取方式，可以更加准确地识别关系抽取文本中的多个特定值，并将其抽取出来，为后续的数据分析和处理提供可靠的支持。

进一步地，验证抽取的关系字段是否合格。具体地，将以一对一关系抽取方式和多对多抽取方式抽取得到的关系字段进行验证，所述验证包括：验证名称字段、数值字段以及单位字段是否均来源于关系抽取文本；验证单位字段是否合法。具体地，对于通过一对一关系抽取方式抽取得到的关系字段，需要通过智能问答模型分步骤多次对话验证抽取的名称字段、数值字段以及单位字段是否正确。对于名称字段，验证抽取的名称字段是否来源于关系抽取文本；对于数值字段，验证抽取的数值字段是否来源于关系抽取文本；对于单位字段，验证抽取的单位字段是否来源于关系抽取文本，此外，本实施例中，对于单位字段，还需要验证抽取的单位字段是否合法，也即验证抽取的单位字段是否是目标特定值的单位。对于通过多对多关系抽取方式抽取得到的关系字段，需要在完成关系字段抽取后，对抽取出来的关系字段的数据进行验证，在验证的过程中，需要逐一遍历所有的关系信息，并通过智能问答模型分步骤多次对话依次针对每个关系信息的各个关系字段进行验证。对于名称字段，验证抽取的关系表格给定行的名称字段是否正确抽取以及是否来源于关系抽取文本；对于数值字段，验证关系表格给定行的数值字段是否来源于关系抽取文本；对于单位字段，验证关系表格给定行的单位字段是否来源于关系抽取文本，此外，本实施例中，对于单位字段，可以根据实际需求，验证关系表格给定行的单位字段是否合法，也即验证关系表格给定行的单位字段是否是目标特定值的单位。

由此，本实施提供的一种文本关系抽取方法，采用一对一关系抽取方式和多对多抽取方式完成文本关系抽取任务，有效提高了文本关系抽取效率，避免由于单一抽取流程带来的信息丢失或错误问题，显著提高了文本关系抽取的准确性和可靠性。

本实施例还提供一种文本关系抽取装置，包括获取模块、分类模块、判断模块、抽取模块以及验证模块。所述获取模块，用于获取关系抽取文本。所述分类模块，用于将关系抽取文本进行主题分类。所述判断模块，用于判断主题分类后的关系抽取文本中是否包含特定值，若关系抽取文本中包含特定值，则判断特定值的数量。所述抽取模块，根据判断特定值的数量选择不同抽取方式抽取关系字段。所述验证模块，用于验证抽取的关系字段是否合格。需要说明的是，本实施例中，在验证模块验证抽取的关系字段合格后，对关系字段进行数据清洗且将清洗后的关系字段存储至数据库。具体地，在抽取到关系字段后，需要对得到的抽取结果进行数据清洗，进而去除关系字段中的错误信息、校正数值字段以及单位格式等。在数据清洗的过程中，对不同的关系字段采用不同的清洗方法和流程。例如，在清洗名称字段时，通过比对该名称字段是否符合规范制定的命名规则来判定其是否包含非法字符或出现名称拼写错误等；在清洗数值字段时，检查其是否在合理的取值区间内，并对不合理的数值字段进行修正或丢弃；在清洗单位字段时，验证其是否是特定值的正确单位，如果有拼写错误，进行校正等。由此，将清洗后的关系字段存储到数据库，以备后续使用。数据库的选择可以依据具体情况进行设计和实现，并充分考虑数据的可靠性和安全性，以确保后续数据使用的高效性和有效性。本实施例提供的一种文本关系抽取装置能够实现所述文本关系抽取方法的任一种方法，且一种文本关系抽取装置的具体工作过程可参考所述文本关系抽取方法实施例中的对应过程。本实施例所提供的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，某个模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的连接或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电性、机械或其它的形式的连接。

本实施例还提供一种计算机设备。一种计算机设备，包括存储器、处理器以及储存在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的一种文本关系抽取方法。

本实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行本实施例中所述的一种文本关系抽取方法。其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文本关系抽取方法，步骤如下：

获取关系抽取文本；

将关系抽取文本进行主题分类，排除与主题无关的文本；

根据判断特定值的数量选择不同抽取方式抽取关系字段；关系字段包括名称字段、数值字段以及单位字段；若关系抽取文本中包含的特定值为一个，则通过一对一关系抽取方式抽取关系字段；若关系抽取文本中包含的特定值为多个，则通过多对多关系抽取方式抽取关系字段；一对一关系是指一个名称字段仅对应一个数值字段，多对多关系是指一个名称字段对应多个数值字段或者多个名称字段对应多个数值字段；通过一对一关系抽取方式抽取关系字段的步骤为智能问答模型通过多次对话分别抽取关系字段，首先抽取数值，也即抽取字段对应的数值，不包含单位，若没有抽取到数值字段数据，则终止文本关系抽取流程，若抽取到数值字段数据，则进一步抽取单位，也即抽取字段对应的单位，若没有抽取到单位字段数据，则终止文本关系抽取流程，若抽取到单位字段数据，则进一步抽取名称，也即抽取字段对应的名称，若没有抽取到名称字段数据，则终止文本关系抽取流程；通过多对多关系抽取方式抽取关系字段的步骤包括：智能问答模型通过单次对话抽取全部关系字段，建立关系表格，关系表格的每一行存储一个关系字段；

验证抽取的关系字段是否合格。

2.根据权利要求1所述的一种文本关系抽取方法，其特征在于，将关系抽取文本进行主题分类的步骤，包括：

对关系抽取文本处理，得到主题分类输入文本；

设定主题，寻找与主题相关的临近词；

3.根据权利要求1所述的一种文本关系抽取方法，其特征在于，将以一对一关系抽取方式和多对多抽取方式抽取得到的关系字段进行验证，所述验证包括：验证名称字段、数值字段以及单位字段是否均来源于关系抽取文本；验证单位字段是否合法。

4.一种文本关系抽取装置，其特征在于，包括：

获取模块，获取关系抽取文本；

分类模块，将关系抽取文本进行主题分类，排除与主题无关的文本；

抽取模块，根据判断特定值的数量选择不同抽取方式抽取关系字段；关系字段包括名称字段、数值字段以及单位字段；若关系抽取文本中包含的特定值为一个，则通过一对一关系抽取方式抽取关系字段；若关系抽取文本中包含的特定值为多个，则通过多对多关系抽取方式抽取关系字段；一对一关系是指一个名称字段仅对应一个数值字段，多对多关系是指一个名称字段对应多个数值字段或者多个名称字段对应多个数值字段；通过一对一关系抽取方式抽取关系字段的步骤为智能问答模型通过多次对话分别抽取关系字段，首先抽取数值，也即抽取字段对应的数值，不包含单位，若没有抽取到数值字段数据，则终止文本关系抽取流程，若抽取到数值字段数据，则进一步抽取单位，也即抽取字段对应的单位，若没有抽取到单位字段数据，则终止文本关系抽取流程，若抽取到单位字段数据，则进一步抽取名称，也即抽取字段对应的名称，若没有抽取到名称字段数据，则终止文本关系抽取流程；通过多对多关系抽取方式抽取关系字段的步骤包括：智能问答模型通过单次对话抽取全部关系字段，建立关系表格，关系表格的每一行存储一个关系字段；

验证模块，验证抽取的关系字段是否合格。

5.根据权利要求4所述的一种文本关系抽取装置，其特征在于，在验证模块验证抽取的关系字段合格后，对关系字段进行数据清洗且将清洗后的关系字段存储至数据库。

6.一种计算机设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-3任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-3中任一项所述的方法。