CN114020907A - 信息抽取方法、装置、存储介质与电子设备 - Google Patents

信息抽取方法、装置、存储介质与电子设备 Download PDF

Info

Publication number
CN114020907A
CN114020907A CN202111284909.0A CN202111284909A CN114020907A CN 114020907 A CN114020907 A CN 114020907A CN 202111284909 A CN202111284909 A CN 202111284909A CN 114020907 A CN114020907 A CN 114020907A
Authority
CN
China
Prior art keywords
entity
input text
text
information extraction
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111284909.0A
Other languages
English (en)
Inventor
樊乘源
方东祥
李向林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Mingwang Communication Software Co ltd
Original Assignee
Shenzhen Zhongke Mingwang Communication Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Mingwang Communication Software Co ltd filed Critical Shenzhen Zhongke Mingwang Communication Software Co ltd
Priority to CN202111284909.0A priority Critical patent/CN114020907A/zh
Publication of CN114020907A publication Critical patent/CN114020907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种信息抽取方法、信息抽取装置、计算机可读存储介质与电子设备,涉及信息处理技术领域。该信息抽取方法包括:获取待信息抽取的目标文本;构造第一实体识别标签加所述目标文本的第一输入文本,从所述第一输入文本中抽取出第一实体;构造第二实体识别标签加所述第一实体,再加所述目标文本的第二输入文本,从所述第二输入文本中抽取出第二实体;构造分类标签加所述第一实体和所述第二实体,再加所述目标文本的第三输入文本,从所述第三输入文本中抽取出关系类型。本公开提高了信息抽取的稳定性。

Description

信息抽取方法、装置、存储介质与电子设备
技术领域
本公开涉及信息处理技术领域,尤其涉及一种信息抽取方法、信息抽取装置、计算机可读存储介质与电子设备。
背景技术
信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步处理。
现有的信息抽取方法有多种,例如,流水线式关系抽取方法和实体关系联合学习抽取方法等,均可以实现三元组的抽取。
然而,现有的信息抽取方法存在着模型复杂、参数量大,不容易收敛等稳定性差的问题。
发明内容
本公开提供了一种信息抽取方法、信息抽取装置、计算机可读存储介质与电子设备,进而至少在一定程度上改善相关技术中信息抽取稳定性差的问题。
根据本公开的第一方面,提供一种信息抽取方法,包括:获取待信息抽取的目标文本;构造第一实体识别标签加所述目标文本的第一输入文本,从所述第一输入文本中抽取出第一实体;构造第二实体识别标签加所述第一实体,再加所述目标文本的第二输入文本,从所述第二输入文本中抽取出第二实体;构造分类标签加所述第一实体和所述第二实体,再加所述目标文本的第三输入文本,从所述第三输入文本中抽取出关系类型。
根据本公开的第二方面,提供一种信息抽取装置,所述装置包括:目标文本获取模块,用于获取待信息抽取的目标文本;第一实体抽取模块,用于构造第一实体识别标签加所述目标文本的第一输入文本,从所述第一输入文本中抽取出第一实体;第二实体抽取模块,用于构造第二实体识别标签加所述第一实体,再加所述目标文本的第二输入文本,从所述第二输入文本中抽取出第二实体;关系类型抽取模块,用于构造分类标签加所述第一实体和所述第二实体,再加所述目标文本的第三输入文本,从所述第三输入文本中抽取出关系类型。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的信息抽取方法及其可能的实施方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的信息抽取方法及其可能的实施方式。
本公开的技术方案具有以下有益效果:
一方面,使用第一实体识别标签和第二实体识别标签可以作为问题标签,在第一实体和第二实体抽取过程中,可以达到区分任务,并且借助同一个模型就可以实现任务的效果,减少了模型的复杂度。另一方面,通过将信息抽取拆分成识别第一实体、识别第二实体和关系类型分类三个任务,减少了识别过程的参数量,即使在小样本或类目不均衡时,也能取得较好的效果,从而提升了所使用模型的鲁棒性和信息抽取结果的稳定性。再一方面,在抽取第二实体时,将第一实体作为特征信息,在抽取关系类型时,将第一实体和第二实体同时作为特征信息,使得输入信息有更强的针对性和关联性,从而可以提高识别结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中信息抽取方法的流程图;
图2示出本示例性实施方式的信息抽取方法中主语识别过程示意图;
图3示出本示例性实施方式的信息抽取方法中宾语识别过程示意图;
图4示出本示例性实施方式中观看位置坐标示意图;
图5示出本示例性实施方式中的一种信息抽取过程的流程结构图;
图6示出本示例性实施方式的一种信息抽取装置的结构示意图;
图7示出本示例性实施方式的一种电子设备的硬件组成结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,下面所有的术语“第一”、“第二”仅是为了区分的目的,不应作为本公开内容的限制。
本公开实施例提供了一种信息抽取方法,该信息抽取方法主要基于阅读理解范式进行信息抽取,其中,阅读理解范式是阅读理解领域中的规范化句式,例如,主谓宾范式等。下面结合图1对本公开示例性实施方式的信息抽取方法进行具体说明。如图1所示,该信息抽取方法可以包括:
步骤S110,获取待信息抽取的目标文本;
步骤S120,构造第一实体识别标签加目标文本的第一输入文本,从第一输入文本中抽取出第一实体;
步骤S130,构造第二实体识别标签加第一实体,再加目标文本的第二输入文本,从第二输入文本中抽取出第二实体;
步骤S140,构造分类标签加第一实体和第二实体,再加目标文本的第三输入文本,从第三输入文本中抽取出关系类型。
该信息抽取方法实现了以下技术效果:一方面,使用第一实体识别标签和第二实体识别标签可以作为问题标签,在第一实体和第二实体抽取过程中,可以达到区分任务,并且借助同一个模型就可以实现任务的效果,减少了模型的复杂度。另一方面,通过将信息抽取拆分成识别第一实体、识别第二实体和关系类型分类三个任务,减少了识别过程的参数量,即使在小样本或类目不均衡时,也能取得较好的效果,从而提升了所使用模型的鲁棒性和信息抽取结果的稳定性。再一方面,在抽取第二实体时,将第一实体作为特征信息,在抽取关系类型时,将第一实体和第二实体同时作为特征信息,使得输入信息有更强的针对性和关联性,从而可以提高识别结果的准确性。
下面分别对每个步骤的实现过程进行具体说明:
在步骤S110中,获取待信息抽取的目标文本。
在实际应用中,待信息抽取的目标文本可以是结构化文本,也可以是非结构化文本等。
在目标文本的获取过程中,可以是从网页获取的文本,也可以是用户输入的文本,或者,是对用户输入的语音进行识别得到的文本。其中,目标文本可以是一个或者多个句子,还可以是一个或者多个段落。
需要说明的是,本公开实施例对于目标文本所采用的语言不作限定,例如:可以为中文文本、英文文本、日文文本等。为了便于理解,后续举例中均以中文文本为例进行描述。
在步骤S120中,构造第一实体识别标签加目标文本的第一输入文本,从第一输入文本中抽取出第一实体。
预训练模型是基于大规模文本语料训练通用的语言表示,对下游任务很有帮助,预训练可以提供更好的模型初始化参数,使得在目标任务上有更好的泛化性能和更快的收敛速度。预训练模型包括:多用途自然语言处理模型、词嵌入模型等。
本公开实施例提供的信息抽取方法,在信息抽取过程中也是基于上述的预训练模型实现的。需要说明的是,本示例性实施方式中,在构造第一输入文本之前,需要将第一实体识别标签和第二实体识别标签添加到预训练模型中,其中所包含的实体识别标签主要用于对待信息抽取文本中的三元组中的元素进行识别抽取,以为信息抽取提供基础。
在实际应用中,三元组是表示实体及实体关系的语义网络,其中,三元组包括主语-谓语-宾语。在本公开的示例性实施方式中,第一实体、第二实体代表着主语或宾语,关系类型则代表着谓语。
具体的,第一实体识别标签为主语识别标签[SUB]时,第一实体为主语;第二实体识别标签为宾语识别标签[OBJ]时,第二实体为宾语。第一实体识别标签为宾语识别标签[OBJ],第一实体为宾语;第二实体识别标签为主语识别标签[SUB],第二实体为主语。
下面,以多用途自然语言处理模型中的BERT(Bidirectional EncoderRepresentation from Transformers)预训练模型为例子,对本公开实施例提供的信息抽取方法进行举例说明。
BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型。BERT模型接收的输入包括三部分:词嵌入后的Token Embedding(令牌嵌入)、句子类别的符号和Position Embedding(位置嵌入)。
在训练BERT模型前,需要将本公开实施例提供的新的标签,即主语识别标签[SUB]和宾语识别标签[OBJ]的特征向量作为Token Embedding,嵌入到BERT的Embedding嵌入模块中。在具体嵌入过程中,可以使用BERT所预留的unused标签,即未使用的标签,而不必改变BERT中原始Embedding向量,以增加BERT的Token Embedding。
在将第一实体识别标签和第二实体识别标签添加到预训练模型中之后,就可以构造第一实体识别标签加目标文本的第一输入文本。下面以目标文本为“AAA的妻子是BBB,女儿是CCC”为例,对本公开实施例提供的信息抽取过程进行举例说明:
以第一实体识别标签为主语识别标签[SUB],第一实体为主语;第二实体识别标签为宾语识别标签[OBJ],第二实体为宾语进行说明,其他情况参照执行即可。需要说明的是,本公开示例性提供的信息抽取方法,无论先进行主语识别,还是先进行宾语识别,均落入本公开实施例的保护范围之内。
在第一实体的抽取过程中,也即主语抽取过程中,所构造的第一输入文本的格式为“[SUB]目标文本”,例如,第一输入文本为“[SUB]AAA的妻子是BBB,女儿是CCC”,如图2所示,将该第一输入文本输入到预训练模型中,预训练模型的输出是输入的各个字符经过模型编码后的Embedding,两个任务是预测输入中被掩盖掉的词,以及预测输入的两句是上下两句话还是拼接的。再通过在预训练模型接一层全连接层,可以增加注意力的非线性,增强模型的表达力。
本公开的示例性实施方式在主语抽取过程中,使用的是指针网络进行序列标注,再结合主语识别标签[SUB]的问题指令,确定出主语的开始位置(SUB_START)和结束位置(SUB_END),从而可以得到主语识别结果:“AAA”,作为第一实体。
在步骤S130中,构造第二实体识别标签加第一实体,再加目标文本的第二输入文本,从第二输入文本中抽取出第二实体。
在抽取到第一实体后,可以将第一实体结合到第二输入文本中,以增加第二实体抽取的准确率。
具体的,可以是将第一实体放置在第二实体识别标签之后,例如,将主语“AAA”放置在宾语识别标签[OBJ]之后;再将第一实体与目标文本分隔开,也就是说,构造第二输入文本时,将第一实体和目标文本通过分隔标签[SEP]间隔。获得的第二输入文本的格式为“[OBJ]主语[SEP]目标文本”,例如为“[OBJ]AAA[SEP]AAA的妻子是BBB,女儿是CCC”。
如图3所示,将构造的第二输入文本输入到预训练模型中,再通过在预训练模型接一层全连接层,使用指针网络进行序列标注,再结合宾语识别标签[OBJ]的问题指令,确定出宾语的开始位置(SUB_START)和结束位置(SUB_END),从而可以得到宾语识别结果:“BBB”、“CCC”,作为第二实体。
在第二实体抽取过程中,所使用的预训练模型与第一实体抽取过程中所使用的预训练模型可以共享参数,也就是说,可以是同一个模型,从而可以减少整个信息抽取过程中的参数量,使得模型在小样本或类目不均衡的情况下,也可以进行识别,提高了模型的鲁棒性。
在步骤S140中,构造分类标签加第一实体和第二实体,再加目标文本的第三输入文本,从第三输入文本中抽取出关系类型。
在抽取到第一实体和第二实体后,就需要对这两个实体的关系类型进行抽取。
同样的,需要先构造第三输入文本,对于BERT而言,其中包含的原始标签就有分类标签[CLS]。因此,可以直接使用该分类标签,再拼接第一实体和第二实体,外加目标文本完成第三输入文本的构造。
需要说明的是,为了便于机器识别,在构造第三输入文本时,需要将第一实体和第二实体通过分隔标签[SEP]间隔,将第二实体和目标文本也要通过分隔标签[SEP]间隔。
获得的第三输入文本格式为“[CLS]主语[SEP]宾语[SEP]目标文本”,例如,以第一实体为AAA,第二实体为BBB为例,第三输入文本为“[CLS]AAA[SEP]BBB[SEP]AAA的妻子是BBB,女儿是CCC”。
需要说明的是,在步骤S120中,获得了两个第二实体,也就是两个宾语,在这种情况下,构造第三输入文本的时候,可以构造出两种文本,除过上一种示例文本外,另一种文本为“[CLS]AAA[SEP]CCC[SEP]AAA的妻子是BBB,女儿是CCC”。
如图4所示,将构造的第三输入文本输入到预训练模型中,再通过在预训练模型接一层全连接层和激活函数层(Sigmoid层),使用指针网络进行序列标注,再结合主语、宾语和分类标签[CLS]的问题指令,确定出谓语的开始位置(SUB_START)和结束位置(SUB_END),从而可以得到谓语识别结果:“妻子”,作为关系类型。通过激活函数层可以获得识别标签的概率,以便于最终的识别结果确定,还可以支持同一主语和多个宾语时的谓语确定,提高了确定结果的准确性。
在获得第一实体、第二实体和关系类型之后,就相当于获得了“主语-谓语-宾语”三元组,也即完成了目标文本的信息抽取。
下面,结合附图5对信息抽取方法中的三元组抽取过程步骤进行说明:进入步骤S501,获取目标文本;进入步骤S502,根据第一实体识别标签和目标文本,构造第一输入文本;进入步骤S503,从第一输入文本抽取第一实体;进入步骤S504,根据第二实体识别标签、第一实体和目标文本,构造第二输入文本;进入步骤S505,从第二输入文本抽取第二实体;进入步骤S506,根据分类标签、第一实体、第二实体和目标文本,构造第三输入文本;再进入步骤S507,从第三输入文本抽取关系类型。
综上所述,本示例性实施方式提供的一种信息抽取方法,属于信息处理技术领域。该信息抽取过程使用阅读理解的范式,通过问题标签构造输入文本,将信息抽取划分为主语识别、宾语识别、关系分类三个任务,并且三个任务之间可以共享BERT预训练模型的参数,减少了全连接层参数量,在小样本和类目不均衡时,也能取得较好的效果,提升了模型的鲁棒性。另外,上一任务的输出可以构造到下一任务的输入中,加强了三个任务之间的联系,提高了模型识别的针对性,提升了信息抽取的效率。再一个,在预训练模型共享参数的同时,使用新增的[SUB]和[OBJ]标签区分任务,使得共享层可以根据不同的问题标签,执行不同的任务,提供了一种预训练模型使用的新思路。
另外,使用层联任务进行筛选,而不是在所有实体上进行全流程预测,减少了预测数量,提升了模型效率。同时,每个步骤都是简单任务,模型收敛快,鲁邦性强,可以克服部分样本不均衡的问题。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
本公开的示例性实施方式还提供一种信息抽取装置。如图6所示,该信息抽取装置600可以包括:
目标文本获取模块610,用于获取待信息抽取的目标文本;
第一实体抽取模块620,用于构造第一实体识别标签加目标文本的第一输入文本,从第一输入文本中抽取出第一实体;
第二实体抽取模块630,用于构造第二实体识别标签加第一实体,再加目标文本的第二输入文本,从第二输入文本中抽取出第二实体;
关系类型抽取模块640,用于构造分类标签加第一实体和第二实体,再加目标文本的第三输入文本,从第三输入文本中抽取出关系类型。
在本公开的一种示例性实施方式中,第一实体抽取模块620,用于将第一输入文本输入到预训练模型加全连接层中,得到第一实体。
在本公开的一种示例性实施方式中,第二实体抽取模块630,用于将第二输入文本输入到预训练模型加全连接层中,得到第二实体。
在本公开的一种示例性实施方式中,关系类型抽取模块640,用于将第三输入文本输入到预训练模型加全连接层和激活函数层中,得到关系类型。
在本公开的一种示例性实施方式中,还包括:标签添加模块650;其中,
标签添加模块650,用于在构造第一输入文本之前,需要将第一实体识别标签和第二实体识别标签添加到预训练模型中。
在本公开的一种示例性实施方式中,第二实体抽取模块630,用于构造第二输入文本时,将第一实体和目标文本通过分隔标签间隔。
在本公开的一种示例性实施方式中,关系类型抽取模块640,用于构造第三输入文本时,将第一实体和第二实体通过分隔标签间隔,将第二实体和目标文本通过分隔标签间隔。
在本公开的一种示例性实施方式中,第一实体识别标签为主语识别标签,第一实体为主语;
第二实体识别标签为宾语识别标签,第二实体为宾语。
在本公开的一种示例性实施方式中,第一实体识别标签为宾语识别标签,第一实体为宾语;
第二实体识别标签为主语识别标签,第二实体为主语。
需要说明的是,上述图6实施例提供的信息抽取装置在进行信息抽取时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的信息抽取装置与信息抽取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图7为本申请实施例电子设备的硬件组成结构示意图,如图7所示,电子设备700包括:
通信接口701,能够与其它设备比如网络设备等进行信息交互;
处理器702,与通信接口701连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的信息抽取方法。而所述计算机程序存储在存储器703上。
当然,实际应用时,电子设备中的各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。
本申请实施例中的存储器703用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器703可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器703旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器702中,或者由处理器702实现。处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器702可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器703,处理器702读取存储器703中的程序,结合其硬件完成前述方法的步骤。
处理器702执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器703,上述计算机程序可由处理器702执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种信息抽取方法,其特征在于,所述方法包括:
获取待信息抽取文本;
构造第一实体识别标签与所述待信息抽取文本拼接后的第一输入文本,从所述第一输入文本中抽取出第一实体;
构造第二实体识别标签、所述第一实体和所述待信息抽取文本拼接后的第二输入文本,从所述第二输入文本中抽取出第二实体;
构造分类标签、所述第一实体、所述第二实体和所述待信息抽取文本拼接后的第三输入文本,从所述第三输入文本中抽取出所述第一实体和所述第二实体的关系类型。
2.根据权利要求1所述的信息抽取方法,其特征在于,从所述第一输入文本中抽取出第一实体,包括:
将所述第一输入文本输入到预训练模型中,得到所述第一实体。
3.根据权利要求2所述的信息抽取方法,其特征在于,从所述第二输入文本中抽取出第二实体,包括:
将所述第二输入文本输入到所述预训练模型中,得到所述第二实体。
4.根据权利要求3所述的信息抽取方法,其特征在于,从所述第三输入文本中抽取出关系类型包括:
将所述第三输入文本输入到所述预训练模型和激活函数层中,得到所述关系类型。
5.根据权利要求2-4中任一项所述的信息抽取方法,其特征在于,所述方法还包括:
在构造所述第一输入文本之前,需要将所述第一实体识别标签和所述第二实体识别标签添加到所述预训练模型中。
6.根据权利要求2-4中任一项所述的信息抽取方法,其特征在于,所述预训练模型包括BERT模型和全连接层。
7.根据权利要求1所述的信息抽取方法,其特征在于,所述方法还包括:
构造所述第二输入文本时,将所述第一实体和所述目标文本通过分隔标签间隔。
8.根据权利要求1所述的信息抽取方法,其特征在于,所述方法还包括:
构造所述第三输入文本时,将所述第一实体和所述第二实体通过分隔标签间隔,将所述第二实体和所述目标文本通过分隔标签间隔。
9.根据权利要求1所述的信息抽取方法,其特征在于,所述第一实体识别标签为主语识别标签,所述第一实体为主语;
所述第二实体识别标签为宾语识别标签,所述第二实体为宾语。
10.根据权利要求1所述的信息抽取方法,其特征在于,所述第一实体识别标签为宾语识别标签,所述第一实体为宾语;
所述第二实体识别标签为主语识别标签,所述第二实体为主语。
11.一种信息抽取装置,其特征在于,所述装置包括:
目标文本获取模块,用于获取待信息抽取的目标文本;
第一实体抽取模块,用于构造第一实体识别标签加所述目标文本的第一输入文本,从所述第一输入文本中抽取出第一实体;
第二实体抽取模块,用于构造第二实体识别标签加所述第一实体,再加所述目标文本的第二输入文本,从所述第二输入文本中抽取出第二实体;
关系类型抽取模块,用于构造分类标签加所述第一实体和所述第二实体,再加所述目标文本的第三输入文本,从所述第三输入文本中抽取出关系类型。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的信息抽取方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10任一项所述的信息抽取方法。
CN202111284909.0A 2021-11-01 2021-11-01 信息抽取方法、装置、存储介质与电子设备 Pending CN114020907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111284909.0A CN114020907A (zh) 2021-11-01 2021-11-01 信息抽取方法、装置、存储介质与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111284909.0A CN114020907A (zh) 2021-11-01 2021-11-01 信息抽取方法、装置、存储介质与电子设备

Publications (1)

Publication Number Publication Date
CN114020907A true CN114020907A (zh) 2022-02-08

Family

ID=80059498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111284909.0A Pending CN114020907A (zh) 2021-11-01 2021-11-01 信息抽取方法、装置、存储介质与电子设备

Country Status (1)

Country Link
CN (1) CN114020907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292568A (zh) * 2022-03-02 2022-11-04 内蒙古工业大学 一种基于联合模型的廉政和民生新闻事件抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292568A (zh) * 2022-03-02 2022-11-04 内蒙古工业大学 一种基于联合模型的廉政和民生新闻事件抽取方法
CN115292568B (zh) * 2022-03-02 2023-11-17 内蒙古工业大学 一种基于联合模型的民生新闻事件抽取方法

Similar Documents

Publication Publication Date Title
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113128227A (zh) 实体抽取方法及装置
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN114238571A (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN111860653A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
Nararatwong et al. Improving Thai word and sentence segmentation using linguistic knowledge
CN114020907A (zh) 信息抽取方法、装置、存储介质与电子设备
CN112667208A (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
Shen et al. A general approach to multimodal document quality assessment
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
Shen et al. A Multimodal Approach to Assessing Document Quality.
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム
CN114298048A (zh) 命名实体识别方法及装置
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN113627186A (zh) 基于人工智能的实体关系检测方法及相关设备
Dobreva et al. Improving NER performance by applying text summarization on pharmaceutical articles
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
Malak Text Preprocessing: A Tool of Information Visualization and Digital Humanities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination