CN111291566A - 一种事件主体识别方法、装置、存储介质 - Google Patents
一种事件主体识别方法、装置、存储介质 Download PDFInfo
- Publication number
- CN111291566A CN111291566A CN202010071222.8A CN202010071222A CN111291566A CN 111291566 A CN111291566 A CN 111291566A CN 202010071222 A CN202010071222 A CN 202010071222A CN 111291566 A CN111291566 A CN 111291566A
- Authority
- CN
- China
- Prior art keywords
- character
- target text
- entity
- text
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种事件主体识别方法,包括采用预定的实体识别模型识别目标文本中的实体;采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;根据所得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。本申请能够提高识别的准确率。
Description
技术领域
本文涉及计算机技术,尤指一种事件主体识别方法、装置、存储介质。
背景技术
新闻文本指新闻报道的文字形式,相比小说、评论等其他文学体裁,新闻文本中往往包含更多对实时事件的描述,具有更强的描述性和时效性。实现自动、充分、高效地从新闻文本中抽取有用信息能够帮助政府合理管控社会治安,帮助金融机构有效规避风险、帮助企业准确洞察市场状态,因而新闻文本信息抽取一直是学业界关注的热点。
命名实体识别任务是自然语言处理领域的经典任务和热门课题。命名实体识别(Named Entity Recognition)任务的目标是通过算法实现自动识别文本中的命名实体。得益于近年来计算机运算能力的巨大提升以及深度学习技术的快速发展,当前命名实体识别技术已经能够借助适量训练数据实现诸如人名识别、地名识别、组织机构名识别等常见任务,其准确率和召回率等指标可以达到真实工业生产场景的要求。
尽管当前命名实体识别技术已经可以实现从新闻报道文本中自动化抽取组织机构、人物等重要元素,但仍无法充分满足工业生产场景的对数据精度的需求:相比新闻报道中提及的所有公司实体和人物实体等,新闻事件的主体往往更具有实际使用价值。这一任务要求文本信息抽取算法能够在识别命名实体的基础上具有一定的文本上下文语义理解能力,能够从多个命名实体中准确找出事件主体。当前,这一任务尚未被有效解决。
本发明提出一种基于实体嵌入的新闻文本事件主体识别方法,该方法输入新闻文本和从新闻文本中识别得到的公司实体和人物实体,输出新闻文本所述事件的事件主体。本发明所述方法能够有效利用新闻文本中的信息,为使用者提供更细粒度的新闻文本抽取。
当前已有命名实体识别模型大多具有较好的模式识别与模式匹配能力,但文本语义理解能力较弱。这也导致现有方法能够较好的处理人名识别等任务但却无法成功处理新闻文本事件主体抽取这一需要一定语义理解能力的任务。为补充这一短板,现有方法主要分为以下两种:
一、使用海量训练数据集。
一个自然能够想到的方法是增加训练数据集的数量以及扩大训练数据集场景覆盖范围。理论上讲,当数据集数量和覆盖范围足够大以至于能够包含大部分新闻文本场景时,借助现有方法优秀的模式识别与匹配能力可以实现正确定位事件主体。这一方法能够在一定程度上弥补当前方法在语义理解能力上的薄弱,但也有着明显的弊端,即成本较高。训练数据的产生依赖大量人力工作,一方面人力标注成本往往较为高昂,另一方法,对数据量的巨大需求也决定了数据集标注工作需要较长标注时间。扩大训练数据量是一种高人力成本高时间成本的解决方案。
二、转化为分类任务。
此类解决方案通过把事件主体抽取任务转换为公司名和人名的命名实体识别任务+分类任务实现事件主体抽取。首先,使用现有模型抽取新闻文本中出现的所有公司名和人名最为候选事件主体,然后针对每个实体分别使用一个分类模型判断该实体是否为新闻文本的事件主体,该分类模型输入待判断候选实体和新闻文本,输出目标实体为事件主体的概率,最后通过取最大概率得到事件主体。此类方法能够利用命名实体识别结果信息帮助事件主体抽取任务缩小目标范围能够有效提升抽取效果,但此类方法同样具有明显的缺点,即运算量较大。此类方法需要对每个候选实体分别运行一次分类模型,分类模型的复杂度越高则此类方法的运算速度将明显下降。
发明内容
本申请提供了一种事件主体识别方法、装置、存储介质,能够提供识别的准确率。
本申请提供了一种事件主体识别方法,包括:采用预定的实体识别模型识别目标文本中的实体;采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;根据所得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
在一个示例性实施例中,所述预定的实体识别模型包括双向解码器表征模型、双向长短期记忆模型、及条件随机场模型,所述采用预定的实体识别模型识别目标文本中的实体,包括:采用双向解码器表征模型将所述目标文本中的每个字符进行编码映射,得到所述每个字符在语义空间中的向量;将所得到的所有字符在语义空间中的向量输入双向长短期记忆模型,得到所述每个字符的第一调整向量;将得到的所有字符的第一调整向量输入条件随机场模型,得到所述目标文本中的实体。
在一个示例性实施例中,所述采用预定符号在所述目标文本中对所识别出的实体进行标记,包括:在所述目标文本中的所识别出的实体的前部和后部分别标记所述第一预定字符。
在一个示例性实施例中,所述根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量包括:将所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量;将所述标记后的目标文本中的实体字符的初始嵌入向量和实体字符前部标记的第一预定符号对应的嵌入向量进行拼接得到所述实体字符对应的嵌入向量;将标记后的目标文本中的每个非实体字符的初始嵌入向量和所述标记后的目标文本中的起始字符的嵌入向量进行拼接得到每个非实体字符的向量;去除所述标记后的目标文本中的第一预定符号对应的初始嵌入向量,得到所述目标文本中的每个字符的嵌入向量。
在一个示例性实施例中,所述对所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量,包括:将所述标记后的目标文本中的每个字符分别进行字符嵌入、段落嵌入、以及位置嵌入,得到每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值;根据所得到的每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值,得到每个字符的初始嵌入向量;其中,在对所述标记后的目标文本中的每个字符分别进行字符嵌入时,采用第二预定符号对所述标记后的目标文本中的每个字符进行标注;在对所述标记后的目标文本中的每个字符分别进行段落嵌入时,采用第三预定符号对所述标记后的目标文本中的每个字符进行标注;其中,在对所述标记后的目标文本中的实体字符进行段落嵌入时,采用第三预定符号中第一类预定符号进行标记;在对所述标记后的目标文本中的每个字符中的非实体字符进行段落嵌入时,采用第三预定符号中第二类预定符号进行标记;当存在多个实体时,对每个实体对应的第一类预定符号增加序号标识;在对所述标记后的目标文本中的每个字符分别进行位置嵌入时,采用第四预定符号对所述标记后的目标文本中的每个字符进行标注。
在一个示例性实施例中,所述根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体之后,还包括如下步骤:步骤一、将所识别出的事件主体放入主体集,统计所识别出的事件主体在目标文本中出现的频率和频数;步骤二、查找主体集中频数最高的事件主体,判断该事件主体的频率是否大于预定频率,且频数大于预定频数;若是则将该事件主体标记为预测结果;进入步骤三;步骤三、从主体集中去除标记为预测结果的事件主体后,进入步骤二。
在一个示例性实施例中,所述目标文本为待分析文本中的文本单元;所述采用预定的实体识别模型识别目标文本中的实体之前,包括:对所述待分析文本进行预处理,所述预处理的方式包括其中至少之一:替换所述待分析文本中的第一指定字符;过滤所述待分析文本中的第二指定字符;将所述待分析文本分隔为多个文本单元;过滤所分隔的多个文本单元中少于预定字符的文本单元,将剩余文本单元作为所述目标文本。
在一个示例性实施例中,所述命名实体识别的预测模型包括双向长短期记忆层和条件随机场层;所述将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签,包括:将所得到所述目标文本中的每个字符的嵌入向量输入双向长短期记忆层,得到所述目标文本中的每个字符的第二调整向量;将所得到所述目标文本中的每个字符的第二调整向量输入条件随机场层,得到所述目标文本中的每个字符对应的输出标签。
本申请提供一种事件主体识别装置,包括:实体识别模块,用于采用预定的实体识别模型识别目标文本中的实体;标记模块,用于采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;嵌入向量获取模块,用于根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;标签确定模块,用于将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;事件主体识别模块,用于根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
本申请提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的方法。
与相关技术相比,本申请实施例能够预先识别目标文本中的实体再进行事件主体的识别,能够更精确的识别事件主体;同时在做事件主体抽取时,充分考虑文本中的人物实体和组织机构实体,有效降低了诸如边界错误,位置错误等命名实体识别多种错误,有效提升模型效果。
本申请实施例能够把事件主体识别任务分解为两个命名实体识别任务,相比其他解决思路如转化为命名实体识别任务和多个分类任务,实现更少的网络参数,更快的运行速度,更简单的整体架构。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例事件主体识别方法流程图;
图2为本申请实施例BERT-BiLSTM-CRF模型结构;
图3为本申请实施例BERT实体与字符嵌入层模型结构;
图4为本申请实施例事件主体识别模型的网络结构;
图5为本申请实施例事件主体标签识别示意图;
图6为本申请实施例事件主体识别结构模块示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
如图1所示,本申请实施例事件主体识别方法,包括如下步骤:
S1、采用预定的实体识别模型识别目标文本中的实体;
S2、采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;
S3、根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;
S4、将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;
S5、根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
在一个示例性实施例中,第一预定符号可以为任意的符号,例如可以为“#”、“$”、“@”等区别文本字符的符号。
在一个示例性实施例中,首先对目标文本进行分词后,采用预定的实体识别模型识别目标文本中的实体。
在一个示例性实施例中,所述目标文本为待分析文本中的文本单元;步骤S1中所述采用预定的实体识别模型识别目标文本中的实体之前,包括:对所述待分析文本进行预处理,所述预处理的方式包括其中至少之一:替换所述待分析文本中的第一指定字符;过滤所述待分析文本中的第二指定字符;将所述待分析文本分隔为多个文本单元;过滤所分隔的多个文本单元中少于预定字符的文本单元,将剩余文本单元作为所述目标文本。通过对目标文本进行预处理从而能够提供识别的精度。在一个示例性实施例中,文本单元为句子。
在一个示例性实施例中,第一指定字符包括模型难以识别的标点符号或者字符的字体类型等等。
在一个示例性实施例中,第二指定字符包括文本中的多余符号等等。
示例性的,以目标文本为新闻文本为例,对新闻文本进行预先处理如下:将新闻文本按句切分,具体切分方法为:替换新闻文本中的特殊字符,具体地,可以把“。。。”替换为“…”;过滤文本中的换行符、制表符等空白字符。将新闻文本中以句号(“。”)为分隔符把新闻文本分割为若干句。将新闻文本中以10个字符为阈值,过滤掉长度过短的句子。
在一个示例性实施例中,上述预定的实体识别模型可以为BERT_BiLSTM_CRF模型(即:双向解码器表征模型+双向长短期记忆模型+条件随机场模型);或者可以为BERT模型(即:双向解码器表征模型)等等模型。
在一个示例性实施例中,步骤S2中所述预定的实体识别模型包括BERT_BiLSTM_CRF模型,所述采用预定的实体识别模型识别目标文本中的实体,包括如下步骤:
S21、采用BERT模型将所述目标文本中的每个字符进行编码映射,得到所述每个字符在语义空间中的向量;
S22、将所得到的所有字符在语义空间中的向量输入双向长短期记忆模型,得到所述每个字符的第一调整向量;
S23、将得到的所有字符的第一调整向量输入条件随机场模型,得到所述目标文本中的实体。
示例性的,如图1所示,首先使用BERT模型实现将目标文本中每个字符的字嵌入(即把每个字符映射称为语义空间中的向量)。然后把字嵌入得到的字向量输入一个双向长短期记忆层中,该模型层可以对文本上下文建模,从而对字向量进行调整使其能够更好的关注文本上下文特征。最后调整后的字向量进入一个条件随机场层,该模型层能够基于序列历史输出对当前输出做概率修正,避免模型输出不符合实际的结果。
在一个示例性实施例中,步骤S2中所述采用第一预定符号在所述目标文本中对所识别出的实体进行标记,包括:在所述目标文本中的所识别出的实体的前部和后部分别标记所述第一预定字符。
示例性的,如图4所示分别在识别出的实体1的前后分别标记第一预定符号“#1”,在识别出的第二实体2前后分别标记“#2”。
在一个示例性实施例中,步骤S3中所述根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量将所得到的标记后的目标文本中的每个字符输入字符嵌入层,得到所述目标文本的每个字符的嵌入向量,包括:
S31、将所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量;
S32、将所述标记后的目标文本中的实体字符的初始嵌入向量和实体字符前部标记的第一预定符号对应的嵌入向量进行拼接得到所述实体字符对应的嵌入向量;
S33、将标记后的目标文本中的每个非实体字符的初始嵌入向量和所述标记后的目标文本中的起始字符的嵌入向量进行拼接得到每个非实体字符的向量;
S34、去除所述标记后的目标文本中的第一预定符号对应的初始嵌入向量,得到所述目标文本中的每个字符的嵌入向量。
示例性的,一个实体可能有N个字符,对应N个向量。本申请实施例使用实体的首字符向量用作整个实体的向量表示。另外其他表示方法还有:实体字符向量按位求均值/最大值/最小值,或者直接使用嵌入矩阵(由各字符向量组成)进入后续运算。
在一个示例性实施例中,步骤S31中所述对所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量,包括如下步骤:
S31、将所述标记后的目标文本中的每个字符分别进行字符嵌入、段落嵌入、以及位置嵌入,得到每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值;
S312、根据所得到的每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值,得到每个字符的初始嵌入向量;
其中,在对所述标记后的目标文本中的每个字符分别进行字符嵌入时,采用第二预定符号对所述标记后的目标文本中的每个字符进行标注;
在对所述标记后的目标文本中的每个字符分别进行段落嵌入时,采用第三预定符号对所述标记后的目标文本中的每个字符进行标注;其中,在对所述标记后的目标文本中的实体字符进行段落嵌入时,采用第三预定符号中第一类预定符号进行标记;在对所述标记后的目标文本中的每个字符中的非实体字符进行段落嵌入时,采用第三预定符号中第二类预定符号进行标记;当存在多个实体时,对每个实体对应的第一类预定符号增加序号标识。
在对所述标记后的目标文本中的每个字符分别进行位置嵌入时,采用第四预定符号对所述标记后的目标文本中的每个字符进行标注。
本实施例中上述第二、第三、第四预定符号采用不同的符号,以区别不同的嵌入类型。第一类预定符号和第二类预定符号由多个符号组成,主要符号相同,附加符号不同。例如图4所示,采用T表示第二预定符号,采用S表示第三预定符号,采用P表示第四预定符号,采用S1、S2…Sn表示第一类预定符号,S0表示第二类预定符号。
具体的,如图4所示,图中空心加号表示向量相加。目标文本中的每个字符的嵌入由三部分组成,一是字符嵌入(图中T开头部分),二是段落嵌入(图中S开头部分)以及位置嵌入(图中P开头部分),三种嵌入共同组成BERT的字符嵌入模型。
如图3所示,在实体字符前后加入特殊字符用于标记实体(图中T_#1,T_#2),从而获得“T_#1”符号对应嵌入向量,用于作为实体整体的嵌入表示。在对目标文本进行段落嵌入时,针对实体对应字符给予不同的段落嵌入,图中实体1和实体2对应的段落嵌入分别为S_1和S_2,其他字符则为S_O。这样做使得模型整体在做字符嵌入时能够区分文本中的实体部分与非实体部分。得到在实体字符前后加入特殊字符后的目标文本中的各字符对应嵌入向量后继续后续操作,原始目标文本经过在实体前后增加特殊字符用于标记实体(图中T_#1,T_#2)后得到的嵌入向量数为N+2*m,其中N为文本字符数,m为文本中的实体数。
如图4所示,图中黑色实心加号表示向量拼接。BERT实体与字符嵌入输出的N+2*m个字符向量剔除掉用于标注实体的特殊字符对应的向量后获得与原始输入的目标文本等长的文本嵌入向量。各字符对应向量再拼接一个向量后进入后续网络结构,其中实体字符对应向量拼接实体前部标记字符(如T_#1)对应嵌入向量,非实体部分拼接文本起始字符’[CLS]’对应嵌入向量。拼接后的文本嵌入进入后续双向长短期记忆网络及条件随机场网络,最终得到各字符输出标签。根据标签结果得到文本事件主体抽取结果。
在一个示例性实施例中,如图4所示,步骤S4中所述命名实体识别的预测模型包括双向长短期记忆层和条件随机场层。
在一个示例性实施例中,步骤S4中所述将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签,包括:
步骤S41、将所得到所述目标文本中的每个字符的嵌入向量输入双向长短期记忆层,得到所述目标文本中的每个字符的第二调整向量;
步骤S42、将所得到所述目标文本中的每个字符的第二调整向量输入条件随机场层,得到所述目标文本中的每个字符对应的输出标签。
在一个示例性实施例中,步骤S5根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体;示例性的,如图5所示,分别采用B、I、O对字符进行标注,其中B表示实体开始位置,I表示实体内容位置,O表示实体外部位置,根据得到的字符B、I、O标签识别是否为事件主体。
在一个示例性实施例中,步骤S5根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体之后,还包括如下步骤:
步骤一、将所识别出的事件主体放入主体集,统计所识别出的事件主体在目标文本中出现的频率和频数;
步骤二、查找主体集中频数最高的事件主体,判断该事件主体的频率是否大于预定频率,且频数大于预定频数;若是则将该事件主体标记为预测结果;进入步骤三;
步骤三、从主体集中去除标记为预测结果的事件主体后,进入步骤二。
其中,所述频数是指事件主体在所述目标文本中出现的次数;所述频率是指每个事件主体在所述目标文本中出现的次数占所述所有事件主体在所述目标文本中出现次数的比例。
示例性,以新闻文本为例,新闻文本经过若干句子,当存在多个事件主体时,新闻文本事件主体识别,具体方法为:
步骤一、统计全文各句各事件主体频数得到预测结果集P;
步骤二、判断频率最高的事件主体其频率是否大于0.5且频数大于最低频数阈值,若是则标记为预测结果并进入步骤3,否则进入步骤4;
步骤三、取剩下事件主体预测结果得到子集p,进入步骤2;
步骤四、返回所有标记为预测结果的事件主体,即为新闻文章对应全部事件主体。
如图6所示,本申请实施例事件主体识别装置,包括如下模块:
实体识别模块10,用于采用预定的实体识别模型识别目标文本中的实体;
标记模块20,用于采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;
标签确定模块30,用于根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;
嵌入向量获取模块40,用于将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;
事件主体识别模块50,用于根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
本申请实施例还一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种事件主体识别方法,其特征在于,包括:
采用预定的实体识别模型识别目标文本中的实体;
采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;
根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;
将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;
根据所得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
2.根据权利要求1所述的事件主体识别方法,其特征在于,所述预定的实体识别模型包括双向解码器表征模型、双向长短期记忆模型、及条件随机场模型,所述采用预定的实体识别模型识别目标文本中的实体,包括:
采用双向解码器表征模型将所述目标文本中的每个字符进行编码映射,得到所述每个字符在语义空间中的向量;
将所得到的所有字符在语义空间中的向量输入双向长短期记忆模型,得到所述每个字符的第一调整向量;
将得到的所有字符的第一调整向量输入条件随机场模型,得到所述目标文本中的实体。
3.根据权利要求1所述的事件主体识别方法,其特征在于,所述采用第一预定符号在所述目标文本中对所识别出的实体进行标记,包括:
在所述目标文本中的所识别出的实体的前部和后部分别标记所述第一预定字符。
4.根据权利要求3所述的事件主体识别方法,其特征在于,所述根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量包括:
将所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量;
将所述标记后的目标文本中的实体字符的初始嵌入向量和实体字符前部标记的第一预定符号对应的嵌入向量进行拼接得到所述实体字符对应的嵌入向量;
将标记后的目标文本中的每个非实体字符的初始嵌入向量和所述标记后的目标文本中的起始字符的嵌入向量进行拼接得到每个非实体字符的向量;
去除所述标记后的目标文本中的第一预定符号对应的初始嵌入向量,得到所述目标文本中的每个字符的嵌入向量。
5.根据权利要求4所述的事件主体识别方法,其特征在于,所述对所述标记后的目标文本中的每个字符分别输入实体与字符嵌入层,得到每个字符的初始嵌入向量,包括:将所述标记后的目标文本中的每个字符分别进行字符嵌入、段落嵌入、以及位置嵌入,得到每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值;根据所得到的每个字符的字符嵌入值、段落嵌入值、以及位置嵌入值,得到每个字符的初始嵌入向量;
其中,在对所述标记后的目标文本中的每个字符分别进行字符嵌入时,采用第二预定符号对所述标记后的目标文本中的每个字符进行标注;
在对所述标记后的目标文本中的每个字符分别进行段落嵌入时,采用第三预定符号对所述标记后的目标文本中的每个字符进行标注;其中,在对所述标记后的目标文本中的实体字符进行段落嵌入时,采用第三预定符号中第一类预定符号进行标记;在对所述标记后的目标文本中的每个字符中的非实体字符进行段落嵌入时,采用第三预定符号中第二类预定符号进行标记;当存在多个实体时,对每个实体对应的第一类预定符号增加序号标识;
在对所述标记后的目标文本中的每个字符分别进行位置嵌入时,采用第四预定符号对所述标记后的目标文本中的每个字符进行标注。
6.根据权利要求1所述的事件主体识别方法,其特征在于,所述根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体之后,还包括如下步骤:
步骤一、将所识别出的事件主体放入主体集,统计所识别出的事件主体在目标文本中出现的频率和频数;
步骤二、查找主体集中频数最高的事件主体,判断该事件主体的频率是否大于预定频率,且频数大于预定频数;若是则将该事件主体标记为预测结果;进入步骤三;
步骤三、从主体集中去除标记为预测结果的事件主体后,进入步骤二。
7.根据权利要求1所述的事件主体识别方法,其特征在于,所述目标文本为待分析文本中的文本单元;所述采用预定的实体识别模型识别目标文本中的实体之前,包括:对所述待分析文本进行预处理,所述预处理的方式包括其中至少之一:
替换所述待分析文本中的第一指定字符;
过滤所述待分析文本中的第二指定字符;
将所述待分析文本分隔为多个文本单元;
过滤所分隔的多个文本单元中少于预定字符的文本单元,将剩余文本单元作为所述目标文本。
8.根据权利要求1所述的事件主体识别方法,其特征在于,所述命名实体识别的预测模型包括双向长短期记忆层和条件随机场层;所述将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签,包括:
将所得到所述目标文本中的每个字符的嵌入向量输入双向长短期记忆层,得到所述目标文本中的每个字符的第二调整向量;
将所得到所述目标文本中的每个字符的第二调整向量输入条件随机场层,得到所述目标文本中的每个字符对应的输出标签。
9.一种事件主体识别装置,其特征在于,包括:
实体识别模块,用于采用预定的实体识别模型识别目标文本中的实体;
标记模块,用于采用第一预定符号在所述目标文本中对所识别出的实体进行标记,得到标记后的目标文本;
嵌入向量获取模块,用于根据标记后的目标文本得到所述目标文本中每个字符的嵌入向量;
标签确定模块,用于将所得到所述目标文本中每个字符的嵌入向量输入命名实体识别预测模型得到所述目标文本中的每个字符对应的输出标签;
事件主体识别模块,用于根据得到所述目标文本中的每个字符对应的输出标签识别所述目标文本中的事件主体。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071222.8A CN111291566B (zh) | 2020-01-21 | 2020-01-21 | 一种事件主体识别方法、装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071222.8A CN111291566B (zh) | 2020-01-21 | 2020-01-21 | 一种事件主体识别方法、装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291566A true CN111291566A (zh) | 2020-06-16 |
CN111291566B CN111291566B (zh) | 2023-04-28 |
Family
ID=71024384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071222.8A Active CN111291566B (zh) | 2020-01-21 | 2020-01-21 | 一种事件主体识别方法、装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291566B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112464670A (zh) * | 2021-02-03 | 2021-03-09 | 恒生电子股份有限公司 | 识别方法、识别模型的训练方法、装置、设备、存储介质 |
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112926304A (zh) * | 2021-04-06 | 2021-06-08 | 数库(上海)科技有限公司 | 判断新闻中主要关联公司的方法及相关设备 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN113408285A (zh) * | 2021-05-26 | 2021-09-17 | 杭州安恒信息技术股份有限公司 | 金融主体的识别方法、电子装置和存储介质 |
CN113850085A (zh) * | 2021-12-01 | 2021-12-28 | 北京明略昭辉科技有限公司 | 企业的等级评估方法、装置、电子设备及可读存储介质 |
WO2022048194A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN114580417A (zh) * | 2022-03-02 | 2022-06-03 | 联想(北京)有限公司 | 一种命名实体识别方法、装置、电子设备和可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
US20190205463A1 (en) * | 2018-01-02 | 2019-07-04 | Freshworks Inc. | Named entity recognition from short unstructured text |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
-
2020
- 2020-01-21 CN CN202010071222.8A patent/CN111291566B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
US20190205463A1 (en) * | 2018-01-02 | 2019-07-04 | Freshworks Inc. | Named entity recognition from short unstructured text |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022048194A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112860885B (zh) * | 2021-01-13 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112464670A (zh) * | 2021-02-03 | 2021-03-09 | 恒生电子股份有限公司 | 识别方法、识别模型的训练方法、装置、设备、存储介质 |
CN112926304A (zh) * | 2021-04-06 | 2021-06-08 | 数库(上海)科技有限公司 | 判断新闻中主要关联公司的方法及相关设备 |
CN112926304B (zh) * | 2021-04-06 | 2021-11-09 | 数库(上海)科技有限公司 | 判断新闻中主要关联公司的方法及相关设备 |
CN113408285A (zh) * | 2021-05-26 | 2021-09-17 | 杭州安恒信息技术股份有限公司 | 金融主体的识别方法、电子装置和存储介质 |
CN113408285B (zh) * | 2021-05-26 | 2024-03-22 | 杭州安恒信息技术股份有限公司 | 金融主体的识别方法、电子装置和存储介质 |
CN113850085A (zh) * | 2021-12-01 | 2021-12-28 | 北京明略昭辉科技有限公司 | 企业的等级评估方法、装置、电子设备及可读存储介质 |
CN114580417A (zh) * | 2022-03-02 | 2022-06-03 | 联想(北京)有限公司 | 一种命名实体识别方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111291566B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291566A (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN112131920B (zh) | 用于扫描图像中的表格信息的数据结构生成 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
CN110363194A (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN112395392A (zh) | 一种意图识别方法及装置、可读存储介质 | |
CN111160026A (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN112818687B (zh) | 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 | |
CN111488737A (zh) | 文本识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |