CN107562772B - 事件抽取方法、装置、系统和存储介质 - Google Patents

事件抽取方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN107562772B
CN107562772B CN201710530618.2A CN201710530618A CN107562772B CN 107562772 B CN107562772 B CN 107562772B CN 201710530618 A CN201710530618 A CN 201710530618A CN 107562772 B CN107562772 B CN 107562772B
Authority
CN
China
Prior art keywords
entity
event
candidate
pattern
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710530618.2A
Other languages
English (en)
Other versions
CN107562772A (zh
Inventor
吴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ke Data Technology Co Ltd
Original Assignee
Nanjing Ke Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Ke Data Technology Co Ltd filed Critical Nanjing Ke Data Technology Co Ltd
Priority to CN201710530618.2A priority Critical patent/CN107562772B/zh
Publication of CN107562772A publication Critical patent/CN107562772A/zh
Application granted granted Critical
Publication of CN107562772B publication Critical patent/CN107562772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种事件抽取方法、装置、系统和存储介质。该方法包括:利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。根据本发明实施例提供的事件抽取方法,可以提高事件内容抽取的效率和完整性。

Description

事件抽取方法、装置、系统和存储介质
技术领域
本发明涉及信息抽取领域,尤其涉及事件抽取方法、装置、系统和存储介质。
背景技术
作为信息抽取的重要组成部分,事件抽取具有广阔的应用前景和巨大的现实意义,并且在自动文摘、自动问答、情报研究和信息检索等领域有着广泛的应用。事件抽取的主要目的是把包含事件的非结构化文本以结构化的形式呈现出来。
事件抽取通常可以分为元事件(Meta Event)抽取和主题事件(Topic Event)抽取。其中,元事件表示一个动作的发生或者状态的变化,包括参与该动作的一系列成分例如时间、地点、主体和客体等。元事件是主题事件的基本组成单位。
事件抽取是信息处理领域的关键技术,目前事件抽取的主要方法包括基于模式匹配的元事件抽取。基于模式匹配方法对事件的识别和抽取是在一些模式的指导下完成的,抽取时需要通过模式匹配算法找出符合模式约束条件的信息即可。
但是,基于模式匹配方法需要大量的人工建立模式,模式的创建者需要较高的技能水平。随着互联网技术的发展,WEB文本不断丰富,面对大规模语料,人工建立模式的数量较大,使用模式匹配的方法显得费时费力,且人工建立的模式往往比较片面且不够准确,从而可能导致抽取的事件内容不够完整和准确。
发明内容
本发明实施例提供事件抽取方法、装置、系统和存储介质,可以提高事件内容抽取的效率和完整性。
根据本发明实施例的一方面,提供一种事件抽取方法,包括:利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。
根据本发明实施例的另一方面,提供一种事件抽取装置,包括:事件句定位及分类模块,用于利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;事件句匹配模块,用于使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;事件内容抽取模块,用于根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。
根据本发明实施例的再一方面,提供一种事件抽取系统,包括:存储器,用于储存可执行程序代码;处理器,用于读取存储器中存储的可执行程序代码以执行上述的事件抽取方法。
根据本发明实施例的又一方面,提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当该指令在计算机上运行时,使得计算机执行上述各方面所述的方法。
根据本发明实施例的事件抽取方法、装置、系统和存储介质,利用模式学习得到的触发词定位所述语料库的文档中的事件句并对定位到的事件分类;并利用学习得到的模式,对定位到的事件句进行模式匹配,根据每种事件类别对应的事件学习模板学习事件内容。根据本发明实施例的事件抽取方法,在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的内容,提高了事件识别的效率,有利于提高事件识别的完整性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出根据本发明一实施例的事件抽取方法的流程图;
图2示出图1中利用对语料库进行模式学习得到触发词之前的流程图;
图3是示出图2中通过远程监督的关系抽取方法得到语料库中的模式候选句的具体流程图;
图4是示出图2中根据触发词与实体对之间的位置关系从模式候选句中抽取候选模式的具体流程图;
图5是示出图2中根据位于实体位置之前位置词汇的词性进行候选模式合并以获取新的模式的具体流程图;
图6是示出根据本发明实施例的另一实施例的事件抽取方法的流程图;
图7是示出根据本发明一实施例的事件抽取装置的结构示意图;
图8是示出根据本发明另一实施例的事件抽取装置的结构示意图;
图9是图8中模式候选句获取模块的具体结构示意图;
图10是图8中候选模式抽取模块的具体结构示意图;
图11是图8中候选模式合并模块的具体结构示意图;
图12示出了根据本发明再一实施例的事件抽取装置的结构示意图;
图13是示出了能够实现根据本发明实施例的事件抽取方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例中,事件抽取(Event Extraction)的任务可以被定义为事件的检测与识别(Event detection and recognition,VDR),即识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件的元素等。
本发明实施例可以采用自动从语料库中学习新的模式,并在学习到新模式之后使用模式和模板学习结合的方式进行事件抽取,在进行模式学习和事件抽取的过程中,会涉及大量的实体词、触发词、已有和训练中扩增的模式、事件句集等相关数据,为了更好的保存和使用上述相关数据,可以通过对应的表或集合的形式对上述相关数据进行管理。
在一些实施例中,定义关系表R={r1,r2,…,rx},关系表中的每一项可以表示一个由人工定义的关系relationi,作为一个具体的示例,关系可以是合作、竞争或收购等。
在一些实施例中,定义触发词表Triggers,该触发词表Triggers={(t1,r1),(t2,r2),…,(tk,rk)},其中,ti是一个触发词,ri∈R,表示触发词所属的关系,i=1,2,…,k。初始化的触发词表Trigger,可以由人工添加触发词及其对应关系。
在一些实施例中,定义模式描述词表conjunctions,可以用于保存模式中使用的模式描述词。
在一些实施例中,可以定义模式库Patterns={p1,p2,…,pn},可以表示多个模式的集合,对于模式库中的一个模式,可以表示为Patternpi=(entity1,entity2,relationi,conjunctionsi),其中,模式pi包含实体entity1、实体entity2、关系relationi和模式描述词conjunctionsi,关系relation∈关系表R,模式描述词表conjunctions由固定的词或者短语组成。
需要说明的是,entity1和entity2作为两个实体,实体的具体内容可以不同,但在模式pi中,entity1的位置和entity2的位置的顺序固定。并且,在entity1的位置和entity2的位置的顺序固定的前提下,模式中的conjunctionsi也具有指定的位置。
作为一个示例,在一个模式中,conjunctionsi的位置可以在entity1的位置和entity2的位置中间;在另一个模式中,conjunctionsi可以位于entity1的位置之前,在再一个模式中,conjunctionsi可以位于entity2的位置之后。例如,在一个模式中,实体词entity1、实体词entity2、模式描述词conjunctions1以及该模式表示的关系relation可以有如下组合:entity1-conjunctions1-entity2-relation。
在一些实施例中,定义句子集Sents,可以用于保存将指定的语料库切分成句子的结果。
在一些实施例中,定义候选句集CandSent,可以用于保存利用模式库Patterns中已有的模式,即种子模式,从语料库中抽取候选句的结果。
在一些实施例中,定义实体对集Entitys,可以用于保存使用种子模式从语料库中抽取候选句中的结果中的实体对。
在一些实施例中,定义模式候选句集PatternsSent,可以用于保存利用实体对和预设的抽取方法,从指定的语料库中抽取得到的模式候选句。
在一些实施例中,定义候选模式集CandPatterns,可以用于保存从模式候选句中抽取出的候选模式,和该候选模式的抽取次数。
在一些实施例中,定义事件学习模板库Templates,学习模板与关系表中的关系一一对应。
在一些实施例中,定义事件句集EventSent,可以用于保存事件句、实体对及其对应的模式;
在一些实施例中,定义事件模板内容集TLearn,可以用于保存从事件句中学到的模板及学习次数
为了更好的理解本发明,下面将结合附图,详细描述根据本发明实施例的事件抽取方法、装置、系统和存储介质,应注意,这些实施例并不是用来限制本发明公开的范围。
图1是示出根据本发明实施例的事件抽取方法的流程图。如图1所示,本实施例中的事件抽取方法100包括以下步骤:
步骤S110,利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别。
作为一个示例,语料库CE={d1,d2,…,dn},表示该语料语料库共为n篇文档,每一篇文档包含标题、正文内容、文档生成时间、文档源置信度。
在一些实施例中,作为后续使用定位语料库的文档中的事件句的基础工作,事件抽取方法还包括:
使用实体识别工具识别语料库中所有文档中的实体。
取训练语料库CE中的文档,利用文档发布时间和上下文内容,将文档中的相对时间转变为绝对时间。
作为一个示例,如果文档中的相对时间缺失年份信息,则根据上下文信息和文档发布时间为该相对时间添加年份信息。
步骤S120,使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集。
在该步骤中,使用模式库Patterns中的模式在文本中搜索事件句,可以过滤掉大部分的非事件句。
步骤S130,根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。
在一些实施例中,学习模板可以是人工根据不同的关系手动创建的,一个模板内容可以包含事件主体、事件行为、事件客体、事件时间、事件地点、事件置信度、事件元素置信度等信息,并可以根据实际情况进行扩充。
根据本发明实施例中的事件抽取方法,利用已经预先学习到的模式进行事件定位和事件句匹配,再根据预设的事件学习模板学习匹配到的事件句中的事件内容,可以提高事件内容抽取的效率。
由于学习到的模式是可以自动从语料库中进行机器学习,并可以通过持续不断训练进行模式库的扩充,有利于提高模式抽取的准确性和完整性,从而提高事件抽取的准确度和完整度。
图2是图1中利用对语料库进行模式学习得到的触发词的步骤之前的流程图。也就是说,在一些实施例中,在上述步骤S110之前,事件抽取方法100还可以包括:
步骤S101,分别计算语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,触发词相似度的最大值大于触发词相似度阈值时,设置词汇与最大值对应的触发词具有相同的关系分类,并将词汇作为模式学习得到的触发词。
作为一个示例,指定的语料库CD={d1,d2,…,dm},表示该语料库为m篇文档。在一些实施例中,每一片文档包含文档标题、文档内容。
在该步骤中,语料库中的词汇可以通过使用分词工具和实体识别工具,获得指定语料库中的词汇和该语料库中所有文档的实体。
在本发明实施例中,对识别实体的方法不作具体限定。实体识别的方法可以根据实际情况进行选择,例如,本发明实施例中识别的方法可以包括:基于局域条件随机场(Conditional Random Field,CRF)的实体识别方法或基于多模板(Hidden Markov Model,HMM)等实体识别方法。识别出的实体内容可以包含但不限于人名、地名、时间、组织名。
在一些实施例中,计算语料库CD中的词汇与当前触发词表Triggers中所有触发词的相似度,得到该词汇与每个触发词的相似度值,取这些相似度值中的最大值,如果该相似度值中的最大值超于预设的触发词相似度阈值Tθ,则设置该词汇的关系分类与该相似度值中的最大值对应的触发词具有相同的关系分类。并将该词汇添加到触发词表TRiggers,作为学习得到的触发词。
在一些实施例中,相似度阈值Tθ可以是在多次实验中人工确定的值,使用不同的相似度计算方法阈值Tθ的范围可以不同。
在一些实施例中,相似度计算使用可以词向量word embeddings方法。
作为一个示例,取语料库中的一个词汇,计算该词汇和每个触发词的分布式表示的向量,然后分别计算该词汇的分布式表示向量和每个触发词的分布式表示向量之间的相似度,得到与该词汇具有最大相似度的触发词。使用同样的方法处理语料库中的其他词汇,从语料库中的词汇中学习新的触发词。
在该示例中,在计算词汇的分布式表示的向量时,向量的维度可以生成每个词为相同维度的向量,该维数可以根据实际需要进行自定义。作为一个更具体的示例,可以在拥有较大范围的语料库基础上训练100维、150维或200维以上维度的词向量,然后计算当前词汇与触发词的向量之间的相似度。
在该示例中,计算当前词汇与每个触发词之间的相似度的方法可以根据实际情况进行选择,例如余弦相似度算法和相对熵(Kullback-Leibler divergence)算法。也就是说,在本发明实施例中,不对两个词之间的相似度的方法进行具体的限定。
通过步骤S101,对语料库进行模式学习时,可以将学习得到的触发词添加到触发词表Trigger中。在进行事件抽取的步骤S110时,可以利用对语料库进行模式学习后的触发词表中的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别。
在一些实施例中,在初始的触发词表Trigger的基础上,可以通过人工的方式扩充该触发词表,即人工向触发词表Trigger中添加新的触发词和新的触发词的对应关系。
在另一些实施例中,如果触发词表通过人工的方式进行维护,在步骤S110中,可以通过触发词表中已有的触发词,定位语料库中的文档中的事件句,并根据触发词表中包含的触发词的关系分类确定事件句的事件类别。
步骤S102,使用预设的种子模式抽取语料库中的候选句,并获取候选句中的实体对。
在该步骤中,可以将获取的候选句中的实体对,存入实体对集Entitys。
步骤S103,利用候选句中的实体对,通过远程监督的关系抽取方法得到语料库中的模式候选句。
在一些实施例中,如图3所示,步骤S103具体还可以包括:
步骤S1031,对预设的语料库中的文档进行实体识别,得到文档中的实体。
步骤S1032,根据实体对中的实体搜索语料库的文档中的句子。
步骤S1033,句子中包含实体对,并且句子中实体以外的词汇包含触发词表中的触发词时,根据句子、句子中包含的实体对和句子中包含的触发词,得到语料库中的模式候选句。
在该实施例中,首先可以通过切分语料库,得到该语料库中的句子,如果语料库中的句子中同时满足下述条件1、条件2和条件3时,抽取该句子为模式候选句。
条件1,该句子包含触发词表中的触发词,且该句子中包含的触发词所属的关系与模式包含的关系相同。
条件2,该句子中包含模式描述词表conjunctions中的词或者短语,且该句子中包含的模式描述词在句子中的位置与模式包含的模式描述词的位置相对应。
条件3,该句子中或该句子的子句中包含实体entity1和实体entity2,且该模式也包含实体entity1和实体entity2时,抽取该句子为模式候选句。
在一些实施例中,如果句子中包含多个触发词,可以将根据句子、句子中包含的实体对和句子中包含的触发词分多次进行保存,从而得到多个模式候选句,该多个模式候选句的个数可以和该句子中包含的触发词的个数相同,每个模式候选句中至少包含该多个触发词中的一个。
作为一个示例,entity1为“华为”,entity2为“九阳”,在整个语料库中寻找同时出现“华为”和“九阳”两个词的句子,并且该句子中除实体“华为”和“九阳”之外的词存在于触发词表中,如“合作”在触发词表中,那么句子“华为与九阳达成合作意向”就会被添加到候选句集中。
在该实施例中,对使用种子模式抽取语料库得到的实体对,使用远程监督的关系抽取方法(Distance Supervision)在整个语料库中抽取模式候选句。在一些实施例中,可以将得到的模式候选句存入模式候选句集PatternsSent。
步骤S104,根据模式候选句中包含的触发词与模式候选句中包含的实体对之间的位置关系,从模式候选句中抽取候选模式。
在一些实施例中,如图4所示,步骤S104具体还可以包括:
步骤S1041,获取模式候选句中包含的触发词在模式候选句中的位置作为触发词位置,将模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取模式候选句中第一实体的位置作为第一实体位置,获取模式候选句中第二实体的位置作为第二实体位置,第二实体位置位于第一实体位置之后。
步骤S1042,触发词位置位于第一实体位置之前,获取位于触发词位置到第二实体位置的内容作为抽取的候选模式,并将位于触发词位置与第一实体位置之间的词汇以及位于第一实体位置与第二实体位置之间的词汇作为模式描述词。
在该步骤中,位于触发词位置与第一实体位置之间的模式描述词,以及位于第一实体位置与第二实体位置之间的模式描述词,构成模式描述信息。
步骤S1043,触发词位置位于第一实体位置和第二实体位置之间,获取位于第一实体位置到第二实体位置的内容作为抽取的候选模式,并将位于第一实体位置与触发词位置之间的词汇以及位于触发词位置与第二实体位置之间的词汇作为模式描述词。
在该步骤中,位于第一实体位置与触发词位置之间的模式描述词,以及位于触发词位置与第二实体位置之间的模式描述词,构成模式描述信息。
步骤S1044,触发词位置位于第二实体位置之后,获取位于第一实体位置到触发词位置的内容作为抽取的候选模式,并将位于第一实体位置与第二实体位置之间的词汇以及位于第二实体位置与触发词位置之间的词汇作为模式描述词。
在该步骤中,位于第一实体位置与第二实体位置之间的模式描述词,以及位于第二实体位置与触发词位置之间的模式描述词,构成模式描述信息。
作为一个示例,模式候选句例如是“W1 W2 W3 W4 W5 W6 W7”,该模式候选集包括7个字句,模式库Patterns中的一个模式为“entity1 conjunction1 entity2 relation”,通过分析,“W1 W2”子句中包括实体W1,“W4 W5 W6”子句包含实体W6,并且,W7为触发词表Triggers中的触发词,conjunction1对应于W3。通过上述分析可以发现,该模式候选句可以与模式包含的内容和该内容在模式中对应的位置相匹配,则认为该模式候选句是符合该模式的。
作为一个更具体的示例,模式候选句例如是“华为与九阳携手共建智能厨房”,当前的模式是“entity1 conjunction1 entity2 relation”。经分析,entity1是“华为”,entity2是“九阳”,conjunction1对应于“与”,ralation是包含在触发词表中的“携手”对应的合作关系。该句子符合当前模式“entity1 conjunction1 entity2 relation”。
步骤S105,通过抽取的候选模式和候选模式的抽取次数,根据预设的评分方法对候选模式打分,并获取分数大于模式评分阈值的候选模式。
具体地,可以通过下述公式(1)计算候选模式的分数:
Figure BDA0001339260220000111
在上述公式(1)中,score(p)表示计算得到的候选模式的分数,count(p)表示模式p匹配到的次数,count(i,p)表示第i个实体对被模式p匹配到的次数。
在该步骤中,通过对候选模式的评分,可以筛选出分数大于模式评分阈值的候选模式,过滤掉得分低于阈值的候选模式。
步骤S106,根据分数大于模式评分阈值的候选模式中的,且位于实体对中每个实体的位置之前位置的词汇的词性,合并分数大于模式评分阈值的候选模式,并将合并后的候选模式作为模式学习得到的模式。
在一些实施例中,如图5所示,步骤S106具体可以包括以下步骤:
步骤S1061,获取抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,第二实体的位置位于第一实体的位置之后。
步骤S1062,将位于第一实体的前一个位置起向前位置的连续的名词作为第一名词,将第一名词与第一实体合并,并将与第一实体合并后的候选模式作为新抽取的候选模式。
步骤S1063,将位于第二实体的前一个位置起向前位置的,且除第一实体以外的连续的名词作为第二名词,将第二名词与第二实体合并,并将与第二实体合并后的候选模式作为新抽取的候选模式。
步骤S1064,将新抽取的候选模式作为模式学习得到的模式。
在该实施例中,可以根据词性对候选模式进行合并得到新抽取的候选模式,通过聚合不同的模式减少模式的数量,有利于精简学习得到的模式,提高学习到的模式的质量。
在一些实施例中,将合并后的模式添加到模式库Patterns中,并通过下述公式(2)重新为候选模式进行评分。
score(p′)=Max(score(p)) (2)
在上述公式(2)中,p′可以表示合并后的模式,合并后的模式的分数为参与合并的模式的最高分。
通过上述步骤S102-S106,对语料库进行模式学习时,可以将学习得到的模式添加到模式库Patterns中,在进行事件抽取的步骤S120时,可以使用进行模式学习后的模式库中的模式,模式匹配事件句,得到与模式相匹配的事件句集。
应注意,步骤S120中所述的模式学习得到的模式,可以是进行模式学习后的模式库中的模式。
继续参考图2,在一些实施例中,事件抽取方法100还可以包括:
步骤S107,抽取学习得到的模式中的事实,并添加抽取的事实到预设的事实库。
在一些实施例中,利用上述公式(1)对得到的事实进行评分,对事实的评分等于抽取得到该事实的模式的得分,由多个模式抽取出该事实时,该事实的得分可以取该每个模式得分中的最高分,即利用下述公式(3)计算得到事实得分:
score(f)=Max(score(p′)) (3)
在公式(3)中,p′可以表示合并后的模式,score(p′)表示合并后的模式的得分,合并后的模式中抽取得到的事实的得分可以取该每个模式得分中的最高分。
图6是根据本发明实施例的另一实施例的事件抽取方法的流程图。图6与图1相同或等同的步骤使用相同的标号。如图6所示,事件抽取方法200基本相同于事件抽取方法100,不同之处在于,事件抽取方法200中,还可以包括:
步骤S140,抽取的事件内容中包含相同事件,将包含相同事件的事件内容进行聚合。
在一些实施例中,相同的学习模板可以从同一篇文档中学习到不同的内容,可以通过聚合减少事件数量。
在该步骤中,使用不同的模板进行学习和聚合相同事件内容,提高了事件内容抽取的准确性和抽取的文本事件的完整度。
步骤S150,获取事件内容对应的语料库的预设文档源置信度,以及事件内容中包含的相同事件被抽取的次数。
步骤S160,根据预设文档源置信度和相同事件被抽取的次数,计算聚合后的事件内容的置信度。
在该实施例中,不同的模板在同一篇文档中可以学习到不同的事件,事件置信度可以反映事件在文本中的重要程度。
根据本发明实施例所述的事件抽取方法,在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的事件内容,新学习的模式有助于提高对事件的定位和识别的效率和准确度,使用不同的模板进行学习和聚合相同事件内容,可以提高对事件内容抽取的准确性和文本事件的完整度。
下面结合附图,详细介绍根据本发明实施例的事件抽取装置。
图7示出了根据本发明一实施例提供的事件抽取装置的结构示意图。如图7所示,事件抽取装置700包括:
事件句定位及分类模块710,用于利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别。
事件句匹配模块720,用于使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集。
事件内容抽取模块730,用于根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。
根据本发明实施例的事件抽取装置,利用已经预先学习到的模式进行事件定位和事件句匹配,再根据预设的事件学习模板学习匹配到的事件句中的事件内容,可以提高事件内容抽取的效率。
图8示出了根据本发明另一实施例的事件抽取装置的结构示意图。如图8所示,事件抽取装置700还可以包括:
触发词学习模块701,用于分别计算语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,触发词相似度的最大值大于触发词相似度阈值时,设置词汇与最大值对应的触发词具有相同的关系分类,并将词汇作为模式学习得到的触发词;
实体对获取模块702,用于使用预设的种子模式抽取语料库中的候选句,并获取候选句中的实体对。
模式候选句获取模块703,用于利用候选句中的实体对,通过远程监督的关系抽取方法得到语料库中的模式候选句。
在一些实施例中,如图9所示,模式候选句获取模块还包括:
实体识别单元7031,用于对预设的语料库中的文档进行实体识别,得到文档中的实体;
句子获取单元7032,用于根据实体对中的实体搜索语料库的文档中的句子;
模式候选句获取模块7033还用于句子中包含实体对,并且句子中实体以外的词汇包含触发词表中的触发词时,根据句子、句子中包含的实体对和句子中包含的触发词,得到语料库中的模式候选句。
在该实施例中,对使用种子模式抽取语料库得到的实体对,使用远程监督的关系抽取方法(Distance Supervision)在整个语料库中抽取模式候选句。
候选模式抽取模块704,用于根据模式候选句中包含的触发词与模式候选句中包含的实体对之间的位置关系,从模式候选句中抽取候选模式。
在一些实施例中,如图10所示,候选模式抽取模块704具体可以包括:
位置获取单元7041,用于获取模式候选句中包含的触发词在模式候选句中的位置作为触发词位置,将模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取模式候选句中第一实体的位置作为第一实体位置,获取模式候选句中第二实体的位置作为第二实体位置,第二实体位置位于第一实体位置之后。
第一候选模式抽取单元7042,用于触发词位置位于第一实体位置之前,获取位于触发词位置到第二实体位置的内容作为抽取的候选模式,并将位于触发词位置与第一实体位置之间的词汇以及位于第一实体位置与第二实体位置之间的词汇作为模式描述词。
第二候选模式抽取单元7043,用于触发词位置位于第一实体位置和第二实体位置之间,获取位于第一实体位置到第二实体位置的内容作为抽取的候选模式,并将位于第一实体位置与触发词位置之间的词汇以及位于触发词位置与第二实体位置之间的词汇作为模式描述词。
第三候选模式抽取单元7044,用于触发词位置位于第二实体位置之后,获取位于第一实体位置到触发词位置的内容作为抽取的候选模式,并将位于第一实体位置与第二实体位置之间的词汇以及位于第二实体位置与触发词位置之间的词汇作为模式描述词。
在该实施例中,通过模式候选句中触发词位置与实体对中实体的相对位置关系,从模式候选句中抽取候选模式。
候选模式评分模块705,用于通过抽取的候选模式和候选模式的抽取次数,根据预设的评分方法对候选模式打分,并获取分数大于模式评分阈值的候选模式。
候选模式合并模块706,用于根据分数大于模式评分阈值的候选模式中的,且位于实体对中每个实体的位置之前位置的词汇的词性,合并分数大于模式评分阈值的候选模式,并将合并后的候选模式作为模式学习得到的模式。
在一些实施例中,如图11所示,候选模式合并模块706具体还可以包括:
实体词获取单元7061,用于获取抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,第二实体的位置位于第一实体的位置之后。
实体词名词第一合并单元7062,用于将位于第一实体的前一个位置起向前位置的连续的名词作为第一名词,将第一名词与第一实体合并,并将与第一实体合并后的候选模式作为新抽取的候选模式。
实体词名词第二合并单元7063,用于将位于第二实体的前一个位置起向前位置的,且除第一实体以外的连续的名词作为第二名词,将第二名词与第二实体合并,并将与第二实体合并后的候选模式作为新抽取的候选模式。
候选模式合并模块706还用于将新抽取的候选模式作为模式学习得到的模式。
上述实施例中从语料库中学习新的模式的步骤可以是一个循环迭代的过程,即重复多次从语料库中学习新的模式,迭代次数Iter可以是预设的参数。
继续参考图8,在一些实施例中,事件抽取装置700还可以包括:
事实抽取模块707,用于抽取学习得到的模式中的事实,并添加抽取的事实到预设的事实库。
图12示出了根据本发明再一实施例的事件抽取装置的结构示意图。图12与图7相同或等同的结构使用相同的标号。如图12所示,事件抽取装置1200基本相同于事件抽取装置700,不同之处在于,事件抽取装置1200还包括:
事件聚合模块740,用于抽取的事件内容中包含相同事件,将包含相同事件的事件内容进行聚合;
事件置信度参数获取模块750,用于获取事件内容对应的语料库的预设文档源置信度,以及事件内容中包含的相同事件被抽取的次数;
事件置信度计算模块760,用于根据预设文档源置信度和相同事件被抽取的次数,计算聚合后的事件内容的置信度。
在该实施例中,事件置信度可以反映事件在文本中的重要程度,对聚合后的时间内容的置信度进行评价。
根据本发明实施例的事件抽取装置的其他细节与以上结合图1至图6描述的根据本发明实施例的事件抽取方法类似,在此不再赘述。
结合图1至图12描述的根据本发明实施例的事件抽取方法和装置可以由计算设备实现。图13是示出能够实现根据本发明实施例的事件抽取方法和装置的计算设备的示例性硬件架构的结构图。如图13所示,计算设备1300包括输入设备1301、输入接口1302、中央处理器1303、存储器1304、输出接口1305、以及输出设备1306。其中,输入接口1302、中央处理器1303、存储器1304、以及输出接口1305通过总线1310相互连接,输入设备1301和输出设备1306分别通过输入接口1302和输出接口1305与总线1310连接,进而与计算设备1300的其他组件连接。具体地,输入设备1301接收来自外部的输入信息(例如,语料库和种子模式),并通过输入接口1302将输入信息传送到中央处理器1303;中央处理器1303基于存储器1304中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1304中,然后通过输出接口1305将输出信息传送到输出设备1306;输出设备1306将输出信息输出到计算设备1300的外部供用户使用。
也就是说,图13所示的计算设备也可以被实现为事件抽取系统,该事件抽取系统包括:处理器1303和存储器1304。该存储器1304用于储存有可执行程序代码;处理器1303用于读取存储器中存储的可执行程序代码以执行上述实施例的事件抽取方法,并可以执行事件抽取方法中的步骤S110-S160、步骤S101-S107、步骤S1031-S1033、步骤S1041-S1044以及步骤S1061-S1064。
通过本发明实施例的事件抽取系统,在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的内容,提高了事件识别的效率,有利于提高事件识别的完整性和准确性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (14)

1.一种事件抽取方法,其特征在于,所述事件抽取方法包括:
利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;
使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;
根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容;
其中,在所述利用对语料库进行模式学习得到的触发词之前,还包括:
分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,所述触发词相似度的最大值大于触发词相似度阈值时,设置所述词汇与所述最大值对应的触发词具有相同的关系分类,并将所述词汇作为所述模式学习得到的触发词;
使用预设的种子模式抽取所述语料库中的候选句,并获取所述候选句中的实体对;
利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句;
根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式;
通过抽取的候选模式和所述候选模式的抽取次数,根据预设的评分方法对所述候选模式打分,并获取分数大于模式评分阈值的候选模式;
根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述模式学习得到的模式。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句,包括:
对预设的语料库中的文档进行实体识别,得到所述文档中的实体;
根据所述实体对中的实体搜索所述语料库的文档中的句子;
所述句子中包含所述实体对,并且所述句子中实体以外的词汇包含所述触发词表中的触发词时,根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词,得到所述语料库中的模式候选句。
3.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式,包括:
获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置,将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取所述模式候选句中所述第一实体的位置作为第一实体位置,获取所述模式候选句中所述第二实体的位置作为第二实体位置,所述第二实体位置位于所述第一实体位置之后;
所述触发词位置位于所述第一实体位置之前,获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词;
所述触发词位置位于所述第一实体位置和所述第二实体位置之间,获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词;
所述触发词位置位于第二实体位置之后,获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。
4.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述学习得到的模式,包括:
获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,所述第二实体的位置位于所述第一实体的位置之后;
将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词,将所述第一名词与所述第一实体合并,并将与所述第一实体合并后的候选模式作为新抽取的候选模式;
将位于所述第二实体的前一个位置起向前位置的,且除所述第一实体以外的连续的名词作为第二名词,将所述第二名词与所述第二实体合并,并将与所述第二实体合并后的候选模式作为新抽取的候选模式;
将所述新抽取的候选模式作为所述模式学习得到的模式。
5.根据权利要求1所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:
抽取所述学习得到的模式中的事实,并添加抽取的事实到预设的事实库。
6.根据权利要求1所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:
抽取的所述事件内容中包含相同事件,将包含所述相同事件的所述事件内容进行聚合;
获取所述事件内容对应的所述语料库的预设文档源置信度,以及所述事件内容中包含的所述相同事件被抽取的次数;
根据所述预设文档源置信度和所述相同事件被抽取的次数,计算所述聚合后的事件内容的置信度。
7.一种事件抽取装置,其特征在于,所述事件抽取装置包括:
事件句定位及分类模块,用于利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;
事件句匹配模块,用于使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;
事件内容抽取模块,用于根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容;
其中,所述事件抽取装置还包括:
触发词学习模块,用于分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,所述触发词相似度的最大值大于触发词相似度阈值时,设置所述词汇与所述最大值对应的触发词具有相同的关系分类,并将所述词汇作为所述模式学习得到的触发词;
实体对获取模块,用于使用预设的种子模式抽取所述语料库中的候选句,并获取所述候选句中的实体对;
模式候选句获取模块,用于利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句;
候选模式抽取模块,用于根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式;
候选模式评分模块,用于通过抽取的候选模式和所述候选模式的抽取次数,根据预设的评分方法对所述候选模式打分,并获取分数大于模式评分阈值的候选模式;
候选模式合并模块,用于根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述模式学习得到的模式。
8.根据权利要求7所述的抽取装置,其特征在于,所述模式候选句获取模块还包括:
实体识别单元,用于对预设的语料库中的文档进行实体识别,得到所述文档中的实体;
句子获取单元,用于根据所述实体对中的实体搜索所述语料库的文档中的句子;
模式候选句获取模块,还用于所述句子中包含所述实体对,并且所述句子中实体以外的词汇包含所述触发词表中的触发词时,根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词,得到所述语料库中的模式候选句。
9.根据权利要求7所述的抽取装置,其特征在于,所述候选模式抽取模块还包括:
位置获取单元,用于获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置,将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取所述模式候选句中所述第一实体的位置作为第一实体位置,获取所述模式候选句中所述第二实体的位置作为第二实体位置,所述第二实体位置位于所述第一实体位置之后;
第一候选模式抽取单元,用于所述触发词位置位于所述第一实体位置之前,获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词;
第二候选模式抽取单元,用于所述触发词位置位于所述第一实体位置和所述第二实体位置之间,获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词;
第三候选模式抽取单元,用于所述触发词位置位于第二实体位置之后,获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。
10.根据权利要求7所述的抽取装置,其特征在于,所述候选模式合并模块还包括:
实体词获取单元,用于获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,所述第二实体的位置位于所述第一实体的位置之后;
实体词名词第一合并单元,用于将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词,将所述第一名词与所述第一实体合并,并将与所述第一实体合并后的候选模式作为新抽取的候选模式;
实体词名词第二合并单元,用于将位于所述第二实体的前一个位置起向前位置的,且除所述第一实体以外的连续的名词作为第二名词,将所述第二名词与所述第二实体合并,并将与所述第二实体合并后的候选模式作为新抽取的候选模式;
所述候选模式合并模块还用于将所述新抽取的候选模式作为所述模式学习得到的模式。
11.根据权利要求7所述的抽取装置,其特征在于,所述事件抽取装置还包括:
事实抽取模块,用于抽取所述学习得到的模式中的事实,并添加抽取的事实到预设的事实库。
12.根据权利要求7所述的抽取装置,其特征在于,所述事件抽取装置还包括:
事件聚合模块,用于抽取的所述事件内容中包含相同事件,将包含所述相同事件的所述事件内容进行聚合;
事件置信度参数获取模块,用于获取所述事件内容对应的所述语料库的预设文档源置信度,以及所述事件内容中包含的所述相同事件被抽取的次数;
事件置信度计算模块,用于根据所述预设文档源置信度和所述相同事件被抽取的次数,计算所述聚合后的事件内容的置信度。
13.一种事件抽取系统,其特征在于,所述事件抽取系统包括:
存储器,用于储存可执行程序代码;
处理器,用于读取所述存储器中存储的可执行程序代码以执行权利要求1至6任一项所述的事件抽取方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的事件抽取方法。
CN201710530618.2A 2017-07-03 2017-07-03 事件抽取方法、装置、系统和存储介质 Active CN107562772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710530618.2A CN107562772B (zh) 2017-07-03 2017-07-03 事件抽取方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710530618.2A CN107562772B (zh) 2017-07-03 2017-07-03 事件抽取方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN107562772A CN107562772A (zh) 2018-01-09
CN107562772B true CN107562772B (zh) 2020-03-24

Family

ID=60972650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710530618.2A Active CN107562772B (zh) 2017-07-03 2017-07-03 事件抽取方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN107562772B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271497B (zh) * 2018-08-31 2021-10-26 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN110297904B (zh) * 2019-06-17 2022-10-04 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN111222305B (zh) * 2019-12-17 2024-03-22 共道网络科技有限公司 一种信息结构化方法和装置
CN111241302B (zh) * 2020-01-15 2023-09-15 北京百度网讯科技有限公司 职位信息图谱生成方法、装置、设备和介质
CN111428505B (zh) * 2020-01-17 2021-05-04 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN113553424A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 数据处理方法、装置及设备及事件抽取模型的生成方法
CN112052665B (zh) * 2020-09-12 2023-06-20 广东工业大学 一种远程监督事件抽取方法及其应用
CN112650919B (zh) * 2020-11-30 2023-09-01 北京百度网讯科技有限公司 实体资讯分析方法、装置、设备及存储介质
WO2022134071A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN112818122A (zh) * 2021-02-02 2021-05-18 中国科学院信息工程研究所 一种面向对话文本的事件抽取方法及系统
CN113255322B (zh) * 2021-06-10 2021-10-01 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
WO2015084756A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis using trained event template models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
WO2015084756A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis using trained event template models
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法

Also Published As

Publication number Publication date
CN107562772A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107562772B (zh) 事件抽取方法、装置、系统和存储介质
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN108460011B (zh) 一种实体概念标注方法及系统
CN106909655B (zh) 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN108090077B (zh) 一种基于自然语言检索的综合相似度计算方法
CN104199965B (zh) 一种语义信息检索方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN108804421B (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN107102993B (zh) 一种用户诉求分析方法和装置
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111078832A (zh) 一种智能客服的辅助应答方法及系统
CN110222192A (zh) 语料库建立方法及装置
Ao et al. News keywords extraction algorithm based on TextRank and classified TF-IDF
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant