CN110008463A - 用于事件抽取的方法、装置和计算机可读介质 - Google Patents

用于事件抽取的方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN110008463A
CN110008463A CN201811362164.3A CN201811362164A CN110008463A CN 110008463 A CN110008463 A CN 110008463A CN 201811362164 A CN201811362164 A CN 201811362164A CN 110008463 A CN110008463 A CN 110008463A
Authority
CN
China
Prior art keywords
event
template
word segmentation
event extraction
segmentation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811362164.3A
Other languages
English (en)
Other versions
CN110008463B (zh
Inventor
梁忠平
赵剑波
温祖杰
陈垂波
雷宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811362164.3A priority Critical patent/CN110008463B/zh
Publication of CN110008463A publication Critical patent/CN110008463A/zh
Application granted granted Critical
Publication of CN110008463B publication Critical patent/CN110008463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了用于事件抽取的方法、装置和计算机可读介质。该方法可以包括:对目标文本进行处理,以获得目标文本的分词结果,其中,分词结果包括至少一个词汇;将分词结果与预定义的事件抽取模板集合进行匹配,其中,事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的;在分词结果与事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于分词结果和特定事件抽取模板来生成事件属性数据,其中,事件属性数据用于表示目标文本中描述的事件的属性。可见,本发明实施例的技术方案不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。

Description

用于事件抽取的方法、装置和计算机可读介质
技术领域
本发明涉及信息处理领域,更具体地,本发明涉及用于事件抽取的方法、装置和计算机可读介质。
背景技术
随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信息。事件抽取是信息抽取中的一个重要研究方向,主要是指从含有事件信息的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构化的形式呈现,比如,什么人、什么地方、什么时间、做了什么事。
可见,事件抽取在现今的海量信息时代具有极为广阔的应用前景。然而,如何实现事件抽取,成为目前亟待解决的问题。
发明内容
考虑到现有技术的上述问题,本发明实施例提供了用于事件抽取的方法、装置和计算机可读介质。
一方面,本发明实施例提供了一种用于事件抽取的方法,包括:对目标文本进行处理,以获得所述目标文本的分词结果,其中,所述分词结果包括至少一个词汇;将所述分词结果与预定义的事件抽取模板集合进行匹配,其中,所述事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的;在所述分词结果与所述事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于所述分词结果和所述特定事件抽取模板来生成事件属性数据,其中,所述事件属性数据用于表示所述目标文本中描述的事件的属性。
另一方面,本发明实施例提供了一种用于事件抽取的装置,包括:文本处理单元,用于对目标文本进行处理,以获得所述目标文本的分词结果,其中,所述分词结果包括至少一个词汇;匹配单元,用于将所述分词结果与预定义的事件抽取模板集合进行匹配,其中,所述事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的;数据生成单元,用于在所述分词结果与所述事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于所述分词结果和所述特定事件抽取模板来生成事件属性数据,其中,所述事件属性数据用于表示所述目标文本中描述的事件的属性。
另一方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序在由计算机执行时实现如上所述的方法。
可见,在本发明实施例中,由于事件抽取模板的模板元素是基于词汇来构建的,所以通过将目标文本的分词结果与事件抽取目标进行匹配来实现事件抽取,不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。此外,本发明实施例的技术方案还能够节省计算资源,降低对技术人员的要求。同时,在本发明实施例中,基于词汇的事件抽取模板并没有词性等约束限制,所以在实现上更为灵活,而且能够表达的事件类型更为丰富。
附图说明
下文将以明确易懂的方式,通过对优选实施例的说明并结合附图来对本发明上述特性、技术特征、优点及其实现方式予以进一步说明,其中:
图1是根据本发明实施例的用于事件抽取的方法的示意性流程图。
图2是根据本发明实施例的用于事件抽取的方法的一个例子的示意图。
图3是根据本发明实施例的用于事件抽取的装置的示意框图。
图4是根据本发明实施例的用于事件抽取的装置的示意框图。
具体实施方式
事件抽取是信息抽取的一个重要研究方向,是一种自然语言处理技术。事件抽取的目的是从非结构化或半结构化的文本数据中抽取结构化的数据。事件抽取在各个领域都有着重要的应用前景,比如金融领域、新闻领域、生物医学领域等等。
下面以金融领域为例进行描述。在金融领域中,金融舆情的目标是监测所关注的公司的金融活动、经营状态和外部评价等情况,来掌握所关注的公司的全面情报。这些情报可以用来对该公司动态地进行信用评级,或者这些情报可以作为期货股票交易的参考信息。此外,也可以通过观察公司的情报来进行企业风险管控等。
传统的舆情收集方法主要是通过在搜索引擎中搜索所关注的公司的名称,获得关于该公司的信息,然后通过人工浏览、归纳和总结获得该公司的总体情报。然而,这种方式需要人工阅读有关该公司的大量信息,导致工作量非常大。此外,由于人工处理慢,导致不可能对大量公司进行全面的监测,而且人工处理无法进行实时监测,因此得到的信息将是滞后的。
因此,如果在金融舆情中引入事件抽取技术,通过自动化地抽取公司金融活动、经营状态和外部评价等事件,从而能够对大量公司进行实时监测和情报收集。
目前,业界提出了基于句法来实现事件抽取。基于句法的事件抽取方法依赖于中文分词、词性标注、实体识别、句法分析和语义分析等子任务。然而,这种方法也存在一些弊端。
例如,各个子任务的误差会传播扩大,导致事件抽取准确率急剧下降。例如,业界效果最好的句法分析工具是斯坦福大学的Stanford Parser,其准确率也只达到75%左右,这决定了基于句法的事件抽取性能不可能高于75%。另外,句法分析处理文本的速度相对较慢,耗费计算资源。
此外,句法分析需要较为深入的语言学和自然语言处理知识,这需要具备相应专业知识的人员来构建句法模板。如果应用于金融领域,在构建句法模板时还需要较多的金融领域知识,这对于技术人员要求较高,导致在实现上较为困难。另外,句法分析分为结构句法分析和依存句法分析,通常句法模板是基于依存句法分析的结构来构建的。基于依存句法分析的模板假设事件的核心词是动词,事件的属性存在连接该动词的依存路径。然而,在一些领域中,比如在金融领域中,金融事件并非以动词作为核心词,比如事件“资金紧张”(其描述公司资金短缺的状态),一般没有核心的动词。这些都对构建句法模板提出了极大的挑战。
鉴于此,本发明实施例提供了一种基于词汇目标的事件抽取方案。在本发明实施例中,首先对目标文本进行处理,以获得目标文本的分词结果。分词结果可以包括至少一个词汇。然后将分词结果与预定义的事件抽取模板集合进行匹配。事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的。在分词结果与事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于分词结果和特定事件抽取模板来生成事件属性数据,其中,事件属性数据用于表示目标文本中描述的事件的属性。
在本发明实施例中,由于事件抽取模板的模板元素是基于词汇来构建的,所以能够通过将目标文本的分词结果与事件抽取目标进行匹配来实现事件抽取,这样不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。
例如,与基于句法的事件抽取方法相比,本发明实施例的技术方案不需要依赖于句法分析结果,不仅能够有效避免子任务误差传播的问题,而且能够节省计算资源。
此外,与基于句法的事件抽取方法相比,本发明实施例的技术方案不需要额外的自然语言处理知识,构建基于词汇的事件抽取模板在实现上相对简单。例如,在应用于金融领域时,也不需要较多的金融领域知识,仅需要了解金融事件本身即可,极大地降低了对技术人员的要求。
此外,相比于基于句法的事件实现方法,本发明实施例的技术方案中的基于词汇的事件抽取模板并没有词性等约束限制,所以在实现上更为灵活,而且能够表达的事件类型更为丰富。
下面将结合具体实施例来详细地描述本发明实施例的技术方案。
图1是根据本发明实施例的用于事件抽取的方法的示意性流程图。
如图1所示,在步骤110中,对目标文本进行处理,以获得目标文本的分词结果,其中,分词结果包括至少一个词汇。
在步骤120中,将分词结果与预定义的事件抽取模板集合进行匹配,其中,事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的。
在步骤130中,在分词结果与事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于分词结果和特定事件抽取模板来生成事件属性数据,其中,事件属性数据用于表示目标文本中描述的事件的属性。
在本发明实施例中,由于事件抽取模板的模板元素是基于词汇来构建的,所以能够通过将目标文本的分词结果与事件抽取目标进行匹配来实现事件抽取,这样不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。
在本发明实施例中,目标文本可以是非结构化或半结构化的文本。事件可以是指特定的人、物在特定事件和特定地点相互作用的客观事实。例如,在金融领域中,金融事件可以是指公司进行的金融活动或被设定为某种状态,例如,股权出让、资产重组或被列为失信名单等。
在一个实施例中,在步骤110中,可以对目标文本进行正文提取、实体识别和中文分词处理,从而获得分词结果。
例如,可以利用本领域适用的算法来对目标文本进行正文提取。比如,目标文本可以是html网页。对html网页进行正文提取可以包括对html网页进行简单的文本清洗,比如去掉html转义字符等。例如,可以采用正则表达式来进行网页抽取。
在对目标文本进行正文提取之后,可以对所提取的正文进行实体识别。实体识别的功能主要是识别出正文中的公司名称、人名等实体。实体的类型可以是预先定义的。可以利用本领域适用的算法来进行实体识别。例如,目前常用的实体识别算法可以包括条件随机场、循环神经网络等。
在对所提取的正文进行实体识别之后,可以对正文进行中文分词。中文分词可以是指在保证实体词汇不被切断的情况下将正文切分成合理的词汇序列,所切分出的词汇是在语言学上有意义的,也就是说可以作为语义单元。可以利用本领域适用的算法来进行中文分词,例如,目前常用的中文分词算法可以包括前向最长匹配、条件随机场、循环神经网络等。
从上述可见,本发明实施例的事件抽取方案主要依赖于实体识别和中文分词处理得到的分词结果。目前,实体识别在识别公司和人名方面取得了90%以上的准确率,而中文分词也已经达到了97%以上的准确率。这样,利用分词结果和基于词汇的事件抽取模板来实现事件抽取,能够极大地提高事件抽取准确率。此外,与基于句法的事件抽取方法相比,由于本发明实施例的技术方案依赖于实体识别和中文分词子任务,而不需要借助于句法分析,能够从上游减少子任务的误差,这也能进一步提高事件抽取准确率。
在另一实施例中,在步骤120中使用的事件抽取模板集合中的每个事件抽取模板可以表示为由至少一个模板元素构成的有序序列。模板元素可以分为三种类型:词汇匹配符、实体匹配符和通配符。词汇匹配符可以用于指示事件关键信息,实体匹配符可以用于指示事件关键实体。可以明白的是,构成每个事件抽取模板的至少一个模板元素中的每个模板元素可以属于这三种类型中的一种类型。也就是说,每个事件抽取模板可以包括这三种类型的模板元素中的一种或多种。比如,事件抽取模板可以仅包括词汇匹配符、实体匹配符和通配符这三种模板元素中的任一种模板元素;事件抽取模板可以包括词汇匹配符、实体匹配符和通配符这三种模板元素;事件抽取模板可以包括词汇匹配符和实体匹配符这两种模板元素;事件抽取模板可以包括词汇匹配符和通配符这两种模板元素;等等。
例如,词汇匹配符可以用来判断分词结果中的对应词汇是否属于事件关键词汇。实体匹配符可以用来判断分词结果中的对应词汇是否属于实体词汇。而通配符可以用于与任何词汇进行匹配。
可见,在本发明实施例中,事件抽取模板中的三种类型的模板元素定义明确,利用这三种类型的模板元素中的至少一种模板元素能够容易地构建事件抽取模板,而且利用这样的事件抽取模板进行匹配可以达到所见即所得的效果,因此本发明实施例的方案不仅在实现上简单,而且能够极大地降低对技术人员的专业知识要求。
在另一实施例中,词汇匹配符可以包括一个或多个事件关键词汇。实体匹配符可以包括一个或多个实体类型表示。通配符可以包括要匹配的最少词汇数量和最多词汇数量。
事件关键词汇可以是描述某种类型的事件的关键词。比如,对于股权出让这种类型的金融事件,事件关键词汇可以包括转让或出让。词汇匹配符可以利用各种适用的形式来表达。例如,词汇匹配符可以表示为“(…)”,其中小括号内部填充一个或多个事件关键词汇。如果存在多个事件关键词汇,可以利用竖线“|”隔开。比如,词汇匹配符可以表示为“(转让|出让)”,那么,词汇匹配符可以用于判断分词结果中的对应词汇是否是转让或出让。
实体类型表示可以是用于表达实体类型的某种具体表示,比如英文字符,数字字符等等。例如,对于实体类型“公司”,对应的实体类型表示可以是“COMPANY”;对于实体类型“人”,对应的实体类型表示可以是“PERSON”。实体匹配符可以利用各种适用的形式来表达。例如,实体匹配符可以表示为“<…>”,其中尖括号内部填充一个或多个实体类型表示。如果存在多个实体类型表示,可以利用竖线“|”隔开。比如,实体匹配符可以表示为“<COMPANY|PERSON>”,那么,实体匹配符可以用于判断分词结果中的对应词汇是否是公司名称或人名。
通配符可以与任何词汇匹配。通配符可以包括要匹配的最小词汇数量和最大词汇数量。通配符可以利用各种适用的形式来表达。例如,通配符可以表示为“{…}”,其中花括号内部填充最少词汇数量和最多词汇数量。比如,通配符可以表示为“{0,5}”,其意指最少匹配0个词汇,最多匹配5个词汇。通配符的最少词汇数量和最多词汇数量可以根据实际情况来设定。比如,如果两个词汇(比如实体词汇和事件关键词汇)之间的词汇数量在通配符中设定的最少词汇数量和最多词汇数量之间,可以认为这两个词汇是具有语义关联的。而如果两个词汇之间的词汇数量超出通配符中的最多词汇数量,可以认为这两个词汇之间没有语义关联。因此,设定适当的最少词汇数量和最多词汇数量有利于提高事件抽取准确率。
可见,在本发明实施例中,事件抽取模板包括三种模板元素,每种模板元素的定义明确,因此能够简单且方便地根据这三种模板元素中的至少一种模板元素来构建事件抽取模板。
例如,每个事件抽取模板可以是由上述三种模板元素中的至少一种模板元素构建的有序序列。此处,应理解的是,事件抽取模板中的每种类型的模板元素的数量可以是一个或多个。比如,结合上述各种模板元素的例子,事件抽取模板可以被表示为“<COMPANY>{0,5}<PERCENT>{0,5}(股权){0,5}(转让)”,可见其由七个模板元素构成。
应理解的是,上述对词汇匹配符、实体匹配符、通配符以及事件抽取模板的举例说明仅是为了帮助本领域技术人员更好地理解本发明实施例。本发明实施例并不限于此。
在另一实施例中,每个事件抽取模板可以与一种事件类型相对应。每个事件抽取模板的模板元素可以是基于语料集来形成的,而语料集可以是从描述与该事件抽取模板相对应的事件类型的一组文本中提取的。
事件类型不是限定的集合,是需要根据用户需求进行扩充的。现有的普通自然语言处理多分类技术不适合可扩展的事件抽取,这是因为当新增加了事件类型时,原有的分类模型需要推翻来重新训练。
然而,在本发明实施例中,可以为每种事件类型构建相应的事件抽取模板,因此当对事件类型进行扩充时,仅需要为新的事件类型构建新的事件抽取模板,而不会影响已有的事件类型。
此外,在本发明实施例中,并不需要构建大规模的训练预料,而仅需要为每种事件类型建立少量的支持预料,能够减少人工成本。
例如,在本发明实施例中,可以预先定义事件类型、事件属性和事件类型的判断标准。然后收集各事件类型的一组文本,从这些文本中提取语料集。通过观察语料集,来汇总出词汇。基于所汇总出的词汇来构建词汇匹配符、实体匹配符和通配符,从而构建与各事件类型相对应的事件抽取模板。此外,为了确保事件抽取模板的准确率,可以将事件抽取模板应用于相应的语料集,确定事件抽取效果是否符合预期,比如准确率是否高于预定阈值。如果准确率低于预定阈值,则可以根据语料集更新汇总出的词汇,然后基于更新后的词汇来构建新的事件抽取模板。之后可以再次将新的事件抽取模板应用于相应的语料集,确定事件抽取效果是否符合预期。可以重复上述过程,直到所得到的事件抽取模板符合预期为止。
在另一实施例中,每个事件抽取模板可以具有相对应的属性抽取器。属性抽取器可以用于指示从与该属性抽取器相对应的事件抽取模板所匹配的分词结果中抽取事件属性数据的规则。事件属性数据可以包括一个或多个属性名称以及与每个属性名称相对应的属性内容。那么,属性抽取器也可以理解为指示从与相应的事件抽取模板匹配的分词结果中抽取属性内容的规则。
可见,在本发明实施例中,利用属性抽取器对事件属性数据进行抽取,在实现上简单方便。
在另一实施例中,属性抽取器可以表示为至少一个属性名称和至少一个元素索引之间的映射关系。每个元素索引可以指示与该属性抽取器相对应的事件抽取模板中的一个模板元素。这种映射关系可以用于指示与每个属性名称相对应的属性内容为与该属性名称相映射的元素索引指示的模板元素所匹配的词汇。
例如,属性抽取器可以表示为:field_name:element_inde。其中,field_name可以表示属性名称,element_index可以表示元素索引。那么,在所抽取的事件属性数据中,field_name表示的属性名称对应的属性内容可以是与相应的事件抽取模板中的第element_index个模板元素匹配的词汇。
比如,属性抽取器可以表示为:“主体公司:0,股权比例:2”。假设分词结果已经和该属性抽取器对应的事件抽取模板匹配成功,则利用该属性抽取器抽取的事件属性数据中,主体公司的公司名称可以是分词结果中的与事件抽取模板中的第0个模板元素匹配的词汇,股权比例的具体内容可以是分词结果中的与事件抽取模板中的第2个模板元素匹配的词汇。
接下来继续描述图1中的步骤。在步骤120中,可以将分词结果与预定义的事件抽取模板集合进行逐一匹配,确定是否与某个事件抽取模板匹配成功。例如,可以将分词结果中的各个词汇与事件抽取模板中的模板元素进行逐个匹配。在步骤130中,可以确定分词结果与特定事件抽取模板匹配成功。例如,分词结果中的各个词汇与该特定事件抽取模板中的模板元素分别匹配成功。
在这种情况下,可以抽取事件属性数据。如上所述,在步骤130中的事件属性数据可以包括一个或多个属性名称以及与每个属性名称对应的属性内容。具体而言,在步骤130中,利用与该特定事件抽取模板相对应的属性抽取器,从该分词结果中抽取与每个属性名称相对应的属性内容,其中,该属性抽取器用于表示抽取与每个属性名称相对应的属性内容的规则。
在另一实施例中,如上所述,步骤130中使用的该属性抽取器表示为至少一个属性名称与至少一个元素索引之间的映射关系,其中,每个元素索引用于指示特定事件抽取模板中的一个模板元素,该映射关系用于指示与每个属性名称对应的属性内容为上述分词结果中的与该属性名称相映射的元素索引指示的模板元素所匹配的词汇。
可见,本发明实施例中的抽取事件属性数据的方式实现简单,而且准确率高。
下面将结合具体例子来描述本发明实施例。应当理解的是,以下例子仅是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
图2是根据本发明实施例的用于事件抽取的方法的一个例子的示意图。
在图2中,为了呈现的简洁,未示出目标文本。
如图2所示,在步骤210中,在对目标文本进行正文提取后,所得到的正文是“上海XX公司40%股权挂牌转让”。
在步骤220中,对所提取的正文进行实体识别。例如,识别出实体类型为“COMPANY”,占用第1至6个字符。识别出百分比为“PERCENT”,占用第7至9个字符。此处将百分比也定义为一种实体类型。应当理解的是,实体类型可以根据实际情况来定义,本发明实施例对此不作限定。
在步骤230中,在进行实体识别之后,对正文进行中文分词,得到分词结果。例如,如图2所示,分词结果可以包括“上海XX公司”、“40%”、“股权”、“挂牌”和“转让”。在图2中,“DEF”可以表示默认(default)值。
在步骤240中,将分词结果与预定义的事件抽取模板集合进行匹配之后,确定分词结果与针对事件类型“股权出让”构建的事件抽取模板匹配成功。如图2所示,事件抽取模板可以表示为“<COMPANY>{0,5}<PERCENT>{0,5}(股权){0,5}(转让)”,分词结果中的各个词汇可以与该事件抽取模板中的各个模板元素分别匹配成功。
在步骤250中,利用与该事件抽取模板相对应的属性抽取器来抽取事件属性数据。在图2的例子中,属性抽取器可以表示为“主体公司:0,股权比例:2”。也就是说,主体公司的公司名称为与第0个模板元素所匹配的词汇,股权比例的具体内容为与第2个模板元素所匹配的词汇。那么,如图2所示,所得到的事件属性数据可以表示为:
事件类型:股权出让
主体公司:上海XX公司
股权比例:40%
可见,在本发明实施例中,由于事件抽取模板的模板元素是基于词汇来构建的,所以通过将目标文本的分词结果与事件抽取目标进行匹配来实现事件抽取,不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。此外,本发明实施例的技术方案还能够节省计算资源,降低对技术人员的要求。同时,在本发明实施例中,基于词汇的事件抽取模板并没有词性等约束限制,所以在实现上更为灵活,而且能够表达的事件类型更为丰富。
图3是根据本发明实施例的用于事件抽取的装置的示意框图。图3的装置300可以利用软件、硬件(例如集成电路或DSP等)或软硬件结合的方式来实现。
如图3所示,装置300可以包括文本处理单元310、匹配单元320和数据生成单元330。文本处理单元310对目标文本进行处理,以获得目标文本的分词结果,其中,分词结果包括至少一个词汇。匹配单元320将分词结果与预定义的事件抽取模板集合进行匹配,其中,事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的。数据生成单元330在分词结果与事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于分词结果和特定事件抽取模板来生成事件属性数据,其中,事件属性数据用于表示目标文本中描述的事件的属性。
可见,在本发明实施例中,由于事件抽取模板的模板元素是基于词汇来构建的,所以通过将目标文本的分词结果与事件抽取目标进行匹配来实现事件抽取,不仅实现简单,而且能够减少误差,从而能够提高事件抽取准确率。此外,本发明实施例的技术方案还能够节省计算资源,降低对技术人员的要求。同时,在本发明实施例中,基于词汇的事件抽取模板并没有词性等约束限制,所以在实现上更为灵活,而且能够表达的事件类型更为丰富。
在一个实施例中,每个事件抽取模板可以表示为由至少一个模板元素构成的有序序列,至少一个模板元素中的每个模板元素可以属于以下三种类型中的一种类型:词汇匹配符、实体匹配符和通配符。词汇匹配符可以用于指示事件关键信息,实体匹配符可以用于指示事件关键实体。
在另一实施例中,词汇匹配符可以包括一个或多个事件关键词汇。实体匹配符可以包括一个或多个实体类型表示。通配符可以包括要匹配的最少词汇数量和最多词汇数量。
在另一实施例中,每个事件抽取模板可以与一种事件类型相对应。每个事件抽取模板的模板元素可以是基于语料集来形成的,语料集可以是从描述事件类型的一组文本中提取的。
在另一实施例中,事件属性数据可以包括一个或多个属性名称以及与一个或多个属性名称中的每个属性名称相对应的属性内容。数据生成单元330可以利用与特定事件抽取模板相对应的属性抽取器,从分词结果中抽取与每个属性名称相对应的属性内容。属性抽取器用于表示抽取与每个属性名称相对应的属性内容的规则。
在另一实施例中,属性抽取器可以表示为至少一个属性名称与至少一个元素索引之间的映射关系。至少一个元素索引中的每个元素索引可以用于指示特定事件抽取模板中的一个模板元素,映射关系用于指示与至少一个属性名称中的每个属性名称对应的属性内容为分词结果中的与该属性名称相映射的元素索引指示的模板元素所匹配的词汇。
在另一实施例中,文本处理单元310可以对目标文本进行正文提取、实体识别和中文分词处理,以获得分词结果。
装置300的各个单元可以执行图1和2的方法实施例中的相应步骤,因此,为了描述的简洁,装置300的各个单元的具体操作和功能此处不再赘述。
图4是根据本发明实施例的用于事件抽取的装置的示意框图。
如图4所示,装置400可以包括至少一个处理器410和存储器420。存储器420可以与至少一个处理器410耦合,其存储有可执行指令。
例如,处理器410可以包括但不限于,中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、数字信号处理器(Digital SignalProcessor,DSP)、微处理器等等。
存储器420可以包括但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-ErasableProgrammable Read-Only Memory,EEPROM)、静态随机存取存储器(Static Random AccessMemory,SRAM)、移动硬盘等等。
可执行指令在被至少一个处理器410执行时,可以实现结合图1和2描述的方法的具体过程。为了描述的简洁,此处不再赘述。
本发明实施例还提供一种计算机可读介质。例如,计算机可读介质可以包括但不限于磁存储设备、光存储设备等等。计算机可读介质可以存储有计算机程序,计算机程序在由计算机执行时可以实现结合图1和2所描述的具体过程。例如,计算机可以包括各种类型的计算设备或处理设备,比如台式计算机、膝上型计算机、智能电话等等。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,本领域技术人员从中推导出来的其它方案也在本发明的保护范围之内。

Claims (15)

1.一种用于事件抽取的方法,其特征在于,包括:
对目标文本进行处理,以获得所述目标文本的分词结果,其中,所述分词结果包括至少一个词汇;
将所述分词结果与预定义的事件抽取模板集合进行匹配,其中,所述事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的;
在所述分词结果与所述事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于所述分词结果和所述特定事件抽取模板来生成事件属性数据,其中,所述事件属性数据用于表示所述目标文本中描述的事件的属性。
2.根据权利要求1所述的方法,其特征在于,所述每个事件抽取模板表示为由至少一个模板元素构成的有序序列,其中,所述至少一个模板元素中的每个模板元素属于以下三种类型中的一种类型:词汇匹配符、实体匹配符和通配符,所述词汇匹配符用于指示事件关键信息,所述实体匹配符用于指示事件关键实体。
3.根据权利要求2所述的方法,其特征在于,所述词汇匹配符包括一个或多个事件关键词汇,所述实体匹配符包括一个或多个实体类型表示,所述通配符包括要匹配的最少词汇数量和最多词汇数量。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述每个事件抽取模板与一种事件类型相对应,所述每个事件抽取模板的模板元素是基于语料集来形成的,所述语料集是从描述所述事件类型的一组文本中提取的。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述事件属性数据包括一个或多个属性名称以及与所述一个或多个属性名称中的每个属性名称相对应的属性内容;
所述基于所述分词结果和所述特定事件抽取模板来生成事件属性数据包括:
利用与所述特定事件抽取模板相对应的属性抽取器,从所述分词结果中抽取与所述每个属性名称相对应的属性内容,其中,所述属性抽取器用于表示抽取与所述每个属性名称相对应的属性内容的规则。
6.根据权利要求5所述的方法,其特征在于,所述属性抽取器表示为至少一个属性名称与至少一个元素索引之间的映射关系,其中,所述至少一个元素索引中的每个元素索引用于指示所述特定事件抽取模板中的一个模板元素,所述映射关系用于指示与所述至少一个属性名称中的每个属性名称对应的属性内容为所述分词结果中的与该属性名称相映射的元素索引指示的模板元素所匹配的词汇。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对目标文本进行处理,以获得所述目标文本的分词结果包括:
对所述目标文本进行正文提取、实体识别和中文分词处理,以获得所述分词结果。
8.一种用于事件抽取的装置,其特征在于,包括:
文本处理单元,用于对目标文本进行处理,以获得所述目标文本的分词结果,其中,所述分词结果包括至少一个词汇;
匹配单元,用于将所述分词结果与预定义的事件抽取模板集合进行匹配,其中,所述事件抽取模板集合中的每个事件抽取模板的模板元素是基于词汇来构建的;
数据生成单元,用于在所述分词结果与所述事件抽取模板集合中的特定事件抽取模板匹配成功的情况下,基于所述分词结果和所述特定事件抽取模板来生成事件属性数据,其中,所述事件属性数据用于表示所述目标文本中描述的事件的属性。
9.根据权利要求8所述的装置,其特征在于,所述每个事件抽取模板表示为由至少一个模板元素构成的有序序列,其中,所述至少一个模板元素中的每个模板元素属于以下三种类型中的一种类型:词汇匹配符、实体匹配符和通配符,所述词汇匹配符用于指示事件关键信息,所述实体匹配符用于指示事件关键实体。
10.根据权利要求9所述的装置,其特征在于,所述词汇匹配符包括一个或多个事件关键词汇,所述实体匹配符包括一个或多个实体类型表示,所述通配符包括要匹配的最少词汇数量和最多词汇数量。
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述每个事件抽取模板与一种事件类型相对应,所述每个事件抽取模板的模板元素是基于语料集来形成的,所述语料集是从描述所述事件类型的一组文本中提取的。
12.根据权利要求8至11中任一项所述的装置,其特征在于,所述事件属性数据包括一个或多个属性名称以及与所述一个或多个属性名称中的每个属性名称相对应的属性内容;
所述数据生成单元具体用于:
利用与所述特定事件抽取模板相对应的属性抽取器,从所述分词结果中抽取与所述每个属性名称相对应的属性内容,其中,所述属性抽取器用于表示抽取与所述每个属性名称相对应的属性内容的规则。
13.根据权利要求12所述的装置,其特征在于,所述属性抽取器表示为至少一个属性名称与至少一个元素索引之间的映射关系,其中,所述至少一个元素索引中的每个元素索引用于指示所述特定事件抽取模板中的一个模板元素,所述映射关系用于指示与所述至少一个属性名称中的每个属性名称对应的属性内容为所述分词结果中的与该属性名称相映射的元素索引指示的模板元素所匹配的词汇。
14.根据权利要求8至13中任一项所述的装置,其特征在于,所述文本处理单元具体用于:
对所述目标文本进行正文提取、实体识别和中文分词处理,以获得所述分词结果。
15.一种计算机可读介质,其上存储有计算机程序,所述计算机程序在由计算机执行时实现根据权利要求1至7中任一项所述的方法。
CN201811362164.3A 2018-11-15 2018-11-15 用于事件抽取的方法、装置和计算机可读介质 Active CN110008463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811362164.3A CN110008463B (zh) 2018-11-15 2018-11-15 用于事件抽取的方法、装置和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811362164.3A CN110008463B (zh) 2018-11-15 2018-11-15 用于事件抽取的方法、装置和计算机可读介质

Publications (2)

Publication Number Publication Date
CN110008463A true CN110008463A (zh) 2019-07-12
CN110008463B CN110008463B (zh) 2023-04-18

Family

ID=67164918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811362164.3A Active CN110008463B (zh) 2018-11-15 2018-11-15 用于事件抽取的方法、装置和计算机可读介质

Country Status (1)

Country Link
CN (1) CN110008463B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN111767730A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种事件类型识别方法及装置
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN113255322A (zh) * 2021-06-10 2021-08-13 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113569010A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
CN105205075A (zh) * 2014-06-26 2015-12-30 中国科学院软件研究所 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN105260375A (zh) * 2015-08-05 2016-01-20 北京工业大学 事件本体学习方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN108153729A (zh) * 2017-12-22 2018-06-12 武汉数博科技有限责任公司 一种面向金融领域的知识抽取方法
WO2018153295A1 (zh) * 2017-02-27 2018-08-30 腾讯科技(深圳)有限公司 文本实体提取方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205075A (zh) * 2014-06-26 2015-12-30 中国科学院软件研究所 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
CN105260375A (zh) * 2015-08-05 2016-01-20 北京工业大学 事件本体学习方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
WO2018153295A1 (zh) * 2017-02-27 2018-08-30 腾讯科技(深圳)有限公司 文本实体提取方法、装置、设备及存储介质
CN108153729A (zh) * 2017-12-22 2018-06-12 武汉数博科技有限责任公司 一种面向金融领域的知识抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AONE CHINATSU 等: "REES: a large-scale relation and event extraction system", 《SIXTH APPLIED NATURAL LANGUAGE PROCESSING CONFERENCE》 *
BISHOP ALLISON 等: "A simple obfuscation scheme for pattern-matching with wildcards", 《ANNUAL INTERNATIONAL CRYPTOLOGY CONFERENCE》 *
卢煜: "微博事件抽取的关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
阚琪: "基于条件随机场的命名实体识别及实体关系识别的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN110765265B (zh) * 2019-09-06 2023-04-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN111767730A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种事件类型识别方法及装置
CN111767730B (zh) * 2020-07-07 2023-09-22 腾讯科技(深圳)有限公司 一种事件类型识别方法及装置
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN112967144B (zh) * 2021-03-09 2024-01-23 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN113255322A (zh) * 2021-06-10 2021-08-13 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113255322B (zh) * 2021-06-10 2021-10-01 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和计算机可读存储介质
CN113569010A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质
CN113569010B (zh) * 2021-07-23 2023-12-12 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN110008463B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110008463A (zh) 用于事件抽取的方法、装置和计算机可读介质
US20190286999A1 (en) Extracting Facts from Unstructured Information
Haj-Yahia et al. Towards unsupervised text classification leveraging experts and word embeddings
Inzalkar et al. A survey on text mining-techniques and application
CN106934069B (zh) 数据检索方法及系统
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
Li et al. A policy-based process mining framework: mining business policy texts for discovering process models
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
Nithish et al. An Ontology based Sentiment Analysis for mobile products using tweets
CN108009135A (zh) 生成文档摘要的方法和装置
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
CN108763272B (zh) 一种事件信息分析方法、计算机可读存储介质及终端设备
CN112784589B (zh) 一种训练样本的生成方法、装置及电子设备
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN109783801A (zh) 一种电子装置、多标签分类方法及存储介质
Zhang et al. Multilingual sentence categorization and novelty mining
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
Eldin et al. An enhanced opinion retrieval approach via implicit feature identification
CN106777048A (zh) 企业质量信用数据获取方法和系统
CN113191145A (zh) 关键词的处理方法、装置、电子设备和介质
CN104933097B (zh) 一种用于检索的数据处理方法和装置
CN111126073A (zh) 语义检索方法和装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
Chou et al. Do bitcoin news information flow and return volatility fit the sequential information arrival hypothesis and the mixture of distribution hypothesis?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201012

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant