CN111666379B - 一种事件元素提取方法和装置 - Google Patents

一种事件元素提取方法和装置 Download PDF

Info

Publication number
CN111666379B
CN111666379B CN202010529388.XA CN202010529388A CN111666379B CN 111666379 B CN111666379 B CN 111666379B CN 202010529388 A CN202010529388 A CN 202010529388A CN 111666379 B CN111666379 B CN 111666379B
Authority
CN
China
Prior art keywords
word
words
text
entity
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010529388.XA
Other languages
English (en)
Other versions
CN111666379A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010529388.XA priority Critical patent/CN111666379B/zh
Publication of CN111666379A publication Critical patent/CN111666379A/zh
Application granted granted Critical
Publication of CN111666379B publication Critical patent/CN111666379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种事件元素提取方法和装置;本申请实施例公开了大数据领域以及人工智能的自然语言处理领域的事件元素提取方法;本申请实施例可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。

Description

一种事件元素提取方法和装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种事件元素提取方法和装置。
背景技术
对事件元素(如实体、以及实体之间的关联关系)进行提取或抽取对于构建整个事件体系具有重要意义,例如,通过提取金融类资讯、以及论坛观点等语料中的金融类事件元素,能够分析相关个股的涨跌,构建金融类知识图谱等,进而对投资理财、分析企业商户画像等产生巨大价值,此外,在关系链生成、社交领域关系图谱构建等领域,可以通过提取实体和实体间关系如人名之间的关系,能够构建社交关系链知识图谱,进而可以应用于社交推荐、关系网络营销等。
目前提取事件元素的方法,主要是基于词汇-语义进行事件元素的提取,例如,可以基于文本中各个词对应的词向量,从文本中提取概念同义词来构建概念词典,然后标注出文本中的词汇信息、句法信息和语义信息,基于有限状态机理论设计词汇-语义规则标注算法,以对文本进行自动化标注,从而识别文本的各个句子中哪些成分为构成事件的重要元素。
在对现有技术的研究和实践过程中,本发明的发明人发现,采用目前的方法对事件元素进行提取,会过于依赖词向量模型的效果,在拓展同义词时往往会引入一些噪音词,从而影响提取结果的准确性,使得对事件元素进行提取的准确度大大降低。
发明内容
本申请实施例提供一种事件元素提取方法和装置,可以提高事件元素提取的准确度。
本申请实施例提供一种事件元素提取方法,包括:
获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
对文本集中的文本进行实体提取,得到文本集对应的实体词;
针对文本集中包含所述实体词的目标文本,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
基于所述字序列,构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
基于所述频繁字序列,确定目标频繁字序列中与所述标识字关联的关联关系词;
输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词
相应的,本申请实施例还提供了一种事件元素提取装置,包括:
获取单元,用于获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
提取单元,用于对文本集中的文本进行实体提取,得到文本集对应的实体词;
第一构建单元,用于针对文本集中包含所述实体词的目标文本,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
第二构建单元,用于基于所述字序列,构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
确定单元,用于基于所述频繁字序列,确定目标频繁字序列中与所述标识字关联的关联关系词;
输出单元,用于输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词。
在一些实施例中,所述第二构建单元,包括:
计算子单元,用于计算所述字序列中每个字在所有目标文本中出现的频次;
第一确定子单元,用于从所述字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;
构建子单元,用于基于所述字序列的初始频繁字序列,构建所有目标文本对应的频繁字序列。
在一些实施例中,所述构建子单元,具体用于:
基于所述初始频繁字序列,对所述字序列进行过滤处理,得到处理后字序列;
将所述初始频繁字序列中的字作为前缀字,确定所述前缀字在所述处理后字序列中对应的后缀字;
当所述前缀字中包括所述标识字、且所述后缀字中包括所述标识字时,基于所述后缀字构建所有目标文本对应的频繁字序列。
在一些实施例中,所述第一构建单元,具体用于:
对目标文本中的实体词进行字标识,得到所述实体词对应的标识字;
根据所述标识字在目标文本中的位置信息,确定所述标识字对应的上下文词范围;
基于所述上下文词范围内的原始字、以及所述标识字,构建所述目标文本对应的字序列。
在一些实施例中,所述确定单元,具体用于:
获取所述频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于所述包含关系信息、以及所述词性信息,对所述频繁字序列进行筛选,得到目标频繁字序列;
根据所述词性信息,从目标频繁字序列中确定与所述标识字关联的关联关系词。
在一些实施例中,所述提取单元,包括:
分字子单元,用于对文本集中的文本进行分字处理,得到文本的字;
生成子单元,用于生成文本集中文本的字对应的字向量;
标注子单元,用于采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,所述字类别包括实体词字类别、非实体词字类别;
第二确定子单元,用于基于文本中字对应的字类别,确定文本集对应的实体词。
在一些实施例中,所述第二确定单元,具体用于:
基于文本中字对应的字类别,从文本的字中确定作为实体词的目标字;
根据所述目标字,构建文本集对应的实体词。
在一些实施例中,所述事件元素提取装置还包括训练单元,用于:
对样本文本集中的样本文本进行分字处理,得到样本文本的样本字;
获取所述样本字对应的样本字类别,所述样本字类别包括样本实体词字类别、以及非样本实体词字类别;
采用实体提取模型,基于样本字对应的样本字向量,标注所述样本字对应的预测字类别;
基于所述样本字类别、以及所述预测字类别,对所述实体提取模型进行训练,得到预设实体提取模型。
在一些实施例中,所述预设实体提取模型包括概率预测层和类别标注层,所述标注子单元,用于:
通过所述概率预测层,基于文本中字对应的字向量,预测文本中字为实体词字类别的实体类别概率、以及为非实体词字类别的非实体类别概率;
通过所述类别标注层,基于所述实体类别概率、以及非实体类别概率,标注文本中字对应的字类别。
相应的,本申请还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本申请实施例提供的任一种事件元素提取方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的任一种事件元素提取方法中的步骤。
本申请实施例可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。由于该方案能够对待提取事件元素文本集中的文本进行实体提取,基于提取到的实体词,针对包含有实体词的目标文本,构建目标文本对应的字序列(该字序列中包括实体词对应的标识字),并基于该字序列构建所有目标文本对应的频繁字序列,基于构建得到的频繁字序列,确定目标频繁字序列中与标记字相关联的关联关系词,从而得到待提取事件元素的文本集中的事件元素,比如实体词、以及与实体词相关联的关联关系词,从而大大提高了事件元素提取的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的事件元素提取方法的场景示意图;
图1b是本申请实施例提供的事件元素提取方法的流程示意图;
图2a是本申请实施例提供的事件元素提取方法的另一流程示意图;
图2b是本申请实施例提供的事件元素提取方法中实体提取的架构图;
图3a是本申请实施例提供的事件元素提取装置的结构示意图;
图3b是本申请实施例提供的事件元素提取装置的另一结构示意图;
图3c是本申请实施例提供的事件元素提取装置的另一结构示意图;
图3d是本申请实施例提供的事件元素提取装置的另一结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种事件元素提取方法、装置、计算机设备和计算机可读存储介质。具体地,本申请实施例的事件元素提取方法可以由计算机设备执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的事件元素提取方案涉及人工智能的自然语言处理(NLP,Nature Language processing)。可以通过人工智能的自然语言处理技术实现从待提取事件元素的文本集中提取出实体词。
其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,参见图1a,以该事件元素提取装置集成在计算机设备中为例,该计算机设备可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从事件元素提取装置的角度进行描述,该事件元素提取装置具体可以集成在计算机设备中,例如,事件元素提取装置可以是设置于计算机设备中的实体装置,或者事件元素提取装置可以以客户端的形式集成在计算机设备中。该计算机设备可以是服务器,也可以是终端等设备。
如图1b所示,该事件元素提取方法的具体流程可以如下:
101、获取待提取事件元素的文本集,该文本集中包括至少一个文本。
其中,事件元素包括:文本中用于表征某一领域发生事件中实体对应的实体词、以及与该实体词相关联的关联关系词等。例如,在金融领域中,可以将公司或者企业的名称作为实体词,也可以将股票名称、或者股票代码作为实体词,等等。关联关系词包括表征实体词之间关联关系的关联动词、或者关联状态词,等等,例如,文本“A公司收购B公司”,其中,A公司、以及B公司则为实体词,而将A公司和B公司相关联的关联关系词为“收购”。
其中,获取待提取事件元素的文本集的方式可以有多种,例如,以金融领域为例,可以对获取到的文本如金融类新闻资讯、以及论坛观点文章等文本进行切分,如按句进行切分,得到待提取事件元素的文本集,或者,也可以是对金融类新闻资讯、以及论坛观点文章的标题进行收集得到,等等。
102、对文本集中的文本进行实体提取,得到文本集对应的实体词。
其中,对文本集中的文本进行实体提取的方式可以有多种,例如,可以基于文本集中文本的字(或者词),采用训练好的预设实体提取模型进行实体抽取以得到文本集中的实体词。其中,为了提高实体提取的准确率、以及覆盖率,可以以字为单元作为预设实体提取模型进行实体提取的对象,通过基于文本集中文本的字进行实体提取,有利于模型发现新词,从而提高模型对实体提取的准确性。具体地,步骤“对文本集中的文本进行实体提取,得到文本集对应的实体词”,可以包括:
对文本集中的文本进行分字处理,得到文本的字;
生成文本集中文本的字对应的字向量;
采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,字类别包括实体词字类别、非实体词字类别;
基于文本中字对应的字类别,确定文本集对应的实体词。
其中,生成文本集中文本的字对应的字向量的方式可以有多种,例如,可以采用向量生成模型生成文本中字对应的字向量,比如,可以采用预训练的Word2vec模型以字为单元生成字对应的字向量。
在一实施例中,将文本集中文本的字对应的字向量作为预设实体提取模型的输入,通过预设实体提取模型的概率预测层、以及类别标注层,确定并标注出文本集中的实体词,具体的,该预设实体提取模型包括概率预测层和类别标注层,则步骤“采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,所述字类别包括实体词字类别、非实体词字类别”,可以包括:
通过概率预测层,基于文本中字对应的字向量,预测文本中字为实体词字类别的实体类别概率、以及为非实体词字类别的非实体类别概率;
通过类别标注层,基于实体类别概率、以及非实体类别概率,标注文本中字对应的字类别。
例如,为了提高对文本集中的文本进行实体提取的准确率,可以采用BiLSTM-CRF模型对文本集中的文本进行实体提取,例如,可以基于文本中字的字向量,标注出文本中各个字所属的类别,根据每个字对应的类别确定出实体词。其中,字的类别包括为实体词的字、以及不为实体词的字,本申请实施例中,字的类别主要分为5种,即采用5种类别标签对文本中的字进行标注,分别为:实体前(b)、实体中(m)、实体后(e)、单字实体(s)、非实体字(x)。
其中,BiLSTM-CRF模型主要包括BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆网络)层、以及CRF(Conditional Random Field,条件随机场)层。将文本的字对应的字向量作为该模型的输入,通过该模型的BiLSTM层可以预测出每个字属于5种类别的概率,然后,将每个字在5种类别标签上的预测概率作为CRF层的输入,CRF层基于预测概率采用动态规划算法如维特比算法(Viterbi Algorithm),确定并标注出每个字最终所属的类别。
在一实施例中,根据BiLSTM-CRF模型标注的字类别,可以构建得到文本集对应的实体词,具体地,步骤“基于文本中字对应的字类别,确定文本集对应的实体词”,可以包括:
基于文本中字对应的字类别,从文本的字中确定作为实体词的目标字;
根据所述目标字,构建文本集对应的实体词。
例如,可以根据文本中每个字的位置信息,比如每个字在文本中出现的先后顺序,将属于实体词的字进行融合,例如,将连续标注为“b”、“m”、“e”类别标签的字,或者连续标注为“b”、“e”类别标签的字进行组合,便可以得到实体词,对于为标注为s类别标签的字,该字本身就是一个实体词。
在一实施例中,用于实体提取的BiLSTM-CRF模型可以通过训练得到,具体地,该事件元素提取方法,还可以包括:
对样本文本集中的样本文本进行分字处理,得到样本文本的样本字;
获取样本字对应的样本字类别,样本字类别包括样本实体词字类别、以及非样本实体词字类别;
采用实体提取模型,基于样本字对应的样本字向量,标注样本字对应的预测字类别;
基于样本字类别、以及预测字类别,对实体提取模型进行训练,得到预设实体提取模型。
其中,样本字对应的样本字类别,可以是基于预先构建的样本实体词,对样本文本的样本字进行类别标签的标注,例如,以金融领域为例,构建的样本词可以为公司名称如甲公司(为便于后续描述,简称为“甲司”)、乙公司等,也可以为股票名称(如公司名称的简称或者缩写)、或者是股票代码,等等。根据构建的样本实体词,采用将样本文本中的词(或者字)与样本实体词进行匹配,根据样本文本中所匹配到的样本实体词,对样本文本中的样本字进行采用5种类别标签(b/m/e/s/x)进行标注,从而得到样本字对应的样本字类别。
例如,以样本文本“甲司86亿美元收购丁”,其中,该文本中包含样本实体词“甲司”、以及“丁”,则对该文本中的字进行类别标注的结果为:
86 亿
b e x x x x x x s
表1
103、针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字。
其中,字序列中包括至少一个字,目标文本对应的字序列可以包括一个或者多个字序列,其中,为了便于构建目标文本对应的字序列,可以针对每个包含有实体词的目标文本,根据实体词在目标文本中的出现顺序,对实体词进行字标识,从而得到实体词对应的标识字。
例如,文本1“甲司50亿美元收购乙司”、文本2“丙司收购丁司”,其中,文本1中第一个出现的实体词为“甲司”、第二个出现的实体词为“乙司”,文本2中第一个出现的实体词为“丙司”、第二个出现的实体词为“丁司”,则可以将两个文本中第一个出现的实体词标识为“x1”、第二个出现的实体词标识为“”,则原始的文本1、文本2分别表示为:“x150亿美元收购x2”、“x1司收购x2”,其中,对实体词进行标识的方式可以有多种,本申请实施例对此不作限制。
在一实施例中,为了提高事件元素提取的准确性,可以基于标识字在目标文本中的上下文词范围内的字,构建目标文本对应的字序列。具体地,步骤“针对文本集中包含实体词的目标文本,构建目标文本对应的字序列”,可以包括:
对目标文本中的实体词进行字标识,得到实体词对应的标识字;
根据标识字在目标文本中的位置信息,确定标识字对应的上下文词范围;
基于上下文词范围内的原始字、以及标识字,构建所述目标文本对应的字序列。
其中,上下文词范围可以基于标识字的上下文N个词确定,其中N可以为5、6、或者10,等等,N的值可以根据实际应用的需求进行设置。例如,可以在标识字的上下文N个词范围内,构建目标文本对应的字序列。
104、基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字。
其中,构建频繁字序列的方式可以有多种,例如可以通过序列模式挖掘算法构建所有目标文本对应的频繁字序列,为了提高构建频繁字序列的准确性,可以采用PrefixSpan(Prefix-Projected Pattern Growth)算法,即前缀投影的模式挖掘算法,基于目标文本的字序列,构建所有目标文本对应的频繁字序列。
其中,Prefixspan算法可以从大量的由序列组成的序列数据集中挖掘出所有大于支持度阈值的频繁序列集。本申请实施例中,则是基于目标文本对应的字序列,挖掘出所有目标文本中大于支持度阈值的频繁字序列。
例如,可以通过计算每个字在所有目标文本中出现的频次,确定初始频繁字,基于初始频繁字所构成的初始频繁字序列,构建所有目标文本对应的频繁字序列。具体地,步骤“基于字序列,构建所有目标文本对应的频繁字序列”,可以包括:
计算字序列中每个字在所有目标文本中出现的频次;
从字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;
基于字序列的初始频繁字序列,构建所有目标文本对应的频繁字序列。
其中,字序列中每个字在所有目标文本中出现的频次,即为每个字在所有目标文本中出现的文本数量,该频次对应PrefixSpan算法中支持度的概念,则预设频次对应PrefixSpan算法中支持度阈值(即最小支持度)的概念。其中,最小支持度可以由目标文本的总数量、以及预设最小支持率确定,例如,可以将目标文本的总数量与预设最小支持率进行融合如相乘,便可以得到最小支持度,计算公式如下:
min_sup=a×n
其中,min_sup为最小支持度,n为目标文本的总数量,a为预设最小支持率,其中,预设最小支持率可以根据目标文本的总数量进行调整,本申请实施例对此不作限制。
基于初始频繁字序列,对字序列进行过滤处理,得到处理后字序列;
将初始频繁字序列中的字作为前缀字,确定前缀字在处理后字序列中对应的后缀字;
当前缀字中包括标识字、且后缀字中包括标识字时,基于后缀字构建所有目标文本对应的频繁字序列。
其中,基于初始频繁字序列,对字序列进行过滤处理,例如,可以是对字序列中不是初始频繁字的字(即低于支持度阈值的字)进行过滤,而保留字序列中的初始频繁字,从而得到处理后的字序列。
其中,后缀字为出现在前缀字之后的字,即,将处理后字序列中出现在前缀字之后(不包括前缀字)的字作为前缀字对应的后缀字。当满足前缀字和后缀字中同时包括实体词对应的标识字的条件时,基于后缀字递归挖掘频繁字,从而得到所有目标文本对应的频繁字序列。
105、基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词。
其中,基于构建得到的频繁字序列,获取各个频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息,基于包含关系信息、以及词性信息,从所有频繁字序列中筛选出目标频繁字序列,并根据词性信息,从目标频繁字序列中确定与标识字相关联的关联关系词。具体地,步骤“基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词”,可以包括:
获取频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于包含关系信息、以及词性信息,对频繁字序列进行筛选,得到目标频繁字序列;
根据词性信息,从目标频繁字序列中确定与标识字关联的关联关系词。
其中,频繁字序列之间的包含关系信息可以通过判断得到,例如,如果某个序列A所有的项集在序列B的项集中都可以找到,则A就是B的子序列。根据该定义,对于序列A={a1,a2,...an}和序列B={b1,b2,...bm},n≤m,如果存在数字序列1≤j1≤j2≤...≤jn≤m,满足则可以称A是B的子序列,反过来,B是A的超序列。对于构建得到的各个频繁字序列,如果超序列本身含有更多的信息,即超序列包含子序列未包含的上下文辅助词,则保留超序列,删除子序列。例如,以超序列“$亿美元收购#”与子序列“$美元收购#”为例,超序列在子序列的基础上还包括了上下文辅助信息“亿”,因此保留超序列,删除子序列。
其中,在基于包含关系信息对频繁字序列进行筛选的同时,也可以基于词性信息对频繁字序列进行筛选,例如,保留包括有动词的频繁字序列。
根据目标文本中各个词对应的词性信息,确定目标频繁字序列中与标识字相关联的关联关系词,例如,关联标识字的动词。
106、输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。
例如,对目标频繁字序列中的标识字进行还原,得到实体词,提取出目标频繁字序列中的关联关系词如动词,将还原得到的实体词、以及关联关系词进行输出,从而得到文本集对应的事件元素。
比如,步骤103中的文本1输出的事件元素为:甲司(实体词)、收购(关联关系词)、乙司(实体词);文本2输出的事件元素为:丙司(实体词)、收购(关联关系词)、丁司(实体词)。
由上可知,本申请实施例可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。由于该方案能够对待提取事件元素文本集中的文本进行实体提取,基于提取到的实体词,针对包含有实体词的目标文本,构建目标文本对应的字序列(该字序列中包括实体词对应的标识字),并基于该字序列构建所有目标文本对应的频繁字序列,基于构建得到的频繁字序列,确定目标频繁字序列中与标记字相关联的关联关系词,从而得到待提取事件元素的文本集中的事件元素,比如实体词、以及与实体词相关联的关联关系词,从而大大提高了事件元素提取的准确度。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本分类装置具体集成在计算机设备中为例进行说明。
如图2a所示,该事件元素提取方法,具体流程可以如下:
201、计算机设备获取待提取事件元素的文本集,该文本集中包括至少一个文本。
其中,事件元素包括在文本中用于表征某一领域的实体对应的实体词、以及与该实体词相关联的关联关系词等。例如,在金融领域中,可以将公司或者企业的名称作为实体词,也可以将股票名称、或者股票代码作为实体词,等等。关联关系词包括表征实体词之间关联关系的关联动词、或者关联状态词,等等,例如,文本“A公司收购B公司”,其中,A公司、以及B公司则为实体词,而将A公司和B公司相关联的关联关系词为“收购”。
其中,计算机设备获取待提取事件元素的文本集的方式可以有多种,例如,以金融领域为例,可以对获取到的文本如金融类新闻资讯、以及论坛观点文章等文本进行切分,如按句进行切分,得到待提取事件元素的文本集,或者,也可以是对金融类新闻资讯、以及论坛观点文章的标题进行收集得到,等等。
202、计算机设备对文本集中的文本进行实体提取,得到文本集对应的实体词。
其中,计算机设备对文本集中的文本进行实体提取的方式可以有多种,例如,可以基于文本集中文本的字(或者词),采用训练好的BiLSTM-CRF模型进行实体的提取或者抽取,以得到文本集中的实体词。
参见图2b,以文本“甲司收购乙司”为例,在采用BiLSTM-CRF模型进行实体提取之前,可以采用Word2vec模型(即Embedding层,嵌入层)生成文本中每个字对应的字向量,即对于文本中的每个字:X1、X2、X3、X4、X5、X6,生成每个字对应的字向量为:V1、V2、V3、V4、V5、V6,将每个字对应的字向量作为BiLSTM-CRF模型的输入,通过BiLSTM-CRF模型的BiLSTM层预测出每个字在“b”、“m”、“e”、“s”、“x”5种类别标签上的概率Y1、Y2、Y3、Y4、Y5、Y6,Yi=b/m/e/s/x,将BiLSTM层的输出作为CRF层的输入,通过模型的CRF层确定使Y1、Y2、Y3、Y4、Y5、Y6的概率P(Y1、Y2、Y3、Y4、Y5、Y6)最大的最终概率,根据该最终概率标注出文本中每个字所属的类别,即每个字对应的类别标签。由于输入的文本中“甲司”和“乙司”为实体词,且由两个字组成,因此,对实体词“甲司”和“乙司”中的开始字标注为“b”,结束字标注为“e”,而其他不是实体词的字,则标注为“x”。其中,对于预测结果为多个类别的字,选择概率最大的类别,作为该字最终所属的类别。
203、计算机设备针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字。
其中,字序列中包括至少一个字,目标文本对应的字序列可以包括一个或者多个字序列,其中,为了便于构建目标文本对应的字序列,可以针对每个包含有实体词的目标文本,根据实体词在目标文本中的出现顺序,对实体词进行字标识,从而得到实体词对应的标识字。
例如,文本1“甲司50亿美元收购乙司”、文本2“丙司收购丁司”,其中,文本1中第一个出现的实体词为“甲司”、第二个出现的实体词为“乙司”,文本2中第一个出现的实体词为“丙司”、第二个出现的实体词为“丁司”,则可以将两个文本中第一个出现的实体词标识为“x1”、第二个出现的实体词标识为“”,则原始的文本1、文本2分别表示为:“x150亿美元收购x2”、“x1司收购x2”,其中,对实体词进行标识的方式可以有多种,本申请实施例对此不作限制。
在一实施例中,为了提高事件元素提取的准确性,计算机设备可以基于标识字在目标文本中的上下文词范围内的字,构建目标文本对应的字序列。具体地,步骤“针对文本集中包含实体词的目标文本,构建目标文本对应的字序列”,可以包括:
对目标文本中的实体词进行字标识,得到实体词对应的标识字;
根据标识字在目标文本中的位置信息,确定标识字对应的上下文词范围;
基于上下文词范围内的原始字、以及标识字,构建所述目标文本对应的字序列。
其中,上下文词范围可以基于标识字的上下文N个词确定,其中N可以为5、6、或者10,等等,N的值可以根据实际应用的需求进行设置。例如,可以在标识字的上下文N个词范围内,构建目标文本对应的字序列。
例如,以表1、表2、和表3中的文本为例,在同一文本中按照实体词出现的先后顺序对实体词进行编码,比如,分别标记为“实体1”、“实体2”……,则示例如下:
表2
文本 A司 86亿美元收购 B司
标记结果 实体1 86亿美元收购 实体2
表3
文本 C司 收购 D司
标记结果 实体1 收购 实体2
表4
根据文本中实体词对应的编码,将实体词作为单项字对实体词进行字标识,例如,可以将“实体1”标识为“$”、“实体2”标识为“#”……,从而得到每个文本对应的字序列,如表5所示:
$还在3月斥资17.78亿美元收购某国电动车龙头公司#5%的股份
$86亿美元收购#
$收购#
表5
204、计算机设备基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字。
其中,构建频繁字序列的方式可以有多种,例如可以通过序列模式挖掘算法构建所有目标文本对应的频繁字序列,为了提高构建频繁字序列的准确性,可以采用PrefixSpan(Prefix-Projected Pattern Growth)算法,即前缀投影的模式挖掘算法,基于目标文本的字序列,构建所有目标文本对应的频繁字序列。
其中,Prefixspan算法可以从大量的由序列组成的序列数据集中挖掘出所有大于支持度阈值的频繁序列集。本申请实施例中,则是基于目标文本对应的字序列,挖掘出所有目标文本中大于支持度阈值的频繁字序列。
例如,可以通过计算每个字在所有目标文本中出现的频次,确定初始频繁字,基于初始频繁字所构成的初始频繁字序列,构建所有目标文本对应的频繁字序列。具体地,步骤可以包括:
计算字序列中每个字在所有目标文本中出现的频次;
从字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;
基于字序列的初始频繁字序列,构建所有目标文本对应的频繁字序列。
其中,字序列中每个字在所有目标文本中出现的频次,即为每个字在所有目标文本中出现的文本数量,该频次对应PrefixSpan算法中支持度的概念,则预设频次对应PrefixSpan算法中支持度阈值(即最小支持度)的概念。其中,最小支持度可以由目标文本的总数量、以及预设最小支持率确定,例如,可以将目标文本的总数量与预设最小支持率进行融合如相乘,便可以得到最小支持度,计算公式如下:
min_sup=a×n
其中,min_sup为最小支持度,n为目标文本的总数量,a为预设最小支持率,其中,预设最小支持率可以根据目标文本的总数量进行调整,本申请实施例对此不作限制。
基于初始频繁字序列,对字序列进行过滤处理,得到处理后字序列;
将初始频繁字序列中的字作为前缀字,确定前缀字在处理后字序列中对应的后缀字;
当前缀字中包括标识字、且后缀字中包括标识字时,基于后缀字构建所有目标文本对应的频繁字序列。
其中,基于初始频繁字序列,对字序列进行过滤处理,例如,可以是对字序列中不是初始频繁字的字(即低于支持度阈值的字)进行过滤,而保留字序列中的初始频繁字,从而得到处理后的字序列。
其中,后缀字为出现在前缀字之后的字,即,将处理后字序列中出现在前缀字之后(不包括前缀字)的字作为前缀字对应的后缀字。当满足前缀字和后缀字中同时包括实体词对应的标识字的条件时,基于后缀字递归挖掘频繁字,从而得到所有目标文本对应的频繁字序列。
例如,以表5中三个文本对应的字序列为例进行说明,首先,统计表中每个字在三个文本中出现的文本数量,若假设预设最小支持率为0.5,则代表在3个文本中,每个字至少在2个文本中出现,才能大于支持度阈值,则得到大于支持度阈值的字如表6所示:
# $ 亿
出现文本数 3 3 2 2 2 3 3
表6
根据表6中统计得到的大于支持度阈值的字(即频繁字),过滤掉文本中不大于支持度阈值的字,得到过滤后的文本如表7所示:
$亿美元收购#
$亿美元收购#
$收购#
表7
根据表6中的频繁字、以及表7中的过滤后文本,构造一项前缀字(即表中的“一项前缀”)、以及与其对应的后缀字(即表中的“对应后缀”),结果为:
表8
判断前缀字和对应的后缀字中是否同时包含标识字“$”和“#”,当满足同时包含的条件时,才对该前缀字进行下一轮迭代,否则停止对该前缀字对应的后缀字的后续挖掘,表8中符合条件的前缀字、以及对应的后缀字如表9所示:
表9
基于表9中的后缀字,继续挖掘大于支持度阈值的二项前缀字、以及与其对应的后缀字,如表10所示:
表10
以二项前缀为“$亿”为例,继续挖掘大于支持度阈值的三项前缀和对应后缀,如表11所示:
表11
以三项前缀为“$亿美”为例,继续挖掘大于支持度阈值的四项前缀和对应后缀,如表12所示:
表12
以四项前缀为“$亿美元”为例,继续挖掘大于支持度阈值的五项前缀和对应后缀,如表13所示:
表13
以五项前缀为“$亿美元收”为例,继续挖掘大于支持度阈值的六项前缀和对应后缀,如表14所示:
表14
以六项前缀为“$亿美元收购”为例,继续挖掘大于支持度阈值的七项前缀和对应后缀,如表15所示:
七项前缀 对应后缀
$亿美元收购#
表15
最终,按照上述步骤可以挖掘出3个文本对应的频繁字序列,例如,上述一项前缀至七项前缀中包含的频繁字序列。
205、计算机设备基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词。
其中,基于构建得到的频繁字序列,获取各个频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息,基于包含关系信息、以及词性信息,从所有频繁字序列中筛选出目标频繁字序列,并根据词性信息,从目标频繁字序列中确定与标识字相关联的关联关系词。具体地,步骤“基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词”,可以包括:
获取频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于包含关系信息、以及词性信息,对频繁字序列进行筛选,得到目标频繁字序列;
根据词性信息,从目标频繁字序列中确定与标识字关联的关联关系词。
其中,频繁字序列之间的包含关系信息可以通过判断得到,例如,如果某个序列A所有的项集在序列B的项集中都可以找到,则A就是B的子序列。根据该定义,对于序列A={a1,a2,...an}和序列B={b1,b2,...bm},n≤m,如果存在数字序列1≤j1≤j2≤...≤jn≤m,满足则可以称A是B的子序列,反过来,B是A的超序列。对于构建得到的各个频繁字序列,如果超序列本身含有更多的信息,即超序列包含子序列未包含的上下文辅助词,则保留超序列,删除子序列。例如,以超序列“$亿美元收购#”与子序列“$美元收购#”为例,超序列在子序列的基础上还包括了上下文辅助信息“亿”,因此保留超序列,删除子序列。
其中,在基于包含关系信息对频繁字序列进行筛选的同时,也可以基于词性信息对频繁字序列进行筛选,例如,保留包括有动词的频繁字序列。
根据目标文本中各个词对应的词性信息,确定目标频繁字序列中与标识字相关联的关联关系词,例如,关联标识字的动词。
例如,基于对表5的3个文本挖掘出的频繁字序列,获取频繁字序列中同时包含“$”和“#”的各个长度的频繁字序列,从同时包含“$”和“#”的频繁字序列中筛选得到为超序列,且包含有动词的目标频繁字序列,并从目标频繁字序列中确定动词为关联标识字“$”和“#”的关联关系词。
206、计算机设备输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。
例如,对目标频繁字序列中的标识字进行还原,得到实体词,并提取出目标频繁字序列中的关联关系词如动词。将还原得到的实体词、以及关联关系词输出,从而得到文本集对应的事件元素。
例如,对于步骤204中挖掘到的频繁字序列“$亿美元收购#”、“$收购#”,提取动词“收购”,并将“$”还原为原来的实体词“A司”、“A司”、“C司”,将“#”还原为原来的实体词“E司”、“B司”、“D司”,最终提取出表5中三个文本所包含的事件元素,如表16所示:
事件实体词 事件关联关系词 事件实体词
A司 收购 E司
A司 收购 B司
C司 收购 D司
表16
由上可知,本申请实施例可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。由于该方案能够对待提取事件元素文本集中的文本进行实体提取,基于提取到的实体词,针对包含有实体词的目标文本,构建目标文本对应的字序列(该字序列中包括实体词对应的标识字),并基于该字序列构建所有目标文本对应的频繁字序列,基于构建得到的频繁字序列,确定目标频繁字序列中与标记字相关联的关联关系词,从而得到待提取事件元素的文本集中的事件元素,比如实体词、以及与实体词相关联的关联关系词,从而大大提高了事件元素提取的准确度。
为便于更好地实施以上方法,本申请实施例还提供了一种事件元素提取装置。
例如,如图3a所示,该事件元素提取装置可以包括获取单元301、提取单元302、第一构建单元303、第二构建单元304、确定单元305、以及输出单元306等,如下:
获取单元301,用于获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
提取单元302,用于对文本集中的文本进行实体提取,得到文本集对应的实体词;
第一构建单元303,用于针对文本集中包含所述实体词的目标文本,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
第二构建单元304,用于基于所述字序列,构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
确定单元305,用于基于所述频繁字序列,确定目标频繁字序列中与所述标识字关联的关联关系词;
输出单元306,用于输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词。
在一些实施例中,参见图3b,所述第二构建单元304,包括:
计算子单元3041,用于计算所述字序列中每个字在所有目标文本中出现的频次;
第一确定子单元3042,用于从所述字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;
构建子单元3043,用于基于所述字序列的初始频繁字序列,构建所有目标文本对应的频繁字序列。
在一些实施例中,所述构建子单元3043,具体用于:
基于所述初始频繁字序列,对所述字序列进行过滤处理,得到处理后字序列;
将所述初始频繁字序列中的字作为前缀字,确定所述前缀字在所述处理后字序列中对应的后缀字;
当所述前缀字中包括所述标识字、且所述后缀字中包括所述标识字时,基于所述后缀字构建所有目标文本对应的频繁字序列。
在一些实施例中,所述第一构建单元303,具体用于:
对目标文本中的实体词进行字标识,得到所述实体词对应的标识字;
根据所述标识字在目标文本中的位置信息,确定所述标识字对应的上下文词范围;
基于所述上下文词范围内的原始字、以及所述标识字,构建所述目标文本对应的字序列。
在一些实施例中,所述确定单元305,具体用于:
获取所述频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于所述包含关系信息、以及所述词性信息,对所述频繁字序列进行筛选,得到目标频繁字序列;
根据所述词性信息,从目标频繁字序列中确定与所述标识字关联的关联关系词。
在一些实施例中,参见图3c,所述提取单元302,包括:
分字子单元3021,用于对文本集中的文本进行分字处理,得到文本的字;
生成子单元3022,用于生成文本集中文本的字对应的字向量;
标注子单元3023,用于采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,所述字类别包括实体词字类别、非实体词字类别;
第二确定子单元3024,用于基于文本中字对应的字类别,确定文本集对应的实体词。
在一些实施例中,所述第二确定单元3024,具体用于:
基于文本中字对应的字类别,从文本的字中确定作为实体词的目标字;
根据所述目标字,构建文本集对应的实体词。
在一些实施例中,参见图3d,所述事件元素提取装置还包括训练单元307,用于:
对样本文本集中的样本文本进行分字处理,得到样本文本的样本字;
获取所述样本字对应的样本字类别,所述样本字类别包括样本实体词字类别、以及非样本实体词字类别;
采用实体提取模型,基于样本字对应的样本字向量,标注所述样本字对应的预测字类别;
基于所述样本字类别、以及所述预测字类别,对所述实体提取模型进行训练,得到预设实体提取模型。
在一些实施例中,所述预设实体提取模型包括概率预测层和类别标注层,所述标注子单元3023,用于:
通过所述概率预测层,基于文本中字对应的字向量,预测文本中字为实体词字类别的实体类别概率、以及为非实体词字类别的非实体类别概率;
通过所述类别标注层,基于所述实体类别概率、以及非实体类别概率,标注文本中字对应的字类别。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例的事件元素提取装置可以通过获取单元301获取待提取事件元素的文本集,该文本集中包括至少一个文本;由提取单元302对文本集中的文本进行实体提取,得到文本集对应的实体词;由第一构建单元303针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;由第二构建单元304基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;由确定单元305基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;由输出单元306输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。由于该方案能够对待提取事件元素文本集中的文本进行实体提取,基于提取到的实体词,针对包含有实体词的目标文本,构建目标文本对应的字序列(该字序列中包括实体词对应的标识字),并基于该字序列构建所有目标文本对应的频繁字序列,基于构建得到的频繁字序列,确定目标频繁字序列中与标记字相关联的关联关系词,从而得到待提取事件元素的文本集中的事件元素,比如实体词、以及与实体词相关联的关联关系词,从而大大提高了事件元素提取的准确度。
本申请实施例还提供一种计算机设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体检测。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。
以上各个操作具体可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例的计算机设备可以获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。由于该方案能够对待提取事件元素文本集中的文本进行实体提取,基于提取到的实体词,针对包含有实体词的目标文本,构建目标文本对应的字序列(该字序列中包括实体词对应的标识字),并基于该字序列构建所有目标文本对应的频繁字序列,基于构建得到的频繁字序列,确定目标频繁字序列中与标记字相关联的关联关系词,从而得到待提取事件元素的文本集中的事件元素,比如实体词、以及与实体词相关联的关联关系词,从而大大提高了事件元素提取的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种事件元素提取方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取待提取事件元素的文本集,该文本集中包括至少一个文本;对文本集中的文本进行实体提取,得到文本集对应的实体词;针对文本集中包含实体词的目标文本,构建目标文本对应的字序列,该字序列中包括目标文本的原始字、以及实体词对应的标识字;基于字序列,构建所有目标文本对应的频繁字序列,该频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;基于频繁字序列,确定目标频繁字序列中与标识字关联的关联关系词;输出文本集对应的事件元素,该事件元素包括实体词、以及关联关系词。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read OnlyMemory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种事件元素提取方法中的步骤,因此,可以实现本申请实施例所提供的任一种事件元素提取方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种事件元素提取方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种事件元素提取方法,其特征在于,包括:
获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
对文本集中的文本进行实体提取,得到文本集对应的实体词;
对目标文本中的实体词进行字标识,得到所述实体词对应的标识字;
根据所述标识字在目标文本中的位置信息,确定所述标识字对应的上下文词范围;
基于所述上下文词范围内的原始字、以及所述标识字,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
计算所述字序列中每个字在所有目标文本中出现的频次;
从所述字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;基于所述初始频繁字序列,对所述字序列进行过滤处理,得到处理后字序列;
将所述初始频繁字序列中的字作为前缀字,确定所述前缀字在所述处理后字序列中对应的后缀字;
当所述前缀字中包括所述标识字、且所述后缀字中包括所述标识字时,基于所述后缀字构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
获取所述频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于所述包含关系信息、以及所述词性信息,对所述频繁字序列进行筛选,得到目标频繁字序列;
根据所述词性信息,从目标频繁字序列中确定与所述标识字关联的关联关系词;
输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词。
2.根据权利要求1所述的方法,其特征在于,所述对文本集中的文本进行实体提取,得到文本集对应的实体词,包括:
对文本集中的文本进行分字处理,得到文本的字;
生成文本集中文本的字对应的字向量;
采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,所述字类别包括实体词字类别、非实体词字类别;
基于文本中字对应的字类别,确定文本集对应的实体词。
3.根据权利要求2所述的方法,其特征在于,所述基于文本中字对应的字类别,确定文本集对应的实体词,包括:
基于文本中字对应的字类别,从文本的字中确定作为实体词的目标字;
根据所述目标字,构建文本集对应的实体词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对样本文本集中的样本文本进行分字处理,得到样本文本的样本字;
获取所述样本字对应的样本字类别,所述样本字类别包括样本实体词字类别、以及非样本实体词字类别;
采用实体提取模型,基于样本字对应的样本字向量,标注所述样本字对应的预测字类别;
基于所述样本字类别、以及所述预测字类别,对所述实体提取模型进行训练,得到预设实体提取模型。
5.根据权利要求2所述的方法,其特征在于,所述预设实体提取模型包括概率预测层和类别标注层,所述采用预设实体提取模型,基于文本中字对应的字向量,标注文本中字对应的字类别,包括:
通过所述概率预测层,基于文本中字对应的字向量,预测文本中字为实体词字类别的实体类别概率、以及为非实体词字类别的非实体类别概率;
通过所述类别标注层,基于所述实体类别概率、以及非实体类别概率,标注文本中字对应的字类别。
6.一种事件元素提取装置,其特征在于,包括:
获取单元,用于获取待提取事件元素的文本集,所述文本集中包括至少一个文本;
提取单元,用于对文本集中的文本进行实体提取,得到文本集对应的实体词;第一构建单元,用于针对文本集中包含所述实体词的目标文本,构建所述目标文本对应的字序列,所述字序列中包括目标文本的原始字、以及所述实体词对应的标识字;
第二构建单元,用于基于所述字序列,构建所有目标文本对应的频繁字序列,所述频繁字序列包括在所有目标文本中出现的频次大于预设频次的字;
确定单元,用于基于所述频繁字序列,确定目标频繁字序列中与所述标识字关联的关联关系词;
输出单元,用于输出所述文本集对应的事件元素,所述事件元素包括所述实体词、以及所述关联关系词;
所述第一构建单元用于:
对目标文本中的实体词进行字标识,得到所述实体词对应的标识字;
根据所述标识字在目标文本中的位置信息,确定所述标识字对应的上下文词范围;
基于所述上下文词范围内的原始字、以及所述标识字,构建所述目标文本对应的字序列;
所述第二构建单元用于:
计算所述字序列中每个字在所有目标文本中出现的频次;
从所述字序列的字中确定频次大于预设频次的字作为初始频繁字,得到初始频繁字序列;基于所述初始频繁字序列,对所述字序列进行过滤处理,得到处理后字序列;
将所述初始频繁字序列中的字作为前缀字,确定所述前缀字在所述处理后字序列中对应的后缀字;
当所述前缀字中包括所述标识字、且所述后缀字中包括所述标识字时,基于所述后缀字构建所有目标文本对应的频繁字序列;
所述确定单元用于:
获取所述频繁字序列之间的包含关系信息、以及目标文本中各个词对应的词性信息;
基于所述包含关系信息、以及所述词性信息,对所述频繁字序列进行筛选,得到目标频繁字序列;
根据所述词性信息,从目标频繁字序列中确定与所述标识字关联的关联关系词。
7.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~5任一项所述的事件元素提取方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~5任一项所述的事件元素提取方法中的步骤。
CN202010529388.XA 2020-06-11 2020-06-11 一种事件元素提取方法和装置 Active CN111666379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010529388.XA CN111666379B (zh) 2020-06-11 2020-06-11 一种事件元素提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529388.XA CN111666379B (zh) 2020-06-11 2020-06-11 一种事件元素提取方法和装置

Publications (2)

Publication Number Publication Date
CN111666379A CN111666379A (zh) 2020-09-15
CN111666379B true CN111666379B (zh) 2023-09-22

Family

ID=72387156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529388.XA Active CN111666379B (zh) 2020-06-11 2020-06-11 一种事件元素提取方法和装置

Country Status (1)

Country Link
CN (1) CN111666379B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536784A (zh) * 2021-01-05 2021-10-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112989054B (zh) * 2021-04-26 2021-07-30 腾讯科技(深圳)有限公司 一种文本处理方法和装置
CN114398891B (zh) * 2022-03-24 2022-06-24 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110633330A (zh) * 2018-06-01 2019-12-31 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
WO2020091618A1 (ru) * 2018-10-30 2020-05-07 федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" Система определения именованных сущностей с динамическими параметрами
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition
US11972201B2 (en) * 2018-10-05 2024-04-30 Adobe Inc. Facilitating auto-completion of electronic forms with hierarchical entity data models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132947A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 实体挖掘系统和方法
CN110633330A (zh) * 2018-06-01 2019-12-31 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
WO2020091618A1 (ru) * 2018-10-30 2020-05-07 федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" Система определения именованных сущностей с динамическими параметрами
CN110147551A (zh) * 2019-05-14 2019-08-20 腾讯科技(深圳)有限公司 多类别实体识别模型训练、实体识别方法、服务器及终端
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111666379A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666379B (zh) 一种事件元素提取方法和装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106649783B (zh) 一种同义词挖掘方法和装置
CN110019843B (zh) 知识图谱的处理方法及装置
CN109858040B (zh) 命名实体识别方法、装置和计算机设备
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN109241286B (zh) 用于生成文本的方法和装置
CN111222305A (zh) 一种信息结构化方法和装置
CN110309114B (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN110033382B (zh) 一种保险业务的处理方法、装置及设备
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113011889A (zh) 账号异常识别方法、系统、装置、设备及介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113821605A (zh) 一种事件抽取方法
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN110807097A (zh) 分析数据的方法和装置
CN113486649B (zh) 文本评论的生成方法以及电子设备
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN111767730B (zh) 一种事件类型识别方法及装置
CN111241826B (zh) 实体名称识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant