CN114579767A - 因果关系抽取方法、装置、电子设备及可读存储介质 - Google Patents

因果关系抽取方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114579767A
CN114579767A CN202210308591.3A CN202210308591A CN114579767A CN 114579767 A CN114579767 A CN 114579767A CN 202210308591 A CN202210308591 A CN 202210308591A CN 114579767 A CN114579767 A CN 114579767A
Authority
CN
China
Prior art keywords
event
unit
rule
text
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210308591.3A
Other languages
English (en)
Inventor
古仁华
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202210308591.3A priority Critical patent/CN114579767A/zh
Publication of CN114579767A publication Critical patent/CN114579767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种因果关系抽取方法、装置、电子设备及可读存储介质,方法包括步骤:接收待抽取文本,对待抽取文本进行分词操作得到多个单位词,并对各单位词进行词性标注得到各单位词对应的词性标识;获取预设事件规则集,将词性标识与预设事件规则集中的事件子规则匹配的单位词进行组合,得到多个单位事件;获取训练完成的规则模型,将单位事件输入到训练完成的规则模型中,通过训练完成的规则模型的输出得到待抽取文本的因果关系抽取结果。通过设置事件规则集,并在需要对待抽取文本进行事件提取时,直接通过预设事件规则集对单位词进行匹配,而无需基于单位词之间的依存关系进行分析,极大地减少了事件提取时间,进而提高了因果关系的抽取效率。

Description

因果关系抽取方法、装置、电子设备及可读存储介质
技术领域
本申请涉及深度学习技术领域,尤其涉及一种因果关系抽取方法、装置、电子设备及可读存储介质。
背景技术
特定行业的领域图谱构建往往需要对事件与事件之间的因果关系进行抽取;在进行因果关系抽取之前需要事件进行提取,现有技术中往往通过对语料信息进行依存关系分析来得到事件,然而这种方式需要耗费大量的时间,影响抽取效率。
发明内容
本申请提供了一种因果关系抽取方法、装置、电子设备及可读存储介质,旨在解决现有技术中对语料信息的事件提取耗费时间过多影响因果关系抽取效率的技术问题。
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种因果关系抽取方法,所述方法包括步骤:
接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
可选地,所述获取预设事件规则的步骤之前包括:
获取已知事件数据,得到所述已知事件数据中的已知单位词与已知词性;
将所述已知词性基于对应的所述已知单位词的排列顺序进行组合得到所述事件子规则;
将所述事件子规则添加到所述预设事件规则集中。
可选地,所述将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件的步骤包括:
将相邻的若干个所述单位词的词性标识依据对应所述单位词的排列顺序进行组合,得到多个词性组合;
在所述预设事件规则集中匹配与所述词性组合对应的事件子规则;
若匹配到与所述词性组合对应的事件子规则,则将所述词性组合对应的所述单位词进行组合,得到所述单位事件。
可选地,所述将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果的步骤包括:
将任意两个所述单位事件进行组合得到多个判断组合;
分别将各所述判断组合输入到所述训练完成的规则模型中,得到各所述判断组合对应的子关系;
通过各所述子关系得到所述因果关系抽取结果。
可选地,所述将任意两个所述单位事件进行组合得到多个判断组合的步骤包括:
获取任意两个所述单位事件之间的事件间隔;
将事件间隔小于预设间隔的两个所述单位事件进行组合得到多个所述判断组合。
可选地,所述通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果的步骤包括:
获取预设因果规则,并在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果;
通过所述训练完成的规则模型的输出以及所述关键词匹配结果得到所述因果关系抽取结果。
可选地,所述在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果的步骤包括:
获取预设的多个关键词,并在所述待抽取文本中匹配所述关键词,并得到所述待抽取文本中各所述关键词之间的关键事件;
将匹配到的所述关键词基于在所述待抽取文本中的位置进行组合,得到关键词组合;
在所述预设因果规则中匹配与所述关键词组合对应的关键词子规则;
获取所述关键词子规则对应的事件因果关系,并将所述事件因果关系作为各所述关键事件之间的因果关系,得到所述关键词匹配结果。
为实现上述目的,本发明还提供一种因果关系抽取装置,所述因果关系抽取装置包括:
第一接收模块,用于接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
第一获取模块,用于获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
第二获取模块,用于获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的因果关系抽取方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的因果关系抽取方法的步骤。
本发明可以应用于在深度学习技术领域进行自然语言处理,本发明提出的一种因果关系抽取方法、装置、电子设备及可读存储介质,接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。通过预先设置事件规则集,并在需要对待抽取文本进行事件提取时,直接通过预设事件规则集对单位词进行匹配,而无需基于单位词之间的依存关系进行分析,极大地减少了事件提取时间,进而提高了因果关系的抽取效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明因果关系抽取方法第一实施例的流程示意图;
图2为本发明因果关系抽取方法第一实施例步骤S20的细化流程图;
图3为本发明电子设备的模块结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本发明提供一种因果关系抽取方法,参照图1,图1为本发明因果关系抽取方法第一实施例的流程示意图,所述方法包括步骤:
步骤S10,接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
待抽取文本是指需要对其进行因果关系抽取的文本,需要说明的是,接收到的待抽取文本可以为单句文本或长段文本,若待抽取文本为单句文本,则可直接对其进行后续操作,若待抽取文本为长段文本,则可为其进行分句处理,具体如,预先设置分句符号,如“。”、“?”、“!”、“;”等,在待抽取文本中查找分句符号,并以分句符号将待抽取文本进行切分得到多段单句形式的待抽取文本,再依次对各单句形式的待抽取文本进行后续操作;后续方案中的待抽取文本均以单句形式的待抽取文本进行说明。
分词操作用于将待抽取文本依据字之间的相关性划分为单位词,词性标注则用于对单位词的词性进行确认;如地震引发海啸,通过对其进行分词操作,可得到地震、引发、海啸三个单位词,通过词性标注可得到[pair(“地震”,“n”),pair(“引发”,“v”),pair(“海啸”,“n”)];其中,n表示名词,v表示动词;可以理解的是,本实施例仅对分词与词性标注进行举例说明,具体的分词或词性标注所采用的方法以及工具可以根据实际应用场景以及需要进行选择,在此不进行限定。
步骤S20,获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
预设时间规则集中包含有多个事件子规则,事件子规则体现为多个词性的组合,如[n,a]即表示名词+形容词,[a,n]即表示形容词+名词;需要说明的是,事件子规则表示的是连续的单位词之间的词性关系,同时,事件子规则中包含的词性数量不做限制,可以为一个或多个,在对各所述单位词进行匹配时,先从词性数量较大的事件子规则至数量较小的事件子规则开始匹配,即若单位词对应的词性标识匹配到词性数量较大的事件子规则,则不再对其匹配词性数量较小的事件子规则。;
参见图2,所述步骤S20包括步骤:
步骤S21,将相邻的若干个所述单位词的词性标识依据对应所述单位词的排列顺序进行组合,得到多个词性组合;
步骤S22,在所述预设事件规则集中匹配与所述词性组合对应的事件子规则;
步骤S23,若匹配到与所述词性组合对应的事件子规则,则将所述词性组合对应的所述单位词进行组合,得到所述单位事件。
如待抽取文本得到的连续的单位词包括[pair(“发动机”,“n”),pair(“失效”,“a”),pair(“导致,“v”),pair(“停车”,“n”)],此时“发动机”与“失效”刚好匹配到事件子规则[n,a],因此,将“发动机”与“失效”进行组合得到发送机失效这一单位事件,不再对“发动机”与“失效”进行一个词性数量的事件子规则的匹配;“停车”也能够匹配到事件子规则[n],因此,将“停车”单独作为一个单位事件。
步骤S30,获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
规则模型为机器学习模型,具体的规则模型的类型可以基于实际应用场景以及需要进行选择,如支持向量机等,在此不进行限定。需要说明的是,对于规则模型的训练可以基于实际需要进行设置,下面对其中一种可选方式进行说明,其它方式可类比进行设置,不再赘述。获取训练样本,训练样本中包括多个子样本,子样本可以为人工标注或从网络资源中获取;每个子样本中包括两个训练事件及其对应的因果标签;如对文本“测试射频信号,发现射频信号有杂散,故障定位信号处理机故障”进行提取可得到“测试射频信号”、“射频信号有杂散”、“信号处理机故障”三个训练事件,分别任意两个训练事件的因果关系进行标注得到三条子样本,分别为[“测试射频信号”,“射频信号有杂散”,“0”];[“射频信号有杂散”,“信号处理机故障”,“1”];[“测试射频信号”,“信号处理机故障”,“0”],其中因果标签为1表示具有因果关系,因果标签为0表示不具有因果关系;在训练规则模型时,将一条子样本中的两个训练事件作为输入,基于规则模型的输出与因果标签对规则模型进行优化;需要说明的是,规则模型训练的收敛条件、损失函数等设置可基于实际应用场景以及需要进行选择,在此不进行赘述。
本实施例通过预先设置事件规则集,并在需要对待抽取文本进行事件提取时,直接通过预设事件规则集对单位词进行匹配,而无需基于单位词之间的依存关系进行分析,极大地减少了事件提取时间,进而提高了因果关系的抽取效率。
进一步地,在基于本发明的第一实施例所提出的本发明因果关系抽取方法第二实施例中,在所述步骤S20之前包括步骤:
步骤S40,获取已知事件数据,得到所述已知事件数据中的已知单位词与已知词性;
步骤S50,将所述已知词性基于对应的所述已知单位词的排列顺序进行组合得到所述事件子规则;
步骤S60,将所述事件子规则添加到所述预设事件规则集中。
已知事件数据为明确表示单个事件的数据;已知事件数据可以为人工标注或从相关网络资源中获取。已知事件数据中包括已知单位词与已知词性;如已知事件数据为[pair(“发动机”,“n”),pair(“失效”,“a”)],其中已知单位词与其对应的已知词性分别为发动机/名词、失效/形容词,在得到该已知事件数据之后,提取其中的已知词性[n,a]作为事件子规则添加到预设事件规则集中;可以理解的是,事件子规则中的词性是具有相对顺序的,如[n,a]的事件子规则表示连续的两个单位词中在前的单位词的词性为名词,在后的单位词的词性为形容词。
本实施例能够合理地构造预设事件规则集。
进一步地,在基于本发明的第一实施例所提出的本发明因果关系抽取方法第三实施例中,所述步骤S30包括步骤:
步骤S31,将任意两个所述单位事件进行组合得到多个判断组合;
步骤S32,分别将各所述判断组合输入到所述训练完成的规则模型中,得到各所述判断组合对应的子关系;
步骤S33,通过各所述子关系得到所述因果关系抽取结果。
本实施例中通过分别对两个单位事件之间的因果关系进行判断,进而基于判断结果得到一条完整的因果关系链。如当前抽取到的单位事件依据在待抽取文本中的顺序分别为A、B、C、D、E,将任意两个所述单位事件进行组合可以得到
Figure BDA0003563176850000071
个判断组合,分别为【AB】【AC】【AD】【AE】【BC】【BD】【BE】【CD】【CE】【DE】,将这10个判断组合分别输入到训练完成的规则模型中得到10个子关系,若10个子关系分别为(1,0,0,0,1,0,0,1,0,1),其中1表示具有因果关系,0表示不具有因果关系,则可以得到【AB】【BC】【CD】【DE】是具有因果关系的,因此可得因果关系抽取结果为【A】→【B】→【C】→【D】→【E】。
所述步骤S31包括步骤:
步骤S311,获取任意两个所述单位事件之间的事件间隔;
步骤S312,将事件间隔小于预设间隔的两个所述单位事件进行组合得到多个所述判断组合。
事件间隔是指两个单位事件在待抽取文本的位置顺序之间的差,如当前抽取到的单位事件依据在待抽取文本中的顺序分别为A、B、C、D、E,即【AB】【AC】【AD】【AE】之间的事件间隔分别为1、2、3、4,由于在实际抽取过程中,具有因果关系的事件通常相对位置较为接近,因此,为了减少判断步骤,设置预设间隔,只将事件间隔小于预设间隔的两个所述单位事件进行组合得到判断组合,如将预设间隔设置为3,从A、B、C、D、E中组合得到的判断组合为7个,分别为【AB】【AC】【BC】【BD】【CD】【CE】【DE】;相较于前述全量进行组合而言减少了3个判断组合,因此能够减少三次规则模型的判断步骤,从而提高抽取效率。
本实施例能够合理地对单位事件进行组合并提高抽取效率。
进一步地,在基于本发明的第一实施例所提出的本发明因果关系抽取方法第四实施例中,所述步骤S30包括步骤:
步骤S34,获取预设因果规则,并在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果;
关键词是指用以表明两个关键事件之间因果关系的词;关键词子规则表示为若干个关键词的顺序组合;预设因果规则为多个关键词子规则的集合。
关键词子规则中包含的因果关系可以为一个或多个,如因果关系为一个时,关键词子规则可表示为:
关键词条件:(由于)A(所以)B;因果关系:【A】→【B】;
关键词条件:A(是由于/是由)B(导致的/引起的);因果关系:【B】→【A】;
关键词条件:A(原因是/的原因/是因为/是由于)B;因果关系:【B】→【A】;
关键词条件:(由此引发)A(最终使)B;因果关系:【A】→【B】;
因果关系为两个时,关键词子规则可表示为:
关键词条件:A(是由于)B(造成的)C(导致的);因果关系:【B】→【C】→【A】;
关键词条件:A(原因是/是由于/是因为)B(由此可能导致)C;因果关系:【B】→【C】→【A】;
关键词条件:A(原因是/是由于/是因为)B(导致/随后)C;因果关系:【B】→【C】→【A】;
关键词条件:A(导致/致使/使得/引起/因此/造成)B(致使/促进/导致/由此/造成/因此/,使)C;因果关系:【A】→【B】→【C】;
因果关系为三个时,关键词子规则可表示为:
关键词条件:A(发生的原因是,)B(造成)C(使得)D(导致的);因果关系:【B】→【C】→【D】→【A】;
关键词条件:A(原因是/是由于/因)B(使得/导致/致/使)C(导致/造成)D;因果关系:【B】→【C】→【D】→【A】;
关键词条件:A(造成的)B(使得/引发)C(导致/造成)D;因果关系:【A】→【B】→【C】→【D】;
关键词条件:A(导致/致使/使得/引起/因此/造成)B(致使/促进/导致/由此/造成/因此/,使)C(造成)D;因果关系:【A】→【B】→【C】→【D】;
上述A、B、C、D为关键事件,()内为关键词;当待抽取文本中的关键词满足关键词条件时,待抽取文本中的关键事件的因果关系为满足的关键词条件对应的因果关系。需要说明的是,()中的关键词仅为举例说明,可基于实际语句扩展,同时上述仅作为举例说明,因果关系数量超过3时可类比进行设置,在此不进行赘述。
所述步骤S34包括步骤:
步骤S341,获取预设的多个关键词,并在所述待抽取文本中匹配所述关键词,并得到所述待抽取文本中各所述关键词之间的关键事件;
步骤S342,将匹配到的所述关键词基于在所述待抽取文本中的位置进行组合,得到关键词组合;
步骤S343,在所述预设因果规则中匹配与所述关键词组合对应的关键词子规则;
步骤S344,获取所述关键词子规则对应的事件因果关系,并将所述事件因果关系作为各所述关键事件之间的因果关系,得到所述关键词匹配结果。
通过在预设因果规则中对待抽取文本中的关键词进行匹配以确定待抽取文本中关键事件之间的因果关系,需要说明的是,在匹配关键词子规则时,先与因果关系较多的关键词子规则进行匹配,若未匹配到对应的关键词子规则,则再依次与因果关系较少的关键词子规则进行匹配,直到匹配到对应的关键词子规则。
步骤S35,通过所述训练完成的规则模型的输出以及所述关键词匹配结果得到所述因果关系抽取结果。
通过关键词匹配结果得到所述因果关系抽取结果适用于具备明显的关键词的情况,而通过训练完成的规则模型得到所述因果关系抽取结果适用于不具备明显关键词的情况;因此,通过两种抽取方法可适用于更多的应用场景。当两种方式得到的结果不同时,可以对两者的结果进行优先级判断,如将事件的数量或具有因果关系的事件数量较多的结果作为最终的阴沟关系抽取结果;还可以将两者结果进行结合,如通过训练完成的规则模型的输出得到【A】→【B】→【C】;【D】→【E】,通过关键词匹配结果得到【B】→【C】→【D】,将两者相结合即可得到因果关系抽取结果为【A】→【B】→【C】→【D】→【E】。
本实施例能够通过将规则模型于预设因果规则匹配相结合得到更为准确的因果关系抽取结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请还提供一种用于实施上述因果关系抽取方法的因果关系抽取装置,因果关系抽取装置包括:
第一接收模块,用于接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
第一获取模块,用于获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
第二获取模块,用于获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
本因果关系抽取装置通过预先设置事件规则集,并在需要对待抽取文本进行事件提取时,直接通过预设事件规则集对单位词进行匹配,而无需基于单位词之间的依存关系进行分析,极大地减少了事件提取时间,进而提高了因果关系的抽取效率。
需要说明的是,该实施例中的第一接收模块可以用于执行本申请实施例中的步骤S10,该实施例中的第一获取模块可以用于执行本申请实施例中的步骤S20,该实施例中的第二获取模块可以用于执行本申请实施例中的步骤S30。
进一步地,所述因果关系抽取装置还包括:
第三获取模块,用于获取已知事件数据,得到所述已知事件数据中的已知单位词与已知词性;
第一组合模块,用于将所述已知词性基于对应的所述已知单位词的排列顺序进行组合得到所述事件子规则;
第一添加模块,用于将所述事件子规则添加到所述预设事件规则集中。
进一步地,所述将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件的步骤包括:
第一组合单元,用于将相邻的若干个所述单位词的词性标识依据对应所述单位词的排列顺序进行组合,得到多个词性组合;
第一匹配单元,用于在所述预设事件规则集中匹配与所述词性组合对应的事件子规则;
第二组合单元,用于若匹配到与所述词性组合对应的事件子规则,则将所述词性组合对应的所述单位词进行组合,得到所述单位事件。
进一步地,所述第二获取模块包括:
第三组合单元,用于将任意两个所述单位事件进行组合得到多个判断组合;
第一判断单元,用于分别将各所述判断组合输入到所述训练完成的规则模型中,得到各所述判断组合对应的子关系;
第一执行单元,用于通过各所述子关系得到所述因果关系抽取结果。
进一步地,所述第三组合单元包括:
第一获取子单元,用于获取任意两个所述单位事件之间的事件间隔;
第一组合子单元,用于将事件间隔小于预设间隔的两个所述单位事件进行组合得到多个所述判断组合。
进一步地,所述第二获取模块包括:
第一获取单元,用于获取预设因果规则,并在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果;
第二执行单元,用于通过所述训练完成的规则模型的输出以及所述关键词匹配结果得到所述因果关系抽取结果。
进一步地,所述第一获取单元包括:
第二获取子单元,用于获取预设的多个关键词,并在所述待抽取文本中匹配所述关键词,并得到所述待抽取文本中各所述关键词之间的关键事件;
第二组合子单元,用于将匹配到的所述关键词基于在所述待抽取文本中的位置进行组合,得到关键词组合;
第一匹配子单元,用于在所述预设因果规则中匹配与所述关键词组合对应的关键词子规则;
第三获取子单元,用于获取所述关键词子规则对应的事件因果关系,并将所述事件因果关系作为各所述关键事件之间的因果关系,得到所述关键词匹配结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
参照图3,在硬件结构上所述电子设备可以包括通信模块10、存储器20以及处理器30等部件。在所述电子设备中,所述处理器30分别与所述存储器20以及所述通信模块10连接,所述存储器20上存储有计算机程序,所述计算机程序同时被处理器30执行,所述计算机程序执行时实现上述方法实施例的步骤。
通信模块10,可通过网络与外部通讯设备连接。通信模块10可以接收外部通讯设备发出的请求,还可以发送请求、指令及信息至所述外部通讯设备,所述外部通讯设备可以是其它电子设备、服务器或者物联网设备,例如电视等等。
存储器20,可用于存储软件程序以及各种数据。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如对所述待抽取文本进行分词操作得到多个单位词)等;存储数据区可包括数据库,存储数据区可存储根据系统的使用所创建的数据或信息等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器30,是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器20内的软件程序和/或模块,以及调用存储在存储器20内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器30可包括一个或多个处理单元;可选地,处理器30可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器30中。
尽管图3未示出,但上述电子设备还可以包括电路控制模块,所述电路控制模块用于与电源连接,保证其他部件的正常工作。本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序。所述计算机可读存储介质可以是图3的电子设备中的存储器20,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘中的至少一种,所述计算机可读存储介质包括若干指令用以使得一台具有处理器的终端设备(可以是电视,汽车,手机,计算机,服务器,终端,或者网络设备等)执行本发明各个实施例所述的方法。
在本发明中,术语“第一”“第二”“第三”“第四”“第五”仅用于描述的目的,而不能理解为指示或暗示相对重要性,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,本发明保护的范围并不局限于此,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和替换,这些变化、修改和替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种因果关系抽取方法,其特征在于,所述方法包括:
接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
2.如权利要求1所述的因果关系抽取方法,其特征在于,所述获取预设事件规则的步骤之前包括:
获取已知事件数据,得到所述已知事件数据中的已知单位词与已知词性;
将所述已知词性基于对应的所述已知单位词的排列顺序进行组合得到所述事件子规则;
将所述事件子规则添加到所述预设事件规则集中。
3.如权利要求1所述的因果关系抽取方法,其特征在于,所述将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件的步骤包括:
将相邻的若干个所述单位词的词性标识依据对应所述单位词的排列顺序进行组合,得到多个词性组合;
在所述预设事件规则集中匹配与所述词性组合对应的事件子规则;
若匹配到与所述词性组合对应的事件子规则,则将所述词性组合对应的所述单位词进行组合,得到所述单位事件。
4.如权利要求1所述的因果关系抽取方法,其特征在于,所述将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果的步骤包括:
将任意两个所述单位事件进行组合得到多个判断组合;
分别将各所述判断组合输入到所述训练完成的规则模型中,得到各所述判断组合对应的子关系;
通过各所述子关系得到所述因果关系抽取结果。
5.如权利要求4所述的因果关系抽取方法,其特征在于,所述将任意两个所述单位事件进行组合得到多个判断组合的步骤包括:
获取任意两个所述单位事件之间的事件间隔;
将事件间隔小于预设间隔的两个所述单位事件进行组合得到多个所述判断组合。
6.如权利要求1所述的因果关系抽取方法,其特征在于,所述通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果的步骤包括:
获取预设因果规则,并在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果;
通过所述训练完成的规则模型的输出以及所述关键词匹配结果得到所述因果关系抽取结果。
7.如权利要求6所述的因果关系抽取方法,其特征在于,所述在所述预设因果规则中匹配与所述待抽取文本对应的关键词子规则,得到关键词匹配结果的步骤包括:
获取预设的多个关键词,并在所述待抽取文本中匹配所述关键词,并得到所述待抽取文本中各所述关键词之间的关键事件;
将匹配到的所述关键词基于在所述待抽取文本中的位置进行组合,得到关键词组合;
在所述预设因果规则中匹配与所述关键词组合对应的关键词子规则;
获取所述关键词子规则对应的事件因果关系,并将所述事件因果关系作为各所述关键事件之间的因果关系,得到所述关键词匹配结果。
8.一种因果关系抽取装置,其特征在于,所述因果关系抽取装置包括:
第一接收模块,用于接收待抽取文本,对所述待抽取文本进行分词操作得到多个单位词,并对各所述单位词进行词性标注得到各所述单位词对应的词性标识;
第一获取模块,用于获取预设事件规则集,将所述词性标识与所述预设事件规则集中的事件子规则匹配的所述单位词进行组合,得到多个单位事件;
第二获取模块,用于获取训练完成的规则模型,将所述单位事件输入到所述训练完成的规则模型中,通过所述训练完成的规则模型的输出得到所述待抽取文本的因果关系抽取结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的因果关系抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的因果关系抽取方法的步骤。
CN202210308591.3A 2022-03-24 2022-03-24 因果关系抽取方法、装置、电子设备及可读存储介质 Pending CN114579767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308591.3A CN114579767A (zh) 2022-03-24 2022-03-24 因果关系抽取方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308591.3A CN114579767A (zh) 2022-03-24 2022-03-24 因果关系抽取方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114579767A true CN114579767A (zh) 2022-06-03

Family

ID=81777315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308591.3A Pending CN114579767A (zh) 2022-03-24 2022-03-24 因果关系抽取方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114579767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293156A (zh) * 2022-09-29 2022-11-04 四川大学华西医院 监狱短信异常事件提取方法、装置、计算机设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293156A (zh) * 2022-09-29 2022-11-04 四川大学华西医院 监狱短信异常事件提取方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN111145737B (zh) 语音测试方法、装置和电子设备
CN105224201A (zh) 一种界面显示的方法及终端
CN107797823B (zh) 业务规则管理方法、装置、存储介质和计算机设备
CN115328756A (zh) 一种测试用例生成方法、装置及设备
CN113067743A (zh) 流规则提取方法、装置、系统及存储介质
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN108415998B (zh) 应用依赖关系更新方法、终端、设备及存储介质
CN114579767A (zh) 因果关系抽取方法、装置、电子设备及可读存储介质
CN111464515A (zh) 一种数据转换方法、装置、设备及存储介质
CN105808688B (zh) 基于人工智能的补全检索方法及装置
CN112363904A (zh) log数据分析定位方法、装置及计算机可读存储介质
CN112231459A (zh) 一种基于知识图谱实现软件测试智能问答的方法及系统
CN111142871A (zh) 一种前端页面开发系统、方法、设备、介质
CN110659208A (zh) 测试数据集的更新方法和装置
CN116185853A (zh) 代码校验方法及装置
CN114116712A (zh) 扩展字段处理方法、装置、电子设备及存储介质
CN113705816A (zh) 流程图生成方法、电子装置、装置及可读存储介质
CN104243666B (zh) 语言处理方法及装置
CN111797201A (zh) Bim模型的获取方法、装置、设备及计算机可读存储介质
US8601078B2 (en) Communication terminal and method for creating e-mail
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
CN108304433B (zh) 一种数据搜索方法及其设备、存储介质、服务器
CN110941765A (zh) 搜索意图识别方法、信息搜索方法、装置及电子设备
CN109284097A (zh) 实现复杂数据分析的方法、设备、系统及存储介质
CN116050375B (zh) 政策文件相似度比较方法、装置、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination