CN114168727A - 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 - Google Patents
面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 Download PDFInfo
- Publication number
- CN114168727A CN114168727A CN202111481843.4A CN202111481843A CN114168727A CN 114168727 A CN114168727 A CN 114168727A CN 202111481843 A CN202111481843 A CN 202111481843A CN 114168727 A CN114168727 A CN 114168727A
- Authority
- CN
- China
- Prior art keywords
- sentence
- document
- event
- dimension
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
面向金融领域的文档级事件主体对抽取的方法、存储介质及设备,属于信息技术领域。为了解决现有的基于句子级的事件抽取的方法不能很好的应用于金融领域内文档的事件抽取,从而存在提取事件信息的性能较低的问题。本发明首先将文档按句进行分割,将第i个句子基于字通过词典映射成句子id,并将句子通过第一个字的Embedding矩阵,然后输入BERT,取其最后一层的编码得到句子中的每个token的编码并得到特征向量C;根据每个事件类型获取对应的t,获取文档级上下文表示eglobal;将每个token的hi,j拼接C、t和eglobal;最后基于前馈神经网络和CRF得到标注结果并最终得到主体对。主要用于金融领域的文档级事件主体对抽取。
Description
技术领域
本发明涉及文档级事件主体对抽取的方法,属于信息技术领域。
背景技术
事件抽取作为信息抽取的一个重要分支,是从非结构化信息中,抽取出用户所感兴趣以及需要的数据,并以结构化形式保存下来,以供后续的任务以及分析使用,在自动摘要、自动问答、信息检索等领域中有着广泛的使用,在自然语言处理中有着重要的地位。
随着市场经济的发展,特别是股市经济的发展,数字化金融文档呈现爆炸式增长。人们对金融事件越来越重视,通过研究分析这些大量的金融事件文档,对于公司感知风险投资决策有着非常重要的意义,然而如果单纯的靠人力从海量的文档中提取有价值的信息,将会花费大量人力时间,而且由于金融事件具有一定的时效性,如果不能及时提取信息,信息将失去价值,因此采用事件抽取的方式自动快速获取大量文档中所包含的信息就显得很有意义。目前事件抽取领域主要的研究方法有三大类,包括基于模式匹配、基于机器学习和基于深度学习的方法。
传统的基于模式匹配的方法,是对于某类事件的识别和抽取是在相应的模式的指导下进行,采用各种模式匹配算法将待抽取的文本句和已建立的模板进行匹配。模式匹配的方法在特定领域特定范围内能够取得较高的性能,但具有的问题是移植性较差。例如Surdeanu和Harabagiu针对开放域的事件抽取系统FSA。
基于机器学习的方法识别,就是借鉴文本分类的思想,转换为分类问题,其核心在于分类器的构造以及特征的选取。事件识别包括事件类别的识别以及事件元素的识别,主体的识别包含于事件元素的识别。
然而基于机器学习的方法需要投入大量工程用于有效特征的选取,且模型的性能依赖于特征选取的好坏。随着近年来深度学习的快速发展,基于深度学习的事件抽取方法成了研究的方向之一。深度学习是机器学习的技术和研究领域之一,其本质是使用神经网络结构,对人类的神经结构进行模拟,借此模仿人类学习及利用所学知识处理问题的过程。深度学习被应用于对复杂特征的提取、对高维数据的理解和对大样本数据的学习,深度学习的一大优点在于对于输入的数据可以自动学习抽象的特征,较传统的机器学习可以减少特征工程的工作量。因为深度学习在计算机视觉、自然语言处理、自动控制等各个领域取得的巨大突破,以及超越传统算法的表现,使之被越来越多的应用在计算机问题的各个方向。因此,基于深度学习的事件抽取算法应运而生。
基于神经网络的方法是将事件识别作为一种有监督多分类任务,可以分为基于流水线的事件识别方法和基于联合模型的事件识别方法。不同于传统离散特征,神经网络方法以连续向量为特征,然后通过神经网络模型学习更抽象的特征。采用神经网络进行端到端的学习,能够有效减少特征工程,省去大量的人力物力。
但是,现有的事件抽取方法基本都是基于句子级别进行抽取,通过对输入的句子进行特征的提取,包括基于词的特征和基于词对的特征,利用这些特征来对事件的触发词以及论元进行识别。基于句子级的事件抽取的方法不能很好的解决现有金融领域内文档的事件抽取的工作,提取事件信息的性能往往不能令人满意。
发明内容
本发明是为了解决现有的基于句子级的事件抽取的方法不能很好的应用于金融领域内文档的事件抽取,从而存在提取事件信息的性能较低的问题。
面向金融领域的文档级事件主体对抽取的方法,包括以下步骤:
步骤一、首先将文档按句进行分割d=[s1;s2;…;sNs],其中si表示第i个句子,Ns为文档中句子的个数;
然后将第i个句子基于字通过词典映射成句子id;
步骤二、将映射成id的句子si通过第一个字的Embedding矩阵得到每个token,即esi=[wi,1;wi,2;…wi,Nw],其中Nw表示第i个句子中共有Nw个token;
然后输入至第一BERT中,取BERT输出的最后一层的编码,得到句子中的每个token的编码[hi,1;hi,2;…hi,Nw];
步骤三、将步骤二中的句子的embedding esi=[wi,1;wi,2;…wi,Nw]输入至CNN中获取n-gram的特征,将三个卷积核得到的三个向量拼接起来得到特征向量C;
步骤四、对于步骤一输入的事件类型,首先对事件类型排序,然后按照排序好的顺序,得到每个事件类型对应的顺序位置,将每个事件类型映射成固定的事件类型id;然后在事件类型的Embedding矩阵中获取该事件类型的embedding t;
步骤五、获取文档级上下文表示eglobal:
首先将文档分割后的每个句子si都按照和步骤一步骤二相同的方式得到每个句子的embedding esi=[wi,1;wi,2;…wi,Nw],接着经过第二BERT得到每个句子的编码向量,文档中有n个句子,那么得到文档所有句子的编码矩阵[h’1;h’2;…;h’Ns];
接着将上述编码矩阵[h’1;h’2;…;h’Ns]通过maxpooling,得到编码矩阵[c1;c2;…;cNs];
然后经过Transformer进行信息的交互,得到dfinal=[cd 1;cd 2;…;cd Ns];
最后将dfinal进行maxpooling,最终得到文档级表示向量eglobal;
步骤六、步骤二中得到的句子的编码hi=[hi,1;hi,2;…hi,Nw]的每个token的embedding hi,j在长度维度上拼接上步骤三、步骤四和步骤五中得到的向量C、t和eglobal,拼接完成后得到hfinal;
步骤七、将步骤六中得到的向量经过前馈神经网络改变长度维度,将长度维度变换为序列标注中标签个数的大小;
步骤八、将步骤七中得到的向量输入到CRF中得到标注结果,再通过标注的得到的标签,根据这些标签找到原文对应的主体对,输出主体对作为结果。
进一步地,所述步骤五中在得到编码矩阵[c1;c2;…;cNs]之后,对于当前抽取的第i个句子,取当前句子的前后各三个句子经过Transformer进行信息的交互,接着得到dfinal=[esi-3;esi-2;…;ei+3]。
进一步地,步骤二所述每个token的向量维度为768。
进一步地,步骤三所述CNN的卷积核分别采用(1,768),(3,770),(5,772),得到特征向量C的维度是128。
进一步地,步骤四所述的向量t的维度是1*128。
进一步地,步骤五所述每个句子的编码向量的维度为len*768,其中len是句子的长度;所有句子的编码矩阵[h’1;h’2;…;h’Ns]维度为n*len*768。
进一步地,步骤五所述编码矩阵[c1;c2;…;cNs]的维度为n*768;dfinal=[cd 1;cd 2;…;cd Ns]的维度为n*768;文档级表示向量eglobal的维度为1*768。
进一步地,步骤六所述拼接完成后得到hfinal的维度为len*2048。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的面向金融领域的文档级事件主体对抽取的方法。
一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的面向金融领域的文档级事件主体对抽取的方法。
有益效果:
然而本发明的任务是给定一篇金融文档与预定义的事件类型集,抽取这篇文档中所有相关事件类型的事件主体对。事件主体对中的发起主体和承受主体有时并不位于同一个句子当中,需要对整个文档进行跨句子的识别获取最终结果。因此该任务是一个文档级别的事件抽取任务,单纯采用基于句子的方法不能很好完成任务。本发明在已有的基于句子方法的基础上,考虑利用全局信息达到抽取事件主体对的目标。
本方法的目的是针对在金融领域中,对文档进行事件主体对抽取时,以往的方法大多基于句子级,无法考虑文档级上下文的信息,导致抽取的性能欠缺,例如,单独基于句子使用序列标注方法进行抽取时,性能只有63.9%。在添加了文档级上下文向量后,性能上有3.3%的提升。通过在抽取过程中对每个句子的embedding后添加上文档级上下文的表示向量,来使模型在抽取当前句子的时候,能够获取当前句子之外的句子的信息。
本方法针对文档进行事件主体对抽取时,一篇文档可能会出现多个事件类型,模型在抽取某个事件类型的事件主体对时,会出现将其他事件类型的事件主体对误作为当前要抽取的事件类型的事件主体对抽取出来,这种错误很大程度上影响了抽取的性能,因此,在抽取的过程中,为了告诉模型当前要抽取的时什么事件类型,将事件类型编码成向量与句子的编码的向量进行拼接,借此给模型加上一个强的先验特征。加上给向量之前,模型的性能是61.1%,加上该特征之后,性能提升至67.2%,提升了6.1个百分点。
附图说明:
图1为本发明流程图;
图2为本发明模型一操作流程图;
图3为本发明模型二操作流程图。
具体实施方式:
具体实施方式一:
本实施方式为面向金融领域的文档级事件主体对抽取的方法,是一种面向金融领域的文档级事件主体对抽取方法,基于以往的基于句子抽取的方法,即使用序列标注作为标注的框架,通过结合CNN提取的n-gram的特征,事件类型的先验特征和编码文档得到的文档上下文向量特征,增强模型对文档的信息获取的能力,提高模型在文档范围内抽取事件主体对的能力。
结合图1至图2说明本实施方式,本实施方式所述的一种面向金融领域的文档级事件主体对抽取的方法,具体包括以下步骤:
步骤一、输入一篇金融领域的文档和需要抽取的事件类型,首先将文档按句进行分割d=[s1;s2;…;sNs],其中si表示第i个句子,Ns为文档中句子的个数;将第i个句子中的每个字按照字在词典中的顺序位置,通过词典映射成对应的id,例如“我是学生”这句话,在词典中分别查找“我”,“是”,“学”,“生”四个字的顺序位置,假设是145,167,890,6799,那么这句话就会被映射成向量[145,167,890,6799]。
步骤二、将映射成id的句子si通过第一个字的Embedding矩阵得到每个token即字的embedding,该句表示为esi=[wi,1;wi,2;…;wi,Nw],其中Nw表示第i个句子中共有Nw个token;本实施方式中,每个token的向量维度为768。
然后输入至第一BERT中,取第一BERT输出的最后一层的编码,得到句子中的每个token的编码[hi,1;hi,2;…hi,Nw],本实施方式中每个token向量的维度为768。
步骤三、将步骤二中的句子的embedding esi=[wi,1;wi,2;…wi,Nw]输入至CNN中获取n-gram的特征,本实施方式中卷积核分别采用(1,768),(3,770),(5,772),通过卷积核得到的向量维度是128,将三个卷积核得到的三个向量拼接起来得到128*3的n-gram的特征向量C。
步骤四、对于步骤一输入的事件类型,首先对事件类型任意排序,比如按照字典排序,然后按照排序好的顺序,得到每个事件类型对应的顺序位置,这样就可以将每个事件类型映射成固定的事件类型id,即上述的顺序位置;然后在事件类型的Embedding矩阵中获取该事件类型的embedding t,所以向量t是模型需要识别的事件类型编码得到的向量,该向量的维度是1*128。
步骤五、获取文档级上下文表示eglobal:
首先将文档分割后的每个句子si都按照和步骤一步骤二相同的方式得到每个句子的embedding esi=[wi,1;wi,2;…wi,Nw],注意这里使用的基于字的词典,以及字的embedding矩阵和步骤一步骤二完全一致,接着经过第二BERT得到每个句子的编码向量,向量的维度信息为len*768,其中len是句子的长度,实现中设置成100,假设文档中有n个句子,那么得到文档所有句子的编码矩阵[h’1;h’2;…;h’Ns],维度信息为n*len*768;
接着将上述编码矩阵[h’1;h’2;…;h’Ns]通过maxpooling(最大池化),过滤信息后得到新的编码矩阵[c1;c2;…;cNs],维度信息为n*768。
然后经过Transformer进行信息的交互,得到dfinal=[cd 1;cd 2;…;cd Ns],维度的信息是n*768;
最后将dfinal进行maxpooling(最大池化),最终得到文档级表示向量eglobal,维度是1*768;eglobal实际是对全局文档编码得到的向量。
本发明的重点在于这里的改进通过对整个文档的句子进行编码,得到了eglobal,后续模型通过融合向量eglobal,能够结合文档级的上下文的信息,使得模型不仅能够关注到当前句子的信息,还能获取当前句子以外其他句子的信息,借此,在识别主体对的时候,模型能够同时考虑到一个事件中不在同一个句子的发起主体和承受主体,提高了模型的跨句抽取的能力,从而能够提高模型的抽取能力,提高模型的性能。
步骤六、步骤二中得到的句子的编码hi=[hi,1;hi,2;…hi,Nw]的每个token的embedding hi,j在长度维度上拼接上步骤三、步骤四和步骤五中得到的向量C、t和eglobal,拼接完成后得到hfinal,此时的维度是len*2048,len是句子的长度。
步骤七、将步骤六中得到的向量经过前馈神经网络改变长度维度,将长度维度变换为序列标注中标签个数的大小。
步骤八、将步骤七中得到的向量输入到CRF中得到标注结果,再通过标注的得到的标签,根据这些标签找到原文对应的主体对,输出主体对作为结果。
CRF(Conditional Random Field)的引入是为了解决在进行标注时,没有考虑标签之间相互依赖关系的问题,这一问题会导致部分精度的损失。主体识别任务存在规则上的限制,例如标签中,B标签表示当前对应的字是主体起始的字,I标签表示当前对应的字是主体中间的字,O标签表示当前对应的字不是主体的字,例如假设“哈尔滨工业大学在哈尔滨。”这句话中哈尔滨工业大学是主体,那么对应的正确的标签则是“B I I I I I I O O OO”,由此可见由于B表示一个主体的起始,那么在标注过程中,I标签只能跟在B标签或者I标签的后面,而不能跟在O标签的后面。因此为了避免这种标注错误,从而引入CRF(条件随机场)来学习标签之间的关系,而不是各个标签独立的标注。得到标注结果,再通过标注的得到的标签,根据这些标签找到原文对应的主体对,输出主体对作为结果。
具体实施方式二:
本实施方式为一种面向金融领域的文档级事件主体对抽取的方法,本实施方式与具体实施方式一不同的地方,是本实施方式考虑到在实施时,由于在方式一步骤五中,构建全局文档级的表示是将整篇文档按句分割后,将所有的句子同时输入到模型二中进行编码得到的。因为是将所有的句子全部输入模型中,所以导致了模型在训练过程中,速度较慢,并且Batch_size参数不能设置较大,因此针对这个问题,仔细考察了现有的数据后,发现事件的发起主体和承受主体相邻基本不超过三个句子(占比80%左右),因此本实施方式对步骤五进行修改。
如图3所示,步骤五所述的获取文档级上下文表示eglobal的过程包括以下步骤:
首先,将文档分割后的每个句子si都按照实施方式一中步骤一步骤二相同的方式得到每个句子的embedding esi=[wi,1;wi,2;…wi,Nw],注意这里使用的基于字的词典,以及字的embedding矩阵和步骤一步骤二完全一致,接着经过第二BERT得到每个句子的编码向量,向量的维度信息为len*768,其中len是句子的长度,实现中设置成100,假设文档中有n个句子,那么得到文档所有句子的编码矩阵[h’1;h’2;…;h’Ns],维度信息为n*100*768;
接着将上述编码矩阵[es1;es2;…;eNs]通过maxpooling(最大池化),过滤信息后得到新的编码矩阵[c1;c2;…;cNs],维度信息为n*768;
然后,对于当前抽取的第i个句子,取当前句子的前后各三个句子经过Transformer进行信息的交互,这样就可以缓解一次性输入所有的句子带来的训练速度较慢以及对机器内存要求较高带来的问题,接着得到dfinal=[esi-3;esi-2;…;ei+3];
最后将dfinal进行Maxpooling(最大池化),最终得到文档级表示向量eglobal。
其他步骤及参数与具体实施方式一相同。
本方法的目的是针对在金融领域中,对文档进行事件主体对抽取时,以往的方法大多基于句子级,无法考虑文档级上下文的信息,导致抽取的性能欠缺,例如,单独基于句子使用序列标注方法进行抽取时,性能只有63.9%。在添加了文档级上下文向量后,性能上有3.3%的提升。通过在抽取过程中对每个句子的embedding后添加上文档级上下文的表示向量,来使模型在抽取当前句子的时候,能够获取当前句子之外的句子的信息。
本方法针对文档进行事件主体对抽取时,一篇文档可能会出现多个事件类型,模型在抽取某个事件类型的事件主体对时,会出现将其他事件类型的事件主体对误作为当前要抽取的事件类型的事件主体对抽取出来,这种错误很大程度上影响了抽取的性能,因此,在抽取的过程中,为了告诉模型当前要抽取的时什么事件类型,将事件类型编码成向量与句子的编码的向量进行拼接,借此给模型加上一个强的先验特征。加上给向量之前,模型的性能是61.1%,加上该特征之后,性能提升至67.2%,提升了6.1个百分点。
具体实施方式三:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如具体实施方式一或二所述的面向金融领域的文档级事件主体对抽取的方法。
具体实施方式四:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如具体实施方式一或二所述的面向金融领域的文档级事件主体对抽取的方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.面向金融领域的文档级事件主体对抽取的方法,其特征在于,包括以下步骤:
步骤一、首先将文档按句进行分割d=[s1;s2;…;sNs],其中si表示第i个句子,Ns为文档中句子的个数;
然后将第i个句子基于字通过词典映射成句子id;
步骤二、将映射成id的句子si通过第一个字的Embedding矩阵得到每个token,即esi=[wi,1;wi,2;…wi,Nw],其中Nw表示第i个句子中共有Nw个token;
然后输入至第一BERT中,取BERT输出的最后一层的编码,得到句子中的每个token的编码[hi,1;hi,2;…hi,Nw];
步骤三、将步骤二中的句子的embedding esi=[wi,1;wi,2;…wi,Nw]输入至CNN中获取n-gram的特征,将三个卷积核得到的三个向量拼接起来得到特征向量C;
步骤四、对于步骤一输入的事件类型,首先对事件类型排序,然后按照排序好的顺序,得到每个事件类型对应的顺序位置,将每个事件类型映射成固定的事件类型id;然后在事件类型的Embedding矩阵中获取该事件类型的embedding t;
步骤五、获取文档级上下文表示eglobal:
首先将文档分割后的每个句子si都按照和步骤一步骤二相同的方式得到每个句子的embedding esi=[wi,1;wi,2;…wi,Nw],接着经过第二BERT得到每个句子的编码向量,文档中有n个句子,那么得到文档所有句子的编码矩阵[h’1;h’2;…;h’Ns];
接着将上述编码矩阵[h’1;h’2;…;h’Ns]通过maxpooling,得到编码矩阵[c1;c2;…;cNs];
然后经过Transformer进行信息的交互,得到dfinal=[cd 1;cd 2;…;cd Ns];
最后将dfinal进行maxpooling,最终得到文档级表示向量eglobal;
步骤六、步骤二中得到的句子的编码hi=[hi,1;hi,2;…hi,Nw]的每个token的embeddinghi,j在长度维度上拼接上步骤三、步骤四和步骤五中得到的向量C、t和eglobal,拼接完成后得到hfinal;
步骤七、将步骤六中得到的向量经过前馈神经网络改变长度维度,将长度维度变换为序列标注中标签个数的大小;
步骤八、将步骤七中得到的向量输入到CRF中得到标注结果,再通过标注的得到的标签,根据这些标签找到原文对应的主体对,输出主体对作为结果。
2.根据权利要求1所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,所述步骤五中在得到编码矩阵[c1;c2;…;cNs]之后,对于当前抽取的第i个句子,取当前句子的前后各三个句子经过Transformer进行信息的交互,接着得到dfinal=[esi-3;esi-2;…;ei+3]。
3.根据权利要求1或2所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤二所述每个token的向量维度为768。
4.根据权利要求3所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤三所述CNN的卷积核分别采用(1,768),(3,770),(5,772),得到特征向量C的维度是128。
5.根据权利要求4所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤四所述的向量t的维度是1*128。
6.根据权利要求5所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤五所述每个句子的编码向量的维度为len*768,其中len是句子的长度;所有句子的编码矩阵[h’1;h’2;…;h’Ns]维度为n*len*768。
7.根据权利要求6所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤五所述编码矩阵[c1;c2;…;cNs]的维度为n*768;dfinal=[cd 1;cd 2;…;cd Ns]的维度为n*768;文档级表示向量eglobal的维度为1*768。
8.根据权利要求7所述的面向金融领域的文档级事件主体对抽取的方法,其特征在于,步骤六所述拼接完成后得到hfinal的维度为len*2048。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的面向金融领域的文档级事件主体对抽取的方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的面向金融领域的文档级事件主体对抽取的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481843.4A CN114168727B (zh) | 2021-12-06 | 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481843.4A CN114168727B (zh) | 2021-12-06 | 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114168727A true CN114168727A (zh) | 2022-03-11 |
CN114168727B CN114168727B (zh) | 2024-07-12 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370338A1 (en) * | 2017-06-22 | 2019-12-05 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, apparatus, computer device, and storage medium |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN113361259A (zh) * | 2021-06-04 | 2021-09-07 | 浙江工业大学 | 一种服务流程抽取方法 |
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370338A1 (en) * | 2017-06-22 | 2019-12-05 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, apparatus, computer device, and storage medium |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113361259A (zh) * | 2021-06-04 | 2021-09-07 | 浙江工业大学 | 一种服务流程抽取方法 |
CN113505200A (zh) * | 2021-07-15 | 2021-10-15 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
Non-Patent Citations (1)
Title |
---|
丁效;宋凡;秦兵;刘挺;: "音乐领域典型事件抽取方法研究", 中文信息学报, no. 02, 15 March 2011 (2011-03-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN111159414B (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN112395393A (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
CN113128233B (zh) | 一种心理疾病知识图谱的构建方法及系统 | |
CN109492230A (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN111428513A (zh) | 一种基于卷积神经网络的虚假评论分析方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN110705306B (zh) | 一种作文文题一致性的测评方法 | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN111274494A (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
Zhang et al. | Modeling the relationship between user comments and edits in document revision | |
CN114168727A (zh) | 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 | |
CN114168727B (zh) | 面向金融领域的文档级事件主体对抽取的方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |