CN111309849B - 一种基于联合学习模型的细粒度数值信息抽取方法 - Google Patents

一种基于联合学习模型的细粒度数值信息抽取方法 Download PDF

Info

Publication number
CN111309849B
CN111309849B CN202010083902.1A CN202010083902A CN111309849B CN 111309849 B CN111309849 B CN 111309849B CN 202010083902 A CN202010083902 A CN 202010083902A CN 111309849 B CN111309849 B CN 111309849B
Authority
CN
China
Prior art keywords
word
numerical
learning model
joint learning
accessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010083902.1A
Other languages
English (en)
Other versions
CN111309849A (zh
Inventor
于佳婕
丁文韬
瞿裕忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010083902.1A priority Critical patent/CN111309849B/zh
Publication of CN111309849A publication Critical patent/CN111309849A/zh
Application granted granted Critical
Publication of CN111309849B publication Critical patent/CN111309849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了利用一种基于联合学习模型的细粒度数值信息抽取方法,包括如下步骤:对输入文本进行预处理;根据数值相关正则表达式识别候选的数值,以数值为触发词,与其前后词例拼接,作为联合学习模型的输入;联合学习模型的底层接入词嵌入层,并对词嵌入层的输出加入数值触发词的位置信息,得到每个词例最终的分布式表示;基于分布式表示接入后续的特征提取网络,并在高层分别接入具体任务的网络:接入分类网络得到数值信息的语义类型,接入序列标注网络得到数值触发词相关的数个语义角色;合并具体任务的输出得到数值信息单元;针对多个数值信息单元,基于统计方法判断它们之间的复合关系。本发明无需人工设计特征、准确性高、泛化能力强。

Description

一种基于联合学习模型的细粒度数值信息抽取方法
技术领域
本发明属于自然语言处理领域的信息抽取技术领域,具体涉及一种基于联合学习模型的细粒度数值信息抽取方法。
背景技术
随着万维网数据的高速增长,人们期望能从各类数据中更高效全面地获取信息,从而将其用于智能问答、搜索推荐等多种应用。其中,文本数据具有数据量多和信息量大等特性,成为信息抽取中非常重要的数据来源。科研工作者和业界非常关注相关技术的研究,并定义了一些经典的信息抽取任务,如:命名实体识别、关系抽取、事件抽取等。
除了经典任务能抽取的信息之外,文本数据中还存在大量的数值信息。这些数值信息的表达十分多样化,同时往往具有一定模式,例如:在英文文本中“about 10kdollars”或“~10,000$”两种表达都意味着“约一万美元”。这种多样性对专门的识别和处理数值信息的技术方法带来了挑战。
近年来,相关领域有一些关于数值信息的语义角色框架的探索,但对于数值信息的表示不够精细。Roy等提出的QVR(Quantity-Value Representation)认为,数值信息包含数字、单位、变化性等三个语义槽,这种表示虽然易于提取,但粒度较粗,仅能向下游应用提供很有限的信息;Matthew等提出的QSRL(Quantitative Semantic Role Labels),针对金融领域的数值信息设计了细粒度的语义角色,不适用于通用领域,且并未关注到数值信息在类型上的区分。
此外,相关提取技术的研究主要聚焦于有专门表达模式的时间、货币等特定方面。其中,对时间信息的研究发展最为充分,有权威的规范和丰富的基准数据集,并且一些方法已经在基准数据集上取得了不错的表现。目前,时间信息的提取方法主要分为三类,基于规则的方法、基于语义分析的方法和基于学习的方法。经典的规则方法通过专家构建的规则来识别时间相关的词例和串,而近期的规则方法SynTime则定义了一组时间相关词例的类型,启发式地搜索这些类型来识别时间表达式并扩展其边界。专利名为“一种面向知识图谱构建的文本时间抽取与规范方法”,公开号为CN108304523A,同样是基于启发式策略自动地抽取时间基元,再对其过滤生成模板库。语义分析方法依赖在语法或语义单元上人工定义的组合语法。Angeli等通过基于期望最大化的自举方法学习了一个概率上下文无关文法,UWTime基于组合范畴文法训练了上下文相关的语义分析器。而在基于学习的方法之中,基于序列化标注模型的表现最好,它们都同时使用了语法和时间词例类型相关的特征,并把词例的前驱/后继的特征也一并作为标记来粗糙地表征结构信息。ClearTK-TimeML使用一小组形态句法特征和基于字母-数字的时间相关子词例类型。最新的TOMN使用和SynTime相同的词例正则表达式来识别时间词例、修饰词和数字作为预标记,得到了优于经典BIO标注方案的结果。
总的来说,目前数值信息的抽取主要集中在时间、货币等特定方面上,对于一般性数值信息的抽取方法尚未得到深入的研究,尚未形成系统性的工作。数值信息应当包含哪些内容,如何对其进行规范化表示和抽取,是非常值得探究的问题。基于规则和语义分析的方法利用专家知识提供了良好的可解释性,但它们有限的灵活性和适应能力在一定程度上制约了它们在多样化的真实文本上的表现。基于学习的方法通常具有更好的泛化性能,其中深度神经网络模型可以自动提取特征,避免了手动构建特征的困难,近年来更多的工作尝试将其应用到该领域的研究。因此,如何将基于深度神经网络的方法应用到数值信息抽取任务上仍然是个值得探讨的问题。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供无需人工设计特征、准确性高、泛化能力强的一种基于联合学习模型的细粒度数值信息抽取方法,解决了如下技术问题:1.目前,数值信息抽取缺乏系统性的细粒度信息表示规范。2.相关抽取方法多基于规则、语义分析方法,其泛化能力不足;传统机器学习方法,仍然需要手工构建特征,可移植性差,且准确度不高;目前的深度学习方法在该领域尚未有广泛应用,且多建模为流水线模型,造成子任务之间的误差传播,影响准确度。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于联合学习模型的细粒度数值信息抽取方法,包括如下步骤:
(1)对输入文本进行预处理;
(2)根据数值相关正则表达式识别候选的数值,以所述数值为触发词,与其前后一定窗口大小内的词例进行拼接,作为联合学习模型的输入;
(3)所述联合学习模型的底层接入词嵌入层,并对于所述词嵌入层的输出,加入数值触发词(本发明中,数值触发词和触发词的含义相同)的位置信息,得到对于每个词例最终的分布式表示;
(4)基于步骤(3)所述的分布式表示,共享地接入后续的特征提取网络,并在最上层分别接入具体任务的网络:接入分类网络得到数值信息单元的语义类型,接入序列标注网络得到所述数值触发词相关的数个语义角色;合并具体任务的输出,得到数值信息单元的抽取结果;
(5)针对所述输入文本中抽取出的多个数值信息单元,基于统计方法判断所述数值信息单元之间的复合关系。
面向自然语言文本的数值信息表示规范包含以下内容:
1)该数值信息单元的语义类型(Numeric Information Class,NIC),包括:命名、指代、计数、序数、度量、比值等。
2)该数值信息单元相关的数个语义角色(Numeric Semantic Roles,NSRs),包括:值、修饰、值类型、单位、属性、对象、整体等。
3)所述的数值信息单元之间的复合关系(Combine Relation,CR),包括:并列和嵌套两种复合关系。
上述步骤中,步骤(1)为文本预处理的过程,步骤(2)、(3)、(4)是利用联合学习模型抽取数值信息单元的过程,步骤(5)为判断多条数值信息单元之间复合关系的过程。
进一步的,所述复合关系包括并列关系和嵌套关系。
进一步的,所述步骤(1)中,对所述输入文本进行分词处理,并对所述输入文本中与数值相关的符号做拆分。
进一步的,所述步骤(2)中,通过词表以及正则表达式,从文本中识别出表达完整数值含义的数值,并取前后各20个词例,并在所述词例的首尾分别添加BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器表征)模型要求的[CLS]和[SEP]符号形成联合学习模型的输入。
进一步的,所述步骤(3)中,对输入的词例是否数值触发词进行编码,并对文本中的每个词生成相应的编码表示向量,最终将所述编码表示向量与词嵌入层输出的表示向量相加,得到每个词例最终的分布式表示。
进一步的,所述步骤(4)中,对于各个词例的分布式表示,接入双向的LSTM(LongShort-Term Memory,长短期记忆网络)作为特征提取网络,将所述[CLS]经由双向LSTM的输出作为所述文本的分布式表示,将所述文本的分布式表示接入到多层感知机进行分类,得到所述数值信息单元的语义类型;将各个词例经由双向LSTM的输出接入到CRF层,对所述对应输出进行序列标注,识别所述数值触发词的相关语义角色;最终,输出数值信息单元的表示结果。
进一步的,所述步骤(5)中,基于标注数据集,通过高频的词例和依存关系共现,通过Apriori算法自动地挖掘各复合关系相应的模式,并将所述模式应用于预测数据的关系判断。这里的标注数据集指:根据某标准,进行人工标注的数据集,用以帮助训练模型。
有益效果:1.针对信息抽取领域中研究不充分的数值信息,提出了一种兼具通用性和表达能力的细粒度数值信息表示方式,用以指导后续的抽取目标。2.抽取数值信息单元是其中的难点任务,本发明将数值类型判别和数值相关语义角色标注两个相关子任务,建模为联合学习模型,不仅可以避免误差传播,还可以通过共享表示信息,使得模型能在原始子任务上泛化性能更好,取得更高的正确率。
附图说明
图1是本发明的整体处理流程及实例图;
图2是本发明的基于联合学习的深度神经网络模型示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的使用范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的实施是先对输入的文本进行特定的预处理,以便于后续在词级别进行识别,然后通过正则表达式、规则等方法,对所有可能的数值触发词进行识别。基于识别的结果,对每个数值触发词选取其前后一定窗口大小内的词,为基于联合学习的深度神经网络模型构建输入。联合学习模型将会以该数值为触发词,判断其数值类型NIC,并抽取相关的数值语义角色NSRs,形成多个数值信息单元表示{NIC,NSRs}。接着,通过统计方法,判断抽取出的数值信息单元之间的关系CR。最终,将上述结果合并,形成最终的抽取输出。
将如图1中实例所示,对于待抽取文本“BWM i8 is about 138k Euros inGermany.”,进行必要的拆分,并从中识别出所有可能的数值触发词:“i8”、“138k”。对于触发词“138k”,以窗口为5选取前后的词,并在首尾分别加上[CLS]、[SEP],拼接形成输入:[CLS]BWM i8 about 138k Euros in Germany.[SEP]。联合学习模型将进行两个子任务,判断出其数值语义类型为NIC=“度量”,抽取出相关的语义角色为NSRs={Modifier:about,Value:138k,Unit:Euros}。同理,可对以“i8”为触发词的数值信息单元进行相应抽取。对于“i8”和“138k”相应的数值信息单元,最终判断它们之间的关系是CR=“不相关”。最终,输出单条信息的列表,以及相关关系列表,作为最终抽取结果。
本发明的完整流程包括文本预处理、数值信息单元抽取、判断多条数值信息单元之间复合关系等三个部分。具体的实施方式分别说明如下:
文本预处理部分,包括以下内容:对输入文本进行基本的分词,并且对某些特定的数值相关符号进行拆分(如将“1-2”、“1:2”拆成“1-2”、“1:2”等),以便于后续在词级别进行识别;
数值信息单元抽取,包括以下步骤:
(1)通过词表、正则表达式以及特定的模式等方法,识别文本中出现的完整表达数值含义的所有数值(例如:“two thousand”),以单个数值为触发词,与其前后一定窗口大小内的词例进行拼接,不足的部分通过[PAD]符号分别在其前后进行补全,并在首尾分别添加BERT模型要求的[CLS]、[SEP]符号,拼接作为联合学习模型的输入;
(2)联合学习模型底层接入BERT网络对其进行微调,或使用其他的词嵌入层;
(3)对输入词例是否数值触发词进行编码,并将对应编码与词嵌入层的输出进行相加,从而加入数值触发词的位置信息,得到对于每个词例最终的分布式表示;
(4)将每个词例的最终分布式表示,共享地接入后续的特征提取网络,在此使用的是双向的LSTM;
(5)在最上层分别接入具体任务的网络:接入多层感知机进行分类,得到该数值信息单元的语义类型NIC;接入条件随机场进行序列标注,得到该数值触发词的相关语义角色NSRs。两者结合,即为该数值信息单元的表示结果NIR=[NIC,NSRs];
该模型基于联合学习的概念进行构建。在流程中需要进行多种学习任务时,以往通常会采用流水线模型逐步进行单一任务的学习。这样虽然可以使模型达到可接受的性能,但是由于关注点集中在单个任务上,因而可能忽略了帮助优化度量指标的其它信息;同时,如果后续任务依赖于之前任务执行的结果,那么会造成错误的传播。而另一类模型是多任务学习模型,它通过在相关任务间共享表示信息,在训练时由于归约偏置的存在,导致模型更倾向于那些可以同时解释多个任务的解,从而使得模型能在原始任务上泛化性能更好。多任务学习有多种形式,联合学习正是其中的一种,也是自然语言处理领域应用更广泛的一种多任务学习形式。
该模型的最上层的特征提取上,使用的是双向的长短期记忆网络(Long Short-Term Memory,LSTM)。LSTM是递归神经网络(Recursive Neural Networkt,RNN)的一种。它通过使用门机制缓解了梯度问题,从而缓解了以往RNN对于长程依赖处理的不足,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM的网络结构中,由三个门来控制细胞状态,包括:输入门、输出门、遗忘门。其中细胞状态的更新使用到了输入门和遗忘门的信息,其实现如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi), (输入门)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf), (遗忘门)
ct=ft⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc), (细胞状态)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo), (输出门)
ht=ot⊙tanh(ct), (输出)
其中,t表示细胞所在时刻,x表示输入向量,i、f、c、o、h分别表示上述公式对应的LSTM中的网络结构,σ指sigmoid函数,⊙是元素点积操作,形如kt的标记指的是网络结构k在t时刻的表示,形如Wmn的标记指的是网络结构m与网络结构n之间的权重矩阵,形如bk的标记指的是网络结构k的偏置系数。
本发明使用双向的LSTM网络,相比单向而言可以捕捉更多的语言特征。它的输入为每一个字符通过嵌入层映射的d维向量。在t时刻,它使用一个前向LSTM计算从左到右的序列表示
Figure BDA0002381331600000061
一个后向LSTM计算从右到左的序列表示/>
Figure BDA0002381331600000062
最终的表示由两者连接而成,即模型在t时刻的最终表示/>
Figure BDA0002381331600000063
对于最上层的分类任务而言,接入的是多层感知机网络(Multi-LayerPerceptron,MLP),除了输入输出层,它中间可以有多个隐层。在此,以xi表示输入中的第i个词例,则对于长度为n的文本X=(x1,x2,x3,…,xn),我们使用的MLP输入是首部词[CLS]对应的分布式表示r,隐层将r转换为|L|维向量u(L为分类的标签集合):
u=σ(Wrur+bu),
输出层通过softmax进行归一化处理,则对分类预测标签l,其正确的概率p(l|X)为:
Figure BDA0002381331600000071
其中,ui为L中第i个标签li对应的得分,
Figure BDA0002381331600000072
表示所有类型标签中的任何一个。
在训练时,使用交叉熵损失函数;在预测时,得到所有类型标签的得分向量u,通过求取得分最高的类型标签
Figure BDA0002381331600000073
从而得出对应的数值类别。
对于最上层的序列标注任务而言,接入的是条件随机场(Conditional RandomField,CRF),这是因为通过双向LSTM获取的特征无法捕捉输出标签之间的依赖关系。对于给定的文本X,设P为n*k维的输入矩阵,n是文本长度,k为序列预测的标签个数。下面,Pi,j是对第i个词例打第j个标签的得分。以yi表示对第i个词例的序列标注预测标签,则对于一个序列预测结果y=(y1,y2,y3,...,yn),其序列得分s(X,y)为:
Figure BDA0002381331600000074
其中,Ai,j表示从i标签转移到j标签的得分,yi表示对第i个词例预测的标签。将所有可能的标签序列通过softmax层进行归一化处理,则对序列预测结果y,其正确的概率p(y|X)为:
Figure BDA0002381331600000075
其中,YX是对于文本X的所有可能序列预测结果的集合,
Figure BDA0002381331600000076
表示所有的序列预测结果中的任何一个。
在训练时,使用交叉熵损失函数;在预测的时候,得到所有序列预测的得分向量
Figure BDA0002381331600000077
通过求取得分最高的序列预测/>
Figure BDA0002381331600000078
从而得出对应的标签序列。
对于判断多条数值信息单元之间复合关系,本发明的实现方法是:基于该标准下的人工标注数据集,通过高频的词例共现、依存关系路径等,通过频繁项集挖掘算法Apriori预先自动地挖掘出复合关系与其相对应的模式。在预测时,将该模式应用于预测数据的关系判断。

Claims (6)

1.一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,包括如下步骤:
(1)对输入文本进行预处理;
(2)根据数值相关正则表达式识别候选的数值,以所述数值为触发词,与其前后一定窗口大小内的词例进行拼接,作为联合学习模型的输入;
(3)所述联合学习模型的底层接入词嵌入层,并对于所述词嵌入层的输出,加入数值触发词的位置信息,得到对于每个词例最终的分布式表示;
(4)基于步骤(3)所述的分布式表示,共享地接入后续的特征提取网络,并在最上层分别接入具体任务的网络:接入分类网络得到数值信息单元的语义类型,接入序列标注网络得到所述数值触发词相关的数个语义角色;合并具体任务的输出,得到数值信息单元的抽取结果;
(5)针对所述输入文本中抽取出的多个数值信息单元,基于统计方法判断所述数值信息单元之间的复合关系;
所述步骤(2)中,通过词表以及正则表达式,从文本中识别出表达完整数值含义的数值,并取前后各20个词例,并在所述词例的首尾分别添加BERT模型要求的[CLS]和[SEP]符号形成联合学习模型的输入;
所述步骤(4)中,对于各个词例的分布式表示,接入双向的LSTM作为特征提取网络,将所述[CLS]经由双向LSTM的输出作为所述文本的分布式表示,将所述文本的分布式表示接入到多层感知机进行分类,得到所述数值信息单元的语义类型;将各个词例经由双向LSTM的输出接入到CRF层,对所述输出进行序列标注,识别所述数值触发词的相关语义角色;最终,输出数值信息单元的抽取结果。
2.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述语义类型包括:命名、指代、计数、序数、度量以及比值,所述相关语义角色包括:值、修饰、值类型、单位、属性、对象以及整体。
3.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述复合关系包括并列关系和嵌套关系。
4.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述步骤(1)中,对所述输入文本进行分词处理,并对所述输入文本中与数值相关的符号做拆分。
5.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述步骤(3)中,对输入的词例是否数值触发词进行编码,并对文本中的每个词生成相应的编码表示向量,最终将所述编码表示向量与词嵌入层输出的表示向量相加,得到每个词例最终的分布式表示。
6.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述步骤(5)中,基于标注数据集,通过高频的词例和依存关系共现,通过Apriori算法自动地挖掘各复合关系相应的模式,并将所述模式应用于预测数据的关系判断。
CN202010083902.1A 2020-02-10 2020-02-10 一种基于联合学习模型的细粒度数值信息抽取方法 Active CN111309849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010083902.1A CN111309849B (zh) 2020-02-10 2020-02-10 一种基于联合学习模型的细粒度数值信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010083902.1A CN111309849B (zh) 2020-02-10 2020-02-10 一种基于联合学习模型的细粒度数值信息抽取方法

Publications (2)

Publication Number Publication Date
CN111309849A CN111309849A (zh) 2020-06-19
CN111309849B true CN111309849B (zh) 2023-06-23

Family

ID=71145000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010083902.1A Active CN111309849B (zh) 2020-02-10 2020-02-10 一种基于联合学习模型的细粒度数值信息抽取方法

Country Status (1)

Country Link
CN (1) CN111309849B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898757A (zh) * 2020-09-29 2020-11-06 北京擎盾信息科技有限公司 数值数据的获取系统、神经网络全连接模型及训练方法
CN113656583B (zh) * 2021-08-18 2023-08-08 中国平安人寿保险股份有限公司 细粒度情感分析方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400B (zh) * 2017-11-01 2019-04-16 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Also Published As

Publication number Publication date
CN111309849A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
Zhong et al. Deep learning-based extraction of construction procedural constraints from construction regulations
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
JP7370033B2 (ja) セマンティック認識方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Xiao et al. Joint entity and relation extraction with a hybrid transformer and reinforcement learning based model
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN115249539B (zh) 一种多模态小样本抑郁症预测模型构建方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN110599324A (zh) 一种用于回款率预测的方法和装置
Xu et al. BERT-based NLP techniques for classification and severity modeling in basic warranty data study
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN114330338A (zh) 融合关联信息的程式语识别系统及方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN116822625A (zh) 一种发散式关联的风机设备运检知识图谱构建及检索方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112269874A (zh) 一种文本分类方法及系统
CN114444484A (zh) 一种基于双层图的文档级事件抽取方法及系统
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant