CN117010391A - 一种同时面向封闭域与开放域的联合属性抽取方法和装置 - Google Patents
一种同时面向封闭域与开放域的联合属性抽取方法和装置 Download PDFInfo
- Publication number
- CN117010391A CN117010391A CN202310824436.1A CN202310824436A CN117010391A CN 117010391 A CN117010391 A CN 117010391A CN 202310824436 A CN202310824436 A CN 202310824436A CN 117010391 A CN117010391 A CN 117010391A
- Authority
- CN
- China
- Prior art keywords
- attribute
- tree
- neural network
- text
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种同时面向封闭域与开放域的联合属性抽取方法和装置。该方法包括:对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。本发明可以实现对封闭域和开放域文本属性名、属性值的统一抽取,抽取形式统一,抽取效果好,使用时占用资源少,编码解码速度快。
Description
技术领域
本发明提供一种同时从非结构化文本抽取封闭域与开放域属性的方法和装置,具体涉及一种数据结构和神经网络设计,属于数据挖掘技术领域。
背景技术
属性一般由属性名和属性值构成,用于表达对应实体的特征与性状,是知识图谱中重要的一部分,在电商系统、搜索引擎、推荐系统等应用中发挥着重要作用。属性抽取致力于从半结构或非结构化文本中识别属性名和属性值,是知识图谱构建中的一个重要任务。
传统的属性抽取方法可根据抽取的属性名是否给定可选集合分为两种范式:(1)封闭世界假设下的属性抽取,即封闭域属性抽取,该范式下可以将属性名限定在预先定义好的本体中,可以通过将属性名抽取建模为分类任务处理,再针对不同属性名类型使用相应的规则模板或训练神经网络模型提取属性值;(2)开放世界假设下的属性抽取,即开放域属性抽取,该范式下属性名和属性值的取值都不预先给定限定本体,需要利用一些开放抽取技术从文本中获得,如序列标注方法和问答模型被广泛应用。
但是,单独的封闭世界和开放世界假设都不足以应对真实世界中复杂的属性抽取场景。一方面,现实世界中新类型的产品和属性在源源不断地出现,局限于预定义本体的封闭域属性抽取大大限制了模型的泛化能力和适应性;另一方面,与关系抽取不同的是,属性名并不总是显式出现在文本中,如“小明18岁”一句反映了小明的年龄属性,但文本中并没有“年龄”这样的显式提及,无法通过开放抽取的方法得到这一标注。如何针对真实世界的非结构化文本同时抽取封闭域与开放域的属性名与属性值,是尚待解决的难题。
发明内容
本发明的目的是提供一种同时面向封闭域与开放域的联合属性抽取方法和装置,采用基于深度学习技术的从文本生成属性树的生成式模型,用以解决真实世界场景下无法兼顾封闭域与开放域属性抽取的问题。
本发明设计了一种名为属性树的数据结构,用于同时表达封闭世界假设和开放世界假设下的属性抽取结果,并基于深度学习技术,设计结构化生成模型,从文本中复制符合语义的字符作为属性树的节点,从而得到封闭域与开放域下联合属性抽取的结果。
本发明的一种同时面向封闭域与开放域的联合属性抽取方法,包括如下步骤:
对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;
利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
进一步地,在所述分词之前,对待抽取属性的文本进行预处理,所述预处理包括去除特殊符号、垃圾信息、不正确编码等。
进一步地,所述利用神经网络模型对分词得到的的序列集合进行编码,其中神经网络模型为LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)等。
进一步地,所述利用神经网络模型对编码后的文本向量进行解码,其中神经网络模型为LSTM模型等。
进一步地,所述利用神经网络模型对编码得到的文本向量进行解码,包括:
构建一颗空的属性树,开始对上述编码后的文本向量进行解码:
对文本中可能存在的属性值使用神经网络模型进行解码,无论该属性值是属于开放域还是属于封闭域都统一进行解码,并将解码后的子串(即属性值)复制到属性树的第一层;
对属性树的第一层属性值进行循环遍历,同时与原文本的编码合并,使用神经网络模型进行联合解码,解码出对应属性值的属性名,将解码后的子串(即属性名)复制到属性树第二层。
进一步地,所述将属性树的各个分支展开为头实体、属性值、属性名三元组,包括:将属性树进行拆分,将全部路径取出,展开为<头实体,属性值,属性名>的三元组结构化信息。
本发明还提供一种同时面向封闭域与开放域的联合属性抽取装置,其包括:
预处理模块,用于对待抽取属性的文本进行预处理;
分词模块,用于对预处理后的文本进行分词,得到由一系列词构成的序列集合;
编码模块,用于利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
解码模块,用于构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
拆分模块,用于将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
通过本发明所提供的基于编码、解码方式构建属性树的方法,可以实现对封闭域、开放域文本属性名、属性值的统一抽取,其优点和积极效果在于:
1.抽取形式统一,在一次抽取过程中可以同时完成对封闭域属性名和开放域属性名的抽取,而传统方法必须分别处理;
2.抽取效果好,本方法首先对模式较为明显的属性值实施抽取,再借助抽取出的属性值来联合解码属性名,可以有效降低传统方法中联合抽取产生的级联误差;
3.模型设计简单,本方法使用的LSTM-CNN编码器与LSTM模型解码器均为轻量级模型,使用时占用资源少,编码解码速度快。
附图说明
图1是本发明方法的总体属性抽取流程图。
图2是属性树构建流程图。
图3是属性树原型示意图。
图4是属性树抽取示例示意图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供的可以同时从非结构化文本抽取封闭域与开放域属性的方法,是基于深度学习技术的从文本生成属性树的生成式模型。该方法的总体流程如图1所示,包含五个步骤:
第一步是对待抽取文本进行预处理,去除特殊符号、垃圾信息、不正确编码等;
第二步是对预处理后的文本进行分词,得到词构成的序列集合;
第三步是使用LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)进行编码,将上述序列集合中的词转换为向量;
第四步是使用LSTM(长短时记忆神经网络)对得到的向量进行迭代解码,包括两次解码:使用LSTM模型解码属性值,以及使用LSTM模型解码属性名;在两次分别解码中得到所需要的属性值与属性名,并将解码得到的上述子串(属性值与属性名)复制到属性树对应的层级去,得到属性树;
第五步是对使用上述步骤构建得到的属性树进行拆分,将属性树中的每条路径都取出来,展开为<头实体,属性值,属性名>的三元组结构化信息,完成抽取任务。
示例性地,第一步对待抽取文本进行预处理,分为:
1)对文本使用正则表达式和制定的规则集去除特殊符号、垃圾信息、不正确编码等。
2)对待抽取文本集合进行去重,使用Set等集合方式,过滤掉已经处理好的文本,从而节省处理时间与空间。
示例性地,第二步是对预处理后的文本进行分词,以得到待处理的词序列集合,分为:
1)对于英文子串,采用Sub-word切分,例如使用“sentencepiece”工具实现划分,将词根、词缀等成分进行切分;
2)对于数字子串,采用正则表达式进行划分,将完整的数字保留;
3)对于中文子串,采用字划分,及直接将中文的每个字作为一个词结构。
示例性地,第三步是使用LSTM-CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)进行编码,将上述文本词转换为向量,具体是:
1)将输入的文本经过词嵌入(Word Embedding)后转换为向量表示;
2)将向量化后的文本表示输入一个双向的LSTM模型;
3)将双向LSTM模型的输出结果,输入到一个卷积神经网络中,以获取文本的特征向量。
示例性地,第四步是使用另一个LSTM神经网络作为树解码器,对上述获得的特征向量进行分步解码,并将解码出的子串填入属性树的各个层级中,如图2所示,具体包括:
1)使用LSTM解码器对向量进行解码操作,第一步会得到头实体的起始与结束位置,根据起始和结束位置可以将该头实体完整取出,并作为属性树的根节点;
2)使用LSTM解码器对向量,以及头实体的特征进行联合解码操作,这一步会得到多个属性值的起始与结束位置,从而将完整的属性值取出,作为属性树的第一层叶子节点;
3)遍历属性树的第一层叶子节点,将每个属性值的表示与头实体、文本的向量表示进行分别拼接,实施联合解码,可以得到对应属性名的起始和结束位置,从而将与属性值对应的属性名完整取出,作为属性树的最后一层(第二层)叶子节点。
示例性地,第五步是将上述操作得到的属性树进行拆分,将全部路径取出,展开为<头实体,属性值,属性名>的三元组结构化信息,完成抽取任务。
本发明的关键在于,将传统的序列标注方法转换为了属性树生成任务,从而统一了封闭域与开放域的属性抽取。属性树的结构如图3所示,其叶子节点第一层为属性值,第二层为属性名,其中属性名可以来源于封闭域标注也可以来源于开放域标注,从而通过统一的解码器模型进行解码与抽取。
下面提供一应用实例。如图4所示,该实例以电商促销文本为例,希望从文本(左图)中抽取出正确的属性树(右图)。该实例中,名称、尺寸、价格等字段不会显式地在文本中出现,以封闭域属性抽取性质存在;而材质、色域、分辨率等字段没有在预定义的属性集中出现,只在原文本中显式地出现,作为开放域属性抽取性质存在。通过构建如右图所示的属性树,可以将上述封闭域与开放域的属性字段均联合建模,经过前文所述的抽取流程,经过编码、解码等操作后,可以成功构建出该属性树,从而实现从非结构化文本抽取封闭域与开放域属性。
在包含8万7千条中文商品描述性文本的MEPAVE属性识别数据集上对本发明的方法进行验证,并与传统的BERT、CasRel等模型进行对比,在模型大小远小于上述传统模型的情况下,本发明方法得到了表1的结果。
表1.本发明与传统方法的实验结果对比
方法 | 属性名准确率 | 属性值准确率 |
Attn-BiRNN | 86.10% | 83.28% |
BERT | 86.34% | 83.12% |
CasRel | 84.74% | 79.61% |
本发明方法 | 96.48% | 92.26% |
上述实验结果表明了本发明是高效、优秀的,与现在普遍使用的模型相比,可以更好地识别与抽取自然语言文本中的属性名与属性值。
本发明的另一实施例提供一种同时面向封闭域与开放域的联合属性抽取装置,其包括:
预处理模块,用于对待抽取属性的文本进行预处理;
分词模块,用于对预处理后的文本进行分词,得到由一系列词构成的序列集合;
编码模块,用于利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
解码模块,用于构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
拆分模块,用于将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
其中各模块的具体实施过程参见前文对本发明方法的描述。
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本发明采用的LSTM-CNN编码器可以替换为BERT、T5等其他模型,本专利采用的LSTM解码器可替换为BART、T5等解码器模型。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (10)
1.一种同时面向封闭域与开放域的联合属性抽取方法,其特征在于,包括以下步骤:
对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;
利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
2.根据权利要求1所述的方法,其特征在于,在所述分词之前,对待抽取属性的文本进行预处理,所述预处理包括去除特殊符号、垃圾信息、不正确编码。
3.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对分词得到的的序列集合进行编码,其中神经网络模型为LSTM-CNN模型。
4.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对编码后的文本向量进行解码,其中神经网络模型为LSTM模型。
5.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对编码得到的文本向量进行解码,包括:
构建一颗空的属性树,开始对上述编码后的文本向量进行解码:
对文本中可能存在的属性值使用神经网络模型进行解码,无论该属性值是属于开放域还是属于封闭域都统一进行解码,并将解码后的属性值复制到属性树的第一层;
对属性树的第一层属性值进行循环遍历,同时与原文本的编码合并,使用神经网络模型进行联合解码,解码出对应属性值的属性名,将解码后的即属性名复制到属性树第二层。
6.根据权利要求5所述的方法,其特征在于,所述利用神经网络模型对编码得到的文本向量进行解码,还包括:通过解码得到头实体的起始与结束位置,根据起始和结束位置将头实体完整取出,并作为属性树的根节点。
7.根据权利要求1所述的方法,其特征在于,所述将属性树的各个分支展开为头实体、属性值、属性名三元组,包括:将属性树进行拆分,将全部路径取出,展开为<头实体,属性值,属性名>的三元组结构化信息。
8.一种同时面向封闭域与开放域的联合属性抽取装置,其特征在于,包括:
预处理模块,用于对待抽取属性的文本进行预处理;
分词模块,用于对预处理后的文本进行分词,得到由一系列词构成的序列集合;
编码模块,用于利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
解码模块,用于构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
拆分模块,用于将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310824436.1A CN117010391A (zh) | 2023-07-06 | 2023-07-06 | 一种同时面向封闭域与开放域的联合属性抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310824436.1A CN117010391A (zh) | 2023-07-06 | 2023-07-06 | 一种同时面向封闭域与开放域的联合属性抽取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117010391A true CN117010391A (zh) | 2023-11-07 |
Family
ID=88573659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310824436.1A Pending CN117010391A (zh) | 2023-07-06 | 2023-07-06 | 一种同时面向封闭域与开放域的联合属性抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010391A (zh) |
-
2023
- 2023-07-06 CN CN202310824436.1A patent/CN117010391A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639175B (zh) | 一种自监督的对话文本摘要方法及系统 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN109213975B (zh) | 一种基于字符层级卷积变分自编码的推特文本表示方法 | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN111241209B (zh) | 用于生成信息的方法和装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113553850A (zh) | 一种基于有序结构编码指针网络解码的实体关系抽取方法 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN112766000A (zh) | 基于预训练模型的机器翻译方法及系统 | |
CN114997164A (zh) | 文本生成方法及装置 | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
CN112395407B (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
CN117573084B (zh) | 一种基于逐层融合抽象语法树的代码补全方法 | |
CN111475640A (zh) | 基于情感摘要的文本情感识别方法及装置 | |
CN114254657B (zh) | 一种翻译方法及其相关设备 | |
CN117010391A (zh) | 一种同时面向封闭域与开放域的联合属性抽取方法和装置 | |
CN115688792A (zh) | 基于文档的问题生成方法、装置及服务器 | |
CN114416923A (zh) | 一种基于富文本特征的新闻实体链接方法和系统 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN114595338A (zh) | 基于混合特征表示的实体关系联合抽取系统及方法 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 | |
CN111695350B (zh) | 一种文本的分词方法及分词装置 | |
CN113705194A (zh) | 简称抽取方法及电子设备 | |
CN112015891A (zh) | 基于深度神经网络的网络问政平台留言分类的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |