CN113486177A - 一种基于文本分类的电力领域表格列标注方法 - Google Patents
一种基于文本分类的电力领域表格列标注方法 Download PDFInfo
- Publication number
- CN113486177A CN113486177A CN202110782328.3A CN202110782328A CN113486177A CN 113486177 A CN113486177 A CN 113486177A CN 202110782328 A CN202110782328 A CN 202110782328A CN 113486177 A CN113486177 A CN 113486177A
- Authority
- CN
- China
- Prior art keywords
- power field
- column
- text
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本分类的电力领域表格列标注方法,它包括:步骤1、采集电力领域相关表格文本语料,对于表格中的每一行,从该行中提取实体或句子,利用搜索引擎搜索该实体,获取该实体对应的搜索结果;步骤2、从搜索结果条目中抽取锚文本形成摘要,并用电力领域关键词库进行过滤,过滤掉不包含电力领域关键词的摘要,从而组成该单元格内容要素的上下文;步骤3、将单元格的上下文输入到基于预训练模型分类器中,获得该单元格要素属于的类别,并分类标注;步骤4、对于表格中的一列,根据列中单元格内容元素所属类别,确定该列的列标签;解决了现有技术对电力领域表格列标注存在较大的局限性等技术问题。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于文本分类的电力领域表格列标注方法。
背景技术
互联网上数以亿计的表格具备良好的结构化特性和潜在的语义特性,相较于非结构化的文本数据引起半结构化的特性更容易识别其语义信息,因此,近年来基于网络表格的知识获取成为了研究热点,表格数据也已被用于知识库的构建、扩展、数据融合等方面的研究。通常情况下,表格包含一列是实体列,这一列所有元素都是具有相似性的实体,其它列为属性列,描述实体的属性。表中的每一行由一个实体及其相关属性值组成。同一列的单元格所包含的内容具有相似性。但是大量网络表格缺少明确的列名、列间关系等关键语义信息,使得计算机不能直接对表格进行知识获取,因此,如何获得表格列语义标签成为了基于表格的知识获取的重要研究问题,是三大关键技术问题之一。
在实际的电力领域知识库构建过程,知识来源于电力领域的文本内容,具有很高的电力领域的特色。电力领域文本文档中存在着大量的表头缺失的表格,还有很多数据库表也缺乏明确且有意义的列名,因此,基于电力领域表格的特点,本发明解决中文电力领域网络表格的列标注问题。
目前,针对中文电力领域表格的列标注研究甚少,已有的方法大多是基于YAGO、DBpedia、Probase等语义丰富的知识库或Web上获取的知识数据库。通用方法将表格中的单元格元素映射到知识库或Web数据库中的概念,进而获得多个候选列标签,最后综合一列所有单元格元素对应的概念,通过某种评估方法选择可能性最大的概念作为列最合适的列标签。
目前,公开可用且语义知识比较完备的中文知识库基本没有,面向电力领域的知识库更是基本没有,这就给常用的基于知识库的语义表格列标注方法带来很大的局限性,导致很多表格中的元素在知识库中找不到对应的概念,严重降低方法的召回率。同时,由于知识库很难做到完全完备,知识库中欧未知的知识标签就发现不了,从而导致方法具有较大的局限性。此外,由于电力领域表格中的单元格元素并没有统一规范成一个词或词组,经常会是句子,因此就无法从知识库中获取到概念。
发明内容
本发明要解决的技术问题是:提供一种基于文本分类的电力领域表格列标注方法,以解决现有技术对电力领域表格列标注存在较大的局限性等技术问题。
本发明技术方案:
一种基于文本分类的电力领域表格列标注方法,它包括:
步骤1、采集电力领域相关表格文本语料,对于表格中的每一行,从该行中提取实体或句子,利用搜索引擎搜索该实体,获取该实体对应的搜索结果;
步骤2、从搜索结果条目中抽取锚文本形成摘要,并用电力领域关键词库进行过滤,过滤掉不包含电力领域关键词的摘要,从而组成该单元格内容要素的上下文;
步骤3、将单元格的上下文输入到基于预训练模型分类器中,获得该单元格要素属于的类别,并分类标注;
步骤4、对于表格中的一列,根据列中单元格内容元素所属类别,确定该列的列标签。
步骤1的实现方法为:首先获取电力领域相关百度百科的文本语料,然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息,通过分析网页的html结构化特征获取infobox中的“属性名-属性值”,然后通过搜索引擎搜索“属性名-属性值”中的实际概念,获取该对应的搜索结果。
在搜索的过程中,如果有一个以上锚文本包含该关键词,则将这些句子组成该关键字的相关文本,与属性名共同形成一个训练样本;如果没有句子包含完整的关键词,则对该关键词进行分词处理,以分词为关键词进行搜索,抽取包含一个或一个以上的关键词的句子。
获取到训练样本之后对文本语料进行预处理及向量化表示,然后使用向量化的文本数据进行分类器训练与参数学习。
分类器训练与参数学习的方法为:预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终在具体的下游任务对参数进行微调以达到更好的模型效果;预训练模型从语料中学习得到通用的语言表示,提高模型的泛化能力和加速模型收敛;使用BERT作为预训练模型提取文本的全局特征。
使用微调BERT的特征向量作为输入,使用预训练模型BERT加全连接网络算法进行分类模型的训练。本发明提案会用自动构建的训练语料对bert模型进行微调,模型的初始化输入用one-hot向量化表示。
分类标注的方法为:表格单元格内容分类标注的方法为,将经过处理的上下文文本按照one-hot向量化表示,输入到预训练模型获得词向量,数字化的向量输入到全连接网络中,通过计算获得得分最高的标签为该该单元格所属的类别,即为该单元格所在列的候选表标签。
表格列标签判别方法为:利用表格列单元的一致性来排除错误的标注;对于表格的某一列,综合考虑该列中每一个单元格的标注,使用多数投票的原则来确定该列的列标签。
本发明的有益效果:
本发明能够有效的对电力领域网络表格进行列标注;面对电力领域知识库缺失问题,本发明能够自动构建电力领域表格列标注训练语料,自动搜索获取带分类表格的上下文信息,完全不依赖于语义知识库,可以发现电力领域的知识库中没有的新知识,可以解决电力领域知识图谱构建“冷启动”问题;无表头列标注后的表格可用于电力领域中文知识图谱的构建和扩展。
解决了现有技术对电力领域表格列标注存在较大的局限性等技术问题。
附图说明:
图1为BERT架构示意图;
图2为基于预训练的分类模型示意图。
具体实施方式
一种基于文本分类的电力领域表格列标注方法,它包括:
步骤1、采集电力领域相关表格文本语料,对于表格中的每一行,从该行中提取实体或句子,利用搜索引擎搜索该实体,获取该实体对应的搜索结果;
步骤2、从搜索结果条目中抽取锚文本形成摘要,并用电力领域关键词库进行过滤,过滤掉不包含电力领域关键词的摘要,从而组成该单元格内容要素的上下文;
步骤3、将单元格的上下文输入到基于预训练模型分类器中,获得该单元格要素属于的类别,并分类标注;
步骤4、对于表格中的一列,根据列中单元格内容元素所属类别,确定该列的列标签。
本发明具体实施方式将整个方法分为模型训练微调、表格单元格内容分类标注和表格列标签判别三个部分,下面将对这三个部分进行详细的介绍:
模型训练微调
本发明所提供表格列标注方法的重要问题就是如何自动化构建训练数据集以及如何训练文本分类器。
本发明首先获取电力领域相关百度百科的文本语料,然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息,通过分析网页的html结构化特征获取infobox中的“属性名-属性值”,然后通多搜索引擎搜索“属性名-属性值”中的实际概念,返回的搜索结果条目中抽取锚文本形成摘要,并用电力领域关键词库进行过滤,过滤掉不包含电力领域关键词的摘要,从而组成该“属性名-属性值”内容要素的上下文。
在搜索的过程中,使用两条启发式的规则:
1)如果有多个锚文本包含该关键词,则将这些句子组成该关键字的相关文本,与属性名共同形成一个训练样本;
2)如果没有句子包含完整的关键词,则对该关键词进行分词处理,以这些词为关键词进行搜索,抽取包含一个或多个关键词的句子。
获取到训练语料之后对文本语料进行预处理及向量化表示,然后使用向量化的文本数据进行分类器训练与参数学习。
近几年来,随着计算机算力的不断提升和大规模语料库的不断公布,越来越多的通用语言表征的预训练模型涌现。预训练旨在预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终在具体的下游任务对参数进行微调以达到更好的模型效果。预训练模型可以从大规模语料中学习得到通用的语言表示,有助于提高模型的泛化能力和加速模型收敛。在现有的NLP任务中,最经典的方法是使用BERT作为预训练模型提取文本的全局特征,
为了支持各种下游任务的支持,BERT设计了一种通用的输入表示,即“[CLS],输入1,[SEP],输入2,[SEP]”。其中,输入1和输入2是文本序列,“[CLS]”是可学习的标识符,能捕获文本输入的全局信息,而“[SEP]”仅为输入1和输入2的分割符。之后,BERT将其输入至双向的Transformerencoder中,通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示。Transformer的encode也是一种多层的堆叠模型。它的每一层都是由自注意力层和全连接层组成。在每一层中,给定三个由n个行向量组成的矩阵queriesQ∈Rn×dk,keysK∈Rn×dk和valuesV∈Rn×dv,则注意力机制按照如下方式同时计算注意力权重
这里,dk表示queries和keys的维度,dv表示values的维度。然后,将输入映射为h份,计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力。
Headi=Attention(QWi Q,KWi K,VWi V)
MHA(Q,K,V)=Concat(Head1,...,Headh)WO
本发明使用微调BERT的特征向量作为输入,使用预训练模型(BERT)加全连接网络算法进行分类模型的训练。本发明会用自动构建的训练语料对bert模型进行微调,模型的初始化输入用one-hot向量化表示。表格单元格内容分类标注
表格单元格内容分类标注,将经过处理的上下文文本按照one-hot向量化表示,输入到预训练模型获得词向量,数字化的向量输入到全连接网络中,通过计算获得得分最高的标签为该该单元格所属的类别,即为该单元格所在列的候选表标签。
1.表格列标签判别
由于同一列的单元格内容元素是相似的一组概念,会用共同的上位概念,因此本发明利用表格列单元的一致性来排除那些错误的标注。对于表格的某一列,本发明综合考虑该列中每一个单元格的标注,使用多数投票的原则来确定该列的列标签。
基于上述方案设计,在此说明本发明所提出方法产生的积极效果。使用电力领域公司类别的数据进行实验,选择成立时间、总部地点、创始人、公司类型和经营范围五个常见的相关属性类型作为测试对象。通过扫描百度百科的数据选择电力领域与这五个属性类别的相关的数据自动构建训练数据集,数据集中80%的数据作为训练数据,20%的数据作为测试数据,表3列出了数据集中各个类别的数据统计,使用这些数据训练预训练模型。
本发明应用的BERT模型是HuggingFace开源发布的bert-base-chinese版本1。BERT预训练模型的堆叠层数为12,词向量维度为768,多头自注意力机制的头数H=12,dmodel=768,前馈神经网络的隐藏层维度为3072。本方案设置边向量层的维度dt=100,设置每一步的输入样本数batch_size=8,并且使用初始学习率lr_rate=2e-5。接层隐藏单元个数设置为128。
表1 训练数据集和测试数据集
使用项目中文档中实际包含的电力公司类实体的表格,对表格进行筛选并从中选择出60个表格,表格的每一行包含一个实体和若干属性信息,对于实验中的五个目标属性类型,总共获取到498个实例。对所有表格进行人工标注,用于实验评估。
使用训练好的分类器来对60个表格单元格内容元素进行标注,来测试本发明所提出的电力领域中文表格列标注方法处理网络上真实数据表格的能力。最后基于多数投票原则,确定表格每一列的语义标签。
表2 单元格标注和列标签标注准确率评估
表2展示了表格单元格标注与列标签标注实验结果对比,方法通过多数投票操作之后,准确率均得到较大幅度的提升。
Claims (8)
1.一种基于文本分类的电力领域表格列标注方法,它包括:
步骤1、采集电力领域相关表格文本语料,对于表格中的每一行,从该行中提取实体或句子,利用搜索引擎搜索该实体,获取该实体对应的搜索结果;
步骤2、从搜索结果条目中抽取锚文本形成摘要,并用电力领域关键词库进行过滤,过滤掉不包含电力领域关键词的摘要,从而组成该单元格内容要素的上下文;
步骤3、将单元格的上下文输入到基于预训练模型分类器中,获得该单元格要素属于的类别,并分类标注;
步骤4、对于表格中的一列,根据列中单元格内容元素所属类别,确定该列的列标签。
2.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:步骤1的实现方法为:首先获取电力领域相关百度百科的文本语料,然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息,通过分析网页的html结构化特征获取infobox中的“属性名-属性值”,然后通过搜索引擎搜索“属性名-属性值”中的实际概念,获取该对应的搜索结果。
3.根据权利要求2所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:在搜索的过程中,如果有一个以上锚文本包含该关键词,则将这些句子组成该关键字的相关文本,与属性名共同形成一个训练样本;如果没有句子包含完整的关键词,则对该关键词进行分词处理,以分词为关键词进行搜索,抽取包含一个或一个以上的关键词的句子。
4.根据权利要求3所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:获取到训练样本之后对文本语料进行预处理及向量化表示,然后使用向量化的文本数据进行分类器训练与参数学习。
5.根据权利要求4所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:分类器训练与参数学习的方法为:预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终在具体的下游任务对参数进行微调以达到更好的模型效果;预训练模型从语料中学习得到通用的语言表示,提高模型的泛化能力和加速模型收敛;使用BERT作为预训练模型提取文本的全局特征。
6.根据权利要求5所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:使用微调BERT的特征向量作为输入,使用预训练模型BERT加全连接网络算法进行分类模型的训练。本发明提案会用自动构建的训练语料对bert模型进行微调,模型的初始化输入用one-hot向量化表示。
7.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:分类标注的方法为:表格单元格内容分类标注的方法为,将经过处理的上下文文本按照one-hot向量化表示,输入到预训练模型获得词向量,数字化的向量输入到全连接网络中,通过计算获得得分最高的标签为该该单元格所属的类别,即为该单元格所在列的候选表标签。
8.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法,其特征在于:表格列标签判别方法为:利用表格列单元的一致性来排除错误的标注;对于表格的某一列,综合考虑该列中每一个单元格的标注,使用多数投票的原则来确定该列的列标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782328.3A CN113486177A (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力领域表格列标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782328.3A CN113486177A (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力领域表格列标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486177A true CN113486177A (zh) | 2021-10-08 |
Family
ID=77938601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110782328.3A Pending CN113486177A (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力领域表格列标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486177A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
CN111488459A (zh) * | 2020-04-15 | 2020-08-04 | 焦点科技股份有限公司 | 一种基于关键词的产品分类方法 |
CN111523420A (zh) * | 2020-04-14 | 2020-08-11 | 南京烽火星空通信发展有限公司 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
US20200387675A1 (en) * | 2019-06-05 | 2020-12-10 | Refinitiv Us Organization Llc | Machine-learning natural language processing classifier |
WO2021064906A1 (ja) * | 2019-10-02 | 2021-04-08 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム |
CN112966518A (zh) * | 2020-12-22 | 2021-06-15 | 西安交通大学 | 一种面向大规模在线学习平台的优质答案识别方法 |
-
2021
- 2021-07-12 CN CN202110782328.3A patent/CN113486177A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
US20200387675A1 (en) * | 2019-06-05 | 2020-12-10 | Refinitiv Us Organization Llc | Machine-learning natural language processing classifier |
WO2021064906A1 (ja) * | 2019-10-02 | 2021-04-08 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム |
CN111523420A (zh) * | 2020-04-14 | 2020-08-11 | 南京烽火星空通信发展有限公司 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
CN111488459A (zh) * | 2020-04-15 | 2020-08-04 | 焦点科技股份有限公司 | 一种基于关键词的产品分类方法 |
CN112966518A (zh) * | 2020-12-22 | 2021-06-15 | 西安交通大学 | 一种面向大规模在线学习平台的优质答案识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN113989822B (zh) * | 2021-12-24 | 2022-03-08 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN113177102B (zh) | 文本分类方法、装置、计算设备和计算机可读介质 | |
Armouty et al. | Automated keyword extraction using support vector machine from Arabic news documents | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN115391520A (zh) | 一种文本情感分类方法、系统、装置及计算机介质 | |
CN115422947A (zh) | 一种基于深度学习的古诗词配乐方法及系统 | |
CN111581364A (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN113377953B (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN113486177A (zh) | 一种基于文本分类的电力领域表格列标注方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112084312A (zh) | 一种基于知识图构建的智能客服系统 | |
CN116562280A (zh) | 一种基于通用信息抽取的文献分析系统及方法 | |
CN111581326B (zh) | 一种基于异构外部知识源图结构抽取答案信息的方法 | |
Tian et al. | Research on image classification based on a combination of text and visual features | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
Wang et al. | BiLSTM-ATT Chinese sentiment classification model based on pre-training word vectors | |
CN106202234B (zh) | 基于样本对分类器可纠正的交互式信息检索方法 | |
CN117689963B (zh) | 一种基于多模态预训练模型的视觉实体链接方法 | |
Akbari et al. | Sentiment Analysis Using Learning Vector Quantization Method | |
KR102649948B1 (ko) | 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211008 |