CN113723106B - 基于标签扩展的零样本文本分类方法 - Google Patents
基于标签扩展的零样本文本分类方法 Download PDFInfo
- Publication number
- CN113723106B CN113723106B CN202110861340.3A CN202110861340A CN113723106B CN 113723106 B CN113723106 B CN 113723106B CN 202110861340 A CN202110861340 A CN 202110861340A CN 113723106 B CN113723106 B CN 113723106B
- Authority
- CN
- China
- Prior art keywords
- bert
- vocabulary
- tag
- expert
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 54
- 238000003058 natural language processing Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于标签扩展的零样本文本分类方法,该方法包括以下两个步骤:步骤一:扩展标签;对数据集的假设标签信息通过专家知识,大型的知识库以及与预训练的语言模型扩充丰富其语义知识。步骤二:零样本文本分类;BERT是基于注意力的双向语言模型,将标识作为输入,BERT通过多层的Transformer编码器获取标识嵌入。将BERT在大型的文本蕴含数据集上进行预训练。对BERT模型进行微调和预训练完成之后,对可见类别的实例S进行训练。照BERT的输入标识规则输入BERT中,BERT提取两句话的特征,最后将特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后,任意输入测试集的两句话进行蕴含测试。使得标签和文本之间蕴含更多的语义信息来提高泛化的零样本文本分类性能。
Description
技术领域
本发明涉及一种基于标签扩展的零样本文本分类方法,尤其是用于自然语言处理技术领域中的零样本文本分类方法。
背景技术
传统的零样本学习指的是训练一个模型,使模型对训练集中不可见类别的样本进行识别。但是这个基于测试样本属于不可见类别的前提。对此泛化的零样本学习被提出,模型需要对可见类别和不可见类别的样本进行识别。零样本文本分类是零样本学习的一个重要研究热点。现有的研究主要包含基于分段模型的方法,基于文本蕴含的方法以及基于直推式的方法。
1)基于分段模型的方法
零样本学习在图像分类中被广泛研究。零样本学习的一般思想是将可见类别的知识迁移到不可见类别,绝大多数图像零样本分类方法是在图像特征空间和类别语义空间(例如视觉属性,类别名的词嵌入和类别层)之间学习一个匹配模型。
对于零样本文本分类,类似的方法被采纳了。解决零样本文本分类有一个很流行的两段式框架。如图1所示,在这个模型中四种语义知识(词嵌入,类别表示,类别层级结构和知识图谱)被混合。模型首先通过数据增强针对训练集中的每个类别训练一个二分类器,得到识别每个类别所需的分类器参数,这一步的作用是得到文本是可见类别还是不可见类别的标签信息,如果测试样本通过每个分类器的分类概率都小于一个给定的阈值,则将这个测试样本分为不可见类别,如果测试样本在某个分类器的概率比较大,则将这个测试样本归结为可见类别;模型的第二阶段包含两个分类器,当在第一阶段的样本被分类为可见类别的样本时,在第二阶段将被输入到传统的分类器中,当在第一阶段测试样本被分为不可见类别时,样本在第二阶段将被输入零样本文本分类器中。对于第二阶段零样本文本分类器的训练作者通过词嵌入,类别表示,类别层和知识图谱进行了特征增强来提高零样本分类的性能。这些工作受益于大规模训练语料库和外部语义知识。此类方法的缺点是操作复杂,且分类关键严重依赖于第一阶段的分类结果。
2)基于文本蕴含的方法
传统的文本分类方法是将标签定义为{0,1,2,3...}。这样的定义方式既不能理解样本的特定解释也不能理解标签的具体含义。人类可以很容易的决定标签的真实价值因为人类可以正确解释并且理解这些标签的意义。零样本文本分类的最终目标是开发智能机器使其能力赶上人类的水平。为此,确保系统能够理解样本以及标签的含义起着至关重要的作用。
文本间的推理关系,又称为文本蕴含关系(Textual Entailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单地来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H。这跟一阶逻辑中的蕴含关系是类似的。例如,如表1所示,这句子中前提P是“Adogjumping for a Frisbee inthe snow”,意思一只狗在雪地中接飞盘玩,同时给出了三个假设,这三个假设中前提跟第一个是蕴含关系(entailment),因为这句话描述的是“一个动物正在寒冷室外玩塑料玩具”,这是能够从前提推理出来的;第二句化描述的是“一只猫...”,这跟前提是冲突的(contradiction);第三句话与前提既不是蕴含关系也没有冲突,把它定义成中立的(neutral)。
文本蕴含方法是将零样本学习通过间接的方法转换为蕴含问题。最近,BERT(Bidirectional Encoder Representations from Transformers,BERT)语言模型在很多自然语言处理任务上都刷新了指标。在大量语料库上预先训练的BERT将零样本文本分类问题转换为文本蕴含问题,将文本和标签同时输入到BERT模型并将模型自适应为蕴含分类任务。这类方法的不足是假设只是简单的利用标签作为假设,而没有去探索更好的假设生成方式。
3)基于直推式的方法
在训练过程中,如果用到了测试集中的样本,则称为实例直推式学习。在零样本图像分类的域迁移问题中,有一些工作是利用无标签数据来解决。但是在零样本文本分类中很少用直推式学习。如图2所示,模型通过强化自训练实现零样本文本分类,自训练是在半监督学习中广泛使用的算法,其基本学习过程是迭代地选择置信度高地无标签数据,并且将这些伪标签数据添加到训练集中。其缺点是加入了无标签的不可见类样本,但是认为在实际中很难确定不可见类的样本。
发明内容
传统的基于蕴含方法的零样本文本分类对于标签的生成方式还未挖掘,对此通过语义扩展来丰富类别标签,使得标签和文本之间蕴含更多的语义信息来提高泛化的零样本文本分类性能。据所知,是将标签扩展第一次用于零样本文本分类。
对于基于标签扩展的零样本文本分类研究,主要解决的是如何对标签进行精确地扩展,以此来保证扩展后的标签能够精准的代表此标签的语义信息,并且不加入多余的噪声防止降低分类的准确性。
基于标签扩展的零样本文本分类方法,该方法包括以下两个步骤:
步骤一:扩展标签
对数据集的假设标签信息通过专家知识,大型的知识库以及与预训练的语言模型来进行扩充,以此丰富其语义知识。具体扩展过程如下所示:
1)首先利用专家知识为每个标签增加2-3个关键词,专家知识通过搜索引擎或者人工获得。
2)ConceptNet以三元组形式的关系型知识构成。ConceptNet的结点表示的是词,边表示的是词与词之间的关系。为了获取标签更广泛的关系语义信息,通过ConceptNet来搜索专家词的相似词来再次扩充标签,这次标签得到一些常识性的单词。
3)使用BERT对专家词汇进行扩展,具体如下,将数据集中带有专家词汇如science的句子入预训练的BERT中,这样获得标签的内容化词向量h,然后通过MLM模型获得词汇表中每个词和专家词汇相似的概率p,这个过程表示为,
p(w|h)=(W2σ(W1h+b))
其中,w是词汇表中的一个词,W1,W2表示模型要学习的参数,σ是激活函数,b是偏差。
在获得专家词与词汇表中每个词的相似概率,选取概率最高的前50个词。对于数据集中的所有出现专家词汇的句子,在获得专家词与词汇表中概率最高的前50个词之外,选取重复率最高的50个词作为代表这个标签的词汇表。
通过以上方法获得数据集中每个标签的扩展词汇,标签词汇表包含代表这个标签的由ConceptNet创建的一般知识和由预训练语言模型创建的内容化知识。
步骤二:零样本文本分类
首先对泛化的零样本学习进行定义。可见类别的实例S中,零样本文本分类致力于学习一个分类器f(˙):X→Y,其中Y=S∪U,U是不可见类别的一个集合。
BERT是一个基于注意力的双向语言模型。将标识作为输入,BERT通过多层的Transformer编码器获取标识的嵌入。将BERT在大型的文本蕴含数据集上进行了预训练。对BERT模型进行微调和预训练完成之后,对可见类别的实例S进行训练。照BERT的输入标识规则输入BERT中,BERT提取两句话的特征,最后将这个特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后,任意输入测试集的两句话进行蕴含测试,其中测试集的假设标签空间包含可见类别和不可见类别即Y=S∪U。
进一步地,在扩展标签的时候,为了标签的代表的语义不明确,去除在不同标签中重叠的词。
附图说明
图1基于分段模型的零样本文本分类框架。
图2基于直推式的零样本文本分类框架。
图3基于BERT的标签扩展模型。
图4基于蕴含方法的零样本文本分类。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
本发明采用的技术方案为基于标签扩展的零样本文本分类方法,该方法包括如下步骤,步骤一:扩展标签
对于蕴含方法的零样本文本分类问题,假设(标签)的信息引用到了蕴含模型中,所以标签的语义信息也是相当重要的。但是仅仅用一个词或者用一个句子来表示标签信息是远远不够的。对此,对数据集的假设(标签)信息通过专家知识,大型的知识库以及与预训练的语言模型来进行扩充,以此丰富其语义知识。具体扩展过程如下所示:
4)首先利用专家知识为每个标签增加2-3个关键词,专家知识可以通过搜索引擎或者人工获得。例如,‘science’这个标签通过搜索引擎可以得到‘science,mathematics’这两个专家词来扩充这个标签。
5)ConceptNet是自然语言处理中常用常识知识库,是以三元组形式的关系型知识构成。如图1所示,ConceptNet的结点表示的是词,边表示的是词与词之间的关系。为了获取标签更广泛的关系语义信息,通过ConceptNet来搜索专家词的相似词来再次扩充标签,这次标签可以得到一些常识性的单词。例如,‘science,mathematics’通过ConceptNet扩充的关系相关词汇为‘chemistry biology study physics discipline science numbersclassroom polymathchange mathematically’。
6)预训练语言模型BERT(Bidirectional Encoder Representations fromTransformers,BERT)由于包含的多层注意力机制以及在含有大量的新文章和一般领域语料库的维基百科上进行训练的优势,被广泛地用于许多自然语言处理任务,如机器翻译,阅读理解。对此,为了更进一步获得标签的内容化语义知识,使用BERT对专家词汇进行扩展,具体如下,
如图3所示,将数据集中带有专家词汇如science的句子入预训练的BERT中,这样的目的是获得标签的内容化词向量h,然后通过MLM(Mask Language Model,MLM)模型获得词汇表中每个词和专家词汇相似的概率p,这个过程可以表示为,
p(w|h)=(W2σ(W1h+b))
其中,w是词汇表中的一个词,W1,W2表示模型要学习的参数,σ是激活函数,b是偏差。
在获得专家词与词汇表中每个词的相似概率,选取概率最高的前50个词。对于数据集中的所有出现专家词汇的句子,在获得专家词与词汇表中概率最高的前50个词之外,选取重复率最高的50个词作为代表这个标签的词汇表。例如,Science这个标签通过预训练语言模型获得的扩充词汇为‘science physics biology scientific chemistrysciences scientist scientists researchmathematics theory engineering fielddesign geometry math mechanics algebra studypsychology typechemical methodspace’。
通过以上方法获得数据集中每个标签的扩展词汇,标签词汇表包含代表这个标签的由ConceptNet创建的一般知识和由预训练语言模型创建的内容化知识。
注意:在扩展标签的时候,为了标签的代表的语义不明确,去除在不同标签中重叠的词。
步骤二:零样本文本分类
首先对泛化的零样本学习进行一个简单的定义。给一些可见类别的实例S,零样本文本分类致力于学习一个分类器f(˙):X→Y,其中Y=S∪U,U是不可见类别的一个集合。
BERT(Bidirectional Encoder Representations from Transformers)是一个基于注意力的双向语言模型。将标识(例如,词片)作为输入,BERT通过多层的Transformer编码器获取标识的嵌入(Transformer是一个特征抽取器,由多头注意力构成)。当在大型语料库上进行预训练时,在自然语言处理任务的各种变体中,BERT被证明进行迁移学习是非常有效的。
BERT被广泛地微调用来解决各种下游任务,其中也可以微调来解决文本蕴含问题。为了使得BERT的蕴含分类性能更加的有效且使模型更好地进行零样本学习问题,将BERT在大型的文本蕴含数据集上进行了预训练。对BERT模型进行微调和预训练完成之后,对可见类别的实例S进行训练。通过根据标签扩展的蕴含方法解决零样本文本分类问题的框架如图4所示,具体的训练过程是将前提(在分类问题中称为文本)“How come stars aregenerally round because ofthe massive amounts ofgravitational forceinvolved.”和假设(在分类问题中称为标签,训练时的标签仅包含可见类别实例S的标签)“it is related with science or mathematics+extended words”同时按照BERT的输入标识规则输入BERT中,BERT提取两句话的特征,最后将这个特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后,任意输入测试集的两句话进行蕴含测试,其中测试集的假设(标签)空间包含可见类别和不可见类别即(Y=S∪U)。在三个长文档数据集emotion,situation,topic上进行零样本文本分类来评估所提出的方法,并将其与一套最先进的相关方法进行了比较。
如表2所示。结果表明提出的方法不论零样本学习还是在泛化的零样本学习上都优于其他方法,证明了标签扩展对于解决零样本文本分类的优越性。
表1句子对之间关系例子
表2在零样本学习下的结果
表3在泛化的零样本学习下的结果,其中其中h=2*(s*u)/(s+u)
Claims (2)
1.基于标签扩展的零样本文本分类方法,其特征在于:该方法包括以下两个步骤,
步骤一:扩展标签;
对数据集的假设标签信息通过专家知识,大型的知识库以及与预训练的语言模型来进行扩充,以丰富其语义知识;具体扩展过程如下所示:
1)首先利用专家知识为每个标签增加2-3个关键词,专家知识通过搜索引擎或者人工获得;
2)ConceptNet以三元组形式的关系型知识构成;ConceptNet的结点表示的是词,ConceptNet的边表示的是词与词之间的关系;为获取标签更广泛的关系语义信息,通过ConceptNet来搜索专家词的相似词来再次扩充标签,得到常识性单词;
3)使用BERT对专家词汇进行扩展,将数据集中带有专家词汇science的句子入预训练的BERT中,获得标签的内容化词向量h,然后通过MLM模型获得词汇表中每个词和专家词汇相似的概率p,表示为,
p(w|h)=(W2σ(W1h+b))
其中,w是词汇表中的一个词,W1,W2表示模型要学习的参数,σ是激活函数,b是偏差;
在获得专家词与词汇表中每个词的相似概率,选取概率最高的前50个词;对于数据集中的所有出现专家词汇的句子,在获得专家词与词汇表中概率最高的前50个词之外,选取重复率最高的50个词作为代表这个标签的词汇表;
通过获得数据集中每个标签的扩展词汇,标签词汇表包含代表这个标签的由ConceptNet创建的一般知识和由预训练语言模型创建的内容化知识;
步骤二:零样本文本分类
首先对泛化的零样本学习进行定义;可见类别的实例S中,零样本文本分类致力于学习一个分类器f(˙):X→Y,其中Y=S∪U,U是不可见类别的一个集合;
BERT是一个基于注意力的双向语言模型;将标识作为输入,BERT通过多层的Transformer编码器获取标识的嵌入;将BERT在大型的文本蕴含数据集上进行了预训练;对BERT模型进行微调和预训练完成之后,对可见类别的实例S进行训练;照BERT的输入标识规则输入BERT中,BERT提取两句话的特征,最后将这个特征通过线性层输出两句话蕴含和矛盾的概率;训练完成之后,任意输入测试集的两句话进行蕴含测试,其中测试集的假设标签空间包含可见类别和不可见类别即Y=S∪U。
2.根据权利要求1所述的基于标签扩展的零样本文本分类方法,其特征在于:在扩展标签的时候,为标签的代表的语义不明确,去除在不同标签中重叠的词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110861340.3A CN113723106B (zh) | 2021-07-29 | 2021-07-29 | 基于标签扩展的零样本文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110861340.3A CN113723106B (zh) | 2021-07-29 | 2021-07-29 | 基于标签扩展的零样本文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723106A CN113723106A (zh) | 2021-11-30 |
CN113723106B true CN113723106B (zh) | 2024-03-12 |
Family
ID=78674204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110861340.3A Active CN113723106B (zh) | 2021-07-29 | 2021-07-29 | 基于标签扩展的零样本文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723106B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098623A (zh) * | 2022-06-06 | 2022-09-23 | 中国船舶集团有限公司系统工程研究院 | 一种基于bert的体能训练数据特征提取方法 |
CN116860980B (zh) * | 2023-09-04 | 2024-01-26 | 中国人民解放军总医院第六医学中心 | 一种实时手术反馈分类方法及系统 |
CN117407615A (zh) * | 2023-10-27 | 2024-01-16 | 北京数立得科技有限公司 | 一种基于强化学习的Web信息抽取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN111914929A (zh) * | 2020-07-30 | 2020-11-10 | 南京邮电大学 | 零样本学习方法 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
CN113158653A (zh) * | 2021-04-25 | 2021-07-23 | 北京智源人工智能研究院 | 预训练语言模型的训练方法、应用方法、装置及设备 |
-
2021
- 2021-07-29 CN CN202110861340.3A patent/CN113723106B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN111914929A (zh) * | 2020-07-30 | 2020-11-10 | 南京邮电大学 | 零样本学习方法 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
CN113158653A (zh) * | 2021-04-25 | 2021-07-23 | 北京智源人工智能研究院 | 预训练语言模型的训练方法、应用方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113723106A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723106B (zh) | 基于标签扩展的零样本文本分类方法 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
Jung | Semantic vector learning for natural language understanding | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN111563375B (zh) | 一种文本生成方法和装置 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN110222344B (zh) | 一种针对小学生作文辅导的作文要素分析算法 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN112668463B (zh) | 一种基于场景识别的中文手语翻译方法及系统 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN117371523A (zh) | 基于人机混合增强的教育知识图谱构建方法与系统 | |
CN113947087B (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
Lopes et al. | Exploring bert for aspect extraction in portuguese language | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
Sarma et al. | Word level language identification in Assamese-Bengali-Hindi-English code-mixed social media text | |
Nathani et al. | Part of speech tagging for a resource poor language: Sindhi in Devanagari script using HMM and CRF | |
CN112101348A (zh) | 多语种端到端ocr算法及系统 | |
CN110909547A (zh) | 一种基于改进深度学习的司法实体识别方法 | |
AN et al. | Scoring Impressions and Associations for Improved Concept Map Excavating from Dominion Text Demonstration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |