CN116737935A - 基于提示学习的藏文文本分类方法、装置及存储介质 - Google Patents
基于提示学习的藏文文本分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116737935A CN116737935A CN202310736933.6A CN202310736933A CN116737935A CN 116737935 A CN116737935 A CN 116737935A CN 202310736933 A CN202310736933 A CN 202310736933A CN 116737935 A CN116737935 A CN 116737935A
- Authority
- CN
- China
- Prior art keywords
- tibetan
- classification
- prompt
- template
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 2
- 238000012549 training Methods 0.000 abstract description 31
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000011282 treatment Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于提示学习的藏文文本分类方法、装置及存储介质,应用于藏文文本分类技术领域,包括:在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类,通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示,提升藏文表示的质量,然后根据分类任务的需求,设计不同的分类提示模板,对不同分类提示模板的结果进行融合,进而实现藏文文本分类的目的,通过提示学习能够减少模型训练过程中对训练数据规模的要求,取得更好的效果,有效的克服藏文文本自然语言处理任务的标注数据不足的问题。
Description
技术领域
本发明涉及藏文文本分类技术领域,具体涉及基于提示学习的藏文文本分类方法、装置及存储介质。
背景技术
藏文文本分类是藏文自然语言处理基础任务,能够支撑情感分析、垃圾邮件分类等应用,具有重要的研究价值和应用价值,随着移动互联网在青藏高原地区的普及,藏文文本分类的应用需求越发强烈;
传统的藏文文本分类方法主要是基于统计学习和基于深度学习的,如基于SVM的藏文文本分类,基于卷积神经网络(Convolutional Neural Networks,CNN)的文本分类,传统的藏文文本分类模型需要大量的训练数据,深度学习模型对训练数据的规模有更高的要求,然而,标注数据不足是藏文等少数民族语言处理所普遍面临的问题,以藏文文本分类任务为例,目前公开的藏文文本分类数据集TCNN包含12种类别的新闻,共9000多条数据,远低于中文/英文文本分类的数据集的规模,其他藏文自然语言处理任务的训练数据(如命名实体识别、关系抽取、情感分类)则更缺少相应的公开数据,标注数据稀缺直接限制了藏文自然语言处理技术的发展及应用。
发明内容
有鉴于此,本发明的目的在于提供基于提示学习的藏文文本分类方法、装置及存储介质,以解决现有技术中,模型的训练需要大量的训练数据,而藏文文本分类缺少相应的标注数据,限制了模型的训练效果,导致模型的分类精度不高的问题。
根据本发明实施例的第一方面,提供基于提示学习的藏文文本分类方法,所述方法包括:
通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果。
优选地,
所述通过藏文音节组合模型对藏文文本进行分词,得到藏文词汇表示包括:
所述藏文音节组合模型将藏文文本中表示单独词汇的组合音节进行分离,得到多组组合音节,每一组组合音节为一个藏文词汇表示。
优选地,
所述多个分类提示模板包括多语种编写的多个分类提示模板。
优选地,
所述多语种编写的多个分类提示模板包括:藏文分类提示模板、中文分类提示模板以及英文分类提示模板,在多个分类提示模板中,每一个分类提示模板均分别对应有藏文编写的提示模板、中文编写的提示模板以及英文编写的提示模板。
优选地,
将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果包括:
将所述藏文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个藏文分类提示模板与所述藏文文本的第一匹配概率;
将所述中文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第二匹配概率;
将所述英文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第三匹配概率;
将所述第一匹配概率、第二匹配概率以及第三匹配概率相加得到每一个分类提示模板与所述藏文文本的最终匹配概率;
选取最终匹配概率最大的分类模板作为藏文文本的分类结果。
优选地,
所述藏文音节组合模型为Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合。
根据本发明实施例的第二方面,提供基于提示学习的藏文文本分类装置,所述装置包括:
分词模块:用于通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
模板设置模块:用于根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
分类预测模块:用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果。
根据本发明实施例的第三方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被主控器执行时,实现所述的上述方法中的各个步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本申请中,在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类,通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示,提升藏文表示的质量,然后根据分类任务的需求,设计不同的分类提示模板,对不同分类提示模板的结果进行融合,进而实现藏文文本分类的目的,通过提示学习能够减少模型训练过程中对训练数据规模的要求,取得更好的效果,有效的克服藏文文本自然语言处理任务的标注数据不足的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的基于提示学习的藏文文本分类方法的流程示意图;
图2是根据一示例性实施例示出的提示学习的原理示意图;
图3是根据一示例性实施例示出的基于Transformer的藏文词表示方法的原理示意图;
图4是根据一示例性实施例示出的藏文文本分类示意图;
图5是根据一示例性实施例示出的藏文文本分类伪代码示意图;
图6是根据一示例性实施例示出的藏文文本分类案例流程图;
图7是根据一示例性实施例示出的基于提示学习的藏文文本分类装置的系统示意图;
附图中:1-分词模块,2-模板设置模块,3-分类预测模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与本发明的一些方面相一致的装置和方法的例子。
实施例一
图1是根据一示例性实施例示出的基于提示学习的藏文文本分类方法的流程示意图,如图1所示,该方法包括:
S1,通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
S2,根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
S3,所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果;
可以理解的是,本申请的核心思想设计实现一个基于提示学习的低资源藏文文本分类方法,该方法在现有的藏文预训练语言模型的基础上,采用提示学习实现藏文文本分类,并根据藏语语言的特点,对藏文表示进行优化,具体的,通过藏文音节组合模型对藏文文本进行分词,得到该藏文文本对应的多个藏文词汇表示,根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中,通过掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果,值得强调的是,如附图2所示,提示学习是一种典型的小样本学习方法,是利用大规模预训练语言模型训练时本身的掩码语言模型(Masked Language Model,MLM)任务,MLM任务的目标是在输入的句子中随机MASK一些词,然后让模型预测这些被MASK的词是什么,这两个任务的训练可以使Bert模型学习到语言的上下文信息,并且生成具有语义信息的词向量表示,这些词向量可以用于下游任务的微调,语言模型在训练时,会将其中的部分字/词使用MASK标签进行替换,语言模型的训练目标是预测出MASK位置原本的词汇,通过这种方式让语言模型具有理解上下文和预测目标词汇的能力,从而将下游任务建模为语言模型的掩码生成问题,模型学习的目标是利用上下文信息预测出MASK标签位置原来对应的词汇,通过上述方法模型可以在没有标注数据的情况下自动地构建大规模的训练数据,让模型拥有上下文理解和词汇预测的能力;通过提示学习能够减少模型训练过程中对训练数据规模的要求,取得更好的效果,有效的克服藏文文本自然语言处理任务的标注数据不足的问题,本申请则是利用语言模型的文本预测能力,将文本分类转化为文本类别预测任务,具体来说,给定一段文本,我们将其类别作为MASK,在语言模型中进行预测,即预测MASK位置最可能的文本类别,从而实现小样本文本分类。
优选地,
所述通过藏文音节组合模型对藏文文本进行分词,得到藏文词汇表示包括:
所述藏文音节组合模型将藏文文本中表示单独词汇的组合音节进行分离,得到多组组合音节,每一组组合音节为一个藏文词汇表示;
可以理解的是,藏文的书写系统与汉语类似,词汇之间没有空格,音节是藏文的基本书写单元,不同的音节之间通常有音节点隔开,音节组合成有意义的词汇,然而目前的藏文预训练语言模型包括CINO、robert-base-tibet等均使用音节作为基本的表示单元,没有考虑藏文词作为独立语义单元的特点,因此,本实施例中通过藏文音节组合模型将一个词的音节表示进行组合得到词汇的表示,附图3给出了藏文音节组合模型采用Transformer模型时的整体框架。
优选地,
所述多个分类提示模板包括多语种编写的多个分类提示模板;
可以理解的是,由于现有的预训练语言模型是包含藏文的多语言预训练语言模型,但是目前藏文的数据量有限,如果仅仅采用藏文的分类提示模板会导致模型对藏文的理解不足,那么后续的分类结果也会出现偏差,所以采用多语种的分类提示模板能够取得更好的效果。
优选地,
所述多语种编写的多个分类提示模板包括:藏文分类提示模板、中文分类提示模板以及英文分类提示模板,在多个分类提示模板中,每一个分类提示模板均分别对应有藏文编写的提示模板、中文编写的提示模板以及英文编写的提示模板;
可以理解的是,基于提示学习进行文本分类的关键在于提示模板(prompttemplate)的设计,通常情况下,提示模板可以分为两种类别:离散模板(discretetemplate)和连续模板(continuous template),离散模板是指将文本类别作为离散的词或短语插入到输入文本中,例如在输入文本前加上“该文本类别是”这样的前缀,本申请设计了几个简洁有效的人工模板,具体的模板信息如下表所示,其中text_a为输入的文本信息,"mask"为模型要预测的输出,即文本类别,本实施例中,多语种包括藏文、中文以及英文三种,在设置一个分类提示模板后,会分别用藏文、中文以及英文三种语言进行表示,下表分别采用了藏文、中文和英文提示模板作为示例:
优选地,
将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果包括:
将所述藏文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个藏文分类提示模板与所述藏文文本的第一匹配概率;
将所述中文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第二匹配概率;
将所述英文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第三匹配概率;
将所述第一匹配概率、第二匹配概率以及第三匹配概率相加得到每一个分类提示模板与所述藏文文本的最终匹配概率;
选取最终匹配概率最大的分类模板作为藏文文本的分类结果;
可以理解的是,给定提示模板后,基于掩码语言模型根据输入的信息预测不同模板的概率,选择概率最大的模板作为预测结果,其计算方法如下所示:
p(t|x)=max(pMLM(ti|x))
式中,t为提示模板,x为输入的藏文词汇表示,MLM为掩码语言模型,由于设计了多语种模板,因此需要对不同的模板进行结果的融合,其融合方法如下所示:
其中y为最终输出的类别,t为提示模板,x为输入的藏文词汇表示,PLM为通过语言模型计算的y的概率,即使用所有模板对应类别概率加和的最大值作为藏文文本的最终匹配概率;
根据上述的藏文小样本文本分类模型,模型的输入为文本内容,输出为文本对应的类型,整体框架如附图4所示,其中“是一篇[MASK]领域的新闻”是提示模板,MASK为模型需要预测的新闻类别和领域,模型的训练和预测的伪代码如附图5所示,训练数据为新闻标题信息及其对应的文本分类,预测数据的输入为类别信息,输出为文本类别。
优选地,
所述藏文音节组合模型为Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合;
可以理解的是,上述的藏文音节组合模型可以采用Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合,均为现有技术中相当成熟的技术,同时,上述的藏文预训练语言模型可以采用CINO、robert-base-tibet等开源模型,也可以使用基于大规模藏文文本训练得到的藏文词向量或预训练语言模型,本申请对此不做任何限定。
如附图6所示,给出了一种具体的藏文文本分类的流程图,先将藏文文本:“(常见的几种治疗方法)”输入到藏文音节组合模型中,设置多语种提示模板:news{"mask"}:{"placeholder":"text_a"},/>(信息):{"mask"}]{"placeholder":"text_a"},{"mask"}新闻:{"placeholder":"text_a"},改造后的输入数据为:news{"mask"}:{"placeholder":″/>(常见的几种治疗方法)"},[(信息):{″mask″}]{″placeholder″:″/> (常见的几种治疗方法)"},{"mask"}新闻:{"placeholder":″/> (常见的几种治疗方法)"},输入模型,生成对应的结果:
news{"medicine"}:{"placeholder":″(常见的几种治疗方法)"};
[(信息)·:{″/>(器械)″}]{″placeholder″:″(常见的几种治疗方法)"};
{"医药"}新闻:{"placeholder":″(常见的几种治疗方法)"};
采用投票算法,获得分类标签最多的标签作为最终的分类结果,上述分类为:medicine。
实施例二
图7是根据一示例性实施例示出的基于提示学习的藏文文本分类装置的系统示意图,如图6所示,该装置包括:
分词模块1:用于通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
模板设置模块2:用于根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
分类预测模块3:用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果;
可以理解的是,本申请还提供了用于实现上述方法的装置,包括:分词模块1通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;模板设置模块2用于根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;分类预测模块3用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果;在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类,通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示,提升藏文表示的质量,然后根据分类任务的需求,设计不同的分类提示模板,对不同分类提示模板的结果进行融合,进而实现藏文文本分类的目的,通过提示学习能够减少模型训练过程中对训练数据规模的要求,取得更好的效果,有效的克服藏文文本自然语言处理任务的标注数据不足的问题。
实施例三:
本实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被主控器执行时,实现上述方法中的各个步骤;
可以理解的是,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.基于提示学习的藏文文本分类方法,其特征在于,所述方法包括:
通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,
所述通过藏文音节组合模型对藏文文本进行分词,得到藏文词汇表示包括:
所述藏文音节组合模型将藏文文本中表示单独词汇的组合音节进行分离,得到多组组合音节,每一组组合音节为一个藏文词汇表示。
3.根据权利要求2所述的方法,其特征在于,
所述多个分类提示模板包括多语种编写的多个分类提示模板。
4.根据权利要求3所述的方法,其特征在于,
所述多语种编写的多个分类提示模板包括:藏文分类提示模板、中文分类提示模板以及英文分类提示模板,在多个分类提示模板中,每一个分类提示模板均分别对应有藏文编写的提示模板、中文编写的提示模板以及英文编写的提示模板。
5.根据权利要求4所述的方法,其特征在于,
将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果包括:
将所述藏文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个藏文分类提示模板与所述藏文文本的第一匹配概率;
将所述中文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第二匹配概率;
将所述英文分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个中文分类提示模板与所述藏文文本的第三匹配概率;
将所述第一匹配概率、第二匹配概率以及第三匹配概率相加得到每一个分类提示模板与所述藏文文本的最终匹配概率;
选取最终匹配概率最大的分类模板作为藏文文本的分类结果。
6.根据权利要求1-5任意一项所述的方法,其特征在于,
所述藏文音节组合模型为Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合。
7.基于提示学习的藏文文本分类装置,其特征在于,所述装置包括:
分词模块:用于通过藏文音节组合模型对藏文文本进行分词,得到多个藏文词汇表示;
模板设置模块:用于根据分类需求设置多个分类提示模板,将所述多个藏文词汇表示分别输入到所述掩码语言模型中;
分类预测模块:用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率,将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加,得到每个分类提示模板与所述藏文文本的匹配概率,选择匹配概率最大的分类提示模板作为藏文文本的分类结果。
8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被主控器执行时,实现如权利要求1-6任一项所述的基于提示学习的藏文文本分类方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736933.6A CN116737935B (zh) | 2023-06-20 | 2023-06-20 | 基于提示学习的藏文文本分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736933.6A CN116737935B (zh) | 2023-06-20 | 2023-06-20 | 基于提示学习的藏文文本分类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116737935A true CN116737935A (zh) | 2023-09-12 |
CN116737935B CN116737935B (zh) | 2024-05-03 |
Family
ID=87900831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310736933.6A Active CN116737935B (zh) | 2023-06-20 | 2023-06-20 | 基于提示学习的藏文文本分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737935B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103218444A (zh) * | 2013-04-22 | 2013-07-24 | 中央民族大学 | 基于语义的藏文网页文本分类方法 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
CN112487792A (zh) * | 2021-01-25 | 2021-03-12 | 青海师范大学 | 一种基于自然语言理解的藏语情感句自动分类系统 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114817528A (zh) * | 2022-03-21 | 2022-07-29 | 北京快确信息科技有限公司 | 基于提示模板的金融文本分类方法、装置及电子设备 |
CN115455181A (zh) * | 2022-08-29 | 2022-12-09 | 网经科技(苏州)有限公司 | 一种提示学习的小样本文本分类方法 |
CN115640394A (zh) * | 2022-09-09 | 2023-01-24 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
US20230025317A1 (en) * | 2020-11-04 | 2023-01-26 | Tencent Technology (Shenzhen) Company Limited | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
US20230040095A1 (en) * | 2021-10-28 | 2023-02-09 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for pre-training model, device, and storage medium |
CN115713072A (zh) * | 2022-11-14 | 2023-02-24 | 东南大学 | 一种基于提示学习和上下文感知的关系类别推断系统及方法 |
CN115774782A (zh) * | 2022-12-14 | 2023-03-10 | 广东外语外贸大学 | 多语种文本分类方法、装置、设备及介质 |
CN115914161A (zh) * | 2022-11-25 | 2023-04-04 | 联通在线信息科技有限公司 | 一种基于提示的小样本邮件分类方法及系统 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
-
2023
- 2023-06-20 CN CN202310736933.6A patent/CN116737935B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103218444A (zh) * | 2013-04-22 | 2013-07-24 | 中央民族大学 | 基于语义的藏文网页文本分类方法 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
US20230025317A1 (en) * | 2020-11-04 | 2023-01-26 | Tencent Technology (Shenzhen) Company Limited | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product |
CN112487792A (zh) * | 2021-01-25 | 2021-03-12 | 青海师范大学 | 一种基于自然语言理解的藏语情感句自动分类系统 |
US20230040095A1 (en) * | 2021-10-28 | 2023-02-09 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for pre-training model, device, and storage medium |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN114817528A (zh) * | 2022-03-21 | 2022-07-29 | 北京快确信息科技有限公司 | 基于提示模板的金融文本分类方法、装置及电子设备 |
CN115455181A (zh) * | 2022-08-29 | 2022-12-09 | 网经科技(苏州)有限公司 | 一种提示学习的小样本文本分类方法 |
CN115640394A (zh) * | 2022-09-09 | 2023-01-24 | 平安科技(深圳)有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
CN115713072A (zh) * | 2022-11-14 | 2023-02-24 | 东南大学 | 一种基于提示学习和上下文感知的关系类别推断系统及方法 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
CN115914161A (zh) * | 2022-11-25 | 2023-04-04 | 联通在线信息科技有限公司 | 一种基于提示的小样本邮件分类方法及系统 |
CN115774782A (zh) * | 2022-12-14 | 2023-03-10 | 广东外语外贸大学 | 多语种文本分类方法、装置、设备及介质 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
Non-Patent Citations (3)
Title |
---|
李琳 等: "基于词向量特征的藏语谓语动词短语识别模型", 《电子技术与软件工程》, no. 04, pages 242 - 243 * |
江涛 等: "一种面向藏文聚类的文本建模方法", 《西北民族大学学报(自然科学版)》, vol. 37, no. 03, 15 September 2016 (2016-09-15), pages 24 - 28 * |
王莉莉 等: "基于多分类器的藏文文本分类方法", 《南京邮电大学学报(自然科学版)》, vol. 40, no. 01, pages 102 - 110 * |
Also Published As
Publication number | Publication date |
---|---|
CN116737935B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110888966A (zh) | 自然语言问答 | |
CN112307773B (zh) | 机器阅读理解系统的自定义问题数据自动生成方法 | |
CN112634865B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP2022128441A (ja) | 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN115293168A (zh) | 基于预训练模型语义理解的多语言缩写消歧义算法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN115101042A (zh) | 一种文本处理方法、装置及设备 | |
CN114841167A (zh) | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN116737935B (zh) | 基于提示学习的藏文文本分类方法、装置及存储介质 | |
CN116562240A (zh) | 文本生成方法、计算机设备及计算机存储介质 | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
CN114707503B (zh) | 基于多任务学习的前端文本分析方法 | |
Cabiddu et al. | CLASSIC utterance boundary: a chunking‐based model of early naturalistic word segmentation | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN114398896A (zh) | 信息录入方法、装置、电子设备及计算机可读存储介质 | |
Sharma et al. | Language identification for hindi language transliterated text in roman script using generative adversarial networks | |
Sridhar et al. | Enriching machine-mediated speech-to-speech translation using contextual information | |
Yadav et al. | Different Models of Transliteration-A Comprehensive Review | |
Patkar et al. | A Neural Network Based Machine Translation model For English To Ahirani Language | |
US20240005905A1 (en) | End-to-end natural and controllable emotional speech synthesis methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |