CN117131877A - 一种基于对比学习的文本检测方法及系统 - Google Patents
一种基于对比学习的文本检测方法及系统 Download PDFInfo
- Publication number
- CN117131877A CN117131877A CN202311167586.6A CN202311167586A CN117131877A CN 117131877 A CN117131877 A CN 117131877A CN 202311167586 A CN202311167586 A CN 202311167586A CN 117131877 A CN117131877 A CN 117131877A
- Authority
- CN
- China
- Prior art keywords
- text
- learning
- information
- semantic space
- representation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000001419 dependent effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 201000009032 substance abuse Diseases 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对比学习的文本检测方法及系统,该方法包括:利用非自回归预训练模型对句子进行编码,得到文本表示信息;获取依赖句法信息,并基于依赖句法信息对文本表示信息进行对比学习,得到学习完成的文本表示信息;对学习完成的文本表示信息进行文本检测,得到预测结果;根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型;利用优化的检测模型进行文本检测,得到检测结果。该系统包括:文本编码模块、对比学习模块、文本检测模块和模型优化模块。通过使用本发明,能够显式地捕捉句法特征,准确识别出机器生成文本和人类生成文本。本发明可广泛应用于深度学习技术领域。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于对比学习的文本检测方法及系统。
背景技术
机器生成的文本越来越难以与人工编写的文本区分开来。强大的开源模型免费提供,使生成模型的访问变得民主化的工具正在激增,ChatGPT就是这些趋势的缩影。最先进的自然语言生成(NLG)系统的巨大潜力被多种滥用途径所削弱。
对威胁模型的分析表明,检测是减少NLG模型滥用危害的一个有价值的工具。机器生成文本的检测通常被定义为一个二元分类问题,在该问题中,分类器被训练来区分机器生成文本和人类生成文本的样本。
目前自动文本识别模型主要采用基于特征的方法和基于神经网络的方法,然而,尽管基于特征的方法可以捕捉文本的句法特征,但它在一定程度上严重依赖于语言学知识,需要更多的样本才能使更广泛的统计趋势变得清晰,导致语言的可迁移性较差;基于神经网络的方法表现出强大的文本表示能力,但不太善于捕捉句法特征;因此,现未有一种基于神经网络的方法能够显式地捕捉句法特征,识别出机器生成文本和人类生成文本。
发明内容
为了解决上述技术问题,本发明的目标是提供一种基于对比学习的文本检测方法及系统,能够显式地捕捉句法特征,准确识别出机器生成文本和人类生成文本。
本发明所采用的第一技术方案是:一种基于对比学习的文本检测方法,包括以下步骤:
利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型;
利用优化的检测模型进行文本检测,得到检测结果。
进一步,所述获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息这一步骤,其具体包括:
提取句子的依赖句法信息,并生成依赖句法树;
利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离,得到学习完成的语义空间的文本表示信息。
通过该优选步骤,确保了样本在语义空间中的分布与依赖句法树的形状一致,使自动文本的语义空间与人工书写的文本的语义更容易区分,以克服自动文本识别的困难。
进一步,所述对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果这一步骤,其具体包括:
提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息,得到句子的整体特征信息;
将句子的整体特征信息馈送到线性分类器中进行分类,得到预测结果。
通过该优选步骤,从学习完成的语义空间的文本表示信息中筛选出能够代表句子整体特征的文本表示信息,降低了文本检测成本。
进一步,所述根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型这一步骤,其具体包括:
根据预测结果和真实标签计算非自回归预训练模型的损失;
所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失;
以Adam为优化器,基于非自回归预训练模型的损失进行反向传播,得到优化的检测模型。
通过该优选步骤,完成对非自回归预训练模型的训练优化。
进一步,所述序列的整体对比损失,其表达式如下:
其中,Lsbc表示序列的整体对比损失函数,表示第i个序列令牌的对比损失,n表示序列中令牌的数量,P表示第i个序列令牌的正样本集,I表示句子序列中标记的下标列表,sim(·)表示余弦相似性函数,hi表示第i个序列令牌编码后的语义空间的文本表示信息,hp表示第p个序列令牌编码后的语义空间的文本表示信息,hk表示第k个序列令牌编码后的语义空间的文本表示信息,τ表示温度超参数。
通过该优选步骤,最大限度地减少神经网络模型的损失,使模型的检测准确率提高。
进一步,所述预测结果,其表达式如下:
y=softmax(WT·h[CLS]+b)
其中,y表示预测结果,即预测概率,W和b表示可学习的参数,h表示学习完成的神经网络模型的语义空间的文本表示信息,CLS表示标签符号。
本发明所采用的第二技术方案是:一种基于对比学习的文本检测系统,包括:
文本编码模块,利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
对比学习模块,用于获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
文本检测模块,用于对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
模型优化模块,根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型。
本发明方法及系统的有益效果是:本发明通过非自回归预训练模型对句子进行编码,为文本表示提供了广泛的语言、句法和词汇知识;利用依赖句法信息来隐含地改变神经网络模型的语义空间分布,确保了样本在语义空间中的分布与依赖句法树的形状一致,使自动文本的语义空间与人工书写的文本的语义更容易区分;并通过最大限度地减少神经网络模型的损失,使模型的检测准确率提高,最终实现显式地捕捉句法特征,准确识别出机器生成文本和人类生成文本。
附图说明
图1是本发明一种基于对比学习的文本检测方法的步骤流程图;
图2是本发明一种基于对比学习的文本检测系统的结构框图;
图3是本发明一种基于对比学习的文本检测方法的句法树结构图;
图4是本发明一种基于对比学习的文本检测方法的语义空间转换图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种基于对比学习的文本检测方法,该方法包括以下步骤:
S1、利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
具体地,为了捕捉文本中丰富的语义信息,利用非自回归预训练模型对句子进行编码,非自回归预训练模型的底层结构涉及多层双向Transformer编码器,具有出色的文本语义表示能力,可以在预训练阶段对大量语料库进行无监督训练,为下游任务提供了广泛的语言、句法和词汇知识。
本发明具体实施例选择XLM RoBERTa作为我们的文本编码器,给定由令牌序列{w1,w2,w3,…,wn}组成的输入句子S,经过XLM-RoBERTa编码后,其语义空间的文本表示信息的表达式如下:
hi=Encoder(wi)
其中,hi表示编码后神经网络模型的语义空间的文本表示信息,hi∈Rm,m表示语义表示的维度。
S2、获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
S2.1、提取句子的依赖句法信息,并生成依赖句法树;
具体地,通过spacy工具提取句子的依赖句法信息,依存句法树由一个句子的句法特征组成;自动化文本与人工书写文本在句法特征上存在显著差异;更准确地说,基于语言规则生成的自动化文本在句法上往往更合理,其相应的依赖句法树比人类书面文本更清晰;以句子“Technology bears fruit for nation's farmers”为例,其依赖句法书如图3所示。
S2.2、利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离,得到学习完成的语义空间的文本表示信息。
具体地,参照图4,与传统的基于特征提取的方法不同,我们不直接提取句法特征,而是利用句法树的信息来改变语义空间中的文本表示,提出了一种句法对比学习,该句法对比学习发生在XLM RoBERTa模型内,其目的是在进行文本检测前使输入模型的语义空间的文本表示信息学习到自动文本的语义空间与人工书写的文本的语义空间的差异,通过在依赖句法树上考虑令牌之间的依赖性来减少语义空间中每个令牌与其相关令牌之间的距离,这确保了样本在语义空间中的分布与依赖句法树的形状一致。该策略使自动文本的语义空间与人工书写的文本的语义更容易区分,以克服自动文本识别的困难;图4左边为原始语义空间,实线条表示两个令牌在句法树结构中相关联,因此,我们拉近它们之间的距离(虚线条代表拉近语义空间中的距离),反之,我们拉远在句法树中没有直接关联的令牌(实线条代表拉远语义空间中的距离)。通过句法树信息的介入,使原先的语义空间发生变化,句子中的令牌在语义空间中呈现与句法树类似的分布(如图4右边所示)。
S3、对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
S3.1、提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息,得到句子的整体特征信息;
具体地,在本发明具体实施例中,提取的是S2步骤中学习到的自动化文本与人工书写文本在句法特征上的差异信息,并将其作为句子的整体特征信息,当然在应对不同的分类任务时,所提取的特征信息也相应的发生改变。
S3.2、将句子的整体特征信息馈送到线性分类器中进行分类,得到预测结果。
具体地,线性分类器具备softmax函数,得到的预测结果,其表达式如下:
y=softmax(WT·h[CLS]+b)
其中,y表示预测结果,即预测概率,W和b表示可学习的参数,h表示学习完成的神经网络模型的语义空间的文本表示信息,CLS表示标签符号。
S4、根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型;
S4.1、根据预测结果和真实标签计算非自回归预训练模型的损失;
具体地,所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失,先计算步骤S2对比学习中序列的整体对比损失函数,其计算表达式如下:
其中,Lsbc表示序列的整体对比损失函数,表示第i个序列令牌的对比损失,n表示序列中令牌的数量,P表示第i个序列令牌的正样本集,I表示句子序列中标记的下标列表,sim(·)表示余弦相似性函数,hi表示第i个序列令牌编码后的语义空间的文本表示信息,hp表示第p个序列令牌编码后的语义空间的文本表示信息,hk表示第k个序列令牌编码后的语义空间的文本表示信息,τ表示温度超参数。
接着根据预测结果和真实标签计算S3步骤中线性分类器的交叉熵损失函数,其计算表达式如下:
其中,Lce表示交叉熵损失函数,e表示样本实际标签的one-hot编码,l表示标签的数量,yj表示第j个标签对应的预测结果。
最后,将交叉熵损失函数与序列的整体对比损失函数通过加权系数组合在一起,得到非自回归预训练模型的损失,其计算表达式如下:
L=α·Lce+(1-α)·Lsbc
其中,L表示非自回归预训练模型的损失,α表示加权系数。
S4.2、以Adam为优化器,基于非自回归预训练模型的损失进行反向传播,优化模型内的参数,最大限度地减少非自回归预训练模型的损失,得到优化的神经网络模型。
S5、利用优化的检测模型进行文本检测,得到检测结果;
具体地,将待检测的文本输入优化的检测模型中,通过本发明的优化的检测模型对待检测的文本进行编码,在文本表示中获取广泛的语言、句法和词汇知识;接着提取句子的依赖句法信息,并生成依赖句法树,并利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离,这样待测文本在进行分类任务时就能体现出人工文本和机械文本的差异性,最后提取能代表句子的整体特征信息馈送到线性分类器中进行分类,得到分类检测结果。
为验证本发明的技术效果,我们采用IberLEF 2023AuTexTification任务的数据集进行实验,该数据集共包含英语和西班牙语的4个子任务,我们分别针对每个子任务的训练集进行五折划分,采用五折交叉验证结果与测试集结果作为评估指标。
所有实验都是基于NVIDIA A30 24-GB GPU进行的。我们使用pytorch和transforms来构建我们的模型。前馈层使用从截断正态分布中提取的权重进行初始化,其特征服从2e-2的标准偏差和偏置初始化为零。在整个实验中始终应用2e-5的固定初始学习率。最大序列长度被设置为128,表示句子中标记数量的规定限制。为了便于训练,采用了1e-3的衰减比例。训练集在10个时期的过程中执行,批量大小为8。对于句法依存模型,我们分别选择了小规模的英语模型(en_core_web_sm-3.5.0)和西班牙语模型(es_core_news_sm-1.5.0),实验的结果如表1所示。
表1实验结果
我们分别在四个任务上对比了XLM-RoBERTa与本专利模型(XLM-RoBERTa),采用macro F1值作为评价指标,可以看到,本专利模型(XLM-RoBERTa)在四个任务上的大部分五折交叉验证结果与测试集结果均优于对比模型XLM-RoBERTa
如图2所示,本发明提供一种基于对比学习的文本检测系统,该系统包括:
文本编码模块,利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
对比学习模块,用于获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
文本检测模块,用于对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
模型优化模块,根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种基于对比学习的文本检测方法,其特征在于,包括以下步骤:
利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型;
利用优化的检测模型进行文本检测,得到检测结果。
2.根据权利要求1所述一种基于对比学习的文本检测方法,其特征在于,所述获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息这一步骤,其具体包括:
提取句子的依赖句法信息,并生成依赖句法树;
利用依赖句法树上令牌之间的依赖性减少语义空间中每个令牌与其相关令牌之间的距离,得到学习完成的语义空间的文本表示信息。
3.根据权利要求1所述一种基于对比学习的文本检测方法,其特征在于,所述对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果这一步骤,其具体包括:
提取学习完成的语义空间的文本表示信息中与标签相关的文本表示信息,得到句子的整体特征信息;
将句子的整体特征信息馈送到线性分类器中进行分类,得到预测结果。
4.根据权利要求1所述一种基于对比学习的文本检测方法,其特征在于,所述根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型这一步骤,其具体包括:
根据预测结果和真实标签计算非自回归预训练模型的损失;
所述非自回归预训练模型的损失包括交叉熵损失和序列的整体对比损失;
以Adam为优化器,基于非自回归预训练模型的损失进行反向传播,得到优化的检测模型。
5.根据权利要求4所述一种基于对比学习的文本检测方法,其特征在于,所述序列的整体对比损失,其表达式如下:
其中,Lsbc表示序列的整体对比损失函数,表示第i个序列令牌的对比损失,n表示序列中令牌的数量,P表示第i个序列令牌的正样本集,I表示句子序列中标记的下标列表,sim(·)表示余弦相似性函数,hi表示第i个序列令牌编码后的语义空间的文本表示信息,hp表示第p个序列令牌编码后的语义空间的文本表示信息,hk表示第k个序列令牌编码后的语义空间的文本表示信息,τ表示温度超参数。
6.根据权利要求1所述一种基于对比学习的文本检测方法,其特征在于,所述预测结果,其表达式如下:
y=softmax(WT·h[CLS]+b)
其中,y表示预测结果,即预测概率,W和b表示可学习的参数,h表示学习完成的语义空间的文本表示信息,CLS表示标签符号。
7.一种基于对比学习的文本检测系统,其特征在于,包括:
文本编码模块,利用非自回归预训练模型对句子进行编码,得到语义空间的文本表示信息;
对比学习模块,用于获取依赖句法信息,并基于依赖句法信息对语义空间的文本表示信息进行对比学习,得到学习完成的语义空间的文本表示信息;
文本检测模块,用于对学习完成的语义空间的文本表示信息进行文本检测,得到预测结果;
模型优化模块,根据预测结果和真实标签对非自回归预训练模型进行优化,得到优化的检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311167586.6A CN117131877A (zh) | 2023-09-12 | 2023-09-12 | 一种基于对比学习的文本检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311167586.6A CN117131877A (zh) | 2023-09-12 | 2023-09-12 | 一种基于对比学习的文本检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131877A true CN117131877A (zh) | 2023-11-28 |
Family
ID=88856352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311167586.6A Pending CN117131877A (zh) | 2023-09-12 | 2023-09-12 | 一种基于对比学习的文本检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131877A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
-
2023
- 2023-09-12 CN CN202311167586.6A patent/CN117131877A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313709A (zh) * | 2023-11-29 | 2023-12-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
CN117313709B (zh) * | 2023-11-29 | 2024-03-29 | 中国科学技术大学 | 一种基于统计信息和预训练语言模型的生成文本检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111625641B (zh) | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
CN110598713B (zh) | 基于深度神经网络的智能图像自动描述方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111368087B (zh) | 基于多输入注意力网络的中文文本分类方法 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN115687626A (zh) | 一种基于提示学习融合关键词的法律文书分类方法 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN117131877A (zh) | 一种基于对比学习的文本检测方法及系统 | |
Yan et al. | Leveraging contextual sentences for text classification by using a neural attention model | |
CN113239690A (zh) | 基于Bert与全连接神经网络融合的中文文本意图识别方法 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN112434514A (zh) | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN116340513A (zh) | 一种基于标签与文本交互的多标签情感分类方法和系统 | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN117493548A (zh) | 文本分类方法、模型的训练方法和装置 | |
Trandafili et al. | A named entity recognition approach for Albanian using deep learning | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
Thu et al. | Myanmar news headline generation with sequence-to-sequence model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |