CN117521639A - 一种结合学术文本结构的文本检测方法 - Google Patents
一种结合学术文本结构的文本检测方法 Download PDFInfo
- Publication number
- CN117521639A CN117521639A CN202410019405.3A CN202410019405A CN117521639A CN 117521639 A CN117521639 A CN 117521639A CN 202410019405 A CN202410019405 A CN 202410019405A CN 117521639 A CN117521639 A CN 117521639A
- Authority
- CN
- China
- Prior art keywords
- text
- feature vector
- academic
- feature
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 32
- 230000008451 emotion Effects 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 3
- 238000012916 structural analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009172 bursting Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例中提供了一种结合学术文本结构的文本检测方法,属于数据处理技术领域,具体包括:步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;步骤3,对学术文本的结构特征向量加权;步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。通过本发明的方案,提高了文本检测的适应性、可解释性和精准度。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种结合学术文本结构的文本检测方法。
背景技术
人工智能文本检测通过对人工智能生成的自然语言文本进行检测,以此判断其真实性的概率。人工智能文本检测的意义在于确保文本信息的真实性、减少虚假信息的传播,以及防止信息泄露和侵权等问题。通过人工智能文本检测,可以对文本信息进行自动化验证,以确保其真实性和合法性。人工智能生成学术文本的检测常采用两种方法。第一种是使用自然语言模型训练识别并进行检测,常用的训练模型有RNN、LSTM和BERT。该种方法通过大量输入已标记的人类文本、人工智能生成文本、人类-人工智能混合文本进行训练,对文本生成来源进行判断。第二种是利用统计学的方法对文本进行检测,常用的方法有GPTZero和DetectGPT。前者是通过计算困惑度和突发度来判断文本是否由人工智能生成。后者是利用生成文本自身的预训练神经网络,将原始检测文本的对数概率与多个经过扰动(将原始文本中的词进行替换、增加、删除操作)后的检测文本进行比较,计算平均对数比,从而判断文本的生成。现有技术存在的缺点包括:在构建文本特征向量时缺乏对学术文本不同部分的生成可能性划分;在文本特征向量转换方面,没有考虑到语言特征的区分手段。
可见,亟需一种适应性和检测精准度高的结合学术文本结构的文本检测方法。
发明内容
本发明实施例提供一种结合学术文本结构的文本检测方法,至少部分解决现有技术中存在适应性和精准度较差的问题。
本发明实施例提供了一种结合学术文本结构的文本检测方法,包括:
步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;
步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;
所述步骤2具体包括:
步骤2.1,对学术文本中所划分的不同结构进行向量转换;
步骤2.2,遍历每个结构中的所有句子,并标注出每个句子的文本特征向量基本属性值,其中,文本特征向量基本属性值包括词性、命名实体、句法和情感极性分数;
步骤2.3,根据文本特征向量基本属性值,计算出词性、命名实体和句法的特征CF-SIDF值,其中,特征CF-SIDF值为CF值与SIDF值的乘积,CF值表示一种特征在一句话中出现的总次数除以当前文本属性特征总数,SIDF值表示一种特征的总数在所有文本个数的占比除以一种特征在一句话中出现的总次数与文本结构个数的占比;
步骤2.4,计算情感极性的平均值并据此计算平均情感极性分数;
步骤2.5,根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量;
步骤3,对学术文本的结构特征向量加权;
所述步骤3具体包括:
步骤3.1,将每个结构的句子特征向量重新组成结构特征向量;
步骤3.2,利用结构权重对结构特征向量进行加权,得到学术文本的加权特征向量;
步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;
步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。
根据本发明实施例的一种具体实现方式,所述步骤1具体包括:
按照学术文本不同部分结构重要性进行比例划分,划分为N个结构并对每个结构设定不同结构权重,其中,N为正整数;
根据语言特点构建文本特征向量基本属性。
根据本发明实施例的一种具体实现方式,所述CF值的计算公式为
其中,表示特征的位序,/>表示该句子中特征i出现的次数;
所述SIDF值的计算公式为
其中,表示为文本结构个数,/>表示文本总数,/>表示该段落中出现特征i的次数。
根据本发明实施例的一种具体实现方式,所述平均情感极性分数的计算公式为
其中,表示该句子中第i个词的情感极性分数。
根据本发明实施例的一种具体实现方式,所述步骤4具体包括:
步骤4.1,将文本加权特征向量拆分为N个结构特征向量;
步骤4.2,将每个结构特征向量进行上下邻近拼接得到窗口特征向量;
步骤4.3,利用窗口特征向量训练BERT神经网络,得到文本检测模型。
根据本发明实施例的一种具体实现方式,所述步骤5具体包括:
步骤5.1,将待检测文本划分为多个结构并将每个结构中的所有句子转换成结构特征向量;
步骤5.2,将每个结构特征向量依照结构进行上下邻近拼接、填充并输入到文本检测模型,得到其属于不同文本类型的概率。
本发明实施例中的结合学术文本结构的文本检测方案,包括:步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;步骤3,对学术文本的结构特征向量加权;步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。
本发明实施例的有益效果为:通过本发明的方案,根据人工智能学术文本生成的语言特征对文本进行向量转换,在检测模型中加入结构性分析,依照文本中不同部分所占整体的重要性,对特征向量进行权重分配,以实现学术文本特征向量的构建,提高了文本检测的适应性、可解释性和精准度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种结合学术文本结构的文本检测方法的流程示意图;
图2为本发明实施例提供的一种BERT神经网络的结构示意图;
图3为本发明实施例提供的对学术文本的结构特征向量加权的过程示意图;
图4为本发明实施例提供的对学术文本中所划分的不同结构进行向量转换过程示意图;
图5为本发明实施例提供的一种窗口特征向量示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明实施例提供一种结合学术文本结构的文本检测方法。
参见图1,为本发明实施例提供的一种结合学术文本结构的文本检测方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;
进一步的,所述步骤1具体包括:
按照学术文本不同部分结构重要性进行比例划分,划分为N个结构并对每个结构设定不同结构权重,其中,N为正整数;
根据语言特点构建文本特征向量基本属性。
在人工智能生成文本检测中常根据以下三点来对文本进行判断:
1)重复的短语或句子:由于人工智能模型是基于数据生成文本的,因此它们可能会生成一些看起来过于相似的短语或句子。
2)奇怪的用词或语法错误:人工智能模型可能会生成一些不太常见的词汇或语法结构,并产生一些错误,这可能会提示文本是由人工智能生成的。
3)生成的文本与主题不符:如果文本与主题或上下文不匹配,可能表明文本是由人工智能生成的。
人工智能生成学术文本的检测常采用两种方法。第一种是使用自然语言模型训练识别并进行检测,常用的训练模型有RNN、LSTM和BERT。该种方法通过大量输入已标记的人类文本、人工智能生成文本、人类-人工智能混合文本进行训练,对文本生成来源进行判断。第二种是利用统计学的方法对文本进行检测,常用的方法有GPTZero和DetectGPT。前者是通过计算困惑度和突发度来判断文本是否由人工智能生成。后者是利用生成文本自身的预训练神经网络,将原始检测文本的对数概率与多个经过扰动(将原始文本中的词进行替换、增加、删除操作)后的检测文本进行比较,计算平均对数比,从而判断文本的生成。
当检测的文本类型仅为学术文本时,使用自然语言模型的方法往往有着更好的检测效果。这是因为该种方法使用单一类型的文本作为训练集进行训练,避免了其他类型文本对检测结果产生影响。目前该种方法常采用BERT神经网络,通过输入文本进行训练并以二分类的结果输出,判断文本是否由人工智能生成。BERT在进行训练前需要将文本转换为机器理解的向量。转换常用的方法主要有word2vec、常规TF-IDF,然而这两种方法仅考虑了不同词汇出现的频率来判断文本的相似性,缺少了对文本结构的判断。对于人工智能学术文本生成方面,由机器生成内容出现在摘要、前言部分的概率更大。
如今GPT版本已经更新到第四代,在语言运用上已有较大改善,运用word2vec、常规TF-IDF的特征提取方法可能无法满足检测的需要。因此,本发明提出了一种在文本特征向量转换阶段基于学术文本结构的转换方法,以提高人工智能生成学术文本检测的准确性。
使用自然语言模型进行训练并对文本进行检测常采用BERT的网络结构如图2所示,这种网络模型能够自动学习文本的表示,避免了手动设计特征或规则的麻烦,并且能够处理较长的文本序列。此外,结合了Transformer的BERT网络还具有并行计算能力和高效的计算速度,能够处理大规模文本数据,并且能够通过微调的方式进行快速的模型迭代和优化。因此,使用BERT网络进行文本检测,能够提高检测的准确率和效率,同时也能够降低人工干预的成本。但该方法存在以下缺点:
构建文本特征向量常采用word2vec、常规TF-IDF方法,这种方法并未通过现有人工智能生成文本的区分手段(如:语义、句法和词汇特征)进行向量转换。此外,学术文本不同于一般类型文章,有着固定的上下文结构以及前后推理。对于人工智能生成学术文本检测训练的文本特征向量转换时,应更注重文本自身句法、词汇的特征。
构建文本向量时,缺少结构性分析。对于学术文章,摘要和前言的内容更容易作为人工智能生成的对象,因此在结构上应对文章的不同部分进行划分处理。
具体实施时,对学术文本不同结构的重要性比例划分,具体包括:按照文本不同部分结构重要性进行比例划分,划分为N个结构,N的个数可以根据划分的粒度进行增加或减少,这种超参数可以在训练时进行适当调整。构建文本特征向量基本属性,具体包括:在语义上取情感极性、命名实体两个特征,在句法上取、词性、句型两种特征。
例如,对于学术文本中的不同结构,划分为四个部分,分别为摘要、前言、正文、结论。根据超参数设置,可以对不同部分的重要性比例进行相应调整。结构划分为:
结构的划分与结构重要性比例为两个超参数,可以将结构更细化分为多种结构,结构重要性比例可以通过训练的结果进行调整。
根据语言特点构建文本特征向量基本属性,其中表1为本发明优选的不同属性对应的特征。
表1
步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;
在上述实施例的基础上,所述步骤2具体包括:
步骤2.1,对学术文本中所划分的不同结构进行向量转换;
步骤2.2,遍历每个结构中的所有句子,并标注出每个句子的文本特征向量基本属性值,其中,文本特征向量基本属性值包括词性、命名实体、句法和情感极性分数;
步骤2.3,根据文本特征向量基本属性值,计算出词性、命名实体和句法的特征CF-SIDF值,其中,特征CF-SIDF值为CF值与SIDF值的乘积,CF值表示一种特征在一句话中出现的总次数除以当前文本属性特征总数,SIDF值表示一种特征的总数在所有文本个数的占比除以一种特征在一句话中出现的总次数与文本结构个数的占比;
步骤2.4,计算情感极性的平均值并据此计算平均情感极性分数;
步骤2.5,根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量。
进一步的,所述CF值的计算公式为
其中,表示特征的位序,/>表示该句子中特征i出现的次数;
所述SIDF值的计算公式为
其中,表示为文本结构个数,/>表示文本总数,/>表示该段落中出现特征i的次数。
进一步的,所述平均情感极性分数的计算公式为
其中,表示该句子中第i个词的情感极性分数。
具体实施时,如图4所示,对学术文本不同结构中每个句子的属性频数计算,并使用一种新的CF-SIDF计算方法。具体包括:在语义分析上,根据情感极性词库获得每个词的得分和计算命名实体的频数。在句法分析上,通过预训练词性标注器和预训练句法分析器,分析词性和句法,以频数的方式表示。在SIDF的计算上,不再依照传统词汇区分能力计算,而是依照每个句子在所有结构中的影响力来计算。具体步骤可以如下所示:
(2.1)对学术文本中所划分的不同结构进行向量转换,如图4所示。其中k表示结构类别,q表示结构中句子的位序。
(2.2)遍历结构中的所有句子,并标注出每个句子的文本特征向量基本属性值,本发明为每个句子中每个词的词性、命名实体、句法以及情感极性分数。
(2.3)通过(2.2)中的标注,计算出词性、命名实体、句法的特征CF-SIDF值。
CF表示为:一种特征在一句话中出现的总次数除以当前文本属性特征总数
SIDF表示为:一种特征的总数在所有文本个数的占比(平均每个文本所包含的该特征数),除以一种特征在一句话中出现的总次数与文本结构个数的占比。表示为文本结构个数,/>表示文本总数。文本总数和文本总特征数不变,当划分文本结构的个数C增加时, />就会减小,即一句话中的特征对整体结构影响将减小,反之影响力就越大,IDF也会增加。
CF-SIDF表示为:CF与SIDF的乘积
(2.4)计算情感极性的平均值以获得平均情感极性分数
每句话中平均情感极性分数ScoreE表示为:
(2.5)在结构k中,单个句子q的特征向量表示为:
。
步骤3,对学术文本的结构特征向量加权;
在上述实施例的基础上,所述步骤3具体包括:
步骤3.1,将每个结构的句子特征向量重新组成结构特征向量;
步骤3.2,利用结构权重对结构特征向量进行加权,得到学术文本的加权特征向量。
具体实施时,对学术文本的结构特征向量加权,具体包括:将每个结构中所有句子的特征向量重新组成结构特征向量,使用步骤1中的所划分的结构权重对文本特征向量进行加权,给不同结构一个权重。并将所有加权结构特征向量进行拼接,得到加权文本特征向量。如图3所示,具体步骤可以如下:
(3.1)将每个结构的句子特征向量重新组成结构特征向量,句子之间以句号划分,即句子个数n=句号个数+1:
(3.2)利用步骤1.1中的结构权重对步骤3.1中的结构特征向量进行加权,得到一篇学术文本的加权特征向量,加权文本特征向量表示如下:
。
步骤4,将结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;
进一步的,所述步骤4具体包括:
步骤4.1,将文本加权特征向量拆分为N个结构特征向量;
步骤4.2,将每个结构特征向量进行上下邻近拼接得到窗口特征向量;
步骤4.3,利用窗口特征向量训练BERT神经网络,得到文本检测模型。
具体实施时,将结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入通过BERT神经网络进行训练。具体包括:将加权后的结构特征向量进行上下邻近拼接,若邻近结构不存在则使用Zero Padding的方法进行填充,将拼接后的窗口特征向量作为神经网络的输入进行训练,得到文本检测模型。具体步骤可以如下:
(4.1)将(3.2)中得到的文本加权特征向量拆分为四个结构特征向量,每个结构特征向量为Nkx1xM(Nk为句子的个数,M为特征的个数),分别为摘要特征向量、前言特征向量、正文特征向量、结论特征向量。
(4.2)将每个结构特征向量进行上下邻近拼接,摘要和结论部分采用ZeroPadding方法对缺失的上下文关系进行填充。由此得到窗口特征向量,长度为3M,如图5所示。
(4.3)将(4.2)中得到的窗口特征向量作为神经网络的输入,多个学术文本特征向量作为一个epoch作为训练集输入到BERT神经网络中进行训练。BERT神经网络将根据词性、命名实体、句法和情感极性特征进行训练,并且每个结构能够注意到其邻近结构的特征。
(4.4)训练完成后,得到了一个通过文本特征来训练的文本检测模型。
步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。
在上述实施例的基础上,所述步骤5具体包括:
步骤5.1,将待检测文本划分为多个结构并将每个结构中的所有句子转换成结构特征向量;
步骤5.2,将每个结构特征向量依照结构进行上下邻近拼接、填充并输入到文本检测模型,得到其属于不同文本类型的概率。
具体实施时,在检测时,首先将需要检测的文本按照步骤2中对不同结构中的所有句子转换成特征向量。其次,将检测的句子依照结构进行上下邻近拼接、填充。最后将检测文本的特征向量进行输入的到检测结果,输出结果为文本是人类生成文本和存在人工智能生成文本的概率。
本实施例提供的结合学术文本结构的文本检测方法,通过根据人工智能学术文本生成的语言特征对文本进行向量转换,在检测模型中加入结构性分析,依照文本中不同部分所占整体的重要性,对特征向量进行权重分配,以实现学术文本特征向量的构建,提高了文本检测的适应性、可解释性和精准度。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种结合学术文本结构的文本检测方法,其特征在于,包括:
步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;
步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;
所述步骤2具体包括:
步骤2.1,对学术文本中所划分的不同结构进行向量转换;
步骤2.2,遍历每个结构中的所有句子,并标注出每个句子的文本特征向量基本属性值,其中,文本特征向量基本属性值包括词性、命名实体、句法和情感极性分数;
步骤2.3,根据文本特征向量基本属性值,计算出词性、命名实体和句法的特征CF-SIDF值,其中,特征CF-SIDF值为CF值与SIDF值的乘积,CF值表示一种特征在一句话中出现的总次数除以当前文本属性特征总数,SIDF值表示一种特征的总数在所有文本个数的占比除以一种特征在一句话中出现的总次数与文本结构个数的占比;
步骤2.4,计算情感极性的平均值并据此计算平均情感极性分数;
步骤2.5,根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量;
步骤3,对学术文本的结构特征向量加权;
所述步骤3具体包括:
步骤3.1,将每个结构的句子特征向量重新组成结构特征向量;
步骤3.2,利用结构权重对结构特征向量进行加权,得到学术文本的加权特征向量;
步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;
步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
按照学术文本不同部分结构重要性进行比例划分,划分为N个结构并对每个结构设定不同结构权重,其中,N为正整数;
根据语言特点构建文本特征向量基本属性。
3.根据权利要求2所述的方法,其特征在于,所述CF值的计算公式为
其中,表示特征的位序,/>表示该句子中特征i出现的次数;
所述SIDF值的计算公式为
其中,表示为文本结构个数,/>表示文本总数,/>表示该段落中出现特征i的次数。
4.根据权利要求3所述的方法,其特征在于,所述平均情感极性分数的计算公式为
其中,表示该句子中第i个词的情感极性分数。
5.根据权利要求4所述的方法,其特征在于,所述步骤4具体包括:
步骤4.1,将文本加权特征向量拆分为N个结构特征向量;
步骤4.2,将每个结构特征向量进行上下邻近拼接得到窗口特征向量;
步骤4.3,利用窗口特征向量训练BERT神经网络,得到文本检测模型。
6.根据权利要求5所述的方法,其特征在于,所述步骤5具体包括:
步骤5.1,将待检测文本划分为多个结构并将每个结构中的所有句子转换成结构特征向量;
步骤5.2,将每个结构特征向量依照结构进行上下邻近拼接、填充并输入到文本检测模型,得到其属于不同文本类型的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410019405.3A CN117521639B (zh) | 2024-01-05 | 2024-01-05 | 一种结合学术文本结构的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410019405.3A CN117521639B (zh) | 2024-01-05 | 2024-01-05 | 一种结合学术文本结构的文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521639A true CN117521639A (zh) | 2024-02-06 |
CN117521639B CN117521639B (zh) | 2024-04-02 |
Family
ID=89755385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410019405.3A Active CN117521639B (zh) | 2024-01-05 | 2024-01-05 | 一种结合学术文本结构的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521639B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN110750648A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于深度学习和特征融合的文本情感分类方法 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN114547299A (zh) * | 2022-02-18 | 2022-05-27 | 重庆邮电大学 | 一种基于复合网络模型的短文本情感分类方法及装置 |
KR20220096994A (ko) * | 2020-12-31 | 2022-07-07 | 성균관대학교산학협력단 | 특징통합벡터를 이용한 감성 분석 방법 및 장치 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115081437A (zh) * | 2022-07-20 | 2022-09-20 | 中国电子科技集团公司第三十研究所 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
CN115309894A (zh) * | 2022-07-12 | 2022-11-08 | 武汉大学 | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 |
CN115659954A (zh) * | 2022-10-31 | 2023-01-31 | 北京工业大学 | 一种基于多阶段学习的作文自动评分方法 |
CN115757792A (zh) * | 2022-11-29 | 2023-03-07 | 湖南大学 | 一种基于深度学习的微博文本情感分类方法 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116049387A (zh) * | 2021-10-27 | 2023-05-02 | 广州市刑事科学技术研究所 | 一种基于图卷积的短文本分类方法、装置、介质 |
CN116578705A (zh) * | 2023-05-16 | 2023-08-11 | 重庆电子工程职业学院 | 基于预训练语言模型与集成神经网络的微博情感分类方法 |
WO2023159767A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 目标词语的检测方法、装置、电子设备及存储介质 |
CN116959754A (zh) * | 2023-08-08 | 2023-10-27 | 东北大学 | 基于意图槽的结构化访谈录音转录文本的特征提取方法 |
-
2024
- 2024-01-05 CN CN202410019405.3A patent/CN117521639B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN110750648A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于深度学习和特征融合的文本情感分类方法 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
KR20220096994A (ko) * | 2020-12-31 | 2022-07-07 | 성균관대학교산학협력단 | 특징통합벡터를 이용한 감성 분석 방법 및 장치 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN116049387A (zh) * | 2021-10-27 | 2023-05-02 | 广州市刑事科学技术研究所 | 一种基于图卷积的短文本分类方法、装置、介质 |
CN114547299A (zh) * | 2022-02-18 | 2022-05-27 | 重庆邮电大学 | 一种基于复合网络模型的短文本情感分类方法及装置 |
WO2023159767A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 目标词语的检测方法、装置、电子设备及存储介质 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115309894A (zh) * | 2022-07-12 | 2022-11-08 | 武汉大学 | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 |
CN115081437A (zh) * | 2022-07-20 | 2022-09-20 | 中国电子科技集团公司第三十研究所 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
CN115659954A (zh) * | 2022-10-31 | 2023-01-31 | 北京工业大学 | 一种基于多阶段学习的作文自动评分方法 |
CN115757792A (zh) * | 2022-11-29 | 2023-03-07 | 湖南大学 | 一种基于深度学习的微博文本情感分类方法 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116578705A (zh) * | 2023-05-16 | 2023-08-11 | 重庆电子工程职业学院 | 基于预训练语言模型与集成神经网络的微博情感分类方法 |
CN116959754A (zh) * | 2023-08-08 | 2023-10-27 | 东北大学 | 基于意图槽的结构化访谈录音转录文本的特征提取方法 |
Non-Patent Citations (8)
Title |
---|
UMER MUSHTAQ 等: "Argument Classification with BERT Plus Contextual, Structural and Syntactic Features as Text", 《SPRINGER LINK》, 15 April 2023 (2023-04-15), pages 622 - 633 * |
付朝阳 等: "基于文本语义和社交行为信息融合的讽刺检测方法", 《网络与信息安全学报》, vol. 9, no. 4, 31 August 2023 (2023-08-31), pages 134 - 143 * |
方英兰;孙吉祥;韩兵;: "基于BERT的文本情感分析方法的研究", 信息技术与信息化, no. 02, 28 February 2020 (2020-02-28), pages 108 - 111 * |
李亦轩: "基于文本多特征融合的谣言检测模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2022 (2022-02-15), pages 138 - 1300 * |
杨云龙;孙建强;宋国超;: "基于门控循环单元和胶囊特征的文本情感分析", 计算机应用, no. 09, 10 September 2020 (2020-09-10), pages 2531 - 2535 * |
杨奎河;刘智鹏;: "基于BERT-BiLSTM的短文本情感分析", 信息通信, no. 06, 15 June 2020 (2020-06-15), pages 81 - 82 * |
聂维;刘小豫;康世英;: "深度学习视域下的文本特征提取方法分析", 中小企业管理与科技(上旬刊), no. 09, 5 September 2020 (2020-09-05), pages 190 - 191 * |
陆伟 等: "学术文本词汇功能识别——基于BERT 向量化表示的关键词自动分类研究", 《情报学报》, vol. 39, no. 12, 31 December 2020 (2020-12-31), pages 1320 - 1329 * |
Also Published As
Publication number | Publication date |
---|---|
CN117521639B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN107392147A (zh) | 一种基于改进的生成式对抗网络的图像语句转换方法 | |
CN115393692A (zh) | 基于生成式预训练语言模型的联想文本到图像生成方法 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN111626041B (zh) | 一种基于深度学习的音乐评论生成方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN116129866A (zh) | 语音合成方法、网络训练方法、装置、设备及存储介质 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN117521639B (zh) | 一种结合学术文本结构的文本检测方法 | |
CN110705277A (zh) | 一种基于循环神经网络的中文词义消岐方法 | |
CN111090999A (zh) | 电网调度预案的信息抽取方法及系统 | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN115775554A (zh) | 一种多音字消歧方法、装置、存储介质及设备 | |
Li et al. | Multilingual toxic text classification model based on deep learning | |
CN115525777A (zh) | 一种基于自然语言问答的知识图谱三元组显著性评估方法 | |
CN112668344B (zh) | 基于混合专家模型的复杂度可控的多样化问题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |