CN116932767B - 基于知识图谱的文本分类方法、系统、存储介质及计算机 - Google Patents
基于知识图谱的文本分类方法、系统、存储介质及计算机 Download PDFInfo
- Publication number
- CN116932767B CN116932767B CN202311196393.3A CN202311196393A CN116932767B CN 116932767 B CN116932767 B CN 116932767B CN 202311196393 A CN202311196393 A CN 202311196393A CN 116932767 B CN116932767 B CN 116932767B
- Authority
- CN
- China
- Prior art keywords
- text
- domain
- sentence
- preprocessed
- score value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000007635 classification algorithm Methods 0.000 claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 20
- 238000010219 correlation analysis Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 241000220225 Malus Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于知识图谱的文本分类方法、系统、存储介质及计算机,该方法包括:对待分类的目标文件进行预处理得到预处理文本;基于领域词典对预处理文本进行特征匹配计算出各句子的得分值;根据阈值分类算法和各得分值将预处理文本划分为正域文本、负域文本和边界域文本;对边界域文本进行文本特征选择得到文本特征词,并利用知识图谱检索文本特征词,以得到扩展文本数据;利用语义模型计算出扩展文本数据的语义向量,并将语义向量输入预设的文本分类模型得到分类结果。本发明通过利用知识图谱检索选择出的文本特征词,以完成自适应的文本扩展得到扩展文本数据,过滤掉低贡献度的特征词,保留高贡献度的特征词,达到扩大信息量的目的。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于知识图谱的文本分类方法、系统、存储介质及计算机。
背景技术
随着移动互联网和信息技术的高速发展,社会进入信息爆炸时期,如何高效地将海量的农业信息标注到所属的类别仍然是一个难以解决的问题。在农业领域下,存在着数据稀疏且质量低下的问题。为了有效解决这一问题,农业文本分类技术应运而生。
目前业内的主流的共有三种技术路线,一是基于领域词典的文本分类,该方法可解释性强,易于理解,但缺点是过于依赖于领域词典的质量和规模。二是基于机器学习的文本分类,诸如KNN、朴素贝叶斯、SVM等算法都是其应用的典型代表算法。这类基于机器学习的分类算法虽然能一定程度上提升模型的准确率,但是忽略了文本深层的语义关系。三是基于深度学习的文本分类,该类方法能够较好地捕捉到文本上下文依赖关系,在各评价指标上也有较好的表现,但是此类算法训练模型需要大规模数据和强大的算力支持,且其模型可解释性差。
发明内容
基于此,本发明的目的是提供一种基于知识图谱的文本分类方法、系统、存储介质及计算机,以至少解决上述技术中的不足。
本发明提出一种基于知识图谱的文本分类方法,包括:
获取待分类的目标文本,并对所述目标文件进行预处理,以得到预处理文本;
构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值,其中,所述构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值的步骤包括:
基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值,所述领域词汇的得分值的表达式为:
;
式中,表示领域词汇的类别极性,/>表示领域词汇的强度;
所述预处理文本中各句子的得分值的表达式为:
;
式中,表示预处理文本的句子整体强度,/>表示第/>个领域词汇的得分值;
根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本;
对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
进一步的,根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本的步骤包括:
根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本。
进一步的,对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据的步骤包括:
获取变种变量相关性分析算法和变种的词频-逆文档频率算法,并利用所述变种变量相关性分析算法和所述变种的词频-逆文档频率算法对所述边界域文本进行文本特征选择,以计算出所述边界域文本中所有特征词的贡献度;
将各所述特征词按照其对应的贡献度进行排序,并根据排序所得到的排序表和所述特征词的总数筛选出对应的文本特征词;
检索出所述文本特征词在所述知识图谱中一跳范围内的所有节点,并将所述节点组合形成扩展文本数据。
本发明还提出一种基于知识图谱的文本分类系统,包括:
预处理模块,用于获取待分类的目标文本,并对所述目标文件进行预处理,以得到预处理文本;
特征匹配模块,用于构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值,其中,所述特征匹配模块包括:
规则获取单元,用于基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
词汇计算单元,用于获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
得分值计算单元,用于利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
特征匹配单元,用于将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值,所述领域词汇的得分值的表达式为:
;
式中,表示领域词汇的类别极性,/>表示领域词汇的强度;
所述预处理文本中各句子的得分值的表达式为:
;
式中,表示预处理文本的句子整体强度,/>表示第/>个领域词汇的得分值;
文本处理模块,用于根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本;
文本检索模块,用于对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
文本分类模块,用于利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
进一步的,所述文本处理模块包括:
第一文本处理单元,用于根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
第二文本处理单元,用于当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
第三文本处理单元,用于当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本。
进一步的,所述文本检索模块包括:
贡献度计算单元,用于获取变种变量相关性分析算法和变种的词频-逆文档频率算法,并利用所述变种变量相关性分析算法和所述变种的词频-逆文档频率算法对所述边界域文本进行文本特征选择,以计算出所述边界域文本中所有特征词的贡献度;
特征词筛选单元,用于将各所述特征词按照其对应的贡献度进行排序,并根据排序所得到的排序表和所述特征词的总数筛选出对应的文本特征词;
文本检索单元,用于检索出所述文本特征词在所述知识图谱中一跳范围内的所有节点,并将所述节点组合形成扩展文本数据。
本发明还提出一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于知识图谱的文本分类方法。
本发明还提出一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于知识图谱的文本分类方法。
本发明当中的基于知识图谱的文本分类方法、系统、存储介质及计算机,通过对待分类的目标文本进行预处理,并利用领域词典对预处理后的文本进行特征匹配,以得到文本中各句子的得分值,根据阈值分类算法和各得分值将文本划分为正域文本、负域文本和边界域文本,针对边界域文本进行文本特征选择,并利用知识图谱检索选择出的文本特征词,以完成自适应的文本扩展得到扩展文本数据,过滤掉低贡献度的特征词,保留高贡献度的特征词,达到扩大信息量的目的。
附图说明
图1为本发明第一实施例中基于知识图谱的文本分类方法的流程图;
图2为图1中步骤S102的详细流程图;
图3为图1中步骤S103的详细流程图;
图4为图1中步骤S104的详细流程图;
图5为本发明第一实施例中基于知识图谱的文本分类方法的TextCNN-Attention模型结构图;
图6为本发明第二实施例中基于知识图谱的文本分类系统的结构框图;
图7为本发明第三实施例中的计算机的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的基于知识图谱的文本分类方法,所述基于知识图谱的文本分类方法具体包括步骤S101至S105:
S101,获取待分类的目标文本,并对所述目标文件进行预处理,以得到预处理文本;
在具体实施时,对获取到待分类的目标文本进行分词、去掉无意义的符号、繁体字转简体字操作。例如:待分类目标文本为“春季种植苹果如何提高产量?”,经过处理后得到为“春季”、“种植”、“苹果”、“提高”、“产量”。
S102,构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值;
进一步的,请参阅图2,所述步骤S102具体包括步骤S1021~S1024:
S1021,基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
S1022,获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
S1023,利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
S1024,将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值。
在具体实施时,领域词典可以采用农业领域下任意本体库词典,提取农业领域的词汇本体库的打分计算规则,并获取上述的预处理文本中领域词汇,其中,领域词汇为农业领域相关的词汇,利用上述得到的打分计算规则计算出领域词汇的类别极性和强度:
当预处理文本中出现领域词汇,则在词汇本体库中找到该领域词汇的类别极性和强度/>,利用特征词汇得分值计算公式得到词汇的得分值/>,领域词汇的得分值计算公式定义如下:
;
进一步的,将上述的预处理文件中所有词汇的得分值进行累加,再利用程度副词计算出句子整体强度,其中,程度副词的出现改变了句子的整体强度,例如“渔民在今年捕鱼季收获了很多不同品种的海鱼”,程度副词“很多”加剧了特征词“海鱼”的强度。本实施例使用5个不同级别的强度来表示程度副词,采用梯度上升公式赋予不同的权重值,梯度上升使用如下公式计算:
;
式中,为第一级别的权重值,常数/>为梯度上升率。
根据上述得到的整体强度得到预处理文件的得分值,预处理文本中各句子的得分值的计算公式定义如下:
;
式中,表示第/>个领域词汇的得分值。
S103,根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本;
进一步的,请参阅图3,所述步骤S103具体包括步骤S1031~S1033:
S1031,根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
S1032,当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
S1033,当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本。
在具体实施时,设置好两个阈值和/>,将类别/>定义为三个决策域:正域、负域/>和边界域/>。具体的:
当预处理文件的得分值大于等于阈值/>时,将该预处理文本判定为正域,即该预处理文本属于该类别;
当预处理文件的得分值小于等于阈值/>时,将该预处理文本判定为负域,即该预处理文本不属于该类别;
当预处理文件的得分值小于阈值/>、大于阈值/>时,将该预处理文本判定为边界域/>,即基于预设的领域词典无法分类该预处理文本,需要由下游的子任务进行处理。
S104,对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
进一步的,请参阅图4,所述步骤S104具体包括步骤S1041~S1043:
S1041,获取变种变量相关性分析算法和变种的词频-逆文档频率算法,并利用所述变种变量相关性分析算法和所述变种的词频-逆文档频率算法对所述边界域文本进行文本特征选择,以计算出所述边界域文本中所有特征词的贡献度;
S1042,将各所述特征词按照其对应的贡献度进行排序,并根据排序所得到的排序表和所述特征词的总数筛选出对应的文本特征词;
S1043,检索出所述文本特征词在所述知识图谱中一跳范围内的所有节点,并将所述节点组合形成扩展文本数据。
在具体实施时,对边界域文本进行鲁棒的文本特征选择,文本特征选择算法选用:有监督特征选择算法,其中典型算法是变量相关性分析、信息增益等;无监督特征选择算法有词频-逆文档频率、文档频率等。在本实施例中,利用变种变量相关性分析和变种的词频-逆文档频率对文本进行特征选择,选取贡献度前5%作为高贡献度的特征词,本实施例中所提出这种鲁棒性文本特征选择算法可有效地解决单一算法的局限。
其中,变量相关性分析算法考虑到低频词对类别的贡献度,因此该算法更倾向选择低频词,为此本实施例提出变种的变量相关性分析算法,具体而言,引入正则化项约束特征向量的统计特性,以增强特征的鲁棒性和可解释性。
词频-逆文档频率算法优点是简单快捷,而且具备较强的可解释性,但是其缺点也同样明显,词汇的重要性不单是词频一个衡量指标,位置信息同样重要。为此本实施例提出变种的频-逆文档频率算法,具体而言,考虑词汇的位置信息,当出现在句首或者句尾时,应该赋予较高的权重。
具体的,取出边界域中的待分类目标文本,利用信息论中变量相关性分析和文档中词频-逆文档频率分别对文本进行特征选择,在本实施例中,变量相关性分析和文档中词频-逆文档频率的计算公式分别为公式(1)和公式(2):
公式(1):;
公式(2):;
公式(3):;
在公式(1)中,为特征词,/>为类别,/>是/>和/>共现的概率,和/>分别表示其单独出现的概率,/>是正则化系数,/>是通过LDA(latentdirichlet allocation)模型生成的特征权重向量,用来衡量特征的重要程度。最后计算得到变量相关性分析越大,特征词/>和类别/>的相关性越大。
在公式(2)中,表示词频,是特征词在文本中出现的概率,/>表示逆文档频率,是用于衡量一个词语对于文档的重要程度的指标。/>表示词汇的位置信息,如果词汇在句首或者句尾,赋值为1.25,反之,赋值为1。加上位置信息后,能够更好的计算出一个词语在文档中权重,从而进行文本分类、信息检索等任务。
通过两种算法特征选择后,得到特征词集合和权重集合,聚合特征词集合和权重集合,其中权重视为对特征词对类别的贡献度,取贡献度前5%作为高贡献度的特征词。
进一步的,构建适用于上述的领域的知识图谱,领域知识图谱通过通用知识图谱进行抽取得到。将经过鲁棒的文本特征选择得到贡献度前5%的特征词放入到知识图谱中检索,得到附近一跳内的节点。按照句子的依存关系,在不改变句意下,扩展句子得到扩展文本数据,以到达丰富句子信息量的目的。
S105,利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
在具体实施时,将上述得到的扩展文本数据输入至语义模型中,其中,语义模型采用BERT模型,其采用基于Transformer的双向编码器表征,其双向结构和Transformer特征提取器使其在各种下游任务都有很好的表现。在本施例中,采用12层Transformer层的Bert模型,经过12层Encoder-Decoder结构输入输出后,得到代表整个文本的语义特征向量CLS。
进一步的,如图5所示,预设的文本分类模型选用TextCNN-Attention模型,其分为卷积层、池化层、融合层和全连接层,在TextCNN基础模型上引入了Attention(注意力)机制,Attention机制是一种能够让模型更加关注关键信息的技术。在本发明实施例中,在卷积层后加入Attention层(注意力机制层),能够很好解决TextCNN的卷积和池化操作会丢失文本序列中的词汇顺序和位置信息等内容,从而进一步提升模型的分类精度。具体而言,当CLS向量从卷积层输出后,通过一个权重向量对输出进行加权求和,再通过池化、融合和全连接操作,得到一个句子级别的表示,用softmax分类器进行分类,最终得到待分类目标文本的分类结果。
综上,本发明上述实施例中的基于知识图谱的文本分类方法,通过对待分类的目标文本进行预处理,并利用领域词典对预处理后的文本进行特征匹配,以得到文本中各句子的得分值,根据阈值分类算法和各得分值将文本划分为正域文本、负域文本和边界域文本,针对边界域文本进行文本特征选择,并利用知识图谱检索选择出的文本特征词,以完成自适应的文本扩展得到扩展文本数据,过滤掉低贡献度的特征词,保留高贡献度的特征词,达到扩大信息量的目的。
实施例二
本发明另一方面还提出一种基于知识图谱的文本分类系统,请查阅图6,所示为本发明第二实施例中的基于知识图谱的文本分类系统,所述系统包括:
预处理模块11,用于获取待分类的目标文本,并对所述目标文件进行预处理,以得到预处理文本;
特征匹配模块12,用于构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值;
进一步的,所述特征匹配模块12包括:
规则获取单元,用于基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
词汇计算单元,用于获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
得分值计算单元,用于利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
特征匹配单元,用于将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值。
文本处理模块13,用于根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本;
进一步的,所述文本处理模块13包括:
第一文本处理单元,用于根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
第二文本处理单元,用于当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
第三文本处理单元,用于当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本。
文本检索模块14,用于对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
进一步的,所述文本检索模块14包括:
贡献度计算单元,用于获取变种变量相关性分析算法和变种的词频-逆文档频率算法,并利用所述变种变量相关性分析算法和所述变种的词频-逆文档频率算法对所述边界域文本进行文本特征选择,以计算出所述边界域文本中所有特征词的贡献度;
特征词筛选单元,用于将各所述特征词按照其对应的贡献度进行排序,并根据排序所得到的排序表和所述特征词的总数筛选出对应的文本特征词;
文本检索单元,用于检索出所述文本特征词在所述知识图谱中一跳范围内的所有节点,并将所述节点组合形成扩展文本数据。
文本分类模块15,用于利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
本发明实施例所提供的基于知识图谱的文本分类系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三
本发明还提出一种计算机,请参阅图7,所示为本发明第三实施例中的计算机,包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30,所述处理器20执行所述计算机程序30时实现上述的基于知识图谱的文本分类方法。
其中,存储器10至少包括一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机的内部存储单元,例如该计算机的硬盘。存储器10在另一些实施例中也可以是外部存储装置,例如插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器10还可以既包括计算机的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
其中,处理器20在一些实施例中可以是电子控制单元 (Electronic ControlUnit,简称ECU,又称行车电脑)、中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器10中存储的程序代码或处理数据,例如执行访问限制程序等。
需要指出的是,图7示出的结构并不构成对计算机的限定,在其它实施例当中,该计算机可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的基于知识图谱的文本分类方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于知识图谱的文本分类方法,其特征在于,包括:
获取待分类的目标文本,并对所述目标文本进行预处理,以得到预处理文本;
构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值,其中,所述构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值的步骤包括:
基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值,所述领域词汇的得分值的表达式为:
;
式中,表示领域词汇的类别极性,/>表示领域词汇的强度;
所述预处理文本中各句子的得分值的表达式为:
;
式中,表示预处理文本的句子整体强度,/>表示第/>个领域词汇的得分值;
根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本,其中,根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本的步骤包括:
根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本;
对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
2.根据权利要求1所述的基于知识图谱的文本分类方法,其特征在于,对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据的步骤包括:
获取变种变量相关性分析算法和变种的词频-逆文档频率算法,并利用所述变种变量相关性分析算法和所述变种的词频-逆文档频率算法对所述边界域文本进行文本特征选择,以计算出所述边界域文本中所有特征词的贡献度;
将各所述特征词按照其对应的贡献度进行排序,并根据排序所得到的排序表和所述特征词的总数筛选出对应的文本特征词;
检索出所述文本特征词在所述知识图谱中一跳范围内的所有节点,并将所述节点组合形成扩展文本数据。
3.一种基于知识图谱的文本分类系统,其特征在于,包括:
预处理模块,用于获取待分类的目标文本,并对所述目标文本进行预处理,以得到预处理文本;
特征匹配模块,用于构建领域词典,并基于所述领域词典对所述预处理文本进行特征匹配,以计算出所述预处理文本中各句子的得分值,其中,所述特征匹配模块包括:
规则获取单元,用于基于所述目标文本的文本领域获取对应的领域词汇本体库中打分计算规则;
词汇计算单元,用于获取所述预处理文本的领域词汇,并根据所述领域词汇本体库中打分计算规则计算出所述领域词汇的类别极性和强度;
得分值计算单元,用于利用特征词汇得分值算法、所述领域词汇的类别极性以及所述领域词汇的强度计算出所述领域词汇的得分值;
特征匹配单元,用于将所述预处理文本中所有的领域词汇的得分值进行累加,并利用程度副词计算出所述预处理文本的句子整体强度,以得到所述预处理文本中各句子的得分值,所述领域词汇的得分值的表达式为:
;
式中,表示领域词汇的类别极性,/>表示领域词汇的强度;
所述预处理文本中各句子的得分值的表达式为:
;
式中,表示预处理文本的句子整体强度,/>表示第/>个领域词汇的得分值;
文本处理模块,用于根据预设的阈值分类算法和各所述句子的得分值将所述预处理文本划分为正域文本、负域文本和边界域文本,其中,所述文本处理模块包括:
第一文本处理单元,用于根据所述阈值分类算法获取第一阈值指标和第二阈值指标,当所述句子的得分值不小于所述第一阈值指标时,将所述句子所对应的预处理文本标记为正域文本;
第二文本处理单元,用于当所述句子的得分值不大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为负域文本;
第三文本处理单元,用于当所述句子的得分值小于所述第一阈值指标、且大于所述第二阈值指标时,将所述句子所对应的预处理文本标记为边界域文本;
文本检索模块,用于对所述边界域文本进行文本特征选择,以筛选出文本特征词,并利用预构建的知识图谱检索所述文本特征词,以完成自适应的文本扩展得到扩展文本数据;
文本分类模块,用于利用语义模型计算出所述扩展文本数据的语义向量,并将所述语义向量输入预设的文本分类模型,以得到所述目标文本的分类结果。
4.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一所述的基于知识图谱的文本分类方法。
5.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一所述的基于知识图谱的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311196393.3A CN116932767B (zh) | 2023-09-18 | 2023-09-18 | 基于知识图谱的文本分类方法、系统、存储介质及计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311196393.3A CN116932767B (zh) | 2023-09-18 | 2023-09-18 | 基于知识图谱的文本分类方法、系统、存储介质及计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932767A CN116932767A (zh) | 2023-10-24 |
CN116932767B true CN116932767B (zh) | 2023-12-12 |
Family
ID=88381085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311196393.3A Active CN116932767B (zh) | 2023-09-18 | 2023-09-18 | 基于知识图谱的文本分类方法、系统、存储介质及计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932767B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
CN113076411A (zh) * | 2021-04-26 | 2021-07-06 | 同济大学 | 一种基于知识图谱的医疗查询扩展方法 |
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
WO2022142027A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
CN115062151A (zh) * | 2022-06-28 | 2022-09-16 | 重庆长安汽车股份有限公司 | 一种文本特征提取方法、文本分类方法及可读存储介质 |
CN115374788A (zh) * | 2022-10-26 | 2022-11-22 | 江西农业大学 | 农业病虫害文本命名实体的方法及装置 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
CN116483997A (zh) * | 2023-03-16 | 2023-07-25 | 金现代信息产业股份有限公司 | 一种基于规则和语义的多标签文本分类方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940323B2 (en) * | 2016-07-12 | 2018-04-10 | International Business Machines Corporation | Text classifier operation |
CN110851596B (zh) * | 2019-10-11 | 2023-06-27 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN113449099B (zh) * | 2020-03-25 | 2024-02-23 | 瑞典爱立信有限公司 | 文本分类方法和文本分类设备 |
CN111767405B (zh) * | 2020-07-30 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
-
2023
- 2023-09-18 CN CN202311196393.3A patent/CN116932767B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
WO2022142027A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
CN113076411A (zh) * | 2021-04-26 | 2021-07-06 | 同济大学 | 一种基于知识图谱的医疗查询扩展方法 |
CN115062151A (zh) * | 2022-06-28 | 2022-09-16 | 重庆长安汽车股份有限公司 | 一种文本特征提取方法、文本分类方法及可读存储介质 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN115374788A (zh) * | 2022-10-26 | 2022-11-22 | 江西农业大学 | 农业病虫害文本命名实体的方法及装置 |
CN116483997A (zh) * | 2023-03-16 | 2023-07-25 | 金现代信息产业股份有限公司 | 一种基于规则和语义的多标签文本分类方法和系统 |
CN116150704A (zh) * | 2023-04-21 | 2023-05-23 | 广东工业大学 | 基于语义相似度匹配的多模态融合表征方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于知识图谱扩展的短文本分类方法;丁连红;孙斌;张宏伟;;情报工程(第05期);39-47 * |
基于语义扩展的数字文献自动分类方法研究;巴志超;朱世伟;于俊凤;魏墨济;;现代情报(第09期);72-76 * |
Also Published As
Publication number | Publication date |
---|---|
CN116932767A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN104778158B (zh) | 一种文本表示方法及装置 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
WO2017167067A1 (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN108228541A (zh) | 生成文档摘要的方法和装置 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN112417153B (zh) | 文本分类方法、装置、终端设备和可读存储介质 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN113486670B (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN116932767B (zh) | 基于知识图谱的文本分类方法、系统、存储介质及计算机 | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
She et al. | Text Classification Research Based on Improved SoftMax Regression Algorithm | |
Sun et al. | Comparisons of word representations for convolutional neural network: An exploratory study on tourism Weibo classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |