CN104182463A - 一种基于语义的文本分类方法 - Google Patents

一种基于语义的文本分类方法 Download PDF

Info

Publication number
CN104182463A
CN104182463A CN201410348319.3A CN201410348319A CN104182463A CN 104182463 A CN104182463 A CN 104182463A CN 201410348319 A CN201410348319 A CN 201410348319A CN 104182463 A CN104182463 A CN 104182463A
Authority
CN
China
Prior art keywords
text
semantic
classification method
method based
file classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410348319.3A
Other languages
English (en)
Inventor
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410348319.3A priority Critical patent/CN104182463A/zh
Publication of CN104182463A publication Critical patent/CN104182463A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于语义的文本分类方法,根据文本的语义对文本进行分类,包括以下步骤:A、根据文本集选择预设词典组合构建本体库;B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;C、抽取文本集的特征项,并计算特征项的权重;D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;E、根据分类器对文本集进行分类。本发明提出的基于语义的文本分类方法,根据文本的语义对文本进行分类,可达到理想的分类效果,而且效率高。

Description

一种基于语义的文本分类方法
技术领域
本发明涉及文本信息智能检索技术领域,尤其涉及一种基于语义的文本分类方法。
背景技术
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练,可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行。这种方式下,首先,获取大量标注的训练语料存在困难,如果采用大规模手工标注,则效率低下,其次,由于训练语料有可能存在类别偏见(例如有的标记为新闻的语料,可能更适合标记为娱乐),会导致分类器也带有类别偏见,因此最终会导致分类精度的降低。另外,现有技术也有用聚类的方法将文本分为若干类别的,但是由于在聚类时对聚出的各个类别无法控制,所以如果只采用聚类的方法将文本分为若干类别,可能存在无法得到真正需要的类的情况。
发明内容
基于背景技术存在的问题,本发明提出了基于语义的文本分类方法,根据文本的语义对文本进行分类,可达到理想的分类效果,而且效率高。
本发明提出的一种基于语义的文本分类方法,根据文本的语义对文本进行分类,包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
优选地,预设词典包括实体词典和特征词典。
优选地,实体词典和特征词典由人工设置,并可根据文本集进行修改。
优选地,文本集根据实体词典进行概念转换。
优选地,文本集根据特征词典抽取特征项。
优选地,特征项权值的计算公式为:
w = tf × idf = f × ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
优选地,训练集由人工设置,并可根据文本集进行修改。
优选地,测试集根据训练集进行设置。
优选地,分类器采用SVM算法。
本发明根据文本的语义对文本进行分类,直接将文本集转换为概念,即去除了没有实际意义的冗余信息,节约了文本处理的时间,又提高了文本信息的清晰程度,尤其避免了一词多义和多词一义的干扰。本发明中直接抽取特征项并计算权重,作为文本分类的参考依据,使得分类结果更加合理、精确。本发明提供的一种基于语义的文本分类方法,分类精度理想,效率高,能够满足大多数场景的需要。
附图说明
图1为本发明提供的一种基于语义的文本分类方法的流程图。
具体实施方式
本发明提出的一种基于语义的文本分类方法,根据文本的语义对文本进行分类,将文本集概念化处理使得文本信息表达更加清晰简练,使得分类结果更加理想的同时,也大大提高分类效率。
参照图1,本实施方式提供的分类方法包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
本实施方式的步骤A中,预设词典包括实体词典和特征词典,实体词典和特征词典根据文本集所属行业由人工进行设定,并可根据文本集的内容进行修改,提高实体词典和特征词典的针对性,从而提高文本分类的精确度。
本实施方式的步骤B中,实体词典作为文本集提取实体的依据,文本集根据实体词典进行概念转换,放弃不含实体的内容,对文本信息进行提炼,使得文本信息更加清晰和简练,节约后续处理时间。
本实施方式的步骤C中,特征词典包含文本集中所有待识别的特征项,文本集根据特征词典抽取特征项,效率高,而且不容易遗漏。特征项权值的计算采用tf-idf算法,具体的计算公式为:
w = tf × idf = f × ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值;tf(Term Frequency,词频)表示t在d内出现的频率;idf(Inverse Document Frequency,逆向文件频率)表示t的反比文本频率,是反应t在文本集中按文本统计出现的频率的指标;n表示训练集的文档总数;m表示训练集中包含t的文档数。tf-idf算法在现有的算法中已经相当成熟,该算法的采用使得本分类方法更加稳定可靠。
本实施方式的步骤D中,训练集由人工设置,并可根据文本集进行修改,测试集根据训练集进行设置。如此,具体实施时,可通过人工选择训练集和测试集来实现最适合待分类文本集的分类器,进一步确保分类结果理想化。
本实施方式中的分类器采用SVM算法(Support Vector Machine,支持向量机)。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于语义的文本分类方法,其特征在于,根据文本的语义对文本进行分类,包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
2.如权利要求1所述的基于语义的文本分类方法,其特征在于,预设词典包括实体词典和特征词典。
3.如权利要求2所述的基于语义的文本分类方法,其特征在于,实体词典和特征词典由人工设置,并可根据文本集进行修改。
4.如权利要求2所述的基于语义的文本分类方法,其特征在于,文本集根据实体词典进行概念转换。
5.如如权利要求2所述的基于语义的文本分类方法,其特征在于,文本集根据特征词典抽取特征项。
6.如权利要求1所述的基于语义的文本分类方法,其特征在于,特征项权值的计算公式为:
w = tf × idf = f × ln ( n m + 1 )
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
7.如权利要求1所述的基于语义的文本分类方法,其特征在于,训练集由人工设置,并可根据文本集进行修改。
8.如权利要求1或7所述的基于语义的文本分类方法,其特征在于,测试集根据训练集进行设置。
9.如权利要求1所述的基于语义的文本分类方法,其特征在于,分类器采用SVM算法。
CN201410348319.3A 2014-07-21 2014-07-21 一种基于语义的文本分类方法 Pending CN104182463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410348319.3A CN104182463A (zh) 2014-07-21 2014-07-21 一种基于语义的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410348319.3A CN104182463A (zh) 2014-07-21 2014-07-21 一种基于语义的文本分类方法

Publications (1)

Publication Number Publication Date
CN104182463A true CN104182463A (zh) 2014-12-03

Family

ID=51963503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410348319.3A Pending CN104182463A (zh) 2014-07-21 2014-07-21 一种基于语义的文本分类方法

Country Status (1)

Country Link
CN (1) CN104182463A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105045913A (zh) * 2015-08-14 2015-11-11 北京工业大学 基于WordNet以及潜在语义分析的文本分类方法
CN107679062A (zh) * 2017-07-31 2018-02-09 石河子大学 一种推理群体意图的方法及电子设备
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
WO2021036317A1 (zh) * 2019-08-30 2021-03-04 深圳壹账通智能科技有限公司 信息变更指标监控方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819288A (en) * 1996-10-16 1998-10-06 Microsoft Corporation Statistically based image group descriptor particularly suited for use in an image classification and retrieval system
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819288A (en) * 1996-10-16 1998-10-06 Microsoft Corporation Statistically based image group descriptor particularly suited for use in an image classification and retrieval system
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林伟等: "基于概念特征的语义文本分类", 《计算机工程与应用》 *
龚静等: "一种用于文本分类的特征项权值计算方法的研究", 《惠州学院学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104615687B (zh) * 2015-01-22 2018-05-22 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105045913A (zh) * 2015-08-14 2015-11-11 北京工业大学 基于WordNet以及潜在语义分析的文本分类方法
CN105045913B (zh) * 2015-08-14 2018-08-28 北京工业大学 基于WordNet以及潜在语义分析的文本分类方法
CN107679062A (zh) * 2017-07-31 2018-02-09 石河子大学 一种推理群体意图的方法及电子设备
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108520030B (zh) * 2018-03-27 2022-02-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
WO2021036317A1 (zh) * 2019-08-30 2021-03-04 深圳壹账通智能科技有限公司 信息变更指标监控方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105389379B (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN104182463A (zh) 一种基于语义的文本分类方法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN108108351A (zh) 一种基于深度学习组合模型的文本情感分类方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN101079025B (zh) 一种文档相关度计算系统和方法
CN109960799A (zh) 一种面向短文本的优化分类方法
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN110134793A (zh) 文本情感分类方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN108038099A (zh) 基于词聚类的低频关键词识别方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141203

RJ01 Rejection of invention patent application after publication