CN104182463A - 一种基于语义的文本分类方法 - Google Patents
一种基于语义的文本分类方法 Download PDFInfo
- Publication number
- CN104182463A CN104182463A CN201410348319.3A CN201410348319A CN104182463A CN 104182463 A CN104182463 A CN 104182463A CN 201410348319 A CN201410348319 A CN 201410348319A CN 104182463 A CN104182463 A CN 104182463A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- classification method
- method based
- file classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于语义的文本分类方法,根据文本的语义对文本进行分类,包括以下步骤:A、根据文本集选择预设词典组合构建本体库;B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;C、抽取文本集的特征项,并计算特征项的权重;D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;E、根据分类器对文本集进行分类。本发明提出的基于语义的文本分类方法,根据文本的语义对文本进行分类,可达到理想的分类效果,而且效率高。
Description
技术领域
本发明涉及文本信息智能检索技术领域,尤其涉及一种基于语义的文本分类方法。
背景技术
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练,可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行。这种方式下,首先,获取大量标注的训练语料存在困难,如果采用大规模手工标注,则效率低下,其次,由于训练语料有可能存在类别偏见(例如有的标记为新闻的语料,可能更适合标记为娱乐),会导致分类器也带有类别偏见,因此最终会导致分类精度的降低。另外,现有技术也有用聚类的方法将文本分为若干类别的,但是由于在聚类时对聚出的各个类别无法控制,所以如果只采用聚类的方法将文本分为若干类别,可能存在无法得到真正需要的类的情况。
发明内容
基于背景技术存在的问题,本发明提出了基于语义的文本分类方法,根据文本的语义对文本进行分类,可达到理想的分类效果,而且效率高。
本发明提出的一种基于语义的文本分类方法,根据文本的语义对文本进行分类,包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
优选地,预设词典包括实体词典和特征词典。
优选地,实体词典和特征词典由人工设置,并可根据文本集进行修改。
优选地,文本集根据实体词典进行概念转换。
优选地,文本集根据特征词典抽取特征项。
优选地,特征项权值的计算公式为:
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
优选地,训练集由人工设置,并可根据文本集进行修改。
优选地,测试集根据训练集进行设置。
优选地,分类器采用SVM算法。
本发明根据文本的语义对文本进行分类,直接将文本集转换为概念,即去除了没有实际意义的冗余信息,节约了文本处理的时间,又提高了文本信息的清晰程度,尤其避免了一词多义和多词一义的干扰。本发明中直接抽取特征项并计算权重,作为文本分类的参考依据,使得分类结果更加合理、精确。本发明提供的一种基于语义的文本分类方法,分类精度理想,效率高,能够满足大多数场景的需要。
附图说明
图1为本发明提供的一种基于语义的文本分类方法的流程图。
具体实施方式
本发明提出的一种基于语义的文本分类方法,根据文本的语义对文本进行分类,将文本集概念化处理使得文本信息表达更加清晰简练,使得分类结果更加理想的同时,也大大提高分类效率。
参照图1,本实施方式提供的分类方法包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
本实施方式的步骤A中,预设词典包括实体词典和特征词典,实体词典和特征词典根据文本集所属行业由人工进行设定,并可根据文本集的内容进行修改,提高实体词典和特征词典的针对性,从而提高文本分类的精确度。
本实施方式的步骤B中,实体词典作为文本集提取实体的依据,文本集根据实体词典进行概念转换,放弃不含实体的内容,对文本信息进行提炼,使得文本信息更加清晰和简练,节约后续处理时间。
本实施方式的步骤C中,特征词典包含文本集中所有待识别的特征项,文本集根据特征词典抽取特征项,效率高,而且不容易遗漏。特征项权值的计算采用tf-idf算法,具体的计算公式为:
其中,w为特征项t在文档d中的权重值;tf(Term Frequency,词频)表示t在d内出现的频率;idf(Inverse Document Frequency,逆向文件频率)表示t的反比文本频率,是反应t在文本集中按文本统计出现的频率的指标;n表示训练集的文档总数;m表示训练集中包含t的文档数。tf-idf算法在现有的算法中已经相当成熟,该算法的采用使得本分类方法更加稳定可靠。
本实施方式的步骤D中,训练集由人工设置,并可根据文本集进行修改,测试集根据训练集进行设置。如此,具体实施时,可通过人工选择训练集和测试集来实现最适合待分类文本集的分类器,进一步确保分类结果理想化。
本实施方式中的分类器采用SVM算法(Support Vector Machine,支持向量机)。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于语义的文本分类方法,其特征在于,根据文本的语义对文本进行分类,包括以下步骤:
A、根据文本集选择预设词典组合构建本体库;
B、将文本集统一格式并分解为基本单元,根据本体库将文本集转化为概念;
C、抽取文本集的特征项,并计算特征项的权重;
D、根据预设训练集构建分类器,并根据预设测试集对分类器进行测试和调整;
E、根据分类器对文本集进行分类。
2.如权利要求1所述的基于语义的文本分类方法,其特征在于,预设词典包括实体词典和特征词典。
3.如权利要求2所述的基于语义的文本分类方法,其特征在于,实体词典和特征词典由人工设置,并可根据文本集进行修改。
4.如权利要求2所述的基于语义的文本分类方法,其特征在于,文本集根据实体词典进行概念转换。
5.如如权利要求2所述的基于语义的文本分类方法,其特征在于,文本集根据特征词典抽取特征项。
6.如权利要求1所述的基于语义的文本分类方法,其特征在于,特征项权值的计算公式为:
其中,w为特征项t在文档d中的权重值,tf表示t在d内出现的频率,idf表示t的反比文本频率,n表示训练集的文档总数,m表示训练集中包含t的文档数。
7.如权利要求1所述的基于语义的文本分类方法,其特征在于,训练集由人工设置,并可根据文本集进行修改。
8.如权利要求1或7所述的基于语义的文本分类方法,其特征在于,测试集根据训练集进行设置。
9.如权利要求1所述的基于语义的文本分类方法,其特征在于,分类器采用SVM算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348319.3A CN104182463A (zh) | 2014-07-21 | 2014-07-21 | 一种基于语义的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410348319.3A CN104182463A (zh) | 2014-07-21 | 2014-07-21 | 一种基于语义的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104182463A true CN104182463A (zh) | 2014-12-03 |
Family
ID=51963503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410348319.3A Pending CN104182463A (zh) | 2014-07-21 | 2014-07-21 | 一种基于语义的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104182463A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105045913A (zh) * | 2015-08-14 | 2015-11-11 | 北京工业大学 | 基于WordNet以及潜在语义分析的文本分类方法 |
CN107679062A (zh) * | 2017-07-31 | 2018-02-09 | 石河子大学 | 一种推理群体意图的方法及电子设备 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
WO2021036317A1 (zh) * | 2019-08-30 | 2021-03-04 | 深圳壹账通智能科技有限公司 | 信息变更指标监控方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819288A (en) * | 1996-10-16 | 1998-10-06 | Microsoft Corporation | Statistically based image group descriptor particularly suited for use in an image classification and retrieval system |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
-
2014
- 2014-07-21 CN CN201410348319.3A patent/CN104182463A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819288A (en) * | 1996-10-16 | 1998-10-06 | Microsoft Corporation | Statistically based image group descriptor particularly suited for use in an image classification and retrieval system |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
Non-Patent Citations (2)
Title |
---|
林伟等: "基于概念特征的语义文本分类", 《计算机工程与应用》 * |
龚静等: "一种用于文本分类的特征项权值计算方法的研究", 《惠州学院学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN104615687B (zh) * | 2015-01-22 | 2018-05-22 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105045913A (zh) * | 2015-08-14 | 2015-11-11 | 北京工业大学 | 基于WordNet以及潜在语义分析的文本分类方法 |
CN105045913B (zh) * | 2015-08-14 | 2018-08-28 | 北京工业大学 | 基于WordNet以及潜在语义分析的文本分类方法 |
CN107679062A (zh) * | 2017-07-31 | 2018-02-09 | 石河子大学 | 一种推理群体意图的方法及电子设备 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108520030B (zh) * | 2018-03-27 | 2022-02-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
WO2021036317A1 (zh) * | 2019-08-30 | 2021-03-04 | 深圳壹账通智能科技有限公司 | 信息变更指标监控方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN105389379B (zh) | 一种基于文本分布式特征表示的垃圾稿件分类方法 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN105512311B (zh) | 一种基于卡方统计的自适应特征选择方法 | |
CN104182463A (zh) | 一种基于语义的文本分类方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN109710947B (zh) | 电力专业词库生成方法及装置 | |
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN109960799A (zh) | 一种面向短文本的优化分类方法 | |
CN106528642A (zh) | 一种基于tf‑idf特征提取的短文本分类方法 | |
CN106294320A (zh) | 一种面向学术论文的术语抽取方法及系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN107122382A (zh) | 一种基于说明书的专利分类方法 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN108038099A (zh) | 基于词聚类的低频关键词识别方法 | |
CN110134793A (zh) | 文本情感分类方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN107423371A (zh) | 一种文本正负类情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141203 |
|
RJ01 | Rejection of invention patent application after publication |