CN104965867A - 基于chi特征选取的文本事件分类方法 - Google Patents
基于chi特征选取的文本事件分类方法 Download PDFInfo
- Publication number
- CN104965867A CN104965867A CN201510310162.XA CN201510310162A CN104965867A CN 104965867 A CN104965867 A CN 104965867A CN 201510310162 A CN201510310162 A CN 201510310162A CN 104965867 A CN104965867 A CN 104965867A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- classification
- file
- chi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类。其中,模型训练过程包括以下步骤:(1)文本训练语料选取;(2)文本语料预处理;(3)类别特征选取,生成特征文件集合;(4)文本特征向量生成及归一化处理,生成特征向量文件;(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。
Description
技术领域
本发明属于地理信息的数据挖掘领域,具体公开了一种基于CHI特征选取的文本事件分类方法。
背景技术
随着互联网资源爆炸式的增长,分类技术已经成为倍受关注的领域和研究的热点。全球技术研究和咨询公司相关调查报告显示,未来10年中至少95%的人机交互信息是文本语言,其中事件是人们认知和理解世界的基本单位,包含着人类对事件信息描述的时空与属性要素信息以及事件各要素之间的语义关联关系。
然而,文本中事件信息的有效利用和知识的发现成为了现今文本数据挖掘领域亟待面对的问题。文本分类既能够为信息与知识的抽取奠定基础,又能够有效降低文本中事件信息的挖掘利用难度。目前,分类体系、模式匹配与机器学习等方法大部分应用于文本的分类,而缺乏完整的文本中事件的分类方法。
发明内容
本发明的目的在于:依据中文文本事件描述特点,提出一种基于CHI特征选取的文本事件分类方法,有效改进中文文本自然语言处理中事件类型的分类,提升了中文文本事件的分类精度和效率,为文本数据挖掘提供基础性分类依据。
为了实现上述目的,本发明通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类,具体的过程如下:
基于CHI特征选取的文本事件分类方法,其特征在于,包括如下过程:
(一)分类模型训练过程:
步骤11:文本训练语料选取,即从网络文本中筛选文本训练语料,选取的语料包括多种类别的主题事件,每类包括多篇语料文本;
步骤12:对筛选的文本训练语料进行预处理,具体方法如下:
a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8编码格式,
b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本,
c)文本分词,使用ICTCLAS工具包对文本进行分词处理,建立停用词表,对文本特征进行初步筛选,并建立每篇语料文本的特征表;
步骤13:训练语料类别特征选取:对于每一类别主题事件,对每篇语料的每个特征根据其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选,使用卡方统计量CHI值作为特征选择的指标,最终每个类别提取一定数量的特征,并合并所有事件类别的特征形成特征集合文件;
步骤14:文本特征向量生成:使用步骤13中生成的特征集合文件,遍历每一篇训练语料,抽取其中包含的特征,计算相应的特征值,生成特征向量文件,并进行归一化处理,最终生成SVM训练文件;
步骤15:SVM分类模型训练:使用生成的训练文件训练SVM模型,同时通过交叉检验工具调整参数对模型进行优化;
(二)文本分类过程:
步骤21:对待分类的文本进行预处理,生成待分类文本的特征表;
步骤22:使用步骤13生成的特征集合文件抽取待分类文本中的类别特征;
步骤23:待分类文本的文本特征向量生成:使用词频值生成文本的特征向量,并将特征向量进行归一化处理;
步骤24:文本分类:使用步骤15训练生成的SVM分类模型,对归一化的待分类文本特征向量进行分类,得到待分类文本主题类别的预测结果。
本发明基于CHI特征选取的文本事件分类方法,利用中文文本事件的语言描述特征,选取CHI值作为主题特征向量,结合机器学习的方法,实现了有效的文本事件分类。其优点是分类模型中蕴含所有类型的主题特征信息,因此可以更加准确的实现事件文本的分类。本发明所采用的方法可成功地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。此外,基于CHI特征选取的文本事件分类方法还能够为信息的进一步抽取奠定有效的技术基础。
附图说明
图1是本发明中文文本事件分类方法流程图;
图2是训练语料类别1特征集合示意图;
图3是训练语料生成的特征集合文件示意图;
图4是归一化处理后的SVM训练文件;
图5是基于SVM模型形成的分类模型文件;
图6是文本分类结果。
具体实施方式
下面结合附图和实施例,做进一步详细说明。
本方法总体流程参见图1。本实例选取网络新闻报道文稿作为模型训练的原始语料,共选取9类主题包括:汽车、财经、IT、健康、体育、旅游、教育、招聘、文化以及军事的文本,每类文本2000篇共18000篇语料,语料类别涵盖了社会生活中绝大多数事件主题,覆盖度高,特征丰富,语料规模适中,可以提供足够的训练、测试用语料。待分类文本语料选取“暴雨”事件的网络新闻报道20篇为例,作为实施示例。
(一)分类模型训练过程:
步骤11:文本训练语料选取;即从网络文本中筛选文本训练语料。
步骤12:文本语料预处理;
将筛选的文本训练语料进行预处理,具体方法如下:
a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8编码格式。
b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本。
c)文本分词,使用中科院ICTCLAS工具包对文本进行分词处理,建立停用词表,对文本特征进行初步筛选,并建立每篇语料文本的特征表。
步骤13:训练语料类别特征选取;
选取每类语料的特征,并生成特征集合文件,对于每一类别主题事件,并非每篇语料的所有特征都是有用特征,需要对每个特征针对其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选,最终每个类别提取一定数量的特征,并合并所有事件类别的特征形成特征集合文件,具体方法如下:
a)计算CHI指标,使用CHI值作为特征选择的指标,即卡方统计量。某个特征的CHI值依据以下公式计算:
其中,公式中各个参数的含义,说明如下:
t:表示文本特征,
c:表示类别,
χ2(t,c):表示文本特征t与类别c之间的相关关系,
N:训练数据集文档总数,
A:在一个类别中,包含某个词的文档的数量,
B:在一个类别中,排除该类别,其他类别包含某个词的文档的数量,
C:在一个类别中,不包含某个词的文档的数量,
D:在一个类别中,不包含某个词也不在该类别中的文档的数量,
b)特征集合选择,计算每个类别每个特征的CHI值,按照CHI值降序排列,此处选择前200个特征作为该类别的特征集合,该集合的特征可以最大限度反映类别文本的领域描述特性,特征集合将作为分类模型的重要依据,以类型一特征的特征集合为例,参见图2。
c)合并所有类别特征集合生成用以模型训练的特征集合文件,参见图3。
步骤14:文本特征向量生成;
使用步骤13中生成的特征集合文件,遍历每一篇训练语料,抽取其中包含的特征,计算相应的特征值,生成特征向量文件,并进行归一化处理。具体步骤包括:
a)通过TF-IDF值计算文本特征值,TF-IDF用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF指词频,IDF指逆向文件频率,见公式(2)(3):
即某篇文章中某词出现的次数n与总词数的比值。
D指某一类别总文件数目,即总文件数与包含某词的文件数的比值。因此,TF-IDF=TF*IDF。该步骤需生成每一篇语料的特征向量,SVM模型可识别的格式为:“类别编号特征一:特征值特征二:特征值……”。
b)将每个特征赋予唯一的特征编号。全部语料数据处理完毕后生成一个特征向量文件,特征向量的大小取决于特征集合中的特征数以及语料库中的文件总数,如果共有N个特征,M篇训练语料,则特征文件为一个N*M的特征矩阵。
c)特征值归一化处理;为了使能够训练出高效的SVM模型,还需要对特征值进行归一化处理。将每个特征的特征值放缩到区间[-1,1]或者[0,1],区间任意,由用户决定,一般放缩到[-1,1]内,并将归一化特征值最终生成SVM训练文件,参见图4。
步骤15:SVM分类模型训练;
使用生成的训练文件训练SVM模型,同时通过交叉检验工具调整参数对模型进行优化。具体步骤包括:
a)生成模型文件,使用线性核函数非启发式训练SVM模型,其他参数默认,生成模型文件,参见图5。
b)将训练文件分成指定组数,需交叉验证分类正确率,并调整相关参数:代价系数以及交叉验证分组数目,直至识别正确率最大。
(二)文本分类过程:
步骤21:待分类文本预处理;
将待分类文本进行转码、筛选和分词等预处理过程,生成待分类文本的特征表。步骤与训练语料的预处理步骤类似,参见步骤12。
步骤22:待分类文本的文本特征抽取;
使用步骤13生成的特征集合文件抽取待分类文本中的类别特征。
步骤23:待分类文本的文本特征向量生成;
参照步骤14,使用词频值生成文本的特征向量,并将特征向量进行归一化处理。
步骤24:文本分类;
使用步骤15训练生成的分类模型,对归一化的待分类文本特征向量进行分类,得到待分类文本主题类别的预测结果,参见图6。
(三)实验分析
由上述实例可知:本发明基于中文文本事件的描述特征和SVM模型,针对待分类语料,提取各类语料的特征向量,经过特征训练形成分类模型,最终将待分类语料处理的特征信息由分类模型进行计算,得出最终的文本分类结果,参见图6。其中,文本为20篇待分类文本的分类情况,“5”表示暴雨类型文本,“4”表示泥石流类型文本。由于文本中,暴雨事件的发生常常会伴随泥石流事件的发生,因此,将这种分类误差可看作是分类体系引起的系统误差,在分类结果上并不影响分类结果。该方法在公开测试中,封闭测试及开放测试的准确性分别为89.00%和75.00%。
本发明实例中,仅以网络文本报道作为待分类文本,该方法也同样适用于其他类型描述事件的文本信息。
Claims (3)
1.基于CHI特征选取的文本事件分类方法,其特征在于,包括如下过程:
(一)分类模型训练过程:
步骤11:文本训练语料选取,即从网络文本中筛选文本训练语料,选取的语料包括多种类别的主题事件,每类包括多篇语料文本;
步骤12:对筛选的文本训练语料进行预处理,具体方法如下:
a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8编码格式,
b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本,
c)文本分词,使用ICTCLAS工具包对文本进行分词处理,建立停用词表,对文本特征进行初步筛选,并建立每篇语料文本的特征表;
步骤13:训练语料类别特征选取:对于每一类别主题事件,对每篇语料的每个特征根据其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选,使用卡方统计量CHI值作为特征选择的指标,最终每个类别提取一定数量的特征,并合并所有事件类别的特征形成特征集合文件;
步骤14:文本特征向量生成:使用步骤13中生成的特征集合文件,遍历每一篇训练语料,抽取其中包含的特征,计算相应的特征值,生成特征向量文件,并进行归一化处理,最终生成SVM训练文件;
步骤15:SVM分类模型训练:使用生成的训练文件训练SVM模型,同时通过交叉检验工具调整参数对模型进行优化;
(二)文本分类过程:
步骤21:对待分类的文本进行预处理,生成待分类文本的特征表;
步骤22:使用步骤13生成的特征集合文件抽取待分类文本中的类别特征;
步骤23:待分类文本的文本特征向量生成:使用词频值生成文本的特征向量,并将特征向量进行归一化处理;
步骤24:文本分类:使用步骤15训练生成的SVM分类模型,对归一化的待分类文本特征向量进行分类,得到待分类文本主题类别的预测结果。
2.根据权利要求1所述的基于CHI特征选取的文本事件分类方法,其特征在于,所述步骤13的具体方法如下:
a)计算卡方统计量CHI指标,某个特征的CHI值依据以下公式计算:
其中,公式中各个参数的含义,说明如下:
t:表示文本特征,
c:表示类别,
χ2(t,c):表示文本特征t与类别c之间的相关关系,
N:训练数据集文档总数,
A:在一个类别中,包含某个词的文档的数量,
B:在一个类别中,排除该类别,其他类别包含某个词的文档的数量,
C:在一个类别中,不包含某个词的文档的数量,
D:在一个类别中,不包含某个词也不在该类别中的文档的数量,
b)特征集合选择,计算每个类别每个特征的CHI值,按照CHI值降序排列,选择排列在前的一定数量的特征作为该类别的特征集合;
c)合并所有类别的特征集合,生成用以模型训练的特征集合文件。
3.根据权利要求1所述的基于CHI特征选取的文本事件分类方法,其特征在于,所述步骤14的具体步骤包括:
a)通过TF-IDF值计算文本特征值,TF-IDF值用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,其中,TF指词频,IDF指逆向文件频率,计算公式分别为:
即某篇文章中某词出现的次数n与总词数的比值,
D指某一类别总文件数目,即总文件数与包含某词的文件数的比值,因此,TF-IDF=TF*IDF;
b)将每个特征赋予唯一的特征编号,全部语料数据处理完毕后生成一个特征向量文件,特征向量文件的大小取决于特征集合中的特征数以及语料库中的文件总数,如果共有N个特征和M篇训练语料,则特征文件为一个N*M的特征矩阵;
c)特征值归一化处理;将每个特征的特征值放缩到区间[-1,1]或者[0,1],并将归一化特征值最终生成SVM训练文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510310162.XA CN104965867A (zh) | 2015-06-08 | 2015-06-08 | 基于chi特征选取的文本事件分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510310162.XA CN104965867A (zh) | 2015-06-08 | 2015-06-08 | 基于chi特征选取的文本事件分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104965867A true CN104965867A (zh) | 2015-10-07 |
Family
ID=54219904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510310162.XA Pending CN104965867A (zh) | 2015-06-08 | 2015-06-08 | 基于chi特征选取的文本事件分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965867A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105516499A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 一种对短信进行分类的方法、装置、通信终端及服务器 |
CN105808718A (zh) * | 2016-03-07 | 2016-07-27 | 浙江工业大学 | 一种基于不平衡数据集的文本特征选择方法 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
WO2017092623A1 (zh) * | 2015-11-30 | 2017-06-08 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN106933847A (zh) * | 2015-12-30 | 2017-07-07 | 北京神州泰岳软件股份有限公司 | 一种建立数据分类模型的方法和装置 |
CN107247699A (zh) * | 2017-04-20 | 2017-10-13 | 中国农业大学 | 一种游戏设计要素的提取方法及装置 |
CN108153872A (zh) * | 2017-12-25 | 2018-06-12 | 佛山市车品匠汽车用品有限公司 | 一种互联网网页信息过滤的方法和装置 |
CN108664973A (zh) * | 2018-03-28 | 2018-10-16 | 北京捷通华声科技股份有限公司 | 文本处理方法和装置 |
CN108932322A (zh) * | 2018-06-29 | 2018-12-04 | 北京大学 | 一种基于文本大数据的地理语义挖掘方法 |
CN108959568A (zh) * | 2018-07-04 | 2018-12-07 | 重庆华龙网海数科技有限公司 | 文档智能分发系统及分发方法 |
CN109784418A (zh) * | 2019-01-28 | 2019-05-21 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及系统 |
CN110019809A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种分类确定方法、装置及网络设备 |
CN110020435A (zh) * | 2019-04-03 | 2019-07-16 | 湖北工业大学 | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 |
CN110276054A (zh) * | 2019-05-16 | 2019-09-24 | 湖南大学 | 一种保险文本结构化实现方法 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN110674263A (zh) * | 2019-12-04 | 2020-01-10 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
CN111798986A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 一种数据增强的方法和设备 |
CN112685567A (zh) * | 2020-12-31 | 2021-04-20 | 山西三友和智慧信息技术股份有限公司 | 基于机器学习的自动文本分类方法 |
CN113011503A (zh) * | 2021-03-17 | 2021-06-22 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103995876A (zh) * | 2014-05-26 | 2014-08-20 | 上海大学 | 一种基于卡方统计和smo算法的文本分类方法 |
CN104182463A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本分类方法 |
-
2015
- 2015-06-08 CN CN201510310162.XA patent/CN104965867A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103995876A (zh) * | 2014-05-26 | 2014-08-20 | 上海大学 | 一种基于卡方统计和smo算法的文本分类方法 |
CN104182463A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本分类方法 |
Non-Patent Citations (1)
Title |
---|
刘海峰 等: "一种基于词频信息的改进CHI文本特征选择", 《计算机工程与应用》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092623A1 (zh) * | 2015-11-30 | 2017-06-08 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN105516499B (zh) * | 2015-12-14 | 2019-05-10 | 北京奇虎科技有限公司 | 一种对短信进行分类的方法、装置、通信终端及服务器 |
CN105516499A (zh) * | 2015-12-14 | 2016-04-20 | 北京奇虎科技有限公司 | 一种对短信进行分类的方法、装置、通信终端及服务器 |
CN106933847B (zh) * | 2015-12-30 | 2019-12-27 | 北京神州泰岳软件股份有限公司 | 一种建立数据分类模型的方法和装置 |
CN106933847A (zh) * | 2015-12-30 | 2017-07-07 | 北京神州泰岳软件股份有限公司 | 一种建立数据分类模型的方法和装置 |
CN105808718A (zh) * | 2016-03-07 | 2016-07-27 | 浙江工业大学 | 一种基于不平衡数据集的文本特征选择方法 |
CN105808718B (zh) * | 2016-03-07 | 2019-02-01 | 浙江工业大学 | 一种基于不平衡数据集的文本特征选择方法 |
CN105956472B (zh) * | 2016-05-12 | 2019-10-18 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN106095996B (zh) * | 2016-06-22 | 2020-02-21 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
CN107247699A (zh) * | 2017-04-20 | 2017-10-13 | 中国农业大学 | 一种游戏设计要素的提取方法及装置 |
CN108153872A (zh) * | 2017-12-25 | 2018-06-12 | 佛山市车品匠汽车用品有限公司 | 一种互联网网页信息过滤的方法和装置 |
CN110019809A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种分类确定方法、装置及网络设备 |
CN110019809B (zh) * | 2018-01-02 | 2021-11-19 | 中国移动通信有限公司研究院 | 一种分类确定方法、装置及网络设备 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN108664973A (zh) * | 2018-03-28 | 2018-10-16 | 北京捷通华声科技股份有限公司 | 文本处理方法和装置 |
CN108932322A (zh) * | 2018-06-29 | 2018-12-04 | 北京大学 | 一种基于文本大数据的地理语义挖掘方法 |
CN108959568A (zh) * | 2018-07-04 | 2018-12-07 | 重庆华龙网海数科技有限公司 | 文档智能分发系统及分发方法 |
CN109784418B (zh) * | 2019-01-28 | 2020-11-17 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及系统 |
CN109784418A (zh) * | 2019-01-28 | 2019-05-21 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及系统 |
CN110020435A (zh) * | 2019-04-03 | 2019-07-16 | 湖北工业大学 | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 |
CN110020435B (zh) * | 2019-04-03 | 2023-04-07 | 湖北工业大学 | 一种采用并行二进制蝙蝠算法优化文本特征选择的方法 |
CN110276054A (zh) * | 2019-05-16 | 2019-09-24 | 湖南大学 | 一种保险文本结构化实现方法 |
CN110276054B (zh) * | 2019-05-16 | 2023-08-15 | 湖南大学 | 一种保险文本结构化实现方法 |
CN110674263B (zh) * | 2019-12-04 | 2022-02-08 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
CN110674263A (zh) * | 2019-12-04 | 2020-01-10 | 广联达科技股份有限公司 | 一种模型构件文件自动分类的方法和装置 |
CN111798986A (zh) * | 2020-07-07 | 2020-10-20 | 云知声智能科技股份有限公司 | 一种数据增强的方法和设备 |
CN111798986B (zh) * | 2020-07-07 | 2023-11-03 | 云知声智能科技股份有限公司 | 一种数据增强的方法和设备 |
CN112685567A (zh) * | 2020-12-31 | 2021-04-20 | 山西三友和智慧信息技术股份有限公司 | 基于机器学习的自动文本分类方法 |
CN113011503A (zh) * | 2021-03-17 | 2021-06-22 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
CN113011503B (zh) * | 2021-03-17 | 2021-11-23 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965867A (zh) | 基于chi特征选取的文本事件分类方法 | |
US10599700B2 (en) | Systems and methods for narrative detection and frame detection using generalized concepts and relations | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN100583101C (zh) | 基于领域知识的文本分类特征选择及权重计算方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN105912576B (zh) | 情感分类方法及系统 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN106919673A (zh) | 基于深度学习的文本情绪分析系统 | |
CN106776581A (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN105205124B (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN107885883A (zh) | 一种基于社会媒体的宏观经济领域情感分析方法及系统 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN107844609A (zh) | 一种基于文体和词表的突发事件信息抽取方法及系统 | |
CN108614855A (zh) | 一种谣言识别方法 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
Tan et al. | Authorship identification for online text | |
CN110472257A (zh) | 一种基于句对的机器翻译引擎测评优选方法及系统 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
Chun et al. | Detecting Political Bias Trolls in Twitter Data. | |
CN102004796B (zh) | 一种网页文本的无阻滞层次分类方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151007 |