CN109101477B - 一种企业领域分类及企业关键词筛选方法 - Google Patents

一种企业领域分类及企业关键词筛选方法 Download PDF

Info

Publication number
CN109101477B
CN109101477B CN201810563448.2A CN201810563448A CN109101477B CN 109101477 B CN109101477 B CN 109101477B CN 201810563448 A CN201810563448 A CN 201810563448A CN 109101477 B CN109101477 B CN 109101477B
Authority
CN
China
Prior art keywords
enterprise
word
classification
words
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810563448.2A
Other languages
English (en)
Other versions
CN109101477A (zh
Inventor
邝野
夏思宇
李钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810563448.2A priority Critical patent/CN109101477B/zh
Publication of CN109101477A publication Critical patent/CN109101477A/zh
Application granted granted Critical
Publication of CN109101477B publication Critical patent/CN109101477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Abstract

本发明公开了一种企业领域分类及企业关键词筛选方法,该方法通过对企业领域语料库进行训练得出相关领域的特征词汇作为分类词典,然后利用这种分类词典对企业的简介文档进行行业分类,在分类之后,本方法还能从企业的简介文档中提取出能代表这个企业所从事领域的行业标签。此外,本方法能克服中文文本处理中的大多数噪声词影响,行业分类错误率低,分类效率高,综合表现性能优异。

Description

一种企业领域分类及企业关键词筛选方法
技术领域
本发明属于中文文本处理和文本挖掘领域,尤其涉及一种企业领域分类及企业关键词筛选方法。
背景技术
在信息时代,有非常大量的信息都储存在文本当中,比如各种研究文档、企业信息文档、图书、网页文档等。近几年计算机技术突飞猛进,数据挖掘、文本信息挖掘等技术成为了信息科学研究的热点,而将一些成熟的文本挖掘技术用于生产实际也是众望所归。
在非常多的情况下,读者并没有足够的精力完整读完得到的所有的文本,所以很多文档都提供了摘要与关键词来帮助读者判断文本内容自己是否感兴趣,是否要继续读下去。在过去,文本摘要和关键词提取都是靠人力完成,但是在信息爆炸的时代这种做法显然就显得效率低下,人们自然而然得就开始寻求依靠计算机来对文本进行关键词提取与摘要筛选的技术。
企业标签指的是从一个企业的官方非结构化信息文本,如公司简介文档、电子表格、客户电子邮件、问题查询、网页等,中挖掘提取出来的描述此企业性质、所属行业、产品特点等信息的文本标签,借助这些文本标签我们可以更方便地对大量的企业进行行业分类与管理。
现有的文本关键词提取技术最大的问题是容易提取出过多的噪声词,噪声词即与文本内容不相关的词,如语气词或者形容词,过多的噪声词不仅会降低提取的标签词的质量,而且会大幅度影响程序运算效率,而本文通过改良了传统的TF-IDF算法,大幅度降低了关键词提取结果中噪声词的比例。
发明内容
发明目的:针对以上现有技术存在的问题,本发明提出一种企业领域分类及企业关键词筛选方法,该方法可以解决目前针对企业领域的文本分类技术缺乏,企业搜索引擎所提取的标签噪声词多的问题,本发明提供的方法可以对企业进行高准确率的分类,并提供了一种企业标签提取的思路,通过本发明为企业文档提取的关键词可以降低企业搜索引擎中的噪声标签,使企业搜索引擎定位更准确。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种企业领域分类及企业关键词筛选方法,该方法包括如下步骤:
(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;
(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;
(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签。
其中,步骤(1)中,建立所有企业领域的分类词典方法如下:
(1.1)对所有企业领域的训练语料库中的文档进行文本预处理,得到所有企业领域所对应的词语,并记录词语的词性;
(1.2)计算企业领域dj词语的词频TFij
Figure GDA0001831688950000021
式(1)中,fij代表了词语ti在企业领域dj的所有文档中的出现次数,∑jfij是目标企业领域dj中所有文档的所有词语的总数;
(1.3)计算企业领域dj词语的逆向文档频率IDFi
Figure GDA0001831688950000022
其中,N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目;
(1.4)引入方差因子,其计算方法如下:
Figure GDA0001831688950000023
式(3)中,VARi代表词语ti的方差因子,K是企业领域的总数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,即对DF(i,j)的归一化操作,
Figure GDA0001831688950000024
是每一个企业领域包含了词语ti的文档数量的平均值;
(1.5)计算计算企业领域dj所有词语的权重
TF-IDFi=VARi*TFij*IDFi (4)。
进一步的,对步骤(1.5)计算得到企业领域dj词语的TF-IDF权重进行排序,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前Num%的词语作为候选关键词,进一步过滤与企业领域无关的噪声词,得到企业领域dj的分类词典,根据上述方法计算所有企业领域的分类词典。
其中,步骤(2)中,目标企业领域分类方法如下:将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较,比较目标企业的词集合与每一个企业领域分类词典的词集合相似度,取相似度最大的企业领域作为目标企业的所属领域。
进一步的,所述相似度计算方法为:目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。
其中,步骤(3)中,企业标签词提取方法如下:
(3.1)对目标企业的文档进行预处理,得到与目标企业相关的所有词语;
(3.2)计算目标企业所有词语的词频TFic
Figure GDA0001831688950000031
式(5)中,fic代表了词语ti在待处理的目标企业所有文档集合Pc中的出现次数,∑cfic是目标企业所有文档集合Pc中所有词语的总数;
(3.3)计算目标企业所有词语的逆向文档频率IDFi
Figure GDA0001831688950000032
其中,M是目标企业被分类到的企业领域中所有企业文档数目,DFi代表了这些文档中包含了词语ti的文档数目;
(3.4)计算目标企业词语ti权重:
TF-IDFi=TFic*IDFi (7)
根据公式(7)计算目标企业所有词语的权重,并进行权重排序,选择权重最大的词语作为企业标签词。
有益效果:与现有技术相比,本申请的技术方案具有以下有益效果:
本方法能克服中文文本处理中的大多数噪声词影响,行业分类错误率低,分类效率高,综合表现性能优异,同时提取的企业标签词比较具有代表性;同时本方法随着训练文本的增多准确度也会上升,并弥补了目前我国市面上存在的同样目的或效果的软件或算法很少这一缺失。
附图说明
图1为本发明提供的一种企业领域分类及企业标签提取方法的步骤流程示意图;
图2为分类词典训练流程图;
图3为针对金属材料领域企业分类词典训练示例;
图4为利用分类词典对企业进行领域分类的示意图及对华为进行的领域分类;
图5为对华为的企业标签词提取;
图6为对华为的企业标签词提取结果。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种企业领域分类及企业关键词筛选方法,该方法总体步骤如下:
首先,需要通过爬虫程序收集大量的不同领域企业介绍文档归类整理为训练语料库,训练语料库即一个经过人工分类标定所属类别的企业文档数据库。然后采用本发明提供的改良TF-IDF算法进行企业分类词典训练。传统的TF-IDF算法只利用了文本中的词频信息,提取的关键词准确度并不高,本发明改良的TF-IDF算法,针对企业介绍文档具有的文档简洁、信息浓缩度高的特点,并分析得出一般来说能代表企业行业特征的词都是名词这一特点,提出了加入词性这一特征的改良TF-IDF算法。改良的TF-IDF算法会将提取出的候选关键词中除了名词以外其他词性的词汇都过滤掉,只在名词中进一步筛选得到关键词,这一步骤大幅度降低了关键词集中可能出现噪声词的概率。另一方面在训练分类词典的过程中还加入了方差因子这一要素来强化特征词的TF-IDF权重,进一降低了噪声词的权重排名并提高了特征词的权重排名。本发明的方法具体实施步骤如下:
(a)对要训练分类词典的目标企业领域的训练语料库中的文档均经过中文分词及停止词过滤处理,然后统计每个词语分别出现的词数与词集总词数的商作为TF(词频),同时还需要记录每个词的词性,以及每个词分别在这个领域的多少个文档中出现过并据此计算出每个词的DFC,将这个统计好的目标企业领域的词语集合作为目标领域训练词集。
(b)针对所有领域所有企业的文档总语料库,统计目标领域训练词集中的每一个词语分别在多少个企业的文档中出现过,并记录这个数字用于计算传统TF-IDF算法中的IDF(逆向文件频率)以及VAR(方差因子)。在得到了目标企业领域的训练词集合中每个词的TF、IDF以及VAR之后我们就可以利用改进的TF-IDF算法计算每个词的TF-IDF权重,计算完毕后根据每个词语的TF-IDF权重我们可以进行排序得到权重由重到轻的词表。针对这个词表,本方法进行词性过滤,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前Num%的词语作为候选关键词,经过人工进一步过滤一些与企业领域无关的噪声词,就可以得到这个企业领域分类词典的词表。
(c)随后利用训练好的企业分类词典对目标企业的文档进行分类,并在分类结束后再次利用改良的TF-IDF算法从目标企业的文档中提取出能代表这个企业的标签词。
本发明整体的步骤流程如图1所示。本发明是基于文本挖掘和关键词提取技术的筛选方法,并能够去除大多数中文文本噪声词,本发明所公开的方法具体步骤如下:
(1)分类词典训练
首先需要明确,针对每一个企业领域,比如电气自动化、网络信息、生物制药,都需要训练一个对应这个领域的分类词典,第一步需要对准备要训练分类词典的企业领域,即企业领域的训练语料库中的文档均经过文本预处理,该预处理是对该企业领域训练语料库中的文档均经过中文分词及停止词过滤处理,然后统计每个词语分别出现的词数与这个训练语料库中的总词数的商作为TF,即词频,同时记录每个词的词性,将这个统计好的目标企业领域的词语集合作为目标领域训练词集。
接下来,针对所有领域所有企业的文档总语料库,统计企业领域dj训练词集中的每一个词语分别在多少个企业的文档中出现过,并记录这个数字用于计算TF-IDF算法中的IDF,即逆向文件频率。在得到了企业领域dj的训练词集合中每个词的TF与IDF之后,利用改进的TF-IDF算法计算每个词的TF-IDF权重,以下是针对企业领域dj为其训练分类词典的计算:
Figure GDA0001831688950000051
式(1)中fij代表了词语ti在企业领域dj所有文档中的出现次数,∑jfij是企业领域dj所有文档中所有词语的总数,由上述可以看出,fij与∑jfij的比值越大,说明这个词在这个企业领域中的重要性就越高。
Figure GDA0001831688950000052
N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目。如果词语ti在总语料库中普遍出现,DFi就接近N,IDFi就接近0,即如果词语ti在总语料库中出现并不普遍,那么IDF的值也就越大。
式(3)是本文引入的对传统TF-IDF算法改良的方差因子的计算公式,方差因子是为了强调同一个词语在不同企业领域文档语料库里的分布不同、重要性不同这一概念,引入的强化这一因素的因子,计算方法如下:
Figure GDA0001831688950000061
式(3)中VARi代表词语ti的方差因子,K是企业领域的数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,是为了排除每个企业领域文档数量不同带来的误差,即对DF(i,j)的归一化操作。
Figure GDA0001831688950000062
是每一个企业领域包含了词语ti的文档数量的平均值。
式(4)为词语ti的TF-IDF权重计算的数学表达式:
TF-IDFi=VARi*TFij*IDFi (4)
如式(4),TF-IDF权重的值为VAR、TF与IDF的乘积,VAR越大,TF越大,IDF越大,TF-IDF的值就越大,代表这个词语在目标企业领域里的重要程度越高。
计算完毕后,根据每个词语的TF-IDF权重我们可以进行排序得到权重由重到轻的词表。针对这个词表,本方法进行词性过滤,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前10%的候选关键词,经过人工进一步过滤一些与企业领域无关的噪声词,就可以得到企业领域dj的分类词典的词表了。分类词典建立需要的文本预处理步骤包含了中文文本分词及停止词过滤步骤,中文文本分词采用Jieba分词模型,目前这个模型的中文分词效果在领域内比较好。停止词过滤采用标准的中文停止词表进行过滤,通过停止词过滤能大幅降低计算资源利用,同时能提高TF-IDF算法提取特征词的准确度。以金属行业的分类词典训练为例,其训练流程如图2所示,训练结果如图3所示。
(2)目标企业文本行业分类
基于分类词典的文本分类方法是最直观的文本分类方式,利用步骤(1)训练得到的分类词典作为基准对每一个进行分类的目标文本进行相似性比较,即比较目标文本经过文本预处理后的词的集合与分类词典的重合程度,如图4所示,重合程度越大相似性就越大。分类过程即将目标文本处理得到的词的集合与每一个领域训练得到的分类词典的词集合分别进行比较,比较目标文本的词的集合与哪一个领域分类词典的词相似度最大,相似度计算方法为目标文本词集与分类词典词集相同的词的数量除以分类词典自身总词数并乘以百分之百,最大为100%,最小为0%。举例来讲,如果一个企业与领域1的相似度是85%,与领域2的相似度为60%,与领域3相似度为35%,那么就这三种领域而言我们会将这个企业分类到领域1中,但是也会给出这个企业与其他所有领域的相似度值以供参考。表1为对华为的企业介绍文档进行领域分类得出的结果。
表1华为与不同企业领域的相似度
企业领域 相似度
电气自动化 20%
电子信息 80%
化工 10%
金属材料 0%
生物制药 10%
(3)目标企业标签词提取
在步骤(2)的文本分类完毕之后,针对这个企业为它提取出最适合它的标签词。为企业提取标签词的做法与为企业领域训练分类词典原理相似,但是TF-IDF算法略有不同。首先对统计目标文本预处理过后得到的每一个词的词频TF及词性并过滤掉非名词的词,然后针对目标文本被分到的企业领域所有企业的文本,统计目标文本词集中每一个词分别在多少篇其它企业文档中出现过,并通过这个计数得出每一个词的IDF,进而计算出每一个词的TF-IDF权重,并进行权重排序,最后得到的词权重越大就说明这个词形成的标签越能代表这个企业在这一领域中的自身特色。标签词提取示例如图5。
具体计算步骤如下:
Figure GDA0001831688950000071
式(1)中,fic代表了词语ti在目标企业所有文档集合Pc中的出现次数,∑cfic是目标企业所有文档集合Pc中所有词语的总数。由上述可以看出,fic与∑cfic的比值越大,说明这个词在这个企业文档中的重要性就越高。
Figure GDA0001831688950000072
M是目标企业被分类到的企业领域中所有企业文档数目,DFi代表了这些文档中包含了词语ti的文档数目。如果词语ti在这个领域的企业文档中普遍出现,DFi就接近M,IDFi就接近0,即如果词语ti在其中出现并不普遍,那么IDF的值也就越大。
式(7)为词语ti的TF-IDF权重计算的数学表达式:
TF-IDFi=TFij*IDFi (7)
如式(7),TF-IDF的值为TF与IDF的乘积,TF越大,IDF越小,TF-IDF的值就越大,代表这个词语在目标企业文档里的重要程度越高,并进行权重排序,最后得到的词权重越大就说明这个词形成的标签越能代表这个企业在这一领域中的自身特色。
图6为针对华为进行的标签词提取结果。

Claims (3)

1.一种企业领域分类及企业关键词筛选方法,其特征在于,该方法包括如下步骤:
(1)对企业文档语料库进行训练,建立所有企业领域的分类词典;
(2)根据步骤(1)得到的企业领域分类词典,对目标企业进行领域分类;
(3)根据步骤(2)得到的目标企业的领域分类,提取该目标企业的企业标签;
步骤(1)中,建立所有企业领域的分类词典方法如下:
(1.1)对所有企业领域的训练语料库中的文档进行文本预处理,得到所有企业领域所对应的词语,并记录词语的词性;
(1.2)计算企业领域dj词语的词频TFij
Figure FDA0003985406220000011
式(1)中,fij代表了词语ti在企业领域dj的所有文档中的出现次数,∑jfij是目标企业领域dj中所有文档的所有词语的总数;
(1.3)计算企业领域dj词语的逆向文档频率IDFi
Figure FDA0003985406220000012
其中,N是所有领域语料库中所有企业文档数目,即总语料库,DFi代表了总语料库中包含了词语ti的文档数目;
(1.4)引入方差因子,其计算方法如下:
Figure FDA0003985406220000013
式(3)中,VARi代表词语ti的方差因子,K是企业领域的总数量,DF(i,j)是在企业领域dj中包含了词语ti的文档数量,DFj是企业领域dj中所有文档数量,DFC(i,j)为DF(i,j)与DFj的商,即对DF(i,j)的归一化操作,
Figure FDA0003985406220000014
是每一个企业领域包含了词语ti的文档数量的平均值;
(1.5)计算企业领域dj所有词语的权重
TF-IDFi=VARi*TFij*IDFi (4)
对步骤(1.5)计算得到企业领域dj词语的TF-IDF权重进行排序,去掉其中所有词性不是名词的词语,得到筛选过后的新的词表,并取新词表中权重前Num%的词语作为候选关键词,进一步过滤与企业领域无关的噪声词,得到企业领域dj的分类词典,根据上述方法计算所有企业领域的分类词典;
步骤(3)中,企业标签词提取方法如下:
(3.1)对目标企业的文档进行预处理,得到与目标企业相关的所有词语;
(3.2)计算目标企业所有词语的词频TFic
Figure FDA0003985406220000021
式(5)中,fic代表了词语ti在待处理的目标企业所有文档集合Pc中的出现次数,∑cfic是目标企业所有文档集合Pc中所有词语的总数;
(3.3)计算目标企业所有词语的逆向文档频率IDFi
Figure FDA0003985406220000022
其中,M是目标企业被分类到的企业领域中所有企业文档数目,DFi代表了这些文档中包含了词语ti的文档数目;
(3.4)计算目标企业词语ti权重:
TF-IDFi=TFic*IDFi (7)
根据公式(7)计算目标企业所有词语的权重,并进行权重排序,选择权重最大的词语作为企业标签词。
2.根据权利要求1所述的一种企业领域分类及企业关键词筛选方法,其特征在于,步骤(2)中,目标企业领域分类方法如下:将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较,比较目标企业的词集合与每一个企业领域分类词典的词集合相似度,取相似度最大的企业领域作为目标企业的所属领域。
3.根据权利要求2所述的一种企业领域分类及企业关键词筛选方法,其特征在于,所述相似度计算方法为:目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。
CN201810563448.2A 2018-06-04 2018-06-04 一种企业领域分类及企业关键词筛选方法 Active CN109101477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810563448.2A CN109101477B (zh) 2018-06-04 2018-06-04 一种企业领域分类及企业关键词筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810563448.2A CN109101477B (zh) 2018-06-04 2018-06-04 一种企业领域分类及企业关键词筛选方法

Publications (2)

Publication Number Publication Date
CN109101477A CN109101477A (zh) 2018-12-28
CN109101477B true CN109101477B (zh) 2023-01-31

Family

ID=64796668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810563448.2A Active CN109101477B (zh) 2018-06-04 2018-06-04 一种企业领域分类及企业关键词筛选方法

Country Status (1)

Country Link
CN (1) CN109101477B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059311B (zh) * 2019-03-27 2023-04-28 银江技术股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110222174B (zh) * 2019-05-20 2020-08-11 北京语言大学 一种基于词条作品热度构建分类分级词表的方法及系统
CN112069288A (zh) * 2019-05-23 2020-12-11 中国移动通信集团河南有限公司 数据的处理方法、装置和电子设备
CN110287321A (zh) * 2019-06-26 2019-09-27 南京邮电大学 一种基于改进特征选择的电力文本分类方法
CN111209397B (zh) * 2019-12-30 2020-09-08 中伯伦(北京)信息技术有限公司 一种确定企业产业类别的方法
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN113378556B (zh) * 2020-02-25 2023-07-14 华为技术有限公司 提取文本关键字的方法及装置
CN111753525B (zh) * 2020-05-21 2023-11-10 浙江口碑网络技术有限公司 文本分类方法、装置及设备
CN111625578B (zh) * 2020-05-26 2023-12-08 辽宁大学 适用于文化科技融合领域时间序列数据的特征提取方法
CN111767716A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112784040B (zh) * 2020-12-08 2023-02-28 国网甘肃省电力公司信息通信公司 基于语料库的垂直行业文本分类方法
CN112579772A (zh) * 2020-12-14 2021-03-30 上海明略人工智能(集团)有限公司 基于企业简介文本抽取企业标签的方法及系统
CN113065343B (zh) * 2021-03-25 2022-06-10 天津大学 一种基于语义的企业研发资源信息建模方法
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN114331686A (zh) * 2021-12-30 2022-04-12 鲁信科技股份有限公司 一种基于标签的不良资产管理方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义相似度的关键词生成在企业搜索引擎营销中应用;刘俊;《电脑知识与技术》;20080523(第14期);第1-2页 *

Also Published As

Publication number Publication date
CN109101477A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
Liu et al. Research of text classification based on improved TF-IDF algorithm
Taj et al. Sentiment analysis of news articles: a lexicon based approach
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN107463616B (zh) 一种企业信息分析方法及系统
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN109033132B (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN112989802A (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN112686043A (zh) 一种基于词向量的企业所属新兴产业分类方法
Gao et al. Sentiment classification for stock news
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
Li et al. A discriminative approach to sentiment classification
Tian et al. Research of product ranking technology based on opinion mining
Özyirmidokuz Mining unstructured Turkish economy news articles
Yafoz et al. Towards Analysing the Sentiments in the Field of Automobile with Specific Focus on Arabic Language Text.
Chen et al. Research and Implementation of Automatic Indexing Method of PDF for Digital Publishing
Jin et al. Micro-blog short text clustering algorithm based on bootstrapping
Ying et al. Language model passage retrieval for question-oriented multi document summarization
Alharithi Performance Analysis of Machine Learning Approaches in Automatic Classification of Arabic Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant