CN105512245A - 一种基于回归模型建立企业画像的方法 - Google Patents
一种基于回归模型建立企业画像的方法 Download PDFInfo
- Publication number
- CN105512245A CN105512245A CN201510862236.0A CN201510862236A CN105512245A CN 105512245 A CN105512245 A CN 105512245A CN 201510862236 A CN201510862236 A CN 201510862236A CN 105512245 A CN105512245 A CN 105512245A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- regression model
- label
- text
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012896 Statistical algorithm Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 230000019771 cognition Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于回归模型建立企业画像的方法,包括从互联网采集企业相关的网络数据并进行预处理,获得各企业的网络文本集及由文本特征词构成的特征词库;基于隐狄雷克雷分布算法从网络文本集中获得各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率;基于预先构建的领域知识库进行特征词扩展;根据预先建立的画像标签体系,建立回归模型,并进行参数训练;基于已训练好的回归模型,获取目标企业的画像标签;以上述画像标签为主,上述代表性特征词为辅,生成企业画像。该方法充分利用社会情报文本的潜在语义信息,弥补传统企业画像方法的不足,丰富企业网络形象层次,从多粒度勾勒网民对企业的认知感。该方法准确度高、易于实现、易于扩展,具有良好的运用前景和可观的市场价值。
Description
技术领域
本发明涉及模式识别领域技术领域,具体地说,涉及一种基于回归模型建立企业画像的方法。
背景技术
随着移动互联网、物联网等新技术的迅速发展,人类进入数据时代。过去由媒体垄断的传播资源,今天被数以亿计的个体所分享;传播速度以秒传计;组织传播与个体传播、媒体传播与自媒体传播在不断融合与分化的状态中推动企业舆情的发展。
企业形象和声誉在互联网上以碎片化方式呈现。如何从全媒体海量数据中获得企业在网民中的认知度,绘制出全面的企业网络形象,建立企业的画像,成为企业迫切需求。
发明内容
为了解决上述问题,本发明提供一种基于回归模型建立企业画像的方法,其具体的技术方案如下:
一种基于回归模型建立企业画像的方法,该方法包括以下步骤:
步骤一、获取企业的代表性特征词,具体步骤如下:
S1:从互联网采集企业的企业舆情相关数据并进行预处理,获得企业的网络文本集及由文本特征词构成的特征词库;
S2:基于隐狄雷克雷分布算法从网络文本集中获得企业舆情相关数据的主题分布概率,及各个特征词属于某一主题的后验概率;
S3:基于预先构建的领域知识库进行特征词扩展;
步骤二、获取企业的画像标签,具体包括,建立画像标签体系及回归模型,选取企业样本,根据画像标签体系对回归模型进行参数训练;并基于已训练好的回归模型,获取目标企业的画像标签;
步骤三、以步骤二获取的画像标签为主,步骤一获取的代表性特征词为辅,生成企业画像。
进一步,步骤S1中,按如下步骤进行:
1)企业舆情相关数据采集,包括新闻、微博、微信、论坛多通道社会情报;
2)基于XPATH或者正则表达式的方法将文本中包含的非文本数据和冗余信息删除,获得各企业的结构化的网络文本集;
3)对特定企业相关的网络文本进行分词处理,利用统计算法从分词结果中获取各企业相关网络数据的文本特征词。
进一步,步骤S2中,按如下步骤进行:
1)基于预先构建的与企业领域相关的自定义词典,对企业相关的网络文本进行分词处理,利用统计算法从分词结果中获取各企业相关网络数据的文本特征词;
2)将分词后的文本转化为词的向量空间表示,生成稀疏矩阵,同时创建:一个字典(wordIndex,word),一个词频数统计表(wordIndex,count),以及一个文档频率表(wordIndex,DFCount);
3)索引创建,将字符串转换为数字编号,生成docIndex,即文档索引<文档id,文档名>,以及数字化的矩阵,即<文档id,文档名:{词汇id:tfidf列表}>;
4)设定隐含主题数、迭代次数运行算法,生成隐狄雷克雷分布算法模型;
5)利用生成的隐狄雷克雷分布算法模型推导出各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率。
进一步,步骤S3中,领域知识库的构建过程如下:
1)数据采集:从特定领域的百科网站和专业字典网站获取所有领域词条页面信息与领域词条数据;
2)信息抽取:从领域百科获取的领域词条页面信息中抽取领域词条的相关信息(包括:词条标题、词条分类、词条推荐、同义词、近义词等);
3)百科词条关系构建:构建百科词条的正向及反向关系,即依据百科网站的词条的相关词条获得与相关词条相关的词条集合;
4)领域知识集成:依据词条名称将源于不同领域百科网站的词条进行合并和去重,将百科网站的数据集成结果与领域专业字典获得的词汇进行合并和去重。
进一步,步骤S3中,特征词的扩展过程如下:
1)基于步骤S2输出结果中选取高概率主题的代表性特征词;
2)再基于预先构建的领域知识库进行同义词、近义词、关联词扩展,从语义上对主题包含的特征词进行扩展,从而丰富企业特征词。
进一步,步骤二中,所述回归画像标签体系的建立过程为:
1)数据采集:从特定领域的百科网站获取领域词条页面信息;
2)信息抽取:从领域词条页面信息中抽取领域词条的标签数据(包括:词条分类、段落标题、词条属性等);
3)标签融合:将源于不同领域百科网站的词条标签进行合并和去重;
4)人工校准:由领域专家对融合后的标签进行过滤和梳理,构建领域画像标签体系。
进一步,步骤二中,所述回归模型为:
其中,因变量Y=(y0,...,ym)T为画像标签概率,yi∈[0,1],m为画像标签的个数,自变量X=(xc,...,xn)T为目标企业相关网络文本的主题分布概率,xi∈[0,1],n为主题的个数,为回归系数矩阵,为残差矩阵。
进一步,步骤二中,所述回归模型的训练方法为:
根据预先建立画像标签体系,选取部分企业的网络数据进行人工标注,获取这些企业的画像标签Y=(y0,...,ym)T,yi∈{0,1},其中yi=1表示企业具有该标签,yi=0表示企业不具有该标签。对应于公式(1),以这些企业的主题概率分布作为自变量,以标注的画像标签为因变量,拟合求解回归系数和残差
进一步,基于回归模型的画像标签获取方法为:以目标企业的主题概率分布作为自变量,输入到训练好的回归模型,得到其画像标签概率Y=(y0,...,ym)T,若yi≥0.5,则判定企业具有该标签,否则判定企业不具有该标签。
本发明所提供的一种基于回归模型建立企业画像的方法,具有以下优点:
本发明提出了基于回归模型对企业舆情进行建模实施企业画像的方法,是一种基于主题概率分布实施企业画像方法。传统的企业画像方法采用统计的方法提取高频词汇作为画像标签,忽略文本的潜在语义信息。而基于回归模型的企业画像方法,是利用文本自身潜在语义作为特征,不依赖于孤立词语相似度对比,具有更好的通用性与易用性,能够更好的表达出文本潜在语义结构,从而达到更好的企业画像效果。
本发明依据新闻、微博、微信、论坛多通道数据,挖掘网络文本潜在语义信息,分层次多粒度勾勒企业网络形象特征,为企业观察、理解和应对复杂的舆论生态环境提供了工具和条件,具有良好的运用前景和可观的市场价值。
附图说明
图1是本发明方法的流程图。
图2是本发明方法的实现流程图。
图3是根据本发明实施企业画像效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的一种基于回归模型建立企业画像的方法作进一步详细的说明。
本发明所提出的一种基于回归模型建立企业画像的方法包括以下步骤:
步骤1,从互联网采集企业相关的网络数据并进行预处理,获得各企业的网络文本集及由文本特征词构成的特征词库。
互联网产生了海量的企业相关的异构文本数据(新闻、博客、论坛、微薄、微信等全媒体数据),这些文本基本都是半结构HTML格式,且包含大量的非文本数据,需要将这些无用信息过滤掉。采用基于XPATH或者正则表达式的方法将这些信息从每个文本中删除,统一处理为结构化信息,且每家企业信息融合在一起。以青岛知名企业为例,总计采集1000家青岛企业相关的网络数据,将这些半结构HTML数据结构化信息清洗与整理后,获得各企业的网络文本集;
基于预先构建的与企业领域相关的自定义词典,对特定企业相关的网络文本进行分词处理,利用统计算法从分词结果中获取各企业相关网络数据的文本特征词。
步骤2,基于隐狄雷克雷分布算法从网络文本集中获得各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率。
将分词后的文本转化为词的向量空间表示,生成稀疏矩阵,同时创建:一个字典(wordIndex,word),一个词频数统计表(wordIndex,count),以及一个文档频率表(wordIndex,DFCount),并基于最大的文档频率DF百分比移除高频语汇;
为了方便计算,进行索引创建,将字符串转换为数字编号,生成docIndex,即文档索引<文档id,文档名>,以及数字化的矩阵,即<文档id,文档名:{词汇id:tfidf列表}>;
设定隐含主题数、迭代次数运行算法,生成隐狄雷克雷分布算法模型;
利用生成的隐狄雷克雷分布算法模型推导出各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率,例如:topic_0
家电[p(家电|topic_0)]=0.155923
智能[p(智能|topic_0)]=0.078596
物流[p(物流|topic_0)]=0.006325
步骤3,基于预先构建的领域知识库进行特征词扩展。
领域知识库是基于领域百科以及领域专业字典构建的,构建过程如下所述:
数据采集:从特定领域的百科网站和专业字典网站获取所有领域词条页面信息与领域词条数据;
信息抽取:从领域百科获取的领域词条页面信息中抽取领域词条的相关信息(包括:词条标题、词条分类、词条推荐、同义词、近义词等);
百科词条关系构建:构建百科词条的正向及反向关系,即依据百科网站的词条的相关词条获得与相关词条相关的词条集合;
领域知识集成:依据词条名称将源于不同领域百科网站的词条进行合并和去重,将百科网站的数据集成结果与领域专业字典获得的词汇进行合并和去重。
构建完成领域知识库后,可以进行特征词扩展,具体步骤如下:
首先,基于步骤2输出结果中选取高概率主题的代表性特征词,再基于预先构建的领域知识库进行同义词、近义词、关联词扩展,从语义上对主题包含的特征词进行扩展,从而丰富企业特征词。
步骤4,本发明利用Logistic回归模型建立企业网络文本的主题概率分布X和企业画像标签Y的回归关系,从而估计企业的画像标签。所述Logistic回归模型用公式可表示为:
其中,为回归系数矩阵,为残差矩阵。
随机从1000家企业中选取100家,根据预先建立画像标签体系(d0,...,dm)T,
对这些企业的网络数据进行人工标注,获取企业画像标签Y=(y0,...,ym)T。其中yi∈{0,1}与di一一对应,yi=1表示企业具有标签di,yi=0表示企业不具有该标签di。以这些企业的主题概率分布作为自变量,以标注的画像标签为因变量,通过最大似然估计法求解回归系数
步骤5,对未被人工标注的其余900家企业,依次选择其一作为目标企业,以目标企业的主题概率分布作为自变量,输入到训练好的回归模型,得到其画像标签概率Y=(y0,...,ym)T,若yi≥0.5,则判定该企业具有标签di,否则判定该企业不具有标签di。
步骤6,以步骤5获取的画像标签为主,步骤3获取的代表性特征词为辅,生成企业画像,如图3可以看到青岛海尔的企业画像。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于回归模型建立企业画像的方法,其特征在于,该方法包括以下步骤:
步骤一、获取企业的代表性特征词,具体步骤如下:
S1:从互联网采集企业的企业舆情相关数据并进行预处理,获得企业的网络文本集及由文本特征词构成的特征词库;
S2:基于隐狄雷克雷分布算法从网络文本集中获得企业舆情相关数据的主题分布概率,及各个特征词属于某一主题的后验概率;
S2:基于预先构建的领域知识库进行特征词扩展;
步骤二、获取企业的画像标签,具体包括,建立画像标签体系及回归模型,选取企业样本,根据画像标签体系对回归模型进行参数训练;并基于已训练好的回归模型,获取目标企业的画像标签;
步骤三、以步骤二获取的画像标签为主,步骤一获取的代表性特征词为辅,生成企业画像。
2.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤S1中,按如下步骤进行:
1)企业舆情相关数据采集,包括新闻、微博、微信、论坛多通道社会情报;
2)基于XPATH或者正则表达式的方法将文本中包含的非文本数据和冗余信息删除,获得各企业的结构化的网络文本集;
3)对特定企业相关的网络文本进行分词处理,利用统计算法从分词结果中获取各企业相关网络数据的文本特征词。
3.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤S2中,按如下步骤进行:
1)基于预先构建的与企业领域相关的自定义词典,对企业相关的网络文本进行分词处理,利用统计算法从分词结果中获取各企业相关网络数据的文本特征词;
2)将分词后的文本转化为词的向量空间表示,生成稀疏矩阵,同时创建:一个字典(wordIndex,word),一个词频数统计表(wordIndex,count),以及一个文档频率表(wordIndex,DFCount);
3)索引创建,将字符串转换为数字编号,生成docIndex,即文档索引<文档id,文档名>,以及数字化的矩阵,即<文档id,文档名:{词汇id:tfidf列表}>;
4)设定隐含主题数、迭代次数运行算法,生成隐狄雷克雷分布算法模型;
5)利用生成的隐狄雷克雷分布算法模型推导出各企业网络数据的主题分布概率,及各个特征词属于某一主题的后验概率。
4.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤S3中,领域知识库的构建过程如下:
1)数据采集:从特定领域的百科网站和专业字典网站获取所有领域词条页面信息与领域词条数据;
2)信息抽取:从领域百科获取的领域词条页面信息中抽取领域词条的相关信息(包括:词条标题、词条分类、词条推荐、同义词、近义词等);
3)百科词条关系构建:构建百科词条的正向及反向关系,即依据百科网站的词条的相关词条获得与相关词条相关的词条集合;
4)领域知识集成:依据词条名称将源于不同领域百科网站的词条进行合并和去重,将百科网站的数据集成结果与领域专业字典获得的词汇进行合并和去重。
5.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤S3中,特征词的扩展过程如下:
1)基于步骤S2输出结果中选取高概率主题的代表性特征词;
2)再基于预先构建的领域知识库进行同义词、近义词、关联词扩展,从语义上对主题包含的特征词进行扩展,从而丰富企业特征词。
6.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤二中,所述画像标签体系的建立过程为:
1)数据采集:从特定领域的百科网站获取领域词条页面信息;
2)信息抽取:从领域词条页面信息中抽取领域词条的标签数据(包括:词条分类、段落标题、词条属性等);
3)标签融合:将源于不同领域百科网站的词条标签进行合并和去重;
4)人工校准:由领域专家对融合后的标签进行过滤和梳理,构建领域画像标签体系。
7.根据权利要求1所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤二中,所述回归模型为:
其中,因变量Y=(y0,…,ym)T为画像标签概率,yi∈[0,1],m为画像标签的个数,自变量X=(x0,…,xn)T为目标企业相关网络文本的主题分布概率,xi∈[0,1],n为主题的个数,为回归系数矩阵,为残差矩阵。
8.根据权利要求6所述的一种基于回归模型建立企业画像的方法,其特征在于,步骤二中,所述回归模型的训练方法为:
根据预先建立画像标签体系,选取部分企业的网络数据进行人工标注,获取这些企业的画像标签Y=(y0,…,ym)T,yi∈{0,1},其中yi=1表示企业具有该标签,yi=0表示企业不具有该标签。对应于公式(1),以这些企业的主题概率分布作为自变量,以标注的画像标签为因变量,拟合求解回归系数和残差
9.根据权利要求7所述的一种基于回归模型建立企业画像的方法,其特征在于,基于回归模型的画像标签获取方法为:以目标企业的主题概率分布作为自变量,输入到训练好的回归模型,得到其画像标签概率Y=(y0,…,ym)T,若yi≥0.5,则判定企业具有该标签,否则判定企业不具有该标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510862236.0A CN105512245B (zh) | 2015-11-30 | 2015-11-30 | 一种基于回归模型建立企业画像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510862236.0A CN105512245B (zh) | 2015-11-30 | 2015-11-30 | 一种基于回归模型建立企业画像的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512245A true CN105512245A (zh) | 2016-04-20 |
CN105512245B CN105512245B (zh) | 2018-08-21 |
Family
ID=55720227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510862236.0A Active CN105512245B (zh) | 2015-11-30 | 2015-11-30 | 一种基于回归模型建立企业画像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512245B (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824806A (zh) * | 2016-06-13 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 一种公众账号的质量评价方法和装置 |
CN106339806A (zh) * | 2016-08-24 | 2017-01-18 | 北京创业公社征信服务有限公司 | 一种面向企业信息的行业全息画像构建方法及系统 |
CN106934712A (zh) * | 2017-03-16 | 2017-07-07 | 深圳微众税银信息服务有限公司 | 一种企业画像数据处理方法及系统 |
CN107093115A (zh) * | 2017-05-10 | 2017-08-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
CN107239564A (zh) * | 2017-06-13 | 2017-10-10 | 南京大学 | 一种基于监督主题模型的文本标签推荐方法 |
CN107247701A (zh) * | 2017-05-04 | 2017-10-13 | 厦门快商通科技股份有限公司 | 用于语料库的主题聚类模型构建系统及其构建方法 |
CN107248023A (zh) * | 2017-05-16 | 2017-10-13 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN107291812A (zh) * | 2017-05-18 | 2017-10-24 | 辛柯俊 | 一种对企业信息中自然语义的专家学习拟合方法及系统 |
CN107341142A (zh) * | 2017-05-18 | 2017-11-10 | 辛柯俊 | 一种基于关键词提取分析的企业关系计算方法及系统 |
CN107578292A (zh) * | 2017-09-19 | 2018-01-12 | 上海财经大学 | 一种用户画像构建系统 |
CN107918644A (zh) * | 2017-10-31 | 2018-04-17 | 北京锐思爱特咨询股份有限公司 | 声誉管理框架内的新闻议题分析方法和实施系统 |
CN108038490A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于互联网数据的p2p企业自动识别方法与系统 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108335165A (zh) * | 2017-02-10 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 兴趣标签确定方法和装置 |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108563722A (zh) * | 2018-04-03 | 2018-09-21 | 有米科技股份有限公司 | 文本信息的行业分类方法、系统、计算机设备和存储介质 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN108932530A (zh) * | 2018-06-29 | 2018-12-04 | 新华三大数据技术有限公司 | 标签体系的构建方法及装置 |
CN109165373A (zh) * | 2018-09-14 | 2019-01-08 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109345117A (zh) * | 2018-09-30 | 2019-02-15 | 北京工业大学 | 一种多维数据驱动的交通运输主体综合画像方法 |
CN109460895A (zh) * | 2018-09-28 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 构建社会单位画像的方法及系统 |
CN109783471A (zh) * | 2018-12-14 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 企业画像小程序化方法、装置、计算机设备及存储介质 |
CN109993644A (zh) * | 2017-12-29 | 2019-07-09 | 航天信息股份有限公司 | 一种画像确定方法、装置、电子设备及存储介质 |
CN111311463A (zh) * | 2020-01-15 | 2020-06-19 | 深圳市华傲数据技术有限公司 | 基于数据标签建立人口画像的数据处理方法及系统 |
CN111815173A (zh) * | 2020-07-10 | 2020-10-23 | 东软集团(上海)有限公司 | 一种基于关联规则的企业画像评估方法 |
CN111858930A (zh) * | 2020-07-06 | 2020-10-30 | 东南数字经济发展研究院 | 一种社交电商用户画像的建立方法 |
CN112307768A (zh) * | 2019-07-25 | 2021-02-02 | 北京知元创通信息技术有限公司 | 一种面向人工智能科技企业的情报监控方法 |
CN112465315A (zh) * | 2020-11-16 | 2021-03-09 | 福建亿榕信息技术有限公司 | 一种画像方法及系统 |
CN112580332A (zh) * | 2020-11-19 | 2021-03-30 | 淮阴工学院 | 一种基于标签分层延深建模的企业画像方法 |
CN112579772A (zh) * | 2020-12-14 | 2021-03-30 | 上海明略人工智能(集团)有限公司 | 基于企业简介文本抽取企业标签的方法及系统 |
CN113761331A (zh) * | 2020-11-04 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 用户画像构建方法、装置、电子设备及存储介质 |
CN114817516A (zh) * | 2022-04-26 | 2022-07-29 | 国家计算机网络与信息安全管理中心 | 零样本条件下基于逆向匹配的画像映射方法、装置和介质 |
CN114971744A (zh) * | 2022-07-07 | 2022-08-30 | 北京淇瑀信息科技有限公司 | 一种依据稀疏矩阵的用户画像确定方法及装置 |
CN115600945A (zh) * | 2022-09-07 | 2023-01-13 | 淮阴工学院(Cn) | 基于多粒度的冷链配载用户画像构建方法及装置 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115952259A (zh) * | 2023-03-14 | 2023-04-11 | 深圳市迪博企业风险管理技术有限公司 | 一种企业画像标签智能生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN104217296A (zh) * | 2014-09-15 | 2014-12-17 | 国家电网公司 | 一种上市公司绩效综合评价方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104657425A (zh) * | 2014-10-06 | 2015-05-27 | 中华电信股份有限公司 | 一种议题管理式网络舆情评价管理系统与方法 |
US9141916B1 (en) * | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
-
2015
- 2015-11-30 CN CN201510862236.0A patent/CN105512245B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
US9141916B1 (en) * | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104217296A (zh) * | 2014-09-15 | 2014-12-17 | 国家电网公司 | 一种上市公司绩效综合评价方法 |
CN104657425A (zh) * | 2014-10-06 | 2015-05-27 | 中华电信股份有限公司 | 一种议题管理式网络舆情评价管理系统与方法 |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824806A (zh) * | 2016-06-13 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 一种公众账号的质量评价方法和装置 |
CN105824806B (zh) * | 2016-06-13 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 一种公众账号的质量评价方法和装置 |
CN106339806A (zh) * | 2016-08-24 | 2017-01-18 | 北京创业公社征信服务有限公司 | 一种面向企业信息的行业全息画像构建方法及系统 |
CN108335165A (zh) * | 2017-02-10 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 兴趣标签确定方法和装置 |
US11226991B2 (en) | 2017-02-10 | 2022-01-18 | Tencent Technology (Shenzhen) Company Limited | Interest tag determining method, computer device, and storage medium |
CN108335165B (zh) * | 2017-02-10 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 兴趣标签确定方法和装置 |
CN108572967B (zh) * | 2017-03-09 | 2022-03-15 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN106934712A (zh) * | 2017-03-16 | 2017-07-07 | 深圳微众税银信息服务有限公司 | 一种企业画像数据处理方法及系统 |
CN107247701A (zh) * | 2017-05-04 | 2017-10-13 | 厦门快商通科技股份有限公司 | 用于语料库的主题聚类模型构建系统及其构建方法 |
CN107093115B (zh) * | 2017-05-10 | 2021-05-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
CN107093115A (zh) * | 2017-05-10 | 2017-08-25 | 杭州纸箱哥文化传播有限公司 | 一种精准营销的广告纸箱定制方法及系统 |
CN107248023B (zh) * | 2017-05-16 | 2020-09-25 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN107248023A (zh) * | 2017-05-16 | 2017-10-13 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN107341142B (zh) * | 2017-05-18 | 2020-08-21 | 辛柯俊 | 一种基于关键词提取分析的企业关系计算方法及系统 |
CN107291812A (zh) * | 2017-05-18 | 2017-10-24 | 辛柯俊 | 一种对企业信息中自然语义的专家学习拟合方法及系统 |
CN107341142A (zh) * | 2017-05-18 | 2017-11-10 | 辛柯俊 | 一种基于关键词提取分析的企业关系计算方法及系统 |
CN107239564A (zh) * | 2017-06-13 | 2017-10-10 | 南京大学 | 一种基于监督主题模型的文本标签推荐方法 |
CN107239564B (zh) * | 2017-06-13 | 2021-03-19 | 南京大学 | 一种基于监督主题模型的文本标签推荐方法 |
CN107578292B (zh) * | 2017-09-19 | 2020-10-16 | 上海财经大学 | 一种用户画像构建系统 |
CN107578292A (zh) * | 2017-09-19 | 2018-01-12 | 上海财经大学 | 一种用户画像构建系统 |
CN108038490A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于互联网数据的p2p企业自动识别方法与系统 |
CN107918644A (zh) * | 2017-10-31 | 2018-04-17 | 北京锐思爱特咨询股份有限公司 | 声誉管理框架内的新闻议题分析方法和实施系统 |
CN109993644A (zh) * | 2017-12-29 | 2019-07-09 | 航天信息股份有限公司 | 一种画像确定方法、装置、电子设备及存储介质 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108509569A (zh) * | 2018-03-26 | 2018-09-07 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108509569B (zh) * | 2018-03-26 | 2022-06-03 | 河北省科学院应用数学研究所 | 企业画像的生成方法、装置、电子设备以及存储介质 |
CN108563722A (zh) * | 2018-04-03 | 2018-09-21 | 有米科技股份有限公司 | 文本信息的行业分类方法、系统、计算机设备和存储介质 |
CN108932530A (zh) * | 2018-06-29 | 2018-12-04 | 新华三大数据技术有限公司 | 标签体系的构建方法及装置 |
CN109165373A (zh) * | 2018-09-14 | 2019-01-08 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109460895A (zh) * | 2018-09-28 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 构建社会单位画像的方法及系统 |
CN109345117A (zh) * | 2018-09-30 | 2019-02-15 | 北京工业大学 | 一种多维数据驱动的交通运输主体综合画像方法 |
CN109345117B (zh) * | 2018-09-30 | 2022-02-08 | 北京工业大学 | 一种多维数据驱动的交通运输主体综合画像方法 |
CN109783471A (zh) * | 2018-12-14 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 企业画像小程序化方法、装置、计算机设备及存储介质 |
CN112307768A (zh) * | 2019-07-25 | 2021-02-02 | 北京知元创通信息技术有限公司 | 一种面向人工智能科技企业的情报监控方法 |
CN111311463A (zh) * | 2020-01-15 | 2020-06-19 | 深圳市华傲数据技术有限公司 | 基于数据标签建立人口画像的数据处理方法及系统 |
CN111858930A (zh) * | 2020-07-06 | 2020-10-30 | 东南数字经济发展研究院 | 一种社交电商用户画像的建立方法 |
CN111815173A (zh) * | 2020-07-10 | 2020-10-23 | 东软集团(上海)有限公司 | 一种基于关联规则的企业画像评估方法 |
CN113761331A (zh) * | 2020-11-04 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 用户画像构建方法、装置、电子设备及存储介质 |
CN112465315A (zh) * | 2020-11-16 | 2021-03-09 | 福建亿榕信息技术有限公司 | 一种画像方法及系统 |
CN112580332A (zh) * | 2020-11-19 | 2021-03-30 | 淮阴工学院 | 一种基于标签分层延深建模的企业画像方法 |
CN112580332B (zh) * | 2020-11-19 | 2022-07-12 | 淮阴工学院 | 一种基于标签分层延深建模的企业画像方法 |
CN112579772A (zh) * | 2020-12-14 | 2021-03-30 | 上海明略人工智能(集团)有限公司 | 基于企业简介文本抽取企业标签的方法及系统 |
CN114817516A (zh) * | 2022-04-26 | 2022-07-29 | 国家计算机网络与信息安全管理中心 | 零样本条件下基于逆向匹配的画像映射方法、装置和介质 |
CN114817516B (zh) * | 2022-04-26 | 2024-08-09 | 国家计算机网络与信息安全管理中心 | 零样本条件下基于逆向匹配的画像映射方法、装置和介质 |
CN114971744A (zh) * | 2022-07-07 | 2022-08-30 | 北京淇瑀信息科技有限公司 | 一种依据稀疏矩阵的用户画像确定方法及装置 |
CN114971744B (zh) * | 2022-07-07 | 2022-11-15 | 北京淇瑀信息科技有限公司 | 一种依据稀疏矩阵的用户画像确定方法及装置 |
CN115600945A (zh) * | 2022-09-07 | 2023-01-13 | 淮阴工学院(Cn) | 基于多粒度的冷链配载用户画像构建方法及装置 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115952259A (zh) * | 2023-03-14 | 2023-04-11 | 深圳市迪博企业风险管理技术有限公司 | 一种企业画像标签智能生成方法 |
CN115952259B (zh) * | 2023-03-14 | 2023-05-12 | 深圳市迪博企业风险管理技术有限公司 | 一种企业画像标签智能生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105512245B (zh) | 2018-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512245B (zh) | 一种基于回归模型建立企业画像的方法 | |
Saberi et al. | Sentiment analysis or opinion mining: A review | |
Wu et al. | Structured microblog sentiment classification via social context regularization | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
Laskari et al. | Aspect based sentiment analysis survey | |
CN106294863A (zh) | 一种针对海量文本快速理解的文摘方法 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Nicoletti et al. | Mining interests for user profiling in electronic conversations | |
Saju et al. | A survey on efficient extraction of named entities from new domains using big data analytics | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Nahar et al. | Sentiment analysis and emotion extraction: A review of research paradigm | |
Maree et al. | Semantic graph based term expansion for sentence-level sentiment analysis | |
Vīksna et al. | Sentiment analysis in Latvian and Russian: A survey | |
Ihnaini et al. | Lexicon-based sentiment analysis of arabic tweets: A survey | |
Dorle et al. | Sentiment analysis methods and approach: Survey | |
BARANOWSKI et al. | Good and bad sociology: does topic modelling make a difference? | |
Abuteir et al. | Automatic sarcasm detection in Arabic text: A supervised classification approach | |
Alorini et al. | Machine learning enabled sentiment index estimation using social media big data | |
Sirsat et al. | Efficient Dataset Preparation Techniques for Regional/Marathi Language Analysis: Creating Customized Dataset for Regional Language/Marathi Language Text Analysis | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
Al-Buraihy et al. | An Ml-based classification scheme for analyzing the social network reviews of yemeni people. | |
Manasa et al. | A Study on Sentiment Analysis on Social Media Data | |
CN108256055B (zh) | 一种基于数据增强的主题建模方法 | |
Anley et al. | Opinion Mining of Tourists' Sentiments: Towards a Comprehensive Service Improvement of Tourism Industry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |