CN105243389A - 公司名称的行业分类标签的确定方法和装置 - Google Patents

公司名称的行业分类标签的确定方法和装置 Download PDF

Info

Publication number
CN105243389A
CN105243389A CN201510629694.XA CN201510629694A CN105243389A CN 105243389 A CN105243389 A CN 105243389A CN 201510629694 A CN201510629694 A CN 201510629694A CN 105243389 A CN105243389 A CN 105243389A
Authority
CN
China
Prior art keywords
business name
feature words
probability
sample data
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510629694.XA
Other languages
English (en)
Inventor
王宏坤
李增涛
严巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Original Assignee
BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd filed Critical BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Priority to CN201510629694.XA priority Critical patent/CN105243389A/zh
Publication of CN105243389A publication Critical patent/CN105243389A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种公司名称的行业分类标签的确定方法和装置,其中,该方法包括:获取待分类的公司名称,提取待分类的公司名称中的特征词;根据预先分类训练得到的公司名称分类模型,确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率;根据各第一概率,确定待分类的公司名称的行业分类标签。实现了在需要了解大量的公司所属于的行业类别的时候,可以通过本发明提供的方法获知公司名称的行业分类标签,实现自动的确定公司名称的行业分类标签的效果,提高获取行业分类标签的效率,有助于根据公司名称的行业分类标签,向各个公司推荐与其相关的业务。

Description

公司名称的行业分类标签的确定方法和装置
技术领域
本发明涉及数据处理技术,尤其涉及一种公司名称的行业分类标签的确定方法和装置。
背景技术
公司名称可以在一定程度上反映出这个公司的经验范围以及行业分类,从而可以根据公司名称向该公司推荐与其相关业务。
现有技术中,只能根据公司的公司名称,随机的确定与这个公司名称对应的行业分类标签。这样随机的确定与这个公司名称对应的行业分类标签,准确率较低,不利于根据该公司的行业分类标签,向这个公司推荐与其相关业务。
发明内容
本发明提供一种公司名称的行业分类标签的确定方法和装置,用以解决现有技术中确定与这个公司名称对应的行业分类标签,准确率较低,不利于根据该公司的行业分类标签,向这个公司推荐与其相关业务的问题。
本发明的一方面是提供一种公司名称的行业分类标签的确定方法,包括:
获取待分类的公司名称,提取所述待分类的公司名称中的特征词;
根据预先分类训练得到的公司名称分类模型,确定所述特征词对应的各第一概率,所述各第一概率表征了特征词属于各行业分类标签的概率;
根据所述各第一概率,确定所述待分类的公司名称的行业分类标签。
本发明的另一方面是提供一种公司名称的行业分类标签的确定装置,包括:
第一获取模块,用于获取待分类的公司名称,提取所述待分类的公司名称中的特征词;
概率确定模块,用于根据预先分类训练得到的公司名称分类模型,确定所述特征词对应的各第一概率,所述各第一概率表征了特征词属于各行业分类标签的概率;
分类确定模块,用于根据所述各第一概率,确定所述待分类的公司名称的行业分类标签。
本发明的技术效果是:通过获取待分类的公司名称,提取待分类的公司名称中的特征词;根据预先分类训练得到的公司名称分类模型,确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率;根据各第一概率,确定待分类的公司名称的行业分类标签。从而通过确定公司名称与行业分类标签之间的关系,实现了在需要了解大量的公司所属于的行业类别的时候,可以通过本发明提供的方法获知公司名称的行业分类标签,可以有效的提高了获取行业分类标签的准确率,有助于根据公司名称的行业分类标签,向各个公司推荐与其相关的业务。
附图说明
图1为本发明实施例一提供的公司名称的行业分类标签的确定方法的流程图;
图2为本发明实施例二提供的公司名称的行业分类标签的确定方法的流程图;
图3为本发明实施例三提供的公司名称的行业分类标签的确定装置的结构示意图;
图4为本发明实施例四提供的公司名称的行业分类标签的确定装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的公司名称的行业分类标签的确定方法的流程图,如图1所示,本实施例的方法包括:
步骤101、获取待分类的公司名称,提取待分类的公司名称中的特征词。
在本实施例中,具体的,获取待分类的公司名称,对待分类的公司名称进行分词处理,可以得到待分类的公司名称中的特征词。例如,待分类的公司名称为“北京某某科技有限公司”,可以得到特征词“北京”、“科技”和“公司”。
步骤102、根据预先分类训练得到的公司名称分类模型,确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率。
在本实施例中,具体的,将步骤101中提取的待分类的公司名称中的特征词,输入到预先分类训练而得到的公司名称分类模型中,可以得到特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率,各行业分类标签不相同。
步骤103、根据各第一概率,确定待分类的公司名称的行业分类标签。
在本实施例中,具体的,由于步骤102中确定了特征词分别属于多个不同行业分类标签的第一概率,可以选取第一概率的值较大的几个行业分类标签,作为待分类的公司名称的行业分类标签。
本实施例通过提取待分类的公司名称中的特征词,将特征词输入到预先分类训练得到的公司名称分类模型中,可以确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率;并且可以根据各第一概率,确定待分类的公司名称的行业分类标签。从而通过确定公司名称与行业分类标签之间的关系,实现了在需要了解大量的公司所属于的行业类别的时候,可以通过本发明提供的方法获知公司名称的行业分类标签,实现自动的确定公司名称的行业分类标签的效果,提高获取行业分类标签的效率,有助于根据公司名称的行业分类标签,向各个公司推荐与其相关的业务。
图2为本发明实施例二提供的公司名称的行业分类标签的确定方法的流程图,在实施例一的基础上,如图2所示,本实施例的方法中,在步骤101之前,还包括:
步骤201、获取训练样本数据,训练样本数据中包括公司名称、以及与公司名称对应的行业分类标签。
在本实施例中,具体的,获取训练样本数据,训练样本数据有不同的公司名称、以及与公司名称对应的该行业分类标签构成。一个公司名称的行业分类标签可以是一个,也可以是多个。例如,公司名称为“北京橙鑫数据科技有限公司”,与它对应的行业分类标签为“科技”;公司名称为“民生银行”,与它对应的行业分类标签为“银行”和“金融”。
步骤202、提取训练样本数据中的公司名称的特征词。
在本实施例中,具体的,首先过滤掉公司名称中的标点符号等无用字符,统一格式,可以采用正则表达式去除公司名称中的标点符号等无用字符;然后对训练样本数据中的各公司名称进行分词处理,提取各个公司名称中的特征词,从而可以到由至少一个特征词构成的各公司名称。例如,提取公司名称为“北京橙鑫数据科技有限公司”中的特征词,特征词为“北京”、“橙鑫”、“数据”、“科技”和“公司”;提取公司名称为“民生银行”中的特征词,特征词为“民生”和“银行”;提取公司名称为“某某快捷酒店”中的特征词,特征词为“快捷”和“酒店”。
步骤203、根据提取了特征词的训练样本数据对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。
在本实施例中,具体的,根据步骤202中提取的各公司名称中的各特征词,以及与各公司名称对应的各行业分类标签,建立公司名称分类模型,对公司名称分类模进行分类训练,寻找到特征词与行业分类标签之间的规律,可以确定出训练样本数据中的特征词属于不同的行业分类标签的第二概率。
在对大量公司进行行业归类的过程中,可以发现多数公司名称中存在反映该公司的行业分类标签的关键词,或领域相关词语。因此,可以将公司名称作为样本,通过公司名称获取特征词,从而将特征词和行业分类标签作为训练集,根据大量的特征词与行业分类标签之间的关系,建立公司名称分类模,可以确定出各个特征词属于各个行业分类标签的概率。例如,当公司名称中出现“基金”、“资本”等词语时,该公司的行业分类标签多为“基金/证券/期货/投资”;当公司名称中出现“酒店”、“宾馆”等词语时,该公司的行业分类标签多为“酒店/餐饮”、“旅游/度假”。
本实施例通过根据训练样本数据,对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。从而为待分类的公司名称去确定行业分类标签,提供一个成熟的公司名称分类模型,提供一个确定公司名称的行业分类标签的客观依据。
进一步的,在上述实施例的基础上,在步骤202之后,还包括:
确定训练样本数据中的各特征词的出现次数;
根据训练样本数据中的各特征词的出现次数,去除训练样本数据中出现次数小于预设出现次数的特征词;
根据预设的特征词表,去除训练样本数据中与特征词表中的特征词相同的特征词,其中,特征词表中包括了至少一个特征词。
在本实施例中,具体的,在提取到了训练样本数据中的各公司名称中的特征词之后,得到的每一个公司名称为D=(W1,W2,…,Wi,…,Wn),其中Wi为一个特征词,n为正整数,i为大于0且小于等于n的正整数;首先确定每一个特征词的出现次数,然后去除掉所有特征词中出现次数小于预设出现次数的特征词。例如,提取公司名称为“北京橙鑫数据科技有限公司”中的特征词,特征词为“北京”、“橙鑫”、“数据”、“科技”和“公司”,去除其中的特征词“橙鑫”。
预先建立一个预设的特征词表,预设的特征词表中包括了至少一个特征词,去除训练样本数据中的特征词里面与特征词表中的停用词相同的特征词,处理后的公司名称为D′=(W′1,W′2,…,W′j,…,W′k),其中W′j为一个特征词,k为正整数,j为大于0且小于等于k的正整数。例如,提取公司名称为“北京橙鑫数据科技有限公司”中的特征词,去除了出现次数小于预设出现次数的特征词“橙鑫”后,剩余的特征词为“北京”、“数据”、“科技”和“公司”,根据预设停用词表去除其中的特征词“北京”、“公司”。
从而可以将经过以上处理过的特征词,输入到预先分类训练而得到的公司名称分类模型中,可以得到特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率,各行业分类标签不相同。
同时,在步骤101之后,还包括:根据训练样本数据中的各特征词的出现次数,去除待分类的公司名称中出现次数小于预设出现次数的特征词;根据预设的特征词表,去除待分类的公司名称中与特征词表中的特征词相同的特征词。从而可以将经过处理的待分类的公司名称中的特征词,输入到预先分类训练得到的公司名称分类模型,去确定待分类的公司名称的行业分类标签。
本实施方式通过提取了各公司名称中的特征词之后,先去除出现次数小于预设出现次数的特征词,并去除与预设特征词表中的特征词相同的特征词,然后再根据处理后的各特征词,建立公司名称分类模型,得到各特征词属于各行业分类标签的第一概率;从而可以减少多余的特征词,提高确定待分类的公司名称的行业分类标签的效率。
在上述实施例的基础上,步骤103,具体包括:
按照各第一概率的降序对各行业分类标签进行排序,确定待分类的公司名称的行业分类标签,其中,待分类的公司名称的行业分类标签为排名为前N位的行业分类标签,N为大于等于1的正整数。
在本实施方式中,具体的,将待分类的公司名称中的特征词,输入到预设的公司名称分类模型中,预设的公司名称分类模型可以根据各特征词属于各行业分类标签的第二概率,得到待分类的公司名称属于各行业分类标签的第一概率。
然后对第一概率的大小进行降序的排序,从可以根据各第一概率的降序对各行业分类标签进行排序,取排名前N位的行业分类标签作为待分类的公司名称的行业分类标签,其中,N为大于等于1的正整数。或者,首先设定一个概率阈值,取与概率值超过概率阈值的第一概率对应的行业分类标签,作为待分类的公司名称的行业分类标签。
进一步的,在上述实施例的基础上,公司名称分类模型是朴素贝叶斯模型、或逻辑回归模型、或支持向量机模型。
图3为本发明实施例三提供的公司名称的行业分类标签的确定装置的结构示意图,如图3所示,本实施例的公司名称的行业分类标签的确定装置,包括:
第一获取模块31,用于获取待分类的公司名称,提取待分类的公司名称中的特征词;
概率确定模块32,用于根据预先分类训练得到的公司名称分类模型,确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率;
分类确定模块33,用于根据各第一概率,确定待分类的公司名称的行业分类标签。
本实施例的公司名称的行业分类标签的确定装置可执行本发明实施例一提供的公司名称的行业分类标签的确定方法,其实现原理相类似,此处不再赘述。
本实施例通过提取待分类的公司名称中的特征词,将特征词输入到预先分类训练得到的公司名称分类模型中,可以确定特征词对应的各第一概率,各第一概率表征了特征词属于各行业分类标签的概率;并且可以根据各第一概率,确定待分类的公司名称的行业分类标签。从而通过确定公司名称与行业分类标签之间的关系,实现了在需要了解大量的公司所属于的行业类别的时候,可以通过本发明提供的方法获知公司名称的行业分类标签,实现自动的确定公司名称的行业分类标签的效果,提高获取行业分类标签的效率,有助于根据公司名称的行业分类标签,向各个公司推荐与其相关的业务。
图4为本发明实施例四提供的公司名称的行业分类标签的确定装置的结构示意图,在实施例三的基础上,如图4所示,本实施例的公司名称的行业分类标签的确定装置,还包括:
第二获取模块41,用于在第一获取模块31获取待分类的公司名称之前,获取训练样本数据,训练样本数据中包括公司名称、以及与公司名称对应的行业分类标签;
提取模块42,用于提取训练样本数据中的公司名称的特征词;
训练模块43,用于根据提取了特征词的训练样本数据对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。
还包括:
次数确定模块44,用于在提取模块42提取训练样本数据中的公司名称的特征词,确定训练样本数据中的各特征词的出现次数;
第一去除模块45,用于根据训练样本数据中的各特征词的出现次数,去除训练样本数据中出现次数小于预设出现次数的特征词;
第二去除模块46,用于根据预设的特征词表,去除训练样本数据中与特征词表中的特征词相同的特征词,其中,特征词表中包括了至少一个特征词。
其中,实施例三中的分类确定模块33,具体用于:按照各第一概率的降序对各行业分类标签进行排序,确定待分类的公司名称的行业分类标签,其中,待分类的公司名称的行业分类标签为排名为前N位的行业分类标签,N为大于等于1的正整数。
并且,公司名称分类模型是朴素贝叶斯模型、或逻辑回归模型、或支持向量机模型。
本实施例的公司名称的行业分类标签的确定装置可执行本发明实施例二提供的公司名称的行业分类标签的确定方法,其实现原理相类似,此处不再赘述。
本实施例通过根据训练样本数据,对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。从而为待分类的公司名称去确定行业分类标签,提供一个成熟的公司名称分类模型,提供一个确定公司名称的行业分类标签的客观依据。并且通过提取了各公司名称中的特征词之后,先去除出现次数小于预设出现次数的特征词,并去除与预设特征词表中的特征词相同的特征词,然后再根据处理后的各特征词,建立公司名称分类模型,得到各特征词属于各行业分类标签的第一概率;从而可以减少多余的特征词,提高确定待分类的公司名称的行业分类标签的效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种公司名称的行业分类标签的确定方法,其特征在于,包括:
获取待分类的公司名称,提取所述待分类的公司名称中的特征词;
根据预先分类训练得到的公司名称分类模型,确定所述特征词对应的各第一概率,所述各第一概率表征了特征词属于各行业分类标签的概率;
根据所述各第一概率,确定所述待分类的公司名称的行业分类标签。
2.根据权利要求1所述的方法,其特征在于,在所述获取待分类的公司名称之前,还包括:
获取训练样本数据,所述训练样本数据中包括公司名称、以及与公司名称对应的行业分类标签;
提取所述训练样本数据中的公司名称的特征词;
根据提取了特征词的训练样本数据对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,所述各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。
3.根据权利要求2所述的方法,其特征在于,在提取所述训练样本数据中的公司名称的特征词之后,还包括:
确定所述训练样本数据中的各特征词的出现次数;
根据所述训练样本数据中的各特征词的出现次数,去除所述训练样本数据中出现次数小于预设出现次数的特征词;
根据预设的特征词表,去除所述训练样本数据中与所述特征词表中的特征词相同的特征词,其中,所述特征词表中包括了至少一个特征词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述各第一概率,确定所述待分类的公司名称的行业分类标签,包括:
按照各所述第一概率的降序对各所述行业分类标签进行排序,确定所述待分类的公司名称的行业分类标签,其中,所述待分类的公司名称的行业分类标签为排名为前N位的行业分类标签,N为大于等于1的正整数。
5.根据权利要求1-4任一所述的方法,其特征在于,所述公司名称分类模型是朴素贝叶斯模型、或逻辑回归模型、或支持向量机模型。
6.一种公司名称的行业分类标签的确定装置,其特征在于,包括:
第一获取模块,用于获取待分类的公司名称,提取所述待分类的公司名称中的特征词;
概率确定模块,用于根据预先分类训练得到的公司名称分类模型,确定所述特征词对应的各第一概率,所述各第一概率表征了特征词属于各行业分类标签的概率;
分类确定模块,用于根据所述各第一概率,确定所述待分类的公司名称的行业分类标签。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二获取模块,用于在所述第一获取模块获取待分类的公司名称之前,获取训练样本数据,所述训练样本数据中包括公司名称、以及与公司名称对应的行业分类标签;
提取模块,用于提取所述训练样本数据中的公司名称的特征词;
训练模块,用于根据提取了特征词的训练样本数据对公司名称分类模型进行分类训练,得到训练样本数据中的特征词对应的各第二概率,所述各第二概率表征了训练样本数据中的特征词属于各行业分类标签的概率。
8.根据权利要求7所述的装置,其特征在于,还包括:
次数确定模块,用于在所述提取模块提取训练样本数据中的公司名称的特征词,确定所述训练样本数据中的各特征词的出现次数;
第一去除模块,用于根据所述训练样本数据中的各特征词的出现次数,去除所述训练样本数据中出现次数小于预设出现次数的特征词;
第二去除模块,用于根据预设的特征词表,去除所述训练样本数据中与所述特征词表中的特征词相同的特征词,其中,所述特征词表中包括了至少一个特征词。
9.根据权利要求6所述的装置,其特征在于,所述分类确定模块,具体用于:
按照各所述第一概率的降序对各所述行业分类标签进行排序,确定所述待分类的公司名称的行业分类标签,其中,所述待分类的公司名称的行业分类标签为排名为前N位的行业分类标签,N为大于等于1的正整数。
10.根据权利要求6-9任一所述的装置,其特征在于,所述公司名称分类模型是朴素贝叶斯模型、或逻辑回归模型、或支持向量机模型。
CN201510629694.XA 2015-09-28 2015-09-28 公司名称的行业分类标签的确定方法和装置 Pending CN105243389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510629694.XA CN105243389A (zh) 2015-09-28 2015-09-28 公司名称的行业分类标签的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510629694.XA CN105243389A (zh) 2015-09-28 2015-09-28 公司名称的行业分类标签的确定方法和装置

Publications (1)

Publication Number Publication Date
CN105243389A true CN105243389A (zh) 2016-01-13

Family

ID=55041030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510629694.XA Pending CN105243389A (zh) 2015-09-28 2015-09-28 公司名称的行业分类标签的确定方法和装置

Country Status (1)

Country Link
CN (1) CN105243389A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017129033A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 一种问题推荐方法及设备
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN107688609A (zh) * 2017-07-31 2018-02-13 北京拉勾科技有限公司 一种职位标签推荐方法和计算设备
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108038490A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于互联网数据的p2p企业自动识别方法与系统
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108733828A (zh) * 2018-05-24 2018-11-02 北京金堤科技有限公司 公司名称的提取方法、装置和计算机可读介质
CN109271460A (zh) * 2018-09-29 2019-01-25 阿里巴巴集团控股有限公司 对电子平台中的商户进行分类的方法和装置
CN109800769A (zh) * 2018-12-20 2019-05-24 平安科技(深圳)有限公司 产品分类控制方法、装置、计算机设备及存储介质
CN109992603A (zh) * 2019-04-04 2019-07-09 北京金堤科技有限公司 一种数据搜索方法、装置、电子设备和计算机可读介质
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN112597284A (zh) * 2021-03-08 2021-04-02 中邮消费金融有限公司 公司名称的匹配方法、装置、计算机设备及存储介质
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN113360652A (zh) * 2021-06-07 2021-09-07 深圳供电局有限公司 一种企业级电力用户智能分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN104268292A (zh) * 2014-10-23 2015-01-07 广州索答信息科技有限公司 画像系统的标签词库更新方法
CN104809109A (zh) * 2014-01-23 2015-07-29 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN104809109A (zh) * 2014-01-23 2015-07-29 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器
CN104268292A (zh) * 2014-10-23 2015-01-07 广州索答信息科技有限公司 画像系统的标签词库更新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘春等: "基于关键词规则匹配的企业客户行业分类研究", 《广东通信技术》 *
杨小明: "电子地图兴趣点分类自动标注算法研究", 《网络安全技术与应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
TWI772287B (zh) * 2016-01-29 2022-08-01 香港商阿里巴巴集團服務有限公司 問題推薦方法及設備
WO2017129033A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 一种问题推荐方法及设备
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN107291911B (zh) * 2017-06-26 2020-01-21 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN107402984B (zh) * 2017-07-11 2018-11-20 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN107402984A (zh) * 2017-07-11 2017-11-28 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN107688609A (zh) * 2017-07-31 2018-02-13 北京拉勾科技有限公司 一种职位标签推荐方法和计算设备
CN108038490A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于互联网数据的p2p企业自动识别方法与系统
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108009228B (zh) * 2017-11-27 2020-10-09 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108733828A (zh) * 2018-05-24 2018-11-02 北京金堤科技有限公司 公司名称的提取方法、装置和计算机可读介质
CN109271460A (zh) * 2018-09-29 2019-01-25 阿里巴巴集团控股有限公司 对电子平台中的商户进行分类的方法和装置
CN109271460B (zh) * 2018-09-29 2021-09-03 创新先进技术有限公司 对电子平台中的商户进行分类的方法和装置
CN109800769A (zh) * 2018-12-20 2019-05-24 平安科技(深圳)有限公司 产品分类控制方法、装置、计算机设备及存储介质
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN109992603A (zh) * 2019-04-04 2019-07-09 北京金堤科技有限公司 一种数据搜索方法、装置、电子设备和计算机可读介质
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN112988699B (zh) * 2019-12-02 2022-04-26 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN112597284A (zh) * 2021-03-08 2021-04-02 中邮消费金融有限公司 公司名称的匹配方法、装置、计算机设备及存储介质
CN112597284B (zh) * 2021-03-08 2021-06-15 中邮消费金融有限公司 公司名称的匹配方法、装置、计算机设备及存储介质
CN113360652A (zh) * 2021-06-07 2021-09-07 深圳供电局有限公司 一种企业级电力用户智能分类方法及装置
CN113360652B (zh) * 2021-06-07 2024-03-01 深圳供电局有限公司 一种企业级电力用户智能分类方法及装置

Similar Documents

Publication Publication Date Title
CN105243389A (zh) 公司名称的行业分类标签的确定方法和装置
Taj et al. Sentiment analysis of news articles: a lexicon based approach
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN111125354A (zh) 文本分类方法及装置
CN104915327A (zh) 一种文本信息的处理方法及装置
CN108520030B (zh) 文本分类方法、文本分类系统及计算机装置
CN111191022B (zh) 商品短标题生成方法及装置
CN110019792A (zh) 文本分类方法及装置和分类器模型训练方法
CN111858843B (zh) 一种文本分类方法及装置
WO2015170191A2 (en) Method and apparatus for screening promotion keywords
CN109189767A (zh) 数据处理方法、装置、电子设备及存储介质
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
CN103886077B (zh) 短文本的聚类方法和系统
CN110533018A (zh) 一种图像的分类方法及装置
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
Chumwatana Using sentiment analysis technique for analyzing Thai customer satisfaction from social media
CN107862051A (zh) 一种文件分类方法、系统及一种文件分类设备
CN104360993A (zh) 一种从文本提取所需内容的方法
CN114297388A (zh) 一种文本关键词提取方法
CN111930937A (zh) 基于bert的智慧政务文本多分类方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
CN111027282A (zh) 文本去重方法和装置、电子设备及计算机可读存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Acs et al. Hunaccent: Small footprint diacritic restoration for social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160113