CN106777335A - 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 - Google Patents

一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 Download PDF

Info

Publication number
CN106777335A
CN106777335A CN201710024097.3A CN201710024097A CN106777335A CN 106777335 A CN106777335 A CN 106777335A CN 201710024097 A CN201710024097 A CN 201710024097A CN 106777335 A CN106777335 A CN 106777335A
Authority
CN
China
Prior art keywords
tag
company
data
lstm
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710024097.3A
Other languages
English (en)
Inventor
彭燕虹
潘嵘
周赖靖竞
李锐章
林泽琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipin Information Technology Co Ltd
Original Assignee
Shenzhen Ipin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipin Information Technology Co Ltd filed Critical Shenzhen Ipin Information Technology Co Ltd
Priority to CN201710024097.3A priority Critical patent/CN106777335A/zh
Publication of CN106777335A publication Critical patent/CN106777335A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于长短期记忆(LSTM)模型的多标签行业分类方法及装置,其方法包括:采集公司名、公司描述、公司经营范围数据;按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;利用基于LSTM的多标签行业分类模型自动实现对待分类公司的多个行业标签预测。本发明的实施可大大降低人工标注成本,提高分类精度,且符合大多数公司非单一行业,而具有多个行业属性的情况。

Description

一种基于长短期记忆(LSTM)模型的多标签行业分类方法及 装置
技术领域
本发明涉及一种数据处理方法,更具体的,涉及一种基于LSTM的多标签行业分类方法及装置。
背景技术
现有的行业分类主要采用包括人工方法标注公司行业类别,制定行业分类规则以判断公司行业或传统分类方法(如支持向量机/决策树等方法)来实现,存在以下问题:
(1)人工方法:行业知识存在知识壁垒,需要大量行业专家参与才能有效完成标注,耗费大量人力/物力;
(2)规则方法:公司数量庞大,很难兼顾所有公司特征制定行业分类规则;新公司层出不穷,难以及时更新;制定规则需要大量人员参与,实现难度高;
(3)传统分类方法:需要进行特征提取处理,处理后文档损失信息,容易导致分类精度降低。
人工方法和规则方法均需要大量人员参与才得以实现,不仅无法应对庞大的公司数量,也难以适应时代的发展;而对于传统分类方法而言,其不考虑原始文本中各个词汇的上下文顺序,直接通过将文档中的词映射为向量来计算是否归属于某一个行业,但在进行文档向量表示前,需要进行特征提取的预处理工作。以采用卡方检验特征选择方法为例,其通过计算各个词基于各个行业类别的卡方值,以确定是否保留某个词作为行业特征词,一旦特征词选择过少,各个行业类别的特征数量随之变少,所训练的行业分类器无法有效应对更多不同词汇表达的公司描述/公司经营范围,因而无法准确判断新公司行业类别;一旦特征词选择过多,文档向量维数过大且稀疏,需要耗费较多的存储空间和计算资源,分类效率低下,而且更容易出现过拟合,分类精度降低。
同时,当前的行业分类主要集中于单标签行业分类,即一个公司仅标注一个行业。然而,随着公司的不断发展,许多公司朝向多元化业务发展,涉及多个行业,单标签行业分类很难描述公司真实的行业分布。
发明内容
本发明旨在解决现有技术中存在的技术问题,基于长短时记忆Long Short Term(简称LSTM)的多标签行业分类模型,仅需输入公司名、公司描述、公司经营范围,即可得到该公司的多个行业标签,大大降低人工标注成本,提高分类精度,且符合大多数公司非单一行业,而具有多个行业属性的情况。
为实现上述目的,本发明提供了一种基于长短期记忆(LSTM)模型的多标签行业分类方法,该方法包括如下步骤:
步骤1,采集公司名、公司描述、公司经营范围数据;
步骤2,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
步骤3,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
步骤4,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
步骤5,利用基于LSTM模型的多标签行业分类模型自动实现对待分类公司的多个行业标签预测。
更具体的,所述步骤2具体包括:
根据预先分类训练得到测试集;
对所述采集的公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
更具体的,所述步骤3具体包括:利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用LSTM模型构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
更具体的,所述步骤4还包括:设置F1值,如果测试集的值大于等于所述F1值,则进行步骤5;如果测试集的值小于所述F1值,则回到步骤3,如此往复循环。
更具体的,所述步骤5中的待分类公司通过用户输入公司名、公司描述、公司经营范围实现。
根据本发明的另一方面,还提供了一种基于LSTM模型的多标签行业分类装置,该装置包括:
采集模块,采集公司名、公司描述、公司经营范围数据;
预处理模块,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
分类训练模块,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
分类测试评估模块,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
输入模块,用于用户输入待分类公司的公司名、公司描述、公司经营范围数据;
分类预测模块,利用基于LSTM模型的多标签行业分类模型自动实现对于待分类公司的多个行业标签预测。
更具体的,所述预处理模块具体用于:
根据预先分类规则训练得到测试集;
对所述公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
更具体的,所述分类训练模块具体用于:
利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用LSTM模型构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
更具体的,所述分类预测模块中的所述待分类公司通过用户输入待分类公司的公司名、公司描述、公司经营范围实现。
本发明基于神经网络模型LSTM,并将其转化为多标签分类问题,来实现对于公司名、公司描述、经营范围的多标签分类,提高了过去行业分类采用传统分类方法所带来的效率低下,精度不足的问题,同时能够实现全自动多标签分类,无需耗费人力,且无需提前明确各个公司所标注行业标签个数,更好地满足行业分类应用需要。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明一种基于LSTM的多标签行业分类方法的流程图;
图2示出了本发明一实施例的基于LSTM的多标签行业分类方法的流程图。
图3示出了根据本发明一种基于LSTM的多标签行业分类装置的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
为了更好的说明本发明的方案,下面将结合说明书附图进行说明。
图1示出了根据本发明一种基于LSTM的多标签行业分类方法的流程图。
如图1所示,根据本发明的一种基于长短期记忆(LSTM)模型的多标签行业分类方法,该方法包括如下步骤:
步骤1,采集公司名、公司描述、公司经营范围数据;
步骤2,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作。
具体来说,先根据预先分类训练得到测试集,然后对所述采集的公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
步骤3,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型。
具体来说,该步骤利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用长短期记忆LSTM(Long Short-Term Memory)模型构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
步骤4,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型。
具体的来说,设置F1值,如果测试集的值大于等于所述F1值,则认为训练完成,进行步骤5;如果测试集的值小于所述F1值,则判定为训练尚未完成,回到步骤3,继续进行分类训练,如此往复循环,直到训练出精度更高的多标签行业分类模型。
步骤5,利用基于LSTM模型的多标签行业分类模型自动实现对待分类公司的多个行业标签预测。
更具体的,所述步骤5中的待分类公司通过用户输入公司名、公司描述、公司经营范围实现。
图2示出了本发明一实施例的基于LSTM的多标签行业分类方法的流程图。
如图2所示,采集公司名、公司描述、公司经营范围数据;根据预先分类训练得到测试集,然后对所述采集的公司名称、公司描述、公司经营范围数据进行数据的预处理,采用自然语言处理方法进行分词处理;采用LSTM构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;设置F1值,如果测试集的值大于等于所述F1值,则认为训练完成,用户输入公司名、公司描述、公司经营范围,利用基于LSTM模型的多标签行业分类模型自动实现对输入的待分类公司的多个行业标签预测;如果测试集的值小于所述F1值,则判定为训练尚未完成,则继续进行LSTM模型的分类训练,如此往复循环。
图3示出了根据本发明一种基于LSTM模型的多标签行业分类装置的框图。
如图3所示,该装置包括:采集模块、预处理模块、分类训练模块、分类测试评估模块、分类预测模块
采集模块,采集公司名、公司描述、公司经营范围数据;
预处理模块,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
分类训练模块,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
分类测试评估模块,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
输入模块,用于用户输入待分类公司的公司名、公司描述、公司经营范围数据。
分类预测模块,利用基于LSTM模型的多标签行业分类模型自动实现对于待分类公司的多个行业标签预测。
更具体的,所述预处理模块具体用于:
根据预先分类规则训练得到测试集;
对所述公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
更具体的,所述分类训练模块具体用于:
利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用LSTM构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
更具体的,所述分类预测模块中的所述待分类公司通过用户输入待分类公司的公司名、公司描述、公司经营范围实现。
LSTM模型是一种长短时记忆神经网络模型,可以用于连接先前的信息到当前的任务上,并且学习长期依赖信息,即能记住前面时间节点的信息,不致于出现后面时间的节点对于前面时间的节点感知力下降的情况。利用LSTM模型来训练行业分类器,不再需要进行特征提取的预处理操作,不会产生因为特征提取而带来的问题,而且其能够有效利用公司描述/公司经营范围中各个词汇之间的词序信息,理解不同语境下各个词汇的真实含义,通过不断循环学习网络中的信息,从而实现有效分类。传统方法仅给每一个公司在多个行业中寻找到一个行业,基于LSTM模型的多标签行业分类,在结果预测环节,实现多个二分类器,对于每一个公司在每一个行业上均预测是否能被划分为该行业,此方法无需人工明确每一个公司所应该标注的行业个数,能够实现自动判断每个公司所应该划分的行业个数,符合现实需要。
本发明就是采用了性能表现优的长短时记忆神经网络模型LSTM,此种模型能有效感知公司名+公司描述+经营范围文档描述中从前往后的语义信息以及词序信息,更好地理解文档真实含义,并且以每个公司的多个行业标签作为多个二分类寻优方向,最终训练出精度更高的多标签行业分类模型。
本发明的实施提高了过去行业分类采用传统分类方法所带来的效率低下,精度不足的问题,同时能够实现全自动多标签分类,无需耗费人力,且无需提前明确各个公司所标注行业标签个数,更好地满足行业分类应用需要。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于长短期记忆(LSTM)模型的多标签行业分类方法,其特征在于,包括如下步骤:
步骤1,采集公司名、公司描述、公司经营范围数据;
步骤2,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
步骤3,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
步骤4,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
步骤5,利用基于LSTM模型的多标签行业分类模型自动实现对待分类公司的多个行业标签预测。
2.根据权利要求1所述的一种基于LSTM模型的多标签行业分类方法,其特征在于,
所述步骤2具体包括:
根据预先分类训练得到测试集;
对所述采集的公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
3.根据权利要求1所述的一种基于LSTM模型的多标签行业分类方法,其特征在于,所述步骤3具体包括:利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用LSTM构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
4.根据权利要求1所述的一种基于LSTM模型的多标签行业分类方法,其特征在于,
所述步骤4还包括:设置F1值,如果测试集的值大于等于所述F1值,则进行步骤5;如果测试集的值小于所述F1值,则回到步骤3,如此往复循环。
5.根据权利要求1所述的一种基于LSTM模型的多标签行业分类方法,其特征在于,所述步骤5中的待分类公司通过用户输入公司名、公司描述、公司经营范围实现。
6.一种基于长短期记忆(LSTM)模型的多标签行业分类装置,其特征在于,该装置包括:
采集模块,采集公司名、公司描述、公司经营范围数据;
预处理模块,按类划分测试集,以及对所述采集的数据进行切分词等预处理操作;
分类训练模块,采用LSTM模型构建多个二分类器对所述预处理后的数据进行分类训练,以训练数据真实标签作为寻优方向,训练出多标签行业分类模型;
分类测试评估模块,以精度、召回率和F1值作为评估指标,实现对测试集数据的自动评估,并采集小部分新公司数据抽样进行人工评估,最终训练出精度更高的多标签行业分类模型;
输入模块,用于用户输入待分类公司的公司名、公司描述、公司经营范围数据;
分类预测模块,利用基于LSTM的多标签行业分类模型自动实现对于待分类公司的多个行业标签预测。
7.根据权利要求6所述的一种基于LSTM模型的多标签行业分类装置,其特征在于,
所述预处理模块具体用于:
根据预先分类规则训练得到测试集;
对所述公司名称、公司描述、公司经营范围数据采用自然语言处理方法进行分词处理。
8.根据权利要求6所述的一种基于LSTM模型的多标签行业分类装置,其特征在于,所述分类训练模块具体用于:
利用分词后的词汇从前往后的语义信息以及词序信息,理解不同语境下各个词汇的真实含义,采用LSTM构建多个二分类器,并且以每个公司的多个行业标签作为多个二分类寻优方向,通过不断循环学习网络中的信息,对每一个公司在每一个行业上均预测是否能被划分为该行业,从而实现有效分类。
CN201710024097.3A 2017-01-13 2017-01-13 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 Pending CN106777335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710024097.3A CN106777335A (zh) 2017-01-13 2017-01-13 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710024097.3A CN106777335A (zh) 2017-01-13 2017-01-13 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置

Publications (1)

Publication Number Publication Date
CN106777335A true CN106777335A (zh) 2017-05-31

Family

ID=58948316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710024097.3A Pending CN106777335A (zh) 2017-01-13 2017-01-13 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置

Country Status (1)

Country Link
CN (1) CN106777335A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及系统
CN108053251A (zh) * 2017-12-18 2018-05-18 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108932322A (zh) * 2018-06-29 2018-12-04 北京大学 一种基于文本大数据的地理语义挖掘方法
CN109359197A (zh) * 2018-10-31 2019-02-19 税友软件集团股份有限公司 一种税费种类认证方法、装置和计算机可读存储介质
CN109710838A (zh) * 2018-12-05 2019-05-03 厦门笨鸟电子商务有限公司 一种基于深度神经网络的公司网站关键词提取方法
CN109816442A (zh) * 2019-01-16 2019-05-28 四川驹马科技有限公司 一种基于特征标签的多维度运费预测方法及其系统
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN110134966A (zh) * 2019-05-21 2019-08-16 中电健康云科技有限公司 一种敏感信息确定方法及装置
CN110245226A (zh) * 2018-10-23 2019-09-17 爱信诺征信有限公司 企业行业分类方法及其装置
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111507371A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 方法和装置
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN113139066A (zh) * 2021-04-28 2021-07-20 安徽智侒信信息技术有限公司 一种基于自然语言处理技术的公司产业链节点匹配方法
CN116681185A (zh) * 2023-07-28 2023-09-01 北京智芯微电子科技有限公司 负荷预测方法、装置和芯片设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
US20150170001A1 (en) * 2013-09-16 2015-06-18 Google Inc. Training image sampling
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
US20150170001A1 (en) * 2013-09-16 2015-06-18 Google Inc. Training image sampling
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及系统
CN108053251A (zh) * 2017-12-18 2018-05-18 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108053251B (zh) * 2017-12-18 2021-03-02 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108932322A (zh) * 2018-06-29 2018-12-04 北京大学 一种基于文本大数据的地理语义挖掘方法
CN110245226A (zh) * 2018-10-23 2019-09-17 爱信诺征信有限公司 企业行业分类方法及其装置
CN109359197B (zh) * 2018-10-31 2021-01-05 税友软件集团股份有限公司 一种税费种类认证方法、装置和计算机可读存储介质
CN109359197A (zh) * 2018-10-31 2019-02-19 税友软件集团股份有限公司 一种税费种类认证方法、装置和计算机可读存储介质
CN109710838A (zh) * 2018-12-05 2019-05-03 厦门笨鸟电子商务有限公司 一种基于深度神经网络的公司网站关键词提取方法
CN109710838B (zh) * 2018-12-05 2021-02-26 厦门笨鸟电子商务有限公司 一种基于深度神经网络的公司网站关键词提取方法
CN109816442A (zh) * 2019-01-16 2019-05-28 四川驹马科技有限公司 一种基于特征标签的多维度运费预测方法及其系统
CN111507371A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 方法和装置
CN111507371B (zh) * 2019-01-31 2023-12-19 斯特拉德视觉公司 自动评估对训练图像的标签可靠性的方法和装置
CN110059692A (zh) * 2019-04-16 2019-07-26 厦门商集网络科技有限责任公司 一种识别企业所属行业的方法及终端
CN110134966A (zh) * 2019-05-21 2019-08-16 中电健康云科技有限公司 一种敏感信息确定方法及装置
CN111191001A (zh) * 2019-12-23 2020-05-22 浙江大胜达包装股份有限公司 一种面向纸包装及其相关行业的企业多元标签标识方法
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN113139066A (zh) * 2021-04-28 2021-07-20 安徽智侒信信息技术有限公司 一种基于自然语言处理技术的公司产业链节点匹配方法
CN116681185A (zh) * 2023-07-28 2023-09-01 北京智芯微电子科技有限公司 负荷预测方法、装置和芯片设备
CN116681185B (zh) * 2023-07-28 2024-01-09 北京智芯微电子科技有限公司 负荷预测方法、装置和芯片设备

Similar Documents

Publication Publication Date Title
CN106777335A (zh) 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
US20170193393A1 (en) Automated Knowledge Graph Creation
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN107679189A (zh) 一种兴趣点更新方法、装置、服务器和介质
CN105930841A (zh) 对图像进行自动语义标注的方法、装置与计算机设备
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN109684354A (zh) 数据查询方法和装置
CN112906375A (zh) 文本数据标注方法、装置、设备及存储介质
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN111539612B (zh) 一种风险分类模型的训练方法和系统
CN109933783A (zh) 一种不良资产经营领域的合同要素化方法
CN111143517B (zh) 人选标签预测方法、装置、设备和存储介质
Jayatilaka et al. Knowledge extraction for semantic web using web mining
CN113220908A (zh) 知识图谱的匹配方法和装置
CN111581086A (zh) 一种基于RankNet的混合软件错误定位方法及系统
CN105787004A (zh) 一种文本分类方法及装置
CN112163098A (zh) 一种知识图谱的创建方法、装置、存储介质和服务器
Alzetta et al. Prelearn@ evalita 2020: Overview of the prerequisite relation learning task for italian
CN111651271A (zh) 基于法律数据的多任务学习语义标注方法和装置
CN110674263A (zh) 一种模型构件文件自动分类的方法和装置
CN112685374A (zh) 日志分类方法、装置及电子设备
CN116069947A (zh) 一种日志数据事件图谱构建方法、装置、设备及存储介质
CN109934350A (zh) 数学题目一题多解实现方法、装置及平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531