CN112418354B - 货源信息分类方法、装置、电子设备、存储介质 - Google Patents

货源信息分类方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112418354B
CN112418354B CN202011473251.3A CN202011473251A CN112418354B CN 112418354 B CN112418354 B CN 112418354B CN 202011473251 A CN202011473251 A CN 202011473251A CN 112418354 B CN112418354 B CN 112418354B
Authority
CN
China
Prior art keywords
information
classified
source information
goods
goods source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011473251.3A
Other languages
English (en)
Other versions
CN112418354A (zh
Inventor
郁博文
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yunmanman Information Technology Co Ltd
Original Assignee
Jiangsu Manyun Logistics Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Logistics Information Co Ltd filed Critical Jiangsu Manyun Logistics Information Co Ltd
Priority to CN202011473251.3A priority Critical patent/CN112418354B/zh
Publication of CN112418354A publication Critical patent/CN112418354A/zh
Application granted granted Critical
Publication of CN112418354B publication Critical patent/CN112418354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Nonlinear Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种货源信息分类方法、装置、电子设备、存储介质,方法包括:基于规则匹配判断待分类货源信息是否为准有效信息;若是,则提取所述待分类货源信息的特征获得特征向量;将所述特征向量分别输入至少两个基学习器;将所述至少两个基学习器的输出输入至一次学习器;以及根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。本发明结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。

Description

货源信息分类方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种货源信息分类方法、装置、电子设备、存储介质。
背景技术
随着互联网以及信息技术的发展,线上货运平台在货主和司机之间已经越来越普及。货主通过货运平台发布货源信息,并由司机进行浏览和接单,以实现货运前的对接过程。
在货运平台中,货源信息由货主输入,并发布。经常有一些广告或者辱骂抱怨,或者含有违禁关键词的违规信息,平台需要对这些发布的货源信息进行管控,以免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。然而,人工识别的话耗时耗力,所以,通常会采用算法来解决这个问题。
然而,单纯利用添加特殊规则识别会导致规则冗长,为了实现每一规则的匹配,还可能存在匹配时间过长的情况。同时,需要识别的情况过多,难以总结全面,由此,规则匹配的泛化能力和容错能力不够强,也没有自学习和自适应能力。此外,若单纯用单一类型的神经网络来分类的话,因为网络模型的逼近和泛化能力与我们训练样本的典型性相关度比较密切,而目前难以保证收集的训练数据有典型性,并且某些神经网络模型计算成本较高,在工业上难以起到学术界一样卓越的效果。
由此,如何结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上,是本领域技术人员亟待解决的技术问题。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种货源信息分类方法、装置、电子设备、存储介质,进而至少在一定程度上结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
根据本发明的一个方面,提供一种货源信息分类方法,包括:
基于规则匹配判断待分类货源信息是否为准有效信息;
若是,则提取所述待分类货源信息的特征获得特征向量;
将所述特征向量分别输入至少两个基学习器;
将所述至少两个基学习器的输出输入至一次学习器;以及
根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
在本发明的一些实施例中,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:
判断所述待分类货源信息中是否存在与关键词集中字符一致和/或拼音一致的字段,所述关键词集中包括多个预设定的禁用词;
若是,则判断所述待分类货源信息为无效信息;
若否,则判断所述待分类货源信息为准有效信息。
在本发明的一些实施例中,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:
判断所述待分类货源信息中是命中无效信息规则集合中的规则,所述无效信息规则集合中包括多个预设定的无效信息规则;
若是,则判断所述待分类货源信息为无效信息;
若否,则判断所述待分类货源信息为准有效信息。
在本发明的一些实施例中,所述提取所述待分类货源信息的特征获得特征向量包括:
提取所述待分类货源信息的直接特征;
提取所述待分类货源信息的拼音特征;
提取所述待分类货源信息的字段特征;
拼接所述待分类货源信息的直接特征、拼音特征以及字段特征,以形成所述待分类货源信息的特征向量。
在本发明的一些实施例中,所述至少两个基学习器包括一个快速文本分类器,所述快速文本分类器包括依次相连的第一输入层、隐藏层以及第一输出层,所述快速文本分类器的第一输入层包括由所述特征向量划分获得的N个字节片段序列,N为大于1的整数,所述隐藏层通过分层Softmax以获得所述第一输出层的输出。
在本发明的一些实施例中,所述至少两个基学习器包括一个文本卷积神经网络分类器,所述文本卷积神经网络分类器包括依次相连的第二输入层、卷积层、池化层以及第二输出层。
在本发明的一些实施例中,所述根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息还包括:
根据所述次学习器的输出,判断所述待分类货源信息是否为广告信息和/或抱怨信息。
根据本发明的又一方面,还提供一种货源信息分类装置,包括:
规则匹配模块,配置成基于规则匹配判断待分类货源信息是否为准有效信息;
提取模块,配置成当所述规则匹配模块判断为是时,提取所述待分类货源信息的特征获得特征向量;
第一输入模块,配置成将所述特征向量分别输入至少两个基学习器;
第二输入模块,配置成将所述至少两个基学习器的输出输入至一次学习器;以及
判断模块,配置成根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明结合规则匹配以及分类模型算法,从而在分类模型算法之前利用规则匹配以将能够识别为非有效信息的货源信息进行过滤,再利用过滤后的货源信息通过多分类器融合的分类模型算法进行分类识别,一方面,无需规则匹配适应所有情况,提高规则匹配的效率,同时,减少输入分类模型算法的数据量,提高分类模型算法的分类效率;另一方面,通过规则匹配将确定的非有效信息进行筛选,再通过分类模型算法进行分类,提高分类准确率;再一方面,通过多分类器融合的分类模型算法进行分类,结合各模型的优势,进一步提高分类准确率。由此,实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的货源信息分类方法的流程图。
图2示出了根据本发明一具体实施例的基于规则匹配判断待分类货源信息是否为准有效信息的流程图。
图3示出了根据本发明另一具体实施例的基于规则匹配判断待分类货源信息是否为准有效信息的流程图。
图4示出了根据本发明具体实施例的基于基学习器和次学习器对准有效信息进行分类的原理图。
图5示出了根据本发明实施例的货源信息分类装置的模块图。
图6示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图7示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
图1示出了根据本发明实施例的货源信息分类方法的流程图。货源信息分类方法包括如下步骤:
步骤S110:基于规则匹配判断待分类货源信息是否为准有效信息。
具体而言,步骤S110的用途在于过滤容易通过规则匹配识别为非有效信息的待分类货源信息。非有效信息包括但不限于广告信息、敏感信息、抱怨信息以及其它与货源无关的信息。步骤S110能够直接地将专业领域里的常识和规则引入到分类系统当中。
若步骤S110判断为是,则执行步骤S120:提取所述待分类货源信息的特征获得特征向量。
步骤S130:将所述特征向量分别输入至少两个基学习器。
步骤S140:将所述至少两个基学习器的输出输入至一次学习器。
步骤S150:根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
具体而言,步骤S120至步骤S150的具体实现将结合图4进行展开描述,在此不予赘述。
进一步地,当步骤S150根据所述次学习器的输出,判断所述待分类货源信息为有效信息时,则可以允许该分类货源信息在货源平台上进行发布。当步骤S150根据所述次学习器的输出,判断所述待分类货源信息为非有效信息时,则可以阻止该分类货源信息在货源平台上进行发布。此外,还可以通过一些惩罚规则,以屏蔽发布该货源信息的账号、注销发布该货源信息的账号等,本发明可以实现更多的变化方式,在此不予赘述。
在本发明提供的货源信息分类方法中,结合规则匹配以及分类模型算法,从而在分类模型算法之前利用规则匹配以将能够识别为非有效信息的货源信息进行过滤,再利用过滤后的货源信息通过多分类器融合的分类模型算法进行分类识别,一方面,无需规则匹配适应所有情况,提高规则匹配的效率,同时,减少输入分类模型算法的数据量,提高分类模型算法的分类效率;另一方面,通过规则匹配将确定的非有效信息进行筛选,再通过分类模型算法进行分类,提高分类准确率;再一方面,通过多分类器融合的分类模型算法进行分类,结合各模型的优势,进一步提高分类准确率。由此,实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
下面参见图2,图2示出了根据本发明一具体实施例的基于规则匹配判断待分类货源信息是否为准有效信息的流程图。图2共示出如下步骤:
步骤S111:判断所述待分类货源信息中是否存在与关键词集中字符一致和/或拼音一致的字段,所述关键词集中包括多个预设定的禁用词。
具体而言,关键词集可以由平台进行配置。在一些变化例中,关键词集也可以由第三方禁用词监控系统提供。
具体而言,可以通过字符一致以实现禁用词的精准匹配。为了防止部分用户通过同音字的方式来躲过关键词集的筛选,因此,还可以通过拼音进行匹配,从而提高关键词集筛选包含禁用词的货源信息的准确率。
若步骤S111判断为是,则执行步骤S112:判断所述待分类货源信息为无效信息。
若步骤S111判断为否,则执行步骤S113:判断所述待分类货源信息为准有效信息。
由此,通过上述步骤可以实现基于关键词集的非有效信息的筛选,关键词集的匹配筛选方式简单,系统执行效率高。
下面参见图3,图3示出了根据本发明另一具体实施例的基于规则匹配判断待分类货源信息是否为准有效信息的流程图。图3共示出如下步骤:
步骤S114:判断所述待分类货源信息中是命中无效信息规则集合中的规则,所述无效信息规则集合中包括多个预设定的无效信息规则。
具体而言,无效信息规则可以由平台配置。可以通过对含有买卖车相关,含有招聘相关,加柴油相关,买卖驾照分,从业资格证之类的文本的观察,总结出无效信息规则,以对该些无效信息进行识别。无效信息规则也可以采用诸如关键词集(关键词为上述买卖车相关关键词、招聘相关关键词、加柴油相关关键词、买卖驾照分相关关键词、从业资格证相关关键词)的形式来进行匹配。进一步地,还可以通过对该些文本的观察和分析,以获得相关的文本结构(例如买卖车相关的,除了包含买卖车的关键词,还包括车辆型号、价格范围、联系方式等),以在关键词集的基础上结合这些文本结构,来形成无效信息规则。本发明可以实现更多的变化方式,在此不予赘述。
若步骤S114判断为是,则执行步骤S115:判断所述待分类货源信息为无效信息。
若步骤S114判断为否,则执行步骤S116:判断所述待分类货源信息为准有效信息。
由此,可以通过无效信息规则集合的匹配来筛选非有效信息。
进一步地,图2所示的实施例优选地用于对包含禁用词(敏感词)的货源信息进行筛选;图3所示的实施例优选地用于对广告信息、抱怨信息等货源信息进行筛选。图2所示的实施例和图3所示的实施例可以单独使用,也可以结合使用。在结合使用的实施例中,可以首先执行图2所示的实施例,再执行图3所示的实施例,从而在规则匹配前,实现禁用词的筛选,减少规则匹配的待分类货源信息的数据量,提高步骤S110的整体执行效率。
下面参见图4,图4示出了根据本发明具体实施例的基于基学习器和次学习器对准有效信息进行分类的原理图。
在将待分类货源信息识别为准有效信息210后,可以通过提取所述待分类货源信息的特征获得特征向量的步骤,首先提取所述待分类货源信息的直接特征221;然后,提取所述待分类货源信息的拼音特征222;再提取所述待分类货源信息的字段特征223;最后,拼接所述待分类货源信息的直接特征221、拼音特征222以及字段特征223,以形成所述待分类货源信息的特征向量230。具体而言,直接特征221为将输入的文本采用分隔符直接连接各个字段,从而形成的特征。拼音特征为将字段转化为拼音的拼音特征。考虑到货源信息的输入可能是通过语音输入,同时为了避免同音字错误,因此,提取拼音特征,以优化输入特征,从而以提高分类的准确率。字段特征以不同的数字来对应不同的字段,从而实现字段之间的区分(字段特征例如可以为“1112222222333333444”,其中,不同的数字来自不同的字段)。
获得特征拼接获得特征向量230后,将特征向量分别输入作为基学习器的快速文本分类器(fastText模型)241以及作为基学习器的文本卷积神经网络分类器(textCNN模型)242中。
所述快速文本分类器241包括依次相连的第一输入层、隐藏层以及一输出层。所述快速文本分类器241的第一输入层包括由所述特征向量划分获得的N个字节片段序列(n-gram向量),N为大于1的整数,所述隐藏层通过分层Softmax以获得所述第一输出层的输出。具体而言,隐含层是对输入词向量的叠加平均。输出层输出的是对应的类别。
具体而言,n-gram向量是基于语言模型的算法,基本思想是将文本内容按照子节顺序进行大小为N的窗口滑动操作,最终形成窗口为N的字节片段序列。n-gram向量具有如下优点:为罕见的单词生成更好的单词向量:根据字符级别的n-gram来说,即使这个单词出现的次数很少,但是组成单词的字符和其他单词有共享的部分,因此这一点可以优化生成的单词向量;在词汇单词中,即使单词没有出现在训练语料库中,仍然可以从字符级n-gram中构造单词的词向量;n-gram向量可以让模型学习到局部单词顺序的部分信息,如果不考虑n-gram向量则便是取每个单词,这样无法考虑到词序所包含的信息,即也可理解为上下文信息,因此,通过n-gram向量的方式关联相邻的几个词,这样会让模型在训练的时候保持词序信息。
具体而言,分层softmax(Hierarchical Softmax)思想是根据类别的频率构造霍夫曼树来代替标准softmax,通过分层softmax可以将复杂度从N降低到logN,由此,可以更快地加大了训练速度。
所述文本卷积神经网络分类器242包括依次相连的第二输入层、卷积层、池化层以及第二输出层。将卷积神经网络CNN应用到文本分类任务正是为了不同大小的卷积核来获取句子中的n-gram向量,从而能够更好地捕捉到文本中的局部相关性。
两个基学习器(fastText模型241以及textCNN模型242)的输出输入至次学习器250中,由次学习器250判断待分类货源信息是否为有效信息261。次学习器250还可以将待分类货源信息分类为广告信息262以及抱怨信息263。
为了避免过拟合,本发明的次学习器仅使用于第一层训练器基学习器的输出,不再继续利用原始训练数据进行训练。进一步地,次学习器可以是较为简单的分类器,例如,次学习器可以是广义线性如逻辑回归分类器。在特征提取的过程中,由于已经使用了复杂的非线性变换,因此在输出层不需要复杂的分类器。
具体而言,本发明中的各基学习器以及次学习器皆已经过样本训练。由此,本发明利用了Stacking(一种集成学习框架)的思想。Stacking技术的优势在于可以综合各种基模型的优点。进一步地,本发明中选用的基学习器分别具有如下优势:选用的FastText模型相比于基于深度学习的分类器,有极快的训练速度,并能仍然保持很高的精准度。并且FastText模型可以不使用预训练模型。此外,FastText模型还可以具有分层Softmax、N-gram这两个重要的优化。同时,TextCNN模型和FastText模型一样有着网络结构简单,参数少和计算量少,训练速度快的优势,并且同样能取得较好的分类效果。
通过上述方式,相比传统方式,本发明的精准率和召回率均有很大的提升,减少了审核的数量,释放了人力,可以高效拦截了不符合平台发货条件的货主货源。
以上仅仅是示意性地描述本发明的多个实施例,本发明并非以此为限制。上述各实施例可以单独或组合来实施,这些变化的方式都在本发明的保护范围之内。
根据本发明的又一方面,还提供一种货源信息分类装置,图5示出了根据本发明实施例的货源信息分类装置的模块图。货源信息分类装置300包括规则匹配模块310、提取模块320、第一输入模块330、第二输入模块340以及判断模块350。
规则匹配模块310配置成基于规则匹配判断待分类货源信息是否为准有效信息。
提取模块320配置成当所述规则匹配模块310判断为是时,提取所述待分类货源信息的特征获得特征向量。
第一输入模块330配置成将所述特征向量分别输入至少两个基学习器。
第二输入模块340配置成将所述至少两个基学习器的输出输入至一次学习器。
判断模块350配置成根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
在本发明提供的货源信息分类装置中,结合规则匹配以及分类模型算法,从而在分类模型算法之前利用规则匹配以将能够识别为非有效信息的货源信息进行过滤,再利用过滤后的货源信息通过多分类器融合的分类模型算法进行分类识别,一方面,无需规则匹配适应所有情况,提高规则匹配的效率,同时,减少输入分类模型算法的数据量,提高分类模型算法的分类效率;另一方面,通过规则匹配将确定的非有效信息进行筛选,再通过分类模型算法进行分类,提高分类准确率;再一方面,通过多分类器融合的分类模型算法进行分类,结合各模型的优势,进一步提高分类准确率。由此,实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
图5仅仅是示意性的示出本发明提供的货源信息分类装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的货源信息分类装置300可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述货源信息分类方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述货源信息分类方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述货源信息分类方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施方式的电子设备500。图7显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述货源信息分类方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1至图4所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述货源信息分类方法。
相比现有技术,本发明的优势在于:
本发明结合规则匹配以及分类模型算法,从而在分类模型算法之前利用规则匹配以将能够识别为非有效信息的货源信息进行过滤,再利用过滤后的货源信息通过多分类器融合的分类模型算法进行分类识别,一方面,无需规则匹配适应所有情况,提高规则匹配的效率,同时,减少输入分类模型算法的数据量,提高分类模型算法的分类效率;另一方面,通过规则匹配将确定的非有效信息进行筛选,再通过分类模型算法进行分类,提高分类准确率;再一方面,通过多分类器融合的分类模型算法进行分类,结合各模型的优势,进一步提高分类准确率。由此,实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (7)

1.一种货源信息分类方法,其特征在于,包括:
基于规则匹配判断待分类货源信息是否为准有效信息;
若是,则提取所述待分类货源信息的特征获得特征向量;
将所述特征向量分别输入至少两个基学习器,所述至少两个基学习器包括一个快速文本分类器和一个文本卷积神经网络分类器,所述快速文本分类器包括依次相连的第一输入层、隐藏层以及第一输出层,所述快速文本分类器的第一输入层包括由所述特征向量划分获得的N个字节片段序列,N为大于1的整数,所述隐藏层通过分层Softmax以获得所述第一输出层的输出,所述文本卷积神经网络分类器包括依次相连的第二输入层、卷积层、池化层以及第二输出层;
将所述至少两个基学习器的输出输入至一次学习器;以及
根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息,包括:根据所述次学习器的输出,判断所述待分类货源信息是否为广告信息和/或抱怨信息。
2.如权利要求1所述的货源信息分类方法,其特征在于,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:
判断所述待分类货源信息中是否存在与关键词集中字符一致和/或拼音一致的字段,所述关键词集中包括多个预设定的禁用词;
若是,则判断所述待分类货源信息为无效信息;
若否,则判断所述待分类货源信息为准有效信息。
3.如权利要求1所述的货源信息分类方法,其特征在于,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:
判断所述待分类货源信息中是命中无效信息规则集合中的规则,所述无效信息规则集合中包括多个预设定的无效信息规则;
若是,则判断所述待分类货源信息为无效信息;
若否,则判断所述待分类货源信息为准有效信息。
4.如权利要求1所述的货源信息分类方法,其特征在于,所述提取所述待分类货源信息的特征获得特征向量包括:
提取所述待分类货源信息的直接特征;
提取所述待分类货源信息的拼音特征;
提取所述待分类货源信息的字段特征;
拼接所述待分类货源信息的直接特征、拼音特征以及字段特征,以形成所述待分类货源信息的特征向量。
5.一种货源信息分类装置,其特征在于,包括:
规则匹配模块,配置成基于规则匹配判断待分类货源信息是否为准有效信息;
提取模块,配置成当所述规则匹配模块判断为是时,提取所述待分类货源信息的特征获得特征向量;
第一输入模块,配置成将所述特征向量分别输入至少两个基学习器,所述至少两个基学习器包括一个快速文本分类器和一个文本卷积神经网络分类器,所述快速文本分类器包括依次相连的第一输入层、隐藏层以及第一输出层,所述快速文本分类器的第一输入层包括由所述特征向量划分获得的N个字节片段序列,N为大于1的整数,所述隐藏层通过分层Softmax以获得所述第一输出层的输出,所述文本卷积神经网络分类器包括依次相连的第二输入层、卷积层、池化层以及第二输出层;
第二输入模块,配置成将所述至少两个基学习器的输出输入至一次学习器;以及
判断模块,配置成根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息,包括:根据所述次学习器的输出,判断所述待分类货源信息是否为广告信息和/或抱怨信息。
6.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至4任一项所述的货源信息分类方法。
7.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一项所述的货源信息分类方法。
CN202011473251.3A 2020-12-15 2020-12-15 货源信息分类方法、装置、电子设备、存储介质 Active CN112418354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011473251.3A CN112418354B (zh) 2020-12-15 2020-12-15 货源信息分类方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011473251.3A CN112418354B (zh) 2020-12-15 2020-12-15 货源信息分类方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112418354A CN112418354A (zh) 2021-02-26
CN112418354B true CN112418354B (zh) 2022-07-15

Family

ID=74775135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011473251.3A Active CN112418354B (zh) 2020-12-15 2020-12-15 货源信息分类方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112418354B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108830328A (zh) * 2018-06-21 2018-11-16 中国矿业大学 融合空间知识的微震信号smote识别方法及监测系统
CN109062958A (zh) * 2018-06-26 2018-12-21 华中师范大学 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN109446334A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现英文文本分类的方法及相关设备
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法
CN110222173A (zh) * 2019-05-16 2019-09-10 吉林大学 基于神经网络的短文本情感分类方法及装置
CN111241849A (zh) * 2020-01-21 2020-06-05 重庆理工大学 一种文本语义分析方法及系统
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108830328A (zh) * 2018-06-21 2018-11-16 中国矿业大学 融合空间知识的微震信号smote识别方法及监测系统
CN109062958A (zh) * 2018-06-26 2018-12-21 华中师范大学 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法
CN109446334A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现英文文本分类的方法及相关设备
CN110222173A (zh) * 2019-05-16 2019-09-10 吉林大学 基于神经网络的短文本情感分类方法及装置
CN111241849A (zh) * 2020-01-21 2020-06-05 重庆理工大学 一种文本语义分析方法及系统
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架

Also Published As

Publication number Publication date
CN112418354A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112069321B (zh) 用于文本层级分类的方法、电子设备和存储介质
CA3060822C (en) Label information acquistion method and apparatus, electronic device and computer readable medium
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN109325121B (zh) 用于确定文本的关键词的方法和装置
CA3048356A1 (en) Unstructured data parsing for structured information
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN113450075A (zh) 基于自然语言技术的工单处理方法及装置
CN112232088A (zh) 合同条款风险智能识别方法、装置、电子设备及存储介质
CN111582314A (zh) 目标用户确定方法、装置及电子设备
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
CN110333886A (zh) 一种审核程序迭代更新方法、装置、服务器及存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN112418354B (zh) 货源信息分类方法、装置、电子设备、存储介质
US11120381B2 (en) Product declaration validation
CN115757837A (zh) 知识图谱的置信度评估方法、装置、电子设备及介质
CN112184465B (zh) 用户数据画像生成方法、装置、电子设备及存储介质
CN113935802A (zh) 信息处理方法、装置、设备及存储介质
CN115203417A (zh) 一种旅游评论分析方法与系统
CN114925757A (zh) 多源威胁情报融合方法、装置、设备和存储介质
CN112199578B (zh) 信息处理方法和装置、电子设备和存储介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN114065748A (zh) 识别风险数据的方法、装置、和电子设备
CN114647734A (zh) 舆情文本的事件图谱生成方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210012 4th floor, building 5, no.170-1, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Yunmanman Information Technology Co.,Ltd.

Address before: 210012 4th floor, building 5, no.170-1, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee before: Jiangsu manyun Logistics Information Co.,Ltd.

CP01 Change in the name or title of a patent holder
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210226

Assignee: Nanjing Manyun Cold Chain Technology Co.,Ltd.

Assignor: Jiangsu Yunmanman Information Technology Co.,Ltd.

Contract record no.: X2023980040393

Denomination of invention: Classification methods, devices, electronic devices, and storage media for source information

Granted publication date: 20220715

License type: Common License

Record date: 20230824

EE01 Entry into force of recordation of patent licensing contract
CP02 Change in the address of a patent holder

Address after: 210012 3rd floor, building a, Wanbo Science Park, 66 Huashen Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Yunmanman Information Technology Co.,Ltd.

Address before: 210012 4th floor, building 5, no.170-1, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee before: Jiangsu Yunmanman Information Technology Co.,Ltd.

CP02 Change in the address of a patent holder