CN111625644B - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN111625644B
CN111625644B CN202010292062.XA CN202010292062A CN111625644B CN 111625644 B CN111625644 B CN 111625644B CN 202010292062 A CN202010292062 A CN 202010292062A CN 111625644 B CN111625644 B CN 111625644B
Authority
CN
China
Prior art keywords
text data
text
state information
sub
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010292062.XA
Other languages
English (en)
Other versions
CN111625644A (zh
Inventor
杨春阳
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010292062.XA priority Critical patent/CN111625644B/zh
Publication of CN111625644A publication Critical patent/CN111625644A/zh
Application granted granted Critical
Publication of CN111625644B publication Critical patent/CN111625644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种文本分类方法和装置,涉及计算机技术领域。本发明提供的文本分类方法和装置,通过主节点对待分类的第一文本数据或待训练的第二文本数据根据各子节点的第一状态信息或第二状态信息进行分发,各子节点之间相对独立地进行文本分类模型的训练、文本数据的分类,使得文本分类模型的训练、文本数据的分类过程中,训练、分类的效率可随子节点数量而调控;同时单一子节点在训练、分类过程中出现的错误不会影响到整体的训练、分类,具有高容错率;在高延迟的网络中,各子节点也能通过异步通信的方式实现模型参数的更新,保证文本分类模型训练的效率,降低了模型训练对网络环境的要求。

Description

一种文本分类方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本分类方法和装置。
背景技术
为了提升文本分类的准确率、效率,现有技术中通常采用扩大训练数据集的方式,在海量文本上进行模型训练以提高模型的预测准确率,以及对海量文本进行识别分类以提高预测效率。
但是,进行文本分类模型训练时通常采用现代神经网络构架,而根据大型训练数据集训练现代神经网络构架的模型对计算力的要求很高,从而导致文本分类模型的训练、更新、预测耗时长,效率低下的问题,且基于高计算力要求对网络环境也提出了高要求;而且训练过程出现问题时会影响到整体模型的训练,容错率低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本分类方法和装置。
依据本发明的第一方面,提供了一种文本分类方法,该方法应用于主节点,该方法包括:
获取至少两个子节点分别对应的第一状态信息;
根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集;
将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果;
根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果。
可选地,通过如下步骤训练所述文本分类模型:
获取至少两个子节点分别对应的第二状态信息;
根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集;
将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
可选地,所述将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点之后,所述方法还包括:
周期性接收所述子节点发送的子节点参数;
对所述子节点参数进行均值处理,获得调节参数;
将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
可选地,通过如下步骤获取待训练的第二文本数据集:
确定待分类的类别条目;
对应每一个所述类别条目,获取待训练的类别文本数据集;
根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
可选地,根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集之前,所述方法还包括:
根据所述第二文本数据集生成对应的词汇表,所述词汇表中包括所述第二文本数据集中的文本数据与编码符号的对应关系;
所述将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,包括:
将所述第二文本数据子集与所述词汇表分发到所述第二状态信息对应的所述子节点,所述子节点分别根据所述词汇表确定所述第二文本数据子集对应的编码符号子集,并根据所述编码符号子集进行文本分类模型的训练,获得所述文本分类模型。
依据本发明的第二方面,提供了一种文本分类装置,该装置应用于主节点,该装置包括:
状态信息获取模块,用于获取至少两个子节点分别对应的第一状态信息;
文本数据划分模块,用于根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集;
文本数据分发模块,用于将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果;
文本数据分类模块,用于根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果。
可选地,所述状态信息获取模块,还用于获取至少两个子节点分别对应的第二状态信息;
所述文本数据划分模块,还用于根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集;
所述文本数据分发模块,还用于将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
可选地,所述装置还包括:
参数接收模块,用于周期性接收所述子节点发送的子节点参数;
参数调节模块,用于对所述子节点参数进行均值处理,获得调节参数;
参数发送模块,用于将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
可选地,所述装置还包括:
条目类别确定模块,用于确定待分类的类别条目;
类别文本获取模块,用于对应每一个所述类别条目,获取待训练的类别文本数据集;
文本数据获取模块,用于根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
可选地,所述装置还包括:
语义特征提取模块,用于提取所述第二文本数据集对应的第一文本语义特征;
公共特征参数生成模块,用于生成所述第二文本数据集对应的公共特征参数,所述公共特征参数包括所述第二文本数据集中的第一文本语义特征与编码符号的对应关系;所述文本数据分发模块,具体用于将所述第二文本数据子集与所述公共特征参数分发到所述第二状态信息对应的所述子节点,以使所述子节点分别提取所述第二文本数据子集的第二文本语义特征,并根据所述公共特征参数、所述第二文本语义特征确定所述第二文本数据子集对应的子特征参数,根据所述子特征参数进行文本分类模型的训练,获得所述文本分类模型。
本发明实施例中,采用多节点方式进行模型训练以及文本分类,其中包括主节点、至少两个子节点,通过主节点对待分类的第一文本数据集按照子节点的第一状态信息进行划分,获得第一文本数据子集;并将第一文本数据子集分发给第一状态信息对应的不同子节点进行分类,根据各第一文本数据子集的分类结果确定第一文本数据集的分类结果。由于各子节点中的文本分类模型仅对分发到的第一文本数据子集进行分类,且第一文本数据子集是主节点根据各子节点的第一状态信息划分的,因此,能够有效减少大型文本数据集的分类时间,提高大型文本数据集分类的效率;同时各子节点之间相对独立地进行文本数据的分类,多子节点的文本数据集分类中,部分子节点对第一文本数据子集的分类出现问题时对整体文本数据集的分类影响较小,具有高容错率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种文本分类方法的步骤流程图;
图2是本发明实施例提供的另一种文本分类方法的步骤流程图;
图3是本发明实施例提供的主节点与子节点实现文本分类的过程示意图;
图4是本发明实施例提供的主节点与子节点实现文本分类模型训练的过程示意图;
图5是本发明实施例提供的一种文本分类装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文本分类方法的步骤流程图,该方法可以应用于主节点,如图1所示,该方法可以包括:
步骤101、获取至少两个子节点分别对应的第一状态信息。
本发明实施例提供的文本分类方法可以应用于多节点分布式计算中,与集中式计算不同,分布式计算能够将任务进行分解,并分配给不同的节点,从而节省任务整体的计算时间,有效提高计算效率。其中,多节点可以是多台计算机、多台服务器,多台虚拟机等,不同节点的配置信息可以相同,也可以不同,本发明实施例对此不作具体限制。
本发明实施例中,多节点可以包括主节点和至少两个子节点,主节点和子节点在文本分类方法的执行过程中不同的功能实现,可选地,主节点可以进行文本数据的获取、格式处理、分发等,子节点可以对分发到的文本数据进行分类,如确定各文本数据所属的标签等,可以广泛应用于垃圾文本过滤、新闻分类、词性标注等领域。其中,主节点可以是在文本数据分类前在多节点中指定的,也可以是默认的主节点,主节点可以是一个,同时控制各子节点;也可以是多个,分别控制不同的子节点。
本发明实施例中,主节点可以获取至少两个子节点分别对应的第一状态信息,其中,第一状态信息可以是在文本分类的过程中,子节点的状态信息。可选地,第一状态信息可以用于指示该子节点的当前可承载、处理的数据量,第一状态信息可以包括子节点的硬件信息、硬件占用信息、当前任务信息等中的至少一种,从而便于主节点确定不同子节点的当前状态。其中,硬件信息可以包括CPU(Central Processing Unit,中央处理器)信息、内存信息、存储信息等,硬件占用信息可以包括CPU占用信息、内存占用信息、存储占用信息等,当前任务信息可以包括该子节点当前分发到的文本数据量、已分类文本数据量、待分类文本数据量等。
步骤102、根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集。
本发明实施例中,第一文本数据集可以是待分类的文本数据集,其中包括大量的、混合的各个类别条目的文本数据。主节点在获得至少两个子节点的第一状态信息后,可以根据不同子节点的第一状态信息将第一文本数据集进行划分,如主节点可以根据第一状态信息确定对应子节点当前在确保准确、高效的情况下,可以分类处理的文本数据量,并从第一文本数据集中划分出对应文本数据量的第一文本数据子集,对应不同的子节点根据第一状态信息对第一文本数据进行划分,从而获得不同子节点对应的第一文本数据子集。
步骤103、将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果。
本发明实施例中,主节点在根据获取到的第一状态信息划分第一文本数据集,获得与不同子节点对应的第一文本数据子集后,可以将获得的第一文本数据子集分发到对应的子节点,各子节点中有预先训练的文本分类模型。其中,若各子节点接收到的第一文本数据子集由同一第一文本数据集划分得到,则其文本分类模型应在相同的算法结构下训练得到,从而使得各子节点得到的文本分类结果更加统一。由于第一文本数据子集是根据不同子节点的第一状态信息划分的,因此,可以保证子节点中的文本分类模型对第一文本数据子集的分类处理准确、高效。另外,子节点也可以根据第一文本数据子集的分类结果对文本分类模型进行更新,以保证文本分类模型的性能。
步骤104、根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果。
本发明实施例中,主节点可以接收各子节点返回的对应第一文本数据子集的分类结果,并对各第一文本数据子集的分类结果进行汇总。第一文本数据子集的分类结果可以是将第一文本数据子集中不同种类的文本数据分批发送,也可以是带有不同标签的第一文本数据子集。主节点可以将不同分类结果中相同种类或相同标签的文本数据进行合并,从而确定第一文本数据集的分类结果。
综上所述,本发明实施例中,采用多节点方式进行模型训练以及文本分类,其中包括主节点、至少两个子节点,通过主节点对待分类的第一文本数据集按照子节点的第一状态信息进行划分,获得第一文本数据子集;并将第一文本数据子集分发给第一状态信息对应的不同子节点进行分类,根据各第一文本数据子集的分类结果确定第一文本数据集的分类结果。由于各子节点中的文本分类模型仅对分发到的第一文本数据子集进行分类,且第一文本数据子集是主节点根据各子节点的第一状态信息划分的,因此,能够保证各子节点对第一文本数据子集的分类效率,从而有效减少大型文本数据集的分类时间,提高大型文本数据集分类的效率;同时多节点的文本数据集分类中,部分子节点对第一文本数据子集的分类出现问题时对整体文本数据集的分类影响较小,具有高容错率;在高延迟的网络中,各子节点的文本分类模型也能对对应的文本数据进行分类获得分类结果,降低了文本分类对网络环境的要求。
图2是本发明实施例提供的另一种文本分类方法的步骤流程图,该方法可以应用于主节点,如图2所示,该方法可以包括:
步骤201、获取至少两个子节点分别对应的第一状态信息。
步骤202、根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集。
步骤203、将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果。
步骤204、根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果。
本发明实施例中,步骤201至步骤204的说明内容可对应参考前述步骤101至步骤104的说明内容,为避免重复,在此不再赘述。
可选地,各子节点预先训练得到的文本分类模型可以由如下步骤205至步骤207训练得到:
步骤205、获取至少两个子节点分别对应的第二状态信息。
本发明实施例中,步骤205的说明内容可对应参考前述步骤101的说明内容,为避免重复,在此不再赘述。
步骤206、根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集。
本发明实施例中,待训练的第二文本数据集可以用于在特定算法结构下进行模型训练从而得到需求的文本分类模型,其中,基于对文本分类模型实际应用中的分类需求,如通过文本分类模型对待分类的类别条目的文本数据进行分类,可以选择包括对应类别条目的文本数据获得第二文本数据集,如根据分类需求获取包括体育、旅游、经济、军事、社会等类别条目在内的文本数据为第二文本数据集。可选地,特定算法结构可以是人工神经网络结构,即类似大脑神经突出联接进行信息处理的结构,如LSTM(Long short-term memory,长短期记忆)神经网络、GRU(Gate Recurrent Unit,门控循环单元)神经网络等。
本发明实施例中,在主节点根据第二状态信息对待训练的第二文本数据集进行划分时,除参照步骤102的说明内容外,还可以保证第二文本数据子集中的文本数据包括第二文本数据集中所有的类别条目,如当第二文本数据集中包括体育、旅游、经济三种类别条目的文本数据时,划分得到的第二文本数据子集不论包括的文本数据量的大小,都应包括体育、旅游、经济三种类别条目的文本数据,从而保证各子节点的文本分类模型都能对应需要分类的类别条目得到充分的训练,保证文本分类模型在实际应用中的分类效果。
步骤207、将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
本发明实施例中,主节点可以将划分得到的第二文本数据子集分发到第二状态信息对应的子节点,接收到第二文本数据子集的各子节点采用相同的特定算法结构进行文本分类模型的训练,从而得到对相同类别条目进行分类的各文本分类模型,各文本分类模型间的区别在于用于训练、进行文本数据分类的子节点不同、第二文本数据子集的数据量相同或不同,因此,在提升了训练文本分类模型效率的同时,还可以使得训练文本分类模型的效率随子节点数量的增加而线性增加,子节点越多训练文本分类模型的效率就越高。
可选地,如图2所示,步骤207之后,该方法还可以包括:
步骤208、周期性接收所述子节点发送的子节点参数。
本发明实施例中,在文本分类模型训练的过程中,为了对模型参数进行优化,调整模型的决策方向,主节点可以周期性地接收子节点发送的子节点参数,可选地,子节点参数可以包括文本分类模型在训练过程中的损失函数,损失函数可以衡量文本分类模型的预测值与真实值不一致的程度,损失函数的值越小,表明文本分类模型的鲁棒性越好,从而在对模型评估的同时为模型参数的优化提供方向。其中,可以损失函数可以包括均方误差、交叉熵损失函数、对数似然损失函数等,具体可以根据模型结构的复杂程度、模型参数的多少选择。另外,本发明实施例中,主节点可以包括一个以上,为了提供模型训练、分类的效率,选用不同的主节点进行第一文本数据集的划分、第二文本数据集的划分、子节点参数的处理等,本发明实施例对此不作具体限制。
步骤209、对所述子节点参数进行均值处理,获得调节参数。
本发明实施例中,在获得各子节点发送的子节点参数后,可以对各子节点的子节点参数进行均值处理以获得调节参数,可选地,均值处理可以是直接求取各子节点参数的平均值,也可以是根据各子节点的权重求取子节点参数的加权平均值,其中,各子节点的权重可以由子节点对应的第二文本数据子集的文本数据量确定,分发得到的文本数据量越大权重越高,或者也可以由子节点参数所反映的文本分类模型评估结果确定,文本分类模型的评估结果越好则权重越高,本发明实施例对此不作具体限制。
步骤210、将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
本发明实施例中,主节点可以将均值处理后得到的调节参数发送给子节点,子节点将均值处理后的调节参数作为模型参数,代入算法结构中求取目标函数,从而调整文本分类模型的训练。可选地,由于网络延迟、子节点故障等原因,可能有部分子节点的子节点参数没有成功接收,此时,主节点可以将调节参数也同样发送给该子节点,以在各子节点独立进行模型训练的过程中,保证模型训练的同步。
由上述内容可知,各子节点仅与主节点通信进行参数更新,虽然调节参数的计算基于各子节点返回的子节点参数,但实际上是各子节点仅与主节点通信更新调节参数,各子节点间的文本分类模型训练过程相对独立,使得在高延迟网络下,各子节点可以通过异步通信的方式进行调节参数更新,各子节点可以根据网络情况在任意时刻发送子节点参数,主节点持续接收子节点参数,并根据相同或相近时刻发送的子节点参数确定对应的调节参数,再将调节参数发送给各子节点,已完成调节参数的更新。
可选地,通过如下步骤获取待训练的第二文本数据集:
步骤S11、确定待分类的类别条目。
本发明实施例中,待分类的类别条目可以由文本分类的场景有关,如当文本分类应用在垃圾过滤场景中时,待分类的类别条目可以是符号、表情、火星文等等;在新闻分类场景中时,待分类的类别条目可以是体育、娱乐、科技、社会、经济、军事等;在词性标注场景中,待分类的类别条目可以是名词、动词、形容词、助词等;或者也可以是技术人员根据具体需求设置的不同待分类的类别条目,本发明实施例对具体的类别条目,以及类别条目的数量不作限制。
步骤S12、对应每一个所述类别条目,获取待训练的类别文本数据集。
本发明实施例中,在确定待分类的类别条目后可以获取每一个类别条目分别对应的类别数据文本集,如在新闻分类场景中,待分类的类别条目包括体育、旅游、科技三种类别条目,可选地,可以收集体育类新闻文本数据1万条为体育类别文本数据集,收集旅游类新闻文本数据1万条为旅游类别文本数据集,收集科技类新闻文本数据1万条为科技类别文本数据集。
步骤S13、根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
本发明实施例中,可以将各类别条目对应的类别文本数据集进行合并,从而获取待训练的第二文本数据集,可选地,在合并各类别条目对应的类别文本数据集的过程中,可以不对各类别文本数据集的文本数据进行混合,而是在待训练的第二文本数据集进行划分时,分别从各类别文本数据集划分出一定量的文本数据进行混合,从而获得待训练的第二文本数据子集,以使得第二文本数据子集的文本数据量在符合第二状态信息的同时,能够包括待分类的所有类别条目,保证文本分类模型能够得到充分的训练。
可选地,所述步骤206之前,所述方法还包括:
步骤S21、提取所述第二文本数据集对应的第一文本语义特征;
步骤S22、生成所述第二文本数据集对应的公共特征参数,所述公共特征参数包括所述第二文本数据集中的第一文本语义特征与编码符号的对应关系。
本发明实施例中,为了保证模型训练过程中的计算效率,主节点可以先提取第二文本数据集的第一文本语义特征,可选地,可以对第二文本数据集中不同的汉字文本、字母文本、符号文本、数字文本等进行清洗、过滤、分词、组合、句法变换等第一文本语义特征的提取。进一步的,还可以建立第一文本语义特征与编码符号间的关系,从而获得对应的公共特征参数。可选地,公共特征参数可以是词汇表的形式,将从第一文本数据集中提取出来的词汇与编码符号一一对应,也可以是索引的形式,本发明实施例对此不做具体限制。
其中,为了便于计算,编码符号可以是数字符号,也可以是其它字母符号等。可选地,第一文本语义特征与编码符号的对应关系可以是技术人员指定的,也可以是根据文本数据录入的顺序自动分配的,如文本数据汉字“我”第一次出现时可分配编码符号数字“1”或字母“a”,第二次出现时不再重复分配,文本数据中数字“1”是第六个首次出现的文本,则可分配编码符号数字“6”或字母“f”。
所述步骤207,具体可以包括:
将所述第二文本数据子集与所述公共特征参数分发到所述第二状态信息对应的所述子节点,以使所述子节点分别提取所述第二文本数据子集的第二文本语义特征,并根据所述公共特征参数、所述第二文本语义特征确定所述第二文本数据子集对应的子特征参数,根据所述子特征参数进行文本分类模型的训练,获得所述文本分类模型。
本发明实施例中,主节点可以将公共特征参数与第二文本数据子集分发到第二状态信息对应的子节点,此时,子节点可以对第二文本数据子集的第二文本语义特征进行提取,提取的方法与主节点从第二文本数据集中提取第一文本语义特征的方法相同。再根据第二文本语义特征查询公共特征中的对应关系,确定第二文本数据子集中第二文本语义特征对应的编码符号,从而得到对应的子特征参数。可选地,当编码符号为数字时,可以将子特征参数中的数字输入特定算法结构中求取目标函数,在达到收敛后获得子节点对应的文本分类模型。
本发明实施例中,通过主节点对待分类的第一文本数据或待训练的第二文本数据根据各子节点的第一状态信息或第二状态信息进行分发,各子节点之间相对独立地进行文本分类模型的训练、文本数据的分类,使得文本分类模型的训练、文本数据的分类过程中,训练、分类的效率可随子节点数量而调控;同时单一子节点在训练、分类过程中出现的错误不会影响到整体的训练、分类,具有高容错率;在高延迟的网络中,各子节点也能通过异步通信的方式实现模型参数的更新,保证文本分类模型训练的效率,降低了模型训练对网络环境的要求。
图3是本发明实施例提供的主节点与子节点实现文本分类方法的过程示意图,如图3所示,主节点、子节点1和子节点2,本发明实施例提供的文本分类方法包括:
步骤3011、子节点1向主节点发送对应的第一状态信息1。
步骤3012、子节点2向主节点发送对应的第一状态信息2。
步骤302、主节点根据第一状态信息1和第一状态信息2对待分类的第一文本数据集进行划分,得到对应的待分类的第一文本数据子集1和第一文本数据子集2。
步骤3031、主节点将第一文本数据子集1分发到子节点1。
步骤3032、主节点将第一文本数据子集2分发到子节点2。
步骤3041、子节点1根据文本分类模型1对第一文本数据子集1进行分类,获得分类结果1。
步骤3042、子节点2根据文本分类模型2对第一文本数据子集2进行分类,获得分类结果2。
步骤3051、子节点1向主节点发送分类结果1。
步骤3052、子节点2向主节点发送分类结果2。
步骤306、主节点根据分类结果1和分类结果2确定第一文本数据集的分类结果。
图3所示的主节点与子节点实现文本分类方法的过程,其说明内容可对应参照图1的说明内容,为避免重复,在此不再赘述。
图4是本发明实施例提供的主节点与子节点实现文本分类模型训练的过程示意图,如图4所示,本发明实施例提供的文本分类模型的训练步骤如下所示:
步骤4011、子节点1向主节点发送对应的第二状态信息1。
步骤4012、子节点2向主节点发送对应的第二状态信息2。
步骤402、主节点根据第二状态信息1和第二状态信息2对待训练的第二文本数据集进行划分,得到对应的待训练的第二文本数据子集1和第二文本数据子集2。
步骤4031、主节点将第二文本数据子集1分发到子节点1。
步骤4032、主节点将第二文本数据子集2分发到子节点2。
步骤4041、子节点1根据第二文本数据子集1训练文本分类模型1。
步骤4042、子节点2根据第二文本数据子集2训练文本分类模型2。
步骤4051、子节点1周期性向主节点发送子节点参数1。
步骤4052、子节点2周期性向主节点发送子节点参数2。
步骤406、主节点对子节点参数1和子节点参数2进行均值处理得到调节参数。
步骤4071、主节点向子节点1发送调节参数。
步骤4072、主节点向子节点2发送调节参数。
步骤4081、子节点1将调节参数作为文本分类模型1的模型参数进行文本分类模型的训练。
步骤4082、子节点2将调节参数作为文本分类模型2的模型参数进行文本分类模型的训练。
图4所示的主节点与子节点实现文本分类模型训练的过程,其说明内容可对应参照图2的说明内容,为避免重复,在此不再赘述。
本发明实施例中,通过主节点对待分类的第一文本数据或待训练的第二文本数据根据各子节点的第一状态信息或第二状态信息进行分发,各子节点之间相对独立地进行文本分类模型的训练、文本数据的分类,使得文本分类模型的训练、文本数据的分类过程中,训练、分类的效率可随子节点数量而调控;同时单一子节点在训练、分类过程中出现的错误不会影响到整体的训练、分类,具有高容错率;在高延迟的网络中,各子节点也能通过异步通信的方式实现模型参数的更新,保证文本分类模型训练的效率,降低了模型训练对网络环境的要求。
图5是本发明实施例提供的一种文本分类装置的框图,该装置应用于主节点,如图5所示,该装置500可以包括:
状态信息获取模块501,用于获取至少两个子节点分别对应的第一状态信息;
文本数据划分模块502,用于根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集;
文本数据分发模块503,用于将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果;
文本数据分类模块504,用于根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果。
可选地,所述状态信息获取模块501,还用于获取至少两个子节点分别对应的第二状态信息;
所述文本数据划分模块502,还用于根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集;
所述文本数据分发模块503,还用于将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
可选地,所述装置还包括:
参数接收模块,用于周期性接收所述子节点发送的子节点参数;
参数调节模块,用于对所述子节点参数进行均值处理,获得调节参数;
参数发送模块,用于将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
可选地,所述装置还包括:
条目类别确定模块,用于确定待分类的类别条目;
类别文本获取模块,用于对应每一个所述类别条目,获取待训练的类别文本数据集;
文本数据获取模块,用于根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
可选地,所述装置还包括:
语义特征提取模块,用于提取所述第二文本数据集对应的第一文本语义特征;
公共特征参数生成模块,用于生成所述第二文本数据集对应的公共特征参数,所述公共特征参数包括所述第二文本数据集中的第一文本语义特征与编码符号的对应关系;
所述文本数据分发模块503,具体用于将所述第二文本数据子集与所述公共特征参数分发到所述第二状态信息对应的所述子节点,以使所述子节点分别提取所述第二文本数据子集的第二文本语义特征,并根据所述公共特征参数、所述第二文本语义特征确定所述第二文本数据子集对应的子特征参数,根据所述子特征参数进行文本分类模型的训练,获得所述文本分类模型。
综上所述,本发明实施例中,通过主节点对待分类的第一文本数据或待训练的第二文本数据根据各子节点的第一状态信息或第二状态信息进行分发,各子节点之间相对独立地进行文本分类模型的训练、文本数据的分类,使得文本分类模型的训练、文本数据的分类过程中,训练、分类的效率可随子节点数量而调控;同时单一子节点在训练、分类过程中出现的错误不会影响到整体的训练、分类,具有高容错率;在高延迟的网络中,各子节点也能通过异步通信的方式实现模型参数的更新,保证文本分类模型训练的效率,降低了模型训练对网络环境的要求。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种文本分类方法,其特征在于,所述方法应用于主节点,所述方法包括:
获取至少两个子节点分别对应的第一状态信息;
根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集;
将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果;
根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果;
通过如下步骤训练所述文本分类模型:
获取至少两个子节点分别对应的第二状态信息;
根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集;
将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点之后,所述方法还包括:
周期性接收所述子节点发送的子节点参数;
对所述子节点参数进行均值处理,获得调节参数;
将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
3.根据权利要求1所述的方法,其特征在于,通过如下步骤获取待训练的第二文本数据集:
确定待分类的类别条目;
对应每一个所述类别条目,获取待训练的类别文本数据集;
根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集之前,所述方法还包括:
提取所述第二文本数据集对应的第一文本语义特征;
生成所述第二文本数据集对应的公共特征参数,所述公共特征参数包括所述第二文本数据集中的第一文本语义特征与编码符号的对应关系;
所述将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型,包括:
将所述第二文本数据子集与所述公共特征参数分发到所述第二状态信息对应的所述子节点,以使所述子节点分别提取所述第二文本数据子集的第二文本语义特征,并根据所述公共特征参数、所述第二文本语义特征确定所述第二文本数据子集对应的子特征参数,根据所述子特征参数进行文本分类模型的训练,获得所述文本分类模型。
5.一种文本分类装置,其特征在于,所述装置应用于主节点,所述装置包括:
状态信息获取模块,用于获取至少两个子节点分别对应的第一状态信息;
文本数据划分模块,用于根据所述第一状态信息对待分类的第一文本数据集进行划分,得到所述第一状态信息对应的待分类的第一文本数据子集;
文本数据分发模块,用于将所述第一文本数据子集分发到所述第一状态信息对应的所述子节点,以通过所述子节点中的文本分类模型对所述第一文本数据子集进行分类,获得所述第一文本数据子集的分类结果;
文本数据分类模块,用于根据所述第一文本数据子集的分类结果,确定所述第一文本数据集的分类结果;
所述状态信息获取模块,还用于获取至少两个子节点分别对应的第二状态信息;
所述文本数据划分模块,还用于根据所述第二状态信息对待训练的第二文本数据集进行划分,得到所述第二状态信息对应的待训练的第二文本数据子集;
所述文本数据分发模块,还用于将所述第二文本数据子集分发到所述第二状态信息对应的所述子节点,以使所述子节点分别根据对应的所述第二文本数据子集训练文本分类模型,获得各子节点的文本分类模型。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
参数接收模块,用于周期性接收所述子节点发送的子节点参数;
参数调节模块,用于对所述子节点参数进行均值处理,获得调节参数;
参数发送模块,用于将所述调节参数发送给所述子节点,以使所述子节点将所述调节参数作为模型参数训练文本分类模型。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
条目类别确定模块,用于确定待分类的类别条目;
类别文本获取模块,用于对应每一个所述类别条目,获取待训练的类别文本数据集;
文本数据获取模块,用于根据各类别条目对应的所述类别文本数据集,获取待训练的第二文本数据集。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
语义特征提取模块,用于提取所述第二文本数据集对应的第一文本语义特征;
公共特征参数生成模块,用于生成所述第二文本数据集对应的公共特征参数,所述公共特征参数包括所述第二文本数据集中的第一文本语义特征与编码符号的对应关系;
所述文本数据分发模块,具体用于将所述第二文本数据子集与所述公共特征参数分发到所述第二状态信息对应的所述子节点,以使所述子节点分别提取所述第二文本数据子集的第二文本语义特征,并根据所述公共特征参数、所述第二文本语义特征确定所述第二文本数据子集对应的子特征参数,根据所述子特征参数进行文本分类模型的训练,获得所述文本分类模型。
CN202010292062.XA 2020-04-14 2020-04-14 一种文本分类方法和装置 Active CN111625644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010292062.XA CN111625644B (zh) 2020-04-14 2020-04-14 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010292062.XA CN111625644B (zh) 2020-04-14 2020-04-14 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN111625644A CN111625644A (zh) 2020-09-04
CN111625644B true CN111625644B (zh) 2023-09-12

Family

ID=72259711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010292062.XA Active CN111625644B (zh) 2020-04-14 2020-04-14 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN111625644B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN105912399A (zh) * 2016-04-05 2016-08-31 杭州嘉楠耘智信息科技有限公司 一种任务处理方法、装置及系统
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
CN109800204A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 数据分配方法及相关产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204135A1 (en) * 2017-01-18 2018-07-19 Wipro Limited Systems and methods for improving accuracy of classification-based text data processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN105912399A (zh) * 2016-04-05 2016-08-31 杭州嘉楠耘智信息科技有限公司 一种任务处理方法、装置及系统
CN106909654A (zh) * 2017-02-24 2017-06-30 北京时间股份有限公司 一种基于新闻文本信息的多级分类系统及方法
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
CN109800204A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 数据分配方法及相关产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Masaki Kohana ; Hiroki Sakaji ; Akio Kobayashi ; Shusuke Okamoto.A Distributed Calculation Scheme for Contents Categorization.2017 IEEE 31st International Conference on Advanced Information Networking and Applications (AINA).2017,全文. *

Also Published As

Publication number Publication date
CN111625644A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN110097085B (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
CN105824802B (zh) 一种获取知识图谱向量化表示的方法以及装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN109815336B (zh) 一种文本聚合方法及系统
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN106886569A (zh) 一种基于mpi的ml‑knn多标签中文文本分类方法
CN109948160B (zh) 短文本分类方法及装置
CN111680155A (zh) 文本分类方法、装置、电子设备及计算机存储介质
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN111539612B (zh) 一种风险分类模型的训练方法和系统
CN113627530A (zh) 相似问题文本生成方法、装置、设备及介质
CN107748783A (zh) 一种基于句向量的多标签公司描述文本分类方法
CN108595426A (zh) 基于汉字字形结构性信息的词向量优化方法
CN103268346A (zh) 半监督分类方法及系统
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
CN111625644B (zh) 一种文本分类方法和装置
CN109726286B (zh) 一种基于lda主题模型的图书自动分类方法
CN113747480B (zh) 5g切片故障的处理方法、装置及计算设备
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN113240032A (zh) 一种图像分类方法、装置、设备及存储介质
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN113392868A (zh) 一种模型训练的方法、相关装置、设备及存储介质
CN112836043A (zh) 一种基于预训练语言模型的长文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant