CN116340515A - 文本分类的方法、装置及电子设备 - Google Patents
文本分类的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116340515A CN116340515A CN202310224949.9A CN202310224949A CN116340515A CN 116340515 A CN116340515 A CN 116340515A CN 202310224949 A CN202310224949 A CN 202310224949A CN 116340515 A CN116340515 A CN 116340515A
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- vector
- label
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 54
- 239000013598 vector Substances 0.000 claims abstract description 255
- 230000004048 modification Effects 0.000 claims description 45
- 238000012986 modification Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 239000003607 modifier Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005034 decoration Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 240000005369 Alstonia scholaris Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241001596784 Pegasus Species 0.000 description 1
- 102000014105 Semaphorin Human genes 0.000 description 1
- 108050003978 Semaphorin Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类的方法、装置及电子设备,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,即通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,提高了待分类文本的分类精确度。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类的方法、装置及电子设备。
背景技术
文本分类指的是根据文本之间的相似度对文本进行分类。其中,常采用自监督方式完成文本分类,这是因为自监督方式完成文本分类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效分类的重要手段。
相关技术中,对于文本进行分类时,仅仅使用标注的一级标签作为文本的分类依据,仅采用标注的一级标签作为文本的分类依据,易导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。
发明内容
本申请提供一种文本分类的方法、装置及电子设备,以提高文本分类的准确度。
第一方面,本申请提供一种文本分类的方法,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
第二方面,本申请提供一种文本分类的装置,包括:获取模块,用于获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;分词模块,用于对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;确定模块,用于根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;所述获取模块,还用于获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;所述确定模块,还用于基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签。
第三方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面的方法。
可以看出,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本申请实施例提供的一种文本分类的方法的流程示意图;
图2为本申请实施例提供的一种文本分类的装置的结构示意图;
图3为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如前,对于文本分类仅仅使用标注的一级标签作为文本的分类依据,但是对于文本的一级标签而言,可以对一级标签进行进一步的划分形成二级标签从而对文本进行更细粒度的划分,但是目前对于文本进行分类时,仅采用标注的一级标签作为文本的分类依据,导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。
为了提高文本分类的分类准确度。本申请实施例旨在提供一种文本分类的方案,其包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
通过本申请实施例公开的技术方案,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
应理解,本申请实施例提供的文本分类的方法均可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。其中,文本处理方法可以由同一电子设备执行,或者也可以由不同的电子设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种文本分类的方法的流程示意图,应用于电子设备,该方法可以包括:
步骤S101,获取待分类文本。
其中,待分类文本携带一级标签和二级标签,其中,二级标签为一级标签的子标签。
具体来讲,待分类文本是已经被标注的数据,该被标注的数据含有文本和该文本对应的标签,待分类文本可以由至少一个句子组成,每个句子由多个词语组成。其中,该待分类文本携带的标签是多级递进标签,即一级标签和二级标签,一级标签可以进一步细分为多个二级标签。例如,待分类文本为“我想提前还款”,其一级标签可以为“期款还款”,二级标签可以为“提前还款”,其中,提前还款属于期款还款中的一类子标签。值得注意的是,一级标签下可以有多个二级标签,二级标签下也可以进一步划分为多个子标签,此类标签统一可以划分在权要的二级标签中,也即本实施例中,所述的二级标签包括二级标签本身以及二级标签下的子标签等,本申请实施例在此并不作限定。
步骤S103,对待分类文本进行分词,得到与待分类文本对应的多个第一词语。
具体来讲,待分类文本可以由至少一个句子组成,每个句子由多个词语组成,每个词语具有不同的词性,不同的词性的词语在句子中担任不同的句子成分,对待分类文本进行分词,可以是将待分类文本中的句子按照词语的词性和句子成分将待分类文本中的句子划分为多个第一词语,每个第一词语具有自身的词性以及自身所担任的句子成分。
步骤S105,根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词。
其中,主成分词为第一词语中的至少一个。
具体来讲,每一个第一词语都是组成待分类文本中句子的组成成分,待分类文本的句子中包括不同词性的第一词语,例如待分类文本中句子的各第一依次的词性包括名字、代词、动词、形容词、量词、副词等,每个不同词性的第一词语担任待分类文本中句子中不同的句子成分。待分类文本中各第一词语之间的语法关系指的是不同的句子成分之间的关系,如主谓关系、动宾关系、并列关系、修饰关系等,其中,主谓关系指的是主语成分和谓语成分之间的关系,动宾关系指的是动词成分和宾语成分的关系,并列关系指的是由词性相同的实词并列组成,修饰关系指的是前一个词语对后一个词语起到修饰或限制作用。进一步的,在组成待分类文本中句子的句子成分中,可以将句子成分中能够表达待分类文本的重要含义的至少一个句子成分对应的第一词语作为主成分词,例如将待分类文本的句子中的主语成分、谓语成分和中心语成分对应的第一词语作为主成分词。
在一种可能的实现方式中,根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词包括:对待分类文本中各第一词语之间的语法关系进行句法分析,得到待分类文本的语法结构信息,以及将待分类文本输入到自动文本摘要经典模型中进行摘要提取,得到待分类文本的摘要,语法结构信息指示各第一词语的词性;根据语法结构信息从摘要中查找修饰成分模板库中的修饰成分,得到待分类文本的修饰成分,修饰成分模板库为预先构建的;将待分类文本的修饰成分进行删除,得到文本标签;将文本标签和待分类文本输入到预训练语言模型,得到待分类文本的主成分词,预训练语言模型用于利用文本标签对待分类文本进行主成分分析,得到待分类文本的主成分词。
具体来讲,句法分析指的是对待分类文本的句子中的词语语法功能进行分析,即对待分类文本中各个词语所充当的句子成分进行分析,待分类文本的语法结构信息指的是待分类文本的句子中充当不同句子成分的各个第一词语的词性。自动文本摘要经典模型(Textsum)用来对待分类文本进行摘要提取,得到待分类文本的摘要。对于该摘要而言,其反映出待分类文本的梗概。摘要中不同词性的第一词语所充当的句子成分可能包含修饰成分,修饰成分可以为状语、定语,该修饰成分对应相应词性的词语,其并不会影响待分类文本的主干表达,修饰成分模板库指的是作为修饰功能的句子成分以及句子成分对应的词语的词性,其可以由相关人员预先构建供后续使用,因此可以按照分析出的语法结构信息确定出摘要中的修饰成分,再从修饰成分模板库中查找该摘要中的修饰成分,如果修饰成分模板库中出现了摘要中的修饰成分,则将摘要中的该修饰成分删除,摘要中剩余的句子成分对应的词语作为初始的主成分词。
修饰成分模板库中的修饰成分可能存在无法全部涵盖摘要中出现的全部的修饰词,通过修饰成分模板库所确定的主成分词可能还会包括修饰成分,因此,为了对待分类文本中的主成分词能够进一步的补充,从而提高确认出的主成分词的精确度,可以对待分类文本中的主成分词进行进一步的提取。具体是将文本标签和待分类文本输入到预训练语言模型(bart),通过预训练语言模型(bart)对待分类文本进行主成分分析,得到待分类文本的主成分词。其中,预训练语言模型对待分类文本进行主成分分析是通过预训练语言模型按照文本标签的指示从待分类文本中确定该文本标签对应的句子成分,以及该句子成分对应的第一词语,然后对该文本标签对应的句子成分进行主成分分析,从而去除掉文本标签对应的句子成分中的修饰成分,待分类文本中剩余的句子成分对应的第一词语则便作为待分类文本的主成分词,如此得到的待分类文本的主成分词更加精确,从而便于待分类文本的精确分类。
进一步的,对于预训练语言模型可以预先进行训练,具体是获取文本样本;对文本样本中各第二词语之间的语法关系进行句法分析,得到文本样本的样本语法结构信息,样本语法结构信息指示各第二词语的词性;将文本样本输入到自动文本摘要经典模型中进行摘要提取,得到文本样本的摘要;根据样本语法结构信息对摘要中的修饰成分进行删除,得到样本标签,其中,修饰成分为预先构建的修饰成分模板中的至少一个;将样本标签和文本样本输入到待训练的预训练语言模型进行训练,得到预训练语言模型。
具体来讲,文本样本指的是用来训练预训练语言模型的文本,该文本中包括至少一个句子,对每个句子进行分词,得到与文本样本对应的多个第二词语。
句法分析指的是对文本样本的句子中的词语语法功能进行分析,即对文本样本中各个词语所充当的句子成分进行分析,文本样本的样本语法结构信息指的是文本样本的句子中充当不同句子成分的各个第二词语的词性。自动文本摘要经典模型(Textsum)用来对文本样本进行摘要提取,得到文本样本的摘要。对于该摘要而言,其反映出文本样本的梗概。摘要中不同词性的第二词语所充当的句子成分可能包含修饰成分,修饰成分可以为状语、定语,该修饰成分对应相应词性的词语,其并不会影响文本样本的主干表达,修饰成分模板库指的是作为修饰功能的句子成分以及句子成分对应的词语的词性,其可以由相关人员预先构建供后续使用,因此可以按照分析出的样本语法结构信息确定出摘要中的修饰成分,再从修饰成分模板库中查找该摘要中的修饰成分,如果修饰成分模板库中出现了摘要中的修饰成分,则将摘要中的该修饰成分删除,摘要中剩余的句子成分对应的词语作为初始的主成分词。
修饰成分模板库中的修饰成分可能存在无法全部涵盖摘要中出现的全部的修饰词,通过修饰成分模板库所确定的主成分词可能还会包括修饰成分,因此,为了对文本样本中的主成分词能够进一步的补充,从而提高确认出的主成分词的精确度,可以对文本样本中的主成分词进行进一步的提取。具体是将文本标签和文本样本输入到待训练的预训练语言模型(bart)对进行训练,在训练的过程中通过预训练语言模型(bart)利用文本标签对文本样本进行主成分分析,得到文本样本的主成分词,使得训练好的预训练语言模型具备主成分分析的能力。
步骤S107,获取主成分词的第一义素向量,第一义素向量指示主成分词的语义。
具体来讲,可以通过义素向量表获取主成分词的第一义素向量或者通过义素分析法获取主成分词的义素向量,其中,义素向量可以表示主成分词的语义,其指的是主成分的义素以向量的形式表示。对于义素向量表可以按照下述方式确定:
1)首先加载通用领域的义素向量二维表。
2)人工标注领域专有词汇的义素向量二维表,作为专有词的基础义素(显性义素)。
3)构建专有领域中专有词中近义词、反义词对比任务,标注专有领域中专有词的词义区别义素序列。
4)构建领域内句子对比任务(前一句为合法句、后一句为非法句,二者仅有一个词不同),标注唯一有区别的词义的区别义素序列,将不属于基础义素列表的义素类形成特殊义素列表,从而挖掘隐性义素。
5)将义素列表中所有义素按照人工理解的方式,分布于语法义素空间、范畴义素空间、内涵义素空间。在语法义素空间,包含:词性、合法句法搭配槽、非法句法搭配槽,范畴义素空间,包括:生物、非生物,内涵义素空间,包括:时间维度、空间维度、颜色维度等,在多空间中绘制高维语义星球,使得义素向量之间的语义距离(广义的语义距离,包含语法距离)真正的体现在语义星球。
6)训练:将此前标注的句子对比数据进行模型训练(基于预训练语言模型的多分类任务微调)(X为一组句子对,前一句为合法句、后一句为非法句,二者仅有一个词不同),y为唯一有区别的两个词的词义区别义素序列。
7)将模型训练过程中所有的义素类名、义素向量放入二维表中,成为义素二维表,保证一个义素对应一个义素向量,构建义素映射表。
8)上接步骤6),将同一词含有的所有义素序列按照从左至右的方式拼接,按照语法义素空间、范畴义素空间、内涵义素空间的顺序,各空间内也按照某一固定顺序初始化,将每个词在所有义素维度上的所有义素向量拼接(每一个义素向量用一维表示,无该义素则该义素维度的值为0,与此义素相反则义素值为负数)。
9)生成词与义素向量相加关系,建立词与义素向量的相加方程式,建立词与义素向量的映射关系表,即义素向量表。
步骤S109,基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签。
具体来讲,在确定第一义素向量之后,可以通过计算第一义素向量与一级标签和二级标签之间的向量距离,通过该向量距离确定待分类文本所属的第一类别标签,第一义素向量与哪个标签的距离越小,则待分类文本则属于哪个标签。具体可以计算第一义素向量与一级标签对应的词向量和二级标签对应的词向量之间的距离,也可以是计算第一义素向量与一级标签对应的义素向量和二级标签对应的义素向量之间的距离,或者是计算第一义素向量与一级标签或二级标签对应的词向量和义素向量组成的最终向量之间的距离,或者是计算主成分词的词向量或义素向量与一级标签或二级标签对应的词向量和义素向量组成的最终向量之间的距离。
在一种可能的实现方式中,基于第一义素向量从一级标签和二级标签确定待分类文本所属的第一类别标签包括:获取主成分词的第一词向量;获取一级标签的第二词向量和一级标签的第二义素向量,以及二级标签的第三词向量和二级标签的第三义素向量,第二义素向量指示一级标签的语义,第三义素向量指示二级标签的语义;根据第二词向量和第二义素向量确定一级标签的第一向量,以及根据第三词向量和第三义素向量确定二级标签的第二向量;基于第一词向量、第一义素向量、第一向量和第二向量对待分类文本进行分类,得到第一类别标签。
具体来讲,获取主成分词、一级标签以及二级标签的词向量可以是通过词向量表获取,该词向量表可以通过深度学习模型得到。获取一级标签的义素向量和二级标签的义素向量可以通过上述实施例中生成的义素向量表获取或者通过义素分析法获取一级标签以及二级标签的义素向量,其中,义素向量可以表示主成分词的语义,其指的是主成分的义素以向量的形式表示。其中,在得到一级标签的第二词向量和第二义素向量之后,将第二词向量和第二义素向量做向量加法,得到第一向量,将二级标签的第三词向量和第三义素向量做向量加法,得到第二向量。如此,在确定待分类文本的类别标签时,能够按照待分类文本中主成分词的义素向量和一级标签或二级标签的义素向量确定待分类文本的类别标签,由于主成分的义素向量和一级标签或二级标签的义素向量都能表示出各自对应的语义,同时以待分类文本中主成分词的义素向量指示的语义和一级标签或二级标签的义素向量指示的语义作为分类依据,能够进一步提高待分类文本的分类精确度。
值得注意的是,获取上述的各个词向量以及义素向量也可以有其他的方式,本申请实施例在此并不作限定。
在一种可能的实现方式中,基于第一词向量、第一义素向量、第一向量和第二向量对待分类文本进行分类,得到第一类别标签包括:分别计算第一词向量与第一向量之间的第一距离;在第一距离小于第一阈值的情况下,分别计算第一词向量与第二向量之间的第二距离,和第一义素向量与第二向量之间的第三距离;在第二距离小于第二阈值,且第三距离小于第三阈值的情况下,确定待分类文本所属的第一类别标签为二级标签;在第二距离不小于第二阈值或者第三距离不小于第三阈值的情况下,确定待分类文本所属的第一类别标签为一级标签。
具体来讲,第一阈值、第二阈值和第三阈值可以根据实际情况确定,本申请实施例对于第一阈值至第二阈值的具体取值不作限定。其中,计算上述向量与向量之间的距离时,可以计算其欧式距离、余弦距离以及曼哈顿距离等,本申请实施例在此并不作限定。更为具体的,在第一距离小于第一阈值时,说明待分类文本属于一级标签,可以进一步的计算第一词向量和第一义素向量与第二向量之间的第四距离以确定待分类文本是否属于二级标签,如果计算出的第二距离小于第二阈值且第三距离小于第三阈值时,说明待分类文本属于二级标签,若第二距离和第三距离中的任意一者不小于对应的阈值,说明待分类文本不属于二级标签而属于一级标签,在第一距离不小于第一阈值时,说明待分类文本不属于一级标签。
如此,在判定待分类文本是否属于二级标签时,使用义素层面的向量距离,这是因为二级标签的语义粒度较小,使用义素这一更小的语义粒度上的距离可以有效区分二级标签与一级标签之间的共性和异性效果,进一步提高了待分类文本在一级标签和二级标签中分类的精确度。
通过本申请实施例公开的技术方案,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
为了进一步提高待分类文本的分类精确度,可以结合待分类文本的上下文语境和待分类文本的主成分词进行分类,在一种可能的实现方式中,在基于第一义素向量从一级标签和二级标签确定待分类文本所属的第一类别标签之后,方法还包括:获取各第一词语所处的待分类文本的句子标识和在所处的待分类文本中的位置信息;获取各第一词语的第一初始化词向量,以及分别获取各第一词语的第四义素向量;对各第一词语的第一初始化词向量、第四义素向量、句子标识和位置信息进行叠加,得到各第一词语对应的第四词向量;根据各第一词语的第四词向量、第一向量以及第二向量对待分类文本进行分类,得到待分类文本所属的第二类别标签;计算第一类别标签和第二类别标签的加权和,得到待分类文本的目标类别。
具体来讲,对于组成待分类文本的第一词语而言,其携带有所处的待分类文本的句子标识segmentation embedding以及第一词语在所处的句子中的位置信息positionembedding,句子标识segmentation embedding指示第一词语处于哪个句子中,位置信息position embedding指示第一词语在所处的句子中的具体的位置。在获取第一词语的初始化词向量word_embedding时,可以从词向量表中获取,该词向量表可以通过深度学习模型得到。获取第一词语的义素向量semely_word_embedding可以是通过上述实施例中生成的义素向量表获取。第一词向量的第四词向量可以是对上述的初始化词向量word_embedding、第四义素向量semely_word_embedding、句子标识segmentation embedding和位置信息position embedding进行向量加法得到。然后分别计算第四词向量与第一向量、第四词向量与第二向量之间的向量距离来对待分类文本进行分类,得到待分类文本所属的第二类别标签。
进一步的,对第一类别标签和第二类别标签进行加权和的具体步骤是:通过映射字典将第一类别标签映射为第一数值,将第二类别标签映射为第二数值,获取为第一类别标签分配的第一权重和为第二类别标签分配的第二权重,计算第一数值与第一权重的乘积与第二数值与第二权重的乘积之和,得到加权和,在加权和大于第六阈值的情况下,说明该待分类文本的最终类别为一级标签,如果该加权和不大于第六阈值,说明该待分类文本的最终类别为二级标签。其中,第一权重可以大于第二权重,第六阈值可以根据实际情况确定,本申请实施例在此不作限定。进一步,一级标签映射的数值大于二级标签映射的数值,在第一类别标签和第二类别标签相同时(即都属于一级标签或二级标签),第一数值和第二数值相同。如此,结合待分类文本整体的语义特征和待分类文本的主成分词的语义特征进行分类,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本整体的义素向量以及主成分词的义素向量可以关注到待分类文本整体和主干所表达出来的语义信息,从而更细粒度且精准的知晓待分类文本所表达的含义,从而以待分类文本中主成分词的义素向量指示的语义和待分类文本整体的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,使得待分类文本的分类更加精确。
在一种可能的实现方式中,根据第四词向量、第一向量以及第二向量对待分类文本进行分类,得到待分类文本所属的第二类别标签包括:计算第四词向量与第一向量之间的第四距离;在第四距离小于第四阈值的情况下,计算第四词向量与第二向量之间的第五距离;在第五距离小于第五阈值的情况下,确定待分类文本所属的第二类别标签为二级标签;在第五距离不小于第五阈值的情况下,确定待分类文本所属的第二类别标签为一级标签。
具体来讲,计算上述向量与向量之间的距离时,可以计算向量与向量之间的欧式距离、余弦距离以及曼哈顿距离等,本申请实施例在此并不作限定。更为具体的,在第四距离小于第四阈值时,说明待分类文本属于一级标签,可以进一步的计算第四词向量和第二向量之间的第五距离以确定待分类文本是否属于二级标签,如果计算出的第五距离小于第五阈值时,说明待分类文本属于二级标签,若第五距离不小于第五阈值时,说明待分类文本不属于二级标签而属于一级标签,在第四距离不小于第四阈值时,说明待分类文本不属于一级标签。值得注意的是,第四阈值、第五阈值可以根据实际情况确定,本申请实施例对于第四阈值和第五阈值的具体取值不作限定。如此,在判定待分类文本是否属于二级标签时,使用义素层面的向量距离,这是因为二级标签的语义粒度较小,使用义素这一更小的语义粒度上的距离可以有效区分二级标签与一级标签之间的共性和异性效果,进一步提高了待分类文本在一级标签和二级标签中分类的精确度。
下面结合具体应用场景对本申请实施例提供的技术方案进行进一步的详细说明,具体应用场景为对话机器人静默检测,其中,静默检测是对对话机器人会话数据中静默数据进行分类,目前已有的静默检测模型预测出静默数据所属的一级分类,本申请实施例基于一级分类及人工数据标注、文本以及文本上下文语境等信息进行二级分类,实现对话机器人静默数据的更为精准的分类,从而为用户进行精准的业务推荐,提高用户体验感。其中,在具体应用场景中,待分类文本为对话机器人与用户进行对话的对话文本,该对话文本作为静默数据,对话文本包括用户所咨询的业务信息,通过本申请实施例提供的技术方案,对对话文本中业务信息所属的业务类别进行确定,其中,第一类别标签为业务信息所属的业务类别标签,从而为用户推荐业务类别标签相关的目标业务,其中,目标业务可以为用户咨询业务相关的全部业务,也可以是用户咨询的某一种业务,本申请实施例在此并不作限定。
在该应用场景中,获取对话机器人与用户之间的静默数据,该静默数据可以为单条文本、单条文本对应的原始标签以及人工分析纪要。举个例子,1)静默数据包括以下内容:
a.文本内容:'你好,先生,那我现在一个一个合同给您退款。感谢您的耐心等待。
b.上下文语境:'我知道你刚刚可以看到先生您这边稍等一下,这边,你的那个记录有点多,我帮您看一下,稍等。'msxf'嗯,好。好,好。'msxf'你好,先生,那我现在一个一个合同给您退款。感谢您的耐心等待。'msxf'呃就是我,那我现在就是把这个钱转进去可以吗?'msxf'嗯。
c.原始标签:其他类静默。
d.人工分析纪要:和上一个“2”是在同一个静默等待环节,坐席告知数据有点多,让客户再多等一下。
2)将其中的人工分析纪要输入摘要生成模型(比如:PreSumm或pegasus),取top_n个摘要结果,举个例子:摘要1:因数据多请客户等待;摘要2:坐席告知数据多,让客户等待
a.准备标注数据:将带上下文语境的单条文本加人工分析纪要拼接作为原始文本,请人工进行静默类别标注
拼接方式:使用[sep]分隔符,将带上下文语境的单条文本与人工分析纪要文本前后拼接,具体示例如下标注数据中展示。
b.将标好的数据按照如下格式输入PreSumm模型中,在预训练模型的基础上进行训练。
标注数据格式可以为如下格式:“text(文本)”“abstract(摘要)”
'我知道你刚刚可以看到先生您这边稍等一下,这边,你的那个记录有点多,我帮您看一下,稍等。'msxf'嗯,好。好,好。'msxf'你好,先生,那我现在一个一个合同给您退款。感谢您的耐心等待。'msxf'就是我,那我现在就是把这个钱转进去可以吗?'msxf'嗯。'[sep]和上一个“2”是在同一个静默等待环节,坐席告知数据有点多,让客户再多等一下;因数据多请客户等待。
3)将摘要结果与原始标签组合,生成单条文本的预标签,举个例子:因数据多请客户等待类_其他类静默;其中,组合方式可以为:摘要结果与原始标签直接进行用下划线"_"作为连接符进行文本拼接。
4)将单条文本输入主成分分析模型,获取到单条文本的主成分词。
5)对预标签进行业务要素拆解,操作还款小于业务操作(即操作还款是业务操作的子业务)。
6)获取主成分词的义素向量,基于该义素向量从预标签中确定待分类文本的第一类别标签,其中,按照该义素向量表达出的语义从预标签中确定待分类文本的类别标签。如将上述单条文本所属的类别标签判定为操作还款慢请客户等待类静默判定为因业务操作慢请客户等待类静默的下级标签。如此,通过本申请实施例确定出的该静默数据所属的类别标签属于还款的类别标签,因此,基于该还款的类别标签向用户推荐还款类的业务。
此外,与上述图1所示的文本分类的方法相对应地,本申请实施例还提供一种文本分类的装置。图2是本申请实施例提供的一种文本分类的装置200的结构示意图,包括:获取模块201,用于获取待分类文本,待分类文本携带一级标签和二级标签,其中,二级标签为一级标签的子标签;分词模块202,用于对待分类文本进行分词,得到与待分类文本对应的多个第一词语;确定模块203,用于根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个;获取模块201,还用于获取主成分词的第一义素向量,第一义素向量指示主成分词的语义;确定模块203,还用于基于第一义素向量从一级标签和二级标签确定待分类文本所属的第一类别标签。
本申请实施例提供的文本分类的装置,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
在一种可能的实现方式中,确定模块203,还用于获取主成分词的第一词向量;获取一级标签的第二词向量和一级标签的第二义素向量,以及二级标签的第三词向量和二级标签的第三义素向量,第二义素向量指示一级标签的语义,第三义素向量指示二级标签的语义;根据第二词向量和第二义素向量确定一级标签的第一向量,以及根据第三词向量和第三义素向量确定二级标签的第二向量;基于第一词向量、第一义素向量、第一向量和第二向量对待分类文本进行分类,得到第一类别标签。
在一种可能的实现方式中,确定模块203,还用于分别计算第一词向量与第一向量之间的第一距离;在第一距离小于第一阈值的情况下,分别计算第一词向量与第二向量之间的第二距离,和第一义素向量与第二向量之间的第三距离;在第二距离小于第二阈值,且第三距离小于第三阈值的情况下,确定待分类文本所属的第一类别标签为二级标签;在第二距离不小于第二阈值或者第三距离不小于第三阈值的情况下,确定待分类文本所属的第一类别标签为一级标签。
在一种可能的实现方式中,获取模块201,还用于获取各第一词语所处的待分类文本的句子标识和在所处的待分类文本中的位置信息;获取各第一词语的第一初始化词向量,以及分别获取各第一词语的第四义素向量;对各第一词语的第一初始化词向量、第四义素向量、句子标识和位置信息进行叠加,得到各第一词语对应的第四词向量;还包括:分类模块,用于根据各第一词语的第四词向量、第一向量以及第二向量对待分类文本进行分类,得到待分类文本所属的第二类别标签;计算第一类别标签和第二类别标签的加权和,得到待分类文本的目标类别。
在一种可能的实现方式中,分类模块,还用于计算第四词向量与第一向量之间的第四距离;在第四距离小于第四阈值的情况下,计算第四词向量与第二向量之间的第五距离;在第五距离小于第五阈值的情况下,确定待分类文本所属的第二类别标签为二级标签;在第五距离不小于第五阈值的情况下,确定待分类文本所属的第二类别标签为一级标签。
在一种可能的实现方式中,确定模块203,还用于对待分类文本中各第一词语之间的语法关系进行句法分析,得到待分类文本的语法结构信息,以及将待分类文本输入到自动文本摘要经典模型中进行摘要提取,得到待分类文本的摘要,语法结构信息指示各第一词语的词性;根据语法结构信息从摘要中查找修饰成分模板库中的修饰成分,得到待分类文本的修饰成分,修饰成分模板库为预先构建的;将待分类文本的修饰成分进行删除,得到文本标签;将文本标签和待分类文本输入到预训练语言模型,得到待分类文本的主成分词,预训练语言模型用于利用文本标签对待分类文本进行主成分分析,得到待分类文本的主成分词。
在一种可能的实现方式中,获取模块201,还用于获取文本样本;对文本样本中各第二词语之间的语法关系进行句法分析,得到文本样本的样本语法结构信息,样本语法结构信息指示各第二词语的词性;将文本样本输入到自动文本摘要经典模型中进行摘要提取,得到文本样本的摘要;根据语法结构信息对摘要中的修饰成分进行删除,得到样本标签,其中,修饰成分为预先构建的修饰成分模板中的至少一个;将样本标签和文本样本输入到待训练的预训练语言模型进行训练,得到预训练语言模型。
待分类文本为对话机器人与用户进行对话的对话文本,对话文本包括用户所咨询的业务信息,第一类别标签为业务信息所属的业务类别标签,还包括:推荐模块,用于基于业务类别标签向用户推荐与业务类别标签相关的目标业务。
显然,本申请实施例公开的文本分类的装置可以作为上述实施例所示的文本分类的方法的执行主体,因此能够实现文本分类的方法在上述实施例所实现的功能。由于原理相同,在此不再赘述。
图3是本说明书的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类的装置。处理器,执行存储器所存放的程序,并具体用于执行上述任一方法实施例中提到的文本分类的方法。
上述如本说明书图1所示实施例揭示的文本分类的装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本申请实施例的电子设备可以实现文本分类的装置在图1所示实施例的功能。由于原理相同,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行上述任一实施例的文本分类的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (11)
1.一种文本分类的方法,其特征在于,包括:
获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;
对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;
根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;
获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;
基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签包括:
获取所述主成分词的第一词向量;
获取所述一级标签的第二词向量和所述一级标签的第二义素向量,以及所述二级标签的第三词向量和所述二级标签的第三义素向量,所述第二义素向量指示所述一级标签的语义,所述第三义素向量指示所述二级标签的语义;
根据所述第二词向量和所述第二义素向量确定所述一级标签的第一向量,以及根据所述第三词向量和所述第三义素向量确定所述二级标签的第二向量;
基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签。
3.根据权利要求2所述的文本分类的方法,其特征在于,所述基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签包括:
分别计算所述第一词向量与所述第一向量之间的第一距离;
在所述第一距离小于第一阈值的情况下,分别计算所述第一词向量与所述第二向量之间的第二距离,和所述第一义素向量与所述第二向量之间的第三距离;
在所述第二距离小于第二阈值,且所述第三距离小于第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述二级标签;
在所述第二距离不小于所述第二阈值或者所述第三距离不小于所述第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述一级标签。
4.根据权利要求2所述的文本分类的方法,其特征在于,在所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签之后,所述方法还包括:
获取各所述第一词语所处的待分类文本的句子标识和在所处的待分类文本中的位置信息;
获取各所述第一词语的第一初始化词向量,以及分别获取各所述第一词语的第四义素向量;
对各所述第一词语的所述第一初始化词向量、所述第四义素向量、所述句子标识和所述位置信息进行叠加,得到各所述第一词语对应的第四词向量;
根据各所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分类文本进行分类,得到所述待分类文本所属的第二类别标签;
计算所述第一类别标签和所述第二类别标签的加权和,得到所述待分类文本的目标类别。
5.根据权利要求4所述的文本分类的方法,其特征在于,根据所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分类文本进行分类,得到所述待分类文本所属的第二类别标签的具体实现方式有:
计算所述第四词向量与所述第一向量之间的第四距离;
在所述第四距离小于第四阈值的情况下,计算所述第四词向量与所述第二向量之间的第五距离;
在所述第五距离小于第五阈值的情况下,确定所述待分类文本所属的第二类别标签为所述二级标签;
在所述第五距离不小于所述第五阈值的情况下,确定所述待分类文本所属的第二类别标签为所述一级标签。
6.根据权利要求1所述的文本分类的方法,其特征在于,所述根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词包括:
对所述待分类文本中各所述第一词语之间的语法关系进行句法分析,得到所述待分类文本的语法结构信息,以及将所述待分类文本输入到自动文本摘要经典模型中进行摘要提取,得到所述待分类文本的摘要,所述语法结构信息指示各所述第一词语的词性;
根据所述语法结构信息从所述摘要中查找修饰成分模板库中的修饰成分,得到所述待分类文本的修饰成分,所述修饰成分模板库为预先构建的;
将所述待分类文本的修饰成分进行删除,得到文本标签;
将所述文本标签和所述待分类文本输入到预训练语言模型,得到所述待分类文本的主成分词,所述预训练语言模型用于利用所述文本标签对所述待分类文本进行主成分分析,得到所述待分类文本的主成分词。
7.根据权利要求6所述的文本分类的方法,其特征在于,得到所述预训练语言模型的具体过程包括:
获取文本样本;
对所述文本样本中各第二词语之间的语法关系进行句法分析,得到所述文本样本的样本语法结构信息,所述样本语法结构信息指示各所述第二词语的词性;
将所述文本样本输入到自动文本摘要经典模型中进行摘要提取,得到所述文本样本的摘要;
根据所述样本语法结构信息对所述摘要中的修饰成分进行删除,得到样本标签,其中,所述修饰成分为所述预先构建的修饰成分模板中的至少一个;
将所述样本标签和所述文本样本输入到待训练的预训练语言模型进行训练,得到所述预训练语言模型。
8.根据权利要求1所述的文本分类的方法,其特征在于,所述待分类文本为对话机器人与用户进行对话的对话文本,所述对话文本包括所述用户所咨询的业务信息,所述第一类别标签为所述业务信息所属的业务类别标签,在所述基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签之后,所述方法还包括:
基于所述业务类别标签向所述用户推荐与所述业务类别标签相关的目标业务。
9.一种文本分类的装置,其特征在于,包括:
获取模块,用于获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;
分词模块,用于对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;
确定模块,用于根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;
所述获取模块,还用于获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;
所述确定模块,还用于基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的文本分类的方法。
11.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的文本分类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224949.9A CN116340515A (zh) | 2023-03-09 | 2023-03-09 | 文本分类的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224949.9A CN116340515A (zh) | 2023-03-09 | 2023-03-09 | 文本分类的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340515A true CN116340515A (zh) | 2023-06-27 |
Family
ID=86881538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310224949.9A Pending CN116340515A (zh) | 2023-03-09 | 2023-03-09 | 文本分类的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340515A (zh) |
-
2023
- 2023-03-09 CN CN202310224949.9A patent/CN116340515A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
US11373041B2 (en) | Text classification using models with complementary granularity and accuracy | |
CN111339751A (zh) | 一种文本关键词处理方法、装置及设备 | |
CN109388801B (zh) | 相似词集合的确定方法、装置和电子设备 | |
CN109582948B (zh) | 评价观点抽取的方法及装置 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN113255328A (zh) | 语言模型的训练方法及应用方法 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN116127348A (zh) | 文本标签生成、模型训练、文本分类方法及相关设备 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
Sahin et al. | Introduction to Apple ML tools | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
US20230351121A1 (en) | Method and system for generating conversation flows | |
CN118113852A (zh) | 一种金融问题解答方法、装置、设备、系统、介质及产品 | |
CN115168575B (zh) | 应用于审计领域的主语补全方法及相关设备 | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN115759048A (zh) | 一种剧本文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |