CN113626603B - 文本分类的方法和装置 - Google Patents
文本分类的方法和装置 Download PDFInfo
- Publication number
- CN113626603B CN113626603B CN202110956610.9A CN202110956610A CN113626603B CN 113626603 B CN113626603 B CN 113626603B CN 202110956610 A CN202110956610 A CN 202110956610A CN 113626603 B CN113626603 B CN 113626603B
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- segment
- model
- semantic extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 180
- 239000013598 vector Substances 0.000 claims abstract description 127
- 239000012634 fragment Substances 0.000 claims abstract description 90
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 38
- 238000012512 characterization method Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
说明书披露一种文本分类的方法和装置。所述方法包括:对待分类文本进行切分,得到若干文本片段;针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
Description
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种文本分类的方法和装置。
背景技术
互联网技术已渗入社会生活的方方面面,为了更好地掌握用户对于各类商品、服务的评价以及及时管控网络中的不当言论,基于自然语言处理技术实现网络文本的情感分析、舆情分析等成为大势所趋。而诸如新闻、长评等文本中包涵着大量的有效信息,如何对其进行分类成为亟待解决的问题。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种文本分类的方法和装置。
为实现上述目的,本说明书一个或多个实施例提供的技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种文本分类的方法,所述方法包括:
对待分类文本进行切分,得到若干文本片段;
针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;
将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;
将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
根据本说明书一个或多个实施例的第二方面,提出了一种文本分类的装置,所述装置包括:
文本切分单元,对待分类文本进行切分,得到若干文本片段;
片段语义提取单元,针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;
文本语义提取单元,将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;
文本分类单元,将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括处理器和用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与文本分类的逻辑对应的机器可执行指令,所述处理器实现上述第一方面所述方法的步骤。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述第一方面所述方法的步骤。
由以上描述可以看出,本说明书中,先对待分类文本进行切分,得到若干文本片段并对这些文本片段分别提取语义,得到若干片段语义向量,然后基于各文本片段的片段语义向量再次提取语义,进而得到待分类文本的文本语义向量,最后基于所述文本语义向量进行文本分类。本说明书通过两次语义提取,得到了更加全面的语义特征,提高了文本分类的准确性;此外,针对语义复杂的长文本,本说明书所采用的层次结构具有更好的分类效果。
附图说明
图1是本说明书一示例性实施例示出的一种文本分类的方法流程示意图。
图2是本说明书一示例性实施例示出的对待分类文本进行切分的示意图。
图3是本说明书一示例性实施例示出的对待分类文本进行文本预处理的示意图。
图4是本说明书一示例性实施例示出的片段语义提取模型的结构示意图。
图5是本说明书一示例性实施例示出的文本语义提取模型的结构示意图。
图6是本说明书一示例性实施例示出的文本分类模型整体结构的示意图。
图7是本说明书一示例性实施例示出的一种文本分类的装置所在电子设备的结构示意图。
图8是本说明书一示例性实施例示出的一种文本分类的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
互联网中充斥着大量含有丰富信息的文本,基于自然语言处理技术(NaturalLanguage Processing,NLP)对网络中的文本进行分类,可以有效地应用于文本的情感分析、舆情分析和风险监控等多种场景。
举例来说,针对商品评价、服务评价等文本进行分类,可以确定用户对于所述商品、服务的情感倾向以用于市场分析;而针对发布自各大平台的新闻、时评、个人社交动态等文本进行分类,可以确定大众对于某一事物或事件的舆论倾向以用于舆情分析;此外,文本分类还可以用于区分待发布文本所属的领域以及检测待发布文本是否合规等。
在计算机技术领域,一般可将文本分为长文本和短文本,二者的主要区别在于文本长度的不同,针对长文本、短文本目前尚未有统一的定义方式,在微软的数据库系统ACCESS中,短文本被定义为文本长度在256个字符以内的文本,而长文本则被定义为文本长度超过256个字符的文本;常见的短文本包括短信、邮件和文献摘要等,而常见的长文本则包括新闻、时评和各类商品、服务的长评等。
相较于短文本,长文本中所包含的信息更加丰富,在处理时的难度也更高,本说明书实施例示出的一种文本分类的方法,能够有效应对长文本的分类问题。
图1是本说明书一示例性实施例示出的一种文本分类的方法流程图,所述文本分类的方法可以包括如下具体步骤:
步骤102,对待分类文本进行切分,得到若干文本片段。
考虑到长度不一的待分类文本不易于计算机进行统一处理,在本实施例中,可以先对待分类文本进行切分以得到若干文本片段。
所述对待分类文本进行切分,得到若干文本片段,存在多种可选择的实现方式。
在一个例子中,如图2所示,可以根据预设的窗口长度和预设的文本片段数量,采用滑动窗口的方式对所述待分类文本进行切分。
其中,所述预设的窗口长度,即每次滑动窗口后新窗口所包括的所述待分类文本的字符数量,所述字符可以为一个中文汉字,也可以为一个英文单词,或是其他形式的一个词汇单元;
所述预设的文本片段数量,即切分文本后预期得到的文本片段的数量。
举例来说,假设预设的窗口长度为200,预设的文本片段数量为5,采用滑动窗口的方式切分待分类文本的具体过程如下:
首个窗口包括待分类文本的第1至第200个字符,由当前窗口的末位字符依次向前,即由待分类文本的第200个字符依次向前查询预设的诸如标点符号、空格、换行等切分标识,以进行首个文本片段的切分,假设在第110个字符查询到预设的切分标识,则切分得到的首个文本片段由待分类文本的第1至第110个字符构成。
由待分类文本的第111个字符向后滑动窗口,得到包括待分类文本的第111至第310 个字符的第二个窗口,同前文所述继续切分,得到待分类文本的第二个文本片段,以此类推,不再赘述。
采用滑动窗口的方式切分待分类文本时,由于待分类文本的长度不一,可能产生如下的两种切分结果:
(1)由待分类文本切分得到的文本片段的数量不能达到预设的文本片段数量,此时,可以利用预设的文本片段对切分结果进行补充。
(2)由待分类文本切分得到的文本片段的数量会超出预设的文本片段数量,此时,可以按照语义顺序丢弃超出所述预设的文本片段数量的文本片段。
在实际实现中,每次滑动窗口进行文本切分后,将对待分类文本是否切分完毕以及当前切分得到的文本片段的数量进行判断,具体过程如下:
任一次滑动窗口进行文本切分后,判断待分类文本是否切分完毕。
若待分类文本已切分完毕,可判断当前切分得到的文本片段的数量是否达到预设的文本片段数量:
在是的情况下,说明由待分类文本切分得到的文本片段的数量恰好为预设的文本片段的数量,无需进行补充或丢弃;
在否的情况下,说明由待分类文本切分得到的文本片段的数量不能达到预设的文本片段数量,可利用预设的文本片段补充切分结果,以得到预设数量的文本片段,所述预设的文本片段可以由预设无意义的字符按预设的窗口长度构成。
任一次滑动窗口进行文本切分后,若待分类文本未切分完毕,可判断当前切分得到的文本片段的数量是否达到预设的文本片段数量:
在是的情况下,说明由待分类文本切分得到的文本片段的数量会超出预设的文本片段数量,不再进行文本切分,并按语义顺序将处于当前切分得到的文本片段之后的待分类文本丢弃;
在否的情况下,继续进行窗口滑动以及文本片段的切分。
基于前例,假设滑动后的第3个窗口已将待分类文本切分完毕,可以利用预设的文本片段为所述待分类文本补充2个文本片段;
假设滑动后的第5个窗口并未将待分类文本切分完毕,且由第5个窗口切分得到的第5个文本片段由待分类文本的第601至780个字符构成,则丢弃所述待分类文本自第 781个字符之后的文本。
在本实施例中,在对待分类文本进行切分前,还可以先对所述待分类文本进行第一次文本预处理以提高后续文本处理的效率,所述第一次文本预处理包括文本清洗和文本分词等。
所述文本清洗,包括对所述待分类文本中诸如emoji、URL等无效字符进行删除,以及对所述待分类文本进行拼写纠正和语法检查等;所述文本分词,包括对中文词汇的分词,以及对英文词缀的分词等。所述文本清洗和文本分词的具体方法参见相关技术,此处不再赘述。
步骤104,针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量。
本实施例中将进行两次语义提取,首次语义提取即采用片段语义提取模型,对各个文本片段进行片段语义的提取。
将切分得到的各个文本片段,分别作为入参输入已训练的片段语义提取模型,得到文本片段各自对应的片段语义向量,即,将多个不同的文本片段分别作为入参输入同一个已训练的片段语义提取模型得到对应的多个不同的片段语义向量。
举例来说,假设在步骤102中由待分类文本切分得到5个文本片段,分别为文本片段1至5,则将文本片段1至5分别作为入参输入已训练的片段语义提取模型,得到文本片段1至5各自对应的片段语义向量1至5。
要说明的是,如图3所示,为了有利于计算机进行统一处理,在将切分得到的文本片段输入片段语义提取模型前,通常会对各个文本片段进行第二次文本预处理。
所述第二次文本预处理包括标识添加和长度补齐等,可以使所述各个文本片段以相同的格式和长度输入所述片段语义提取模型。
所述标识添加,包括在文本片段的首个字符前添加分类标识CLS,用以表征原始的文本片段的起始,并在文本片段的末位字符后添加分隔标识SEP,用以表征原始的文本片段的终止。
完成标识添加后,可以判断所述文本片段当前的长度是否达到预设的文本片段长度,并在未达到的情况下对完成标识添加的所述文本片段进行长度补齐;所述分隔标识SEP,在进行长度补齐后,即用以分隔原始的文本片段和填充的字符。
所述长度补齐,即根据预设的文本片段长度对文本片段进行补齐,包括利用预设无意义的字符将文本片段填充到预设的文本片段长度。
举例来说,切分得到的文本片段1包括待分类文本的第1至第110个字符,可以在所述第1个字符前添加标识CLS,在所述第110个字符后添加标识SEP,并根据预设的文本片段长度512,利用预设无意义的字符对完成标识添加的文本片段1的第113至第 512个字符进行填充,然后再将完成标识添加和长度补齐后的文本片段1输入所述嵌入层。
下面,对所述片段语义提取模型的结构,以及所述片段语义提取模型提取出一个文本片段的片段语义向量的具体过程,进行说明。
如图4所示,所述片段语义提取模型包括嵌入层和若干串联的片段语义提取层。
其中,所述嵌入层,用于将所述文本片段转换为对应的若干嵌入向量。
具体地,所述嵌入层,将对输入的文本片段中所包含的各个字符执行转换,将所述文本片段所包含的各个字符转换为对应的嵌入向量;基于前例,所述嵌入层将输入的预处理后的文本片段1转换为512个字符各自对应的嵌入向量。
所述若干串联的片段语义提取层,即上一片段语义提取层的输出为下一片段语义提取层的输入;每个所述片段语义提取层,用于基于上一层输出的向量进行语义提取,并输出经本层提取得到的中间片段语义向量,基于最后一层所述片段语义提取层输出的中间片段语义向量,所述片段语义提取模型确定所述文本片段对应的片段语义向量。
具体地,参考图4,片段语义提取层1以所述嵌入层输出的若干字符对应的嵌入向量为输入,经本层执行第一次片段语义提取,输出第一次提取出的所述若干字符对应的中间片段语义向量;
片段语义提取层2以片段语义提取层1输出的所述第一次提取出的中间片段语义向量为输入,经本层执行第二次片段语义提取,输出第二次提取出的所述若干字符对应的中间片段语义向量;
以此类推,直到最后一层片段语义提取层输出最后一次提取出的所述若干字符对应的中间片段语义向量。
所述最后一层片段语义提取层输出最后一次提取出的所述若干字符对应的中间片段语义向量中,所述标识CLS对应的最后一次提取出的中间片段语义向量,可以作为所述文本片段对应的片段语义向量。
基于前例,所述若干串联的片段语义提取层,可以根据输入的文本片段1的512个字符对应的嵌入向量,于最后一层片段语义提取层输出所述512个嵌入向量对应的最后一次提取出的中间片段语义向量,其中,标识CLS对应的最后一次提取出的中间片段语义向量,可以作为所述文本片段1最终对应的片段语义向量。
本实施例中所述的片段语义提取模型,存在多种可选择的实现模型。
在一个例子中,所述片段语义提取模型可以根据BERT模型(BidirectionalEncoder Representations from Transformers,基于转换器的双向编码器表征模型),或ALBERT模型(A Lite Bidirectional Encoder Representations from Transformers,轻量型基于转换器的双向编码器表征模型)构建。
具体地,可以使用BERT模型或ALBERT模型中的嵌入层实现所述片段语义提取模型中的嵌入层,以及使用BERT模型或ALBERT模型中若干串联的编码器层实现所述片段语义提取模型中的若干串联的片段语义提取层。
步骤106,将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量。
在本实施例中,得到所有文本片段的片段语义向量后,将按照语义次序结合已得到的若干文本语义向量表征待分类文本,并进行第二次语义提取,即采用文本语义提取模型对若干片段语义向量进一步进行文本语义的提取。
将由所述片段语义提取模型提取得到的所有文本片段对应的片段语义向量,按语义次序,作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量,即,将多个不同的片段语义向量按语义次序共同作为入参输入一个已训练的文本语义提取模型得到待分类文本对应的一个文本语义向量。
举例来说,假设在步骤104中提取得到文本片段1至5各自对应的片段语义向量1至5,则将片段语义向量1至5按语义次序,共同作为入参输入已训练的文本语义提取模型,得到待分类文本对应的文本语义向量。
同前文所述,在将所述若干片段语义向量输入所述文本语义提取模型前,可执行包括标识添加和长度补齐的第三次文本预处理。
基于前例,可以在片段语义向量1前添加标识CLS,在片段语义向量5后添加标识SEP,并根据预设的文本长度8,为完成标识添加的片段语义向量1至5再填充1个无意义的片段语义向量,然后将完成标识添加和长度补齐后的若干片段语义向量,按语义次序输入所述文本语义提取模型。
下面,对所述文本语义提取模型的结构,以及所述文本语义提取模型提取出所述待分类文本的文本语义向量的具体过程,进行说明。
如图5所示,所述文本语义提取模型包括若干串联的文本语义提取层。
其中,所述若干串联的文本语义提取层,即上一文本语义提取层的输出为下一文本语义提取层的输入;每个所述文本语义提取层,用于基于输入本层的向量进行语义提取,并输出经本层提取得到的中间文本语义向量,基于最后一层所述文本语义提取层输出的中间文本语义向量,所述文本语义提取模型确定所述待分类文本对应的文本语义向量。
具体地,参考图5,文本语义提取层1以所述按语义次序、完成标识添加和长度补齐后的若干片段语义向量为输入,经本层执行第一次文本语义提取,输出第一次提取出的所述若干片段语义向量对应的中间文本语义向量;
文本语义提取层2以文本语义提取层1输出的所述第一次提取出的中间文本语义向量为输入,经本层执行第二次文本语义提取,输出第二次提取出的所述若干片段语义向量对应的中间文本语义向量;
以此类推,直到最后一层文本语义提取层输出最后一次提取出的所述若干片段语义向量对应的中间文本语义向量。
所述最后一层文本语义提取层输出最后一次提取出的所述若干片段语义向量对应的中间文本语义向量中,所述标识CLS对应的最后一次提取出的中间文本语义向量,可以作为所述待分类文本对应的文本语义向量。
基于前例,所述若干串联的文本语义提取层,可以根据输入的8个片段语义提取向量,于最后一层文本语义提取层输出所述8个片段语义提取向量对应的最后一次提取出的中间文本语义向量,其中,标识CLS对应的最后一次提取出的中间文本语义向量,可以作为所述待分类文本最终对应的文本语义向量。
同前文所述,本实施例中所述的文本语义提取模型,也存在多种可选择的实现模型。
在一个例子中,所述片段语义提取模型可以根据BERT模型或ALBERT模型构建,可以使用BERT模型或ALBERT模型中若干串联的编码器层实现所述文本语义提取模型中的若干串联的文本语义提取层。
步骤108,将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
本实施例示出的文本分类的方法,在基于步骤104、步骤106完成两重语义提取后,得到了待分类文本的文本语义向量,将所述待分类文本的文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,可以确定所述待分类文本所属的文本分类。
本实施例中,对文本分类的具体类型和数量不做限制,可以简单地分为积极文本和消极文本两类,也可以根据实际的应用场景分为更多不同类型。
本实施例中所述的分类模型,存在多种可选择的实现模型。举例来说,所述分类模型,可以是基于LSTM(Long Short-Term Memory,长短期记忆网络)、CNN(ConvolutionalNeural Networks,卷积神经网络)等神经网络模型实现的分类模型。
所述根据分类模型的输出结果,确定待分类文本所属文本分类的具体方式,由所采用的具体分类模型决定,举例来说,若采用基于CNN的分类模型,可以根据其输出的所述待分类文本属于各文本分类的置信度,确定待分类文本所属的文本分类。
由以上描述可以看出,本说明书中,先对待分类文本进行切分,得到若干文本片段并对这些文本片段分别提取语义,得到若干片段语义向量,然后基于各文本片段的片段语义向量再次提取语义,进而得到待分类文本的文本语义向量,最后基于所述文本语义向量进行文本分类。本说明书通过两次语义提取,得到了更加全面的语义特征,提高了文本分类的准确性;此外,针对语义复杂的长文本,本说明书所采用的层次结构具有更好的分类效果。
在本实施例中,如图6所示,所述片段语义提取模型、文本语义提取模型和分类模型作为一个整体,以端到端的方式共同训练。
在一个例子中,可以选择BERT模型或ALBERT模型构建原始的片段语义提取模型和文本语义提取模型,可以选择基于CNN神经网络模型实现的分类模型作为原始的分类模型;利用预先标记有分类结果的文本样本集,对所述原始的片段语义提取模型、文本语义提取模型和分类模型以有监督学习的方式共同进行端到端的训练。
其中,所述BERT模型和ALBERT模型为预训练模型,具有丰富的先验经验。
在本实施例中,结合BERT模型或ALBERT模型实现文本分类,可以在预训练模型的基础上结合文本分类的具体场景进行训练,通过微调即可达到很好的使用效果,迭代次数少、训练效率高;
此外,基于BERT模型和ALBERT模型能够精确提取语义的特点,以及预训练模型拥有大量先验经验的优势,在本实施例中结合BERT模型或ALBERT模型能够提高文本分类的准确性。
所述BERT模型和ALBERT模型均包括嵌入层和若干串联的编码器层。
在实际实现时,可以使用BERT模型的嵌入层作为原始的片段语义提取模型中的嵌入层,使用BERT模型的若干串联的编码器层作为原始的片段语义提取模型中若干串联的片段语义提取层;或者,也可以使用ALBERT模型的嵌入层作为原始的片段语义提取模型中的嵌入层,使用ALBERT模型的若干串联的编码器层作为原始的片段语义提取模型中若干串联的片段语义提取层。
同理,可以使用BERT模型的若干串联的编码器层作为原始的文本语义提取模型中若干串联的文本语义提取层;或者,也可以使用ALBERT模型的若干串联的编码器层作为原始的文本语义提取模型中若干串联的文本语义提取层。
所述片段语义提取模型和文本语义提取模型可以均使用BERT模型或均使用ALBERT模型构建,也可以使用BERT模型构建其中一个并使用ALBERT模型构建另一个。
片段语义提取模型中使用的最后一层编码器层,与文本语义提取模型中使用的第一层编码器层在原BERT模型或ALBERT模型中可以是相邻的两层,也可以是不相邻的两层;同时,片段语义提取模型和文本语义提取模型中使用的编码器层的数量,可以相等,也可以不相等。
举例来说,可以初始化BERT模型的第1至第6层编码器层构建原始的片段语义提取模型,并初始化BERT模型的第7至第12层编码器层构建原始的文本语义提取模型;也可以初始化BERT模型的第1至第6层编码器层构建原始的片段语义提取模型,并初始化BERT模型的第4至第8层编码器层构建原始的文本语义提取模型。
与前述文本分类的方法的实施例相对应,本说明书还提供了文本分类的装置的实施例。
本说明书所提供的文本分类的装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书所提供的文本分类的装置所在电子设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据其实际功能,还可以包括其他硬件,对此不再赘述。
图8是本说明书一示例性实施例示出的一种文本分类的装置的框图。
请参考图8,所述文本分类的装置700可以应用在前述图7所示的电子设备中,所述装置包括:
文本切分单元710,对待分类文本进行切分,得到若干文本片段;
片段语义提取单元720,针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量;
文本语义提取单元730,将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量;
文本分类单元740,将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
可选地,所述片段语义提取模型包括嵌入层和若干串联的片段语义提取层;
其中,所述嵌入层,用于将所述文本片段转换为对应的若干嵌入向量;
每个所述片段语义提取层,用于基于上一层输出的向量进行语义提取,并输出经本层提取得到的中间片段语义向量;
所述片段语义提取模型,用于基于最后一层所述片段语义提取层输出的中间片段语义向量确定所述文本片段对应的片段语义向量。
可选地,所述文本语义提取模型包括若干串联的文本语义提取层;
每个所述文本语义提取层,用于基于输入本层的向量进行语义提取,并输出经本层提取得到的中间文本语义向量;
所述文本语义提取模型,用于基于最后一层所述文本语义提取层输出的中间文本语义向量确定所述待分类文本对应的文本语义向量。
可选地,所述片段语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT;
所述文本语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT模型。
可选地,所述文本切分单元710,根据预设的窗口长度和文本片段数量,采用滑动窗口的方式对所述待分类文本进行切分;
若切分后得到的文本片段的数量未达到所述文本片段数量,则利用预设的文本片段对切分结果进行补充;
若切分后得到的文本片段的数量超出所述文本片段数量,则按照语义顺序丢弃超出所述文本片段数量的文本片段。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述文本分类的方法的实施例相对应,本说明书还提供一种电子设备,该电子设备包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与文本分类的逻辑对应的机器可执行指令,所述处理器被促使实现上述任一实施例所述方法的步骤。
与前述文本分类的方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (8)
1.一种文本分类的方法,所述方法包括:
对待分类文本进行切分,得到若干文本片段;
针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量,其中,所述片段语义提取模型包括嵌入层和若干串联的片段语义提取层;所述嵌入层用于将所述文本片段转换为对应的若干嵌入向量;每个所述片段语义提取层用于基于上一层输出的向量进行语义提取,并输出经本层提取得到的中间片段语义向量;所述片段语义提取模型用于基于最后一层所述片段语义提取层输出的中间片段语义向量确定所述文本片段对应的片段语义向量;
将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量,其中,所述文本语义提取模型包括若干串联的文本语义提取层;每个所述文本语义提取层用于基于输入本层的向量进行语义提取,并输出经本层提取得到的中间文本语义向量;所述文本语义提取模型用于基于最后一层所述文本语义提取层输出的中间文本语义向量确定所述待分类文本对应的文本语义向量;
将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
2.根据权利要求1所述的方法,
所述片段语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT;
所述文本语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT。
3.根据权利要求1所述的方法,所述对待分类文本进行切分,包括:
根据预设的窗口长度和文本片段数量,采用滑动窗口的方式对所述待分类文本进行切分;
若切分后得到的文本片段的数量未达到所述文本片段数量,则利用预设的文本片段对切分结果进行补充;
若切分后得到的文本片段的数量超出所述文本片段数量,则按照语义顺序丢弃超出所述文本片段数量的文本片段。
4.一种文本分类的装置,所述装置包括:
文本切分单元,对待分类文本进行切分,得到若干文本片段;
片段语义提取单元,针对每个文本片段,将所述文本片段作为入参输入已训练的片段语义提取模型以对所述文本片段进行语义提取,得到所述文本片段对应的片段语义向量,其中,所述片段语义提取模型包括嵌入层和若干串联的片段语义提取层;所述嵌入层用于将所述文本片段转换为对应的若干嵌入向量;每个所述片段语义提取层用于基于上一层输出的向量进行语义提取,并输出经本层提取得到的中间片段语义向量;所述片段语义提取模型用于基于最后一层所述片段语义提取层输出的中间片段语义向量确定所述文本片段对应的片段语义向量;
文本语义提取单元,将所述若干文本片段对应的若干片段语义向量作为入参输入已训练的文本语义提取模型以对所述待分类文本进行语义提取,得到所述待分类文本对应的文本语义向量,其中,所述文本语义提取模型包括若干串联的文本语义提取层;每个所述文本语义提取层用于基于输入本层的向量进行语义提取,并输出经本层提取得到的中间文本语义向量;所述文本语义提取模型用于基于最后一层所述文本语义提取层输出的中间文本语义向量确定所述待分类文本对应的文本语义向量;
文本分类单元,将所述文本语义向量作为入参输入已训练的分类模型,根据所述分类模型的输出结果,确定所述待分类文本所属的文本分类。
5.根据权利要求4所述的装置,
所述片段语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT;
所述文本语义提取模型,为基于转换器的双向编码器表征模型BERT,或轻量级基于转换器的双向编码器表征模型ALBERT。
6.根据权利要求4所述的装置,
所述文本切分单元,根据预设的窗口长度和文本片段数量,采用滑动窗口的方式对所述待分类文本进行切分;
若切分后得到的文本片段的数量未达到所述文本片段数量,则利用预设的文本片段对切分结果进行补充;
若切分后得到的文本片段的数量超出所述文本片段数量,则按照语义顺序丢弃超出所述文本片段数量的文本片段。
7.一种电子设备,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与文本分类的逻辑对应的机器可执行指令,所述处理器实现如权利要求1-3中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-3中任一项使所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110956610.9A CN113626603B (zh) | 2021-08-19 | 2021-08-19 | 文本分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110956610.9A CN113626603B (zh) | 2021-08-19 | 2021-08-19 | 文本分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626603A CN113626603A (zh) | 2021-11-09 |
CN113626603B true CN113626603B (zh) | 2024-03-29 |
Family
ID=78386777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110956610.9A Active CN113626603B (zh) | 2021-08-19 | 2021-08-19 | 文本分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626603B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114048317A (zh) * | 2021-11-19 | 2022-02-15 | 盐城金堤科技有限公司 | 舆情文本的分类方法、装置、电子设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112580362A (zh) * | 2020-12-18 | 2021-03-30 | 西安电子科技大学 | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113128176A (zh) * | 2021-03-01 | 2021-07-16 | 科大讯飞股份有限公司 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
CN113239705A (zh) * | 2021-07-12 | 2021-08-10 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2021
- 2021-08-19 CN CN202110956610.9A patent/CN113626603B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680168A (zh) * | 2020-05-29 | 2020-09-18 | 平安银行股份有限公司 | 文本特征语义提取方法、装置、电子设备及存储介质 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112580362A (zh) * | 2020-12-18 | 2021-03-30 | 西安电子科技大学 | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 |
CN113128176A (zh) * | 2021-03-01 | 2021-07-16 | 科大讯飞股份有限公司 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113239705A (zh) * | 2021-07-12 | 2021-08-10 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
结合注意力机制与双向切片GRU的情感分类模型;陈虎;高波涌;陈莲娜;余翠;;小型微型计算机系统(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113626603A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232183B (zh) | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 | |
CN107704495A (zh) | 主题分类器的训练方法、装置及计算机可读存储介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US9934452B2 (en) | Pruning and label selection in hidden Markov model-based OCR | |
CN109472207A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN107491435A (zh) | 基于计算机自动识别用户情感的方法及装置 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
JP2022088304A (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
CN111539212A (zh) | 文本信息处理方法、装置、存储介质及电子设备 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN115438215A (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN113626603B (zh) | 文本分类的方法和装置 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113535960A (zh) | 一种文本分类方法、装置和设备 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN113626602A (zh) | 文本分类的方法和装置 | |
WO2024098763A1 (zh) | 文本操作图互检方法及模型训练方法、装置、设备、介质 | |
CN112528621B (zh) | 文本处理、文本处理模型训练方法、装置和存储介质 | |
CN113535946A (zh) | 基于深度学习的文本鉴别方法、装置、设备及存储介质 | |
CN107590163A (zh) | 文本特征选择的方法、装置和系统 | |
CN115270801B (zh) | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 | |
CN114792423B (zh) | 文档图像的处理方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |