CN115934937A - 文本分类模型的训练方法、文本分类方法及装置 - Google Patents
文本分类模型的训练方法、文本分类方法及装置 Download PDFInfo
- Publication number
- CN115934937A CN115934937A CN202211511627.4A CN202211511627A CN115934937A CN 115934937 A CN115934937 A CN 115934937A CN 202211511627 A CN202211511627 A CN 202211511627A CN 115934937 A CN115934937 A CN 115934937A
- Authority
- CN
- China
- Prior art keywords
- text
- category
- classification
- classification model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 139
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010422 painting Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001669679 Eleotris Species 0.000 description 1
- 208000004547 Hallucinations Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000011111 cardboard Substances 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种文本分类模型的训练方法、文本分类方法及装置,涉及人工智能技术领域,尤其涉及自然语言处理、机器学习、知识图谱技术领域。实现方案为:从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;基于所述至少一个目标实体,生成第二文本;基于第一分类策略,确定所述第二文本所属的第一类别;基于第二分类策略,确定所述第二文本所属的第二类别,所述第二分类策略与所述第一分类策略不同;以及响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理、机器学习、知识图谱技术领域,具体涉及一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种文本分类模型的训练方法,包括:从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;基于所述至少一个目标实体,生成第二文本;基于第一分类策略,确定所述第二文本所属的第一类别;基于第二分类策略,确定所述第二文本所属的第二类别,其中,所述第二分类策略与所述第一分类策略不同;以及响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
根据本公开的一方面,提供了一种文本分类方法,包括:获取待分类的文本;将所述文本输入经训练的文本分类模型,以得到所述文本分类模型输出的所述文本的类别,其中,所述文本分类模型是基于上述文本分类模型的训练方法训练得到的。
根据本公开的一方面,提供了一种文本分类模型的训练装置,包括:确定模块,被配置为从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;生成模块,被配置为基于所述至少一个目标实体,生成第二文本;第一分类模块,被配置为基于第一分类策略,确定所述第二文本所属的第一类别;第二分类模块,被配置为基于第二分类策略,确定所述第二文本所属的第二类别,其中,所述第二分类策略与所述第一分类策略不同;以及第一训练模块,被配置为响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
根据本公开的一方面,提供了一种文本分类装置,包括:获取模块,被配置为获取待分类的文本;分类模块,被配置为将所述文本输入经训练的文本分类模型,以得到所述文本分类模型输出的所述文本的类别,其中,所述文本分类模型是基于上述文本分类模型的训练装置训练得到的。
根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面的方法。
根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述任一方面的方法。
根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器执行时实现上述任一方面的方法。
根据本公开的一个或多个实施例,能够提高文本分类模型的训练效率和准确性。基于经训练的文本分类模型,能够实现准确的文本分类。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开一些实施例的文本分类模型的训练方法的流程图;
图2示出了根据本公开一些实施例的文本分类模型的训练过程的示意图;
图3示出了根据本公开一些实施例的文本分类方法的流程图;
图4示出了根据本公开一些实施例的文本分类模型的训练装置的结构框图;
图5示出了根据本公开一些实施例的文本分类装置的结构框图;以及
图6示出了能够用于实现本公开实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
文本分类是自然语言处理领域的常见任务,指的是按照一定的分类体系对输入文本进行自动分类。根据分类体系的不同,文本分类任务可以被应用于不同的场景,例如新闻主题分类(分类体系包括社会、金融、娱乐等类别)、情感极性分析(分类体系包括积极、中性、消极等类别)、机器问答(分类体系包括是、否等类别)、用户意图识别(分类体系包括天气、价格、资源下载等类别)等。
相关技术中,通常采用机器学习技术来进行文本分类。即,对自然语料进行类别标注,将标注了类别的自然语料作为训练样本,训练文本分类模型,然后基于经训练的文本分类模型来实现文本分类。在上述方案中,语料的标注由人工进行,效率低、耗时长、成本高,导致文本分类模型的训练效率低。
此外,文本分类模型的准确性与训练样本的数量和质量强相关。通常地,训练样本的数量和质量越高,模型学习到的知识越丰富,其准确性越高。但是,在上述方案中,由于手动标注语料的效率很低,因此难以获得丰富多样的训练样本,导致模型无法从训练样本中学习到充分的知识,准确性低。
针对上述问题,本公开提供一种文本分类模型的训练方法,能够快速生成大量高质量的训练样本,从而提高文本模型的训练效率和准确性。基于经训练的文本分类模型,本公开还提供一种文本分类方法,能够实现准确的文本分类。
下面结合附图详细描述本公开的实施例。
为便于理解本公开,以下对本公开所涉及的一些术语进行解释。
知识库(Knowledge Base):是一种结构化的语义信息库,包括多个实体和每个实体的相关信息。知识库可以表示成由节点和边组成的知识图谱的形式。知识图谱中的节点代表实体,节点之间的边代表实体之间的关系。
词语链接(term-linking):将文本中的词语链接到知识库中的实体上,即,确定词语所对应的实体的标识(ID)。例如,文本“北京到上海的火车票多少钱”中的词语“北京”被链接到知识库中的实体“中国首都北京市”。
序列标注:是一种常见的自然语言处理任务,指的是对文本进行标注,以确定文本中的各个词的标签。序列标注的应用很广泛,包括分词、命名实体识别、词性标注等。例如,文本“我与美国的华莱士谈笑风生”的命名实体识别结果为“我/O与/O美国/LOC的/O华莱士/PERSON谈笑风生/O”。其中,标签O(Other)表示无关的字符串,LOC(Location)表示地理位置,PERSON表示人名。
模板(pattern):是文本的一种符号化的表示。例如,文本“北京到上海的火车票多少钱”可以抽象成模板“[中国地区][场景事件][中国地区][助词][信息资料][疑问词]”。具有相同模板的多个文本可以认为是一组相似的文本。例如,文本“北京到上海的火车票多少钱”与“广州去杭州的火车票多少钱”均符合模板“[中国地区][场景事件][中国地区][助词][信息资料][疑问词]”,因此这两个文本相似。
单片段文本:仅包括一个词的文本,例如,“天气”。
多片段文本:包括多个词的文本,例如,“今天天气如何”。
同名异类实体:指的是知识库中的实体名称(即,实体词)相同、但属于不同类别的多个实体。例如,实体名称“李白”可以指唐代诗人李白、歌曲《李白》、游戏中的角色李白等实体。又例如,实体名称“朝阳”可以指房间朝向、北京市朝阳区、辽宁省朝阳市等实体。
图1示出了根据本公开实施例的文本分类模型的训练方法100的流程图。如图1所示,方法100包括步骤S110-S150。
在步骤S110中,从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体。
在步骤S120中,基于上述至少一个目标实体,生成第二文本。
在步骤S130中,基于第一分类策略,确定第二文本所属的第一类别。
在步骤S140中,基于第二分类策略,确定第二文本所属的第二类别。其中,第二分类策略与第一分类策略不同。
在步骤S150中,响应于第一类别与第二类别相同,以第二文本和第一类别为训练样本,训练文本分类模型。
根据本公开的实施例,基于第一文本对应的至少一个目标实体来生成第二文本,并确定第二文本所属的第一类别,实现了文本分类模型的训练样本的自动生成。通过第二类别来对第一类别进行校验,能够保证第一类别的准确性,从而保证训练样本的准确性。
根据本公开的实施例,能够快速生成大量高质量的训练样本,从而提高文本分类模型的训练效率和准确性。
以下详细描述方法100的各个步骤。
在步骤S110中,从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体。
在本公开的实施例中,知识库包括多个实体和每个实体的特征信息。知识库中的实体通过实体标识(即,实体ID)来唯一标识。实体的特征信息例如包括实体的名称、类别、属性、访问频率等信息。特别地,实体的属性信息在知识库中可以表示为SPO三元组。其中,S(Subject)代表实体,P(Predicate)代表属性名,O(Object)代表属性值。
第一文本可以是任意长度的字符串,其例如可以是仅包括一个词的单片段文本,也可以是包括多个词的多片段文本。
需要说明的是,本公开不限制第一文本的来源。第一文本例如可以来源于网络上的文章,例如是文章中的字、词、短语、句子等。第一文本也可以来源于用户的输入,例如是用户在搜索引擎中输入的搜索词。
第一文本对应的至少一个目标实体可以通过对第一文本中的各个词进行词语链接来确定。
在第一文本仅包括一个词的情况下,可以对该词进行词语链接,以确定该词对应的知识库中的至少一个目标实体。需要说明的是,该词所对应的至少一个目标实体可以是同名异类实体。
在第二文本包括多个词的情况下,可以对第二文本中的每个词进行词语链接,以确定每个词对应的目标实体。各个词所对应的目标实体的集合即为该第二文本所对应的至少一个目标实体。
在步骤S120中,基于第一文本所对应的至少一个目标实体,生成第二文本。
在步骤S130中,基于第一分类策略,确定第二文本所属的第一类别。
根据一些实施例,可以根据第一文本的长度,确定第二文本的生成策略和分类策略。例如,可以基于第一文本所包括的词的数量和上述至少一个目标实体各自的特征信息,生成第二文本。相应地,可以基于第一文本所包括的词的数量确定第一分类策略,并基于第一分类策略确定第二文本所属的第一类别。
根据该实施例,针对不同长度的第一文本使用不同的文本生成策略生成第二文本,并使用不同的分类策略确定第二文本所属的第一类别,由此能够提高文本生成以及分类的灵活性和多样性,从而提高文本训练模型的训练样本的多样性。
根据一些实施例,响应于第一文本所包括的词的数量为一且上述至少一个目标实体的名称相同,可以将上述至少一个目标实体的名称确定为第二文本。相应地,可以将上述至少一个目标实体中的访问频率最高的目标实体的类别确定为第二文本的第一类别。目标实体的访问频率例如可以是该目标实体被用户浏览或搜索的频率。目标实体的访问频率越高,其对应的类别越可能是第一文本的真正类别。
根据上述实施例,在第一文本为单片段文本且其对应的至少一个目标实体为同名异类实体的情况下,可以将这些同名异类实体的“名”确定为第二文本,并且将这些同名异类实体中的热度最高的实体的类别确定为第二文本所属的第一类别,由此能够提高第一类别的准确性。
需要说明的是,在上述实施例中,第一文本与第二文本可以相同,也可以不同。例如,第一文本为“甄嬛传”,其对应的目标实体包括电视剧甄嬛传、电影甄嬛传、小说甄嬛传等。这些目标实体属于同名异类实体,将其共同的名称“甄嬛传”作为第二文本。并且,在这些目标实体中,电视剧甄嬛传的访问频率最高,因此将其类别“电视剧”作为第二文本“甄嬛传”的第一类别。
又例如,第一文本为“真环传”,其对应的目标实体也包括同名异类的电视剧甄嬛传、电影甄嬛传、小说甄嬛传等实体。相应地,第二文本为“甄嬛传”,其所属的第一类别为访问频率最高的目标实体(电视剧甄嬛传)的类别,即“电视剧”。
根据另一些实施例,响应于第一文本所包括的词的数量为一且上述至少一个目标实体的名称相同,可以将该名称与上述至少一个目标实体中的任一目标实体的属性信息进行拼接,以生成第二文本。相应地,可以将第二文本中的属性信息所对应的目标实体的类别确定为第二文本的第一类别。
根据上述实施例,针对单片段文本(第一文本),可以生成多个不同的多片段文本(第二文本)并确定每个多片段文本所属的类别(第一类别),由此能够实现训练样本的数量和类别的扩充,提高文本分类模型在不同语境下对同名异类词和歧义词的识别效果。
例如,第一文本为“斗罗大陆”,其对应的目标实体包括小说斗罗大陆、电视剧斗罗大陆、电影斗罗大陆、游戏斗罗大陆等。这些目标实体为同名异类实体。通过将任一目标实体与其特征信息相拼接,可以生成第二文本。例如,小说斗罗大陆的作者是唐家三少,电影斗罗大陆为玄幻类电影,电视剧斗罗大陆包括250集,游戏斗罗大陆为卡牌类游戏。基于上述特征信息,可以分别生成以下四个第二文本:唐家三少所著斗罗大陆、玄幻电影斗罗大陆、斗罗大陆第30集在线观看、卡牌游戏斗罗大陆。上述四个第二文本的第一类别分别为:小说、电影、电视剧、游戏。
根据一些实施例,响应于第一文本所包括的词的数量大于一,获取第一文本中的每个词所对应的目标实体。移除第一文本中的至少一个第一词,以生成模板,其中,模板包括与上述至少一个第一词分别对应的至少一个槽位,至少一个槽位中的每个槽位的第三类别是基于相应第一词的目标类别确定的,目标类别为第一词对应的目标实体的类别。向至少一个槽位中的每个槽位填充属于相应第三类别的第二词,以生成第二文本。
需要说明的是,在本公开的实施例中,第一词指的是从第一文本中移除的词,第二词指的是填充至模板的槽位中的词。
根据上述实施例,可以基于多片段文本(第一文本)生成模板。通过向模板的槽位中填充不同的第二词,可以生成不同的第二文本,由此能够快速生成大量的第二文本,实现对文本分类模型的训练集的快速扩充。
进一步地,在上述实施例中,槽位的第三类别可以是以下任意一项:相应第一词的目标类别;相应第一词的目标类别的上位类别;或者相应第一词的目标类别的下位类别。根据该实施例,可以基于多片段文本(第一文本)生成粒度不同的多个模板,由此实现对模板的扩充。通过向多个模板的槽位中填充不同的第二词,可以生成不同的第二文本。由此能够快速生成大量的第二文本,从而实现对文本分类模型的训练集的快速扩充。
例如,第一文本“北京到上海的火车票多少钱”的序列标注结果为“北京/世界地区到/场景事件上海/世界地区的/助词火车票/信息资料多少钱/疑问词”。通过词语链接,确定第一文本中的每个词对应的目标实体为“北京/世界地区/中国城市_北京到/场景事件/场景事件_到上海/世界地区/中国城市_上海的/助词/助词_的火车票/信息资料/车票_火车票多少钱/疑问词/疑问词_多少钱”。在该示例中,目标实体被表示成“类别_名称”的形式。例如,目标实体“中国城市北京”的类别为“中国城市”,名称为“北京”。
将第一文本“北京到上海的火车票多少钱”中的“北京”、“上海”和“火车票”作为第一词,从第一文本中移除。每移除一个第一词,形成一个待填充的槽位,槽位的第三类别可以是相应第一词对应的目标实体的类别(即,目标类别)。例如,将第一文本“北京到上海的火车票多少钱”中的第一词“北京”、“上海”和“火车票”移除后,得到模板“[slot1]到[slot2]的[slot3]多少钱”。由于第一词“北京”、“上海”和“火车票”的目标类别分别为“中国城市”、“中国城市”和“车票”,因此,相应的模板为“[中国城市]到[中国城市]的[火车票]多少钱”。可以将该模板记为第一文本对应的原始模板。
进一步地,对于原始模板中的每个槽位,可以基于知识库,确定相应第一词的目标类别的上位类别和下位类别。通过将原始模板中的目标类别替换为其上位类别或下位类别,可以生成粒度更粗或更细的新的模板。
例如,“中国城市”的上位类别为“世界地区”。通过将原始模板“[中国城市]到[中国城市]的[火车票]多少钱”中的第一个槽位[中国城市]替换为上位类别[世界地区],可以得到更粗粒度的模板“[世界地区]到[中国城市]的[火车票]多少钱”。
又例如,“中国城市”的下位类别为“北京市辖区”。通过将原始模板“[中国城市]到[中国城市]的[火车票]多少钱”中的第二个槽位[中国城市]替换为下位类别[北京市辖区],可以得到更细粒度的模板“[中国城市]到[北京市辖区]的[火车票]多少钱”。
通过向上述三个模板“[中国城市]到[中国城市]的[火车票]多少钱”、“[世界地区]到[中国城市]的[火车票]多少钱”和“[中国城市]到[北京市辖区]的[火车票]多少钱”的槽位中填充具有相应第三类别的第二词,即可生成第二文本。第二词有多种选择,例如,[中国城市]包括北京、上海、广州、深圳等,[世界地区]包括北京、东京、纽约等,[火车票]包括火车票、高铁票、硬座票、硬卧票等。通过向不同的模板中填充不同的第二词,可以快速生成大量的第二文本。
可以理解,在上述实施例中,基于目标类别的上位类别和下位类别,可以生成多个模板。根据一些实施例,可以进一步对所生成的多个模板进行筛选。采用筛选后的模板来生成第二文本,能够提高第二文本的质量。
根据一些实施例,可以利用经训练的第一分类模型来确定每个模板的类别。然后对属于同一个类别的多个模板按照出现频次由高到低的顺序排序,将出现频次最高的一个或多个模板作为该类别下的核心模板。通过向核心模板的槽位中填充不同的第二词,可以生成若干个第二文本。
根据一些实施例,可以将生成的第二文本输入经训练的第一分类模型,以得到第一分类模型输出的第二文本的第一类别。需要说明的是,第一分类模型与待训练的文本分类模型不同。第一分类模型例如可以是基于不同应用领域的语料预训练所得到的分类模型。
基于步骤S110-S130,可以生成第二文本并确定第二文本所属的第一类别。可以理解,在第一文本有多个的情况下,不同的第一文本可以生成相同的第二文本,并且这些相同的第二文本可能属于不同的类别(即,第一类别不同)。根据一些实施例,为了提高计算效率,并且避免因相同第二文本的第一类别不同而对文本分类模型产生误导,可以对相同的第二文本进行合并,并将这些第二文本中出现次数最多的第一类别或者这些第二文本的第一类别的上位类别作为合并后的第二文本的第一类别。
例如,基于步骤S110-S130,生成了三个相同的第二文本“斗罗大陆好看吗”,其对应的第一类别分别为小说、小说、电影。可以将这三个第二文本合并成一个第二文本,并将出现次数最多的第一类别“小说”作为合并后的第二文本的第一类别。或者,也可以将“小说”和“电影”的上位类别“作品”作为合并后的第二文本的第一类别。
在生成第二文本并利用第一分类策略确定其所属的第一类别后,可以在步骤S140中,利用与第一分类策略不同的第二分类策略再次确定其类别,即,得到第二类别。
第二类别用于校验第一类别的准确性。如果第二类别与第一类别相同,则判定第一类别准确,相应地,第二文本和第一类别可以作为待训练的文本分类模型的训练样本。如果第二类别与第一类别不同,则判定第一类别不准确,相应地,第二文本和第一类别不可以作为待训练的文本分类模型的训练样本。由此能够提高训练样本的准确性,从而提高文本分类模型的准确性。
在本公开的实施例中,第二分类策略可以是不同于第一分类策略的任意分类策略。由于第二分类策略与第一分类策略不同,因此可以利用第二类别来校验第一类别的准确性。
根据一些实施例,基于第二分类策略,确定第二文本所属的第二类别可以包括:将第二文本输入经训练的第二分类模型,以得到第二分类模型输出的第二类别,其中,第二分类模型与待训练的文本分类模型不同。并且,第二分类模型与上述第一分类模型也不同。第二分类模型例如可以是预训练的提示学习(prompt)模型,但不限于此。
例如,第二文本为“怎么教孩子画画”,利用第一分类模型确定其第一类别为“书画”。第二分类模型为不同于第一分类模型的提示学习模型。利用该提示学习模型,确定该第二文本的二类别为“教育画”。由于第二类别“教育画”与第一类别“书画”不同,因此认为第一类别不准确,相应的第二文本属于噪音样本。
根据一些实施例,基于第二分类策略,确定第二文本所属的第二类别可以包括:基于第一类别,确定第二文本中的核心词;从知识库中确定核心词对应的实体;以及将该实体的类别确定为第二文本的第二类别。
核心词是基于类别来确定的。不同类别的核心词通常不同。例如,物品商品类别下的核心词包括所有的物品商品,汽车类别下的核心词包括汽车品牌、汽车型号等,电影类别下的核心词包括电影名、电影类型等。
例如,第二文本“阿波罗RT6多少钱”的第一类别为“物品商品”,基于该第一类别,确定第二文本中的核心词为“阿波罗RT6”。对第二文本进行序列标注,得到其序列标注结果为“阿波罗RT6/物体类_车辆多少钱/疑问词”。通过词语链接,确定核心词“阿波罗RT6”对应的知识库中的实体为“车辆_阿波罗RT6”。该实体的类别“车辆”即为第二文本“阿波罗RT6多少钱”的第二类别。由于第二类别“车辆”不同于第一类别“物品商品”,因此认为第一类别不准确,相应的第二文本属于噪音样本。
根据一些实施例,基于第二分类策略,确定第二文本所属的第二类别可以包括:响应于第二文本与预设的核心模板相匹配,将核心模板对应的类别确定为第二类别。
根据一些实施例,可以预先构建不同类别下的核心模板,得到核心模板集合。将第二文本与核心模板集合中的各核心模板进行匹配。若第二文本与某个核心模板相匹配(即,二者匹配成功),则将该核心模板所对应的类别确定为该第二文本所属的第二类别。
例如,第二文本“济南到青岛的火车票多少钱”的第一类别为“地区场所”。该第二文本与“火车票”类别下的核心模板“[中国城市]到[中国城市]的[火车票]多少钱”相匹配,因此将类别“火车票”作为该第二文本的第二类别。由于第二类别“火车票”与第一类别“地区场所”不同,因此认为第一类别不准确,相应的第二文本属于噪音样本。
如上所述,如果第二类别与第一类别相同,则判定第一类别准确,第二文本和第一类别可以作为待训练的文本分类模型的训练样本。相应地,可以执行步骤S150,基于第二文本及其第一类别来训练文本分类模型。在文本分类模型的训练过程中,以第二文本为文本分类模型的输入,以第一类别为标签。将第二文本输入文本分类模型,以得到文本分类模型输出的预测类别。基于预测类别和第一类别的差异,确定文本分类模型的损失值。基于损失值,调整文本分类模型的参数。
如果第二类别与第一类别不同,则判定第一类别不准确,相应地,第二文本和第一类别不可以作为待训练的文本分类模型的训练样本。在这种情况下,根据一些实施例,可以基于第二类别,对第一类别进行修正;以及以第二文本和修正后的第一类别为训练样本,训练文本分类模型。由此能够实现样本标签的自动修正,提高训练样本的准确性。
根据一些实施例,在第二类别与第一类别不同、且第二分类策略的分类准确性高于第一分类策略的情况下,可以将第一类别修正为第二类别。
根据另一些实施例,在第二类别与第一类别不同的情况下,可以将第一类别修正为第一类别与第二类别的上位类别。
图2示出了根据本公开一些实施例的文本分类模型的训练过程的示意图。
语料库210包括多个第一文本。
知识库220包括多个实体以及各实体的特征信息。实体的特征信息例如包括名称、类别、属性、访问频率等。知识库220例如可以实现为知识图谱。知识图谱中的节点代表实体,节点之间的边代表实体之间的关系。
多源样本生成模块230用于基于语料库210和知识库220生成多个第二文本,并确定每个第二文本的第一类别(对应于上述步骤S110-S130),从而得到文本分类模型270的候选样本。
多源样本生成模块230可以利用多种样本生成策略来生成第二文本。如图2所示,样本生成策略包括单片段样本生成策略、同名异类样本生成策略和基于模板(pattern)的样本生成策略。
单片段样本生成策略指的是:将实体的名称作为第二文本,将具有该名称的访问频率最高的实体的类别作为该第二文本的第一类别。
同名异类样本生成策略指的是:将多个同名异类实体的名称与其中任一实体的属性信息的拼接作为第二文本,将第二文本中的属性信息所对应的实体的类别确定为该第二文本的第一类别。
基于模板的样本生成策略指的是:通过向模板的槽位中填充相应的词来生成第二文本。第二文本的第一类别可以通过经训练的第一分类模型确定。第一分类模型与待训练的文本分类模型270不同。
样本筛选模块240用于对多源样本生成模块230所生成的候选样本进行筛选。例如,对相同的第二文本进行合并、去重。
样本校验模块250用于校验候选样本的准确性,即,校验每个候选样本的第一类别的准确性(对应于上述步骤S140和S150)。
样本校验模块250可以利用多种校验策略来校验候选样本的准确性。如图2所示,校验策略包括基于提示学习(prompt)的校验策略、基于词语链接(term-linking)的校验策略和基于模板(pattern)的校验策略。
基于提示学习的校验策略指的是:利用预训练的提示学习模型(prompt分类模型)来校验第一类别的准确性。具体地,将第二文本输入提示学习模型,以确定第二文本的第二类别。若第二类别与第一类别相同,则校验通过,将第二文本及其第一类别作为文本分类模型270的训练样本,加入样本库260。
基于词语链接的校验策略指的是:利用词语链接技术来校验第一类别的准确性。具体地,基于第一类别确定第二文本中的核心词。通过词语链接,确定核心词对应的知识库220中的实体。将该实体的类别确定为第二类别。若第二类别与第一类别相同,则校验通过,将第二文本及其第一类别作为文本分类模型270的训练样本,加入样本库260。
基于模板的校验策略指的是:利用预设的核心模板来校验第一类别的准确性。具体地,将第二文本与预设的核心模板进行匹配。将匹配成功的核心模板的类别确定为该第二文本的第二类别。若第二类别与第一类别相同,则校验通过,将第二文本及其第一类别作为文本分类模型270的训练样本,加入样本库260。
基于样本库260中的训练样本,训练文本分类模型270。
本公开实施例的文本分类模型的训练方法具有以下优点:
1、效率高、成本低:无需人工参与,即可快速生成大量的训练样本,从而提高文本分类模型的训练效率。
2、准确性高、可控性好:通过知识库来约束样本生成过程,并对样本的准确性进行校验,能够过滤掉类别标签错误的噪音样本,生成高质量的训练样本,从而提高文本分类模型的准确性。
3、多样性强:针对不同的第一文本,可以利用不同的文本生成策略来生成第二文本,使得训练样本丰富多样,从而提高文本分类模型的准确性。
4、可解释性强:基于知识库中的实体信息来生成训练样本,训练样本的内容是可控的、可解释的。
5、干预方便、时效性高:能够针对新的应用场景快速生成大量训练样本,以提高文本分类模型对新场景文本的分类效果。
6、能够实现歧义词的准确分类:基于同名异类实体生成多种训练样本,能够提高文本分类模型对歧义词的分类效果。
基于经训练的文本分类模型,本公开的实施例还提供一种文本分类方法。图3示出了根据本公开实施例的文本分类方法300的流程图。如图3所示,方法300包括步骤S310和S320。
在步骤S310中,获取待分类的文本。
在步骤S320中,将该文本输入经训练的文本分类模型,以得到文本分类模型输出的该文本的类别。其中,文本分类模型是基于本公开实施例的文本分类模型的训练方法训练得到的。
根据本公开的实施例,基于文本分类模型,能够实现准确的文本分类。
根据本公开的实施例,还提供了一种文本分类模型的训练装置。图4示出了根据本公开实施例的文本分类模型的训练装置400的结构框图。如图4所示,装置400包括:确定模块410、生成模块420、第一分类模块430、第二分类模块440和第一训练模块450。
确定模块410,被配置为从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体。
生成模块420被配置为基于所述至少一个目标实体,生成第二文本。
第一分类模块430被配置为基于第一分类策略,确定所述第二文本所属的第一类别。
第二分类模块440被配置为基于第二分类策略,确定所述第二文本所属的第二类别,其中,所述第二分类策略与所述第一分类策略不同。
第一训练模块450被配置为响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
根据本公开的实施例,基于第一文本对应的至少一个目标实体来生成第二文本,并确定第二文本所属的第一类别,实现了文本分类模型的训练样本的自动生成。通过第二类别来对第一类别进行校验,能够保证第一类别的准确性,从而保证训练样本的准确性。
根据本公开的实施例,能够快速生成大量高质量的训练样本,从而提高文本分类模型的训练效率和准确性。
根据一些实施例,所述知识库包括所述多个实体各自的特征信息,所述生成模块420进一步被配置为:基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本。
根据一些实施例,所述特征信息包括名称,所述生成模块420包括:第一生成单元,被配置为响应于所述数量为一且所述至少一个目标实体的名称相同,将所述至少一个目标实体的名称确定为所述第二文本。
根据一些实施例,所述特征信息还包括类别和访问频率,所述第一分类模块430包括:第一分类单元,被配置为将访问频率最高的目标实体的类别确定为所述第一类别。
根据一些实施例,所述特征信息包括名称和属性信息,所述生成模块420包括:第二生成单元,被配置为响应于所述数量为一且所述至少一个目标实体的名称相同,将所述名称与所述至少一个目标实体中的任一目标实体的属性信息进行拼接,以生成所述第二文本。
根据一些实施例,所述特征信息还包括类别,所述第一分类模块430包括:第二分类单元,被配置为将所述第二文本中的属性信息所对应的目标实体的类别确定为所述第一类别。
根据一些实施例,所述特征信息包括类别,所述生成模块420包括:获取单元,被配置为响应于所述数量大于一,获取所述第一文本中的每个词所对应的目标实体;模板生成单元,被配置为移除所述第一文本中的至少一个第一词,以生成模板,其中,所述模板包括与所述至少一个第一词分别对应的至少一个槽位,所述至少一个槽位中的每个槽位的第三类别是基于相应第一词的目标类别确定的,所述目标类别为所述第一词对应的目标实体的类别;以及文本生成单元,被配置为向所述至少一个槽位中的每个槽位填充属于相应第三类别的第二词,以生成所述第二文本。
根据一些实施例,所述槽位的第三类别为以下任一项:相应第一词的目标类别;相应第一词的目标类别的上位类别;或者相应第一词的目标类别的下位类别。
根据一些实施例,所述第一分类模块430包括:第三分类单元,被配置为将所述第二文本输入经训练的第一分类模型,以得到所述第一分类模型输出的所述第一类别,其中,所述第一分类模型与所述文本分类模型不同。
根据一些实施例,所述第二分类模块440包括:第四分类单元,被配置为将所述第二文本输入经训练的第二分类模型,以得到所述第二分类模型输出的所述第二类别,其中,所述第二分类模型与所述文本分类模型不同。
根据一些实施例,所述第二分类模块440包括:第一确定单元,被配置为基于所述第一类别,确定所述第二文本中的核心词;第二确定单元,被配置为从所述知识库中确定所述核心词对应的实体;以及第五分类单元,被配置为将所述实体的类别确定为所述第二类别。
根据一些实施例,所述第二分类模块440包括:第六分类单元,被配置为响应于所述第二文本与预设的核心模板相匹配,将所述核心模板对应的类别确定为所述第二类别。
根据一些实施例,装置400还包括:修正模块,被配置为响应于所述第一类别与所述第二类别不同,基于所述第二类别,对所述第一类别进行修正;以及第二训练模块,被配置为以所述第二文本和修正后的第一类别为训练样本,训练所述文本分类模型。
应当理解,图4中所示装置400的各个模块或单元可以与参考图1描述的方法100中的各个步骤相对应。由此,上面针对方法100描述的操作、特征和优点同样适用于装置400及其包括的模块以及单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
根据本公开的实施例,还提供了一种文本分类装置。图5示出了根据本公开实施例的文本分类装置500的结构框图。如图5所示,装置500包括获取模块510和分类模块520。
获取模块510被配置为获取待分类的文本。
分类模块520被配置为将所述文本输入经训练的文本分类模型,以得到所述文本分类模型输出的所述文本的类别,其中,所述文本分类模型是基于本公开实施例的文本分类模型的训练装置训练得到的。
根据本公开的实施例,基于文本分类模型,能够实现准确的文本分类。
应当理解,图5中所示装置500的各个模块或单元可以与参考图3描述的方法300中的各个步骤相对应。由此,上面针对方法300描述的操作、特征和优点同样适用于装置500及其包括的模块以及单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。例如,上面描述的生成模块420和第一分类模块430在一些实施例中可以组合成单个模块。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图4、图5描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。例如,在一些实施例中,模块410-520中的一个或多个可以一起被实现在片上系统(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如,中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
根据本公开的实施例,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本分类模型的训练方法和/或文本分类方法。
根据本公开的实施例,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述文本分类模型的训练方法和/或文本分类方法。
根据本公开的实施例,还提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器执行时实现上述文本分类模型的训练方法和/或文本分类方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、Wi-Fi设备、WiMAX设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如方法100和/或方法300。例如,在一些实施例中,方法100和/或方法300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的方法100和方法300的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100和/或方法300。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本公开的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
Claims (31)
1.一种文本分类模型的训练方法,包括:
从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;
基于所述至少一个目标实体,生成第二文本;
基于第一分类策略,确定所述第二文本所属的第一类别;
基于第二分类策略,确定所述第二文本所属的第二类别,其中,所述第二分类策略与所述第一分类策略不同;以及
响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
2.根据权利要求1所述的方法,其中,所述知识库包括所述多个实体各自的特征信息,所述基于所述至少一个目标实体,生成第二文本包括:
基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本。
3.根据权利要求2所述的方法,其中,所述特征信息包括名称,所述基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本包括:
响应于所述数量为一且所述至少一个目标实体的名称相同,将所述至少一个目标实体的名称确定为所述第二文本。
4.根据权利要求3所述的方法,其中,所述特征信息还包括类别和访问频率,所述基于第一分类策略,确定所述第二文本所属的第一类别包括:
将访问频率最高的目标实体的类别确定为所述第一类别。
5.根据权利要求2所述的方法,其中,所述特征信息包括名称和属性信息,所述基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本包括:
响应于所述数量为一且所述至少一个目标实体的名称相同,将所述名称与所述至少一个目标实体中的任一目标实体的属性信息进行拼接,以生成所述第二文本。
6.根据权利要求5所述的方法,其中,所述特征信息还包括类别,所述基于第一分类策略,确定所述第二文本所属的第一类别包括:
将所述第二文本中的属性信息所对应的目标实体的类别确定为所述第一类别。
7.根据权利要求2所述的方法,其中,所述特征信息包括类别,所述基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本包括:
响应于所述数量大于一,获取所述第一文本中的每个词所对应的目标实体;
移除所述第一文本中的至少一个第一词,以生成模板,其中,所述模板包括与所述至少一个第一词分别对应的至少一个槽位,所述至少一个槽位中的每个槽位的第三类别是基于相应第一词的目标类别确定的,所述目标类别为所述第一词对应的目标实体的类别;以及
向所述至少一个槽位中的每个槽位填充属于相应第三类别的第二词,以生成所述第二文本。
8.根据权利要求7所述的方法,其中,所述槽位的第三类别为以下任一项:
相应第一词的目标类别;
相应第一词的目标类别的上位类别;或者
相应第一词的目标类别的下位类别。
9.根据权利要求7或8所述的方法,其中,所述基于第一分类策略,确定所述第二文本所属的第一类别包括:
将所述第二文本输入经训练的第一分类模型,以得到所述第一分类模型输出的所述第一类别,其中,所述第一分类模型与所述文本分类模型不同。
10.根据权利要求1-9中任一项所述的方法,其中,所述基于第二分类策略,确定所述第二文本所属的第二类别包括:
将所述第二文本输入经训练的第二分类模型,以得到所述第二分类模型输出的所述第二类别,其中,所述第二分类模型与所述文本分类模型不同。
11.根据权利要求1-9中任一项所述的方法,其中,所述基于第二分类策略,确定所述第二文本所属的第二类别包括:
基于所述第一类别,确定所述第二文本中的核心词;
从所述知识库中确定所述核心词对应的实体;以及
将所述实体的类别确定为所述第二类别。
12.根据权利要求1-9中任一项所述的方法,其中,所述基于第二分类策略,确定所述第二文本所属的第二类别包括:
响应于所述第二文本与预设的核心模板相匹配,将所述核心模板对应的类别确定为所述第二类别。
13.根据权利要求1-12中任一项所述的方法,还包括:
响应于所述第一类别与所述第二类别不同,基于所述第二类别,对所述第一类别进行修正;以及
以所述第二文本和修正后的第一类别为训练样本,训练所述文本分类模型。
14.一种文本分类方法,包括:
获取待分类的文本;
将所述文本输入经训练的文本分类模型,以得到所述文本分类模型输出的所述文本的类别,其中,所述文本分类模型是基于权利要求1-13中任一项所述的方法训练得到的。
15.一种文本分类模型的训练装置,包括:
确定模块,被配置为从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;
生成模块,被配置为基于所述至少一个目标实体,生成第二文本;
第一分类模块,被配置为基于第一分类策略,确定所述第二文本所属的第一类别;
第二分类模块,被配置为基于第二分类策略,确定所述第二文本所属的第二类别,其中,所述第二分类策略与所述第一分类策略不同;以及
第一训练模块,被配置为响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。
16.根据权利要求15所述的装置,其中,所述知识库包括所述多个实体各自的特征信息,所述生成模块进一步被配置为:
基于所述第一文本所包括的词的数量和所述至少一个目标实体各自的特征信息,生成所述第二文本。
17.根据权利要求16所述的装置,其中,所述特征信息包括名称,所述生成模块包括:
第一生成单元,被配置为响应于所述数量为一且所述至少一个目标实体的名称相同,将所述至少一个目标实体的名称确定为所述第二文本。
18.根据权利要求17所述的装置,其中,所述特征信息还包括类别和访问频率,所述第一分类模块包括:
第一分类单元,被配置为将访问频率最高的目标实体的类别确定为所述第一类别。
19.根据权利要求16所述的装置,其中,所述特征信息包括名称和属性信息,所述生成模块包括:
第二生成单元,被配置为响应于所述数量为一且所述至少一个目标实体的名称相同,将所述名称与所述至少一个目标实体中的任一目标实体的属性信息进行拼接,以生成所述第二文本。
20.根据权利要求19所述的装置,其中,所述特征信息还包括类别,所述第一分类模块包括:
第二分类单元,被配置为将所述第二文本中的属性信息所对应的目标实体的类别确定为所述第一类别。
21.根据权利要求16所述的装置,其中,所述特征信息包括类别,所述生成模块包括:
获取单元,被配置为响应于所述数量大于一,获取所述第一文本中的每个词所对应的目标实体;
模板生成单元,被配置为移除所述第一文本中的至少一个第一词,以生成模板,其中,所述模板包括与所述至少一个第一词分别对应的至少一个槽位,所述至少一个槽位中的每个槽位的第三类别是基于相应第一词的目标类别确定的,所述目标类别为所述第一词对应的目标实体的类别;以及
文本生成单元,被配置为向所述至少一个槽位中的每个槽位填充属于相应第三类别的第二词,以生成所述第二文本。
22.根据权利要求21所述的装置,其中,所述槽位的第三类别为以下任一项:
相应第一词的目标类别;
相应第一词的目标类别的上位类别;或者
相应第一词的目标类别的下位类别。
23.根据权利要求21或22所述的装置,其中,所述第一分类模块包括:
第三分类单元,被配置为将所述第二文本输入经训练的第一分类模型,以得到所述第一分类模型输出的所述第一类别,其中,所述第一分类模型与所述文本分类模型不同。
24.根据权利要求15-23中任一项所述的装置,其中,所述第二分类模块包括:
第四分类单元,被配置为将所述第二文本输入经训练的第二分类模型,以得到所述第二分类模型输出的所述第二类别,其中,所述第二分类模型与所述文本分类模型不同。
25.根据权利要求15-23中任一项所述的装置,其中,所述第二分类模块包括:
第一确定单元,被配置为基于所述第一类别,确定所述第二文本中的核心词;
第二确定单元,被配置为从所述知识库中确定所述核心词对应的实体;以及
第五分类单元,被配置为将所述实体的类别确定为所述第二类别。
26.根据权利要求15-23中任一项所述的装置,其中,所述第二分类模块包括:
第六分类单元,被配置为响应于所述第二文本与预设的核心模板相匹配,将所述核心模板对应的类别确定为所述第二类别。
27.根据权利要求15-26中任一项所述的装置,还包括:
修正模块,被配置为响应于所述第一类别与所述第二类别不同,基于所述第二类别,对所述第一类别进行修正;以及
第二训练模块,被配置为以所述第二文本和修正后的第一类别为训练样本,训练所述文本分类模型。
28.一种文本分类装置,包括:
获取模块,被配置为获取待分类的文本;
分类模块,被配置为将所述文本输入经训练的文本分类模型,以得到所述文本分类模型输出的所述文本的类别,其中,所述文本分类模型是基于权利要求15-27中任一项所述的装置训练得到的。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211511627.4A CN115934937B (zh) | 2022-11-29 | 2022-11-29 | 文本分类模型的训练方法、文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211511627.4A CN115934937B (zh) | 2022-11-29 | 2022-11-29 | 文本分类模型的训练方法、文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115934937A true CN115934937A (zh) | 2023-04-07 |
CN115934937B CN115934937B (zh) | 2024-01-23 |
Family
ID=86648378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211511627.4A Active CN115934937B (zh) | 2022-11-29 | 2022-11-29 | 文本分类模型的训练方法、文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934937B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521827A (zh) * | 2023-05-19 | 2023-08-01 | 北京百度网讯科技有限公司 | 地理位置的场所类别确定方法、装置、电子设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160323281A1 (en) * | 2015-05-01 | 2016-11-03 | Flipboard, Inc. | Filtering Content In An Online System Based On Text And Image Signals Extracted From The Content |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
CN114662601A (zh) * | 2022-03-25 | 2022-06-24 | 鼎富智能科技有限公司 | 基于正负样本的意图分类模型训练方法及装置 |
CN114692628A (zh) * | 2022-04-13 | 2022-07-01 | 北京百度网讯科技有限公司 | 样本生成方法、模型训练方法、文本抽取方法和装置 |
-
2022
- 2022-11-29 CN CN202211511627.4A patent/CN115934937B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160323281A1 (en) * | 2015-05-01 | 2016-11-03 | Flipboard, Inc. | Filtering Content In An Online System Based On Text And Image Signals Extracted From The Content |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
CN114662601A (zh) * | 2022-03-25 | 2022-06-24 | 鼎富智能科技有限公司 | 基于正负样本的意图分类模型训练方法及装置 |
CN114692628A (zh) * | 2022-04-13 | 2022-07-01 | 北京百度网讯科技有限公司 | 样本生成方法、模型训练方法、文本抽取方法和装置 |
Non-Patent Citations (1)
Title |
---|
但唐朋;许天成;张姝涵;: "基于改进TF-IDF特征的中文文本分类系统", 计算机与数字工程, no. 03, pages 53 - 57 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521827A (zh) * | 2023-05-19 | 2023-08-01 | 北京百度网讯科技有限公司 | 地理位置的场所类别确定方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115934937B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN110968700B (zh) | 融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
CN112560912A (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
CN112507700A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN113656582B (zh) | 神经网络模型的训练方法、图像检索方法、设备和介质 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN111125435A (zh) | 视频标签的确定方法、装置和计算机设备 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN111783468A (zh) | 文本处理方法、装置、设备和介质 | |
US12008047B2 (en) | Providing an object-based response to a natural language query | |
CN111339268A (zh) | 实体词识别方法和装置 | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN112269862B (zh) | 文本角色标注方法、装置、电子设备和存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN112270168A (zh) | 对白情感风格预测方法、装置、电子设备及存储介质 | |
CN111666751A (zh) | 训练文本扩充方法、装置、设备以及存储介质 | |
CN111125438A (zh) | 实体信息提取方法、装置、电子设备及存储介质 | |
CN112541332A (zh) | 表单信息抽取方法、装置、电子设备及存储介质 | |
CN115934937B (zh) | 文本分类模型的训练方法、文本分类方法及装置 | |
CN112434524A (zh) | 一种文本信息处理方法、装置、电子设备及存储介质 | |
CN111858905A (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |