CN115033701A - 文本向量生成模型训练方法、文本分类方法及相关装置 - Google Patents

文本向量生成模型训练方法、文本分类方法及相关装置 Download PDF

Info

Publication number
CN115033701A
CN115033701A CN202210965210.9A CN202210965210A CN115033701A CN 115033701 A CN115033701 A CN 115033701A CN 202210965210 A CN202210965210 A CN 202210965210A CN 115033701 A CN115033701 A CN 115033701A
Authority
CN
China
Prior art keywords
text
vector
similarity
sample
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210965210.9A
Other languages
English (en)
Other versions
CN115033701B (zh
Inventor
吴高升
田鑫
程军
陈泽裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210965210.9A priority Critical patent/CN115033701B/zh
Publication of CN115033701A publication Critical patent/CN115033701A/zh
Application granted granted Critical
Publication of CN115033701B publication Critical patent/CN115033701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本向量生成模型训练方法、文本分类方法及相关装置,涉及文本处理、自然语言处理、深度学习等人工智能技术领域。该方法包括:获取样本文本;替换该样本文本中的至少一个分词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组;将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。应用该方法提供的目标文本向量生成模型,可准确的将语义相同的语句归为同一或相似度满足要求的文本向量。

Description

文本向量生成模型训练方法、文本分类方法及相关装置
技术领域
本公开涉及文本处理、自然语言处理、深度学习等人工智能技术领域,尤其涉及一种文本向量生成模型训练方法和文本分类方法,以及以对应的装置、电子设备及计算机可读存储介质。
背景技术
现有技术中,为方便对文本内容进行统一、自动化的处理,通常会对文本进行分类,以便于对具有共通性的、同一类别的文本采用相同或近似的标准进行处理。
其中,文本分类具体是指在给定分类体系下,根据文本内容自动确定文本类别的过程,文本分类是比较常见的文本分析研究方向,主要有传统的统计学算法以及深度学习算法两个形式。
发明内容
本公开实施例提出了一种文本向量生成模型训练、文本分类方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例提出了一种文本向量生成模型训练方法,包括:获取样本文本;替换该样本文本中的至少一个分词为该分词的同义词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组;将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
第二方面,本公开实施例提出了一种文本向量生成模型训练装置,包括:样本文本获取单元,被配置成获取样本文本;样本文本组生成单元,被配置成替换该样本文本中的至少一个分词为该分词的同义词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组;文本向量生成模型训练单元,被配置成将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
第三方面,本公开实施例提出了一种文本分类方法,包括:获取待分类文本;调用目标文本向量生成模型处理该待分类文本,生成该待分类文本的第一文本向量;从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,该向量检索库中配置有多个带有分类标签的第二文本向量;基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别;其中,目标文本向量生成模型根据如第一方面中任一实现方式描述的文本向量生成模型训练方法得到。
第四方面,本公开实施例提出了一种文本分类装置,包括:待分类文本获取单元,被配置成获取待分类文本;文本向量生成单元,被配置成调用目标文本向量生成模型处理该待分类文本,生成该待分类文本的第一文本向量;第二文本向量召回单元,被配置成从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,该向量检索库中配置有多个带有分类标签的第二文本向量;文本分类单元,被配置成基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别;其中,目标文本向量生成模型根据如第二方面中任一实现方式描述的文本向量生成模型训练装置得到。
第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的文本向量生成模型训练方法或如第三方面中任一实现方式描述的文本分类方法。
第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的文本向量生成模型训练方法或如第三方面中任一实现方式描述的文本分类方法。
第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的文本向量生成模型训练方法的步骤或如第三方面中任一实现方式描述的文本分类方法的步骤。
本公开实施例提供的文本向量生成模型训练方法和文本分类方法,可使用语义相同、近似的同义文本进行训练,使得得到的目标文本向量生成模型可将语义相同、近似的文本准确的输出为同一或相似度满足要求的文本向量,后续可通过该目标文本向量生成模型处理待分类文本、得到待分类文本的文本向量后,利用向量检索库准确的确定待分类文本的类别、实现文本分类,使得可以通过调整向量检索库中各文本向量的分类结果的方式动态调整文本分类标准,可提升文本分类的灵活性和场景兼容性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种文本向量生成模型训练方法的流程图;
图3为本公开实施例提供的一种文本分类方法的流程图;
图4为本公开实施例提供的一种文本分类方法中对向量检索库进行更新的实现方式的流程图;
图5a、5b分别为本公开实施例提供的在一具体应用场景下,实现文本向量生成模型训练方法、文本分类方法的流程图;
图6为本公开实施例提供的一种文本向量生成模型训练装置的结构框图;
图7为本公开实施例提供的一种文本分类装置的结构框图;
图8为本公开实施例提供的一种适用于执行文本向量生成模型训练方法和/或文本分类方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要的保密措施,且不违背公序良俗。
图1示出了可以应用本申请的用于训练人脸识别模型以及识别人脸的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如文本向量生成模型训练类应用、文本分类类应用、同义文本查询类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以为用户提供文本分类服务的文本分类类应用为例,服务器105在运行该文本分类类应用时可实现如下效果:首先,服务器105获取待分类文本;然后,服务器105调用目标文本向量生成模型处理该待分类文本,生成该待分类文本的第一文本向量;接下来,服务器105从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,该向量检索库中配置有多个带有分类标签的第二文本向量;最后,服务器105基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别。
其中,文本向量生成模型可由服务器105上内置的文本向量生成模型训练类应用按如下步骤训练得到:获取样本文本;替换该样本文本中的至少一个分词为该分词的同义词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组;将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
由于为训练得到目标文本向量生成模型需要占用较多的运算资源和较强的运算能力,因此本申请后续各实施例所提供的文本向量生成模型训练方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,文本向量生成模型训练装置一般也设置于服务器105中。但同时也需要指出的是,在终端设备101、102、103也具有满足要求的运算能力和运算资源时,终端设备101、102、103也可以通过其上安装的文本向量生成模型训练类应用完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。相应的,文本向量生成模型训练装置也可以设置于终端设备101、102、103中。在此种情况下,示例性系统架构100也可以不包括服务器105和网络104。
当然,用于训练得到目标文本向量生成模型的服务器可以不同于调用训练好的目标文本向量生成模型来使用的服务器。特殊的,经由服务器105训练得到的目标文本向量生成模型也可以通过模型蒸馏的方式得到适合置入终端设备101、102、103的轻量级的目标文本向量生成模型,即可以根据实际需求的识别准确度灵活选择使用终端设备101、102、103中的轻量级的目标文本向量生成模型,还是选择使用服务器105中的较复杂的目标文本向量生成模型。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本公开实施例提供的一种文本向量生成模型训练方法的流程图,其中流程200包括以下步骤。
步骤201,获取样本文本。
在本实施例中,由文本向量生成模型训练方法的执行主体(例如图1所示的服务器105)获取样本文本,该样本文本通常为独立的单句或由多个单句组成的段落,在实践中,该样本文本优选地为多个单句组成的段落,以便于根据实际需求从段落中提取所需的至少一个单句作为训练得到目标文本向量生成模型的样本文本。
需要指出的是,样本文本可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的终端设备101、102、103)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此种情况下,样本文本可以在本地快速读取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些用户终端等,在此情况下,上述执行主体可以通过向该电子设备发送获取命令来获取所需的样本文本。
步骤202,替换样本文本中的至少一个分词为该分词的同义词,生成样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组。
在本实施例中,在基于上述步骤202获取到样本文本后,对样本文本进行分词处理,并对得到的分词结果中的至少一个分词进行替换,以生成该样本文本的同义文本,并在得到该同义文本后,生成由样本文本和同义文本组成的样本文本组,应当理解的是,在生成有多个同义文本后,该样本文本组中可存在有多个同义文本。
在实践中,用于替换样本文本中的分词的同义词并不限定于与该分词属于同一语言系统的同义词,例如在该样本文本为中文时,该分词的同义词可以为英语、法语等其他语言系统下的词。
应当理解的是,上述涉及到的分词的同义词可基于现有的语义同义词统计表单等相关内容确定,也可以根据用户预先配置的同义词表单等内容进行配置。
步骤203,将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
在本实施例中,在基于上述步骤202中得到样本文本组后,获取与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量,并以样本文本组为输入、该目标语义向量为输出,对初始文本向量生成模型进行训练,以得到目标文本向量生成模型。其中,该初始文本向量为可用于将文本处理为文本向量的模型,例如文心(Erine)3.0模型、隐马尔科夫模型、对偶式检索模型(RocketQA)等,该目标文本向量生成模型可用于将语义相似度满足要求的不同文本(即满足用于生成同义文本时,所使用的同义词的与分词的相似度的标准)输出为同一或各文本所对应的文本向量之间的相似度超过该第一相似度阈值的文本向量。
在实践中,优选地直接使用该样本文本的语义向量作为该目标语义向量,以便于建立基于同义词替换方式得到的同义文本与该样本文本的关联,将各同义文本归至该样本文本进行表示。
本公开实施例提供的文本向量生成模型训练方法,使得得到的目标文本向量生成模型可将语义相同、近似的文本准确的输出为同一或相似度满足要求的文本向量。
在本实施例的一些可选的实现方式中,还包括:构建通用同义词表单和/或领域同义词表单;以及该替换该样本文本中的至少一个分词为该分词的同义词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组,包括:获取该样本文本中的至少一个分词,分别获取该分词在该通用同义词表单中的通用同义词和/或在该领域同义词表单中的领域同义词;利用该通用同义词替换该分词得到通用同义文本和/或利用该领域同义词替换该分词得到领域同义文本;生成由该样本文本和该通用同义文本和/或该领域同义文本组成的样本文本组。
具体的,还可预先构建通用同义词表单和/或领域同义词表单,其中该通用同义词表单中包括通用语言领域下具有同义词关系的各词,即在常识领域下,无需结合特定的应用场景(领域)下,公众便可理解其具有同义关系的词,例如“解决”与“处理”,该领域同义词表单中包括有在特定语言领域下具有同义词关系的各词,即在特定的领域下、需具备对应领域的知识,才能理解具有同义词关系的各词,例如“智能神经网络”、“智能模型”,应当理解的是,通用同义词表单、领域同义词表单中包括的各同义词并不局限于同一语言系统,即通用同义词表单、领域同义词表单中所记载的同义词(对、组)可以为中文-英语、中文-法语形式的同义词(对、组),例如“苹果-Apple”,在此基础上,后续生成样本文本的同义文本的过程中,可直接基于通用同义词表单和/或领域同义词表单确定替换分词的通用同义词和/或领域同义词,并利用通用同义词和/或领域同义词对该分词进行替换,得到对应的通用同义文本和/或领域同义文本,生成由该样本文本和该通用同义文本和/或该领域同义文本组成的样本文本组,该实现方式中,不仅可通过构建通用同义词表单和/或领域同义词表单实现对分词的快速替换,提升得到样本文本组的效率,还可分别对应用场景进行区分后,针对不同的情况进行同义词收集,进行针对性、质量性的同义词(关系)扩充,以提升得到的样本文本组的质量。
在本实施例的一些可选的实现方式中,还包括:响应于该样本文本的长度未超过长度阈值,基于该样本文本的前文语句和/或后文语句将该样本文本的长度增至该长度阈值对应的长度。
具体的,在获取样本长度未超过长度阈值时进行响应,基于该样本文本的前文语句和/或后文语句将该样本文本的长度增至该长度阈值对应的长度,以丰富样本文本的长度,避免样本文本过短所导致的样本质量过低,影响目标文本向量生成模型质量的问题。
应当理解的是,在样本文本未存在前文语句和/或后文语句的情况下,可相应的生成反馈信息,以便于用户根据该反馈信息获知该样本文本长度不足的情况后,根据实际需求进行样本文本的前文语句和/或后文语句的补充,以实现同样的技术效果。
在本实施例的一些可选的实现方式中,将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型,包括:将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到目标文本向量生成模型。
具体的,在将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练的过程中,可使用批次内负采样(In-batch Negatives)的方式对对偶式检索模型进行训练,其中,该对偶式检索模型通过两个对称的网络分别对问题和候选段落进行编码并计算语义相似度,这样能够利用强大的网络结构进行更深层次的学习,同时基于预训练语言模型,使语义理解更加丰富,批次内负采样的方式进行训练,可将批次内其他问题的正确答案作为当前问题的错误答案(负例),从而减少重复计算和提高训练效率,并提升得到的目标文本向量生成模型的质量。
上述各实施例从各个方面阐述了如何训练得到目标文本向量生成模型,为了尽可能的从实际使用场景突出训练出的目标文本向量生成模型所起到的效果,本公开还具体提供了一种使用训练好的目标文本向量生成模型来解决实际问题的方案,请参考图3,图3为本公开实施例提供的一种文本分类方法的流程图,其中流程300包括以下步骤。
步骤301,获取待分类文本。
在本实施例中,由文本分类方法的执行主体(例如图1所示的服务器105)获取待分类文本,该待分类文本可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的终端设备101、102、103)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此种情况下,待分类文本可以在本地快速读取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些用户终端等,在此情况下,上述执行主体可以通过向该电子设备发送获取命令来获取所需的待分类文本。
步骤302,调用目标文本向量生成模型处理该待分类文本,生成该待分类文本的第一文本向量。
在本实施例中,调用目标文本向量生成模型,其中,该目标文本向量生成模型可由图2所示的文本向量生成模型训练方法训练得到,在完成调用目标文本向量生成模型后,利用该目标文本向量生成模型对该待分类文本进行处理,生成该待分类文本的第一文本向量。
步骤303,从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过第二相似度阈值的第二文本向量。
在本实施例中,获取预先配置的向量检索库,其中,该向量检索库中配置有多个带有分类标签的第二文本向量,并从该向量检索库中召回与该第一文本向量相似度超过第二相似度阈值的、预设数量的第二文本向量,其中该预设数量可根据实际需求进行配置,该预设数量通常与文本分类的分类精度正相关,即召回的预设数量伴随分类精度增高而增高。
在实践中,可在确定与第一文本向量相似度超过第二相似度阈值的第二文本向量后,依据各第二文本向量与第一文本向量的相似度,对各第二文本向量进行排序,排序结果中依据与第一文本向量相似度由高至低依次排列各第二文本向量,在此情况下,便可通过选取前预设数量的第二文本向量的方式确定与该第一文本向量相似度超过第二相似度阈值的第二文本向量。
应当理解的是,该向量检索库中所存有的第二文本向量以及第二文本向量所对应的分类标签,通常也会基于该目标文本向量生成模型对经构建该向量检索库的用户所确认的样本文本进行处理、得到对应的(第二)文本向量后,基于该用户添加的、对应该(第二)文本向量的分类标签后得到,进一步的,向量检索库中的第二文本向量可同时带有多个不同的分类标签。
步骤304,基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别。
在本实施例中,在基于上述步骤303中确定与该第一文本向量相似度超过第二相似度阈值的第二文本向量后,可基于提取出的各第二文本向量所对应的分类标签的分布结果确定该待分类文本的文本类别,通常可获取各第二文本向量的分类标签的数量后,将数量最多的分类标签确定为该待分类文本的文本类别,或根据各第二文本向量与第一文本的相似度生成相似度评分后,统计各第二文本向量的相似度评分,将相似度评分最高的分类标签作为该待分类文本的文本类别。
本公开实施例提供的文本分类方法,可通过目标文本向量生成模型处理待分类文本、得到待分类文本的文本向量后,利用向量检索库准确的确定待分类文本的类别、实现文本分类,使得可以通过调整向量检索库中各文本向量的分类结果的方式动态调整文本分类标准,可提升文本分类的灵活性和场景兼容性。
在本实施例的一些可选的实现方式中,基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别,包括:分别基于该第一文本向量与该第二文本向量的相似度生成各第二文本向量的相似度评分;根据属于相同分类标签的第二文本向量的相似度评分,确定与各分类标签对应的相似度评分和,并将该相似度评分和超过分数阈值的分类标签确定为该待分类文本的文本类别。
具体的,可基于第一文本向量与该第二文本向量的相似度生成各第二文本向量的相似度评分,该相似度的评分规则可直接根据相似度数值进行量化,例如相似度为85%时,对应的记录为85分,也可以根据相似度数值所落入的区间,将该区间对应的评分作为相似度评分,例如相似度为85%时,该相似度落入【0.8,0.9】这一区间,则将该区间对应的评分8作为相似度评分,也可对应选取第二文本向量时所采用的预设数量设置对应的分值,并根据第二文本向量的相似度数值排次确定对应的分值,例如预设数量为5,可则对应设置分值梯度为5、4、3、2、1,在确定第二文本向量的相似度数值大小为选取出的5个第二文本向量中由大至小的第2排次,则对应确定该第二文本向量所对应的相似度评分为4,在确定各第二文本向量的相似度评分后,将带有同一分类标签的各第二文本向量确定为一组,并基于该组内的各第二文本向量的相似度评分的加和结果得到该组以及该组对应的分类标签的相似度评分和,并将该相似度评分和超过分数阈值的分类标签确定为该待分类文本的文本类别,通过从向量检索库中召回第二文本向量后,基于第二文本向量的分类标签的分布情况,确定待分类文本的文本类别,以实现对第一文本向量的动态分类。
实践中,也可以根据实际所需求的分类标签数量确定分类标签的数量选取范围,并根据该数量选取范围从相似度评分和降序排序结果中选取前对应数量的分类标签。
在本实施例的一些可选的实现方式中,基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别,包括:分别获取各第二文本向量对应的分类标签,将出现频次超过频次阈值的分类标签确定为该待分类文本的文本类别。
具体的,在召回预设数量的第二文本向量后,获取各第二文本向量对应的分类标签,并将出现频次超过频次阈值的分类标签确定为待分类文本的文本类别,通过从向量检索库中召回第二文本向量后,基于第二文本向量的分类标签的分布情况,确定待分类文本的文本类别,以实现对第一文本向量的动态分类。
实践中,也可以根据实际所需求的分类标签数量确定分类标签的数量选取范围,并根据该数量选取范围从分类标签的出现频次降序排序结果中选取前对应数量的分类标签。
在本实施例的一些可选的实现方式中,从预先配置的向量检索库中召回预设数量与该第一文本向量相似度超过第二相似度阈值的第二文本向量,包括:获取预先配置的向量检索库中各第二文本向量与该第一文本向量的相似度;将该相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;基于各目标第二文本向量与该第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。
具体的,在从预先配置的向量检索库中召回预设数量与该第一文本向量相似度超过第二相似度阈值的第二文本向量时,可在获取预先配置的向量检索库中各第二文本向量与该第一文本向量的相似度后,将该相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量,并基于各目标第二文本向量与该第一文本向量的相似度数值进行降序排序,最终从排序结果中召回前预设数量的目标第二文本向量,以达到优先召回相似度更高的第二文本向量的目的,提升召回的第二文本向量的使用质量。
在一些实施例中,为达到灵活配置文本分类标准以及提升文本分类方法的场景兼容性的目的,还可针对用户发送的向量更新请求对向量检索库进行更新,以便于用户通过更新向量检索库中的第二文本向量以及第二文本向量的分类标签的方式,动态的调整文本分类调准,在此情况下,该方法还包括图4所示的流程400,具体如下。
步骤401,响应于接收到针对向量检索库的向量更新请求,获取该向量更新请求中所包括的第三文本向量。
具体的,在接收针对向量检索库的向量更新请求时,上述文本分类方法的执行主体进行响应,获取该向量更新请求中所包括的第三文本向量。
步骤402,从该向量检索库提取与该第三文本向量相似度超过第三相似度阈值的参照第二文本向量。
具体的,从该向量检索库中提取与该第三文本向量相似度超过第三相似度阈值的参照第二文本向量,实践中,该第三相似度阈值优选地小于第二相似度阈值,以便于更好的实现对向量检索库进行扩充目的,在获取该第三文本向量后,可基于如上述图3所示实施例中步骤303中的方式提取与该第三文本向量相似度超过第三相似度阈值的参照第二文本向量,相同部分可参照上述图3所示实施例中步骤303中所说明内容,此处不在赘述。
步骤403,基于该参照第二文本向量的分类标签的分布结果确定该第三文本向量的参考文本类别,并呈现该参考文本类别。
具体的,在基于上述步骤402中确定参照第二文本向量后,可基于上述图3所示实施例中步骤304的方式,确定该第三文本向量的参考文本类别,相同部分可参照上述图3所示实施例中步骤304中所说明内容,此处不在赘述,并在确定该第三文本向量的参考文本类别后,通过发送给发送该向量更新请求的用户或优选配置的具有向量检索库更新权限的用户进行呈现,并根据所呈现用户返回的结果为用于指示该参考文本类别可用的确认信息执行步骤404,或用于指示该参考文本类别不可用、包括更新文本类别的更新信息确定执行步骤405。
步骤404,响应于接收到针对该参考文本类别的确认信息,基于该参考文本类别生成该第三文本向量的分类标签,并将带有该分类标签的第三文本向量存入该向量检索库。
具体的,在接收到针对该参考文本类别的确认信息时进行响应,基于该参考文本类别生成该第三文本向量的分类标签,并将带有该分类标签的第三文本向量存入该向量检索库,完成对向量检索库中第二文本向量的更新。
步骤405,响应于接收到针对该参考文本类别的更新信息,基于该更新信息中标记的更新文本类别生成该第三文本向量的分类标签,并将带有该分类标签的第三文本向量存入该向量检索库。
具体的,在接收到针对该参考文本类别的更新信息时进行响应,基于该更新信息中标记的更新文本类别生成该第三文本向量的分类标签,并将带有该分类标签的第三文本向量存入该向量检索库,完成对向量检索库中第二文本向量以及分类标签的更新。
为加深理解,本公开还结合一个具体应用场景,给出了一种具体的实现方案,具体如下:
首先,如图5a中提供的流程500a所示,获取样本文本“我无法登陆A游戏,但我认为我输入的账号是正确的”,然后,利用预先构建的通用同义词表单构建通用同义文本“我无法登上A游戏,但我觉得输入账号没错”,以及利用预先构建的领域同义词表单构建领域同义文本“我无法进入A游戏,但我认为我输入的是正确的”。
接下来,利用样本文本“我无法登陆A游戏,但我认为我输入的账号是正确的”的目标语义向量A作为输出,上述样本文本、通用同义文本以及领域同义文本生成的样本文本组对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
进一步的,如图5b中提供的流程500b所示,获取待分类文本“我登陆A游戏,总说我账号密码不对,无法登陆,但我没输错”,获取基于图5a中所提供的流程500a生成的目标文本向量生成模型,并基于该目标文本向量生成模型对该待分类文本进行处理,生成第一文本向量B。
接下来,从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过相似度阈值60%的第二文本向量,召回的第二文本向量包括:基于样本文本“我无法登陆A游戏,但我认为我输入的账号是正确的”得到的第二文本向量A,基于样本文本“我无法通过登陆A游戏的验证”得到的第二文本向量B,以及基于样本文本“我登陆A游戏的时候系统出错”得到的第二文本向量C。
最后,基于第二文本向量A与该生成第一文本向量B的相似度,生成第二文本向量A对应的分类标签“A游戏”、“账号”、“验证不通过”的相似度评分均为8分,基于第二文本向量B与该生成第一文本向量B的相似度,生成第二文本向量B对应的分类标签“A游戏”、“验证不通过”的相似度评分均为7分,基于第二文本向量C与该生成第一文本向量B的相似度,生成第二文本向量C对应的分类标签“A游戏”、“系统故障”的相似度评分均为5分,统计得到分类标签“A游戏”的相似度评分和为20分、分类标签“账号”的相似度评分和为8分、分类标签“验证不通过”的相似度评分和为15分、分类标签“系统故障”的相似度评分和为5分,将相似度评分和超过分数阈值10分的分类标签“A游戏”、“验证不通过”作为该待分类文本的文本类别。
进一步参考图6和图7,作为对上述各图所示方法的实现,本公开分别提供了一种文本向量生成模型训练装置实施例和一种文本分类装置的实施例,文本向量生成模型训练装置实施例与图2所示的文本向量生成模型训练方法实施例相对应,文本分类装置实施例与文本分类方法实施例相对应。上述装置具体可以应用于各种电子设备中。
如图6所示,本实施例的文本向量生成模型训练装置600可以包括:样本文本获取单元601、样本文本组生成单元602、文本向量生成模型训练单元603。其中,样本文本获取单元601,被配置成获取样本文本;样本文本组生成单元602,被配置成替换该样本文本中的至少一个分词为该分词的同义词,生成该样本文本的同义文本,并生成由该样本文本和该同义文本组成的样本文本组;文本向量生成模型训练单元603,被配置成将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
在本实施例中,文本向量生成模型训练装置600中:样本文本获取单元601、样本文本组生成单元602、文本向量生成模型训练单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,该文本向量生成模型训练装置600,还包括:同义词表单构建单元,被配置成构建通用同义词表单和/或领域同义词表单;以及该样本文本组生成单元602,包括:同义词获取子单元,被配置成获取该样本文本中的至少一个分词,分别获取该分词在该通用同义词表单中的通用同义词和/或在该领域同义词表单中的领域同义词;同义文本构建子单元,被配置成利用该通用同义词替换该分词得到通用同义文本和/或利用该领域同义词替换该分词得到领域同义文本;样本文本组生成子单元,被配置成生成由该样本文本和该通用同义文本和/或该领域同义文本组成的样本文本组。
在本实施例的一些可选的实现方式中,该文本向量生成模型训练装置600,还包括:样本文本修正单元,被配置成响应于该样本文本的长度未超过长度阈值,基于该样本文本的前文语句和/或后文语句将该样本文本的长度增至该长度阈值对应的长度。
在本实施例的一些可选的实现方式中,文本向量生成模型训练单元603,进一步被配置成将该样本文本组作为输入、将与该样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到目标文本向量生成模型。
如图7所示,本实施例的文本分类装置700可以包括:待分类文本获取单元701、文本向量生成单元702、第二文本向量召回单元703和文本分类单元704。其中,待分类文本获取单元701,被配置成获取待分类文本;文本向量生成单元702,被配置成调用目标文本向量生成模型处理该待分类文本,生成该待分类文本的第一文本向量;第二文本向量召回单元703,被配置成从预先配置的向量检索库中召回预设数量的与该第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,该向量检索库中配置有多个带有分类标签的第二文本向量;文本分类单元704,被配置成基于该第二文本向量的分类标签的分布结果确定该待分类文本的文本类别;其中,目标文本向量生成模型根据文本向量生成模型训练装置600得到。
在本实施例中,文本分类装置700中:待分类文本获取单元701、文本向量生成单元702、第二文本向量召回单元703和文本分类单元704的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301-304的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,文本分类单元704可以包括:
相似度评分生成子单元,被配置成分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分;
文本分类第一子单元,被配置成根据属于相同所述分类标签的第二文本向量的相似度评分,确定与各所述分类标签对应的相似度评分和,并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。
在本实施例的一些可选的实现方式中,所述文本分类单元704可以包括:
文本分类第二子单元,分别获取各所述第二文本向量对应的分类标签,将出现频次超过频次阈值的分类标签确定为所述待分类文本的文本类别。
在本实施例的一些可选的实现方式中,文本分类装置700中还可以包括:
第三文本向量获取单元,被配置成响应于接收到针对所述向量检索库的向量更新请求,获取所述向量更新请求中所包括的第三文本向量;
参照第二文本向量提取单元,被配置成从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量;
参考文本类别呈现单元,被配置成基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别,并呈现所述参考文本类别;
向量检索库第一更新单元,被配置成响应于接收到针对所述参考文本类别的确认信息,基于所述参考文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
在本实施例的一些可选的实现方式中,文本分类装置700中还可以包括:
向量检索库第二更新单元,被配置成响应于接收到针对所述参考文本类别的更新信息,基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
在本实施例的一些可选的实现方式中,所述第二文本向量召回单元703可以包括:
向量相似度获取子单元,被配置成获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度;
目标第二文本向量获取子单元,被配置成将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;
第二文本向量召回子单元,被配置成基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。
本实施例作为对应于上述方法实施例的装置实施例存在,本实施例提供的文本向量生成模型训练装置以及文本分类装置,可使用语义相同、近似的同义文本进行训练,使得得到的目标文本向量生成模型可将语义相同、近似的文本准确的输出为同一或相似度满足要求的文本向量,后续可通过该目标文本向量生成模型处理待分类文本、得到待分类文本的文本向量后,利用向量检索库准确的确定待分类文本的类别、实现文本分类,使得可以通过调整向量检索库中各文本向量的分类结果的方式动态调整文本分类标准,可提升文本分类的灵活性和场景兼容性。
根据本公开的实施例,本公开还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现上述任一实施例描述的文本向量生成模型训练方法和/或文本分类方法。
根据本公开的实施例,本公开还提供了一种可读存储介质,该可读存储介质存储有计算机指令,该计算机指令用于使计算机执行时能够实现上述任一实施例描述的文本向量生成模型训练方法和/或文本分类方法。
本公开实施例提供了一种计算机程序产品,该计算机程序在被处理器执行时能够实现上述任一实施例描述的文本向量生成模型训练方法的步骤和/或文本分类方法的步骤。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本向量生成模型训练方法和/或文本分类方法。例如,在一些实施例中,文本向量生成模型训练方法和/或文本分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文本向量生成模型训练方法和/或文本分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本向量生成模型训练方法和/或文本分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
本公开实施例的技术方案,可使用语义相同、近似的同义文本进行训练,使得得到的目标文本向量生成模型可将语义相同、近似的文本准确的输出为同一或相似度满足要求的文本向量,后续可通过该目标文本向量生成模型处理待分类文本、得到待分类文本的文本向量后,利用向量检索库准确的确定待分类文本的类别、实现文本分类,使得可以通过调整向量检索库中各文本向量的分类结果的方式动态调整文本分类标准,可提升文本分类的灵活性和场景兼容性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种文本向量生成模型训练方法,包括:
获取样本文本;
替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组;
将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
2.根据权利要求1所述的方法,还包括:
构建通用同义词表单和/或领域同义词表单;以及
所述替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组,包括:
获取所述样本文本中的至少一个分词,分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词;
利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本;
生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。
3.根据权利要求1所述的方法,还包括:
响应于所述样本文本的长度未超过长度阈值,基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。
4.根据权利要求1-3中任一项所述的方法,其中,所述将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型,包括:
将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到所述目标文本向量生成模型。
5.一种文本分类方法,包括:
获取待分类文本;
调用目标文本向量生成模型处理所述待分类文本,生成所述待分类文本的第一文本向量;其中,所述目标文本向量生成模型基于权利要求1-4中任一项所述的文本向量生成模型训练方法训练得到;
从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,所述向量检索库中配置有多个带有分类标签的第二文本向量;
基于所述第二文本向量的分类标签的分布结果确定所述待分类文本的文本类别。
6.根据权利要求5所述的方法,其中,所述基于所述第二文本向量的分类标签的分布结果确定所述待分类文本的文本类别,包括:
分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分;
根据属于相同所述分类标签的第二文本向量的相似度评分,确定与各所述分类标签对应的相似度评分和,并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。
7.根据权利要求5所述的方法,其中,所述基于所述第二文本向量的分类标签的分布结果确定所述待分类文本的文本类别,包括:
分别获取各所述第二文本向量对应的分类标签,将出现频次超过频次阈值的分类标签确定为所述待分类文本的文本类别。
8.根据权利要求5所述的方法,还包括:
响应于接收到针对所述向量检索库的向量更新请求,获取所述向量更新请求中所包括的第三文本向量;
从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量;
基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别,并呈现所述参考文本类别;
响应于接收到针对所述参考文本类别的确认信息,基于所述参考文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
9.根据权利要求8所述的方法,还包括:
响应于接收到针对所述参考文本类别的更新信息,基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
10.根据权利要求5所述的方法,其中,所述从预先配置的向量检索库中召回预设数量与所述第一文本向量相似度超过第二相似度阈值的第二文本向量,包括:
获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度;
将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;
基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。
11.一种文本向量生成模型训练装置,包括:
样本文本获取单元,被配置成获取样本文本;
样本文本组生成单元,被配置成替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组;
文本向量生成模型训练单元,被配置成将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型。
12.根据权利要求11所述的装置,还包括:
同义词表单构建单元,被配置成构建通用同义词表单和/或领域同义词表单;以及
所述样本文本组生成单元,包括:
同义词获取子单元,被配置成获取所述样本文本中的至少一个分词,分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词;
同义文本构建子单元,被配置成利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本;
样本文本组生成子单元,被配置成生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。
13.根据权利要求11所述的装置,还包括:
样本文本修正单元,被配置成响应于所述样本文本的长度未超过长度阈值,基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。
14.根据权利要求11-13中任一项所述的装置,其中,所述文本向量生成模型训练单元被进一步被配置成:
将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到所述目标文本向量生成模型。
15.一种文本分类装置,包括:
待分类文本获取单元,被配置成获取待分类文本;
文本向量生成单元,被配置成调用目标文本向量生成模型处理所述待分类文本,生成所述待分类文本的第一文本向量;其中,所述目标文本向量生成模型基于权利要求11-14中任一项所述的文本向量生成模型训练装置训练得到;
第二文本向量召回单元,被配置成从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量,其中,所述向量检索库中配置有多个带有分类标签的第二文本向量;
文本分类单元,被配置成基于所述第二文本向量的分类标签的分布结果确定所述待分类文本的文本类别。
16.根据权利要求15所述的装置,其中,所述文本分类单元,包括:
相似度评分生成子单元,被配置成分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分;
文本分类第一子单元,被配置成根据属于相同所述分类标签的第二文本向量的相似度评分,确定与各所述分类标签对应的相似度评分和,并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。
17.根据权利要求15所述的装置,其中,所述文本分类单元,包括:
文本分类第二子单元,分别获取各所述第二文本向量对应的分类标签,将出现频次超过频次阈值的分类标签确定为所述待分类文本的文本类别。
18.根据权利要求15所述的装置,还包括:
第三文本向量获取单元,被配置成响应于接收到针对所述向量检索库的向量更新请求,获取所述向量更新请求中所包括的第三文本向量;
参照第二文本向量提取单元,被配置成从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量;
参考文本类别呈现单元,被配置成基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别,并呈现所述参考文本类别;
向量检索库第一更新单元,被配置成响应于接收到针对所述参考文本类别的确认信息,基于所述参考文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
19.根据权利要求18所述的装置,还包括:
向量检索库第二更新单元,被配置成响应于接收到针对所述参考文本类别的更新信息,基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。
20.根据权利要求15所述的装置,其中,所述第二文本向量召回单元,包括:
向量相似度获取子单元,被配置成获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度;
目标第二文本向量获取子单元,被配置成将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;
第二文本向量召回子单元,被配置成基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的文本向量生成模型训练方法和/或权利要求5-10所述的文本分类方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的文本向量生成模型训练方法和/或权利要求5-10所述的文本分类方法。
CN202210965210.9A 2022-08-12 2022-08-12 文本向量生成模型训练方法、文本分类方法及相关装置 Active CN115033701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210965210.9A CN115033701B (zh) 2022-08-12 2022-08-12 文本向量生成模型训练方法、文本分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210965210.9A CN115033701B (zh) 2022-08-12 2022-08-12 文本向量生成模型训练方法、文本分类方法及相关装置

Publications (2)

Publication Number Publication Date
CN115033701A true CN115033701A (zh) 2022-09-09
CN115033701B CN115033701B (zh) 2022-10-28

Family

ID=83130688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210965210.9A Active CN115033701B (zh) 2022-08-12 2022-08-12 文本向量生成模型训练方法、文本分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN115033701B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113220840A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113392180A (zh) * 2021-01-07 2021-09-14 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
US20220027557A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Text-to-vectorized representation transformation
CN114003682A (zh) * 2021-10-29 2022-02-01 同盾科技有限公司 一种文本分类方法、装置、设备及存储介质
WO2022095682A1 (zh) * 2020-11-04 2022-05-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品
CN114528378A (zh) * 2022-02-22 2022-05-24 上海爱数信息技术股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114610881A (zh) * 2022-03-02 2022-06-10 京东科技信息技术有限公司 应用日志分析方法、装置、设备和存储介质
WO2022121181A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052946A1 (en) * 2014-06-06 2017-02-23 Siyu Gu Semantic understanding based emoji input method and device
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
US20220027557A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Text-to-vectorized representation transformation
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备
WO2022095682A1 (zh) * 2020-11-04 2022-05-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品
WO2022121181A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN113392180A (zh) * 2021-01-07 2021-09-14 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113220840A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN114003682A (zh) * 2021-10-29 2022-02-01 同盾科技有限公司 一种文本分类方法、装置、设备及存储介质
CN114528378A (zh) * 2022-02-22 2022-05-24 上海爱数信息技术股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114610881A (zh) * 2022-03-02 2022-06-10 京东科技信息技术有限公司 应用日志分析方法、装置、设备和存储介质
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Also Published As

Publication number Publication date
CN115033701B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN112749344B (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112487173B (zh) 人机对话方法、设备和存储介质
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
JP2023015215A (ja) テキスト情報の抽出方法、装置、電子機器及び記憶媒体
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN111782785A (zh) 自动问答方法、装置、设备以及存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN112699237B (zh) 标签确定方法、设备和存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115048523B (zh) 文本分类方法、装置、设备以及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
US20210342379A1 (en) Method and device for processing sentence, and storage medium
CN115033701B (zh) 文本向量生成模型训练方法、文本分类方法及相关装置
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN112560481B (zh) 语句处理方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant