CN115080745A - 基于人工智能的多场景文本分类方法、装置、设备及介质 - Google Patents

基于人工智能的多场景文本分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN115080745A
CN115080745A CN202210816014.5A CN202210816014A CN115080745A CN 115080745 A CN115080745 A CN 115080745A CN 202210816014 A CN202210816014 A CN 202210816014A CN 115080745 A CN115080745 A CN 115080745A
Authority
CN
China
Prior art keywords
text
scene
classified
indication
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210816014.5A
Other languages
English (en)
Inventor
李志韬
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210816014.5A priority Critical patent/CN115080745A/zh
Publication of CN115080745A publication Critical patent/CN115080745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及一种基于人工智能的多场景文本分类方法、装置、计算机设备及介质。该方法包括:获取待分类文本;基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。本发明降低了企业部署文本分类模型的难度和复杂度,仅通过一个多场景文本分类模型,就能够对各个业务场景下的文本进行有效分类,分类精度较高,且只占用少量的计算资源。

Description

基于人工智能的多场景文本分类方法、装置、设备及介质
技术领域
本发明适用于人工智能领域,尤其涉及一种基于人工智能的多场景文本分类方法、装置、计算机设备及介质。
背景技术
现有技术中,一般采用的文本分类方法只针对单一的应用场景,对于不同的应用场景,需要单独设置文本分类模型,利用单一场景中的训练样本,分别进行训练,才能得到针对该场景下较好的文本分类效果。因此,对于多场景的问题,企业往往需要在部署多个文本分类模型,缺点是占用了大量计算资源。如果将所有场景的训练样本进行混合训练,则会造成每个场景下的文本分类精度较低的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于人工智能的多场景文本分类方法、装置、计算机设备及介质,以解决现有技术需要部署多个文本分类模型导致占用了大量计算资源的问题。
第一方面,提供一种基于人工智能的多场景文本分类方法,所述多场景文本分类方法包括:
获取待分类文本;
基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
第二方面,提供一种基于人工智能的多场景文本分类装置,所述多场景文本分类装置包括:
文本提取模块,用于获取待分类文本;
场景指示文本生成模块,用于基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
文本重构模块,用于对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
文本分类模块,用于基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的多场景文本分类方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的多场景文本分类方法。
本发明与现有技术相比存在的有益效果是:
本发明的多场景文本分类方法、装置、计算机设备和介质,通过对带分类文本进行重构处理,处理得到了含有场景指示文本的待分类文本,使多场景文本分类模型对待分类文本进行分类预测时,能够针对不同场景进行可靠的文本分类。与现有技术相比,本发明降低了企业部署文本分类模型的难度和复杂度,仅通过一个多场景文本分类模型,就能够对各个业务场景下的文本进行有效分类,分类精度较高,且只占用少量的计算资源。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种多场景文本分类方法的一应用环境示意图;
图2是本发明一实施例提供的多场景文本分类方法的流程图;
图3是本发明一实施例提供的多场景文本分类方法的另一流程图;
图4是本发明一实施例提供的多场景文本分类方法的另一流程图;
图5是本发明一实施例提供的多场景文本分类方法的另一流程图;
图6是本发明一实施例提供的多场景文本分类方法的另一流程图;
图7是本发明一实施例提供的多场景文本分类方法的另一流程图;
图8是本发明一实施例提供的一种多场景文本分类装置的结构示意图;
图9是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种基于人工智能的多场景文本分类方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant,PDA)等终端设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明一实施例提供的一种基于人工智能的多场景文本分类方法的流程示意图,上述多场景文本分类方法可以应用于图1中的客户端,客户端对应的终端设备通过预设的应用程序接口(Application Programming Interface,API)连接目标数据库。在目标数据被驱动运行以执行相应的任务时,会产生对应的任务日志,通过API可以采集到上述任务日志。如图2所示,该多场景文本分类方法可以包括以下步骤:
S201:获取待分类文本;
S202:基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
S203:对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
S204:基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
作为一示例,步骤S201中,获取的待分类文本为通过语音转换识别的文本,例如,对于客户参加某保单业务后业务员与客户之间的访问电话录音,需要将该段录音进行语音文字转换,以获得待分类文本。
作为一示例,步骤S202中,确定与所述待分类文本相关联的场景指示文本的方法是:根据客户参加的某保单业务场景类型,来确定场景指示文本,例如,当客户参加的某保单业务场景类型为一生保时,确定的场景指示文本为一生保;当客户参加的某保单业务场景类型为运动意外险时,确定的场景指示文本为运动意外。因此,确定的场景指示文本与待分类文本具有关联关系,即场景指示文本与待分类文本通过访问电话录音及录音对象参加的某保单进行关联。
作为一示例,步骤S203中,对所述待分类文本进行重构的含义是,将上一步骤中确定的场景指示文本加入待分类文本,得到重构后的待分类文本,即含有所述场景指示文本的待分类文本。
作为一示例,步骤S204中,多场景文本分类模型采用seq2seq模型(为编码器、解码器结构),例如采用MT5模型。
本实施例的多场景文本分类方法,通过对带分类文本进行重构处理,处理得到了含有场景指示文本的待分类文本,使多场景文本分类模型对待分类文本进行分类预测时,能够针对不同场景进行可靠的文本分类。与现有技术相比,本发明降低了企业部署文本分类模型的难度和复杂度,仅通过一个多场景文本分类模型,就能够对各个业务场景下的文本进行有效分类,分类精度较高,且只占用少量的计算资源。
在一实施例中,如图3所示,步骤S204中,所述多场景文本分类模型的训练过程如下:
S301:获取N个场景的文本作为训练样本,N>1;
S302:在各个所述文本中随机提取一个对应的词组,将所述对应的词组作为各个所述文本的标签;
S303:基于所述训练样本和各个所述文本的标签,对预设参数的多场景文本分类模型进行有监督式训练,得到多场景文本分类模型的优化参数,更新所述多场景文本分类模型;
S304:基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调。
作为一示例,步骤S301中,需要获取多个业务场景下的文本和标签,每个业务场景下获取一定数量的文本即可。例如,获取两百条业务场景为一生保的文本,以及获取一百五十条业务场景为运动意外险的文本。
作为一示例,步骤S302中,需要把每个文本中的词组随机挖掉,并用字符“XX”代替挖掉的词组在文本中的位置,同时将挖掉的词组作为标签。例如:对于无标签的文本“我想投人身保险和损害保险”,随机把其中的字词挖掉,比如这里挖掉的是“人身”,则将“我想投XX保险和损害保险”作为挖掉词组后的文本,“人身”作为文本的标签。
作为一示例,步骤S303中,将挖掉词组后的文本作为训练样本,将挖掉的词组作为文本的标签,输入到预设参数的多场景文本分类模型中,进行模型进行有监督的训练,训练完成后,能够得到多场景文本分类模型的优化参数。
作为一示例,步骤S304中,需要对每个训练样本划分对应的业务场景,业务场景划分后能够确定每个训练样本对应的场景指示文本,然后按照场景指示文本、场景标识符、训练样本进行组合,重新构成训练样本,利用重新构成的训练样本对多场景文本分类模型再次训练,能够得到多场景文本分类模型的最优参数,从而实现多场景文本分类模型的微调。
本实施例的多场景文本分类方法,通过对多场景文本分类模型进行两次训练,第一次通过随机挖空训练样本的词作为标签,进行有监督训练;第二次通过生成的场景指示文本、场景标识符对训练样本进行重构,进行再次训练,实现对多场景文本分类模型的微调,得到多场景文本分类模型就能够对各个业务场景下的文本进行有效分类,分类精度较高。
在一实施例中,如图4所示,步骤S304,即基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调,包括:
S401:获取含有所述场景指示文本的目标分类文本模板,所述目标分类文本模板包括场景指示文本区域、标识符和目标分类文本区域;
S402:在所述目标分类文本模板中的对应区域依次填入所述训练样本和所述场景指示文本,得到含有所述场景指示文本的待分类文本;
S403:基于所述含有所述场景指示文本的待分类文本,以及所述待分类文本的分类标签,对所述多场景文本分类模型进行再次训练,以得到最优多场景文本分类模型。
作为一示例,步骤S401中,将场景指示文本区域设置在前面,将目标分类文本区域设置在后面,将标识符设置在中间,可选的,设置的标识符为“:”。
作为一示例,步骤S402中,举例说明如下:原始的待分类文本为“您好我是平安的坐席工号95511,请问您是王先生吗?”,确定的场景指示文本为“一生保”,则将待分类文本和场景指示文本填入对应的目标分类文本区域和场景指示文本区域中,最终得到含有所述场景指示文本的待分类文本为:“一生保文本1:您好我是平安的坐席工号95511,请问您是王先生吗?”
又如,原始的待分类文本为“您好我是平安的坐席工号95511”,确定的场景指示文本为“运动意外险”,则将待分类文本和场景指示文本填入对应的目标分类文本区域和场景指示文本区域中,最终得到含有所述场景指示文本的待分类文本为:“运动意外文本2:您好我是平安的坐席工号95511”。
作为一示例,步骤S403中,需要人工确定少量样本的标签,如对于含有所述场景指示文本的待分类文本为:“一生保文本1:您好我是平安的坐席工号95511,请问您是王先生吗?”,可设置其标签为自报家门/询问客户;而对于含有所述场景指示文本的待分类文本为:“运动意外文本2:您好我是平安的坐席工号95511”,可设置其标签为自报家门。
本实施例的多场景文本分类方法,在对多场景文本分类模型进行微调的过程中,使用了专用的目标分类文本模板对训练样本进行重构处理,使重构后的训练样本中加入了场景指示信息,然后对多场景文本分类模型进行训练,从而得到了能够使用各个场景文本分类的多场景文本分类模型。
在一实施例中,如图5所示,步骤S202,即基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;包括:
S501:获取所述待分类文本在语音文本转换之前的语音包信息;
S502:提取所述语音包信息中的业务单场景信息;
S503:将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本。
作为一示例,步骤S501中,待分类文本是通过将务员与客户之间的访问电话录音进行语音转换识别得到的,因此,可以获取到待分类文本在语音文本转换之前的语音包信息。
作为一示例,步骤S502中,由于语音包信息包括业务访问对象,以及涉及的业务单场景信息,因此可以提取到语音包信息中的业务单场景信息。例如,在与待分类文本为“您好我是平安的坐席工号95511,请问您是王先生吗?”对应的语音包信息中,能够提取到的业务单场景信息为一生保;与待分类文本为“您好我是平安的坐席工号95511”对应的语音包信息中,能够提取到的业务单场景信息为运动意外险。
作为一示例,步骤S503中,根据业务单场景信息,对业务单场景信息进行标准处理化,能够得到标准的场景指示文本。例如,当业务单场景信息为运动意外险时,经过标准化处理后,确定标准的场景指示文本为“运动意外”;当业务单场景信息为意外险时,经过标准化处理后,确定标准的场景指示文本仍为“运动意外”。
本实施例的多场景文本分类方法,不是直接对待分类文本进行分类预测,而是将待分类文本进行重构处理,加入了与所述待分类文本相关联的场景指示文本,将重构的待分类文本输入至多场景文本分类模型中,能够得到该场景下的分类结果,准确性较高。
在一实施例中,如图6所示,步骤S503,即将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本包括:
S601:进行所述业务单场景信息的文字识别;
S602:根据识别到的所述文字生成初始场景词组;
S603:计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
S604:选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
作为一示例,步骤S601中,确定的业务单场景信息可能是二进制代码或者是特殊字符,需要将非文字表达的业务单场景信息进行文字识别转换,例如,将业务单场景信息识别到两个字,分别为“一”、“生”,或者识别到三个字,分别为“意”、“外”、“险”。
作为一示例,步骤S602中,将识别得到文字按照先后顺序组成词组,例如,将识别到的两个字“一”、“生”组成初始场景词组为“一生”;将识别到的三个字“意”、“外”、“险”组成初始场景词组为“意外险”。
作为一示例,步骤S603中,标准场景指示文本库中存储有若干个标准场景指示文本,如“一生保”、“运动意外”等。需要将得到的初始场景词组与库中存储的每个标准场景指示文本进行语义相似度的计算。
具体的,确定好M个初始场景词组和H个标准场景指示文本的词向量,并将第i(i=1,2,...,M)个初始场景词组的词向量记为
Figure BDA0003742377010000101
将第j(j=1,2,...,H)个标准场景指示文本的词向量记为
Figure BDA0003742377010000102
然后计算第i个初始场景词组的词向量
Figure BDA0003742377010000103
和第j个标准场景指示文本的词向量
Figure BDA0003742377010000104
之间的余弦相似度,作为第i个初始场景词组的词向量
Figure BDA0003742377010000105
和第j个标准场景指示文本的词向量
Figure BDA0003742377010000106
之间的语义相似度Yij
Figure BDA0003742377010000107
式中,
Figure BDA0003742377010000108
是第i个初始场景词组的词向量,
Figure BDA0003742377010000109
是第j个标准场景指示文本的词向量。
作为一示例,步骤S604中,对于第i(i=1,2,...,M)个初始场景词组,能够计算得到该初始场景词组与H个标准场景指示文本之间的语义相似度,选取其中语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
本实施例的多场景文本分类方法,通过对业务单场景信息进行文字识别,并生成初始场景词组,筛选出与初始场景词组相似度最高的标准场景指示文本,能够准确判别出该待分类文本所属的业务场景,避免对分类文本的业务场景的误识别,导致向多场景文本分类模型输入错误的场景指示文本的待分类文本。
在一实施例中,如图7所示,步骤S503,即将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本包括:
S701:进行所述业务单场景信息的文字识别;
S702:根据识别到的所述文字生成初始场景词组;
S703:计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
S704:筛选出最大的语义相似度,判断所述最大的语义相似度是否满足预设条件;
S705:若满足,则选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本;若不满足,则对所述初始场景词组进行调整,生成扩展场景词组;
S706:计算所述扩展场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
S707:将满足所述预设条件的最大语义相似度对应的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
作为一示例,上述的步骤S701、步骤S702与步骤S601、步骤S602的过程一致,具体参考步骤S601、步骤S602中的相关记载,本实施例中不再赘述。
作为一示例,步骤S703中,需要将得到的初始场景词组与库中存储的每个标准场景指示文本进行第一语义相似度的计算。过程为:确定好M个初始场景词组和H个标准场景指示文本的词向量,并将第i(i=1,2,...,M)个初始场景词组的词向量记为
Figure BDA0003742377010000111
将第j(j=1,2,...,H)个标准场景指示文本的词向量记为
Figure BDA0003742377010000121
然后计算第i个初始场景词组的词向量
Figure BDA0003742377010000122
和第j个标准场景指示文本的词向量
Figure BDA0003742377010000123
之间的余弦相似度,作为第i个初始场景词组的词向量
Figure BDA0003742377010000124
和第j个标准场景指示文本的词向量
Figure BDA0003742377010000125
之间的第一语义相似度
Figure BDA0003742377010000126
Figure BDA0003742377010000127
式中,
Figure BDA0003742377010000128
是第i个初始场景词组的词向量,
Figure BDA0003742377010000129
是第j个标准场景指示文本的词向量。
作为一示例,步骤S704中,判断所述最大的第一语义相似度是否满足预设条件为:比较所述最大的第一语义相似度是否大于预设相似度门槛值,若大于,则判定为最大的第一语义相似度满足预设条件;若不大于,则判定为最大的第一语义相似度不满足预设条件。
作为一示例,步骤S705中,若判定为不满足预设条件,则对所述初始场景词组进行调整,生成扩展场景词组,例如,当初始场景词组为“生一”时,根据上述步骤S704判定为不满足预设条件,则调整初始场景词组中的文字顺序,调整得到的扩展场景词组为“一生”。
作为一示例,步骤S706中,需要将得到的扩展场景词组与标准场景指示文本库中的各标准场景指示文本之间进行第二语义相似度的计算,计算公式如下:
Figure BDA00037423770100001210
式中,
Figure BDA00037423770100001211
为第二语义相似度,
Figure BDA00037423770100001212
为第i个扩展场景词组的词向量,
Figure BDA00037423770100001213
是第j个标准场景指示文本的词向量。
作为一示例,步骤S707中,筛选出最大的第二语义相似度,判断所述最大的第二语义相似度是否满足预设条件;若满足,将最大的第二语义相似度对应的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本;若不满足,则重新生成扩展场景词组,直至找到一个扩展场景词组,使计算的最大第二语义相似度满足预设条件为止,将最大的第二语义相似度对应的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
本实施例的多场景文本分类方法,通过对筛选出最大的语义相似度进行阈值判断,来衡量该语义相似度对应的标准场景指示文本是否合适,若不合适,则对初始场景词组进行文字顺序变换、个别字的删减或增加等调整,生成扩展场景词组,以代替初始场景词组,重新进行语义相似度的计算、判别,直到找到一个满足预设条件的最大语义相似度,从而确定与待分类文本相关联的最佳场景指示文本。
对应于上文实施例的方法,图8示出了本发明一实施例提供的基于人工智能的多场景文本分类装置的结构框图,如图8所示,该多场景文本分类装置包括:文本提取模块801、场景指示文本生成模块802、文本重构模块803、文本分类模块804。各功能模块详细说明如下:
文本提取模块801,用于获取待分类文本;
场景指示文本生成模块802,用于基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
文本重构模块803,用于对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
文本分类模块804,用于基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
在一实施例中,文本分类模块804中的多场景文本分类模型的训练过程如下:
获取N个场景的文本作为训练样本;
在各个所述文本中随机提取一个对应的词组,将所述对应的词组作为各个所述文本的标签;
基于所述训练样本和各个所述文本的标签,对预设参数的多场景文本分类模型进行有监督式训练,得到多场景文本分类模型的优化参数,更新所述多场景文本分类模型;
基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调。
在一实施例中,基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调,包括:
获取含有所述场景指示文本的目标分类文本模板,所述目标分类文本模板包括场景指示文本区域、标识符和目标分类文本区域;
在所述目标分类文本模板中的对应区域依次填入所述训练样本和所述场景指示文本,得到含有所述场景指示文本的待分类文本;
基于所述含有所述场景指示文本的待分类文本,以及所述待分类文本的分类标签,对所述多场景文本分类模型进行再次训练,以得到最优多场景文本分类模型。
在一实施例中,场景指示文本生成模块802包括:
语音包信息提取子模块,用于获取所述待分类文本在语音文本转换之前的语音包信息;
场景信息提取子模块,用于提取所述语音包信息中的业务单场景信息;
场景指示文本生成子模块,用于将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本。
在一实施例中,场景指示文本生成子模块包括:
文字识别单元:用于进行所述业务单场景信息的文字识别;
初始场景词组生成单元:用于根据识别到的所述文字生成初始场景词组;
语义相似度计算单元:用于计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
场景指示文本生成单元,用于选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
在一实施例中,场景指示文本生成子模块包括:
文字识别单元:用于进行所述业务单场景信息的文字识别;
初始场景词组生成单元:用于根据识别到的所述文字生成初始场景词组;
第一语义相似度计算单元:用于计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
筛选判断单元:筛选出最大的语义相似度,判断所述最大的语义相似度是否满足预设条件;
扩展场景词组生成单元,用于根据若满足预设条件,则选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本;若不满足预设条件,则对所述初始场景词组进行调整,生成扩展场景词组;
第二语义相似度计算单元:用于计算所述扩展场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
场景指示文本生成单元,将满足所述预设条件的最大语义相似度对应的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
在一实施例中,所述多场景文本分类模型采用MT5模型。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图9为本发明实施例四提供的一种计算机设备的结构示意图。如图9所示,该实施例的计算机设备包括:至少一个处理器(图9中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个多场景文本分类方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图9仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是终端设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.基于人工智能的多场景文本分类方法,其特征在于,所述多场景文本分类方法包括:
获取待分类文本;
基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
2.根据权利要求1所述的多场景文本分类方法,其特征在于,所述多场景文本分类模型的训练过程如下:
获取N个场景的文本作为训练样本,N>1;
在各个所述文本中随机提取一个对应的词组,将所述对应的词组作为各个所述文本的标签;
基于所述训练样本和各个所述文本的标签,对预设参数的多场景文本分类模型进行有监督式训练,得到多场景文本分类模型的优化参数,更新所述多场景文本分类模型;
基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调。
3.根据权利要求2所述的多场景文本分类方法,其特征在于,基于所述训练样本的场景指示文本、场景标识符以及所述训练样本,对所述多场景文本分类模型进行微调,包括:
获取含有所述场景指示文本的目标分类文本模板,所述目标分类文本模板包括场景指示文本区域、标识符和目标分类文本区域;
在所述目标分类文本模板中的对应区域依次填入所述训练样本和所述场景指示文本,得到含有所述场景指示文本的待分类文本;
基于所述含有所述场景指示文本的待分类文本,以及所述待分类文本的分类标签,对所述多场景文本分类模型进行再次训练,以得到最优多场景文本分类模型。
4.根据权利要求1所述的多场景文本分类方法,其特征在于,基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本包括:
获取所述待分类文本在语音文本转换之前的语音包信息;
提取所述语音包信息中的业务单场景信息;
将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本。
5.根据权利要求4所述的多场景文本分类方法,其特征在于,将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本包括:
进行所述业务单场景信息的文字识别;
根据识别到的文字生成初始场景词组;
计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
6.根据权利要求4所述的多场景文本分类方法,其特征在于,将所述业务单场景信息转换为与所述待分类文本相关联的场景指示文本包括:
进行所述业务单场景信息的文字识别;
根据识别到的文字生成初始场景词组;
计算所述初始场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
筛选出最大的语义相似度,判断所述最大的语义相似度是否满足预设条件;
若满足,则选取语义相似度最大的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本;若不满足,则对所述初始场景词组进行调整,生成扩展场景词组;
计算所述扩展场景词组与标准场景指示文本库中的各标准场景指示文本之间的语义相似度;
将满足所述预设条件的最大语义相似度对应的标准场景指示文本,作为与所述待分类文本相关联的场景指示文本。
7.根据权利要求1至6任一项所述的多场景文本分类方法,其特征在于,所述多场景文本分类模型采用MT5模型。
8.基于人工智能的多场景文本分类装置,其特征在于,所述多场景文本分类装置包括:
文本提取模块,用于获取待分类文本;
场景指示文本生成模块,用于基于所述待分类文本,确定与所述待分类文本相关联的场景指示文本;
文本重构模块,用于对所述待分类文本进行重构,得到含有所述场景指示文本的待分类文本;
文本分类模块,用于基于训练后的多场景文本分类模型对含有所述场景指示文本的待分类文本进行预测,得到所述待分类文本的类别。
9.一种计算机设备,其特征在于,所述计算机包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多场景文本分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多场景文本分类方法。
CN202210816014.5A 2022-07-12 2022-07-12 基于人工智能的多场景文本分类方法、装置、设备及介质 Pending CN115080745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210816014.5A CN115080745A (zh) 2022-07-12 2022-07-12 基于人工智能的多场景文本分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210816014.5A CN115080745A (zh) 2022-07-12 2022-07-12 基于人工智能的多场景文本分类方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115080745A true CN115080745A (zh) 2022-09-20

Family

ID=83259076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210816014.5A Pending CN115080745A (zh) 2022-07-12 2022-07-12 基于人工智能的多场景文本分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115080745A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563972A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种结构化的六联情感分析模型的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563972A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种结构化的六联情感分析模型的训练方法

Similar Documents

Publication Publication Date Title
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111858843B (zh) 一种文本分类方法及装置
CN111967302A (zh) 视频标签的生成方法、装置及电子设备
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
US20220139063A1 (en) Filtering detected objects from an object recognition index according to extracted features
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN114445826A (zh) 视觉问答方法、装置、电子设备以及存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN110738048A (zh) 一种关键词提取方法、装置及终端设备
CN116010545A (zh) 一种数据处理方法、装置及设备
CN115357720A (zh) 基于bert的多任务新闻分类方法及装置
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
US11270155B2 (en) Duplicate image detection based on image content
CN114417860A (zh) 一种信息检测方法、装置及设备
CN113343699A (zh) 日志安全风险的监测方法、装置、电子设备及介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113139381B (zh) 不均衡样本分类方法、装置、电子设备及存储介质
CN112380974B (zh) 分类器优化方法、后门检测方法、装置和电子设备
CN115879471A (zh) 文本处理方法、系统、作业机械及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination