CN112966102A - 分类模型构建及文本语句分类方法、设备及存储介质 - Google Patents
分类模型构建及文本语句分类方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112966102A CN112966102A CN202110185296.9A CN202110185296A CN112966102A CN 112966102 A CN112966102 A CN 112966102A CN 202110185296 A CN202110185296 A CN 202110185296A CN 112966102 A CN112966102 A CN 112966102A
- Authority
- CN
- China
- Prior art keywords
- classification model
- sentences
- sentence
- loss
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种分类模型构建及文本语句分类方法、设备及存储介质,涉及电子技术领域。该分类模型构建方法包括:获取样本数据;将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征;根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得;根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型。本申请用以解决现有模型对文本语句分类不准确的问题。
Description
技术领域
本申请涉及电子技术领域,尤其涉及一种分类模型构建及文本语句分类方法、设备及存储介质。
背景技术
随着现代化信息科技技术的发展,各行各业都在信息数字化的建设。当前,在各个公司和企业的合同管理系统存有很多的各种类型的文件,合同文档是每个公司的财务审核,法务审核等审核校验的重中之重。从合同文档中进行关键句提取时,我们常需要对语义相似但是标签不同的句子进行分类。
当前进行文本分类的方法主要还是传统的统计机器学习方法如SVM(SupportVector Machine,支持向量机),TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数),或者是深度学习的LSTM(Long Short-Term Memory,长短期记忆网络),BERT(Bidirectional Encoder Representation from Transformers,双向编码模型)等。通常,余弦距离被用于度量文本的相似度。
但是,传统统计学习方法的分类决策错误率较大且对输入句子的表达格式很敏感。而且BERT有各向异性这个特征。各向异性是指向量相似度和语义相似度不一致的问题。当来自特定层的句子表示是各向异性时,统一采样的句子的余弦相似度接近1。实际上,各向异性的句向量可能导致两个不相似句子之间有巨大相似性。而此时,仅将余弦相似度直接用于句子的不同的表征是不精确的。
发明内容
本申请提供了一种分类模型构建及文本语句分类方法、设备及存储介质,用以解决现有模型对文本语句分类不准确的问题。
第一方面,本申请实施例提供了一种分类模型构建方法,包括:
获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
可选地,所述负样本语句和所述正样本语句是从同一个样本语句集合中获取的,所述正样本语句对应着至少一个所述负样本语句。
可选地,所述相似度损失的获得过程,包括:
获取所述正样本语句的特征和与所述正样本语句对应的每个所述负样本语句的特征之间的相似度;
分别对每个所述负样本语句,计算所述负样本语句对应的所述相似度加上预设值所得的中间量;
计算每个所述中间量的平均值,将所述平均值作为所述相似度损失。
可选地,所述特征包括语义特征和句法成分特征;
所述通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征,包括:
分别提取所述正样本语句的语义特征和句法成分特征,所述负样本语句的语义特征和句法成分特征;
将所述正样本语句的语义特征和所述正样本语句的句法成分特征整合,获得所述正样本语句的特征;
将所述负样本语句的语义特征和所述负样本语句的句法成分特征整合,获得所述负样本语句的特征。
可选地,所述损失中包括标签平滑分类损失,其中,所述标签平滑分类损失,通过对所述正样本语句对应的标签和所述负样本语句对应的标签,进行标签平滑正则化获得。
第二方面,本申请实施例提供了一种文本语句分类方法,包括:
获取待分类文本语句;
将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率;
根据所述待分类文本语句属于每个类别的概率,确定所述待分类文本语句所属的类别;
其中,所述分类模型的训练过程包括:
获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
可选地,所述将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率,包括:
将所述待分类文本语句输入至预先训练的分类模型;
通过所述分类模型提取所述待分类文本语句的语义特征,以及所述待分类文本语句的句法成分特征,根据所述待分类文本语句的语义特征以及所述句法成分特征,获得所述待分类文本语句属于每个类别的概率并输出。
可选地,不同所述类别对应预设的标签不同;所述待分类文本语句属于所述类别的概率为:所述待分类文本语句映射到所述类别对应预设的标签的概率。
第三方面,本申请实施例提供了一种分类模型构建装置,包括:
第一获取模块,用于获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
第一提取模块,用于将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
第二获取模块,用于根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
第一处理模块,用于根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
第四方面,本申请实施例提供了一种文本语句分类装置,包括:
第三获取模块,用于获取待分类文本语句;
第二处理模块,用于将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率;
第三处理模块,用于根据所述待分类文本语句属于每个类别的概率,确定所述待分类文本语句所属的类别。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的分类模型构建方法,或者,实现第二方面所述的文本语句分类方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的分类模型构建方法,或者,实现第二方面所述的文本语句分类方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在构建分类模型时,根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得,在分类模型的训练过程中,由于在损失中加入了相似度损失,且相似度损失和相似度成正相关,则正样本语句的特征和负样本语句的特征之间的相似度越小,相似度损失会越小,在分类模型的其他参数不变的情况下,损失也会越小,越趋于稳定,能够导致最终的分类模型中,正样本语句的特征和负样本语句的特征之间的相似度减小,正样本语句和负样本语句更容易区分,解决了现有模型对文本语句分类不准确的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中分类模型构建的方法流程示意图;
图2为本申请实施例中文本语句分类的方法流程示意图;
图3为本申请一个具体实施例中分类模型的结构示意图;
图4为本申请实施例中分类模型构建装置的结构示意图;
图5为本申请实施例中文本语句分类装置的结构示意图;
图6为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,提供了一种分类模型构建方法以及利用构建的分类模型进行文本语句分类的方法,该方法可以应用于服务器,当然,也可以应用于其他电子设备,例如终端(手机、平板电脑等)。本申请实施例中,以将该方法应用于服务器为例进行说明。
本申请实施例中,如图1所示,分类模型构建的方法流程主要包括:
步骤101,获取样本数据,其中,样本数据包括正样本语句、正样本语句对应的标签、负样本语句和负样本语句对应的标签。
其中,标签是预设的,可以是技术人员指定的,也可以是从样本数据中提取的,用于对正样本语句和负样本语句进行分类。
一个具体实施例中,负样本语句和正样本语句是从同一个样本语句集合中获取的,正样本语句对应着至少一个负样本语句。其中,同一个样本语句集合可以是从同一个文档中提取出的语句的集合。
例如:从同一个合同文档中提取多个语句,从这多个语句中提取出正样本语句,并从这多个语句中采用均匀采样提取出负样本语句,正样本语句为“本项目中,A公司需要付款30万”,正样本语句的标签为“需要付款”,第一个负样本语句为“B公司已经完成本项目的全部款项支付”,第二个负样本语句为“C公司已经付款20万,结清了本年度的款项”,第一个负样本语句的标签为“本项目不需要付款”,第二个负样本语句的标签为“本年度不需要付款”。
正样本语句对应着至少一个负样本语句,能够使标签更加多样化,也能使输入分类模型的负样本语句更多,使构建好的最终的分类模型更容易区分各种标签的语句。
一个示例性实施例中,获取样本数据的过程,包括:对合同文档进行预处理,首先去除无效字符,去除表格数据,以及将中文符号转为英文符号,方便后续统一处理,然后根据句号等标点符号进行语句拆分,以得到多个语句,并从得到的多个语句中,获取正样本语句、正样本语句对应的标签、负样本语句和负样本语句对应的标签。
步骤102,将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征。
一个具体实施例中,特征包括语义特征和句法成分特征。通过初始分类模型分别提取正样本语句的特征和负样本语句的特征,具体的方法流程包括:分别提取正样本语句的语义特征和句法成分特征,负样本语句的语义特征和句法成分特征;将正样本语句的语义特征和正样本语句的句法成分特征整合,获得正样本语句的特征;将负样本语句的语义特征和负样本语句的句法成分特征整合,获得负样本语句的特征。
其中,语义特征是指代表整个语句语义的向量,句法成分特征是指代表整个语句组成成分,如:主语、谓语、宾语、动语、定语、状语、补语和中心语,及各个组成成分之间连接关系的向量。例如:“A公司付款30万”,主语是A公司,谓语是付款,宾语是30万,且付款和A公司有连接关系,付款和30万也有连接关系。
在特征中加入了句法成分特征,能够综合考虑语义特征和句法成分特征,减轻语义特征对特征的影响,避免把语义特征相似、但句法成分特征差别较大的语句分到同一标签,更容易区分句法成分不一致的语句。
一个具体实施例中,初始分类模型为孪生网络,孪生网络由两个结构相同,且权重共享的网络拼接而成。这两个子网络分别用于处理正样本语句和负样本语句。
一个具体实施例中,提取正样本语句的语义特征,是通过孪生网络内部的BERT(Bidirectional Encoder Representation from Transformers,双向编码模型)进行的,将正样本语句输入至BERT,获取正样本语句的语义特征。
一个具体实施例中,提取正样本语句的句法成分特征,是通过孪生网络内部的MPNN(Message Passing Neural Network,消息传递神经网络)进行的。提取正样本语句的句法成分特征的具体流程包括:对正样本语句进行句法分析,得到句法树,将句法树输入到MPNN网络中,获取正样本语句的句法成分特征。
一个具体实施例中,将正样本语句的语义特征和正样本语句的句法成分特征整合,获得正样本语句的特征,具体的方法流程包括:将正样本语句的语义特征和正样本语句的句法成分特征拼接,获得正样本语句的特征。
步骤103,根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得。
其中,正样本语句的特征和负样本语句的特征之间的相似度,用于表征正样本语句和负样本语句之间的相似程度。相似度越大,则正样本语句和负样本语句之间的相似程度越高,区别越小,越不容易区分;相似度越小,则正样本语句和负样本语句之间的相似程度越低,区别越大,越容易区分。
其中,相似度损失和相似度成正相关,相似度越大,则相似度损失越大,相似度越小,则相似度损失越小。
一个具体实施例中,相似度损失的获得过程,包括:获取正样本语句的特征和与正样本语句对应的每个负样本语句的特征之间的相似度;分别对每个负样本语句,计算负样本语句对应的相似度加上预设值所得的中间量;计算每个中间量的平均值,将平均值作为相似度损失。
其中,正样本语句的特征和与正样本语句对应的每个负样本语句的特征之间的相似度可以用余弦相似度表示,预设值可以是大于或等于1的值,用于保证相似度损失为非负数。
由于在损失中加入了相似度损失,且相似度损失和相似度成正相关,则正样本语句的特征和负样本语句的特征之间的相似度越小,相似度损失会越小,在分类模型的其他参数不变的情况下,损失也会越小,越趋于稳定,能够导致最终的分类模型中,正样本语句的特征和负样本语句的特征之间的相似度减小,正样本语句和负样本语句更容易区分。
一个具体实施例中,损失中包括标签平滑分类损失,其中,标签平滑分类损失,通过对正样本语句对应的标签和负样本语句对应的标签,进行标签平滑正则化获得。
标签平滑正则化不仅考虑到了样本数据中正确的标签位置的损失,也考虑到了其他错误标签位置的损失,导致标签平滑分类损失增大,导致分类模型的学习能力提高,迫使分类模型往增大正确分类概率并且同时减小错误分类概率的方向前进,使分类更加准确。
一个具体实施例中,损失中包括L2损失,通过L2损失对分类模型中每个参数进行权重衰减,以防止整个分类模型过拟合。
步骤104,根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型。
本申请实施例中,如图2所示,文本语句分类的方法流程主要包括:
步骤201,获取待分类文本语句。
步骤202,将待分类文本语句输入至预先训练的分类模型,获得分类模型输出的待分类文本语句属于每个类别的概率。
一个具体实施例中,将待分类文本语句输入至预先训练的分类模型,获得分类模型输出的待分类文本语句属于每个类别的概率,具体的方法流程包括:将待分类文本语句输入至预先训练的分类模型;通过分类模型提取待分类文本语句的语义特征,以及待分类文本语句的句法成分特征,根据待分类文本语句的语义特征以及句法成分特征,获得待分类文本语句属于每个类别的概率并输出。
通过分类模型提取待分类文本语句的语义特征,以及待分类文本语句的句法成分特征,能够综合考虑语义特征和句法成分特征,减轻语义特征对待分类文本语句属于每个类别的概率的影响,避免把语义特征相似、但句法成分特征差别较大的语句分到同一类别,更容易区分句法成分不一致的语句。
步骤203,根据待分类文本语句属于每个类别的概率,确定待分类文本语句所属的类别。
一个具体实施例中,不同类别对应预设的标签不同;待分类文本语句属于该类别的概率为:待分类文本语句映射到该类别对应预设的标签的概率。
例如:类别可以用(0,1)、(1,0)等向量表示,类别(0,1)对应的预设的标签为“已付款”,类别(1,0)对应的预设的标签为“未付款”,待分类文本语句为“需要付款”,分类模型输出的待分类文本语句属于每个类别的概率为属于类别(0,1)的概率为0.1,属于类别(1,0)的概率为0.9,则待分类文本语句映射到“已付款”的概率为0.1,“未付款”的概率为0.9。
一个具体实施例中,根据待分类文本语句属于每个类别的概率,确定待分类文本语句所属的类别,具体的方法流程包括:将待分类文本语句属于每个类别的概率进行比较,待分类文本语句属于每个类别的概率中的最大值对应的类别,作为待分类文本语句所属的类别。
例如:待分类文本语句为“需要付款”,分类模型输出的待分类文本语句属于每个类别的概率为属于类别(0,1)的概率为0.1,属于类别(1,0)的概率为0.9,在0.1和0.9中,0.9最大,则待分类文本语句所属的类别为(1,0)。
其中,分类模型的训练过程包括:获取样本数据,其中,样本数据包括正样本语句、正样本语句对应的标签、负样本语句和负样本语句对应的标签;将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征;根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得;根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型。
分类模型的训练过程中,由于在损失中加入了相似度损失,且相似度损失和相似度成正相关,则正样本语句的特征和负样本语句的特征之间的相似度越小,相似度损失会越小,在分类模型的其他参数不变的情况下,损失也会越小,越趋于稳定,能够导致最终的分类模型中,正样本语句的特征和负样本语句的特征之间的相似度减小,正样本语句和负样本语句更容易区分。
综上,本申请实施例中,在构建分类模型时,根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得,在分类模型的训练过程中,由于在损失中加入了相似度损失,且相似度损失和相似度成正相关,则正样本语句的特征和负样本语句的特征之间的相似度越小,相似度损失会越小,在分类模型的其他参数不变的情况下,损失也会越小,越趋于稳定,能够导致最终的分类模型中,正样本语句的特征和负样本语句的特征之间的相似度减小,正样本语句和负样本语句更容易区分,解决了现有模型对文本语句分类不准确的问题。
一个具体实施例中,如图3所示,分类模型为孪生网络,分类模型主要包括:第一子网301、第二子网302、损失计算模块303,第一子网301中包括第一语义特征编码单元304、第一句法成分特征编码单元305和第一特征编码单元306,第二子网302中包括第二语义特征编码单元307、第二句法成分特征编码单元308和第二特征编码单元309,损失计算模块303中包括相似度损失计算单元310、标签平滑分类损失计算单元311和L2损失计算单元312。
第一子网301和第二子网302结构相同且共享权重,第一语义特征编码单元304和第二语义特征编码单元307内部是BERT模型,第一句法成分特征编码单元305和第二句法成分特征编码单元内部是MPNN模型。
基于同一构思,本申请实施例中提供了一种分类模型构建装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图4所示,该装置主要包括:
第一获取模块401,用于获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
第一提取模块402,用于将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
第二获取模块403,用于根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
第一处理模块404,用于根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
基于同一构思,本申请实施例中提供了一种文本语句分类装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图5所示,该装置主要包括:
第三获取模块501,用于获取待分类文本语句;
第二处理模块502,用于将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率;
第三处理模块503,用于根据所述待分类文本语句属于每个类别的概率,确定所述待分类文本语句所属的类别。
基于同一构思,本申请实施例中还提供了一种电子设备,如图6所示,该电子设备主要包括:处理器601、存储器602和通信总线603,其中,处理器601和存储器602通过通信总线603完成相互间的通信。其中,存储器602中存储有可被处理器601执行的程序,处理器601执行存储器602中存储的程序,实现如下步骤:
获取样本数据,其中,样本数据包括正样本语句、正样本语句对应的标签、负样本语句和负样本语句对应的标签;将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征;根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得;根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型;
或者,
获取待分类文本语句;将待分类文本语句输入至预先训练的分类模型,获得分类模型输出的待分类文本语句属于每个类别的概率;根据待分类文本语句属于每个类别的概率,确定待分类文本语句所属的类别;其中,分类模型的训练过程包括:获取样本数据,其中,样本数据包括正样本语句、正样本语句对应的标签、负样本语句和负样本语句对应的标签;将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征;根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得;根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型。
上述电子设备中提到的通信总线603可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器602可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的分类模型构建方法,或者,文本语句分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种分类模型构建方法,其特征在于,包括:
获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
2.根据权利要求1所述的分类模型构建方法,其特征在于,所述负样本语句和所述正样本语句是从同一个样本语句集合中获取的,所述正样本语句对应着至少一个所述负样本语句。
3.根据权利要求2所述的分类模型构建方法,其特征在于,所述相似度损失的获得过程,包括:
获取所述正样本语句的特征和与所述正样本语句对应的每个所述负样本语句的特征之间的相似度;
分别对每个所述负样本语句,计算所述负样本语句对应的所述相似度加上预设值所得的中间量;
计算每个所述中间量的平均值,将所述平均值作为所述相似度损失。
4.根据权利要求1至3任一项所述的分类模型构建方法,其特征在于,所述特征包括语义特征和句法成分特征;
所述通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征,包括:
分别提取所述正样本语句的语义特征和句法成分特征,所述负样本语句的语义特征和句法成分特征;
将所述正样本语句的语义特征和所述正样本语句的句法成分特征整合,获得所述正样本语句的特征;
将所述负样本语句的语义特征和所述负样本语句的句法成分特征整合,获得所述负样本语句的特征。
5.根据权利要求4所述的分类模型构建方法,其特征在于,所述损失中包括标签平滑分类损失,其中,所述标签平滑分类损失,通过对所述正样本语句对应的标签和所述负样本语句对应的标签,进行标签平滑正则化获得。
6.一种文本语句分类方法,其特征在于,包括:
获取待分类文本语句;
将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率;
根据所述待分类文本语句属于每个类别的概率,确定所述待分类文本语句所属的类别;
其中,所述分类模型的训练过程包括:
获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
7.根据权利要求6所述的文本语句分类方法,其特征在于,所述将所述待分类文本语句输入至预先训练的分类模型,获得所述分类模型输出的所述待分类文本语句属于每个类别的概率,包括:
将所述待分类文本语句输入至预先训练的分类模型;
通过所述分类模型提取所述待分类文本语句的语义特征,以及所述待分类文本语句的句法成分特征,根据所述待分类文本语句的语义特征以及所述句法成分特征,获得所述待分类文本语句属于每个类别的概率并输出。
8.根据权利要求7所述的文本语句分类方法,其特征在于,不同所述类别对应预设的标签不同;所述待分类文本语句属于所述类别的概率为:所述待分类文本语句映射到所述类别对应预设的标签的概率。
9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至5任一项所述的分类模型构建方法,或者,实现权利要求6至8任一项所述的文本语句分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的分类模型构建方法,或者,实现权利要求6至8任一项所述的文本语句分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110185296.9A CN112966102A (zh) | 2021-02-10 | 2021-02-10 | 分类模型构建及文本语句分类方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110185296.9A CN112966102A (zh) | 2021-02-10 | 2021-02-10 | 分类模型构建及文本语句分类方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966102A true CN112966102A (zh) | 2021-06-15 |
Family
ID=76284886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110185296.9A Pending CN112966102A (zh) | 2021-02-10 | 2021-02-10 | 分类模型构建及文本语句分类方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966102A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505224A (zh) * | 2021-07-08 | 2021-10-15 | 万翼科技有限公司 | 结构化信息提取及模型构建方法、设备及存储介质 |
CN114020887A (zh) * | 2021-10-29 | 2022-02-08 | 北京有竹居网络技术有限公司 | 用于确定响应语句的方法、设备、装置和介质 |
CN114996464A (zh) * | 2022-07-19 | 2022-09-02 | 北京语言大学 | 一种利用有序信息的文本分级方法及装置 |
CN114186548B (zh) * | 2021-12-15 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句子向量生成方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200210899A1 (en) * | 2017-11-22 | 2020-07-02 | Alibaba Group Holding Limited | Machine learning model training method and device, and electronic device |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112054967A (zh) * | 2020-08-07 | 2020-12-08 | 北京邮电大学 | 网络流量分类方法、装置、电子设备及存储介质 |
-
2021
- 2021-02-10 CN CN202110185296.9A patent/CN112966102A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200210899A1 (en) * | 2017-11-22 | 2020-07-02 | Alibaba Group Holding Limited | Machine learning model training method and device, and electronic device |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112054967A (zh) * | 2020-08-07 | 2020-12-08 | 北京邮电大学 | 网络流量分类方法、装置、电子设备及存储介质 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505224A (zh) * | 2021-07-08 | 2021-10-15 | 万翼科技有限公司 | 结构化信息提取及模型构建方法、设备及存储介质 |
CN113505224B (zh) * | 2021-07-08 | 2023-01-10 | 万翼科技有限公司 | 结构化信息提取及模型构建方法、设备及存储介质 |
CN114020887A (zh) * | 2021-10-29 | 2022-02-08 | 北京有竹居网络技术有限公司 | 用于确定响应语句的方法、设备、装置和介质 |
CN114020887B (zh) * | 2021-10-29 | 2023-11-07 | 北京有竹居网络技术有限公司 | 用于确定响应语句的方法、设备、装置和介质 |
CN114186548B (zh) * | 2021-12-15 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句子向量生成方法、装置、设备及介质 |
CN114996464A (zh) * | 2022-07-19 | 2022-09-02 | 北京语言大学 | 一种利用有序信息的文本分级方法及装置 |
CN114996464B (zh) * | 2022-07-19 | 2022-10-21 | 北京语言大学 | 一种利用有序信息的文本分级方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966102A (zh) | 分类模型构建及文本语句分类方法、设备及存储介质 | |
WO2020244073A1 (zh) | 基于语音的用户分类方法、装置、计算机设备及存储介质 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN116663525B (zh) | 一种文档审核方法、装置、设备及存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
WO2022089227A1 (zh) | 地址参数处理方法及相关设备 | |
CN110955770A (zh) | 一种智能对话系统 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
CN111783424B (zh) | 一种文本分句方法和装置 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN113011162B (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN114741494A (zh) | 问答方法、装置、设备及介质 | |
CN114911936A (zh) | 一种模型训练、评论识别方法、装置、电子设备及介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
WO2021056740A1 (zh) | 语言模型构建方法、系统、计算机设备及可读存储介质 | |
CN113505224B (zh) | 结构化信息提取及模型构建方法、设备及存储介质 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN110909777A (zh) | 一种多维特征图嵌入方法、装置、设备及介质 | |
CN111695922A (zh) | 潜在用户确定方法及装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210615 |
|
RJ01 | Rejection of invention patent application after publication |