CN116151841B - 一种基于关键词识别的管控方法、装置、电子设备及存储介质 - Google Patents
一种基于关键词识别的管控方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116151841B CN116151841B CN202211691032.1A CN202211691032A CN116151841B CN 116151841 B CN116151841 B CN 116151841B CN 202211691032 A CN202211691032 A CN 202211691032A CN 116151841 B CN116151841 B CN 116151841B
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- classification model
- trained
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种基于关键词识别的管控方法、装置、电子设备及存储介质,方法包括:获取产品文本数据;将产品文本数据输入训练好的第一分类模型,得到第一标签数据;解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词;根据异常关键词,确定目标产品的产品供应信息;基于产品供应信息,对目标供货方进行管控。通过本申请实施例的一种基于关键词识别的管控方法,可以提高关键词识别的效率和精度,同时高效地管控供货方。
Description
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种基于关键词识别的管控方法、装置,电子设备及存储介质。
背景技术
随着工业化和信息化的深度融合,企业能够获得的数据资源也越来越多,因此需要充分利用数据资源实现自动化的管控。由于流通或者售卖的产品中可能存在问题产品,问题产品包括特定区域的违禁产品、虚假产品和劣质产品,导致市场管控不达标,因此需要判断供货方提供的产品是否包含问题产品,并识别出提供问题产品的供货方以对供货方进行管控,从而避免问题产品的流通。
现在基于关键词识别的管控方法通过人工判断产品内容信息中是否包括问题产品对应的异常词,并对人工识别出的提供问题产品的供货方进行管控,不仅识别效率低,而且耗费大量的人力成本。
发明内容
针对现有技术存在的缺陷,本公开实施例提供一种基于关键词识别的管控方法、装置、电子设备及存储介质,可以提高关键词识别的效率和精度,同时高效地管控需要管控的供货方。
本申请实施例提供一种基于关键词识别的管控方法,包括:获取产品文本数据;将产品文本数据输入训练好的第一分类模型,得到第一标签数据;解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词;根据异常关键词,确定目标产品的产品供应信息;基于产品供应信息,对目标供货方进行管控。
可选的,根据异常关键词,确定目标产品的产品供应信息,包括:若异常关键词属于预设关键词集合,获取备选地区对应的管控关键词集合;若备选地区对应的管控关键词集合不包括异常关键词,将备选地区确定为供应地区;基于供应地区的信息,确定产品供应信息。
可选的,第一分类模型通过知识蒸馏训练压缩得到。
可选的,获取产品文本数据之前,方法还包括:获取训练文本数据和异常关键词集合;根据训练文本数据和异常关键词集合确定原始标签数据;基于原始标签数据训练第二分类模型,得到训练好的第二分类模型;将训练文本数据输入训练好的第二分类模型,得到第二标签数据;基于第二标签数据和原始标签数据训练第一分类模型,得到训练好的第一分类模型。
可选的,根据训练文本数据和异常关键词集合确定原始标签数据,包括:从训练文本数据中确定原始文本数据;基于原始文本数据和异常关键词集合确定原始标签数据;将训练文本数据输入训练好的第二分类模型,得到第二标签数据,包括:将未标签文本数据输入训练好的第二分类模型,得到第二标签数据;未标签文本数据为训练文本数据中除原始文本数据之外的数据。
可选的,第二分类模型包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型,多个第一子模型使用不同的初始参数,多个第二子模型使用不同的初始参数;将训练文本数据输入训练好的第二分类模型,得到第二标签数据,包括:将训练文本数据输入训练好的多个第一子模型和多个第二子模型,将输出结果加权平均得到第二标签数据。
可选的,基于第二标签数据和原始标签数据训练第一分类模型,得到训练好的第一分类模型,包括:基于第二标签数据、原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型。
相应地,本申请实施例还提供一基于关键词识别的管控装置,装置包括:
获取模块,用于获取产品文本数据;
标签模块,用于将产品文本数据输入训练好的第一分类模型,得到第一标签数据;
解析模块,用于解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词;
确定模块,用于根据异常关键词,确定目标产品的产品供应信息;
管控模块,用于基于产品供应信息,对目标供货方进行管控。
可选的,确定模块用于:若异常关键词属于预设关键词集合,获取备选地区对应的管控关键词集合;若备选地区对应的管控关键词集合不包括异常关键词,将备选地区确定为供应地区;基于供应地区的信息,确定产品供应信息。
可选的,第一分类模型包括浅层文本卷积神经网络TextCNN模型。
可选的,装置还包括训练模块,用于在获取产品文本数据之前:获取训练文本数据和异常关键词集合;根据训练文本数据和异常关键词集合确定原始标签数据;基于原始标签数据训练第二分类模型,得到训练好的第二分类模型;将训练文本数据输入训练好的第二分类模型,得到第二标签数据;基于第二标签数据和原始标签数据训练第一分类模型,得到训练好的第一分类模型。
可选的,训练模块还用于:从训练文本数据中确定原始文本数据;基于原始文本数据和异常关键词集合确定原始标签数据;将未标签文本数据输入训练好的第二分类模型,得到第二标签数据;未标签文本数据为训练文本数据中除原始文本数据之外的数据。
可选的,第二分类模型包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型,多个第一子模型使用不同的初始参数,多个第二子模型使用不同的初始参数;训练模块还用于:将训练文本数据输入训练好的多个第一子模型和多个第二子模型,将输出结果加权平均得到第二标签数据。
可选的,训练模块还用于:基于第二标签数据、原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型。
相应地,本公开实施例提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的基于关键词识别的管控方法。
相应地,本公开实施例提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的基于关键词识别的管控方法。
本申请实施例具有如下有益效果:
(1)本申请实施例通过识别出每个目标供货方对应的多个异常关键词,并基于关键词个数确定的那个目标供货方的管控等级和推荐等级,可以基于模型高效地识别出目标供货方是否需要管控,同时方便管控部门或者其他用户快速定位到较高管控等级的供货方,提高用户的处理效率;
(2)通过知识蒸馏的模型训练以及数据增强技术的应用,防止训练好的第一分类模型在知识蒸馏过程中出现过拟合导致的精度下降问题;通过采用大量的第二标签数据和原始标签数据来训练第一分类模型,可以保证第一分类模型和第二分类模型的相似程度,从而使第一分类模型在小规模、高处理效率的同时具备较高的预测精度;
(3)通过采用多分类大规模教师集成识别模型作为知识蒸馏的教师模型,可以减少单一初始参数带来的预测误差,从而提高模型的预测精度,保证输出的第二标签数据相较于原始标签数据的精确度,进而提高后续训练的第一分类模型的精确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例所提供的一种基于关键词识别的管控方法的应用场景示意图;
图2是本申请实施例所提供的一种基于关键词识别的管控方法的第一流程示意图;
图3是本申请实施例所提供的一种基于关键词识别的管控方法的第二流程示意图;
图4是本申请实施例所提供的一种基于关键词识别的管控方法的第三流程示意图;
图5是本申请实施例所提供的一种基于关键词识别的管控装置的结构示意图;
图6是本申请实施例所提供的一种基于关键词识别的管控方法的服务器的硬件结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一个实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置/系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外,术语“包括”和“具有”/“为”以及他们/其的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元/模块的过程、方法、系统/装置、产品或设备不必限于清楚地列出的那些步骤或单元/模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元/模块。
下面介绍本申请提供的一种基于关键词识别的管控方法的具体实施例。请参阅图1,图1是本申请实施例所提供的一种基于关键词识别的管控方法的应用场景示意图。如图1所示,包括服务器101和终端102。可选的,服务器101和终端102可以通过无线链路连接,也可以通过有线链路连接,本公开在此不做限定。
具体地,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的,该服务器101上运行的操作系统可以包括但是不限于IOS、Linux、Windows、Unix、Android 系统等。
具体的,终端102可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
在一个可选的实施例中,服务器101可以获取产品文本数据;将产品文本数据输入训练好的第一分类模型,得到第一标签数据;解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词;根据异常关键词,确定目标产品的产品供应信息;基于产品供应信息,对目标供货方进行管控。可选的,终端102可以向服务器发送操作请求,该操作请求可以用于指示服务器101获取产品文本数据。
此外,需要说明的是,图1所示的仅仅是本公开提供的基于关键词识别的管控方法的一种应用环境,在实际应用中,还可以包括其他应用环境,本实施例不对此做限定。
下面介绍本申请提供的一种基于关键词识别的管控方法的示例性流程。可选的,一种基于关键词识别的管控方法的执行主体可以是服务器或者其他可选的计算机系统。图2是本申请实施例提供的一种基于关键词识别的管控方法的第一流程示意图。本说明书提供了如实施例或流程图所示的方法或者流程操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式,不代表唯一的执行顺序,在实际执行时,可以按照实施例或者附图所示的方法或者流程顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法包括:
S201:获取产品文本数据。
可选的,可以从多个站点上获取产品文本数据。可选的,可以利用python和spark进行获取。
其中,多个站点可以包括多个地域、多个类型的站点;多个地域可以包括中国,也可以包括其他国家,如日本、韩国、美国等地区。站点的类型可以包括:物流运输信息平台、供货方官网、线上交易平台等;文本数据可以包括产品信息文本数据、评价信息文本数据等。
在一种可选的实施方式中,步骤S201还可以包括:对产品文本数据做文本预处理,包括剔除无意义词、停用词处理、分词等文本清洗处理。
S202:将产品文本数据输入训练好的第一分类模型,得到第一标签数据。
在一种可选的实施方式中,第一分类模型可以是基于大规模教师集成识别模型知识蒸馏技术训练优化得到的小规模学生模型。可选的,第一分类模型可以是基于浅层文本卷积神经网络TextCNN框架的模型。
S203:解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词。
可选的,目标供货方可以包括制造商、中转商、店铺、物流节点等。目标产品可以对应于一个或者多个异常关键词。
在一种可选的实施方式中,步骤S203还可以包括:构建异常关键词和目标供货方的映射关系表,该映射关系表中,每个目标供货方可以对应于至少一个目标产品以及至少一个异常关键词。可以基于该映射表对目标供货方进行管控。
可选的,步骤S203还可以包括:根据目标供货方对应的异常关键词的个数,通过预设的公式确定目标供货方的管控等级;根据管控等级,确定目标供货方的排列顺位。其中,排列顺位表征面向管控人员的管控程序之中的推荐顺位,可选的,排列顺位越高,管控程序界面中目标供货方的推荐顺位越靠前,被管控人员阅读到的时间越短。可选的,确定管控等级的公式可以是:管控等级=int(异常关键词个数/n),n可以是预设参数,例如5。在确定管控等级之后,可以按照管控等级由大至小的顺序,按顺序确定排列顺位;管控等级最大的目标供货方确定为一位,以此类推。
本申请实施例通过识别出每个目标供货方对应的多个异常关键词,并基于关键词个数确定的那个目标供货方的管控等级和推荐等级,可以基于模型高效地识别出目标供货方是否需要管控,同时方便管控部门或者其他用户快速定位到较高管控等级的供货方,提高用户的处理效率。
S204:根据异常关键词,确定目标产品的产品供应信息。
可选的,产品供应信息可以和目标产品相对应,产品供应信息的内容可以包括:不限制供应、中止供应、在指定范围内供应、在指定时间段供应等。
在一种可选的实施方式中,若异常关键词包括与假冒伪劣相关的关键词,或者与欺诈倾向相关的关键词,可以确定产品供应信息的内容为中止供应。在一种可选的实施方式中,若异常关键词为空,可以确定产品供应信息的内容为不限制供应。
下面基于图3进一步阐述步骤S204。
图3是本申请实施例所提供的一种基于关键词识别的管控方法的第二流程示意图。具体地如图3所图示,步骤S204的示例性流程可以包括:
S301:若异常关键词属于预设关键词集合,获取备选地区对应的管控关键词集合。
可选的,预设关键词集合可以是地域性异常关键词集合,也就是和地域强相关的异常关键词,包括目标产品的生产地、装配地、发货地等;管控关键词集合可以是备选地区中受到管控的地区对应的关键词集合。在一种可选的实施方式中,管控关键词集合可以包括疫情流行国家或者地区,且该国家或地区的产品或者货物若进入备选地区可能对备选地区存在潜在的防疫隐患。在另一种可选的实施方式中,管控关键词集合可以包括在各个备选地区禁止流通或者禁止售卖的品类。备选地区可以是管控的目标地区,备选地区的数量可以是一个或者多个。
S302:若备选地区对应的管控关键词集合不包括异常关键词,将备选地区确定为供应地区。
可选的,若备选地区对应的管控关键词集合包括异常关键词,则目标产品在备选地区是禁止流通或者禁止售卖的产品,在备选地区不供应;若备选地区对应的管控关键词集合不包括异常关键词,则目标产品在备选地区可以流通,可以将备选地区确定为供应地区。在一种可选的实施方式中,目标产品的异常关键词可以包括特定药品种类,该药品种类可以不包括在中国香港对应的管控关键词集合中,则可以确定中国香港为供应地区。
S303:基于供应地区的信息,确定产品供应信息。
可选的,可以基于供应地区的信息,确定产品供应信息为在供应地区的范围内供应目标产品。
下面继续基于图2阐述。
S205:基于产品供应信息,对目标供货方进行管控。
可选的,产品供应信息的内容可以包括:不限制供应、中止供应、在指定范围内供应、在指定时间段供应等。
在一种可选的实施方式中,产品供应信息的内容为中止供应,则可以中止目标供货方对目标产品的供应。
在一种可选的实施方式中,对目标供货方的管控可以是中止目标供货方在备选地区中非供货地区的目标产品的供货,也就是说,控制目标供货方在供货地区供应目标产品。
需要注意的是,此处的对供货的管控是针对从物流平台或厂商官网等站点获取数据并识别管控的实施例,在其他一些可选的实施例中,数据还可以从交易平台、店铺官网获取,管控还可以是对店铺售卖产品、买家购买产品的管控。
下面基于图4进一步阐述本申请实施例提供的一种基于关键词识别的管控方法,在一种可选的实施例中,在图2所图示的步骤S201之前,本申请提供的基于关键词识别的管控方法还可以包括图4所图示的示例性流程。
图4是本申请实施例所提供的一种基于关键词识别的管控方法的第三流程示意图。如图4所图示,示例性流程包括:
S401:获取训练文本数据和异常关键词集合。
可选的,可以从多个站点上获取训练文本数据。其中,多个站点可以包括多个地域、多个类型的站点;多个地域可以包括中国,也可以包括其他国家,如日本、韩国、美国等地区。站点的类型可以包括:物流运输信息平台、供货方官网、线上交易平台等。可选的,可以利用python和spark进行获取。
可选的,异常关键词集合可以是多语种的,可以包括通用关键词集合和特定关键词集合,其中,通用关键词集合可以表征长期有效的关键词,包括类目关键词、地域关键词等,可以一次性获取并生成通用关键词集合;而特定关键词集合可以是实时更新的,可以实时获取备选地区的更新禁售类目,或者实时获取备选地区的政策中采取防疫措施的发货国家或者发货地区,以构建特定关键词集合。
在一种可选的实施方式中,步骤S401可以包括:从训练文本数据中确定原始文本数据;基于原始文本数据和异常关键词集合确定原始标签数据。其中,原始文本数据可以是训练文本数据规模的一部分数据,原始文本数据的规模可以小于训练文本数据的规模。
S402:根据训练文本数据和异常关键词集合确定原始标签数据。
可选的,可以根据训练文本数据和异常关键词集合,基于异常关键词集合中的异常关键词对训练文本数据中的产品进行标注,并标注对应的供货方信息,得到带有标签信息的原始标签数据。
S403:基于原始标签数据训练第二分类模型,得到训练好的第二分类模型。
在一种可选的实施方式中,第二分类模型可以是深层的TextCNN模型。可选的,第二分类模型可以包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型,多个第一子模型使用不同的初始参数,多个第二子模型使用不同的初始参数。在此实施方式中,步骤S403可以包括:设定网络超参数以及损失函数,分别训练多个第一子模型和多个第二子模型,得到多分类大规模教师集成识别模型,作为第二分类模型。
可选的,第二子模型可以包括第一模型、第二模型、第三模型和第四模型,四个模型的构建均基于深层TextCNN网络的分类器。其中,第一模型和第三模型的构建可以基于深层的TextCNN网络,第一模型和第三模型的模型相同但可以采用不同的随机种子;第二模型和第四模型的构建可以基于带有注意力机制的深层的TextCNN网络,第二模型和第四模型的模型相同但可以采用不同的随机种子。在此实施方式中,步骤S403可以包括:设定网络超参数以及损失函数,分别训练第一模型、第二模型、第三模型和第四模型,得到训练好的多分类大规模教师集成识别模型,作为训练好的第二分类模型。
可选的,设定网络超参数以及损失函数,分别训练第一模型、第二模型、第三模型和第四模型,得到训练好的多分类大规模教师集成识别模型,还可以包括:设定网络超参数以及损失函数并通过第一模型、第二模型、第三模型和第四模型之间的互相学习训练得到训练好的多分类大规模教师集成识别模型。其中,第一模型的构建可以基于第一分类器,第二模型的构建可以基于第二分类器,第三模型的构建可以基于第三分类器,第四模型的构建可以基于第四分类器。第一分类器的学习目标或者损失可以包括与真实标签得到损失以及与其他分类器输出结果得到损失,其他分类器可以包括第一分类器、第三分类器、第四分类器中的至少一个;第二分类器的学习目标或者损失可以包括与真实标签得到损失以及与其他分类器输出结果得到损失,其他分类器可以包括第一分类器、第三分类器、第四分类器中的至少一个。第三分类器的学习目标或者损失可以包括与真实标签得到损失以及与其他分类器输出结果得到损失,其他分类器可以包括第二分类器、第二分类器、第四分类器中的至少一个。第四分类器的学习目标或者损失可以包括与真实标签得到损失以及与其他分类器输出结果得到损失,其他分类器可以包括第一分类器、第二分类器、第三分类器中的至少一个。
S404:将训练文本数据输入训练好的第二分类模型,得到第二标签数据。
在一种可选的实施方式中,可以将未标签文本数据输入训练好的第二分类模型,得到带有标签信息的第二标签数据;未标签文本数据为训练文本数据中除原始文本数据之外的数据。对原始文本数据的阐述可以参见上文中针对步骤S401的阐述,此处不再赘述。可选的,得到的第二标签数据的总量可以远大于原始标签数据的总量。
在上文中阐述的第二分类模型包括多个第一子模型和多个第二子模型的实施方式中,步骤S404可以包括:将训练文本数据输入训练好的多个第一子模型和多个第二子模型,将输出结果加权平均得到第二标签数据。
本申请实施例采用多分类大规模教师集成识别模型作为知识蒸馏的教师模型,可以减少单一初始参数带来的预测误差,从而提高模型的预测精度,保证输出的第二标签数据相较于原始标签数据的精确度,进而提高后续训练的第一分类模型的精确度。
S405:基于第二标签数据和原始标签数据训练第一分类模型,得到训练好的第一分类模型。
可选的,可以基于第二标签数据、原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型。可选的,第一分类模型可以采用浅层的TextCNN网络框架。可以设定蒸馏的温度T、蒸馏损失函数和正常交叉熵损失函数,构建小规模浅层TextCNN网络并基于第二标签数据、原始标签数据训练得到训练好的小规模学生模型,作为训练好的第一分类模型。可选的,知识蒸馏的教师模型可以是上文中阐述的第二分类模型。
通过本申请实施例,可以通过知识蒸馏的模型训练以及数据增强技术的应用,防止训练好的第一分类模型在知识蒸馏过程中出现过拟合导致的精度下降问题;通过采用大量的第二标签数据和原始标签数据来训练第一分类模型,可以保证第一分类模型和第二分类模型的相似程度,从而使第一分类模型在小规模的同时具备较高的预测精度。
相应地,本申请实施例还提供一种基于关键词识别的管控装置。图5是本申请实施例所提供的一种基于关键词识别的管控装置的结构示意图。如图5所图示,基于关键词识别的管控装置500可以包括:
获取模块501,用于获取产品文本数据;
标签模块502,用于将产品文本数据输入训练好的第一分类模型,得到第一标签数据;
解析模块503,用于解析第一标签数据,得到目标供货方、目标产品以及目标产品对应的异常关键词;
确定模块504,用于根据异常关键词,确定目标产品的产品供应信息;
管控模块505,用于基于产品供应信息,对目标供货方进行管控。
可选的,确定模块504用于:若异常关键词属于预设关键词集合,获取备选地区对应的管控关键词集合;若备选地区对应的管控关键词集合不包括异常关键词,将备选地区确定为供应地区;基于供应地区的信息,确定产品供应信息。
可选的,第一分类模型包括浅层文本卷积神经网络TextCNN模型。
可选的,装置还包括训练模块,用于在获取产品文本数据之前:获取训练文本数据和异常关键词集合;根据训练文本数据和异常关键词集合确定原始标签数据;基于原始标签数据训练第二分类模型,得到训练好的第二分类模型;将训练文本数据输入训练好的第二分类模型,得到第二标签数据;基于第二标签数据和原始标签数据训练第一分类模型,得到训练好的第一分类模型。
可选的,训练模块还用于:从训练文本数据中确定原始文本数据;基于原始文本数据和异常关键词集合确定原始标签数据;将未标签文本数据输入训练好的第二分类模型,得到第二标签数据;未标签文本数据为训练文本数据中除原始文本数据之外的数据。
可选的,第二分类模型包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型,多个第一子模型使用不同的初始参数,多个第二子模型使用不同的初始参数;训练模块还用于:将训练文本数据输入训练好的多个第一子模型和多个第二子模型,将输出结果加权平均得到第二标签数据。
可选的,训练模块还用于:基于第二标签数据、原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型。
本申请实施例提供的装置实施例和方法实施例可以基于相同的构思。
相应地,本公开实施例还提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的基于关键词识别的管控方法。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图6是本申请实施例提供的基于关键词识别的管控方法的服务器的硬件结构框图。如图6所示,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)610(中央处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630,一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中,存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器610可以设置为与存储介质620通信,在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口640,和/或,一个或一个以上操作系统621,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中,输入输出接口640包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口640可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器600还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
本申请实施提供一种存储介质,存储介质可设置于服务器之中以保存用于实现方法实施例中基于关键词识别的管控方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述基于关键词识别的管控方法。
可选的,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于包括:U盘、只读存储器(ROM,Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的相连或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是:上述本申请实施例的先后顺序仅仅为了描述,不代表实施例的优劣,且上述本说明书对特定的实施例进行了描述,其他实施例也在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果,在某些实施方式中,多任务并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的均为与其他实施例的不同之处。尤其,对于装置/系统的实施例而言,由于其基于相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于关键词识别的管控方法,其特征在于,包括:
获取训练文本数据和异常关键词集合;
根据所述训练文本数据和所述异常关键词集合确定原始标签数据;
基于所述原始标签数据训练第二分类模型,得到训练好的第二分类模型;所述第二分类模型包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型;所述多个第一子模型使用不同的初始参数,所述多个第二子模型使用不同的初始参数;
将所述训练文本数据输入所述训练好的第二分类模型,得到第二标签数据,包括:将所述训练文本数据输入训练好的所述多个第一子模型和所述多个第二子模型,将输出结果加权平均得到所述第二标签数据;
基于所述第二标签数据、所述原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型;
获取产品文本数据;
将所述产品文本数据输入所述训练好的第一分类模型,得到第一标签数据;
解析所述第一标签数据,得到目标供货方、目标产品以及所述目标产品对应的异常关键词;
根据所述异常关键词,确定所述目标产品的产品供应信息;
基于所述产品供应信息,对所述目标供货方进行管控。
2.根据权利要求1所述的一种基于关键词识别的管控方法,其特征在于,所述根据所述异常关键词,确定所述目标产品的产品供应信息,包括:
若所述异常关键词属于预设关键词集合,获取备选地区对应的管控关键词集合;
若所述备选地区对应的管控关键词集合不包括所述异常关键词,将所述备选地区确定为供应地区;
基于所述供应地区的信息,确定所述产品供应信息。
3.根据权利要求1所述的一种基于关键词识别的管控方法,其特征在于,所述第一分类模型通过知识蒸馏训练压缩得到。
4.根据权利要求1所述的一种基于关键词识别的管控方法,其特征在于,所述根据所述训练文本数据和所述异常关键词集合确定原始标签数据,包括:
从所述训练文本数据中确定原始文本数据;
基于所述原始文本数据和所述异常关键词集合确定所述原始标签数据;
所述将所述训练文本数据输入所述训练好的第二分类模型,得到第二标签数据,还包括:
将未标签文本数据输入所述训练好的第二分类模型,得到所述第二标签数据;所述未标签文本数据为所述训练文本数据中除所述原始文本数据之外的数据。
5.一种基于关键词识别的管控装置,其特征在于,所述装置包括:
训练模块,用于获取训练文本数据和异常关键词集合;根据所述训练文本数据和所述异常关键词集合确定原始标签数据;基于所述原始标签数据训练第二分类模型,得到训练好的第二分类模型;所述第二分类模型包括带有注意力机制的多个第一子模型和不带有注意力机制的多个第二子模型;所述多个第一子模型使用不同的初始参数,所述多个第二子模型使用不同的初始参数;将所述训练文本数据输入所述训练好的第二分类模型,得到第二标签数据,包括:将所述训练文本数据输入训练好的所述多个第一子模型和所述多个第二子模型,将输出结果加权平均得到所述第二标签数据;基于所述第二标签数据、所述原始标签数据和预设参数训练压缩第一分类模型,得到训练好的第一分类模型;
获取模块,用于获取产品文本数据;
标签模块,用于将所述产品文本数据输入所述训练好的第一分类模型,得到第一标签数据;
解析模块,用于解析所述第一标签数据,得到目标供货方、目标产品以及所述目标产品对应的异常关键词;
确定模块,用于根据所述异常关键词,确定所述目标产品的产品供应信息;
管控模块,用于基于所述产品供应信息,对所述目标供货方进行管控。
6.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-4任意一项所述的基于关键词识别的管控方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-4任意一项所述的基于关键词识别的管控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691032.1A CN116151841B (zh) | 2022-12-28 | 2022-12-28 | 一种基于关键词识别的管控方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691032.1A CN116151841B (zh) | 2022-12-28 | 2022-12-28 | 一种基于关键词识别的管控方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116151841A CN116151841A (zh) | 2023-05-23 |
CN116151841B true CN116151841B (zh) | 2023-09-19 |
Family
ID=86372800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211691032.1A Active CN116151841B (zh) | 2022-12-28 | 2022-12-28 | 一种基于关键词识别的管控方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151841B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014614A (ja) * | 2010-07-05 | 2012-01-19 | Dentsu Inc | 感性マーケティング手法 |
CN109767308A (zh) * | 2018-11-30 | 2019-05-17 | 连连银通电子支付有限公司 | 金融欺诈检测中时间与成本特征选择方法、设备、介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN114049215A (zh) * | 2022-01-06 | 2022-02-15 | 杭州衡泰技术股份有限公司 | 异常交易识别方法、装置及应用 |
CN114186567A (zh) * | 2021-12-10 | 2022-03-15 | 广州华多网络科技有限公司 | 敏感词检测方法及其装置、设备、介质、产品 |
CN114358017A (zh) * | 2021-12-28 | 2022-04-15 | 科大讯飞股份有限公司 | 标签分类方法、装置、设备和存储介质 |
CN114638238A (zh) * | 2020-12-16 | 2022-06-17 | 北京金山数字娱乐科技有限公司 | 一种神经网络模型的训练方法及装置 |
CN115081641A (zh) * | 2022-07-13 | 2022-09-20 | 平安科技(深圳)有限公司 | 模型训练方法、评估结果的预测方法、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460257B2 (en) * | 2016-09-08 | 2019-10-29 | Conduent Business Services, Llc | Method and system for training a target domain classifier to label text segments |
US11093707B2 (en) * | 2019-01-15 | 2021-08-17 | International Business Machines Corporation | Adversarial training data augmentation data for text classifiers |
US20220083898A1 (en) * | 2020-09-11 | 2022-03-17 | Optum Technology, Inc. | Anomalous text detection and entity identification using exploration-exploitation and pre-trained language models |
-
2022
- 2022-12-28 CN CN202211691032.1A patent/CN116151841B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014614A (ja) * | 2010-07-05 | 2012-01-19 | Dentsu Inc | 感性マーケティング手法 |
CN109767308A (zh) * | 2018-11-30 | 2019-05-17 | 连连银通电子支付有限公司 | 金融欺诈检测中时间与成本特征选择方法、设备、介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN114638238A (zh) * | 2020-12-16 | 2022-06-17 | 北京金山数字娱乐科技有限公司 | 一种神经网络模型的训练方法及装置 |
CN114186567A (zh) * | 2021-12-10 | 2022-03-15 | 广州华多网络科技有限公司 | 敏感词检测方法及其装置、设备、介质、产品 |
CN114358017A (zh) * | 2021-12-28 | 2022-04-15 | 科大讯飞股份有限公司 | 标签分类方法、装置、设备和存储介质 |
CN114049215A (zh) * | 2022-01-06 | 2022-02-15 | 杭州衡泰技术股份有限公司 | 异常交易识别方法、装置及应用 |
CN115081641A (zh) * | 2022-07-13 | 2022-09-20 | 平安科技(深圳)有限公司 | 模型训练方法、评估结果的预测方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116151841A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN110795584B (zh) | 一种用户标识生成方法、装置及终端设备 | |
CN110046889B (zh) | 一种异常行为主体的检测方法、装置及服务器 | |
CN109657227A (zh) | 合同可行性判定方法、设备、存储介质及装置 | |
CN112215288B (zh) | 目标企业的类别确定方法及装置、存储介质、电子装置 | |
CN108319864A (zh) | 一种信息查看控制方法及装置 | |
CN110929764A (zh) | 图片审核方法和装置,电子设备及存储介质 | |
CN111476595A (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN115081025A (zh) | 基于数字中台的敏感数据管理方法、装置及电子设备 | |
KR20200119365A (ko) | 인공지능-빅데이터 기반의 화장품업체 협업시스템 | |
CN113722370A (zh) | 基于指标分析的数据管理方法、装置、设备及介质 | |
CN114638547A (zh) | 企业战略智能预警方法、装置、电子设备及存储介质 | |
KR102466396B1 (ko) | 상품 정보 관리 방법 및 장치 | |
CN116151841B (zh) | 一种基于关键词识别的管控方法、装置、电子设备及存储介质 | |
CN112214513A (zh) | 智能制造物料管理系统 | |
CN117112775A (zh) | 自动填写输入表单以生成列表的技术 | |
CN113568739B (zh) | 用户资源额度分配方法、装置及电子设备 | |
CN115578155A (zh) | 一种订单搜索方法、装置、计算机设备和存储介质 | |
CN114925674A (zh) | 文件合规性检查方法、装置、电子设备及存储介质 | |
CN114048325A (zh) | 基于知识图谱的案件处理方法及装置、存储介质 | |
CN112308251A (zh) | 一种基于机器学习的工单分派方法和系统 | |
US20200090185A1 (en) | Product declaration validation | |
CN112528103A (zh) | 一种推荐对象的方法和装置 | |
CN111882379B (zh) | 一种基于邮件的订单确认方法和装置 | |
CN113781237B (zh) | 基于分布式人工智能系统的产品订购单消费方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |