CN113220875A - 基于行业标签的互联网信息分类方法、系统及电子设备 - Google Patents
基于行业标签的互联网信息分类方法、系统及电子设备 Download PDFInfo
- Publication number
- CN113220875A CN113220875A CN202110385341.5A CN202110385341A CN113220875A CN 113220875 A CN113220875 A CN 113220875A CN 202110385341 A CN202110385341 A CN 202110385341A CN 113220875 A CN113220875 A CN 113220875A
- Authority
- CN
- China
- Prior art keywords
- industry
- classification
- model
- label
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013145 classification model Methods 0.000 claims abstract description 124
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 61
- 230000015654 memory Effects 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000047 product Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于行业标签的互联网信息分类方法、系统及电子设备,该方法包括:分别获取各个行业的主体分类和事件分类;根据事件分类得到各个行业的关键词;根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,初始行业标签分类模型包括所有行业所对应的初始标签模型;获取训练数据集;将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;获取待分类互联网信息;将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果;实现了互联网信息的自动分类,提高了信息分类效率。
Description
技术领域
本发明涉及互联网数据处理领域,具体涉及到一种基于行业标签的互联网信息分类方法、系统、电子设备及存储介质。
背景技术
随着互联网的发展,互联网信息日益庞大、杂乱、碎片化,监测采集信息的去重、标签分类尤为重要,对于各行业网络舆情监测工作者来说,把海量的互联网信息进行归门别类的工作是巨大的,信息分类工作效率低。
发明内容
有鉴于此,本发明实施例提供了一种基于行业标签的互联网信息分类方法、系统、电子设备及存储介质,以解决现有技术中信息分类效率低的缺点。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于行业标签的互联网信息分类方法,包括:分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;获取训练数据集;将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;获取待分类互联网信息;将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
可选地,根据事件分类得到各个行业的关键词的步骤之后,还包括:对关键词进行有效性筛选,得到有效关键词。
可选地,对关键词进行有效性筛选,得到有效关键词的步骤中,包括:对关键词进行去重处理,得到去重后的关键词;对去重后的关键词进行去噪处理,得到去噪后的关键词;对去噪后的关键词进行筛选,得到筛选后的关键词。
可选地,将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型的步骤中,包括:将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度;判断模型准确度是否大于预设准确度且模型覆盖度是否大于预设覆盖度;若模型准确度大于预设准确度且模型覆盖度大于预设覆盖度,则将初始行业标签分类模型作为最终行业标签分类模型;若模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度,则对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
可选地,对初始行业标签分类模型进行优化的步骤中,包括:获取历史互联网数据;对历史互联网数据进行关键词提取,得到候选关键词;将候选关键词补充至各个行业的关键词中,得到更新行业标签分类模型;将测试数据集输入更新行业标签分类模型直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
可选地,将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度的步骤中,包括:将训练数据集输入初始行业标签分类模型中得到输出结果;将输出结果进行统计,得到每一个行业所对应的准确数据条数和行业标签打标条数;根据每一个行业所对应的准确数据条数和行业标签打标条数确定模型准确度和模型覆盖度。
可选地,模型准确度的计算公式如下:
模型准确度=某一个行业的准确数据条数/该所在行业总数据条数;
模型覆盖度的计算公式如下:
模型覆盖度=某一个行业标签打标条数/所有行业总数据条数。
根据第二方面,本发明实施例提供了一种基于行业标签的互联网信息分类系统,包括:第一获取模块,用于分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;第一处理模块,用于根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;第二处理模块,用于根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;第三处理模块,用于根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;第二获取模块,用于获取训练数据集;第四处理模块,用于将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;第三获取模块,用于获取待分类互联网信息;第五处理模块,用于将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
可选地,还包括:第六处理模块,用于对关键词进行有效性筛选,得到有效关键词。
可选地,所述第六处理模块包括:第一处理单元,用于对关键词进行去重处理,得到去重后的关键词;第二处理单元,用于对去重后的关键词进行去噪处理,得到去噪后的关键词;第三处理单元,用于对去噪后的关键词进行筛选,得到筛选后的关键词。
可选地,所述第四处理模块包括:第四处理单元,用于将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度;判断单元,用于判断模型准确度是否大于预设准确度且模型覆盖度是否大于预设覆盖度;第五处理单元,用于若模型准确度大于预设准确度且模型覆盖度大于预设覆盖度,则将初始行业标签分类模型作为最终行业标签分类模型;第六处理单元,用于若模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度,则对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
可选地,第六处理单元包括:获取子单元,用于获取历史互联网数据;第一处理子单元,用于对历史互联网数据进行关键词提取,得到候选关键词;第二处理子单元,用于将候选关键词补充至各个行业的关键词中,得到更新行业标签分类模型;第三处理子单元,用于将测试数据集输入更新行业标签分类模型直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
可选地,第四处理单元包括:第四处理子单元,用于将训练数据集输入初始行业标签分类模型中得到输出结果;第五处理子单元,用于将输出结果进行统计,得到每一个行业所对应的准确数据条数和行业标签打标条数;第六处理子单元,用于根据每一个行业所对应的准确数据条数和行业标签打标条数确定模型准确度和模型覆盖度。
可选地,模型准确度的计算公式如下:
模型准确度=某一个行业的准确数据条数/该所在行业总数据条数;
模型覆盖度的计算公式如下:
模型覆盖度=某一个行业标签打标条数/所有行业总数据条数。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的基于行业标签的互联网信息分类方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的基于行业标签的互联网信息分类方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种基于行业标签的互联网信息分类方法、系统、电子设备及存储介质,其中,该方法包括:分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;获取训练数据集;将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;获取待分类互联网信息;将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。该方法先根据行业的特征确定各个行业的主体分类、事件分类和事件分类所对应的关键词;然后,根据主体分类、事件分类和关键词得到每一个行业所对应的初始标签模型;之后,通过训练数据集对初始行业标签分类模型进行训练,得到最终行业标签分类模型;最后,通过最终行业标签分类模型对待分类互联网信息进行行业标签的分类;实现了互联网信息的自动分类,提高了信息分类效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于行业标签的互联网信息分类方法的一个具体示例的流程图;
图2为本发明实施例的基于行业标签的互联网信息分类系统的一个具体示例的框图;
图3为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于行业标签的互联网信息分类方法,如图1所示,该方法包括步骤S1-S8。
步骤S1:分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定。
本实施例中,主体分类是根据所在行业的行业职能确定的,也就是根据客户单位的职能进行分类,目前根据客户类型已有“宣传、教育、高校、市场监管、应急管理”等;本实施例中对此仅作示意性说明,不以此为限,在实际应用中根据需要合理设置即可。
主体分类下的事件分类是根据所在行业的行业机构确定的,具体的,参照政府行政机构的划分,与政府的行政机构一一对应,一个政府部门对应一个行业标签。
以教育行业为例,教育行业体系的主体事件(一级分类标签):教育政策、办学秩序、学术道德、校园安全、校园环境、师风师德。根据确认好的教育行业一级分类标签,对主体分类进行延伸得到事件分类(二级分类标签)。
教育政策:教育政策;
办学秩序:招生、学籍问题、办学、上课;
学术道德:学术问题;
校园安全:意外事故、校车安全;
校园环境:校园设施、校园环境;
师风师德:师风师德。
步骤S2:根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词。
本实施例中,行业信息关键词以客户职责为核心,结合事件的属性进行提取,提取事件分类下所涉及的关键词。
关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;将不同途径得到的关键词共同组成该行业所对应的关键词,保证了关键词的准确性。
具体的,行业专题词是提供给客户用于监测信息的产品中,客户用于筛选信息而设置的具有一定行业相关性的关键词。已有行业标签分类模型中的分类关键词可通过不同行业的分类标签中存在一些交叉或者通用的分类标签,可从已完成的其他行业标签(如覆盖比较全面的宣传行业标签)中筛选提取符合本行业特征的关键词。互联网提取的行业信息关键词是上网查找本行业相关信息,从行业信息中人工提取的符合本行业特征的关键词。业务需求方提供的关键词是业务需求方的客户根据自身业务需求确定的关键词。
以教育行业为例,各个事件分类下的关键词如下。
教育政策:教委、教育委员会、教育局、教育厅、教工委、教育考试院、教考院、教育系统、教育体制、教育附加、教育奖补、教育公共等;
招生:招生、录取、入学等;
学籍问题:建立学籍、修改学籍、调转学籍、取消学籍、无学籍、学籍迁移等。
步骤S3:根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型。
本实施例中,根据确定好的主体分类、事件分类,将筛选出的关键词逐一对应到各分类下。每一个行业所对应的标签模型包括三层,分别是每一个行业的主体分类、事件分类和关键词,通过以上三个的构造,得到每一个行业的标签模型。一个行业对应一个标签模型。
步骤S4:根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型。
本实施例中,初始行业标签分类模型是所有行业初始标签模型的集合,也就是由所有行业所对应的初始标签模型共同组成的。
步骤S5:获取训练数据集。
本实施例中,训练数据集包括多个互联网详情页数据。
步骤S6:将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型。
本实施例中,将训练数据集输入初始行业标签分类模型中进行训练,通过测试环境对初始行业标签分类模型进行验证并优化,得到最终行业标签分类模型。
步骤S7:获取待分类互联网信息。
本实施例中,待分类互联网信息包括若干个待分类的互联网详情页数据。
步骤S8:将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
本实施例中,将待分类互联网信息输入最终行业标签分类模型中进行标签分类,具体地,将待分类互联网信息中的每一个待分类的互联网详情页数据分别输入最终行业标签模型中的每一个标签模型中(一个行业对应一个标签模型),得到每一个待分类的互联网详情页数据所对应的行业标签分类结果。行业标签分类结果的格式是“主体分类-事件分类”,由于每一个待分类互联网详情页数据分别输入每一个行业所对应的标签模型中,故该待分类互联网详情页数据对应的输出分类标签可以是一个或者多个,也就是该待分类互联网详情页数据对应一个或者多个分类。
例如,互联网上的某一篇文章,将该文章输入到最终行业标签分类模型中进行标签分类,得到的输出结果为两个分类标签,教育政策-上课,校园环境-师风师德。
上述步骤,先根据行业的特征确定各个行业的主体分类、事件分类和事件分类所对应的关键词;然后,根据主体分类、事件分类和关键词得到每一个行业所对应的初始标签模型;之后,通过训练数据集对初始行业标签分类模型进行训练,得到最终行业标签分类模型;最后,通过最终行业标签分类模型对待分类互联网信息进行行业标签的分类;实现了互联网信息的自动分类,提高了信息分类效率;减少各行业网络舆情监测者的工作量,提高工作效率,提供全面、及时、精准并且与之相匹配的互联网信息。并进行实时的分类统计和应用。
作为示例性的实施例,步骤S2根据事件分类得到各个行业的关键词的步骤之后,还包括步骤S3。
步骤S3:对关键词进行有效性筛选,得到有效关键词。
本实施例中,步骤S3包括步骤S31-S34。
步骤S31:对关键词进行去重处理,得到去重后的关键词。
具体的,关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词,不同途径得到的关键词可能存在关键词重复的情况,为了提高分类效率,对各个途径得到的关键词进行去重处理,去重是在多个不同来源关键词存在重复现象,每个关键词只保留一个,其他删除,即去除重复的关键词,得到去重后的关键词。
步骤S32:对去重后的关键词进行去噪处理,得到去噪后的关键词。
本实施例中,去噪的具体过程是逐一查看关键词是否存在歧义、误判的情况,去除有歧义、容易误判的关键词。对去重后的关键词进行进一步的去噪处理,得到去噪后的关键词,去噪处理可以有效去除存在歧义、误判的关键词,提高了关键词的准确性。
步骤S33:对去噪后的关键词进行筛选,得到筛选后的关键词。
本实施例中,对去噪后的关键词进行筛选,具体的筛选过程是在逐一审查去噪的过程中,同时依据行业研究和经验判断扔掉行业无关关键词词汇,仅保留与行业相关的关键词,使得关键词能够更好地代表该行业。之后,便可以根据确定好的主体分类、事件分类,将筛选出的关键词逐一对应到各分类下,实现了关键词的分类。
通过上述步骤对行业关键词进行有效性筛选,保证行业关键词的有效性,提高了分类模型的分类准确性。
作为示例性的实施例,步骤S6将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型的步骤中,包括步骤S61- S64。
步骤S61:将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度。
本实施例中,步骤S61具体包括步骤S611-S613。
步骤S611:将训练数据集输入初始行业标签分类模型中得到输出结果。
具体的,将训练数据集输入至初始行业标签分类模型中得到每一条训练数据的输出结果。
步骤S612:将输出结果进行统计,得到每一个行业所对应的准确数据条数和行业标签打标条数。
本实施例中,训练数据集是预先标注好的数据,也就是预先确定好了每一个行业分类(主体分类)下每一个训练数据的分类结果。将所有行业中的训练数据通过初始行业标签分类模型中得到的输出结果与预先确定的分类结果进行比较,若两者一致,则该条训练数据的输出结果准确,若两者不一致,则该条训练数据的输出结果不准确。对输出结果准确的训练数据进行统计,得到每一个行业分类下准确数据条数。
利用公司产品、地域识别能力,筛选某一地域(如市级)某个时间段内的全部数据,对全部数据进行人工审查,以此方式获取该地区各行业全部数据。然后利用做好的各行业分类标签模型进行打标,获得各行业分类标签模型打标条数。打标即打上标签,对匹配上关键词的信息打上该关键词所属的标签。
步骤S613:根据每一个行业所对应的准确数据条数和行业标签打标条数确定模型准确度和模型覆盖度。
本实施例中,模型准确度的计算公式如下:
模型准确度=某一个行业的准确数据条数/该所在行业总数据条数
利用公司产品和数据能力,收集各个分类下的数据,用抽样统计的方法,对各分类随机抽取100条数据,逐一标注关键词所在的句段分类是否准确,最后统计得出各分类准确率,公式:准确数据条数/100*100%。
模型覆盖度的计算公式如下:
模型覆盖度=某一个行业标签打标条数/所有行业总数据条数。
利用公司产品、地域识别能力,筛选某一地域(市级)某个时间段内的全部数据,对全部数据进行人工审查,以此方式获取该地区各行业全部数据。然后利用做好的各行业分类标签模型进行打标,获得各行业分类标签模型打标条数。最后利用行业标签打标条数/各行业全部数据 *100%,算得覆盖度数值。
步骤S62:判断模型准确度是否大于预设准确度且模型覆盖度是否大于预设覆盖度。若模型准确度大于预设准确度并且模型覆盖度大于预设覆盖度,则执行步骤S63;若模型准确度不大于预设准确度或者模型覆盖度不大于预设覆盖度,则执行步骤S64。
本实施例中,预设准确度是通过调查过大量客户对数据精准度的基本要求,取其均值;具体数值可以是60%。预设覆盖度是通过调查过大量客户对数据覆盖度的基本要求,取其均值;具体数值可以是60%。本实施例中对预设准确度和预设覆盖度仅作示意性说明,不以此为限,在实际应用中,根据实际需要合理确定两者的具体数值即可。
步骤S63:若模型准确度大于预设准确度且模型覆盖度大于预设覆盖度,则将初始行业标签分类模型作为最终行业标签分类模型。
本实施例中,当模型准确度大于预设准确度且模型覆盖度大于预设覆盖度时,说明初始行业标签分类模型的输出结果满足要求,无需对初始行业标签分类模型进行优化,将上述模型作为最终行业标签分类模型即可。
步骤S64:若模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度,则对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
本实施例中,当模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度时,则初始行业标签分类模型的输出结果不满足要求,需要对初始行业标签分类模型进行优化,以得到满足要求的最终行业标签分类模型。
上述步骤通过模型准确度和模型覆盖度对初始行业标签分类模型进行判断,以确定初始行业标签分类模型是否符合要求,在不符合要求的情况下,对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
作为示例性的实施例,步骤S64对初始行业标签分类模型进行优化的步骤中,包括步骤S641-S644。
步骤S641:获取历史互联网数据。
具体的,从数据库中得到历史互联网数据。具体的,历史互联网数据可以是上述训练集中未覆盖的数据,也就是训练集中没有包括的数据。
步骤S642:对历史互联网数据进行关键词提取,得到候选关键词。
本实施例中,对历史互联网数据进行关键词提取,得到候选关键词,候选关键词是新的关键词,与之前事件分类汇总得到的各个行业的关键词不同,以便根据历史互联网数据得到新的关键词,对关键词进行补充。
步骤S643:将候选关键词补充至各个行业的关键词中,得到更新行业标签分类模型。
具体的,将候选关键词补充到各个行业的关键词中,实现关键词的补充和更新,得到更新的行业标签分类模型。
步骤S644:将测试数据集输入更新行业标签分类模型直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
本实施例中,将测试数据集重新输入到更新行业标签分类模型,得到更新行业标签分类模型的输出结果,根据模型准确度和模型覆盖度对更新行业标签分类模型的输出结果进行判断,确定更新行业标签分类模型是否满足要求,若满足要求则得到最终行业标签分类模型;若模型准确度和模型覆盖度不满足要求,则继续对未覆盖的数据提取关键词并将新提取的关键词补充到标签模型中,对标签模型进行优化,直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
通过补充新的关键词对标签模型进行优化,提高模型的准确率和覆盖度。
本实施例中的方法,针对行业分类进行单独行业分类标签的层级划分,行业分类标签模型确认后,根据行业下分类标签进行关键词提取,并确认关键词的准确性(是否有歧义、划分是否准确、是否冲突)。通过采集大量互联网相关传播数据,提取信息关键词进行各个行业分类下的标签词的算法分析匹配,针对匹配结果进行标签分类。
在本实施例中还提供了一种基于行业标签的互联网信息分类系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种基于行业标签的互联网信息分类系统,如图2 所示,包括:
第一获取模块1,用于分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;
第一处理模块2,用于根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;
第二处理模块3,用于根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;
第三处理模块4,用于根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;
第二获取模块5,用于获取训练数据集;
第四处理模块6,用于将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;
第三获取模块7,用于获取待分类互联网信息;
第五处理模块8,用于将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
可选地,还包括:第六处理模块,用于对关键词进行有效性筛选,得到有效关键词。
可选地,所述第六处理模块包括:第一处理单元,用于对关键词进行去重处理,得到去重后的关键词;第二处理单元,用于对去重后的关键词进行去噪处理,得到去噪后的关键词;第三处理单元,用于对去噪后的关键词进行筛选,得到筛选后的关键词。
可选地,所述第四处理模块包括:第四处理单元,用于将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度;判断单元,用于判断模型准确度是否大于预设准确度且模型覆盖度是否大于预设覆盖度;第五处理单元,用于若模型准确度大于预设准确度且模型覆盖度大于预设覆盖度,则将初始行业标签分类模型作为最终行业标签分类模型;第六处理单元,用于若模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度,则对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
可选地,第六处理单元包括:获取子单元,用于获取历史互联网数据;第一处理子单元,用于对历史互联网数据进行关键词提取,得到候选关键词;第二处理子单元,用于将候选关键词补充至各个行业的关键词中,得到更新行业标签分类模型;第三处理子单元,用于将测试数据集输入更新行业标签分类模型直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
可选地,第四处理单元包括:第四处理子单元,用于将训练数据集输入初始行业标签分类模型中得到输出结果;第五处理子单元,用于将输出结果进行统计,得到每一个行业所对应的准确数据条数和行业标签打标条数;第六处理子单元,用于根据每一个行业所对应的准确数据条数和行业标签打标条数确定模型准确度和模型覆盖度。
可选地,模型准确度的计算公式如下:
模型准确度=某一个行业的准确数据条数/该所在行业总数据条数;
模型覆盖度的计算公式如下:
模型覆盖度=某一个行业标签打标条数/所有行业总数据条数。
本实施例中的基于行业标签的互联网信息分类系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图3所示,该电子设备包括一个或多个处理器71以及存储器72,图3中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的基于行业标签的互联网信息分类方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于行业标签的互联网信息分类方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器 71执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述基于行业标签的互联网信息分类方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive, SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种基于行业标签的互联网信息分类方法,其特征在于,包括:
分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;
根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;
根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;
根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;
获取训练数据集;
将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;
获取待分类互联网信息;
将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
2.根据权利要求1所述的基于行业标签的互联网信息分类方法,其特征在于,根据事件分类得到各个行业的关键词的步骤之后,还包括:
对关键词进行有效性筛选,得到有效关键词。
3.根据权利要求2所述的基于行业标签的互联网信息分类方法,其特征在于,对关键词进行有效性筛选,得到有效关键词的步骤中,包括:
对关键词进行去重处理,得到去重后的关键词;
对去重后的关键词进行去噪处理,得到去噪后的关键词;
对去噪后的关键词进行筛选,得到筛选后的关键词。
4.根据权利要求1所述的基于行业标签的互联网信息分类方法,其特征在于,将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型的步骤中,包括:
将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度;
判断模型准确度是否大于预设准确度且模型覆盖度是否大于预设覆盖度;
若模型准确度大于预设准确度且模型覆盖度大于预设覆盖度,则将初始行业标签分类模型作为最终行业标签分类模型;
若模型准确度小于或者等于预设准确度或者模型覆盖度小于或者等于预设覆盖度,则对初始行业标签分类模型进行优化,得到最终行业标签分类模型。
5.根据权利要求4所述的基于行业标签的互联网信息分类方法,其特征在于,对初始行业标签分类模型进行优化的步骤中,包括:
获取历史互联网数据;
对历史互联网数据进行关键词提取,得到候选关键词;
将候选关键词补充至各个行业的关键词中,得到更新行业标签分类模型;
将测试数据集输入更新行业标签分类模型直至模型准确度大于预设准确度且模型覆盖度大于预设覆盖度。
6.根据权利要求4所述的基于行业标签的互联网信息分类方法,其特征在于,将训练数据集输入初始行业标签分类模型中,得到模型准确度和覆盖度的步骤中,包括:
将训练数据集输入初始行业标签分类模型中得到输出结果;
将输出结果进行统计,得到每一个行业所对应的准确数据条数和行业标签打标条数;
根据每一个行业所对应的准确数据条数和行业标签打标条数确定模型准确度和模型覆盖度。
7.根据权利要求6所述的基于行业标签的互联网信息分类方法,其特征在于,
模型准确度的计算公式如下:
模型准确度=某一个行业的准确数据条数/该所在行业总数据条数;
模型覆盖度的计算公式如下:
模型覆盖度=某一个行业标签打标条数/所有行业总数据条数。
8.一种基于行业标签的互联网信息分类系统,其特征在于,包括:
第一获取模块,用于分别获取各个行业的主体分类和事件分类,所述主体分类根据所在行业的行业职能确定,所述事件分类根据所在行业的行业机构确定;
第一处理模块,用于根据事件分类得到各个行业的关键词,所述关键词包括已有行业专题词、已有行业标签模型中的分类关键词、互联网提取的行业信息关键词和业务需求方提供的预设关键词;
第二处理模块,用于根据主体分类、事件分类和关键词,得到每一个行业所对应的初始标签模型;
第三处理模块,用于根据每一个行业所对应的初始标签模型得到初始行业标签分类模型,所述初始行业标签分类模型包括所有行业所对应的初始标签模型;
第二获取模块,用于获取训练数据集;
第四处理模块,用于将训练数据集输入初始行业标签分类模型中进行训练,得到最终行业标签分类模型;
第三获取模块,用于获取待分类互联网信息;
第五处理模块,用于将待分类互联网信息输入最终行业标签分类模型中进行标签分类,得到待分类互联网信息所对应的行业标签分类结果。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于行业标签的互联网信息分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于行业标签的互联网信息分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385341.5A CN113220875B (zh) | 2021-04-09 | 2021-04-09 | 基于行业标签的互联网信息分类方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110385341.5A CN113220875B (zh) | 2021-04-09 | 2021-04-09 | 基于行业标签的互联网信息分类方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220875A true CN113220875A (zh) | 2021-08-06 |
CN113220875B CN113220875B (zh) | 2024-01-30 |
Family
ID=77086874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110385341.5A Active CN113220875B (zh) | 2021-04-09 | 2021-04-09 | 基于行业标签的互联网信息分类方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220875B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722615A (zh) * | 2021-08-19 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
CN113792223A (zh) * | 2021-08-19 | 2021-12-14 | 北京智慧星光信息技术有限公司 | 属地媒体信源推送方法、系统、电子设备及存储介质 |
CN113886579A (zh) * | 2021-09-24 | 2022-01-04 | 北京智慧星光信息技术有限公司 | 行业资讯正负面模型构建方法和系统、识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150081440A1 (en) * | 2013-09-19 | 2015-03-19 | Jeffrey Blemaster | Methods and systems for generating domain name and directory recommendations |
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN108509492A (zh) * | 2018-02-12 | 2018-09-07 | 郑长敬 | 基于房地产行业的大数据处理及系统 |
CN108563722A (zh) * | 2018-04-03 | 2018-09-21 | 有米科技股份有限公司 | 文本信息的行业分类方法、系统、计算机设备和存储介质 |
CN110162634A (zh) * | 2019-05-21 | 2019-08-23 | 北京鸿联九五信息产业有限公司 | 一种基于机器学习的文本处理方法 |
CN112182229A (zh) * | 2020-11-05 | 2021-01-05 | 江西高创保安服务技术有限公司 | 一种文本分类模型构建方法、文本分类方法及装置 |
-
2021
- 2021-04-09 CN CN202110385341.5A patent/CN113220875B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150081440A1 (en) * | 2013-09-19 | 2015-03-19 | Jeffrey Blemaster | Methods and systems for generating domain name and directory recommendations |
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN108509492A (zh) * | 2018-02-12 | 2018-09-07 | 郑长敬 | 基于房地产行业的大数据处理及系统 |
CN108563722A (zh) * | 2018-04-03 | 2018-09-21 | 有米科技股份有限公司 | 文本信息的行业分类方法、系统、计算机设备和存储介质 |
CN110162634A (zh) * | 2019-05-21 | 2019-08-23 | 北京鸿联九五信息产业有限公司 | 一种基于机器学习的文本处理方法 |
CN112182229A (zh) * | 2020-11-05 | 2021-01-05 | 江西高创保安服务技术有限公司 | 一种文本分类模型构建方法、文本分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
YU MENG等: "Text Classification Using Label Names Only: A Language Model Self-Training Approach", COMPUTER SCIENCE, pages 1 - 12 * |
台一鸿;高宇强;张娇;: "基于语义聚类的行业及产业技术研发方向分析", 情报工程, vol. 5, no. 05, pages 57 - 67 * |
张瑞;董庆兴;: "基于LDA-HMM的知识流动模式发现研究", 情报科学, vol. 38, no. 06, pages 67 - 75 * |
王琼等: "基于共有文本特征词跨类联合分类的电力文本分类算法研究", 电子技术与软件工程, vol. 7, pages 213 - 214 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722615A (zh) * | 2021-08-19 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
CN113792223A (zh) * | 2021-08-19 | 2021-12-14 | 北京智慧星光信息技术有限公司 | 属地媒体信源推送方法、系统、电子设备及存储介质 |
CN113792223B (zh) * | 2021-08-19 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 属地媒体信源推送方法、系统、电子设备及存储介质 |
CN113722615B (zh) * | 2021-08-19 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 互联网数据精准推送方法、系统、电子设备及存储介质 |
CN113886579A (zh) * | 2021-09-24 | 2022-01-04 | 北京智慧星光信息技术有限公司 | 行业资讯正负面模型构建方法和系统、识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113220875B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN107168854B (zh) | 互联网广告异常点击检测方法、装置、设备及可读存储介质 | |
CN108734184B (zh) | 一种对敏感图像进行分析的方法及装置 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN113220875B (zh) | 基于行业标签的互联网信息分类方法、系统及电子设备 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN113592019A (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN106991090B (zh) | 舆情事件实体的分析方法及装置 | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN112613569A (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN111160606A (zh) | 试题难度预测方法及相关装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN114612194A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN112883730A (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
JP6745541B2 (ja) | 情報処理装置、情報処理方法、プログラム及び画像情報表示システム | |
CN116775639A (zh) | 数据处理方法、存储介质及电子设备 | |
CN111144103A (zh) | 影评识别方法和装置 | |
CN114398562B (zh) | 一种店铺数据管理方法、装置、设备及存储介质 | |
CN115170007A (zh) | 企业关联风险识别方法、装置、设备及存储介质 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN114219663A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |