CN116775874B - 一种基于多重语义信息的资讯智能分类方法及系统 - Google Patents
一种基于多重语义信息的资讯智能分类方法及系统 Download PDFInfo
- Publication number
- CN116775874B CN116775874B CN202310740431.0A CN202310740431A CN116775874B CN 116775874 B CN116775874 B CN 116775874B CN 202310740431 A CN202310740431 A CN 202310740431A CN 116775874 B CN116775874 B CN 116775874B
- Authority
- CN
- China
- Prior art keywords
- information
- complex
- sentence
- semantic
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000001502 supplementing effect Effects 0.000 claims abstract description 9
- 150000001875 compounds Chemical class 0.000 claims abstract description 8
- 101100014702 Caenorhabditis elegans gld-1 gene Proteins 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 43
- 238000005516 engineering process Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000003058 natural language processing Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 5
- 230000009469 supplementation Effects 0.000 claims description 5
- 238000013550 semantic technology Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000013329 compounding Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多重语义信息的资讯智能分类方法及系统,涉及多重语义分析技术领域,该方法包括以下步骤,S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;S2、建立资讯框架模型;S3、提取资讯数据集内若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充后和预测,获得第二小句复合体Dy2和第一语义关联度系数GLd1;S4、设定预设类别名词,将获取的若干个对第二小句复合体Dy2,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。
Description
技术领域
本发明涉及多重语义分析技术领域,具体为一种基于多重语义信息的资讯智能分类方法及系统。
背景技术
随着网络实现的现代信息传递对人们生活的影响很大,信息传递给我们带来了不少方便和便捷,不仅服务于我们的生活,而且改变了人们学习和记忆知识的方式,特别是资讯信息,包括政治、经济、社会、科技、文化、娱乐、体育等资讯数据,帮助人们在搜索相关类目的资讯数据便于更好的阅读和记忆;多重语义信息是指从文本中提取的多个层次或多个方面的语义内容。传统的文本分析通常仅关注词汇层面的信息,如词语的意义和关联。而多重语义信息则更加全面地考虑了文本的语义特征,包括词汇、句法、语义角色、实体识别等多个层面的信息。
随着网络的透明化,越来越多的企业会选择建设企业网站建设,便于更好的将企业文化和企业范围更好的展示在企业文化网站上,也会将企业内部的资讯进行分类和展示,便于用户更轻松地浏览和获取与企业文化相关的信息,这有助于用户更高效的了解企业文化,提升对企业的认知和理解。
目前,企业网站建设都是由企业管理员将采集获取的企业资讯和多重语义信息,获取到资讯数据信息并对资讯数据信息通过人工分类的方式,传输至不同的企业展示页面供用户与企业之间的互动和沟通。因人工分类容易受到个人主观意识和经验的影响,可能存在一定的偏见和局限性。不同的人可能会有不同的判断标准和分类依据,导致分类结果的一致性和客观性受到影响,且人工分类导致信息处理效率低下,特别是在面对大量资讯时,因此,亟需提出适用于企业文化建设资讯分类的一种基于多重语义信息的资讯智能分类方法及系统。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于多重语义信息的资讯智能分类方法及系统,通过采集资讯数据集,预处理后建立资讯框架模型进行训练和提取资讯数据框架结构中的段落话头词句,并进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,基于训练完成的资讯框架模型,智能匹配分类结果,与预设类别名词进行关联性匹配,获取分类结果,这样的方式,促进提高资讯分类的准确性、效率和个性化程度。减少人工要通篇阅读资讯内容后进行判断分析分类的类目而导致效率低下的的问题,相比人工分类,系统能够在短时间内对大量资讯进行处理,提高信息处理的效率和速度,使资讯能够更快地传输到适当的企业展示页面。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于多重语义信息的资讯智能分类方法,包括以下步骤,
S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;
S2、建立资讯框架模型、将预处理后的资讯数据集输入至资讯框架模型中,使用降维技术将资讯数据集,进行高维向量映射至三维空间,在三维空间内提取资讯数据集中文本的框架结构,并对若干个框架结构进行相似度度量;
S3、提取若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,并对其智能分析;获取第一语义关联度系数GLd1,并将第一语义关联度系数GLd1作为标签标记在第二小句复合体Dy2首尾处;
S4、设定预设类别名词,将获取的若干个第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。
优选的,文本预处理包括:
对采集到的资讯数据进行初步的清洗、去噪和停用词去除,去除无效或查重的数据;
将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集。
优选的,基于框架语义学技术分析多重语义信息法,进行资讯框架模型建模;
将预处理后的资讯数据集输入中资讯框架模型中,获取每个资讯文本的框架结构信息,然后,使用降维技术将高维向量映射到三维空间,便于观看每个资讯文本向量的局部和全部结构;
在三维空间中,提取资讯数据集中文本的框架结构,通过对提取的框架结构进行相似度度量,计算不同框架结构之间的距离,对降维后的向量进行聚类。
优选的,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;
S32、段落话头结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取话头结构词句,话头是段落中引导或概括话题的关键句子或短语,使用关键词提取和识别3—5条段落中的话头结构;
S33、第一小句复合体Dy1的形成:将每个段落的话头词句组合成第一小句复合体Dy1,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;
S34、对第一小句复合体Dy1进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第二小句复合体Dy2;
S35、第二小句复合体Dy2的智能分析和语义依赖关联度系数获取:对第二小句复合体Dy2进行智能分析,将提取第二小句复合体Dy2中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第一语义关联度系数GLd1。
优选的,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;
S32、段落结尾结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取结尾结构词句,结尾是段落中概括或总结话题的关键句子或短语,使用关键词提取和识别3—5条段落中的结尾结构;
S33、第三小句复合体Dy3的形成:将每个段落的话尾词句组合成第三小句复合体Dy3,将这些话尾词句按照段落的顺序进行组合,形成一个完整的句子或短语;
S34、对第三小句复合体Dy3进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第四小句复合体Dy4;
S35、第四小句复合体Dy4的智能分析和语义依赖关联度系数获取:对第四小句复合体Dy4进行智能分析,将提取第四小句复合体Dy4中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第二语义关联度系数GLd2;并将获取第二语义关联度系数GLd2作为标签标记在第四小句复合体Dy4首尾处。
优选的,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;
S32、全文高频关键词结构提取:针对3—5条段落的资讯文本,针对全文提取高频的关键词结构;
S33、第五小句复合体Dy5的形成:将全文中频率出现最高的前五个关键词结构组合成第五小句复合体Dy5,形成一个完整的句子或短语;
S34、对第五小句复合体Dy5进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第六小句复合体Dy6;
S35、第六小句复合体Dy6的智能分析和语义依赖关联度系数获取:对第六小句复合体Dy6进行智能分析,将提取第六小句复合体Dy6中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第三语义关联度系数GLd3;并将获取得到的第三语义关联度系数GLd3作为标签标记在第六小句复合体Dy6首尾处。
优选的,将获得的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6相关联,获取资讯小句集,将第一语义关联度系数GLd1、第二语义关联度系数GLd2和第三语义关联度系数GLd3进行排序,并标签在资讯小句集的首尾处,以突出关联度特征。
优选的,所述S4包括:
(1)预设类别名词定义,明确预设类别名词,即将文本划分在预定义的类别,具体为第一预设类别名词和第二预设类别名词,第二预设类别名词在第一预设类别名词的类目下进行细分;
(2)对于每个第二小句复合体Dy2,使用训练完成的资讯框架模型提取其语义结构信息,然后,将预设类别名词与第二小句复合体Dy2中的关键词、关键短语或框架元素进行关联性匹配;
(3)基于关联性匹配的结果,计算第二小句复合体Dy2与每个预设类别名词之间的相似度和差异度;根据匹配到的关键词数量、相似度度量结果来计算相似度和差异度的得分;将相似度高的第二小句复合体Dy2划分至同一分类;当相似度得分高于预设阈值时,将第二小句复合体Dy2归入相应的类别。
优选的,所述S4中,将资讯小句集中的第四小句复合体Dy4和第六小句复合体Dy6分别与预设类别名词进行匹配,当第四小句复合体Dy4和第六小句复合体Dy6的相似度得分高于预设阈值时,将第四小句复合体Dy4和第六小句复合体Dy6对应的资讯文本归入相应的类别。
一种基于多重语义信息的资讯智能分类系统,包括数据采集模块、预处理模块、建模模块、提取模块、关联性匹配模块和对比分类模块;
数据采集模块用于从各种来源采集获取资讯数据集;
预处理模块用于对资讯数据集进行清洗、去噪、查重和停用词去除处理,以准备数据用于后续处理;
建模模块用于依据资讯数据集上建立资讯框架模型,进行学习和训练,使用降维技术将高维向量映射到三维空间,以便在三维空间内进行框架结构的提取和相似度度量;
提取模块用于从资讯数据集中若干个框架文本提取话题关系和结构词句,并智能补充和组合,获得资讯小句集;
关联性匹配模块用于与设定预设类别名词,将获取的资讯小句集中的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6与预设类别名词进行关联性匹配,计算相似度和差异度;将相似度高的资讯小句集划分到同一分类,从而得到最终的分类结果;
所述提取模块包括话头结构提取单元、话尾结构提取单元和关键词提取单元;
话头结构提取单元用于对资讯文本的段落话头结构提取,并组合成第二小句复合体Dy2;话尾结构提取单元用于对资讯文本的段落尾部结构提取,并组合成第四小句复合体Dy4;关键词提取单元用于对资讯文本的段落高频关键词结构进行提取,并组合成第六小句复合体Dy6,用于后期进行匹配分类,获得分类结果。
本发明提供了一种基于多重语义信息的资讯智能分类方法及系统。具备以下有益效果:
(1)通过采集资讯数据集,预处理后建立资讯框架模型进行训练和提取资讯数据框架结构中的段落话头词句,并进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,基于训练完成的资讯框架模型,智能匹配分类结果,与预设类别名词进行关联性匹配,获取分类结果,这样的方式,促进提高资讯分类的准确性、效率和个性化程度。减少人工要通篇阅读资讯内容后进行判断分析分类的类目而导致效率低下的的问题,相比人工分类,系统能够在短时间内对大量资讯进行处理,提高信息处理的效率和速度,使资讯能够更快地传输到适当的企业展示页面。
(2)将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集,避免由于大小写差异引起的误判和冗余,并按照3—5条段落进行段落话头、段落话尾、高频词三种提取方式,提取后获得小句复合集,便于后期分类,提供相似度的参照。
(3)该一种基于多重语义信息的资讯智能分类方法,通过提取主题、关键信息、语义关联度系数等,可以实现更精准的资讯分类和组织,帮助用户更好地浏览和获取与企业文化相关的信息,并基于预设类别名词的关联性匹配和相似度度量方法可以提高资讯分类的准确性和一致性。通过明确定义类别、进行关联性匹配和计算相似度差异度,可以实现准确的分类结果,从而更好地组织和展示企业网站上的资讯信息。
(4)该一种基于多重语义信息的资讯智能分类系统,本发明各个模块在资讯智能分类系统中,包括数据采集、预处理、建模、提取、关联性匹配和分类,从而提高了资讯分类的准确性和效率,为用户提供更好的资讯浏览和获取体验。
附图说明
图1为本发明基于多重语义信息的资讯智能分类方法步骤示意图;
图2为本发明基于多重语义信息的资讯智能分类系统流程示意图;
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,企业网站建设都是由企业管理员将采集获取的企业资讯和多重语义信息,获取到资讯数据信息并对资讯数据信息通过人工分类的方式,传输至不同的企业展示页面供用户与企业之间的互动和沟通。因人工分类容易受到个人主观意识和经验的影响,可能存在一定的偏见和局限性。不同的人可能会有不同的判断标准和分类依据,导致分类结果的一致性和客观性受到影响,且人工分类导致信息处理效率低下,特别是在面对大量资讯时,因此,亟需提出适用于企业文化建设资讯分类的一种基于多重语义信息的资讯智能分类方法及系统。
实施例
本发明提供一种基于多重语义信息的资讯智能分类方法,请参阅图1,包括以下步骤,
S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;
S2、建立资讯框架模型、将预处理后的资讯数据集输入至资讯框架模型中,使用降维技术将资讯数据集,进行高维向量映射至三维空间,在三维空间内提取资讯数据集中文本的框架结构,并对若干个框架结构进行相似度度量;建立资讯框架模型可以帮助提取资讯,通过将资讯数据集映射到三维空间,可以更好地可视化和分析文本的框架结构,提取其中的语义信息。降维技术可以帮助减少维度的复杂性,提高计算效率;
S3、提取若干个架构中的话题关系,提取段落话头结构词句,帮助揭示文本之间的关系和重要信息;将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,并对其智能分析;获取第一语义关联度系数GLd1,并将第一语义关联度系数GLd1作为标签标记在第二小句复合体Dy2首尾处;通过获取第一语义关联度系数GLd1并将其标记在第二小句复合体上,可以突出文本中的重要语义信息,并为后续分类提供有用的指导;
S4、设定预设类别名词,将获取的若干个第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。通过与预设类别名词进行关联性匹配,可以根据相似度和差异度将文本划分到相应的分类中。这有助于提高分类的准确性和一致性。
本实施例中,该方法通过采集资讯数据集,预处理后建立资讯框架模型进行训练和提取资讯数据框架结构中的段落话头词句,并进行复合,需形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,基于训练完成的资讯框架模型,智能匹配分类结果,与预设类别名词进行关联性匹配,获取分类结果,这样的方式,促进提高资讯分类的准确性、效率和个性化程度。减少人工要通篇阅读资讯内容后进行判断分析分类的类目而导致效率低下的的问题,相比人工分类,系统能够在短时间内对大量资讯进行处理,提高信息处理的效率和速度,使资讯能够更快地传输到适当的企业展示页面。
实施例2,本实施例是在实施例1中进行的解释说明,具体的,文本预处理包括:
对采集到的资讯数据进行初步的清洗、去噪和停用词去除,去除无效或查重的数据;如HTML标签、特殊字符、链接、广告等,可以提高数据的质量和准确性。这有助于避免在后续处理过程中出现噪声干扰,保证后续处理的准确性和有效性;通过去除停用词,可以减小数据集的大小,提高处理效率,同时去除对文本语义分析无帮助的无意义词汇,提高文本处理的准确性和效果;
将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集。有助于更好地组织和展示文本内容。段落的划分根据自然语言处理的规则,如句子结束符、标点符号等进行切分,确保段落的连贯性和完整性。这有助于更好地理解和分析文本的结构和内容。将段落文本转化为统一的大小写格式进行存储,可以消除大小写的差异,便于后续的文本处理和分析。统一大小写格式可以提高文本的一致性和可比性,避免由于大小写差异引起的误判和冗余。
实施例3,本实施例是在实施例1中进行的解释说明,具体的,基于框架语义学技术分析多重语义信息法,进行资讯框架模型建模;
将预处理后的资讯数据集输入中资讯框架模型中,获取每个资讯文本的框架结构信息,框架结构信息包括文本的组织结构、语义关系和主题等重要信息。这有助于揭示资讯文本的关键要素和内在语义,然后,使用降维技术将高维向量映射到三维空间,便于观看每个资讯文本向量的局部和全部结构,在三维空间中观察每个资讯文本的向量,可以更直观地理解和分析文本的局部和整体结构,以及文本之间的相对位置关系;
在三维空间中,提取资讯数据集中文本的框架结构,对降维后的向量进行聚类,将具有相似框架结构的文本进行归类;对降维后的向量进行聚类,可以将具有相似框架结构的文本归类到同一类别中。这有助于实现资讯文本的自动分类和归纳,提高文本组织和检索的效率
对提取的框架结构进行相似度度量,计算不同框架结构之间的距离。这有助于衡量文本之间的语义关联性和相似程度,帮助进行文本匹配、推荐和关联分析;
本实施例中,基于框架语义学技术进行资讯框架模型建模,并在三维空间中提取和分析框架结构,可以提供框架结构信息获取、降维可视化、框架结构聚类、框架结构相似度度量等有益效果。这有助于深入理解和分析资讯数据集中的多重语义信息,提高文本处理和语义分析的效果和准确性。
实施例4,本实施例是在实施例1中进行的解释说明,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;可以帮助理解文本中的主题和重点内容。通过话题关系的提取,可以准确捕捉文本中的关键话题,从而更好地组织和展示资讯内容;
S32、段落话头结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取话头结构词句,话头是段落中引导或概括话题的关键句子或短语,使用关键词提取和识别3—5条段落中的话头结构;有助于抓住每个段落的关键信息和主题;
S33、第一小句复合体Dy1的形成:将每个段落的话头词句组合成第一小句复合体Dy1,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;将话头词句按照段落顺序组合成第一小句复合体Dy1,可以构建一个完整的句子或短语,准确地表达段落的主题和关键信息。这有助于提高文本的连贯性和可读性;
S34、对第一小句复合体Dy1进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第二小句复合体Dy2;这有助于丰富文本内容,提供更全面和准确的信息;
S35、第二小句复合体Dy2的智能分析和语义依赖关联度系数获取:对第二小句复合体Dy2进行智能分析,将提取第二小句复合体Dy2中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第一语义关联度系数GLd1。这有助于理解文本中的语义关系和依赖性,为后续的语义分析和分类提供有用的信息;
所述S4包括:
(1)预设类别名词定义,明确预设类别名词,即将文本划分在预定义的类别,具体为第一预设类别名词和第二预设类别名词,第二预设类别名词在第一预设类别名词的类目下进行细分;通过第一预设类别名词和第二预设类别名词的定义和细分,可以更精准地进行分类,提高分类结果的准确性。
(2)对于每个第二小句复合体Dy2,使用训练完成的资讯框架模型提取其语义结构信息,然后,将预设类别名词与第二小句复合体Dy2中的关键词、关键短语或框架元素进行关联性匹配;这有助于判断第二小句复合体Dy2与每个预设类别名词的相关程度,从而确定其应归属的分类。
(3)基于关联性匹配的结果,计算第二小句复合体Dy2与每个预设类别名词之间的相似度和差异度;根据匹配到的关键词数量、相似度度量结果来计算相似度和差异度的得分;通过匹配到的关键词数量、相似度度量结果等指标来评估相似度和差异度的得分。这有助于量化不同类别与第二小句复合体Dy2之间的相关性,并为分类提供可量化的指标;将相似度高的第二小句复合体Dy2划分至同一分类;当相似度得分高于预设阈值时,将第二小句复合体Dy2归入相应的类别。通过计算相似度和差异度得分,可以准确地将第二小句复合体Dy2归入相应的类别。这有助于提高分类的准确性和一致性,避免主观意识和经验对分类结果的影响。
通过提取主题、关键信息、语义关联度系数等,可以实现更精准的资讯分类和组织,帮助用户更好地浏览和获取与企业文化相关的信息,并基于预设类别名词的关联性匹配和相似度度量方法可以提高资讯分类的准确性和一致性。通过明确定义类别、进行关联性匹配和计算相似度差异度,可以实现准确的分类结果,从而更好地组织和展示企业网站上的资讯信息。
实施例5,本实施例是在实施例4中进行的改进说明,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;
S32、段落结尾结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取结尾结构词句,结尾是段落中概括或总结话题的关键句子或短语,使用关键词提取和识别3—5条段落中的结尾结构;
S33、第三小句复合体Dy3的形成:将每个段落的话尾词句组合成第三小句复合体Dy3,将这些话尾词句按照段落的顺序进行组合,形成一个完整的句子或短语;
S34、对第三小句复合体Dy3进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第四小句复合体Dy4;
S35、第四小句复合体Dy4的智能分析和语义依赖关联度系数获取:对第四小句复合体Dy4进行智能分析,将提取第四小句复合体Dy4中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第二语义关联度系数GLd2;并将获取第二语义关联度系数GLd2作为标签标记在第四小句复合体Dy4首尾处。
本实施例中,在对S33步骤中进行了改进,不同于实施例4的提取段落话头结构,本实施例中提取3—5条段落的结尾结构词句有助于捕捉每个段落的总结和概括信息。结尾部分通常包含段落的核心思想和要点,通过提取这些结尾结构词句可以更好地理解段落的主旨和总结,提高文本的信息凝练度。提高文本的连贯性和逻辑性、丰富文本内容、提供更全面和准确的语义信息以及评估文本之间的语义关联程度。这些效果有助于进一步提升资讯文本的质量和可理解性,使读者更容易获取和理解与企业文化相关的信息。
实施例6,本实施例是在实施例5中进行的解释说明,所述S3包括:
S31、话题关系提取:从若干个框架中提取话题;
S32、全文高频关键词结构提取:针对3—5条段落的资讯文本,针对全文提取高频的关键词结构;
S33、第五小句复合体Dy5的形成:将全文中频率出现最高的前五个关键词结构组合成第五小句复合体Dy5,形成一个完整的句子或短语;这样做可以将全文中最重要和频繁出现的关键信息整合到一个句子中,使读者更容易理解和记忆资讯的核心内容。
S34、对第五小句复合体Dy5进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第六小句复合体Dy6;
S35、第六小句复合体Dy6的智能分析和语义依赖关联度系数获取:对第六小句复合体Dy6进行智能分析,将提取第六小句复合体Dy6中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第三语义关联度系数GLd3;并将获取得到的第三语义关联度系数GLd3作为标签标记在第六小句复合体Dy6首尾处。
本实施例中,在对S33步骤中进行了改进,不同于实施例4和5中的提取段落话头和段落话尾结构,本实施例中提取3—5条段落的高频关键词结构,可以捕捉到文本中重要和频繁出现的关键信息。这有助于识别文本的核心内容和主题,提供全面和准确的资讯信息。
实施例7,本实施例是在实施例6中进行的解释说明,将获得的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6相关联,获取资讯小句集,将第一语义关联度系数GLd1、第二语义关联度系数GLd2和第三语义关联度系数GLd3进行排序,并标签在资讯小句集的首尾处,以突出关联度特征。
优选的,将获得的Dy2、Dy4和Dy6相关联并获取资讯小句集,并对关联度系数进行排序和标签化,有助于突出关联度特征、强调相关信息、提供有序的阅读体验,并方便关联度分析和比较。这些效果有助于提升资讯内容的可理解性和读者对企业文化的认知和理解.
实施例8,本实施例是在实施例6中进行的解释说明,所述S4中,将资讯小句集中的第四小句复合体Dy4和第六小句复合体Dy6分别与预设类别名词进行匹配,当第四小句复合体Dy4和第六小句复合体Dy6的相似度得分高于预设阈值时,将第四小句复合体Dy4和第六小句复合体Dy6对应的资讯文本归入相应的类别。
本实施例中,将第四小句复合体Dy4和第六小句复合体Dy6与预设类别名词进行匹配,并根据相似度得分判断归类,可以实现自动化分类,提高分类准确性。
一种基于多重语义信息的资讯智能分类系统,请参阅图2,包括数据采集模块、预处理模块、建模模块、提取模块、关联性匹配模块和对比分类模块;
数据采集模块用于从各种来源采集获取资讯数据集;
预处理模块用于对资讯数据集进行清洗、去噪、查重和停用词去除处理,以准备数据用于后续处理;
建模模块用于依据资讯数据集上建立资讯框架模型,进行学习和训练,使用降维技术将高维向量映射到三维空间,以便在三维空间内进行框架结构的提取和相似度度量;
提取模块用于从资讯数据集中若干个框架文本提取话题关系和结构词句,并智能补充和组合,获得资讯小句集;
关联性匹配模块用于与设定预设类别名词,将获取的资讯小句集中的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6与预设类别名词进行关联性匹配,计算相似度和差异度;将相似度高的资讯小句集划分到同一分类,从而得到最终的分类结果;
所述提取模块包括话头结构提取单元、话尾结构提取单元和关键词提取单元;
话头结构提取单元用于对资讯文本的段落话头结构提取,并组合成第二小句复合体Dy2;话尾结构提取单元用于对资讯文本的段落尾部结构提取,并组合成第四小句复合体Dy4;关键词提取单元用于对资讯文本的段落高频关键词结构进行提取,并组合成第六小句复合体Dy6,用于后期进行匹配分类,获得分类结果。
本发明各个模块在资讯智能分类系统中,包括数据采集、预处理、建模、提取、关联性匹配和分类,从而提高了资讯分类的准确性和效率,为用户提供更好的资讯浏览和获取体验。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于多重语义信息的资讯智能分类方法,其特征在于:包括以下步骤,
S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;
S2、建立资讯框架模型、将预处理后的资讯数据集输入至资讯框架模型中,使用降维技术将资讯数据集,进行高维向量映射至三维空间,在三维空间内提取资讯数据集中文本的框架结构,并对若干个框架结构进行相似度度量;
S3、提取若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充和预测,获得第二小句复合体Dy2,并对其智能分析,获取第一语义关联度系数GLd1,并将第一语义关联度系数GLd1作为标签标记在第二小句复合体Dy2首尾处;
其中,S3具体包括如下:
步骤一:话题关系提取:从若干个框架中提取话题;
段落话头结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取话头结构词句,话头是段落中引导或概括话题的关键句子或短语,使用关键词提取和识别3—5条段落中的话头结构;
第一小句复合体Dy1的形成:将每个段落的话头词句组合成第一小句复合体Dy1,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;
对第一小句复合体Dy1进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第二小句复合体Dy2;
第二小句复合体Dy2的智能分析和语义依赖关联度系数获取:对第二小句复合体Dy2进行智能分析,将提取第二小句复合体Dy2中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第一语义关联度系数GLd1;
步骤二:话题关系提取:从若干个框架中提取话题;
段落结尾结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取结尾结构词句,结尾是段落中概括或总结话题的关键句子或短语,使用关键词提取和识别3—5条段落中的结尾结构;
第三小句复合体Dy3的形成:将每个段落的话尾词句组合成第三小句复合体Dy3,将这些话尾词句按照段落的顺序进行组合,形成一个完整的句子或短语;
对第三小句复合体Dy3进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第四小句复合体Dy4;
第四小句复合体Dy4的智能分析和语义依赖关联度系数获取:对第四小句复合体Dy4进行智能分析,将提取第四小句复合体Dy4中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第二语义关联度系数GLd2;并将获取第二语义关联度系数GLd2作为标签标记在第四小句复合体Dy4首尾处;
步骤三:话题关系提取:从若干个框架中提取话题;
全文高频关键词结构提取:针对3—5条段落的资讯文本,针对全文提取高频的关键词结构;
第五小句复合体Dy5的形成:将全文中频率出现最高的前五个关键词结构组合成第五小句复合体Dy5,形成一个完整的句子或短语;
对第五小句复合体Dy5进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第六小句复合体Dy6;
第六小句复合体Dy6的智能分析和语义依赖关联度系数获取:对第六小句复合体Dy6进行智能分析,将提取第六小句复合体Dy6中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第三语义关联度系数GLd3;并将获取得到的第三语义关联度系数GLd3作为标签标记在第六小句复合体Dy6首尾处;
S4、设定预设类别名词,将获取的若干个第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。
2.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:文本预处理包括:
对采集到的资讯数据进行初步的清洗、去噪和停用词去除,去除无效或查重的数据;
将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集。
3.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:基于框架语义学技术分析多重语义信息法,进行资讯框架模型建模;
将预处理后的资讯数据集输入资讯框架模型中,获取每个资讯文本的框架结构信息,然后,使用降维技术将高维向量映射到三维空间,便于观看每个资讯文本向量的局部和全部结构;
在三维空间中,提取资讯数据集中文本的框架结构,通过对提取的框架结构进行相似度度量,计算不同框架结构之间的距离,对降维后的向量进行聚类。
4.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:
将获得的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6相关联,获取资讯小句集,将第一语义关联度系数GLd1、第二语义关联度系数GLd2和第三语义关联度系数GLd3进行排序,并标签在资讯小句集的首尾处,以突出关联度特征。
5.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:所述S4包括:
(1)预设类别名词定义,明确预设类别名词,即将文本划分在预定义的类别,具体为第一预设类别名词和第二预设类别名词,第二预设类别名词在第一预设类别名词的类目下进行细分;
(2)对于每个第二小句复合体Dy2,使用训练完成的资讯框架模型提取其语义结构信息,然后,将预设类别名词与第二小句复合体Dy2中的关键词、关键短语或框架元素进行关联性匹配;
(3)基于关联性匹配的结果,计算第二小句复合体Dy2与每个预设类别名词之间的相似度和差异度;根据匹配到的关键词数量、相似度度量结果来计算相似度和差异度的得分;将相似度高的第二小句复合体Dy2划分至同一分类;当相似度得分高于预设阈值时,将第二小句复合体Dy2归入相应的类别;
将资讯小句集中的第四小句复合体Dy4和第六小句复合体Dy6分别与预设类别名词进行匹配,当第四小句复合体Dy4和第六小句复合体Dy6的相似度得分高于预设阈值时,将第四小句复合体Dy4和第六小句复合体Dy6对应的资讯文本归入相应的类别。
6.一种基于多重语义信息的资讯智能分类系统,包括上述权利要求1~5任一项所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:包括数据采集模块、预处理模块、建模模块、提取模块、关联性匹配模块和对比分类模块;
数据采集模块用于从各种来源采集获取资讯数据集;
预处理模块用于对资讯数据集进行清洗、去噪、查重和停用词去除处理,以准备数据用于后续处理;
建模模块用于依据资讯数据集上建立资讯框架模型,进行学习和训练,使用降维技术将高维向量映射到三维空间,以便在三维空间内进行框架结构的提取和相似度度量;
提取模块用于从资讯数据集中若干个框架文本提取话题关系和结构词句,并智能补充和组合,获得资讯小句集;
关联性匹配模块用于与设定预设类别名词,将获取的资讯小句集中的第二小句复合体Dy2、第四小句复合体Dy4和第六小句复合体Dy6与预设类别名词进行关联性匹配,计算相似度和差异度;将相似度高的资讯小句集划分到同一分类,从而得到最终的分类结果;
所述提取模块包括话头结构提取单元、话尾结构提取单元和关键词提取单元;
话头结构提取单元用于对资讯文本的段落话头结构提取,并组合成第二小句复合体Dy2;话尾结构提取单元用于对资讯文本的段落尾部结构提取,并组合成第四小句复合体Dy4;关键词提取单元用于对资讯文本的段落高频关键词结构进行提取,并组合成第六小句复合体Dy6,用于后期进行匹配分类,获得分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740431.0A CN116775874B (zh) | 2023-06-21 | 2023-06-21 | 一种基于多重语义信息的资讯智能分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740431.0A CN116775874B (zh) | 2023-06-21 | 2023-06-21 | 一种基于多重语义信息的资讯智能分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116775874A CN116775874A (zh) | 2023-09-19 |
CN116775874B true CN116775874B (zh) | 2023-12-12 |
Family
ID=88011043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310740431.0A Active CN116775874B (zh) | 2023-06-21 | 2023-06-21 | 一种基于多重语义信息的资讯智能分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775874B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117075756B (zh) * | 2023-10-12 | 2024-03-19 | 深圳市麦沃宝科技有限公司 | 用于智能触摸键盘的实时感应数据处理方法 |
CN117592562B (zh) * | 2024-01-18 | 2024-04-09 | 卓世未来(天津)科技有限公司 | 基于自然语言处理的知识库自动构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN113434686A (zh) * | 2021-07-07 | 2021-09-24 | 中国银行股份有限公司 | 一种基于多重语义信息的资讯分类方法及系统 |
CN113486945A (zh) * | 2021-07-02 | 2021-10-08 | 安徽工业大学 | 一种基于图嵌入和特征降维的多标记学习方法 |
CN114722204A (zh) * | 2022-04-18 | 2022-07-08 | 首都经济贸易大学 | 多标签文本分类方法及装置 |
-
2023
- 2023-06-21 CN CN202310740431.0A patent/CN116775874B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN113486945A (zh) * | 2021-07-02 | 2021-10-08 | 安徽工业大学 | 一种基于图嵌入和特征降维的多标记学习方法 |
CN113434686A (zh) * | 2021-07-07 | 2021-09-24 | 中国银行股份有限公司 | 一种基于多重语义信息的资讯分类方法及系统 |
CN114722204A (zh) * | 2022-04-18 | 2022-07-08 | 首都经济贸易大学 | 多标签文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116775874A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN110727796A (zh) | 面向分级读物的多尺度难度向量分类方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111814485A (zh) | 一种基于海量标准文献数据的语义解析方法及装置 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN114881053A (zh) | 面向神经机器翻译系统的句子粒度蜕变测试方法 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
CN112071304A (zh) | 一种语意分析方法及装置 | |
Yuan et al. | Semantic based chinese sentence sentiment analysis | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |