CN115841120A - 一种基于方面词的主语义分析方法及系统 - Google Patents

一种基于方面词的主语义分析方法及系统 Download PDF

Info

Publication number
CN115841120A
CN115841120A CN202310170278.2A CN202310170278A CN115841120A CN 115841120 A CN115841120 A CN 115841120A CN 202310170278 A CN202310170278 A CN 202310170278A CN 115841120 A CN115841120 A CN 115841120A
Authority
CN
China
Prior art keywords
preset
text
target
aspect word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310170278.2A
Other languages
English (en)
Other versions
CN115841120B (zh
Inventor
宋永生
王楠
徐家威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenling Technology Beijing Co ltd
Original Assignee
Wenling Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenling Technology Beijing Co ltd filed Critical Wenling Technology Beijing Co ltd
Priority to CN202310170278.2A priority Critical patent/CN115841120B/zh
Publication of CN115841120A publication Critical patent/CN115841120A/zh
Application granted granted Critical
Publication of CN115841120B publication Critical patent/CN115841120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于方面词的主语义分析方法及系统,涉及人工智能领域,所述方法包括:通过获得预设文本的基本特征信息,并确定目标主题;采集目标主题的文本信息并组成目标文本集;分析构建方面词集;遍历得到预设文本的预设方面词集;对预设方面词集进行聚类得到预设方面词类别集;提取预设方面词类别集中任意一个预设方面词类别,并统计任意一个预设方面词类别的出现总次数;对出现总次数降序处理,得到预设方面词类别列表;根据预设方面词类别列表得到主语义分析结果。解决了现有技术在对文本主语义进行分析时忽略方面词含义分析,文本分析速度慢、语义结果不准确,甚至偏离文本主语义的问题。达到了提高文本主语义分析准确率的效果。

Description

一种基于方面词的主语义分析方法及系统
技术领域
本发明涉及人工智能领域,尤其涉及一种基于方面词的主语义分析方法及系统。
背景技术
随着计算机技术的快速发展,产生了大量的电子文本数据。在实际工作或生活中,用户根据需要在网络可以快速搜索到大量相关的文本信息,由于时间限制等实际情况,用户需要快速了解搜索结果中各个文本信息的主要含义和表达的中心思想,此时通过人工依次查看筛选并确定所需文本需要花费大量时间,从而导致用户处理工作等任务的效率不高。现有技术通过计算机技术进行文本主语义的智能分析时,存在分析速度慢,分析结果与文本实际表达存在偏差,甚至背离文本主语义的问题。传统的NLP技术中有“概念”和概念的“属性”两种词型,其中所有修饰概念的量都称为“属性”。其中,修饰概念的量分为两类:一类是可测量、可感知、可取值、可比较的量。另一类是用一个概念来修饰另一个概念,前者是后者的某个方面,故称为“方面”词。举例如,“行动计划”中的计划,“财务报表”中的报表,“放假通知”中的通知,以及“竞争形势”中的形势等。方面词是计算机分析文本的重要渠道,针对某一主题,人工分析确定主题相关方面词供计算机智能分析使用,通过计算机统计处理方面词信息,最终快速确定文本的主语义,对于提高文本语义分析效率和分析准确率具有重要意义。
然而,现有技术通过传统技术进行文本的主语义分析,传统的NLP技术很重视概念词本身,但对修饰概念的方面词重视不够,由于忽略了对方面词含义的分析,使得现有技术中的文本语义分析结果存在不准确、速度慢的技术问题。
发明内容
本发明的目的是提供一种基于方面词的主语义分析方法及系统,用以解决现有技术中在对文本的主语义进行分析时忽略了对方面词含义的分析,进而使得文本语义分析结果存在不准确、速度慢的技术问题。
鉴于上述问题,本发明提供了一种基于方面词的主语义分析方法及系统。
第一方面,本发明提供了一种基于方面词的主语义分析方法,所述方法通过一种基于方面词的主语义分析系统实现,其中,所述方法包括:通过获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
第二方面,本发明还提供了一种基于方面词的主语义分析系统,用于执行如第一方面所述的一种基于方面词的主语义分析方法,其中,所述系统包括:确定模块:所述确定模块用于获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;组成模块:所述组成模块用于采集所述目标主题的文本信息,并组成目标文本集;构建模块:所述构建模块用于对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;第一得到模块:所述第一得到模块用于基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;第二得到模块:所述第二得到模块用于对所述预设方面词集进行聚类分析得到预设方面词类别集;第三得到模块:所述第三得到模块用于提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;第四得到模块:所述第四得到模块用于对所述出现总次数进行降序处理,得到预设方面词类别列表;第五得到模块:所述第五得到模块用于根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。通过分析确定预设文本的目标主题,并基于大数据对目标主题进行搜索遍历,得到目标主题相关的文本信息,实现了为后续分析确定目标主题的方面词集提供基础的技术目标。通过基于方面词集对预设文本遍历分析,得到预设方面词集,实现了为后续分析预设文本的主语义提供数据基础的技术目标。通过对预设方面词类别集中的各个预设方面词类别依次进行分析和统计,得到用于分析预设文本主语义的方面词,基于对方面词所含语义的分析,实现了对概念词的多角度分析目标,通过提高文本主语义分析全面性达到了提高文本主语义分析的效率和准确率的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种基于方面词的主语义分析方法的流程示意图;
图2为本发明一种基于方面词的主语义分析方法中组建方面词集的流程示意图;
图3为本发明一种基于方面词的主语义分析方法中将目标方面词添加至预设方面词集的流程示意图;
图4为本发明一种基于方面词的主语义分析方法中对预设方面词类别集进行调整的流程示意图;
图5为本发明一种基于方面词的主语义分析系统的结构示意图。
附图标记说明:
确定模块M100,组成模块M200,构建模块M300,第一得到模块M400,第二得到模块M500,第三得到模块M600,第四得到模块M700,第五得到模块M800。
具体实施方式
本发明通过提供一种基于方面词的主语义分析方法及系统,解决了现有技术中在对文本的主语义进行分析时忽略了对方面词含义的分析,进而使得文本语义分析结果存在不准确、速度慢的技术问题。达到了提高文本主语义分析的效率和准确率的技术效果。
本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
下面,将参考附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
实施例一
请参阅附图1,本发明提供了一种基于方面词的主语义分析方法,其中,所述方法应用于一种基于方面词的主语义分析系统,所述方法具体包括如下步骤:
步骤S100:获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;
进一步的,本发明还包括如下步骤:
步骤S110:获得所述预设文本的摘选来源;
步骤S120:获得所述预设文本的撰写用户,并分析确定所述撰写用户的撰写身份;
步骤S130:获得所述预设文本的总体字数;
步骤S140:基于所述摘选来源、所述撰写身份、所述总体字数,组成所述基本特征信息。
具体而言,所述一种基于方面词的主语义分析方法应用于所述一种基于方面词的主语义分析系统,可以通过对预设文本中的方面词进行分析和统计,从而确定预设文本的主要语义,达到提高文本主语义分析效率和准确率的效果。所述预设文本是指任意一段待通过主语义分析系统智能化分析确定主要语义的文本段落。示范性的如一篇时评、一段评价等文本。所述方面词是指在传统的NLP技术修饰概念的量,即“属性”中用一个概念来修饰另一个概念时的前者概念。也就是说,用一个概念来修饰另一个概念,前者是后者的某个方面,故称为“方面”词。示范性的如“行动计划”中的计划即为行动的方面词,“财务报表”中的报表即为财务的方面词等。首先对所述预设文本的摘选来源、撰写用户及其撰写身份、总体字数等相关基本信息进行采集,得到所述基本特征信息。其中,所述摘选来源是指所述预设文本第一次公开发表的地方,示范性的如某时评论坛、某新闻网站、某视频下方评论区等。所述撰写用户是指第一次编辑撰写出所述预设文本的用户,包括网站注册用户、某产品购买用户等,对所述撰写用户进行身份角色等分析后,确定所述撰写用户编辑发布所述预设文本时的身份角色,并将其作为所述撰写身份。示范性的如某购物网站中的用户A在购买某产品后发布产品使用体验和整个购买过程的感受,则用户A为消费客户身份。最后,基于所述摘选来源、所述撰写身份、所述总体字数,组成所述基本特征信息,并根据所述基本特征信息确定所述预设文本的目标主题,示范性的如某购物网站中的用户A在购买某产品后发布产品使用体验和整个购买过程的感受,则用户A发布的预设文本的主题为产品购买评价。
通过在基于方面词信息确定文本主要语义之前对文本的基本特征信息进行分析,从而分析确定预设文本的目标主题,实现了为后续分析确定预设文本的主要语义提供基本方向和确定文本主语义奠定基调基础的技术目标。
步骤S200:采集所述目标主题的文本信息,并组成目标文本集;
步骤S300:对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;
进一步的,如附图2所示,本发明步骤S300还包括:
步骤S310:获得预设停用词;
步骤S320:基于所述预设停用词对所述目标文本集进行遍历,得到目标文本停用词;
步骤S330:获得剔除指令,并根据所述剔除指令剔除所述目标文本集中的所述目标文本停用词,得到剔除结果;
步骤S340:对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集。
进一步的,如附图3所示,本发明还包括如下步骤:
步骤S351:提取所述方面词集中的目标方面词;
步骤S352:将所述目标方面词在所述预设文本中遍历,得到目标遍历结果;
步骤S353:判断所述目标遍历结果是否满足预设结果;
进一步的,本发明还包括如下步骤:
步骤S3531:若所述目标遍历结果不满足所述预设结果,获得第二添加指令;
步骤S3532:根据所述第二添加指令,将所述目标方面词添加至非预设方面词集。
步骤S354:若所述目标遍历结果满足所述预设结果,获得第一添加指令;
步骤S355:根据所述第一添加指令,将所述目标方面词添加至所述预设方面词集。
具体而言,在对预设文本进行相关特征信息采集并确定所述预设文本的目标主题之后,基于大数据对所述目标主题相关的文本数据信息进行检索采集,从而得到所述目标文本集。示范性的如确定预设文本为时评后,通过计算机检索各类时评文章、评论等文本,即得到目标文本集。接下来,对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集。
首先确定预设停用词,其中,所述预设停用词是指由相关语言学专家结合实际语言使用情况等综合分析后确定的需要剔除过滤掉的、对预设文本的主语义不会产生实质性影响的字词。示范性的如“的”、“根据”、“分析”、“等等”、“进行”、“使”等字词。然后,基于所述预设停用词对所述目标文本集进行遍历,并根据遍历结果得到所述预设文本中的目标文本停用词。其中,所述目标文本停用词是指所述预设文本中包含的所有预设停用词。接着,系统自动发出剔除指令,并根据所述剔除指令剔除所述目标文本集中的所述目标文本停用词,得到剔除结果。通过剔除文本中的停用词,实现了对系统智能处理文本量的降维,进而优化系统系统,提高系统分析处理效率的目标。最后,对所述剔除结果进行关键词提取,得到文本的关键词信息,进一步从关键词中筛选方面词,并根据筛选结果组建所述方面词集。
进一步的,在组建得到所述方面词集后,提取所述方面词集中的目标方面词,其中,所述目标方面词是指所述方面词集中任意一个方面词。然后将所述目标方面词在所述预设文本中遍历,得到目标遍历结果。其中,所述目标遍历结果包括所述目标方面词在所述预设文本中是否出现以及出现的位置、次数等相关信息。接着,判断所述目标遍历结果是否满足预设结果,若所述目标遍历结果满足所述预设结果,获得第一添加指令,并根据所述第一添加指令将所述目标方面词添加至所述预设方面词集。也就是说,当遍历结果证明所述预设文本中包含所述目标方面词时,将对应目标方面词作为所述预设方面词集中的一个。然而,若所述目标遍历结果不满足所述预设结果,获得第二添加指令,并根据所述第二添加指令,将所述目标方面词添加至非预设方面词集。也就是说,将预设文本中实际上未出现过的目标方面词汇集得到非预设方面词集,为后续确定所述预设文本的主语义分析结果提供参考基础和验证渠道。
步骤S400:基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;
步骤S500:对所述预设方面词集进行聚类分析得到预设方面词类别集;
进一步的,本发明还包括如下步骤:
步骤S510:提取所述预设方面词集中的目标预设方面词;
步骤S520:对所述目标预设方面词进行分析,并根据分析结果得到目标预设方面词类别;
步骤S530:根据所述目标预设方面词类别对所述预设方面词集进行聚类分析,得到所述预设方面词类别集。
进一步的,如附图4所示,本发明还包括如下步骤:
步骤S541:根据所述总体字数获得预设次数阈值;
步骤S542:判断所述出现总次数是否满足所述预设次数阈值,获得判断结果;
步骤S543:根据所述判断结果,对所述预设方面词类别集进行调整。
具体而言,基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集,示范性的如“通知”、“诀窍”、“公告”、“平台”、“方法”、“技巧”、“系统”等。接着对所述预设方面词集进行聚类分析得到预设方面词类别集。示范性的如“诀窍”、“方法”、“技巧”等为一类讨论具体实施过程的方面词,具体举例如“放假通知”中的通知为放假的方面词,“竞争形势”中的形势为竞争的方面词等。首先提取所述预设方面词集中的目标预设方面词,并对所述目标预设方面词进行分析,接着根据分析结果得到目标预设方面词类别。接下来,根据所述目标预设方面词类别对所述预设方面词集进行聚类分析,得到所述预设方面词类别集。
进一步的,根据统计得到的所述预设文本的所述总体字数,综合分析后预设次数阈值并将其存储于系统中,进而通过系统自动判断所述出现总次数是否满足所述预设次数阈值,并获得判断结果。最后,根据所述判断结果,对所述预设方面词类别集进行调整。也就是说,当某类方面词出现的次数没有达到预设次数阈值时,说明该类方面词不属于所述预设文本的主要表达思想和含义,因此将其剔除,从而保留对预设文本主语义分析提供主要依据的方面词,达到提高主语义识别分析效率,同时降低低频出现的方面词对预设文本主语义产生偏差的技术效果。
步骤S600:提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;
步骤S700:对所述出现总次数进行降序处理,得到预设方面词类别列表;
步骤S800:根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
具体而言,在确定所述预设方面词类别集之后,随机提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数,接着根据各个预设方面词类别的出现总次数的数量大小,对预设方面词类别集进行降序处理,从而得到预设方面词类别列表。最后,根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。也就是说,将列表中各方面词依次与文本中的宿主概念词进行分析,得到方面词和宿主概念词之间的吻合度指数,并将吻合度指数最高的方面词作为分析对象,通过分析该方面词实现对文本主语义的识别分析。示范性的如结合大数据,遍历预设文本范围下,依次统计方面词A与宿主概念词C、方面词B与宿主概念词C之间搭配出现的次数,或者通过多个语言学专家,人工主观分别确定方面词A、方面词B与宿主概念词C的吻合程度等。通过对预设方面词类别集中的各个预设方面词类别依次进行分析和统计,得到用于分析预设文本主语义的方面词,达到了提高文本主语义分析的效率和准确率的技术效果。
综上所述,本发明所提供的一种基于方面词的主语义分析方法具有如下技术效果:
通过获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。因此,本申请将一个概念的方面词尽量多地找出来,并建立一个以概念词为中心,方面词为拓展的主语义模型,方面词所含概念词语义的多少决定了方面词与概念词之间的距离。也就是说,要分析一个概念的语义,不仅要考虑概念语义本身,还要考虑与概念相关的方面词所含的语义对概念的影响。通过分析确定预设文本的目标主题,并基于大数据对目标主题进行搜索遍历,得到目标主题相关的文本信息,实现了为后续分析确定目标主题的方面词集提供基础的技术目标。通过基于方面词集对预设文本遍历分析,得到预设方面词集,实现了为后续分析预设文本的主语义提供数据基础的技术目标。通过对预设方面词类别集中的各个预设方面词类别依次进行分析和统计,得到用于分析预设文本主语义的方面词,基于对方面词所含语义的分析,实现了对概念词的多角度分析目标,通过提高文本主语义分析全面性达到了提高文本主语义分析的效率和准确率的技术效果。
实施例二
基于与前述实施例中一种基于方面词的主语义分析方法,同样发明构思,本发明还提供了一种基于方面词的主语义分析系统,请参阅附图5,所述系统包括:
确定模块M100:所述确定模块M100用于获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;
组成模块M200:所述组成模块M200用于采集所述目标主题的文本信息,并组成目标文本集;
构建模块M300:所述构建模块M300用于对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;
第一得到模块M400:所述第一得到模块M400用于基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;
第二得到模块M500:所述第二得到模块M500用于对所述预设方面词集进行聚类分析得到预设方面词类别集;
第三得到模块M600:所述第三得到模块M600用于提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;
第四得到模块M700:所述第四得到模块M700用于对所述出现总次数进行降序处理,得到预设方面词类别列表;
第五得到模块M800:所述第五得到模块M800用于根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
进一步的,所述系统中的所述确定模块M100还用于:
获得所述预设文本的摘选来源;
获得所述预设文本的撰写用户,并分析确定所述撰写用户的撰写身份;
获得所述预设文本的总体字数;
基于所述摘选来源、所述撰写身份、所述总体字数,组成所述基本特征信息。
进一步的,所述系统中的所述构建模块M300还用于:
获得预设停用词;
基于所述预设停用词对所述目标文本集进行遍历,得到目标文本停用词;
获得剔除指令,并根据所述剔除指令剔除所述目标文本集中的所述目标文本停用词,得到剔除结果;
对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集。
进一步的,所述系统中的所述构建模块M300还用于:
提取所述方面词集中的目标方面词;
将所述目标方面词在所述预设文本中遍历,得到目标遍历结果;
判断所述目标遍历结果是否满足预设结果;
若所述目标遍历结果满足所述预设结果,获得第一添加指令;
根据所述第一添加指令,将所述目标方面词添加至所述预设方面词集。
进一步的,所述系统中的所述构建模块M300还用于:
若所述目标遍历结果不满足所述预设结果,获得第二添加指令;
根据所述第二添加指令,将所述目标方面词添加至非预设方面词集。
进一步的,所述系统中的所述第二得到模块M500还用于:
提取所述预设方面词集中的目标预设方面词;
对所述目标预设方面词进行分析,并根据分析结果得到目标预设方面词类别;
根据所述目标预设方面词类别对所述预设方面词集进行聚类分析,得到所述预设方面词类别集。
进一步的,所述系统中的所述第二得到模块M500还用于:
根据所述总体字数获得预设次数阈值;
判断所述出现总次数是否满足所述预设次数阈值,获得判断结果;
根据所述判断结果,对所述预设方面词类别集进行调整。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,前述图1实施例一中的一种基于方面词的主语义分析方法和具体实例同样适用于本实施例的一种基于方面词的主语义分析系统,通过前述对一种基于方面词的主语义分析方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于方面词的主语义分析系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于方面词的主语义分析方法,其特征在于,包括:
获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;
采集所述目标主题的文本信息,并组成目标文本集;
对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;
基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;
对所述预设方面词集进行聚类分析得到预设方面词类别集;
提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;
对所述出现总次数进行降序处理,得到预设方面词类别列表;
根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
2.根据权利要求1所述的主语义分析方法,其特征在于,在所述获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题之前,还包括:
获得所述预设文本的摘选来源;
获得所述预设文本的撰写用户,并分析确定所述撰写用户的撰写身份;
获得所述预设文本的总体字数;
基于所述摘选来源、所述撰写身份、所述总体字数,组成所述基本特征信息。
3.根据权利要求1所述的主语义分析方法,其特征在于,所述对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集,包括:
获得预设停用词;
基于所述预设停用词对所述目标文本集进行遍历,得到目标文本停用词;
获得剔除指令,并根据所述剔除指令剔除所述目标文本集中的所述目标文本停用词,得到剔除结果;
对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集。
4.根据权利要求3所述的主语义分析方法,其特征在于,所述对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集之后,还包括:
提取所述方面词集中的目标方面词;
将所述目标方面词在所述预设文本中遍历,得到目标遍历结果;
判断所述目标遍历结果是否满足预设结果;
若所述目标遍历结果满足所述预设结果,获得第一添加指令;
根据所述第一添加指令,将所述目标方面词添加至所述预设方面词集。
5.根据权利要求4所述的主语义分析方法,其特征在于,所述判断所述目标遍历结果是否满足预设结果,还包括:
若所述目标遍历结果不满足所述预设结果,获得第二添加指令;
根据所述第二添加指令,将所述目标方面词添加至非预设方面词集。
6.根据权利要求1所述的主语义分析方法,其特征在于,所述对所述预设方面词集进行聚类分析得到预设方面词类别集,包括:
提取所述预设方面词集中的目标预设方面词;
对所述目标预设方面词进行分析,并根据分析结果得到目标预设方面词类别;
根据所述目标预设方面词类别对所述预设方面词集进行聚类分析,得到所述预设方面词类别集。
7.根据权利要求2所述的主语义分析方法,其特征在于,包括:
根据所述总体字数获得预设次数阈值;
判断所述出现总次数是否满足所述预设次数阈值,获得判断结果;
根据所述判断结果,对所述预设方面词类别集进行调整。
8.一种基于方面词的主语义分析系统,其特征在于,包括:
确定模块:所述确定模块用于获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;
组成模块:所述组成模块用于采集所述目标主题的文本信息,并组成目标文本集;
构建模块:所述构建模块用于对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;
第一得到模块:所述第一得到模块用于基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;
第二得到模块:所述第二得到模块用于对所述预设方面词集进行聚类分析得到预设方面词类别集;
第三得到模块:所述第三得到模块用于提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;
第四得到模块:所述第四得到模块用于对所述出现总次数进行降序处理,得到预设方面词类别列表;
第五得到模块:所述第五得到模块用于根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
CN202310170278.2A 2023-02-27 2023-02-27 一种基于方面词的主语义分析方法及系统 Active CN115841120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310170278.2A CN115841120B (zh) 2023-02-27 2023-02-27 一种基于方面词的主语义分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310170278.2A CN115841120B (zh) 2023-02-27 2023-02-27 一种基于方面词的主语义分析方法及系统

Publications (2)

Publication Number Publication Date
CN115841120A true CN115841120A (zh) 2023-03-24
CN115841120B CN115841120B (zh) 2023-05-23

Family

ID=85580241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310170278.2A Active CN115841120B (zh) 2023-02-27 2023-02-27 一种基于方面词的主语义分析方法及系统

Country Status (1)

Country Link
CN (1) CN115841120B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
US20130262086A1 (en) * 2012-03-27 2013-10-03 Accenture Global Services Limited Generation of a semantic model from textual listings
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262086A1 (en) * 2012-03-27 2013-10-03 Accenture Global Services Limited Generation of a semantic model from textual listings
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置

Also Published As

Publication number Publication date
CN115841120B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112883734B (zh) 区块链安全事件舆情监测方法及系统
CN113378565B (zh) 多源数据融合的事件分析方法、装置、设备及存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN106776672A (zh) 技术发展脉络图确定方法
KR20210092979A (ko) 가짜 뉴스 인공지능 판별 시스템 및 그 방법
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
CN112818234B (zh) 一种网络舆情信息分析处理方法及系统
CN117520522B (zh) 一种基于rpa和ai结合的智能对话方法、装置及电子设备
CN113420946B (zh) 一种新闻媒体的评价方法
KR20170048736A (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN115841120B (zh) 一种基于方面词的主语义分析方法及系统
CN115630357B (zh) 一种应用程序越界收集个人信息行为的判定方法
CN111767404A (zh) 一种事件挖掘方法和装置
CN111680505A (zh) 一种Markdown特征感知的无监督关键词提取方法
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及系统
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统
CN110147491B (zh) 一种引流信息识别方法和装置
CN113792147A (zh) 基于用户需求预测产品设计参数的方法、装置及设备
CN116341990B (zh) 一种基础设施工程的知识管理评价方法及系统
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN111666765A (zh) 一种基于k-means文本聚类的诈骗话题分析方法和系统
CN110990709A (zh) 角色自动推荐方法、装置及电子设备
Krupalija et al. Usage of user hate speech index for improving hate speech detection in Twitter posts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant