CN115964487A - 基于自然语言的论文标签补充方法、装置及存储介质 - Google Patents
基于自然语言的论文标签补充方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115964487A CN115964487A CN202211657328.1A CN202211657328A CN115964487A CN 115964487 A CN115964487 A CN 115964487A CN 202211657328 A CN202211657328 A CN 202211657328A CN 115964487 A CN115964487 A CN 115964487A
- Authority
- CN
- China
- Prior art keywords
- elements
- tag
- classification
- label
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种基于自然语言的论文标签补充方法、装置、设备及存储介质,属于论文文本处理技术领域,该方法包括:获取待进行标签分类的科技文本资源;使用分层次选择方式进行分类标签选择,并获取分类标签集;基于词性分析方式,对分类标签集中元素进行扩充处理,并获取标签扩充集;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后标签扩充集中剩下的元素作为最终预测集;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中。本申请有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。
Description
技术领域
本申请涉及论文文本处理技术领域,尤其涉及一种基于自然语言的论文标签补充方法、装置、设备及存储介质。
背景技术
随着时代的发展和进步,有许多源源不断的新事物或者新技术被人们所使用,研究学者在对新研究成果或者新事物分类归纳入库研究时,发现科技和科学类论文文本的分类和入库中,现有的分类标签种类已经不满足现有的新知识点。
目前,若再使用现有的分类种类,已经不足以表示对应学术论文的论点中心,因此,需要对现有分类库中标签种类进行优化,现有技术中标签优化采用的方式是通过查找全网点击率排行靠前的新词汇,并获取新出现的词汇,定时对分类库中标签种类进行更新,将新词汇加入到分类库中标签中。但是,这样盲目的加入新标签会造成太多垃圾标签的产生,既占用了分类标签的空间资源,又不能起到分类标签的实质性扩展作用。由此可知,目前在对原有分类标签进行更新维护时,盲目加入新标签,造成新标签扩充不严谨,适用性不强的问题。
发明内容
本申请实施例的目的在于提出一种基于自然语言的论文标签补充方法、装置、设备及存储介质,以解决现有技术中新标签扩充不严谨,适用性不强的问题。
为了解决上述技术问题,本申请实施例提供一种基于自然语言的论文标签补充方法,采用了如下所述的技术方案:
一种基于自然语言的论文标签补充方法,包括:
获取待进行标签分类的科技文本资源;
使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;
基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;
基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;
将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。
进一步的,所述基于预设的层次分层方式将所述科技文本资源分成若干文本片段,包括:基于关键词或者段落标识将所述科技文本资源分成若干部分。
进一步的,所述基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集包括:基于各个文本片段在文本中的不同位置,对不同的文本片段分配不同的分类标签选择方式;对不同的文本片段进行分类标签选择时,先对待分类片段进行分句分词处理,基于预设的分类标签选择阈值,筛选出符合阈值条件的分词作为分类标签集。
进一步的,所述基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,包括:
基于语料库预先生成的词汇参照表,对所述分类标签集中元素进行词性判断;判断所述分类标签集中元素是否为名词结构,若为名词结构将当前元素加入到标签初选集中。
进一步的,所述基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集,包括:以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询;使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。
进一步的,所述基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,包括:基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,若判断所述元素为所述地名、人名或时间进行删除处理,保留剩下的元素构成新的标签扩充集。
进一步的,所述基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素,包括:基于预设的通俗参照表,判断经筛选条件一筛选后的标签扩充集中元素是否存在方言或者非科学性表达方式,若存在,将所述元素进行筛选,将经筛选条件二筛选后的元素重新作为标签扩充集。
为了解决上述技术问题,本申请实施例还提供了一种基于自然语言的论文标签补充装置,采用了如下所述的技术方案:
一种基于自然语言的论文标签补充装置,包括:
文本资源获取模块,用于获取待进行标签分类的科技文本资源;
标签初选择模块,用于使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;
标签扩充模块,用于基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;
标签清洗模块,用于基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;
标签新加入模块,用于将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的一种基于自然语言的论文标签补充方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种非易失性计算机可读存储介质,采用了如下所述的技术方案:
一种非易失性计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的一种基于自然语言的论文标签补充方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了基于自然语言的论文标签补充方法、装置、设备及存储介质,获取待进行标签分类的科技文本资源;使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,通过分层次选择的方式,避免了处理耗时较多的问题,分层次分别处理提高了处理效率,也减少了内存的占用率;基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,通过分类标签进行扩充,选择词性含义相同的词语加入到标签扩充集中,使得标签的可选择性更强;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,通过预设的筛选和判断条件,对标签扩充集进行筛选,筛选出非适用性标签,最后将最终预测集中元素和分类目标空间中的分类标签集中元素进行对比,将出现的新标签加入到分类目标空间的分类标签集中,即做到了结合文本内容对分类标签种类更新,有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性系统架构图;
图2为本申请实施例中所述基于自然语言的论文标签补充方法的一个实施例的流程图;
图3为本申请实施例中基于段落区别标识的拆分处理示意图;
图4为本申请实施例中基于字符转码的拆分处理示意图。
图5为本申请实施例中基于自然语言处理的文本片段拆分处理示意图;
图6为本申请实施例中所述基于自然语言的论文标签补充装置的一个实施例的结构示意图;
图7为本申请实施例中标签初选择模块的结构示意图;
图8为本申请实施例中标签扩充模块的结构示意图;
图9为本申请实施例中标签清洗模块的结构示意图;
图10为本申请实施例中计算机设备的一个实施例的结构示意图;
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Mov i ng Pi cture ExpertsGroup Aud i o Layer I I I,动态影像专家压缩标准音频层面3)、MP4(Mov i ng Picture Experts Group Aud i o Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于自然语言的论文标签补充方法一般由服务器/终端设备执行,相应地,基于自然语言的论文标签补充装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图中示出了本申请的基于自然语言的论文标签补充方法的一个实施例的流程图,所述的基于自然语言的论文标签补充方法包括以下步骤:
步骤201,获取待进行标签分类的科技文本资源。
在本实施例中,所述科技文本资源包括:预先存储到缓存里面的文本或者即时录入的文本内容。
步骤202,使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中所述的分类标签选择步骤包括基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集。
在本申请的一些实施例中,所述步骤202中的基于预设的层次分层方式将所述科技文本资源分成若干文本片段包括:基于关键词或者段落标识将所述科技文本资源分成若干部分。
所述基于关键词将所述科技文本资源分成若干部分,一种可能的实现方式为:将科技文本资源中的题目、作者、摘要、关键词、正文、参考文献和附录等提醒类词作为拆分基准,对整篇文本内容进行拆分,这样就拆成了七部分,对于一些无附录的文本按照题目、作者、摘要、关键词、正文和参考文献拆分为六部分。
所述基于段落标识将所述科技文本资源分成若干部分,一种可能的实现方式为:有些文本前存在段落区别标识,如“[0032]”等此类标识符号,这时为了便于对文本内容拆分,在全文本中获取“[]”符号,并判断其内字符串是否符合正则表达式中的数字表达规则,若符合,则以“[****]”为拆分间隔对文本内容进行拆分,拆分为“****”部分;
具体请参阅图3,图3为本申请实施例中基于段落区别标识的拆分处理示意图,所述基于段落区别标识的拆分处理示意图3中301示出了部分文本的格式,302中示出了文本的拆分过程,303中示出了被拆分后的若干部分片段。
另一种可能的实现方式为:首先对文本内容进行转码处理,因为每一行的最大字符数从左到右固定,因此,将行内从左到右的位置分别用“1”和“0”表示,所述“1”为存在字符标识,“0”表示没行字符标识;这时“0”后第一个“1”对应的字符就表示新的段落,以每一个“0”后出现的第一个“1”对应的字符为拆分位置,拆分成若干部分。
具体请参阅图4,图4为本申请实施例中基于字符转码的拆分处理示意图,所述基于段落区别标识的拆分处理示意图4中401示出了部分文本的整体格式,402中示出了文本的转码过程,403中示出了文本转码后的格式,404中示出了文本的拆分过程,405中示出了文本被拆分后的若干部分片段,406中示出了拆分后的反码过程,407中示出了转码后的文本内容。
在本申请的一些实施例中,所述步骤202中的基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集包括:基于各个文本片段在文本中的不同位置,对不同的文本片段分配不同的分类标签选择方式。
所述基于各个文本片段在文本中的不同位置,对不同的文本片段分配不同的分类标签选择方式,一种可能的实现方式为:假如文本片段按照关键词进行拆分,对于不同关键词为依据的文本片段采用不同的分类标签选择方式,在这里最常用的方式有基于N-Gram的摘要特征选择模型和基于LDA的正文特征选择模型;另一种可能的实现方式为:假如文本片段按照逐段拆分的方式进行拆分,将所有的文本片段都默认为一个单元片段,分别按照基于N-Gram的摘要特征选择模型和基于LDA的正文特征选择模型对每一个单元片段进行选择,将获得的两种模型的输出特征进行比较,若特征结果相同,则直接确定所属单元片段的分类标签,否则,优先选择基于N-Gram的摘要特征选择模型的特征选择结果作为所属单元片段的分类标签,因为单元片段的字数远远小于整体正文的字数,在进行逐段拆分之后与摘要部分相似,因此,这时基于N-Gram的摘要特征选择模型的特征选择结果比较合适。
在本申请的一些实施例中,所述步骤202中的基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集还包括:对不同的文本片段进行分类标签选择时,先对待分类片段进行分句分词处理,基于预设的分类标签选择阈值,筛选出符合阈值条件的分词作为分类标签集。
所述对待分类片段进行分句分词处理,一种可能的实现方式为:基于现有的分句分词工具如NLP的自然语言处理技术,会将整个段落中按照标点符号拆分成不同的句子,再根据句子的语法结构如主语、谓语和宾语拆分为不同的词性片段号,如名词、动词和形容词等,再统计每个词性片段,即其中的名词、动词和形容词等在对应文本片段中的词频率,筛选出出现词频率超过特定次数的词语,将此类词语加入到提前建立的分类标签集合中,一步步的完善所述分类标签集。
具体的参见图5,图5为本申请实施例中基于自然语言处理的文本片段拆分处理示意图,所述基于自然语言处理的文本片段拆分处理示意图5中501示出了待拆分文本片段的格式,502示出了经句法拆分后的文本,503示出了经词性拆分后获得的词语片段,504示出了经预设阈值筛选后的词语,505示出了分类标签集的生成。
所述基于预设的分类标签选择阈值,一种可能的分类标签选择阈值预设方式为:在将文本片段分为句子单位后,一个词语反复在一个句子中出现的概率就大大的降低了,这样使得大部分词语在一个句子中只会出现一次,即一个句子中出现重复词语的概率大大的降低了,这时,只要将每个句子经拆分后的词语进行比较,判断相邻的N个句子中是否同时存在某个词语,若同时存在,则说明在这个文本片段中,该词语的重要性较高,因此选择该词语作为一个表征词语,将其加入到分类标签集中。
步骤203,基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中所述的扩充处理步骤包括基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集。
在本申请的一些实施例中,所述步骤203中的基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集包括:基于语料库预先生成的词汇参照表,对所述分类标签集中元素进行词性判断,判断所述分类标签集中元素是否为名词结构,若为名词结构将当前元素加入到标签初选集中。
所述基于语料库预先生成的词汇参照表,在自然语言语料库中,人们为了便于区分不同词语的特性,会基于每个词语的使用场景将不同的词语进行相同词性整合,代表事物名称的词语如人名、地名等称谓词会被称为名词,由可活动事物发出的动作如搬运、选择等形成的词语称为动词,为了丰富表达的含义常常使用的美丽的、辛苦的等词汇被分为形容词,几乎涵盖了上述所有的词性词语包括的基本表述方式。所述词汇参照表为基于上述几种不同词性分类预先生成的名词表、动词表和形容词表。
所述对所述分类标签集中元素进行词性判断,实质上为基于上述预先设定的名词表、动词表和形容词表对所述分类标签集中元素进行词性判断,判断所述分类标签集中元素为名词、动词或者形容词中哪一种词性。
所述判断所述分类标签集中元素是否为名词结构,若为名词结构将当前元素加入到标签初选集中,因为在科技论文中,其特点主要是表述某一种事物新的生成方法或者研究成果,这时名词通常代表某种被研究的事物,因此,在进行标签选择时,选择名词词性的元素作为标签初选元素,将此类元素加入到标签初选集中,并进行完善,生成标签初选集。
在本申请的一些实施例中,所述步骤203中的基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集包括:以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询,使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。
所述以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询,使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,在进行标签选择时,为了弥补标签初选集中元素的不全面性,将标签初选集中的元素作为查询条件,查询与该元素意思相同的词语,例如,在医学上我们所说的消毒酒精,还有乙醇或者70%~75%的乙醇等表述方式,为了增加标签初选集的实用性和全面性,将同种事物的不同表示方式加入到标签初选集中,直到标签初选集中能扩充的元素都被扩充,生成标签扩充集。
所述标签扩充集包括标签初选集和基于标签初选集中元素进行扩充的元素。
步骤204,基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中所述预设的筛选方式包括基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素。
在本申请的一些实施例中,所述步骤204中的基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,包括:基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,若判断所述元素为所述地名、人名或时间进行删除处理,保留剩下的元素构成新的标签扩充集。
所述筛选条件一,实质上为排除标签扩充集中的无用元素,经过名词选择和扩充处理后,标签扩充集中元素全部都为名词词性元素,此时排除干扰性元素,如地名、人名和时间名词等。
所述预设的地名表、人名表和时间格式,所述地名表,例如,在进行科技论文发表归档时,研究者为了表述常常需要引用或者提及某个地方的某人的研究成果,所述地名表为基于地图进行整合的地方名称;所述人名表中包含不同领域的科学家姓名或者简称;所述时间格式中包含主流的几种时间表达方式如20190101、2019-1-1和国际标准时间表达法等,通过上述地名表、人名表和时间格式,筛选出标签扩充集中的这一类专属元素。
在本申请的一些实施例中,所述步骤204中的基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素包括:基于预设的通俗参照表,判断经筛选条件一筛选后的标签扩充集中元素是否存在方言或者非科学性表达方式,若存在,将所述元素进行筛选,将经筛选条件二筛选后的元素重新作为标签扩充集。
所述筛选条件二,实质上为排除标签扩充集中的非科学性表达元素,例如,在对不同的事物进行表述时,不同地方的人会有不同的表述的方式;或者对于同种事物会有不同的表述方式如碘伏,会被常常称为紫水、碘酒等。但是,在进行科技论文分类时,经常使用碘伏和碘酒作为一种分类标签,而紫水这种表述方式常常被舍弃。因此,在筛选条件二时,是为了将经筛选条件一筛选后的元素通过筛选条件二进行通俗处理,保证标签的科学性。
步骤205,将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。
在本申请的一些实施例中,所述步骤205中的判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,实质上是对分类目标空间中分类标签集的完善和更新,在有新的标签时,将新的标签加入到分类目标空间的分类标签集中,增加了分类标签集中元素的种类和数量,基于论文自身持续对分类目标空间的分类标签集进行更新。
本申请实施例公开了基于自然语言的论文标签补充方法,通过获取待进行标签分类的科技文本资源;使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,通过分层次选择的方式,避免了处理耗时较多的问题,分层次分别处理提高了处理效率,也减少了内存的占用率;基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,通过分类标签进行扩充,选择词性含义相同的词语加入到标签扩充集中,使得标签的可选择性更强;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,通过预设的筛选和判断条件,对标签扩充集进行筛选,筛选出非适用性标签,最后将最终预测集中元素和分类目标空间中的分类标签集中元素进行对比,将出现的新标签加入到分类目标空间的分类标签集中,即做到了结合文本内容对分类标签种类更新,有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序向相关硬件发送指令来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On l y Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序可不必依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图6,作为对上述图2所示方法的实现,本申请提供了一种基于自然语言的论文标签补充装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例所述的基于自然语言的论文标签补充装置6包括:文本资源获取模块601、标签初选择模块602、标签扩充模块603、标签清洗模块604和标签新加入模块605。其中:
文本资源获取模块601,用于获取待进行标签分类的科技文本资源;
标签初选择模块602,用于使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;
标签扩充模块603,用于基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;
标签清洗模块604,用于基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;
标签新加入模块605,用于将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。
在本申请的一些实施例中,如图7,图7为本申请实施例中标签初选择模块的结构示意图,所述标签初选择模块602包括文本片段生成单元602a、文本标签选择单元602b。
在本申请的一些实施例中,所述文本片段生成单元602a用于基于关键词或者段落标识将所述科技文本资源分成若干部分。
在本申请的一些实施例中,所述文本标签选择单元602b用于基于各个文本片段在文本中的不同位置,对不同的文本片段分配不同的分类标签选择方式;对不同的文本片段进行分类标签选择时,先对待分类片段进行分句分词处理,基于预设的分类标签选择阈值,筛选出符合阈值条件的分词作为分类标签集。
在本申请的一些实施例中,如图8,图8为本申请实施例中标签扩充模块的结构示意图,所述标签扩充模块603包括标签初选集生成单元603a、标签扩充集生成单元603b。
在本申请的一些实施例中,所述标签初选集生成单元603a用于基于语料库预先生成的词汇参照表,对所述分类标签集中元素进行词性判断;判断所述分类标签集中元素是否为名词结构,若为名词结构将当前元素加入到标签初选集中。
在本申请的一些实施例中,所述标签初选集生成单元603b用于以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询;使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。
在本申请的一些实施例中,如图9,图9为本申请实施例中标签清洗模块的结构示意图,所述标签清洗模块604包括筛选条件一604a、筛选条件二604b。
在本申请的一些实施例中,所述标签清洗模块604在基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,具体用于基于筛选条件一有效排除标签扩充集中的特定称谓名词,基于筛选条件二有效排除标签扩充集中的通俗表述词。
在本申请的一些实施例中,所述筛选条件一604a,用于基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,若判断所述元素为所述地名、人名或时间进行删除处理,保留剩下的元素构成新的标签扩充集。
在本申请的一些实施例中,所述筛选条件二604b,用于基于预设的通俗参照表,判断经筛选条件一筛选后的标签扩充集中元素是否存在方言或者非科学性表达方式,若存在,将所述元素进行筛选,将经筛选条件二筛选后的元素重新作为标签扩充集。
本申请实施例所述的基于自然语言的论文标签补充装置,通过获取待进行标签分类的科技文本资源;使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,通过分层次选择的方式,避免了处理耗时较多的问题,分层次分别处理提高了处理效率,也减少了内存的占用率;基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,通过分类标签进行扩充,选择词性含义相同的词语加入到标签扩充集中,使得标签的可选择性更强;将最终预测集中元素和分类目标空间中的分类标签集中元素进行对比,将出现的新标签加入到分类目标空间的分类标签集中,即做到了结合文本内容对分类标签种类更新,有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备10包括通过系统总线相互通信连接存储器10a、处理器10b、网络接口10c。需要指出的是,图中仅示出了具有组件10a-10c的计算机设备10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(App l icat i on Spec i f i c I ntegrated Ci rcu it,AS I C)、可编程门阵列(F i e l d-Programmab l eGate Array,FPGA)、数字处理器(D i gita l S i gna l Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器10a至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器10a可以是所述计算机设备10的内部存储单元,例如该计算机设备10的硬盘或内存。在另一些实施例中,所述存储器10a也可以是所述计算机设备10的外部存储设备,例如该计算机设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器10a还可以既包括所述计算机设备10的内部存储单元也包括其外部存储设备。本实施例中,所述存储器10a通常用于存储安装于所述计算机设备10的操作系统和各类应用软件,例如基于自然语言的论文标签补充方法的程序代码等。此外,所述存储器10a还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器10b在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10b通常用于控制所述计算机设备10的总体操作。本实施例中,所述处理器10b用于运行所述存储器10a中存储的程序代码或者处理数据,例如运行所述基于自然语言的论文标签补充方法的程序代码。
所述网络接口10c可包括无线网络接口或有线网络接口,该网络接口10c通常用于在所述计算机设备10与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有基于自然语言的论文标签补充程序,所述基于自然语言的论文标签补充程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于自然语言的论文标签补充方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (8)
1.一种基于自然语言的论文标签补充方法,其特征在于,包括下述步骤:
获取待进行标签分类的科技文本资源;
使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中所述的分类标签选择步骤包括基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;
基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中所述的扩充处理步骤包括基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;
基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中所述预设的筛选方式包括基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;
将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中所述分类目标空间包括已经分类完成的若干文本资源和若干标签种类。
2.根据权利要求1所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的层次分层方式将所述科技文本资源分成若干文本片段,包括:
基于关键词或者段落标识将所述科技文本资源分成若干部分。
3.根据权利要求2所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集,包括:
以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询;
使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。
4.根据权利要求3所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,包括:
基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,若判断所述元素为所述地名、人名或时间进行删除处理,保留剩下的元素构成新的标签扩充集。
5.根据权利要求4所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素,包括:
基于预设的通俗参照表,判断经筛选条件一筛选后的标签扩充集中元素是否存在方言或者非科学性表达方式,若存在,将所述元素进行筛选,将经筛选条件二筛选后的元素重新作为标签扩充集。
6.一种基于自然语言的论文标签补充装置,其特征在于,包括:
文本资源获取模块,用于获取待进行标签分类的科技文本资源;
标签初选择模块,用于使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;
标签扩充模块,用于基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;
标签清洗模块,用于基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;
标签新加入模块,用于将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于自然语言的论文标签补充方法的步骤。
8.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于自然语言的论文标签补充方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657328.1A CN115964487A (zh) | 2022-12-22 | 2022-12-22 | 基于自然语言的论文标签补充方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657328.1A CN115964487A (zh) | 2022-12-22 | 2022-12-22 | 基于自然语言的论文标签补充方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115964487A true CN115964487A (zh) | 2023-04-14 |
Family
ID=87362646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211657328.1A Pending CN115964487A (zh) | 2022-12-22 | 2022-12-22 | 基于自然语言的论文标签补充方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964487A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222147A (zh) * | 2019-05-15 | 2019-09-10 | 北京百度网讯科技有限公司 | 标签扩充方法、装置、计算机设备及存储介质 |
CN110781297A (zh) * | 2019-09-18 | 2020-02-11 | 国家计算机网络与信息安全管理中心 | 基于层次判别树的多标签科研论文的分类方法 |
CN111143568A (zh) * | 2019-12-31 | 2020-05-12 | 郑州工程技术学院 | 一种论文分类时的缓冲方法、装置、设备及存储介质 |
CN113220872A (zh) * | 2021-02-08 | 2021-08-06 | 民生科技有限责任公司 | 一种文档标签生成方法、系统及可读存储介质 |
CN113268614A (zh) * | 2021-05-25 | 2021-08-17 | 平安银行股份有限公司 | 标签体系更新方法、装置、电子设备及可读存储介质 |
CN114912448A (zh) * | 2022-07-15 | 2022-08-16 | 山东海量信息技术研究院 | 一种文本扩展方法、装置、设备及介质 |
CN115455271A (zh) * | 2022-08-30 | 2022-12-09 | 北京奇艺世纪科技有限公司 | 基于搜索查询词的标签生成方法、装置、设备及存储介质 |
CN115481255A (zh) * | 2022-10-14 | 2022-12-16 | 上海浦东发展银行股份有限公司 | 一种多标签文本分类方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-22 CN CN202211657328.1A patent/CN115964487A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222147A (zh) * | 2019-05-15 | 2019-09-10 | 北京百度网讯科技有限公司 | 标签扩充方法、装置、计算机设备及存储介质 |
CN110781297A (zh) * | 2019-09-18 | 2020-02-11 | 国家计算机网络与信息安全管理中心 | 基于层次判别树的多标签科研论文的分类方法 |
CN111143568A (zh) * | 2019-12-31 | 2020-05-12 | 郑州工程技术学院 | 一种论文分类时的缓冲方法、装置、设备及存储介质 |
CN113220872A (zh) * | 2021-02-08 | 2021-08-06 | 民生科技有限责任公司 | 一种文档标签生成方法、系统及可读存储介质 |
CN113268614A (zh) * | 2021-05-25 | 2021-08-17 | 平安银行股份有限公司 | 标签体系更新方法、装置、电子设备及可读存储介质 |
CN114912448A (zh) * | 2022-07-15 | 2022-08-16 | 山东海量信息技术研究院 | 一种文本扩展方法、装置、设备及介质 |
CN115455271A (zh) * | 2022-08-30 | 2022-12-09 | 北京奇艺世纪科技有限公司 | 基于搜索查询词的标签生成方法、装置、设备及存储介质 |
CN115481255A (zh) * | 2022-10-14 | 2022-12-16 | 上海浦东发展银行股份有限公司 | 一种多标签文本分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
US20120158742A1 (en) | Managing documents using weighted prevalence data for statements | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111160007B (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
CN113343108B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111813905A (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN112417121A (zh) | 客户意图识别方法、装置、计算机设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN116755688A (zh) | 组件处理方法、装置、计算机设备及存储介质 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 | |
CN112632962B (zh) | 人机交互系统中实现自然语言理解方法和装置 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN115964487A (zh) | 基于自然语言的论文标签补充方法、装置及存储介质 | |
CN115796160B (zh) | 基于词法词缀的论文冗余数据清洗方法、装置及存储介质 | |
CN115495541B (zh) | 语料数据库、语料数据库的维护方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |