CN111191011A - 一种文本标签的搜索匹配方法、装置、设备及存储介质 - Google Patents

一种文本标签的搜索匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111191011A
CN111191011A CN201911418221.XA CN201911418221A CN111191011A CN 111191011 A CN111191011 A CN 111191011A CN 201911418221 A CN201911418221 A CN 201911418221A CN 111191011 A CN111191011 A CN 111191011A
Authority
CN
China
Prior art keywords
text
test
label
labels
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911418221.XA
Other languages
English (en)
Other versions
CN111191011B (zh
Inventor
许爽
周铜
魏柯
赵冰
庞进丽
吴青娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Institute of Technology
Original Assignee
Zhengzhou Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Institute of Technology filed Critical Zhengzhou Institute of Technology
Priority to CN201911418221.XA priority Critical patent/CN111191011B/zh
Publication of CN111191011A publication Critical patent/CN111191011A/zh
Application granted granted Critical
Publication of CN111191011B publication Critical patent/CN111191011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本标签的搜索匹配方法、装置、设备及存储介质,属于文本信息处理技术领域,该方法包括:获取参照集和测试集;对测试集中每个测试文本进行特征选择,将特征选择结果作为预测标签集,获取预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;基于获取的权重值,使用增量式选择模型分别获取测试文本中所有标签的余弦相似度量,并获取满足余弦相似度量阈值的标签作为测试文本标签匹配集的一个匹配结果;利用循环迭代的方式,获取预测标签集所有满足预设的标签余弦相似度量阈值的标签,组成测试文本的标签匹配集,本申请有效提高文本标签匹配的效率,节省了大量的标签匹配时间,方便文本的快速归档。

Description

一种文本标签的搜索匹配方法、装置、设备及存储介质
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种文本标签的搜索匹配方法、装置、设备及存储介质。
背景技术
互联网的迅猛发展,给人们的生活带来了极大的便利,随之而来的是各种资源以指数形式迅速增长,科技论文资源也大量涌现在网络中,造成了人们获取过程中的信息过载。科技论文越来越成为教育工作者、学生进行科学研究的重要来源。科技论文是对某个科学领域中的学术问题进行研究后表述科学研究成果的理论文章,具有科学性、创造性、理论性、平易性、专业性、实践性等特点。目前,在对科技论文进行分类搜索时,论文的分类搜索是一个瓶颈问题,很多人依据分类树进行搜索。但是,分类树具有多层次特性,标签数量较多,当对新的科技论文资源进行分类时,需搜索大量的分类标签,且往往一篇论文对应多个标签。由此可知,现有技术对文本进行标签确定时,较为繁琐,具有耗费大量的搜索匹配时间的问题。
发明内容
本申请实施例的目的在于提出一种文本标签的搜索匹配方法、装置、设备及存储介质,以解决现有技术中对文本进行标签确定时,较为繁琐,具有耗费大量的搜索匹配时间的问题。
为了解决上述技术问题,本申请实施例提供一种文本标签的搜索匹配方法,采用了如下所述的技术方案:
一种文本标签的搜索匹配方法,包括:
获取参照集和测试集,
其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的测试文本(n、m为正整数);
对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,
其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
进一步的,所述文本标签的搜索匹配方法,所述对所述测试集中测试文本分别进行特征选择之前还包括:
基于预先设定的关键词,对测试集中每个测试文本进行拆分处理,获取拆分出的摘要部分、正文部分和参考文献部分。
进一步的,所述文本标签的搜索匹配方法,所述对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择包括:
基于
Figure DEST_PATH_IMAGE001
模型进行摘要特征选择,基于LDA模型进行正文特征选择,基于预设的文献特征选择模型进行参考文献特征选择。
进一步的,所述文本标签的搜索匹配方法,所述基于预设的文献特征选择模型进行参考文献特征选择包括:
基于预设的文献特征选择模型,对所述测试文本进行文本引用特征选择。
进一步的,所述文本标签的搜索匹配方法,所述基于预设的文献特征选择模型对所述测试文本进行文本引用特征选择包括:
基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数;
基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征。
进一步的,所述文本标签的搜索匹配方法,所述基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数的步骤包括:
基于标点符号,进行字段分割,获取所述测试文本参考文献部分中参考文献的名称,并生成参考文献集;
基于所述参考文献集,获取所述参考文献集中参考文献在参照集中被参照文本引用的总次数;
基于所述参考文献集,筛选出参照集中同时引用至少两篇所述参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集;
基于所述参考文献集中参考文献在参照集中被参照文本引用的总次数和所述文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数;
判断所述测试文本和所述文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定所述测试文本和参照集中参照文本间文本引用参考距离系数。
进一步的,所述文本标签的搜索匹配方法,所述增量式选择模型的步骤包括:
获取预测标签集中的标签在参照集中的权重值之前,基于获取的标签名,判断所述标签是否已经在参照集中获取过权重值,
若已获取,直接将所述标签的历史权重值作为测试文本中相同标签的权重值,否则,基于余弦相似度算法对所述标签进行权重值计算。
为了解决上述技术问题,本申请实施例还提供了一种文本标签的搜索匹配装置,采用了如下所述的技术方案:
一种文本标签的搜索匹配装置,包括:
数据采集模块,用于获取参照集和测试集,其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的测试文本(n、m为正整数);
特征选择模块,用于对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
权重获取模块,用于基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
标签匹配模块,用于基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
标签集生成模块,用于利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的一种文本标签的搜索匹配方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种非易失性计算机可读存储介质,采用了如下所述的技术方案:
一种非易失性计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的一种文本标签的搜索匹配方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了文本标签的搜索匹配方法、装置、设备及存储介质,
通过对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;本申请中分别对摘要部分、正文部分和参考文献部分进行特征选择,将特征选择的结果作为预测标签集,缩小了文本标签的搜索匹配范围,一定程度上提高了文本标签匹配的准确性;
基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;本申请中分别获取标签在测试文本中的权重值和参照集中的权重值,基于获取的权重值结果,能有效确定预测标签集在测试文本和参照集中的重要性,方便了非重要标签的剔除,保证了在进行文本标签选择时的准确性;
基于标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将标签作为所述测试文本的标签匹配集中的一个目标匹配结果;本申请中的增量式选择模型,先判断参照集中已存在的标签是否与预测标签集的标签相同,若相同,直接使用参照集中该标签的余弦相似度量作为测试文本中该标签的余弦相似度量,节省了标签匹配时相似度计算的时间;
本申请中基于预设的文献特征选择模型进行文献特征获取,缩小了文本标签确定时的匹配范围,只在相同或者相似技术领域进行标签匹配,一定程度上减少了文本标签匹配时所消耗的时间,因此,本申请中的文本标签的搜索匹配方法有效提高了文本标签搜索的效率,节省了大量的标签匹配时间,方便文本的快速归档。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性系统架构图;
图2为本申请实施例中所述文本标签的搜索匹配方法的一个实施例的流程图;
图3为本申请实施例中测试文本的文本拆分示意图;
图4为本申请实施例中
Figure 736427DEST_PATH_IMAGE001
模型的处理示意图;
图5为本申请实施例中LDA模型的处理示意图;
图6为本申请实施例中预设的文献特征选择模型进行文本引用特征选择时的处理示意图;
图7为本申请实施例中预设的文献特征选择模型进行作者共现特征选择时的处理示意图;
图8为本申请实施例中预测标签集中标签在参照集中余弦相似度量的计算示意图;
图9为本申请实施例中增量式选择模型的处理示意图;
图10为本申请实施例的文本标签的搜索匹配装置图;
图11为本申请实施例中特征选择模块的结构示意图;
图12为本申请实施例中权重获取模块的结构示意图;
图13为本申请实施例中计算机设备的一个实施例的结构示意图;
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的文本标签的搜索匹配方法一般由服务器/终端设备执行,相应地,文本标签的搜索匹配装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图中示出了本申请的文本标签的搜索匹配方法的一个实施例的流程图,所述的文本标签的搜索匹配方法包括以下步骤:
步骤201,获取参照集和测试集,其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的测试文本(n、m为正整数)。
在本实施例中,所述获取参照集和测试集的具体方式包括:可以从缓存里面获取,该缓存由用户提前将文档集保存在存储装置里,如数据库中,在进行文档标签搜索匹配时,默认将已经标签分类完成的文档集作为参照集,将未经过标签匹配的文档集作为测试集,然后直接从数据库中进行获取;也可以从一些标签分类平台中抓取,在抓取时将已经标签分类完成的文档作为参照集,将未经过标签匹配的文档或者新论文作为测试集。
在本申请的一些实施例中,所述步骤201中的获取参照集包括:将参照集中的每个文本作为一个参照文本。
步骤202,对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择。
在本实施例中,将测试集中的每一个文本都作为一个测试文本,将每一个测试文本进行特征选择后的结果作为该测试文本的预测标签集,即测试文本的标签最终匹配结果是从这个预测标签集中产生的。
在本申请的一些实施例中,所述步骤202中的对所有测试文本分别进行特征选择之前包括:基于预先设定的关键词,对测试集中每个测试文本进行拆分处理,获取拆分出的摘要部分、正文部分和参考文献部分。
所述基于预先设定的关键词,对测试集中每个测试文本进行拆分处理,例如,预先设定的关键词“摘要”、“引言”和“参考文献”,在实际的科技论文书写中,会有“摘要”、“关键词”、“引言”、“正文”和“参考文献”等标识词,在本申请中基于这些关键词对文本进行拆分,一种可能的拆分方式:将“摘要”和“关键词”之间的语句作为摘要部分;将“引言”和“参考文献”之间的部分作为正文部分;将“参考文献”后面的部分作为参考文献部分,使用的拆分方式为常用的字符串拆分,即在获取到这些关键词时,分别获取满足拆分条件的语句。
具体请参阅图3,图3为本申请实施例中测试文本的文本拆分示意图,所述测试文本的文本拆分示意图3,图中301示出了一种论文文本的格式,图中301a示出了上述论文文本的格式中的关键词“摘要”,图中301b示出了上述论文文本的格式中的关键词“引言”, 图中301c示出了上述论文文本的格式中的关键词“参考文献”,将论文文本分别以“摘要”、“引言”和“参考文献”作为拆分依据进行字符串拆分,拆分出摘要部分、正文部分和参考文献部分。图中302示出了拆分后的摘要部分,图中303示出了拆分后的正文部分,图中304示出了拆分后的参考文献部分。
在本申请的一些实施例中,所述步骤202中的所述对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择包括:基于
Figure 780476DEST_PATH_IMAGE001
模型进行摘要特征选择,基于LDA模型进行正文特征选择,基于预设的文献特征选择模型进行参考文献特征选择。
在本申请的一些实施例中,所述步骤202中的基于
Figure 412445DEST_PATH_IMAGE001
模型进行摘要特征选择包括:基于
Figure 64006DEST_PATH_IMAGE001
模型对摘要部分中的语句片段,进行分词处理,并基于分词结果统计每一个分词出现的概率,获取满足设定阈值的分词,作为摘要特征。
所述的基于
Figure 299203DEST_PATH_IMAGE001
模型进行摘要特征选择为是由N个词组成的串,可以称为N元组,或N元词串。N元语法模型是在
Figure 632096DEST_PATH_IMAGE001
基础上建立的语言模型。
N元语法模型是基于一个假设,单词出现的概率只与前面的N-1个单词有关,即:
Figure 180889DEST_PATH_IMAGE002
。当N=1的时候是一元语法模型,是一个词频表,给出每个词出现的频率;当N=2的时候是二元语法模型,是一个转移矩阵,给出每个词后面出现另一个词的概率;当N=3的时候是三元语法模型,是一个三维转移矩阵,给出每一对词后面出现另一个词的概率。
例如:文本A,A为“浅析石墨烯材料带来轮胎技术的新变革,包含摘要部分,摘要部分如下:主要介绍石墨烯材料在轮胎方面的应用.石墨烯属于一种新型的碳材料,其具备突出的导热、导电以及力学性能,可用于轮胎、橡胶、涂料以及电子器件等多个领域.石墨烯材料的有效应用可以在轮胎的胎面、胎侧以及三角胶等多个部位实现质量改进,促使轮胎的性能显著优化,同时轮胎的使用寿命也可以得到有效提高.对此,为了更好的推动轮胎生产技术持续发展,分析石墨烯材料带来轮胎技术新变革,希望可以借助本次研究为相关工作者提供理论性帮助”。
首先,对摘要中的语句片段,进行分词处理:一种可能的语句片段分割方式,将上述摘要文本按照标点符号;使用
Figure 455881DEST_PATH_IMAGE001
模型中的分词器,分为不同的语句片段;对每一个语句片段(例如:“石墨烯属于一种新型的碳材料”)进行分词处理,分为“石墨烯/属于/一种/新型/的/碳材料”。
然后,对摘要分词后的片段或者词段,分别进行概率统计:一种可能的概率统计方式:3-Gram,三元标注器即Tri-Gram,具体的概率算法公式:
Figure 660597DEST_PATH_IMAGE002
;统计每一个分词,占摘要总分词的概率,选择出现概率超过设定阈值,或者出现次数超过设定次数的分词,作为摘要特征。
具体请参阅图4,图4为本申请实施例中
Figure 859498DEST_PATH_IMAGE001
模型的处理示意图,所述
Figure 449748DEST_PATH_IMAGE001
模型的处理示意图4,所述
Figure 708691DEST_PATH_IMAGE001
模型的处理示意图4包括步骤如下:
401、将摘要部分通过
Figure 463020DEST_PATH_IMAGE001
模型进行分句处理;
在本实施例中一种可能的分句处理包括:在进行分句处理时,基于标点符号对摘要部分的内容进行拆分,将摘要部分拆分成一个个句子。
402、基于自带的分词器将分句后的句子进行分词处理,获取拆分后的词段;
在本实施例中一种可能的分词处理包括:在对句子进行分词处理时,基于句子中词语的词性,例如“石墨烯/属于/一种/新型/的/碳材料”,将句子中的名词、动词、量词和形容词等词性作为拆分标准对句子进行拆分,获取拆分后的词段。
403、通过模型算法对分词后的词段进行概率获取;
在本实施例中一种可能的概率获取方式包括:选择分词处理后的一个词段作为对比词段,将分词处理后获取的词段组成词段集,通过公式
Figure 137715DEST_PATH_IMAGE002
获取每一个词段在词段集中的概率值。
其中,
Figure DEST_PATH_IMAGE003
表示某个词段在词段集的概率值,所述词段集可以是整个摘要中词段组成的,也可以是与测试词段相邻的n个词段组成的,例如:将测试词段和其前10个词段、后9个词段组成词段集,即获取测试词段在这20个词段中出现的概率。
404、基于预设的概率阈值,获取满足预设的阈值的词段;
在本实施例中一种可能的阈值判断方式包括:假设摘要部分中的词段,只将与其相邻的19个词段作为词段集,预设的概率阈值为0.2,进行概率值计算,当概率值满足设定的阈,0.2时,即在词段集的20个词段中,出现次数达到4次,该词段满足预设的概率阈值。
405、将满足预设阈值的词段组成摘要特征集。
在本申请的一些实施例中,所述步骤202中的基于LDA模型进行正文特征选择包括:将测试文本的正文部分划分为k个主题,统计各个主题部分在正文部分中的概率{
Figure 848051DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 215578DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 381505DEST_PATH_IMAGE008
},k为正整数,进行判断,筛选出满足预设期望值a的主题进行词语筛选,筛选出满足预设期望值b的词语生成正文特征集。
所述LDA模型为:在自然语言处理中,隐含狄利克雷分布(Latent DirichletAllocation, LDA)是一种文档主题生成模型,可以给出每篇文档的主题分布以及每个主题对应词的分布。LDA对于每个主题都能找到一些词语来表示,同时LDA也是一种无监督的学习算法,在构建特征时无需参照数据,只需要给文档集合和指定主题的个数k便可。
所述基于LDA模型进行正文特征选择具体的实现方式包括如下步骤:
将文档Data1中的正文部分划分为K个主题,K个主题的比例方式遵循狄克雷利分布(LDA);
统计当前各个主题在测试文本部分中的出现的概率,使用LDA筛选方法在每个主题中筛选出占比超过设定阈值的词段作为该主题的预设正文特征;
若存在相同正文特征在多个主题中被筛选,筛选出主题占正文比例较大,同时词段占主题比例较大的词段作为文档的正文特征;
Figure DEST_PATH_IMAGE009
实质上:对于文档Data1,从狄利克雷分布
Figure 859891DEST_PATH_IMAGE010
中抽取生成Data1的文档主题分布
Figure DEST_PATH_IMAGE011
;从被抽到的文档主题的多项分布式
Figure 627996DEST_PATH_IMAGE011
中抽取生成文档Data1的第j个词的词主题
Figure 963162DEST_PATH_IMAGE012
;从狄利克雷分布
Figure DEST_PATH_IMAGE013
中抽取生成文档主题部分的词语分布
Figure 879034DEST_PATH_IMAGE014
;从词语的多项分布式筛选出词语;
在主题筛选时,筛选超过设定阈值的主题进行词语筛选,在词语筛选时,筛选出超过设定阈值的词语作为正文特征,组成正文特征集。
例如:在进行LDA进行多项式分布取值时,遵循期望值在[0,1]之间,假设选择主题多项式分布期望值大于等于0.8的主题进行词语筛选;说明在进行筛选时,需要剔除一些占比弱的主题,然后,在上述被选择的主题下,进行词语多项分布筛选,筛选出词语分布期望值大于0.9的词语作为正文的特征,组成测试文本的正文标签集。
具体请参阅图5,图5为本申请实施例中LDA模型的处理示意图,所述LDA模型的处理示意图5,所述LDA模型的处理示意图5包括步骤如下:
501、从LDA模型的主题类别中,随机抽取k个主题作为测试文本正文部分的预设主题;
其中,k为正整数,k值可以为任意正整数值,为了保证主题确定的准确性,一般将k值确定为10个至20个;
502、基于分词工具,对测试文本的正文部分进行分词处理,获取分词结果;
在本实施例中一种可能的分词方式包括:使用stanfordULP分词工具,将正文部分划分为一个个词语,假设正文部分中有句子“计算机在人类发展中起到了重要的作用”,分词工具会将该句划分为“计算机”、“人类”、“发展”、“起到”、“重要”和“作用”等词语,依次对正文部分中的句子进行分词处理,获取分词结果,即获取测试文本正文部分分词后的所有词语。
503、基于主题的dirichlet先验分布,获取每一个主题在dirichlet先验分布中的概率;
在本实施例中一种可能的主题先验分布获取方式包括:dirichlet先验分布中获取了k个主题的分布概率,分别为0.05、0.01、0.05、0.09、0.20、0.30、0.10、0.10、0.01、0.01、0.01、0.01、0.02、0.02、0.02,k个主题的分布概率为LDA模型随机生成,满足主题概率之和为1;
504、从LDA模型的主题类别中,获取每个主题下对应的词分布;
在本实施例中一种可能的词分布获取方式包括:将测试文本划分为15个主题,分别为石墨烯、氯气、铁、沸点、气体、金融、软件、java、iPhone、华硕、时间、数量、化学、仪器、实验;基于隐含狄利克雷分布LDA,获取每个主题下对应的词的分布,即属于该主题的词语的分布概率,假设词语“计算机”,既属于“金融”主题,也属于“软件”和“华硕”主题,不同点是,在不同的主题下,“计算机”对应的词分布概率不同。
505、将分词结果作为测试词,获取每个分词在不同预设主题的分布概率;
在本实施例中一种可能的词概率获取包括:主题“时间”中词“2018”的分布概率0.3,主题“时间”在测试文本正文部分中的概率分部为0.01,具体的算法公式如下:
Figure 895532DEST_PATH_IMAGE009
,其中,w表示文档,z表示主题,θ表示词,上述公式表示在文档w中,第i主题z下,第j个词θ的概率,假设当前测试文本为w,第i个主题w为“时间”,主题“时间”下的第j个词θ为“2018”,则上述算法公式计算出2018作为时间标识在测试文本中的概率。
506、基于每个分词在不同预设主题的分布概率和主题的先验分布概率,筛选出满足预设阈值的主题,作为测试文本正文部分的特征。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型进行参考文献特征选择包括:基于预设的文献特征选择模型,对所述测试文本进行文本引用特征选择。
例如:在论文的书写中,往往需要引用多篇相关文献,被引用的文献和进行引用的文献在标签选择上会相似或者相同,若多篇文章同时引用了相同的参考文献或者多篇文章,则进行同时引用相同文献的文章,对应的标签类型相似或者相同,因此,在该步骤中,通过参考文献筛选出与测试文本进行同时引用的文本,获取此类文本的标签,作为测试文本的文本引用特征。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型对所述测试文本进行文本引用特征选择包括步骤如下:
基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数;
基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和参考距离系数包括步骤如下:
基于标点符号,进行字段分割,获取所述测试文本参考文献部分中参考文献的名称,并生成参考文献集;
基于所述参考文献集,获取所述参考文献集中参考文献在参照集中被参照文本引用的总次数;
基于所述参考文献集,筛选出参照集中同时引用至少两篇所述参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集;
基于所述参考文献集中参考文献在参照集中被参照文本引用的总次数和所述文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数;
判断所述测试文本和所述文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定所述测试文本和参照集中参照文本间文本引用参考距离系数。
在本申请的一些实施例中,所述步骤202中的基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征包括:
基于所述文本引用共现指数和所述文本引用参考距离系数,获取参照集中满足所述测试文本的文本引用特征值阈值的参照文本,组成文本引用特征集,并获取所述文本引用特征集中参照文本的标签集,作为测试文本的文本引用特征。
具体请参阅图6,图6为本申请实施例中预设的文献特征选择模型进行文本引用特征选择时的处理示意图,所述预设的文献特征选择模型进行文本引用特征选择时的处理示意图6,所述预设的文献特征选择模型进行文本引用特征选择时的处理示意图6包括如下:获取测试文本参考文献部分中参考文献的名称,并生成参考文献集,获取参考文献集中参考文献在参照集中被参照文本引用的总次数,筛选出参照集中同时引用至少两篇参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集,基于参考文献集中参考文献在参照集中被参照文本引用的总次数和文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数,判断测试文本和文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定测试文本和参照集中参照文本间参考距离系数,获取参照集中满足测试文本的文本引用特征值阈值的参照文本,组成文本引用特征集,并获取文本引用特征集中参照文本的标签,组成标签集,将标签集中元素作为测试文本的文本引用特征。
在本实施例中一种可能的文本引用共现指数
Figure DEST_PATH_IMAGE015
获取方式包括:获取参照集中引用所述参考文献集中文本的参照文本总数,记为N,统计所述文本引用预选集中文本总数,记为M,获取作者共现指数
Figure 580460DEST_PATH_IMAGE016
在本实施例中一种可能的文本引用参考距离系数
Figure DEST_PATH_IMAGE017
获取方式包括:在进行文本引用参考距离系数获取时,判断测试文本与所述文本引用预选集中文本是否存在直接引用关系,若存在,则确定文本引用参考距离系数
Figure 24211DEST_PATH_IMAGE017
为1,否则文本引用参考距离系数
Figure 418590DEST_PATH_IMAGE017
Figure 238779DEST_PATH_IMAGE018
在本实施例中一种可能的文本引用共现特征值
Figure DEST_PATH_IMAGE019
获取方式包括:获取文本引用参考距离系数,并获取其反比例函数,记为
Figure 778213DEST_PATH_IMAGE020
,则文本引用特征值
Figure 720761DEST_PATH_IMAGE019
=
Figure 96379DEST_PATH_IMAGE015
×
Figure 516996DEST_PATH_IMAGE020
;若文本引用特征值
Figure 645358DEST_PATH_IMAGE019
满足预设的阈值,则获取文本引用预选集中与测试文本存在直接引用的文本,获取此类文本的标签,作为测试文本的文本引用特征。
在本实施例中一种可能的文本引用特征值预设阈值设定方式包括:若文本引用特征值
Figure 962070DEST_PATH_IMAGE019
与作者共现指数
Figure 605410DEST_PATH_IMAGE015
相同,满足预设的阈值。
在本实施例中另一种可能的文本引用特征值预设阈值设定方式包括:若文本引用特征值
Figure 298559DEST_PATH_IMAGE019
趋于0,满足预设的阈值。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型进行参考文献特征选择还包括:基于预设的文献特征选择模型,对所述测试文本进行作者共现特征选择。
例如:在文本间的参考文献引用关系中,也包括作者共现的情况,即两篇文本引用了一个作者发表的文本,可能引用的不是同一篇文本,但是作者发表文本的领域,往往是同一个领域。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型,对所述测试文本进行作者共现特征选择还包括:
基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的作者共现指数和作者共现参考距离系数;
基于所述作者共现指数和作者共现参考距离系数,获取所述测试文本的作者共现特征。
在本申请的一些实施例中,所述步骤202中的基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的作者共现指数和作者共现参考距离系数包括步骤如下:
基于预设的拆分格式,获取测试文本参考文献部分中的作者标识,并生成作者标识集;
基于所述作者标识集,获取参照集中引用所述作者标识集中作者文本的参照文本总数和名称,将获取的参照文本组成作者共现预选集;
从作者共现预选集中,筛选出每一篇参照文本参考文献的作者标识,与作者标识集中作者标识进行对比,获取至少有两位作者标识与作者标识集中作者标识相同的文本,作为作者共现参照集,并统计所述作者共现参照集中文本总数;
基于所述作者共现预选集中文本总数和所述作者共现参照集中文本总数,获取作者共现指数;
判断所述作者共现参照集中文本与测试文本间是否存在互相引用关系,基于判断结果,获取测试文本与参照集文本的作者共现参考距离系数。
在本申请的一些实施例中,所述步骤202中的基于所述作者共现指数和作者共现参考距离系数,获取所述测试文本的作者共现特征包括:
基于所述作者共现指数和所述作者共现参考距离系数,获取作者共现参照集中满足所述测试文本的作者共现特征值阈值的文本,组成作者共现特征集,并获取所述作者共现特征集中文本的标签,组成标签集,将标签集中元素作为测试文本的作者共现特征。
具体请参阅图7,图7为本申请实施例中预设的文献特征选择模型进行作者共现特征选择的处理示意图,所述预设的文献特征选择模型进行作者共现特征选择的处理示意图7,所述预设的文献特征选择模型进行作者共现特征选择的处理示意图7包括如下:获取测试文本中参考文献部分的作者标识,将作者标识作为元素组成作者标识集;获取参照集中引用作者标识集中作者文本的参照文本总数和名称,将获取的参照文本组成作者共现预选集;获取至少有两位作者标识与作者标识集中作者标识相同的文本,作为作者共现参照集,并统计作者共现参照集中文本总数,基于作者共现预选集中文本总数和作者共现参照集中文本总数,获取作者共现指数,然后判断作者共现参照集中文本与测试文本间是否存在互相引用关系,基于判断结果,获取测试文本与参照集文本的作者共现参考距离系数;基于作者共现指数和作者共现参考距离系数,获取作者共现参照集中满足测试文本的作者共现特征值阈值的文本,组成作者共现特征集,并获取作者共现特征集中文本的标签,组成标签集,将标签集中元素作为测试文本的作者共现特征。
在本实施例中一种可能的作者共现指数
Figure DEST_PATH_IMAGE021
获取方式包括:获取参照集中引用所述作者标识集中作者文本的参照文本总数,记为N,统计所述作者共现参照集中文本总数,记为M,获取作者共现指数
Figure 563318DEST_PATH_IMAGE022
在本实施例中一种可能的作者共现参考距离系数
Figure 847669DEST_PATH_IMAGE017
获取方式包括:在进行作者共现参考距离系数获取时,判断测试文本与上述作者共现参照集中文本是否存在直接引用关系,若存在,则确定作者共现参考距离系数
Figure 450076DEST_PATH_IMAGE017
为1,否则作者共现参考距离系数
Figure 212496DEST_PATH_IMAGE017
Figure 331762DEST_PATH_IMAGE018
在本实施例中一种可能的作者共现特征值
Figure DEST_PATH_IMAGE023
获取方式包括:获取作者共现参考距离系数,并获取其反比例函数,记为
Figure 973965DEST_PATH_IMAGE020
,则作者共现特征值
Figure 811471DEST_PATH_IMAGE023
=
Figure 377581DEST_PATH_IMAGE021
×
Figure 600621DEST_PATH_IMAGE020
;若作者共现特征值
Figure 226774DEST_PATH_IMAGE023
满足预设的阈值,则获取作者共现参照集中与测试文本存在直接引用的文本,获取此类文本的标签,作为测试文本的作者共现特征。
在本实施例中一种可能的作者共现特征值预设阈值设定方式包括:若作者共现特征值
Figure 551576DEST_PATH_IMAGE023
与作者共现指数
Figure 655799DEST_PATH_IMAGE021
相同,满足预设的阈值。
在本实施例中另一种可能的作者共现特征值预设阈值设定方式包括:若作者共现特征值
Figure 998924DEST_PATH_IMAGE023
趋于0,满足预设的阈值。
步骤203,基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值。
在本实施例中一种可能的预测标签集相对于测试文本的向量值获取方式包括:在获取预测标签集中标签在测试文本中的权重值时,使用余弦相似度算法,一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。余弦相似度量:计算个体间的相似度。相似度越小,距离越大。相似度越大,距离越小。在获取预测标签集中元素对测试文本的余弦相似度时,将每一个标签作为一个向量个体,将整篇测试文本作为一个向量个体。
具体的实施方式如下:
假设测试文本的预测标签集中存在标签“石油”,而整篇文章文字有“实际上石墨烯本来就存在于自然界,只是难以剥离出单层结构。石墨烯一层层叠起来就是石墨,厚1毫米的石墨大约包含300万层石墨烯。铅笔在纸上轻轻划过,留下的痕迹就可能是几层甚至仅仅一层石墨烯。
在发现石墨烯以前,大多数物理学家认为,热力学涨落不允许任何二维晶体在有限温度下存在。所以,它的发现立即震撼了凝聚体物理学学术界。虽然理论和实验界都认为完美的二维结构无法在非绝对零度稳定存在,但是单层石墨烯能够在实验中被制备出来。”。
在计算“石油”在测试文本中的权重值时,首先采用的是基本的余弦相似算法,通过上述例子文本可知,文本中不存在“石油”,将“石油”的词频用0表示,若测试文本中出现“石油”这个词,那么“石油”的词频用该标签出现的次数表示,若文本中不存在标签“石油”,则“石油”在测试文本中的向量值为0,权重值为0。
在计算“石墨烯”在测试文本中的权重值时,文本中 “石墨烯”存在多处,计算标签“石墨烯”在测试文本中的词频,i表示“石墨烯”在测试文本中出现的次数,权重值为所有标签在预测标签集中词频乘积与所有标签在测试文本中词频乘积的比值。
将提取出的标签作为个体,基于测试文本进行权重值获取,必然都存在非零值,标签在单个文档中出现的次数越多说明该标签越重要,即标签种对应权重值越大,说明该标签是最能反映文本特征的标签;
权重值的算法公式为:
Figure 733662DEST_PATH_IMAGE024
=
Figure DEST_PATH_IMAGE025
;假设有一个标签为“冷藏”,其中,x代表标签“冷藏”在标签集中出现的频率,y代表标签“冷藏”在文本个体中出现的频率,i表示标签集中标签的总数,求向量值
Figure 532378DEST_PATH_IMAGE024
,向量值
Figure 705871DEST_PATH_IMAGE024
越接近与1,则标签集的权重值越高,即该标签集中元素最适合文本的搜索标签。
例如:测试文本的预测标签集为{“计算机”、“金融”、“java”、“软件”、“模型”、“人工智能”、“大数据”、“自然语言”、“计算机”};
在预测标签集中,标签“计算机”出现了2次,即词频为2,“金融”、“java”、“软件”、“模型”、“人工智能”、“大数据”、“自然语言”分别出现了1次,即词频为1,在测试文本中假设“计算机”出现了10次,“金融”出现了20次,“java”出现了3次,“软件”出现了18次,“模型”出现了30次,“人工智能”出现了5次,“大数据”出现了10次,“自然语言”出现了10次,则“计算机”、“金融”、“java”、“软件”、“模型”、“人工智能”、“大数据”、“自然语言”在测试文本中分别出现的词频为10、20、3、18、30、5、10、10,则标签集相对于测试文本中的向量值为
Figure 654235DEST_PATH_IMAGE024
=
Figure 622191DEST_PATH_IMAGE026
=
Figure DEST_PATH_IMAGE027
Figure 842957DEST_PATH_IMAGE024
=
Figure 288982DEST_PATH_IMAGE025
其中,x表示预测标签集中标签在预测标签集中出现的词频,y表示预测标签集中标签在测试文本中出现的词频,i表示第i个标签,即预测标签集中的第i个元素,n表示标签的总个数;
在本实施例中一种可能的预测标签集中标签相对于预测标签集的向量值获取方式包括:将单个标签作为个体与整个预测标签集进行向量值计算,获取每一个标签相对于预测标签集的向量值结果
Figure 606699DEST_PATH_IMAGE028
,j表示预测标签集中第5个标签,如果用上述例子则该标签为“模型”,则
Figure 683240DEST_PATH_IMAGE028
=
Figure DEST_PATH_IMAGE029
=
Figure 453619DEST_PATH_IMAGE030
则,该标签相对于整个文档的向量值为
Figure 641017DEST_PATH_IMAGE024
Figure 626291DEST_PATH_IMAGE028
的乘积,即预测标签集中标签分别在测试文本中的权重值
Figure DEST_PATH_IMAGE031
在本实施例中一种可能的测试文本中标签相对于参照集的向量值获取方式包括:基于余弦相似度算法,获取测试文本中出现的标签相对于参照集中该词语的向量值,假设测试文本中出现预测标签集中的标签词频与上述相同,分别为10、20、3、18、30、5、10、10,参照集中出现的次数分别为10000、200000、30000、180000、3000、50000、1000、100,则使用公式
Figure 125930DEST_PATH_IMAGE032
=
Figure 134337DEST_PATH_IMAGE025
,获取测试文本相对于参照集的向量值
Figure 374695DEST_PATH_IMAGE032
,即测试文本的权重值
Figure 214475DEST_PATH_IMAGE032
;
在本实施例中一种可能的预测标签集中标签相对于预测标签集的向量值获取方式包括:基于向量空间模型中的
Figure DEST_PATH_IMAGE033
算法,即预测标签集中标签与测试文本的向量值
Figure 632818DEST_PATH_IMAGE031
和测试文本与参照集的向量值
Figure 112209DEST_PATH_IMAGE032
的反比,获取预测标签集中每个标签在向量空间模型中的值
Figure 906990DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
,作为标签的余弦相似度量,获取满足预设余弦相似度量阈值的标签,作为测试文本的搜索标签。
具体请参阅图8,图8为本申请实施例中预测标签集中标签在参照集中余弦相似度量的计算示意图,所述预测标签集中标签在测试文本中权重值的计算示意图8,图中801示出了预选标签集中单个标签相对于预选标签集的向量值的获取方式,图中801a示出了预选标签集中单个标签相对于预选标签集的向量值,图中802示出了预选标签集相对于整个测试文本的向量值的获取方式,图中802a示出了预选标签集相对于整个测试文本的向量值,图中803示出了预选标签集中每个标签分别在整个测试文本中的向量值的获取方式,图中803a示出了预选标签集中每个标签分别在整个测试文本中的向量值,图中804示出了测试文本相对于整个参照集的向量值的获取方式,图中804a示出了测试文本相对于整个参照集的向量值,图中805示出了基于
Figure 788227DEST_PATH_IMAGE033
算法获取标签的余弦相似度量值的方式,图中805a示出了基于
Figure 439788DEST_PATH_IMAGE033
算法获取标签的余弦相似度量值,805b示出了选择满足预设余弦相似度量阈值的余弦相似度结果,获取所述余弦相似度结果对应的标签,805c示出了将获取的标签加入到测试文本的标签匹配集中作为一个元素。
步骤204,基于标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取测试文本中所有标签的余弦相似度量,并判断测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将标签作为测试文本的标签匹配集中的一个目标匹配结果。
在本申请的一些实施例中,步骤204中的增量式选择模型包括步骤如下:
获取预测标签集中的标签在参照集中的权重值之前,基于获取的标签名,判断所述标签是否已经在参照集中获取过权重值,
若已获取,直接将所述标签的历史权重值作为测试文本中相同标签的权重值,否则,基于余弦相似度算法对所述标签进行权重值计算。
具体请参阅图9,图9为本申请实施例中增量式选择模型的处理示意图,增量式选择模型的处理过程包括:获取预测标签集中的元素,所述测试文本的最终搜索标签在获取的元素中产生,对获取的元素进行判断,判断在当次测试文本之前,是否存在其他的测试文本将所述元素当成预测标签集中元素已经进行过权重值获取,若已经获取过,从增量式模型中直接调用所述元素的历史权重值作为本次所述元素相对于参照集的权重值
Figure 422788DEST_PATH_IMAGE034
,否则,对所述元素的权重值进行获取,获取的方式为,获取预测标签集中标签元素相对于预测标签集的向量值
Figure 19596DEST_PATH_IMAGE024
,获取预测标签集相对于测试文本的向量值
Figure 568389DEST_PATH_IMAGE028
,获取测试文本相对于参照集的向量值
Figure 594114DEST_PATH_IMAGE032
,最后基于
Figure 861147DEST_PATH_IMAGE024
Figure 981419DEST_PATH_IMAGE028
Figure 587981DEST_PATH_IMAGE032
三者的结果,获取所述标签元素在参照集中的余弦相似度量值
Figure 846924DEST_PATH_IMAGE034
,将
Figure 522625DEST_PATH_IMAGE034
与预先设定的余弦相似度量阈值进行比较,判断
Figure 462899DEST_PATH_IMAGE034
是否符合预设的阈值,若经判断符合,将所述标签元素作为测试文本的一个搜索标签,加入标签匹配集中,否则,将所述标签从预测标签集中去除。
步骤205,利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成测试文本的标签匹配集。
具体的实施方式如下:利用循环迭代的方式,依次对预测标签集中的元素进行余弦相似度量值获取,选择符合预设的余弦相似度量阈值的标签元素,加入到标签匹配集中,将最终获取的标签匹配集中元素作为测试文本的搜索标签。
本申请实施例中的文本标签的搜索匹配方法,可以通过分别对摘要部分、正文部分和参考文献部分进行特征选择,将特征选择的结果作为预测标签集,缩小了文本标签的搜索匹配范围,一定程度上提高了文本标签匹配的准确性;通过对参考文献部分进行文本引用特征和作者共现特征获取,精确到相关联的文本领域,提高了搜索结果的准确性;通过增量式模型对预测标签集中元素进行余弦相似性选取,获得满足预设余弦相似度量阈值的标签并加入到标签匹配集,确定测试集中测试文本的最终搜索标签结果,通过增量式的方式,一定程度上提高了处理效率,减少了时间的消耗。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图10,作为对上述图2所示方法的实现,本申请提供了一种文本标签的搜索匹配装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图10所示,本实施例的文本标签的搜索匹配装置10包括:数据采集模块10a、特征选择模块10b、权重获取模块10c、标签匹配模块10d和标签集生成模块10e。其中:
数据采集模块10a,用于获取参照集和测试集,其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的测试文本(n、m为正整数);
特征选择模块10b,用于对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
权重获取模块10c,用于基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
标签匹配模块10d,用于基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
标签集生成模块10e,用于利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
在本申请的一些实施例中,如图11,图11为本申请实施例中特征选择模块的结构示意图,特征选择模块10b包括摘要特征选择单元11a、正文特征选择单元11b、参考文献特征选择单元11c。
在本申请的一些实施例中,摘要特征选择单元11a用于基于预先设定的关键词对测试文本进行拆分处理,获取测试文本的摘要部分;基于
Figure 986284DEST_PATH_IMAGE001
模型对测试文本的摘要部分进行特征选择。
在本申请的一些实施例中,正文特征选择单元11b用于基于预先设定的关键词对测试文本进行拆分处理,获取测试文本的正文部分;基于LDA模型对测试文本的正文部分进行特征选择。
在本申请的一些实施例中,参考文献特征选择单元11c用于基于预先设定的关键词对测试文本进行拆分处理,获取测试文本的参考文献部分;基于预设的文献特征选择模型对测试文本的参考文献部分进行特征选择。
在本申请的一些实施例中,参考文献特征选择单元11c在基于预设的文献特征选择模型进行参考文献特征选择时,具体用于分别对参考文献部分进行文本引用特征选择和作者共现特征选择。
在本申请的一些实施例中,参考文献特征选择单元11c在对参考文献部分进行文本引用特征选择时,具体用于基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和参考距离系数;基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征。
在本申请的一些实施例中,参考文献特征选择单元11c在基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数时,具体用于基于标点符号,进行字段分割,获取所述测试文本参考文献部分中参考文献的名称,并生成参考文献集;基于所述参考文献集,获取所述参考文献集中参考文献在参照集中被参照文本引用的总次数;基于所述参考文献集,筛选出参照集中同时引用至少两篇所述参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集;基于所述参考文献集中参考文献在参照集中被参照文本引用的总次数和所述文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数;判断所述测试文本和所述文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定所述测试文本和参照集中参照文本间文本引用参考距离系数。
在本申请的一些实施例中,如图12,图12为本申请实施例中权重获取模块的结构示意图,权重获取模块10c包括权重值获取单元12a、权重值对比单元12b。
在本申请的一些实施例中,权重值获取单元12a,用于确定测试文本的预选标签集中的标签元素在参照集中的权重值。
在本申请的一些实施例中,权重值对比单元12b,用于将标签元素在参照集中的权重值与预设的权重值阈值进行对比,获取满足预设阈值的标签作为测试文本的标签匹配集。
在本申请的一些实施例中,权重值获取单元12a和权重值对比单元12b都在增量式模型中,所述增量式模型具体用于获取预测标签集中的标签在参照集中的权重值之前,基于获取的标签名,判断所述标签是否已经在参照集中获取过权重值,若已获取,直接将所述标签的历史权重值作为测试文本中相同标签的权重值,否则,基于余弦相似度算法对所述标签进行权重值计算。
本申请实施例的文本标签的搜索匹配装置,通过分别对摘要部分、正文部分和参考文献部分进行特征选择,将特征选择的结果作为预测标签集,缩小了文本标签的搜索匹配范围,一定程度上提高了文本标签匹配的准确性;通过对参考文献部分进行文本引用特征和作者共现特征获取,精确到相关联的文本领域,提高了搜索结果的准确性;通过增量式模型对预测标签集中元素进行余弦相似性选取,获得满足预设余弦相似度量阈值的标签并加入到标签匹配集,确定测试集中测试文本的最终搜索标签结果,通过增量式的方式,一定程度上提高了处理效率,减少了时间的消耗。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图13,图13为本实施例计算机设备基本结构框图。
计算机设备13包括通过系统总线相互通信连接存储器13a、处理器13b、网络接口13c。需要指出的是,图中仅示出了具有组件13a-13c的计算机设备13,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器13a至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器13a可以是计算机设备13的内部存储单元,例如该计算机设备13的硬盘或内存。在另一些实施例中,存储器13a也可以是计算机设备13的外部存储设备,例如该计算机设备13上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器13a还可以既包括计算机设备13的内部存储单元也包括其外部存储设备。本实施例中,存储器13a通常用于存储安装于计算机设备13的操作系统和各类应用软件,例如文本标签的搜索匹配方法的程序代码等。此外,存储器13a还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器13b在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器13b通常用于控制计算机设备13的总体操作。本实施例中,处理器13b用于运行存储器13a中存储的程序代码或者处理数据,例如运行文本标签的搜索匹配方法的程序代码。
网络接口13c可包括无线网络接口或有线网络接口,该网络接口13c通常用于在计算机设备13与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种非易失性计算机可读存储介质,非易失性计算机可读存储介质存储有文本标签的搜索匹配程序,文本标签的搜索匹配程序可被至少一个处理器执行,以使至少一个处理器执行如上述的文本标签的搜索匹配方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种文本标签的搜索匹配方法,其特征在于,包括下述步骤:
获取参照集和测试集,
其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的未进行标签分类的测试文本(n、m为正整数);
对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,
其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
2.根据权利要求1所述的文本标签的搜索匹配方法,其特征在于,所述对所述测试集中测试文本分别进行特征选择之前还包括:
基于预先设定的关键词,对测试集中每个测试文本进行拆分处理,获取拆分出的摘要部分、正文部分和参考文献部分。
3.根据权利要求2所述的文本标签的搜索匹配方法,其特征在于,所述对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择包括:
基于
Figure DEST_PATH_IMAGE002
模型进行摘要特征选择,基于LDA模型进行正文特征选择,基于预设的文献特征选择模型进行参考文献特征选择。
4.根据权利要求3所述的文本标签的搜索匹配方法,其特征在于,所述
基于预设的文献特征选择模型进行参考文献特征选择包括:
基于预设的文献特征选择模型,对所述测试文本进行文本引用特征选择。
5.根据权利要求1至4任一项所述的文本标签的搜索匹配方法,其特征在于,所述基于预设的文献特征选择模型对所述测试文本进行文本引用特征选择包括步骤如下:
基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和参考距离系数;
基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征。
6.根据权利要求5所述的文本标签的搜索匹配方法,其特征在于,所述基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数包括步骤如下:
基于标点符号,进行字段分割,获取所述测试文本参考文献部分中参考文献的名称,并生成参考文献集;
基于所述参考文献集,获取所述参考文献集中参考文献在参照集中被参照文本引用的总次数;
基于所述参考文献集,筛选出参照集中同时引用至少两篇所述参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集;
基于所述参考文献集中参考文献在参照集中被参照文本引用的总次数和所述文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数;
判断所述测试文本和所述文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定所述测试文本和参照集中参照文本间文本引用参考距离系数。
7.根据权利要求5所述的文本标签的搜索匹配方法,其特征在于,所述增量式选择模型包括步骤如下:
获取预测标签集中的标签在参照集中的权重值之前,基于获取的标签名,判断所述标签是否已经在参照集中获取过权重值,
若已获取,直接将所述标签的历史权重值作为测试文本中相同标签的权重值,否则,基于余弦相似度算法对所述标签进行权重值计算。
8.一种文本标签的搜索匹配装置,其特征在于,包括:
数据采集模块,用于获取参照集和测试集,其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的测试文本(n、m为正整数);
特征选择模块,用于对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
权重获取模块,用于基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
标签匹配模块,用于基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
标签集生成模块,用于利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本标签的搜索匹配方法的步骤。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本标签的搜索匹配方法的步骤。
CN201911418221.XA 2020-04-17 2020-04-17 一种文本标签的搜索匹配方法、装置、设备及存储介质 Active CN111191011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911418221.XA CN111191011B (zh) 2020-04-17 2020-04-17 一种文本标签的搜索匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911418221.XA CN111191011B (zh) 2020-04-17 2020-04-17 一种文本标签的搜索匹配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111191011A true CN111191011A (zh) 2020-05-22
CN111191011B CN111191011B (zh) 2024-02-23

Family

ID=70707941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911418221.XA Active CN111191011B (zh) 2020-04-17 2020-04-17 一种文本标签的搜索匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111191011B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204956A (zh) * 2021-07-06 2021-08-03 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
CN116187284A (zh) * 2023-04-26 2023-05-30 福昕鲲鹏(北京)信息科技有限公司 注释定位方法、装置和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243625A (zh) * 2011-07-19 2011-11-16 北京航空航天大学 一种基于N-gram增量主题模型的语义挖掘方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109325122A (zh) * 2018-09-17 2019-02-12 深圳市牛鼎丰科技有限公司 词表生成方法、文本分类方法、装置、设备及存储介质
CN110874408A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 模型训练方法、文本识别方法、装置及计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243625A (zh) * 2011-07-19 2011-11-16 北京航空航天大学 一种基于N-gram增量主题模型的语义挖掘方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN110874408A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 模型训练方法、文本识别方法、装置及计算设备
CN109325122A (zh) * 2018-09-17 2019-02-12 深圳市牛鼎丰科技有限公司 词表生成方法、文本分类方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOLLAPALLI等: "Extracting keyphrases from research papers using citation networks", PROCEEDINGS OF THE TWENTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 1629 - 1635 *
刘盛博: "科学论文的引用内容分析及其应用", 中国博士学位论文全文数据库经济与管理科学辑, no. 2015, pages 1 - 109 *
常耀成等: "特征驱动的关键词提取算法综述", 软件学报, vol. 29, no. 07, pages 2046 - 2070 *
黄晓玲等: "基于邻居网络的科学文献关键词提取", 模式识别与人工智能, vol. 31, no. 8, pages 750 - 762 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204956A (zh) * 2021-07-06 2021-08-03 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
CN113204956B (zh) * 2021-07-06 2021-10-08 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
CN116187284A (zh) * 2023-04-26 2023-05-30 福昕鲲鹏(北京)信息科技有限公司 注释定位方法、装置和设备

Also Published As

Publication number Publication date
CN111191011B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
US11580119B2 (en) System and method for automatic persona generation using small text components
CN112395420A (zh) 视频内容检索方法、装置、计算机设备及存储介质
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
US20180053115A1 (en) Spend Data Enrichment and Classification
CN112863683A (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN104572631B (zh) 一种语言模型的训练方法及系统
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN110674635B (zh) 一种用于文本段落划分的方法和装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN112085091A (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115239214A (zh) 企业的评估处理方法、装置及电子设备
CN111950265A (zh) 一种领域词库构建方法和装置
CN115238077A (zh) 基于人工智能的文本分析方法、装置、设备及存储介质
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant