CN111460147A - 一种基于语义增强的标题短文本分类方法 - Google Patents

一种基于语义增强的标题短文本分类方法 Download PDF

Info

Publication number
CN111460147A
CN111460147A CN202010214338.2A CN202010214338A CN111460147A CN 111460147 A CN111460147 A CN 111460147A CN 202010214338 A CN202010214338 A CN 202010214338A CN 111460147 A CN111460147 A CN 111460147A
Authority
CN
China
Prior art keywords
short text
title
semantic
corpus
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010214338.2A
Other languages
English (en)
Other versions
CN111460147B (zh
Inventor
周连科
王诚
张耘
张英琪
王红滨
王念滨
张毅
赵昱杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010214338.2A priority Critical patent/CN111460147B/zh
Publication of CN111460147A publication Critical patent/CN111460147A/zh
Application granted granted Critical
Publication of CN111460147B publication Critical patent/CN111460147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语义增强的标题短文本分类方法,它属于文本分类技术领域。本发明解决了现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题。本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后,将预处理后的文章内容作为样本数据的扩充语料,另外还通过特征检索的方式获得了标题短文本的扩充语料,并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新,即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强,通过语义增强技术对标题短文本进行分类,可以有效提高FastText分类器在短文本分类上的精确度,分类精度将有近30%的大幅度提升。本发明可以应用于短文本分类。

Description

一种基于语义增强的标题短文本分类方法
技术领域
本发明属于文本分类技术领域,具体涉及一种基于语义增强和FastText分类器的标题短文本分类方法。
背景技术
在移动互联网飞速发展的今天,互联网络每天会产生大量诸如新闻标题、微博和微信等短文本信息,而短文本信息的定义较为模糊,因此默认通常的短文本信息字数大约在200字左右。面对这些海量的短文本数据信息,为了能够对这些海量信息加以充分利用,从中挖掘出有价值的信息,有必要对短文本分类技术做近一步研究。短文本分类技术是NLP(Natural Language Processing,自然语言处理)领域的下游任务,也是其他NLP下游任务的根基;其主要应用在情感分析、舆情分析、新闻主题预测和垃圾邮件过滤等实际场景。同时也是意图识别、知识图谱及问答系统构建的基础。
充分利用短文本分类产生的数据价值,可以将其运用于军事情报领域,数据集为中文新闻情报数据,包括军事、政治、经济和文化4个大类。研究NLP自然语言处理领域的前沿成果,将理论与实际相结合,通过对收集到的海量情报数据进行分析,挖掘出有价值的数据信息,为意图识别,知识图谱及问答系统构建等其他NLP下游任务做数据支撑。因此对情报数据挖掘中的短文本进行分类,对于我国情报数据挖掘的发展具有积极意义和研究价值。由于情报数据挖掘中的标题短文本都存在着语义信息不足的通病,因此导致利用现有方法对情报数据挖掘中的标题短文本分类的精确度仍然较低。
发明内容
本发明的目的是为解决现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题,而提出了一种基于语义增强的标题短文本分类方法。
本发明为解决上述技术问题采取的技术方案是:一种基于语义增强的标题短文本分类方法,该方法包括以下步骤:
步骤一、采集新闻标题短文本数据集M;
步骤二、分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理,获得预处理后的标题短文本以及标题短文本对应的文本内容;
将预处理后的标题短文本作为样本数据,将预处理后的文章内容作为扩充语料;
步骤三、分别为步骤一采集的每一条标题短文本进行特征检索,提取出每一条标题短文本对应的若干个关键词,将提取出的关键词作为对应标题短文本的扩充语料;
步骤四、将步骤二获得的样本数据分为训练集、验证集和测试集三部分;
步骤五、将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中,获得更新后的样本数据,完成对标题短文本数据的语义扩充,即获得语义扩充后的训练集、语义扩充后的验证集以及语义扩充后的测试集;
步骤六、利用语义扩充后的训练集对FastText分类器进行预训练,获得预训练好的FastText分类器后,利用语义扩充后的测试集对预训练好的FastText分类器进行测试,获得预训练好的FastText分类器在语义扩充后的测试集上的分类准确率;
再利用语义扩充后的验证集对预训练好的FastText分类器进行调参,以寻找FastText分类器的最优参数,实现对预训练好的FastText分类器的参数优化;并将在验证过程中被正确分类的优质数据集加入到语义扩充后的训练集中,获得更新后的训练集;
步骤七、利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练,获得训练好的FastText分类器;再利用语义扩充后测试集对训练好的FastText分类器进行测试,输出训练好的FastText分类器在测试集上的分类准确率;
步骤八、将训练好的FastText分类器用于新闻标题短文本的分类。
本发明的有益效果是:本发明提出了一种基于语义增强的标题短文本分类方法,本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后,将预处理后的文章内容作为样本数据的扩充语料,另外还通过特征检索的方式获得了标题短文本的扩充语料,并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新,即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强,通过语义增强技术对标题短文本进行分类,可以有效提高FastText分类器在短文本分类上的精确度,分类精度将有近30%的大幅度提升。
附图说明
图1是本发明方法的流程图;
图2为本发明使用CSE技术中的文本内容语义增强效果图;
图3为本发明使用CSE技术中的特征检索语义增强效果图;
图4为本发明使用CSE技术进行语义增强效果图;
图4中使用CSE技术是指同时使用了CSE技术中的文本内容语义增强和CSE技术中的特征检索语义增强;
图5为本发明使用ASE技术进行语义增强效果图;
图6为本发明使用CSE和ASE技术进行语义增强效果图;
图中,FastTextCA代表使用了CSE和ASE技术。
具体实施方式
具体实施方式一:本实施方式所述的一种基于语义增强的标题短文本分类方法,该方法包括以下步骤:
步骤一、采集新闻标题短文本数据集M;
步骤一采集的数据集是基于搜狗实验室数据集和人工爬取的数据集;
步骤二、分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理,获得预处理后的标题短文本以及标题短文本对应的文章内容;
将预处理后的标题短文本作为样本数据,将预处理后的文章内容作为扩充语料;
步骤三、分别为步骤一采集的每一条标题短文本进行特征检索,提取出每一条标题短文本对应的若干个关键词,将提取出的关键词作为对应标题短文本的扩充语料;
步骤四、将步骤二获得的样本数据分为训练集、验证集和测试集三部分;
步骤五、将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中,获得更新后的样本数据,完成对标题短文本数据的语义扩充,即获得语义扩充后的训练集、语义扩充后的验证集以及语义扩充后的测试集;
步骤六、利用语义扩充后的训练集对FastText分类器进行预训练,获得预训练好的FastText分类器后,利用语义扩充后的测试集对预训练好的FastText分类器进行测试,获得预训练好的FastText分类器在语义扩充后的测试集上的分类准确率;
再利用语义扩充后的验证集对预训练好的FastText分类器进行调参,以寻找FastText分类器的最优参数,实现对预训练好的FastText分类器的参数优化;并将在验证过程中被正确分类的优质数据集加入到语义扩充后的训练集中,获得更新后的训练集;
步骤七、利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练,获得训练好的FastText分类器;再利用语义扩充后测试集对训练好的FastText分类器进行测试,输出训练好的FastText分类器在测试集上的分类准确率;
步骤八、将训练好的FastText分类器用于新闻标题短文本的分类。
目前的短文本依然具有稀疏性和低频率的特征,稀疏的单词会让人难以计算共同出现的特征。低关键词的频率意味着共存计算结果可能不准确,它会导致语义偏见,无论是使用最简单的BOW模型还是更为复杂的词嵌入模型,通过丰富上下文语义信息是解决此类问题的唯一途径。为了克服了这个问题,本发明在FastText研究成果的基础上,结合当下流行的两种语义增强思想,考虑到数据的特点,提出了基于FastText分类器的短文本语义增强算法,具体流程为:对采集的新闻标题短文本以及新闻标题短文本对应的文章内容进行预处理,包括:数据清洗、格式调整、Jieba分词、去停用词和TF-IDF算法去除高频无用词等准备工作;对整理好的数据集进行预编码,包括:数学建模构建数学语言模型和将扩展语料库编码进短文本语义信息;训练模型,包括:对数据集合进行划分和充分利用模型调参的优质数据集对短文本语义信息进行编码。通过提出的CSE编码语义增强技术和ASE自主语义增强技术对标题短文本进行分类,可提高FastText分类器在短文本分类上的精确度。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤二中,分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理,其具体为:
分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行数据清洗、分词、去停用词以及去高频无用词处理。
本发明中进行分词处理时使用Jieba分词。由于扩展语料库拥有大量介词,标点符号和其他对分类无用的噪音,因此,需要使用停用词列表来过滤掉停用词,用TF-IDF算法过滤掉高频无用词,以完成扩展语料库的构建。其中停用词表的建立需要结合相关领域知识,和常规停用词表融合。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二中,将预处理后的文章内容作为扩充语料,其具体为:
Figure BDA0002423889260000041
其中,i表示标题短文本对应的标号,f函数是标题短文本与标号的映射函数,为一一映射关系,Headi表示第i条标题短文本,Content(Headi)表示第i条标题短文本对应的文章内容的预处理结果,LContent表示对各标题短文本的文章内容进行预处理获得的扩充语料库,N为数据集M中标题短文本的总条数。
为扩充短文本语义信息,添加一些关键字是有必要的。这里对文章内容进行分词、去停用词处理;用处理后的文本内容作为短文本标题语义扩充的语料库,与基于LDA的扩展方法相比得出,本发明使用的是更为简单且可靠的方法。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述步骤三中,分别为步骤一采集的每一条标题短文本进行特征检索,提取出每一条标题短文本对应的若干个关键词,其具体过程为:
分别在百度搜索引擎中输入步骤一采集的每一条标题短文本,获得与每一条标题短文本对应的前5篇检索结果;
并根据前5篇检索结果中的每篇提取出13个关键词,即提取出与每一条标题短文本对应的65个关键词。
在搜索引擎的帮助下,本发明选取关键词检索的第一个片段收集信息以扩展语料库;实验表明,最佳效果是通过在原始标题中添加基于百度百科标题特征检索出的前5篇文章内容(每篇中特征提取13个关键词)作为语义扩充,并将其收集为用于训练分类器的附加输入语料库。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤三中,将提取出的关键词作为对应标题短文本的扩充语料,其具体为:
Figure BDA0002423889260000051
其中,Search(Headi)表示以采集的第i条标题短文本为输入进行检索,Max5表示从检索结果中排在前5篇的文章内容中提取出关键词,Max5(Search(Headi))表示第i条标题短文本对应提取出的关键词,LSearch表示提取出的关键词组成的扩充语料库。
具体实施方式六:本实施方式与具体实施方式五不同的是:所述步骤五中,将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中,获得更新后的样本数据,完成对标题短文本数据的语义扩充,其具体过程为:
Figure BDA0002423889260000052
其中,Headi″为更新后的第i条样本数据,Headi′为预处理后的第i条标题短文本,Headi″由Headi′、
Figure BDA0002423889260000053
Figure BDA0002423889260000054
三部分内容拼接,
Figure BDA0002423889260000055
运算符表示前后两部分内容的拼接;
Figure BDA0002423889260000056
函数定义为:
Figure BDA0002423889260000057
其中,
Figure BDA0002423889260000058
函数为LSearch语料库的哈希映射函数,
Figure BDA0002423889260000059
表示通过
Figure BDA00024238892600000510
函数从LSearch语料库中找到第i条标题短文本对应的内容,
Figure BDA00024238892600000511
表示LSearch语料库中第i条标题短文本的第k篇检索结果对应的关键词,k=1,2,3,4,5;
Figure BDA0002423889260000061
函数定义为:
Figure BDA0002423889260000062
其中,
Figure BDA0002423889260000063
函数为LContent语料库的哈希映射函数,
Figure BDA0002423889260000064
表示通过
Figure BDA0002423889260000065
函数从LContent语料库中找到第i条标题短文本对应的内容,
Figure BDA0002423889260000066
表示LContent语料库中第i条标题短文本对应的文章内容的预处理结果。
具体实施方式七:本实施方式与具体实施方式六不同的是:所述步骤六中,利用语义扩充后的训练集对FastText分类器进行预训练,直至达到设置的最大迭代次数Q时停止预训练,获得预训练好的FastText分类器;
所述步骤七中,利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练,直至达到设置的最大迭代次数Q时停止训练,获得训练好的FastText分类器。
实施例
一种基于FastText分类器的短文本语义增强算法,通过以下步骤实现,并通过图1的流程框图直观的表示出来:
步骤一:采集短文本数据集,基于搜狗实验室数据集和人工爬取数据集;
步骤二:CSE短文本内容语义增强,标题短文本的特点是特征稀疏问题,特征共现的计算困难且不准确。本发明对文章内容进行数据清洗、分词、去停用词以及去高频无用词处理;用处理后的文本内容作为短文本标题语义扩充的语料库;
步骤三:CSE短文本特征检索语义增强,与一般长文本分类相比,本发明语料为中文短文本标题。本发明针对这些短文本特点,在搜索引擎的帮助下,选取关键词检索的第一个片段收集信息以扩展语料库;实验表明,最佳效果是通过在原始标题中添加基于百度百科标题特征检索出的前5篇文章内容(特征提取13个关键词)作为语义扩充,并将其收集为用于训练分类器的附加输入语料库;
步骤四:ASE短文本自主语义增强,把样本数据集按一定比例划分为训练集、验证集和测试集三部分。用验证集进行调参寻找最优模型过程中,可以挑选出优质数据集,作为训练集的扩充语料库,以达到优化模型效果的目的;
步骤五:预处理,在分类之前,应该对短文本进行预处理,例如数据清洗、分词和去停用词等操作。在本发明中,用Jieba分词。由于扩展语料库拥有大量介词,标点符号和其他对分类无用的噪音,因此,本文使用停用词列表来过滤掉停用词,用TF-IDF算法过滤掉高频无用词,以完成整个扩展语料库的构建,包括特征检索扩充语料库和文本内容扩充语料库两部分。其中停用词表的建立需要结合相关领域知识,和常规停用词表融合;
步骤六:预编码,本发明使用搜索引擎收集的语料库来编码单词嵌入;
步骤七:训练模型,通过以上步骤的准备工作,已完成了短文本扩充语料库的构建和语义增强的哈希映射编码,达到了将预先构建的文本内容扩充语料库和特征检索扩充语料库中的内容编码进短文本语义信息的目的。然后利用FastText分类器对处理好的数据进行模型的训练、验证和测试。
验证集是为了寻找最优模型参数,专门用于模型训练过程中的调参环节,如SVM中的参数c和核函数等。模型通过验证集的调参预测,记录下每一次实验中模型的准确率,当模型出现过拟合的征兆后,采取早停等手段可预防过拟合现象的发生。本发明可以充分利用每一次调参环节中的验证集,自动识别出分类正确的优质数据,构建扩充语料库,最终利用验证集构建的优质数据来增强编码短文本语义信息。验证集自主语义增强定义为:
Figure BDA0002423889260000071
Figure BDA0002423889260000072
其中,Head′i表示经过预编码后的数据的短文本标题;
Figure BDA0002423889260000073
表示Head′i对应的分类标签;Train函数表示以分类标签和数据对应的短文本标题为输入的训练模型过程;[·]+函数表示用验证集调参优化模型过程中,当验证集出现误差增加现象,采取早停策略,停止迭代,防止过拟合。此时挑选出训练结果优质的数据集作为扩充数据集,这里的加号就代表分类正确的数据,对应的减号就代表分类错误的数据;
Figure BDA0002423889260000074
表示验证集的优质数据集合。LValidation表示验证集,
Figure BDA0002423889260000075
Figure BDA0002423889260000076
分别表示优质数据集合和劣质数据集合。
实验数据使用的是收集到的数据集中的短文本标题,数据量为30w条记录。词向量维度设置为100维,通过扩展语料库用FastText训练更加精细的词向量表示。图2展示了CSE技术中的文本内容语义增强采用数据的文本内容作为标题的扩充语料,建立编码机制,分类精度将有近30%的大幅度提升。对检索到的前五篇片段信息,提取13个关键词编码增强原始的语义。图3展示了CSE技术中的特征检索语义增强用检索到的第一个片段信息的网页内容抽取最重要的13个关键词作为短文本标题的扩展语料库,并建立编码机制。这样的操作可以将模型精度提升至少2.4%。同时,本发明实验使用不同的损失函数来提升性能,从图3中可以看出,将损失函数从层次Softmax更改为负采样提升1%。因此后续改进实验的损失函数均采用负采样损失函数。利用关键词和预训练词嵌入增强表示。此外,将n-gram设置为2,将负采样参数设置为10,将CSE技术中的文本内容语义增强和特征检索语义增强进行集成。图4展示了FastText分类器在短文本分类上相对原分类器有了大幅度提升。将实验数据集划分为训练集、测试集和验证集三部分,比例分别为60%、20%和20%。在模型调参过程中,利用验证集中训练的优质数据来对短文本进行语义增强。图5展示了该方案可对模型精度有2%左右的提升。结合CSE编码语义增强技术和ASE自主语义增强技术,图6展示了集成CSE和ASE两项技术进行语义增强后的FastText相对原分类器做短文本分类有了大幅度提升。
总的来说,通过CSE语义增强中的文本内容扩充语料库和标题特征检索扩充语料库对短文本分类标题进行语义增强;同时通过ASE语义增强,充分利用模型调参的验证集数据中的优质数据集作为扩充语料库对短文本分类标题进行语义扩充,展示了CSE和ASE短文本语义增强技术二者的集成对FastText分类器在短文本分类任务上起到了良好的推进作用。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (7)

1.一种基于语义增强的标题短文本分类方法,其特征在于,该方法包括以下步骤:
步骤一、采集新闻标题短文本数据集M;
步骤二、分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理,获得预处理后的标题短文本以及标题短文本对应的文章内容;
将预处理后的标题短文本作为样本数据,将预处理后的文章内容作为扩充语料;
步骤三、分别为步骤一采集的每一条标题短文本进行特征检索,提取出每一条标题短文本对应的若干个关键词,将提取出的关键词作为对应标题短文本的扩充语料;
步骤四、将步骤二获得的样本数据分为训练集、验证集和测试集三部分;
步骤五、将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中,获得更新后的样本数据,完成对标题短文本数据的语义扩充,即获得语义扩充后的训练集、语义扩充后的验证集以及语义扩充后的测试集;
步骤六、利用语义扩充后的训练集对FastText分类器进行预训练,获得预训练好的FastText分类器后,利用语义扩充后的测试集对预训练好的FastText分类器进行测试,获得预训练好的FastText分类器在语义扩充后的测试集上的分类准确率;
再利用语义扩充后的验证集对预训练好的FastText分类器进行调参,以寻找FastText分类器的最优参数,实现对预训练好的FastText分类器的参数优化;并将在验证过程中被正确分类的优质数据集加入到语义扩充后的训练集中,获得更新后的训练集;
步骤七、利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练,获得训练好的FastText分类器;再利用语义扩充后测试集对训练好的FastText分类器进行测试,输出训练好的FastText分类器在测试集上的分类准确率;
步骤八、将训练好的FastText分类器用于新闻标题短文本的分类。
2.根据权利要求1所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤二中,分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理,其具体为:
分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行数据清洗、分词、去停用词以及去高频无用词处理。
3.根据权利要求2所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤二中,将预处理后的文章内容作为扩充语料,其具体为:
Figure FDA0002423889250000011
其中,i表示标题短文本对应的标号,f函数是标题短文本与标号的映射函数,为一一映射关系,Headi表示第i条标题短文本,Content(Headi)表示第i条标题短文本对应的文章内容的预处理结果,LContent表示对各标题短文本的文章内容进行预处理获得的扩充语料库,N为数据集M中标题短文本的总条数。
4.根据权利要求3所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤三中,分别为步骤一采集的每一条标题短文本进行特征检索,提取出每一条标题短文本对应的若干个关键词,其具体过程为:
分别在百度搜索引擎中输入步骤一采集的每一条标题短文本,获得与每一条标题短文本对应的前5篇检索结果;
并根据前5篇检索结果中的每篇提取出13个关键词,即提取出与每一条标题短文本对应的65个关键词。
5.根据权利要求4所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤三中,将提取出的关键词作为对应标题短文本的扩充语料,其具体为:
Figure FDA0002423889250000021
其中,Search(Headi)表示以采集的第i条标题短文本为输入进行检索,Max5表示从检索结果中排在前5篇的文章内容中提取出关键词,Max5(Search(Headi))表示第i条标题短文本对应提取出的关键词,LSearch表示提取出的关键词组成的扩充语料库。
6.根据权利要求5所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤五中,将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中,获得更新后的样本数据,完成对标题短文本数据的语义扩充,其具体过程为:
Figure FDA0002423889250000022
其中,Headi″为更新后的第i条样本数据,Headi′为预处理后的第i条标题短文本,Headi″由Headi′、
Figure FDA0002423889250000023
Figure FDA0002423889250000024
三部分内容拼接,
Figure FDA0002423889250000026
运算符表示前后两部分内容的拼接;
Figure FDA0002423889250000025
函数定义为:
Figure FDA0002423889250000031
其中,
Figure FDA0002423889250000032
函数为LSearch语料库的哈希映射函数,
Figure FDA0002423889250000033
表示通过
Figure FDA0002423889250000034
函数从LSearch语料库中找到第i条标题短文本对应的内容,
Figure FDA0002423889250000035
表示LSearch语料库中第i条标题短文本的第k篇检索结果对应的关键词,k=1,2,3,4,5;
Figure FDA0002423889250000036
函数定义为:
Figure FDA0002423889250000037
其中,
Figure FDA0002423889250000038
函数为LContent语料库的哈希映射函数,
Figure FDA0002423889250000039
表示通过
Figure FDA00024238892500000310
函数从LContent语料库中找到第i条标题短文本对应的内容,
Figure FDA00024238892500000311
表示LContent语料库中第i条标题短文本对应的文章内容的预处理结果。
7.根据权利要求6所述的一种基于语义增强的标题短文本分类方法,其特征在于,所述步骤六中,利用语义扩充后的训练集对FastText分类器进行预训练,直至达到设置的最大迭代次数Q时停止预训练,获得预训练好的FastText分类器;
所述步骤七中,利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练,直至达到设置的最大迭代次数Q时停止训练,获得训练好的FastText分类器。
CN202010214338.2A 2020-03-24 2020-03-24 一种基于语义增强的标题短文本分类方法 Active CN111460147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010214338.2A CN111460147B (zh) 2020-03-24 2020-03-24 一种基于语义增强的标题短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010214338.2A CN111460147B (zh) 2020-03-24 2020-03-24 一种基于语义增强的标题短文本分类方法

Publications (2)

Publication Number Publication Date
CN111460147A true CN111460147A (zh) 2020-07-28
CN111460147B CN111460147B (zh) 2023-06-23

Family

ID=71682301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010214338.2A Active CN111460147B (zh) 2020-03-24 2020-03-24 一种基于语义增强的标题短文本分类方法

Country Status (1)

Country Link
CN (1) CN111460147B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN114881041A (zh) * 2022-05-24 2022-08-09 张艳 微博大数据热点话题多维度智能提取系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
US20180365322A1 (en) * 2017-06-20 2018-12-20 Accenture Global Solutions Limited Automatic extraction of a training corpus for a data classifier based on machine learning algorithms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365322A1 (en) * 2017-06-20 2018-12-20 Accenture Global Solutions Limited Automatic extraction of a training corpus for a data classifier based on machine learning algorithms
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUAI QIN, ETC.: "EHP: Entity Hyperplane Projection for Knowledge Graph Embedding with Entity Descriptions" *
王馨苇: "金融领域文本分类算法的优化" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN112580373B (zh) * 2020-12-26 2023-06-27 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN114881041A (zh) * 2022-05-24 2022-08-09 张艳 微博大数据热点话题多维度智能提取系统

Also Published As

Publication number Publication date
CN111460147B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN107451126B (zh) 一种近义词筛选方法及系统
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112860889A (zh) 一种基于bert的多标签分类方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN112632969B (zh) 一种增量式行业词典更新方法和系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant