CN107784112B - 短文本数据增强方法、系统及检测认证服务平台 - Google Patents

短文本数据增强方法、系统及检测认证服务平台 Download PDF

Info

Publication number
CN107784112B
CN107784112B CN201711080284.XA CN201711080284A CN107784112B CN 107784112 B CN107784112 B CN 107784112B CN 201711080284 A CN201711080284 A CN 201711080284A CN 107784112 B CN107784112 B CN 107784112B
Authority
CN
China
Prior art keywords
text
theme
words
content
data enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711080284.XA
Other languages
English (en)
Other versions
CN107784112A (zh
Inventor
赵国祥
刘小茵
刘业政
朱婷婷
李玲菲
高智伟
尚斌
姜元春
孙春华
孙见山
程广明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ceprei Certification Center Services Co Ltd
Hefei University of Technology
Fifth Electronics Research Institute of Ministry of Industry and Information Technology
Original Assignee
Guangzhou Ceprei Certification Center Services Co Ltd
Hefei University of Technology
Fifth Electronics Research Institute of Ministry of Industry and Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ceprei Certification Center Services Co Ltd, Hefei University of Technology, Fifth Electronics Research Institute of Ministry of Industry and Information Technology filed Critical Guangzhou Ceprei Certification Center Services Co Ltd
Priority to CN201711080284.XA priority Critical patent/CN107784112B/zh
Publication of CN107784112A publication Critical patent/CN107784112A/zh
Application granted granted Critical
Publication of CN107784112B publication Critical patent/CN107784112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种短文本数据增强方法,包括以下步骤:获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;将各文本内容作为文本数据增强项分别传送至临时存储区中;将临时存储区中的各文本数据增强项分别写入对应的文档中。上述短文本数据增强方法,通过读取文档的文本内容,将文本内容作为文本数据增强项传送至临时存储区中,将文本数据增强项写入文档中,在不引用外部信息的情况下,利用自身数据信息,增加文本长度,增强主题信息,有效提高主题质量,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,有利于文本主题的挖掘。

Description

短文本数据增强方法、系统及检测认证服务平台
技术领域
本发明涉及数据挖掘领域,特别是涉及一种短文本数据增强方法、系统及检测认证服务平台。
背景技术
近年来,信息技术高速发展,随之而来的就是大量的文本信息,快速、准确的理解文本的主题信息并进行分类是信息处理的一个重要环节。文本根据长度的不同分为长文本和短文本两类,在实际情况中,短文本大量存在,且在搜索引擎发挥着重要作用。但是,短文本信息由于包含主题信息量少,文本数据稀疏导致文本特征稀疏,主题质量差,难以挖掘文本主题。
例如,当前建立的检测认证平台通过用户搜索内容为用户匹配相应检测认证机构,但因为用户搜索内容过短,搜索出的检测认证机构不一定符合用户需求,因此弥补搜索内容主题质量差、难以挖掘文本主题的缺陷成为当前需解决的一个重点问题。
针对短文本数据的稀疏性问题,当前主要有三种处理方法来弥补短文本信息量少的缺陷,一是利用多语言知识转换来拓展特征信息;二是从语义角度拓展特征的语义信息,以扩充特征维度;三是加入短文本的元数据信息以扩充特征空间。三种短文本数据拓展与选择方法虽然能在一定程度上缓解短文本的特征稀疏性问题,但在数据源上或语义知识库的选取会直接影响短文本数据的拓展与选择的效果,造成文本主题挖掘出现偏差。
发明内容
基于此,有必要针对短文本包含主题信息量少、文本数据稀疏导致难以挖掘文本主题的问题,提供一种短文本数据增强方法、系统及检测认证服务平台。
一种短文本数据增强方法,包括以下步骤:
获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;
将各文本内容作为文本数据增强项分别传送至临时存储区中;
将临时存储区中的各文本数据增强项分别写入对应的文档中。
上述短文本数据增强方法,通过读取文档的文本内容,将文本内容作为文本数据增强项传送至临时存储区中,将文本数据增强项写入文档中,在不引用外部信息的情况下,利用自身数据信息,增加文本长度,增强主题信息,有效提高主题质量,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,有利于文本主题的挖掘。
一种短文本数据增强系统,包括:
短文本获取模块,用于获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;
特征增强项获取模块,用于将各文本内容作为文本数据增强项分别传送至临时存储区中;
文本数据增强模块,用于将临时存储区中的各文本数据增强项分别写入对应的文档中。
上述短文本数据增强系统,短文本获取模块读取文档的文本内容,特征增强项获取模块将文本内容作为文本数据增强项传送至临时存储区中,文本数据增强模块将文本数据增强项写入文档中,在不引用外部信息的情况下,利用自身数据信息,增加文本长度,增强主题信息,有效提高主题质量,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,有利于文本主题的挖掘。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述的短文本数据增强方法的步骤。
一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述的短文本数据增强方法的步骤。
根据上述本发明的短文本数据增强方法,本发明还提供一种可读存储介质和检测设备,用于通过程序实现上述短文本数据增强方法。
一种检测认证服务平台,在获取用户搜索内容后,利用上述的短文本数据增强方法对用户搜索内容进行数据增强。
上述检测认证服务平台,在获取用户搜索内容后,利用上述的短文本数据增强方法对用户搜索内容进行数据增强,以便深入理解用户搜索内容,理解其主题信息,从而为用户匹配到相应检测认证机构。
附图说明
图1为本发明一个实施例的短文本数据增强方法的流程图;
图2为本发明在微博数据集上利用一个实施例进行短文本数据增强后得到的defeat ratio指标随预设主题个数的变化图;
图3为本发明在微博数据集上利用一个实施例进行短文本数据增强后得到的defeat ratio指标随预设主题个数和N值的变化图;。
图4为本发明在微博数据集上利用一个实施例进行短文本数据增强后得到的defeat ratio指标随预设主题个数和N值的变化图;
图5为本发明在微博数据集上利用一个实施例进行短文本数据增强后得到的defeat ratio指标随预设主题个数和N值的变化图;
图6为本发明另一个实施例的短文本数据增强方法的流程图;
图7为本发明一个实施例的短文本数据增强系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
主题模型中主题质量评价标准常用Topic Coherence(主题一致性)指标,TopicCoherence指标是一种利用文档中单词共现计算主题质量的指标,常常在计算主题质量中被使用,指标值越大表示指标越好。其中,Topic Coherence指标的计算过程如下:采用LDA主题生成模型处理短文本内容集,得到每个主题下主题词的概率分布,获取每个主题排名前N的单词,利用公式(1)计算每个主题的Topic Coherence指标。
其中,D(v)表示某一主题中排名为v的单词出现过的短文本的频数,D(v,v')表示排名为v的单词和排名为v'的单词共同出现在一个文档中短文本的频数,
Figure BDA0001458888270000042
V(k)表示出现在主题k中的前N个单词,
Figure BDA0001458888270000043
表示出现在主题k中排名第N的单词,,表示出现在主题k中排名第单词,平滑计数为1是防止最后采用0的对数。
计算得到原短文本集的Topic Coherence指标和经过本发明短文本数据增强方法进行特征增强的短文本集的Topic Coherence指标,将两个Topic Coherence指标进行对比,用N>LDA表示在每个主题中经过特征增强的短文本集Topic Coherence指标高于原短文本集的Topic Coherence指标的数目,并利用defeat ratio(主题一致性优胜率)指标,即公式(2),计算N>LDA占主题数目的比例。defeat ratio指标是一种计算现方法好于原方法的比例的指标,当defeat ratio指标高于0.5表示利用当前方法进行数据增强的文档合集的主题质量好于原文档合集的主题质量。
Figure BDA0001458888270000044
通过对比利用本发明短文本数据增强方法进行数据增强的短文本集前后的TopicCoherence指标,可以说明经过本发明短文本数据增强方法进行数据增强后的短文本有效提高主题质量。
参见图1所示,图1为本发明一个实施例的短文本数据增强方法的流程图,该实施例中短文本数据增强方法,包括以下步骤:
步骤S110:获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;
步骤S120:将各文本内容作为文本数据增强项分别传送至临时存储区中;
步骤S130:将临时存储区中的各文本数据增强项分别写入对应的文档中。
本实施例读取每个文档中的文本内容,将文档中文本内容作为文本数据增强项传送至临时存储区中,然后将文本数据增强项写入到文档中,即在原文档的基础上增加跟本文档同样的内容并保持文档总数不变,能够在不引用外部信息的情况下,利用自身数据信息,增强主题信息,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,减少引入外部数据源或者语义知识库对短文本特征扩展效果的影响,减少额外的时间成本,有利于大规模数据的短文本主题的挖掘。
具体的,文档合集包含文档1,文档2,…,文档M,共m个文档。打开文档1,读取文档1中文本内容,将读取的文本内容传送至临时存储区当中,在传送完毕后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭文档1。重复以上步骤m次,直至文档合集内的所有文档完成短文本数据增强。
以新浪微博的数据为例进行说明,新浪微博与Twitter类似,是中国最大的在线社交网络平台、微博用户可以发布原始文件或转发其他的文件(文件字符限制为140),发布的内容满足短文本数据。本实施例抓取了十天的微博提供发现页面上的用户发布的热点内容和页面中的47种热点消息,并将发现页面提供的热点信息总结为金融,房地产,健康和体育,军事,技术,文化,生活,新闻,艺术和娱乐等多种类型。将抓取出的微博随机抽取8618个微博消息,并将每个微博消息作为一个文档。
获得微博消息合集后,打开第一条微博消息,读取第一条微博消息中的文本内容,将读取的文本内容传送至临时存储区当中,在传送完毕后,在第一条微博消息的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭第一条微博消息。重复以上步骤8618次,直至为微博消息合集内的所有微博消息完成短文本数据增强。
计算原微博消息合集的Topic Coherence指标以及经过本实施例进行数据增强的微博消息合集的Topic Coherence指标,将两个Topic Coherence指标进行对比,计算得出defeat ratio指标,当defeat ratio高于0.5表示本实施例进行数据增强的文档合集的主题质量都好于原文档合集的主题质量,具体实验结果如图2所示,从图中可以看出无论主题个数k取值多少,利用本实施例进行数据增强的微博消息合集的主题质量都好于原微博消息合集的主题质量。
在其中一个实施例中,读取各文档的文本内容步骤之后,包括以下步骤:
根据所有文本内容获取预设主题的主题特征词;
将各文本内容作为文本数据增强项分别传送至临时存储区中的步骤包括以下步骤:
对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中。
本实施例中,在读取每个文档中的文本内容,根据所有的文本内容获取预设主题的主题特征词,然后分别对每个文档的文本内容进行检测,当文本内容包含有主题特征词,则将文本内容作为文本数据增强项传送至临时存储区中,然后将文本数据增强项写入到文档中,这样能在不引用外部信息的情况下,利用自身数据信息,增强主题信息,增加文本中重要词语和重要句子的数量,提升主题质量,减少引入外部数据源或者语义知识库对短文本特征扩展效果的影响,减少额外的时间成本,有利于文本主题的挖掘。
在其中一个实施例中,根据所有文本内容获取预设主题的主题特征词步骤包括以下步骤:
获取LDA主题生成模型的输入参数,根据LDA主题生成模型参数构建LDA主题生成模型;其中,LDA主题生成模型参数包括短文本文档合集的已知词、预设主题数目、超参数;
采用LDA主题生成模型处理所有文本内容,得到每个主题下主题词的概率分布;
根据每个主题下的主题词概率分布获取每个主题下的主题特征词;其中,主题特征词为每个主题下的主题词概率排名为前N的主题词,N为预设数量。
本实施例中,LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,是一种无监督的机器学习技术。利用LDA主题生成模型处理文档合集中的所有文档的文本内容,获得预设主题下每个主题词的概率分布,根据该主题词的概率分布得到排名前N的主题词,从而准确快速的获得主题特征词,提高了单词在主题中语义上的重要性。
具体的,LDA主题生成模型包含词、主题和文档三层结构,认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
根据文档集合中的文档1,文档2,…,文档M获得其中的文档合集的已知词,利用已知词、隐含主题数目k以及预先设置的超参数,根据公式(3)(4)(5)获取预设主题下的主题词的概率分布。其中,当主题数是已知的时候,可以根据已知的主题数设置隐含主题数目k;当主题数目未知时,可以人为设定隐含主题数目k。
Figure BDA0001458888270000071
Figure BDA0001458888270000072
其中,公式(3)为概率公式,式中:表示文档中的主题,
Figure BDA0001458888270000075
表示文档中的单词,
Figure BDA0001458888270000076
是一个K维向量,表示文档在主题上的后验概率分布,K为主题数目;是一个V维向量,表示主题在词汇上的后验概率分布,V为已知词的数目;超参数α表示文档在主题上的后验概率分布的先验参数,超参数β表示主题在词汇上的后验概率分布的先验参数,超参数α和β设置为固定值,其中,
Figure BDA0001458888270000078
Figure BDA0001458888270000079
Figure BDA00014588882700000710
服从狄利克雷分布,
Figure BDA00014588882700000711
服从多项式分布;同理
Figure BDA00014588882700000713
Figure BDA00014588882700000714
即服从狄利克雷分布,
Figure BDA00014588882700000715
服从多项式分布。可选的,在本发明中,α设为
Figure BDA00014588882700000716
β设置为0.01。
公式(4)为根据已知词与先前主题情况下推导主题的公式,公式(5)为Gibbs抽样的方法公式。公式(4)与公式(5)中,αk为主题为k时的先验参数,βk为词项为t时的先验参数,设置为固定值;V为已知词的数量;zi表示第i个单词对应的主题,z-i表示去掉第i个单词对应的主题后剩下的主题向量;
Figure BDA0001458888270000081
表示文档中的单词;
Figure BDA0001458888270000082
表示主题为k时出现词项t的次数,
Figure BDA0001458888270000083
表示主题为k时去掉第i个单词后词项t发生的次数。
Figure BDA0001458888270000084
表示主题为k时词项t发生的概率,当得到后,对每个主题下的单词利用概率值的大小从大到小进行排序并得到每个主题下词语概率排名,获取其所有单词并挑选前N个单词,N值为人为设定。
在其中一个实施例中,对各文本内容分别进行检测的步骤之前,包括以下步骤:
根据所有预设主题下的主题特征词生成特征词库;
对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:
根据预设符号分割各文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行逐一检测,每当文本单元的词与特征词库的任一主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
本实施例中,读取每个文档的文本内容后,将得到的文本内容根据预设符号分割成多个文本单元,对文本单元以词为单位进行检测,当检测的词到与特征词库的词一致时,将该文本单元作为文本数据增强项传送至临时存储区。对每个文档的文本内容检测完毕后,将文本数据增强项写入到对应文档中,其中,特征词库根据所有主题下的特征词生成的。本实施例能够增加含有主题排序靠前的词语的句子的数量以及主题排序靠前的词语的数量,使主题下的单词能够更好的描述主题,提高单词在主题中语义上的重要性,在数据稀疏的情况下更充分的挖掘数据主题信息,有效提高主题质量。
具体的,在根据所有文本内容获取到预设主题的主题特征词后,将所有的主题特征词读取到同一个临时存储器A中,生成特征词库。文档合集包含文档1,文档2,…,文档M,共m个文档。打开文档1,读取文档1中文本内容,将读取的文本内容按照一定的符号进行分割,得到多个文本单元。对所有文本单元进行以词为单位的一一检测,每当文本单元的词和特征词库中任一词相同时,将该文本单元传送到临时存储器B中一次,即假设一个文本单元中有q个词与特征词库中任一词相同,则将该文本单元传送到临时存储区B中q次。直至文本单元下所有的词检测完毕后,文本单元检测完成。每个文档的文本内容检测完毕后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭文档1。重复以上步骤m次,直至文档合集内的所有文档完成短文本数据增强。
可选的,本实施例中的符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”。
同样以新浪微博的数据为例进行说明,获得微博消息合集后,在根据所有微博消息获取到预设主题的主题特征词后,将所有的主题特征词读取到同一个临时存储器A中,生成特征词库。微博消息合集包含文档1,文档2,…,文档8618,共8618个文档。打开文档1,读取文档1中微博消息的文本内容,将读取的文本内容按照一定的符号进行分割,符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”,得到多个文本句子。对所有文本句子进行以词为单位的一一检测,每当文本句子中的词和特征词库中任意一个词相同时,将该文本句子传送到临时存储器B中一次,即假设一个文本句子中有q个词与特征词库中任一词相同,则将该文本句子传送到临时存储区B中q次。直至文本句子下所有的词检测完毕后,文本句子检测完成。每个文档的文本内容检测完毕后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本句子一一写入。写入完毕后,关闭文档1。重复以上步骤8618次,直至微博消息合集内的所有文档完成短文本数据增强。
计算原微博消息合集的Topic Coherence指标以及经过本实施例进行数据增强的微博消息合集的Topic Coherence指标,其中,LDA主题生成模型的主题数目k分别设置为5、10、15、20、25、35、40、45、50,N分别设置为10、20、30。将两个Topic Coherence指标进行对比,计算得出defeat ratio指标,具体实验结果如图3,从图中可以看出无论主题个数以及N取值多少中利用本实施例进行数据增强的微博消息合集的主题质量都好于原微博消息合集的主题质量。
在其中一个实施例中,对各文本内容分别进行检测的步骤之前,包括以下步骤:
根据所有预设主题下的主题特征词生成特征词库;
对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:根据预设符号分割各文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
本实施例中,读取每个文档的文本内容并将得到的文本内容分割成多个文本单元后,对文本单元以词为单位进行检测,每当检测到任意两个词与特征词库中任意两个词一致时,将该文本单元作为文本数据增强项传送至临时存储区。对每个文档的文本内容检测完毕后,将文本数据增强项写入到对应文档中,其中,特征词库根据所有主题下的特征词生成的。本实施例能够增加预设主题下文本中重要词语的共现,增加含有主题排序靠前的词语的句子的数量以及主题排序靠前的词语的数量,使主题下的单词能够更好的描述主题,提高单词在主题中语义上的重要性,在数据稀疏的情况下更充分的挖掘数据主题信息,有效提高主题质量。
具体的,在根据所有文本内容获取到预设主题的主题特征词后,将所有的主题特征词读取到同一个临时存储器A中,生成特征词库。文档合集包含文档1,文档2,…,文档M,共m个文档。打开文档1,读取文档1中文本内容,将读取的文本内容按照一定的符号进行分割,得到多个文本单元。对所有文本单元进行以词为单位的检测,每当文本单元的任意两个词和特征词库中任意两个词相同时,将该文本单元传送到临时存储器B中一次,即假设一个文本单元中有q个词与特征词库中任意一个词相同,则将该文本单元传送到临时存储区B中
Figure BDA0001458888270000111
次。直至文档的文本内容所有的文本单元检测完毕后,检测完成,在文档1的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭文档1。重复以上步骤m次,直至文档合集内的所有文档完成短文本数据增强。
可选的,本实施例中的符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”。
同样以新浪微博的数据为例进行说明,获得微博消息合集后,在根据所有微博消息获取到预设主题的主题特征词后,将所有的主题特征词读取到同一个临时存储器A中,生成特征词库。微博消息合集包含文档1,文档2,…,文档8618,共8618个文档。打开文档1,读取文档1中微博消息的文本内容,将读取的文本内容按照一定的符号进行分割,符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”,得到多个文本句子。对所有文本句子进行以词为单位的一一检测,每当文本句子中的词和特征词库中任意两个词相同时,将该文本句子传送到临时存储器B中一次。假设一个文本句子中有q个词与特征词库中任意两个词相同,则将该文本句子传送到临时存储区B中
Figure BDA0001458888270000112
次。直至文本句子下所有的词检测完毕后,文本句子检测完成。每个文档的文本内容检测完毕后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本句子一一写入。写入完毕后,关闭文档1。重复以上步骤8618次,直至微博消息合集内的所有文档完成短文本数据增强。
计算原微博消息合集的Topic Coherence指标以及经过本实施例进行数据增强的微博消息合集的Topic Coherence指标,其中,LDA主题生成模型的主题数目k分别设置为5、10、15、20、25、35、40、45、50,N分别设置为10、20、30。将两个Topic Coherence指标进行对比,计算得出defeat ratio指标,具体实验结果如图4,从图中可以看出无论主题个数k以及N取值多少中利用本实施例进行数据增强的微博消息合集的主题质量都好于原微博消息合集的主题质量。
在其中一个实施例中,对各文本内容分别进行检测的步骤之前,包括以下步骤:
根据每个预设主题下的主题特征词生成对应的主题特征词库;
对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:
根据预设符号分割文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与任一主题特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
本实施例中,读取每个文档的文本内容并将得到的文本内容分割成多个文本单元后,对文本单元以词为单位进行检测,每当检测到任意两个词与任意一个主题特征词库中任意两个词一致时,将该文本单元作为文本数据增强项传送至临时存储区。对每个文档的文本内容检测完毕后,将文本数据增强项写入到文档中,其中,主题特征词库根据每个主题下的特征词一一生成的。本实施例能够增加同一主题下文本中重要词语的共现,增加含有同一主题排序靠前的词语的句子的数量以及同一主题排序靠前的词语的数量,显示区分了同一主题下单词以及单词所在的句子的重要性,使主题下的词能够更好的描述主题,提高单词在主题中语义上的重要性,在数据稀疏的情况下更充分的挖掘数据主题信息,有效提高主题质量。
具体的,在根据所有文本内容获取到预设主题的主题特征词后,将第一个预设主题下的排名前N的词传送至临时存储器A1中,将第二个预设主题下的排名前N的词传送至临时存储区A2中,重复这一步骤,直至第k个预设主题下排名前N的词传送至临时存储区Ak中,生成每个预设主题下的主题特征词相对应的主题特征词库。文档合集包含文档1,文档2,…,文档M,共m个文档。打开文档1,读取文档1中文本内容,将读取的文本内容按照一定的符号进行分割,得到多个文本单元。对所有文本单元进行以词为单位的检测,每当文本单元的任意两个词和临时存储器A1至Ak其中一个临时存储区中的任意两个词相同时,将该文本单元传送到临时存储器B中一次,即假设一个文本单元中有q个词与其中一个临时存储区中的任意两个词相同,则将该文本单元传送到临时存储区B中
Figure BDA0001458888270000131
次。直至该文档中所有文本单元下所有的词检测完毕,检测完成后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭文档1。重复以上步骤m次,直至文档合集内的所有文档完成短文本数据增强。
可选的,本实施例中的符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”。
同样以新浪微博的数据为例进行说明,获得微博消息合集后,在根据所有微博消息获取到预设主题的主题特征词后,将第一个预设主题下的排名前N的词传送至临时存储器A1中,将第二个预设主题下的排名前N的词传送至临时存储区A2中,重复这一步骤,直至第k个预设主题下排名前N的词传送至临时存储区Ak中,生成每个预设主题下的主题特征词相对应的主题特征词库。微博消息合集包含文档1,文档2,…,文档8618,共8618个文档。打开文档1,读取文档1中微博消息的文本内容,将读取的文本内容按照一定的符号进行分割,符号可以选择为“,”、“。”、“!”、“?”、“,”、“.”、“!”、“?”,得到多个文本句子。对所有文本句子进行以词为单位的一一检测,每当文本句子中的任意两个词和其中一个主题特征词库中任意两个词相同时,将该文本句子传送到临时存储器B中一次,即假设一个文本单元中有q个词与其中一个临时存储区的任意一个词相同,则将该文本单元传送到临时存储区B中
Figure BDA0001458888270000132
次。文档中所有文本句子词检测完毕后,在文档1的文本内容末尾处将读取并传送到临时存储区的文本内容一一写入。写入完毕后,关闭文档1。重复以上步骤8618次,直至微博消息合集内的所有文档完成短文本数据增强。
计算原微博消息合集的Topic Coherence指标以及经过本实施例进行数据增强的微博消息合集的Topic Coherence指标,其中,LDA主题生成模型的主题数目k分别设置为5、10、15、20、25、35、40、45、50,N分别设置为10、20、30。将两个Topic Coherence指标进行对比,计算得出defeat ratio指标,具体实验结果如图5,从图中可以看出无论主题个数k以及N取值多少中利用本实施例进行数据增强的微博消息合集的主题质量都好于原微博消息合集的主题质量。
参见图6所示,图6为本发明另一个实施例的短文本数据增强方法的流程图,该实施例中短文本数据增强方法,包括以下步骤:
步骤S210:获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;
步骤S220:获取LDA主题生成模型参数,根据LDA主题生成模型参数构建LDA主题生成模型;其中,LDA主题生成模型参数包括短文本文档合集的已知词、预设主题数目、超参数;
步骤S230:采用LDA主题生成模型处理所有文本内容,得到每个主题下主题词的概率分布;
步骤S240:根据每个主题下的主题词概率分布获取每个主题下的主题特征词;其中,主题特征词为每个主题下的主题词概率排名为前N的主题词,N为预设数量;
步骤S250:根据所有预设主题下的主题特征词生成特征词库;
步骤S260:根据预设符号分割各文本内容为文本单元;
步骤S270:对各文本内容的所有文本单元以词为单位进行逐一检测,每当文本单元的词与特征词库的任一主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次;
步骤S280:将临时存储区中的各文本数据增强项分别写入对应的文档中。
本实施例中,获取文档合集,读取每个文档的文本内容后,利用LDA主题生成模型处理文本内容,获得每个主题下的主题特征词,并且根据所有主题下的主题特征词生成特征词库,将得到的文本内容根据预设符号分割成多个文本单元,对文本单元以词为单位进行检测,当检测的词到与特征词库的词一致时,将该文本单元作为文本数据增强项传送至临时存储区,对文档的文本内容检测完毕后,将文本数据增强项写入到文档中。本实施例能够增加含有主题排序靠前的词语的句子的数量以及主题排序靠前的词语的数量,使主题下的单词能够更好的描述主题,提高单词在主题中语义上的重要性,在数据稀疏的情况下更充分的挖掘数据主题信息,有效提高主题质量。
根据上述短文本数据增强方法,本发明还提供一种短文本数据增强系统,以下就本发明的短文本数据增强系统的实施例进行详细说明。
参见图7所示,图7为本发明一个实施例的短文本数据增强系统的结构示意图。该实施例中的短文本数据增强系统包括短文本获取模块310,特征增强项获取模块320,文本数据增强模块330;
短文本获取模块310,用于获取短文本文档合集,打开短文本文档合集内的所有文档,读取各文档的文本内容;
特征增强项获取模块320,用于将各文本内容作为文本数据增强项分别传送至临时存储区中;
文本数据增强模块330,用于将临时存储区中的各文本数据增强项分别写入对应的文档中。
本实施例中,短文本获取模块310读取文档的文本内容,特征增强项获取模块320将文本内容作为文本数据增强项传送至临时存储区中,文本数据增强模块330将文本数据增强项写入文档中,在不引用外部信息的情况下,利用自身数据信息,增加文本长度,增强主题信息,有效提高主题质量,缓解了文本内容过少、文本稀疏性太强而无法深入理解主题信息的问题,有利于文本主题的挖掘
在其中一个实施例中,短文本获取模块310根据所有文本内容获取预设主题的主题特征词;
特征增强项获取模块320对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中。
在其中一个实施例中,短文本获取模块310获取LDA主题生成模型参数,根据LDA主题生成模型参数构建LDA主题生成模型;其中,LDA主题生成模型参数包括短文本文档合集的已知词、预设主题数目、超参数;
采用LDA主题生成模型处理所有文本内容,得到每个主题下主题词的概率分布;
根据每个主题下的主题词概率分布获取每个主题下的主题特征词;其中,主题特征词为每个主题下的主题词概率排名为前N的主题词,N为预设数量。
在其中一个实施例中,特征增强项获取模块320对文本内容进行检测之前,根据所有预设主题下的主题特征词生成特征词库;
根据预设符号分割各文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行逐一检测,每当文本单元的词与特征词库的任一主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
在其中一个实施例中,特征增强项获取模块320对文本内容进行检测之前,根据所有预设主题下的主题特征词生成特征词库;
根据预设符号分割各文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
在其中一个实施例中,特征增强项获取模块320对文本内容进行检测之前,根据每个预设主题下的主题特征词生成对应的主题特征词库;
根据预设符号分割文本内容为文本单元;
对各文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与任一主题特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
本发明的短文本数据增强系统与本发明的短文本数据增强方法一一对应,在上述短文本数据增强方法的实施例阐述的技术特征及其有益效果均适用于短文本数据增强系统的实施例中,特此声明。
本发明还提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述任一实施例的短文本数据增强方法的步骤。
该计算机设备中的处理器所执行的方法与上述实施例中短文本数据增强方法相同,此处不再赘述。
本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的短文本数据增强方法的步骤。
该计算机可读存储介质所执行的方法与上述实施例中的短文本数据增强方法相同,此处不再赘述。
本发明还提供一种检测认证服务平台,在获取用户搜索内容后,利用上述的短文本数据增强方法对用户搜索内容进行特征增强。
上述检测认证服务平台,在获取用户搜索内容后,利用上述的短文本数据增强方法对用户搜索内容进行数据增强,以便深入理解用户搜索内容,理解其主题信息,使主题下的单词能够更好的描述主题,从而为消费者提供更加匹配搜索内容的检测认证服务,满足消费者需求,间接提高入驻在检测认证平台上检测认证机构的收益。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种短文本数据增强方法,其特征在于,包括以下步骤:
获取短文本文档合集,打开所述短文本文档合集内的所有文档,读取各所述文档的文本内容;
将各所述文本内容作为文本数据增强项分别传送至临时存储区中;
将所述临时存储区中的各文本数据增强项分别写入对应的文档中;
其中,所述读取各所述文档的文本内容步骤之后,包括以下步骤:
根据所有文本内容获取预设主题的主题特征词;
所述将各所述文本内容作为文本数据增强项分别传送至临时存储区中的步骤包括以下步骤:
对各所述文本内容分别进行检测,若所述文本内容包含所述主题特征词,将所述文本内容作为文本数据项传送至临时存储区中;
其中,所述根据所有文本内容获取预设主题的主题特征词步骤包括以下步骤:
获取LDA主题生成模型参数,根据所述LDA主题生成模型参数构建LDA主题生成模型;其中,所述LDA主题生成模型参数包括短文本文档合集的已知词、预设主题数目、超参数;
采用LDA主题生成模型处理所有所述文本内容,得到每个主题下主题词的概率分布;
根据每个主题下的主题词概率分布获取每个主题下的主题特征词;其中,所述主题特征词为每个主题下的主题词概率排名为前N的主题词,N为预设数量。
2.根据权利要求1所述的短文本数据增强方法,其特征在于,所述对各所述文本内容分别进行检测的步骤之前,包括以下步骤:
根据所有预设主题下的主题特征词生成特征词库;
所述对各所述文本内容分别进行检测,若所述文本内容包含所述主题特征词,将所述文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:
根据预设符号分割各所述文本内容为文本单元;
对各所述文本内容的所有文本单元以词为单位进行逐一检测,每当文本单元的词与所述特征词库的任一主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
3.根据权利要求1所述的短文本数据增强方法,其特征在于,所述对各所述文本内容分别进行检测的步骤之前,包括以下步骤:
根据所有预设主题下的主题特征词生成特征词库;
所述对各所述文本内容分别进行检测,若所述文本内容包含所述主题特征词,将所述文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:
根据预设符号分割各所述文本内容为文本单元;
对各所述文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与所述特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
4.根据权利要求1所述的短文本数据增强方法,其特征在于,所述对各所述文本内容分别进行检测的步骤之前,包括以下步骤:
根据每个预设主题下的主题特征词生成对应的主题特征词库;
所述对各所述文本内容分别进行检测,若所述文本内容包含所述主题特征词,将所述文本内容作为文本数据项传送至临时存储区中的步骤包括以下步骤:
根据预设符号分割所述文本内容为文本单元;
对各所述文本内容的所有文本单元以词为单位进行检测,每当文本单元的任意两个词与任一主题特征词库的任意两个主题特征词一致时,将该文本单元内容作为文本数据增强项传送至临时存储区一次。
5.一种短文本数据增强系统,其特征在于,包括:
短文本获取模块,用于获取短文本文档合集,打开所述短文本文档合集内的所有文档,读取各所述文档的文本内容;
特征增强项获取模块,用于将各所述文本内容作为文本数据增强项分别传送至临时存储区中;
文本数据增强模块,用于将所述临时存储区中的各文本数据增强项分别写入对应的文档中;
其中,短文本获取模块,还用于根据所有文本内容获取预设主题的主题特征词;
特征增强项获取模块,还用于对各文本内容分别进行检测,若文本内容包含主题特征词,将文本内容作为文本数据项传送至临时存储区中;
其中,短文本获取模块,还具体用于获取LDA主题生成模型参数,根据LDA主题生成模型参数构建LDA主题生成模型;其中,LDA主题生成模型参数包括短文本文档合集的已知词、预设主题数目、超参数;采用LDA主题生成模型处理所有文本内容,得到每个主题下主题词的概率分布;根据每个主题下的主题词概率分布获取每个主题下的主题特征词;其中,主题特征词为每个主题下的主题词概率排名为前N的主题词,N为预设数量。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述的短文本数据增强方法的步骤。
7.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项所述的短文本数据增强方法的步骤。
8.一种检测认证服务平台,其特征在于,在获取用户搜索内容后,利用权利要求1至4任一项所述的短文本数据增强方法对用户搜索内容进行特征增强。
CN201711080284.XA 2017-11-06 2017-11-06 短文本数据增强方法、系统及检测认证服务平台 Active CN107784112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711080284.XA CN107784112B (zh) 2017-11-06 2017-11-06 短文本数据增强方法、系统及检测认证服务平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711080284.XA CN107784112B (zh) 2017-11-06 2017-11-06 短文本数据增强方法、系统及检测认证服务平台

Publications (2)

Publication Number Publication Date
CN107784112A CN107784112A (zh) 2018-03-09
CN107784112B true CN107784112B (zh) 2020-03-03

Family

ID=61432957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711080284.XA Active CN107784112B (zh) 2017-11-06 2017-11-06 短文本数据增强方法、系统及检测认证服务平台

Country Status (1)

Country Link
CN (1) CN107784112B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931060B (zh) * 2020-08-25 2023-11-03 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN112069322B (zh) * 2020-11-11 2021-03-02 北京智慧星光信息技术有限公司 文本多标签分析方法、装置、电子设备及存储介质
CN113779959B (zh) * 2021-08-31 2023-06-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567290A (zh) * 2010-12-30 2012-07-11 百度在线网络技术(北京)有限公司 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN103530345A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 短文本特征扩展及拟合特征库构建方法、装置
WO2017012678A1 (en) * 2015-07-20 2017-01-26 Nec Europe Ltd. Method and system for querying semantic information stored across several semantically enhanced resources of a resource structure
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567290A (zh) * 2010-12-30 2012-07-11 百度在线网络技术(北京)有限公司 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN103530345A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 短文本特征扩展及拟合特征库构建方法、装置
WO2017012678A1 (en) * 2015-07-20 2017-01-26 Nec Europe Ltd. Method and system for querying semantic information stored across several semantically enhanced resources of a resource structure
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于LDA特征扩展的短文本分类";吕超镇 等;《计算机工程与应用》;20140711;第123-127页 *

Also Published As

Publication number Publication date
CN107784112A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
Shi et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
Ruder et al. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN107784112B (zh) 短文本数据增强方法、系统及检测认证服务平台
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN103150382A (zh) 基于开放知识库的短文本语义概念自动化扩展方法及系统
Bartle et al. Gender classification with deep learning
Gao et al. Text classification research based on improved Word2vec and CNN
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion
Ayral et al. An automated domain specific stop word generation method for natural language text classification
CN106569989A (zh) 一种用于短文本的去重方法及装置
Uddin et al. Extracting severe negative sentence pattern from bangla data via long short-term memory neural network
Tan et al. Newsstories: Illustrating articles with visual summaries
CN115878761B (zh) 事件脉络生成方法、设备及介质
Cao et al. A joint model for text and image semantic feature extraction
Rossi et al. Legal search in case law and statute law
CN109446321B (zh) 一种文本分类方法、装置、终端及计算机可读存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
WO2022262632A1 (zh) 网页搜索方法、装置及存储介质
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
Sharma et al. Fake News Detection Using Deep Learning Based Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant