CN112988981A - 一种基于遗传算法的自动标注方法 - Google Patents

一种基于遗传算法的自动标注方法 Download PDF

Info

Publication number
CN112988981A
CN112988981A CN202110525248.XA CN202110525248A CN112988981A CN 112988981 A CN112988981 A CN 112988981A CN 202110525248 A CN202110525248 A CN 202110525248A CN 112988981 A CN112988981 A CN 112988981A
Authority
CN
China
Prior art keywords
word
topic
words
chromosome
comments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110525248.XA
Other languages
English (en)
Other versions
CN112988981B (zh
Inventor
高翠芸
王轩
徐增林
臧婧雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110525248.XA priority Critical patent/CN112988981B/zh
Publication of CN112988981A publication Critical patent/CN112988981A/zh
Application granted granted Critical
Publication of CN112988981B publication Critical patent/CN112988981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R={r1,r2,…,rn},获得相应的词汇D={ω12,...,ωd},话题β={β12,...,βk};步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子。本发明的有益效果是:利于开发者和用户了解应用评论。

Description

一种基于遗传算法的自动标注方法
技术领域
本发明涉及数据处理领域,尤其涉及一种基于遗传算法的自动标注方法。
背景技术
用户评论是体验过应用程序的用户的直接反馈。从用户评论中检测到的新出现的问题,如现有的bug(如崩溃)和不利的应用功能(如广告太多),可以为应用开发者维护其应用和安排应用更新提供信息证据。用户评论提供了一种有效和高效的方法来识别应用程序的新问题,这将对开发人员有很大的帮助。
应用程序评论的一个明显特征是数量可观,这可能超过人类浏览所有评论的能力,而动态分析过程中的自动化过程可以及时提醒应用程序开发人员用户关心的问题或功能,还可以帮助他们加快错误修复过程。
以前的一些研究是关于主题描述过程的自动化,主题通常由主题建模方法生成,如潜在狄利克雷分配、分层狄利克雷过程和聚类算法等。为了自动翻译主题,前人有在主题中重新排列关键词以细化其主题定义,也有提供了交互式方法来获得有意义的聚类结果,例如维护具有一致意义的聚类和移除包含异常值的聚类。
发明内容
本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:
步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式。
步骤2:主题建模;采用LDA主题建模方法,给定一个评论列表R = {r1, r2, … ,rn},获得相应的词汇D = {ω1, ω2, ..., ωd} ,n是评论的个数,d是词汇量的大小,ω表示一个特定的token,话题β = {β1, β2, ..., βk} ,k为主题数表示通过主题建模提取的主题。
步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子,从而完成对主题的标注。
作为本发明的进一步改进,在所述步骤3中,还包括执行以下步骤:
步骤30:染色体结构;用两个单词标注主题,对于每个主题,收集前k个单词作为整个数据集,每个个体都由所选两个单词的索引来表示。
步骤31:适应度参数;基于单词一致性、单词概率、用户评级、一个主题中的单词相似度以及与其他主题中的单词差异度来估计适应度参数。
步骤32:遗传算子;遗传算子包括交叉和变异;用单词索引作为基因表示,通过索引号的改变表达交叉和变异。
作为本发明的进一步改进,在所述步骤31中,单词一致性具体包括:
将单词一致性得分的值限制在0到1之间,计算基于一个主题中包含前k个单词的评论,单词x和y的一致性得分为:
Figure 375302DEST_PATH_IMAGE001
其中f1表示5个适应度参数的第一个,即单词一致性,c是染色体号,p(x)表示单词x出现在该主题的评论集合中的概率,即p(x)=包含x的评论的数量/评论文本的数量,p(y)表示单词y出现在该主题的评论集合中的概率,即p(y)=包含y的评论的数量/评论文本的数量,p(x, y)表示单词x和 y在一篇评论中同时出现的概率。
作为本发明的进一步改进,在所述步骤31中,单词概率表示一个单词属于每个主题的概率,所以在一个特定的题目βi中,对于每个带有单词x和y的染色体c,单词概率的得分由下式定义:
Figure 354759DEST_PATH_IMAGE002
其中f2表示5个适应度参数的第二个,即单词概率;c为染色体号,pxβi表示单词x属于话题βi的概率,pyβi表示单词y属于话题βi的概率。
作为本发明的进一步改进,在所述步骤31中,用户评级具体包括:
在项目中,为了获得对开发人员更有用的标签,对评分较高的评论进行惩罚,并通过以下方式对评分较低的评论进行优先排序:
Figure 698278DEST_PATH_IMAGE003
其中f3表示5个适应度参数的第三个,即用户评分,r表示包含染色体c中单词的评论的平均用户评级。
作为本发明的进一步改进,在所述步骤31中,一个主题中的单词相似度具体包括:
对于具有前k个单词的主题βI,染色体c的单词相似度由其平均海林格距离计算:
Figure 155804DEST_PATH_IMAGE004
其中f4表示5个适应度参数的第四个,即单词相似度,x和y是构成染色体的单词,H(x)表示单词x和主题βi中其他单词之间的平均海林格距离,H(y)表示单词y和主题βi中其他单词之间的平均海林格距离。
作为本发明的进一步改进,在所述步骤31中,其他主题中的单词差异度也是基于海林格距离的,海林格距离的目的是使不同主题的标签距离最大化,它可以定义为:
Figure 563652DEST_PATH_IMAGE005
其中f5表示5个适应度参数的第五个,即单词差异度,c是染色体号,H(x)表示单词x和除话题βi以外的所有其他话题中的单词之间的平均海林格距离;
每个染色体c的适应度值通过下式计算:
Figure 448431DEST_PATH_IMAGE006
其中,wi是平衡每个分数的参数,0≤ wi≤1;Score(c)表示每个染色体c的适应度值,Scoref1(c)表示单词一致性得分。
作为本发明的进一步改进,在所述步骤32中,采用单点交叉,即采用2个单词索引表示染色体,故直接将父染色体的第二个索引修改为母染色体的第二个索引,母染色体的第二个索引修改为父染色体的第二个索引,产生两个后代。
作为本发明的进一步改进,在所述步骤32中,采用单词索引号表示基因序列,突变操作即将某一个索引号以小概率反转为另一个也在词汇表上的单词索引号。
作为本发明的进一步改进,在所述步骤1中,还包括评论嘈杂词的过滤,即删除标记的非信息性评论中经常出现的嘈杂的单词。
本发明的有益效果是:在本发明中,我们的目标是自动解释由主题建模方法生成的主题,提出的主题标注方法采用遗传算法,试图获得一个最优的主题标注。本发明可以用于了解用户对应用的评论,有利于开发者进一步开发或改进应用;本发明也可以被手机市场利用,及时呈现应用的特点,方便用户选择应用。
附图说明
图1是本发明遗传算法的自动标注方法流程图;
图2是本发明遗传算法的原理图。
具体实施方式
本发明公开了一种基于遗传算法的自动标注方法,如图1、图2所示,创新性地将遗传算法应用在主题标注领域,设计适合该场景的染色体结构、遗传算子以及适应度参数,以达到显著性的结果。
遗传算法是受自然选择和自然遗传学进化思想启发的自适应启发式搜索方法。基本概念是模拟自然系统中对进化至关重要的过程。对每个个体的评价涉及5个要素: 单词一致性、单词概率、用户评分、一个主题中的单词相似性以及与其他主题中的单词不相似性(单词不相似性也叫单词差异度)。这里的词概率是通过主题建模方法生成的(我们在项目中使用LDA)。单词一致性旨在使标签更容易被人理解,更像一个短语。
本发明公开的一种基于遗传算法的自动标注方法,包括依次执行以下步骤:
步骤1:预处理;
我们在一篇评论中删除长度小于两个单词的评论和所有非字母数字字符,然后我们取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,我们将单词简化为词根形式。
无意义和有用的评论通常是混合在一起的,这可能会影响主题提取和后续为了解决这个问题,我们只需删除标记的非信息性评论中经常出现的45个嘈杂的单词。
用于过滤评论的嘈杂词包括:app, apps, good, excellent, awesome, please,they, i, facebook, instagram, templerun, very, too, like,love, nice, ok,yeah, amazing, lovely, perfect, much, bad, best, yup, suck, much, super, hi,thank, thanks, great, really, omg, gud, loved, liked, thats, yes, cool, fine,hello, god, alright, poor。
步骤2:主题建模;
主题建模是提取集合中潜在“主题”以及去除噪声的典型方式,其中每个评论被视为由一组潜在主题组成。主题建模中的每一个主题都以单词的分类分布为特征,在用户评论中捕捉一个主题。因此,主题很好地揭示了用户想要谈论的内容。我们采用LDA——一种规范的主题建模方法,给定一个评论列表R = {r1, r2, … , rn},n是评论的个数,我们就可以简单地获得相应的词汇D = {ω1, ω2, ..., ωd} (d是词汇量的大小,ω表示一个特定的token),话题β = {β1, β2, ..., βk} k为主题数,表示通过主题建模提取的主题。评论r也可以表示为主题β的概率分布,如表1所示。
表1: 评论-主题矩阵
β<sub>1</sub> β<sub>2</sub> β<sub>k</sub>
r<sub>1</sub> p<sub>11</sub> p<sub>12</sub> p<sub>1k</sub>
r<sub>2</sub> p<sub>21</sub> p<sub>22</sub> p<sub>2k</sub>
r<sub>n</sub> p<sub>n1</sub> p<sub>n2</sub> p<sub>nk</sub>
步骤3:基于遗传算法的主题标注;
设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子,从而完成对主题的标注。
我们设计了一种遗传算法来自动标注每个主题。可能的标签可以是单词、短语或句子的形式;然而,句子太长,不能作为一个分支的标签,单个单词携带的语义信息不足,人们无法完全理解主题。所以我们在项目中使用两个单词作为主题标签,直观地将两个单词的结果视为一个短语。一个好的主题标签应该涵盖该主题中的单词信息,并与其他主题的标签区分开来。
在所述步骤3中,还包括执行以下步骤:
步骤30:染色体结构;
主题标记过程是逐主题执行的。如上所述,两个单词的术语被认为是候选标签。对于每个主题,我们收集前k个单词作为整个数据集,每个个体都由所选两个单词的索引来表示,与一般遗传算法采用二进制编码表示基因不同,我们选择单词索引作为基因表示。例如,2,56表示索引为2和56的单词包含一个个体或染色体。
步骤31:适应度参数;
适应度参数是基于四个要素来估计的:单词概率、单词一致性、用户评级、一个主题中的单词相似性以及与其他主题中的单词不相似性。
(1)单词一致性
我们假设如果两个词最经常出现在一篇评论中,那么这两个词具有更高的一致性。受PMI(逐点互信息)的启发,我们设计了自己的一致性评估方法,将单词一致性得分的值限制在0到1之间,PMI是信息论和统计学中使用的一种关联度量。计算基于一个主题中包含前k个单词的评论。单词x和y的一致性得分为
Figure 276316DEST_PATH_IMAGE001
其中f1表示5个适应度参数的第一个,即单词一致性,c是染色体号。p(x)表示单词x出现在该主题的评论集合中的概率,即p(x)=包含x的评论的数量/评论文本的数量,p(y)表示单词y出现在该主题的评论集合中的概率,即p(y)=包含y的评论的数量/评论文本的数量,p(x, y)表示单词x和 y在一篇评论中同时出现的概率。
(2)单词概率
单词概率表示一个单词属于每个主题的概率。所以在一个特定的题目βi中,对于每个带有单词x和y的染色体c,单词概率的得分由下式定义
Figure 475216DEST_PATH_IMAGE002
其中f2表示5个适应度参数的第二个,即单词概率。c为染色体号。pxβi表示单词x属于话题βi的概率,pyβi表示单词y属于话题βi的概率。
(3)用户评级
一般来说,应用程序开发人员更关心评分较低的用户评论,因为这些评论往往会提供一些关于软件bug或有趣功能的信息。因此,在项目中,为了获得对开发人员更有用的标签,我们对评分较高的评论进行惩罚,并通过以下方式对评分较低的评论进行优先排序
Figure 206412DEST_PATH_IMAGE003
其中f3表示5个适应度参数的第三个,即用户评分。r表示包含染色体c中单词的评论的平均用户评级。
(4)单词相似度
好的标签应该覆盖题目中概率较高的词所代表的一般信息。对于具有前k个单词的主题βI,染色体c的单词相似度由其平均海林格距离计算:
Figure 262093DEST_PATH_IMAGE004
其中f4表示5个适应度参数的第四个,即单词相似度。x和y是构成染色体的单词,H(x)表示单词x和主题βi中其他单词之间的平均海林格距离,H(y)表示单词y和主题βi中其他单词之间的平均海林格距离。
(5)单词差异度
与单词相似度的计算类似,单词相异度也是基于海林格距离的,海林格距离的目的是使不同主题的标签距离最大化。它可以定义为
Figure 78739DEST_PATH_IMAGE005
其中f5表示5个适应度参数的第五个,即单词差异度,c是染色体号。H(x)表示单词x和除话题βi以外的所有其他话题中的单词之间的平均海林格距离。
每个染色体c的适应度值通过下式计算:
Figure 113953DEST_PATH_IMAGE006
其中,wi是平衡每个分数的参数,0≤ wi≤1,Score(c)表示每个染色体c的适应度值,Scoref1(c)表示单词一致性得分。
步骤32:遗传算子;
遗传算子包括交叉和变异;以往都用二进制编码表示基因,通过改变里面部分比特位实现交叉和变异。在这里,我们用单词索引作为基因表示,通过索引号的改变表达交叉和变异。
交叉是通过重组染色体为下一代创造新的个体。在这里,我们采用单点交叉。以往的遗传算法单点交叉是选择父母二进制编码中的相同位置切断,并且在每个父母的染色体上交叉点之后的部分被交换以产生两个新的后代。本发明采用2个单词索引表示染色体,故直接将父染色体的第二个索引修改为母染色体的第二个索引,母染色体的第二个索引修改为父染色体的第二个索引,产生两个后代。
关于突变,以往的遗传算法是通过将二进制编码中一个比特位从1变为0或者从0变为1,从而改变整个基因序列的表达。本发明采用单词索引号表示基因序列,故突变操作即将某一个索引号以小概率反转为另一个也在词汇表上的单词索引号。
本发明公开的一种基于遗传算法的自动标注方法,还包括评估。我们对谷歌游戏的两个应用程序(脸书和脸书桌面窗口聊天客户端)的用户评论进行了评估。脸书的数据包含6636条评论,平均长度为42个单词,脸书桌面窗口聊天客户端收集涉及5855条评论,平均长度为44个单词。
表2的5列对应了脸书的5个话题,每个话题的前10个单词在表3的4-13行列出,本发明的模型的标签在表2的第二行中描述。因为在预处理步骤中,本发明将单词变成词根,所以结果短语由词根化的词组成。为了证明本发明的方法的有效性,本发明与现有方法进行了比较,现有方法的结果在第三行描述。通过比较发现如话题1,本发明的方法捕获到了主题,即“消息很少”这一问题,而现有方法“运作良好”表意不明,本发明的结果更加精确。后面4个话题中本发明的方法结果也更有信息量。
表2 脸书上使用w1= 0.9、w2= 0.95、w3= 0.5、w4= 0.7、w5= 0.95的适应度函数F1(c)的前5个主题模型的短语,我们使用每个主题模型的前50个关键词。
表2 脸书中使用适应度函数的前5个主题模型的短语
话题1 话题2 话题3 话题4 话题5
消息很少 下载崩溃 发送消息 呼叫时特征 聊天很多
运作良好 个人信息 持续说 习惯于让 老朋友
运作 电话 消息 打星 使用
完美地 使用 修复 日志 聊天
下载 更新 消息 朋友
消息 通知 简单
想要 获得 视频 方式
需要 促使 时间 选项 呼叫
合适 安装 连接 发送 连接
提高 需要 发送 呼叫 使得
消息 使得 打开 更好 人们
问题 讨厌 运作 将要 头部
本发明的有益效果:在本发明中,我们的目标是自动解释由主题建模方法生成的主题,提出的主题标注方法采用遗传算法,试图获得一个最优的主题标注。它可以用于了解用户对应用的评论,有利于开发者进一步开发或改进应用,它也可以被手机市场利用,及时呈现应用的特点,方便用户选择应用。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于遗传算法的自动标注方法,其特征在于,包括依次执行以下步骤:
步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;
步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R = {r1, r2, … , rn},获得相应的词汇D = {ω1, ω2, ..., ωd} ,n是评论的个数,d是词汇量的大小,ω表示一个特定的token,话题β = {β1, β2, ..., βk}, k为主题数,表示通过主题建模提取的主题;
步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子,从而完成对主题的标注。
2.根据权利要求1所述的自动标注方法,其特征在于,在所述步骤3中,还包括执行以下步骤:
步骤30,染色体结构:用两个单词标注主题,对于每个主题,收集前k个单词作为整个数据集,每个个体都由所选两个单词的索引来表示;
步骤31,适应度参数:基于单词一致性、单词概率、用户评级、一个主题中的单词相似度以及与其他主题中的单词差异度来估计适应度参数;
步骤32,遗传算子:遗传算子包括交叉和变异;用单词索引作为基因表示,通过索引号的改变表达交叉和变异。
3.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤31中,单词一致性具体包括:
将单词一致性得分的值限制在0到1之间,计算基于一个主题中包含前k个单词的评论,单词x和y的一致性得分为:
Figure 713192DEST_PATH_IMAGE001
其中f1表示5个适应度参数的第一个,即单词一致性,c是染色体号,p(x)表示单词x出现在该主题的评论集合中的概率,即p(x)=包含x的评论的数量/评论文本的数量,p(y)表示单词y出现在该主题的评论集合中的概率,即p(y)=包含y的评论的数量/评论文本的数量,p(x, y)表示单词x和 y在一篇评论中同时出现的概率。
4.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤31中,单词概率表示一个单词属于每个主题的概率,所以在一个特定的题目βi中,对于每个带有单词x和y的染色体c,单词概率的得分由下式定义:
Figure 692649DEST_PATH_IMAGE002
f2表示5个适应度参数的第二个,即单词概率;c为染色体号,pxβi表示单词x属于话题βi的概率,pyβi表示单词y属于话题βi的概率。
5.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤31中,用户评级具体包括:
在项目中,为了获得对开发人员更有用的标签,对评分较高的评论进行惩罚,并通过以下方式对评分较低的评论进行优先排序:
Figure 285436DEST_PATH_IMAGE003
其中f3表示5个适应度参数的第三个,即用户评分;r表示包含染色体c中单词的评论的平均用户评分。
6.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤31中,一个主题中的单词相似度具体包括:
对于具有前k个单词的主题βI,染色体c的单词相似度由其平均海林格距离计算:
Figure 742962DEST_PATH_IMAGE004
其中f4表示5个适应度参数的第四个,即单词相似度;x和y是构成染色体的单词,H(x)表示单词x和主题βi中其他单词之间的平均海林格距离,H(y)表示单词y和主题βi中其他单词之间的平均海林格距离。
7.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤31中,其他主题中的单词差异度也是基于海林格距离的,海林格距离的目的是使不同主题的标签距离最大化,它可以定义为:
Figure 603340DEST_PATH_IMAGE005
其中f5表示5个适应度参数的第五个,即单词差异度,c是染色体号,H(x)表示单词x和除话题βi以外的所有其他话题中的单词之间的平均海林格距离;
每个染色体c的适应度值通过下式计算:
Figure 284857DEST_PATH_IMAGE006
其中,wi是平衡每个分数的参数,0≤ wi≤1,Score(c)表示每个染色体c的适应度值,Scoref1(c)表示单词一致性得分。
8.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤32中,采用单点交叉,即采用2个单词索引表示染色体,故直接将父染色体的第二个索引修改为母染色体的第二个索引,母染色体的第二个索引修改为父染色体的第二个索引,产生两个后代。
9.根据权利要求2所述的自动标注方法,其特征在于,在所述步骤32中,采用单词索引号表示基因序列,突变操作即将某一个索引号以小概率反转为另一个也在词汇表上的单词索引号。
10.根据权利要求1所述的自动标注方法,其特征在于,在所述步骤1中,还包括评论嘈杂词的过滤,即删除标记的非信息性评论中经常出现的嘈杂的单词。
CN202110525248.XA 2021-05-14 2021-05-14 一种基于遗传算法的自动标注方法 Active CN112988981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525248.XA CN112988981B (zh) 2021-05-14 2021-05-14 一种基于遗传算法的自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525248.XA CN112988981B (zh) 2021-05-14 2021-05-14 一种基于遗传算法的自动标注方法

Publications (2)

Publication Number Publication Date
CN112988981A true CN112988981A (zh) 2021-06-18
CN112988981B CN112988981B (zh) 2021-10-15

Family

ID=76337691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525248.XA Active CN112988981B (zh) 2021-05-14 2021-05-14 一种基于遗传算法的自动标注方法

Country Status (1)

Country Link
CN (1) CN112988981B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429109A (zh) * 2022-04-06 2022-05-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的自动用户评论摘要的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060218140A1 (en) * 2005-02-09 2006-09-28 Battelle Memorial Institute Method and apparatus for labeling in steered visual analysis of collections of documents
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN110059756A (zh) * 2019-04-23 2019-07-26 东华大学 一种基于多目标优化的多标签分类系统
CN111462915A (zh) * 2020-03-20 2020-07-28 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
US20210004690A1 (en) * 2019-07-01 2021-01-07 Siemens Aktiengesellschaft Method of and system for multi-view and multi-source transfers in neural topic modelling
CN112765367A (zh) * 2021-01-28 2021-05-07 杭州泰一指尚科技有限公司 一种主题知识图谱构建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060218140A1 (en) * 2005-02-09 2006-09-28 Battelle Memorial Institute Method and apparatus for labeling in steered visual analysis of collections of documents
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN110059756A (zh) * 2019-04-23 2019-07-26 东华大学 一种基于多目标优化的多标签分类系统
US20210004690A1 (en) * 2019-07-01 2021-01-07 Siemens Aktiengesellschaft Method of and system for multi-view and multi-source transfers in neural topic modelling
CN111462915A (zh) * 2020-03-20 2020-07-28 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
CN112765367A (zh) * 2021-01-28 2021-05-07 杭州泰一指尚科技有限公司 一种主题知识图谱构建方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PANICHELLA ANNIBAL: "How to Effectively Use Topic Models for Software Engineering Tasks", 《ICSE》 *
邓凯凯: "基于语境分类与遗传算法的微博情感分析方法", 《软件导刊》 *
雷叶: "在线评论的个性化选择算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
高翠芸: "An Online Topic Modeling Framework with Topics Automatically Labeled", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429109A (zh) * 2022-04-06 2022-05-03 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的自动用户评论摘要的方法

Also Published As

Publication number Publication date
CN112988981B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
Wang et al. Topic sentiment analysis in twitter: a graph-based hashtag sentiment classification approach
US20190102374A1 (en) Predicting future trending topics
US10853697B2 (en) System and method for monitoring online retail platform using artificial intelligence and fixing malfunction
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
US10373067B1 (en) Domain-specific sentiment keyword extraction with weighted labels
Bora Summarizing public opinions in tweets
CN108509417A (zh) 标题生成方法及设备、存储介质、服务器
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN104268130A (zh) 一种面向Twitter的社交广告可投放性分析方法
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN113392331A (zh) 文本处理方法及设备
US20220148049A1 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
CN112988981B (zh) 一种基于遗传算法的自动标注方法
CN111026866A (zh) 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN106227720A (zh) 一种app软件用户评论模式识别方法
Chakraborty et al. Rating Generation of Video Games using Sentiment Analysis and Contextual Polarity from Microblog
CN117009524A (zh) 一种基于舆情情感分析的互联网大数据分析方法及系统
CN111310453A (zh) 一种基于深度学习的用户主题向量化表示方法和系统
CN114741088A (zh) 一种基于用户评论和开发者智慧的App源代码链接方法
Fatihin et al. Public Sentiment on User Reviews about Application in Handling COVID-19 using Naive Bayes Method and Support Vector Machine
CN113792545A (zh) 一种基于深度学习的新闻事件活动名称抽取方法
KR102642711B1 (ko) 콘텐츠에 대한 감성평가 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant