CN108717459B - 一种面向用户评论信息的移动应用缺陷定位方法 - Google Patents

一种面向用户评论信息的移动应用缺陷定位方法 Download PDF

Info

Publication number
CN108717459B
CN108717459B CN201810509592.8A CN201810509592A CN108717459B CN 108717459 B CN108717459 B CN 108717459B CN 201810509592 A CN201810509592 A CN 201810509592A CN 108717459 B CN108717459 B CN 108717459B
Authority
CN
China
Prior art keywords
comment information
user comment
defect
source code
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810509592.8A
Other languages
English (en)
Other versions
CN108717459A (zh
Inventor
张涛
陈嘉驰
罗夏朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810509592.8A priority Critical patent/CN108717459B/zh
Publication of CN108717459A publication Critical patent/CN108717459A/zh
Application granted granted Critical
Publication of CN108717459B publication Critical patent/CN108717459B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种面向用户评论信息的移动应用缺陷定位方法,包括收集用户评论信息、对用户评论信息进行聚类、通过微软概念图MCG计算用户评论信息和缺陷报告的概念相似度、利用自然语言处理技术对源代码进行数据预处理以及利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,从而返回缺陷发生的源代码类列表。本发明提出的基于用户评论信息的移动应用缺陷定位方法通过利用缺陷报告对用户评论信息进行信息加强和丰富,并通过改进的基于权重选择的余弦相似度算法计算文本相似度。另外,基于此方法开发出的缺陷定位系统FLARE比CHANGEADVISOR的性能更好。

Description

一种面向用户评论信息的移动应用缺陷定位方法
技术领域
本发明属于软件工程技术领域,特别是涉及一种面向用户评论信息的移动应用缺陷定位方法。
背景技术
在移动应用在线商店(比如Google Play Store和Apple Store)中,用户可以评价每一款移动应用(即Mobile apps)。一般地,用户可以给出评分(五颗星法)以及输入评论信息。这些评论信息可以用来指导开发者进行软件维护活动(比如缺陷定位)。通过基于对前50名最活跃的开发者(这些开发者修复最多的缺陷)的调查,结果表明81.6%的开发者通过用户评论信息定位和修复移动应用中的缺陷。然后,通过人工进行缺陷定位是一件非常耗时的工作。目前国内外对于移动应用的缺陷定位研究较少。唯一的一项基于用户评论信息进行缺陷定位的研究是Palomba等人在2017年软件工程领域国际顶级会议ICSE中提出的一种叫CHANGEADVISOR的方法。该方法通过计算源代码和经过聚类后的用户评论信息的相似度从而达到定位的目的。但CHANGEADVISOR的一个不足之处在于它会遗漏很多用户评论信息类和源代码之间的链接关系。换句话说,一定比例的用户评论信息并不能通过该方法定位到相应的源代码类(即class)中。其主要原因是因为用户评论信息包含的信息量较少,这会导致最终算法匹配的不成功。
发明内容
本发明为了解决现有的技术问题,提出一种面向用户评论信息的移动应用缺陷定位方法。
本发明的目的通过以下技术方案实现:一种面向用户评论信息的移动应用缺陷定位方法,包括以下步骤:
步骤1、收集用户评论等级小于或等于三颗星的用户评论信息并对用户评论信息进行分类,共分为五个类别,即信息获取、信息搜寻、属性请求、问题发现和其它,提取问题发现类别中的用户评论信息作为缺陷相关的评论信息;
步骤2、通过使用主题模型算法LDA对缺陷相关的评论信息进行聚类,按照主题的不同分为不同的用户评论信息簇;
步骤3、通过微软概念图MCG计算用户评论信息簇和缺陷报告的概念相似度,如果概念相似度大于预先设定的阈值,则所述缺陷报告视为与用户评论信息相关的缺陷报告,利用所述缺陷报告对用户评论信息簇进行内容加强,将所述加强后的用户评论信息簇作为查询条件构成后续缺陷定位的基础;
步骤4、利用自然语言处理技术对源代码进行数据预处理,进一步形成缺陷发生的源代码类集合;
步骤5、利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,如果相似度超过预先设定的阈值,系统将返回缺陷发生的源代码类列表,此时任务执行完毕。
进一步地,所述通过微软概念图MCG计算用户评论信息簇和缺陷报告的概念相似度,具体为:将一个单词转化为一个概念向量,从而一个文档便可以随之映射到向量空间Cd中,
Cd=θT·HM (1)
其中,θT表示词汇在文档中的TF-IDF权重值的向量,HM表示概念矩阵;TF-IDF权重值的计算如下所示:
其中,tft,d表示词汇t在文档d中出现的频率;代表逆向文档频率;N代表文档的总数,nt表示包含词汇t的文档数量;
所述概念矩阵是由文档中所有词汇的概念向量整合在一起的,通过矩阵的乘法,一个文档被转化为一个概念类别集合的向量空间,即Cd
在得到用户评论信息簇和缺陷报告的概念向量后,通过余弦相似度公式计算它们的概念相似度;余弦相似度公式如下所示:
其中,Ci表示根据公式(1)得出的用户评论信息簇clusteri的向量空间,Cj表示根据公式(1)得出的缺陷报告BRj的向量空间;ωki表示在用户评论信息簇中第k个词汇的概念向量和TF-IDF权重的乘积;ωki表示在缺陷报告中第k个词汇的概念向量和TF-IDF权重的乘积。
进一步地,所述利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,具体为:采用10叠交叉验证进行最佳权重值的筛选,所有强化后的用户评论信息簇被平均地分为10组,一组为测试集,其它组为训练集,以此类推进行循环验证,直到每一组都作为测试集验证完毕,当迭代次数达到200次后,则发现最佳权重值,在每一次迭代中,当排在top-K中的类不是正确的缺陷发生的源代码类时,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被降低一个步长,即0.05;当排在top K+1到最大数量中的类是正确的源代码类,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被增加一个步长,即0.05;其中K为推荐的缺陷发生的源代码类的个数;当F1分数达到最高后,该过程终止;F1分数是精确率和召回率的拟合值;筛选过程之后,将自动选择最佳的词汇权重值计算加强后的用户评论信息簇和源代码类之间的文本相似度。
附图说明
图1是面向用户评论信息的移动应用缺陷定位方法流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
FLARE缺陷定位系统主要是通过两阶段缺陷定位算法实现最终目标的。在第一阶段,FLARE系统对用户评论信息进行采集和分类,检索出与缺陷相关的评论信息并通过缺陷报告对其进行加强。在第二阶段,针对用户评论信息构成的每个簇,FLARE推荐出缺陷发生的类(class)列表。
结合图1,本发明提出一种面向用户评论信息的移动应用缺陷定位方法,所述FLARE缺陷定位系统执行以下步骤:
步骤1、收集用户评论等级小于或等于三颗星的用户评论信息并对用户评论信息进行分类,加载评论信息分析工具SURF执行用户评论信息的过滤和分类。在此过程中,包含无效信息(比如只包含“Thankyou!”之类的不含信息量的句子)的用户评论信息将被过滤掉。其他信息将会被分为五个类别,即信息获取、信息搜寻、属性请求、问题发现和其它,提取问题发现类别中的用户评论信息作为缺陷相关的评论信息;通过后续的人工校对,SURF对用户评论信息的分类精确率达到91.36%。因此输出的与缺陷相关的用户评论信息是较准确的。
步骤2、通过使用主题模型算法LDA对缺陷相关的评论信息进行聚类,按照主题的不同分为不同的用户评论信息簇(Topic 1-Topic N);
在聚类之前,首先对用户评论信息和缺陷报告进行预处理。系统加载python库NLTK和TEXTBLOB实现以下步骤:
分词:缺陷报告或者用户评论信息被切分成若干词汇,这些词汇被用来计算文本相似度。
停止词去除:一些停止词(比如“the”“a”“are”等)频繁出现在英文文本中但又对缺陷定位没有任何具体意义。根据WordNet停止词列表,系统将移除这些词汇。
词根化:所有的单词将会被转化为它们的根形态,也就是说第三人称单数,过去时和将来时等时态会被转化为词汇的原始形态。
名词和动词筛选:通过加载POS标签分类模块识别缺陷报告和用户评论信息中的动词和名词。只有这些词汇被用来计算文本相似度,因为它们是文本中最具有代表性意义的词汇。
经过预处理后,用户评论信息被用来进行聚类。系统加载phython的工具库gensim建立主题模型。该主题模型使用LDA对用户评论信息进行聚类。为达到最佳性能,主题数N从0-100进行自动调节,最佳参数被选择用来适应不同的数据集。作为最终结果,用户评论信息分为N个簇。
步骤3、通过微软概念图MCG(Microsoft Concept Graph)计算用户评论信息簇和缺陷报告的概念相似度,如果概念相似度大于预先设定的阈值,则所述缺陷报告视为与用户评论信息相关的缺陷报告,利用所述缺陷报告对用户评论信息簇进行内容加强,将所述加强后的用户评论信息簇作为查询条件构成后续缺陷定位的基础;所述通过微软概念图MCG计算用户评论信息簇和缺陷报告的概念相似度,具体为:将一个单词转化为一个概念向量,从而一个文档便可以随之映射到向量空间Cd中,
Cd=θT·HM (1)
其中,θT表示词汇在文档中的TF-IDF权重值的向量,HM表示概念矩阵;TF-IDF权重值的计算如下所示:
其中,tft,d表示词汇t在文档d中出现的频率;代表逆向文档频率;N代表文档的总数,nt表示包含词汇t的文档数量;
所述概念矩阵是由文档中所有词汇的概念向量整合在一起的,通过矩阵的乘法,一个文档被转化为一个概念类别集合的向量空间,即Cd
在得到用户评论信息簇和缺陷报告的概念向量后,通过余弦相似度公式计算它们的概念相似度;余弦相似度公式如下所示:
其中,Ci表示根据公式(1)得出的用户评论信息簇clusteri的向量空间,Cj表示根据公式(1)得出的缺陷报告BRj的向量空间;ωki表示在用户评论信息簇中第k个词汇的概念向量和TF-IDF权重的乘积;ωki表示在缺陷报告中第k个词汇的概念向量和TF-IDF权重的乘积。
当用户评论信息簇和缺陷报告的概念相似度分数大于预先设定的阈值时,此缺陷报告将会被标记为与用户评论信息相关的缺陷报告。此时用户评论信息簇和缺陷报告的链接建立。注意一个用户评论信息簇可能关联多个缺陷报告。
在得到用户评论信息簇和缺陷报告的链接后,缺陷报告被用来强化用户评论信息簇。作为最终结果,可能得到多个强化版本的用户评论信息簇。比如用缺陷报告BR1强化用户评论信息簇clusteri后,系统得到用户评论信息簇clusteri其中一个强化版本Eci1
步骤4、利用自然语言处理技术对源代码进行数据预处理,进一步形成缺陷发生的源代码类集合;
对源代码的预处理主要目的是移除噪音数据。除了进行步骤2中提到的所有预处理步骤外,还额外进行了以下三步:
(1)通过驼峰分裂法分离复合标识符:带下划线的情形,大写字母情形以及带有数字的情形。
(2)大写字母转化为小写字母。
(3)移除特殊字符。
步骤5、利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,如果相似度超过预先设定的阈值,系统将返回缺陷发生的源代码类列表,此时任务执行完毕。所述利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,具体为:采用10叠交叉验证进行最佳权重值的筛选,所有强化后的用户评论信息簇被平均地分为10组,一组为测试集,其它组为训练集,以此类推进行循环验证,直到每一组都作为测试集验证完毕,当迭代次数达到200次后,则发现最佳权重值,在每一次迭代中,当排在top-K中的类不是正确的缺陷发生的源代码类时,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被降低一个步长,即0.05;当排在top K+1到最大数量中的类是正确的源代码类,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被增加一个步长,即0.05;其中K为推荐的缺陷发生的源代码类的个数;当F1分数达到最高后,该过程终止;F1分数是精确率和召回率的拟合值;筛选过程之后,将自动选择最佳的词汇权重值计算加强后的用户评论信息簇和源代码类之间的文本相似度。最终保证达到最佳的缺陷定位性能。对于每一个用户评论信息簇的强化版本,系统都会得到一个最终的缺陷发生源码类的列表。对于一个评论信息簇的所有版本,最终将会把所有的列表取并集,得到缺陷发生源码类的最终列表。
基于权重选择的余弦相似度算法
输入:Ec:加强后的用户评论信息的簇集合;C:候选的缺陷发生的源代码类集合;Winit_ij:词汇j在Ci中的最初权重值;stepsize:步长值,用来调节词汇的权重;K:系统推荐的缺陷发生的源代码类的个数。
输出:得分最高的前K个缺陷发生的源代码类列表。
与CHANGEADVISOR相比,FLARE的创新之处在于以下两个方面:
1、针对CHANGEADVISOR无法处理用户评论信息中缺陷描述信息不足的问题,FLARE通过利用与用户评论信息相关的缺陷报告对原始用户评论信息进行内容加强,新生成的用户评论信息簇版本能够获得更好的缺陷定位性能。
2、在用户评论信息簇和源代码类进行相似度的计算时,FLARE采用了新开发的基于权重选择的余弦相似度计算算法,这种改进后的余弦相似度算法能够根据不同词汇的重要度赋予不同的权重,从而使得最终的定位结果更加准确。
通过对8个开源移动应用项目中的22,459条用户评论信息和1,117个缺陷报告进行的评估实验,表1显示出FLARE的性能优于CHANGEADVISOR。具体地,FLARE的F1分值比CHANGEADVISOR的F1分值高出8.37%。(注:F1分值为一种衡量模型精确度的指标,可以看作为准确率和召回率的加权平均值)
表1 FLARE和CHANGEADVISOR的缺陷定位性能比较
本发明提出的基于用户评论信息的移动应用缺陷定位方法通过利用缺陷报告对用户评论信息进行信息加强和丰富,并通过改进的基于权重选择的余弦相似度算法计算文本相似度。另外,基于此方法开发出的缺陷定位系统FLARE比CHANGEADVISOR的性能更好。
以上对本发明所提供的一种面向用户评论信息的移动应用缺陷定位方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种面向用户评论信息的移动应用缺陷定位方法,其特征在于,包括以下步骤:
步骤1、收集用户评论等级小于或等于三颗星的用户评论信息并对用户评论信息进行分类,共分为五个类别,即信息获取、信息搜寻、属性请求、问题发现和其它,提取问题发现类别中的用户评论信息作为缺陷相关的评论信息;
步骤2、通过使用主题模型算法LDA对缺陷相关的评论信息进行聚类,按照主题的不同分为不同的用户评论信息簇;
步骤3、通过微软概念图MCG计算用户评论信息簇和缺陷报告的概念相似度,如果概念相似度大于预先设定的阈值,则所述缺陷报告视为与用户评论信息相关的缺陷报告,利用所述缺陷报告对用户评论信息簇进行内容加强,将所述加强后的用户评论信息簇作为查询条件构成后续缺陷定位的基础;
步骤4、利用自然语言处理技术对源代码进行数据预处理,进一步形成缺陷发生的源代码类集合;
步骤5、利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,如果相似度超过预先设定的阈值,系统将返回缺陷发生的源代码类列表,此时任务执行完毕。
2.根据权利要求1所述的方法,其特征在于,所述通过微软概念图MCG计算用户评论信息簇和缺陷报告的概念相似度,具体为:将一个单词转化为一个概念向量,从而一个文档便可以随之映射到向量空间Cd中,
Cd=θT·HM (1)
其中,θT表示词汇在文档中的TF-IDF权重值的向量,HM表示概念矩阵;TF-IDF权重值的计算如下所示:
其中,tft,d表示词汇t在文档d中出现的频率;代表逆向文档频率;N代表文档的总数,nt表示包含词汇t的文档数量;
所述概念矩阵是由文档中所有词汇的概念向量整合在一起的,通过矩阵的乘法,一个文档被转化为一个概念类别集合的向量空间,即Cd
在得到用户评论信息簇和缺陷报告的概念向量后,通过余弦相似度公式计算它们的概念相似度;余弦相似度公式如下所示:
其中,Ci表示根据公式(1)得出的用户评论信息簇clusteri的向量空间,Cj表示根据公式(1)得出的缺陷报告BRj的向量空间;ωki表示在用户评论信息簇中第k个词汇的概念向量和TF-IDF权重的乘积;ωkj表示在缺陷报告中第k个词汇的概念向量和TF-IDF权重的乘积。
3.根据权利要求2所述的方法,其特征在于,所述利用基于权重选择的余弦相似度算法计算每一个由步骤3得出的查询条件和源代码类集合中的所有源代码类之间的相似度,具体为:采用10叠交叉验证进行最佳权重值的筛选,所有强化后的用户评论信息簇被平均地分为10组,一组为测试集,其它组为训练集,以此类推进行循环验证,直到每一组都作为测试集验证完毕,当迭代次数达到200次后,则发现最佳权重值,在每一次迭代中,当排在top-K中的类不是正确的缺陷发生的源代码类时,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被降低一个步长,即0.05;当排在top K+1到最大数量中的类是正确的源代码类,所有被强化后的用户评论信息簇和源代码类的公共词汇的权重将会被增加一个步长,即0.05;其中K为推荐的缺陷发生的源代码类的个数;当F1分数达到最高后,公共词汇的权重增减调整过程终止;F1分数是精确率和召回率的拟合值;筛选过程之后,将自动选择最佳的词汇权重值计算加强后的用户评论信息簇和源代码类之间的文本相似度。
CN201810509592.8A 2018-05-24 2018-05-24 一种面向用户评论信息的移动应用缺陷定位方法 Expired - Fee Related CN108717459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810509592.8A CN108717459B (zh) 2018-05-24 2018-05-24 一种面向用户评论信息的移动应用缺陷定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810509592.8A CN108717459B (zh) 2018-05-24 2018-05-24 一种面向用户评论信息的移动应用缺陷定位方法

Publications (2)

Publication Number Publication Date
CN108717459A CN108717459A (zh) 2018-10-30
CN108717459B true CN108717459B (zh) 2019-05-21

Family

ID=63900213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810509592.8A Expired - Fee Related CN108717459B (zh) 2018-05-24 2018-05-24 一种面向用户评论信息的移动应用缺陷定位方法

Country Status (1)

Country Link
CN (1) CN108717459B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783807B (zh) * 2018-12-21 2022-10-28 昆明理工大学 一种针对app软件缺陷的用户评论挖掘方法
CN110334180B (zh) * 2019-06-05 2023-03-31 南京航空航天大学 一种基于评论数据的移动应用安全性评估方法
CN110489758B (zh) * 2019-09-10 2023-04-18 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
CN112417300A (zh) * 2020-12-10 2021-02-26 平安普惠企业管理有限公司 产品漏洞方案查询方法、装置、电子设备及存储介质
CN114169926A (zh) * 2021-12-06 2022-03-11 广东好太太智能家居有限公司 基于用户评论的商品数据分析方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930277A (zh) * 2016-07-11 2016-09-07 南京大学 一种基于缺陷报告分析的缺陷源代码定位方法
CN107729258A (zh) * 2017-11-30 2018-02-23 扬州大学 一种面向软件版本问题的程序故障定位方法
CN107844414A (zh) * 2016-09-21 2018-03-27 南京大学 一种基于缺陷报告分析的跨项目、并行化缺陷定位方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440947B2 (en) * 2004-11-12 2008-10-21 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
US20090132860A1 (en) * 2007-11-21 2009-05-21 Inventec Corporation System and method for rapidly diagnosing bugs of system software
CN101231614B (zh) * 2008-02-02 2010-06-02 南京大学 一种基于执行轨迹块相似度的软件缺陷定位方法
CN101901185A (zh) * 2010-06-01 2010-12-01 南京大学 一种按类组织执行轨迹的面向对象程序缺陷定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930277A (zh) * 2016-07-11 2016-09-07 南京大学 一种基于缺陷报告分析的缺陷源代码定位方法
CN107844414A (zh) * 2016-09-21 2018-03-27 南京大学 一种基于缺陷报告分析的跨项目、并行化缺陷定位方法
CN107729258A (zh) * 2017-11-30 2018-02-23 扬州大学 一种面向软件版本问题的程序故障定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Recommending and Localizing Change Requests for Mobile Apps Based on User Reviews;Palomba,et al;《2017 IEEE/ACM 39th International Conference on Software Engineering (ICSE). IEEE Computer Society》;20170720;第1-13页

Also Published As

Publication number Publication date
CN108717459A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108717459B (zh) 一种面向用户评论信息的移动应用缺陷定位方法
Ma et al. Course recommendation based on semantic similarity analysis
CN104699730A (zh) 用于识别候选答案之间的关系的方法和系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
US10049148B1 (en) Enhanced text clustering based on topic clusters
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
US10387805B2 (en) System and method for ranking news feeds
CN111914532A (zh) 一种中文作文评分方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN110008309A (zh) 一种短语挖掘方法及装置
KR20190057282A (ko) 시나리오 패시지 분류기, 시나리오 분류기, 및 그것을 위한 컴퓨터 프로그램
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
WO2020170593A1 (ja) 情報処理装置及び情報処理方法
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN114328823A (zh) 数据库自然语言查询方法及装置、电子设备、存储介质
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN109299007A (zh) 一种缺陷修复者自动推荐方法
CN107908649B (zh) 一种文本分类的控制方法
CN109815337A (zh) 确定文章类别的方法及装置
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190521

Termination date: 20210524