CN106407113B - 一种基于Stack Overflow和commit库的bug定位方法 - Google Patents

一种基于Stack Overflow和commit库的bug定位方法 Download PDF

Info

Publication number
CN106407113B
CN106407113B CN201610824966.6A CN201610824966A CN106407113B CN 106407113 B CN106407113 B CN 106407113B CN 201610824966 A CN201610824966 A CN 201610824966A CN 106407113 B CN106407113 B CN 106407113B
Authority
CN
China
Prior art keywords
commit
word
class
library
bug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610824966.6A
Other languages
English (en)
Other versions
CN106407113A (zh
Inventor
孙小兵
赵书鹏
李斌
杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201610824966.6A priority Critical patent/CN106407113B/zh
Publication of CN106407113A publication Critical patent/CN106407113A/zh
Application granted granted Critical
Publication of CN106407113B publication Critical patent/CN106407113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种基于Stack Overflow和commit库的bug定位方法。本发明将用户提交的问题分解成问题段、代码段、stack trace段,使用RAKE算法提取出关键字匹配,计算所占比重,导出问题答案对,提取代码段,整合为问题代码段+答案代码段形式,使用RAKE提取关键字,设定为标签tag,再使用tag‑LDA对commit库处理,建立主题模型,匹配,筛选出匹配度大于等于0.3的commit相应代码段,进行文本相似度匹配和利用由节点组成的程序依赖图对堆栈追踪stack trace进行结构相似度匹配,计算30%×文本相似度+70%×结构相似度的结果并推荐。本发明克服了无视多人参与其中的众包知识库,bug定位的准确率不高的缺陷。本发明结合了Stack Overflow问题库和软件Commit库中的信息,来对bug做出更好更精确的定位,对Latent Dirichlet Allocation模型拓展应用。

Description

一种基于Stack Overflow和commit库的bug定位方法
技术领域
本发明属于软件bug定位领域,特别提出了一种基于Stack Overflow和commit库的bug定位方法。
背景技术
随着开源项目的逐渐流行,越来越多的软件开发者参与到开源项目之中,开源项目主持人与其他项目开发者常常将项目的更新代码上传到commit库中,修复一些在原来项目中存在问题。随着项目的不断扩大,开发者在对开源项目进行开发时,常常会遇到新的bug问题,为了解决遇到的bug问题,则需要对bug进行精确的定位。
对此,在之前的研究中,很多技术使用了LDA(Latent Dirichlet Ailocation),LSI(Latent Semantic Indexing),VSM(Vector Space Model)等模型对项目代码进行文本检索,Laura Moreno等人对上面的模型应用静态分析技术,即利用由软件系统的源代码中提取出的各种各样结构信息,如语法属性、数据流从属关系等,来加强相关代码元素与查询语句的关系。此外,还利用bug报告中的stack trace来进行Bug定位的方法。对bug定位的准确性做出了一些改善。
但该方法只是对单一的commit库或者项目代码,忽视了如今越来越多人参与其中的众包知识库,bug定位的准确率依旧不高。
发明内容
本发明的目的就在于克服上述缺陷,研制一种基于Stack Overflow和commit库的bug定位方法。
本发明的技术方案是:
一种基于stackoverflow和commit库的bug定位方法,其特征在于包括如下步骤:
(1)将用户提交的问题分解成问题段、代码段、stack trace段三个子段;
(2)根据步骤(1)所得到的问题段,先进行预处理,然后使用RAKE算法提取出关键字,将关键字对Stack Overflow问题库中的问题标签进行匹配,将每个问题答案对的标签与问题段的关键字进行比较,计算相同标签所占比重,导出比重最高的问题答案对;
(3)根据步骤(2)得出的答案,提取出其中的代码段,若步骤(1)分解后也 有代码段,则整合为问题代码段+答案代码段形式;
(4)对步骤(3)整合的结果,使用RAKE提取出关键字,设定为标签tag,再使用tag-LDA对commit库进行处理,建立主题模型,并结合标签进行匹配,筛选出匹配度大于等于0.3的commit相应代码段;
(5)对步骤(3)得出的结果的代码部分与步骤(4)得到的commit代码进行文本相似度匹配和利用由节点即类、class,有向线段即方法、method组成的程序依赖图对由步骤(1)分解得到的堆栈追踪stack trace进行结构相似度匹配;
(6)根据前面计算得到的文本相似度和结构相似度进行综合计算,计算30%×文本相似度+70%×结构相似度的结果,按计算结果大小进行结果推荐。
所述步骤(1)预处理过程包括以下步骤:
a)移除数字;
b)对一些按照驼峰规则和有下划短线相连的组合词进行分词;
c)去除英语停用词;
d)将词语的不同形式进行归一化;
所述步骤(2)RAKE算法的计算公式如下:
wordScore=wordDegree(w)/wordFrequency(w)
即单词w的得分是该单词的度(是一个网络中的概念,每与一个单词共现在一个短语中,度就加1,考虑该单词本身)除以该单词的词频(该单词在该文档中出现的总次数)。
然后对于每个候选的关键短语,将其中每个单词的得分累加,并进行排序,RAKE将候选短语总数的前三分之一的认为是抽取出的关键词。
所述步骤(2)标签匹配的计算公式如下:
匹配度=相同标签个数/所有不重复标签个数
所述步骤(5)文本相似度的计算公式如下:
其中A,B是表示文档一和文档二的量化表示。文档一和文档二经过分词,去停用词,移除数字,词根化等预处理过程,将剩余的单词按一定顺序数值化后形成向量A,B。在信息检索中,每个词条拥有不同的度,一个文档是由一个由有权值的特征向量表示的,权值的计算取决于词条在该文档中出现的频率。余弦相似度因此可以给出两篇文档其主题方面的相似度。
所述步骤(5)程序依赖图(Program Dependence Graph,PDG)的建立方法如下:程序中以类(class)作为节点,由一个节点到另一个节点的有向线段为前一个类的方法(method)调用后一个类的方法(method)
所述步骤(5)结构相似度的计算方法如下:
stackTrace和程序依赖图(PDG)中某一节点(类class)的距离
dist(stackTrace,e)为stackTrace上的类与该节点之间距离的最小值
其中,e为程序依赖图中的节点(类,class),λ为二者最远距离所述步骤(6)综合文本相似度和结构相似度方法如下:
Bug定位精准度下=文本相似度*30%+结构相似度*70%
本发明的优点和效果在于:
(1)目前bug定位技术主要针对单一库进行检索,功能不够完善。而本发明利用基于众包的知识库(Stack Overflow),来增加bug定位的准确率。
(2)本发明从文本相似度,结构相似度两个角度综合匹配commit相关代码库,给出较为准确的定位。
因此,本发明主要结合了Stack Overflow问题库和软件Commit库中的信息,来对bug做出更好更精确的定位,且使用了Tag-LDA模型来对commit库进行匹配,使用了RAKE算法来提取问题的关键字。Tag-LDA模型是对Latent Dirichlet Ailocation模型的一种拓展应用,本发明通过Tag-LDA主题模型,推荐和文档内容相关的多个标签,并且对每个标签和文章相关程度的概率进行估算,如图2是Tag-LDA主题模型的示意图。
RAKE(Rapid Automatic Keywords Extraction)算法对提出的问题、以及问题代码进行关键字提取。RAKE算法于被2010年提出,本发明应用RAKE算法来提取关键词(keyword)。
附图说明
图1——本发明整体流程图。
图2——本发明Tag-LDA模型的示意图。
图3——本发明Stack Overflow上用户提交的用户问题示例示意图。
图4——本发明Stack Overflow上的一个答案示例示意图。
图5——本发明Stack Overflow上的另一个答案示例示意图。
图6——本发明commit库中一个示例示意图。
图7——本发明中在文件JSONPath.java中修改代码的部分示意图。
图8——本发明中在文件JSONPath_4.java中修改代码的部分示意图。
具体实施方式
本发明提供一种基于Stack Overflow和commit库的bug定位方法,下面结合附图对本发明的技术方案进行详细说明:
(1)将用户提交的bug问题分解成问题段、代码段、stack trace段三个子段。如图3为Stack Overflow上用户提交的一个问题示例,为一个用户提交的问题,问题文档如下:
经过问题分解后,结果为
效果:将问题分解,利于对不同性质的文本进行查询,得到更准确的查询结果。
(2)根据分解得到的问题段Json’s key’s value is string type,when onlycontain numbers and‘.’There are some questions#735,先进行预处理,移除数字、停用词,进行分词等操作。
得到的文本为:Json key value string type number contain question然后使用RAKE算法进行关键字提取,RAKE算法计算过程为:
对Json,单词的度wordDegree(Json)=3,词频wordFrequency(Json)=1
得单词Json的得分wordScore=wordDegree(Json)/wordFrequency(Json)=3
同理,其他单词的得分分别为
wordScore(key)=wordDegree(type)/wordFrequency(type)=4/1=4,
wordScore(value)=wordDegree(value)/wordFrequency(value)=3/1=3,
wordScore(string)=wordDegree(string)/wordFrequency(string)=2/1,
wordScore(type)=wordDegree(type)/wordFrequency(type)=2/1=2,
wordScore(contain)=wordDegree(type)/wordFrequency(type)=2/1=2,
wordScore(number)=wordDegree(type)/wordFrequency(type)=2/1=2,
wordScore(question)=wordDegree(type)/wordFrequency(type)=1/1=1
排序后选取得分大于等于2的单词作为关键字,得到的关键字为key Json valuestring type contain number,共7个
将所得到的关键字对Stack Overflow历史问题库中的每个问题的标签进行匹配,将每个历史问题答案对的标签与第二步得到的关键字进行比较,计算相同标签所占比重。如下是问题库中的几个问题:
问题一:
NumberFormatException when parseing in Android and JSON.String-->
double
标签:json string android parsing double
问题二:
How to handle a NumberFormatException with Gson in deserialization aJSON
response
I′m reading a JSON response with Gson,which returns somtimes aNumberFormatException because an expected int value is set to an emptystring.Now I′m wondering what′s the best way to handle this kind ofexception.If the value is an empty string,the deserialization should be 0.
标签:java json deserialization gson
问题三:
NumberFormatException in GSON when converting String to double
I am working with a JSON response that is improperly formatted.Allfields are being returned as Strings.Unfortunately,l have no control over thereturn data.
根据公式:
匹配度=相同标签个数/所有不重复的标签个数
问题一的匹配度为2/10=0.2,问题二的匹配度为1/10=0.1,问题三的匹配度为1/10=0.1。
根据计算结果,提取出匹配度最高的问题一的问题答案对。
效果:Stack Overflow作为基于众包的软件工程领域最受欢迎的问答网站,其问题库中包含大量与开发相关的问题,利用Stack Overflow问题库,查找bug错误解答结果,给出更准确的定位。
(3)将步骤2得出的最优结果答案一中的代码提取,与问题的代码段结合,整合为问题代码段+答案代码段形式。
(4)对步骤3整合的结果,使用RAKE,即Rapid Automatic Keywords Extraction算法提取出关键字,同步骤2,推荐出关键字为String,JSON,java,NumberFormatException,exception,Double,将这些关键字设置为标签tag,使用tag-LDA对commit库主题进行处理,结合tag进行匹配,筛选出匹配度0.3以上的commit代码段。筛选出到如图6的两个commit代码段。
效果:准确快速匹配筛选出commit库中的结果
(5)对步骤3得出的结果的代码部分与步骤4得到的commit代码进行文本相似度匹配。
根据步骤4,对文件JSONPath.java和JSONPath_4.java中修改代码的部分预处理,包括分词,去停用词,移除数字,词根化等,过后:
文件JSONPath.java中修改部分的向量表示为D1
(<String,3>,<JSON,2>,<Segment,4>,<return,2>)
文件SONPath_4.java中修改部分的向量表示为D2
(<String,1>,<JSON,4>,<java,1>,<object,2>)
对步骤4所得代码+StackTrace向量表示为D
(<String,6>,<JSON,5>,<java,1>,<NumberFormatException,3>,<exception,2>,<Double,5>)。
根据余弦公式计算文件JSONPath.java中修改部分与问题的内容相似度:首先量化D1和D,由于D和D1中共出现String,JSON,NumberFormatException,Double,Segment,return,java,exception 8个单词,按这种顺序进行量化如下,
D1(3,2,0,0,4,2,0,0),
D(6,5,3,5,0,0,1,2)
根据余弦公式计算得cos<D,D1>=0.0921
同上处理D和D2,D和D2中共出现String,JSON,java,object,NumberFormatException,exception,Double 7个单词,按顺序量化如下:
D2(1,4,1,2,0,0,0)
D(6,5,1,0,3,2,5)
计算得cos<D,D2>=0.1108。
利用由节点,即类、class,和有向线段,即方法,组成的程序依赖图对由步骤1分解得到的堆栈追踪,即stack trace,进行结构相似度匹配。
如图7,为程序依赖图中在文件JSONPath.java中修改代码的部分,得结构匹配度为0。
如图8,为程序依赖图中在文件JSONPath_4.java中修改代码的部分,得结构匹配度为1。
效果:从文本和结构两方面进行匹配,分别得出相应结果,便于下一步综合计算。(6)根据前面计算得到的文本相似度和结构相似度进行综合计算,计算30%×文本相似度+70%*结构相似度的结果。
如步骤3,对文件JSONPath.java中修改的部分代码
根据余弦公式计算的文本余弦匹配度cos<D,D1>=0.0921
结构匹配度为0
综合结果=0.02763
对文件JSONPath_4.java中修改的部分代码
根据余弦公式计算的文本余弦匹配度cos<D,D2>=0.1108
结构匹配度为1
综合结果=0.73324
根据以上计算,推荐JSONPath_4.java commit部分
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (8)

1.一种基于stack overflow和commit库的bug定位方法,其特征在于包括如下步骤:
(1)将用户提交的问题分解成问题段、代码段、stack trace段三个子段;
(2)根据步骤(1)所得到的问题段,先进行预处理,然后使用RAKE算法提取出关键字,将关键字对Stack Overflow问题库中的问题标签进行匹配,将每个问题答案对的标签与问题段的关键字进行比较,计算相同标签所占比重,导出比重最高的问题答案对;
(3)根据步骤(2)得出的答案,提取出其中的代码段,若步骤(1)分解后也有代码段,则整合为问题代码段+答案代码段形式;
(4)对步骤(3)整合的结果,使用RAKE提取出关键字,设定为标签tag,再使用tag-LDA对commit库进行处理,建立主题模型,并结合标签进行匹配,筛选出匹配度大于等于0.3的commit相应代码段;
(5)对步骤(3)得出的结果的代码部分与步骤(4)得到的commit代码进行文本相似度匹配和利用由节点即类、class,有向线段即方法、method组成的程序依赖图对由步骤(1)分解得到的堆栈追踪stack trace进行结构相似度匹配;
(6)根据前面计算得到的文本相似度和结构相似度进行综合计算,计算30%×文本相似度+70%×结构相似度的结果,按计算结果大小进行结果推荐。
2.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(2)预处理过程包括以下步骤:
a)移除数字;
b)对一些按照驼峰规则和有下划短线相连的组合词进行分词;
c)去除英语停用词;
d)将词语的不同形式进行归一化。
3.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(2)RAKE算法的计算公式如下:
wordScore=wordDegree(w)/wordFrequency(w)
即单词w的得分是该单词的度,是一个网络中的概念,每与一个单词共现在一个短语中,度就加1,考虑该单词本身,除以该单词的词频,该单词出现的总次数;
然后对于每个候选的关键短语,将其中每个单词的得分累加,并进行排序,RAKE将候选短语总数的前三分之一的认为是抽取出的关键词。
4.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(2)标签匹配的计算公式如下:
相似度=相同标签个数/所有不重复标签个数。
5.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(5)文本相似度的计算公式如下:
其中A,B是表示文档一和文档二的量化表示;文档一和文档二经过分词,去停用词,移除数字,词根化等预处理过程,将剩余的单词按一定顺序数值化后形成向量A,B;在信息检索中,每个词条拥有不同的度,一个文档是由一个由有权值的特征向量表示的,权值的计算取决于词条在该文档中出现的频率;余弦相似度因此可以给出两篇文档其主题方面的相似度。
6.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(5)程序依赖图Program Dependence Graph,即PDG的建立方法如下:
程序中以类class作为节点,由一个节点到另一个节点的有向线段为前一个类的方法method调用后一个类的方法method。
7.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(5)结构相似度的计算方法如下:
stackTrace和程序依赖图PDG中某一节点类class的距离dist为
stackTrace上的类与该节点之间距离的最小值
其中,e为程序依赖图中的节点类class,λ为二者最远距离。
8.根据权利要求1所述的一种基于Stack Overflow和commit库的bug定位方法,其特征在于,步骤(6)综合文本相似度和结构相似度方法如下:
Bug定位精准度下=文本相似度*30%+结构相似度*70%。
CN201610824966.6A 2016-09-09 2016-09-09 一种基于Stack Overflow和commit库的bug定位方法 Active CN106407113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610824966.6A CN106407113B (zh) 2016-09-09 2016-09-09 一种基于Stack Overflow和commit库的bug定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610824966.6A CN106407113B (zh) 2016-09-09 2016-09-09 一种基于Stack Overflow和commit库的bug定位方法

Publications (2)

Publication Number Publication Date
CN106407113A CN106407113A (zh) 2017-02-15
CN106407113B true CN106407113B (zh) 2018-12-11

Family

ID=57996453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610824966.6A Active CN106407113B (zh) 2016-09-09 2016-09-09 一种基于Stack Overflow和commit库的bug定位方法

Country Status (1)

Country Link
CN (1) CN106407113B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491299B (zh) * 2017-07-04 2021-09-10 扬州大学 面向多源软件开发数据融合的开发者画像建模方法
CN107608732B (zh) * 2017-09-13 2020-08-21 扬州大学 一种基于bug知识图谱的bug搜索定位方法
CN107729258B (zh) * 2017-11-30 2021-07-23 扬州大学 一种面向软件版本问题的程序故障定位方法
CN108021952A (zh) * 2017-12-29 2018-05-11 广州品唯软件有限公司 一种多格式文本对比方法及装置
CN111090460B (zh) * 2019-10-12 2021-05-04 浙江大学 一种基于最近邻算法的代码变更日志自动生成方法
CN111177236B (zh) * 2019-12-03 2023-06-27 泰康保险集团股份有限公司 基于医养照护场景的量表生成方法、系统、设备及介质
CN111198713B (zh) * 2020-01-02 2023-11-28 晶晨半导体(深圳)有限公司 基于Android的同份源代码兼容各客户需求的方法和装置
CN111258905B (zh) * 2020-01-19 2023-05-23 中信银行股份有限公司 缺陷定位方法、装置和电子设备及计算机可读存储介质
CN111694927B (zh) * 2020-05-22 2023-07-21 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法
CN112051986B (zh) * 2020-08-26 2021-07-27 西安电子科技大学 基于开源知识的代码搜索推荐装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389939A (zh) * 2013-07-03 2013-11-13 清华大学 一种针对堆可控分配漏洞的检测方法及系统
CN104216825A (zh) * 2013-06-04 2014-12-17 北京神州泰岳软件股份有限公司 问题定位方法及系统
CN105574205A (zh) * 2016-01-18 2016-05-11 国家电网公司 分布式计算环境的日志动态分析系统
CN105824718A (zh) * 2016-04-01 2016-08-03 北京大学 基于问答网站知识的软件配置故障自动修复方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080244536A1 (en) * 2007-03-27 2008-10-02 Eitan Farchi Evaluating static analysis results using code instrumentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216825A (zh) * 2013-06-04 2014-12-17 北京神州泰岳软件股份有限公司 问题定位方法及系统
CN103389939A (zh) * 2013-07-03 2013-11-13 清华大学 一种针对堆可控分配漏洞的检测方法及系统
CN105574205A (zh) * 2016-01-18 2016-05-11 国家电网公司 分布式计算环境的日志动态分析系统
CN105824718A (zh) * 2016-04-01 2016-08-03 北京大学 基于问答网站知识的软件配置故障自动修复方法和系统

Also Published As

Publication number Publication date
CN106407113A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
Jung Semantic vector learning for natural language understanding
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
Xie et al. Detecting duplicate bug reports with convolutional neural networks
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN108460011B (zh) 一种实体概念标注方法及系统
CN107562772B (zh) 事件抽取方法、装置、系统和存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
US20160098645A1 (en) High-precision limited supervision relationship extractor
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN117076653A (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN114997288A (zh) 一种设计资源关联方法
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
Eyal et al. Large scale substitution-based word sense induction
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
Visser et al. Sentiment and intent classification of in-text citations using bert
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
Pradhan et al. Knowledge graph generation with deep active learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant