CN108595460A - 关键词自动抽取的多路评测方法及系统、计算机程序 - Google Patents
关键词自动抽取的多路评测方法及系统、计算机程序 Download PDFInfo
- Publication number
- CN108595460A CN108595460A CN201810009585.1A CN201810009585A CN108595460A CN 108595460 A CN108595460 A CN 108595460A CN 201810009585 A CN201810009585 A CN 201810009585A CN 108595460 A CN108595460 A CN 108595460A
- Authority
- CN
- China
- Prior art keywords
- keyword
- multichannel
- computer
- mark
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机软件技术领域,公开了一种关键词自动抽取的多路评测方法及系统、计算机程序,将标注语料与原文进行对比,不合格的标注语料修改为与原文一致;与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;对比P(N)与P(N+M)的值,R(N)与R(N+M)的值,分析关键词的抽取,及关键词的排序。本发明采用人工标注的结果与关键词抽取算法给出的结果做对比的方式来评估算法的质量,为减少人为主观性对结果的影响,采用多人(三人以上)对同一文本进行关键词标注,对多份不同的人为标注结果加工处理后作为一份最终标注结果。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种关键词自动抽取的多路评测方法及系统、计算机程序。
背景技术
关键词自动抽取是依靠计算机从文本中抽取出最具有代表性的,反映主题内容的单词或术语,也称作关键词的自动标引,在自然语言处理、文本自动摘要生成、文本分类、文本聚类和信息检索等方面有着重要的应用。关键词的自动抽取能否真实反映文本的内容变得尤为重要。当前主要通过准确度(Precision) 与召回率(Recall)以及F值对关键词自动抽取的质量进行评估,这种评估方式较为单一,具有片面性。由于对判别文本关键词结果没有统一的标准,也缺乏现成的标注的数据集,目前只能通过用人工标注的结果与关键词抽取算法给出的结果做对比的方式来评估算法的质量,人工标注结果通常存在很大的主观性,最终可以归纳为几个问题:如何根据多份标注内容得到一份较为客观的标注结果;如何认定关键词是否匹配;如何计算评测值。
综上所述,现有技术存在的问题是:目前的关键词自动抽取方法评估仅仅靠一版标注答案,通过准确率和召回率来评价算法存在评估方式单一和具有片面性。通过本发明,能降低人为因素对结果的影响,多角度评估算法质量。
发明内容
针对现有技术存在的问题,本发明提供了一种关键词自动抽取的多路评测方法及系统、计算机程序。
本发明是这样实现的,一种关键词自动抽取的多路评测方法,所述关键词自动抽取的多路评测方法将标注语料与原文进行对比,不合格的标注语料修改为与原文一致;与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;对比P(N)与P(N+M)的值,R(N) 与R(N+M)的值,分析关键词的抽取,及关键词的排序。
进一步,所述将标注语料与原文进行对比,不合格的标注语料修改为与原文一致之后需要:将标注的多版关键词进行处理,通过算法,按照规则,合并为关键词,作为最终的标注答案。
进一步,所述合并为关键词,作为最终的标注答案之后需要调用算法接口,分别保存N个关键词和N+M个关键词的结果。
本发明的另一目的在于提供一种所述关键词自动抽取的多路评测方法的关键词自动抽取的多路评测系统,所述关键词自动抽取的多路评测系统包括:
验证模块,用于验证标注语料,将不合格的标注语料修改为与原文一致;
标注模块,用于将标注的多版关键词进行处理;
调用模块,用于用算法接口,保存关键词和关键词的结果;
对比模块,用于将算法结果与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;
抽取及排序模块,用于分析关键词的抽取,及关键词的排序。
本发明的另一目的在于提供一种实现所述关键词自动抽取的多路评测方法的计算机程序。
本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的关键词自动抽取的多路评测方法。
本发明采用人工标注的结果与关键词抽取算法给出的结果做对比的方式来评估算法的质量,为减少人为主观性对结果的影响,采用多人(三人以上)对同一文本进行关键词标注,对多份不同的人为标注结果加工处理后作为一份最终标注结果。
附图说明
图1是本发明实施例提供的关键词自动抽取的多路评测方法流程图。
图2是本发明实施例提供的关键词自动抽取的多路评测方法实现流程图。
图3是本发明实施例提供的关键词自动抽取的多路评测系统结构示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的关键词自动抽取的多路评测方法包括以下步骤:
S101:验证标注语料,将标注语料与原文进行对比,确保标注的语料来源于原文并与原文一致;拿到标注语料后,通过对比算法将标注答案与原文内容做对比和验证,将不合格的标注语料修改为与原文一致;
S102:将标注的多版关键词进行处理,通过比较算法,按照相同,包含或被包含关系作为一个关键词的规则,将三版关键词比较后合并为一版关键词,作为最终的标注答案;
S103:调用算法接口,参考标注答案个数为N的要求,分别保存N个关键词和N+M个关键词的结果;
S104:将算法结果与人工标注结果依次做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;
S105:对比准确度P(N)与P(N+M)的值,其中P(N)表示N个关键词的准确度,P(N+M)表示N+M个关键词的准确度,召回率R(N)与R(N+M) 的值,其中R(N)表示N个关键词的召回率,R(N+M)表示N+M个关键词的召回率,分析关键词的抽取,及关键词的排序。
如图2所示,本发明实施例提供的关键词自动抽取的多路评测方法及系统、计算机程序包括:
验证模块1,用于验证标注语料,将不合格的标注语料修改为与原文一致;
标注模块2,用于将标注的多版关键词进行处理;
调用模块3,用于用算法接口,保存关键词和关键词的结果;
对比模块4,用于将算法结果与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;
抽取及排序模块5,用于分析关键词的抽取,及关键词的排序。
下面结合具体实施例对本发明的应用原理作进一步的描述。
实施例1:
对于某文本,三个人会标注出三版不同的结果,假设为A1,B1和C1。关键词内容如下:
关键词内容 | 关键词个数 | |
关键词标注A1版 | a1,a2,a3,a4 | 4 |
关键词标注B1版 | b1,b2,b3,b4,b5 | 5 |
关键词标注C1版 | c1,c2,c3 | 3 |
对于同样的关键词描述,也存在不同的表示方式,可能会出现三个版本中包含相同的关键词,比如a1=b1=c1,也可能存在有的关键词是其他关键词的一部分,比如或者针对关键词的复杂多样性,分步骤对标注结果进行处理。
1.与原文做校验流程:分别验证A1中关键词,B1中关键词和C1中关键词描述均来源于文档原文,不能为原文总结。
1.1首先对关键词进行处理,先把关键词合并为一个集合。
T=[a1,a2,a3,a4,b1,b2,b3,b4,b5,c1,c2,c3]。
1.2计算出每个关键词的长度,按照关键词长度降序排序。
假设a1=b1=c1,的条件成立且length(a2)>length(a1)>length(b4)>length(a4)>length(b2)>length(b5),按照关键词长度进行降序排序。
T=[b3,c2,a2,a1,b1,c1,a3,c3,b4,a4,b2,b5]。
1.3对集合T内元素进行分类处理。
集合T=[b3,a2,c2,a1,b1,c1,a3,c3,a4,b2,b4,b5]中相同元素放到一个数组中,a1=b1=c1表明三版标注结果中都含有该元素,当三版标注结果中都含有某元素时,认为该元素就是文本的关键词,保存结果为[a1,b1,c1]。存在包含和被包含关系时,表明a2元素是b3元素的一部分,a2和b3 都能作为文本的关键词,将其合并为一个数组保留在序列表中,合并为一个数组[b3,c2,a2]。表明元素a3包含元素c3,将其合并为一个数组[a3,c3]。
整理后集合T=[[b3,c2,a2],[a1,b1,c1],[a3,c3],b4,a4,b2,b5]。
1.4结果去重后显示,即相同元素只显示一个。
集合T经过去重处理后内容变为T={{b3,a2},a1,{a3,c3,b4},a4,b2, b5}。
按照关键词长度降序排列,根据要求输出5个元素,则将三版标注结果处理后的关键词集合为T={b3,a2},a1,{a3,c3,b4},a4,b2}。
2假设算法结果为Result={a2,a1,b4,b2,b5,c1},
标注结果T={b3,a2},a1,{a3,c3,b4},a4,b2}。
TP=4;
FP=2;
FN=1;
准确度(P)=TP/(TP+FP)=2/3;
召回率(R)=TP/(TP+FN)=4/5;
F1=2*P*R/(P+R)=8/11。
下面结合对比分析对本发明的应用原理作进一步的描述。
准确度是针对本发明预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。有两种可能,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。准确度又称为查准率。召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。召回率又称为查全率。两者取值在0和1之间,数值越接近1,查准率或查全率就越高。
P和R指标有时候会出现的矛盾的情况,就需要综合考虑他们,最常见的方法就是F-Measure。F-Measure是Precision和Recall加权调和平均:
F=(α*α+1)*P*R/α*α*(P+R);
当α=1时,就是最常见的F1
F1=2*P*R/(P+R);
可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。
针对调用算法的结果,本发明采用关键词的抽取和排序来评测算法的质量。假设关键词抽取分别为N个关键词和N+M个关键词的方式来对比结果。通过多个关键词的算法结果,验证关键词抽取算法是否符合要求,对推荐的关键词的排序和权重,做更详细的分析。
分别比对N个关键词的P值和N+M个关键词的P值。
分别比对N个关键词的R值和N+M个关键词的R值。
通过对比N个关键词和N+M个关键词的P值和R值,能更好的定位关键词抽取是否正确,推送顺序是否合适。同时在版本迭代过程中,通过不同版本的P值和R值对比,帮助本发明评价新版本的模型优化效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如, DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关键词自动抽取的多路评测方法,其特征在于,所述关键词自动抽取的多路评测方法将标注语料与原文进行对比,不合格的标注语料修改为与原文一致;与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;对比P(N)与P(N+M)的值,R(N)与R(N+M)的值,分析关键词的抽取,及关键词的排序。
2.如权利要求1所述的关键词自动抽取的多路评测方法,其特征在于,所述将标注语料与原文进行对比,不合格的标注语料修改为与原文一致之后需要:将标注的多版关键词进行处理,通过算法,按照规则,合并为一版关键词,作为最终的标注答案。
3.如权利要求2所述的关键词自动抽取的多路评测方法,其特征在于,所述合并为关键词,作为最终的标注答案之后需要调用算法接口,分别保存N个关键词和N+M个关键词的结果。
4.一种实现权利要求1~3任意一项所述关键词自动抽取的多路评测方法的计算机程序。
5.一种搭载有权利要求4所述计算机程序的计算机。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的关键词自动抽取的多路评测方法。
7.一种如权利要求1所述关键词自动抽取的多路评测方法的关键词自动抽取的多路评测系统,其特征在于,所述关键词自动抽取的多路评测系统包括:
验证模块,用于验证标注语料,将不合格的标注语料修改为与原文一致;
标注模块,用于将标注的多版关键词进行处理;
调用模块,用于用算法接口,保存关键词和关键词的结果;
对比模块,用于将算法结果与人工标注结果做对比,通过对比抽取成功的关键词的个数和正确性,得出准确度和召回率的信息;
抽取及排序模块,用于分析关键词的抽取,及关键词的排序。
8.一种实现权利要求7所述关键词自动抽取的多路评测系统的计算机程序。
9.一种搭载有权利要求8所述计算机程序的计算机。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求7所述的关键词自动抽取的多路评测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810009585.1A CN108595460A (zh) | 2018-01-05 | 2018-01-05 | 关键词自动抽取的多路评测方法及系统、计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810009585.1A CN108595460A (zh) | 2018-01-05 | 2018-01-05 | 关键词自动抽取的多路评测方法及系统、计算机程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108595460A true CN108595460A (zh) | 2018-09-28 |
Family
ID=63599759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810009585.1A Pending CN108595460A (zh) | 2018-01-05 | 2018-01-05 | 关键词自动抽取的多路评测方法及系统、计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595460A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582967A (zh) * | 2018-12-03 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 舆情摘要提取方法、装置、设备及计算机可读存储介质 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
US20170060997A1 (en) * | 2014-04-28 | 2017-03-02 | Foundation Of Soongsil University Industry Cooperation | Method and server for extracting topic and evaluating suitability of the extracted topic |
CN107423444A (zh) * | 2017-08-10 | 2017-12-01 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
-
2018
- 2018-01-05 CN CN201810009585.1A patent/CN108595460A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060997A1 (en) * | 2014-04-28 | 2017-03-02 | Foundation Of Soongsil University Industry Cooperation | Method and server for extracting topic and evaluating suitability of the extracted topic |
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN107423444A (zh) * | 2017-08-10 | 2017-12-01 | 世纪龙信息网络有限责任公司 | 热词词组提取方法和系统 |
Non-Patent Citations (1)
Title |
---|
王万良等: "基于多特征的视频关联文本关键词提取方法", 《浙江工业大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582967A (zh) * | 2018-12-03 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 舆情摘要提取方法、装置、设备及计算机可读存储介质 |
CN109582967B (zh) * | 2018-12-03 | 2023-08-18 | 深圳前海微众银行股份有限公司 | 舆情摘要提取方法、装置、设备及计算机可读存储介质 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110188197B (zh) * | 2019-05-13 | 2021-09-28 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
CN110298033B (zh) * | 2019-05-29 | 2022-07-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取系统 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111475641B (zh) * | 2019-08-26 | 2021-05-14 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11537662B2 (en) | System and method for analysis of structured and unstructured data | |
CN109446524B (zh) | 一种语音质检方法及装置 | |
CN108595460A (zh) | 关键词自动抽取的多路评测方法及系统、计算机程序 | |
US20200184272A1 (en) | Framework for building and sharing machine learning components | |
CN105653554B (zh) | 一种文件数据比对方法和系统 | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
CN110163478A (zh) | 一种合同条款的风险审查方法及装置 | |
US10467252B1 (en) | Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis | |
CN109271489A (zh) | 一种文本检测方法及装置 | |
Murgia et al. | A machine learning approach for text categorization of fixing-issue commits on CVS | |
CN107292193A (zh) | 一种实现数据泄露防护的方法和系统 | |
CN110019785A (zh) | 一种文本分类方法及装置 | |
US11288266B2 (en) | Candidate projection enumeration based query response generation | |
US10782942B1 (en) | Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation | |
US10929453B2 (en) | Verifying textual claims with a document corpus | |
KR101585644B1 (ko) | 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램 | |
Pamungkas et al. | B-BabelNet: business-specific lexical database for improving semantic analysis of business process models | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
Al-Sabbagh et al. | Selective regression testing based on big data: comparing feature extraction techniques | |
CN112434009A (zh) | 端到端的数据探查方法、装置、计算机设备和存储介质 | |
CN109800147B (zh) | 一种测试案例生成方法及终端设备 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
Winter et al. | Deriving and combining mixed graphs from regulatory documents based on constraint relations | |
Malaviya et al. | Quest: A retrieval dataset of entity-seeking queries with implicit set operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |