CN111061879A - 一种关键词抽取效果评估方法 - Google Patents
一种关键词抽取效果评估方法 Download PDFInfo
- Publication number
- CN111061879A CN111061879A CN201911282391.XA CN201911282391A CN111061879A CN 111061879 A CN111061879 A CN 111061879A CN 201911282391 A CN201911282391 A CN 201911282391A CN 111061879 A CN111061879 A CN 111061879A
- Authority
- CN
- China
- Prior art keywords
- clustering
- keyword extraction
- result
- clustering result
- extraction effect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的关键词抽取效果评估方法,涉及文本分析技术领域,分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。
Description
技术领域
本发明属于文本分析技术领域,具体涉及一种关键词抽取效果评估方法。
背景技术
关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,为了对关键词抽取的效果进行评估,现有的方案是将人工标注的关键词作为测试数据,然后通过计算准确率、召回率及F值对关键词抽取结果进行评估。但该方案存在以下缺陷:
不同与分类、实体识别等任务,关键词抽取语料的标注难度要高很多,需要相关专业知识,人工标注的结果普遍存在一致性差、准确度低等问题,对得到的评估结果依旧需要人工反复检查确认才能作出最终的评估结果,导致关键词抽取效果评估的准确度及效率较低。
发明内容
针对现有技术存在的缺陷,本发明实施例提供了一种关键词抽取效果评估方法,该方法包括:
随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数;
利用词向量生成模型,得到所述标签文件的词向量集并从所述词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果;
利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数;
根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据所述评估值,判断本次关键词抽取效果的好坏。
优选地,所述方法还包括:
比较熵值E1及E2的大小,如果E1≥E2,则确定本次关键词抽取结果无效,如果E1<E2,则确定本次关键词抽取结果有效。
优选地,所述第一聚类结果与第二聚类结果的类别个数相同。
优选地,所述词向量生成模型为word2vec模型。
优选地,所述聚类算法为K均值聚类算法。
本发明实施例提供的关键词抽取效果评估方法具有以下有益效果:
分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明实施例提供的关键词抽取效果评估方法包括以下步骤:
S101,随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数。
作为一个具体的实施例,分类语料包括新闻类文本、学科类文本(包括科研论文)等。
S102,利用词向量生成模型,得到所述标签文件的词向量集并从词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果。
S103,利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数。
以新闻类语料为例,对新闻类语料进行聚类,得到的聚类结果可分为娱乐、金融、外事、都市、国内及体育六类。
S104,根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据评估值,判断本次关键词抽取效果的好坏。
其中,评估值越大,说明关键词抽取效果越好。
可选地,该方法还包括:
比较熵值E1及E2的大小,如果E1≥E2,则确定本次关键词抽取结果无效,如果E1<E2,则确定本次关键词抽取结果有效。
其中,无论抽取结果是否有效,都要计算其评估值。
可选地,第一聚类结果与第二聚类结果的类别个数相同。
可选地,词向量生成模型为word2vec模型。
可选地,聚类算法为K均值聚类算法。
本发明实施例提供的关键词抽取效果评估方法,分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (6)
1.一种关键词抽取效果评估方法,其特征在于,包括:
随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数;
利用词向量生成模型,得到所述标签文件的词向量集并从所述词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果;
利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数;
根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据所述评估值,判断本次关键词抽取效果的好坏。
2.根据权利要求1所述的关键词抽取效果评估方法,其特征在于,所述方法还包括:
比较熵值E1及E2的大小,如果E1≥E2,则确定本次关键词抽取结果无效,如果E1<E2,则确定本次关键词抽取结果有效。
3.根据权利要求1所述的关键词抽取效果评估方法,其特征在于,所述第一聚类结果与第二聚类结果的类别个数相同。
4.根据权利要求1所述的关键词抽取效果评估方法,其特征在于,所述词向量生成模型为word2vec模型。
5.根据权利要求1所述的关键词抽取效果评估方法,其特征在于,所述聚类算法为K均值聚类算法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911282391.XA CN111061879A (zh) | 2019-12-13 | 2019-12-13 | 一种关键词抽取效果评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911282391.XA CN111061879A (zh) | 2019-12-13 | 2019-12-13 | 一种关键词抽取效果评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111061879A true CN111061879A (zh) | 2020-04-24 |
Family
ID=70302035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911282391.XA Pending CN111061879A (zh) | 2019-12-13 | 2019-12-13 | 一种关键词抽取效果评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061879A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919627A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 热词的处理方法和装置 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN110019670A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
-
2019
- 2019-12-13 CN CN201911282391.XA patent/CN111061879A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919627A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 热词的处理方法和装置 |
CN108628906A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 短文本模板挖掘方法、装置、电子设备和可读存储介质 |
CN110019670A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460523B (zh) | 一种风控规则生成方法和装置 | |
CN109918657B (zh) | 一种从文本中提取目标关键词的方法 | |
CN108717602B (zh) | 一种交易行为异常的识别方法、装置及设备 | |
CN109190007B (zh) | 数据分析方法及装置 | |
CN109344406B (zh) | 词性标注方法、装置和电子设备 | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
CN108764915B (zh) | 模型训练方法、数据类型识别方法和计算机设备 | |
CN106610931B (zh) | 话题名称的提取方法及装置 | |
CN110633989A (zh) | 一种风险行为生成模型的确定方法及装置 | |
CN107368489B (zh) | 一种资讯数据处理方法及装置 | |
CN110543603B (zh) | 基于用户行为的协同过滤推荐方法、装置、设备和介质 | |
CN106878242B (zh) | 一种确定用户身份类别的方法及装置 | |
CN110033092B (zh) | 数据标签生成、模型训练、事件识别方法和装置 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN107341152B (zh) | 一种参数输入的方法及装置 | |
CN112818126B (zh) | 网络安全语料库构建模型的训练方法、应用方法及装置 | |
CN109492401B (zh) | 一种内容载体风险检测方法、装置、设备及介质 | |
CN108229564B (zh) | 一种数据的处理方法、装置及设备 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN109598478B (zh) | 一种风测结果描述文案的生成方法、装置及电子设备 | |
CN107562533B (zh) | 一种数据加载处理方法及装置 | |
CN110019295B (zh) | 数据库检索方法、装置、系统以及存储介质 | |
CN111061879A (zh) | 一种关键词抽取效果评估方法 | |
CN115422346A (zh) | 基于知识图谱的多轮话题推荐方法 | |
CN110210030B (zh) | 语句分析的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |