CN104391852B - 一种建立关键词词库的方法和装置 - Google Patents

一种建立关键词词库的方法和装置 Download PDF

Info

Publication number
CN104391852B
CN104391852B CN201410469628.6A CN201410469628A CN104391852B CN 104391852 B CN104391852 B CN 104391852B CN 201410469628 A CN201410469628 A CN 201410469628A CN 104391852 B CN104391852 B CN 104391852B
Authority
CN
China
Prior art keywords
keyword
project
obtains
dictionary
semantic similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410469628.6A
Other languages
English (en)
Other versions
CN104391852A (zh
Inventor
陈晰
王晶华
邢凯
杨金凤
张萌
张利萍
高冰
魏明磊
张淑娟
彭晓博
侯栋梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hebei Electric Power Co Ltd
Suzhou Institute for Advanced Study USTC
Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Hebei Electric Power Co Ltd
Suzhou Institute for Advanced Study USTC
Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Hebei Electric Power Co Ltd, Suzhou Institute for Advanced Study USTC, Hengshui Power Supply Co of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201410469628.6A priority Critical patent/CN104391852B/zh
Publication of CN104391852A publication Critical patent/CN104391852A/zh
Application granted granted Critical
Publication of CN104391852B publication Critical patent/CN104391852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本发明公开了一种建立关键词词库的方法及装置,对项目信息进行解析,获取项目关键词;计算出项目关键词之间的语义相似度;根据项目关键词及语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库。本发明的建立关键词词库的方法和装置,对项目数据自动筛选分词并获取项目关键词,能有效提取反应项目性质的关键词,剔除冗余词组,快速建立关键词库,并且在项目数据发生变化时能做到动态更新。

Description

一种建立关键词词库的方法和装置
技术领域
本发明涉及计算机管理技术领域,尤其涉及一种建立关键词词库的方法和装置。
背景技术
项目评审或咨询在科研活动中发挥着不可替代的作用,如何选择合适的专家及有关专业技术人员将直接影响到相关工作的质量,正确选择专家对于保证评审结果的公正、准确、合理是至关重要的,在项目评审或咨询中需要对科技项目进行量化分析。目前,对专家专业领域、科技项目进行学科分类和领域分类,需要对科技项目进行量化分析,其中的一个基础工作时建立项目关键词库。要收集大量的行业术语,以往的词库构建往往基于大量语料库并利用传统的中文分词程序分词,由于行业关键词具有很强的专业性,仅仅依赖普通的分词方法很难准确识别专业术语,当新的术语出现时也做不到及时动态更新。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种建立关键词词库的方法,对项目数据分词并获取项目关键词。
一种建立关键词词库的方法,包括:对项目信息进行解析,获取项目关键词;计算出所述项目关键词之间的语义相似度;根据所述项目关键词及所述语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库。
根据本发明的一个实施例,进一步的,统计关键词,得到n个关键词W1,W2,...,Wn;统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联且mi,i=0;关联矩阵M是主对角线全为0的稀疏对称矩阵;关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率;项目关键词之间的语义相似度
根据本发明的一个实施例,进一步的,根据预设的关键词分词规则对项目信息解析,获取项目关键词;所述项目信息包括:项目名称、项目说明。
根据本发明的一个实施例,进一步的,根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成所述项目关键词。
本发明要解决的另一个技术问题是提供一种建立关键词词库的装置,对项目数据分词并获取项目关键词。
一种建立关键词词库的装置,包括:关键词提取单元,用于对项目信息进行解析,获取项目关键词;相似度计算单元,用于计算出所述项目关键词之间的语义相似度;词库生成单元,用于根据所述项目关键词及所述语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库。
根据本发明的一个实施例,进一步的,所述相似度计算单元统计关键词,得到n个关键词W1,W2,...,Wn
所述相似度计算单元统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联且mi,i=0。关联矩阵M是主对角线全为0的稀疏对称矩阵;关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率。
所述相似度计算单元计算项目关键词之间的语义相似度
根据本发明的一个实施例,进一步的,所述关键词提取单元根据预设的关键词分词规则对项目信息解析,获取项目关键词;所述项目信息包括:项目名称、项目说明。
根据本发明的一个实施例,进一步的,所述关键词提取单元根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成所述项目关键词。。
本发明的建立关键词词库的方法和装置,对项目数据自动筛选分词并获取项目关键词,能有效提取反应项目性质的关键词,剔除冗余词组,快速建立关键词库,并且在项目数据发生变化时能做到动态更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明的建立关键词词库的方法的一个实施例的流程图;
图2为根据本发明的建立关键词词库的方法的一个实施例中获取关键词的示意图;
图3为根据本发明的建立关键词词库的装置的一个实施例的示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为根据本发明的建立关键词词库的方法的一个实施例的流程图,如图1所示:
步骤101,对项目信息进行解析,获取项目关键词。
步骤102,计算出项目关键词之间的语义相似度。
步骤103,根据项目关键词及语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库。
根据本发明的一个实施例,关键词词库中包括关键词和关键词之间的语义相似度,统计关键词,得到n个关键词W1,W2,...,Wn;统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联。mi,i为关键词Wi是自己对自己的关联。因为此矩阵用于计算不同关键词之间关系,不需要关键词自身对自身关系,统一处理mi,i=0。关联矩阵M是主对角线全为0的稀疏对称矩阵;关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率;项目关键词之间的语义相似度
在实际项目中,获取了2234个关键词。统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵M,关联矩阵M是一个2234×2234的矩阵,并且是主对角线全为0的稀疏对称矩阵。计算关键词W2为“1100kV”和关键词W37“750kV”之间的语义相似度,通过检索关联矩阵M,得到m2,37=2,那么根据计算公式可得关键词W2和关键词W37之间的相似度为:
本发明的建立关键词词库的方法,对项目数据自动筛选分词并获取项目关键词,实现关键词库的建立和动态更新,能有效提取反映项目性质的关键词,剔除冗余词组,快速建立关键词库。当项目数据变化时,能够在线更新关键词库,适应系统动态特性。
在一个实施例中,提取项目关键词建立关键词库需要收集现有的项目库、专利库、各类科技文件以及科技部发布的科技项目指南等权威语料库,抽取其中列出的关键词,并通过TF-IDF统计方法计算出现的关键词频,进而采集出所有的项目关键词。
通过将科技项目和科技文献中的关键词部分提取出来,并将出现在同一个项目或文献中的关键词建立关联关系,从而构建一个关键词关联网络,并利用基于随机游走的中心性度量识别研究领域中的热点关键词。项目信息包括:项目名称、项目说明等。
根据本发明的一个实施例,根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成项目关键词。
在一个实施例中,根据自定义字典对项目信息分词,自动筛选分词并获取项目关键词,实现关键词库的建立和动态更新,建立的关键词库不仅包含关键词本身,还包含关键词之间的语义相似度测量,才能应用于科技项目量化和专家专业能力模型构建。
计算出所有关键词两两词之间的语义相似度,将相似的词语归为一类,采用基于词语距离的计算来计算相似度,通过统计两个关键词同时出现的次数和单个关键词出现次数的比值,作为两个关键词的距离测量,同时再加入人工干预,识别项目关键词中的近义词和同义词。通过将科技项目和科技文献中的关键词部分提取出来,并将出现在同一个项目或文献中的关键词建立关联关系,从而构建一个关键词关联网络,并利用基于随机游走的中心性度量识别研究领域中的热点关键词。
图2显示了获取关键词的示意图。在一个实施例中,对电力行业的关键词词库进行分析,电力系统、扩展等面积准则、电力市场关键词分别位于三块研究领域的核心位置,而失稳模式、量化分析和遗传算法等关键词位于三块研究领域的交叉位置。
根据本发明的一个实施例,将数据库中项目关键词,剔除标点符号,得到项目关键词。例如,从项目标题中直接提取得分词1746个,删除无效分词250个,人工添加15个关键词,最终整理得项目标题关键词为1511个,结合项目本身关键词,得到关键词库2234个分词,结合网上找到的常用电力行业专业词汇文档构成用户词典。使用条件概率计算,不使用单个关键词出现次数计算。即关键词的交集aij数值即为关键词i和关键词j同时出现次数。
将项目关键词与常用电力行业专业词汇合并,整理,人工剔除冗余词组作为用户词典。例如关键词“1000kV”和“750kV”在两条记录中同时出现,在关键词词库中,这两个关键词对应数值越大,相似度越高。
使用中科院ICTCLAS分词接口,对数据库中项目名称进行分词,整理项目名称关键词,剔除冗余词组;合并项目关键词和项目名称关键词,得到关键词库,作为离线关键词库。
例如,项目名称:智能电网信息安全防护标准规范及关键技术研究。使用中科院ICTCLA分词得关键词:信息、信息安全、关键、关键技术、关键技术研究、安全、技术、技术研究、智能、智能电网、标准、电网、研究、规范、防护。项目名词:支撑企业全面风险管理体系的信息化系统研究和开发。使用中科院ICTCLAS分词得到关键词:企业、体系、信息、信息化、全过程、全过程管理、全面风险管理、创新、合同全过程管理、审计、开发、支撑、研究、管理。整理所有项目名称关键词,剔除冗余词组。
如图3所示,本发明提供一种建立关键词词库的装置31,包括:关键词提取单元311、相似度计算单元312和词库生成单元313。
关键词提取单元311对项目信息进行解析,获取项目关键词。相似度计算单元312计算出项目关键词之间的语义相似度。词库生成单元313根据项目关键词及语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库。
根据本发明的一个实施例,相似度计算单元统计关键词,得到n个关键词W1,W2,...,Wn;相似度计算单元统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联且mi,i=0。关联矩阵M是主对角线全为0的稀疏对称矩阵;关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率。相似度计算单元计算项目关键词之间的语义相似度
根据本发明的一个实施例,关键词提取单元311根据预设的关键词分词规则对项目信息解析,获取项目关键词;项目信息包括:项目名称、项目说明。
根据本发明的一个实施例,关键词提取单元311根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成项目关键词。
本发明的建立关键词词库的方法和装置,对项目数据自动筛选分词并获取项目关键词,能有效提取反应项目性质的关键词,剔除冗余词组,快速建立关键词库,并且在项目数据发生变化时能做到动态更新。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (6)

1.一种建立关键词词库的方法,其特征在于,包括:
对项目信息进行解析,获取项目关键词;
计算出所述项目关键词之间的语义相似度;
根据所述项目关键词及所述语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库;
其中,统计关键词,得到n个关键词W1,W2,...,Wn
统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联且mi,i=0;关联矩阵M是主对角线全为0的稀疏对称矩阵;
关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率;
项目关键词之间的语义相似度
2.如权利要求1所述的方法,其特征在于:
根据预设的关键词分词规则对项目信息解析,获取项目关键词;所述项目信息包括:项目名称、项目说明。
3.如权利要求2所述的方法,其特征在于:
根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成所述项目关键词。
4.一种建立关键词词库的装置,其特征在于,包括:
关键词提取单元,用于对项目信息进行解析,获取项目关键词;
相似度计算单元,用于计算出所述项目关键词之间的语义相似度;
词库生成单元,用于根据所述项目关键词及所述语义相似度生成关键词词库,并且,当项目信息变化时,在线更新关键词库;
所述相似度计算单元统计关键词,得到n个关键词W1,W2,...,Wn
所述相似度计算单元统计每两个关键词在所有记录里面同时出现的次数,构成关键词关联矩阵:
其中,mi,j为关键词Wi和Wj在所有记录中同时出现的次数,而mi,i为关键词Wi是自己对自己的关联且mi,i=0; 关联矩阵M是主对角线全为0的稀疏对称矩阵;关键词Wi和Wj的语义相似度反映为关键词Wi出现时,关键词Wj出现的可能性,为条件概率;
所述相似度计算单元计算项目关键词之间的语义相似度
5.如权利要求4所述的装置,其特征在于:
所述关键词提取单元根据预设的关键词分词规则对项目信息解析,获取项目关键词;所述项目信息包括:项目名称、项目说明。
6.如权利要求5所述的装置,其特征在于:
所述关键词提取单元根据自定义字典对项目信息分词,自动筛选分词并获取关键词,并将关键词与电力行业专业词汇合并、整理,剔除冗余词组生成所述项目关键词。
CN201410469628.6A 2014-09-15 2014-09-15 一种建立关键词词库的方法和装置 Active CN104391852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410469628.6A CN104391852B (zh) 2014-09-15 2014-09-15 一种建立关键词词库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410469628.6A CN104391852B (zh) 2014-09-15 2014-09-15 一种建立关键词词库的方法和装置

Publications (2)

Publication Number Publication Date
CN104391852A CN104391852A (zh) 2015-03-04
CN104391852B true CN104391852B (zh) 2017-12-29

Family

ID=52609756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410469628.6A Active CN104391852B (zh) 2014-09-15 2014-09-15 一种建立关键词词库的方法和装置

Country Status (1)

Country Link
CN (1) CN104391852B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404686B (zh) * 2015-12-10 2018-08-31 湖南科技大学 一种基于地理特征层次分词的新闻事件地名地址匹配方法
CN106776536A (zh) * 2016-11-21 2017-05-31 国家电网公司客户服务中心 一种供电服务客户满意度关键词库构建方法及装置
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
CN110750572A (zh) * 2018-12-06 2020-02-04 国网河北省电力有限公司经济技术研究院 一种科技成果启发式评价的自适应方法和装置
CN110175268B (zh) * 2019-04-19 2020-01-17 杭州电子科技大学 一种最长匹配资源映射方法
CN111612420A (zh) * 2020-05-20 2020-09-01 江苏中睿联禾知识产权服务有限公司 一种科技项目种类筛选定项辅助系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
2006年知识管理领域关键词共现强度的聚类分析;周爱民;《现代情报》;20080525;第30页第1列第3段,第31-32页 *
基于语义的中文文本关键词提取算法;王立霞等;《计算机工程》;20120105;第38卷(第1期);全文 *
领域文本相似度计算方法研究;罗义兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315;第2012年卷(第03期);正文第8页第4段,第9页第4段,第33页,第34页第2,4段,图2.1,6.1 *

Also Published As

Publication number Publication date
CN104391852A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
CN104391852B (zh) 一种建立关键词词库的方法和装置
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN103927302B (zh) 一种文本分类方法和系统
CN105830064B (zh) 情态生成装置以及计算机可读取记录介质
CN109858018A (zh) 一种面向威胁情报的实体识别方法及系统
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN102890698B (zh) 微博话题标签自动化描述方法
CN106570144A (zh) 推荐信息的方法和装置
CN109800310A (zh) 一种基于结构化表达的电力运维文本分析方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN107423444A (zh) 热词词组提取方法和系统
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN108170666A (zh) 一种基于tf-idf关键词提取的改进方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN106528768A (zh) 一种咨询热点分析方法及装置
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN106202065A (zh) 一种跨语言话题检测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Xi

Inventor after: Peng Xiaobo

Inventor after: Hou Dongliang

Inventor after: Wang Jinghua

Inventor after: Xing Kai

Inventor after: Yang Jinfeng

Inventor after: Zhang Meng

Inventor after: Zhang Liping

Inventor after: Gao Bing

Inventor after: Wei Minglei

Inventor after: Zhang Shujuan

Inventor before: Chen Xi

Inventor before: Wang Jinghua

Inventor before: Xing Kai

Inventor before: Yang Jinfeng

Inventor before: Zhang Meng

Inventor before: Zhang Liping

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant