CN108197118A - 一种利用计算机系统进行自动标引及检索的方法 - Google Patents
一种利用计算机系统进行自动标引及检索的方法 Download PDFInfo
- Publication number
- CN108197118A CN108197118A CN201810110713.1A CN201810110713A CN108197118A CN 108197118 A CN108197118 A CN 108197118A CN 201810110713 A CN201810110713 A CN 201810110713A CN 108197118 A CN108197118 A CN 108197118A
- Authority
- CN
- China
- Prior art keywords
- word
- keyword
- loci
- carried out
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用计算机系统进行自动标引及检索的方法,包括输入系统,其特征在于,所述输入系统输入以确定标引源。本发明词汇链构建方法以全文为处理单位,首先要对文本进行预处理,包括文本分词、低频词过滤、词性标注和语义标注等活动;接着对经过语义标注的名词进行处理,计算词语间的语义相关度,将语义相关度值满足条件的词语作为候选词,并对其进行同义词合并等操作,然后过滤掉对文献的意义贡献不大的词语,把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量,词义标注和词性标注为人工输入计算机系统批量标注,较人工一一标注提高效率,有良好的经济效益和社会效益,适合推广使用。
Description
技术领域
本发明涉及一种标引方法,特别涉及一种利用计算机系统进行自动标引及检索的方法,属于计算机系统应用技术领域。
背景技术
关键词自动标引的任务是根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。因此有人也把关键词自动标引称作关键词抽取技术。关键词自动标引,可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。自动标引方法主要有三类:统计标引方法、机器学习标引方法、语言学标引方法。统计标引方法利用词语的统计特征,如字同现、词共现、逆文档词频、互信息等实现自动标引。抽取关键词的准确率低,标引效果不是太好,且目前词义标注的效率还不是很高。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种利用计算机系统进行自动标引及检索的方法,使用方便,节约了大量的成本。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种利用计算机系统进行自动标引及检索的方法,包括输入系统,其特征在于,所述输入系统输入以确定标引源,所述输入系统后进行预处理系统、词汇链构建系统和关键词选择系统进行运行,所述预处理系统内包含文本分词、词频过滤、词义标注和词性标注系统运行,所述词汇链构建系统内包含计算相关度、选择候选词、候选词清洗和构建词汇链系统运行,所述关键词选择系统内包含候选词打分和选择关键词系统运行,所述关键词选择系统完成后输出关键词。
作为本发明的一种优选技术方案,所述候选词打分公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(wi)表示词语wi的分值,frei表示词语wi在文章中出现的次数,loci表示词语wi在文章中的位置。
作为本发明的一种优选技术方案,所述当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数。
作为本发明的一种优选技术方案,所述词义标注和词性标注为人工输入计算机系统批量标注。
本发明所达到的有益效果是:本发明词汇链构建方法以全文为处理单位,首先要对文本进行预处理,包括文本分词、低频词过滤、词性标注和语义标注等活动;接着对经过语义标注的名词进行处理,计算词语间的语义相关度,将语义相关度值满足条件的词语作为候选词,并对其进行同义词合并等操作,然后过滤掉对文献的意义贡献不大的词语,把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量,有的自动标引系统在经过文本分词后,会先过滤掉那些词频很低的词语,然后再进行语义标注和词性标注,词义标注和词性标注为人工输入计算机系统批量标注,较人工一一标注提高效率,有良好的经济效益和社会效益,适合推广使用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的整体结构示意图;
图2是本发明的分系统结构示意图;
图中:1、输入系统;2、预处理系统;3、词汇链构建系统;4、关键词选择系统;5、确定标引源;6、文本分词;7、词频过滤;8、词义标注;9、词性标注;10、计算相关度;11、选择候选词;12、候选词清洗;13、构建词汇链;14、候选词打分;15、选择关键词;16、输出关键词。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-2所示,本发明提供一种利用计算机系统进行自动标引及检索的方法,包括输入系统1,其特征在于,所述输入系统1输入以确定标引源5,所述输入系统1后进行预处理系统2、词汇链构建系统3和关键词选择系统4进行运行,所述预处理系统2内包含文本分词6、词频过滤7、词义标注8和词性标注9系统运行,所述词汇链构建系统3内包含计算相关度10、选择候选词11、候选词清洗12和构建词汇链13系统运行,所述关键词选择系统4内包含候选词打分14和选择关键词15系统运行,所述关键词选择系统4完成后输出关键词16。
为了使该种利用计算机系统进行自动标引及检索的方法,使用方便,工作效率高,所述候选词打分14公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(wi)表示词语wi的分值,frei表示词语wi在文章中出现的次数,loci表示词语wi在文章中的位置。所述当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数。所述词义标注8和词性标注9为人工输入计算机系统批量标注。
本发明在使用时,首先对文本进行分词、词频过滤、词性标注和词义标注,然后设定词语语义相关度阈值s,接着以句子为单位,计算句子中词语之间的语义相关度值,将相关度值大于s的词语加入候选词汇集H,H的最终结果为{w1,w2,……,wn},从H中选择w1 作为初始词汇链L的第一个元素,并将w1从H中删除,从H的剩余词语中,选取与L中的词语语义相关度大于s的词语,将其加入词汇链L,同时将这些词从H中删除。重复此步直到L中没有新的词语加入,L就是一条词汇链,重复构建其它词汇链,直到H中不存在词语。关键词自动标引的流程为第一步是确定标引源,即关键词自动标引的输入数据,根据具体的情况,可以是标题、摘要、小标题和全文等的组合。第二步是预处理,主要是将输入的文本变为规模更小的经过语义标注的词语集合。包括文本分词、低频词过滤、词义标注和词性标注。第三步是构建词汇链的过程,计算词语间的语义相关度,选择语义相关度值大于阈值的词语作为候选词,并对同义词、别名、低频词等情况进行处理,再根据词汇链构建算法构建词汇链。词频和词语位置是主要因素,其中又以词语的位置最为重要,词语的价值和词汇链的长度可以在前两个因素计算结果相同的情况下,对词语的重要性进行细分,采用公式score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|对候选词进行打分,其中score(wi)表示词语wi的分值。frei表示词语wi在文章中出现的次数。loci表示词语wi在文章中的位置,当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数,第四步是关键词标引,具体任务是对候选词进行打分,根据分值的大小抽取具体的关键词。最后,输出关键词。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种利用计算机系统进行自动标引及检索的方法,包括输入系统(1),其特征在于,所述输入系统(1)输入以确定标引源(5),所述输入系统(1)后进行预处理系统(2)、词汇链构建系统(3)和关键词选择系统(4)进行运行,所述预处理系统(2)内包含文本分词(6)、词频过滤(7)、词义标注(8)和词性标注(9)系统运行,所述词汇链构建系统(3)内包含计算相关度(10)、选择候选词(11)、候选词清洗(12)和构建词汇链(13)系统运行,所述关键词选择系统(4)内包含候选词打分(14)和选择关键词(15)系统运行,所述关键词选择系统(4)完成后输出关键词(16)。
2.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法,其特征在于,所述候选词打分(14)公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(wi)表示词语wi的分值,frei表示词语wi在文章中出现的次数,loci表示词语wi在文章中的位置。
3.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法,其特征在于,所述当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式(1)为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数。
4.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法,其特征在于,所述词义标注(8)和词性标注(9)为人工输入计算机系统批量标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810110713.1A CN108197118A (zh) | 2018-02-05 | 2018-02-05 | 一种利用计算机系统进行自动标引及检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810110713.1A CN108197118A (zh) | 2018-02-05 | 2018-02-05 | 一种利用计算机系统进行自动标引及检索的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197118A true CN108197118A (zh) | 2018-06-22 |
Family
ID=62592705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810110713.1A Pending CN108197118A (zh) | 2018-02-05 | 2018-02-05 | 一种利用计算机系统进行自动标引及检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197118A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590773A (zh) * | 2021-06-10 | 2021-11-02 | 中国铁道科学研究院集团有限公司科学技术信息研究所 | 一种文本主题标引的方法、装置、设备及可读存储介质 |
WO2022188821A1 (zh) * | 2021-03-09 | 2022-09-15 | 智慧芽信息科技(苏州)有限公司 | 对文件进行自定义字段标引的处理方法、装置、服务器及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
-
2018
- 2018-02-05 CN CN201810110713.1A patent/CN108197118A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
Non-Patent Citations (1)
Title |
---|
李纲等: "基于词汇链的关键词自动标引方法", 《图书情报知识》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022188821A1 (zh) * | 2021-03-09 | 2022-09-15 | 智慧芽信息科技(苏州)有限公司 | 对文件进行自定义字段标引的处理方法、装置、服务器及系统 |
CN113590773A (zh) * | 2021-06-10 | 2021-11-02 | 中国铁道科学研究院集团有限公司科学技术信息研究所 | 一种文本主题标引的方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095204B (zh) | 同义词的获取方法及装置 | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN109739973A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN104408173A (zh) | 一种基于b2b平台的核心关键词自动提取方法 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
TW201841121A (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN102693279A (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN110263154A (zh) | 一种网络舆情情感态势量化方法、系统及存储介质 | |
CN105677795A (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
CN103744837B (zh) | 基于关键词抽取的多文本对照方法 | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
Pande et al. | Application of natural language processing tools in stemming | |
CN108846033A (zh) | 特定领域词汇的发现及分类器训练方法和装置 | |
CN108197118A (zh) | 一种利用计算机系统进行自动标引及检索的方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN102103604B (zh) | 检索词核心权重确定方法和装置 | |
CN103150371A (zh) | 正反向训练去混淆文本检索方法 | |
CN103678355A (zh) | 文本挖掘方法和文本挖掘装置 | |
Kölbl et al. | Keyword Extraction in German: Information-theory vs. Deep Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |