CN1430163A - 基于网络环境的中文信息自动标引系统 - Google Patents

基于网络环境的中文信息自动标引系统 Download PDF

Info

Publication number
CN1430163A
CN1430163A CN 01138654 CN01138654A CN1430163A CN 1430163 A CN1430163 A CN 1430163A CN 01138654 CN01138654 CN 01138654 CN 01138654 A CN01138654 A CN 01138654A CN 1430163 A CN1430163 A CN 1430163A
Authority
CN
China
Prior art keywords
chinese
network environment
automatic indexing
indexing system
information automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 01138654
Other languages
English (en)
Inventor
张明盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BIAOGAN NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING BIAOGAN NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BIAOGAN NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING BIAOGAN NETWORK TECHNOLOGY Co Ltd
Priority to CN 01138654 priority Critical patent/CN1430163A/zh
Publication of CN1430163A publication Critical patent/CN1430163A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于网络环境的中文信息自动标引系统,构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系;中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库;汉语的词法,构建通用的停用词库和不同行业的特殊停用词库;中国地理区域的特征,构建中国地理名称库和地理名称切分规则库;人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。

Description

基于网络环境的中文信息自动标引系统
技术领域
本发明是基于互联网信息的自动标引系统,它是标杆智能搜索引擎的重要组成部分,也是一个独立运行的软件产品。该系统对网络爬虫软件从网上自动提取的信息或WEB浏览器输入的批量信息,由计算机自动赋予分类检索标识和主题检索标识,在统一标准的基础上完成网络信息的自动分类标引、主题标引和类目词标引,提高网络环境下海量信息的查准率、查全率和有效利用率,实现网络信息共享。
背景技术:
我国在六十年代开始引进自动标引理论,但实际开展中文信息自动标引的研究则是在八十年代。八十年代末、九十年代初报道自动标引的文献较多,随后越来越少;当时所做成的系统,环境都是单机DOS操作系统,达到的水平,基本上都是处于试验阶段。
从理论依据和实现途径分析,自动标引的方法可分为4类:1、机助标引;2、词典法;3、单字标引法;4、逻辑推理法。就自动标引方案实施而言,可分为以下几种:
1、词典方案:词典法是现有自动标引系统中应用最多的方案,它是以词典为主,辅以其他手段完成自动标引。其主要思想是构造机内主题词表,并以此为主,辅以停用词表,预匹配词表,切分规则、语义规则、地域规则、逻辑判断规则等,实现自动标引。
2、单字标引方案:单字标引法也称为无标引法或按字标引法。它参考了西文自动抽词标引的思想,以单个汉字作为标引词,形成地址参照文件,利用后组方式进行逻辑检索。此方案不需要建立词典,也不需要分词,缺点是查准率低。
3、逻辑推理方案:此方案是利用推理规则库实现自动标引,其理论基础是人工智能和专家系统。推理规则是分词的基础,它由一系列推理规则(如语义规则库、词法规则库)组成。逻辑推理方案的关键在于构筑一个比较完善的语法语义网络,它能模仿人的思维,分词精度较高,自动标引效果好。
4、神经网络方案:此方案是用神经元表示短语,用神经元的相互联接表达短语间的句法关系或限制,通过激励来进行分词和标引。它是逻辑推理方法的进一步发展,目前仅处于模拟研究阶段,尚未达到应用程度。
作为自动标引基础的中文自动分词理论,分为机械分词和知识分词两大类。机械分词既不进行语法分析,也不进行语义理解,只是机械地匹配比较,分词精度不高。知识分词则进行语法和语义理解,分词精度高。目前,中文自动分词方法有:
1、匹配法:匹配法又分为最长匹配法、逆向最长匹配法、最佳匹配法、最短匹配法、逆向最短匹配法、增字法、减字法和逐字逐词比较法等,不同的方法得到的分词精度也不同。总之,逆向、增字、最长匹配对交集型歧义组合字段的切分有效,而且在切分过程中能得到一些有益的信息。
2、切分标志法:汉语中存在着许多自然切分标志,一是标点符号,二是只能充当词首字或词尾字的字,单字词、复音节单纯词和拟声词等。一个词不能跨越这些切分标志而存在。分词时先找出切分标志,把汉语的句子切分成一些短语,以便进一步分词和匹配。
3、部件词典法:部件词是指构成词的基本单元,它分为词首、词尾、词干等若干部件。从词首部件到词尾部件之间的字符串是一个词的可能性很大,它与词干的具体内容无关。部件词典法是词典法的改进,可采用逆向扫描或正向扫描的方法进行匹配。
4、链接表法:链接表法是记载某一汉字与另一汉字是否有联系的表。切分原则是有联系则取,无联系则断,切分出来的字串再按不同的模式进行二次切分。
5、语法语义方法:基于语法、语义知识库的分词方法是一种较好的分词方法,核心是构建知识库,其中包括词法知识库,句法知识库,语法知识库、语义知识库。应用语法、语义知识切分汉语,可大大提高自动标引的精度,使歧义切分率下降一倍。
进入二十一世纪,信息量快速增长,尤其是网络环境下的海量信息,繁而无序,手工加工,力所不及,全文检索,效率较低。要想“全、准、快、便”地查到所需信息,仍须对信息进行分类标引和主题标引。因此,中文信息自动标引便又成了网络环境下中文信息处理领域的重点研究课题。到目前为止,在国内尚未发现有关在互联网环境下基于WINDOWS或NT操作系统的中文自动标引系统的文献报道。
发明内容
本发明的目的在于提供一种基于网络环境的中文信息自动标引系统,标杆网络信息中文自动标引系统就是为了克服网络信息加工瓶颈,实现网络信息的自动加工处理,加速网络信息资源建设和自动化程度,达到满意的自动标引效果,提高网络信息的查准率、查全率和有效利用率,推动我国信息化发展进程。
本发明基于网络环境的中文信息自动标引系统,
附图说明
为进一步说明本发明的技术特征以下结合实施例及附图对本发明作一详细的描述,其中:
图1是本发明的系统流程图。
具体实施方式
请结合参阅图1所示,本发明标杆网络信息中文自动标引系统的主要设计思想是基于主题词表,辅以停用词表、预匹配词表、切分规则、地理规则、语义规则、逻辑判断规则、句法的逻辑推理法等多种分词技术的标引方案,采用JAVA语言编程,具有跨网络平台的优点。
本系统实现了在互联网环境下对各种类型、各种载体、各种行业或学科中文信息的主题词、分类号和范畴类目词的自动标引。
本系统的适用范围是全方位的中文信息,按标杆公司的分类体系划分,包括19个门类(见下表)112个行业(略)。因此,本系统既可对全行业(112个行业)中文信息进行分类标引和主题标引,也可对单个行业的中文信息分类标引和主题标引,还可对几个行业的组合进行分类标引和主题标引。
标杆公司分类体系的19个门类包括:
1、  农、林、牧、渔业
2、  采矿业
3、  制造业
4、  电力、煤气及水的生产和供应业
5、  建筑业
6、  交通运输、仓储和邮政业
7、  计算机、电信、网络服务业
8、  批发和零售贸易业
9、  旅馆和餐饮业
10、 金融、保险业
11、 房地产、租赁和商业服务
12、 社会服务业
13、 教育业
14、 卫生、社会保障、福利业
15、 文化、体育、娱乐业
16、 技术服务业
17、 社会科学和自然科学研究
18、 其他行业
19、 其他学科
本发明的主要内容是在网络环境下完成对中文信息的自动加工处理,自动给出信息的分类号、主题词和范畴类名,反映信息的主要内容,提高网络信息的查准率、查全率和有效利用率。其主要内容有:
1、构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系。
2、根据中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库。
3、根据汉语的词法,构建通用的停用词库和不同行业的特殊停用词库。
4、根据中国地理区域的特征,构建中国地理名称库和地理名称切分规则库。
5、根据人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。
6、采用JAVA、HTML、JAVASCRIPT、SQL等多种计算机语言研制、开发标杆搜索引擎和“三网一库”中文信息自动标引系统。此系统代码可在WINDOWS、NT、UNIX、LINUX上运行。
网络中文信息自动标引系统流程见下图(附后)。五、系统评价:
本系统可在局域网或广域网环境下运行,操作系统可为WINDOWS2000、NT、UNIX、LINUX。
本系统的分词标引字段为文献的标题、文摘和正文,可对单一字段或三个字段的任意组合进行分词。
本系统可同时标引出主题词、分类号、三级类目词。
标引深度因加工字段不同而异。对标题字段,标引深度为4;对标题+文摘字段,标引深度为7;对三个字段的组合,标引深度不低于10。
标引速度约为每分钟60个记录(对标题+文摘或三字段组合,计算机CPU应为PIII 500)。
标引准确度:主题词为98%以上,分类号和类目词不低于95%。由本系统标引出的主题词,分类号和类目词一般不需再进行人工干预,可直接入库。不过,为了保证标引不出现歧义词,该系统提供了人工质量控制功能模块,可对标引结果进行质量检查和修改。
本系统是基于词典法的标引方案,尚未采用人工神经网络技术,对信息内容的揭示和挖掘,还有待进一步提高。

Claims (6)

1、一种基于网络环境的中文信息自动标引系统,其特征在于,构建基于网络环境、适用于全行业信息的主题词表,主题词之间有“用、代、属、分、参”关系,行业之间有链接关系。
2、根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,中文的句法,构建通用的汉语切分规则库和不同行业的特殊切分规则库。
3、根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,汉语的词法,构建通用的停用词库和不同行业的特殊停用词库。
4、根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,中国地理区域的特征,构建中国地理名称库和地理名称切分规则库。
5、根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,人工智能、专家知识的逻辑推理法,构建通用的中文信息标引推理规则库和不同行业中文信息标引推理规则库,并以此作为语法、语义分析器的推理、判断依据,实现准确的汉语分词和信息标引。
6、根据权利要求1所述的基于网络环境的中文信息自动标引系统,其特征在于,采用JAVA、HTML、JAVASCRIPT、SQL等多种计算机语言研制、开发标杆搜索引擎和“三网一库”中文信息自动标引系统。此系统代码可在WINDOWS、NT、UNIX、LINUX上运行。
CN 01138654 2001-12-29 2001-12-29 基于网络环境的中文信息自动标引系统 Pending CN1430163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 01138654 CN1430163A (zh) 2001-12-29 2001-12-29 基于网络环境的中文信息自动标引系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 01138654 CN1430163A (zh) 2001-12-29 2001-12-29 基于网络环境的中文信息自动标引系统

Publications (1)

Publication Number Publication Date
CN1430163A true CN1430163A (zh) 2003-07-16

Family

ID=4674644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 01138654 Pending CN1430163A (zh) 2001-12-29 2001-12-29 基于网络环境的中文信息自动标引系统

Country Status (1)

Country Link
CN (1) CN1430163A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100401287C (zh) * 2004-09-16 2008-07-09 北京慧讯信息技术有限公司 汉语数据智能分类系统及方法
CN105246149A (zh) * 2014-07-11 2016-01-13 北京中星微电子有限公司 地理位置的识别方法和装置
CN109426663A (zh) * 2017-08-29 2019-03-05 云量科技(北京)有限责任公司 一种自然语言的识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100401287C (zh) * 2004-09-16 2008-07-09 北京慧讯信息技术有限公司 汉语数据智能分类系统及方法
CN105246149A (zh) * 2014-07-11 2016-01-13 北京中星微电子有限公司 地理位置的识别方法和装置
CN109426663A (zh) * 2017-08-29 2019-03-05 云量科技(北京)有限责任公司 一种自然语言的识别方法及系统

Similar Documents

Publication Publication Date Title
Wong et al. Ontology learning from text: A look back and into the future
AU2005203240A1 (en) Phrase identification in an information retrieval system
CN101079031A (zh) 一种网页主题提取系统和方法
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN101079024A (zh) 一种专业词表动态生成系统和方法
WO2014177301A1 (en) Device and method for answering a natural language question using a number of selected knowledge bases
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN107341188A (zh) 基于语义分析的高效数据筛选方法
CN113609838A (zh) 文档信息抽取及图谱化方法和系统
Markov et al. Natural Language Addressing
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质
Jin et al. The research of search engine based on semantic web
CN1430163A (zh) 基于网络环境的中文信息自动标引系统
CN106776590A (zh) 一种获取词条译文的方法及系统
Mvumbi Natural language interface to relational database: a simplified customization approach
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
Baldini et al. A multilanguage platform for open source intelligence
Varga et al. An ontology-based information retrieval system
Wang et al. NALMO: Transforming queries in natural language for moving objects databases
CN109101591A (zh) 基于知识库的拼音词义检索方法
King et al. Enhancing database technology to better manage and exploit Partially Structured Data
Baldini et al. A Text Mining based content gathering system as strategic support for SMEs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication