CN111291197B - 基于新词发现算法的知识库构建系统 - Google Patents

基于新词发现算法的知识库构建系统 Download PDF

Info

Publication number
CN111291197B
CN111291197B CN202010136541.2A CN202010136541A CN111291197B CN 111291197 B CN111291197 B CN 111291197B CN 202010136541 A CN202010136541 A CN 202010136541A CN 111291197 B CN111291197 B CN 111291197B
Authority
CN
China
Prior art keywords
word
book
new
words
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010136541.2A
Other languages
English (en)
Other versions
CN111291197A (zh
Inventor
崔岩松
陈科良
黄建明
任维政
杨泰岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010136541.2A priority Critical patent/CN111291197B/zh
Publication of CN111291197A publication Critical patent/CN111291197A/zh
Application granted granted Critical
Publication of CN111291197B publication Critical patent/CN111291197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种基于新词发现算法的知识库构建系统,包括图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;筛词子系统,用于对分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。完成了从图书到知识元数据、再到知识体系的构建过程,保证所构建的知识体系的权威性。同时,减少了新词提取过程中的人为干预,具有更高的处理效率和更少的人为错误概率,利用叠加了XML标签权重的新词发现技术提取出的新词将会更加精准和权威。

Description

基于新词发现算法的知识库构建系统
技术领域
本发明属于信息处理技术领域,涉及一种基于新词发现算法的知识库构建系统。
背景技术
在知识经济和互联网技术高度融合和快速发展的时代,知识已经成为影响经济发展的关键性因素,当然也带来了一些新的问题:如何在繁杂的知识资源中快速高效地捕获和获得正好适用于当前问题的知识点,同时获取相关联的信息资源,形成体系化的知识架构,为用户提供全方位的解决方案。完全、准确地揭示一个数字出版领域的知识体系是非常复杂且浩大的工程,研究过程周期长、建设难度大、投入多,这与知识体系构建与知识服务应用需求的急迫度产生了明显的矛盾。
目前,针对新词发现的研究已经产出了一定数量有价值的研究成果,从算法实现原理来说,主要分为有词库的新词发现算法以及无词库的新词发现算法。有词库的新词发现算法原理相对简单一些,其通过互联网大数据分析,提取不断产生的热门新生词汇;通过语义分析算法处理掉同义词汇,最终输出新词表,用于有词库的新词提取算法中;然后就可以基于词库对文本进行分词,在词库中没有匹配提取出来的剩余片段就是新词。但是,这种算法本身存在一个问题:分词的准确性本身依赖于词库的完整性,如果词库中根本没有新词,则分词结果将得不到保障。同时,如果采用此种算法,针对数字出版领域的新词表中的词汇需是专业词汇,直接引入大数据分析提取后,互联网数据会造成词库污染,将会产生大量的无用词汇,影响最终提取的知识元数据,进而导致知识体系构建失败。
因此,提供一种高效准确的基于新词发现算法的知识库构建系统是本领域技术人员亟待解决的技术问题。
发明内容
本发明针对上述研究现状和存在的问题,提供了一种基于新词发现算法的知识库构建系统,完成了从图书到知识元数据、再到知识体系的构建过程。每个子系统在自身的功能范围内独立运行,利用规范化的RESTFUL接口进行数据交换,保证所构建的知识体系的权威性。同时,基于无词库的新词发现算法进行调优,对每个词语在书内的重要性为其分配权重值,从而保证所提取的新词的实际价值。针对数字出版行业的新词发现算法基于无词库的版本将会更有价值。
为实现上述目的其具体方案如下:
一种基于新词发现算法的知识库构建系统,包括图书筛选子系统、分词子系统、筛词子系统;其中
所述图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;
所述分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;
所述筛词子系统,用于对所述分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。
优选的,所述图书筛选子系统还包括图书预览模块、图书转换模块、图书加载模块、图书管理模块;其中,
所述图书预览模块,用于对初筛之后的图书资源进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要;
所述图书转换模块,用于将对输入图书资源进行格式转换,将PDF转换成以分页加载形式的SWF文件,将XML利用XSL文件转换成HTML文件;
所述图书加载模块,用于在本地存在电子图书文件时不从服务器提取文件,从本地加载电子图书文件;
所述图书管理模块,用于对整个图书筛选子系统中所有内容、操作以及工作流程进行管理,包括对电子图书上传、图书资源以及转换任务进行管理、词库管理。
优选的,所述分词子系统包括语义分析模块、词语筛选模块、词间关系计算模块;其中,
所述语义分析模块,用于依据语义分析算法对图书资源的文本内容进行处理,处理过程包括文本抽取、分词、词性标注、标签关联、内容关联五个步骤;
所述词语筛选模块,用于依据词表、词频、词性、XML标签以及已有数字出版行业相关专业词库进行词语筛选,依据行业规则配置的XML标签权重调整词语权重,过滤权重低于给定阈值的词语;
所述词间关系计算模块,用于根据所述词语筛选模块输出的词语集数据计算出各词语之间的关系,结合一本书之内的词间距离、不同书之间的词间距离,利用图论方法建立词语与书、书与书以及词语与词语之间的关联关系,并进行存储。
优选的,所述语义分析模块的分词操作采用无词库的基于标签权重的新词发现算法,具体包括:
以互信息、左右熵以及新词IDF作为过滤新词的三个条件,先计算出分词输出的所有词语的互信息、左右熵和词频信息,然后分别计算出每个词语的互信息、左右熵以及词频在所有词语的互信息、左右熵以及词频之和中所占的比重;
为文本抽取得到的文本进行新词属性判定,判定算法如下:
Figure BDA0002397519370000031
Figure BDA0002397519370000032
式中各符号的含义如下:
Scorei:第i个单词的得分,
wm:左右熵权重,
we:左右熵权重,
Figure BDA0002397519370000041
所有单词词频的和,
wti:第i个单词的标签权重,
eni:第i个单词的左右熵,
Figure BDA0002397519370000042
单词出现的总次数,
mii:第i个单词的互信息,
wf:词频权重,
Figure BDA0002397519370000043
所有单词互信息的和,
freqi:第i个单词的词频,
Figure BDA0002397519370000044
单词出现的所有标签的总权重,
cj为出现的第j个标签的次数,
wj为该标签的权重;
新词本身的属性得分和新词的标签权重,这两项因素的乘积作为最终的新词得分;
利用最终的新词得分对待提取新词进行排序。
优选的,还包括,系统管理子系统,包括用户管理模块、角色权限管理模块以及XML标签管理模块;其中,
所述XML标签管理模块,用于原始XML标签文件上传与管理、分词过滤权重管理、词间关系过滤权重管理。
本发明相较现有技术具有以下有益效果:
本发明知识体系构建系统的四个子系统共同完成了从图书到知识元数据、再到知识体系的构建过程。每个子系统在自身的功能范围内独立运行,采用“机器为主、人工为辅”的工作模式,利用规范化的RESTFUL接口进行数据交换,保证所构建的知识体系的权威性。
本文基于无词库的新词发现算法进行调优,同时基于每个词语在书内的重要性为其分配权重值,从而保证所提取的新词的实际价值。以往对于新词发现的研究大多是基于中文词库进行,词库中未能匹配的片段将会被提取出来进行分析。本发明利用公式来表示词语本身的属性,这些公式能够模拟语言学专家提取新词,也就是基于人工智能技术提取新词,并且,在对大量算法输出结果观察之后可以进行阈值调整,并不断优化。因为减少了新词提取过程中的人为干预,基于人工智能技术的新词发现算法相比传统新词发现算法有两大优点:更高的处理效率和更少的人为错误概率。本发明同时在基于人工智能技术的新词发现算法的基础上叠加XML标签权重体系,利用叠加了XML标签权重的新词发现技术提取出的新词将会更加精准和权威。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种基于新词发现算法的知识库构建系统的架构图;
图2为本发明分词子系统的处理流程原理图;
图3为本发明筛词子系统的处理流程原理图;
图4为本发明系统部署架构图;
图5为本发明系统部署与传统集中式部署的服务器压力监测对比图;
图6为本发明基于标签权重的新词发现算法与传统新词发现算法的测试结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,为一种基于新词发现算法的知识库构建系统框架图,包括图书筛选子系统、分词子系统、筛词子系统;
图书筛选子系统,图书筛选子系统是知识体系构建的第一步,依据构建条件对图书进行筛选,输出满足知识元提取条件的图书。通过将加工之后的电子图书资源(PDF、XML等)上传入系统,使用ISBN号进行图书资源的唯一标识,然后通过系统预定标签转换规则将其转换成便于网络阅读的格式(HTML、SWF等),并由专业领域编辑人员通过人工筛选出可以进入知识体系构建的图书集,从而完成待处理数据的初筛。
图书筛选子系统还包括图书预览模块、图书转换模块、图书加载模块、图书管理模块;其中,
图书预览模块,用于对初筛之后的图书资源进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要;初筛之后的图书资源可以使用图书预览功能进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要。
图书转换模块,用于将对输入图书资源进行格式转换,将PDF转换成以分页加载形式的SWF文件,将XML利用XSL文件转换成HTML文件;转换后的文件简化了知识元提取的操作,提升了处理的效率。
图书加载模块,用于在本地存在电子图书文件时不从服务器提取文件,从本地加载电子图书文件,从而减轻服务器的访问压力。
图书管理模块,用于对整个图书筛选子系统中所有内容、操作以及工作流程进行管理,包括对电子图书上传、图书资源以及转换任务进行管理、词库管理。词库是一个不同行业领域资源、词语的集合,它也是构建知识体系的关键内容。
参见说明书附图2,分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;包含词库管理、分词任务管理、语义分析、词语筛选、词间关系计算五大功能模块。
词库管理的输入来自于图书筛选子系统,整个分词操作都在当前所选词库的作用域之下。在创建了分词任务之后,该任务就能够被分词任务管理模块进行管理。
在进行词语筛选之前,需要利用语义分析模块,依据语意算法对文本内容进行处理,处理过程包括文本抽取、分词、词性标注、标签关联、内容关联五个步骤;语义分析模块的分词操作采用无词库的基于标签权重的新词发现算法,知识体系构建系统所有功能的建设都是基于系统框架进行的,系统框架保证了所有子系统的正确运行、顺序执行以及相互之间数据的高效流转。对于系统本身而言,其核心功能主要集中在分词子系统中,其核心算法即是基于标签权重的新词发现算法。
新词发现算法中过滤新词有三个重要条件:互信息、左右熵以及新词IDF。互信息代表待处理新词的内部凝固度,也就是其能够单独成词的概率。互信息的值越大,代表所提取的文本关联性越大,其应该作为独立新词提取的可能性越大。其计算公式为:
Figure BDA0002397519370000071
式中的X和Y指的是两个相邻的单词,P(X,Y)代表两个词一起出现的概率,P(X)和P(Y)分别代表X和Y单独出现的概率。
针对互信息还有一个阈值——最小互信息,分词子系统拆分出的词汇的互信息低于该阈值则不能成词。
左右熵可以理解为待处理词汇的自由度,也就是该词能够运用于各种上下文的情况有多少。词汇左右能够连接不同词汇的数量越多,该值就越大。
Figure BDA0002397519370000081
Figure BDA0002397519370000082
其中EL代表左熵、ER代表右熵。W为疑似新词。A为其左边出现的所有词汇的集合,B为其右边出现的所有词汇的集合。
针对左熵和右熵也有一个阈值,如果左熵或者右熵有一个小于该阈值,则可判定其不能作为新词提取。
新词IDF表征的是新词在图书资源中出现的次数。出现的频次越高,说明其是新词的概率越大,这个数值是作为新词发现算法的补充条件。一般IDF越高,说明是新词的可能性越大。因为有些词汇左熵和右熵很大,但是出现的频次很少,则在新词IDF条件下,这样的词也不能被判定为新词。但是如果新词IDF非常高,反而代表这个词非常普通,不一定必须进入到新词库,尤其是为了防止造成新词污染,影响词的原子性。
通过上述的标签权重体系,以及互信息、左、右熵以及新词IDF条件,即可以为分词子系统提取文本进行新词属性打分,打分算法如下:
Figure BDA0002397519370000083
Figure BDA0002397519370000084
式中各符号的含义如下:
Scorei:第i个单词的得分,
wm:左右熵权重,
we:左右熵权重,
Figure BDA0002397519370000085
所有单词词频的和,
wti:第i个单词的标签权重,
eni:第i个单词的左右熵,
Figure BDA0002397519370000091
单词出现的总次数,
mii:第i个单词的互信息,
wf:词频权重,
Figure BDA0002397519370000092
所有单词互信息的和,
freqi:第i个单词的词频,
Figure BDA0002397519370000093
单词出现的所有标签的总权重,
cj为出现的第j个标签的次数,
wj为该标签的权重。
算法基于无词库新词发现算法,使用互信息及左右熵进行算法的调优。算法的总体思路是先计算出分词输出的所有词语的互信息、左右熵和词频信息,然后分别计算出每个词语的互信息、左右熵以及词频在所有词语的互信息、左右熵以及词频之和中所占的比重。在前文有提到词语互信息、左右熵以及词频越大,那么它是新词的可能性就越大。由于词语的互信息、左右熵以及词频的值可能会很大,进而增加计算机处理的开销,所以本算法中使用比值替代原始数据进行计算,以减小数值的大小。另一方面,如果直接求和可能会导致词频很高、但是不是新词的词语被判定为新词,因此,本公式中为互信息、左右熵和词频都设置了权重。权重的计算公式为:
Figure BDA0002397519370000094
Figure BDA0002397519370000095
Figure BDA0002397519370000101
每个属性的权重值即为所有待处理词语的其余两个属性之和在所有待处理词语三个属性之和中所占的比重,这样就可以降低某种属性值过高造成的新词判定错误的可能。另外,分母上的“2”是为了让权重归一化。
wti是图书资源XML标签集权重,通过这个属性可以对不同内容的权重进行调整。同时,为了保证算法的可扩展性,支持匹配自定义的模式,调整左右熵的权重,如《》,””,、、等。最后,综合互信息、词频、左右熵,利用上述公式进行综合打分。
具体说来,每一个新词属性的得分与两大因素相关:新词本身的属性得分和新词的标签权重,这两项因素的乘积将作为最终的新词得分。新词属性得分与以下三部分有关:该词的互信息在所有词的互信息中所占的比重,该词的左右熵在所有词的左右熵中所占的比重,该词词频在所有词语词频中所占的比重。互信息、左右熵以及词频在算法中的重要程度相当,因此这三个权重可以都取1。新词属性得分用以表征该词作为通用词汇可以作为新词提取的分数,但是针对专业出版领域,则需要考虑另外一个因素:标签权重。标签权重取的是该词的平均标签权重,计算公式为单词出现的所有标签权重的总权重除以该词的出现总次数。
通过算法计算得出的分值将对系统进行新词智能发现与价值判定提供最有价值的衡量标准,保证新词发现功能的可用性与有效性。我们可以利用分数值对待提取新词进行排序,取词的方案选用按比例取词。本文选取了中国铁道出版社出版的《铁路物流实务》、《科技人员健康指导手册》、《铁路动车组运用维修规程》、《运输组织与车务安全管理》、《铁道概论(第七版)》、《铁路职工健康知识读本》、《转变会风从办会开始》、《中国铁道风景线①》、《铁路员工健康体检手册》、《铁路火灾典型案例及防范措施》十本图书按照不同的选词比例进行横向测试,选出的新词由行业专家进行审核,筛掉不能作为新词的词语,最终得出了如表1所示的结果。
表1选词比例仿真结果
Figure BDA0002397519370000111
通过上表可以了解到这十本书中有四本书在选词比例为65%时选词量相对最大,且专家审核完全通过,有五本书是在选词比例为60%时出现这一状态,还有一本书是在选词比例为55%出现的,因此,本文取了这几个值的平均值61.5%作为算法的选词比例。当然,不同行业间新词出现的频率存在一定的差异,新词提取比例可以用上述计算方式进行适当调整。算法的标签权重参数项基于标准的XML规范进行设计。XML规范本身能够兼容图书、报纸、期刊等多种类型出版物的数字化资源,基于该规范设计的算法未来可以同样适用于报社、杂志等类型的知识体系构建中,从而为后续更优的算法迭代提供可能。
传统的新词发现算法主要通过NLP算法对文本中可能出现的新词进行提取,通过判断可能是新词的熵值进行最终的阈值对比,高于判定阈值的即可抓取到新词域中进行新词筛选与最终确认。而针对本文所提及的基于标签权重的新词发现算法则更加适用于数字出版领域,针对标题、作者、摘要、正文、脚注等具备不同权重的数据进行标签权重标引之后,在新词提取时也具备了不同的权重,从而保证最终提取的新词更能适用于数字出版领域的知识体系构建。
本文利用传统的新词发现算法和基于标签权重的新词发现算法进行了新词发现的横向对比测试,选用的测试书籍为《铁路客运岗位工作知识解答》。整本书包含279页,112000个字,为算法的横向对比测试提供了丰富的素材,使结果更具说服力。传统的新词发现算法在算法公式上不设置标签权重,基于标签权重的新词发现算法则按照多次实验总结的标签权重在第四章所提公式上进行配置。在本次对比测试中,本文设定的标签权重数值为:标题权重为1、编者按权重为0.9、副标题权重为0.9、肩标题权重为0.9、摘要权重为0.9、作者权重为0.85、正文权重为0.85、引用权重为0.8、脚注权重为0.7、参考文献权重为0.6、作者信息权重为0.6以及其他类型的权重为0.5及以下。测试结果如图6所示。
传统的新词发现算法共提取出3657个新词,耗时1095600毫秒,约18分钟。基于标签权重的新词发现算法共提取出2902个新词,耗时1210800毫秒,约20分钟。限于文章的篇幅,上图只截取了部分新词。从结果可以看出,基于标签权重的新词发现算法过滤了一些可能是在书内引用、脚注或者相关广告植入的新词,例如微丛书、微课堂、轻应用、微盟等词语都是属于书内广告中的内容,其标识权重低于0.5,在最终的新词打分中被丢弃。在传统新词发现算法的输出中可以看到,这类词语因为出现频率较高反而得分较高,容易为词库带来污染。而“车联网”这个词语存在于作者简历中,对于本书所涉及的新词体系贡献不大,且打分也低于判定阈值。基于标签权重的新词发现算法过滤了传统新词发现算法多提取出来的无效词汇752个,占整体提取新词的20.56%。在新词提取质量上基于标签权重的新词发现算法有明显的优势。另外,标签权重可以针对不同的应用场景继续优化,能够达到更好的取词质量。但是,基于标签权重的新词发现算法也有一些劣势,那就是处理耗时相对较长。这是由于本算法需要解析不同的标签并赋予其权重,再最终参与得分计算。而传统的新词发现算法是直接处理XML化的电子书资源中的文字信息,不需要辨识任何标签以及相关的权重。本次测试中基于标签权重的新词发现算法比传统的新词发现算法多耗时115200毫秒,占算法整体耗时的9.5%。
从实际应用层面来看,基于标签权重的新词发现算法因为支持权重定义,所以具备更好的灵活性。在不同的领域应用时,只需要调整不同的权重配置就能获取较高的新词提取质量。另一方面,灵活性的提升也带来了更大的复杂度。基于标签权重的新词发现算法要求内容本身能够以XML形式呈现,同时还需要设计合适的标签权重。
综上,虽然基于标签权重的新词发现算法有算法执行耗时和算法复杂度上的劣势,但是相比其在去除所提取新词中无用词汇所带来的新词库质量上的提升,这些劣势并不明显。所以通过基于标签权重的新词发现算法计算输出的新词对于构建出版业的知识体系更具价值。
分词完成之后,再利用词语筛选模块,依据词表、词频、词性、XML标签以及已有数字出版行业相关专业词库进行词语筛选,依据行业规则配置的XML标签权重调整词语权重,过滤权重低于阈值的词语。
最后,词间关系计算模块将根据上述流程输出的词语集数据计算出各词语之间的关系,综合考虑一本书之内的词间距离、不同书之间的词间距离,利用图论的方法建立词语与书、书与书以及词语与词语之间的关联关系,并进行存储,为知识体系构建提供最完善的信息元数据网络。
计算机自动分词之后的词语集基本是满足知识体系构建的元数据集,但是要完整准确地揭示专业出版领域的知识体系,则还需要专业人员对分析结果进行人为干预,以建立更为科学的知识体系,应用于知识服务中。筛词子系统即是为该环节提供服务的,本子系统主要包含筛词任务管理与词语管理两大功能模块,这两个功能模块相互串联,共同完成筛词环节。筛词子系统内部的处理流程如图3所示。所述词间关系计算模块,用于根据所述词语筛选模块输出的词语集数据计算出各词语之间的关系,结合一本书之内的词间距离、不同书之间的词间距离,利用图论方法建立词语与书、书与书以及词语与词语之间的关联关系,并进行存储。
最后一个子系统是系统管理,主要包含用户管理、角色权限管理以及XML标签管理三大部分。其中XML标签管理功能对于整个知识体系构建系统的标签体系构建与管理起到了至关重要的作用,它包括原始XML标签文件上传与管理、分词过滤权重管理、词间关系过滤权重管理以及社内分类管理。这一管理功能能够实现不同应用场景下的灵活配置,提升了系统的普适性。
在完成了知识体系构建系统的算法设计、功能框架搭建、整体功能实现以及数据初始化之后,需要进行系统的整体部署。由于进行分词、筛词、叙词生成的子系统所在区位不集中,分散在全国各地,因此要求系统的部署按照“一中央,多分部”的架构进行整体部署。部署架构如图4所示。
在中央加工系统进行核心词库存储管理,同时运行资源转换与拆分服务、核心新词发现以及语义分析服务、任务统筹安排管理服务等核心业务服务,保证知识体系构建系统的核心处理服务在中央加工系统中进行统一管理,保证整体系统的安全性与对外提供服务的一致性。外地的加工分中心则依据自身工作特色进行构建任务的划分、原始资源的上传与管理、待分析处理数据的中央接入请求管理、结果数据的接受与最终分发等。
在实际的部署应用中,为了对分布式部署方案的优劣进行详细分析,构建了集中式部署系统。集中式部署系统将整体系统都部署在中心服务器集群中,包括数据库服务器、知识资源基础加工及工具集应用服务器、NFS服务器、知识体系构建及标引系统服务器、知识资源库服务器等必备服务器。同时还包含4台备份服务器,用以实现内容的热备份,保障数据的安全。所有用户登录系统以及使用系统提供的工具都通过网页直接访问云端服务,通过中央处理后的数据再反馈给前端用户。通过对处理效率、总人力投入以及系统运行压力等数据进行分析可知,分布式部署架构能够很好地解决各地业务的多样性需求。提供的实时远程业务处理接口大大提升了处理效率,并降低了集中式办公带来的人力投入,同时降低了中央对于业务流程处理的访问压力。相较于集中式部署方案,分布式部署方案也存在一些缺点:(1)分布式部署需要在支线部署服务器,平台的维护将会更加复杂,成本也更高;(2)更多的数据需要通过主干网络进行传输,对于网络传输性能和稳定性的要求将会更高。同时,数据因为传输出现错误的可能性更大。从应用范围上进行比较的话,集中式部署方案在小范围的知识体系分析与研究场景下更加经济高效。而分布式部署方案则适用于更加广泛的应用场景,让知识生产与知识体系构建不受地域的限制,产出更丰富的知识体系架构。为了更好地进行对比试验,本研究选用了1000本计算机相关图书,每本书的平均字数在40000字左右。计算机相关的图书包含大量的公式、算法、代码及图表,对服务器运算性能有较高要求,产出的对比数据将会更为直观。集中式系统部署方案的服务器压力与分布式部署方案的服务器压力对比如图5所示。
通过服务器压力检测对比图可以看出,“一中央,多分部”系统部署架构内存占用为22%左右,CPU占用为31%左右。而集中式系统部署架构的内存占用为52%左右,CPU占用为50%左右。因此,“一中央,多分部”系统部署架构在实际使用中带来的服务器压力更小。另外,从压力曲线的波动性也可以看出,“一中央,多分部”系统部署架构压力曲线波动更小,系统稳定性更高。
除了服务器压力,部署架构的消耗也要进行对比。集中式系统部署架构要求人员都集中在固定区域进行词库审核,所以存在人员协调、办公环境配置的耗时。另外,由于工作都是由集中式的服务进行处理,大量的并发请求会使算法处理效率降低。另外,除了业务需要的人力资源外,集中式的部署还需要场地协调、工作配合协调等方面的人力投入。表2是处理1000本图书的实际人力投入以及耗时数据对比。
表2集中式系统部署方案与本方案对比输出
Figure BDA0002397519370000151
通过表2可以看出,“一中央、多分部”系统部署架构在耗时和人力投入上有明显的优势,它能够从效率和经济效益上对知识体系构建进行提升。
以上对本发明所提供的一种基于新词发现算法的知识库构建系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (4)

1.一种基于新词发现算法的知识库构建系统,其特征在于,包括图书筛选子系统、分词子系统、筛词子系统;其中
所述图书筛选子系统,用于对电子图书使用ISBN号进行图书资源的唯一标识,并进行标签转换为满足知识元提取条件的图书资源;
所述分词子系统,用于将图书筛选子系统中输出的图书资源进行基于标签权重的新词发现算法的词语切分与提取,得到分词结果;所述分词子系统包括语义分析模块,所述语义分析模块的分词操作采用无词库的基于标签权重的新词发现算法,具体包括:
以互信息、左右熵以及新词IDF作为过滤新词的三个条件,先计算出分词输出的所有词语的互信息、左右熵和词频信息,然后分别计算出每个词语的互信息、左右熵以及词频在所有词语的互信息、左右熵以及词频之和中所占的比重;
为文本抽取得到的文本进行新词属性判定,判定算法如下:
Figure FDA0002980234730000011
Figure FDA0002980234730000012
式中各符号的含义如下:
Scorei:第i个单词的得分,
wm:互信息权重,
we:左右熵权重,
Figure FDA0002980234730000013
所有单词词频的和,
wti:第i个单词的标签权重,
eni:第i个单词的左右熵,
Figure FDA0002980234730000021
单词出现的总次数,
mii:第i个单词的互信息,
wf:词频权重,
Figure FDA0002980234730000022
所有单词互信息的和,
freqi:第i个单词的词频,
Figure FDA0002980234730000023
单词出现的所有标签的总权重,
cj为出现的第j个标签的次数,
wj为该标签的权重;
新词本身的属性得分和新词的标签权重,这两项因素的乘积作为最终的新词得分;
利用最终的新词得分对待提取新词进行排序;
所述筛词子系统,用于对所述分词结果进行筛词任务管理,并对所筛词语进行词语管理并保存。
2.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,所述图书筛选子系统还包括图书预览模块、图书转换模块、图书加载模块、图书管理模块;其中,
所述图书预览模块,用于对初筛之后的图书资源进行PDF和XML的预览校对,判断输入图书资源是否满足知识体系构建的需要;
所述图书转换模块,用于将对输入图书资源进行格式转换,将PDF转换成以分页加载形式的SWF文件,将XML利用XSL文件转换成HTML文件;
所述图书加载模块,用于在本地存在电子图书文件时不从服务器提取文件,从本地加载电子图书文件;
所述图书管理模块,用于对整个图书筛选子系统中所有内容、操作以及工作流程进行管理,包括对电子图书上传、图书资源以及转换任务进行管理、词库管理。
3.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,所述分词子系统包括语义分析模块、词语筛选模块、词间关系计算模块;其中,
所述语义分析模块,用于依据语义分析算法对图书资源的文本内容进行处理,处理过程包括文本抽取、分词、词性标注、标签关联、内容关联五个步骤;
所述词语筛选模块,用于依据词表、词频、词性、XML标签以及已有数字出版行业相关专业词库进行词语筛选,依据行业规则配置的XML标签权重调整词语权重,过滤权重低于给定阈值的词语;
所述词间关系计算模块,用于根据所述词语筛选模块输出的词语集数据计算出各词语之间的关系,结合一本书之内的词间距离、不同书之间的词间距离,利用图论方法建立词语与书、书与书以及词语与词语之间的关联关系,并进行存储。
4.根据权利要求1所述的一种基于新词发现算法的知识库构建系统,其特征在于,还包括,系统管理子系统,包括用户管理模块、角色权限管理模块以及XML标签管理模块;其中,
所述XML标签管理模块,用于原始XML标签文件上传与管理、分词过滤权重管理、词间关系过滤权重管理。
CN202010136541.2A 2020-03-02 2020-03-02 基于新词发现算法的知识库构建系统 Active CN111291197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010136541.2A CN111291197B (zh) 2020-03-02 2020-03-02 基于新词发现算法的知识库构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010136541.2A CN111291197B (zh) 2020-03-02 2020-03-02 基于新词发现算法的知识库构建系统

Publications (2)

Publication Number Publication Date
CN111291197A CN111291197A (zh) 2020-06-16
CN111291197B true CN111291197B (zh) 2021-05-11

Family

ID=71018131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010136541.2A Active CN111291197B (zh) 2020-03-02 2020-03-02 基于新词发现算法的知识库构建系统

Country Status (1)

Country Link
CN (1) CN111291197B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931501B (zh) * 2020-09-22 2021-01-08 腾讯科技(深圳)有限公司 一种基于人工智能的文本挖掘方法、相关装置及设备
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法
CN117251685B (zh) * 2023-11-20 2024-01-26 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备
CN110298044A (zh) * 2019-07-09 2019-10-01 广东工业大学 一种实体关系识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备
CN110298044A (zh) * 2019-07-09 2019-10-01 广东工业大学 一种实体关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
针对特定领域的中文新词发现技术研究;李明;《针对特定领域的中文新词发现技术研究信息科技辑》;20130415;全文 *
面向特定领域的知识图谱构建技术研究与应用;邢立栋;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;全文 *

Also Published As

Publication number Publication date
CN111291197A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
CN111291197B (zh) 基于新词发现算法的知识库构建系统
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
Trappey et al. An R&D knowledge management method for patent document summarization
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
Didakowski et al. Automatic example sentence extraction for a contemporary German dictionary
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
CN112182148A (zh) 一种基于全文检索的标准辅助编写方法
CN109902305A (zh) 基于命名实体识别的模板生成、搜索及文本生成设备与方法
CN112685374B (zh) 日志分类方法、装置及电子设备
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护系统及方法
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
Nevzorova et al. Towards a recommender system for the choice of UDC code for mathematical articles
Paju et al. Towards an ontology and epistemology of text reuse
Dannélls et al. Evaluation and refinement of an enhanced OCR process for mass digitisation.
JP4711556B2 (ja) 文章自動分類装置、文章自動分類プログラム、文章自動分類方法及び文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体
CN116187323A (zh) 一种数控机床领域知识图谱及其构建方法
JP2003196294A (ja) 知識分析システムおよび知識分析方法
RU2750852C1 (ru) Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
Chanod et al. From legacy documents to xml: A conversion framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant