CN101425061B - 概念关联网络的数据标签建构方法与系统 - Google Patents

概念关联网络的数据标签建构方法与系统 Download PDF

Info

Publication number
CN101425061B
CN101425061B CN2007101670621A CN200710167062A CN101425061B CN 101425061 B CN101425061 B CN 101425061B CN 2007101670621 A CN2007101670621 A CN 2007101670621A CN 200710167062 A CN200710167062 A CN 200710167062A CN 101425061 B CN101425061 B CN 101425061B
Authority
CN
China
Prior art keywords
label
count
association
data
counting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101670621A
Other languages
English (en)
Other versions
CN101425061A (zh
Inventor
赖威慎
陈奕锜
林卓彦
谢文泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Priority to CN2007101670621A priority Critical patent/CN101425061B/zh
Publication of CN101425061A publication Critical patent/CN101425061A/zh
Application granted granted Critical
Publication of CN101425061B publication Critical patent/CN101425061B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种概念关联网络的数据标签建构系统与方法。该系统包括标签模块收集使用者输入的复数标签并建立一标签数据表,计算每一标签被使用的次数并比对预设临界值而产生至少二个标签计数表,并且计算每一标签与其它相关标签间的关联度。此外,采用增值的方式维护概念空间中的数据标签,可减少重新计算标签计数值、关联度与权重所必须花费的时间与系统资源。

Description

概念关联网络的数据标签建构方法与系统 
技术领域
本发明是有关于一种数据建构方法与系统,且特别有关于一种概念关联网络(concept relation network)的数据标签建构方法与系统。 
背景技术
由于通信网路与信息科技普遍运用之故,数字文件的生产与累积的速度极为快速,产生了大量数字文件的管理、组织、存取与利用的各种问题与需求。为解决这些问题、满足使用上的需求,“自动化信息组织与主题分析”与“文字知识探勘”的技术即应运而生,包括信息检索(Information Retrieval)、自然语言处理(Natural Language Processing)、机器学习(machine Learning)...等等。 
“知识探勘”(Knowledge Discovery,KD)是撷取有用、未被发掘且有潜在价值的规则信息或知识的一种过程。在实务上,此过程需要运用信息组织与分析等探勘技术,通过与使用者的互动,来反复探索数据库或文件库,以发现新的、有趣的信息或规律,再经由人工解读结果,让发现的规律信息变成有用的信息或知识。 
根据数据特性的不同,“知识探勘”可分为“数据探勘”(Data Mining,DM)与“文字探勘”(Text Mining,TM)。前者是用于处理结构化(Structured)数据,即每笔数据有共同字段可记录于数据库者,而后者处理非结构化(Unstructured)数据,即每笔数据没有共通的结构性可言,经常为长短不一、记载信息的自由文字。知识探勘(KM)的步骤大致分为数据搜集、数据清理、数据转换、探勘技术运用以及结果呈现与解读。知识探勘(KM)采用的方法 主要有关联分析(Association)、分类(Classification)、归类(Clustering)、摘要(Summarization)、预测(Prediction)以及序列分析(Sequence Analysis)。 
由于数据特性的不同,数据探勘(DM)与文字探勘(TM)在步骤与方法的技术细节上都有所差异。文字探勘(TM)运用的技术,几乎都跟词汇的频率与出现篇数有关,但这两项信息在数据探勘(DM)中极少用到。料探勘(DM)主要运用于大型数据库上,提供数据库管理系统额外的数据分析与统计功能。而文字探勘(TM)主要运用在大量的文件库上,供作信息搜寻、信息过滤、事件关联、趋势预测、犯罪分析、案例追踪、知识萃取、知识管理、决策辅助...等等之用。 
此外,数据探勘(DM)与文字探勘(TM)还可应用于建构数据标签,例如,网络搜寻时所使用的浏览标签,其为一种阶层式的概念空间建构方法(Hierarchical Concept Space Construction)。阶层式的概念空间建构方法是应用于Folksnomy自由分类法的资源标注行为(Collaborative Tagging),其通过估算标签间的关连性强度来建立阶层式的概念空间。 
然而,现有的知标签建构包括以下缺点。例如,在标签组织方法与系统(TAG ORGANIZATION METHODS AND SYSTEMS)中,其树状结构的维护成本较大。在用于社会网络信息所产生的搜寻结果的虚拟标签产生方法(VISUAL TAGS FOR SEARCH RESULTS GENERATED FROM SOCIALNETWORK INFORMATION)中,由于无权重观念,故在搜寻上较为困难。在自动化标签丛集(Automated Tag Clustering)的改善标签空间的搜寻与勘查方法(Improving search and exploration in the tag space)中,由于数值未经标准化,故其树状结构的维护成本较大。 
基于上述缺点,本发明提供了一种概念关联网络的数据标签建构方法与系统,其采用增值(Incremental)的方式维护概念空间(Concept Space),以减少重新计算标签计数值、关联度与权重所必须花费的时间与系统资源。 
发明内容
基于上述目的,本发明实施例揭示了一种概念关联网络的数据标签建构系统,包括一标签模块、一第一标签产生器、一第二标签产生器与一信任度产生器。该标签模块收集使用者输入的复数标签并建立一标签数据表。该第一标签产生器根据该标签数据表计算每一标签被使用的次数,并且产生一第一标签计数表,将该第一标签计数表中的每一标签的计数值与一第一预设临界值分别进行比对,以判断每一标签计数值是否小于该第一预设临界值,将标签计数值小于该第一预设临界值的标签舍弃,以产生一第二标签计数表。该第二标签产生器根据该第二标签计数表计算至少任二个标签同时被使用的次数,并且产生一第三标签对计数表。该信任度产生器根据该第一标签计数表与该第三标签对计数表计算每一标签与其它相关标签间的关联度,并且产生一标签关联度表。 
本发明实施例还揭示了一种概念关联网络的数据标签建构方法。 
取得使用者输入的复数标签并建立一标签数据表。根据该标签数据表计算每一标签被使用的次数,并且产生一第一标签计数表。将该第一标签计数表中的每一标签的计数值与一第一预设临界值分别进行比对,并且将标签计数值小于该第一预设临界值的标签舍弃,从而产生一第二标签计数表。根据使者输入与该第二标签计数表,计算任二个标签同时被使用的次数,并且产生一第三标签对计数表。将该第三标签对计数表中的每一标签的计数值与一第二预设临界值分别进行比对,并且将标签计数值小于该第二预设临界值的标签舍弃,从而产生一第四标签对计数表。根据该第一与第三标签对计数表,计算每一标签与其它关联标签间的关联度,并且产生一标签关联度表。 
附图说明
图1为显示本发明实施例的概念关联网络的数据标签建构系统架构示意图。 
图2为显示本发明实施例的建构概念空间的标签关联规则的实施架构示意图。 
图3为显示本发明实施例的建构标签计数表的示意图。 
图4为显示本发明实施例的新增概念空间的数据标签的实施架构示意图。 
图5为显示本发明实施例的新增标签计数表的示意图。 
图6为显示本发明实施例的更新概念空间的标签关联度的实施架构示意图。 
图7为显示本发明实施例的个人化概念空间中的标签权重的实施架构示意图。 
图8为显示本发明实施例的建构概念关联网络的数据标签的方法步骤流程图。 
附图标号: 
110~标签模块 
115~标签数据表 
120~单一标签产生器 
130~标签对产生器 
140~信任度产生器 
145~标签关联度表 
150~概念空间增值维持器 
160~概念空间调整器 
165~关联度调整表 
170~个人化概念空间承接器 
180~使用者注册模块 
185~关联度调整表 
190~操作 
C1、L1~标签计数表 
C2、L2~标签对计数表 
具体实施方式
为了让本发明的目的、特征、及优点能更明显易懂,下文特举较佳实施例,并配合附图1至图8,做详细的说明。本发明说明书提供不同的实施例来说明本发明不同实施方式的技术特征。其中,实施例中的各组件的配置为说明之用,并非用以限制本发明。且实施例中附图标号的部分重复,是为了简化说明,并非意指不同实施例之间的关联性。 
本发明实施例揭示了一种概念关联网络的数据标签建构方法与系统。 
本发明实施的概念关联网络的数据标签建构方法与系统可建立标签之间的关系,且采用增值(Incremental)的方式维护概念空间(Concept Space),以减少重新计算标签计数值、关联度与权重所必须花费的时间与系统资源。此外,可自动学习使用者的个人设定(Profile),动态更新概念空间,并且在使用时个人化概念空间。 
图1为显示本发明实施例的概念关联网络的数据标签建构系统架构示意图。 
本发明实施例的数据标签建构系统包括一标签模块(Tag Module)110、一单一标签产生器(Single Tag Generator)120、一标签对产生器(Tag-pairGenerator)130、一信任度产生器(Confidence Generator)140、一概念空间增值维持器(Concept Space Incremental Maintainer)150、一概念空间调整器(Concept Space Adjuster)160、一个人化概念空间承接器(Personalized ConceptSpace Adapter)170与一使用者注册模块(Sigh-up Module)180。 
图2为显示本发明实施例的建构概念空间的标签关联规则的实施架构示意图。 
参考图2与图3,标签模块110收集使用者输入或点选的关键词(即,标签数据)而建立标签数据表115。标签数据表115至少包括内容识别码字段 (Content ID)与标签字段(Tag),其中内容识别码以T001、T002、T003...来表示。在本实施例中,输入或点选的标签包括java、j2me、sun、example、sdk,其分别标示为T001~T009,但并不以此为限。在标签数据表115中,T001表示使用者同时使用java、j2me、sun等三个关键词来搜寻数据,T002表示使用者同时使用j2me、example等二个关键词来搜寻数据,以此类推。 
单一标签产生器120根据标签数据表115,计算每一标签(即,关键词)被使用的次数,并且产生一单一标签计数表C1。单一标签计数表C1至少包括一标签字段与一计数(Count)字段,其中该计数字段中的数值即表示对应的标签被使用的次数。 
单一标签产生器120接着将单一标签计数表C1中的每一标签的计数值与一预设的临界值分别进行比对,以判断标签计数值是否小于该临界值。需注意到,在本实施例中的临界值设为2,但不以此为限。单一标签产生器120将标签计数值小于该临界值的标签舍弃,从而产生一单一标签计数表L1(未显示)。单一标签计数表L1至少包括一标签字段与一计数字段,其中该计数字段中的数值即表示对应的标签被使用的次数,且必定大于前述的预设临界值。由于java、j2me、sun、example、sdk等标签的计数值都大于或等于2,故单一标签计数表C1中的所有标签都不会被舍弃,因此单一标签计数表C1与单一标签计数表L1有相同的数据内容。 
接着,标签对产生器130根据使者输入/点选与单一标签计数表L1,计算在java、j2me、sun、example、sdk等标签中,任二个标签(即,标签对)同时被使用的次数,并且产生一标签对计数表C2。标签对计数表C2至少包括一标签字段与一计数字段,其中该计数字段中的数值即表示对应的标签对被使用的次数。在标签对计数表C2中可看到,虽然sdk、example与sun分别被使用6次、2次与2次,但〔sdk/example〕、〔sdk/sun〕与〔example/sun〕分别被同时输入/点选的次数仅有0次、1次与0次。 
标签对产生器130将标签对计数表C2中的每一标签对的计数值与一预设 的临界值分别进行比对,以判断标签对计数值是否小于该临界值。需注意到,在本实施例中的临界值同样设为2,但不以此为限。标签对产生器130将标签计数值小于该临界值的标签舍弃,从而产生一标签对计数表L2。标签对计数表L2至少包括一标签字段与一计数字段,其中该计数字段中的数值即表示对应的标签对被使用的次数,且必定大于前述的预设临界值。由于〔java/example〕、〔sdk/example〕、〔sdk/sun〕与〔example/sun〕等标签对的计数值都小于2,故必须被舍弃,因此标签对计数表L2中的所有标签对的计数值都大于或等于2。 
在完成建立单一标签计数表C1、标签对计数表C2、单一标签计数表L1与标签对计数表L2后,信任度产生器140根据单一标签计数表C1与标签对计数表C2,并利用公式计算某一标签与其它相关标签间的关联度(Relation),并且产生一标签关联度表(Tag Relation Table)145,该公式如下所示: 
conf ( A ⇒ B ) = P ( B | A ) = Sup ( A ∪ B ) Sup ( A ) ,
其中,A为单一标签计数表C1中的一标签(例如,A标签),而B为标签对计数表C2中与A标签有关联的标签。如此即完成目前现有数据标签的空间概念的关系型运算,其目的在于找出不同数据标签间的关联性,以在使用者搜寻数据时可快速提供对应输入标签的相关数据。 
图4为显示本发明实施例的新增概念空间的数据标签的实施架构示意图。 
参考图4与图5,当使用者使用输入或点选新的关键词(即,标签数据)时,标签模块110收集该新标签,并且将该新标签传送给概念空间增值维持器150。概念空间增值维持器150接收到该新标签后,即将该新标签加入至单一标签计数表C1。比较图3与图5的单一标签计数表C1,新增的文字标签为java、sun与api,故其使用次数分别加1而变成7、3与1。接着,概念空间增值维持器150将单一标签计数表C1中更新的每一标签的计数值与前述的预设临界值分别进行比对,以判断更新的每标签的计数值是否小于该临界值, 进而判断单一标签计数表L1的内容是否有改变。需注意到,更新的标签是指新增的标签或计数值有增加的标签。 
若单一标签计数表L1的内容有改变,则概念空间增值维持器150根据使者输入/点选与单一标签计数表L1,将新增的标签加入到标签对计数表C2中,并修改标签字段与计数字段的内容。如标签对计数表C2所示,〔java/sun〕的标签对的计数值加1。接着,概念空间增值维持器150将标签对计数表C2中更新的每一标签对的计数值与前述的预设临界值分别进行比对,将计数值小于该临界值的标签对舍弃,从而更新标签对计数表L2。需注意到,更新的标签对是指新增的标签对或计数值有增加的标签对。 
同样的,信任度产生器140根据单一标签计数表C1与标签对计数表C2,并利用公式 conf ( A ⇒ B ) = P ( B | A ) = Sup ( A ∪ B ) Sup ( A ) , 计算某一标签与其它相关标签间的关联度(Relation),进而修改标签关联度表145的内容。 
需注意到,当取得新标签时,利用概念空间增值维持器150来修改单一标签计数表C1与标签对计数表C2,其好处是不必再重新计算与比对每一标签(对)的计数值,如此可大幅改善系统效率。 
若单一标签计数表L1的内容没有改变,则概念空间增值维持器150仅需将新增的标签(必须为标签对)加入到标签对计数表C2中,并判断是否需更新标签对计数表L2。需注意到,在本实施例中,仅以单一标签与标签对来做说明,但其并不以此为限。可同时使用三、四或更多个标签,并且计算对应每一标签组的计数值以产生一标签组计数表Cn,然后再将每一标签组的计数值与预设的临界值比对以产生一标签组计数表Ln。 
图6为显示本发明实施例的更新概念空间的标签关联度的实施架构示意图。 
当使用者以输入新的标签时,概念空间调整器160根据标签关联度表145,提供与该新标签间具有较佳关联度的标签以供使用者选择使用。在使用者选择使用其它与该新标签有关联的标签(例如,A标签)后(即,使用者回馈),概念空间调整器160根据公式或预设权重调整A标签与该新标签间的关联度,并且产生一关联度调整表165,该公式如下所示: 
offset ( A ⇒ B ) = offset ( A ⇒ B ) + 1 ,
其中,A为单一标签计数表C1中的一标签(例如,A标签),而B为标签对计数表C2中与A标签有关联的标签。接着,信任度产生器140根据关联度调整表165,并利用公式更新标签关联度表145的内容,该公式如下所示: 
conf ( A ⇒ B ) = Sup ( A ∪ B ) + offset ( A ⇒ B ) Sup ( A ) + offset ( A ⇒ B ) ,
其中,A为单一标签计数表C1中的一标签(例如,A标签),而B为标签对计数表C2中与A标签有关联的标签。如此一来,即完成概念空间的标签关联度的更新。 
图7为显示本发明实施例的个人化概念空间中的标签权重的实施架构示意图。 
当使用者登入本发明的搜寻系统时,使用者注册模块180自动取得标签关联度表145,以做为使用者的个人设定档185。个人设定档185中的所有标签及其对应的关联度可形成一个人设定档图表G(未显示),其中每一标签分别表示为一节点,而关联度即为连接二相关标签间的边(Edge)。标签模块110根据使用者输入取得新的标签,并且传送给个人化概念空间承接器170。个人化概念空间承接器170在取得新标签时,会利用蚂蚁算法(Ant Algorithm)中的公式以一定比例减少个人设定档185中的每一标签的关联度,该公式如下所示: 
wi=w-ρ×wi, 
其中,(请协助说明变量分别表示为何)。 
若取得的标签为(标签ti)标签关联度表145中没有的标签,则将标签ti的加入到标签关联度表145中,并且将对应标签ti的节点加入到个人设定档图 表G(未显示)中,并且计算标签ti与已存在的标签tj间的关联度,然后将对应该关联的边(Edge)加入到个人设定档所形成的图表G(未显示)中以连结节点ti与tj,其中节点ti与tj的边(Edge)将给予一初始权重α。若取得的标签为标签(标签ti)关联度表145中没有的标签,则增加标签tj与tj间的关联度,并且对个人设定档图表G(未显示)中的节点ti与tj的边(Edge)增加权重β。系统再根据更新后的标签的权重提供使用者执行不同操作190,包括搜寻、建议...等等。 
本发明实施例的建构数据标签的系统可根据使用者搜寻习惯,显示使用者较常使用的标签以供直接点选,其中对较常使用的标签赋予较大权重,而其它标签则赋予较小权重。 
图8为显示本发明实施例的建构概念关联网络的数据标签的方法步骤流程图。 
首先,利用一标签模块取得使用者输入的复数标签,并建立一第一标签数据表(步骤S81)。根据该第一标签数据表计算每一标签被使用的次数,并且产生一第一标签计数表(单一标签计数表C1)(步骤S82)。将该第一标签计数表中的每一标签的计数值与一第一预设临界值分别进行比对,并且将标签计数值小于该临界值的标签舍弃,从而产生一第二标签计数表(单一标签计数表L1)(步骤S83)。根据使者输入/点选与该第二标签计数表,计算任二个标签同时被使用的次数,并且产生一第三标签对计数表(标签对计数表C2)(步骤S84)。将该第三标签对计数表中的每一标签对的计数值与一第二预设临界值分别进行比对,并且将标签计数值小于该临界值的标签舍弃,从而产生一第四标签对计数表(单一标签计数表L2)(步骤S85)。 
根据该第一与第三标签对计数表,利用公式计算一标签与其它相关标签间的关联度,并且产生一标签关联度表(步骤S86),该公式如下所示: 
conf ( A ⇒ B ) = P ( B | A ) = Sup ( A ∪ B ) Sup ( A ) ,
其中,A为单一标签计数表C1中的一标签(例如,A标签),而B为标签对计数表C2中与A标签有关联的标签。如此即完成目前现有数据标签的空间概念的关系型运算,其目的在于找出不同数据标签间的关联性,以在使用者搜寻数据时可快速提供对应输入标签的相关数据。 
有关新增概念关联网络的数据标签、计算或调整标签间的关联度以及标签权重的个人化设定的实施方法可参考图4、图6与图7,在此将不予以赘述。 
本发明还提供一种记录媒体(例如光盘片、磁盘片与抽取式硬盘等等),其记录一计算机可读取的权限签核程序,以便执行上述的建构概念关联网络的数据标签的方法。在此,储存于记录媒体上的权限签核程序,基本上是由多数个程序代码片段所组成的(例如建立组织图程序代码片段、签核窗体程序代码片段、设定程序代码片段、以及部署程序代码片段),并且这些程序代码片段的功能对应到上述方法的步骤与上述系统的功能方块图。 
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何熟习此技艺者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视权利要求所界定者为准。 

Claims (15)

1.一种概念关联网络的数据标签建构系统,其特征在于,该系统包括:
一标签模块,其收集使用者输入的复数标签并建立一标签数据表;
一第一标签产生器,其根据所述的标签数据表计算每一标签被使用的次数,并且产生一第一标签计数表,将该第一标签计数表中的每一标签的计数值与一第一预设临界值分别进行比对,以判断每一标签计数值是否小于该第一预设临界值,将标签计数值小于该第一预设临界值的标签舍弃,以产生一第二标签计数表;
一第二标签产生器,其根据所述的第二标签计数表计算至少任二个标签同时被使用的次数,并且产生一第三标签对计数表,将该第三标签对计数表中的每一标签对的计数值与一第二预设临界值分别进行比对,以判断每一标签对计数值是否小于该第二预设临界值,将标签对计数值小于该第二预设临界值的标签舍弃,以产生一第四标签对计数表;以及
一信任度产生器,其根据所述的第一标签计数表与所述的第三标签对计数表计算每一标签与其它相关标签间的关联度,并且产生一标签关联度表。
2.如权利要求1所述的概念关联网络的数据标签建构系统,其特征在于,该系统还包括一概念空间增值维持器,其将接收的标签加入至所述的第一标签计数表,将该第一标签计数表中更新的每一标签的计数值与所述的第一预设临界值分别进行比对,以判断更新的每一标签的计数值是否小于该第一预设临界值,进而判断所述的第二标签计数表的内容是否有改变,若该第二标签计数表的内容有改变,则根据该第二标签计数表将更新的标签加入到所述的第三标签对计数表中,将该第三标签对计数表中更新的每一标签对的计数值与所述的第二预设临界值分别进行比对,将计数值小于该临界值的标签对舍弃,从而更新所述的第四标签对计数表。
3.如权利要求2所述的概念关联网络的数据标签建构系统,其特征在于,所述的信任度产生器根据所述的第一标签计数表与所述的第三标签对计数表计算每一标签与其它相关标签间的关联度,以更新所述的标签关联度表。
4.如权利要求2所述的概念关联网络的数据标签建构系统,其特征在于,若所述的第二标签计数表的内容没有改变,则所述的概念空间增值维持器将新增的标签加入到所述的第三标签对计数表中,并判断是否需更新所述的第四标签对计数表。
5.如权利要求1所述的概念关联网络的数据标签建构系统,其特征在于,该系统还包括一概念空间调整器,当取得至少一使用者输入标签时,其根据所述的标签关联度表提供与该输入标签间具有较佳关联度的标签以供使用者选择使用,当使用者选择使用与所述的输入标签有关联的至少一标签,调整该标签与该输入标签间的关联度,并且产生一关联度调整表。
6.如权利要求1所述的概念关联网络的数据标签建构系统,其特征在于,该系统还包括:
一使用者注册模块,其在使用者登入时自动取得对应所述的标签关联度表的一个人设定档;以及
一个人化概念空间承接器,其取得一使用者输入标签,以一定比例减少所述的个人设定档中的每一标签的关联度,若所述的标签关联度表中没有与所述的输入标签相同的标签,则将该输入标签加入到所述的个人设定档中,计算所述的输入标签与至少一已存在的标签间的关联度,并且给予该输入标签一初始权重。
7.如权利要求6所述的概念关联网络的数据标签建构系统,其特征在于,若所述的标签关联度表中具有与所述的输入标签相同的标签,则所述的个人化概念空间承接器增加所述的输入标签的权重。
8.如权利要求1所述的概念关联网络的数据标签建构系统,其特征在于,所述的标签数据表包括至少一内容识别码字段与一标签字段,且所述的第一与第二标签计数表分别包括至少一标签字段与一计数字段,其中每一计数字段中的数值即表示对应的标签被使用的次数,且所述的第二标签计数表中的每一计数字段中的数值大于所述的第一预设临界值。
9.如权利要求1所述的概念关联网络的数据标签建构系统,其特征在于,所述的第三与第四标签对计数表分别包括至少一标签字段与一计数字段,其中每一计数字段中的数值即表示对应的标签对被使用的次数,且所述的第四标签对计数表中的每一计数字段中的数值大于所述的第二预设临界值。
10.一种概念关联网络的数据标签建构方法,其特征在于,该方法包括下列步骤:
取得使用者输入的复数标签并建立一标签数据表;
根据该标签数据表计算每一标签被使用的次数,并且产生一第一标签计数表;
将该第一标签计数表中的每一标签的计数值与一第一预设临界值分别进行比对,并且将标签计数值小于该第一预设临界值的标签舍弃,从而产生一第二标签计数表;
根据使者输入与该第二标签计数表,计算任二个标签同时被使用的次数,并且产生一第三标签对计数表;
将该第三标签对计数表中的每一标签的计数值与一第二预设临界值分别进行比对,并且将标签计数值小于该第二预设临界值的标签舍弃,从而产生一第四标签对计数表;以及
根据所述的第一与第三标签对计数表,计算每一标签与其它关联标签间的关联度,并且产生一标签关联度表。
11.如权利要求10所述的概念关联网络的数据标签建构方法,其特征在于,该方法还包括:
将接收的标签加入至所述的第一标签计数表;
将该第一标签计数表中更新的每一标签的计数值与所述的第一预设临界值分别进行比对;
判断更新的每一标签的计数值是否小于所述的第一预设临界值,以判断所述的第二标签计数表的内容是否有改变;
若所述的第二标签计数表的内容有改变,则根据该第二标签计数表将更新的标签加入到所述的第三标签对计数表中;
将该第三标签对计数表中更新的每一标签对的计数值与所述的第二预设临界值分别进行比对;以及
将计数值小于该临界值的标签对舍弃,以更新所述的第四标签对计数表。
12.如权利要求11所述的概念关联网络的数据标签建构方法,其特征在于,该方法还包括根据所述的第一标签计数表与第三标签对计数表计算每一标签与其它相关标签间的关联度,以更新所述的标签关联度表。
13.如权利要求11所述的概念关联网络的数据标签建构方法,其特征在于,该方法还包括若所述的第二标签计数表的内容没有改变,则将新增的标签加入到所述的第三标签对计数表中,并判断是否需更新所述的第四标签对计数表。
14.如权利要求10所述的概念关联网络的数据标签建构方法,其特征在于,该方法还包括:
当取得至少一使用者输入标签时,根据所述的标签关联度表提供与所述的输入标签间具有较佳关联度的标签以供使用者选择使用;以及
当使用者选择使用与所述的输入标签有关联的至少一标签,调整所述的标签与所述的输入标签间的关联度,并且产生一关联度调整表。
15.如权利要求10所述的概念关联网络的数据标签建构方法,其特征在于,该方法还包括:
在使用者登入时自动取得对应所述的标签关联度表的一个人设定档;
取得一使用者输入标签,并且以一定比例减少所述的个人设定档中的每一标签的关联度;
若所述的标签关联度表中没有与所述的输入标签相同的标签,则将所述的输入标签加入到所述的个人设定档中;以及
计算所述的输入标签与至少一已存在的标签间的关联度,并且给予所述的输入标签一初始权重。
CN2007101670621A 2007-10-31 2007-10-31 概念关联网络的数据标签建构方法与系统 Expired - Fee Related CN101425061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101670621A CN101425061B (zh) 2007-10-31 2007-10-31 概念关联网络的数据标签建构方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101670621A CN101425061B (zh) 2007-10-31 2007-10-31 概念关联网络的数据标签建构方法与系统

Publications (2)

Publication Number Publication Date
CN101425061A CN101425061A (zh) 2009-05-06
CN101425061B true CN101425061B (zh) 2010-12-08

Family

ID=40615686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101670621A Expired - Fee Related CN101425061B (zh) 2007-10-31 2007-10-31 概念关联网络的数据标签建构方法与系统

Country Status (1)

Country Link
CN (1) CN101425061B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101501462B1 (ko) * 2013-06-10 2015-03-11 이용재 통합 데이터 객체 관리 시스템 및 그 방법
CN104572904B (zh) * 2014-12-25 2017-12-22 微梦创科网络科技(中国)有限公司 一种标签关联程度的确定方法及装置
CN111324724B (zh) * 2020-02-13 2023-04-11 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法

Also Published As

Publication number Publication date
CN101425061A (zh) 2009-05-06

Similar Documents

Publication Publication Date Title
CN1934569B (zh) 集成有用户注释的搜索系统和方法
CN102902700B (zh) 基于在线增量演化主题模型的软件自动分类方法
Wang et al. Identifying technological topics and institution-topic distribution probability for patent competitive intelligence analysis: a case study in LTE technology
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN101566997B (zh) 确定与给定的词集相关的词
Wang et al. Effective personalized recommendation based on time-framed navigation clustering and association mining
CN101796795B (zh) 分布式系统
CN102722498B (zh) 搜索引擎及其实现方法
US20090164441A1 (en) Method and apparatus for searching using an active ontology
CN112579852B (zh) 一种互动式网页数据精确采集方法
CN102722501B (zh) 搜索引擎及其实现方法
CN102737021B (zh) 搜索引擎及其实现方法
CN100354865C (zh) 仿人工细粒度网页信息采集方法
CN102722499B (zh) 搜索引擎及其实现方法
CN101739407A (zh) 自动构建用于相关信息浏览的信息组织结构的方法和系统
CN103294815A (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN102968465A (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
CN101425061B (zh) 概念关联网络的数据标签建构方法与系统
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
Zenkert et al. Discovering contextual knowledge with associated information in dimensional structured knowledge bases
CN115617980A (zh) 一种诉讼案例检索报告生成方法及系统
LIM et al. Web mining-The ontology approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101208

Termination date: 20191031

CF01 Termination of patent right due to non-payment of annual fee