CN105512131A - 基于类目相似度计算的分类法类目映射的方法和装置 - Google Patents

基于类目相似度计算的分类法类目映射的方法和装置 Download PDF

Info

Publication number
CN105512131A
CN105512131A CN201410497975.XA CN201410497975A CN105512131A CN 105512131 A CN105512131 A CN 105512131A CN 201410497975 A CN201410497975 A CN 201410497975A CN 105512131 A CN105512131 A CN 105512131A
Authority
CN
China
Prior art keywords
classification
similarity
equations
kind object
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410497975.XA
Other languages
English (en)
Inventor
闫莹莹
刘耀
朱礼军
蔡志勇
张兆锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Chemical Information Center
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
China Chemical Information Center
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Chemical Information Center, INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical China Chemical Information Center
Priority to CN201410497975.XA priority Critical patent/CN105512131A/zh
Publication of CN105512131A publication Critical patent/CN105512131A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于类目相似度计算的分类法类目映射的方法,包括:选取第一分类法中的第一类目在第二分类法中对应的类目集合;计算第一类目与类目集合中任一第二类目的类目相似度;当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。本实施例的方案中在分类法类目的匹配过程中考虑到分类法不同层级概念粒度、类目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射出候选相似类目的问题,并在一定程度上提高了映射的准确率及效率。

Description

基于类目相似度计算的分类法类目映射的方法和装置
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种基于类目相似度计算的分类法类目映射的方法和装置。
背景技术
分类法是指按照事物的性质、特点、用途等作为区分的标准,将符合同一标准的事物聚类,不同的则分开的一种认识事物的方法;分类法将类或组按照相互间的关系,组成系统化的结构,并体现为许多类目按照一定的原则和关系组织起来的体系表,作为分类工作的依据和工具。其中,类目包括指示每个类别的编号及描述句。
目前对不同分类法之间的映射研究中,较多关注于基于结构相似、描述相似的分类法之间的映射研究,现有技术主要集中于研究词汇或概念的相似度计算的方法。未考虑分类体系从上层到深层的语义粒度逐渐细化的特点,而同等各层级的所有类目进行相似度计算,这样会带来计算结果的大量冗余,且在对类目描述差异较大的分类法做两两类目的相似值计算时,不考虑结构信息而进行映射计算亦会带来较多的结果遗漏偏差。因此,目前针对描述差异较大的分类法之间的自动映射还没有有效地解决方案,如国际专利分类法(IPC)和中国图书馆分类法(CLC)这两种差异较大的分类法之间无自动高效的映射解决方案。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别是对描述差异较大的分类法做两两类目的相似值计算而带来计算结果不准确的问题。
本发明提供了一种基于类目相似度计算的分类法类目映射的方法,包括:
选取第一分类法中的第一类目在第二分类法中对应的类目集合;
计算第一类目与类目集合中任一第二类目的类目相似度;
当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
本发明又提供了一种基于类目相似度计算的分类法类目映射的装置,包括:
第一选取模块,用于选取第一分类法中的第一类目在第二分类法中对应的类目集合;
整合计算模块,用于计算第一类目与类目集合中任一第二类目的类目相似度;
相似类目确定模块,用于当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
本实施例的方案中,通过选取第一分类法中的第一类目在第二分类法中对应的类目集合,接着计算第一类目与类目集合中任一第二类目的类目相似度,随后将类目相似度与预定的阈值范围进行比较,以确定第一类目与第二类目是否为候选相似类目。由于不同分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型的文献资源的整合组织与交叉检索等工作提供支持和辅助,因此,本方案提供的对于表达方式上有较大差异的两种分类法类目间进行自动映射的解决方案具有极高的实用价值。同时,本实施例的方案中在分类法类目的匹配过程中考虑到分类法层级概念粒度、类目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射的问题。进一步地,通过适当的资源更改和步骤选择,本方案不仅可以适用于IPC和CLC之间相关类目的映射,而且也可以适用于其他任意两个复杂度相似或更简单的分类法之间的类目映射计算。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于类目相似度计算的分类法类目映射的方法流程图;
图2为根据本发明实施例的基于类目相似度计算的分类法类目映射的设备功能示意图;
图3为根据本发明一个优选实施例的在IPC与CLC中的基于类目相似度计算的分类法类目映射的示例图;
图4为根据本发明另一优选实施例的基于类目相似度计算的分类法类目映射的流程示例图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在本方案的实施例中,分类法包括但不限于:中国图书馆分类法、国际专利分类法、杜威十进分类法等。以下将以中国图书馆分类法(CLC)及国际专利分类法(IPC)为例,进行实施例的阐述。
图1为根据本发明实施例的基于类目相似度计算的分类法类目映射的方法流程图。
在步骤S110中,选取第一分类法中的第一类目在第二分类法中对应的类目集合;在步骤S120中,计算第一类目与类目集合中任一第二类目的类目相似度;在步骤S130中,当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
由于不同分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型的文献资源的整合组织与交叉检索等工作提供支持和辅助,因此,本方法提供的对于从内容体系到表达方式上均有较大差异的两种分类法类目间进行自动映射的解决方案具有极高的实用价值。同时,本方法中在分类法类目的匹配过程中考虑到分类法层级概念粒度、类目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射的问题。
具体地,在步骤S110中,选取第一分类法中的第一类目在第二分类法中对应的类目集合。
更具体地,步骤S110包括步骤S111(图中未示出)和步骤S112(图中未示出);在步骤S111中,确定第一类目在第一分类法中所处第一层级;在步骤S112中,选取在第二分类法中与第一层级对应的第二层级、该第二层级的向上预定数量层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。
在一示例中,如图3所示,当第一分类法为IPC,第一类目为“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”时,在IPC分类表中读取该第一类目的层级数为“C01B3/00”;接着,根据预定的层级对照表或层级对应规则,在第二分类法CLC中选择与IPCC01B3/00对应的第二层级CLCTQ116,即当前第二类目为“工业气体”,在CLC分类表中向上查找确定CLCTQ116的向上一个层级CLCTQ11,即上层第二类目为“基本无机化学工业”,在CLC分类表中向下查找确定CLCTQ116的向下两个层级:第一下层CLCTQ116.02、CLCTQ116.1和CLCTQ116.2及CLCTQ116.2的第二下层CLCTQ116.2+1至CLCTQ116.2+9,即第一下层第二类目为“工业气体分析”、“工业气体;氧气及氮气”和“工业气体;氢气”,“工业气体;氢气”的第二下层第二类目为“工业气体;氢气;电解水制氢”、“工业气体;氢气;水煤气制氢”、“工业气体;氢气;焦炉气分离制氢”、“工业气体;氢气;天然气制氢”、“工业气体;氢气;铁水蒸汽法制氢及氢的液化”、“工业气体;氢气;液态氢”、“工业气体;氢气;石油裂化气制氢”、“工业气体;氢气;其他”,由当前第二类目、其上层第二类目及其第一下层第二类目、第二下层第二类目组成类目集合。在本发明的实施例中,当下层类目不包括上层类目的核心词汇时,将上层类目与下层类目合并来描述下层类目。
在步骤S120中,计算第一类目与类目集合中任一第二类目的类目相似度。
更具体地,步骤S120包括步骤S121(图中未示出)、步骤S122(图中未示出)和步骤S123(图中未示出)、步骤S124(图中未示出);在步骤S121中,计算第一类目与第二类目的字面相似度;在步骤S122中,计算第一类目与第二类目的结构相似度;在步骤S123中,根据字面相似度与结构相似度,通过整合计算,确定第一类目与第二类目的类目相似度。
在步骤S121之前,还包括预处理步骤S124(图中未示出);在步骤S124中,根据第一类目与第二类目的描述信息,如为语句描述,抽取出代表第一类目与第二类目的词汇集合。
其中,代表第一类目与第二类目的词汇集合的抽取方法包括多种:如最大化抽取和核心抽取;最大化抽取方式是通过对类目描述信息分词后,去除非领域词汇来完成的;在该方法中需要使用停用词表。核心抽词方式是对类目描述信息分词后,通过对与领域词典中领域词汇相匹配的词汇作抽取来确定。
两个类目间字面的相似度通过下式(1)进行计算:
S ( A , B ) = [ Σ i = 1 m a i m + Σ j = 1 n bj n ] / 2 式(1)
其中:
ai=max(s(Ai,B1),s(Ai,B2),...,s(Ai,Bn))
bj=max(s(A1,Bj),s(A2,Bj),...,s(Am,Bj))
A及B分别代表两个类目;
A包含的词汇为A1,A2,……,Am
B包含的词汇为B1,B2,……,Bn
S(Ai,Bj)表示词汇Ai和Bj的词汇相似度;
S(A,B)表示类目A及B间的相似度。
其中,词汇Ai和Bj的词汇相似度的方法可包括现有技术中的多种词汇相似度计算方法,例如:对词汇Ai和Bj进行字面分析,统计两个词汇中共同包含的相同语素的个数,根据相同语素在两个词汇中的位置及次序,统计相同语素在各个词汇中所占的权值,随后对两个词汇中的各个语素加权计算确定两个词汇的词汇相似度。
在步骤S121中,通过上式(1),计算第一类目与第二类目的字面相似度Sliteral
在步骤S122中,计算第一类目与第二类目的结构相似度Sliteral
更具体地,步骤S122包括步骤S1221(图中未示出)、步骤S1222(图中未示出)和步骤S1223(图中未示出);在步骤S1221中,计算第一类目的上层类目与第二类目的上层类目的上层类目相似度;在步骤S1222中,计算第一类目的下层类目与第二类目的下层类目的下层类目相似度;在步骤S1223中,根据上层类目相似度与下层类目相似度,确定第一类目与第二类目的结构相似度。
在步骤S1221中,计算第一类目的上层类目与第二类目的上层类目的上层类目相似度。
在一示例中,如图3所示,当第一分类法为IPC时,第一类目为IPCC01B3/00“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”,在IPC分类表中向上查找确定IPCC01B3/00的上层类目为IPCC01B“非金属元素;其化合物”;第二分类法为CLC,与第一类目对应的当前第二类目为CLCTQ116“工业气体”,在CLC分类表中向上查找确定CLCTQ116的上层类目为CLCTQ11“基本无机化学工业”,通过上式(1)与下式(2)计算上层类目相似度:
Sfather=S(Xup,Yup)式(2)
其中,Xup代表第一类目的上层类目,Yup代表第二类目的上层类目;
本示例中:Sfather=S(IPCC01B,CLCTQ11)。
在步骤S1222中,计算第一类目的下层类目与第二类目的下层类目的下层类目相似度。
在一示例中,如图3所示,第一分类法IPC中,第一类目为IPCC01B3/00“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”,在IPC分类表中向下查找确定IPCC01B3/00的第一下层类目为IPCC01B3/02“氢或含氢混合气的生产〔3〕”及第二下层类目IPCC01B3/50“氢或含氢气体从混合气体中的分离,如净化”;第二分类法CLC中,与第一类目对应的当前第二类目为CLCTQ116“工业气体”,在CLC分类表中向下查找确定CLCTQ116的下层第二类目为CLCTQ116.01“工业气体,工业气体分析”,CLCTQ116.1“工业气体,氧气和氮气”,CLCTQ116.2“工业气体;氢气”,CLCTQ116.3“工业气体,二氧化碳的生产”,CLCTQ116.3“工业气体,惰性气体的生产”,通过下式(3)计算下层类目相似度:
Sson ( A , B ) = [ Σ i = 1 m a i m + Σ j = 1 n bj n ] / 2 式(3)
其中:
ai=max(s(Ai,B1),s(Ai,B2),...,s(Ai,Bn))
bj=max(s(A1,Bj),s(A2,Bj),...,s(Am,Bj))
其中A代表第一类目的下位类目集合,B代表第二类目的下位类目集合。
第一类目的下位类包含的类目为A1,A2,……,Am
第二类目的下位类包含的类目为B1,B2,……,Bn
S(Ai,Bj)表示类目Ai和Bj的字面相似度;
Sson(A,B)表示第一类目和第二类目的下位类目集合的字面相似度。
在步骤S1223中,根据上层类目相似度与下层类目相似度,通过下式(4)确定第一类目与第二类目的结构相似度:
Sstructure=αSfather+βSson式(4)
其中,α+β=1
优选地,α=0.5,β=0.5。
在步骤S123中,根据字面相似度与结构相似度,通过下式(5)进行整合计算,确定第一类目与第二类目的类目相似度:
S=γSliteral+δSstructure式(5)
其中,γ+δ=1
优选地,γ=0.5,δ=0.5。
在步骤S130中,当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
在一示例中,将第一类目与第二类目的类目相似度S与预定的阈值范围,如0.5-1,进行比较,若1>S>0.5,则确定第一类目与该第二类目为候选相似类目。
图4为根据本发明另一优选实施例的基于分类法的类目相似度匹配的流程示例图。
在步骤S410中,确定第一分类法中的多个待匹配第一类目;例如,系统随机在第一分类法中选取多个待匹配的第一类目,其中,多个待匹配的第一类目可属于第一分类法中同一分类下的类目,也可属于不同分类下的类目。在步骤S420中,选取第一分类法中的一个第一类目;例如,从多个待匹配的第一类目选取一个第一类目作为当前待匹配的第一类目,记为A,其在第一分类法中所处层级记为m。在步骤S430中,选取第二分类法中与A对应的四个层级(m-1,m,m+1,m+2)中包括的所有第二类目,即为类目集合;在步骤S440中,选取类目集合中的任一第二类目,记为B;在步骤S450中,计算AB类目之间的类目相似度;在步骤S460中,计算A与类目集合中所有第二类目的整合相似值;在步骤S470中,计算第一分类法中的全部待匹配第一类目与第二分类法中相应第二类目的整合相似值。其中,将类目相似度与预定的阈值范围进行比较的步骤可在步骤S450之后直接进行,也可在步骤S460之后进行,也可在步骤S470之后再进行。
图2为根据本发明实施例的基于类目相似度计算的分类法类目映射的设备功能示意图。
终端设备100中包括基于类目相似度计算的分类法类目映射的装置,该装置包括第一选取模块110、整合计算模块120和相似类目确定模块130。本方案的实施例中,仅以终端设备100进行描述,而不对基于类目相似度计算的分类法类目映射的装置与终端设备100进行区分。
首先,第一选取模块110选取第一分类法中的第一类目在第二分类法中对应的类目集合;接着,整合计算模块120计算第一类目与类目集合中任一第二类目的类目相似度;随后,相似类目确定模块130当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
由于不同分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型的文献资源的整合组织与交叉检索等工作提供支持和辅助,因此,本方法提供的对于从内容体系到表达方式上均有较大差异的两种分类法类目间进行自动映射的解决方案具有极高的实用价值。同时,本装置中在分类法类目的匹配过程中引入了分类法层级概念粒度、类目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射的问题。
具体地,首先,第一选取模块110选取第一分类法中的第一类目在第二分类法中对应的类目集合。
更具体地,第一选取模块110包括层级确定单元(图中未示出)和第二选取单元(图中未示出);首先,层级确定单元确定第一类目在第一分类法中所处第一层级;接着,第二选取单元选取在第二分类法中与第一层级对应的第二层级、该第二层级的向上预定数量层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。
在一示例中,如图3所示,当第一分类法为IPC,第一类目为“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”时,在IPC分类表中读取该第一类目的层级数为“C01B3/00”;接着,根据预定的层级对照表或层级对应规则,在第二分类法CLC中选择与IPCC01B3/00对应的第二层级CLCTQ116,即当前第二类目为“工业气体”,在CLC分类表中向上查找确定CLCTQ116的向上一个层级CLCTQ11,即上层第二类目为“基本无机化学工业”,在CLC分类表中向下查找确定CLCTQ116的向下两个层级:第一下层CLCTQ116.02、CLCTQ116.1和CLCTQ116.2及CLCTQ116.2的第二下层CLCTQ116.2+1至CLCTQ116.2+9,即第一下层第二类目为“工业气体分析”、“工业气体;氧气及氮气”和“工业气体;氢气”,“工业气体;氢气”的第二下层第二类目为“工业气体;氢气;电解水制氢”、“工业气体;氢气;水煤气制氢”、“工业气体;氢气;焦炉气分离制氢”、“工业气体;氢气;天然气制氢”、“工业气体;氢气;铁水蒸汽法制氢及氢的液化”、“工业气体;氢气;液态氢”、“工业气体;氢气;石油裂化气制氢”、“工业气体;氢气;其他”,由当前第二类目、其上层第二类目及其第一下层第二类目、第二下层第二类目组成类目集合。在本发明的实施例中,当下层类目不包括上层类目的核心词汇时,将上层类目与下层类目合并来描述下层类目。
随后,整合计算模块120计算第一类目与类目集合中任一第二类目的类目相似度。
更具体地,整合计算模块120包括类目词汇抽取单元(图中未示出)、字面计算单元(图中未示出)、结构计算单元(图中未示出)和整合确定单元(图中未示出);首先,类目词汇抽取单元抽取出类目描述信息中的类目代表词汇;接着,字面计算单元计算第一类目与第二类目的字面相似度;结构计算单元计算第一类目与第二类目的结构相似度;随后,整合确定单元根据字面相似度与结构相似度,通过整合计算,确定第一类目与第二类目的类目相似度。
其中,两个类目间的字面相似度通过下式(1)进行计算:
S ( A , B ) = [ Σ i = 1 m a i m + Σ j = 1 n bj n ] / 2 式(1)
其中:
ai=max(s(Ai,B1),s(Ai,B2),...,s(Ai,Bn))
bj=max(s(A1,Bj),s(A2,Bj),...,s(Am,Bj))
A及B分别代表两个类目;
A包含的词汇为A1,A2,……,Am
B包含的词汇为B1,B2,……,Bn
S(Ai,Bj)表示词汇Ai和Bj的词汇相似度;
S(A,B)表示类目A及B间的相似度。
其中,词汇Ai和Bj的词汇相似度的方法可包括现有技术中的多种词汇相似度计算方法,例如:对词汇Ai和Bj进行字面分析,统计两个词汇中共同包含的相同语素的个数,根据相同语素在两个词汇中的位置及次序,统计相同语素在各个词汇中所占的权值,随后对两个词汇中的各个语素加权计算确定两个词汇的词汇相似度。
首先,字面计算单元通过上式(1),计算第一类目与第二类目的字面相似度Sliteral
更具体地,结构计算单元包括上层计算单元(图中未示出)、下层计算单元(图中未示出)和结构确定单元(图中未示出);首先,上层计算单元计算第一类目的上层类目与第二类目的上层类目的上层类目相似度;接着,下层计算单元计算第一类目的下层类目与第二类目的下层类目的下层类目相似度;随后,结构确定单元根据上层类目相似度与下层类目相似度,确定第一类目与第二类目的结构相似度。
首先,上层计算单元计算第一类目的上层类目与第二类目的上层类目的上层类目相似度。
在一示例中,如图3所示,当第一分类法为IPC时,第一类目为IPCC01B3/00“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”,在IPC分类表中向上查找确定IPCC01B3/00的上层类目为IPCC01B“非金属元素;其化合物”;第二分类法为CLC,与第一类目对应的当前第二类目为CLCTQ116“工业气体”,在CLC分类表中向上查找确定CLCTQ116的上层第二类目为CLCTQ11“基本无机化学工业”,通过上式(1)与下式(2)计算上层类目相似度:
Sfather=S(Xup,Yup)式(2)
其中,Xup代表第一类目的上层类目,Yup代表第二类目的上层类目;
本示例中:Sfather=S(IPCC01B,CLCTQ11)。
接着,下层计算单元计算第一类目的下层类目与第二类目的下层类目的下层类目相似度。
在一示例中,如图3所示,第一分类法IPC中,第一类目为IPCC01B3/00“非金属元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化”,在IPC分类表中向下查找确定IPCC01B3/00的第一下层类目为IPCC01B3/02“氢或含氢混合气的生产〔3〕”及第二下层类目IPCC01B3/50“氢或含氢气体从混合气体中的分离,如净化”;第二分类法CLC中,与第一类目对应的当前第二类目为CLCTQ116“工业气体”,在CLC分类表中向下查找确定CLCTQ116的下层第二类目为CLCTQ116.01“工业气体,工业气体分析”,CLCTQ116.1“工业气体,氧气和氮气”,CLCTQ116.2“工业气体;氢气”,CLCTQ116.3“工业气体,二氧化碳的生产”,CLCTQ116.3“工业气体,惰性气体的生产”,通过下式(3)计算下层类目相似度:
Sson ( A , B ) = [ Σ i = 1 m a i m + Σ j = 1 n bj n ] / 2 式(3)
其中:
ai=max(s(Ai,B1),s(Ai,B2),...,s(Ai,Bn))
bj=max(s(A1,Bj),s(A2,Bj),...,s(Am,Bj))
其中A代表第一类目的下位类目集合,B代表第二类目的下位类目集合。
第一类目的下位类包含的类目为A1,A2,……,Am
第二类目的下位类包含的类目为B1,B2,……,Bn
S(Ai,Bj)表示类目Ai和Bj的字面相似度;
Sson(A,B)表示第一类目和第二类目的下位类目集合的字面相似度。
随后,结构确定单元根据上层类目相似度与下层类目相似度,通过下式(4)确定第一类目与第二类目的结构相似度:
Sstructure=αSfather+βSson式(4)
其中,α+β=1;
优选地,α=0.5,β=0.5。
接着,整合确定单元根据字面相似度与结构相似度,通过下式(5)进行整合计算,确定第一类目与第二类目的类目相似度:
S=γSliteral+δSstructure式(5)
其中,γ+δ=1;
优选地,γ=0.5,δ=0.5。
随后,相似类目确定模块130当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
在一示例中,将第一类目与第二类目的类目相似度S与预定预定的阈值范围,如0.5-1,进行比较,若1>S>0.5,则确定第一类目与该第二类目为候选相似类目。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(RandomAccessMemory,随即存储器)、EPROM(ErasableProgrammableRead-OnlyMemory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableRead-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于类目相似度计算的分类法类目映射的方法,其特征在于,包括以下步骤:
选取第一分类法中的第一类目在第二分类法中对应的类目集合;
计算所述第一类目与所述类目集合中任一第二类目的类目相似度;
当所述类目相似度在预定的阈值范围内时,确定所述第一类目与该第二类目为候选相似类目。
2.根据权利要求1所述的方法,其特征在于,选取第一分类法中的第一类目在第二分类法中对应的类目集合,包括:
确定所述第一类目在所述第一分类法中所处第一层级;
选取在第二分类法中与所述第一层级对应的第二层级、该第二层级的向上预定数量层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。
3.根据权利要求1所述的方法,其特征在于,计算所述第一类目与所述类目集合中任一第二类目的类目相似度,包括:
计算所述第一类目与所述第二类目的字面相似度;
计算所述第一类目与所述第二类目的结构相似度;
根据所述字面相似度与所述结构相似度,通过整合计算,确定所述第一类目与所述第二类目的类目相似度。
4.根据权利要求3所述的方法,其特征在于,计算所述第一类目与所述第二类目的结构相似度,包括:
计算所述第一类目的上层类目与所述第二类目的上层类目的上层类目相似度;
计算所述第一类目的下层类目与所述第二类目的下层类目的下层类目相似度;
根据所述上层类目相似度与所述下层类目相似度,确定所述第一类目与所述第二类目的结构相似度。
5.根据权利要求1所述的方法,其特征在于,所述分类法包括以下任一项:中国图书馆分类法;国际专利分类法。
6.一种基于分类法的类目相似度匹配的装置,其特征在于,包括:
第一选取模块,用于选取第一分类法中的第一类目在第二分类法中对应的类目集合;
整合计算模块,用于计算所述第一类目与所述类目集合中任一第二类目的类目相似度;
相似类目确定模块,用于当所述类目相似度在预定的阈值范围内时,确定所述第一类目与该第二类目为候选相似类目。
7.根据权利要求6所述的装置,其特征在于,第一选取模块包括:
层级确定单元,用于确定所述第一类目在所述第一分类法中所处第一层级;
第二选取单元,用于选取在第二分类法中与所述第一层级对应的第二层级、该第二层级的向上预定数量层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。
8.根据权利要求6所述的装置,其特征在于,整合计算模块包括:
字面计算单元,用于计算所述第一类目与所述第二类目的字面相似度;
结构计算单元,用于计算所述第一类目与所述第二类目的结构相似度;
整合确定单元,用于根据所述字面相似度与所述结构相似度,通过整合计算,确定所述第一类目与所述第二类目的类目相似度。
9.根据权利要求8所述的装置,其特征在于,结构计算单元包括:
上层计算单元,用于计算所述第一类目的上层类目与所述第二类目的上层类目的上层类目相似度;
下层计算单元,用于计算所述第一类目的下层类目与所述第二类目的下层类目的下层类目相似度;
结构确定单元,用于根据所述上层类目相似度与所述下层类目相似度,确定所述第一类目与所述第二类目的结构相似度。
10.根据权利要求6所述的方法,其特征在于,所述分类法包括以下任一项:中国图书馆分类法;国际专利分类法。
CN201410497975.XA 2014-09-25 2014-09-25 基于类目相似度计算的分类法类目映射的方法和装置 Pending CN105512131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410497975.XA CN105512131A (zh) 2014-09-25 2014-09-25 基于类目相似度计算的分类法类目映射的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410497975.XA CN105512131A (zh) 2014-09-25 2014-09-25 基于类目相似度计算的分类法类目映射的方法和装置

Publications (1)

Publication Number Publication Date
CN105512131A true CN105512131A (zh) 2016-04-20

Family

ID=55720120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410497975.XA Pending CN105512131A (zh) 2014-09-25 2014-09-25 基于类目相似度计算的分类法类目映射的方法和装置

Country Status (1)

Country Link
CN (1) CN105512131A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704469A (zh) * 2016-08-08 2018-02-16 中国科学院文献情报中心 专利数据和产业数据的映射方法和装置
CN110874386A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 建立类目映射关系的方法和装置
CN111008645A (zh) * 2019-11-05 2020-04-14 北京邮电大学 基于共指消解的科技服务资源分类体系构建方法及装置
CN111159151A (zh) * 2019-12-27 2020-05-15 杭州数澜科技有限公司 一种构建数据类目体系的方法和系统
CN112949277A (zh) * 2021-02-19 2021-06-11 中国科学院计算机网络信息中心 基于融合表征学习的学科分类体系对齐方法、系统及介质
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN117688945A (zh) * 2024-01-31 2024-03-12 江西师范大学 一种科技文献类目自动映射模型训练与预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
CN101923561A (zh) * 2010-05-24 2010-12-22 中国科学技术信息研究所 一种文件自动分类方法
CN103488671A (zh) * 2012-06-11 2014-01-01 国际商业机器公司 用于查询和集成结构化和非结构化数据的方法和系统
WO2014030721A1 (ja) * 2012-08-22 2014-02-27 株式会社 東芝 文書分類装置および文書分類方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
CN101923561A (zh) * 2010-05-24 2010-12-22 中国科学技术信息研究所 一种文件自动分类方法
CN103488671A (zh) * 2012-06-11 2014-01-01 国际商业机器公司 用于查询和集成结构化和非结构化数据的方法和系统
WO2014030721A1 (ja) * 2012-08-22 2014-02-27 株式会社 東芝 文書分類装置および文書分類方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周林志 等: "基于词汇相似度的IPC与CLC映射", 《计算机工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704469A (zh) * 2016-08-08 2018-02-16 中国科学院文献情报中心 专利数据和产业数据的映射方法和装置
CN110874386A (zh) * 2018-08-30 2020-03-10 北京京东尚科信息技术有限公司 建立类目映射关系的方法和装置
CN111008645A (zh) * 2019-11-05 2020-04-14 北京邮电大学 基于共指消解的科技服务资源分类体系构建方法及装置
CN111159151A (zh) * 2019-12-27 2020-05-15 杭州数澜科技有限公司 一种构建数据类目体系的方法和系统
CN111159151B (zh) * 2019-12-27 2022-12-13 杭州数澜科技有限公司 一种构建数据类目体系的方法和系统
CN112949277A (zh) * 2021-02-19 2021-06-11 中国科学院计算机网络信息中心 基于融合表征学习的学科分类体系对齐方法、系统及介质
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN114860892B (zh) * 2022-07-06 2022-09-06 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN117688945A (zh) * 2024-01-31 2024-03-12 江西师范大学 一种科技文献类目自动映射模型训练与预测方法
CN117688945B (zh) * 2024-01-31 2024-04-30 江西师范大学 一种科技文献类目自动映射模型训练与预测方法

Similar Documents

Publication Publication Date Title
CN105512131A (zh) 基于类目相似度计算的分类法类目映射的方法和装置
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN104112020A (zh) 一种导航设备的一框式检索方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN104808806A (zh) 根据不确定性信息实现汉字输入的方法和装置
CN101986293A (zh) 用于在搜索界面中呈现搜索答案信息的方法及设备
CN102968987A (zh) 一种语音识别方法及系统
CN104199965A (zh) 一种语义信息检索方法
CN107861753B (zh) App生成索引、检索方法和系统及可读存储介质
CN103853738A (zh) 一种网页信息相关地域的识别方法
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN108108347B (zh) 对话模式分析系统及方法
CN112214991B (zh) 一种基于多特征融合加权的微博文本立场检测方法
CN104778157A (zh) 一种多文档摘要句的生成方法
Bouillot et al. How and why exploit tweet’s location information
CN112232522A (zh) 一种深部巷道支护方案智能推荐及动态优化方法
CN103514150A (zh) 识别具有组合型歧义的歧义词的方法和装置
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN109063171B (zh) 基于语义的资源匹配方法
CN105095196A (zh) 文本中新词发现的方法和装置
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420

RJ01 Rejection of invention patent application after publication