CN107203620A - 主题词分类号的确定方法和确定装置 - Google Patents

主题词分类号的确定方法和确定装置 Download PDF

Info

Publication number
CN107203620A
CN107203620A CN201710379744.2A CN201710379744A CN107203620A CN 107203620 A CN107203620 A CN 107203620A CN 201710379744 A CN201710379744 A CN 201710379744A CN 107203620 A CN107203620 A CN 107203620A
Authority
CN
China
Prior art keywords
descriptor
preset
classification number
document
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710379744.2A
Other languages
English (en)
Inventor
韩红旗
侯慧敏
张运良
姚长青
王莉军
李仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN201710379744.2A priority Critical patent/CN107203620A/zh
Publication of CN107203620A publication Critical patent/CN107203620A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

本发明提供了主题词分类号的确定方法和确定装置,该方法包括:获取任一领域内包括文献分类号的多个文献,以建立所述任一领域的文献数据库;获取与所述任一领域中预置主题词相对应的同义词;基于预置主题词及该主题词的同义词,通过所述任一领域的文献数据库来确定属于所述主题词的文献集合;基于所述文献集合中的每个文献的文献分类号,确定所述主题词的分类号。应用本发明的技术方案,实现以自动化的方式来确定主题词的分类号;不仅能够快速、客观地确定主题词的分类号,还能避免新创建的主题词无法通过人工方式进行查找的情况;同时也为人们更加方便地整理和利用海量文献信息资源节省了大量时间,并提供了帮助。

Description

主题词分类号的确定方法和确定装置
技术领域
本发明涉及计算机领域,具体而言,本发明涉及一种主题词分类号的确定方法和一种主题词分类号的确定装置。
背景技术
随着信息技术的发展,大量信息也越来越多地涌入人们的视线,特别是各种各样的海量文献信息;为了便于人们利用和整理这些海量文献信息,出版或发表的文献信息都需要通过分类号对该文献信息进行分类。
近年来,为了更加方便人们利用和整理海量文献信息,不仅对文献信息的主体信息通过分类号进行分类,还进一步对文献信息的主题词进行分类。
在现有技术中,通常通过人工查找的方式或者人工测评的方式来确定文献信息的主题词的分类号;人工查找的方式是从人工建立的主题分类词表中,查找与文献信息的主题词相符合的分类号;而人工测评的方式是由具有经验丰富的主题词分类专家对文献信息的主题词分类号进行商讨并作出判断,从而确定文献信息的主题词的分类号。
上述现有技术中确定主题词的分类号的方式不但无法保证主题词分类号的客观性,同时还会耗费大量的人力成本,且效率低下;故如何自动化地、客观地确定主题词的分类号,是解决上述问题的关键。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明的一个实施例提出了一种主题词分类号的确定方法,包括:
获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库;
获取与任一领域中预置主题词相对应的同义词;
基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合;
基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号。
其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
优选地,获取与任一领域中预置主题词相对应的同义词的步骤,包括:
通过查询预置主题词表,来确定与任一领域中预置主题词相对应的同义词;
其中,预置主题词表包括任一领域的预置主题词与该预置主题词的同义词。
优选地,基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合的步骤,包括:
基于预置检索条件生成规则,生成包括任一预置主题词和/或该预置主题词的同义词的检索条件;
从任一领域的文献数据库中查询并确定与检索条件相符合的文献;
基于获取到的文献,确定属于预置主题词的文献集合。
优选地,基于预置主题词的文献集合中的每个文献的文献分类号,确定预置主题词的分类号的步骤,包括:
统计预置主题词的文献集合中的每个文献的文献分类号的出现频次;
基于出现频次,将文献分类号由高至低进行排序;
按照由高至低的顺序选取预置数量的文献分类号;
将选取到的文献分类号确定为该主题词的分类号。
其中,当预置数量大于文献分类号的数量时,该方法还包括:将所有的文献分类号确定为该预置主题词的分类号。
本发明的另一个实施例提出了一种主题词分类号的确定装置,包括:
获取模块,用于获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库;
第一确定模块,用于获取与任一领域中预置主题词相对应的同义词;
第二确定模块,用于基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合;
第三确定模块,用于基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号。
其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
优选地,第一确定模块,用于通过查询预置主题词表,来确定与任一领域中预置主题词相对应的同义词;
其中,预置主题词表包括任一领域的预置主题词与该预置主题词的同义词。
优选地,第二确定模块包括:
生成单元,用于基于预置检索条件生成规则,生成包括任一预置主题词和/或该预置主题词的同义词的检索条件;
查询单元,用于从任一领域的文献数据库中查询并确定与检索条件相符合的文献;
第一确定单元,用于基于获取到的文献,确定属于预置主题词的文献集合。
优选地,第三确定模块包括:
统计单元,用于统计预置主题词的文献集合中的每个文献的文献分类号的出现频次;
排序单元,用于基于出现频次,将文献分类号由高至低进行排序;
选取单元,用于按照由高至低的顺序选取预置数量的文献分类号;
第二确定单元,用于将选取到的文献分类号确定为该预置主题词的分类号。
当预置数量大于文献分类号的数量时,该装置还包括:第四确定模块,用于将所有的文献分类号确定为该预置主题词的分类号。
本发明的技术方案中,获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库;获取与任一领域中预置主题词相对应的同义词;基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合;基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号;以实现自动化的方式来确定主题词的分类号,不仅能够快速且客观地确定主题词的分类号,还能避免新创建的主题词无法通过人工方式进行查找的情况;同时节省了大量时间、人力资源、物力资源乃至财力资源,为人们更加方便地整理和利用海量文献信息资源提供了帮助。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的主题词分类号的确定方法的流程示意图;
图2为本发明中的一个优选实施例的确定属于主题词的文献集合的步骤的流程示意图;
图3为本发明中的另一个优选实施例的确定主题词的分类号步骤的流程示意图;
图4为本发明中的另一个实施例的主题词分类号的确定装置的结构框架示意图;
图5为本发明中的一个优选实施例的第二确定模块的结构框架示意图;
图6为本发明中的另一个优选实施例的第三确定模块的结构框架示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明一个实施例的主题词分类号的确定方法的流程示意图。
步骤S101:获取任一领域的包括文献分类号的多个文献,以建立任一领域的文献数据库;步骤S102:获取与任一领域中预置主题词相对应的同义词;步骤S103:基于主题词及确定出的该主题词的同义词,通过任一领域的文献数据库来确定属于主题词的文献集合;步骤S104:基于文献集合中的每个文献的文献分类号,确定主题词的分类号。
本发明的技术方案中,获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库;获取与任一领域中预置主题词相对应的同义词;基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合;基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号;以实现自动化的方式来确定主题词的分类号,不仅能够快速且客观地确定主题词的分类号,还能避免新创建的主题词无法通过人工方式进行查找的情况;同时节省了大量时间、人力资源、物力资源乃至财力资源,为人们更加方便地整理和利用海量文献信息资源提供了帮助。
以下针对各个步骤的具体实现做进一步的说明:
步骤S101:获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库。
其中,分类号包括但不限于中国图书馆分类法的分类号、国际专利分类表International Patent Classification分类号,简称IPC分类号。
具体地,获取任一领域内包括文献分类号的多个文献的方式包括但不限于:从预置的文献数据库中获取任一领域内包括文献分类号的多个文献;或者利用爬虫技术从互联网的网络数据平台中抓取任一领域内包括文献分类号的多个文献。其中,预置的文献数据库可以是专业领域的文献数据库,例如:电力电器领域、化工专业领域、冶金专业领域、材料专业领域等专业领域的文献数据库,也可以是综合专业领域的文献数据库,例如:万方数据库、中国知网数据库、国家知识产权局专利数据库等。
其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
例如,根据预置主题词或概念知识图谱建设的需求,确定需要获取的文献所属的领域,例如,电力电器领域,则基于获取任一领域内包括文献分类号的多个文献的方式,从国家知识产权局专利数据库中获取电力电器领域的包括文献分类号的多个文献,基于获取到的多个文献来建立电力电器领域的文献数据库。
需要说明的是,其它形式的分类号也可以作为文献分类号;获取到的包括文献分类号的多个文献也还可以包括文献主体。
步骤S102:获取与任一领域中预置主题词相对应的同义词。
具体地,通过查询预置主题词表,来获取与任一领域中预置主题词相对应的同义词。
其中,预置主题词表包括任一领域的预置主题词与该预置主题词的同义词。
例如,基于下述表1的预置主题词表,查询与电力电器领域中的预置主题词相对应的同义词,如电力电器领域中的预置主题词“无触点低压器”相对应的同义词“可控硅低压器、半导体低压器”;预置主题词“灭弧室”相对应的同义词“吹弧室、灭弧罩”;……预置主题词“极限电流”相对应的同义词“容许电流、允通电流”。
表1
主题词 主题词相对应的同义词
通信 通讯
…… ……
无触点低压器 可控硅低压器、半导体低压器
灭弧室 吹弧室、灭弧罩
…… ……
极限电流 容许电流、允通电流
…… ……
需要说明的是,本实施例中的预置主题词表是综合各个领域的主题词表;在本实施例中还可以直接通过遍历预置的电力电器领域的主题词表,直接读取该电力电器领域的主题词表中的各个预置主题词以及该预置主题词的同义词。
步骤S103:基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合。
具体地,基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合的步骤,如图2所示,包括:步骤S201:基于预置检索条件生成规则,生成包括任一预置主题词和/或该预置主题词的同义词的检索条件;步骤S202:从任一领域的文献数据库中查询并确定与检索条件相符合的文献;步骤S203:基于获取到的文献,确定属于预置主题词的文献集合。
其中,预置检索条件生成规则是运用至少一项符号,使用任一预置主题词和/或该预置主题词的同义词生成逻辑表达式;该符号包括但不限于逻辑运算符、位置运算符、字段限制符等。
例如,基于逻辑运算符“or”,使得电力电器领域的预置主题词“极限电流”和“极限电流”的同义词“容许电流、允通电流”生成逻辑表达式,即检索条件,为“极限电流or容许电流or允通电流”;从已建立的电力电器领域的文献数据库中查询与该检索条件“极限电流or容许电流or允通电流”相符合的文献,如表2所示:
表2
则确定属于该预置主题词“极限电流”的文献集合即为表2所示的文献集合。
步骤S104:基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号。
具体地,基于预置主题词的文献集合中的每个文献的文献分类号,确定预置主题词的分类号的步骤,如图3所示,包括:步骤S301:统计预置主题词的文献集合中的每个文献的文献分类号的出现频次;步骤S302:基于出现频次,将文献分类号由高至低进行排序;步骤S303:按照由高至低的顺序选取预置数量的文献分类号;步骤S304:将选取到的文献分类号确定为该预置主题词的分类号。
例如,统计上述表2中的每个文献的文献分类号的出现频次,并基于出现频次,将文献分类号由高至低进行排序;如表3所示:
表3
G01N27/26(2006.01)I 2次
G01N27/407(2006.01)I 2次
G01N27/00(2006.01)I 1次
G01R19/00(2006.01)I 1次
H01R4/18 1次
H01R43/16 1次
B60L11/18(2006.01)I 1次
F02D41/14(2006.01)I 1次
G01N27/406(2006.01)I 1次
即分类号G01N27/26(2006.01)I,出现频次“2次”;分类号G01N27/407(2006.01)I,出现频次“2次”;分类号G01N27/00(2006.01)I,出现频次“1次”;分类号G01R19/00(2006.01)I,出现频次“1次”;分类号H01R4/18,出现频次“1次”;分类号H01R43/16,出现频次“1次”;分类号B60L11/18(2006.01)I,出现频次“1次”;分类号F02D41/14(2006.01)I,出现频次“1次”;分类号G01N27/406(2006.01)I,出现频次“1次”;当预置数量为2个时,按照由高至低的顺序选取2个文献分类号:分类号G01N27/26(2006.01)I和分类号G01N27/407(2006.01)I;则确定预置主题词“极限电流”的分类号为:G01N27/26(2006.01)I、G01N27/407(2006.01)I。
需要说明的是,根据需求还可以只选择文献分类号的部分等级作为该文献分类号,即并非必须选择文献分类号的全部等级作为文献分类号,如根据需求选择上述文献分类号的以下至少一个等级作为文献分类号:部、大类、小类、大组、小组等;如,上述文献分类号包括的等级为:部、大类和小类,如表4所示:
表4
即分类号G01N,出现频次“6次”;分类号H01R,出现频次“2次”;分类号G01R,出现频次“1次”;分类号B60L,出现频次“1次”;分类号F02D,出现频次“1次”;当预置数量为2个时,按照由高至低的顺序选取2个文献分类号:分类号G01N和分类号H01R;则确定预置主题词“极限电流”的分类号为:G01N、H01R。
根据需求还可以选择上述文献分类号包括的等级为:部和类;部、类、小类和大组等其他等级组合方式。
具体地,基于上述表3或表4,当预置数量大于统计生成的文献分类号的数量时,该方法还包括:将所有的文献分类号确定为该预置主题词的分类号。
例如,基于上述表3,当预置数量为10个分类号时,大于文献分类号的数量9个时,则该预置主题词“极限电流”的分类号直接可确定为这9个文献分类号:G01N27/26(2006.01)I、G01N27/407(2006.01)I、G01N27/00(2006.01)I、G01R19/00(2006.01)I、H01R4/18、H01R43/16、B60L11/18(2006.01)I、F02D41/14(2006.01)I、G01N27/406(2006.01)I。
基于上述表4,当预置数量为10个分类号时,大于文献分类号的数量5个时,则该预置主题词“极限电流”的分类号直接可确定为这5个文献分类号:G01N、H01R、G01R、B60L、F02D。
本发明的实施例为每一个主题词确定多个分类号,实现了主题词与多个分类号的关联,满足了人们对多领域关联检索的需求;同时基于本发明的方法确定的主题词的分类号比人工方式确定的主题词的分类号更加客观,实用性更好。
图4为本发明中的另一个实施例的主题词分类号的确定装置的结构框架示意图。
获取模块,获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库;第一确定模块,获取与任一领域中预置主题词相对应的同义词;第二确定模块,基于预置主题词及该预置主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合;第三确定模块,基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号。
以下针对各个模块的具体实现做进一步的说明:
获取模块,获取任一领域内包括文献分类号的多个文献,以建立任一领域的文献数据库。
其中,分类号包括但不限于中国图书馆分类法的分类号、国际专利分类表International Patent Classification分类号,简称IPC分类号。
具体地,获取任一领域内包括文献分类号的多个文献的方式包括但不限于:从预置的文献数据库中获取任一领域内包括文献分类号的多个文献;或者利用爬虫技术从互联网的网络数据平台中抓取任一领域内包括文献分类号的多个文献。其中,预置的文献数据库可以是专业领域的文献数据库,例如:电力电器领域、化工专业领域、冶金专业领域、材料专业领域等专业领域的文献数据库,也可以是综合专业领域的文献数据库,例如:万方数据库、中国知网数据库、国家知识产权局专利数据库等。
其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
例如,根据预置主题词或概念知识图谱建设的需求,确定需要获取的文献所属的领域,例如,电力电器领域,则基于获取模块的获取任一领域内包括文献分类号的多个文献的方式,从国家知识产权局专利数据库中获取电力电器领域的包括文献分类号的多个文献,基于获取到的多个文献来建立电力电器领域的文献数据库。
需要说明的是,其它形式的分类号也可以作为文献分类号;获取到的包括文献分类号的多个文献也可以还包括文献主体。
第一确定模块,获取与任一领域中预置主题词相对应的同义词。
具体地,第一确定模块,通过查询预置主题词表,来获取与任一领域中预置主题词相对应的同义词。
其中,预置主题词表包括任一领域的预置主题词与该预置主题词的同义词。
例如,基于下述表1的预置主题词表,第一确定模块查询与电力电器领域中的预置主题词相对应的同义词,如电力电器领域中的预置主题词“无触点低压器”相对应的同义词“可控硅低压器、半导体低压器”;预置主题词“灭弧室”相对应的同义词“吹弧室、灭弧罩”;……预置主题词“极限电流”相对应的同义词“容许电流、允通电流”。
表1
主题词 主题词相对应的同义词
通信 通讯
…… ……
无触点低压器 可控硅低压器、半导体低压器
灭弧室 吹弧室、灭弧罩
…… ……
极限电流 容许电流、允通电流
…… ……
需要说明的是,本实施例中的预置主题词表是综合各个领域的主题词表;在本实施例中还可以直接通过第一确定模块遍历预置的电力电器领域的主题词表,直接读取该电力电器领域的主题词表中的各个预置主题词以及该预置主题词的同义词。
第二确定模块,基于预置主题词及该主题词的同义词,通过任一领域的文献数据库来确定属于预置主题词的文献集合。
具体地,如图5所示,第二确定模块包括:生成单元,基于预置检索条件生成规则,生成包括任一预置主题词和/或该预置主题词的同义词的检索条件;查询单元,从任一领域的文献数据库中查询并确定与检索条件相符合的文献;第一确定单元,基于获取到的文献,确定属于预置主题词的文献集合。
其中,预置检索条件生成规则是运用至少一项符号,使用任一预置主题词和/或该预置主题词的同义词生成逻辑表达式;该符号包括但不限于逻辑运算符、位置运算符、字段限制符等。
例如,生成单元基于逻辑运算符“or”,使用电力电器领域的预置主题词“极限电流”和“极限电流”的同义词“容许电流、允通电流”生成逻辑表达式,即检索条件,为“极限电流or容许电流or允通电流”;查询单元从已建立的电力电器领域的文献数据库中查询与该检索条件“极限电流or容许电流or允通电流”,相符合的文献,如表2所示:
表2
则第一确定单元确定属于该预置主题词“极限电流”的文献集合即为表2所示的文献集合。
第三确定模块,基于文献集合中的每个文献的文献分类号,确定预置主题词的分类号。
具体地,如图6所示,第三确定模块包括:统计单元,统计预置主题词的文献集合中的每个文献的文献分类号的出现频次;排序单元,基于出现频次,将文献分类号由高至低进行排序;选取单元,按照由高至低的顺序选取预置数量的文献分类号;第二确定单元,将选取到的文献分类号确定为该预置主题词的分类号。
例如,统计单元统计上述表2中的每个文献的文献分类号的出现频次;排序单元基于出现频率,将文献分类号由高至低进行排序;如表3所示:
表3
G01N27/26(2006.01)I 2次
G01N27/407(2006.01)I 2次
G01N27/00(2006.01)I 1次
G01R19/00(2006.01)I 1次
H01R4/18 1次
H01R43/16 1次
B60L11/18(2006.01)I 1次
F02D41/14(2006.01)I 1次
G01N27/406(2006.01)I 1次
即分类号G01N27/26(2006.01)I,出现频次“2次”;分类号G01N27/407(2006.01)I,出现频次“2次”;分类号G01N27/00(2006.01)I,出现频次“1次”;分类号G01R19/00(2006.01)I,出现频次“1次”;分类号H01R4/18,出现频次“1次”;分类号H01R43/16,出现频次“1次”;分类号B60L11/18(2006.01)I,出现频次“1次”;分类号F02D41/14(2006.01)I,出现频次“1次”;分类号G01N27/406(2006.01)I,出现频次“1次”;当预置数量为2个时,选取单元按照由高至低的顺序选取2个文献分类号:分类号G01N27/26(2006.01)I和分类号G01N27/407(2006.01)I;则第二确定单元确定预置主题词“极限电流”的分类号为:G01N27/26(2006.01)I、G01N27/407(2006.01)I。
需要说明的是,根据需求还可以只选择文献分类号的部分等级作为该文献分类号,即并非必须选择文献分类号的全部等级作为文献分类号,如根据需求选择上述文献分类号的以下至少一个等级作为文献分类号:部、大类、小类、大组、小组等;如,上述文献分类号包括的等级为:部、大类和小类,如表4所示:
表4
G01N 6次
H01R 2次
G01R 1次
B60L 1次
F02D 1次
即分类号G01N,出现频次“6次”;分类号H01R,出现频次“2次”;分类号G01R,出现频次“1次”;分类号B60L,出现频次“1次”;分类号F02D,出现频次“1次”;当预置数量为2个时,按照由高至低的顺序选取2个文献分类号:分类号G01N和分类号H01R;则确定预置主题词“极限电流”的分类号为:G01N、H01R。
根据需求还可以选择上述文献分类号包括的等级为:部和类;部、类、小类和大组等其他等级组合方式。
具体地,基于上述表3或表4,当预置数量大于统计生成的文献分类号的数量时,该装置还包括:第四确定模块,将所有的文献分类号确定为该预置主题词的分类号。
例如,基于上述表3,当预置数量为10个分类号时,大于文献分类号的数量9个时,则该预置主题词“极限电流”的分类号直接可确定为这9个文献分类号:G01N27/26(2006.01)I、G01N27/407(2006.01)I、G01N27/00(2006.01)I、G01R19/00(2006.01)I、H01R4/18、H01R43/16、B60L11/18(2006.01)I、F02D41/14(2006.01)I、G01N27/406(2006.01)I。
基于上述表4,当预置数量为10个分类号时,大于文献分类号的数量5个时,则该预置主题词“极限电流”的分类号直接可确定为这5个文献分类号:G01N、H01R、G01R、B60L、F02D。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种主题词分类号的确定方法,其特征在于,包括:
获取任一领域内包括文献分类号的多个文献,以建立所述任一领域的文献数据库;
获取与所述任一领域中预置主题词相对应的同义词;
基于预置主题词及该预置主题词的同义词,通过所述任一领域的文献数据库来确定属于预置主题词的文献集合;
基于所述文献集合中的每个文献的文献分类号,确定所述预置主题词的分类号。
2.根据权利要求1所述的方法,其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
3.根据权利要求1或2所述的方法,其中,获取与所述任一领域中预置主题词相对应的同义词的步骤,包括:
通过查询预置主题词表,来获取与所述任一领域中预置主题词相对应的同义词;
其中,所述预置主题词表包括所述任一领域的预置主题词与该预置主题词的同义词。
4.根据权利要求1或2所述的方法,其中,基于预置主题词及该预置主题词的同义词,通过所述任一领域的文献数据库来确定属于预置主题词的文献集合的步骤,包括:
基于预置检索条件生成规则,生成包括所述任一预置主题词和/或该预置主题词的同义词的检索条件;
从所述任一领域的文献数据库中查询并确定与所述检索条件相符合的文献;
基于获取到的文献,确定属于所述预置主题词的文献集合。
5.根据权利要求1或2所述的方法,其中,基于所述文献集合中的每个文献的文献分类号,确定所述主题词的分类号的步骤,包括:
统计所述预置主题词的文献集合中的每个文献的文献分类号的出现频次;
基于所述出现频次,将所述文献分类号由高至低进行排序;
按照由高至低的顺序选取预置数量的文献分类号;
将选取到的文献分类号确定为该预置主题词的分类号。
6.根据权利要求5所述的方法,其中,当所述预置数量大于所述文献分类号的数量时,所述方法还包括:
将所有的文献分类号确定为该预置主题词的分类号。
7.一种主题词分类号的确定装置,其特征在于,包括:
获取模块,用于获取任一领域内包括文献分类号的多个文献,以建立所述任一领域的文献数据库;
第一确定模块,用于获取与所述任一领域中预置主题词相对应的同义词;
第二确定模块,用于基于预置主题词及该预置主题词的同义词,通过所述任一领域的文献数据库来确定属于预置主题词的文献集合;
第三确定模块,用于基于所述文献集合中的每个文献的文献分类号,确定所述预置主题词的分类号。
8.根据权利要求7所述的装置,其中,获取到的包括文献分类号的多个文献,还包括:文献标题、文献关键词以及文献摘要。
9.根据权利要求7或8所述的装置,其中,所述第一确定模块,用于通过查询预置主题词表,来获取与所述任一领域中预置主题词相对应的同义词;
其中,所述预置主题词表包括所述任一领域的预置主题词与该预置主题词的同义词。
10.根据权利要求7或8所述的装置,其中,所述第二确定模块包括:
生成单元,用于基于预置检索条件生成规则,生成包括所述任一预置主题词和/或该预置主题词的同义词的检索条件;
查询单元,用于从所述任一领域的文献数据库中查询并确定与所述检索条件相符合的文献;
第一确定单元,用于基于获取到的文献,确定属于预置主题词的文献集合。
11.根据权利要求7或8所述的装置,其中,所述第三确定模块包括:
统计单元,用于统计所述预置主题词的文献集合中的每个文献的文献分类号的出现频次;
排序单元,用于基于所述出现频次,将所述文献分类号由高至低进行排序;
选取单元,用于按照由高至低的顺序选取预置数量的文献分类号;
第二确定单元,用于将选取到的文献分类号确定为该预置主题词的分类号。
CN201710379744.2A 2017-05-25 2017-05-25 主题词分类号的确定方法和确定装置 Pending CN107203620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710379744.2A CN107203620A (zh) 2017-05-25 2017-05-25 主题词分类号的确定方法和确定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710379744.2A CN107203620A (zh) 2017-05-25 2017-05-25 主题词分类号的确定方法和确定装置

Publications (1)

Publication Number Publication Date
CN107203620A true CN107203620A (zh) 2017-09-26

Family

ID=59906345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710379744.2A Pending CN107203620A (zh) 2017-05-25 2017-05-25 主题词分类号的确定方法和确定装置

Country Status (1)

Country Link
CN (1) CN107203620A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162005A (ja) * 1996-11-27 1998-06-19 Sony Corp 記憶媒体、並びに検索装置および検索方法
CN1818907A (zh) * 2006-03-10 2006-08-16 上海汉光知识产权数据科技有限公司 一种利用ipc分类检索专利的方法
CN102004733A (zh) * 2009-08-28 2011-04-06 上海汉光知识产权数据科技有限公司 一种申请人同族专利数量分析系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162005A (ja) * 1996-11-27 1998-06-19 Sony Corp 記憶媒体、並びに検索装置および検索方法
CN1818907A (zh) * 2006-03-10 2006-08-16 上海汉光知识产权数据科技有限公司 一种利用ipc分类检索专利的方法
CN102004733A (zh) * 2009-08-28 2011-04-06 上海汉光知识产权数据科技有限公司 一种申请人同族专利数量分析系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
暴海龙等: "专利检索中的IPC和主题词识别方法研究", 《北京理工大学学报(社会科学版)》 *
章洪流等: "构建主题词系统在中国专利信息化战略中的作用", 《中国发明与专利》 *
罗晓宁等: "科技查新中专利检索式的构建", 《科技情报开发与经济》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN109189942B (zh) * 2018-09-12 2021-07-09 山东大学 一种专利数据知识图谱的构建方法及装置
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN110659367B (zh) * 2019-10-12 2022-03-25 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
EP2041669B1 (en) Text categorization using external knowledge
US7987188B2 (en) Domain-specific sentiment classification
Medelyan et al. Domain‐independent automatic keyphrase indexing with small training sets
Kim et al. Automatic boolean query suggestion for professional search
US20090193011A1 (en) Phrase Based Snippet Generation
CN101295307A (zh) 文档检索系统及文档检索方法
Jha et al. A system for summarizing scientific topics starting from keywords
CN106886512A (zh) 文章分类方法和装置
Kim et al. Ranking explanatory sentences for opinion summarization
CN107203620A (zh) 主题词分类号的确定方法和确定装置
WO2014084712A1 (en) A system and method for automated generation of contextual revised knowledge base
Poostchi et al. Cluster labeling by word embeddings and WordNet’s hypernymy
CN110413881A (zh) 一种识别标签准确性的方法、装置、网络设备和存储介质
Bai et al. Griprank: Bridging the gap between retrieval and generation via the generative knowledge improved passage ranking
Goldberg et al. CASTLE: crowd-assisted system for text labeling and extraction
CN104704487A (zh) 翻译处理装置及程序
CN109670183A (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN106407181A (zh) 旅游目的地中的数据语义关联分析方法及系统
Wang et al. Learning2extract for medical domain retrieval
Cornelissen et al. A computational analysis of news media bias: A South African case study
Drymonas et al. Opinion mapping travelblogs
Hu A study on question answering system using integrated retrieval method
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
KR102497151B1 (ko) 출원인 정보 채우기 시스템 및 방법
Balbi et al. Visualization techniques for non symmetrical relations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926

RJ01 Rejection of invention patent application after publication