CN111373392A - 文献分类装置 - Google Patents

文献分类装置 Download PDF

Info

Publication number
CN111373392A
CN111373392A CN201780097136.0A CN201780097136A CN111373392A CN 111373392 A CN111373392 A CN 111373392A CN 201780097136 A CN201780097136 A CN 201780097136A CN 111373392 A CN111373392 A CN 111373392A
Authority
CN
China
Prior art keywords
document
classification
classified
feature vector
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780097136.0A
Other languages
English (en)
Other versions
CN111373392B (zh
Inventor
山口真主
安藤俊幸
长原进介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kao Corp
Original Assignee
Kao Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kao Corp filed Critical Kao Corp
Publication of CN111373392A publication Critical patent/CN111373392A/zh
Application granted granted Critical
Publication of CN111373392B publication Critical patent/CN111373392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的文献分类装置(10)包括:获取对于各文献预先被分别赋予了基于多观点分类的分类代码的被分类文献集合的信息的单元(22);对于被分类文献集合的各文献分别生成以对被分类文献集合赋予的所有类型或者一部分类型的该分类代码为各元素的多维的特征量向量的单元(23),使用各文献的特征量向量,将被分类文献集合分类的分类单元(24);和生成表示分类的结果的文献分类信息的生成单元(25)。

Description

文献分类装置
技术领域
本发明涉及将文献分类的技术。
背景技术
关于专利申请授权公告、注册实用新型公告、专利申请公开公告、日本申请的国际申请公开公告这些专利或者实用新型涉及的文献(以下总称为专利文献),标注了国际专利分类(IPC)、FI记号、F词条这些分类代码。此外,对于日本特许厅运用的计算机软件数据库(CSDB)中积累的各种文献标注了称为CS词条的分类代码,也有社内技术报告等的在各公司标注独自的分类代码来进行管理的文献。
存在利用对这样的文献标注的分类代码来检索文献的各种方法。
在下述专利文献1中,为了研究者或开发者容易地进行专利文献等的工业产权相关的文献的检索,而公开了一种辅助方法。在该方法中,从将使用者输入的公告号作为检索关键字的检索结果中提取主题代码和F词条进行提示,由此使得使用F词条的检索容易化。
在下述专利文献2中,公开了通过活用分类代码进行统计处理,能够在短时间内简便地分析大量的专利文献所属的技术领域的方法。该方法提取对各个专利文献所赋予的多个分类代码,从所提取的分类代码的集合选出数值分析用分类代码,通过数值分析计算出数值分析用分类代码的坐标,基于数值分析用分类代码的坐标计算出各个专利文献的坐标,基于专利文献的坐标制作表现其密度的规定的映射。
在下述非专利文献1中,公开了制作将对各专利文献的F词条(F-term)的赋予容易性进行数值化而得的F词条概念向量或者加权F词条概念向量,计算出专利文献间的相似度,由此提高专利检索精度的方法。该方法中,使用将专利文献作为学习数据、并将文献中出现的语素uni-gram用于特征来学习的每一个F词条的SVM分类器,使用从该SVM分类器的输出值来生成F词条概念向量。
现有技术文献
专利文献1:日本特开2014-2563号公报。
专利文献2:日本特开2015-207173号公报。
非专利文献
非专利文献1:目黑光司(其他5人),“使用了F词条概念向量的专利检索系统的改良”,语言处理学会第21回年次大会发表论文集,768页-771页,2015年3月。
发明内容
本发明涉及一种文献分类装置,其包括:文献集合获取单元,其获取被分类文献集合的信息,上述被分类文献集合中对各文献预先分别赋予了基于多观点分类的分类代码;向量生成单元,其对上述被分类文献集合的各文献分别生成多维的特征量向量,上述多维的特征量向量以对上述被分类文献集合赋予的所有类型或者一部分类型的上述分类代码为各元素;分类单元,其使用上述各文献的特征量向量,将上述被分类文献集合分类;和生成单元,其生成表示上述分类的结果的文献分类信息。
附图说明
图1是概念性地表示各实施方式的文献分类装置的硬件结构例的图。
图2是概念性地表示第一实施方式的文献分类装置的控制结构的模块图。
图3是表示特征量向量的第一生成图像的概念图。
图4是表示特征量向量的第二生成图像的概念图。
图5是表示特征量向量的第三生成图像的概念图。
图6是表示第一实施方式的文献分类装置的动作例的流程图。
图7是概念性地表示第二实施方式的文献分类装置的控制结构例的模块图。
图8是隐含主题分析的概念图。
图9是表示第二实施方式的文献分类装置的动作例的流程图。
图10是概念性地表示变形例的文献分类装置的控制结构例的模块图。
图11中,图11的(a)是表示5个申请人的各自的每一聚类的文献数的表,图11的(b)是按每一聚类总结了申请人A的特定文献1件与其它文献的相似度的统计信息的表。
图12是表示将同一被分类文献集合用K-Means法聚类和Agglomerative法聚类分别进行分类的结果的表。
图13是表示使用1042维的特征量向量和355维的特征量向量将同一被分类文献集合用同一聚类分析进行分类的结果的表。
图14是表示使用将1042维的特征量向量和字符串检索的结果附加与元素的1043维的特征量向量,将同一被分类文献集合用同一聚类分析进行分类的结果的表。
图15是表示使用将1042维的特征量向量和开头IPC附加于元素的1074维的特征量向量,将同一被分类文献集合用同一聚类分析进行分类的结果的表。
图16是表示使用345维的特征量向量和126维的特征量向量,将同一被分类文献集合用聚类数不同的同一聚类分析方法进行分类的结果的表。
图17是表示使用了基于LDA法的隐含主题分析的文献分类的结果的表。
图18中,图18的(a)是表示通过使用了121维的CS词条特征量向量的K-Means法聚类而分类为6聚类的结果的表,图18的(b)是表示通过使用了与图18的(a)同一CS词条特征量向量的同一聚类而分类为3聚类的结果的表。
具体实施方式
上述专利文献1和非专利文献1的方法,有可能能够将记载有与特定的文献或者内容相同或者近似的内容的文献容易地或者以某种程度的精度搜寻出来。但是,即使使用这样的方法,将所希望的文献精准地找出也是困难的,因此,大多情况下,需要读取某种程度的数量的文献。
另一方面,存在通过某种程度范围的检索提取数百件程度的文献集合,并且关于该文献集合要分析并掌握概要或倾向这样的整体情况的情况。另外,在通过特定的检索提取的文献集合中几乎都存在包含了显然不必要的文献的情况,为了除去这样的检索上的噪声,需要阅读全部的文献。
本发明是涉及使文献集合的整体情况的掌握容易化的文献分类装置、文献分类方法、使这样的文献分类方法在至少一个计算机中执行的计算机程序、和记录有这样的计算机程序的计算机可读取的存储介质的发明。该存储介质包括非临时的有形的介质。通过使整体情况的掌握容易化,能够实现缩减要读取的文献或要关注的文献,给予读取的优先顺序等。
以下,对本发明的优选的实施方式的例子(以下,记为本实施方式)进行说明。此外,以下举例的各实施方式分别是例示,本发明并不限定于以下的各实施方式的构成。
首先,对后述的各实施方式的文献分类装置的概要进行说明。
图1是概念性地表示各实施方式的文献分类装置10(以下,有时表记为本装置10)的硬件结构例的图。
本装置10是所谓的计算机(信息处理装置),包括例如通过母线彼此连接的CPU(Central Processing Unit)11、存储器12、输入输出接口(I/F)13、通信组件14等。形成本装置10的各硬件元素的数量各自没有限定,可以将这些硬件元素总称为信息处理电路。另外,本装置10也可以包括未图示的硬件元素,其硬件结构没有限定。
CPU11除了一般的CPU以外,也可以用面向特定用途的集成电路(ASIC)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等构成。
存储器12是RAM(Random Access Memory)、ROM(Read Only Memory)、辅助存储装置(硬盘等)。在存储器12中保存有文献分类程序(计算机程序)18。文献分类程序18例如可以从CD(Compact Disc)、存储卡等的可移动型记录介质或网络上的其它计算机经由输入输出I/F13或者通信组件14安装,也可以保存在存储器12中。
输入输出I/F13可以与输出装置15、输入装置16等的使用者接口装置连接。输出装置15是LCD(Liquid Crystal Display)或CRT(Cathode Ray Tube)显示器那样的、显示与通过CPU11等被处理的描绘数据对应的画面的装置、印刷装置等的至少一者。输入装置16是键盘、鼠标等的受理使用者操作的输入的装置。输出装置15和输入装置16可以一体化,作为触摸面板来实现。
通信组件14进行与其它计算机的经由通信网的通信、与其它设备的信号的交换等。在通信组件14也能够连接可移动型记录介质等。
本装置10的使用者接口也可以由与本装置10的输入输出I/F13连接的输出装置15和输入装置16实现,也可以由经由本装置10的通信组件14连接的外部计算机的输出装置15和输入装置16实现。前者的情况下,由本装置10生成的后述的文献分类信息从与本装置10的输入输出I/F13连接的输出装置15被输出。另外,在后者的情况下,本装置10作为伺服装置动作,由本装置10生成的文献分类信息从作为客户端装置动作的外部计算机的输出装置15输出。
后述的各实施方式的文献分类装置10至少包括文献集合获取单元、向量生成单元、分类单元和生成单元。换言之,各文献分类装置10能够执行包括文献集合获取步骤、向量生成步骤、分类步骤、生成步骤的文献分类方法。这些各单元或者各步骤可以通过由CPU11执行保存在存储器12中的文献分类程序18来实现。
文献集合获取单元(文献集合获取步骤)获取对于各文献分别被预先赋予了基于多观点分类的分类代码的被分类文献集合的信息。
文献集合获取单元可以从外部的计算机、设备、可移动型记录介质等经由输入输出I/F13或者通信组件14获取被分类文献集合的信息,也可以如后述的第一实施方式所示从文献分类装置10内的检索部21获取。文献集合获取单元的一个具体例子是后述的获取部22。
这里“基于多观点分离的分类代码”是指识别按各种各样的观点(多观点)将文献进行分类的分类体系的代码数据。因此,对于被赋予基于多观点分类的分类代码的文献的大部分,该分类代码被赋予多种。
该分类代码中例如有F词条(F-term)、CS代码等。作为其它的例子,也可以是将文献按多观点进行评价来分类的评价代码。具体而言,可以是由文章结构“A”、明了性“B”、准确性(误记等少的程度)“C”等的多观点的各评价项目代码,和从最高“5”至最低“1”的评价点数代码形成的评价代码(“A5”、“B3”、“C2”等)。但是,基于多观点分类的分类代码并不限定于这样的例子。
“被分类文献集合”是指作为分类对象的文献的集合。被分类文献集合的各文献只要是被赋予了基于1种以上的多观点分类的分类代码的文献即可,其内容没有特别的限定。
向量生成单元(向量生成步骤)对于该被分类文献集合的各文献分别生成以对该被分类文献集合赋予的所有类型或者一部分类型的分类代码为各元素的多维的特征量向量。向量生成单元的一个具体的例子是后述的向量生成部23。
生成的特征量向量的维数的上限只要是计算负荷或数据容量等能够允许的范围内,就没有特别的限定。其维数的下限只要比分类数(聚类数)大即可。
另外,作为特征量向量的元素使用的分类代码,可以是对被分类文献集合的各文献赋予的所有类型,也可以是一部分类型,优选按照分类方式适当地决定即可。例如,被分类文献集合是从CSDB提取的文献集合的情况下,对该文献集合的各文献赋予的所有类型(CC00至CC09、DD00至DD15、JJ00至JJ78等)可以作为特征向量的元素使用,也可以一部分类型(仅JJ00至JJ78)作为特征向量的元素使用。
另外,“所有类型或者一部分类型的分类代码作为各元素”不是将分类代码本身作为特征向量的元素值的意思,而是将表示与该元素对应的分类代码是否被赋予该文献的值(1/0)、或者对其进行了加权的值作为元素值的意思。
分类单元(分类步骤)利用由向量生成单元生成的各文献的特征量向量,将被分类文献集合进行分类。作为分类单元的一个具体例子是后述的聚类部24和隐含主题分析部27。
基于分类单元的具体的分类手法,只要能够使用将基于多观点分类的分类代码作为各元素的多维的特征量向量,将被分类文献集合分类为多个部分文献集合即可,没有特别的限定。在后述的各实施方式中,例示了使用聚类分析和隐含主题分析的分类方法。
生成单元(生成步骤)生成表示由分类单元进行的分类结果的文献分类信息。生成单元的一个具体例子是后述的生成部25。
由生成单元生成的文献分类信息只要是表示被分类文献集合的分类结果的信息,则其具体的内容没有特别的限定。例如,文献分类信息可以是识别通过分类单元进行的分类而被划分的各部分集合的分类识别数据(聚类序号等)、和被分类文献集合的至少一部分的各文献的文献识别数据相关联的信息。
由生成单元生成的文献分类信息可以通过向输出装置15的显示、印刷等而被输出,也可以经由输入输出I/F13或者通信组件14作为电子文件发送到外部。
像这样,在后述的各实施方式中,对于被分类文献集合的各文献,生成将基于多观点分类的分类代码作为各元素的多维的特征量向量,使用该特征量向量来分类被分类文献集合。由于各文献的基于多观点分类的分类代码的赋予模式与该文献的内容对应,因此可以说将分类代码作为各元素的特征量向量表示该文献的内容的特征。因此,可以认为使用该特征量向量被分类的文献的集合是内容的特征相似的文献的集合。
因此,通过使用在各实施方式生成的文献分类信息,被分类文献集合的整体情况的掌握变得容易。例如,将属于每一部分集合的文献阅读数件左右,就能够掌握每一部分集合的内容趋势,结果是,能够掌握被分类文献集合的整体情况。另外,如果能够掌握每一部分集合的内容趋势,在与特定的文献或者内容相同或者相似的内容的文献的特定时,能够将作为读取对象的文献缩减为仅某些部分集合。
但是,文献分类方法也可以不包括生成步骤,在上述的各步骤中,人的手也可以局部地介入。例如,在分类步骤中执行通过计算机特定的分析方法,人参照该执行结果的输出,由人来实施各文献的分类或文献分类信息的制作。
以下,对各实施方式的文献分类装置10进行详细的说明。
在以下的各实施方式中,为了说明的方便,举例说明将专利文献作为对象,作为基于多观点分类的分类代码使用F词条的例子。但是,由各实施方式的文献分类装置10能够处理的文献并不限定于专利文献,并且基于多观点分类的分类代码也不只限于F词条。以下,专利文献简称为文献。
本说明书中“F词条”,为了说明的方便是指包含“主题代码”的形式。因此,“F词条”例如以包括“主题代码(字母数字)5位”+“观点(字母)2位”+“数字2位”、或者上述“数字2位”的末尾记载的1个文字的字母数字(称为附加代码)的表记形式表示。但是,即使在“F词条”是指不包含“主题代码”的形式的情况下,当然也是能够实施的。
[第一实施方式]
〔文献分类装置〕
第一实施方式的文献分类装置10的硬件构成如图1所例示。本装置10如上所述可以作为伺服装置动作,也可以作为独立装置动作。
图2是概念性地表示第一实施方式的文献分类装置10的控制结构例的模块图。
本装置10具有检索部21、获取部22、向量生成部23、聚类部24和生成部25。这些是软件元素(模块),例如可由CPU11执行保存在存储器12中的文献分类程序18来实现。
检索部21从文献数据库提取被分类文献集合的文献信息,该文献数据库关于各文献保存分别被赋予F词条的文献信息。
文献数据库可以保存在本装置10的存储器12中,也可以保存在外部计算机的存储器中。在后者的情况下,检索部21经由通信组件14与该外部计算机进行通信,能够访问文献数据库即可。
检索部21使检索条件的输入画面显示于输出装置15,获取对于该输入画面通过使用输入装置16的使用者操作而输入的检索条件的信息(检索式等),能够利用该信息执行检索。
获取部22获取通过检索部21提取的、被分类文献集合的文献信息。这时,获取部22将该文献信息可以作为能够向外部输出的电子文件获取,也可以作为保存在存储器12的生数据获取。这里的“获取文献信息”也可以说是读取文献信息。
被获取的文献信息只要包含关于被分类文献集合的各文献的文献识别数据和F词条数据即可,其具体的内容没有特别的限定。例如,被分类文献集合如果是专利文献,能够获取申请号、申请公开号、授权登记号、申请人/权利人、IPC、FI、F词条、摘要、权利要求等的信息。
向量生成部23如上所述对于被分类文献集合的各文献分别生成特征量向量。
这时,向量生成部23特定由获取部22所获取的文献信息中所包含的所有类型的F词条,可以生成将所特定的各F词条作为各元素的特征量向量。另外,向量生成部23特定由获取部22所获取的文献信息中所包含的所有类型中的一部分的F词条,可以生成将该特定的各F词条作为各元素的特征量向量。在该情况下,向量生成部23使该文献信息中包含的所有类型的F词条显示于输出装置15,使用者可以从其中选择作为特征量向量的元素使用的F词条。在该情况下,向量生成部23生成将由使用者选择的F词条类型作为各元素的特征量向量。
图3是表示特征量向量的第一生成图像的概念图。
图3的上部表示作为特征量向量的元素使用的F词条组。向量生成部23如上所述将作为特征量向量的元素使用的F词条类型的数量作为特征量向量的元素数,如图3所例示,生成各文献的特征量向量。例如,向量生成部23基于获取部22所获取的文献信息,按被分类文献集合中包含的每一个文献,分别判断是否被赋予了与特征量向量的各元素对应的F词条,将与赋予了F词条对应地元素的值设为“1”,将与没有赋予F词条对应的元素的值设为“0”。
但是,元素的值也可以不必一定为“1”或者“0”,也可以进行加权。例如,向量生成部23关于与被分类文献集合的全部文献所附加的F词条对应的元素使加权较小,关于不是被分类文献集合的全部而是与大部分的文献所附加的F词条对应的元素使加权较大。另外,关于与关注的F词条对应的元素也可以使加权较大。
进一步换言之,向量生成部23可以将图3所示的加权前的特征量向量的列表以使用者能够编辑的方式保存在电子文件中。另外,向量生成部23也能够以通过使用输入装置16的使用者操作能够编辑特征量向量的方式使加权前的特征量向量显示于输出装置15。
F词条如上所述包括由从头起5位字母数字表示的主题代码、由2位字母表示的观点、由2位数字表示的某观点中的分类内容等而构成。即,F词条具有层级结构,可以说由每一层级的部分代码形成。具体而言,最上级层级的部分代码为主题代码,第二级层级的部分代码为观点代码(字母2位),第三级层级的部分代码为观点内分类代码(数字2位)。附加代码可以作为最下级层级的部分代码。
因此,能够使F词条中的从最上级层级至规定层级的部分代码与特征量向量的一个元素相对应。即,向量生成部23可以生成包含与对被分类文献集合赋予的一部分类型的分类代码中的从分类代码之中的最上级层级至规定层级的部分代码对应的元素的特征量向量。
图4是表示特征量向量的第二生成图像的概念图。
图4的例子中,F词条的最上级层级的主题代码“4C117”与特征量向量的一个元素相对应。由此,关于具有主题代码“4C117”的F词条“4C117XB01”、“4C117XB13”、“4C117XD05”和“4C117XE36”的任意一者都被赋予的文献的特征量向量,与主题代码“4C117”对应的元素的值设定为“1”。
由此,不需要细分类的详细信息的F词条能够总结为1元素,能够实现依照目的的分类。另外,由于能够总结多个类型的F词条而表示为特征量向量的1元素,能够削减特征量向量的元素数,能够使计算负荷减轻。
另外,向量生成部23也可以对于被分类文献集合的各文献分别生成2个以上的特征量向量。即,向量生成部23关于被分类文献集合的各文献,分别生成将对被分类文献集合赋予的一部分类型的分类代码作为各元素的第一特征量向量,并且,对于被分类文献集合或者一部分被分类文献集合的各文献分别生成将其余的分类代码的至少一部分类型的分类代码作为各元素的第二特征量向量。
关于各文献生成2个以上的特征量向量的情况下,优选具有正交性的F词条组作为一个特征量向量的元素使用。这里的所谓F词条间的正交性意味着F词条彼此无相关关系或者关联性低的关系。F词条那样的分类代码由于基于多观点分类,因此观点之间如果存在表示某种程度的相关性的关系,则也有可能有关联性地的关系。在F词条的例子中,可以说比主题代码和观点(7位)靠下级不同的F词条彼此具有正交性。用具有这样的正交性的F词条组生成一个特征量向量,能够生成高精度地表示文献的特征的特征量向量。
图5是表示特征量向量的第三生成图像的概念图。
在图5的例子中,第一特征量向量将对被分类文献集合赋予的所有类型的F词条中的包含“4C083AA”、“4C083AB”、“4C083AC”和“4C083AD”的F词条作为各元素,第二特征量向量将所有类型的该F词条中的包含“4C083CC”和“4C083DD”的F词条作为各元素来生成。由此,对于被分类文献集合的各文献分别生成第一和第二特征量向量。
聚类部24使用由向量生成部23生成的特征量向量,对被分类文献集合进行聚类分析,将被分类文献集合分类为多个聚类。聚类分析存在最短距离法(single linkagemethod)、最长距离法(Complete link method)、最小分布法(Ward method)、中间距离法(median method)、K-Means法等的各种各样的方法。这里的聚类分析的具体的方法没有特别的限定。
例如,使用K-Means法的情况下,聚类部24能够使用Elbow法等计算出聚类数。另外,聚类部24可以使聚类数的输入画面显示于输出装置15,使用对该输入画面输入的聚类数。
另外,聚类部24可以使用该特征量向量对于被分类文献集合进行多次的聚类分析。在该情况下,聚类部24可以在各次分别进行使用了不同的聚类数的聚类分析,也可以在各次使用不同的聚类分析方法(例如,K-Means法和Ward法等)进行多次的聚类分析(集成聚类)。
关于各文献生成了两个以上的特征量向量的情况下,聚类部24能够使用各特征量向量进行多个聚类分析。这时,聚类部24可以使用各特征量向量对于被分类文献集合分别进行聚类分析,也可以使用一个特征量向量对于被分类文献集合进行聚类分析,并对于所分类的一个以上的各聚类使用其它的特征量向量进一步进行聚类分析。即,关于各文献分别生成第一和第二特征量向量的情况下,聚类部24使用第一特征量向量对于被分类文献集合进行第一分类,并且使用第二特征量向量对于被分类文献集合或者由第一分类的结果得到的至少一个部分文献集合进行第二分类。
生成部25生成表示基于聚类部24的聚类分析的结果的文献分类信息。例如,生成部25能够生成通过聚类分析而划分的各聚类的识别数据与属于各聚类的各文献的文献识别数据相关联的文献分类信息。这时,生成部25在由获取部22获取的被分类文献集合的文献信息添加各聚类的识别数据,从而生成该文献分类信息。
在进行多次聚类分析的情况下,生成部25生成对于文献的文献识别数据关联了每一个聚类分析的多个聚类识别数据的文献分类信息。即,生成部25生成使识别由第一分类划分的各部分集合的第一分类识别数据和识别由第二分类划分的各部分集合的第二分类识别数据、与被分类文献集合的至少一部分的各文献的文献识别数据相关联的文献分类信息。
这样一来,关于成为多个聚类的对象的文献,能够表示多面的分类结果,作为结果,能够从多面的观点掌握被分类文献集合的整体情况。
生成部25能够将所生成的文献分类信息从输出装置15显示、印刷等从而输出。另外,生成部25为了保存在可移动型记录介质等、或通过通信对外部的计算机传送,能够将文献分类信息文件化并保存在伺服器中。
〔文献分类方法/动作例〕
以下,对第一实施方式的文献分类方法进行说明。
图6是表示第一实施方式的文献分类装置10的动作例的流程图。第一实施方式的文献分类方法由本装置10那样的至少一个计算机执行。图6所示的各步骤与本装置10具有的上述的各构成的处理内容是相同的,因此各步骤的详细内容适当地省略。
本实施方式的文献分类方法包括步骤(S11)、步骤(S13)、步骤(S15)和步骤(S17)。
本装置10从文献数据库提取被分类文献集合的文献信息,该文献数据库关于各文献保存分别被赋予F词条的文献信息(S11)。这时,本装置10可以获取由使用者输入的检索条件的信息。另外,如上所述,当文献数据库存在于外部的计算机(伺服装置)上时,本装置10对该计算机指定检索条件并要求文献信息的提取。
本装置10关于由通过步骤(S11)提取的文献信息所示的被分类文献集合的各文献,分别生成F词条的特征量向量(S13)。这时,作为特征量向量的元素使用的F词条,可以是对被分类文献集合赋予的F词条的所有类型,也可以是其一部分类型。本装置10也能够使用户选择作为特征量向量的元素使用的F词条。
关于特征量向量的生成手法如以上所述。
接着,本装置10使用由步骤(S13)生成的F词条的特征量向量,对于被分类文献集合应用聚类分析,将被分类文献集合分类为多个聚类(S15)。关于各文献生成两个以上的特征量向量时,本装置10能够使用各特征量向量进行多个聚类分析。
关于聚类分析的方法如以上所述。
本装置10基于步骤(S15)中的聚类分析的结果,生成被分类文献集合的文献分类信息(S17)。关于文献分类信息也如以上所述。
这样的文献分类方法可以仅由本装置10执行,也可以由多个装置(计算机)执行。例如,步骤(S11)由外部的计算机执行,其它的各步骤(S13)至步骤(S17)可以由本装置10执行。
另外,在上述的各步骤中,人的手也可以局部地介入。例如,在步骤(S11)中指定检索条件,指示检索的执行也可以是使用者的操作。另外,在步骤(S13)中,对特征量向量的元素的加权、或作为特征量向量的元素使用的F词条的选择也可以由使用者进行。
[第二实施方式]
在上述的第一实施方式中,对于被分类文献集合的分类使用了聚类分析。在以下说明的第二实施方式中,使用称为隐含主题分析的另一分类方法。以下,关于第二实施方式的文献分类装置和文献分类方法,以与第一实施方式不同的内容为中心进行说明。以下的说明中关于与第一实施方式同样的内容适当地省略。
〔文献分类装置〕
第二实施方式的文献分类装置10(以下,存在表记为本装置10的情况)的硬件结构,如图1所例示。本装置10如上所述,可以作为伺服装置动作,也可以作为独立装置动作。
图7是概念性地表示第二实施方式的文献分类装置10控制结构例的模块图。
本装置10代替第一实施方式的聚类部24而具有隐含主题分析部27。隐含主题分析部27也是软件元素(模块),例如,可由CPU11执行存储器12中所保存的文献分类程序18而被实现。
隐含主题分析部27对于由向量生成部23生成的特征量向量应用隐含主题分析,基于该分析结果将被分类文献集合分类。
隐含主题分析是基于以隐含狄利克雷分布法(LDA(Latent DirichletAllocation))为代表的主题模型的分析方法。所谓主题模型,是从文书的文本数据组搜索主题的方法的总称。
本发明者们认为,文献是主题的集合体,基于对文献赋予的多观点分类的分类代码形成该文献的主题。并且发现将文书剖析中主要使用的隐含主题分析利用于被赋予了基于多观点分类的分类代码的文献集合的分类,由此能够将文献集合根据内容准确地分类。
图8是隐含主题分析的概念图。
如图8所示,这里使用的隐含主题,由基于多观点分类的分类代码(F词条等)的出现概率的分布表示,通过隐含主题分析,能够对被分类文献集合的各文献计算出隐含主题的匹配比率。
即,隐含主题分析部27将表示F词条的赋予状况的各文献的特征量向量作为输入来执行隐含主题分析,由此输出由F词条的出现概率的分布表示的隐含主题列表、和关于被分类文献集合的各文献的隐含主题的匹配比率。换言之,隐含主题分析部27通过对于被分类文献集合的各文献的特征量向量应用使用了由分类代码的出现概率的分布表示的隐含主题的隐含主题分析,由此能够对被分类文献集合的各文献计算出隐含主题的匹配比率。
隐含主题分析部27基于由隐含主题分析计算出的隐含主题的匹配比率,能够将被分类文献集合分类。例如,隐含主题分析部27能够将隐含主题的匹配比率中、表示最高比率的隐含主题作为该文献的代表主题来选择,并按每一个隐含主题用以该隐含主题为代表主题的文献的集合将被分类文献集合分类。
另外,也能够用隐含主题的阈值进行分类,关于一个文献当比阈值高的比率的隐含主题存在多个的情况下,关于该文献能够将多个隐含主题决定为代表主题。在该情况下,该文献能够属于多个分类。另外,不属于任何分类的文献也能够被分类。
隐含主题分析的主题数既可以预先指定,也可以由使用者输入。在后者的情况下,隐含主题分析部27使主题数的输入画面显示于输出装置15,能够获取对于该输入画面输入的主题数。
另外,隐含主题分析部27进行基于特定的主题数的隐含主题分析,并基于作为其结果而得到的各文献的隐含主题的匹配比率自动地变更主题数,可以根据该变更了的主题数再次进行隐含主题分析。
隐含主题分析部27也可以变更主题数而多次执行隐含主题分析。在该情况下,按每一个隐含主题分析的结果将各文献分类。
在本实施方式中,生成部25能够以作为代表主题的隐含主题的识别数据与文献的识别数据相关联的形式生成文献分类信息。关于具有多个代表主题的文献,关联多个隐含主题的识别数据即可。同样地,在进行了多次隐含主题分析的情况下,对于各文献的识别数据关联多个隐含主题的识别数据即可。
〔文献分类方法/动作例〕
以下,对第二实施方式的文献分类方法进行说明。
图9是表示第二实施方式的文献分类装置10的动作例的流程图。第二实施方式的文献分类方法由本装置10那样的至少一个计算机执行。图9所示的各步骤由于与本装置10具有的上述的各构成的处理内容相同,因此各步骤的详细内容适当地省略。
本实施方式的文献分类方法包括步骤(S21)、步骤(S23)、步骤(S25)、步骤(S27)和步骤(S29)。步骤(S21)和步骤(S23)与图6所示的步骤(S11)和步骤(S13)相同。
在第二实施方式中,本装置10对于由步骤(S23)生成的F词条的特征量向量应用隐含主题分析(S25)。关于隐含主题分析方法如以上所述。隐含主题分析的结果是,计算出关于被分类文献集合的各文献的隐含主题的匹配比率。
这时,本装置10可以使使用者指定隐含主题分析的主题数,也可以自动地决定。
接着,本装置10基于由步骤(S25)计算出的每一个文献的隐含主题的匹配比率,将被分类文献集合分类(S27)。关于步骤(S27)的分类方法如以上所述(隐含主题分析部27)。
基于步骤(S27)的分类结果,本装置10生成被分类文献集合的文献分类信息(S29)。关于文献分类信息的生成手法也如以上所述(生成部25)。
但是,在步骤(S27)和步骤(S29)中也可以由人的手介入。例如,本装置10使每一个文献的隐含主题的匹配比率显示于输出装置15,使用者可以基于该显示来指定文献的分类。这时,使用者可以按每一个文献输入各分类的识别数据。另外,本装置10制作保存每一个文献的隐含主题的匹配比率的电子文件,对于该电子文件使用者可以按每一个文献输入各分类的识别数据。另外,关于步骤(S21)和步骤(S23)也可以由人的手介入,这与第一实施方式中所述内容相同。
像这样在第二实施方式中,作为文献的分类方法,使用利用了由分类代码(F词条)的出现概率的分布表示的隐含主题的隐含主题分析,基于每一个文献的隐含主题的匹配比率将被分类文献集合分类。即使使用隐含主题分析也能够获得与第一实施方式同样的效果。
[变形例]
特征量向量的生成方法并不限定于上述的例子,只要是使用了基于多观点分类的分类代码(F词条等)的方法,能够进行各种变形。
对该特征量向量也可以附加F词条以外的其它的元素。
例如,在专利文献附加F词条的基础上也可以赋予IPC或FI这样的分类代码。IPC或FI是将文献的主题总括地分类的代码体系,也可以称为基于单观点分类的分类代码。像这样,在基于多观点分类的分类代码的基础上,对被分类文献集合的各文献赋予基于将文献内容的主题总括地分类的其它分类的其它分类代码的情况下,将与该其它分类代码是否已被赋予相对应的元素附加于特征量向量即可。
在该情况下,向量生成部23生成将对被分类文献集合赋予的基于多观点分类的所有类型或者一部分类型的分类代码作为元素、并且将对被分类文献集合赋予的所有类型或者一部分类型的该其它分类代码作为元素包括的特征量向量。在上述的各实施方式中,也可以生成作为元素还包含对被分类文献集合赋予的IPC或者FI或者这两者的所有类型或一部分类型的特征量向量。
通过将文献的主题总括地分类的那样的其它分类体系的分类代码所对应的元素进一步附加于特征量向量,能够生成高精度地表示文献的特征的特征量向量,进而,能够提高文献的分类精度。
作为其它的例子,各文献是否包含规定的关键字也可以附加于特征量向量的元素。另外,在各文献的规定的记载部位(权利要求书、摘要、发明要解决的技术问题的项目等)中是否包含规定的关键字也可以作为元素附加。
图10是概念性地表示变形例的文献分类装置10的控制结构例的模块图。如图10所示,上述的各实施方式的文献分类装置10还可以具有字符串检索部29,其对于被分类文献集合的各文献进行规定字符串的检索。字符串检索部29也是软件元素(模块),例如,可由CPU11执行存储器12中所保存的文献分类程序18而实现。图10中,表示了第一实施方式的文献分类装置10的变形例,第二实施方式的文献分类装置10当然也同样能够变形。
检索中使用的字符串(检索字符串)可以预先决定,也可以由使用者指定。在后者的情况下,字符串检索部29使检索字符串的输入画面显示于输出装置15,可以获取对于该输入画面输入的字符串数据。例如,使用者能够指定与进行文献的分类的目的相应的检索字符串。
字符串检索部29从由获取部22所获取的被分类文献集合的文献信息提取各文献的文献识别数据,将该文献识别数据的列表和该检索字符串作为检索条件再次检索文献数据库,由此能够对被分类文献集合的各文献分别判断检索字符串的有无。
在由获取部22获取了成为被分类文献集合的各文献的检索基础的数据(权利要求书或摘要等的记载数据)的情况下,字符串检索部29可以对由获取部22获取的数据进行检索字符串的检索。
向量生成部23生成还包含与检索字符串的检索结果对应的元素的特征量向量。例如,向量生成部23设定为表示是否包含检索字符串的元素值。
向量生成部23能够生成在基于多观点分类的分类代码(F词条等)的基础上,还将是否包含这样的检索字符串、和是否被赋予了上述以外的分类体系的其它分类代码这两者作为元素的特征量向量。
像这样将与检索字符串的检索结果对应的元素进一步添加于特征量向量,由此能够生成高精度地表示与分类的目的相符合的文献的特征的特征量向量,进而,对于使用者能够进行所希望的文献分类。
另外,通过使用由向量生成部23生成的每一个文献的特征量向量,也能够求得文献间的相似度或文献与聚类的相似度、聚类间的相似度等。例如,作为文献间的相似度,能够计算出每一个文献的特征量向量的余弦相似度(余弦距离)。另外,能够计算属于某聚类的各文献的特征量向量与某特定的文献的特征量向量的相似度的平均值,并将该平均值作为该聚类与该特定的文献的相似度。同样地,能够计算出属于某聚类的各文献的特征量向量与属于其它聚类的各文献的特征量向量的相似度的平均值,将该平均值作为聚类间的相似度。
可以以这样的文献间的相似度、文献与聚类的相似度、或者聚类间的相似度成为阈值以上的方式自动地决定聚类分析的聚类数或隐含主题分析的主题数。另外,通过使用文献与聚类的相似度,也能够进行某特定的文献与已经被分类的聚类中的哪一个聚类接近等的评价。
并且,上述的各实施方式和各变形例能够在内容不相违背的范围中进行组合。例如,上述的第一实施方式和第二实施方式能够相组合。在该情况下,能够进行使用了聚类分析的分类(聚类)和使用了隐含主题分析的分类这两者,在被分类文献集合的各文献中聚类序号与隐含主题序号相关联。
另外,上述的各实施方式的文献分类装置10也可以具有图示的结构以外的结构,也可以不具有图示的结构的一部分结构。例如,检索部21可以在能够与文献分类装置10通信的其它计算机上实现。在该情况下,文献分类装置10的获取部22能够从其它的计算机上获取由检索部21提取的被分类文献集合的文献信息。
上述的各实施方式和各变形例的一部分或者全部能够按如下所述来特定。但是,上述的各实施方式和各变形例并不限定于以下的记载。
<1>一种文献分类装置,其包括:
文献集合获取单元,其获取被分类文献集合的信息,上述被分类文献集合中对各文献预先分别赋予了基于多观点分类的分类代码;
向量生成单元,其对上述被分类文献集合的各文献分别生成多维的特征量向量,上述多维的特征量向量以对上述被分类文献集合赋予的所有类型或者一部分类型的上述分类代码为各元素;
分类单元,其使用上述各文献的特征量向量,将上述被分类文献集合分类;和
生成单元,其生成表示上述分类的结果的文献分类信息。
<2>如<1>所记载的文献分类装置,其还包括对上述被分类文献集合的各文献进行规定字符串的检索的字符串检索单元,
上述向量生成单元生成还包含与上述规定字符串的检索结果对应的元素的上述特征量向量。
<3>如<1>或<2>所记载的文献分类装置,
对上述被分类文献集合的各文献,除上述分类代码之外,还被分别赋予基于将文献内容的主题总括地分类的其它分类的其它分类代码,
上述向量生成单元生成作为元素还包含对上述被分类文献集合赋予的所有类型或者一部分类型的上述其它分类代码的上述特征量向量。
<4>如<1>至<3>中任一项记载的文献分类装置,
上述分类单元,
对于上述被分类文献集合的各文献的特征量向量,应用使用了以分类代码的出现概率的分布表示的隐含主题的隐含主题分析,从而对于上述被分类文献集合的各文献计算出隐含主题的匹配比率,
基于计算出的上述隐含主题的匹配比率对上述被分类文献集合进行分类。
<5>如<1>至<4>中任一项记载的文献分类装置,
上述向量生成单元,
对上述被分类文献集合的各文献分别生成以对上述被分类文献集合赋予的一部分类型的分类代码为各元素的第一特征量向量,并且,
对上述被分类文献集合或者一部分上述被分类文献集合的各文献分别生成以其余的分类代码中的至少一部分类型的分类代码为各元素的第二特征量向量,
上述分类单元,
使用上述第一特征量向量对上述被分类文献集合进行第一分类,并且,
使用上述第二特征量向量对上述被分类文献集合或者由该第一分类的结果获得的至少一个部分文献集合进行第二分类。
<6>如<5>中记载的文献分类装置,
上述生成单元生成使识别由上述第一分类划分的各部分集合的第一分类识别数据和识别由上述第二分类划分的各部分集合的第二分类识别数据、与上述被分类文献集合的至少一部分的各文献的文献识别数据相关联了的上述文献分类信息。
<7>如<1>至<6>中任一项记载的文献分类装置,
上述分类代码具有层级构造,由每一层级的部分代码形成,
上述向量生成单元生成包含与对上述被分类文献集合赋予的一部分类型的分类代码中的从分类代码之中的最上级层级至规定层级的部分代码相对应的元素的上述特征量向量。
<8>如<1>至<7>中任一项记载的文献分类装置,
还包括检索单元,其从文献数据库提取上述被分类文献集合的文献信息,上述文献数据库保存有对各文献分别赋予了上述分类代码的文献信息,
上述文献集合获取单元获取由上述检索单元提取的上述被分类文献集合的文献信息。
<9>一种文献分类方法,其包括:
文献集合获取步骤,其获取被分类文献集合的信息,上述被分类文献集合中对各文献预先分别赋予了基于多观点分类的分类代码;
向量生成步骤,其对上述被分类文献集合的各文献分别生成多维的特征量向量,上述多维的特征量向量以对上述被分类文献集合赋予的所有类型或者一部分类型的上述分类代码为各元素;和
分类步骤,其使用上述各文献的特征量向量,将上述被分类文献集合分类。
<10>如<9>中记载的文献分类方法,
还包括字符串检索步骤,对上述被分类文献集合的各文献进行规定字符串的检索,
在上述向量生成步骤中,生成还包含与上述规定字符串的检索结果对应的元素的上述特征量向量。
<11>如<9>或<10>记载的文献分类方法,
对上述被分类文献集合的各文献,除上述分类代码之外,还分别赋予基于将文献内容的主题总括地分类的其它分类的其它分类代码,
在上述向量生成步骤中,生成作为元素还包含将赋予上述被分类文献集合的所有类型或者一部分类型的上述其它分类代码的上述特征量向量。
<12>如<9>至<11>中任一项记载的文献分类方法,
上述分类步骤包括:
对于上述被分类文献集合的各文献的特征量向量,应用使用了以分类代码的出现概率的分布表示的隐含主题的隐含主题分析,从而对于上述被分类文献集合的各文献计算出隐含主题的匹配比率,
基于计算出的上述隐含主题的匹配比率对上述被分类文献集合进行分类。
<13>如<9>至<12>中任一项记载的文献分类方法,
上述向量生成步骤包括:
对上述被分类文献集合的各文献分别生成以对上述被分类文献集合赋予的一部分类型的分类代码为各元素的第一特征量向量的步骤;和
对上述被分类文献集合或者一部分上述被分类文献集合的各文献分别生成以其余的分类代码中的至少一部分类型的分类代码为各元素的第二特征量向量的步骤,并且,
上述分类步骤包括:
使用上述第一特征量向量对上述被分类文献集合进行第一分类的步骤;和
使用上述第二特征量向量对上述被分类文献集合或者由该第一分类的结果获得的至少一个部分文献集合进行第二分类的步骤。
<14>如<13>记载的文献分类方法,
还包括生成使识别由上述第一分类划分的各部分集合的第一分类识别数据和识别由上述第二分类划分的各部分集合的第二分类识别数据、与上述被分类文献集合的至少一部分的各文献的文献识别数据相关联的上述文献分类信息的步骤。
<15>如<9>至<14>中任一项记载的文献分类方法,
上述分类代码具有层级構造,由每一个层级的部分代码形成、
在上述向量生成步骤中,生成包含与对上述被分类文献集合赋予的一部分类型的分类代码中的从分类代码之中的最上级层级至规定层级的部分代码相对应的元素的上述特征量向量。
<16>一种计算机程序,使至少一个计算机执行如<9>至<15>的任一者记载的文献分类方法。
以下,举例实施例对上述的内容进行更详细的说明。但是,以下的实施例的记载并不是对上述的内容附加任何限定的内容。根据以下的实施例,能够验证使用各种特征量向量和各种分析方法的文献分类结果的有用性。
实施例1
作为文献数据库,利用由NRI Cyber Patent公司提供的NRI网络专利服务平台(Cyber Patent Desk)2。以该文献数据库的公开类专利公报为对象,开头IPC(最新)为“A61K008”、F词条(最新)为“4C083cc36”、摘要中的字符串为“直接染料”按AND条件所指定的检索条件执行检索,作为被分类文献集合提取了289件专利文献。对该被分类文献集合赋予的F词条存在1042种类。
生成以对被分类文献集合赋予的所有类型的F词条为元素的1042维的特征量向量。这时,对各文献赋予了F词条的情况下,设与该F词条对应的元素的值为“1”,没有赋予的情况下设该元素的值为“0”。并且,使用该特征量向量进行K-Means法聚类,被分类文献集合的各文献被分类为8个聚类。聚类处理中利用了Python语言的Scikit-learn库文件包。
图11是表示实施例1的文献分类的结果的表,图11的(a)是表示5个申请人各自的每一聚类的文献数的表,图11的(b)是按每一聚类总结了申请人A的特定文献1件与其它文献的相似度的统计信息的表。
依据图11的(a),可知按每一个申请人存在文献数多的聚类和不多的聚类。关于申请人A文献集中于聚类(CL)0和聚类(CL)4,关于申请人B文献集中于聚类(CL)4,关于申请人D文献集中于聚类(CL)1、聚类(CL)3和聚类(CL)6,关于申请人E文献集中于聚类(CL)3。即,通过本实施例的文献分类可知每一个聚类的文献数分布按每一个申请人显示出特色。
图11的(b)中,选择1件申请人A的分类为聚类2的文献,该文献与其它文献的相似度使用Python语言的Scikit-learn库文件包中的cosine_similarity法来算出。
依据图11的(b)可知,相似度的平均值、最大值和最小值的任一者均为所选择的文献所属的聚类2成为最大。另外,比较聚类2与其它各聚类之间的平均相似度,也能够观察到聚类2与其它各聚类之间的距离感。
因此,通过基于使用了1042维的F词条特征量向量的K-Means法聚类进行的文献分类,证实了能够根据各文献的特色将被分类文献集合适当地分类。
而且,上述的289件的被分类文献集合通过作为其它聚类分析手法的Agglomerative法聚类被分类为8个聚类。在该聚类中也使用了上述的1042维的F词条特征量向量。在该聚类处理中,利用了Python语言的Scikit-learn库文件包。
图12是表示将同一被分类文献集合按K-Means法聚类和Agglomerative法聚类各自进行了分类的结果。
依据图12可知,2个聚类分析结果的矩阵中,存在文献集中的单元格和不集中的单元格。例如,由K-Means法聚类被分类为聚类(CL)1的文献组的大部分由Agglomerative法聚类被分类为聚类(CL)4,相反,由Agglomerative法聚类被分类为聚类(CL)4的文献由K-Means法聚类全部被分类为聚类(CL)1。即,由K-Means法聚类而分类的各聚类与由Agglomerative法聚类而分类的各聚类表示了某种程度的相关性。
由此,证实了并不限定于K-Means法,即使使用其它的聚类分析手法也能够准确地将文献分类。
并且,生成不是将对被分类文献集合赋予的F词条的所有类型(1042种类)作为元素、而是将其一部分类型(355种类)作为元素的355维的特征量向量,使用该特征量向量通过K-Means法聚类进行了文献分类。这时的被分类文献集合与上述相同(289件)。另外,包含主题代码“4C083”的F词条被用于特征量向量的元素,在被赋予了包含主题代码“4C083”的F词条的情况下,与该F词条对应的元素的值设为“1”,没有被赋予的情况下,该元素的值设为“0”。
图13是表示使用以所有类型的F词条为元素的1042维的特征量向量和以一部分类型的F词条为元素的355维的特征量向量,对同一被分类文献集合用同一聚类分析进行分类的结果的表。
根据图13的结果可知,使用任一特征量向量都能够实现具有特色的分类。由此,证实了即使利用使用对被分类文献集合赋予的一部分类型的F词条而生成的特征量向量,也能够准确地将文献分类。
另外,生成1043维的特征量向量,其以对被分类文献集合赋予的所有类型(1042种类)的F词条为元素、并且附加有与权利要求书的记载中是否包含检索字符串“染发剂”相对应的元素,使用该特征量向量通过K-Means法聚类进行了文献分类。这时的被分类文献集合与上述是相同的(289件)。这时,关于各文献,在被赋予了F词条的情况下,与该F词条对应的元素的值设为“1”,没有被赋予的情况下,将该元素的值设为“0”,在权利要求书中包含检索字符串“染发剂”的情况下,对应的元素的值设为“2”,没有被赋予的情况下,该元素的值设为“0”。即,使用了对与检索字符串的检索结果对应的元素进行了加权的特征量向量。
图14是表示使用以所有类型的F词条为元素的1042维的特征量向量和将字符串检索的结果附加于元素的1043维的特征量向量,将统一被分类文献集合用同一聚类分析进行分类的结果的表。
根据图14的结果可知,使用任一特征量向量都能够实现具有特色的分类。由此,证实了即使使用不仅与F词条对应的元素而且将字符串检索的结果也附加于元素的特征量向量,也能够准确地将文献分类。
并且,生成1074维的特征量向量,其将以对被分类文献集合赋予的所有类型(1042种类)的F词条为元素、并且将被分类文献集合的开头IPC附加于元素,使用该特征量向量通过K-Means法聚类进行了文献分类。开头IPC为32种类,被分类文献集合与上述是相同的(289件)。
图15是表示使用以所有类型的F词条为元素的1042维的特征量向量并将开头IPC附加于元素的1074维的特征量向量,将同一被分类文献集合用同一聚类分析进行分类的结果的表。
根据图15的结果可知,使用任一特征量向量都能够实现具有特色的分类。由此,证实了即使使用不仅是与F词条对应的元素而且将开头IPC附加于元素的特征量向量,也能够将文献准确地分离。
实施例2
接着,作为与实施例1不同的文献数据库,利用了独立行政法人工业所有权信息·研修馆运营的专利信息平台(J-PlatPat)。对于该文献数据库,公告全文中的字符串“餐具”、“油污”和“消泡”按AND条件所指定的检索条件执行检索,提取了35件的专利文献作为被分类文献集合。对该被分类文献集合赋予的F词条存在345种类。
生成将对被分类文献集合赋予的所有类型的F词条为元素的345维的特征量向量。这时,关于各文献,在被赋予了F词条的情况下,与该F词条对应的元素的值设为“1”,在没有赋予的情况下,该元素的值设为“0”。并且,使用该特征量向量进行K-Means法聚类,被分类文献集合的各文献被分类为6个聚类。聚类处理中利用了Python语言的Scikit-learn库文件包。
接着,生成以被赋予同一被分类文献集合的一部分类型(126种类)的F词条为元素的126维的特征量向量,使用该特征量向量通过K-Means法聚类将被分类文献集合分类为5个聚类。作为一部分类型的F词条,使用包含主题代码“4H003”的F词条,在被赋予了包含主题代码“4H003”的F词条的情况下,与该F词条对应的元素的值设为“1”,在没有赋予的情况下,该元素的值设为“0”。
图16是表示使用以所有类型的F词条为元素的345维的特征量向量和以一部分类型的F词条为元素的126维的特征量向量,将同一被分类文献集合用聚类数不同的同一聚类分析方法进行了分类的结果的表。
依据图16的结果可知,在2个聚类分析结果的矩阵中,存在文献集中的单元格和不集中的单元格。即,即使使用任一特征量向量伙子使用不同的聚类数的聚类分析,也能够实现具有特色的分类。
由此,证实了不限定文献数据库、不限定特征量向量的元素数、不限定聚类的聚类数,也能够准确地将文献分类。
而且,对于上述的345维的特征量向量和126维的特征量向量分别应用了基于LDA法的隐含主题分析。这时,主题数设定为5,作为隐含主题分析的结果而得到的隐含主题的匹配比率中、表示最大比率的隐含主题作为该文献的代表主题。由此,35件的被分类文献集合被分类为5个隐含主题。在基于LDA法的隐含主题分析的处理中使用了Python语言的gensim库文件包。此外,在该隐含主题分析中,在输出构成各隐含主题的上级10个主题词(F词条)时,按5个隐含主题的合计输出了35种的F词条。
图17是表示使用了基于LDA法的隐含主题分析的文献分类的结果的表。图17的(a)是表示使用以所有类型的F词条为元素的345维的特征量向量将同一被分类文献集合通过K-Means法聚类和隐含主题分析(LDA法)进行了分类的结果的表,图17的(b)是使用以一部类型的F词条为元素的126维的特征量向量将同一被分类文献集合通过K-Means法聚类和隐含主题分析(LDA法)进行了分类的结果的表。
依据图17可知,在基于K-Means法聚类的每一个聚类的文献数分布、和基于隐含主题分析(LDA法)的每一个代表主题的文献数分布的矩阵中,能够看到文献集中的单元格和不集中的单元格,使用任一分析方法都能够实现具有特色的分类。
因此,证实了即使使用了隐含主题分析,与聚类分析同样地能够准确地将文献分类。
实施例3
在实施例3中,作为文献数据库利用了独立行政法人工业所有权信息·研修馆运营的专利信息平台(J-PlatPat)的计算机软件数据库(CSDB)。以由该文献数据库管理的手册、单行本、国内技术杂质、非技术杂质、外国学会论文、国内学会论文、企业技术报告、团体机关杂质、预备稿集为对象文献。对这些各对象文献,赋予了作为基于多观点分类的分类代码的CS代码。
对于这些对象文献,作为自由词“文献”、“分类”和“剖析”以AND条件所指定检索条件执行检索,提取了22件文献(以下,表记为A组)。
并且,对于该对象文献作为自由词“数据库”、“文件”、“检索”和“相似度”以AND条件所指定的检索条件执行检索,提取了23件的文献(以下,表记为B组)。
A组和B组的文献集合作为被分类文献集合,对被分类文献集合赋予的CS词条总计为121种类。
生成以对被分类文献集合赋予的所有类型的CS词条为元素的121维的特征量向量。这时,关于各文献被赋予了CS词条的情况下,与该CS词条对应的元素的值设为“1”,没有被赋予的情况下,该元素的值设为“0”。并且,使用该特征量向量进行K-Means法聚类,将被分类文献集合的各文献分类为6个聚类。在聚类处理中,利用了Python语言的Scikit-learn库文件包。
同样地,使用上述的特征量向量进行K-Means法聚类,将被分类文献集合的各文献分类为3个聚类。
图18是表示实施例3的文献分类的结果的表,图18的(a)表示通过使用了121维的CS词条特征量向量的K-Means法聚类分类为6聚类的结果,图18的(b)表示通过使用了与图18的(a)同一CS词条特征量向量的同一聚类分类为3聚类的结果。
依据图18可知,在每一个聚类的A组和B组的各自的文献数分布中能够看的某种程度的特色,因此即使使用基于CS词条的特征量向量也能够实现具有特色的分类。
因此,证实了即使使用了基于多观点分类的其它分类代码,与F词条聚类分析同样地、且与使用专利文献的F词条同样地能够将文献准确地分类。
在上述的说明中使用的多个流程图中,依次地记载由多个步骤(处理),由各实施方式执行的步骤的执行顺序并不限定于该记载的顺序。在各实施方式中,在内容上没有阻碍的范围内能够对图示的步骤的顺序进行变更。
附图标记的说明
10 文献分类装置
11 CPU
12 存储器
13 输入输出I/F
14 通信组件
15 输出装置
16 输入装置
18 文献分类程序
21 检索部
22 获取部
23 向量生成部
24 聚类部
25 生成部
27 隐含主题分析部
29 字符串检索部。

Claims (9)

1.一种文献分类装置,其特征在于,包括:
获取被分类文献集合的信息的文献集合获取单元,其中,所述被分类文献集合的各文献被预先分别赋予基于多观点分类的分类代码;
对所述被分类文献集合的各文献分别生成多维的特征量向量的向量生成单元,其中,所述多维的特征量向量以对所述被分类文献集合赋予的所有类型或者一部分类型的所述分类代码为各元素;
分类单元,其使用所述被分类文献集合的各文献的特征量向量,将所述被分类文献集合分类;和
生成单元,其生成表示所述分类的结果的文献分类信息。
2.如权利要求1所述的文献分类装置,其特征在于:
还包括对所述被分类文献集合的各文献进行规定字符串的检索的字符串检索单元,
所述向量生成单元生成还包含与所述规定字符串的检索结果对应的元素的所述特征量向量。
3.如权利要求1或2所述的文献分类装置,其特征在于:
对所述被分类文献集合的各文献,除所述分类代码之外,还分别赋予基于将文献内容的主题总括地分类的其它分类的其它分类代码,
所述向量生成单元生成作为元素还包含对所述被分类文献集合赋予的所有类型或者一部分类型的所述其它分类代码的所述特征量向量。
4.如权利要求1~3中任一项所述的文献分类装置,其特征在于:
所述向量生成单元,
对所述被分类文献集合的各文献分别生成第一特征量向量,其中,所述第一特征量向量以对所述被分类文献集合赋予的一部分类型的分类代码为各元素,并且,
进一步对所述被分类文献集合或者一部分所述被分类文献集合的各文献分别生成第二特征量向量,其中,所述第二特征量向量以其余的分类代码中的至少一部分类型的分类代码为各元素,
所述分类单元,
使用所述第一特征量向量对所述被分类文献集合进行第一分类,并且,
进一步使用所述第二特征量向量对所述被分类文献集合或者由该第一分类的结果获得的至少一个部分文献集合进行第二分类。
5.如权利要求4所述的文献分类装置,其特征在于:
所述生成单元生成使第一分类识别数据和第二分类识别数据与所述被分类文献集合的至少一部分的各文献的文献识别数据相关联了的所述文献分类信息,其中,所述第一分类识别数据构成为识别由所述第一分类划分的各部分集合,所述第二分类识别数据构成为识别由所述第二分类划分的各部分集合。
6.如权利要求1~5中任一项所述的文献分类装置,其特征在于:
各所述分类代码具有层级构造,由每一层级的部分代码形成,
所述向量生成单元生成包含与对所述被分类文献集合赋予的一部分类型的分类代码中的从各分类代码之中的最上级层级至规定层级的部分代码相对应的元素的所述特征量向量。
7.如权利要求1~6中任一项所述的文献分类装置,其特征在于:
还包括从文献数据库提取所述被分类文献集合的文献信息的检索单元,其中,所述文献数据库保存有对各文献分别赋予所述分类代码的文献信息,
所述文献集合获取单元获取由所述检索单元提取的所述被分类文献集合的文献信息。
8.一种文献分类方法,其特征在于,包括:
获取被分类文献集合的信息的文献集合获取步骤,其中,所述被分类文献集合的各文献被预先分别赋予基于多观点分类的分类代码;
对所述被分类文献集合的各文献分别生成多维的特征量向量的向量生成步骤,其中,所述多维的特征量向量以对所述被分类文献集合赋予的所有类型或者一部分类型的所述分类代码为各元素;和
分类步骤,其使用所述各文献的特征量向量,将所述被分类文献集合分类。
9.一种计算机程序,其特征在于:
使权利要求8所述的文献分类方法在至少一个计算机中执行。
CN201780097136.0A 2017-11-22 2017-11-22 文献分类装置 Active CN111373392B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/041920 WO2019102533A1 (ja) 2017-11-22 2017-11-22 文献分類装置

Publications (2)

Publication Number Publication Date
CN111373392A true CN111373392A (zh) 2020-07-03
CN111373392B CN111373392B (zh) 2021-05-07

Family

ID=66631858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780097136.0A Active CN111373392B (zh) 2017-11-22 2017-11-22 文献分类装置

Country Status (5)

Country Link
US (1) US10984344B2 (zh)
EP (1) EP3716099A4 (zh)
JP (1) JP6782858B2 (zh)
CN (1) CN111373392B (zh)
WO (1) WO2019102533A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781553A (zh) * 2022-06-20 2022-07-22 浙江大学滨江研究院 一种基于并行多图卷积神经网络的无监督专利聚类方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766414B (zh) * 2017-09-06 2020-06-12 北京三快在线科技有限公司 多文档交集获取方法、装置、设备及可读存储介质
US11436529B1 (en) * 2019-09-13 2022-09-06 Change Healthcare Holdings, Llc Method, apparatus, and computer program product for natural language processing
JP7324237B2 (ja) 2021-02-08 2023-08-09 デロイトトーマツコンサルティング合同会社 企業買収又は企業連携先検索装置、企業買収又は企業連携先検索方法及びプログラム
WO2022211099A1 (en) * 2021-03-31 2022-10-06 Olympus Corporation Patent valuation using artificial intelligence
JP7317067B2 (ja) * 2021-04-02 2023-07-28 本田技研工業株式会社 知財情報を用いた俯瞰図の作成方法
KR20230062264A (ko) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 문서분류 방법 및 문서분류 장치
CN115238153B (zh) * 2022-07-19 2023-09-08 中航机载系统共性技术有限公司 一种基于虚拟仿真的文档管理方法及系统
JP7444930B2 (ja) 2022-07-25 2024-03-06 デロイトトーマツコンサルティング合同会社 指標算出装置、指標算出方法及びプログラム
CN116821349B (zh) * 2023-08-29 2023-10-31 中国标准化研究院 一种基于大数据的文献分析方法及管理系统
CN117932072A (zh) * 2024-03-20 2024-04-26 华南理工大学 一种基于特征向量稀疏性的文本分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110181A1 (en) * 1999-01-26 2003-06-12 Hinrich Schuetze System and method for clustering data objects in a collection
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法
CN101174407A (zh) * 2006-10-02 2008-05-07 索尼株式会社 信息处理装置和方法、程序以及记录介质
JP2009230323A (ja) * 2008-03-21 2009-10-08 Fuji Xerox Co Ltd 情報解析装置及びプログラム
JP2010020530A (ja) * 2008-07-10 2010-01-28 Asahi Kasei Corp 文書分類付与装置、文書分類付与方法およびプログラム
CN102804125A (zh) * 2009-05-08 2012-11-28 Cpa软件有限公司 目标检索电子文献集合中多章节文献的方法、系统和设备
WO2012162405A1 (en) * 2011-05-24 2012-11-29 Namesforlife, Llc Semiotic indexing of digital resources
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
CN104011720A (zh) * 2011-12-22 2014-08-27 株式会社日立制作所 行动属性分析方法以及装置
JP2015207173A (ja) * 2014-04-21 2015-11-19 株式会社カネカ 特許情報分析装置及び特許情報分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5360512B1 (ja) 2012-06-18 2013-12-04 アルトリサーチ株式会社 検索支援装置と検索支援プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110181A1 (en) * 1999-01-26 2003-06-12 Hinrich Schuetze System and method for clustering data objects in a collection
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法
CN101174407A (zh) * 2006-10-02 2008-05-07 索尼株式会社 信息处理装置和方法、程序以及记录介质
JP2009230323A (ja) * 2008-03-21 2009-10-08 Fuji Xerox Co Ltd 情報解析装置及びプログラム
JP2010020530A (ja) * 2008-07-10 2010-01-28 Asahi Kasei Corp 文書分類付与装置、文書分類付与方法およびプログラム
CN102804125A (zh) * 2009-05-08 2012-11-28 Cpa软件有限公司 目标检索电子文献集合中多章节文献的方法、系统和设备
WO2012162405A1 (en) * 2011-05-24 2012-11-29 Namesforlife, Llc Semiotic indexing of digital resources
CN104011720A (zh) * 2011-12-22 2014-08-27 株式会社日立制作所 行动属性分析方法以及装置
JP2013225207A (ja) * 2012-04-20 2013-10-31 Docomo Technology Inc 特許調査支援装置、特許調査支援方法、およびプログラム
JP2015207173A (ja) * 2014-04-21 2015-11-19 株式会社カネカ 特許情報分析装置及び特許情報分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781553A (zh) * 2022-06-20 2022-07-22 浙江大学滨江研究院 一种基于并行多图卷积神经网络的无监督专利聚类方法

Also Published As

Publication number Publication date
EP3716099A1 (en) 2020-09-30
WO2019102533A1 (ja) 2019-05-31
JP6782858B2 (ja) 2020-11-11
US20200279189A1 (en) 2020-09-03
CN111373392B (zh) 2021-05-07
EP3716099A4 (en) 2021-07-14
US10984344B2 (en) 2021-04-20
JPWO2019102533A1 (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
CN111373392B (zh) 文献分类装置
US8788503B1 (en) Content identification
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
WO2008103961A1 (en) Diverse topic phrase extraction
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
CN107357765A (zh) Word文档碎片化方法及装置
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
JP5577546B2 (ja) 計算機システム
KR101078978B1 (ko) 문서 분류 시스템
JP6924450B2 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
CN114936282A (zh) 金融风险线索确定方法、装置、设备和介质
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
KR101458857B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN110737749A (zh) 创业计划评价方法、装置、计算机设备及存储介质
KR101078966B1 (ko) 문서 분석 시스템
EP2565799A1 (en) Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents
Kokatnoor et al. A Two-Stepped Feature Engineering Process for Topic Modeling Using Batchwise LDA with Stochastic Variational Inference Model.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant