CN117836763A - 文件分类系统及文件分类方法 - Google Patents

文件分类系统及文件分类方法 Download PDF

Info

Publication number
CN117836763A
CN117836763A CN202280057358.0A CN202280057358A CN117836763A CN 117836763 A CN117836763 A CN 117836763A CN 202280057358 A CN202280057358 A CN 202280057358A CN 117836763 A CN117836763 A CN 117836763A
Authority
CN
China
Prior art keywords
data
classification
file
vector
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280057358.0A
Other languages
English (en)
Inventor
道前芳隆
山本一宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Energy Laboratory Co Ltd
Original Assignee
Semiconductor Energy Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Energy Laboratory Co Ltd filed Critical Semiconductor Energy Laboratory Co Ltd
Publication of CN117836763A publication Critical patent/CN117836763A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种能够高精度地分类文件的文件分类系统。该文件分类系统包括输入部、存储部、处理部以及输出部。输入部具有接收文件数据及参考文件数据的功能。存储部具有储存分类模型的功能。处理部具有根据文件数据及参考文件数据生成第一分类数据至第三分类数据的功能。包含在文件数据中且不包含在参考文件数据中的单词属于第一分类数据。包含在文件数据中且包含在参考文件数据中的单词属于第二分类数据。不包含在文件数据中且包含在参考文件数据中的单词属于第三分类数据。处理部具有根据第一分类数据至第三分类数据生成文件比较数据并使用分类模型决定参考文件数据的分类的功能。输出部具有输出分类的功能。

Description

文件分类系统及文件分类方法
技术领域
本发明的一个方式涉及一种文件分类系统及文件分类方法。
注意,本发明的一个方式不局限于上述技术领域。作为本发明的一个方式的技术领域的一个例子,可以举出半导体装置、显示装置、发光装置、蓄电装置、存储装置、电子设备、照明装置、输入装置(例如,触摸传感器等)、输入输出装置(例如,触摸面板等)以及上述装置的驱动方法或制造方法。
背景技术
作为知识产权,专利更受关注且专利意识提高,已在进行支持专利有效活用的技术开发。例如,为了评价专利的有效性,需要与可能有关的参考文件进行比较来仔细检查有效性的有无。同样地,为了专利申请中调查先申请,需要与可能有关的参考文件进行比较来仔细检查相关性的有无。此外,当作为比较对象的参考文件较多时,仔细检查需要庞大的时间。
专利文献1公开了一种能够检索与所输入的知识产权信息有关的信息的系统。例如,可以检索与所指定的专利文献相似的专利文献、论文或工业产品。
[先行技术文献]
[专利文献]
[专利文献1]日本专利申请公开第2018-206376号公报
发明内容
发明所要解决的技术问题
本发明的一个方式的目的之一是提供一种能够高精度地分类文件的文件分类系统。本发明的一个方式的目的之一是提供一种能够高效地分类文件的文件分类系统。本发明的一个方式的目的之一是提供一种新颖的文件分类系统。本发明的一个方式的目的之一是提供一种能够高精度地分类文件的文件分类方法。本发明的一个方式的目的之一是提供一种能够高效地分类文件的文件分类方法。本发明的一个方式的目的之一是提供一种新颖的文件分类方法。
注意,这些目的的记载并不妨碍其他目的的存在。本发明的一个方式并不需要实现所有上述目的。可以从说明书、附图、权利要求书的记载中抽取上述目的以外的目的。
解决技术问题的手段
本发明的一个方式是一种包括输入部、存储部、处理部以及输出部的文件分类系统。输入部具有接收文件数据及参考文件数据的功能。存储部具有储存分类模型的功能。处理部具有根据文件数据及参考文件数据生成第一分类数据、第二分类数据及第三分类数据的功能。包含在文件数据中且不包含在参考文件数据中的单词属于第一分类数据。包含在文件数据中且包含在参考文件数据中的单词属于第二分类数据。不包含在文件数据中且包含在参考文件数据中的单词属于第三分类数据。处理部具有根据第一分类数据、第二分类数据及第三分类数据生成文件比较数据的功能。处理部具有使用分类模型根据文件比较数据决定参考文件数据的分类的功能。输出部具有输出分类的功能。
本发明的一个方式是一种包括输入部、存储部、处理部以及输出部的文件分类系统。输入部具有接收文件数据的功能。存储部具有储存参考文件数据及分类模型的功能。处理部具有根据文件数据及参考文件数据生成第一分类数据、第二分类数据及第三分类数据的功能。包含在文件数据中且不包含在参考文件数据中的单词属于第一分类数据。包含在文件数据中且包含在参考文件数据中的单词属于第二分类数据。不包含在文件数据中且包含在参考文件数据中的单词属于第三分类数据。处理部具有根据第一分类数据、第二分类数据及第三分类数据生成文件比较数据的功能。处理部具有使用分类模型根据文件比较数据决定参考文件数据的分类的功能。输出部具有输出分类的功能。
在上述文件分类系统中,处理部优选具有根据属于第一分类数据的单词生成第一向量数据的功能。处理部优选具有根据属于第二分类数据的单词生成第二向量数据的功能。处理部优选具有根据属于第三分类数据的单词生成第三向量数据的功能。处理部优选具有根据第一向量数据、第二向量数据及第三向量数据生成文件比较数据的功能。
在上述文件分类系统中,处理部优选具有如下功能:根据属于第一分类数据的单词生成第一向量数据,对第一向量数据的要素进行平均,来生成第一平均向量数据。处理部优选具有如下功能:根据属于第二分类数据的单词生成第二向量数据,对第二向量数据的要素进行平均,来生成第二平均向量数据。处理部优选具有如下功能:根据属于第三分类数据的单词生成第三向量数据,对第三向量数据的要素进行平均,来生成第三平均向量数据。处理部优选具有根据第一平均向量数据、第二平均向量数据及第三平均向量数据生成文件比较数据的功能。
在上述文件分类系统中,分类模型优选包括神经网络。处理部优选具有以第一文件数据、第二文件数据及相对于第一文件的第二文件的分类为监督数据对分类模型进行学习的功能。
本发明的一个方式是一种文件分类方法,包括如下步骤:接收文件数据及参考文件数据;根据文件数据及参考文件数据生成第一分类数据、第二分类数据及第三分类数据;根据第一分类数据、第二分类数据及第三分类数据生成文件比较数据;使用分类模型根据文件比较数据决定参考文件数据的分类;以及输出分类。包含在文件数据中且不包含在参考文件数据中的单词属于第一分类数据。包含在文件数据中且包含在参考文件数据中的单词属于第二分类数据。不包含在文件数据中且包含在参考文件数据中的单词属于第三分类数据。
发明效果
根据本发明的一个方式,可以提供一种能够高精度地分类文件的文件分类系统。此外,可以提供一种能够高效地分类文件的文件分类系统。此外,可以提供一种新颖的文件分类系统。此外,可以提供一种能够高精度地分类文件的文件分类方法。此外,可以提供一种能够高效地分类文件的文件分类方法。此外,可以提供一种新颖的文件分类方法。
注意,这些效果的记载并不妨碍其他效果的存在。本发明的一个方式并不需要具有所有上述效果。可以从说明书、附图、权利要求书的记载中抽取上述效果以外的效果。
附图简要说明
图1是示出文件分类系统的结构例子的图。
图2是示出文件分类方法的一个例子的图。
图3是示出文件分类方法的一个例子的图。
图4是示出文件分类方法的一个例子的图。
图5A至图5C是示出文件分类方法的一个例子的图。
图6是示出文件分类方法的一个例子的图。
图7A及图7B是说明神经网络的结构例子的图。
图8是说明神经网络的结构例子的图。
图9A及图9B是示出文件分类方法的一个例子的图。
图10是示出文件分类方法的一个例子的图。
图11A及图11B是示出文件分类方法的一个例子的图。
图12A至图12C是示出文件分类方法的一个例子的图。
图13A至图13C是示出文件分类方法的一个例子的图。
图14A至图14D是示出文件分类方法的一个例子的图。
图15A至图15D是示出文件分类方法的一个例子的图。
图16是示出文件分类方法的一个例子的图。
图17是示出文件分类方法的一个例子的图。
图18A至图18C是示出文件分类方法的一个例子的图。
图19是示出文件分类方法的一个例子的图。
图20是示出文件分类方法的一个例子的图。
图21是示出文件分类系统的一个例子的图。
图22是示出文件分类系统的一个例子的图。
图23是示出根据实施例的正确率的图。
实施发明的方式
参照附图对实施方式进行详细说明。注意,本发明不局限于以下说明,所属技术领域的普通技术人员可以很容易地理解一个事实就是其方式及详细内容在不脱离本发明的宗旨及其范围的情况下可以被变换为各种各样的形式。因此,本发明不应该被解释为仅局限在以下所示的实施方式所记载的内容中。
注意,在以下说明的发明的结构中,在不同的附图中共同使用相同的符号来表示相同的部分或具有相同的功能的部分,而有时省略其重复说明。此外,当表示具有相同的功能的部分时有时使用相同的阴影线,而不特别附加符号。
为了便于理解,有时附图中示出的各构成要素的位置、大小及范围等并不表示其实际的位置、大小及范围等。因此,所公开的发明不一定局限于附图所公开的位置、大小及范围等。
(实施方式1)
在本实施方式中,参照图1至图20说明本发明的一个方式的文件分类系统及文件分类方法。
本发明的一个方式的文件分类系统具有比较两个文件并使用分类模型分类文件的功能。在本发明的一个方式的文件分类系统中,对用于文件的语言没有特别的限制,例如可以对使用日语、英语、德语、法语、中文及韩语中的一个以上的语言的文件进行比较。在本说明书等中,有时将作为一个文件的比较对象的另一个文件记为参考文件。
<文件分类系统的结构例子1>
图1是文件分类系统200的方框图。文件分类系统200包括输入部110、存储部120、处理部130、输出部140及传输通道150。
[输入部110]
输入部110具有从文件分类系统200的外部接收文件的数据(以下也记为文件数据)及参考文件的数据(以下也记为参考文件数据)的功能。将输入部110所接收(以下也记为被输入)的文件数据及参考文件数据通过传输通道150供应到存储部120和处理部130中的一方或双方。
[存储部120]
存储部120具有储存处理部130所执行的程序及分类模型的功能。此外,存储部120也可以具有储存处理部130所生成的运算结果、推导结果以及输入到输入部110的数据等的功能。
存储部120包括易失性存储器及非易失性存储器中的至少一方。作为易失性存储器,例如可以举出DRAM(Dynamic Random Access Memory:动态随机存取存储器)及SRAM(StaticRandomAccessMemory:静态随机存取存储器)。作为非易失性存储器,例如可以举出ReRAM(ResistiveRandomAccessMemory:电阻随机存取存储器,也称为阻变式存储器)、PRAM(Phase change RandomAccess Memory:相变随机存取存储器)、FeRAM(FerroelectricRandomAccess Memory:铁电随机存取存储器)、MRAM(MagnetoresistiveRandomAccessMemory:磁阻随机存取存储器,也称为磁阻式存储器)及快闪存储器。作为用于存储部120的存储器,也可以使用采用包含氧化物半导体(Oxide Semiconductor)的晶体管(也称为OS晶体管)的器件。作为使用该氧化物半导体的器件,可以举出DOSRAM(注册商标)及NOSRAM(注册商标)。DOSRAM是指将关态电流(off-state current)小的OS晶体管用于存储单元的选择晶体管(用作开关元件的晶体管)的存储器。此外,NOSRAM是指将关态电流小的OS晶体管用于存储单元的选择晶体管(作为开关元件的晶体管)并将使用硅材料等的晶体管用于存储单元的输出晶体管的存储器。关于OS晶体管将在实施方式2中说明详细内容。此外,存储部120也可以包括记录介质驱动器。作为记录介质驱动器,例如可以举出硬盘驱动器(HardDiskDrive:HDD)及固态驱动器(Solid State Drive:SSD)。
存储部120也可以包括数据库。数据库例如可以包括参考文件数据。
文件分类系统200也可以具有从系统外部的数据库取出数据的功能。文件分类系统200也可以具有从自身包括的数据库和外部的数据库的双方取出数据的功能。文件分类系统200例如具有从数据库取出参考文件数据的功能。
此外,也可以使用储存器(storage)和文件服务器中的一方或双方代替数据库。例如,在利用文件服务器所包含的文档时,数据库优选包括文件服务器所保存的文档的路径。
[处理部130]
处理部130具有对输入部110和存储部120中的一方或双方所供应的文件数据及参考文件数据进行处理来分类参考文件的功能。具体而言,具有如下功能:从输入部110和存储部120中的一方或双方所供应的文件数据及参考文件数据抽出单词,根据使用该单词而生成的数据使用已学习的分类模型分类参考文件。此外,处理部130具有使用数据库所包含的数据进行处理的功能。处理部130具有将分类结果供应给存储部120和输出部140中的一方或双方的功能。
图2示出使用文件分类系统分类文件的情况。图2示意性地示出对文件数据TD与参考文件数据RD进行比较来分类参考文件数据RD的情况。分类可以为进行两种分类的二值分类或进行三种以上的分类的多值分类(也称为多级分类)。例如,可以进行参照文件数据RD与文件数据TD的“相关性高”或“相关性低”的二值分类。
处理部130例如可以包括运算电路。处理部130例如可以包括中央处理器(CPU:Central Processing Unit)。
处理部130也可以包括DSP(Digital SignalProcessor:数字信号处理器)、GPU(GraphicsProcessingUnit:图形处理器)等微处理器。微处理器也可以由FPGA(FieldProgrammable GateArray:现场可编程门阵列)及FPAA(FieldProgrammableAnalogArray:现场可编程模拟阵列)等PLD(ProgrammableLogicDevice:可编程逻辑器件)实现。处理部130通过由处理器解释且执行来自各种程序的指令,可以进行各种数据处理及程序控制。可由处理器执行的程序储存在处理器所包括的存储器区域及存储部120中的至少一个。
处理部130也可以包括主存储器。主存储器包括RAM(Random AccessMemory:随机存取存储器)等易失性存储器及ROM(ReadOnly Memory:只读存储器)等非易失性存储器中的至少一个。
作为RAM,例如使用DRAM或SRAM,该RAM分配有虚拟存储空间作为处理部130的工作空间,并用于处理部130。储存在存储部120中的操作系统、应用程序、程序模块、程序数据及查找表等在执行时被加载于RAM中。处理部130直接存取并操作被加载于RAM中的这些数据、程序及程序模块。
ROM可以储存不需要改写的BIOS(BasicInput/OutputSystem:基本输入/输出系统)及固件等。作为ROM,例如可以举出掩模ROM、OTPROM(One TimeProgrammable ReadOnlyMemory:初次可编程只读存储器)及EPROM(Erasable ProgrammableRead OnlyMemory:可擦除可编程只读存储器)等。作为EPROM,例如可以举出通过紫外线照射可以消除存储数据的UV-EPROM(Ultra-Violet Erasable ProgrammableReadOnlyMemory:紫外线-可擦除可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableReadOnlyMemory:电子式可抹除可编程只读存储器)及快闪存储器等。
文件分类系统优选至少在其一部分的处理中利用人工智能(AI:ArtificialIntelligence)。
文件分类系统尤其优选使用人工神经网络(ANN:ArtificialNeural Network,以下有时简称为神经网络)。神经网络可以由电路(硬件)或程序(软件)实现。
在本说明书等中,神经网络是指模拟生物的神经回路网,通过学习决定神经元之间的结合强度,由此获得问题解决能力的所有模型。神经网络包括输入层、中间层(也称为隐藏层)、输出层。
在本说明书等中,在说明神经网络时,有时将根据已经有的信息决定神经元之间的结合强度(也称为权重系数)称为“学习”。
在本说明书等中,有时将使用通过学习得到的结合强度构成神经网络,从该结构导出新的结论称为“推导”。
分类模型优选使用神经网络。尤其是,分类模型优选使用深度学习。作为深度学习,例如可以使用卷积神经网络(CNN:ConvolutionalNeural Network)、递归神经网络(RNN:Recurrent Neural Network)、LSTM(Long Short Term Memory:长短期记忆)、全连接神经网络(FCNN:FullyConnectedNeuralNetwork)、自编码器(AE:Autoencoder)、变分自编码器(VAE:VariationalAutoencoder)、支持向量机(SupportVector Machine)或生成对抗网络(GAN:Generative Adversarial Networks)。
分类模型也可以使用机器学习(ML:Machine Learning)。分类模型可以适当地利用监督机器学习。作为机器学习,例如可以使用支撑向量机(SupportVectorMachine)、随机森林(RandomForest)、梯度增压(Gradient Boosting)、逻辑回归或聚类。
[输出部140]
输出部140基于处理部130的处理结果输出信息。例如,可以将处理部130的运算结果和推导结果中的一方或双方输出到文件分类系统200的外部。具体而言,输出部140可以将处理部130所决定的分类输出到外部。此外,输出部140可以基于处理部130的处理结果输出数据库所包含的各种数据。
[传输通道150]
传输通道150具有传输数据的功能。输入部110、存储部120、处理部130及输出部140之间的数据收发可以通过传输通道150进行。
参照图3至图20说明使用本发明的一个方式的文件分类系统的文件分类方法。
<文件分类方法的例子1-1>
图3示出使用文件分类系统的文件分类方法的一个例子的流程。
[步骤S11]
首先,用户对输入部110输入文件数据TD(图3的步骤S11)。
作为文件数据TD,例如可以使用用户想要评价有效性的专利文献或者用户所具有的申请前或公开前的专利文件。
[步骤S12]
接着,处理部130从步骤S11中输入的文件数据TD抽出单词,来生成文件数据TD所包含的单词的数据(以下记为单词数据TWdt)(图3的步骤S12)。图4示意性地示出从文件数据TD抽出的单词数据TWdt。
例如,可以利用语素分析、N-gram(也称为N字符索引法或N图法)或Sentencepiece从文件数据TD抽出单词。
通过进行语素分析,可以将文分解成语素(语言中有意义的最小单位),以识别各语素的词类等。在是如日语那样在单词与单词之间不附加空白的语言的情况下,可以适当地使用语素分析。此外,也可以通过使用语素分析只抽出特定词类的单词来生成单词数据TWdt。例如,可以只抽出名词生成单词数据TWdt。例如,可以只抽出名词及动词生成单词数据TWdt。此外,通过对如英语那样在单词与单词之间插入空白的语言,即所谓的“分词写入”的语言进行语素分析,可以只抽出特定词类的单词来生成单词数据TWdt。
注意,也可以限定从文件数据TD抽出单词的范围。例如,在文件数据TD为专利文献的情况下,也可以将抽出单词的范围设定为说明书,不从权利要求书及摘要抽出单词。此外,在文件数据TD为专利文献的情况下,也可以从文件数据TD抽出专利分类的信息。通过使用专利分类信息,可以进行考虑到文件数据TD的技术领域的分类。作为专利分类,例如可以使用IPC(International Patent Classification:国际专利分类)、CPC(CooperativePatentClassification:联合专利分类)和UPC(United States PatentClassification:美国专利分类)中的一个或多个。
此外,也可以使用概念词典对从文件数据TD抽出的单词进行转换,将所转换的单词用作单词数据TWdt。概念词典是附有单词的分类、与其他单词的关系等的一览表。概念词典也可以是现有概念词典。此外,用户也可以生成专门涉及文件的领域的概念词典。此外,用户也可以对通用概念词典追加在文件的领域中常用的单词。通过使用概念词典,对使用不同单词记载相同概念的文件也可以以高精度进行分类。可以将概念词典作为数据库储存在存储部120中。此外,也可以将概念词典储存在文件分类系统200的外部的数据库中。
此外,也可以使用翻译词典将从文件数据TD抽出的单词翻译为其他语言,将所翻译的单词用作单词数据TWdt。该翻译词典也可以为现有的翻译词典。此外,也可以生成专门涉及文件的领域的翻译词典。此外,也可以对通用翻译词典追加在文件的领域中常用的单词。通过使用翻译词典,对使用不同语言记载的文件也可以进行分类。可以将翻译词典作为数据库储存在存储部120中。此外,也可以将翻译词典储存在文件分类系统200的外部的数据库中。
单词数据TWdt例如也可以按单词出现次数排序。对单词数据TWdt的排序没有特别的限制,例如也可以按文件数据TD中单词出现的顺序排列。
[步骤S21]
接着,用户对输入部110输入与文件数据TD进行比较的参考文件数据RD(图3的步骤S21)。虽然在图3中示出在步骤S12之后输入参考文件数据RD的例子,但是本发明的一个方式不局限于此,也可以在步骤S11中输入参考文件数据RD。
参考文件数据RD是作为文件数据TD的比较对象的文件,例如可以为技术文献。作为技术文献,可以使用在世界各国发行的刊物,例如专利文献及论文。
[步骤S22]
接着,处理部130从步骤S21中输入的参考文件数据RD抽出单词,生成包含在参考文件数据RD中的单词的数据(以下记为参考单词数据RWdt)(图3的步骤S22)。图4示意性地示出从参考文件数据RD抽出的参考单词数据RWdt。
此外,也可以限定从参考文件数据RD抽出单词的范围。例如,在参考文件数据RD为专利文献的情况下,也可以将抽出单词的范围设定为说明书,不从权利要求书及摘要抽出单词。此外,在参考文件数据RD为专利文献的情况下,也可以从参考文件数据RD抽出专利分类的信息。通过使用专利分类信息,可以进行考虑到参考文件数据RD的技术领域的分类。
此外,也可以使用概念词典对从参考文件数据RD抽出的单词进行转换,将所转换的单词用作参考单词数据RWdt。此外,也可以使用翻译词典将从参考文件数据RD抽出的单词翻译为其他语言,将所翻译的单词用作参考单词数据RWdt。此外,参考单词数据RWdt例如也可以按单词出现次数排序。对参考单词数据RWdt的排序没有特别的限制,例如也可以按参考文件数据RD中单词出现的顺序排列。
关于从参考文件数据RD抽出单词的方法可以参照上述步骤S12的记载,所以省略详细说明。
[步骤S31]
接着,处理部130比较单词数据TWdt与参考单词数据RWdt,生成第一分类数据TGdt、第二分类数据CGdt及第三分类数据RGdt(图3的步骤S31)。
包含在单词数据TWdt中且不包含在参考单词数据RWdt中的单词属于第一分类数据TGdt。也就是说,包含在文件数据TD中且不包含在参考文件数据RD中的单词属于第一分类数据TGdt。此外,如图4所示,第一分类数据TGdt相当于包含在如下差集中的单词:从包含在单词数据TWdt中的单词的集合减去包含在参考单词数据RWdt中的单词的集合而成的差集。在图4中,作为第一分类数据TGdt示出单词TG_1至单词TG_A的A个单词。可以说,作为第一分类数据TGdt的单词TG_1至单词TG_A表示相对于参考文件数据RD的文件数据TD的特征。
包含在单词数据TWdt中且包含在参考单词数据RWdt中的单词属于第二分类数据CGdt。也就是说,包含在文件数据TD中且包含在参考文件数据RD中的单词属于第二分类数据CGdt。此外,如图4所示,第二分类数据CGdt相当于包含在如下公共集合(也称为交集或积集)中的单词:包含在单词数据TWdt中的单词的集合与包含在参考单词数据RWdt中的单词的集合的公共集合。在图4中,作为第二分类数据CGdt示出单词CG_1至单词CG_B的B个单词。可以说,作为第二分类数据CGdt的单词CG_1至单词CG_B表示文件数据TD与参考文件数据RD之间共同的特征。
不包含在单词数据TWdt中且包含在参考单词数据RWdt中的单词属于第三分类数据RGdt。也就是说,不包含在文件数据TD中且包含在参考文件数据RD中的单词属于第三分类数据RGdt。此外,如图4所示,第三分类数据RGdt相当于包含在如下差集中的单词:从包含在参考单词数据RWdt中的单词的集合减去包含在单词数据TWdt中的单词的集合而成的差集。在图4中,作为第三分类数据RGdt示出单词RG_1至单词RG_C的C个单词。可以说,作为第三分类数据RGdt的单词RG_1至单词RG_C表示相对于文件数据TD的参考文件数据RD的特征。
包含在第一分类数据TGdt中的单词的个数A、包含在第二分类数据CGdt中的单词的个数B及包含在第三分类数据RGdt中的单词的个数C分别独立地为1以上的整数。
[步骤S32]
接着,使步骤S31中生成的包含在第一分类数据TGdt中的单词TG_1至单词TG_A分别向量化来生成第一向量数据TVdt。同样地,使包含在第二分类数据CGdt中的单词CG_1至单词CG_B分别向量化来生成第二向量数据CVdt。使包含在第三分类数据RGdt中的单词RG_1至单词RG_C分别向量化来生成第三向量数据RVdt。
作为单词的向量化,例如可以使用已开源的算法,即Word2vec、BoW(Bag ofWords)或BERT(Bidirectional Encoder Representations fromTransformer)。在本发明的一个方式中,对用于单词的向量化的方法没有特别的限制。
图5A示出根据第一分类数据TGdt生成的第一向量数据TVdt的例子。根据包含在第一分类数据TGdt中的单词TG_1生成向量[TV_1(1),TV_1(2),...,TV_1(X)]。在此,示出将单词TG_1转换为包含要素TV_1(1)至要素TV_1(X)的X维向量的例子。注意,要素TV_1(1)至要素TV_1(X)分别独立地为实数。同样地,将包含在第一分类数据TGdt中的其他单词数据分别转换为X维向量。第一向量数据TVdt包含A个X维向量。
图5B示出根据第二分类数据CGdt生成的第二向量数据CVdt的例子。根据包含在第二分类数据CGdt中的单词CG_1生成向量[CV_1(1),CV_1(2),...,CV_1(Y)]。在此,示出将单词CG_1转换为包含要素CV_1(1)至要素CV_1(Y)的Y维向量的例子。注意,要素CV_1(1)至要素CV_1(Y)分别独立地为实数。同样地,将包含在第二分类数据CGdt中的其他单词数据分别转换为Y维向量。第二向量数据CVdt包含B个Y维向量。
图5C示出根据第三分类数据RGdt生成的第三向量数据RVdt的例子。根据包含在第三分类数据RGdt中的单词RG_1生成向量[RV_1(1),RV_1(2),...,RV_1(Z)]。在此,示出将单词RG_1转换为包含要素RV_1(1)至要素RV_1(Z)的Z维向量的例子。注意,要素RV_1(1)至要素RV_1(Z)分别独立地为实数。同样地,将包含在第三分类数据RGdt中的其他单词数据分别转换为Z维向量。第三向量数据RVdt包含C个Z维向量。
第一向量数据TVdt、第二向量数据CVdt及第三向量数据RVdt都包含从单词转换的向量。可以将这种通过转换单词而生成的向量称为单词向量。
第一向量数据TVdt的维数X、第二向量数据CVdt的维数Y及第三向量数据RVdt的维数Z分别独立地为1以上的整数。
当维数X、维数Y及维数Z少时,有时利用分类模型的分类精度降低。此外,当维数X、维数Y及维数Z多时运算量增大,有时处理所需要的时间变长。维数X、维数Y及维数Z分别独立地优选为1以上且10000以下,更优选为100以上且5000以下,进一步优选为200以上且2000以下,更进一步优选为200以上且1000以下。通过使用在上述范围内的维数X、维数Y及维数Z,可以同时实现高精度分类及高速处理。注意,维数X、维数Y及维数Z既可相同又可不同。
用户也可以任意设定维数X、维数Y及维数Z。在用户设定维数X、维数Y及维数Z的情况下,可以根据所设定的维数对分类模型进行学习。
接着,根据第一向量数据TVdt、第二向量数据CVdt及第三向量数据RVdt生成文件比较数据DCdt。图6示出文件比较数据DCdt为R×S×3的张量的例子。可以说,在文件比较数据DCdt中R行S列的行列呈三阶层。
第一向量数据TVdt包含A个X维向量。如图6所示,可以根据包含在第一向量数据TVdt中的要素生成A行X列的行列TMdt。第二向量数据CVdt包含B个Y维向量。可以根据包含在第二向量数据CVdt中的要素生成B行Y列的行列CMdt。第三向量数据RVdt包含C个Z维向量。可以根据包含在第三向量数据RVdt中的要素生成C行Z列的行列RMdt。
在此,有时个数A、个数B及个数C不同,由此扩大行列TMdt、行列CMdt及行列RMdt的行方向来将行数设定为R。行数R为个数A、个数B及个数C的最大数以上的整数。同样地,在维数X、维数Y及维数Z不同时,扩大行列TMdt、行列CMdt及行列RMdt的列方向来将列数设定为S。列数S为维数X、维数Y及维数Z的最大数以上的整数。也就是说,将行列TMdt、行列CMdt及行列RMdt都扩大为R行S列的行列。此外,在各行列的扩大区域中设置零。加上,通过组合所扩大的行列TMdt、行列CMdt及行列RMdt,可以生成R×S×3的张量的文件比较数据DCdt。
因为文件比较数据DCdt具有只包含在文件数据TD中的单词、包含在文件数据TD及参考文件数据RD的双方中的单词以及只包含在参考文件数据RD中的单词的信息,所以可以说,文件比较数据DCdt表示文件数据TD与参考文件数据RD之间的关系。
[步骤S33]
接着,使用分类模型根据步骤S32中生成的文件比较数据DCdt决定参考文件数据RD的分类SE(图3的步骤S33)。
分类模型可以适当地使用神经网络。神经网络可以由输入层、中间层(隐藏层)及输出层构成。图7A示出神经网络的结构例子。在图7A所示的神经网络NN中,输入层IL、中间层HL及输出层OL都包括一个或多个神经元(单元)。虽然在图7A中示出神经网络NN包括一个中间层HL的结构,但是神经网络NN也可以包括多个中间层HL。包括两层以上的中间层HL的神经网络可以被称为DNN(深度神经网络),使用深度神经网络的学习可以被称为深度学习。
输入层IL的各神经元被输入输入数据,中间层HL的各神经元被输入前一层或后一层的神经元的输出信号,输出层OL的各神经元被输入前一层的神经元的输出信号。注意,各神经元既可以与前一层和后一层的所有神经元连结(全连结),又可以与部分神经元连结。
图7B示出利用神经元的运算的例子。在此,示出神经元N及向神经元N输出信号的前一层的两个神经元。神经元N被输入前一层的神经元的输出x1及前一层的神经元的输出x2。在神经元N中,算出输出x1与权重w1的乘法结果(x1w1)和输出x2与权重w2的乘法结果(x2w2)之总和x1w1+x2w2,然后根据需要对其加偏压b,从而得到值a=x1w1+x2w2+b。值a被激活函数h变换,输出信号y=h(a)从神经元N输出。作为激活函数,例如可以使用阶梯函数、斜坡函数(ReLU函数)、sigmoid函数、tanh函数或softmax函数。
如此,利用神经元的运算包括对前一层的神经元的输出与权重之积进行加法的运算,即积和运算(上述x1w1+x2w2)。该积和运算既可以使用程序以软件进行,又可以以硬件进行。在积和运算以硬件进行时,可以利用积和运算电路。作为该积和运算电路,既可以使用数字电路,又可以使用模拟电路。在作为积和运算电路使用模拟电路时,可以缩小积和运算电路的电路规模或者因向存储器访问的次数的减少而实现处理速度的提高及功耗的降低。
积和运算电路既可以由在沟道形成区域中包含硅(单晶硅等)的晶体管(也称为Si晶体管)构成,又可以由在沟道形成区域中包含金属氧化物之一的氧化物半导体的晶体管(也称为OS晶体管)构成。尤其是,因为OS晶体管具有极小的关态电流,所以优选用作构成积和运算电路的存储器的晶体管。注意,也可以由Si晶体管和OS晶体管的双方构成积和运算电路。
如图7A所示,输入层IL被输入作为输入数据的文件比较数据DCdt。输入层IL的神经元(单元)的个数可以为文件比较数据DCdt的要素的个数。在图6所示的文件比较数据DCdt中,输入层IL的神经元(单元)的个数可以为R×S×3。
输出层OL的神经元(单元)个数可以为分类种类的个数。输出层OL输出各分类的概率。神经网络NN将最高概率的分类作为结果输出。在进行二值分类时,可以将输出层的单元个数设定为2。作为激活函数,例如可以使用sigmoid函数。图7A示出分类为第一分类CLS1及第二分类CLS2的两种的例子。从输出层OL输出第一分类CLS1的概率及第二分类CLS2的概率。例如,可以将第一分类CLS1设定为“参考文件数据RD与文件数据TD的相关性高”,将第二分类CLS2设定为“参考文件数据RD与文件数据TD的相关性低”。在二值分类中,在概率的总和为1,一方分类的概率为p(p为0以上且1以下的实数)时,另一方分类的概率为1-p,所以输出层OL的神经元(单元)个数也可以为1。
图7A示出利用神经网络进行二值分类的例子,但是本发明的一个方式不局限于此。如图8所示,也可以使用进行三种以上的分类的多值分类(多级分类)。图8示出输出层OL的神经元(单元)个数为q(q为3以上的整数)且被分类为第一分类CLS1至第q分类CLSq的q种类的例子。作为激活函数,例如可以使用softmax函数。例如,在q为3的情况下,可以将第一分类CLS1设定为“参考文件数据RD与文件数据TD的相关性高”,将第二分类CLS2设定为“参考文件数据RD与文件数据TD的相关性不高不低”,将第三分类CLS3设定为“参考文件数据RD与文件数据TD的相关性低”。
[步骤S41]
接着,将步骤S33中决定的分类SE输出到输出部140(图3的步骤S41)。图9A及图9B示出输出的一个例子。如图9A所示,输出例如可以为文件名称、参考文件名称及分类SE的一览表。图9B示出作为概率最高的分类显示第二分类CLS2的例子。
如上所述,通过使用本发明的一个方式的文件分类方法,可以比较两个文件来以高精度分类文件。
例如,在评价文件数据TD的有效性时,通过使用本发明的一个方式的文件分类方法,可以以参考文件数据RD与文件数据TD的“相关性高”或“相关性低”的2值进行分类。其结果是,当参考文件数据RD被分类为与文件数据TD的“相关性高”时,用户可以仔细检查文件数据TD及参考文件数据RD的记载,当参考文件数据RD被分类为与文件数据TD的“相关性低”时,用户可以不仔细检查或者降低工作的优先次序,由此可以高效地评价有效性。
<分类模型的学习方法的例子>
将说明分类模型的学习方法。图10示出分类模型的学习方法的一个例子的流程。
在此,以用户对分类模型进行学习的方法为例进行说明。通过用户对分类模型进行学习,可以使用用户所具有的文件,即成为评价对象的文件数据进行学习。因此,可以进行学习来实现能够进行高精度的分类的分类模型。注意,通过在文件分类系统200中具有预先学习的分类模型,用户可以使用文件分类系统200而不对分类模型进行学习。此外,用户也可以对文件分类系统200预先具有的分类模型进一步进行学习。
[步骤S101]
首先,用户对输入部110输入监督数据(图10的步骤S101)。图11A示出监督数据的结构。监督数据是以文件数据、参考文件数据及这些分类为一组的数据。监督数据的分类是由用户决定的分类,就是相对于文件数据的参考文件数据的分类。例如,当进行二值分类时,将监督数据的分类设定为两种。优选使用多组监督数据,监督数据越多分类精度越高。
如图11A所示,可以调换组中的文件和参考文件。例如,文件TEA1、参考文件TEA2及分类SEt1的组可以为文件TEA2、参考文件TEA1及分类SEt1的组。同样地,文件TEA3、参考文件TEA4及分类SEt2的组可以为文件TEA4、参考文件TEA3及分类SEt2的组。如此,通过调换组中的文件和参考文件,可以增加监督数据的数量,从而可以提高分类精度。
图11B示出监督数据的例子。图11B示出进行二值分类的例子,监督数据的分类为分类CLS1及分类CLS2的两种。
[步骤S102]
接着,使用步骤S101中输入的监督数据对分类模型进行学习(图10的步骤S102)。
以如下方式对分类模型进行学习:根据文件数据及参考文件数据生成文件比较数据DCdt,使该文件比较数据DCdt的分类成为作为监督数据提供的分类。
关于根据文件数据及参考文件数据生成文件比较数据DCdt的方法可以参照<文件分类方法的例子1-1>所示的步骤S11至步骤S33的记载,所以省略详细说明。注意,学习中的第一向量数据TVdt的维数X与分类中的第一向量数据TVdt的维数X相同。同样地,学习中的第二向量数据CVdt的维数Y与分类中的第二向量数据CVdt的维数Y相同。学习中的第三向量数据RVdt的维数Z与分类中的第三向量数据RVdt的维数Z相同。
[步骤S103]
接着,将步骤S102中已学习的分类模型储存于存储部120(图10的步骤S103)。
此外,分类模型也可以储存在连接于文件分类系统的存储介质中。
以上是分类模型的学习方法的一个例子。通过对分类模型进行学习,可以提高分类精度。
<文件分类方法的例子1-2>
将说明与上述不同的文件分类方法。关于文件分类方法的流程可以参照图3。在此,说明与上述不同的步骤S32中的文件比较数据DCdt的生成方法。
[步骤S11、步骤S12、步骤S21、步骤S22及步骤S31]
与上述<文件分类方法的例子1-1>同样地进行步骤S11、步骤S12、步骤S21、步骤S22及步骤S31。关于步骤S11、步骤S12、步骤S21、步骤S22及步骤S31可以参照上述记载,所以省略详细说明。
[步骤S32]
接着,使步骤S31中生成的包含在第一分类数据TGdt中的单词TG_1至单词TG_A分别向量化来生成第一向量数据TVdt(参照图5A)。同样地,使包含在第二分类数据CGdt中的单词CG_1至单词CG_B分别向量化来生成第二向量数据CVdt(参照图5B)。使包含在第三分类数据RGdt中的单词RG_1至单词RG_C分别向量化来生成第三向量数据RVdt(参照图5C)。关于第一向量数据TVdt、第二向量数据CVdt及第三向量数据RVdt的生成可以参照上述记载,所以省略详细说明。
接着,根据包含在第一向量数据TVdt中的向量、包含在第二向量数据CVdt中的向量及包含在第三向量数据RVdt中的向量生成第一平均向量TVA、第二平均向量CVA及第三平均向量RVA。
图12A示出根据包含在第一向量数据TVdt中的向量生成的第一平均向量TVA的例子。作为第一平均向量TVA[TV(1),TV(2),...,TV(X)]的要素,可以使用包含在第一向量数据TVdt中的各向量的要素的平均值。具体而言,如下述算式所示,作为第一平均向量TVA的第一维要素TV(1),可以使用包含在第一向量数据TVdt中的各向量的第一维要素TV_1(1)至要素TV_A(1)的平均值。第一平均向量TVA的第二维要素TV(2)以后也可以同样地算出。
[算式1]
第一平均向量TVA[TV(1),TV(2),...,TV(X)]的维数为与包含在第一向量数据TVdt中的向量的维数相同,即X。第一平均向量数据TVAdt包含一个X维向量(第一平均向量TVA)。可以说,第一平均向量TVA表示包含在文件数据TD中且不包含在参考文件数据RD中的单词的特征。
图12B示出根据包含在第二向量数据CVdt中的向量生成的第二平均向量CVA的例子。作为第二平均向量CVA[CV(1),CV(2),...,CV(Y)]的要素,可以使用包含在第二向量数据CVdt中的各向量的要素的平均值。具体而言,如下述算式所示,作为第二平均向量CVA的第一维要素CV(1),可以使用包含在第二向量数据CVdt中的各向量的第一维要素CV_1(1)至要素CV_B(1)的平均值。第二平均向量CVA的第二维要素CV(2)以后也可以同样地算出。
[算式2]
第二平均向量CVA[CV(1),CV(2),...,CV(Y)]的维数为与包含在第二向量数据CVdt中的向量的维数相同,即Y。第二平均向量数据CVAdt包含一个Y维向量(第二平均向量CVA)。可以说,第二平均向量CVA表示包含在文件数据TD中且包含在参考文件数据RD中的单词的特征。
图12C示出根据包含在第三向量数据RVdt中的向量生成的第三平均向量RVA的例子。作为第三平均向量RVA[RV(1),RV(2),...,RV(Z)]的要素,可以使用包含在第三向量数据RVdt中的各向量的要素的平均值。具体而言,如下述算式所示,作为第三平均向量RVA的第一维要素RV(1),可以使用包含在第三向量数据RVdt中的各向量的第一维要素RV_1(1)至要素RV_C(1)的平均值。第三平均向量RVA的第二维要素RV(2)以后也可以同样地算出。
[算式3]
第三平均向量RVA[RV(1),RV(2),...,RV(Z)]的维数为与包含在第三向量数据RVdt中的向量的维数相同,即Z。第三平均向量数据RVAdt包含一个Z维向量(第三平均向量RVA)。可以说,第三平均向量RVA表示不包含在文件数据TD中且包含在参考文件数据RD中的单词的特征。
注意,在此示出使用各向量的要素的平均值的例子,但是本发明的一个方式不局限于此。如下述算式所示,也可以使用各向量的要素的总和值。
[算式4]
[算式5]
[算式6]
此外,也可以扩大第一平均向量TVA[TV(1),TV(2),...,TV(X)]、第二平均向量CVA[CV(1),CV(2),...,CV(Y)]及第三平均向量RVA[RV(1),RV(2),...,RV(Z)],来对扩大的区域添加专利分类的信息。所扩大的维数为1以上的整数,可以为固定值。可以在第一平均向量TVA的扩大区域中设置对应于包含在文件数据TD中且不包含在参考文件数据RD中的专利分类的要素。可以在第二平均向量CVA的扩大区域中设置对应于包含在文件数据TD中且包含在参考文件数据RD中的专利分类的要素。可以在第三平均向量RVA的扩大区域中设置对应于不包含在文件数据TD中且包含在参考文件数据RD中的专利分类的要素。在文件数据TD及参考文件数据RD不是专利文献的情况下,在分别扩大第一平均向量TVA、第二平均向量CVA及第三平均向量RVA的区域中设置零即可。在文件数据TD是专利文献且参考文件数据RD不是专利文献的情况下,在分别扩大第二平均向量CVA及第三平均向量RVA的区域中设置零即可。在文件数据TD不是专利文献且参考文件数据RD是专利文献的情况下,在分别扩大第一平均向量TVA及第二平均向量CVA的区域中设置零即可。
接着,根据第一平均向量TVA、第二平均向量CVA及第三平均向量RVA生成文件比较数据DCdt。
图13A示出根据第一平均向量TVA、第二平均向量CVA及第三平均向量RVA生成的文件比较数据DCdt的例子。生成第一平均向量TVA、第二平均向量CVA及第三平均向量RVA的各要素依次排列的(X+Y+Z)维向量,即[TV(1),TV(2),...,TV(X),CV(1),CV(2),...,CV(Y),RV(1),RV(2),...,RV(Z)]。文件比较数据DCdt包含一个(X+Y+Z)维向量。
通过根据第一平均向量TVA、第二平均向量CVA及第三平均向量RVA生成文件比较数据DCdt,可以减少包含在文件比较数据DCdt中的要素的数量。因此,运算量变小,可以缩短处理所需要的时间。
具体而言,包含在文件比较数据DCdt中的向量的第一维至第X维要素对应于第一平均向量TVA的各要素,第(X+1)维至第(X+Y)维要素对应于第二平均向量CVA的各要素,第(X+Y+1)维至第(X+Y+Z)维要素对应于第三平均向量RVA的各要素。
注意,对排列第一平均向量TVA、第二平均向量CVA及第三平均向量RVA的顺序没有特别的限制。文件比较数据DCdt也可以为依次排列第二平均向量CVA的各要素、第一平均向量TVA的各要素、第三平均向量RVA的各要素的向量。
图13A示出文件比较数据DCdt为在行方向上排列要素的向量(也称为行向量)的例子,但是本发明的一个方式不局限于此。文件比较数据DCdt也可以是在列方向上排列要素的向量(也称为列向量)。
如图13B及图13C所示,文件比较数据DCdt也可以为在行方向及列方向上排列要素的行列的形式。图13B示出文件比较数据DCdt为一种行列的例子,其中在第一行上排列第一平均向量TVA的各要素,在第二行上排列第二平均向量CVA的各要素,并且在第三行上排列第三平均向量RVA的各要素。对排列第一平均向量TVA、第二平均向量CVA及第三平均向量RVA的顺序没有特别的限制。文件比较数据DCdt也可以为一种行列,其中在第一行上排列第二平均向量CVA的各要素,在第二行上排列第一平均向量TVA的各要素,并且在第三行上排列第三平均向量RVA的各要素。
在维数X、维数Y及维数Z不同时,将文件比较数据DCdt设定为三行R列的行列。列数R为维数X、维数Y及维数Z的最大数以上的整数。换言之,将第一平均向量数据TVAdt、第二平均向量数据CVAdt及第三平均向量数据RVAdt分别扩大到R维,在所扩大的区域中设置零。加上,通过组合所扩大的第一平均向量数据TVAdt、第二平均向量数据CVAdt及第三平均向量数据RVAdt,可以生成三行R列的文件比较数据DCdt。
图13B示出文件比较数据DCdt为一种行列的例子,其中在第一列上排列第一平均向量TVA的各要素,在第二列上排列第二平均向量CVA的各要素,并且在第三列上排列第三平均向量RVA的各要素。对排列第一平均向量TVA、第二平均向量CVA及第三平均向量RVA的顺序没有特别的限制。文件比较数据DCdt也可以为一种行列,其中在第一列上排列第二平均向量CVA的各要素,在第二列上排列第一平均向量TVA的各要素,并且在第三列上排列第三平均向量RVA的各要素。
在维数X、维数Y及维数Z不同时,将文件比较数据DCdt设定为R行三列的行列。行数R为维数X、维数Y及维数Z的最大数以上的整数。换言之,将第一平均向量数据TVAdt、第二平均向量数据CVAdt及第三平均向量数据RVAdt分别扩大到R维,在所扩大的区域中设置零。加上,通过组合所扩大的第一平均向量数据TVAdt、第二平均向量数据CVAdt及第三平均向量数据RVAdt,可以生成R行三列的文件比较数据DCdt。
在此,说明没有单词数据TWdt与参考单词数据RWdt之间共同的单词的情况。
如图14A所示,在包含在单词数据TWdt中且包含在参考单词数据RWdt中的单词不存在的情况下,没有包含在第二分类数据CGdt中的单词。在没有包含在第二分类数据CGdt中的单词的情况下,如图14B所示,第二平均向量CVA的要素都为零,即第二平均向量CVA为Y维的[0,0,...,0]即可。
如图14B所示,文件比较数据DCdt可以为向量形式。或者,如图14C及图14D所示,也可以为行列形式。关于文件比较数据DCdt的生成可以参照根据图13A至图13C的说明,所以省略详细说明。
接着,说明没有只存在于单词数据TWdt及参考单词数据RWdt中的一个的单词的情况。
如图15A所示,在不包含在单词数据TWdt且包含在参考单词数据RWdt中的单词不存在的情况下,没有包含在第三分类数据RGdt中的单词。在没有包含在第三分类数据RGdt中的单词的情况下,如图15B所示,第三平均向量RVA的要素都为零,即,第三平均向量RVA为Z维向量[0,0,...,0]即可。
在包含在单词数据TWdt中且不包含在参考单词数据RWdt中的单词不存在的情况下,没有包含在第一分类数据TGdt中的单词。在此情况下,第一平均向量TVA的要素也同样都为零,即第一平均向量TVA为X维向量[0,0,...,0]即可。
如图15B所示,文件比较数据DCdt可以为向量形式。或者,如图15C及图15D所示,也可以为行列形式。关于文件比较数据DCdt的生成可以参照根据图13A至图13C的说明,所以省略详细说明。
在<文件分类方法的例子1-1>所示的文件分类方法中,在没有包含在第一分类数据TGdt中的单词,没有包含在第二分类数据CGdt中的单词或者没有包含在第三分类数据RGdt中的单词的情况下,图6所示的文件比较数据DCdt的相应要素为零即可。
[步骤S33]
接着,使用分类模型根据步骤S32中生成的文件比较数据DCdt决定参考文件数据RD的分类SE(图3的步骤S33)。关于步骤S33可以参照上述记载,所以省略详细说明。
在文件比较数据DCdt为图13A等所示的向量形式的情况下,输入层的单元个数为(X+Y+Z)。在文件比较数据DCdt为图13B等所示的行列形式的情况下,输入层的单元个数为(3×R)。
[步骤S41]
接着,将步骤S33中决定的分类SE输出到输出部140(图3的步骤S41)。关于步骤S41可以参照上述记载,所以省略详细说明。
<文件分类方法的例子2>
在此,说明比较一个文件数据TD与多个参考文件数据RD的例子。
图16示出比较一个文件数据TD与N个(N为2以上的整数)参考文件数据(第一参考文件数据RD1至第N参考文件数据RDN)的例子。如图16所示,通过比较文件数据TD与第一参考文件数据RD1决定分类SE1。同样地,通过比较文件数据TD与第二参考文件数据RD2决定分类SE2,并且通过比较文件数据TD与第N参考文件数据RDN决定分类SEN
图17示出比较一个文件数据TD与多个参考文件数据RD的方法的一个例子的流程。
[步骤S11、步骤S12]
首先,在步骤S11中,用户对输入部110输入文件数据TD。接着,在步骤S12中,处理部130从步骤S11中输入的文件数据TD抽出单词来生成单词数据TWdt。关于步骤S11及步骤S12可以参照根据<文件分类方法的例子1-1>的说明,所以省略详细说明。
注意,因为文件数据TD及根据文件数据TD生成的单词数据TWdt是在第一参考文件数据RD1至第N参考文件数据RDN之间共同的数据,所以进行一次的步骤S11及步骤S12即可,将步骤S12中生成的单词数据TWdt储存在处理部130或存储部120中。
[步骤S21]
接着,在步骤S21中,用户对输入部110输入第n(n为1以上且N以下的整数)参考文件数据RDn(图17的步骤S21)。图17示出在步骤S12之后输入第n参考文件数据RDn的例子,但是本发明的一个方式不局限于此,也可以在步骤S11中输入文件数据TD之后依次输入第一参考文件数据RD1至第N参考文件数据RDN。或者,也可以在步骤S11中依次输入第一参考文件数据RD1至第N参考文件数据RDN之后输入文件数据TD。
[步骤S22]
接着,在步骤S22中,处理部130从步骤S21中输入的第n参考文件数据RDn抽出单词,来生成第n参考单词数据RWdtn(图17的步骤S22)。关于步骤S22可以参照有关<文件分类方法的例子1-1>的说明,所以省略详细说明。
[步骤S31]
接着,根据步骤S12中生成的单词数据TWdt及步骤S22中生成的第n参考单词数据RWdtn生成第一分类数据TGdtn、第二分类数据CGdtn及第三分类数据RGdtn(图17的步骤S31)。关于步骤S31可以参照有关<文件分类方法的例子1-1>的说明,所以省略详细说明。
[步骤S32]
接着,根据步骤S31中生成的第一分类数据TGdtn、第二分类数据CGdtn及第三分类数据RGdtn生成第一向量数据TVdtn、第二向量数据CVdtn及第三向量数据RVdtn。接着,根据第一向量数据TVdtn、第二向量数据CVdtn及第三向量数据RVdtn生成第n文件比较数据DCdtn(图17的步骤S32)。关于步骤S32可以参照有关<文件分类方法的例子1-1>的说明,所以省略详细说明。
[步骤S33]
接着,使用分类模型根据步骤S32中生成的第n文件比较数据DCdtn决定第n参考文件数据RDn的分类SEn(图17的步骤S33)。关于步骤S33可以参照有关<文件分类方法的例子1-1>的说明,所以省略详细说明。
使用第一参考文件数据RD1至第N参考文件数据RDN反复进行步骤S21至步骤S33。
[步骤S41]
接着,将步骤S33中决定的第一分类SE1至第N分类SEN输出到输出部140(图17的步骤S41)。图18A示出输出的一个例子。如图18A所示,输出例如可以为文件名称、参考文件名称及分类的一览表。图18B示出作为分类进行分类CLS1及分类CLS2的2值分类的结果的例子。因为分类由文件数据TD与参考文件数据RD的组合决定,所以如图18B所示,即使是相同的文件数据TD,分类也有可能根据参考文件数据RD而不同。图18A及图18B示出按参考文件顺序排列的表,但是对排列顺序没有特别的限制。例如,如图18C所示,也可以按分类顺序排列。
将说明与上述不同的文件分类方法。
<文件分类方法的例子3>
在此,说明一种文件分类方法,其中预先储存参考文件数据作为数据库,并且用户在使用时输入文件数据。
首先,说明根据参考文件数据生成数据库的方法。图19示出数据库的生成方法的一个例子的流程。在此,以根据M个(M为1以上的整数)参考文件数据生成数据库的方法为例进行说明。
[步骤S221]
首先,用户对输入部110输入第一参考文件数据RD1至第M参考文件数据RDM(图19的步骤S221)。
[步骤S222]
接着,处理部130从步骤S221中输入的第m(m为1以上且M以下的整数)参考文件数据RDm抽出单词,来生成第m参考单词数据RWdtm(图19的步骤S222)。
使用第一参考文件数据RD1至第M参考文件数据RDM反复进行步骤S222,生成第一参考单词数据RWdt1至第M参考单词数据RWdtM
[步骤S223]
接着,将步骤S223中生成的第一参考单词数据RWdt1至第M参考单词数据RWdtM储存在存储部120中(图19的步骤S223)。储存第一参考单词数据RWdt1至第M参考单词数据RWdtM作为数据库。此外,也可以将第一参考文件数据RD1至第M参考文件数据RDM与第一参考单词数据RWdt1至第M参考单词数据RWdtM一起储存在数据库中。
接着,说明输入文件数据并与储存在数据库中的参考文件数据的参考单词数据进行比较来分类的方法。
图20示出分类方法的一个例子的流程。
[步骤S11、步骤S12]
首先,在步骤S11中,用户对输入部110输入文件数据TD(图20的步骤S11)。接着,在步骤S12中,处理部130从步骤S11中输入的文件数据TD抽出单词来生成单词数据TWdt(图20的步骤S12)。关于步骤S11及步骤S12可以参照<文件分类方法的例子2>的说明,所以省略详细说明。
[步骤S51]
接着,读出储存在数据库中的参考单词数据(图20的步骤S51)。用户也可以在数据库中指定进行比较的参考文件。在此,以比较文件数据TD与第一参考文件数据RD1至第M参考文件数据RDM的情况为例,从数据库读出第一参考单词数据RWdt1至第M参考单词数据RWdtM
[步骤S31至步骤S33]
接着,根据步骤S12中生成的单词数据TWdt及第m(m为1以上且M以下的整数)参考单词数据RWdtm生成第m文件比较数据DCdtm,使用分类模型决定第m分类SEm(图20的步骤S31至步骤S33)。关于步骤S31至步骤S33可以参照根据<文件分类方法的例子2>的说明,所以省略详细说明。
使用第一参考文件数据RD1至第M参考文件数据RDM反复进行步骤S31至步骤S33。
[步骤S41]
接着,将步骤S33中决定的第一分类SE1至第M分类SEM输出到输出部140(图20的步骤S41)。关于步骤S41可以参照根据<文件分类方法的例子2>的说明,所以省略详细说明。
<文件分类方法的例子4>
此外,也可以在储存在数据库中的参考单词数据中指定进行比较的文件及参考文件。在此情况下,在图20所示的流程中,用户在步骤S51中指定文件及参考文件,从数据库读出对应的参考单词数据即可,而不进行步骤S11及步骤S12。关于步骤S31以后可以参照<文件分类方法的例子3>,所以省略详细说明。
本实施方式可以与其他实施方式适当地组合。此外,在本说明书中,在一个实施方式中示出多个结构例子的情况下,可以适当地组合该结构例子。
(实施方式2)
在本实施方式中,参照图21及图22说明本发明的一个方式的文件分类系统。
<文件分类系统的结构例子2>
图21是文件分类系统210的方框图。文件分类系统210包括服务器220及终端230(个人计算机等)。注意,关于与图1所示的文件分类系统200相同的构成要素,还可以参照实施方式1的<文件分类系统的结构例子1>的说明。
服务器220包括通信部161a、传输通道162、存储部120及处理部130。虽然在图21中未图示,但是服务器220也可以还包括输入部、数据库、输出部和输入部中的至少一个。
终端230包括通信部161b、传输通道164、输入部115、存储部125、处理部135及显示部145。作为终端230,可以举出平板型个人计算机、笔记本型个人计算机及各种便携式信息终端。此外,终端230也可以是不包括显示部145的台式个人计算机,终端230也可以与被用作显示部145的显示器等连接。
文件分类系统210的用户将文件数据从终端230的输入部115输入到服务器220。该文件数据从通信部161b发送到通信部161a。
通信部161a所接收的文件数据通过传输通道162保存在处理部130所包括的存储器或存储部120中。此外,信息也可以从通信部161a通过输入部(参照图1所示的输入部110)供应到处理部130。
在处理部130中进行实施方式1所说明的各种处理。因为这些处理被要求高处理能力,所以优选在服务器220所包括的处理部130中进行。处理部130的处理能力优选比处理部135的处理能力高。
处理部130的处理结果通过传输通道162保存在处理部130所包括的存储器或存储部120中。然后,处理结果从服务器220输出到终端230的显示部145。处理结果从通信部161a发送到通信部161b。此外,数据库所包括的各种数据也可以基于处理部130的处理结果从通信部161a发送到通信部161b。此外,处理结果也可以通过输出部(图1所示的输出部140)从处理部130供应到通信部161a。
[通信部161a及通信部161b]
通过使用通信部161a及通信部161b可以在服务器220与终端230间进行数据的收发。作为通信部161a及通信部161b例如可以使用集线器(Hub)、路由器或调制解调器。数据的收发可以以有线或无线(例如,电波、红外线等)进行。
[传输通道162及传输通道164]
传输通道162及传输通道164具有传送数据的功能。通信部161a、存储部120及处理部130间的数据的收发可以通过传输通道162进行。通信部161b、输入部115、存储部125、处理部135及输出部140间的数据的收发可以通过传输通道164进行。
[输入部115]
在用户输入文件数据或参考文件数据时,可以使用输入部115。例如,输入部115可以具有操作终端230的功能,具体而言,可以举出鼠标、键盘、触摸面板等。
[存储部125]
存储部125也可以储存参考文件数据和从服务器220供应的数据中的一方或双方。此外,存储部125也可以包含存储部120可包含的数据的至少一部分。
[处理部130及处理部135]
处理部135具有使用从通信部161b、存储部125及输入部115等供应的数据进行运算等的功能。处理部135也可以具有执行能够由处理部130进行的处理中的至少一部分的功能。
处理部130及处理部135各自可以包括在沟道形成区域中包含金属氧化物的晶体管(OS晶体管)和在沟道形成区域中包含硅的晶体管(Si晶体管)中的一方或双方。
此外,在本说明书等中,将在沟道形成区域中使用氧化物半导体或金属氧化物的晶体管称为Oxide Semiconductor(氧化物半导体)晶体管或OS晶体管。OS晶体管的沟道形成区域优选包含金属氧化物。
在本说明书等中,金属氧化物(metaloxide)是指广义上的金属的氧化物。金属氧化物被分类为氧化物绝缘体、氧化物导电体(包括透明氧化物导电体)和氧化物半导体(Oxide Semiconductor,也可以简称为OS)等。例如,在将金属氧化物用于晶体管的半导体层的情况下,有时将该金属氧化物称为氧化物半导体。换言之,在金属氧化物具有放大作用、整流作用和开关作用中的至少一个的情况下,可以将该金属氧化物称为金属氧化物半导体(metal oxide semiconductor),或者可以将其缩称为OS。
沟道形成区域所具有的金属氧化物优选包含铟(In)。在沟道形成区域所具有的金属氧化物包含铟的情况下,OS晶体管的载流子迁移率(电子迁移率)得到提高。此外,沟道形成区域所具有的金属氧化物优选为包含元素M的氧化物半导体。元素M优选是铝(Al)、镓(Ga)和锡(Sn)中的至少一个。作为可用作元素M的其他元素,例如可以举出硼(B)、硅(Si)、钛(Ti)、铁(Fe)、镍(Ni)、锗(Ge)、钇(Y)、锆(Zr)、钼(Mo)、镧(La)、铈(Ce)、钕(Nd)、铪(Hf)、钽(Ta)及钨(W)。注意,作为元素M,有时也可以组合多个上述元素。元素M例如是与氧的键能高的元素。元素M例如是与氧的键能高于铟的元素。此外,沟道形成区域所具有的金属氧化物优选包含锌(Zn)。包含锌的金属氧化物有时容易晶化。
沟道形成区域所包含的金属氧化物不局限于包含铟的金属氧化物。半导体层例如也可以是锌锡氧化物或镓锡氧化物等不包含铟且包含锌、镓或锡的金属氧化物等。
处理部130优选包括OS晶体管。由于OS晶体管的关态电流极小,所以通过将OS晶体管用作保持流入被用作存储元件的电容器的电荷(数据)的开关,可以确保长期的数据保持期间。通过将该特性应用于处理部130所包括的寄存器及高速缓冲存储器中的至少一个,可以仅在必要时使处理部130工作,而在其他情况下使之前的处理信息储存在该存储元件,可以关闭处理部130。就是说,实现常闭运算(normally offcomputing),由此可以实现文件分类系统的低功耗化。
[显示部145]
显示部145具有显示输出结果的功能。作为显示部145,例如可以举出液晶显示装置、发光显示装置。作为可用于发光显示装置的发光元件,例如可以举出LED(LightEmitting Diode:发光二极管)、OLED(Organic LED:有机发光二极管)、QLED(Quantum-dotLED:量子点发光二极管)及半导体激光器。此外,例如,在显示部145中可以使用如下显示装置:采用快门方式或光干涉方式的MEMS(Micro Electro Mechanical Systems:微电子机械系统)元件的显示装置;采用微囊方式、电泳方式、电润湿方式或电子粉流体(注册商标)方式等的显示元件的显示装置。
图22是本实施方式的文件分类系统的示意图。
图22所示的文件分类系统包括服务器5100及终端(也称为电子设备)。服务器5100与各终端之间的通信可以通过互联网线5110进行。
服务器5100可以使用从终端经过互联网线5110输入的数据进行运算。服务器5100可以将运算结果经过互联网线5110发送到终端。因此,可以减少终端的运算负担。
图22作为终端示出信息终端5300、信息终端5400及信息终端5500。信息终端5300是智能手机等便携式信息终端的一个例子。信息终端5400是平板终端的一个例子。此外,也可以通过信息终端5400与包括键盘的框体5450连接来将信息终端5400用作笔记本型信息终端。信息终端5500是台式信息终端的一个例子。
通过构成这样的方式,用户可以从信息终端5300、信息终端5400及信息终端5500等访问服务器5100。并且,用户可以利用通过互联网线5110的通信接收服务器5100的管理者所提供的服务。作为该服务,例如可以举出利用本发明的一个方式的文件分类方法的服务。在该服务中,服务器5100也可以利用人工智能。
本实施方式可以与其他实施方式适当地组合。
[实施例]
在本实施例中,使用实施方式1所示的文件分类方法评价文件的分类的正确率。
文件的分类为“相关性高”及“相关性低”的二值分类。学习使用500组监督数据,监督数据的分类也为上述二值。在单词的向量化中,使用BagofWords,第一向量数据TVdt、第二向量数据CVdt及第三向量数据RVdt都为200维。作为文件比较数据DCdt,使用图13A所示的向量形式,其为600维。进行10次的测试,每次都有约100个测试数据。作为分类模型,使用全连接神经网络。神经网络的中间层(隐藏层)为五层,各层的单元数从输入层一侧分别为100、80、60、40及20。输出层的单元数为2。
图23示出各测试的正确率。在图23中,横轴表示测试(T1至T10),纵轴表示正确率。由图23可知,通过使用本发明的一个方式的文件分类方法,可以分类文件。
[符号说明]
HL:中间层、IL:输入层、NN:神经网络、OL:输出层、110:输入部、115:输入部、120:存储部、125:存储部、130:处理部、135:处理部、140:输出部、145:显示部、150:传输通道、161a:通信部、161b:通信部、162:传输通道、164:传输通道、200:文件分类系统、210:文件分类系统、220:服务器、230:终端、5100:服务器、5110:互联网线、5300:信息终端、5400:信息终端、5450:框体、5500:信息终端

Claims (8)

1.一种文件分类系统,包括:
输入部;
存储部;
处理部;以及
输出部,
其中,所述输入部具有接收文件数据及参考文件数据的功能,
所述存储部具有储存分类模型的功能,
所述处理部具有根据所述文件数据及所述参考文件数据生成第一分类数据、第二分类数据及第三分类数据的功能,
包含在所述文件数据中且不包含在所述参考文件数据中的单词属于所述第一分类数据,
包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第二分类数据,
不包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第三分类数据,
所述处理部具有根据所述第一分类数据、所述第二分类数据及所述第三分类数据生成文件比较数据的功能,
所述处理部具有使用所述分类模型根据所述文件比较数据决定所述参考文件数据的分类的功能,
并且,所述输出部具有输出所述分类的功能。
2.一种文件分类系统,包括:
输入部;
存储部;
处理部;以及
输出部,
其中,所述输入部具有接收文件数据的功能,
所述存储部具有储存参考文件数据及分类模型的功能,
所述处理部具有根据所述文件数据及所述参考文件数据生成第一分类数据、第二分类数据及第三分类数据的功能,
包含在所述文件数据中且不包含在所述参考文件数据中的单词属于所述第一分类数据,
包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第二分类数据,
不包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第三分类数据,
所述处理部具有根据所述第一分类数据、所述第二分类数据及所述第三分类数据生成文件比较数据的功能,
所述处理部具有使用所述分类模型根据所述文件比较数据决定所述参考文件数据的分类的功能,
并且,所述输出部具有输出所述分类的功能。
3.根据权利要求1或2所述的文件分类系统,
其中所述处理部具有根据属于所述第一分类数据的单词生成第一向量数据的功能,
所述处理部具有根据属于所述第二分类数据的单词生成第二向量数据的功能,
所述处理部具有根据属于所述第三分类数据的单词生成第三向量数据的功能,
并且所述处理部具有根据所述第一向量数据、所述第二向量数据及所述第三向量数据生成所述文件比较数据的功能。
4.根据权利要求1或2所述的文件分类系统,
其中所述处理部具有如下功能:根据属于所述第一分类数据的单词生成第一向量数据,对所述第一向量数据的要素进行平均,来生成第一平均向量数据,
所述处理部具有如下功能:根据属于所述第二分类数据的单词生成第二向量数据,对所述第二向量数据的要素进行平均,来生成第二平均向量数据,
所述处理部具有如下功能:根据属于所述第三分类数据的单词生成第三向量数据,对所述第三向量数据的要素进行平均,来生成第三平均向量数据,
并且所述处理部具有根据所述第一平均向量数据、所述第二平均向量数据及所述第三平均向量数据生成所述文件比较数据的功能。
5.根据权利要求1或2所述的文件分类系统,
其中所述分类模型包括神经网络,
并且所述处理部具有以第一文件数据、第二文件数据及分类为监督数据对所述分类模型进行学习的功能。
6.根据权利要求3所述的文件分类系统,
其中所述分类模型包括神经网络,
并且所述处理部具有以第一文件数据、第二文件数据及分类为监督数据对所述分类模型进行学习的功能。
7.根据权利要求4所述的文件分类系统,
其中所述分类模型包括神经网络,
并且所述处理部具有以第一文件数据、第二文件数据及分类为监督数据对所述分类模型进行学习的功能。
8.一种文件分类方法,包括:
接收文件数据及参考文件数据;
根据所述文件数据及所述参考文件数据生成第一分类数据、第二分类数据及第三分类数据;
包含在所述文件数据中且不包含在所述参考文件数据中的单词属于所述第一分类数据;
包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第二分类数据;
不包含在所述文件数据中且包含在所述参考文件数据中的单词属于所述第三分类数据;
根据所述第一分类数据、所述第二分类数据及所述第三分类数据生成文件比较数据;
使用分类模型根据所述文件比较数据决定所述参考文件数据的分类;以及
输出所述分类。
CN202280057358.0A 2021-08-26 2022-08-17 文件分类系统及文件分类方法 Pending CN117836763A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021138189 2021-08-26
JP2021-138189 2021-08-26
PCT/IB2022/057693 WO2023026140A1 (ja) 2021-08-26 2022-08-17 文書分類システム、及び文書分類方法

Publications (1)

Publication Number Publication Date
CN117836763A true CN117836763A (zh) 2024-04-05

Family

ID=85322340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280057358.0A Pending CN117836763A (zh) 2021-08-26 2022-08-17 文件分类系统及文件分类方法

Country Status (3)

Country Link
JP (1) JPWO2023026140A1 (zh)
CN (1) CN117836763A (zh)
WO (1) WO2023026140A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5427119B2 (ja) * 2010-06-14 2014-02-26 日本電信電話株式会社 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
JP5758349B2 (ja) * 2012-02-15 2015-08-05 日本電信電話株式会社 文書カテゴライズ装置とその方法とプログラム
JP6814091B2 (ja) * 2017-05-12 2021-01-13 株式会社日立製作所 文書分類システムおよび文書分類方法

Also Published As

Publication number Publication date
JPWO2023026140A1 (zh) 2023-03-02
WO2023026140A1 (ja) 2023-03-02

Similar Documents

Publication Publication Date Title
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN111753081B (zh) 基于深度skip-gram网络的文本分类的系统和方法
US11797822B2 (en) Neural network having input and hidden layers of equal units
US10635858B2 (en) Electronic message classification and delivery using a neural network architecture
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
Diao et al. Object recognition in remote sensing images using sparse deep belief networks
US11636308B2 (en) Differentiable set to increase the memory capacity of recurrent neural net works
Lee LSTM-CRF models for named entity recognition
JP2022019832A (ja) システム
CN110968692A (zh) 一种文本分类方法及系统
Gao et al. Multiclass boosting with hinge loss based on output coding
CN115034201A (zh) 使用弱监督多奖励强化学习扩充用于句子分类的文本数据
WO2021158409A1 (en) Interpreting convolutional sequence model by learning local and resolution-controllable prototypes
Faradonbe et al. A classifier task based on Neural Turing Machine and particle swarm algorithm
Wu et al. An empirical exploration of skip connections for sequential tagging
US20220083919A1 (en) Entity Extraction and Relationship Definition Using Machine Learning
WO2021113467A1 (en) Generating followup questions for interpretable recursive multi-hop question answering
CN117836763A (zh) 文件分类系统及文件分类方法
CN112052691A (zh) 机器翻译方法、机器翻译系统、程序以及非暂时性计算机可读存储介质
Zaman et al. Convolutional recurrent neural network for question answering
CN114724167A (zh) 一种营销文本识别方法及系统
US20220164381A1 (en) Image retrieval system and image retrieval method
Jain et al. Improved word vector space with ensemble deep learning model for language identification
US20240104291A1 (en) Method for supporting document preparation and system for supporting document preparation
US20240037394A1 (en) System and method for neural network multiple task adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination