CN112136126A - 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 - Google Patents
文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 Download PDFInfo
- Publication number
- CN112136126A CN112136126A CN201980033402.2A CN201980033402A CN112136126A CN 112136126 A CN112136126 A CN 112136126A CN 201980033402 A CN201980033402 A CN 201980033402A CN 112136126 A CN112136126 A CN 112136126A
- Authority
- CN
- China
- Prior art keywords
- data
- reference text
- analysis data
- text analysis
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 170
- 238000012545 processing Methods 0.000 claims abstract description 112
- 230000006870 function Effects 0.000 claims description 104
- 239000013598 vector Substances 0.000 claims description 66
- 238000004891 communication Methods 0.000 claims description 42
- 238000009826 distribution Methods 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 229910044991 metal oxide Inorganic materials 0.000 claims description 22
- 150000004706 metal oxides Chemical class 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 16
- 229910052710 silicon Inorganic materials 0.000 claims description 6
- 239000010703 silicon Substances 0.000 claims description 6
- 210000004027 cell Anatomy 0.000 description 94
- 230000005540 biological transmission Effects 0.000 description 33
- 239000004065 semiconductor Substances 0.000 description 33
- 210000002569 neuron Anatomy 0.000 description 27
- 239000003990 capacitor Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 9
- 238000010168 coupling process Methods 0.000 description 9
- 238000005859 coupling reaction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 6
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 5
- 230000004913 activation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 229910052738 indium Inorganic materials 0.000 description 5
- APFVFJFRJDLVQX-UHFFFAOYSA-N indium atom Chemical compound [In] APFVFJFRJDLVQX-UHFFFAOYSA-N 0.000 description 5
- 238000011835 investigation Methods 0.000 description 5
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- GYHNNYVSQQEPJS-UHFFFAOYSA-N Gallium Chemical compound [Ga] GYHNNYVSQQEPJS-UHFFFAOYSA-N 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 2
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 229910052733 gallium Inorganic materials 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 229910052718 tin Inorganic materials 0.000 description 2
- 239000010936 titanium Substances 0.000 description 2
- 229910052725 zinc Inorganic materials 0.000 description 2
- 239000011701 zinc Substances 0.000 description 2
- ZOXJGFHDIHLPTG-UHFFFAOYSA-N Boron Chemical compound [B] ZOXJGFHDIHLPTG-UHFFFAOYSA-N 0.000 description 1
- 229910052684 Cerium Inorganic materials 0.000 description 1
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 1
- ZOKXTWBITQBERF-UHFFFAOYSA-N Molybdenum Chemical compound [Mo] ZOKXTWBITQBERF-UHFFFAOYSA-N 0.000 description 1
- 229910052779 Neodymium Inorganic materials 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- GWXLDORMOJMVQZ-UHFFFAOYSA-N cerium Chemical compound [Ce] GWXLDORMOJMVQZ-UHFFFAOYSA-N 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- YZZNJYQZJKSEER-UHFFFAOYSA-N gallium tin Chemical compound [Ga].[Sn] YZZNJYQZJKSEER-UHFFFAOYSA-N 0.000 description 1
- 229910052732 germanium Inorganic materials 0.000 description 1
- GNPVGFCGXDBREM-UHFFFAOYSA-N germanium atom Chemical compound [Ge] GNPVGFCGXDBREM-UHFFFAOYSA-N 0.000 description 1
- 229910052735 hafnium Inorganic materials 0.000 description 1
- VBJZVLUMGGDVMO-UHFFFAOYSA-N hafnium atom Chemical compound [Hf] VBJZVLUMGGDVMO-UHFFFAOYSA-N 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 229910052746 lanthanum Inorganic materials 0.000 description 1
- FZLIPJUXYLNCLC-UHFFFAOYSA-N lanthanum atom Chemical compound [La] FZLIPJUXYLNCLC-UHFFFAOYSA-N 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052750 molybdenum Inorganic materials 0.000 description 1
- 239000011733 molybdenum Substances 0.000 description 1
- 229910021421 monocrystalline silicon Inorganic materials 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- QEFYFXOXNSNQGX-UHFFFAOYSA-N neodymium atom Chemical compound [Nd] QEFYFXOXNSNQGX-UHFFFAOYSA-N 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- KYKLWYKWCAYAJY-UHFFFAOYSA-N oxotin;zinc Chemical compound [Zn].[Sn]=O KYKLWYKWCAYAJY-UHFFFAOYSA-N 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- VSZWPYCFIRKVQL-UHFFFAOYSA-N selanylidenegallium;selenium Chemical compound [Se].[Se]=[Ga].[Se]=[Ga] VSZWPYCFIRKVQL-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229910052715 tantalum Inorganic materials 0.000 description 1
- GUVRBAGPIYLISA-UHFFFAOYSA-N tantalum atom Chemical compound [Ta] GUVRBAGPIYLISA-UHFFFAOYSA-N 0.000 description 1
- JBQYATWDVHIOAR-UHFFFAOYSA-N tellanylidenegermanium Chemical compound [Te]=[Ge] JBQYATWDVHIOAR-UHFFFAOYSA-N 0.000 description 1
- 229910001887 tin oxide Inorganic materials 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
- 239000010937 tungsten Substances 0.000 description 1
- 229910052727 yttrium Inorganic materials 0.000 description 1
- VWQVUPCCIRVNHF-UHFFFAOYSA-N yttrium atom Chemical compound [Y] VWQVUPCCIRVNHF-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Neurology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
通过简单的输入方法实现精度高的文件检索,尤其实现精度高的有关知识产权的文件检索。本发明是一种包括处理部的文件检索系统。处理部具有:提取包括在文本数据中的关键词的功能;从包括在多个第一参考文本分析数据的词中提取关键词的相关词的功能;对关键词及相关词的每一个赋予权重的功能;基于权重给多个第二参考文本分析数据的每一个打分数的功能;基于分数给多个第二参考文本分析数据排序来生成排序数据的功能;以及输出排序数据的功能。
Description
技术领域
本发明的一个方式涉及一种文件检索系统、文件检索方法、程序及非暂时性计算机可读存储介质。本发明的一个方式涉及一种有关知识产权的文件检索系统及文件检索方法。
注意,本发明的一个方式不局限于上述技术领域。作为本发明的一个方式的技术领域的一个例子,可以举出半导体装置、显示装置、发光装置、蓄电装置、存储装置、电子设备、照明装置、输入装置(例如,触摸传感器等)、输入输出装置(例如,触摸面板等)以及上述装置的驱动方法或制造方法。
背景技术
通过对申请之前的发明进行先行技术调查,可以调查是否存在相关的知识产权。通过进行先行技术调查得到的国内国外的专利文献及论文等可以用于发明的新颖性及创造性的确认以及是否申请专利的判断。此外,通过进行专利文献的无效资料调查,可以调查自己所有的专利权是否被无效化或者能够使其他人所有的专利权无效化。
例如,使用者将关键词输入至专利文献的检索系统,由此可以输出包含该关键词的专利文献。
为了使用这样的系统以高精度进行先行技术调查,使用者被要求高技能,诸如用适当的关键词进行检索且从系统所输出的大量的专利文献中提取需要的专利文献。
另外,在各种用途中,正在研究人工智能的应用。尤其是,被期待着通过利用人工神经网络等可以实现比现有的诺依曼型计算机性能更高的计算机,近年来,已开展对在电子电路上构建人工神经网络的各种研究工作。
例如,在专利文献1中,公开了如下发明:由使用在沟道形成区域中包含氧化物半导体的晶体管的存储装置保持利用人工神经网络的计算中需要的权重数据(weightdata)。
[先行技术文献]
[专利文献]
[专利文献1]美国专利申请公开第2016/0343452号公报
发明内容
发明所要解决的技术问题
于是,本发明的一个方式的目的之一是提供一种能够以高精度进行文件检索的文件检索系统。另外,本发明的一个方式的目的之一是提供一种能够以高精度进行文件检索的文件检索方法。另外,本发明的一个方式的目的之一是通过简单的输入方法实现精度高的文件检索,尤其实现精度高的有关知识产权的文件检索。
注意,这些目的的记载不妨碍其他目的的存在。本发明的一个方式并不需要实现所有上述目的。可以从说明书、附图、权利要求书的记载中抽取上述目的以外的目的。
解决技术问题的手段
本发明的一个方式是一种包括处理部的文件检索系统。处理部具有:提取包括在文本数据中的关键词的功能;从包括在多个第一参考文本分析数据的词中提取关键词的相关词的功能;对关键词及相关词的每一个赋予权重的功能;基于权重给多个第二参考文本分析数据的每一个打分数的功能;基于分数给多个第二参考文本分析数据排序来生成排序数据的功能;以及输出排序数据的功能。
本发明的一个方式是一种文件检索方法。该方法包括如下步骤:提取包括在文本数据中的关键词;从包括在多个第一参考文本分析数据的词中提取关键词的相关词;对关键词及相关词的每一个赋予权重;基于权重给多个第二参考文本分析数据的每一个打分数;基于分数给多个第二参考文本分析数据排序来生成排序数据;以及输出排序数据。
本发明的一个方式是一种程序,该程序使处理器执行如下步骤:提取包括在文本数据中的关键词的第一步骤;从包括在多个第一参考文本分析数据的词中提取关键词的相关词的第二步骤;对关键词及相关词的每一个赋予权重的第三步骤;基于与包含在第二参考文本分析数据中的词匹配的关键词或相关词的权重给多个第二参考文本分析数据的每一个打分数的第四步骤;以及基于分数给多个第二参考文本分析数据排序来生成排序数据的第五步骤。本发明的一个方式是一种储存有上述程序的非暂时性计算机可读存储介质。
关键词的权重优选为关键词的基于多个第一参考文本分析数据或多个第二参考文本分析数据中的逆文档频率的值。相关词的权重优选为基于相关词的分布表示向量和关键词的分布表示向量的相似度或距离的值与关键词的权重之乘积。
优选给包含与关键词或相关词匹配的词的第二参考文本分析数据打分数。
多个第一参考文本分析数据也可以与多个第二参考文本分析数据相同。
相关词优选利用通过包括在多个第一参考文本分析数据中的词的分布表示的机械学习得到的分布表示向量而提取。
相关词优选基于词的分布表示向量和关键词的分布表示向量的相似度或距离的接近而从包括在多个第一参考文本分析数据的词中提取。词的分布表示向量优选为使用神经网络而生成的向量。
作为提取包括在文本数据中的关键词的功能,优选具有进行文本数据的形态分析来生成分析数据的功能以及从分析数据提取关键词的功能。关键词优选基于多个第一参考文本分析数据或多个第二参考文本分析数据中的逆文档频率的程度而从包括在分析数据的词中提取。
优选的是,能够由使用者修改权重。
优选的是,第一参考文本分析数据为进行第一参考文本数据的形态分析来生成的数据,第二参考文本分析数据为进行第二参考文本数据的形态分析来生成的数据。
本发明的一个方式的文件检索系统优选包括电子设备及服务器。电子设备包括第一通信部。服务器包括上述处理部及第二通信部。第一通信部具有通过有线通信和无线通信中的一方或双方向服务器提供文本数据的功能。处理部具有向第二通信部提供排序数据的功能。第二通信部具有通过有线通信和无线通信中的一方或双方向电子设备提供排序数据的功能。
处理部既可以包括沟道形成区域中含有金属氧化物的晶体管,又可以包括沟道形成区域中含有硅的晶体管。
发明效果
根据本发明的一个方式可以提供一种能够以高精度进行文件检索的文件检索系统。另外,根据本发明的一个方式可以提供一种能够以高精度进行文件检索的文件检索方法。另外,根据本发明的一个方式可以通过简单的输入方法实现精度高的检索系统,尤其实现精度高的有关知识产权的文件检索。
注意,这些效果的记载不妨碍其他效果的存在。本发明的一个方式并不一定必须具有所有上述效果。可以从说明书、附图、权利要求书的描述中抽取上述效果外的效果。
附图说明
[图1]示出文件检索系统的例子的方框图。
[图2]示出检索用数据的生成方法的例子的流程图。
[图3](A)至(C)示出检索用数据的生成方法的例子的图。
[图4]示出文件检索方法的例子的流程图。
[图5]示出文件检索方法的例子的流程图。
[图6](A)至(C)示出文件检索方法的例子的图。
[图7](A)及(B)示出文件检索方法的例子的图。
[图8]示出文件检索方法的例子的流程图。
[图9]示出文件检索方法的例子的流程图。
[图10](A)及(B)示出文件检索方法的例子的图。
[图11]示出文件检索系统的例子的方框图。
[图12](A)及(B)示出神经网络的结构例子的图。
[图13]示出半导体装置的结构例子的图。
[图14]示出存储单元的结构例子的图。
[图15]示出偏置电路的结构例子的图。
[图16]时序图。
具体实施方式
参照附图对实施方式进行详细说明。注意,本发明不局限于以下说明,所属技术领域的普通技术人员可以很容易地理解一个事实就是其方式及详细内容在不脱离本发明的宗旨及其范围的情况下可以被变换为各种各样的形式。因此,本发明不应该被解释为仅局限在以下所示的实施方式所记载的内容中。
注意,在以下说明的发明的结构中,在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同的功能的部分,而有时省略其重复说明。此外,当表示具有相同的功能的部分时有时使用相同的阴影线,而不特别附加附图标记。
另外,为了便于理解,有时附图中示出的各构成的位置、大小及范围等并不表示其实际的位置、大小及范围等。因此,所公开的发明不一定局限于附图所公开的位置、大小、范围等。
注意,根据情况或状况,可以互相替换用语“膜”和“层”。例如,有时可以将“导电层”变换为“导电膜”。此外,有时可以将“绝缘膜”变换为“绝缘层”。
(实施方式1)
在本实施方式中,使用图1至图11说明本发明的一个方式的文件检索系统及文件检索方法。
本发明的一个方式是一种包括处理部的文件检索系统。该处理部具有:提取包括在文本数据中的关键词的功能;从包括在多个第一参考文本分析数据的词中提取关键词的相关词的功能;给关键词及相关词的每一个赋予权重的功能;基于权重给多个第二参考文本分析数据的每一个打分数的功能;基于分数给多个第二参考文本分析数据排序来生成排序数据的功能;以及输出排序数据的功能。
在本发明的一个方式的文件检索系统中,可以使用第一参考文本分析数据提取关键词的相关词,以第二参考文本分析数据为检索对象进行与文本数据相关或相似的数据的检索。
第一参考文本分析数据也可以与第二参考文本分析数据相同。此时,在本发明的一个方式的文件检索系统中,可以使用为检索对象的参考文本分析数据提取关键词的相关词。另外,第一参考文本分析数据也可以包含第二参考文本分析数据的一部分或全部。
就是说,本发明的一个方式的文件检索系统所包括的处理部也可以具有:提取包括在文本数据中的关键词的功能;从包括在多个参考文本分析数据的词中提取关键词的相关词的功能;对关键词及相关词的每一个赋予权重的功能;基于权重给多个参考文本分析数据的每一个打分数的功能;基于分数给多个参考文本分析数据排序来生成排序数据的功能;以及输出排序数据的功能。
当使用者选定在文件检索系统中用于检索的关键词时,使用者需要不但仅考虑关键词而且考虑该关键词的同义词、近义词及记载不一致等而选定用于检索的关键词。因此,关键词选定对使用者来说是一个负担较重的工作,并且易于产生基于技能不同的差异。另外,对使用者来说,从由文件检索系统输出的大量的文件中找到必要的文件这工作的负担也比较重。
在此,本发明的一个方式的文件检索系统具有提取包括在文本数据中的关键词以及该关键词的相关词的功能。因此,本发明的一个方式的文件检索系统的使用者不需要亲自选定用于检索的关键词。使用者可以将其分量比关键词多的文本数据直接输入至文件检索系统。另外,在使用者想要亲自选定关键词及相关词的情况下,不需要从头进行选定,参照文件检索系统所提取的关键词及相关词而进行关键词及相关词的追加、修改及删除等即可。由此,可以减轻文件检索中的使用者的负担,并且可以使基于使用者的技能的不同的检索结果的差异不易产生。
尤其是,本发明的一个方式的文件检索系统具有从包括在多个参考文本分析数据的词中提取关键词的相关词的功能。当从包括在现有的概念词典的词中提取关键词的相关词时,有时难以提取包括在为检索对象的数据中的独特的记载作为相关词。另一方面,在本发明的一个方式中,从包括在为提取关键词的相关词而准备的数据(第一参考文本分析数据)或者为检索对象的数据(第二参考文本分析数据)的词中提取关键词的相关词。由此,容易提取该独特的记载作为相关词,可以减少检索遗漏,所以是优选的。
并且,本发明的一个方式的文件检索系统具有对所提取的关键词及相关词的每一个赋予权重的功能。因为关键词及相关词的每一个具有权重,所以可以给其中找到关键词或相关词的参考文本分析数据赋予基于权重的分数。并且,本发明的一个方式的文件检索系统具有如下功能:通过基于该分数给为检索对象的参考文本分析数据排序来生成并输出排序数据。按照相关性或相似性进行排序且输出检索结果,因此使用者从检索结果容易找到必要的文件,工作效率提升,并且不易导致疏忽。如此,本发明的一个方式的文件检索系统可以简单地且高精度地进行文件检索。
关键词的权重优选为关键词的基于多个第一或第二参考文本分析数据中的逆文档频率(Inverse Document Frequency,以下记载为IDF)的值。IDF表示某个词在文件中出现的频率很少。出现在很多文件中的词的IDF小,只出现在一部分文件中的词的IDF高。因此,可以说,IDF高的词是在第一或第二参考文本分析数据中独特的词。
从文本数据的关键词提取本身也可以包括在文本数据中的词的基于多个第一或第二参考文本分析数据中的IDF进行。例如,既可以提取IDF为某个值以上的词作为关键词,又可以以按IDF高的顺序提取任意个数的词作为关键词。
关键词可以基于第一参考文本分析数据中的IDF提取,也可以基于第二参考文本分析数据中的IDF提取。优选基于为检索对象的第二参考文本分析数据中的IDF从文本数据提取关键词,这是因为此时容易提取检索对象的文件中独特的词。但是,在为检索对象的文件数少等的情况下,通过基于第一参考文本分析数据中的IDF从文本数据提取关键词,有时更容易提取文本数据中的关键词。
或者,也可以基于通过使用者输入的文本数据的形态分析而得的词的词类信息等提取关键词。例如,在进行日语文本的形态分析的情况下,优选提取名词。另外,在进行英语文本的形态分析的情况下,优选提取形容词、名词及动词。
作为相关词可以举出同义词、近义词、反义词、上位词、下位词等。相关词优选基于该词的分布表示向量和关键词的分布表示向量的相似度或距离的接近而从包括在多个参考文本分析数据的词中提取。关于包括在使用者所输入的文本数据中的关键词,可以提取包括在参考文本分析数据中的同义词、近义词等作为相关词。由此可以提高检索精度。
相关词的权重优选为基于相关词的分布表示向量和关键词的分布表示向量的相似度或距离的值与关键词的权重之乘积。通过基于相关词和关键词的相关度和关键词本身的权重的双方设定相关词的权重,可以进一步提高排序精度。
文件检索系统优选至少在其一部分的处理中利用人工智能(AI:ArtificialIntelligence)。
文件检索系统尤其优选使用人工神经网络(ANN:Artificial Neural Network,以下有时简称为神经网络)。神经网络可以由电路(硬件)或程序(软件)实现。
例如,当生成词的分布表示向量时,优选使用机械学习,更优选使用神经网络。具体而言,相关词优选利用通过包括在多个参考文本分析数据中的词的分布表示的机械学习而得到的分布表示向量而提取。由此,可以提高相关词的提取及相关词的权重的精度。
在本说明书等中,神经网络是指模拟生物的神经回路网,通过学习决定神经元之间的结合强度,由此获得问题解决能力的所有模型。神经网络包括输入层、中间层(隐藏层)及输出层。
在本说明书等中,在说明神经网络时,有时将根据已经有的信息决定神经元之间的结合强度(也称为权重系数)称为“学习”。
在本说明书等中,有时将使用通过学习得到的结合强度构成神经网络,从该结构导出新的结论称为“推论”。
<1.文件检索系统的结构例子1>
在本实施方式中,作为文件检索系统的一个例子,说明可用于知识产权的检索的文件检索系统。注意,本发明的一个方式的文件检索系统的用途不局限于知识产权的检索,也可以用于知识产权以外的检索。
图1是示出文件检索系统100的方框图。本说明书的附图中,方框图示出在独立的方框中根据功能进行分类的构成要素,但是,实际的构成要素难以根据功能被清楚地划分,一个构成要素有时具有多个功能。此外,一个功能有时涉及到多个构成要素,例如,在处理部103中进行的两个处理有时在不同的服务器中进行。
文件检索系统100至少包括处理部103。图1所示的文件检索系统100还包括输入部101、传送通道102、存储部105、数据库107及输出部109。
[输入部101]
对输入部101从文件检索系统100的外部供应数据。供应到输入部101的数据通过传送通道102供应给处理部103、存储部105或数据库107。
[传送通道102]
传送通道102具有传送数据的功能。输入部101、处理部103、存储部105、数据库107及输出部109间的数据的发送及接收可以通过传送通道102进行。
[处理部103]
处理部103具有使用从输入部101、存储部105、数据库107等供应的数据进行运算、推论等的功能。处理部103可以将运算结果、推论结果等供应给存储部105、数据库107、输出部109等。
在处理部103中优选使用在沟道形成区域中包含金属氧化物的晶体管。由于该晶体管的关态电流极小,所以通过将该晶体管用作保持流入被用作存储元件的电容器的电荷(数据)的开关,可以确保长期的数据保持期间。通过将该特性应用于处理部103所包括的寄存器及高速缓冲存储器中的至少一个,可以仅在必要时使处理部103工作,而在其他情况下使之前的处理信息储存在该存储元件,可以关闭处理部103。就是说,实现常闭运算(normally off computing),由此可以实现文件检索系统的低功耗化。
另外,在本说明书等中,将在沟道形成区域中使用氧化物半导体或金属氧化物的晶体管称为Oxide Semiconductor(氧化物半导体)晶体管或OS晶体管。OS晶体管的沟道形成区域优选包含金属氧化物。
在本说明书等中,金属氧化物(metal oxide)是指广义上的金属的氧化物。金属氧化物被分类为氧化物绝缘体、氧化物导电体(包括透明氧化物导电体)和氧化物半导体(Oxide Semiconductor,也可以简称为OS)等。例如,在将金属氧化物用于晶体管的半导体层的情况下,有时将该金属氧化物称为氧化物半导体。换言之,在金属氧化物具有放大作用、整流作用和开关作用中的至少一个的情况下,可以将该金属氧化物称为金属氧化物半导体(metal oxide semiconductor),或者可以将其缩称为OS。
沟道形成区域所具有的金属氧化物优选包含铟(In)。在沟道形成区域所具有的金属氧化物包含铟的情况下,OS晶体管的载流子迁移率(电子迁移率)得到提高。另外,沟道形成区域所具有的金属氧化物优选为包含元素M的氧化物半导体。元素M优选是铝(Al)、镓(Ga)或锡(Sn)等。作为可用作元素M的其他元素,有硼(B)、硅(Si)、钛(Ti)、铁(Fe)、镍(Ni)、锗(Ge)、钇(Y)、锆(Zr)、钼(Mo)、镧(La)、铈(Ce)、钕(Nd)、铪(Hf)、钽(Ta)、钨(W)等。注意,作为元素M,有时也可以组合多个上述元素。元素M例如是与氧的键能高的元素。元素M例如是与氧的键能高于铟的元素。此外,沟道形成区域所具有的金属氧化物优选包含锌(Zn)。包含锌的金属氧化物有时容易晶化。
沟道形成区域所包含的金属氧化物不局限于包含铟的金属氧化物。半导体层例如也可以是锌锡氧化物或镓锡氧化物等不包含铟且包含锌、镓或锡的金属氧化物等。
另外,也可以将沟道形成区域中含有硅的晶体管用于处理部103。
另外,优选组合沟道形成区域中含有氧化物半导体的晶体管和沟道形成区域中含有硅的晶体管,将其用于处理部103。
处理部103例如包括运算电路或中央处理器(CPU:Central Processing Unit)等。
处理部103也可以包括DSP(Digital Signal Processor:数字信号处理器)、GPU(Graphics Processing Unit:图形处理器)等微处理器。微处理器也可以由FPGA(FieldProgrammable Gate Array:现场可编程门阵列)、FPAA(Field Programmable AnalogArray:现场可编程模拟阵列)等PLD(Programmable Logic Device:可编程逻辑器件)实现。处理部103通过由处理器解释且执行来自各种程序的指令,可以进行各种数据处理及程序控制。可由处理器执行的程序储存在处理器所包括的存储器区域及存储部105中的至少一个。
处理部103也可以包括主存储器。主存储器包括RAM(Random Access Memory:随机存取存储器)等易失性存储器及ROM(Read Only Memory:只读存储器)等非易失性存储器中的至少一个。
作为RAM,例如使用DRAM(Dynamic Random Access Memory:动态随机存取存储器)、SRAM(Static Random Access Memory:静态随机存取存储器)等,该RAM分配有虚拟存储空间作为处理部103的工作空间,并用于处理部103。储存在存储部105中的操作系统、应用程序、程序模块、程序数据及查找表等在执行时被加载于RAM中。处理部103直接存取并操作被加载于RAM中的这些数据、程序及程序模块。
ROM可以储存不需要改写的BIOS(Basic Input/Output System:基本输入/输出系统)及固件等。作为ROM,可以举出遮罩式ROM、OTPROM(One Time Programmable Read OnlyMemory:一次可编程只读存储器)、EPROM(Erasable Programmable Read Only Memory:可擦除可编程只读存储器)等。作为EPROM,可以举出通过紫外线照射可以消除存储数据的UV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory:紫外线-可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory:电子式可抹除可编程只读存储器)、快闪存储器等。
[存储部105]
存储部105具有储存处理部103执行的程序的功能。此外,存储部105也可以具有储存处理部103所生成的运算结果及推论结果、以及输入到输入部101的数据等的功能。
存储部105包括易失性存储器及非易失性存储器中的至少一个。存储部105例如也可以包括DRAM、SRAM等易失性存储器。存储部105例如也可以包括以ReRAM(ResistiveRandom Access Memory:电阻随机存取存储器,也称为阻变式存储器)、PRAM(Phase changeRandom Access Memory:相变存储器)、FeRAM(Ferroelectric Random Access Memory:铁电随机存取存储器)、MRAM(Magnetoresistive Random Access Memory:磁阻随机存取存储器,也称为磁阻式存储器)或快闪存储器等非易失性存储器。另外,存储部105也可以包括硬盘驱动器(Hard Disc Drive:HDD)及固态驱动器(Solid State Drive:SSD)等记录媒体驱动器。
[数据库107]
数据库107具有至少储存为检索对象的参考文本分析数据、IDF数据及向量数据的功能。此外,数据库107也可以具有储存处理部103所生成的运算结果及推论结果、以及输入到输入部101的数据等的功能。存储部105及数据库107也可以不被分离。例如,文件检索系统也可以包括具有存储部105及数据库107的双方的功能的存储单元。
[输出部109]
输出部109具有将数据供应给文件检索系统100的外部的功能。例如,可以将处理部103中的运算结果及推论结果等供应给外部。
<2.文件检索方法>
首先,使用图2及图3说明为了利用文件检索系统100进行检索而预先进行的处理。图2示出流程图,图3示出图2所示的各步骤的示意图。注意,图3所示的各数据的图示只是一个例子而已,不局限于此。
另外,以下,以用来提取关键词的相关词的参考文本数据与为检索对象的参考文本数据同一(记载为参考文本数据TDref)的情况为例进行说明。如上所述,这两个参考文本用数据也可以是不同数据。例如,也可以使用第一参考文本数据生成向量数据VD(后述的)且以第二参考文本数据为检索对象。此时,后述的IDF数据ID既可以使用第一参考文本数据生成又可以使用第二参考文本数据生成。
[步骤S1]
首先,将多个参考文本数据TDref输入至输入部101(图2及图3A)。
在本实施方式的文件检索方法中,可以以预先准备的多个文件为检索对象进行与被输入的文件相关或相似的文件的检索。参考文本数据TDref是文件检索系统100中的检索对象的文件的文本数据。可以根据文件检索系统100的用途适当地选择被用作参考文本数据TDref的数据。
参考文本数据TDref从文件检索系统100的外部输入到输入部101。然后,参考文本数据TDref从输入部101通过传送通道102供应给处理部103。或者,参考文本数据TDref也可以从输入部101通过传送通道102储存在存储部105或数据库107中,并从存储部105或数据库107通过传送通道102供应给处理部103。
在图3A中示出n个(n是2以上的整数)的参考文本数据TDref,将其分别记载为数据TDref(x)(x是1以上且n以下的整数)。
在本实施方式中,示出检索对象为有关知识产权的文件的例子。参考文本数据TDref是有关知识产权的文件的文本数据。
注意,如上所述,步骤S1中输入的参考文本数据有时与为检索对象的数据不同。步骤S1中输入的参考文本数据优选为有关知识产权的文件的文本数据,但是不局限于此。另外,步骤S1中输入的参考文本数据的一部分有时是为检索对象的数据。例如,也可以步骤S1中输入的参考文本数据为专利文献及论文的文本数据而检索对象只是专利文献的文本数据。
在此,作为有关知识产权的文件,具体而言,可以举出专利文献(公开专利公报、专利公报等)、实用新型公报、外观设计公报及论文等出版物。不仅限于国内发行的出版物,也可以使用世界各国发行的出版物作为有关知识产权的文件。
可以将包括在专利文献中的说明书、权利要求书以及说明书摘要各自的一部分或全部用作参考文本数据TDref。例如,也可以将指定发明的实施方式、实施例或权利要求用作参考文本数据TDref。同样地,也可以将论文等其他出版物中的文本的一部分或全部用作参考文本数据TDref。
有关知识产权的文件不局限于出版物。例如,也可以将文件检索系统的使用者或用户集团独自拥有的文本文件用作参考文本数据TDref。
并且,作为有关知识产权的文件可以举出说明发明、方案、外观设计或工业品的文本等。
参考文本数据TDref例如可以包括特定申请人的专利文献或者特定技术领域的专利文献。
参考文本数据TDref除了知识产权本身的说明(例如,说明书等)以外还可以包括与该知识产权有关的各种信息(例如,文献信息等)。作为该信息例如可以举出专利申请人、技术领域、申请号、公开号、状态(申请中、授权、被放弃等)等。
参考文本数据TDref优选包括有关知识产权的日期信息。在知识产权为专利文献的情况下,作为日期信息例如可以举出申请日、公开日及授权公告日等,在知识产权为工业品的技术信息的情况下,作为日期信息可以举出发售日等。
如此,在参考文本数据TDref包括有关知识产权的各种信息的情况下,可以利用文件检索系统选择各种检索范围。
例如,可以使用本实施方式的文件检索系统进行与申请之前的发明相关或相似的专利文献、论文或工业品的检索。由此,可以进行有关申请前的发明的先行技术调查。通过掌握相关的先行技术重新考虑,可以增强发明并将其成为其他公司无法规避的强大专利。
另外,例如,可以使用本实施方式的文件检索系统进行与销售前的工业品相关或相似的专利文献、论文或工业品的检索。当参考文本数据TDref包括某个公司自己的专利文献时,可以确认与该公司的销售前的工业品有关的技术的专利申请是否足够。或者,当参考文本数据TDref包括其他公司的知识产权的信息时,可以确认销售前的工业品是否侵犯其他公司的知识产权。通过掌握相关的先行技术,重新考虑与销售前的工业品有关的技术,可以发现新颖的发明,该发明可以为对自己公司的事业做出贡献的强大专利。注意,不局限于销售前的工业品,也可以进行销售后的工业品的检索。
例如,通过使用本实施方式的文件检索系统,可以进行与特定专利相关或相似的专利文献、论文或工业品的检索。尤其是,通过以该专利的申请日为基准进行调查,可以简单地且高精度地调查该专利是否具有专利无效理由。
[步骤S2]
接着,进行多个参考文本数据TDref的每一个的形态分析来生成多个参考文本分析数据ADref(图2及图3A)。
处理部103进行n个参考文本数据TDref的每一个的形态分析来生成n个参考文本分析数据ADref(分别记载为参考文本分析数据ADref(x)(x为1以上且n以下的整数))。例如,通过进行参考文本数据TDref(n)的形态分析生成参考文本分析数据ADref(n)。
在形态分析中,将用自然语言写的文本分割成词素(作为语言有意思的最小单位),可以识别词素的词类等。由此,例如可以从参考文本数据TDref仅提取名词。
在图3A中,输入的参考文本数据TDref(1)包括长句,在输出的参考文本分析数据ADref(1)中,该句子被分成多个词。
在图3A中示出将生成的参考文本分析数据ADref输出至处理部103的外部的例子。例如,处理部103可以将多个参考文本分析数据ADref提供至数据库107。注意,处理部103也可以生成将多个参考文本分析数据ADref收集成一个数据的语料库并将其输出。
注意,除了日语文本以外,还可以进行各种语言(例如,英语、汉语、韩语等)的文本分析。作为文本分析方法,可以根据语言适用各种方法。
[步骤S3]
步骤S2后,计算出包括在多个参考文本分析数据ADref中的词的IDF,生成IDF数据ID(图2及图3B)。在此,优选使IDF归一化。
参考文本分析数据ADref从数据库107通过传送通道102提供至处理部103。
处理部103计算出包括在n个参考文本分析数据ADref中的词的IDF并使该IDF归一化,由此生成IDF数据ID。
如图3B所示,IDF数据ID包括词(Word)和归一化IDF。
通过使算式(1)的idf(t)归一化求出某个词t的IDF(t)。对归一化的方法没有特别的限制,例如,可以利用算式(2)使idf(t)归一化。在算式(1)中,N表示所有文件的数量(参考文本分析数据ADref之数,等于上述n),df(t)表示出现某个词t的文件的数量(参考文本分析数据ADref之数)。在算式(2)中,idfMAX表示包括在参考文本分析数据ADref中的词的idf(t)的最大值,idfMIN表示包括在参考文本分析数据ADref中的词的idf(t)的最小值。
[算式1]
例如,Word A的归一化IDF为0.868,Word B的归一化IDF为0.115,Word C的归一化IDF为0.642,因此可以说Word A是其IDF比Word B及Word C高的很少出现在参考文本分析数据ADref中的特有词。注意,在图3B中,例示出按名称排序的例子,但是不局限于此,也可以按IDF的顺序等对词进行排序。
在图3B中,示出将生成的IDF数据ID输出到处理部103的外部的例子。例如,处理部103可以通过传送通道102将IDF数据ID提供至数据库107。
[步骤S4]
步骤S2后,生成包括在多个参考文本分析数据ADref中的词的分布表示向量,生成向量数据VD(图2及图3C)。
注意,可以先进行步骤S3或步骤S4,也可以同时进行步骤S3及步骤S4。
处理部103生成包括在n个参考文本分析数据ADref中的词的分布表示向量,生成向量数据VD。
词的分布表示还被称为词嵌入,词的分布表示向量是如下向量:使用相对于各特征要素(维)进行定量化而得的连续值表现词。意义近似的词彼此的向量是接近的。
如图3C所示,处理部103优选使用神经网络NN生成词的分布表示向量。
在此,说明使用神经网络NN生成词的分布表示向量的方法的一个例子。神经网络NN的学习采用监督学习进行。具体而言,将某个词提供至输入层,将该词的周边词提供至输出层,神经网络NN学习相对于某个词的其周边词的概率。中间层(隐藏层)优选具有10维以上且1000维以下的较低维向量。学习后的该向量是词的分布表示向量。
词的分布表示例如可以使用为开放代码的算法Word2vec进行。在Word2vec中,在相同上下文中利用的词的含义相同的假设下,使词(包括词的特征及意义结构)向量化。
在词的向量化中,通过生成词的分布表示向量,可以利用向量间的运算计算出词间的相似度或距离等。在两个向量的相似度较高时,可以说该两个向量的相关性高。另外,在两个向量的距离较近时,可以说该两个向量的相关性高。
另外,在one-hot表示中,将一维分配给一个词,另一方面,在分布表示中,可以以低维的实值向量表示词,因此即使词汇量增加也可以以较少的维数进行表示。因此,即使包括在语料库中的词量较多,计算量也不容易增加且可以短时间内处理庞大的数据。
如图3C所示,向量数据VD包含词(Word)和向量(Vector)。例如,Word A的Vector是(0.12,0.90,0.32,…),Word B的Vector是(0.88,0.10,0.29,…),Word C的Vector是(0.23,0.56,0.47,…)。
在图3C中示出将生成的向量数据VD输出到处理部103的外部的例子。例如,处理部103可以将向量数据VD提供至数据库107。
通过预先进行以上的步骤来生成参考文本分析数据ADref、IDF数据ID及向量数据VD,可以利用文件检索系统100进行文件检索。
注意,在本实施方式中,示出利用文件检索系统100生成参考文本分析数据ADref、IDF数据ID及向量数据VD的例子,但是,也可以在文件检索系统100的外部生成参考文本分析数据ADref、IDF数据ID和向量数据VD中的至少一个。此时,将在外部生成的数据输入至文件检索系统100的输入部101,将其保存在数据库107中,由此可以实现利用文件检索系统100的检索。
接着,说明利用文件检索系统100的检索方法。图4、图5、图8及图9示出流程图,图6、图7A及图10示出流程图中的各步骤的示意图。注意,图6、图7A及图10所示的各数据的图示只是一个例子而已,不局限于此。
[步骤S11]
首先,将文本数据TD输入至输入部101(图4、图5及图6A)。
在本实施方式的文件检索方法中,可以在参考文本数据TDref中进行与文本数据TD相关或相似的文本数据的检索。
文本数据TD从文件检索系统100的外部输入到输入部101。然后,文本数据TD从输入部101通过传送通道102供应给处理部103。或者,文本数据TD也可以通过传送通道102储存在存储部105或数据库107中,并从存储部105或数据库107通过传送通道102供应给处理部103。
在本实施方式中,示出检索对象为有关知识产权的文件的例子。文本数据TD是有关知识产权的文件的文本数据。有关知识产权的文件的例子是如上所述的。
文本数据TD例如可以包括说明申请前的发明、方案、外观设计、销售前的工业品、技术信息或技术思想的文本等。
尤其是,作为文本数据TD可以适当地使用权利要求书、说明书摘要或说明发明内容的文本等。这样的文本量较少(文本量比说明书全文少)的文本数据TD是优选的,这是因为容易提取包括在文本数据TD中的特征性关键词。因为本实施方式的文件检索系统可以提取特征性关键词的相关词,所以即使文本数据TD的词汇量少也可以进行精度高的检索。
[步骤S12]
接着,进行文本数据TD的形态分析来生成文本分析数据AD(图4、图5及图6A)。
处理部103进行文本数据TD的形态分析来生成文本分析数据AD。
在图6A中,输入的文本数据TD包括长句,在输出的文本分析数据AD中,该句子被分成多个词。
在图6A中示出将生成的文本分析数据AD输出至处理部103的外部的例子。例如,处理部103可以将文本分析数据AD提供至存储部105或数据库107。
[步骤S13、S33]
接着,通过核对文本分析数据AD和IDF数据ID,生成关键词数据KD(图4、图5及图6B)。
文本分析数据AD从存储部105或数据库107通过传送通道102提供至处理部103。IDF数据ID从数据库107通过传送通道102提供至处理部103。
处理部103核对文本分析数据AD和IDF数据ID,按IDF高的顺序给包括在文本分析数据AD中的词排序,来生成关键词数据KD。
关键词数据KD包括关键词KW及其IDF。在此,示出使用归一化IDF的例子。
可以说关键词KW是包括在文本分析数据AD中的特征性词。关键词KW例如可以是包括在文本分析数据AD及IDF数据ID的双方中的所有词,可以是其IDF为指定值以上的词,也可以是其IDF较高且上位的指定个数的词。优选根据文本数据TD的文本量设定关键词KW的提取标准。例如,关键词KW的个数优选为两个以上且一百个以下,更优选为五个以上且三十个以下。
在此,关键词KW的归一化IDF相当于后边给参考文本分析数据ADref打分数时使用的关键词KW的权重。
在图6B中示出Word D的权重是0.873,Word A的权重是0.868,Word E的权重是0.867的例子。
在图6B中,示出将关键词数据KD输出到处理部103的外部的例子。例如,处理部103可以通过传送通道102将关键词数据KD提供至存储部105或数据库107。
[步骤S14、S34]
接着,使用文本分析数据AD或关键词数据KD与向量数据VD生成相关词数据RD(图4、图5及图6C)。
文本分析数据AD或关键词数据KD从存储部105或数据库107通过传送通道102提供至处理部103。向量数据VD从数据库107通过传送通道102提供至处理部103。
在步骤S14中,处理部103基于关键词KW的分布表示向量与包括在参考文本分析数据ADref中的词的分布表示向量的相似度或距离的接近而提取关键词KW的相关词RW。并且,通过按相似度高的顺序或距离接近的顺序给相关词RW排序,生成相关词数据RD。具体而言,相对于一个关键词KW优选提取一个以上且十个以下的相关词RW,更优选提取两个以上且五个以下的相关词RW。相关词RW例如可以是相似度为指定值以上的词,可以是距离为指定值以下的词,可以是相似度高且上位的指定个数的词,也可以是距离接近且上位的指定个数的词。根据关键词KW的不同而同义词、近义词、反义词、上位词、下位词等的个数不同,因此相关词RW的个数也可以根据关键词KW而不同。通过从包括在参考文本分析数据ADref中的词提取关键词KW的相关词RW,即使参考文本分析数据ADref用独特的记载表示关键词KW,也可以提取该记载作为相关词RW。因此,可以减少起因于记载不一致的检索遗漏,所以是优选的。
在步骤S34中,处理部103基于包括在文本分析数据AD中的词的分布表示向量与包括在参考文本分析数据ADref中的词的分布表示向量的相似度或距离的接近而提取相关词RW。其他的与步骤S14相同。
两个向量的相似度可以利用余弦相似度、协方差、无偏协方差、皮尔逊相关系数等求得。尤其是,优选使用余弦相似度。
两个向量的距离可以利用欧式距离、标准(标准化、平均)欧式距离、马氏距离、曼哈顿距离、切比雪夫距离、闵氏距离等求得。
相关词数据RD包括相关词RW及其相关度RS。
可以说相关词RW是与包括在文本分析数据AD中的词或关键词KW相关的词。
相关度RS是示出上述相似度或距离的接近的值或者使其归一化而得的值。相关度RS用于相关词的权重的计算,该相关词是在后边给参考文本分析数据ADref打分数时使用的。具体而言,关键词KW的归一化IDF与相关词RW的相关度RS之乘积相当于相关词的权重。
在图6C中示出作为Word D的相关词RW按相关度RS高的顺序提取Word X(相关度RS为0.999)、Word Y(相关度RS为0.901)以及Word Z(相关度RS为0.712)的例子。
在图6C中示出将相关词数据RD输出到处理部103的外部的例子。例如,处理部103可以通过传送通道102将相关词数据RD提供至存储部105或数据库107。
注意,当利用关键词数据KD提取相关词时,如图4所示,在步骤S13之后进行步骤S14。另一方面,当利用文本分析数据AD提取相关词时,如图5所示,可以先进行步骤S33或步骤S34,也可以同时进行步骤S33及步骤S34。
并且,也可以包括如下步骤:判断相关词RW是否是包括在概念词典中的词,决定该相关词RW的权重。在相关词RW包括在概念词典中的情况下,可以说该相关词RW与关键词KW的相关度较高。因此,也可以将包括在概念词典中时的相关词RW的权重设定为比没有包括在概念词典中时的相关词RW的权重大。例如,根据判断结果,可以将对表示相似度或距离的接近的值加指定值而得的值或者从表示相似度或距离的接近的值减去指定值而得的值用作相关词RW的权重。或者,当相关词RW包括在概念词典中的情况或者相关词RW没有包括在概念词典中的情况下,无论相似度或距离的接近如何,也可以将指定值用作相关词RW的权重。例如,在相关词RW包括在概念词典中的情况下,相关词RW的权重也可以与关键词KW的权重相同。
[步骤S15]
接着,基于与包括在参考文本分析数据ADref中的词匹配的关键词KW或相关词RW的权重给参考文本分析数据ADref打分数(图4、图5及图7A)。
参考文本分析数据ADref从数据库107通过传送通道102提供至处理部103。关键词数据KD及相关词数据RD从存储部105或数据库107通过传送通道102提供至处理部103。处理部103可以将打分数(也称为scoring)的结果通过传送通道102提供至存储部105或数据库107。
首先,使用图7B说明打分数的具体例子。在图7B中示出使用三种关键词KW以及相对于一个关键词KW的四种相关词RW的例子。
分数的分母是关键词KW的权重的总和,在图7B中,0.9+0.9+0.8=2.6。
分数的分子是与包括在参考文本分析数据ADref中的词匹配的关键词KW或相关词RW的权重的总和,在图7B中为Word D、Word e及Word f的权重之和的1.95。
因此,分数可以被计算为1.95/2.6=0.75(75%)。
使用图8详细地说明步骤S15。如图8所示,步骤S15包括步骤S21至步骤S27。当关键词KW的个数为p个且各关键词KW的相关词RW的个数为q个时,x表示1以上且p以下的整数,y表示1以上且q以下的整数。
[步骤S21]
首先,选择一个没有打分数的参考文本分析数据ADref。
[步骤S22]
接着,判断在参考文本分析数据ADref中是否找到关键词KWx。在找到的情况下,进到步骤S25。在没有找到的情况下,进到步骤S23。
[步骤S23]
接着,判断在参考文本分析数据ADref中是否找到关键词KWx的相关词RWxy。在找到的情况下,进到步骤S25。在没有找到的情况下,进到步骤S24。
[步骤S24]
接着,判断是否对关键词KWx的所有相关词RW进行检索。在检索已完成的情况下,进到步骤S26。在检索还没完成的情况下,进到步骤S23。例如,在有两个关键词KWx的相关词RW且在前一步骤S23中判断是否找到相关词RWx1时,返回到步骤S23而判断是否找到相关词RWx2。
[步骤S25]
在步骤S25中,将对应于找到的词的权重加到分数。在步骤S22中找到词时,将关键词KWx的IDF加到分数。在步骤S23中找到时,将关键词KWx的IDF与相关词RWxy的相关度RS之乘积加到分数。注意,在上述打分数例子中,对分数的分子进行加法。
[步骤S26]
接着,判断是否对所有关键词KW进行检索。在检索已完成的情况下,进到步骤S27。在检索还没完成的情况下,进到步骤S22。例如,在有两个关键词KWx且在前一步骤S22中判断是否找到关键词KW1时,返回到步骤S22而判断是否找到关键词KW2。
[步骤S27]
接着,判断是否给所有参考文本分析数据ADref打分数。在打分数已完成的情况下,进到步骤S16。在打分数还没完成的情况下,进到步骤S21。
[步骤S16]
并且,给参考文本分析数据ADref排序,生成并输出排序数据LD(图4、5及图7A)。
处理部103可以将排序数据LD通过传送通道102提供至存储部105或数据库107。另外,处理部103可以将排序数据LD通过传送通道102提供至输出部109。由此,输出部109可以向文件检索系统100的外部供应排序数据LD。
排序数据LD可以包括等级(Lank)、参考文本数据TDref的信息(名称或识别号码等)(Doc)、分数(Score)等。注意,在参考文本数据TDref储存在数据库107等中的情况下,排序数据LD优选包括参考文本数据TDref的文件路径。由此,使用者可以容易从排序数据LD存取目的文件。
可以说,参考文本分析数据ADref的分数越高,对应于该参考文本分析数据ADref的参考文本数据TDref与文本数据TD的相关性或相似性越高。
在图7A所示的例子中,根据排序数据LD可知,在n个参考文本数据TDref中,与文本数据TD的相关性或相似性最大的数据是参考文本数据TDref(7),相关性或相似性第二大的数据是参考文本数据TDref(4),相关性或相似性第三大的数据是参考文本数据TDref(13)。
通过上述步骤,可以利用文件检索系统100进行检索。
此外,也可以手动编辑步骤S14中输出的关键词KW、关键词KW的权重(IDF)、相关词RW及相关词RW的权重(IDF×RS),然后进到步骤S15。
图9示出包括编辑步骤的流程图,图10示出图9所示的步骤的示意图。注意,图10所示的数据的图示只是一个例子而已,不局限于此。
[步骤S41]
在步骤14之后,输出将步骤S15中使用的关键词数据KD及相关词数据RD的一览(图9及图10A)。
根据图10A可知,作为关键词KW举出了Word D、Word A、Word E,其权重(IDF)分别为0.9、0.9、0.8。
可知,作为Word D的相关词RW举出了Word X、Word Y、Word Z及Word a,其权重(IDF×RS)分别为0.9、0.8、0.6、0.5。
可知,作为Word A的相关词RW举出了Word b、Word c、Word d及Word e,其权重(IDF×RS)分别为0.5、0.5、0.45、0.3。
可知,作为Word E的相关词RW举出了Word f、Word g、Word h及Word i,其权重(IDF×RS)分别为0.75、0.75、0.75、0.75。
[步骤S42]
接着,编辑关键词数据KD及相关词数据RD(图9及图10B)。
在图10B中示出对三个部分进行编辑的例子。具体而言,删除Word A及其相关词RW,将Word a(权重0.5)改为Word x(权重0.8),更改Word f的权重(从0.75改为0.8)。
如此,使用者也可以通过编辑词和权重中的至少一个提高检索精度。
然后,在步骤S15中,使用编辑后的关键词数据KD及相关词数据RD给参考文本分析数据ADref打分数,在步骤S16中,生成并输出排序数据LD。
[步骤S43]
接着,确认排序数据LD是否是期待的结果(图9)。在排序数据LD是期待的结果的情况下,检索结束。在没有得到期待的结果的情况下,也可以返回到步骤S41,输出编辑后的关键词数据KD及相关词数据RD的一览,在步骤S42中再次进行编辑。
注意,词及权重的编辑不局限于手动编辑,也可以利用词典数据、通过自然语言处理生成的分析数据等进行自动编辑。通过编辑可以提高检索精度。
<3.文件检索系统的结构例子2>
接着,对图11所示的文件检索系统150进行说明。
图11示出文件检索系统150的方框图。文件检索系统150包括服务器151及终端152(个人计算机等)。
服务器151包括通信部161a、传送通道162、处理部163a及数据库167。虽然在图11中未图示,但是服务器151也可以还包括存储部、输入输出部等。
终端152包括通信部161b、传送通道168、处理部163b、存储部165及输入输出部169。虽然在图11中未图示,但是终端152也可以还包括数据库等。
文件检索系统150的使用者从终端152将文本数据TD输入到服务器151。文本数据TD从通信部161b传送到通信部161a。
通信部161a接收的文本数据TD通过传送通道162储存在数据库167或存储部(未图示)中。或者,文本数据TD也可以从通信部161a直接供应到处理部163a。
上述<2.文件检索方法>中说明的各种处理在处理部163a中进行。这些处理需要高处理能力,所以优选在服务器151所包括的处理部163a中进行。
然后,通过处理部163a生成排序数据LD。排序数据LD通过传送通道162储存在数据库167或存储部(未图示)中。或者,排序数据LD也可以从处理部163a直接供应到通信部161a。然后,排序数据LD从服务器151输出到终端152。排序数据LD从通信部161a传送到通信部161b。
[输入输出部169]
对输入输出部169从文件检索系统150的外部供应数据。输入输出部169具有将数据供应给文件检索系统150的外部的功能。注意,如文件检索系统100那样,输入部与输出部也可以彼此分离。
[传送通道162及传送通道168]
传送通道162及传送通道168具有传送数据的功能。通信部161a、处理部163a及数据库167间的数据的发送及接收可以通过传送通道162进行。通信部161b、处理部163b、存储部165及输入输出部169间的数据的发送及接收可以通过传送通道168进行。
[处理部163a及处理部163b]
处理部163a具有通过使用从通信部161a及数据库167等供应的数据进行运算、推论等的功能。处理部163b具有通过使用从通信部161b、存储部165及输入输出部169等供应的数据进行运算等的功能。关于处理部163a及处理部163b可以参照处理部103的说明。尤其是,处理部163a可以进行上述<2.文件检索方法>中说明的各种处理。因此,处理部163a的处理能力优选高于处理部163b。
[存储部165]
存储部165具有储存处理部163b执行的程序的功能。此外,存储部165具有储存处理部163b所生成的运算结果、输入到通信部161b的数据以及输入到输入输出部169的数据等的功能。
[数据库167]
数据库167具有储存参考文本分析数据ADref、IDF数据ID及向量数据VD的功能。此外,数据库167也可以具有储存处理部163a所生成的运算结果以及输入到通信部161a的数据等的功能。或者,服务器151也可以包括数据库167以外的存储部,该存储部也可以具有储存处理部163a所生成的运算结果以及输入到通信部161a的数据等的功能。
[通信部161a及通信部161b]
通过使用通信部161a及通信部161b可以在服务器151与终端152之间进行数据的发送及接收。作为通信部161a及通信部161b可以使用集线器、路由器、调制解调器等。数据的发送及接收可以使用有线也可以使用无线(例如,电波、红外线等)。
如上所述,在本实施方式的文件检索系统中,可以以预先准备的文件为检索对象进行与被输入的文件相关或相似的文件的检索。使用者不需要选择检索用关键词且可以使用其分量比关键词多的文本数据进行检索,因此,可以减小个人之间的检索精度的差异,可以简单地且高精度地进行文件检索系统。另外,在本实施方式的文件检索系统中,从预先准备的文件中提取关键词的相关词,因此可以提取包括在该文件中的独特的记载作为相关词而可以减少检索遗漏。另外,在本实施方式的文件检索系统中,可以按相关性或相似性高的顺序进行排序且输出检索结果,因此,使用者从检索结果容易找到必要的文件,并且不容易导致疏忽。
本实施方式可以与其他实施方式适当地组合。在本说明书中,在一个实施方式中示出多个结构例子的情况下,可以适当地组合该结构例子。
(实施方式2)
在本实施方式中,说明能够用于神经网络的半导体装置的结构例子。
本实施方式的半导体装置例如可以用于本发明的一个方式的文件检索系统的处理部。
如图12A所示,神经网络NN可以由输入层IL、输出层OL及中间层(隐藏层)HL构成。输入层IL、输出层OL及中间层HL都包括一个或多个神经元(单元)。注意,中间层HL可以为一层或两层以上。包括两层以上的中间层HL的神经网络可以被称为DNN(深度神经网络),使用深度神经网络的学习可以被称为深度学习。
输入层IL的各神经元被输入输入数据,中间层HL的各神经元被输入前一层或后一层的神经元的输出信号,输出层OL的各神经元被输入前一层的神经元的输出信号。注意,各神经元既可以与前一层和后一层的所有神经元连结(全连结),又可以与部分神经元连结。
图12B示出利用神经元的运算的例子。在此,示出神经元N及向神经元N输出信号的前一层的两个神经元。神经元N被输入前一层的神经元的输出x1及前一层的神经元的输出x2。在神经元N中,算出输出x1与权重w1的乘法结果(x1w1)和输出x2与权重w2的乘法结果(x2w2)之总和x1w1+x2w2,然后根据需要对其加偏压b,从而得到值a=x1w1+x2w2+b。值a被激活函数h变换,输出信号y=h(a)从神经元N输出。
如此,利用神经元的运算包括对前一层的神经元的输出与权重之积进行加法的运算,即积和运算(上述x1w1+x2w2)。该积和运算既可以通过程序在软件上进行,又可以通过硬件进行。在通过硬件进行积和运算时,可以使用积和运算电路。作为该积和运算电路,既可以使用数字电路,又可以使用模拟电路。在作为积和运算电路使用模拟电路时,可以缩小积和运算电路的电路规模或者因向存储器访问的次数的减少而实现处理速度的提高及功耗的降低。
积和运算电路既可以由在沟道形成区域中包含硅(单晶硅等)的晶体管(也称为“Si晶体管”)构成,又可以由在沟道形成区域中包含金属氧化物之一的氧化物半导体的晶体管(也称为“OS晶体管”)构成。尤其是,因为OS晶体管具有极小的关态电流(off-statecurrent),所以优选用作构成积和运算电路的存储器的晶体管。注意,也可以由Si晶体管和OS晶体管的双方构成积和运算电路。下面,说明具有积和运算电路的功能的半导体装置的结构例子。
<半导体装置的结构例子>
图13示出具有进行神经网络的运算的功能的半导体装置MAC的结构例子。半导体装置MAC具有进行对应于神经元间的连结强度(权重)的第一数据与对应于输入数据的第二数据的积和运算的功能。注意,第一数据及第二数据分别可以为模拟数据或多值数字数据(分散数据)。此外,半导体装置MAC具有使用激活函数对利用积和运算得到的数据进行变换的功能。
半导体装置MAC包括单元阵列CA、电流源电路CS、电流镜电路CM、电路WDD、电路WLD、电路CLD、偏置电路OFST及激活函数电路ACTV。
单元阵列CA包括多个存储单元MC及多个存储单元MCref。图13示出单元阵列CA包括m行n列(m和n为1以上的整数)的存储单元MC(MC[1,1]至MC[m,n])及m个存储单元MCref(MCref[1]至MCref[m])的结构例子。存储单元MC具有储存第一数据的功能。此外,存储单元MCref具有储存用于积和运算的参考数据的功能。注意,参考数据可以为模拟数据或多值数字数据。
存储单元MC[i,j](i为1以上且m以下的整数,j为1以上且n以下的整数)连接于布线WL[i]、布线RW[i]、布线WD[j]及布线BL[j]。此外,存储单元MCref[i]连接于布线WL[i]、布线RW[i]、布线WDref及布线BLref。在此,将流在存储单元MC[i,j]与布线BL[j]间的电流记载为IMC[i,j],将流在存储单元MCref[i]与布线BLref间的电流记载为IMCref[i]。
图14示出存储单元MC及存储单元MCref的具体结构例子。虽然在图14中作为典型例子示出存储单元MC[1,1]、MC[2,1]及存储单元MCref[1]、MCref[2],但是在其他存储单元MC及存储单元MCref中可以使用同样的结构。存储单元MC及存储单元MCref都包括晶体管Tr11、晶体管Tr12、电容器C11。在此,说明晶体管Tr11及晶体管Tr12为n沟道型晶体管的情况。
在存储单元MC中,晶体管Tr11的栅极连接于布线WL,源极和漏极中的一个连接于晶体管Tr12的栅极及电容器C11的第一电极,源极和漏极中的另一个连接于布线WD。晶体管Tr12的源极和漏极中的一个连接于布线BL,源极和漏极中的另一个连接于布线VR。电容器C11的第二电极连接于布线RW。布线VR具有供应预定电位的功能。在此,作为一个例子,说明从布线VR供应低电源电位(接地电位等)的情况。
将与晶体管Tr11的源极和漏极中的一个、晶体管Tr12的栅极以及电容器C11的第一电极连接的节点称为节点NM。此外,将存储单元MC[1,1]、MC[2,1]的节点NM分别称为节点NM[1,1]、NM[2,1]。
存储单元MCref也具有与存储单元MC同样的结构。但是,存储单元MCref连接于布线WDref代替布线WD并连接于布线BLref代替布线BL。此外,在存储单元MCref[1]、MCref[2]中,将连接于晶体管Tr11的源极和漏极中的一个、晶体管Tr12的栅极及电容器C11的第一电极的节点分别记载为节点NMref[1]、NMref[2]。
节点NM和节点NMref分别被用作存储单元MC和存储单元MCref的保持节点。节点NM保持第一数据,节点NMref保持参考数据。另外,电流IMC[1,1]、IMC[2,1]分别从布线BL[1]流到存储单元MC[1,1]、MC[2,1]的晶体管Tr12。另外,电流IMCref[1]、IMCref[2]分别从布线BLref流到存储单元MCref[1]、MCref[2]的晶体管Tr12。
由于晶体管Tr11具有保持节点NM或节点NMref的电位的功能,所以晶体管Tr11的关态电流优选小。因此,作为晶体管Tr11,优选使用关态电流极小的OS晶体管。由此,可以抑制节点NM或节点NMref的电位变动而提高运算精度。此外,可以将刷新节点NM或节点NMref的电位的工作的频率抑制为低,由此可以降低功耗。
对晶体管Tr12没有特别的限制,例如可以使用Si晶体管或OS晶体管等。在作为晶体管Tr12使用OS晶体管的情况下,能够使用与晶体管Tr11相同的制造装置制造晶体管Tr12,从而可以抑制制造成本。注意,晶体管Tr12可以为n沟道型晶体管或p沟道型晶体管。
电流源电路CS连接于布线BL[1]至BL[n]及布线BLref。电流源电路CS具有向布线BL[1]至BL[n]及布线BLref供应电流的功能。注意,供应到布线BL[1]至BL[n]的电流值也可以与供应到布线BLref的电流值不同。在此,将从电流源电路CS供应到布线BL[1]至BL[n]的电流记载为IC,将从电流源电路CS供应到布线BLref的电流记载为ICref。
电流镜电路CM包括布线IL[1]至IL[n]及布线ILref。布线IL[1]至IL[n]分别连接于布线BL[1]至BL[n],布线ILref连接于布线BLref。在此,布线IL[1]至IL[n]与布线BL[1]至BL[n]的连接部分记载为节点NP[1]至NP[n]。此外,布线ILref与布线BLref的连接部分记载为节点NPref。
电流镜电路CM具有将对应于节点NPref的电位的电流ICM流到布线ILref的功能及还将该电流ICM流到布线IL[1]至IL[n]的功能。图13示出电流ICM从布线BLref排出到布线ILref且电流ICM从布线BL[1]至BL[n]排出到布线IL[1]至IL[n]的例子。将从电流镜电路CM通过布线BL[1]至BL[n]流到单元阵列CA的电流记载为IB[1]至IB[n]。此外,将从电流镜电路CM通过布线BLref流到单元阵列CA的电流记载为IBref。
电路WDD连接于布线WD[1]至WD[n]及布线WDref。电路WDD具有将对应于储存在存储单元MC中的第一数据的电位供应到布线WD[1]至WD[n]的功能。另外,电路WDD具有将对应于储存在存储单元MCref中的参考数据的电位供应到布线WDref的功能。电路WLD与布线WL[1]至WD[m]连接。电路WLD具有将选择写入数据的存储单元MC或存储单元MCref的信号供应到布线WL[1]至WD[m]的功能。电路CLD与布线RW[1]至RW[m]连接。电路CLD具有将对应于第二数据的电位供应到布线RW[1]至RW[m]的功能。
偏置电路OFST连接于布线BL[1]至BL[n]及布线OL[1]至OL[n]。偏置电路OFST具有检测出从布线BL[1]至BL[n]流到偏置电路OFST的电流量及/或从布线BL[1]至BL[n]流到偏置电路OFST的电流的变化量的功能。此外,偏置电路OFST具有将检测结果输出到布线OL[1]至OL[n]的功能。注意,偏置电路OFST既可以将对应于检测结果的电流输出到布线OL,又可以将对应于检测结果的电流变换为电压而将其输出到布线OL。将流在单元阵列CA与偏置电路OFST之间的电流记载为Iα[1]至Iα[n]。
图15示出偏置电路OFST的结构例子。图15所示的偏置电路OFST包括电路OC[1]至OC[n]。电路OC[1]至OC[n]都包括晶体管Tr21、晶体管Tr22、晶体管Tr23、电容器C21及电阻器R1。各元件的连接关系如图15所示。注意,将连接于电容器C21的第一电极及电阻器R1的第一端子的节点称为节点Na。另外,将连接于电容器C21的第二电极、晶体管Tr21的源极和漏极中的一个及晶体管Tr22的栅极的节点称为节点Nb。
布线VrefL具有供应电位Vref的功能,布线VaL具有供应电位Va的功能,布线VbL具有供应电位Vb的功能。布线VDDL具有供应电位VDD的功能,布线VSSL具有供应电位VSS的功能。在此,说明电位VDD是高电源电位且电位VSS是低电源电位的情况。布线RST具有供应用来控制晶体管Tr21的导通状态的电位的功能。由晶体管Tr22、晶体管Tr23、布线VDDL、布线VSSL及布线VbL构成源极跟随电路。
接着,说明电路OC[1]至OC[n]的工作例子。注意,虽然在此作为典型例子说明电路OC[1]的工作例子,但是电路OC[2]至OC[n]也可以与此同样地工作。首先,当第一电流流到布线BL[1]时,节点Na的电位成为对应于第一电流与电阻器R1的电阻值的电位。此时,晶体管Tr21处于开启状态,电位Va被供应到节点Nb。然后,晶体管Tr21处于关闭状态。
接着,当第二电流流到布线BL[1]时,节点Na的电位变为对应于第二电流与电阻器R1的电阻值的电位。此时,晶体管Tr21处于关闭状态,节点Nb处于浮动状态,因此在节点Na的电位变化时节点Nb的电位由于电容耦合而变化。在此,在节点Na的电位变化为△VNa且电容耦合系数为1时,节点Nb的电位为Va+△VNa。在晶体管Tr22的阈值电压为Vth时,从布线OL[1]输出电位Va+△VNa-Vth。在此,通过满足Va=Vth,可以从布线OL[1]输出电位△VNa。
电位△VNa根据从第一电流到第二电流的变化量、电阻器R1的电阻值及电位Vref决定。在此,已知电阻器R1的电阻值和电位Vref,由此可以求得从电位△VNa流到布线BL的电流的变化量。
如上所述,对应于通过偏置电路OFST检测出的电流量及/或电流的变化量的信号通过布线OL[1]至OL[n]输入到激活函数电路ACTV。
激活函数电路ACTV连接于布线OL[1]至OL[n]和布线NIL[1]至NIL[n]。激活函数电路ACTV具有进行运算以根据预定的激活函数变换从偏置电路OFST输入的信号的功能。作为激活函数,例如可以使用sigmoid函数、tanh函数、softmax函数、ReLU函数及阈值函数等。被激活函数电路ACTV变换的信号作为输出数据输出到布线NIL[1]至NIL[n]。
<半导体装置的工作例子>
能够使用上述半导体装置MAC对第一数据和第二数据进行积和运算。下面,说明进行积和运算时的半导体装置MAC的工作例子。
图16示出半导体装置MAC的工作例子的时序图。图16示出图14中的布线WL[1]、布线WL[2]、布线WD[1]、布线WDref、节点NM[1,1]、节点NM[2,1]、节点NMref[1]、节点NMref[2]、布线RW[1]及布线RW[2]的电位推移、以及电流IB[1]-Iα[1]和电流IBref的值的推移。电流IB[1]-Iα[1]相当于从布线BL[1]流到存储单元MC[1,1]、MC[2,1]的电流之总和。
虽然在此着眼于在图14中作为典型例子示出的存储单元MC[1,1]、MC[2,1]及存储单元MCref[1]、MCref[2]而说明其工作,但是其他存储单元MC及存储单元MCref也可以进行同样的工作。
[第一数据的存储]
首先,在时刻T01-时刻T02的期间,布线WL[1]的电位成为高电平(High),布线WD[1]的电位成为比接地电位(GND)大VPR-VW[1,1]的电位,布线WDref的电位成为比接地电位大VPR的电位。布线RW[1]及布线RW[2]的电位成为标准电位(REFP)。注意,电位VW[1,1]对应于储存在存储单元MC[1,1]中的第一数据。此外,电位VPR对应于参考数据。因此,存储单元MC[1,1]及存储单元MCref[1]所具有的晶体管Tr11处于开启状态,节点NM[1,1]的电位成为VPR-VW[1,1],节点NMref[1]的电位成为VPR。
此时,从布线BL[1]流到存储单元MC[1,1]的晶体管Tr12的电流IMC[1,1],0能够以如下算式表示。在此,k是取决于晶体管Tr12的沟道长度、沟道宽度、迁移率以及栅极绝缘膜的电容等的常数。此外,Vth为晶体管Tr12的阈值电压。
IMC[1,1],0=k(VPR-VW[1,1]-Vth)2 (E1)
此外,从布线BLref流到存储单元MCref[1]的晶体管Tr12的电流IMCref[1],0能够以如下算式表示。
IMCref[1],0=k(VPR-Vth)2 (E2)
接着,在时刻T02-时刻T03的期间,布线WL[1]的电位成为低电平(Low)。因此,存储单元MC[1,1]及存储单元MCref[1]所具有的晶体管Tr11处于关闭状态,节点NM[1,1]及节点NMref[1]的电位被保持。
如上所述,作为晶体管Tr11,优选使用OS晶体管。由此,可以抑制晶体管Tr11的泄漏电流而正确地保持节点NM[1,1]及节点NMref[1]的电位。
接着,在时刻T03-时刻T04的期间,布线WL[2]的电位成为高电平,布线WD[1]的电位成为比接地电位大VPR-VW[2,1]的电位,布线WDref的电位成为比接地电位大VPR的电位。注意,电位VW[2,1]对应于储存在存储单元MC[2,1]中的第一数据。因此,存储单元MC[2,1]及存储单元MCref[2]所具有的晶体管Tr11处于开启状态,节点NM[2,1]的电位成为VPR-VW[2,1],节点NMref[2]的电位成为VPR。
此时,从布线BL[1]流到存储单元MC[2,1]的晶体管Tr12的电流IMC[2,1],0能够以如下算式表示。
IMC[2,1],0=k(VPR-VW[2,1]-Vth)2 (E3)
此外,从布线BLref流到存储单元MCref[2]的晶体管Tr12的电流IMCref[2],0能够以如下算式表示。
IMCref[2],0=k(VPR-Vth)2 (E4)
接着,在时刻T04-时刻T05的期间,布线WL[2]的电位成为低电平。因此,存储单元MC[2,1]及存储单元MCref[2]所具有的晶体管Tr11处于关闭状态,节点NM[2,1]及节点NMref[2]的电位被保持。
通过上述工作,在存储单元MC[1,1]、MC[2,1]中储存第一数据,存储单元MCref[1]、MCref[2]中储存参考数据。
在此,在时刻T04-时刻T05的期间,考虑流到布线BL[1]和布线BLref的电流。向布线BLref从电流源电路CS供应电流。流过布线BLref的电流排出到电流镜电路CM及存储单元MCref[1]、MCref[2]。将从电流源电路CS供应到布线BLref的电流称为ICref,将从布线BLref排出到电流镜电路CM的电流称为ICM,0,此时满足以下算式。
ICref-ICM,0=IMCref[1],0+IMCref[2],0 (E5)
向布线BL[1]从电流源电路CS供应电流。流过布线BL[1]的电流排出到电流镜电路CM及存储单元MC[1,1]、MC[2,1]。另外,电流从布线BL[1]流到偏置电路OFST。将从电流源电路CS供应到布线BL[1]的电流称为IC,0,将从布线BL[1]流到偏置电路OFST的电流称为Iα,0,此时满足以下算式。
IC-ICM,0=IMC[1,1],0+IMC[2,1],0+Iα,0 (E6)
[第一数据和第二数据的积和运算]
接着,在时刻T05-时刻T06的期间,布线RW[1]的电位比标准电位大VX[1]。此时,电位VX[1]被供应到存储单元MC[1,1]及存储单元MCref[1]的各电容器C11,晶体管Tr12的栅极电位因电容耦合而上升。注意,电位VX[1]对应于供应到存储单元MC[1,1]及存储单元MCref[1]的第二数据。
晶体管Tr12的栅极的电位的变化量相当于布线RW的电位的变化乘以根据存储单元的结构决定的电容耦合系数而得的值。电容耦合系数根据电容器C11的电容、晶体管Tr12的栅极电容以及寄生电容等而算出。下面,为了方便起见,说明布线RW的电位的变化量与晶体管Tr12的栅极的电位的变化量相等的情况,即说明电容耦合系数为1的情况。实际上,考虑电容耦合系数决定电位VX,即可。
当电位VX[1]被供应到存储单元MC[1,1]及存储单元MCref[1]的电容器C11时,节点NM[1,1]及节点NMref[1]的电位都上升VX[1]。
在此,在时刻T05-时刻T06的期间,从布线BL[1]流到存储单元MC[1,1]的晶体管Tr12的电流IMC[1,1],1能够以如下算式表示。
IMC[1,1],1=k(VPR-VW[1,1]+VX[1]-Vth)2 (E7)
也就是说,通过向布线RW[1]供应电位VX[1],从布线BL[1]流到存储单元MC[1,1]的晶体管Tr12的电流增加△IMC[1,1]=IMC[1,1],1-IMC[1,1],0。
此外,在时刻T05-时刻T06的期间,从布线BLref流到存储单元MCref[1]的晶体管Tr12的电流IMCref[1],1能够以如下算式表示。
IMCref[1],1=k(VPR+VX[1]-Vth)2 (E8)
也就是说,通过向布线RW[1]供应电位VX[1],从布线BLref流到存储单元MCref[1]的晶体管Tr12的电流增加△IMCref[1]=IMCref[1],1-IMCref[1],0。
另外,考虑流到布线BL[1]和布线BLref的电流。向布线BLref从电流源电路CS供应电流ICref。流过布线BLref的电流排出到电流镜电路CM及存储单元MCref[1]、MCref[2]。将从布线BLref排出到电流镜电路CM的电流称为ICM,1,此时满足以下算式。
ICref-ICM,1=IMCref[1],1+IMCref[2],0 (E9)
向布线BL[1]从电流源电路CS供应电流IC。流过布线BL[1]的电流排出到电流镜电路CM及存储单元MC[1,1]、MC[2,1]。再者,电流从布线BL[1]流到偏置电路OFST。将从布线BL[1]流到偏置电路OFST的电流称为Iα,1,此时满足以下算式。
IC-ICM,1=IMC[1,1],1+IMC[2,1],1+Iα,1 (E10)
根据算式(E1)至算式(E10),能够以以下算式表示电流Iα,0与电流Iα,1之差(差异电流△Iα)。
△Iα=Iα,1-Iα,0=2kVW[1,1]VX[1] (E11)
如此,差异电流△Iα表示对应于电位VW[1,1]与VX[1]之乘积的值。
然后,在时刻T06-时刻T07的期间,布线RW[1]的电位成为标准电位,节点NM[1,1]及节点NMref[1]的电位与时刻T04-时刻T05的期间同样。
接着,在时刻T07-时刻T08的期间,布线RW[1]的电位成为比标准电位大VX[1]的电位,布线RW[2]的电位成为比标准电位大VX[2]的电位。因此,电位VX[1]被供应到存储单元MC[1,1]及存储单元MCref[1]的电容器C11,因电容耦合而节点NM[1,1]及节点NMref[1]的电位都上升VX[1]。另外,电位VX[2]被供应到存储单元MC[2,1]及存储单元MCref[2]的电容器C11,因电容耦合而节点NM[2,1]及节点NMref[2]的电位都上升VX[2]。
在此,在时刻T07-时刻T08的期间,从布线BL[1]流到存储单元MC[2,1]的晶体管Tr12的电流IMC[2,1],1能够以如下算式表示。
IMC[2,1],1=k(VPR-VW[2,1]+VX[2]-Vth)2 (E12)
也就是说,通过向布线RW[2]供应电位VX[2],从布线BL[1]流到存储单元MC[2,1]的晶体管Tr12的电流增加△IMC[2,1]=IMC[2,1],1-IMC[2,1],0。
此外,在时刻T07-时刻T08的期间,从布线BLref流到存储单元MCref[2]的晶体管Tr12的电流IMCref[2],1能够以如下算式表示。
IMCref[2],1=k(VPR+VX[2]-Vth)2 (E13)
也就是说,通过向布线RW[2]供应电位VX[2],从布线BLref流到存储单元MCref[2]的晶体管Tr12的电流增加△IMCref[2]=IMCref[2],1-IMCref[2],0。
另外,考虑流到布线BL[1]和布线BLref的电流。向布线BLref从电流源电路CS供应电流ICref。流过布线BLref的电流排出到电流镜电路CM及存储单元MCref[1]、MCref[2]。将从布线BLref排出到电流镜电路CM的电流称为ICM,2,此时满足以下算式。
ICref-ICM,2=IMCref[1],1+IMCref[2],1 (E14)
向布线BL[1]从电流源电路CS供应电流IC。流过布线BL[1]的电流排出到电流镜电路CM及存储单元MC[1,1]、MC[2,1]。再者,电流从布线BL[1]流到偏置电路OFST。将从布线BL[1]流到偏置电路OFST的电流称为Iα,2,此时满足以下算式。
IC-ICM,2=IMC[1,1],1+IMC[2,1],1+Iα,2 (E15)
根据算式(E1)至算式(E8)及算式(E12)至算式(E15),能够以以下算式表示电流Iα,0与电流Iα,2之差(差异电流△Iα)。
△Iα=Iα,2-Iα,0=2k(VW[1,1]VX[1]+VW[2,1]VX[2]) (E16)
如此,差异电流△Iα表示对应于对电位VW[1,1]与电位VX[1]之积和电位VW[2,1]与电位VX[2]之积进行加法的结果的值。
然后,在时刻T08-时刻T09的期间,布线RW[1]、[2]的电位成为标准电位,节点NM[1,1]、NM[2,1]及节点NMref[1]、NMref[2]的电位与时刻T04-时刻T05的期间同样。
如算式(E11)和算式(E16)所示,输入到偏置电路OFST的差异电流△Iα可以从包括对应于第一数据(权重)的电位VW与对应于第二数据(输入数据)的电位VX之乘积项的算式算出。也就是说,通过使用偏置电路OFST对差异电流△Iα进行测量,可以获得第一数据与第二数据的积和运算的结果。
注意,虽然在上述说明中特别着眼于存储单元MC[1,1]、MC[2,1]及存储单元MCref[1]、MCref[2],但是可以任意设定存储单元MC及存储单元MCref的数量。在将存储单元MC及存储单元MCref的行数m设定为任意数i的情况下,能够以以下算式表示差异电流△Iα。
△Iα=2kΣiVW[i,1]VX[i] (E17)
此外,通过增加存储单元MC及存储单元MCref的列数n,可以增加并行的积和运算的数量。
如上所述,通过使用半导体装置MAC,可以对第一数据和第二数据进行积和运算。另外,通过使用图14所示的存储单元MC及存储单元MCref的结构,可以使用较少的晶体管构成积和运算电路。由此,可以缩小半导体装置MAC的电路规模。
在将半导体装置MAC用于利用神经网络的运算时,可以使存储单元MC的行数m对应于供应到一个神经元的输入数据的数量并使存储单元MC的列数n对应于神经元的数量。例如,考虑在图12A所示的中间层HL中进行使用半导体装置MAC的积和运算的情况。此时,可以将存储单元MC的行数m设定为从输入层IL供应的输入数据的数量(输入层IL的神经元的数量)并将存储单元MC的列数n设定为中间层HL的神经元的数量。
注意,对使用半导体装置MAC的神经网络的结构没有特别的限制。例如,半导体装置MAC可以用于卷积神经网络(CNN)、递归神经网络(RNN)、自动编码器及玻尔兹曼机(包括限制玻尔兹曼机)等。
如上所述,通过使用半导体装置MAC,可以进行神经网络的积和运算。再者,通过将图14所示的存储单元MC及存储单元MCref用于单元阵列CA,可以提供运算精度高、功耗低或电路规模小的集成电路。
本实施方式可以与其他实施方式适当地组合。
[符号说明]
AD:文本分析数据、ADref:参考文本分析数据、C11:电容器、C21:电容器、ID:IDF数据、KD:关键词数据、KW:关键词、KW1:关键词、KW2:关键词、KWx:关键词、LD:排序数据、NN:神经网络、R1:电阻器、RD:相关词数据、RS:相关度、RW:相关词、RWx1:相关词、RWx2:相关词、RWxy:相关词、TD:文本数据、TDref:参考文本数据、Tr11:晶体管、Tr12:晶体管、Tr21:晶体管、Tr22:晶体管、Tr23:晶体管、VD:向量数据、100:文件检索系统、101:输入部、102:传送通道、103:处理部、105:存储部、107:数据库、109:输出部、150:文件检索系统、151:服务器、152:终端、161a:通信部、161b:通信部、162:传送通道、163a:处理部、163b:处理部、165:存储部、167:数据库、168:传送通道、169:输入输出部。
Claims (24)
1.一种文件检索系统,包括:
处理部,
所述处理部具有:
提取包括在文本数据中的关键词的功能;
从包括在多个第一参考文本分析数据的词中提取所述关键词的相关词的功能;
对所述关键词及所述相关词的每一个赋予权重的功能;
基于所述权重给多个第二参考文本分析数据的每一个打分数的功能;
基于所述分数给所述多个第二参考文本分析数据排序来生成排序数据的功能;以及
输出所述排序数据的功能。
2.一种文件检索系统,包括:
处理部,
所述处理部具有:
提取包括在文本数据中的关键词的功能;
从包括在多个第一参考文本分析数据的词中提取所述关键词的相关词的功能;
对所述关键词及所述相关词的每一个赋予权重的功能;
基于所述权重给多个第二参考文本分析数据的每一个打分数的功能;
基于所述分数给所述多个第二参考文本分析数据排序来生成排序数据的功能;以及
输出所述排序数据的功能,
其中,所述关键词的所述权重为所述关键词的基于所述多个第一参考文本分析数据或所述多个第二参考文本分析数据中的逆文档频率的值,
并且,所述相关词的所述权重为基于所述相关词的分布表示向量和所述关键词的分布表示向量的相似度或距离的值与所述关键词的所述权重之乘积。
3.根据权利要求1或2所述的文件检索系统,
其中给包含与所述关键词或所述相关词匹配的词的所述第二参考文本分析数据打分数。
4.根据权利要求1至3中任一项所述的文件检索系统,
其中所述多个第一参考文本分析数据与所述多个第二参考文本分析数据相同。
5.根据权利要求1至4中任一项所述的文件检索系统,
其中所述相关词利用通过包括在所述多个第一参考文本分析数据中的词的分布表示的机械学习得到的分布表示向量而提取。
6.根据权利要求1至5中任一项所述的文件检索系统,
其中所述相关词基于所述词的分布表示向量和所述关键词的分布表示向量的相似度或距离的接近而从包括在所述多个第一参考文本分析数据中的词中提取。
7.根据权利要求6所述的文件检索系统,
其中所述词的分布表示向量为使用神经网络而生成的向量。
8.根据权利要求1至7中任一项所述的文件检索系统,
其中作为提取包括在所述文本数据中的关键词的功能,具有进行所述文本数据的形态分析来生成分析数据的功能以及从所述分析数据提取所述关键词的功能,
并且所述关键词基于所述多个第一参考文本分析数据或所述多个第二参考文本分析数据中的逆文档频率的程度而从包括在所述分析数据的词中提取。
9.根据权利要求1至8中任一项所述的文件检索系统,
其中能够由使用者修改所述权重。
10.根据权利要求1至9中任一项所述的文件检索系统,
其中所述第一参考文本分析数据为进行第一参考文本数据的形态分析来生成的数据,
并且所述第二参考文本分析数据为进行第二参考文本数据的形态分析来生成的数据。
11.根据权利要求1至10中任一项所述的文件检索系统,包括:
电子设备及服务器,
其中所述电子设备包括第一通信部,
所述服务器包括所述处理部及第二通信部,
所述第一通信部具有通过有线通信和无线通信中的一方或双方向所述服务器提供所述文本数据的功能,
所述处理部具有向所述第二通信部提供所述排序数据的功能,
并且所述第二通信部具有通过有线通信和无线通信中的一方或双方向所述电子设备提供所述排序数据的功能。
12.根据权利要求1至11中任一项所述的文件检索系统,
其中所述处理部包括晶体管,
并且所述晶体管在沟道形成区域中含有金属氧化物。
13.根据权利要求1至11中任一项所述的文件检索系统,
其中所述处理部包括晶体管,
并且所述晶体管在沟道形成区域中含有硅。
14.一种文件检索方法,包括如下步骤:
提取包括在文本数据中的关键词;
从包括在多个第一参考文本分析数据的词中提取所述关键词的相关词;
对所述关键词及所述相关词的每一个赋予权重;
基于所述权重给多个第二参考文本分析数据的每一个打分数;
基于所述分数给所述多个第二参考文本分析数据排序来生成排序数据;以及
输出所述排序数据。
15.根据权利要求14所述的文件检索方法,
其中给包含与所述关键词或所述相关词匹配的词的所述第二参考文本分析数据打所述分数。
16.根据权利要求14或15所述的文件检索方法,
其中所述关键词的所述权重为所述关键词的基于所述多个第一参考文本分析数据或所述多个第二参考文本分析数据中的逆文档频率的值,
并且所述相关词的所述权重为基于所述相关词的分布表示向量和所述关键词的分布表示向量的相似度或距离的值与所述关键词的所述权重之乘积。
17.根据权利要求14至16中任一项所述的文件检索方法,
其中所述多个第一参考文本分析数据与所述多个第二参考文本分析数据相同。
18.根据权利要求14至17中任一项所述的文件检索方法,
其中所述相关词利用通过包括在所述多个第一参考文本分析数据中的词的分布表示的机械学习得到的分布表示向量而提取。
19.根据权利要求14至18中任一项所述的文件检索方法,
其中所述相关词基于所述词的分布表示向量和所述关键词的分布表示向量的相似度或距离的接近而从包括在所述多个第一参考文本分析数据中的词中提取。
20.根据权利要求19所述的文件检索方法,
其中所述词的分布表示向量为使用神经网络而生成的向量。
21.根据权利要求14至20中任一项所述的文件检索方法,
其中进行所述文本数据的形态分析来生成分析数据,基于所述多个第一参考文本分析数据或所述多个第二参考文本分析数据中的逆文档频率的程度而从包括在所述分析数据的词中提取所述关键词,由此提取包括在所述文件数据中的所述关键词。
22.根据权利要求14至21中任一项所述的文件检索方法,
其中所述第一参考文本分析数据为进行第一参考文本数据的形态分析来生成的数据,
并且所述第二参考文本分析数据为进行第二参考文本数据的形态分析来生成的数据。
23.一种程序,该程序使处理器执行如下步骤:
提取包括在文本数据中的关键词的第一步骤;
从包括在多个第一参考文本分析数据的词中提取所述关键词的相关词的第二步骤;
对所述关键词及所述相关词的每一个赋予权重的第三步骤;
基于与包含在所述第二参考文本分析数据中的词匹配的所述关键词或所述相关词的所述权重给多个所述第二参考文本分析数据的每一个打分数的第四步骤;以及
基于所述分数给所述多个第二参考文本分析数据排序来生成排序数据的第五步骤。
24.一种储存有权利要求23所述的程序的非暂时性计算机可读存储介质。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-055934 | 2018-03-23 | ||
JP2018055934 | 2018-03-23 | ||
PCT/IB2019/052022 WO2019180546A1 (ja) | 2018-03-23 | 2019-03-13 | 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112136126A true CN112136126A (zh) | 2020-12-25 |
Family
ID=67986795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980033402.2A Pending CN112136126A (zh) | 2018-03-23 | 2019-03-13 | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11789953B2 (zh) |
JP (4) | JP7321143B2 (zh) |
KR (1) | KR20200134265A (zh) |
CN (1) | CN112136126A (zh) |
DE (1) | DE112019001497T5 (zh) |
WO (1) | WO2019180546A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691965A (zh) * | 2020-12-29 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 简历推荐方法、岗位推荐方法、电子设备 |
CN115329051A (zh) * | 2022-10-17 | 2022-11-11 | 成都大学 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409754B2 (en) * | 2019-06-11 | 2022-08-09 | International Business Machines Corporation | NLP-based context-aware log mining for troubleshooting |
WO2021014256A1 (ja) | 2019-07-19 | 2021-01-28 | 株式会社半導体エネルギー研究所 | オブジェクトをテキストに変換する方法およびシステム |
WO2021250950A1 (ja) * | 2020-06-11 | 2021-12-16 | 株式会社島津製作所 | 文書検索の性能を評価する方法、システム、および装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
US20080168288A1 (en) * | 2007-01-05 | 2008-07-10 | Hon Hai Precision Industry Co., Ltd. | Power-save circuit for computer |
US20140067846A1 (en) * | 2012-08-30 | 2014-03-06 | Apple Inc. | Application query conversion |
JP2015041239A (ja) * | 2013-08-21 | 2015-03-02 | Kddi株式会社 | メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法 |
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
US20160343452A1 (en) * | 2015-05-21 | 2016-11-24 | Semiconductor Energy Laboratory Co., Ltd. | Electronic Device |
JP2017134675A (ja) * | 2016-01-28 | 2017-08-03 | 日本放送協会 | 情報検索装置及びプログラム |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263521A (ja) | 1995-03-24 | 1996-10-11 | Fuji Xerox Co Ltd | 文書登録検索システム |
JP2000207422A (ja) * | 1999-01-13 | 2000-07-28 | Fujitsu Ltd | 概念シソ―ラスを用いた文書の検索及び格付けシステム並びに方法 |
JP2007065745A (ja) | 2005-08-29 | 2007-03-15 | Canon Inc | 文書検索方法および文書検索装置、プログラム |
JP5186453B2 (ja) | 2009-08-07 | 2013-04-17 | ヤフー株式会社 | 検索装置及び方法 |
US20140324808A1 (en) | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
US11645317B2 (en) | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
US10810214B2 (en) * | 2017-11-22 | 2020-10-20 | Facebook, Inc. | Determining related query terms through query-post associations on online social networks |
US11182806B1 (en) * | 2018-01-04 | 2021-11-23 | Facebook, Inc. | Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities |
US10891943B2 (en) | 2018-01-18 | 2021-01-12 | Citrix Systems, Inc. | Intelligent short text information retrieve based on deep learning |
US11086857B1 (en) | 2018-05-15 | 2021-08-10 | Intuit Inc. | Method and system for semantic search with a data management system |
-
2019
- 2019-03-13 DE DE112019001497.8T patent/DE112019001497T5/de active Pending
- 2019-03-13 KR KR1020207029794A patent/KR20200134265A/ko unknown
- 2019-03-13 CN CN201980033402.2A patent/CN112136126A/zh active Pending
- 2019-03-13 JP JP2020508098A patent/JP7321143B2/ja active Active
- 2019-03-13 US US16/979,197 patent/US11789953B2/en active Active
- 2019-03-13 WO PCT/IB2019/052022 patent/WO2019180546A1/ja active Application Filing
-
2020
- 2020-09-15 JP JP2020154415A patent/JP2021072102A/ja not_active Withdrawn
- 2020-09-23 JP JP2020158272A patent/JP6916941B2/ja active Active
- 2020-10-07 US US17/064,871 patent/US20210026861A1/en active Pending
-
2023
- 2023-07-25 JP JP2023120817A patent/JP2023134810A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
US20080168288A1 (en) * | 2007-01-05 | 2008-07-10 | Hon Hai Precision Industry Co., Ltd. | Power-save circuit for computer |
US20140067846A1 (en) * | 2012-08-30 | 2014-03-06 | Apple Inc. | Application query conversion |
JP2015041239A (ja) * | 2013-08-21 | 2015-03-02 | Kddi株式会社 | メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法 |
US20160343452A1 (en) * | 2015-05-21 | 2016-11-24 | Semiconductor Energy Laboratory Co., Ltd. | Electronic Device |
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
JP2017134675A (ja) * | 2016-01-28 | 2017-08-03 | 日本放送協会 | 情報検索装置及びプログラム |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691965A (zh) * | 2020-12-29 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 简历推荐方法、岗位推荐方法、电子设备 |
CN115329051A (zh) * | 2022-10-17 | 2022-11-11 | 成都大学 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
CN115329051B (zh) * | 2022-10-17 | 2022-12-20 | 成都大学 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
DE112019001497T5 (de) | 2021-01-07 |
US20200409963A1 (en) | 2020-12-31 |
JP2021007024A (ja) | 2021-01-21 |
KR20200134265A (ko) | 2020-12-01 |
WO2019180546A1 (ja) | 2019-09-26 |
US20210026861A1 (en) | 2021-01-28 |
JPWO2019180546A1 (ja) | 2021-03-11 |
JP2023134810A (ja) | 2023-09-27 |
US11789953B2 (en) | 2023-10-17 |
JP2021072102A (ja) | 2021-05-06 |
JP6916941B2 (ja) | 2021-08-11 |
JP7321143B2 (ja) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112136126A (zh) | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 | |
US20220207070A1 (en) | Document search system and document search method | |
Nguyen et al. | Improving topic models with latent feature word representations | |
US20210011956A1 (en) | Information search system, intellectual property information search system, information search method, and intellectual property information search method | |
Li et al. | Learning distributed word representation with multi-contextual mixed embedding | |
Govindarajan | Sentiment analysis of restaurant reviews using hybrid classification method | |
Liu et al. | Drug-drug interaction extraction based on transfer weight matrix and memory network | |
Islam et al. | Technical approach in text mining for stock market prediction: A systematic review | |
Prokhorov et al. | AI for AI: What NLP techniques help researchers find the right articles on NLP | |
Shah et al. | Similarity driven unsupervised learning for materials science terminology extraction | |
Wang et al. | $ k $-Nearest Neighbor Augmented Neural Networks for Text Classification | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
Riduan et al. | A Systematic Literature Review of Text Classification: Datasets and Methods | |
Zhu et al. | A named entity recognition model based on ensemble learning | |
JP2023076598A (ja) | 情報検索の方法 | |
Alharbi et al. | Tourist reviews sentiment classification using deep learning techniques: A case study in saudi arabia | |
US20240012979A1 (en) | Reading comprehension support system and reading comprehension support method | |
WO2020240312A1 (ja) | 文書検索システム、及び文書検索方法 | |
Zhang et al. | Query Classification Based on Automatic Learning Query Representation | |
US20230026321A1 (en) | Document retrieval system | |
US20230334097A1 (en) | Information Retrieval System And Information Retrieval Method | |
Grokhowsky | Reducing knowledge synthesis workload time using a text-mining algorithm for research location and subtopic extraction from geographically dependent research publications | |
Silva | Sparse distributed representations as word embeddings for language understanding | |
Wang | Selected Topics in Deep Learning and Text Mining | |
CN111656360A (zh) | 稀疏性利用的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |